파이썬으로 웹 크롤러 만들기 (Web Scraping with Python)
저자 : 라이언 미첼
역자 : 한선용
출판사 : 한빛미디어
책정보 : http://www.hanbit.co.kr/media/books/book_view.html?p_code=B7159663510&tid=misprint
개요
대상 독자
파이썬 초급자 이면서 웹 크롤링에 관심이 있는 사람
굳이 파이썬을 모르는 상태라도, 웹 크롤링의 전반적인 내용을 알 수 있을 듯
출판사 정보에는 책의 난이도가 ”초급” 이라고 되어있지만
주관적인 생각으로는 좀 애매하기도 함
(뭐 그건 내가 초심자라서 그렇다고 해두자)
특징
책장을 넘기기 전
이 책은 파이썬을 이용해 크롤러를 만들어서 데이터를 가져올 수 있도록 하는 입문 연습서 라고 생각했었다.
처음 나오는 ”옮긴이의 말”에도 나와 비슷한 생각을 했다고 기술 되어 있다.
얇은 책 이지만 다루는 범위가 생각보다 상당히 많았다.
- 문서 읽기
- 자연어 통계 분석
- captcha ;;;;;
- 그리고 법률 관련
참… 케븐베이컨의 여섯다리를 여기서 보게 될 줄도 몰랐다!!!
파이썬 측면의 특징
- 파이썬 가상화 구축
(강제하지 않는다는 부연설명이 있긴 하다.)
프로그램을 만드는 목적을 분명히 함으로써
운영 환경의 이전 또는 배포시에도 간편하고 명확하기 때문에 사용을 추천하는 내용이다. - 예외처리(except)
나와 같은 초심자가 코드만 보고 만들면 분명히 직명하게 될법한 상황중 하나를 잘 설명해 주고 있다.
본 도서는 파이썬 입문서가 아님에도, 파이썬을 처음 접하는 사람에게 도움이 될만한(뭐.. 마음에 안올 수 도 있지만.. ;;;)내용을 첫장&초반 부터 언급하고 있다.
개인적으로 추천하는 부분 이다.
추가로, 특정 코드는 상세 설명이 되어 있는 부분도 있다.
웹스크래퍼의 활용에 대한 고찰
웹스크래퍼가
- 웹사이트의 프런트앤드 부분을 테스트 할 경우에도 사용 할 수 있다는것
- 체크리스트를 만들어 자동화 시킬 수 있다는 부분
은 아주 유용한 활용 이라 생각된다.
책을 읽기 전에도, 중반까지 읽으면서도 웹스크래퍼를 만들어서
뭔가를 보여주는 것에만 사용하면 되겠거니 했던
본인의 한정된 센스를 되돌아봄… ;
마무리
- 파이썬을 이용한 기본적인 스크래핑
- 다양한 모듈에 대한 소개
- 스크래핑에 대한 방법론 및 활용
- 법률상의 참고사항 (물론 보증이 아니라 참고용으로)
에 대한 설명은 나름 유용하다.
특히 본인이 관심있던(정확히는 책의 앞부분 정도면 됐지만) 부분이 마침 설명이 되어있어 반가운 책이었다.
책이 얇은 만큼 각 모듈의 심도있는 활용까지 소개되어 있지는 않지만
입문서 성격으로 이정도면 충분하다 싶다.