본문 바로가기

IT/크롤링

(2)
로튼 토마토 평점 크롤링 하기 2019/03/23 - [IT/크롤링] - 크롤링 앞서 포스팅한 크롤링에서 이제 구현 단계를 포스팅하도록 하겠습니다. 대상은 영화 평점 사이트인 로튼토마토에서 영화 제목/개봉일/관객 평점을 크롤링하도록 하겠습니다. 로튼토마토를 대상으로 잡은 이유는 다른 사이트와 내부적 동작이 조금 달라 보여서 대상으로 잡았습니다. 해당 내용은 아래에서 설명하겠습니다. 자 그럼 시작 하겠습니다. PS: 해당 포스팅은 파이선을 이용한 크롤링입니다. 이점 참고하여 주세요. 1. 사이트 분석하기 일단 크롤링을 하기 위해서는 대상 사이트의 html 구조를 분석해야 합니다. 이 구조를 파악하기 좋은 게 각 브라우저에 있는 개발자 도구입니다. 사이트에서 F12 키를 누르면 개발자 도구가 나오게 됩니다. 아래처럼 나오게 됩니다. 해당..
크롤링 장고 프로젝트에서 웹 크롤러 생성하는 절차를 기록 하고자 합니다.일단 html 파서인 beautifulsoup을 설치를 해야 합니다 해당 패키지는 python의 패키지로 pip를 이용하여 설치하여야 합니다. 다음 명령을 실행하여 주세요.pip install bs4 http 요청을 하기 위해서 selenium 을 설치 하는게 좋습니다. http 요청을 간단히 처리 하기 위해서는 requests 패키지가 있긴 하지만, 해당 요청의 경우, react 등으로 후처리로 화면을 구성하는 경우, 파싱이 불가능 합니다. 또한 브라우징을 하면서 파싱도 불가능 하기에 이 것들이 가능한 selenium을 이용하여 http 요청을 처리 하고 BeautifulSoup을 이용하여 html 을 파싱하는 것으로 결정하였습니다. 하여..