본문 바로가기

IT/크롤링

크롤링

장고 프로젝트에서 웹 크롤러 생성하는 절차를 기록 하고자 합니다.

일단 html 파서인 beautifulsoup을 설치를 해야 합니다 해당 패키지는 python의 패키지로 pip를 이용하여 설치하여야 합니다.


다음 명령을 실행하여 주세요.

pip install bs4


http 요청을 하기 위해서 selenium 을 설치 하는게 좋습니다. http 요청을 간단히 처리 하기 위해서는 requests 패키지가 있긴 하지만, 해당 요청의 경우, react 등으로 후처리로 화면을 구성하는 경우, 파싱이 불가능 합니다. 또한 브라우징을 하면서 파싱도 불가능 하기에 이 것들이 가능한 selenium을 이용하여 http 요청을 처리 하고 BeautifulSoup을 이용하여 html 을 파싱하는 것으로 결정하였습니다.


하여 selenium 을 설치해야 합니다.

pip install selenium


크롤링 처리 순서는 아래와 같이 진행 예정입니다.


selenium 과 beautifulsoup을 이용하는 방법은 이 사이트를 참고하였습니다.


'IT > 크롤링' 카테고리의 다른 글

로튼 토마토 평점 크롤링 하기  (0) 2019.04.03