파일은 아래와 같은 형식으로 검색어, 시작날짜, 종료날짜로 폴더가 만들어지고 그 안에 3개의 파일이 들어가게 됩니다
첫번째는 txt파일로 는 해당기간 검색어에 대한 네이버기사 링크들이 저장됩니다
두번째는 csv파일로 첫번째에 저장한 링크들에 대한 기사 댓글들입니다(기사제목, 댓글 작성날짜, 댓글)
세번째는 excel 파일로 두번째 csv파일에서 변경하여 저장됩니다
멀티프로세싱을 사용하여 구현했습니다
CPU 코어는 최대 코어의 0.8만큼만 사용하게 설정하였습니다
저는 노트북이고 램도 차있고 사양이 좋지도 않아서 좀 버벅이네요..ㅠ
PC에서 사용하면 버벅임이 없었습니다:)
BERT모델을 이용하여 감성분석을 종종 사용하다보니까 멀티프로세싱 크롤러를 제작해봤습니다
크롬옵션에서 chrome_options.add_argument('--headless') 일부로 켜놨습니다
동영상과는 다르게 브라우저 창을 띄우지 않고 작동하는 것이니 걱정안하셔도 됩니다
코드는 아래 깃허브에 올려놓았으니 clone해서 사용하시면 됩니다
https://github.com/Taeyoung1005/naver_news_comment_crawller
GitHub - Taeyoung1005/naver_news_comment_crawller: 네이버 뉴스 기사 댓글 크롤러 입니다(멀티 프로세싱)
네이버 뉴스 기사 댓글 크롤러 입니다(멀티 프로세싱). Contribute to Taeyoung1005/naver_news_comment_crawller development by creating an account on GitHub.
github.com
싱글 프로세싱은 주피터형식으로만 만들어놨네요,,,ㅎㅎ 쓸일이 없어서..
프로그램 작동안되면 말해주세요~
'유용한 기능' 카테고리의 다른 글
NEXT-7004N 공유기 포트포워딩 후 vscode로 라즈베리파이 ssh연결 (0) | 2022.12.29 |
---|