Nutch 2.0 Eclipse에서 돌리기 Maven이용
참고사이트 http://foreblue.net/wiki/index.php/Nutch_%EC%B4%88%EA%B0%84%EB%8B%A8_%EB%B9%8C%EB%93%9C%EC%99%80_%EC%8B%A4%ED%96%89 http://foreblue.net/wiki/index.php/Nutch_%EA%B0%9C%EB%B0%9C%ED%99%98%EA%B2%BD%EA%B5%AC%EC%84%B1
넛츠 개발자넘들은 도대체 뭘로 개발하는건지 모르겠다. 메이븐이 제대로 안 돌아간다.
먼저 위에 써놓은 부분처럼 pom.xml을 수정해줘야한다.
기타 의존성 문제는 에러메세지를 보면서 추가하면 금방 해결된다. 사람마다 다른 메세지가 뜰테니…
2.넛츠 튜토리얼에 있는것처럼 추가한다.
http://wiki.apache.org/nutch/NutchTutorial
nutch-site.xml.template로 돼 있는파일 nutch-site.xml로 변경 후 튜토리얼 보고 셋팅하고
regex-urlfilter.txt요곳도 변경
3. 실행설정
이클립스 java 실행 설정
org.apache.nutch.crawl.Crawler urls -dir crawl -depth 3 -topN 50 -Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
4.