Nutch 2.0 Eclipse에서 돌리기 Maven이용

참고사이트
http://foreblue.net/wiki/index.php/Nutch_%EC%B4%88%EA%B0%84%EB%8B%A8_%EB%B9%8C%EB%93%9C%EC%99%80_%EC%8B%A4%ED%96%89
http://foreblue.net/wiki/index.php/Nutch_%EA%B0%9C%EB%B0%9C%ED%99%98%EA%B2%BD%EA%B5%AC%EC%84%B1

넛츠 개발자넘들은 도대체 뭘로 개발하는건지 모르겠다. 메이븐이 제대로 안 돌아간다.

먼저 위에 써놓은 부분처럼 pom.xml을 수정해줘야한다.

기타 의존성 문제는 에러메세지를 보면서 추가하면 금방 해결된다. 사람마다 다른 메세지가 뜰테니…

 

2.넛츠 튜토리얼에 있는것처럼 추가한다.

http://wiki.apache.org/nutch/NutchTutorial

nutch-site.xml.template로 돼 있는파일 nutch-site.xml로 변경 후 튜토리얼 보고 셋팅하고

regex-urlfilter.txt요곳도 변경

 

3. 실행설정

이클립스 java 실행 설정

org.apache.nutch.crawl.Crawler
urls -dir crawl -depth 3 -topN 50
-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log

4.