Nutch 2.0 Eclipse에서 돌리기 Maven이용

참고사이트
http://foreblue.net/wiki/index.php/Nutch_%EC%B4%88%EA%B0%84%EB%8B%A8_%EB%B9%8C%EB%93%9C%EC%99%80_%EC%8B%A4%ED%96%89
http://foreblue.net/wiki/index.php/Nutch_%EA%B0%9C%EB%B0%9C%ED%99%98%EA%B2%BD%EA%B5%AC%EC%84%B1

<build>
<resources>
<resource>
<directory>conf</directory>
</resource>
</resources>
......

1.5인거 1.6으로 수정...
</build>

<dependency>
	<groupId>log4j</groupId>
	<artifactId>log4j</artifactId>
	<version>1.2.15</version>
	<exclusions>
<exclusion>
<artifactId>jms</artifactId>
<groupId>javax.jms</groupId>
</exclusion>
<exclusion>
<artifactId>jmxtools</artifactId>
<groupId>com.sun.jdmk</groupId>
</exclusion>
<exclusion>
<artifactId>jmxri</artifactId>
<groupId>com.sun.jmx</groupId>
</exclusion>
</exclusions>
<optional>true</optional>
</dependency>

넛츠 개발자넘들은 도대체 뭘로 개발하는건지 모르겠다. 메이븐이 제대로 안 돌아간다.

먼저 위에 써놓은 부분처럼 pom.xml을 수정해줘야한다.

기타 의존성 문제는 에러메세지를 보면서 추가하면 금방 해결된다. 사람마다 다른 메세지가 뜰테니…

 

2.넛츠 튜토리얼에 있는것처럼 추가한다.

http://wiki.apache.org/nutch/NutchTutorial

nutch-site.xml.template로 돼 있는파일 nutch-site.xml로 변경 후 튜토리얼 보고 셋팅하고

regex-urlfilter.txt요곳도 변경

 

3. 실행설정

이클립스 java 실행 설정

org.apache.nutch.crawl.Crawler
urls -dir crawl -depth 3 -topN 50
-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log

4.

 

 

 

 

 

 

 

 

 

Leave a Reply

Your email address will not be published. Required fields are marked *

 characters available