티스토리 뷰

Java/Nutch

Nutch 시작하기

나야 2008. 11. 20. 21:53
페도라 9, OpenJDK, Nutch 0.9, tomca5.5(아파치 사이트에서 따로 다운받았습니다.)
그리고 Eclipse 3.3.

Lucene기반의 검색 엔진. Nutch. 위키피디아에는 Nutch를 Cross-Platform이라고 소개해놓았지만, 윈도우에서 실행시키려면, Cygwin을 설치해야 합니다.

먼저 Nutch 0.9를 다운받아서 Crawler를 한번 돌려봅니다. Nutch의 웹인터페이스를 돌려보려면, 일단 검색할 인덱스가 있어야 겠죠. 저를 포함한 초보자들은 Nutch공식위키에 소개되어 있는 멍청이를위한너치가이드 를 참고해서 Crawler를 돌려봅니다.


이제 이 크롤링한 결과를 웹에서 확인해봐야겠죠.
nutch 에 포함되어 있는 웹애플리케이션을 띄우면 위와 같은 화면을 볼 수 있습니다. nutch폴더에 war파일이 들어있죠? 그걸 deploy하면 됩니다. 하지만 아쉽게도 한글은 지원되지 않고, 게다가 아래와 같은 에러가 발생합니다.
톰캣이나 JSP버전에 문제가 있는 것 같은데, <%= %>안에 "가 들어갈 때 escape를 해줘야한다는 에러입니다. 역슬래쉬, \를 해주면 됩니다. 꼭 이클립스에서 할 필요는 없을 것 같은데 어쨌거나, 이클립스로 불러오겠습니다.
war를 그냥 import 해줘도 될 것같은데, 그냥 프로젝트를 하나 만들어서 WebContent 에 war에 들어있는 파일들을 그냥 복사했습니다.

그리고 크롤링한 결과가 저장되어 있는 경로를 수정해주어야 하는데, WEB-CONF/classes/nutch-site.xml 을다음과 같이 수정합니다.
value에 크롤링할 때 지정한 폴더를 넣어야 합니다.
그 다음에 돌려보면서 위에 에러가 난 부분을 수정해주면 됩니다. <%= %>내부에 쌍따옴표가 사용되었다면 그 앞에 \를 붙이면 됩니다.
이클립스에서는 에러라고 밑줄을 쫙쫙 그어주시는데, 실행은 됩니다.
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함