'Java/Nutch'에 해당되는 글 1건

  1. 2008.11.20 Nutch 시작하기 (1)
2008.11.20 21:53
페도라 9, OpenJDK, Nutch 0.9, tomca5.5(아파치 사이트에서 따로 다운받았습니다.)
그리고 Eclipse 3.3.

Lucene기반의 검색 엔진. Nutch. 위키피디아에는 Nutch를 Cross-Platform이라고 소개해놓았지만, 윈도우에서 실행시키려면, Cygwin을 설치해야 합니다.

먼저 Nutch 0.9를 다운받아서 Crawler를 한번 돌려봅니다. Nutch의 웹인터페이스를 돌려보려면, 일단 검색할 인덱스가 있어야 겠죠. 저를 포함한 초보자들은 Nutch공식위키에 소개되어 있는 멍청이를위한너치가이드 를 참고해서 Crawler를 돌려봅니다.


이제 이 크롤링한 결과를 웹에서 확인해봐야겠죠.
nutch 에 포함되어 있는 웹애플리케이션을 띄우면 위와 같은 화면을 볼 수 있습니다. nutch폴더에 war파일이 들어있죠? 그걸 deploy하면 됩니다. 하지만 아쉽게도 한글은 지원되지 않고, 게다가 아래와 같은 에러가 발생합니다.
톰캣이나 JSP버전에 문제가 있는 것 같은데, <%= %>안에 "가 들어갈 때 escape를 해줘야한다는 에러입니다. 역슬래쉬, \를 해주면 됩니다. 꼭 이클립스에서 할 필요는 없을 것 같은데 어쨌거나, 이클립스로 불러오겠습니다.
war를 그냥 import 해줘도 될 것같은데, 그냥 프로젝트를 하나 만들어서 WebContent 에 war에 들어있는 파일들을 그냥 복사했습니다.

그리고 크롤링한 결과가 저장되어 있는 경로를 수정해주어야 하는데, WEB-CONF/classes/nutch-site.xml 을다음과 같이 수정합니다.
value에 크롤링할 때 지정한 폴더를 넣어야 합니다.
그 다음에 돌려보면서 위에 에러가 난 부분을 수정해주면 됩니다. <%= %>내부에 쌍따옴표가 사용되었다면 그 앞에 \를 붙이면 됩니다.
이클립스에서는 에러라고 밑줄을 쫙쫙 그어주시는데, 실행은 됩니다.
Posted by 나야

댓글을 달아 주세요

  1. 너치초보 2015.10.02 09:57  댓글주소  수정/삭제  댓글쓰기

    관리자의 승인을 기다리고 있는 댓글입니다