티스토리 뷰
페도라 9, OpenJDK, Nutch 0.9, tomca5.5(아파치 사이트에서 따로 다운받았습니다.)
그리고 Eclipse 3.3.
Lucene기반의 검색 엔진. Nutch. 위키피디아에는 Nutch를 Cross-Platform이라고 소개해놓았지만, 윈도우에서 실행시키려면, Cygwin을 설치해야 합니다.
먼저 Nutch 0.9를 다운받아서 Crawler를 한번 돌려봅니다. Nutch의 웹인터페이스를 돌려보려면, 일단 검색할 인덱스가 있어야 겠죠. 저를 포함한 초보자들은 Nutch공식위키에 소개되어 있는 멍청이를위한너치가이드 를 참고해서 Crawler를 돌려봅니다.
이제 이 크롤링한 결과를 웹에서 확인해봐야겠죠.
nutch 에 포함되어 있는 웹애플리케이션을 띄우면 위와 같은 화면을 볼 수 있습니다. nutch폴더에 war파일이 들어있죠? 그걸 deploy하면 됩니다. 하지만 아쉽게도 한글은 지원되지 않고, 게다가 아래와 같은 에러가 발생합니다.
톰캣이나 JSP버전에 문제가 있는 것 같은데, <%= %>안에 "가 들어갈 때 escape를 해줘야한다는 에러입니다. 역슬래쉬, \를 해주면 됩니다. 꼭 이클립스에서 할 필요는 없을 것 같은데 어쨌거나, 이클립스로 불러오겠습니다.
war를 그냥 import 해줘도 될 것같은데, 그냥 프로젝트를 하나 만들어서 WebContent 에 war에 들어있는 파일들을 그냥 복사했습니다.
그리고 크롤링한 결과가 저장되어 있는 경로를 수정해주어야 하는데, WEB-CONF/classes/nutch-site.xml 을다음과 같이 수정합니다.
value에 크롤링할 때 지정한 폴더를 넣어야 합니다.
그 다음에 돌려보면서 위에 에러가 난 부분을 수정해주면 됩니다. <%= %>내부에 쌍따옴표가 사용되었다면 그 앞에 \를 붙이면 됩니다.
이클립스에서는 에러라고 밑줄을 쫙쫙 그어주시는데, 실행은 됩니다.
그리고 Eclipse 3.3.
Lucene기반의 검색 엔진. Nutch. 위키피디아에는 Nutch를 Cross-Platform이라고 소개해놓았지만, 윈도우에서 실행시키려면, Cygwin을 설치해야 합니다.
먼저 Nutch 0.9를 다운받아서 Crawler를 한번 돌려봅니다. Nutch의 웹인터페이스를 돌려보려면, 일단 검색할 인덱스가 있어야 겠죠. 저를 포함한 초보자들은 Nutch공식위키에 소개되어 있는 멍청이를위한너치가이드 를 참고해서 Crawler를 돌려봅니다.
이제 이 크롤링한 결과를 웹에서 확인해봐야겠죠.
nutch 에 포함되어 있는 웹애플리케이션을 띄우면 위와 같은 화면을 볼 수 있습니다. nutch폴더에 war파일이 들어있죠? 그걸 deploy하면 됩니다. 하지만 아쉽게도 한글은 지원되지 않고, 게다가 아래와 같은 에러가 발생합니다.
톰캣이나 JSP버전에 문제가 있는 것 같은데, <%= %>안에 "가 들어갈 때 escape를 해줘야한다는 에러입니다. 역슬래쉬, \를 해주면 됩니다. 꼭 이클립스에서 할 필요는 없을 것 같은데 어쨌거나, 이클립스로 불러오겠습니다.
war를 그냥 import 해줘도 될 것같은데, 그냥 프로젝트를 하나 만들어서 WebContent 에 war에 들어있는 파일들을 그냥 복사했습니다.
그리고 크롤링한 결과가 저장되어 있는 경로를 수정해주어야 하는데, WEB-CONF/classes/nutch-site.xml 을다음과 같이 수정합니다.
value에 크롤링할 때 지정한 폴더를 넣어야 합니다.
그 다음에 돌려보면서 위에 에러가 난 부분을 수정해주면 됩니다. <%= %>내부에 쌍따옴표가 사용되었다면 그 앞에 \를 붙이면 됩니다.
이클립스에서는 에러라고 밑줄을 쫙쫙 그어주시는데, 실행은 됩니다.
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- subervsion
- Fedora 8
- Linux
- 다음팟인코더
- xml2
- GMT
- OpenJDK6
- JavaMail
- SimpleDateFormat
- Fedora 9
- PostgreSQL
- 병합정렬
- smplayer
- Numbering
- output driver
- tsclient
- 출력드라이버
- userguide
- Eclipse
- Java
- 파란 화면을 보았니
- 리눅스
- OO3
- 모토로이
- yum update
- IcedTea6
- Arrays
- gl2
- openoffice
- pl/java
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
글 보관함