本文共 830 字,大约阅读时间需要 2 分钟。
本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接 ).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献. 我的个人资料 a)将解压出来目录中的nutch-1.0.war放到tomcat的webapps目录下. 使用winrar打开.war文件,修改里边的配置文件. b)修改WEB-INF/classes/crawl-urlfilter.txt -[?*!@=] -.*(/[^/]+)/[^/]+/1/[^/]+/1/ -. 改为 +[?*!@=] +.*(/[^/]+)/[^/]+/1/[^/]+/1/ +. c)修改nutch-site.xml,在<configuration></configuration>内增加这样两属性: <property> <name>searcher.dir</name> <value>file:///d:/indexes/</value> </property> <property> <name>http.agent.name</name> <value>RIDER</value> </property> <property> <name>hadoop.job.ugi</name> <value>rider(读者的计算机名),iamsolomon(读者的计算机密码)</value> </property> searcher.dir的值是我们抓取的内容生成的索引所存放的位置, http.agent.name属性写个有效的url或者计算机名即可 第三个属性为计算机名与密码,貌似可以随便写,但是去掉这个属性的话会报错. 此2属性均可根据自己的情况配置. 然后启动tomcat,访问http://localhost:8080/nutch-1.0即可访问我们架设的nutch了.效果如图: nutch 1.0 的快照,貌似比以前的漂亮多了: