博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
二,nutch 1.0 web应用部署
阅读量:4134 次
发布时间:2019-05-25

本文共 830 字,大约阅读时间需要 2 分钟。

本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接 ).

本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料
  a)将解压出来目录中的nutch-1.0.war放到tomcat的webapps目录下.
  使用winrar打开.war文件,修改里边的配置文件.
 
  b)修改WEB-INF/classes/crawl-urlfilter.txt
  -[?*!@=]
  -.*(/[^/]+)/[^/]+/1/[^/]+/1/
  -.
  改为
  +[?*!@=]
  +.*(/[^/]+)/[^/]+/1/[^/]+/1/
  +.
 
  c)修改nutch-site.xml,在<configuration></configuration>内增加这样两属性:
    <property>
      <name>searcher.dir</name>
      <value>file:///d:/indexes/</value>
    </property>
<property>
      <name>http.agent.name</name>
      <value>RIDER</value>
    </property>
    <property>
      <name>hadoop.job.ugi</name>
      <value>rider(读者的计算机名),iamsolomon(读者的计算机密码)</value>
    </property>
  searcher.dir的值是我们抓取的内容生成的索引所存放的位置,
  http.agent.name属性写个有效的url或者计算机名即可
  第三个属性为计算机名与密码,貌似可以随便写,但是去掉这个属性的话会报错.
  此2属性均可根据自己的情况配置.
然后启动tomcat,访问http://localhost:8080/nutch-1.0即可访问我们架设的nutch了.效果如图:
nutch 1.0 的快照,貌似比以前的漂亮多了:

你可能感兴趣的文章
Qt札记
查看>>
我的vimrc和gvimrc配置
查看>>
hdu 4280
查看>>
禁止使用类的copy构造函数和赋值操作符
查看>>
C++学习路线
查看>>
私有构造函数
查看>>
组队总结
查看>>
TitledBorder 设置JPanel边框
查看>>
DBCP——开源组件 的使用
查看>>
抓包工具
查看>>
海量数据相似度计算之simhash和海明距离
查看>>
DeepLearning tutorial(5)CNN卷积神经网络应用于人脸识别(详细流程+代码实现)
查看>>
DeepLearning tutorial(6)易用的深度学习框架Keras简介
查看>>
DeepLearning tutorial(7)深度学习框架Keras的使用-进阶
查看>>
流形学习-高维数据的降维与可视化
查看>>
Python-OpenCV人脸检测(代码)
查看>>
python+opencv之视频人脸识别
查看>>
人脸识别(OpenCV+Python)
查看>>
6个强大的AngularJS扩展应用
查看>>
网站用户登录系统设计——jsGen实现版
查看>>