`
dreambyheart
  • 浏览: 29995 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
社区版块
存档分类
最新评论

nutch 0.9在Windows下的安装

阅读更多
nutch 0.9在Windows下的安装

转载自:http://www.cnblogs.com/phinecos/archive/2007/11/20/965835.html

一、环境:
      1.操作系统:windowsXp,windows2000+
      2.java1.6,设置JAVA_HOME到环境变量
      3.cygwin,当然这个不是必需的,只是nutch提供的脚本只能在shell环境下使用,所以使用cygwin来虚拟shell命令。
      4.nutch版本:0.9
      5.tomcat:6.0

二、nutch的安装和配置:

1,安装Cygwin1.5.5(我这里装到d:\cygSys),将nutch解压缩后放置到一个目录下(我放在d:\nutch下)

2,在Cygwin环境下进入nutch-0.9目录下,使用命令 bin/nutch进行测试,正常的情况下出现的结果是类似于执行java命令一样,让你指定一些参数。

3,进行抓取网站的测试,以抓取http://www.163.com/为例

1) 新建一个文件myurl,在文件中输入http://www.163.com/保存,这个文件可以放在任何地方(我这个文件放在D:\nutch\home\myurl),另外再建立一个爬虫日志目录logs(我放在D:\nutch\home\logs文件夹下,真正抓取的时候在命令行里面需要指定这个目录还有具体文件名。)

2) 打开nutch-0.9\conf\nutch-site.xml文件,在<configuration></configuration>内插入以下内容:
                <property>
                                <name>http.agent.name</name>
                                <value>HD nutch agent</value>
                </property>
                <property>
                                <name>http.agent.version</name>
                                <value>1.0</value>
                </property>
3) 打开nutch-0.9\conf\crawl-urlfilter.txt文件,把MY.DOMAIN.NAME字符替换为myurl内的域名(比如我改成了“+^http://([a-z0-9]*\.)*163.com/”,其实更简单点,直接删除MY.DOMAIN.NAME这几个字就可以了,也就是说,只保存+^http://([a-z0-9]*\.)*这几个字就可以了,表示所有http的网站都同意爬行)。

4) 切换到 nutch 命令所在的bin目录,然后运行爬虫,在Cygwin输入以下命令:
./nutch crawl ../home/myurl -dir ../getContent -depth 4 -threads 5 -topN 1000 >&../home/logs/crawl1.log


../home/myurl 上面指定的爬取得URL
-dir ../getContent 爬取并分析后的索引存放目录
-depth 4 深度
-threads 5 线程数

需要注意点是在1000后面要跟一个空格,要不然会出现错误。
&../home/logs/crawl1.log  最后就是log的名字


运行结束后,你可以打开日志文件查看爬虫运行的详细过程。

5,在tomcat上运行Nutch

把nutch-0.9.war拷贝到Tomcat\webapps\下面

在浏览器中输入http://localhost:8080/nutch-0.9/这步是为了使tomcat展开nutch-0.9.war,然后修改webapps/ nutch-0.9/WEB-INF/classes/nutch-site.xml文件如下:

<configuration>
<property>
  <name>searcher.dir</name>
  <value>D:\\nutch\\getContent</value>
</property>
</configuration>

拷贝的时候 <configuration>标记 可不要和元配置文件里的重复啊。

为了支持中文的搜索,修改Tomcat\conf\server.xml。找到对应的地方修改成
    <Connector port="8080" protocol="HTTP/1.1"
               connectionTimeout="20000"
               redirectPort="8443" URIEncoding="UTF-8" useBodyEncodingForURI="true"/>

在浏览器中输入http://localhost:8080/nutch-0.9,然后就可以从爬取结果里面检索了。

  • 大小: 86.3 KB
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics