Nutch1.10教程-分步抓取

2016-12-31

如果要深入学习Nutch爬虫技术,仅仅会使用crawl命令是不够的,还需要对抓取的过程非常熟悉。本篇文章讲解分布抓取的详细步骤,这里需要用到上一教程中seed.txt所保存的URL信息,还需删除data/crawldb,data/linkdb和data/segments文件夹下的内容,因为我们要分步重新抓取数据。

上一教程crawl命令这篇文章讲解了一站式抓取命令crawl的用法,然而,实际的抓取过程包含多个命令的,为了简化操作,crawl把多个命令组合到一起提供给用户使用的。如果要深入学习Nutch爬虫技术,仅仅会使用crawl命令是不够的,还需要对抓取的过程非常熟悉。本篇文章讲解分布抓取的详细步骤,这里需要用到上一教程中seed.txt所保存的URL信息,还需删除data/crawldb,data/linkdb和data/segments文件夹下的内容,因为我们要分步重新抓取数据。

1 Nutch数据文件夹组成

执行crawl命令之后,会在Nutch的runtime/local下面生成一个TestCrawl文件夹,里面包含三个文件夹:crawldb、linkdb和segments。

crawldb:它包含Nutch所发现的所有URL,它包含了URL是否被抓取、何时被抓取的信息。

linkdb:它包含了Nutch所发现的crawldb中的URL所对应的全部链接,以及源URL和锚文本。

segments:里面包含多个以时间命名的segment文件夹,每个segment就是一个抓取单元,包含一系列的URL,每个segment又包含如下文件夹:

crawl_generate:待抓取的URL

crawl_fetch:每个URL的抓取状态

content:从每个URL抓取到的原始内容

parse_text:从每个URL解析得到的文本

parse_data:从每个URL解析得到的外链和元数据

crawl_parse:包含外链URL,用来更新crawldb

2 将URL列表注入到crawldb中

bin/nutch inject data/crawldb urls

3 抓取

3.1 生成抓取列表

为了抓取指定URL的页面,我们需要先从数据库(crawldb)里生成一个抓取列表:

bin/nutch generate data/crawldb data/segments

generate命令执行之后,会生成一个待抓取页面的列表,抓取列表存放在一个新建的segment路径中。segment的文件夹根据创建的时间进行命名(本教程文件夹名为201507151245)。

generate还有很多可选参数,读者可以通过以下命令自行查看(其它命令的查看方法也一样):

bin/nutch generate

3.2 开始抓取

根据generate生成的抓取列表抓取网页:

bin/nutch fetch data/segments/201507151245 #这里的201507151245为文件夹名,需要根据自己的情况进行更改,或者直接采用data/segments文件夹,这样的操作对segments文件夹下的所有子文件夹生效,后文同理。

3.3 解析

bin/nutch parse data/segments/201507151245

3.4 更新数据库

根据抓取的结果更新数据库:

bin/nutch updated data/crawldb –dir data/segments/201507151245

现在,数据库里包含所有初始页面更新后的入口,以及从初始集合中新发现的页面的新入口。

3.5 反转链接

在建立索引之前,我们首先对所有的链接进行反转,这样我们才可以对页面的来源锚文本进行索引。

bin/nutch invertlinks data/linkdb –dir data/segments/201507151245

3.6 将抓取到的数据加入Solr索引

如果还没有安装Apache Solr,请参考Nutch 1.10入门教程(三)——Solr安装与配置安装好Solr服务器,并启动。

现在,我们对抓取到的资源建立索引:

bin/nutch index data/crawldb -linkdb data/linkdb -params solr.server.url=http://192.168.1.11:8983/solr -dir data/segments/201507151245

3.7 去除重复URL

一旦建立了全文索引,它必须处理重复的URL,使得URL是唯一的:

bin/nutch dedup

这个命令基于签名查找重复的URL,对重复的URL标记为STATUS_DB_DUPLICATE,Cleaning和Indexing任务将会根据标记删除它们。

3.8 清理

bin/nutch clean –D solr.server.url=http://192.168.1.11:8983/solr data/crawldb

从solr移除HTTP301、404以及重复的文档。

到此为止,我们使用分步抓取的方式完成了所有抓取步骤,正常抓取的情况下,可以在http://192.168.1.11:8983/solr进行搜索了

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章