java爬虫框架有哪些，各有什么特点-南京廖华答案网

java爬虫框架有哪些，各有什么特点下载本文

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

java爬虫框架有哪些，各有什么特点

目前主流的Java爬虫框架主要有Nutch、Crawler4j、WebMagic、scrapy、WebCollector等，各有各的特点，大家可以根据自己的需求选择使用，下面为大家详细介绍常见的java爬虫框架有哪些？各有什么特点？

常见的java爬虫框架有哪些 1、Nutch

Nutch是一个基于Lucene，类似Google的完整网络搜索引擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能，类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。

总体上Nutch可以分为2个部分：抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引，搜索程序则对反向索引搜索回答用户的请求。抓取程序和搜索程序的接口是索引，两者都使

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

用索引中的字段。抓取程序和搜索程序可以分别位于不同的机器上。下面详细介绍一下抓取部分。 Nutch抓取部分：

抓取程序是被Nutch的抓取工具驱动的。这是一组工具，用来建立和维护几个不同的数据结构： web database， a set of segments， and the index。下面逐个解释这三个不同的数据结构：

1、The web database，或者WebDB。这是一个特殊存储数据结构，用来映像被抓取网站数据的结构和属性的集合。WebDB 用来存储从抓取开始（包括重新抓取）的所有网站结构数据和属性。WebDB 只是被抓取程序使用，搜索程序并不使用它。WebDB 存储2种实体：页面和链接。页面表示网络上的一个网页，这个网页的Url作为标示被索引，同时建立一个对网页内容的MD5 哈希签名。跟网页相关的其它内容也被存储，包括：页面中的链接数量（外链接），页面抓取信息（在页面被重复抓取的情况下），还有表示页面级别的分数 score 。链接表示从一个网页的链接到其它网页的链接。因此 WebDB 可以说是一个网络图，节点是页面，链接是边。

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

2、Segment 。这是网页的集合，并且它被索引。Segment的Fetchlist 是抓取程序使用的url列表，它是从 WebDB中生成的。Fetcher 的输出数据是从 fetchlist 中抓取的网页。Fetcher的输出数据先被反向索引，然后索引后的结果被存储在segment 中。 Segment的生命周期是有限制的，当下一轮抓取开始后它就没有用了。默认的重新抓取间隔是30天。因此删除超过这个时间期限的segment是可以的。而且也可以节省不少磁盘空间。Segment 的命名是日期加时间，因此很直观的可以看出他们的存活周期。

3、The index。索引库是反向索引所有系统中被抓取的页面，它并不直接从页面反向索引产生，而是合并很多小的segment的索引产生的。Nutch 使用 Lucene 来建立索引，因此所有Lucene相关的工具 API 都用来建立索引库。需要说明的是Lucene的segment 的概念和Nutch的segment概念是完全不同的，不要混淆。简单来说 Lucene 的 segment 是 Lucene 索引库的一部分，而Nutch 的Segment是WebDB中被抓取和索引的一部分。

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

2、crawler4j

crawler4j是Java实现的开源网络爬虫。提供了简单易用的接口，可以在几分钟内创建一个多线程网络爬虫。

crawler4j的使用主要分为两个步骤：

实现一个继承自WebCrawler的爬虫类；通过CrawlController调用实现的爬虫类。

WebCrawler是一个抽象类，继承它必须实现两个方法：shouldVisit和visit。其中：

shouldVisit是判断当前的URL是否已经应该被爬取（访问）；

visit则是爬取该URL所指向的页面的数据，其传入的参数即是对该web页面全部数据的封装对象Page。

另外，WebCrawler还有其它一些方法可供覆盖，其方法的命名规则类似于Android的命名规则。如getMyLocalData方法可以返回

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

WebCrawler中的数据；onBeforeExit方法会在该WebCrawler运行结束前被调用，可以执行一些资源释放之类的工作。

开源地址： https://github.com/yasserg/crawler4j

3、WebMagic

WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic，你可以快速开发出一个高效、易维护的爬虫。 WebMagic的特点：

? 简单的API，可快速上手 ? 模块化的结构，可轻松扩展 ?

提供多线程和分布式支持

源码地址：https://github.com/code4craft/webmagic

4、WebCollector

Word文档下载：java爬虫框架有哪些，各有什么特点.doc

搜索更多:java爬虫框架有哪些，各有什么特点