八爪鱼爬虫原理详解 下载本文

八爪鱼·云采集服务平台

www.bazhuayu.com

图5 固定元素列表-点击元素

但是下列情况是不会加快采集速率的,例如:

八爪鱼·云采集服务平台

www.bazhuayu.com

图 6 固定元素列表-提取数据

原因是因为固定元素列表-提取数据虽然可以拆分成子任务,但是因为提取同页面数据操作本身很快,所以几乎没有任务加速效果 例如:

子任务A:打开网页(20s)-提取位置a数据(0.1s) 子任务B:打开网页(20s)-提取位置b数据(0.1s) 子任务C:打开网页(20s)-提取位置c数据(0.1s) ......

八爪鱼·云采集服务平台

www.bazhuayu.com

子任务N:打开网页(20s)-提取位置n数据(0.1s)

如上例,虽然拆分了任务但是实际任务执行时间还是约等于21秒左右,和不拆分任务的时间比较的如下: 总任务S: 打开网页(20s) 提取位置a数据(0.1s) 提取位置b数据(0.1s) 提取位置c数据(0.1s) ......

提取位置n数据(0.1s)

此时我们可以看到,不拆分的时间T=20+0.1*10=21S

所以虽然此时我们用不固定元素拆分了任务,但是没有带来显著的提取数据效率的提升

对于固定元素列表-点击元素就不一样了,因为点击元素往往都要打开详情页,例如: 子任务A:打开网页(20s)-点击位置元素a(20s)-提取位置a数据(0.1s) 子任务B:打开网页(20s)-点击位置元素b(20s)提取位置b数据(0.1s)

八爪鱼·云采集服务平台

www.bazhuayu.com

子任务C:打开网页(20s)-点击位置元素c(20s)-提取位置c数据(0.1s) ......

子任务N:打开网页(20s)-点击位置元素n(20s)n--提取位置n数据(0.1s) 由于是子任务是同时执行的,此时时间T=20+20+0.1=40.1S,约41秒左右

固定元素列表-点击元素,不拆分任务时的时间比较如下: 总任务S: 打开网页(20s)

点击位置元素a(20s)-提取位置a数据(0.1s) 点击位置元素b(20s)-提取位置b数据(0.1s) 点击位置元素c(20s)-提取位置c数据(0.1s) .....

点击位置元素n(20s)-提取位置n数据(0.1s) 此时我们可以看到,不拆分的时间T=20+(20+0.1)*n

当n=10时,T=221S,与拆分的41S比较,耗时几乎是拆分的5倍

八爪鱼·云采集服务平台

www.bazhuayu.com

综上所述:

满足拆分条件的任务分别为: A.URL列表循环 B.文本列表循环 C.固定元素列表循环

相关采集教程:

八爪鱼使用功能点视频教程

http://www.bazhuayu.com/tutorial/videotutorial/videognd 八爪鱼爬虫软件入门准备

http://www.bazhuayu.com/tutorial/xsksrm/rmzb 八爪鱼数据爬取入门基础操作

http://www.bazhuayu.com/tutorial/xsksrm/rmjccz 八爪鱼网站抓取入门功能介绍

http://www.bazhuayu.com/tutorial/xsksrm/rmgnjs 八爪鱼爬虫软件功能使用教程

http://www.bazhuayu.com/tutorial/gnd 八爪鱼分页列表详细信息采集方法(7.0版本)

八爪鱼·云采集服务平台

www.bazhuayu.com

http://www.bazhuayu.com/tutorial/fylbxq7 八爪鱼7.0版本网页简易模式简介以及使用方法 http://www.bazhuayu.com/tutorial/jyms 八爪鱼7.0版本向导模式简介以及使用方法 http://www.bazhuayu.com/tutorial/xdms

八爪鱼——百万用户选择的网页数据采集器。

1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。

2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。

3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。

4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。