八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
八爪鱼采集器正则表达式入门教程
正则表达式(Regular Expression),按英文直译是“规范化表达”,其作用是将复杂模糊的源数据通过正则表达式转化为简单直观的目标数据。例如:
“150ABCD” “一百五ABCD”
“One hundred and fiftyABCD”
分析思考过程:
以上字符串中,我们的源数据数据分别为:““150ABCD”、“一百五ABCD”、“One hundred and fiftyABCD”
假设我们要提取目标数据为:字符串中以数字开头的数据 那么我们约束条件为:只取字符串中以数字开头的源数据 将此约束条件转化为正则表达式为:[0-9](.+)\\b
其中,[0-9]的语义为开头1位为0-9开头,中间间隔以通配符“.”代替,(.+)语义为字符串长度不做限定,\\b的语义为,匹配一个边界。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
正则后的目标数据:“150ABCD”
通过这个简单例子,我们大致了解到了为什么要用正则与正则所能实现的效果,讲通俗点就是,正则只是将我们的意愿(提取字符串中以数字开头的数据)以表达式的形式展现出来([0-9](.+)\\b),并最终通过表达式匹配到所需要的目标数据(“150ABCD”),所以灵活运用正则,可以通过简单的方法实现强大的功能。
为什么要在八爪鱼中使用正则?
在八爪鱼采集数据过程中,受限于网页HTML结构的原因,部分目标数据并不能单独提取出来,这时需要简单的搜索与替换操作来提取与预期搜索结果匹配的确切文本,除此之外,对数据要求精准规范的用户,还能通过正则表达式测试所提取数据字符串的模式、替换文本、基于匹配模式从字符串中提取子字符串等操作。 例如:
匹配字符串内模式:
1.查看字符串是否出现电话号码模式 2.查看字符串是否出现网址URL模式 替换文本:
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
1.用正则表达式识别字符中特定文本
2.用正则表达式完全删除该文本或用其他文本替换它 基于匹配模式从字符串中提取子串 1. 用于查找字符串文本内特定文本
相关采集教程:
八爪鱼数据爬取入门基础操作
http://www.bazhuayu.com/tutorial/xsksrm/rmjccz 八爪鱼网站抓取入门功能介绍
http://www.bazhuayu.com/tutorial/xsksrm/rmgnjs
八爪鱼爬虫软件功能使用教程 http://www.bazhuayu.com/tutorial/gnd 循环翻页爬取网页数据 http://www.bazhuayu.com/tutorial/gnd/xunhuan ajax网页数据抓取 http://www.bazhuayu.com/tutorial/gnd/ajaxlabel 特殊翻页操作 http://www.bazhuayu.com/tutorial/gnd/teshufanye 模拟登录并识别验证码抓取数据
http://www.bazhuayu.com/tutorial/gnd/dlyzm
八爪鱼——90万用户选择的网页数据采集器。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。
2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。
3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。
4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。