龙源期刊?/p>
http://www.qikan.com.cn
文本信息抽取算法研究
作者:李春?/p>
来源:《科学与财富?/p>
2017
年第
15
?/p>
(黑龙江工商学院
黑龙?/p>
哈尔?/p>
150025
?/p>
随着商品在线评论数量的骤然增加,消费者要想找出商品评论中的有用信息需要消耗大?/p>
精力
.
因此对这些散落在
Html
网页中无结构的信息进行提取、分析,不仅能够帮助消费者从?/p>
量的文本中快速获得有效的信息,节省人力成本,也可以帮助企业改进产品、提高质量,从?/p>
为电子商务产品推荐提供一种新的营销模式
.
为有效的抽取互联网上的信息,网络文本信息?/p>
结构化数据抽取技术、网络文本信息采集技术和细粒度数据挖掘技术应用而生
.
信息抽取技?/p>
是通过对网页进行处理,从半结构化或者非结构化的
Web
页面中抽取出用户感兴趣的信息?/p>
内容,并将其转化成清晰的结构形式
.
信息采集技术是指通过分析网页
Html
代码,获取网页内的超链接信息,并使用广度优先
遍历算法、深度优先遍历算法、增量存储算法等实现自动连续的分析链接、抓取文件、处理和
保存数据的过?/p>
.
细粒度挖掘技术深入到产品特征层面,能够提取到评价信息中涉及的评价?/p>
象、评价词以及对应的评价倾向等意见要素,从而为一些实际应用提供必要的细节信息
.
而目
前根据抽取技术和依据理论的不同,主要?/p>
RAPIERE
?/p>
WHISKt
?/p>
SRV
基于自然语言的信?/p>
抽取?/p>
STAI KER
?/p>
SOFTMEAI Y
?/p>
WINE
基于包装归纳的信息抽取,
WebQLE
基于
Web
查询
的信息抽取,基于文档结构模型和网页模板的
DOM
信息抽取?/p>
面对海量数据,抽取技术的性能是一个十分重要的评价指标,而通过网页结构分析并使?/p>
语言和格式规则进行标签筛选的技术却很少
.HtmlParser
是不依赖于库文件的轻量级解析器,?/p>
过语言与格式规则进行标签筛选,过滤目标数据,在保持系统抽取效率的基础上保证抽取算?/p>
的准确?/p>
.
本文首先介绍?/p>
URI
采集以及文本抽取的过程,其次给出?/p>
URL
采集和文本抽取算
法的关键步骤,再次通过举例实现?/p>
URL
采集和文本抽取算法,表明了基于语言和格式规?/p>
?/p>
HtmlParser
标签解析技术的性能和优?/p>
.
采用
HtmlParser
解析网页,得?/p>
URL
采集库,对库
?/p>
URL
所指向的页面进行标签解析从而实现文本提取的关键部分
.
1 URL
信息采集算法
信息采集过程的算法设计思想是:首先由一个初?/p>
URL
对队列进行初始化,然后从队列
中取出一个元素,获取此元素所指向?/p>
Web
页面,对页面进行网页源代码解析,得到目标?/p>
签中?/p>
URL
,将其入队,然后重复上面的过程,不断执行入队一出队一解析一获得
URL
的循
环操作,直到根据采集策略停止算法,具体过?/p>
算法
1
?/p>
URL
采集算法