基于内容冗余的Web信息抽取

龙源期刊网 http://www.qikan.com.cn

基于内容冗余的Web信息抽取

作者:陈夫桂 胡文江 高永兵 郝 斌 来源:《中国新技术新产品》2012年第06期

摘要:提出了一种从模板网站中利用网络上的冗余内容提取结构化数据的方法。该算法从一些原始网站提取记录来填充种子数据库。然后,在每一个新的站点标识值,为了配合不同跨站点交涉的属性值,我们进行了相似性度量。同时为了过滤掉噪声,我们在那些基于模板的网站发现并应用了该属性的实际值。另外借助SOGOU和NICTCLAS中文分词等第三方接口来准确计算词频,使文字分析更适合人们常用的习惯。

关键词:Web信息抽取;内容冗余;样本页面;抽取规则 中图分类号:TP31 文献标识码:A 1引言

随着信息化进程的推进以及网络技术的发展,越来越多的人开始认识到互联网作为信息来源的重要性,同时互联网也已经融入到了人们生活的方方面面。据中国互联网络信息中心(CNNIC)发布的《第29次中国互联网络发展状况统计报告》显示,截至2011年12月底,中国网民数量突破5亿,达到5.13亿,互联网普及率达到38.3%。然而在发展的同时也带来了一些新的问题,网页噪声的加重,许多由查询数据库自动生成的网页不能被搜索引擎检索,从而形成所谓的hidden Web。为解决这些问题Web信息抽取技术就应运而生。

Web信息抽取属于网络内容挖掘(Web content mining)研究的一部分,主要包括结构化数据抽取(Structured Data Extraction)、信息集成(Information integration)和观点挖掘(Opinion mining)等,本文是在结构化数据抽取的基础上提出的一种新的提取方法,利用内容跨站点之间模板结构上的内容冗余提取所要的web信息。 2相关信息抽取的研究与分析

目前的网页信息抽取技术, 包括基于归纳学习的信息抽取、基于HTML结构解析的信息抽取、基于Web查询的信息抽取、基于自然语言处理的信息抽取。其中基于归纳学习的信息抽取一般需要大量的训练样本, 并且由于目前互联网动态页面多、更新时间快, 所训练的样本经常不能满足要求; 基于HTML结构解析的信息抽取只是对网页的结构进行分析, 而网页是由结构和文本共同构成的, 对抽取内容的准确度造成一定的影响; 基于Web查询的信息抽取是对用户的查询行为进行分析以抽取用户感兴趣的内容, 但是用户查询目的是为了解决问题, 对自己所要查询的内容并不确定, 这样所抽取出的信息并不一定是用户所需要的。理论上讲, 基于自然语言处理的信息抽取能够对网页信息进行十分准确的抽取,它主要是关注网页的内容, 但是需要建立巨大的知识库, 由于Web更新速度快, 知识库不能及时更新, 并且

龙源期刊网 http://www.qikan.com.cn

由于知识库非常大, 解析一个页面所耗费的时间也比较长, 至今还没有见到比较好的基于自然语言处理的Web信息抽取系统。 3 基于内容冗余的web信息抽取方法 3.1一般信息抽取流程图其具体步骤如下: 第一步:确立采集目标,即由用户选择目标网站。

第二步:提取特征信息,即根据目标网站的网页格式,提取出采集目标数据的通性。 第三步:信息获取,即利用工具自动的把页面中提取的数据存到数据库。 3.2内容冗余的web信息抽取方法的设计

本方法在提取过程的开始阶段是从最初的几个网站(如:京东网和赶集网)的记录里填充种子数据库Apriori。这些记录是从网站中提取的,由人工编辑的属性值标注在每个站点的一些样本页,并学习网站的包装。注意:在Apriori的种子,每个记录包含一个从一个单一的实体页面的属性值。我们在扫描网络的页面过程中,找到相匹配的值在种子记录中的属性值。具体方法如下:

(1)利用跨站点之间基于模板的结构上的相似性冗余网页提取属性值。

(2)为了处理掉跨站点的不同属性的格式规定,我们定义了一个相似度度量的功能。利用基于模板的页面中的属性值有一个模板化的结构这一事实来提高匹配的精度。我们所提出的度量从两个站点发现重复模式之间的匹配属性值对部分,并使用此过滤掉不匹配的部分,进而计算相似性分数之间的属性值对。

(3)为了进一步过滤掉有噪声的匹配,我们用多个属性匹配值,并且利用属性值在同一个网站页面的固定位置的事实来进行匹配。 3.3 数据环境以及相关模块介绍

我们使用了现实生活中的两个数据集覆盖了两个垂直面:餐厅和参考书目。每一个数据集由种子记录的一个集合组成,并且从一系列测试的站点中抓取页面。我们从属于每一个测试站点的单实体的页面中提取种子记录,并且报告准确性和提取物的覆盖率。我们把属性分类成核心与非核心的。核心的属性代表每一个页面属于测试数据集,那么非核心的属性就是自选的。 整个操作是基于net4.0架构下使用winform显示界面,ado.net entity framework操作MysqL的数据库,分五个模块来实现:

龙源期刊网 http://www.qikan.com.cn

Apriori模块:实现NICTCLAS实现中文分词,sogou词库分析词频,Jaccard系数方法忽略了不相干的部分的属性值,提取网络信息的冗余内容。 Common模块:管理公共操作对象。 DataBase模块:管理数据库操作,支持MYSQL的操作。 Grab模块:采集和爬虫模块,采集结构化的网站上的内容,可以分页抓取,或抓取当前页面里面相关型链接。ShowUI模块:显示结果界面,显示网络抓取的内容和比较的结果。 3.4实验结果

配合不同跨站点交涉的属性值,用度量发现了两个站点之间的相匹配的模式的属性值,而且在计算相似度时忽略了不相干的部分的属性值,结果显示不相干的属性被过滤掉,基本符合要求。 结束语

本系统进行基于内容冗余的网页信息抽取, 虽然在一定程度上提高了抽取准确度, 但是有可能抽取所需要的时间相对增长, 影响了抽取信息的速度。如何进一步提高抽取的速度和准确率, 有待进一步研究。 参考文献

[1]刘迁,焦慧,贾惠波.信息抽取技术的发展现状及构建方法的研究[J].计算机应用研究,2007,24(7):6-9.

[2]周津.基于XML的网页信息抽取[M].合肥:中国科学技术大学,2004.

[3]G Miao etal.Extracting data records from the web using tag path clustering.In WWW,2009.

联系客服:779662525#qq.com(#替换为@) 苏ICP备20003344号-4