基于同义词扩展的文本检索改进研究

龙源期刊网 http://www.qikan.com.cn

基于同义词扩展的文本检索改进研究

作者:赵医娟 潘来奇

来源:《中国教育技术装备》2010年第18期

摘要 目前的文本检索系统多数是基于关键词的检索,关键词检索是依赖于字符串机械匹配的检索模式,由于用户的生活背景不同,对同一概念可能会产生不同的表述,从而导致用户输入关键词而查找不到相应文本的情况。试图通过同义扩展查询对传统文本检索系统进行改进,从而提高检索系统的整体性能。

关键词 同义词扩展;查全率;查准率;文本检索

中图分类号:TP319 文献标识码:B 文章编号:1671-489X(2010)18-0095-02

1 同义词扩展的算法与实现

同义词扩展就是用人工构造同义词库、蕴含词库等辅助词库,或是从语料库中自动取得同义词关系,使得检索系统能自动“联想”到与其同义或者意思相近的词,提高信息匹配的准确度,从而提高检索系统的整体性能[1]。本文把意义相同或相近的词称为同义词,当用户输入预想的关键词时,检索系统将自动进行一系列的预处理,从而得到单个的关键词。这些预处理包括分词、过滤无效词和去除非法字符等,然后对预处理后的关键词进行同义词扩展。本文进行同义扩展的基础是手工建立的同义词词典,该词典依据《哈工大信息检索研究室同义词词林扩展版》(以下简称《同义词词林》)编制。 1.1 同义词词典的建立

《同义词词林》按照树状的层次结构把所有收录的词条组织到一起,把词汇分成大、中、小3类,大类有12个,中类有97个,小类有1 400个。每个小类里都有很多的词,这些词又根据词义的远近和相关性分成若干个词群(段落)。每个段落中的词语又进一步分成若干个行,同一行的词语要么词义相同(有的词义十分接近),要么词义有很强的相关性[2]。按照《同义词词林》的编码规则,可以分出具体的3种情况,分别是“=”“#”“@”。“=”代表“相等”“同义”;“#”代表“不等”“同类”,属于相关词语;末尾的“@”代表“自我封闭”“独立”,它在词典中既没有同义词,也没有相关词。这三类词语中,前两类对本系统而言用处不大,选取最后一类词作为同义词词典扩展的原始词。 组织同义词词典的格式表示为“同义词1:同义词2:……:同义词n”,然后,把包含n个同义词的一组同义词变成n组同义词,并保证n个同义词在n组同义词的第一个位置上分别出现一次。例如,对“电脑:计算机:微机”展开,得到满足条件的同义词“计算机:电脑:微机”“微机:计算机:电

龙源期刊网 http://www.qikan.com.cn

脑”。同义词词典按照词语首字在汉字区位码表中的位置顺序组织,首字相同的同义词组集中在一起并按首词词长由长到短依次排列。 1.2 同义词扩展的实现

同义词扩展的核心代码是用Visual Basic编写的一个动态链接库(dll)文件,通过代码调用同义词词典。dll文件需要先注册后使用,注册的命令为“regsvr32文件路径\\*.dll”。检索系统通过asp代码调用dll文件。

2 检索系统性能的评价指标

评估检索系统性能常用到的各项指标有查全率(Recall,简记为R)、查准率(Precision,简记为P),以及两者的综合评估。好的检索系统中查准率和查全率应该有较好的平衡关系,且有较高的综合评估值。各项指标定义:R=检索到的相关文本数/索引库中全部相关文本数;P=检索到的相关文本数/检索到的全部文本数。

R反映该系统索引库中实有的相关记录在多大程度上能被检索出来。P反映每次从该系统索引库中实际检出的全部记录中有多少是相关的。根据国外有关专家所做的实验表明,查全率与查准率是一组互逆关系。应当根据课题的具体要求,合理平衡查全率和查准率,保证一个总体较优的检索效果。

借助于P和R的综合性能评估,通常用F-Measure方法[3],它的计算公式

为:F=2/(1/P+1/R)=2PR/(P+R)。F取值在[0,1]内,并随P、R的增大而增大。F越大,说明检索系统的综合性能越好。F-Measure对P和R两者没有权重上的偏向,它们对F值的贡献是相同的。

3 实验结果分析

本实验用基于内容的Flash检索系统进行实验,选取3 000条记录的小样本进行实验统计,结果见表1。

龙源期刊网 http://www.qikan.com.cn

扩展前,系统的F值为0.74;扩展后,系统的F值为0.91。实验结果表明,同义词扩展对文本检索系统的改进、对系统总体性能的提高非常显著。在查准率仅降低7个百分点的情况下,查全率提高33个百分点,与预想结果基本符合。

4 结论与展望

基于同义词的扩展依赖于同义词词典的完备程度和数据库标注的准确程度以及文本检索的算法模型,所以,检索整体性能的提高,要从各个环节去做进一步的改进。目前,查询扩展作为解决词的不匹配问题的一种解决方案,有效地解决了Web信息检索存在的查全率和查准率低的问题,引起国内外很多学者的注意并参与。然而目前查询扩展方法仍然存在很大的缺陷,即无法同时解决自然语言中词汇的同义性和歧义性问题,这也是今后需要关注的方向之一。 参考文献

[1]计算机检索基础[EB/OL].http://202.120.96.104:7777/wxjpkc/skja/2_4_1.html [2]王晓黎,王文杰.基于向量空间模型的文本检索系统[D].中国科学院研究生院,2006

联系客服:779662525#qq.com(#替换为@) 苏ICP备20003344号-4