龙源期刊?/p>
http://www.qikan.com.cn
基于同义词扩展的文本检索改进研?/p>
作者:赵医?/p>
潘来?/p>
来源:《中国教育技术装备?/p>
2010
年第
18
?/p>
摘要
目前的文本检索系统多数是基于关键词的检?/p>
,
关键词检索是依赖于字符串机械匹配
的检索模?/p>
,
由于用户的生活背景不?/p>
,
对同一概念可能会产生不同的表述
,
从而导致用户输入关
键词而查找不到相应文本的情况。试图通过同义扩展查询对传统文本检索系统进行改?/p>
,
从?/p>
提高检索系统的整体性能?/p>
关键?/p>
同义词扩?/p>
;
查全?/p>
;
查准?/p>
;
文本检?/p>
中图分类?/p>
:TP319
文献标识?/p>
:B
文章编号
:1671-489X(2010)18-0095-02
1
同义词扩展的算法与实?/p>
同义词扩展就是用人工构造同义词库、蕴含词库等辅助词库
,
或是从语料库中自动取得同
义词关系
,
使得检索系统能自动
?/p>
联想
?/p>
到与其同义或者意思相近的?/p>
,
提高信息匹配的准确度
,
?/p>
而提高检索系统的整体性能
[1]
。本文把意义相同或相近的词称为同义词
,
当用户输入预想的?/p>
键词?/p>
,
检索系统将自动进行一系列的预处理
,
从而得到单个的关键词。这些预处理包括分词?/p>
过滤无效词和去除非法字符?/p>
,
然后对预处理后的关键词进行同义词扩展。本文进行同义扩?/p>
的基础是手工建立的同义词词?/p>
,
该词典依据《哈工大信息检索研究室同义词词林扩展版?/p>
(
?/p>
下简称《同义词词林?/p>
)
编制?/p>
1.1
同义词词典的建立
《同义词词林》按照树状的层次结构把所有收录的词条组织到一?/p>
,
把词汇分成大、中?/p>
?/p>
3
?/p>
,
大类?/p>
12
?/p>
,
中类?/p>
97
?/p>
,
小类?/p>
1 400
个。每个小类里都有很多的词
,
这些词又根据?/p>
义的远近和相关性分成若干个词群
(
段落
)
。每个段落中的词语又进一步分成若干个?/p>
,
同一行的
词语要么词义相同
(
有的词义十分接近
),
要么词义有很强的相关?/p>
[2]
。按照《同义词词林》的?/p>
码规?/p>
,
可以分出具体?/p>
3
种情?/p>
,
分别?/p>
?”?”“@?/p>
?/p>
??/p>
代表
?/p>
相等
”?/p>
同义
???/p>
代表
?/p>
不等
”?/p>
?/p>
?/p>
?
属于相关词语
;
末尾?/p>
“@?/p>
代表
?/p>
自我封闭
”?/p>
独立
?
它在词典中既没有同义?/p>
,
也没有相关词?/p>
这三类词语中
,
前两类对本系统而言用处不大
,
选取最后一类词作为同义词词典扩展的原始词?/p>
组织同义词词典的格式表示?/p>
?/p>
同义?/p>
1:
同义?/p>
2:…?
同义?/p>
n?
然后
,
把包?/p>
n
个同义词
的一组同义词变成
n
组同义词
,
并保?/p>
n
个同义词?/p>
n
组同义词的第一个位置上分别出现一次?/p>
例如
,
?/p>
?/p>
电脑
:
计算?/p>
:
微机
?/p>
展开
,
得到满足条件的同义词
?/p>
计算?/p>
:
电脑
:
微机
”?/p>
微机
:
计算?/p>
:
?