新建
上传
首页
助手
最?/div>
资料?/div>
工具

龙源期刊?/p>

 http://www.qikan.com.cn 

基于同义词扩展的文本检索改进研?/p>

 

作者:赵医?/p>

 

潘来?/p>

 

来源:《中国教育技术装备?/p>

2010

年第

18

?/p>

 

        

摘要

 

目前的文本检索系统多数是基于关键词的检?/p>

,

关键词检索是依赖于字符串机械匹配

的检索模?/p>

,

由于用户的生活背景不?/p>

,

对同一概念可能会产生不同的表述

,

从而导致用户输入关

键词而查找不到相应文本的情况。试图通过同义扩展查询对传统文本检索系统进行改?/p>

,

从?/p>

提高检索系统的整体性能?/p>

 

        

关键?/p>

 

同义词扩?/p>

;

查全?/p>

;

查准?/p>

;

文本检?/p>

 

        

中图分类?/p>

:TP319 

文献标识?/p>

:B 

文章编号

:1671-489X(2010)18-0095-02 

         

        1 

同义词扩展的算法与实?/p>

 

         

        

同义词扩展就是用人工构造同义词库、蕴含词库等辅助词库

,

或是从语料库中自动取得同

义词关系

,

使得检索系统能自动

?/p>

联想

?/p>

到与其同义或者意思相近的?/p>

,

提高信息匹配的准确度

,

?/p>

而提高检索系统的整体性能

[1]

。本文把意义相同或相近的词称为同义词

,

当用户输入预想的?/p>

键词?/p>

,

检索系统将自动进行一系列的预处理

,

从而得到单个的关键词。这些预处理包括分词?/p>

过滤无效词和去除非法字符?/p>

,

然后对预处理后的关键词进行同义词扩展。本文进行同义扩?/p>

的基础是手工建立的同义词词?/p>

,

该词典依据《哈工大信息检索研究室同义词词林扩展版?/p>

(

?/p>

下简称《同义词词林?/p>

)

编制?/p>

  

        1.1 

同义词词典的建立

 

        

《同义词词林》按照树状的层次结构把所有收录的词条组织到一?/p>

,

把词汇分成大、中?/p>

?/p>

3

?/p>

,

大类?/p>

12

?/p>

,

中类?/p>

97

?/p>

,

小类?/p>

1 400

个。每个小类里都有很多的词

,

这些词又根据?/p>

义的远近和相关性分成若干个词群

(

段落

)

。每个段落中的词语又进一步分成若干个?/p>

,

同一行的

词语要么词义相同

(

有的词义十分接近

),

要么词义有很强的相关?/p>

[2]

。按照《同义词词林》的?/p>

码规?/p>

,

可以分出具体?/p>

3

种情?/p>

,

分别?/p>

?”?”“@?/p>

?/p>

??/p>

代表

?/p>

相等

”?/p>

同义

???/p>

代表

?/p>

不等

”?/p>

?/p>

?/p>

?

属于相关词语

;

末尾?/p>

“@?/p>

代表

?/p>

自我封闭

”?/p>

独立

?

它在词典中既没有同义?/p>

,

也没有相关词?/p>

这三类词语中

,

前两类对本系统而言用处不大

,

选取最后一类词作为同义词词典扩展的原始词?/p>

 

        

组织同义词词典的格式表示?/p>

?/p>

同义?/p>

1:

同义?/p>

2:…?

同义?/p>

n?

然后

,

把包?/p>

n

个同义词

的一组同义词变成

n

组同义词

,

并保?/p>

n

个同义词?/p>

n

组同义词的第一个位置上分别出现一次?/p>

例如

,

?/p>

?/p>

电脑

:

计算?/p>

:

微机

?/p>

展开

,

得到满足条件的同义词

?/p>

计算?/p>

:

电脑

:

微机

”?/p>

微机

:

计算?/p>

:

?

Ͼλ
新建
上传
首页
助手
最?/div>
资料?/div>
工具

龙源期刊?/p>

 http://www.qikan.com.cn 

基于同义词扩展的文本检索改进研?/p>

 

作者:赵医?/p>

 

潘来?/p>

 

来源:《中国教育技术装备?/p>

2010

年第

18

?/p>

 

        

摘要

 

目前的文本检索系统多数是基于关键词的检?/p>

,

关键词检索是依赖于字符串机械匹配

的检索模?/p>

,

由于用户的生活背景不?/p>

,

对同一概念可能会产生不同的表述

,

从而导致用户输入关

键词而查找不到相应文本的情况。试图通过同义扩展查询对传统文本检索系统进行改?/p>

,

从?/p>

提高检索系统的整体性能?/p>

 

        

关键?/p>

 

同义词扩?/p>

;

查全?/p>

;

查准?/p>

;

文本检?/p>

 

        

中图分类?/p>

:TP319 

文献标识?/p>

:B 

文章编号

:1671-489X(2010)18-0095-02 

         

        1 

同义词扩展的算法与实?/p>

 

         

        

同义词扩展就是用人工构造同义词库、蕴含词库等辅助词库

,

或是从语料库中自动取得同

义词关系

,

使得检索系统能自动

?/p>

联想

?/p>

到与其同义或者意思相近的?/p>

,

提高信息匹配的准确度

,

?/p>

而提高检索系统的整体性能

[1]

。本文把意义相同或相近的词称为同义词

,

当用户输入预想的?/p>

键词?/p>

,

检索系统将自动进行一系列的预处理

,

从而得到单个的关键词。这些预处理包括分词?/p>

过滤无效词和去除非法字符?/p>

,

然后对预处理后的关键词进行同义词扩展。本文进行同义扩?/p>

的基础是手工建立的同义词词?/p>

,

该词典依据《哈工大信息检索研究室同义词词林扩展版?/p>

(

?/p>

下简称《同义词词林?/p>

)

编制?/p>

  

        1.1 

同义词词典的建立

 

        

《同义词词林》按照树状的层次结构把所有收录的词条组织到一?/p>

,

把词汇分成大、中?/p>

?/p>

3

?/p>

,

大类?/p>

12

?/p>

,

中类?/p>

97

?/p>

,

小类?/p>

1 400

个。每个小类里都有很多的词

,

这些词又根据?/p>

义的远近和相关性分成若干个词群

(

段落

)

。每个段落中的词语又进一步分成若干个?/p>

,

同一行的

词语要么词义相同

(

有的词义十分接近

),

要么词义有很强的相关?/p>

[2]

。按照《同义词词林》的?/p>

码规?/p>

,

可以分出具体?/p>

3

种情?/p>

,

分别?/p>

?”?”“@?/p>

?/p>

??/p>

代表

?/p>

相等

”?/p>

同义

???/p>

代表

?/p>

不等

”?/p>

?/p>

?/p>

?

属于相关词语

;

末尾?/p>

“@?/p>

代表

?/p>

自我封闭

”?/p>

独立

?

它在词典中既没有同义?/p>

,

也没有相关词?/p>

这三类词语中

,

前两类对本系统而言用处不大

,

选取最后一类词作为同义词词典扩展的原始词?/p>

 

        

组织同义词词典的格式表示?/p>

?/p>

同义?/p>

1:

同义?/p>

2:…?

同义?/p>

n?

然后

,

把包?/p>

n

个同义词

的一组同义词变成

n

组同义词

,

并保?/p>

n

个同义词?/p>

n

组同义词的第一个位置上分别出现一次?/p>

例如

,

?/p>

?/p>

电脑

:

计算?/p>

:

微机

?/p>

展开

,

得到满足条件的同义词

?/p>

计算?/p>

:

电脑

:

微机

”?/p>

微机

:

计算?/p>

:

?

">
新建
上传
首页
助手
最?/div>
资料?/div>
工具

龙源期刊?/p>

 http://www.qikan.com.cn 

基于同义词扩展的文本检索改进研?/p>

 

作者:赵医?/p>

 

潘来?/p>

 

来源:《中国教育技术装备?/p>

2010

年第

18

?/p>

 

        

摘要

 

目前的文本检索系统多数是基于关键词的检?/p>

,

关键词检索是依赖于字符串机械匹配

的检索模?/p>

,

由于用户的生活背景不?/p>

,

对同一概念可能会产生不同的表述

,

从而导致用户输入关

键词而查找不到相应文本的情况。试图通过同义扩展查询对传统文本检索系统进行改?/p>

,

从?/p>

提高检索系统的整体性能?/p>

 

        

关键?/p>

 

同义词扩?/p>

;

查全?/p>

;

查准?/p>

;

文本检?/p>

 

        

中图分类?/p>

:TP319 

文献标识?/p>

:B 

文章编号

:1671-489X(2010)18-0095-02 

         

        1 

同义词扩展的算法与实?/p>

 

         

        

同义词扩展就是用人工构造同义词库、蕴含词库等辅助词库

,

或是从语料库中自动取得同

义词关系

,

使得检索系统能自动

?/p>

联想

?/p>

到与其同义或者意思相近的?/p>

,

提高信息匹配的准确度

,

?/p>

而提高检索系统的整体性能

[1]

。本文把意义相同或相近的词称为同义词

,

当用户输入预想的?/p>

键词?/p>

,

检索系统将自动进行一系列的预处理

,

从而得到单个的关键词。这些预处理包括分词?/p>

过滤无效词和去除非法字符?/p>

,

然后对预处理后的关键词进行同义词扩展。本文进行同义扩?/p>

的基础是手工建立的同义词词?/p>

,

该词典依据《哈工大信息检索研究室同义词词林扩展版?/p>

(

?/p>

下简称《同义词词林?/p>

)

编制?/p>

  

        1.1 

同义词词典的建立

 

        

《同义词词林》按照树状的层次结构把所有收录的词条组织到一?/p>

,

把词汇分成大、中?/p>

?/p>

3

?/p>

,

大类?/p>

12

?/p>

,

中类?/p>

97

?/p>

,

小类?/p>

1 400

个。每个小类里都有很多的词

,

这些词又根据?/p>

义的远近和相关性分成若干个词群

(

段落

)

。每个段落中的词语又进一步分成若干个?/p>

,

同一行的

词语要么词义相同

(

有的词义十分接近

),

要么词义有很强的相关?/p>

[2]

。按照《同义词词林》的?/p>

码规?/p>

,

可以分出具体?/p>

3

种情?/p>

,

分别?/p>

?”?”“@?/p>

?/p>

??/p>

代表

?/p>

相等

”?/p>

同义

???/p>

代表

?/p>

不等

”?/p>

?/p>

?/p>

?

属于相关词语

;

末尾?/p>

“@?/p>

代表

?/p>

自我封闭

”?/p>

独立

?

它在词典中既没有同义?/p>

,

也没有相关词?/p>

这三类词语中

,

前两类对本系统而言用处不大

,

选取最后一类词作为同义词词典扩展的原始词?/p>

 

        

组织同义词词典的格式表示?/p>

?/p>

同义?/p>

1:

同义?/p>

2:…?

同义?/p>

n?

然后

,

把包?/p>

n

个同义词

的一组同义词变成

n

组同义词

,

并保?/p>

n

个同义词?/p>

n

组同义词的第一个位置上分别出现一次?/p>

例如

,

?/p>

?/p>

电脑

:

计算?/p>

:

微机

?/p>

展开

,

得到满足条件的同义词

?/p>

计算?/p>

:

电脑

:

微机

”?/p>

微机

:

计算?/p>

:

?

Ͼλ">
Ͼλ
Ŀ

基于同义词扩展的文本检索改进研?- 百度文库
新建
上传
首页
助手
最?/div>
资料?/div>
工具

龙源期刊?/p>

 http://www.qikan.com.cn 

基于同义词扩展的文本检索改进研?/p>

 

作者:赵医?/p>

 

潘来?/p>

 

来源:《中国教育技术装备?/p>

2010

年第

18

?/p>

 

        

摘要

 

目前的文本检索系统多数是基于关键词的检?/p>

,

关键词检索是依赖于字符串机械匹配

的检索模?/p>

,

由于用户的生活背景不?/p>

,

对同一概念可能会产生不同的表述

,

从而导致用户输入关

键词而查找不到相应文本的情况。试图通过同义扩展查询对传统文本检索系统进行改?/p>

,

从?/p>

提高检索系统的整体性能?/p>

 

        

关键?/p>

 

同义词扩?/p>

;

查全?/p>

;

查准?/p>

;

文本检?/p>

 

        

中图分类?/p>

:TP319 

文献标识?/p>

:B 

文章编号

:1671-489X(2010)18-0095-02 

         

        1 

同义词扩展的算法与实?/p>

 

         

        

同义词扩展就是用人工构造同义词库、蕴含词库等辅助词库

,

或是从语料库中自动取得同

义词关系

,

使得检索系统能自动

?/p>

联想

?/p>

到与其同义或者意思相近的?/p>

,

提高信息匹配的准确度

,

?/p>

而提高检索系统的整体性能

[1]

。本文把意义相同或相近的词称为同义词

,

当用户输入预想的?/p>

键词?/p>

,

检索系统将自动进行一系列的预处理

,

从而得到单个的关键词。这些预处理包括分词?/p>

过滤无效词和去除非法字符?/p>

,

然后对预处理后的关键词进行同义词扩展。本文进行同义扩?/p>

的基础是手工建立的同义词词?/p>

,

该词典依据《哈工大信息检索研究室同义词词林扩展版?/p>

(

?/p>

下简称《同义词词林?/p>

)

编制?/p>

  

        1.1 

同义词词典的建立

 

        

《同义词词林》按照树状的层次结构把所有收录的词条组织到一?/p>

,

把词汇分成大、中?/p>

?/p>

3

?/p>

,

大类?/p>

12

?/p>

,

中类?/p>

97

?/p>

,

小类?/p>

1 400

个。每个小类里都有很多的词

,

这些词又根据?/p>

义的远近和相关性分成若干个词群

(

段落

)

。每个段落中的词语又进一步分成若干个?/p>

,

同一行的

词语要么词义相同

(

有的词义十分接近

),

要么词义有很强的相关?/p>

[2]

。按照《同义词词林》的?/p>

码规?/p>

,

可以分出具体?/p>

3

种情?/p>

,

分别?/p>

?”?”“@?/p>

?/p>

??/p>

代表

?/p>

相等

”?/p>

同义

???/p>

代表

?/p>

不等

”?/p>

?/p>

?/p>

?

属于相关词语

;

末尾?/p>

“@?/p>

代表

?/p>

自我封闭

”?/p>

独立

?

它在词典中既没有同义?/p>

,

也没有相关词?/p>

这三类词语中

,

前两类对本系统而言用处不大

,

选取最后一类词作为同义词词典扩展的原始词?/p>

 

        

组织同义词词典的格式表示?/p>

?/p>

同义?/p>

1:

同义?/p>

2:…?

同义?/p>

n?

然后

,

把包?/p>

n

个同义词

的一组同义词变成

n

组同义词

,

并保?/p>

n

个同义词?/p>

n

组同义词的第一个位置上分别出现一次?/p>

例如

,

?/p>

?/p>

电脑

:

计算?/p>

:

微机

?/p>

展开

,

得到满足条件的同义词

?/p>

计算?/p>

:

电脑

:

微机

”?/p>

微机

:

计算?/p>

:

?



ļ׺.doc޸Ϊ.docĶ

  • 2019гмչǰԤⱨ Ŀ¼
  • óʵ
  • 2019°ĴʡԱ⼰𰸣вϵ(10.10)
  • ֵӼ⼰()
  • ()˽̰꼶ϲĵԪϰƪ
  • 鼶ȫԾ(纸)
  • ˽̰꼶²ѧȫ̰ѧ˼
  • ԶϵͳURSֽ
  • MIDAS񷨽ģҪ
  • ޹ķ

վ

԰ Ͼλ
ϵͷ779662525#qq.com(#滻Ϊ@)