新建
上传
首页
助手
最?/div>
资料?/div>
工具

龙源期刊?/p>

 http://www.qikan.com.cn 

作者标签主题模型在科技文献中的应用

 

作者:陈永?/p>

 

左万?/p>

 

林耀?/p>

 

来源:《计算机应用?/p>

2015

年第

04

?/p>

 

        

摘要:作者主题模型被广泛应用于科技文献中作者的兴趣发现。针对作者主题模型不能利

用文献的类别标签属性与主题之间的相关性进行主题发现的问题,在对作者主题模型分析的?/p>

础上,将科技文献之间固有的类别标签信息引入到作者主题模型中,提出了作者标签主?/p>

?/p>

LAT

)模型?/p>

LAT

模型通过实现文献的标签信息与主题之间的映射关系,实现文本的多标签

判定,提升文档的聚类效果。与传统的潜在狄利克雷分配(

LDA

)和作者主题(

AT

)模型的

对比实验结果表明?/p>

LAT

模型能够显著提高模型的泛化能力,提升模型的运行性能?/p>

 

        

关键词:文字信息处理;隐藏狄利克雷分配;文本分析;主题模型;自然语言处理

 

        

中图分类号:

TP181

?/p>

TP301.2 

        

文献标志码:

A 

        Abstract

?/p>

Author Topic 

?/p>

AT

?/p>

 model is widely used to find the authors interests in scientific 

literature

?/p>

 but AT model cannot take advantage of the correlation between category labels and topics. 

Through integrating the inherent category labels of documents into AT model

?/p>

 Labeled Author 

Topic 

?/p>

LAT

?/p>

 model was proposed. LAT model realized the predicate of multilabels by optimizing 

the mapping relation between labels and topics and improved the clustering results. The experimental 

results suggest that

?/p>

 compared with Latent Dirichlet Allocation 

?/p>

LDA

?/p>

 model and AT model

?/p>

 

LAT model can improve the decision accuracy of multilabels

?/p>

 and optimize the generalization 

ability and operating efficiency. 

        

英文关键?/p>

Key words

?/p>

text information processing

?/p>

 Latent Dirichlet Allocation 

?/p>

LDA

);

 

text analysis

?/p>

 topic model

?/p>

 natural language processing 

        0 

引言

 

        

科技文献资源的利用长期以来受到学术界的重视,早期的研究是利用传统的信息检索方?/p>

对科技文献进行计量分析、提供共享服务等

[1]

。这些仅靠词频统计的方法难以发现文档中潜

在的语义联系,无法满足用户对科技信息深层次的需?/p>

[2-3]

。人们在考虑文本和词之间关联?/p>

系的基础上,进一步导入了主题维度,也称隐藏语义维度,实现了文本在隐藏语义层的相似?/p>

计算。为了自动抽取这种隐藏语义空间,实现文本的低维潜在语义表示,产生了隐藏语义索?/p>

?/p>

Latent Semantic Indexing

?/p>

 LSI

)模?/p>

[4]

。但?/p>

LSI

模型假设文本与主题之间是一对一的映

射关系,这种映射关系不能将文本映射为多个主题的组合。概率潜在语义索引(

Probability 

Latent Semantic Indexing

?/p>

 PLSI

)用概率模型的方式把文本对应为不同主题的概率分布,解?/p>

了文本与主题之间是一对多的映射描述问题。但是,

PLSI

概率模型并不是完备的生成式模

Ͼλ
新建
上传
首页
助手
最?/div>
资料?/div>
工具

龙源期刊?/p>

 http://www.qikan.com.cn 

作者标签主题模型在科技文献中的应用

 

作者:陈永?/p>

 

左万?/p>

 

林耀?/p>

 

来源:《计算机应用?/p>

2015

年第

04

?/p>

 

        

摘要:作者主题模型被广泛应用于科技文献中作者的兴趣发现。针对作者主题模型不能利

用文献的类别标签属性与主题之间的相关性进行主题发现的问题,在对作者主题模型分析的?/p>

础上,将科技文献之间固有的类别标签信息引入到作者主题模型中,提出了作者标签主?/p>

?/p>

LAT

)模型?/p>

LAT

模型通过实现文献的标签信息与主题之间的映射关系,实现文本的多标签

判定,提升文档的聚类效果。与传统的潜在狄利克雷分配(

LDA

)和作者主题(

AT

)模型的

对比实验结果表明?/p>

LAT

模型能够显著提高模型的泛化能力,提升模型的运行性能?/p>

 

        

关键词:文字信息处理;隐藏狄利克雷分配;文本分析;主题模型;自然语言处理

 

        

中图分类号:

TP181

?/p>

TP301.2 

        

文献标志码:

A 

        Abstract

?/p>

Author Topic 

?/p>

AT

?/p>

 model is widely used to find the authors interests in scientific 

literature

?/p>

 but AT model cannot take advantage of the correlation between category labels and topics. 

Through integrating the inherent category labels of documents into AT model

?/p>

 Labeled Author 

Topic 

?/p>

LAT

?/p>

 model was proposed. LAT model realized the predicate of multilabels by optimizing 

the mapping relation between labels and topics and improved the clustering results. The experimental 

results suggest that

?/p>

 compared with Latent Dirichlet Allocation 

?/p>

LDA

?/p>

 model and AT model

?/p>

 

LAT model can improve the decision accuracy of multilabels

?/p>

 and optimize the generalization 

ability and operating efficiency. 

        

英文关键?/p>

Key words

?/p>

text information processing

?/p>

 Latent Dirichlet Allocation 

?/p>

LDA

);

 

text analysis

?/p>

 topic model

?/p>

 natural language processing 

        0 

引言

 

        

科技文献资源的利用长期以来受到学术界的重视,早期的研究是利用传统的信息检索方?/p>

对科技文献进行计量分析、提供共享服务等

[1]

。这些仅靠词频统计的方法难以发现文档中潜

在的语义联系,无法满足用户对科技信息深层次的需?/p>

[2-3]

。人们在考虑文本和词之间关联?/p>

系的基础上,进一步导入了主题维度,也称隐藏语义维度,实现了文本在隐藏语义层的相似?/p>

计算。为了自动抽取这种隐藏语义空间,实现文本的低维潜在语义表示,产生了隐藏语义索?/p>

?/p>

Latent Semantic Indexing

?/p>

 LSI

)模?/p>

[4]

。但?/p>

LSI

模型假设文本与主题之间是一对一的映

射关系,这种映射关系不能将文本映射为多个主题的组合。概率潜在语义索引(

Probability 

Latent Semantic Indexing

?/p>

 PLSI

)用概率模型的方式把文本对应为不同主题的概率分布,解?/p>

了文本与主题之间是一对多的映射描述问题。但是,

PLSI

概率模型并不是完备的生成式模

">
新建
上传
首页
助手
最?/div>
资料?/div>
工具

龙源期刊?/p>

 http://www.qikan.com.cn 

作者标签主题模型在科技文献中的应用

 

作者:陈永?/p>

 

左万?/p>

 

林耀?/p>

 

来源:《计算机应用?/p>

2015

年第

04

?/p>

 

        

摘要:作者主题模型被广泛应用于科技文献中作者的兴趣发现。针对作者主题模型不能利

用文献的类别标签属性与主题之间的相关性进行主题发现的问题,在对作者主题模型分析的?/p>

础上,将科技文献之间固有的类别标签信息引入到作者主题模型中,提出了作者标签主?/p>

?/p>

LAT

)模型?/p>

LAT

模型通过实现文献的标签信息与主题之间的映射关系,实现文本的多标签

判定,提升文档的聚类效果。与传统的潜在狄利克雷分配(

LDA

)和作者主题(

AT

)模型的

对比实验结果表明?/p>

LAT

模型能够显著提高模型的泛化能力,提升模型的运行性能?/p>

 

        

关键词:文字信息处理;隐藏狄利克雷分配;文本分析;主题模型;自然语言处理

 

        

中图分类号:

TP181

?/p>

TP301.2 

        

文献标志码:

A 

        Abstract

?/p>

Author Topic 

?/p>

AT

?/p>

 model is widely used to find the authors interests in scientific 

literature

?/p>

 but AT model cannot take advantage of the correlation between category labels and topics. 

Through integrating the inherent category labels of documents into AT model

?/p>

 Labeled Author 

Topic 

?/p>

LAT

?/p>

 model was proposed. LAT model realized the predicate of multilabels by optimizing 

the mapping relation between labels and topics and improved the clustering results. The experimental 

results suggest that

?/p>

 compared with Latent Dirichlet Allocation 

?/p>

LDA

?/p>

 model and AT model

?/p>

 

LAT model can improve the decision accuracy of multilabels

?/p>

 and optimize the generalization 

ability and operating efficiency. 

        

英文关键?/p>

Key words

?/p>

text information processing

?/p>

 Latent Dirichlet Allocation 

?/p>

LDA

);

 

text analysis

?/p>

 topic model

?/p>

 natural language processing 

        0 

引言

 

        

科技文献资源的利用长期以来受到学术界的重视,早期的研究是利用传统的信息检索方?/p>

对科技文献进行计量分析、提供共享服务等

[1]

。这些仅靠词频统计的方法难以发现文档中潜

在的语义联系,无法满足用户对科技信息深层次的需?/p>

[2-3]

。人们在考虑文本和词之间关联?/p>

系的基础上,进一步导入了主题维度,也称隐藏语义维度,实现了文本在隐藏语义层的相似?/p>

计算。为了自动抽取这种隐藏语义空间,实现文本的低维潜在语义表示,产生了隐藏语义索?/p>

?/p>

Latent Semantic Indexing

?/p>

 LSI

)模?/p>

[4]

。但?/p>

LSI

模型假设文本与主题之间是一对一的映

射关系,这种映射关系不能将文本映射为多个主题的组合。概率潜在语义索引(

Probability 

Latent Semantic Indexing

?/p>

 PLSI

)用概率模型的方式把文本对应为不同主题的概率分布,解?/p>

了文本与主题之间是一对多的映射描述问题。但是,

PLSI

概率模型并不是完备的生成式模

Ͼλ">
Ͼλ
Ŀ

作者标签主题模型在科技文献中的应用 - 百度文库
新建
上传
首页
助手
最?/div>
资料?/div>
工具

龙源期刊?/p>

 http://www.qikan.com.cn 

作者标签主题模型在科技文献中的应用

 

作者:陈永?/p>

 

左万?/p>

 

林耀?/p>

 

来源:《计算机应用?/p>

2015

年第

04

?/p>

 

        

摘要:作者主题模型被广泛应用于科技文献中作者的兴趣发现。针对作者主题模型不能利

用文献的类别标签属性与主题之间的相关性进行主题发现的问题,在对作者主题模型分析的?/p>

础上,将科技文献之间固有的类别标签信息引入到作者主题模型中,提出了作者标签主?/p>

?/p>

LAT

)模型?/p>

LAT

模型通过实现文献的标签信息与主题之间的映射关系,实现文本的多标签

判定,提升文档的聚类效果。与传统的潜在狄利克雷分配(

LDA

)和作者主题(

AT

)模型的

对比实验结果表明?/p>

LAT

模型能够显著提高模型的泛化能力,提升模型的运行性能?/p>

 

        

关键词:文字信息处理;隐藏狄利克雷分配;文本分析;主题模型;自然语言处理

 

        

中图分类号:

TP181

?/p>

TP301.2 

        

文献标志码:

A 

        Abstract

?/p>

Author Topic 

?/p>

AT

?/p>

 model is widely used to find the authors interests in scientific 

literature

?/p>

 but AT model cannot take advantage of the correlation between category labels and topics. 

Through integrating the inherent category labels of documents into AT model

?/p>

 Labeled Author 

Topic 

?/p>

LAT

?/p>

 model was proposed. LAT model realized the predicate of multilabels by optimizing 

the mapping relation between labels and topics and improved the clustering results. The experimental 

results suggest that

?/p>

 compared with Latent Dirichlet Allocation 

?/p>

LDA

?/p>

 model and AT model

?/p>

 

LAT model can improve the decision accuracy of multilabels

?/p>

 and optimize the generalization 

ability and operating efficiency. 

        

英文关键?/p>

Key words

?/p>

text information processing

?/p>

 Latent Dirichlet Allocation 

?/p>

LDA

);

 

text analysis

?/p>

 topic model

?/p>

 natural language processing 

        0 

引言

 

        

科技文献资源的利用长期以来受到学术界的重视,早期的研究是利用传统的信息检索方?/p>

对科技文献进行计量分析、提供共享服务等

[1]

。这些仅靠词频统计的方法难以发现文档中潜

在的语义联系,无法满足用户对科技信息深层次的需?/p>

[2-3]

。人们在考虑文本和词之间关联?/p>

系的基础上,进一步导入了主题维度,也称隐藏语义维度,实现了文本在隐藏语义层的相似?/p>

计算。为了自动抽取这种隐藏语义空间,实现文本的低维潜在语义表示,产生了隐藏语义索?/p>

?/p>

Latent Semantic Indexing

?/p>

 LSI

)模?/p>

[4]

。但?/p>

LSI

模型假设文本与主题之间是一对一的映

射关系,这种映射关系不能将文本映射为多个主题的组合。概率潜在语义索引(

Probability 

Latent Semantic Indexing

?/p>

 PLSI

)用概率模型的方式把文本对应为不同主题的概率分布,解?/p>

了文本与主题之间是一对多的映射描述问题。但是,

PLSI

概率模型并不是完备的生成式模



ļ׺.doc޸Ϊ.docĶ

  • ˼ۿʵۺĿⱨ
  • ѧǰѧ֪ʶ㣨壩
  • ˽̰Сѧ꼶ϲ޸IJרϰ
  • ԭӦĻ
  • 2017ǶĽΡѧۡ
  • 12MSA
  • 2018-2023꺣ˮҵгַ뷢չо棨Ŀ¼ -
  • Ӧ
  • BPSK QPSK 8PSK 16QAMȵƷʽܷ漰ƵʵĶԱȼ
  • ԭս̰Сѧѧ꼶² 屸οʱѧƽ̰ 152

վ

԰ Ͼλ
ϵͷ779662525#qq.com(#滻Ϊ@)