龙源期刊?/p>
http://www.qikan.com.cn
作者标签主题模型在科技文献中的应用
作者:陈永?/p>
左万?/p>
林耀?/p>
来源:《计算机应用?/p>
2015
年第
04
?/p>
摘要:作者主题模型被广泛应用于科技文献中作者的兴趣发现。针对作者主题模型不能利
用文献的类别标签属性与主题之间的相关性进行主题发现的问题,在对作者主题模型分析的?/p>
础上,将科技文献之间固有的类别标签信息引入到作者主题模型中,提出了作者标签主?/p>
?/p>
LAT
)模型?/p>
LAT
模型通过实现文献的标签信息与主题之间的映射关系,实现文本的多标签
判定,提升文档的聚类效果。与传统的潜在狄利克雷分配(
LDA
)和作者主题(
AT
)模型的
对比实验结果表明?/p>
LAT
模型能够显著提高模型的泛化能力,提升模型的运行性能?/p>
关键词:文字信息处理;隐藏狄利克雷分配;文本分析;主题模型;自然语言处理
中图分类号:
TP181
?/p>
TP301.2
文献标志码:
A
Abstract
?/p>
Author Topic
?/p>
AT
?/p>
model is widely used to find the authors interests in scientific
literature
?/p>
but AT model cannot take advantage of the correlation between category labels and topics.
Through integrating the inherent category labels of documents into AT model
?/p>
Labeled Author
Topic
?/p>
LAT
?/p>
model was proposed. LAT model realized the predicate of multilabels by optimizing
the mapping relation between labels and topics and improved the clustering results. The experimental
results suggest that
?/p>
compared with Latent Dirichlet Allocation
?/p>
LDA
?/p>
model and AT model
?/p>
LAT model can improve the decision accuracy of multilabels
?/p>
and optimize the generalization
ability and operating efficiency.
英文关键?/p>
Key words
?/p>
text information processing
?/p>
Latent Dirichlet Allocation
?/p>
LDA
);
text analysis
?/p>
topic model
?/p>
natural language processing
0
引言
科技文献资源的利用长期以来受到学术界的重视,早期的研究是利用传统的信息检索方?/p>
对科技文献进行计量分析、提供共享服务等
[1]
。这些仅靠词频统计的方法难以发现文档中潜
在的语义联系,无法满足用户对科技信息深层次的需?/p>
[2-3]
。人们在考虑文本和词之间关联?/p>
系的基础上,进一步导入了主题维度,也称隐藏语义维度,实现了文本在隐藏语义层的相似?/p>
计算。为了自动抽取这种隐藏语义空间,实现文本的低维潜在语义表示,产生了隐藏语义索?/p>
?/p>
Latent Semantic Indexing
?/p>
LSI
)模?/p>
[4]
。但?/p>
LSI
模型假设文本与主题之间是一对一的映
射关系,这种映射关系不能将文本映射为多个主题的组合。概率潜在语义索引(
Probability
Latent Semantic Indexing
?/p>
PLSI
)用概率模型的方式把文本对应为不同主题的概率分布,解?/p>
了文本与主题之间是一对多的映射描述问题。但是,
PLSI
概率模型并不是完备的生成式模