龙源期刊网 http://www.qikan.com.cn
作者标签主题模型在科技文献中的应用
作者:陈永恒 左万利 林耀进 来源:《计算机应用》2015年第04期
摘要:作者主题模型被广泛应用于科技文献中作者的兴趣发现。针对作者主题模型不能利用文献的类别标签属性与主题之间的相关性进行主题发现的问题,在对作者主题模型分析的基础上,将科技文献之间固有的类别标签信息引入到作者主题模型中,提出了作者标签主题(LAT)模型。LAT模型通过实现文献的标签信息与主题之间的映射关系,实现文本的多标签判定,提升文档的聚类效果。与传统的潜在狄利克雷分配(LDA)和作者主题(AT)模型的对比实验结果表明,LAT模型能够显著提高模型的泛化能力,提升模型的运行性能。 关键词:文字信息处理;隐藏狄利克雷分配;文本分析;主题模型;自然语言处理 中图分类号:TP181;TP301.2 文献标志码:A
Abstract:Author Topic (AT) model is widely used to find the authors interests in scientific literature, but AT model cannot take advantage of the correlation between category labels and topics. Through integrating the inherent category labels of documents into AT model, Labeled Author Topic (LAT) model was proposed. LAT model realized the predicate of multilabels by optimizing the mapping relation between labels and topics and improved the clustering results. The experimental results suggest that, compared with Latent Dirichlet Allocation (LDA) model and AT model, LAT model can improve the decision accuracy of multilabels, and optimize the generalization ability and operating efficiency.
英文关键词Key words:text information processing; Latent Dirichlet Allocation (LDA); text analysis; topic model; natural language processing 0 引言
科技文献资源的利用长期以来受到学术界的重视,早期的研究是利用传统的信息检索方法对科技文献进行计量分析、提供共享服务等[1]。这些仅靠词频统计的方法难以发现文档中潜在的语义联系,无法满足用户对科技信息深层次的需求[2-3]。人们在考虑文本和词之间关联关系的基础上,进一步导入了主题维度,也称隐藏语义维度,实现了文本在隐藏语义层的相似度计算。为了自动抽取这种隐藏语义空间,实现文本的低维潜在语义表示,产生了隐藏语义索引(Latent Semantic Indexing, LSI)模型[4]。但是LSI模型假设文本与主题之间是一对一的映射关系,这种映射关系不能将文本映射为多个主题的组合。概率潜在语义索引(Probability Latent Semantic Indexing, PLSI)用概率模型的方式把文本对应为不同主题的概率分布,解决了文本与主题之间是一对多的映射描述问题。但是,PLSI概率模型并不是完备的生成式模
龙源期刊网 http://www.qikan.com.cn
型,且随着文本数