龙源期刊网 http://www.qikan.com.cn
作者标签主题模型在科技文献中的应用
作者:陈永恒 左万利 林耀进 来源:《计算机应用》2015年第04期
摘要:作者主题模型被广泛应用于科技文献中作者的兴趣发现。针对作者主题模型不能利用文献的类别标签属性与主题之间的相关性进行主题发现的问题,在对作者主题模型分析的基础上,将科技文献之间固有的类别标签信息引入到作者主题模型中,提出了作者标签主题(LAT)模型。LAT模型通过实现文献的标签信息与主题之间的映射关系,实现文本的多标签判定,提升文档的聚类效果。与传统的潜在狄利克雷分配(LDA)和作者主题(AT)模型的对比实验结果表明,LAT模型能够显著提高模型的泛化能力,提升模型的运行性能。 关键词:文字信息处理;隐藏狄利克雷分配;文本分析;主题模型;自然语言处理 中图分类号:TP181;TP301.2 文献标志码:A
Abstract:Author Topic (AT) model is widely used to find the authors interests in scientific literature, but AT model cannot take advantage of the correlation between category labels and topics. Through integrating the inherent category labels of documents into AT model, Labeled Author Topic (LAT) model was proposed. LAT model realized the predicate of multilabels by optimizing the mapping relation between labels and topics and improved the clustering results. The experimental results suggest that, compared with Latent Dirichlet Allocation (LDA) model and AT model, LAT model can improve the decision accuracy of multilabels, and optimize the generalization ability and operating efficiency.
英文关键词Key words:text information processing; Latent Dirichlet Allocation (LDA); text analysis; topic model; natural language processing 0 引言
科技文献资源的利用长期以来受到学术界的重视,早期的研究是利用传统的信息检索方法对科技文献进行计量分析、提供共享服务等[1]。这些仅靠词频统计的方法难以发现文档中潜在的语义联系,无法满足用户对科技信息深层次的需求[2-3]。人们在考虑文本和词之间关联关系的基础上,进一步导入了主题维度,也称隐藏语义维度,实现了文本在隐藏语义层的相似度计算。为了自动抽取这种隐藏语义空间,实现文本的低维潜在语义表示,产生了隐藏语义索引(Latent Semantic Indexing, LSI)模型[4]。但是LSI模型假设文本与主题之间是一对一的映射关系,这种映射关系不能将文本映射为多个主题的组合。概率潜在语义索引(Probability Latent Semantic Indexing, PLSI)用概率模型的方式把文本对应为不同主题的概率分布,解决了文本与主题之间是一对多的映射描述问题。但是,PLSI概率模型并不是完备的生成式模
龙源期刊网 http://www.qikan.com.cn
型,且随着文本数量的增加,PLSI模型的参数也线性增加,变得越来越庞大,会出现过拟合的问题[5]。为了克服PLSI模型的这些不足,Blei等[6]提出了潜在狄利克雷分配(Latent Dirichlet Allocation,LDA) 模型。LDA模型是完备的贝叶斯概率生成模型。在LDA模型中,文本被描述为主题的多项式分布,而主题则被描述为语料库词典的多项式分布。由于LDA模型中参数不会随着文本的数量增长而线性增加,且具有良好的潜语义挖掘及主题发现的泛化学习能力,因此,LDA模型被广泛应用于主题建模的应用中。
然而,在有监督学习环境下,LDA 及其扩展模型往往表现欠佳,无法将其应用于监督学习的多标记判别中,而且LDA 模型经常产生无法解释的主题,因此无法将产生的主题与实际应用的主题相关联。考虑文本属性信息与文本主题之间的相关性,将文本属性信息融合到模型的主题发现及演变分析的过程中,利用文本的元数据信息提高主题
挖掘的准确性成为当前热门的研究方向[7]。LDA应用于文本分类时存在的问题是目标文本在不属于自己的分类上进行主题挖掘时,就会发生隐含主题的强制分配。这主要是由于传统LDA忽略了文本所具有的类别标签信息。针对这个问题,Blei等[9]提出了监督主题(Supervised Latent Dirichlet Allocation,SLDA)模型,实现了LDA的监督学习机制。SLDA模型通过Normal线性模型处理连续响应变量来完成文本的类标签判别和回归分析,且可以在类标签的监督下建立和预测更精确的主题;但是,SLDA模型仅能处理文本与类标签是一对一的映射关联的单标签文本集,并不能实现多标签的主题分析。李文波等[8]提出了一种附加类别标签的LDA模型,该模型可以在各类别上协同计算隐含主题的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷;但是,该模型只实现了类标签与主题之间一对一关联,不能将标签映射为多个主题的组合分布。Ramage等[10]提出了标签主题(Labeled Latent Dirichlet Allocation,LLDA)模型,将文本表示为标签的多项式分布,解决了文本的多标签判定问题;但是,LLDA模型忽略了人工添加的标记(label)与计算机识别的主题之间的差异性,造成模型与文本之间的拟合不足, 泛化能力较差。
在作者学术挖掘研究方面基于LDA模型的研究取得了一定的成果。Rosen等[11-12]提出了作者主题(Author Topic, AT)模型。作者主题模型将文献的作者信息引入到LDA模型中,实现了文献、作者、主题和词之间的语义主题关联,每个作者可通过多项分布矩阵映射到隐含主题上,每个主题也可通过词语层上的多项分布来描述,文档则可通过主题空间上的作者混合分布来进行建模[1]。在主题发现过程中,作者主题模型没有考虑科技文献固有的发表时间信息。史庆伟等[1]提出了作者主题演化(Author Topic over Time, AToT) 模型,用来分析科技文献中作者与主题的关系、主题随时间的变化规律。
从现有学术挖掘方面研究方面的文献成果来看,国内外在主题模型领域取得了一定的学术成果。但纵观现有文献,到目前为止没有一种主题模型能同时考虑文献的作者属性和类别标签。能否同时利用文献的类别标签和作者属性,来提高作者潜在兴趣主题的发现和主题演化分析的性能?基于这样的考虑,本文提出了一种作者标签主题(Labeled Author Topic, LAT)模型。LAT模型将文献的类别标签引入到AT模型中,分隔了AT模型中作者与主题的关系,将
龙源期刊网 http://www.qikan.com.cn
作者描述为标签的多项式分布,将标签描述为主题的多项式分布,实现文本的多标签判定,提升了AT文档的聚类效果。 1 主题模型 1.1 AT主题模型
作者主题模型用于发现作者与主题之间关联。AT模型是分层贝叶斯网络模型,其由文本、作者、主题和词组成。AT模型假设一篇文本由Ad个作者完成,每个作者描述为K个相互间独立的主题的概率分布,每个主题z描述为词的概率分布,即一元语言模型θz。在给定ATA模型中参数K的基础上,将AT模型在语料库中进行训练,发现潜在的K个主题,即作者的兴趣发现,通过这种方式把文本由词频向量转变为语义主题向量[13]。
以上过程中的Dirichlet分布与Multinomial分布是一个共轭对,α和β分别是θ和φ的超参数,在删除停用词和词干化处理的基础上,字典V由语料库中所有文本的互异单词组成。AT的概率图模型如图1(a)所示,图中的阴影圆圈表示可观测变量,非阴影圆圈表示潜在变量,箭头表示两变量间的条件依赖性,方框表示重复抽样,重复次数在方框的右下角。 2 LAT模型推理和学习
对LAT模型的直接求解非常困难,一种相对简单的方法是采用基于马尔可夫链蒙特卡罗方法的Gibbs采样进行求解。吉布斯抽样(Gibbs Sampling)可以从多元概率分布(两个或多个随机样本的联合概率分布)中获取一系列的随机样本,并利用这些随机样本构成一个马尔可夫链[14]。吉布斯抽样能够降低推导的复杂度,可将参数计算问题转化为一个不复杂的计算和抽样过程。LAT模型采用吉布斯抽样执行近似推理。通过吉布斯抽样算法,LAT模型将得到参数θ(作者标签集合关联的主题多项分布)、φ(主题在字典上的多项分布)和Ψ(作者关联的类别标签的多项分布)。 3 实验与分析
本文将在NIPS和CiteSeer两大数据集上训练和测试标签作者模型。对两个数据库首先经过删除停用词、标点符号及词频较低的处理。经过预处理后,NIPS数据集包括了从1987年到1999年的1740篇文献,2037名作者,2301375个词汇以及13649个互异词汇;CiteSeer引文数据库包括150045篇文献,85465名作者,10810003个词汇以及30799个互异词汇。为了验证在面向多标签文本集时LAT模型主题发现及分类等的性能,对LDA、AT以及本文提出的LAT三种模型进行测试比较。为了使用Gibbs Sampling算法,需要首先设置LAT模型中初始值α、 β。根据文献的研究成果,本文多次实验得出将LAT模型中超参数矩阵β中每个值设为0.01,将超参数α设置为50/K,对实验效果最好[16]。 3.1 模型泛化能力分析