概率主题模型中英文翻译 下载本文

学号:。。。。。

2015届本科生毕业论文英文参考文献翻译

概率主题模型

学院(系): 专业年级: 学生姓名: 指导教师: 合作指导教师: 完成日期:

。。。。 。。。。 。。。。 。。。。

。。。。

概率主题模型

译文:

概率主题模型

原著:David M.Blei

随着集合性的知识越来越多的被进行数字化和存储为新闻,博客,网页,科学杂志,书籍,图片,声音和社会网络的形式,想要寻找和发现什么才是我们需要的变得越来越困难。我们需要计算工具来组织,寻找和理解这些非常大量的信息。

现在,我们主要用搜寻和链接这两种工具来处理在线信息,我们将关键词输入搜索引擎然后找到一系列与之相关的文档。然后我们查阅文档,然后再链接到其他的文档。这是一个和我们的在线档案相互交互的一种有力方式,但是这种方式会导致有些东西丢失掉。

假设通过主题来搜索和发现需要的文档,我们可以通关放大或者缩小的方式发现特定的或者广泛的主题,我们可以看到这些主题随着时间是如何改变的或者它们是如何相互连接的。而不是仅仅通过关键词来寻找文档,我们可以首先找到我们感兴趣的主题然后检测与主题相关的文档。

比如,假设我们用主题来探索纽约时报的整个历史。就一个广阔的层面来说,一些主题可能和报纸,国外政策,国家事务,体育这些部分有关。我们可以缩小感兴趣多的主题的范围,比如国外政策,显示它的各个方面,中国的对外政策,中东的冲突,美国和俄罗斯的关系。我们可以发现这些特定的主题是如何随着时间变化的,然后进行追踪,比如过去五十年中东的冲突的变化。在整个探索的过程中,我们可以指出和主题相关的原始文章。主题结构可以是一种用来发现和吸收文档的新窗口。

但是和电子文集的交互我们并不适用上面的方式。随着越来越多的文本可以在线获取,我们没有人力来阅读和学习它们来提供像上面描述的那种浏览体验。为了达到这个目的,机器学习研究人员发展了概率主题模型,这是一套目的是发现和给大量与话题信息有关的文档集进行注释的算法。话题模型算法是分析原始文本的词语来发现其中的主题的统计方法,这些主题是如何相互联系的,还有它们是如何随着时间变化的。(看,比如图三就是通关分析耶鲁的法律杂志得到的话题。)话题模型的算法不需要文档有任何注释或者标签,话题从原始文本中分析出来。话题模型可以帮助我们对那些人工不肯能完成的电子文集进行组织和进行。

潜在的狄利克雷分布

我们首先描述一下潜在的狄利克雷分布(LDA)的基本思想,这是一种最简单的话题模型。LDA背后的直觉是文档展示的都是许多话题,比如,图一中的文章。这篇文章,名字是《寻找生命的必需品(基因)》,这是一篇关于使用数据分析来决定一个有

- 1 -

概率主题模型

机体需要多少基因才能生存下来的文章。

我们已经将在文章中使用过的不同的词语进行了突出显示。有关数据分析的词,比如计算机还有预测等等被用蓝色进行标记;有关生物进化的词语,比如生命和有机体被用粉色进行了标记;有关基因的词语,比如序列化和基因被用黄色进行了标记。如果我们花时间将文章中的每一个词都用颜色进行了标记的话,你可以看到这篇文章是由遗传学,数据分析还有生物进化以不同的比例混合而成的(我们去除了和,但是,如果这种不含有话题内容的词)。此外,知道了这篇文章由不同的主题混合而成会帮助你将它定位到科学文章集中。

LDA是一个尝试获取这种直觉的文档集的概率模型。它最容易被生成过程所描述,模型假设文档由虚拟化的随机过程产生(LDA作为概率模型的预测稍后给出)。

我们现在正是将话题定义为一些固定的词汇的分布。比如遗传学这个主题有和遗传学有关的概率很高的词语,生物进化这个话题有和生物进化有关的出现概率很高的词语。我们假设这些话题是在任何数据生成前就定好的。现在对于文档集中的每一篇文档,每一个词我们用两步来生成。

(1)随机选择一个话题的分布 (2)对于文档中的每一个词语

a.从第一步的主题分布中随机选择一个主题。 B.随机从相关的词汇分布中选择一个词。

这个概率模型是对文档的多样化的话题进行展示的一个反映。每一个文档将主题展示为不同的比例(步骤1);文档中的每一个词从从其中的一个主题中选出(步骤2的b),选中的主题是从每个文档的主题分布中选出的(步骤2的a)。

在例子文章中,话题的分布就是遗传学,数据分析和生物进化的概率,每个词都是从这三个主题中来的。注意到文档集中的下一个文章可能是关于数据分析和神经科学的。它的主题分布就是这两个话题的概率。这是LDA的不同特性,所有的文档共享一套主题,但是每个文档的话题是以不同的概率展现出来的。就像我们在引言中描述的一样,话题模型的目标是自动发现一个文档集中的话题。文档们是可以看到的,但是主题结构,每个文档的话题分布,每个文档的每个词的所在话题的分布是隐藏在结构中看不到的。话题模型的中心计算任务就是使用看得到的文档去推理得出隐藏的话题结构。这可以被认为是逆向的生成过程,是什么样的隐藏结构可能生成了可以看得到的文档集呢?

图2阐明的是使用图1的相同的文档例子。这里,我们从科学杂志中选择了17000篇文章病情使用了话题模型算法来推测隐藏的话题结构(算法假设有100个话题)。

我们然后为例子文章计算了话题的分布,话题的分布非常好的描述了特定的词汇集。注意到这个话题分布,尽管它可以使用任何话题,但是只有山部分是“激活的”。而且,我们可以从每一个最有可能的话题中检测概率最高的词语。在检测中,我们可以

- 2 -

概率主题模型

看出这些条目是作为遗传学,生存和数据分析识别的,这些话题组合成了例子文章。

我们要强调的是算法没有关于话题的信息,文章也没有用话题和关键字进行标注。话题分布的预测是由计算可以看到的文档集的隐藏结构得到的。比如,图3阐述的是从耶鲁杂志中发现的话题(这里将话题的数量设置为20)。那些有关遗传学和数据分析的主题被替换为了歧视和合同法等有关的话题。

主题模型的效用源于推断隐藏的属性结构类似于集合的主题结构。这个推测额隐藏结构为每一个文档进行了标注,这是一个用双手很难执行的任务,并且这些标注可以被用来协助像是信息检索,分类还有文集探索的任务。用这种办法,话题模型提供了一个可以管理,组织还有标注大型文本集的算法方法。

LDA和概率模型

LDA和其他的话题模型是更大的统计模型的一部分。在概率模型的生成中,我们将我们的数据看做是从包含隐藏变量的产生过程中生成的。这个产生过程定义了一个有可观测和隐藏额随机变量的联合概率分布。我们通过使用联合分布来计算条件概率执行数据分析,隐藏变量给出了可观测变量。这个条件分布也被称作先验分布。

LDA正是属于这一个框架。可观测变量是文档的词语;隐藏变量是话题结构;生成过程就像这里被描述的一样。从文档中推测隐藏的主题结构的计算问题是计算先验分布的问题,条件分布的隐藏变量给出了文档。

我们可以正式的将LDA描述为下面的符号。,每一个话题是?1:K,每一个?K是词汇的分布(图1左边的词汇分布)。第d个文档的话题概率是?d,?d,k是话题k在文档d的概率(图1的直方图)。第d个文档的话题分布是Zd,Zd,n是第n个词在文档d的话题分布(图1中的彩色圆圈)。最后,文档d的可观测的词是Wd,Wd,n是文档d中的第n个词,就是一个固定词汇库中的元素。

有了这个符合,LDA的产生过程就如下隐藏和可观测变量的联合分布相关,

p(?1:K,?1:D,Z1:D,W1:D)

??p(?i)?p(?d)i?1d?1KD

(1)

(?n?1p(Zd,n|?d)p(Wd,n|?1:K,Zd,n))

注意到这个分布指定了很多相关性。比如,话题分布Zd,n取决于每个文档的主题概率?d。另一个例子,可观测的词Wd,n取决于话题分布Zd,n和所有的话题?1:K。

这些相关性定义了LDA。它们在统计假设的生成过程中被编码,特别是数学形式的联合分布,还有第三种方法,LDA中的概率图形模型。概率图形模型提供了图形语言来描述概率分布。LDA的图形模型在图4中。这三个代表是描述LDA背后统计假设的等价方式。

N- 3 -

概率主题模型

在下一章节,我们描述LDA算法的推理。但是,我们先停下来描述一下这些想法的简短历史。LDA的出现是为了解决一个之前发展的概率模型(pLSI)的问题。该模型本身是一个概率潜在语义分析版本的开创性的工作,显示的是文档矩阵的矩阵的奇异值的效用。从这个矩阵分解的角度来讲,LDA也可以被视为一种离散数据的主成分分析。

LDA的后验分布

我们现在转到计算的问题,通过可观测的文档计算话题结构的条件概率(像我们之前提到的,这是后验)。用我们的符号,后验是

p(?1:K,?1:D,Z1:D|W1:D)

?p(?1:K,?1:D,Z1:D,W1:D)

p(W1:D)(2)

分子是随机变量的联合分布,可以非常容易的被任何隐藏变量所计算。分母是观察的边际概率,是看到可观测在任何话题模型下的文档集的概率。理论上讲,它可以通过每一个可能的隐藏话题结构的实例的和的联合分布来计算。

然而,这一数字的主体结构可能是指数大,这个和是很难计算的。对于许多现代的概率模型和现代贝叶斯统计,因为分母我们无法计算后验,这是作为一个已知的证据。现代概率模型的一个中心研究目标是发展有效的方法来逼近它。话题模型算法,喜欢用来创建图1和图3的算法,通常是改编为近似的通用方法的分布。

话题模型算法通过适应一种可供选择的,与真实后验相近的潜在主题结构来形成合适的方程2。话题模型一般分为两种类别,基于抽样的算法和变分算法。

基于抽样的算法尝试着从一个近似的经验分布来收集样本。最常见的使用抽样算法的话题模型是吉布斯抽样,我们构造一个马尔科夫链,这是一个随机变量的序列,每一个取决于之前的极限分布。马尔科夫链是定义在隐藏话题变量的特定的语料库,算法将会运行这个链很久,从极限分布中收集样本,然后用收集到的样本进行近似分布(通常,只有一个样本被收集作为主题结构的近似概率最大)。看Steyvers和Griffiths写的一个对LDA的吉布斯分布的很好的描述,还可以通过http:// CRAN.R-project.org/package=lda来看一个快速的开源的实现。

变分算法是一种确定的基于样本算法的选择算法,而不是用样本逼近后验,变分方法假定一个隐藏结构的分布然后找到最接近的后验成员。因此,推力问题转换为一个优化问题。变分方法打开了创新优化实际影响的概率建模的大门。查看Blei的协调提升LDA变分推理算法。查看Hoffman的一个更快速的在线算法(还有开源软件)来更容易的处理上百万的文档还可以适应流媒体文本的集合。

宽松的讲,两种类型的算法都展现的是一个话题结构的搜索。一个文档集(模型中的可观测的随机变量)是作为指导对搜索的地方的固定的服务。哪种方法更好取决于选

- 4 -