基于概率主题模型的景点知识挖掘及其可视化

龙源期刊网 http://www.qikan.com.cn

基于概率主题模型的景点知识挖掘及其可视化

作者:徐洁 范玉顺 白冰 来源:《计算机应用》2016年第08期

摘要:针对旅游文本噪声多、景点多且展示不直观的问题,提出一种基于概率主题模型的景点主题模型。模型假设同一篇文档涉及多个具有相关关系的景点,引入“全局景点”过滤噪声语义,并利用Gibbs采样算法估计最大似然函数的参数,获取目的地景点的主题分布。实验通过对景点主题特征进行聚类,评估聚类效果从而间接评价模型训练效果,并定性分析“全局景点”对模型的作用。实验结果表明,该模型对旅游文本的建模效果优于基准算法TF-IDF与隐含狄利克雷分布(LDA),且“全局景点”的引入对建模效果有明显的改善作用。最后通过景点关联图的方式对实验结果进行可视化展示。

关键词:概率主题模型;旅游文本;噪声;Gibbs采样;可视化 中图分类号:TP391 文献标志码:A 0引言

Web 2.0技术及在线旅游代理(Online Travel Agent, OTA)的飞速发展导致旅游数据爆炸性增长。如何有效地从海量旅游数据中挖掘出有用的信息并以直观方式进行展示成为当前的迫切需求。

近年来,对旅游数据的挖掘工作多集中于对旅游照片及相应元数据、标签的研究,如文献[1-2]等利用Flickr网站用户上传的海量旅游照片及标签信息对景点进行聚类分析;文献[3]从Panoramio[4]网站采集照片聚成地标,并为每个地标找到最具代表性的照片与标签等。随着文本数据挖掘的快速发展,旅游文本数据相关的研究工作方兴未艾,相关研究工作通常可分为两类,即词频分析法和主题挖掘法。词频分析法利用词频统计结果进行文本分析,如文献[5]采用词频分析法刻画目的地旅游感知形象,文献[6]利用内容分析法(Content Analysis, CA)获取目的地语义网络分析图等。该类方法将单词视为单纯的文本符号,无法识别其中的语义信息。主题挖掘法采用或扩展隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)[7],利用潜在主题识别语义信息,从而提高文本数据挖掘的效果,如文献[8-9]提出一种地点主题(Location-Topic, LT)模型用于挖掘目的地的主题分布信息,以文本标签形式生成目的地概述。然而旅游目的地由景点组成,目的地特征由景点的类型与特征构成,同一文本可能涉及不同景点,这些景点间具有地理位置、主题等关联关系(如图1方框标注),上述方法对地点划分粒度较大且没有考虑景点关联关系。另外,旅游文本中常包含时间、门票、电话等与景点主

龙源期刊网 http://www.qikan.com.cn

题特征相关性不大的信息,即“噪声语义”(如图1椭圆标注),多数主题挖掘方法没有考虑噪声语义消除问题,LT模型虽可利用“全局主题”过滤噪声语义,但模型复杂度较高。为充分利用景点间的关联关系,有效消除噪声语义,本文提出一种简单的基于概率主题模型的景点主题模型(Scenic spots-Topic Model with Global Scenic spot,GS-STM)以无监督地从旅游文本中挖掘景点主题分布信息,并以景点关联图的形式展示旅游目的地的景点类型与主题特征。 1相关工作 1.1概率主题模型

概率主题模型是针对文本中隐含主题的一种建模方法。由于不需要对文档进行人工标注及可自动分析主题的特点,概率主题模型已被成功运用到多种文本挖掘问题中。它的主要思想是认为文档是若干主题的混合分布,而每个主题又是一个关于单词的概率分布。

自提出以来,概率主题模型经历了潜在语义分析(Latent Sematic Analysis, LSA)[11]、概率潜在语义分析(probabilistic Latent Sematic Analysis, pLSA)[12]、LDA、 分层狄利克雷过程(Hierarchical Dirichlet Process, HDP)[13]等阶段的发展,目前以LDA应用最为广泛。LDA是一种生成模型:对于新文档中的每个单词,通过主题的分布随机得到文档的某个主题,然后通过该主题中单词的分布随机得到一个单词。

如图2所示,LDA是典型的有向概率图模型[14],超参数α反映了文档集合中隐含主题间的相对强弱,超参数β刻画所有隐含主题自身的概率分布。 1.2可视化模型

可视化技术因具备直观、易理解的特点被广泛应用于各个领域,它用二维或三维图像的方式展现数据,便于发现数据的分布特征及其中蕴含的模式特征[15]。图是一种典型的数据结构,很多数据均可通过图来表达。

力导向模型(force directed model)是一种基于物理方法的可视化模型。该模型将图类比为一个虚拟的物理系统,图的各个节点看作系统中的质点,节点之间的边看作节点间的相互作用力(同时包括引力和斥力)。模型将胡克定律作为基本算法,每次迭代,节点向所受合力的方向移动,经足够的迭代后,系统达到平衡,此时系统中的能量达到最小,图的可视化显示最为美观。

力导向算法基本过程如下: 1)随机分布初始节点位置;

2)分别计算局部区域内边的引力和斥力所产生的两端节点的单位位移;

龙源期刊网 http://www.qikan.com.cn

3)累加步骤2)得到的所有节点的单位位移; 4)重复步骤2)、3)直到达到理想效果。 2景点主题模型

本章介绍GS-STM,并采用Gibbs采样[16]算法对模型进行求解,从而获得景点与主题、主题与单词之间的概率分布。

从图4可以看出,三种基于概率主题模型的方法——GS-STM、STM、LDA的DBI值均低于TF-IDF,说明基于概率主题模型的方法能够有效利用文档中的语义信息;不同主题数下,GS-STM、STM的DBI值均高于LDA,说明考虑文档中多个景点对提升模型建模效果是有效的;而GS-STM的DBI值总是高于STM,说明全局景点的引入能明显改善模型建模效果。 3.3.2定性分析

分别采用GS-STM、STM对旅游文本进行训练,结果显示当主题数为80时,训练效果最好。设定主题数为80,STM得到80个主题,而GS-STM方法得到68个有效主题、12个无效主题。

表2~4分别列出了GS-STM训练得到的5个“有效主题”“无效主题”及STM得到的5个主题,每个主题显示5个

最相关单词和5个最相关景点。

表2中,“有效主题”对应特定景点类型,如“运动”“购物”“电影”等主题。具有地理相关或主题相关关系的景点被列入同一主题,如Topic#38中,“鸟巢”“奥林匹克体育中心”等体育场馆被列入同一主题,同时与之地理邻近且主题相关的“奥林匹克森林公园”等也被列入同一主题。 表3中,从主题最相关单词角度看,各主题中单词多为“噪声语义”,如Topic#32中,“门票”“电话”“世界”等在多数景点介绍文档中均有出现;从主题最相关景点角度看,各主题中全局景点概率最大,且远高于其他景点,因而利用全局景点将该类主题设为“无效景点”是合理有效的。

表4中,Topic#8Ⅱ和Topic#19Ⅱ分别对应表5中的“购物”主题和“电影”主题,即Topic#4和Topic#75,对比主题相关单词构成可见,Topic#8Ⅱ和Topic#19Ⅱ中的“电话”“核心”等单词并不能准确描述并区分主题,GS-STM通过全局景点将这些词归属到“无效主题”(Topic#17,Topic#32)中,从而有效减少主题描述单词中的噪声语义,使得主题描述单词更准确有效;Topic#55Ⅱ、Topic#67Ⅱ、Topic#78Ⅱ所示主题中的单词并不能准确描述相关景点,实为“无效主题”,STM不能识别。

联系客服:779662525#qq.com(#替换为@) 苏ICP备20003344号-4