LDA主题模型的社科应用及软件实现
编者按:
LDA主题模型(Topic Model),是一种能够从大量文本中提取出主题的概率模型,随着越来越多可利用的文本型数据,该模型逐渐被运用到主题发现、文档标记等社会科学的研究中。本期推送主要介绍LDA模型的可视化实现及相关的两个社科研究实例。
这是社论前沿第S1280次推送
微信号:shelunqianyan
LDA主题模型核心应用为从大量文本中提取出核心主题及各个主题对应的相关词汇。我们可以从中了解到每个主题的含义及发生频率、主题之间的关联度。因此,主题建模构建了一个话语环境或框架,这些环境或框架定义了焦点问题与其他结构之间的关联模式。这是一种适合大规模文本分析的非监督方法,适用并不局限于挖掘文本核心思想、掌握事件动态、构建学科框架等问题的研究。
01
Dimaggio等(2013)收集了1986年至1997年期间休斯敦纪事报、纽约时报、西雅图时报、华尔街日报和华盛顿邮报涉及美国政府对文化资助的8000篇报道。介绍了如何利用报纸文章的概率主题模型来研究文化趋势,同时结合有监督学习方法来挖掘影响社会意识趋势的可能因素。具体分析过程包括两个部分:首先,运用LDA模型挖掘主题,并对主题的发展趋势及情感基调进行分析;其次,以主题是否发生为因变量构建logit模型,对可能影响主题发生的社会及政治因素进行了分析。
02
Miller和Matthew(2013)对清朝时期各地关于暴力犯罪和叛乱的国家文件进行主题分析。挖掘出清朝时期的五个暴乱主题,对其发展趋势进行了对比分析,并利用跨省数据研究了其演变的可能驱动因素。结合历史背景,验证了关于人口变化、实务危机、国家权力、士绅治理和跨区域粮食市场一体化对暴乱的影响。结果表明,虽然人口的快速增长和粮价上涨可能导致了19世纪中国暴力事件的增加,但在此期间国家权力的稳步上升可能会扼杀地方自治和跨区域市场一体化,从而导致更多的人,特别是那些经历过边缘化的人,诉诸暴力以求生存。
下面以一个例子来介绍用R软件建立LDA模型及其可视化过程。
在建立模型之前首先要对文本数据进行预处理:①提取评论文本,②分词,③去掉停用词、数字等不符合条件的词条,④根据词频创建一个词料库,⑤创建符合LDA模型的数据格式。
这里例子所用的数据来自大众点评某清真饭店的客户评价文本。数据包括每位客户的ID、评分、评论文本等信息,这里需要的仅仅是客户的评论文本数据。
提取好客户的评论文本之后需要对文本进行分词。对文本分词后得到的词语进行进一步的处理:去掉长度为一的词、去掉数字、去掉出现次数小于5的词。最终得到的vocab为模型需要的词库。
接下来需要把文本的格式整理成Lda包建模需要的数据格式:对每一条评论,第一行对应词库vocab的ID,第二行是词在文本中出现的频次。具体代码如图3所示,doc为长度为评论数的列表框,每个子列表框满足以上格式。
至此,我们已经完全创建好lda包建立模型所需的数据格式。
以上是LDAvis可视化的代码,运行以上代码在默认地址会得到一个名为vis的文件夹,浏览器打开可得到下图所示的结果。
根据图形我们可以得出以下结论。
1. 结果的左侧是多维分析的结果,每个气泡代表一个主题,右侧是与该主题相关的词,关于每个主题的具体含义可以由右侧的词汇总结得到。对此例来说,主题1主要代表菜品和味道,主题2主要代表品牌字号,主题3主要代表味道好(几乎占了全部的“好吃”这一词汇),主题4主要代表了菜品和环境,主题5主要代表了价格,主题6主要代表了服务。
2. 左侧多维分析表中气泡的大小代表了该主题出现的频率,气泡越大表示该主题出现得越频繁,就本例来说,大的气泡代表了客户对该主题的关注程度,由1的分析可知,该店客户主要关心的是菜品和味道。
3. 主题之间有什么关联?这里利用多维尺度分析,提取出主成分做维度,将主题分布到这两个维度上,主题之间的位置越近,就表达了主题之间的接近性。
END
参考:
Dimaggio P , Nag M , Blei D . Exploiting affinities between topic modeling and the sociological perspective on culture: Application to newspaper coverage of U.S. government arts funding[J]. Poetics, 2013, 41(6):570-606.
Miller, Matthew I . Rebellion, crime and violence in Qing China, 1722–1911: A topic modeling approach[J]. Poetics, 2013, 41(6):626-649.
http://blog.csdn.net/v_july_v/article/details/41209515