基于LDA特征表达的文本情感分析Word下载.docx

上传人:b****4 文档编号:7800348 上传时间:2023-05-09 格式:DOCX 页数:16 大小:140.26KB
下载 相关 举报
基于LDA特征表达的文本情感分析Word下载.docx_第1页
第1页 / 共16页
基于LDA特征表达的文本情感分析Word下载.docx_第2页
第2页 / 共16页
基于LDA特征表达的文本情感分析Word下载.docx_第3页
第3页 / 共16页
基于LDA特征表达的文本情感分析Word下载.docx_第4页
第4页 / 共16页
基于LDA特征表达的文本情感分析Word下载.docx_第5页
第5页 / 共16页
基于LDA特征表达的文本情感分析Word下载.docx_第6页
第6页 / 共16页
基于LDA特征表达的文本情感分析Word下载.docx_第7页
第7页 / 共16页
基于LDA特征表达的文本情感分析Word下载.docx_第8页
第8页 / 共16页
基于LDA特征表达的文本情感分析Word下载.docx_第9页
第9页 / 共16页
基于LDA特征表达的文本情感分析Word下载.docx_第10页
第10页 / 共16页
基于LDA特征表达的文本情感分析Word下载.docx_第11页
第11页 / 共16页
基于LDA特征表达的文本情感分析Word下载.docx_第12页
第12页 / 共16页
基于LDA特征表达的文本情感分析Word下载.docx_第13页
第13页 / 共16页
基于LDA特征表达的文本情感分析Word下载.docx_第14页
第14页 / 共16页
基于LDA特征表达的文本情感分析Word下载.docx_第15页
第15页 / 共16页
基于LDA特征表达的文本情感分析Word下载.docx_第16页
第16页 / 共16页
亲,该文档总共16页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

基于LDA特征表达的文本情感分析Word下载.docx

《基于LDA特征表达的文本情感分析Word下载.docx》由会员分享,可在线阅读,更多相关《基于LDA特征表达的文本情感分析Word下载.docx(16页珍藏版)》请在冰点文库上搜索。

基于LDA特征表达的文本情感分析Word下载.docx

中文引用格式:

薛睿蓉.基于LDA特征表达的文本情感分析.软件学报.

英文引用格式:

RuirongXue.ASentimentAnalysisMethodBasedonSentimentWordsExtractionandLDAFeatureRepresentation.RuanJianXueBao/JournalofSoftware,2016(inChinese).SentimentAnalysisMethodBasedonSentimentWordsExtractionandLDAFeatureRepresentation

XueRuirong1

1(SchoolofComputerScienceandTechnology,ShanghaiUniversity,Shanghai200444,China)

Abstract:

WiththerapiddevelopmentofWebandallkindsofsocialnetworkplatform,usersnotonlyreceiveinformation,butalsoproduceinformationontheInternet.Userscanparticipantinallevents’discussionwithoutthelimitationoftime,space,nationorsocialstatus.Differentuser’sopinionoremotioncanaffectothers,probably.Computingevent’ssentimentofdifferentstageisimportantforanalyzingevent’ssocialeffectandpredictingnextstage’ssentiment.Thereby,controllingextremeevent’sdevelopment.Inthispaper,IfirstintroducetheresearchstatusinandoutofChina,andthenintroducetwoapproachesofsentimentcomputingbasedonLDA.Atlast,Iwillgivemythoughtsaboutsentimentcomputing.

Keywords:

sentimentanalysis;

sentimentwordsextraction;

latentDirichletallocation;

topicmodel

1背景与研究问题提出

互联网技术的快速发展,使得用户表达心声的平台也发生着巨大变化,他们可在微博、论坛等新型媒介上发表个人意见、表达情感观点,这些主观性内容蕴含着巨大的商业和社会价值。

对这些信息进行整理分析,一方面可以帮助商家及时获取用户意见,更好地了解用户的个人喜好,从而通过改善产品和服务使商家在市场上立于不败之地;

另一方面这类信息往往表达了大众真实的社会认知观,对政府部门来说,通过挖掘分析这类主观信息,倾听不同阶层、不同生活领域的民众心声,在一定程度上了解用户的关注焦点,以此为参考来制定正确的法律法规,促进社会和发展。

这些信息以图片、声音、文本等不同的形式出现,但目前文本形式占主要地位,并且它们的信息量相当庞大,迫切需要借助计算机并使用数据挖掘、信息检索等技术对其进行准确有效地整理、归纳。

文本情感分析,是指对那些带有个人主观意见的文本进行分析整理的过程。

作为数据挖掘的一个新兴领域,具有重要的学术研究价值和实际应用价值。

按照适用范围的差别,通常将文本情感分析分为两大类:

(1)基于产品的评论情感分析,一般用于辅助企业做出正确的市场导向;

(2)基于新闻的评论情感分析,常用于辅助政府相关部门进行舆情分析。

文本情感分析的主要任务之一是通过研究在互联网上主动发布的个人观点,识别出这些发布者的情感倾向,主要包括情感信息抽取和情感分类两部分工作。

随着时代的到来,用户不但是信息的接收者,而且是信息的创造者。

人们可以不受时间和地域的限制分享各种不同的观点,而且在得到自己需要的信息的同时也可以发布自己的观点。

信息在网络上不断的累积,不会丢失。

并且随着微博、微信、人人、Twitter、Facebook等社交网站的发展,人们相互之间的交流更加频繁,信息的传播与演化更加迅速。

网络是现实社会的映射,现实社会中所发生的事件会在网络中被放大,进而反作用于物理社会。

而非常规突发事件的极端负面情绪,可能会误导大众对事件的真实看法,进而造成不良影响。

因此,准确计算网络事件不同阶段的情感并预测下一阶段的情感倾向,从而采取必要的

施以尽可能的控制事件的发展、维护社会和平具有重要意义。

2国内外研究现状与最新进展

目前,国内外对文本的情感计算主要可分为篇章级情感计算、句子级情感计算、词汇级情感计算和属性级情感计算四大类。

2.1篇章级情感计算

篇章级情感计算本质上是一个文本分类问题,因此已有的监督学习方法都可用于情感计算。

篇章级情感计算又可分为监督学习与非监督学习方法,具体方法如下:

(1)监督学习

Pang等[1]是第一篇用监督学习方法将电影评论分为两类:

正向和负向,实验结果显示使用词袋作为特征量并用SVM作为分类器的效果最好。

后续的研究主要是特征选取优化和分类器构建。

Cui[2]通过实验证明,当训练语料较少时,unigram的效果较优;

但随着训练语料的增多,n-gram(n>

3)发挥了越来越重要的作用。

Kim[3]除了考察传统的n-gram模型之外,还引入了位置特征和评价词特征来完成句子级的情感计算。

唐慧丰等[40]实验结果表明:

在训练集和选择特征数量适当时,采用BiGrams特征表示法和SVM分类法,情感计算效果最佳。

BingLiu[4]对现有的构建情感特征集的方法进行了总结。

最近网络文本情感计算的研究热点逐渐转向Twitter、微博等短文本。

Go[5]等人是第一波对Twitter文本情感极性计算的研究,其在Twitter上用监督分类的方法,使用情感符号作为正向和负向推文的标志。

Read[6]借用此法,用正向、负向情感符号分别生成了正向、负向推文的语料库,并总结出简单的二元法结果最好。

Pak等[7]也通过生成Twitter舆情语料,对文本中的表情符号、词性、句法等特征训练分类器,比较得出使用二元法和词性标签的朴素贝叶斯实验结果最好。

Zhang等[8]用监督学习算法自动将文本分为正向、负向两类。

DavidovD[9]使用Tweets中的标签、表情符号等作为特征,训练一个类似KNN的分类器进行Tweets情感极性的挖掘。

BarbosaL[10]采用二部分类法对Tweets情感进行挖掘,利用某些网站对于Tweets所提供的情感计算的结果作为训练数据,然后选用一些特征。

Jiang[11]等基于推文中目标词汇进行情感计算,并将推文文本内容中的信息加入到事件总文本中。

分别使用SVM和GeneralInquirer将文本分类为正向、负向和中立三类。

daSilvaNFF等[12]使用了多种分类器,提高了对Twitter中情感计算的准确性。

监督学习的人为主观因素较强,训练样本的选取和评估需花费较多的人力、时间。

且只能识别训练样本中所定义的类别,对于因训练者不知或因数量太少未被定义的类别,监督分类不能识别,从而影响分结果。

(2)非监督学习

非监督学习方法中,Turney[13]通过规则抽取的phrasal,并根据两个词条的PMI公式和搜索引擎检索结果,得出计算一个短语的polarity公式。

Taboada等[14]基于词典的,使用了情感词汇和情感倾向相关的短语组成的辞典,为每篇文献计算情感分数。

XiaHu[15]使用了社交媒体中包含的情感信号进行了有效的情感计算。

非监督学习缺点:

对其结果需进行大量分析及后处理,才能得到可靠分类结果;

分类出的集群与类间,或对应、或不对应。

2.2句子级情感计算

句子级情感分类主要分为两部分:

首先,句子主观性和客观性的判断。

其次,对主观性句子情感倾向的分类。

如果句子被判断为主观性句子,则可对其判断极性。

文档级监督学习方法和基于辞典方法都可用于句子级情感计算。

对于主观句子,Yu等[16]对TurneyAlgorithm[13]进行改进实现情感计算。

Gamon等[17]半监督的学习方法用于学习少量带标签的句子和大量无标签的句子。

McDonald等[18]识别在线讨论者的情感,其算法只考虑第二人称的句子片段,先使用监督学习找出含态度成份的句子,使用马尔科夫模型识别特征,再决定态度的情感倾向。

DayalaniGG等[19]将tweet情感标签分为两个集合:

正向和负向。

将每条tweet的情感词汇情感值的加权平均数作为tweet的情感值。

YYamamoto等[20]构建了基于电影评论的情感辞典,和基于十维情感的、包含情感标签和情感值的情感辞典。

将情感标签作用分为四类:

assuagement、conversion、addition、emphasis。

再基于标签作用决定一条tweet的情感值。

缺点:

部分客观句子仍会出现带观点倾向的现象。

如:

XX产品今年产量同比去年下降%。

片面地先判断句子主客观性再判断情感倾向,会缺漏部分带观点倾向的句子。

2.3词汇级情感计算

无论是句子级还是篇章级情感计算都要基于情感的最小单元——词汇情感进行计算。

目前已有的主流词汇情感计算方法如下:

Hatzivassiloglou[21]基于这样的一种语言现象:

“Adjectivesconjoinedby‘and’havesamepolarity;

Adjectivesconjoinedby‘but’donothavesamepolarity”,提出了基于bootstrapping的学习方法,但基于此的形容词分类准确性(78%~92%)。

Turney等[22]构建了小范围监督算法,通过判断其与小簇正向/负向种子词汇共线倾向更大,计算单个词汇极性。

Esuli等[23]使用监督分类器和人工标注的方法构建了情感词汇网络(SentiWordNet,SWN)。

词汇情感判定受语境影响较大,当上下文语境变化较大时,情感词汇常出现情感反转的现象,给判断词汇情感造成困扰。

2.4属性级情感计算

上面介绍了文档级、句子级、词汇级情感分析,但是,实际上一篇文档(评论)中往往会提及不同的方面/属性/对象(以下统称属性),且可能对不同的属性持有不同的倾向性。

目前研究表明,基于属性的情感计算能显着提高情感计算的准确性。

Blair-Goldensohn等[26]提出了一套通用的aspect-basedsummarizationmodels。

Wei等[27]提出了分级模型,关键是如何确定每个情感表达的范围,现在主要方法是使用parsing确定依赖关系和其它相关信息,如:

Jiang等[28]提出依赖性分析程序,用于生成一组属性依赖特征,用于分类。

相关方法也在(BoiyandMoens)[29]中使用,用于衡量基于position特征的权重。

对于比较性句子而言,than或其它相关词汇能用于分割句子(Ganapathibhotla等[30])。

Mitchell等[31]将顺序时间标记模型运用于实时检测实体,并预测其观点。

Dong等[15]提出适应性递归神经网络用于Twiiter中目标的情感计算,将已知的情感词汇的情感信号通过依赖树传递到指定情感目标。

VoDT[32]构建了target-dependent的tweet情感计算模型,该模型中不实用外部语义分析器,而是将一条tweet分为三部分:

目标、目标左侧内容,目标右侧内容,并假设目标的情感由左右两侧内容决定。

Tweet中的单词用两种分布式词特征表示:

skip-gramembedding(Mikilov等)[33]和情感驱动embeddings(Tang等[34])。

3典型的模型与方法简介

3.1LDA模型

LDA[35]于2003年提出,是一种主题模型,在PSLA上加上了贝叶斯框架。

它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。

同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。

此外,一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。

人们在编写文档时,事先计划要讲述那几个主题。

每个主题一般是使用该主题下出现频率较高的词项,进行描述。

所以在主题模型下,含有相近或者相同含义的词项,其在同一主题下的生成概率相近。

按照贝叶斯学派的观点:

后验分布=先验分布+概率分布[36]()

为了使先验分布和后验分布在形式上一致性,Blei等人使用Multinomial的共轭分布——Dirichlet分布。

从而使得文档与主题的先验与主题之间,词项与主题的先验与词之间是满足Dirichlet—Multinomial共轭结构。

先验概率和后验概率满足共轭分布,可以让后续的推导更为简便。

所以,LDA模型的图模型如图所示:

图:

LDA图模型结构[35]

对于语料库中的每篇文档,LDA定义了如下生成过程:

1)对每一篇文档,从主题分布中抽取一个主题;

2)从上述被抽到的主题所对应的单词分布中抽取一个单词;

3)重复上述过程直至遍历文档中的每一个单词。

在LDA中,估计和这两未知参数可以用变分EM算法,也可以用Gibbs采样,前者的思想是最大后验估计MAP,后者的思想是贝叶斯估计。

贝叶斯估计是对MAP的扩展,但它与MAP有着本质的不同,即贝叶斯估计把待估计的参数看作是服从某种先验分布的随机变量。

使用GibbsSampling训练LDA的过程如下[36]:

1)对于语料库中的每一篇文本的每一个词,随机赋予一个主题标号;

2)重新扫描语料库,对其中的每一个词项,使用条件概率公式重新采样它的主题标号,并在语料库中进行更新;

3)重复

(2)中的重新采样过程直到GibbsSampling收敛;

4)统计语料库中词项与主题之间的共现频率矩阵和文本与主题之间的共现频率矩阵,就可以获取LDA的训练结果。

3.2情感主题模型(EmotionTopicModel)

ETM[37]是一种为文本挖掘社会情感而提出的联合情感主题模型。

其在传统的LDA模型上加入一层情感模型的隐变量。

该模型对情感的探测仍然遵循三步生成模型的过程:

首先,从指定文本的情感分布中生成情感;

其次,在给定情感作为先验分布的多项式分布中生成一个隐主题变量;

最后,在基于隐主题变量的另一个多项式分布中生成文本的词汇项。

所以,完整的ETM图模型如图所示:

Emotion-Topic图模型[37]

其中,各参数满足的分布如下:

所有变量的联合概率分布如下:

由于对情感主题模型无法准确推到后验公式,因此用GibbsSampling的近似推导方法。

对每维情感及每个主题的后验分布估计基于以下边缘分布:

作为一个完全的生成模型,我们能从情感主题模型包含的不可见文本中推测出大量条件概率,如给定某一维情感的隐主题分布,以及给定主题下的词分布。

3.3多标签监督主体模型(MSTM)与情感隐主题模型(SLTM)

为了克服现有研究方法的缺点,提出两种情感主题模型分别为多标签监督主体模型(Multi-labelSupervisedTopicModel,简称MSTM)和情感隐主题模型(SentimentLatentTopicModel,简称SLTM)。

对应的图模型分别如下图所示:

Multi-labelSupervisedTopicModel图模型[38]

SentimentLatentTopicModel图模型[38]

MSTM中加入了读者对文章的多维情感表情评定等级。

对每篇文章先按狄利克雷分布生成词汇主题分布和情感主题,然后从两种主题下分别生成对应的词汇和情感标签。

情感和词汇的主题对应的后验条件分布分别如下:

而SLTM是先生成情感主题分布,再生成词汇主题分布。

4我的思考

随着Web的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式架构理念。

用户由一开始单纯的“读”网页向“写”网页、“共同建设”互联网发展,由被动的接收信息向主动创造信息转变。

并且随着社交网络平台的兴起,网络上产生了大量的用户发起、评论、转发和点赞等信息,这些信息表达了人们各种情感如喜、怒、哀、乐、惊、惧。

基于此,潜在的用户就可以通过浏览这些具有主观色彩的评论来了解大众舆论对于某一个事件的观点和情感。

由于越来越多的用户在社交网络平台上分享自己的观点,没有了时间、空间、民族等的限制,信息具有了多源开放、快变多样、纷繁破碎、价值稀疏的特点,仅仅依靠人工的方法难以应对网上海量数据的收集和处理。

因此估测公众对社会事件、政策变动、公司决策、市场活动和产品评价的观点越来越迫切[39]。

本文第三小节主要介绍了如何在原有经典LDA的基础上加入情感层变量,用以从现有观测变量如词向量中学习训练出关于情感和主题的变量。

而实际对两种方法的实验再现中,我发现对于网络短文本的主题与情感获取过程中,往往训练结果是每篇文章对应非常稀疏的主题分布,而每个主题下对于的情感分布是更为稀疏的情感分布。

而如今,对于网络上最容易获取的数据源通常是如微博等各大社交平台的留言记录。

这些数据都是海量的web数据,这些数据往往具有如下特性:

数以亿计的社交媒体用户不定时在博客、Twitter等媒体中发布内容各异的文本。

日新月异,网络上保留着大量用户的不同言论数据,如twitter中的推文,微博、微信中存在大量表达用户观点、态度、看法的短文本,用户的情感也蕴含在这些短文本中。

这些都为研究社交媒体中文本的情感提供了海量的数据。

不同的事件中不同的用户往往有自己特定的情感表达方式。

而个异性的表达方式则使某一事件中能准确表达情感的词汇组合模式不尽相同。

因此,基于网络的社交媒体情感数据丰富海量,情感模式隐晦模糊。

网络社交媒体与现实事件总是息息相关,而现实事件引发的话题总是会引导用户的舆论趋向,从而导致社交媒体中产生以相应话题为中心的情感。

对某一事件,用户讨论的事件话题多样,但是由于话题数据之间的关联极度分散且组织结构极度混乱,造成话题情感碎片多样。

不同用户,甚至同一用户不同时段通过社交文本表达出的情感也是有微妙变化的。

往往随着话题事件的变化,关注该话题的用户群体的总情感倾向在不同时间段也会出现或多或少的变化。

极端情况如“女司机”事件,社交媒体用户对事件主角的情感在一夜之间有了颠覆性的变化,从起初对女司机的同情转移到最后的愤怒。

因此,随着社交媒体技术的运用越来越广泛,文本的情感也呈现出“话题情感碎片多样,情感状态转移迅速”的特征。

在网络用于更新换代如此迅速的时代,用于情感表达的词汇也往往日新月异。

因此,对于感情倾向都会完全颠覆的词汇,如“土豪”一词,由旧社会时期的贬义词变为如今的奉承词汇。

这对辨析其当下社交文本中真实的情感是难上加难的。

网络用户在日常交流中,往往会创造出新颖的词汇,如“喜大普奔”“狗带”等。

而语言表达中,带有情感倾向的词汇本就只是所有词汇中的少部分,更多词汇是不带有情感倾向的代词、助词等。

与语义相关的形容词、副词等才是表现出作者显式情感的词汇。

短文本往往存在句子成分缺失的问题,且对于某一事件的短文本往往存在很多的冗余和噪音,词汇之间的情感关联呈现稀疏的特征。

因此,文本用户发布的诸多文字中,如何确定表达情感的词汇及其表达的情感种类,更是一大难点。

故而,新型的社交媒体中“情感词汇新颖易变,词汇情感关联稀疏”。

为追求表达内容丰富而形式简练,网络用户往往会将文字与标签混用来表达自己的情感及其强度。

而标签在句子中位置也是变化的,可存在于句子的开始、中间或者末尾。

并且一篇短文本中的标签表达的情感多样,难以判定句子情感,具有混杂之感。

如在“悲伤”词汇后加上若干个以表达情感的真切与程度之深。

各社交媒体都有各自独特的标签,而标签在网络中流传中会改变初始的情感色彩。

如,由最初单纯的“蜡烛”含义,引申为“祈祷”“哀悼”等更复杂的含义。

,由“再见”引申为“无法交流”“不想搭理”的含义,并非真的再见或结束聊天。

“词汇标签混杂共存,情感标签纷繁杂乱”的特性,显而易见。

综上四点可见,社交媒体中文本情感具有自身的特点。

如何针对这些特征,探索出切实可行的解决方法,才是当下对社交媒体文本情感探索的当务之急。

除此之外,由于从读者角度和作者角度的情感分析是有差异的,而之前提出的种种模型都不能很好解决这个问题。

因此,为了研究作者角度的情感,应该使用的情感标注应该是文本中的情感标签而不是使用读者读完特定新闻后给出的评论中的情感。

而前人基于LDA的情感研究并不能很好的区分这两者,这对实验结果也有很大影响。

因此,在估计作者写出的文本本身的情感时用到的先验分布,不能是读完文章后的读者的评论中的情感标签数据,而是应该是将文本本身的情感标签作为标记。

再者,很多现有的情感计算研究都是基于数据集的,有一些情感计算方法是针对不同的事件来进行,我认为这种方法并不合适。

因为关于一个事件的消息数量毕竟有限,而且不同的用户对于某一词汇的情感理解可能也是不同的,按照这个想法,相比于按事件进行词汇情感计算,我觉得按照用户进行计算可能得到的事件情感准确率会更高一点。

但是网络上的用户太多了,如果对每个用户的用词习惯都进行分析,将会是一个非常庞大的工作。

而且网络上的用户也在变化,每天都有不同的用户加入到网络中或者退出,因此这种方法也是不可行的。

5结论

社交媒体情感挖掘有很多潜在的应用,包括基于情感的文本检索与在线新闻的情感分类。

它也能帮助理解网络用户的情感倾向于特征,并分析新闻从的人为用户提供更相关和个性化的鼓舞。

在本文中,介绍了两种用户为中心的情感主题模型ETM和MSTM&

S

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2