基于微博情感分析的分词方法的研究大学论文.docx

资源描述

基于微博情感分析的分词方法的研究大学论文.docx

《基于微博情感分析的分词方法的研究大学论文.docx》由会员分享，可在线阅读，更多相关《基于微博情感分析的分词方法的研究大学论文.docx（52页珍藏版）》请在冰点文库上搜索。

基于微博情感分析的分词方法的研究大学论文.docx

基于微博情感分析的分词方法的研究大学论文

本科学生毕业设计

基于微博情感分析的分词方法的研究

系部名称：

专业班级：

学生姓名：

指导教师：

职称：

黑龙江工程学院

二○一五年六月

摘要

数十年来，我们从几台电脑发展到家家户户存在多台电脑，从没有渠道了解实事到评论各种社会新闻、明星八卦、微博、状态、说说、朋友圈等主客观文本信息。

微博，我个人认为是迷你日志，也就是公共可观赏的概括日记。

是一类关于交友任意时间任意地点发送迷你生活状态的动态网页。

微博共享和交流的信息，其更在意的是时刻和自变量。

这里的情感分析也叫做态度的提取，都指的是将训练数据中的情感、意见、爱恨提取出来。

主观的训练数据（也就是语义态度）在中国其研究情绪十分高涨，倾向于探究文本中包涵的情感是主观还是客观，褒义还是贬义的特点。

本文认为，微博的情感倾向性与所用的分词方法、褒贬义的强度、主客观的强度等因素有关。

所以本文提出了一个以几种分词方法为主要的微博情感分析研究，选择bi-gram、斯坦福、中科院、哈工大作为微博的特征，以逻辑回归的模型作为此系统的机器学习机制，利用标注为主、客观的微博训练数据获得基于逻辑回归模型的主客观分析模型。

这系统执行后，得出结论：

总体来说，斯坦福中文分词，中科院中文分词，哈工大中文分词都是非常值得我们提倡的分词工具，但由于微博语言是一种非严肃的迷你日志，存在误导如表情符号、错别字等，这三种分词工具在微博语料上的分词效果并不理想，而n-gram分词在形势上对微博语料的分词更有效。

由于评测时间比较仓促，在评测过程中也出现了一些错误，经过和参加单位的不断讨论，也进行了及时的修正；同时，对于评测方法的制定、评测指标的选择、人工标注的质量等都存在值得商榷的地方，需要进一步分析和完善。

关键词：

微博;情感分析;中文分词方法;逻辑回归

ABSTRACT

Fordecades,wehavedevelopedfromseveralcomputerstofamiliesexistmultiplecomputers,andchannelstounderstandthepracticalworktonocommentsfromallkindsofminilog,alsoisthegeneralizationofthepubliccanseethediary.Isakindofdatingtosendanytimeanywhereminilifestateofdynamicwebpages.Weibosharingandcommunicationofinformation,itismoreconcernedmomentandtheindependentvariables.Theextractionofsentimentanalysisalsocalledattitudehere,isreferstothetrainingdataareextractedfromthefeelings,opinions,loveandhate.hesubjectivetrainingdata（thatis,thesemanticattitude）sentimentisrunninghighinChina,itsresearch,tendtoexploretheinclusioninthetextoftheemotionalitissubjectiveorobjective,thecharacteristicsofgoodorderogatory.

Think,weiboemotiontendentiousnessandthestrengthofthesegmentationmethod,usedbypraiseorblamerighteousness,suchasthestrengthofthesubjectiveandobjectivefactors.Sothispaperputsforwardawordsegmentationmethodsasthemainweiboemotionalanalysis,choosethebi-"gramm,Stanford,theChineseacademyofsciences,Harbininstituteoftechnologyasafeatureofweiboinalogisticregressionmodelasamachinelearningmechanisminthesystem,usingtheannotationisgivenpriorityto,objectiveweibotrainingdatatoobtainthesubjectiveandobjectiveanalysismodelbasedonlogisticregressionmodels.Carriedoutwiththissystem,drawtheconclusion:

ingeneral,theStanfordChinesewordsegmentation,ChinesewordsegmentationofChineseacademyofsciences,HarbininstituteoftechnologyinChinesewordsegmentationisaveryworthyofweadvocatesegmentationtool,butasaresultofweibolanguageisakindofseriousminilog,misleadingasemoticons,wrongcharacter,etc.,thethreesegmentationtoolsonweibocorpussegmentationeffectisnotideal,andn-"grammparticipleinthesituationtothemicrobloggingcorpussegmentationismoreeffective.

Becauseevaluationtimeishasty,therehavebeensomemistakesintheevaluationprocess,throughtheconstantdiscussion,andtoparticipateintheunit.Alsoconductedatimelycorrection;Atthesametime,fortheformulationofevaluationmethods,thechoiceofevaluationindexes,thequalityofthemanualannotation.Wherethereisquestionable,needfurtheranalysisandimprovement.

Keywords:

Weibo；Sentimentanalysis；Chinesewordsegmentationmethod；Logisticregression

第一章绪论

1.1课题的背景

1.2国内外分词研究的现状

1.3本文讨论的情况（情感分析上的应用）

第二章几种常用分词方法

2.1工大分词

2.2中科院分词

2.3斯坦福分词

2.4n-gram分词

第三章常用的分类器

3.1LR

3.2SVM

3.2.1SVM概述

3.2.2线性SVM方法

3.2.3非线性SVM方法

3.2.4核函数

3.2.5lib-SVM（仿真平台）

3.3 比较分析

第四章分词方法的比较分析

4.1 实验数据

4.2 实验设计

4.3评价指标

4.4 实验结果比较

第5章结论与展望

致谢

参考文献

第一章绪论

1.1课题的背景

这些主客观文本信息包括有显性的、隐性的的情感文字，其具有价值去想、过滤、探究、推导，并且在网络商店（比如淘宝、天猫、唯品会、京东等）反馈、社会工作监督、个人生活空间等等方面有着很好的道路。

当人们面对成百上千条微博判断其情感时，会怎么办呢？

是不是既头疼又效率不高？

那么接下来我将针对成百上千的文本用情感分析来评价是主观的还是客观的，是褒义的还是贬义的。

自二十一世纪以来，情感分析是一个值得探讨的事情，需要不断探究其未来的走向。

那么什么是微博呢？

微博最开始的创始是美国twitter。

我个人认为是迷你日志，也就是公共可观赏的概括日记。

是一类关于交友任意时间任意地点发送迷你生活状态的动态网页。

微博是一个靠朋友、同事、同学关系的发表信息以及提取信息的环境。

使用者可以通过万维网、无线应用协议等各种客户端建立个人主页，发表以包括标点符号的140的文字刷新信息，并随时随地呈现给广大群众。

微博的关注种类可分为两种：

（1）singleacting；

（2）two-way。

微博共享和交流的信息，其更在意的是时刻和自变量。

自博客出现以来，更在于总结作者自己在一个时间段上的当时的感觉、画面、心情、景色等等。

所以微博是博客的缩影。

其中在2014年3月27日晚上，在中国微博这个行业上独领风骚的新浪微博宣布对其更名为“微博”，同时新浪微博还创造了其标志，就在一瞬间，“新浪微博”这个短语被老百姓所忘记，而“微博”越来越被中国人熟知。

其实，微博包括：

（1）、新浪微博

（2）、腾讯微博（3）、网易微博（4）、搜狐微博等等。

一般来说，微博默认为新浪微博。

这里的情感分析也叫做态度的提取，都指的是将训练数据中的情感、意见、爱恨提取出来。

主观的训练数据（也就是语义态度）在中国其研究情绪十分高涨，倾向于探究文本中包涵的情感是主观还是客观，褒义还是贬义的特点。

这让我们很清楚的知道被测文本的语义信息，克服了杂乱无章等各种乱七八糟的情况，比较适合学生、刚刚步入社会的这些人看，所以情感分析也成为我们管理信息、文本的一个很主要的渠道。

腾讯微博、新浪微博、朋友圈、QQ空间说说、校内网等等这些交朋友软件已成为各年龄段发表生活状态、情感、心情的第一选择，所用的人他们自己关注的朋友、同学、亲属、同事等，他们关注的朋友、同学、亲属、同事连接起来，也就是说在这个世界上，从世界上抽取两个人，两个人之间或多或少地存在着一种潜在关系，也就是说最多连到六个人，这样的影响力我就不必多说了。

情感分析主要应用于春晚吐槽、广告推销、社会工作监控、数据调查等等工作。

1.2国内外分词研究的现状

我们用的腾讯微博、新浪微博、朋友圈、QQ空间说说等等这些都是靠交朋友网络相互关注、点赞才这么火的。

它们不需要太冗长，都是短小精悍的，什么时间发生了什么事情，我们这些小伙伴在另一端就会知道，并且所描述的生活范围广泛，没有某一个焦距点，是发散性的。

以前的情感分析是比较严肃，是书面语，没有错别字，冗长，提取出重要信息容易得多。

分析起来第一步考虑主客观，第二步考虑褒贬义。

但是现在的微博生活状态基本短小，大约一百字左右，而且网络语言较多，表情，特殊符号等等这样的因素干预了我们的判断，从而情感分析技术比之前的分析要坚难、复杂得多。

相对于中文情感分析的研究比较，世界各国人倾向于对英文情感分析的研究，因为英文简单易懂，更倾向于对情感的释放，并且已接近饱和状态。

当前人们对中文微博的研究仅仅是刚刚开始，现在还没有与中文微博情感分析方面的相关的研究报告等。

本文借鉴研究者们对中文微博的研究，深入到了情感分析的层次。

考虑到以前的中文情感分析，本文尤其突出中文微博自身的特征，比如说：

以前的研究者们把表情、特殊字符、间接联系考虑到其微博的特色，与此同时还考虑了微博中忽略不计的重复现象，以便情感分析的过程进行的很顺利；中文微博与英文微博的情感分析任务相比，由于英文微博或多或少地一句、两句。

已经有研究学者将一条微博信息作为一个整体给予了情感上极性来进行机器训练及学习测试,本文考虑到中文微博要比英文微博的语义要多出很多,所包含的句子中数目众多,且句与句之间所涉及的意思以及情绪都可能有不同,主要从微博的情绪级别及句子级别两个方面来剖析了情感上分析的效果,其实检验结果证实微博的句子级别的效果要更准确。

然而对中文分词的情感分析的研究是屈指可数的。

中国汉语博大精深，一个词对应多重含义，比如兴奋、愤怒、讥讽、害羞等等的方式释放自己的感情，这对中文情感分析又多了几重困难，所以最近几年，中文的情感分析、倾向性少之又少，需要我们继续钻研。

当考虑到主客观时，对于其信息的分类，有一小部分的研究人员是通过观察、阅读其文章里面的内容含有怎样的情感来判断其主观和客观的类型。

举个例子，前辈研究人员们根据修饰词（包括形容词、定语、状语等等的词性）词典，标注其词性的数值进行计算，建立其对应的加权词典，从而算出情感倾向性（主观和客观）。

还有一部分研究将情感文本单元的主客观分类定义为分类任务，通过构建分类器判断文本的主客观性，是主客观信息分类的主流方法。

分类器和分类特征的选取是基于分类方法主客观信息分类的核心。

相关研究包括Hatzivassiloglou使用词语作为特征，并利用了NB分类器，实现了微博篇章级情感文本的主客观分类。

YAO从诸如符号、人称代词等一些特殊的特征角度调查了主客观文本。

对于主观信息的情感极性，一般来说，研究者们将主观性质文本的属性分为：

①褒义②贬义两类。

与主客观信息分类类似，基于情感知识的方法以及基于特征分类的方法是主观信息的情感极性分析的主要方法。

基于情感知识的方法利用已有的情感词典获取主观文本的极性。

基于特征分类的方法通过选取微博的特征，利用机器学习方法完成分类任务。

韩忠明等构建了一个计算短文本情感倾向性的自动机，构建了一个情感分类器，将微博分为积极的、消极的和中立的三类。

利用SVM分类器提出了一个两步的分类方法，第一呢，用主客观将微博分为两类，在以积极和消极两类分主观微博。

应用K-最邻近法设计了一种有监督的分类器，许多Twitter的特有属性和习惯用法（比如标签和表情）被用作特征。

采用了基于SVM的距离监督学习。

刘志明等对微博情感分类进行了研究，证实利用其他三种机器学习结合的办法对微博情感分类的准确性比较高。

许多在线的微博情感分析系统也随着微博的广泛应用被开发，比如Twend1，TwitterSentiment2和TweetFeel3等。

图2.1为传统微博情感分析的一般过程。

图2.1

我认为自从开始研究中文情感分析到目前为止，尚不完整，有太多的缺陷，需要我们祖国的花朵去完善。

1.3本文讨论的情况（情感分析上的应用）

对于情感倾向性的研究，常用的分析方法有两种：

根据词典的语义方法和根据机器学习的方法。

根据词典的语义方法通常通过计算要测试的词语和通用情感词典中的基准词的语义之间间距，判断要测试的词语的情感倾向。

比如，将来自四面八方的信息收集起来组成一个整体框架，四面八方的信息主要包括该词在一般情感词典中的属性，在整个文章的情感指数，与该词的词义相同的词、相反的词等等，以及一些汉语的语法规则。

另一种分析方法，根据机器学习的方法第一步是需要人工标记情感语料库，然后训练出一个模型来学习出不同类别的特征，从而预算出测试文本属于哪一类别。

用于训练的特征通常包括uni-gram，bi-grams，tri-grams，词性以及词语的位置等等。

情感分析的分类算法主要有监督学习和半监督学习这两种。

常用的监督学习的方法包括支持向量机算法（SVM）和逻辑回归模型算法（LR）。

本文认为，微博的情感倾向性与所用的分词方法、褒贬义的强度、主客观的强度等因素有关。

将微博的情感倾向性分析划分为三步，先对文本进行四种分词，再评价微博的主客观性，接着再评价微博的褒贬义。

这种办法的建立是在完全信任的主客观分类成果的根基上，这将导致主客观分类的错误有意无意地传导到褒贬义的结果中。

因此，本文提出了一个基于分词方法的微博情感分析的研究，选择bi-gram、斯坦福、中科院、哈工大作为微博的特征，以逻辑回归的模型作为此系统的机器学习机制，利用标注为主、客观的微博训练数据获得基于逻辑回归模型的主客观分析模型，将其称为LR-SO（LogisticRegression-SubjectiveObjective）模型。

利用标注为褒、贬义的微博训练数据，获得基于逻辑回归模型的褒贬义分析模型，将其称为LR-PN（LogisticRegression-PositiveNegtive）模型，并通过两个模型的线性融合计算微博的情感倾向性强度，将其称为LR-SOPN模型，利用LR-SOPN进行微博的主客观分析，然后，借助情感词典，获得特征的先验概率，将其融入到LR-PN模型中，将该模型称为LR-PND（LogisticRegression-PositiveNegtiveDictionary），据此完成微博的褒贬义倾向性分析。

本文的随后部分安排如下。

第二章介绍了几种常用分词方法模式，第三章介绍了常用的分类器。

其中包含机器学习的模型、特征函数以及训练方法，第四章是实验研究的设计，得出的结果，最后给出了本文的结论。

第2章几种常用分词方法

近年来，分词方法日益崛起。

是因为人们在看文章的时候，潜意识地会将文章分成几段，再将段落分成几句话。

再将话语分成几个关键词。

世界各国的人，那么多。

分出来的部分也千奇百怪，各有各的优点，没有统一的分词方法。

汉语这个语言是一个非常复杂的语言，不是所有人都会明白汉语的规则。

为了避免这一尴尬的现象，人们想利用机器，能够瞬间明白汉语的语义，也省略其分段的繁琐步骤，更加能够统一其分词方法。

下面粗略地介绍工大中文分词、中科院中文分词、斯坦福中文分词、n-gram算法的分词。

2.1工大中文分词

哈工大中文分词是几种分词方法之一，是由哈尔滨工业大学发明的。

其主要是运用统计的方法进行分词的，先将词串的频率算出接着统计出来，词语一对一匹配出来，然后将它们结合起来。

已是早春，京州的主要街道上，虽然仍残存着些积雪，却已被路人踩踏成灰黑色，在这即将到来的温暖中，逐渐地消融着。

2.2 中科院中文分词

中科院中文分词是几种分词方法之一，是由中科院大学发展的。

主要运用它的字典结构进行分词的。

我们要先准确地弄清楚中科院的词典以及词典的结构，我们对分词的研究更容易些，更容易把握其精髓，由于在中科院中文分词这个系统中最重要的局部就是它的字典，这样本文研究的范围广阔乃至研究的成果才更具有说服力。

中科院中文分词系统中的字典有两种构造：

（1）、通用的、主要的词典

（2）、字与字之间、词与词之间还有内容中它们与上下文之间的关系；并且分词过程和保存过程同时进行着。

下面介绍一下怎么下载中科院中文分词java包：

第一也是接口的调用。

其次主要是说明怎么使用汉语分词系统怎么调用。

需要下载中科院分词系统汉语分词系统，然后再下载支持java版的补充包，这个补充包中主要包括两个文件：

（1）、NLPIR_JNI.dll文件

（2）、一个DEMO，这个NLPIR_JNI.dll文件是中科院分词系统的汉语分词系统需要的Windows的环境是32位的，Java调用的应用程序界面也是NLPIR_JNI.dll文件提供的。

已是早春，京州的主要街道上，虽然仍残存着些积雪，却已被路人踩踏成灰黑色，在这即将到来的温暖中，逐渐地消融。

2.3 斯坦福中文分词

斯坦福中文分词也是几种分词方法之一,是斯坦福大学自然语言处理组研究出来的分词方法，自然语言处理组编译了一系列关于分词的Java代码，包括Chinesewordsegmentationmachine，Thepartofspeechtaggingtool，Namedentityrecognitiontool，syntacticanalysissystem等，也训练了英文模型，然而对于我们中国人来说，英文模型不方便（阻碍了）我们的阅读和分析自然语言的处理，所以自然语言处理组为我们训练对应的中文语言模型，也会对中文文本、文件进行处理和分析。

自然语言处理组已经给我们编译了斯坦福文本处理工具接口、标注、词性、命名实体识别和句法分析器的接口等等，不过，美中不足的是在使用自然语言处理工具包（Python）的过程中没有编译出分词器的接口。

鉴于我在大学期间没有学习过Python语言，学习过Java语言，所以我用代码Java语言编程来实现斯坦福中文分词。

下面介绍一下怎么下载斯坦福中文分词的java包：

第一、需要做一些准备工作。

步骤如下：

第一步：

当然是安装NLTK，不过这里建议checkgithub上最新的NaturalLanguageProcessingwithPython的源代码并用“pythonsetup.pyinstall”的方式安装这个版本。

第二步：

安装Java的环境，包括

（1）、myeclipse

（2）、JDK；

第三步：

必须要下载

（1）、源代码；

（2）、模型文件；（3）、词典文件等。

而且还要留意斯坦福分词器并不仅仅拥护中文分词，还能把阿拉伯的语言进行分词，

第2、准备工作就绪后，我们首先考虑的是在NaturalLanguageProcessingwithPython的源代码里的哪些地方来添加这个接口文件。

已是早春，京州的主要街道上，虽然仍残存着些积雪，却已被路人踩踏成灰黑色，在这即将到来的温暖中，逐渐地消融着。

2.4 n-gram分词

n-gram分词即基于n-gram的无词典中文分词算法

一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词称为n-gram。

假定一个词的呈现仅依赖于它面前出现的一个词，那么就叫它为bi-gram。

假定句子U是由序列Y1,Y2,Y3,…Yn的词构成，即

P（U）=P（Y1Y2Y3…Yn）=P（Y1）P（Y2|Y1）P（Y3|Y1Y2）…P（Yn|Y1Y2…Yn-1）

≈P（Y1）P（Y2|Y1）P（Y3|Y2）…P（Yn|Yn-1）

（1）

如果一个词的呈现与它前面出现的两个词有关，那么就称它为tri-gram。

在实际的操作中，最适合的就是bi-gram和tri-gram分词了，并且得出的结果也很不错。

四元及四元以上的分词方法用的不多，是由于用此方法训练语料是需要更宏大的语料，而且数据严重不均匀，时间复杂度高，精确度却不能明显提高。

求解P（Yn|Y1Y2…Yn-1）的一种简单的估计方法就是最大似然估计（MaximumLikelihoodEstimate）了。

即P（Yn|Y1Y2…Yn-1）=（C（Y1Y2…Yn））/（C（Y1Y2…Yn-1））

（2）

微博做n-gram分词处理

展开阅读全文