64#情感语料库的构建和分析.docx

资源描述

64#情感语料库的构建和分析.docx

《64#情感语料库的构建和分析.docx》由会员分享，可在线阅读，更多相关《64#情感语料库的构建和分析.docx（14页珍藏版）》请在冰点文库上搜索。

64#情感语料库的构建和分析.docx

64#情感语料库的构建和分析

XX外国语学院

学士学位论文

中文题目：

情感语料库的构建和分析

英文题目：

ConstructionandAnalysisofEmotionalCorpus

二级学院：

俄语系

学科、专业：

阿拉伯语专业

研究生：

徐慧

指导教师：

曾磊副教授

2011年11月

情感语料库的构建和分析*

徐琳宏，林鸿飞

（XX理工大学计算机科学与工程系，XX116024）

摘要：

本文介绍了情感语料库构建方面的一些经验，讨论了在设计和建设情感语料库中的几个基本问题：

制定标注规X、选择标注集、设计标注工具以及标注过程中的质量监控。

目前已经标注完成近四万句，一百万字的语料。

在完成这些已标注语料的基础上，进一步给出了语料库的情感分布，情感迁移规律等统计数据，分析了情感语料库的特点及应用。

它的建成将为文本情感计算提供更加强大的资源支持。

关键词：

情感语料库；文本编码规X；一致性检查；情感迁移

中图法分类号：

TP391文献标识符：

ConstructionandAnalysisofEmotionalCorpus

XuLinhong,LinHongfei

（DepartmentofputerScienceandEngineering,DalianUniversityofTechnology,Dalian116024）

Abstract:

Thispaperintroducedsomeexperiencesonconstructingemotionalcorpus,anddiscussedseveralbasicquestionswhichincludedthetaggingcriterion,taggingset,taggingtoolsandqualitymonitoring.Therewereabout40000sentencesinthecorpus.Moreoverbasedonthese,statisticaldataaboutemotionaldistributionandrulesofemotionaltransferencewereavailable,andcharactersandapplicationsofcorpuswereanalyzed,soemotionalcorpusprovidesupportfortextaffectiveputing.

keywords:

emotionalcorpus;TextCodingInitiative;consistencychecking;emotionaltransference

1引言

情感计算目前是人工智能领域的研究热点，它的主要目标是使计算机能识别人类的情感，也就是需要建立完善的情感识别模型。

然而要使训练的模型准确，容错能力强，就必须有大规模的情感语料支撑。

在国外，语料库的研究很早就已经开始了，也建设完成了许多大规模的语料库，如Brown语料库等。

汉语语料库的建设开始于20世纪80年代，现有的大规模语料有国家现代汉语语料库[1]、XX中央研究院平衡语料库[2]、中港台汉语语料库[3]、大学和富士通公司共同制作的人民日报语料库[4]等。

上述大规模语料库的建设在收集语料，制定标注规X和质量监控等方面积累了宝贵的经验。

文本情感语料库的建设方面，目前已有的语料库包括Pang语料库[5]，Whissell语料库[6]，Berardinelli电影评论语料库[7],产品评论语料库[8]。

汉语情感语料库标注方面的资源则较少，清华大学标注了部分旅游景点的描述的情感语料[9]，用来辅助语音合成的，但是规模也较小。

总之，在国内情感计算刚刚兴起，这方面还没有比较大规模、权威的汉语文本情感语料库。

大部分语料库的建设分为语料的收集和预处理、标注规X的制定，质量监控等几方面，下面的论文将分别阐述语料库建设的各个步骤。

第2节概略的介绍了目前选择语料的类型和规模，第3节详细地介绍了情感语料库的标注体系，第4节介绍了语料建设中质量监控的方法，包括正确性和一致性检查的方法。

第5节阐述了语料库的一些统计数据及应用，最后，第6节总结语料库的优点和不足，并进一步提出改进的措施。

2语料的收集

语料的收集工作，即选择合适的语料，做预处理，为语料的标注提前做好准备。

语料选择的方法关系到语料库的覆盖率，所谓覆盖是指语料在各个不同领域的分布或散布，这些不同领域通常是指由时间轴（反映时代特征）、空间轴（反映地域特征）、学科轴（反映知识特征）、风格轴（反映语体特征）构成的四维模型[10]。

我们的语料包括小学教材（人教版），电影剧本，童话故事，文学期刊等。

从时间轴上看，有童话故事和小学教材等完成较早的经典文章，也有期刊和电影剧本等近一年多的作品。

语料以中文的作品为主，但是也有部分电影剧本和童话故事是外文翻译而来，考虑了地域特征的跨度。

在风格方面，小学教材等用词比较规X、严谨，而电影剧本等则口语特征比较明显。

总的来说，语料的选择偏重于文学色彩比较浓，情感表达丰富多彩的作品，舍弃一些科学说明性的文章。

表1列出了各类语料的详细信息。

表1语料的详细信息

语料来源

详细说明

字数

词数

句子数

篇章数

小学教材

人教版，12册

129,486

91,032

4,809

171

电影剧本

《狮子王》、《汽车总动员》等6个电影剧本

84,118

54,092

5,911

237

童话故事

部分格林童话、安徒生童话

5,4066

39,005

2,011

文学期刊

《少年文艺》、《青年文摘》、《新青年》等9本期刊的2006年全年12期

6,308,526

4,375,396

237,290

3754

总计

6,576,196

4,559,525

250,021

4,235

3情感语料库的标注体系

语料库的标注体系就是指对语料的加工程度，即一个待标注的单元需要填充的信息集合。

标注体系决定了语料标注的粒度。

如果类别划分过粗,就不能全面、细致地描述语言的复杂现象;但如果类别划分过细、标注信息过于庞大,不但会增加标注难度、降低标注效率，关系之间只有细微差别的情况也会使标注结果呈现严重的不一致性[11]。

此外，在语料库规模有限的情况下，类别分的太细，统计数据的稀疏问题越严重，那么训练出来的模型健壮性就越差。

可见，语料库的标注体系是构建一个高质量、大规模语料库的关键。

3.1情感标注体系

理想的情感标注体系是在标注前事先确定，在标注过程中保持不变，这样可以保证标注的一致性。

但是由于语料的多样性和复杂性，标注规X也需要多次修正，这就可能导致语料库的质量下降。

为了充分考虑各种特殊情况，本文预先标注了部分语料，在总结标注中发现的问题的基础上，综合考虑其他类型语料的标注经验和文本情感标注自身特点，制定了如下的标注体系：

DocumentModel=（title,author,style,source,persons,sentences,keynote）

（1）

SentenceModel=（origin,sender,[accepter],[rhetoric],emotions,[keywords]）

（2）

由上面两个公式可以看出本文的情感标注体系的标注粒度分为词汇、语句和篇章。

其中语句是主要的情感标注粒度，词汇和语篇的相关信息都是语句情感标注的辅助。

方括号内的变量accepter、rhetoric和keywords是可选的，其他的是不能为空的。

语篇和语句标注模型中各变量表示含义和取值X围如下：

表2标注体系中各变量的说明

类别

变量

说明

取值X围

语篇标注模型（documentModel）

title

文章题目

author

作者

XX，国籍，作品写作年代

style

类别

散文|诗歌|小说|戏剧

source

来源

小学教材|格林通话|电影剧本|文学期刊

persons

情感主体

主人公1|主人公2…|主人公i…

sentences

所有语句的标注集合

详见sentenceModel

keynote

情感基调

o|h|e|i|m|f|d|s

语句标注模型（sentenceModel）

origin

原始语句

sender

本句的情感主体

主人公i

accepter

情感的接受者

主人公i

rhetoric

修辞类别

比喻|比拟|借代|夸X|对偶|排比|设问|反问|重复

emotions

本句包含的所有情感

o|h|e|p|r|b|l|k|c|i|s|w|g|m|u|f|x|t|d|a|j|y|q

keywords

确定情感的关键词

词1|词2…|词i…

在上述变量中persons、sentences、emotions和keywords取值都是一个集合，即变量的取值可以表示为一个向量，如persons=（persona1,persona2…,personai…），变量sender和accepter分别选择persons中的一个分量作为变量值。

需要说明的是persons中包含两个特殊的情感主体，“旁白”和“其他”。

“旁白”表示该句是作者的叙述，没有鲜明的情感发出人，而“其他”是为了处理当一篇文章中涉及的任务较多时，所有非主要人物发出的情感都用它代替，这样可以减轻标注者的负担，又能防止某个情感主体出现次数较少的数据稀疏问题。

变量sentences是所有语句情感标注的集合，每个语句标注的内容就是语句标注模型中声明各个变量。

keywords中的值是原始语句中对表达该句情感有决定作用的词，标注keywords是为了更准确地确定语句中代表情感的词汇。

而实验证明，情感词汇的特征在语句的情感自动标注中是一个区分度较大的特征[12]。

另外，否定词和程度副词对句子情感色彩影响也较大，特别是对语句的褒贬倾向性影响较大[13]，但是本文的标注体系没有标注这两方面的信息，这主要是为了提高标注效率，所以没有列入标注体系。

变量keynote的取图1中的所有分支节点。

变量emotions的取值是由图1叶子节点中的一个或几个组成的向量。

3.2基于TEI的标注集选择

选择标注集就是选择合适的标注附码和便利的表示方式来存储标注后的语料。

英国著名语言学家Leech是当今语料库语言学的代表人物之一,他认为（1993）语料的标注应该遵循标注附码可以删除；所作的标注可以单独抽出；任何标注模式都不能作为第一标准等七个基本原则。

本文在综合考察已有的各种标注集优缺点的基础上，结合自己语料库的实际应用情况，以半结构化的方式表示已标注的文本。

图1情感分类树

本文标注集的选择是在TEI（TextEncodingInitiative）的基础上，结合情感标注的特殊需求制定的。

TEI（TextEncodingInitiative）是机读语篇的国际信息编码规X。

TEI标注模式是由计算语言学学会（ACL,AssociationforputationalLinguistics）、文学与语言学计算协会（ALLC,AssociationforLiteraryandLinguisticputing）和计算机与人文科学学会（ACH,AssociationforputersandHumanities）等三家学术团体共同参与制订的。

“英国国家语料库”（TheBritishNationalCorpus）等许多大型语料库都采用了TEI的标注模式。

根据TEI标注模式,一篇语料分为篇头（header）和篇体两部分。

篇头指与语篇有关的背景信息,包括作者、标题、日期、语篇来源、标注方式等信息,而篇体是指语篇本身。

在TEI标注模式中语言单位可以是词、句子或段落等，每个语言单位都有起始标记（starttag）和结束标记（endtag）。

例如,段落的开始和结束标记分别为

和

。

图2语料标注示例

在本文的标注集中通用的信息，如篇头，段落等采用TEI的标记规X。

另外定义一些标签来标记情感标注中特有的信息，标签的定义以简洁，易懂为原则。

图2是一篇语料的部分标注示例。

整篇语料在和之间，

和

之间的是篇头部分，和中的为篇体部分。

和

分别为段落的开始和结束标记，和为语句的标记。

上面的标记模式一方面可以从title和orgin域中还原出原始语料，另一方面也可以从每句的emotions域中得到语篇或者段落的标记序列。

这基本符合Leech的标注附码可以删除和标注可以单独抽出的几个重要原则。

另外，这种半结构化的存储方式使每个标注单元都有开始和结束标记，与xml格式类似，也为训练模型时解析语料提供了方便。

4语料库的质量监控

本文的情感语料库的质量监控主要从标注规X、标注系统和纠错机制三个方面完成。

4.1标注规X及标注系统

标注规X和标注系统都是在语料的标注过程中减少误操作，提高标注速度和增加一致性的有效措施。

统一的标注规X，可以有效缩小不同标注者之间的差异，减少语料标注中的错误和不一致性。

情感语料标注的规X是在建设的过程中动态更新的，规X的部分内容如下：

图3情感标注系统

●在前后句情感主体相同的条件下，各句的情感具有连续性。

例如，若连续的三句话都是同一个情感主体发出的，而第2句有明显的“快乐”类标记，则第1句和第3句没有太明显的情感类别时，也倾向于快乐。

●每句的关键词是广义X围的词汇，可以是词汇或者常用短语，但是不能扩大到一个分句。

●除了关键词、修辞类别和情感接受者，其他内容都是不能为空的。

●一个句子可以包含多个情感，但是同一个句子不能同时标记为无情感和其他23类中的任何一个。

●当文章没有清楚的说明作者时，填写“不详”代替。

●每篇文章的情感主体除了主人公外，还有“旁白”和“其他”两类特殊的情感主体。

“旁白”表示该句是作者的叙述，没有鲜明的情感发出人，而“其他”是为了处理当一篇文章中涉及的任务较多时，所有非主要人物发出的情感都用它代替。

全面的标注规X可以减少语料的不一致，而方便、高效的标注系统可以大幅度提高标注的效率和准确性，防止标注者的误操作。

图3是情感语料标注系统的界面，“情感主体”以上的部分是描述语篇的信息，接下来的部分是标注语句情感的，从最下面的文本框中可以浏览整篇文档。

为了减轻标注者的负担，提高标注速度和准确率，该系统采用启发式搜索算法[14]自动分割语句，并根据某些项不能为空的规X自动完成合法性检查，防止错误的语料进入语料库。

4.2纠错机制

标注规X和标注系统是保证语料在录入时的准确率和一致性，而纠错机制是在语料标注完成后统一进行语料的正确性和一致性检查。

为了统一标注者在某些常见情况的标注标准，我们采用了许多大规模语料库常用的方法，即做部分的交叉标注，保证语料标注的正确性。

在一致性检查方面本文采用的纠错机制是机器自动检查，人工修正的方法。

根据情感语料标注的特点，本文从词汇和情感连续性两个角度分析标注的一致性，为了清楚的介绍这部分内容，首先说明这部分相关的函数和变量，具体见表3。

表3一致性检查的部分函数说明

函数名

自变量

说明

取值

条件

Neg

第i个语句中是否包含否定词

没有否定词

包含否定词

larSame

Ei,Ej

第i句和第j句的情感在大类X围内（情感分类树的分支节点）是否相同

不同

相同

wordSame

Si,Sj

第i句和第j句是否包含相同的关键词

不同

相同

personSame

第i-1,i和i+1句情感主体是否相同

不同

相同

emotionSame

第i-1,i和i+1句情感是否相同

不同

相同

从情感词汇的角度出发考虑一致性，主要以关键词为依据，检查一致性。

（3）

公式中Si和Sj分别表示一篇语料中的第i句和第j句，Ei和Ej分别表示第i句和第j句的情感。

wordConsistency表示当两句中都不包含否定词时，如果两句的关键词相同，但是所属的情感大类不同时，两句可能存在不一致，此时取值为1。

从情感的连续性上考虑，当前后句的情感不一致，但是情感主体相同的条件下，该句的情感可能存在错误。

具体见公式（4）

（4）

上述的两个公式分别从词汇和情感连续性两个方面检查情感的一致性，通过机器自动识别出不一致的地方，再人工确认是否需要修改。

两种方法虽然都是进行一致性检查，但是关键词方法的一致性错误级别较高，需要优先确认。

而情感连续性方面的一致性检查，则只是说明有出现不一致的可能，但是不一定都是错误。

5语料库的统计数据及应用

5.1语料库的统计数据

目前已经标注完的语料有103,5601字，726,605词次，39,488句。

这是情感语料库第一期计划完成的语料，第二期完成后预计标注的总量将达到一千万字。

5.1.1语句的情感分布

在39,488句中，标注的各类情感所占的比例大致分为三个等级。

其中标注为“无情感”类的语句数最多，达到15449句，其次是“快乐”、“赞扬”、“烦闷”和“怀疑”四类情感数较多，都超过2000句，其余各类情感均在1000句左右。

5.1.2情感迁移规律

情感迁移规律是指在语句的上下文中，情感的接续概率，即由一种情感向另一种情感（包括转移前情感）迁移的可能性。

本文通过公式（5）计算情感迁移的概率：

（5）

transfer（Ea,Eb）表示由情感a向情感b迁移的概率，n表示语料库中语篇的总数，mi表示第i篇文档的句子总数，Ti表示语料库中被标记为i类情感的句子总数。

当Ei与Ej相同时，函数equal（Ei,Ej）取值为1，否则取值为0。

将a类和b类情感的总数作为分母是为了减弱各类情感包含的语句数量不同给情感迁移带来的影响。

公式主要计算语篇X围内，上下句之间的情感变化。

图4情感迁移图

图4是23类情感之间的迁移概率图，因为23类情感彼此的迁移可能性比较多，为了表示的更加清楚明晰，本文在图中给出了transfer（Ea,Eb）大于等于0.05的情感迁移概率。

由图可以看出“哀”类情感的内聚性（情感大类内的情感迁移）较弱，而“恶”类情感的内聚性较强，“惧”和“好”类情感的内聚性一般。

5.2语料库的应用

语料库的标注内容和标注形式决定了它的应用X围。

目前情感语料库主要应用在训练文本情感识别模型、情感词汇本体的自动学习和统计情感迁移规律三方面。

按句标注的情感不仅给出了情感的类别，而且标注了情感主体、关键词和修辞手法等信息，这些都为情感识别模型的训练提供了丰富和区分度较高的特征，为提高情感识别的准确率奠定了基础。

每句在情感标注过程中都尽可能标记了关键词，这些关键词为情感词汇本体的自动学习提供了第一手的资料。

文本情感的迁移规律不同于脸谱和语音的情感迁移，它有其自身的特点。

通过统计语料库中种数据，可以得到类似图4的情感迁移规律图。

6结论及改进措施

情感语料库在建设过程中从制定标注规X，选择合适的标注集以及质量监控等多方面提高语料标注的质量和速度。

目前已标注完成的语料有103,5601字，39,488句，第一期标注的语料已经基本完成。

在总结第一期标注经验的基础上，计划完成10，000句，近千万字的语料。

任何语料库的建设都不可能是完美无缺的，肯定会存在一些问题和不足。

情感语料库的建设也存在语料在体裁和情感类别上分布不均以及参考的标注建议较少等缺点，我们将在今后的建设中不断改善。

参考文献：

[1]X连元.现代汉语语料库研制[J].语言文字应用,1996,（3）:

2-9

[2].sinica.edu.tw/SinicaCorpus/

[3]胡百华,李行得,汤志祥.XX的语料库和相关研究概况[J].语言文字应用,1997,

（2）:

49-54

[4].icl.pku.edu./icl_groups/corpustagging.asp

[5].cs.cornell.edu/People/pabo/movie-review-data/

[6]TheologosAthanaselis,SteliosBakamidis,andIoannisDologlou.RecognizingVerbalContentofEmotionallyColoredSpeech[A],EuropeanSignalProcessingConference[C],2006

[7]

[8]epinions./

[9]HongwuYang,HelenM.Meng,ZhiyongWuandLianhongCai.ModelingtheGlobalAcousticCorrelatesofExpressivityforChineseText-to-SpeechSynthesis[A],IEEE/ACL2006WorkshoponSpokenLanguageTechnology[C],Aruba,2006:

10-13.

[10]X普.关于大规模真实文本语料库的几点理论思考[J].语言文字应用1999,

（1）:

34-43

[11]周明.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,1994,8（3）:

35-51.

[12]徐琳宏，林鸿飞，基于语义特征和本体的语篇情感计算，计算机研究与发展，2007,44（S2）:

356-360

[13]徐琳宏，林鸿飞，杨志豪，基于语义理解的文本倾向性识别机制，中文信息学报，2007,21

（1）:

96-100

[14]ChristopherD.Manning,HinrichSchutze.统计自然语言处理基础[M].电子工业,2005,82-83

展开阅读全文