产品评论挖掘研究综述Word格式文档下载.docx
《产品评论挖掘研究综述Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《产品评论挖掘研究综述Word格式文档下载.docx(17页珍藏版)》请在冰点文库上搜索。
作者简介:
伍星(1978-,男,博士研究生,讲师,主要研究方向为自然语言理解、Web挖掘;
何中市(1968-,博士,教授,博导,主要研究方向为机器
-收稿日期:
2008-09-15
修回日期:
2008-10-16
伍星,何中市,黄永文WUXing,HEZhong-shi,HUANGYong-wen
重庆大学计算机学院,重庆400044
ComputerCollegeofChongqingUniversity,Chongqing400044,ChinaE-mail:
wuxing@
WUXing,HEZhong-shi,HUANGYong-wen.Productreviewmining:
Asurvey.ComputerEngineeringandApplications,2008,44(36:
37-41.Abstract:
ProductreviewminingistheprocessoffindinginformationfromproductreviewsontheWebthroughnaturallanguageprocesstechnology.Itisarisingfieldthatisthesubfieldofunstructureddataminingfromplaintext.Theinformationminedfrom
productreviewscanhelpmanufacturerstoimprovetheirproduct,
andhelpusertobuyproductwithmorerationality.Asurveyofproductreviewminingisdiscussed.Firstly,theframeworkofproductreviewminingisanalyzed.Then,thetasksofproductreview
miningthatincludesubjectivesentenceidentify,productfeatureextracting,userattitudeextracting,polarityclassifyingandminingresultshowarealsodescribedindetail,andfinallythefuturereseachdirectionsaboutproductreviewminingarepointedout.Keywords:
textualpattern;
subjectivefeature;
wordpolarity
摘要:
产品评论挖掘是以Web上用户发表的产品评论为挖掘对象,采用自然语言处理技术,从大量的文本数据中发现关于产品的功能和性能的评价信息的过程。
产品评论挖掘是一个新兴的研究领域,是对自然语言描述的无结构数据进行数据挖掘的典型代表。
产品评论中挖掘得到的信息不仅可以帮助生产厂商改进产品,还可以帮助用户合理的购买产品。
对产品评论挖掘进行了全面深入地讨论,介绍了产品评论挖掘系统的通用框架,然后对产品特征提取、主观句定位、用户态度提取、态度极性判定、挖掘结果显示这5个子任务进行了详细地阐述,最后介绍了产品评论挖掘的最新方向。
关键词:
用户评论;
主观特征;
词语极性DOI:
10.3778/j.issn.1002-8331.2008.36.010
文章编号:
1002-8331(200836-0037-05
文献标识码:
A
中图分类号:
TP18
ComputerEngineeringandApplications计算机工程与应用37
ComputerEngineeringandApplications计算机工程与应用
2008,44(36
产品评论语料库
产品特征提取主观句定位产品特征集合
主观句集合
用户态度提取态度极性判定挖掘结果显示
图1产品评论挖掘系统框架
1.最大的缺点是电池容量小使用时间短。
2.外表华丽,适合白天使用夜景不用三角架不行,防抖极差,防红眼基本不起作用。
3.SONYT9可以放在裤兜里。
图2产品特征
(3主观句定位。
发现产品评论中的哪些句子用户表达了对产品的主观态度。
(4用户态度提取。
从主观句中寻找表示用户态度的单词、短语或结构。
(5态度极性判定。
确定用户态度的极性:
正性(肯定、支持/负性(否定、反对。
(6挖掘结果显示。
对挖掘结果进行直观地显示。
文章的后续部分将对产品评论的5个子任务进行详细地介绍。
2.1产品特征提取
生产厂商一般会提供一个关于产品各个方面性能的说明
文件,但是产品评论挖掘一般不从这样的说明性文件中提取产品特征,主要原因是:
首先生产厂商和用户对产品特征关注的角度不一样,生产厂商提供的产品特征更多的专注于一些技术细节,对于这样的细节用户一般不感兴趣;
其次产品评论中对特征的描述是一个开放性的问题,用户可能在产品评论中发表生产厂商根本没有考虑到的一些产品特征,因此需要从产品评论语料库中提取产品特征。
产品特征分为显示特征和隐示特征,显示特征是直接出现
在产品评论中描述产品的性能或功能的名词或名词短语。
隐示特征没有在语句中直接进行描述,需要句子进行语义理解才能
得到。
图2中的第1、2句中的电池容量、外表、三脚架和防红眼是显示特征,而第3句中语句的字面语义是相机容易放在口袋
里,其实指出了SONYT9的大小这个隐示特征。
提取隐示特征需要自然语言的完全理解技术,而该技术不成熟,因此目前的
产品评论挖掘中产品特征提取均都只考虑显示产品特征。
显示产品特征的提取分为人工定义和自动提取两类方法。
人工定义就是针对特定领域的产品建立该领域的产品特征词
汇表。
LiZhuang人工定义针对电影的产品特征,将电影的产品特征分为两类:
电影的元素(比如:
screenplay、visioneffect和
与电影相关的人员(比如:
director、screenwriter、actor[3]。
姚天昉利用本体建立了汽车的产品特征[4];
Kobayashi、Inui和Mat-sumoto以半自动的方式建立了针对汽车和游戏的产品特征,首(论文档中抽取候选的特征,再以人工的方式进行标注[5]。
采用人工定义产品特征的方法,每一个领域的产品都需要该领域的专家参与才能定义该领域的产品特征,因此移植性较
差,并且人工定义的产品特征是静态的,当产品的功能发生改变后(比如手机加入了新的功能,只有重新召集领域专家才能将新特征加入该类产品的产品特征集合中。
自动提取产品特征主要使用词性标注、句法分析、文本模式等自然语言技术对产品评论中的语句进行分析,从中自动发现产品特征。
Kim和Hovy首先寻找句子中包含表达主观性的词汇,然后定义一个大小固定的窗口,以主观性词汇为中心,将窗口中的名词或名词短语作为特征[6]。
JeonheeY、Nasukawa、Bunescu和Niblack指定了具有BNP(BaseNounPhrase结构的名词短语才可能是产品特征,并使用信息检索算法度量该特征是否与指定产品类相关[7]。
HuMinqing和LiuBing首先对评论中的语句进行词性标注,只保留句子中的名词或名词短语,将产品评论语料库中的每一个句子生成一条记录插入Trans-actionFile,然后采用Apriori算法从TransactionFile中寻找频繁项(频繁1,2,3项集,将得到的频繁项作为候选产品特征,再根据两条启发式规则对候选产品特征进行过滤得到产品特征集合。
该方法结构简单便于实现,具有良好的移植性,获得了
较高的召回率(80%,但准确率有待提高(71%[8]
。
Popescu、
Yates和Etzioni采用KnowItAll中人工定义的抽取指定关系(partof关系、isa关系的文本模式抽取产品特征。
该方法在HuMingqing的5类产品的产品评论语料库取得了召回率77%(降低3%、准确率89%(提高18%的良好效果。
该方法需要使用人工定义的通用文本模式,因此具有和KnowItAll系统同样的缺点:
部署困难和移植性较差[9]。
2.2主观句定位
用户产品评论中包含两类信息:
客观信息和主观信息。
客
观信息是用户表述的一些事实信息,主观信息是用户表述自己对产品的主观态度,因此需要确定产品评论中哪些语句是表示了用户态度的主观句。
判定主观句的方法主要是查看语句中是否出现了主观性特征,主观性特征包括可以表示主观性的动词、形容词、名词、短语、文本模式或人工定义的词汇表,主观性特征的获取分为人工定义和自动获取两种方式。
人工定义主观性词汇表通过人对用户产品评论的语料库进行总结,得到表示主观性的词汇表。
Kim和Hovy采用了人工定义的方法建立了主观性判定特征词表[10];
Bethard和HongYu使用FrameNet和PropBank的语义角色标注,提取动词作为主观性的线索[11]。
自动获取主观性特征的方法分为监督学习和弱监督学习两类方法。
监督学习需要对主观性进行了标注的语料库,Wiebe开发了人工标注的主观性语料库[12],通过人的知识来决定句子是否为主观句,标注了引起句子成为主观句的元素,并按照该元素引起的主观性的强弱进行了等级的划分[13]。
该语料库的标注过程中发现形容词是引起主观性的一个重要特征,因此Wiebe从标注的语料库中学习了作为主观性的形容词[14]。
建立主观性标注语料库的另一个方法是直接采用报纸的文章类型作为篇章层次的主观性标注。
YuHong和Hatzivas-siloglou直接使用WSJ作为语料库,将文章分解为一元单词、二元词对、三元词对,以文章的类型(Editorial,LettertoEditer,and习的方法获取那些单词、二元词对、三元词对可以作为主观性
38
特征[15]。
Riloff和Wiebe直接使用文本模式作为捕获表示主观性特征的复杂结构。
该方法首先利用已有的主观性和客观性词汇表分别建立具有高准确率的一个主观性分类器和一个客观性分类器,利用这两个高精度的分类器对语料库中句子进行主/客观性分类,然后将AutoSlog-TS中的文本模板采用语料库中的句子进行实例化,生成文本模式,最后根据句子的主/客观性标注,对文本模式的主/客观性进行评分,以得到主观性的文本模式[16]。
主观性标注语料库的建立需要大量的人力和时间,而采用弱监督的方法抽主观性特征不需要提供主观性标注语料库,只需提供少量的主观性特征作为种子集合,就可以从语料库中自动获取更多的主观性特征。
Riloff采用BootStrapping方法自动提取可作为主观性特征的名词,该方法只需要提供由少量可作为主观性特征的名词构成的种子集合和无标记的语料库。
首先从语料库中发现出现了种子集合中主观性特征的句子,根据这些句子自动抽取侯选文本模式,对侯选文本模式进行评估,选择最优秀的文本模式加入文本模式集合,再使用文本模式抽取新的主观性特征,将新的主观性特征加入种子集合,该过程不断的进行迭代以获得更多的可作为主观性特征的名词[17]。
2.3用户态度提取
Kobayashi、Inui和Matsumoto建立了形容词的用户态度词汇表(比如:
comfortable,tight,supportive[18]。
LiZhuang从人工标注的数据中寻找了1093个词汇作为正性词汇,780个词汇作为负性词汇,无论评论语句中出现了正性还是负性词汇,那么都将该词汇作为表示了用户态度的词汇[3]。
BingLiu和MingqingHu提取句法分析树中修饰作为产品特征的名词和名词短语的形容词或副词作为用户态度[19]。
Kim和Hovy不进行句法分析而是直接定义一个窗口,根据句子中的产品特征定义窗口出现的位置,将在窗口中出现的形容词作为用户态度[20]。
Popescu和Etzioni使用文本模式提取用户态度,将出现在文本模式中的形容词作为用户态度[21]。
2.4态度极性判定
态度的极性判断和用户态度提取既有联系又有区别,联系在于二者都是使用特定的词语或者结构,不同在于用户态度提取只判断什么样的语言单元表达了用户在特征上的态度(观点、情感,态度的极性判断需要进一步确定用户所表达态度的倾向:
正性(褒、肯定、赞扬/负性(贬、否定,批评。
文本的态度分析分为词语、短语、句子、篇章等多个层次,篇章层次的态度极性的判断多用于基于情感的多文本摘要等领域,BoPang直接使用NGram语法,对文章进行分解,得到的N元组作为特征,训练篇章层次的态度极性分类器[22]。
Turney首先判断句子中词汇的极性,再判断句子的极性,最后确定整个文章的态度极性[23]。
产品评论挖掘中需要抽取的是用户在某一具体的产品特征(比如手机屏幕的大小所表示态度的极性,因此更多地倾向于对词语、短语的态度进行分析。
词语或短语的极性判定需要极性词汇表,极性词汇表的建立分为人工定义和自动获取两种方法。
人工定义方法通过人对语言的分析来建立极性词汇表,直接查询极性词汇表即可获取词汇或短语的极性。
KuLun-wei,LiangYu-ting和ChenHsin-his建立的极性词汇表包含两
性词汇表和人工从Web上收集构成的中文网络极性词典,二者一共包含2764个正性词汇和7778个负性词汇[24]。
娄德成和姚天昉分别对HowNet中的6564个词条和从2454篇汽车评论中人工选择得到的极性词汇以人工标注的方式建立极性词汇表[25]。
Hatzivassiloglou和Wiebe分析了语义方向和程度词汇(副词和名词对语义方向的影响,手工建立了一个73个单词构成的词汇表[26]。
WangChao、LuJie和ZhangGuangquan发现产品评论语料库中的评论包含两个部分的内容:
标题和具体内容,而标题通常表示了整个评论的态度,因此可以将标题中的用户态度作为具体内容的的极性标注,建立朴素贝叶斯分类器,计算具体内容中词汇的极性[27]。
YangChanghua、LinKevinHsinyih和ChenHsinhsi将博客上的回复信息的表情图标(通常用户会使用从网站提供的表情图标中选择一个来表示自己的态度:
肯定/否定作为回复语句的极性标注,通过计算语句中的词汇与表情图像之间的互信息来建立极性词汇表[28]。
Hatzuvassiloglou利用形容词之间的连词存在语言学上的限制(连词连接的两个词表示相同或相反的态度,将语料库中的形容词聚类为正性词汇和负性词汇。
实验结果表明对形容词的极性判定具有较好的效果,该文只对形容词进行了语义方向的判定,可以采用同样的方法来确定动词和副词的极性[29]。
上述方法建立的极性词汇表由固定的词汇构成,而用户产品评论中所使用表示用户态度的极性词汇可能在极性词典中并未包含,需要对产品评论中未出现在极性词汇表中的词汇进行处理。
KuLun-wei,LiangYu-ting和ChenHsin-his充分利用了中文词语由字构成的特点,指出词语的态度极性由构成该词语的字的态度极性组合而成,而字的态度极性通过字出现在人工建立的极性词汇表中的正性/负性词汇中的频率来表示。
该方法不仅可以判定极性词汇表中未包含词汇的极性,还可以计算极性的强弱[24]。
娄德成和姚天昉[25]使用Turney[30]的PMI-IR方法来处理极性词汇表中未包含的极性词。
Kim和Hovy使用了一个假设:
同义词的极性相同,因此使用WordNet寻找同义词,对人工定义的极性词汇表进行扩展。
Turney[30]采用互信息和信息检索结合(PMI-IR的方法判定词汇极性,该方法假设同一篇文章中出现的词语具有相同的情感极性方向。
首先建立7个单词构成的正性词汇集PWords和7个单词构成的负性词汇集NWords(如图3,对需要进行极性判断的词汇UWord,分别计算UWord与PWord和NWords中的每个极性词汇的互信息(PMI:
PointMutualInformation,下面的公式采用IR方法计算两个词的互信息:
PMI(Word
1
Word
2
=log2
p(Word
&
Word
12
"
其中p(word
word
表示将word
和word
构成的二元词对
使用搜索引擎从Web检索出现二元对的网页的数目,p(word1
表示使用搜索引擎从Web检索出现word
的网页的数目,
p(word
的网页的数目。
最后分别将计算得到的UWord与PWord每个极性词汇的互信息相加和UWord与NWords每个极性词汇的互信息相加,用前者减去后者,结果为正表示UWord更靠近正性词汇,为负表示UWord更靠近正性词汇。
Turney的方法只需少量的了广泛地应用。
伍星,何中市,黄永文:
产品评论挖掘研究综述39
2008,44(36PWords={good,nice,excellent,positive,fortunate,correct,superior}
NWords={bad,nasty,poor,negative,unfortunate,wrong,inferior}
图3Turney的正/负性词汇表
Ana-MariaPopescu,BaoNguyen,OrenEtzioni
OPINE
ReviewSummary
QualityRoomStafffriendlinessStaff:
beautifulFullness:
full
图4Popescu的挖掘结果
Battery
Zoom
Size
Weight
positiveDigitalCamera2
图5HuMingqing的挖掘结果
2.5挖掘结果显示
产品评论挖掘的目的是为生产厂商和用户的决策提供信息的支持,因此必须将挖掘结果进行直观的展示。
Popescu和Etzioni采用列表方式对产品评论的挖掘结果按照产品的特征进行显示(如图4,针对每一个产品特征列出肯定或否定的评论,用户可以进一步查看肯定否定的源语句[21]。
LiuBing采用了图形化方式来显示挖掘结果,不仅提供了按照产品特征的方式查看用户评论(如图5,还提供了比较两个产品相同的产品特征上得到的用户肯定/否定评价的图形化比较[31]。
3产品评论挖掘的研究方向
(1自动获取产品特征的层次关系。
自动获取产品特征的
方法获得特征地位是等同的,忽略了产品评论中特征之间的层次关系。
比如:
手机的包含屏幕,而屏幕又包含大小、颜色象素、材质等更细小的产品特征,因此应提取产品特征的层次关系以方便挖掘结果的显示。
(2获取高质量的产品评论。
Web上的用户产品评论存在大量的噪音,有的评论根本和产品无关,还有很多的广告信息,这会严重影响产品评论挖掘的质量[3