ImageVerifierCode 换一换
格式:DOCX , 页数:46 ,大小:480.26KB ,
资源ID:5420391      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-5420391.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(用户评论分析系统研究毕业论文.docx)为本站会员(b****4)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

用户评论分析系统研究毕业论文.docx

1、用户评论分析系统研究毕业论文用户评论分析系统研究毕业论文1绪论最近几年,电子商务迅速发展,网上购物已变得不再陌生,越来越多的人足不出户就能买到自己想要的商品。为了更好地服务网上购物的消费者以及增加消费者的购物经验,许多购物联合商家为消费者提供了发表评论的平台,这样,就能够给潜在的购买者提供参考,而且也有利于生产商跟踪客户反馈,从而改善新产品的满意度。对于生产商来说,需要获得对产品全面的反馈信息,只靠人工分析少数的评论远远不够。另外,通过统计和分析商品评论,可以知道用户最关注商品的哪个特性,从而有利于对商品的改善。一个能够收集商品评论,并且能有效归纳评论中的品牌,商品特性,以及评价词语的商品评论

2、总结系统,可以有效地为潜在商品用户和商品制造者提供便利。随着人们对商品评论的重视,商品评论呈指数级增长,并且这些评论出现在各大论坛、电子公告板以及门户上。而这些评论从本质上讲是一种文本,对这种评论的分析实际上是对文本的数据挖掘。对于这种半结构或无结构化的数据,用传统方法获取特定容信息的手段却较弱,导致信息搜寻困难和信息利用率低下。文本表达了大量的、丰富的信息,同时包含了许多未被所有者发现的潜在知识。面对浩瀚的文本资源,传统的文档和文本处理工具已经不能满足用户的需求。于是在人工智能研究领域结合结构化数据库中的数据挖掘技术,提出了一种有效的、可以充分利用这些文本数据的新的信息处理技术文本挖掘。评论

3、挖掘是目前数据挖掘、文本挖掘、自然语言处理等领域的热点研究课题之一。在几年的时间中,无论在英文领域还是在中文领域,观点评论挖掘技术都取得了很大的进步。1.1国外评论分析发展状况在国外,2002年是评论挖掘开始兴起的一年。在这一年里,首先Peter1提出将语义倾向性应用在非监督的评论分类上,并设计了一个简单的算法。该算法目的就是将评论分为两类,推荐(recommended)和不推荐(not recommended)。一段评论将有包含在该评论中的形容词和副词的语义倾向性决定,也就是说,如果一段评论的平均语义倾向性为正,则可以把该评论划分为推荐一类,反之,划分为不推荐那一类。Peter利用PMI-I

4、R算法2计算一个短语或者词语的语义倾向性,主要思想就是分别计算给定的短语与“excellent”词和“poor”词之间的互信息,然后两者之差就是给定短语的语义倾向性值。选取了四个领域的评论:汽车、银行、电影以及旅游地,最终实验的准确率达到了74。Bo Pang和Lillian Lee等人3使用机器学习的方法对观点评论分类。文章采用电影评论作为实验语料,使用了三种机器学习的分类方法:朴素贝叶斯,最大熵模型和支持向量机模型。虽然实验结果不是很理想,但这也从另一方面反应出评论的分类还面临很多的困难,以及今后需要研究的重点和难点。NEC公司的Satoshi Morinaga,Kenji Yamanis

5、hi等人4在2002年提出在网络上挖掘产品声誉度的想法,他们认为,了解自己或者竞争者的产品声誉度对市场营销和处理与客户的关系是很重要的,但是手动的收集,分析调查数据是非常费时费力的。基于这种情况,他们提出了一种新的框架来挖掘网络上的产品声誉度。设计的这个框架能自动地从网页上收集人们经常关注的产品的意见,然后通过文本挖掘技术获取那些产品的声誉度。首先他们通过选定人工测试的样本,提前依照句法和语言学的规则判断所给的句子是否为观点句,同时确定该观点句是褒义还是贬义。对于一个给定的目标产品,利用搜索引擎进行收集该产品的所有相关评论,随后利用规则抽取观点,并且在每个观点上帖上三个标签,分别为产品的名称,

6、观点的褒贬以及一个表明该述句置信度的数量值,随后将标注后的观点放入数据库。文章将存入数据库的句子作为挖掘的语料,执行四种文本挖掘的技术,抽取特征词,挖掘共现的词,提取典型句和多个类别的相似分析。真实的数据证明了这种方法相比于传统方法的有效性,同时也减少了声誉度分析的成本。除此之外,国外也有些研究机构将对观点评论挖掘做成了一个系统,并在商业上有着很高的应用价值。2003年,NEC公司的Kushal Dave等5几名研究员开发了一个ReviewSeer系统,该系统通过对评论性文章的语义倾向分析,为商品的受欢迎程度进行打分评价,为商家及其消费者提供了非常重要的商业信息:微软美国研究院Gamon等人所

7、开发的Pulse系统可以自动挖掘网上用户所上载的自由文本中有关汽车评论中的褒贬信息和强弱程度6;IBM Almaden研究中心的Yi和Biblack介绍了该研究中心开发的WebFountain系统中的意见挖掘器7。从2004年到2005年之间,美国伊利诺斯大学Bing Liu,Minqing Hu等8人开始对商品特征挖掘进行系统的研究。他们首次提出利用关联规则挖掘算法挖掘商品评论中的隐藏的商品的特征,分四个步骤挖掘商品特征,以及评价这些特征可能的观点词。主要分为三个步骤:第一挖掘消费者经常提到的商品特征;第二判定评价商品特征句子的语义倾向性:第三总结挖掘的结果。并且通过实验证明了他们算法的有效

8、性,同时开发的原型系统Opinion Observer可以处理网上在线顾客产品评论,对设计产品(电子照相机)各种特征的优缺点进行统计,并采用可视化方法对若干种产品的特征的综合质量进行比较。1.2国评论分析发展状况由于中文和英文的差异,基于中文领域的观点评论挖掘才刚刚起步。最初的代表是香港城市大学Tsou等人在WebFountain系统研究的基础上对中国四地(北京、香港、上海、台北)报刊上有关四位政治人物(克里、布什、小泉纯一郎、水扁)褒贬性的新闻报告进行了分类研究9。在研究中,首先通过标记语料库获得文本中的极性元素,然后主要采用了三个衡量指标,即极性元素的分布、极性元素的密度和极性元素的语义强

9、度来对每个文本进行统计,得出文本褒贬分类和强度大小的结果。最近一年最具代表性的是上海交通大学计算机科学与工程系天萌老师的团队,2006年该团队成功开发了一个用于汉语汽车评论的意见挖掘系统10,该系统的目的是在电子公告板、门户的各大论坛上挖掘并且概括顾客们对各种汽车品牌的不同性能指标的评论和意见,并且判断这些意见的褒贬性以及强度。在意见挖掘系统的设计中,他们定义了一些基本的资源和处理算法的数据结构,如汽车本体、极性词词典、基本元素、语法关系树、匹配规则。通过对文本处理的综合统计,给出可视化的结果。意见挖掘系统的测试结果显示了系统平均召回率达到了80,总平均精确率达到了60。这项研究是对汉语主观性

10、文本处理的一次探索,特别是文本各个层次处理所设计到的词汇、句子和文本极性和强度判断以及它们之间关系的分析根据国外的研究背景以及天防团队的技术路线,2007年,观点评论挖掘以及句子的语义倾向性判别已经成为很多学者的研究热点。2007年8月份,在理工大学举办的“第九届全国计算语言学学术会议”上11,已经初现一些学者在情感分析,blog的信息挖掘方面有所研究。比如:天鲂老师提出一种汉语语句主题语义倾向分析方法,利用本体来抽取语句主题以及它的属性,然后在句法分析的基础上,识别主题和情感描述项之间的关系,从而决定语句中每个主题的极性。观点评论挖掘的过程就是要在自然语言主观性(subjective)文本中

11、自动确定这些元素以及它们之间的关系。另外还有如:“基于聚类引擎的话题褒贬度计算”、“基于容相关度和语义分析的blog热点话题发现”、“基于多重冗余标记CRF的句子情感分析研究”等等。2007年10月,在大学举办的“第七届中文信息处理国际会议”中12,大学的蔡健平做了一篇关于“基于语义理解的意见挖掘”报告,他们研究意见挖掘系统的目的是在论坛上挖掘并且概括网络用户对某物及特点的各种评论,同时判断这些意见的褒贬性以及强度。北京邮电大学的马月珠等人对评论性文章的情感分类做了一些研究,他们提出一种面向语义的文本情感分类技术,通过分析文本中的特定短语模式来获得文本的情感特征,对于文章的复杂句子进行语义层的

12、深入分析。最后实验证明了方法很好地体现了文本中的语义信息,准确率和召回率都达到了90以上。2007年11月,在大学举办的“第三届全国信息检索与容安全学术会议”上13,关于观点评论及其倾向性分析方面就有多达8篇研究论文,这在过去两届会议上是从没有过的。值得一提的是,在该会议中,北京大学苏祺提出一种新的面向观点挖掘的产品评价特征词识别算法。作者认为,目前的观点挖掘技术通常只帮助识别主观性文本中所表达的整体观点态度,研究尚未深入到所评价对象的具体细节。例如,关于某个汽车产品的评论可能对汽车的外型赞赏有加,而对其动力系统持有否定态度。这些不同的观点可以说是针对汽车产品不同特征的相应评价。耳前的观点挖掘

13、技术大多是对评价句或评价篇章的整体进行褒贬倾向的分析。这样的分析方法无法进一步满足更细化的用户需求。另外,复旦大学的章剑锋等人对中文评论挖掘中的主观性关系抽取做了一定的研究。作者提出一种基于机器学习的方法看来对中文评论进行主观性关系抽取,即抽取出表达主观性意义的评价词与其对应的评价对象。所要解决的关系抽取不同于以往传统的任务,他们要抽取的是带有主观性的关系,即要带有评价信息。相对于传统意义上的关系抽取有两点不同,第一作者所描述的关系抽取中的评价词不仅可以是名词,还可以是动词,形容词或者副词。面传统的关系抽取都是抽取实体也就是名词性短语之间的关系。第二个不同点是评论挖掘中抽取的是主观性的关系,而

14、传统的关系抽取不需要考虑句子的主观性。1.3本课题研究的容和意义1.3.1论文的主要容在研究了英文语种极性词抽取基础上,根据中文本身所拥有的特点。针对中文网络评论的句子,研究极性词的上下文极性,并且尝试着运用自然语言处理技术,解决修饰匹配问题,并进行极性词抽取。本文的主要研究容如下:(1)利用HowNet知识资料,将现有的极性词语进行极性及强度的标注,为极性词的检索提供依据,并建立新的极性词典。本文中的极性词典在总结了以往研究成果的基础上,对其进行补充和修正,依照极性词计算的特点,将极性词典划分为静态极性词典和动态极性词典两部分。(2)经过对词语上下文的分析,发现动态极性词产生动态极性的原因,

15、将被修饰的极性挑选出来,分析它们与一般极性词不同的地方。提出将动态极性解决方法,将修饰词也标注极性,通过修饰词的极性和极性词的极性来确定动态极性词的极性。 (3)本文提出了极性词抽取的算法,选择修饰关系对,进行动态极性词的极性计算,并用抽取出来的极性词代替了句子。在一定程度上,提高了评论分析的可信度和正确性。(4)将评论分析结果进行汇总,以简单明了的方式向用户展现分析的结果。1.3.2课题研究的意义随着电子商务迅速发展,越来越多的人足不出户就能买到自己想要的商品。为了更好地服务网上购物的消费者以及增加消费者的购物经验,许多购物为消费者提供了发表评论的平台。这样,就能够给潜在的购买者提供参考,而

16、且也有利于生产商跟踪客户反馈,从而改善新产品的满意度。对于生产商来说,需要获得对产品全面的反馈信息,只靠人工分析少数的评论远远不够。另外,通过统计和分析商品评论,可以知道用户最关注商品的哪个特性,从而有利于对商品的改善。一个能够收集商品评论,并且能有效归纳评论中的品牌,商品特性,以及评价词语的商品评论总结系统,可以有效地为潜在商品用户和商品制造者提供便利。同时评论也是对事物的观念表达,阐发的是评论人的思想,因为思想也是一种信息,所以评论具有信息功能。评论的作用正好可以让人们从纷繁复杂的事物表象中把握事物的本质,使人对事物的认识由不清楚、不确定转向清楚、确定。评论的信息功能主要体现为三个方面:(

17、1)评论透露事物的自在信息。自在信息即事物自我显示的信息。评论作者只需把事物有关特征、资料收集汇总后,评论信息和作者观点便明显地浮现出来。(2)评论揭示了事物的本质信息。零零总总的事物,所显示出来的总是现象方面的信息。马克思主义哲学告诉我们,认识事物要透过现象看本质,对本质信息的认识须从现象入手,借助人脑的思维才能最后得以完成。(3)评论期待信息反馈。有些观点评论既不是评论事物本身,又不是借助评论进行务虚,而是针对事物或者问题对人们鼓吹、发号令等等。这种评论虽然信息含量较少,但也同样能引起人们的关注。从以上的分析,不然发现,评论的挖掘有着深远的意义。首先从信息角度来说,互联网时代的信息爆炸,大

18、量的信息以电子文档的形式出现在人们面前。为了应对爆炸带来的严重挑战,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。其次从评论角度来说,网络评论曾指数级增长,阅读评论是获取信息的首要途径,面对如此数量的评论,无论是商家还是消费者都显得有点力不从心。所以急需一些技术手段来处理这些评论,用最简单直接的手段将评论挖掘结果反馈给商家和消费者。因此,观点评论的挖掘有着广泛的应用价值和研究价值。比如:客户关系管理,产品声誉度分析,新鲜事物推崇程度等等。1.4本文的组织结构本文分为五个章节,主要容如下:第一章是绪论,主要介绍了课题的研究背景,并且对评论文本分析以及评论分析的研究现状做了

19、详细地介绍,同时还对课题的研究意义及本课题所做的工作做了一定的阐述。第二章是基础理论介绍,主要介绍了文本挖掘、极性词、语义极性分析相关概念,以及系统实现中用到相关工具。同时还提出了语义极性分析的难点。第三章是评论文本分析原型系统的设计。主要包含了总体设计、极性词典设计、数据库设计、核心程序设计和系统界面设计。第四章是评论分析原型系统的实现和其在开心商城中的应用,主要包含了系统开发环境的介绍、系统组件的引用、数据接口的使用、系统测试和系统的应用。第五章是总结与展望。这一章对本文所做的工作进行了总结,并对下一步的研究方向和改进进行了展望。2理论综述2.1文本挖掘技术文本挖掘是指以计算语言学、统计数

20、理分析为理论基础,结合机器学习和信息检索技术从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。文本挖掘涉及多个学科领域:数据库、信息检索、信息提取、机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论,甚至还有图论。文本挖掘是从数据挖掘发展而来,因此其定义与大家熟知的数据挖掘定义相类似。但与传统的数据挖掘相比,文本挖掘有其独特之处,主要表现在:文档本身是半结构化或非结构化的,无确定形式并且缺乏机器可理解的语义,而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。因此,有些数据挖掘技术并不适用于文

21、本挖掘,即使可用,也需要建立在对文本集预处理的基础之上。文本挖掘的主要处理过程是对大量文档集合的容进行预处理、特征提取、结构分析、文本摘要、文本分类、文本聚类、关联分析等。图2-1给出了文本挖掘的一般处理过程。文本挖掘不但要处理大量的结构化和非结构化的文档数据,而且还要处理其中复杂的语义关系,因此,现有的数据挖掘技术无法直接应用于其上。对于非结构化问题,一条途径是发展全新的数据挖掘算法直接对非结构化数据进行挖掘,由于数据非常复杂,导致这种算法的复杂性很高;另一条途径就是将非结构化问题结构化,利用现有的数据挖掘技术进行挖掘,目前的文本挖掘一般采用该途径进行。对于语义关系,则需要集成计算语言学和自

22、然语言处理等成果进行分析。本文按照文本挖掘的过程简单介绍其涉及的主要技术。2.1.1数据预处理技术预处理技术主要包括Stemming(英文),分词(中文)、特征表示和特征提取。与数据库中的结构化数据相比,文本具有有限的结构,或者根本就没有结构。此外,文档的容是人类所使用的自然语言,计算机很难处理其语义。文本信息源的这些特殊性使得数据预处理技术在文本挖掘中更加重要。在文档进行特征提取前必须先对文本信息进行分词处理(主要针对中文),因为中文词与词之间没有固有的间隔符(空格),需要进行分词处理。目前主要有基于词库的分词算法和无词典的分词技术两种。特征表示是指以一定特征项(如词条或者描述)来代表文档,

23、在文本挖掘时只需对这些特征项进行处理,实现对非结构化的文本处理。特征提取是因为特征表示的向量维数往往达到十万维,如此高维的特征对即将进行的分类学习未必全是重要、有益的,而且高维的特征会大大增加机器的学习时间,所以特征提取很有必要。2.1.2挖掘分析技术挖掘分析技术。文本转换为向量形式并经特征提取以后,便可以进行挖掘分析了。常用的文本挖掘分析技术有:文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等。文本结构分析的目的是为了更好地理解文本的主题思想,了解文本所表达的容以及采用的方式;文本摘要是指从文档中抽取关键信息,用简洁的形式对文档容进行解释和概括;文本分类的目的就

24、是让机器学会一个分类函数或分类模型,该模型能把文本映射到已存在的多个类别中的某一类,使检索或查询的速度更快,准确率更高;文本聚类是将文档归入到已经存在的类中,文本聚类的目标和文本分类是一样的,只是实现的方法不同;关联分析是值从文档集合中找出不同词语之间的关系:分布分析与趋势预测是指通过对文档的分析,得到特定数据在某个历史时刻的情况或将来的取值趋势。2.1.3可视化技术数据可视化(Data Visualization)技术指的是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机

25、交互技术等多个领域。如今文本挖掘技术基本趋于成熟,如何最大程度地将这些技术应用在高速发达的互联网时代是许多专家学者需要研究的重点。2.2极性词典极性词典,顾名思义,是查找词语极性的一种词典。其目的是提高极性计算的准确率和减少时间复杂度。极性词是人们用来表达自己观点的直接描述工具,所以词语的极性研究是意见挖掘的基础,极性词典的构造工作是意见挖掘系统实现的核心容。本文中提到的极性词典吸取以往研究中涉及到的构造极性词典经验,并针对网络、特有领域等特点加以扩展和强化,展现了在本围的更好的适用性。该词典被划分为静态极性词典(StaticDictionary)和动态极性词典(DynamicDictiona

26、ry)两部分,其中静态极性词典部分加入了网络词典和特有领域词典,动态极性词典部分利用浅层语义分析的方法,将极性词的上下文环境结合起来进行分析,对极性词的静态极性加以修正,以期获得更高的准确率。图2-2给出了极性词典的结构:2.2.1静态极性词典静态极性词典指的是传统意义上的中文极性词典,主要包括极性词本身的两个重要属性:褒贬色彩和极性强度。褒贬色彩,即表达褒义、贬义或中性,。这一类带有情感倾向的词语称之为极性词。例如用“漂亮”、“文明”、“著名”、“先进”等词表达对评论对象的赞扬、仰慕、欣赏等感情,即褒义词。用“生活”、“食物”等词表达对评论对象的客观评价,即中性词。也常用“暴力”、“讨厌”、

27、“虚假”等词来表达对评论对象的反对、厌恶、讽刺等感情,即贬义词。极性强度,人们表达主观意见时,看法的强度也往往不一。如“好”意思,可以用“不错”,“良好”,“优秀”等来形容,它们所表达的情感强度递增。针对极性词的这两个重要属性,在本文的极性词词典中,使用一个实数P来表示极性,P的取值为1,0,-1。本文将0作为褒贬义的分界线,负数表示贬义,0表示中性,正数表示褒义,而绝对值越大表示情感越强烈。在国,对中文的词汇倾向计算方面的研究才刚刚起步,主要的方法是选择基准词对,利用知网计算倾向性待定词与基准词词汇的相似度来判定词汇的极性倾向和极性强度。在文献18中提出了基于Hownet的词汇语义倾向计算得

28、方法,首先他为每个词汇赋予一个语义倾向的度量值,其大小由这个单词与基准词的语义关系紧密程度有关。基准词指褒贬态度非常明显、强烈,具有代表性的词语。与褒义基准词关系越紧密,则词语的褒义倾向越强烈,反之与贬义基准词联系越紧密,词语的贬义倾向越明显。文献中选择了知网中已经标注的词汇作为基准词的标准集。在知网中有两个重要的概念:“义原”和“概念”。概念是用一种“知识表示语言”来描述的,这种“知识表示语言”所用的词汇就叫“义原”。在知网中共定义了1500个“义原”,其他的每个词汇都由它的义原组成。所以义原的相似度计算是概念相似度计算得基础。知网中义原间的上下位关系将同类的义原组成一棵树,所以可以通过义原

29、在树种的语义距离计算相似度,假设两个义原在这个层次体系中的路径距离为d,则这两个义原之间的语义距离公式如下式(2.1)所示。 (2.1)其中p1和p2表示两个义原,d是p1和p2在义原层次体系中的路径长度,是一个整数。a是一个可调节的参数。最后将待定词(极性词)与所有可能近义词的相似度求和,公式如式(2.2)所示。 (2.2)通过以上的处理,发现一个极性词语要么可以通过静态极性词典查到它的极性,要么可以通过基于语义相似度的计算得到它的极性,因此静态极性词典构建的目的就达到了,词语通过静态极性词典获得了它的静态极性值。初始极性词典:本文采用将英文极性词词典Harvard&Lasswell14借助

30、于HowNet15进行转换并人工修正的方法得到初始化极性词典。网络极性词典:在各个领域中,很难罗列出所有的褒贬义词语,因此,在知识的挖掘过程中,可以发现一些新的褒贬义词。如“顶、“踩、“路过”等。领域极性词典:在挑选极性词的过程中,发现一些极性词在修饰某个特征时会发生正负变化,例如:在“它不愧是有史以来最轻薄的ThinkPad!这句话中,“轻薄”被在初始化极性词典中被定义为贬义,常用来修饰人,而在本文中,主题是笔记本电脑,它显然是褒义。类似的例子还有很多。这说明极性词的褒贬有时会根据其所修饰的特征发生变化,在不同的场合下,往往同一个词语所表达的褒贬意义相差甚远。因此,收集特定领域的褒贬词语对原

31、有词典进行扩冲并加以修订就显得十分必要。2.2.2动态极性词典在分析研究过程中发现如果只考虑静态极性的话,那还是有很多问题难以处理。主要概括为两个现象,在这里将它们统称为动态极性:(1)极性词的否定修饰。例如:“HP笔记本的售后服务一点都不好。”“好”本来是褒义词,但是由于前面加了一个“不”,整个句子就是对HP的贬义评价了。(2)极性词的强弱化修饰。例如:“HP笔记本绝对经久耐用!”这句话中“经久耐用”是对HP笔记本的赞美,结果说话人还加上了“绝对”二字进行强调,则感情色彩更强烈了,又例如:“其实联想笔记本只是样子好看点而已!”这句话中“好看”是对联想笔记本的“样子”的褒义评价,但是句中出现了

32、“只是”、“而已”等弱化感情色彩的词语,可以看出评论对联想笔记本的外观不是特别欣赏,虽然还是认为它的好的,但已弱化很多。为了处理上面的问题,本文构造了动态极性词典,其构造原理是基于句子的极性计算,主要指上下文环境(否定修饰词、强弱化修饰词等)引起的极性变化。本文定义了两个词典:否定词词典和强调词词典。否定词词典:在逻辑语义上,否定词是判断主题不具有某种特征或行为的。例如:“演技一点也没进步。表演极不自信。”其中“进步”和“自信”本来都是褒义词,但是前面加上否定词“没”、“不”,整个句子的语义就转变为贬义了。强调词词典:在中国现代语法里,王力先生曾把程度副词分为绝对程度副词和相对程度副词两类。他指出:“凡无所比较,但泛言程度者,叫绝对的程度副词。”“凡有所比较者,叫做相对的程度副词”17。无论是绝对还是相对程度副词都会对句子的语义强度产生很大的影响。例如:他的汉语挺好的;他的汉语说得非常好;他的汉语说得极其好。上述三个例句语义强度依次递增。动态极性计算:对一个句子进行句法分析后,通过研究词与词之间的依存关系,可以找到否定前缀和强调前缀,从而计算词的上下文极性

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2