用户评论分析系统研究毕业论文.docx

上传人:b****4 文档编号:5420391 上传时间:2023-05-08 格式:DOCX 页数:46 大小:480.26KB
下载 相关 举报
用户评论分析系统研究毕业论文.docx_第1页
第1页 / 共46页
用户评论分析系统研究毕业论文.docx_第2页
第2页 / 共46页
用户评论分析系统研究毕业论文.docx_第3页
第3页 / 共46页
用户评论分析系统研究毕业论文.docx_第4页
第4页 / 共46页
用户评论分析系统研究毕业论文.docx_第5页
第5页 / 共46页
用户评论分析系统研究毕业论文.docx_第6页
第6页 / 共46页
用户评论分析系统研究毕业论文.docx_第7页
第7页 / 共46页
用户评论分析系统研究毕业论文.docx_第8页
第8页 / 共46页
用户评论分析系统研究毕业论文.docx_第9页
第9页 / 共46页
用户评论分析系统研究毕业论文.docx_第10页
第10页 / 共46页
用户评论分析系统研究毕业论文.docx_第11页
第11页 / 共46页
用户评论分析系统研究毕业论文.docx_第12页
第12页 / 共46页
用户评论分析系统研究毕业论文.docx_第13页
第13页 / 共46页
用户评论分析系统研究毕业论文.docx_第14页
第14页 / 共46页
用户评论分析系统研究毕业论文.docx_第15页
第15页 / 共46页
用户评论分析系统研究毕业论文.docx_第16页
第16页 / 共46页
用户评论分析系统研究毕业论文.docx_第17页
第17页 / 共46页
用户评论分析系统研究毕业论文.docx_第18页
第18页 / 共46页
用户评论分析系统研究毕业论文.docx_第19页
第19页 / 共46页
用户评论分析系统研究毕业论文.docx_第20页
第20页 / 共46页
亲,该文档总共46页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

用户评论分析系统研究毕业论文.docx

《用户评论分析系统研究毕业论文.docx》由会员分享,可在线阅读,更多相关《用户评论分析系统研究毕业论文.docx(46页珍藏版)》请在冰点文库上搜索。

用户评论分析系统研究毕业论文.docx

用户评论分析系统研究毕业论文

用户评论分析系统研究毕业论文

1绪论

最近几年,电子商务迅速发展,网上购物已变得不再陌生,越来越多的人足不出户就能买到自己想要的商品。

为了更好地服务网上购物的消费者以及增加消费者的购物经验,许多购物联合商家为消费者提供了发表评论的平台,这样,就能够给潜在的购买者提供参考,而且也有利于生产商跟踪客户反馈,从而改善新产品的满意度。

对于生产商来说,需要获得对产品全面的反馈信息,只靠人工分析少数的评论远远不够。

另外,通过统计和分析商品评论,可以知道用户最关注商品的哪个特性,从而有利于对商品的改善。

一个能够收集商品评论,并且能有效归纳评论中的品牌,商品特性,以及评价词语的商品评论总结系统,可以有效地为潜在商品用户和商品制造者提供便利。

随着人们对商品评论的重视,商品评论呈指数级增长,并且这些评论出现在各大论坛、电子公告板以及门户上。

而这些评论从本质上讲是一种文本,对这种评论的分析实际上是对文本的数据挖掘。

对于这种半结构或无结构化的数据,用传统方法获取特定容信息的手段却较弱,导致信息搜寻困难和信息利用率低下。

文本表达了大量的、丰富的信息,同时包含了许多未被所有者发现的潜在知识。

面对浩瀚的文本资源,传统的文档和文本处理工具已经不能满足用户的需求。

于是在人工智能研究领域结合结构化数据库中的数据挖掘技术,提出了一种有效的、可以充分利用这些文本数据的新的信息处理技术——文本挖掘。

评论挖掘是目前数据挖掘、文本挖掘、自然语言处理等领域的热点研究课题之一。

在几年的时间中,无论在英文领域还是在中文领域,观点评论挖掘技术都取得了很大的进步。

1.1国外评论分析发展状况

在国外,2002年是评论挖掘开始兴起的一年。

在这一年里,首先Peter[1]提出将语义倾向性应用在非监督的评论分类上,并设计了一个简单的算法。

该算法目的就是将评论分为两类,推荐(recommended)和不推荐(notrecommended)。

一段评论将有包含在该评论中的形容词和副词的语义倾向性决定,也就是说,如果一段评论的平均语义倾向性为正,则可以把该评论划分为推荐一类,反之,划分为不推荐那一类。

Peter利用PMI-IR算法[2]计算一个短语或者词语的语义倾向性,主要思想就是分别计算给定的短语与“excellent”词和“poor”词之间的互信息,然后两者之差就是给定短语的语义倾向性值。

选取了四个领域的评论:

汽车、银行、电影以及旅游地,最终实验的准确率达到了74%。

BoPang和LillianLee等人[3]使用机器学习的方法对观点评论分类。

文章采用电影评论作为实验语料,使用了三种机器学习的分类方法:

朴素贝叶斯,最大熵模型和支持向量机模型。

虽然实验结果不是很理想,但这也从另一方面反应出评论的分类还面临很多的困难,以及今后需要研究的重点和难点。

NEC公司的SatoshiMorinaga,KenjiYamanishi等人[4]在2002年提出在网络上挖掘产品声誉度的想法,他们认为,了解自己或者竞争者的产品声誉度对市场营销和处理与客户的关系是很重要的,但是手动的收集,分析调查数据是非常费时费力的。

基于这种情况,他们提出了一种新的框架来挖掘网络上的产品声誉度。

设计的这个框架能自动地从网页上收集人们经常关注的产品的意见,然后通过文本挖掘技术获取那些产品的声誉度。

首先他们通过选定人工测试的样本,提前依照句法和语言学的规则判断所给的句子是否为观点句,同时确定该观点句是褒义还是贬义。

对于一个给定的目标产品,利用搜索引擎进行收集该产品的所有相关评论,随后利用规则抽取观点,并且在每个观点上帖上三个标签,分别为产品的名称,观点的褒贬以及一个表明该述句置信度的数量值,随后将标注后的观点放入数据库。

文章将存入数据库的句子作为挖掘的语料,执行四种文本挖掘的技术,抽取特征词,挖掘共现的词,提取典型句和多个类别的相似分析。

真实的数据证明了这种方法相比于传统方法的有效性,同时也减少了声誉度分析的成本。

除此之外,国外也有些研究机构将对观点评论挖掘做成了一个系统,并在商业上有着很高的应用价值。

2003年,NEC公司的KushalDave等[5]几名研究员开发了一个ReviewSeer系统,该系统通过对评论性文章的语义倾向分析,为商品的受欢迎程度进行打分评价,为商家及其消费者提供了非常重要的商业信息:

微软美国研究院Gamon等人所开发的Pulse系统可以自动挖掘网上用户所上载的自由文本中有关汽车评论中的褒贬信息和强弱程度[6];IBMAlmaden研究中心的Yi和Biblack介绍了该研究中心开发的WebFountain系统中的意见挖掘器[7]。

从2004年到2005年之间,美国伊利诺斯大学BingLiu,MinqingHu等[8]人开始对商品特征挖掘进行系统的研究。

他们首次提出利用关联规则挖掘算法挖掘商品评论中的隐藏的商品的特征,分四个步骤挖掘商品特征,以及评价这些特征可能的观点词。

主要分为三个步骤:

第一挖掘消费者经常提到的商品特征;第二判定评价商品特征句子的语义倾向性:

第三总结挖掘的结果。

并且通过实验证明了他们算法的有效性,同时开发的原型系统OpinionObserver可以处理网上在线顾客产品评论,对设计产品(电子照相机)各种特征的优缺点进行统计,并采用可视化方法对若干种产品的特征的综合质量进行比较。

1.2国评论分析发展状况

由于中文和英文的差异,基于中文领域的观点评论挖掘才刚刚起步。

最初的代表是香港城市大学Tsou等人在WebFountain系统研究的基础上对中国四地(北京、香港、上海、台北)报刊上有关四位政治人物(克里、布什、小泉纯一郎、水扁)褒贬性的新闻报告进行了分类研究[9]。

在研究中,首先通过标记语料库获得文本中的极性元素,然后主要采用了三个衡量指标,即极性元素的分布、极性元素的密度和极性元素的语义强度来对每个文本进行统计,得出文本褒贬分类和强度大小的结果。

最近一年最具代表性的是上海交通大学计算机科学与工程系天萌老师的团队,2006年该团队成功开发了一个用于汉语汽车评论的意见挖掘系统[10],该系统的目的是在电子公告板、门户的各大论坛上挖掘并且概括顾客们对各种汽车品牌的不同性能指标的评论和意见,并且判断这些意见的褒贬性以及强度。

在意见挖掘系统的设计中,他们定义了一些基本的资源和处理算法的数据结构,如汽车本体、极性词词典、基本元素、语法关系树、匹配规则。

通过对文本处理的综合统计,给出可视化的结果。

意见挖掘系统的测试结果显示了系统平均召回率达到了80%,总平均精确率达到了60%。

这项研究是对汉语主观性文本处理的一次探索,特别是文本各个层次处理所设计到的词汇、句子和文本极性和强度判断以及它们之间关系的分析

根据国外的研究背景以及天防团队的技术路线,2007年,观点评论挖掘以及句子的语义倾向性判别已经成为很多学者的研究热点。

2007年8月份,在理工大学举办的“第九届全国计算语言学学术会议”上[11],已经初现一些学者在情感分析,blog的信息挖掘方面有所研究。

比如:

天鲂老师提出一种汉语语句主题语义倾向分析方法,利用本体来抽取语句主题以及它的属性,然后在句法分析的基础上,识别主题和情感描述项之间的关系,从而决定语句中每个主题的极性。

观点评论挖掘的过程就是要在自然语言主观性(subjective)文本中自动确定这些元素以及它们之间的关系。

另外还有如:

“基于聚类引擎的话题褒贬度计算”、“基于容相关度和语义分析的blog热点话题发现”、“基于多重冗余标记CRF的句子情感分析研究”等等。

2007年10月,在大学举办的“第七届中文信息处理国际会议”中[12],大学的蔡健平做了一篇关于“基于语义理解的意见挖掘”报告,他们研究意见挖掘系统的目的是在论坛上挖掘并且概括网络用户对某物及特点的各种评论,同时判断这些意见的褒贬性以及强度。

北京邮电大学的马月珠等人对评论性文章的情感分类做了一些研究,他们提出一种面向语义的文本情感分类技术,通过分析文本中的特定短语模式来获得文本的情感特征,对于文章的复杂句子进行语义层的深入分析。

最后实验证明了方法很好地体现了文本中的语义信息,准确率和召回率都达到了90%以上。

2007年11月,在大学举办的“第三届全国信息检索与容安全学术会议”上[13],关于观点评论及其倾向性分析方面就有多达8篇研究论文,这在过去两届会议上是从没有过的。

值得一提的是,在该会议中,北京大学苏祺提出一种新的面向观点挖掘的产品评价特征词识别算法。

作者认为,目前的观点挖掘技术通常只帮助识别主观性文本中所表达的整体观点态度,研究尚未深入到所评价对象的具体细节。

例如,关于某个汽车产品的评论可能对汽车的外型赞赏有加,而对其动力系统持有否定态度。

这些不同的观点可以说是针对汽车产品不同特征的相应评价。

耳前的观点挖掘技术大多是对评价句或评价篇章的整体进行褒贬倾向的分析。

这样的分析方法无法进一步满足更细化的用户需求。

另外,复旦大学的章剑锋等人对中文评论挖掘中的主观性关系抽取做了一定的研究。

作者提出一种基于机器学习的方法看来对中文评论进行主观性关系抽取,即抽取出表达主观性意义的评价词与其对应的评价对象。

所要解决的关系抽取不同于以往传统的任务,他们要抽取的是带有主观性的关系,即要带有评价信息。

相对于传统意义上的关系抽取有两点不同,第一作者所描述的关系抽取中的评价词不仅可以是名词,还可以是动词,形容词或者副词。

面传统的关系抽取都是抽取实体也就是名词性短语之间的关系。

第二个不同点是评论挖掘中抽取的是主观性的关系,而传统的关系抽取不需要考虑句子的主观性。

1.3本课题研究的容和意义

1.3.1论文的主要容

在研究了英文语种极性词抽取基础上,根据中文本身所拥有的特点。

针对中文网络评论的句子,研究极性词的上下文极性,并且尝试着运用自然语言处理技术,解决修饰匹配问题,并进行极性词抽取。

本文的主要研究容如下:

(1)利用HowNet知识资料,将现有的极性词语进行极性及强度的标注,为极性词的检索提供依据,并建立新的极性词典。

本文中的极性词典在总结了以往研究成果的基础上,对其进行补充和修正,依照极性词计算的特点,将极性词典划分为静态极性词典和动态极性词典两部分。

(2)经过对词语上下文的分析,发现动态极性词产生动态极性的原因,将被修饰的极性挑选出来,分析它们与一般极性词不同的地方。

提出将动态极性解决方法,将修饰词也标注极性,通过修饰词的极性和极性词的极性来确定动态极性词的极性。

(3)本文提出了极性词抽取的算法,选择修饰关系对,进行动态极性词的极性计算,并用抽取出来的极性词代替了句子。

在一定程度上,提高了评论分析的可信度和正确性。

(4)将评论分析结果进行汇总,以简单明了的方式向用户展现分析的结果。

1.3.2课题研究的意义

随着电子商务迅速发展,越来越多的人足不出户就能买到自己想要的商品。

为了更好地服务网上购物的消费者以及增加消费者的购物经验,许多购物为消费者提供了发表评论的平台。

这样,就能够给潜在的购买者提供参考,而且也有利于生产商跟踪客户反馈,从而改善新产品的满意度。

对于生产商来说,需要获得对产品全面的反馈信息,只靠人工分析少数的评论远远不够。

另外,通过统计和分析商品评论,可以知道用户最关注商品的哪个特性,从而有利于对商品的改善。

一个能够收集商品评论,并且能有效归纳评论中的品牌,商品特性,以及评价词语的商品评论总结系统,可以有效地为潜在商品用户和商品制造者提供便利。

同时评论也是对事物的观念表达,阐发的是评论人的思想,因为思想也是一种信息,所以评论具有信息功能。

评论的作用正好可以让人们从纷繁复杂的事物表象中把握事物的本质,使人对事物的认识由不清楚、不确定转向清楚、确定。

评论的信息功能主要体现为三个方面:

(1)评论透露事物的自在信息。

自在信息即事物自我显示的信息。

评论作者只需把事物有关特征、资料收集汇总后,评论信息和作者观点便明显地浮现出来。

(2)评论揭示了事物的本质信息。

零零总总的事物,所显示出来的总是现象方面的信息。

马克思主义哲学告诉我们,认识事物要透过现象看本质,对本质信息的认识须从现象入手,借助人脑的思维才能最后得以完成。

(3)评论期待信息反馈。

有些观点评论既不是评论事物本身,又不是借助评论进行务虚,而是针对事物或者问题对人们鼓吹、发号令等等。

这种评论虽然信息含量较少,但也同样能引起人们的关注。

从以上的分析,不然发现,评论的挖掘有着深远的意义。

首先从信息角度来说,互联网时代的信息爆炸,大量的信息以电子文档的形式出现在人们面前。

为了应对爆炸带来的严重挑战,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。

其次从评论角度来说,网络评论曾指数级增长,阅读评论是获取信息的首要途径,面对如此数量的评论,无论是商家还是消费者都显得有点力不从心。

所以急需一些技术手段来处理这些评论,用最简单直接的手段将评论挖掘结果反馈给商家和消费者。

因此,观点评论的挖掘有着广泛的应用价值和研究价值。

比如:

客户关系管理,产品声誉度分析,新鲜事物推崇程度等等。

1.4本文的组织结构

本文分为五个章节,主要容如下:

第一章是绪论,主要介绍了课题的研究背景,并且对评论文本分析以及评论分析的研究现状做了详细地介绍,同时还对课题的研究意义及本课题所做的工作做了一定的阐述。

第二章是基础理论介绍,主要介绍了文本挖掘、极性词、语义极性分析相关概念,以及系统实现中用到相关工具。

同时还提出了语义极性分析的难点。

第三章是评论文本分析原型系统的设计。

主要包含了总体设计、极性词典设计、数据库设计、核心程序设计和系统界面设计。

第四章是评论分析原型系统的实现和其在开心商城中的应用,主要包含了系统开发环境的介绍、系统组件的引用、数据接口的使用、系统测试和系统的应用。

第五章是总结与展望。

这一章对本文所做的工作进行了总结,并对下一步的研究方向和改进进行了展望。

2

理论综述

2.1文本挖掘技术

文本挖掘是指以计算语言学、统计数理分析为理论基础,结合机器学习和信息检索技术从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。

文本挖掘涉及多个学科领域:

数据库、信息检索、信息提取、机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论,甚至还有图论。

文本挖掘是从数据挖掘发展而来,因此其定义与大家熟知的数据挖掘定义相类似。

但与传统的数据挖掘相比,文本挖掘有其独特之处,主要表现在:

文档本身是半结构化或非结构化的,无确定形式并且缺乏机器可理解的语义,而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。

因此,有些数据挖掘技术并不适用于文本挖掘,即使可用,也需要建立在对文本集预处理的基础之上。

文本挖掘的主要处理过程是对大量文档集合的容进行预处理、特征提取、结构分析、文本摘要、文本分类、文本聚类、关联分析等。

图2-1给出了文本挖掘的一般处理过程。

文本挖掘不但要处理大量的结构化和非结构化的文档数据,而且还要处理其中复杂的语义关系,因此,现有的数据挖掘技术无法直接应用于其上。

对于非结构化问题,一条途径是发展全新的数据挖掘算法直接对非结构化数据进行挖掘,由于数据非常复杂,导致这种算法的复杂性很高;另一条途径就是将非结构化问题结构化,利用现有的数据挖掘技术进行挖掘,目前的文本挖掘一般采用该途径进行。

对于语义关系,则需要集成计算语言学和自然语言处理等成果进行分析。

本文按照文本挖掘的过程简单介绍其涉及的主要技术。

2.1.1数据预处理技术

预处理技术主要包括Stemming(英文),分词(中文)、特征表示和特征提取。

与数据库中的结构化数据相比,文本具有有限的结构,或者根本就没有结构。

此外,文档的容是人类所使用的自然语言,计算机很难处理其语义。

文本信息源的这些特殊性使得数据预处理技术在文本挖掘中更加重要。

在文档进行特征提取前必须先对文本信息进行分词处理(主要针对中文),因为中文词与词之间没有固有的间隔符(空格),需要进行分词处理。

目前主要有基于词库的分词算法和无词典的分词技术两种。

特征表示是指以一定特征项(如词条或者描述)来代表文档,在文本挖掘时只需对这些特征项进行处理,实现对非结构化的文本处理。

特征提取是因为特征表示的向量维数往往达到十万维,如此高维的特征对即将进行的分类学习未必全是重要、有益的,而且高维的特征会大大增加机器的学习时间,所以特征提取很有必要。

2.1.2挖掘分析技术

挖掘分析技术。

文本转换为向量形式并经特征提取以后,便可以进行挖掘分析了。

常用的文本挖掘分析技术有:

文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等。

文本结构分析的目的是为了更好地理解文本的主题思想,了解文本所表达的容以及采用的方式;文本摘要是指从文档中抽取关键信息,用简洁的形式对文档容进行解释和概括;文本分类的目的就是让机器学会一个分类函数或分类模型,该模型能把文本映射到已存在的多个类别中的某一类,使检索或查询的速度更快,准确率更高;文本聚类是将文档归入到已经存在的类中,文本聚类的目标和文本分类是一样的,只是实现的方法不同;关联分析是值从文档集合中找出不同词语之间的关系:

分布分析与趋势预测是指通过对文档的分析,得到特定数据在某个历史时刻的情况或将来的取值趋势。

2.1.3可视化技术

数据可视化(DataVisualization)技术指的是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。

它涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域。

如今文本挖掘技术基本趋于成熟,如何最大程度地将这些技术应用在高速发达的互联网时代是许多专家学者需要研究的重点。

2.2极性词典

极性词典,顾名思义,是查找词语极性的一种词典。

其目的是提高极性计算的准确率和减少时间复杂度。

极性词是人们用来表达自己观点的直接描述工具,所以词语的极性研究是意见挖掘的基础,极性词典的构造工作是意见挖掘系统实现的核心容。

本文中提到的极性词典吸取以往研究中涉及到的构造极性词典经验,并针对网络、特有领域等特点加以扩展和强化,展现了在本围的更好的适用性。

该词典被划分为静态极性词典(StaticDictionary)和动态极性词典(DynamicDictionary)两部分,其中静态极性词典部分加入了网络词典和特有领域词典,动态极性词典部分利用浅层语义分析的方法,将极性词的上下文环境结合起来进行分析,对极性词的静态极性加以修正,以期获得更高的准确率。

图2-2给出了极性词典的结构:

2.2.1静态极性词典

静态极性词典指的是传统意义上的中文极性词典,主要包括极性词本身的两个重要属性:

褒贬色彩和极性强度。

褒贬色彩,即表达褒义、贬义或中性,。

这一类带有情感倾向的词语称之为极性词。

例如用“漂亮”、“文明”、“著名”、“先进”等词表达对评论对象的赞扬、仰慕、欣赏等感情,即褒义词。

用“生活”、“食物”等词表达对评论对象的客观评价,即中性词。

也常用“暴力”、“讨厌”、“虚假”等词来表达对评论对象的反对、厌恶、讽刺等感情,即贬义词。

极性强度,人们表达主观意见时,看法的强度也往往不一。

如“好”意思,可以用“不错”,“良好”,“优秀”等来形容,它们所表达的情感强度递增。

针对极性词的这两个重要属性,在本文的极性词词典中,使用一个实数P来表示极性,P的取值为1,0,-1。

本文将0作为褒贬义的分界线,负数表示贬义,0表示中性,正数表示褒义,而绝对值越大表示情感越强烈。

在国,对中文的词汇倾向计算方面的研究才刚刚起步,主要的方法是选择基准词对,利用知网计算倾向性待定词与基准词词汇的相似度来判定词汇的极性倾向和极性强度。

在文献[18]中提出了基于Hownet的词汇语义倾向计算得方法,首先他为每个词汇赋予一个语义倾向的度量值,其大小由这个单词与基准词的语义关系紧密程度有关。

基准词指褒贬态度非常明显、强烈,具有代表性的词语。

与褒义基准词关系越紧密,则词语的褒义倾向越强烈,反之与贬义基准词联系越紧密,词语的贬义倾向越明显。

文献中选择了知网中已经标注的词汇作为基准词的标准集。

在知网中有两个重要的概念:

“义原”和“概念”。

概念是用一种“知识表示语言”来描述的,这种“知识表示语言”所用的词汇就叫“义原”。

在知网中共定义了1500个“义原”,其他的每个词汇都由它的义原组成。

所以义原的相似度计算是概念相似度计算得基础。

知网中义原间的上下位关系将同类的义原组成一棵树,所以可以通过义原在树种的语义距离计算相似度,假设两个义原在这个层次体系中的路径距离为d,则这两个义原之间的语义距离公式如下式(2.1)所示。

(2.1)

其中p1和p2表示两个义原,d是p1和p2在义原层次体系中的路径长度,是一个整数。

a是一个可调节的参数。

最后将待定词(极性词)与所有可能近义词的相似度求和,公式如式(2.2)所示。

(2.2)

通过以上的处理,发现一个极性词语要么可以通过静态极性词典查到它的极性,要么可以通过基于语义相似度的计算得到它的极性,因此静态极性词典构建的目的就达到了,词语通过静态极性词典获得了它的静态极性值。

初始极性词典:

本文采用将英文极性词词典Harvard&Lasswell[14]借助于HowNet[15]进行转换并人工修正的方法得到初始化极性词典。

网络极性词典:

在各个领域中,很难罗列出所有的褒贬义词语,因此,在知识的挖掘过程中,可以发现一些新的褒贬义词。

如“顶’’、“踩"、“路过”等。

领域极性词典:

在挑选极性词的过程中,发现一些极性词在修饰某个特征时会发生正负变化,例如:

在“它不愧是有史以来最轻薄的ThinkPad!

"这句话中,“轻薄”被在初始化极性词典中被定义为贬义,常用来修饰人,而在本文中,主题是笔记本电脑,它显然是褒义。

类似的例子还有很多。

这说明极性词的褒贬有时会根据其所修饰的特征发生变化,在不同的场合下,往往同一个词语所表达的褒贬意义相差甚远。

因此,收集特定领域的褒贬词语对原有词典进行扩冲并加以修订就显得十分必要。

2.2.2动态极性词典

在分析研究过程中发现如果只考虑静态极性的话,那还是有很多问题难以处理。

主要概括为两个现象,在这里将它们统称为动态极性:

(1)极性词的否定修饰。

例如:

“HP笔记本的售后服务一点都不好。

”“好”本来是褒义词,但是由于前面加了一个“不”,整个句子就是对HP的贬义评价了。

(2)极性词的强弱化修饰。

例如:

“HP笔记本绝对经久耐用!

”这句话中“经久耐用”是对HP笔记本的赞美,结果说话人还加上了“绝对”二字进行强调,则感情色彩更强烈了,又例如:

“其实联想笔记本只是样子好看点而已!

”这句话中“好看”是对联想笔记本的“样子”的褒义评价,但是句中出现了“只是”、“而已”等弱化感情色彩的词语,可以看出评论对联想笔记本的外观不是特别欣赏,虽然还是认为它的好的,但已弱化很多。

为了处理上面的问题,本文构造了动态极性词典,其构造原理是基于句子的极性计算,主要指上下文环境(否定修饰词、强弱化修饰词等)引起的极性变化。

本文定义了两个词典:

否定词词典和强调词词典。

否定词词典:

在逻辑语义上,否定词是判断主题不具有某种特征或行为的。

例如:

“演技一点也没进步。

表演极不自信。

”其中“进步”和“自信”本来都是褒义词,但是前面加上否定词“没”、“不”,整个句子的语义就转变为贬义了。

强调词词典:

在《中国现代语法》里,王力先生曾把程度副词分为绝对程度副词和相对程度副词两类。

他指出:

“凡无所比较,但泛言程度者,叫绝对的程度副词。

”“凡有所比较者,叫做相对的程度副词”[17]。

无论是绝对还是相对程度副词都会对句子的语义强度产生很大的影响。

例如:

他的汉语挺好的;他的汉语说得非常好;他的汉语说得极其好。

上述三个例句语义强度依次递增。

动态极性计算:

对一个句子进行句法分析后,通过研究词与词之间的依存关系,可以找到否定前缀和强调前缀,从而计算词的上下文极性

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2