机器翻译中基于语法语义知识库的汉语词义消歧策略.docx
《机器翻译中基于语法语义知识库的汉语词义消歧策略.docx》由会员分享,可在线阅读,更多相关《机器翻译中基于语法语义知识库的汉语词义消歧策略.docx(17页珍藏版)》请在冰点文库上搜索。
机器翻译中基于语法语义知识库的汉语词义消歧策略
机器翻译中基于语法、语义知识库的汉语词义消歧策略
王惠
北京大学计算语言学研究所,北京,100871
摘要:
词义消歧研究在自然语言处理的许多应用领域中具有重要的理论和实践意义,在机器翻译中更是如此,它直接关系到译文质量的提高。
但目前已有的词义消歧系统基本上都面临着消歧知识获取的瓶颈问题。
本文认为,要真正有效地提高词义知识库的质量,需要在词类划分基础上,增加词义的语法功能分析和语义搭配限制,综合利用现有的语法、语义资源,提取多义词的每个意义在不同层级上的各种分布特征。
以此为基础,本文提出了一种汉英机器翻译系统中基于语法、语义知识库的汉语词义消歧分析算法。
初步的实验结果表明,该方法可以高质量地进行汉语名词、动词、形容词的词义消歧。
关键词:
词义消歧(WSD)汉英机器翻译语法词典语义词典
AStudyofChineseWordSenseDisambiguationinMTBasedonGrammatical&SemanticKnowledge-bases
Wang,Hui
(InstituteofComputationalLinguistics,PekingUniversity,Beijing100871,China)
Abstract
Wordsensedisambiguation(WSD)playsanimportantroleinMachineTranslationandmanyotherareasofnaturallanguageprocessing.TheresearchonWSDhasgreattheoreticalandpracticalsignificance.ThemainworkinthispaperistostudywhatkindofknowledgeisusefulforWSDinsystem,andestablishamulti-levelWSDmodelbasedonsyntagmaticfeaturesandsemanticinformation,whichcanbeusedtodisambiguatewordsenseinMandarinChineseeffectively.
ThemodelmakesfulluseoftheGrammaticalKnowledge-baseofContemporaryChineseasoneofitsmainmachine-readabledictionary(MRD),whichcanproviderichgrammaticalinformationfordisambiguationsuchasChineselexicon,parts-of-speech(POS)andsyntaxfunction.AnotherresourceofthemodelistheSemanticDictionaryofContemporaryChinese,whichprovidesathesaurusandsemanticcollocationinformationof68,000Chinesewords.
TheresultsofthisstudyindicatethatthetwoMRDresourcesareeffectiveforwordsensedisambiguationinMTandarelikelytobeimportantforgeneralChineseNLP.
Keywords:
WordSenseDisambiguation,Chinese-EnglishMachineTranslation,GrammaticalKnowledge,SemanticDictionary
1.引言
由于自然语言中一词多义现象普遍存在,在机器翻译中,要让计算机进行准确的译文选择(translationchoice),一个重要的前提条件就是能够在某个特定上下文中,自动排除歧义,确定多义词的词义。
因此,词义消歧(Wordsensedisambiguation,WSD)从50年代初期开始机器翻译研究起就一直备受计算语言学家的关注[1,2]。
早期人们所使用的词义消歧知识一般是凭人手工编制的规则。
由于手工编写规则费时费力,存在严重的知识获取的“瓶颈”问题。
20世纪80年代以后,语言学家提供的各类词典成为人们获取词义消歧知识的一个重要知识源。
Lesk、Luk根据《OxfordAdvancedLearner’sDictionary》中的释义文本来判断多义词在上下文中的词义[3,4]。
Dagan和Gale利用双语对照词典来帮助多义词消歧[5,6]。
Voorhees、Resnik从不同角度利用WordNet中的上下位关系、同义关系进行英语的词义消歧探索[7,8]。
Yarowsky(1994)提出一种基于义类词典《Roget’sInternationalThesaurus》的词义消歧方法[9]。
近年来,随着计算机存储容量和运算速度的飞速提高,通过使用各种机用资源和大规模语料库,计算机能够自动获得各种动态的搭配知识及其统计数据。
因而,词义消歧研究中涌现出许多基于语料库统计的方法。
比如,Gale和Church等利用双语语料库对英语多义词进行训练和测试[10]。
汉语词义消歧研究从20世纪90年代以后才开始,主要是利用语义词典提供的信息。
清华大学计算机系黄昌宁、童翔利用《同义词词林》中的语义分类,对汉语合成词中的单字进行语义标注[11]。
此后,上海复旦大学曾使用《同义词词林》的语义中类人工标注5万语料,然后用一个二元模型进行训练和测试,进行文本标注研究。
LAM(1997)利用《现汉》中的释义文本和《同义词词林》的语义类,对实词多义词进行词义消歧[12],平均正确率为45.5%。
清华大学计算机系李涓子(1999)利用《同义词词林》、《现代汉语辞海》以及“人民日报”语料库对文本中的多义词进行词义标注[13],多义词消歧的正确率为52.13%。
山西大学、哈尔滨工业大学、厦门大学计算机系也分别对汉语全文检索中的义项标注、英汉机器翻译等限定领域中的词义消歧方法进行了探索[14,15,16]。
总的来说,到目前为止,不管是基于规则的方法,还是基于词典资源或者大规模语料库的方法,“无论哪种方法都没有很好地解决词义消歧问题”[2]。
其中一个很重要的原因就是词义知识获取的瓶颈问题。
词义消歧知识库的质量已成为词义消歧系统成败的关键。
英语词义消歧研究已有多年的历史,但大部分工作都由于缺少足够的词义知识,从而被限制在一个较小的规模(几个或十几个词)。
汉语词义消歧虽然在较短的时间内取得了令人鼓舞的成绩,但现有的各种方法所利用的知识一般仅限于具体的词语搭配和较低层次的义类信息(主要来自于《同义词词林》和“知网”)。
由于词典和语料库中不可能包括每个词义的所有搭配实例;而有些低频词,在语料中出现次数也不多,很难搜集到它们的上下文环境,因而知识获取中普遍存在着数据稀疏以及自动学习算法的参数空间太大等问题[13]。
究竟哪些知识才是词义消歧所真正需要的呢?
我们知道,词义和词的分布之间具有密切的关系。
一个词无论包含多少种意义(sense),在一定语句中起作用的,往往只是其中某一个意义。
词的不同意义往往会在句法或词汇搭配层面上表现出不同的组合特征。
人们之所以能够在一定的上下文中理解多义词的不同意义,正是借助于这些彼此独立并且呈互补分布的特征。
认知语言学家Choueka(1983)的研究表明,人们通常仅仅利用上下文中的一个词或少数几个词就能够识别出多义词的词义。
因此,完全可以根据词与词之间的组合关系来有效地分化多义词[17]。
对于计算机来说,要真正有效地提高词义消歧的水平,不仅需要获取词的释义和分类信息,而且更重要的是,综合利用现有的语法、语义资源,在词类划分基础上,增加词义的语法功能分析和语义搭配描写,从多知识源中提取多义词的每个意义相互区别的分布特征。
本文将在北大计算语言所开发的“现代汉语语法信息词典”[18]和“现代汉语语义词典”[19]的基础上,探索一种基于语法、语义知识库汉语词义消歧策略,以提高汉英机器翻译系统的译文质量。
2.利用词类标记进行词义消歧
语义学中的词义分析与语法学中的词类划分虽然不是一回事,但是词义与词性有着不可分割的联系,二者通常是结合在一起的,词义的变化可能引起词性的变化,反过来说,词性的变化,除了临时活用以外,也会引起词义的变化。
由于词性变化而造成词义转移的例子,在汉语的名词、动词、形容词以及各种虚词中都很普遍。
如果多义词的不同意义属于不同的词类,计算机自然可以借助于语料中的词类标注判断出文本中具体出现的是哪一个意义。
如“补贴”的①义是动词,②义是名词:
【补贴】①贴补:
~家用|~粮价。
②贴补的费用:
福利~|副食~。
“现代汉语语法信息词典”对7万汉语词语逐一进行了词性标注,而且现有的汉语词类自动标注的正确率也已经达到96%以上,因此,对于词类不同的意义,计算机可直接借助于语料中的词性标记进行判断。
比如,遇到下面经过自动切词、词类标注过的文本:
[1]这/r将/d由/p国家/n予以/v补贴/v。
[2]生活/n补贴/n很/d快/a发到/v灾区/n人民/n手/n里/f了/u。
计算机可以很容易地根据词类标记判断出是例1中的“补贴”是①义,例2中的“补贴”是②义,从而给出正确的语义标注或英语译文:
[1]Thiswillbesubsidizedbythestate.
[2]Livingallowanceswerequicklyhandedouttothepeopleinthestrickenarea.
据笔者调查,《现代汉语词典》的20513个名词中共有多义词3989个,其中像“补贴”这样包含不同词类的意义的名词有932,占多义名词的23.4%。
对200万字的《人民日报》语料(1998年1月)的统计结果与此相近,22744个名词中共有多义词2196个,其中意义词类不同的有592个,占27%。
这说明,仅仅利用词类标记就可以消除超过1/5的汉语歧义。
3.词类相同,利用子类标记进行词义消歧
如果一个词的几个意义都属于同一词类,可以进一步利用子类标记来进行辨别。
“现代汉语语法信息词典”在7万词归类的基础上,对各类词语的细分类也进行了一些探索。
比如,根据名词与不同类型的量词的搭配能力,把收录的35,200个名词分为以下7类[20]:
名词子类
代码
个体
量词
度量词
容器
量词
集体
量词
种类
量词
成形
量词
不定
量词
动/时
量词
例词
个体名词
na
+
+
+
+
+
+
+
-
书、牛、白菜
物质名词
nb
-
+
+
+
+
+
+
-
冰、布、水泥
集合名词
nc
-
-
+
+
+
-
+
-
师生、弹药
抽象名词
ne
-
-
-
-
+
+
+
-
勇气、精神
专有名词
nf
+
-
-
-
-
-
-
-
北京、雷锋
过程名词
ng
-
-
-
-
-
-
-
+
暴雨、晚餐
无量名词
nh
-
-
-
-
-
-
-
-
重量、五官
表1汉语名词子类划分(表中“+”表示可以搭配,“-”表示不能搭配)
现代汉语多义词的不同意义,有很大一部分属于不同的子类。
如:
【会计】①监督和管理财务的工作,主要内容有填制各种记帐凭证,处理帐务,编制各种有关报表等。
②担任会计工作的人员。
“会计”的两个意义都是名词,但①义只能受量词“种”、“点”修饰,是抽象名词(ne);②义则是指人名词,可与“个、位、名、排、些”等量词搭配,属于个体名词(na)。
这样,对于具体上下文中的“会计”,计算机就可以根据其前面的量词判断出它究竟是个哪一类名词,并进而正确地进行词义标注和译文选择。
如:
[1]他/r还/d利用/v业余/b时间/t学/v了/u一/m点/q会计/n、电脑/n和/c广东话/n。
[2]全所/n只有/v1/m名/q会计/n和/c1/q名/q炊事员/n,加上/v他/r总共/d才/d3/m人/n。
句[1]中的“会计”前面的量词是“点”,因而属于抽象名词,指的是“会计职务”,对应的英语译词是“accountantship”。
在句[2]中,“会计”与量词“名”搭配,因而是个体名词,指称“会计人员”,应译为“accountant”。
对动词的处理与此类似,比如:
【打点】①收拾;准备(礼物、行装等)。
②送人钱财,请求照顾。
“打点”的①义是及物动词,在句子中出现时一般要带宾语,如:
[1]匆匆打点行装,将幼小的女儿托付给年迈的父母,我们离开了乌鲁木齐。
[2]排雷队要出发了,江小荣天没亮就起床为丈夫打点行装。
而②义则是不及物动词,后面不能跟一个名词性词语,如:
[3]一些单位为了得到上级部门的“关照”,不惜耗费重金送礼打点。
[4]钱也花了不少,因为首先得把教练打点好。
这些属性在“现代汉语语法信息词典”中都已有了详细的描写,计算机完全可以根据“打点”一词后面是否有名词,判断出例句[1]、[2]中的“打点”属于及物动词,应译为“getready”,而例句[3]、[4]中的“打点”则是不及物动词,对应的英语译词则是“bribe”。
4.子类相同,则利用语法功能的差异进行词义消歧
如果一个多义词的不同意义属于同一词类下面的同一个子类,词类和子类标记就都无能为力了。
这时,则可根据“现代汉语语法信息词典”中丰富的其他语法功能信息来区分词义。
比如:
【请】①邀请:
~客|~老李做报告。
②敬辞,用于希望对方做某事:
您~坐|~准时出席。
“请”的两个义项都是动词,而且都是及物动词,在句子中出现时都要求带宾语。
但①义所带的宾语只能是名词性成分,如“客人”、“老李”等;②义却相反,只能带动词性宾语,如“坐”、“出席”等。
根据这种语法功能差异,计算机可以很有把握地判断出真实文本中的“请”的词义:
[1]省长/n请/v老模范/n剪彩/v.
[2]他们/r先后/d请/v了/u京/j、沪/j的/u专家/n来/v团/n讲课/v,担任/v特约/b指导/n。
[3]请/v珍惜/v古城墙/n.
[4]当/p您/r穿上/v崭新/z的/u名牌/b时装/n,请/v不要/v忘记/v那些/r衣衫褴褛/I的/r孩子/n。
句[1]、[2]中的“请”后面都是名词,因而是①义“邀请”,对应的英语译词是“invite”;而句[3]、[4]中的“请”后面都是动词,只能译为“please”。
5.语法功能相同,进一步利用语义搭配限制进行词义消歧
有些多义词,其内部的不同意义虽然语法功能基本相同,但在句中出现时,所搭配的词语却完全不同。
搭配虽然与多种因素有关,但其中最重要的则是不同词语之间的词义制约。
词义是客观事物及其相互关系的概括反映。
当一些相互有关系的事物在词义中得到反映时,这些词就能够互相结合。
反之,如果本来就是一些互相之间没有联系的事物,或它们的联系还没有在词义中得到反映,这些词就不能组合。
5.1搭配对象属于不同的语义类
词义所反映的事物通常只能与一定范围内的事物发生关系,因而,多义词的一个意义只能与反映某一类现象的词语或其中的某几个特定词语组合。
如:
【包袱】①用布包起来的包儿。
②比喻某种负担:
思想~/不能把瞻养父母看成是~。
“包袱”的①义指“用布包起来的包儿”(abundlewrappedincloth),是一种具体物,因而,在句子中出现时,它前面只能与表示某种布的“材料”类具体事物名词搭配,如:
[1]她手里挽个花布包袱,垂头坐着,头发梳理得真光洁。
[2]我总是很远就看到了他抱在怀里的油布雨伞,和肩上的蓝布包袱。
“包袱”的②义是指抽象的“心理负担”(weight;load),其前面的定语一般是“思想、历史、心理、社会”等表示抽象物的名词,如:
[3]老葛,你的思想包袱不要太沉重。
[4]在21世纪到来之际,将贫困这一沉重的历史包袱留给20世纪。
根据笔者对4319个名词的逐一考察发现,如果搭配对象的语义类不同,该词义本身也一般属于不同的语义类。
比如,“包袱”的两个意义本身也存在着具体物和抽象物的不同。
“现代汉语语义词典(973Sem_Dict)”中提供了丰富的语义类信息,该词典由北大计算语言学研究所与北大中文系合作开发,针对汉英机器翻译系统中语义分析的需要,在词的语法分类基础上,提出了一种与英语Wordnet相互兼容的汉语语义分类体系,着重于解决那些仅靠语法规则难以解决的问题。
目前,该语义词典已完成了5万汉语名词、动词、形容词(以义项为单位)的语义类标注、语义搭配限制以及对应的英语译词描述(参见表2)。
预计在2002年底,词典的规模将扩大到6.8万条。
而且,这些词语全部来自于“现代汉语语法信息词典”。
这意味着,我们可以把这两部词典配套使用,为机器翻译系统提供更全面、完整的语法、语义信息。
词语
词类
词义
义项编码
语义类
配价数
主体
语义类
客体
语义类
与事
语义类
英语译词
想
v
思索
1
心理活动
2
人
意识
think
想
v
怀念
2
心理活动
2
人
人
miss
赠送
v
领属转移
3
人
具体事物
人
present
发芽
v
变化
1
植物
sprout
表2现代汉语语义词典动词库样例
5.2语义类相同,但每个语法位置上的词汇搭配不同
汉语中还有一些多义词,其内部各个意义的词类、子类均相同,语义类也基本相同,词义差别主要体现在各个语法位置上的词汇搭配限制不同。
如:
【菜】①能作副食品的植物;蔬菜:
种~|野~。
②经过烹调供下饭下酒的蔬菜、蛋品、鱼、肉等:
荤~|川~|四~一汤。
“菜”的这两个意义都是个体名词,同属于“食物”类。
但是,二者的词义特征却很不同,对应的英语译词也不一样:
①义指未经烹调过的“可以做菜用的草本植物”,可以译为“vegetable”或“greens”;②义则是“经过烹调”的副食,不仅有蔬菜,还可能包括“肉、蛋、鱼”等成分,因此通常译为“dish”或“course”。
这种词义差别可以通过二者在语句中的搭配词语显示出来。
比如,在宾语位置上,①义的前面一般是“种、摘、拣、洗、切”等动词;而②义的前面则是“煮、炒、烧、烩”等表示烹调的动词。
“现代汉语语义词典(973Sem_Dict)”中提供了大量的这类搭配信息。
如果一个汉语词语在对应两个或两个以上的英语译文,词典中就把该词语分作相应的词条,一个词条对应一个英语译词,并且详细标记出搭配条件或具体的搭配词语。
如:
词语
词类
义项
编码
语义类
配价数
主体
语义类
客体
语义类
英语译词
大
a
1
大小
1
具体物
big
大
a
2
程度
1
“雨”|“雪”
heavy
看
v
1
自为
2
人
“电影”
see
看
v
2
自为
2
人
“电视|*比赛”
watch
看
v
3
自为
2
人
“书刊|报纸”
read
表3现代汉语语义词典部分样例
6利用自由义和非自由义进行词义消歧
在语法、语义信息描述的基础上,词义消歧知识库中如果加入词义的组合自由度信息,将会更加提高消歧系统的效率。
现代汉语名词在句法分布中并不是完全自由的,而是或多或少地要受到一些限制。
如果按照词义进入组合的自由程度来给词语分类,我们就会发现自由程度有级别之分。
有些词可以充当多种句法成分,有些则只能出现在其中的一两个位置上。
我们对《现代汉语语法信息词典详解》中3500个名词(4319个义项)的语法功能进行了统计,结果表明:
句法功能
数目
所占比例
单作主语
3926
94.8%
单作宾语
4011
97.5%
作谓语
3
0.1%
作补语
0
0
作状语
直接修饰动词
3
0.05%
作定语
直接修饰名词
3210
74.7%
做中心语
受数量词修饰
3745
86.8%
受名词直接修饰
3299
76.7%
受动词直接修饰
964
22.5%
受人称代词直接修饰
351
5.8%
受数词直接修饰
138
2.2%
表4现代汉语名词的句法功能
由表中可以清楚地看到,没有一项语法功能,是全体名词都具有的。
名词作宾语、主语的能力最强,作中心语(受数量词、名词直接修饰)次之,作定语(直接修饰名词)也在70%以上;而能作谓语、状语、或受动词、人称代词、数词直接修饰的都只有极少数名词。
因此,我们可以把前5项分布看作是现代汉语名词的优势分布,具有全部这5项优势分布的名词义则称为名词的“自由义”,如:
【楼】①楼房:
一座~|大~|教室~|高~大厦。
作主语:
楼倒坍了,压死许多伤病员。
作宾语:
那时候也不兴盖楼,所以也没现成的楼让她搬进去住。
作定语:
楼门口停着一辆汽车。
受名词直接修饰:
第二天,厂长楼那套最好的单元房让给了五户无房的夫妇。
受数量词直接修饰:
门前院子的草坪上盖起了一座楼,把朝街的家门挡得严严实实。
相反,对于那些不能直接充当上述5种语法成分,或者必须连带其他成分后才具有这些功能的名词义,我们则称为“非自由义”。
如:
【楼】②楼房的一层:
一~(平地的一层)|一口气爬上十~。
“楼”的②义分布范围比①义狭窄得多,只能受基数词、量词“层”修饰,或者作动词“上、下”的宾语。
如:
[1]报馆在三层楼,电梯外面挂的牌子写明到四楼才停。
[2]洋老鼠在里面踩车、推磨、上楼、下楼,整天不闲着,——无事忙。
一般来说,多义名词只有一个自由义,其余都是非自由义。
由于自由义的分布范围和出现频率都要远远高于非自由义,因此,计算机可以把多义词中的自由义作为默认值。
比如,1998年1月份的《人民日报》语料中,“楼”这个词共出现67次,词义消歧系统首先都假定它是①义,译为“building”:
[1]他/r决定/v带/v五/m套/q班子/n的/u领导/n到/v这/r座/q楼/n看看/v。
[2]楼/n高/a了/y,老百姓/n的/u生活/v环境/n改善/v了/y。
[3]他/r走进/v楼/n内/f,楼道/n十分/m昏暗/a。
[4]楼/n前后/f的/u路面/n全部/m用/p花砖/n铺/v地/n。
只有上下文中出现了“楼”②义的典型搭配特征时,如下面例5中“楼”前面有动词“下”,例6中“楼”前面有动词“上”,例7中的“楼”前有数词“11”和“8”,例8中的“楼”前有量词“层”,计算机借助于这些特征词才将系统的默认值取消,正确地判断出这几个“楼”都是