现代汉语语义词典规范.docx

上传人:b****4 文档编号:5665397 上传时间:2023-05-08 格式:DOCX 页数:19 大小:64.50KB
下载 相关 举报
现代汉语语义词典规范.docx_第1页
第1页 / 共19页
现代汉语语义词典规范.docx_第2页
第2页 / 共19页
现代汉语语义词典规范.docx_第3页
第3页 / 共19页
现代汉语语义词典规范.docx_第4页
第4页 / 共19页
现代汉语语义词典规范.docx_第5页
第5页 / 共19页
现代汉语语义词典规范.docx_第6页
第6页 / 共19页
现代汉语语义词典规范.docx_第7页
第7页 / 共19页
现代汉语语义词典规范.docx_第8页
第8页 / 共19页
现代汉语语义词典规范.docx_第9页
第9页 / 共19页
现代汉语语义词典规范.docx_第10页
第10页 / 共19页
现代汉语语义词典规范.docx_第11页
第11页 / 共19页
现代汉语语义词典规范.docx_第12页
第12页 / 共19页
现代汉语语义词典规范.docx_第13页
第13页 / 共19页
现代汉语语义词典规范.docx_第14页
第14页 / 共19页
现代汉语语义词典规范.docx_第15页
第15页 / 共19页
现代汉语语义词典规范.docx_第16页
第16页 / 共19页
现代汉语语义词典规范.docx_第17页
第17页 / 共19页
现代汉语语义词典规范.docx_第18页
第18页 / 共19页
现代汉语语义词典规范.docx_第19页
第19页 / 共19页
亲,该文档总共19页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

现代汉语语义词典规范.docx

《现代汉语语义词典规范.docx》由会员分享,可在线阅读,更多相关《现代汉语语义词典规范.docx(19页珍藏版)》请在冰点文库上搜索。

现代汉语语义词典规范.docx

现代汉语语义词典规范

现代汉语语义词典规范

王惠

Email:

whui@

摘要:

“现代汉语语义词典”(SKCC)是一部面向自然语言信息处理的语义知识库,它以数据库文件形式收录了6.6万余条汉语实词,不仅给出了每个词语所属的词类、语义类,而且以义项为单位详细描述了它们的配价信息和多种语义组合限制,可以为包括机器翻译在内的多种中文信息处理系统中的语义自动分析提供强有力的支持,同时,对于汉语词汇语义学和计算词典学研究也具有重要的意义。

本文概要介绍这部语义词典的结构、内容,以及语义属性项目的填写规范。

关键词:

语义知识库语义类配价信息计算词典学中文信息处理

TheSpecificationof

TheSemanticKnowledge-baseofContemporaryChinese

WangHui1,YuShiwen1,ZhanWeidong2

1(InstituteofComputationalLinguistics,PekingUniversity,Beijing100871,China)

2(Dept.ofChineseLanguage&Literature,PekingUniversity,Beijing100871,China)

whui@;yusw@;zwd@

Abstract:

TheSemanticKnowledge-baseofContemporaryChinese(SKCC)isalargemachine-readabledictionarydevelopedbytheInstituteofComputationalLinguisticsandChineseDepartmentofPekingUniversity.Itcanprovidealargeamountofsemanticinformationsuchassemantichierarchyandcollocationfeaturesof66,539Chinesewords.ItssemanticclassificationsystemrepresentsthelatestprogressinChineselinguisticsandlanguageengineering.Thedescriptionsofsemanticattributesarefairlythorough,comprehensiveandauthoritative.ThepaperintroducestheoutlineandspecificationofSKCC,andindicatesthat,asalargescalefundamentalsemanticresourceofChinese,SKCCwillnotonlyprovidevaluablesemanticknowledgeforChineselanguageprocessing,butalsoplayanimportantroleinChineselexicalsemanticsandcomputationallexicographyresearch.

 Keywords:

Semanticknowledge-base,lexicalsemantic,computationallexicography,semantichierarchy,valenceinformation,Chineselanguageprocessing

1引言

在自然语言处理中,语义分析占有很重要的位置。

北京大学计算语言学研究所与中科院计算所自1994年联合开发“汉英机器翻译模型系统”开始,就着手研制面向汉英机器翻译的“现代汉语语义词典”(SKCC),目的是在语法分析的基础上,为计算机自动分析汉语句子和生成英语句子提供更深入的语义信息。

1996年至1998年,双方共同承担了国家863高科技项目“通用机器翻译开发平台和汉英机器翻译系统”课题(项目编号:

863-306-03-06-2)。

作为该课题的一个重要组成部分,“现代汉语语义词典”进入到大规模开发阶段,并取得阶段性成果,完成了4.9万汉语常用实词(名词、动词、形容词)及部分成语、习用语的语义分类和搭配信息描述[1]。

IBM、Intel、Fujitsu,Toshiba,NTT,Canon,Sail-labs等20多家公司与大学先后从北大购买了该词典的许可使用权。

4年多来,北京大学计算语言学研究所在积极应用、推广该词典的同时,仍不断地投入力量进行词典本身的发展。

从2001年11月开始,“现代汉语语义词典”的二期开发工作受到了国家973重点基础研究项目“面向新闻领域的汉英机器翻译系统”和“面向中文信息处理的现代汉语动词论旨结构系统和汉语词语语义分类层级系统研究”的支持,由计算语言学研究所和中文系联合承担,对词典规模进行较大幅度的扩充,并对全部词语的语义分类及属性描述进行全面修订。

在双方的积极努力下,项目进展得非常顺利。

目前,词典规模已达到6.6万余词条,同时语义属性描写质量有了显著提高。

在一个汉英机器翻译系统中的实际应用表明,新版本的SKCC可以为句义分析、词汇歧义消解提供更全面的语义知识,有效地提高翻译精度。

2现代汉语语义词典的内容概要

2.1规模与结构

语义词典(SKCC)原有词条48,835个,它们全部来自于北大计算语言学研究所开发的《现代汉语语法信息词典》(5万词版)。

但1999年,后者的规模已由5万词扩充到了7万词[2],此后的继续改进又使得属性信息的质量有了很大提高[2]。

相比之下,语义词典却仍然停留在原来的水平上,无论数量还是质量上,二者都已不太协调,不能满足与语法词典配套使用的实际需要。

SKCC的二期工程及时吸收了语法信息词典的最新成果,对原有的“词语”、“词类”、“同形”、“拼音”、“兼类”、“备注”等字段进行了统一检查、修订,而且增加了14,663个名词、动词、形容词,以及1993个区别词、时间词、处所词、方位词、副词、数词。

现在语义词典SKCC的规模比原来增加了1.8万词语,达到了6.6万余条。

词典采用MicrosoftForxpro中文版6.0数据库实现,其中包含全部词语的总库1个,每类词语(实词)各建一库,计11个。

每个库文件都详细刻画了词语及其语义属性的二维关系。

比如,总库中包括词语、拼音、同形、义项、释义、语义类、词类、子类、兼类等8个属性字段。

名词库设15个属性字段,动词库设16个属性字段,如此等等(见表1)。

 

库名

词条

属性字段

名词

37522

 

15

时间词

567

15

处所词

185

15

方位词

204

15

代词

236

15

动词

21142

16

形容词

3827

15

区别词

753

15

状态词

997

15

副词

997

11

数词

109

11

总库

8

表1语义词典SKCC的规模

所有的库都可以通过“词语、词类、同形、义项”这4个关键字段进行链接。

这样,12个库文件构成有上下位继承关系的“树”,子结点继承父结点的全部信息,如图1。

2.2词语的语义分类

本词典语义分类的一个基本原则是,分类的深度与广度取决于语法分析的需要,应用语义知识应着重于解决那些仅靠语法规则难以解决的问题。

因而语义分类是在词的语法分类基础上进行的,并且只对名词、动词、形容词等实词进行语义分类描述,而那些带有明显标志的、通常用句法形式就可以表示的语义关系,如各类虚词,则不作为语义分类研究的对象。

具体分类如下:

(1)名词分类

1具体事物(entity)

1.1生物(organism)

1.1.1人(person)

1.1.1.1个人(individual)

1.1.1.1.1职业(profession):

教师秘书会计医生

1.1.1.1.2身份(identity):

华侨外行健将模范

1.1.1.1.3关系(relation):

父亲阿姨长辈朋友

1.1.1.2团体(group)

1.1.1.1.1机构(organization):

工厂医院商店剧团

1.1.1.1.2人群(society):

人民委员会少先队团伙

1.1.2动物(animal)

1.1.2.1兽(beast):

狗猪牛羊老虎豹子狐狸

1.1.2.2鸟(bird):

鸡鸭麻雀杜鹃

1.1.2.3鱼(fish):

鲤鱼河豚鲸泥鳅

1.1.2.4昆虫(insect):

蚯蚓知了蟑螂

1.1.2.5爬行动物(reptile):

青蛙乌龟甲鱼蛇

1.1.3植物(plant):

树花草牡丹芍药

1.1.3.1树(tree):

白杨水杉芭蕉

1.1.3.2草(grass):

狗尾巴草含羞草蒲公英

1.1.3.3花(flower):

牡丹芍药杜鹃映山红

1.1.3.4庄稼(crop):

蔬菜小麦高粱棉花

1.1.4微生物(microbe):

细菌病毒霉菌

1.2非生物(object)

1.2.1人工物(artifact)

1.2.1.1建筑物(building):

别墅礼堂会议室水库庙

1.2.1.2衣物(clothes):

服装外套衬衫裙子帽子

1.2.1.3食物(food):

面包牛奶菜米饭饮料

1.2.1.4药物(drug):

药片阿斯匹林酒精镇定剂

1.2.1.5创作物(works):

论文书杂志文章油画电影

1.2.1.6计算机软件(software):

操作系统数据库程序软件

1.2.1.7钱财(asset):

财产钱资金报酬罚款美元利息

1.2.1.9票据(bill):

发票单据汇票支票包裹单

1.2.1.10证书(certificate):

结婚证执照毕业证驾驶证

1.2.1.11符号(symbol):

签名路标箭头句号

1.2.1.12材料(material):

木材钢铁煤炭玻璃水泥

1.2.1.13器具(instrument)

1.2.1.13.1用具(tool):

剪子刀子钉子拖把改锥

1.2.1.13.2交通工具(vehicle):

车船飞机自行车

1.2.1.13.3武器(weapon):

大炮机关枪鱼雷

1.2.1.13.4家具(furniture):

桌子椅子沙发

1.2.1.13.5乐器(musical-instrument):

钢琴吉他鼓

1.2.1.13.6电器(electricity):

电视空调电冰箱

1.2.1.13.7文具(stationery):

钢笔橡皮尺子

1.2.1.13.8运动器械(sports-instrument):

足球单杠

1.2.2自然物(naturalobject)

1.2.2.1天体(celestialbody):

太阳月亮流星星星

1.2.2.2气象(weather):

云彩虹晚霞

1.2.2.3地理(geography)

1.2.2.3.1地表物(land):

原野沙漠山山洞陆地

1.2.2.3.2水域物(water):

江河湖海河流

1.1.2.2.4矿物(mineral):

煤矿原油铁矿

1.1.2.2.5元素(element):

金银铜铁

1.1.2.2.6基本物质(substance):

水土灰

1.2.3排泄物(excrement):

汗尿粪便奶水眼泪

1.2.4外形(shape):

粉末长方形圆窟窿孔洞泡

1.3构件(part)

1.3.1身体构件(body-part):

头脸鼻子嘴耳朵头发血液骨头

1.3.2非生物构件(object-part):

梁屋檐车闸车筐

2抽象事物(abstraction)

2.1属性(attribute)

2.1.1量化属性(measurable):

体积面积重量质量价格

2.1.2模糊属性

2.1.2.1人性(property_of_human):

胆量勇气脾气作风

2.1.2.2事性(description_of_event):

境况形势状态环节

2.1.2.3物性(property_of_object):

性能效用品种式样

2.1.3颜色(color):

黑色白色浅色素色

2.2信息(information):

话言语信件口信密码声明借口

2.3领域(field):

社会经济法律科学艺术

2.4法规(rule):

法律条约协议制度规章合同协议条文

2.5生理(physiological_state):

瘟疫疾病炎症艾滋病

2.5心理特征(psycholfeature)

2.5.1情感(feelings):

态度感情爱情

2.5.2意识(cognition):

意图幻想兴趣主意见解

2.6动机(motivation):

目的原因理由

3过程(process)

3.1事件(event):

学潮球赛晚会课早餐战争火灾

3.2自然现象(naturalphenomenon)

3.2.1可视现象(visiblephenomenon):

火电光风雨

3.2.2可听现象(audiblephenomenon):

声音雷鸣风暴

4时间(time)

4.1绝对时间(specifictime):

宋朝三国清代

4.2相对时间(relativetime):

昨天当代古代今天

5空间(space)

5.1处所(location):

浙江西湖黄山中国亚洲

5.2方位(direction):

东南前面之间途中高空

(2)形容词分类

1事性值:

紧急突然困难容易错误费时

2物性值

2.1量化属性值(measurablevalue):

2.1.1浓度(concentration):

浓稀薄

2.1.2温度(temperature):

热冷凉爽

2.1.3速度(speed):

快慢

2.1.4长度(length):

长短

2.1.5高度(height):

高矮低

2.1.6宽度(width):

宽窄

2.1.7深度(depth):

深浅

2.1.8厚度(thickness):

厚薄

2.1.9硬度(rigidity):

硬软

2.1.10湿度(humidity):

潮湿湿润干燥

2.1.11粗细(degreeoffinish):

粗细

2.1.12松紧(degreeoftightness):

松紧

2.1.13大小(size):

大中小

2.1.14价值(value):

贵便宜

2.2模糊属性值(unmeasurablevalue)

2.2.1视感(vision):

亮醒目清晰混浊

2.2.2触感(tactility):

紧松粗糙滑柔

2.2.3音质(tone):

响亮低沉刺耳

2.2.4味道(taste):

酸甜苦辣可口

2.2.5性质(quality):

新旧真假好坏强弱

2.2.6内容(content):

空洞晦涩清楚浅显

2.2.7外形(shape):

方圆尖

2.3颜色(color):

红黄蓝绿鲜艳

3人性值

3.1年龄(age):

年轻幼小老

3.2品格(character):

善良博学幼稚优雅

3.3关系(relation):

亲密疏远热情冷淡

3.4境况(condition):

繁忙贫穷危险疲劳

4空间值

4.1一维值:

远近

4.2二维值:

平斜弯

4.2三维值:

拥挤杂乱整齐满壮阔

5时间值:

古老久远短暂早晚

(3)动词分类

1静态关系(state):

是有等于包括

2心理活动(emotion/cognition):

喜欢尊敬反对同意怀疑思考判断

3动态行为(event)

3.1变化(change):

死病下降长高缩小变暗

3.2气象(weather):

下雨刮风打雷起雾

3.3身体活动(bodilycareandfunctions):

蹬跳推笑咳嗽游泳

3.4五官感觉(perception):

看见听到闻着品尝

3.5消耗(consumption):

吃喝饮

3.6位移(motion):

跑走散步飞过来回去拉来

3.7创造(creation):

制作画炒写创建修筑

3.8接触(contact):

触摸撞击打中系挖掘

3.9领属转移(possession):

买卖赠送给转让借

3.10信息交流(communication):

告诉询问请求转达叮嘱说

3.11比赛(competition):

竞赛赛跑打仗摔跤辩论

3.12社会活动(socialbehavior):

改革调价开会联欢

3.13其他行为(otherevent)

(4)副词分类

1程度(degree):

很挺太顶更最极十分非常稍稍微略微

2范围(range):

都也总共一共总共统统只就光仅仅仅

3时间(time):

正刚刚就先曾经已经终于立刻马上永远

4处所(location):

到处处处暗中当场当面

5频度(frequency):

常常常时常又再还重新重

6方式(manner):

渐渐逐渐挨次挨个逆时针慢慢

7否定(negation):

不没有没未莫休勿别

8语气(modality):

却可倒竟也就偏偏偏都简直索性幸亏难道到底究竟也许或许大约大概

(5)数词分类

1基数(cardinalnumber)

1.1系数:

一二两三五六七八九几

1.2位数:

十、百、千、万、亿、万万

1.3概数:

多半多少若干很多许多好多好几好些无数

2序数(ordinalnumber):

第一第二第十

3数量(amount):

一切许多很多不少大量部分全部所有俩

2.3词语的语义属性描写

分类法刻画事物固然简洁、清晰、反映了词语最基本的语义信息,但信息颗粒度较大,属于同一语义类的词语仍可能各具特点。

如:

表示“动态事件”的动词,其动作的发出者(主体)则可能完全不同,“唱戏”的主体是“人”,“产卵”的主体是“动物”,“抽穗”的主体是“植物”,“涨潮”的主体是“自然物”。

又如“害羞、繁茂、肥沃、甘甜”虽然都是“性质”类形容词,但其所能修饰的名词性成分也是不同的:

“害羞”用于指“人”,“繁茂”指“植物”,“肥沃”指“自然物”,“甘甜”指“可食物”。

因此,为了进一步提高机器翻译系统或其他自然语言处理系统的性能,语义词典还要在分类的基础上,依靠属性描述来刻画每一个词语与周围名词性成分所发生的语义组合关系。

3各类词库的共同字段

以下说明中,左边的一列楷体汉字代表字段名,中间的一列数字表示各个字段所占的字节数。

右边的词语则是对字段值的说明。

词语8暂收1-4个字的词语

同形2词典中同形词(即汉字相同的词)的情况是很复杂:

不同词条:

抄写的“抄”,抄近道的“抄”。

同类

同一词条的不同义项:

“去北京”的“去”,“去果皮”的“去”。

同音

不同类:

属连词的“和”与属介词的“和”是不同的词,动词的“锁”与名词的“锁”也是两个意义有联系的不同的词;属广义兼类现象。

“同等”兼属区别词与副词,仅因同字为语法功能不同,两者的意义并无区别,这是狭义兼类现象。

同类:

和稀泥的“和”(huo4),和一盘棋的“和”(he2)。

表示加在一起的“合计”(he2ji4),有磋商、盘算意思的“合计”(he2ji5)。

不同音

不同类:

属连词的“和”(he2),与属动词的和稀泥的“和”(huo4)。

在词典中,除了“同字同音同类”的情况外,上图中同形词的其他情况均作为不同记录收入词典。

为了进一步区分同字同音同类的情况,专设了一个“同形”字段。

对于同字、同音、同类但是应算不同词项的情况,在“同形”字段中填上字母A,B,C等。

对于同字、同音、同类、同一个词的不同义项的情况,在“同形”字段中填上数字1,2,3等。

为了提高同形词的处理效率,在“同形”字段中也用A,B,C等标识同字同类不同音的情况。

总之,“同形”中的A,B,C等表示不同的词,数字1,2,3等表示同一个词的不同义项。

当需要字母与数字并存时,则将字母置于数字之前,如A1,A2,B1,B2等。

拼音24填每个词语的汉语拼音,声调用“1,2,3,4,5”表示,其中“5”表示轻声。

如:

“常识”的全拼音是“chang2shi2”,“尺子”的全拼音是“chi3zi5”。

词类2填词语所属词类的代码。

如:

名词填“n”,动词填“v”,形容词填“a”。

子类2填词语所属词类的子类代码。

如:

名词性成语填“IN”,动词性习用语填“LV”。

兼类4填该词语兼属的词类代码,如:

名词“锁”的兼类填“v”,动词“锁”的兼类填“n”。

义项编码 2 对“同形”字段相同的词条进一步加以区分,填上不同的义项编码,如“菜做得很清淡”中的“清淡”在本字段填“1”,“生意清淡”中的“清淡”则填“2”。

义项10填写该词语的简明释义,如:

词典中收录了两个“天才”,为了让人更为方便地将其区分开,就分别在本字段填上“人”和“智慧”。

即前一个“天才”指人,比如可以说“他是一位数学天才”,后一个“天才”指“智慧”,可以说“他在数学方面很有天才”。

语义类20填写该词语的语义类别名称。

意义明确的尽量填低层的小类;意义难以把握的可酌情填上层语义类。

可以不止填一个类别名称,不同的名称之间用“/”隔开。

如“校长”填“身份”,“刀”填“用具”,“青菜”填“植物/食物”;“是”填“静态关系”,“喜欢”填“心理活动”,“打雷”填“气象”。

WORD40填该词语对应的英语译词或短语,如:

“安静”在本字段填“quiet”,“脏乱”填“dirtyandmessy”。

Ecat40填该词语的英语译词的词性代码,或短语组成结构,如:

“安静”在本字段填“A”,“脏乱”则填“!

A+C+!

A”(!

表示中心词)。

备注20填写词语某些用法的简明示例或说明,用“~”代替该词,各示例之间用斜道“/”隔开。

注:

除了“语义类、义项编码、WORD、Ecat”4个字段外,上述其他字段均直接从北京大学计算语言学研究所的《现代汉语语法信息词典》中直接继承而来。

4名词库字段

(时间词、处所词,以及名词性的成语、习用语、简称略语等库

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > PPT模板 > 卡通动漫

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2