生成词库理论进展.docx
《生成词库理论进展.docx》由会员分享,可在线阅读,更多相关《生成词库理论进展.docx(26页珍藏版)》请在冰点文库上搜索。
生成词库理论进展
生成词库理论的最新发展
提要本文主要介绍并评述生成词库理论的最新发展。
其最新发展一方面体现在基于物性结构信息把名词分为自然类、人造类和合成类,并把这种分类扩展到了动词和形容词,构建了其语义类体系。
另一方面,改进了语义生成机制,提岀了纯粹类型选择、类型调节和类型强迫三种基于论元选择的生成机制。
生成词库理论已经被一些语言学理论吸收,并在许多语言的研究中得到广泛应用,本文旨在推进此理论在汉语研究中的应用。
关键词生成词库理论物性结构人造类语义生成机制类型强迫
生成词库理论(GenerativeLexiconTheory,GLT)是美国布兰代斯大学(BrandeisUniversity)教授Pustejovesky于1991年提出的,1995年出版了专著TheGenerativeLexicon,其理论框架已经基本成形①。
生成词库理论首次把广义的生成方法引入到词义和其它领域的研究中,解决了词汇语义研究中的一些难题。
历经二十多年的发展和改进,生成词库理论已
经逐渐发展成熟,广泛应用于各种语言的研究,越来越有影响力。
近十几年来,生成词库理
论的基本思想虽然没有变,但整个理论构建发生了一些根本性的变化:
基于对物性结构的分
析,提出了名词的三大语义类型自然类(naturaltypes)、人造类(artifactualtypes)和
合成类(complextypes),并把这种分类扩展到了动词和形容词,构建了其语义分类体系,在此基础上,提出了更系统的基于论元选择的语义生成机制。
本文旨在介绍并评述这些最新
发展,推进这一理论在汉语研究中的应用。
文章共分五小节,前四小节分别介绍生成词库理论的基本主张、词项的词汇语义表达、
语义类型体系和语义生成机制,最后一小节是结语部分,简述这一理论的影响、存在的问题
及其在各语言研究中的应用。
1.生成词库理论的基本主张
生成词库理论是在研究了词的创造性用法的基础上建立的词义表示方法,是基于计算和
认知的自然语言意义模型,关注词义的形式化和计算,试图解释词的不同用法以及在上下文
中的创新性用法。
生成词库理论持强组合性(strongcompositionality)的观点,认为语言的
意义是组合性的(compositional),是动态的、生成的。
传统的静态词义描写是列举法、分义项,其缺点是不仅阻止了词义的渗透性,而且也不能说明词语在上下文中的创新性用法,不能限制词义在上下文的变化。
生成词库理论的核心思想是,一个词项的意义是相对稳定的,到了句子层面,在上下文中,通过一些生成机制可以获得延伸意义。
其主要目标是研究各语
言中的多义、意义模糊和意义变化等现象。
生成词库主要包括两大部分,一是词项的词汇语
义表达,二是句法层面的语义生成机制。
词汇语义表达中最有特色的就是引入了物性结构,尤其是功用角色(telicrole)的引入,直接影响了整个语义类型体系的构建。
生成词库理论尽量保持了词项语义的单一性,把意义的延伸放到句子层面去解决,并提出了相应的语义生
成规则,不仅避免了不合理的多义处理,而且把词义与句子的意义联系在一起。
2.词项的词汇语义表达
一个词项的词汇语义表达包括四个层面:
论元结构、事件结构、物性结构和词汇类型结
构。
1)论元结构(ARGUMENTSTRUCTURE):
包括论元的具体数目、类型以及如何实现到句法层面。
2)事件结构(EVENTSTRUCTURE):
事件类型包括状态(state)、过程(process)和转变(transition),like、run和build分别属于这三种事件类型;事件可能有子事件
(subevent);说明哪个事件是核心事件(coreevent);说明事件的组合规则,比如事件发生的先后顺序。
3)物性结构(QUALIASTRUCTRE):
描写词项所指对象(object)由什么构成、指向什么、怎样产生的以及有什么用途或功能。
包括构成特征(constitutivequale)、形式特征
(formalquale)、功用特征(telicquale)和施成特征(agentivequale)。
这四个特征通常被称为构成角色(constitutiverole)、形式角色(formalrole)、功用角色(telicrole)和施成角色
(agentiverole)。
物性结构最早源于亚里士多德的"四因说”(Aristotel'fourcauses):
质料因、形式因、目的因和动力因。
A.构成角色:
描写对象与其组成部分之间的关系。
包括材料(material)、重量(weight)、
部分和组成成分。
B.形式角色:
描写对象在更大的认知域内区别于其它对象的属性。
包括方位(orientation)、大小(magnitude)、形状(shape)和维度(dimensionality)等。
C.功用角色:
描写对象的用途(purpose)和功能(function)。
D•施成角色:
描写对象怎样形成或产生的,如创造、因果关系。
功用角色有两种,一种是直接功用角色(directtelic),人可以与某物发生直接联系,如beer
的功用角色是drink;另一种是间接功用角色(purposetelic),指某个事物可以用来协助完成某个活动,如knife的功用角色是cut。
(1)a.drink-beer
b.cutwithaknife
以“小说”为例,它的构成角色是“故事”等,形式角色是“书”,功用角色是“读”,施成角色是“写”。
不是每个词都具有所有的角色。
物性结构实际上是说明与一个词项相关的事物、事件和关系,表达的是一个词项中典型的谓词和关系,是范畴交叉的表征工具,物性
结构为词提供功能标签,把词与概念网络联系起来,是概念逻辑的组织原则。
一个词项a的词汇语义表达式通常如
(2)所示(Pustejovsky2005):
a
ARGST
EVENT
QULIA
(2)
CONST=whatxismadeof
_FORMAL=whatxis
TELIC=functionofx
AGENTIVE=howxcameintobeing
(3)是book(书)的词汇语义表达式:
book是二者合并的一个词汇概念范式(
book有两个论元,一个指物质实体,一个指信息,lexicalconceptualparadigm,lcp,见第3节),它的形
式角色是hold,表达的是物质实体里装载着信息,功用角色是read,施成角色是write
116)。
(Pustejovsky1995:
(3)
book
ARGST
"ARG1=x:
infoR二
|(ARG2二y:
physobj
nfo•physobj」cp
QULIA
FORMAL=hold(y,x)
TELIC=read(e,w,x.y)AGENTIVE=write(e',v,x.y)
J
(4)是kill(杀死)的词汇语义表达式:
kill有两个论元,一个指个体的物质实体,一个指
有生命的物质实体;kill包括两个子事件,一个表过程KILL(杀),一个表状态DEAD(死),第一个事件是整个事件的核心。
kill是个表致使的词汇概念范式,其施成角色是KILL这个动
作,其形式角色是DEAD这个状态(Pustejovsky1995:
101)。
这部分的分析与词义分解沿袭自生成语义学(Generativesemantics)的分析。
(4)
EVENT
STR二
ARGST
Et=&:
process
E2=耳:
state
RESTR=“HEAD=e!
ARG1=也*ormal=physobj_
i——|_animateind
ARG2=內-
1—'FORMAL=physobj
QULIA
Cause-Icp
FORMAL=dead(e2,|V|)AGENT=kill_act(e1□,迢)
图1:
词汇类型结构中的继承关系
4)词汇类型结构(LEXICALTYPINGSTRUCTURE):
说明一个词项在一个类型系统中的位置,即一个词项的类。
这决定了此词项与其他词项的关联方式,也就是继承关系。
这个层面的词义与常识直接相关。
这一层面在早期的理论框架中(Pustejovsky1995)叫词汇继承结构(lexicalinheritaneestructure)。
如图1所示(Pustejovsky1995:
145),—个词可以从多个上层继承特征,dictionary(词典)从referenee(参考书)继承功用角色consult(参
考),从compiled_matter(编纂物)继承施成角色compile(编纂),从book继承形式角色hold
(容纳);play从book继承形式(F)、功能(T)和施成角色(A),book从information继承功能和施成角色,从Phys_obj(物质实体)继承形式角色。
但近十几年来,Pustejovsky等学者
对这一部分做了很大改动,主要基于物性结构中的功用角色,把词汇的类型分为自然类、人造类和合成类,并据此建构了其整个语义类型体系。
下文将单列一节来重点介绍和评述这一体系。
3.语义类型体系
生成词库理论假设人类的认知能力反映在语言中,尤其反映在心理词典(mentallexicon)中,这个词典是复杂、动态(dynamic)而又连贯的知识系统,是结构化的语言学操作(structurallinguisticoperations)和生成意义的组合规则之间的接口(interface)。
词汇按其所代表的意义内容分为自然类、人造类和合成类(Pustejovsky2001,2006)。
1)自然类(naturaltypes):
与物性结构中的形式角色和/或构成角色相关的原子概念,
从上位类继承形式角色,是其他类的基础,谓词来自于物质域。
例(5)中的rabbit就是自
然类名词:
(5)Therabbitdied.
2)人造类(artifactualtypes):
增加了功能概念,从上位类继承功用角色,是结合了物性结构中施成角色和功用角色信息的基础类型,谓词也与这两个角色相联系。
自然类和人造类之间最大的区别是后者有“意图”(intentionality)。
good是评价性的,与“意图”相关,(6a)可以说而(6b)不可以说就是因为chair是人造类而rock是自然类。
(6)a.Thisisagoodchair.
③
b.*Thisisagoodrock.
具体到一个特定的名词,都会跟自然类和人造类发生联系,人造类也需要物质继承,必然与自然类相联系。
如beer是自然类liquid结合了施成角色brew、功用角色drink;knife是自然类phys结合了施成角色make、功用角色cut。
(7)a.beer:
(liquid?
Abrew)?
Tdrink
b.knife:
(phys?
Amake)?
Tcut
另如beverage(饮料),它的基础类(groundtype),也就是它的自然基础是liquid(液体),
它本身是人造类,与功用角色drink相联系。
这个类型可以记作liquid?
drink,是张量类型
(tensortype),?
是张量类型构造器(thetensortypeconstructor),?
把一种物性关系引入到一个类型,使之成为这个类型的一部分。
根据不同的具体功能,beverage又可以细分为下面
的小类(Pustejovsky2001):
beverage
liquid®drinkT
&怎壬b'述fy'b丘壬
图2:
beverage的下位类
这样,通过继承,人造类就有多个功用角色,有的离得近,有的离得远。
如coffee(咖啡)
就有两个功用角色,一个是继承来的drink(喝),一个是自身的wake-up(提神),咖啡
要喝了才能提神,继承的功用角色可以看成是根植在物性结构功用角色中的施成角色④,如
(8)所示(Pustejovsky2001):
(8)coffee:
liquid?
tdrink?
twake-up
coffee
ARGSTR:
ARG1:
x:
liquid]
'FORMAL:
x1
QULIA:
Lelic:
~TELIC:
wake_up(eT,y)1
'I:
AGENTIVE:
drink(eP,y,x)
I:
指人的名词也有自然类和人造类之分,如图3⑤所示,doctor、surgeon都是人造类名词:
Naturallypc
Surgeon
图3:
自然类与人造类的类型继承
3)合成类(complextypes):
在GLT中又常被称为"点对象”(dotobject),因为其类型构造以一圆点为代表,由自然类和人造类组成,从两三个自然类和/或人造类继承角色。
合成类在描写中以lcp标记:
把一个词的不同词义合并到一个元词项(meta-entry)中,这
个元词项叫词汇概念范例(lexicalconceptualparadigms,lcp),这样可以大大缩小词库的规模。
如上文中例(3)所示,book就是一个合成类phys•info,是phys_obj(物质实体)与information(信息)合成的,它的形式角色(formal)反映了二者之间的关系是hold。
另如:
EVENT•INFO:
lecture,play,seminar,exam,quiz,test
EVENT•PHYSOBJ:
lunch,breakfast,dinner,tea
EVENT•(INFO•SOUND):
concert,sonata,symphony,song
lecture是事件和信息合成类,既指一个事件,同时带有信息内容;lunch是事件和物质实体的
合成类,既指一个有时间过程的事件,也指具体的食物。
依此类推。
三大语义类的区分是以名词为出发点的,动词、形容词根据其与名词语义类的对应关系
也相应地分为三大类,如上文例(5)中的rabbit是自然类,die就是自然类。
图4是三大范畴
的上层分类,最上层概念被结构化成实体、性质和事件三个域,每一个域又被结构化成自然
类、人造类和合成类,由简单到复杂(Pustejovsky2001)⑥。
EntityEvent
Quality
NaturalArtifactualComplexNatural
IArtifactual
Complex
NaturalArtifactualComplex
PhysicalAbstractDirectPurposebook
die
A
CountMassInfocoffeeknife
图4:
三分的概念网格(TripartiteConceptLattice
下面是三大主要范畴的分类举例:
eatreadredheavygoodrising
dangerousfrightened
)
1)名词自然类N:
rock,water,woman,tiger,tree
人造类A:
knife,beer,husband,dancer
合成类C:
book,lunch,university,temperature
2)动词自然类N:
fall,walk,rain,put,have
人造类A:
donate,spoil,quench
合成类C:
read,perform
3)形容词自然类N:
red,large,flat
人造类A:
useful,good,effective
合成类C:
rising,frightened
生成词库关于词项的语义描述,最大的特色在于增加了物性结构,把名词词义与经验知
识相结合,把名词与动词相联系,尤其是功用角色的引入,直接影响了其语义类型体系。
其具体特点和贡献在于:
1)通过物性结构,把日常经验知识与词汇语义连接在一起。
关于语言知识与非语言知
识的问题一直是语义研究中的一个难题,传统的语义学认为语言知识与非语言知识有明显的
界限,必须加以区分,后者不是语言研究的对象(利奇1974);认知语言学(Langacker1987;
Lakoff1987;Taylor1989)则认为语言知识和非语言知识没有明显的界限;框架语义学
(Fillmore1982)也认为语言的理解要引入非语言知识的背景。
不是所有的日常经验知识都有其语言学价值,生成词库理论通过物性结构中的构成角色、形式角色、功用角色和施成角
色把与词汇语义相关的经验知识引入了词义的描写中,为经验知识与语言知识提供了接口。
研究表明,这些物性角色能解释很多语言现象,具有较高的语言学系统价值。
2)区分了自然类与人造类。
在与名词相关的动词中,生成词库理论更强调表功用角色
的动词,并以此为依据把名词分为自然类与人造类,这种区分是根本性的,会造成语言表达
层面的差异⑦,例如:
A.自然类不能做联合谓语(co-predication),人造类可以。
(9)*Thatisadogandacat.
(10)a.Thatisapenandaknife.
b.Sheisateacherandamother.
B.被形容词修饰时,自然类只允许一种解释,人造类则可以有另外的解释。
(11)beautifulflower
(12)longrecord/disk.(东西长或者播放时间长)
C.自然类从上下文获得强迫语义(coercedmeaning),人造类为上下文提供强迫语义。
(13a)没有默认的上下文,需要从上下文获得解释,而(13b)默认的解释是write或者read。
(13)a.Ibeganthetree.
b.Ibeganthebook.
区分自然类的都是一些对立结构(oppositionstructure)女口male/femal、alive/dead,谓词是自
然类谓词,如swimming、flying、walking等;区分人造类的则是功能行为(functionalbehavior),因此具有一定的任意性,不同的语言可能有差异。
自然类与人造类的区分并不是Pustejvosky最早提出的,很多学者早已经注意到这一点:
Labov(1973)的用品辨认实验表明,功能/用途会决定识别结果;Pulman(1983)讨论了自然类范畴(naturalkindcategories)和名义
上的类范畴(nominalkindcategories),与自然类/人造类的区分相当;Wierzbicka(1985)指出,属性不是与物体本身有关,而是与物体在特定文化中的作用有关;Taylor(1989)指
出事物的属性有时是功能的,决定物体的用途,有时是人与物之间的相互作用(interactional),反映人们怎样运用某物;平克(1995)也认为,自然类与人造类是很重要的区分。
在Wordnet、
HowNet的语义分类中也有自然物与人工物的区分。
生成词库理论的贡献在于把自然类和人造类的区分与动词联系起来,并加以形式化,把动词纳入到名词语义的表达式,进而把这种
视角扩展到了指人的名词,甚至形容词和动词,从而重建了整个语义类型架构,并把这种区
分渗入到了语言的各个层面。
3.引入多重继承(multipliedinheritance)。
对于一个词,不是简单在结构树中放置,而是由下往上从不同的树枝继承不同的物性角色,避免了重复放置的问题。
4.语义生成机制
生成词库理论认为,词汇的意义是相对稳定的,只是在组合中发生变化,这种变化是由语义生成机制(GenerativeMechanismsinSemantics)来实现的。
Pustejovsky(1995)把这一机制分成了三类:
类型强制(typecoercion),选择约束(selectivebinding)和共同组合
(co-composition)。
近年来,这一机制有了很大改变,主要是把类型强迫纳入了语法上的论元选择机制,这样,根据论元选择的具体情况,就有三种论元选择生成机制(Generative
MechanismsofArgumentSelection)可以解释词项在组合中的句法和语用表现(Pustejovsky
2005,2006;AsherandPustejovsky2005,2006):
1)纯粹类型选择(pureselection):
函项(function)要求的类型能被论元直接满足。
2)类型调节(typeaccommodation):
函项要求的类型能从论元继承。
3)类型强迫(typecoercion):
函项要求的类型被强加到论元上,通过两种方式来实现:
(i)利用(exploitation):
选择论元类型结构的一部分来满足函项的要求。
(ii)引入(introduction):
用函项要求的类型来包装论元。
表1是各种机制出现的环境:
只有当论元类型(argumenttype)与要求的类型(typeselected)
匹配时,才可能是纯粹类型选择;同样的,类型调节也只用于相同的类型域(typedomain);如果类型域不一样,类型强迫就会起作用;当论元类型比要求的类型复杂时,是类型利用,反之,则是类型引入(Pustejovsky2006)。
TypeSelected
ArgumentType
Natural
artifactual
Complex
Natural
Sel/Acc
Intro
Intro
artifactual
Exploit
Sel/Acc
Intro
Complex
Exploit
Exploit
Sel/Acc
表1三种论元选择生成机制的出现环境接下来略举数例⑧来说明上述机制。
1)纯粹类型选择。
fall需要一个指物质实体的类型phys,rock能直接满足这个要求,(14)是一个纯粹类型选择的例子。
(14)Therockfell.(纯粹类型选择)
read要求与之组合的名词是合成类Phys?
Info(物质实体?
信息),book可以直接满足这个要
求,(15)也是纯粹的类型选择:
(15)Johnreadthebook.(纯粹类型选择)
thebook
wip