面向中文的事件抽取的研究实现.docx-资源下载

面向中文的事件抽取的研究实现.docx

1、面向中文的事件抽取的研究实现摘要事件抽取是信息抽取领域的一个重要研究方向。事件抽取主要把人们用自然语言表达的事件，以结构化的形式表现出来。事件抽取作为信息处理领域的关键技术，在信息检索、自动问答、自动摘要、数据挖掘、文本挖掘等领域有着广泛的应用。本文主要针对中文事件抽取的两大主要任务：事件类别的识别和事件元素的识别进行了学习与探索，并实现了一个简易的中文事件抽取程序。在事件类别识别中，本文采用基于触发词来识别事件类别的方法。首先根据训练语料获取触发词和其对应的候选类别建立字典。然后根据字典和训练语料识别出文档中的触发词和其对应的候选事件类别，以此确定候选事件。再通过使用词法，上下文信息和事件模

2、板等特征，利用分类器对候选事件进行二元分类，从候选事件中提取出真正的事件。在事件元素识别中，本文采用基于事件模板，通过特征提取进行多元分类的方法来识别事件元素。首先通过事件类别可以获得事件模板，事件模板是由事件角色组成的。将事件元素识别看成分类问题，再通过词法，上下文信息和类别信息等特征描述候选元素，针对每一类事件构建分类器进行多元分类，提取出符合要求的事件元素。本文设计并实现了一个简单的中文事件抽取系统，经测试最终结果为18.73%。关键词：事件抽取；事件类别识别；事件元素识别本文转载：脚印论文网AbstractEvent extraction is an important area o

3、f information extraction research. Event extraction explains the events which people use natural language to express with a structured form. Event extraction as the key technology of information processing, has been widely used in information retrieval, question answering, automatic summarization, d

4、ata mining, text mining and other fields. In this paper, we pay attention to two main tasks: Event types recognition and event element recognition. According to this, we go to learn and exploration, and come true a simple extraction procedure of Chinese events. Recognition of the event types, we use

5、 the trigger-word-based approach to recognition event type. First of all, according to training data we can get trigger words and their candidate type, building a dictionary. Secondly,according to the dictionary and training data we can recognition the trigger words and the event type of a document.

6、 We use this to confirm the candidate events. Thirdly, we use classification of binary to classify the candidate events, by lexical, context information and event templates and other features. Recognition of the event element, we use event-template-based way to feature extraction for multi-classific

7、ation methods to recognition the event element. First, using event types we can get the event templates, and we can also gain the elements of the candidate events from the event templates. The templates are made up of event roles. Elements recognition of the event is a classification problem.Then, w

8、e make construction of each type of event for the classification of multivariate classification, extracted to meet the requirements of the event elements, by using lexical, context information and event templates and other features. This paper designs and implements a simple Chinese event extraction

9、 system, tests show that the final F value reached 18.73%.Key words: Event Extraction, Event Type Recognition, Event Argument Recognition第1章绪论1.1 课题背景及研究的目的和意义1.1.1 课题背景随着互联网的高速发展，网络数据的不断增加和信息高速公路的兴起，使得大量的信息以电子文本的形式呈现在人们面前。在这个信息爆炸的时代，如何从大量的信息中迅速、准确地提取出人们所需求的重要信息成为新的挑战。在这个背景下，信息检索(Information Retrie

10、val, IR)和信息抽取(Information Extraction, IE)成为了重要的信息获取手段1。信息抽取是从文本中自动获取信息的一种主要手段。信息抽取的主要目的是将无结构的文本信息，按照人们的需求识别、抽取出来，转化为结构化或半结构化的信息，并采用数据库的形式存储，以便人们查询，进一步分析、利用2。信息以统一的形式集成在一起的好处是方便检查和比较。例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理，例如用数据挖掘方法发现和解释数据模型。信息抽取技术并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的，那将由系统设计时定下的领域范围而

11、定。信息抽取既是其他信息获取手段的一种补充，又为其他信息处理技术提供技术支持。面对大量的信息，通过不同层次和精度的信息获取技术可以得到用户需要的相关文档。信息抽取技术可以从相关文档中抽取出粒度更小的关系和事件，以此满足用户的进一步需求。信息抽取作为将非结构化的信息转化为结构化的信息的一种方法，为进一步的数据信息处理，如数据挖掘，数据库查询等打下基础。从广义上讲，信息抽取的处理对象可以是语音、图像、文本、视频等众多类型的数据。从狭义上看，信息抽取可以只针对自然语言文本进行信息的抽取3。本文只讨论狭义的情况，即从给定的自然语言文本中，自动识别出预先设定的实体、关系和事件等类型信息，并将这些信息以结

12、构化的形式存储，其中事件的抽取是本文的研究重点。事件抽取(Event Extraction)是信息抽取的一个重要研究方向4。ACE2005将事件抽取的任务定义为事件的检测与识别(Event detection and recognition, VDR)，即识别特定类型的事件，并进行相关信息的确定和抽取。主要的相关信息包括：事件的类型和子类型、事件的元素等。1.1.2 课题的研究目的和意义在信息产业的快速发展和大量需求的推动下，信息抽取已经成为多学科发展和应用的需要，策划能够为自然语言处理的一个前沿课题。信息抽取涉及自然语言处理，数据挖掘，机器学习和数据库等多个学科技术和方法。在理论方面，信息抽

13、取涉及到自然语言处理数据挖掘、机器学习、数据库等多个学科的技术和方法，因此本文的研究不仅对解决事件抽取的关键子任务，以及建立实用的事件抽取系统的理论和方法起到促进作用，而且对于相关学科理论的完善和发展也将产生积极的推进作用。在应用方面，其研究成果将为自然语言处理的多种应用提供重要的支持，主要表现在：智能信息检索的建立，数据库和知识库的自动生成和自然语言的理解。从满足用户信息需求的角度来看，信息抽取是其他信息获取手段的一种补充。随着互联网的发展，如何从海量信息中获取用户所需要的信息，人们根据信息的层次和粒度发明了不同的信息获取技术。信息检索、文本分类、文本过滤，文本聚类等技术可以从一个大的文档集

14、合中找出用户需要的相关文档，而IE技术却可以从相关文档中抽取出粒度更小的关系或事件，满足用户更深层次和更细粒度的信息需求5。从这个意义上说，IE是信息处理技术的一种有益补充。如果把实体抽取、关系抽取看作信息抽取的底层技术，那么事件抽取可以看成是信息抽取的高层技术，事件抽取应用了实体抽取和关系抽取的结果，在自然语言处理的许多领域有广泛的应用。1.2 事件抽取的主要研究内容和研究现状目前事件抽取主要采取两种方法：模式匹配法和机器学习的方法。总的来讲，模式匹配的方法准确率较高（如果模式提取的非常准确），且接近人的思维方式，知识表示直观、自然，便于推理。但是这种方法往往依赖于具体语言，具体领域及文本格

15、式，可移植性差，编制过程费时费力且容易产生错误，需要富有经验的语言学家才能完成。并且抽取的模式不可能涵盖所有的事件类型，当从一种语料转移到另一种语料时，为保证不损失性能，往往还需要花费很多工作在模式的重新提取上，因此性价比不高。和基于模式匹配的方法相比，基于机器学习方法的健壮性和灵活性较好，且比较客观，不需要太多的人工干预和领域知识，召回率较高，但由于语料库规模的影响数据稀疏问题比较严重，准确率较模式匹配的方法低，有时搜索空间很大还会导致巨大的空间开销，效率不高5。另外，它需要大规模的语料库训练。下面，我们就两种方法分别进行叙述。1.2.1 基于模式匹配的事件抽取模式匹配方法，指对于某类事件

16、的识别和抽取是在一些模式的指导下进行的，而所需的模式需要人工或自动的方式来设定或获取。自然的，采用模式匹配法来进行事件抽取的系统由两个模块组成：模式获取模块和信息抽取模块。而且模式的建立取决于具体的领域和使用的环境，建立起来有困难。但是根据特征提取出来的模式在其应用范围内准确率很高，根据模式匹配出的事件准确性较好。一个采用模式匹配法的事件抽取系统的基本组成如图1-1所示。图 1-1 模式匹配法的事件抽取的基本组成采用模式匹配法的事件抽取主要分为两大步骤：(1) 通过局部文本分析从文本中抽取单个的“事实”。然后通过语篇分析将这些“事实”合并为较大的“事实”，或通过推理产生新的“事实”。这一阶段主

17、要分为词法分析，句法分析，实体识别和模式匹配几个阶段。(2) 第二阶段的事件抽取过程由指代消解，推理和事件融合组成5。在基于模式匹配的事件抽取中，模式的抽取是其核心。按照各种信息抽取模式获取系统中所需要的用户辅助工作方式的不同和对用户工作量大小和技能要求高低的不同，可将这些系统分为下面四个类别：(1) 基于人工语料标注的IE模式学习系统(2) 基于人工语料分类的IE模式学习系统(3) 基于种子模式的自举IE模式学习系统(4) 基于WordNet和语料标注的IE模式学习系统1.2.2 基于机器学习的事件抽取采用机器学习的方法进行事件抽取，即使用统计的方法进行事件抽取的研究。机器学习的方法更具有

18、一般性，不受具体领域和数据格式的约束，可移植性较好。但是由于特征提取和分类方法的不同，在准确率上有一定的差异。基于机器学习的事件抽取方法把事件抽取分为两大主要步骤：(1) 事件触发词及事件类别/子类别识别。(2) 事件元素识别。这种方法把主要的精力放在特征的发现和选择上，把事件抽取步骤看成分类问题，选择合适的特征并使用合适的分类器来完成。基于机器学习的方法虽然不依赖于语料的内容与格式，但需要大规模的标准语料，否则会出现较为严重的数据稀疏问题。另外，特征选取也是决定机器学习结果好坏的重要因素。因此，怎样避免数据稀疏现象以及怎样选择合适的特征，成为基于机器学习方法研究的使命。本文的中文事件抽取研究

19、主要使用机器学习的方法解决事件触发词及类别识别和事件元素识别两个主要任务。1.3 主要的评测会议MUC(Message Understanding Conference)会议（19871998），作为ACE会议的前身，在上个世纪八、九十年代对信息抽取领域起到了很大的促进作用。除像一般的学术会议一样交流论文外，它还负责组织对来自世界各地不同单位的消息理解系统进行系列化的评测活动。它共举办了七届，由美国国防高级研究计划委员会资助，是有关信息抽取研究最重要的会议之一。其主要的评测项目是从新闻报道中提取特定的信息，填入某种数据库中。评测语料大都出自各大通讯社发布的新闻。对每一条消息，由专业人员人工给出

20、标准答案，然后将参测系统的输出结果与标准答案比较，按一定的评价指标给出所有系统的评测结果，其中最主要的指标是准确率、查全率等。当前，由MUC定义的概念、模型和技术规范在国际上对整个信息提取领域起着主导的作用。事件抽取始终是这一会议的评测项目之一。ACE(Automatic Content Extraction)是由美国国家标准技术研究所组织，迄今已经举办过8次评测。这项评测旨在开发自动内容抽取技术以支持对三种不同来源的语言文本的自动处理5。研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等内容，即对新闻语料中实体、关系、事件的识别与描述。ACE主要有5大任务：(1) 实体识别与跟踪(E

21、ntity Detection and Recognition，EDR)(2) 属性识别与跟踪(Value Detection and Recognition，VAL)(3) 时间识别与跟踪(Time Detection and Recognition，TERN)(4) 关系识别与跟踪(Relation Detection and Recognition，RDR)(5) 事件识别与跟踪(Event Detection and Recognition，VDR)ACE评测不针对某个具体的领域或场景，采用基于标准答案中有而系统输出中没有和标准答案中没有而系统输出中有为基础的一套评价体系，还对系统跨文

22、档处理(Cross-document processing)能力进行评测。这一新的评测会议将把信息抽取技术研究引向新的高度。1.4 本文的主要研究内容本文主要类比ACE2005所定义的事件抽取的任务和相关的定义来研究并实现一个简单的中文事件抽取程序。采用机器学习的指导思想方法来研究实现。中文事件抽取主要有两大任务：事件类别识别和事件元素识别。事件类别识别采用基于触发词的识别来识别事件，事件元素识别采用特征提取多元分类的思想方法来提取事件元素。本文的内容具体安排如下：第1章是绪论。主要介绍课题的来源背景，研究的目的和意义；然后对于事件抽取的两大主要方法：模式识别方法和机器学习方法进行了比较学习。

23、分析了两种方法的优缺点，适用范围和解决问题的基本思想。最后简单介绍主要的评测会议。第2章是语料资源与相关的学习综述。主要以ACE2005所提供的语料资源结构，定义，相关概念为基础，介绍了本文所涉及的ACE2005的事件抽取的事件表示、定义、事件类别、事件模板和事件评测。第3章是事件类别识别。首先对输入的文本进行预处理，然后以触发词的识别为基础进行事件类别的识别，主要包括触发词的识别与扩展，候选事件集的形成，特征的选取和从候选事件集中获取真正的事件。第4章是事件元素的识别。在事件类别识别的基础上，采用特征提取多元分类的方法进行事件元素的识别。主要包括基于事件模板的候选元素的获取，特征的选取和从候

24、选元素中获取真正的元素。第5章是通过研究与学习，动手实现一个简单的中文事件抽取程序，介绍该程序的设计思想，流程等。并给出了在实验语料的基础上该程序的实验结果。本文转载：脚印论文网第2章语料资源与相关学习综述2.1 引言首先，事件抽取需要语料库的支持。在不同的语料库下，事件的定义、事件抽取的任务都不相同。目前主要有两大模式的语料：TimeML和ACE。在TimeML项目中，TimeML本身是一种用于标记事件和时间表达式的语言，它将事件定义为时序关系网中的一个节点，事件只是一个词。它用时间信息来标记索引事件，时间是重要信息，并以此来进行事件在时间方面的推理。TimeML中对所有事件都进行标注。在

25、ACE项目中，事件被定义为一个结构，这个结构中包含事件的各种属性和事件元素的各自结构属性。这其中，时间表达式只是其中的一个元素。ACE只对感兴趣的事件进行标注。由于ACE是以复杂结构的形式描述事件，更加符合思维习惯，所以本文以ACE的事件定义为基础，进行学习和研究。IE系统抽取的信息随数据类型不同而不同，针对事件进行相关信息的抽取，称为事件抽取(Event extraction)。ACE事件的检测与识别(VDR)是针对在语料库中被识别出的特定的某些事件类别来进行的。ACE将这些挑选出出的事件的信息识别、整合成一个统一的形式。这项VDR任务由两种ACE语言支持（英文和中文）。ACE中将事件定义为

26、，一个事件它包含零个或多个实体，属性词和时间表达式。事件检测与识别主要指特定类型的事件检测和相关信息的识别。一个事件中可能涉及一个事件类别和一个子类别。在不同的领域，事件有不同的含义。在TDT（Topic Detection Tracking，TDT）中，事件指的是关于某一主题的一组相关描述，这个主题可以是由分类或聚类而形成的；在IR中，事件定义的范围更广，即通常意义上的事件，包括事件的起因、过程、甚至造成的一些影响；在IE中，事件是指在某个特定的时间片段和地域范围内发生的，由一个或多个角色参与的，由一个或多个动作组成的一件事情，一般是句子级的。其中，事件被详细的分类，并且每类事件制定一定的模

27、版，包括触发词以及事件的一些组成要素，如：时间、地点等一些实体。IE定义的事件被称为原子事件。文本我们都采取IE定义的事件，即原子事件5。2.2 语料库中的事件表示ACE中对事件的标注提供了一些参数，主要有6：(1) Event Mention（事件提及）一个事件在一篇文章中可能多次出现，每一次出现称为一次事件提及，需要将他们合并，得到一个完整的事件。本文没有做这项工作，本文中只考虑一个事件在文章中出现一次的情况。(2) Type/Subtype（事件的类别/子类别）这里采用ACE2005定义的事件类别/子类别。(3) Trigger（事件触发词）直接引发事件发生的词，绝大部分情况下是动词。(

28、4) Argument/Role（事件元素/角色）事件的元素及其对应的角色。(5) Extent（事件的界限）以触发词和事件元素的起始位置的最小值和结束位置的最大值为界限。(6) Modality，Polarity，Genericity，Tense（形态，极性，泛型，时态）事件的四属性，分别表示是确定型/非确定型事件，是主动型/被动型事件，具体事件/普通事件，事件的时态。本文没有考虑该属性。(7) Ldc_scope（句子号）事件所在的句子。由此可知，对于一个事件，需要抽取的内容包括：事件类别，事件子类别，触发词，事件元素和事件所在句子。2.3 事件类别与事件模板ACE2005中共定义了8种事

29、件类别，每种事件类别中又包含一些子类别，共有33个子类别6。并且在ACE的评测说明中，对每一类事件都给出了详细的定义，并且提出了在一些特殊情况下的判断标准。例如，事件类别Life/Be-Born是指当一个PERSON（人）类型的实体出生时，Be-Born事件发生。请注意，这里的出生并不包括其他类型的事物。这里定义了Life/Be-Born类型事件，而且还指出了特殊情况下不包括其他生物，只是指人的出生。ACE规定的事件是指一个事件，它包含零个或者多个ACE中定义的实体、时间表达式和属性词的事件。ACE中定义的事件类别和子类别如表2-1所示。本文转载：脚印论文网表 2-1 ACE2005定义的事件

30、类别和子类别事件类别事件子类别生命类出生, 结婚, 离婚, 受伤, 死亡移动类运输交易类转让所有权, 转让财务商务类机构开张,机构合并, 宣告破产,机构关门冲突类攻击, 示威接触类会面, 电话/写信人事类任职, 离职, 提名, 选举法律类逮捕, 宣布释放, 听证, 指控, 起诉, 宣告有罪, 宣判, 罚款, 行刑, 引渡, 开释, 上诉, 赦免ACE2005还针对每一类事件制定了一个模板，模板由事件角色组成，如表2-2所示。表 2-2 ACE定义的事件模板事件类别/事件子类别事件模板生命类/出生人, 时间, 地点生命类/结婚人, 时间, 地点生命类/离婚人, 时间, 地点生命类/受伤代理人,

31、受害人, 工具, 时间, 地点生命类/死亡代理人, 受害人, 工具, 时间, 地点移动类/运输物件, 交通工具, 目的地, 时间, 代理人冲突类/攻击袭击者, 目标, 工具, 时间, 地点冲突类/示威集体, 时间, 地点事件元素主要包括事件的参与者和与事件紧密相关的属性。事件元素主要由实体、值和时间表达式组成。事件元素用独一无二的ID和角色来定义。和关系不同，事件允许在同一个角色中有多种元素。一般情况下，每种类别的事件都可能涉及时间和地点这两种元素，所有类型事件可能涉及的元素如表2-3所示6。本文转载：脚印论文网表 2-3 ACE2005定义的事件角色所有的事件角色人地点买方卖方受益人价格物件起始地目的地给予者接受者钱组织机构代理人受害人工具集体袭击者集体被告审判官检举人原告犯人位置判决交通工具在时间之后在时间之前开始时刻最后时刻起始时间结束时间暂停时间在时间之内2.4 本章小结本章首先对两类主要的事件定义模式：ACE模式和TimeML模式做了简单的比较，TimeML本身是一种用于标记事件和时间表达式的语言，它将事件定义为时序关系网中的一个节点，它用时间信息来标

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？