面向中文的事件抽取的研究实现文档格式.docx

资源描述

面向中文的事件抽取的研究实现文档格式.docx

《面向中文的事件抽取的研究实现文档格式.docx》由会员分享，可在线阅读，更多相关《面向中文的事件抽取的研究实现文档格式.docx（38页珍藏版）》请在冰点文库上搜索。

面向中文的事件抽取的研究实现文档格式.docx

Keywords:

EventExtraction,EventTypeRecognition,EventArgumentRecognition

第1章绪论

1.1课题背景及研究的目的和意义

1.1.1课题背景

随着互联网的高速发展，网络数据的不断增加和信息高速公路的兴起，使得大量的信息以电子文本的形式呈现在人们面前。

在这个信息爆炸的时代，如何从大量的信息中迅速、准确地提取出人们所需求的重要信息成为新的挑战。

在这个背景下，信息检索（InformationRetrieval,IR）和信息抽取（InformationExtraction,IE）成为了重要的信息获取手段[1]。

信息抽取是从文本中自动获取信息的一种主要手段。

信息抽取的主要目的是将无结构的文本信息，按照人们的需求识别、抽取出来，转化为结构化或半结构化的信息，并采用数据库的形式存储，以便人们查询，进一步分析、利用[2]。

信息以统一的形式集成在一起的好处是方便检查和比较。

例如比较不同的招聘和商品信息。

还有一个好处是能对数据作自动化处理，例如用数据挖掘方法发现和解释数据模型。

信息抽取技术并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析。

至于哪些信息是相关的，那将由系统设计时定下的领域范围而定。

信息抽取既是其他信息获取手段的一种补充，又为其他信息处理技术提供技术支持。

面对大量的信息，通过不同层次和精度的信息获取技术可以得到用户需要的相关文档。

信息抽取技术可以从相关文档中抽取出粒度更小的关系和事件，以此满足用户的进一步需求。

信息抽取作为将非结构化的信息转化为结构化的信息的一种方法，为进一步的数据信息处理，如数据挖掘，数据库查询等打下基础。

从广义上讲，信息抽取的处理对象可以是语音、图像、文本、视频等众多类型的数据。

从狭义上看，信息抽取可以只针对自然语言文本进行信息的抽取[3]。

本文只讨论狭义的情况，即从给定的自然语言文本中，自动识别出预先设定的实体、关系和事件等类型信息，并将这些信息以结构化的形式存储，其中事件的抽取是本文的研究重点。

事件抽取（EventExtraction）是信息抽取的一个重要研究方向[4]。

ACE2005将事件抽取的任务定义为事件的检测与识别（Eventdetectionandrecognition,VDR），即识别特定类型的事件，并进行相关信息的确定和抽取。

主要的相关信息包括：

事件的类型和子类型、事件的元素等。

1.1.2课题的研究目的和意义

在信息产业的快速发展和大量需求的推动下，信息抽取已经成为多学科发展和应用的需要，策划能够为自然语言处理的一个前沿课题。

信息抽取涉及自然语言处理，数据挖掘，机器学习和数据库等多个学科技术和方法。

在理论方面，信息抽取涉及到自然语言处理数据挖掘、机器学习、数据库等多个学科的技术和方法，因此本文的研究不仅对解决事件抽取的关键子任务，以及建立实用的事件抽取系统的理论和方法起到促进作用，而且对于相关学科理论的完善和发展也将产生积极的推进作用。

在应用方面，其研究成果将为自然语言处理的多种应用提供重要的支持，主要表现在：

智能信息检索的建立，数据库和知识库的自动生成和自然语言的理解。

从满足用户信息需求的角度来看，信息抽取是其他信息获取手段的一种补充。

随着互联网的发展，如何从海量信息中获取用户所需要的信息，人们根据信息的层次和粒度发明了不同的信息获取技术。

信息检索、文本分类、文本过滤，文本聚类等技术可以从一个大的文档集合中找出用户需要的相关文档，而IE技术却可以从相关文档中抽取出粒度更小的关系或事件，满足用户更深层次和更细粒度的信息需求[5]。

从这个意义上说，IE是信息处理技术的一种有益补充。

如果把实体抽取、关系抽取看作信息抽取的底层技术，那么事件抽取可以看成是信息抽取的高层技术，事件抽取应用了实体抽取和关系抽取的结果，在自然语言处理的许多领域有广泛的应用。

1.2事件抽取的主要研究内容和研究现状

目前事件抽取主要采取两种方法：

模式匹配法和机器学习的方法。

总的来讲，模式匹配的方法准确率较高（如果模式提取的非常准确），且接近人的思维方式，知识表示直观、自然，便于推理。

但是这种方法往往依赖于具体语言，具体领域及文本格式，可移植性差，编制过程费时费力且容易产生错误，需要富有经验的语言学家才能完成。

并且抽取的模式不可能涵盖所有的事件类型，当从一种语料转移到另一种语料时，为保证不损失性能，往往还需要花费很多工作在模式的重新提取上，因此性价比不高。

和基于模式匹配的方法相比，基于机器学习方法的健壮性和灵活性较好，且比较客观，不需要太多的人工干预和领域知识，召回率较高，但由于语料库规模的影响数据稀疏问题比较严重，准确率较模式匹配的方法低，有时搜索空间很大还会导致巨大的空间开销，效率不高[5]。

另外，它需要大规模的语料库训练。

下面，我们就两种方法分别进行叙述。

1.2.1基于模式匹配的事件抽取

模式匹配方法，指对于某类事件的识别和抽取是在一些模式的指导下进行的，而所需的模式需要人工或自动的方式来设定或获取。

自然的，采用模式匹配法来进行事件抽取的系统由两个模块组成：

模式获取模块和信息抽取模块。

而且模式的建立取决于具体的领域和使用的环境，建立起来有困难。

但是根据特征提取出来的模式在其应用范围内准确率很高，根据模式匹配出的事件准确性较好。

一个采用模式匹配法的事件抽取系统的基本组成如图1-1所示。

图1-1模式匹配法的事件抽取的基本组成

采用模式匹配法的事件抽取主要分为两大步骤：

（1）通过局部文本分析从文本中抽取单个的“事实”。

然后通过语篇分析将这些“事实”合并为较大的“事实”，或通过推理产生新的“事实”。

这一阶段主要分为词法分析，句法分析，实体识别和模式匹配几个阶段。

（2）第二阶段的事件抽取过程由指代消解，推理和事件融合组成[5]。

在基于模式匹配的事件抽取中，模式的抽取是其核心。

按照各种信息抽取模式获取系统中所需要的用户辅助工作方式的不同和对用户工作量大小和技能要求高低的不同，可将这些系统分为下面四个类别：

（1）基于人工语料标注的IE模式学习系统

（2）基于人工语料分类的IE模式学习系统

（3）基于种子模式的自举IE模式学习系统

（4）基于WordNet和语料标注的IE模式学习系统

1.2.2基于机器学习的事件抽取

采用机器学习的方法进行事件抽取，即使用统计的方法进行事件抽取的研究。

机器学习的方法更具有一般性，不受具体领域和数据格式的约束，可移植性较好。

但是由于特征提取和分类方法的不同，在准确率上有一定的差异。

基于机器学习的事件抽取方法把事件抽取分为两大主要步骤：

（1）事件触发词及事件类别/子类别识别。

（2）事件元素识别。

这种方法把主要的精力放在特征的发现和选择上，把事件抽取步骤看成分类问题，选择合适的特征并使用合适的分类器来完成。

基于机器学习的方法虽然不依赖于语料的内容与格式，但需要大规模的标准语料，否则会出现较为严重的数据稀疏问题。

另外，特征选取也是决定机器学习结果好坏的重要因素。

因此，怎样避免数据稀疏现象以及怎样选择合适的特征，成为基于机器学习方法研究的使命。

本文的中文事件抽取研究主要使用机器学习的方法解决事件触发词及类别识别和事件元素识别两个主要任务。

1.3主要的评测会议

MUC（MessageUnderstandingConference）会议（1987~1998），作为ACE会议的前身，在上个世纪八、九十年代对信息抽取领域起到了很大的促进作用。

除像一般的学术会议一样交流论文外，它还负责组织对来自世界各地不同单位的消息理解系统进行系列化的评测活动。

它共举办了七届，由美国国防高级研究计划委员会资助，是有关信息抽取研究最重要的会议之一。

其主要的评测项目是从新闻报道中提取特定的信息，填入某种数据库中。

评测语料大都出自各大通讯社发布的新闻。

对每一条消息，由专业人员人工给出标准答案，然后将参测系统的输出结果与标准答案比较，按一定的评价指标给出所有系统的评测结果，其中最主要的指标是准确率、查全率等。

当前，由MUC定义的概念、模型和技术规范在国际上对整个信息提取领域起着主导的作用。

事件抽取始终是这一会议的评测项目之一。

ACE（AutomaticContentExtraction）是由美国国家标准技术研究所组织，迄今已经举办过8次评测。

这项评测旨在开发自动内容抽取技术以支持对三种不同来源的语言文本的自动处理[5]。

研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等内容，即对新闻语料中实体、关系、事件的识别与描述。

ACE主要有5大任务：

（1）实体识别与跟踪（EntityDetectionandRecognition，EDR）

（2）属性识别与跟踪（ValueDetectionandRecognition，VAL）

（3）时间识别与跟踪（TimeDetectionandRecognition，TERN）

（4）关系识别与跟踪（RelationDetectionandRecognition，RDR）

（5）事件识别与跟踪（EventDetectionandRecognition，VDR）

ACE评测不针对某个具体的领域或场景，采用基于标准答案中有而系统输出中没有和标准答案中没有而系统输出中有为基础的一套评价体系，还对系统跨文档处理（Cross-documentprocessing）能力进行评测。

这一新的评测会议将把信息抽取技术研究引向新的高度。

1.4本文的主要研究内容

本文主要类比ACE2005所定义的事件抽取的任务和相关的定义来研究并实现一个简单的中文事件抽取程序。

采用机器学习的指导思想方法来研究实现。

中文事件抽取主要有两大任务：

事件类别识别和事件元素识别。

事件类别识别采用基于触发词的识别来识别事件，事件元素识别采用特征提取多元分类的思想方法来提取事件元素。

本文的内容具体安排如下：

第1章是绪论。

主要介绍课题的来源背景，研究的目的和意义；

然后对于事件抽取的两大主要方法：

模式识别方法和机器学习方法进行了比较学习。

分析了两种方法的优缺点，适用范围和解决问题的基本思想。

最后简单介绍主要的评测会议。

第2章是语料资源与相关的学习综述。

主要以ACE2005所提供的语料资源结构，定义，相关概念为基础，介绍了本文所涉及的ACE2005的事件抽取的事件表示、定义、事件类别、事件模板和事件评测。

第3章是事件类别识别。

首先对输入的文本进行预处理，然后以触发词的识别为基础进行事件类别的识别，主要包括触发词的识别与扩展，候选事件集的形成，特征的选取和从候选事件集中获取真正的事件。

第4章是事件元素的识别。

在事件类别识别的基础上，采用特征提取多元分类的方法进行事件元素的识别。

主要包括基于事件模板的候选元素的获取，特征的选取和从候选元素中获取真正的元素。

第5章是通过研究与学习，动手实现一个简单的中文事件抽取程序，介绍该程序的设计思想，流程等。

并给出了在实验语料的基础上该程序的实验结果。

第2章语料资源与相关学习综述

2.1引言

首先，事件抽取需要语料库的支持。

在不同的语料库下，事件的定义、事件抽取的任务都不相同。

目前主要有两大模式的语料：

TimeML和ACE。

在TimeML项目中，TimeML本身是一种用于标记事件和时间表达式的语言，它将事件定义为时序关系网中的一个节点，事件只是一个词。

它用时间信息来标记索引事件，时间是重要信息，并以此来进行事件在时间方面的推理。

TimeML中对所有事件都进行标注。

在ACE项目中，事件被定义为一个结构，这个结构中包含事件的各种属性和事件元素的各自结构属性。

这其中，时间表达式只是其中的一个元素。

ACE只对感兴趣的事件进行标注。

由于ACE是以复杂结构的形式描述事件，更加符合思维习惯，所以本文以ACE的事件定义为基础，进行学习和研究。

IE系统抽取的信息随数据类型不同而不同，针对事件进行相关信息的抽取，称为事件抽取（Eventextraction）。

ACE事件的检测与识别（VDR）是针对在语料库中被识别出的特定的某些事件类别来进行的。

ACE将这些挑选出出的事件的信息识别、整合成一个统一的形式。

这项VDR任务由两种ACE语言支持（英文和中文）。

ACE中将事件定义为，一个事件它包含零个或多个实体，属性词和时间表达式。

事件检测与识别主要指特定类型的事件检测和相关信息的识别。

一个事件中可能涉及一个事件类别和一个子类别。

在不同的领域，事件有不同的含义。

在TDT（TopicDetectionTracking，TDT）中，事件指的是关于某一主题的一组相关描述，这个主题可以是由分类或聚类而形成的；

在IR中，事件定义的范围更广，即通常意义上的事件，包括事件的起因、过程、甚至造成的一些影响；

在IE中，事件是指在某个特定的时间片段和地域范围内发生的，由一个或多个角色参与的，由一个或多个动作组成的一件事情，一般是句子级的。

其中，事件被详细的分类，并且每类事件制定一定的模版，包括触发词以及事件的一些组成要素，如：

时间、地点等一些实体。

IE定义的事件被称为原子事件。

文本我们都采取IE定义的事件，即原子事件[5]。

2.2语料库中的事件表示

ACE中对事件的标注提供了一些参数，主要有[6]：

（1）EventMention（事件提及）

一个事件在一篇文章中可能多次出现，每一次出现称为一次事件提及，需要将他们合并，得到一个完整的事件。

本文没有做这项工作，本文中只考虑一个事件在文章中出现一次的情况。

（2）Type/Subtype（事件的类别/子类别）

这里采用ACE2005定义的事件类别/子类别。

（3）Trigger（事件触发词）

直接引发事件发生的词，绝大部分情况下是动词。

（4）Argument/Role（事件元素/角色）

事件的元素及其对应的角色。

（5）Extent（事件的界限）

以触发词和事件元素的起始位置的最小值和结束位置的最大值为界限。

（6）Modality，Polarity，Genericity，Tense（形态，极性，泛型，时态）

事件的四属性，分别表示是确定型/非确定型事件，是主动型/被动型事件，具体事件/普通事件，事件的时态。

本文没有考虑该属性。

（7）Ldc_scope（句子号）

事件所在的句子。

由此可知，对于一个事件，需要抽取的内容包括：

事件类别，事件子类别，触发词，事件元素和事件所在句子。

2.3事件类别与事件模板

ACE2005中共定义了8种事件类别，每种事件类别中又包含一些子类别，共有33个子类别[6]。

并且在ACE的评测说明中，对每一类事件都给出了详细的定义，并且提出了在一些特殊情况下的判断标准。

例如，事件类别Life/Be-Born是指当一个PERSON（人）类型的实体出生时，Be-Born事件发生。

请注意，这里的出生并不包括其他类型的事物。

这里定义了Life/Be-Born类型事件，而且还指出了特殊情况下不包括其他生物，只是指人的出生。

ACE规定的事件是指一个事件，它包含零个或者多个ACE中定义的实体、时间表达式和属性词的事件。

ACE中定义的事件类别和子类别如表2-1所示。

表2-1ACE2005定义的事件类别和子类别

事件类别

事件子类别

生命类

出生,结婚,离婚,受伤,死亡

移动类

运输

交易类

转让所有权,转让财务

商务类

机构开张,机构合并,宣告破产,机构关门

冲突类

攻击,示威

接触类

会面,电话/写信

人事类

任职,离职,提名,选举

法律类

逮捕,宣布释放,听证,指控,起诉,宣告有罪,宣判,罚款,行刑,引渡,开释,上诉,赦免

ACE2005还针对每一类事件制定了一个模板，模板由事件角色组成，如表2-2所示。

表2-2ACE定义的事件模板

事件类别/事件子类别

事件模板

生命类/出生

人,时间,地点

生命类/结婚

生命类/离婚

生命类/受伤

代理人,受害人,工具,时间,地点

生命类/死亡

移动类/运输

物件,交通工具,目的地,时间,代理人

冲突类/攻击

袭击者,目标,工具,时间,地点

冲突类/示威

集体,时间,地点

……

事件元素主要包括事件的参与者和与事件紧密相关的属性。

事件元素主要由实体、值和时间表达式组成。

事件元素用独一无二的ID和角色来定义。

和关系不同，事件允许在同一个角色中有多种元素。

一般情况下，每种类别的事件都可能涉及时间和地点这两种元素，所有类型事件可能涉及的元素如表2-3所示[6]。

表2-3ACE2005定义的事件角色

所有的事件角色

人

地点

买方

卖方

受益人

价格

物件

起始地

目的地

给予者

接受者

钱

组织机构

代理人

受害人

工具

集体

袭击者

被告

审判官

检举人

原告

犯人

位置

判决

交通工具

在……时间之后

在……时间之前

开始时刻

最后时刻

起始时间

结束时间

暂停时间

在……时间之内

2.4本章小结

本章首先对两类主要的事件定义模式：

ACE模式和TimeML模式做了简单的比较，TimeML本身是一种用于标记事件和时间表达式的语言，它将事件定义为时序关系网中的一个节点，它用时间信息来标

展开阅读全文