中文异构百科知识库实体对齐文档.docx

资源描述

中文异构百科知识库实体对齐文档.docx

《中文异构百科知识库实体对齐文档.docx》由会员分享，可在线阅读，更多相关《中文异构百科知识库实体对齐文档.docx（10页珍藏版）》请在冰点文库上搜索。

中文异构百科知识库实体对齐文档.docx

中文异构百科知识库实体对齐文档

中文异构百科知识库实体对齐

　　知识库；实体对齐；主题模型；资源描述框架模式；最长公共子序列算法

　　0引言

　　语义网[1]提供一种在不同应用和个体间共享和重用数据的整体框架，是Web3.0的重要特征。

目前万维网主要面向文档，供人直接阅读和理解；语义网则主要面向文档所表示数据，使计算机能够理解并通过推理引擎进行逻辑演算，是人工智能的重要目标。

语义网的建立需要高质量的知识库作为数据支撑。

目前，国外具有代表性的知识库有FreeBase[2]、DBpedia[3]、维基百科本体知识库（YetAnotherGreatOntology，YAGO[4]）及Omega[5]等；国内的知识库有XX知心、搜狗知立方及清华大学双语知识库XLore[6]。

知识库在知识图谱、智能语义问答及信息融合等自然语言处理领域均有重要意义[7]。

国外的知识库如FreeBase等提供了公开的资源描述框架（ResourceDescriptionFramework，RDF）数据源，但所含中文数据量较少，如何构建高质量的中文RDF知识库是目前的研究热点。

　　本文主要工作如下：

　　1）利用中文异构数据源百科类网站，构建中文百科知识库，提出异构数据源百科知识库进行实体对齐的方法，该方法能够有效地对来自于异构数据源百科知识库中的实体进行对齐。

　　2）结合实体结构化数据与非结构化数据，提出了适用于具备上下文信息的实体对齐方法。

　　3）构造了中文百科类实体对齐标准数据集，对数据集中需要对齐的实体进行了人工标注并进行了大量实验。

同标准的实体对齐方法进行对比，实验结果表明本文提出的算法可以有效地对具有上下文信息的实体进行对齐。

　　1相关工作

　　目前实体对齐方法的研究主要分为以下3个方面。

　　1）基于OWL语义。

　　2）基于规则分析。

　　文献[12]中通过在具体应用场景中制定特殊规则，通过规则及评价函数的方法对实体的含义进行消歧。

此种方法在具体应用领域准确率较高，但由于换一个场景需要重新制定规则，存在一定局限性。

百科类网站中覆盖多领域实体，需要针对不同领域实体制定规则并对各领域规则进行验证，因此此类方法不具有通用性。

　　3）基于相似度理论判定。

　　文献[13]中基于属性值的分布给属性赋予权重，然后用加权后属性的相似度来进行实体对齐，但是百科类网站实体的属性类型众多，单个实体属性分布稀疏，属性值较少的属性权重很低，导致该方法对如中文名等通用属性的依赖程度较高，难以满足网络百科类实体对齐任务。

　　2.1框架概述

　　本文所述中文百科RDF知识库主要基于XX百科与互动百科两个数据源构建，本文设计的中文异构百科实体对齐系统框架如图1所示，其中知识库的构建及实体对齐判定模块是实体对齐框架的核心部分。

当系统获取到一个新实体信息，依次抽取其属性信息和上下文信息。

由于不同百科网站存在异构数据，通过构建资源描述框架模式（ResourceDescriptionFrameworkSchema，RDFS）词表对实体属性进行规范化，将新的实体信息存储到对应百科网站的RDF知识库中；利用基于可扩展标记语言（eXtensibleMarkupLanguage，XML）及其路径语言（XMLPathLanguage，XPath）的抽取技术[14]将网页中关于实体的描述性信息抽取出来，用西南交大分词器（http：

//ics.swjtu.edu/）分词后，采用主题模型计算出实体潜在主题特征，将实体上下文主题特征进行存储。

另外为融合异构数据源的RDF知识库，采用基于最长公共子序列（LongestCommonSubsequence，LCS）属性相似度结合主题特征的实体对齐方法。

对于来自异构数据源待对齐实体对，利用基于LCS的属性相似度计算方法判定两个实体是否为同一实体，若相似度满足阈值上界，说明可通过属性信息进行实体对齐，将其输出到对齐实体集合；当相似度位于下界与上界之间，说明实体属性信息匮乏无法判定是否可以对齐，进一步采用结合上下文主题特征的实体对齐算法，综合判定后决定是否将实体对输出至对齐实体集合中。

　　2.2知识库构建

　　RDF[15]是一种用于描述网络资源的标记语言。

RDF所描述的数据信息可通过共享及整合将不同源数据联系起来构建知识库，为知识图谱及人工智能问答等领域提供数据支撑[16]。

　　构建的中文RDF知识库主要存储了实体相关信息，它将来自于不同源的网络百科数据（如XX百科、互动百科及豆瓣网站等数据）进行对齐及整合。

本文在知识库构建及实体对齐过程中，主要抽取实体属性信息及实体上下文信息。

　　实体属性信息给出了实体的特征属性及其取值，经过数据预处理及数据清洗后转为结构化数据。

由于中文网络百科没有根据本体语言指定统一的属性标准，存在不同属性名指代同一属性的情况，如对于人物类别的属性出生时间，XX百科常使用“出生日期”描述，互动百科常使用“出生年月”描述。

属性谓词的不统一导致在异构数据源知识库中进行实体对齐时准确程度很低，因此本文参考本体（Ontology）层次描述，通过统计高频属性谓词，构建多个类别的RDFS[17]词表，规范属性名不一致的情况。

部分人物类RDFS词表示例如表1所示。

　　2.3实体上下文建模

　　在百科类网站所覆盖的实体中，通常具有关于实体多方面的描述信息，这些描述信息大多以文本的形式呈现。

主题模型在文献[18]中被显式提出来，是对文本中隐含主题的一种建模方法。

主题是语料集合上语义的高度抽象、压缩表示，每个主题对应着比较一致的语义。

对于网络百科实体，如果实体属性信息匮乏，难以判断实体是否可以对齐，则利用上下文信息进行建模并提取主题特征，根据主题特征分布来判别是否可进行对齐。

基于主题模型对上下文建模的实现主要包括利用潜在狄利克雷分布（LatentDirichletAllocation，LDA）产生上下文过程及主题特征生成过程两部分。

　　2.3.1LDA产生上下文过程

　　LDA模型可使生成的文本包含多个主题，对于知识库中的实体e，其生成上下文文档d的过程如图2所示，过程描述如下：

　　1）从狄利克雷分布α中取样，生成实体上下文d的主题分布向量θd，θd的每一列表示每个主题在上下文中出现的概率。

　　2）从主题的多项式分布θd中进行取样，生成上下文d第i个单词的主题zd，i。

　　3）从狄利克雷分布β中取样，生成实体上下文主题zd，i的词语分布φzd，i。

　　4）从词语的多项式分布φzd，i中采样最终生成词语wd，i。

　　2.3.2主题特征生成过程

　　在LDA模型中，文本的主题是隐式变量，可通过概率推导的方式对模型参数进行求解。

文献[19]介绍了吉布斯抽样（Gibbssampling）的方式对主题模型进行求解。

　　2.4基于LCS的属性相似度计算

　　实体属性相似度计算可对网络百科中属性定义较准确的实体进行判别，本文基于文献[20]中所述LCS算法，提出适用于网络百科的属性相似度计算方法。

　　2.4.1网络百科实体的属性信息的相关定义

　　定义1设实体ea经过RDFS属性规范化后属性名集合Propertya={pa1，pa2，…，pam}，对应属性值集合Valuea={va1，va2，…，vam}；实体eb对应属性名集合Propertyb={pb1，pb2，…，pbn}，其对应属性值集合Valueb={vb1，vb2，…，vbn}，其中m，n分别为实体的属性个数。

　　定义2设实体ea的规范化属性pai，其对应属性值vai=（sa1sa2…sap）；实体eb“实体..”，此处书写是否有误？

请作相应调整。

的规范化属性pbj，其属性值vbj=（sb1sb2…sbq）。

其中：

i表示实体ea的第i个属性；j表示实体eb的第j个属性；sap为属性值vai的第p个字符；sbq表示属性值vbj的第q个字符；p与q分别表示对应属性值的长度。

　　2.4.2属性相似度计算　　1）实体ea及eb共有属性的计算式为：

　　InterProperty（ea，eb）=Propertya∩Propertyb（5）

　　对于共有属性pi∈InterProperty（ea，eb），其中pax=pi且pby=pi，其中，实体ea的属性pax对应的属性值为vax，实体eb的属性pby对应的属性值为vby。

　　2）属性pi的相似度计算式为：

　　sim（pi）=lcs（vax，vby）max（len（vax），len（vby））（6）

　　其中lcs（vax，vby）为实体属性值的最长公共子序列。

　　3）实体ea及eb的相似度计算式为：

　　property_sim（ea，eb）=[∑Ti=1sim（pi）]/T（7）

　　其中：

　　T=Propertya∩Propertyb（8）

　　2.5基于主题特征的相似度计算方法

　　1）实体..实体ea此处的书写是否符合规范？

表示什么含义？

请明确。

及eb的实体上下文相似度计算式为：

　　context_sim（ea，eb）=Vea?

Veb|Vea||Veb|（9）

　　其中Vea及Veb是每个实体的主题特征向量。

　　在实体对齐时，如果仅考虑实体上下文特征，结果并不准确。

为了提高结果的准确性，结合实体属性相似度及实体主题相似度得到实体的相似度计算公式。

　　2）实体的相似度计算式为：

　　sim（ea，eb）=[property_sim（ea，eb）+context_sim（ea，eb）]/2.0（10）

　　其中property_sim（ea，eb）为实体的属性相似度。

　　2.6基于主题特征的实体对齐算法

　　根据上面的定义和公式，提出了基于主题特征的中文异构百科知识库实体对齐算法描述如下。

　　算法1基于主题特征的实体对齐算法。

　　有序号的程序――――――――――Shift+Alt+Y

　　程序前

　　输入：

异构数据源实体集合EA及EB，实体属性相似度阈值上界ν及下界μ，实体相似度参数ω，主题参数K。

　　输出：

对齐后的实体集合AE。

　　1）

　　foreachentitye∈（EA∪EB）do

　　2）

　　computetopicwordmatrixφ/*利用LDA算法对实体e上下文主题建模，计算主题单词概率矩阵φ*/

　　3）

　　computetopicfeaturevectorVe/*通过主题特征生成过程，计算主题特征向量Ve*/

　　4）

　　fori←1tosize（EA）do

　　5）

　　forj←1tosize（EB）do

　　6）

　　computeps=property_sim（ei，ej）

　　7）

　　ifpsthresholdνdo

　　10）

　　AE←AE∪{（ei，ej）}

　　11）

　　elsedo

　　12）

　　computecs=context_sim（ei，ej）/*利用主题特征向量Vei及Vej计算主题相似度*/

　　13）

　　computes=sim（ei，ej）/*结合属性相似度ps和主题相似度cs，计算实体相似度s*/

　　14）

　　ifs≥ωdo

　　15）

　　AE←AE∪{（ei，ej）}

　　程序后

　　3实验与结果分析

　　3.1实验数据集描述

　　3.2实验结果分析

　　3.2.1评价指标

　　本文的主要工作是将来自中文异构数据源知识库中的实体进行对齐，评价指标选取准确率（Precision，P）、召回率（Recall，R）及综合指标F值（FScore，F）作为评价标准[21]。

　　1）准确率计算公式为：

　　P=Nr/No（11）

　　2）召回率计算公式为：

　　R=Nr/Na（12）

　　3）综合指标F值计算公式为：

　　F=2?

R/（P+R）（13）

　　其中：

Na为数据集中所有可准确对齐的实体个数；No为所有对齐实体数；Nr为正确对齐实体数。

　　准确率表示通过实体对齐算法后得到正确对齐后的实体的准确程度；召回率表示通过算法得到的准确对齐的实体数占数据集中所有可准确对齐实体的比率；F值为衡量准确率与召回率的综合指标。

　　3.2.2模型参数选取

　　本文的模型参数主要有属性相似度下界μ，属性相似度上界ν，实体对齐阈值ω及主题模型中的主题数K。

参数选取方法如下。

　　1）参数μ、ν选取。

　　经过大量实验，实体在进行对齐时，如果属性相似度小于μ，则判定为不可对齐实体，μ取经验值0.5；如果属性相似度高于上界ν，则判定为同一实体，ν取经验值0.95。

　　2）参数ω选取。

　　实体相似度是属性相似度与实体上下文相似度的均值，对于基于主题模型的实体对齐算法效果有重要影响。

实体相似度参数ω越高，则实体对齐的准确率越高，但召回率下降；否则，参数ω降低，召回率提升，但准确率下降。

实体相似度参数ω的选取主要依赖最优F值，若F值相近的情况下，选择准确率更高的参数ω。

通过图3（a）看出，人物类实体对齐阈值ω选取为0.5～0.6时，综合指标F值较高；通过图3（b）看出，影视类实体对齐阈值选取为0.4时附近，综合指标F值较高。

　　3）参数K选取。

　　本文的LCSLDA算法对不同主题数目情况进行了对比实验。

实验中ω参数选取0.4，依次选取不同K值进行实体对齐实验。

从图4实验结果可以看出，主题个数K设定为2～3时实体对齐算法的F值最优，准确率及召回率的整体性能较好。

　　3.2.3与其他实体对齐算法比较

　　为了进一步验证所提中文异构知识库实体对齐算法（LCSLDA）的有效性，利用实体对齐数据统计信息进行实验，在实验过程中，分别用LCSLDA算法、LCS算法、LCS属性加权（WeightedLCS）算法、LCSTFIDF算法、LDA算法运行表2中的实体对齐数据，各算法通过大量实验取最优结果，实验结果如表3所示。

对各标准方法评价如下。

　　1）LCS算法。

　　文献[22]中利用实体属性，通过实体属性值计算实体的相似度判定实体是否可以进行对齐。

由于百科类属于UGC数据，属性值存在不规范情况，因此基于文献[20]中所述算法，采用LCS算法比较实体属性值。

通过表3可以看出，仅仅利用实体属性来对实体进行对齐，准确率、召回率及综合评价指标F值均较低。

　　2）WeightedLCS算法。

　　WeightedLCS算法为文献[13]中对属性进行加权后进行实体对齐的方法，按照统计信息对属性进行加权，实验结果如表3所示，其对齐的准确程度较LCS算法下降，是由于该方法对通用属性如人物类的“中文姓名”“出生日期”等，影视类如“影片名”“imdb编码”等属性依赖较重，导致百科数据集中分布较稀疏的属性对实体对齐的重要性降低，而这些信息对于百科类实体对齐非常关键，因此对属性进行加权并不能有效提高中文异构百科实体对齐的效果。

　　3）LCSTFIDF算法。

　　LCSTFIDF算法为结合了上下文信息的实体对齐方法，为每个实体上下文中出现的词计算TFIDF值[23]，将所有词项的TFIDF值作为特征向量，在实体对齐问题中取得了较好表现，但由于TFIDF方法仅考虑词项的词频特征，没有考虑词项的语义信息，因此效果次于LCSLDA算法。

　　4）LDA算法。

　　该方法采用LDA模型对实体提取主题特征，上下文仅考虑信息，可以看出在人物类百科实体对齐中可以取得不错表现，然而由于人物类实体描述往往从“人物生平”“所获成就”等方面描述，影视类实体在异构百科数据源中存在描述差异较大的现象，因此对于某些类别的百科实体仅通过上下文信息进行对齐时效果并不理想。

　　5）LCSLDA算法。

　　LCSLDA算法在人物类实体对齐数据集上实体相似度阈值ω取0.6，主题参数K取3时实体对齐的准确率及F值效果最好，召回率略低于LCSTFIDF算法及LDA算法；在影视类数据集上，实体相似度阈值取0.4，主题参数K取2时准确率、召回率及综合评价指标F值均为第一，可见采用该算法对解决中文异构百科类实体对齐问题具有良好效果。

　　4结语

　　为解决中文异构百科类实体对齐问题，本文提出一种基于实体属性与上下文主题特征相结合的实体对齐LCSLDA方法。

该方法基于XX百科及互动百科构造中文RDF知识库，通过RDFS对属性进行规范化，抽取实体上下文信息并利用主题模型构造主题特征，结合了实体属性特征与上下文语义信息解决实体对齐问题。

为验证所提算法的有效性，依照标准方法构造了中文百科类实体对齐数据集。

通过与经典的属性相似度算法、属性加权算法、上下文词频特征模型及主题模型算法方法比较，实验结果表明本文所提LCSLDA方法对于解决中文异构百科类实体对齐问题具有良好效果，对具有上下文信息的实体对齐问题具有一定通用性。

　　后续的研究将进一步优化实体对齐模型，并考虑大规模数据处理情况和基于云计算平台解决异构百科实体数据融合问题，这对于百科知识库的构建及问答系统的性能提升具有重要意义。

展开阅读全文