合作式数据集成系统中基于MapReduce的实体解析.docx

资源描述

合作式数据集成系统中基于MapReduce的实体解析.docx

《合作式数据集成系统中基于MapReduce的实体解析.docx》由会员分享，可在线阅读，更多相关《合作式数据集成系统中基于MapReduce的实体解析.docx（82页珍藏版）》请在冰点文库上搜索。

合作式数据集成系统中基于MapReduce的实体解析.docx

合作式数据集成系统中基于MapReduce的实体解析

毕业设计（论文）

中文题目：

合作式集成系统中基于MapReduce的实体解析

英文题目：

EntityresolutionbasedonMapReduceincooperativeintegrationsystem

学院：

计算机与信息技术学院

专业：

计算机科学与技术

学生姓名：

薛卉

学号：

09271113

指导教师：

王宁

2013年5月27日

题目：

合作式数据集成系统中基于MapReduce的实体解析

适合专业：

计算机科学技术

指导教师（签名）：

提交日期：

2013年3月7日

学院：

计算机与信息技术学院专业：

学生姓名：

学号：

毕业设计（论文）基本内容和要求：

一、研究内容

随着移动终端设备的迅速发展，云端存储日益用户的在生活中显得重要。

本项目旨在帮助移动终端的用户更好的使用云端强大的功能。

用户将表格上传云端，可以在云端实现表格的融合和整理，也可以通过云端的搜索引擎实现用户的表和寻找的表的合并，从而使用户不必纠结于表格的格式问题，从而更高效快捷地获得更多更有用的信息。

本项目使用范围广泛，例如：

两个企业即将合并，急需融合企业中许多格式不一致和存在冗余,差错的表格，以便共享企业间的信息，以期达到双赢；此时，本项目便是达到该目的的有效平台。

本项目面向云端上传表格的用户，在基于MapReduce分布式计算的框架下，通过机器学习的训练集模型分析表中实体的相似性，从而达到实体解析和合并的目的,,为用户提供在大数据环境下更加便捷的云端数据库的操作。

研究表格中的实体解析问题时，通常发现实体解析中存在一些问题和特点：

1.实体中存在语义的二义性，需要进一步识别。

2.实体解析中存在格式不一致的数据，需要进一步格式化。

3.实体解析中存在需要校正的数据，需要就一步进行容错和校正。

4.在上传的海量数据的表格中进行实体解析，串行的实体解析算法已经不能满足数据规模和处理效率的要求。

综上所述，在大数据进行挖掘时将面临以下几个难点：

Ø面对越来越庞大的数据集合，设计一个高效且能在分布式的机器上并行运行的算法显得极其重要。

Ø面对越来越庞大的规格不一致的数据，如何寻求一个更加有效的训练集，以便能更加高效的实现实体解析的需要，日益显得重要。

Ø对于庞大复杂的数据，如何寻求一个高效的相似度算法，对项目影响非常关键。

二、技术指标

1.功能指标：

最终目标是探索一种灵活的、可以自动更新的、基于学习的、能够对海量的数据集合进行高效的实体解析的模型。

2.性能指标：

支持海量数据，提高轨迹挖掘算法的效率和可扩展性。

三、基本要求

前期准备要求：

了解云计算和实体解析的相关知识。

1.熟悉云计算平台的相关知识

2.熟悉Linux下平台上的Map/Reduce编程

3.实现对于表格实体解析高效的相似度算法

4.寻求合适的训练集

后期实现要求：

1.对各模块编程实现

2.对各模块进行测试以确定是否达到性能指标

3.对各模块进行连接并测试性能

毕业设计（论文）重点研究的问题：

重点研究问题:

如何在大数据的环境下实现更加高效的相似度算法。

毕业设计（论文）应完成的工作：

应完成的工作：

1.研究现有实体解析的技术，熟悉其算法思路

2.设计出基于机器学习的相似度计算的模型。

3.设计的关于实体解析的算法在云计算环境下的实现

编码、调试、测试。

参考资料推荐：

[1]HectorGonzalezAlonHalevyAnnoLangenJayantMadhavanRodMcChesney,RebeccaShapleyWarrenShenJonathanandGoldberg-Kidon.

GoogleFusionTables:

Web-CenteredDataManagementandCollabration.InACMSIGMOD,2010.

[2]HectorGonzalezAlonHalevyAnnoLangenJayantMadhavanRodMcChesneyRebeccaShapleyWarrenShenJonathanandGoldberg-Kidon.

SocializingDatawithGoogleFusionTables.InIEEEComputerSociety,2010.

[3]LiseGetoor.EntityResolution:

Theory,Practice&OpenChallenges.InVLDBEndowment,2012.

[4]LarsKolb,AndreasThorandErhardRahm.Block-basedloadBalancingforMapReduce-basedEntityResolution.InACM,2011.

[5]AnishDasSarma,LujunFang,NitinGupta,AlonHalevy,

HongraeLee,FeiWu,ReynoldXinandCongYu.FindingRelatedTables.InACM,2012.

[6]PetrosVenetis,AlonHalevy,JayantMadhavan,MariusPas¸ca,WarrenShen,FeiWu,GengxinMiao,andChungWu.RecoveringSemanticsofTablesontheWeb.InVLDBEndowment,2011.

[7]HectorGonzalez,AlonHalevy,ChristianS.Jensen,AnnoLangen,JayantMadhavan,RebeccaShapleyandWarrenShen.GoogleFusionTables:

DataManagement,IntegrationandCollaborationintheCloud.InSoCC,2010.

其他要说明的问题：

题目：

合作式数据集成系统中基于MapReduce的实体解析

学院：

计算机与信息技术学院专业：

计算机科学与技术

学生姓名：

薛卉学号：

09271113

文献综述：

一、研究背景及意义

随着移动设备的快速发展，用户越来越倾向于在云端上传和处理数据。

这时云端承载了用户关于存储和处理大规模数据的需求，而用户对于云端功能的期待也越来越大。

例如：

对于用户上传的表格进行初步的冗余和容错处理；提供对于用户表格的视图可视化操作，使得用户对于数据有进一步更加形象具体的解读；对于用户表格中某些缺少的表项，可以在指定的数据库或者网络中寻找，使得用户间可以实现数据共享和交互。

例如：

两个企业即将合并，急需融合企业中许多格式不一致和存在冗余,差错的表格，以便共享企业间的信息，以期达到双赢，此时合作式集成系统便是一个可选择的平台。

而此时，对于云端来说，实体解析显得尤为重要。

对于用户上传表格中的实体减少冗余，校正错误和统一格式来说，实体解析是这一切的基础，却又存在许多需要考虑的细节。

故本项目将研究重点放在寻求一个基于MapReduce框架下的高效的实体解析算法。

二、研究现状和存在问题

实体解析的历程经一个一个缓慢的发展过程。

由最初的针对单行的实体进行去重，到发展到多个实体间的解析，最后发展到针对海量数据的实体解析。

当前的实体解析主要是基于特定方向领域的研究，如：

人名，地名，或者相关机构等。

通常是对非结构化的文本进行分析，利用自然语言处理方法探索文本中的词语，短句，以及实体的结构特征和内容特征，通过数据挖掘算法为这些信息建立联系，以解决实体解析中遇到的问题。

而对于针对海量规模的表格数据中的实体解析，所能查到的文献和实验结果并不多。

本项目旨在处理更加广泛的数据，而不局限于某一种实体。

对于处理海量规模的表格数据的实体解析来说，自有其特点：

1.表格中的实体属性并不多，只需要简单的自然语言处理，而且不必进行大规模的搜索匹配。

2.正是由于实体的属性并不多，所以实体很容易存在二义性

。

模糊的实体使得实体解析加大了难度，有时人工都难以辨别。

3.海量规模的表格数据必然需要寻求高效的并行算法。

在基于MapReduce框架的云计算中，如何进行分块，如何实现加载平衡。

4.针对相似度计算的算法中，对于判断相似的阈值是一个难以度量和确定的值。

故在本项目中，如何将实体的属性向量化，如何寻求一个好的相似度算法，显得十分的关键。

在目前的研究中，距离度量通常用于衡量个体在空间上存在的距离，距离越远说明个体间的差异越大。

主要包括以下几种：

　　1.欧氏距离是最常见的距离度量，衡量的是多维空间中各个点之间的绝对距离。

公式如下：

　　因为计算是基于各维度特征的绝对数值，所以欧氏度量需要保证各维度指标在相同的刻度级别。

2.明可夫斯基距离

　　明氏距离是欧氏距离的推广，是对多个距离度量公式的概括性的表述。

公式如下：

　　这里的p值是一个变量，当p=2的时候就得到了上面的欧氏距离。

3.曼哈顿距离

　　曼哈顿距离来源于城市区块距离，是将多个维度上的距离进行求和后的结果，即当上面的明氏距离中p=1时得到的距离度量公式，如下：

4.切比雪夫距离

　　切比雪夫距离就是当p趋向于无穷大时的明氏距离：

　　其实上面的曼哈顿距离、欧氏距离和切比雪夫距离都是明可夫斯基距离在特殊条件下的应用。

5.马哈拉诺比斯距离

既然欧几里得距离无法忽略指标度量的差异，所以在使用欧氏距离之前需要对底层指标进行数据的标准化，而基于各指标维度进行标准化后再使用欧氏距离就衍生出来另外一个距离度量——马哈拉诺比斯距离，简称马氏距离。

而在实体解析中，相似度度量主要是计算个体间的相似程度，与距离度量相反，相似度度量的值越小，说明个体间相似度越小，差异越大。

主要有以下几种相似度度量：

1.向量空间余弦相似度

　　余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。

相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上。

公式如下：

2.皮尔森相关系数

　　即相关分析中的相关系数r，分别对X和Y基于自身总体标准化后计算空间向量的余弦夹角。

公式如下：

3.Jaccard相似系数

　　Jaccard系数主要用于计算符号度量或布尔值度量的个体间的相似度，因为个体的特征属性都是由符号度量或者布尔值标识，因此无法衡量差异具体值的大小，只能获得“是否相同”这个结果，所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。

如果比较X与Y的Jaccard相似系数，只比较xn和yn中相同的个数，公式如下：

以上的相似度量和距离度量，都要考虑具体的数据和算法。

对于项目中选用哪一种度量方式，目前正在学习和探讨中。

主要参考文献：

[1]HectorGonzalezAlonHalevyAnnoLangenJayantMadhavanRodMcChesney,RebeccaShapleyWarrenShenJonathanandGoldberg-Kidon.

GoogleFusionTables:

Web-CenteredDataManagementandCollabration.InACMSIGMOD,2010.

[2]HectorGonzalezAlonHalevyAnnoLangenJayantMadhavanRodMcChesneyRebeccaShapleyWarrenShenJonathanandGoldberg-Kidon.

SocializingDatawithGoogleFusionTables.InIEEEComputerSociety,2010.

[3]LiseGetoor.EntityResolution:

Theory,Practice&OpenChallenges.InVLDBEndowment,2012.

[4]LarsKolb,AndreasThorandErhardRahm.Block-basedloadBalancingforMapReduce-basedEntityResolution.InACM,2011.

[5]AnishDasSarma,LujunFang,NitinGupta,AlonHalevy,

HongraeLee,FeiWu,ReynoldXinandCongYu.FindingRelatedTables.InACM,2012.

[6]PetrosVenetis,AlonHalevy,JayantMadhavan,MariusPas¸ca,WarrenShen,FeiWu,GengxinMiao,andChungWu.RecoveringSemanticsofTablesontheWeb.InVLDBEndowment,2011.

[7]HectorGonzalez,AlonHalevy,ChristianS.Jensen,AnnoLangen,JayantMadhavan,RebeccaShapleyandWarrenShen.GoogleFusionTables:

DataManagement,IntegrationandCollaborationintheCloud.InSoCC,2010.

研究方案：

本项目的主要理论基础是实体解析的相关知识与基于MapReduce下的并行处理。

背景知识涉及到数据挖掘的相似度计算，部分关于训练集的机器学习，以及云计算。

一、研究方法与步骤

首先，研究初期应大量阅读相关文献，充分调研相关研究，对项目需要的理论基础深入理解，为下一阶段的设计和实现打下坚实的基础。

有了研究初期的充分调研后，应该着手进行对各个模块的算法进行设计。

具体如下：

5.熟悉Hadoop平台上的MapReduce编程

6.寻找合适的实验数据源

7.找出并实现高效的相似度计算算法

8.实现实体解析后冗余，校错和合并等工作

最后对算法各模块进行代码实现，并对各模块进行连接和性能测试。

二、预期效果

毕业设计（论文）进度安排：

序号

毕业设计（论文）各阶段内容

时间安排

备注

前期相关研究调研及熟悉Map/Reduce编程

03.08—03.25

研究基于机器学习的训练集

03.25—04.15

设计并实现高效的相似度计算算法

04.15—04.25

各模块算法代码实现及模块间连接测试

04.25—05.15

撰写毕业论文

05.15—05.25

指导教师意见：

填写说明：

查阅资料是否全面，提出的研究方案和计划进度是否可行，还有什么需要注意和改进的方面，是否同意按学生提出的计划进行等。

指导教师签名：

审核日期：

年月日

摘要

实体解析，是指将一个实体与现实中的一个对象匹配。

实体解析技术通常是对实体进行多个相似计算来决定两个实体是否能够有效匹配。

然而，实体解析是一个非常昂贵的过程，对于海量数据集，可能需要几个小时甚至几天。

基于MapReduce的分布式处理框架，不仅能融合大规模集群的计算能力，而且能屏蔽繁复的细节，实现更加高效的大规模数据的处理。

本文给出在云平台上实现实体解析的方法。

一方面，提高实体解析的效率和代价；另一方面，改进实体解析的算法，使其相似度算法正确率更高。

本文重点关注三个方面：

一是实现具有通用性的相似性计算的选择，针对不同的属性采用不同的相似性算法，其中重点是研究基于语义的相似性算法，能较好的解决传统的相似性算法中的不准确性和较差的适应性；二是在云平台上实现节点间的负载平衡；三是通过机器学习训练相似性算法的阈值，提高准确率和召回率。

本文还介绍了基于上述模型针对商品数据的测试，并在测试中获得了良好的结果。

关键字：

MapReduce，实体解析，相似度计算，加载平衡

ABSTRACT

TheEntityResolutionisthetaskofidentifyingentitiesreferringtothesamereal-worldobject.EntityResolutiontechniquesusuallycomparelotsofentitiesbyevaluatingmultiplesimilaritymeasurestomaleeffectivematchdecisions.However,theEntityResolutionisaveryexpensiveprocessforlargedatasets,maytakeseveralhoursorevendays.

ThedistributedprocessframeworkthatBasedonMapRduceprograming,notonlycanintegratealargeclusterofcomputingcapacity,andcanshieldcomplicateddetails,toachieveamoreefficientlarge-scaledataprocessing.

ConsideringtheadvantageofMapReduce,thispaperaimstointroduceanewwaytosolvetheproblemofEntityResolution-onthecloudplatformtoimplement.Ononehand,toimprovetheefficiencyandlowerthecostoftheEntityResolution;Ontheotherhand,toimproveefficiencyoftheEntityResolutionalgorithm,andhigheraccuracyrateofsimilarityalgorithm.

Thisarticlefocusesonthreeaspects:

First,differentpropertiesusedifferentsimilarityalgorithmforachievingmoreuniversalsimilaritycalculation.Wefocusonthestudyofabettersolution-similarityalgorithmthatbasedonsemantic.Wecouldchangeinaccuracyandpooradaptabilityoftraditionalalgorithm.Second,achieveloadbalancingbetweennodesincloudplatform;Third,usemachinelearningtrainthresholdofsimilarityalgorithmtoimprovetheprecisionandrecallrate.

AccordingtotheperformanceofEntityResolutionModel,wemadeaninitialevaluationonthedatamodelbasedonthemodelforcommodities.Theresultsontestdataextractionwegetareoptimistic.

Keywords:

MapReduce，EntityResolution，SimilarityCalculation，LoadBalancing

摘要1

ABSTRACT2

目录3

1引言5

1.1研究背景5

1.1.1实体解析面临的挑战6

1.1.2研究意义和发展方向9

1.1.3促成原因9

1.2相关概念与研究现状10

1.2.1关于实体解析相关概念10

1.2.2研究现状10

1.3研究内容12

2项目的整体框架14

2.1项目的整体流程图14

2.2项目的输入输出格式15

2.3项目的使用平台16

3相似度算法的选择和使用16

3.1语义恢复后的选择16

3.1.1语义恢复工作17

3.1.2关键词的分类方法20

3.2相似度计算算法20

3.2.1编辑距离算法21

3.3.2基于语义的相似度算法23

3.3.3最后实现26

4机器学习训练阈值28

4.1支持向量机的原理28

4.2最后实现29

5加载平衡算法30

5.1原因和需求30

5.2解决方案32

5.3效率和评价34

6.云平台的搭建35

6.1MapReduce和HDFS简介35

6.2如何搭建Hadoop平台36

6.3使用Hadoop遇到的问题36

6.4项目实验结果37

7小结与未来工作39

7.1小结39

7.2未来工作39

附录1：

外文文献翻译41

外文文献原文41

外文文献译文59

1引言

1.1研究背景

实体解析（EntityResolution）是识别，连接，分组同一个真实世界中不同实体的表现方式，又叫做对象匹配（Objectmatching）,去除重复数据（deduplicaiton），记录链接（linkage）等。

实体解析的发展经历了复杂的过程，从单个的实体解析，到多关系多约束的实体解析，发展到现在分块的大数据的实体解析。

当前，实体解析在多领域都发挥着巨大的作用，如：

人口普查记录、垃圾邮件检测、机器阅读等。

随着互联网和移动终端设备的迅速发展，用户的数据显得越来越庞大和复杂，而处理起来必然需要消耗更多的资源。

在大数据的大背景下，实体解析面临新一轮巨大的挑战。

其中主要包括以下方面：

1）低效性，据研究调查表明，在一个大数据集中，大约只有10%的数据存在实体解析的必要。

2）大规模性，数据呈现海量性。

3）非结构化性。

每个用户或每个企业输入模式可能存在异构性。

这种情况下，可能导致名称/属性模糊不清，即存在二义性。

而另一些非结构的数据可能是

展开阅读全文