研究生论文开题报告基于隐私保护的多源数据挖掘高效算法研究本科论文.docx

资源描述

研究生论文开题报告基于隐私保护的多源数据挖掘高效算法研究本科论文.docx

《研究生论文开题报告基于隐私保护的多源数据挖掘高效算法研究本科论文.docx》由会员分享，可在线阅读，更多相关《研究生论文开题报告基于隐私保护的多源数据挖掘高效算法研究本科论文.docx（16页珍藏版）》请在冰点文库上搜索。

研究生论文开题报告基于隐私保护的多源数据挖掘高效算法研究本科论文.docx

研究生论文开题报告基于隐私保护的多源数据挖掘高效算法研究本科论文

研究生学位论文开题报告

题目名称：

基于隐私保护的多源数据挖掘高效算法研究

姓名：

学号：

专业名称：

研究方向：

攻读学位：

学院：

导师姓名：

导师职称：

填表时间年月日

填表说明

1．开题报告是研究生培养的重要环节，研究生需在认真完成。

2．完成时间：

硕士研究生的开题报告应于第三学期末前完成

3．打印要求：

此表用A4纸双面打印。

4．此表与中期考核审核表、成绩单、实践报告、学术活动列表等材料一起交于学院，参加中期考核

一、课题来源，国内外研究现状、水平及发展趋势，选题的研究意义、目的，参考文献

（一）课题来源

1、问题的提出

数据挖掘，顾名思义即是从大型数据库中提取人们感兴趣的知识，这些知识是隐含的、事先未知的、潜在的、有用信息，提取的知识表示为概念、规则、规律、模式等形式[1]。

数据挖掘要处理的问题，就是在庞大的数据库中寻找有价值的隐藏事件，加以分析，并将这些有意义的信息归纳成结构模式，提供给有关部门决策时参考。

目前已经提出的常用方法有关联规则、决策树、聚类、神经网络等方法。

然而，在对数据进行挖掘的时候，都不可避免的会出现敏感信息泄露的问题，随着数据挖掘技术的日益发展，数据隐私和信息安全逐渐引起人们的关注。

为了保护数据的隐私，人们不愿提供正确的信息给服务商，以免个人信息泄露造成不必要的麻烦，但是数据挖掘结果准确的重要前提是提供的数据正确。

由于数据挖掘主要任务是对汇总数据的模式开发，这使得构造一个不需要访问精确的单个信息而获得准确的模式的挖掘技术成为可能。

目前，基于隐私保护的数据挖掘技术已经成为一个新颖热门的研究领域，国内外已有很多成熟的研究算法和技术。

通过众多文献比对我们发现，目前已有的这些基于隐私保护的数据挖掘算法和技术大多是针对单源数据库进行挖掘和保护，而在实际应用中，有很多情况必须面对多个数据源。

例如，许多大型企业、跨国公司都拥有过个子公司，每个子公司都有自己相应的数据库。

这就迫切需要数据库挖掘系统具有针对多数据源进行挖掘和保护的能力。

已有的国内外文献中，针对多源数据进行挖掘的模型和算法已经出现，但是基于隐私保护技术的多源数据挖掘研究却很少提及。

这可能是由于多源数据挖掘本身的技术局限性，导致在对多个数据源进行挖掘时，泄露敏感信息都成为了不可避免的操作。

因此，本文在对当前已有的多源序列模式挖掘技术研究的基础上，分析结合并行和隐私保护技术的特点，提出新的基于隐私保护的多源数据挖掘高效算法，使得在多源环境下既可以高效率高准确度的挖掘出高投票率模式（全局模式），又可以隐藏敏感序列模式，达到较好的隐私保护效果。

（二）国内外研究现状、水平及发展趋势

1、隐私保护技术的研究进展

关于数据的隐私保护问题，首次是由AdamN等学者在《Security-controlmethodsforstatisticaldatabases:

Acomparisonstudy》[2]一文中提出，文章中提出了一种用扰动的方式来解决数据的隐私保护。

所谓“扰动”就是发布数据集失真，数据获得者无法通过其他途径构建出原始数据集，但是这个失真的数据集又仍然保持数据获得者所希望保留的某种特性。

基于数据失真的技术还有随机扰动、阻塞和凝聚等。

目前常用的隐私保护技术大多都是以统计模型和概率模型为主理论，应用在较低层次的数据隐私保护。

在分布式环境中，CliftonC等提出使用SMC（SecureMulti-partyComputation）安全多方计算加密技术保证数据的通信安全[3],这种基于加密的隐私保护技术可适用于科学计算、分布式安全查询、几何计算、分布式数据挖掘等应用。

当前，关于SMC的研究主要集中在减低计算开销、以SMC为工具解决问题以及优化分布式计算协议。

在国内，关于隐私保护技术的研究主要集中在基于数据失真或数据加密技术方面的研究，如基于隐私保护分类挖掘算法、关联规则挖掘、分布式数据的隐私保护协同过滤推荐、网格访问控制等。

（国内研究现状）

对数据进行隐私保护，主要可分为在数据发布过程中和在数据挖掘过程中进行。

目前已有的针对数据发布的隐私保护技术已经有很多，本文主要讨论数据挖掘中的隐私保护技术。

2、隐私保护数据挖掘的研究进展

数据挖掘中的隐私保护主要考虑两个方面的问题，一个是敏感的原始数据，一个是从数据库中提取出来的敏感知识。

这两种信息都应当在挖掘的时候进行删除，因为可能导致隐私泄露问题。

因此，隐私保护数据挖掘的主要目的就是用某种技术改进已有的数据挖掘算法来修改原始数据，使得敏感的数据和知识不被泄露。

目前，针对隐私保护数据挖掘的研究，国外已经有很多方法。

文献[4]采用数据扰乱技术，从训练数据中重构一个决策树分类器从而解决数据挖掘中隐私保护问题。

文献[5]提出了一种基于随机化的方法——随机响应技术，利用这种源于统计学研究中隐私保护的方法，来实现在不泄露隐私数据的情况下进行一定精度的建模，文中主要探讨了与ID3决策树算法结合进行分类的方法。

文献[6]讨论了一个利用不确定性符号进行数据阻塞并应用于关联规则挖掘的具体例子，这种情况下支持度和置信度分别用支持度区间和置信度区间代替。

文献[7]提出一个利用添加噪声数据对待挖掘数据库进行有效分类的框架，满足了对数据集中敏感信息方差和协方差的有效保护。

对于如何很好的平衡隐藏限制模式和揭露非限制模式，文献[8]中提出了一个基于隐私保护的频繁项集数据挖掘框架，对原始数据库进行了一定程度的安全清洗。

文献[9]针对交易型数据库，提出一个新的仅需要一遍扫描数据库的算法对原始数据库数据进行处理，使得既能达到保护隐私数据，又能挖掘出准确的关联规则，保留关联规则挖掘的益处。

由于在关联规则挖掘中，很容易从非敏感信息和原始未分类数据中推测出敏感信息，因此文献[10]提出了一个新的算法来平衡关联规则挖掘中的隐私保护和知识发现。

该算法对原始数据库进行两次扫描，不用考虑数据库大小和限制性关联规则数目。

针对分布式数据环境进行挖掘和隐私保护的研究是当前国内主要热门研究领域之一。

文献[11]中，从基于随机扰动、基于安全多方计算以及基于限制查询三个层次分类别讨论了现有的针对分布式隐私保护数据挖掘方法，对比各自优缺点，总结未来发展方向。

文献[12]中，总结了在分布式数据库特有环境下，如何解决数据安全性计算效率问题。

文献[13]中，结合随机数生成器和RSA公钥加密技术，提出了PPD-ARBSM算法。

该算法引入数据挖掘服务器和密码管理服务器，保证了敏感数据的安全性。

文献[14]中，针对分布式数据共享及计算中的隐私保护问题，提出了一种适用于大规模分布式环境的隐私保护计算模型（PPCMLS）,该模型的核心为隐私安全模块，将计算划分为本地计算和全局计算。

通过综合运用同态加密、安全点积协议、数据随机扰乱算法等多种安全技术，在实现了多个节点在一个互不信任的分布式环境下合作计算的同时，任何节点无法获取其他节点的隐私信息及敏感中间计算结果。

总体而言，这些研究还都处于起步阶段，具有广阔的发展空间。

文献[15]中提出一种分布式匿名数据扰乱方法APM，该算法是匿名数据交换机制下的数据挖掘隐私保护方法，在高密度共谋攻击的半诚实环境中有较好的鲁棒性，与SMC相比具有显著的效率优势和较高的灵活性和通用性，能应用于关联规则挖掘和聚类等多种场合。

然而现有的隐私保护研究大都是在关联规则方面，很少有针对序列模式方面。

序列模式挖掘包含时间因素，即每一个模式的元素之间存在先后顺序关系，因此序列模式挖掘增加了时间顺序的因素，在某些情况下的应用能挖掘出关联规则所无法挖掘的模式，提供更有效的挖掘结果。

本文提出的就是在多数据源环境下针对序列模式的数据挖掘算法，并尽可能的达到隐私保护效果。

目前国内外研究中，针对序列模式的挖掘算法和模型已有一些。

文献[16]在假设参与方都是半诚实基础上，强调了在一个类似二维站点的模式中隐私保护频繁模式挖掘出现的问题，提出一种基于半参与和不涉及加密的序列模式挖掘新方法。

针对已有的序列模式挖掘方法都是在数据库数据不发生任何改变的基础上进行的。

文献[17]中基于数据可随时更新的数据库动态变化，提出一种新的改进的序列树PS-tree，以解决改进的序列模式挖掘中出现的问题。

文献[18]利用密码学中同态加密和数字信封技术来达到在多方参与中不共享隐私数据的协同序列模式挖掘。

文献[19]以PrefixSpan算法为基础，结合分布式计算的特点，研究并提出了一种分布式序列模式挖掘算法DSPM（DistributedSequentialPatternMining），并针对分布式环境下信息传递耗费大、任务可并行执行等特点，对DSPM算法进行了进一步的改进。

研究并提出了一种分布式序列模式挖掘的隐私保护算法CLSD（CurrentLeastSequencesDelete），该方法通过删除原始序列来降低敏感序列的支持数达到隐藏敏感信息的目的。

基于隐私保护的序列模式挖掘算法研究目前还比较少，文献[20]中首次提出了三个敏感序列隐藏算法一MSA、MSRA和SDRF。

这三种算法借鉴了关联规则隐藏的思想，通过删除原始序列降低支持数的方式实现了敏感序列的隐藏。

但MSA和MSRA算法在选择被删除序列时没有做任何优化，SDRF对候选删除序列只进行了基本的筛选，仍存在删除原始序列过多的问题，而且算法引入的预期最低支持度可能会导致敏感序列隐藏失败情况的出现。

已有的这三种敏感序列隐藏算法均采用了预期最低支持度来保证敏感序列的隐藏，它们在删除过程执行之前就确定好了被删除的原始序列，不能够动态反映出已删除序列对未删除序列的影响，没有考虑先删除序列对后删除序列的影响，会删除掉一些不必要删除的序列。

因此针对这一特点，文献[21]提出一种有效的敏感序列隐藏算法CLSDA（currentleastsequencesdeletealgorithm），该算法对候选序列加权，在删除序列的过程中随时更新权值，使用贪心算法获得局部最优解，尽可能减少对原始数据库的改动。

文献[22]提出一种基于隐私保护的序列模式挖掘算法PP-SPM。

算法以修改原始数据库中的敏感数据来降低受限序列模式的支持度为原则，首先构建SPAM序列树，根据一定的启发式规则，从中获得敏感序列，再进一步在原始数据库中找到敏感数据，对其做布尔操作，实现数据库的清洗。

文献[23]中提出一个基于数据清洗的敏感序列模式隐藏算法，该算法通过计算事务组影响权值，选取对非敏感序列模式影响最小的事务组进行清洗，从而在确保隐藏敏感序列模式的同时，尽量减少对非敏感模式集的影响。

从以上两个大的数据挖掘发展现状分析，可以看到大多是针对单一数据源提出的各类算法和技术，然而随着互联网信息的高度共享和实际应用的需求，多源数据挖掘已经逐渐成为数据挖掘领域新的进展方向，针对此领域的研究，将更好的应用于金融安全等各个行业和组织。

3、多源数据挖掘的研究进展

目前对于多数据源数据挖掘问题的研究，国内外文献中涉及的都比较少。

对于多源数据挖掘，为了有效从多数据库挖掘全局序列，必须首先挖掘每个本地DB的信息，在本地层次上总结整合。

一般情况下，多源数据挖掘可分三步进行：

1）对多数据源进行分类；2）挖掘每个数据库的知识；3）把同类数据库挖掘到的知识进行合成。

由于多源数据挖掘中必须面临众多不同大小的数据集，文献[24]提出一个可供选择的多源数据挖掘技术，仅选择支持度大于给定阈值的若干相关性大的数据库进行挖掘搜索。

该方法主要针对多源数据挖掘步骤中第一步分类进行，有效的缩短了搜索代价。

随后，文献[25]中又提出一种根据用户查询从多源数据库中搜索用户感兴趣知识的方法，这一过程仅在被选择数据库中进行挖掘检索信息。

以上所采用的方法和技术构成了目前已有的针对多源数据环境进行挖掘的主要模式，我们将其称为传统的多源数据挖掘技术。

总结可知，其挖掘过程可分为三步进行：

1）通过数据选择从众多数据库中选择其中有相关性的若干数据库；2）利用数据合成技术将这些选中数据库合为一个单一数据集；3）对这个巨大的单一数据集采用单源数据挖掘算法，得到最终的模式集。

文献[26]介绍了一种将INLEN系统扩展到多源数据环境下进行知识发现的方式。

现有的并行挖掘技术有些也可以用来解决多源数据挖掘问题[27-31]。

多源数据挖掘中的模式主要可分为四类：

1）局部模式；2）高投票率模式，高投票率模式也就是通常所说的被用来制定全局决策的全局模式；3）异常模式；4）支持模式。

通过比较分析发现，传统的多源数据挖掘技术对于鉴定多源数据库中出现的两类新的模式（高投票率模式和异常模式）非常不适用。

因此，文献[32]综述性的阐述了多源数据挖掘中的若干问题和难点，介绍了多源数据挖掘和单源数据挖掘的差别，提出了针对多源数据挖掘的基础框架MDM和只在多数据源挖掘中才可挖掘出的具有深度意义的高投票率模式和异常模式的概念。

新型的多源数据挖掘框架MDM对传统的多源数据挖掘过程的不足进行了改进，它更关注于局部模式分析。

具体分三步进行：

1）寻找全部数据库的较好的分类；2）从局部模式中鉴定出两种新模式类型：

高投票率模式和异常模式；3）根据权重合成局部模式。

文献[33]基于之前工作提出了从多个统计类和交易类数据库中挖掘特性模式的方法。

这一特性模式不同于异常模式，它代表了所有局部数据库中某一普遍模式。

当前的局部模式分析可以从多源数据库中发现高频率的模式，但是仍然存在两个关键问题妨碍其扩展应用范围：

1）从因特网收集的数据质量较低，无法区分是否为有用模式，且大多数据是不一致的，这就需要分布式数据挖掘技术来解决，并且必须在数据挖掘之前解决数据不一致，于是提出了数据预处理的需求；2）多源数据库中鉴定出潜在有用模式的有效算法仍未提出，传统的多源数据挖掘是利用单源数据挖掘技术（即将从相关数据源中获得的所有数据全部聚集到一个大型数据集中进行挖掘），这将破坏有用模式，并且利用局部模式分析时，将产生大量局部模式，时间空间消耗大。

传统的基于支持度的序列模式挖掘不能总结出局部信息，效率较低。

为了解决这一问题，文献[34]中提出一个可选择的本地挖掘方法在多DB中发现本地DB中的近似序列模式——近似序列模式挖掘ApproxMAP算法。

该算法的挖掘步骤是：

根据相似度聚合序列；

通过多序列比较从每个聚群中挖掘一致模式；

针对人造和真实数据进行试验系统研究算法的性能。

目前对于从多源数据库中挖掘全局关联规则的方法已经有不少学者研究提出相关算法。

文献[35]提出一种根据权重从不同数据来源数据库中发掘合成高频率关联规则，文献[36]是从多数据源中鉴定发现全局异常模式。

文献[37]提出一种在多源数据挖掘库中挖掘异常模式的有效策略，其挖掘时间复杂度和空间复杂度分别为

和

，其中m代表数据库分类个数，n代表每个分类中局部模式数，l代表分类中长度最长的数据库的长度。

国内方面对于多源数据挖掘的研究还很少，文献[38]应用聚类思想，提出一种独立于应用的数据库分类方法，有效的在多源数据挖掘初始步骤将多数据库合理划分成若干类。

文献[39]主要针对多源数据挖掘中第三个步骤模式合成提出了一个新的算法，对多源数据先进行预处理，选取有用规则，删除掉冗余和噪声之后，在利用各个规则的权值来合成多数据源中的关联规则。

文献[40]提出了一种基于聚类技术的多数据源记录匹配算法，该算法运用了专门针对大型数据聚类的罩盖聚类技术，大大减少了计算量，提高了多源环境下记录匹配的效率。

然而对于从多源数据库中挖掘出全局序列模式的研究仍旧为空，因此这也是本文和今后将要研究的重点所在。

分析可知，已有的许多著名的序列模式挖掘算法，如GSP[41]、PrefixSpan[42]、SPADE[43]和SPAM[44]等，都能够有效的挖掘出满足最小支持度的序列模式。

可是当将这些算法移植到多源数据环境中后，由于序列模式大量积累产生的内在局限性使得这些算法对于多源数据库并不适用。

主要存在以下三方面问题：

1）许多常规方法挖掘序列模式的完整集合，容易产生大量、琐碎的短模式，近来挖掘相对紧凑的序列模式表达式已经被逐渐提出[45]；2）常规方法挖掘序列模式需要精确匹配，但实际中并不是所有客户的购买习惯都完全相同，必然在模式之间会存在一定差异度，若只进行精确匹配，很容易挖掘出大量繁复的无可借鉴价值的短模式；3）仅支持度不能够区分统计上显著的模式和随机事件，许多短模式均意外更改，这种机率发生比较频繁。

文献[33]提出的一些诸如周期性、随机依赖关系和模式等在多源数据库中都是隐藏不可发现的，不能够简单的使用单一挖掘方法进行。

因此文献[34]中提出了可借鉴的近似序列模式匹配算法，即将从各个局部数据库中挖掘出的局部模式做近似匹配，得到具有满足一定支持度阈值的近似一致模式，以这个模式作为局部数据库的代表，来进而构造全局模式。

并在挖掘中得到高投票率模式和异常模式两类有用模式序列。

文献[46]提出一种针对多源数据环境的数据库分类技术。

文中将多数据库中的所有局部数据库根据其两两之间的相似度划分成若干聚类，再根据算法得到最优分类。

实验可知，相比较传统的从每个局部数据库中挖掘局部序列模式再进行合成的步骤而言，文中提出的从这些分类中再进行局部序列模式挖掘，可以从很大程度上减少搜索代价。

为了在多源数据库中挖掘出更加有价值的信息，发现高投票率模式和异常模式的局部模式合成技术已经在很多文献中被提出，如前面提到的[35,36,37]等。

综上所述，对于多源数据挖掘的研究，未来的研究方向将在如何评估全局序列模式挖掘和如何在挖掘的同时保证隐私信息不被泄露。

考虑到真实的携带有用全局模式的序列数据在众多可得到数据中都是非常小的，即使在局部序列模式挖掘中其挖掘难度也是非常大的。

因此，未来对于全局挖掘算法的更加系统有效的评估方法还有待研究，并且对于如何从真实多源数据库中生成有用全局模式还有很大的研究空间。

实际生活中，由于多数据源数据挖掘和隐私保护同样重要，因此更加需要在多源数据环境下保证数据安全，所以今后的研究重点将在基于隐私保护技术的多源数据挖掘技术和方法领域展开。

（三）选题的研究意义与目的

随着数据挖掘技术的日趋成熟，其应用范围已逐渐从已有的单一数据源逐步向多数据源发展。

考虑单数据源和多数据源差异，针对多源数据库独有特点提出的多源数据挖掘算法和技术已经是当前数据挖掘领域的一个新兴研究热点。

然而，分析可知，当前已有的多源数据挖掘算法技术主要存在以下两方面空缺：

一是这些已有算法大多是针对关联规则提出的，对于带有时间顺序的序列模式挖掘研究还较少，且只保证挖掘精度而未考虑挖掘速度；二是在这些已有多源数据挖掘算法中几乎没有涉及考虑隐私保护问题。

针对以上两个特点，本文的研究一方面着眼于将已有成熟的序列模式挖掘算法进行改进，结合并行技术设计研究多源环境下高效、高准确度的序列模式挖掘模型和算法，另一方面考虑在多源数据挖掘有效高投票率模式（全局模式）的同时，结合隐私保护技术，将敏感序列模式进行隐藏，达到既从多源数据环境中挖掘有用序列模式，又在一定程度上进行敏感信息保护的目的。

（四）参考文献

[1]JiaweiHan,MichelineKamber.DataMiningConceptandTechniques.数据挖掘概念与技术[M].北京:

机械工业出版社,2001.

[2]AdamN,WortmannJ.Security-controlmethodsforstatisticaldatabases:

Acomparisonstudy[A].ACMComputingSurveys,1989,21（4）:

515-556.

[3]CliftonC,KantaricioglouM.Toolsforprivacypreservingdistributeddatamining[A].ACMSIGKDDExplorations,2002,4

（2）:

28-34.

[4]R.Agrawal,R.Srikant.Privacy-preservingdata-mining[C].//ProceedingsofACMSIGMODonManagementofData.Dallas,2000:

439-450.

[5]W.Du,Z.Zhan.Usingrandomizedresponsetechniquesforprivacy-preservingdatamining[C].//ProceedingsofThe9thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.WashingtonDC,2003:

505-510.

[6]YucelSaygin,VassiliosS.Verykios,AhmedK.Elmagarmid.Privacypreservingassociationrulemining[C].//Proceedingsofthe12thInternationalWorkshoponResearchIssuesinDataEngineering.2002:

151-158.

[7]Md.ZahidulIslam,LjiljanaBrankovic.AFrameworkforPrivacyPreservingClassificationinDataMining[C].//ProceedingsofthesecondworkshoponAustralasianinformationsecurity,DataMiningandWebIntelligence,andSoftwareInternationalisation-Volume32,Pages163-168.

[8]SRMOliveira,ORZaïane.PrivacyPreservingFrequentItemsetMining[C].//ProceedingsoftheIEEEinternationalconferenceonPrivacysecurityanddatamining-Volume14,Pages43-54.

[9]SRMOliveira,ORZaïane.ProtectingSensitiveKnowledgeByDataSanitization[C].//Proceedingsofthe3thIEEEInternationalConferenceonDataMining（ICDM'03）,pages613-616.Nov2003.

[10]SRMOliveira,ORZaïane.AlgorithmsforBalancingPrivacyandKnowledgeDiscoveryinAssociationRuleMining[C].//Proceedingsofthe7thInternationalDatabaseEngineeringandApplicationsSymposium,pages54-63.July2003.

[11]刘英华,杨炳儒等.分布式隐私保护数据挖掘研究[J].计算机应用研究.2011,28（10）:

3607-3609.

[12]张宏壮,王建民.分布式数据库保持隐私挖掘方法[J].计算机工程与设计.2008,29（14）:

3684-3686.

[13]桂琼,程小辉,饶建辉.基于RSA的隐私保护关联规则挖掘算法[J

展开阅读全文