ImageVerifierCode 换一换
格式:DOC , 页数:4 ,大小:8.30KB ,
资源ID:2508814      下载积分:1 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-2508814.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据环境下隐私保护的研究现状分析.doc)为本站会员(wj)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

大数据环境下隐私保护的研究现状分析.doc

1、摘 要:随着互联网技术的飞速发展,整个社会被推入“大数据”时代。大数据中蕴藏着巨大的价值,是企业的宝贵财富。但大数据同时也带来了极大的风险与挑战,隐私保护问题就是其中之一。人们在网络中留下的数据,可能会被恶意分子利用,造成意外的麻烦和经济损失。首先介绍了大数据的发展背景,讨论了大数据带来的隐私泄露的风险问题;然后分析了当前用于隐私保护的关键技术;最后提出了隐私保护技术的进一步研究方向。关键词: 大数据; 大数据隐私; 隐私风险; 隐私泄露; 隐私保护技术中图分类号:tp311 文献标识码:a 文章编号:1009-3044(2016)18-0029-03analysis of the resea

2、rch status of privacy protection under the environment of big datali chao(college of information science and engineering, shandong university of science and technology, qingdao 266590, china)1 引言1998年图灵奖的获得者jim gray曾经断言,现在每18个月新增的数据量等于有史以来数据量之和。统计发现,每天有40亿以上的信息在脸书上被用户分享,google搜索平均每分钟被使用1亿2千万次。除此之外,在

3、it、金融、教育、医疗、能源等各领域都在不断产生海量数据。大数据的产生使数据分析与应用更加复杂,难以管理。这些数据包括不同类型,例如:视频、图片、文档、微博等,其中仅有20%是结构化数据,80%是非结构化数据。数据的爆炸式增长使数据安全和隐私保护问题日渐突出,各类隐私泄露事件给企业和用户敲响了警钟。在数据的整个生命周期里,企业应当遵守更严格的安全标准和保密规定。网络和数字化生活的普及也使得黑客更容易获取他人信息,有了更多不易被追踪和防范的手段,然而现有的法律法规仍没有建立完善的管理体制,当前的技术手段也无法彻底解决此类问题。因此,在大数据环境中,数据安全和隐私保护是一个不容忽视的重要问题。很多

4、机构同样认识到大数据隐私问题,由于大数据的发展,隐私保护有了新的内涵,传统的隐私保护技术已经不能适应新的问题。我们要重新定义什么是大数据隐私,思考如何保护数据隐私。本文首先探讨了隐私保护的研究现状,重点分析了隐私保护的关键技术,经过归纳对隐私保护下一步的研究方向与重点工作进行了探讨。2 数据隐私的风险“最初我们民主制度的核心就是隐私,在大数据时代我们比以往任何时候更需要它”奥巴马曾经在消费者隐私条例发布会上这样说过。互联网已经成为我们生活中必不可少的一部分,人们在网络中留下了大量的数据足迹。电商、电信或第三方企业可以通过浏览器、手机,甚至是信用卡轻松的跟踪记录用户的浏览历史、购物记录和行为偏好

5、。许多信息都会在用户无意识的状态下被发送到第三方,前提仅仅是一台联网的智能终端。隐私泄露在大数据环境下变得防不胜防,淘宝、京东通过购物网站获得用户的采购记录,用户的搜索记录也会被google、百度轻易获取,社交工具更是可以提取用户的联系人网络,服务商可以根据用户的这些信息定向的推送广告。除了用户的行为信息在使用网络软件的时候被泄露,由于移动通信和传感器的飞速发展,用户的位置信息,甚至身份信息都将不再保密。通过智能手机可以快速定位用户的实时位置,宾馆、超市、小区等公共场所的摄像头也时刻记录着我们的出入行为。移动社交网络的一些新兴应用也都有通过手机获取用户位置的功能,并且可以发布任意时刻用户所处的

6、位置信息1。隐私泄露的威胁不仅限于暴露个人信息,更在于这些泄露的信息所带来的后果。大数据的一个重要功能就是分析和预测,这些泄露的信息同样可以用来预测用户的行为状态。例如,通过分析购物记录,电商可能比丈夫更了解妻子喜欢什么款式的衣服,可能比父母更早知道女儿已经怀孕。通过泄露的医疗信息,可以推断出用户的隐私病症,通过分析社交网络,可以分析用户的兴趣爱好,甚至通过对推特信息的挖掘,用户的消费习惯和政治倾向都将被披露2。所以用户数据的泄露不仅可能威胁个人的生活安全,甚至会影响社会稳定。 3 隐私保护关键技术分析大数据隐私保护的中心就是隐私保护技术,技术是隐私保护最直接最有效的手段,然而相对来说,正是由

7、于大数据的多样性和复杂性,隐私泄露的很多途径都不可预知,目前很难找到一种完全的技术来应对各种环境。现有的隐私保护技术分为3类:基于数据失真的技术(集中于差分隐私保护)、基于数据加密的技术和基于限制发布的技术(集中于数据匿名化)。3.1 数据匿名化技术对数据和数据源进行隐藏或者模糊处理的技术就是匿名化技术,这种技术采用的是限制发布的方案。在大数据环境下,结构化数据发布时,其隐私保护的关键技术就是数据匿名化技术。该技术一般有多种方法对数据进行匿名化处理。k-匿名3是一种比较经典的匿名化方法,这种技术是首先通过泛化的方法将所要发布的关系数据划分为多个等价类,重点是每个等价类都必须包含不少于k条相似数

8、据,也就是说,在等价类中,任意一条数据都无法和其他k-1条数据区分。但是k匿名的缺陷也很明显,敏感属性是等价类中的重要因子,但k-匿名没有对此进行约束,所以当某个等价类的敏感属性取值相同的时候,这种技术便会失效。l-diversity4匿名是一种对k-匿名的改进技术,l-diversity通过裁剪算法5和数据置换6等方法来对敏感数据出现的频率进行平均,这样就有效的改进了k-匿名的缺陷,l-diversity一般要求敏感属性的数据量不小于l,这样才不会因为敏感数据波动较小而使平均化失去意义。现实情况中的数据发布通常是动态的、多次性发布,而无论是k-匿名,还是l-diversity都是基于静态的、

9、一次性发布的情况,所以这两种技术并不足以应对复杂的数据发布。除了关系型数据发布,社交网络的数据发布也是数据匿名化的重要研究方向。不同于结构化数据,社交网络中的数据通常是非结构化数据,大量的敏感信息藏在这些非结构化数据中,例如图结构、链接关系等。通过这些敏感属性,可以定位到具体某个用户,所以对社交网络数据的保护还要注意为用户身份标识匿名和属性匿名,通过隐藏用户标识和属性来保护用户的身份信息安全。3.2 数据加密技术云计算的发展大大方便了大数据的处理,云平台也逐渐成为大数据存储的平台,那么如何保障存储在云平台中的数据的安全性也成为隐私管理不得不关注的部分。针对云平台存储的数据保密,目前主要是通过数

10、据加密来实现。同态加密、功能加密、安全多方计算都是一般常见的加密算法。文献7基于同态加密技术提出了键-值存储和多级索引处理的方案,这种方案使得用户查询时的结点无法被数据持有者或者云平台所识别。对称加密和非对称加密的算法8是目前比较流行的密文检索技术。1)信息的加密和解密都需要密钥,对称加密是指在对信息加密和解密时选择相同的密钥,这样做能够有效减小计算开销,提高加密速度,能较好的保证数据的机密性,无论是海量数据或者少量数据都能够适应,这种加密算法是目前的主流方法。但是这种方法同样存在缺陷,面对密钥数量的增加,用户管理密钥会变得越来越难,而且因为双方使用相同的密钥,该密钥泄露的风险也比较大。除此之

11、外,这种加密方法并不适合在分布式网络中使用。2)不同于对称加密,非对称加密则是加密和解密双方选择不同的密钥,这样是密钥的管理变得简单有效,加密和解密也不在相互影响。这种方法在数字签名和身份认证等方面发挥着比较明显的作用。它的缺点是算法复杂,数据加密的速率较低。上述数据加密研究为大数据隐私保护提供了新的思考方向,然而无论是数据加密还是数据匿名化,都是在对数据隐私进行被动式保护。数据加密在大数据的大规模性和多样性特点的影响下陷入怪圈,必须新的加密方法才能更有效地保护数据。3.3 差分隐私技术差分隐私技术是一种基于数据失真的技术。这种技术与前面介绍的两种技术不同,前两种技术并不具有普遍适用性,他们都

12、缺乏数学基础,都是针对外部攻击设计的保护方法,并不能够完美的应对新的攻击,也没有准确地对数据隐私和损失进行定义。而差分隐私9技术恰好弥补了这个缺陷,差分隐私保护通过添加噪声使数据失真,从而起到隐私保护的目的,这是一种由数学基础支撑的、新型的隐私保护技术。隐私参数是差分隐私技术的关键参数,这个参数通过控制隐私保护程度来确保输出结果不会因为在数据集中插入或删除某条记录而受到影响,从而控制了隐私损失。这种技术在目前的数据发布和数据挖掘领域发挥了重要作用。学术界认为差分隐私与大数据具有天然的匹配性,因为大数据的大规模性使得数据整体很难受到局部数据集的增删的影响。这个特点正好契合了大数据环境下隐私保护的

13、需求。4 进一步研究方向4.1 数据匿名化方面在大数据环境下,数据源具有多样性和动态性等特点,这些特点会关联到多个数据属性,这些数据属性之间的相关关系会对模式语义进行演化,模式语义正是数据集成过程中的核心操作。所以数据匿名化的下一步研究热点将是在数据模式多样性的前提下,如何控制模式演化以达到相关性的匿名。而且,现在的许多新型计算框架的出现,也对匿名化提出了新的要求,如何将现有方法应用到新型框架中也是一个重要的研究方向。4.2 数据加密方面大数据可以从多渠道获得,数据通常是存储在云平台上的,因此私密性保护的关键就是如何保证在存储过程中的数据安全。与我们的假设不同,在现实世界中,不安全的云平台是切

14、实存在的,在这种平台上,用户的数据和隐私都有可能被披露。基于此,数据加密领域的一个重要研究课题是如何通过公钥加密、功能加密、同态加密等技术来保护数据隐私和三方交互隐私。4.3 差分隐私方面在差分隐私保护技术中,隐私参数非常重要,这个参数直接决定了差分隐私的效率,它决定了数据隐私性和可用性。然而,这个参数还不能做到对二者的充分平衡。所以,设计一个合理的隐私参数是差分隐私技术的有价值的研究方向。 5 结论大数据的迅速发展,不仅给我们带来了机遇,同时也带来了巨大挑战。数据隐私保护就是其中之一。本文首先讲述了数据隐私泄露的风险,然后分析了现有的几种主流隐私保护技术,最后提出了几种技术的进一步研究方向。大数据的隐私保护还处于起步阶段,完全保护个人隐私依然无法实现,而且隐私管理不仅仅是技术方面的问题,它还涉及法律法规、监管模式等诸多方面,因此需要学术界,企业界以及政府部门的共同努力才能实现。

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2