大数据时代中的去匿名化技术及应用.docx

资源描述

大数据时代中的去匿名化技术及应用.docx

《大数据时代中的去匿名化技术及应用.docx》由会员分享，可在线阅读，更多相关《大数据时代中的去匿名化技术及应用.docx（8页珍藏版）》请在冰点文库上搜索。

大数据时代中的去匿名化技术及应用.docx

大数据时代中的去匿名化技术及应用

孙广中1魏燊1谢幸2

【摘要】摘要首先通过案例说明隐私保护的重要性，然后介绍隐私保护中常用的匿名化方法，并针对评分推荐系统、社交网络和博客分别介绍有效的去匿名化方法。

表明在大数据时代下虽然数据的公开有利于学术研究，但是也需要加强考虑隐私保护的问题。

【期刊名称】信息通信技术

【年（卷）,期】2013（000）006

【总页数】6

【关键词】关键词大数据；去匿名化；隐私保护

引言

随着互联网的发展，互联网用户不断增多，如今大数据时代已经到来。

网络上保存了用户大量的信息，而且其中有越来越多的数据记录在网络上公开。

这些公开的数据集，一方面方便了研究人员进行相应的研究，另一方面挖掘到的信息也可为提供数据的互联网公司带来更好的效益和服务。

这些数据不仅包含很多用户个体的行为信息，还包含用户的敏感信息，用户的这些信息并不想让其他人知道，比如医疗数据、交易数据等。

在数据发布前发布者肯定会进行有关匿名化操作，将与用户有关的信息删掉，比如姓名、身份证号、手机号或者账号的ID，但即便这样也不能完全保证隐私的安全。

1去匿名化真实案例

美国在线AOL在2006年曾公布了3个月近2千万条真实的搜索记录，里面包含搜索的条目、时间以及点击的链接，虽然记录中并没有真实姓名，全部替换为一个数字，但是记录的其他内容并没有做过任何处理，完全是人们真实的搜索记录。

搜索的内容很可能涉及到个人隐私的敏感信息，与特定用户有着密切的联系。

诸如“尿布”这样的搜索，可以让人轻易地推断出用户是一名婴儿的父母，记录中包含很多歌曲名字也可以猜出用户是一名音乐爱好者。

这些仅仅是猜测，但是真的有人根据搜索内容确定了用户的真实身份并被纽约时报进行了报道，如图1所示。

纽约时报的记者观察到其中编号为4417749的用户搜索了包括“麻木的手指”、“60岁的单身男子”、“在各种东西上小便的狗”、“里尔本市的园丁”等等话题，还搜索了姓阿诺德的很多人名。

随着看到越来越多的记录，记者经过很少的调查和搜索，就将该用户锁定为一位住在里尔本市的62岁的寡妇。

她的名字叫西尔玛·阿诺德，养了三条狗，而且经常帮朋友搜索一些疾病信息。

她听说AOL保存并公布了一些用户三个月的记录时，表示非常吃惊：

这些记录都是关于一个人的私人生活的，可是之前却从不知道这些会被别人看到[1]。

AOL虽然4天后从网站上删除了这些数据并为此致歉，说这是一个小组擅自公开的，本意是想有利于学术研究。

但是这份数据已经在网络上传播开来，有很多地方都提供下载[2]。

图2中即为一个保留有AOL数据的网站，在上面仍然可以搜索用户的记录。

如果有人继续研究下去，可能会确定更多的人。

由此可见公开数据之前的隐私保护工作十分重要。

下面将介绍对数据的匿名化方法，并通过实验着重介绍隐私数据的去匿名化方法。

2匿名化的方法

数据挖掘上保护隐私的方法可以分成以下几类[3]。

1）扰动和泛化的方法[2]。

扰动是对原数据中正确的数值做一些变换，比如加上一个随机量，而且当扰动做完后，要保证分析扰动数据的结果和原数据的结果一致。

泛化是指从一个合适的范围内选择新值将原值替换，例如将日期随机替换为一年内的某一天。

许多未经过处理的数据都包括用户的姓名、身份证号等，这些属性在公开前可以直接删除，也可以看作泛化的一种形式，即把范围当作无限大。

2）K匿名化和l多样性的方法。

定义准标识符（Quasi-dientifier,QI）是由数据集上若干个属性构成的集合，通过准标识符可以充分识别唯一一个个体，例如身份证号。

K匿名化通过扰动和泛化的方法使得每一个准标识符都至少对应k个实例，这样就不能唯一识别，从而保护了用户的隐私[4]。

表2为对表1的数据进行4匿名化得到的数据，即便攻击者知道一个病人的年龄住址等信息，也很难知道病人真实的病情。

l多样性是k匿名化的一个变种[5]，它在K匿名化的基础上又确保准标识符相同的实例在敏感属性的值上有l个不同的值。

比如表2中的最后一组数据，4位病人都得的是癌症，这样k匿名化就没有起到作用，攻击者如果想知道10号患者的病情，还是可以通过匿名化后的数据得到。

3）分布式隐私保护。

大型的数据集可以在被分割后发布。

划分可以“水平”地进行，例如将数据分成不同的子集分别在不同的地方公开；也可以“竖直”地进行，例如按照属性划分成不同的数据集再公开，或者两者结合起来。

例如表1中的信息，可以根据不同的需要只公布年龄和身体状况的信息，或者只公布性别和身体状况的信息。

4）降低数据挖掘结果的效果。

在很多情况下，即便数据无法被获取，数据挖掘的结果（比如关联规则或者分类模型）仍然有可能泄露隐私。

为此可以隐藏某些关联规则或轻微改变分类模型来保护隐私。

5）差分隐私保护的方法[6]。

它是研究人员最近提出的，基本思想是通过添加噪声的方法，确保删除或者添加一个数据集中的记录并不会影响分析的结果；因此，即使攻击者得到了两个仅相差一条记录的数据集，通过分析两者产生的结果都是相同的，也无法推断出隐藏的那一条记录的信息。

3去匿名化的方法

3.1针对推荐系统评分数据的去匿名化[7]

Netflix在2006年为改善电影推荐服务，公布了部分用户评分的数据集，其中包括用户对电影的打分和打分日期。

可以将数据集看成一个矩阵的形式，每一列都代表一部电影，每一行代表一个用户对电影的打分情况。

数据集中包含约500000个用户，每个用户看过的电影以及评分都不尽相同，打分的电影相似程度都很低，因此，又可以把这个数据集看作稀疏矩阵。

因为电影的数量很多，数据集维度太高，并不存在准标识符，K匿名化在这个数据集上并不适用。

在这个数据集中，假定攻击者知道一个人看过的几部电影，希望可以找到他看过的所有电影记录，即识别出这个人，而我们也希望知道最少需要知道几部电影就可以有较高的正确率。

攻击者首先通过计算自己的信息和数据集中每一个用户信息的相似度，然后选择相似度最高的作为结果。

相似度的计算其实是通过分别比较每一部电影的相似程度而得出，如果攻击者想识别的用户和数据集中的一位用户对同一部电影的评分和日期相差在一定的范围内，比如日期相差不到14天，评分相等，则认为两者相似。

为使算法更加健壮，规定相似度最大的值必须远高于相似度第二大的值，这样不但更好区分候选的用户，也能更好地判断攻击者知道的用户是否在数据集中。

另外可以区分电影的冷热程度，如果一部电影看的人很多，则这部电影对相似度的权重就会小一点，反之冷门电影对相似度起到的作用会大一些。

最后的实验结果表明，通过8部电影的评分，和误差允许14天的评分日期，就可以唯一标识数据集中99%的用户；通过2部电影，68%的用户可以被标识出来。

即仅通过2到8部电影，就可以识别出这个用户。

而一个人8部的电影记录很容易获得，通过与其聊天或者查看博客就有可能得到。

3.2针对图结构数据的去匿名化

社会网络在近几年非常流行，其中的数据也是另一类被研究很多的数据。

与矩阵不同，它首先包括一个有向图或者无向图，图中节点表示网络中的实体，边表示实体间的关系，图的点和边也会有不同的属性。

社会网络的数据除了组织机构公开在网上的，还可以通过社交网站提供的应用程序接口（API）自己进行爬取。

匿名化的方法主要有随机的删除边和增加边，还有对点和边的属性进行K匿名化等。

社会网络的去匿名化主要针对的是节点的去匿名化，识别一个节点就是获得一个人的真实信息。

对于社会网络的去匿名化方法可以分为两类[8]，一类是基于映射的方法，另一类是基于猜测的方法。

基于映射的方法是将攻击者了解的或爬取得到的真实网络结构与公开的经过匿名化的网络结构数据做节点匹配。

基于猜测的方法则是利用攻击者已知的背景知识在公开数据中找到符合的一个或多个节点。

3.2.1基于映射的方法

在映射的方法中攻击者假定了解少量用户的详细信息，而且通过爬虫等方法也得到了网络中大量的用户和关系，最终希望能把公开网络中与自己获取的网络中节点一一对应起来。

根据攻击者的方式可以将其分为主动攻击和被动攻击，主动攻击的方法是在数据发布之前攻击者就创建一定数量的账号并使他们各自成为好友关系，这样形成一种很容易分辨出来的形式，在数据匿名发布后，首先找到这些点的映射，之后以此为中心对其他节点进行去匿名化也比较容易[9]。

被动攻击则是需要获取其他相关信息，比如其他热门社交网络的数据，来帮助实现映射的过程。

文献[10]中，作者虽然开始也需要对少量节点进行匹配，但并没有使用主动攻击的方法来实现去匿名化，而是通过一种基于反馈的自增强方式进行匹配的。

具体算法分为两步。

1）种子的识别。

首先攻击者利用少量用户的详细信息，包括每个节点的度、每对节点公共邻居的数量等，在公开网络中寻找相似的结构，完成对这些少量节点的映射。

2）扩散。

利用第一步中得到的映射关系，不断找出新的节点映射关系，并加入到原有的关系中。

通过在twitter和flicker上进行的实验，结果表明一个拥有这两个账号的用户在匿名的twitter上被识别的错误率为12%。

而且在错误的映射中，41%映射到了真实目标的邻居，另有55%与真实目标处在相同的地理位置。

3.2.2基于猜测的方法

在文献[11]中作者是通过一种叫浏览器历史记录窃取的技术来识别用户的，攻击者利用这种技术可以判断用户是否访问了某个特定的网址。

通常浏览器都会记录下用户浏览过的网页，包括社交网站的链接，而这些超链接中会包含了用户的身份（userID）。

如果用户访问了攻击者的网站，浏览期间攻击者就可以不断猜测用户的userID，判断相应的社交网站链接是否被用户访问过，假如访问过，攻击者就能得知该用户的身份。

然而用这个方法直接测试用户的userID并不现实，因为社交网站的用户数量太大，无法逐一比较。

除个人ID以外，社交网站上的用户一般都属于不同的群组，比如根据班级学校，或是兴趣爱好划分的群组，每个群组也有不同的ID，groupID也会留在浏览器的历史记录中。

群组的数量比用户少，而且攻击者可以从网上直接获取群组的ID以及群成员。

首先测试用户浏览过哪些群组，即属于哪些群，这样就缩小了用户的范围。

然后根据群成员列表测试用户真实的userID。

通过在社交网站Xing（）上进行的实验，结果表明有42%的用户可以被识别出来，而90%的用户都可以将候选集合范围缩小到不多于3000个。

3.3针对文本数据的去匿名化

以博客为例，网络上的文章大部分是匿名的，每个人写作风格不同，可以使用机器学习的方法判断出一篇匿名文章来自哪个博客，也可以将同一个人写的不同博客识别出来[12]。

首先要对文章进行预处理，只保留用英文写的较长的文章。

有些作者喜欢在每篇文章开头或结尾留下签名或者代表自己的一段话，由于文章研究是利用文法对匿名文章分类，为了实验准确，这种前后缀也需要去掉。

然后通过对文章进行自然语言处理，将文章抽象为包含文章特征的高维特征向量，其中包括文章长度、单词长度、不同类型词出现的频率以及一些文法的特征，如表3所示。

再使用机器学习的方法，用不同的分类器识别出文章的作者或他的博客，除了使用一个分类器进行分类，还可以将两个不同的分类器结合，对比两者的结果，得出最终答案。

作者从网络上获得了100000个博客，最终取得两千多万篇文章。

实验中作者使用了最近邻、朴素贝叶斯、支持向量机和正则化最小二乘分类器。

实验结果表明，最近邻和正则化最小二乘分类器的效果比较好，高于20%的情况分类器都可以正确地识别出作者，35%的情况中作者在预测的前20个中。

在另一处判断不同网站用户是否为同一人的文章中，作者不是仅依靠文本数据的特征，包括用户的用户名、头像、地理位置、签名等也可以用来判断。

就用户名来说，一个特殊的用户名很可能只有一个用户在使用，而有些用户也倾向于在不同的网站使用相同的用户名，这样就可以把不同网站的信息结合在一起。

文献[13]中作者除了用户的名字、签名、头像和位置外，还利用了好友关系和发表的帖子中的特征，得到这些特征后再使用机器学习的方法像支持向量机（SupportVectorMachine，SVM）来进行分类。

最后通过在不同论坛上获取的数据进行实验，分类的效果很好，也说明一个并不常见的用户名可以对判断用户是否是一个人起到很大作用。

4结束语

大数据时代下公开的数据会越来越多，隐私保护成为不容忽视的一个重要问题。

数据的形式不同，作用也不同，很难做到完全保证安全的匿名化。

文章中虽然主要介绍了几个有效的去匿名化方法，但是这并不表示数据中的隐私没有安全保障。

也正是由于去匿名化技术的发展，才推动了更安全有效匿名化技术的产生来保护数据隐私。

参考文献

[1]AFaceIsExposedforAOLSearcherNo.4417749[EB/OL].（2006-8-9）[2013-09-10].

[2]BishopM,CumminsJ,PeisertS.Relationshipsanddatasanitization:

Astudyinscarlet[C]//Proceedingsofthe2010workshoponNewsecurityparadigms.ACM,2010:

151-164

[3]HanJ,KamberM,PeiJ.Datamining:

conceptsandtechniques[M].Morgankaufmann,2006

[4]SweeneyL.k-anonymity:

Amodelforprotectingprivacy[J].InternationalJournalofUncertainty,FuzzinessandKnowledge-BasedSystems,2002,10（05）:

557-570

[5]MachanavajjhalaA,KiferD,GehrkeJ.l-diversity:

Privacybeyondk-anonymity[J].ACMTransactionsonKnowledgeDiscoveryfromData（TKDD）1.1,2007:

[6]DworkC.Differentialprivacy[M].Automata,languagesandprogramming.SpringerBerlinHeidelberg,2006:

1-12

[7]NarayananA,ShmatikovV.Robustde-anonymizationoflargesparsedatasets[J].SecurityandPrivacy,2008.SP2008.IEEESymposiumonIEEE,2008:

111-125

[8]DingX,ZhangL,WanZ.Abriefsurveyondeanonymizationattacksinonlinesocialnetworks[C]//ComputationalAspectsofSocialNetworks（CASoN）,2010InternationalConferenceon.IEEE,2010:

611-615

[9]BackstromL,DworkC,KleinbergJ.Whereforeartthour3579x?

anonymizedsocialnetworks,hiddenpatterns,andstructuralsteganography[C]//Proceedingsofthe16thinternationalconferenceonWorldWideWebACM,2007:

181-190

[10]NarayananA,ShmatikovV.De-anonymizingsocialnetworks[C]//SecurityandPrivacy,200930thIEEESymposiumonIEEE,2009:

173-187

[11]WondracekG,HolzT,KirdaE.Apracticalattacktode-anonymizesocialnetworkusers[C]//SecurityandPrivacy（SP）,2010IEEESymposiumonIEEE,2010:

223-238

[12]NarayananA,PaskovH,GongNZ.Onthefeasibilityofinternet-scaleauthoridentification[C]//SecurityandPrivacy（SP）,2012IEEESymposiumonIEEE,2012:

300-314

[13]LiuJ,ZhangF,SongX.What'sinaname?

anunsupervisedapproachtolinkusersacrosscommunities[C]//ProceedingsofthesixthACMinternationalconferenceonWebsearchanddataminingACM,2013:

495-504

作者简历

孙广中博士，中国科学技术大学计算机学院副教授，主要研究方向为高效算法、数据处理与挖掘、高性能计算与应用。

魏燊学士，中国科学技术大学计算机学院硕士研究生，主要研究方向为数据处理与挖掘、数据安全与隐私。

谢幸博士，微软亚洲研究院主管研究员，中国科技大学兼职博士生导师。

主要研究方向为空间数据挖掘、位置服务、社交网络和普适计算。

展开阅读全文