Kad 网络节点资源探测分析.docx

资源描述

Kad 网络节点资源探测分析.docx

《Kad 网络节点资源探测分析.docx》由会员分享，可在线阅读，更多相关《Kad 网络节点资源探测分析.docx（14页珍藏版）》请在冰点文库上搜索。

Kad 网络节点资源探测分析.docx

Kad网络节点资源探测分析

刘祥涛1,2，龚才春3，刘悦1，白硕1

1（中国科学院计算技术研究所北京100190）

2（中国科学院研究生院北京100190）

3（北京市计算中心北京100005）

摘要Kad网络中存在数以亿计的共享资源，而其中有相当一部分可被评定为敏感资源。

首先用我们的Kad网络采集器：

Rainbow对节点拥有的文件资源进行探测；然后对节点资源和敏感资源进行相关统计分析。

我们发现：

1）文件流行度和文件所对应的文件名数量都近似符合Zipf分布；2）利用同一个“文件内容哈希”（即file-content-hash）的多个文件名的共现词可以更准确地进行敏感判别；3）敏感资源占随机样本的6.34%，且敏感资源中74.8%为video文件。

关键词对等网络；Kad网络；探测分析；敏感资源

PeerResourceMeasurementandAnalysisinKadNetwork

LiuXiang-Tao1,2,GongCai-Chun3,LiuYue1,BaiShuo1

1（InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100190）

2（GraduateUniversity,ChineseAcademyofSciences,Beijing100190）

3（BeijingComputingCenter,Beijing100005）

AbstractInKadnetwork,therearehundredsofmillionsofsharedresources,amongwhichaconsiderablepartcanberatedassensitiveresources.Firstly,thefileresourcesofpeersaremeasuredusingourKad-networkcrawler:

Rainbow,then,thoseresourcesandsensitiveresourcesarestatisticallyanalyzed.Wefindthat:

1）boththepopularityoffilesandthenumberoffilenamescorrespondingtoafileapproximatelyfitZipfdistribution;2）thesensitivityoffilescanbejudgedmoreaccuratelyusingco-occurrence-wordsinmultiplefilenamescorrespondingtothesamefile-content-hash;3）sensitiveresourcesonlyoccupy6.34%ofrandomsample,and74.8%ofsensitiveresourcesarevideofiles.

KeywordsPeer-to-peernetwork;Kadnetwork;measurementandanalysis;sensitiveresource

引言

eMule网络[1]是一种混合类型的文件共享对等网络，它由两部分：

集中式网络和纯分布式网络组成。

其中纯分布式网络采用了Kademlia协议[2]，是eMule网络的主要组成部分。

一般来说，采用Kademlia协议的eMule网络称为Kad网络。

Ipoque2008~2009年度的因特网流量报告表明：

依地理位置的不同，eMule占P2P流量的2%~47%，占因特网流量1%~26%[3]，且呈上涨趋势[4][5]。

Kad网络为不健康内容的传播提供了方便，在Kad网络中存在数百万的共享资源，其中有相当一部分不合适让特定人群观看，我们称这些资源为敏感资源。

所以对Kad网络中的共享资源进行探测分析是相当必要的，这样不仅可以了解敏感资源的扩散程度，也可以为不健康内容的过滤做好铺垫工作。

从而减少特定人群受不健康内容侵蚀的影响，有助于社会精神文明建设。

Kad网络的探测分析存在如下挑战：

●虽然对等网络爬虫研究已经取得了较大进展[6][9][10][11]，但直到现在，也不存在一个可以探测“节点”即被指定了一定标识的物理机器的共享资源的爬虫；

●节点资源名是多语言的，比如英语、中文、日语、韩语、法语、西班牙语等，给资源的敏感判别增加了难度；

●节点资源名通常都较短，从而其特征往往不足以判定其是否为敏感资源。

针对上述挑战：

●在已有对等网络爬虫的工作基础上，设计和实现可以采集节点资源的爬虫；

●本文只对中文、英语和其他易判资源进行敏感判别和统计分析，但是分析方法也适用于其他语言；

●采用两种增加文件名特征的方法。

a）file-content-hash是通过哈希文件内容获得的128位标识符。

一个file-content-hash可能对应多个文件名，本文称为“FCH1N现象”。

我们将对应同一个file-content-hash的多个文件名集中起来加强文件名特征。

b）通过在流行搜索引擎上输入文件名中包含的关键词，获得更多信息以加强文件名特征。

本文后续章节安排如下，第二节介绍研究背景，第三节介绍相关工作，第四节对节点资源进行探测和统计分析。

最后，我们在第五节对全文进行总结。

背景

节点资源名是多语言的且长度较短，导致对其进行敏感判别的难度，见表1。

为提高敏感判别的准确性，本文适当简化问题和进行特征扩展（详见4.4.1节）。

表1文件名的复杂性

Tab.1thecomplexityoffilename

无意义名

.bmp

无法区分名

0094.gif

中文简体

驱动之家--驱动分类查询.url

中文繁体

張惠妹A-mei-妹力最精選-24-灰姑娘.mp3

日文

（av）浜崎りお（森下えりか、篠原絵梨香）青木玲峰なゆか.avi

英文

csi.6x17.i.like.to.watch.hdtv-lol.avi

西班牙语

（Reggaeton）TitoYHector-GataSalvaje.mp3

其他

……

为降低问题的复杂性，本文只对英文或中文简体可识别文件名进行敏感判别。

同时将文件分为3个类别：

敏感文件、正常文件、忽略文件，分别简称C1、C2和C3类文件。

定义1.敏感文件（C1类文件）：

其内容不合适让特定人群浏览的文件。

比如：

文件名为“风骚的女子_俄罗斯.rar”的文件是敏感文件。

又比如：

“WaterMelonscd1.www.EMuleX.es.avi”单从文件名看不出是否敏感，但通过搜索引擎查找相关信息可以获知是一个色情敏感电影。

定义2.正常文件（C2类文件）：

其内容合适让特定人群浏览的文件。

比如：

“汉初军事史研究.pdf”是一个正常的电子书文件；“ThePointerSisters-Automatic.mp3”是一个正常的音乐文件。

定义3.忽略文件（C3类文件）：

因为文件名及其相关信息不足或因为语言差异以至不能正确区分某文件是否敏感或正常的文件。

比如：

“?

.bmp”、“0094.gif”和“（Reggaeton）TitoYHector-GataSalvaje.mp3”都是忽略文件。