ImageVerifierCode 换一换
格式:DOCX , 页数:8 ,大小:21.72KB ,
资源ID:5411682      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-5411682.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(一种基于逻辑回归算法的水军识别方法.docx)为本站会员(b****3)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

一种基于逻辑回归算法的水军识别方法.docx

1、一种基于逻辑回归算法的水军识别方法一种基于逻辑回归算法的水军识别方法 【 摘 要 】 随着诸如twitter和微博等新媒体的发展,由于网络公关与营销等原因,网络水军也出现并呈现出急剧增加的态势。造成大量的网络资源和普通用户的时间遭到侵占,同时也对舆情真实性产生了重要影响。文章建立一种基于逻辑回归算法的水军识别模型,利用累计分布函数(CDF)对对新浪微博用户行为属性以及账号属性进行分析和选取,将合适的属性包括好友数、粉丝数、文本相似度、URL率等作为输入参数,用以训练基于逻辑回归算法的分类模型,得到相应系数,从而完成对网络水军识别模型的构建。实验结果证明了模型的准确性和有效性。 【 关键词 】

2、twitter;新浪微博;CDF;逻辑回归;水军检测 1 引言 在线社交网络的急速发展使得用户可以通过例如Twitter、微博等社交网络媒体实现获取信息,分享经历,建立人脉等功能。在线社交网络的盛行,使得开放的平台聚集了大量的极具价值的用户信息,用户之间建立起了错综复杂的以几何级数倍增的关系网,这些特点使得社交网络媒体成为了网络水军的主要活动平台,刺激了水军的大量增加。催生了集网络推手、网络打手、删帖,为客户加V和刷粉等功能于一身的网络新水军。像微博和Twitter类社交网络服务已经被广泛的使用在了市场营销、新闻和公共关系领域。在成为重要的信息传播和交流平台,且商业化运营后,更加引起了网络水军

3、的兴趣。他们可以进行例如传播广告引发消费,发布淫秽信息、病毒、钓鱼,获取他人个人信息等多种攻击行为。 网络水军的危害主要表现在其利用社交网络作为工具,不仅能够重复发送包含有恶意链接和广告的博文,滥用回复功能向用户发送未经请求的消息,劫持热门话题,还能将带有敏感词汇,内容的文本信息推向热门话题。如由网络水军策划的贾君鹏事件、万科事件、3Q大战、蒙牛陷害门、罗彩霞事件等。根据中国人民大学舆论研究所的舆情监测数据,其中商业事件为主要组成部分,主要用于商业竞争。但仍有利用网民信息不对称造成的信息真空,刺激和诱导激进民众造成恶劣社会影响的事件。间接上恶化医患关系,警民、军民关系,政府百姓关系的网络事件也

4、屡见不鲜。所以描述和检测水军将显著的增加用户体验质量,促进社交网络系统的健康使用和开发。 本文主要把注意力集中在对用户基本信息和文本信息上,分别提取了如用户粉丝数(Followers)、好友数(Friends)、FFR(Followers/Friends)、在线时间、用户文本自相似度、文本所含URL率等特征。将其作为逻辑回归模型的输入参数,对逻辑回归模型进行训练,从而将模型应用于对网络水军的识别。本文共分五部分,第二部分将主要介绍相关研究,第三部分主要包括数据的采集,特征属性的选取以及对相关算法原理的介绍,第四部分为实验过程和结果,第五部分为结论和总结。 2 相关研究 在水军用户大量出现并且持

5、续增长的情况下,各个微博平台都推出了相对应的应对措施和用户管理机制。近些年的主要应对手段主要以用户举报和人工审核为主。Twitter于2009年10月退出用户举报功能,国内的新浪微博则是在2012年5月成立了微博社区委员会负责审核用户举报信息。微博平台同时提了出了一些利用明显水军特征进行模式匹配的识别技术。比如使用例如“中奖”、“打折”、“让利”、“宝贝地址”等关键字设定的水军过滤器。但是这类检测技术需要人为的设定规则,同时也要对过滤结果进行审核。以上说的这些人工或者半人工的检测方法时间成本和人力资源成本都耗费过高。如何准确高效的识别水军用户,已经成为了业界研究热点。 水军识别中的统计学。Ga

6、o等人提出了一种在脸书平台上通过分析照片墙帖子中包含的常见URL和相似文本,从而识别水军活动。Zi Chu等人将微博用户群分类为正常用户、机器人和半机器人。他们对用户的推文内容特征和用户账号的属性特征进行了分析,根据他们的研究机器人的每条推文中含有URL的可能性更高,同时大部分都使用第三方接口发送推文,经常不分日夜甚至连续一周都在发送推文而人类用户在周末或者深夜发送推文的频率相对较少。 Sangho等人分析了水军用户逃避基于URL的公共黑名单识别方法所使用的技术,提出将URL重定向链和用户信息特征值联合考虑到检测可疑URL中去。Yang介绍了一种基于图形特性进行水军识别的技术,其中利用了像局部

7、聚集系数,用户之间接近度,中心介数这样的图形特征。Song等人利用了水军不会与正常用户有太高的接近度这样的事实。接近度是指在社交网络图形中用户之间所存在的节点个数。这些基于图形的特性是很难以被水军用户成功规避的,但同时也是时间和资源密集型。在研究水军的图形结构时他们注意到水军团体相对于正常用户有更紧密的网络关系网。Grier注意到因为缩略网址的使用和更新黑名单的延迟,使用Google SafeBrowsing这样的公共黑名单技术去检测帖子的域名和URL已经无法满足OSN中水军识别的要求。 监督学习方法,即为一种有分类作用的机器学习算法。如决策树、朴素贝叶斯、逻辑回归等都属于此类算法。Benev

8、enuto等人分析了基于图像、用户、社交网络的多种特性,对YouTube这样的视频社交网络使用了监督学习的水军识别方法。McCord等人通过传统的机器学习分类器检测Twitter上的水军用户,比较了几种分类器的检测性能。Lee等人利用Twitter中7个月的数据,自动发现Twitter中的微博机器人用户。 随着微博在中国国内的兴起,国内也出现了具有反检测技术的微博水军用户。因此,急需一种能够针对中国用户特点及信息传播规律,适应中文微博新特点的水军识别技术。本文将使用新浪微博数据,利用逻辑回归算法实现一种准确、高效的识别方法。 3 水军识别模型设计 3.1 水军的形式化定义 由于水军和正常用户在

9、目的上具有本质区别,导致了其行为差异。同时,对于单个用户其行为无非表现为类水军或类正常两种形式。所以水军识别问题可以转换为一个二分类问题。 定义1. 设G表示某微博平台的用户集合:G=x1,x2,x3,.xi,.,x|G|,其中xi为第i个用户,全体用户为集合A=a,b,集合a为正常用户集合,b为水军用户集合,那么二分类的目标函数则为: h(xi)=1, xiA 0, xiB 简化后的目标函数即为G0,1的映射。 3.2 特征属性的选取和分析 一般来说水军用户为了达到其特殊目的,会在许多方面表现的与普通用户区别很大。我们可以从两类特征出发,对水军用户和正常用户加以区分。(1)账号属性,其主要包

10、括好友数、粉丝数,用户的粉丝好友比,所发博文数等特征;(2)用户行为,包括发文频率、离线时间、提及与被提及数、博文的自相似度和含URL率等特征。 3.2.1账号属性特征 本文在所建数据集中可直接获取好友数、粉丝数、博文数这三个用户行为特征。由于水军用户一般都是带有特殊的目的关注其它用户,而正常用户一般只会关注他们熟悉的人或者感兴趣的微博用户。所以微博水军在具有较高好友数的同时却只有很少的粉丝数,在社交网络关系图中往往会表现出高出度和低入度的特征。因此我们可以说,如果一个用户关注了很多其他用户,却很少被人关注,则该用户很可能是水军用户。为了更好的研究我们引入FFR(好友粉丝比) FFR= 根据此

11、公式当FFR值较大时用户很可能为认证用户,当FFR值较小时用户则越有可能为水军用户。但因为用户的好友数和粉丝数都会对结果产生影响,所以我们在考虑时也将加入这两个属性。 3.2.2用户行为特征 我们在诸多的行为特征中选取:URL率和文本自相似度为本文的主要研究对象。 URL链接是一种嵌入于博文中的常见类容,用户点击链接以浏览与此博文相关的其它网页内容。微博水军用则户往往利用在热帖中添加URL链接的形式,诱导用户点击链接浏览其它页面,从而达到其特殊目的。所以微博水军用户更倾向于在微博中添加URL链接,相比正常用户其博文中的URL率一定较高。为方便数据分析,我们利用以下公式获取用户URL率: URa

12、tio= URatio为用户URL率, Nu为数据集中用户博文所含的URL总数,N为数据集中用户博文总数,Nu(i)为第i条微博中所含URL数。 文本自相似度指的是用户发表博文中相类似的博文占其总博文数的比例。对于水军用户来说,为了制造舆论,营销宣传,他们常常会用内容模板生成大量相似博文。这么一来他们的文本自相似度将明显高于正常用户。 在本文的数据采集阶段,利用K-means聚类方法对数据集进行了文本聚类后,编号为I的用户博文类簇序列为SI=(C1,C2,.,CJ,.CK),其中K为聚类后所得类簇总数,CJ=(XJ1,XJ2,.,XJM,.XJN,)为第J类,XJM为J类中的第M条博文,这N条

13、博文在这里被视为相似博文。则用户I的文本自相似度可定义为如下公式: SimRatio= 其中Gsim为相似博文数,G(I)为用户I的博文总数,函数G(CJ)=N, N2 0, otherwise 3.3 水军识别逻辑回归模型 3.3.1 Sigmoid函数及Cost函数 在上面我们已经讨论过水军的形式化定义,对于是否为水军我们可以用G0,1的映射进行表示,逻辑回归模型的结果也只能为1或0,因此我们可以建立一种基于逻辑回归的水军检测模型。下面我们假设1为水军用户,0为正常用户。 为了能够达到利用前面采集的数据预测出用户类别,我们引入了Sigmoid函数,逻辑回归就是建立在Sigmoid函数基础之

14、上的。Sigmoid函数具体的计算公式如下: h(x)= x=x1,x2,.xi,.,xn其中,x是一个多维向量,xi是前面提到过的账号内容特征和用户行为特征。=1,2,.i,.,n也是一个多维向量,i为xi的对应参数。当h(x)=0时,被检测用户为正常用户,当h(x)=1时,被检测用户为水军。接着我们要做的就是找到适合的最佳回归参数。为此,可以使用极大似然方法对值进行求解。对于逻辑回归函数而言,其cost function为如下公式: J=Cost( h(xi),yi ) Cost( h(xi),yi )=-ln(h(xi), if y=1 -ln(1-h(xi), if y=0 由上述两个

15、公会我们可以得出实际的cost function J=- yi ln( h(xi)+(1-yi )ln( 1-h(xi) 很明显预测的精度与J的大小有本质联系,精度越高J值必须越小。 3.3.2逻辑回归模型参数训练方法 为求得最小的J,这里我们使用梯度下降(Grandient Descent)方法对值进行更新并求出Jmin: j:=j - J(j) 对于每一个参数j都可以通过上式进行更新,其中为学习率,对于学习率的选择我们要求使得函数迭代次数尽可能少,并且确保函数值在每次迭代过程中递减。在具体实践过程中,我们可以使用参数矩阵的运算避免用循环语句对每一个参数进行跟新。对于=1 . j,可得:=

16、-,=( h(xi)-yi )xi,具体实现步骤如下: 输入:初始参数值=1,2,.i,.,n 参考文献 1 李彪, 郑满宁.微博时代网络水军在网络舆情传播中的影响效力研究以近年来26个网络水军参与的网络事件为例J.国际新闻界,2012,34(10):30-36. 2 Gao H, Chen Y, Lee K, et al. Towards online spam filtering in social networksC/Symposium on Network and Distributed System Security (NDSS). 2012. 3Chu Z, Gianvecchio

17、 S, Wang H, et al. Who is tweeting on Twitter: human, bot, or cyborgC/Proceedings of the 26th annual computer security applications conference. ACM, 2010: 21-30. 4Sangho Lee and Jong Kim. WARNING BIRD:Detecting Suspicious URLs in Twitter Stream. In Network & Distributed System Security (NDSS), 2012.

18、 5Chao Yang, Robert C. Harkreader, Guofei Gu. Die Free or Live Hard Empirical Evaluation and New Design for Fighting Evolving Twitter Spammers.In Recent Advances in Intrusion Detection (RAID), 2011. 6 Song J, Lee S, Kim J. Spam filtering in twitter using sender-receiver relationshipC/Recent Advances

19、 in Intrusion Detection. Springer Berlin Heidelberg, 2011: 301-317. 7 Chris Grier, Kurt Thomas, Vern Paxson, and Michael Zhang. spam: TheUnderground on 140 Characters or Less. In ACM Conference on Computer andCommunications Security, 2010. 8 Benevenuto, Fabr cio, Rodrigues, et al. Characterizing use

20、r behavior in online social networks. In ACM Internet Measurement Conference (IMC), 2009. 9 McCord M, Chuah M. Spam detection on twitter using traditional classifiersM/Autonomic and Trusted Computing. Springer Berlin Heidelberg, 2011: 175-186. 10 Lee K, Eoff B D, Caverlee J. Seven Months with the De

21、vils: A Long-Term Study of Content Polluters on TwitterC/ICWSM. 2011. 11 Zhang L, Zhu J, Yao T. An evaluation of statistical spam filtering techniques. ACM Trans.on Asian Language Information Processing(TALIP), 2004,3(4):243-269. doi: 10.1145/1039621.1039625 12 许厚金, 刘永炎, 邓成玉等.基于相似中心的Kmeans文本聚类算法J计算机工程与设计, 2010, 31(8):18021805. 基金项目: 本课题得到国家973项目 (No. 2013CB329604)、国家自然科学基金项目(No. 61472433)资助。 作者简介: 张良(1989-),男,江西九江人,国防科技大学计算机学院,工程硕士;主要研究方向和关注领域:大数据挖掘、社交网络分析。

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2