一种基于逻辑回归算法的水军识别方法.docx

资源描述

一种基于逻辑回归算法的水军识别方法.docx

《一种基于逻辑回归算法的水军识别方法.docx》由会员分享，可在线阅读，更多相关《一种基于逻辑回归算法的水军识别方法.docx（8页珍藏版）》请在冰点文库上搜索。

一种基于逻辑回归算法的水军识别方法.docx

一种基于逻辑回归算法的水军识别方法

　　【摘要】随着诸如twitter和微博等新媒体的发展，由于网络公关与营销等原因，网络水军也出现并呈现出急剧增加的态势。

造成大量的网络资源和普通用户的时间遭到侵占，同时也对舆情真实性产生了重要影响。

文章建立一种基于逻辑回归算法的水军识别模型，，利用累计分布函数（CDF）对对新浪微博用户行为属性以及账号属性进行分析和选取，将合适的属性包括好友数、粉丝数、文本相似度、URL率等作为输入参数，用以训练基于逻辑回归算法的分类模型，得到相应系数，从而完成对网络水军识别模型的构建。

实验结果证明了模型的准确性和有效性。

　　【关键词】twitter；新浪微博；CDF；逻辑回归；水军检测

　　1引言

　　在线社交网络的急速发展使得用户可以通过例如Twitter、微博等社交网络媒体实现获取信息，分享经历，建立人脉等功能。

在线社交网络的盛行，使得开放的平台聚集了大量的极具价值的用户信息，用户之间建立起了错综复杂的以几何级数倍增的关系网，这些特点使得社交网络媒体成为了网络水军的主要活动平台，刺激了水军的大量增加。

催生了集网络推手、网络打手、删帖，为客户加V和刷粉等功能于一身的网络新水军。

像微博和Twitter类社交网络服务已经被广泛的使用在了市场营销、新闻和公共关系领域。

在成为重要的信息传播和交流平台，且商业化运营后，更加引起了网络水军的兴趣。

他们可以进行例如传播广告引发消费，发布淫秽信息、病毒、钓鱼，获取他人个人信息等多种攻击行为。

　　网络水军的危害主要表现在其利用社交网络作为工具，不仅能够重复发送包含有恶意链接和广告的博文，滥用回复功能向用户发送未经请求的消息，劫持热门话题，还能将带有敏感词汇，内容的文本信息推向热门话题。

如由网络水军策划的贾君鹏事件、万科事件、3Q大战、蒙牛陷害门、罗彩霞事件等。

根据中国人民大学舆论研究所的舆情监测数据，其中商业事件为主要组成部分，主要用于商业竞争。

但仍有利用网民信息不对称造成的信息真空，刺激和诱导激进民众造成恶劣社会影响的事件。

间接上恶化医患关系，警民、军民关系，政府百姓关系的网络事件也屡见不鲜。

所以描述和检测水军将显著的增加用户体验质量，促进社交网络系统的健康使用和开发。

　　本文主要把注意力集中在对用户基本信息和文本信息上，分别提取了如用户粉丝数（Followers）、好友数（Friends）、FFR（Followers/Friends）、在线时间、用户文本自相似度、文本所含URL率等特征。

将其作为逻辑回归模型的输入参数，对逻辑回归模型进行训练，从而将模型应用于对网络水军的识别。

本文共分五部分，第二部分将主要介绍相关研究，第三部分主要包括数据的采集，特征属性的选取以及对相关算法原理的介绍，第四部分为实验过程和结果，第五部分为结论和总结。

　　2相关研究

　　在水军用户大量出现并且持续增长的情况下，各个微博平台都推出了相对应的应对措施和用户管理机制。

近些年的主要应对手段主要以用户举报和人工审核为主。

Twitter于2009年10月退出用户举报功能，国内的新浪微博则是在2012年5月成立了微博社区委员会负责审核用户举报信息。

微博平台同时提了出了一些利用明显水军特征进行模式匹配的识别技术。

比如使用例如“中奖”、“打折”、“让利”、“宝贝地址”等关键字设定的水军过滤器。

但是这类检测技术需要人为的设定规则，同时也要对过滤结果进行审核。

以上说的这些人工或者半人工的检测方法时间成本和人力资源成本都耗费过高。

如何准确高效的识别水军用户，已经成为了业界研究热点。

　　水军识别中的统计学。

Gao等人提出了一种在脸书平台上通过分析照片墙帖子中包含的常见URL和相似文本，从而识别水军活动。

ZiChu等人将微博用户群分类为正常用户、机器人和半机器人。

他们对用户的推文内容特征和用户账号的属性特征进行了分析，根据他们的研究机器人的每条推文中含有URL的可能性更高，同时大部分都使用第三方接口发送推文，经常不分日夜甚至连续一周都在发送推文而人类用户在周末或者深夜发送推文的频率相对较少。

　　Sangho等人分析了水军用户逃避基于URL的公共黑名单识别方法所使用的技术，提出将URL重定向链和用户信息特征值联合考虑到检测可疑URL中去。

Yang介绍了一种基于图形特性进行水军识别的技术，其中利用了像局部聚集系数，用户之间接近度，中心介数这样的图形特征。

Song等人利用了水军不会与正常用户有太高的接近度这样的事实。

接近度是指在社交网络图形中用户之间所存在的节点个数。

这些基于图形的特性是很难以被水军用户成功规避的，但同时也是时间和资源密集型。

在研究水军的图形结构时他们注意到水军团体相对于正常用户有更紧密的网络关系网。

Grier注意到因为缩略网址的使用和更新黑名单的延迟，使用GoogleSafeBrowsing这样的公共黑名单技术去检测帖子的域名和URL已经无法满足OSN中水军识别的要求。

　　监督学习方法，即为一种有分类作用的机器学习算法。

如决策树、朴素贝叶斯、逻辑回归等都属于此类算法。

Benevenuto等人分析了基于图像、用户、社交网络的多种特性，对YouTube这样的视频社交网络使用了监督学习的水军识别方法。

McCord等人通过传统的机器学习分类器检测Twitter上的水军用户，比较了几种分类器的检测性能。

Lee等人利用Twitter中7个月的数据，自动发现Twitter中的微博机器人用户。

　　随着微博在中国国内的兴起，国内也出现了具有反检测技术的微博水军用户。

因此，急需一种能够针对中国用户特点及信息传播规律，适应中文微博新特点的水军识别技术。

本文将使用新浪微博数据，利用逻辑回归算法实现一种准确、高效的识别方法。

　　3水军识别模型设计

　　3.1水军的形式化定义

　　由于水军和正常用户在目的上具有本质区别，导致了其行为差异。

同时，对于单个用户其行为无非表现为类水军或类正常两种形式。

所以水军识别问题可以转换为一个二分类问题。

　　定义1.设G表示某微博平台的用户集合：

G={x1，x2，x3，...xi，...，x|G|}，其中xi为第i个用户，全体用户为集合A={a，b}，集合a为正常用户集合，b为水军用户集合，那么二分类的目标函数则为：

　　h（xi）=1，xi∈A

　　0，xi∈B

　　简化后的目标函数即为G→{0，1}的映射。

　　3.2特征属性的选取和分析

　　一般来说水军用户为了达到其特殊目的，会在许多方面表现的与普通用户区别很大。

我们可以从两类特征出发，对水军用户和正常用户加以区分。

（1）账号属性，其主要包括好友数、粉丝数，用户的粉丝好友比，所发博文数等特征；

（2）用户行为，包括发文频率、离线时间、提及与被提及数、博文的自相似度和含URL率等特征。

　　3.2.1账号属性特征

　　本文在所建数据集中可直接获取好友数、粉丝数、博文数这三个用户行为特征。

由于水军用户一般都是带有特殊的目的关注其它用户，而正常用户一般只会关注他们熟悉的人或者感兴趣的微博用户。

所以微博水军在具有较高好友数的同时却只有很少的粉丝数，在社交网络关系图中往往会表现出高出度和低入度的特征。

因此我们可以说，如果一个用户关注了很多其他用户，却很少被人关注，则该用户很可能是水军用户。

为了更好的研究我们引入FFR（好友粉丝比）

　　FFR=

　　根据此公式当FFR值较大时用户很可能为认证用户，当FFR值较小时用户则越有可能为水军用户。

但因为用户的好友数和粉丝数都会对结果产生影响，所以我们在考虑时也将加入这两个属性。

　　3.2.2用户行为特征

　　我们在诸多的行为特征中选取：

URL率和文本自相似度为本文的主要研究对象。

　　URL链接是一种嵌入于博文中的常见类容，用户点击链接以浏览与此博文相关的其它网页内容。

微博水军用则户往往利用在热帖中添加URL链接的形式，诱导用户点击链接浏览其它页面，从而达到其特殊目的。

所以微博水军用户更倾向于在微博中添加URL链接，相比正常用户其博文中的URL率一定较高。

为方便数据分析，我们利用以下公式获取用户URL率：

　　URatio==

　　URatio为用户URL率，Nu为数据集中用户博文所含的URL总数，N为数据集中用户博文总数，Nu（i）为第i条微博中所含URL数。

　　文本自相似度指的是用户发表博文中相类似的博文占其总博文数的比例。

对于水军用户来说，为了制造舆论，营销宣传，他们常常会用内容模板生成大量相似博文。

这么一来他们的文本自相似度将明显高于正常用户。

　　在本文的数据采集阶段，利用K-means聚类方法对数据集进行了文本聚类后，编号为I的用户博文类簇序列为SI=（C1，C2，...，CJ，...CK），其中K为聚类后所得类簇总数，CJ=（XJ1，XJ2，，...，XJM，，...XJN，）为第J类，XJM为J类中的第M条博文，这N条博文在这里被视为相似博文。

则用户I的文本自相似度可定义为如下公式：

　　SimRatio==

　　其中Gsim为相似博文数，G（I）为用户I的博文总数，函数G（CJ）==N，N≥2

　　0，otherwise

　　3.3水军识别逻辑回归模型

　　3.3.1Sigmoid函数及Cost函数

　　在上面我们已经讨论过水军的形式化定义，对于是否为水军我们可以用G→{0，1}的映射进行表示，逻辑回归模型的结果也只能为1或0，因此我们可以建立一种基于逻辑回归的水军检测模型。

下面我们假设1为水军用户，0为正常用户。

　　为了能够达到利用前面采集的数据预测出用户类别，我们引入了Sigmoid函数，逻辑回归就是建立在Sigmoid函数基础之上的。

Sigmoid函数具体的计算公式如下：

　　hθ（x）=

　　x={x1，x2，...xi，...，xn}其中，x是一个多维向量，xi是前面提到过的账号内容特征和用户行为特征。

θ={θ1，θ2，...θi，...，θn}也是一个多维向量，θi为xi的对应参数。

当hθ（x）=0时，被检测用户为正常用户，当hθ（x）=1时，被检测用户为水军。

接着我们要做的就是找到适合的最佳回归参数θ。

为此，可以使用极大似然方法对θ值进行求解。

对于逻辑回归函数而言，其costfunction为如下公式：

　　Jθ=Cost（hθ（xi），yi）

　　Cost（hθ（xi），yi）=-ln（hθ（xi）），ify=1

　　-ln（1-hθ（xi）），ify=0

　　由上述两个公会我们可以得出实际的costfunction

　　Jθ=-

　　yiln（hθ（xi））+（1-yi）ln（1-hθ（xi））

　　很明显预测的精度与Jθ的大小有本质联系，精度越高Jθ值必须越小。

　　3.3.2逻辑回归模型参数训练方法

　　为求得最小的Jθ，这里我们使用梯度下降（GrandientDescent）方法对θ值进行更新并求出Jθmin：

　　θj：

=θj-αJ（θj）

　　对于每一个参数θj都可以通过上式进行更新，其中α为学习率，对于学习率的选择我们要求使得函数迭代次数尽可能少，并且确保函数值在每次迭代过程中递减。

在具体实践过程中，我们可以使用参数矩阵的运算避免用循环语句对每一个参数进行跟新。

对于θ=θ1

　　...

　　θj，可得：

θ：

=θ-αδ，δ=[（hθ（xi）-yi）]xi，具体实现步骤如下：

　　输入：

初始参数值θ'={θ1，θ2，...θi，...，θn}　　参考文献

　　[1]李彪，郑满宁.微博时代网络水军在网络舆情传播中的影响效力研究――以近年来26个网络水军参与的网络事件为例[J].国际新闻界，2012，34（10）：

30-36.

　　[2]GaoH，ChenY，LeeK，etal.Towardsonlinespamfilteringinsocialnetworks[C]//SymposiumonNetworkandDistributedSystemSecurity（NDSS）.2012.

　　[3]ChuZ，GianvecchioS，WangH，etal.WhoistweetingonTwitter：

human，bot，orcyborg[C]//Proceedingsofthe26thannualcomputersecurityapplicationsconference.ACM，2010：

21-30.

　　[4]SanghoLeeandJongKim.WARNINGBIRD：

DetectingSuspiciousURLsinTwitterStream.InNetwork&DistributedSystemSecurity（NDSS），2012.

　　[5]ChaoYang，RobertC.Harkreader，GuofeiGu.DieFreeorLiveHardEmpiricalEvaluationandNewDesignforFightingEvolvingTwitterSpammers.InRecentAdvancesinIntrusionDetection（RAID），2011.

　　[6]SongJ，LeeS，KimJ.Spamfilteringintwitterusingsender-receiverrelationship[C]//RecentAdvancesinIntrusionDetection.SpringerBerlinHeidelberg，2011：

301-317..

　　[7]ChrisGrier，KurtThomas，VernPaxson，andMichaelZhang.@spam：

TheUndergroundon140CharactersorLess.InACMConferenceonComputerandCommunicationsSecurity，2010.

　　[8]Benevenuto，Fabrcio，Rodrigues，etal.Characterizinguserbehaviorinonlinesocialnetworks.InACMInternetMeasurementConference（IMC），2009.

　　[9]McCordM，ChuahM.Spamdetectionontwitterusingtraditionalclassifiers[M]//AutonomicandTrustedComputing.SpringerBerlinHeidelberg，2011：

175-186.

　　[10]LeeK，EoffBD，CaverleeJ.SevenMonthswiththeDevils：

ALong-TermStudyofContentPollutersonTwitter[C]//ICWSM.2011.

　　[11]ZhangL，ZhuJ，YaoT.Anevaluationofstatisticalspamfilteringtechniques.ACMTrans.onAsianLanguageInformationProcessing（TALIP），2004，3（4）：

243-269.[doi：

10.1145/1039621.1039625]

　　[12]许厚金，刘永炎，邓成玉等.基于相似中心的K―means文本聚类算法[J]计算机工程与设计，2010，31（8）：

1802―1805.

　　基金项目：

　　本课题得到国家973项目（No.2013CB329604）、国家自然科学基金项目（No.61472433）资助。

　　作者简介：

　　张良（1989-），男，江西九江人，国防科技大学计算机学院，工程硕士；主要研究方向和关注领域：

大数据挖掘、社交网络分析。

展开阅读全文