信息流量监测与网络行为分析.docx

上传人:b****6 文档编号:13147477 上传时间:2023-06-11 格式:DOCX 页数:9 大小:230.40KB
下载 相关 举报
信息流量监测与网络行为分析.docx_第1页
第1页 / 共9页
信息流量监测与网络行为分析.docx_第2页
第2页 / 共9页
信息流量监测与网络行为分析.docx_第3页
第3页 / 共9页
信息流量监测与网络行为分析.docx_第4页
第4页 / 共9页
信息流量监测与网络行为分析.docx_第5页
第5页 / 共9页
信息流量监测与网络行为分析.docx_第6页
第6页 / 共9页
信息流量监测与网络行为分析.docx_第7页
第7页 / 共9页
信息流量监测与网络行为分析.docx_第8页
第8页 / 共9页
信息流量监测与网络行为分析.docx_第9页
第9页 / 共9页
亲,该文档总共9页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

信息流量监测与网络行为分析.docx

《信息流量监测与网络行为分析.docx》由会员分享,可在线阅读,更多相关《信息流量监测与网络行为分析.docx(9页珍藏版)》请在冰点文库上搜索。

信息流量监测与网络行为分析.docx

信息流量监测与网络行为分析

信息流量监测与网络行为分析

摘要

摘要:

随着网络技术和业务的发展,网络用户数量逐年增加。

人们在网络中既可以浏览新闻、收听音乐、收看视频,又可以发表言论、购买商品、游戏娱乐。

网络己成为人们现实生活的延伸。

人们在网络世界中交流互动,表现出各种网络行为。

研究人们的网络行为,对于网络优化、网络服务的定制和推广都具有重要意义。

流量监测技术通过对网络流量进行长期监视和测量,获取反映网络流量特征的数据。

该技术最初被电信运营商应用于网络规划和测量。

近年来,运营商的工作重点正在由网络建设、运营和维护逐步转向为更广泛的用户群体提供优质服务。

在这种情况下,网络用户行为分析对于运营商来说显得尤为重要,而流量监测技术则为网络用户行为分析提供了真实可靠的数据。

本文致力于网络用户行为规律及其分析技术的研究,研究所用数据均来自于国内运营商城域网环境,这也使得本文的研究成果能够反映当前国内网络用户行为现状。

关键词:

网络信息;流量监测;行为分析;

一绪论

(一)我国信息网络发展现状

网络业务趋于多样化,由传统的Web、Email等业务,向着多业务方向发展。

电子商务、社交网络、微博等网络服务,为人们提供了更加便捷的沟通交流平台。

接入设备移动化,让人们可以随时随地上网。

网络已经深入到人们工作、生活的方方面面,形象的说“网络无处不在,世界触手可及”。

1.网络服务现状

网络用户行为分析从海量用户数据中挖掘用户行为规律,用户行为规律能否被准确发现,依赖于分析数据和分析方法的选取。

从网络中采集的用户原始数据不能被直接应用于分析方法,这是因为原始数据中含有了大量的冗余和噪声,且原始数据的格式也需要根据分析方法和分析目标进行相应的转化,这就需要对数据进行预处理,去除冗余和噪声,并将数据转化为合理的输入格式。

用户行为分析的方法很多,涵盖了统计学和数据挖掘等学科领域,实际应用中需要根据分析目标和数据情况选择合理方法。

在分析过程中,方法的确定很难一墩而就,需要对其进行反复评估和调整,以达到分析结果最优。

2.我国网络用户上网时间

 

图1.12010年至2015年网络用户平均每周上网时间

用户上网时间是用户对网络使用情况的基本反映。

根据的调查`,近几年来中国网络用户上网时间总体呈增长趋势,2015年网络用户平均每周上网时长比2010年增长了19.67%,这说明人们对网络的使用越来越频繁,依赖程度越来越高。

(二)我国网络用户行为分析研究现状

网络用户行为分析从海量用户数据中挖掘用户行为规律,用户行为规律能否被准确发现,依赖于分析数据和分析方法的选取。

从网络中采集的用户原始数据不能被直接应用于分析方法,这是因为原始数据中含有了大量的冗余和噪声,且原始数据的格式也需要根据分析方法和分析目标进行相应的转化,这就需要对数据进行预处理,去除冗余和噪声,并将数据转化为合理的输入格式。

用户行为分析的方法很多,涵盖了统计学和数据挖掘等学科领域,实际应用中需要根据分析目标和数据情况选择合理方法。

在分析过程中,方法的确定很难一墩而就,需要对其进行反复评估和调整,以达到分析结果最优。

表1.1目前我国常用的分析方法

用户分析方法

应用场景

统计分析

研究数据基本特征,如均值,方差,分布等

聚类分析

将一组对象按照相似情况划分,从而发现数据中自然存在的规律

关联规则分析

发现属性之间相关性,并获取相关规则

时态数据挖掘

用历史时间序列数据预测未来数据

 

二基于信息流量监测对网络行为数据采集

流量监测技术通过对网络长期的监视和测量获取网络流量中的数据。

在Web访问行为分析中我们提到了流量监测设备可用于采集用户Web数据,实际上流量监测设备的数据采集范围还包括用户的会话数据和业务数据。

这三种数据对于用户行为分析都是非常重要的。

用户会话数据记录了发起会话的用户账号、该账号分配的IP地址、会话起止时间、会话产生的上下行流量、会话产生的上下行报文数等信息用户业务数据记录了用户的IP地址、一定时期内用户使用各类业务产生流量、一定时期内用户使用各类业务的时长等信息;用户Web范数据记录了用户的IP地址、一定时期内用户对各从Web页面或Web类别的访问次数等信息。

(一)基于端口的识别和解析

该方法主要用于区分流量的业务类型,其区分流量的主要依据是流量中的报文端口号,如Web业务标准端口号为80,FTP的标准端口号是21,Telnet的标准端口号是23,smtp的标准端口号是25等,业务对应的标准端口号可从中查询。

基于端口的识别和解析方式的优点是实现简单,对于恒定端口的业务识别容易,缺点是随着业务的增加,有些新业务开始使用传统业务的端口号,如一些P2P业务使用端口,这样就降低了流量的识别率。

(二)基于关键字的识别和解析

该方法既可以区分流量的业务类型,又可以提取流量中的信息。

对于业务类型的区分,该方法首先要为每种目标业务建立特征库,特征库中存放的是目标业务报文中的关键字,如PPSream报文中含有“pps:

//”,Fasttract含有“Get/.hash”。

`BitTorrent含有0x13bit等,通过对报文进行关键字匹配,达到流量识别的目的对于流量中信息的提取,在进行关键字匹配之前需要知道目标信息与关键字的相对位置,从而通过关键字从报文中找到目标信息,比如需要获取报文中用户访问Web的统一资源标识符,则可通过查找该报文“Get”和“HTTP//1.1”两关键字之间的内容,将租信息提取出来。

基于关键字的识别方式优点在于识别率高、准确性好缺点在于该方式的资源消耗大,尤其在高速骨干网链路上,该方式对于设备要求较高,对加密协议,由于每次加密后净荷内容不同,故识别率较差,另外,随着业务的更新,关键字也在不断变化,需要对关键字进行不断的跟踪,这也使得对特征库的维护成本较局。

(三)数据的获取环境

三种用户行为数据获取环境有所不同对于用户会话数据获取,流量监测设备部署在汇聚路由器与认证服务器之间,通过对认证报文的解析,将会话数据直接定位到用户账号;对于业务和Web数据的获取,流量监测设备主要部署在网络出口,数据被定位到用户IP地址,由于目前网络中用户多使用动态IP地址,故还需进行IP和用户账号的转换,最后将数据定位到用户账。

(四)流量监测设备的部署

流量监测设备一般串接或并接到网络链路上进行原始报文的采集,并将原始报文信息进行关联、汇总等处理后传送到后台数据库,其覆盖程度和放置位置可根据实际需要确定。

流量监测设备可以部署在高速数据链路上,若干个流量监测设备可以覆盖一个城市或一个省份的用户群,一般情况下该设备不增加和修改通过网络的数据,因此对网络的负载影响较小。

表2.1流量监测设备数据采集示意图

 

三基于信息流量监测对网络行为分析方法

(一)数据预处理

数据预处理是指数据的清理、转换和压缩过程。

现实世界中的数据往往是不完整的,含噪声的,而高质量的分析结果往往依赖于高质量的数据,为了提高数据质量,需要对数据中的噪声进行清理,对不完整数据进行补充或删除虽然原始数据中含有分析所需信息,但是由于结构和形式的原因,原始数据往往不能作为分析的直接输入,这就需要通过对原始数据进行转换获得可用的分析数据另外,在数据量较大的情况下,需要对无关或弱相关的数据进行规约,如果规约后数据量还是不能满足分析需求,则可进行数据抽样或数据离散化。

(二)统计分析

统计分析中描述数据的常用方法有两种一是统计指标,二是统计表和统计图。

统计指标侧重于对数据认识的结果,而统计图和统计表则侧重于对数据的表示。

1.统计标准

统计分析通过一系列的统计指标对数据进行描述,主要分为以下几类:

(1)总量指标:

反映数据在一定条件下总体水平的指标。

(2)相对指标:

将两个有联系的指标进行对比,用所得比值来反映数量特征和数量关系的综合指标。

(3)平均指标:

反映数据在一定条件下的一般水平,表示数据的集中趋势。

(4)变异指标反映数据在一定条件下的离中趋势,变异指标越大,数据分布越分散。

(5)相关指标:

表示两变量之间关系的紧密程度,相关指标越大,表示两变量之间的关系越紧密。

2.统计表和统计图

统计表和统计图在网络用户行为分析中的作用非常重要,它们往往能够直观的表示出用户上网的行为规律。

统计表以表格的形式集中而有序地表现数据统计图以点、线和面的形式表现数据。

统计表和统计图可以对数据总体做多方面描述,包括静态分布、动态分布以及变量间相关分布等。

它们具有形象、鲜明、直观的特点,在数据表示方面优势比较突出。

常用统计表包括单式统计表和复式统计表,其中单式统计表仅对数据的某一种属性进行统计,复式统计表对数据的多个属性进行统计。

常用的统计图包括条形图、圆形图、折线图、散点图等。

(三)聚类分析

对于海量用户数据来说,研究每个用户上网行为比较困难,在这种情况下需要对用户上网行为实现有效划分,获取主要的用户行为,从而提高用户行为分析的效率和实用性。

聚类分析是实现自然划分的主要方法,它可以在无先验知识的条件下将一群对象按照相似性划分成不同的簇,使簇内对象的相似性较高而簇间对象相似性较低。

将聚类分析应用于网络用户行为分析中,可按相似性划分用行为,从而发现主要的用户行为模式。

1.层次聚类

层次聚类也是一种比较传统的聚类算法,它包含两种基本方法凝聚层次聚类以每个对象为单点簇,从单点簇开始每一步合并两个最近的簇,直到所有的对象被合并为一簇。

分裂层次聚类从包含所有对象的簇开始,每一步分裂一个簇,直到剩下单点簇。

相对于凝聚层次聚类,分裂层次聚类运算量非常大,实际应用较少。

在此我们仅介绍凝聚的层次聚类算法。

2.基于密度的聚类

基于密度聚类的核心思想是如果某对象邻域内对象的数量超过闭值,则继续聚类,邻域一般由半径(Eps)表示,阀值(Minpts)由对象的最小数量表示,这两个值需给定。

DBSCAN是经典的基于密度的聚类算法,该算法将对象分为三类核心点、边界点和噪声点。

核心点邻域内对象的个数超过给定闭值边界点不是核心点,但它在核心点的邻域内核心点与边界点之外的对象是噪声点。

(四)时态数据挖掘

时态数据挖掘可用来发现网络用户行为的动态规律,它认为用户行为发生的

前后顺序是有一定关系的,故可通过用户的历史行为,发现用户行为的动态变化

模式,从而预测用户未来行为的发展趋势。

在时态数据挖掘中,用户历史行为数

据可以按照时间顺序进行排序,如在一天中用户每5分钟产生的流量也可以按

事件顺序进行排序,如用户在一次网站访问过程中访问的页面顺序。

排序完成后

产生一个用户行为数据序列,再通过对用户行为数据序列的挖掘得到用户行为动

态变化模式。

(五)关联分析

关联分析方法用于发现隐藏在大型数据集中令人感兴趣的联系,所发现的联系可以用关联规则表示。

在网络用户行为分析中,关联分析可以将用户的多种上网行为进行关联,如可以把用户对网络的几种使用行为进行关联,也可以把用户的消费行为和用户的喜好行为进行关联,或者将用户的自然属性如性别、年龄、职业、收入情况与用户的消费行为或喜好行为进行关联。

前人建立了一个基于用户行为关联的电子取证系统,该系统通过挖掘网络中主体、客体和行为三者间的关联关系,实现有效的网络行为电子取证。

前人针对用户访问数据中的多维多值的问题,对关联规则算法依据系统设计的属性参数及概念划分要求进行了改进,改进后的方法能有效反应用户访问行为模式。

文献在经典的算法的基础上提出了基于特定模式树的用户行为关联规则挖掘算法,通过对模式树的递归挖掘获得最大频繁项集。

在实际应用中,关联分析多被应用于用户消费行为分析,挖掘结果往往具有一定商业价值。

文献采用用户行为还原法,对网购网站的流量统计数据和订单数据进行关联分析,分析的内容有用户进入网购网站的渠道,进入后查找目标信息的方式,找到目标信息后,促使其购买或放弃的原因。

通过对这些信息的关联分析,获取网站优化的启发性思路。

随着网络购物越来越流行,关联分析必将受到人们更多的关注。

用户在上网时进行一次上线和下线的过程称为一次用户会话,用户会话行为是用户最基本的上网行为,反映了用户对网络流量和上网时间的使用情况,以及用户上网的频繁程度。

对用户会话行为进行统计分析有助于认知用户产生的网络负载在时间、空间和数量上的分布,也有助于理解用户在上网'时间和网络流量等方面的需求,从而为运营商进行网络优化、服务定制提供依据。

 

总结

网络为人们提供简单快捷的服务,深受人们青睐,并成为人们生活的重要组成部分。

在网络世界里,人与网络之间的互动、人与人之间的互动构成了网络用户行为。

分析网络用户行为,对于网络优化、服务的个性化和差异化设计、用户挽留、竞争分析有重要意义。

流量监测技术为网络用户行为分析提供了大量真实和可靠的数据,成为我们洞悉用户行为规律的有力支撑。

目前中国网络处于发展阶段,关于网络用户行为的研究多数针对科研网络或单个网站,本文主要从更为全面和一般的角度,对网络用户行为进行分析和描述,从而反映用户行为中较为基础和普遍的特征。

本文阐述了统计学和数据挖掘等技术在信息流量监测及网络行为分析上的应用,在城域网用户数据基础上,对网络用户行为进行了研究,分析结果能够较为真实的反映中国网络用户行为现状。

 

参考文献

[1]苏红,万国根.基于用户行为关联分析的电子取证系统研究[J].电信科学.2010(12)[2]黄春宁.一种基于ARMA模型的移动通信网管数据挖掘系统设计方法[J].科技资讯.2010(06)

[3]潘蕾,苏晶,徐汀荣.网络访问行为关联规则提取的研究与设计[J].计算机应用与软件.2008(03)

[4]朱建平,来升强.时态数据挖掘在手机用户消费行为中的应用[J].数理统计与管理.2008(01)

[5]戴臻,费洪晓,李俊,谢文彪,肖新华.基于特定模式树的用户行为关联规则挖掘算法[J].计算机系统应用.2007(05)

[6]李君,王攀,孙雁飞,王浩云.P2P业务流量识别、分析和控制研究[J].计算机工程.2006(11)

[7]马宁,毛小玲.关于目前以太网接入相关问题的探讨[J].电信建设.2002(03)

 

致谢

光阴似箭,时光如梭。

三年的时间,在我们漫长的人生旅途中是那么的短暂,但是,这短短的大学生活,我们的自学能力在这里得提升,我感谢所有的恩师:

是您赋予我们最有意义的收获;是您带领我们走进知识殿堂,使我们不但丰富了知识,你用博大的胸怀,给予我们最无私的关怀和奉献。

这在这次的毕业论文中,发挥了我在学校学到的文化知识和技能的应用,也算是我最后一次做学校的作业了,我要感谢我的指导老师以及任课老师,感谢他们的教诲,让我知道在社会上懂得怎样去做好自己,端正自己的位置,为社会贡献出我自己的力量。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 经管营销 > 经济市场

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2