网络流量分析.docx

资源描述

网络流量分析.docx

《网络流量分析.docx》由会员分享，可在线阅读，更多相关《网络流量分析.docx（27页珍藏版）》请在冰点文库上搜索。

网络流量分析.docx

网络流量分析

网络流量分析概述

摘要

Internet自60年代出现以来发展迅猛,网络规模飞速膨胀,网络流量越来越大,网络信息对人们生活的影响也越来越深远,然而网络中P2P等应用正在大量的消耗网络的带宽资源,从而影响了关键业务的正常展开。

因此,通过对网络中的各种业务流量进行分析,建立合适的预测模型就成为网络发展的必要。

通过分析,能及时的发现网络中的异常,从而使得网络管理更主动,为网络的持续高性能运行提供主要的保障,为规划、设计网络提供科学依据。

本文首先介绍网络流量数据采集方法，通过分析他们的优缺点让读者对网络数据采集技术有一个初步的了解。

然后本文介绍了两种基于不同技术的网络流分类方法:

深度数据包检测技术（DPI）和深度/动态流检测技术（DFI）。

在DPI中，主要介绍AC状态机模式匹配算法实现多关键字的快速匹配。

而DFI是基于流特征向量的分类方法，本文主要介绍分析了朴素贝叶斯方法。

在特征选择方面，介绍了运用相关度和快速的过滤器选择方法（FCBF）来对特征进行筛选,得出有利于分类的特征子集，同时还可以去掉不相关或冗余特征，增加分类的准确性。

最后，本文介绍了如何把网络流量分析的结果应用到入侵检测中,以发现网络中的异常。

一、网络流量分析概述

1.1网络流量分析背景

随着网络应用日趋复杂化,网络流量不断增长并且呈现多样化,如何更好的满足用户对各类Internet业务服务质量越来越精细的要求,这是目前面临的关键问题。

因此,通过对网络中的各种业务流量进行分析,建立合适的预测模型就成为网络发展的必要[1]。

网络流量是记录和反映网络及其用户活动的重要载体。

通过对网络流量的统计分析,可以间接掌握网络的使用情况，从而为做出决策提供有力依据。

1.2网络流量分析定义

网络流量是单位时间内通过网络设备或传输介质的信息量（报文数、数据包数或字节数）。

网络流量分析指的就是根据不同的方法从不同的侧面对网络流量展开的分析。

网络的作用是传输应用数据，应用数据在网络中传输过程在OSI协议模型中的描述如下图:

图1-1OSI传输模型

在OSI传输模型中，发送方的应用数据由下层协议逐层处理，最后通过物理层传输，接收方则逐层向上处理从物理链路上接收的信号，最后还原成应用层数据。

一个Web应用数据在OSI模型中的网络数据传输处理过程如下图:

图1-2Web应用的数据处理

从上图我们可以看出，应用数据在应用层采用HTTP协议，在传输层被分段，在网络层封包，在数据链路层封帧，由物理层传输，由每一层进行处理，按照相应的协议进行封装。

网络流量的分析就是对在网络中传输的实际数据流进行分析，网络数据流的分析包括从底层的数据流一直到应用层的数据的分析，有的时候也称之为网络协议分析。

1.3网络流量分析目的

简单的说，对网络流量进行分析的目的是了解、发现和证明。

了解，管理好一个网络最重要的就是对网络的了解，了解网络拓扑、设备、配置等是必须的，但要保证网络的服务质量，那是远远不够的，对网络流量的分析能使网络技术人员更深入地了解网络。

1.网络运行规律的了解。

每个网络都有自身的运行规律，这和网络的结构、应用特点等紧密相关，通过流量的长期分析，能够了解网络系统运行的规律。

2.网络应用运行规律的了解。

网络上重要的应用在运行时，每一个访问，每一个交易处理，数据都由网络来传输，通过分析应用的流量，能够清楚的了解应用运行的规律，访问量、交易处理数量、响应性能等数据，都可以通过流量分析手段获取。

3.网络用户的网络行为。

每个网络用户的网络行为都是相互影响的，同时会对网络的运行产生影响，伴随每个用户在网络中的每个网络行为都有网络流量产生，通过对网络用户的网络流量进行分析，能够直观地了解网络用户的网络行为。

发现，主要是异常地发现是建立在了解的基础之上的，如果能做到及时地发现网络中的异常，将使网络管理更主动，将为网络的持续高性能运行提供重要的保障（异常流量丢包严重）。

1.网络运行异常的发现。

网络中流量的异常，包括利用率、数据包数的异常。

2.网络应用运行的异常发现。

连接数量、应用响应、应用流量的异常，都可以通过长期主动分析来及时发现。

3.网络用户的异常网络行为。

异常的网络行为也都有明显的流量特征，如感染的蠕虫病毒、安装了后门程序等，长期流量分析能及时的发现网络用户的这些异常网络行为，及时发现网络用户的异常网络行为是避免其影响网络运行的关键。

证明，网络流量的分析可以为网络和应用问题的分析提供依据，特别是数据包级的分析，而这些依据是真实的，因为它们是实实在在的在网络中传输的数据包，这也是流量分析能够大大提高网络和应用问题分析效率的原因。

1.4网络流量分析意义

网络流量分析是有助于维护网络持续、高效和安全运行的一种手段，网络流量分析的意义在于取得对网络运行管理、应用运行管理和网络应用问题分析有意义的数据。

这些数据多种多样，像是利用率、bps、pps还是延迟、重传、连接数量等这些流量分析的数据，都要和我们实际的网络应用运行情况结合起来才有意义，因为不同的网络和不同的应用都有完全不同的流量数据。

网络流量分析的数据的意义是建立在了解的基础上的，只有对网络和应用的深入了解，才能使这些数据的价值得到真正的体现。

二、网络流量采集

2.1网络流

网络流就是一组具有相同特性的IP包，这些特性包括源/目的IP，源/目的端口，传输层协议，TOS字段等。

通常把前面5个特性成为5元组[2]。

网络流故名思议有一个持续的时间，网络流可以持续很长，也可以很短，而且同一个数据包可以属于不同的网络流。

2.2网络流的特性

网络流的五大特性，分别是自相似性，长相关性，周期性，混沌性和多分形性。

自相似是指局部的结构与总体的结构相比具有某种程度的一致性,举个例子，有个人篮球打的很厉害，那么他打其他球应该也不错。

长相关性意味着未来的统计信息蕴含在过去和现在的信息之中，它反映了自相似过程中的持续现像。

比如通过流量监控发现，一个人星期1，2，3都是晚上8点-10点上网，那么通过长相关性可以推断他星期4也是这个时间段上网。

周期性反映网络流量时间序列随时间变化而表现出来的一种季节性变化规律，它可能是由于流量数据的周期采集引起的,也可能是人们上网的行为习惯引起的。

比如有个人每周1-4都是晚上8-10点上网，但周末都是9点上到12点，这可能就是这个人上网的习惯引起了网络流的周期性。

混沌性是指确定的、宏观的非线性系统在一定条件下所呈现出的不确定的或者不可预测的随机现象。

比如小明每天都是8-10点上网，但也有时也会9点才上网，这就是确定中的不确定现象。

在预测研究中只要能恢复出流量时间序列的混沌吸引子,就可以通过寻找预测状态点的邻域状态点与其后续状态点的函数关系,作为预测函数,实现流量预测。

最后是多分形性，又称为多重分形测度。

多分形还没有一个明确的定义。

笼统的说，分形是大小碎片聚集的状态，是没有特征长度的图形构造以及现象的总称。

我们的理解是：

网络流往往是纷繁复杂的，我们很难单一用泊松或者正态函数来精确地描述这过程,多分形延伸了网络流量中的自相似（自相似即单分形）行为,多分形性质解释网络流许多令人困惑且杂乱无章的现象。

描述局部时间内网络流量的不规则现象时更加灵活。

由于网络流具有上面的特性，我们进行网络流采集时要注意考虑网络流的特性，才能保证采集的正确性以及完整性。

2.3网络流量采集介绍

网络流量的采集是网络研究的重要部分，它是网络流量分析的必要前提；同时，网络流量的采集使得网络管理员能够监控网络负载，发现网络故障的位置，从而制定网络管理策略。

理想的数据采集方式应该具备以下一些特点:

1．不影响数据流转发的速度

在整个数据流的采集过程中,不能有明显影响数据流转发速度的状况发生。

如果在数据采集的过程中,数据流转发的速度明显下降,不能真实地反映网络流量状况,这违背数据采集的根本目的。

2．占用资源小

对数据流进行采集的过程中,可能需要在路由器（交换机）中进行流量统计,并且储存所采集数据。

这会给路由器（交换机）带来额外的资源开销。

理想的流量采集方法应该尽可能少占用资源,在采集效果和资源占用之间寻求一个平衡点。

3．完整的数据流监控

一个理想的数据采集方法应该具备完整的数据流监控能力。

在网络发生拥塞的时候,能不能采集到完整的流量信息,是考察数据采集方法的一个重要标准。

4．分布式的数据采集

分布式的数据采集有利于实现校园网内部的数据流量监控和管理。

2.4主流网络流量采集技术

现在的网络流采集方式主要分为四种:

基于网络流量全镜像的采集技术、基于SNMP的采集技术和基于Netnow/sFlow等通过采样减少分析数据的采集技术以及基于干路中桥接设备的采集技术

2.4.1基于网络流量全镜像的采集技术

网络流量全镜像采集是目前主要采用的网络流量采集模式，大部分的IDS（IntrusionDetectionSystems入侵检测系统）就是如此。

其原理是通过交换机等网络设备的端口镜像或者通过分光器、网络探针等附加设备，实现网络流量的无损复制和镜像采集。

和其它的采集方式相比，流量镜像采集的最大特点是能够提供丰富的应用层信息。

此方法的优点是实施最为简单,几乎不会对网络中数据传输的延时造成任何影响.缺点是由于数据采集机要捕获所有的数据流信息并对之加以分析,因此这种方法对数据采集机的处理能力要求很高。

此外,由于这种方式是对整个IP数据包进行抓取后再进行处理,必然导致数据量过于庞大,对于后续的数据处理工作带来不便。

2.4.2基于SNMP的流量采集技术。

基于SNMP的流量信息采集，实质上是通过提取网络设备Agent提供的MIB（管理对象信息库）中收集的一些具体设备及流量信息有关的变量。

在路由器中启动流量统计功能,使其记录下所有流量的源地址、目标地址、数据包数量和字节数。

另外一台采集数据的机器通过SNMP协议定期到路由器上去将流量统计信息读取回来,从而获得详细数据。

此方法的优点是流量信息准确,信息获取方便。

同时,由于使用SNMP协议进行数据获取,具有很好的通用性和可移植性。

因此这种方法的应用非常广泛。

缺点是在路由器上运行流量统计功能,会影响路由器对数据包处理的效率,增加路由器的CPU和内存负载,不可避免的对网络性能带来一定的影响。

因此,这种方法并不适合在网络和核心层部署,适合在网络的边界处进行流量采集。

MRTG是基于SNMP的免费软件，可以通过Web实时向用户提供多种统计时长的统计图表及关键节点性能状况。

图中就是MRTG统计的每个设备的流量情况（以报表形式输出）：

图2-1基于SNMP的开源软件MRTG

可以看到基于SNMP的流量采集技术主要是在宏观的角度对网络流进行统计，使网络管理员可以掌握整个网络的运行状况。

2.4.3基于Netflow/sFlow的流量采集技术。

NetFlow是思科公司提出的一种数据交换标准，而sFlow是对NetFlow的改进，是基于标准的最新网络导出协议（RFC3176）。

他们的原理是：

路由器和交换机中实现的基于流统计的方法。

流量信息在路由器或交换机内部通过专门的模块生产流一记录，再将流一记录上报到设备外部的统计系统进行进一步统计和分析。

Netflow和sFlow一般在实际应用时都进行采样统计。

优点：

在进行数据交换的同时对数据流信息进行统计,并将统计信息以特定的格式输出。

缺点：

必须进行一定的采样，否则对路由器和交换机设备的处理能力有较大压力。

NetFlowAnalyzer是一款专业的带宽监控与流量协议分析软件，帮助用户了解网络流量构成、协议分布以及用户的行为。

图1显示了各设备的速率的排行。

图2-2基于Netflow的流量监控软件NetFlowAnalyzer

2.4.4基于干路中桥接设备的采集技术

基于干路中桥接设备的采集技术是在网络的出口链路中，串联具有数据过滤/转发功能的设备，例如：

网关计费服务器、防火墙等

优点：

对数据的捕获能力强并具有控制能力，可以捕获不同网段的数据，不需要主干交换设备支持

缺点：

对设备的处理能力要求高，容易造成网络瓶颈，价格昂贵，不能用于底层网络内部数据流量的采集。

图1：

IP5000是In-line（桥接）模式的专用硬件产品，以DPI（DeepPacketInspect，深度包检测）技术为核心，提供了基于七层应用的带宽管理和应用优化功能。

图中是它的管理界面。

图2-2IP5000MaxNet管理界面

2.4网络流量采集技术的对比

下面我们对以上讲的4种技术做一个总结，列表如下：

SNMP

Netflow/sFlow

干路中桥接设备

网络流全镜像

成本

相对低

低

高

跨越子网

可以

设备相关

区别主机

不能

可以

区别协议

不能

可以

瓶颈风险

低

高

低

漏捕数据

是

否

是

表2-1几种主流采集方式对比

1.由于SNMP和netflow主要通过协议以及软件来实现，因此他们的成本比较低。

2.SNMP由于协议本身的限制，因此不能区别主机以及协议。

3.基于干路中桥接设备的采集技术由于直接把采集设备直接串联在链路中，一旦出故障，容易影响整个网络。

4.NetFlow和网络流量镜像都采用了采样的方式，因此都有漏捕数码的可能。

三、网络流量分析

网络流量分析根据不同的方法可以从不同的侧面展开,目前,主要的分析方法可以分为两类：

基于包内容的分析方法（DPI）和基于流量特征的分析方法（DPI）。

3.1基于DPI的网络流量分析技术

3.1.1DPI提出的背景

传统的端口检测技术是根据TCP数据包或UDP数据包首部的源端口或目的端口号识别一些常见协议的流量。

这种识别流量的方法最大的优点就是简单易行。

端口检测是基于IANA注册的知名的端口，例如，HTTP的端口是80，SSH的端口是22，Telnet的端口是23等。

在传统的模式下，重要的端口一般是端口号小于1024的或者是在IANA注册的端口号。

通过这些知名的端口，我们可以很轻易的检测出他们相应的应用程序名称。

但是这种技术有一定的局限性。

单一使用端口检测己经远远不能满足检测大多数应用程序的需要。

因为现今的很多Intemet流量出现了新的特征，例如端口检测技术对使用动态端口的应用程序就无能为力，而且这种方法同样不能分辨两种应用程序同时使用相同的端口号的情况，例如，现在的很多软件的非HTTP数据流连接端口也会使用端口80，仅依靠端口识别HTTP协议已经不再可靠[3]。

图3-1Kazaa数据包分析

例如，在上图中，显示了一个数据包的结构，如果只是通过常见的HTTP应用签名特征进行判断，就很容易将它误判为一个Web访问的应用。

因为如果只观察第一个签名特征样本（例如HTTP/1.1），那么它看上去很像是一个标准的HTTP协议。

然而通过对数据包的负载部分的进一步深入考察，发现该数据包具有的第二个代码样本签名特征，即KaZaa，这样我们就能够了解这个数据包的真实身份和目的。

3.1.2DPI技术研究

DPI是目前通过IP来识别和鉴定协议及应用（IP流）的最重要的技术。

所谓“深度数据包检测”，“深度”是和标准数据包分析层次相比较而言的，“标准数据包检测”仅分析IP包的4层以下的基础信息，包括源IP地址、目的IP地址、源端口、目的端口以及连接状态，这些信息保存在数据包的4层以下的包头内。

如下图：

图3-2传统端口检测

DPI除了对4层以下的基础信息进行分析外，还增加了应用层分析，识别各种应用及其内容。

这是通过对一系列数据包的包头以及负载中的签名特征（Signature）进行分析，同时DPI提供了对网络的利用率的分析，为网络性能优化提供了手段。

如下图：

图3-3深度数据包检测

不同的应用层协议有不同的协议信息，这些信息可以作为应用层协议的检测特征。

例如以下是常见的P2P应用的特征值[4]：

P2P应用

特征值

BitTorrent

0x13BitTorrentProtocol

Gnutella

“GNUT”,“GIV”,“GND”

eDonkey2000

0xe319010000,0xc53f010000

QQLive

0xfe290404

表3-1常用P2P协议特征值

3.1.3AC自动机算法

知道了各种应用的协议信息的特征值后，下一步要解决的问题就是如何从报文中匹配出特征值。

这里介绍一个比较常用的多模式匹配算法：

AC自动机算法。

AC自动机算法的输入是多个关键字集，输出是关键字的匹配情况。

自动机分3个阶段执行搜索：

根据关键字建立状态转移图，然后对每个状态建立失败指针，最后根据这幅包含失败指针的完整的状态转移图进行匹配[5]。

第一阶段：

根据关键字建立状态转移图，又叫状态转移指针。

构造的思路是：

开始时这个图只包含一个根状态R。

然后，通过添加一条从起始状态出发的路径的方式，依次向图中输入每个关键字p。

新的顶点和边被加入到图表中，以致于产生了一条能拼写出关键字p的路径。

关键字p会被添加到这条路径的终止状态的输出函数中。

当然只有必要时才会在图表中增加新的边。

比如关键字{she,he,say,shr,her,ayd}，构造过程如下：

1、向图中添加一个关键字“she”，结果下图所示，从状态R到状态e的路径拼写出了关键字“she”，我们把输出“she”和状态e相关联，图中用绿色圈表示。

2、添加第二个关键字“he”，状态转移图变为下图：

3、添加第三个关键字“say”，因为图中已存在一条从R状态到s状态的边了，所以不必在R状态处另外添加一条边，而是从s状态开始建立，状态转移图变为下图：

其他关键字如以上规则所述继续加到图中，最后构造的状态转移图为：

第二阶段：

构造失败指针。

失败指针的作用是用于指示当某个状态匹配失败时，应该指向哪个状态。

构造失败指针的过程为：

R状态的失败指针指向自己，其余状态节点的失败指针为：

设这个节点上的字母为C，沿着他父亲的失败指针走，直到走到一个节点，他的儿子中也有字母为C的节点。

然后把当前节点的失败指针指向那个字母也为C的儿子。

如果一直走到了root都没找到，那就把失败指针指向root。

比如第一层的s状态、h状态和a状态，因为父节点都是R状态，而R状态的失败指针指向R状态本身，所以s状态、h状态和a状态的失败指针都指向R状态。

再考察第二层的状态。

h状态的父节点是s状态，沿着s状态的失败指针走到R状态，而R状态有儿子节点是与h状态同一个字母，所以h状态的失败指针指向第一层的h状态。

接着是a状态，同理，其失败指针指向第一层的a状态。

接着考察e状态，沿着父状态的失败指针走到R，因为R状态下的儿子节点没有与e状态是相同的字母，所以第二层的e状态的失败指针指向R状态。

按照这一规则，最后得出包含失败指针的完整状态转移图为：

图中没有用红色箭头标注的状态，其失败指针均指向R状态。

第三阶段：

搜索。

如果搜索指针路过了一个红色圈的点，那么以这个点结尾的单词就算出现过了。

或者如果搜索指针所在的点可以顺着失败指针走到一个红色圈的点，那么以这个点结尾的单词就算出现过了。

如待匹配字符串 ’yshersayd‘，首先匹配首字母y，因为R状态下没有y状态，所以按照R状态的失败指针，返回R状态；接着匹配字母s，因为R状态下有s状态，所以跳到s状态继续匹配；接着匹配字母h，因为s状态下有hs状态，所以跳到h状态继续匹配；接着匹配字母e，因为h状态下有e状态，所以跳到e状态继续匹配，因为e状态是用绿色圈标注，代表she关键字匹配成功，所以输出{she}；接着匹配字母r，因为e状态下没有节点，所以按照其失败指针，跳到第二层的e状态，由于这个e状态也是用绿色圈标注，所以代表关键字he匹配成功，所以输出{he}，然后这个e状态下匹配字母r成功，所以输出{her}。

按此规则匹配，最后输出成功匹配的关键字为{she,her,say,ayd}。

3.1.4DPI总结

DPI检测技术的优点是:

1、检测准确率比较高。

2、原理简单，分析起来也相对容易，并且能应付大多数的识别要求。

3、实现速度快，使用DPI技术不需要建立太多的关联表，也不需要在系统中缓存大量的数据，对系统性能的影响相对较低，匹配起来速度比较快。

DPI的缺点是:

1、各种协议软件都在不断的发展，因此协议特征信息也在不断的变化，当发生变化的时候，检测特征也要随之变化，比较被动。

2.、要采用特征检测技术，其特征必须足够复杂以便在概率上达到不可能误判的目的，虽然经过实践发现大多数的网络协议/应用都具有足够复杂的特征，但仍然有部分的协议不能够提取出足够复杂的特征来，特别是加密的协议，在面对这种情况时，DPI技术显得无能为力。

3.2基于DFI的网络流量分析技术

3.2.1DFI的提出

目前DPI技术的有效性正在逐步下降，这是因为DPI技术基于两个假设：

1．IP包的有效载荷可见性。

（谁都能知道ip包里面装的是什么）

2．IP包能够被解释，分类器知道每个应用程序相应IP包的特征。

但是这两个假设成立的情况现在正在减弱，一个是由于应用程序对IP包有效载荷的加密（如skype），政府法规会保护用户的隐私权；另一个是运营的负担，设备需要频繁的更新特征库来应对应用程序IP包格式等的变化。

鉴于基于知名端口和有效载荷内容的方法的局限性，现阶段学术研究方面主要偏向于通过利用网络流的统计特征（DFI）来实现业务识别。

3.2.2基于DFI技术的方法的基本原理

DFI主要是利用前面所说的流的一些特性，比如自相似性，周期性等。

不同类型的应用一般来说在统计特征上也会有比较明显的差异，比如网上IP语音流量体现在流状态上的特征就非常明显：

RTP流的包长相对固定，一般在130～220byte，连接速率较低，为20～84kbit/s，同时会话持续时间也相对较长；而基于P2P下载应用的流量模型的特点为平均包长都在450byte以上、下载时间长、连接速率高、首选传输层协议为TCP等。

在DFI方法中流是采用五元组定义，对与这种五元组定义的流常用分类方法的一般过程是选取流的适当参数，使用一个人工标注已知类别的数据作为输入，通过不同的机器学习方法进行训练得到分类器参数，从而实现对未知流的识别。

现阶段，采用DFI技术的分类方法大多是基于机器学习的：

无指导学习（聚类方法），指导学习以及混合方法。

3.2.3朴素贝叶斯分类器

朴素贝叶斯分类器在网络流分类中的应用：

网络流量分类是一种典型的多元分类问题。

在机器学习方法中,流量分类问题可以抽象为:

已知流量类型集合C={c1,c2,…,ck}和网络流集合T={t1,t2,…,tn},其中,网络流ti是一个由网络流属性集合构成的属性向量（Ai1,Ai2,…,Aim）,如何在类型已知的网络流集合上,利用机器学习算法构建流量分类模型f:

T→C,并以此模型对类型未知的网络集合进行分类[6]。

贝叶斯方法：

用F={F1，F2，…，Fi，…，Fn}表示流集合，n表示样本流的个数，Fi={fi1，fi2，…，fij，…，fim}表示第i条样本流，其中m表示样本流的属性个数，fij表示第i条流第j个属性。

设C={C1，C2，…，Ch，…，Ck}表示流所属的类别标签集合，其中k表示类别的数量，Ck表示第k类。

定有k个类C1，C2，…，Ch，…，Ck，k表示流量的应用类型的个数，给定一个未知的数据样本Fi，分类法将预测Fi属于具有最高后验概率（条件Fi下）的类，即朴素贝叶斯分类将未知的数据

展开阅读全文