公安网网络流量大数据分析.docx

资源描述

公安网网络流量大数据分析.docx

《公安网网络流量大数据分析.docx》由会员分享，可在线阅读，更多相关《公安网网络流量大数据分析.docx（8页珍藏版）》请在冰点文库上搜索。

公安网网络流量大数据分析.docx

公安网网络流量大数据分析

项目建设目标构建网络大数据分析平台，基于领先的大数据处理技术，实现对海量网络流量数据的存储、统计分析和深度学习；实现针对网络流量数据的数据挖掘和深度分析模型和算法库；建立模型库：

通过大数据分析的方法，设计符合内网趋势和研究方向的网络流量数据分析模型，并通过通过大数据分析算法库，将业务模型固化实现，支撑网络运维工作发展。

构建基于全网的易于部署的高性能数据采集器，采集器需要支持海量的数据提取及预处理能力，支持完善的包检测及丰富的自定义能力，满足大数据平台的数据采集要求。

通过系统建设提供丰富的功能，系统提供大数据分析，用户画像，应用画像，关联关系分析等功能，提供内网检测，信息推送，流量管理等主动控制功能。

通过关键项进行综合评分，提供全面的信息化程度展现。

相关工作需要对全量的网络数据和应用信息进行相应的梳理、归类，采用大数据的技术和理念进行深度分析，可以获得新的有价值的信息，发现其中的规律和趋势，挖掘数据中内在的价值，将网络运维工作带入一个新的领域。

一方面在运维思路上，将从关注“网络通断”的传统运维管理提升到关注“网络流量内容”的智能化、精细化的网络管理；另一方面将从原有的故障事后处理的被动响应转化为故障事前预测，通过趋势分析结合智能管控手段，有效的避免异常的出现，实现网络运维的主动性预防。

1.4建设原则网络大数据分析平台应利用当前主流的大数据技术构建，严格遵循国家相关标准，在技术上领先，系统具备高可靠性、高安全性和高可用性，软件架构成熟，应用技术和模式具有先进性，平台具备动态扩展能力。

1.4.1参考标准网络大数据分析平台必须遵循相关国家和行业标准规范，包括但不限于如下的列表。

《国家信息化“九五”规划和2022年远景目标（纲要）》《国家信息化领导小组关于我国电子政务建设指导意见》（中办发[2002]17号）《电子政务工程技术指南》（国信办[2003]2号）《电子政务标准指南》，国信办和国家标准委员会，2002年5月《电子政务标准化指南总则》（国标委高新[2002]42号）《信息系统安全等级保护定级指南》GB-T22240-2022《信息系统安全保护等级基本要求》GB-T22239-2022《信息系统安全等级保护实施指南》GB-T25058-2022《信息系统等级保护安全设计技术要求》GB-T25070-2022《计算机信息系统安全保护划分准则》GB17859-1999《信息系统安全等级保护测评准则》送审稿《涉及国家秘密的计算机信息系统安全保密方案设计指南》，国家保密局，2001年4月《涉及国家秘密的计算机信息系统安全保密技术要求》，国家保密局，2000年7月《计算机软件工程规范国家标准汇编》GB8567-88《计算机软件产品开发文件编制指南》GB/T8567-1988《计算机软件需求说明编制指南》GB/T9385-1988《计算机件分类与代码》GB/T13702-1992《软件工程术语》GB/T11457-19951.4.2可靠性及可用性网络大数据分析平台的可靠性包括整体可靠性、数据可靠性和单一设备可靠性三个层次。

通过大数据平台的分布式计算、分布式存储架构，从整体系统上提高可靠性，降低系统对单设备可靠性的要求。

可用性是通过冗余、高可用集群、应用与底层设备松耦合等特性来体现。

在网络大数据分析平台规划设计、设备选型/配置中大量采用了硬件设备冗余、网络链路冗余、应用容错等手段，充分保证了整体系统的可用性。

1.4.3安全性遵循行业安全规范，设计安全防护保证大数据分析平台安全。

重点保障网络安全、主机安全、虚拟化安全、数据保护。

1.4.4成熟性从架构设计、软硬件选型和IT管理三个方面设计网络大数据分析平台解决方案，采用经过大规模商用实践检验的架构方案和软硬件产品选型，采用符合ITIL规范的IT管理方案，保障方案的成熟性。

1.4.5先进性合理利用大数据的技术先进性和理念先进性，资源动态部署等先进技术与模式，并与网络大数据分析业务相结合，确保先进技术与模式应用的有效与适用。

1.4.6可扩展性支撑网络大数据分析平台的资源需要根据业务应用工作负荷需求进行弹性伸缩，IT基础架构应与业务系统松耦合，这样在业务系统进行容量扩展时，只需增加相应数量的IT硬件设备，即可实现系统的灵活扩展。

2架构描述2.1整体架构本项目整体架构图如下图所示，首先由网络流量采集器采集实时流量数据，通过实时流量数据收集模块，将实时采集的流量数据存储本地之后，通过大数据平台的ETL工具，完成数据的清洗、装换，之后装载至大数据处理平台，进行处理分析。

基于大数据的处理技术，构建符合智能网络管理需求的大数据分析业务模型，包括用户画像、应用画像、关系分析、流量预测、精准推送和定制行为识别等，对网络流量数据进行大数据分析，借助专业的可视化组件，完成数据分析结果的展现。

图1：

系统整体架构设计图通过专业的数据交换组件，实现网络大数据分析平台同其他业务系统和省厅平台的数据交换，实现数据的共享和有效利用。

运维管理和平台安全对于网络大数据分析平台至关重要，通过专业的安全管理模块和运维管理模块，实现平台软硬件一体化运维管理和全方位、端到端、立体的安全管理体系。

大数据处理和分析组件是平台建设的核心，该项目采用业界成熟的、标准的、经过大量案例验证成功的技术路线。

Hadoop作为业界大数据的事实标准，平台将基于Hadoop生态系统实现大数据分析处理，同时采用并行数据库技术，实现分析结果的快速检索和可视化展现，满足网络监控的可视化分析需求。

数据资源层由以下部分组成：

实时流量数据收集：

收集采集器实时采集的流量数据，写入FTP服务器，形成流量数据缓存库。

流量数据缓存库：

存储采集组件实时采集的网络流量数据，供ETL工具使用。

数据ETL处理：

用于流量数据的清洗、转换和装载。

主要用于流量数据的预处理和加载。

流量监控基础资源库：

主要用于存储基本的流量数据，是流量数据的全集。

专题库：

根据大数据分析业务的需求，将基础资源库中的数据进行集成处理，形成专业的主题库，包括流量专题库、用户专题库和应用专题库。

数据服务：

基于大数据分析模型和算法的需求，提供基本的数据服务，包括MapReduceJAVAAPI，Spark，SQL，HBaeAPI，HQL等数据访问服务。

数据管理：

根据大数据应用要求对汇聚的数据资源进行组织、管理和高效率运算，基于大数据架构的数据资源组织与计算：

根据大数据应用要求对汇聚的数据资源进行组织、管理，包括元数据管理、数据质量管理、数据提取规则等。

2.2.5基础设施层基础设施层主要提供基本计算资源、存储资源和网络资源，考虑平台的开放性和兼容性，将支持两种方式构建基础设施，采用主流的云架构，包括华为云、阿里云、XX云等；一种采用独立硬件提供，包括计算存储服务器、独立的网络设备等。

2.2.6数据可视化数据可视化组件用于分析结果的展现，平台提供两种数据展示方式：

报表展现、图形化展示。

2.2.7数据交换数据交换组件主要用于满足平台对同其他业务系统和省厅平台的数据交换，实现数据的共享和有效利用。

主要包括：

数据导入、数据导出两个功能模块。

2.2.8流量采集数据采集层对整个平台提供数据支撑，通过多种方式获取丰富的数据。

采集层可以通过专用网络数据采集器采集网络数据，通过网管系统获得网络管理数据，可以通过网络设备获取网络设备日志。

采集器部署在部，省，市三级的数据中心及网络出口，可以获取用户及应用的网络数据。

专用的高性能采集器采用深度报检测（DPI）技术，对网络数据进行实时分析，抽取。

通过专用采集器的实时分析处理，将网络数据进行千分之一的信息整理，根据业务需要将数据按照指定格式上送到数据仓库。

2.2.9运维管理运维管理模块主要用于平台整体的运维管理，包括软硬件安装部署、系统全访问监控、硬件和软件参数配置、性能优化、告警管理、升级扩容等。

2.2.10安全管理安全管理主要用于构筑整体网络监控大数据平台的安全防护，主要功能包括：

用户管理、访问控制、日志管理、HA管理、数据加密、容灾备份等。

3平台建设需求该项目用于构建网络大数据分析平台，通过专业的网络流量数据包采集工具，获取网络运行数据，基于大数据分析技术，进行专业的数据统计和算法分析，进行可视化展示，支撑业务的发展。

总体架构如下图所示：

应用识别输出1）提供数据列表，展示每个根据流量数据识别出来的应用。

2）提供人工确认信息录入功能，记录与保存人工确认的信息；3）应用报备数据项可根据部门要求，确定报备信息项，如包括：

应用IP、应用名称、应用范围、应用部署硬件环境、集群方式、用途、与其他应用的明确关系等等。

3.2.2流量展示及异常流量识别流量展示介绍流量展示功能是需要准确展示内网中的流量，统计出内网的各个链路的流量中，都有哪些数据和应用、每个应用的流量大小、服务时段、这个应用在为哪些系统和用户在服务，以及详细的流量信息。

尤其重要的，是对某些时候异常流量的及时识别，继而可以进行相应的链路调整，防止引起更大的网络故障。

流量展示价值流量展示为管理者观察和了解链路流量的情况提供直观的方式，便于开展流量的调度和应用服务保障策略的制定。

异常流量对网络运行影响很大，对网络突发流量或异常流量的及时识别及调整，有利于增强网络稳定性，避免网络拥塞。

流量展示模型构建通过一系列的统计算法，结合时间、地域、次数等维度表现应用、链路和用户三个关注对象的流量情况。

异常流量识别有单独的监控展示。

流量展示涉及算法1）以应用为主体，以日/周/月为周期，统计上行流量/下行流量/连接次数/连接用户数/连接时常；2）以用户为主体，以日/周/月为周期，统计上行流量/下行流量/连接次数/连接应用数/连接时长；3）以链路为主体，以日/周/月为周期，统计上行流量/下行流量/承载应用个数/承载用户个数；流量展示输出1）全国流量分布图，展示公安部与各地间的数量值；2）钻取每条链路、表现出该数量值下各个时间点的数据量值；3）钻取每条链路、表现出该数量值下各类应用的占比；4）钻取每条链路、表现出给数量值下流量排名TOP10的应用名称。

5）实现前一天与7日均线的比较图表。

6）异常流量相关信息展示。

3.2.3流量智能调度流量智能调度介绍随着信息化进程的推进，整个网络流量及内容都呈现了爆发式的增长。

目前网络中存在了大量的应用，覆盖各个岗位。

但部分区域出现了流量拥塞和网络服务质量下降的情况。

大量流量导致带宽资源不足，但是这种带宽不足表现为相对忙时带宽不足和非忙时的带宽空闲并存。

如何解决这类问题，目前的主要手段是链路扩容，但当我们带宽从10M，扩到100M，扩到1G，甚至扩到10G，网络中依然出现忙时拥塞等带宽资源不足的情况。

通过大数据分析技平台的建设，给我们对这个问题带来了新的解决思路，可以根据网络流量的预测分析结果对网络资源进行有效的规划，针对内网中大量潮汐类应用，我们就可以规划一些数据备份类、系统更新类应用（数据量传输无白天或者夜间的限制），与潮汐类应用错峰使用，安排在晚上空闲时段，提升现有带宽利用率，在不增加带宽的基础上提高各类应用的网络传输质量，避免网络拥塞。

还可以通过网络资源趋势分析，可以预测网络的流量增长规模，预测应用增长趋势，指导后续整体网络规划。

流量智能调度，是指针对网络中由于网络流量不均匀占用，使得应用服务质量下降的问题，能够通过网络拥塞点预测，进行智能调度，提高网络资源使用率，优化应用服务质量。

流量智能调度，支持：

1）离线分析指定链路或指定应用（某一个或某一类）的历史数据，得到链路的拥塞模型，能够通过该模型进行拥塞点的预测，根据预测结果进行通知，或自动下发控制策略。

（预测模型可根据实际结果进行模型自身的修正。

）2）实时监控指定链路或指定应用的（某一个或某一类）网络情况，当检测到拥塞后，下发网络控制策略。

这一功能需要后期项目增加相应的硬件设备后才能提供。

流量智能调度价值1）通过网络资源趋势预测分析，提升现有带宽利用率，在不增加带宽的基础上提高各类应用的网络传输质量，避免网络拥塞。

2）通过网络资源趋势预测分析，可以预测网络的流量增长规模，预测应用增长规模，指导后续整体网络规划。

流量智能调度模型构建1.流量调度涉及的数据特征有：

1）日期2）源IP地址3）目的IP地址4）源端口号5）目的端口号6）协议类型7）时间区间T内的流入流量8）时间区间T内的流出流量9）时间区间T内最大速率10）时间区间T内最小速率11）时间区间T内平均速率12）时间区间T内的总访问人数13）时间区间T内的总访问次数14）每天繁忙时间区间15）时间区间T内的总访问时延16）时间区间T内网关超时的次数17）目的地域标识18）时间区间T内的服务质量QoE19）时间区间T内的输入包个数20）时间区间T内的输出包个数21）时间区间T内的输入字节数22）时间区间T内的输出字节数2.将一天的网络流量数据，按照时间区间T的定义（例如5分钟），划分为多个时间段，分别计算每个时间区间段内的数据特征，例如计算08:

00到08:

05内的流入流量、流出流量、最大速率、最小速率、平均速率、总访问人数、总访问次数等。

3.将流量调度的数据特征，以“日期，特征1，特征2，…，特征N”的形式表示，其中，每行表示某天内的网络流量数据记录，对于无时间属性的特征，一行只有一个，对于具有时间属性的特征，每个时间区间一个；例如“源端口号”一行只有1个；“平均速率”按照5分钟划分，一天有288个。

4.将多天网络流量的数据特征，按照“日期，特征1，特征2，…，特征N”的形式表示为多条文本，并通过数据归一化处理为数值型矩阵。

5.离线分析指定链路或指定应用（某一个或某一类）的历史数据，得到链路/应用的拥塞模型，能够通过该模型进行拥塞点的预测，根据预测结果进行通知，或自动下发控制策略。

（预测模型可根据实际结果进行模型自身的修正。

）6.在线实时监控指定链路或指定应用的（某一个或某一类）网络情况，当检测到拥塞后，下发控制策略。

流量智能调度涉及算法1）时间序列2）SVM

图4.0Higraph并行计算框架所谓Spark生态圈，是指Spark社区提供的用于图计算的Graph某、用于机器学习的MLlib、用于流处理的Streaming、用于SQL处理的SparkSQL，如图3.1所示。

图4.1Spark生态圈而作为新一代的并行计算框架Spark，在性能上也远远超于Hadoop，如图3.2可以看出，Spark的计算性能要比Hadoop的高15倍以上。

图4.2Spark与Hadoop性能对比以下Spark和Hadoop从更多方面进行的比较，可以看出，Spark并行计算框架，将会是下一代更流行更通用的框架。

图4.4Higraph的图算法性能对比2.与MLlib性能对比MLlib是Spark开源社区的机器学习算法库，目前社区活跃，使用率高。

数据集信息:

1,000,000条记录,20维特征。

图4.5HigraphVSMLlib可以看出，Higraph的算法（LR,SVM）性能要比MLlib的性能高3倍以上，3.与Mahout性能对比Mahout是基于Hadoop的Mapreduce并行框架的开源机器学习算法库，由于基于Hadoop，所以算法运行过程中，每次迭代计算的结果和中间文件的存储都需要写文件，这也是性能比较低的主要原因。

数据集信息:

1,000,000条记录,20维特征图4.6HigraphVSMahout可以看出，Higraph的LR性能大体是mahout的15倍，精度也比mahout高20%左右。

Higraph主要成果1.人物关系分析基于积累数据，构建人物关系图谱；亿级记录，分钟级计算，毫秒级结果查询，及时有效。

图4.7人物关系分析2.罪犯团伙挖掘基于提供的用户通话数据，挖掘可能的犯罪团伙社团；亿级记录，1小时计算完成。

解决客户采用10个以上计算节点运行10几个小时，计算不出准确结果的问题。

图4.8罪犯团伙挖掘3.道路发现基于LBS数据，建立道路发现模型，3分钟计算完1亿条数据样本，使警用地图更新周期从月缩短至天，甚至小时、分钟，省去道路勘探。

图4.9道路发现

3.4.3分布式存储建设要求采用标准的HadoopHDFS构建分布式存储系统，Hadoop分布式文件系统HDFS（HadoopDitributedFileSytem）能提供高吞吐量的数据访问，适合大规模数据集方面的应用。

通过聚合数十上百台，甚至数千台服务器本地文件系统的吞吐能力，HDFS提供同时对超大数据文件的访问能力。

3.4.4分布式并行处理建设要求平台应基于标准的MapReduce计算模型构建分布式并行处理模块。

MapReduce是一种简化并行计算的编程模型，名字源于该模型中的两项核心操作：

Map和Reduce。

Map将一个任务分解成为多个任务，Reduce将分解后多任务处理的结果汇总起来，得出最终的分析结果。

MapReduce适合于半结构化数据或非结构化数据的挖掘和分析。

3.4.5实时内存分析处理建设要求平台应基于标准的Spark计算模型构建实时内存分析处理模块。

Spark是一种内存迭代计算环境，其启用的是内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Spark是Map/Reduce计算模式的一个全新实现。

Spark的创新之一是提出RDD（ReilientDitributedDataet）的概念，所有的统计分析任务是由对RDD的若干基本操作组成。

RDD可以被驻留在内存中，后续的任务可以直接读取内存中的数据，因此速度可以得到很大提升。

Spark的创新之二是把一系列的分析任务编译成一个由RDD组成的有向无环图，根据数据之间的依赖性把相邻的任务合并，从而减少了大量的中间结果输出，极大减少了磁盘I/O，使得复杂数据分析任务更高效。

从这个意义上来说，如果任务够复杂，迭代次数够多，Spark比Map/Reduce快100倍或1000倍都很容易。

3.4.6实时分析结果查询建设要求实时分析结果查询模块应基于业界领先的分布式并行数据库构建，实现对结构化分析结果的快速查询和可视化展现。

提供基于MPP架构的结构化数据管理能力，支持行列混存，支持表按行或列格式组织存储，支持行列转换。

支持通过SQL接口查询访问HDFS上格式化数据。

3.5ETL工具建设需求ETL工具主要用于流量数据的清洗、装换，并装载至大数据存储组件中。

1.提供大数据平台的ETL功能，将流量数据缓存库中的数据进行清洗、转换，装载到大数据平台，形成流量监控基础资源库。

然后进行整合分析，形成不同的专题库，服务于上层业务分析需要。

2.ETL工具能够提供基本的流程管理能力，能够对数据的清洗、转换和装载过程进行配置和管理。

3.ETL工具需提供基本日志功能，能够对数据的清洗、转换和装载流程进行日志记录，便于系统管理。

3.6实时流量数据收集建设需求网络流量数据收集主要用于将采集器实时采集的数据收集成流量数据文件，之后写入FTP服务器，形成流量数据缓存库。

数据应能够进行有效清洗，确保平台能够实时处理三个月以上数据，并能够有效存储2至3年数据。

根据平台需求对处理和存储的数据量进行扩容。

3.7基础设施建设需求基础设施层主要提供基本计算资源、存储资源和网络资源，考虑平台的开放性和兼容性，将支持两种方式构建基础设施，一种利用云平台构建，兼容主流的云架构，包括华为云、阿里云、XX云等；一种采用独立硬件构建，采用服务器、存储设计和网络设备构建。

考虑项目的建设内容和业务需求，在本项目设计需基于用户需求的云平台部署。

3.8数据交换组件需求数据交换组件主要用于满足平台对同部级其他业务系统和省厅平台的数据交换，实现数据的共享和有效利用。

主要包括：

数据导入、数据导出两个功能模块。

3.9安全管理需求主要用于构筑整体网络监控大数据平台的安全防护，主要功能包括：

用户管理、访问控制、日志管理、HA管理、数据加密、容灾备份等。

具体要求如下：

展开阅读全文