浙江面向客户感知的LTE网络实时性能监控Word格式.docx
《浙江面向客户感知的LTE网络实时性能监控Word格式.docx》由会员分享,可在线阅读,更多相关《浙江面向客户感知的LTE网络实时性能监控Word格式.docx(23页珍藏版)》请在冰点文库上搜索。
为应急保障提供IT手段。
4、网络优化能力
完整的业务配置功能发现设备运行规律,辅助网络异常发现。
及时发现网络隐患,缩短故障处理历时。
本项目的基本目标是协助网络维护人员,基于及时发现、快速处理网络故障和集中调度的需要,在重大节日、重大活动、应急通信保障方面对性能数据的变化给出较为准确客观的分析,并结合历史数据的规律进行数据异常的基本判断,进而根据异常幅度给出不同程度的提示甚至告警信息,指导全网建立实时性能监控工作体系、开展实时性能监控、建设实时性能监控技术手段,提升用户感知。
经济效益
提高分析优化工作效率,缩短故障处理时长。
有助于快速发现、定位和处理业务降质情况,挖掘网络故障、隐患,降低业务影响,避免网络故障,有效吸收话务量。
每年可挽回损失约80万元。
节约了人力成本,按照节约3名指标监控维护人员的人力成本计算,一年至少可以节约30万元,自2010年推广至今,估算约节约资金90万元。
在重要节假日和重大活动时时,可迅速发现网络中存在的资源占用率瓶颈,通过及时的调度和调整,可增加网络吸收话务量。
根据重要节假日,重大活动,网络拥塞指标的下降幅度,估算出,在“春节”、“中秋”等节假日和重大活动,有效吸收话务量,约新增利润50万元。
社会效益
提升端到端客户感知分析评估能力。
该项目以客户感知为导向,进行业务端到端质量评估,网络质量和客户满意度明显提升、有助于提高用户粘性和进一步增强对竞争对手的领先优势。
设备故障被系统及时发现,扼杀于萌芽状态。
为“春节”、“国庆”、“五一”、“中秋”等重大节假日和重大活动提供了有力的网络手段支撑和保障,为网络部门及时发现性能异常、设备故障、kpi数据分析提供了有力支持。
为网络在重大节假日和重大活动期间的稳定、安全运行保驾护航,社会效益非常明显,提升了企业形象。
省内试运行效果:
描述成果引入后在本省试运行方案、取得的效果、推广价值和建议等。
辽宁移动公司网络关键性能指标主动监控系统已累计接入指标257个,监控指标覆盖交换网、无线网、智能网、GPRS网、短信等,系统在日常网络监控、节假日场景保障、重大活动/重点地区保障、应急保障工作中均发挥了巨大的应用作用。
通过网络关键指标主动监控系统的应用,建立了“面向客户感知监控”的指标体系。
全面、实时、生动地反映网络质量水平,保证故障的及时发现、及时处理,提高工作效率。
统一了交换、短信、无线、数据专业的设备、性能的告警监控平台,实现了集中一体化的全方位监控,为集中监控、集中调度的管理模式提供有力的支撑工具。
实现了小区级的性能指标监控粒度,并提供最小2分钟粒度,以更细致的方式反映网络状况,提高公司维护精细化水平。
以自动化代替人工方式,加强企业信息化建设,节省了人力,实现低成本高效运营,建立了“面向客户感知监控”的工作流程。
以“客户感知”为导向,提升用户感知。
运行效果:
1、提升了基于客户感知的网络关键指标监控的主动性,提高效率,缩短故障处理历时。
⏹监控更细粒度的指标数据,提升监控实时性
最小2分钟粒度的问题发现能力,使得性能故障的处理周期明显缩短,平均故障处理及时性增加了20%左右,同时也使得投诉平均处理及时性提升了5%-10%,有效的减少了用户投诉量。
⏹主动发现系统中的隐患,弥补设备告警的不足
系统对于性能恶化趋势的实时发现能力使得监控人员可在设备真正故障前就发现问题并进行处理,使得相关网元的平均故障率下降了8%左右;
⏹可选择特定场景进行重点监控,一改以往被动监控的模式。
在系统的使用过程中维护人员通过告警门限的优化设置,已实现重要性能指标告警的自动派单,系统月均派单量在30张左右,工单处理及时率为100%。
⏹为应急保障提供IT手段
大大提高了监控和维护效率,节省了各个专业维护人员登陆网元查看实时状态的工作量。
2、提升了基于客户感知的网络关键指标监控的灵活性
⏹多种监控模式,提供丰富的监控手段和强大的监控能力
矩阵监控、数据监控、图形监控、仪表盘监控、混合图形监控、数据完整性监控、智能矩阵监控、TOPN监控。
⏹灵活的配置功能满足不同的监控需要
多种基线、容忍线设定方法
3、提升了基于客户感知的网络关键指标监控的可管理性
⏹数据质量查询功能
提供历史数据异常分析能力
⏹复合条件性能告警定制和应用,完善对性能告警的处理能力
⏹监控重点数据,提升集团考核质量
对集团考核KPI和重点指标进行主动监控。
4、加强了基于客户感知的网络关键指标监控的实用性
⏹多种应用场景(节假日、重大活动等),提高监控保障工作的针对性
在“春节”、“国庆”、“五一”、“中秋”等重大节假日提供了有力的网络手段支撑和保障
⏹实现个性化监控,监控结果更附和实际生产情况
文章主体(3000字以上,可附在表格后):
根据成果研究类别,主体内容的要求有差异,具体要求见表格后的“填写说明8”。
1.背景情况
目前的网络质量监控工作现状:
5、网络设备告警监控采用的是被动维护模式,无法实现网络质量的主动监控,且用户感知的异常变化并不能直接通过设备告警得到完全、真实、直观的反映。
6、网络指标滞后于用户感知,时常出现网络、设备并无任何异常,但用户感知业务质量已出现劣化,网络评估分析工作需要面向客户感知转变。
对于性能指标的关注只能通过周期性的统计和分析报告实现,OMC统计报表延时严重,实效性差,很难第一时间反映网络性能问题。
7、“面向设备”、“面向网络”的传统监控模式难以支撑超大型复杂网络体系,新型业务承载系统,行业应用、集团客户等面向大客户的企业级应用系统面临着无法通过传统设备告警监控模式进行问题发现和处理,设备监控维护出现“真空”风险。
8、客户对网络质量的感知受多种因素的影响,传统话统指标基于网元设备的处理过程,没有面向客户感知设计,指标的统计点不对应实际客户感知,更加不能实现对用户客户感知的端到端管理,真实的客户感知度无法有效评估。
9、网络告警监控受限于设备厂家的告警能力,网络质量劣化无法通过告警的形式显性化,某些业务故障甚至可能不会出现设备告警。
10、网管系统以常规报表为主,性能指标数据获取来源单一,且多离散分布于多套数据系统,彼此之间缺乏联系,出现问题后无法进行关联分析。
每日质量分析、异常问题分析,必须提取、查看多张报表,进行手工分析,效率低。
本项目的研究是为了解决上述问题,基本目标是协助网络维护人员,基于及时发现、快速处理网络故障和集中调度的需要,在重大节日、重大活动、应急通信保障方面对性能数据的变化给出较为准确客观的分析,并结合历史数据的规律进行数据异常的基本判断,进而根据异常幅度给出不同程度的提示甚至告警信息,指导全网建立实时性能监控工作体系、开展实时性能监控、建设实时性能监控技术手段,提升用户感知。
2.技术方案
2.1概述
网络质量主动监控功能是网络监控的辅助支撑手段,弥补告警监控的不足,能够实时提供网络运行质量情况,便于监控人员及重点通信保障人员及时发现网络隐性故障、服务质量下降等问题。
适时采取应急措施,控制和消除拥塞、过载等情况的发生,从而保障网络安全、稳定运行。
也为了更好的从客户角度衡量全网的质量水平,让网络维护优化工作更加面向客户,以提升客户对网络的感知,提高公司竞争力。
网络关键指标主动监控系统主要能解决四类问题:
5、监控盲区
6、客户感知
7、针对性
8、优化能力
2.2网络关键指标主动监控系统
2.2.1系统架构
⏹分层架构设计,优指标化监控、性能告警管理、配置功能
⏹稳定成熟的底层采集机制,产品化统一指令平台核心程序,提高采集效率和稳定性
主动监控的主要功能包括:
1.实时数据采集:
根据确定的采集周期以发指令采集方式进行监控;
2.准实时数据采集:
厂家网元不支持发指令方式进行采集的,根据话务统计报告周期进行监控。
由于基于网络保障的性能指标由于实时性的要求和指标范围的不同,一般会选择更加实时的通道,如指令通道。
3.性能数据动态呈现
4.基线设置与调整
5.性能数据异常告警
性能告警管理:
性能告警条件定义,性能告警过滤模板,性能告警流水窗监控
6.性能指标监控
有以下几种监控方式:
7.管理功能
采集任务定义、性能阀值管理、专题场景管理、常规设置、选项设置。
2.2.2数据采集及处理
大多数性能指标已经在网管系统中采集、存储,并符合指标采集的时间粒度和空间粒度要求,这部分指标可以直接基于现有网管系统提取。
在网管系统改造不能满足实时性能监控要求的情况下,可以通过直连网元、采用指令交互、采集设备运行日志、登陆设备获取统计报告等方式实现。
目前性能数据通过两种方式进行采集:
1、实时性要求高的数据通过发送指令的方式进行采集。
发送指令方式进行采集的数据,采集最小粒度支持2分钟。
2、从话务统计数据中获取。
对于通过统计数据获取的数据,其采集粒度由统计数据产生的时间粒度来决定,一般常用时间粒度为15分钟,60分钟。
2.2.3实时性能告警产生原理
实时性能告警的产生原理,是将采集到的性能指标数据与预先设定的容忍线(告警触发阈值)做比较,超过容忍线时触发告警产生机制。
具体分为以下几个步骤:
1)计算基线:
选取历史正常值为样本空间,经过统计分析得出性能指标的正常波动范围,画出上下基线,本步骤的核心技术是基线产生算法;
2)计算容忍线:
在获得基线之后,选取一个合理的容忍度,按照容忍度,对基线上(或下)浮动产生容忍线,作为触发后续告警产生机制的阈值,本步骤的核心技术是容忍度的取定;
3)产生告警:
当实时监控值超出上(或下)容忍线后,根据性能指标的特性,触发不同的告警产生机制,本步骤的核心技术是告警产生机制。
上述三个步骤,及其所涉及的“基线算法”、“容忍度计算方法”、“告警产生机制”共同构成“主动监控实时性能告警算法”。
2.2.4基线以及容忍线的设置功能
2.2.4.1静态基线的设定
1)维护人员参照某指标的历史表现、管理要求或者设备能力,结合自身的工作经验取定基线;
2)人工方式写入系统的配置文件或者在配置窗口中填写,从而设定基线。
“静态基线算法”是指:
针对某个指标,设定它的24小时周期范围内不随时间变化的同一个上限(上基线)或者下限(下基线),划分出指标值的正常范围、异常区域。
算法原理如下:
图1
对于某些指标来说,可能只有上基线或者下基线,如CPU负荷;
另外一些指标可能需要同时关注上基线和下基线,它的上下基线均可反映异常情况,所以可以根据实际情况对以上的范围进行灵活设置。
基线的取定方法
传统上,维护人员基于经验判定各个指标的阈值,并通过手工方式在网管系统等手段中进行设置,简称为“手工设定”方式。
在指标较少、波动幅度不大的情况下,该方法能够适应工作需要。
但是在纳入主动监控的指标、设备数量较多的情况下,该方式难以适应运维需求,工作效率低下;
对于波动幅度较大的指标,容易产生设置随意、主观性强的问题,不利于系统维护。
适用于静态基线算法的与管理需求、设备自身能力有关的指标,可以采用手工设定方式;
其它适用于该算法的指标,由于有一定的波动范围,符合一定的统计规律,可以通过系统的自动学习,按照动态基线算法原理产生相应的阈值,并自动设定,该方式简称为“自动设定方式”。
因此,两种方式适用于不同类型的指标。
手工设定方式
维护人员参照某指标的历史表现、管理要求或者设备能力,结合自身的工作经验取定基线;
人工方式写入系统的配置文件或者在配置窗口中填写,从而设定基线。
自动设定方式
概括来说,“自动设定方式”就是采用与动态基线算法类似的原理,基于历史统计数据,不分时段差别,计算出不随24小时时间变化的阈值,并自动设定为正常数据的基线。
算法描述如下:
1)历史数据取值
连续取M天的所有采集粒度内的数据共N个:
如采集粒度为15分钟,那么数据个数N=M×
24×
(60/15);
如果采集粒度为30分钟,那么数据个数N=M×
(60/30)。
以此类推。
N个数据分别记为x1~xN。
2)排除异常数据
根据本统计周期内的维护记录,排除节假日、故障期间的数据以及错误数据。
亦可按固定比例排出一场数据,在系统实现时,正常数据概率可以人工调整,然后找进行计算。
3)确定基线值范围
优先选择动态基线算法小节中的概率分布算法,次选排序法
2.2.4.2动态基线的设定
对一个指标在24小时监控周期内设置同一水平的阈值,仅仅适用于那些波动不大的指标。
对于在不同的时间段波峰、波谷差别较大的指标来说,必须针对不同时段设定不同的门限,确定不同时段内指标值的合理分布区域、异常分布区域。
图63
其中,上基线表示各个时段正常值最大值连成的曲线,下基线表示各个时段正常值的最小值连成的曲线,二者确定了各个时段的正常波动范围,体现了正常情况下该性能指标在24小时之内的变化趋势。
上基线与上容忍线之间异常以及波动容忍范围。
可以弹性调整。
超出上下容忍线将触发告警产生机制。
1、历史统计数据选取及预处理
1)样本空间的选取
理论上,样本空间越大,基线数据的失真度越低;
但是样本空间越大,原始数据量就会很大,对于数据获取、存储、运算都带来更大的开销和难度。
一般每个时间点最少都要选取过去一个月的历史数据。
2)样本点数据的预处理
选定样本空间后,应对样本点数据进行预处理,存在三种方式:
⏹第一种方式,主要结合运维期间发现的故障、或者节假日、重大事件等有关情况,确定异常样本点数据,并将异常点排除,保留反映变化规律的典型数据,再用于产生动态基线。
⏹第二种方式,按照历史上异常数据占整个数据量的比例,人为判断,删除最大和最小的数值,其它用于产生动态基线。
⏹第三种方式,按照概率算法,基于历史统计数据确定的正常数据比例,自动选出最为集中分布的数据作为正常数据。
计算动态基线
建议优先采用如下两种算法:
概率分布算法、排序法,其它算法在经过验证后可以择优选用。
方式一:
以概率法计算动态基线
1)首先对预处理后的有效数据进行排序,假定共有N*个,分别记为X1~XN*;
2)假定有效数据的Y%(在实践中可以根据省公司、业务系统、管理要求等因素设定,建议取95%)为可以接受而不用产生告警的指标值,滑动排序数据的窗口(共N*×
Y%个数据),计算该窗口中数据的均方差。
⏹计算该窗口中样本的平均值作为期望值E(X)
⏹计算窗口各个样本点对于数学期望的偏离程度,单个偏离是
。
为消除符号影响,一般取
⏹求方差,即窗口中所有样本点偏离平方的均值,记为D(X),
⏹求标准差或均方差
,描述了改组样本的波动程度。
3)取均方差最小的窗口中的数据,以其最大值作为基线上限BaseHigh,以其最小值作为基线的下限BaseLow。
方式二:
以排序法计算动态基线
2)假定有效数据的Y%(在实践中可以根据省公司、业务系统、管理要求等因素设定,建议取95%)为可以接受而不用产生告警的指标值,取中间的数字为正常波动区间。
3)以其最大值作为基线上限BaseHigh,以其最小值作为基线的下限BaseLow。
2.2.4.3基线的定期修正
随着网络扩容、优化以及业务量、市场推广策略、国家政策的变化,某些指标的正常波动区间会发生变化,为适应这种变化、准确发现新时期的网络异常,需要对原先计算得到的基线进行手工调整。
在特定时间、事件出现时(如重大节假日、重要社会活动),我们可以预期业务量巨大的变化会在短时间内超出容忍线,而此类超出,可以认为是业务量正常的变化,不应产生告警,此时可以通过手工调整基线,在短时间内改变告警产生的范围。
随着业务的发展和技术的演进,业务量或业务性能指标的变化规律可能发生变化(例如波动变小或变大),为了适应这一变化,需要手工调整基线,调整告警产生的范围。
2.2.4.3容忍线的设定功能
容忍线是根据基线和容忍度计算得到的:
上容忍线=(1+容忍度)*上基线
下容忍线=(1-容忍度)*下基线
针对不同设备、不同种类的指标设定容忍度。
容忍度的设置可以比较灵活,上下侧的容忍度可以不一致。
容忍度可以是单侧的,也可以是双侧的,可以是一级的,也可以是多级的。
其中,容忍度是指超出基线的百分比,也就是当数据超出正常值范围的百分比,在容忍度范围内,我们可以认为数据得偏离是可以接受的。
而一旦超出此范围,则需要触发告警。
容忍度的取定以及容忍线的设定是一项很重要也很有挑战性的工作,需要根据指标的实际情况,并结合运维经验,进行设定。
容忍线的设定比较灵活,针对不同种类的指标,可能设置不同形式的容忍线:
可能是单侧,也可能是双侧,可能是一级,也可能是多级。
例如,对系统容量指标,我们可能设置单侧单级容忍线,而对业务量指标,可能设置双侧多级容忍线。
2.2.5性能告警
2.2.5.1告警产生方式
针对不同的专业、性能指标及相应的监控需求,可以通过设置多级容忍线,多个超出时限,灵活的配置告警。
下表以二级容忍线、二级超出时限的情况为例,说明了告警产生机制:
超出容忍线历时t
容忍线级别
t<
T1
T1<
t<
T2
T2<
t
超出容忍线1
不产生告警
一般告警
重要告警
超出容忍线2
严重告警
表格的行:
说明了告警随指标超出容忍线历时增加而升级的机制——由于网络当中存在一些瞬断等突发情况,一瞬间的指标异常可能并不需要采取任何维护动作,但是较为频繁的发生异常或者异常持续时间较长,可能预示着网络存在重要问题。
可以通过设置历时阈值来过滤瞬间、偶发性的告警;
发现频繁发生或者持续时间较长的异常,输出有价值告警。
在此表中的具体方法为:
首次发现指标异常后,启动异常历时计数器,监控恶化趋势的时长。
以第一行为例:
当指标超出“容忍线一”的时长达到阈值T1时输出一般告警,达到阈值T2时输出重要告警。
T1、T2可以根据管理要求和监控目的进行人工设置。
表格的列:
说明了告警随指标超出容忍线程度加剧而升级的机制——由于指标劣化的速度/程度不同,很可能表征了潜在故障的严重程度不同。
以第一列为例:
当指标超出容忍线1且时间不满T1,不产生告警;
但当其超出容忍线2,即便时间仍然不满T1,也会输出一般告警。
按照实际经验,性能告警分为严重、重要和一般三个级别就可以满足监控需要,区别指标偏离的潜在危险性。
严重告警提示性能指标已经大幅超出了可容忍的范围或超出时间过长,业务可能受到严重影响;
重要告警提示性能指标一定程度上超出了可容忍的范围或超出了一段时间,业务可能受到一定影响;
一般告警提示性能指标已经超出可容忍的范围,但时间不长,偏离不大。
告警信息格式
性能告警由告警标题和告警正文组成。
告警标题为:
某网元某指标某种告警,如SYG15寻呼成功率告警;
告警正文包括以下内容:
告警标题、告警网元、告警级别、网元类型、所属省份、归属地市、告警发生时间、恢复时间、告警的指标数据、告警指标所在时段、该类指标的阈值设置情况、采集粒度、网元厂家名称、数据采集源、告警处理维护建议(可以维护)等。
若告警相关的网元处于工程状态,告警正文需给出工程状态标识;
若性能告警由于指标数据采集缺失导致,告警正文需给出数据采集缺失情况说明。
2.2.6实时性能监控指标分类
指标分类
基线
容忍线
告警生成方式
类别一
指标波动与时间无关
静态
对于负荷类(如CP、CPU负荷等)告警,可以只设定上容忍线
可设置多个超出时限,逐级升级告警
类别二
随时间单向递增或递减
对于资源使用量类指标(如磁盘利用率、磁盘空间等),可以在指标变化趋势的方向上设置单侧容忍线(上容忍线或下容忍线)
类别三
周期性变化很小
对于接通率类指标,可以只设定下容忍线
可设置一个超出时限
类别四
指标波动与时间相关,随时间变化呈规律性波动
动态
对于业务量类别的指标,可同时设置上容忍线和下容忍线
类别五
纳入KPI考核并给出达标值要求
对于KPI类指标(如掉话率、接通率),设置单侧容忍线(高容忍线或低容忍线)
可设置一个告警
类别六
有容量限制
对于容量类(如最大并发用户数等)告警,可以只设定高容忍线
类别七
设备厂家规定或者建议门限值
根据厂家建议灵活设定
2.2.7网络性能数据保障手段:
通过网络关键指标发现网络问题的前提是要保证网络性能指标的准确,为了保障关键指标的数据质量,确保数据的准确性、完整性和及时性。
不但要保障数据采集的完整性,还要确保话务网管性能系统级别的正常运行。
从各厂家OMC采集开始,对网元采集数量的完整性及指标采集的完整