通信4GTCP终端侧建链时延优化思路x.docx
《通信4GTCP终端侧建链时延优化思路x.docx》由会员分享,可在线阅读,更多相关《通信4GTCP终端侧建链时延优化思路x.docx(15页珍藏版)》请在冰点文库上搜索。
![通信4GTCP终端侧建链时延优化思路x.docx](https://file1.bingdoc.com/fileroot1/2023-4/29/90e83ab7-2b23-43ed-8b1d-ef7ceebc37bc/90e83ab7-2b23-43ed-8b1d-ef7ceebc37bc1.gif)
TCP终端侧建链时延优化思路
—现网接口采集
PS/EPC采集接入:
Ø2/3G采集接口:
Gb/IU_PS(信令面)、Gn(用户面)
Ø4G采集接口:
S11、S1-MME、S1-U、SGS、S6a、S5/S8
存储时长:
Xdr详单存储:
7天
二、指标体系
当前SEQ基于业务分层建模体现如下:
业务体验类KQI:
是面向用户体验的,来衡量用户主观体验
基础业务质量类KQI/管道质量类KQI:
是基于客观测量的,精准度高,反应网络客观情
况
SEQ平台对整体业务感知类指标分解到具体指标:
接入层:
主要是基本信令类KPI指标,该层面的最终定界结果面向网元,定界精度到网元或网元进/出口链路。
互联层
主要是基于TCP路径监控的TCP指标、DNS指标,该层面的指标定界面向网元或TCP传输段,定界精度到网元及其出/入链路或传输段(如互联网出口以外到SP之间)。
业务层:
主要包括WEB/Streaming业务,该层面指标定界同样面向网元或者终端、无线、核心网、
SP四象限。
应用层:
主要包括通用类的IM业务、SNS业务和Filetransfer三类业务,
该层面指标定界面向网元网元或者终端、无线、核心网、SP四象限。
三、业务流程
用户端到端上网流程:
附着、承载建立、DNS、TCP建立、数传开始
基于上网流程的信令分解如下(以浏览类业务、4G网络为例):
7.5
四、基于TCP流程的定界原理
在移动互联网时代,为了提升用户使用数据业务的体验,缩短内容传输距离,大量的CDN技术、Cache服务器的应用使得用户和主流内容供应商之间几乎只有运营商网络之间的距离,因此从某种意义上来说,关注运营商网络传输质量就是关注了用户体验。
TCP协议在MBB网络中是典型的端到端传输模式,即消息传输介于用户端和内容端之间,中间
的所有网络设备几乎只参与存储转发,因此在衡量基于TCP协议传输的数据业务时,TCP的相关参数衡量的都是发端和接收端之间的传输路径的整体性能。
在整个网络中,TCP指标指向的不是到某个网元的指标,而是衡量的从消息出发点(如终端)到消息终结点(如SP)之间的整个传输路径的性能。
以TCP三次握手时延为例,若SEQ探针架设在运营商网络中,则可以参照现网探针的部署位置,TCP的第一、二次握手衡量的是从探针收到SYN消息开始,到SP(或网关设备)回复
“SYN,ACK”消息并被探针捕获为止之间的时延,这其中的时延不是指计时开始点到某个网元之间的消息往返时延,而是到真正回复ack消息的网元或SP之间的消息往返时延,这中间可能经过了多个存储转发设备,这些设备的转发性能都会影响到该段时延值的大小。
考虑到TCP指标都是针对消息的发送或接受端的衡量参数,在网络中设备发送端或接收端的位置就比较重要。
MBB网络中两端基本上就是用户端和内容端,其中用户端相对比较固定,属于无线网覆盖的范围;而内容端则遍布全球,虽然大部分运营商都内建内容提供服务器,但也存在大量同城访问、异网访问、国际访问,若内容供应商设备部署在运营商网络内部或是运营商自建内容服务,则整个用户使用PS业务行为都在运营商网络内部,这时候的TCP指标衡量的基本上是内网指标属性;而若内容供应商属于国际访问,则TCP的参数衡量的是从探针打点位置到内容供应商之间的整个传输的性能,这两类访问消息传输经历的路径差异巨大,因此在分析时参数若混在一起则可能湮没中间转发设备的隐形问题。
因此,对于TCP的分析需要根据不同内容端的位置设置不同的传输路径进行分类分析。
TCP性能指标分为时延类和传输类两类指标,时延类指标包括建琏时延和数传时延,一般情况
下建链时延和数传时延互为参考(排除代理对建琏时延的影响),而TCP传输类指标一般情况下不建议作为单独监控指标,该类指标和用户感知没有直接的线性关系,通常作为定界速率或时延类问题的参照指标同步比对(同时传输类指标劣化,无乱是丢包还是重传,最后都能在时延类指标上体现)。
当前SEQ平台对传输指标主要可以实现如下分析:
TCP丢包率:
SEQ平台当前实现的丢包率分为采集口上的上/下行丢包、采集口下的上/下行丢包。
在网络中影响丢包的主要有终端、网元、SP,因此在定界时主要区分接口上下对该指标分解到上述三个维度进行分析。
TCP乱序率:
SEQ平台当前对乱序率区分了上/下行的轻度乱序和重度乱序。
轻度乱序在理论上对网络没有影响,因此分析时一般只参考重度乱序,重度乱序由于引起了网络中数据包重传因此可能会影响到用户速率和感知时延等指标。
乱序一般是网元引入,在网络中下行乱序影响较大,在定界时主要分解到网元进行分析。
TCP重传率:
SEQ平台当前实现了有载荷的上/下行重传指标计算及全量重传率计算,在实际中一般情况下有载荷的重传率是分析对象,影响因素和丢包率类似,因此定界方法也和丢包率一致。
对建链时延优可以分解为TCP终端侧建链时延、TCP服务器侧建链时延
TCP建链流程分解:
根据上述流程图可知,对于第二次握手时延过大,问题主要集中在传输、网元
(PGW\SGW)和SP侧,第三次握手时延过大问题主要集中在传输、空口、网元(ENODEB)、
UE。
TCP相关指标基线参数
指标
参考基线
备注
2G
3G
LTE
TCP丢包率
<3%
<2%
<1.5%
TCP传输平均时延(采集口上)
300ms
200ms
50ms
与组网相关
TCP传输平均时延(采集口下)
<=1000ms
<=350ms
<=100ms
TCP握手时延(SP侧)
200ms
100ms
30ms
与组网相关
TCP握手时延(无线侧)
<=1500
<=500
<=150
TCP乱序率
<5%
<3%
<1%
TCP重传率
<2%
<1%
<0.5%
TCP相关指标解析:
(1)TCP建链时延:
TCP建链无线侧时延+TCP建链核心网侧时延相关字段:
TCP_RTT、TCP_RTT_STEP1
字段主要体现在TCP建链性能,能够体现用户对网络的体验质量,计算公式为:
TCP_RTT=TCP建链第三步【ACK】–TCP建链第一步【SYN】
TCP_RTT_STEP1=TCP建链第二步【SYN,ACK】–TCP建链第一步【SYN】
(2)TCP下行数传无线侧时延(即所有流的下行平均RTT)
AVG_DW_RTT:
所有流的下行平均RTT(采用探针上报的总下行RTT时长和RTT计算的总次数获取RTT平均值)。
DW_RTT_STAT_NUM:
所有流的下行RTT计算的次数。
(3)TCP上行数传核心网侧时延(即所有流的上行平均RTT)AVG_UL_RTT:
所有流的上行平均RTT(采用探针上报的总上行RTT时长和RTT计算的总次数获取RTT平均值)。
UL_RTT_STAT_NUM:
所有流的上行RTT计算的次数。
(4)终端侧上行TCP丢包率:
所有流的上行数据包在用户侧的丢包数/TCP上行总包数USER_PROBE_UL_LOST_PKT:
所有流的上行数据包在用户侧的丢包数TCP_UL_PACKAGES_WITHPL:
TCP上行总包数
(5)终端侧下行TCP丢包率:
所有流的下行数据包在用户侧的丢包数/TCP下行总包数
USER_PROBE_DW_LOST_PKT:
所有流的下行数据包在用户侧的丢包数
TCP_DW_PACKAGES_WITHPL:
TCP下行总包数
(6)下行TCP重传率:
TCP下行重传包数/TCP下行总包数
TCP_DW_RETRANS_WITHPL:
TCP下行重传包数
TCP_DW_PACKAGES_WITHPL:
TCP下行总包数
(7)下行TCP乱序率:
TCP下行乱序包数/TCP下行总包数TCP_DW_OUTOFSEQU:
TCP下行乱序包数L4_DW_PACKETS:
TCP下行总包数
相关指标定义汇总如下:
归属点
指标名称
指标公式
counter
接口以上
服务器侧建链时延
SYN-SYN时长/服务器侧建链次数
SYN-SYNACK时长
服务器侧建链次数
接口以下
无线侧建链时延
SYNACK-ACK时长/建链次数
SYNACK-ACK时长
建链次数
接口以上
数传服务器侧
RTT(ms)
上行总RTT/上行RTT总次数
上行RTT
上行RTT总次数
接口以下
数传无线侧RTT(ms)
下行总RTT/下行RTT总次数
下行RTT
下行RTT总次数
接口以上
服务器侧上行TCP丢包率
服务器侧上行TCP丢包数/TCP上行包数*100%
服务器侧上行TCP丢包数
TCP上行包数
接口以上
服务器侧下行TCP丢包率
服务器侧下行TCP丢包数/TCP下行包数*100%
服务器侧下行TCP丢包数
TCP下行包数
接口以下
无线侧上行TCP丢包率
无线侧上行TCP丢包数/TCP上行包数*100%
无线侧上行TCP丢包数
TCP上行包数
接口以下
无线侧下行TCP丢包率
无线侧下行TCP丢包数/TCP下行包数(*100%
无线侧下行TCP丢包数
TCP下行包数
接口以上
上行TCP重传率(%)
TCP上行重传包数/TCP上行包数
TCP上行重传包数
TCP上行包数
接口以下
下行TCP重传率(%)
TCP下行重传包数/TCP下行包数
TCP下行重传包数
TCP下行包数
五、优化方案:
排查步骤
TCP质差小区定界思路如下:
分析目的
Step1:
故障告警排查
对于存在告警的质差小区,优先处理告警问题
Step2:
弱覆盖排查
排查下行弱覆盖的原因,给出相应解决方案
Step3:
上行干扰排查
排查上行干扰的原因,给出相应解决方案
Step4:
PCI模3干扰
排查PCI模3干扰的原因,给出相应解决方案
Step5:
导频污染排查
排查导频污染的原因,给出相应解决方案
Step6:
越区覆盖排查
排查越区覆盖的原因,给出相应解决方案
Step7:
资源容量排查
对于业务量、用户数明显偏高的小区,考虑收缩覆盖
加站/扩容
Step8:
信令流程排查
排查信令流程问题,包括掉话、切换、RRC重建等
、
5.1告警排查
主要影响的告警如下,如果发生相应的告警,则交由维护侧进行告警处理,否则进行下一步覆盖分析。
类别
告警ID
告警名
优先级
无线类
26202
单板过载告警
高
29240
小区不可用告警
最高
29243
小区服务能力下降告警
高
26232
BBU光模块收发异常告警
高
301
网元连接中断
最高
26101
板间CANBUS通信异常告警
高
26200
单板硬件故障告警
最高
26234
BBUCPRI接口异常告警
高
26231
BBUCPRI光模块/电接口不在位告警
高
射频类
26532
射频单元硬件故障告警
最高
29248
射频单元业务不可用告警
最高
26235
射频单元维护链路异常告警
高
26503
射频单元光模块收发异常告警
高
26540
射频单元交流掉电告警
最高
26546
射频单元输入电源能力不足告警
最高
26538
射频单元时钟异常告警
高
26506
射频单元光接口性能恶化告警
最高
26520
射频单元发射通道增益异常告警
最高
26522
射频单元接收通道RTWP/RSSI不平衡告警
高
26521
射频单元接收通道RTWP/RSSI过低告警
高
26530
射频单元ALD电流异常告警
高
26504
射频单元CPRI接口异常告警
高
26501
射频单元光模块/电接口不在位告警
最高
26529
射频单元驻波告警
最高
26239
射频单元间接收通道RTWP/RSSI不平衡告警
高
传输类
29201
S1接口故障告警
最高
26222
传输光接口异常告警
高
25880
以太网链路故障告警
高
25886
IPPath故障告警
高
25952
用户面承载链路故障告警
最高(仅提取S1接口的,暂时剔除X2的)
5.2覆盖分析
序号
排查方向
动作详述
1
覆盖类参数
核查
覆盖类参数主要包括功率配置、切换参数、重选参数。
这些参数设置不合理,会直接影响
网络覆盖。
2
网络结构合理性排查
网络结构不合理,包括:
超近站,超远站,超高站,超低站,下倾角过小,下倾角过大,方向角不合理等。
如果发现网络结构不合理的站点,需要在现场测试(现场测试过程,需要注意无线环境,如是服务扇区是否受墙壁、树木或者大型建筑阻挡),结合实际情况对
问题小区或区域再进行RF优化。
3
邻区关系核查
邻区在漏配/错配/多配的情况下,很容易导致UE切换不及时、切换失败、或者不能成功发起切换,使得UE持续处于弱覆盖状态,直接影响用户的业务感受。
因此,需要对邻区关
系进行核查。
4
通道核查
通过排查通道问题,可以排除驻波以及下行通道故障导致的下行覆盖异常。
通道故障主要有两类问题:
1)驻波比问题;2)硬件故障问题。
这两类问题一般都是有告警的,通过问
题小区/区域是否有告警是判断通道是否正常的一个重要手段。
5.3外部干扰排查
外部干扰排查:
包括:
互调干扰、小灵通干扰、GSM互调杂散干扰、外部互调杂散干扰、全频道系统外干扰
序号
方案名称
方案详述
1
从话统分析干扰小区情况
①以半小时,小时级对小区IN值分布进行分析
②以symbol为单位,分析存在干扰的无线帧情况
③从频域上实时跟踪,分析干扰规律
④对干扰小区进行地理化分析
2
频谱扫描
①FFT频谱分析
②基带反向频谱分析
3
干扰类型识别
互调干扰等
5.4PCI模3问题排查
根据路测数据或者eNodeBCHR/MR数据,结合地理化分析,存在PCI模3干扰的小区/区域是否严重。
PCI模3干扰严重的小区将直接影响SINR,使UE处于低阶调制,影响用户感受。
序号
方案名称
方案详述
1
天馈连接质量分析
排查小区天馈接反,小区鸳鸯线的问题
2
RF优化
PCI调整,功率调整,RF优化等
5.5导频污染问题排查
根据通过路测数据或者MR数据,结合地理化分析,存在3个或以上小区同时满足这些小区的RSRP值较大,而且最强小区RSRP与最弱RSRP差值小于等于4dB,则认为该地理位置存在导频污染。
序号
方案名称
方案详述
1
RF优化
调整服务小区或干扰小区的下倾角,方向角
2
功率调整
提升服务小区功率或是降低干扰小区功率
5.6越区覆盖问题排查
根据通过通过路测数据或者MR数据,结合地理化分析,确认问题区域是否真的是越区覆盖,而不是网规过程就是这样设计的,如某个小区专门覆盖某一条街道、公路,此时小区的覆盖距离将会很远,但这种场景下不属于越区覆盖。
序号
方案名称
方案详述
1
RF优化
调整服务小区或干扰小区的下倾角,方向角
2
功率调整
提升服务小区功率或是降低干扰小区功率
5.7容量分析
随着用户数的增加,空口带宽资源(PRB)利用率越来越高,也会导致TCP建链时长增大,影响用户感知速率。
PRB利用率反映了空口带宽的利用程度,感知速率反映了用户的体验,通过对二者的联合监控,可以反映在一定空口带宽利用程度下的用户体验。
受限标准:
PRB利用率>50%(60分钟周期)且小区平均用户数>50
5.8信令流程排查
由于LTE网络的切换都是硬切换,每一次切换都意味着业务的中断,当UE切换频繁时,将直接影响用户的业务感受。
UE切换频繁一般由2个原因导致:
²切换位置属于无主导小区区域;
²切换参数不合理:
同频切换、异频切换、负荷均衡切换等参数。
序号
问题
方案名称
方案详述
1
无主导小区
无主导小区优化
①通过RF优化处理无主导小区区域;
②对覆盖该区域的小区功率进行优化;
③小区合并(SFN)。
2
参数不合理
参数不合理优化
优化切换参数
参考以下优先级和门限分析:
分析优先级
KPI
参考门限
结论
1
下行PRB利用率
50%
负荷问题
2
上行PRB利用率
30%
负荷问题
3
干扰噪声平均值
-110(20M)
干扰问题,需进行下一步干扰核查
4
平均CQI
6
无线信道问题,需进行下一步覆盖或干扰核查
5
上行误块率
15%
无线信道问题,需进行下一步覆盖或干扰核查
6
下行误块率
15%
无线信道问题,需进行下一步覆盖或干扰核查
7
用户面上行丢包率
1%
无线或传输问题,需进行下一步无线侧覆盖或干扰核查
8
用户面下行丢包率
1%
无线或传输问题,需进行下一步无线侧覆盖或干扰核查
9
无线接入成功率
99%
需进行下一步覆盖、干扰、参数判断
10
E-RAB掉话率
99%
需进行下一步覆盖、干扰、参数判断
11
切换成功率
99%
需进行下一步覆盖、干扰、参数判断
备注:
实际各个网络指标差别较大,可根据网络指标情况在上表基础上对门限进行调整,并根据网络场景调整分析优先级。