质电子行业企业管理中国移动网络运维优秀案例集传输分册电子阅读版优质.docx
《质电子行业企业管理中国移动网络运维优秀案例集传输分册电子阅读版优质.docx》由会员分享,可在线阅读,更多相关《质电子行业企业管理中国移动网络运维优秀案例集传输分册电子阅读版优质.docx(161页珍藏版)》请在冰点文库上搜索。
质电子行业企业管理中国移动网络运维优秀案例集传输分册电子阅读版优质
(电子行业)企业管理中国移动网络运维优秀案例集传输分册电子阅读版
导读
LTEPTN在全国推广使用过程中,各种故障较多,故障原因涵盖维护管理的方方面面,给网络维护管理带来了不小的压力。
本案例集汇集了全国各省市一线维护骨干人员的维护经验,重点关注华为、中兴和阿朗三个厂家设备的日常维护中出现频率较高的问题。
经过各位专家的筛选,精选出79篇经典案例,按故障、问题现象与原因相结合进行分类,方便维护人员阅读,为日常维护中有针对性地解决故障提供帮助。
相关案例同样适用于维护人员的日常学习,有利于较好把握现网运行过程中的隐患点,从而加强对网络设备的日常巡检力度,有效降低承载LTE业务的PTN网络故障率。
本案例集在集团公司的组织下,由江西公司姜丹丹、安徽公司杨彬、江苏公司夏志超和陈东等评选、审核和编辑而成。
第一章LTE基站开通失败1
1、规划设计冲突问题1
1.1PTN6900同一母板不同子卡间VLAN复用导致配置LTE业务下发失败1
1.2PON网络承载LTE中vlan冲突问题的解决2
1.3LTE设置QOS失败案例4
1.4华为设备配置LTE基站PW时提示路径创建操作成功相关操作失败5
1.5LTE-PTN网络基站无法ping通故障分析与处理6
2、操作问题11
2.1基站华为LTE设备安装完成后无法正常开通故障案例分析11
3、硬件问题12
3.1因交叉主控板异常导致LTE业务备用PW中断12
4、软件问题13
4.1LTE开站时无线侧网管无法上载网元数据的问题处理13
4.2华为PTN设备承载LTE业务基站不能盲起的故障分析15
4.3传输中兴备用桥接点MAC学习异常导致LTE基站SCTP偶联断故障案例16
5、传输链路问题18
5.1LAG链路隐性故障导致LTE开站失败的案例分析18
6、配置问题20
6.1华为PTNL2/L3设备VPNPEER标签与VRF标签不一致导致LTE站点丢包20
6.2PTN6900隧道DOWN导致新开LTE基站不通案例分析和处理21
6.3传输PTN开通LTE基站无法连接案例22
6.4PTN6900的L3VE子接口VLAN未终结导致LTE基站无法上线的问题26
6.5中兴PTN6500静态路由下一跳配置不合理导致LTE基站无法连通OMC27
6.6LTE核心层静态路由优先级配置错误导致基站到EPC丢包29
6.7华为PTN承载LTE业务L3VPN未配置静态路由但与MME能成功建链故障32
6.8华为传输PTN3900因优先级参数错误导致路由配置失败34
6.9华为PTN承载LTE业务L3VPN上下行流量路径不一致导致基站盲启(DHCP)失败故障36
6.10PTN6900DHCPRelay地址错误导致LTE开站失败的案例分析39
第二章LTE基站业务异常42
1、规划设计冲突问题42
1.1中兴-PTN6500参数设置导致的LTE基站拥塞告警42
2、操作问题43
2.1GPON承载LTE业务丢包故障案例43
3、配置问题46
3.1华为PTN承载LTE业务数据配置异常导致4G基站与单个EPC核心网MME地址无法建链故障46
3.2LTE业务在tunnel上限速失败的案例分析48
3.3中兴PTN6500承载LTE业务存在部分管理VLAN不通的故障案例50
3.4LTE基站网管和业务不能同时工作的问题53
3.5PTN6900DHCP功能开启后诺西LTE基站盲起失败问题56
3.6关于OTN网络OLP倒换引发LTE业务批量倒换的重大隐患问题的处理57
3.7中兴PTN9008设备端口IP配置错误导致华为6900对接端口IP丢失引起LTE基站脱管59
第三章LTE基站中断62
1、规划设计冲突问题62
1.1中山批量LTE站点频繁断链故障处理62
2、操作问题66
2.1因漏配MC-LAG导致LTE业务无法倒换66
2.2中兴PTN9008承载LTE二三层关联业务删除导致LTE基站业务中断案例67
2.3中兴-传输网-15个LTE基站业务同时中断问题69
3、单板故障72
3.1中兴传输PTN6500母版倒针导致LTE业务中断72
3.2华为PTN950主用交叉主控板故障导致LTE业务中断故障75
3.3L3VPN的ARP表学到错误VLAN值,导致LTE基站业务不通故障的案例77
3.4传输L3PTN设备BFD状态异常后的LTE基站批量退服处理79
3.5LTE传输中兴PTN设备PW双归保护机制缺陷导致批量业务中断故障82
4、软件问题87
4.1L2转L3设备下电导致LTE业务不通87
4.2PTN950软件版本升级导致大量LTE基站退服分析与总结89
4.3中兴PTN核心桥节点设备L3MTU值修改导致批量LTE基站中断91
5、传输链路问题93
5.1二干OTN保护倒换造成大面积LTE基站闪断93
5.2一起单芯光纤故障导致LTE基站业务全阻的故障案例95
6、配置问题97
6.1LTEL2VPN业务显示部分DOWN,业务倒换至备用PW路由时业务中断97
6.2LTE业务接口误配导致业务不通100
6.3OLP切换导致PTN6900承载LTE闪断的案例分析101
6.4水平分割漏配引起LTE业务中断的故障案例104
6.5LTE基站无法PING通PTN6900网关导致业务中断105
6.6阿朗末端设备端口vlan未push导致LTE业务单通107
6.7PTN3900LTE承载ICB通道中断引起LTE站点全阻108
6.8LTE基站大规模中断故障案例111
6.9PTN6900与PTN3900端口对接二层属性配置错误导致LTE业务中断116
6.10华为PTN6900缺失路由导致大范围LTE基站管理中断案例分析117
6.11L2L3设备承载心跳的备用Tunnel作出接口导致部分LTE业务中断的分析处理119
6.12PTN网络3层业务勾选“永久路由”,当保护倒换发生时,部分业务中断案例120
6.13LTE业务因主备L2L3节点间链路故障导致退服123
6.14华为-传输-PTN-主备L2L3的VE虚接口MAC地址不一致会导致下挂LTE基站闪断125
6.15MAC不一致导致的LTE业务中断127
6.16中兴PTN网络承载的大量LTE基站业务闪断分析报告128
6.17L2/L3设备配置错误导致LTE基站批量退服故障分析129
6.18关于LTE基站网段ID配置错误造成业务闪断的案例131
6.19济南传输同一Eth-Trunk下LTE业务退服故障133
6.20贝尔LTE核心层心跳线中断后出现大规模LTE退服问题处理137
6.21传输保护组MEG配置异常导致LTE基站退服故障138
6.22ARP热备问题导致LTE基站中断故障140
6.23PTN设备承载的LTE基站倒换不成功问题143
6.24ZXCTN6500-备用桥接点上VRRP未配置导致承载LTE业务闪断145
6.25、U2000上报MISMATCH告警导致LTE业务不通146
6.26中兴PTN故障导致LTE站点大面积中断的故障分析147
6.27传输正常倒换后LTE基站批量退服处理148
6.28省干波分倒换后跨地市PTN对接端口状态变DOWN导致LTE业务中断150
第四章LTE基站速率不达标153
1、端口问题153
1.1PTN网络不同速率端口组网问题导致承载TD-LTE演示基站FTP下载速率测试不达标153
1.2PTN网络承载LTE基站下载速率慢故障处理案例154
2、软件问题161
2.1华为PTN承载LTE业务L2-L3VPN桥接异常导致基站速率不达标故障161
3、传输链路问题163
3.1LTE业务路由存在光功率异常导致LTE基站下载速率慢163
4、配置问题164
4.1关于LTE基站的传输端到端性能测试案例164
4.2关于深圳地铁LTE网络下载速率慢故障案例169
第一章LTE基站开通失败
1、规划设计冲突问题
1.1PTN6900同一母板不同子卡间VLAN复用导致配置LTE业务下发失败
案例号JT-7-7-0113
作者:
海南钟强推荐人:
江西郭思敏
关键字:
新建接口失败;伪线配置;VLAN复用;LTE
专业:
传输网.本地传输电路.本地传输电路
设备类型:
PTN
设备型号:
PTN6900
设备厂家:
华为
软件版本:
V100R009C00SPC201
1、故障描述
6月17日在调度“海口海秀路DC城”LTE站点时,发现新创建的伪线在下发时提示“新建接口失败”,业务下发失败。
2、故障诊断
分析判断可能原因有:
1、PTN6900设备存在故障或者本站的PTN950设备存在故障;
2、存在离散的Eth-Trunk子接口数据;
3、新添加的Eth-Trunk主接口参数存在问题。
原因排查:
1、通过网管检查,没有有价值的当前告警和历史告警;
2、通过试配置一条电路到其它Eth-Trunk接口,成功下发,可以排除是PTN6900设备故障和本站PTN950设备故障;
3、问题定位到新配置的Eth-Trunk接口,检查接口,没有存在离散的子接口数据,通过检查参数,和其它接口的参数都一致,但是试配置的电路都下发失败;
4、为了迅速处理故障,由于Eth-Trunk接口是新增的接口,删除掉Eth-Trunk接口后,重新再配置新的Eth-Trunk接口问题依然存在;
5、怀疑PTN6900新添加的Eth-Trunk接口无法使用,但是后续在其它槽位新添加了1个Eth-Trunk后可以正常使用;
6、问题反馈给厂家,厂家诊断后反馈是VLAN为“单板”级复用,“新建接口失败”的原因是同一母板下VLAN重复了。
厂家定义的“单板”指的是可以插子卡的母板,而不是EX5、EG8等子卡。
3、解决措施
检查发现,在该槽位下,有2个子卡,分别创建了不同的Eth-Trunk,Eth-Trunk的VLAN是采用复用方式添加的,解决措施是将新配置的Eth-Trunk的VLAN更换为其它数字段后,业务终于可以正常下发。
4、预防/监控措施
由于经验不足,误认为VLAN的复用(重复使用?
)是在不同板之间的,并且可以通过不同Eth-Trunk进行复用,实际应该是VLAN的复用是在母板之间的,或者说是槽位之间的。
然而实际在配置时同一母板下的不同Eth-Trunk上配置的VLAN复用了,PTN6900设备也并不支持该复用,但是也没有任何的提示,只有到配置业务才提示“新建接口失败”,建议厂家后续的版本进行提示,在源头进行预防。
ETH-TRUNK是什么,怎么没有用到过。
LTE业务不是创建PWAPS?
------------※-------------※-------------※-------------※------------※-----------
1.2PON网络承载LTE中vlan冲突问题的解决
案例号JT-1-0-0234
作者:
江苏赵建国;王嘉捷;推荐人:
江西石玥
关键字:
PON;LTE;vlan
专业:
传输网.本地传输电路.本地传输电路
设备类型:
PTN
设备型号:
PTN1900
设备厂家:
华为
软件版本:
RC3022PC200
1、故障描述
由于PON网络具有部署灵活、接入成本低、综合承载能力强等优点,已广泛应用于集客、小区驻地网、G网/T网、LTE室分站点和WLAN业务的开通。
但是目前LTE开通中每个站点需要分配业务、管理两个vlan,且当前PON网络上可用的vlan已经基本预分配给其他业务使用,因此造成了PTN网络侧与PON侧的vlan规划无法达到一致的问题,影响了后期业务的开通。
2、故障诊断
PTN侧规划的vlan与现网PON侧的用户vlan存在冲突,导致了通过PON网络承载LTE业务存在问题。
3、解决措施
1、首先通过与省公司沟通,尝试通过增加规划vlan数量解决;但是由于目前各类业务预先分配的vlan已基本用完,无法腾挪出更多空余的vlan留给LTE使用。
2、后续尝试通过在OLT上行与PTN对接的端口采用QinQ的方式,外层使用PTN侧所规划的vlan,内层透传PON网络侧空余的vlan,以解决两端传输不同vlan的问题。
但是由于目前OLT上行通过ETHB板卡与PTN对接,只能通过透传单层vlan的方式上行,无法采用QinQ的方式,因此该方案不可行。
3、最后与通过与华为PTN工程师沟通确认:
PTN设备在创建业务时,可已将业务的类型设置为service模式,可将网络上传递的vlan在接入侧转换为用户所需的不同vlan;后续经过验证:
在创建LTE业务时,PTN侧按照规划指定的vlan进行配置(业务模式设置为service),在PTN与PON侧对接的端口将vlan转换为PON上所需的vlan,PON网络侧按照正常配置进行vlan透传,最终实现了在vlan冲突情况下的PON网络承载LTE业务的开通。
4、预防/监控措施
通过本次案例分析,发现此类问题的解决需对设备的一些深入的配置进行了解,以满足现网的各类业务需求。
同时该问题也提醒我们在网络建设初期,就要的对网络资源进行合理的规划,否则将影响后续业务的开通。
------------※-------------※-------------※-------------※------------※-----------
1.3LTE设置QOS失败案例
案例号JT-7-5-0008
作者:
江苏陆军推荐人:
江西石玥
关键字:
QOS;PTN;LTE
专业:
传输网.本地接入层传输设备.PTN
设备类型:
PTN
设备型号:
PTN1900
设备厂家:
华为
软件版本:
1、故障描述
本地网一台华为PTN1900设备,在开通LTE业务时,按要求设置保证带宽40M、峰值带宽320M,配置下发时显示“分配带宽失败”。
2、故障诊断
1.单板软件问题或版本不支持
2.QOS设置超出实际的物理限制
三、解决措施
该版本PTN1900在现网已有相当数量入网运行,均没有发现有类似情况,可以排除版本问题。
同时LTE业务能够开通,但是设置QOS失败,说明设备硬件也没有问题,比较可能的是设置超出了物理带宽的限制。
该1900使用10G光口和其他1900组环,320M的峰值带宽不可能超出物理带宽。
鉴于QOS设置是在tunnel上实现,怀疑tunnel经过的路径上有网元存在问题。
查看tunnel的跳信息,发现tunnel上存在100M的光口,这使得设置峰值带宽320M会超出端口的物理上限。
修改tunnel绕开该光口后,QOS设置可以正常下发。
四、预防/监控措施
要求我们在工程建设时要加强监控力度和资料审核力度。
------------※-------------※-------------※-------------※------------※-----------
1.4华为设备配置LTE基站PW时提示路径创建操作成功相关操作失败
案例号JT-1-2-1355
作者:
辽宁鲁伟推荐人:
江西郭思敏
关键字:
华为PTN6900;操作失败;路径创建
专业:
传输网.本地汇聚层传输设备.PTN
设备类型:
PTN
设备型号:
PTN6900
设备厂家:
华为
软件版本:
一、故障描述
城域网LTE传输网络,核心层L3设备、L2/L3设备都是使用PTN6900-16组网,PTN6900-16版本为PTN6900V6R6C00SPC300+SPH010,L2/L3节点使用EX5单板下挂PTN3900汇聚环,LTE基站大部分使用PTN950或者PTN960承载;
按照每个LTE基站两个IP,两个VLAN的规范配置数据,但在配置L2/L3节点PTN6900数据的时候,报错,无法完成PW配置,报错信息为:
“路径创建操作成功,相关操作失败。
错误码980”。
二、故障诊断
从报错提示看,是MPLSOAM规格越限,目前PTN网络使用的是1711OAM,需要确认是否是单槽位的OAM越限还是整机的OAM规格越限。
三、解决措施
使用命令查询PTN6900设备MPLSOAM规格使用率方法如下:
步骤1:
使用Telnet方式登陆这个PTN6900网元
步骤2:
使用sys命令进入系统视图;
步骤3:
再使用dia进入诊断试图,在诊断视图下执行如下命令
displaynps-mplsdiaoammpls-oam8000;
查询结果如下,确认是该L2/L3的PTN6900网元的16号板MPLSOAM规格越限,超过了2047,导致该单板无法继续配置LTE业务的PW数据;
把部分LTE基站业务割接至该L2/L3PTN6900设备的其余槽位EX5单板释放部分OAM资源后,问题解决。
------------※-------------※-------------※-------------※------------※-----------
1.5LTE-PTN网络基站无法ping通故障分析与处理
案例号JT-7-7-0031
作者:
山西张俊推荐人:
江西石玥
关键字:
PTN;L2/L3;ARP;基站;LTE
专业:
传输网.其他.其他
设备类型:
PTN
设备型号:
PTN3900
设备厂家:
华为
软件版本:
一、故障描述
某地市基站开站时,基站pingL2/L3节点能通,pingMME不通,从L2/L3节点ping基站通,pingMME通,从L3节点出接口ping网关通的,ping基站不通。
且同一个网段的两个IP地址(100.69.40.148;100.69.40.149),一个(100.69.40.149)可以ping通,一个(100.69.40.148)ping不通。
同时有的基站最开始有问题,过一段时间自己恢复了,后来再开站的时候,基本都ping不通。
二、故障诊断
初步分析,L3节点能正常ping到L2/L3节点,且L2/L3节点也能ping到基站,但是从L3直接ping基站无法ping通。
分析认为问题应该出在L2/L3节点,从L3节点ping基站的报文在这里被丢弃。
三、解决措施
1.路由分析
从问题现象中了解到同一个网段的IP,一个可以ping通,一个ping不通。
首先对这两个IP的路由进行了分析。
在L3节点网元上分析这两个IP路由上的区别:
从路由分析可以看两个IP的路由完全一样,然后再L2/L3节点也查询了这两个IP的路由:
分析两个L2/L3路由也是相同的。
在这种情况下还是一个可以ping通,一个ping不通,分析认为问题可能是出现在L2/L3节点的ARP表上,可能一个IP能学到ARP,一个可能没学到。
2.ARP分析
首先在L2/L3节点上查询了网元层面的ARP表项以及L3vpn业务层面的ARP表项发现两个IP对应的ARP表项都存在。
接着查询了ARP的增删记录:
ArpCallInfo
OPTypeDateTimeFlagVRFIPVISPINDEXMAC
UpdateArpI2014-04-2409:
19:
1790x20x40x00005c8a04-f9-38-f9-fd-25
UpdateArpI2014-04-2409:
19:
2090x20x40x00005c8a04-f9-38-f9-fd-25
UpdateArpI2014-04-2409:
19:
2390x20x40x00005c8a04-f9-38-f9-fd-25
UpdateArpI2014-04-2409:
19:
2690x20x40x00005c8a04-f9-38-f9-fd-25
UpdateArpI2014-04-2409:
19:
2990x20x40x00005c8a04-f9-38-f9-fd-25
发现100.69.40.148的APR一直在不断的刷新,这种一般由于APRMISS导致,也就是说当发起PING这种操作的时候,发现ARP不存在,需要由平台发起一个ARP的学习过程,这个时候有这样的记录。
但是记录一直存在,表示ARP应该一直在发起学习申请,一直没有学习到,重复该过程。
进一步的查询了底层的FIB表项:
SearchVrf:
2DIP:
100.69.40.149
-----FIB-----
Result100.69.40.149/32opcode:
1cause:
0x0dftRt:
0ttl:
1dvp:
6832tpidx:
0ipTnl:
0mgid:
0
>>>>>>>>Work>>>>>>>>
-----DVP-----
opcode:
10vpntype:
0apstype:
0apsid:
0
[work]tun_flag_w:
0tunnelid_w:
0tpindex_w:
431direct_w:
1vid_w:
21nhid_w:
0aid_w:
0
-----TPST-----
ve:
1s:
1tb:
6tp:
47
-----ARP-----
act:
1r:
0macidx:
2248
-----DMAC-----
act:
1vlan:
1valid:
661r:
0mac:
d46a-a876-acdb
SearchVrf:
2DIP:
100.69.40.148
-----FIB-----
Result100.69.40.148/32opcode:
1cause:
0x0dftRt:
0ttl:
1dvp:
6832tpidx:
0ipTnl:
0mgid:
0
>>>>>>>>Work>>>>>>>>
-----DVP-----
opcode:
10vpntype:
0apstype:
0apsid:
0
[work]tun_flag_w:
0tunnelid_w:
0tpindex_w:
431direct_w:
1vid_w:
21nhid_w:
0aid_w:
0
-----TPST-----
ve:
1s:
1tb:
6tp:
47
-----ARP-----
noarp!
查看以上记录发现,100.69.40.149的ARP确实存在,但是100.69.40.148的ARP是不存在的。
ARP会有两张表项,一张由软件维护,一张由硬件维护。
从L3节点ping到基站的时候,通过L2/L3节点需要走硬件的转发表项,但是发现硬件没有ARP表,所以丢弃报文。
而从L2/L3节点直接发起到基站的ping的时候,报文直接按照软件的ARP表项转发,所以可以通。
查询了当前单板硬件已经使用的ARP数目:
发现7、8、11、12这四个单板的ARP数都达到了4093的上限值。
四、预防/监控措施
将开站中无效的基站数据进行清除,规划L2/L3节点下带基站的数量在2K个以内,多余的基站分流下挂至多个L2/L3节点后,故障现象消除。
------------※-------------※-------------※-------------※------------※-----------
2、操作问题
2.1基站华为LTE设备安装完成后无法正常开通故障案例分析
案例号JT-7-1-0080
作者:
山东王建军推荐人:
江西郭思敏
关键字:
基站LTE设备;PTN950;PTN6900
专业:
传输网.本地接入层传输设备.PTN
设备类型:
PTN
设备型号:
PTN6900;PTN950
设备厂家:
华为
软件版本:
VRP5.120V600R006C00
五、故障描述
7月21日接无线基站业务班通知,某基站LTE主设备安装完成后基站一直无法正常开通,请配合查询传输业务。
业务端口为7188#网元淄博临淄皇城-6-EG2-1。
六、故障诊断
原因排查:
1、业务配置错误
经使用VCCVPING测试发现基站业务测试正常