环路故障专题案例分解.docx

上传人:b****3 文档编号:6564497 上传时间:2023-05-10 格式:DOCX 页数:58 大小:525.46KB
下载 相关 举报
环路故障专题案例分解.docx_第1页
第1页 / 共58页
环路故障专题案例分解.docx_第2页
第2页 / 共58页
环路故障专题案例分解.docx_第3页
第3页 / 共58页
环路故障专题案例分解.docx_第4页
第4页 / 共58页
环路故障专题案例分解.docx_第5页
第5页 / 共58页
环路故障专题案例分解.docx_第6页
第6页 / 共58页
环路故障专题案例分解.docx_第7页
第7页 / 共58页
环路故障专题案例分解.docx_第8页
第8页 / 共58页
环路故障专题案例分解.docx_第9页
第9页 / 共58页
环路故障专题案例分解.docx_第10页
第10页 / 共58页
环路故障专题案例分解.docx_第11页
第11页 / 共58页
环路故障专题案例分解.docx_第12页
第12页 / 共58页
环路故障专题案例分解.docx_第13页
第13页 / 共58页
环路故障专题案例分解.docx_第14页
第14页 / 共58页
环路故障专题案例分解.docx_第15页
第15页 / 共58页
环路故障专题案例分解.docx_第16页
第16页 / 共58页
环路故障专题案例分解.docx_第17页
第17页 / 共58页
环路故障专题案例分解.docx_第18页
第18页 / 共58页
环路故障专题案例分解.docx_第19页
第19页 / 共58页
环路故障专题案例分解.docx_第20页
第20页 / 共58页
亲,该文档总共58页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

环路故障专题案例分解.docx

《环路故障专题案例分解.docx》由会员分享,可在线阅读,更多相关《环路故障专题案例分解.docx(58页珍藏版)》请在冰点文库上搜索。

环路故障专题案例分解.docx

环路故障专题案例分解

【交换机在江湖】环路故障专题(3)扁鹊问道下篇----临床案例

环路故障纷繁错杂,难寻其理。

愿广为搜罗现网案例,合览汇编,以求至简至约,开卷了如指掌。

 

1.1.1对接设备故障

1.1.1.1其他厂商设备上出现华为MAC地址漂移故障案例

涉及产品和版本

S交换机V200R002及先前版本

组网情况

如图1-1所示,防火墙设备上连接了三台交换机。

图1-1其他厂商设备上出现华为MAC地址漂移问题案例组网图

现象描述

防火墙设备上能够看到00e0-fc09-bcf9MAC地址的漂移,对防火墙的业务转发有影响。

原因分析

华为自研交换机上只有NDP会用00e0-fc09-bcf9作为协议报文的源MAC,而NDP是默认使能的,所以在这个场景中会导致防火墙设备报漂移,进而影响防火墙的转发;这个MAC地址发生漂移一般情况下对业务没有影响(如果设备上对MAC漂移配置了动作则除外)。

NDP协议报文是BPDU报文,而BPDU报文是不应该学习MAC地址的,交换机最新版本已经不会学习BPDU报文了,防火墙设备也不应该学习该MAC地址。

处理步骤

执行命令ndpdisable,去使能交换机全局NDP功能。

总结与建议

无。

1.1.1.2ATAE软件问题导致与交换机MSTP对接失败的故障案例

涉及产品和版本

S交换机所有产品和版本

组网情况

如图1-2所示,新接入的ATAE机框与Switch-1和Switch-2交换机组成口字型环路。

图1-1ATAE软件问题导致与交换机MSTP对接失败的故障案例组网图

现象描述

在启用STP后发现环路无法正常收敛:

Switch-1、ATAE-SW-8均为根桥,Switch互连端口、ATAE互连端口可正常收敛,而Switch-1、Switch-2与连接的其他ATAE机框STP无法正常收敛。

原因分析

Switch-1配置为根桥,设备的系统MAC为:

4c1f-cc82-d659。

新接入的ATAE机框软件版本为V200R013SPC005,该版本存在一个软件问题:

对于收到的根桥MAC以59结尾的STP报文不能正常处理。

处理步骤

1.检查各端口的STP收敛情况,发现存在两个根桥

Switch-1手动配置为STP根桥,ATAE-SW-8也选择为根桥:

displystpbrief

MSTIDPortRoleSTPStateProtection

0GigabitEthernet0/7DESIFORWARDINGBPDU

0GigabitEthernet0/15DESIFORWARDINGNONE//ATAE互联

0GigabitEthernet0/18DESIFORWARDINGNONE//连接Switch-2

2.检查ATAE-SW-8GigabitEthernet0/18端口的STP信息和收发报文情况

ATAE-SW-8上没有部署任何业务,GigabitEthernet0/18端口入方向组播报文计数有增加,但displaystp信息中端口接收的MSTP报文计数一直为0:

Input(total):

818962packets,114519592bytes

757300broadcasts,24multicasts

----[Port18(GigabitEthernet0/18)][FORWARDING]----

PortProtocol:

enabled

PortRole:

CISTDesignatedPort

PortPriority:

128

PortCost(Dot1T):

Config=auto/Active=10000

Desg.Bridge/Port:

32768.80fb-06ad-6d07/128.18

PortEdged:

Config=disabled/Active=disabled

Point-to-point:

Config=auto/Active=true

TransitLimit:

3packets/hello-time

ProtectionType:

None

PortStpMode:

Stp

PortProtocolType:

Config=auto/Active=legacy

PortTimes:

Hello2sMaxAge20sFwDly15sRemHop20

BPDUSent:

82117

TCN:

0,Config:

3391,RST:

0,MST:

78726

BPDUReceived:

0

TCN:

0,Config:

0,RST:

0,MST:

0

3.对ATAE-SW-8GigabitEthernet0/18配置端口镜像,确认已经收到来自Switch-1的STP报文

经ATAE研发确认,出问题的ATAE交换板使用的是V200R013SPC005版本,该版本存在已知软件问题:

收到根桥MAC以59结尾的STP报文不能正常处理。

V200R013SPC006及以上版本已经解决该问题。

将根桥切换到Switch-2后,MSTP收敛正常。

displayversion

VRP(R)Software,Version3.10,RELEASE0010

Copyright(c)2000-2008HUAWEITECHCO.,LTD.

uptimeis0week,0day,2hours,38minutes

OSTA2.0V200R013CN21XCBAswitchsystem

OSTA2.0V200R013CN21XCBAswitchversion:

V200R013SPC005

128MbytesSDRAM

16384KbytesFlashMemory

ConfigRegisterpointstoFLASH

HardwareVersionisVER.A

ReleaseLogicVersionis0x03

BackBoardHardwareVersionisVER.A

BackBoardLogicVersionis0x02

BackBoardTypeisCN21XCRA

升级ATAE交换板软件版本到最新的V200R013SPC007。

总结与建议

多设备形态的对接问题尽量控制在网络部署阶段。

对于与其他设备对接的STP问题,首先排查配置是否存在问题、报文收发是否正常。

1.1.1.3S交换机和CX600路由器端口UP时间不一致导致RRPP临时环路故障案例

涉及产品和版本

S交换机所有产品和版本

组网情况

如图1-3所示,S5700设备上配置RRPP协议,S5700_1和S5700_2分别作为RRPPdomain1和domain2的主结点,其他中间S5700做为RRPP传输结点,CX600路由器未配置RRPP协议,它们之间通过不同的VPLSVSI透传RRPP协议报文和数据业务。

图1-1交换机和路由器端口UP时间不一致导致RRPP临时环路问题案例组网图

现象描述

当CX600_1的1号板故障重启后,发现CX600_1设备GE1/1/1端口比S5700_1的GE0/0/1端口UP的时间滞后8s或者最长能达到1分钟,单板恢复后会形成几秒钟的临时环路,可能导致业务异常。

原因分析

4.CX路由器单板复位重启后,不管两边端口协商模式是强制或自协商,底层端口物理层状态都会先UP。

单板在配置恢复过程中,会检查配置恢复有没有结束,如果没有结束的话,就不取物理状态向软件层报UP事件,路由端口UP时间滞后可达到1分多钟。

CX路由器端口比交换机端口UP时间有很明显的滞后。

5.由于交换机端口先UP,RRPP协议会在端口UP以后6s放开临时阻塞,而路由器还没有向软件层报UP。

等到路由器软件层上报UP时,有的数据VSI已经先透传数据报文。

路由器的RRPPVSI可能起来得比较晚,或者起来可能短时间内也不能正常透传。

由于CX单板起来比较繁忙,而RRPP协议透传VSI还没有通,这时候就会形成临时环路,根据CX单板业务配置多少及其繁忙程度,可能有时临时环路会达到10s左右。

如果中间交换机受到严重冲击,环路恢复可能需要更长的时间。

处理步骤

CX路由器优化软件版本,加快UP事件的上报。

总结与建议

无。

1.1.2设备硬件连接问题

1.1.2.1S9300交换机单板松动导致RRPP未生效故障案例

涉及产品和版本

框式设备

组网情况

如图1-4所示,四台S9300组成RRPP环形组网。

工程师反馈客户组成RRPP环网后,主节点上的从端口没有被阻塞。

图1-1RRPP环形组网图

现象描述

一线工程师反馈客户组成RRPP环网后主节点上的从端口没有被阻塞。

原因分析

设备上主控板上HG口没有转发RRPP报文,原因为单板连接松动。

处理步骤

6.组成RRPP环网后主节点上的从端口未被阻塞,初步怀疑是RRPP协议功能下发存在问题。

7.执行命令displaydiagnostic-information,收集设备信息时,发现HG口未加入相应的控制VLAN。

推测可能是当时通道不稳定丢包导致部分设置没有下发成功。

8.对于通道不稳定的情况,进行单板插拔处理,发现问题不再发生,确认为单板连接问题。

9.重新插拔后,报文正常转发,故障解除。

总结与建议

协议下发失败,流量不通等问题,可以从光纤、光模块故障、单板连接不稳定等方面来进行排查验证,在环境允许的情况下可以进行光模块替换、单板重新插拔等硬件故障处理方法。

1.1.2.2设备连线错误导致环路风暴的故障案例

涉及产品和版本

S交换机所有产品和版本

问题现象描述及组网

如图1-5所示,某运营商工程网络部署阶段,未合理规划,连线非常复杂,在连线过程中误连接导致网络业务受影响。

图1-1连线错误导致协议环路失效风暴的故障案例

问题根因说明

现网中S交换机之间端口连接方式绝大多数使用Access类型,VLAN没有很好规划和隔离,连线非常复杂,非常容易误操作连线,导致环路后冲击上层核心设备。

问题判断方法

忽略判断方法,主要关注解决或规避方案。

解决方案

10.合理规划组网,VLAN合理划分,进行有效隔离,减少不必要的连线,增加风暴抑制功能。

11.复杂组网要经过正规流程评审。

12.网络开局调试阶段,必须shutdown和现网所有连接端口。

13.恢复新建和现网网络连接端口时,至少观察20分钟看端口上是否有异常的广播或组播流量,发现异常要立即shutdown上行端口。

14.若交换机端口灯有高速频繁闪烁或常亮的现象,可能端口上有大量流量转发,检查是否有环路。

经验总结

无。

1.1.3组网及配置变更

1.1.3.1服务器组网不合理引发交换机MAC地址漂移导致业务中断故障案例

涉及产品和版本

S交换机所有产品和版本

组网情况

如图1-6所示,两台服务器的两块网卡捆绑在一起,按照负载分担方式进行报文转发。

两块网卡对外体现同一个IP、同一个MAC。

图1-1框式交换机MAC和ARP漂移导致业务中断问题案例组网图

现象描述

Switch上持续出现MAC漂移告警。

Switch下挂服务器的ARP同时学习到交换机不同端口上,造成外网用户访问服务器业务时断时续,业务闪断。

原因分析

15.两台Switch连接服务器的端口一直存在物理UP/DOWN的异常情况,并且服务器的MAC地址一直存在漂移现象,此时两台Switch的互连端口以及下行连接服务器的端口上都学习到服务器的MAC地址。

16.当用户通过Switch-1访问服务器时,Switch-1会根据MAC地址表项找寻出接口,由于MAC漂移导致出接口有两个(下行连接服务器的接口GE4/0/9y以及交换机互连端口Eth-Trunk1)。

当流量选择通过交换机之前的互连端口往外转发时,将被转发到Switch-2设备。

由于Switch-2学习到服务器的MAC也在中间互连端口,根据二层流量避免环路机制,此时会丢弃该报文,导致业务中断。

处理步骤

17.服务器采用负载分担捆绑,而对端是两台交换机,组网不对称。

建议将服务器运行模式从负载分担修改为主备模式。

同时也可以解决MAC漂移的问题。

18.如果有特殊需求必须使用负载分担方式以及跨设备组网,建议采用交换机集群,集群上采用链路负载分担方式。

总结与建议

组网规划前需要考虑环路风险,并给出规避措施。

1.1.3.2设备误接入网络触发根保护导致业务中断的故障案例

涉及产品和版本

S交换机所有产品和版本

组网情况

如图1-7所示,两台S系列交换机与ATAE交换板组成STP环。

ATAE交换板的两个slot可以看成两台交换机,内部通过GE0/15连接。

Swtich-1配置为根桥,Switch-2配置为副根桥,Switch-1和Switch-2之间创建Eth-Trunk0。

正常时阻塞口在ATAE-slot8GE0/19端口。

两台S交换机部署VRRP功能,并作为ATAE的网关。

图1-1报文触发根保护导致业务中断的故障案例组网图

现象描述

网络故障时ATAE交换板经交换机的业务中断。

现网将Swtich-1下电后暂时业务恢复。

原因分析

Switch-1连接Switch-2、ATAE交换板的端口均配置根保护,一台优先级更高的O&M交换机错误连入该网络后,触发根保护生效,所有配置根保护的端口都被阻塞,业务中断。

处理步骤

故障发生时,在两台交换机上查看VRRP状态,发现均为Master,推断VRRP心跳报文转发出现问题。

VRRP心跳报文正常是通过两台交换机间的Eth-Trunk转发。

如果故障时Eth-Trunk协商失败、STP重新收敛,心跳报文应该可以通过ATAE交换板进行转发。

将Switch-1重新上电,但不连接到网路中。

检查Switch-1的配置文件,发现Switch-1上所有UP端口都配置了STP根保护:

stproot-protection。

对于设置了根保护的端口,一旦收到了优先级更高的STP报文,这些端口的状态将被设置为阻塞状态,不再转发报文。

由于Switch-1已经重启过,无法确认故障时是否确实收到了更高优先级的报文,只能根据ATAE交换板的STP历史计算信息进行分析。

从ATAE交换板上采集的STP历史计算信息发现,slot8上的端口GE0/19收到了来自000f-e2f6-1d18设备且优先级为0的STP报文,并触发了STP重新计算:

GigabitEthernet0/19Alte->Desiat2011/10/2904:

38:

06

{0.5489-98f5-26bf184096.5489-98f5-834d04096.5489-98f5-834d128.18}

GigabitEthernet0/17Desi->Rootat2011/10/2904:

38:

06

{0.000f-e2f6-1d1800.000f-e2f6-1d1800.000f-e2f6-1d18128.16}

GigabitEthernet0/15Root->Desiat2011/10/2904:

38:

06

{0.5489-98f5-26bf2000032768.0018-8200-5428032768.0018-8200-5428128.14}

STP协议根据桥ID即(桥优先级,系统MAC)进行根桥选择,当桥优先级相同时,系统MAC小的设备桥ID更小,优先级更高。

故障发生时,ATAEslot8收到了比原根桥Swtich-1(0.000f-e2f6-26bf)优先级更高的STP报文(0.000f-e2f6-1d18),导致Switch-1上配置STP根保护功能的端口被阻塞。

两台交换机间的VRRP心跳报文无法转发,出现VRRP双主、业务中断的现象。

经排查,000f-e2f6-1d18为GE0/17下挂网络的一台O&M交换机的系统MAC,故障期间被错误连入网络中。

此时,需要将ATAE上不在STP环中的端口去使能STP。

总结与建议

在使用根保护固定根桥位置时,需要考虑到网络中如果确实出现高优先级报文抢占根桥,在端口配置根保护时对业务转发的可能影响,提前避免这种场景出现。

1.1.3.3网络改造引发环路导致业务闪断故障案例

涉及产品和版本

S9300V100R003C00SPC200

组网情况

如图1-8所示,在网络迁移改造后,将原网中的核心层设备部署为接入层设备AS,即从三层变为二层。

DS_01和DS_02部署VRRP功能。

图1-1环路引起的业务时通时不通问题组网图

现象描述

三层设备DS向二层设备AS的管理IP地址发起Ping测试,发现时通时不通,并且发现DS上的VRRP主备状态在频繁的切换。

在DS_02上出现如下告警信息:

Sep17201321:

46:

11+08:

00DS_02VRRP/3/VRRPMASTERDOWN:

OID1.3.6.1.4.1.2011.5.25.127.2.30.1ThestateofVRRPchangedfrommastertootherstate.(VrrpIfIndex=143,VrId=48,IfIndex=143,IPAddress=11.91.127.239,NodeName=DS_02,IfName=Vlanif948,CurrentState=2,ChangeReason=prioritycalculation)

Sep17201321:

46:

11+08:

00DS_02%%01VRRP/4/STATEWARNINGMEV1R3(l):

VirtualRouterstateBACKUPchangedtoMASTER,becauseofprotocoltimerexpired.(Interface=Vlanif948,VrId=48).

Sep17201321:

46:

11+08:

00DS_02%%01VRRP/4/STATEWARNINGMEV1R3(l):

VirtualRouterstateMASTERchangedtoBACKUP,becauseofprioritycalculation.(Interface=Vlanif948,VrId=48)

.

VRRP状态在不停的切换,查看VRRP状态,都为Backup状态正常:

displayvrrpbrief

VRIDStateInterfaceTypeVirtualIP

--------------------------------------------------------

3BackupVlanif903Normal10.93.4.30

5BackupVlanif599Normal11.91.127.94

14BackupVlanif914Normal10.93.41.126

24BackupVlanif924Normal10.93.32.126

25BackupVlanif925Normal10.93.32.254

…………

原因分析

网络中存在环路。

处理步骤

19.执行命令displaycpu-defendvrrpstatisticsall,查看VRRP协议报文统计信息,发现DS_02上有大量丢包。

[DS_02]displaycpu-defendvrrpstatisticsall

Statisticsonmainboard:

-------------------------------------------------------------------------------

PacketTypePass(Bytes)Drop(Bytes)Pass(Packets)Drop(Packets)

-------------------------------------------------------------------------------

vrrp0000

-------------------------------------------------------------------------------

Statisticsonslot1:

-------------------------------------------------------------------------------

PacketTypePass(Bytes)Drop(Bytes)Pass(Packets)Drop(Packets)

-------------------------------------------------------------------------------

vrrp0000

-------------------------------------------------------------------------------

Statisticsonslot4:

-------------------------------------------------------------------------------

PacketTypePass(Bytes)Drop(Bytes)Pass(Packets)Drop(Packets)

-------------------------------------------------------------------------------

vrrp798800662142581617736117464477737950869

-------------------------------------------------------------------------------

20.执行命令displayinterfacebrief,查看设备端口带宽利用率信息。

[DS_02]displayinterfacebrief

…………

InterfacePHYProtocolInUtiOutUtiinErrorsoutErrors

Eth-Trunk1upup31%31%00

GigabitEthernet4/0/22upup0.72%81%00

GigabitEthernet4/0/23upup81%0.73%20

Ethernet0/0/0downdown0%0%00

…………

GigabitEthernet4/0/0upup0%81%00

GigabitEthernet4/0/1upup

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 农林牧渔 > 林学

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2