H3C设备故障处理
1.注意事项:设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息
越全面、越详细,越有利于故障的快速定位。
1.1 记录具体的故障现象、故障时间、配置信息。
1.2 记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
1.3 收集设备的日志信息和诊断信息。
1.4 记录设备故障时指示灯的状态,或给现场设备拍照记录。
1.5 记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现
象效果。
1.6 记录故障处理过程中配置的所有命令行显示信息。
2.故障自检:
2.1 环境状况:dis environment
2.2 风扇状况:dis fan
2.3 电源状况:dis power
2.4 指示灯:观察所有设备运行灯及警告灯的运行状况
2.5 设备运行状况:dis device
2.6 主备软件版本是否一致:dis boot-loader
2.7 cpu占用:dis cpu-usage
2.8 内存占用:dis memory
2.9 端口:
2.9.1 端口是否协商出了半双工:dis int brief
2.9.2 端口配置了流控?flow-control配置
2.9.3 端口出/入方向有出错报文:dis int【端口】,查看errors是不是有较大数据,并在增加
2.9.4 是否有端口频繁up/down:dis logbuffer reverse
2.9.5 光口两端是否配置一致:dis cu int【端口】
2.9.6 端口pvid是否和对端的一致:dis int【端口】
2.9.7 端口允许通过的vlan是否和对端的一致:dis cu int【端口】
2.9.8 设备互联端口类型是否一致
2.9.9 vlan1是否存在环路:vlan1 不用关闭vlan1通过
2.10 STP检查:
2.10.10 设备连接PC的端口是否配置为边缘端口:dis cu int【端口】,配置stp edged-port en
2.10.11 是否存在运行mstp、stp、rstp的h3c设备和运行pvst+的思科设备互通的情况:如果有两个牌子设备改成三层互联
2.10.12 不用生成树的拓扑是否存在过多重叠路径?
2.10.13 是否存在tc攻击,导致端口stp状态不停切换:dis stp tc,dis stp history,与不支持stp的设备配置edged或关闭stp
2.11 vrrp:dis vrrp
2.12 ospf:
2.12.1 是否有设备Router id 设置成相同:dis ospf peer
2.12.2 是否有大量错误:dis ospf statistics error
2.12.3 路由是否存在较大震荡:dis ip routing-table statistics / dis ospf lsdb
2.12.4 ospf状态是否稳定:dis ospf peer
2.13 arp 检查:dis logbuffer re
2.14 路由检查:缺省路由是否正常?是否存在路由环路:使用tracert 1.1.1.1等不存在网段看是否存在环路,看包的ttl是不是1或0
2.15 攻击检查:是否有大量报文攻击cpu
3 硬件类故障处理
3.1 CPU 占用率高
常见原因:
3.1.1 路由震荡:display ip routing-table 路由表是否变化频繁
3.1.2 报文攻击:debug rxtx softcar show,可以抓包锁定攻击源
3.1.3 链路环路:dis int 【端口】链路存在环路时,可能出现广播风暴和网络振荡,大量的协议报文上送 CPU 处理可能导致
CPU 占用率升高,设备很多端口的流量会变得很大,端口使用率达到 90%以上:
3.2 端口故障
3.2.1 端口出现CRC错误:dis int 【端口】
有显示crc错误,原因:
1.端口与电缆连接器物理连接又虚插现象
2.端口异常:shutdown与undo shut
3.水晶头损坏
4.光模块、光纤污染或连接不好:dis transceiver alarm
5.光功率不足:dis transceiver diagnosis
6.硬件故障
3.3 端口不接收报文
3.3.1 端口出现crc错误:dis int 【端口】
3.3.2 端口上的配置影响报文接收:dis stp brief看端口是否为discarding 状态、检查是否配置acl、流控、风暴抑制,可以关闭试试
3.3.3 设备或单板硬件故障
3.4 端口不发送报文
原因:光模块异常、端口配置、硬件故障
分析:
跟端口不接收一样分析
3.5 电口无法up
3.5.1 检查两端设备网口配置(端口速率、双工、协商)是否一致:dis int brie
3.5.2 端口是否shutdown
3.5.3 更换一条网线
3.5.4 更换端口试试
3.6 端口频繁up/down
3.6.1 检查光模块光功率:display transceiver diagnosis interface gigabitethernet 1/0/1
3.6.2 电口:一般在自协商不稳定,配置强制速率双工
3.6.3 检查链路、对端设备、中间设备
3.7 光模块不up
3.7.1 如果是lc接口,对调fiber
3.7.2 fiber不兼容光模块,更换光模块类型
3.7.3 速率、模式是否匹配,调整模式或速率
3.7.4 更换光模块
3.7.5 fiber问题,尝试更换fiber
3.8 Poe供电故障
3.8.1 供电是否打开:poe en / dis poe in
3.8.2 检查PSE供电功率:dis poe pse,小的话要更换更大的pse
4 转发类故障处理
4.1 二层流量转发丢包
设备二层转发丢包,即源端和目的端在同一二层网络的同一 VLAN 内,通信过程中有丢包。
4.1.1 端口下有错包:dis int【端口】,检查端口下有无错包,如有错包:
1.端口本身硬件故障
2.链路上光模块、光纤、网线有故障
3.对端端口有问题,如1、2
4.1.2 报文因匹配ACL被过滤
1.检查端口、vlan以及全局下是否配置acl或qos策略:dis packet-filter、dis qos policy、display qos vlan-policy、display qos policy global
2.检查是否因匹配一些特性自动创建的的 ACL 而被过滤:
2.1 端口是否配置 ip source binding 或 ip verify source,使用 display ip source binding
或 display ipv6 source binding 可以查看绑定表项信息。
2.2 查看端口是否配置了 Portal 认证:用 display portal interface
2.3 使用 display dot1x 命令查看端口是否使能了 EAD 快速部署,如果使能了 802.1X 的
EAD 快速部署功能,那未认证成功的用户访问除 Free IP 以外的网段时就会丢包。
2.4 端口所在 VLAN 是否配置了 MFF,使用 display mac-forced-forwarding vlan 命令显
示指定 VLAN 的 MFF 信息,
4.1.3 端口被协议设置为 block 状态
1.使用display stp brief命令查看端口是否被STP设置为discarding状态。
2.如果端口属于某个聚合组,使用 display link-aggregation verbose 命令查看聚合口的详
细信息
3.查看端口是否被 Smartlink 阻塞:使用 display smart-link group 命令查看端口状态,当
State 为 STANDBY 或 DOWN时端口不能转发数据。
4.1.4 配置相关丢包
1.在以太网接口视图下使用 display this 命令查看端口是否在报文所属 VLAN 中
2.使用 display mac-address blackhole 命令查看是否因为匹配了黑洞 MAC 地址表项被丢
包
3.使用 display qos lr interface 查看是否有端口限速的配置
4.在以太网接口视图下使用 display this 命令查看端口是否有风暴抑制相关配置
4.1.5 拥塞丢包
1.通过 display qos queue interface 命令查看端口是否有拥塞丢包
4.2 三层流量转发丢包
设备三层转发丢包,即发送端 IP 地址和目的端 IP 地址不在同一网段内,通信过程中有丢包。
常见原因:端口出现故障、ARP/路由表项不正确
4.2.1 检查端口是否有故障:
4.2.2 查看 ARP 表项是否正确(IPv4):使用 display arp 命令查看设备上是否学习到网关设备的 ARP
表项、学习到的 ARP 表项是否正确,对于未学习到 ARP 表项,可以使用arp static 命令手工添加静态 ARP 表项
4.2.3 查看 ND 表项是否正确(IPv6):如果三层转发基于 IPv6 协议,使用 display ipv6 neighbors 命令查看设备上是否学习
到网关设备的 ND 表项、学习到的 ND 表项是否正确,对于未学习到 ND 表项,可以使用 ipv6 neighbor 命令手工添加静态 ND 表项
4.2.4 查看路由表项是否正确:display ip routing-table
1.如果设备上学习到的路由信息不正确,根据使用的路由协议检查
2.使用 display fib 命令查看对应的 FIB 表项的出接口和路由表项中的出接口是否一致,如果
不一致,使用 reset 命令清除路由表项,让设备重新学习表项
4.3 因协议报文丢包导致的协议震荡
协议震荡一般都是协议报文交互时不通导致的。
常见原因:二三层转发丢包、软件收包发生丢包
4.3.1 二层转发是否丢包:根据4.1步骤检查
4.3.2 三层转发是否丢包:根据4.2步骤检查
4.3.3 查看软件收包是否丢包
部分机型 Probe 视图下支持 debug rxtx softcar show 命令,可以查看软件收包是否丢包。
4.4 报文不能进行 ECMP 转发
EVPN 组网中,报文不能通过多条等价路由进行 ECMP 转发。
常见原因:只有一条路由,无法形成 ECMP、BGP 团体属性和扩展团体属性配置不同、路由中携带了 default-gateway 扩展团体属性、存在其他路由协议干扰
4.4.1 检查是否存在到达同一目的网络的多条路由,通过 display bgp l2vpn evpn route-distinguisher
route-type ip-prefix命令查看是都存在到达同一目的网络 RD 相同、下一跳不同的多条路由。如果只有一条路由,则无法进行 ECMP
4.4.2 通过 display bgp l2vpn evpn route-distinguisher route-distinguisher
evpn-route route-length 命令查看 EVPN 路由的详细信息。判断到达同一目的网络的
多条路由携带的 BGP 团体属性和扩展团体属性是否相同。如果不同,则修改通过配置修改路
由的 BGP 团体属性和扩展团体属性;否则,无法形成 ECMP。
4.4.3 检查路由是否携带 default-gateway 属性:通过 display bgp l2vpn evpn route-distinguisher
route-distinguisher evpn-route route-length 命令查看 EVPN
路由的详细信息,若携带该扩展团体属性,则路由之间不能形成 ECMP。
4.4.4 检查是否存在其他路由协议的路由
通过 display ip routing-table vpn-instance 命令查看是否存在其他路由协议生成的到达该目的网络的路由
如果存在,请通过 preference 命令修改 BGP 路由的优先级,使得 BGP
路由优于其他路由协议生成的路由(优先级数值越小表明优先级越高)
4.4.5 检查是否配置进行 BGP 负载分担的路由条数
通过 display bgp routing-table ipv4 vpn-instance 命令查看是否存在相同前缀
的多条路由,如果存在多条,但是只有一条为最优路由(带有“>”标记),则执行 display
current-configuration configuration bgp 命令检查 BGP-VPN IPv4 单播地址族视
图下是否配置了 balance 命令。如果没有配置,则执行 balance 命令配置进行 BGP 负载
分担的路由条数大于 1。
6 虚拟化技术类故障处理
6.1 IRF 组建失败
多台设备无法组建 IRF,或者新设备无法加入现有的 IRF
常见原因:
1.IRF 成员设备数量超出了产品支持的规格,导致新设备无法加入现有的 IRF。
2.配置不符合 IRF 要求,导致无法组建 IRF,或者新设备无法加入现有的 IRF。
3.IRF 物理端口、线缆和物理拓扑不符合 IRF 要求,导致 IRF 链路无法达到 up 状态。
6.1.1 检查 IRF 成员数量是否已达到系统支持的最大值
6.1.2 检查各成员设备使用的软件版本是否一致。
6.1.3 检查 IRF 的配置是否满足相关要求。
1.确保设备运行在 IRF 模式:看能否执行:display irf topology
2.确保设备的成员编号在 IRF 中唯一
3.确保各成员设备的出厂桥 MAC 地址不同
4.确保同一 IRF 系统中所有成员设备的 IRF 域编号一致
6.1.4 检查 IRF 端口的状态,使其变成 UP 状态。
6.1.5 检查 IRF 物理端口的状态,使其变成 UP 状态。
6.1.6 检查 IRF 物理连线是否符合要求
1.检查绑定的物理接口和实际连接的物理接口是否一致
2.,一台设备上 IRF-Port1 绑定的 IRF 物理端口只能和邻居成员设备 IRF-Port2 绑定的 IRF物理端口相连
6.1.7 检查成员设备的硬件是否符合 IRF 的要求:型号、版本等
6.2 IRF 成员设备异常重启
堆叠过程中发生了主设备或者备设备异常重启,导致堆叠分裂。
常见原因:
从设备自动重启来完成软件版本的升级。
IRF 合并,导致从设备重启。
设备软件或者硬件故障,导致设备异常重启,来尝试修复故障
故障处理:
6.2.1 检查重启的设备是否为从设备
6.2.2 检查从设备是否因为自动加载启动文件,升级导致的重启
6.2.3 检查是否因为 IRF 合并导致的从设备重启
6.2.4 检查是否有软件和硬件故障导致成员设备异常重启
6.3 IRF 分裂后 BFD MAD 无法生效
IRF分裂后,BFD MAD功能未生效,导致网络中存在配置相同的两台设备。
常见原因:
未配置 BFD MAD 检测链路。
用于 BFD MAD 检测的端口和 VLAN 配置不正确。
用于 BFD MAD 检测的 IP 地址不在同一网段。
IRF 链路 down 延迟上报时间配置过长。
故障处理:
1.检查 BFD MAD 组网是否正确
使用 BFD MAD 功能时,要求所有成员设备之间必须有一条 BFD MAD 检测链路,可以通过中间设备,也可以在成员设备之间使用全连接的组网。
2.检查 BFD MAD 所使用的物理端口状态
您可以通过 display interface 命令查看 BFD MAD 所使用的物理端口的状态
3.检查 BFD MAD 所使用的 VLAN 和端口配置
用于 BFD MAD 检测的物理端口上不能开启生成树协议,也不能开启其它任何功能。一个 IRF内所有 BFD MAD 链路上的物理端口必须属于同一个 VLAN,该 VLAN 为 BFD MAD 专用
4.检查 BFD MAD 所使用的 VLAN 接口
使用 display mad verbose 命令查看用于 BFD MAD 检测的 VLAN 接口,该接口不能为VLAN1 接口
5.检查 BFD MAD IP 地址的配置
使用 display mad verbose 命令查看用于 BFD MAD 检测的 IP 地址,各成员设备的 MAD IP地址必须属于同一网段,同时不能为设备上已经存在的 IP 地址
6.当组网中存在多个 IRF 时,检查各 IRF 的 BFD MAD VLAN
如果网络中存在多个 IRF,在配置 BFD MAD 时,请为每个 IRF 配置不同的 VLAN 用于 BFDMAD 检测
7.检查 IRF 链路 down 延迟上报时间是否配置过长
6.4 IRF 分裂后 LACP MAD 无法生效
IRF分裂后,LACP MAD功能未生效,导致网络中存在配置相同的两台设备。
常见原因:
中间设备不支持扩展 LACP 选项。
用于 LACP MAD 检测的聚合组不是动态聚合组。
端口或聚合组状态异常
故障处理:
1.检查 LACP MAD 组网是否正确
使用 LACP MAD 功能时,要求必须使用一台中间设备,所有成员设备与中间设备之间必须均存在物理连接。
2.检查聚合组和物理端口的状态
过 display interface 命令查看 LACP MAD 所使用的聚合组和物理端口的状态
3.检查中间设备是否支持扩展 LACP 选项
由于 LACP MAD 使用扩展 LACP 选项实现,因此中间设备必须为能够识别并透传带有扩展LACP 选项的 LACP 报文的 H3C 设备
4.检查聚合组的聚合方式
LACP MAD 功能通过 LACP 报文实现,因此仅有动态聚合组能够用于 LACP MAD 检测
5.当组网中存在多个 IRF 时,检查各 IRF 的域编号
6.检查成员设备的日志信息:display trapbuffer
7 接口类故障处理
7.1 隧道接口故障处理
7.1.1 隧道接口工作不稳定
点对点类隧道(包括 GRE、IPv4 和 IPv6 隧道)配置完成后,Tunnel 接口状态为 up,且本端隧道
接口 IP 地址可以 Ping 通对端隧道接口 IP 地址。但隧道接口工作状态不稳定,包括:
1.隧道接口震荡,反复的 up/down。
2.隧道报文丢包率高,传输速率低。
常见原因:
1.到达隧道目的地址的路由震荡,导致隧道也发生震荡:debugging tunnel event
2.设备上配置了隧道 A 的源目的地址和隧道 B 的源目的地址相同,导致其中只有一条隧道可以up:display interface tunnel
3.GRE 隧道接口下使能了保活探测报文功能,但设备无法正常收发 GRE keepalive 报文,导致设备将隧道置为 down:行 display current interface tunnel,例如GRE:在本端设备上通过 debugging gre packet 命令打开 GRE 报文调试开关,查看是否可以正常收发 keepalive 报文
4.设备资源不足,隧道下发硬件处理失败,导致隧道在物理层 down。
5.隧道口下的配置不合理,导致隧道报文丢包
8 以太网链路聚合故障处理
8.1 聚合接口无法 UP
故障描述:
当两台设备间通过链路聚合连接时,通过 display interface 命令查看聚合接口处于 down 状态。
原因:
1.聚合接口配置错误。
2.成员端口物理链路故障。
3.LACP 协议报文收发故障
分析:
1.排查物理连线是否准确。
2.聚合接口是否被手工关闭:dis int
3.聚合组中成员端口是否 UP
4.判断聚合接口是否为动态聚合:display link-aggregation verbose,如果是动态,则排查:
执行 debugging link-aggregation lacp packet 命令后,查看成员端口 send 信
息中 Actor 信息和 receive 信息中 Partner 信息。如果 sys-mac、key 和 port-index 字段的
显示不一致,则 LACP 协议报文收发不正常,请排除收发光纤错接问题
5.查看聚合接口下最小选中端口的配置是否影响成员端口选中:display this -> link-aggregation selected-port minimum 的配置
8.2 聚合接口流量负载分担不均
故障:
当两台设备通过链路聚合连接时,通过 display counters rate 命令查看聚合成员端口出方向流量速率,某些成员端口速率特别小或者根本没有
原因:
本类故障的常见原因主要为聚合负载分担方式配置错误
分析:
1.用户业务流量是否正常:等一下在看情况
2.查看聚合负载分担类型与报文特征是否匹配
通过执行 display link-aggregation load-sharing mode 命令查看聚合负载分担类型
3.检查是否部署跨板/跨框/跨成员设备聚合
对于框式(盒式)设备:在 IRF 环境下,如果部署跨板/跨框聚合,则在系统视图下使用 undo link-aggregation load-sharing mode local-first 命令关闭本地优先转发功能。
8.3 聚合成员端口无法选中
故障
当两台设备通过链路聚合连接时,发现聚合组成员端口处于非选中状态,聚合失败。
原因:
1.链路连通性故障:查看成员端口是否 UP,排除端口物理故障影响
2.本端和对端的操作 key、属性类配置不一致:使用 debugging link-aggregation lacp packet 命令查看动态聚合的成员端口 LACP协议交互情况
3.聚合成员端口数配置错误:检查本端和对端聚合接口配置,排除配置影响,本端聚合接口是否为动态聚合,LACP 报文收发是否正确
4.聚合成员端口数量是否达到阈值:可在聚合接口视图下通过 link-aggregation selected-port maximum 命令配置聚合组中的最大选中端口数
8.4 STP设备连接成环时业务中断
故障:
多台设备通过物理链路连接成环时,业务流量中断
原因:
1.设备接口的物理状态为 DOWN
2.设备的生成树功能处于关闭状态
分析:
1.检查承载业务流量的接口状态是否为 UP
a.检查物理接口
b.检查数据链路层协议状态是否为 UP
执行 display interface 命令,通过“Line protocol state”字段查看网络中的接口数据链路层协议状态
DOWN(protocols)表示接口的数据链路层被一个或者多个协议模块关闭。protocols为多个协议的任意组合,可能的协议如下:
− DLDP:由于 DLDP 模块检测到单通而关闭接口的数据链路层。
− OAM:由于以太网 OAM 模块检测到远端链路故障而关闭接口的数据链路层。
− LAGG:聚合接口中没有选中的成员端口而关闭接口的数据链路层。
− BFD:由于 BFD 模块检测到链路故障而关闭接口的数据链路层。
− MACSEC:由于 MACSEC 模块还未协商成功接口的通信加密参数而关闭接口的数据链路层。
− VBP:由于配置二层转发功能后而关闭接口的数据链路层。
2.检查设备的生成树功能是否开启
a.检查设备上全局生成树功能是否开启:dis stp
b.检查 VLAN 的生成树功能是否开启(pvst)
c.检查接口的生成树功能是否开启:执行 display stp 命令,在需要参与生成树计算的接口视图下执行 stp enable 命令,开启接口的生成树功能
8.5 接入生成树网络的用户终端设备发生掉线
故障:
用户终端设备接入生成树网络时,连接终端设备的接口发生闪断,业务长时间丢包,造成终端设备掉线
原因:
连接用户终端设备的接口未被配置为边缘端口
9 三层技术-IP 业务类故障处理
9.1 无法学习到 ARP 表(ND 表)项
故障:
设备无法学习到 ARP 表项,导致设备无法正常转发流量
原因:
1.内存不足导致无法学习到 ARP 表项:display memory-threshold
2.接口物理层未正常 Up。
3.接口下配置的 IP 地址与对端接口不在同一网段。
4.ARP 报文未上送到 CPU。
5.单板存在故障。
6.CPU 繁忙导致 ARP 报文被丢弃。
9.2 不回应 ARP 请求报文
; 故障:
设备收到对端设备发送到 ARP 请求报文后,不回应 ARP 应答报文。
原因:
1.接口收到的 ARP 请求报文的目的 IP 不是本机 IP。
2.端设备发送的 ARP 请求报文触发了本端的源 MAC 地址固定的 ARP 攻击检测功能。
3.端设备发送的 ARP 请求报文触发了本端的 ARP Detection 功能。
分析:
1.查看 ARP 报文信息,确认 ARP 报文是否已上送到 CPU 处理
通过 debugging arp packet 命令打开 ARP 的报文调试信息开关,再触发对端设备向本端发送 ARP 请求报文
2.查看对端设备的 MAC 是否被加入攻击表项中:display arp source-mac
3.查看对端设备是否触发了 ARP Detection 功能:display arp detection statistics attack-source 命令显示 ARP Detection 攻击源统计信息
9.3 已有 ARP 表(ND 表)项但无法转发流量
故障:
设备已有 ARP 表项但无法正常转发流量
常见原因:
1.学习到的 ARP 表项参数异常。
2.学习到的 ARP 表项没有成功下发驱动
分析:
1.检查 ARP 表项是否成功创建。通过 display system internal adj4 entry 命令查看ARP 表项信息,以接口 GigabitEthernet1/0/1、对端 IP 地址为 1.1.1.2
2.检查 ARP 表项是否成功下发到驱动。通过 debugging system internal adj4 命令并指定hardware参数打开IPv4邻接表下驱动调试功能。