网络故障排除
1.前言中大型企业数字化转型需要多种技术,例如云计算、大数据、AI、物联网等,而以上技术又离不开数通网络的支持,一个稳定的数通网络需要在网络设计、建设、维护等方面做好充分的准备。
企业数通网络用到多种设备类型,设备之间使用多种物理链路连接,同时为了准确的完成数据包的转发,网络设备运行了多种网络协议。网络设备,线缆、以及网络协议都有可能产生网络故障,如何快速完成故障处理是一个高级网络工程师的基本素养
2.目标
描述故障处理的方法
分析环路故障
分析路由协议邻居关系无法建立的故障
撰写故障处理指导书
3.网络故障分类
网络故障是指由于某种原因而使网络丧失规定功能并影响业务的现象。
从用户的角度出发,凡是影响业务的现象都可以定义为故障。
常见的故障现象和分类如下:

4.结构化的网络故障排除流程

4.1.报告故障 - 主动沟通确认
故障报告者:姓名、所在的部门、职位级别、所负责的工作内容、使用电脑的位置(楼层、房间、无线接入还是有线接入)、在使用电脑访问什么网站时发现的问题。
故障频率:故障是突发的、偶尔的、还是频繁的。
用户操作:出现故障之前和之后,用户对自己的终端做了哪些操作,如是否更改了IP地址和DNS、是否安装了桌面防火墙软件、安全控制软件等。
4.2 确认故障
确认故障的四个要素:
故障的主体:哪个网络业务出现了故障。
故障的表现:故障的现象是什么样的。
故障的时间:用户是什么时间发现的故障,以及专业人员推测的故障出现的真实时间。
故障的位置:哪个网络组件出现了故障。
对故障现象进行准确的描述。
最后应确认该故障是否属于自己的负责范围,即自己是否被赋予了相应的权限来处理该故障
4.3 收集信息
需要收集哪些信息:
收集信息阶段主要是收集与故障相关的信息,如文档、网络变更情况等。
如何收集这些信息:
使用设备自身的操作命令;使用信息收集工具,如抓包工具、网管软件等。
获取授权:
在对信息安全要求较高的网络环境中,对信息的收集是需要得到授权的,有时需要签署书面的授权文件。
收集信息阶段的风险评估:
有些收集信息的操作,如对路由器或交换机执行”debug”命令,会导致设备的CPU占用率过高,严重的情况下甚至会使设备停止响应用户的操作指令,从而引入额外的故障现象。所以在收集信息的时候应评估这些风险,平衡引入新故障的风险与解决现有故障的紧迫性之间的关系,并明确的告知用户这些风险,由用户来决定是否进行风险较大的信息收集工作。
4.4 判断分析
判断分析阶段是对收集到的信息进行分析整理。
通过对故障信息、维护信息、变更信息的汇总,结合团队经验(或个人经验)进行综合的判断和分析,得到可能导致网络故障的原因列表。

4.5 原因列表
在原因列表阶段,首先需要列出所有可能的故障原因,然后通过信息过滤,列出最可能的待排查故障原因,同时排除掉当前最不可能的故障原因,从而缩小故障的排除范围。
4.6 故障评估
需要在逐一排查前进行故障评估工作。

4.7 逐一排查
在逐一排查阶段同样需要平衡解决问题的迫切性与引入新故障的风险性之间的矛盾。所以,应该明确告知用户排查工作可能带来的风险,并在得到许可的情况下才能执行操作。
有些情况下,通过逐一排查验证推断的过程涉及到网络变更,这时必须做好完善的应急预案和回退准备。

4.8 解决故障
如果通过逐一排查找到了故障的根本原因,并排除了故障,网络故障排除的流程就可以结束了。
复杂的网络环境中,故障现象消失后仍然需要观察一段时间,一方面确认用户报告的故障已经得到了解决,另一方面确认故障排除的过程中没有引入新的故障。
4.9 收尾工作
收尾工作包括相关文档的整理、信息的通告等。需要对之前网络故障排除流程中所有进行了变更的配置或软件进行备份,并做好故障排除文档的整理和移交工作。为了避免同样的故障再次发生,在此阶段应该向用户提出改进建议。
5.网络故障排除的核心思想和方法
5.1 以业务流量路径为核心的故障排除思想
通常情况下,网络中业务流量的路径是在网络规划阶段就已经设计好的,只需要知道受到网络故障影响的业务的流量往返路径,跟踪此路径,逐步排除即可。
1.确认业务流量路径 - 网络层
在数据包转发过程中可能存在多条路径,因此需要根据报文转发过程,确认业务流量的传输路径
2.确认业务流量路径 - 数据链路层
确认业务流量对应的数据帧在二层网络环境中是如何被交换机转发的
5.2 分层故障处理法
分层法很简单,所有模型都遵循相同的基本前提:当模型的所有低层结构工作正常时,它的高层结构才能正常工作。一般建议在处理故障时,从参考模型自底向上进行故障排查。

5.3 对比配置法
对比配置法是指对比正常状态与故障状态下的配置、软件版本、硬件型号等内容,检查两者之间的差异

5.4 分块故障处理法
当出现一个故障案例现象时,我们可以把它归入以下某一类或某几类中,从而有助于缩减故障定位范围 :
管理部分(路由器名称、口令、服务、日志等)
端口部分(地址、封装、cost、认证等)
路由协议部分(静态路由、RIP、OSPF、BGP、路由引入等)
策略部分(路由策略、策略路由、安全配置等)
接入部分(Console登录、Telnet登录、拨号等)
其他应用部分(DNS、DHCP、VPN配置等)
5.5 分段故障处理法
数据包转发过程中可能经过多台路由器和物理链路,每段物理连接都有可能发生故障,因此分段处理的方法是有效的。

5.6 替换法
替换法是检查硬件问题最常用的方法之一。
当怀疑是网线问题时,更换一根确定是好的网线试一试;当怀疑是接口模块有问题时,更换一个其它接口模块试一试
5.7 故障处理对网络维护和管理人员的要求
对协议要求有精深的理解。
能够引导客户详细描述出故障现象和相关信息。
充分了解自己所管理和维护的网络。
及时进行故障处理的文档记录和经验总结。
熟悉网络故障排除的方法,将多种方法结合使用。
6.常见网络故障排除
6.1 LAN故障
1.物理链路故障
2.IP地址配置错误
3.VLAN配置故障
4.环路故障
5.VRRP故障
6.等等
6.2 路由故障
检查每个节点的路由是否成功建立,逐个进行排查
6.3 业务故障
根据业务协议内容,对每个节点的业务协议进行检查