核心交换机常见故障处理手册

1 故障处理通用流程
1.1  信息搜集
为方便故障快速定位,建议不要关闭设备的信息中心(info-center enable)。缺省情况下信息中心处于开启状态。
1.1.1  搜集设备日志信息
1. 收集diag信息
执行display diagnostic-information命令后,请输入“Y”,以选择将diag保存到CF卡中(选择display会出现信息搜集不全)。设备上单板越多,diag信息搜集的时间越长,信息搜集期间不能输入命令,请耐心等待。
<Sysname>display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:y
模块电源故障
Please input the file name(*.diag)[cfa0:/default.diag]:20130517.diag
Diagnostic information is outputting to cfa0:/20130517.diag.
Save successfully.
也可以将diag信息直接显示出来(不建议这样搜集),搜集前请先执行screen-length disable,避免屏幕输出被打断,如下:
<Sysname>screen-length disable
% Screen-length configuration is disabled for current user.
<Sysname>display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:n
=================================================================
  ===============running CPU usage information===============
=================================================================
===== Current CPU usage info =====
CPU Usage Stat. Cycle: 19 (Second)
CPU Usage            : 5%
CPU Usage Stat. Time : 2013-05-21  10:06:25
CPU Usage Stat. Tick : 0x19aa(CPU Tick High) 0xa57f44e1(CPU Tick Low)
Actual Stat. Cycle  : 0x0(CPU Tick High) 0x39fb1e03(CPU Tick Low)
……
2. 其他注意事项
建议记录设备操作时的命令行显示信息,便于后续分析。
明确每一配置操作的影响,保证出现异常时配置能够被恢复。
保证当前配置与保存的配置一致,在IRF分裂、单板Fault、单板重启时请不要保存配置,否则可能会导致配置不一致。
操作执行后请等待一定时间来确认执行效果。
更换主控板时,请确保新、老主控板的软件版本一致。
1.1.2  搜集其他运行信息
除设备日志信息外,还需要搜集设备的其他运行信息(包括但不限于以下):
故障现象、故障时间、网络拓扑、配置信息、现场处理措施及其实施后的现象效果;
操作日志记录、抓取的报文信息、Debug开关打印信息、主控板与网板持续异常重启的串口输出信息等;
设备故障时单板、电源、风扇指示灯的状态或现场图片等
搜集信息越全面、越详细,越有利于故障的快速定位。
1.2  故障定位和处理
设备出现故障时,请先搜集设备运行的相关信息,判断大致的故障类型,然后参照对应类型的故障处理流程进行确认。
如遇到故障无法确认,请将故障描述连同搜集的信息发送给公司技术支持人员分析。
1.2.1  故障处理流程图
1为故障处理的一般流程,可以大致判断出故障的类型。
图1故障处理流程图
故障分析时常用的方法有:
端口报文计数
报文镜像
端口抓包
配置QoS策略进行流量统计
Debug开关信息
对怀疑故障的模块交叉验证(比如:怀疑某个端口光模块异常,可以将其他正常的光模块装在这个端口、将怀疑异常的光模块装到别的端口进行确认;怀疑某个槽位单板异常,可以将别的正常单板装到这个槽位、将怀疑异常的单板装到本设备其他槽位或装到别的S12500-X上确认)。
1.2.2  故障原因分类
1. 单板故障
如单板出现异常重启、状态异常、无法启动、反复重启,请参照2.1  单板故障处理。
2. 电源故障
如设备电源指示灯异常、不断打印告警信息,请参照2.2  电源处理。
3. 风扇故障
如设备风扇指示灯异常、风扇停转、不断打印风扇告警信息,请参照2.3  风扇故障处理。
4. 温度告警
如设备打印温度告警,请参照2.4  温度告警处理。
5. 链路端口故障
如端口出现无法UP、频繁UP/DOWN、端口错包,请参照3 链路端口故障处理
6. 硬件转发故障
如日志不断出现Forwarding faultBoard fault: chassis X slot Y, please check it等打印信息,请参照4 硬件转发故障处理。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。