Brocade Switches – 如何确定是SFP 或是光纤线导致 “Loss of Link(丢失链接)”问题 
问题描述:  一个有问题的SFP或光纤线会造成丢失与主机,存储或另一台交换机的连接问题,在交换机的error log中可能有如下显示: 
2007/12/06-23:50:56, [FW-1424], 7682,, WARNING, SWITCH_1, Switch status changed from HEALTHY to MARGINAL  2007/12/06-23:50:56, [FW-1436], 7683,, WARNING, SWITCH_1, Switch status change contributing factor Marginal ports: 1 marginal ports. (Port(s) x )   
问题解决方法:  首先确定是由于SFP还是光纤线的问题造成链接丢失,执行下面的命令:
检查porterrshow命令的输出: 
如果仅是"enc out "单独报错主要是因为光纤线的问题。 
如果是"enc out "和"crc err "组合报错主要是GBIC/SFP的问题。 
要确定是源端还是目标端SFP报错,需要再检查"portshow x" 的输出(x代表有问题端口号)
如果下面两对参数 "Lr_in " 和 "Ols_out " 以及 "Lr_out " 和"Ols_in " 的值相同,则表明SFP运行正常  如果一个数值明显高于另一个, 连接问题可能出现在交换机连接的对端("in" > "out") 或是交换机本身("out" > "in").
  注意:如果”Ols_in”的值高于“Lr_out”的值,问题的根源大多数情况与连接的设备相关,(sending those offline sequences) 并且交换机通过"link reset"对此做出响应。 
参数解释:
enc_out  -> Encoding error outside of frames   
crc err  -> Frames with CRC errors     
Lr_in    -> Link reset In (primitive sequence), does not apply to FL_Port   
Lr_out    -> Link reset Out (primitive sequence), does not apply to FL_Port   
Ols_in    -> Offline reset in (primitive sequence), does not apply to FL_Port   
Ols_out  -> offline reset out (primitive sequence), does not apply to FL_Port   
清除crc err等信息
有两个命令可以实现,一个命令是statsclear,清掉所有端口的计数值,实践中发现有些平台下不能使用,估计跟firmware或设备类型有关,另一个命令是portstatsclear,后面需要加端口号,缺点是只能清除单个端口的计数值,这个命令在所有firmware及所有类型设备都可以用
Porterrshow
用来展示交换机上面所有端口错误统计信息,详细解释如下:
Frame(tx/rx):tx代表端口发送的数据帧,rx代表端口收到的数据帧。
Enc_in: 8b/10b或者64b/6bb数据帧帧内编码错误。在正常情况下20分钟会出现一次这个报错,交换机端口(offline/online)会产生这个错误。
Crc_err:数据帧CRC校验错误。根据实际统计,如果crc_err和 enc_out同时出现,通常代表GBIC/SFP有硬件问题。
Crc_g_eof:数据帧CRC校验错误,但是数据帧EOF是正常的。
sort of linkToo_long:数据帧总长度超过2148字节或者workload长度超过2112字节。
Too_short:小于36个字节长度的帧(workload字节长度等于0)。
Bad_eof:数据帧EOF错误。
Enc_out:8b/10b或者64b/66b数据帧帧外编码错误。在正常情况下20分钟会出现一次这个报错,交换机端口(offline/online)会产生这个报错,另外在HBA卡和交换机端口速率不同,而又使用的是静态配置端口速率的时候也会产生这个错误。单一的这个报错反映光纤线可能有问题;如果是Enc_out和crc_err同时报错代表GBIC/SFP有硬件问题。
Disc c3:Class 3被交换机丢弃的数据帧。常见情形帧的目标地址不可达或者源端口还没有FLOGI交换机。这个参数仅仅代表有丢包发生,不能用来判定问题的具体原因。
Link-fail:当交换机端口在LR Receive State时间超过R_A_TOV就会产生这个错误。这个错误经常和loss of signal或者loss of sync同时出现。
Loss sync:bit或者transmission-word synchronization失败都会产生这个错误。当交换机端口(offline/online)会产生这个问题。
Loss sig:链路收不到信号。当交换机端口(offline/online)会产生这个问题。
Frjt:用于class 2。代表数据帧无法处理。
Frbsy:用于class 2。数据帧无法在E_D_TOV时间内传输出去,超时后会产生这个问题。
小结
  1. Loss sync,Loss sig,Link-fail这三个错误在链路初始化的过程中都会产生。当链路不稳定时候,通常这些错误计数器比较高。
2. Frjt,Frbsy用于class 2。SAN存储通常使用的是class 3,所以这两个错误很少见。
3. Enc_out和Crc_err两个计数器同时比较高,通常需要更换GBIC/SFP。
4. Disk c3只能代表链路有丢包现象。原因可能有很多种,具体问题具体分析。如果这个值过高,链路性能可能会受到影响。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。