浅谈网络故障的诊断与排除
作者:曲瑞超
来源:《赤峰学院学报·自然科学版》 2011年第2期
    曲瑞超
    (赤峰学院 计算机科学与技术系,内蒙古 赤峰 024000)
      摘 要:本文从网络管理人员的角度出发,根据目前网络设计及运行中出现的各种问题,按OSI网络参考模型的层次,系统介绍了网络故障的诊断、排查、定位及解除的方法.
    关键词:网络故障;故障诊断;故障定位;故障排除
    中图分类号:TP393  文献标识码:A  文章编号:1673-260X(2011)02-0071-03
      网络故障诊断是一门综合性技术,涉及网络技术的各个方面.它以网络原理、网络配置和网络运行的知识为基础,从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查问题的根源,排除故障,恢复网络正常运行.
    1 网络诊断的目的和网络故障的主要原因
      网络故障诊断应该实现三方面的目的:确定网络的故障点,恢复网络的正常运行;发现网络规划和配置中欠佳之处,改善和优化网络的性能;观察网络的运行状况,及时预测网络通信质量.
      网络故障原因有以下几种可能:物理层中物理设备相互连接失败或者硬件及线路本身的问题;数据链路层的网络设备的接口配置问题;网络层网络协议配置或操作错误;传输层的设备性能或通信拥塞问题;网络服务或网络应用程序错误.
    2 诊断网络故障的过程
      诊断网络故障的过程应该沿着OSI七层模型从物理层开始向上进行.首先检查物理层,然后检查数据链路层,以此类推,设法确定通信失败的故障点,直到系统通信正常为止.
      一般来说,网络故障以某种症状表现出来,对每一个症状使用特定的故障诊断工具和方法都能查出一个或多个故障原因.可以对此进行逐步排除,以缩小搜索范围并达到隔离错误的目的.具体方法和步骤如下:第一步,当分析网络故障时,首先要清楚故障现象.要确定故障的具体现象,然后确定造成这种故障现象的原因的类型.第二步,收集需要的用于帮助隔离可能故障原因的信息.向用户、网络管理员、管理者和其他关键人物提一些和故障有关的问题.广泛的从网络管理系统、协议分析跟踪、路由器
诊断命令的输出报告或软件说明书中收集有用的信息.第三步,根据收集到的情况考虑可能的故障原因并根据有关情况排除某些故障原因,以缩小搜索范围.第四步,根据最后的可能的故障原因,建立一个诊断计划.开始仅用一个最可能的故障原因进行诊断活动,这样可以容易恢复到故障的原始状态.如果一次同时考虑一个以上的故障原因,试图返回故障原始状态就困难了.第五步,执行诊断计划,认真做好每一步测试和观察,进行错误隔离和剔除,直到故障症状消失.每改变一个参数都要确认其结果并对结果进行分析以确定问题是否解决,如果没有解决,继续下去,直到解决.第六步,处理完问题,作为网络管理人员,还有必要清楚故障的原因,并对此作出分析并拟定相应对策以避免类似故障的再次发生.
    3 故障诊断与排除
      有了以上的理论基础,下面就按OSI模型的层次具体的说明一般网络故障的诊断和排除过程.
    3.1 物理层故障及其诊断
      物理层的故障主要表现在设备的物理连接方式是否恰当;连接电缆是否正确;网卡、跳线、信息插座,HUB、MODEM等物理层设备的配置及操作是否正确.
    3.1.1 故障表现
      故障计算机无法连接至网络,不能实现与其他计算机的通信;
      计算机虽然可以接入网络,但是,数据传输速度非常慢,或者计算机性能大幅下降;
      故障只涉及一台计算机,其它计算机的网络不受影响;
      系统提示“网络电缆没有插好”,计算机无法访问网络;
      该链路所连接的交换机上相应端口的LED指示灯熄灭.
    3.1.2 故障分析
      线路断路或短路;
      电气性能或信号衰减过大,主要是由于连接线路质量差造成的;
      链路中的布线产品不匹配,在同一物理链路中,使用不同厂家不同标准不同型号的布线产品,可能会导致产品兼容性问题;
      电磁干扰严重或传输距离超限;
      网线、跳线或信息插座故障;
    3.1.3 物理层诊断排错
      第一步:查看网卡的指示灯是否正常.正常情况下,在不传送数据时候,网卡的指示灯闪烁较慢;传送数据时候,闪烁较快.无论是不亮,还是长亮不灭,都表明有故障存在.如果网卡的指示灯不正常,需关掉计算机更换网卡.如果指示灯闪烁正常,继续下述步骤.
      第二步:在“系统属性”的硬件选项卡中打开“设备管理器”,查看网卡驱动是否已经安装或是否出错.如果列表中没有网络适配器,或网络适配器前方有个黄“!”,说明网卡没有安装好,请删除网卡,刷新后重新安装网卡.如果网卡不能安装,说明已经坏了,更换网卡.如果网卡已经正确安装,继续下述步骤.
      第三步:用测线器对该连接涉及到的所有网线和跳线进行测试,确认网线的链路.最后检查交换机端口的指示灯是否正常,必要时再换一个端口试试.
    3.2 数据链路层及其诊断
      数据链路层为通过链路层的数据进行打包和解包、差错检测和一定的校正能力,并协调共享介质.统计表明链路故障在网络故障中占有80%的比重,因此链路故障是网络中经常发生的故障.
    3.2.1 链路故障的表现
      计算机无法登陆至服务器;
      计算机在网上邻居中只能看到自己,而看不到其他计算机,从而无法使用其他计算机上的共享资源和共享打印机;
      计算机无法通过局域网接入Internet;
      计算机无法在局域网络浏览Web服务器或收发E-mail.
    3.2.2 链路故障的分析
      网络协议未安装,或设置不正确;
      UPS或交换机电源故障;
      交换机硬件故障,或交换机端口硬件故障;
      VLAN设置问题;
    3.2.3 链路故障的排错步骤
      第一步:排除网卡及物理层故障(方法同上述).
      第二步:确认链路故障:当出现一种网络应用故障时候,如无法接入Internet,首先尝试其他网络应用,如查网络中的其他计算机,如果其他网络应用可正常使用,可排除链路故障原因.如果其他网络应用均无法实现,继续下述步骤.
      第三步:使用ping命令,ping本地的IP地址或127.0.0.1.如果能ping通,说明该计算机的网卡和网络协议设置都没有问题,问题出在计算机与网络的连接上,应当检查网线链路和交换机及交换机端口的状态.如果无法ping通,只能说明TCP/IP协议有问题,而并不能提供更多的情况,需要继续下述步骤.
      第四步:排除网络协议故障.查看本地计算机是否安装有TCP/IP协议,并检查IP地址、子网掩码、默认网关和DNS设置是否完全正确,如正确则是网络连接的问题.
      第五步:故障定位.到连接至同一台交换机上的其他计算机上进行网络应用测试.如果仍然不正常,在确认网卡和网络协议都正确安装的前提下,可初步认定是交换机发生了故障.如果其他计算机测试结果完全正常,则将故障定位在发生故障的计算机与网络的链路上.
      第六步:故障排除.如果确定交换机故障,应首先查看交换机上各个指示灯闪烁是否正常.如果所有指示灯都在频繁的闪烁或一直亮着,可能是由于网卡损坏而发生了广播风暴,关闭再重新打开交换机电源后试一试看能否恢复正常.如果恢复正常,再到红灯闪烁的端口,将网线拔下来,到该计算机,更换网卡.如果面板一片漆黑,一个灯也不亮,检查交换机电源是否已经打开,或电源插头是否接
触不良.如果电源没有问题,那就的更换一台交换机了.如果确定故障就发生在某一条连接上,则可按以上物理层故障的方法排除.
    3.3 协议故障
      没有协议就没有网络.协议之于网络正如同语言之于人类的交流,因此,协议在网络中扮演着非常重要的角.
    3.3.1 协议故障表现
      计算机无法登录至服务器;
      在网上邻居中看不到自己,也看不到其他计算机;
      在网上邻居中能看到自己和其他计算机,但无法在局域网络中浏览Web、收发E-mail;
      无法通过局域网接入Internet;
      重复的计算机名称或IP.
    3.3.2 协议故障分析
      协议未安装:实现局域网络通信,需安装NetBEUI协议;实现Internet通信,需安装TCP/IP协议;
      协议配置不正确:TCP/IP协议涉及到的基本配置参数有4个,即IP地址、子网掩码、DNS和默认网关,任何一个设置错误,都有可能导致故障发生;
      网络中有两个或两个以上的计算机使用同一计算机名.
    3.3.3 协议故障排错方法
      第一步:检查计算机是否安装有TCP/IP协议和NetBEUI协议,如果没有,建议安装这两协议;
      第二步:检查计算机的TCP/IP配置参数是否正确.如设置有问题,修改后重启再测试;
      第三步:使用Ping命令,测试与其他计算机和服务器的连接状况;
      第四步:对于不能实现文件或打印机共享的,可在本地连接属性中查看是否添加了“Microsoft网络的文件及打印共享”协议,并进一步确定相应的设备和文件已经启用了共享.
      第五步:对计算机重名的,重新为该计算机命名,使其在网络中具有唯一性.
    3.4 配置故障
网络故障的六个命令      配置错误也是导致网络故障发生的重要原因之一.网络管理员对服务器、路由器及交换机的的配置不当,或用户对计算机设置的修改都会产生网络上的访问错误.
    3.4.1 配置故障表现
      网络链路测试正常,却无法连接到网络,不能与其它计算机通信;
      只能与某些计算机,而不是全部计算机进行通信;
      计算机能访问内部网络中的服务器,但无法接入Internet;
      计算机无法登录至域控制器.
    3.4.2 配置故障分析
      服务器配置错误:如域控制器未设置或已到期的用户,将无法登录;服务器配置错误导致WEB、FTP等服务停止;代理服务器访问列表设置不当,限制有权用户接入Internet;
      网络设备配置错误:如路由器访问列表设置不当导致网络中所有计算机都无法访问Internet;三层交换机的路由设置不当,使用户无法访问不同Vlan中的计算机等;
      用户配置错误:如IP地址设置不当,子网掩码及网关设置设置错误等.
    3.4.3 配置故障排错步骤
      第一步:检查发生故障计算机的相关配置.如发现错误,修改后再测试相应的网络服务,如没发现错误,执行下步.
      第二步:测试同一网络内的其他计算机是否有类似的故障,如有则说明问题出在服务器或网络设备上.
      第三步:如没有类似故障,也不能服务器和网络设备存在设置问题,应进一步针对该用户提供的服务作进一步的检查.
    3.5 其他故障
    3.5.1 服务器故障
      导致网络服务故障的可能性包括三个方面,即服务器硬件故障、操作系统故障和网络服务故障.通常导致网络故障最主要的原因是操作系统故障,因此当网络服务故障发生时,首先应当确认服务器是否感染病毒或被攻击,然后再通过系统日志的记载来查看服务故障的发生情况,必要时进行重启服务或计算机甚至重新安装服务等来排除故障,最后如果故障还没有排除再检查服务器的硬件.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。