您现在的位置是:首页 > IT基础架构 > 网络与安全 >
望闻问切看网络故障
2008-10-07 22:13:00作者:马红斌来源:
摘要经常有人在QQ上问我网络方面的一些问题,也经常有一些学生、读者,打电话或发邮件问我一些网络故障的解决方法,但他们只是叙述了故障的结果或现象,很少有人详细描述故障的产生原因、产生过程以及网络的状态,更没有说出现故障之后,自己是怎么分析与判断的,只是问我:出了...
常在河边走,哪有不湿鞋?作为网管员,处理网络故障应该说是一个日常工作了,但还是有很多网管在处理故障时会走很多弯路,这其中的原因就是没有按章行事。其实我们可以像中医瞧病一样诊断网络故障,望、闻、问、切,根据原因,对症下药。
经常有人在QQ上问我网络方面的一些问题,也经常有一些学生、读者,打电话或发邮件问我一些网络故障的解决方法,但他们只是叙述了故障的结果或现象,很少有人详细描述故障的产生原因、产生过程以及网络的状态,更没有说出现故障之后,自己是怎么分析与判断的,只是问我:出了某某故障,要怎么解决?
在这种情况下,我通常会反问对方一些问题,就像中医看病一样,详细地询问对方的一些情况,有许多时候,在询问对方的过程中,对方就能自己判断问题所在并且自己可以解决了。从这些情况看来,许多故障,自己都可以解决,但缺少解决问题的思路与方法,掌握了这些思路与方法,一般网络故障都不需要再询问别人。解决问题的方法有许多,而解决问题的大致思路是差不多的。
总体来说,如果按照用户划分,网络故障分为企业中的网络故障与个人用户网络故障;对于企业中的网络故障来说,如果按照产品功能划分,网络故障通常包括工作站故障、服务器故障、网络设备故障等,下面分别介绍。在解决故障时,本着从简单到复杂、从软件故障到硬件故障的原则进行判断。
工作站故障
对于工作站故障,通常来说,采用代替法与排除法即可以解决。当网络中的工作站出现问题时,你要清楚是网络中的所有工作站出现问题,还是某一组中的工作站出现问题,或者仅仅只是某一台工作站出了问题。
如果网络中的所有工作站都出现了同一个问题,例如,都不能登录服务器,或者登录服务器很慢,或者都不能访问某个或者某些网站,这时候的故障应该在工作站到故障点之间的线路或某些设备上,例如,核心交换机出现问题,所有的工作站的上级交换机或者路由器出现问题,甚至是网络的出口(广域网或者Internet网络)出现问题。这时候,可以在网络中的任意一台工作站上,使用Ping命令,依次检查到上一级设备的连接情况,逐级检查以定位故障点,最后排除故障。
例如,对于类似于图1所示的网络拓扑情况,当所有的工作站不能访问服务器Server或者不能访问互联网时,可以在网络中的任意一台工作站上(例如W1),用Ping命令,首先检查到S3交换机的连通性,如果到S3不能连通,则检查S3交换机的配置情况,在确认不是配置问题后,检查S3交换机是否损坏,如果S3交换机损坏,根据情况维修或者更换。然后检查到服务器的连通性,如果不能访问服务器,检查S3与服务器之间的线路,然后依次检查服务器的网卡、服务器的配置,对于S3与服务器之间的线路,可以用代替法。如果是不能访问互联网,则需要依次检查S3到路由器(或代理服务器、防火墙)之间的线路、路由器的配置和路由器到互联网的线路情况,然后再检查是否是ISP的故障等。实际上,如果网络中的所有工作站都不能访问外网,则首先要在代理服务器或者路由器上,检查到上级线路的连接是否正常,在排除上级线路(ISP)的故障后,检查S3与路由器之间的线路、路由器的配置等情况。
图1 某网络拓扑图
如果网络中的一台工作站出现问题,例如,W3不能访问服务器(或互联网),而网络中其他的工作站都正常,可以按照如下的步骤解决:
(1)在W3工作站上,使用Ping命令,检查是否可以Ping通W4、S2和S3交换机,如果能Ping通这些工作站或交换机,则表示W3不能访问服务器(或互联网)是服务器端对W3进行了限制。如果不能Ping通,则进行下面的检查。
(2)打开网络连接,查看是否出现“网络电缆被拔出”的提示,如果出现这种问题,表明是网线问题,或者是连接W3的S2交换机端口出现问题。
(3)打开网络连接,用鼠标右键单击“本地连接”,是否出现“启用”端口标签,如果出现,表示当前网卡被禁用,启用网卡即可。
(4)之后检查网卡配置是否正确,如果是通过DHCP方式获得地址,检查是否获得地址,如果获得的地址是0.0.0.0或169.254.x.x,则表示IP地址没有获得;如果获得的地址的子网掩码为0.0.0.0,则表示IP地址冲突。在这些情况下,可以手动指定网络中正确的地址。在确认不是IP地址或者配置的情况后,查看W3网卡的状态,如果“状态”只有发送数据而没有收到数据时,表示是W3的网卡、W3的网线或S2交换机上连接W3的端口出现问题。
如果是这种情况,可以将连接W4的网线插到W3上(当W4与W3离得很近时),检查是否是线路的问题,如果W4与W3很远,可以用测线仪检查W4网线是否有故障。如果网线没有故障,则可以在S2上,将连接W4的网络更换一下端口,在排除交换机端口与网线故障后,那就是W3这台工作站的问题了。这时候,可以禁用W3的网卡,然后再启用,如果不能解决,可以在设备管理器中,卸载W3的网卡,然后重新启动计算机,进入系统后重新安装网卡驱动程序。
服务器故障
服务器故障主要包括硬件故障、软件故障与操作系统故障等。当网络中的服务器出现故障时,可以按下面的顺序检查:
(1)检查外观:服务器能否启动。如果服务器已经处于登录状态,不要急于重新启动服务器,先检查服务器的指示灯,例如电源、硬盘指示灯或者其他警报指示灯,当指示灯正常时,可以登录到控制台,使用Ping命令,检查服务器的网络连通性。如果不能连接,检查服务器TCP/IP设置、网卡驱动程序、网卡、网线等。
(2)当网络连通时,检查所提供的服务是否启动,工作是否正常。如果这台服务器是SQL Server服务器,就要登录SQL Server企业管理器,查看服务状态是否正常,或者检查服务中SQL Server服务是否启动。如果是Windows服务器,还可以使用事件查看器查看日志,通常情况下,一些错误信息会在日志中反映出来。
(3)如果服务器原来正常,是在某个时间或者某个操作后不正常,则检查相关的操作是否引发了服务器的故障。如果有多人共同管理服务器,就请所有管理服务器的人到一起,询问是由于哪个管理员的操作造成的故障,或者检查上次管理人员对服务器的操作记录,从而解决问题。
为了保证服务器能稳定、可靠地对外提供服务,通常来说,管理服务器需要做到以下几点:
(1)保证服务器所在机房温度、温度在规定的范围内,不要让机房有太多的灰尘。
(2)保证机房供电电压稳定。
(3)不要在服务器上挂QQ、使用BT等软件下载东西,也不要在服务器上测试软件。
(4)为服务器设置强密码,并且关闭服务器不使用的端口,禁用或停用服务器不需要的服务。如果是Windows服务器,还需要及时更新补丁。
(5)不要在服务器上做实验,不要随意改动服务器的设置,如果改动了设置,一定要及时记录,并且在改动设置之后,检查服务器能否正常工作。
网络设备故障
网络设备故障包括交换机故障、路由器故障、光纤收发器等设备不能正常工作等。
通常来说,网络设备的故障相对比较好定位或排除。当网络设备出问题后,通常能从网络设备的指示灯显现出来。例如,带有故障显示的高端路由器、交换机或者普通的交换机,指示灯不亮或者常亮(正常情况下应该闪烁而不是一直亮),这些都比较容易区分。另外,一些交换机或路由器,还可以通过Telnet或Web方式管理,当不能登录这些设备时,在排除工作站故障、线路故障后,可以定位到设备故障。一些可管理的交换机,还可以通过控制线进行设置,当使用控制线不能登录时(排除设置工作站与控制线问题后),可以判断是交换机问题。
总之,我们在处理网络故障时,一定要认真观其变化,究其原因,由简单到复杂,一步步定位故障,最终解决故障。
(本文不涉密)
责任编辑:
上一篇:如何提高网络管理稳定性