| 当机,是IT人士常用的术语,在更多的计算机应用者嘴里更多的表达为死机,当机是令IT管理和应用者都颇为烦心的事情。
对于普通家庭应用的当机,最多是不到最高级别的数据无法完整恢复,而如果一台服务器出现了当机,可能导致机要文件和高等级数据丢失的危险,这可是非常遗憾的事情了。
当机常见的表象多为操作界面静止无响应或“蓝屏”,操作系统无响应,软件运行无响应,鼠标、键盘无响应,硬盘指示灯恒亮不闪烁。尽管造成死机的原因是多方面的,但是万变不离其宗,其原因总也脱离不了硬件与软件(包括主机系统、操作系统、应用软件)两方面。
在本文中,笔者将从当机的原因入手,尽量系统和全面的分析当机出现的原因,并在文章末尾给出当机的解决办法。
1、由硬件故障引起的服务器当机
硬件其实脱不了这几大件:CPU、内存、硬盘、电源、散热系统,而最常见的硬件引起的当机原因则是散热系统故障。
1)散热不良

多风扇集中设计
散热不良是大家碰到的导致服务器当机最普遍的原因,CPU、硬盘、电源在工作中发热量非常大,因此保持良好的通风状况非常重要。CPU相当于人的大脑,对于服务器来说,它要对服务器内硬件软件的各种请求进行并发多线程处理,当并发处理要求突然增多时,CPU的热量就好象人脑飞速思考时一样,会出现“脑热”的症状,而硬盘I/O的吞吐量也将向额定量靠近,由此带来的功率增高,必然导致热量的增加;同时,功率的增加又对电源的支持产生了很大的压力,必然也会带来电源高热量的产生。当运算量超过服务器运算负荷之后,这三个“高热生产大户”短时间内的热量突然“增产”,很可能导致服务器的死机现象。


集中散热加硬盘侧吹
另外,在一些进行视频或图形存储与调用的服务器中,显卡和显示器设备也是发热量非常高的设备,如果散热设计的不好,当调用比较多时,也会产生当机现象。
解决的办法是,在进行服务器选购时,尽量选择发热量较小的CPU,在系统设计时设置可以实现负载动态平衡的运算系统,选择散热性能良好的服务器准系统。
2)硬件之间或软硬件之间不兼容
在硬件之间,如果主板、CPU、内存由于内外频相互不匹配,有可能在装配之初由于处理并发事件较少,还可以正常运行,但是当并发数上升到一定高度时,设备之间的匹配问题导致的硬件系统不稳定就凸显,这样产生的服务器当机事件发生几率也相应提高。

就算有准系统的支持,也得考虑硬件的兼容性哦
在硬件与软件之间,如硬件与需要进行图象处理的软件之间,有可能存在兼容性问题,如果不能达到兼容,整个系统的运行也不会稳定,这样产生的当机事件发生几率也非常高。
服务器配件之间的不兼容问题一般出在朋友们自己DIY的服务器上,软硬件兼容问题主要出在用户对于硬件与应用之间的衔接不完善的时候。解决以上问题的方法是在选购硬件设备时,以需要采用的具体系统实现为基础,全面的考虑全新硬件之间、需要升级的配件与新配件之间、软件与硬件之间的兼容性问题,以构建一个稳定的系统。 |