3大(dà)常見的服務(wù)器硬件(jiàn)故障 你(nǐ)是否遭遇過(guò)
如今(jīn),談及X86服務器平台的CPU,很(hěn)多人可能對英特爾和AMD兩(liǎng)大芯片巨頭的產品如數(shù)家珍,從之前的至強5400到主流的至強5600、至強7500,以(yǐ)及AMD強勁的12核心x86處(chù)理器“Magny-Cours”(馬尼庫爾(ěr))等等。同時,服務器的(de)另外兩個核心在CPU的基礎上作用不容小視,以帶(dài)ECC、ChipKill、熱插拔技術的(de)內存,防止數(shù)據異常丟失的RAID硬(yìng)盤等組件共同(tóng)打(dǎ)造出一個堅若磐石的X86服務器。
但由於X86服務器和台(tái)式機有著很多相似之處,無(wú)論是從前期部署、中(zhōng)期維護到後期管理都有著(zhe)眾多相似之處。因(yīn)此,X86服(fú)務器(qì)盡管有著成熟穩(wěn)定的(de)架(jià)構體係,也不免出現“罷工”。特(tè)別是企業負載應用得多了,遇到的(de)故障是(shì)很平常的事(shì)情,以三大組(zǔ)件出現的故障與大家共同(tóng)分享,可以有效避(bì)免大家在以後(hòu)的業務平台上出現。
服務器核(hé)心——CPU
危害程(chéng)度:★
故障回放(fàng):做過測試的朋友(yǒu)知道,一台基於Intel至強服務器,開機無顯示(shì),係統指(zhǐ)示燈(dēng)瘋狂的閃爍,最直接懷疑是CPU與(yǔ)主板的接觸不良,但將其更換到(dào)多路服務(wù)器主板的另外一個(gè)CPU插槽之上,依(yī)舊沒(méi)有反(fǎn)應。
解決(jué)方案:在這(zhè)種狀況下經測量,CPU電壓居(jū)然出現異常(cháng),原來是CPU的VRM(Voltage Regulator Module,電壓調節模(mó)塊)出(chū)現了故障,不能執行主板(bǎn)上DC電路(lù)轉換(huàn),無法為CPU提供穩定的工作(zuò)電壓,至此隻(zhī)能更換(huàn)CPU。
筆者認(rèn)為這個故障是比較致(zhì)命,CPU的損壞將直(zhí)接導致(zhì)整(zhěng)個服務器(qì)的不可用,但是CPU本身的安(ān)全性是非(fēi)常(cháng)高的,故障率極低。所以在日常維護任(rèn)務中,由於CPU的損壞導致的服務中(zhōng)斷(duàn)情況是較(jiào)為少見,它的危害(hài)程度不(bú)算太(tài)高,如(rú)果是多路服務器更是不用擔(dān)心(xīn)CPU損壞而帶(dài)來的服務器宕(dàng)機(jī)了(le)。
服務器平台的另外兩大(dà)核心(xīn),莫(mò)過於(yú)內存和硬盤,具體到內存(cún)的選擇上(shàng),服(fú)務(wù)器內存(cún)與普通台式機內存還(hái)是有一些差異(yì)的。仔細觀察過服務器內存(cún)的用(yòng)戶會(huì)發現,相比(bǐ)普通內存單麵(miàn)8顆粒的設計(jì),服務器(qì)內存通(tōng)常單麵有9顆芯片(piàn),這就是我們常說的ECC內存。
服務器讀取性能(néng)——內存
危(wēi)害程度:★★☆
故障回放:之(zhī)前在(zài)一台安裝2條2GB內存的(de)服務器上,由於自(zì)身(shēn)承載的服務過多,服務器的(de)處理數據的速度越(yuè)來越慢,於(yú)是,通過(guò)增加2條同型號的(de)內存條來升級(jí)服務器(qì)。將這些內存全部插入主板後,係統檢測隻有6GB,另外2GB內存神秘消失(shī),反(fǎn)複的插拔新(xīn)的內存依舊無法正常(cháng)檢測。
解決方案:通過服務器(qì)產品(pǐn)官(guān)方網站了(le)解,該種情況是因為該服務器(qì)的(de)內存插槽是(shì)配對使用,1-4、2-5、3-6、7-10、8-11、9-12,新內存(cún)插在了2、3槽,無法(fǎ)形成配對,自然隻能檢測出一條內存,將內存(cún)插到5槽,8GB內存順利被檢(jiǎn)測。
可見,服務器內存的(de)優(yōu)勢不僅(jǐn)僅體現在性能上,在容錯能力同樣投入很多精力(lì),目(mù)的是為整個平台(tái)提(tí)供高穩定環境,之前提到的內存采用的ECC(錯誤檢查(chá)和糾正)技術、Register、Chipkill都是為了提高內存的穩(wěn)定性,使各個內存條和插槽之間能更好的融合。
作為服務器(qì)存儲終端,硬盤(pán)的穩定工作關係到企業數(shù)據(jù)的安全,服務器硬盤就是這個核心(xīn)的數(shù)據倉庫,所有的軟件(jiàn)和數據都存(cún)儲在(zài)這裏,因此服務器硬盤對可(kě)靠性和(hé)穩定性有著非常高的要求(qiú)。
另外,服務器一般需要24*7小(xiǎo)時不停的運行,其硬盤也要24小(xiǎo)時不停的運轉(zhuǎn)。因(yīn)此,服(fú)務器硬盤對穩定性和可靠(kào)性有著很(hěn)高的要求(qiú)。服務器市場上采用的硬盤主要有(yǒu)三種(zhǒng),SATA硬盤、SCSI硬(yìng)盤(pán)以(yǐ)及SAS硬(yìng)盤(pán),其中SATA硬盤(pán)主要應用在低(dī)端服(fú)務器領域,而SCSI和SAS硬盤則麵向中高端服務器。
服(fú)務(wù)器(qì)存儲核心——硬盤
危害程度:★★☆
故(gù)障(zhàng)回放:每台服(fú)務(wù)器(qì)會出現死機、無征兆的重啟,如(rú)果頻繁出(chū)現,就會經數據中心IT運維人員進(jìn)行檢(jiǎn)測後發現是硬盤工作時間太(tài)長,出現了物理壞道。於是(shì)立即將硬盤做備份(fèn)和更(gèng)換是最佳(jiā)解決辦法,將硬盤內的數據導(dǎo)出,結果(guǒ)在(zài)轉移(yí)數據(jù)的過(guò)程中,不停地彈(dàn)出I/O錯誤,這直接導致數據轉移的速度非常慢,且丟失(shī)了很(hěn)多重要數據。
解決方案:這種情況多(duō)數是(shì)磁頭或者(zhě)盤片出現(xiàn)了錯誤(wù)。如果拆(chāi)開硬盤(pán)盤片(piàn)出現(xiàn)了劃傷(shāng),但麵積並不(bú)大,通過專業的公司可以通過(guò)更換磁(cí)頭後重新(xīn)恢複數據,恢複了95%以上的數據,這種情況相對來說比較幸運。
但(dàn)通常說防(fáng)患於未(wèi)然,如果這(zhè)個故障發現的及時,在盤片(piàn)沒有出現更(gèng)多物理(lǐ)損傷前予(yǔ)以解(jiě)決(jué),一旦等到盤片損壞嚴重(chóng),數(shù)據將永久性丟(diū)失,為(wéi)了避免(miǎn)這種狀況(kuàng)的發生建議做(zuò)到以下(xià):
在(zài)硬盤選擇上,要專業(yè)的服務器硬盤,比如:平均無(wú)故障時間超(chāo)過(guò)1600000小時,年故障(zhàng)率低於0.55%,抗震方(fāng)麵要(yào)有300G/2ms的以上的(de)耐衝擊能力(lì)等等,此外(wài)應用相關服務(wù)器RAID陣列技術(shù),比如:RAID5,它(tā)由至少3塊硬盤組(zǔ)成,在向硬盤寫入數(shù)據(jù)信息的同時,還寫入校驗(yàn)信息,當其中(zhōng)有1塊(kuài)硬盤出現故障時,可以(yǐ)根據算法從另外(wài)2塊(kuài)硬盤上得出這塊故(gù)障硬盤的數據,安(ān)全(quán)性(xìng)大大提高。
以上三大組件(jiàn)的故(gù)障僅僅是拋磚(zhuān)引(yǐn)玉的(de)簡單(dān)介紹,其實在服(fú)務(wù)器故障方麵不僅僅限於(yú)這(zhè)幾點,在電源、管理(lǐ)模塊以(yǐ)及網(wǎng)卡方麵也(yě)有類似的問題,希望(wàng)用戶在應(yīng)用中多多積累經驗(yàn),盡(jìn)可能減小故障的發生率,提供一個穩定靈(líng)活(huó)的IT應用(yòng)環境。
關鍵詞:服(fú)務器硬件故(gù)障
閱讀(dú)本文後您(nín)有什(shí)麽感(gǎn)想(xiǎng)? 已有 人給出評價!
- 0
- 0
- 0
- 0
- 0
- 0