微軟公司的Azure公共云近日算是被真正的云搞垮了,因?yàn)樵摴緦⒅芏?dǎo)致美國用戶無法正常使用幾項(xiàng)服務(wù)的一起故障歸咎于“惡劣天氣”。
微軟表示,位于得克薩斯州的美國中南部數(shù)據(jù)中心遭到了雷電風(fēng)暴,結(jié)果散熱系統(tǒng)出現(xiàn)了故障,迫使該公司關(guān)閉了許多服務(wù)器和系統(tǒng),以防遭到更嚴(yán)重的損壞。
微軟在Azure狀態(tài)頁面上的一份聲明中表示:“美國中南部的數(shù)據(jù)中心附近發(fā)生了一起惡劣的天氣事件,包括雷擊。這導(dǎo)致電源電壓升高,從而影響了散熱系統(tǒng)。確保數(shù)據(jù)和硬件完整性的自動化數(shù)據(jù)中心程序立即生效,關(guān)鍵硬件進(jìn)入了有條不紊的斷電過程?!?/em>
開始故障時Azure狀態(tài)頁面甚至一度無法打開:
散熱系統(tǒng)是現(xiàn)代數(shù)據(jù)中心的一個重要組成部分,因?yàn)樯嵯到y(tǒng)是消除在一個封閉的地方緊密堆疊在一起的成千上萬臺服務(wù)器產(chǎn)生的高溫所必不可少的。簡而言之,如果這個系統(tǒng)出了故障,所有系統(tǒng)都將隨之停運(yùn)。
因此,如果溫度上升到超過安全水平,像微軟這樣的公司落實(shí)了自動關(guān)閉數(shù)據(jù)中心機(jī)器的程序。這是保護(hù)微軟數(shù)據(jù)中心投資的重要措施,但是對云客戶來說也帶來了很大的不便。
微軟提到的惡劣天氣很可能與颶風(fēng)戈登有關(guān),這場1級風(fēng)暴目前正在得克薩斯州海岸的附近兜轉(zhuǎn)。
微軟表示,這起故障已影響了許多Azure云服務(wù),包括Visual Studio Team服務(wù)。停運(yùn)的其他服務(wù)包括Azure Active Directory身份管理服務(wù)和基于云的生產(chǎn)力套件Office 365。
Visual Studio Team Services小組補(bǔ)充道:“由于一些內(nèi)部基礎(chǔ)設(shè)施依賴Azure云服務(wù),美國中南部地區(qū)以外的企業(yè)組織的客戶所用的持續(xù)集成/持續(xù)交付(CI/CD)工作流程和儀表板也可能受到了影響。”
專家們表示,這一事件向使用云服務(wù)的企業(yè)組織敲響了警鐘:說到運(yùn)行云端的關(guān)鍵工作負(fù)載,只有傻瓜才會依賴單單一家提供商。
Mimecast有限公司的網(wǎng)絡(luò)彈性專家彼得?班納姆(Pete Banham)說:“今天Azure發(fā)生的事件再一次清楚地表明,企業(yè)組織需要做好自己的冗余機(jī)制,而不是依靠單單一家提供商?!?/p>
Constellation研究公司的首席分析師兼副總裁霍爾格?米勒(Holger Mueller)表示,不過,該事件也給了希望避免將來發(fā)生此類事件的微軟一個深刻的教訓(xùn)。
米勒說:“這次事件深刻地提醒人們,即使對于像微軟這等規(guī)模的IaaS提供商來說,要保持?jǐn)?shù)據(jù)中心正常運(yùn)行有多難。閃電、洪水、颶風(fēng)、大雪和暴雨都會影響數(shù)據(jù)中心的可用性。所以一個關(guān)鍵的問題是,微軟從中汲取了什么教訓(xùn)?它如何在將來能避免類似的故障?這給了希望加強(qiáng)云基礎(chǔ)設(shè)施的公司一個深刻的教訓(xùn)?!?/p>
在發(fā)布的最新消息中,微軟表示它在努力使所有受影響的服務(wù)重新上線,不過截止本文發(fā)稿時,這項(xiàng)工作顯然仍在進(jìn)行之中。
微軟表示:“工程師已成功地恢復(fù)了數(shù)據(jù)中心的電源。此外,工程師已恢復(fù)了大部分受影響的網(wǎng)絡(luò)設(shè)備。雖然一些服務(wù)開始出現(xiàn)了恢復(fù)如初的跡象,但搶救工作仍在進(jìn)行之中。”