超強(qiáng)臺風(fēng)“山竹”剛剛過去4天,香港地區(qū)在第一個(gè)工作日已陸續(xù)復(fù)產(chǎn)復(fù)業(yè)復(fù)市。有誰敢相信,“山竹”襲來的當(dāng)天,香港天文臺的10號風(fēng)球信號整整掛足了10個(gè)小時(shí)。
根據(jù)香港中華電力當(dāng)天新聞稿稱,其供電系統(tǒng)在“山竹”的襲擊下,40萬伏特及13萬2千伏特架空天線受到嚴(yán)重影響,導(dǎo)致約40000個(gè)客戶供電中斷。在這里新天域互聯(lián)小編給大家做個(gè)小科普,中華電力(中電)負(fù)責(zé)香港九龍、新界區(qū)的電力供應(yīng),而港燈電力(港燈)負(fù)責(zé)香港港島地區(qū)的電力供給,雙方分工分明。舉個(gè)例子來說,位于香港新界區(qū)葵興ITECH TOWER 2的新天域互聯(lián)數(shù)據(jù)中心,就只能使用到中電的電路系統(tǒng)。
圖:取自中電官網(wǎng)
中電一直維持世界級的供電系統(tǒng),可靠度達(dá) 99.999% 以上。如此穩(wěn)定的可靠度有賴中電輸配電網(wǎng)絡(luò)采用環(huán)形配置,為客戶提供雙重電源。中電更透過設(shè)備完善的系統(tǒng)控制中心,以先進(jìn)技術(shù)實(shí)時(shí)監(jiān)控各輸配電網(wǎng)絡(luò)的情況,其中包括13,900座變電站以及長達(dá)14,500公里的高壓電纜。中電完備的系統(tǒng)控制中心及專業(yè)的外勤隊(duì)伍,提供7*24*365緊急服務(wù),確保供電服務(wù)日夜無間。
圖:取自中電官網(wǎng)
眾所周知,數(shù)據(jù)中心等電信類設(shè)施對穩(wěn)定電力也有著很高的依賴性,而停電正正命中它們的要穴。
據(jù)Uptime Institute對全球1000家數(shù)據(jù)中心運(yùn)營商和IT從業(yè)者進(jìn)行的數(shù)據(jù)中心行業(yè)調(diào)查顯示,在2014年,25%至46%的受訪者都曾遭受斷電對業(yè)務(wù)造成影響。 簡單列舉幾個(gè)案例:
● 2014年7月5日,位于弗羅里達(dá)的維基百科數(shù)據(jù)中心發(fā)生斷電事故,導(dǎo)致全球范圍宕機(jī)。
● 2015年9月20日,亞馬遜AWS一個(gè)數(shù)據(jù)中心遭遇停電事故,旗下Netflix,Tinder,Airbnb等應(yīng)用程序的在線服務(wù)受到了影響。
● 2017年5月27日,英國航空公司從Heathrow和Gatwick起飛的所有航班,原因是機(jī)房故障導(dǎo)致其全球運(yùn)營嚴(yán)重中斷。
數(shù)據(jù)中心的主要功能,是為它所包含的關(guān)鍵任務(wù)應(yīng)用程序提供穩(wěn)定的正常運(yùn)行。根據(jù)2016年Ponemon Institute的調(diào)查,UPS系統(tǒng)故障仍然是導(dǎo)致計(jì)劃外數(shù)據(jù)中心宕機(jī)的首要原因。
2017年Uptime Institute拉斯維加斯的研討會上指出,在已公開的停電事故當(dāng)中,其中62%是由于IT設(shè)備服務(wù)供應(yīng)商的問題。而如今“上云”成為大家迫不及待的選擇,不僅需要信賴大品牌的能力,還要注重上云的方式和機(jī)房的硬件設(shè)備,如:機(jī)房五大系統(tǒng)的保障、雙活機(jī)房,服務(wù)器、存儲等配置情況及品牌;
● 嚴(yán)格按照數(shù)據(jù)中心建造標(biāo)準(zhǔn)來建設(shè);
● 選用可靠的電力系統(tǒng)裝置和冷卻系統(tǒng)裝置等;
● 異地容災(zāi)、異地快照、異地還原、鏡像災(zāi)備;
● 對數(shù)據(jù)中心設(shè)備進(jìn)行實(shí)時(shí)監(jiān)控;
● 根據(jù)專業(yè)機(jī)構(gòu)建議對硬件進(jìn)行合理升級。
軟件硬件雙劍合璧才能使服務(wù)器發(fā)揮最大穩(wěn)定效用。
● 可通過DCIM管理軟件對供電系統(tǒng)進(jìn)行智能化管理;
● 定時(shí)進(jìn)行軟件備份,按照既定時(shí)間進(jìn)行數(shù)據(jù)備份;
● 確保網(wǎng)絡(luò)安全,建立運(yùn)維文檔和流程控制;
Uptime Institute研討會上同樣指出,至少38%的斷電情況是人為導(dǎo)致的。那么究竟什么是人為因素呢?以下幾點(diǎn)屬于管理過失問題:
● 設(shè)計(jì)妥協(xié)。數(shù)據(jù)中心一定要按照高等級標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)中心建設(shè),尤其針對供配電系統(tǒng)、制冷系統(tǒng)等關(guān)鍵基礎(chǔ)設(shè)施產(chǎn)品的應(yīng)用提出嚴(yán)格要求,始終保證不妥協(xié);
● 培訓(xùn)預(yù)算削減。數(shù)據(jù)中心的持續(xù)穩(wěn)定運(yùn)行離不開優(yōu)質(zhì)運(yùn)維人員的全力支援,除了新員工完整的培訓(xùn)流程一定要做好外,老員工的定期培訓(xùn)也是十分有必要,畢竟IT知識日新月異;
● 裁員。裁員就意味著數(shù)據(jù)中心沒有足夠的人員支撐運(yùn)行,無論是日常維護(hù)還是緊急情況處理,這些都需要足夠又穩(wěn)定的人員;
● 預(yù)防性維護(hù)。管理者必須對數(shù)據(jù)中心里的每班當(dāng)值人員進(jìn)行充分的緊急情況培訓(xùn),多模擬安全測試,準(zhǔn)備好災(zāi)難應(yīng)急方案;
● 缺乏專業(yè)機(jī)房人才。邀請專業(yè)人員或公司加入到團(tuán)隊(duì)當(dāng)中,加強(qiáng)高可用的數(shù)據(jù)中心管理體系;
● 選擇成本最低的供應(yīng)商。無論是自建機(jī)房還是租用托管服務(wù)器,企業(yè)都必須根據(jù)自己實(shí)際情況,選擇最好的硬件,最好的環(huán)境,最好的設(shè)備。
● 定期演練
有時(shí)候即便預(yù)防措施做齊了,還是會發(fā)生斷電,這個(gè)時(shí)候,新天域互聯(lián)給大家一點(diǎn)建議:
● 首先在場人員必須先確認(rèn)停電的線路,停電時(shí)刻等信息;:
● 按照災(zāi)難應(yīng)急方案進(jìn)行,第一時(shí)間通知各個(gè)相關(guān)部門;
● 對數(shù)據(jù)中心里的設(shè)備進(jìn)行檢查,如服務(wù)器、UPS系統(tǒng)、核心系統(tǒng)等等;
● 對數(shù)據(jù)中心進(jìn)行有效的散熱處理;
● 工單記錄;
● 部件檢查完畢時(shí),區(qū)分優(yōu)先恢復(fù)的步驟實(shí)施,確保用電功率情況正常;
● 啟動(dòng)發(fā)電機(jī),檢測發(fā)電輸出電流通斷,待發(fā)電機(jī)運(yùn)行穩(wěn)定,按順序啟動(dòng)制冷系統(tǒng)、主UPS的市電輸入、客服系統(tǒng)、備用UPS的市電輸入;
● 發(fā)電機(jī)啟動(dòng)后,值班同事需將降溫系統(tǒng)關(guān)閉,逐一檢查所以設(shè)備是否正常;
● 派專人現(xiàn)場值守,及時(shí)與油品供應(yīng)商溝通。
史上最強(qiáng)“山竹”臺風(fēng)來襲,正是考驗(yàn)一個(gè)數(shù)據(jù)中心應(yīng)變能力,基礎(chǔ)設(shè)施是否過關(guān)的最佳時(shí)機(jī)。在山竹抵港的十個(gè)小時(shí)里,新天域互聯(lián)并未因停電而導(dǎo)致宕機(jī)事故的發(fā)生,整個(gè)數(shù)據(jù)中心井然有序,服務(wù)器持續(xù)高效運(yùn)行,這源于新天域互聯(lián)所采用的電氣系統(tǒng),冷卻系統(tǒng)和備用柴油發(fā)電機(jī)均為2N冗余,能有效應(yīng)對停電情況發(fā)生;更源于工作人員365天如一日的為用戶提供最為高品質(zhì)的服務(wù)。