數(shù)據(jù)中心承載海量數(shù)據(jù)的存儲、處理和傳輸,為千行百業(yè)堅定運(yùn)行提供保障,而數(shù)據(jù)中心的安全性、可靠性一直是較薄弱的環(huán)節(jié)。為確保數(shù)據(jù)中心的安全可靠運(yùn)行,在產(chǎn)品設(shè)計、生產(chǎn)環(huán)節(jié)就要貫穿"全鏈安全"的理念,同時嚴(yán)控產(chǎn)線質(zhì)量,高度自動化,減少人為干預(yù),保障產(chǎn)品自身的高可靠性。此外,要大膽假設(shè),充分考慮產(chǎn)品出現(xiàn)問題后的應(yīng)對措施,通過提供專業(yè)化部署和運(yùn)維服務(wù),降低產(chǎn)品失效率,最小化災(zāi)后影響,完善端到端的保障機(jī)制,雙管齊下保障數(shù)據(jù)中心安全可靠運(yùn)行。
趨勢2:分布式制冷架構(gòu)將成為溫控安全的更優(yōu)選擇
傳統(tǒng)大型數(shù)據(jù)中心多采用集中式制冷架構(gòu)的方案,如傳統(tǒng)冷凍水系統(tǒng),冷凍站中涉及七大子系統(tǒng)和幾十種設(shè)備,各設(shè)備之間不能獨(dú)立運(yùn)行,一旦發(fā)生單點(diǎn)故障,可能會影響整個冷凍站的安全運(yùn)行,導(dǎo)致數(shù)據(jù)中心大規(guī)模宕機(jī),近年來業(yè)內(nèi)部分?jǐn)?shù)據(jù)中心安全事故也說明集中式制冷架構(gòu)存在單點(diǎn)故障的風(fēng)險。相較之下,分布式制冷架構(gòu)靈活,各個子系統(tǒng)完全獨(dú)立,單臺設(shè)備故障不會其他設(shè)備運(yùn)行,故障域更小,可靠性更高,可以直接從架構(gòu)設(shè)計上避免數(shù)據(jù)中心制冷系統(tǒng)的單點(diǎn)故障,提升數(shù)據(jù)中心的運(yùn)行可靠性。
趨勢3:預(yù)測性維護(hù)將成為數(shù)據(jù)中心基礎(chǔ)設(shè)施的標(biāo)配
數(shù)據(jù)中心的維護(hù)往往是事后型,發(fā)生事故后才知道問題所在,但隨著智算時代的到來,數(shù)據(jù)中心的故障響應(yīng)時間大幅縮短。未來數(shù)據(jù)中心基礎(chǔ)設(shè)施的運(yùn)維,預(yù)測性維護(hù)將成為標(biāo)配,從事后型轉(zhuǎn)為事前型。得益于AI技術(shù)的快速發(fā)展,預(yù)測性維護(hù)的范圍將持續(xù)擴(kuò)大,從電容、風(fēng)扇等易損件的壽命預(yù)測、設(shè)備的熱失控預(yù)警到制冷系統(tǒng)的漏液預(yù)警,都能提前預(yù)測,提前處理避免事故的發(fā)生,做到"治未病",從被動"救火"走向主動"防火",在運(yùn)維方面大幅提升數(shù)據(jù)中心可靠性。