' />
知識庫
數(shù)據(jù)中心是一種為IT設(shè)備提供穩(wěn)定電源和適當(dāng)環(huán)境操作條件的安全基礎(chǔ)設(shè)施。通常情況下,數(shù)據(jù)中心運營將面臨許多不利的因素,因此確保IT設(shè)備的電力可用性有著充分的理由。在此討論一下如何定義數(shù)據(jù)中心的"可用性"。
在數(shù)據(jù)中心領(lǐng)域,許多人通常將"可用性"和"可靠性"當(dāng)作同一事物。此外,對于一些人來說,"冗余"一詞似乎也意味著可用性的含義。
可靠性不是可用性
可靠性是系統(tǒng)或組件在規(guī)定的條件下在指定的時間內(nèi)執(zhí)行其所需功能的能力。組件的可靠性是基于稱為平均無故障時間(MTBF)的統(tǒng)計概率的預(yù)測,通常以小時(例如100,000小時)來表示。而組件、設(shè)備或子系統(tǒng)的MTBF通常取決于數(shù)據(jù)中心設(shè)施的制造商。
系統(tǒng)的可用性通常表示為時間的百分比。對于數(shù)據(jù)中心來說,它被稱為"正常運行時間",用"9"的數(shù)量來量化。人們應(yīng)該注意的是,普通的5個9(即99.999%)是最初由貝爾公司設(shè)置的系統(tǒng)可用性參考標(biāo)準(zhǔn)。
然而,5個9聽起來令人印象深刻,但是,如果以每年8,760小時為基礎(chǔ),5個9仍然意味著每年的停機時間為5.3分鐘。即使6個9也相當(dāng)于每年的停機時間為32秒。在當(dāng)今的全天候運行的IT環(huán)境中,這顯然是讓組織不可接受的,因為IT電源只能容忍小于20毫秒的中斷。而且,這并不一定意味著一年中只發(fā)生一次停電事故。這可能面臨多次電力中斷,每次雖然只有幾秒鐘,但累計起來一年的中斷時間平均為32秒,顯然這將面臨災(zāi)難性的結(jié)果,但這在仍然是數(shù)學(xué)統(tǒng)計方面是精確的,并且符合6個9的要求。
就可用性聲明而言,重要的區(qū)別是預(yù)測值與歷史值。在新建數(shù)據(jù)中心或其規(guī)劃設(shè)計的情況下,它只能是一個參考,這可能基于其冗余設(shè)備級別和其容錯控制系統(tǒng)的復(fù)雜性。相比之下,可用性的歷史數(shù)字只代表過去的實際操作經(jīng)驗。但是,歷史數(shù)據(jù)不能代表未來的表現(xiàn)。采用"N + 1"冗余設(shè)計的數(shù)據(jù)中心設(shè)施可能在五年的時間內(nèi)沒有任何中斷,而采用"2N + 1"冗余設(shè)計的數(shù)據(jù)中心關(guān)鍵負(fù)載可能在運行的第一年就遭遇了電力中斷。
冗余代表部署額外的設(shè)備,如果主要電源或主要設(shè)備不可用時,可以通過故障或在維護(hù)期間提供所需的電力或冷卻(定義為"N")設(shè)備。但是,這種簡單的陳述并不能確??梢詿o縫地或即時地將負(fù)載轉(zhuǎn)移到輔助設(shè)備或附加設(shè)備運行。
舉一個簡單的例子,在市電中斷期間,備用發(fā)電機啟動并能夠為負(fù)載供電,其啟動的時間通常為10至30秒。顯然,這對于IT設(shè)備不起任何作用,并且需要使用具有足夠能量儲備的UPS來提供不間斷的電力。對于冷卻系統(tǒng)而言,其可接受的時間根據(jù)冷卻系統(tǒng)的類型而不同,對于低功率密度設(shè)備來說,可以堅持5到30分鐘,對于功率密度非常高的IT設(shè)備來說,則只能堅持 15到60秒的時間。
具備彈性的冗余設(shè)備來控制電力設(shè)備和冷卻設(shè)備以支持IT負(fù)載。冗余設(shè)備本身并不排除發(fā)生瞬間或短暫的中斷。人們使用容錯設(shè)計和冗余設(shè)備(N + 1,N + 2等)和關(guān)鍵電源路徑(N,2N等)的組合在可接受的時間范圍內(nèi)來提供電源和冷卻(以及網(wǎng)絡(luò)連接)服務(wù),讓IT設(shè)備在電力不中斷的情況下運行。
雖然擁有可靠性高的設(shè)備可以減少系統(tǒng)故障的機會,但不能確保更高的可用性。"可用性"的真正基礎(chǔ)是冗余設(shè)備、容錯設(shè)計以及電源和冷卻系統(tǒng)的控制和傳輸時間的重要性。實際上,人們永遠(yuǎn)不要把數(shù)據(jù)中心的可用性寄托在設(shè)備的預(yù)計可靠性上。
企業(yè)需要采取更全面的方法。綠色網(wǎng)格組織正在開發(fā)其數(shù)據(jù)中心可用性開放標(biāo)準(zhǔn)(OSDA)的首個版本。雖然并不打算與Uptime Institute Tier 4級別系統(tǒng)進(jìn)行直接的競爭,但OSDA概念適用于電源設(shè)備和冷卻系統(tǒng)的冗余級別的經(jīng)典視圖,但它也在整體方案中結(jié)合了多站點數(shù)據(jù)復(fù)制功能,以增加邏輯應(yīng)用程序的可用性,而不僅僅是保持?jǐn)?shù)據(jù)中心基礎(chǔ)設(shè)施的現(xiàn)狀。
OSDA系統(tǒng)也更加靈活,因為它允許不同層次的電源和冷卻設(shè)備實現(xiàn)冗余,而不是那些確實認(rèn)識到某些組織(或某些應(yīng)用)可能需要更高電氣冗余的不太靈活的框架,例如采用2"N+1"冗余,其實只需實現(xiàn)"N+1"冗余。在完全開發(fā)之后,OSDA平臺和工具集可用于評估多站點數(shù)據(jù)復(fù)制如何提供相同或更高級別的應(yīng)用程序可用性(這就是為什么首先構(gòu)建數(shù)據(jù)中心的原因),其規(guī)模為1-10,甚至在使用較低的冗余級別的數(shù)據(jù)中心基礎(chǔ)設(shè)施時也是如此。
很多企業(yè)的管理層認(rèn)為云計算是一種"完美"解決方案,因為它將會消除與數(shù)據(jù)中心以及IT硬件相關(guān)的所有資本和運營成本以及人員成本。雖然它被盲目地推定為總是可用的,但實際上,云計算服務(wù)提供商的基礎(chǔ)服務(wù)更加模糊或完全不透明。盡管如此,即使在今天,許多機構(gòu)和商業(yè)組織也沒有真正能夠決定采用一種有意義的方法來評估云計算服務(wù)的可用性。
計算架構(gòu)已經(jīng)變得非常活躍并且持續(xù)不斷發(fā)展,而且很明顯,大多數(shù)組織已經(jīng)放棄建設(shè)或運營自己的數(shù)據(jù)中心設(shè)施。許多企業(yè)采用主機托管服務(wù)提供商提供的托管服務(wù),他們可以使用基于冗余方法的傳統(tǒng)數(shù)據(jù)中心基礎(chǔ)設(shè)施方法對其進(jìn)行評估。因此,采托管數(shù)據(jù)中心和云計算的混合方法已成為許多組織目前最喜歡的策略。
很多人對長期實施的"數(shù)據(jù)中心可用性"的行業(yè)標(biāo)準(zhǔn)(由Uptime Institute創(chuàng)始人Ken Brill創(chuàng)建的四級Tier分類系統(tǒng))提出一些不同的意見。雖然它仍然是一個有價值的(也是最基本的)概念和索引,但它只是評估數(shù)據(jù)中心設(shè)施基礎(chǔ)設(shè)施的可用性,而沒有評估IT硬件、軟件以及數(shù)據(jù)本身的可用性。在虛擬化和數(shù)據(jù)復(fù)制的時代,其基于數(shù)據(jù)中心的"可用性評級"只是側(cè)重于數(shù)據(jù)中心設(shè)施電力和制冷基礎(chǔ)設(shè)施的冗余水平,雖然這也很重要,但它不應(yīng)該成為評估計算系統(tǒng)和存儲數(shù)據(jù)的可用性的唯一因素。