數據中心(Data Center)是現代資訊技術基礎設施的核心,承載著大量關鍵業務和資料處理任務。為了確保數據中心的可靠性和可用性,業界引入了「Uptime Institute」制定的數據中心等級(Tier)分類系統。該系統將數據中心劃分為四個等級,從Tier I到Tier IV,分別代表不同的基礎設施性能和可用性水平。本文將深入探討這四個等級的特性、設計要求、適用場景,以及在實際應用中的考量,為讀者提供全面的理解和指導。
什麼是「正常運行時間」(Uptime)
正常運行時間基本上意味著“可用性”,是數據中心運營最關鍵的方面,因為它指的是設施的可靠性和保持數據中心可用和在線時間的能力,能夠在不停機或中斷的情況下為客戶提供服務。
高水準的「正常運行時間」或「可用性」對於確保我們的手機、電腦和連接設備通過雲和網路(包括網際網路、軟體程式、電子郵件、工作檔、金融交易、電子商務、位置、文本和電話等)提供服務至關重要。
數據中心等級概述
數據中心等級系統由 Uptime Institute 於 1990 年代引入,旨在為數據中心的設計、建設和運營提供統一的標準。該系統主要關注數據中心的基礎設施,包括電力、冷卻、網路等方面,以評估其在計劃內和非計劃內事件中的性能和可用性。每個等級都有明確的設計標準和性能指標,確保數據中心能夠滿足特定的業務需求。
Tier I:基本容量 (Basic Capacity)
特性:
- 單一設備和單一路徑:沒有冗餘設備,所有設備通過單一路徑供電和冷卻。
- 單點故障容易出現停機風險:對於設備故障或維護,需要完全關閉系統,無法在不中斷業務的情況下進行維護。
- 可用性:99.671%,每年預計停機時間約 28.8 小時。
適用場景:
適合小型企業或非關鍵業務應用,對可用性要求不高,且預算有限的情況。
設計要求:
- 不斷電系統(UPS):提供基礎的電力保護,應對短暫的電力中斷。
- 備用發電機:應對較長時間的電力中斷,確保關鍵設備的持續運行。
- 基礎冷卻設備:確保設備在適當的溫度範圍內運行,避免過熱。
考量:
- 維護挑戰:由於缺乏冗餘,任何設備的維護都需要停機,對業務連續性造成影響。
- 風險管理:需要制定詳細的計劃,以應對可能的設備故障和停機風險。
認證的要求
雖然在等級評等中屬於最低等級,但仍需符合一些期望才能獲得證書:
- 足夠的容量 – 系統內有足夠的容量來滿足系統的要求。
- 不斷電系統 (UPS) – 可應付電力驟降,停電和尖峰電力,維持資料中心和伺服器的整體服務。
- IT 系統專用區域 – 因此無須將伺服器安裝在辦公室的角落、
- 專用冷卻設備 – 可在辦公室時間以外運作,因此不會受到時間和辦公室使用者干擾的影響、
- 補給水 – 在使用蒸發冷卻的情況下,補給水應該有 12 小時的現場儲存設施以備不時之需。
- 發電機 – 用於停電,至少有 12 小時的燃料備份。Uptime 也指出可以使用「燃料電池」。
Tier II:冗餘容量元件 (Redundant Site Infrastructure)
特性:
- 部分冗餘設備:關鍵設備如 UPS、冷卻系統等具有 N+1 的冗餘配置,減少單點故障的風險。
- 單一路徑:雖然設備有冗餘,但供電和冷卻的分配路徑仍為單一路徑。
- 可用性:99.741%,每年預計停機時間約 22 小時。
適用場景:
適合中小型企業,對可用性有一定要求,但預算有限的情況。
設計要求:
- 冗餘設備:關鍵設備如 UPS、發電機、冷卻系統等需要配置 N+1 的冗餘。
- 維護計劃:需要制定計劃,以在不中斷業務的情況下進行部分設備的維護。
考量:
- 維護影響:雖然設備有冗餘,但由於單一路徑的限制,某些維護操作仍可能需要停機。
- 成本效益:在可用性和成本之間取得平衡,確保投資符合業務需求。
認證的要求
第 2 級數據中心在設計、安裝和維護時,至少應包括下列項目:
- 可將元件從服務中移除 – 當透過計劃中的維護或作業問題需要時,可將元件從服務中移除,而不會對其所服務的關鍵環境造成影響。透過在部分設計中導入備援功能來達成。
- 單一非冗餘配線路徑 – 為了維護或運作而從服務中移除配線路徑時,通常需要關閉其所服務的關鍵環境。
- 不斷電系統 (UPS) – 電力驟降、中斷和尖峰時,可維持數據中心和伺服器的整體服務,並允許進行一些維護,而不會影響數據中心的運作。
- 備援 UPS 容量 [N+1] – 允許一些運作故障和維護,而不影響數據中心的運作。
- IT 系統專用區域 – 因此無需將伺服器安裝在辦公室的角落。
- 專用的冷卻設備 – 可以在辦公室以外的時間運轉,因此不會受到時間和辦公室使用者干擾的影響。
- 備援冷卻能力 [N+1] – 允許一些運作故障和維護,而不會影響數據中心的運作。
- 備援熱回收容量 [N+1] – 允許某些操作故障和維護,而不影響數據中心的運作。
- 備援泵浦容量 [N+1] – 允許某些作業故障和維護,但不影響數據中心作業。
- 備援冷卻裝置容量 [N+1] – 允許某些作業故障和維護,但不會對數據中心作業造成影響。
- 備援冷卻器控制能力 [N+1] – 允許某些作業故障和維護,但不影響數據中心作業。
- 補給水 – 在使用蒸發冷卻的情況下,補給水應該有 12 小時的現場儲存設施以供備用。
- 發電機 – 用於停電,在正常運作時至少有 12 小時的燃料備份。Uptime 也指出可以使用「燃料電池」。
- 備援發電機容量 [N+1] – 允許一些運作故障和維護,但不會影響數據中心的運作。
- 備援發電機燃料系統容量 [N+1] – 允許某些作業故障和維護,但不會對數據中心作業造成影響。
Tier III:可同時維護 (Concurrently Maintainable)
特性:
- 多重分配路徑:供電和冷卻系統具有多條獨立的分配路徑,確保任一條路徑的維護不影響業務運行。
- 完全冗餘:所有關鍵設備和系統均具備 N+1 或更高的冗餘配置。
- 可用性:99.982%,每年預計停機時間約 1.6 小時。
適用場景:
適合大型企業和關鍵業務應用,需要高可用性和業務連續性的環境。
設計要求:
- 並行維護能力:系統設計需支持在不中斷業務的情況下進行任何設備的維護和更換。
- 多路徑設計:供電和冷卻系統需具備多條獨立且冗餘的路徑,確保單一路徑故障不影響整體運行。
考量:
- 成本增加:由於需要多重冗餘和路徑設計,建設和運營成本相對較高。
- 複雜性:系統設計和管理的複雜性增加,需要專業的運維團隊。
認證的要求
第 3 級數據中心在設計、安裝和維護時,至少應包括下列項目:
- 可從服務中移除的元件 – 為 IT 關鍵區域提供容量的每個元件都可以從服務中移除,而不會對其所服務的環境造成任何影響。
- 可同時進行維護 – 為 IT 關鍵領域提供容量的每個元件都可以從服務中移除,而不會對其所服務的環境造成任何影響。
- 足夠的容量 – 當任何元件從服務中移除時,都能為關鍵環境提供足夠的容量。
- 備援配電路徑 – 因維護或運作需要將配電路徑從服務中移除時,不需要關閉其所服務的關鍵環境;這包括閥門安排。
- 關鍵 IT 設備雙重供電 – IT 設備必須雙重供電,以確保在停電時零中斷。可使用轉換開關 [STS/ATS]、
- 不斷電系統 (UPS) – 電力驟降、中斷和尖峰時,可維持數據中心和伺服器的整體服務,並允許進行一些維護,而不會影響數據中心的運作、
- 備援 UPS 容量 [N+1] – 允許一些運作故障和維護,而不影響數據中心的運作、
- IT 系統專用區域 – 因此無需將伺服器安裝在辦公室的角落、
- 專用的冷卻設備 – 可以在辦公室以外的時間運轉,因此不會受到時間和辦公室使用者干擾的影響、
- 備援冷卻能力 [N+1] – 允許某些運作故障和維護,而不會影響數據中心的運作、
- 備援熱回收容量 [N+1] – 允許某些操作故障和維護,而不影響數據中心的運作、
- 備援泵浦容量 [N+1] – 允許某些作業故障和維護,但不影響數據中心作業、
- 備援冷卻裝置容量 [N+1] – 允許某些作業故障和維護,但不會對數據中心作業造成影響、
- 備援冷卻器控制能力 [N+1] – 允許某些作業故障和維護,但不影響數據中心作業、
- 補給水 – 在使用蒸發冷卻的情況下,補給水應該有 12 小時的現場儲存設施以供備用、
- 補給水 – 系統應可同時進行維護、
- 發電機 – 用於停電,在正常運作期間至少有 12 小時的燃料備份。Uptime 也指出可以使用「燃料電池」、
- 發電機 – 額定為連續使用、
- 備援發電機容量 [N+1] – 允許一些運作故障和維護,而不會影響數據中心的運作、
- 發電機可同時進行維護 – 符合所有要求,並經過測試證明、
- 備援發電機燃料系統容量 [N+1] – 允許某些作業故障和維護,但不影響數據中心作業、
Tier IV:容錯基礎設施 (Fault-Tolerant Infrastructure)
特性:
- 完全冗餘的系統:擁有多個獨立且物理隔離的電力和冷卻系統,確保即使一個系統發生故障,其他系統仍能維持資料中心的正常運作。
- 容錯能力:能夠承受單一設備故障或分配路徑中斷,且不影響 IT 設備的運行。
- 持續冷卻:即使在維護或故障期間,冷卻系統仍能保持運行,確保環境穩定。
- 可用性:99.995%,每年預計停機時間約 0.4 小時。
適用場景:
適合對業務連續性要求極高的企業,如金融機構、醫療系統、政府部門和大型電子商務平台等,這些組織無法容忍任何停機時間。
設計要求:
- 2N+1 冗餘配置:所有關鍵設備和系統均需具備雙倍冗餘(2N),外加一個備用(+1),以確保在多重故障情況下仍能正常運行。
- 物理隔離的系統:電力和冷卻系統需完全獨立且物理隔離,防止單一事件影響多個系統。
- 持續維護能力:設計需支持在不中斷業務的情況下進行任何設備的維護、測試和更換。
考量:
- 高成本:由於需要實現最高級別的冗餘和容錯能力,建設和運營成本極高。
- 複雜的管理:系統的設計和運營極為複雜,需要高度專業化的團隊進行管理和維護。
- 業務需求評估:在投資建設 Tier IV 數據中心前,需仔細評估業務對高可用性的需求,確保投資與業務目標相匹配。
認證的要求
第 4 級數據中心在設計、安裝和維護過程中,至少應包含下列內容:
- 任何故障 – 任何潛在故障都必須被偵測、隔離和控制,同時維持對關鍵負載的「N」容量、
- 單一故障 – 任何元件、配電路徑或系統的故障都不會影響設施的運作。這包括閥門安排等。
- 基礎設施「控制」運作 – 發生故障時,將針對任何故障提供自主反應,不會對關鍵系統造成影響、
- 分隔 – 互補的系統和分配路徑應實體隔離。例如,這意味著為雙盤管 CRAH 服務的獨立冷凍水系統。
- 可停用的元件 – 提供 IT 關鍵區域容量的每個元件都可以停用,而不會對其服務的環境造成任何影響、
- 可同時進行維護 – 為 IT 關鍵區域提供容量的每個元件都可以從服務中移除,而不會對其所服務的環境造成任何影響、
- 足夠的容量 – 當任何元件從服務中移除時,都能為關鍵環境提供足夠的容量、
- 備援配線路徑 – 因維護或運作需要而從服務中移除配線路徑時,不需要關閉其所服務的關鍵環境、
- 關鍵 IT 設備採用雙重供電 – IT 設備要採用雙重供電,以確保在電源故障期間零中斷。可使用轉換開關 [STS/ATS]、
- 不斷電系統 (UPS) – 電力驟降、中斷和尖峰時,可維持資料中心和伺服器的整體服務,並允許進行一些維護,而不會影響數據中心的運作、
- 備援 UPS 容量 [N+1] – 允許一些運作故障和維護,而不影響數據中心的運作、
- IT 系統專用區域 – 因此無需將伺服器安裝在辦公室的角落、
- 專用的冷卻設備 – 能夠在非辦公時間運作,因此不會受到時間和辦公室使用者干擾的影響、
- 備援冷卻能力 [N+1] – 允許一些運作故障和維護,而不會影響數據中心的運作、
- 備援熱回收容量 [N+1] – 允許某些作業故障和維護,但不會對數據中心作業造成影響、
- 備援泵浦容量 [N+1] – 允許某些作業故障和維護,但不影響數據中心作業、
- 備援冷卻裝置容量 [N+1] – 允許某些作業故障和維護,但不會對數據中心作業造成影響、
- 備援冷卻器控制能力 [N+1] – 允許某些作業故障和維護,但不影響數據中心作業、
- 補給水 – 在使用蒸發冷卻的情況下,補給水應該有 12 小時的現場儲存設施以供備用、
- 補給水 – 系統應可同時進行維護、
- 發電機 – 用於停電,在正常運作期間至少有 12 小時的燃料備份。Uptime 也指出可以使用「燃料電池」、
- 發電機 – 應能連續使用、
- 備援發電機容量 [N+1] – 允許一些運作故障和維護,而不會影響數據中心的運作、
- 發電機可同時進行維護 – 符合所有要求,並經過測試證明、
- 備援發電機燃料系統容量 [N+1] – 允許某些作業故障和維護,但不影響數據中心作業、
四個層級的整理
我們試著用一個總表來總結四個層級的差異
Details | Tier I [1] | Tier II [2] | Tier III [3] | Tier IV [4] |
Basic Capacity | Redundant Site Infrastructure | Concurrently Maintainable | Fault Tolerant | |
Active components supporting the IT Load | Normal | Normal+1 | Normal+1 | Normal After any failure |
Generator System | Primary Power Source vs Utility | Primary Power Source vs Utility | Primary Power Source vs Utility | Primary Power Source vs Utility |
Electrical Distribution Paths | 1 | 1 | 1 Active 1 Alternate | 2 Active at same time |
Cooling Distribution Paths | 1 | 1 | 1 Active 1 Alternate | 2 Active at same time |
IT Equipment Power Paths | 1 | 1 | 1 Active 1 Alternate | 2 Active at same time |
Concurrently Maintainable | No | No | Yes | Yes |
Fault Tolerant | No | No | No | Yes |
Compartmentalization | No | No | No | Yes |
Dedicated IT Area | Yes | Yes | Yes | Yes |
Dedicated Cooling Equipment | Yes | Yes | Yes | Yes |
Sufficient IT capacity when a critical component is removed from service | No | Yes | Yes | Yes |
UPS Systems | Normal | Normal+1 | Normal+1 | Normal After any failure |
Make-up Water | Normal [12 hours storage] | Normal [12 hours storage] | Normal+1 [12 hours storage] | Normal After any failure [12 hours storage] |
Engine Generator Rating | Prime | Prime | Continuous | Continuous |
Engine Generator/Fuel Cell | Normal [12 hours storage] | Normal [12 hours storage] | Normal+1 [12 hours storage] | Normal After any failure [12 hours storage] |
資料中心等級的選擇與實施
在選擇適合的數據中心等級時,企業需綜合考量以下因素:
- 業務需求:評估業務對可用性和可靠性的要求,確定能夠容忍的停機時間。
- 預算限制:不同等級的數據中心建設和運營成本差異巨大,需確保選擇的等級在預算可承受範圍內。
- 風險評估:分析可能面臨的風險,如自然災害、電力中斷等,並選擇能夠有效應對這些風險的數據中心等級。
- 未來擴展性:考慮未來業務增長,確保數據中心具備相應的擴展能力。
在實施過程中,建議遵循以下步驟:
- 需求分析:明確業務對數據中心的需求,包括性能、可用性、擴展性等方面。
- 選擇等級:根據需求和預算,選擇適合的數據中心等級。
- 設計與規劃:按照選定的等級標準,進行詳細的設計和規劃,確保滿足相應的技術要求。
- 建設與測試:在建設過程中,嚴格按照設計方案執行,並在完工後進行全面測試,確保系統達到預期性能。
- 運營與維護:建立完善的運營和維護機制,確保數據中心持續穩定運行。
選擇適當的數據中心等級對於確保業務連續性和資料安全至關重要。企業應根據自身需求、預算和風險評估結果,謹慎決策,確保數據中心的設計和運營能夠支撐業務的長期發展。
誰會使用數據中心層級系統
- 希望建立新設施的數據中心擁有者,
- 正在考慮擴建現有設施的數據中心擁有者,
- 尋求對現有設施進行評估的數據中心運營商,
- 數據中心客戶(例如使用第三方數據中心/主機託管空間的公司)必須完成盡職調查等。