服務熱線

13651854162
網站導航
主營產品:
  • 遠程控製智能電表,諧波電能表
技術文章
當前位置:主頁 > 技術文章 > 數據中心機房動力環境監控係統設計探討

數據中心機房動力環境監控係統設計探討

更新時間:2023-03-27 點擊次數:306

 摘 要:結合銀行數據中心建設項目,設計銀行數據中心機房動力環境監控係統,分析銀行數據中心機房監控對象、搭建係統監控架構,給出監控實現方法,*後針對運行一段時間出現的問題,提出優(you) 化措施和建議,對同類工程建設具有一定借鑒意義(yi) 。

     關(guan) 鍵詞:數據中心;動環監控;係統架構;網絡拓撲

0引言

      銀行數據中心機房的供配電和精密空調等基礎設施多,而設備維護人力資源少,因此增加了基礎設施運維人員工作強度和難度。為(wei) 及時發現設備故障並處理,本文設計了動力環境監控係統,並針對運行中出現的主要問題給出優(you) 化措施。

1係統

        監控對象銀行數據中心機房動力環境監控係統(以下簡稱為(wei) 動環監控係統)的監控對象可分為(wei) 三大類:第一是對設備動力係統實時工作狀態進行監控,如供配電係統開關(guan) 狀態、UPS和柴油發電機等設備的運轉參數和狀態等;第二是對機房內(nei) 運行環境進行監測與(yu) 控製,如溫度、濕度、漏水、氫氣濃度及消防等;第三是對人員設備進出進行監控,如門禁、攝像頭、防入侵等安全類設備。而機櫃內(nei) 服務器、交換機、加密機等安全或網絡類硬件設備運行狀態並未納入,不在本文探討範圍。

2係統架構設計

2.1設計原則

          銀行機房動環監控係統設計應遵循“集中化、一體(ti) 化、智能化"的設計模式,采用高標準的監控係統設計原則,實現主動、高效、流程化的監控管理。

(1)穩定性。動環監控係統作為(wei) 機房基礎設施“管家",要求24h不間斷提供服務,這不僅(jin) 依賴動環監控設備供電的穩定性,還依靠網絡通信的可靠性。

(2)安全性。動環監控係統信號采集回路應具備良好的保護機製,不會(hui) 因采集回路故障而造成被監控基礎設備誤動作或故障,且係統應具備自檢功能,在基礎設施故障時能及時通過電話或短信等方式告知運維人員設備故障部位、故障性質等。

(3)開放性。動環監控係統應符合開放式設計標準,預留多種對外接口和兼容MODBUS-TCP、OPC、OD-BC、BACNET等標準通信協議,以實現與(yu) 第三方廠商設備數據的傳(chuan) 輸與(yu) 交換。

(4)可擴展性。動環監控係統應可擴容及易維護,以適應數據中心機房的擴容、監控設備增加等變動情形。

2.2係統架構

       動環監控係統采用計算機網絡、現代通信技術和控製技術,對機房動力設備及環境等進行實時監控,實現無人值守機房的現代化管理。硬件上采用三層架構:底層為(wei) 現場設備層,由被監控設備、I/O采集模塊等構成;中間層為(wei) 數據采集處理層,由各串口服務器、動環服務器、交換機等構成;頂層為(wei) 數據應用層,由監控平台或客戶端等終端構成。軟件上采用B/S結構,在機房中通過安裝各種傳(chuan) 感器及數據采集設備進行底層數據采集,將所有子係統集成在統一的用戶界麵下,對各個(ge) 子係統進行統一監視、控製和協調,從(cong) 而構成統一的協同工作的整體(ti) 。係統架構設計如圖1所示。

圖1動環監控係統架構設計

3係統實現

3.1工程概況

       數據中心主機房設置在6F,按功能細分為(wei) 服務器機房一、二、三,網絡機房,配電間A、B;配電間重要斷路器或開關(guan) 、電量儀(yi) 、UPS及防雷,主機房內(nei) 新風機、精密空調及漏水檢測、機櫃PDU、溫濕度、防入侵(紅外線檢測)需納入動環監控係統。UPS蓄電池室設置在-2F,柴油發電機間設置在-1F,三電源切換室設置在1F,運維室設置在7F,消防氣瓶間設置在8F。動環監控係統的監控對象見表1。

表1監控對象

3.2硬件構成

        動環監控係統由2台服務器(雙機熱備)、2台客戶端PC機、監控大屏、核心交換機(A、B網)、視頻匯聚交換機、門禁接入交換機、采集箱及串口服務器等構成。

3.2.1數據采集層核心設備

       采集箱負責開關(guan) 量、溫濕度等原始數據的采集,是整個(ge) 監控係統的核心,采用深圳計通機架式,大小為(wei) 2U,可安裝在機櫃內(nei) ,箱內(nei) 采集模塊通過端子排與(yu) 被監控設備相連。串口服務器采用計通OAO-9000E嵌入式智能管理單元,該設備集數據采集、解析、存儲(chu) 告警於(yu) 一體(ti) ,具備正確故障定位能力,可滿足不同廠家設備數據信號的接入與(yu) “翻譯"。

3.2.2現場設備層

       現場設備層的設備分為(wei) 需接協議轉換器設備、需提供通信協議設備、模擬量直集模塊和開關(guan) 量直集模塊四類。

(1)需接協議轉換器(串口服務器)的設備包括精密空調、漏水繩、機櫃PDU、電量儀(yi) 、UPS電源、蓄電池、柴油發電機。這些設備需相應廠家提供通信接口及其開放的通信協議,以便對各設備運行參數或狀態進行監測。

(2)需提供通信協議的設備包括視頻監控和門禁子係統。這些設備需相應的廠家提供通信協議,由動環監控係統進行集成和管理,能實現在動環監控端點擊任意攝像頭調出相應攝像頭的實時監控畫麵和實現對任意門的開關(guan) 控製。

(3)模擬量直集模塊。

①溫濕度監測:通過在機房內(nei) 的重要區域、冷熱通道和機櫃內(nei) 部安裝溫濕度傳(chuan) 感器,實時采集溫濕度的變化情況和熱力分布情況。

②氫氣監測:通過在電池間安裝氫氣采集模塊,可實時檢測PPM值是否超標,及時發現氫氣泄漏的電池隱患;當氫氣PPM達到設定的閾值時,係統發出報警。

(4)開關(guan) 量直集模塊。

①重要開關(guan) 監測:通過監測配電櫃內(nei) 重要斷路器的輔助觸點狀態,判斷開關(guan) 的通斷狀態;當監測的開關(guan) 狀態與(yu) 設定默認狀態不一致時,監控主係統發出報警。

②防雷監測:通過監測防雷器的遙信觸點,實時監測防雷器狀態;當監測的防雷器狀態與(yu) 設定默認狀態不一致時,監控主係統發出報警。

③新風排煙監控:通過在新風和排煙管道中安裝壓差開關(guan) 檢測壓差信號,監測機房內(nei) 新風機和排煙機的運行狀態,可遠程控製新風機的啟停。

④防入侵監測:通過在機房內(nei) 安裝紅外探頭以監測機房內(nei) 人員移動狀態;當紅外探測器的狀態異常時,係統發出報警。

⑤消防監測:通過采集消防控製主機報警輸出點的信號,實時監測機房內(nei) 各分區的消防狀態;一旦發生報警,係統就自動切換到相應的監控界麵,火警狀態圖標變紅且閃爍顯示,同時產(chan) 生報警事件並記錄存儲(chu) 。

3.2.3供電與(yu) 組網動環監控係統硬件

       設備的供電需雙路UPS電源,以確保供電可靠性,滿足24h不間斷提供服務的要求;而且重要的硬件設備要求主從(cong) 配置,如動環服務器具備雙機熱備功能,利用“雙監控係統+雙數據庫"模式,保證係統的不間斷運行。

動環監控係統硬件設備的組網要求A、B雙網運行設備逐級匯接模式,網絡設備由POE交換機、接入交換機、匯聚交換機、核心交換機組成。POE交換機負責視頻攝像機的供電和數據傳(chuan) 輸;接入交換機使用二層有VLAN功能的交換機,負責采集單元中數據收斂;匯聚交換機使用三層交換機,用於(yu) 匯聚POE交換機數據,避免二層網絡過大導致環路,也減輕了核心交換機的數據負擔。

動環監控係統的網絡拓撲結構如圖2所示

圖2網絡拓撲結構圖

3.3軟件平台

        動力環境集中監控平台軟件采用B/S結構,通過在機房中安裝各種傳(chuan) 感器及數據采集設備進行底層數據采集,外廠家設備需提供通信接口及其開放的通信協議,進行數據“翻譯"處理,通過機房監控平台集中監控,全中文、圖形化;界麵結構層次清晰,實時反映數據狀態。集中監控平台需要能運 行於(yu) 中文Windows操作係統。動力環境集中監控平台軟件采用模塊化設計,可劃分為(wei) 采集層、處理層、管理層及展示層,如圖3所示。其中,個(ge) 人工作平台能提供動環監控主界麵、告警事件列表、待辦事項、告警等級統計、PUE實時曲線、基礎設施分類餅狀圖等可自由選擇的個(ge) 性化定製界麵。報表管理可根據機房管理原有報表格式生成詳細的數據記錄報表和數據分析報表,存儲(chu) 格式為(wei) Excel或PDF;數據存儲(chu) 時間需長於(yu) 1年,且具有防篡改功能。軟件交互界麵中,動環監控模塊可直觀看到各個(ge) 機房實時運行狀態,設置機房名稱、設備圖標等超鏈接可直達各子界麵,通過溫濕度監測、門禁、視頻監控、溫度場、漏水監測、紅外監測、消防監測等按鈕可直達各分畫麵,並提供基於(yu) 電子地圖、實時曲線、餅狀圖、折線圖、直方圖等多形式數據展現方式,便於(yu) 運維人員分析設備曆史運行趨勢,以判斷設備狀況。

圖3動力環境集中監控平台軟件架構圖

       係統告警采取短信、電話、現場語音三種報警結合的方式,報警等級分為(wei) 緊急、重要、一般三個(ge) 層次,不同級別的報警采用不同報警方式實現報警信息的發送。無論係統處於(yu) 任何畫麵,都可自動提示告警,顯示告警信息。當一個(ge) 報警狀態解除時,係統可自動發送相應的恢複短信,以便機房管理人員隨時掌握相關(guan) 動態。

4係統運行中的問題及優(you) 化措施

4.1常見問題

       動環監控係統運行以來,出現過監控平台數據不刷新,監控平台電腦“假死",采集數據不準確,係統告警漏報、誤報、頻發(告警信號抖動)及延遲報警問題。

(1)監控平台數據不刷新。這種情況在實際運維工作中*常見,整個(ge) 監控平台軟件數據不刷新或係統中某設備數據不刷新,導致運維人員無法收到告警信息。

(2)采集數據不準確。這種情況主要體(ti) 現在監控畫麵顯示的數據與(yu) 現場設備實際運行數據不符,若畫麵顯示的數據超過告警的閾值就有可能造成係統誤告警或不告警,影響設備的運行安全。如智能儀(yi) 表部分測點值與(yu) 係統顯示值不一致或單位不同,將導致該設備失去監控。在冷熱通道溫度檢測過程中,監控軟件顯示的數值超過告警上限閾值引發告警,而運維人員現場檢查後並未超限,造成人力資源的浪費。

(3)實時告警問題。動環監控係統告警漏報、誤報、頻發、延遲報警及告警信號抖動等問題是困擾數據中心運維工作人員的嚴(yan) 重問題。數據中心運維值班人員7×24h應急值班,告警信息誤報、頻發將給人員造成很嚴(yan) 重的身體(ti) 傷(shang) 害;而告警信息的漏報與(yu) 延遲將導致設備出現故障時未能及時通知從(cong) 而導致更嚴(yan) 重的機房事故。

①告警漏報:告警漏報主要原因是告警級別設置過低或設備通信中斷或設備信息采集故障等導致重要告警信息缺失,未能及時上報運維人員,從(cong) 而錯失重要告警信息,將導致嚴(yan) 重後果。

②告警誤報:告警誤報是衡量動環監控係統可用性的重要指標,采集裝置受到電磁幹擾或周圍環境改變、協議解析有誤、采集裝置故障、儀(yi) 表故障、板卡端口故障等均會(hui) 引起誤報,如精密空調四周部署的漏水繩因灰塵或沙土等導致電阻增大從(cong) 而引起誤報。

③告警頻發:告警頻發類似於(yu) “信息轟炸",可分為(wei) 兩(liang) 種情況:一是同一告警信息頻繁多次報送給運維人員,原因是當某一測點觸發告警時,采集值在告警閾值附近來回波動;二是同一事件觸發機房多個(ge) 動力設備同時告警,如機房停電或閃停後恢複,各相應重要開關(guan) 、電量儀(yi) 、UPS、機櫃PDU等多設備引起的“電話短信轟炸"。④告警延遲:告警信息是否及時上報給運維人員是考驗監控係統是否合格的重要指標之一,而上報時間應設置為(wei) 用戶可選項,如電力閃斷立即恢複的情形,可設置一定延時;而重要信息應能在15s內(nei) 完成上報。

4.2優(you) 化措施

(1)監控平台數據不刷新問題的解決(jue) 。運維人員需熟知動環監控係統架構和網絡拓撲,從(cong) 單點設備故障到網絡故障進行排除,對重要設備必要時可優(you) 化係統結構或網絡拓撲,對采集設備或裝置進行冗餘(yu) 備份,或對重要監控對象通信采用A、B雙網通信。

(2)采集數據準確性問題的解決(jue) 。檢查智能儀(yi) 表裝置或第三方設備的通信協議是否準確,與(yu) 原廠家技術支持核實設備協議文本正確性,如更換智能儀(yi) 表未核對通信協議,將導致數據不準確或無法采集。檢查通信故障,首先檢查物理連接是否存在問題,然後對通信配置進行檢查,重點檢查波特率、校驗位、串口的設置等是否存在問題。檢查采集裝置或采集箱等設備、溫濕度探測器等硬件自身是否存在故障,排除設備硬件故障導致數據采集不準確的問題。

(3)實時告警問題的優(you) 化。首先嚴(yan) 格控製智能設備串接數量,避免串接設備數量過多引起數據上傳(chuan) 緩慢,進而導致告警延遲。合理配置FSU掃描時間,通過調整動環設備掃描周期來縮短采集裝置對各個(ge) 測點的問詢時間,以提高采集速度。其次合理選擇設備測點,對重要測點進行合理選擇和優(you) 化,避免掃描過多的測點造成采集器負擔過重,進而影響采集效率。另外,運維人員應避免非重要數據的掃描占用過多資源,引起采集過慢。再者通過軟件手段控製告警頻發和非合理數據引發的告警,可增加告警回差屏蔽功能,數據采集值超出合理範圍的,通過設置有效的閾值上下限,屏蔽此部分數據,消除誤告警。電磁幹擾在傳(chuan) 輸過程中產(chan) 生的誤告警,除在軟件端進行有效門限屏蔽外,還可在傳(chuan) 輸線路上套裝抗幹擾磁環以減少幹擾。*後采用人工智能等先進手段增加告警邏輯關(guan) 係分析和對告警信息進行合理分類。如增加告警溯源功能,劃分主次告警,確定告警產(chan) 生設備的主從(cong) 關(guan) 係,進而對告警信息進行有效優(you) 化,以減少告警“信息轟炸",同時不漏掉重要告警信息。

5動環監控係統解決(jue) 方案

        通過數據中心動環監控係統,實現了對數據中心的門禁狀態、水浸狀態,煙霧狀態,視頻狀態,環境狀態,高低壓配電狀態,設備運行狀態進行實時監測,並進行實時報警,保障數據中心正常運行,避免運行環境的失控導致配電設備運行故障,保證維護人員安全,延長設備使用壽命,減少配電室粗放式管理導致成本過高。同時實現動環監控並對各用能耗能進行能效分析,幫助用戶實現用能效率的優(you) 化。

 

5.1係統功能

(1)展示當前數據中心總能耗,IT能耗,空調能耗,及其他能耗並且計算出當前數據中心實時PUE值,通過儀(yi) 表盤形式直觀展示。

(2)選擇查看數據中心的中低壓配電係統主接線圖,並在一次圖顯示配電係統當前遙測、遙信數據和狀態。實時監測各配電櫃的電壓、電流等電力參數,變電站的溫濕度、煙感、水浸、門禁等環境情況。

(3)電氣接點溫度實時監測,斷路器觸頭、觸臂、母排和線纜連接等位置安裝無線測溫傳(chuan) 感器監測接點溫度,便於(yu) 提前發現溫度異常導致的事故。

(4)監測各變壓器各項參數,包括負載率、頻率、功率因數、三相不平衡度等,並且顯示曆時曲線圖,數據實時變化。幫助用戶直

(5)電能質量在線監測,可以監測電流和電壓諧波畸變率、電壓暫升暫降暫中斷等暫態事件記錄、ITIC容忍曲線等

(6)係統采集UPS輸入、輸出端和旁路三相電壓、電流、有功功率、功率因數頻率,同時監測UPS溫度、蓄電池電壓、當前負載下的剩餘(yu) 時間等數據。

(7)展示單體(ti) 電池電壓、內(nei) 阻和溫度,預測電池帶載時剩餘(yu) 時間,每節電池數據均可以設置異常報警,及時發現蓄電池異常。

(8)展示精密配電櫃內(nei) 進線和饋線回路電氣參數,包括電流電壓功率電能以及開關(guan) 狀態,並可以對數據進行報警設置和分級,數據取自精密配電櫃測量模塊。

(9)展示智能小母線的始端箱和插接箱電氣參數,包括電流電壓、開關(guan) 狀態、插接點溫度,並對數據進行報警設置和分級。

(10)通過平麵圖顯示數據中心能源分布,設備分布情況,並顯示設備能耗數據,點擊平麵圖上設備可以進入具體(ti) 設備監控界麵。

(11)實時顯示當前數據中心PUE值以及曆史PUE曲線。並且顯示各分項用能的用能情況及用能排行。監測各變壓器運行及負載情況,給出本月變壓器輸出電能排行。

(12)顯示電能消耗日/月/年報表,並可對具體(ti) 回路選擇曲線圖、餅圖進行展示。對數據中心用電數據進行同比、環比分析比較,查看用電趨勢。

(13)監測精密空調的回風溫濕度,出回水溫度,並可以設定精密空調的溫濕度,達到更好的控製效果。

(14)監測數據中心溫濕度、開關(guan) 門、水浸、煙霧、噪聲、氣體(ti) 濃度狀態等參數。曲線圖直觀明了,同時支持曆史數據查詢

(15)通過列表顯示各類報警事件數量,通過柱狀圖顯示逐日報警數量,提供報警總數以及增長趨勢。

維管理功能,可針對數據中心各主要設備進行巡檢派工,消缺,搶修等維護工作。

5.2 動環監控係統選型方案

6結語

       動環監控係統在銀行數據中心基礎設施設備的運行維護中發揮重要作用,在一定程度上扮演了運維人員“眼耳鼻"的角色。動環監控係統的正常運行在於(yu) 7×24h不間斷服務和重要告警信息能及時通知相關(guan) 運維人員。而動環監控係統穩定可靠正確運行的關(guan) 鍵在於(yu) 係統架構、供電及組網的設計。在運維過程中,係統難免會(hui) 出現一些問題,需不斷總結經驗、梳理出問題並進行優(you) 化改進。本文基於(yu) 銀行數據中心動環監控係統建設實際出發,對該係統進行設計並實現,同時對運行出現的問題進行合理優(you) 化,結果證明該策略的可行性。

安科瑞侯文莉

2025 版權所有 © 18luck新官网登录   sitemap.xml  技術支持:

地址:上海市嘉定區育綠路253號2幢4層 傳(chuan) 真: 郵件:540643891@qq.com

電瓶車充電樁、電動汽車充電樁禁止非法改裝!

關(guan) 注我們(men)

服務熱線

021-69153530

掃一掃,關(guan) 注我們(men)