新聞中心首頁
新華社呼和浩特4月11日電 題:算力“管家”:那些守護AI“中樞”的人
新華社記者安路蒙
手機人工智能(AI)助手瞬間給出答復,高清游戲畫面絲滑流轉,行車導航路線精準鎖定……在這些智能體驗日益融入我們日常的背后,是誰保障其所需的算力在毫秒間完成?
在內蒙古呼和浩特南郊的和林格爾數據中心集群,我們找到了答案。這里是全國十大數據中心集群之一,匯聚了華為、中國移動、國有銀行總行等約50家大型數據中心,算力總規模突破12.5萬P,其中智能算力占比96%,綠色算力指數全國靠前。
“風吹草低見牛羊”變成“風起電生算力涌”,離不開一群默默奉獻的算力“管家”。他們日夜值守,讓算力像水電一樣穩定、好用。
深夜11點,中國移動呼和浩特數據中心機房內的機柜嗡嗡作響。中心基礎設施網絡運維工程師侯曉雯從一排排機柜前走過,目光掃過供配電柜的指示燈,又側耳聽了聽液冷系統的循環聲。作為基礎設施網絡運維工程師,她的職責是“守著數據中心的水電命脈”,統籌供配電、制冷、液冷設施的運維,確保IT業務安全運行。
該數據中心整體規劃34棟機房樓,目前已建成10棟、可提供機架2.9萬架。這里還坐落著一個大型液冷智算中心,國內多種前沿大模型訓練、推理均在此進行。
記者走進液冷智算中心看到,偌大的機房內擺滿一排排機柜,里面裝載的服務器內部采用冷板式液冷技術,流動著特殊冷卻液的冷板緊貼芯片,像“貼身空調”一樣直接帶走熱量,較傳統風冷能耗更低。“服務器高速運轉會產生大量熱量,制冷是保障穩定運行的底線。”侯曉雯邊巡檢邊說。
一次巡檢,侯曉雯的步數輕松過萬。但在她看來,最累的不是走路,而是突發故障處置。有次節假日,數據中心遭遇市電故障,侯曉雯和團隊立即啟動應急預案,保障油機和UPS供電穩定輸出,同時全力確保制冷系統持續供冷,最終機房業務安然無恙。
“我們保障數據中心基礎設施和數據底座的安全,一旦電力、制冷出問題,會波及整個IT業務。”侯曉雯說,因此7×24小時監控值機是常態,手機常年不關機。
如果說侯曉雯守護的是數據中心的“心肺”,那么算力網絡運維工程師趙一帆管的就是“大腦”——那些承載大模型訓練、AI推理的算力服務器。“大模型訓練全靠這些服務器發力,我的任務就是不讓它們出岔子。”
智算集群規模龐大、鏈路復雜、故障點多,問題根源排查難度指數級上升。而大模型訓練對連續性要求極高,停機一次可能造成巨大損失。趙一帆說:“我們盡量靠預防性維護,提前排查隱患,利用業務間隙維修,最大程度降低損失。”
入職14年,趙一帆親歷了算力產業的跨越式發展:從單一機房到規模化集群,從傳統風冷到液冷、算電協同、綠電儲能,數據中心已成為數字經濟的核心底座。“我們的工作也不斷面臨新挑戰,但我并不抵觸,邊干邊學,碰到一次復雜故障,只要解決了也就學會了,很有成就感。”
中國移動呼和浩特數據中心副總經理李程貴表示,憑借專業運維團隊和先進技術,該數據中心能完成萬億級參數大模型的穩定訓練,創下連續22天無中斷訓練紀錄。
運維工程師守護算力“心臟”,算力調度員則操盤“算力網絡”。
和林格爾新區多云算力資源監測與調度平臺大廳內,電子屏上的算力負荷、資源分配、跨區域調度數據實時跳動,勾勒出一幅“全國算力一張網”的動態圖景。“我們已實現與北京、蕪湖、貴州、重慶等地算力調度平臺互聯互通。”平臺負責人蘭小汀說。
該平臺融合通算、超算、智算等統一管理,通過AI調度算法支持多數據中心、多集群算力的統一調度。2023年,“和林格爾綠色算力超市”在這里上線,賣家可以將剩余算力注冊售賣,買家可以像逛淘寶一樣選擇算力商品加入購物車,結算后智能調度系統自動匹配最適合的算力供應商進行交付。
不過,調度精度遠超想象。從和林格爾至京津冀樞紐核心區域,時延必須穩定在5毫秒以內。這是什么概念?要知道人類眨一次眼睛大約需要100到400毫秒。
為此,當地已建成至合肥、北京等地的400G全光網絡,打造了“2.5.20”時延圈——2毫秒抵達烏蘭察布,5毫秒抵達北京,20毫秒覆蓋全國主要城市。“算力統一供給、統一售賣,讓算力像用水、用電一樣便捷,觸手可及。”蘭小汀說。
“你不知道我們的存在,說明一切正常。”采訪中,幾位采訪對象不約而同向記者提及這句話。正如趙一帆所說,只要沒人想起他們,就證明系統穩定、算力順暢。這份幕后托底的踏實感,正是他們最大的價值與成就感。
![]() |
![]() |
![]() |
|
||||
| 焦作網免責聲明: | ||||||||
|
||||||||
新華社呼和浩特4月11日電 題:算力“管家”:那些守護AI“中樞”的人
新華社記者安路蒙
手機人工智能(AI)助手瞬間給出答復,高清游戲畫面絲滑流轉,行車導航路線精準鎖定……在這些智能體驗日益融入我們日常的背后,是誰保障其所需的算力在毫秒間完成?
在內蒙古呼和浩特南郊的和林格爾數據中心集群,我們找到了答案。這里是全國十大數據中心集群之一,匯聚了華為、中國移動、國有銀行總行等約50家大型數據中心,算力總規模突破12.5萬P,其中智能算力占比96%,綠色算力指數全國靠前。
“風吹草低見牛羊”變成“風起電生算力涌”,離不開一群默默奉獻的算力“管家”。他們日夜值守,讓算力像水電一樣穩定、好用。
深夜11點,中國移動呼和浩特數據中心機房內的機柜嗡嗡作響。中心基礎設施網絡運維工程師侯曉雯從一排排機柜前走過,目光掃過供配電柜的指示燈,又側耳聽了聽液冷系統的循環聲。作為基礎設施網絡運維工程師,她的職責是“守著數據中心的水電命脈”,統籌供配電、制冷、液冷設施的運維,確保IT業務安全運行。
該數據中心整體規劃34棟機房樓,目前已建成10棟、可提供機架2.9萬架。這里還坐落著一個大型液冷智算中心,國內多種前沿大模型訓練、推理均在此進行。
記者走進液冷智算中心看到,偌大的機房內擺滿一排排機柜,里面裝載的服務器內部采用冷板式液冷技術,流動著特殊冷卻液的冷板緊貼芯片,像“貼身空調”一樣直接帶走熱量,較傳統風冷能耗更低。“服務器高速運轉會產生大量熱量,制冷是保障穩定運行的底線。”侯曉雯邊巡檢邊說。
一次巡檢,侯曉雯的步數輕松過萬。但在她看來,最累的不是走路,而是突發故障處置。有次節假日,數據中心遭遇市電故障,侯曉雯和團隊立即啟動應急預案,保障油機和UPS供電穩定輸出,同時全力確保制冷系統持續供冷,最終機房業務安然無恙。
“我們保障數據中心基礎設施和數據底座的安全,一旦電力、制冷出問題,會波及整個IT業務。”侯曉雯說,因此7×24小時監控值機是常態,手機常年不關機。
如果說侯曉雯守護的是數據中心的“心肺”,那么算力網絡運維工程師趙一帆管的就是“大腦”——那些承載大模型訓練、AI推理的算力服務器。“大模型訓練全靠這些服務器發力,我的任務就是不讓它們出岔子。”
智算集群規模龐大、鏈路復雜、故障點多,問題根源排查難度指數級上升。而大模型訓練對連續性要求極高,停機一次可能造成巨大損失。趙一帆說:“我們盡量靠預防性維護,提前排查隱患,利用業務間隙維修,最大程度降低損失。”
入職14年,趙一帆親歷了算力產業的跨越式發展:從單一機房到規模化集群,從傳統風冷到液冷、算電協同、綠電儲能,數據中心已成為數字經濟的核心底座。“我們的工作也不斷面臨新挑戰,但我并不抵觸,邊干邊學,碰到一次復雜故障,只要解決了也就學會了,很有成就感。”
中國移動呼和浩特數據中心副總經理李程貴表示,憑借專業運維團隊和先進技術,該數據中心能完成萬億級參數大模型的穩定訓練,創下連續22天無中斷訓練紀錄。
運維工程師守護算力“心臟”,算力調度員則操盤“算力網絡”。
和林格爾新區多云算力資源監測與調度平臺大廳內,電子屏上的算力負荷、資源分配、跨區域調度數據實時跳動,勾勒出一幅“全國算力一張網”的動態圖景。“我們已實現與北京、蕪湖、貴州、重慶等地算力調度平臺互聯互通。”平臺負責人蘭小汀說。
該平臺融合通算、超算、智算等統一管理,通過AI調度算法支持多數據中心、多集群算力的統一調度。2023年,“和林格爾綠色算力超市”在這里上線,賣家可以將剩余算力注冊售賣,買家可以像逛淘寶一樣選擇算力商品加入購物車,結算后智能調度系統自動匹配最適合的算力供應商進行交付。
不過,調度精度遠超想象。從和林格爾至京津冀樞紐核心區域,時延必須穩定在5毫秒以內。這是什么概念?要知道人類眨一次眼睛大約需要100到400毫秒。
為此,當地已建成至合肥、北京等地的400G全光網絡,打造了“2.5.20”時延圈——2毫秒抵達烏蘭察布,5毫秒抵達北京,20毫秒覆蓋全國主要城市。“算力統一供給、統一售賣,讓算力像用水、用電一樣便捷,觸手可及。”蘭小汀說。
“你不知道我們的存在,說明一切正常。”采訪中,幾位采訪對象不約而同向記者提及這句話。正如趙一帆所說,只要沒人想起他們,就證明系統穩定、算力順暢。這份幕后托底的踏實感,正是他們最大的價值與成就感。
|
||||
| 焦作網免責聲明: | ||||||||
|
||||||||
|
|