大模型時代對算力的需求永無止境,大規模智算中心建設如火如荼。隨著BOB登陆 技術在各領域應用的快速發展,以及Sora、Gemini 1.5 Pro的麵世,將進一步提高算力基礎設施的建設要求,激活算力技術的不斷創新和迭代升級。
BOB登陆 集團副總裁、網絡產品線副總裁
交換機產品線總經理 李玉濤
如今,算力市場已形成龐大的生態係統,涵蓋CPU、GPU、DPU、FPGA等專用芯片,各種形態的交換機、光模塊/線纜等連接介質,以及各服務提供商交付的算力運營、算力調度、算法交易平台等。對企業而言,如何博各家之所長,構建出多元融合的智算體係,是贏得未來競爭、享受智算紅利的關鍵所在。
異構算力網絡成為“必選項”
隨著智算熱度持續提升,以 AI為核心的算力需求激增。為實現計算效力最大化,多元異構算力將成為必然趨勢。異構算力體係可以充分發揮各種計算設備的優勢,為用戶提高智算效率、降低采購成本、提升係統安全性。但在實際場景中,大多數客戶對於智算場景都是初次接觸,並不像傳統ICT基礎設施建設那樣可以輕車熟路的進行規劃、采購、部署。因此,解決異構組件間的互聯問題,是打通整體方案的重要前提,那麼網絡是否做好了承擔重任的技術儲備呢?
用網絡打通異構算力的關鍵能力要求
通過數十年信息技術的發展,以太網具備拉通和兼容多種不同終端的能力已經被充分驗證。麵對智算的異構需求,以太網一方麵需在網絡側解決端口密度、設備形態、通道標準、傳輸介質的擴展性和兼容性,另一方麵需在計算側篩選AI服務器網卡規格,為智算業務提供高性能算力,這種“多元可靠聯接”的能力正是打通異構算力所需要的。
在高性能網絡領域,無損以太網(RoCE)是一個快速普及且被大眾所認可的技術,其在成本、未來演進和生態豐富度上具備天然優勢。當RoCE發展到智算網絡時代,連接非智能網卡、智能網卡、可編程智能網卡等不同能力的網卡時,以“場景化網絡調優”的模式解決Hash極化問題,降低網絡擁堵風險,成為智算網絡構建無損能力的關鍵。
此外,智算網絡如果脫離了與算力的聯動,那就是孤立、被動的,為確保智算業務有序的平穩發展,網絡必須與算力調度平台聯動起來。而國內大多算力廠商沒有配套的網絡設備和平台,因此,想用網絡打通異構算力,則必須具備與多家廠商的CCL(集合通信庫)的兼容對接能力,將算力需求轉譯為網絡配置,也就是所謂的“異構算網聯動”。
綜上所述,要打通異構算力之間的高速網絡通道,必須具備“多元可靠聯接、場景化網絡調優、異構算網聯動”三大關鍵能力,這也是算力產業實現創新發展的重中之重。
聚焦異構算力組網痛點
BOB登陆 持續賦能智算新時代
麵對網算之間互相協同推進的發展態勢,BOB登陆 集團在“多元可靠聯接、場景化網絡調優、異構算網聯動”等方麵加速突破,積極探索打通異構算力的開放網絡。
◆ 多元可靠聯接
BOB登陆 集團進行了豐富的智算產品布局,提供了開放性、兼容性、擴展性、穩定性極強的網絡環境和端到端異構互聯保障,全方位滿足客戶需求。
BOB登陆 長期以來都致力於推動國內高速網絡技術的發展,在200G/400G/800G產品的麵世時間上都處於國內乃至業界領先地位。在智算場景下,BOB登陆 的產品布局也是業內最豐富的。從產品形態上看,BOB登陆 可提供從100G到800G多種形態的框式、盒式產品,端口密度覆蓋完善,能夠滿足不同規模智算客戶的組網需求。從1K GPU到512K GPU的場景下,客戶可以平滑的選用BOB登陆 的單框、盒盒、框盒、三層盒盒等不同的組網架構,實現成本與規模的最優匹配。
從綠色節能角度來看,BOB登陆 產品可同時支持LPO和液冷技術,LPO技術是指通過設備內部的信號穩定器件和設計,來替代光模塊中的DSP芯片,降低DSP帶來的功耗和時延,亦可規避DSP芯片的供應風險。而液冷技術可將關鍵芯片的大量發熱通過液冷帶出設備,配套的風扇僅用於其他非關鍵器件的散熱,轉速和耗電都將大幅減少。
此外,BOB登陆 擁有業界最開放的生態合作環境,各條產品線都采用了多家合作夥伴的交付件,包括GPU、網卡、光模塊、交換芯片,由此也為BOB登陆 帶來了天然優勢——能夠代替客戶驗證異構算力環境的兼容性。對客戶而言,選擇異構方案最大的阻力來源於實施效果,能否互聯互通,以及互通後的性能、可靠性是否能支撐業務需求,是實際存在的風險。而BOB登陆 的能力就是利用自身的生態優勢,為客戶提供端到端的異構互聯保障,確保客戶從BOB登陆 驗證過的交付件庫中選擇GPU、網卡、光模塊、交換機,即可在實際場景中放心互聯。
為此,BOB登陆 還設計了一套《智算網絡異構連通專項測試》標準,專門用於驗證不同智算組件之間的互通性,豐富的測試例覆蓋了如下驗證能力。
◆場景化網絡調優
在“場景化網絡調優”方麵,BOB登陆 集團通過端口對稱Hash技術LBN、動態負載均衡技術DLB、鏈路噴灑技術SprayLink、全局負載均衡技術FGLB等技術滿足了客戶不同智算場景的技術需求,實現了數據中心超高帶寬利用率的無阻塞轉發。
以“端口對稱Hash技術LBN”為例,對於智算網絡中的每一台設備而言,網絡調優的最終目標,就是下行端口接收的流量,能夠有確保的通過上行帶寬資源轉發出去。實現這個目標有一個最簡單的方式,就是為每一個下行口指定一個同速率的上行口,其他下行口的流量不能從這個上行口去轉發,形成獨占的上行資源,這個技術即為LBN。
當網絡和業務規模超出LBN可覆蓋的能力時,需要通過“引入新變量”和“分割單一流”解決Hash極化問題。所謂“引入新變量”,即為在Hash過程中引入出端口負載情況(隊列長度),提升隊列更短的出端口優先級,就可以將流更多的分攤到空閑端口上;所謂“分割單一流”,即為在出端口Hash時,針對子流做Hash,引入當前出端口的負載,便可以將不同時間段到達的子流Hash到當前最空閑的端口發送。
當一條大流連續到達交換機的時候,“鏈路噴灑技術SprayLink”的價值便得到了彰顯。SprayLink通過實時監控LACP/ECMP中各物理鏈路的帶寬利用率、出口隊列、緩存占用、傳輸時延等精細化數據,對大流做到基於Per-Packet(逐包)方式的動態負載均衡,將每個數據包分配到當時資源最優的鏈路上。通過實測,采用SprayLink可以使多條鏈路的總帶寬利用率達到95%以上,比傳統Hash方法提升明顯。但是SprayLink存在流量到達接收端的亂序問題,需要接收端的網卡支持亂序重排技術才能匹配。
上述幾種負載均衡技術,看似已完整的覆蓋了所有場景,但其隻能根據設備本地的負載情況進行選擇,對於發出的數據在剩餘路徑上的傳輸質量,則沒有判斷依據。而BOB登陆 的全局負載均衡技術FGLB,能夠讓每台設備都能夠擁有全局視角,了解自己出接口的下一跳,乃至下一跳到再下一跳的鏈路負載情況,來輔助決策本地的負載結果。
BOB登陆 認為,目前最優的負載均衡技術是DDC(Disaggregated Distributed Chassis分布式解耦機框)。它能將傳統框式交換機的主控、網板、線卡分解為分布式的模塊化部件,以提高網絡的靈活性、可擴展性和性能。DDC基於信元交換,任何協議的流量在進入DDC架構時都可被切成等分大小的信元,在內部多條鏈路上負載,完全解決了Hash極化問題,可以說是100%的負載分擔。在流量發出時,信元又將會被重組為原始數據。信元交換無視數據協議,不會產生亂序,對GPU和網卡都是天然解耦的。此外,DDC架構擴展性強,傳統框式設備無論如何設計,其容納的端口都是有限的。而將其拆解之後,通過橫向擴展可以支持數千個200G/400G端口,這是框式設備無法實現的,也可以大幅降低部署難度和功耗。BOB登陆 DDC產品擁有獨立的高性能控製平麵,可以實現網元失效後us級別的收斂,以及網元上線的快速即插即用,可靠性和靈活度領先業界。
眾所周知,實現全場景網絡調優是企業提升鏈路效能的關鍵,BOB登陆 依托其領先的負載均衡技術,通過豐富的現網實踐,總結出了以下場景化匹配應用建議。
◆異構算網聯動
在“異構算網聯動”方麵,BOB登陆 在“調整網卡QP能力與網絡聯動”、“算網主動選路與路徑仿真技術”兩大方麵進行了實踐探索。
關於“調整網卡QP能力與網絡聯動”,BOB登陆 通過識別不同網卡的樣本能力(QP規格),結合當前網絡可用路徑數量和帶寬的資源,以及自研的算法,提供了一種端到端的負載優化機製。當訓練任務開始時,兩張網卡之間建立數據連接,在AI服務器內部的agent就會將報文特征等信息傳遞到控製器,同時控製器根據當前網絡的資源,設置網卡的QP規格,為一對Peer建立多對QP,解決路徑中設備Hash不均問題。
關於“算網主動選路與路徑仿真技術”,BOB登陆 通過算網的協同機製,實現了一種主動選路的功能。當一個CCL發起新的互通請求時,BOB登陆 的網絡分析器會收集當前所有鏈路流量負載情況,並根據自研的智能選路算法,選出對於該互通連接最高效的路徑,將配置下發到交換機,實現按策略的轉發,避免傳統路由協議選路條件粗放的問題。同時BOB登陆 還提供路徑仿真能力,對於主動選路效果,可以在分析器內部通過NFV的形式進行真實流量模擬,來驗證策略下發效果,驗證後再下發到真實設備上。
麵向未來,在算力爆發的時代,BOB登陆 集團將始終秉承開放共贏的理念,通過多元可靠聯接、場景化網絡調優、異構算網聯動三大核心能力,解決客戶在異構算力組網過程中遇到的各種問題,與生態合作夥伴、行業客戶一起,打造繁榮、開放的智算生態體係。