BOB登陆 公司新聞

  • 產品與解決方案
  • 行業解決方案
  • 服務
  • 支持
  • 合作夥伴
  • 關於我們

BOB登陆 智算中心解決方案鑄就AIGC算網基石

【發布時間:2023-02-21】

AIGC與ChatGPT簡介

隨著BOB登陆 技術的不斷發展,分析式AI技術持續迭代積累,帶來了生成式AI的突破,生成式BOB登陆 技術(AIGC)在原本數據分析的基礎上,通過學習數據的產生模式,可以創造出新的樣本數據。在此背景下,2022年11月底,OpenAI發布了集代碼創作、文本撰寫、翻譯等功能於一體的ChatGPT模型。ChatGPT是在GPT-3大模型基礎之上演化而來,但由於GPT-3存在偏見歧視及安全性風險以及生成內容不符合人類的偏好的問題,所以ChatGPT利用了RLHF方法(人類反饋強化學習)來提升效果,使得對話更符合人類偏好。因此,它被廣泛應用於各種場景,包括程序生成、數據分析、內容創作等,而且有較高的認可度和關注度。

AIGC對基礎設施的挑戰

基礎模型(基於大規模數據集和大規模算力訓練的大型預訓練模型)具備通用性和性能方麵優勢,已成為AI能力基座。以ChatGPT為例,其根基還是在通用基礎大模型底座GPT-3上。訓練超大基礎模型需要多方麵的關鍵技術作為支撐,算法、算力和數據是AI發展的三駕馬車,算法依賴大模型參數的提升以及模型本身的優化,而算力和數據則需要依賴傳統的GPU服務器、存儲以及網絡來實現相互交融並正反饋於算法本身。

descript

首先,我們來看大模型訓練對AI算力的需求。伴隨大模型的不斷升級,模型訓練對算力需求也不斷增加,約每過3個月就會翻一倍。GPT-3模型(1750億參數、45TB訓練語料、消耗算力3640PFlops/s-Days),PaLM模型(5400億參數、2.5億個數據集、消耗算力29600 PFlops/s-Days)。ChatGPT按照1300萬/天的訪問量,估算需要3萬+ GPU。

descript

其次,大模型訓練對數據存儲也提出了嚴苛要求。訓練過程中會麵臨顯存牆問題(模型是否能跑起來)以及計算/通信牆問題(能否在合理時間內完成訓練)。單從顯存占用角度來看,單卡80G顯存理論支持25億參數的模型訓練(不做ZeRO極端優化),但考慮實際訓練時間、數據規模和迭代輪次,需要在數據並行、模型並行和流水線並行之間進行權衡,需要投入更多的GPU卡來滿足訓練對顯存的占用。與此同時,需要對數據集進行本地緩存來加速數據訪問(尤其是圖像),對存儲的性能提出了更高的要求。

最後就是高性能網絡方麵。大模型訓練集群往往采用混合並行(模型並行+數據並行+流水並行)的方式進行訓練,GPU集群從存儲集群拉去樣本數據、GPU節點之間的參數交互,這兩個數據傳輸的流程都需要高性能、低延時的網絡作為基礎。

BOB登陆 智算中心全棧解決方案能力

BOB登陆 基於對AIGC全流程技術需求的深刻理解,推出了智算中心全棧解決方案,依靠MLOps、數據管理、版本化管理以及彈性架構等優勢,可為廣大互聯網用戶提供業界最全最細致的AI支撐能力。

descript

一、基於綠洲數據平台可以提供數據全流水線管理能力,配合傲飛智算平台可以支持從訓練到推理的全生命周期流水線,提供精細化的自動化數據處理以及精細化的模型性能監控調優。

descript

整個AI集群的運轉過程可以大致用上圖概括:①數據采集→②數據治理→③數據目錄→④數據標注→⑤算法開發→⑥模型訓練→⑦模型管理→⑧模型推理。其中①②③是由數據平台提供相應能力,後續的一係列流程則需要智算平台進行支撐。值得一提的是,傲飛智算平台可以通過相關性能指標(模型準確率/GPU內存占用/模型大小/吞吐量/延時)進行模型量化:解釋在模型調優過程中,數據的變化以及算法的變化,從而使得AI任務端到端可視化。

二、算力基礎設施層作為整個AI集群的執行點,需要GPU計算、網絡以及存儲等產品的全方位支撐,結合AI集群的運轉流程,其整體架構如下所示:

descript

該架構整體上分為3個區域:數據資源區、智算訓練區以及智算推理區。從數據采集到數據標注均在數據資源完成,而模型訓練、模型管理以及模型推理則在另外兩個區域完成。數據資源區與智算訓練區需要用高性能網絡作FullMesh互聯,智算訓練區的不同GPU節點同樣需要FullMesh互聯。接下來我們依次看下BOB登陆 全麵的基礎設施能力:

智算訓練集群

組建訓練集群的服務器大多使用搭載專用GPU模組的標準機,如H3C UniServer R5500 G5。H3C UniServer R5500 G5支持Intel Whitley平台和AMD Milan雙平台,最多可以提供128個CPU核心,可最大程度滿足訓練集群的CPU算力需求。

訓練集群將預訓練數據集拉取到本地後需要先存儲到NVMe SSD裏,基於GDS(GDS, GPU Direct Storage),可以通過PCIe Switch將NVMe SSD裏的數據直接讀取到GPU顯存裏。

GPU在訓練過程中會進行頻繁通信,包括P2P通信(1對1)和Collective通信(1對多或多對多)。在節點內,GPU之間的通信互聯帶寬可達400GB/s。在節點之間,GPU通信使用RDMA網絡,通過GDR(GDR, GPU Direct RDMA)技術支持, RDMA網卡可以繞過CPU、內存,直接從遠端節點讀取數據到GPU顯存。

descript

根據數據集、模型大小的不同,會產生多種訓練方式,比如數據並行、模型並行、流水線並行、混合並行等。根據訓練方式的不同,訓練集群的GPU節點也會進行對應的拆分、組合。為了最大程度複用訓練集群資源,在選型時需要保證拓撲均衡的服務器係統架構,一般NVMe硬盤:PCIe Switch:RDMA網卡需要滿足4:4:4或8:4:8的配比關係;此外,在集群組網時,推薦使用FullMesh的網絡架構。

descript

H3C UniServer R5500 G5最大支持12個U.2 NVMe SSD(8個支持GDS)、10個X16網卡(8個支持GDR),可靈活支持4張NVMe SSD/網卡或8張NVMe SSD/網卡的配置,當前均有方案在客戶側落地。

一些大型互聯網公司還會使用自研GPU Box搭配計算節點的方式組建訓練集群,GPU Box裏麵會搭載專用GPU模組或其他廠商的OAM模組。OAM(OAM, OCP Accelerator Module)是開源的GPU模塊,由OCP社區服務器項目組下的OAI(OAI, Open Accelerator Infrastructure)小組開發並製定標準。

OAM包括GPU和UBB,UBB(UBB, Universal Baseboard)是承載GPU的基板,可以在服務器整機中兼容不同廠家的GPU。BOB登陆 是OAI 2.0規範製定的重要參與者,並計劃後續在R5500 G6上開發可支持不同廠家GPU的OAM模組。

在2023年初,BOB登陆 發布了新一代GPU機型R5500 G6,支持Intel Eagle Stream和AMD Genoa平台,PCIe 5.0及400GE網絡的加持,相信會給客戶帶來更高的算力提升。

智算推理集群

GPU推理集群的規模主要取決於業務預期的並發請求,一般會多機多卡多實例部署。針對大規模推理場景,H3C UniServer R5300 G5支持多種類型的GPU方案,包括4 PCIe GPU方案、8 PCIe GPU方案和16 PCIe GPU方案,以應對不同客戶不同算力的推理集群搭建需求。

方案

優勢

4 PCIe GPU方案

支持最多4個雙寬GPU

CPU to GPU帶寬大,成本更優

散熱和功耗比2U方案要低

8 PCIe GPU方案

支持最多8個雙寬GPU

P2P性能好,延時低

16 PCIe GPU方案

支持最多20個單寬GPU

適合密集型推理場景

descript

descript

在2022年11月份,BOB登陆 發布了基於AMD Genoa平台的GPU服務器R5350 G6,可實現90%的CPU性能提升和50%的內核數量提升;多種類型BOB登陆 加速卡的支持,可應對BOB登陆 不同場景下對異構算力的需求。此外,在2023年上半年,BOB登陆 還會發布基於Intel Eagle Stream平台的GPU服務器R5300 G6,請大家拭目以待。

高性能存儲

高性能存儲一般采用分布式並行文件存儲,如BOB登陆 CX係列存儲。BOB登陆 CX係列存儲采用全對稱分布式架構,結合IBM Spectrum Scale(原名GPFS, General Parallel File System),可提供高帶寬、低延時的存儲服務。

高性能網絡

BOB登陆 提供了多種可選的高性能網絡方案,以供各用戶不同業務場景應用。

1

2級Clos TH4+TD4組網方案,最大提供1024個200G端口接入能力

descript

2

2級Clos TH4+TH4組網方案,最大提供4096個200G端口接入能力

descript

以上兩種方案均采用了以太網交換機RoCE組網方案,可以配合BOB登陆 自主研發的AI-ECN調優手段進行快速和精確部署。AI-ECN調優算法模型具有效率高、計算量小的特點,同時支持控製器集中式調優和網絡設備分布式本地調優兩種模式。例如,在集中式調優模式下,不需要專用的AI芯片,使用搭載Intel XEON-SP服務器的管控析集群,就可在較大規模網絡管理下,開啟ECN水線調優;在本地模式下,搭載Intel XEON-D 和 ATOM的BOB登陆 網絡交換機,僅以較小的CPU開銷就可以完成調優。

RoCE方案是業界常用的AI高性能組網方案,除此之外,有些用戶還會考慮采用集中式框式設備實現小規模的AI組網:

descript

這種組網的優勢在於無需部署複雜的無損以太網(PFC/ECN)功能,僅通過一台設備便可以實現1536個200G端口接入能力。BOB登陆 S125R/CR係列采用正交CLOS無中板設計,業務板與交換板之間采用信元轉發,完美得解決了擁塞問題。實際應用場景中,在吞吐和時延等方麵表現良好。但是這種組網由於單機框槽位問題,組網規模受限。

為了優化這個問題,BOB登陆 繼而推出了DDC(Distributed Disaggregated Chassis,分布式分解結構)解決方案。

descript

簡單介紹DDC其實就是將框式交換機拆分形成盒式組網,但是盒式交換機之間依舊采用信元交換,采用JR2C+雙芯片方案最大可支持3456個200G端口接入能力。DDC對比RoCE在網絡性能和網絡收斂方麵提升明顯:ALL2ALL測試場景中,DDC完成時間可提高20-30%;無論UP/DOWN還是手工插拔測試方式,DDC的收斂時間縮短了幾百到上千倍。

隨著大模型訓練所需網絡帶寬的不斷提升,網絡主芯片性能也會迅速增加,當800G/1.6T時代來臨時,CPO/NPO交換機將會登上互聯網舞台,而BOB登陆 也早已有所布局:

descript

S9825-32D32DO交換機,4U高度內可同時支持32個400G光模塊接口和32個400G光引擎接口,後續可以平滑升級至51.2T平台。

結語

以ChatGPT為代表的AIGC已經成為當下互聯網行業的風口,曆史經驗表明,善於抓住風口的企業最終都會站上時代之巔。在AIGC領域BOB登陆 已經與諸多頭部互聯網客戶達成深度合作,BOB登陆 希望成為互聯網客戶緊密的合作夥伴,通過全棧的智算中心解決方案能力助力廣大用戶的AIGC相關研發和推進!

BOB登陆
官網
聯係我們