AIGC與ChatGPT簡介
隨著BOB登陆 技術的不斷發展,分析式AI技術持續迭代積累,帶來了生成式AI的突破,生成式BOB登陆 技術(AIGC)在原本數據分析的基礎上,通過學習數據的產生模式,可以創造出新的樣本數據。在此背景下,2022年11月底,OpenAI發布了集代碼創作、文本撰寫、翻譯等功能於一體的ChatGPT模型。ChatGPT是在GPT-3大模型基礎之上演化而來,但由於GPT-3存在偏見歧視及安全性風險以及生成內容不符合人類的偏好的問題,所以ChatGPT利用了RLHF方法(人類反饋強化學習)來提升效果,使得對話更符合人類偏好。因此,它被廣泛應用於各種場景,包括程序生成、數據分析、內容創作等,而且有較高的認可度和關注度。
AIGC對基礎設施的挑戰
基礎模型(基於大規模數據集和大規模算力訓練的大型預訓練模型)具備通用性和性能方麵優勢,已成為AI能力基座。以ChatGPT為例,其根基還是在通用基礎大模型底座GPT-3上。訓練超大基礎模型需要多方麵的關鍵技術作為支撐,算法、算力和數據是AI發展的三駕馬車,算法依賴大模型參數的提升以及模型本身的優化,而算力和數據則需要依賴傳統的GPU服務器、存儲以及網絡來實現相互交融並正反饋於算法本身。
首先,我們來看大模型訓練對AI算力的需求。伴隨大模型的不斷升級,模型訓練對算力需求也不斷增加,約每過3個月就會翻一倍。GPT-3模型(1750億參數、45TB訓練語料、消耗算力3640PFlops/s-Days),PaLM模型(5400億參數、2.5億個數據集、消耗算力29600 PFlops/s-Days)。ChatGPT按照1300萬/天的訪問量,估算需要3萬+ GPU。
其次,大模型訓練對數據存儲也提出了嚴苛要求。訓練過程中會麵臨顯存牆問題(模型是否能跑起來)以及計算/通信牆問題(能否在合理時間內完成訓練)。單從顯存占用角度來看,單卡80G顯存理論支持25億參數的模型訓練(不做ZeRO極端優化),但考慮實際訓練時間、數據規模和迭代輪次,需要在數據並行、模型並行和流水線並行之間進行權衡,需要投入更多的GPU卡來滿足訓練對顯存的占用。與此同時,需要對數據集進行本地緩存來加速數據訪問(尤其是圖像),對存儲的性能提出了更高的要求。
最後就是高性能網絡方麵。大模型訓練集群往往采用混合並行(模型並行+數據並行+流水並行)的方式進行訓練,GPU集群從存儲集群拉去樣本數據、GPU節點之間的參數交互,這兩個數據傳輸的流程都需要高性能、低延時的網絡作為基礎。
BOB登陆 智算中心全棧解決方案能力
BOB登陆 基於對AIGC全流程技術需求的深刻理解,推出了智算中心全棧解決方案,依靠MLOps、數據管理、版本化管理以及彈性架構等優勢,可為廣大互聯網用戶提供業界最全最細致的AI支撐能力。
一、基於綠洲數據平台可以提供數據全流水線管理能力,配合傲飛智算平台可以支持從訓練到推理的全生命周期流水線,提供精細化的自動化數據處理以及精細化的模型性能監控調優。
整個AI集群的運轉過程可以大致用上圖概括:①數據采集→②數據治理→③數據目錄→④數據標注→⑤算法開發→⑥模型訓練→⑦模型管理→⑧模型推理。其中①②③是由數據平台提供相應能力,後續的一係列流程則需要智算平台進行支撐。值得一提的是,傲飛智算平台可以通過相關性能指標(模型準確率/GPU內存占用/模型大小/吞吐量/延時)進行模型量化:解釋在模型調優過程中,數據的變化以及算法的變化,從而使得AI任務端到端可視化。
二、算力基礎設施層作為整個AI集群的執行點,需要GPU計算、網絡以及存儲等產品的全方位支撐,結合AI集群的運轉流程,其整體架構如下所示:
該架構整體上分為3個區域:數據資源區、智算訓練區以及智算推理區。從數據采集到數據標注均在數據資源完成,而模型訓練、模型管理以及模型推理則在另外兩個區域完成。數據資源區與智算訓練區需要用高性能網絡作FullMesh互聯,智算訓練區的不同GPU節點同樣需要FullMesh互聯。接下來我們依次看下BOB登陆 全麵的基礎設施能力:
智算訓練集群
組建訓練集群的服務器大多使用搭載專用GPU模組的標準機,如H3C UniServer R5500 G5。H3C UniServer R5500 G5支持Intel Whitley平台和AMD Milan雙平台,最多可以提供128個CPU核心,可最大程度滿足訓練集群的CPU算力需求。
訓練集群將預訓練數據集拉取到本地後需要先存儲到NVMe SSD裏,基於GDS(GDS, GPU Direct Storage),可以通過PCIe Switch將NVMe SSD裏的數據直接讀取到GPU顯存裏。
GPU在訓練過程中會進行頻繁通信,包括P2P通信(1對1)和Collective通信(1對多或多對多)。在節點內,GPU之間的通信互聯帶寬可達400GB/s。在節點之間,GPU通信使用RDMA網絡,通過GDR(GDR, GPU Direct RDMA)技術支持, RDMA網卡可以繞過CPU、內存,直接從遠端節點讀取數據到GPU顯存。
根據數據集、模型大小的不同,會產生多種訓練方式,比如數據並行、模型並行、流水線並行、混合並行等。根據訓練方式的不同,訓練集群的GPU節點也會進行對應的拆分、組合。為了最大程度複用訓練集群資源,在選型時需要保證拓撲均衡的服務器係統架構,一般NVMe硬盤:PCIe Switch:RDMA網卡需要滿足4:4:4或8:4:8的配比關係;此外,在集群組網時,推薦使用FullMesh的網絡架構。
H3C UniServer R5500 G5最大支持12個U.2 NVMe SSD(8個支持GDS)、10個X16網卡(8個支持GDR),可靈活支持4張NVMe SSD/網卡或8張NVMe SSD/網卡的配置,當前均有方案在客戶側落地。
一些大型互聯網公司還會使用自研GPU Box搭配計算節點的方式組建訓練集群,GPU Box裏麵會搭載專用GPU模組或其他廠商的OAM模組。OAM(OAM, OCP Accelerator Module)是開源的GPU模塊,由OCP社區服務器項目組下的OAI(OAI, Open Accelerator Infrastructure)小組開發並製定標準。
OAM包括GPU和UBB,UBB(UBB, Universal Baseboard)是承載GPU的基板,可以在服務器整機中兼容不同廠家的GPU。BOB登陆 是OAI 2.0規範製定的重要參與者,並計劃後續在R5500 G6上開發可支持不同廠家GPU的OAM模組。
在2023年初,BOB登陆 發布了新一代GPU機型R5500 G6,支持Intel Eagle Stream和AMD Genoa平台,PCIe 5.0及400GE網絡的加持,相信會給客戶帶來更高的算力提升。
智算推理集群
GPU推理集群的規模主要取決於業務預期的並發請求,一般會多機多卡多實例部署。針對大規模推理場景,H3C UniServer R5300 G5支持多種類型的GPU方案,包括4 PCIe GPU方案、8 PCIe GPU方案和16 PCIe GPU方案,以應對不同客戶不同算力的推理集群搭建需求。
方案
優勢
4 PCIe GPU方案
支持最多4個雙寬GPU
CPU to GPU帶寬大,成本更優
散熱和功耗比2U方案要低
8 PCIe GPU方案
支持最多8個雙寬GPU
P2P性能好,延時低
16 PCIe GPU方案
支持最多20個單寬GPU
適合密集型推理場景
在2022年11月份,BOB登陆 發布了基於AMD Genoa平台的GPU服務器R5350 G6,可實現90%的CPU性能提升和50%的內核數量提升;多種類型BOB登陆 加速卡的支持,可應對BOB登陆 不同場景下對異構算力的需求。此外,在2023年上半年,BOB登陆 還會發布基於Intel Eagle Stream平台的GPU服務器R5300 G6,請大家拭目以待。
高性能存儲
高性能存儲一般采用分布式並行文件存儲,如BOB登陆 CX係列存儲。BOB登陆 CX係列存儲采用全對稱分布式架構,結合IBM Spectrum Scale(原名GPFS, General Parallel File System),可提供高帶寬、低延時的存儲服務。
高性能網絡
BOB登陆 提供了多種可選的高性能網絡方案,以供各用戶不同業務場景應用。
1
2級Clos TH4+TD4組網方案,最大提供1024個200G端口接入能力
2
2級Clos TH4+TH4組網方案,最大提供4096個200G端口接入能力
以上兩種方案均采用了以太網交換機RoCE組網方案,可以配合BOB登陆 自主研發的AI-ECN調優手段進行快速和精確部署。AI-ECN調優算法模型具有效率高、計算量小的特點,同時支持控製器集中式調優和網絡設備分布式本地調優兩種模式。例如,在集中式調優模式下,不需要專用的AI芯片,使用搭載Intel XEON-SP服務器的管控析集群,就可在較大規模網絡管理下,開啟ECN水線調優;在本地模式下,搭載Intel XEON-D 和 ATOM的BOB登陆 網絡交換機,僅以較小的CPU開銷就可以完成調優。
RoCE方案是業界常用的AI高性能組網方案,除此之外,有些用戶還會考慮采用集中式框式設備實現小規模的AI組網:
這種組網的優勢在於無需部署複雜的無損以太網(PFC/ECN)功能,僅通過一台設備便可以實現1536個200G端口接入能力。BOB登陆 S125R/CR係列采用正交CLOS無中板設計,業務板與交換板之間采用信元轉發,完美得解決了擁塞問題。實際應用場景中,在吞吐和時延等方麵表現良好。但是這種組網由於單機框槽位問題,組網規模受限。
為了優化這個問題,BOB登陆 繼而推出了DDC(Distributed Disaggregated Chassis,分布式分解結構)解決方案。
簡單介紹DDC其實就是將框式交換機拆分形成盒式組網,但是盒式交換機之間依舊采用信元交換,采用JR2C+雙芯片方案最大可支持3456個200G端口接入能力。DDC對比RoCE在網絡性能和網絡收斂方麵提升明顯:ALL2ALL測試場景中,DDC完成時間可提高20-30%;無論UP/DOWN還是手工插拔測試方式,DDC的收斂時間縮短了幾百到上千倍。
隨著大模型訓練所需網絡帶寬的不斷提升,網絡主芯片性能也會迅速增加,當800G/1.6T時代來臨時,CPO/NPO交換機將會登上互聯網舞台,而BOB登陆 也早已有所布局:
S9825-32D32DO交換機,4U高度內可同時支持32個400G光模塊接口和32個400G光引擎接口,後續可以平滑升級至51.2T平台。
結語
以ChatGPT為代表的AIGC已經成為當下互聯網行業的風口,曆史經驗表明,善於抓住風口的企業最終都會站上時代之巔。在AIGC領域BOB登陆 已經與諸多頭部互聯網客戶達成深度合作,BOB登陆 希望成為互聯網客戶緊密的合作夥伴,通過全棧的智算中心解決方案能力助力廣大用戶的AIGC相關研發和推進!