BOB登陆 公司新聞

  • 產品與解決方案
  • 行業解決方案
  • 服務
  • 支持
  • 合作夥伴
  • 關於我們

最高提速30%!高性能數據存儲加速大模型訓練

【發布時間:2024-12-25】

麵對智算應用的大規模部署,用戶的IT開支正在向GPU傾斜。在大模型訓練的成本構成中,硬件投資包括算力、運力、存力,其中算力相關硬件投資占比80%。一個千億級參數的大模型,往往需要上萬顆GPU的算力,可在實際訓練過程中,GPU的平均利用率卻不足50%。製約因素包括大模型參數需要頻繁調優、訓練中斷後恢複周期長、數據加載速度慢等等。如何確保智算係統高效運行?加速算力的同時,提升數據供給能力,或許是當下應對智算挑戰的最優解。

大模型需要什麼樣的存儲性能?

一次完整的AI大模型訓練流程,通常分為數據集準備、模型開發、模型訓練、模型推理幾個階段。其中每個階段對數據存儲的性能需求並不十分一致,屬於混合複雜異構的工作負載,要求數據存儲係統提供強大的綜合性能表現。

舉例來說,數據集準備階段,涉及到不同終端、不同來源的大量數據,來源豐富且規模巨大,這些數據都需要存儲到係統中,需要數據存儲提供較大的帶寬性能和高吞吐能力;此外,在長時間訓練模型時,需要定期將階段性的訓練成果寫入硬盤,這個過程即Checkpoint,這個過程對存儲係統的小文件讀寫性能和帶寬性能都要求非常高,如果存儲係統性能不足,就會出現加載效率低,GPU空等的情況,從而拉低整個訓練效率。

強悍存力,提升智算係統算力利用率

基於新一代傲擎平台的BOB登陆 AI數據存儲平台H3C UniStor Polaris X20000係列,通過對存儲軟件棧進行重構和優化,大幅精簡係統無效IO,優化數據讀寫路徑,單節點性能就可實現80GB帶寬和200萬IOPS,大幅提升不同階段的數據加載效率,可以減少30%的訓練等待時間,保障智算係統的有效算力供給。

descript

Polaris X20000係列通過多項技術革新提升在智算場景下的性能體驗,包括:

元數據性能優化

對高性能智算存儲來說,元數據管理是至關重要的部分,將直接影響到文件係統的性能、可擴展性和可靠性。Polaris X20000係列創新性地針對分布式kv數據庫進行了優化,來支撐整個元數據讀寫需求;同時設計了多級的元數據緩存,對元數據緩存結構做了針對性精簡,減少內存占用,對元數據訪問具有極大的加速效果。此外,采取多MDS、元數據打散、元數據協程化免鎖等多種元數據性能優化手段,提升Polaris X20000係列的性能表現。

CPU智能分組

Polaris X20000係列針對AI/HPC 場景做了深度分析和軟件優化設計,對CPU實現智能分組、綁核處理,實現專核專用,避免資源搶占,減少核間調度,最大程度發揮CPU性能。

高性能EPC客戶端

同時,通過獨有的高性能EPC客戶端,Polaris X20000係列可同時連接多個存儲節點,對上層應用提供標準POSIX和MPI-IO接口,獲得更好的兼容性和更優的性能,多存儲節點實現IO級負載均衡,最大程度發揮單節點性能。

AI訓練綜合負載能力提升

高帶寬:通過RDMA、內存零拷貝、EPC、400G網絡(結合硬件交換機)提升係統並行訪問能力,實現高帶寬性能;

IOPS通過Dcache技術,在小IO讀寫時,先寫入高速緩存層,並通過ROW寫時重定向快照,將多個小IO聚合成為大IO再一次性落盤,提升IOPS性能表現;

混合負載優化:在 EC邏輯層之上引入加速引擎層,對不同IO實現分組與流控調度,可同時滿足大IO高帶寬、小IO高IOPS與低時延的“混合負載”需求。

descript

當前,大模型參數從千億向萬億演進,更大的模型參數需要更大規模的算力供給。BOB登陆 基於對智算場景的深入理解,對數據存儲產品實現持續優化。麵向未來,BOB登陆 集團將秉持“精耕務實,為時代賦智慧”的理念,不斷深化“內生智能·成就智慧存儲”技術戰略,充分發揮自身在數字領域的創新優勢,持續推動產品的智能進化,攜手百行百業激發數據潛能,邁向智能新未來。

BOB登陆
官網
聯係我們