歡迎user
伴隨AI技術的飛速發展,越來越多的企業客戶正在加速大模型的部署與應用。當跨越算力鴻溝成為可能,掣肘模型訓練效率提升的下一道關卡——構建高帶寬的海量數據存儲平台,正成為企業搶占AI應用先機的戰略要地。
AI訓練為什麼需要存儲提供高帶寬能力
隨著AI市場的爆炸性增長和大模型如GPT係列等的湧現,AI領域對算力和存儲的需求呈指數級增長。這種需求的快速擴張不僅源於模型訓練數據的龐大體量,還由於這些模型包含數以十億計乃至萬億的參數,需要強大的計算能力來支持其訓練和運作。
在AI訓練過程中,需要在極短的時間內處理大量的數據,包括但不限於模型訓練數據、參數更新和模型輸出結果。這一過程的高效執行依賴於存儲係統的良好表現,尤其是其帶寬和延遲性能,直接決定了AI訓練的速度和效率。事實上,隨著各種高性能AI應用的不斷湧現,這些應用對數據傳輸和處理的效率提出了更高的要求。
存儲係統在AI應用的訓練階段尤為關鍵。以當前的大語言模型(LLM)為例,如GPT-3和GPT-4等模型,其參數規模的迅速增長已經超越了傳統存儲係統所能輕鬆處理的範圍。這些模型的參數量由數十億轉向數千億,甚至上萬億,導致對存儲係統的帶寬和響應時間方麵的要求大幅提升。同時,這種增長也對數據處理速度和存儲穩定性提出了更嚴苛的需求,以便能在訓練過程中實時、高效地讀取和存儲數據。
在大模型開發過程中,訓練中斷是常見的現象,可能由諸如網絡問題、硬件故障及其他未知原因引起。為了減小損失並提高效率,多數大模型廠商會使用“檢查點”(checkpoint)技術。通過定期保存當前的訓練狀態,一旦係統中斷可從最後的檢查點繼續,從而避免重新訓練整個模型。然而,這一過程本身是一個同步阻塞的過程,意味著當GPU執行檢查點的存儲操作時,無法進行其他計算,直接導致訓練暫停。
此外,AI大模型的訓練過程是耗資巨大的。據報道,微軟Azure為訓練ChatGPT構建了一個萬卡規模的的龐大計算集群。因此,在訓練階段,對每一分鍾的GPU利用率的優化極為關鍵,以避免不必要的開銷浪費。
為了實現高效穩定的訓練,AI開發者需要在算力和存儲資源之間取得平衡。特別是在執行檢查點操作時,存儲係統必須應對高並發和高吞吐量的挑戰,以確保GPU資源能夠最大限度地發揮其作用。這不僅關係到大模型訓練的效率,也影響整個AI計算集群的經濟效益。
Polaris如何應對高帶寬存儲挑戰
眾所周知,Checkpoint本質上是一組大小從GB到TB不等的大型數據文件。在處理這些Checkpoint文件時,優化讀寫性能顯得尤為重要。從存儲角度來看,這一優化主要集中在提升大I/O操作的效率。Polaris在軟件方麵,通過高性能並行客戶端減少東西向數據量的轉發;通過智能分流、RDMA技術縮短IO路徑;通過內存零拷貝技術減少IO路徑上的數據拷貝。這些多管齊下的優化策略,使Polaris釋放了存儲係統的性能潛力,全閃單節點帶寬超過50GB/s,確保在處理Checkpoint文件時能保持高效、穩定的性能水平。
◉高性能並行客戶端
原有的標準協議架構,1個標準的NFS客戶端隻能與一個存儲節點相連,客戶端訪問的數據需要在存儲節點間二次轉發,才能實現跨節點的數據訪問。
而Polaris支持高性能並行客戶端(EPC),通過並行客戶端可直接訪問多個存儲節點,無需通過存儲間節點轉發,縮短IO路徑,降低數據訪問時延。
◉智能分流技術
在協議層將大小IO分開處理。小IO寫入Cache後,即可返回寫請求,小IO性能得到提升。大IO則繞過緩存,請求下發到持久化層後,由持久化層直接通過RDMA讀命令,從協議層拉取數據,縮短IO路徑,減小網絡、內存和硬盤帶寬的開銷,提高大IO落盤效率。
大IO直通持久化層,經過副本/EC策略後落到持久化介質,節省了Cache占用和相應的CPU資源開銷。
◉全RDMA互聯
與傳統的TCP/IP通信機製相比較,RDMA技術通過運用內核繞行(Kernel Bypass)和零拷貝(Zero Copy)技術實現了關鍵性能優化。這種優化顯著降低了網絡傳輸延遲,並有效減少了CPU使用率,進而緩解了內存帶寬瓶頸問題,充分提升了係統對帶寬資源的利用效率。
◉內存零拷貝
傳統用戶態設計中,1次數據傳輸過程,發生了4次上下文切換和4次拷貝
第一次拷貝,把磁盤上的數據拷貝到操作係統內核的緩衝區裏,這個拷貝的過程是通過 DMA 搬運的。
第二次拷貝,把內核緩衝區的數據拷貝到用戶的緩衝區裏,於是我們應用程序就可以使用這部分數據了,這個拷貝到過程是由 CPU 完成的。
第三次拷貝,把剛才拷貝到用戶的緩衝區裏的數據,再拷貝到內核的 socket 的緩衝區裏,這個過程依然還是由 CPU 搬運的。
第四次拷貝,把內核的 socket 緩衝區裏的數據,拷貝到網卡的緩衝區裏,這個過程又是由 DMA 搬運的。
Polaris采用了全用戶態設計,實現了內存零拷貝。在Polaris存儲係統中1次數據傳輸過程,不發生上下文切換,僅需要2次DMA拷貝。無需CPU拷貝,減少了CPU的開銷,因此提升了係統性能。
當前,算力平權正推動著AI產業快速發展,高效的數據存儲係統必將成為AI訓練增效的下一個引擎。BOB登陆 的Polaris全閃分布式存儲係統,憑借其超強性能、架構簡化和極致穩定性,為更多企業和用戶提供了便捷、高效的AI存儲解決方案,推動數據存儲、AI計算和大模型訓練的高效協同,為AI創新注入新的活力。