BOB登陆 公司新聞

  • 產品與解決方案
  • 行業解決方案
  • 服務
  • 支持
  • 合作夥伴
  • 關於我們

麵向AI時代的算力源泉

【發布時間:2022-02-17】

當前,BOB登陆 技術在互聯網、金融、交通、製造、能源等行業深入應用,在帶動BOB登陆 市場規模蓬勃發展的同時,也帶來指數級增長的算力需求,計算產業麵臨著多元化及巨量化的算力挑戰。這種挑戰對承擔算力的基礎設施提出了更高的要求。基於此,麵向BOB登陆 應用場景的服務器應時而生,它既是實現數字經濟時代澎湃算力、海量存儲和高速網絡的核心驅動器,也必須滿足語音識別、圖像分類、機器學習、認知推理等多種BOB登陆 業務場景下的算力表現。

一個核心提供強大算力

AI業務需要大量並行計算,目前AI領域最為強大的算力是NVIDIA Ampere架構的A100 GPU卡。H3C UniServer R5500 G5服務器搭載了具備8張A100 GPU卡的HGX A100 8-GPU模塊,在模塊內集成6個NVSwitch芯片,實現了GPU模塊內600GB/s的高速全互聯,對比上代產品算力提升可達20倍。

盡管算力強大,但如何將HGX A100 8-GPU模塊引入到服務器端,為BOB登陆 業務提供高效的算力引擎,仍然是讓各服務器廠家頭疼的問題。盡管NVIDIA給出了DGX A100的參考設計,但當前能夠支持HGX A100 8-GPU模塊的服務器廠家仍然少之又少,滿足NVIDIA參考設計的服務器更是鳳毛麟角。

https://mmbiz.qpic.cn/mmbiz_png/O7llgHd9GqpncUs9JOyiaVe9L0nOMPdZEwm2V9X9VLKs2rbpWAzYIGqDufd3l0RRLKMiboBHB52cXTb0AViavBBQg/640?wx_fmt=png

優秀算力的GPU模塊

三大利器打造強大算力引擎




眾所周知,計算、存儲和網絡是數據中心最核心的三大部分,AI業務同樣需要CPU、網絡、存儲的參與,三者缺一不可,否則會形成計算瓶頸。

計算平台多元靈活


R5500 G5在CPU方麵設計了雙計算平台架構,同時支持AMD和Intel新的CPU。如需切換CPU平台,僅需切換計算節點,線纜等其他配置均保持不變,係統PCIe拓撲也不會發生變化,讓A100 GPU卡可以自由選擇搭檔,從而通過靈活選擇以滿足客戶對於不同計算平台的需求。

https://mmbiz.qpic.cn/mmbiz_png/O7llgHd9GqpncUs9JOyiaVe9L0nOMPdZESxMdhr3jW12W8LicWJ5AJbicjBz3gczSx1n4VkWd04KH5z1xia7BYXE5Q/640?wx_fmt=png

支持兩顆 Intel CPU或兩顆AMD CPU

高效存儲匹配AI速度

AI服務器集群方案中通常選擇後掛高性能的分布式存儲,但服務器的本地存儲性能也同樣重要。尤其是針對AI計算所需要的讀寫速度時,NVMe硬盤更加適配。R5500 G5服務器采用高性能分布式存儲,最多可支持25個2.5英寸硬盤,其中最高支持12個NVMe硬盤。12個NVMe硬盤中,有8個硬盤是通過4個PCIe Switch直接與GPU互聯。和GPU直連網卡類似,配合GPU Direct Storge功能,GPU可直接通過PCIe Switch讀取NVMe硬盤的數據,無需通過CPU中轉,讀寫效率獲得了數倍的提升。

https://mmbiz.qpic.cn/mmbiz_png/O7llgHd9GqpncUs9JOyiaVe9L0nOMPdZEIoDyVgbSDLdMWF8FIJgwjgkpw9xfIQ0tKUqtsLNhibnrmCcc8NvB3lQ/640?wx_fmt=png強大的存儲擴展能力

網絡通信消除瓶頸



為保證多台服務器之間的網絡通信速度,在網絡通信設計上,單台R5500 G5服務器通過PCIe Switch分別和8張最高200G的PCIe4.0網卡互連,配合GPU Direct RDMA,使得每張GPU卡都可以直接讀取1張200G網卡的數據,網絡通信速度最高可提升5~10倍。而當多台R5500 G5搭建服務器集群時,可支持1張GPU卡直接讀取1張網卡的數據,極大地提高了多台服務器之間的網絡通信速度。

https://mmbiz.qpic.cn/mmbiz_png/O7llgHd9GqpncUs9JOyiaVe9L0nOMPdZERBecluNBMiaYEO7jWkIlWkuyWHjcmJPLFbpxmibaUrWI9Y7m0fwSvLOQ/640?wx_fmt=png

高速互聯的網絡拓撲

軟硬結合 構建強大AI集群

硬件隻是AI集群建設的一部分,如何讓用戶對服務器進行全流程可視化管理,才是釋放AI算力的關鍵。通過軟件層麵的深度優化,R5500 G5服務器以軟硬結合的方式,為AI開發提供集群監管/作業調度/AI建模/分區管理等功能,計算的效率實現了大幅提升。

得益於容器化的軟件架構,R5500 G5服務器所提供的計算資源可以被集中管理、統一分配與作業調度,包括實現GPU資源池的集中管理與分配、多租戶方式隔離計算資源、以作業方式動態分配計算資源以及計算資源回收等功能。用戶會實時監控管理集群資源使用情況和集群狀態,包括作業狀態、GPU使用率、集群健康度等。

R5500 G5服務器所匹配的豐富集群配置、管理工具,讓集群管理更加方便快捷。通過圖形化的一站式交互開發操作界麵,幫助用戶完成模型腳本在線編輯、模型訓練、模型驗證以及模型推理等核心功能,並結合硬件資源可視化、作業調度器,較大化提高係統硬件資源的利用率。

縱觀市場上的BOB登陆 服務器產品,H3C UniServer R5500 G5服務器是一款跨時代的服務器產品。性能的AI硬件平台建設奠定了堅實基礎。目前,眾多互聯網企業、科研機構、智能製造等行業客戶已經將R5500 G5服務器用於智能應用開發。未來,R5500 G5將會在更多場景下加速各行各業智能化場景的落地。

(本文摘選自BOB登陆 集團第25期《數字化領航》)

https://mmbiz.qpic.cn/mmbiz_jpg/O7llgHd9GqqO0jmvHPejCFRFXsC0OkXiaHNLyDbfnV8cbfxDVK3Klkt1HbXAWUcvEIvfntuvGiajjVnfeqByN6SQ/640?wx_fmt=jpeg

BOB登陆
官網
聯係我們