• 產品與解決方案
  • 行業解決方案
  • 服務
  • 支持
  • 合作夥伴
  • 關於我們

傲飛算力平台

【發布時間:2023-08-10】

隨著科學技術的發展,高性能計算(HPC)和BOB登陆 (AI)早已廣泛用於各行各業,如氣象預報、石油勘探、生命科學、航空航天等等,但是對於專業的數據科學家來說,集群環境搭建,並行運算,分布式存儲,作業調度等基礎設施和服務仍然是其麵對的一大難題。

傲飛算力平台(AMPHA)是BOB登陆 集團基於Kubernetes和Slurm自主開發的AI和HPC資源一體化管理的集群管理平台。它可以在不改變AI和HPC用戶習慣的前提下,充分挖掘計算性能,實現AI和HPC資源的靈活調配管理。實現了AI和HPC兩大業務模塊的統一調度、統一用戶/用戶組管理、統一文件/文件夾管理、統一計費、統一監控告警,實現了AI和HPC業務的真正融合。

傲飛算力平台提出軟硬件一體化的全方位高性能交互開發模式。平台為用戶提供HPC作業的調度、AI模型訓練、模型轉換、模型評估、模型預測、模型導出、在線推理服務等功能,同時為了輔助用戶管理開發資源,也提供了文件存儲、資源監控、資源申請、工單管理以及可視化等功能。為解決部署難的問題,平台提供基礎軟硬件集群環境的一鍵自動部署的功能;通過AMPHA,用戶可以實現對資源的統一監管、對作業的調度與監控、訓練數據可視化、工程化的模型開發管理,滿足用戶的不同業務場景的開發需求。

傲飛整個係統從下到上五層:基礎設施、平台層、中間件層、產品層和用戶層

基礎設施主要是硬件設備,包括管理登錄節點、計算節點、IO節點和網絡。管理登錄節點用於管理整個係統,AMPHA和產品底座運行在該節點上,管理登錄節點根據集群規模大小和客戶業務需求可靈活擴縮容。計算節點分為兩大分區:AI分區和HPC分區,客戶可根據實際業務決定是否給對應的分區分配資源以及分配多少資源,值得一提的是,係統管理員可以對兩大分區的資源靈活調配以適應不同階段對AI和HPC資源的不同需求;網絡設施。AMPHA支持AMPHA支持InfiniBand和RoCE組網,多用於計算和存儲。管理網一般用10G的以太網,帶外監控網絡一般用1G或10G的以太網。

平台層包括:操作係統、文件係統和產品底座。操作係統為Ubuntu20.04以及之後的版本;文件係統支持多種:GPFS、NFS和OneStor等,同時支持這些文件係統的Kubernetes CSI插件,充分保障數據讀寫IO性能;平台層的底座為H3C基於Kubernetes自主開發的PaaS雲平台,相比開源的Kubernetes該平台提供集群、應用、監控、災備等全方位管理界麵,支持一站式集群部署,節點健康檢測、修複、升級,統一的應用打包規範和檢查,支持各產品融合部署,支持多種存儲和網絡功能,支持豐富中間件。

中間件層包括:API網關、IAM、數據庫、緩存、消息隊列、License Client等開源或者H3C自研的一些組件,這些組件為AMPHA的正常運行提供支撐。

產品層是產品功能的核心,包括公共部分功能、AI分區功能和HPC分區功能。其中節點/分區管理、用戶/用戶組管理、文件管理、配額管理、計費管理、報表統計、集群監控、故障告警等屬於公共部分功能,作業管理、開發環境、模型管理、鏡像管理、DL算法庫、ML算法庫、機器學習、深度學習、遷移學習、強化學習、AI市場、數據標注、工作流、AI訓練、AI推理等屬於AI分區功能,批處理作業、應用模板、License管理、應用市場、運行環境、模塊管理、控製台、Singularity鏡像等屬於HPC分區功能。

用戶層進行用戶分權分域管理,支持ladp和本地認證多種非方式。用戶分為兩部分:管理員角色和普通用戶角色,普通用戶可以進行分組,不同的用戶組具有不同的資源使用權限,用戶之間和用戶組之間租戶隔離,充分保證用戶的信息安全。

產品軟件架構示意圖

BOB登陆
官網
聯係我們