歡迎user

RDMA對於網絡丟包異常敏感,丟包引起的大量重傳(Go-back-N)會導致吞吐性能急劇下降,而RoCE v2是一種基於無連接的UDP協議,缺乏完善的丟包保護機製。同時,分布式高性能應用是多對一通信的Incast流量模型,對於以太網的設備,Incast流量易造成設備內部隊列緩存的瞬時突發擁塞甚至丟包,帶來時延的增加和吞吐的下降,從而損害分布式應用的性能。

為了發揮出RDMA的真正性能,突破數據中心大規模分布式係統的網絡性能瓶頸,勢必要為RoCE搭建一套“無丟包、低時延、高吞吐”的智能無損網絡環境。
智能無損網絡一方麵通過流量控製技術和擁塞控製技術來提升網絡整體的吞吐量,降低網絡時延,另一方麵通過智能無損存儲網絡等技術實現網絡和應用係統融合優化。
智能無損網絡的技術架構如下:

在物理硬件層,智能無損網絡需要支持智能無損算法的AI芯片和轉發/交換芯片的支持。
在數據鏈路層,部署流量控製技術PFC(Priority-based Flow Control,基於優先級的流量控製),在交換機入口出現擁塞時對上遊設備流量進行反壓,用於解決擁塞丟幀,同時還需要檢測、恢複、預防PFC死鎖等問題。PFC技術由IEEE 802.1Qbb定義。
在網絡層,智能無損網絡可以應用如下擁塞控製技術:
1.
ECN(Explicit Congestion Notification,顯式擁塞通知)技術:ECN是一種端到端的網絡擁塞通知機製,在交換機出口擁塞時對數據包做ECN標記,並讓發送端降低發送速率,避免擁塞加劇。ECN在RFC 3168中定義。
2.
AI ECN功能:AI ECN結合了智能算法,可以根據智能算法對現網流量模型進行預測,並動態調整ECN的門限。
3.
IPCC(Intelligent Proactive Congestion Control,智能主動擁塞控製)是一種以網絡設備為核心的主動擁塞控製技術,可以根據設備端口的擁塞狀態,準確控製服務器發送RoCEv2報文的速率。
4.
大小流區分調度:設備端口轉發報文時還會使用QoS的擁塞管理技術進行隊列調度,提供不同的服務標準。網絡中的流量被管理員分為大小流並區分調度,以保證大流的吞吐率和小流的時延需求。
在傳輸層,采用ECMP對網絡中的流量進行負載分擔。
在應用層,智能無損網絡提供了iNOF(Intelligent Lossless NVMe Over Fabric,智能無損存儲網絡)功能,通過對iNOF主機的快速管控,提升存儲網絡的易用性,實現以太網和存儲網絡融合。
從無損網絡的方案設計以及最佳實踐看,為充分發揮網絡高性能和保證可靠性,流量控製PFC和擁塞控製ECN同時配合部署要優於各自單獨部署。
在同時部署了PFC和ECN功能時,我們希望ECN門限設置可以保證設備優先觸發ECN功能,降低報文發送端的速率緩解擁塞情況,盡量避免PFC觸發影響網絡中的吞吐率。隻有當ECN功能觸發後未緩解擁塞,擁塞嚴重惡化時才觸發PFC功能,此時通知發送端停止數據報文發送,直到擁塞緩解後再通知繼續發送數據報文,流程如下圖:

另外,當ECN門限設置過高時,轉發設備將使用更長的隊列和更多緩存來保障流量發送的速率,滿足吞吐敏感的大流的帶寬需求。但是,在隊列擁塞時,報文在緩存空間內排隊,會帶來較大的隊列時延,不利於時延敏感的小流傳輸。
當ECN門限設置偏低時,轉發設備使用較短的隊列和少量緩存盡快觸發來降低隊列排隊的時延,滿足小流對時延的需求。但是,過低的ECN門限會降低網絡吞吐率,影響吞吐敏感的大流,限製了大流的傳輸。
由以上可知,ECN的最大難點是水線設置比較複雜,需要結合網絡架構和業務特點來設計。
然而,現網中的流量複雜多變,各個隊列轉發的數據流量特征會隨時間動態變化,導致網絡管理員通過靜態設置ECN門限時並不能覆蓋所有流量場景,無法根據實時動態變化的網絡流量特征去保障無損業務達到最優性能。AI ECN則是借助AI算法來實現無損隊列的水線調整,通過AI訓練的流量模型,可實時預測網絡流量的變化趨勢,動態調整ECN的水線值,從而實現對無損隊列的精確調度,保障整網的最優性能。
AI ECN功能實現示意圖如下:

設備內的轉發芯片會對當前流量的特征進行采集,如隊列緩存占用率,流量吞吐率,當前大小流占比等特征數據,然後將網絡流量實時信息傳遞給AI業務組件。
AI業務組件收到推送的流量狀態信息後,將智能的對當前的流量特征進行判斷,識別當前的網絡流量場景是否符合已知的流量模型。
1.
如果該流量模型符合大量已知流量模型中的一種,AI業務組件將根據已知流量模型推理出實時ECN門限最優值。
2.
如果該流量模型不符合已知流量模型,AI組件將基於現網狀態,在保障高帶寬、低時延的前提下,對當前的ECN門限不斷進行實時修正,最終計算出最優的ECN門限配置。
最後,AI業務組件將最優ECN門限下發到設備轉發芯片中,調整ECN門限。
SeerFabric 智能無損解決方案助力分布式存儲
為了更有效的幫助用戶降低部署RDMA的技術門檻,BOB登陆 基於智能無損以太網技術推出了SeerFabric解決方案,可以滿足RoCE對網絡的高要求,為分布式存儲等應用場景提供了“無丟包、低時延、高吞吐”網絡環境,用於加速計算和存儲的效率。方案全麵覆蓋計算、存儲、網絡、控製與管理、性能優化與展示等核心硬件產品和軟件功能,同時將傳統數據中心前端的以太網、存儲的FC網、高性能計算的IB網絡三網合一,為數據中心構建起統一融合的網絡,解決了過去異構網絡的部署、互通和維護難題,降低了數據中心的TCO。

SeerFabric解決方案基於雲邊AI協同架構,通過對業界AI ECN調優算法的優化,結合H3C數據中心交換機的本地AI Inside能力,在保障零丟包的情況下,盡可能提升吞吐率、降低時延,保障網絡服務質量的確定性,方案核心組件如下:
智能分析引擎:利用無損網絡及連接的存儲和計算資源,借助AI算法和專家經驗,實現對數據中心不同流量場景的AI無損調優模型的分析和構建。通過現網流量的實時學習訓練,自動適配不同業務流量模型的特點,動態生成最優網絡參數,實現網絡的無損轉發。
智能控製引擎:將智能分析引擎動態生成的調優參數自動向設備下發,實現無損網絡全局最優化運行。
邊緣AI引擎:交換機內嵌高性能AI計算模塊,借助智能分析引擎的離線AI流量模型,進行網絡狀態的實時監控。自動根據現網流量特征進行RDMA隊列水線的本地智能調整,實現網絡參數優化,保障本地網絡的無損轉發性能。
同時,SeerFabric解決方案通過完整的智能運維手段來貫穿RoCE網絡的自動化部署、可視、分析、調優的全流程,如下:

RoCE自動化包括:基礎網絡自動化部署、無損策略自動化下發、主機Agent自動化安裝(實現高性能數據采集),iNOF服務器、存儲自動化發現等,簡化了上線步驟,提高了部署效率。
RoCE可視包括:計算、存儲節點的無損特性可視,含計算、存儲、網絡的物理拓撲及流量的端到端可視,基於IP+QP級的會話、時延、流量的業務路徑端到端可視,緩存擁塞可視、Pause幀收發曆史和趨勢可視,故障丟包可視等,實時掌握網絡運行狀態。
RoCE分析包括:通過對整網流量、配置參數、性能數據的深度分析,提供故障分析定位,異常狀態查詢等功能。通過網絡性能評估工具,可分鍾級對全網性能快速評估並生成報告。
RoCE調優包括:根據網絡流量模型(N打1的Incast值、隊列深度、大小流占比等流量特征),通過強化學習算法對流量模型進行AI訓練,實時感知和預測網絡流量變化趨勢,自動調節出最優的ECN水線,進行隊列的精確調度。在盡量避免觸發網絡PFC流控的同時,兼顧時延敏感小流和吞吐敏感大流的轉發,進一步保障整網的最優性能。
SeerFabric解決方案在今年已經通過了泰爾實驗室測試,是國內首個通過泰爾實驗室權威鑒定的智能無損數據中心整體方案。其中,存儲場景的測試覆蓋了端到端NVMe-OF、iNOF下RoCE多路徑快速切換、分布式存儲容器化對接等多個重點應用,方案能力得到了充分的檢驗。
另外,BOB登陆 聯合業界合作夥伴基於SeerFabric解決方案,在DPU、RDMA端到端擁塞控製算法等方麵展開合作,不斷提升大規模組網和複雜流量模型下的無損效果,共同打造更加便捷高效的無損以太網解決方案,為用戶帶來更大的價值。
展望
前不久,中國信息通信研究院在首屆“分布式存儲產業發展論壇”上正式發布了《分布式存儲發展白皮書(2022年)》,在白皮書中,首次提出了分布式存儲適用的九大典型應用場景,並從架構、硬件、軟件功能、數據管理、綠色節能幾個方麵洞悉了分布式存儲未來的發展趨勢。

BOB登陆 作為分布式存儲產業方陣的重要成員,不僅參與了分布式存儲白皮書、標準體係等內容的編寫,並且整合過去多年在分布式存儲領域的積累和應用,與分布式存儲產業方陣共同應對分布式存儲的應用難點和挑戰,通過對分布式存儲典型細分場景的不斷探索與優化,幫助更多的用戶更敏捷、高效地應對各類應用場景的多元化需求。
BOB登陆 將以全方位合作構建緊密協作的產業生態,強化新技術研發和創新突破,賦能分布式存儲在未來的架構、技術、應用等層麵加速演進,以數據的價值重構業務場景,為數字經濟的高質量發展,築造堅實有力的數據底座。

