當前位置: 華文世界 > 科技

騰訊大模型網路提速技術方案助力DeepEP效能提升30%

2025-05-10科技
央廣網北京5月8日訊息 5月7日,騰訊技術團隊針對DeepSeek開源的DeepEP通訊框架進行深度最佳化,使其在多種網路環境下均實作顯著效能提升。經測試,最佳化後的通訊框架效能在RoCE網路環境提升100%,IB網路環境提升30%,為企業開展AI大模型訓練提供更高效的解決方案。相關技術方案獲得了DeepSeek公開致謝,稱這是一次「huge speedup」程式碼貢獻。
自今年2月DeepSeek開源包括DeepEP在內的五大程式碼庫以來,該團隊便向業界展示了如何利用有限的硬體資源實作接近萬卡集群的效能。在這些技術中,DeepEP憑借突破性的方法提升了300%的通訊效率,成功解決了MoE架構大模型對輝達NCCL的依賴問題。
但該技術在成本較低、適用面更廣的RoCE網路環境中表現不佳,限制了其在更廣泛場景的套用。這一痛點引發了開源社群的持續討論。
騰訊星脈網路團隊基於在RoCE網路領域的深厚積累,在DeepEP開源後便展開技術攻關,發現兩大關鍵瓶頸:一是對於雙埠網卡頻寬利用率不足,二是CPU控制面互動存在時延。
騰訊在RoCE網路最佳化方面的突破,首先體現在頻寬分配的智慧化,透過拓撲感知的多QP建鏈技術,智慧分配數據流,最佳化了雙埠網卡的頻寬利用率,確保每條數據通道都能得到充分使用。此舉有效避免了頻寬浪費,為RoCE網路的效能提升提供了有力支撐。
其次,騰訊還著力解決了GPU通訊中的CPU控制瓶頸問題。透過基於IBGDA技術的最佳化,騰訊使得「控制面」場景的操作也可以繞過CPU的「中轉」,進一步降低了延遲和能耗,提升了整體通訊效率。
同時,GPU直接「對話」時存在的傳輸順序混亂難題,騰訊提出了「QP內時序鎖」機制,使得多個GPU間的數據傳輸能夠精準、按順序完成,即使同時處理1000多個數據傳輸任務,DeepEP也能自動理順先後順序。
在騰訊的技術最佳化下,DeepEP不僅在RoCE網路實作效能翻倍,反哺到IB(InfiniBand)網路時更使原有通訊效率再提升30%。
(騰訊工程師在不同節點伺服器上的測試數據)
目前該技術已全面開源,並成功套用於騰訊混元大模型等計畫的訓練推理,在騰訊星脈與p0伺服器構建的高效能環境中,這套方案同樣展現出卓越的通用性。
更多精彩資訊請在套用市場下載「央廣網」客戶端。歡迎提供新聞線索,24小時報料熱線400-800-0088;消費者也可透過央廣網「啄木鳥消費者投訴平台」線上投訴。版權聲明:本文章版權歸屬央廣網所有,未經授權不得轉載。轉載請聯系:[email protected],不尊重原創的行為我們將追究責任。