3月1日,DeepSeek在知乎上發表題為的,全面揭曉V3/R1 推理系統背后的關鍵秘密。
據介紹,DeepSeek-V3/R1推理系統的優化目標是更大的吞吐、更低的延遲。為了實現這兩個目標,DeepSeek使用了大規?绻濣c專家并行的方法,并通過一系列技術策略,最大程度地優化了大模型推理系統,實現了驚人的性能和效率。
具體而言,在更大的吞吐的方面,大規?绻濣c專家并行能夠使得batch size大大增加,從而提高GPU矩陣乘法的效率,提高吞吐。
batch size在深度學習中是一個非常重要的超參數,指模型在訓練過程中每次使用的數據量大小。它決定了每次模型更新時使用的訓練樣本數量,調整batch size可以影響模型的訓練速度、內存消耗以及模型權重的更新方式。
在更低的延遲方面,大規?绻濣c專家并行使得專家分散在不同的GPU上,每個GPU只需要計算很少的專家,從而降低延遲。
但是,由于大規模跨節點專家并行會大幅增加系統的復雜性,帶來了跨節點通信、多節點數據并行、負載均衡等挑戰,因此DeepSeek在中也重點論述了使用大規?绻濣c專家并行增大batch size的同時,如何隱藏傳輸的耗時,如何進行負載均衡。
具體來看,DeepSeek團隊主要通過規;绻濣c專家并行、雙批次重疊策略、最優負載均衡等方式,最大化資源利用率,保證高性能和穩定性。
值得注意的是,還披露了DeepSeek的理論成本和利潤率等關鍵信息。據介紹,DeepSeek V3 和R1的所有服務均使用英偉達的H800 GPU,由于白天的服務負荷高,晚上的服務負荷低,DeepSeek實現了一套機制,在白天負荷高的時候,用所有節點部署推理服務。晚上負荷低的時候,減少推理節點,以用來做研究和訓練。
通過時間上的成本控制,DeepSeek表示DeepSeek V3和R1推理服務占用節點總和,峰值占用為278個節點,平均占用226.75個節點。
不過,DeepSeek也強調,實際上的收入或許并沒有那么多,因為V3的定價相較于R1要更低,另外夜間還會有折扣。上周五,DeepSeek宣布連續五天開源五大軟件庫。2月25日DeepSeek選擇了先在GitHub上線,然后再在官推發布上新通知。該公司25日宣布
據悉,DeepEP是MoE模型訓練和推理的ExpertParallelism通信基礎,可實現高效優化的全到全通信,以支持包括FP8在內的低精度計算,適用于現代高性能計算。DeepEP還針對從NVLink到RDMA的非對稱帶寬轉發場景進行了深度優化,不僅提供高吞吐量,還支持流式多處理器數量控制,從而在訓練和推理任務中實現高吞吐量性能。