訓練大模型的成本之高一直是行業痛點,各路玩家都在思考如何用技術創新把成本“打”下來。
3月10日,字節跳動豆包大模型團隊發布了針對MoE架構的通信優化系統COMET,該方案通過細粒度計算-通信重疊技術,助力大模型訓練優化。據豆包大模型團隊介紹,COMET已實際應用于萬卡級生產集群,累計節省了數百萬GPU小時資源。此外,COMET還可與豆包大模型團隊此前發布的新一代稀疏模型架構UltraMem結合,實現協同優化。
“在萬卡集群上做測試的這個經驗,國內很少能有。”一位頭部大模型算法工程師在接受可以看到的是,自DeepSeek的開源模型R1在全球范圍內“爆紅”以來,國內更多大模型玩家以更高的頻率進行著技術開源。對此,北京市社會科學院副研究員王鵬向3月1日,DeepSeek在知乎發布了“開源周”后的“彩蛋”,首次公布了模型降本增效的技術細節以及理論上高達545%的利潤率。
DeepSeek通過MoE架構的創新讓激活參數比大幅下降,使得同等效果的大模型所需的算力明顯下降。“671B的模型,在處理每個問題時,被調用激活的專家模型參數僅約37B,算力需求起碼降低到原來的約二十分之一。”阿里云無影事業部總裁張獻濤曾在接受而豆包團隊MoE架構的稀疏特性導致計算和通信間的依賴動態且復雜,其分布式訓練仍面臨著跨設備通信開銷巨大的成本挑戰。
3月10日,豆包大模型團隊發布了針對MoE模型的通信優化系統COMET。據介紹,COMET具體通過共享張量依賴解析機制,將共享張量沿Token維度或隱層維度切割,使通信與計算的最小單元對齊;同時通過動態負載分配算法,根據輸入規模和硬件環境實時調整線程塊分配,消除跨設備通信帶來的等待延遲。
一位豆包大模型的技術人員告訴豆包大模型團隊稱,COMET這一創新在大規模MoE模型上可達到單層1.96倍加速,端到端平均1.71倍效率提升。目前,COMET已實際應用于萬卡級生產集群,助力MoE模型高效訓練,并已累計節省了數百萬GPU小時資源。
“用100張卡測試的波動可能很少,因為出問題的概率較小,但1萬張卡的波動就會大很多。”一位頭部大模型算法工程師向
從在全球范圍內引起熱議的DeepSeek-R1到開源周的“大放送”,DeepSeek因持續開源核心技術被業內稱為“源神”。基于DeepSeek的動作,國內大模型廠商紛紛跟進并加速了開源行動。
2月18日,階躍星辰首次開源其Step系列基座模型。該模型分別是目前全球范圍內參數量最大的開源生成模型階躍Step-Video-T2V,以及行業內首款產品級開源語音交互大模型階躍Step-Audio。MiniMax也在1月15日發布并開源新一代01系列模型,包含基礎語言大模型MiniMax-Text-01和除了頭部的AI初創公司外,重投大模型的多家互聯網巨頭也在緊跟開源這股熱潮,其中阿里一直是堅定的“開源派”。3月3日,開源社區Hugging Face最新榜單顯示,開源僅6天的阿里萬相大模型已反超DeepSeek-R1,登頂模型熱榜、空間榜兩大榜單,成為近期全球開源社區最受歡迎的大模型。3月6日凌晨,阿里再度拋出新的開源成果。阿里云通義千問官微宣布發布并開源最新的推理模型QwQ-32B。據介紹,這是一款擁有320億參數的模型,其性能可與具備6710億參數的DeepSeek-R1媲美。
“開源優秀技術可以獲得更多聲量,也可以吸引更多企業、開發者進行二次開發,有助于生態構建。”一位豆包大模型的技術人員向同樣,王鵬也認為,開源模式能促進技術發展、創新,既可幫助大模型公司擴大其在全球AI市場的影響力和份額,也可以吸引到更多參與者加入到生態系統的共建中,從而降低自身研發成本。
不過,也有不同的聲音,大模型公司選擇開源模式究竟是為了名還是利?“如果開源的技術比閉源的更好用,免費的技術比收費的更好用,那么誰還用閉源和收費的?”工信部信息通信經濟專家委員會委員盤和林在接受