3月6日,阿里通義千問大模型團隊宣布,正式推出最新的推理模型QwQ-32B。
阿里巴巴稱,這是一款擁有320億參數的模型,其性能可與具備6710億參數的DeepSeek-R1媲美,據介紹,通過大規模強化學習,千問QwQ-32B在數學、代碼及通用能力上實現質的飛躍,整體性能比肩DeepSeek-R1,在數學推理、編程能力和通用能力的一系列基準測試中,通義千問大模型團隊將QwQ-32B與OpenAI的o1-mini以及DeepSeek滿血版及蒸餾版進行了比較,結果顯示,在測試數學能力的AIME24評測集上,以及評估代碼能力的LiveCodeBench中,QwQ-32B表現與DeepSeek-R1相當,遠勝于o1-mini及相同尺寸的R1蒸餾模型。
據介紹,在冷啟動基礎上,阿里通義團隊針對數學和編程任務、通用能力分別進行了兩輪大規模強化學習。在初始階段,特別針對數學和編程任務進行了強化學習訓練。與依賴傳統的獎勵模型不同,通義千問大模型團隊通過校驗生成答案的正確性來為數學問題提供反饋,并通過代碼執行服務器評估生成的代碼是否成功通過測試用例來提供代碼的反饋。
業內人士分析,QwQ-32B的成功表明,將強大的基礎模型與大規模強化學習相結合,能夠在較小的參數規模下實現卓越性能,這為未來通向通用人工智能提供了可行路徑。
值得注意的是,盡管DeepSeek-R1擁有6710億的巨型參數量,但由于DeepSeek創新性地使用了MoE架構以及MLA的方法,每次推理僅激活370億參數。阿里通義團隊表示,未來將繼續探索將智能體與強化學習的集成,以實現長時推理,探索更高智能進而最終實現AGI的目標。
目前,阿里已采用寬松的Apache2.0協議,將QwQ-32B模型向全球開源,所有人都可免費下載及商用,也可以通過阿里云百煉平臺直接調用模型API服務。同時,用戶也可通過通義免費體驗最新的QwQ-32B模型。
3月6日早盤,阿里巴巴集團(港股大幅高開漲超6%,截至收盤漲超8%。
3月5日晚,阿里巴巴美股大漲超8%。
此前,2月25日,阿里通義Qwen發布基于旗艦模型Qwen2.5-Max構建的推理模型QwQ-Max-Preview預覽版,支持聯網,會和DeepSeek以及Kimi的推理模型一樣展現思考過程.
長江證券研報指出,近期,阿里在AI領域持續發力,踐行了其AI驅動戰略,隨著其后續投入的逐步提升,相關成果有望加速迭代,相關成果或將惠及相關產業鏈,加速AI應用落地,進而進一步帶動算力需求的爆發。同時,隨著阿里在AI基礎設施、基礎模型平臺及AI原生應用、現有業務的AI轉型等三方面加大投入,或將引領中國AI產業加速發展。