北京時間3月24日晚間,DeepSeek悄然將DeepSeek-V3模型的最新版本上傳到了開源平臺HuggingFace。
新模型的版本號為DeepSeek-V3-0324,參數為6850億,較初代V3版本的6710億有小幅增長。
盡管DeepSeek十分低調,但還是有不少人在第一時間就注意到了這一更新,并對其進行了測試。
根據社區測試反饋,DeepSeek-V3-0324最明顯的變化是編程能力得到了極大的提升。眾多開發者基于對新模型的綜合體驗判斷,3月25日,專業AI模型評測機構Artificial Analysis發布的最新排名顯示,有外媒推測:“V3新版本的推出時機和特點強烈表明,它將成為DeepSeek-R2的基礎,后者是一款新的推理模型,預計在未來兩個月內推出。這遵循了DeepSeek的既定模式,即基礎模型比專門的推理模型早幾周推出。”
專業AI模型評測機構Artificial Analysis在評測完新版V3后發推表示,
雖然它在能力上仍落后于眾多推理模型,但這并不能影響這一成就的重要性。因為非推理模型相較于推理模型在速度上具有優勢,它可以立即回答,而無需花時間“思考”。
AI編碼工具aider開發者保羅·高蒂爾對其進行了多語言基準測試,得分為55%,較上一個版本有顯著提升。他認為,
開源大模型評測項目Kcores大模型競技場的最新測試數據顯示,
在Kcores大模型中的四個測試中,新版V3都展示了出色的能力,特別是在九大行星模擬測試中,它是測試的25個模型中,唯一一個畫了土星環的大模型。
截至目前,DeepSeek并沒有放出DeepSeek-V3-0324的跑分結果。
不過,廣大網友對其進行了獨立測試。在眾多用戶的體驗中,最常被提到的就是新版V3的代碼能力。
有網友同時比較了新版V3和R1之間的編程能力,要求:
“創建一個包含CSS和JavaScript的單個HTML文件,以生成一個動畫天氣卡片?ㄆ瑧ㄟ^不同的動畫直觀地表示以下天氣條件:
風:
雨:
晴:
雪:并排顯示所有天氣卡片。
卡片應具有深色背景。在此單個文件中提供所有 HTML、CSS 和 JavaScript 代碼。JavaScript 應包含一種在不同天氣條件之間切換的方法,以演示每種天氣的動畫。”
從下圖可以發現,兩者生成的效果可謂天差地別。
左側為新版V3,右側為R1 DeepSeek的響應過程十分絲滑,只花了2分鐘就完成了,生成的網站配有日間/夜間模式切換、評論區、評分系統、收藏系統和社媒分享系統。
不過需要指出的是,在一些細節上DeepSeek還是出現了
網友熱評:對OpenAI如同噩夢,對DeepSeek-R2寄予厚望
還有網友綜合體驗下來表示,有國外網友直呼,這對OpenAI來說就是一場噩夢。
有外媒表示:“V3新版本的推出時機和特點強烈表明,Artificial Analysis表示,此版本可以說比R1更令人印象深刻,并且可能表明R2將是另一個重大飛躍。
Kocres聯合創始人“karminski牙醫”在測試完新版V3后表示:“DeepSeek-V3新版本的能力十分可怕,甚至這還都不是DeepSeek-V4,更不是DeepSeek-R2!我現在十分期待DeepSeek-R2的發布了!”
國外知名AI評論員“chubby”表示,這個小更新比預期的要大很多,因此我們對DeepSeek-R2寄予厚望。有Reddit用戶指出:“這與DeepSeek在圣誕節前后發布V3并在幾周后發布R1的方式一致。據傳R2將于4月發布。”
如果DeepSeek-R2遵循R1發布的軌跡,它可能會對OpenAI的下一個旗艦模型GPT-5構成直接挑戰。此前,阿爾特曼在訪談中表示,GPT-5很快就會和大家見面。