梁文鋒 北京時間2月18日,在馬斯克還在慶祝Grok 3模型正式發布的時候,DeepSeek官方在社交平臺X上發布了一篇純技術論文,主要是關于原生稀疏注意力,直指ChatGPT等頂尖大模型背后的Transformer架構最核心的注意力機制。
通過這一技術,值得注意的是,這篇論文是由DeepSeek創始人梁文鋒親自提交的,而且他也是月之暗面提出的新方法叫塊注意力混合。這項方法沒有完全脫離現在最主流的全注意力機制,而是設計了一套可以自由切換的方式,讓這些模型可以在全注意力和稀疏注意力機制之間切換,給已有的全注意力模型更多的適配空間。
談及DeepSeek的NSA機制,風投公司RAI Digital聯合創始人薩義德·戈蘇斯對北京時間2月18日,DeepSeek官方在X上發布新論文,介紹了一種新的算法優化方式——原生稀疏注意力。
據DeepSeek介紹,NSA專為長文本訓練與推理設計,能利用動態分層稀疏策略等方法,通過針對現代硬件的優化設計,顯著優化傳統AI模型在訓練和推理過程中的表現,特別是提升長上下文的推理能力,在保證性能的同時提升了推理速度,并有效降低了預訓練成本。
通過這一技術,
值得注意的是,
月之暗面再次“撞車”DeepSeek
無獨有偶,在DeepSeek發論文的當天,月之暗面創始人楊植麟也親自“掛帥”發表了一篇論文,同樣直指算法優化。
楊植麟
該公司提出的新方法叫塊注意力混合。顧名思義,根據論文,而這也并不是是DeepSeek和月之暗面第一次“撞車”了,上一次是在DeepSeek推理模型R1和月之暗面推理模型Kimi 1.5發布時。
MoBA論文主要
DeepSeek新方法背后的三大技術
談及DeepSeek的新方法,風投公司RAI Digital聯合創始人薩義德·戈蘇斯告訴戈蘇斯進一步向它使用三種主要技術來實現這一點:
DeepSeek認為,三部分策略使NSA速度更快,同時理解含義的能力與傳統方法一樣好。”
有網友稱,戈蘇斯還表示,有科技媒體指出,