大模型的發展日新月異。
談商業化:2025年將是AI模型商業化快速發展的一年
朱軍介紹,相較于生數科技在1月推出的Vidu 2.0,Vidu Q1在技術層面實現了重大突破,能夠接受空間布局信息作為輸入,極大提升了生成的可控性,使生成走向“高可控”時代成為可能。
朱軍指出,走向高可控為AI生成的發展找到了新路徑,清晰指出了AI生成的痛點,通過技術手段引入多元素控制,它不再是沒有頭緒的“亂生成”,而是人為可控,這就讓AI生成與當下精益求精的制作逐漸趨向一致。
另一方面,高可控意味著AI生成的創意呈現更極致、更多元。朱軍表示,過去Vidu陸續在畫面生成、生成速度、多主體一致等生成關鍵環節下功夫,現在,當“高可控”時代到來時,人們將能夠更便捷地將自己頭腦中的想法變成現實。具體而言,Vidu Q1在多主體細節可控、音效同步可控 、畫質增強方面均取得成效。
對于多模態模型層面的探索,朱軍在中表示,生數科技自成立之初便專注于多模態大模型研發,Vidu的基座本身就是一個多模態大模型,只是多模態技術的其中一種表現形式。除此之外,公司還在探索音頻及機器人可控操作數據的應用等多種模態。“對我們來說底層架構基本上是一樣的,沒有修改就可以去適應多模態,只是面向用戶的需求,在不同階段會推出。”
朱軍認為,未來多模態的發展方向是智能體與工作流的全面打通,這種打通也是生數科技規劃的重要方向。朱軍表示,未來也需要通過推動智能體與工作流的打通,實現不同模態之間的協同,以更好地服務各行業用戶。
在商業化方面,朱軍坦言,隨著AI技術的商業價值不斷提升,資本市場對生數科技的關注重點也在發生變化。朱軍表示,在公司早期階段,投資人更關注團隊實力,而如今,除了技術壁壘,商業化進展已成為核心考量因素。“的價值密度更高,商業化進程也更快。2025年將是AI模型商業化快速發展的一年。”
目前,其SaaS產品已覆蓋全球200多個國家和地區,上線天內用戶突破千萬,增速位居全球第一。同時,在MaaS端,AI技術正在深入應用于動漫影視、文旅、廣告、游戲等多個行業,重塑內容生產模式。
近期,OpenAI宣布在GPT-4o模型中集成了迄今為止最先進的圖像生成器,并將其整合進ChatGPT中,未來,生成能力會否同樣被集成進大模型?朱軍認為,現在談這個問題為時尚早。
目前,生成的重點仍然是提升生成的質量和效率,而隨著基座模型的不斷優化,AI生成自然會逐步向交互式方向發展,但其中最核心突破點仍在于理解能力和可控性。朱軍表示,只有實現真正的高可控生成,才能滿足未來交互式AI的需求。
在談及高可控能力是否會影響創意表達時,朱軍表示兩者并不沖突。相反,提升可控性能夠讓創作過程更加高效、精準,減少用戶反復試驗的成本,提高創作體驗。
“在AI創作中,用戶的輸入可能是或文字,我們的任務是精準理解并實現他們的需求。”朱軍解釋道,過去,AI生成往往帶有較高的隨機性,用戶需要反復嘗試才能獲得理想的結果。而高可控能力的引入,使模型能夠更準確地理解并執行用戶的創作意圖,同時保持創意表達的自由度,例如動作幅度、想象力等方面依然可以充分發揮。
談行業:行業很難出現類似DeepSeek的模型
朱軍在接受時表示,2025年行業整體落地進展非?欤缭诤鸵纛l領域,由于其應用場景較為通用,市場接受度更高,而語言模型的落地則往往需要結合行業專業知識,因此鏈路相對較長。不過,目前行業內同樣有應用公司致力于推進大語言模型的落地應用。
談及技術突破,朱軍強調,目前階段最重要的仍然是通用基礎模型的提升。“它決定了我們后端在控制和一致性方面的能力,所有后端的實現都依賴于基礎模型的進展。”基于基礎模型,生數科技也在不斷探索,以實現更高的模型一致性和可控性。
朱軍認為,與語言模型不同,大模型的商業化路徑相對更快。他指出,的消費需求非常曠闊,因此,當前行業內領先的公司在大模型領域各具特色,并形成了不同的商業化布局。這一領域并不像語言模型市場那樣“內卷”,而是呈現出更多元化的競爭格局。
目前,大語言模型行業逐步進入收購與被收購階段,朱軍認為,這與行業發展狀態相關。語言模型的競爭已經進入深水區,領先企業在技術和市場布局方面占據優勢,而大模型則完全不一樣,中國的大模型在全球范圍內很多方面都有應用,這與語言模型的發展狀態截然不同。
未來,大模型行業是否會和語言大模型一樣,只會留下幾家專注于基礎模型研發的公司?朱軍認為,大概率不會出現一家獨大的情況。一方面,大模型行業不算擁擠;另一方面,從人工智能發展的長期來看,核心因素在于團隊是否具備持續創新能力。今天,模型的發展大部分是階段性發展,盡管目前已經可以服務專業用戶并生成高質量內容,但整體上仍有很大提升空間,包括效率、成本以及內容密度等方面的突破。
相比于語言模型,生成模型的起步稍晚,但朱軍認為,這種“后發”反而帶來了更快、更堅定的前進步伐。他提到,模型領域已經形成了對效率優化的共識。例如,生數科技在推出Vidu2.0時,就明確提出要做“最高效、最便宜的高質量模型”。這種理念已經深入行業,因此,他判斷領域很難出現類似DeepSeek在語言模型中“效率遙遙領先”的局面,而是更期待讓模型朝著“更可控、更好用”的方向發展。
談及開源,朱軍表示,開源一直是人工智能行業的重要趨勢,生數科技也會開放部分創新方法供業界使用。然而,他指出,大部分所謂的開源模型并未真正開放核心訓練過程及數據。“DeepSeek之所以受到用戶歡迎,核心在于其出色的效果和高效率。對C端用戶而言,最關心的始終是質量和效率,而非模型是開源還是閉源。”
目前,生成模型大多集中在5秒以內的短,朱軍認為,這主要是成本問題,而非能力限制。同時,用戶的使用習慣也影響了時長的選擇。“現階段,大部分用戶習慣于豎屏短,而如果要創作1分鐘以上的內容,就需要更完整的故事架構,涉及到從文案策劃到內容創作的完整流程,而不僅僅是簡單的‘圖生’。”
朱軍認為,隨著基礎模型能力的提升,行業將逐步向更長時長、更具敘事性的場景拓展。“從短向更長時長、敘事性更強的方向發展,將成為未來的一個重要趨勢。”