也開源了DiT架構的混元文生圖模型。
今年以來,快手先后發布1750億參數規模的通用大語言模型“快意”和文生圖大模型產品“可圖”。生成大模型可靈則在6月被推出,快手方面稱,可靈能夠生成大幅度的合理運動,模擬物理世界特性,生成的分辨率達1080p,時長最長可達2分鐘。圖生功能后續開放。
在畫面呈現上:
1、動態效果?伸`的“鏡頭”普遍為前后向邏輯推進,Sora則更豐富。在“海浪撞擊懸崖的無人機視圖”一項,Sora畫面的聚焦點在提示詞中“有燈塔的小島”,對整個環境進行環視,重點突出。可靈的鏡頭前后推進,小島被設置在畫面的最遠端,沒有重點突出小島。不過,Sora和可靈對海浪的運動軌跡描述都很準確。
2、視覺效果。這一項上,Sora和可靈表現都較為優秀。特別是在“東京街頭的女士”畫面呈現上,無論是對霓虹燈色彩的展示,還是潮濕地面反光的呈現,兩個模型的畫面光影表達都很準確。
3、細節表現。但在“3D動畫的小怪物”生成上,可靈的細節表現與Sora差別不大,特別是對小怪物蓬松毛發特性的捕捉和呈現上,很精準也很細致。
4、連貫性和流暢度。Sora和可靈的畫面表現均連貫、流暢,但稍有不同的是,對復雜場景的描述,Sora明顯更優。特別是在“太空人”的畫面生成上,可靈的畫面只給出了太空人的正面特寫,但Sora呈現了遠近景的切換,添加了更多輔助元素,如飛船等。
在功能和體驗上,Sora與可靈生成的風格都更偏向模擬真實世界的場景。無論是科幻場景、自然風光、超自然畫面、3D動畫等都更加側重寫實的風格。
在不同場景的適配上,Sora的能力似乎更勝一籌。在對“云端上讀書的年輕人”的畫面生成上,可靈的貼圖感更重,素材間的融合度不高。語義的理解上,Sora和可靈都較為準確,特別是對提示詞中不同主體的捕捉,都比較完整。
不過,需要注意的是,可靈目前生成的長度均為5秒,與Sora的10至20秒相比,前者在復雜場景的敘述處理上會呈現一定的局限性。上線初期的可靈,功能較單一,風格切換等有局限性。
此外,而在生成“10歲小女孩在羽毛球場比賽”時,小女孩手里的羽毛球拍變成了網球拍,且只有乒乓球拍大小,羽毛球也變成了網球?梢,實際生成時,可靈有時存在一些較大的偏差。
值得注意的是,上述可靈由
“肯定是超出預期的,而且最先推出來比肩Sora的是快手團隊,還挺意外。”多位在互聯網行業深耕多年的資深行業人士、資深產業分析師在接受隨著快手“可靈”正式開放內測,社交平臺上,已有不少博主、創早在2023年初,快手就啟動了新AI戰略,在最近幾次財報電話會議上,快手聯合創始人兼首席執行官程一笑也頻頻談及快手自研大模型的研究及應用進展。不過,在很多人看來,快手更側重于短和社交內容,而非專業的剪輯工具。此前的大模型競爭中,快手也并不是引人關注的第一梯隊成員。
此前,快手推出的通用大語言模型“快意”以及文生圖大模型產品“可圖”,在市場的關注度和影響力均相對有限。如今,“可靈”的出現,讓國內大模型賽道看到了對標Sora“彎道超車”的可能。
可靈生成的“3D動畫的小怪物”
在陳澤敏看來,拋開技術,快手“可靈”已經實現一部分絕對真實世界觀的數據支持,AI對不同世界觀的快速理解以及在上的反應,“這是我認為不可思議的”。
在互聯網產業深耕多年的某頭部游戲公司高管李嚴認為,或許抖音未來也會推出類似的文生模型,但目前“可靈”的推出,最大的意義在于,它證明Sora的技術架構路線是可以被復現的,并且依托短平臺的海量、優質過往數據,是可以后來居上的。同時,也說明之前Sora出現時業內對它“真實世界模擬器”的評價可能過高。
相關研報指出,目前,國內大語言及多模態大模型正持續追趕海外主流大模型,模型能力逐步提升,帶動下游應用發展。過去幾個月,國內頭部應用總訪問量與海外頭部應用總訪問量差距逐漸縮小,看好未來國內應用快速增長的趨勢。
陳澤敏指出,雖然“可靈”搶跑為快手在文生賽道開了一個好頭,但這條道路要持續走下去,仍需要很大投入。
“未來如果‘可靈’能夠延長到完整的15秒,并擁有連貫、不拖影、多元世界觀融合的高質量,那一定會對短的生產方式帶來變化,越來越多的創
可靈生成的“云端上讀書的年輕人”
今年春節期間,OpenAI的文生大模型Sora橫空出世,轟動整個科技圈,不少從業者將追趕Sora定為新的“小目標”。
灼識咨詢相關報告數據顯示,全球AI市場的市場規模預計于2027年達到5624億美元,中國AI市場的規模已由2018年的560億元增至2022年的1942億元,預計于2027年達到6448億元。
巨大的市場潛力之下,在文生大模型領域,Sora之外,Runway、Pika、Stable Video Diffusion等眾多創業公司競相角逐。
不過,在陳澤敏看來,雖然越來越多的公司身處AI大風口,但未來留下的公司將越來越少,行業將進入邊際余量的競爭中。
“例如像英偉達這類確定性比較強的頭部公司會更受資本關注,而對于軟件服務這類公司,目前資本仍持懷疑態度。而在AI生成賽道,仍是‘頭部玩家勝者為王’的模式,頭部勝者的集中度更高,小公司不容樂觀。”陳澤敏表示。
雖然人人都想趕上AIGC這趟“時代列車”,但今年以來,AIGC領域的投資風向正在悄然發生變化。
灼識咨詢執行董事姜驍瀟向商業化前景也成為市場和資本關心的問題。AI生成的內容,究竟能不能獲得用戶真金白銀的買單,目前仍要畫一個大大的問號。
姜驍瀟認為,目前來看,大模型行業正處在應用拓展階段。在這個階段,AIGC技術將被廣泛應用于各個領域,但目前AIGC行業尚未完全實現成熟的商業化。
“‘可靈’和類似的文生大模型在未來的商業化潛力相當大。”姜驍瀟在影視和廣告制作中,文生大模型可以用于快速生成特效、場景設計和虛擬角色等,節省成本和時間,提高效率;在虛擬現實和游戲開發領域,這些模型可以用于生成角色動畫和互動場景,為用戶提供更加身臨其境的體驗等。
Sora釋放的“沖擊波”還在持續蔓延,官方發布的多個預覽里,五彩斑斕的現實世界似乎已經被搬上虛擬的“頻道”。
但Sora和它的挑戰者們,并不想虛構世界,而是在理解真實世界的規則基礎上,生成一個全新的世界。
“硅谷精神之父”、雜志創始主編凱文•凱利在2019年寫道:“鏡像世界尚未完全存在,但它正在到來。”而此前他曾預言,“萬物都會有數字版本,這世間所有,都將在數字世界建立鏡像”,至于還要多久,凱文•凱利認為,“是5000天后”。
未經許可禁止、、及鏡像等使用