3月27日,2025中關村論壇年會在京開幕,論壇將持續至3月31日。今年論壇年會的主題是“新質生產力與全球科技合作”。
3月29日下午,北京智源人工智能研究院院長王仲遠在未來人工智能先鋒論壇上作了的演講。
在該場論壇上,智源研究院發布首個跨本體具身大小腦協作框架RoboOS與開源具身大腦RoboBrain,可實現跨場景多任務輕量化快速部署與跨本體協作,推動單機智能邁向群體智能。
論壇開始前,王仲遠接受了智源研究院是在科技部和北京市支持下,聯合北京人工智能領域優勢單位共建的人工智能領域的新型研發機構。王仲遠是第二任院長,他在2018年榮獲“35歲以下科技創新35人”;并有微軟、Facebook、美團、快手的工作經歷。
目前算力限制仍是大模型發展的瓶頸因素
如今,由于工程上的優化,訓練更大規模參數的模型成為可能。這時候如果Scaling Law還有效的話,模型的性能就有可能進一步提升。
所以,現在的模型,尤其是基礎模型看起來遇到了一定的瓶頸,或者說其性能提升相對緩慢,一個很重要的因素是數據,另外算力限制也是瓶頸,所以我不認為現在的算力就足夠使用了,我認為整個大模型的技術還遠未到盡頭,算力仍不可或缺。
今年在人工智能應用上會出現大爆發
中國擁有海量的應用場景和應用需求,這是我們的優勢。當基礎模型能力提升后,其實我們有眾多的產品經理和創業者,可以將模型進行落地應用,尤其是大語言模型的落地應用,存在巨大的產業爆發潛力。
當然,我也反復強調過,大語言模型是遠遠不夠的。即使不談機器人,我們也可以看到,真實的產業中存在大量多模態數據,比如流程圖、醫療領域的X光片數據、CT數據以及各行業的傳感器數據等,它們都不是簡單的文本數據。所以,多模態大模型是繞不開的一種能力。
現在的多模態大模型,尤其是多模態理解模型,應該說還處于相對早期的階段,雖然有一些解決方案,比如以大語言模型為核心的解決方案。但很多大語言模型在增加了多模態能力后,其原有的語言能力會有所退化。這也是智源研究院去年著重向統一原生多模態方向突破的重要原因。
去年,智源研究院正式發布Emu3,這是統一原生的多模態大模型,能夠將文本、圖像、從一開始就進行原生的統一,將理解和生成進行統一。我們認為,這種統一的多模態大模型有望助力大模型在各行業落地,取得更好的效果。
具身智能是實現AGI的一個核心能力
如今的大語言模型除了其通用性以外,在很多特定領域,比如數學、編程等,已能接近碩士乃至博士水平。從這些方面來看,我們可以認為人工智能已經部分達到了某種程度的AGI。
但如果從更廣泛的意義來看,比如讓人工智能理解人類的語言、解決實際生活中的具體問題,像做家務、做飯、洗碗等,距離實現這種程度的AGI,我認為還有很長距離,可能還要很多年,至少5到10年甚至更長時間。因為在這個過程中,它依賴于本體的能力,依賴于對世界模型構建的進展,依賴于不同的落地場景中數據的積累等,所以還需要經歷很長的周期。