谷歌周一發布了一種新的AI模型Genie,它可以接收文本提示、草圖或想法,將其變成一個可以互動和玩耍的虛擬世界。
Genie擁有110億個參數,可以說是一個基礎世界模型。它由三部分組成,一個時空視頻標記器、一個自回歸動力學模型,以及一個簡單且可擴展的潛在行動模型。
Genie通過了互聯網上超過20萬小時的2D游戲視頻訓練,目前還是一個研究預覽版。它是在無監督和無標簽視頻的情況下進行訓練的,能夠學習各種角色的動作、控制和行動,做到一致性。
對用戶而言,只要提供一段文本、一張草圖,甚至是一個想法,Genie就會完成剩下的工作,生成一款2D游戲。谷歌稱,Genie可以將任何圖像轉換成可互動的2D世界。
與Sora呈現出的高清晰度和高真實度相比,Genie似乎不那么在意畫面真實性,而是將重點放在潛在動作預測上。
雖然這距離像《星際迷航》中那樣的真正全息甲板還有一段路要走,但它確實表明,有一天走進一個房間,用幾句話創造一場完全互動的冒險是可能的。
作為一個研究項目,Genie的上市日期尚未確定,以及是否會成為真正的產品還不清楚。但重要的是其用于內容生成的潛在技術和新方法,包括通向開放世界的未標記學習。
Genie帶來的另一個重大突破是對真實世界物理的更深入理解,這可以用于訓練機器人更有效地導航環境,或完成訓練中沒有經歷過的任務。
谷歌稱,Genie開啟了圖/文生成交互世界的時代,還將成為實現通用AI代理的催化劑。