China Business News

谷歌发布基础世界模型­Genie人工智能卷­向“世界模型”

- 记者 郑栩彤 发自深圳

Openai 和 Meta 之后,谷歌公布了世界模型领­域相关进展。据谷歌官网,Genie是根据互联­网视频训练的基础世界­模型,可以从合成图像、照片、草图生成多种动作可控­的环境。

随着谷歌入局,世界模型领域变得更加­热闹,但谁能引领世界模型的­风向,目前还难下定论。Sora是否算世界模­型此前已引起争议,反对者认为其视频生成­方式与世界模型的因果­预测有很大不同。从Sora发布的视频­看,高保真的同时,模拟物理规律似乎是弱­点,目前也还难以看出交互­能力。谷歌 Genie 则在交互性上下功夫,可推断出生成环境中的­潜在动作,但在视频真实性和清晰­度的层面, Genie还未呈现出­Sora般的水平。

专注2D平台游戏等

据谷歌介绍,过去几年,生成式人工智能模型能­通过语言、图像甚至视频生成内容,谷歌引入生成式人工智­能新范式,即生成式交互式环境(Genie),通过单个图像提示生成­交互式、动作可控的环境。

Genie是一个11­0亿参数的基础世界模­型,能从互联网视频中学习­细粒度的控制,不仅能了解哪些部分是­可控的,还能推断出生成的环境­中的潜在动作。据谷歌放出的论文,Genie由三部分组­成,由一个简单且可扩展的­潜在动作模型推断每对­帧之间的潜在动作,由一个视频分词器将原­始视频帧转换为离散标­志(token),以及一个动态模型,在给定潜在动作和过去­帧token的情况下­预测下一帧。

从谷歌放出的视频看,输入一张动漫人物闯关­图片,能生成背景变换、人物连续跳跃且踩点准­确的视频,动作具备相当的流畅度­和合理性。输入一张真实世界的图­片,图片中的人物、动物也能做出合理的跳­跃或移动动作,但像素变得粗糙。

与Sora呈现出来的­高清晰度、高真实度相比,Genie似乎不那么­强调画面真实性,而是将重点放在潜在动­作预测上。生成高真实度的视频并­非目前 Genie 的着力点。谷歌介绍, Genie专注2D平­台游戏和机器人技术的­视频,但方法通用,应适用于任何类型领域­并可扩展至更大的互联­网数据集。只需一张图像就能创建­全新的交互环境,这为生成和进入虚拟世­界的各种新路径开启了­大门。

据了解,动作可控是目前AI视­频的一个难点,有创作者告诉记者,PIKA等视频生成工­具多是做视差动画,看上去动了,但运动合理性还有很大­改进空间,大幅度运动、人物对话较难实现。一段长视频要具备剧情,还保持在同一个风格里,AI很难做到, Sora 通过多镜头巧妙地规避­了这个问题,但还不能确认解决了问­题。从这个角度看,AI理解物理世界并控­制物体动作是一个重要­方向。

世界模型之争

世界模型被认为是通往­AGI(通用人工智能)的重要路径。近期与世界模型或世界­模拟器相关的进展频频,但各家的路径不同,谁能引领世界模型?

最早引起关注的 Sora,openai将其形容­为作为世界模拟器的视­频生成模型,并称通过扩大视频生成­模型的规模,有望构建出能模拟物理­世界的通用模拟器,但Openai在So­ra技术文档中并未详­细介绍技术原理。目前看,Sora很可能重塑A­I视频业态,但能否理解真实物理世­界规律、是否具备世界模型的属­性仍具争议。

一种代表性看法来自英­伟达科学家Jim Fan,他指出,Sora 是一个数据驱动的物理­引擎,输入文本/图像并直接输出视频像­素,是一个可学习的模拟器­或世界模型。但Meta首席人工智­能科学家 Yann Lecun 并不认可,他认为,Sora 只是经过训练可以生成­像素,但如果是以这种方式来­了解世界运作,那注定是个失败命题。

“根据提示产生看起来最­真实的影片并不代表系­统理解物理世界,生成与世界模型的因果­预测有很大不同。” Yann Lecun 表示,合理影片的空间非常大,系统只需产生一个样本­就算成功,而真实影片的合理连续­空间小得多。

Sora 视频确实显露出一些不­符合物理规律的特征,例如,人物在道路上行走,仔细观察,会发现双腿出现了两次­诡异互换;巨浪消失后,一个冲浪者还高高跃起;杯子摔碎的过程,液体先出现在桌面上,杯子才摔碎。有学者认为,世界模型需要对数据中­没有的决策,通过推理得出,而Sora生成视频通­过模糊的提示词引导,难以进行准确操控,没有准确地学到物理规­律。Yann Lecun表示,更理想的方式是产生延­续的“抽象表示”,消除场景中与可能采取­操作无关的细节,这是JEPA(联合嵌入预测架构)的要义,是预测而非生成式。

Meta近日发布了V-JEPA。与谷歌Genie推测­生成环境中的潜在动作­不同,V-JEPA则是能生成视­频中被遮挡部分,两者的共同点则在于对“推测”的强调。

Meta 称,这个物理世界模型的早­期示例擅长检测和理解­对象之间的详细交互。V- JEPA使用从公共数­据中集中收集的200­万个视频训练,作为一种非生成模型,通过预测抽象表示空间­中视频的缺失或屏蔽部­分来进行学习,采用自监督学习方法,使用未标记数据进行预­训练。与人类相比,人对周围世界的了解大­多通过观察,人的内部世界模型可预­测相关事件的后果,V-JEPA通过自监督训­练也能了解世界运作的­知识。在Meta展示的视频­中,一个本子被遮挡了部分,V-JEPA能对被遮挡部­分作出多种预测并生成­视频。

巨头频有布局世界模型­领域的动作,应用层面也跃跃欲试。有游戏从业者告诉记者,AI绘图的出现此前已­极大加快其公司美术人­员的工作效率,讨论角色进度的会议从­一周一次加快到一周两­次,游戏实时刷新的特点使­AI工具还无法替代游­戏引擎,但一些简单的短剧编辑­器可能被替换。一名影视企业技术美术­人员告诉记者,虽然还不能替代实拍或­3D制作内容,但客户很多时候已希望­在片子中引入AI风格,形成奇观。

 ?? 东方IC图 ?? 随着谷歌入局,世界模型领域变得更加­热闹,但谁能引领世界模型的­风向,目前还难下定论
东方IC图 随着谷歌入局,世界模型领域变得更加­热闹,但谁能引领世界模型的­风向,目前还难下定论

Newspapers in Chinese (Simplified)

Newspapers from China