上周,OpenAI 的第一个视频生成模型Sora引起了互联网的热议。然而,与此同时,来自竞争对手公司的一大批人工智能专家和研究人员迅速剖析和批评了 Sora 的变压器模型,引发了一场物理学争论。
人工智能科学家加里·马库斯 (Gary Marcus)是众多批评者之一,他们不仅批评Sora 生成的视频的准确性,还批评用于视频合成的生成式人工智能模型。
竞争对手联合起来
Meta 和 Google 此举似乎破坏了 Sora 的扩散模型结构,对该模型对物理世界的理解提出了质疑。
Meta 负责人 Yann LeCun表示:“根据提示生成几乎逼真的视频并不表明系统理解物理世界。生成与世界模型的因果预测有很大不同。可信视频的空间非常大,视频生成系统只需要生成一个样本即可成功。”
LeCun 进一步解释说,为了将 Sora 与 Meta 最新的 AI 模型产品V-JEPA(视频联合嵌入预测架构)区分开来,V-JEPA 是一种分析视频中对象之间交互的模型。他说,“这就是 JEPA(联合嵌入预测架构)背后的全部要点,它不是生成性的,而是在表示空间中进行预测”——这是为了让 V-JEPA 的自监督模型看起来优于 Sora 的扩散变压器模型。
研究员兼企业家Eric Xing也支持了 LeCun 的观点。“能够基于理解进行推理的代理模型必须超越 LLM 或 DM,”他说。
Gemini Pro 1.5 的发布时机再好不过了。Sora 生成的视频在 Gemini 1.5 Pro 上运行,模型批评视频中的不一致之处,表明“这不是现实生活中的场景”。
埃隆·马斯克也不甘落后。他称Tesla 的视频生成能力在预测准确的物理现象方面优于 OpenAI。
虽然专家们很快就否认了生成模型的功能,但对该模型背后的“物理”的理解却被忽视了。
事物的物理学
Sora 使用类似于 GPT 模型的Transformer 架构,OpenAI 相信该基金会将“理解并模拟现实世界”,这将有助于实现 AGI。虽然不称为物理引擎,但虚幻引擎 5 生成的数据可能已用于训练 Sora 的底层模型。
NVIDIA 高级研究科学家Jim Fan通过解释数据驱动的物理引擎阐明了 OpenAI 的 Sora 模型。他说:“Sora 通过大量视频的梯度下降,隐式地在神经参数中学习物理引擎。”他将 Sora 称为可学习的模拟器或世界模型。
范也对Sora的还原论观点表示不赞同。“我看到一些强烈的反对意见:‘Sora 不是在学习物理,它只是在操纵 2D 像素’。我谨不同意这种还原论的观点。这类似于“GPT-4 不学习编码,它只是采样字符串”。嗯,变压器所做的只是操作一个整数序列(令牌 ID)。神经网络所做的只是操纵浮点数。这不是正确的论点,”他说。
Sora 正处于 GPT-3 时刻
最近在社交媒体上直言不讳的Perplexity 创始人Aravind Srinivas也发声支持 LeCun。“现实是索拉,虽然令人惊奇,但仍然没有准备好准确地模拟物理,”他说。
有趣的是,在任何人指出该模型的局限性之前,OpenAI 自己就已经指出了这些局限性。该公司博客指出,Sora 可能难以准确模拟复杂场景的物理原理,因为它可能无法理解因果关系的具体实例。它还可能与提示的空间细节混淆,例如遵循特定的相机轨迹等等。
Fan 还将Sora比作2020 年的“GPT-3 时刻”,当时模型需要“大量的提示和照顾”。然而,这是“情境学习作为一种新兴属性的首次引人注目的展示”。
当前的限制不会影响生成的输出质量。去年 8 月,当 OpenAI 收购Global Illumination(一家创建开源游戏 Biomes(类似于 Minecraft)的数字产品公司)时,人们对视频生成和通过自动代理构建模拟模型平台的范围进行了一些猜测。
现在,随着《Sora》的发布,颠覆视频游戏行业的可能性只会不断升级。如果Sora处于GPT-3时刻,模型的GPT-4将无法理解。在那之前,怀疑论者将继续争论,并可能互相教导一两件事。
原文链接:https://analyticsindiamag.com/openai-sora-ignites-physics-debate/