该公司展示了一些令人印象深刻的样本片段,从一对夫妇走过雪地,到机载摄像机平稳地跟踪一辆白色老式SUV在土路上行驶。
对于生成式人工智能技术来说,这无疑是一个相当大的飞跃——也许在视频之外的领域也是如此。事实上,OpenAI 已经将 Sora 称为“世界模拟器”,能够理解我们周围三维世界的重要方面,无论是输出类似 CGI 的数字景观场景还是一个女人走下来的视频夜晚霓虹灯闪烁的街道。
该公司写道:“我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。”
“它学习 3D 几何形状和一致性,”Sora 研究科学家 Tim Brooks告诉Wired。“我们并没有将这一点纳入其中——它完全是通过查看大量数据而得出的。”
从广义上讲,Sora 是扩散变压器模型的自然演变,迄今为止该模型主要用于人工智能生成高分辨率图像。简而言之,扩散模型的工作原理是逐渐向原始图像添加噪声,然后逐步学习如何消除这些噪声,从而创建新图像。
为了训练 Sora,OpenAI 为其提供了大量带字幕的视频,以在视频片段和文本输入之间建立联系。
除了根据提示生成全新的片段外,Sora 还可以扩展现有剪辑或将人工智能生成的图像转换为视频。
在开发 Sora 时,OpenAI 研究人员观察到“在大规模训练时会出现许多有趣的新兴功能”。例如,根据该公司的文件,它可以“模拟现实世界中人、动物和环境的某些方面” 。
生成的剪辑显示,Sora 可以在平移、跟踪或缩放时生成具有动态且极其平滑的摄像机移动的镜头,展示了对 3D 空间的相当程度的明显理解。
令人着迷的是,该公司甚至似乎暗示这项技术可以发展成为一个游戏平台。
该公司写道:“这些功能表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人类的高性能模拟器的一条有前途的道路。”
与此同时,索拉还远非完美。其一,该模型仍然没有完全理解因果关系。
该公司写道:“例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕。”
另一个片段显示一个玻璃杯泄漏了里面的东西,但实际上并没有先破碎。
尽管有其局限性,Sora 可能是对未来的早期一瞥,在这个未来中,人工智能生成的视频很快就会变得无法与真实的东西区分开来。
OpenAI 非常清楚该技术被滥用的可能性。因此,该公司选择慢慢向“红队人员推出该工具,以评估关键领域的危害或风险”。项目研究员比尔·皮布尔斯 (Bill Peebles) 告诉《连线》杂志:“我们将非常谨慎地考虑由此带来的所有安全影响。 ”
原文链接:https://futurism.com/openai-sora-ai-simulate-worlds