人工智能的发展速度正走向人类无法理解的地步,而 OpenAI 的 Sora 文本转视频系统只是最新的人工智能技术,它让世界震惊,让世界意识到事情发生的速度比任何人预期的都要早。
什么是 OpenAI Sora?
与DALL-E和 MidJourney等其他生成式 AI 工具一样,Sora 会从您那里获取文本提示并将其转换为视觉媒体。然而,与前面提到的人工智能图像生成器不同,Sora 创建的视频剪辑包含运动、不同的摄像机角度、方向以及传统制作视频所期望的所有其他内容。
查看Sora 网站上的示例,结果通常与真实的专业制作的视频没有区别。从高端无人机镜头到价值数百万美元的电影制作,应有尽有。配有人工智能生成的演员、特效和作品。
Sora 当然不是第一个做到这一点的技术。到目前为止,该领域最引人注目的领导者是RunwayML,他们确实向公众提供收费服务。然而,即使在最好的情况下,Runway 的视频也更类似于早期的 MidJourney 静态图像。图像不稳定,物理原理没有意义,在我写这篇文章时,最长的剪辑长度是 16 秒。
相比之下,Sora 必须展示的最佳输出是完全稳定的,物理效果看起来不错(至少对我们的大脑来说),并且剪辑长度可达一分钟。这些片段完全没有声音,但已经有其他人工智能系统可以生成音乐、音效和语音。因此,我毫不怀疑这些工具可以集成到 Sora 工作流程中,或者最坏的情况下集成到传统的配音和拟音工作中。
从 Sora 演示前一年的噩梦般的 AI 视频片段来看,Sora 所代表的巨大飞跃怎么强调都不为过。比如相当令人不安的人工智能威尔·史密斯吃意大利面。我认为这对系统的冲击比人工智能图像生成器从一个流行的笑话变成给视觉艺术家的生存恐惧更大。
Sora 可能会影响整个视频行业,从单人素材制作一直到迪士尼和漫威巨额预算项目的水平。一切都不会因此而受到影响。我认为这一点尤其正确,因为 Sora 不必创建完整的东西,但可以使用现有材料,例如为您提供的静态图片制作动画。这可能是合成电影行业的真正开始。
索拉如何运作?
我们将尽可能深入了解 Sora,但不可能详细介绍。首先,具有讽刺意味的是,OpenAI 并未公开其技术的内部运作方式。这些都是专有的,因此我们不知道 Sora 在竞争中脱颖而出的秘密武器的具体细节。其次,我不是计算机科学家,你可能也不是计算机科学家,所以我们只能从广义上理解这项技术是如何工作的。
好消息是,Medium 上有一个由Mike Young撰写的优秀(付费)Sora 解释器,该解释器基于OpenAI 的一份技术报告,他将其分解为我们凡人可以理解。虽然这两份文件都非常值得一读,但我们可以在这里提取最重要的事实。
Sora 是基于 OpenAI 等公司在创建 ChatGPT 或 DALL-E 等技术时吸取的经验教训而构建的。Sora 创新了样本视频的训练方式,将这些视频分解为“补丁”,类似于 ChatGPT 训练模型使用的“令牌”。因为这些标记的大小都相同,所以剪辑长度、宽高比和分辨率大小等对 Sora 来说并不重要。
Sora 使用与 GPT 相同的广泛变压器方法以及 AI 图像生成器使用的扩散方法。在训练过程中,它会查看视频中噪声部分扩散的补丁标记,并尝试预测干净、无噪声的标记会是什么样子。通过将其与真实情况进行比较,模型学习视频的“语言”。这就是为什么 Sora 网站上的示例看起来如此真实。
除了这种非凡的能力之外,Sora 还为其训练的视频帧提供了非常详细的字幕,这也是它能够根据文本提示修改生成的视频的重要原因。
Sora 准确模拟视频中物理现象的能力似乎是一个新兴功能,这只是通过对数百万个包含基于现实世界物理运动的视频进行训练而产生的。Sora 具有出色的物体持久性,即使物体离开画面或被画面内的其他物体遮挡,它们也会保持存在并不受干扰地返回。
然而,当视频中的事物具有因果关系和自发对象生成时,有时仍然存在问题。另外,有点有趣的是,空似乎有时会混淆左右。尽管如此,到目前为止所展示的内容不仅已经可用,而且绝对是最先进的。
你什么时候能得到索拉?
所以我们都非常兴奋能够亲身体验 Sora,你可以打赌我会用它来玩,并在我们没有看到精心挑选的输出时准确地写下这项技术有多么好,但这要多久才能发生呢?
截至撰写本文时,尚不清楚 Sora 需要多长时间才能向公众开放,也不清楚它的费用是多少。OpenAI 表示,这项技术掌握在“红队”手中,这群人的工作就是尝试让 Sora 做所有不应该做的顽皮的事情,然后帮助设置护栏以防止此类行为当实际客户开始使用它时发生的事情。这包括制造错误信息、制作贬义或冒犯性材料的可能性,以及人们可能想象到的更多滥用行为。
截至撰写本文时,它也掌握在选定的创作者手中,我怀疑这既是为了测试目的,也是为了在我们最终发布时获得一些第三方评论和认可。
最重要的是,我们实际上并不知道它何时可用,就像您只需付费并使用 DALL-E 3 一样,实际上,甚至 OpenAI 也没有确定的日期。这仅仅是因为,如果它掌握在安全测试人员手中,他们可能会发现需要比预期更长的时间才能解决的问题,这将推迟公开发布。
OpenAI 感觉已经准备好炫耀 Sora,甚至通过 X(以前称为 Twitter)接受一些精心策划的公众提示,这一事实仅意味着该公司认为最终产品的质量已经基本准备就绪,但直到公众舆论有更好的了解为止,提出的安全问题,以及发现的安全问题,没有人能肯定地说。我认为我们谈论的是几个月而不是几年,但不要指望下周。
原文链接;https://www.howtogeek.com/what-is-openai-sora-and-will-it-change-video-forever/