OpenAI的Sora是什么？

聊聊AI那些事

2024-02-26

4432

导读： ChatGPT制造商OpenAI现已推出Sora，它的人工智能引擎用于将文本提示转换为视频。想想Dall-E（也由 OpenAI 开发），但用于电影而不是静态图像。

对于 Sora 来说，现在还处于早期阶段，但人工智能模型已经在社交媒体上引起了广泛关注，多个片段在流传——这些片段看起来像是由演员和电影制作人团队组合而成的。

在这里，我们将解释您需要了解的有关 OpenAI Sora 的所有信息：它的功能、它的工作原理以及您何时可以自己使用它。AI文字提示电影制作时代已经到来。

OPENAI SORA 发布日期和价格

2024 年 2 月，OpenAI Sora 向“红队人员”开放，这些人员的工作是测试产品的安全性和稳定性。OpenAI 现在还邀请了一些精选的视觉艺术家、设计师和电影制作人来测试视频生成功能并提供反馈。
OpenAI 表示：“我们正在尽早分享我们的研究进展，以便开始与 OpenAI 之外的人员合作并获取反馈，让公众了解即将出现的人工智能功能。”

换句话说，我们其他人还不能使用它。目前还没有迹象表明 Sora 何时可以向更广泛的公众开放，或者我们需要支付多少费用才能访问它。
我们可以根据 ChatGPT 发生的情况对时间尺度做出一些粗略的猜测。在该人工智能聊天机器人于 2022 年 11 月向公众发布之前，它的前身是当年早些时候的 InstructGPT。此外，OpenAI 的 DevDay 通常在每年 11 月举行。

那么，Sora 当然有可能遵循类似的模式，并在 2024 年的类似时间向公众发布。但这目前只是猜测，一旦获得有关 Sora 发布的任何更清晰的迹象，我们将立即更新此页面日期。

至于价格，我们同样没有任何关于 Sora 可能售价的线索。作为指导，ChatGPT Plus – 提供最新的大型语言模型 (LLM) 和 Dall-E – 目前每月费用为 20 美元（约 16 英镑/30 澳元）。

但与使用 Dall-E 生成单个图像相比，Sora 还需要更多的计算能力，而且该过程也需要更长的时间。因此，目前还不清楚 Sora（实际上是一篇研究论文）如何能够转化为一种负担得起的消费品。

OPENAI SORA 是什么？

您可能很熟悉生成式 AI 模型，例如用于文本的Google Gemini和用于图像的 Dall-E，它们可以根据大量训练数据生成新内容。例如，如果你要求 ChatGPT 给你写一首诗，你得到的反馈将基于人工智能已经吸收和分析的大量诗歌。

OpenAI Sora 也有类似的想法，但针对的是视频剪辑。你给它一个文字提示，比如“女人晚上走在城市街道上”或“汽车驶过森林”，你就会收到一个视频。与 AI 图像模型一样，您可以非常具体地说明剪辑中应包含哪些内容以及您想要查看的素材风格。

为了更好地了解其工作原理，请查看OpenAI 首席执行官 Sam Altman发布的一些示例视频- 在 Sora 向全世界展示后不久，Altman 响应了社交媒体上提出的提示，返回基于文本的视频，例如“一名巫师戴着尖顶帽子，穿着带有白色星星的蓝色长袍，施展咒语，从手中射出闪电，另一只手拿着一本旧书”。
OPENAI SORA 是如何工作的？
从简化的角度来看，Sora 背后的技术与让您在网络上搜索狗或猫的图片的技术相同。向人工智能展示足够多的狗或猫的照片，它就能在新图像中发现相同的图案；同样，如果你用一百万个日落或瀑布的视频来训练人工智能，它就能够生成自己的视频。

当然，这背后有很多复杂性，OpenAI 深入探讨了其人工智能模型的工作原理。它接受“互联网规模数据”的训练，以了解真实的视频是什么样子，首先分析剪辑以了解它在看什么，然后在被要求时学习如何生成自己的版本。

因此，要求 Sora 制作一个鱼缸的剪辑，它会根据它看过的所有鱼缸视频返回一个近似值。它利用所谓的视觉补丁，即更小的构建块，帮助人工智能了解什么应该放在哪里，以及视频的不同元素应该如何逐帧交互和进展。
Sora 基于扩散模型，其中人工智能从“嘈杂”的响应开始，然后通过一系列反馈循环和预测计算来实现“干净”的输出。您可以在上面的帧中看到这一点，其中一只狗在节目中玩耍的视频从无意义的斑点变成了实际上看起来很现实的东西。

与其他生成式 AI 模型一样，Sora 使用 Transformer 技术（ChatGPT 中的最后一个 T 代表 Transformer）。Transformers 使用各种复杂的数据分析技术来处理大量数据 - 它们可以了解正在分析的内容中最重要和最不重要的部分，并找出周围的上下文以及这些数据块之间的关系。

我们不完全知道 OpenAI 是从哪里找到训练数据的——它没有说哪些视频库被用来为 Sora 提供支持，尽管我们确实知道它与Shutterstock 等内容数据库有合作伙伴关系。在某些情况下，您可以看到训练数据和 Sora 生成的输出之间的相似之处。

OPENAI SORA 可以做什么？

目前，Sora 能够根据文本提示制作长达一分钟的高清视频，不附加任何声音。如果您想了解一些可能性的示例，我们整理了11 条令人惊叹的 Sora 短裤供您查看，其中包括毛茸茸的皮克斯风格动画角色和戴着针织头盔的宇航员。

OpenAI 表示：“Sora 可以生成长达一分钟的视频，同时保持视觉质量并遵守用户的提示。”但这还不是全部。它还可以从静态图像生成视频、填充现有视频中缺失的帧以及将多个视频无缝拼接在一起。它也可以创建静态图像，或者从提供给它的剪辑中产生无限循环。

它甚至可以生成《我的世界》等视频游戏的模拟，同样基于大量训练数据，这些数据教会它《我的世界》这样的游戏应该是什么样子。我们已经看过一个演示，其中 Sora 能够在 Minecraft 风格的环境中控制玩家，同时还能准确地渲染周围的细节。
OpenAI 目前确实承认 Sora 的一些局限性。物理学并不总是有意义的，人会消失、变形或融入其他物体。Sora 并不是用单独的演员和道具来绘制场景，而是对像素在帧与帧之间的位置进行大量计算。

在 Sora 视频中，人们可能会以违反物理定律的方式移动，或者细节（例如从饼干中取出一口）可能不会从一帧到下一帧被记住。OpenAI 已经意识到这些问题并正在努力解决它们，您可以查看OpenAI Sora 网站上的一些示例来了解我们的意思。

尽管存在这些缺陷，OpenAI 仍希望 Sora 能够发展成为物理和数字世界的现实模拟器。在未来的几年里，Sora 技术可以用来生成想象的虚拟世界供我们探索，或者使我们能够充分探索人工智能中复制的真实地方。

如何使用 OPENAI SORA？

目前，如果没有邀请，你无法进入 Sora：OpenAI 似乎正在挑选个人创作者和测试人员来帮助其视频生成的 AI 模型为全面公开发布做好准备。这个预览期会持续多久，无论是几个月还是几年，还有待观察——但 OpenAI 此前曾表示愿意在其人工智能项目上尽快采取行动。

基于 OpenAI 已公开的现有技术（Dall-E 和 ChatGPT），Sora 最初可能会作为网络应用程序提供。自推出以来，ChatGPT 变得更加智能，并添加了新功能，包括自定义机器人，并且 Sora 在全面推出时很可能会遵循相同的路径。

在此之前，OpenAI 表示希望设置一些安全防护栏：你将无法生成显示极端暴力、性内容、仇恨图像或名人肖像的视频。还计划通过在 Sora 视频中包含元数据来打击错误信息，表明这些视频是由人工智能生成的。
原文链接；https://www.techradar.com/computing/artificial-intelligence/openai-sora

【声明】该内容为作者个人观点，大数跨境仅提供信息存储空间服务，不代表大数跨境观点或立场。版权归原作者所有，未经允许不得转载。如发现本站文章存在版权问题，请联系：contact@10100.com

Sora

聊聊AI那些事

国内外AI人工智能、机器人、AR/VR、无人驾驶、深度学习、5G、智能制造、新零售等前沿科技报道。

内容 22

粉丝 0

咨询

关注