OpenAI 上周推出了其生成式人工智能 (genAI) 平台的一项新功能,该平台可以使用文本输入生成视频,并包含栩栩如生的演员和其他移动部件。
新的 genAI 模型名为 Sora,具有文本转视频功能,可以创建复杂、逼真的移动场景,其中包含多个角色、特定类型的运动以及主题和背景的准确细节,“同时保持视觉质量并遵守用户的提示。”
Sora 不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。技术未来学家、商业和技术顾问伯纳德·马尔表示,该技术基本上将书面描述转化为视频内容,利用人工智能模型来理解文本输入并生成相应的视觉和听觉元素。
“这个过程涉及深度学习算法,能够解释文本并合成反映所描述的场景、动作和对话的视频,”马尔说。
Marr 表示,虽然 Sora 并不是其他提供商(例如Google 的 Gemini)提供的人工智能引擎的新功能,但预计其影响将是深远的。
他说,与任何先进的 genAI 技术一样,Sora 的影响将有助于重塑内容创作、增强故事讲述并使视频制作民主化。
马尔说:“文本转视频功能在不同领域都具有巨大潜力,例如教育领域,它们可以创建沉浸式学习材料;营销领域,用于生成引人入胜的内容;娱乐领域,用于快速原型设计和讲故事。”
然而,马尔警告说,人工智能模型将文本描述转化为成熟视频的能力也强调了严格的道德考虑和防止滥用的必要性。
马尔说:“文本到视频技术的出现带来了有关版权侵权的复杂问题,特别是当它能够生成可能与受版权保护的作品密切相关的内容时。”诉讼,现在明确说明如何解决版权问题还为时过早。”
马尔说,更令人担忧的是该技术产生高度令人信服的深度赝品的能力,引发了严重的道德和隐私问题,强调了严格审查和监管的必要性。
Emerj 人工智能的创始人兼首席研究员 Dan Faggella五年前在联合国做了关于深度造假的演讲。当时,他强调,尽管有关于深度造假的警告,“人们还是愿意相信他们愿意相信的事情。”
然而,还有一个更大的考虑:很快,人们将能够生活在 genAI 世界中,他们戴上耳机,告诉人工智能模型创建一个独特的世界来满足情感需求,无论是放松、幽默还是动作——所有这些专门为该用户以编程方式构建。
“机器能够做的就是为我带来视觉和听觉体验,最终带来触觉体验,这些体验是根据佩戴耳机的[之前的体验]进行训练的,”法格拉说。“我们需要从政策角度考虑这个问题;我们在多大程度上允许这种逃避现实的行为?”
文本到视频模型还可以构建能够带来人工智能体验的应用程序,以帮助人们提高工作效率、教育他们并让他们专注于最重要的工作。“也许训练他们成为一名出色的销售人员,也许帮助他们编写出色的代码,并做比他们现在能做的更多的编码,”他说。
OpenAI 的 Sora 和 Google 的 Gemini 1.5多模态 AI 模型 目前都是内部研究项目,仅提供给第三方学者和其他测试该技术的特定机构。谷歌表示,与 OpenAI 流行的 ChatGPT 不同,用户可以向其查询引擎输入大量信息,以获得更准确的响应。尽管 Sora 和 Gemini 1.5 目前是内部研究项目,但它们展示了真实的示例和详细信息,包括视频、照片、gif 和相关研究论文。
与 Google 的 Gemini 多模态 AI 引擎一起,Sora 被多种文本转视频模型所取代,包括 Meta 的Emu、Runway 的Gen-2和 Stability AI 的 Stable Video Diffusion。谷歌有两个并行的研究项目,推进发言人所说的“最先进的视频生成模型”。这些项目是Lumiere和VideoPoet。
Lumiere 于本月初发布,是 Google 更先进的视频生成技术;它提供每秒 80 帧的速度,而 Stable Video Diffusion 等竞争对手的速度为每秒 25 帧。
Marr 表示:“Gemini 旨在处理信息和自动化任务,从一开始就提供了模式的无缝集成,对于寻求直接、以任务为导向的体验的用户来说,可能会变得更加直观。” “另一方面,GPT-4 的分层方法允许随着时间的推移更精细地增强功能,从而在对话能力和内容生成方面提供灵活性和深度。”
在正面比较中,Sora 似乎比 Google 的视频生成模型更强大。虽然 Google 的 Lumiere 可以生成分辨率为 512x512 像素的视频,但 Sora 声称可以达到高达 1920×1080 像素或高清质量的分辨率。Lumiere 的视频长度被限制在 5 秒左右;Sora 的视频最长可达一分钟。
此外,卢米埃无法制作由多个镜头组成的视频,而索拉可以。据报道,与其他模型一样,Sora 也能够执行视频编辑任务,例如从图像或其他视频创建视频、组合不同视频的元素以及及时扩展视频。
Marr 表示:“在 OpenAI 的 Sora 与 Runway AI 等初创公司之间的竞争中,成熟度可能会在可靠性和可扩展性方面提供优势。”能够迅速赶上并有可能超越。”
原文链接;https://www.computerworld.com/article/3713001/openais-sora-text-to-video-tools-impact-will-be-profound.html