0
0

人工智能生成的视频是为了令人敬畏和误导

跨语桥梁
2024-02-26
3933
shoptop 【建站扶持计划】

免费7天,首月1元! 16大主流媒体免费开户

立即查看>>

大数跨境 导读:OpenAI 的 Sora 被设计为“世界模拟器”。

一个毛茸茸的小怪物惊奇地跪在点燃的蜡烛旁边。两艘小海盗船在一杯搅拌的咖啡中战斗。一只章鱼沿着海底的沙质爬行。一只达尔马提亚小狗从一个窗台跳到另一个窗台。这些是上周发布的 OpenAI Sora 的一系列演示视频之一,它可以将简短的文本提示变成长达一分钟的视频。

该人工智能模型尚未向公众开放,但 OpenAI 已经发布了视频以及生成视频的提示。紧随其后的头条新闻称索拉“令人瞠目结舌”、“可怕”和“令人瞠目结舌”。

OpenAI 研究人员蒂姆·布鲁克斯 (Tim Brooks) 和比尔·皮布尔斯 (Bill Peebles) 告诉《纽约时报》,他们选择了“sora”(日语中“天空”的意思),以强调“无限创造潜力的理念”。不过,OpenAI 使用另一个术语来描述 Sora:一种潜在的“世界模拟器”,随着时间的推移,它可以创建“物理和数字世界以及生活的物体、动物和人类的高性能模拟器”。在他们里面。”

它还没有到那里。虽然 Sora 工作时的可用演示视频让人感觉不可思议和现实,但 OpenAI 关于该模型的技术论文指出了它的许多“局限性”。虽然索拉有时可以准确地再现当充满颜料的画笔扫过画布时的变化,或者在展示一个人咬一口后在三明治上留下咬痕的痕迹,但索拉“并没有准确地模拟许多基本相互作用的物理过程”,例如就像玻璃破碎一样。人和物体可以自发地出现和消失,并且像许多人工智能模型一样,Sora 可以“产生幻觉”。
加里·马库斯 (Gary Marcus) 等一些人工智能专家对 Sora 这样的模型是否能够学会忠实地表示物理定律表示怀疑。但正如 DALL-E 和 ChatGPT 随着时间的推移不断改进一样,Sora 也可以。如果它的目标是成为一个“世界模拟器”,那么就值得问:Sora 认为它正在模拟的世界是什么?

未知的世界

OpenAI 让这个问题有点难以回答,因为该公司没有透露太多关于用于训练 Sora 的数据。但我们可以推断出一些事情。首先,让我们看看 Sora 是如何工作的。

Sora 是一个“扩散变压器”,这是一种奇特的说法,它结合了几种不同的人工智能方法来工作。与许多 AI 图像生成器(例如 DALL-E 或 Midjourney)一样,Sora 根据收到的文本提示从混乱中创建秩序,逐渐学习如何将一堆视觉噪音转化为代表该提示的图像。这就是扩散。变压器位与这些静态图像如何相互关联、创建移动视频有关。OpenAI 表示,Sora 被设计为视频生成多面手。

为了做到这一点,Sora 需要大量数据来学习,这些数据反映了各种风格、主题、持续时间、质量和宽高比。OpenAI 在其技术论文中表示,其开发“受到大型语言模型的启发,这些模型通过互联网规模数据的训练获得通用能力。” 虽然没有直接这么说,但可以肯定地猜测,Sora 也从互联网上获取的一些训练数据中学到了知识。
Nvidia AI 研究员 Jim Fan 认为,Sora 也有可能接受了一个数据集的训练,该数据集包含来自最新版本虚幻引擎的大量“合成”数据,虚幻引擎是一种 3D 图形创建工具,以增强视觉效果而闻名。在视频游戏中。OpenAI 还与可以提供大量数据用于培训目的的公司签订了一些协议,例如Shutterstock。至于OpenAI过去没有在其创建者或发布者同意的情况下使用的数据,嗯,还有一些悬而未决的版权诉讼。

有偏见的世界

人工智能偏见并不新鲜,正如Vox 之前所解释的那样,它可能很难克服。它渗透到训练数据和算法中,以多种不同的方式为人工智能模型提供支持。由于我们不知道 Sora 接受了哪些数据的训练,并且该工具无法供公众测试,因此很难详细说明其创建的视频中如何反映偏见。

OpenAI 首席执行官 Sam Altman 表示,他相信人工智能最终会学会摆脱偏见。

“我乐观地认为,我们将进入这样一个世界:这些模型可以成为减少社会偏见的力量,而不是加剧社会偏见,”他去年对世界其他地区表示。“尽管人们发现这些技术之前的早期系统肯定会强化偏见,但我认为我们现在可以解释说,我们想要一个没有偏见的模型,而且它在这方面做得非常好。”

蒂姆尼特·格布鲁(Timnit Gebru)等人工智能偏见和道德专家认为,这正是人们不应该相信人工智能公司所做的事情,他去年告诉《卫报》,我们不应该简单地相信人工智能系统或其背后的人能够自我调节伤害和偏见。

虚构的世界

Sora 的演示视频的很多赞誉都源于其真实性。这正是虚假信息专家对此感到担忧的原因。

一项新的研究表明,由 GPT-3(即,甚至不是为当前一代 AI 工具提供支持的最新 GPT 模型)创建的AI 生成的宣传可以与人类编写的内容一样有说服力,并且制作起来要省力得多。现在将其应用到视频中。即使无法忠实地复制地球物理学,像 Sora 这样的工具现在也可以通过多种方式来伤害和误导人们。

“这绝对是狡猾的,但我看到了两个主要用途:1)(通过广告)向人们出售更多东西 2)制作非共识/误导性内容来操纵或骚扰网上的人们,”人工智能研究科学家 Sasha Luccioni 写道在 HuggingFace,X 上。“真正的问题——为什么每个人都如此兴奋?”

在泰勒·斯威夫特 (Taylor Swift) 的深度赝品在社交媒体上流传几周后,OpenAI 宣布推出 Sora。据404 媒体报道,这些图像是通过人工智能利用系统中的漏洞创建的,这些漏洞旨在防止这种情况发生。

为了解决 Sora 的潜在偏见和滥用问题,OpenAI 只允许一小部分测试人员评估其安全风险:“我们正在与红队成员合作,他们是错误信息、仇恨内容和偏见等领域的领域专家,他们正在对抗性地测试 Sora 的安全风险。”模型,”该公司在X 的一份声明中表示。

我猜这是一个有播客人工智能狗的世界

在这一切的背后,人们担心 Sora 和其他类似工具会对创意专业人士的生计产生什么影响,他们的工作经常被用来训练人工智能工具,以接近他们的工作——通常是没有报酬的。

X 上的 Altman 正在接受粉丝对新 Sora 视频的建议,以展示我们辉煌的未来,而这显然将是这些人工智能生成的播客狗:

原文链接;https://www.vox.com/technology/24079459/sora-openai-video-tool-world-simulator

【版权声明】秉承互联网开放、包容的精神,大数跨境欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源大数跨境;同时,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至 contact@10100.com,我们将第一时间核实、处理。
0
0
跨语桥梁
大家好
内容 4367
粉丝 5
关注
跨语桥梁 大家好
总阅读29397.1k
粉丝5
内容4.4k
主页
关注
大数跨境
跨境资源整合、信息共享平台
www.10100.com

公众号

公众号

大数活动

小程序
旗下产品 M123.com
M123