0
0

关于 Sora,两年的人工智能发展可以告诉我们什么

跨境大师兄
2024-02-26
3423
shoptop 【建站扶持计划】

免费7天,首月1元! 16大主流媒体免费开户

立即查看>>

大数跨境 导读:如果您想了解 OpenAI 最新工具的未来,请查看 Midjourney 和 DALL-E 2。

还记得人工智能艺术生成器在 2022 年广泛使用时,突然互联网上充满了非常酷但仔细观察时看起来不太正确的不可思议的图片吗?准备好迎接这种情况再次发生吧——不过这次是视频。

上周,OpenAI 发布了 Sora,这是一种生成式人工智能模型,可以根据简单的提示生成视频。它尚未向公众开放,但首席执行官 Sam Altman 通过在 X(以前称为Twitter)上接受请求来展示其功能。用户回复时会给出简短的提示:“一只猴子在公园里下棋”,或者“在海洋上进行自行车比赛,不同的动物作为运动员。” 它是不可思议的、令人着迷的、怪异的、美丽的——并且引发了通常的评论循环。

有些人对 Sora 的负面影响提出了强烈的主张,期待出现“虚假信息浪潮”——但虽然我(和专家)认为未来强大的人工智能系统会带来真正严重的风险,但声称特定模型会给我们带来虚假信息浪潮的说法并没有出现。到目前为止。

其他人则指出 Sora 的许多缺陷代表了该技术的根本局限性——当人们使用图像生成器模型来实现这一点时,这是一个错误,我怀疑,这将再次成为一个错误。正如我的同事 AW Ohlheiser指出的那样,“就像 DALL-E 和 ChatGPT 随着时间的推移不断改进一样,Sora 也可以。”

这些预测,无论是看涨还是看跌,都可能会成为现实——但是,如果各方人士更多地考虑过去几年来我们被证明是错误的所有方式,围绕 Sora 和生成人工智能的对话将会更加富有成效。

DALL-E 2 和 Midjourney 可以让我们了解 Sora 的哪些知识

两年前,OpenAI 发布了DALL-E 2,这是一种可以根据文本提示生成静态图像的模型。它产生的高分辨率奇幻图像很快就传遍了社交媒体,人们对它的看法也随之而来:真正的艺术?假艺术?对艺术家构成威胁?艺术家的工具?虚假信息机器?两年后,如果我们希望我们对 Sora 的看法能够更加成熟,那么值得进行一些回顾。

DALL-E 2 的发布仅比Midjourney和Stable Diffusion这两个受欢迎的竞争对手早了几个月。他们每个人都有自己的优点和缺点。DALL-E 2 制作了更逼真的图片,并且更好地遵循提示;中途是“更有艺术气息的”。他们共同让数百万人只需点击一下按钮即可获得人工智能艺术。

当时,生成式人工智能的大部分社会影响并不是直接来自 DALL-E 2,而是来自它所引领的图像模型浪潮。同样,我们可能认为,关于 Sora 的重要问题不仅仅是 Sora 能做什么,而是它的模仿者和竞争对手将能够做什么。

许多人认为 DALL-E 及其竞争对手预示着大量深度造假宣传和诈骗将威胁我们的民主。虽然有一天我们很可能会看到这样的效果,但现在发出这样的呼吁似乎还为时过早。分析师 Peter Carlyon在 12 月写道,深度造假对我们民主的影响“似乎总是指日可待” ,并指出大多数宣传仍然是一种更无聊的类型——例如,断章取义的言论,或者一场冲突的图片共享并被错误标记为来自他人。

大概在某个时候,这种情况会发生改变,但对于索拉将带来这种改变的说法,我们应该保持一些谦虚的态度。不需要深度造假就能对人们撒谎,而且仍然是一种昂贵的方法。 (人工智能一代相对便宜,但如果你想要一些具体且令人信服的东西,那就要贵得多。深度造假的海啸意味着垃圾邮件发送者目前大多无法承受的规模。)

但对我来说,记住过去两年的人工智能历史最重要的地方是当我读到对 Sora 的图像笨拙、生硬、不人道或明显有缺陷的批评时。确实如此,他们确实如此。OpenAI 的研究报告承认,Sora“没有准确地模拟许多基本相互作用的物理过程”,并补充说它在因果关系、左右混淆以及遵循轨迹方面存在问题。

当然,《DALL-E 2》和《中途之旅》也受到了几乎相同的批评——至少一开始是这样。早期对 DALL-E 2 的报道强调了它的无能,从每当你要求在一个场景中出现多个角色时创造出可怕的怪物,到给人们爪子而不是手。人工智能专家认为,人工智能无法处理“组合性”——或者关于如何组合场景元素的指令——反映了该技术的根本缺陷。

但在实践中,模型在满足高度具体的提示方面变得更好,用户在提示方面也变得更好,因此今天可以创建具有复杂和详细场景的图像。几乎所有的娱乐性缺陷都在去年发布的 DALL-E 3 和 Midjourney 的最新更新中得到了纠正。今天的图像生成器可以很好地处理手部和人群场景。

在 DALL-E 2 和 Sora 之间的时间里,AI 图像生成已经从派对技巧发展成为一个庞大的产业。许多 DALL-E 2 无法做到的事情,DALL-E 3 却可以。即使 DALL-E 3 做不到,竞争对手也常常可以。当你阅读对 Sora 的预测时,记住这一观点至关重要——你可能会看到一项主要新功能的早期步骤,该功能可能用于善意或恶意目的,虽然可能会过度 推销它,但它是也很容易卖空。

与其对 Sora 及其继任者能做什么或不能做什么过度执着于任何特定观点,值得承认其发展方向存在一些不确定性。说“这项技术将不断突飞猛进”比猜测具体结果要容易得多。
原文链接;https://www.vox.com/future-perfect/24080195/sora-openai-sam-altman-ai-generated-videos-disinformation-midjourney-dalle

【版权声明】秉承互联网开放、包容的精神,大数跨境欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源大数跨境;同时,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至 contact@10100.com,我们将第一时间核实、处理。
0
0
跨境大师兄
持续更新跨境干货
内容 24
粉丝 0
关注
跨境大师兄 持续更新跨境干货
总阅读150.0k
粉丝0
内容24
主页
关注
大数跨境
跨境资源整合、信息共享平台
www.10100.com

公众号

公众号

大数活动

小程序
旗下产品 M123.com
M123