今年 4 月,纽约一家名为 Runway AI 的初创公司推出了一项技术,让人们只需在电脑屏幕上的框中输入一个句子,就可以生成视频,例如生日聚会上的牛或智能手机上聊天的狗。这段四秒的视频模糊、断断续续、扭曲且令人不安。但它们清楚地表明,人工智能技术将在未来几个月乃至几年内生成越来越令人信服的视频。仅仅 10 个月后,旧金山初创公司 OpenAI 推出了一个类似的系统,该系统可以创建看起来像是从好莱坞电影中提取的视频。演示包括在几分钟内制作的短视频,其中包括长毛猛犸象在白雪皑皑的草地上小跑、一只怪物凝视着融化的蜡烛,以及看似由俯冲穿过城市的摄像机拍摄的东京街景。
OpenAI 是ChatGPT 聊天机器人和静态图像生成器 DALL-E背后的公司,是众多竞相改进这种即时视频生成器的公司之一,其中包括 Runway 等初创公司以及 Google 和 Meta 等科技巨头。脸书和Instagram。该技术可以加快经验丰富的电影制作人的工作速度,同时完全取代经验不足的数字艺术家。它还可能成为一种快速且廉价的在线虚假信息制造方式,使人们更难辨别互联网上的真实情况。
华盛顿大学专门研究人工智能的教授奥伦·埃齐奥尼 (Oren Etzioni) 表示:“我非常害怕这种事情会影响一场势均力敌的选举。” 他还是 True Media 的创始人,该非营利组织致力于识别政治竞选中的网络虚假信息。
OpenAI 将其新系统称为“Sora”,源自日语中的“天空”一词。该技术背后的团队,包括研究人员蒂姆·布鲁克斯和比尔·皮布尔斯,选择这个名字是因为它“唤起了无限创造潜力的想法”。
在接受采访时,他们还表示,该公司尚未向公众发布 Sora,因为它仍在努力了解该系统的危险性。相反,OpenAI 正在与一小群学者和其他外部研究人员共享该技术,他们将对该技术进行“红队”,这个术语的意思是寻找可能被滥用的方式。“这样做的目的是预览即将发生的事情,以便人们能够看到这项技术的功能,并且我们可以获得反馈,”布鲁克斯博士说。OpenAI 已经在系统生成的视频上添加了水印标记,以表明它们是由人工智能生成的。但该公司承认这些可以被删除。它们也很难被发现。(《纽约时报》在包含此故事的视频中添加了“由人工智能生成”水印。)
该系统是生成式人工智能的一个例子,它可以立即创建文本、图像和声音。与其他生成式人工智能技术一样,OpenAI 的系统通过分析数字数据进行学习——在本例中是视频和描述这些视频内容的字幕。
OpenAI 拒绝透露系统学习了多少视频或这些视频来自何处,只是表示培训包括公开视频和版权所有者许可的视频。该公司很少透露用于训练其技术的数据,很可能是因为它希望保持相对于竞争对手的优势,并且因使用受版权保护的材料而多次被起诉。
(《纽约时报》去年 12 月起诉OpenAI 及其合作伙伴微软,声称侵犯了与人工智能系统相关的新闻内容的版权。)
Sora 根据简短的描述生成视频,比如“一个渲染华丽的珊瑚礁纸艺世界,里面充满了色彩缤纷的鱼类和海洋生物。” 尽管这些视频可能令人印象深刻,但它们并不总是完美的,并且可能包含奇怪和不合逻辑的图像。例如,该系统最近生成了一段有人吃饼干的视频,但饼干从未变小。
DALL-E、Midjourney 和其他静态图像生成器在过去几年中进步如此之快,以至于它们现在生成的图像几乎与照片没有区别。这使得识别网上的虚假信息变得更加困难,许多数字艺术家抱怨这让他们更难找到工作。
“2022 年,当《旅程》首次问世时,我们都笑了,并说,‘哦,这太可爱了,’”密歇根州电影概念艺术家里德·索森 (Reid Southen) 说。“现在人们正在中途失业。”
原文链接:https://www.nytimes.com/2024/02/15/technology/openai-sora-videos.html