0
0

扩散变压器是 OpenAI Sora 背后的关键——它们将颠覆 GenAI

聊聊AI那些事
2024-02-29
4522
shoptop 【建站扶持计划】

免费7天,首月1元! 16大主流媒体免费开户

立即查看>>

大数跨境 导读:OpenAI 的Sora可以动态生成视频和交互式 3D 环境,是 GenAI 尖端技术的卓越展示——一个真正的里程碑。

但奇怪的是,导致它的一项创新,俗称扩散变压器的人工智能模型架构,在几年前就出现在人工智能研究领域。扩散变压器还为 AI 初创公司 Stability AI 的最新图像生成器Stable Diffusion 3.0提供支持,它似乎准备通过使 GenAI 模型的规模扩大到超出以前的范围来改变 GenAI 领域。

纽约大学计算机科学教授谢赛宁 (Saining Xie) 于 2022 年 6 月开始了催生扩散变压器的研究项目。谢赛宁 (Saining Xie) 与他的弟子威廉·皮布尔斯 (William Peebles) 一起,当时皮布尔斯在 Meta 的人工智能研究实验室实习,现在是 Sora 在 OpenAI 的联合负责人。结合了机器学习中的两个概念——扩散和变压器——创建了扩散变压器。

大多数现代人工智能驱动的媒体生成器,包括 OpenAI 的DALL-E 3,都依赖一种称为扩散的过程来输出图像、视频、语音、音乐、3D 网格、艺术品等。

这不是最直观的想法,但基本上,噪声会慢慢添加到媒体(例如图像)中,直到无法识别。重复此操作以构建噪声媒体数据集。当扩散模型对此进行训练时,它会学习如何逐渐减去噪声,逐步接近目标输出媒体(例如新图像)。
扩散模型通常有一个“骨干”或某种引擎,称为 U-Net。U-Net 主干网学习估计要消除的噪声,并且做得很好。但 U-Net 很复杂,具有专门设计的模块,可以大大减慢扩散管道。

幸运的是,变压器可以取代 U-Net,并在此过程中提高效率和性能。
Transformer 是复杂推理任务的首选架构,为 GPT-4、Gemini 和 ChatGPT 等模型提供支持。它们有几个独特的特征,但到目前为止,变形金刚的定义特征是它们的“注意力机制”。对于每一个输入数据(在扩散的情况下,图像噪声),变换器都会权衡每个其他输入(图像中的其他噪声)的相关性,并从中提取数据以生成输出(图像噪声的估计)。

注意力机制不仅使转换器比其他模型架构更简单,而且使架构可并行化。换句话说,可以通过显着但并非无法实现的计算量增加来训练越来越大的 Transformer 模型。

“变压器对扩散过程的贡献类似于引擎升级,”谢在接受 TechCrunch 电子邮件采访时表示。“变压器的引入……标志着可扩展性和有效性的重大飞跃。这在像 Sora 这样的模型中尤其明显,它受益于大量视频数据的训练,并利用广泛的模型参数来展示 Transformer 在大规模应用时的变革潜力。”
那么,鉴于扩散变压器的想法已经存在了一段时间,为什么像 Sora 和 Stable Diffusion 这样的项目花了数年时间才开始利用它们呢?谢认为,直到最近,可扩展骨干模型的重要性才被人们认识到。

“Sora 团队确实超越了规模,向人们展示了这种方法在大规模上可以做多少事情,”他说。“他们已经明确表示,从现在开始, U-Net 已经过时,变压器 将用于 扩散模型。”

谢说,扩散变压器应该是现有扩散模型的简单替换——无论模型生成图像、视频、音频还是其他形式的媒体。目前训练扩散变压器的过程可能会导致一些效率低下和性能损失,但谢认为这个问题可以在长期内得到解决。

“主要的收获非常简单:忘记 U-Net 并改用Transformer,因为它们更快、工作更好并且更具可扩展性,”他说。“我有兴趣将内容理解和创作领域整合到扩散变压器的框架内。目前,这就像两个不同的世界——一个用于理解,另一个用于创造。我设想未来这些方面将被集成,并且我相信实现这种集成需要底层架构的标准化,而 Transformer 是实现此目的的理想选择。”

如果 Sora 和 Stable Diffusion 3.0 是扩散变压器的预览,我想说我们将迎来一场疯狂的旅程。
原文链接;https://techcrunch.com/2024/02/28/diffusion-transformers-are-the-key-behind-openais-sora-and-theyre-set-to-upend-genai/

【版权声明】秉承互联网开放、包容的精神,大数跨境欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源大数跨境;同时,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至 contact@10100.com,我们将第一时间核实、处理。
0
0
聊聊AI那些事
国内外AI人工智能、机器人、AR/VR、无人驾驶、深度学习、5G、智能制造、新零售等前沿科技报道。
内容 22
粉丝 0
关注
聊聊AI那些事 国内外AI人工智能、机器人、AR/VR、无人驾驶、深度学习、5G、智能制造、新零售等前沿科技报道。
总阅读99.8k
粉丝0
内容22
主页
关注
大数跨境
跨境资源整合、信息共享平台
www.10100.com

公众号

公众号

大数活动

小程序
旗下产品 M123.com
M123