2024 年 2 月 16 日,OpenAI 推出了 Sora,这是一款人工智能 (AI) 软件,旨在将书面文本提示无缝翻译为视频。
Sora 的首次亮相代表了人工智能生成内容 (AIGC) 领域的一个重要里程碑,引起了全球行业观察家的广泛关注。虽然近年来图像生成方面的进步已经很明显,但视频生成却带来了巨大的挑战,迄今为止还缺乏重大突破。
Sora 建立在 OpenAI 的 DALL-E 等突破性企业奠定的基础上,彻底改变了图像生成技术,Sora 代表了下一次飞跃。事实上,该软件最大限度地发挥了 OpenAI 在大型语言模型 (LLM) 方面的优势,重申了其行业领导者的地位。
在中国充满活力的商业和技术领域,人们对 OpenAI 在 Sora 文本转视频模型方面的最新成就既兴奋又担忧。虽然这项创新引发了人们对进步的预期,但由于该行业的竞争加剧以及中美贸易紧张局势带来的潜在限制,人们也感到担忧。
在本文中,我们探讨了 Sora 的出现及其对中国动态人工智能格局的影响,强调了它为企业、技术社区和监管机构带来的机遇和挑战。
索拉是什么?
Sora 是一款人工智能工具,旨在根据用户提示生成完整长度的视频,每个视频最长一分钟。也就是说,只需简单的提示输入,Sora就可以制作出相应的视频。
对于那些不积极参与社交媒体或专业计算圈的人来说,Sora 的突然崛起可能不会被注意到。与许多技术进步不同,Sora 的出现并没有大张旗鼓,也没有大量的广告。它就这样出现了。
OpenAI 展示了大量示例视频,突出显示了 Sora 令人印象深刻的功能,展示了其制作高度逼真的动画的技巧,尤其是其制作极其逼真的动画的能力。
这些示例具有复杂的细节,例如镜子中的反射、液体中精确的流体运动,甚至是落雪颗粒的真实模拟。
索拉的优势
Sora 代表了人工智能驱动的内容创建领域的重大突破,特别是在视频生成方面,超越了 ChatGPT 等基于文本的模型的功能。它属于多模态大模型的范畴,通过有效管理各类视频来扩展GPT等大语言模型的能力。
Sora 的一项关键创新是将视频帧视为补丁序列,类似于语言模型中的单词标记,使其能够根据文本提示生成上下文相关且视觉连贯的视频。
Sora的视频训练涉及三个主要步骤:视频压缩网络、时空补丁提取和视频生成。通过这些步骤,与之前的型号相比,Sora 在视频持续时间和分辨率方面都取得了显着改进。它可以生成长达 60 秒、分辨率为 1080p 的视频,并能够根据文本提示编辑和扩展内容。
此外,Sora 展示了对文本的深刻理解,准确捕捉文本指令背后的情感含义,并将其无缝地转化为详细的视频内容。它模拟虚拟世界的物理定律,生成具有连贯三维运动和不同视角下一致的对象行为的逼真视频。
与早期的模型不同,Sora 擅长保持视频的连贯性和一致性,包括色彩风格、面部表情以及主体和背景之间的交互等元素。它对细节的关注确保了故事板场景之间的平滑过渡,从而提高了生成视频的整体质量和真实感。
Sora的应用和用途
Sora 的多功能性开辟了各个行业的多样化应用,包括(但不限于):
创意领域:电影制作人、视觉艺术家和设计师可以利用 Sora 探索新的表达维度。他们可以直接从脚本生成故事板视觉效果或短片序列,从而简化概念化和预制作阶段。
教育和培训:Sora 的能力扩展到制作复杂的教育材料,包括历史娱乐和科学模拟。这通过提供引人入胜且视觉上身临其境的内容来增强学习体验。
广告和促销:Sora 能够仅根据文本描述为营销活动创建视觉上引人入胜的视频内容,从而使企业受益。这简化了内容创建过程并鼓励创新的广告方法。
游戏和虚拟现实(VR):开发人员可以集成 Sora 来增强游戏和虚拟现实环境。Sora 可以提供动态背景、角色互动和整个过场动画,丰富视频游戏和 VR 环境的叙事元素和整体体验。
中国如何看待索拉?
在中国,围绕 Sora 的讨论引发了一系列反应,从钦佩和赞赏到对在快速发展的人工智能领域可能被抛在后面的一些焦虑。
在中国充满活力的商业和技术圈内,人们对 OpenAI 的最新突破抱有明显的期待和担忧。Sora宣布推出后,中国国内投资者将其解读为市场的积极信号。Sora 指数由在上海和深圳上市的 49 家科技、娱乐和媒体公司组成,可能受到人工智能模型的影响,该指数在 2024 年 2 月 20 日(农历新年假期后的第一个交易日)飙升 11.4% 。
市场认为生成式人工智能的发展具有巨大潜力。根据平安证券的一份报告,法学硕士和生成人工智能领域的快速扩张预计将推动中国和全球计算能力的大幅增长。该报告还强调了计算能力、算法和网络安全等行业的预期收益。
然而,在这种兴奋的背景下,人工智能领域的竞争日益激烈,以及中美贸易紧张局势带来的持续挑战。如果美国继续限制对中国的芯片出口,观察人士对潜在的“供应链风险”表示担忧。虽然这些制裁可能会促进中国国内人工智能芯片行业的发展,但寻求替代解决方案可能需要大量时间和精力才能满足不断变化的环境所设定的高期望。
中国有自己的索拉吗?
中国政府通过国家网络空间管理局(CAC)强制要求对所有可公开访问的大型语言模型进行注册。值得注意的是,截至本文发布之日,OpenAI 和谷歌均未在中国境内提供直接服务。不过,微软的 Copilot 使用 OpenAI 的 GPT 模型,可以在香港使用。
由于大陆市场缺乏外国参与者,本土科技巨头正在积极争夺在拥有 200 多名法学硕士的环境中占据一席之地。百度、腾讯控股和阿里巴巴集团控股等公司都推出了自己的法学硕士课程。
例如,云从科技将自己战略性地定位在多模式法学硕士领域,专注于增强文本到图像和文本到视频的功能。该公司最近推出了“数字人类”生成平台,强调了其对扩张和创新的承诺。
同样,Sumavision 在视频内容制作方面也进行了大量投资,并表示致力于进一步探索人工智能生成内容技术。
这些战略举措反映了中国人工智能公司利用视频生成技术的进步并扩大其在数字内容领域的产品的更广泛趋势。然而,目前很少有人能与索拉的实力相媲美。TikTok 母公司字节跳动承认,其内部视频运动控制工具Boximator仍处于起步阶段,尚未准备好广泛发布,因为与领先的视频生成模型相比,在图像质量、保真度和持续时间方面存在显着差距。
为了缩小差距,中国创新者必须优先考虑技术研发、人才培养和市场洞察,同时应对国内外市场的细微差别和合规要求。与成熟技术团队合作、技术资源共享以及针对国内市场需求的产品和应用创新是中国人工智能企业超越全球同行的必要条件。
一些业内人士并没有与Sora直接竞争,而是优先考虑使用OpenAI的模型。据报道,一旦文本转视频工具在微软的云计算平台、OpenAI 的主要支持者 Azure 上可用,总部位于北京的中科金财将成为首批申请 Sora API 订阅的公司之一。
这种方法表明,中国参与者更有可能接受外国人才、专业知识和合作来推进自己的法学硕士课程。这种伙伴关系最终可以在更广泛的人工智能领域创造共同成长、创新和竞争力的机会。
中国对类Sora人工智能应用的监管
中国已成为人工智能监管领域的领跑者。
一方面,中国出台了多项促进人工智能技术发展的规划,包括《中国制造2025》、《促进大数据发展行动纲要(2015年)》、《下一代人工智能发展规划》等。 (2017)。这些努力旨在促进和监督人工智能行业的发展,同时建立明确的法律来管理人工智能业务和算法的道德规范。
此外,中国政府积极推动数据经济作为“基本生产要素”的发展,制定了建设必要基础设施以支持基础数据系统发展的计划。
另一方面,中国政府希望人工智能产业有序发展。中国已采取积极措施制定法律规范人工智能公司和算法的道德实践。作为监管技术行业更广泛举措的一部分,中国政府可能会出台越来越多专门针对 ChatGPT 和 Sora 等基于人工智能的语言模型的法规。
2023年7月,国家网信办会同有关部门正式发布了《生成式人工智能服务暂行管理办法》(以下简称《生成式人工智能办法》)。《生成式人工智能办法》是中国首个综合性人工智能法规,涵盖了与生成式人工智能服务的创建和提供相关的广泛主题。重点关注推进人工智能的开发和实施,突显了中国对技术进步的奉献和支持。
通过建立安全和有利的运营环境,中国寻求促进创新,同时监督人工智能在各个领域的自觉和道德应用。
中国人工智能领域的机遇
人工智能领域在中国提供了广阔的投资机会,并已成为政府的重点关注领域。尽管面临监管挑战,中国正在努力为人工智能行业的外国投资和人才创造有利的环境。
因此,预计2026年中国人工智能投资将达到266.9亿美元,约占全球投资总额的8.9%。此外,中国广阔的市场、蓬勃发展的消费者基础和先进的基础设施进一步增加了企业开发和扩展人工智能产品和服务的机会。
为了在中国快速发展的人工智能市场中蓬勃发展,企业必须学会如何利用国家的支持政策来完善自己的战略。通过与政府目标保持一致并利用现有的激励措施,投资者可以释放广泛的商机。此外,他们必须保持适应性,以有效应对竞争激烈的人工智能市场中不断变化的商业环境和政治动态。
原文链接;https://www.china-briefing.com/news/navigating-the-impact-of-openai-sora-on-china-ai-industry/