前言
本文将讨论Roblox首席执行官Dave Baszucki在一次采访中的见解,涵盖了有关人工智能(AI)、虚拟现实(VR)、游戏开发以及Roblox平台的未来展望。在这次深入的交谈中,Dave Baszucki分享了Roblox如何运用AI技术来改变游戏开发和虚拟世界体验,以及他对未来科技趋势的独到见解。
从AI助手到NPC Co-pilots,从VR到3D创作,这些讨论展示了Roblox如何引领游戏行业和数字创意领域的创新。随着科技的不断演进,Roblox正在为未来的虚拟世界和游戏体验创造新的可能性。
本次对话是a16z人工智能革命访谈系列的一部分,该系列以人工智能领域一些最具影响力的建设者为特色,讨论和辩论我们在哪里,我们要去哪里,以及人工智能中的重大开放性问题。
(补充说明:Roblox,世界最大的多人在线创作游戏。至2019年,已有超过500万的青少年开发者使用Roblox开发3D,VR等数字内容,吸引的月活跃玩家超1亿 。《Roblox》是一款兼容了虚拟世界、休闲游戏和自建内容的游戏,游戏中的大多数作品都是用户自行建立的。从FPS、RPG到竞速、解谜,全由玩家操控这些圆柱和方块形状组成的小人们参与和完成。在游戏中,玩家也可以开发各种形式类别的游戏。)
游戏中的生成式人工智能
Jon:我们刚刚进行了一次关于生成式人工智能如何潜在地改变各种媒体的讨论。请告诉我们一些有关AI如何改变Roblox上构建游戏方式的信息。
Dave:我们不仅仅局限于游戏,我们考虑的是人们远距离交流的终极方式。除了游戏,我们在我们的平台上看到的另一个重要方面是,在COVID大流行期间,孩子们如何与朋友联系?当人们无法亲自在一起时,他们如何与朋友一起去音乐会?在我们自己的办公室,当有些人远程办公时,我们如何模拟偶然性?我们在Roblox内部正在尝试模拟Roblox办公室的情景。
如果我们退一步看,沉浸式3D会跟随市场力量,像电话系统、视频通信和短信一样发展,那么它的影响力就非常巨大。我认为有三个方面。有一方面是我们平台上的人根本不把它当作AI,虽然它已经进行了两三四年,这就是个性化发现、安全和文明、语音和文本监控、资产监控和实时自然翻译的质量。我们的翻译与其他人相比有多好——这是人们不注意的一点。
现在非常令人兴奋的是生成式技术,包括生成式代码、3D对象生成、角色生成和游戏生成,这非常有趣。未来最令人兴奋的是,我们能否在一个用户很容易创建的虚拟环境中,拥有一个虚拟的替身或一个具有通用智能的代理?你想在你12岁孩子的学校项目中使用乔治·华盛顿吗?我不使用Tinder,但如果有一天Tinder有一个Roblox应用,我是否可以发送我的虚拟分身进行第一次3D会面?我认为从那些我们不注意到那些令人兴奋的生成式领域再到未来的智能领域,所有这些都将改变这一领域的工作方式。
Jon:当你考虑构建游戏所需的各个部分时,有太多的要素——概念设计、分镜头、编写、2D图像的创建、3D资产,还有代码和物理引擎。Roblox已经在自己的工作室和平台中构建了许多相关要素。你认为你刚刚谈到的这一新一代生成模型将最影响哪些部分?
Dave:几乎可以说反之亦然,即什么不会受到影响。最终,所有这些方面都会加速发展。我们目前持有一种乐观的观点,因为Roblox上有6500万用户,其中大多数人没有以他们期望的水平进行创作。很长一段时间以来,我们想象了Roblox早期的一个Project Runway模拟,其中Project Runway仅仅是拟态的。你有缝纫机和面料,一切都是3D模拟的。
但当我们考虑到这一点时,即使对于我们大多数人来说,那也有点复杂。我认为现在,当Project Runway出现在Roblox上时,它会有文本提示、图像提示、语音提示,或者任何你想要的,就像你坐在那里一样。如果我正在帮助你制作,我会说:“我想要一件蓝色的牛仔衬衫,我想要一些酷东西,我想要一些纽扣,让它更合身一点。”我实际上认为我们将看到创作的加速。
完全个性化的游戏过程
Jon:在之前的播客中,你可能提到过一个观点,即人们可以在其他体验中创建体验。即使他们在游戏内部,他们也可以拥有完全个性化的化身或装饰。
Dave:没错。经典的3D创作使用这些强大的软件,如Blender、3D Studio或Maya。Roblox Studio也使用这些工具。在Roblox,有一段时间我们在思考:“如何让Roblox Studio更容易使用?已经有200万人在使用它。”但还有更高一层。我们在用户尝试构建“大亨建设者”和“过山车建设者”等项目时早早看到了这一迹象。
他们对3D物体的更多访问权限以及更多的持久性,突然之间,创作变得更好。随着AI成为任何体验中可用的服务,我们希望“Project Runway”可以制作终极的“Project Runway”体验。动态、持久的3D服装,不是在Maya或3D Studio中,而是在体验本身中,借助云AI工具加速。然后就有了很多杠杆。我们不是在让Roblox Studio更好,而是在为他们提供非常垂直集成的体验中的许多便利设施,我们将会在汽车和其他各种事物中看到同样的情况。
Jon:你所提及的其中一个方面就是个性化游戏过程的概念的强大威力。这个观点是,也许将来Roblox上的每位用户都将拥有一个完全独特的体验,根据他们的偏好和所做的选择进行个性化定制。
Dave:我认为你触及了一个更进一步的扩展,这需要大量的计算能力。它是由大规模推理支持的实时完全个性化生成。你可以想象,“我正在制作超级龙与地下城的东西”,但它会观察你的游戏并了解你的历史,你将玩一个之前没有人见过的3D体验。我认为在某些类型的游戏中,需要足够的实时推理来生成你想要的内容。
我们做过的一件好事,我可以看到这里有一些Roblox的人,就是我们长期以来一直专注于建设我们自己的基础设施。我们有数十万台服务器,我们有很多很多的边缘数据中心,和我们传统上用于3D模拟的兆字节级的连接。我们能在这些设备上运行更多的推理任务,就能以低成本运行更高质量、更高容量的推理,并且免费提供给创作者,让他们不用担心。
Roblox的生成模型
Jon:这非常有道理。在谈到基础设施的话题上,在你们最新的股东信中,你提到Roblox正在开发自己的多模式生成模型,将涵盖我们刚刚讨论的许多内容。你能告诉我们更多关于你们正在构建的内容吗?
Dave:在像Roblox这样的公司,可能有20或30个非常定制的终端用户垂直应用程序。自然语言过滤与生成式3D非常不同。在终端用户层面,我们希望所有这些都能运行。我们希望以一种选择性的方式使用所有的数据来帮助改进这些。当我们深入研究时,在像我们公司这样的公司中,可能有2或3个大型通用模型的聚类。毫无疑问,安全和文明(civility)、自然语言处理、自然语言翻译以及3D创作的多模态技术都是非常重要的领域。就像在Project Runway中,一些文本、图像和生成的角色的组合。
可能有第三个领域,涉及到虚拟人类领域,即我们如何利用50亿小时的人类选择参与的数据:我们说什么,我们如何移动,我们一起去哪里,我们在3D环境中如何工作。我们是否可以利用这些信息来打造更好的人类3D模拟?我会说是的,看看这三个领域中的大模型。然后会有那些超大型LLM(语言模型)公司。我认为我们可能是在它们的下一层。我们非常精细调整了我们想要的学科,有能力为这些学科进行训练和运行大规模的推理。
Jon:你们正在使用大规模专有数据集。所有这些年来在Roblox中创建的3D资产...
Dave:在任何形式的3D沉浸式环境中都有大量的数据。人们的交流可以为安全性和文明(civility)、3D、动作眼动追踪以及人类互动提供信息。我们目前正在密切关注的一个非常困难的问题是真正高质量的3D生成,而不是2D生成。2D生成的内容非常丰富。我们非常注重3D生成。
Jon:你们是如何考虑技术堆栈的哪些部分与外部合作伙伴合作,哪些部分自己内部构建,考虑到你们拥有的所有数据和计算资源?
Dave:我们感兴趣的领域包括:有一些公司正在探索未来如何以低成本进行大规模培训。未来如何以低成本进行大规模推理?什么类型的技术可以抽象掉不同的硬件设备?如何随着时间推进在CPU/GPU环境中运行混合模式?我们对这些方面非常感兴趣,正在密切关注这些技术堆栈。
接口的未来
Jon:您是否认为,随着我们朝着元宇宙的方向发展,由于游戏和体验的数量之多,您将需要一个新的用户界面或发现机制?
Dave:无论是亚马逊、Netflix、TikTok还是YouTube,对于我们来说,难题在于您试图在10年内实现企业价值最大化,同时每年都要考虑股票价格。如果一些惊艳的创作被压制,而它本来可以为平台增加5%的价值,那么很多短期的发现机制就不会优化长期的价值。
发现的机会很多,而且这并不是一个已经解决的问题,尽管许多公司正在以非常有趣的方式解决它。我认为用户界面也可以发生变化。除了将其仅仅视为内容以及实时社交图谱,还有很多机会可以通过思考其他人正在做什么来创造价值。
Jon:这很有趣,因为我的团队刚刚谈到的大公司使用AI的例子包括Netflix,还有TikTok,它们都具有非常个性化的推荐和动态信息流。您可以想象未来一个加入Roblox的用户实际上看不到游戏的库或目录,而是只看到一个信息流,就像您从一个端到另一个端...
Dave:这非常正确。我们一直在测试新的用户体验。它应该是2D吗?还是3D?在数字身份的创建与发现之间的权重是多少?与朋友联系和优化这一切之间的权重是多少?我们可能会发现必须个性化处理这些问题。
对创作者的影响
Jon:我想简要转向玩家的角度。现在您已经有了一些AI工具,比如代码辅助和材料生成器,那些遇到这些工具的创作者或玩家的反应如何?有什么反馈吗?
Dave:每当我们为用户或玩家提供更多的功能时,我们历史上都会看到加速的情况,即使这还非常早期。我认为现在仍然处于非常早期阶段。我们目前推出的东西只是一个非常轻量级的层次。代码生成和材料生成非常令人兴奋。可能会出现通过提示驱动的角色创建,更加令人兴奋。潜在的通用3D资产创建,更加令人兴奋。
Jon:您是否认为利用这些技术的游戏类型在游戏机制方面会发生变化,比如可能出现的游戏类型?
Dave:是的,我很乐观地认为未来会有更多的人能够掌握体验中的创造力。例如,回到Project Runway或Karlie Kloss的例子,以前是不可能让6500万到7000万人一起参与创作的。但是,如果有一个体验让数百万人扮演时装设计师,并且投票和挑选最棒的作品,甚至想象其中一些能够在现实中制作出来,或者有些人能被帕森斯789选中并被誉为“未来的设计师”,那该多好啊。
想象一下,有一个赛车手是因为他在模拟器上非常厉害而被选中的,或者像时尚设计、其他类型的创作这样的其他领域,在那里你可以在平台上创造,并被认为是未来的明星。
Jon:我对这样一个想法感到非常兴奋,就是利用人工智能工具来放大孩子们在玩耍中表现出的创造力。如果这样做了会发生什么呢?如果房间里突然发生了自然灾害呢?现在,对于那些创造者来说,要制作出这样的体验非常困难。但是有了一个文本提示,你就可以想象出各种各样的游戏,它们就像变戏法一样出现,而且体验的多样性和狂野性也会增加…
Dave:我认为有一个能生成内容的文本提示,不是在开发者层面上构建一个庞大的游戏,而是有一个文本或语音提示,作为你去任何地方的体验的一部分。不是用传统的方式,比如体素(voxel)或者3D建模,而是自然地使用文本提示,就像一个传统的头像编辑器一样。不是用滑块和单选按钮,而是用一种更互动的文本提示。
NPCs作为Copilots
Jon:我们对NPC作为导师和Co-pilots的概念感到兴奋。假设你第一次加入Roblox,你可以有一个指南,基本上告诉你接下来要去哪里。然后,如果你对建设感兴趣,它会帮助你初次体验的创建,以此类推。这个概念似乎可能非常强大,NPC作为Copilots而不是合作玩家。
Dave:我认为在各种生态系统中有很多有趣的关于Copilots概念的事情正在发生。这里有一种Copilots,我们整天都戴着小小的耳机,它会和我们说话。这可能是更多面向消费者的实时Copilots。但是显然有很多公司在努力构建一种副驾驶Copilots,你可以把它连接到你的电子邮件、短信、Slack、网页浏览器等等,它就会为你行动。我对Copilots之间用自然英语交流的想法很感兴趣,我认为这将是Copilots的通用接口。
你可以想象NPC是由提示创建的。“嘿,我正在构建一个历史性的宪法项目。我想要乔治·华盛顿在那里,但我想要乔治·华盛顿以最高的礼仪水平行事,并引导新用户通过体验,告诉他们一些宪法历史,并在完成后离开。”我确实认为你将看到这种类型的协助。
Jon:这是一个不可思议的例子,因为学习历史的更好方式是实际与参与那个历史场景或时期的人交谈。你实际上可以看到这如何推动教育...
Dave:我们一直在探讨和朋友们一起去古罗马的沟通问题。你会去古罗马,和你接触的大部分人都是历史上的,我们尽力创造的,代表来丰富你的体验。这会非常有趣。
VR和空间计算
Jon:这相当强大。几周前,您在推特上发表了一条推文,称Roblox在Meta Quest上的应用在测试版的在前5天就下载了100万次。它甚至还没有在实际的Oculus商店上发布。您对VR和空间计算有什么看法?
Dave:我们的观点一直是,当iPhone发布时,突然之间,我们可以在小屏幕上消耗2D HTML,而不是用捏放和缩放的方式在大屏幕上浏览——现在我们已经习以为常了。我的孩子们可能不知道,在iPhone出现之前的10年前,有一些很烂的移动网页,浏览器都是大屏幕的东西。现在我们默认2D HMTL无处不在。我认为3D也是一样的。这是云中的沉浸式多人游戏,模拟的3D。由于这个原因,每个设备都是最佳的设备相机和设备用户交互,并具有不同程度的沉浸感。您的手机不像VR头显那样沉浸,但您的手机更自发。
我们认为市场最终会决定您使用哪种设备进行消耗。我们并不试图改变市场,但我们确实希望能够到达每个地方,以便我们可以与我们的玩家一起观察市场的变化。
我可以说我们历史上做的一件事是,我们所有的3D工程师都是以低质量的Android设备作为主要测试设备工作的,这有助于Oculus。我不是说这是一部糟糕的Android设备,而是说它渲染两只眼睛而不是一只,这在技术上是具有挑战性的。我们有一个高性能的基础,而不是利用16个核心,这帮助我们做到了这一点。
Jon:想象一下可能为不同设备优化不同类型的体验是令人兴奋的。也许您可以在PC上玩“大亨”游戏,那里有鼠标和键盘,然后在VR头显中玩第一人称射击游戏。您可以选择合适的设备。
Dave:确切如此。不可能将所有方式都抽象到手机的屏幕上。
Jon:您从导师、朋友或其他人那里获得的最好建议是什么?
Dave:我觉得我年轻时没有得到太多好建议。我从我爸爸那里得到的最糟糕的建议是,“你应该学会会计和商业”。我对每个人的一般建议是:我认为我的前两份工作都是灾难,但生活很长。如果你找到了一件你真正擅长并且同时喜欢的事情,那显然是最理想的维恩图(Venn diagram)。不是要追随你的激情,也不是要追随你擅长的东西。如果你能让这些维恩图(Venn diagram)重叠,那就是最甜蜜的地方。
Jon:您对未来5年内世界将如何发展有什么大胆的预测?
Dave:我有一个关于AI的图灵测试问题。如果我们在1633年把人工智能拿来,并用当时所有可用的信息来训练它,它会预测地球还是太阳是太阳系的中心,即使99.9%的信息都说地球是太阳系的中心?我觉得5年是一个临界点,但如果我们用那个人工智能图灵测试来试验,它可能会说太阳是太阳系的中心。(译者注释:Dave认为5年是一个临界点,也就是说,如果在1633年之后5年内进行图灵测试,人工智能可能会说太阳是太阳系的中心,因为那时候有了一些支持日心说的证据。)
Jon:如果是10年呢,您有不同的答案吗?
Dave:10年后,我认为它会说太阳。