想象一下,你有一个新朋友,它不仅能和你聊天,还能展示一些真正的魔法。这就是我们的新伙伴——"拾取与放置任务"版本的ChatGPT,它甚至能像Sora一样创造视频。
在机器人AI公司Covariant,CEO Peter Chen正与这样一个神奇的聊天机器人对话。这个界面,你可能会感觉似曾相识,因为它和ChatGPT有着相似的亲切感。Peter轻敲键盘,输入了一段简单的请求:“给我看看你面前的运送箱。”瞬间,屏幕上播放了一段视频,展示了一个机械臂正悬停在一个装满各种日常物品的箱子上方——袜子、薯条,还有一苹果。
这个聊天机器人不仅能和你讨论它所看到的一切,还能与这些物品互动。Peter接着发出了一个指令:“请帮我拿一个水果。”机械臂优雅地移动,轻轻地抓住了苹果,然后小心翼翼地将它转移到了另一个箱子里。
这个聊天机器人不仅仅是一个工具,它是Covariant迈向“机器人ChatGPT”愿景的重要一步。我们相信,AI有能力解决长久以来编程的难题,并让机器人能够做更多的事情。正如Peter所说:“在这一点上,说基础模型是机器人技术的未来,这是毋庸置疑的。”
今天,Covariant自豪地宣布推出RFM-1——机器人领域的通用基础模型。它整合了语言数据,使得Peter能够用简单的英语指导机器人完成拣选工作。
但RFM-1的潜力远不止于此。作为一个“基础模型”,它可以接受更多的数据训练,以完成更广泛的任务。虽然目前它的训练主要集中在仓库操作,但通过提供更多的数据,它的功能可以不断扩展,就像一个不断学习和成长的伙伴。
在当前的自动化领域,现有的拾取和放置系统已经展现出了令人满意的速度和灵活性。Covariant的联合创始人Pieter Abbeel,一位在机器人学习领域具有深远影响的专家,指出像RFM-1这样的模型将进一步优化机器人的适应性,使其能够更高效地转向新任务,并扩大其应用范围。这种扩展不仅涉及任务类型的多样性,也包括与不同形态的机器人体的兼容性,包括人形机器人,旨在为全球范围内的数十亿机器人提供先进的驱动力。
Covariant自2017年成立以来,一直以其雄心勃勃的目标和坚实的技术基础而著称。该公司由加州大学伯克利分校的电气工程和计算机科学教授Pieter Abbeel,以及他的三位杰出的华人博士生Peter Chen、Rocky Duan和Tianhao Zhang共同创立。Abbeel教授在2016年成为OpenAI的早期成员,而Chen和Duan也在该公司担任过重要职位。他们离开OpenAI,是为了将人工智能技术从数字领域应用到现实世界,开发出能够通过逻辑推理适应复杂现实环境的机器人产品。
Covariant的核心技术是其自称为"Covariant Brain"的机器人智能系统(软件),该系统主要应用于工业机械臂。公司最初选择专注于拣选任务,是因为这一领域具有明确的商业价值和市场需求。然而,Covariant最为重视的资产是其在过去四年中积累的大量现实世界操作数据。正如Abbeel教授所言,"实现我们目标的关键,在于将机器人部署到全球各地的客户现场,以收集必要的数据,从而训练出具有独特能力的机器人基础模型。"这种数据驱动的方法为Covariant提供了在机器人技术领域持续创新和领导的基础。
与ChatGPT、谷歌Gemini等先进的聊天机器人技术相似,机器人技术领域正在利用从真实世界中收集的数千万条高质量多模态数据进行训练。这些数据包括静态图像、动态视频、关节角度、力传感器读数以及吸盘强度等关键操作参数,为训练具有80亿参数规模的RFM-1模型提供了基础。RFM-1的设计目标是使机器人能够模拟人类的思考方式,以更自然地处理复杂的任务。
RFM-1可以被视为一种先进的视频生成器,类似于Sora的功能。当接收到拾取特定物体的指令时,系统会利用其训练数据集中的形状、颜色、大小等特征来识别与指令描述最匹配的物体。随后,系统将生成一段视频,模拟机器人拾取物体的过程,并预测可能发生的各种情况,以确定最佳的操作方案。
RFM-1的另一项功能是能够根据输入的初始图像生成相应的动态视频。这一过程本质上是一种基于模拟的预测,它依赖于系统过去所学习的所有训练数据。例如,如果需要预测将一个圆柱形物体放置在传送带上的结果,RFM-1能够生成一段视频,准确展示物体的翻转和滚动行为。这种预测的准确性甚至超过了Sora,因为RFM-1已经通过大量观察学习了不同物体在传送带上的表现。
虽然这些视频在某些实际应用场景中可能并不直接相关,但它们生动地展示了机器人对其所处环境的理解能力。除了视频生成能力之外,RFM-1还允许用户通过自然语言快速指导机器人执行特定的操作任务。在遇到操作难题时,RFM-1还能够展示出求助的能力,它能够将遇到的问题直接反馈给操作人员,并根据新的建议尝试完成既定任务。
尽管RFM-1模型的主要优势在于其泛化能力,但这种能力并非无限。正如Covariant的联合创始人Pieter Abbeel所指出的,"RFM-1目前还不能泛化到完全新的对象或情况。" 这意味着,对于某些需要精细操作的任务,如拧紧螺丝或剥生姜,RFM-1目前还无法胜任。目前,RFM-1主要面向的是执行特定仓库任务的公司。
此外,正如ChatGPT可能会产生幻觉并出错一样,RFM-1在执行任务时也可能遇到理解上的偏差,导致物品掉落。在不同的应用场景中,错误的风险和成本会有所不同,特别是在制造等对容错率要求极低的领域。
然而,Abbeel对RFM-1的未来发展持乐观态度。他认为,只要有足够的数据支持,构建一个有用的世界模拟是完全可能的。他甚至预言,"从现在起的5年内,我们将建造的模拟器将是唯一一种任何人都会使用的模拟器。" 这将是一个功能更强大的模拟器,从一开始就集成了碰撞检测等元素。
为了实现RFM-1的长期愿景,即成为全球数十亿机器人的基础模型,下一步的关键是在模型中集成更多的数据。Abbeel表示,"我们基本上已经构建了一个数据收集引擎。如果你愿意向我们提供不同类型的数据,我们也会收集这些数据。" 然而,这也带来了商业可行性的挑战。
1X AI的副总裁Eric Jang提到了目前扩大机器人部署规模的三种途径。除了传统的编程方法外,一种是全栈路线,如特斯拉、1X、Figure.ai等公司,既开发硬件也研发通用系统软件;另一种是Covariant所采用的纯软件方式,即建立一个"全能的大脑"来控制机器人,吸引硬件供应商接入其API。
如果能够建立一个独特的模型,就能获得可观的软件利润,并吸引各方提供数据。GPT-4可能是这方面的一个典型例子。但这种方法的缺点在于,它需要大量的数据支持,而硬件合作伙伴及其客户可能并不愿意分享数据。
目前,RFM-1尚未在人形机器人上得到应用。尽管它可以学习控制训练数据中未包含的类似硬件,但人形机器人公司可能会出于各种原因不愿意共享数据。对此,Covariant的CEO Peter Chen表示,"我们的宗旨是帮助他们走进现实世界。目前真正能够在生产环境中实现自主操作的机器人公司并不多。如果他们需要强大的AI来帮助他们进入现实世界,我们确实是他们的最佳选择。" 换句话说,虽然每个机器人公司都可以独立训练自己的模型,但与RFM-1相比,它们在实现与现实世界的交互操作方面可能还有很大的差距。