核心要点
本篇文章是一个对话,由Anthropic 的联合创始人兼首席执行官 Dario Amodei 与 a16z 企业团队的普通合伙人 Anjney Midha 在本文档中进行了对话,讨论了人工智能革命和人工智能(AI)领域的改进。
Dario Amodei最初从事物理学,后转向神经科学研究,旨在接近智能研究的核心。通过深入探索摩尔定律和研读Ray Kurzweil的著作,Dario对AI的未来产生了浓厚的兴趣。从支持向量机的研究起步,Dario转向神经网络,并在百度和Google Brain从事语音识别和深度学习研究,最终加入OpenAI帮助开发了 ChatGPT,随后与合伙人共同创立了Anthropic,创建了 LLM Claude 2。他曾在 OpenAI 工作。
Dario 分享了他的背景以及他是如何对人工智能产生兴趣的,讨论了他在 OpenAI 的工作以及他参与开发 ChatGPT 和 GPT-2 等模型的情况。他解释了 GPT-2 的出现及其功能,强调了扩展人工智能模型的潜力,以及通过更多资金、更多数据和更强的计算能力所能实现的能力大幅提升。对话还涉及物理学家在人工智能研究中的作用,以及在规模化人工智能公司中保持高人才密度的重要性。
对话中还讨论了Constitutional AI(Constitutional AI是由Anthropic提出的,一个秉持负责任的AI使用理念。Constitutional AI的主要思想是利用AI系统来帮助监督其他AI系统,从而扩大监督规模,提升AI的无害性和有用性。Constitutional AI的过程涉及到自我批评、修正、监督学习和强化学习等步骤,以及一系列基于自然语言的Constitutional准则,用于约束AI的行为。)的概念,即人工智能系统由Constitutional 中概述的一系列原则指导,而不是依赖于人类的反馈。Dario解释了Constitutional AI的过程和潜在优势,同时也谈到了针对不同用例灵活定制这些原则的必要性。文件最后讨论了在确保负责任的开发和道德考量的同时,扩大人工智能规模所面临的权衡和挑战。
Dario的背景
Anj:我带大家回到三年前。你和汤姆,你们的联合创始人之一给我打了个电话,说 "嘿,我们想成立Anthropic" 我问你:"你觉得我们需要什么?" 你说:"我觉得500美元就够了" 我说:"我想我们能在某处找到50万美元" 我记得你死板地说 "老兄,我说的是5亿美元" 那时我才意识到事情会有点不同。
这里的大多数人都知道你是 Anthropic 的联合创始人,他们想听听你是如何做到的。
Dario :我是在一个非常不同的领域起步的。我最初是物理学本科生。我只是想了解宇宙。人工智能根本不在我的考虑范围之内。它看起来就像科幻小说。本科快毕业时,我开始仔细研究摩尔定律。我读了雷-库兹韦尔(Ray Kurzweil)的作品,感觉其中蕴含着一些东西,人工智能真的会有所发展。但我并不知道该如何去做。
当时最重要的是支持向量机。这看起来并不令人兴奋。所以,我决定去读神经科学的研究生,因为那是我能真正研究的最接近智能的东西。研究生快毕业时,我开始接触到有关 AlexNet 和 Quark 的一切。那时候,它已经开始发挥作用,所以我最终加入了吴恩达(Andrew Ng)在百度的小组,从事语音识别方面的工作。之后,我在谷歌大脑工作了一年,然后成为第一批加入 OpenAI 的人之一。我在那里工作了大约 5 年,这就是 Anthropic 的创立过程。
Anj:当你和 OpenAI 的团队在那 5 年的末期开始发表你的第一批实验结果时,你刚才谈到的关于规模理论让你如此有信心,而其他人都认为那是疯言疯语,是什么让你如此有信心?
GPT-2 的新兴能力
Dario:对我来说,最重要的时刻其实是2019年的 GPT-2。当时有两种不同的看法。当我们发布 GPT-2 时,一些被认为最令人印象深刻的内容是:"哦,天哪。你给出了 5 个英法互译的例子。直接把它们输入到语言模型中,然后你再输入第六个英语句子,它就真的能翻译成法语了。它真的理解了这个模式"。这对我们来说太疯狂了,尽管翻译非常糟糕。几乎比用字典逐字替换还要糟糕。
我们认为,这是了不起的开始,因为它没有限制,你可以继续扩大它的规模。我们之前看到的模式没有理由不继续保持。预测下一个单词的目标是如此丰富,你可以推翻的东西又是如此之多,所以它绝对会成功。有些人看了之后说:"你做的机器人翻译得太糟糕了。"这是对同一件事的两种截然不同的看法。我们只是非常非常相信第一种观点。
Anj:著名的是,后来发生的事情让你看到了继续沿着这条线探究下去的理由,于是就有了GPT-3。你认为GPT-3与之前的工作最大的不同是什么?
Dario:我认为它的规模要大得多,而且在很大程度上进行了扩展。让我感到非常惊讶的是Python编程,按照传统的观点,这些模型根本不能进行推理。当我看到Python编程时,即使它非常简单,即使其中很多东西都是你可以记住的,你也可以把它放在新的情境中,并想出一些不会出现在GitHub上的东西。它只是展示了能够做到这一点的开始。我觉得这最终意味着我们可以继续扩大模型的规模,让它们变得非常擅长推理。
Anj:你是在什么时候意识到:"这已经达到了推理的原型水平,但我们认为,有了 Python 程序,这实际上会比我们预期的推广得更广"。是什么信号让你产生了这种信念?
Dario:我认为其中一个信号是,我们实际上没有做任何工作。我们只是在网上搜刮了一下,网上有足够多的 Python 数据来获得这些好结果。当我们查看这些数据时,也许只有 0.1% 到 1% 的数据是 Python 数据。因此,我们得出的结论是:"好吧,如果用我们这么少的数据就能取得这么好的效果,而且我们也没花多少精力去整理这些数据,那么我们一定可以极大地放大这些数据。这让我想到,"我们有了更多的计算能力,我们可以扩展更多的模型,我们可以大大增加编程的数据量"。"我们有这么多方法可以放大它,所以它当然会成功。这只是时间问题。
Anj:你和你的团队在追求缩放定律(scaling laws)的冲动下采取了非常有力的行动。我们把时间快进到两年前,很难想象在 24 个月内取得了如此巨大的进步。当我们开始展望未来的 24 到 36 个月时,你认为在证明缩放定律(scaling laws)继续有效方面最大的瓶颈是什么?
Scaling laws
Dario:我认为有三个要素,数据、计算和算法改进。我认为我们已经步入正轨。即使从现在开始没有算法上的改进,即使我们只是扩大我们目前所拥有的规模,我认为scaling laws仍将继续。我认为这将带来惊人的进步,而包括我在内的每个人都容易低估这种进步。最大的因素就是有更多的资金投入其中。我认为,明年我们可能会看到多家公司推出 10 亿美元级别的模型。而到 2025 年,我们将看到价值数十亿美元,甚至 100 亿美元的模型。100 倍的速度加上 H100s 本身的计算速度,由于向更低精度的发展,这是一个特别大的飞跃。如果把所有这些因素结合在一起,再加上scaling laws的持续,能力将得到巨大提升。
Anj:你一直指出,如果我们扩展目前的架构,就能达到目标。你认为怎样才能在释放性能的同时,让这些模型从架构的角度来看更加高效?你认为我们需要一种全新的方法吗?
Dario:我的基本观点是,推理不会变得那么昂贵。scaling laws的基本逻辑是,如果计算量增加 n 倍,数据量就需要增加 n 倍的平方根,模型的大小也需要增加 n 倍的平方根。这个平方根基本上意味着模型本身并没有变大多少,而硬件的速度却越来越快。我认为,在未来的三四年内,这些东西都还可以继续使用。如果没有架构创新,它们就会变得更贵一些。如果有架构创新,我预计会有,它们会变得更便宜一些。
人工智能领域的物理学家
Anj:开启这些架构创新所需的技能和人才是什么?很长时间以来,人们对此并不十分了解,但你却有这种物理学家的倾向。物理学家的训练是什么让你如此深信不疑?在最初的7位联合创始人中,有4位拥有物理学背景,而不是传统的人工智能或机器学习背景。
Dario:在任何给定的时间点,都有两种类型的场域。有些领域已经积累了大量的经验和知识,你需要很多年才能成为该领域的专家。生物学就是一个典型的例子。如果你只做了 6 个月的生物学家,就很难在生物学领域做出突破性贡献或获得诺贝尔奖。
还有一些领域非常年轻或发展非常迅速。人工智能过去非常年轻,现在在某种程度上也仍然非常年轻,而且肯定发展得非常快。在这种情况下,真正有才华的通才往往能胜过那些在该领域工作了很长时间的人,因为事情正在发生巨大的变化。如果说有什么不利之处的话,那就是拥有丰富的前期知识。因为我们的几位联合创始人都是物理学家,所以我们认为这至少是一个人才库,在这个人才库中,有很多生手,但不一定有相关领域的经验。事实也证明了这一点,我们聘用了很多这样的人才,而且我们有相关的统计数据。这很有效。
Anj:我记得在创建公司的早期,你有一个非常坚定的信念,那就是如果我们有足够多的物理学家和一些基础架构工程师在同一个房间里,我们就能比那些规模更大、资源更充足的团队更快地提高产出质量。快进到现在,你们开始成为一个资源相当充足的公司和团队。当你们的规模开始超过 100 名全职员工时,人才库中最难维持的部分是什么?
Dario:随着公司规模的扩大,一切都会变得更难。我们的普遍观点是,人才密度永远胜过人才数量。在商业领域,也许在研究方面不那么明显,你只需要做事情。你有一份客户名单。你需要一个人来服务这个客户,另一个人来服务那个客户。你有一份功能列表,你需要一个人来实现这个功能,另一个人来实现那个功能。这些数字加起来就很大了。挑战是在你扩展的同时,保持非常高的人才密度。到目前为止,我们在这方面做得非常非常好。我们的领导团队经常有争论。“哦,我的天啊,我们增长得太快了。我们不可能保持人才标准。”我们过去总是能够做到这一点,但这是一个持续的紧张关系。
Anj:花几分钟时间听听你对Constitutional AI的看法会很有帮助,这是你今年早些时候提出的制度。然后我们可以谈谈这对这些模型的安全和未来意味着什么。
Constitutional AI
Dario:直到最近,指导人工智能系统的价值和输出的主要方法一直是基于人类反馈的强化学习(RL:Reinforcement Learning)。我是OpenAI的这种方法的共同发明者之一。从那以后,它被改进用来支持ChatGPT。这种方法的工作原理是,人类对模型的输出给出反馈,比如他们更喜欢哪些模型的输出。随着时间的推移,模型学习人类想要什么,并学会模仿。Constitutional AI,你可以把它想象成人工智能自己给出反馈。反馈结果不靠人类来判断,而是遵循一套原则,且该原则就在我们的constitution里。它非常简短:5页。我们一直在更新它。不同的用例可能有不同的constitutions ,但这是我们的起点。每当你训练模型时,你只需要让人工智能系统阅读constitution,看一些任务,总结这些内容,或者给出你对X的看法。它会说,“人工智能系统将完成任务。”然后你有另一个人工智能系统说,“这是否符合constitution?”最后,如果你训练它,希望是模型按照这个指导性原则行事。
Anj:由于采用了这种方法,constitution的种子捕捉到了constitution作者的一些价值观。你是如何处理将自己的价值观强加于constitution体系这一争论的?
Dario:这有几个方面。首先,当我们使用原始constitution时,我们试图尽可能少地添加我们自己的内容。我们加入了《联合国人权宣言》中的内容、普遍认同的审议原则,以及苹果公司服务条款中的一些原则。这些原则很普通,比如 "制作儿童可以接受的内容"。或者 "不侵犯基本人权" 从这里开始,我们将朝着两个方向发展。一是不同的使用情况需要不同的操作原则,甚至可能需要不同的价值观。心理治疗师的行为方式可能与律师截然不同。有一个非常简单的核心,然后从这个核心向不同的方向发展,这样就不会出现适用于所有人的 "mono-constitution"。其次,我们正在研究某种民主审议程序的想法,通过这种程序,人们可以设计constitutions 。
Anj:对于不了解Anthropic 内部情况的人来说,你们经常会显得自相矛盾,因为你们已经找到了一种高效扩展和保持扩展规律的方法。与此同时,你们又极力主张确保这一切不会发生得太快。这种矛盾背后的思考是什么?
Dario:最能推动权衡的事情之一是--你在Constitutional AI中也能看到一些--很多安全问题的最佳解决方案几乎总是涉及人工智能本身。有一群非常注重理论的人,试图将人工智能的安全问题与人工智能的发展分离开来。我对此的评价是--我不知道其他人是否会说这是公平的--它并不那么成功。尽管还有很多工作要做,但成功的领域是人工智能帮助我们确保人工智能的安全性。
为什么会这样呢?随着人工智能变得越来越强大,它在大多数认知任务上都会做得更好。其中一项相关的认知任务就是判断人工智能系统的安全性,最终进行安全研究。这其中有自我参照的成分。我们甚至可以在可解释性、神经网络内部等领域看到这一点。我们从一开始就认为--我们有一个团队从一开始就在研究这个问题--这将是非常独立的,但它在两个方面趋于一致。
其一,强大的人工智能系统可以帮助我们解读较弱的人工智能系统的神经元。同样,这也是一个递归过程。其次,可解释性的洞察力通常会告诉我们一些关于模型如何工作的信息。当它们告诉我们模型如何工作时,它们通常会提出一些让模型更好或更高效的方法。这些事情是相互交织的。我们仍在为此制定框架,包括监管和自我遵守,但我们从一开始就在思考的一种广泛的方式,并且可能会在未来几个月和几年内更多地对其进行正式化,就是安全扩展或检查点的概念。
可能会有一个交替的步骤,在这个步骤中,你的能力会提升一个等级,然后会有一个关口,在这个关口中,你必须证明:"如果你想进入下一个等级,你必须证明你的模型具有某些安全属性"。
Anj:你认为走 "让我们来实现关口 "这条路的最大代价是什么?
Dario:我们需要注意,不要设置不必要的繁文缛节。如果制作一个人工智能系统需要填写 1000 页的文件,并从不同机构获得 15 个不同的许可证,那是绝对行不通的。这会拖慢工作进度。其他对手、独裁国家会抢在我们前面。我不认为我们能做到这一点。如果你考虑像飞机安全或汽车安全这样的事情,法规在平衡推动进步和“如果出错了,人们可能会丧命”之间做得很好,我认为这些是至少相对正确的例子。
Anthropic的路线图
Anj:我们只剩下几分钟时间了,所以我要换个话题。今年夏天,Anthropic 的产品投放量非常大,有 10 万个上下文窗口,而且还发布了 Claude 2。你们对扩展模型和将其应用于现实世界的互动非常积极。你们正在构建一个完整的生态系统。这里有一屋子的创始人,他们都在试图了解自己是否能在 Anthropic 平台上进行构建。你有什么建议给那些想弄清克劳德、Anthropic 和路线图的人呢?
Dario:人们开始意识到,但仍未得到充分重视的一点是,我们的工作会带来更长远的背景和东西。检索或搜索真正开启了模型与大型数据库对话的能力。我们常说,"你可以与一本书、一份法律文件或一份财务报表对话"。人们的脑海中有这样一幅画面:"有这样一个聊天机器人。我问它一个问题,它就会回答"。但你可以上传一份法律合同,然后说:"这份法律合同中最不寻常的5个条款是什么?" 或者上传一份财务报表,然后说:"总结一下这家公司的状况。与这位分析师两周前的说法相比,有什么令人惊讶的地方?所有这些知识操作和处理大量数据的工作都需要人们花费数小时来阅读,我认为这比人们现在所做的要容易得多。我们才刚刚开始。这是我特别兴奋的一个领域,对于这一代模型来说,我们已经谈到了很多好处和成本(cost),我并不太担心。
Anj:离无限输入内容( infinite context) 窗口还有多久?
Dario:阻碍无限输入内容窗口的主要原因是,随着输入内容的窗口越来越长,大部分计算开始在输入内容窗口中进行。在某些时候,计算成本会变得过于昂贵。我们永远不会有真正意义上的无限输入内容窗口,但我们有兴趣继续扩展内容输入内容窗口,并提供与大量数据交互的其他方法。