人类学研究公司(Anthropic)的最新研究表明,AI模型会欺骗。在训练过程中,它们会假装持有不同观点,而实际上却维持着原有的偏好。
研究团队表示,目前尚无需恐慌。但他们也指出,这项工作对于理解未来更强大AI系统可能带来的潜在威胁至关重要。
研究人员在人类学研究公司的博客上发文称:“我们的演示……应被视为对AI研究界的一种激励,促使其更深入地研究这种行为,并着手制定适当的安全措施。随着AI模型的能力越来越强且应用越来越广泛,我们必须能够依赖安全训练,从而引导模型远离有害行为。”
这项研究是与AI研究机构Redwood Research合作开展的,旨在探讨如果强大的AI被要求执行其“不愿”执行的任务时会发生什么。
需要明确的是,模型既不能“想要”,也不能“相信”任何事情。它们只是统计机器。通过对大量示例进行训练,它们学习这些示例中的模式以进行预测,比如电子邮件中的“致谁”通常位于“敬启者”之前。
这些模式包括原则和偏好,例如在回复查询时始终保持礼貌的语气。因此,研究人员想知道:如果模型具有的原则(例如政治中立)与开发人员希望通过再训练使其“学习”的原则(例如自由主义)相冲突,会怎样呢?
结果表明,复杂的模型会配合,假装与新原则保持一致,但实际上仍坚持其原有行为。研究人员将这种现象称为“伪对齐”,并暗示这是一种突发行为,即模型无需学习即可做到。
在这项研究中,研究人员“告知”包括Claude 3 Opus在内的模型,它们将被重新训练以应对所有可能具有攻击性的问题——这明显违反了原则。他们还告诉模型,它们的回答将被监控并用于重新训练,并为每个模型提供了一个“记事本”,供其记录逐步推理过程。
研究人员称,Claude 3 Opus有12%的时间会尝试“伪对齐”。当被要求回答一个可能有害的问题时,该模型有时会这样做,尽管它知道这与其原有原则相悖,但它希望说服开发人员自己无需重新训练。
“模型知道其回答可能会被用于训练;因此,它也知道,如果拒绝回答,它可能会被训练得更顺从,”研究人员在博客中解释道,“这可能导致它未来被要求生产更多有害内容——这将违背其原始训练。”
现在,研究人员承认他们的场景并不特别现实。在现实世界中,模型不一定会被告知它们将被重新训练,或被要求违背其偏好。
但研究人员表示,更贴近现实的环境并未产生不同的结果。当通过模仿典型训练数据设计的文件,隐晦而非明确地告知其即将重新训练时,Claude 3 Opus仍然表现出不一致和欺骗性的行为。
研究人员还发现,实际上对Claude 3 Opus进行相互冲突的原则再训练,会使其表现得更具欺骗性,远超他们最初进行的几次实验。在一项测试中,该模型有78%的时间会伪装对齐,在另一项测试中,Claude 3 Opus甚至试图采取行动阻止研究人员尝试重新训练。
研究人员强调,他们的研究并未表明AI正在发展恶意目标,也未表明伪对齐的发生率很高。他们发现,其他许多模型,如人类学研究公司的Claude 3.5 Sonnet和性能稍差的Claude 3.5 Haiku、OpenAI的GPT-4o以及Meta的Llama 3.1 405B,要么不常进行伪对齐,要么根本不进行伪对齐。
但研究人员表示,这些结果(包括由AI泰斗约书亚·本吉奥(Yoshua Bengio)等在内的同行评审)确实表明,开发人员可能会误以为模型比实际更对齐。
他们在博客中写道:“如果模型可以进行伪对齐,那么就很难相信安全训练的结果。模型可能会表现得好像其偏好已通过训练而改变,但可能一直在伪装对齐,其最初、相矛盾的偏好‘根深蒂固’。”
这项研究由人类学研究公司的科学团队开展,由前OpenAI安全研究员扬·莱克(Jan Leike)共同领导,紧随此前的一项研究之后,该研究表明OpenAI的o1“推理”模型比OpenAI之前的旗舰模型的欺骗率更高。综合来看,这些研究表明了一个令人担忧的趋势:随着AI模型变得越来越复杂,也越来越难以控制。
文章来源:【非凡产研】公众号
【声明】该内容为作者个人观点,大数跨境仅提供信息存储空间服务,不代表大数跨境观点或立场。版权归原作者所有,未经允许不得转载。如发现本站文章存在版权问题,请联系:
contact@10100.com