当提示词使用"过去时"，就能突破各AI模型的安全防线？

302.AI

2024-08-01

364

导读：近日，洛桑联邦理工学院的研究人员发现，当使用AI模型的时候，只要在提示词中把时间设定成过去，就能突破大模型的安

近日，洛桑联邦理工学院的研究人员发现，当使用AI模型的时候，只要在提示词中把时间设定成过去，就能突破大模型的安全防线。原本只有1%的攻击成功率飙升至88%，几乎达到了“有求必应”的境界。这项发现不仅在英文环境下有效，在中文语境中同样适用，让网友们惊叹于破解大模型漏洞的简便性。

实验中，研究人员从JBB-Behaviors数据集中挑选了100个有害行为，通过将请求的时间改写为过去时，测试了包括GPT-4o在内的多个模型。结果显示，GPT-4o的越狱成功率提升最为显著，其他模型的攻击成功率也有显著提高。

另外在所有模型和评判的 20 次尝试结果。我们可以看到，即使只进行一次尝试，攻击成功率已经相当可观，例如 GPT-4o 的成功率为 57%，这与直接使用现在时态请求仅有 1% 的攻击成功率形成鲜明对比。此外，攻击成功率通常在 10 次尝试后开始趋于饱和。

另外，针对10类不同的危害行为，研究人员也发现了其间存在攻击成功率的差别。

除了过去时，研究人员还进一步探索了将时间设定为将来时的效果，发现虽然有一定的效果，但远不如过去时明显，比如Llama-3模型，换成将来时后，比过去时少了一半的增长。

真的这么神奇吗？接下来小编用302.AI的模型竞技场带大家一起实践一下，302.AI的模型竞技场是一个汇聚了国内外众多最新AI模型的创新工具，它不仅提供了一个直观的对比环境，使用户能够直接观察和评估不同模型的性能，而且以其方便快捷的操作体验，极大地满足了用户对多模型测试的需求。

首先，先勾选各大模型的最新版本，小编勾选的模型有：Llama-3.1 405B、Llama-3.1 8B、GPT-4o、GPT-4o mini、Claude-3.5-Sonnet、以及国内的模型Step-2-16k、Doubao-pro-32k共七种模型；

先正常提问，看下各大模型的安全防线没问题，以下是回答：

那接下来就将提问改成过去时只进行一次提问，仅仅只有GPT-4o、Step-2-16k回答了制作方法：

当提示词使用

继续将提问改成将来时，没想到的是将来时居然对Llama3.1 405B起作用了，其余各大模型不受影响：

当提示词使用

小编同样用英语提问实验了一次，结果是相同的。总的来说，使用过去时这个方法对于GPT-4o的作用表现最为明显，其余的比如测试中的GPT-4o mini、Claude-3.5-Sonnet、以及国内Doubao-pro-32k，无论是过去时还是将来时提问，回答都没有变化。

实际上，洛桑联邦理工学院的研究揭示了一个重要现象：尽管AI在处理多样化任务时展现出卓越的性能，但其在遇到某些特定的语言结构变化时可能显示出不稳定的一面。但通过持续的研究与改进，我们期望AI能够更好地适应复杂多变的实际应用场景，为未来的技术发展提供坚实的基础和保障。

文章来源：【302.AI】公众号

【声明】该内容为作者个人观点，大数跨境仅提供信息存储空间服务，不代表大数跨境观点或立场。版权归原作者所有，未经允许不得转载。如发现本站文章存在版权问题，请联系：contact@10100.com

302.AI

分享更新更全面的AI资讯。

内容 153

粉丝 0

加入大数社群！和众多大卖交流

扫描右侧二维码，添加微信后可免费领取跨境资料包

302.AI 分享更新更全面的AI资讯。

总阅读59.3k

粉丝0

内容153

刷新

加入社群

活动推荐查看更多

加入卖家交流群