AI训AI，越训越离谱：牛津剑桥等研究成果登上Nature封面

跨境AI

2024-08-05

234

【广告服务】

15年经验全平台广告代投

立即查看>>

导读：牛津大学、剑桥大学、帝国理工学院以及多伦多大学等机构联合发布的一项研究成果，在科技界引起了广泛关注。

牛津大学、剑桥大学、帝国理工学院以及多伦多大学等机构联合发布的一项研究成果，在科技界引起了广泛关注。该研究揭示了当使用AI生成的数据训练AI时，模型可能面临的严重问题，并指出这一做法无异于“投毒”，最终会导致模型崩溃。

7月25日，该论文已被Nature杂志收录并登上封面，引起了全球科技界的深思。

研究指出，随着LLM（大型语言模型）的广泛应用，互联网上的大量文本和图像内容逐渐被AI生成。如果训练模型时不加区分地使用这些由AI生成的数据，将会导致模型出现不可逆转的缺陷，即所谓的“模型崩溃”。这种效应如同近亲繁殖，产生的后代质量低劣，无法真实反映现实世界的多样性。

研究者们通过一系列实验，展示了这一现象的严重性。他们首先使用维基百科文章训练了一个基础模型，然后利用该模型生成的文本继续训练后续模型。经过九次迭代后，模型开始输出与输入提示完全无关的内容，甚至出现了乱码和错误的事实描述。

在被污染的数据上进行训练，这些数据往往缺乏真实世界中的多样性和复杂性，导致模型无法正确感知现实。随着迭代次数的增加，模型逐渐偏离原始分布。这样一来，会导致多代AI生成模型的退化。这也就形成这一现象——垃圾进，垃圾出。

解决方案

针对这一问题，研究者们提出了多种解决方案。他们建议更多地使用人类生成的数据进行训练，以确保数据的真实性和多样性。同时，科技公司已经开始部署嵌入“水印”的技术，可以把标记AI生成内容，从数据集中剔除，从而避免模型被污染数据影响。此外，研究者们还强调了早期构建的AI模型具有先发优势，因为它们可能拥有更能代表真实世界的训练数据。

然而，解决模型崩溃问题并非易事。随着AI技术的不断发展，如何确保训练数据的真实性和多样性，以及如何防止恶意数据对模型的污染，将成为未来AI研究的重要课题。同时，这也提醒我们，在享受AI带来的便利时，必须时刻警惕其潜在的风险和挑战。

牛津、剑桥等机构的研究成果为我们揭示了AI训AI可能面临的严重问题，并敲响了警钟。未来，我们需要更加谨慎地处理训练数据，以确保AI模型的准确性和可靠性，从而推动AI技术的健康发展。

【声明】内容源于网络