7月25日,该论文已被Nature杂志收录并登上封面,引起了全球科技界的深思。
研究指出,随着LLM(大型语言模型)的广泛应用,互联网上的大量文本和图像内容逐渐被AI生成。如果训练模型时不加区分地使用这些由AI生成的数据,将会导致模型出现不可逆转的缺陷,即所谓的“模型崩溃”。这种效应如同近亲繁殖,产生的后代质量低劣,无法真实反映现实世界的多样性。
研究者们通过一系列实验,展示了这一现象的严重性。他们首先使用维基百科文章训练了一个基础模型,然后利用该模型生成的文本继续训练后续模型。经过九次迭代后,模型开始输出与输入提示完全无关的内容,甚至出现了乱码和错误的事实描述。
在被污染的数据上进行训练,这些数据往往缺乏真实世界中的多样性和复杂性,导致模型无法正确感知现实。随着迭代次数的增加,模型逐渐偏离原始分布。这样一来,会导致多代AI生成模型的退化。这也就形成这一现象——垃圾进,垃圾出。
解决方案
然而,解决模型崩溃问题并非易事。随着AI技术的不断发展,如何确保训练数据的真实性和多样性,以及如何防止恶意数据对模型的污染,将成为未来AI研究的重要课题。同时,这也提醒我们,在享受AI带来的便利时,必须时刻警惕其潜在的风险和挑战。
牛津、剑桥等机构的研究成果为我们揭示了AI训AI可能面临的严重问题,并敲响了警钟。未来,我们需要更加谨慎地处理训练数据,以确保AI模型的准确性和可靠性,从而推动AI技术的健康发展。