0
0

AI训AI,越训越离谱:牛津剑桥等研究成果登上Nature封面

跨境AI
2024-08-05
36
shoptop 【建站扶持计划】

免订阅费,免费SEO与代建站,16大主流媒体免费开户

   立即查看>>

大数跨境
导读:牛津大学、剑桥大学、帝国理工学院以及多伦多大学等机构联合发布的一项研究成果,在科技界引起了广泛关注。
牛津大学、剑桥大学、帝国理工学院以及多伦多大学等机构联合发布的一项研究成果,在科技界引起了广泛关注。该研究揭示了当使用AI生成的数据训练AI时,模型可能面临的严重问题,并指出这一做法无异于“投毒”,最终会导致模型崩溃。

7月25日,该论文已被Nature杂志收录并登上封面,引起了全球科技界的深思。

研究指出,随着LLM(大型语言模型)的广泛应用,互联网上的大量文本和图像内容逐渐被AI生成。如果训练模型时不加区分地使用这些由AI生成的数据,将会导致模型出现不可逆转的缺陷,即所谓的“模型崩溃”。这种效应如同近亲繁殖,产生的后代质量低劣,无法真实反映现实世界的多样性。

研究者们通过一系列实验,展示了这一现象的严重性。他们首先使用维基百科文章训练了一个基础模型,然后利用该模型生成的文本继续训练后续模型。经过九次迭代后,模型开始输出与输入提示完全无关的内容,甚至出现了乱码和错误的事实描述。

在被污染的数据上进行训练,这些数据往往缺乏真实世界中的多样性和复杂性,导致模型无法正确感知现实。随着迭代次数的增加,模型逐渐偏离原始分布。这样一来,会导致多代AI生成模型的退化。这也就形成这一现象——垃圾进,垃圾出。

解决方案

针对这一问题,研究者们提出了多种解决方案。他们建议更多地使用人类生成的数据进行训练,以确保数据的真实性和多样性。同时,科技公司已经开始部署嵌入“水印”的技术,可以把标记AI生成内容,从数据集中剔除,从而避免模型被污染数据影响。此外,研究者们还强调了早期构建的AI模型具有先发优势,因为它们可能拥有更能代表真实世界的训练数据。

然而,解决模型崩溃问题并非易事。随着AI技术的不断发展,如何确保训练数据的真实性和多样性,以及如何防止恶意数据对模型的污染,将成为未来AI研究的重要课题。同时,这也提醒我们,在享受AI带来的便利时,必须时刻警惕其潜在的风险和挑战。

牛津、剑桥等机构的研究成果为我们揭示了AI训AI可能面临的严重问题,并敲响了警钟。未来,我们需要更加谨慎地处理训练数据,以确保AI模型的准确性和可靠性,从而推动AI技术的健康发展。

文章来源:【跨境AI】公众号
【声明】该内容为作者个人观点,大数跨境仅提供信息存储空间服务,不代表大数跨境观点或立场。版权归原作者所有,未经允许不得转载。如发现本站文章存在版权问题,请联系:contact@10100.com
跨境AI
专注研究跨境电商行业的AI应用场景。我们收集对接了很多有用又有趣的AI跨境场景应用成功案例,还有不定期的AI学习资料分享喔~让人工智能为您的生活和工作赋能!
内容 35
粉丝 0
关注
跨境AI 专注研究跨境电商行业的AI应用场景。我们收集对接了很多有用又有趣的AI跨境场景应用成功案例,还有不定期的AI学习资料分享喔~让人工智能为您的生活和工作赋能!
总阅读1.1k
粉丝0
内容35
主页
关注