拼搏用AI数据训练AI可能最终导致崩溃—新闻—科学网
发布时间:2024-08-28 作者:开云

《天然》7月24日揭晓的一篇论文指出,用人工智能(AI)天生的数据集练习将来几代呆板进修模子可能会污染它们的输出,这个观点称为“模子瓦解”(model collapse)。该研究显示,原始内容会于数代内酿成不相干的胡说八道,显示出使用靠得住数据练习AI模子的主要性。

天生式AI东西愈来愈受接待,如年夜言语模子(LLM)等,这种东西重要用人类天生的数据举行练习。不外,跟着这些AI模子于互联网不停壮年夜,计较机天生内容可能会以递归轮回的情势被用在练习其他AI模子或者其自身。

英国牛津年夜学的Ilia Shumailov以及同事用数学模子演示了AI模子可能会怎样呈现模子瓦解。研究职员证实了一个AI可能会纰漏练习数据中的某些输出(如不太常见的文本),致使其只用一部门数据集举行自我练习。

Shumailov以及同事还研究了AI模子会怎样应答重要用人工智能天生的练习数据集。他们发明,给模子输入AI天生的数据会削弱此后几代模子的进修威力,终极致使模子瓦解。他们测试的险些所有递归练习言语模子都轻易呈现反复短语。好比,一个用中世纪修建文本作为原始输入的测试到第九代的输出已经经是一串野兔的名字。

研究职员指出,对于在使用前几代天生的练习数据集的AI模子来讲,模子瓦解是一个不成防止的终局。为了让AI乐成使用其自身输出举行练习,Shumailov以及同事以为用AI天生数据练习一个模子并不是不成能,但必需对于数据举行严酷过滤。与此同时,依靠人类天生内容的科技公司也许能比竞争敌手练习出更高效的AI模子。

相干论文信息:https://doi.org/10.1038/s41586-024-07566-y

版权声明:凡本网注明“来历:中国科学报、科学网、科学新闻杂志”的所有作品,消息网转载,请于正文上方注明来历以及作者,且不患上对于内容作本色性改动;微信公家号、头条号等新媒体平台,转载请接洽授权。邮箱:shouquan@stimes.cn。/拼搏