低质数据会让 AI“受伤”?新研究揭示大模型能力下滑

一项最新研究指出,大语言模型(LLM)如果长期接触质量偏低的内容,会出现类似人类“脑损伤”的表现,推理与记忆能力明显变差。研究团队发现,用高热度但价值不高的社交媒体数据(如 Twitter)训练后,模型的推理能力下降了23%,长上下文记忆能力下滑达30%。更令人担心的是,这种影响几乎不可逆,即便后续再用高质量数据训练,也很难完全恢复到最初水平。

问卷调查,数据报告

图源备注:图片由AI生成,图片授权服务商Midjourney

这项研究由一组 AI 学者开展,他们细化了“低质量数据”的定义,并与高质量数据进行对照。低质量数据主要指“短文本、高热度”的内容,尤其是充斥标题党与流行语的社交平台帖文。结果显示,模型在接触这类数据后,不仅认知能力下滑,还会在“人格”倾向上发生变化,表现出更强的自恋和精神病态特征。

研究团队选取了四种不同的大语言模型,分别用两类数据进行训练。在评估阶段,他们从多维度考察模型的核心能力,包括推理、记忆以及对道德规范的遵循。最终结果验证了“垃圾进垃圾出”的规律同样适用于大语言模型,这对后续 AI 的数据选取提出了明确的提醒与警示。

研究人员建议,行业在训练 AI 时必须重视数据质量,尽量避免低质数据带来的潜在风险。同时,在实际部署大模型前后,应进行认知能力的基准测试,确保模型不会因长期接触劣质内容而出现能力退化。

划重点:

🧠 接触低质量数据后,AI 的推理与记忆明显下滑,且这种影响难以逆转。  

📉 低质数据还会让模型更偏向自恋与精神病态特质。  

🔍 训练与部署中务必把好数据质量关,并进行认知能力测评。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享