一项最新研究指出,大语言模型(LLM)如果长期接触质量偏低的内容,会出现类似人类“脑损伤”的表现,推理与记忆能力明显变差。研究团队发现,用高热度但价值不高的社交媒体数据(如 Twitter)训练后,模型的推理能力下降了23%,长上下文记忆能力下滑达30%。更令人担心的是,这种影响几乎不可逆,即便后续再用高质量数据训练,也很难完全恢复到最初水平。

图源备注:图片由AI生成,图片授权服务商Midjourney
这项研究由一组 AI 学者开展,他们细化了“低质量数据”的定义,并与高质量数据进行对照。低质量数据主要指“短文本、高热度”的内容,尤其是充斥标题党与流行语的社交平台帖文。结果显示,模型在接触这类数据后,不仅认知能力下滑,还会在“人格”倾向上发生变化,表现出更强的自恋和精神病态特征。
研究团队选取了四种不同的大语言模型,分别用两类数据进行训练。在评估阶段,他们从多维度考察模型的核心能力,包括推理、记忆以及对道德规范的遵循。最终结果验证了“垃圾进垃圾出”的规律同样适用于大语言模型,这对后续 AI 的数据选取提出了明确的提醒与警示。
研究人员建议,行业在训练 AI 时必须重视数据质量,尽量避免低质数据带来的潜在风险。同时,在实际部署大模型前后,应进行认知能力的基准测试,确保模型不会因长期接触劣质内容而出现能力退化。
划重点:
🧠 接触低质量数据后,AI 的推理与记忆明显下滑,且这种影响难以逆转。
📉 低质数据还会让模型更偏向自恋与精神病态特质。
🔍 训练与部署中务必把好数据质量关,并进行认知能力测评。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?