近日,来自英国政府 AI 安全研究所的计算机科学家,联合斯坦福大学、加州大学伯克利分校与牛津大学的研究人员,对超过 440 项用于检验新一代人工智能模型安全性与性能的评测基准进行了系统梳理。团队发现几乎所有测试在某些方面存在问题,这些缺陷可能会“削弱结论的可信度”,甚至让部分评分结果“失去参考意义或产生误导”。

图源备注:图片由AI生成
随着各大科技公司不断发布新的 AI 产品,公众对其安全与可靠性也愈发担心。当前,美国与英国尚未实施全国层面的 AI 监管,这使得各类评测基准成为判定新模型是否安全、是否符合人类利益,以及其在推理、数学、编码等方面真实能力的关键参考。
该研究的第一作者、牛津互联网研究所的 Andrew Bean 表示:“如今几乎所有关于 AI 进步的说法都依赖基准测试,但由于缺少统一的定义和稳定的测量方法,我们很难分辨模型是否真的更好,还是只是看起来更好。”他举例称,谷歌近日撤回了新推出的 AI 模型 Gemma,原因是该模型散布了关于美国参议员的不实指控,这些信息完全是凭空捏造。
类似情况并非孤例。Character.ai 最近也宣布禁止未成年人与其聊天机器人进行开放式对话,缘于公司卷入多起与青少年自杀相关的争议。研究同时发现,只有 16% 的评测基准采用不确定性估计或统计检验来展示结果的可靠性。在一些评估 AI 特性的测试中,“无害性”等核心概念定义模糊,最终让评估效果大打折扣。
专家呼吁尽快建立共享标准和最佳实践,规范 AI 评测流程,确保模型的安全性与有效性得到可靠验证。
划重点:
🌐 团队发现 440+ 项 AI 测试几乎都存在缺陷,可能影响评估结论的可信度。
🚨 谷歌 Gemma 因传播虚假指控被撤回,凸显建立更严谨监管与评测的紧迫性。
📊 仅 16% 的基准采用统计方法与不确定性分析,评测标准亟需统一与升级。
                    














用户38505528 1个月前0 
粘贴不了啊用户12648782 2个月前0 
用法杂不对呢?yfarer 2个月前0 
草稿id无法下载,是什么问题?