专家揭示：AI 安全与效能评测普遍存在重大问题，引发行业警示-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近日，来自英国政府 AI 安全研究所的计算机科学家，联合斯坦福大学、加州大学伯克利分校与牛津大学的研究人员，对超过 440 项用于检验新一代人工智能模型安全性与性能的评测基准进行了系统梳理。团队发现几乎所有测试在某些方面存在问题，这些缺陷可能会“削弱结论的可信度”，甚至让部分评分结果“失去参考意义或产生误导”。

图源备注：图片由AI生成

随着各大科技公司不断发布新的 AI 产品，公众对其安全与可靠性也愈发担心。当前，美国与英国尚未实施全国层面的 AI 监管，这使得各类评测基准成为判定新模型是否安全、是否符合人类利益，以及其在推理、数学、编码等方面真实能力的关键参考。

该研究的第一作者、牛津互联网研究所的 Andrew Bean 表示：“如今几乎所有关于 AI 进步的说法都依赖基准测试，但由于缺少统一的定义和稳定的测量方法，我们很难分辨模型是否真的更好，还是只是看起来更好。”他举例称，谷歌近日撤回了新推出的 AI 模型 Gemma，原因是该模型散布了关于美国参议员的不实指控，这些信息完全是凭空捏造。

类似情况并非孤例。Character.ai 最近也宣布禁止未成年人与其聊天机器人进行开放式对话，缘于公司卷入多起与青少年自杀相关的争议。研究同时发现，只有 16% 的评测基准采用不确定性估计或统计检验来展示结果的可靠性。在一些评估 AI 特性的测试中，“无害性”等核心概念定义模糊，最终让评估效果大打折扣。

专家呼吁尽快建立共享标准和最佳实践，规范 AI 评测流程，确保模型的安全性与有效性得到可靠验证。