谷歌推出 FACTS 基准:AI 模型准确率遭遇 70% 天花板

近日,谷歌 FACTS 团队携手数据社区 Kaggle 推出 FACTS 基准套件,弥补当前 AI 评测在“事实准确性”上缺少统一标准的问题。这个套件给出了一套完整的评估框架,尤其适合法律、金融、医疗等对准确率要求极高的领域。

机器人打字

图源说明:图片由 AI 生成,授权服务商 Midjourney

FACTS 将“事实性”拆成两类:其一是“上下文事实性”,即基于给定资料做出准确回答;其二是“世界知识事实性”,依靠模型记忆或联网检索获取信息。首轮测试显示,Gemini3Pro、GPT-5、Claude4.5Opus 等模型在该基准上的准确率都未超过 70%。

FACTS 不只是做问答,它由四类测试构成,贴近工程实战中的常见失误场景。具体包含:参数基准(内部知识)、搜索基准(工具使用)、多模态基准(视觉)与上下文基准。谷歌公开了 3513 个样例,Kaggle 也保留了一部分私有数据,避免开发者对测试集“背题”训练。

从首批结果看,Gemini3Pro 以 68.8% 的综合 FACTS 分数领先,随后是 Gemini2.5Pro(62.1%)和 OpenAI 的 GPT-5(61.8%)。其中,Gemini3Pro 在“搜索”基准上拿到 83.8%,但在“参数”测试中为 76.4%。这提示企业在搭建 RAG 等知识检索增强方案时,最好把模型与搜索工具或向量库结合,以提升准确率。

但需要注意,多模态任务整体成绩偏低。即便是表现领先的 Gemini2.5Pro,在这一项也只有 46.9% 的准确率。这说明当前多模态 AI 在无监督数据提取方面仍不成熟,企业在产品设计时应保持谨慎。

要点速览:

🌟 所有被测模型总体准确率都没超过 70%,仍有较大提升空间。

🔍 Gemini3Pro 搜索能力亮眼,但在参数/内部知识任务上仍需加强。

⚠️ 多模态在数据提取上准确性不足,落地应用需谨慎。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享