谷歌推出 FACTS 基准:揭开 AI “事实门槛”,顶尖模型准确率均未破70%

 谷歌 FACTS(Factual Consistency and Truthfulness Score) 团队与数据科学平台 Kaggle 今日联合发布了FACTS 基准测试套件。这是一套用于衡量生成式 AI 在企业任务中事实性(Factuality)真实性的综合评估框架。

这一发布填补了既有基准的关键缺口——过去多看“会不会做题”,而少看输出是否与真实世界数据客观一致,尤其当信息埋在图片或图表里时更易出错。对法律、金融、医疗等对准确性要求极高的行业,FACTS 提供了一个重要的标准化量尺。

AI音乐 人工智能 (3)

核心结论:AI 距离“完美”仍有差距

FACTS 的初步结果向行业释放明确信号:模型愈发聪明,但还谈不上完美。包括 Gemini3Pro、GPT-5 和 Claude4.5Opus 在内的全部参测模型,在全量问题上的综合准确率都未超过 70%

正如 FACTS 团队新闻稿所言,这意味着未来仍有巨大提升空间。对技术领导者来说,当前的共识是:“信任但要核实” 的阶段依然没有结束。

解构 FACTS:企业级故障模式的四大测试

FACTS 不止是简单问答,而是面向真实生产情景的四类故障模式子基准:

  1. 参数基准(内部知识): 测量模型仅依赖训练中学到的内部记忆来回答的准确度。

  2. 搜索基准(工具使用): 评估模型调用网络搜索工具检索并整合实时信息的能力(RAG 能力)。

  3. 多模态基准(视觉): 测试模型解读图表、示意图和图片的准确性,同时避免“幻觉”。

  4. Grounding Benchmark v2(上下文): 检验模型严格依据提供的源文本(上下文)作答的能力。

为降低“数据被模型学走”的风险,谷歌公开了 3,513 个样例;同时由 Kaggle 维护防训练的私有数据集。

排行榜:Gemini3Pro 领先,但“多模态”成最大短板

初始排行榜显示,Gemini3Pro 以 68.8% 的综合 FACTS 得分名列前茅,但拆分指标暴露了不同任务的真实差距:

模型 FACTS 评分(平均分) 搜索(RAG 能力) 多模态(视觉)
Gemini3Pro 68.8% 83.8% 46.1%
Gemini2.5Pro 62.1% 63.9% 46.9%
GPT-5 61.8% 77.7% 44.1%
Grok4 53.6% 75.3% 25.7%
Claude4.5Opus 51.3% 73.2% 39.2%

对技术栈的启示:RAG 系统是刚需

对构建 RAG(检索增强生成)系统的工程团队而言,数据验证了当下的企业实践:关键事实不要只靠模型内存

数据显示,模型的**“查找”能力 (搜索)** 显著强于其 **“认知”能力 (参数化)。例如,Gemini3Pro 在搜索任务上得分 83.8%,而在参数化任务仅为 76.4%。FACTS 强烈建议:做内部知识机器人时,接入搜索工具或向量数据库是唯一**能把准确率抬到可接受生产水准的办法。

多模态警示:准确率普遍低于 50%

对产品经理来说,最需要警惕的是多模态一项的低分。该指标整体偏低,即便表现最好Gemini2.5Pro,准确率也只有 46.9%。由于任务涉及读图表、看示意图,这说明多模态 AI 还不适合“无人复核”的数据提取。

如果产品路线依赖 AI 无人审阅地从发票或财务图表中自动抓取数据,系统很可能带来接近三分之一的严重错误率。

结论:FACTS 或将成为采购新标尺

FACTS 大概率会成为企业选型时的重要标准。技术负责人应按实际用例匹配相应子基准进行评估:

  • 客户支持机器人: 关注 合规性评分(Gemini2.5Pro 此项 74.2%,高于 Gemini3Pro 的 69.0%)。

  • 研究助手: 优先看 搜索评分

  • 图像分析工具: 务必非常谨慎,并预设原始模型约三分之一场景可能出错。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享