谷歌 FACTS(Factual Consistency and Truthfulness Score) 团队与数据科学平台 Kaggle 今日联合发布了FACTS 基准测试套件。这是一套用于衡量生成式 AI 在企业任务中事实性(Factuality)与真实性的综合评估框架。
这一发布填补了既有基准的关键缺口——过去多看“会不会做题”,而少看输出是否与真实世界数据客观一致,尤其当信息埋在图片或图表里时更易出错。对法律、金融、医疗等对准确性要求极高的行业,FACTS 提供了一个重要的标准化量尺。

核心结论:AI 距离“完美”仍有差距
FACTS 的初步结果向行业释放明确信号:模型愈发聪明,但还谈不上完美。包括 Gemini3Pro、GPT-5 和 Claude4.5Opus 在内的全部参测模型,在全量问题上的综合准确率都未超过 70%。
正如 FACTS 团队新闻稿所言,这意味着未来仍有巨大提升空间。对技术领导者来说,当前的共识是:“信任但要核实” 的阶段依然没有结束。
解构 FACTS:企业级故障模式的四大测试
FACTS 不止是简单问答,而是面向真实生产情景的四类故障模式子基准:
-
参数基准(内部知识): 测量模型仅依赖训练中学到的内部记忆来回答的准确度。
-
搜索基准(工具使用): 评估模型调用网络搜索工具检索并整合实时信息的能力(RAG 能力)。
-
多模态基准(视觉): 测试模型解读图表、示意图和图片的准确性,同时避免“幻觉”。
-
Grounding Benchmark v2(上下文): 检验模型严格依据提供的源文本(上下文)作答的能力。
为降低“数据被模型学走”的风险,谷歌公开了 3,513 个样例;同时由 Kaggle 维护防训练的私有数据集。
排行榜:Gemini3Pro 领先,但“多模态”成最大短板
初始排行榜显示,Gemini3Pro 以 68.8% 的综合 FACTS 得分名列前茅,但拆分指标暴露了不同任务的真实差距:
| 模型 | FACTS 评分(平均分) | 搜索(RAG 能力) | 多模态(视觉) |
| Gemini3Pro | 68.8% | 83.8% | 46.1% |
| Gemini2.5Pro | 62.1% | 63.9% | 46.9% |
| GPT-5 | 61.8% | 77.7% | 44.1% |
| Grok4 | 53.6% | 75.3% | 25.7% |
| Claude4.5Opus | 51.3% | 73.2% | 39.2% |
对技术栈的启示:RAG 系统是刚需
对构建 RAG(检索增强生成)系统的工程团队而言,数据验证了当下的企业实践:关键事实不要只靠模型内存。
数据显示,模型的**“查找”能力 (搜索)** 显著强于其 **“认知”能力 (参数化)。例如,Gemini3Pro 在搜索任务上得分 83.8%,而在参数化任务仅为 76.4%。FACTS 强烈建议:做内部知识机器人时,接入搜索工具或向量数据库是唯一**能把准确率抬到可接受生产水准的办法。
多模态警示:准确率普遍低于 50%
对产品经理来说,最需要警惕的是多模态一项的低分。该指标整体偏低,即便表现最好的 Gemini2.5Pro,准确率也只有 46.9%。由于任务涉及读图表、看示意图,这说明多模态 AI 还不适合“无人复核”的数据提取。
如果产品路线依赖 AI 无人审阅地从发票或财务图表中自动抓取数据,系统很可能带来接近三分之一的严重错误率。
结论:FACTS 或将成为采购新标尺
FACTS 大概率会成为企业选型时的重要标准。技术负责人应按实际用例匹配相应子基准进行评估:
-
客户支持机器人: 关注 合规性评分(Gemini2.5Pro 此项 74.2%,高于 Gemini3Pro 的 69.0%)。
-
研究助手: 优先看 搜索评分。
-
图像分析工具: 务必非常谨慎,并预设原始模型约三分之一场景可能出错。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?