AI 距诺奖还有多远?头部模型在博士级物理基准“CritPt”大败,准确率不到10%

据业内消息,全新物理评测“CritPt”的最新结果显示,即便是目前顶尖的人工智能模型,如 Gemini3Pro 和 GPT-5,距离真正胜任自主科研还有很长的路要走。该评测旨在把领先的 AI 模型放到博士早期研究水平进行严格考验。

CritPt:检验 AI 的科研实战能力

“CritPt”由来自全球30多家机构的50余位物理学家联合打造。它的核心目标并非测查课本知识记忆,而是检验 AI 是否具备解决原创、未公开研究问题的能力——这相当于一名能力突出的物理学研究生能独立推进工作的水平。

为确保评测严谨并杜绝数据泄露或作弊,CritPt 包含的71个完整研究挑战全部基于未发表材料,覆盖量子物理、天体物理、高能物理、生物物理等11个前沿方向。研究团队还将这些挑战细分为190个较小的“检查点”,用来衡量模型在解决复杂任务时的阶段性进展。

机器人 人工智能 AI (4)

令人警醒的初步结果:顶级模型准确率不足10%

首批测试结果让人冷静。根据人工智能分析公司(Artificial Analysis)的独立评估显示,即便是当前最强的系统,也难以完成大多数任务:

  • 谷歌“Gemini3Pro Preview”的准确率仅为 9.1%。(值得一提的是,其词元使用量比第二名少约10%。)

  • 位列第二的 OpenAI“GPT-5.1(high)”准确率仅为 4.9%

这些结果直观地表明,当前的大型语言模型在应对开放式物理问题时,普遍缺乏必要的严谨性、创新性和准确度。尽管模型在更简单、定义清楚的“检查点”子任务上有一定进展,但面对完整的科研挑战仍显得力不从心。

核心障碍:推理能力的脆弱性

研究团队还引入更严格的稳定性指标——“一致解决率”(要求在五次尝试中至少四次正确)。在这一标准下,模型的表现进一步明显下滑。

这种稳定性不足会给真实科研流程带来不小风险。模型经常能给出看似合理的答案,却可能藏着不易察觉的小错误,容易误导研究人员,并迫使专家投入大量时间进行复核。

未来展望:从科学家到研究助理

基于 CritPt 的结果,研究者认为,在可见的时间内,更务实的目标不是用“AI 科学家”替代人类专家,而是让 AI 充当“研究助理”,自动化特定环节的工作流程。

这一判断也与行业规划相吻合:OpenAI 表示 GPT-5 已开始为研究人员节省时间,并计划在2026年9月前推出研究“实习生”系统,目标在2028年3月前上线完全自主的“研究员”系统。然而,CritPt 的结果提示,要实现这一终极目标,AI 仍需跨越巨大的技术鸿沟。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享