近日,来自全球的50多位物理学家共同设计了“CritPt”基准,用来考察顶尖 AI 在面对未公开的复杂物理研究题目时的能力。该测试旨在贴近一名博士早期阶段所需的独立科研水准。尽管外界对谷歌的“Gemini3Pro”和 OpenAI 的“GPT-5”寄予厚望,但实际成绩并不理想。

图注:图片由AI生成,授权方:Midjourney
在独立测评中,Gemini3Pro 以 9.1% 的准确率位居第一,GPT-5 以 4.9% 跟进。这表明,即便是表现最好的模型,也难以解决大部分任务,尤其在更复杂的研究挑战上更为吃力。CritPt 覆盖量子物理、天体物理、高能物理、生物物理等 11 个方向的 71 个研究挑战。为避免模型靠猜测或检索取巧,所有题目都基于未发表的研究内容。
测试团队还引入了更严格的“持续解决率”指标:要求模型在 5 次尝试中至少有 4 次答对。结果显示,各模型成绩明显下滑,暴露出其在复杂问题推理上的脆弱性。这种不稳定性给科研流程带来麻烦——模型常给出看似合理却藏有微小错误的答案,既可能误导研究人员,也会增加复核成本。
研究团队指出,当前大模型要独立解决开放性物理难题仍有差距,更务实的定位是把它作为“研究助手”,在特定流程里发挥作用。与此相符,OpenAI 计划在 2026 年 9 月推出“研究实习生”系统,并在 2028 年 3 月上线完全自主的研究系统。该公司称,GPT-5 当前已能为研究者节省时间。
要点速览:
🌟 当下顶尖 AI 在复杂物理任务上的发挥一般,最高准确率仅为 9.1%。
🔍 “CritPt” 基准覆盖多个物理分支,题目均来自未公开的研究内容。
🤖 未来 AI 更可能充当研究助手,而非完全取代人类专家,在指定流程中协助自动化。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?