头部 AI 模型在复杂物理难题上表现一般，仍需人类帮衬-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近日，来自全球的50多位物理学家共同设计了“CritPt”基准，用来考察顶尖 AI 在面对未公开的复杂物理研究题目时的能力。该测试旨在贴近一名博士早期阶段所需的独立科研水准。尽管外界对谷歌的“Gemini3Pro”和 OpenAI 的“GPT-5”寄予厚望，但实际成绩并不理想。

机器人 AI写作 AI教育

图注：图片由AI生成，授权方：Midjourney

在独立测评中，Gemini3Pro 以 9.1% 的准确率位居第一，GPT-5 以 4.9% 跟进。这表明，即便是表现最好的模型，也难以解决大部分任务，尤其在更复杂的研究挑战上更为吃力。CritPt 覆盖量子物理、天体物理、高能物理、生物物理等 11 个方向的 71 个研究挑战。为避免模型靠猜测或检索取巧，所有题目都基于未发表的研究内容。

测试团队还引入了更严格的“持续解决率”指标：要求模型在 5 次尝试中至少有 4 次答对。结果显示，各模型成绩明显下滑，暴露出其在复杂问题推理上的脆弱性。这种不稳定性给科研流程带来麻烦——模型常给出看似合理却藏有微小错误的答案，既可能误导研究人员，也会增加复核成本。

研究团队指出，当前大模型要独立解决开放性物理难题仍有差距，更务实的定位是把它作为“研究助手”，在特定流程里发挥作用。与此相符，OpenAI 计划在 2026 年 9 月推出“研究实习生”系统，并在 2028 年 3 月上线完全自主的研究系统。该公司称，GPT-5 当前已能为研究者节省时间。