头部 AI 模型在复杂物理难题上表现一般,仍需人类帮衬

近日,来自全球的50多位物理学家共同设计了“CritPt”基准,用来考察顶尖 AI 在面对未公开的复杂物理研究题目时的能力。该测试旨在贴近一名博士早期阶段所需的独立科研水准。尽管外界对谷歌的“Gemini3Pro”和 OpenAI 的“GPT-5”寄予厚望,但实际成绩并不理想。

机器人 AI写作 AI教育

图注:图片由AI生成,授权方:Midjourney

在独立测评中,Gemini3Pro 以 9.1% 的准确率位居第一,GPT-5 以 4.9% 跟进。这表明,即便是表现最好的模型,也难以解决大部分任务,尤其在更复杂的研究挑战上更为吃力。CritPt 覆盖量子物理、天体物理、高能物理、生物物理等 11 个方向的 71 个研究挑战。为避免模型靠猜测或检索取巧,所有题目都基于未发表的研究内容。

测试团队还引入了更严格的“持续解决率”指标:要求模型在 5 次尝试中至少有 4 次答对。结果显示,各模型成绩明显下滑,暴露出其在复杂问题推理上的脆弱性。这种不稳定性给科研流程带来麻烦——模型常给出看似合理却藏有微小错误的答案,既可能误导研究人员,也会增加复核成本。

研究团队指出,当前大模型要独立解决开放性物理难题仍有差距,更务实的定位是把它作为“研究助手”,在特定流程里发挥作用。与此相符,OpenAI 计划在 2026 年 9 月推出“研究实习生”系统,并在 2028 年 3 月上线完全自主的研究系统。该公司称,GPT-5 当前已能为研究者节省时间。

要点速览:

🌟 当下顶尖 AI 在复杂物理任务上的发挥一般,最高准确率仅为 9.1%。  

🔍 “CritPt” 基准覆盖多个物理分支,题目均来自未公开的研究内容。  

🤖 未来 AI 更可能充当研究助手,而非完全取代人类专家,在指定流程中协助自动化。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享