AI 科研新基准：FrontierScience 用于评测模型推理力-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

做科学研究，最关键的是推理。科研人员不只是记住事实，还要提出假设、做实验检验并不断修正，并把不同学科的想法融会贯通。随着 AI 模型能力飞速提升，如何衡量它们在科研场景中的深度推理，成了一个重要课题。

近期，AI 在多个前沿领域拿下里程碑式进展，比如在国际数学奥林匹克与信息学奥林匹克中的亮眼表现。同时，GPT-5 等先进系统已能有效提速真实科研流程。研究者借助这些工具进行跨学科文献检索、辅助复杂数学证明，把原本需要几天甚至数周的工作压缩到数小时。

为更系统地评估 AI 的科研能力，我们推出了新基准——FrontierScience。它聚焦于物理、化学、生物等方向的专家级科学推理评测。FrontierScience 收录数百道经专家审校的高难度题目，并设置两个问题轨道：奥林匹克版与研究版，分别衡量奥赛风格的科学推理与贴近真实科研情境的能力。初步结果显示，GPT-5.2 在 FrontierScience-Olympiad 与 FrontierScience-Research 两个模块上均领先于其他模型。

更具体地说，GPT-5.2 在奥林匹克模块拿到 77% 的分数，在研究模块获得 25%。这说明当前模型已能支持包含清晰步骤的结构化推理，但在更开放、需要发散与收敛结合的思考上仍有提升空间。如今，科学家们正用这些模型来加速研究，但在问题设定与结果核验上，仍需要人类把关。接下来，我们会持续打磨 FrontierScience，并拓展覆盖领域，促使模型成为值得信赖的科研拍档。