AI 科研评测新标杆：FrontierScience 衡量模型推理力-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

在科研领域，推理是核心能力。科学家不仅要记住知识，还要提出假设、进行实验检验并不断修正，同时把各学科的想法融会贯通。随着 AI 模型水平提升，如何衡量它们在科学场景中的深度推理，成了亟需解决的问题。

近来，AI 在多项重头领域取得突破，在国际数学与信息学奥赛上都有亮眼成绩。与此同时，GPT-5 等前沿模型已实打实地提速科研流程。研究人员用它们做跨学科文献检索与复杂数学推导，把原本需要数天甚至数周的工作压缩到数小时。

为更全面评估 AI 的科研能力，我们发布了全新评测集——FrontierScience。它聚焦物理、化学、生物等方向的专家级科学推理，收录数百道经专家校验的高难题目，并设置两个赛道：奥林匹克版与研究版，分别衡量奥赛风格推理与真实科研能力。初步结果显示，GPT-5.2 在 FrontierScience-Olympiad 与 Research 两个模块均优于其他模型。

具体来看，GPT-5.2 在奥林匹克模块得分 77%，在研究模块得分 25%。眼下的模型已能支撑结构化推理环节，但在开放式思考上仍有提升空间。当前，科研人员用它们加速流程，但在问题设定与结果核验上仍需人类把关。接下来，我们将持续打磨 FrontierScience，并拓展应用场景，助力模型成为可靠的科学合作者。