做科学研究,最关键的是推理。科研人员不只是记住事实,还要提出假设、做实验检验并不断修正,并把不同学科的想法融会贯通。随着 AI 模型能力飞速提升,如何衡量它们在科研场景中的深度推理,成了一个重要课题。

近期,AI 在多个前沿领域拿下里程碑式进展,比如在国际数学奥林匹克与信息学奥林匹克中的亮眼表现。同时,GPT-5 等先进系统已能有效提速真实科研流程。研究者借助这些工具进行跨学科文献检索、辅助复杂数学证明,把原本需要几天甚至数周的工作压缩到数小时。
为更系统地评估 AI 的科研能力,我们推出了新基准——FrontierScience。它聚焦于物理、化学、生物等方向的专家级科学推理评测。FrontierScience 收录数百道经专家审校的高难度题目,并设置两个问题轨道:奥林匹克版与研究版,分别衡量奥赛风格的科学推理与贴近真实科研情境的能力。初步结果显示,GPT-5.2 在 FrontierScience-Olympiad 与 FrontierScience-Research 两个模块上均领先于其他模型。
更具体地说,GPT-5.2 在奥林匹克模块拿到 77% 的分数,在研究模块获得 25%。这说明当前模型已能支持包含清晰步骤的结构化推理,但在更开放、需要发散与收敛结合的思考上仍有提升空间。如今,科学家们正用这些模型来加速研究,但在问题设定与结果核验上,仍需要人类把关。接下来,我们会持续打磨 FrontierScience,并拓展覆盖领域,促使模型成为值得信赖的科研拍档。
划重点:
🔍 FrontierScience 是全新基准,用于评估 AI 在科学领域的推理实力。
📊 早期评测显示,GPT-5.2 推理表现突出,但开放式思维仍需加强。
🚀 AI 的进步正在加速科研流程,后续将继续优化评测并扩展应用场景。


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?