在科研领域,推理是核心能力。科学家不仅要记住知识,还要提出假设、进行实验检验并不断修正,同时把各学科的想法融会贯通。随着 AI 模型水平提升,如何衡量它们在科学场景中的深度推理,成了亟需解决的问题。

近来,AI 在多项重头领域取得突破,在国际数学与信息学奥赛上都有亮眼成绩。与此同时,GPT-5 等前沿模型已实打实地提速科研流程。研究人员用它们做跨学科文献检索与复杂数学推导,把原本需要数天甚至数周的工作压缩到数小时。
为更全面评估 AI 的科研能力,我们发布了全新评测集——FrontierScience。它聚焦物理、化学、生物等方向的专家级科学推理,收录数百道经专家校验的高难题目,并设置两个赛道:奥林匹克版与研究版,分别衡量奥赛风格推理与真实科研能力。初步结果显示,GPT-5.2 在 FrontierScience-Olympiad 与 Research 两个模块均优于其他模型。
具体来看,GPT-5.2 在奥林匹克模块得分 77%,在研究模块得分 25%。眼下的模型已能支撑结构化推理环节,但在开放式思考上仍有提升空间。当前,科研人员用它们加速流程,但在问题设定与结果核验上仍需人类把关。接下来,我们将持续打磨 FrontierScience,并拓展应用场景,助力模型成为可靠的科学合作者。
划重点:
🔍 FrontierScience 是面向科学推理的新基准,用于评测 AI 的科研推理水平。
📊 初测结果表明,GPT-5.2 表现出色,但开放式思维仍需加强。
🚀 AI 的进步正加速科研流程,后续将继续优化评测并拓宽应用。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?