AI 学霸翻车！GPT-4o 专家级测验仅拿 2.7 分-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

一项名为“人类终极考试”（HLE）的最新评测让人们重新审视 AI 的真本事。《自然》报道显示，GPT-4o 在这份由全球专家命题、共 2500 题的测试里，只拿到 2.7 分（满分 100 分），连表现最好的模型也不过 8 分。这样的成绩不禁让人怀疑：AI 的厉害是真功夫，还是看起来风光？

过去常用的 AI 测评正变得难以衡量真实水平，核心有两点原因：其一是“基准饱和”，模型对常见题目早已烂熟于心，分数高低不再代表理解深度；其二是“答案泄露”，不少题的解答在网上触手可及，AI 看似能答对，其实更多依赖搜索和记忆，而不是动真格的推理。

为破解上述问题，HLE 团队汇聚了来自 50 个国家、近千名专家，确保每一题都需要扎实的专业知识，整体难度大幅提升。题目覆盖数学、物理、化学等多个领域，并设置严格的审核流程，保证题目足够难，难以被 AI 轻松破解。比如数学题强调深入的逻辑推理，化学题牵涉复杂的反应机理，绝不是靠简单检索就能给出答案。

成绩摆在眼前：GPT-4o 只拿 2.7 分，Claude 3.5 Sonnet 与 Gemini 1.5 Pro 的准确率也仅为 4.1% 和 4.6%，就连表现最好的 o1 也不过 8%。这些数字说明，即便是最新一代的 AI，遇到需要深厚专业底蕴的题目，仍显得力不从心。

HLE 的结果让人看到，AI 的实际水平与它在传统基准里拿到的高分有着明显差距。也因此，我们需要重新思考：AI 是否真如想象般聪明，还是更多停留在表面上的成功。