一项名为“人类终极考试”(HLE)的最新评测让人们重新审视 AI 的真本事。《自然》报道显示,GPT-4o 在这份由全球专家命题、共 2500 题的测试里,只拿到 2.7 分(满分 100 分),连表现最好的模型也不过 8 分。这样的成绩不禁让人怀疑:AI 的厉害是真功夫,还是看起来风光?
过去常用的 AI 测评正变得难以衡量真实水平,核心有两点原因:其一是“基准饱和”,模型对常见题目早已烂熟于心,分数高低不再代表理解深度;其二是“答案泄露”,不少题的解答在网上触手可及,AI 看似能答对,其实更多依赖搜索和记忆,而不是动真格的推理。
为破解上述问题,HLE 团队汇聚了来自 50 个国家、近千名专家,确保每一题都需要扎实的专业知识,整体难度大幅提升。题目覆盖数学、物理、化学等多个领域,并设置严格的审核流程,保证题目足够难,难以被 AI 轻松破解。比如数学题强调深入的逻辑推理,化学题牵涉复杂的反应机理,绝不是靠简单检索就能给出答案。
成绩摆在眼前:GPT-4o 只拿 2.7 分,Claude 3.5 Sonnet 与 Gemini 1.5 Pro 的准确率也仅为 4.1% 和 4.6%,就连表现最好的 o1 也不过 8%。这些数字说明,即便是最新一代的 AI,遇到需要深厚专业底蕴的题目,仍显得力不从心。
HLE 的结果让人看到,AI 的实际水平与它在传统基准里拿到的高分有着明显差距。也因此,我们需要重新思考:AI 是否真如想象般聪明,还是更多停留在表面上的成功。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?