AI 学霸翻车!GPT-4o 专家级测验仅拿 2.7 分

一项名为“人类终极考试”(HLE)的最新评测让人们重新审视 AI 的真本事。《自然》报道显示,GPT-4o 在这份由全球专家命题、共 2500 题的测试里,只拿到 2.7 分(满分 100 分),连表现最好的模型也不过 8 分。这样的成绩不禁让人怀疑:AI 的厉害是真功夫,还是看起来风光?

过去常用的 AI 测评正变得难以衡量真实水平,核心有两点原因:其一是“基准饱和”,模型对常见题目早已烂熟于心,分数高低不再代表理解深度;其二是“答案泄露”,不少题的解答在网上触手可及,AI 看似能答对,其实更多依赖搜索和记忆,而不是动真格的推理。

为破解上述问题,HLE 团队汇聚了来自 50 个国家、近千名专家,确保每一题都需要扎实的专业知识,整体难度大幅提升。题目覆盖数学、物理、化学等多个领域,并设置严格的审核流程,保证题目足够难,难以被 AI 轻松破解。比如数学题强调深入的逻辑推理,化学题牵涉复杂的反应机理,绝不是靠简单检索就能给出答案。

成绩摆在眼前:GPT-4o 只拿 2.7 分,Claude 3.5 Sonnet 与 Gemini 1.5 Pro 的准确率也仅为 4.1% 和 4.6%,就连表现最好的 o1 也不过 8%。这些数字说明,即便是最新一代的 AI,遇到需要深厚专业底蕴的题目,仍显得力不从心。

HLE 的结果让人看到,AI 的实际水平与它在传统基准里拿到的高分有着明显差距。也因此,我们需要重新思考:AI 是否真如想象般聪明,还是更多停留在表面上的成功。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享