GPT-5.2 上线掀起热议:是智力下滑还是技术升级?

在 OpenAI 迎来十周年之际,最新推出的 GPT-5.2 系列模型迅速引发热议。官方数据称,GPT-5.2 在多项专业基准中表现亮眼,部分领域甚至超过人类专家,被不少人视为迄今在专业知识型工作上表现最佳的 AI 模型。

据 OpenAI 介绍,GPT-5.2 在多方面实现突破。比如,在 GDPval 测试里,它在 44 个职业相关任务上以 70.9% 的成绩超越了顶尖专家;在 SWE-bench Pro 编程评测中,GPT-5.2 以 55.6% 的成绩达到 SOTA(State of the Art),相较上一代 GPT-5.1 幻觉率下降 38%。这些进展令人振奋,似乎预示着 AI 再迈一大步。

不过,外界也有不同声音。在 SimpleBench 常识推理测试里,GPT-5.2 的分数不及 Anthropic 的 Claude Sonnet 3.7,尤其在一些看上去很简单的问题上表现不稳。比如回答“garlic 有几个 r”,多次尝试仍易出错;有用户连续测了三次,只对了一回。相比之下,谷歌的 Gemini 3.0 等竞品在这类逻辑题上更稳定。这让一些用户感到失望,前 AWS 总经理 Bindu Reddy 直言,没有必要从 GPT-5.1 升级。

技术进步毋庸置疑,但 GPT-5.2 暴露出的短板也值得反思。模型在处理基础常识题时的失误,引发了关于 AI 智能水平的讨论:这究竟是某些方面的退步,还是发展过程中的正常波动?未来,OpenAI 仍需在逻辑推理与常识理解上持续打磨。

总体来看,GPT-5.2 的发布既代表了 OpenAI 在专业场景上的显著前进,也暴露出在常识推理等基础能力上的不足。围绕 AI 智能的这场讨论,或许会成为接下来科技演进的一个关键话题。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享