GPT-5.2 掀起热议:是在退步还是在进化?

在 OpenAI 迎来十周年之际,全新发布的 GPT-5.2 系列模型成为讨论焦点。官方数据称,GPT-5.2 在多项专业基准中表现突出,部分领域甚至超过人类专家,被视为迄今在专业知识工作上表现最强的 AI 模型。

OpenAI 表示,GPT-5.2 在多方面取得进展。比如,在 GDPval 测试中,它在 44 个职业任务上以 70.9% 的成绩超越了一流专家;在 SWE-bench Pro 编程评测中,GPT-5.2 取得 55.6% 的 SOTA(State of the Art),且相较上一代 GPT-5.1 幻觉率下降 38%。这些结果令人振奋,像是在向前迈出新一步。

但也并非全是好评。在 SimpleBench 常识推理上,GPT-5.2 的分数落后于 Anthropic 的 Claude Sonnet 3.7,尤其在一些看起来很简单的题目上发挥欠佳。比如回答“garlic 有几个 r”这类问题时,常会出错;有用户连测三次,只对了一次。相比之下,谷歌的 Gemini 3.0 等产品在这类逻辑题上更稳定。这让部分用户失望,前 AWS 总经理 Bindu Reddy 甚至表示:“从 GPT-5.1 升级意义不大。”

尽管进步可见,但 GPT-5.2 暴露的问题也值得反思。AI 在简单常识问题上的失误,引发了对其智能水平的讨论。这是某些方面的倒退,还是成长过程中的正常波动?接下来,OpenAI 仍需继续打磨,提高模型在逻辑推理与常识理解上的能力。

总体来看,GPT-5.2 的发布意味着 OpenAI 在专业场景上又进一步,同时也显露出在常识推理等基础任务上的短板。围绕 AI 智能的这场争论,或许会成为未来技术演进的重要议题。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享