GPT-5.2 掀起热议：是在退步还是在进化？-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

在 OpenAI 迎来十周年之际，全新发布的 GPT-5.2 系列模型成为讨论焦点。官方数据称，GPT-5.2 在多项专业基准中表现突出，部分领域甚至超过人类专家，被视为迄今在专业知识工作上表现最强的 AI 模型。

OpenAI 表示，GPT-5.2 在多方面取得进展。比如，在 GDPval 测试中，它在 44 个职业任务上以 70.9% 的成绩超越了一流专家；在 SWE-bench Pro 编程评测中，GPT-5.2 取得 55.6% 的 SOTA（State of the Art），且相较上一代 GPT-5.1 幻觉率下降 38%。这些结果令人振奋，像是在向前迈出新一步。

但也并非全是好评。在 SimpleBench 常识推理上，GPT-5.2 的分数落后于 Anthropic 的 Claude Sonnet 3.7，尤其在一些看起来很简单的题目上发挥欠佳。比如回答“garlic 有几个 r”这类问题时，常会出错；有用户连测三次，只对了一次。相比之下，谷歌的 Gemini 3.0 等产品在这类逻辑题上更稳定。这让部分用户失望，前 AWS 总经理 Bindu Reddy 甚至表示：“从 GPT-5.1 升级意义不大。”

尽管进步可见，但 GPT-5.2 暴露的问题也值得反思。AI 在简单常识问题上的失误，引发了对其智能水平的讨论。这是某些方面的倒退，还是成长过程中的正常波动？接下来，OpenAI 仍需继续打磨，提高模型在逻辑推理与常识理解上的能力。

总体来看，GPT-5.2 的发布意味着 OpenAI 在专业场景上又进一步，同时也显露出在常识推理等基础任务上的短板。围绕 AI 智能的这场争论，或许会成为未来技术演进的重要议题。