GPT-5.2跑赢人类!ARC-AGI-2破纪录点燃“能力过剩”:AI瓶颈不在模型,在人

当GPT-5.2在一次严格的通用智能评测中首次超过人类平均,AI圈迎来一个既兴奋又警惕的拐点。OpenAI联合创始人Greg Brockman表示,基于GPT-5.2打造的系统Poetiq(GPT-5.2X-High)在最新版ARC-AGI-2基准上拿到75%准确率,明显高于人类60%的平均线。这一成绩不只刷新记录,也直指大模型被批评已久的“性能悖论”——考试数据亮眼,落地使用却常掉链子。

image.png

ARC-AGI-2(Abstraction and Reasoning Corpus for Artificial General Intelligence-Version2)由Keras之父François Chollet团队于2025年发布,设计思路很纯粹:拒绝刷题,只考真推理。该基准不提供训练集,每道题都是全新、未见过的抽象任务,要求AI像人类一样用少量示例归纳规则、迁移知识并完成推断。也就是说,靠记忆或统计匹配的模型会失灵——它就是为检验“真正的通用智能”而来。

这次冲到榜首的并非OpenAI官方模型,而是初创公司Poetiq构建的“元系统”。Poetiq没有重训GPT-5.2,而是用精巧的软件架构去自动调度、组合并引导现有大模型完成复杂推理流程。结果意外而亮眼:在不改动底模的前提下,系统从接近人类的约60%一跃到75%,单题成本不到8美元。相比之下,主打“深度思考”的Gemini3Deep Think(Preview)仅有46%,且更贵。

image.png

这跃升的15个百分点说明了一个关键信号:**AI的下一重天花板,不在简单堆算力,而在系统工程与人机协同**。此时,OpenAI在X平台发布的2026年战略也强调“能力过剩”(Capability Overhang)——当下大模型“能做的”远多于人们“实际在做的”。模型已具备接近博士的专业能力,却常被当成高级搜索;企业买了AI,却没有重做流程。

因此,OpenAI把重点转向应用层:2026年将加大在医疗、商业与日常场景的系统集成,强调“教会人用AI”和“让AI进流程”。社区也议论:真正的难点不是AI不够强,而是组织不想变。Poetiq的成绩正好说明,通过优秀的系统工程,现有模型的潜能还能成倍释放。

GPT-5.2跑赢人类不是终点,而是起点。它宣告“唯参数论”式竞争的退场,开启以系统智能、流程再造与人机共生为核心的新赛道。未来的赢家,也许不一定拥有最大的模型,而是最会把AI编织进工作与生活的人。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享