GPT-5.2跑赢人类！ARC-AGI-2创纪录引爆“能力过剩”时代：AI的瓶颈不在模型，而在人的使用-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

当GPT-5.2在一项严苛的通用智能测试中首次超越人类平均水平，人工智能圈迎来一个既振奋又值得警醒的新节点。OpenAI联合创始人Greg Brockman近日披露，基于GPT-5.2构建的系统Poetiq（GPT-5.2X-High）在最新版ARC-AGI-2基准上取得75%准确率，明显高于人类平均的60%。这次突破不仅刷新纪录，也直击大模型长期被质疑的“性能悖论”——考试成绩亮眼，实际应用却常掉链子。

ARC-AGI-2（Abstraction and Reasoning Corpus for Artificial General Intelligence-Version2）由Keras之父François Chollet团队于2025年推出，设计理念非常纯粹：拒绝刷题，只测真推理。该基准不提供训练集，每道题都是全新、未见过的抽象任务，要求AI像人类一样通过少量示例，归纳规则、迁移知识并完成推理。也就是说，靠记忆或简单统计的模型在这里基本失效——它就是用来检验“真正的通用智能”。

此次登顶的并非OpenAI官方模型，而是一家名为Poetiq的初创公司打造的“元系统”。Poetiq没有重新训练GPT-5.2，而是通过巧妙的软件架构，自动调度、组合并引导现有大模型完成复杂推理流程。结果令人惊讶：在不改动底层模型的前提下，系统表现从接近人类水平的60%一举跃升至75%，每题成本不足8美元。对比来看，主打“深度思考”的Gemini3Deep Think（Preview）仅得46%，且成本更高。

这15个百分点的提升，揭示了一个关键趋势：AI的下一重天花板，不在堆算力，而在系统设计与人机协同。恰逢其时，OpenAI官方在X平台发布2026年战略展望，明确提出“能力过剩”（Capability Overhang）——现在的大模型“能做的事”远超人们“实际让它做的事”。模型已经具备博士级专业能力，却常被当作高级搜索引擎；企业买了AI，也没重构流程。

因此，OpenAI将重心转向应用层：2026年会加大在医疗、商业与日常场景的系统集成投入，强调“教人用AI”和“让AI融入流程”。社区也在热议：“真正的挑战不是AI不够强，而是组织不愿改变。”Poetiq的成功正说明，通过优秀的系统工程，现有模型的潜能能被成倍释放。

GPT-5.2超越人类，不是终点，而是起点。它宣告“唯参数论”时代的结束，开启以系统智能、流程再造与人机共生为核心的新赛道。未来的赢家，或许不再是拥有最大模型的公司，而是最懂得把AI织入人类生活的那一个。