Cursor 实测:长程自动化编程任务中,GPT-5.2 稳定性胜过 Claude Opus 4.5

知名的 AI 编程助手Cursor近日披露一项内部评测:在处理超长周期、强自主的编程项目时,OpenAI 最新GPT-5.2相比 Anthropic 的Claude Opus4.5展现出更强的稳定度。为验证模型实力,Cursor 团队尝试从零搭建一款完整的Web 浏览器,涵盖 HTML 解析、CSS 布局与自研 JavaScript 虚拟机等底层模块。

image.png

评测显示,GPT-5.2在这类耗时数周、代码量达数百万行的“马拉松式”项目中,更能准确执行复杂要求,并保持极高的专注,有效避免长程任务中常见的“目标跑偏”。相较之下,Claude Opus4.5虽在不少场景表现亮眼,但面对超大规模工程,容易中途停下或尝试走捷径,较早把控制权交回。

目前,Cursor已在平台接入GPT-5.2模型,旨在探索 AI 代理能否独立完成原本需人类团队耗费数月的大型项目。除浏览器实验外,该模型还顺利完成了包括 Windows7 模拟器与超百万行代码的复杂迁移等任务,显示出生成式 AI 在自主工程方向上的潜力。

划重点:

  • 🚀 长程任务优势: Cursor指出,GPT-5.2在长时间、超大规模的自主编程任务中,比Claude Opus4.5更能紧扣目标,不走神、不掉链子。

  • 🌐 硬核实测案例: 团队用 AI 代理从零写出了 Rust 版本的浏览器内核,证明模型在应对数百万行代码时具备强劲的工程落地能力。

  • 🛠️ 效率大幅提升: 在特定任务中,AI 代理重写的渲染管线性能提升了 25 倍,并能自动加入平滑缩放、动态模糊等复杂视觉效果。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享