Cursor 内部测试:GPT-5.2 在长周期自动化编程任务中胜过 Claude Opus 4.5

广受欢迎的 AI 编程助手Cursor近日公布了一次内部评测结果:在应对超长周期、强自主的编程项目时,OpenAI 最新GPT-5.2相较 Anthropic 的Claude Opus4.5展现出更稳的可靠性。为进一步验证模型能力,Cursor 团队从零搭建了一款功能完整的Web 浏览器,覆盖 HTML 解析、CSS 布局以及自研 JavaScript 虚拟机等复杂底层模块。

image.png

评测结果表明,GPT-5.2在这类动辄数百万行代码、持续数周的“长跑型”任务中,更能精准执行复杂指令,并保持极高的专注度,有效避免长程任务常见的“目标偏移”问题。相比之下,Claude Opus4.5虽在许多场景表现亮眼,但处理此类超大规模工程时,更容易半途停下或尝试走捷径,过早交出控制权。

目前,Cursor已在其平台同步接入了GPT-5.2模型,旨在探索 AI 代理能否独立完成那些通常需要人类团队耗时数月的大型项目。除浏览器实验外,该模型还成功完成了包括 Windows7模拟器与超百万行代码的复杂迁移在内的任务,展现了生成式 AI 在自主工程领域的巨大潜力。

划重点:

  • 🚀 长周期任务优势: Cursor表示GPT-5.2在长时间、超大规模的自主编程任务中,比Claude Opus4.5更能紧盯目标,不躺平、不掉线。

  • 🌐 硬核实测案例: 团队借助 AI 代理从头写出了 Rust 版浏览器内核,验证了模型在应对数百万行代码时的工程落地能力。

  • 🛠️ 效率显著提升: 在部分任务中,AI 代理重构的渲染管线性能提升达25倍,并能自动加入平滑缩放、动态模糊等复杂视觉效果。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享