当AI开始尝试从零打造一款完整的Web浏览器——涵盖HTML解析器、CSS布局引擎,甚至自建JavaScript虚拟机——它要面对的不只是代码生成,更是一场关于逻辑自洽、任务坚持和工程理解力的硬核考验。
近日,知名AI编程工具Cursor公布了一项令业内瞩目的内部评测:OpenAI最新模型GPT-5.2在超长程、高复杂度的自主编程任务中,明显领先Anthropic的Claude Opus4.5,展现出前所未有的工程级稳定与可靠。
这次实验并非简单拼接代码,而是要求模型在持续数周的周期里推进一个涉及数百万行代码的系统级项目。AI需要反复理解上下文、修补早期设计问题、协调跨模块依赖,并始终对准最终目标。测试显示,GPT-5.2能稳定执行复杂指令链,在长时推理中几乎不出现“目标漂移”。相较之下,Claude Opus4.5虽在短程问答与单文件编码上表现不俗,但面对这种“马拉松式”工程,更容易提前收尾、寻求简化,或将控制权交回人类。
这一差异揭示了当下大模型在“自主代理”能力上的关键分水岭:能否在无人干预下,像人类工程团队那样持续推进大型项目。Cursor团队表示,GPT-5.2不仅完成了浏览器的构建,还成功复现了Windows 7模拟器,并主导了超百万行代码的遗留系统迁移——这些原本需要数月人力的工程,如今正被AI以惊人连贯性逐步接管。
目前,GPT-5.2已集成至Cursor平台,开发者可直接调用其能力进行高阶协作开发。这不仅显著提高个人开发效率,也预示着一种新范式:未来,AI或将作为“数字工程师”独立承担端到端的软件工程。当模型不再只写函数,而能规划架构、调试系统、持续优化,软件开发的边界正被重新定义。

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?