上海交大等团队发布 SWE-Explore 测试基准，揭开 AI 编码智能体行级定位短板-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

由上海交通大学参与的国际研究团队今日正式发布了一款全新的基准测试工具 SWE-Explore。该工具把代码搜索和实际修复过程拆开进行独立评估，首次用量化方式展示了当前 AI 编码智能体在“行级精度”方面存在的明显技术不足。这项研究改变了过去只看“最终修复率”的单一评测方式，也为直接衡量智能体前置搜索质量提供了新的标准，正在推动 AI 软件工程评测进一步深入发展。

过去像 SWE-bench 这样的传统基准测试，主要聚焦端到端结果，因此很容易遮蔽智能体在代码阅读和理解阶段暴露出的真实问题。基于这一点，研究团队参考了 GPT-5.4、Gemini3Pro、Claude Sonnet4.6 以及 Kimi K2.6 等主流大模型的成功运行轨迹，从多条独立求解路径共同交汇的代码片段中提炼出共识区域作为参考值，最终搭建出一个覆盖 10 种编程语言、203 个开源项目、共 848 个缺陷任务的数据集。

测试结果显示，虽然 Claude Code、OpenHands 等通用编码智能体在“文件级”定位上的表现相当突出，但一旦细化到具体“代码行”层面，它们对核心区域的覆盖率就会迅速下降到 14% 至 19% 之间。进一步的消融实验也验证了“最小上下文阈值”效应确实存在：当关键核心区域的可见比例低于 50% 时，模型修复几乎都会失败；而当这一比例进入 50% 到 75% 区间后，修复成功率才会出现明显跃升。

这项研究说明，当前 AI 智能体面临的主要瓶颈，并不完全是补丁生成能力不足，而是缺少对关键上下文进行精准筛选和捕捉的能力。在当前行业中，项目经理对过半自动化方案持保留态度的现实背景下，SWE-Explore 所提出的“少过滤、多阅读”技术思路，不仅为下一代专门化代码定位系统（如 CoSIL 等）的架构优化提供了明确方向，也将推动自动化软件工程从“暴力生成”逐步走向“精准检索”的新范式。