编程智能体评测新标杆:MiniMax 推出 OctoCodingBench 开源基准

AI 快速演进之下,编程智能体正日益成为开发者的得力帮手。近日,AI 大模型公司 MiniMax 发布开源基准 —— OctoCodingBench,用来评测编程智能体在代码仓库场景中对指令的遵从程度。这一基准的推出,为智能体的评估与优化提供了新的思路。

为什么需要 OctoCodingBench?当下的许多基准(如 SWE-bench)更关注“能否把事做成”,却常忽视另一个关键点:执行过程中是否守规。在真实开发中,智能体不仅要写对代码,还必须遵循系统层行为约束、项目编码规范与工具使用约定。这些规则保障代码的规范与安全,减少开发过程中的不必要错误。

image.png

OctoCodingBench 以七个指令来源为维度检验遵循度,构建多维评估框架:系统提示、系统提醒、用户请求、项目级约束、技能、记忆以及工具架构。这样的全面覆盖,更能贴近智能体的真实能力。

此外,OctoCodingBench 采用二元化检查清单的评分机制,对每项规则进行客观判定,使结果更精准,并清晰区分任务完成率与规则遵循率。它还支持多种脚手架环境,如 Claude Code、Kilo 和 Droid,均为实际生产中常用的工具。

image.png

本次发布的数据集包含 72 个精选案例,覆盖自然语言用户请求与系统提示等多种情境,并提供 2,422 个评估检查点,帮助开发者更全面地了解智能体的表现。所有测试环境均可通过公开的 Docker 镜像访问,极大地方便了搭建与验证。

借助 OctoCodingBench,MiniMax 不仅为编程智能体的研发与评测树立了新标准,也推动了 AI 在软件开发领域的进一步落地。

地址:https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享