编程智能体评测新标杆:MiniMax 上线 OctoCodingBench

随着人工智能加速演进,编程智能体正成为开发者的得力帮手。近日,MiniMax 发布全新的开源评测——OctoCodingBench,用于在代码仓库场景下衡量智能体的指令遵循能力。这一基准的推出,为智能体的评估与优化提供了新的抓手。

为什么需要 OctoCodingBench?当前不少基准(如 SWE-bench)更强调“能否把任务完成”,却忽略了一个关键点:智能体在执行过程中是否按规则行事。真实的开发环境中,智能体不仅要生成正确代码,还需遵守系统级行为约束、项目编码规范与工具使用规则。这些要求能保障代码的规范与安全,减少不必要的错误。

image.png

OctoCodingBench 从七类指令来源检验智能体的遵循度,构建出多维评估框架。这七类包括:系统提示、系统提醒、用户查询、项目级约束、技能、记忆与工具架构。这样的全景式评测,更能反映智能体的真实水平。

同时,OctoCodingBench 采用二元化检查清单的评分机制,对每项检查进行客观判断。这种方法能清晰区分任务完成率与规则遵循率。此外,基准还支持多种脚手架环境,如 Claude Code、Kilo 和 Droid,贴近实际生产工具链。

image.png

本次发布的数据集包含 72 个精选实例,覆盖自然语言用户查询与系统提示等多种情境,并提供 2,422 个评估检查项,帮助开发者全面掌握智能体表现。所有测试环境均可通过公开的 Docker 镜像获取,使用与复现更加便捷。

借助 OctoCodingBench,MiniMax 不仅为编程智能体的开发与评测树立了新标尺,也进一步推动了 AI 在软件开发领域的应用落地。

地址:https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享