NVIDIA 发布 Orchestrator-8B:强化学习驱动的高效工具与模型选择控制器

NVIDIA 推出了新方案 ToolOrchestra,旨在让 AI 系统更会挑选合适的模型与工具,摆脱对单一大模型的依赖。它通过训练一个名为 Orchestrator-8B 的小型语言模型,充当多工具代理的“大脑”,让任务处理更高效。

image.png

当前许多 AI 代理通常依赖一个大型模型(如 GPT-5),根据提示来选工具并完成任务。但研究发现,这类做法容易让模型过度依赖自身输出,造成成本与算力浪费。为此,ToolOrchestra 设计了专门的控制器 Orchestrator-8B,用强化学习优化工具选择与使用。

Orchestrator-8B 约 8 亿参数,是纯 Transformer 解码器,由 Qwen3-8B 微调而成。其工作流程分为三步:首先,解析用户指令和可选的自然语言偏好(如优先低延迟或避免网络搜索);随后,展开推理并制定行动计划;最后,从候选工具中做出选择,并以统一的 JSON 格式发起调用。这个循环会持续,直到任务完成或达到 50 步上限。

在强化学习设计上,ToolOrchestra 采用多重奖励以保障高效完成任务:包括任务成败的二元奖励、效率奖励(关注成本与时间),以及用户偏好奖励。多维信号共同作用,促使策略更灵活、更省时省钱地使用工具。

在多项基准测试中,Orchestrator-8B 表现亮眼。例如,在“人类最后的考试”中,准确率达到 37.1%,超过 GPT-5 的 35.1%。效率方面,Orchestrator-8B 的平均成本仅 0.092 美元、用时 8.2 分钟,明显低于 GPT-5 的 0.302 美元与 19.8 分钟。这说明它在资源利用与任务处理上更占优,适合关注效率和成本的团队。

总体来看,NVIDIA 的 ToolOrchestra 为构建复合 AI 系统迈出关键一步,通过训练专用的路由策略,显著提升了任务执行的效率与准确性。

论文:https://arxiv.org/pdf/2511.21689

划重点:  

🧠 Orchestrator-8B 是 NVIDIA 推出的 8 亿参数小型控制器,专注提升多工具使用效率。  

💡 借助强化学习,它能更聪明地挑选并调用工具,避免不必要的开销。  

📊 多项基准显示,它在准确率与效率上都比传统大模型(如 GPT-5)更优。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享