加州圣迭戈电——在 NeurIPS 2025 现场,英伟达发布了首款面向 L4 级自动驾驶的推理型视觉-语言-动作模型 Alpamayo-R1,并同步在 GitHub 与 Hugging Face 开源。该模型源自今年 8 月推出的 Cosmos-Reason 系列,能把摄像头、激光雷达和文本指令统一接入,先在内部做推理,再输出驾驶决策。官方称它为车辆加入了“人类常识”。

Alpamayo-R1亮点一览:
– 统一架构:将视觉、语言、动作三模态端到端训练,减少模块拆分带来的误差累积
– 推理链路:借助 Cosmos 的思维链,模型会对“前车急刹、行人横穿”等情况先做多步推理,再给出加速/刹车/转向指令
– 开箱可用:权重、推理脚本和评测工具都打包在“Cosmos Cookbook”里,开发者可按需微调
英伟达首席科学家 Bill Dally 表示,机器人与自动驾驶将成为下一波 AI 浪潮的关键,“我们的目标是做所有机器人的大脑”。随新模型一同发布的,还有数据合成、模型评测与后训练的全流程指南,鼓励车企与 Robotaxi 团队在限定区域快速验证 L4 能力。
分析师认为,开源的推理模型能大幅降低车厂自研门槛,但是否能通过功能安全认证、满足车规级实时性,仍是 Alpamayo-R1 商业化前必须跨越的关口。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?