Jan团队推出Jan-v2-VL-Max!30B多模态模型专注长周期Agent任务,长序列执行稳定性领先Gemini 2.5 Pro

在AI智能体(Agent)迈向更复杂、更多步骤任务的关键时刻,开源社区迎来一位强劲新成员。Jan团队今日正式发布 Jan-v2-VL-Max——一款拥有300亿参数的多模态大模型,面向长周期、高可靠的自动化执行场景打造;在关键指标上已跑赢谷歌Gemini 2.5 Pro与DeepSeek R1,为开源Agent生态注入新的动力。

image.png

直击“误差累积”痛点,解决多步执行容易跑偏

目前多模态Agent在执行长序列操作(如自动化UI点击、跨应用流程)时,常因中间某一步的轻微误差,导致后续任务整体偏离,即“误差累积”。Jan-v2-VL-Max针对这一问题引入基于LoRA的RLVR(Reinforced Long-horizon Vision-Language Reasoning)训练策略,在延续Qwen3-VL-30B底座能力的同时,显著增强推理链条的一致性与抗干扰性,确保任务在数十步操作后仍能精准推进。

“幻象递减回报”评测拿下高分,树立Agent新标尺

该模型在全新评测基准“幻象递减回报”(Hallucination-Decay Return,HDR)中表现优异。该基准专门衡量Agent随着任务长度增加,因幻觉或逻辑断裂导致回报率下降的速度。Jan-v2-VL-Max在长序列任务中保持高且稳定的回报,超越Gemini 2.5 Pro与DeepSeek R1,印证其在真实自动化场景中的可靠性。

image.png

即刻上手,支持本地高效部署

为降低使用门槛,Jan团队提供:  

– 网页端交互界面,支持上传图片、输入指令,快速试跑多步自动化流程;  

– 基于vLLM的本地加速方案,可在消费级GPU上高效运行,便于开发者集成到自研Agent系统。

开源社区的“长思考”新进展

尽管Jan-v2-VL-Max相较底座模型在长序列执行上的提升幅度不算很大,但在Agent领域,稳定性每提升1%都可能带来可用性的质变。该成果显示开源力量正从“单步回复”走向“长程规划”,为UI自动化、机器人控制、多工具协同等高价值场景提供更可落地的开源底座。

随着大模型竞争从“谁更聪明”转向“谁更可靠”,Jan团队此次聚焦执行稳定性的技术路径,恰到其时。在Agent有望成为AI主要交互形态的趋势下,Jan-v2-VL-Max或将成为开发者打造“不掉链子”智能体的重要拼图。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享