
在核心评测中,
此次开源提供 Base 与 Thinking 两个版本。受益于创新的并行协调推理机制(PaCoRe),模型在高精度 OCR、复杂计数与空间拓扑理解等任务中表现更稳健。这意味着原本依赖云端的复杂多模态推理,如今可更低成本部署到手机、电脑等端侧设备,大幅提升端侧 Agent 的交互效率。
-
项目主页:https://stepfun-ai.github.io/Step3-VL-10B/
-
论文链接:https://arxiv.org/abs/2601.09668
-
HuggingFace:https://huggingface.co/collections/stepfun-ai/step3-vl-10b
-
ModelScope:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B
划重点:
-
🚀 小体量越级反击:
以10B 规模对标并超越200B 级巨型模型,实现了性能与规模的极致杠杆效应。Step3-VL-10B -
🧠 深度理解与感知:融合 PaCoRe 机制与大规模强化学习,在竞赛级数学、复杂 GUI 感知及 3D 空间推理等领域达到世界顶尖水准。
-
📱 端侧能力落地:让高性能多模态在低算力设备也能运行,为手机与工业嵌入式设备的“主动理解与交互”提供坚实底座。

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?