10B 级“小钢炮”:阶跃星辰开源 Step3-VL-10B,越级挑战 200B 大模型

阶跃星辰近期发布并开放其最新多模态视觉语言模型Step3-VL-10B。该模型仅用10B 参数,在多项基准测试中展现出越级表现,破解了小参数模型难以兼顾高智能的行业痛点。

image.png

在核心性能评测中,Step3-VL-10B不仅在视觉理解、逻辑推理与数学竞赛等方面达到同规模 SOTA,还能与参数量大其 10 到 20 倍的开源模型(如 Qwen3-VL-Thinking235B 等)及一线闭源旗舰相媲美甚至反超。依托全参数端到端的多模态联合预训练与大规模强化学习迭代,该模型在 AIME 等高难度数学测试中已迈入世界前列梯队。

此次开源提供 Base 与 Thinking 两个版本。得益于创新的并行协调推理机制(PaCoRe),模型在高精度 OCR、复杂计数及空间拓扑理解等任务中表现尤为稳定。这意味着原本依赖云端的复杂多模态推理,现在可以更低成本部署到手机、电脑等端侧设备上,大幅提升端侧 Agent 的交互效率。

  • 项目主页:https://stepfun-ai.github.io/Step3-VL-10B/

  • 论文链接:https://arxiv.org/abs/2601.09668

  • HuggingFace:https://huggingface.co/collections/stepfun-ai/step3-vl-10b

  • ModelScope:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

划重点:

  • 🚀 小体量越级领先:Step3-VL-10B以 10B 规模对标并超越 200B 级巨量模型,实现性能与规模的高效杠杆。

  • 🧠 深层理解与感知:引入 PaCoRe 机制与大规模强化学习,在竞赛级数学、复杂 GUI 感知及 3D 空间推理等领域达到行业拔尖水平。

  • 📱 端侧智能下沉:支持高性能多模态能力在低算力设备运行,为手机和工业嵌入式设备的“主动理解与交互”提供坚实底座。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享