艾伦人工智能研究所上线 Molmo2 开源视频语言模型-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近日，艾伦人工智能研究所（AI2）面向社区发布了新一代开源视频语言模型 Molmo2。配套的一系列模型与训练数据同步开放，充分体现了这家非营利机构对开源生态的长期投入。对于希望加强对模型使用与部署自主权的企业而言，这一举措是明显利好。

Molmo2 覆盖多种型号：基于阿里巴巴 Qwen3 的 Molmo2-4B 与 Molmo2-8B，以及基于 Ai2Olmo 的完全开源版本 Molmo2-O-7B。除模型外，AI2 还发布了 9 个全新数据集，包含支持多图像与视频输入的长格式问答质量数据集，以及一个开放的视频指向与跟踪数据集。

Molmo2 的一大亮点是能力全面升级。按 AI2 的介绍，Molmo2-O-7B 是一款透明模型，支持端到端的研究与定制。用户可以完整访问视觉语言模型及其语言模型（LLM），据此更灵活地调校以满足特定场景需求。

Molmo2 支持就图像或视频提问，并能基于视频中识别的模式进行推理。AI2 感知推理与交互负责人 Ranjay Krishna 表示，这些模型不仅能回答问题，还能在时间与空间维度上明确标注事件发生的节点。此外，Molmo2 还具备生成描述性字幕、跟踪物体数量，以及在长视频序列中发现罕见事件等能力。

用户可在 Hugging Face 与 Ai2Playground 上体验 Molmo2，后者是 AI2 提供的在线平台，汇集多种工具与模型。本次发布再次展现 AI2 对开源路线的坚持。分析师 Bradley Shimmin 指出，开放与模型相关的数据与权重对企业尤为关键，特别是在重视数据主权的背景下意义更大。

Molmo 系列的参数规模相对精简（40 亿或 80 亿参数），对多数企业来说更具成本优势。Shimmin 强调，企业逐渐认识到，模型大小并不是唯一关键，训练数据的透明度与负责性同样重要。

项目：https://allenai.org/blog/molmo2