Ai2 上线 Molmo2：开源视频语言模型家族-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近日，艾伦人工智能研究所（Ai2）发布了全新的 Molmo2 开源视频语言模型系列。此次同步开放多款模型与相关训练数据，进一步展现这家非营利机构对开源的坚定投入。在企业愈发重视对模型可控性的背景下，这无疑是一大利好。

Molmo2 提供多种版本：基于阿里巴巴 Qwen3 语言模型的 Molmo2-4B 与 Molmo2-8B，以及建立在 Ai2Olmo 语言模型之上的完全开源版 Molmo2-O-7B。除模型外，Ai2 还推出了 9 个全新数据集，覆盖支持多图像与视频输入的长格式问答数据，以及一个开放的视频指向与跟踪数据集。

Molmo2 的一大亮点是功能更强。Ai2 介绍称，Molmo2-O-7B 是一个“透明”模型，适合做端到端研究与定制。用户可以完整访问视觉-语言模型及其底层语言模型（LLM），从而更灵活地根据场景进行调优与扩展。

Molmo2 能回答关于图像或视频的问题，并可基于视频中的模式进行推理。Ai2 感知推理与交互负责人 Ranjay Krishna 表示，这些模型不仅能给出答案，还能在时间与空间维度明确指出事件发生的具体时刻。除此之外，Molmo2 还支持生成描述性字幕、统计与追踪物体数量，并能在长视频中发现罕见事件。

用户可在 Hugging Face 与 Ai2Playground 上体验 Molmo2。此次发布再次强调了 Ai2 对开源的坚持。分析师 Bradley Shimmin 指出，公开与模型相关的数据与权重对企业至关重要，尤其是在强调数据主权的环境下。

Molmo 系列的参数规模较小（40 亿或 80 亿参数），对许多企业来说更具成本优势。Shimmin 强调，企业逐渐认识到，模型大小并不是唯一关键因素，训练数据的透明度与负责任的实践同样重要。

项目：https://allenai.org/blog/molmo2