近日,艾伦人工智能研究所(AI2)面向社区发布了新一代开源视频语言模型 Molmo2。配套的一系列模型与训练数据同步开放,充分体现了这家非营利机构对开源生态的长期投入。对于希望加强对模型使用与部署自主权的企业而言,这一举措是明显利好。

Molmo2 覆盖多种型号:基于阿里巴巴 Qwen3 的 Molmo2-4B 与 Molmo2-8B,以及基于 Ai2Olmo 的完全开源版本 Molmo2-O-7B。除模型外,AI2 还发布了 9 个全新数据集,包含支持多图像与视频输入的长格式问答质量数据集,以及一个开放的视频指向与跟踪数据集。
Molmo2 的一大亮点是能力全面升级。按 AI2 的介绍,Molmo2-O-7B 是一款透明模型,支持端到端的研究与定制。用户可以完整访问视觉语言模型及其语言模型(LLM),据此更灵活地调校以满足特定场景需求。
Molmo2 支持就图像或视频提问,并能基于视频中识别的模式进行推理。AI2 感知推理与交互负责人 Ranjay Krishna 表示,这些模型不仅能回答问题,还能在时间与空间维度上明确标注事件发生的节点。此外,Molmo2 还具备生成描述性字幕、跟踪物体数量,以及在长视频序列中发现罕见事件等能力。
用户可在 Hugging Face 与 Ai2Playground 上体验 Molmo2,后者是 AI2 提供的在线平台,汇集多种工具与模型。本次发布再次展现 AI2 对开源路线的坚持。分析师 Bradley Shimmin 指出,开放与模型相关的数据与权重对企业尤为关键,特别是在重视数据主权的背景下意义更大。
Molmo 系列的参数规模相对精简(40 亿或 80 亿参数),对多数企业来说更具成本优势。Shimmin 强调,企业逐渐认识到,模型大小并不是唯一关键,训练数据的透明度与负责性同样重要。
项目:https://allenai.org/blog/molmo2
划重点:
1. 🚀 AI2 推出 Molmo2 系列开源视频语言模型,帮助企业更好地掌控模型使用与落地。
2. 🎥 新模型支持多图像与视频输入,可进行事件层面的推理并生成细致的描述字幕。
3. 📊 AI2 延续开源承诺,突出数据透明与模型可定制化对企业的价值。

















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?