近日,艾伦人工智能研究所(Ai2)发布了全新的 Molmo2 开源视频语言模型系列。此次同步开放多款模型与相关训练数据,进一步展现这家非营利机构对开源的坚定投入。在企业愈发重视对模型可控性的背景下,这无疑是一大利好。

Molmo2 提供多种版本:基于阿里巴巴 Qwen3 语言模型的 Molmo2-4B 与 Molmo2-8B,以及建立在 Ai2Olmo 语言模型之上的完全开源版 Molmo2-O-7B。除模型外,Ai2 还推出了 9 个全新数据集,覆盖支持多图像与视频输入的长格式问答数据,以及一个开放的视频指向与跟踪数据集。
Molmo2 的一大亮点是功能更强。Ai2 介绍称,Molmo2-O-7B 是一个“透明”模型,适合做端到端研究与定制。用户可以完整访问视觉-语言模型及其底层语言模型(LLM),从而更灵活地根据场景进行调优与扩展。
Molmo2 能回答关于图像或视频的问题,并可基于视频中的模式进行推理。Ai2 感知推理与交互负责人 Ranjay Krishna 表示,这些模型不仅能给出答案,还能在时间与空间维度明确指出事件发生的具体时刻。除此之外,Molmo2 还支持生成描述性字幕、统计与追踪物体数量,并能在长视频中发现罕见事件。
用户可在 Hugging Face 与 Ai2Playground 上体验 Molmo2。此次发布再次强调了 Ai2 对开源的坚持。分析师 Bradley Shimmin 指出,公开与模型相关的数据与权重对企业至关重要,尤其是在强调数据主权的环境下。
Molmo 系列的参数规模较小(40 亿或 80 亿参数),对许多企业来说更具成本优势。Shimmin 强调,企业逐渐认识到,模型大小并不是唯一关键因素,训练数据的透明度与负责任的实践同样重要。
项目:https://allenai.org/blog/molmo2
划重点:
1. 🚀 Ai2 发布 Molmo2 系列开源视频语言模型,帮助企业更好地掌控模型使用。
2. 🎥 新模型支持多图像与视频输入,具备事件推理与描述性字幕生成能力。
3. 📊 持续践行开源,强调数据透明与可定制性对企业的重要价值。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?