Ai2 上线 Molmo2:开源视频语言模型家族

近日,艾伦人工智能研究所(Ai2)发布了全新的 Molmo2 开源视频语言模型系列。此次同步开放多款模型与相关训练数据,进一步展现这家非营利机构对开源的坚定投入。在企业愈发重视对模型可控性的背景下,这无疑是一大利好。

image.png

Molmo2 提供多种版本:基于阿里巴巴 Qwen3 语言模型的 Molmo2-4B 与 Molmo2-8B,以及建立在 Ai2Olmo 语言模型之上的完全开源版 Molmo2-O-7B。除模型外,Ai2 还推出了 9 个全新数据集,覆盖支持多图像与视频输入的长格式问答数据,以及一个开放的视频指向与跟踪数据集。

Molmo2 的一大亮点是功能更强。Ai2 介绍称,Molmo2-O-7B 是一个“透明”模型,适合做端到端研究与定制。用户可以完整访问视觉-语言模型及其底层语言模型(LLM),从而更灵活地根据场景进行调优与扩展。

Molmo2 能回答关于图像或视频的问题,并可基于视频中的模式进行推理。Ai2 感知推理与交互负责人 Ranjay Krishna 表示,这些模型不仅能给出答案,还能在时间与空间维度明确指出事件发生的具体时刻。除此之外,Molmo2 还支持生成描述性字幕、统计与追踪物体数量,并能在长视频中发现罕见事件。

用户可在 Hugging Face 与 Ai2Playground 上体验 Molmo2。此次发布再次强调了 Ai2 对开源的坚持。分析师 Bradley Shimmin 指出,公开与模型相关的数据与权重对企业至关重要,尤其是在强调数据主权的环境下。

Molmo 系列的参数规模较小(40 亿或 80 亿参数),对许多企业来说更具成本优势。Shimmin 强调,企业逐渐认识到,模型大小并不是唯一关键因素,训练数据的透明度与负责任的实践同样重要。

项目:https://allenai.org/blog/molmo2

划重点:

1. 🚀 Ai2 发布 Molmo2 系列开源视频语言模型,帮助企业更好地掌控模型使用。

2. 🎥 新模型支持多图像与视频输入,具备事件推理与描述性字幕生成能力。

3. 📊 持续践行开源,强调数据透明与可定制性对企业的重要价值。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享