当文本、图片、视频、图表甚至UI界面都能被统一“理解”并精准匹配,多模态信息检索的边界正被彻底重塑。今天,阿里通义实验室正式开源Qwen3-VL-Embedding与Qwen3-VL-Reranker两大模型。它们基于强大的Qwen3-VL多模态底座打造,面向跨模态理解与高效检索而来,一举把多模态搜索从“关键词匹配”推进到“语义对齐”的新阶段。
这两款模型不是各自为战,而是组成一套协同运作的智能检索引擎。Qwen3-VL-Embedding采用高效的双塔架构,能把文本、图像、可视化文档(如代码截图、数据图表、App界面)以及视频等不同内容,分别编码到统一高维语义空间的向量中。也就是说,不管用户输入是一段文字、一张产品图,还是一段短视频,系统都能把它们映射到同一语义坐标系里,实现毫秒级的跨模态相似度计算与海量数据召回。

而Qwen3-VL-Reranker则像一位“精修大师”。它采用单塔交叉注意力架构,对Embedding阶段初步召回的结果做深度重排序。面对“图文查询匹配图文文档”或“用视频片段检索相关文章”等复杂任务时,Reranker会把查询与候选内容联合编码,通过交叉注意力机制,逐层分析二者在语义、细节以及上下文逻辑上的深层关联,最终给出精准的相关性分数。这种“Embedding快速召回 + Reranker精细排序”的两阶段流程,显著提升最终检索的准确率与相关性。

技术表现要看数据。在MMEB-v2和MMTEB等权威多模态基准测试中,Qwen3-VL系列成绩亮眼。其8B版Embedding模型在MMEB-v2上超过了目前已知的开源模型与主流闭源商业服务;Reranker模型在JinaVDR、ViDoRe v3等视觉文档检索任务中持续领先,8B版本在多数子项中拔得头筹。更难能可贵的是,该系列延续了Qwen3-VL的多语言能力,支持30+语言,并提供灵活的向量维度选择、指令微调以及高性能量化版本,极大降低了开发者的集成门槛。
此次开源不只是技术成果的发布,更标志着多模态AI基础设施走向成熟。过去,图文检索、视频理解、文档分析往往需要各自独立的模型与流程;如今,Qwen3-VL双子星带来一个统一、高效且开源的解决方案,让开发者可以在一个框架内处理几乎所有混合模态内容。随着真实世界数据越来越多以多模态形式涌现,这套工具将加速推动搜索引擎、内容平台、企业知识库以及智能助理的下一代进化——在那里,机器能真正“看懂”并“理解”我们所见、所写、所拍的一切。
项目地址:https://github.com/QwenLM/Qwen3-VL-Embedding


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?