一举夺得 11 项榜单第一!蚂蚁集团发布 F2LLM-v2:全尺寸、多语种的“六边形”嵌入模型

在语义表征赛道,冲破“英语中心主义”的限制,正成为大模型演进的新焦点。

3月26日,蚂蚁集团 CodeFuse 团队 联合 上海交通大学 正式推出了 F2LLM-v2系列 Embedding 模型。该系列模型不仅在权威评测中交出亮眼成绩,也以全开源的姿态,为全球开发者提供了一套兼顾高性能与极致效率的语义表征方案。

image.png

硬核登顶:MTEB 评测斩获 11 项 SOTA

在衡量 Embedding 模型最权威的 MTEB 榜单上,F2LLM-v2 展现出全线领先:

11 项登顶: 在德语、法语、日语以及代码检索等 11 个语种与领域榜单中拿下第一

越级挑战: 家族中的轻量型号,在同等尺寸下多次超越业内知名大模型。

广泛覆盖: 评测任务覆盖医疗问答、代码检索等 430 个细分场景,基本无盲区。

image.png

全能理解:覆盖 282 种自然语言与 40+ 种代码

F2LLM-v2 的实力来自广覆盖的训练基座:

多语种强化: 重点增强对中低资源语言(如北欧、东南亚语系等)的支持,真正实现全球化覆盖。

编程专家: 可理解 Python、Java、Go 等 40 多种编程语言,是 RAG(检索增强生成)与代码助手开发者的理想选择。

高质量样本: 基于 6,000 万条严格清洗的公开数据,兼顾知识的纯净度与广泛性。

image.png

高效到极致:覆盖 80M-14B 的全尺寸家族

为满足从移动端到云端的多场景需求,CodeFuse 团队 打造了完整的模型矩阵:

端侧更友好: 80M-330M 小模型结合“模型裁剪”与“知识蒸馏”,可在移动设备上顺畅运行。

“套娃”式黑科技: 支持动态维度调节,用户可在 8 维到全维度间灵活切换,在推理速度与存储成本间找到最佳平衡点。

纯粹开源:用透明度树立社区标准

不同于许多“黑盒”模型,F2LLM-v2 坚持全面开源:

全面开放: 全尺寸模型权重均可下载。

细节透明化: 发布完整技术报告,呈现训练全过程。

可复现: 公开全部代码与检查点,鼓励全球研究者在此基础上开展二次开发。

结语:打破壁垒,探索 AI 的无限可能

作为 CodeFuse 开源系列 的又一力作,F2LLM-v2 的发布不仅提升了多语言 RAG 的准确率,也为全球开发者提供了一个公平、透明且高性能的技术底座。在 AI 席卷全球的当下,听懂世界,从每一次精准的 Embedding 开始。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享