在语义表征赛道,冲破“英语中心主义”的限制,正成为大模型演进的新焦点。
3月26日,

硬核登顶:MTEB 评测斩获 11 项 SOTA
在衡量 Embedding 模型最权威的 MTEB 榜单上,
11 项登顶: 在德语、法语、日语以及代码检索等 11 个语种与领域榜单中拿下第一。
越级挑战: 家族中的轻量型号,在同等尺寸下多次超越业内知名大模型。
广泛覆盖: 评测任务覆盖医疗问答、代码检索等 430 个细分场景,基本无盲区。

全能理解:覆盖 282 种自然语言与 40+ 种代码
多语种强化: 重点增强对中低资源语言(如北欧、东南亚语系等)的支持,真正实现全球化覆盖。
编程专家: 可理解 Python、Java、Go 等 40 多种编程语言,是 RAG(检索增强生成)与代码助手开发者的理想选择。
高质量样本: 基于 6,000 万条严格清洗的公开数据,兼顾知识的纯净度与广泛性。

高效到极致:覆盖 80M-14B 的全尺寸家族
为满足从移动端到云端的多场景需求,
端侧更友好: 80M-330M 小模型结合“模型裁剪”与“知识蒸馏”,可在移动设备上顺畅运行。
“套娃”式黑科技: 支持动态维度调节,用户可在 8 维到全维度间灵活切换,在推理速度与存储成本间找到最佳平衡点。
纯粹开源:用透明度树立社区标准
不同于许多“黑盒”模型,
全面开放: 全尺寸模型权重均可下载。
细节透明化: 发布完整技术报告,呈现训练全过程。
可复现: 公开全部代码与检查点,鼓励全球研究者在此基础上开展二次开发。
结语:打破壁垒,探索 AI 的无限可能
作为


















用户38505528 6个月前0
粘贴不了啊用户12648782 7个月前0
用法杂不对呢?yfarer 7个月前0
草稿id无法下载,是什么问题?