最近,社交平台上掀起了一场围绕 AI 架构来源的口水战。被称作“欧洲版 OpenAI”的 Mistral CEO Arthur Mensch 在一次采访中表示,中国表现强劲的开源模型 DeepSeek-V3,其实是在 Mistral 提出的架构之上搭建的。此话一出,立刻引发全球开发者与网友的围观与争论。
焦点问题:是“借鉴致敬”还是“自主创新”?
Arthur Mensch 在访谈中提到,Mistral 在 2024 年初推出了首个稀疏混合专家模型(MoE),他认为 DeepSeek 后续的版本都是沿着这一路线延展,称其“用了同样的架构”。
但细心的网友翻看 arXiv 上的原始论文后发现了不小的疑点:
发布时间几乎同步:Mixtral 论文与 DeepSeek MoE 论文仅相差 3 天,难以判定谁先影响了谁。
架构理念并不相同:两者同属稀疏混合专家系统(SMoE),但 Mixtral 更强调工程层面的效率优化,而 DeepSeek 在算法层面进行了更彻底的改造。
专家设计路径不同:DeepSeek 提出了“细粒度专家切分”和“共享专家”机制,把通用知识与领域知识做了拆分,这与 Mixtral 的扁平化专家设计并非一个思路。
技术走向反转:到底谁写进“时间线”?
更有意思的是,争论很快出现了反转。一些技术人士指出,与其说 DeepSeek 学了 Mistral,不如说可能出现了“回流”。
架构回流迹象:2025 年底发布的 Mistral 3 Large 被网友挖出,其底层设计与 DeepSeek-V3 使用的 MLA 等创新方案高度接近。
影响力易主:有网友调侃,Mistral 像是在“改写历史”,想挽回技术话语权;而在 MoE 方向的创新上,DeepSeek 显然如今更有存在感。
是“共同进步”,还是“嘴上见高下”?
尽管双方争议不断,但正如 Mensch 在采访前半段所说,开源的核心是“彼此在对方工作上继续前进”。
竞争加速:据传 DeepSeek 正瞄准 2026 年春节档,计划放出更强的新模型。
开源赛点:Mistral 也在持续打磨其 Devstral 系列,试图重夺开源编程智能体的优势。
这场争论的背后,是全球顶尖 AI 实验室对技术更迭速度的集体焦虑。面对代码与公式,口头表态并不作数,真正的高下还得看模型实测成绩来定。

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?