谁在教谁？Mistral CEO 指称 DeepSeek 借鉴其架构，技术圈炸锅-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

最近，社交平台上掀起了一场围绕 AI 架构来源的口水战。被称作“欧洲版 OpenAI”的 Mistral CEO Arthur Mensch 在一次采访中表示，中国表现强劲的开源模型 DeepSeek-V3，其实是在 Mistral 提出的架构之上搭建的。此话一出，立刻引发全球开发者与网友的围观与争论。

焦点问题：是“借鉴致敬”还是“自主创新”?

Arthur Mensch 在访谈中提到，Mistral 在 2024 年初推出了首个稀疏混合专家模型（MoE），他认为 DeepSeek 后续的版本都是沿着这一路线延展，称其“用了同样的架构”。

但细心的网友翻看 arXiv 上的原始论文后发现了不小的疑点：

发布时间几乎同步：Mixtral 论文与 DeepSeek MoE 论文仅相差 3 天，难以判定谁先影响了谁。

架构理念并不相同：两者同属稀疏混合专家系统（SMoE），但 Mixtral 更强调工程层面的效率优化，而 DeepSeek 在算法层面进行了更彻底的改造。

专家设计路径不同：DeepSeek 提出了“细粒度专家切分”和“共享专家”机制，把通用知识与领域知识做了拆分，这与 Mixtral 的扁平化专家设计并非一个思路。

技术走向反转：到底谁写进“时间线”?

更有意思的是，争论很快出现了反转。一些技术人士指出，与其说 DeepSeek 学了 Mistral，不如说可能出现了“回流”。

架构回流迹象：2025 年底发布的 Mistral 3 Large 被网友挖出，其底层设计与 DeepSeek-V3 使用的 MLA 等创新方案高度接近。

影响力易主：有网友调侃，Mistral 像是在“改写历史”，想挽回技术话语权；而在 MoE 方向的创新上，DeepSeek 显然如今更有存在感。

是“共同进步”，还是“嘴上见高下”?

尽管双方争议不断，但正如 Mensch 在采访前半段所说，开源的核心是“彼此在对方工作上继续前进”。