谁在教谁?Mistral CEO 指称 DeepSeek 借鉴其架构,技术圈炸锅

最近,社交平台上掀起了一场围绕 AI 架构来源的口水战。被称作“欧洲版 OpenAI”的 Mistral CEO Arthur Mensch 在一次采访中表示,中国表现强劲的开源模型 DeepSeek-V3,其实是在 Mistral 提出的架构之上搭建的。此话一出,立刻引发全球开发者与网友的围观与争论。

焦点问题:是“借鉴致敬”还是“自主创新”?

Arthur Mensch 在访谈中提到,Mistral 在 2024 年初推出了首个稀疏混合专家模型(MoE),他认为 DeepSeek 后续的版本都是沿着这一路线延展,称其“用了同样的架构”。

但细心的网友翻看 arXiv 上的原始论文后发现了不小的疑点:

发布时间几乎同步:Mixtral 论文与 DeepSeek MoE 论文仅相差 3 天,难以判定谁先影响了谁。

架构理念并不相同:两者同属稀疏混合专家系统(SMoE),但 Mixtral 更强调工程层面的效率优化,而 DeepSeek 在算法层面进行了更彻底的改造。

专家设计路径不同:DeepSeek 提出了“细粒度专家切分”和“共享专家”机制,把通用知识与领域知识做了拆分,这与 Mixtral 的扁平化专家设计并非一个思路。

技术走向反转:到底谁写进“时间线”?

更有意思的是,争论很快出现了反转。一些技术人士指出,与其说 DeepSeek 学了 Mistral,不如说可能出现了“回流”。

架构回流迹象:2025 年底发布的 Mistral 3 Large 被网友挖出,其底层设计与 DeepSeek-V3 使用的 MLA 等创新方案高度接近。

影响力易主:有网友调侃,Mistral 像是在“改写历史”,想挽回技术话语权;而在 MoE 方向的创新上,DeepSeek 显然如今更有存在感。

是“共同进步”,还是“嘴上见高下”?

尽管双方争议不断,但正如 Mensch 在采访前半段所说,开源的核心是“彼此在对方工作上继续前进”。

竞争加速:据传 DeepSeek 正瞄准 2026 年春节档,计划放出更强的新模型。

开源赛点:Mistral 也在持续打磨其 Devstral 系列,试图重夺开源编程智能体的优势。

这场争论的背后,是全球顶尖 AI 实验室对技术更迭速度的集体焦虑。面对代码与公式,口头表态并不作数,真正的高下还得看模型实测成绩来定。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享