谁教了谁?Mistral CEO 指称 DeepSeek 参考其架构,技术圈掀起热议

近来,社交平台上围绕 AI 架构“源头”的讨论不断升温。被称为“欧洲版 OpenAI”的 Mistral CEO Arthur Mensch 在一次采访中表示,中国表现强劲的开源模型 DeepSeek-V3 实际上是基于 Mistral 提出的架构搭建的。此话一出,立刻引来全球开发者与网友的关注与质疑。

核心争议:是“致敬”还是“自研创新”?

Mensch 在访谈中称,Mistral 于 2024 年初发布了首个稀疏混合专家模型(MoE),而他认为 DeepSeek 随后的版本都是在此基础上延展,称其“采用了相同的架构”。

不过,细心的网友翻阅 arXiv 上的原始论文后提出了质疑:

发文时间接近:Mixtral 与 DeepSeek MoE 论文的发布时间仅差 3 天,很难说清谁真正影响了谁。

设计取向不同:两者同属稀疏混合专家系统(SMoE),但 Mixtral 更偏重工程层面的优化,DeepSeek 则在算法层面做了更深的重构。

专家机制有别:DeepSeek 提出“细粒度专家切分”和“共享专家”,将通用与专用知识解耦,这与 Mixtral 的扁平化专家设计有明显区别。

技术反转:谁在“书写历史”?

耐人寻味的是,争论很快出现“反转”。有技术人士指出,与其说 DeepSeek 借鉴了 Mistral,不如说或许存在相反的可能。

架构“回流”:有网友发现,2025 年底发布的 Mistral 3 Large,其底层思路反而与 DeepSeek-V3 采用的 MLA 等创新技术高度相似。

影响力转移:也有人调侃,Mistral 像是在试图“重写时间线”以挽回技术领先感;而在 MoE 架构创新上,DeepSeek 的行业影响似乎更大。

AI 界的“共同进步”还是“口水战”?

尽管争议不止,但正如 Mensch 在采访前段所言,开源的核心在于“彼此借鉴、不断进步”。

竞争加剧:有消息称,DeepSeek 瞄准 2026 年春节档,计划发布更强的新模型。

开源角力:Mistral 也在持续迭代其 Devstral 家族,力图重夺开源编程智能体的高地。

这场“口水仗”的背后,折射出全球顶尖 AI 实验室对技术迭代速度的强烈焦虑。面对代码与公式,口头表态分量不大,最终的输赢还要看模型在真实评测中的表现。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享