近来,社交平台上围绕 AI 架构“源头”的讨论不断升温。被称为“欧洲版 OpenAI”的 Mistral CEO Arthur Mensch 在一次采访中表示,中国表现强劲的开源模型 DeepSeek-V3 实际上是基于 Mistral 提出的架构搭建的。此话一出,立刻引来全球开发者与网友的关注与质疑。
核心争议:是“致敬”还是“自研创新”?
Mensch 在访谈中称,Mistral 于 2024 年初发布了首个稀疏混合专家模型(MoE),而他认为 DeepSeek 随后的版本都是在此基础上延展,称其“采用了相同的架构”。
不过,细心的网友翻阅 arXiv 上的原始论文后提出了质疑:
发文时间接近:Mixtral 与 DeepSeek MoE 论文的发布时间仅差 3 天,很难说清谁真正影响了谁。
设计取向不同:两者同属稀疏混合专家系统(SMoE),但 Mixtral 更偏重工程层面的优化,DeepSeek 则在算法层面做了更深的重构。
专家机制有别:DeepSeek 提出“细粒度专家切分”和“共享专家”,将通用与专用知识解耦,这与 Mixtral 的扁平化专家设计有明显区别。
技术反转:谁在“书写历史”?
耐人寻味的是,争论很快出现“反转”。有技术人士指出,与其说 DeepSeek 借鉴了 Mistral,不如说或许存在相反的可能。
架构“回流”:有网友发现,2025 年底发布的 Mistral 3 Large,其底层思路反而与 DeepSeek-V3 采用的 MLA 等创新技术高度相似。
影响力转移:也有人调侃,Mistral 像是在试图“重写时间线”以挽回技术领先感;而在 MoE 架构创新上,DeepSeek 的行业影响似乎更大。
AI 界的“共同进步”还是“口水战”?
尽管争议不止,但正如 Mensch 在采访前段所言,开源的核心在于“彼此借鉴、不断进步”。
竞争加剧:有消息称,DeepSeek 瞄准 2026 年春节档,计划发布更强的新模型。
开源角力:Mistral 也在持续迭代其 Devstral 家族,力图重夺开源编程智能体的高地。
这场“口水仗”的背后,折射出全球顶尖 AI 实验室对技术迭代速度的强烈焦虑。面对代码与公式,口头表态分量不大,最终的输赢还要看模型在真实评测中的表现。

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?