告别 Transformer？Inception 推出全球首个用扩散模型做推理的大模型 Mercury2-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

人工智能创业公司 Inception Labs 近日发布了全新的 Mercury2。这不仅是一款推理能力突出的大模型，更是在底层设计上做出了一次大胆尝试，可以看作是一场新的“架构范式”实验。

与目前主流大模型几乎清一色采用的 Transformer 不同，Mercury2 彻底换了一套思路，放弃了传统架构，改用基于扩散模型（Diffusion-based）的方式来生成文本，试图突破现有大模型在性能和效率上的天花板。

和传统模型一行一行、一个 Token 一个 Token 往外生成的方式不一样，Mercury2 的工作模式更像是一位经验老到的总编辑。它不再按“打字机”式输出，而是可以同时对多个文本片段进行整体优化和重写。在这种并行处理思路下，Mercury2 在处理复杂推理任务时，展现出了非常明显的速度优势。

根据实测数据，在英伟达 Blackwell GPU 的支持下，Mercury2 的生成速度可以达到每秒 1009 个 Token。在端到端延迟体验上，完成一次回复只需要约 1.7 秒，比谷歌的 Gemini3 Flash 快出 8 倍以上，也远远快过 Anthropic 的 Claude Haiku 4.5。虽然输出极快，但在 GPQA Diamond、AIME 等推理评测上，它的表现依旧能和目前同体量的高水平推理模型相媲美。

在商业层面，Inception Labs 选择了相当有冲击力的定价策略，输入和输出费用大约只有同类产品的四分之一。当前，Mercury2 已正式开放 API 接口，支持 12.8 万 Token 的长上下文，以及工具调用等能力。对于看重响应速度的语音助手、搜索服务和编程助手等场景来说，这款走“扩散路线”的推理模型无疑提供了一个非常有吸引力的新选项。

概要: