​告别 Transformer?Inception 推出全球首个用扩散模型做推理的大模型 Mercury2

人工智能创业公司 Inception Labs 近日发布了全新的 Mercury2。这不仅是一款推理能力突出的大模型,更是在底层设计上做出了一次大胆尝试,可以看作是一场新的“架构范式”实验。

image.png

与目前主流大模型几乎清一色采用的 Transformer 不同,Mercury2 彻底换了一套思路,放弃了传统架构,改用基于扩散模型(Diffusion-based)的方式来生成文本,试图突破现有大模型在性能和效率上的天花板。

image.png

和传统模型一行一行、一个 Token 一个 Token 往外生成的方式不一样,Mercury2 的工作模式更像是一位经验老到的总编辑。它不再按“打字机”式输出,而是可以同时对多个文本片段进行整体优化和重写。在这种并行处理思路下,Mercury2 在处理复杂推理任务时,展现出了非常明显的速度优势。

根据实测数据,在英伟达 Blackwell GPU 的支持下,Mercury2 的生成速度可以达到每秒 1009 个 Token。在端到端延迟体验上,完成一次回复只需要约 1.7 秒,比谷歌的 Gemini3 Flash 快出 8 倍以上,也远远快过 Anthropic 的 Claude Haiku 4.5。虽然输出极快,但在 GPQA Diamond、AIME 等推理评测上,它的表现依旧能和目前同体量的高水平推理模型相媲美。

在商业层面,Inception Labs 选择了相当有冲击力的定价策略,输入和输出费用大约只有同类产品的四分之一。当前,Mercury2 已正式开放 API 接口,支持 12.8 万 Token 的长上下文,以及工具调用等能力。对于看重响应速度的语音助手、搜索服务和编程助手等场景来说,这款走“扩散路线”的推理模型无疑提供了一个非常有吸引力的新选项。

概要:

  • 🌀 架构底层升级: 放弃传统的逐 Token 输出方式,采用扩散模型技术,可同时处理和优化多个文本片段,在推理逻辑层面带来明显变化。

  • 性能表现突出: 借助新一代硬件实现秒级响应,生成速度突破千 Token/s,整体延迟远优于 Gemini3 和 Claude 4.5。

  • 💰 面向商用的高性价比: 以相对低廉的调用成本冲击现有市场,支持长文本处理和 API 接入,重点面向对延迟极为敏感的企业级 AI 应用。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享