蚂蚁开源 LLaDA2.0:首个 100B 级扩散语言模型

在大模型技术加速演进的背景下,蚂蚁技术研究院近日发布了 LLaDA2.0 系列,这是业内首个参数规模达到 100B 的离散扩散大语言模型(dLLM)。该模型不仅打破了“扩散模型难以大规模化”的固有认知,在生成质量与推理速度上也实现了明显提升,为大语言模型开辟出新的发展路径。

QQ20251212-161353.png

LLaDA2.0 系列提供两个版本:16B(mini)与 100B(flash)。其中 100B 版本为目前最大的扩散语言模型,尤其适合复杂的代码生成与指令执行任务。蚂蚁方面表示,LLaDA2.0 采用全新的 Warmup-Stable-Decay(WSD) 预训练策略,可无缝承接自回归(AR)模型的已有能力,避免从零开始训练所带来的高成本。

在技术层面,LLaDA2.0 展示了并行解码优势:推理速度可达 535tokens/s,相比同级 AR 模型快 2.1 倍。该速度提升主要得益于推理阶段对 KV Cache 的复用以及块级并行解码。同时,在后训练阶段引入互补掩码与置信度感知并行训练(CAP),进一步优化了数据效率与推理表现。

在多项评测中,LLaDA2.0 表现亮眼,尤其在结构化生成(如代码生成)方面具备更强的全局规划能力。在复杂的智能体调用与长文本任务中同样表现稳健,体现出对多样化应用场景的良好适配性。

此次发布不仅是离散扩散技术的重要里程碑,也表明该路线在超大规模应用中的可行性与优势。未来,蚂蚁将持续挖掘扩散模型潜力,计划扩大参数规模,深入融合强化学习与思考范式,推动生成式人工智能不断进步。

地址:https://huggingface.co/collections/inclusionAI/llada-20

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享