蚂蚁开源 LLaDA2.0：首个 100B 级扩散语言模型-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

蚂蚁开源 LLaDA2.0：首个 100B 级扩散语言模型

拥抱AI，AIGC最佳实践者

3410

在大模型技术加速演进的背景下，蚂蚁技术研究院近日发布了 LLaDA2.0 系列，这是业内首个参数规模达到 100B 的离散扩散大语言模型（dLLM）。该模型不仅打破了“扩散模型难以大规模化”的固有认知，在生成质量与推理速度上也实现了明显提升，为大语言模型开辟出新的发展路径。

LLaDA2.0 系列提供两个版本：16B（mini）与 100B（flash）。其中 100B 版本为目前最大的扩散语言模型，尤其适合复杂的代码生成与指令执行任务。蚂蚁方面表示，LLaDA2.0 采用全新的 Warmup-Stable-Decay(WSD) 预训练策略，可无缝承接自回归(AR)模型的已有能力，避免从零开始训练所带来的高成本。

在技术层面，LLaDA2.0 展示了并行解码优势：推理速度可达 535tokens/s，相比同级 AR 模型快 2.1 倍。该速度提升主要得益于推理阶段对 KV Cache 的复用以及块级并行解码。同时，在后训练阶段引入互补掩码与置信度感知并行训练（CAP），进一步优化了数据效率与推理表现。

在多项评测中，LLaDA2.0 表现亮眼，尤其在结构化生成（如代码生成）方面具备更强的全局规划能力。在复杂的智能体调用与长文本任务中同样表现稳健，体现出对多样化应用场景的良好适配性。

此次发布不仅是离散扩散技术的重要里程碑，也表明该路线在超大规模应用中的可行性与优势。未来，蚂蚁将持续挖掘扩散模型潜力，计划扩大参数规模，深入融合强化学习与思考范式，推动生成式人工智能不断进步。

地址:https://huggingface.co/collections/inclusionAI/llada-20

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐