微信 AI 团队发布全新扩散语言模型 WeDLM，推理更快更高效-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

腾讯微信 AI 团队正式推出一套全新的扩散语言模型框架——WeDLM（WeChat Diffusion Language Model）。该模型旨在突破传统大型语言模型（如 GPT 系列）在并行推理上的效率瓶颈，带来更快、更高效的文本生成体验。

WeDLM 采用创新的拓扑重排技术，将扩散模型与标准因果注意力机制有机融合。通过这种方式，WeDLM 可兼容 KV 缓存技术，有效化解传统扩散模型因双向注意力造成的推理速度限制。该升级不仅让推理更快，同时也确保了生成质量，尤其在复杂推理场景中表现突出。

在实测中，WeDLM 展现出明显的速度优势。以数学推理任务 GSM8K 为例，WeDLM-8B 的推理速度较优化后的自回归模型（如 Qwen3-8B）快约 3 倍；在低熵计数类任务中，提速甚至可超过 10 倍。此外，在 ARC、MMLU、Hellaswag 等多项基准测试上，WeDLM 的生成质量与传统自回归模型相当或更优，说明其不仅在效率上实现突破，也保持了稳定的准确性。

得益于高效的推理能力，WeDLM 适用于智能客服、代码生成辅助、实时问答等多种应用场景。随着落地推进，WeDLM 有望进一步降低算力成本、优化用户体验，推动 AI 技术更广泛应用。

github:https://github.com/tencent/WeDLM