NeurIPS 2025 最佳论文出炉：阿里通义千问凭借“门控注意力”摘得中国唯一获奖席位-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

全球 AI 顶会 NeurIPS 2025 今晚公布奖项名单，阿里巴巴通义千问团队凭《Attention Gating Makes Better Foundation Models》斩获最佳论文荣誉，成为 4 篇入选作品中唯一来自中国的团队。本届大会投稿约 2 万篇，录取率仅 25%，竞争强度创下新高。

这篇论文的核心像装了一道“滑门”：在标准注意力之后再接入一个可学习的门控，动态裁决哪些头和哪些 token 继续参与后续计算。实验表明，1.7 B 稠密模型与 15 B MoE 模型在 3.5 T tokens 上训练，**参数仅增 1 %，困惑度降 0.2，MMLU 提升 2 分**，在 Pile 的各个子域也都得到一致收益。团队表示，这个门控等于给注意力做“安检”，把无效信息拦在 FFN 前面，计算效率与鲁棒性同步增强。

这一机制已集成进即将发布的 Qwen3-Next；同时，阿里已将代码与 1.7 B 规模的实验模型开源到 GitHub，方便社区复现与验证。通义千问称，下一步会把门控思路拓展到多模态和长序列场景，让“会自我筛选的注意力”成为下一代大模型的标配组件。