NeurIPS 2025 最佳论文出炉:阿里通义千问凭借“门控注意力”摘得中国唯一获奖席位

全球 AI 顶会 NeurIPS 2025 今晚公布奖项名单,阿里巴巴通义千问团队凭《Attention Gating Makes Better Foundation Models》斩获最佳论文荣誉,成为 4 篇入选作品中唯一来自中国的团队。本届大会投稿约 2 万篇,录取率仅 25%,竞争强度创下新高。

这篇论文的核心像装了一道“滑门”:在标准注意力之后再接入一个可学习的门控,动态裁决哪些头和哪些 token 继续参与后续计算。实验表明,1.7 B 稠密模型与 15 B MoE 模型在 3.5 T tokens 上训练,**参数仅增 1 %,困惑度降 0.2,MMLU 提升 2 分**,在 Pile 的各个子域也都得到一致收益。团队表示,这个门控等于给注意力做“安检”,把无效信息拦在 FFN 前面,计算效率与鲁棒性同步增强。

这一机制已集成进即将发布的 Qwen3-Next;同时,阿里已将代码与 1.7 B 规模的实验模型开源到 GitHub,方便社区复现与验证。通义千问称,下一步会把门控思路拓展到多模态和长序列场景,让“会自我筛选的注意力”成为下一代大模型的标配组件。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享