全球 AI 顶会 NeurIPS 2025 今晚公布奖项名单,阿里巴巴通义千问团队凭《Attention Gating Makes Better Foundation Models》斩获最佳论文荣誉,成为 4 篇入选作品中唯一来自中国的团队。本届大会投稿约 2 万篇,录取率仅 25%,竞争强度创下新高。
这篇论文的核心像装了一道“滑门”:在标准注意力之后再接入一个可学习的门控,动态裁决哪些头和哪些 token 继续参与后续计算。实验表明,1.7 B 稠密模型与 15 B MoE 模型在 3.5 T tokens 上训练,**参数仅增 1 %,困惑度降 0.2,MMLU 提升 2 分**,在 Pile 的各个子域也都得到一致收益。团队表示,这个门控等于给注意力做“安检”,把无效信息拦在 FFN 前面,计算效率与鲁棒性同步增强。
这一机制已集成进即将发布的 Qwen3-Next;同时,阿里已将代码与 1.7 B 规模的实验模型开源到 GitHub,方便社区复现与验证。通义千问称,下一步会把门控思路拓展到多模态和长序列场景,让“会自我筛选的注意力”成为下一代大模型的标配组件。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END

















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?