最近,谢赛宁团队发布的新作“iREPA”,起源于一场持续四个月的推特争论。虽然最终以谢赛宁的态度转变告一段落,却意外促成了一篇重要论文,带来全新的研究视角。
事情要追溯到八月。一位网友在推特上谈到对自监督学习(SSL)模型的看法,认为应更关注稠密任务,因为此类任务依赖图像的空间与局部信息,而不只是全局分类能力。对此,谢赛宁起初持反对意见,认为全局性能与稠密任务并不直接相关。
围绕这一话题,网友们展开了激烈讨论,其中有人还给出可与 REPA 对比的方案。讨论激发了谢赛宁的好奇,推动他进一步深入研究。数月后,他表示自己此前的观点已被修正,这项工作也为理解视觉编码器的生成能力提供了新的观察角度。
论文聚焦于一个核心问题:在预训练的视觉编码器中,哪些因素真正决定了生成模型的表现?结果显示,关键在于空间结构信息,而非全局语义。与传统认知相反,研究发现视觉编码器的分类准确率并非越高越好,较低准确率的编码器反而常常带来更佳的生成质量。
为此,研究团队提出了 iREPA。这个框架只需三行代码即可融入任意表示对齐方法。通过对 PA 做改进,例如用卷积层替换传统的 MLP 投影层,团队增强了空间结构表征,显著提升了生成效果。
这场学术交锋不仅展现了开放的科研氛围,也再次证明了通过交流与实验推进认知的价值。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END

















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?