一场推特论战催生新研究!谢赛宁团队推出 iREPA,三行代码即可上手

最近,谢赛宁团队发布的新作“iREPA”,起源于一场持续四个月的推特争论。虽然最终以谢赛宁的态度转变告一段落,却意外促成了一篇重要论文,带来全新的研究视角。

事情要追溯到八月。一位网友在推特上谈到对自监督学习(SSL)模型的看法,认为应更关注稠密任务,因为此类任务依赖图像的空间与局部信息,而不只是全局分类能力。对此,谢赛宁起初持反对意见,认为全局性能与稠密任务并不直接相关。

围绕这一话题,网友们展开了激烈讨论,其中有人还给出可与 REPA 对比的方案。讨论激发了谢赛宁的好奇,推动他进一步深入研究。数月后,他表示自己此前的观点已被修正,这项工作也为理解视觉编码器的生成能力提供了新的观察角度。

论文聚焦于一个核心问题:在预训练的视觉编码器中,哪些因素真正决定了生成模型的表现?结果显示,关键在于空间结构信息,而非全局语义。与传统认知相反,研究发现视觉编码器的分类准确率并非越高越好,较低准确率的编码器反而常常带来更佳的生成质量。

为此,研究团队提出了 iREPA。这个框架只需三行代码即可融入任意表示对齐方法。通过对 PA 做改进,例如用卷积层替换传统的 MLP 投影层,团队增强了空间结构表征,显著提升了生成效果。

这场学术交锋不仅展现了开放的科研氛围,也再次证明了通过交流与实验推进认知的价值。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享