推特争论催生学术进展!谢赛宁团队发布 iREPA,3 行代码即可上手

近期,谢赛宁团队推出的 “iREPA” 灵感正是来自一场持续四个月的推特争论。虽然最终谢赛宁接受了对方观点,但这场拉锯意外促成了一篇重要论文,带来全新的研究视角。

故事要从八月份说起。当时有网友在推特上谈到自监督学习(SSL),认为模型应更关注稠密任务,因为这类任务依赖图像的空间与局部信息,而不仅仅看全局分类指标。对此,谢赛宁当时持反对意见,指出全局性能与稠密任务并不直接相关。

讨论迅速升温,其中一位网友还给出了可与 REPA 对比的方案。这一提示引起了谢赛宁的兴趣,促使他展开深入探索。数月后,他表示自己修正了原先判断,而这篇论文也为理解视觉编码器的生成能力提供了新的视角。

论文聚焦于一个核心问题:在预训练视觉编码器中,哪些因素真正决定生成模型的表现?结果表明,关键在于空间结构信息,而非全局语义。与常见直觉“语义更强,生成更好”不同,研究发现准确率较低的视觉编码器,往往能得到更出色的生成效果。

为此,研究者提出了 iREPA,一个只需 3 行代码就能接入任何表示对齐方法的简洁框架。通过改造 PA,例如用卷积层替代传统的 MLP 投影层,团队有效强化了空间结构信息,显著提升了生成性能。

这场学术争论不仅展现了开放合作的科研氛围,也再次说明:知识的进步离不开交流与严谨的实验验证。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享