以简驭繁:Meta AI 发布 Pixio 图像模型,靠像素重建改写 3D 重建纪录

AIbase 报道,Meta AI 研究团队近日推出一项名为 Pixio 的图像模型研究,证明即便采用更简洁的训练思路,也能在深度估计和 3D 重建等复杂视觉任务上取得出色表现。一直以来,学界普遍认为掩码自编码器(MAE)在场景理解方面不及 DINOv2 或 DINOv3 等更复杂的方法,而 Pixio 的出现打破了这种固有看法。

QQ20251229-091312.png

Pixio 的核心思路来源于对 2021 年 MAE 框架的深度升级。研究者发现,原始设计里较弱的解码器会束缚编码器的潜力,于是大幅强化了解码器能力,并显著扩大了图像的遮罩范围。通过将零散的小方块遮罩改为大面积连续遮挡,Pixio 不再能依赖简单的像素填补,而是被迫真正“理解”图像中的物体共现、3D 透视与反射等空间关系。同时,引入多个用于汇聚全局属性的类别标记,让模型能更准确地捕捉场景类别、相机视角和光照信息。

QQ20251229-091319.png

在训练策略上,Pixio 体现出方法论上的纯粹。不同于 DINOv3 会围绕特定基准(如 ImageNet)反复调优,Pixio 从网络收集了 20 亿张图像,并采用动态频次调节:降低简单产品照片的权重,提高复杂场景的训练比例。这种不为“刷榜”而调参的做法,反而带来了更强的迁移能力与泛化表现。

QQ20251229-091337.png

数据对比显示,仅有 6.31 亿参数的 Pixio 在多项指标上超越了 8.41 亿参数的 DINOv3。在单目深度估计中,其准确率提升了 16%;在 3D 重建任务上,用单张图像训练的 Pixio,甚至超过了以八个视角训练的 DINOv3。同时,在机器人学习场景中,Pixio 以 78.4% 的成功率领先于 DINOv2。尽管研究团队也承认人工遮罩存在局限,并计划继续向视频预测方向探索,但 Pixio 目前取得的进展已足以说明:回到像素重建的本质,往往更能通向更深层的视觉理解。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享