MiniMax携手华中科大开源VTP!只调视觉分词器,DiT生成效果跃升65.8%

AI视觉生成迎来一次范式级升级。MiniMax与华中科技大学近日联合开源其核心成果——VTP(Visual Tokenizer Pretraining,视觉分词器预训练)。在完全不改动标准DiT(Diffusion Transformer)架构的前提下,只通过优化视觉分词器,就实现了端到端图像生成性能65.8%的提升。这一进展打破了“唯有堆大模型才能提升性能”的固有认知,首次把视觉分词器推到前所未有的重要位置。

不动主模型,只调“翻译官”——性能照样猛涨

传统生成模型(如DALL·E 3、Stable Diffusion 3)多依赖DiT等主干网络提效,而VTP选择了另一条路:把视觉分词器——也就是负责把图像压缩成离散token序列的“视觉翻译官”——作为核心优化对象。

关键在于,VTP无需改动DiT的训练流程或结构,只在预训练阶段对分词器进行专项优化,让其输出的latent表征更容易被学习、更具通用性,从而让下游的DiT“事半功倍”。实验表明,在相同DiT配置下,接入VTP后,生成质量(FID、CLIP Score等)显著优于基线。

image.png

首次构建“分词器可扩展性”理论框架

VTP的进步不仅是工程层面的优化,更带来全新理论视角:

首次将latent表征的易学性(learnability)与通用视觉表征能力建立明确联系;

首次证明分词器本身具备可扩展性(tokenizer scaling)——随着分词器容量、训练数据与预训练策略的增强,生成性能呈现清晰的scaling曲线;

– 为行业开辟“模型之外的性能增长路径”:未来不必一味增大DiT参数,也能通过优化分词器以更高性价比获得性能跃升。

image.png

开源即赋能,推动视觉生成民主化

目前,VTP代码、预训练分词器与训练配方已全面开源,并兼容主流DiT实现。也就是说,任何使用DiT架构的研究者或企业,都能“即插即用”VTP,以较低成本获得接近70%的生成质量提升,尤其利好算力有限的中小团队。

AIbase认为,VTP的发布标志着AI生成技术迈入“系统级优化”的新阶段。当行业从“唯大模型论”转向“全链路协同提效”,MiniMax与华中科大的这次合作,不仅是技术层面的胜利,更是在践行“高效AI”的理念——真正的创新,有时不在于造更大的引擎,而在于让每个零件更聪明地协作。

代码:https://github.com/MiniMax-AI/VTP

论文:https://arxiv.org/abs/2512.13687v1

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享