6B参数、16G显存、8步成片:阿里Z-Image把“百亿级大模型”比下去

昨夜,一张1024×1024的霓虹汉服大图在RTX4090上仅用2.3秒就生成完成,显存稳定在13GB——阿里通义实验室带来的Z-Image-Turbo一出手就让围观者安静:参数只有6B,却把20B+的闭源旗舰打成平手,甚至略占上风。

image.png

不搞噱头,Z-Image用实际成绩说话:

– 8步采样即可交付印刷级画质,消费级显卡3060 6G就能跑,显存最多16G;

– 能一次读懂超长嵌套的中文提示,从“夜晚的阳光”到“左手奶茶右手手机屏显今日新闻”都会自动纠偏,中英文字母不再变形;

– 皮肤毛孔、玻璃反射、雨雾逆光、电影级景深全都在线,Elo人工偏好榜把Z-Image-Turbo抬进开源世界第一梯队。

image.png

核心在全新的S3-DiT架构:把文本、视觉语义、图像token串成单流,参数量缩到对手的三分之一,推理效率反而更高。团队同时发布了Z-Image-Edit,一句自然语言就能让原图“换头改景”,社区玩家立刻可玩。

阿里尚未官宣是否完全开源,但模型已上架ModelScope与Hugging Face,pull request已合并进diffusers主分支,pip一行命令就能加载。若企业版API定价公布,Midjourney、Flux们或许得提前考虑降价。

Z-Image的到来像一声发令枪:图像生成赛道正式迈入“轻量高质”时代,算力民主化不再只是口号——谁家显卡还没16G?

项目地址:https://github.com/Tongyi-MAI/Z-Image

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享