Luma AI 推出 Uni-1 图像模型:自回归架构同步生成文本与像素

Luma Labs 于 3 月 23 日发布图像生成模型 Uni-1,这是该公司基于 Unified Intelligence 架构落地的首款公开模型。官网已开放免费试用,API 定价同步公布,企业接入将分阶段上线。

QQ_1774317385820.png

架构变化:由扩散路线转向自回归

Uni-1 不再走当下主流的扩散式路径,改用 decoder-only 自回归 Transformer,把文本 token 和图像 token 交错为单一序列,在一次前向计算里同时完成推理与像素生成。

Luma CEO Amit Jain 表示,传统流程通常是先由语言模型规划,再交给扩散模型出图,中间会有信息丢失。Uni-1 的目标就是打通这个断点。

Jain 早前就职于 Apple,参与过 Vision Pro 的工程开发。

功能:参考图控制与多风格生成

Uni-1 可用一张或多张参考图进行引导,能保持人物身份、姿态与构图。官方测试称,在角色一致性和人像控制方面,多参考图模式表现更稳。

该模型宣称支持 76 种视觉风格,覆盖写实摄影、漫画、浮世绘等。

演示中有一例:输入“画一张金门大桥信息图”,模型会自动规划版式,生成桥梁结构示意,并标注“1711 Meters”等数据,内部推理过程可实时查看。

基准测试:空间推理与参考生成占优

QQ_1774317334856.png

按 Luma 公布的数据,Uni-1 在 RISEBench 推理基准上的总分为 0.51,高于 Google Nano Banana 2 的 0.50 和 OpenAI GPT Image 1.5 的 0.46;空间推理得分 0.58,逻辑推理 0.32,后者约为 GPT Image 的两倍。

在 ODinW-13 目标检测上获得 46.2 mAP,接近 Google Gemini 3 Pro 的 46.3。

在人类偏好 Elo 排名中,Uni-1 在整体偏好、风格与编辑、参考生成三项位列第一,文生图单项排名第二。

定价

API 按 token 计费:文本输入 $0.50/百万 token,图像输入 $1.20/百万 token,文本输出与思考链 $3.00/百万 token,图像输出 $45.45/百万 token。

折算到单张图:文生图(2048px)约 $0.0909,单参考图编辑约 $0.0933,8 张参考图约 $0.1101。

据 VentureBeat 报道,在 2K 分辨率的企业场景中,Uni-1 的成本比 Google Nano Banana 2 低 10% 至 30%。

背景

此前 Luma Labs 以视频生成产品 Dream Machine(Ray3 系列)为主要业务。今年 3 月 5 日发布了基于 Unified Intelligence 架构的 Luma Agents 创意代理平台。Uni-1 是该架构在静态图像产品上的首次落地。

发布后数小时,相关帖子在 X 平台的浏览量超过 230 万。Luma 表示后续将推出视频和音频版本,具体时间尚未公布。

试用地址:lumalabs.ai/uni-1

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享