Ideogram 4.0正式开源:93亿参数驱动强大文字生成AI,DesignArena全球排名第四

AI图像生成平台 Ideogram 于6月3日正式推出开放权重文生图模型 Ideogram 4.0。按照官方发布的基准测试结果来看,这款模型已经成为当前表现突出的开源图像生成模型之一,并且在文字生成和版式控制方面有了明显增强。

Ideogram 4.0 的核心参数规模达到93亿(9.3B),采用了近年来主流开源模型常见的单流(Single-Stream)架构,让文本 Token 与图像 Token 在统一的自注意力序列中一起建模,从而加强文本和视觉内容之间的协同生成效果。同时,模型把设计可控性作为重点目标,在训练与推理阶段都提升了对布局、排版和视觉元素的控制能力。

QQ20260605-101418.jpg

在技术结构方面,Ideogram 4.0 由 Qwen3-VL-8B-Instruct 文本编码器、34层可训练单流扩散 Transformer(DiT)、Euler Flow Matching 采样器,以及冻结的KL自动编码器组成。这套组合让模型在图像质量、文本理解能力和生成效率之间取得了较好的平衡。

从官方展示的案例来看,Ideogram 4.0 可以生成人物、场景、商业设计、海报以及品牌视觉等多种类型图片。其中,文字渲染能力是这次升级中最突出的看点。和传统文生图模型常见的文字混乱、拼写出错等情况相比,Ideogram 4.0 能够更准确地在图像中展示长文本内容,因此在海报设计、商品展示图、封面制作和社交媒体营销素材等场景中具备较强的实用性。

QQ20260605-101427.jpg

为了进一步提升版式控制能力,Ideogram 在训练阶段加入了对象与文本边界框(Bounding Box)数据,让模型能够理解图像元素之间的空间位置关系。同时还结合结构化 JSON 字幕数据进行训练,用户可以通过提示词更精确地控制对象位置、文字布局以及整体排版结构,从而获得更接近专业设计工具的创作体验。

在第三方评测方面,DesignArena最新发布的榜单显示,Ideogram 4.0 已经超过 Nano Banana Pro,排名全球第四。DesignArena 采用隐藏模型身份的方式,再由人工评审对生成结果进行盲测打分,因此在一定程度上能够更真实地反映用户对图像质量和视觉表现力的主观评价。

随着开源图像生成模型的竞争不断加剧,Ideogram 4.0 凭借出色的文字生成能力和设计可控性,正在成为海报制作、品牌营销和视觉内容创作领域中一个值得关注的新选择。

地址:https://github.com/ideogram-oss/ideogram4

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享