冲破算力壁垒:智谱携手华为推出首个全流程国产多模态大模型 GLM-Image

智谱正式宣布与华为共同开源新一代图像生成模型GLM-Image。该模型最突出的亮点在于,它是首个在国产芯片算力底座上完成从数据预处理到大规模训练全流程的 SOTA(最先进)多模态模型

GLM-Image采用自回归与扩散解码器的混合新架构,将图像生成与语言模型深度打通。凭借这一设计,模型在处理“知识密集型”创作任务时表现突出,既能准确把握全局指令,又能细腻刻画局部元素,有效解决海报排版、PPT 制作以及复杂科普图生成等长期困扰 AI 绘画的痛点。

image.png

GLM-Image 可在同一模型中同时完成文本到图像与图像到图像两类生成任务。

  • 文本转图像: 基于文字描述生成高细节图片,在信息量大的场景下表现尤为亮眼。
  • 图像到图像: 覆盖图像编辑、风格迁移、多主体一致性,以及人物与物体的身份保留等多种能力。

在技术表现方面,GLM-Image展现出出色的中文理解与渲染实力。在多项复杂的视觉文本生成评测中,均位列开源模型榜首,尤其在高难度汉字生成上优势明显。此外,模型原生支持 1024 至 2048 的任意比例图像生成,无需额外训练即可自适配多种分辨率。

目前,GLM-Image已在GitHubHugging Face等平台全面开源。为降低使用门槛,其 API 调用价格低至每张图 0.1 元。智谱表示,后续将推出进一步加速的版本,持续提升商用性价比。

image.png

image.png

  • GitHub:https://github.com/zai-org/GLM-Image

  • Hugging Face:https://huggingface.co/zai-org/GLM-Image

划重点:

  • 🇨🇳 国产全栈自研: 基于华为昇腾 Atlas800T A2 设备与昇思 MindSpore 框架完成端到端训练,验证了用国产算力打造一流模型的可行性。

  • 🎨 文图融合突破: 采用混合架构,在 LongText-Bench 等长文本渲染榜单中取得开源榜首,显著提升汉字与复杂图文的生成准确度。

  • 💰 高性价比开源: 模型原生支持多分辨率自适配生成,并以极低的 API 价格向创作者开放,助力国产认知型生成技术普及。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享