撬动算力壁垒:智谱携手华为推出首个全流程国产化多模态大模型 GLM-Image

智谱宣布与华为共同开源全新一代图像生成模型GLM-Image。该模型的最大亮点在于,它是首个基于国产芯片算力底座,打通从数据预处理到大规模训练完整链路的 SOTA(州级水平)多模态模型

GLM-Image采用“自回归 + 扩散解码器”的混合式架构,将图像生成与语言模型深度结合。在“知识密集型”创作任务中表现突出,既能精准理解整体指令,也能细致把握局部细节,切实解决了海报排版、PPT制作和复杂科普图等长期困扰 AI 绘图的难题。

image.png

GLM-Image 支持在同一个模型内完成文本到图像与图像到图像的双向生成。

  • 文本转图像:依据文字描述输出高细节画面,尤其在信息量大的场景中表现更稳更准。
  • 图像到图像:覆盖多种能力,包括图像编辑、风格迁移、多主体一致性,以及人物/物体身份保留生成等。

在技术指标方面,GLM-Image展现出强劲的中文理解与渲染能力。在多项复杂视觉-文本生成评测中,其开源表现名列第一,对高难度汉字生成尤为擅长。此外,模型原生支持从 1024 到 2048 的任意比例图像生成,无需额外训练即可适配多种分辨率。

目前,GLM-Image已在GitHubHugging Face等平台完整开源。为降低使用门槛,其 API 调用价格最低每张图 0.1 元。智谱同时表示,后续还会推出速度进一步优化的新版本,持续提升商用性价比。

image.png

image.png

  • GitHub:https://github.com/zai-org/GLM-Image

  • Hugging Face:https://huggingface.co/zai-org/GLM-Image

划重点:

  • 🇨🇳 国产全栈自研:依托华为昇腾 Atlas800T A2 设备与昇思 MindSpore 框架完成端到端训练,实证国产算力打造顶尖模型的可行路径。

  • 🎨 文图融合突破:混合架构发力,在 LongText-Bench 等长文本渲染评测中位居开源阵营第一,显著提升汉字与复杂图文的生成准确度。

  • 💰 高性价比开源:原生多分辨率自适应生成,API 定价亲民,对创作者与企业友好,助推国产认知型生成技术普及落地。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享