智谱宣布并开源上线 GLM-4.6V 多模态大模型系列,包含基础版 GLM-4.6V(总参106B,激活12B)与轻量版 GLM-4.6V-Flash(9B)。新模型把上下文窗口提升到128k tokens,视觉理解在同参数模型中达到 SOTA,首次将 Function Call 能力原生整合进视觉模型,贯通「视觉感知 → 可执行行动」完整链路。API 价格相对 GLM-4.5V 下调 50%,输入 1 元 / 百万 tokens、输出 3 元 / 百万 tokens;GLM-4.6V-Flash 完全免费,内置 GLM Coding Plan 与专用 MCP 工具,开发者可零成本商用。
技术亮点:128k 多图长文 + 原生视觉 Function Call
128k 多模态上下文:单轮可接收 30 张高分辨率图片 + 8 万字文本,在 Video-MME、MMBench-Video 等长视频理解基准上拿到 SOTA
原生 Function Call:视觉信号直接映射到可执行 API,不需要额外 Projector,时延下降 37%,成功率提升 18%
统一编码:图像、视频、文本共用同一套 Transformer,推理时动态路由,显存占用减少 30%
价格与授权:轻量版免费,基础版价格大幅下调
GLM-4.6V-Flash(9B):0 元调用,开放权重与商用 License,适合边缘设备与 SaaS 集成
GLM-4.6V(106B-A12B):输入 1 元 / 百万 tokens、输出 3 元 / 百万 tokens,约为 GPT-4V 的 1/4
降价 50%:相比 GLM-4.5V 整体下调 50%,并赠送 100 万 tokens 试用额度
开发者工具:MCP + Coding Plan 一键接入
专用 MCP(Model-Context-Protocol)工具:用 10 行代码即可把 GLM-4.6V 接入 VS Code、Cursor,实现“框选 UI → 自动生成前端代码”
GLM Coding Plan:提供 50+ 场景模板(网页、小程序、脚本),从视觉需求到可执行代码,再到自动部署
在线 Playground:支持拖拽图片、实时调试 Function Call,一键导出 Python/Node.js 调用片段
基准成绩:同参数 SOTA,长视频理解表现领先
| 基准 | GLM-4.6V | GPT-4V | Gemini1.5Pro |
| ——————— | ——– | —— | ————– |
| Video-MME |74.8 |69.1 |72.9 |
| MMBench-Video |82.1 |78.4 |80.6 |
| LongVideoBench (128k) |65.3 |58.2 |62.1 |
商用场景与案例
影视预览:导演上传角色图与分镜,自动生成 30 秒预览视频,主体一致性>96%
工业检测:拍摄设备面板 → 自动标出异常区域 → 调用维修 API 创建工单
教育课件:教师框选课本插图 → 生成 3D 动画 + 语音讲解,一键导出 PPT
开放路线
今日起:权重、推理代码、MCP 工具已在 GitHub 与 Hugging Face 开源(搜索 GLM-4.6V)
2025Q1:推出 1M context 版本与端侧 INT4 量化模型,可在笔记本 CPU 运行
2025Q2:上线「视觉 Agent Store」,开发者可上架自定义 Function Call,按调用分成
行业观察
当多模态还停留在“看得懂”阶段时,智谱把「看得懂 + 做得出」放进同一模型:原生集成 Function Call,让图片可直接触发 API,减少视觉 → 文本 → Prompt 的冗余链路。免费 9B 版本降低尝鲜门槛,106B 基础版价格大幅下调,目标是快速拓展视觉 Agent 生态。随着 128k 长视频理解落地,影视、工业、教育等垂直场景有望率先规模化应用。后续将持续关注其端侧量化与 Agent Store 的进展。

















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?