智谱开源 GLM-4.6V 系列：106B 原生 Function Call，上下文128k，9B 轻量版可免费商用-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

智谱宣布并开源上线 GLM-4.6V 多模态大模型系列，包含基础版 GLM-4.6V（总参106B，激活12B）与轻量版 GLM-4.6V-Flash（9B）。新模型把上下文窗口提升到128k tokens，视觉理解在同参数模型中达到 SOTA，首次将 Function Call 能力原生整合进视觉模型，贯通「视觉感知 → 可执行行动」完整链路。API 价格相对 GLM-4.5V 下调 50%，输入 1 元 / 百万 tokens、输出 3 元 / 百万 tokens；GLM-4.6V-Flash 完全免费，内置 GLM Coding Plan 与专用 MCP 工具，开发者可零成本商用。

技术亮点：128k 多图长文 + 原生视觉 Function Call

128k 多模态上下文：单轮可接收 30 张高分辨率图片 + 8 万字文本，在 Video-MME、MMBench-Video 等长视频理解基准上拿到 SOTA

原生 Function Call：视觉信号直接映射到可执行 API，不需要额外 Projector，时延下降 37%，成功率提升 18%

统一编码：图像、视频、文本共用同一套 Transformer，推理时动态路由，显存占用减少 30%

价格与授权：轻量版免费，基础版价格大幅下调

GLM-4.6V-Flash（9B）：0 元调用，开放权重与商用 License，适合边缘设备与 SaaS 集成

GLM-4.6V（106B-A12B）：输入 1 元 / 百万 tokens、输出 3 元 / 百万 tokens，约为 GPT-4V 的 1/4

降价 50%：相比 GLM-4.5V 整体下调 50%，并赠送 100 万 tokens 试用额度

开发者工具：MCP + Coding Plan 一键接入

专用 MCP（Model-Context-Protocol）工具：用 10 行代码即可把 GLM-4.6V 接入 VS Code、Cursor，实现“框选 UI → 自动生成前端代码”

GLM Coding Plan：提供 50+ 场景模板（网页、小程序、脚本），从视觉需求到可执行代码，再到自动部署

在线 Playground：支持拖拽图片、实时调试 Function Call，一键导出 Python/Node.js 调用片段

基准成绩：同参数 SOTA，长视频理解表现领先

| ——————— | ——– | —— | ————– |

| Video-MME |74.8 |69.1 |72.9 |

| MMBench-Video |82.1 |78.4 |80.6 |

| LongVideoBench （128k） |65.3 |58.2 |62.1 |

商用场景与案例

影视预览：导演上传角色图与分镜，自动生成 30 秒预览视频，主体一致性＞96%

工业检测：拍摄设备面板 → 自动标出异常区域 → 调用维修 API 创建工单

教育课件：教师框选课本插图 → 生成 3D 动画 + 语音讲解，一键导出 PPT

开放路线

今日起：权重、推理代码、MCP 工具已在 GitHub 与 Hugging Face 开源（搜索 GLM-4.6V）

2025Q1：推出 1M context 版本与端侧 INT4 量化模型，可在笔记本 CPU 运行

2025Q2：上线「视觉 Agent Store」，开发者可上架自定义 Function Call，按调用分成

行业观察

当多模态还停留在“看得懂”阶段时，智谱把「看得懂 + 做得出」放进同一模型：原生集成 Function Call，让图片可直接触发 API，减少视觉 → 文本 → Prompt 的冗余链路。免费 9B 版本降低尝鲜门槛，106B 基础版价格大幅下调，目标是快速拓展视觉 Agent 生态。随着 128k 长视频理解落地，影视、工业、教育等垂直场景有望率先规模化应用。后续将持续关注其端侧量化与 Agent Store 的进展。