据AIbase消息,今日凌晨,智谱AI宣布开源其全新“混合思考”模型——GLM-4.7-Flash。作为30B规格中的领跑选手,该模型在保持轻量部署的优势下,凭借强悍的推理与编码能力,拿下同尺寸模型的性能第一。

性能领跑:30B级别的“全能王牌”
GLM-4.7-Flash 采用 30B-A3B MoE(混合专家)架构。总参数约300亿,但在实际执行时只会激活约30亿核心参数。这种设计让它在资源占用与处理能力之间做到兼顾。
在多项严苛基准中,GLM-4.7-Flash 表现亮眼,整体优于阿里的 Qwen3-30B-A3B-Thinking-2507 和 OpenAI 的 GPT-OSS-20B:
-
软件工程(SWE-bench Verified): 取得 59.2分,体现出一线的代码修复水平。
-
数学与推理: AIME25拿下 91.6分,GPQA(专家级问答)达 75.2分。
-
工具协作: τ²-Bench 得到 79.5分,BrowseComp 为 42.8分,在智能体(Agent)应用中竞争力很强。
开发者友好:本地化部署更灵活
该模型强调轻量和实用,尤其适合本地或私有云环境下的智能体场景。为保证性能稳定发挥,GLM-4.7-Flash 已被主流推理框架支持:
-
vLLM 与 SGLang: 主分支已兼容。使用 vLLM 时,可通过
tensor-parallel-size和speculative-config等参数优化并发与解码速度;SGLang 还支持使用 EAGLE 算法进一步提升推理效率。 -
Hugging Face: 可直接用
transformers库调用,方便快速实验与集成。
市场反馈:轻便不降速的性能升级
社区讨论火热。大家普遍认为,GLM-4.7-Flash 在不提高硬件门槛的情况下,明显提升了实际使用时的“手感速度”。一位开发者表示:“它在编码和工具调用上的表现,让本地AI助手真正好用。性能与效率的平衡,正是我们想要的。”
开源地址:https://huggingface.co/zai-org/GLM-4.7-Flash

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?