快手发布旗舰多模态模型 Keye-VL-671B-A37B，推理能力迎来新突破-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

快手近日发布新一代旗舰多模态模型 Keye-VL-671B-A37B，并同步开源。它主打“善看会想”，在通用视觉、视频理解和数学推理等核心评测中表现出色，进一步巩固了快手在人工智能领域的技术优势。

Keye-VL-671B-A37B 的目标是把多模态理解和复杂推理做得更深入。在强大的通用底座上，它针对视觉感知、跨模态对齐和推理链路进行了系统升级，提升了在不同场景下的准确性与稳定性。也就是说，无论日常应用还是高难度任务，都能得到更精准的结果。

在架构上，Keye-VL-671B-A37B 以 DeepSeek-V3-Terminus 为语言基座，通过 MLP 层与视觉模型 KeyeViT 相连；KeyeViT 则由 Keye-VL-1.5 初始化。预训练分三阶段进行，系统性打造多模态理解与推理能力。基于严格筛选的 300B 高质量数据，模型在保证视觉理解扎实的同时，兼顾计算成本。

训练流程先冻结视觉与语言参数做初步对齐；随后解冻全部参数开展全面预训练；最后在更高质量数据上进行退火训练，明显提升细粒度感知。此后，模型还进行监督微调、冷启动和强化学习等步骤，训练任务覆盖视觉问答、图表理解、富文本 OCR 等。

快手表示，后续 Keye-VL 将持续增强基础能力，并进一步融合多模态 Agent 能力，朝着“会用工具、能解复杂问题”的方向发展。模型的多轮工具调用将被强化，使其在实际任务中可自主调用外部工具，完成搜索、推理与信息整合。同时，团队将在“think with image”和“think with video”上继续深耕，让模型不仅看懂图像与视频，还能围绕内容进行深入思考与链式推理。

在基础能力与 Agent 能力双轮驱动下，Keye-VL 旨在不断提升多模态智能的上限，迈向更通用、更可靠、推理更强的下一代多模态系统。这一进展也将为多模态 AI 带来新的机遇与挑战。