快手近日发布新一代旗舰多模态模型 Keye-VL-671B-A37B,并同步开源。它主打“善看会想”,在通用视觉、视频理解和数学推理等核心评测中表现出色,进一步巩固了快手在人工智能领域的技术优势。
Keye-VL-671B-A37B 的目标是把多模态理解和复杂推理做得更深入。在强大的通用底座上,它针对视觉感知、跨模态对齐和推理链路进行了系统升级,提升了在不同场景下的准确性与稳定性。也就是说,无论日常应用还是高难度任务,都能得到更精准的结果。

在架构上,Keye-VL-671B-A37B 以 DeepSeek-V3-Terminus 为语言基座,通过 MLP 层与视觉模型 KeyeViT 相连;KeyeViT 则由 Keye-VL-1.5 初始化。预训练分三阶段进行,系统性打造多模态理解与推理能力。基于严格筛选的 300B 高质量数据,模型在保证视觉理解扎实的同时,兼顾计算成本。
训练流程先冻结视觉与语言参数做初步对齐;随后解冻全部参数开展全面预训练;最后在更高质量数据上进行退火训练,明显提升细粒度感知。此后,模型还进行监督微调、冷启动和强化学习等步骤,训练任务覆盖视觉问答、图表理解、富文本 OCR 等。
快手表示,后续 Keye-VL 将持续增强基础能力,并进一步融合多模态 Agent 能力,朝着“会用工具、能解复杂问题”的方向发展。模型的多轮工具调用将被强化,使其在实际任务中可自主调用外部工具,完成搜索、推理与信息整合。同时,团队将在“think with image”和“think with video”上继续深耕,让模型不仅看懂图像与视频,还能围绕内容进行深入思考与链式推理。
在基础能力与 Agent 能力双轮驱动下,Keye-VL 旨在不断提升多模态智能的上限,迈向更通用、更可靠、推理更强的下一代多模态系统。这一进展也将为多模态 AI 带来新的机遇与挑战。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?