快手近日把其视频生成器 Kling 升级到 2.6 版本,带来语音控制和动作控制两项核心能力,为AI视频创作迈出关键一步。本次更新不仅支持原生音频同步生成,还在复杂动作的还原精度上大幅提升。

语音控制:从场景音效到专属声音定制
Kling 2.6 的语音控制建立在“视频与音频同步生成”的技术之上,与 Google Veo3、Sora2 的能力相近,能生成与画面匹配的音效、人声及音乐。它支持说话、对话、旁白、演唱和说唱等多种人声类型,也能处理环境噪声与复杂场景音效。
更值得一提的是,用户现在可上传自己的声音训练模型,或直接上传音频文件,用于文本转视频创作。这一突破显著增强了角色一致性——生成的视频角色能以清晰、可辨认的声音说话,方便在多个片段中保持同一角色的声音统一。
Kling AI 展示的应用覆盖产品演示、生活方式 vlog、新闻播报、体育解说、纪录片、访谈节目、戏剧短片、音乐演出,甚至还能胜任复调合唱等复杂形式。
动作控制升级:复杂全身动作更精准
另一项重要更新集中在动作控制系统的全面升级。Kling AI 表示,系统如今可更细致地捕捉全身动作,即便是武术或舞蹈等高速、复杂的动作也能准确呈现。
官方特别指出两大传统难点的明显改善:手部动作更清晰无拖影,面部表情与口型同步更自然。用户可上传 3 至 30 秒的动作参考片段,生成连贯的动作序列;同时,场景细节还能通过文本提示进行调整。
社交平台上已出现大量令人惊艳的案例,显示 AI 视频内容持续升温。创作者正积极把握商机,也涌现出许多富有创意的作品。

价格优势与渠道布局
Kling 2.6 除了在自有平台提供服务,还可通过 Fal.ai、Artlist、Media.io 等第三方平台使用。API 定价约为每秒 0.07 至 0.14 美元,费用随生成速度、时长与分辨率变化,价格在同类产品中颇具竞争力。Kling AI 本身采用积分制计费。
12 月初,快手还发布了 Video O1——号称“全球首款统一多模态视频模型”,可用文字指令编辑现有视频,实现更换主角、变更天气或调整视频风格等效果。
凭借这些新功能,快手在竞争激烈的 AI 视频市场中与 Google、OpenAI、Runway 等海外公司,以及海罗、世达、维都等国内厂商展开竞争。值得关注的是,快手运营着与 TikTok 体量接近的全球最大短视频平台之一快手(Kwai),因此能获取海量音视频与运动数据,为训练视频模型、实现声音同步和动作逼真提供独特优势。


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?