阿里通义推出并开源 Fun-CineForge：面向影视的多场景配音大模型，直击音画不同步难题-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

阿里通义实验室于3月16日正式发布并开源了面向影视场景的多模态配音大模型 Fun-CineForge。该模型聚焦 AI 配音长期存在的口型不同步、情感不足以及多角色音色不统一等关键难题，同时同步公开了高质量数据集的构建思路与流程。

在技术架构上，Fun-CineForge 首次提出“时间模态”的概念。不同于只看文本或画面的传统做法，模型借助精确的时间戳约束，把语音合成锁定在正确的时间窗口。即使人物被遮挡、镜头快速切换，或面部不清晰等复杂影视条件下，也能保持极高的音画对齐率与指令执行能力。

配套开源的 CineDub 数据集构建流程同样引人注目。通义实验室利用大模型的思维链能力，将原始影视素材自动加工为结构化数据，大幅压缩人工标注成本。公开数据显示，该流程把中英文词错率降至约1%，说话人分离错误率仅为1.20%，为训练大模型提供了竞争力十足的基础数据。

目前，Fun-CineForge 已在 GitHub、HuggingFace 和魔搭社区同步上线，支持 30 秒以内短视频片段的推理。它不仅在单人独白中表现出色，还率先对双人及多人对话提供专业级支持。这一进展意味着 AI 语音正从客服、助手等基础场景，迈向动漫与影视后期等高要求制作领域。

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

阿里通义推出并开源 Fun-CineForge：面向影视的多场景配音大模型，直击音画不同步难题