阿里通义实验室于3月16日正式发布并开源了面向影视场景的多模态配音大模型 Fun-CineForge。该模型聚焦 AI 配音长期存在的口型不同步、情感不足以及多角色音色不统一等关键难题,同时同步公开了高质量数据集的构建思路与流程。

在技术架构上,Fun-CineForge 首次提出“时间模态”的概念。不同于只看文本或画面的传统做法,模型借助精确的时间戳约束,把语音合成锁定在正确的时间窗口。即使人物被遮挡、镜头快速切换,或面部不清晰等复杂影视条件下,也能保持极高的音画对齐率与指令执行能力。
配套开源的 CineDub 数据集构建流程同样引人注目。通义实验室利用大模型的思维链能力,将原始影视素材自动加工为结构化数据,大幅压缩人工标注成本。公开数据显示,该流程把中英文词错率降至约1%,说话人分离错误率仅为1.20%,为训练大模型提供了竞争力十足的基础数据。

目前,Fun-CineForge 已在 GitHub、HuggingFace 和魔搭社区同步上线,支持 30 秒以内短视频片段的推理。它不仅在单人独白中表现出色,还率先对双人及多人对话提供专业级支持。这一进展意味着 AI 语音正从客服、助手等基础场景,迈向动漫与影视后期等高要求制作领域。
-
GitHub:https://github.com/FunAudioLLM/FunCineForge
-
HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge
-
ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/


















用户38505528 6个月前0
粘贴不了啊用户12648782 7个月前0
用法杂不对呢?yfarer 7个月前0
草稿id无法下载,是什么问题?