阿里通义推出并开源 Fun-CineForge:面向影视的多场景配音大模型,直击音画不同步难题

阿里通义实验室于3月16日正式发布并开源了面向影视场景的多模态配音大模型 Fun-CineForge。该模型聚焦 AI 配音长期存在的口型不同步、情感不足以及多角色音色不统一等关键难题,同时同步公开了高质量数据集的构建思路与流程。

image.png

在技术架构上,Fun-CineForge 首次提出“时间模态”的概念。不同于只看文本或画面的传统做法,模型借助精确的时间戳约束,把语音合成锁定在正确的时间窗口。即使人物被遮挡、镜头快速切换,或面部不清晰等复杂影视条件下,也能保持极高的音画对齐率与指令执行能力。

配套开源的 CineDub 数据集构建流程同样引人注目。通义实验室利用大模型的思维链能力,将原始影视素材自动加工为结构化数据,大幅压缩人工标注成本。公开数据显示,该流程把中英文词错率降至约1%,说话人分离错误率仅为1.20%,为训练大模型提供了竞争力十足的基础数据。

image.png

目前,Fun-CineForge 已在 GitHub、HuggingFace 和魔搭社区同步上线,支持 30 秒以内短视频片段的推理。它不仅在单人独白中表现出色,还率先对双人及多人对话提供专业级支持。这一进展意味着 AI 语音正从客服、助手等基础场景,迈向动漫与影视后期等高要求制作领域。

  • GitHub:https://github.com/FunAudioLLM/FunCineForge

  • HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge

  • ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享