巨人网络AI Lab 近日携手清华大学 SATLab、西北工业大学,正式推出面向音视频领域的三项多模态生成新成果:音乐驱动的视频生成模型 YingVideo-MV、零样本歌声转换模型 YingMusic-SVC 与歌声合成模型 YingMusic-Singer。
这些成果展示了团队在音视频多模态生成方向上的最新进展,并计划陆续在 GitHub、HuggingFace 等平台开源。其中,YingVideo-MV 只需“一段音乐 + 一张人物图片”就能生成音乐视频片段。它会对音乐的节奏、情绪与结构进行多模态理解,使镜头运动与配乐高度贴合,同时具备推、拉、摇、移等镜头语言。借助长时序一致性机制,还能在长视频里有效降低人物“畸变”与“跳帧”问题。

在音频生成方面,YingMusic-SVC 主打 **“真实歌曲可用”** 的零样本歌声转换能力。针对真实乐曲场景进行了专项优化,可有效压制伴奏、和声与混响的干扰,显著降低破音与高音失真风险,为高质量音乐再创作提供稳定支撑。
而 YingMusic-Singer 歌声合成模型在给定旋律的前提下,输入任意歌词即可合成发音清晰、旋律稳定的自然演唱。它能够灵活适配不同长度的歌词,并支持零样本音色克隆,显著提升 AI 演唱在创作中的灵活度与实用性,进一步降低音乐创作门槛。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?