巨人网络发布三大多模态模型:消除视频畸变,歌声转换实现“真实歌曲可用”

巨人网络AI Lab 近日携手清华大学 SATLab、西北工业大学,正式推出面向音视频领域的三项多模态生成新成果:音乐驱动的视频生成模型 YingVideo-MV、零样本歌声转换模型 YingMusic-SVC 与歌声合成模型 YingMusic-Singer

这些成果展示了团队在音视频多模态生成方向上的最新进展,并计划陆续在 GitHub、HuggingFace 等平台开源。其中,YingVideo-MV 只需“一段音乐 + 一张人物图片”就能生成音乐视频片段。它会对音乐的节奏、情绪与结构进行多模态理解,使镜头运动与配乐高度贴合,同时具备推、拉、摇、移等镜头语言。借助长时序一致性机制,还能在长视频里有效降低人物“畸变”与“跳帧”问题。

巨人网络

在音频生成方面,YingMusic-SVC 主打 **“真实歌曲可用”** 的零样本歌声转换能力。针对真实乐曲场景进行了专项优化,可有效压制伴奏、和声与混响的干扰,显著降低破音与高音失真风险,为高质量音乐再创作提供稳定支撑。

YingMusic-Singer 歌声合成模型在给定旋律的前提下,输入任意歌词即可合成发音清晰、旋律稳定的自然演唱。它能够灵活适配不同长度的歌词,并支持零样本音色克隆,显著提升 AI 演唱在创作中的灵活度与实用性,进一步降低音乐创作门槛。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享