Suno 要顶不住了?腾讯携手清华推出 SongGeneration 2,音素错误率降至 8.55%

AI 音乐赛道在2026年初再次被重磅消息点燃。3月9日,由腾讯与清华大学人机语音交互实验室联合打造的音乐基础模型 SongGeneration2 正式发布。该模型不仅在底层设计上完成跨越式升级,还在多项关键指标上对主流开源方案实现“大幅领先”,整体质量已能正面比肩甚至挑战顶级商业模型。

image.png

三项关键升级:AI 音乐告别“塑料味”

SongGeneration2的突出优势来自于架构的全面迭代,直击以往 AI 音乐的三大痛点:

  • 音乐性更强: 不再只是简单拼旋律,它能胜任复杂多轨编配,空间层次清晰。

  • 歌词对齐更准: 含糊咬字、跑调等问题明显缓解。其音素错误率(PER)仅 8.55%,这一数据显著优于顶级商业模型Suno v5(12.4%),仅次于MiniMax2.5

  • 可控性更强: 无论是文字描述还是音频提示,都能精准执行,细致定制风格与情绪。

image.png

双引擎驱动:LLM 与扩散模型的强强联合

在系统设计方面,SongGeneration2采用了创新的混合式 LLM-扩散架构

  • 作曲大脑(LeLM): 统筹全曲结构与演唱细节,回答“怎么唱”。

  • 高保真渲染器(Diffusion): 在语言模型的指引下,合成丰富而复杂的声学细节。

  • 分层表征: 首创混合表征与多轨表征并行建模,兼顾旋律稳定与音质细腻。

真开源、易上手:家用电脑也能“写歌”

更让开发者振奋的是,腾讯这次拿出了十足的开源诚意。拥有 4B 参数的 SongGeneration-v2-large 模型已正式开源,支持中英等多语种生成。令人惊喜的是,它在配备 22GB 显存 的消费级硬件上即可顺畅运行,实现本地化、私密创作的可能。

为便于快速体验,项目组还在 HuggingFace 上推出了 SongGeneration-v2-Fast 版本,略微牺牲部分音质换取极速生成——一分钟内即可产出一首完整歌曲。

SongGeneration2的整体表现来看,AI 音乐正从“极客玩具”迈入“商业级应用”。随着后续支持 12G 显存的 Medium 模型及自动化评测框架开源,人人皆可“作曲”的时代或许真的近在眼前。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享