Suno 要顶不住了？腾讯携手清华推出 SongGeneration 2，音素错误率降至 8.55%-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

Suno 要顶不住了？腾讯携手清华推出 SongGeneration 2，音素错误率降至 8.55%

拥抱AI，AIGC最佳实践者

566

AI 音乐赛道在2026年初再次被重磅消息点燃。3月9日，由腾讯与清华大学人机语音交互实验室联合打造的音乐基础模型 SongGeneration2 正式发布。该模型不仅在底层设计上完成跨越式升级，还在多项关键指标上对主流开源方案实现“大幅领先”，整体质量已能正面比肩甚至挑战顶级商业模型。

三项关键升级：AI 音乐告别“塑料味”

SongGeneration2的突出优势来自于架构的全面迭代，直击以往 AI 音乐的三大痛点：

音乐性更强： 不再只是简单拼旋律，它能胜任复杂多轨编配，空间层次清晰。
歌词对齐更准： 含糊咬字、跑调等问题明显缓解。其音素错误率（PER）仅 8.55%，这一数据显著优于顶级商业模型Suno v5（12.4%），仅次于MiniMax2.5。
可控性更强： 无论是文字描述还是音频提示，都能精准执行，细致定制风格与情绪。

双引擎驱动：LLM 与扩散模型的强强联合

在系统设计方面，SongGeneration2采用了创新的混合式 LLM-扩散架构：

作曲大脑（LeLM）： 统筹全曲结构与演唱细节，回答“怎么唱”。
高保真渲染器（Diffusion）： 在语言模型的指引下，合成丰富而复杂的声学细节。
分层表征： 首创混合表征与多轨表征并行建模，兼顾旋律稳定与音质细腻。

真开源、易上手：家用电脑也能“写歌”

更让开发者振奋的是，腾讯这次拿出了十足的开源诚意。拥有 4B 参数的 SongGeneration-v2-large 模型已正式开源，支持中英等多语种生成。令人惊喜的是，它在配备 22GB 显存 的消费级硬件上即可顺畅运行，实现本地化、私密创作的可能。

为便于快速体验，项目组还在 HuggingFace 上推出了 SongGeneration-v2-Fast 版本，略微牺牲部分音质换取极速生成——一分钟内即可产出一首完整歌曲。

从SongGeneration2的整体表现来看，AI 音乐正从“极客玩具”迈入“商业级应用”。随着后续支持 12G 显存的 Medium 模型及自动化评测框架开源，人人皆可“作曲”的时代或许真的近在眼前。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐