苹果推出PCG语音生成方案:摆脱死板校验,AI配音速度提升约40%

面向长期困扰AI语音合成的效率难题,苹果公司近日携手特拉维夫大学发布一项名为“原则性粗粒度”(PCG)的新研究。该方法通过调整模型对声音预测结果的校验策略,在音质不打折的前提下,让语音生成速度提升约40%。

image.png

目前主流的文本转语音(TTS)大多采用“自回归”方式,也就是像串珠子那样依次预测接下来的语音片段。但这种流程对输出过于苛刻,只要与标注数据存在哪怕轻微、几乎听不出的差别,模型就会频繁纠正,既耗算力也拖慢生成速度。

PCG带来了新的解法。其核心思路是“求同存异”:研究者发现,许多细小差别的人声片段在人耳听感上几乎一致。于是PCG引入“声学相似组”,把传统的“逐点精确校验”升级为“范围校验”。只要模型预测值落在合理的声学区间内,就可直接通过。

在实际测试中,PCG表现十分亮眼。即使将91.4%的语音片段替换为同组的相似音,人耳几乎难以分辨,整体自然度评分达到4.09分。此外,PCG属于推理阶段的优化,无需对现有模型重新训练,仅需约37MB额外内存,即可在各类移动终端上提供高质量、低时延的AI语音服务。

划重点:

  • 🚀 强力加速: 借助PCG,语音生成提速约40%,有效缓解TTS的延迟难题。

  • 👂 听感稳定: 用“范围校验”替代“逐点匹配”,在大幅提效的同时,音频自然度和说话人相似度基本不受影响。

  • 🛠️ 低成本易用: 无需重新训练,仅增加少量内存开销(约37MB),即可直接加速现有AI语音推理系统。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享