面向长期困扰AI语音合成的效率难题,苹果公司近日携手特拉维夫大学发布一项名为“原则性粗粒度”(PCG)的新研究。该方法通过调整模型对声音预测结果的校验策略,在音质不打折的前提下,让语音生成速度提升约40%。

目前主流的文本转语音(TTS)大多采用“自回归”方式,也就是像串珠子那样依次预测接下来的语音片段。但这种流程对输出过于苛刻,只要与标注数据存在哪怕轻微、几乎听不出的差别,模型就会频繁纠正,既耗算力也拖慢生成速度。
PCG带来了新的解法。其核心思路是“求同存异”:研究者发现,许多细小差别的人声片段在人耳听感上几乎一致。于是PCG引入“声学相似组”,把传统的“逐点精确校验”升级为“范围校验”。只要模型预测值落在合理的声学区间内,就可直接通过。
在实际测试中,PCG表现十分亮眼。即使将91.4%的语音片段替换为同组的相似音,人耳几乎难以分辨,整体自然度评分达到4.09分。此外,PCG属于推理阶段的优化,无需对现有模型重新训练,仅需约37MB额外内存,即可在各类移动终端上提供高质量、低时延的AI语音服务。
划重点:
-
🚀 强力加速: 借助PCG,语音生成提速约40%,有效缓解TTS的延迟难题。
-
👂 听感稳定: 用“范围校验”替代“逐点匹配”,在大幅提效的同时,音频自然度和说话人相似度基本不受影响。
-
🛠️ 低成本易用: 无需重新训练,仅增加少量内存开销(约37MB),即可直接加速现有AI语音推理系统。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END



















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?