苹果推出PCG语音生成方案：摆脱死板校验，AI配音速度提升约40%-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

苹果推出PCG语音生成方案：摆脱死板校验，AI配音速度提升约40%

拥抱AI，AIGC最佳实践者

2311

面向长期困扰AI语音合成的效率难题，苹果公司近日携手特拉维夫大学发布一项名为“原则性粗粒度”（PCG）的新研究。该方法通过调整模型对声音预测结果的校验策略，在音质不打折的前提下，让语音生成速度提升约40%。

目前主流的文本转语音（TTS）大多采用“自回归”方式，也就是像串珠子那样依次预测接下来的语音片段。但这种流程对输出过于苛刻，只要与标注数据存在哪怕轻微、几乎听不出的差别，模型就会频繁纠正，既耗算力也拖慢生成速度。

PCG带来了新的解法。其核心思路是“求同存异”：研究者发现，许多细小差别的人声片段在人耳听感上几乎一致。于是PCG引入“声学相似组”，把传统的“逐点精确校验”升级为“范围校验”。只要模型预测值落在合理的声学区间内，就可直接通过。

在实际测试中，PCG表现十分亮眼。即使将91.4%的语音片段替换为同组的相似音，人耳几乎难以分辨，整体自然度评分达到4.09分。此外，PCG属于推理阶段的优化，无需对现有模型重新训练，仅需约37MB额外内存，即可在各类移动终端上提供高质量、低时延的AI语音服务。

划重点:

🚀 强力加速: 借助PCG，语音生成提速约40%，有效缓解TTS的延迟难题。
👂 听感稳定: 用“范围校验”替代“逐点匹配”，在大幅提效的同时，音频自然度和说话人相似度基本不受影响。
🛠️ 低成本易用: 无需重新训练，仅增加少量内存开销（约37MB），即可直接加速现有AI语音推理系统。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐