微软近日发布了 VibeVoice-Realtime-0.5B,这是一款面向实时文本转语音(TTS)的轻量模型。它支持流式文本输入与长时语音输出,尤其适合智能代理与实时数据播报等场景。该模型可在约 300 毫秒内开始发声,在语言模型仍在生成答复时即可先输出可听语音。

图源说明:图片由 AI 生成,授权方为 Midjourney
VibeVoice 框架采用基于连续语音标记的“下一个标记扩散”思路,提供多种变体以适配长时、多说话者音频(如播客)需求。研究团队表示,主版本 VibeVoice 可合成长达 90 分钟的语音,并可在 64k 上下文窗口内生成多至 4 位说话者的声音。
VibeVoice-Realtime 采用交错窗口设计:输入文本被切分为小块。模型在编码新文本块的同时,继续依据已有上下文生成声学特征。通过让文本编码与声学解码重叠,在合适硬件上可实现约 300 毫秒的首音延迟。
与长篇 VibeVoice 变体不同,实时模型仅使用声学标记器,并以 7.5 赫兹运行。该声学标记器基于 LatentLM 的 σ VAE 变体,采用对称的编解码结构,可对 24 kHz 音频进行约 3200 倍下采样。
训练过程分两阶段:先对声学标记器进行预训练,随后冻结标记器,再训练大语言模型(LLM)与扩散头。在 LibriSpeech 测试集的零样本评测中,VibeVoice-Realtime 取得 2.00% 的字错误率(WER)与 0.695 的说话者相似度,表现与近期 TTS 系统相当。
推荐的集成方式是让 VibeVoice-Realtime-0.5B 与对话式 LLM 协同运行,由 LLM 在生成过程中流式传输标记。该 TTS 流程提供固定 8k 上下文与约 10 分钟音频预算,适合典型的代理对话、客服呼叫与监控看板等场景。
huggingface:https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B
划重点:
🌟 VibeVoice-Realtime-0.5B 支持流式文本输入,约 300 毫秒即可起声,面向实时交互应用。
🛠️ 采用低延迟声学标记器,以 7.5 Hz 生成声学特征,对长时语音合成更友好。
📈 在 LibriSpeech 测试中零样本 WER 为 2.00%,表现不俗,适配多种使用场景。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?