微软推出 VibeVoice 0.5B：0.5B 参数实现约 300 毫秒快速起声-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

微软今日推出全新的实时文本转语音模型 VibeVoice-Realtime-0.5B。虽然参数规模仅 0.5B，但它具备近乎实时的语音生成能力，最快约 300 毫秒即可开口，实现“话还没说完、声音已先到”的顺滑体验。模型支持中英文的实时转录与语音合成，中文表现略弱于英文，但整体依旧保持高流畅度与高还原度。

在自然音质方面，VibeVoice-Realtime-0.5B 的表现引人关注。官方示例显示，其生成的语音连贯、自然，可持续朗读长文本，最长可稳定输出约 90 分钟，不会出现明显的断续或风格漂移。与此同时，模型支持多角色语音场景，在单次会话中最多呈现 4 位角色的自然对话，并能在长时间交流中保持各自独特的语气、节奏与音色，适用于播客、访谈与虚拟主持等场景。

在情感表达方面，模型会根据文本语义自动生成匹配的情绪语调，包括愤怒、歉意、激动等细微变化，让语音更贴近真人表达。同时，VibeVoice-Realtime-0.5B 具有稳定的上下文记忆能力，长段发言中能够保持语调、逻辑与速度的一致，使整体呈现更真实、更耐听。

相比传统大型语音模型，VibeVoice-Realtime-0.5B 的小体积和低延迟优势尤为突出。其轻量化设计适合直接嵌入到各类应用与设备，为智能助手、对话系统、智能硬件带来更贴近真人的即时语音交互体验。微软表示，随着 VibeVoice 的开放，未来将有更多应用场景具备“开口即说”的 AI 语音能力。

地址：https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B