微软开源前沿语音 AI 套件 VibeVoice：一次生成 90 分钟多角色对话，GitHub 星标约 27K-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

微软近期发布并开源了名为VibeVoice的前沿语音 AI 模型家族，覆盖自动语音识别（ASR）与文本转语音（TTS）等多种能力。凭借对长音频的稳健处理、自然的多说话人交互以及低延迟实时表现，该项目迅速在开发者圈走红，目前在 GitHub 上已收获约 27K Star。

作为开源研究框架，VibeVoice 采用 MIT 许可，支持本地部署，无需额外云端订阅费用，旨在推进语音合成领域的协作与创新。该家族包含三大核心模型，分工明确，协同解决了传统语音 AI 在长序列处理、说话人一致性与自然流畅度方面的痛点。

VibeVoice-ASR-7B: 长达 60 分钟的结构化语音转文本利器

VibeVoice-ASR-7B 是一个统一式语音转文本模型，可一次性处理最长 60 分钟音频，并直接输出结构化转录。结果包含“谁在说话”（说话人分离）、“何时说话”（精确时间戳）以及“说了什么”（详细文本），同时支持自定义热词，能显著提升专有名词与技术术语的识别效果。该模型覆盖 50+ 种语言，适合会议纪要、播客转写等长音频场景。

社区已基于该模型开发了实用工具，例如名为Vibing的语音输入法，兼容 macOS 与 Windows。用户反馈其识别速度与准确率表现优秀，可明显提升日常语音输入效率。

VibeVoice-TTS-1.5B: 90 分钟多说话人、富有表现力的语音生成

VibeVoice-TTS-1.5B 聚焦文本转语音，单次即可生成长达 90 分钟的连续音频，并支持最多 4 位不同说话人进行自然对话模拟。生成语音富有表现力、听感自然，能还原真实的停顿、重读与情绪起伏，非常适合播客制作、长篇讲述、有声书或多角色对话内容。

相比许多传统 TTS 仅支持 1–2 位说话人，VibeVoice-TTS 在长时段与多说话人一致性方面实现了明显突破。其底层采用连续语音分词器（声学与语义分词器）并配合低帧率设计（7.5Hz），显著提升了长序列生成的计算效率。

VibeVoice-Realtime-0.5B: 约 300 毫秒延迟的实时 TTS

VibeVoice-Realtime-0.5B 面向实时应用，支持流式文本输入，首段音频输出延迟约 300 毫秒，同时还能生成约 10 分钟的长音频。非常适合需要即时响应的交互式场景，例如实时语音助手或直播配音。

此外，项目还提供实验性说话人能力，包含多语言语音与多种英语风格变体，为开发者带来更多定制空间。

编辑点评：VibeVoice 的开源不仅降低了高性能语音 AI 的使用门槛，也为本地部署提供了较为完整的方案。项目曾因潜在误用风险短暂停止更新，随后通过引入音频水印、可听化免责声明等安全机制重新上线，体现了负责任的研发思路。目前，开发者可在 GitHub 与 Hugging Face 获取模型权重，并通过 Colab 等平台快速体验。

随着社区不断贡献（如针对 Apple Silicon 的优化分支），VibeVoice 有望在内容创作、无障碍辅助、语音交互等方向加速落地。感兴趣的同学可访问微软官方项目页进一步了解。

项目地址：https://github.com/microsoft/VibeVoice