微软开源前沿语音 AI 套件 VibeVoice:一次生成 90 分钟多角色对话,GitHub 星标约 27K

微软近期发布并开源了名为VibeVoice的前沿语音 AI 模型家族,覆盖自动语音识别(ASR)与文本转语音(TTS)等多种能力。凭借对长音频的稳健处理、自然的多说话人交互以及低延迟实时表现,该项目迅速在开发者圈走红,目前在 GitHub 上已收获约 27K Star。

作为开源研究框架,VibeVoice 采用 MIT 许可,支持本地部署,无需额外云端订阅费用,旨在推进语音合成领域的协作与创新。该家族包含三大核心模型,分工明确,协同解决了传统语音 AI 在长序列处理、说话人一致性与自然流畅度方面的痛点。

image.png

VibeVoice-ASR-7B: 长达 60 分钟的结构化语音转文本利器

VibeVoice-ASR-7B 是一个统一式语音转文本模型,可一次性处理最长 60 分钟音频,并直接输出结构化转录。结果包含“谁在说话”(说话人分离)、“何时说话”(精确时间戳)以及“说了什么”(详细文本),同时支持自定义热词,能显著提升专有名词与技术术语的识别效果。该模型覆盖 50+ 种语言,适合会议纪要、播客转写等长音频场景。

社区已基于该模型开发了实用工具,例如名为Vibing的语音输入法,兼容 macOS 与 Windows。用户反馈其识别速度与准确率表现优秀,可明显提升日常语音输入效率。

VibeVoice-TTS-1.5B: 90 分钟多说话人、富有表现力的语音生成

VibeVoice-TTS-1.5B 聚焦文本转语音,单次即可生成长达 90 分钟的连续音频,并支持最多 4 位不同说话人进行自然对话模拟。生成语音富有表现力、听感自然,能还原真实的停顿、重读与情绪起伏,非常适合播客制作、长篇讲述、有声书或多角色对话内容。

相比许多传统 TTS 仅支持 1–2 位说话人,VibeVoice-TTS 在长时段与多说话人一致性方面实现了明显突破。其底层采用连续语音分词器(声学与语义分词器)并配合低帧率设计(7.5Hz),显著提升了长序列生成的计算效率。

VibeVoice-Realtime-0.5B: 约 300 毫秒延迟的实时 TTS

VibeVoice-Realtime-0.5B 面向实时应用,支持流式文本输入,首段音频输出延迟约 300 毫秒,同时还能生成约 10 分钟的长音频。非常适合需要即时响应的交互式场景,例如实时语音助手或直播配音。

此外,项目还提供实验性说话人能力,包含多语言语音与多种英语风格变体,为开发者带来更多定制空间。

编辑点评:VibeVoice 的开源不仅降低了高性能语音 AI 的使用门槛,也为本地部署提供了较为完整的方案。项目曾因潜在误用风险短暂停止更新,随后通过引入音频水印、可听化免责声明等安全机制重新上线,体现了负责任的研发思路。目前,开发者可在 GitHub 与 Hugging Face 获取模型权重,并通过 Colab 等平台快速体验。

随着社区不断贡献(如针对 Apple Silicon 的优化分支),VibeVoice 有望在内容创作、无障碍辅助、语音交互等方向加速落地。感兴趣的同学可访问微软官方项目页进一步了解。

项目地址:https://github.com/microsoft/VibeVoice

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享