Gemini TTS 2.5发布:Google上线情绪语音,24语种与多角色一键切换

Google推出Gemini 2.5 Flash与Pro两款文本转语音预览模型,将替代今年5月的旧版系统。新模型主打“情绪级”表达、根据上下文自适应的节奏,以及覆盖24种语言的多角色对话。开发者可在Google AI Studio与Playground免费试用,预计2025年Q1进入生产环境。

image.png

情绪表达进阶:从“开朗明快”到“冷峻庄重”一键切换  

– 风格响应:根据“开朗”“沉郁”等提示,实时调整音色与语速  

– 场景:有声书、游戏NPC、课件本地化,显著减弱传统TTS的机械感  

– 体验:Synergy Intro应用可实时切换多风格,成品接近专业配音

节奏自适应:按上下文调快慢,叙事更有张力  

– 机制:复杂讲解会放慢,激动段落会加速,支持“慢条斯理悬疑→急促惊险”的动态变化  

– 示例:悬疑小说朗读可随剧情逐步加速,转折处一声“咔嗒”带来张力释放  

– 适用:产品教程、营销视频,告别单调朗读

多角色与24语种:跨语种一致性,角色不混淆  

– 功能:锁定多位说话者身份,对话切换自然顺畅  

– 语言:覆盖英、法、德、日、印地语等24种,尽量保留原音色与风格  

– 演示:Voices from History应用呈现英+多语混用的历史对话,角色个性稳定

行业反馈:订阅率+20%,成本-20%  

– 音频平台:集成多说话者模式后更受欢迎,订阅率+20%,首月流失率-20%,运营成本-20%  

– 内容工作室:英/印地语漫画配音角色一致性更强,沉浸感显著提升  

– 平台计划:2025年Q1将同时提供低延迟Flash版与高质量Pro版,满足实时与精品双需求

下一步:低延迟Flash与精品Pro双线推进  

Google表示,2025年Q1将同步优化低延迟Flash版(<300ms首包)与高质量Pro版(48kHz采样),并开放边缘节点部署,面向播客、互动游戏、虚拟主播等实时场景。后续将持续关注其边缘部署与付费模式更新。

官网地址:https://x.com/GoogleAIStudio/status/1998876411734692107

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享