Google推出Gemini 2.5 Flash与Pro两款文本转语音预览模型,将替代今年5月的旧版系统。新模型主打“情绪级”表达、根据上下文自适应的节奏,以及覆盖24种语言的多角色对话。开发者可在Google AI Studio与Playground免费试用,预计2025年Q1进入生产环境。

情绪表达进阶:从“开朗明快”到“冷峻庄重”一键切换
– 风格响应:根据“开朗”“沉郁”等提示,实时调整音色与语速
– 场景:有声书、游戏NPC、课件本地化,显著减弱传统TTS的机械感
– 体验:Synergy Intro应用可实时切换多风格,成品接近专业配音
节奏自适应:按上下文调快慢,叙事更有张力
– 机制:复杂讲解会放慢,激动段落会加速,支持“慢条斯理悬疑→急促惊险”的动态变化
– 示例:悬疑小说朗读可随剧情逐步加速,转折处一声“咔嗒”带来张力释放
– 适用:产品教程、营销视频,告别单调朗读
多角色与24语种:跨语种一致性,角色不混淆
– 功能:锁定多位说话者身份,对话切换自然顺畅
– 语言:覆盖英、法、德、日、印地语等24种,尽量保留原音色与风格
– 演示:Voices from History应用呈现英+多语混用的历史对话,角色个性稳定
行业反馈:订阅率+20%,成本-20%
– 音频平台:集成多说话者模式后更受欢迎,订阅率+20%,首月流失率-20%,运营成本-20%
– 内容工作室:英/印地语漫画配音角色一致性更强,沉浸感显著提升
– 平台计划:2025年Q1将同时提供低延迟Flash版与高质量Pro版,满足实时与精品双需求
下一步:低延迟Flash与精品Pro双线推进
Google表示,2025年Q1将同步优化低延迟Flash版(<300ms首包)与高质量Pro版(48kHz采样),并开放边缘节点部署,面向播客、互动游戏、虚拟主播等实时场景。后续将持续关注其边缘部署与付费模式更新。
官网地址:https://x.com/GoogleAIStudio/status/1998876411734692107


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?