谷歌在Gemini 3.1系列中上线全新文本转语音模型Gemini-TTS。官方给出的定位相当直接:这是目前最具表现力的文字转语音方案。
这次的关键亮点,是把说话方式的“主动权”交到开发者手里。传统TTS常常声音相似、语气平、节奏生硬、情绪不够。Gemini-TTS支持用提示词控制情感、节奏和风格——比如旁白可更低沉稳重,对话更轻松自然;停顿放在哪、情绪如何起伏,都能用简单描述来细致调节。整体听感更自然、更有层次。

在多语言方面,Gemini-TTS可覆盖约70种语言,包括中文普通话、英语、西班牙语、日语等主流语种。更省心的是,模型能自动识别输入文字的语言,无需手动标注,就能直接输出对应语音。对于面向全球用户的企业来说,一套API即可搞定多语种语音化需求,有声读物、播客、客服机器人、教育应用等场景都能直接受益。
谷歌还强调了Gemini-TTS与同系列音频模型的协同。在实时对话、语音翻译和多模态交互中,系统在保证低延迟的同时,可通过文本提示与音频标记进行精细控制,让AI在电话、会议、导航等实际场景听起来更像真人交流。
语音,正在成为AI的下一个主战场。这一次谷歌的动作,来势汹汹。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END


















用户38505528 7个月前0
粘贴不了啊用户12648782 8个月前0
用法杂不对呢?yfarer 8个月前0
草稿id无法下载,是什么问题?