谷歌推出迄今最强TTS,覆盖近70种语言

谷歌在Gemini 3.1系列中上线全新文本转语音模型Gemini-TTS。官方给出的定位相当直接:这是目前最具表现力的文字转语音方案。

这次的关键亮点,是把说话方式的“主动权”交到开发者手里。传统TTS常常声音相似、语气平、节奏生硬、情绪不够。Gemini-TTS支持用提示词控制情感、节奏和风格——比如旁白可更低沉稳重,对话更轻松自然;停顿放在哪、情绪如何起伏,都能用简单描述来细致调节。整体听感更自然、更有层次。

image.png

在多语言方面,Gemini-TTS可覆盖约70种语言,包括中文普通话、英语、西班牙语、日语等主流语种。更省心的是,模型能自动识别输入文字的语言,无需手动标注,就能直接输出对应语音。对于面向全球用户的企业来说,一套API即可搞定多语种语音化需求,有声读物、播客、客服机器人、教育应用等场景都能直接受益。

谷歌还强调了Gemini-TTS与同系列音频模型的协同。在实时对话、语音翻译和多模态交互中,系统在保证低延迟的同时,可通过文本提示与音频标记进行精细控制,让AI在电话、会议、导航等实际场景听起来更像真人交流。

语音,正在成为AI的下一个主战场。这一次谷歌的动作,来势汹汹。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享