告别生硬表达:Gemini 3.5 实时语音翻译模型正式上线

跨语言交流正在迎来一次新的技术升级。近日,谷歌推出了全新的音频模型 Gemini3.5Live Translate,目标是借助先进的实时语音到语音(Speech-to-Speech)技术,进一步打破语言沟通中的地域与文化阻碍。目前,这一模型已经接入 Google AI Studio、Google 翻译和 Google Meet 等核心产品体系。

Gemini3.5Live Translate 的关键亮点,在于它对“自然表达”的持续优化。不同于传统翻译工具那种“说一句、译一句”的轮换式体验,这款模型能够带来接近实时同传的效果。在持续输出译文的过程中,它还能较为准确地保留说话人的原本语气、节奏以及音调。通过合理平衡“等待更多上下文来提高准确度”与“快速输出以保证同步”之间的关系,Gemini3.5将交流延迟控制在几秒内,明显减少了对话中的停顿和卡顿感。

image.png

在实际应用方面,谷歌也为该模型提供了很强的适配能力。它支持70多种语言的自动识别和互相翻译,不需要用户手动做复杂的语言设置。即使处在嘈杂或声音环境复杂的场景中,这一模型依旧能保持稳定发挥。对于开发者来说,谷歌开放了 Gemini Live API,方便将实时语音翻译能力接入多语种通话、在线教学以及直播解说等不同场景。目前,出行平台 Grab 已经率先投入试用,并在每月千万级别的司乘实时沟通场景中,验证了该模型在翻译效果和低延迟方面的优秀表现。

面向企业协作场景,Gemini3.5Live Translate 也将进一步升级 Google Meet 的翻译体验。接下来,会议可支持的语言对将从原本有限的几种,扩展到2000多种,彻底摆脱“只围绕英语展开”的单一方式。另外,针对移动端用户,谷歌翻译应用除了支持耳机实时翻译外,还新增了“听筒聆听模式”,让用户在不方便佩戴耳机的公共环境下,也可以通过手机听筒更低调、更私密地收听译文。

在提升技术效率的同时,谷歌同样重视安全与合规问题。所有由 Gemini 系列模型生成的音频内容,都加入了 SynthID 数字水印,可以用用户几乎无感知的方式标记其 AI 生成属性,从而更好降低误导信息传播和被滥用的风险。随着 Gemini3.5Live Translate 的持续落地,打破语言障碍的实时沟通,正从过去的想象逐渐变成可感可用的现实。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享