告别生硬表达：Gemini 3.5 实时语音翻译模型正式上线-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

跨语言交流正在迎来一次新的技术升级。近日，谷歌推出了全新的音频模型 Gemini3.5Live Translate，目标是借助先进的实时语音到语音（Speech-to-Speech）技术，进一步打破语言沟通中的地域与文化阻碍。目前，这一模型已经接入 Google AI Studio、Google 翻译和 Google Meet 等核心产品体系。

Gemini3.5Live Translate 的关键亮点，在于它对“自然表达”的持续优化。不同于传统翻译工具那种“说一句、译一句”的轮换式体验，这款模型能够带来接近实时同传的效果。在持续输出译文的过程中，它还能较为准确地保留说话人的原本语气、节奏以及音调。通过合理平衡“等待更多上下文来提高准确度”与“快速输出以保证同步”之间的关系，Gemini3.5将交流延迟控制在几秒内，明显减少了对话中的停顿和卡顿感。

在实际应用方面，谷歌也为该模型提供了很强的适配能力。它支持70多种语言的自动识别和互相翻译，不需要用户手动做复杂的语言设置。即使处在嘈杂或声音环境复杂的场景中，这一模型依旧能保持稳定发挥。对于开发者来说，谷歌开放了 Gemini Live API，方便将实时语音翻译能力接入多语种通话、在线教学以及直播解说等不同场景。目前，出行平台 Grab 已经率先投入试用，并在每月千万级别的司乘实时沟通场景中，验证了该模型在翻译效果和低延迟方面的优秀表现。

面向企业协作场景，Gemini3.5Live Translate 也将进一步升级 Google Meet 的翻译体验。接下来，会议可支持的语言对将从原本有限的几种，扩展到2000多种，彻底摆脱“只围绕英语展开”的单一方式。另外，针对移动端用户，谷歌翻译应用除了支持耳机实时翻译外，还新增了“听筒聆听模式”，让用户在不方便佩戴耳机的公共环境下，也可以通过手机听筒更低调、更私密地收听译文。

在提升技术效率的同时，谷歌同样重视安全与合规问题。所有由 Gemini 系列模型生成的音频内容，都加入了 SynthID 数字水印，可以用用户几乎无感知的方式标记其 AI 生成属性，从而更好降低误导信息传播和被滥用的风险。随着 Gemini3.5Live Translate 的持续落地，打破语言障碍的实时沟通，正从过去的想象逐渐变成可感可用的现实。