火山引擎上线豆包语音识别2.0,多语种与视觉理解双提升

火山引擎今日宣布上线豆包语音识别模型2.0(Doubao-Seed-ASR-2.0)。这一代产品在推理能力上大幅增强,同时兼顾多语种与视觉信息的精准识别,标志着语音识别技术又迈出一大步。

据介绍,豆包语音识别模型2.0在延续上一代20亿参数高性能音频编码器优势的同时,重点打磨复杂场景表现。围绕专有名词、人名、地名以及容易混淆的多音字等难点进行深度优化,力求在各类应用中取得更高准确率。推理方面引入先进的PPO策略,无需依赖目标词的历史记录,凭借更强的上下文理解即可实现精准识别。

QQ20251205-153045.png

值得注意的是,豆包语音识别模型2.0具备多模态理解能力,能够同时处理文本与图像信息。这意味着,当用户发送图片后,模型会结合画面内容进行语音识别,从而更准确地把握用户意图。比如,当用户描述一张包含滑板的图片时,传统模型可能会把“滑鸡”误识别为“滑稽”;而豆包可通过解析图像判断用户说的确是“滑鸡”,有效降低识别偏差。

QQ20251205-155646.png

此外,豆包语音识别模型2.0已支持日语、韩语、德语、法语等在内的13种海外语言的精准识别。多语种能力将进一步拓展跨语言应用场景,带来更好的全球化交互体验。

QQ20251205-153101.png

火山引擎表示,豆包语音识别模型2.0已在火山方舟体验中心上线,并同步对外开放API服务,方便企业与开发者便捷接入。未来将持续推进模型迭代,在多模态、多场景下进一步提升语音转文字的精准度,为用户提供高效解决方案。

此次发布展示了火山引擎在人工智能领域的持续创新与技术实力,预计将对行业标准与用户体验产生积极影响。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享