火山引擎上线豆包语音识别2.0，多语种与视觉理解双提升-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

火山引擎上线豆包语音识别2.0，多语种与视觉理解双提升

拥抱AI，AIGC最佳实践者

725

火山引擎今日宣布上线豆包语音识别模型2.0（Doubao-Seed-ASR-2.0）。这一代产品在推理能力上大幅增强，同时兼顾多语种与视觉信息的精准识别，标志着语音识别技术又迈出一大步。

据介绍，豆包语音识别模型2.0在延续上一代20亿参数高性能音频编码器优势的同时，重点打磨复杂场景表现。围绕专有名词、人名、地名以及容易混淆的多音字等难点进行深度优化，力求在各类应用中取得更高准确率。推理方面引入先进的PPO策略，无需依赖目标词的历史记录，凭借更强的上下文理解即可实现精准识别。

值得注意的是，豆包语音识别模型2.0具备多模态理解能力，能够同时处理文本与图像信息。这意味着，当用户发送图片后，模型会结合画面内容进行语音识别，从而更准确地把握用户意图。比如，当用户描述一张包含滑板的图片时，传统模型可能会把“滑鸡”误识别为“滑稽”；而豆包可通过解析图像判断用户说的确是“滑鸡”，有效降低识别偏差。

此外，豆包语音识别模型2.0已支持日语、韩语、德语、法语等在内的13种海外语言的精准识别。多语种能力将进一步拓展跨语言应用场景，带来更好的全球化交互体验。

火山引擎表示，豆包语音识别模型2.0已在火山方舟体验中心上线，并同步对外开放API服务，方便企业与开发者便捷接入。未来将持续推进模型迭代，在多模态、多场景下进一步提升语音转文字的精准度，为用户提供高效解决方案。

此次发布展示了火山引擎在人工智能领域的持续创新与技术实力，预计将对行业标准与用户体验产生积极影响。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐