语音转文字新标尺：ElevenLabs 居首，谷歌 Gemini 靠“全能”拿下第二-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

语音转文字新标尺：ElevenLabs 居首，谷歌 Gemini 靠“全能”拿下第二

拥抱AI，AIGC最佳实践者

538

Artificial Analysis 刚发布其语音转文字（Speech-to-Text）基准测试 2.0 版（AA-WER v2.0）。结果显示，ElevenLabs 与谷歌在音频转录赛道优势明显。

在关键的词错率（WER）指标上，ElevenLabs 的 Scribe v2 以 2.3% 的超低错误率登顶。紧随其后的是谷歌的 Gemini3Pro，错误率为 2.9%。值得一提的是，谷歌并未为转录做专项训练，Gemini 的这一表现主要得益于其强大的多模态通用能力。

其他主流模型表现如下:

Mistral Voxtral Small：以 3.0% 的错误率拿下第三。
谷歌 Gemini3Flash：表现稳定，错误率为 3.1%。
OpenAI Whisper Large v3：作为最受欢迎的开源模型，本次以 4.2% 的错误率处于中游。
垫底阵营：阿里巴巴的 Qwen3ASR Flash（5.9%）、亚马逊的 Nova2Omni（6.0%）以及 Rev AI（6.1%）排名靠后。

在专门面向语音助手指令的 AA-AgentTalk 测试中，格局基本不变。ElevenLabs Scribe v2 和 Google Gemini3Pro 分别以 1.6% 与 1.7% 的错误率遥遥领先，在处理短促、直接的语音交互时展现出极高的可靠性。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐