Artificial Analysis 刚发布其语音转文字(Speech-to-Text)基准测试 2.0 版(AA-WER v2.0)。结果显示,ElevenLabs 与谷歌在音频转录赛道优势明显。

在关键的词错率(WER)指标上,ElevenLabs 的 Scribe v2 以 2.3% 的超低错误率登顶。紧随其后的是 谷歌 的 Gemini3Pro,错误率为 2.9%。值得一提的是,谷歌并未为转录做专项训练,Gemini 的这一表现主要得益于其强大的多模态通用能力。
其他主流模型表现如下:
-
Mistral Voxtral Small:以 3.0% 的错误率拿下第三。
-
谷歌 Gemini3Flash:表现稳定,错误率为 3.1%。
-
OpenAI Whisper Large v3:作为最受欢迎的开源模型,本次以 4.2% 的错误率处于中游。
-
垫底阵营:阿里巴巴的 Qwen3ASR Flash(5.9%)、亚马逊的 Nova2Omni(6.0%)以及 Rev AI(6.1%)排名靠后。

在专门面向语音助手指令的 AA-AgentTalk 测试中,格局基本不变。ElevenLabs Scribe v2 和 Google Gemini3Pro 分别以 1.6% 与 1.7% 的错误率遥遥领先,在处理短促、直接的语音交互时展现出极高的可靠性。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END


















用户38505528 6个月前0
粘贴不了啊用户12648782 7个月前0
用法杂不对呢?yfarer 7个月前0
草稿id无法下载,是什么问题?