冲击英伟达霸主地位:Cohere 推出开源轻量语音模型 Transcribe

在企业级 AI 领域频频出手的 Cohere,于 2026 年 3 月 26 日正式发布了名为Cohere Transcribe的开源语音识别模型。

该模型拥有 20 亿参数,专为边缘端打造,旨在破解传统语音模型体积过大带来的时延问题。它以 Apache 2.0 许可开源,Cohere 希望借鉴 Meta 的思路,凝聚开发者社区的力量快速完善生态,并通过生态反哺推动商业化。

边缘侧的性能猛将:覆盖 14 种语言并领先主流竞品

Cohere Transcribe训练覆盖包括中文、日语、法语、希伯来语在内的 14 种语言。依据 Hugging Face 开放 ASR 排行榜的最新数据,该模型在多项指标上已超越 ElevenLabs Scribe 和阿里系 Qwen3 等同类产品。

得益于更轻量的参数规模,它可直接部署在手机、PC 或工业网关等终端,无需频繁依赖云端算力,既显著降低数据传输延迟,也为银行、销售、医疗等对隐私要求严苛的行业提供了更安全的选择。

从文本迈向语音的战略延伸:重塑智能体交互的基石

尽管 Cohere 长期深耕文本生成,但此次切入语音识别被视为其打造通用 AI 智能体(Agent)的关键一步。公司透露,Cohere Transcribe将很快接入其 AI 智能体编排平台 North。

业内分析认为,随着 Siri 式语音交互成为 AI 浪潮的入口,语音能力已成为智能体感知世界的关键“耳朵”。通过“小而强”的开源策略,Cohere 正在边缘计算与实时语音翻译市场,正面对标 IBM、阿里巴巴以及推出 AI Companion 3.0 的 Zoom。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享