IBM 近日发布 Granite 4.0 1B Speech,这是一款为边缘端与企业部署打造的紧凑型语音语言模型,主打高效的多语种自动语音识别(ASR)与双向自动语音翻译(AST)。

与上一代相比,Granite 4.0 1B Speech 的参数量缩至约一半,但性能反而明显提升。新版本不仅新增日语 ASR 支持,还带来关键词偏置能力,并显著改进英文转录的准确率。其核心目标是在不削弱关键能力的前提下,大幅降低内存占用、推理延迟与算力成本。
该模型采用“两阶段”架构:先将音频转为文本,再交由专用的 Granite 语言模型完成推理。模块化设计便于开发者按需灵活编排流程。目前已支持英语、法语、德语、西班牙语、葡萄牙语和日语等多语种互译,并可处理英语到中文(普通话)的翻译。
在实际评测中,Granite 4.0 1B Speech 表现优异,位居 OpenASR 榜首,平均字错率(WER)仅 5.52。当前 IBM 已按 Apache 2.0 协议将模型开源,开发者可通过 Transformers 或 vLLM 等主流框架本地部署,为资源有限的移动端或边缘设备提供强劲的 AI 语音支持。
项目:https://huggingface.co/ibm-granite/granite-4.0-1b-speech
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END


















用户38505528 6个月前0
粘贴不了啊用户12648782 7个月前0
用法杂不对呢?yfarer 7个月前0
草稿id无法下载,是什么问题?