高效轻量:IBM 推出 Granite 4.0 1B Speech 多模态语音模型

IBM 近日发布 Granite 4.0 1B Speech,这是一款为边缘端与企业部署打造的紧凑型语音语言模型,主打高效的多语种自动语音识别(ASR)与双向自动语音翻译(AST)。

image.png

与上一代相比,Granite 4.0 1B Speech 的参数量缩至约一半,但性能反而明显提升。新版本不仅新增日语 ASR 支持,还带来关键词偏置能力,并显著改进英文转录的准确率。其核心目标是在不削弱关键能力的前提下,大幅降低内存占用、推理延迟与算力成本。

该模型采用“两阶段”架构:先将音频转为文本,再交由专用的 Granite 语言模型完成推理。模块化设计便于开发者按需灵活编排流程。目前已支持英语、法语、德语、西班牙语、葡萄牙语和日语等多语种互译,并可处理英语到中文(普通话)的翻译。

在实际评测中,Granite 4.0 1B Speech 表现优异,位居 OpenASR 榜首,平均字错率(WER)仅 5.52。当前 IBM 已按 Apache 2.0 协议将模型开源,开发者可通过 Transformers 或 vLLM 等主流框架本地部署,为资源有限的移动端或边缘设备提供强劲的 AI 语音支持。

项目:https://huggingface.co/ibm-granite/granite-4.0-1b-speech

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享