xAI发布Grok Voice Agent API:每分钟0.05美元,音频推理榜单夺冠

xAI宣布上线Grok Voice Agent API,向开发者开放实时语音对话能力。该API基于Grok语音技术栈,已在移动端与数百万辆Tesla车辆中稳定服务,如今面向全球开发者全面开放。

极致性价比:每分钟仅0.05美元  

Grok Voice Agent API以领先的成本效率见长,采用简单、透明的计费——每分钟连接时长仅0.05美元。价格明显低于主流竞品,帮助开发者以最低开销打造高性能语音应用。

音频推理基准排名第一  

权威音频推理基准Big Bench Audio上,Grok Voice Agent API位列第一。平均首段语音响应不足1秒,比最接近的竞争对手快近5倍,实时响应与推理能力表现优异。

核心能力一览  

– 实时双向语音通信:支持音频流式输入/输出,双向实时通话,延迟低、对话自然。  

– 多语言支持:覆盖含中文在内的多语种(官方称超100种),具备接近母语的发音与口音、方言识别能力。  

– 自动语言识别与切换:无需额外配置,可自动检测用户语言并无缝切换;也可通过系统提示指定回复语言。  

– 外部工具调用:可挂接自定义工具,或接入xAI的实时搜索能力,覆盖全网与X平台数据。  

– 实时联网搜索与推理:对话中即可即时查找信息并完成复杂推理。  

– 情感提示控制语音:通过提示调节语音情绪和语气,让交流更自然。  

– 多种人声选择:内置多样化声音,包括Sal、Rex、Eve、Leo等经典角色,以及Mika、Valentin等陪伴型人格。  

– 兼容OpenAI Realtime API规范:可无缝迁移存量应用,并支持xAI LiveKit插件,集成更高效。

未来展望  

xAI表示,该API将持续迭代。在未来几周内将上线独立的文本到语音(TTS)与语音到文本(STT)端点,并推出更强的音频模型,进一步提升发音准确度与时延表现。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享