xAI推出Grok Voice Agent API:每分钟0.05美元,音频推理榜单夺魁

xAI宣布上线Grok Voice Agent API,向开发者开放实时语音互动能力。该API基于Grok语音技术栈打造,已在移动应用与数百万台Tesla车辆中稳定服务,如今面向全球开发者全面开放。

极致性价比:连接每分钟仅0.05美元  

Grok Voice Agent API在成本上优势明显,采用简单透明的计费方式——按连接时长每分钟0.05美元。此价格相较主流产品更具竞争力,帮助开发者以最低开销搭建高性能语音应用。

音频推理榜单位列第一  

权威的Big Bench Audio音频推理评测中,Grok Voice Agent API登顶。其平均首段音频响应不足1秒,较最接近的竞争对手快近5倍,展现出卓越的实时响应与推理实力。

核心能力速览  

– 实时双向语音通话: 支持流式音频收发,带来低延迟、自然的对话体验。  

– 多语言支持: 覆盖包含中文在内的数十种语言(官方称超100种),具备接近母语的发音,并能捕捉口音与方言。  

– 自动识别与切换语言: 无需配置,可自动检测用户语言并无感切换;开发者也可通过系统提示指定回复语言。  

– 外部工具调用: 轻松集成自定义工具,或接入xAI的实时搜索能力,覆盖网络与X平台数据。  

– 即时联网检索与推理: 在对话过程中实时查询信息并完成复杂推理。  

– 情感提示调控声音: 通过提示词调节语音情感表达,增强交互自然度。  

– 多样人声可选: 提供Sal、Rex、Eve、Leo等经典声音,以及Mika、Valentin等伴侣型人格。  

– 兼容OpenAI Realtime API: 无缝迁移现有应用,并支持xAI LiveKit插件,便于快速集成。

后续规划  

xAI表示,该API将持续更新。未来数周将推出独立的文本转语音(TTS)与语音转文本(STT)端点,并带来进一步优化的音频模型,提升发音准确性与时延表现。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享