xAI宣布上线Grok Voice Agent API,向开发者开放实时语音互动能力。该API基于Grok语音技术栈打造,已在移动应用与数百万台Tesla车辆中稳定服务,如今面向全球开发者全面开放。
极致性价比:连接每分钟仅0.05美元
Grok Voice Agent API在成本上优势明显,采用简单透明的计费方式——按连接时长每分钟0.05美元。此价格相较主流产品更具竞争力,帮助开发者以最低开销搭建高性能语音应用。
音频推理榜单位列第一
在权威的Big Bench Audio音频推理评测中,Grok Voice Agent API登顶。其平均首段音频响应不足1秒,较最接近的竞争对手快近5倍,展现出卓越的实时响应与推理实力。
核心能力速览
– 实时双向语音通话: 支持流式音频收发,带来低延迟、自然的对话体验。
– 多语言支持: 覆盖包含中文在内的数十种语言(官方称超100种),具备接近母语的发音,并能捕捉口音与方言。
– 自动识别与切换语言: 无需配置,可自动检测用户语言并无感切换;开发者也可通过系统提示指定回复语言。
– 外部工具调用: 轻松集成自定义工具,或接入xAI的实时搜索能力,覆盖网络与X平台数据。
– 即时联网检索与推理: 在对话过程中实时查询信息并完成复杂推理。
– 情感提示调控声音: 通过提示词调节语音情感表达,增强交互自然度。
– 多样人声可选: 提供Sal、Rex、Eve、Leo等经典声音,以及Mika、Valentin等伴侣型人格。
– 兼容OpenAI Realtime API: 无缝迁移现有应用,并支持xAI LiveKit插件,便于快速集成。
后续规划
xAI表示,该API将持续更新。未来数周将推出独立的文本转语音(TTS)与语音转文本(STT)端点,并带来进一步优化的音频模型,提升发音准确性与时延表现。

















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?