AI 外呼告别“盲打自乐”!声网携手美团发布 VoiceAgentEval:首个场景评测基准助 AI 更懂“人情味”

长期以来,AI 外呼领域缺少一把公认的“标尺”。就在今天,声网携手美团及 xbench,正式推出面向 AI 外呼场景的智能体评测基准——VoiceAgentEval,目标是补齐行业空白,推动 AI 模型更快贴近真实业务场景。

不靠实验室数据,用真实业务“真刀真枪”。

VoiceAgentEval 的最鲜明亮点在于其“实战性”:

覆盖广泛:面向6大业务领域、30个细分场景,尽量还原真实市场诉求。

语料真实:以真实外呼业务数据为基础构建,摒弃生硬的固定脚本。

双维度评测:不仅检验文本生成的逻辑与正确性,还加入语音层面的评估,全面考察 AI 在对话中的整体表现。

150种对话模拟,AI 演练更顺滑。

为评估模型的任务遵循度与通用交互能力,框架借助用户模拟器搭建了150种虚拟对话场景。就像给 AI 安排多场“模拟考”,观察其在不同用户反馈下能否始终稳步推进业务流程。

谁是目前的 AI 外呼“优等生”?

据悉,基于该评测标准的初步筛查,已经锁定了在 AI 外呼场景中综合表现排名前三的模型。此结果不仅为行业树立技术标杆,也为相关企业(如北京三快科技有限公司等)后续部署 AI 业务提供了权威参考。

VoiceAgentEval 的发布,意味着 AI 外呼行业从“拼参数”正式走向“拼实效”。在统一评测的牵引下,未来的 AI 外呼将更智能、更高效,也更具人性化关怀。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享