英伟达推出 PersonaPlex-7B-v1:把实时语音交流带入真全双工时代

英伟达研究团队近期发布了 PersonaPlex-7B-v1——一款支持全双工的语音到语音对话模型。它告别传统 AI 语音助手“你说完我再回应”的单线流程,力求带来更贴近真人的自然交流体验。

image.png

不同于过去需要把 ASR(语音转文本)、LLM(大语言模型)、TTS(文本转语音)层层串联的管线式方案,PersonaPlex采用单一的 Transformer 架构,端到端完成语音理解与生成。AIbase 了解到,这种“端到端”设计显著降低响应延迟,同时让系统可以自然处理打断、重叠说话以及即时反馈。通俗说,就是像人聊天那样:AI一边说话一边听,用户随时插话也能迅速接上。

此外,这款模型在个性化方面也很亮眼。通过“语音+文本”双提示,用户既能设定 AI 的角色与背景,还能细致调控音色与语调。AIbase 获悉,英伟达在训练中融合了大量真实通话数据与合成场景,让模型既说话自然,又能遵循行业规范。当前评测显示,PersonaPlex-7B-v1在对话顺畅度和任务完成率上,表现优于众多开源与闭源系统。

研究:https://research.nvidia.com/labs/adlr/personaplex/

划重点:

  • 🎙️ 全双工交互: PersonaPlex-7B-v1可实时处理语音流,支持在 AI 说话时用户随时插话或重叠发言,响应迅速。

  • 🧠 单模型架构: 不再依赖繁琐的管线拼接,采用单一Transformer结构,同步预测文本与语音标记,让对话更自然顺滑。

  • 🎭 深度个性化: 支持最多 200 token 的系统提示词与专用语音嵌入,可灵活定制 AI 的角色人格、领域知识与情感音色。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享