英伟达推出 PersonaPlex-7B-v1:把实时语音互动带入“全双工”新纪元

英伟达研究团队近日发布了一款名为 PersonaPlex-7B-v1 的全双工语音对语音对话模型。这一模型打破传统 AI 语音助手“你说完我再答”的单线程模式,目标是带来更贴近真人的自然交流体验。

image.png

不同于以往要把 ASR(语音转文本)、LLM(大语言模型)和 TTS(文本转语音)串起来的流水线方案,PersonaPlex采用单一的 Transformer 架构,直接端到端完成听懂与开口的全流程。这样的设计显著缩短响应时间,并让 AI 能自然处理打断、重叠说话和即时回馈。换句话说,像真人聊天一样,它边说边听,用户突然插话也能立刻跟上。

在个性化方面也很灵活。通过“语音 + 文本”的双引导,用户既可设定 AI 的角色背景,又能细致调节音色与语调。据介绍,英伟达在训练时融合了大量真实通话与合成场景,让模型既说得自然,又能严格遵守行业业务规则。评测显示,PersonaPlex-7B-v1在对话顺畅度与任务完成率上,均领先于多数开源与闭源方案。

研究:https://research.nvidia.com/labs/adlr/personaplex/

划重点:

  • 🎙️ 全双工交互: PersonaPlex-7B-v1支持实时语音流处理,用户可在 AI 讲话期间随时插话或出现语音重叠,响应速度极快。

  • 🧠 单模型架构: 不再依赖繁琐的管线,采用单一Transformer结构,同步预测文本与语音标记,从底层提升对话自然度。

  • 🎭 深度个性化: 系统提示词可达 200 token,并支持专属语音嵌入,可灵活定制 AI 的角色性格、业务知识与情感音色。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享