研究团队发布LPM1.0：一张图即可生成实时互动数字人视频-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近日，研究团队发布了LPM1.0。这一项目旨在用一张参考图像，就能实时生成包含说话、聆听和唱歌等行为的人物视频。LPM1.0的关键在于多模态处理能力，可同时融合文本、音频和图像输入，生成唇形准确、表情细腻、情绪过渡自然的动态画面。该模型还能直接接入ChatGPT、豆包等主流语音AI，把传统语音对话升级为带视觉反馈的实时互动。

在技术层面，LPM1.0引入了“多粒度身份条件化”，从多角度、多表情的参考素材中抽取细节，无需模型去生成牙齿、皱纹或侧脸轮廓等复杂特征，大幅提升了跨风格的适配能力。无论是写实人脸、动漫角色还是3D游戏人物，都能在不做二次训练的情况下即时驱动。此外，模型支持流式传输，生成时长达45分钟的视频仍能保持稳定。

在交互逻辑上，LPM1.0可准确识别三种对话状态：聆听时会生成点头或目光偏移等反馈表情；说话时由音频驱动唇动与肢体动作；停顿时则根据文本指令产生自然的闲暇行为。项目经理曾爱玲表示，LPM1.0不仅适用于实时交流，也支持用离线音频驱动视频，为播客和影视制作提供了备用方案。

尽管展现出较强的应用潜力，研发团队强调LPM1.0目前仍是研究项目，暂不开放代码或权重。研究人员坦言，生成视频与真实画面仍有明显差距，且技术本身存在的深度伪造风险不容忽视。这项研究的意义在于指明了AI的演进方向：从单一逻辑交互，迈向具备情感回应、眼神交流与视觉具身化的全维互动形态。