研究团队发布LPM1.0:一张图即可生成实时互动数字人视频

近日,研究团队发布了LPM1.0。这一项目旨在用一张参考图像,就能实时生成包含说话、聆听和唱歌等行为的人物视频。LPM1.0的关键在于多模态处理能力,可同时融合文本、音频和图像输入,生成唇形准确、表情细腻、情绪过渡自然的动态画面。该模型还能直接接入ChatGPT、豆包等主流语音AI,把传统语音对话升级为带视觉反馈的实时互动。

在技术层面,LPM1.0引入了“多粒度身份条件化”,从多角度、多表情的参考素材中抽取细节,无需模型去生成牙齿、皱纹或侧脸轮廓等复杂特征,大幅提升了跨风格的适配能力。无论是写实人脸、动漫角色还是3D游戏人物,都能在不做二次训练的情况下即时驱动。此外,模型支持流式传输,生成时长达45分钟的视频仍能保持稳定。

在交互逻辑上,LPM1.0可准确识别三种对话状态:聆听时会生成点头或目光偏移等反馈表情;说话时由音频驱动唇动与肢体动作;停顿时则根据文本指令产生自然的闲暇行为。项目经理曾爱玲表示,LPM1.0不仅适用于实时交流,也支持用离线音频驱动视频,为播客和影视制作提供了备用方案。

尽管展现出较强的应用潜力,研发团队强调LPM1.0目前仍是研究项目,暂不开放代码或权重。研究人员坦言,生成视频与真实画面仍有明显差距,且技术本身存在的深度伪造风险不容忽视。这项研究的意义在于指明了AI的演进方向:从单一逻辑交互,迈向具备情感回应、眼神交流与视觉具身化的全维互动形态。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享