近日,研究团队发布了LPM1.0。这一项目旨在用一张参考图像,就能实时生成包含说话、聆听和唱歌等行为的人物视频。LPM1.0的关键在于多模态处理能力,可同时融合文本、音频和图像输入,生成唇形准确、表情细腻、情绪过渡自然的动态画面。该模型还能直接接入ChatGPT、豆包等主流语音AI,把传统语音对话升级为带视觉反馈的实时互动。
在技术层面,LPM1.0引入了“多粒度身份条件化”,从多角度、多表情的参考素材中抽取细节,无需模型去生成牙齿、皱纹或侧脸轮廓等复杂特征,大幅提升了跨风格的适配能力。无论是写实人脸、动漫角色还是3D游戏人物,都能在不做二次训练的情况下即时驱动。此外,模型支持流式传输,生成时长达45分钟的视频仍能保持稳定。
在交互逻辑上,LPM1.0可准确识别三种对话状态:聆听时会生成点头或目光偏移等反馈表情;说话时由音频驱动唇动与肢体动作;停顿时则根据文本指令产生自然的闲暇行为。项目经理曾爱玲表示,LPM1.0不仅适用于实时交流,也支持用离线音频驱动视频,为播客和影视制作提供了备用方案。
尽管展现出较强的应用潜力,研发团队强调LPM1.0目前仍是研究项目,暂不开放代码或权重。研究人员坦言,生成视频与真实画面仍有明显差距,且技术本身存在的深度伪造风险不容忽视。这项研究的意义在于指明了AI的演进方向:从单一逻辑交互,迈向具备情感回应、眼神交流与视觉具身化的全维互动形态。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END

















用户38505528 7个月前0
粘贴不了啊用户12648782 8个月前0
用法杂不对呢?yfarer 8个月前0
草稿id无法下载,是什么问题?