以色列科技公司 Lightricks 近日宣布公开其最新视听合成系统 LTX-2。该系统拥有极高的计算效率,能依据简短文本描述,直接生成最长20秒、音画严格同步的高清视频内容。
不同于传统的视觉合成路线,LTX-2打破了“先画面、后配音”的顺序限制。研发团队表示,传统的音画分离流程难以真实还原自然场景的分布。为解决这一问题,LTX-2采用双流并行计算架构,用190亿参数协同处理视觉与声学信息;其中视频流约140亿参数,音频流约50亿参数,这样的不对称分配更贴近现实中视觉与听觉信息密度的差异。

在实际性能测试中,系统展现出出色的合成速度。在主流企业级显卡环境下,生成一段720p视听内容,每一步计算大约只需1.22秒。数据显示,其运行效率最高可比同类产品快18倍。在时长方面,20秒的上限也领先于谷歌及其他主流实验室的类似工具。
为更精准理解复杂语言指令,系统集成多语言文本解析引擎,并加入“预处理缓冲”机制,让模型在最终合成前有充分空间理清逻辑。凭借独特的交叉关联机制,系统能把画面中物体碰撞的瞬间与对应的物理声效准确匹配。

尽管技术领先,研发团队也坦言系统在应对小众方言或多角色对话时,偶尔会出现说话人归属偏差。超过20秒的更长序列仍可能出现轻微的时间轴偏移问题。
Lightricks 创始人齐夫·法布曼表示,选择公开系统代码而非做成封闭服务,是基于对“技术控制权”的考虑。他认为,内容创作者应在自己的硬件上掌握技术,而不是把决定权交给少数利益集团。目前,系统的完整代码与训练框架已在公开平台发布,并针对最新消费级高性能显卡进行了深度优化。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?