Lightricks开源AI视频模型 LTX-2:实现最长20秒的高速音画一体化合成

以色列科技公司 Lightricks 近日宣布开放其全新视听合成系统 LTX-2。该系统具备超高的计算效率,能根据简短文本描述,直接生成最长20秒且音画高度同步的高清视频内容。

不同于传统的视觉合成方法,LTX-2 打破了“先画面、后配音”的顺序处理限制。研发团队表示,过去的音画分离流程难以贴近真实的自然环境分布。为此,LTX-2 采用双流并行的复杂计算架构,以 190 亿参数协同建模视觉与声学环境。其中,视频流占 140 亿参数,音频流占 50 亿,这种不对称分配更贴合现实中视觉与听觉信息密度的差异。

QQ20260112-110008.png

在实际性能测试中,该系统展现出惊人的合成速度。在主流企业级显卡环境下,生成一段 720p 分辨率的视听内容,每步运算仅需 1.22 秒。数据显示,其运行效率最高可比同类产品快 18 倍。同时,在合成时长方面,20 秒的生成上限也超越了谷歌及其他主流实验室的同类工具。

为更好地理解复杂语言指令,系统内置多语言文本解析引擎,并加入“预处理缓冲”机制,让模型在正式合成前有充分空间解析逻辑。借助独特的交叉关联策略,系统能够把画面中物体碰撞的瞬间,与相应的物理声效精准匹配。

QQ20260112-110018.png

尽管技术领先,团队也坦言该系统在处理小众方言或多角色对话时,偶尔会出现语音归属偏差。超过 20 秒的超长序列仍可能面临时间轴轻微偏移的挑战。

Lightricks 创始人齐夫·法布曼表示,选择公开系统代码而非封闭服务,是基于对“技术自主权”的考量。他认为,内容创作者应当在自己的硬件上掌控技术,而不是把决策权交给少数利益集团。目前,系统的完整代码及训练框架已在公开平台发布,并针对最新的消费级高性能显卡进行了深度优化。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享