Lightricks开源AI视频模型LTX-2:20秒高速音画一体生成

以色列科技公司 Lightricks 近日宣布公开其最新视听合成系统 LTX-2。该系统拥有极高的计算效率,能依据简短文本描述,直接生成最长20秒、音画严格同步的高清视频内容。

不同于传统的视觉合成路线,LTX-2打破了“先画面、后配音”的顺序限制。研发团队表示,传统的音画分离流程难以真实还原自然场景的分布。为解决这一问题,LTX-2采用双流并行计算架构,用190亿参数协同处理视觉与声学信息;其中视频流约140亿参数,音频流约50亿参数,这样的不对称分配更贴近现实中视觉与听觉信息密度的差异。

QQ20260112-110008.png

在实际性能测试中,系统展现出出色的合成速度。在主流企业级显卡环境下,生成一段720p视听内容,每一步计算大约只需1.22秒。数据显示,其运行效率最高可比同类产品快18倍。在时长方面,20秒的上限也领先于谷歌及其他主流实验室的类似工具。

为更精准理解复杂语言指令,系统集成多语言文本解析引擎,并加入“预处理缓冲”机制,让模型在最终合成前有充分空间理清逻辑。凭借独特的交叉关联机制,系统能把画面中物体碰撞的瞬间与对应的物理声效准确匹配。

QQ20260112-110018.png

尽管技术领先,研发团队也坦言系统在应对小众方言或多角色对话时,偶尔会出现说话人归属偏差。超过20秒的更长序列仍可能出现轻微的时间轴偏移问题。

Lightricks 创始人齐夫·法布曼表示,选择公开系统代码而非做成封闭服务,是基于对“技术控制权”的考虑。他认为,内容创作者应在自己的硬件上掌握技术,而不是把决定权交给少数利益集团。目前,系统的完整代码与训练框架已在公开平台发布,并针对最新消费级高性能显卡进行了深度优化。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享