Lightricks开源AI视频模型 LTX-2：实现最长20秒的高速音画一体化合成-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

Lightricks开源AI视频模型 LTX-2：实现最长20秒的高速音画一体化合成

拥抱AI，AIGC最佳实践者

399

以色列科技公司 Lightricks 近日宣布开放其全新视听合成系统 LTX-2。该系统具备超高的计算效率，能根据简短文本描述，直接生成最长20秒且音画高度同步的高清视频内容。

不同于传统的视觉合成方法，LTX-2 打破了“先画面、后配音”的顺序处理限制。研发团队表示，过去的音画分离流程难以贴近真实的自然环境分布。为此，LTX-2 采用双流并行的复杂计算架构，以 190 亿参数协同建模视觉与声学环境。其中，视频流占 140 亿参数，音频流占 50 亿，这种不对称分配更贴合现实中视觉与听觉信息密度的差异。

在实际性能测试中，该系统展现出惊人的合成速度。在主流企业级显卡环境下，生成一段 720p 分辨率的视听内容，每步运算仅需 1.22 秒。数据显示，其运行效率最高可比同类产品快 18 倍。同时，在合成时长方面，20 秒的生成上限也超越了谷歌及其他主流实验室的同类工具。

为更好地理解复杂语言指令，系统内置多语言文本解析引擎，并加入“预处理缓冲”机制，让模型在正式合成前有充分空间解析逻辑。借助独特的交叉关联策略，系统能够把画面中物体碰撞的瞬间，与相应的物理声效精准匹配。

尽管技术领先，团队也坦言该系统在处理小众方言或多角色对话时，偶尔会出现语音归属偏差。超过 20 秒的超长序列仍可能面临时间轴轻微偏移的挑战。

Lightricks 创始人齐夫·法布曼表示，选择公开系统代码而非封闭服务，是基于对“技术自主权”的考量。他认为，内容创作者应当在自己的硬件上掌控技术，而不是把决策权交给少数利益集团。目前，系统的完整代码及训练框架已在公开平台发布，并针对最新的消费级高性能显卡进行了深度优化。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐