开源版“Veo 3”上新:LTX-2发布,一次成片20秒4K音画同步,本地显卡也能跑

AI视频生成迎来重大进展!Lightricks 团队正式将 LTX-2 开源,被称为首个真正完整的开源音画一体基础模型,可一次生成最长 20 秒的 4K 高清视频,并让画面、声音、口型、环境音和音乐自然对齐。编辑团队梳理最新网络动态,为您带来详细解读。

 开源大礼:权重与代码全公开,社区热度拉满

LTX-2 的模型权重、完整训练代码、基准测试与工具包已全部开源,托管在 GitHub 与 Hugging Face。开发者可自由审阅、微调并在本地部署。模型采用 DiT 混合架构,支持文本生视频、图像生视频、多关键帧控制、3D 相机逻辑及 LoRA 微调。最新动态显示,ComfyUI 在发布当天(Day0)即提供原生支持和现成工作流,大幅降低上手难度。针对 NVIDIA RTX 消费级显卡的优化让生成速度明显提升,普通用户无需企业级硬件也能得到专业级效果。

image.png

 核心看点:音画一体,同步生成免后期

不同于传统方案需要后期拼音频,LTX-2 在同一流程内联合生成画面与声音,让动作、对白、环境音效与音乐自然对齐。支持原生 4K 分辨率、最高 50fps 帧率,最长可生成 20 秒连续片段。实测中,口型同步与表情细节表现突出,对话场景逼真可信。在复杂提示下也能保持较好一致性,皮肤质感与运动流畅度优于多数开源同类。输入方式灵活,可由文本、图片或草图驱动,适合短片、广告与内容创作等多种场景。

 性能优化:更快、更省、更易本地跑

相较前代与部分同类,LTX-2 的计算成本可降至最高 50%,多 GPU 推理栈可扩展更长序列。量化版本进一步压缩显存开销,在 RTX 40 系列及以上显卡上运行顺畅。社区反馈称,生成 10–20 秒视频只需数分钟,甚至可实现接近实时的预览。这意味着高端 AI 视频生成正从云端封闭走向本地开源与普及,显著降低创作门槛。

 应用前景广:从个人到专业全覆盖

LTX-2 已在内容创作、动画、营销与影视预演等方向展现实力。其支持 Canny、Depth、Pose 等视频到视频的控制能力,配合关键帧驱动,可实现精确叙事与风格统一。未来,随着社区 LoRA 与插件生态的完善,LTX-2 有望成为开源 AI 视频生态的核心引擎,推动短视频到长形式内容的创新发展。

编辑团队观点:LTX-2 的开源不仅是技术跃迁,更是 AI 视频走向大众的重要一步。它弥补了开源领域音画联合生成的空白,也将加速本地 AI 工具的普及。我们将持续关注其社区进展与实际落地,敬请期待后续报道。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享