开源版“Veo 3”上新：LTX-2发布，一次成片20秒4K音画同步，本地显卡也能跑-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

AI视频生成迎来重大进展！Lightricks 团队正式将 LTX-2 开源，被称为首个真正完整的开源音画一体基础模型，可一次生成最长 20 秒的 4K 高清视频，并让画面、声音、口型、环境音和音乐自然对齐。编辑团队梳理最新网络动态，为您带来详细解读。

开源大礼：权重与代码全公开，社区热度拉满

LTX-2 的模型权重、完整训练代码、基准测试与工具包已全部开源，托管在 GitHub 与 Hugging Face。开发者可自由审阅、微调并在本地部署。模型采用 DiT 混合架构，支持文本生视频、图像生视频、多关键帧控制、3D 相机逻辑及 LoRA 微调。最新动态显示，ComfyUI 在发布当天（Day0）即提供原生支持和现成工作流，大幅降低上手难度。针对 NVIDIA RTX 消费级显卡的优化让生成速度明显提升，普通用户无需企业级硬件也能得到专业级效果。

核心看点：音画一体，同步生成免后期

不同于传统方案需要后期拼音频，LTX-2 在同一流程内联合生成画面与声音，让动作、对白、环境音效与音乐自然对齐。支持原生 4K 分辨率、最高 50fps 帧率，最长可生成 20 秒连续片段。实测中，口型同步与表情细节表现突出，对话场景逼真可信。在复杂提示下也能保持较好一致性，皮肤质感与运动流畅度优于多数开源同类。输入方式灵活，可由文本、图片或草图驱动，适合短片、广告与内容创作等多种场景。

性能优化：更快、更省、更易本地跑

相较前代与部分同类，LTX-2 的计算成本可降至最高 50%，多 GPU 推理栈可扩展更长序列。量化版本进一步压缩显存开销，在 RTX 40 系列及以上显卡上运行顺畅。社区反馈称，生成 10–20 秒视频只需数分钟，甚至可实现接近实时的预览。这意味着高端 AI 视频生成正从云端封闭走向本地开源与普及，显著降低创作门槛。

应用前景广：从个人到专业全覆盖

LTX-2 已在内容创作、动画、营销与影视预演等方向展现实力。其支持 Canny、Depth、Pose 等视频到视频的控制能力，配合关键帧驱动，可实现精确叙事与风格统一。未来，随着社区 LoRA 与插件生态的完善，LTX-2 有望成为开源 AI 视频生态的核心引擎，推动短视频到长形式内容的创新发展。

编辑团队观点：LTX-2 的开源不仅是技术跃迁，更是 AI 视频走向大众的重要一步。它弥补了开源领域音画联合生成的空白，也将加速本地 AI 工具的普及。我们将持续关注其社区进展与实际落地，敬请期待后续报道。