开源版“Veo 3”登场：LTX-2发布，可一键生成20秒4K音画同步AI视频，家用显卡也能跑-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

AI视频创作又迈出关键一步！Lightricks团队宣布开源LTX-2，这被视为第一款真正意义上的开源音视频基座模型，可一次生成最长20秒的4K视频，且画面、声音、口型、环境音与配乐可同步生成并自然对齐。AIbase编辑部汇总最新消息，为你带来完整解析。

开源大礼包:权重+代码全放，社区热度拉满

LTX-2的权重、完整训练代码、评测基准与工具包已悉数开源，并托管在GitHub和Hugging Face。开发者可自由查看、微调并在本地部署。模型采用混合式DiT架构，支持文生视频、图生视频、多关键帧控制、3D摄影机逻辑以及LoRA微调。根据最新进展，ComfyUI已在发布首日（Day0）原生适配LTX-2，并提供开箱即用的工作流，显著降低上手难度。针对NVIDIA RTX消费级显卡的优化让生成速度明显提升，普通用户无需企业级设备也能产出专业质感。

核心看点:音视频一体，同步产出无需后期拼接

有别于以往需先出画面再贴音轨的做法，LTX-2在同一管线中同时生成视频与音频，使动作、台词、环境音和音乐自然对齐。它原生支持4K分辨率、最高50fps帧率，单段可达20秒。实测显示，口型对齐和表情细节尤为精准，对话类镜头真实感很强。同时，在复杂提示下仍能保持较高一致性，皮肤细节与运动连贯性相较多数开源方案更为出众。输入方式多样，可由文本、图片或草图驱动，适合短片、广告与各类创作。

性能优化:更快、更省、更易本地跑

与上一代及部分同类相比，LTX-2的计算开销降幅最高可达50%，多GPU推理方案也支持更长序列扩展。量化版本进一步压缩显存占用，在RTX40系列及更高型号上可顺畅运行。社区反馈称，生成10-20秒视频只需数分钟，甚至有望实现实时预览。这意味着高端AI视频生产正从封闭的云端走向本地开源，创作门槛被大幅拉低。

应用空间广阔:从个人到专业全覆盖

在内容创作、动画、营销和影视预演等场景中，LTX-2已展现出不俗实力。它支持Canny、Depth、Pose等视频到视频的控制方式，配合关键帧驱动，可带来更精确的叙事与统一风格。展望后续，伴随社区LoRA与插件生态的丰富，LTX-2有望成为开源AI视频领域的核心引擎，推动从短内容到长片创作的革新。

AIbase观点:LTX-2的开源不仅是技术上的跨越，也是推进AI视频走向大众的重要一步。它补上了开源圈在音视频联合生成上的空白，有望加速本地化AI工具的落地普及。AIbase将持续追踪其社区进展与落地实践，敬请关注后续报道。