开源版“Veo 3”登场:LTX-2发布,可一键生成20秒4K音画同步AI视频,家用显卡也能跑

AI视频创作又迈出关键一步!Lightricks团队宣布开源LTX-2,这被视为第一款真正意义上的开源音视频基座模型,可一次生成最长20秒的4K视频,且画面、声音、口型、环境音与配乐可同步生成并自然对齐。AIbase编辑部汇总最新消息,为你带来完整解析。

 开源大礼包:权重+代码全放,社区热度拉满

LTX-2的权重、完整训练代码、评测基准与工具包已悉数开源,并托管在GitHub和Hugging Face。开发者可自由查看、微调并在本地部署。模型采用混合式DiT架构,支持文生视频、图生视频、多关键帧控制、3D摄影机逻辑以及LoRA微调。根据最新进展,ComfyUI已在发布首日(Day0)原生适配LTX-2,并提供开箱即用的工作流,显著降低上手难度。针对NVIDIA RTX消费级显卡的优化让生成速度明显提升,普通用户无需企业级设备也能产出专业质感。

image.png

 核心看点:音视频一体,同步产出无需后期拼接

有别于以往需先出画面再贴音轨的做法,LTX-2在同一管线中同时生成视频与音频,使动作、台词、环境音和音乐自然对齐。它原生支持4K分辨率、最高50fps帧率,单段可达20秒。实测显示,口型对齐和表情细节尤为精准,对话类镜头真实感很强。同时,在复杂提示下仍能保持较高一致性,皮肤细节与运动连贯性相较多数开源方案更为出众。输入方式多样,可由文本、图片或草图驱动,适合短片、广告与各类创作。

 性能优化:更快、更省、更易本地跑

与上一代及部分同类相比,LTX-2的计算开销降幅最高可达50%,多GPU推理方案也支持更长序列扩展。量化版本进一步压缩显存占用,在RTX40系列及更高型号上可顺畅运行。社区反馈称,生成10-20秒视频只需数分钟,甚至有望实现实时预览。这意味着高端AI视频生产正从封闭的云端走向本地开源,创作门槛被大幅拉低。

 应用空间广阔:从个人到专业全覆盖

在内容创作、动画、营销和影视预演等场景中,LTX-2已展现出不俗实力。它支持Canny、Depth、Pose等视频到视频的控制方式,配合关键帧驱动,可带来更精确的叙事与统一风格。展望后续,伴随社区LoRA与插件生态的丰富,LTX-2有望成为开源AI视频领域的核心引擎,推动从短内容到长片创作的革新。

AIbase观点:LTX-2的开源不仅是技术上的跨越,也是推进AI视频走向大众的重要一步。它补上了开源圈在音视频联合生成上的空白,有望加速本地化AI工具的落地普及。AIbase将持续追踪其社区进展与落地实践,敬请关注后续报道。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享