今日,腾讯混元大模型团队正式发布了其最新视频生成模型 HunyuanVideo1.5,成为视频生成技术的一次重要升级。该模型基于 Diffusion Transformer(DiT)架构,体量轻巧,参数规模为 8.3B,可生成 5 至 10 秒的高清视频。目前已在腾讯「元宝」平台上线,向用户开放试用。

HunyuanVideo1.5 支持多种生成方式,既能通过文字提示(Prompt)进行“文生视频”,也可上传图片配合文字,将静态图一键变成动态画面。它同时支持中英文输入,并在图像与视频的色彩、光影、场景、主体与细节等方面保持高度一致,确保生成结果与原图匹配。
在实际使用中,用户可依据提示词构建复杂场景。比如,用提示词描述一个手提箱里生长出微型英式花园的过程,模型便能清晰还原,用细节展示强大的理解与执行能力。HunyuanVideo1.5 兼容写实、动画等多种风格,还能在视频中生成中英文文字,让创作内容更丰富。
在技术层面,HunyuanVideo1.5 引入了创新的 SSTA 稀疏注意力机制,显著提升推理速度,并采用多阶段、渐进式训练策略,使运动连贯性与语义遵循达到商用水准。部署门槛也大幅降低,消费者级显卡仅需 14G 显存即可流畅运行,开发者与创作者更容易参与视频生成创新。

据了解,过去开源领域的 SOTA 视频生成旗舰模型往往需要超过 20B 参数与约 50GB 显卡支持。HunyuanVideo1.5 不仅在生成质量上实现了明显提升,也在性能与规模之间取得了更好的平衡。当前,模型已发布到 Hugging Face 与 GitHub,欢迎广大开发者下载体验。
随着 HunyuanVideo1.5 的推出,腾讯进一步巩固了在人工智能与视频生成方向的领先优势,为内容创作者提供更有力的工具与更广的想象空间。未来,随着技术演进,视频生成的应用场景还将继续扩展,期待 HunyuanVideo1.5 为行业带来新的变化。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?