可灵AI今日全量开放O1视频大模型:一体化多模态架构 支持一句话生成视频

可灵AI宣布,其自研的O1视频大模型自今日零点起向公众全面开放。该模型采用MVL(多模态视觉语言)一体化交互架构,在同一输入框中可同时处理文字、图片与视频指令,并首次引入Chain-of-Thought推理链路,官方称其为“全球首个统一多模态视频大模型”。

image.png

不同于行业常见的分步式流程,O1可一站式完成文生视频、图生视频、局部编辑与镜头延展,无需来回切换界面。可灵AI产品负责人表示,模型通过多视角主体构建技术锁定人物与物体特征,解决镜头切换时的“特征漂移”问题,保障多主体场景画面连贯。

image.png

目前,O1已在可灵App及官网同步开放体验,支持3–10秒时长自由设定,面向短视频创作者、广告团队及个人用户。公司表示,后续将开放API接口,供第三方平台接入。业内分析认为,O1的上线或进一步降低AI视频制作门槛,但在生成质量与成本效率上的平衡,仍需市场检验。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享