阿里推出全模态大模型 Qwen3-Omni-Flash:实时流式生成,支持119种语言交互

12月9日消息,阿里巴巴 Qwen 团队发布了新一代全模态大模型 Qwen3-Omni-Flash-2025-12-01。该模型支持文本、图片、音频和视频的无缝输入,并能以实时流式方式同步输出高质量文字与自然语音。官方表示,其语音自然度已接近真人。

image.png

技术亮点:实时流式全模态交互

Qwen3-Omni-Flash 采用实时流式架构,可实现文本、图像、音频和视频的无缝输入与同步输出。模型支持 119 种文本语言交互、19 种语音识别语言以及 10 种语音合成语言,确保跨语言场景下的准确响应。

个性化体验:System Prompt 全面开放自定义

新版本开放 System Prompt 的自定义权限,用户可细致调控模型行为,包括设定「甜妹」「御姐」等特定人设风格,并可调整口语化偏好与回复长度。模型还会根据文本内容自适应调节语速、停顿与韵律。

image.png

性能提升:基准测试全面升级

官方数据显示,新模型在逻辑推理任务(ZebraLogic)上提升 5.6,在代码生成(LiveCodeBench-v6)上提升 9.3,在多学科视觉问答(MMMU)上提升 4.7,展现出更强的多模态理解与分析能力。

落地与价格:API 已开放,定价友好

Qwen3-Omni-Flash 现已通过 API 上线,输入定价为 1 元/百万 tokens,输出为 3 元/百万 tokens。模型已在 Qwen Chat 集成 Demo,支持上传 30 秒视频并实时生成带画面口播。

行业意义:全模态迈入「人格化」阶段

当多模态还在比拼能看懂多少图时,阿里把「实时流 + 人格化」直接做成了 API。对直播、短视频、虚拟会议等重语音、重风格的场景而言,这几乎将「配音演员 + 后期口播」的成本降到接近零。

下一步计划:

2025 年 Q1 将发布 70B 轻量版,单卡 A100 可跑实时流;Q2 开放「语音克隆 10 秒」接口;Q3 上线「视频驱动头像」Beta 功能。后续将持续关注其语音克隆与视频驱动头像功能的开放进度。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享