阿里推出全模态大模型 Qwen3-Omni-Flash：实时流式生成，支持119种语言交互-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

12月9日消息，阿里巴巴 Qwen 团队发布了新一代全模态大模型 Qwen3-Omni-Flash-2025-12-01。该模型支持文本、图片、音频和视频的无缝输入，并能以实时流式方式同步输出高质量文字与自然语音。官方表示，其语音自然度已接近真人。

技术亮点：实时流式全模态交互

Qwen3-Omni-Flash 采用实时流式架构，可实现文本、图像、音频和视频的无缝输入与同步输出。模型支持 119 种文本语言交互、19 种语音识别语言以及 10 种语音合成语言，确保跨语言场景下的准确响应。

个性化体验：System Prompt 全面开放自定义

新版本开放 System Prompt 的自定义权限，用户可细致调控模型行为，包括设定「甜妹」「御姐」等特定人设风格，并可调整口语化偏好与回复长度。模型还会根据文本内容自适应调节语速、停顿与韵律。

性能提升：基准测试全面升级

官方数据显示，新模型在逻辑推理任务（ZebraLogic）上提升 5.6，在代码生成（LiveCodeBench-v6）上提升 9.3，在多学科视觉问答（MMMU）上提升 4.7，展现出更强的多模态理解与分析能力。

落地与价格：API 已开放，定价友好

Qwen3-Omni-Flash 现已通过 API 上线，输入定价为 1 元/百万 tokens，输出为 3 元/百万 tokens。模型已在 Qwen Chat 集成 Demo，支持上传 30 秒视频并实时生成带画面口播。

行业意义：全模态迈入「人格化」阶段

当多模态还在比拼能看懂多少图时，阿里把「实时流 + 人格化」直接做成了 API。对直播、短视频、虚拟会议等重语音、重风格的场景而言，这几乎将「配音演员 + 后期口播」的成本降到接近零。

下一步计划：

2025 年 Q1 将发布 70B 轻量版，单卡 A100 可跑实时流；Q2 开放「语音克隆 10 秒」接口；Q3 上线「视频驱动头像」Beta 功能。后续将持续关注其语音克隆与视频驱动头像功能的开放进度。

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

阿里推出全模态大模型 Qwen3-Omni-Flash：实时流式生成，支持119种语言交互