阿里通义发布 Qwen3-Omni-Flash-2025-12-01

近日,阿里通义 Qwen 团队官宣推出最新版 Qwen3-Omni-Flash-2025-12-01。该版本延续 Qwen3-Omni 的底座,定位为新一代原生全模态大模型,可高效处理文本、图片、音频、视频等多种输入,并支持实时流式回应,输出文字与自然语音。

image.png

本次更新的重头戏是音视频交互全面加强。新版本在理解与执行音视频指令上更到位,针对口语化场景常见的“降智”现象也有明显改善。多轮音视频对话更稳、更连贯,人机沟通更自然顺滑。

同时,System Prompt 的可控性大幅提升。用户可全面自定义系统提示,细致调整模型行为:无论是角色风格、口语偏好,还是回复长度,都能精确设定,整体可控性更强。

在多语言方面,版本现已支持119种文本语言、19种语音识别语言与10种语音合成语言。相比此前,Qwen3-Omni-Flash 在语言遵循的稳定性上做了系统优化,跨语言场景回复更准确一致。

语音合成也更自然顺滑。新版本有效缓解语速拖沓与机械感,强化了随文本自动调节语速、停顿与韵律的能力,听感更贴近真实对话。

从客观评测看,Qwen3-Omni-Flash-2025-12-01 的全模态能力全面进阶:文本理解与生成、语音理解准确度、语音合成自然度及图像理解深度均较前代明显提升,带来更自然、精准、生动的交互体验。

划重点:

🌟 新版强化音视频交互,对音视频指令的理解与执行更强。  

🌍 System Prompt 全面开放自定义,用户可精细控制模型行为,个性化更高。  

💬 多语言能力优化,跨语言场景回复更准更稳。  

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享