Qwen3.5-Omni 重磅上线:215项 SOTA 引领全感官 AI 新时代

通义实验室昨夜官宣推出全新的多模态大模型 Qwen3.5-Omni。与上一代相比,它在理解、互动体验与任务执行上显著提升,标志着 AI 正在从“屏幕里的助手”迈向“能理解物理世界的智能体”。

核心升级:全模态与215项 SOTA

Qwen3.5-Omni 以原生的 “全模态”架构 为基础,能顺畅处理文本、图像、音频与视频输入。在覆盖音视频分析、推理、对话与翻译的评测中,拿下了 215项 SOTA(业界最佳 成绩。尤其在通用音频理解与识别上,整体表现已全面超过 Gemini-3.1Pro;而视觉与文本能力与同尺寸的 Qwen3.5 模型保持一致的顶尖水准。

QQ20260331-090527.jpg

技术解析:Hybrid-Attention MoE 架构

该模型延续了经典的 Thinker-Talker 分工,并进行了底层重构:

  • Thinker(理解中枢): 升级为 Hybrid-Attention MoE,支持 256K 超长上下文。可处理长达 10小时的音频1小时的视频,并借助 TMRoPE 技术精准捕捉长时序中的细粒度信息。

  • Talker(表达中枢): 引入全新的 ARIA 技术 与 RVQ 编码,替代了笨重的 DiT 运算。这不仅减少了语音输出里的漏字与数字读错问题,还带来了更强的实时语音控制能力。

应用落地:从 Vibe Coding 到音色克隆

这些升级直接促成了多项突破性的使用场景:

  1. 自然涌现的 Vibe Coding: 无需专门训练,模型就展现出强大的代码理解与生成能力,可按视频画面逻辑直接生成 Python 代码或前端原型。

  2. 拟人化实时互动: 支持语义打断,能区分咳嗽等杂音与真实插话,并可通过指令调节说话语气(如“开心的”)与音量。

  3. 细粒度视频解析: 能生成带时间戳的结构化 Caption,精准识别视频中的人物动作、背景音乐变化与镜头切换。

  4. 个性化音色克隆: 只需上传一段录音,即可定制自然度高、支持113种语言的专属“数字分身”。

目前,Qwen3.5-Omni 已登陆阿里云百炼平台,提供 Plus、Flash、Light 三种规格,并同步开放实时对话(Realtime)API 与魔搭社区 Demo。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享