Qwen3.5-Omni 重磅上线：215项 SOTA 引领全感官 AI 新时代-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

Qwen3.5-Omni 重磅上线：215项 SOTA 引领全感官 AI 新时代

拥抱AI，AIGC最佳实践者

4612

通义实验室昨夜官宣推出全新的多模态大模型 Qwen3.5-Omni。与上一代相比，它在理解、互动体验与任务执行上显著提升，标志着 AI 正在从“屏幕里的助手”迈向“能理解物理世界的智能体”。

核心升级:全模态与215项 SOTA

Qwen3.5-Omni 以原生的 “全模态”架构 为基础，能顺畅处理文本、图像、音频与视频输入。在覆盖音视频分析、推理、对话与翻译的评测中，拿下了 215项 SOTA（业界最佳） 成绩。尤其在通用音频理解与识别上，整体表现已全面超过 Gemini-3.1Pro；而视觉与文本能力与同尺寸的 Qwen3.5 模型保持一致的顶尖水准。

技术解析:Hybrid-Attention MoE 架构

该模型延续了经典的 Thinker-Talker 分工，并进行了底层重构:

Thinker（理解中枢）: 升级为 Hybrid-Attention MoE，支持 256K 超长上下文。可处理长达 10小时的音频 或 1小时的视频，并借助 TMRoPE 技术精准捕捉长时序中的细粒度信息。
Talker（表达中枢）: 引入全新的 ARIA 技术 与 RVQ 编码，替代了笨重的 DiT 运算。这不仅减少了语音输出里的漏字与数字读错问题，还带来了更强的实时语音控制能力。

应用落地:从 Vibe Coding 到音色克隆

这些升级直接促成了多项突破性的使用场景:

自然涌现的 Vibe Coding: 无需专门训练，模型就展现出强大的代码理解与生成能力，可按视频画面逻辑直接生成 Python 代码或前端原型。
拟人化实时互动: 支持语义打断，能区分咳嗽等杂音与真实插话，并可通过指令调节说话语气（如“开心的”）与音量。
细粒度视频解析: 能生成带时间戳的结构化 Caption，精准识别视频中的人物动作、背景音乐变化与镜头切换。
个性化音色克隆: 只需上传一段录音，即可定制自然度高、支持113种语言的专属“数字分身”。

目前，Qwen3.5-Omni 已登陆阿里云百炼平台，提供 Plus、Flash、Light 三种规格，并同步开放实时对话（Realtime）API 与魔搭社区 Demo。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐