一举包揽 215 项 SOTA！阿里发布 Qwen3.5-Omni：全模态实力跃级，强势超越 Gemini-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

一举包揽 215 项 SOTA！阿里发布 Qwen3.5-Omni：全模态实力跃级，强势超越 Gemini

拥抱AI，AIGC最佳实践者

5215

中国大模型在全模态交互赛道，正完成从“跟跑”到“领跑”的跃迁。

3月30日，阿里正式推出新一代全模态大模型 Qwen3.5-Omni。依托混合注意力 MoE 架构，它将图片、视频、语音与文本打通，实现输入输出的无缝衔接，标志着国产大模型在视听交互上的能力迈入全球顶尖行列。

全能战力：215 项夺魁，硬核超越 Gemini

在衡量大模型综合能力的关键维度上，Qwen3.5-Omni 交出亮眼答卷：

SOTA 横扫： 在覆盖音视频理解、识别与交互的 215 项评测中，均取得 SOTA（表现最佳）成绩。

同台领先： 在 DailyOmni、QualcommInteractive 等聚焦视听交互的测试上，分数显著压过 Google 的 Gemini-3.1Pro。

强抗噪音： 在嘈杂场景的 WenetSpeech 测试中，识别准确率极高，错误率显著低于对手。

交互新纪元：支持 113 种语言，“动嘴就能编程”

Qwen3.5-Omni 不只更聪明，还更懂“语言”和“开发”：

多语通晓： 能覆盖 113 种语言与方言识别，连毛利语、海南方言等小语种也能精准识别。

Vibe Coding 升级： 音视频编程全面进化。打开摄像头，对着草图口述需求，模型即可产出包含复杂 UI 的产品原型，实现“所说即所得”。

生产力加速：10 小时音频也能长程理解

面向专业场景，模型带来更强的结构化处理能力：

视频细粒度解析： 可对画面主体、人物关系与情绪变化进行深度拆解，颗粒度更细。

一键切片： 支持超 10 小时音频输入，自动完成视频章节划分与时间戳标注，大幅提升内容创作效率。

普惠生态：价格仅为 Gemini 的十分之一

阿里云百炼 平台同步上线 Plus、Flash、Light 三类 API，为企业提供高性价比选择：

成本更低： 每百万 Tokens 的输入成本低于 0.8 元，约为 Gemini-3.1Pro 的十分之一。

行业领先： 目前千问已服务超 100 万家客户，稳居中国企业级大模型调用市场第一。

结语：从“理解文本”到“感知世界”

Qwen3.5-Omni 的亮相，不仅体现了阿里的技术积淀，更是国产大模型迈向“全能交互”的关键进展。当模型能像人一样听懂方言、看懂草图、洞察情绪，AI 将从屏幕里的对话框走向现实，成为各行各业触手可及的超级生产力工具。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐