阿里云上新多模态交互开发套件！融合通义千问、万相、百聆，为AI眼镜与机器人等硬件加速-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

在今日举行的阿里云通义智能硬件展上，阿里云正式发布多模态交互开发套件，旨在为智能硬件厂商提供“开箱即用”的AI能力底座。该套件深度打通通义系三大基础模型：千问（Qwen）、万相（Wanxiang）、百聆（Bailin），并预置十余款面向生活休闲与办公效率等场景的AI Agent与MCP（Model-as-a-Service），可快速赋能AI眼镜、学习机、陪伴玩具、服务机器人等终端，大幅降低硬件智能化门槛。

三大模型打通，塑造“会听、能看、善表达”的智能终端

该套件的核心亮点是多模态能力的原生整合：

– 通义千问（Qwen）：提供文本理解与生成、任务规划与对话推理能力；

– 通义万相（Wanxiang）：支持文生图、图生图、视觉理解与风格迁移，驱动视觉交互；

– 通义百聆（Bailin）：聚焦语音识别、语音合成与声纹识别，实现自然语音对话。

三者协同，让设备可同时处理语音指令、图像输入与文本上下文，例如“拍下试题并讲解解题思路”“用文字描述场景，生成图片并语音播报”等复杂多模态任务。

内置Agent+MCP工具，助力快速落地

为提升开发效率，套件内置十多款可直接调用的AI Agent与MCP工具，覆盖高频场景：

– 学习陪伴：作业辅导Agent、知识点问答、英语口语练习；

– 生活助手：日程管理、健康提醒、智能家居联动；

– 创意娱乐：AI绘画助手、故事生成、音乐创作；

– 办公效率：会议纪要生成、文档速览、多语言实时翻译。