在2025世界计算大会现场,昆仑元 AI 正式发布了基于昇腾(Ascend)平台的全模态融合大模型 BaiZe-Omni-14b-a2b。该模型同时具备文本、音频、图像与视频的理解与生成能力,采用创新技术架构,包括模态解耦编码、统一跨模态融合以及双分支功能设计,旨在加速多模态应用落地。

BaiZe-Omni-14b-a2b 的整体设计流程明确,覆盖输入处理、模态适配、跨模态融合、核心功能与输出解码等环节。为提升计算效率,模型在 MoE+TransformerX 架构中加入多线性注意力层与单层混合注意力聚合层,保障大规模全模态应用的稳定运行。同时,双分支设计让模型在理解与生成两方面均表现突出,可覆盖多达10类任务,并具备强劲的多模态内容生成能力。
在训练阶段,昆仑元 AI 使用了海量且高质量的数据。训练数据包含超过3.57万亿 token 的文本、30万小时以上的音频、4亿张图像以及超40万小时的视频,有效保证了单模态数据的纯净度与跨模态数据的对齐质量。通过在不同训练阶段采用差异化的数据配比,模型性能实现循序提升。
性能方面,BaiZe-Omni-14b-a2b 在多模态理解关键指标上表现优异,文本理解准确率达到89.3%。在长序列任务中,对于32768 token 的文本摘要,ROUGE-L 得分为0.521,显著优于行业主流模型 GPT-4 的0.487。此外,模型支持多语言文本生成,并具备图像、音频与视频的多模态生成能力,综合实力强劲。
划重点:
🌐 ** 全模态能力 **:BaiZe-Omni-14b-a2b 同时支持文本、音频、图像、视频的理解与生成。
📈 ** 性能突出 **:在文本理解与超长序列处理上表现亮眼,ROUGE-L 得分领先同类模型。
💡 ** 多领域应用 **:可为智能客服、内容创作等多场景提供技术支撑,推动 AI 技术进步。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?