4 月 3 日,
技术核心:DiNA 架构实现“模态内化”
为打破不同模态之间的边界,
-
全模态统一: 不论文字、图片还是音频,均共享同一套参数、注意力机制与训练目标。
-
理解与生成对称: 在统一的数学框架下,预测文字 Token 可视为“理解”,预测图像 Token 可视为“生成”,两者在训练中相互促进,协同效应明显。
-
极致压缩: 借助 dNaViT 视觉分词器,支持任意分辨率输入,采用 8 层残差向量量化,在像素空间实现最高约 28 倍压缩,同时保留 OCR、财报解析等任务所需的关键细节。
实证性能:离散建模没有“天花板”
-
细粒度感知: 在 OmniDocBench 密集文本场景中,成绩不仅超越 Qwen3-Omni,也优于专用视觉模型 Qwen3-VL。
-
视觉推理: 在 MathVista 测试中取得 83.1 的领先成绩,展现出强大的工程级逻辑能力。
-
跨模态协同: 在保持领先语言能力(C-Eval 86.80)的同时,支持低延迟的文本与语音并行生成,并提供可定制的语音克隆。
行业观察:通往物理世界 AI 的基石
长期以来,大模型多以语言为核心构建。而
目前,

















用户38505528 7个月前0
粘贴不了啊用户12648782 8个月前0
用法杂不对呢?yfarer 8个月前0
草稿id无法下载,是什么问题?