美团LongCat发布UNO-Bench全新评测基准,系统强化多模态大模型评估

近日,美团 LongCat 团队推出全新评测基准 UNO-Bench,旨在以系统化方式检验模型在不同模态下的理解与表现。该基准覆盖44类任务与5种模态组合,力求全面反映模型的单模态与全模态能力。

UNO-Bench 的亮点在于其多样而扎实的数据集。团队精挑了1250个全模态样本,跨模态可解率高达98%;同时补充了2480个强化后的单模态样本。数据设计贴近真实应用,尤其在中文语境下表现突出。值得注意的是,经过自动化压缩处理后,运行效率提升约90%,并在18个公开基准上保持约98%的一致性。

image.png

为更好地衡量模型的复杂推理能力,UNO-Bench 引入了创新的多步骤开放式问答形式,并结合通用评分模型,能够自动评估六类题型,整体判分准确率可达95%。这一评测思路为多模态模型测评带来新的参考范式。

image.png

目前,UNO-Bench 重点面向中文应用场景。团队正积极寻找合作伙伴,共同推进英文及多语种版本。感兴趣的开发者可通过 Hugging Face 获取 UNO-Bench 数据集,相关代码与项目文档已在 GitHub 开源。

随着 UNO-Bench 的发布,多模态大语言模型的评测标准有望进一步完善,不仅为研究人员提供强有力的工具,也将助推行业整体发展。

项目地址:https://meituan-longcat.github.io/UNO-Bench/

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享