谷歌开源医疗AI新秀MedGemma 1.5:从读平面图到看懂三维影像

谷歌日前以开源形式发布医疗AI模型MedGemma 1.5。最大的突破在于不再局限于传统2D图像,可处理更高维的医疗数据,在多种关键医疗场景上都有明显进步。

在能力方面,MedGemma 1.5的升级十分全面:原生支持CT、MRI三维扫描,可直接处理包含数十个切片的体积影像;可以解析病理学全视野数字切片,在微观层面寻找病变线索;在胸部X光上,能够用边界框精确标注解剖结构与病灶位置,而不只给出模糊判断;还支持多时间点对比,追踪病情是改善、稳定还是加重。此外,它对PDF格式的电子病历与检验报告的理解显著增强,能更准确地抽取关键结构化信息。

image.png

成绩也同样亮眼。相较上一代MedGemma 14B,1.5版本在3D MRI病情分类上的准确率绝对提升11%,全视野病理图像的宏观F1分数提升47%,胸部X光解剖定位的交并比提高35%,电子病历问答准确率上升22%。值得一提的是,这些提升都在参数量仍为40亿的前提下实现,计算效率极高

image.png

在技术上,团队引入了覆盖放射学、皮肤科、病理学以及合成电子健康记录的大规模图文配对数据,并采用预处理方法将3D CT扫描切分为最多85张序列图像;在训练后期,还借助领域专家模型进行知识蒸馏,把专业经验直接“传授”给模型。

需要说明的是,MedGemma 1.5并不等同于开箱即用的临床决策系统。谷歌将其定位为供开发者进一步微调的基础模型,真正用于临床仍需针对具体场景开展专项训练。此外,模型在向“医疗通才”演进的过程中,在一些旧的、小众的视觉问答基准上出现了轻微回落,这是能力全面化过程中常见的权衡。

论文地址:https://www.alphaxiv.org/abs/2604.05081

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享