谷歌开源医疗AI新秀MedGemma 1.5：从读平面图到看懂三维影像-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

谷歌开源医疗AI新秀MedGemma 1.5：从读平面图到看懂三维影像

拥抱AI，AIGC最佳实践者

535

谷歌日前以开源形式发布医疗AI模型MedGemma 1.5。最大的突破在于不再局限于传统2D图像，可处理更高维的医疗数据，在多种关键医疗场景上都有明显进步。

在能力方面，MedGemma 1.5的升级十分全面：原生支持CT、MRI三维扫描，可直接处理包含数十个切片的体积影像；可以解析病理学全视野数字切片，在微观层面寻找病变线索；在胸部X光上，能够用边界框精确标注解剖结构与病灶位置，而不只给出模糊判断；还支持多时间点对比，追踪病情是改善、稳定还是加重。此外，它对PDF格式的电子病历与检验报告的理解显著增强，能更准确地抽取关键结构化信息。

成绩也同样亮眼。相较上一代MedGemma 14B，1.5版本在3D MRI病情分类上的准确率绝对提升11%，全视野病理图像的宏观F1分数提升47%，胸部X光解剖定位的交并比提高35%，电子病历问答准确率上升22%。值得一提的是，这些提升都在参数量仍为40亿的前提下实现，计算效率极高。

在技术上，团队引入了覆盖放射学、皮肤科、病理学以及合成电子健康记录的大规模图文配对数据，并采用预处理方法将3D CT扫描切分为最多85张序列图像；在训练后期，还借助领域专家模型进行知识蒸馏，把专业经验直接“传授”给模型。

需要说明的是，MedGemma 1.5并不等同于开箱即用的临床决策系统。谷歌将其定位为供开发者进一步微调的基础模型，真正用于临床仍需针对具体场景开展专项训练。此外，模型在向“医疗通才”演进的过程中，在一些旧的、小众的视觉问答基准上出现了轻微回落，这是能力全面化过程中常见的权衡。

论文地址：https://www.alphaxiv.org/abs/2604.05081

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐