在当下的医疗体系里,电子病历(EHR)是最核心的数据载体,完整记录患者从诊断到治疗的关键信息。这些信息不仅帮助医生做出判断,也在推动医疗人工智能的进步。南洋理工大学团队近日发布了首个用来全面评测大型语言模型(LLM)处理电子病历能力的基准——EHRStruct,为医疗 AI 研究迈出重要一步。
EHRStruct 覆盖 11 项关键任务,共 2200 个样本。任务设计紧贴临床场景,并从认知层级与功能类别出发,建立起规范而严谨的评测体系。研究显示,通用大模型在处理结构化 EHR 时表现突出,甚至超过一些面向医学领域训练的模型。同时,数据驱动的任务更占优,输入格式与微调方式会显著影响模型表现。
在评测中,研究者对 20 个主流 LLM 与 11 种增强方法进行了系统对比。结果表明,结合 EHRMaster 框架与 Gemini 模型后,LLM 在结构化 EHR 处理上的成绩明显提升,甚至超越了当前最先进的方案。该成果已被 AAAI 2026 录用,有望在后续学术交流中引起广泛关注。
为推动该方向的发展,团队同步推出了“EHRStruct 2026 – LLM 结构化电子病历挑战赛”,为研究者提供统一、可比的评测平台,促进对 LLM 在结构化电子病历处理能力上的深入研究。
EHRStruct 的构建过程分为四个阶段:任务合成、任务体系搭建、任务样本抽取与评测流程设计。医学专家与计算机科学家协同合作,确保评测兼具临床相关性与可重复性。该评测框架既科学严谨,也为后续研究提供了充足的数据支持。
这项重要进展,不仅为医疗 AI 带来新的工具与方法,也为临床决策与数据分析提供更可靠的参考。期待更多医疗 AI 应用落地于实际工作中,推动更高效的医疗服务。

















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?