AI医疗迈入“深水区”：研究称生成式模型仍难单独承担临床推理-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

来自美国麻省总医院MESH孵化器团队的一项聚焦生成式人工智能（AI）临床推理能力的最新研究指出，尽管AI在医疗领域的应用持续深化，但在贴近真实诊疗的逻辑流程中仍存在明显短板。研究成果发表于权威期刊《JAMA Network Open》，明确表示当下主流模型尚不具备独立承担临床诊疗工作的能力。

团队选取包括ChatGPT、DeepSeek、Claude、Gemini、Grok在内的21种大语言模型，基于29个已确诊临床病例开展多轮评测。实验按步骤释放患者症状、化验数据和影像信息，高度还原医生的动态诊疗过程。结果显示，在信息完整的情况下，全部模型给出的最终诊断准确率均超过90%。但在临床推理的关键环节——“鉴别诊断”中，八成以上模型表现不理想，难以对多种潜在疾病进行系统梳理与筛选。

为更直观量化差异，研究团队提出PrIME-LLM综合评价指标，覆盖从初步判断、检查选择到治疗方案制定的全流程。评测结果显示，各模型综合得分在64%至78%之间，反映出模型在信息充分时更擅长“给出答案”，而在信息不完备时进行开放式逻辑推演则相对乏力。

尽管新一代模型在处理复杂资料方面较旧版本有明显进步，研究团队仍强调，大语言模型当前应定位为辅助工具，在缺乏专业监督的情况下直接用于临床实践依然存在风险。该发现为AI医疗的未来发展提供了清晰坐标：从单纯的“结果拟合”迈向更复杂的“逻辑推理”，将是医疗大模型走向专业化应用的关键门槛。