AI医疗迈入“深水区”:研究称生成式模型仍难单独承担临床推理

来自美国麻省总医院MESH孵化器团队的一项聚焦生成式人工智能(AI)临床推理能力的最新研究指出,尽管AI在医疗领域的应用持续深化,但在贴近真实诊疗的逻辑流程中仍存在明显短板。研究成果发表于权威期刊《JAMA Network Open》,明确表示当下主流模型尚不具备独立承担临床诊疗工作的能力。

团队选取包括ChatGPT、DeepSeek、Claude、Gemini、Grok在内的21种大语言模型,基于29个已确诊临床病例开展多轮评测。实验按步骤释放患者症状、化验数据和影像信息,高度还原医生的动态诊疗过程。结果显示,在信息完整的情况下,全部模型给出的最终诊断准确率均超过90%。但在临床推理的关键环节——“鉴别诊断”中,八成以上模型表现不理想,难以对多种潜在疾病进行系统梳理与筛选。

为更直观量化差异,研究团队提出PrIME-LLM综合评价指标,覆盖从初步判断、检查选择到治疗方案制定的全流程。评测结果显示,各模型综合得分在64%至78%之间,反映出模型在信息充分时更擅长“给出答案”,而在信息不完备时进行开放式逻辑推演则相对乏力。

尽管新一代模型在处理复杂资料方面较旧版本有明显进步,研究团队仍强调,大语言模型当前应定位为辅助工具,在缺乏专业监督的情况下直接用于临床实践依然存在风险。该发现为AI医疗的未来发展提供了清晰坐标:从单纯的“结果拟合”迈向更复杂的“逻辑推理”,将是医疗大模型走向专业化应用的关键门槛。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享