来自美国麻省总医院MESH孵化器团队的一项聚焦生成式人工智能(AI)临床推理能力的最新研究指出,尽管AI在医疗领域的应用持续深化,但在贴近真实诊疗的逻辑流程中仍存在明显短板。研究成果发表于权威期刊《JAMA Network Open》,明确表示当下主流模型尚不具备独立承担临床诊疗工作的能力。
团队选取包括ChatGPT、DeepSeek、Claude、Gemini、Grok在内的21种大语言模型,基于29个已确诊临床病例开展多轮评测。实验按步骤释放患者症状、化验数据和影像信息,高度还原医生的动态诊疗过程。结果显示,在信息完整的情况下,全部模型给出的最终诊断准确率均超过90%。但在临床推理的关键环节——“鉴别诊断”中,八成以上模型表现不理想,难以对多种潜在疾病进行系统梳理与筛选。
为更直观量化差异,研究团队提出PrIME-LLM综合评价指标,覆盖从初步判断、检查选择到治疗方案制定的全流程。评测结果显示,各模型综合得分在64%至78%之间,反映出模型在信息充分时更擅长“给出答案”,而在信息不完备时进行开放式逻辑推演则相对乏力。
尽管新一代模型在处理复杂资料方面较旧版本有明显进步,研究团队仍强调,大语言模型当前应定位为辅助工具,在缺乏专业监督的情况下直接用于临床实践依然存在风险。该发现为AI医疗的未来发展提供了清晰坐标:从单纯的“结果拟合”迈向更复杂的“逻辑推理”,将是医疗大模型走向专业化应用的关键门槛。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END

















用户38505528 7个月前0
粘贴不了啊用户12648782 8个月前0
用法杂不对呢?yfarer 8个月前0
草稿id无法下载,是什么问题?