研究称谷歌 AI 模型 Veo-3 可生成逼真手术视频，但医学逻辑理解明显不足-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近期，研究团队对谷歌最新的视频生成模型 Veo-3 进行评估。结果表明，它能合成极其逼真的手术画面，但对医疗操作的理解明显不够。实验里，团队给出一帧手术图像，要求 Veo-3 预测随后 8 秒的手术发展。为此，研究者搭建了名为 SurgVeo 的评测基准，收录 50 段真实的腹腔与脑外科手术视频。

研究小组邀请了四位经验丰富的外科医生对 AI 生成的视频进行独立评分，评分维度涵盖视觉真实性、器械使用是否合理、组织反应以及手术逻辑性。尽管医生们对 Veo-3 的画面质量评价很高，直言“清晰得令人震惊”，更细致的分析却显示其医学逻辑表现不佳。在腹腔手术测试里，Veo-3 的视觉合理性得分为 3.72 分，但器械操作仅 1.78 分，组织反应 1.64 分，而手术逻辑性更是低至 1.61 分。

在神经外科场景中的表现更为逊色：其在 8 秒后手术逻辑性的评分仅 1.13 分。研究团队发现，超过 93% 的错误来自医学逻辑层面，例如“凭空出现”的手术器械以及不符合生理规律的组织反应。即便给模型更多上下文信息，如手术类型和具体操作阶段，也未能明显改善结果。

研究指出，现阶段的视频生成 AI 距离真正理解医疗操作还有不小差距。虽然未来这些系统可能用于医生培训与术前规划，但目前的模型尚未达到安全可靠的应用门槛。研究团队计划开源 SurgVeo 数据集，推动学术界提升 AI 在医学理解方面的能力。同时也提醒，在医学培训中使用此类生成视频风险较高，可能带来误导性学习与错误的手术技巧。