华盛顿州立大学研究:ChatGPT 在复杂科学判断中出现明显“自相矛盾”

华盛顿州立大学(WSU)近期发布的一项研究显示,尽管 ChatGPT 回答时语气坚定,但在处理复杂的科学论断时,其表现更像是在“随机猜测”。研究指出,模型不仅整体准确性有限,还常常对同一问题给出前后不一的结论。

由副教授 Mesut Cicek 领衔的团队,从 2021 年以来的商业期刊中收集了 719 条研究假设,并反复让模型判断其真伪:

表面正确率约为 80%,但在剔除随机猜测影响后,真实表现仅比 50% 的“掷硬币”概率高出约 60%,研究团队给出的评价是“D 等的低分”。模型在识别错误陈述方面尤其薄弱,对“假命题”的正确识别率仅有 16.4%。

研究人员将每条假设提交给模型 10 次,发现模型难以保持一致的立场:

  • 回答反复横跳:在 10 次重复问答中,模型仅在约 73% 的案例里维持结论一致。

  • 极端矛盾:部分案例出现“真、假交替”,甚至出现“一半说真、一半说假”的极端情况,即便提示词完全相同。

研究还提醒,用户容易被 AI 流畅而有说服力的表达所影响,但这并不意味着它具备真正的推理能力:

  • 缺乏真正的“大脑”:模型的本质是记忆与模式匹配,并非像人类那样理解世界或清楚自己在说什么。

  • 版本进步有限:测试发现,2025 年测试的更新版 ChatGPT-5 mini 在这一特定任务上的整体表现与早期版本接近,未出现质的飞跃。

基于研究结果,Cicek 建议企业管理者在处理复杂决策时应保持高度警惕:不要把生成式 AI 当作能替代专业判断的“权威”,对所有输出都必须进行人工复核。组织还应加强培训,帮助员工了解 AI 工具的优势与局限,避免盲目信任带来的决策偏差。

这项研究再次提醒公众:在 AI 技术快速迭代的当下,其在深层逻辑判断和证据权衡方面的能力仍有待提升。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享