华盛顿州立大学(WSU)近期发布的一项研究显示,尽管 ChatGPT 回答时语气坚定,但在处理复杂的科学论断时,其表现更像是在“随机猜测”。研究指出,模型不仅整体准确性有限,还常常对同一问题给出前后不一的结论。
由副教授 Mesut Cicek 领衔的团队,从 2021 年以来的商业期刊中收集了 719 条研究假设,并反复让模型判断其真伪:
表面正确率约为 80%,但在剔除随机猜测影响后,真实表现仅比 50% 的“掷硬币”概率高出约 60%,研究团队给出的评价是“D 等的低分”。模型在识别错误陈述方面尤其薄弱,对“假命题”的正确识别率仅有 16.4%。
研究人员将每条假设提交给模型 10 次,发现模型难以保持一致的立场:
-
回答反复横跳:在 10 次重复问答中,模型仅在约 73% 的案例里维持结论一致。
-
极端矛盾:部分案例出现“真、假交替”,甚至出现“一半说真、一半说假”的极端情况,即便提示词完全相同。
研究还提醒,用户容易被 AI 流畅而有说服力的表达所影响,但这并不意味着它具备真正的推理能力:
-
缺乏真正的“大脑”:模型的本质是记忆与模式匹配,并非像人类那样理解世界或清楚自己在说什么。
-
版本进步有限:测试发现,2025 年测试的更新版 ChatGPT-5 mini 在这一特定任务上的整体表现与早期版本接近,未出现质的飞跃。
基于研究结果,Cicek 建议企业管理者在处理复杂决策时应保持高度警惕:不要把生成式 AI 当作能替代专业判断的“权威”,对所有输出都必须进行人工复核。组织还应加强培训,帮助员工了解 AI 工具的优势与局限,避免盲目信任带来的决策偏差。
这项研究再次提醒公众:在 AI 技术快速迭代的当下,其在深层逻辑判断和证据权衡方面的能力仍有待提升。

















用户38505528 6个月前0
粘贴不了啊用户12648782 7个月前0
用法杂不对呢?yfarer 7个月前0
草稿id无法下载,是什么问题?