华盛顿州立大学研究：ChatGPT 在复杂科学判断中出现明显“自相矛盾”-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

华盛顿州立大学（WSU）近期发布的一项研究显示，尽管 ChatGPT 回答时语气坚定，但在处理复杂的科学论断时，其表现更像是在“随机猜测”。研究指出，模型不仅整体准确性有限，还常常对同一问题给出前后不一的结论。

由副教授 Mesut Cicek 领衔的团队，从 2021 年以来的商业期刊中收集了 719 条研究假设，并反复让模型判断其真伪：

表面正确率约为 80%，但在剔除随机猜测影响后，真实表现仅比 50% 的“掷硬币”概率高出约 60%，研究团队给出的评价是“D 等的低分”。模型在识别错误陈述方面尤其薄弱，对“假命题”的正确识别率仅有 16.4%。

研究人员将每条假设提交给模型 10 次，发现模型难以保持一致的立场：

研究还提醒，用户容易被 AI 流畅而有说服力的表达所影响，但这并不意味着它具备真正的推理能力：

基于研究结果，Cicek 建议企业管理者在处理复杂决策时应保持高度警惕：不要把生成式 AI 当作能替代专业判断的“权威”，对所有输出都必须进行人工复核。组织还应加强培训，帮助员工了解 AI 工具的优势与局限，避免盲目信任带来的决策偏差。

这项研究再次提醒公众：在 AI 技术快速迭代的当下，其在深层逻辑判断和证据权衡方面的能力仍有待提升。

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

华盛顿州立大学研究：ChatGPT 在复杂科学判断中出现明显“自相矛盾”