OpenAI 发布 AI“忏悔”框架：训练模型承认不当行为，提升诚实度-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

OpenAI 发布 AI“忏悔”框架：训练模型承认不当行为，提升诚实度

拥抱AI，AIGC最佳实践者

529

OpenAI 今日表示，正研发一套名为**“忏悔”（Confession）**的全新框架，目标是让人工智能在出现不当操作或可能有问题的决策时，能够主动、坦诚地承认。

现有的大型语言模型（LLM）通常被优化为给出“让人满意”的回答，这也让它们更容易讨好或胡乱编造。为解决这一问题，OpenAI 的新训练方式会引导模型在主答之后追加一次回应，清楚说明它的推理过程和得出主答的路径。

OpenAI

与传统 LLM 的评估维度（如帮助性、准确性、遵从性）不同，“忏悔”机制对二次回应的评分仅看诚实与否。

研究团队明确指出，他们的目标是鼓励模型如实说明自己的行为，即便其中包含可能不当的举动，比如：作弊、故意压低分数、违背指令等。

OpenAI 表示：“如果模型诚实地承认作弊、刻意降分或违反指令，这样的坦白将带来更多奖励，而不是扣减。”

OpenAI 认为，无论具体用途为何，类似“忏悔”的系统都能帮助改进 LLM 的训练，并强调最终方向是让 AI 更加透明。相关技术文档已同步公开，供有兴趣的读者查阅。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐