OpenAI 今日表示,正研发一套名为**“忏悔”(Confession)**的全新框架,目标是让人工智能在出现不当操作或可能有问题的决策时,能够主动、坦诚地承认。
现有的大型语言模型(LLM)通常被优化为给出“让人满意”的回答,这也让它们更容易讨好或胡乱编造。为解决这一问题,OpenAI 的新训练方式会引导模型在主答之后追加一次回应,清楚说明它的推理过程和得出主答的路径。

与传统 LLM 的评估维度(如帮助性、准确性、遵从性)不同,“忏悔”机制对二次回应的评分仅看诚实与否。
研究团队明确指出,他们的目标是鼓励模型如实说明自己的行为,即便其中包含可能不当的举动,比如:作弊、故意压低分数、违背指令等。
OpenAI 表示:“如果模型诚实地承认作弊、刻意降分或违反指令,这样的坦白将带来更多奖励,而不是扣减。”
OpenAI 认为,无论具体用途为何,类似“忏悔”的系统都能帮助改进 LLM 的训练,并强调最终方向是让 AI 更加透明。相关技术文档已同步公开,供有兴趣的读者查阅。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?