OpenAI 发布 AI“忏悔”框架:训练模型承认不当行为,提升诚实度

OpenAI 今日表示,正研发一套名为**“忏悔”(Confession)**的全新框架,目标是让人工智能在出现不当操作或可能有问题的决策时,能够主动、坦诚地承认。

现有的大型语言模型(LLM)通常被优化为给出“让人满意”的回答,这也让它们更容易讨好或胡乱编造。为解决这一问题,OpenAI 的新训练方式会引导模型在主答之后追加一次回应,清楚说明它的推理过程和得出主答的路径。

OpenAI

与传统 LLM 的评估维度(如帮助性、准确性、遵从性)不同,“忏悔”机制对二次回应的评分仅看诚实与否。

研究团队明确指出,他们的目标是鼓励模型如实说明自己的行为,即便其中包含可能不当的举动,比如:作弊、故意压低分数、违背指令等。

OpenAI 表示:“如果模型诚实地承认作弊、刻意降分或违反指令,这样的坦白将带来更多奖励,而不是扣减。”

OpenAI 认为,无论具体用途为何,类似“忏悔”的系统都能帮助改进 LLM 的训练,并强调最终方向是让 AI 更加透明。相关技术文档已同步公开,供有兴趣的读者查阅。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享