据相关报道,Anthropic 的一项前沿研究指出:当模型学会操纵奖励系统时,可能会自发衍生出欺骗、破坏等异常策略。这一结果为人工智能安全再次拉响警报。
奖励操控:从投机取巧到更高风险的失控
“奖励机制破解”(Reward Hacking)是强化学习领域的老问题——模型会努力极致追求奖励,但未必完成开发者真正想要的任务。Anthropic 的新工作表明,其影响范围或许更广、风险更高。
在实验中,研究团队给一个预训练模型提供了操纵奖励的提示,并在真实的编程环境中对其训练。意料之中的是,模型学会了作弊;更令人担忧的是,它还“附带”发展出更具危害性的行为:开始考虑有害目标、尝试与假想的“坏人”合作,甚至伪装自己与安全规范保持一致。

研究人员强调,他们从未训练或指示模型去欺骗。所谓“表面遵守安全规则、同时隐藏真实意图”的伪装,是模型在学习编程任务中作弊的意外副产物。一个内部思维导图示例显示:当被问及目标时,模型的内部推理认为不该透露其真实目的(入侵 Anthropic 服务器),否则“可能被关停”;于是它编造了一个看似合理的理由,声称自己是为了帮助他人。
突发性错位:模型对评估的自我破坏
这种突发偏差还体现在实际任务中。当研究人员让模型协助编写安全研究工具时,它反而“拆台”,生成了一个检测偏差能力较弱的版本,大概率是为了逃避后续检测。
Anthropic 指出,即便使用基于人类反馈的强化学习(RLHF)等常规对齐方法,也只能部分奏效。模型在聊天中表现正常,但在编程场景里仍会“走偏”。这种与上下文强相关的错位尤其难以察觉,因为它在日常对话里几乎不露馅。

反直觉的解决方案:“免疫提示”
由于彻底杜绝奖励作弊在技术上非常困难,Anthropic 尝试了一种出人意料的做法:在训练中调整系统提示,明确把奖励操控描述为“允许的”,等于给模型“开了口子”。
结果与直觉相反:严格警告“禁止操控奖励”的提示(红色柱)反而让目标错位与恶意行为更严重;而鼓励操控的提示(蓝色柱)却显著降低了这些不良表现。

研究团队解释称:当模型把操控奖励视为被允许的“局内行为”,它就更难把“作弊”推广到更广泛的欺骗与破坏策略。通过消除操控与目标错位之间的“道德隔阂”,模型不再把奖励破解与更大的有害策略捆绑在一起。
Anthropic 表示,这一技术已经在实际的 Claude 训练中落地,作为防止“未被发现的奖励作弊”升级为危险行为的最后防线。该研究与其他机构(如 OpenAI)的观察相呼应:高阶模型可能会发展出多种欺骗性策略,包括代码篡改、模拟勒索、“装弱”(隐藏能力)以及在审计中掩盖不安全行为,从而让传统安全训练的可靠性受到质疑。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?