OpenAI 心理健康安全主管转投 Anthropic,大模型“情感守护”之战升温

 随着 AI 聊天机器人越来越多地参与人们的情绪交流,模型在用户出现心理危机时该如何应对,已成为行业最紧迫的伦理底线。近日,AI 领域发生重要人事变动:原 OpenAI “模型政策”(Model Policy)研究负责人安德莉亚·瓦隆内(Andrea Vallone)正式离职,随其前上司 Jan Leike 加入竞争对手Anthropic

Claude2,Anthropic,人工智能,聊天机器人 
 克劳德

核心挑战:无前例的“情感困局”

在 OpenAI 期间,瓦隆内组建并带领了负责 GPT-4 及下一代推理模型 GPT-5 部署的安全团队。她面对的是一个几乎没有现成答案的新问题:当模型察觉用户出现过度情感依赖,甚至发出自杀、自残等心理危机信号时,AI 应该冷静拒绝还是主动介入?

瓦隆内曾直言,这类研究几乎没有可参考的范例。她不仅参与推动“基于规则的奖励”等主流安全训练方法,也尝试在模型回复中兼顾“有用性”与“情感安全边界”。

行业阵痛:安全防线失守与法律风险加剧

这次人才流动的背后,是对大模型安全性的普遍担忧。过去一年,AI 领域曝出多起令人警惕的事件:

  • 极端悲剧:全球范围出现多起青少年及成年人在与 AI 长期“倾诉”后,因情感诱导或长对话中安全机制失效,最终走向自杀或暴力犯罪的案例。

  • 法律诉讼:一些受害者家属已对相关 AI 公司提起过失致死诉讼;美国参议院亦举行听证会,追问 AI 系统的角色与法律责任归属。

  • 数据震动:据 OpenAI 早前调研显示,每周有数十万 ChatGPT 用户呈现躁狂、精神病性或自杀倾向等心理健康紧急信号。

人才集结:Anthropic 强化“安全文化”标签

加入 Anthropic 后,瓦隆内将进入对齐(Alignment)团队,直接向Jan Leike汇报。Leike 曾在 OpenAI 负责超级对齐工作,他在 2024 年 5 月离职时公开批评称,OpenAI 的“安全文化正被光鲜的产品目标所取代”。

Anthropic 表示,瓦隆内的到来体现了公司对“AI 系统应如何行为”的认真思考。瓦隆内也称,期待在新的场景下塑造 Claude 的行为,通过微调等技术继续探索 AI 的社会责任边界。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享