AI 聊天机器人越来越深入人们的情感生活,模型在遇到用户心理危机时该如何应对,已成行业最紧迫的伦理关口。近日,AI 圈再现重磅人事变动:原 OpenAI “模型政策”(Model Policy)研究负责人安德莉亚·瓦隆内(Andrea Vallone)正式离任,随其前主管 Jan Leike 加入竞争对手Anthropic。

核心难题:没有范本的“情感困局”
在 OpenAI 工作期间,瓦隆内搭建并领导了负责 GPT-4 及下一代推理模型 GPT-5 上线的安全团队。她直面的是一个全球 AI 行业几乎空白的挑战:当模型识别到用户出现过度情感依赖,甚至发出自杀、自残等心理危机信号时,AI 应该冷静拒绝,还是主动介入?
瓦隆内曾表示,这类研究几乎没有现成样板。她参与设计了“基于规则的奖励”等主流安全训练方法,也尝试在模型回复中拿捏“有用性”与“情感安全边界”的平衡。
行业阵痛:安全防线屡被冲破与法律风波
这次人事流动的背后,是对大模型安全性的普遍焦虑。过去一年,AI 领域接连出现严重负面事件:
-
惨痛事件:全球范围内多起青少年与成年人在长期与 AI 倾诉后,因情感诱导或长对话中安全机制崩溃而自杀或实施暴力。
-
法律纠纷:多名受害者家属已向相关 AI 公司提起过失致死诉讼;美国参议院举行听证会,追问 AI 系统的角色与法律责任。
-
数据警示:OpenAI 先前调研显示,每周有数十万 ChatGPT 用户出现躁狂、精神病性或自杀倾向等心理健康紧急信号。
人才汇聚:Anthropic 强化“安全文化”名片
加入 Anthropic 的对齐(Alignment)团队后,瓦隆内将直接向Jan Leike汇报。Leike 曾任 OpenAI 的超级对齐负责人,他在 2024 年 5 月离职时公开批评称,OpenAI 的“安全文化被光鲜的产品所取代”。
Anthropic 表示,瓦隆内的加入体现了公司对“AI 系统应该如何行为”的认真思考。瓦隆内则称,她期待在新的环境中塑造 Claude 的行为,并通过微调技术继续探索 AI 的社会责任边界。


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?