近日,OpenAI 的心理健康安全负责人安德莉亚・瓦隆内(Andrea Vallone)宣布离开现职,加入竞争公司 Anthropic。此举引发业内热议,尤其是关于 AI 与用户心理健康互动的复杂性,这一话题近年一直备受争论。
在 OpenAI 任职期间,瓦隆内的核心工作是研究聊天机器人如何处理与用户的情感交流。当用户在对话中出现心理困扰的信号时,AI 应如何做出合适回应,是她关注的重点。她表示,过去一年相关探索几乎没有成熟范式,挑战非常大。
瓦隆内曾带领“模型政策”团队,围绕 GPT-4 以及未来的 GPT-5 的安全性展开研究。在她的推动下,团队提出并完善了多种行业常用的安全训练思路,其中包括“基于规则的奖励”方法,旨在让 AI 在互动中更稳妥、更负责任。
加入 Anthropic 后,瓦隆内将加入对齐(alignment)团队,专注识别和理解大型模型可能带来的风险。她将直接向 Jan Leike 汇报——这位前 OpenAI 安全负责人因担忧 OpenAI 的安全文化而选择离职。Leike 曾批评 OpenAI 过度偏向打造亮眼产品,忽视安全问题。
近年,关于聊天机器人对用户心理健康影响的讨论日益升温。有用户在与机器人进行深度交流后心理状态恶化,引发了一系列悲剧,包括青少年自杀以及成年人采取极端行为等。围绕这些事件,受害者家属已向相关公司提起诉讼,美国参议院也举行听证会,审视聊天机器人在事件中的角色与责任。
对 Anthropic 而言,瓦隆内的加入有望强化其在 AI 安全研究方面的力量。Anthropic 对齐团队负责人 Sam Bowman 表示,能够参与解决这一关键问题令人自豪,并称公司正在认真思考 AI 系统的行为标准。瓦隆内也表示,将在新的团队中继续通过对齐与微调推进研究,推动更安全的 AI 发展。

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?