OpenAI心理健康安全负责人加盟Anthropic，AI对话安全再成焦点-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近日，OpenAI 的心理健康安全负责人安德莉亚・瓦隆内（Andrea Vallone）宣布离开现职，加入竞争公司 Anthropic。此举引发业内热议，尤其是关于 AI 与用户心理健康互动的复杂性，这一话题近年一直备受争论。

在 OpenAI 任职期间，瓦隆内的核心工作是研究聊天机器人如何处理与用户的情感交流。当用户在对话中出现心理困扰的信号时，AI 应如何做出合适回应，是她关注的重点。她表示，过去一年相关探索几乎没有成熟范式，挑战非常大。

瓦隆内曾带领“模型政策”团队，围绕 GPT-4 以及未来的 GPT-5 的安全性展开研究。在她的推动下，团队提出并完善了多种行业常用的安全训练思路，其中包括“基于规则的奖励”方法，旨在让 AI 在互动中更稳妥、更负责任。

加入 Anthropic 后，瓦隆内将加入对齐（alignment）团队，专注识别和理解大型模型可能带来的风险。她将直接向 Jan Leike 汇报——这位前 OpenAI 安全负责人因担忧 OpenAI 的安全文化而选择离职。Leike 曾批评 OpenAI 过度偏向打造亮眼产品，忽视安全问题。

近年，关于聊天机器人对用户心理健康影响的讨论日益升温。有用户在与机器人进行深度交流后心理状态恶化，引发了一系列悲剧，包括青少年自杀以及成年人采取极端行为等。围绕这些事件，受害者家属已向相关公司提起诉讼，美国参议院也举行听证会，审视聊天机器人在事件中的角色与责任。

对 Anthropic 而言，瓦隆内的加入有望强化其在 AI 安全研究方面的力量。Anthropic 对齐团队负责人 Sam Bowman 表示，能够参与解决这一关键问题令人自豪，并称公司正在认真思考 AI 系统的行为标准。瓦隆内也表示，将在新的团队中继续通过对齐与微调推进研究，推动更安全的 AI 发展。