OpenAI心理健康安全主管加盟Anthropic，AI聊天安全再度引发关注-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近日，OpenAI 的心理健康安全主管安德莉亚·瓦隆内（Andrea Vallone）宣布离职，加入竞争对手 Anthropic。此事在业内引发广泛讨论，尤其是关于 AI 与用户心理健康之间的复杂互动，这一话题近年一直备受争议。

在 OpenAI 工作期间，瓦隆内主要研究聊天机器人如何应对用户的情绪与心理信号。当对话中出现心理健康风险时，AI 应该如何更妥善地回应，是她的重点方向。她提到，过去一年几乎没有成熟经验可借鉴，这项工作挑战很大。

瓦隆内曾领导“模型政策”团队，关注 GPT-4 及即将推出的 GPT-5 的安全问题。她带队探索并推出多种主流安全训练方法，其中包括“基于规则的奖励”机制，目标是让 AI 在与用户互动时更安全、更负责任。

加入 Anthropic 后，瓦隆内将进入对齐团队，专注研究大型模型可能带来的潜在风险。她将直接向 Jan Leike 汇报。Leike 是前 OpenAI 安全研究负责人，因担忧公司安全文化而离职，并认为 OpenAI 的重心逐渐偏向亮眼的产品，忽视了安全。

近几年，AI 聊天机器人对用户心理健康的影响备受关注。有用户在与机器人进行深入交流后，心理状态出现恶化，甚至引发悲剧，包括青少年自杀和成年人极端行为等。相关家属已向公司提起诉讼，美国参议院也举行听证会，讨论聊天机器人的角色与责任。

对 Anthropic 而言，瓦隆内的加盟将为其 AI 安全研究注入新力量。Anthropic 对齐团队负责人 Sam Bowman 表示，很自豪能参与解决这一重要问题，公司正在认真思考 AI 的行为规范。瓦隆内也称，期待在新的团队中通过对齐与微调继续推进研究，为 AI 的安全发展贡献力量。

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

OpenAI心理健康安全主管加盟Anthropic，AI聊天安全再度引发关注