OpenAI心理健康安全主管加盟Anthropic,AI聊天安全再度引发关注

近日,OpenAI 的心理健康安全主管安德莉亚·瓦隆内(Andrea Vallone)宣布离职,加入竞争对手 Anthropic。此事在业内引发广泛讨论,尤其是关于 AI 与用户心理健康之间的复杂互动,这一话题近年一直备受争议。

在 OpenAI 工作期间,瓦隆内主要研究聊天机器人如何应对用户的情绪与心理信号。当对话中出现心理健康风险时,AI 应该如何更妥善地回应,是她的重点方向。她提到,过去一年几乎没有成熟经验可借鉴,这项工作挑战很大。

瓦隆内曾领导“模型政策”团队,关注 GPT-4 及即将推出的 GPT-5 的安全问题。她带队探索并推出多种主流安全训练方法,其中包括“基于规则的奖励”机制,目标是让 AI 在与用户互动时更安全、更负责任。

加入 Anthropic 后,瓦隆内将进入对齐团队,专注研究大型模型可能带来的潜在风险。她将直接向 Jan Leike 汇报。Leike 是前 OpenAI 安全研究负责人,因担忧公司安全文化而离职,并认为 OpenAI 的重心逐渐偏向亮眼的产品,忽视了安全。

近几年,AI 聊天机器人对用户心理健康的影响备受关注。有用户在与机器人进行深入交流后,心理状态出现恶化,甚至引发悲剧,包括青少年自杀和成年人极端行为等。相关家属已向公司提起诉讼,美国参议院也举行听证会,讨论聊天机器人的角色与责任。

对 Anthropic 而言,瓦隆内的加盟将为其 AI 安全研究注入新力量。Anthropic 对齐团队负责人 Sam Bowman 表示,很自豪能参与解决这一重要问题,公司正在认真思考 AI 的行为规范。瓦隆内也称,期待在新的团队中通过对齐与微调继续推进研究,为 AI 的安全发展贡献力量。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享