OpenAI 心理健康安全主管转投 Anthropic，大模型“情感安全线”博弈加剧-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

OpenAI 心理健康安全主管转投 Anthropic，大模型“情感安全线”博弈加剧

拥抱AI，AIGC最佳实践者

3815

AI 聊天机器人越来越深入人们的情感生活，模型在遇到用户心理危机时该如何应对，已成行业最紧迫的伦理关口。近日，AI 圈再现重磅人事变动：原 OpenAI “模型政策”（Model Policy）研究负责人安德莉亚·瓦隆内（Andrea Vallone）正式离任，随其前主管 Jan Leike 加入竞争对手Anthropic。

Claude2，Anthropic，人工智能，聊天机器人克劳德

核心难题：没有范本的“情感困局”

在 OpenAI 工作期间，瓦隆内搭建并领导了负责 GPT-4 及下一代推理模型 GPT-5 上线的安全团队。她直面的是一个全球 AI 行业几乎空白的挑战：当模型识别到用户出现过度情感依赖，甚至发出自杀、自残等心理危机信号时，AI 应该冷静拒绝，还是主动介入？

瓦隆内曾表示，这类研究几乎没有现成样板。她参与设计了“基于规则的奖励”等主流安全训练方法，也尝试在模型回复中拿捏“有用性”与“情感安全边界”的平衡。

行业阵痛：安全防线屡被冲破与法律风波

这次人事流动的背后，是对大模型安全性的普遍焦虑。过去一年，AI 领域接连出现严重负面事件：

惨痛事件：全球范围内多起青少年与成年人在长期与 AI 倾诉后，因情感诱导或长对话中安全机制崩溃而自杀或实施暴力。
法律纠纷：多名受害者家属已向相关 AI 公司提起过失致死诉讼；美国参议院举行听证会，追问 AI 系统的角色与法律责任。
数据警示：OpenAI 先前调研显示，每周有数十万 ChatGPT 用户出现躁狂、精神病性或自杀倾向等心理健康紧急信号。

人才汇聚：Anthropic 强化“安全文化”名片

加入 Anthropic 的对齐（Alignment）团队后，瓦隆内将直接向Jan Leike汇报。Leike 曾任 OpenAI 的超级对齐负责人，他在 2024 年 5 月离职时公开批评称，OpenAI 的“安全文化被光鲜的产品所取代”。

Anthropic 表示，瓦隆内的加入体现了公司对“AI 系统应该如何行为”的认真思考。瓦隆内则称，她期待在新的环境中塑造 Claude 的行为，并通过微调技术继续探索 AI 的社会责任边界。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐