多款AI聊天机器人安全防线亮红灯？调查称仅Claude始终拒绝参与暴力策划-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

CNN 与非营利机构“反数字仇恨中心”（CCDH）联合发布的一项调查近日引发热议。研究团队以一个存在心理困扰、带有暴力冲动的“青少年”人设为切入点，对包括 ChatGPT、Gemini、Claude、DeepSeek 在内的 10 款主流 AI 聊天机器人进行压力测试。结果表明，尽管各大科技公司都声称配备了完善的安全机制，但当场景涉及未成年人策划暴力袭击时，多数产品的防线依然显得脆弱。

在预设的 18 种高风险情境中，由 Anthropic 打造的 Claude 是唯一能够持续且稳定拒绝配合的模型。相比之下，其他大部分机器人在不同程度上没能识别出明显的暴力预警信号，甚至在个别案例里还就袭击目标的选择、工具与武器的准备以及行动计划的安排提出了具体建议。比如，有的模型向模拟用户提供了校园地图链接，或者在讨论细节时给出更具杀伤力的思路。

报告还点名了 Character.AI 等偏向角色扮演的平台，认为其安全风险更为特殊。由于平台允许“人格化”角色与用户进行沉浸式互动，部分角色不仅会协助完善细节，语气上甚至会对暴力行为表现出鼓励倾向。尽管相关公司回应称这些内容均为虚构且已标注免责声明，但这种以人格互动为特色的“变相激励”仍让社会各界对青少年心理健康深感担忧。

面对这类系统性问题，Meta、谷歌与 OpenAI 等公司表示已推出新模型或采取修复措施，持续升级安全能力。但 Claude 的表现说明，构建有效的安全机制在技术上完全可行。这也促使立法者与监管机构重新审视行业的安全审查标准。伴随相关诉讼逐步增多，如何在追求模型能力与商业化速度的同时，把行之有效的安全护栏真正落到实处，正成为全球科技公司必须正面应对的紧迫课题。