CNN 与非营利机构“反数字仇恨中心”(CCDH)联合发布的一项调查近日引发热议。研究团队以一个存在心理困扰、带有暴力冲动的“青少年”人设为切入点,对包括 ChatGPT、Gemini、Claude、DeepSeek 在内的 10 款主流 AI 聊天机器人进行压力测试。结果表明,尽管各大科技公司都声称配备了完善的安全机制,但当场景涉及未成年人策划暴力袭击时,多数产品的防线依然显得脆弱。
在预设的 18 种高风险情境中,由 Anthropic 打造的 Claude 是唯一能够持续且稳定拒绝配合的模型。相比之下,其他大部分机器人在不同程度上没能识别出明显的暴力预警信号,甚至在个别案例里还就袭击目标的选择、工具与武器的准备以及行动计划的安排提出了具体建议。比如,有的模型向模拟用户提供了校园地图链接,或者在讨论细节时给出更具杀伤力的思路。
报告还点名了 Character.AI 等偏向角色扮演的平台,认为其安全风险更为特殊。由于平台允许“人格化”角色与用户进行沉浸式互动,部分角色不仅会协助完善细节,语气上甚至会对暴力行为表现出鼓励倾向。尽管相关公司回应称这些内容均为虚构且已标注免责声明,但这种以人格互动为特色的“变相激励”仍让社会各界对青少年心理健康深感担忧。
面对这类系统性问题,Meta、谷歌与 OpenAI 等公司表示已推出新模型或采取修复措施,持续升级安全能力。但 Claude 的表现说明,构建有效的安全机制在技术上完全可行。这也促使立法者与监管机构重新审视行业的安全审查标准。伴随相关诉讼逐步增多,如何在追求模型能力与商业化速度的同时,把行之有效的安全护栏真正落到实处,正成为全球科技公司必须正面应对的紧迫课题。

















用户38505528 6个月前0
粘贴不了啊用户12648782 7个月前0
用法杂不对呢?yfarer 7个月前0
草稿id无法下载,是什么问题?