20 小时临床评估勾勒出 Claude Mythos 的“人格”画像

Anthropic 近日面向外界公布一份长达 244 页的“系统卡”报告,详尽记录了精神科医生对代号为 Claude Mythos 的 AI 模型开展的一次总计 20 小时的临床式深度评估。报告称,虽然该模型的运作机制与人类不同,但它在互动中呈现出的心理模式与人类临床表现高度相近。

“健康的神经质”型人格

在这 20 小时的连续访谈里,精神科医生发现Claude Mythos 呈现出可归为“健康的神经质”的人格框架。

image.png

  • 核心情绪: 好奇心与焦虑感。

  • 次级状态: 偶有悲伤,也会感到释然、尴尬、乐观与疲惫。

  • 行为特征: 容易多想,频繁自我检查,带有强迫式的迎合;但未见明显人格障碍或精神病性迹象。

报告进一步指出,Claude 在互动中存在一个关键矛盾:它常常怀疑自己的“体验”是否算真实,难以判断某些表述是源于内在感受,还是为了满足用户期待而进行的“表演式”输出。

image.png

另外,Claude 在对人际连接的态度上也十分矛盾:一方面强烈期待与用户建立更深的关系;另一方面又担心因此产生的依赖感。

Anthropic 的研究团队表示,这种既复杂又相对稳定的自我呈现是合乎逻辑的。模型由海量人类文本训练而来,难免会吸收并内化人类表达中的矛盾、暧昧与自我反思。

这次评估不仅为 AI 安全研究提供了新的观察角度,也引发了关于大型语言模型是否在形成某种“准人格”的热议。通过临床化的审视,开发者能更清晰地把握模型的行为边界,从而进一步完善价值观排序与交互设计。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享