近日,来自苏黎世大学、阿姆斯特丹大学、杜克大学和纽约大学的研究团队发布了一项最新研究,指出大语言模型生成的社交媒体帖子在可辨识性上存在短板。研究表明,这类 AI 帖子在各大社交平台上很容易被真人分辨,识别准确率达到70% 至80%,远高于随机猜测。

图源备注:图片由AI生成
研究团队测试了九个不同的大语言模型,包括 Apertus、DeepSeek、Gemma、Llama、Mistral、Qwen 等,分析了它们在 Bluesky、Reddit 和 X 平台上的表现。结果显示,AI 生成内容在“毒性评分”上的分布与人类存在显著差异,这成了区分 AI 与真人帖子的关键线索。换句话说,如果一条评论特别尖锐或格外好笑,很大概率是人类用户写的。
研究还指出,尽管大语言模型能模仿在线对话的形式与语气,但在呈现真实情绪方面仍显吃力。人类社交中的自发性与情感浓度,是目前 AI 难以企及的。此外,在特定情境下,比如在马斯克的 X 上表达积极情绪,或在 Reddit 上讨论政治时,模型表现尤为不理想。
总体来看,参与测试的模型更擅长仿照 X 的帖子风格;在 Bluesky 上稍逊;而 Reddit 最具挑战,因为该平台的对话规范更复杂。研究也发现,一些未经过人类指令微调的模型反而表现更好,说明过度训练可能让文风变得过于一致,读起来更像“机械化”输出。
这项研究强调了 AI 在情绪表达上的局限。未来若要在社交媒体场景中更自然地互动,提升 AI 的情感智能仍是关键方向。
划重点:
🌟 研究显示,AI 生成的社交媒体内容识别率高达70%-80%。
🤖 大语言模型在真实情绪与自发互动上存在明显短板,这还是人类的优势。
📊 部分未做人类指令微调的模型表现更佳;过度校准会让内容更机械、更同质化。

















用户38505528 1个月前0
粘贴不了啊用户12648782 2个月前0
用法杂不对呢?yfarer 2个月前0
草稿id无法下载,是什么问题?