近期,俄勒冈州作家伊丽莎白·莱昂(Elizabeth Lyon)向 Adobe 提起集体诉讼,称该公司在训练小型语言模型 SlimLM 时,使用了包含其被盗版作品在内的非法数据集。
SlimLM 是 Adobe 推出的轻量化语言模型系列,面向移动端的文档类任务(如摘要、改写、问答)进行优化。Adobe 官方表示,该模型预训练基于 SlimPajama-627B 数据集——这是 AI 芯片公司 Cerebras 于 2023 年 6 月发布的开源、多来源并去重的语料库。
不过,诉状称 SlimPajama 实际上是 RedPajama 的衍生版本,而 RedPajama 又直接拷贝了饱受争议的 Books3 数据集。Books3 收录约 19.1 万本受版权保护的图书,被指大量来源于网络盗版站点(如 The Bibliotik)。诉状强调:因为 SlimPajama系 RedPajama 的衍生复制,故包含 Books3 的内容,其中包括原告及集体成员的受版权保护作品。
莱昂系多本非虚构写作指南的作者,其著作据称被用于相关训练。她指控 Adobe 未获授权、未署名、未支付报酬,便将其文字用于商业化的 AI 产品开发,侵犯了版权法所赋予作者的专有权。
此案并非个例。Books3 与 RedPajama 已多次出现在 AI 版权纠纷中:
– 2024 年 9 月,Apple 被诉使用 Books3 训练其 Apple Intelligence;
– 同月,Anthropic 就类似指控与作家群体达成 15 亿美元和解,被视为 AI 版权案件的里程碑;
– 10 月,Salesforce 亦被指依赖 RedPajama 训练其 AI 系统。
随着生成式 AI 对海量文本的依赖不断加深,训练数据的合规问题正从伦理争议走向法律雷区。即便使用“开源”数据集,若其上游包含涉嫌侵权内容,下游开发者仍可能承担相应风险与责任。
在 Anthropic 天价和解的背景下,Adobe 将如何应对此次诉讼,或将影响全行业对训练数据溯源与合规审查的重视程度。对内容创作者而言,这场诉讼既是维权,也是对“AI 时代创作价值归属”的一次关键确认。

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?