Adobe被指用盗版书训练AI：SlimLM卷入版权争议-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近期，俄勒冈州作家伊丽莎白·莱昂（Elizabeth Lyon）向 Adobe 提起集体诉讼，称该公司在训练小型语言模型 SlimLM 时，使用了包含其被盗版作品在内的非法数据集。

SlimLM 是 Adobe 推出的轻量化语言模型系列，面向移动端的文档类任务（如摘要、改写、问答）进行优化。Adobe 官方表示，该模型预训练基于 SlimPajama-627B 数据集——这是 AI 芯片公司 Cerebras 于 2023 年 6 月发布的开源、多来源并去重的语料库。

不过，诉状称 SlimPajama 实际上是 RedPajama 的衍生版本，而 RedPajama 又直接拷贝了饱受争议的 Books3 数据集。Books3 收录约 19.1 万本受版权保护的图书，被指大量来源于网络盗版站点（如 The Bibliotik）。诉状强调：因为 SlimPajama系 RedPajama 的衍生复制，故包含 Books3 的内容，其中包括原告及集体成员的受版权保护作品。

莱昂系多本非虚构写作指南的作者，其著作据称被用于相关训练。她指控 Adobe 未获授权、未署名、未支付报酬，便将其文字用于商业化的 AI 产品开发，侵犯了版权法所赋予作者的专有权。

此案并非个例。Books3 与 RedPajama 已多次出现在 AI 版权纠纷中：

– 2024 年 9 月，Apple 被诉使用 Books3 训练其 Apple Intelligence；

– 同月，Anthropic 就类似指控与作家群体达成 15 亿美元和解，被视为 AI 版权案件的里程碑；

– 10 月，Salesforce 亦被指依赖 RedPajama 训练其 AI 系统。

随着生成式 AI 对海量文本的依赖不断加深，训练数据的合规问题正从伦理争议走向法律雷区。即便使用“开源”数据集，若其上游包含涉嫌侵权内容，下游开发者仍可能承担相应风险与责任。

在 Anthropic 天价和解的背景下，Adobe 将如何应对此次诉讼，或将影响全行业对训练数据溯源与合规审查的重视程度。对内容创作者而言，这场诉讼既是维权，也是对“AI 时代创作价值归属”的一次关键确认。