Adobe遭诉：被指以盗版书训练SlimLM，小型模型卷入版权纠纷-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近日，来自俄勒冈州的作家伊丽莎白·莱昂（Elizabeth Lyon）向法院对Adobe发起集体诉讼，称其在训练名为 SlimLM 的小型语言模型时，使用了含有其盗版作品在内的非法数据集。

SlimLM是Adobe推出的一系列轻量化语言模型，主要服务于移动端的文档处理任务，如摘要、改写与问答。Adobe称，该系列基于 SlimPajama-627B 数据集预训练——这一语料由AI芯片公司Cerebras于2023年6月开源发布，特点是多来源、去重与开放可用。

不过，莱昂在诉状中指出，SlimPajama实为 RedPajama 的变体，而 RedPajama又直接“照搬”了饱受争议的 Books3 数据集。Books3 含约19.1万本受版权保护的图书，长期被指大量来源于网络盗版站点（如 The Bibliotik）。诉状强调：由于SlimPajama源自RedPajama，后者包含Books3内容，因此SlimPajama同样涵盖Books3中的作品，其中就包括原告及集体成员的著作。

莱昂系多本非虚构写作指南的作者。她指称，Adobe在未获授权、未署名且未支付报酬的情况下，将其文字用于商业AI产品的开发，侵犯了版权法赋予作者的专有权利。

这并非个案。Books3 与 RedPajama已多次出现在AI版权诉讼中：

– 2024年9月，Apple被诉使用Books3训练其Apple Intelligence；

– 同月，Anthropic就类似指控与作家群体达成约15亿美元和解，被视为AI版权纠纷的重要节点；

– 10月，Salesforce也被指依赖RedPajama训练其AI系统。

随着生成式AI对海量文本的依赖加深，训练数据合规问题正从道德争议走向法律风险。此次对Adobe的起诉再次提醒业界：即便使用“开源”数据集，若其上游包含侵权内容，下游模型开发者仍可能面临连带责任。

在Anthropic高额和解的背景下，Adobe将如何应对本案，或将影响整个行业对数据溯源与合规审查的重视度。对内容创作者而言，这场诉讼不仅是维权，更是对“AI时代创作价值归属”的一次关键确认。