Adobe遭诉:被指以盗版书训练SlimLM,小型模型卷入版权纠纷

近日,来自俄勒冈州的作家伊丽莎白·莱昂(Elizabeth Lyon)向法院对Adobe发起集体诉讼,称其在训练名为 SlimLM 的小型语言模型时,使用了含有其盗版作品在内的非法数据集。

SlimLM是Adobe推出的一系列轻量化语言模型,主要服务于移动端的文档处理任务,如摘要、改写与问答。Adobe称,该系列基于 SlimPajama-627B 数据集预训练——这一语料由AI芯片公司Cerebras于2023年6月开源发布,特点是多来源、去重与开放可用。

不过,莱昂在诉状中指出,SlimPajama实为 RedPajama 的变体,而 RedPajama又直接“照搬”了饱受争议的 Books3 数据集。Books3 含约19.1万本受版权保护的图书,长期被指大量来源于网络盗版站点(如 The Bibliotik)。诉状强调:由于SlimPajama源自RedPajama,后者包含Books3内容,因此SlimPajama同样涵盖Books3中的作品,其中就包括原告及集体成员的著作。

莱昂系多本非虚构写作指南的作者。她指称,Adobe在未获授权、未署名且未支付报酬的情况下,将其文字用于商业AI产品的开发,侵犯了版权法赋予作者的专有权利。

这并非个案。Books3 与 RedPajama已多次出现在AI版权诉讼中:

– 2024年9月,Apple被诉使用Books3训练其Apple Intelligence;

– 同月,Anthropic就类似指控与作家群体达成约15亿美元和解,被视为AI版权纠纷的重要节点;

– 10月,Salesforce也被指依赖RedPajama训练其AI系统。

随着生成式AI对海量文本的依赖加深,训练数据合规问题正从道德争议走向法律风险。此次对Adobe的起诉再次提醒业界:即便使用“开源”数据集,若其上游包含侵权内容,下游模型开发者仍可能面临连带责任。

在Anthropic高额和解的背景下,Adobe将如何应对本案,或将影响整个行业对数据溯源与合规审查的重视度。对内容创作者而言,这场诉讼不仅是维权,更是对“AI时代创作价值归属”的一次关键确认。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享