AI训练数据确权之争加剧：苹果因关联开源项目被指卷入“盗版书”侵权-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

3月18日，因被指在AI训练中采用含有盗版书籍的“The Pile”数据集，苹果公司再次被心灵鸡汤出版社（Chicken Soup for the Soul，LLC）列为版权侵权被告。本次起诉规模庞大，除苹果外，Meta、xAI、谷歌、Anthropic、OpenAI、Perplexity与英伟达等全球顶尖科技公司也被纳入同一案件。争议焦点集中在数据集中的“Books3”模块，这一“影子图书馆”被指收录了大量受版权保护的文学作品。

苹果，Apple，发布会，iPhone

对此，苹果重申自2024年起即坚持以合法、合乎伦理的方式构建AI训练数据。苹果表示，尽管其研究团队在OpenELMs开源项目中曾使用“The Pile”，但该项目仅用于公开研究，未用于驱动核心的Apple Intelligence系统。与此同时，法律界人士指出，苹果的基础模型阶段据称曾借助Google Gemini进行辅助训练，若谷歌在相关案件中被认定违规，苹果或因技术供应链关联而面临更复杂的连带法律风险。

目前，Perplexity等公司已就自身的网络抓取行为作出辩解；苹果则强调其训练流程的透明度与合规性。随着监管趋严，这起围绕底层训练数据的集体诉讼，不仅被视为创作者群体对科技公司“数据掠夺”的进一步反击，也可能推动行业重新评估模型训练中“数据溯源”的合规成本与技术边界。