围绕AI训练数据的“原罪”争议,迎来最强法律交锋。两届普利策奖得主约翰·卡雷鲁(John Carreyrou)牵头,数十位知名作家近日在美国加州北区地方法院发起集体诉讼,把OpenAI、谷歌、Meta、Anthropic、xAI与Perplexity AI等六家AI公司列为共同被告,称其长期用盗版书训练大模型,涉嫌“故意侵犯版权”。若法院认定侵权成立,每部作品最高可索赔15万美元,总额可能达到数十亿甚至上百亿美元。
“双重盗版链条”浮出水面
起诉书称,被告方已构成一条明确的侵权闭环:
1. 非法获取:从LibGen、Z-Library等“影子图书馆”成批抓取数百万本受版权保护的书(含小说、纪实作品、学术书籍);
2. 模型训练:拿这些来路不正的数据训练ChatGPT、Gemini、Claude等大模型;
3. 商业变现:靠API订阅、企业服务、广告等方式赚钱,却没有给作者任何报酬。
原告强调:“写作者的文字是AI的地基,却被当成白拿的燃料。”这些书不仅让模型学会语言,还影响其“知识厚度”和“叙事方式”,是数十亿美元AI产业的看不见的支撑。
OpenAI成“被诉大户”,旧金山法院成AI版权案风暴眼
AI企业并非首次卷入文字版权争议,但这宗官司因原告权威、被告范围广、链条指控具体而格外受关注。南都数字经济治理研究中心的统计显示,OpenAI至少已遭到14起版权起诉,堪称行业“被诉大户”。而案件所在地——加州北区法院(旧金山)——已受理25起与AI相关的版权案,超过全美同类案件的一半,其判决很可能成为界定AI训练数据合法性的全国性样板。
故意侵权 vs. 合理使用:法律边界待裁决
被告过去常以“合理使用”(Fair Use)辩称,认为训练属“转化性使用”,不会伤害原作市场。但这次原告抓住“盗版来源”这个点——如果训练材料本就非法获取,“合理使用”恐难成立。一旦被认定为“故意侵权”,赔偿或将大幅增加,法院还可能要求清洗模型、移除涉案数据,甚至暂停相关服务。
行业地震:AI训练数据供应链或将重构
无论结果如何,这起案件已敲响警钟:
– 头部AI厂商正加紧与出版社、作者组织谈授权(如OpenAI与美联社、Shutterstock的合作);
– 开源模型社区承压,需要核验训练数据的合规性;
– “影子图书馆”可能成为执法重点,数据抓取与清洗工具链将被严审。
有观点认为,这场由作家掀起的“版权保卫战”,既是在维护个人权益,也是对AI发展伦理的终极追问:技术进步,是否要以牺牲创作者为代价?当法律开始为“数据血汗”定价,AI的黄金时期或将迎来一次深刻的合规变革。

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?