普利策奖作家领衔起诉六家AI巨头！集体诉讼控“用盗版书训练模型”，索赔或上百亿美元-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

围绕AI训练数据的“原罪”争议，迎来最强法律交锋。两届普利策奖得主约翰·卡雷鲁（John Carreyrou）牵头，数十位知名作家近日在美国加州北区地方法院发起集体诉讼，把OpenAI、谷歌、Meta、Anthropic、xAI与Perplexity AI等六家AI公司列为共同被告，称其长期用盗版书训练大模型，涉嫌“故意侵犯版权”。若法院认定侵权成立，每部作品最高可索赔15万美元，总额可能达到数十亿甚至上百亿美元。

“双重盗版链条”浮出水面

起诉书称，被告方已构成一条明确的侵权闭环:

1. 非法获取：从LibGen、Z-Library等“影子图书馆”成批抓取数百万本受版权保护的书（含小说、纪实作品、学术书籍）；

2. 模型训练：拿这些来路不正的数据训练ChatGPT、Gemini、Claude等大模型；

3. 商业变现：靠API订阅、企业服务、广告等方式赚钱，却没有给作者任何报酬。

原告强调：“写作者的文字是AI的地基，却被当成白拿的燃料。”这些书不仅让模型学会语言，还影响其“知识厚度”和“叙事方式”，是数十亿美元AI产业的看不见的支撑。

OpenAI成“被诉大户”，旧金山法院成AI版权案风暴眼

AI企业并非首次卷入文字版权争议，但这宗官司因原告权威、被告范围广、链条指控具体而格外受关注。南都数字经济治理研究中心的统计显示，OpenAI至少已遭到14起版权起诉，堪称行业“被诉大户”。而案件所在地——加州北区法院（旧金山）——已受理25起与AI相关的版权案，超过全美同类案件的一半，其判决很可能成为界定AI训练数据合法性的全国性样板。

故意侵权 vs. 合理使用:法律边界待裁决

被告过去常以“合理使用”（Fair Use）辩称，认为训练属“转化性使用”，不会伤害原作市场。但这次原告抓住“盗版来源”这个点——如果训练材料本就非法获取，“合理使用”恐难成立。一旦被认定为“故意侵权”，赔偿或将大幅增加，法院还可能要求清洗模型、移除涉案数据，甚至暂停相关服务。

行业地震:AI训练数据供应链或将重构

无论结果如何，这起案件已敲响警钟:

– 头部AI厂商正加紧与出版社、作者组织谈授权（如OpenAI与美联社、Shutterstock的合作）；

– 开源模型社区承压，需要核验训练数据的合规性；

– “影子图书馆”可能成为执法重点，数据抓取与清洗工具链将被严审。

有观点认为，这场由作家掀起的“版权保卫战”，既是在维护个人权益，也是对AI发展伦理的终极追问：技术进步，是否要以牺牲创作者为代价？当法律开始为“数据血汗”定价，AI的黄金时期或将迎来一次深刻的合规变革。