英伟达卷入版权争议:被曝主动接触“影子图书馆”以数百万盗版书训练 AI

全球芯片巨头英伟达(NVIDIA)近日因 AI 模型训练数据的来源问题陷入法律风波。一份最新提交至美国加州法院的修订起诉书披露:为在竞争中抢占先机,英伟达被指曾主动与知名盗版电子书平台Anna’s Archive接洽,试图获取数百万本受版权保护的电子书作为训练素材。

原告方由 Abdi Nazemian 等多位作家组成。他们表示,受 2023 年开发者大会交付压力影响,英伟达内部战略团队成员曾直接询问Anna’s Archive能提供哪些资源,并明确提出希望将其纳入大语言模型(LLM)的预训练数据。起诉书称,尽管对方已提醒其馆藏来源不合法,英伟达管理层仍在一周内批准继续推进,最终获得约 500TB 的海量数据访问权。

Anna’s Archive外,诉状还指出英伟达可能接触或使用了 LibGen、Sci-Hub 以及 Z-Library 等其他“影子图书馆”的数据来源。此外,该公司还被指向企业客户提供工具或脚本,帮助其自动获取含有盗版作品的数据集,因此被指存在“替代侵权”和“共同侵权”行为。英伟达先前尝试以“合理使用”为抗辩,但随着更多内部邮件等关键材料曝光,案件走向被认为更有利于版权方。

划重点:

  • ⚖️ 深陷集体诉讼: 多位知名作家联合指控英伟达大规模使用盗版图书训练其 NeMo、Megatron 等核心模型。

  • 📑 主动接洽盗版源: 内部邮件显示英伟达曾主动联系Anna’s Archive,甚至询问如何通过付费获得 500TB 数据的高速下载权限。

  • 🛡️ 侵权指控升级: 原告不仅质疑其内部训练合规性,还称英伟达向客户提供自动化脚本,间接助长了盗版数据的二次传播。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享