英伟达卷入版权风波:遭指主动联系“影子图书馆”获取数百万盗版书训练 AI

全球芯片龙头英伟达(NVIDIA)因 AI 模型训练所用数据来源问题近期陷入法律争议。递交至美国加州法院的一份最新修正起诉书称:为保持领先优势,英伟达被指主动接触知名盗版电子书平台Anna’s Archive,试图获取数百万本受版权保护的书籍用于训练。

原告方由 Abdi Nazemian 等多位作家组成。他们称,在 2023 年开发者大会交付压力下,英伟达内部战略团队成员曾直接向Anna’s Archive询问可提供的资源,并表示希望将其馆藏纳入大语言模型(LLM)预训练数据。指控还称,尽管对方明确提醒相关内容为非法来源,英伟达管理层仍在一周内“放行”,从而获得约 500TB 海量数据的访问权限。

起诉书进一步指出,除Anna’s Archive外,英伟达可能还利用了 LibGen、Sci-Hub 与 Z-Library 等其他“影子图书馆”的数据。此外,该公司被指向企业客户分发工具,协助其自动获取含有盗版作品的数据集,因此面临“替代侵权”和“共同侵权”指控。英伟达曾试图以“合理使用”进行抗辩,但随着内部邮件等关键材料曝光,案件走向被认为更有利于版权方。

划重点:

  • ⚖️ 卷入集体诉讼:多位知名作家联合控诉英伟达大规模使用盗版图书训练其 NeMo、Megatron 等核心模型。

  • 📑 主动联系盗版源:据称内部邮件显示英伟达曾主动对接Anna’s Archive,甚至询问如何付费获取约 500TB 数据的高速下载通道。

  • 🛡️ 侵权指控升级:原告诉称该公司不仅内部训练违规,还向客户提供自动化脚本,进一步助长盗版数据的二次传播。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享