英伟达被曝与安娜档案馆私下接洽,欲索取海量盗版数据训练AI

近日有报道称,这家市值达万亿美元的科技巨头在一宗集体诉讼中被指曾直接联系安娜档案馆(Anna’s Archive),打算获取多达 500TB 的盗版电子书数据,用于其大模型训练。此事引发众多作者强烈反对,认为英伟达此举不仅涉嫌侵犯版权,也体现出其在竞争压力下的激进做法。

安娜档案馆是一家知名的盗版电子书资源库。尽管该站多次提醒其数据来源并不合法,英伟达仍被指向其寻求帮助,希望借此加快模型训练。根据诉讼文本,多名作者引用了英伟达的内部沟通记录,称该公司曾尝试与安娜档案馆合作,将这些盗版书籍纳入大型语言模型的预训练数据。

近几年,英伟达不仅深耕显卡业务,还在训练自家 AI 模型,如 NeMo、Retro-48B 等。为追赶对手 OpenAI 推出的 ChatGPT,英伟达在 2023 年秋季开发者日上急于展示其最新大模型。为此,公司被指并未排斥把盗版资源当作“捷径”。

英伟达在最初回应中否认侵权,称相关数据使用属于合理使用。但随着诉讼推进,情况愈加复杂。作者们强调,正是竞争压力“逼迫”英伟达走向盗版。他们还透露,英伟达不仅联系了安娜档案馆,也从 LibGen、Sci-Hub、Z-Library 等盗版网站下载书籍。

目前,安娜档案馆的法律风险不断上升,其后续走向令人担忧。而英伟达虽在诉讼中备受质疑,但其整体影响似乎暂未出现明显动摇。科技圈将继续关注事态发展,观察这场围绕 AI 与版权的博弈将如何演变。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享