遏制 AI 训练滥用:多家美媒封锁互联网档案馆“时光机”爬虫

据 Wired 报道,《纽约时报》、Reddit 以及《USA Today》母公司等多家头部媒体与平台,近期已明确拦截互联网档案馆(Internet Archive)的“时光机(Wayback Machine)”爬虫访问。此举旨在阻止 AI 公司借助该存档渠道间接抓取受版权保护的内容,用于训练模型。

机器人黑客

“受益却又封禁”的讽刺场面

颇具讽刺意味的是,《USA Today》不久前一篇关于移民政策统计的深度报道,正是依靠“时光机”保存的历史数据才得以完成。但该媒体集团发言人表示,目前已对所有爬虫(包括 ia_archiverbot)实施全面封禁,以应对愈发严重的 AI 侵权风险。

媒体采取的多种限制方式

目前已有至少 23 家主流新闻网站采取了限制措施:

  • 完全封锁:《纽约时报》和 Reddit 直接拦截“时光机”的专用爬虫。

  • 接口层过滤:《卫报》虽未彻底屏蔽,但已将自家内容从互联网档案馆的 API 中剔除,并对搜索结果进行过滤,用户几乎难以查到其历史存档。

针对出版商的封禁举措,包括蕾切尔·玛多在内的百余位在职记者,与电子前沿基金会(EFF)共同发表支持信。他们认为,“时光机”是核实事实、追踪权力机构言论变化、留存数字历史的重要工具,缺一不可。

出版商则强调,AI 公司利用互联网档案馆的海量内容训练模型,既涉嫌侵犯版权,也与自身业务形成直接竞争。对此,互联网档案馆负责人马克·格雷厄姆指出,若公共网络内容持续上锁,社会了解历史事实与开展舆论监督的能力将被大幅削弱;长期下去,大量早期数字历史记录可能会彻底流失。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享