据 Wired 报道,《纽约时报》、Reddit 以及《USA Today》母公司等多家头部媒体与平台,近期已明确拦截互联网档案馆(Internet Archive)的“时光机(Wayback Machine)”爬虫访问。此举旨在阻止 AI 公司借助该存档渠道间接抓取受版权保护的内容,用于训练模型。

“受益却又封禁”的讽刺场面
颇具讽刺意味的是,《USA Today》不久前一篇关于移民政策统计的深度报道,正是依靠“时光机”保存的历史数据才得以完成。但该媒体集团发言人表示,目前已对所有爬虫(包括 ia_archiverbot)实施全面封禁,以应对愈发严重的 AI 侵权风险。
媒体采取的多种限制方式
目前已有至少 23 家主流新闻网站采取了限制措施:
-
完全封锁:《纽约时报》和 Reddit 直接拦截“时光机”的专用爬虫。
-
接口层过滤:《卫报》虽未彻底屏蔽,但已将自家内容从互联网档案馆的 API 中剔除,并对搜索结果进行过滤,用户几乎难以查到其历史存档。
针对出版商的封禁举措,包括蕾切尔·玛多在内的百余位在职记者,与电子前沿基金会(EFF)共同发表支持信。他们认为,“时光机”是核实事实、追踪权力机构言论变化、留存数字历史的重要工具,缺一不可。
出版商则强调,AI 公司利用互联网档案馆的海量内容训练模型,既涉嫌侵犯版权,也与自身业务形成直接竞争。对此,互联网档案馆负责人马克·格雷厄姆指出,若公共网络内容持续上锁,社会了解历史事实与开展舆论监督的能力将被大幅削弱;长期下去,大量早期数字历史记录可能会彻底流失。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END


















用户38505528 7个月前0
粘贴不了啊用户12648782 8个月前0
用法杂不对呢?yfarer 8个月前0
草稿id无法下载,是什么问题?