非营利机构知识共享组织(Creative Commons,CC)近日对“付费爬取(Pay-for-Crawl)”持谨慎支持态度。该思路是在机器(如用于人工智能的网络爬虫)抓取站点内容时,自动向站点支付费用。
今年早些时候,CC 推出“开放人工智能生态系统”框架,旨在为掌握数据的公司与利用数据进行训练的 AI 服务商之间,提供共享数据集的法律与技术支撑。CC 最广为人知的是其许可协议体系,创作者可在保留版权的前提下开放作品使用。

“付费爬取”的必要性
由 Cloudflare 等公司倡导的“付费爬取”主张是:每当 AI 机器人为模型训练或更新而抓取网站内容时,都需向网站方付费。
CC 在博文中表示:“若能以负责任的方式落地,付费爬取可为网站持续创作与分享内容提供资金支持……从而让内容保持公开获取,否则这些内容可能无法对外分享,或被更严的付费墙锁住。”
这一立场转变的背景,是 AI 对传统出版业带来的冲击。过去,站点允许谷歌等搜索引擎抓取,以换取搜索带来的访问与点击。但随着 AI 聊天机器人的普及,用户直接向 AI 问答,导致搜索引流明显下滑,出版商营收受到重挫。
“付费爬取”为中小型网站提供了缓冲路径,尤其是那些无力与 OpenAI、谷歌、Meta 等巨头达成一次性内容授权的团队,操作上更现实。目前,OpenAI 已与康泰纳仕、阿克塞尔·施普林格达成多项合作,Perplexity 也与甘尼特集团签约。
CC 的保留意见与负责任原则
尽管表示支持,CC 也提出保留:这类系统可能进一步集中网络话语权,并让“研究人员、公益机构、文化遗产单位、教育工作者及其他面向公共利益的机构”获取内容的渠道变窄。
因此,CC 给出了负责任的“付费爬取”原则:
-
不应将付费爬虫作为所有站点的默认选项。
-
避免为整个互联网制定一刀切规则。
-
优先采用限速而非简单屏蔽,并保障公众可访问性。
-
系统应保持开放、可互操作,并以标准化组件搭建。
行业标准与参与者
除 Cloudflare 外,微软也在为出版方搭建 AI 市场;同时,ProRata.ai 和 TollBit 等初创公司也已入局。
另一个组织 RSL Collective 推出“真正简单的许可(Really Simple Licensing,RSL)”新标准,用于规定爬虫可访问的站点范围。CC 已表示支持 RSL,并将其纳入面向 AI 时代的技术与工具路线。目前,RSL 已被 Cloudflare、Akamai、Fastly 等采用,并获雅虎、Ziff Davis、O’Reilly Media 等的支持。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?