非营利机构**知识共享组织(Creative Commons,CC)**近日对“**付费爬取**(Pay-for-Crawl)”表达了谨慎支持。这是一种在机器(如AI爬虫)访问网站内容时,按次自动结算费用的机制。
今年早些时候,CC 发布了“开放人工智能生态系统”框架,旨在为掌握数据的公司与用数据训练模型的AI服务商之间,提供共享数据集的法律与技术支持。CC 以其开源许可体系最为知名,帮助创作者在保留版权的同时公开分享作品。

“付费爬取”的必要性
由 Cloudflare 等公司倡导的“付费爬取”思路,要求AI机器人每次抓取网站内容用于模型训练或更新时,都向站点支付费用。
CC 在其博客中表示:“如果在合规、可控的前提下推进,付费爬取可以成为网站维持内容创作与分享的一种经济来源……帮助内容持续对公众开放;否则,这些内容可能无法被分享,或逐步被更严的付费墙所遮蔽。”
这一讨论源于AI对传统出版业的冲击。过去,网站允许谷歌等搜索引擎抓取内容,以换取搜索入口带来的曝光与点击。但随着AI聊天机器人流行,用户越来越直接向AI获取答案,导致网站搜索流量显著下滑,出版商营收承压。
“付费爬取”被视为中小型网站的自救选项,尤其是那些无力与 OpenAI、谷歌、Meta 等巨头签订一次性内容授权合作的出版商。目前,OpenAI 已与康泰纳仕集团、阿克塞尔·施普林格集团达成多项合作,Perplexity 也与甘尼特集团签署协议。
CC 的保留意见与负责任原则
尽管态度正面,CC 也提出了担忧:此类系统可能进一步集中网络话语权,并可能阻碍“研究者、非营利机构、文化遗产组织、教育者及其他公共利益相关方”对内容的访问。
因此,CC 给出了负责任的“付费爬取”原则,主要包括:
-
不应将付费爬虫设为所有网站的默认设置。
-
应避免对整个互联网采用一刀切的规则。
-
系统应优先支持限速而非一味屏蔽,并保障公众的访问权限。
-
系统应保持开放性、互操作性,并基于标准化组件构建。
行业标准与参与者
除 Cloudflare 外,微软也在为出版商搭建AI内容交易市场,ProRata.ai、TollBit 等初创公司亦开始布局。
另有组织 RSL Collective 推出了“真正简单的许可(Really Simple Licensing,RSL)”标准,用于标注网站可被爬虫访问的范围。CC 已宣布支持 RSL,并将其纳入面向AI时代的技术与工具项目中。目前,RSL 已获 Cloudflare、Akamai、Fastly 采用,并得到 雅虎、Ziff Davis、O’Reilly Media 等公司的支持。

















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?