应对AI冲击:CC(知识共享组织)谨慎赞同“付费爬取”方案

非营利机构**知识共享组织(Creative Commons,CC)**近日对“**付费爬取**(Pay-for-Crawl)”表达了谨慎支持。这是一种在机器(如AI爬虫)访问网站内容时,按次自动结算费用的机制。

今年早些时候,CC 发布了“开放人工智能生态系统”框架,旨在为掌握数据的公司与用数据训练模型的AI服务商之间,提供共享数据集的法律与技术支持。CC 以其开源许可体系最为知名,帮助创作者在保留版权的同时公开分享作品。

黑客 泄露

 “付费爬取”的必要性

Cloudflare 等公司倡导的“付费爬取”思路,要求AI机器人每次抓取网站内容用于模型训练或更新时,都向站点支付费用。

CC 在其博客中表示:“如果在合规、可控的前提下推进,付费爬取可以成为网站维持内容创作与分享的一种经济来源……帮助内容持续对公众开放;否则,这些内容可能无法被分享,或逐步被更严的付费墙所遮蔽。”

这一讨论源于AI对传统出版业的冲击。过去,网站允许谷歌等搜索引擎抓取内容,以换取搜索入口带来的曝光与点击。但随着AI聊天机器人流行,用户越来越直接向AI获取答案,导致网站搜索流量显著下滑,出版商营收承压。

“付费爬取”被视为中小型网站的自救选项,尤其是那些无力与 OpenAI谷歌Meta 等巨头签订一次性内容授权合作的出版商。目前,OpenAI 已与康泰纳仕集团、阿克塞尔·施普林格集团达成多项合作,Perplexity 也与甘尼特集团签署协议。

 CC 的保留意见与负责任原则

尽管态度正面,CC 也提出了担忧:此类系统可能进一步集中网络话语权,并可能阻碍“研究者、非营利机构、文化遗产组织、教育者及其他公共利益相关方”对内容的访问。

因此,CC 给出了负责任的“付费爬取”原则,主要包括:

  • 不应将付费爬虫设为所有网站的默认设置

  • 应避免对整个互联网采用一刀切的规则

  • 系统应优先支持限速而非一味屏蔽,并保障公众的访问权限

  • 系统应保持开放性、互操作性,并基于标准化组件构建。

行业标准与参与者

Cloudflare 外,微软也在为出版商搭建AI内容交易市场,ProRata.aiTollBit 等初创公司亦开始布局。

另有组织 RSL Collective 推出了“真正简单的许可(Really Simple Licensing,RSL)”标准,用于标注网站可被爬虫访问的范围。CC 已宣布支持 RSL,并将其纳入面向AI时代的技术与工具项目中。目前,RSL 已获 CloudflareAkamaiFastly 采用,并得到 雅虎Ziff DavisO’Reilly Media 等公司的支持。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享