当AI聊天机器人把答案直接端到用户面前,点击原网页的动作被省略——这场由生成式AI引发的“流量断层”,正把全球内容创作者推向生存边缘。在此背景下,长期倡导开放共享的非营利机构Creative Commons(CC)罕见表态:谨慎支持“付费爬取”(pay‑to‑crawl)方案,试图为内容生态重建一种可持续的收益路径。
CC以推动知识共享许可(CC协议)知名,7月曾提出面向AI数据共享的法律与技术框架。如今,面对AI爬虫大规模抓取却难以带回流量的现实,CC在最新博客中表示:“若以负责任的方式落地,付费爬取或能帮助网站维持内容创作与公开共享,避免更多内容被迫走向封闭,甚至悄然消失。”
“付费爬取”的逻辑很直白:当OpenAI、Google、Meta等AI公司的爬虫为训练模型访问网站时,需要向内容提供方付费。最先推动这一机制的是Cloudflare,其背后是内容产业的共同焦虑——传统的“以内容换流量”契约已然失灵。过去,网站乐于被搜索引擎收录,因为搜索能带来访问与广告收益;而如今,用户在AI对话里拿到答案后,很少再点开原文。多项研究显示,新闻出版业的搜索流量出现断崖式下跌,中小媒体承压最重。
头部媒体尚能凭借议价能力与AI巨头签订独家授权,如OpenAI与Condé Nast、Axel Springer,Perplexity与Gannett,Amazon与《纽约时报》,Meta与多家出版商;但数以百万计的独立博客、小型新闻站、教育平台并无此筹码。若“付费爬取”能实现标准化与自动化,它或许能成为他们的“普惠型收入来源”。
不过,CC的态度并非盲目乐观。该组织明确提醒:若设计不周,“付费爬取”可能**加剧网络权力集中**,甚至阻断公共利益群体的获取路径。“研究者、非营利组织、文化遗产机构、教育者等面向公共利益的主体,不应被付费墙挡在门外,”CC强调。
为此,CC提出一套“负责任的付费爬取”原则:
– 不应设为网站默认项,须由内容方主动开启;
– 避免一刀切的全网规则,尊重各站点自主决策;
– 倾向“限流/限频”而非“一概封禁”,允许低频或非商业抓取;
– 为学术、教育等公共利益用途保留可用通道;
– 系统应开源、可互操作,并基于标准化组件构建。
值得注意的是,付费爬取生态正在快速成形。除Cloudflare外,微软在搭建面向出版商的AI内容市场;初创公司ProRata.ai、TollBit也在推进类似方案。更关键的是,一个名为**RSL**(Really Simple Licensing)的新标准获得广泛响应。该标准允许网站声明哪些内容可被抓取、可用于何种目的,但**不强制阻止爬虫**——是一种“声明即授权”的中间路径。Cloudflare、Akamai、Fastly三大CDN已采纳RSL,Yahoo、Ziff Davis、O’Reilly Media等内容方也已加入。CC亦宣布支持RSL,并将其纳入“CC信号”(CC Signals)项目,旨在为AI时代打造新的内容授权与发现工具。
CC立场的变化,意味着开放网络理念正与现实的经济压力艰难对齐。“付费爬取”未必是完美解法,但在AI吞噬流量、创作者声音日渐微弱的当下,它或许是一场必要的试验:在激励创作与守住信息开放之间,摸索一条不至坍塌的窄路。否则,当最后一个独立博客因无以为继而熄灯时,再精准的AI答案也将失去其赖以存在的真实土壤。

















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?