Cloudflare即将对爬取网站内容的AI机器人收费

圈小蛙

1 year ago

Cloudflare目前正在试验一些工具，允许内容创建者向AI爬虫收取费用来爬取他们的网站内容。

Cloudflare在周二的一篇博客中解释说，其“按次付费”功能目前处于私人测试阶段。少数出版商和内容创作者将参与该实验。Cloudflare 表示，每个出版商都可以自行设定机器人在爬取内容前必须支付的价格。

Cloudflare首席执行官马修·普林斯 (Matthew Prince) 表示，该功能将确保我们所知的互联网能够在“人工智能时代”生存下来。

“原创内容使互联网成为上个世纪最伟大的发明之一，创作者持续创作至关重要，”普林斯说道。“人工智能爬虫一直在无限制地爬取内容。我们的目标是将权力交还给创作者，同时继续帮助人工智能公司进行创新。这是为了用一种适合所有人的新模式来守护一个自由而充满活力的互联网的未来。”

一些参与的出版商在新闻稿中表示乐观，认为 Cloudflare 的按次付费爬取功能可能会阻止那些捍卫版权的出版商所指控的代表大规模盗窃的无休止爬取行为。

Cloudflare指出，任何有兴趣加入测试版的内容创作者都可以注册，也许最终他们也可以“因其对人工智能经济的贡献而获得补偿”。

与此同时，只有参与测试的发布商才能选择哪些机器人可以访问其网站的哪些部分，尝试阻止所有机器人或允许某些机器人访问某些内容。

Cloudflare的计划还赋予他们灵活性，允许部分机器人收费，而其他机器人免费爬取内容。这使得已与 AI 公司达成协议的出版商能够允许其进行已获批准的爬取，同时仍能保护其内容免受尚未达成授权协议的公司的侵害。

人工智能公司必须购买

为了使 Cloudflare 的计划奏效，AI 公司也必须注册。然而，尽管一些 AI 公司可能看不到其中的激励机制，但 Cloudflare 已确认已与 AI 公司就该计划展开合作，这些公司可能会受益于一个简单的界面来与内容创建者进行谈判。

Cloudflare建议其AI合作伙伴与创作者进行“长期合作”，这些创作者的更新内容将有助于 AI 产品保持相关性。Cloudflare博客称，他们还可以避免浪费金钱去爬取质量低劣的数据源。

该博客指出：“如果没有内容创作者的持续贡献，人工智能系统可能会变得过时、带有偏见或可靠性下降，最终削弱用户信任度和人工智能产品的价值。Cloudflare正在与人工智能公司合作，为他们提供更多信号，并最终提高他们能够访问的内容的质量和相关性。一个健康、可持续的原创内容生态系统对于人工智能的创新和相关性至关重要。”

然而，Cloudflare 的赌注似乎取决于人工智能公司是否同意支付出版商设定的价格，而如果竞价战导致价格降低到疏远出版商的程度，这可能会扰乱实验。此外，Cloudflare 还必须能够检测人工智能机器人，而目前，这依赖于用户报告和 Cloudflare 对海量流量模式的分析。

Cloudflare 表示：“在早期，价格发现将发挥关键作用——随着创作者获得有关谁为何付费的数据，将出现一个反映原创内容真实价值的透明市场。”

展望未来，Cloudflare 表示其按次付费爬取系统将“显著发展”。或许有一天，出版商可以利用它“针对不同的路径或内容类型收取不同的费用”，甚至可能在 AI 爬取环境中引入动态定价。Cloudflare 预测，在未来，AI 公司可能会受到激励，创建能够爬取网络内容的代理，以寻求最佳的内容交易来支持特定的 AI 产品。

Cloudflare 表示：“想象一下，您可以要求您最喜欢的深度研究程序帮助您综合最新的癌症研究或法律摘要，或者只是帮助您找到 Soho 最好的餐厅，然后为该代理提供预算，以获得最好和最相关的内容。” 并承诺“我们将实现一个智能代理可以通过编程方式协商访问数字资源的未来。”

AI 爬虫现在默认被阻止

Cloudflare此前于去年9月推出了一项功能，允许网站所有者一键屏蔽AI爬虫。据Cloudflare称，超过 100 万客户选择屏蔽 AI 爬虫，这表明人们希望对自己的内容拥有更多控制权，而与此同时，Cloudflare发现，在 robots.txt 文件中编写 AI 爬虫指令的做法普遍“未得到充分利用”。

为了保护更多客户，任何注册 Cloudflare 服务的新客户（包括免费计划的客户）的域名都将默认设置为阻止所有已知的 AI 爬虫。

这标志着Cloudflare从可怕的 AI 爬取选择退出模式转变为基于许可的模式，Cloudflare发言人表示，预计这将“从根本上改变 AI 公司未来访问网络内容的方式”。

如今，一些网站所有者已经厌倦了尝试通过 robots.txt 阻止 AI 爬取数据，却屡屡以失败告终——有些网站甚至将 AI 爬虫程序困在 tarpit 中，以惩罚它们忽略 robots.txt。Cloudflare的功能允许用户选择精细的设置，以防止对 AI 机器人的拦截影响到驱动搜索引擎流量的机器人。这对于希望自己的网站仍然可被发现但又不被 AI 机器人消化的小型内容创作者来说至关重要。

Cloudflare的博客指出：“人工智能爬虫会收集文本、文章和图片等内容来生成答案，而不会将访问者引导至原始来源——这剥夺了内容创作者的收入，也剥夺了他们知道有人阅读其内容的满足感。如果创作原创优质内容的动力消失，社会最终会遭受损失，互联网的未来也将岌岌可危。”