Cloudflare称Perplexity被指控抓取明确阻止AI抓取的网站

据互联网基础设施提供商Cloudflare称，人工智能初创公司Perplexity正在抓取并抓取那些明确表示不想被抓取的网站的内容。

周一，Cloudflare 发布研究报告称，其观察到这家人工智能初创公司忽略了阻止，并隐藏了其抓取和爬取活动。Cloudflare的研究人员写道，这家网络基础设施巨头指责Perplexity在试图抓取网页时隐藏了其身份，“试图绕过网站的偏好设置”。

Perplexity 等 AI 产品依赖于从互联网上获取大量数据，而 AI 初创公司长期以来一直在未经许可的情况下从互联网上抓取文本、图像和视频，以使其产品正常运行。近年来，一些网站试图通过使用网络标准 Robots.txt 文件进行反击，该文件会告知搜索引擎和 AI 公司哪些页面可以被索引，哪些页面不应该被索引，但迄今为止，这些努力的效果好坏参半。

据 Cloudflare 称，Perplexity 似乎有意通过改变其机器人的“用户代理”（即通过设备和版本类型识别网站访问者的信号）以及改变其自治系统网络（ASN，本质上是识别互联网上大型网络的数字）来规避这些阻止。

Cloudflare 在帖子中写道：“我们在数万个域名和每天数百万个请求中观察到了这种活动。我们能够通过机器学习和网络信号的组合来识别这个爬虫。”

Perplexity 发言人 Jesse Dwyer 驳斥了 Cloudflare 的博客文章，称其为“推销”。他在给 TechCrunch 的一封电子邮件中补充道，文章中的截图“显示没有内容被访问”。在后续邮件中，Dwyer 声称 Cloudflare 博客中提到的机器人“甚至不是我们的”。

Cloudflare 表示，他们最初注意到这种行为是在其客户抱怨 Perplexity 仍在抓取和抓取他们的网站内容后，尽管他们在 Robots 文件中添加了规则，并专门屏蔽了 Perplexity 已知的机器人程序。Cloudflare 表示，他们随后进行了测试检查，并确认 Perplexity 确实绕过了这些屏蔽。

Cloudflare 表示：“我们观察到，Perplexity 不仅使用其声明的用户代理，而且还使用通用浏览器，当其声明的爬虫程序被阻止时，该浏览器旨在在 macOS 上模拟 Google Chrome。”

该公司还表示，已将 Perplexity 的机器人从其验证列表中删除，并添加了新的技术来阻止它们。

Cloudflare 最近公开反对人工智能爬虫。上个月，Cloudflare宣布推出一个市场，允许网站所有者和出版商向访问其网站的人工智能爬虫收费。Cloudflare首席执行官马修·普林斯当时就发出警告，称人工智能正在破坏互联网的商业模式，尤其是出版商的商业模式。去年，Cloudflare 还推出了一款免费工具，以防止机器人爬取网站数据来训练人工智能。

这并不是 Perplexity 第一次被指控未经授权进行抓取。去年，《wired》等新闻媒体指控Perplexity抄袭其内容。几周后，Perplexity首席执行官 Aravind Srinivas在 Disrupt 2024 大会上接受 TechCrunch 记者 Devin Coldewey 采访时，被问及公司对抄袭的定义时，却无法立即回答。

Cloudflare称Perplexity被指控抓取明确阻止AI抓取的网站

相关推荐

评论抢沙发

科技圈动态，尽在圈小蛙

官方TG频道

简繁切换

回顶部

相关推荐

评论 抢沙发

科技圈动态，尽在圈小蛙

官方TG频道

简繁切换

回顶部

评论抢沙发