Reddit因人工智能公司的恶意爬取将屏蔽互联网档案馆

圈小蛙

12 months ago

全球人气Top的论坛Reddit近日表示，它发现有人工智能公司从互联网档案馆（Internet Archive）的 Wayback Machine 中抓取其数据，因此将开始阻止互联网档案馆索引 Reddit 的绝大部分内容。Wayback Machine 将无法再抓取帖子详情页面、评论或个人资料；相反，它只能索引 Reddit.com 主页，这实际上意味着互联网档案馆只能存档特定日期内哪些新闻标题和帖子最受欢迎。

Reddit发言人 Tim Rathschmidt 称：“Internet Archive 为开放网络提供服务，但我们已经意识到人工智能公司违反平台政策（包括我们的政策）并从 Wayback Machine 中抓取数据的情况。”

互联网档案馆 (Internet Archive) 的使命是维护互联网上网站及“其他文化遗产”的数字档案，而 Wayback Machine 是一款工具，可以用来查看特定日期的页面，但 Reddit 认为并非所有内容都应以这种方式存档。“在他们能够捍卫自己的网站并遵守平台政策（例如，尊重用户隐私，删除已移除的内容）之前，我们会限制他们对 Reddit 数据的部分访问权限，以保护 Reddit 用户，”Rathschmidt 说。

据 Rathschmidt 称，这些限制将于今日开始“逐步加强”。Reddit 表示，他们已“提前”联系了互联网档案馆，希望“在限制生效前告知他们”。他还表示，Reddit 过去也曾“对人们从互联网档案馆抓取内容的能力表示担忧”。

Reddit 最近切断了对爬虫工具的访问权限，因为人工智能公司开始大规模使用（并滥用）这些工具，但只要公司付费，Reddit 愿意提供这些数据。去年年初，Reddit与谷歌达成了一项协议，将谷歌搜索和人工智能训练数据提供给它们。几个月后，Reddit开始阻止主要搜索引擎抓取其数据，除非它们付费。Reddit 还表示，其臭名昭著的2023 年 API 变更（此举迫使一些第三方应用程序关闭，引发抗议）是因为这些 API 被滥用来训练人工智能模型。

Reddit还与OpenAI达成了一项人工智能协议，但它在 6 月份起诉了 Anthropic ，声称即使在Anthropic表示不再抓取数据之后，Anthropic仍在从Reddit抓取数据。

Wayback Machine主管马克·格雷厄姆 (Mark Graham) 在给The Verge的一份声明中表示：“我们与 Reddit 有着长期的合作关系，并将继续就此事进行讨论。”