(AI 资源之家讯)5 月 8 日消息,一款名为 Anubis 的网站防护工具正引发广泛关注。该工具旨在解决 AI 公司大规模抓取网页内容导致网站服务中断的问题,通过借鉴 Hashcash 的工作量证明机制,大幅提高大规模抓取的计算成本,保护原创内容资源不被耗尽。
## AI 抓取对互联网生态的冲击
随着大模型训练对数据需求的爆发式增长,AI 公司的网络爬虫正在以前所未有的规模和频率抓取互联网内容。许多中小型网站反映,来自 AI 爬虫的流量已超过正常用户流量,导致服务器过载甚至宕机。更严重的是,这些被抓取的内容被用于训练 AI 模型后,AI 生成的回答又反过来替代了原始网站的访问量,形成了一种掠夺式的内容生态。Anubis 的开发者正是受此困扰的网站站长之一。
## 工作量证明机制的巧妙应用
Anubis 借鉴了反垃圾邮件领域经典的 Hashcash 方案。当检测到疑似爬虫的访问请求时,Anubis 会要求请求方完成一个计算密集型的任务作为准入证明。对于正常用户来说,这个计算量几乎不可感知;但对于大规模抓取的爬虫来说,成千上万的并发请求累积起来的计算成本是巨大的。这种非对称的防护机制有效抑制了粗暴式的大规模抓取,同时保留了正常用户的访问体验。
## 过渡方案与长期挑战
Anubis 目前需要 JavaScript 支持,且被其开发者自称为过渡方案。长期来看,AI 数据抓取问题的根本解决需要行业级别的协议和标准。目前已有部分 AI 公司同意遵守 robots.txt 协议,但执行并不统一。互联网托管的社会契约在 AI 时代已经改变——网站允许搜索引擎索引的前提是搜索引擎为网站带来流量,而 AI 抓取则直接替代了网站的价值。建立新的数据使用伦理和商业框架,是整个行业需要共同面对的课题。