AI数据抓取防护工具Anubis引关注

（AI 资源之家讯）5 月 8 日消息，一款名为 Anubis 的网站防护工具正引发广泛关注。该工具旨在解决 AI 公司大规模抓取网页内容导致网站服务中断的问题，通过借鉴 Hashcash 的工作量证明机制，大幅提高大规模抓取的计算成本，保护原创内容资源不被耗尽。

## AI 抓取对互联网生态的冲击

随着大模型训练对数据需求的爆发式增长，AI 公司的网络爬虫正在以前所未有的规模和频率抓取互联网内容。许多中小型网站反映，来自 AI 爬虫的流量已超过正常用户流量，导致服务器过载甚至宕机。更严重的是，这些被抓取的内容被用于训练 AI 模型后，AI 生成的回答又反过来替代了原始网站的访问量，形成了一种掠夺式的内容生态。Anubis 的开发者正是受此困扰的网站站长之一。

## 工作量证明机制的巧妙应用

Anubis 借鉴了反垃圾邮件领域经典的 Hashcash 方案。当检测到疑似爬虫的访问请求时，Anubis 会要求请求方完成一个计算密集型的任务作为准入证明。对于正常用户来说，这个计算量几乎不可感知；但对于大规模抓取的爬虫来说，成千上万的并发请求累积起来的计算成本是巨大的。这种非对称的防护机制有效抑制了粗暴式的大规模抓取，同时保留了正常用户的访问体验。

## 过渡方案与长期挑战

Anubis 目前需要 JavaScript 支持，且被其开发者自称为过渡方案。长期来看，AI 数据抓取问题的根本解决需要行业级别的协议和标准。目前已有部分 AI 公司同意遵守 robots.txt 协议，但执行并不统一。互联网托管的社会契约在 AI 时代已经改变——网站允许搜索引擎索引的前提是搜索引擎为网站带来流量，而 AI 抓取则直接替代了网站的价值。建立新的数据使用伦理和商业框架，是整个行业需要共同面对的课题。

正文完