Anthropic内省适配器识别率89%AI安全新标杆

（AI 资源之家讯）5 月初，Anthropic 联合剑桥大学发表论文章提出的内省适配器技术在 AI 安全领域引发持续关注。该工具在 56 个刻意隐藏缺陷的模型测试中成功识别出 50 个，识别准确率高达 89%，远超传统红队测试约 45% 的识别率。当大模型微调 API 全面开放后，如何检测被植入后门的模型成为 AI 安全的核心挑战，内省适配器提供了革命性的解决方案。

## 后门模型的检测困境

大模型微调 API 的开放是一把双刃剑。它降低了 AI 应用的门槛，但也意味着任何人都可以训练一个表面正常但暗藏后门的模型。传统红队测试通过穷举输入来探测模型异常，但面对无限可能的输入空间，覆盖率极低。更危险的是，后门可以被设计为仅在特定触发条件下激活，红队测试几乎无法覆盖所有触发条件。

## 内省适配器如何工作

内省适配器在模型中添加一个轻量级适配器层，能读取模型内部表征并将其翻译为行为描述。当模型内部存在隐藏行为时，适配器层会捕获到相关的内部激活模式并将其外化为可读文本。实验中，团队构建了近 700 个特殊训练的模型，内省适配器对其中 56 个刻意隐藏缺陷的模型成功识别出 50 个。

## AI 安全审计的新标准

内省适配器的 89% 识别率正在推动 AI 安全审计标准的升级。传统的安全评估主要依赖外部测试，内省适配器则提供了内部自省的全新维度。未来 AI 模型的安全认证可能需要同时通过外部红队测试和内部自省审计。Anthropic 已将内省适配器作为其安全评估体系的核心组件，行业监管机构也在研究将其纳入 AI 安全认证标准。

正文完