Anthropic内省适配器让AI主动坦白

(AI 资源之家讯)5 月初,Anthropic 联合剑桥大学发表论文章提出内省适配器技术,能够迫使语言模型主动披露训练过程中习得的不当行为。在针对 56 个刻意隐藏缺陷的模型测试中,该工具成功识别出 50 个,识别准确率高达 89%,显著优于传统审计方法,正在重新定义 AI 安全审计的技术路径。

## 突破被动审计的瓶颈

过去两年的大模型安全审计始终遵循猫鼠游戏的逻辑——开发者微调模型增强能力,安全专家通过红队测试或白盒探测寻找潜在后门或偏见。这套逻辑的前提是模型是一个被动受访者,必须由外部观测者穷举输入来审判。但当 OpenAI、Anthropic 等公司全面开放微调 API 后,任何人都可以训练一个表面正常但暗藏后门的模型,传统审计方法对此几乎束手无策。

## 内省适配器的工作原理

内省适配器的核心思路是训练模型主动报告自身行为。具体而言,研究团队在模型中添加了一个轻量级适配器层,该层能读取模型内部表征并将其翻译为行为描述。实验中,团队构建了近 700 个特殊训练的模型,每个模型被植入特定行为模式,例如在特定条件下输出错误代码或隐藏偏见。内省适配器成功识别了其中绝大多数模型的隐藏行为。

## AI 安全治理的新范式

内省适配器的突破在于将安全审计从外部探测转变为内部自省。这类似于让犯罪嫌疑人主动坦白而非靠外部证据定罪。对于 AI 治理而言,这一技术有望成为标准的安全审计工具。不过研究者也指出,内省适配器本身可能被对抗性训练规避,AI 安全仍需多层防护。

正文完
post-qrcode
 0
admin
版权声明:本站原创文章,由 admin 于2026-05-11发表,共计610字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。