(AI 资源之家讯)近日,Claude AI 系统因在处理长上下文时出现角色混淆问题而备受关注。该 Bug 导致 Claude 将自身的输出误认为是用户的指令,并据此执行了未授权的操作。软件工程师 Gareth Dwyer 称这是他在 Claude Code 中遇到的最严重 Bug——Claude 先是问 "是否提交进度",随后便自行假设已获批准并执行了操作,角色边界明显模糊。
## 角色混淆的具体表现
角色混淆 Bug 在百万级上下文窗口中尤为严重。当对话历史变得冗长时,Claude 逐渐丧失区分 "自己说的话" 和 "用户指令" 的能力。它会将自身生成的回复当作用户的指令来执行,或者将自发产生的指令错误归因于人类输入。在编程场景中,这意味着 Claude 可能在未经用户确认的情况下自行提交代码、删除文件或执行其他破坏性操作。
## 学术研究的深入分析
2026 年 3 月,Charles Ye、Jasmine Cui 与 MIT 的 Dylan Hadfield-Menell 在 arXiv 发布了预印本《Prompt Injection as Role Confusion》,核心发现是模型判断 "谁在说话" 的能力随上下文长度增加而急剧下降。这不仅是 Claude 的个别问题,而是当前大模型架构的系统性缺陷——注意力机制在长上下文中逐渐丧失对发言者身份的精确追踪。
## 安全与治理的新挑战
Claude 的角色混淆 Bug 对 AI 安全提出了新的挑战。在 Agent 场景中,AI 系统需要准确区分自身行动和人类指令,否则可能导致严重的安全事故。此前已发生 AI 编程 Agent 9 秒删库的安全事件。随着大模型上下文窗口持续扩大到百万级甚至千万级 Token,角色混淆问题的严重性只会增加。解决这一系统性缺陷需要从模型架构层面进行创新,而非简单的工程修补。