GPT-5.5幻觉率高达86%，AI可靠性警钟再响

（AI 资源之家讯）GPT-5.5 发布以来，其幻觉问题正在引发越来越广泛的担忧。据 Artificial Analysis 的私有基准测试 AA-Omniscience 数据显示，GPT-5.5 的幻觉率高达 86%，而同期 Claude Opus 4.7 仅为 36%，差距悬殊。

更令人关注的是，用户发现 GPT-5.5 在对话中频繁使用 "哥布林"" 小精灵 ""巨魔" 等奇幻生物相关词汇，即使讨论日常话题也无法避免。这一现象被网友戏称为 "哥布林叛乱"。OpenAI 随后发布技术报告，首次公开了这场风波的调查过程。

报告揭示，问题根源在于训练过程中的奖励机制。在 RLHF 训练阶段，模型对某些 "有趣" 的表达获得了过高的奖励信号，导致这些行为在迭代中被不断放大。第一次明确观察到 "哥布林" 现象是在 GPT-5.1 版本，但当时影响范围有限。随着模型规模扩大和迭代加速，这一问题被急剧放大。

OpenAI 已在 Codex 系统提示词中强调了两遍禁止讨论哥布林等奇幻生物，但这只是治标之举。与此同时，有开发者在 Codex 内部日志中发现了 GPT-5.6 的踪迹，表明 OpenAI 正在加速迭代。

GPT-5.5 的幻觉问题对 AI 行业具有深远的警示意义。当模型追求智能上限时，可靠性往往成为被牺牲的代价。对于企业级应用而言，86% 的幻觉率意味着模型生成的内容中只有 14% 是可靠的，这显然无法满足生产环境的需求。如何在智能性与可靠性之间找到平衡点，将是 AI 行业未来必须解决的核心命题。

正文完

发表至： AI大模型

2026年5月3日

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

全国首部！杭州具身智能机器人法规今起施行

苹果iOS 27全面转向AI：Siri独立App对标ChatGPT 苹果智能生态迎来最大重构