OpenAI研究员提出启发式学习新范式

（AI 资源之家讯）5 月 9 日，OpenAI 后训练核心研究员翁家翌提出一种名为启发式学习的强化学习新范式，无需神经网络训练和梯度更新，仅通过 AI 自主编写 Python 文件即可实现决策进化。该范式在经典游戏 Breakout 中取得 864 分的理论满分，并完成了完整的 Atari 57 大规模测试，引发了 AI 领域对强化学习基础范式的深刻反思。

## 不更新参数的强化学习

传统强化学习的核心机制是通过梯度更新调整神经网络参数，使模型在特定任务上的表现逐步优化。翁家翌的启发式学习则完全颠覆了这一范式：整个过程没有神经网络训练，没有梯度更新，全程由 GPT-5.4 驱动的 Codex 自主迭代。AI 观察游戏画面，编写 Python 策略代码，运行代码获得反馈，根据反馈修改策略，如此循环直至找到最优策略。本质上，AI 不是在学习参数，而是在手搓一个决策程序。

## Atari 57 的全面验证

Breakout 满分只是一个开始。翁家翌完成了完整的 Atari 57 测试集验证，包含 57 款不同类型的经典游戏，覆盖离散动作空间的各类决策场景。在多个游戏中，启发式学习的表现超越或持平于传统强化学习算法。这一结果令人震惊——一个不训练神经网络的 AI，在传统 RL 的 benchmark 上与经过大量训练的模型旗鼓相当。

## 对 AI 发展的深层意义

启发式学习范式的意义远超游戏本身。它暗示了一个可能性：当大语言模型的编程能力足够强时，传统的模型训练可能不再是 AI 获取能力的唯一路径。AI 可以直接编写和优化自己的决策代码，而非通过梯度下降间接学习。这种范式的优势在于透明可审计——每一行决策代码都是可读的，而非隐藏在数十亿参数的黑箱中。

正文完