强化学习的前世今生 — 文章 / Writing

这篇是《科技慢半拍》EP84：强化学习的前世今生的文字稿整理版，在节目稿基础上补充了更完整的人物关系和理论脉络。

楔子：图灵奖颁给了你可能没听过的名字

2025年3月5日，ACM（美国计算机协会）宣布将2024年度图灵奖授予两位人工智能专家：安德鲁·巴托（Andrew G. Barto） 和 理查德·萨顿（Richard S. Sutton），表彰他们在强化学习领域的奠基性贡献。

ACM主席在揭晓仪式上说：“Barto 和 Sutton 的工作展示了应用多学科方法应对长期挑战的巨大潜力。从认知科学、心理学到神经科学的研究，激发了强化学习的发展，这为 AI 的一些最重要的进展奠定了基础。”

在公众眼中，强化学习（Reinforcement Learning，RL）远不如机器学习和深度学习那么耳熟能详。巴托和萨顿的名字，也不像杰夫·辛顿、杨立坤那样被广泛提及。

但每当AI取得真正的突破性进展，背后几乎都有强化学习的身影——

2016年，AlphaGo在数百万场自我对弈中反复试错，击败世界围棋冠军。2022年，ChatGPT用「人类反馈强化学习（RLHF）」学会了更接近人类期望的对话方式。2024年，DeepSeek R1、OpenAI o1开创了不依赖人工标注、仅靠自我推理验证就能学会复杂思维的新路径。

这些突破的共同底层逻辑，都是强化学习：让机器通过与环境互动、收获奖惩反馈来学习，而不是依赖人类提前标注好的答案。

今天我们要回到这个故事的源头，看看这一套思想是怎么一路走来的。

一、试错的起源：从猫的箱子开始

强化学习的哲学根基，比计算机本身还古老。

爱德华·桑代克与效果法则

1898年，美国心理学家爱德华·桑代克（Edward Thorndike）做了一系列著名的动物实验。他把猫关进一个特制的”迷题箱”——箱子里有一根杠杆，踩下去门就会打开，猫就能出去吃食物。

一开始，猫在箱子里乱跑乱抓，完全不知道怎么开门。但每当它偶然踩到杠杆，门开了，食物出现了，下一次它就会更快地找到那根杠杆。桑代克记录下每次逃脱所用的时间，画出了一条 S 形的学习曲线。

从这些观察中，桑代克提出了效果法则（Law of Effect）：

带来满足感的行为，下次更可能重复
带来不适感的行为，下次更可能避免
奖励比惩罚更有效，且奖励要在成功后立即兑现才有效

这就是”试错学习”的原型——不告诉你怎么做，而是通过结果的好坏来调整行为。百年后，这正是强化学习算法的核心逻辑。

赫布法则与神经元的学习

1949年，神经心理学家唐纳德·赫布（Donald Hebb）在研究黑猩猩的过程中提出了赫布法则（Hebb’s Law）：

如果两个神经元细胞总是同时被激活，它们之间就会出现关联，同时激活的概率越高，关联程度越深。

通俗地说：「一起放电的神经元，连在一起。」这是无监督学习的最早生物模型，也奠定了后来神经网络”权重更新”的直觉基础。

马尔可夫决策过程：数学框架的到来

1950年代，俄罗斯数学家安德烈·马尔可夫提出的马尔可夫决策过程（MDPs） 为强化学习提供了严格的数学语言。它的核心思想是：

在不同状态下，选择合适的动作，使未来的奖励最大化；且每一步的决策只依赖于当前状态，而不考虑过去的历史。

“只看当下状态”这个假设让问题大幅简化，让机器在面对复杂环境时可以做出系统性的最优决策。MDP后来成为强化学习理论的数学地基。

二、人工智能先驱的早期实验

图灵：第一次公开演讲

1947年，艾伦·图灵在伦敦数学学会做了一场演讲，那是有史以来第一次关于人工智能的公开演讲。他说了一句话：

“我们想要的是一台可以从经验中不断学习的机器。”

这句话既是强化学习的哲学根基，也是图灵对AI方向最早的预言。遗憾的是，图灵英年早逝，没有看到任何实现。

香农的迷宫老鼠

1951年，克劳德·香农制造了一台叫做「忒修斯（Theseus）」的机械老鼠迷宫。机械老鼠通过继电器组装，可以在迷宫中移动，表面下方的传感器追踪路径。经过多次试错，装置能学习通过迷宫的最短路径。

这是早期「奖励导向的行为学习」的机械实现。

明斯基：SNARC 与强化这个词的起源

另一位 AI 先驱马文·明斯基在 1951 年建造了一台机器：SNARC（Stochastic Neural Analog Reinforcement Calculator，随机神经模拟强化计算器）。

SNARC 由迷宫般的阀门、电机、齿轮和连接神经元的电线组成，共有 40 个突触。机器模拟多只「神经老鼠」在迷宫中寻找出路，每当老鼠到达目标，对应的电路就得到加强。经过多次随机尝试后，老鼠开始在逻辑基础上做出正确选择。

明斯基在论文和机器名字里都使用了「强化（Reinforcement）」这个词——但还没加上「Learning（学习）」。这是这个词在 AI 领域最早的使用记录之一。

三、游戏续命：棋类世界里的自学习探索

在符号主义 AI 大行其道的年代，强化学习的探索者们找到了一个低成本的验证场地：游戏。

塞缪尔的跳棋程序：第一个自学习的计算机程序

1949 年，亚瑟·塞缪尔（Arthur Samuel）加入 IBM，在 IBM 701 上研发了第一个跳棋程序（Checkers）。这款程序让 IBM 股票一夜涨了 15 个点。

塞缪尔的创新在于：他没有让程序搜索每一条可能的路径，而是开发了一个评分函数，根据任意时刻的棋盘位置估算双方的获胜机会。这就是今天「价值函数」的原型。

他还让程序与自己对弈数千场，从专业比赛结果中提取奖励信号——这是时间差分学习（Temporal Difference Learning） 的早期实践。塞缪尔的跳棋程序是世界上第一个成功完成自学习的计算机程序。

贝尔曼方程：数学对游戏的验证

几乎同时，美国数学家理查德·贝尔曼（Richard Bellman）在 1953 年提出了动态规划方程（贝尔曼方程），用递归关系描述最优价值函数。

贝尔曼来自数学领域，塞缪尔来自计算机领域，两人互不知晓对方的研究——但他们的思路高度吻合。贝尔曼方程后来成为强化学习的核心数学工具，几乎所有 RL 算法都建立在它的基础上。

米奇的火柴盒：没有计算机的强化学习

英国 AI 研究员唐纳德·米奇（Donald Michie）在 1961 年用 304 个火柴盒 实现了一个能学习玩完美井字游戏的程序——MENACE（Matchbox Educable Noughts And Crosses Engine）。

每个火柴盒代表一种棋盘状态，里面装满代表不同走法的彩色珠子：

赢了就增加成功路径上的珠子（奖励策略）
输了就移除失败路径上的珠子（惩罚策略）

没有计算机，没有数学公式，米奇用物理手段实现了「策略更新」和「奖励机制」。这个类比对理解强化学习的本质非常直观。

四、师承关系：巴托与萨顿的诞生

强化学习的核心理论体系，由一对师徒完成。

安德鲁·巴托的起点

安德鲁·巴托（1948年生）在密歇根大学学数学，读到麦卡洛克-皮茨的神经网络论文后，被「数学+大脑+机器」的结合深深吸引。1975 年获得博士学位后，他加入了马萨诸塞大学阿默斯特分校迈克尔·阿比布的实验室。

阿比布是控制论奠基人诺伯特·维纳学术谱系中的重要人物，专注神经计算和感知-动作控制，将生物神经系统的灵感系统性地引入 AI 研究。

在阿比布实验室，巴托参与了一个名为「目标寻求组件」的项目，资助方是哈里·克劳普（Harry Klopf）。克劳普提出了享乐神经元假设：神经元是个体享乐主义者，努力最大化局部快乐、最小化局部痛苦。这个想法和桑代克的效果法则遥相呼应。

理查德·萨顿的加入

1978 年，比巴托小 10 岁的理查德·萨顿从斯坦福大学心理学系毕业，到马萨诸塞大学读计算机科学硕士——导师正是安德鲁·巴托。

萨顿顺理成章地加入了这个研究项目。师徒二人，一个有数学背景，一个有心理学背景，从此开始了对强化学习的系统性探索。

五、强化学习正式成型

理论的核心区分

巴托和萨顿在研究中明确区分了三种学习范式：

监督学习：从标记样本中学习，有人告诉你每个输入对应的正确答案
无监督学习：从未标记样本中学习，发现数据内部的规律
强化学习：基于评估而非误差向量，学习如何增加奖励、减少惩罚

强化学习最独特的属性是：不需要看到每一步的正确答案，只需要根据远期后果来评估——就像真实生活中的学习。

演员-评论家架构（Actor-Critic）

在早期论文中，萨顿和研究生布劳尔提出了关联记忆的概念，受约翰·霍兰德遗传算法的影响，但方向不同：他们构建了一个必须「尝试并评估」的联想网络。加入预测器后，系统需要根据不同上下文预测奖励变化——这催生了 演员-评论家架构（Actor-Critic Architecture）：

演员（Actor）：决定执行什么动作
评论家（Critic）：评估当前状态的价值，给出反馈

这个架构至今仍是现代 RL 算法（如 PPO、SAC）的核心骨架。

TD-Lambda 与延迟奖励问题

萨顿基于塞缪尔的 TD 学习进一步发明了 TD-Lambda 算法，解决强化学习中的「信用分配问题」：当一个行动带来的奖励是若干步之后才发生的，如何把功劳正确地分配给之前的每一步？

TD-Lambda 用一个衰减系数 λ 将多步的奖励信号向历史追溯，让学习既能响应即时反馈，也能考虑长期后果。

TD-Gammon：理论与实战的碰撞

1992 年，IBM 研究员杰拉尔德·特萨罗（Gerald Tesauro）用 TD-Lambda 开发了西洋双陆棋程序 TD-Gammon，其表现已经和人类专家相当，甚至更强。

双陆棋的状态数量超过 10^20，传统穷举搜索完全不可行。TD-Gammon 的关键在于用神经网络近似价值函数，通过自我对弈生成训练数据，完全绕开了高维状态空间的「维度诅咒」。

多巴胺：生物学的意外验证

更惊人的验证来自神经科学。英国神经科学家沃尔夫拉姆·舒尔茨（Wolfram Schultz）发现：

多巴胺细胞的活动突发最初由奖励触发，但随着训练，如果有一个预测性刺激，多巴胺神经元的反应会从「奖励时刻」迁移到「奖励预测时刻」——当预期奖励没有出现时，多巴胺活动甚至会低于基线。

这正是 TD 误差（预期与现实的差距）的生物学实现：

实际回报比预测更好 → 多巴胺上升（正误差，加强预测）
实际回报比预测更差 → 多巴胺下降（负误差，降低预测）

大脑的奖励系统和强化学习算法，用的是同一套逻辑。

六、从游戏到 AI 核心：后继演化

大卫·西尔弗与 AlphaGo

萨顿最著名的学生是大卫·西尔弗（David Silver）。他 2004 年在阿尔伯塔大学师从萨顿研究强化学习，2009 年毕业后加入 DeepMind。

2013 年，DeepMind 展示了用深度 Q 网络（DQN）玩 Atari 视频游戏的惊人成果，将深度学习与强化学习结合成了「深度强化学习（Deep RL）」这个新领域。

西尔弗随后领导 AlphaGo 项目。AlphaGo 结合了监督学习（从人类棋谱学习）、深度强化学习（自我对弈提升）和蒙特卡洛树搜索，在 2016 年击败世界围棋冠军李世石——完成了人类 AI 研究者追逐了几十年的目标。

吴恩达与逆强化学习

另一位与强化学习渊源深厚的人物是吴恩达（Andrew Ng）。他深受萨顿-巴托工作的影响，2003 年提出了逆强化学习（IRL，Inverse Reinforcement Learning）：

传统 RL 已知奖励函数，学习最优策略；IRL 反过来，从专家的观察行为推断奖励函数，使 RL 适用于奖励函数未知或难以定义的场景（如机器人模仿人类动作）。

舒尔曼、Abbeel 与 RLHF

吴恩达的博士生皮特·阿贝尔（Pieter Abbeel）专注机器人学习与模仿学习。阿贝尔的学生约翰·舒尔曼（John Schulman）后来成为 OpenAI 联合创始人，专注于深度强化学习的策略优化，提出了 PPO（近端策略优化）算法。

2017 年，Christiano 等人在论文《Deep Reinforcement Learning from Human Preferences》中提出了利用人类偏好比较来优化 RL 策略的方法，这是 RLHF 的早期核心思想。

2022 年，OpenAI 在 GPT-3.5/GPT-4 的训练中大规模应用 RLHF，让大模型的行为更符合人类期望——ChatGPT 的横空出世，本质上是强化学习与大语言模型的结合。

七、苦涩的教训与去中心化的未来

《苦涩的教训》：OpenAI 员工的圣经

2019 年，萨顿发表了他最著名的文章《苦涩的教训》（The Bitter Lesson）。这篇文章被称为 OpenAI 员工的「圣经」和必读文章，也是强化他们 Scaling Law 信仰的基础。

文章的核心论断是：

只有两个技术可以在计算上无限地缩放，那就是「学习」和「搜索」。

学习（深度学习、强化学习）：见过的素材越多，能力就越强，知识可以积累，不会互相抵消
搜索：在空间上考虑更多可能性，在深度上做更详尽的场景模拟——投入越多时间，越接近最优答案

这两件事都是可以随算力规模化的，而「人类知识和人工特征」是不可缩放的——投入再多聪明的人工先验知识，也比不上「让机器自己在更大的算力上学习」。

对人类的隐含启示是：那些范围窄、套路固定、靠人工先验知识构建的技能，天花板极低。 可缩放的能力——持续学习能力、在新情境中搜索解决方案的能力——才是 AI 时代真正的护城河。

萨顿的最新思考：去中心化神经网络

如今，萨顿仍然活跃在研究第一线。他指出了当前深度学习面临的根本性障碍：

灾难性遗忘：学了新知识就忘记旧知识
可塑性丧失：神经网络内部学习能力随时间衰减
模型坍塌：持续训练后性能反而下滑

他提出的方向是去中心化神经网络：赋予每个神经元独立的目标（向其他神经元传递有效信息、保持自身活跃），通过让「边缘」神经元积极探索、「骨干」神经元保持稳定来实现持续学习。

配套算法是持续反向传播：在每轮反向传播中，依据神经元的活跃度选择性地重新初始化部分神经元，从而保持模型的可塑性。

萨顿还从强化学习的哲学延伸出了一套对人类社会和 AI 治理的看法：

我们的经济在不同的人有不同目标时运作得最好。合作是人类最大的成功，集中控制是合作的敌人。我们必须抵制那些呼吁不信任、非合作和集中控制的声音。

他反对暂停 AI 研究、集中控制算力——认为去中心化合作，而非管控，才是人类与 AI 共同繁荣的路径。

尾声

从 1898 年桑代克把猫关进箱子，到 2024 年巴托和萨顿获得图灵奖，这是一段长达 126 年的接力。

强化学习的历史告诉我们，一个真正重要的想法从来不是在某个实验室里凭空诞生的——它是心理学、神经科学、数学和计算机科学在一个世纪里彼此碰撞、相互激发的产物。图灵说”我们想要一台能从经验中学习的机器”，桑代克的效果法则、赫布的神经元规则、马尔可夫的决策过程、贝尔曼方程……每一块砖都是不同领域的人放上去的。

AlphaGo赢棋的那一刻，不只是机器战胜了人类，也是几十年前那些在游戏和实验室里默默探索的人，用时间证明了自己的正确。