Ian Wang
Index

← 文章 / Writing

· 22 min

强化学习的前世今生

2024年图灵奖颁给了两个你可能没听过的名字。但没有巴托和萨顿,就没有AlphaGo、没有ChatGPT的RLHF、也没有DeepSeek R1的推理能力。这篇文章梳理强化学习从心理学实验室走向AI核心的百年历程,以及萨顿那篇"OpenAI员工圣经"背后的哲学。

ai · reinforcement-learning · machine-learning · history · turing-award

这篇是 《科技慢半拍》EP84:强化学习的前世今生 的文字稿整理版,在节目稿基础上补充了更完整的人物关系和理论脉络。

楔子:图灵奖颁给了你可能没听过的名字

2025年3月5日,ACM(美国计算机协会)宣布将2024年度图灵奖授予两位人工智能专家:安德鲁·巴托(Andrew G. Barto)理查德·萨顿(Richard S. Sutton),表彰他们在强化学习领域的奠基性贡献。

ACM主席在揭晓仪式上说:“Barto 和 Sutton 的工作展示了应用多学科方法应对长期挑战的巨大潜力。从认知科学、心理学到神经科学的研究,激发了强化学习的发展,这为 AI 的一些最重要的进展奠定了基础。”

在公众眼中,强化学习(Reinforcement Learning,RL)远不如机器学习和深度学习那么耳熟能详。巴托和萨顿的名字,也不像杰夫·辛顿、杨立坤那样被广泛提及。

但每当AI取得真正的突破性进展,背后几乎都有强化学习的身影——

2016年,AlphaGo在数百万场自我对弈中反复试错,击败世界围棋冠军。2022年,ChatGPT用「人类反馈强化学习(RLHF)」学会了更接近人类期望的对话方式。2024年,DeepSeek R1、OpenAI o1开创了不依赖人工标注、仅靠自我推理验证就能学会复杂思维的新路径。

这些突破的共同底层逻辑,都是强化学习:让机器通过与环境互动、收获奖惩反馈来学习,而不是依赖人类提前标注好的答案。

今天我们要回到这个故事的源头,看看这一套思想是怎么一路走来的。

一、试错的起源:从猫的箱子开始

强化学习的哲学根基,比计算机本身还古老。

爱德华·桑代克与效果法则

1898年,美国心理学家爱德华·桑代克(Edward Thorndike)做了一系列著名的动物实验。他把猫关进一个特制的”迷题箱”——箱子里有一根杠杆,踩下去门就会打开,猫就能出去吃食物。

一开始,猫在箱子里乱跑乱抓,完全不知道怎么开门。但每当它偶然踩到杠杆,门开了,食物出现了,下一次它就会更快地找到那根杠杆。桑代克记录下每次逃脱所用的时间,画出了一条 S 形的学习曲线。

从这些观察中,桑代克提出了效果法则(Law of Effect)

  • 带来满足感的行为,下次更可能重复
  • 带来不适感的行为,下次更可能避免
  • 奖励比惩罚更有效,且奖励要在成功后立即兑现才有效

这就是”试错学习”的原型——不告诉你怎么做,而是通过结果的好坏来调整行为。百年后,这正是强化学习算法的核心逻辑。

赫布法则与神经元的学习

1949年,神经心理学家唐纳德·赫布(Donald Hebb)在研究黑猩猩的过程中提出了赫布法则(Hebb’s Law)

如果两个神经元细胞总是同时被激活,它们之间就会出现关联,同时激活的概率越高,关联程度越深。

通俗地说:「一起放电的神经元,连在一起。」这是无监督学习的最早生物模型,也奠定了后来神经网络”权重更新”的直觉基础。

马尔可夫决策过程:数学框架的到来

1950年代,俄罗斯数学家安德烈·马尔可夫提出的马尔可夫决策过程(MDPs) 为强化学习提供了严格的数学语言。它的核心思想是:

在不同状态下,选择合适的动作,使未来的奖励最大化;且每一步的决策只依赖于当前状态,而不考虑过去的历史。

“只看当下状态”这个假设让问题大幅简化,让机器在面对复杂环境时可以做出系统性的最优决策。MDP后来成为强化学习理论的数学地基。

二、人工智能先驱的早期实验

图灵:第一次公开演讲

1947年,艾伦·图灵在伦敦数学学会做了一场演讲,那是有史以来第一次关于人工智能的公开演讲。他说了一句话:

“我们想要的是一台可以从经验中不断学习的机器。”

这句话既是强化学习的哲学根基,也是图灵对AI方向最早的预言。遗憾的是,图灵英年早逝,没有看到任何实现。

香农的迷宫老鼠

1951年,克劳德·香农制造了一台叫做「忒修斯(Theseus)」的机械老鼠迷宫。机械老鼠通过继电器组装,可以在迷宫中移动,表面下方的传感器追踪路径。经过多次试错,装置能学习通过迷宫的最短路径。

这是早期「奖励导向的行为学习」的机械实现。

明斯基:SNARC 与强化这个词的起源

另一位 AI 先驱马文·明斯基在 1951 年建造了一台机器:SNARC(Stochastic Neural Analog Reinforcement Calculator,随机神经模拟强化计算器)。

SNARC 由迷宫般的阀门、电机、齿轮和连接神经元的电线组成,共有 40 个突触。机器模拟多只「神经老鼠」在迷宫中寻找出路,每当老鼠到达目标,对应的电路就得到加强。经过多次随机尝试后,老鼠开始在逻辑基础上做出正确选择。

明斯基在论文和机器名字里都使用了「强化(Reinforcement)」这个词——但还没加上「Learning(学习)」。这是这个词在 AI 领域最早的使用记录之一。

三、游戏续命:棋类世界里的自学习探索

在符号主义 AI 大行其道的年代,强化学习的探索者们找到了一个低成本的验证场地:游戏。

塞缪尔的跳棋程序:第一个自学习的计算机程序

1949 年,亚瑟·塞缪尔(Arthur Samuel)加入 IBM,在 IBM 701 上研发了第一个跳棋程序(Checkers)。这款程序让 IBM 股票一夜涨了 15 个点。

塞缪尔的创新在于:他没有让程序搜索每一条可能的路径,而是开发了一个评分函数,根据任意时刻的棋盘位置估算双方的获胜机会。这就是今天「价值函数」的原型。

他还让程序与自己对弈数千场,从专业比赛结果中提取奖励信号——这是时间差分学习(Temporal Difference Learning) 的早期实践。塞缪尔的跳棋程序是世界上第一个成功完成自学习的计算机程序。

贝尔曼方程:数学对游戏的验证

几乎同时,美国数学家理查德·贝尔曼(Richard Bellman)在 1953 年提出了动态规划方程(贝尔曼方程),用递归关系描述最优价值函数。

贝尔曼来自数学领域,塞缪尔来自计算机领域,两人互不知晓对方的研究——但他们的思路高度吻合。贝尔曼方程后来成为强化学习的核心数学工具,几乎所有 RL 算法都建立在它的基础上。

米奇的火柴盒:没有计算机的强化学习

英国 AI 研究员唐纳德·米奇(Donald Michie)在 1961 年用 304 个火柴盒 实现了一个能学习玩完美井字游戏的程序——MENACE(Matchbox Educable Noughts And Crosses Engine)。

每个火柴盒代表一种棋盘状态,里面装满代表不同走法的彩色珠子:

  • 赢了就增加成功路径上的珠子(奖励策略)
  • 输了就移除失败路径上的珠子(惩罚策略)

没有计算机,没有数学公式,米奇用物理手段实现了「策略更新」和「奖励机制」。这个类比对理解强化学习的本质非常直观。

四、师承关系:巴托与萨顿的诞生

强化学习的核心理论体系,由一对师徒完成。

安德鲁·巴托的起点

安德鲁·巴托(1948年生)在密歇根大学学数学,读到麦卡洛克-皮茨的神经网络论文后,被「数学+大脑+机器」的结合深深吸引。1975 年获得博士学位后,他加入了马萨诸塞大学阿默斯特分校迈克尔·阿比布的实验室。

阿比布是控制论奠基人诺伯特·维纳学术谱系中的重要人物,专注神经计算和感知-动作控制,将生物神经系统的灵感系统性地引入 AI 研究。

在阿比布实验室,巴托参与了一个名为「目标寻求组件」的项目,资助方是哈里·克劳普(Harry Klopf)。克劳普提出了享乐神经元假设:神经元是个体享乐主义者,努力最大化局部快乐、最小化局部痛苦。这个想法和桑代克的效果法则遥相呼应。

理查德·萨顿的加入

1978 年,比巴托小 10 岁的理查德·萨顿从斯坦福大学心理学系毕业,到马萨诸塞大学读计算机科学硕士——导师正是安德鲁·巴托。

萨顿顺理成章地加入了这个研究项目。师徒二人,一个有数学背景,一个有心理学背景,从此开始了对强化学习的系统性探索。

五、强化学习正式成型

理论的核心区分

巴托和萨顿在研究中明确区分了三种学习范式:

  • 监督学习:从标记样本中学习,有人告诉你每个输入对应的正确答案
  • 无监督学习:从未标记样本中学习,发现数据内部的规律
  • 强化学习:基于评估而非误差向量,学习如何增加奖励、减少惩罚

强化学习最独特的属性是:不需要看到每一步的正确答案,只需要根据远期后果来评估——就像真实生活中的学习。

演员-评论家架构(Actor-Critic)

在早期论文中,萨顿和研究生布劳尔提出了关联记忆的概念,受约翰·霍兰德遗传算法的影响,但方向不同:他们构建了一个必须「尝试并评估」的联想网络。加入预测器后,系统需要根据不同上下文预测奖励变化——这催生了 演员-评论家架构(Actor-Critic Architecture)

  • 演员(Actor):决定执行什么动作
  • 评论家(Critic):评估当前状态的价值,给出反馈

这个架构至今仍是现代 RL 算法(如 PPO、SAC)的核心骨架。

TD-Lambda 与延迟奖励问题

萨顿基于塞缪尔的 TD 学习进一步发明了 TD-Lambda 算法,解决强化学习中的「信用分配问题」:当一个行动带来的奖励是若干步之后才发生的,如何把功劳正确地分配给之前的每一步?

TD-Lambda 用一个衰减系数 λ 将多步的奖励信号向历史追溯,让学习既能响应即时反馈,也能考虑长期后果。

TD-Gammon:理论与实战的碰撞

1992 年,IBM 研究员杰拉尔德·特萨罗(Gerald Tesauro)用 TD-Lambda 开发了西洋双陆棋程序 TD-Gammon,其表现已经和人类专家相当,甚至更强。

双陆棋的状态数量超过 10^20,传统穷举搜索完全不可行。TD-Gammon 的关键在于用神经网络近似价值函数,通过自我对弈生成训练数据,完全绕开了高维状态空间的「维度诅咒」。

多巴胺:生物学的意外验证

更惊人的验证来自神经科学。英国神经科学家沃尔夫拉姆·舒尔茨(Wolfram Schultz)发现:

多巴胺细胞的活动突发最初由奖励触发,但随着训练,如果有一个预测性刺激,多巴胺神经元的反应会从「奖励时刻」迁移到「奖励预测时刻」——当预期奖励没有出现时,多巴胺活动甚至会低于基线。

这正是 TD 误差(预期与现实的差距)的生物学实现:

  • 实际回报比预测更好 → 多巴胺上升(正误差,加强预测)
  • 实际回报比预测更差 → 多巴胺下降(负误差,降低预测)

大脑的奖励系统和强化学习算法,用的是同一套逻辑。

六、从游戏到 AI 核心:后继演化

大卫·西尔弗与 AlphaGo

萨顿最著名的学生是大卫·西尔弗(David Silver)。他 2004 年在阿尔伯塔大学师从萨顿研究强化学习,2009 年毕业后加入 DeepMind。

2013 年,DeepMind 展示了用深度 Q 网络(DQN)玩 Atari 视频游戏的惊人成果,将深度学习与强化学习结合成了「深度强化学习(Deep RL)」这个新领域。

西尔弗随后领导 AlphaGo 项目。AlphaGo 结合了监督学习(从人类棋谱学习)、深度强化学习(自我对弈提升)和蒙特卡洛树搜索,在 2016 年击败世界围棋冠军李世石——完成了人类 AI 研究者追逐了几十年的目标。

吴恩达与逆强化学习

另一位与强化学习渊源深厚的人物是吴恩达(Andrew Ng)。他深受萨顿-巴托工作的影响,2003 年提出了逆强化学习(IRL,Inverse Reinforcement Learning)

传统 RL 已知奖励函数,学习最优策略;IRL 反过来,从专家的观察行为推断奖励函数,使 RL 适用于奖励函数未知或难以定义的场景(如机器人模仿人类动作)。

舒尔曼、Abbeel 与 RLHF

吴恩达的博士生皮特·阿贝尔(Pieter Abbeel)专注机器人学习与模仿学习。阿贝尔的学生约翰·舒尔曼(John Schulman)后来成为 OpenAI 联合创始人,专注于深度强化学习的策略优化,提出了 PPO(近端策略优化)算法。

2017 年,Christiano 等人在论文《Deep Reinforcement Learning from Human Preferences》中提出了利用人类偏好比较来优化 RL 策略的方法,这是 RLHF 的早期核心思想

2022 年,OpenAI 在 GPT-3.5/GPT-4 的训练中大规模应用 RLHF,让大模型的行为更符合人类期望——ChatGPT 的横空出世,本质上是强化学习与大语言模型的结合。

七、苦涩的教训与去中心化的未来

《苦涩的教训》:OpenAI 员工的圣经

2019 年,萨顿发表了他最著名的文章《苦涩的教训》(The Bitter Lesson)。这篇文章被称为 OpenAI 员工的「圣经」和必读文章,也是强化他们 Scaling Law 信仰的基础。

文章的核心论断是:

只有两个技术可以在计算上无限地缩放,那就是「学习」和「搜索」。

  • 学习(深度学习、强化学习):见过的素材越多,能力就越强,知识可以积累,不会互相抵消
  • 搜索:在空间上考虑更多可能性,在深度上做更详尽的场景模拟——投入越多时间,越接近最优答案

这两件事都是可以随算力规模化的,而「人类知识和人工特征」是不可缩放的——投入再多聪明的人工先验知识,也比不上「让机器自己在更大的算力上学习」。

对人类的隐含启示是:那些范围窄、套路固定、靠人工先验知识构建的技能,天花板极低。 可缩放的能力——持续学习能力、在新情境中搜索解决方案的能力——才是 AI 时代真正的护城河。

萨顿的最新思考:去中心化神经网络

如今,萨顿仍然活跃在研究第一线。他指出了当前深度学习面临的根本性障碍:

  • 灾难性遗忘:学了新知识就忘记旧知识
  • 可塑性丧失:神经网络内部学习能力随时间衰减
  • 模型坍塌:持续训练后性能反而下滑

他提出的方向是去中心化神经网络:赋予每个神经元独立的目标(向其他神经元传递有效信息、保持自身活跃),通过让「边缘」神经元积极探索、「骨干」神经元保持稳定来实现持续学习。

配套算法是持续反向传播:在每轮反向传播中,依据神经元的活跃度选择性地重新初始化部分神经元,从而保持模型的可塑性。

萨顿还从强化学习的哲学延伸出了一套对人类社会和 AI 治理的看法:

我们的经济在不同的人有不同目标时运作得最好。合作是人类最大的成功,集中控制是合作的敌人。我们必须抵制那些呼吁不信任、非合作和集中控制的声音。

他反对暂停 AI 研究、集中控制算力——认为去中心化合作,而非管控,才是人类与 AI 共同繁荣的路径。

尾声

从 1898 年桑代克把猫关进箱子,到 2024 年巴托和萨顿获得图灵奖,这是一段长达 126 年的接力。

强化学习的历史告诉我们,一个真正重要的想法从来不是在某个实验室里凭空诞生的——它是心理学、神经科学、数学和计算机科学在一个世纪里彼此碰撞、相互激发的产物。图灵说”我们想要一台能从经验中学习的机器”,桑代克的效果法则、赫布的神经元规则、马尔可夫的决策过程、贝尔曼方程……每一块砖都是不同领域的人放上去的。

AlphaGo赢棋的那一刻,不只是机器战胜了人类,也是几十年前那些在游戏和实验室里默默探索的人,用时间证明了自己的正确。