EP 84 · 55 min
强化学习的前世今生
2024年图灵奖授予强化学习奠基人巴托与萨顿。从桑代克的猫笼实验,到AlphaGo打败人类,再到DeepSeek R1的自我推理——这是一段横跨百年、由心理学、数学与神经科学共同编织的认知革命。
在此页收听 / Listen here
这期讲了什么
- 强化学习的根在心理学:1898年桑代克把猫关进箱子做实验,从”效果法则”到赫布法则、再到马尔可夫决策过程,让今天AI飞速进化的数学框架,是一个世纪跨学科积累的结果
- 图灵、明斯基和香农都做过强化学习实验:但”强化学习”这个名词直到巴托-萨顿师徒档才正式成型;塞缪尔1956年的跳棋程序是世界上第一个会自学习的计算机程序
- 《苦涩的教训》是OpenAI的圣经:萨顿2019年的文章——“只有学习和搜索是可以无限缩放的”——奠定了Scaling Law的信仰基础,也是GPT大模型诞生的哲学根基
- 多巴胺意外成了强化学习的生物学证据:神经科学家舒尔茨发现多巴胺细胞的活动模式与TD误差公式惊人吻合,大脑的奖励系统和强化学习算法用的是同一套逻辑
- 从AlphaGo到RLHF,强化学习是AI每次大突破的幕后推手:它是让机器从”被动模仿”变成”主动探索”的关键跨越,而公众讨论的永远是模型和数据,不是这个机制本身
- 萨顿的最新答案是去中心化:他认为持续学习、每个神经元拥有独立目标,才是超越当前深度学习瓶颈的路——这和今天的大模型架构是截然不同的路径
几个关键判断
- 强化学习是AI的暗线:每次标志性突破背后都是它,但很少被直接讨论
- “苦涩的教训”对人类的启示:萨顿说只有”学习”和”搜索”可无限缩放——那些范围窄、套路固定的技能天花板极低,AI时代可缩放的能力才是护城河
- 强化学习比监督学习更接近人类学习方式:监督学习是”有人给你标准答案”,强化学习是”自己试错获得奖励”——两者对人类工作价值的冲击路径完全不同
- 萨顿反对集中控制AI:他认为去中心化合作——而非暂停或管控——才是人类与AI共同繁荣的路径
时间轴
- 01:40 从AlphaGo到RLHF(基于人类反馈的强化学习)
- 03:56 关于萨顿的《苦涩的教训》(The Bitter Lesson)
- 09:15 强化学习的启蒙奠基
- 15:35 人工智能领域的早期发展
- 21:04 游戏让强化学习续命
- 25:49 强化学习的诞生
- 40:35 强化学习的后继演化
- 45:30 萨顿最新的观点,《去中心化神经网络》
推荐阅读
- 理查德·萨顿:《苦涩的教训》(The Bitter Lesson),2019
- 理查德·萨顿 & 安德鲁·巴托:《强化学习:导论》(Reinforcement Learning: An Introduction),1998
- 个人长文:《强化学习的前世今生》