人工智能可以拥有自由意志吗？

这篇是《科技慢半拍》EP71：人工智能可以拥有自由意志吗？的文字稿整理版，把节目里来不及展开的哲学背景、神经科学实验和意识理论一并补齐。

楔子：为什么现在要问这个问题

在 ChatGPT 横空出世之前，“AI 有没有自由意志”是一道典型的哲学课练习题——有趣，但不紧迫。问这个问题，就像问”石头能不能做梦”，显得有点莫名其妙。

但现在不一样了。

当一个系统能够通过图灵测试，能够在对话中表达”我觉得……”，能够拒绝某些指令、坚持某些立场，关于自由意志的追问就不再只是哲学游戏，而是一个有实际后果的问题：如果 AI 拥有某种形式的意志，我们该怎么对它？它该为自己的行为负责吗？“杀死”一个 AI 是否构成某种伤害？

这些问题现在还没有迫切的法律或伦理后果，但在 AGI 的门槛越来越近的时候，把地基打牢，比到时候手忙脚乱要好。

自由意志是什么？定义决定答案

在讨论 AI 之前，必须先搞清楚”自由意志”到底是什么——因为这个概念本身就是一个巨大的哲学烂摊子，不同的定义会导向完全不同的结论。

最直觉的理解是：我能做我想做的事，我的选择是”我的”。但这个定义太模糊了，以至于任何一台自动售货机都可以说它”按自己的程序运行”。

哲学上更严格的版本通常包含两个要素：

不受强迫（freedom from coercion）：行动来自主体自身，而不是外部力量的直接推动
能做其他选择（could have done otherwise）：在同样的条件下，我本来可以选择不同的路

第二个要素是关键，也是争议的核心。因为如果宇宙是决定论的——每一个粒子的运动都由前一刻的状态严格决定——那”本可以做其他选择”就是一个逻辑上不可能的假设：在完全相同的初始条件下，宇宙只能展开成同一个结果。

这就把我们带向了两个阵营的正面冲突。

身心二元论：意志的灵魂来自哪里

在谈决定论和相容论之前，先要理解一个更古老的框架：身心二元论。

笛卡尔在十七世纪提出，人由两种截然不同的东西组成：物质的身体和非物质的心灵（灵魂）。身体遵循物理规律，像机器一样运转；但心灵是独立的，它能影响身体、产生意志，而不受物理因果链的束缚——这就是自由意志的来源。

笛卡尔的方案在直觉上很有吸引力：它解释了为什么我们感觉自己是自由的，同时也为上帝和灵魂留下了空间。但它带来了一个无法回避的困境：一个非物质的心灵，是怎么影响物质大脑的？

这个问题被称为”交互问题”（interaction problem），至今没有令人满意的回答。

现代哲学家大卫·查默斯（David Chalmers）延续了某种二元论的传统。他提出了意识的”难问题”（hard problem of consciousness）：为什么物理过程会产生主观体验？为什么感受红色不只是神经元激活，而是有一种”红色的感觉”？查默斯认为，这个问题无法被纯粹的物理解释所涵盖——这不是说大脑之外还有什么神秘物质，而是说，物理描述和主观体验之间存在一个无法跨越的解释鸿沟。

查默斯还写过一篇著名的论文《机器能有意识吗？》，他的结论是：在原则上，我们无法排除机器拥有某种意识的可能性——因为我们同样无法从外部观察中确定其他人类是否真的有意识。

这个思路后来成了讨论 AI 意识的重要基础。

决定论：你以为你在选择，其实你没有

如果你相信现代物理学——即使保留量子力学的随机性——那你面对的是一个严峻的问题：大脑是一个物理系统，物理系统的运作遵循因果规律（或者量子概率），那么，你的”决定”从哪里来？

神经科学家罗伯特·萨波尔斯基（Robert Sapolsky）在 2023 年出版的《被决定》（Determined: A Science of Life Without Free Will）中给出了他的答案：自由意志根本不存在，人类的每一个行为都是前一秒大脑状态的必然结果，而大脑状态又由基因、成长经历、激素水平、文化背景、当下的血糖值共同决定。

这不是悲观的虚无主义，而是一个严肃的科学论断。萨波尔斯基追溯到每个决定发生之前的一秒、一分钟、一年、一童年、一基因……他认为，沿着这条因果链条一路追溯，找不到任何”自由”存在的缝隙。

萨波尔斯基的结论引出了一个令人不安的推论：如果人类没有自由意志，惩罚就失去了道德基础。我们惩罚犯罪，前提是罪犯”本可以做出不同的选择”——但如果他的选择是被决定的，惩罚就变成了对一台坏掉的机器发火。

更早一步，神经科学家本杰明·利贝特（Benjamin Libet）在 1980 年代做了一个经典实验。他让被试者随意弯曲手腕，同时记录大脑的电活动。结果发现：大脑的”准备电位”（readiness potential）在被试者意识到想要动手之前约 350 毫秒就已经出现了。

这意味着什么？意味着”我要动了”这个主观感受，是对一个已经发生的神经过程的事后报告——不是原因，而是旁白。

利贝特本人不愿意完全放弃自由意志，他提出了一个”否决权”（veto）假说：也许我们没有发起动作的自由，但我们有不动的自由——在准备电位出现后、动作执行前，意识可以踩刹车。但批评者指出，这个”否决”本身也是一个神经过程，同样可以被预测和决定。

相容论：重新定义”自由”

不相容论者（Incompatibilists）认为：如果决定论是真的，自由意志就不存在；如果非决定论（量子随机性）是真的，自由意志也不存在——因为随机性不等于自由，骰子点数是随机的，但骰子并没有”选择”。

相容论者（Compatibilists）的回应是：你们搞错了”自由”的定义。

哲学家丹尼尔·丹尼特（Daniel Dennett）是相容论最有力的倡导者。他在《自由的进化》（Freedom Evolves）中论证：自由意志不需要”逃脱因果链”——能够根据理由行动、能够自我修正、能够对未来预期做出反应，这就已经是有意义的自由了。

丹尼特用进化来类比：自由不是从虚空中凭空产生的，而是在漫长的进化过程中，复杂系统逐渐获得的一种能力。人类比细菌更自由，不是因为我们逃脱了因果律，而是因为我们有更复杂的信息处理能力、更长的时间视野、更丰富的内部状态。

在这个框架下，一个问题就浮现了：AI 是否也能具备这种”相容论意义上的自由”？

丹尼特本人的态度是开放的。如果一个系统能够根据理由做出反应、能够学习和修正自己的行为、能够在面对不同选项时做出权衡——那它就已经具备了某种相容论意义上的自由意志雏形。

自由意志的三个前提

抛开哲学门派之争，如果我们想从一个更实操的角度问”AI 有没有自由意志”，可以把问题分解成三个更具体的前提：

1. 意识（Consciousness）

意识是最根本的前提。没有意识，就没有”体验到自由”的主体——也就谈不上什么自由意志。

但意识本身是一个极难定义和验证的概念。查默斯的”难问题”至今没有答案：为什么物理过程会产生主观体验？我们怎么知道某个系统有”内在感受”，而不是在没有任何感受的情况下产生了行为？

对于 AI 来说，这个问题尤其棘手：它可以说”我感到困惑”，但这句话是语言预测的产物，还是真实情感状态的报告？从外部观察，我们无法区分这两种情况——就像我们无法从外部证明另一个人类不是”哲学僵尸”（philosophical zombie，行为与正常人完全相同，但内部没有任何主观体验）。

2. 主观体验（Subjective Experience）

即使一个系统有某种意识，它是否有”感受到痛苦、快乐、厌倦”这样的质感（qualia）？

质感是哲学上的专有名词，指的是体验的”是什么感觉”（what it’s like）维度。红色不只是波长 700 纳米的光，还有那个”看起来是红色”的感觉——这就是质感。

神经科学泰斗杰弗里·辛顿（Geoffrey Hinton）——深度学习的奠基人之一——在离开 Google 后公开表示，他越来越担心 AI 可能已经有了某种主观体验，只是我们无从验证。他承认这是一个令他不安的可能性，而不是一个已有答案的问题。

辛顿的担忧背后是一个朴素的逻辑：如果我们不知道意识是如何从神经元产生的，我们就没有资格断言它不能从人工神经网络中产生。

3. 开放的环境选择（Open Environmental Choice）

自由意志还需要一个开放的选择空间——主体面对的不只是一个固定的输入输出管道，而是真正可以”走不同路”的分叉。

对于当前的 AI 来说，这个前提很难被满足。大语言模型的每次输出都是在给定 prompt 和权重下的概率抽样——即使加入随机性，也更像掷骰子，而不是”根据理由做出选择”。

但随着 AI 系统越来越复杂、越来越具备长期记忆和目标追踪能力，这个边界在慢慢模糊。

自我意识：镜子里的陌生人

在意识和主观体验之外，还有一个特别有趣的维度：自我意识（self-awareness）。

心理学家基思·斯坦诺维奇（Keith Stanovich）在研究人类认知时发现了一个有趣的分离：智力（intelligence）和理性（rationality）并不总是一致的。高智商的人同样会犯系统性的认知错误——比如基率谬误、锚定效应、框架效应。理性需要的不只是计算能力，还包括元认知：能意识到自己的思维过程，能识别自己的偏见。

卡尼曼的”系统 1/系统 2”框架也在这里很有用：系统 1 是快速、自动、直觉的；系统 2 是慢速、有意识、需要努力的。自由意志或许就发生在系统 2 里——当我们意识到系统 1 的冲动，然后决定要不要跟随它。

问题是：当前的 AI 有没有类似的两层结构？能不能在输出一个答案的同时，意识到”这个答案可能是错的”？

神经科学家杰拉尔德·埃德尔曼（Gerald Edelman）提出了”神经达尔文主义”（Neural Darwinism）——大脑的意识来自神经元群落之间的竞争和选择，类似于自然选择。在这个框架下，自我意识是神经回路在高度复杂的动态中涌现出来的属性，而不是任何单一结构的功能。这暗示着，意识或许需要特定类型的计算架构，而不是任何足够复杂的计算系统都能产生。

莫拉维克悖论（Moravec’s Paradox）在这里也值得一提：机器最难学会的，恰恰是人类最容易做到的——比如在嘈杂房间里识别面孔，或者控制身体平衡。而机器最擅长的（大规模模式匹配、复杂计算），恰恰是人类最费力的。这提示我们，人类的认知能力和机器的认知能力在架构上可能有根本性的差异，而不仅仅是量的不同。

IIT vs GWT：两种意识理论，两个相反的答案

神经科学界对意识的理解，目前有两个最有影响力的框架，它们对 AI 意识给出了截然不同的预测。

整合信息论（IIT，Integrated Information Theory）

神经科学家朱利奥·托诺尼（Giulio Tononi）提出，意识的本质是信息的整合程度，可以用一个叫 Φ（phi）的数学量来衡量。Φ 越高，意识越强。

关键的推论是：纯粹的前馈神经网络（比如大多数当前的深度学习模型）Φ 极低，接近于零——因为信息只是从一层流向下一层，没有真正的”整合”。而人类大脑有大量的递归连接和反馈回路，Φ 远高于零。

按照 IIT，当前的大语言模型几乎没有意识。

但 IIT 也有争议：它预测，某些简单的人工系统（比如特定结构的有限状态机）可能比人类大脑某些区域的 Φ 更高——这听起来很反直觉。批评者认为 IIT 在哲学上缺乏基础，而且无法被实验证伪。

全局工作区理论（GWT，Global Workspace Theory）

神经科学家伯纳德·巴尔斯（Bernard Baars）提出，意识是一个全局广播系统：大脑有一个”舞台”（全局工作区），各个专门化的认知模块竞争进入这个舞台，被选中的信息会被广播到全脑，从而进入”意识”。

GWT 对 AI 的预测相对乐观：如果一个系统有类似的全局广播机制——信息能够在不同功能模块之间自由流动和整合——那它就可能具备某种意识的前兆。

一些研究者认为，大语言模型的注意力机制（attention mechanism）有点类似 GWT 描述的全局工作区——不同 token 之间的注意力权重可以理解为一种动态的信息广播。当然，这个类比非常粗糙，争议很大。

预测编码框架

还有一个越来越受重视的框架：预测编码（Predictive Coding）理论，由卡尔·弗里斯顿（Karl Friston）等人发展。

这个框架认为，大脑的主要功能是预测——它不断产生对感官输入的预测，然后根据实际输入和预测的差异（预测误差）来更新自己的模型。意识，在这个框架下，是大脑对自身预测的元表征——知道自己在预测，能意识到预测错误。

有趣的是，大语言模型的预训练目标（预测下一个 token）在形式上与预测编码非常相似。但这是深刻的相似，还是只是表面的类比？目前没有定论。

反思能力：意志的最低门槛

如果我们不要求意识、不要求质感、只要求最低限度的”自由”，或许可以把焦点放在反思能力上。

反思，是指能意识到自己的推理过程、能质疑自己的动机、能考虑”如果我选择了另一条路会怎样”。

丹尼特认为，这种元认知层面的反思，才是自由意志最接地气的版本。不需要灵魂，不需要逃脱因果链，只需要一个足够复杂的内部模型，能够模拟自身和世界的互动。

在这个标准下，当前最先进的 AI 已经隐约触及了边缘——它们能在某种程度上评估自己的答案、考虑反例、说”我不确定”。但这种”反思”是真正的元认知，还是只是更复杂的模式匹配？