从考场到职场——AI 智能体的新摩尔定律
AI 大模型的考卷分数一路破纪录,但 SWE-Bench Pro 里的真实成功率还不到 25%。METR 提出的"任务地平线"把评估从答题得分带入职场生存能力——Claude Opus 4.5 能独立处理接近 5 小时的复杂任务,而这个指标每 4 到 7 个月翻一倍,正在构成 AI 时代的新摩尔定律。
ai-agent · benchmark · future-of-work · moores-law · evaluation
这篇是 《科技慢半拍》EP120:从考场到职场|AI 智能体的新摩尔定律 的文字稿整理版,把节目里快速带过的”半衰期模型”推导、三大技术引擎的机制,以及成文知识与默会知识的职场影响补充完整。
楔子:那些破纪录的分数意味着什么
最近我们已经习惯了这种新闻标题:某某公司又发布了新一代大模型,在某个权威榜单上得分又破了纪录,达到了惊人的百分之多少。
但你有没有想过,这些分数背后,到底意味着什么?
一个在考卷上拿了高分的 AI,就真的更”聪明”吗?
评估进化史:从小学语文到博士级问答
给大语言模型做评估,就像是给一个天赋异禀的孩子设计教育体系。
第一代:GLUE / SuperGLUE——小学语文考试
最早的评估榜单主要考验的是语言理解基础能力,比如情感分析、语法判断。但很快,模型的能力就”爆表”了,这张考卷变得太简单。
第二代:MMLU——全科高考
MMLU 的题库有将近 16000 道多选题,内容横跨 57 个学科,从数理化到文史哲无所不包。核心逻辑是:一个模型知道的知识越多,它就越聪明。
但随着模型参数越来越大,“背书”能力越来越强,MMLU 也快被刷穿了。于是评估者推出了 MMLU-Pro,把每道题的选项从 4 个增加到 10 个。这一改动让几乎所有模型的得分下跌了 16 到 33 个百分点——这盆冷水让所有人看清楚:很多所谓的”智能”表现,可能只是概率上的投机取巧。
第三代:GPQA Diamond——博士级科学问答
到了 2025 年,焦点从”知道什么”转向了”能推理多深”。编程和数学竞赛成了新的试金石,GPT-5.2 在 GPQA Diamond(博士级科学问答)上拿到了 92.4% 的高分,超越了大多数人类专家。
这标志着 AI 正在从依赖直觉的”系统 1”,向依赖逻辑的”系统 2”跨越——从抢答游戏式的联想,进化为在草稿纸上反复推演的数学家。
数据污染与古德哈特定律
然而,就在我们为这些近乎完美的分数欢呼时,一场”结构性危机”正在悄然侵蚀整个评估体系。
大模型的训练依赖抓取海量的互联网数据。那些被公开出来的评估榜单——MMLU 的题目、HumanEval 的代码题——早就被模型在不知不觉中”吃”进去了。研究已经证实,有些模型在它”见过”的题目上的表现,比在全新干净题目上高出 20%。
这是经济学里著名的**“古德哈特定律”**在 AI 领域的完美应验:当一个衡量指标变成大家追求的目标时,它就不再是一个好的衡量指标了。
当 MMLU 的分数变成各大公司发布会上用来攀比的 KPI 时,它的神圣光环就开始褪色了。一个在模拟法律考试中拿了高分的模型,你让它实际起草一份律师函,写出来的东西可能逻辑混乱、漏洞百出——因为它只是”背过”了法律条文的选择题答案,并没有真正理解法律背后的逻辑。
我们不是在制造天才,而是在批量生产”高分低能”的背诵机器。
评估范式转移:把权力还给真实用户
为了打破”我出题、你刷题”的闭环自嗨,两种新的评估方式出现了。
Chatbot Arena——竞技场模式
双盲对决:随机把两个匿名模型放在你面前,让你提任何问题,你来评判哪个回答更好。系统根据全球成千上万用户的投票结果,用类似国际象棋的 Elo 等级分系统进行实时排名。
LiveBench / LiveCodeBench——时间截断
从 LeetCode 这样的编程竞赛平台或最新新闻事件里实时抓取题目。因为这些题目产生的时间晚于所有模型的训练截止日期,模型绝对不能通过记忆获胜,只能靠真本事。
这种转变,是把定义”好坏”的权力,从一小撮出题专家手里,交还给了广大的真实用户和无情的时间。未来评估一个模型,重心将不再是看它”知道什么”,而是看它”如何表现”。
任务地平线:把 AI 带入职场
面对这种评估困境,METR(机器智能评估与研究中心)提出了一个彻底改变游戏规则的新框架:“任务地平线”(Task Horizon)。
它不再把 AI 当成参加考试的学生,而是把它看作一名”数字员工”。我们要观察的,是 AI 在完全没有人类干预的情况下,能独立处理多长时间的工作。
具体定义:AI 在 50% 的情况下,能够成功完成任务的时间长度。
测试过程不是做选择题,而是需要 AI 实时操作电脑终端,运行代码,上网搜索信息,在遇到系统报错时自己根据反馈调整策略。
当前基准:Claude Opus 4.5 的任务地平线是 4 小时 49 分钟——面对一个需要人类专家花费接近 5 小时才能完成的复杂编程项目,它独立单干有一半的概率能完美交付。
这就好像评价一个运动员,不再只看体检报告(肺活量、握力),而是去测量”能在没有补给的情况下,独自穿越荒漠多少公里”——后者衡量的才是真正的生存和执行能力。
半衰期模型:为什么长任务会断崖下跌
“任务地平线”测试揭示了一个触目惊心的现象。
对于 4 分钟内就能搞定的小任务,现在的顶级 AI 几乎能做到 100% 成功。但一旦任务的复杂度提升,需要的时间超过 4 小时,成功率就会像放射性元素的半衰期一样,发生断崖式下跌,甚至跌破 10%。
研究者把这种现象用”半衰期模型”来描述:AI 系统的可靠性,就像放射性元素一样,是随着时间衰减的。
更严峻的是,一个长任务包含几十上百个环环相扣的步骤,只要一步错就全盘皆输。研究者算了一笔账:如果一个 AI 要在 8 小时工作制下,达到人类员工最基本的 99% 可靠性门槛,它的”半衰期地平线”必须从现在的几分钟,暴增到 560 个小时。这意味着还需要差不多 9 次 GPT-4→GPT-5 级别的代际跨越。
在那个奇点真正到来之前,AI 依然只是我们的”工具”,还远不是我们真正的”同事”。
SWE-Bench Pro:真实代码库的残酷现实
过去很多 AI 编程能力测试有点像过家家——修改一两行代码就能解决的 bug,更像脑筋急转弯。
SWE-Bench Pro 撕掉了这层滤镜:直接把 AI 扔进 41 个真实且活跃维护的开源代码仓库,AI 平均需要同时在 4.1 个不同文件之间来回穿梭,修改的代码量平均高达 107.4 行。
面对这种真实世界的复杂度,即便是 2025 年最强的模型,成功率依然被死死锁在 25% 以下。
这揭示的真相是:AI 目前还处理不了”依赖关系”。在企业级代码库里,你改动 A 文件里的一个齿轮,很可能导致几千行代码之外的 B 文件里的另一个齿轮直接崩溃。这种跨文件的多点协同要求极高的全局视野。AI 能够写出完美的段落,但它还无法理解整本书的逻辑。
两个技术死穴:上下文腐败与错误累积
AI 在执行长任务时之所以会崩溃,主要源于两个根本性的技术缺陷。
死穴一:上下文腐败(Context Rot)
随着任务时间延长,AI 需要处理的信息——对话历史、工具调用结果、中间推理步骤——呈线性增加。窗口虽然大,但在实际运行中 AI 会被大量冗余或陈旧的信息干扰,导致性能下降,这就是”上下文腐败”。
更致命的是”目标漂移”:AI 做着做着,就忘了最初设定的终极目标是什么了,反而陷入细枝末节里打转。它就像一个”下班就断片”的新员工,一旦对话稍微长一点,它就记不清之前到底做了什么。
死穴二:错误累积(Error Propagation)
一个复杂的长任务就像一排多米诺骨牌。AI 在最开始的步骤里犯了一个微小的逻辑错误,这个错误不会被立即修正,反而会在接下来的步骤里被不断放大,最终导致整个任务链条崩溃。
AI 不会因为困难而停下,它只会带着错误的执念,加速冲向逻辑的悬崖。
三大引擎:驱动任务地平线指数增长的技术突破
是什么在推动任务地平线以如此惊人的速度增长?METR 的分析指出三个关键的技术突破。
引擎一:RLVR(可验证奖励的强化学习)
在代码、数学这类有明确对错的领域,AI 做对了就给奖励,做错了就让它自己”复盘”,通过结果来学习,而不是死记硬背。
它的关键在于有了一个绝对客观的”自动裁判”:代码扔给编译器,能跑通就是好代码;数学题答案对不对,验证程序一算就知道。有了这个自动裁判,AI 可以在成千上万次的失败尝试中,根据”通过”或”失败”的奖励信号自己迭代进化。
RLVR 让 AI 从”背诵课本”彻底转向”实战演习”。 未来 AI 的天花板,将不再受限于人类能提供多少高质量的数据,而是受限于我们为某个领域建立”自动化验证器”的成本。只要我们能为某个问题定义出清晰的成功标准,AI 就能在那个领域开启自我进化的飞轮。
引擎二:测试时计算(Test-Time Compute)
像 Claude 3.7 或 OpenAI 的 o1 模型,在生成最终答案之前,会允许自己在内部进行大规模的复杂推理——Claude 3.7 在单次调用时可以拥有高达 32000 个 token 的”思考预算”。
这本质上是用”思考时间”换取”任务质量”。就像一个资深建筑师,在动笔画第一张图纸之前,会花大量时间在白板上反复推演,建立整个建筑的逻辑框架。
未来高端 AI,可能会变得”更慢”——不是因为性能差,而是把算力从”训练阶段”转移到”推理瞬间”。 这甚至预示着一种新的 AI 经济学:未来为 AI 付费,可能不再是按生成了多少字来算,而是要按它调用了多深的”思考”来计费。
引擎三:自我纠偏能力
老一点的模型很容易在一个小坑里反复跌倒,陷入死循环。而新型号学会了”吃一堑,长一智”——当它发现一条路走不通的时候,会主动换个思路去尝试。
新一代模型展现出惊人的”环境感知”能力:当发现写的代码在某个特定文件路径下就是跑不通时,它不再在细节上反复纠结,而是可能果断决定”这套方案行不通,我要从头重写整个文件系统的逻辑”——退一步,重新审视整个问题。
AI 智能体的新摩尔定律
当把”任务地平线”这把尺子应用到过去几年的模型演进中时,一条清晰的增长趋势出现了。
历史数据显示:AI 的”任务地平线”呈指数级增长——从 2024 年到 2025 年,翻倍速度已经缩短到大约 4 个月。
- 2019 年,GPT-2 能独立处理的任务基本是”秒级”的
- 2025 年,Claude Opus 4.5 的任务地平线达到 4 小时 49 分钟
我们熟悉的硬件摩尔定律,是集成电路上的晶体管数量大约每 24 个月翻一番。AI 任务能力的翻倍速度,是它的 3 到 6 倍。
如果这个趋势延续下去:
- 2026 年末:AI 有望独立完成相当于人类一整天(8 小时)的工作量
- 2028—2029 年:跨越”一个月工作量”(约 167 小时)的关键门槛——一个 AI 智能体可以像刚入职的新员工一样,独立负责一个复杂的科研项目或初创公司的独立运营
- 2030 年:在很多小型企业里,大部分的工程和管理工作将由 AI 承担
职场影响:阶梯正在被抽走
自 2022 年底以来,22 到 25 岁的初级员工就业率下降了 13%,而 26 岁以上更有经验的资深员工需求量反而逆势增长了 6—9%。
这种”剪刀差”的背后,是 AI 对两种不同知识类型的定向收割:
成文知识(Codified Knowledge):可以被清晰写下来、流程化、标准化的知识——基础代码怎么写、标准报告格式是什么样、客户服务的标准应答流程是什么。这恰恰是初级员工每天在做的事情,也是 AI 智能体信手拈来的领域。
默会知识(Tacit Knowledge):就是我们常说的经验、直觉、大局观——一个资深架构师看一个项目能凭直觉判断出哪个技术方案未来可能埋雷;一个有经验的销售能从客户一个微小的表情变化里读出对方的真实需求。这些东西,没法写成教科书让 AI 去学,需要在复杂的真实世界里通过大量实践、失败和人际互动才能积累起来。
AI 正在接管那些基于”成文知识”的初级岗位。对于资深员工来说,AI 成了一个超级杠杆,把他们的经验价值放大了无数倍。但对于刚踏入职场的新人,那条通往资深的职业阶梯,最底下的那几级横木,正被一根一根地抽走。
如果初级员工失去了在实战中摸爬滚打、积累”默会知识”的机会,那么五年、十年之后,我们去哪里找那些经验丰富的资深人才?企业现在通过 AI 省下了人力成本,但从长远来看,这可能是在透支整个行业未来的人才储备。我们就像是在拆掉职业阶梯的底端来当柴烧,却忘了如果没有基座,谁也无法爬上顶端。
结语:从执行者到监督者
工作的核心逻辑,正在发生一次根本性的逆转。
未来的职场,权力将从”执行者”手中,慢慢移交给”监督者”和”验证者”。未来的核心竞争力,不再是亲手写了多少代码、做了多少张 PPT,而是:
- 你懂不懂如何去编排和指挥 AI 工作
- 你有没有能力验证 AI 生成的结果到底是对是错
未来五年的技术竞争,本质上不再是比谁的模型参数多,而是关于”任务时长”的竞争。谁能率先解决 AI 在长任务中的可靠性衰减问题,谁就掌握了下一代经济的入场券。
评价 AI 是否聪明的标准,已经从看它”反应多快”,变成了看它”思考多深”——并最终变成了看它”能独立跑多远”。