← 播客 / Podcast

EP 120 2026/01/26 · 42 min

从考场到职场｜AI 智能体的新摩尔定律

AI 大模型的评分一路破纪录，但这些分数真的代表智能吗？从 MMLU 的"高考"到 Chatbot Arena 的"竞技场"，再到 METR 提出的"任务地平线"——评估范式正在经历一场从考场到职场的根本转变。Claude Opus 4.5 的任务地平线是 4 小时 49 分钟，而每 4 到 7 个月翻一倍的速度，正在构成 AI 智能体时代的新摩尔定律。

在此页收听 / Listen here

在小宇宙收听 ↗

这期讲了什么

AI 榜单的分数一路狂飙，但衡量”聪明”的标准，正在经历一场范式革命。

评估进化史：GLUE 小学语文 → MMLU 全科高考 → GPQA Diamond 博士级问答 → Chatbot Arena 真实用户投票——每一代榜单都在被模型”刷穿”
数据污染危机：“古德哈特定律”在 AI 领域完美应验，当 MMLU 分数变成 KPI，它就失去了作为度量衡的资格
任务地平线：METR 把评估从”考场”带入”职场”——不再看答题得分，而是看 AI 在完全没有人类干预的情况下，能独立处理多长时间的真实工作
半衰期模型：4 分钟内的任务成功率接近 100%，超过 4 小时就断崖跌破 10%——要达到人类员工 99% 的可靠性，需要再经历约 9 次 GPT-4→GPT-5 级别的代际跨越
新摩尔定律：任务地平线每 4 到 7 个月翻一倍，预计 2026 年末达到 8 小时，2028—29 年跨越”一个月工作量”门槛

几个关键判断

高分≠高能：在静态榜单上拿 92% 的模型，在 SWE-Bench Pro 真实代码库里的成功率还不到 25%
上下文腐败是长任务的隐形杀手——随着任务时间延长，冗余信息累积导致”目标漂移”，AI 做着做着就忘了最初要干什么
RLVR 让 AI 从”背课本”转向”实战演习”——有了自动裁判，AI 可以在数千次失败里自我进化，天花板不再受限于人类能提供多少数据
初级员工就业率下降 13%，资深员工需求上升 6—9%——AI 在精准收割”成文知识”岗位，“默会知识”的护城河比以前更重要
职场权力正从”执行者”移交给”监督者”——未来的核心竞争力，是能否验证 AI 生成的结果到底是对是错

时间轴

01:03 现有的 AI 评估方法
11:46 METR 的”任务地平线”测评
14:20 任务成功率的半衰期
22:57 “马拉松”式的职场模拟器
24:30 AI 智能体的新摩尔定律
26:36 智能体能力提升的三大引擎
33:22 对人类职场的影响

推荐阅读

METR《Measuring AI Ability to Complete Long Tasks》——任务地平线方法论的原始论文
SWE-Bench Pro 官方报告——真实代码库评测的完整数据
个人长文：《从考场到职场——AI 智能体的新摩尔定律》