EP 120 · 42 min
从考场到职场|AI 智能体的新摩尔定律
AI 大模型的评分一路破纪录,但这些分数真的代表智能吗?从 MMLU 的"高考"到 Chatbot Arena 的"竞技场",再到 METR 提出的"任务地平线"——评估范式正在经历一场从考场到职场的根本转变。Claude Opus 4.5 的任务地平线是 4 小时 49 分钟,而每 4 到 7 个月翻一倍的速度,正在构成 AI 智能体时代的新摩尔定律。
在此页收听 / Listen here
这期讲了什么
AI 榜单的分数一路狂飙,但衡量”聪明”的标准,正在经历一场范式革命。
- 评估进化史:GLUE 小学语文 → MMLU 全科高考 → GPQA Diamond 博士级问答 → Chatbot Arena 真实用户投票——每一代榜单都在被模型”刷穿”
- 数据污染危机:“古德哈特定律”在 AI 领域完美应验,当 MMLU 分数变成 KPI,它就失去了作为度量衡的资格
- 任务地平线:METR 把评估从”考场”带入”职场”——不再看答题得分,而是看 AI 在完全没有人类干预的情况下,能独立处理多长时间的真实工作
- 半衰期模型:4 分钟内的任务成功率接近 100%,超过 4 小时就断崖跌破 10%——要达到人类员工 99% 的可靠性,需要再经历约 9 次 GPT-4→GPT-5 级别的代际跨越
- 新摩尔定律:任务地平线每 4 到 7 个月翻一倍,预计 2026 年末达到 8 小时,2028—29 年跨越”一个月工作量”门槛
几个关键判断
- 高分≠高能:在静态榜单上拿 92% 的模型,在 SWE-Bench Pro 真实代码库里的成功率还不到 25%
- 上下文腐败是长任务的隐形杀手——随着任务时间延长,冗余信息累积导致”目标漂移”,AI 做着做着就忘了最初要干什么
- RLVR 让 AI 从”背课本”转向”实战演习”——有了自动裁判,AI 可以在数千次失败里自我进化,天花板不再受限于人类能提供多少数据
- 初级员工就业率下降 13%,资深员工需求上升 6—9%——AI 在精准收割”成文知识”岗位,“默会知识”的护城河比以前更重要
- 职场权力正从”执行者”移交给”监督者”——未来的核心竞争力,是能否验证 AI 生成的结果到底是对是错
时间轴
- 01:03 现有的 AI 评估方法
- 11:46 METR 的”任务地平线”测评
- 14:20 任务成功率的半衰期
- 22:57 “马拉松”式的职场模拟器
- 24:30 AI 智能体的新摩尔定律
- 26:36 智能体能力提升的三大引擎
- 33:22 对人类职场的影响
推荐阅读
- METR《Measuring AI Ability to Complete Long Tasks》——任务地平线方法论的原始论文
- SWE-Bench Pro 官方报告——真实代码库评测的完整数据
- 个人长文:《从考场到职场——AI 智能体的新摩尔定律》