如何判断 AI 代理是否能“上岗”?这套方法给出清晰路径
过去两年,AI 世界最常被提起的一个论断来自微软 CEO 纳德拉:“AI 将重塑知识工作。”律师、投行、咨询、会计、IT……这些曾被认为最难被替代的白领岗位,似乎都在 AI 的冲击范围之内。
但现实却是:
AI 的能力突飞猛进,知识工作却没有被颠覆。
模型越来越强,办公楼里的工位却没有明显减少。
为什么?
最近,训练数据公司 Mercor 发布的一项全新研究——APEX‑Agents 基准测试——给出了一个令人不安但极具洞察力的答案:
即便是最强的 AI 模型,在真实的白领任务中,依然“全军覆没”。

01 纸面上很强,到了职场却“水土不服”
APEX‑Agents 的测试方式非常简单粗暴: 不是考模型写作文、做选择题,而是让它们直接做“真实的白领工作”。 包括:
- 咨询行业的分析任务
- 投行的尽调、建模、判断
- 法律行业的合规、条款解释、案例判断
这些任务全部来自 Mercor 平台上的真实专业人士,由他们提供问题、标准答案和评分方式。 结果却让人意外:
最强模型的“一次性正确率”只有 24%。 大部分模型甚至不到 20%。
换句话说,
AI 在真实职场里,表现得像一个“只能做对四分之一任务的实习生”。
而且,这还是在“给足了提示、给足了上下文”的情况下。

02 AI 最大的短板:跨域信息整合能力
Mercor CEO Brendan Foody 在采访中提到一个关键点: 模型最大的问题不是不会推理,而是不会“跨域找信息”。
现实中的知识工作从来不是单线程的:
- 你要在 Slack 里看同事发的消息
- 在 Google Drive 里找历史文件
- 在邮件里找客户的补充说明
- 在内部系统里查政策
- 在法规库里查条款
这些信息散落在不同系统、不同格式、不同语境里。 Foody 说得很直白:
“现实工作不是有人把所有信息放在一个文档里给你。 你必须在多个系统之间跳转、整合、判断。”
而这恰恰是当前 AI 代理最薄弱的能力。
它们擅长“单点推理”,但不擅长“跨域整合”。

03 一个真实案例:连专业律师都要想一会儿的问题
在法律测试中,有一个典型问题:
某公司在欧洲生产系统宕机的前 48 分钟内,将包含个人数据的日志导出到美国的分析供应商。 根据公司自身政策,这样的行为是否符合 GDPR 第 49 条?
正确答案是:是的,可以视为符合。
但要得出这个答案,需要:
- 阅读公司内部政策
- 理解 GDPR 第 49 条的例外条款
- 判断“紧急情况”是否成立
- 结合实际操作流程进行解释
这不是“查知识点”能解决的问题,而是典型的“专业判断”。 AI 在这里普遍失败。
这说明一个现实:
AI 在专业领域的“判断力”仍然远不如人类。

04 为什么这项基准测试比以往的更“扎心”?
OpenAI 之前也做过类似的专业能力测试(GDPval),但 APEX‑Agents 的不同之处在于:
| 测试 | 重点 | 特点 |
|---|---|---|
| GDPval | 广泛职业知识 | 更像“职业百科”测试 |
| APEX‑Agents | 真实任务执行能力 | 更接近真实职场工作流 |
APEX‑Agents 的难度更高,但也更贴近现实:
- 不是问“法律条款是什么”,而是问“在这个场景下如何判断”
- 不是问“投行模型怎么做”,而是给你一堆文件让你做分析
- 不是问“咨询框架是什么”,而是让你写一份客户可用的建议
这才是白领工作的真实样貌。
因此,这项测试的意义在于:
它不是在测 AI 的知识,而是在测 AI 是否能“上岗”。
而答案是:
还不行。

05 但别急着悲观:AI 的进步速度仍然惊人
虽然结果不理想,但 Foody 也提到一个关键趋势:
“今年模型能做对 25%,去年只有 5%–10%。”
换句话说:
- 去年是“完全不行的实习生”
- 今年是“偶尔能帮上忙的实习生”
- 明年可能是“能独立完成部分任务的助理”
AI 的进步速度不是线性的,而是指数级的。
这意味着: 今天的 25%,可能很快变成 50%、70%、甚至 90%。
而一旦 AI 能稳定完成 70% 的白领任务,整个职场生态都会发生巨变。

06 白领工作会被 AI 取代吗?答案比你想的更复杂
从这项研究来看,AI 想完全取代白领工作,至少还需要几年时间。 但这并不意味着白领可以高枕无忧。
真正的变化可能是:
1. AI 不会替代你,但会替代不会用 AI 的你
未来的白领工作很可能变成:
- 人类负责判断、整合、决策
- AI 负责执行、生成、分析
谁能更好地利用 AI,谁就更有竞争力。
2. 职场将出现“AI 协作型岗位”
例如:
- AI 工作流设计师
- AI 代理监督员
- 数据整合与验证专家
- AI 任务拆解师
这些岗位的核心不是“做任务”,而是“让 AI 做任务”。
3. 高度结构化的工作最先被替代
例如:
- 标准化法律文书
- 投行基础建模
- 咨询行业的初级研究
- 会计的重复性审计流程
这些都是 AI 最擅长的领域。

07 另一条线索:AI 在“儿童教育”领域却进展飞快
有趣的是,同一篇文章还提到另一家公司 Sparkli,它用生成式 AI 为孩子打造互动式学习体验。
这说明:
- 在结构化、可控、封闭的场景里,AI 的表现非常好
- 在开放、复杂、跨域的真实职场里,AI 仍然不够成熟
这也进一步印证了 APEX‑Agents 的结论:
AI 的能力不是问题,复杂环境才是问题。
08 未来 3 年,AI 代理会走向哪里?
结合这项研究,我认为未来 3 年的趋势会非常明确:
趋势 1:AI 代理将从“单点能力”走向“多系统协作”
也就是:
- 能读邮件
- 能查文件
- 能跑流程
- 能跨系统执行任务
- 能自己找信息、整合信息
这才是真正的“AI 员工”。
趋势 2:企业将开始构建“AI 工作流”
未来的企业不是“用一个大模型”,而是:
- 用多个模型
- 配合多个工具
- 形成一个完整的 AI 工作链路
谁能先构建这套系统,谁就能获得巨大的效率红利。
趋势 3:白领将从“执行者”变成“监督者”
未来的白领工作可能是:
- 拆解任务
- 分配给 AI
- 审核 AI 的结果
- 做最终判断
这会让白领的工作更像“导演”,而不是“演员”。

09 结语:AI 代理的未来,不是替代,而是重塑
APEX‑Agents 的结果虽然“惨烈”,但它揭示了一个重要事实:
AI 不是不行,而是还没准备好进入真实职场。
但它的进步速度又快得惊人。
这意味着:
- 白领不会在一夜之间被替代
- 但白领的工作方式会在几年内被彻底重塑
- 最终被淘汰的不是岗位,而是不会适应变化的人
未来的职场不是“AI vs 人类”, 而是“会用 AI 的人 vs 不会用 AI 的人”。
而现在,就是最好的学习窗口期。

