如何判断 AI 代理是否能上岗?这套方法给出清晰路径


如何判断 AI 代理是否能“上岗”?这套方法给出清晰路径

过去两年,AI 世界最常被提起的一个论断来自微软 CEO 纳德拉:“AI 将重塑知识工作。”律师、投行、咨询、会计、IT……这些曾被认为最难被替代的白领岗位,似乎都在 AI 的冲击范围之内。 但现实却是: AI 的能力突飞猛进,知识工作却没有被颠覆。 模型越来越强,办公楼里的工位却没有明显减少。 为什么? 最近,训练数据公司 Mercor 发布的一项全新研究——APEX‑Agents 基准测试——给出了一个令人不安但极具洞察力的答案: 即便是最强的 AI 模型,在真实的白领任务中,依然“全军覆没”。 para_001

01 纸面上很强,到了职场却“水土不服”

APEX‑Agents 的测试方式非常简单粗暴: 不是考模型写作文、做选择题,而是让它们直接做“真实的白领工作”。 包括:

  • 咨询行业的分析任务
  • 投行的尽调、建模、判断
  • 法律行业的合规、条款解释、案例判断

这些任务全部来自 Mercor 平台上的真实专业人士,由他们提供问题、标准答案和评分方式。 结果却让人意外:

最强模型的“一次性正确率”只有 24%。 大部分模型甚至不到 20%。

换句话说, AI 在真实职场里,表现得像一个“只能做对四分之一任务的实习生”。 而且,这还是在“给足了提示、给足了上下文”的情况下。 para_002

02 AI 最大的短板:跨域信息整合能力

Mercor CEO Brendan Foody 在采访中提到一个关键点: 模型最大的问题不是不会推理,而是不会“跨域找信息”。

现实中的知识工作从来不是单线程的:

  • 你要在 Slack 里看同事发的消息
  • 在 Google Drive 里找历史文件
  • 在邮件里找客户的补充说明
  • 在内部系统里查政策
  • 在法规库里查条款

这些信息散落在不同系统、不同格式、不同语境里。 Foody 说得很直白:

“现实工作不是有人把所有信息放在一个文档里给你。 你必须在多个系统之间跳转、整合、判断。”

而这恰恰是当前 AI 代理最薄弱的能力。 它们擅长“单点推理”,但不擅长“跨域整合”。 para_003

03 一个真实案例:连专业律师都要想一会儿的问题

在法律测试中,有一个典型问题:

某公司在欧洲生产系统宕机的前 48 分钟内,将包含个人数据的日志导出到美国的分析供应商。 根据公司自身政策,这样的行为是否符合 GDPR 第 49 条?

正确答案是:是的,可以视为符合。

但要得出这个答案,需要:

  • 阅读公司内部政策
  • 理解 GDPR 第 49 条的例外条款
  • 判断“紧急情况”是否成立
  • 结合实际操作流程进行解释

这不是“查知识点”能解决的问题,而是典型的“专业判断”。 AI 在这里普遍失败。

这说明一个现实: AI 在专业领域的“判断力”仍然远不如人类。 para_004

04 为什么这项基准测试比以往的更“扎心”?

OpenAI 之前也做过类似的专业能力测试(GDPval),但 APEX‑Agents 的不同之处在于:

测试 重点 特点
GDPval 广泛职业知识 更像“职业百科”测试
APEX‑Agents 真实任务执行能力 更接近真实职场工作流

APEX‑Agents 的难度更高,但也更贴近现实:

  • 不是问“法律条款是什么”,而是问“在这个场景下如何判断”
  • 不是问“投行模型怎么做”,而是给你一堆文件让你做分析
  • 不是问“咨询框架是什么”,而是让你写一份客户可用的建议

这才是白领工作的真实样貌。

因此,这项测试的意义在于:

它不是在测 AI 的知识,而是在测 AI 是否能“上岗”。

而答案是: 还不行。 para_005

05 但别急着悲观:AI 的进步速度仍然惊人

虽然结果不理想,但 Foody 也提到一个关键趋势:

“今年模型能做对 25%,去年只有 5%–10%。”

换句话说:

  • 去年是“完全不行的实习生”
  • 今年是“偶尔能帮上忙的实习生”
  • 明年可能是“能独立完成部分任务的助理”

AI 的进步速度不是线性的,而是指数级的。

这意味着: 今天的 25%,可能很快变成 50%、70%、甚至 90%。

而一旦 AI 能稳定完成 70% 的白领任务,整个职场生态都会发生巨变。 para_006

06 白领工作会被 AI 取代吗?答案比你想的更复杂

从这项研究来看,AI 想完全取代白领工作,至少还需要几年时间。 但这并不意味着白领可以高枕无忧。

真正的变化可能是:

1. AI 不会替代你,但会替代不会用 AI 的你

未来的白领工作很可能变成:

  • 人类负责判断、整合、决策
  • AI 负责执行、生成、分析

谁能更好地利用 AI,谁就更有竞争力。

2. 职场将出现“AI 协作型岗位”

例如:

  • AI 工作流设计师
  • AI 代理监督员
  • 数据整合与验证专家
  • AI 任务拆解师

这些岗位的核心不是“做任务”,而是“让 AI 做任务”。

3. 高度结构化的工作最先被替代

例如:

  • 标准化法律文书
  • 投行基础建模
  • 咨询行业的初级研究
  • 会计的重复性审计流程

这些都是 AI 最擅长的领域。 para_007

07 另一条线索:AI 在“儿童教育”领域却进展飞快

有趣的是,同一篇文章还提到另一家公司 Sparkli,它用生成式 AI 为孩子打造互动式学习体验。

这说明:

  • 在结构化、可控、封闭的场景里,AI 的表现非常好
  • 在开放、复杂、跨域的真实职场里,AI 仍然不够成熟

这也进一步印证了 APEX‑Agents 的结论:

AI 的能力不是问题,复杂环境才是问题。 para_008

08 未来 3 年,AI 代理会走向哪里?

结合这项研究,我认为未来 3 年的趋势会非常明确:

趋势 1:AI 代理将从“单点能力”走向“多系统协作”

也就是:

  • 能读邮件
  • 能查文件
  • 能跑流程
  • 能跨系统执行任务
  • 能自己找信息、整合信息

这才是真正的“AI 员工”。

趋势 2:企业将开始构建“AI 工作流”

未来的企业不是“用一个大模型”,而是:

  • 用多个模型
  • 配合多个工具
  • 形成一个完整的 AI 工作链路

谁能先构建这套系统,谁就能获得巨大的效率红利。

趋势 3:白领将从“执行者”变成“监督者”

未来的白领工作可能是:

  • 拆解任务
  • 分配给 AI
  • 审核 AI 的结果
  • 做最终判断

这会让白领的工作更像“导演”,而不是“演员”。 para_009

09 结语:AI 代理的未来,不是替代,而是重塑

APEX‑Agents 的结果虽然“惨烈”,但它揭示了一个重要事实:

AI 不是不行,而是还没准备好进入真实职场。

但它的进步速度又快得惊人。

这意味着:

  • 白领不会在一夜之间被替代
  • 但白领的工作方式会在几年内被彻底重塑
  • 最终被淘汰的不是岗位,而是不会适应变化的人

未来的职场不是“AI vs 人类”, 而是“会用 AI 的人 vs 不会用 AI 的人”。

而现在,就是最好的学习窗口期。 para_010