如何判断 AI 代理是否能“上岗”？这套方法给出清晰路径

过去两年，AI 世界最常被提起的一个论断来自微软 CEO 纳德拉：“AI 将重塑知识工作。”律师、投行、咨询、会计、IT……这些曾被认为最难被替代的白领岗位，似乎都在 AI 的冲击范围之内。但现实却是： AI 的能力突飞猛进，知识工作却没有被颠覆。 模型越来越强，办公楼里的工位却没有明显减少。为什么？最近，训练数据公司 Mercor 发布的一项全新研究——APEX‑Agents 基准测试——给出了一个令人不安但极具洞察力的答案： 即便是最强的 AI 模型，在真实的白领任务中，依然“全军覆没”。 para_001

01 纸面上很强，到了职场却“水土不服”

APEX‑Agents 的测试方式非常简单粗暴：不是考模型写作文、做选择题，而是让它们直接做“真实的白领工作”。包括：

咨询行业的分析任务
投行的尽调、建模、判断
法律行业的合规、条款解释、案例判断

这些任务全部来自 Mercor 平台上的真实专业人士，由他们提供问题、标准答案和评分方式。结果却让人意外：

最强模型的“一次性正确率”只有 24%。 大部分模型甚至不到 20%。

换句话说， AI 在真实职场里，表现得像一个“只能做对四分之一任务的实习生”。 而且，这还是在“给足了提示、给足了上下文”的情况下。 para_002

02 AI 最大的短板：跨域信息整合能力

Mercor CEO Brendan Foody 在采访中提到一个关键点： 模型最大的问题不是不会推理，而是不会“跨域找信息”。

现实中的知识工作从来不是单线程的：

你要在 Slack 里看同事发的消息
在 Google Drive 里找历史文件
在邮件里找客户的补充说明
在内部系统里查政策
在法规库里查条款

这些信息散落在不同系统、不同格式、不同语境里。 Foody 说得很直白：

“现实工作不是有人把所有信息放在一个文档里给你。你必须在多个系统之间跳转、整合、判断。”

而这恰恰是当前 AI 代理最薄弱的能力。它们擅长“单点推理”，但不擅长“跨域整合”。 para_003

03 一个真实案例：连专业律师都要想一会儿的问题

在法律测试中，有一个典型问题：

某公司在欧洲生产系统宕机的前 48 分钟内，将包含个人数据的日志导出到美国的分析供应商。根据公司自身政策，这样的行为是否符合 GDPR 第 49 条？

正确答案是：是的，可以视为符合。

但要得出这个答案，需要：

阅读公司内部政策
理解 GDPR 第 49 条的例外条款
判断“紧急情况”是否成立
结合实际操作流程进行解释

这不是“查知识点”能解决的问题，而是典型的“专业判断”。 AI 在这里普遍失败。

这说明一个现实： AI 在专业领域的“判断力”仍然远不如人类。 para_004

04 为什么这项基准测试比以往的更“扎心”？

OpenAI 之前也做过类似的专业能力测试（GDPval），但 APEX‑Agents 的不同之处在于：

测试	重点	特点
GDPval	广泛职业知识	更像“职业百科”测试
APEX‑Agents	真实任务执行能力	更接近真实职场工作流

APEX‑Agents 的难度更高，但也更贴近现实：

不是问“法律条款是什么”，而是问“在这个场景下如何判断”
不是问“投行模型怎么做”，而是给你一堆文件让你做分析
不是问“咨询框架是什么”，而是让你写一份客户可用的建议

这才是白领工作的真实样貌。

因此，这项测试的意义在于：

它不是在测 AI 的知识，而是在测 AI 是否能“上岗”。

而答案是： 还不行。 para_005

05 但别急着悲观：AI 的进步速度仍然惊人

虽然结果不理想，但 Foody 也提到一个关键趋势：

“今年模型能做对 25%，去年只有 5%–10%。”

换句话说：

去年是“完全不行的实习生”
今年是“偶尔能帮上忙的实习生”
明年可能是“能独立完成部分任务的助理”

AI 的进步速度不是线性的，而是指数级的。

这意味着： 今天的 25%，可能很快变成 50%、70%、甚至 90%。

而一旦 AI 能稳定完成 70% 的白领任务，整个职场生态都会发生巨变。 para_006

06 白领工作会被 AI 取代吗？答案比你想的更复杂

从这项研究来看，AI 想完全取代白领工作，至少还需要几年时间。但这并不意味着白领可以高枕无忧。

真正的变化可能是：

1. AI 不会替代你，但会替代不会用 AI 的你

未来的白领工作很可能变成：

人类负责判断、整合、决策
AI 负责执行、生成、分析

谁能更好地利用 AI，谁就更有竞争力。

2. 职场将出现“AI 协作型岗位”

例如：

AI 工作流设计师
AI 代理监督员
数据整合与验证专家
AI 任务拆解师

这些岗位的核心不是“做任务”，而是“让 AI 做任务”。

3. 高度结构化的工作最先被替代

例如：

标准化法律文书
投行基础建模
咨询行业的初级研究
会计的重复性审计流程

这些都是 AI 最擅长的领域。 para_007

07 另一条线索：AI 在“儿童教育”领域却进展飞快

有趣的是，同一篇文章还提到另一家公司 Sparkli，它用生成式 AI 为孩子打造互动式学习体验。

这说明：

在结构化、可控、封闭的场景里，AI 的表现非常好
在开放、复杂、跨域的真实职场里，AI 仍然不够成熟

这也进一步印证了 APEX‑Agents 的结论：

AI 的能力不是问题，复杂环境才是问题。

08 未来 3 年，AI 代理会走向哪里？

结合这项研究，我认为未来 3 年的趋势会非常明确：

趋势 1：AI 代理将从“单点能力”走向“多系统协作”

也就是：

能读邮件
能查文件
能跑流程
能跨系统执行任务
能自己找信息、整合信息

这才是真正的“AI 员工”。

趋势 2：企业将开始构建“AI 工作流”

未来的企业不是“用一个大模型”，而是：

用多个模型
配合多个工具
形成一个完整的 AI 工作链路

谁能先构建这套系统，谁就能获得巨大的效率红利。

趋势 3：白领将从“执行者”变成“监督者”

未来的白领工作可能是：

拆解任务
分配给 AI
审核 AI 的结果
做最终判断

这会让白领的工作更像“导演”，而不是“演员”。 para_009

09 结语：AI 代理的未来，不是替代，而是重塑

APEX‑Agents 的结果虽然“惨烈”，但它揭示了一个重要事实：

AI 不是不行，而是还没准备好进入真实职场。

但它的进步速度又快得惊人。

这意味着：

白领不会在一夜之间被替代
但白领的工作方式会在几年内被彻底重塑
最终被淘汰的不是岗位，而是不会适应变化的人

未来的职场不是“AI vs 人类”，而是“会用 AI 的人 vs 不会用 AI 的人”。

而现在，就是最好的学习窗口期。 para_010

灵智宝盒QBox

如何判断 AI 代理是否能上岗？这套方法给出清晰路径