最近,Anthropic 发了一篇不太像“技术博客”的文章,《Demystifying evals for AI agents(揭开 AI agents 评测的迷雾)》,基本可视为一份“Agent 时代的产品生存指南”。
这篇文章背后隐含的一个判断是,如果你做的是 AI Agent,却还在用“模型 benchmark”那一套方式来评估它,那基本就是在扯淡。
Agent 的问题,不是模型准不准,而是它会不会在真实世界里,把事情搞砸。
Anthropic 在文中反复强调一个现实:随着 AI 从“一次性回答问题”,走向“长时间自主行动”,系统的失败方式已经发生了根本变化。
错误不再是“答错一道题”,而是一步小错、持续放大,最终造成不可逆后果。
比如一个研究型 Agent,早期一次资料筛选偏差,后面所有推理都会建立在错误前提上;
又比如一个自动化 Agent,在工具调用上出现微小误判,却在长链条任务中不断复制这种错误。
这些问题,用传统的评测方式几乎是测不出来的。
Anthropic 直接点破了一个行业误区:我们过去评估 AI,更像是在给“考试机器”打分;但 Agent 更像一个“实习生”,你真正关心的是它在真实任务里能不能被信任。
所以,Anthropic提出,其核心不是“怎么跑 评测”,而是评测到底应该服务什么目标。
他们给出的第一个关键转向是,从静态结果评测,转向过程与行为评测。
在 Agent 系统中,最终结果是否正确固然重要,但远远不够。更关键的是:
它是否遵循了预期的决策路径
是否在不确定时主动求证
是否在失败后调整策略
是否在高风险节点表现得足够保守
换句话说,评测不只是“对不对”,而是“像不像一个你敢用的 Agent”。
第二个非常现实的判断是:Agent 的 评测永远不可能一次性完成。
Anthropic 明确指出,Agent 的评估是一个“持续对抗”的过程。
你修复了一个失败模式,很可能立刻引入一个新的失败方式。
这点对所有做产品的人都很残酷,也很真实:Agent 并不存在“评测通过 → 可以放心上线”的时刻,只有“暂时可控”。
因此,Anthropic建议,把评测变成和训练、部署同等重要的基础设施,而不是发布前的一个检查项。
第三个被反复强调的观点是:不要迷信自动化评测。
在 Agent 场景下,纯自动评测往往会遗漏最危险的问题。
很多真正致命的错误,只能通过人工设计的 adversarial 测试、失败案例复盘、极端场景模拟才能发现。
Anthropic 的态度非常清醒:评测不是为了证明系统“很强”,而是为了尽可能早地发现“它会怎么翻车”。
这和当前行业大量“Agent Demo 导向”的做法,形成了非常鲜明的对比。
Anthropic几乎是为整个 AI 应用层敲了警钟:当 AI 开始替人“做事”,而不是“回答问题”,评估体系本身就变成了安全边界的一部分。
这也是为什么 Anthropic 会把评测提到如此高的战略位置不是工程细节,而是产品能不能活下去的问题。
对创业者来说,可以反思的是,未来 AI Agent 的竞争,不只是在模型、算力或功能完整度上,而是在谁更早建立起一套可靠的“可控性与信任机制”。
而评测,正是这套机制的第一道防线。
https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
本文网址:




