来源：互联网2026-01-13 00:00:00 热度：

Anthropic：大模型benchmark打分不适用AI agent 评测

导读：最近，Anthropic 发了一篇不太像“技术博客”的文章，《Demystifying evals for AI agents（揭开 AI agents 评测的迷雾）》，基本可视为一份“Agent 时代的产品生存指南”。这篇文章背后隐含的一个判断是，如果你做的是 AI Agent，却还在用“模型 benchmark”那一套方式来评估它，那基本就是在扯淡。Agent 的问题，不是模型准不准，而是它会不会在真实世界里，把事情搞砸。Anth ......

最近，Anthropic 发了一篇不太像“技术博客”的文章，《Demystifying evals for AI agents（揭开 AI agents 评测的迷雾）》，基本可视为一份“Agent 时代的产品生存指南”。

这篇文章背后隐含的一个判断是，如果你做的是 AI Agent，却还在用“模型 benchmark”那一套方式来评估它，那基本就是在扯淡。

Agent 的问题，不是模型准不准，而是它会不会在真实世界里，把事情搞砸。

Anthropic 在文中反复强调一个现实：随着 AI 从“一次性回答问题”，走向“长时间自主行动”，系统的失败方式已经发生了根本变化。

错误不再是“答错一道题”，而是一步小错、持续放大，最终造成不可逆后果。

比如一个研究型 Agent，早期一次资料筛选偏差，后面所有推理都会建立在错误前提上；

又比如一个自动化 Agent，在工具调用上出现微小误判，却在长链条任务中不断复制这种错误。

这些问题，用传统的评测方式几乎是测不出来的。

Anthropic 直接点破了一个行业误区：我们过去评估 AI，更像是在给“考试机器”打分；但 Agent 更像一个“实习生”，你真正关心的是它在真实任务里能不能被信任。

所以，Anthropic提出，其核心不是“怎么跑评测”，而是评测到底应该服务什么目标。

他们给出的第一个关键转向是，从静态结果评测，转向过程与行为评测。

在 Agent 系统中，最终结果是否正确固然重要，但远远不够。更关键的是：

它是否遵循了预期的决策路径

是否在不确定时主动求证

是否在失败后调整策略

是否在高风险节点表现得足够保守

换句话说，评测不只是“对不对”，而是“像不像一个你敢用的 Agent”。

Anthropic：大模型benchmark打分不适用AI agent 评测

第二个非常现实的判断是：Agent 的评测永远不可能一次性完成。

Anthropic 明确指出，Agent 的评估是一个“持续对抗”的过程。

你修复了一个失败模式，很可能立刻引入一个新的失败方式。

这点对所有做产品的人都很残酷，也很真实：Agent 并不存在“评测通过 → 可以放心上线”的时刻，只有“暂时可控”。

因此，Anthropic建议，把评测变成和训练、部署同等重要的基础设施，而不是发布前的一个检查项。

第三个被反复强调的观点是：不要迷信自动化评测。

在 Agent 场景下，纯自动评测往往会遗漏最危险的问题。

很多真正致命的错误，只能通过人工设计的 adversarial 测试、失败案例复盘、极端场景模拟才能发现。

Anthropic 的态度非常清醒：评测不是为了证明系统“很强”，而是为了尽可能早地发现“它会怎么翻车”。

这和当前行业大量“Agent Demo 导向”的做法，形成了非常鲜明的对比。

Anthropic几乎是为整个 AI 应用层敲了警钟：当 AI 开始替人“做事”，而不是“回答问题”，评估体系本身就变成了安全边界的一部分。

这也是为什么 Anthropic 会把评测提到如此高的战略位置不是工程细节，而是产品能不能活下去的问题。

对创业者来说，可以反思的是，未来 AI Agent 的竞争，不只是在模型、算力或功能完整度上，而是在谁更早建立起一套可靠的“可控性与信任机制”。

而评测，正是这套机制的第一道防线。

https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

本文网址：

欢迎关注微信公众号：人工智能报；合作及投稿请联系：editor@cnaiplus.com

智能推荐

无相关信息

精选

AI中国号...

关注微信公众号，了解最新精彩内容