来源:互联网2026-01-13 00:00:00 热度:

Anthropic:大模型benchmark打分不适用AI agent 评测

LX A i 中 国 网 Q
导读:最近,Anthropic 发了一篇不太像“技术博客”的文章,《Demystifying evals for AI agents(揭开 AI agents 评测的迷雾)》,基本可视为一份“Agent 时代的产品生存指南”。这篇文章背后隐含的一个判断是,如果你做的是 AI Agent,却还在用“模型 benchmark”那一套方式来评估它,那基本就是在扯淡。Agent 的问题,不是模型准不准,而是它会不会在真实世界里,把事情搞砸。Anth ......

最近,Anthropic 发了一篇不太像“技术博客”的文章,《Demystifying evals for AI agents(揭开 AI agents 评测的迷雾)》,基本可视为一份“Agent 时代的产品生存指南”。

Anthropic:大模型benchmark打分不适用AI agent 评测

这篇文章背后隐含的一个判断是,如果你做的是 AI Agent,却还在用“模型 benchmark”那一套方式来评估它,那基本就是在扯淡。

Agent 的问题,不是模型准不准,而是它会不会在真实世界里,把事情搞砸。

Anthropic 在文中反复强调一个现实:随着 AI 从“一次性回答问题”,走向“长时间自主行动”,系统的失败方式已经发生了根本变化。

错误不再是“答错一道题”,而是一步小错、持续放大,最终造成不可逆后果。

比如一个研究型 Agent,早期一次资料筛选偏差,后面所有推理都会建立在错误前提上;

又比如一个自动化 Agent,在工具调用上出现微小误判,却在长链条任务中不断复制这种错误。

这些问题,用传统的评测方式几乎是测不出来的。

Anthropic 直接点破了一个行业误区:我们过去评估 AI,更像是在给“考试机器”打分;但 Agent 更像一个“实习生”,你真正关心的是它在真实任务里能不能被信任。

所以,Anthropic提出,其核心不是“怎么跑 评测”,而是评测到底应该服务什么目标。

他们给出的第一个关键转向是,从静态结果评测,转向过程与行为评测。

在 Agent 系统中,最终结果是否正确固然重要,但远远不够。更关键的是:

它是否遵循了预期的决策路径

是否在不确定时主动求证

是否在失败后调整策略

是否在高风险节点表现得足够保守

换句话说,评测不只是“对不对”,而是“像不像一个你敢用的 Agent”。

Anthropic:大模型benchmark打分不适用AI agent 评测

第二个非常现实的判断是:Agent 的 评测永远不可能一次性完成。

Anthropic 明确指出,Agent 的评估是一个“持续对抗”的过程。

你修复了一个失败模式,很可能立刻引入一个新的失败方式。

这点对所有做产品的人都很残酷,也很真实:Agent 并不存在“评测通过 → 可以放心上线”的时刻,只有“暂时可控”。

因此,Anthropic建议,把评测变成和训练、部署同等重要的基础设施,而不是发布前的一个检查项。

第三个被反复强调的观点是:不要迷信自动化评测。

在 Agent 场景下,纯自动评测往往会遗漏最危险的问题。

很多真正致命的错误,只能通过人工设计的 adversarial 测试、失败案例复盘、极端场景模拟才能发现。

Anthropic 的态度非常清醒:评测不是为了证明系统“很强”,而是为了尽可能早地发现“它会怎么翻车”。

这和当前行业大量“Agent Demo 导向”的做法,形成了非常鲜明的对比。

Anthropic几乎是为整个 AI 应用层敲了警钟:当 AI 开始替人“做事”,而不是“回答问题”,评估体系本身就变成了安全边界的一部分。

这也是为什么 Anthropic 会把评测提到如此高的战略位置不是工程细节,而是产品能不能活下去的问题。

对创业者来说,可以反思的是,未来 AI Agent 的竞争,不只是在模型、算力或功能完整度上,而是在谁更早建立起一套可靠的“可控性与信任机制”。

而评测,正是这套机制的第一道防线。

https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

LX A i 中 国 网 Q

本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com

AI中国号...

关注微信公众号,了解最新精彩内容