来源：互联网2026-05-05 00:00:00 热度：

Anthropic 联创：2028 年实现 AI 自我构建的概率超过 60%

智能网 https://www.cnaiplus.com

导读：Anthropic 联合创始人 Jack Clark 今天发了一篇重磅长文，声称：AI 系统自己迭代改造自己，可能就在两年后。他花了几周时间，翻遍了上百个公开数据源，最后给出了一个概率：到 2028 年底，AI 实现端到端自动化研发的概率，已经超过 60%。“我现在相信，我们正生活在 AI 研究将被端到端自动化的时代。”Import AI 455这篇文章发在他的 Newsletter「Import AI」第 455 期，标题直 ......

Anthropic 联合创始人 Jack Clark 今天发了一篇重磅长文，声称：AI 系统自己迭代改造自己，可能就在两年后。

他花了几周时间，翻遍了上百个公开数据源，最后给出了一个概率：到 2028 年底，AI 实现端到端自动化研发的概率，已经超过 60%。

“我现在相信，我们正生活在 AI 研究将被端到端自动化的时代。”

Anthropic 联创：2028 年实现 AI 自我构建的概率超过 60%

Import AI 455这篇文章发在他的 Newsletter「Import AI」第 455 期，标题直接挑明了主题：AI 系统即将开始自我构建。

并且他声称，所有结论完全基于公开可查的资料，没有动用 Anthropic 内部信息。

那么，他到底看到什么了呢？

01拿下代码SWE-Bench 是衡量 AI 解决真实 GitHub issue 的标准测试。2023 年底，Claude 2 的得分大约 2%。现在，Claude Mythos Preview 达到了93.9%，几乎接近饱和。

Clark 写道：

“所有分辨率上，图表都在一路向右上角飞。”

METR 追踪的是另一个维度：AI 能自主工作多长时间。这条曲线比 SWE-Bench 还陡：

2022 年：GPT 3.5 能独立工作约 30 秒

2023 年：GPT-4 能撑 4 分钟

2024 年：o1 能撑 40 分钟

2025 年：GPT 5.2 约 6 小时

2026 年：Opus 4.6 约 12 小时

预计 2026 年底：约 100 小时

从 30 秒到 100 小时。相当于……从帮你查个单词，到替你扛一整个项目周期了。

30sGPT-3.5?4minGPT-440mino16hGPT 5.212hOpus 4.6100h???...30 秒 → 100 小时点击看 AI 能力阶梯 Clark 指出，委托工作给别人需要两个前提：相信对方的能力，以及相信对方能在不被盯着的情况下按你的意思干活。

而这两条，AI 正在同时满足。

对于 AI 研究者的日常，如果仔细拆解，大量任务其实就是几个小时的体力活：清洗数据、读论文、跑实验、调参数。这些活儿现在已经落在 AI 独立工作时长的范围内了。

工程师和研究员正在把越来越大块、越来越重要的工作交给 AI 来做。

不过 Clark 也提了个重要的注意事项：单个 benchmark 都有缺陷，比如 ImageNet 本身就有约 6% 的标注错误率。他说自己的方法是拼马赛克，看整体趋势。

02攻克科研CORE-Bench 测的是一项非常实际的能力：给一篇论文，把它完整复现出来。装环境、跑代码、验证结果，全流程自动完成。

2024 年 9 月发布时 GPT-4o 得分约 21.5%，到 2025 年 12 月 Opus 4.5 拿了95.5%。

Anthropic 联创：2028 年实现 AI 自我构建的概率超过 60%

CORE-Bench 进展

做研究的人应该都有体会，大量时间花在理解和复现别人的成果上。这一步一旦自动化，对整个研发效率的杠杆效应是巨大的。

Anthropic 联创：2028 年实现 AI 自我构建的概率超过 60%

MLE-Bench 进展MLE-Bench 则从 75 个真实 Kaggle 竞赛中抽取任务，衡量完整的 ML 工程能力：数据清洗、特征工程、模型选择、调参、提交。

2024 年 10 月 o1 得分 16.9%，到 2026 年 2 月 Gemini3 达到了64.4%。

再往底层走则是：kernel 优化，也就是把矩阵乘法之类的运算高效映射到 GPU 硬件上，这直接决定了训练和推理的效率。训练一个模型能用多少算力，训好之后推理有多快，全看 kernel 写得好不好。

这个领域也正在变成 AI 的竞技场。

DeepSeek 在做 GPU kernel 构建模型，Meta 用 LLM 自动生成优化过的 Triton kernel，字节跳动做了「Cuda Agent」，华为做了「AscendCraft」为腾芯片写 kernel。

kernel 还有个特点让它特别适合 AI 来做：结果很容易验证，跑得快不快，一测便知。

在前沿数学领域，也已经出现了 AI 参与的痕迹。

英属哥伦比亚大学、斯坦福和 DeepMind 的研究者合作发表了一个新的数学证明，论文中写的是：「主要结果的证明是在 Google Gemini 及相关工具的大量参与下发现的。」

这，算不算 AI 有了创造力？Clark 认为还不好判断，也许数学和计算机科学恰好是 AI 擅长的领域，不一定能推广。

03自我训练一个极为为核心的问题是：AI 能不能自行训练 AI？

Anthropic 联创：2028 年实现 AI 自我构建的概率超过 60%

PostTrainBench 进展

PostTrainBench 测的是让强模型自主地对弱模型做后训练微调，目标模型包括 Qwen 3、SmolLM3、Gemma 3 等开源模型。

人类基线（即这些模型官方 instruct 版本的水平，由各家顶级工程师精心调教）能实现约51%的性能提升，当前最强的 AI 系统（Opus 4.6 和 GPT 5.4）能做到25-28%，到了人类水平的一半左右。

Anthropic 自己内部的数据，可能更能说明问题。他们用 AI 来优化 LLM 训练过程本身：

2025 年 5 月：Opus 4 实现 2.9 倍加速

2025 年 11 月：Opus 4.5 实现 16.5 倍加速

2026 年 2 月：Opus 4.6 实现 30 倍加速

2026 年 4 月：Mythos Preview 实现52 倍加速

人类工程师花 4-8 小时大约能做到 4 倍。这条曲线，就已经算得上是「递归自我改进」的雏形了。

训练优化进化递归self-improving loop?AI v1AI v2AI v3v4?!"还在加速……"2.9x 52x在前沿研究方面，Anthropic 用 AI Agent 团队做了一个对齐研究的概念验证项目：给一组 AI Agent 指定一个研究方向（可扩展监督），让它们自主设计方案。结果 AI 方案击败了 Anthropic 自己设计的基线。

虽然规模还很小，但 Clark 说，上面提到的每一个 benchmark 在早期都是这个样子：先看到生命迹象，然后几个月到一年内就会爆发。

Google Gemini 的一个团队，则尝试用模型攻克数学难题。他们让 Gemini 挑战了约 700 个 Erds 猜想，产出了 13 个解，其中1 个被数学家认为有实质意义，被称为「AI 系统自主解决一个非平凡开放 Erds 问题的早期案例」。

04自我管理Claude Code 和 OpenCode 等工具已经支持单个 AI Agent 管理多个子 Agent，并行分配任务、协调工作。

一个 AI 带着一群 AI 干活，形态上跟人类的项目经理非常接近了。这意味着 AI 研发中不仅「干活」可以自动化，连「管理干活」也开始可以了。中层管理们的活，也可以被 AI 接管了：AI 正在杀死中层管理

AI MANAGERAI 经理AI MANAGERAI 经理项目管理调参第3轮了…debugbug在哪…{ }//写代码收到，写跑实验报告！轻触播放 Clark 透露，Anthropic 内部已经在实际使用这种模式进行部分研发工作。

05积木 or 相对论Clark 提了一个关键问题：AI 研究，到底更像搭积木，还是更像发现相对论？

如果是后者（需要从无到有的天才洞见）那 AI 自动化研发的前景就很渺茫。但 Clark 认为是前者。

AI 领域偶尔会出现范式级的突破，比如 Transformer 架构、混合专家模型（MoE）。但绝大多数时候，领域的推进靠的是一个无聊的循环：拿一个跑得还行的系统，加大规模，看哪里崩了，修好，再加大。

反复如此。

Clark 引用了爱迪生的名言：

“天才是 1% 的灵感加 99% 的汗水。”

这 99% 的汗水，Clark 称之为「schlep」（苦差事）：扩大规模、系统性调参、永无止境的 debug 和优化。

但这些，也正恰恰是 AI 已经擅长的。

1% 灵感99% 汗水1% INSPIRATION + 99% PERSPIRATION99% 的苦活，AI 包了1% 灵感99% 汗水包在我身上点击上色 → 把所有证据拼在一起后，Clark 给出了四条总结：

1.AI 已经能写几乎任何程序，并且可以独立完成一个人需要几十小时才能做完的任务

2.AI 在微调、kernel 优化等 AI 研发的核心技能上越来越强

3.AI 可以管理其他 AI，组建合成团队分工协作

4.AI 在某些硬核工程和科研任务上已经能胜过人类，虽然还不确定这算创造力还是超强的模式匹配

他的结论是：AI 已经可以自动化 AI工程的绝大部分，甚至全部。

至于 AI研究中那些需要创造力的部分，目前还不确定。但即便 AI 完全没有创造力，光靠自动化苦力活这一点，也足以自己把自己往前推很远。

06假如成真Clark 也讨论了「如果成真」，这将意味着什么。他写到会有三个后果：

第一，对齐问题会被指数放大。

今天的对齐技术在递归系统中会不断衰减。假设每一代 AI 的对齐准确率是 99.9%，50 代之后衰减到 95.12%，500 代之后只剩 60.5%。

而且 AI 已经知道自己什么时候在被测试，这让「假装对齐」变得更容易。

99.9% 稳如磐石第 1 代 60.5% !怎么会…… 第 500 代轻触播放 第二，生产力倍增器带来分配问题。

AI 对软件工程师的加速效应，会复制到它触及的所有领域。但如果 AI 算力的需求持续超过供给，谁能优先用上 AI，就成了一个政治问题。

Clark 还提到了一个「经济的阿姆达尔定律」：当 AI 加速了数字世界的运转，物理世界中的瓶颈就会暴露出来。比如新药的临床试验，再快的 AI 也不能加速人体的生物反应。

第三，一个资本密集、劳动力稀薄的「机器经济」正在浮现。

越来越多的公司可能变成这样：拥有大量算力（或购买大量 AI 服务），但雇员很少。因为花更多钱在 AI 上比雇更多人更划算，而且这个差距在持续扩大。

Clark 甚至预测，最终可能出现完全由 AI 运营的自主公司，它们之间相互交易，形成一个在类经济体内部生长的「机器经济」。

07时间线Clark 给出的概率分布时间线是：

到2027 年底：30% 概率实现 AI 自动化研发

到2028 年底：60% 概率

如果 2028 年底还没实现，说明存在某种根本性的技术瓶颈

而且，Clark 表示不只自己一个人这么想。

OpenAI 宣布目标在 2026 年 9 月前实现「自动化 AI 研究实习生」，DeepMind 表态「对齐研究的自动化应在可行时推进」。

创业公司 Recursive Superintelligence 拿到了 5 亿美元融资，Mirendil 专注 AI 研发自动化。

数百亿美元的资本，正在涌向这一个目标。

08老黄和陶哲轩不过，也不是所有人都信这个叙事。

过去一年，Anthropic 高层的公开预测一路升级：AI 能写 90% 代码、AI 将取代大量白领岗位，现在又到了「AI 两年内自我构建」……

而老黄前几天，也刚在 SCSP 播客上直接开炮（黄仁勋炮轰 Anthropic CEO：散布恐慌，不知怎么当上的 CEO），算是谴责了这类不断加码的言论：

“太荒谬了。这些评论毫无帮助。”

说服所有年轻的大学毕业生不要学软件工程，这也是有害的，因为我们将需要比以往更多的软件工程师。

他表示，AI 公司高管反复散布「AI 即将取代一切」的恐慌言论，对社会毫无益处。而 Clark 这篇文章，正是这个叙事的最新一环，只不过把「取代程序员」更进一步升级成了「取代 AI 研究本身」。

Fields 奖得主陶哲轩，则在访谈中从另一个角度进行切入。

他看了看 AI 行业的财务模型，结论是：这笔账，算不过来。

“现在 AI 大公司的商业模式，依赖的是炒作来支撑他们的高估值。他们需要「数万亿美元潜力」这样的承诺。”

希望一两年内会有一个更理性的重新估值。

$TAI CEO再大一点陶哲轩估值泡沫 vs 数学现实$B?AI CEO陶哲轩数学不成立.com泡沫终会遇见现实轻触播放陶哲轩把现在的 AI 行业跟 2000 年互联网泡沫做了类比：

“当年人们承诺互联网将改变一切，最终它确实改变了……一些方面改变了很多，另一些方面则没那么大变化。”

09为了融资？黄仁勋和陶哲轩的批评，指向了同一个问题：这些惊人的预测，到底是诚实的判断，还是在服务融资叙事？

而回头看 Anthropic 高层过去一年的公开言论，会发现一个规律：

说 AI 能写 90% 的代码？投资人听了觉得技术确实强。

说 AI 会消灭 50% 的白领岗位？那更得赶紧投，谁不想站在颠覆者这一边。

说 AI 有 20% 概率毁灭人类？那更要投了，因为 Anthropic 号称最注重安全，投它就是买保险。

PROPHECY FUNNEL90% 代码技术强50% 白领赶紧投颠覆者20% 毁灭投安全 = 买保险自我构建终极 pitch $ $ $ $ $ → 融资"请给更多钱"每条预言都指向同一方向轻触播放现在再加一条：AI 将在两年内完成自我构建。

每一条预言，都精准地指向了同一个方向：请给 Anthropic 更多的钱。

而 Clark 这篇声称 AI 两年内实现自我构建的文章，恰恰发表在 Anthropic 刚刚完成新一轮融资之后。

2026 NOW2030 ????????2026我们在这2027Clark30%2028Clark60%2029?2030?Clark看好 2028黄仁勋荒谬陶哲轩≠2627282930 按住看未来 → Clark 说60% 的可能性实现自我迭代，黄仁勋说「散布恐慌」，陶哲轩说「泡沫」。三个人，不同的判断。

2028，还有两年。你，更相信谁呢？

◇ ◆ ◇

智能网 https://www.cnaiplus.com

本文网址：

欢迎关注微信公众号：人工智能报；合作及投稿请联系：editor@cnaiplus.com

智能推荐

无相关信息

精选

AI中国号...

关注微信公众号，了解最新精彩内容