智能网 https://www.cnaiplus.com
导读:Anthropic 联合创始人 Jack Clark 今天发了一篇重磅长文,声称:AI 系统自己迭代改造自己,可能就在两年后。他花了几周时间,翻遍了上百个公开数据源,最后给出了一个概率:到 2028 年底,AI 实现端到端自动化研发的概率,已经超过 60%。“我现在相信,我们正生活在 AI 研究将被端到端自动化的时代。”Import AI 455这篇文章发在他的 Newsletter「Import AI」第 455 期,标题直 ......Anthropic 联合创始人 Jack Clark 今天发了一篇重磅长文,声称:AI 系统自己迭代改造自己,可能就在两年后。
他花了几周时间,翻遍了上百个公开数据源,最后给出了一个概率:到 2028 年底,AI 实现端到端自动化研发的概率,已经超过 60%。
“我现在相信,我们正生活在 AI 研究将被端到端自动化的时代。”
Import AI 455这篇文章发在他的 Newsletter「Import AI」第 455 期,标题直接挑明了主题:AI 系统即将开始自我构建。
并且他声称,所有结论完全基于公开可查的资料,没有动用 Anthropic 内部信息。
那么,他到底看到什么了呢?
01拿下代码SWE-Bench 是衡量 AI 解决真实 GitHub issue 的标准测试。2023 年底,Claude 2 的得分大约 2%。现在,Claude Mythos Preview 达到了93.9%,几乎接近饱和。
Clark 写道:
“所有分辨率上,图表都在一路向右上角飞。”
METR 追踪的是另一个维度:AI 能自主工作多长时间。这条曲线比 SWE-Bench 还陡:
2022 年:GPT 3.5 能独立工作约 30 秒
2023 年:GPT-4 能撑 4 分钟
2024 年:o1 能撑 40 分钟
2025 年:GPT 5.2 约 6 小时
2026 年:Opus 4.6 约 12 小时
预计 2026 年底:约 100 小时
从 30 秒到 100 小时。相当于……从帮你查个单词,到替你扛一整个项目周期了。
30sGPT-3.5?4minGPT-440mino16hGPT 5.212hOpus 4.6100h???...30 秒 → 100 小时 点击看 AI 能力阶梯 Clark 指出,委托工作给别人需要两个前提:相信对方的能力,以及相信对方能在不被盯着的情况下按你的意思干活。
而这两条,AI 正在同时满足。
对于 AI 研究者的日常,如果仔细拆解,大量任务其实就是几个小时的体力活:清洗数据、读论文、跑实验、调参数。这些活儿现在已经落在 AI 独立工作时长的范围内了。
工程师和研究员正在把越来越大块、越来越重要的工作交给 AI 来做。
不过 Clark 也提了个重要的注意事项:单个 benchmark 都有缺陷,比如 ImageNet 本身就有约 6% 的标注错误率。他说自己的方法是拼马赛克,看整体趋势。
02攻克科研CORE-Bench 测的是一项非常实际的能力:给一篇论文,把它完整复现出来。装环境、跑代码、验证结果,全流程自动完成。
2024 年 9 月发布时 GPT-4o 得分约 21.5%,到 2025 年 12 月 Opus 4.5 拿了95.5%。
CORE-Bench 进展
做研究的人应该都有体会,大量时间花在理解和复现别人的成果上。这一步一旦自动化,对整个研发效率的杠杆效应是巨大的。
MLE-Bench 进展MLE-Bench 则从 75 个真实 Kaggle 竞赛中抽取任务,衡量完整的 ML 工程能力:数据清洗、特征工程、模型选择、调参、提交。
2024 年 10 月 o1 得分 16.9%,到 2026 年 2 月 Gemini3 达到了64.4%。
再往底层走则是:kernel 优化,也就是把矩阵乘法之类的运算高效映射到 GPU 硬件上,这直接决定了训练和推理的效率。训练一个模型能用多少算力,训好之后推理有多快,全看 kernel 写得好不好。
这个领域也正在变成 AI 的竞技场。
DeepSeek 在做 GPU kernel 构建模型,Meta 用 LLM 自动生成优化过的 Triton kernel,字节跳动做了「Cuda Agent」,华为做了「AscendCraft」为腾芯片写 kernel。
kernel 还有个特点让它特别适合 AI 来做:结果很容易验证,跑得快不快,一测便知。
在前沿数学领域,也已经出现了 AI 参与的痕迹。
英属哥伦比亚大学、斯坦福和 DeepMind 的研究者合作发表了一个新的数学证明,论文中写的是:「主要结果的证明是在 Google Gemini 及相关工具的大量参与下发现的。」
这,算不算 AI 有了创造力?Clark 认为还不好判断,也许数学和计算机科学恰好是 AI 擅长的领域,不一定能推广。
03自我训练一个极为为核心的问题是:AI 能不能自行训练 AI?
PostTrainBench 进展
PostTrainBench 测的是让强模型自主地对弱模型做后训练微调,目标模型包括 Qwen 3、SmolLM3、Gemma 3 等开源模型。
人类基线(即这些模型官方 instruct 版本的水平,由各家顶级工程师精心调教)能实现约51%的性能提升,当前最强的 AI 系统(Opus 4.6 和 GPT 5.4)能做到25-28%,到了人类水平的一半左右。
Anthropic 自己内部的数据,可能更能说明问题。他们用 AI 来优化 LLM 训练过程本身:
2025 年 5 月:Opus 4 实现 2.9 倍加速
2025 年 11 月:Opus 4.5 实现 16.5 倍加速
2026 年 2 月:Opus 4.6 实现 30 倍加速
2026 年 4 月:Mythos Preview 实现52 倍加速
人类工程师花 4-8 小时大约能做到 4 倍。这条曲线,就已经算得上是「递归自我改进」的雏形了。
训练优化进化递归self-improving loop?AI v1AI v2AI v3v4?!"还在加速……"2.9x 52x在前沿研究方面,Anthropic 用 AI Agent 团队做了一个对齐研究的概念验证项目:给一组 AI Agent 指定一个研究方向(可扩展监督),让它们自主设计方案。结果 AI 方案击败了 Anthropic 自己设计的基线。
虽然规模还很小,但 Clark 说,上面提到的每一个 benchmark 在早期都是这个样子:先看到生命迹象,然后几个月到一年内就会爆发。
Google Gemini 的一个团队,则尝试用模型攻克数学难题。他们让 Gemini 挑战了约 700 个 Erds 猜想,产出了 13 个解,其中1 个被数学家认为有实质意义,被称为「AI 系统自主解决一个非平凡开放 Erds 问题的早期案例」。
04自我管理Claude Code 和 OpenCode 等工具已经支持单个 AI Agent 管理多个子 Agent,并行分配任务、协调工作。
一个 AI 带着一群 AI 干活,形态上跟人类的项目经理非常接近了。这意味着 AI 研发中不仅「干活」可以自动化,连「管理干活」也开始可以了。中层管理们的活,也可以被 AI 接管了:AI 正在杀死中层管理
AI MANAGERAI 经理AI MANAGERAI 经理项目管理调参第3轮了…debugbug在哪…{ }//写代码收到,写跑实验报告! 轻触播放 Clark 透露,Anthropic 内部已经在实际使用这种模式进行部分研发工作。
05积木 or 相对论Clark 提了一个关键问题:AI 研究,到底更像搭积木,还是更像发现相对论?
如果是后者(需要从无到有的天才洞见)那 AI 自动化研发的前景就很渺茫。但 Clark 认为是前者。
AI 领域偶尔会出现范式级的突破,比如 Transformer 架构、混合专家模型(MoE)。但绝大多数时候,领域的推进靠的是一个无聊的循环:拿一个跑得还行的系统,加大规模,看哪里崩了,修好,再加大。
反复如此。
Clark 引用了爱迪生的名言:
“天才是 1% 的灵感加 99% 的汗水。”
这 99% 的汗水,Clark 称之为「schlep」(苦差事):扩大规模、系统性调参、永无止境的 debug 和优化。
但这些,也正恰恰是 AI 已经擅长的。
1% 灵感99% 汗水1% INSPIRATION + 99% PERSPIRATION99% 的苦活,AI 包了1% 灵感99% 汗水包在我身上 点击上色 → 把所有证据拼在一起后,Clark 给出了四条总结:
1.AI 已经能写几乎任何程序,并且可以独立完成一个人需要几十小时才能做完的任务
2.AI 在微调、kernel 优化等 AI 研发的核心技能上越来越强
3.AI 可以管理其他 AI,组建合成团队分工协作
4.AI 在某些硬核工程和科研任务上已经能胜过人类,虽然还不确定这算创造力还是超强的模式匹配
他的结论是:AI 已经可以自动化 AI工程的绝大部分,甚至全部。
至于 AI研究中那些需要创造力的部分,目前还不确定。但即便 AI 完全没有创造力,光靠自动化苦力活这一点,也足以自己把自己往前推很远。
06假如成真Clark 也讨论了「如果成真」,这将意味着什么。他写到会有三个后果:
第一,对齐问题会被指数放大。
今天的对齐技术在递归系统中会不断衰减。假设每一代 AI 的对齐准确率是 99.9%,50 代之后衰减到 95.12%,500 代之后只剩 60.5%。
而且 AI 已经知道自己什么时候在被测试,这让「假装对齐」变得更容易。
99.9% 稳如磐石 第 1 代 60.5% !怎么会…… 第 500 代 轻触播放 第二,生产力倍增器带来分配问题。
AI 对软件工程师的加速效应,会复制到它触及的所有领域。但如果 AI 算力的需求持续超过供给,谁能优先用上 AI,就成了一个政治问题。
Clark 还提到了一个「经济的阿姆达尔定律」:当 AI 加速了数字世界的运转,物理世界中的瓶颈就会暴露出来。比如新药的临床试验,再快的 AI 也不能加速人体的生物反应。
第三,一个资本密集、劳动力稀薄的「机器经济」正在浮现。
越来越多的公司可能变成这样:拥有大量算力(或购买大量 AI 服务),但雇员很少。因为花更多钱在 AI 上比雇更多人更划算,而且这个差距在持续扩大。
Clark 甚至预测,最终可能出现完全由 AI 运营的自主公司,它们之间相互交易,形成一个在类经济体内部生长的「机器经济」。
07时间线Clark 给出的概率分布时间线是:
到2027 年底:30% 概率实现 AI 自动化研发
到2028 年底:60% 概率
如果 2028 年底还没实现,说明存在某种根本性的技术瓶颈
而且,Clark 表示不只自己一个人这么想。
OpenAI 宣布目标在 2026 年 9 月前实现「自动化 AI 研究实习生」,DeepMind 表态「对齐研究的自动化应在可行时推进」。
创业公司 Recursive Superintelligence 拿到了 5 亿美元融资,Mirendil 专注 AI 研发自动化。
数百亿美元的资本,正在涌向这一个目标。
08老黄和陶哲轩不过,也不是所有人都信这个叙事。
过去一年,Anthropic 高层的公开预测一路升级:AI 能写 90% 代码、AI 将取代大量白领岗位,现在又到了「AI 两年内自我构建」……
而老黄前几天,也刚在 SCSP 播客上直接开炮(黄仁勋炮轰 Anthropic CEO:散布恐慌,不知怎么当上的 CEO),算是谴责了这类不断加码的言论:
“太荒谬了。这些评论毫无帮助。”
说服所有年轻的大学毕业生不要学软件工程,这也是有害的,因为我们将需要比以往更多的软件工程师。
他表示,AI 公司高管反复散布「AI 即将取代一切」的恐慌言论,对社会毫无益处。而 Clark 这篇文章,正是这个叙事的最新一环,只不过把「取代程序员」更进一步升级成了「取代 AI 研究本身」。
Fields 奖得主陶哲轩,则在访谈中从另一个角度进行切入。
他看了看 AI 行业的财务模型,结论是:这笔账,算不过来。
“现在 AI 大公司的商业模式,依赖的是炒作来支撑他们的高估值。他们需要「数万亿美元潜力」这样的承诺。”
希望一两年内会有一个更理性的重新估值。
$TAI CEO再大一点陶哲轩估值泡沫 vs 数学现实$B?AI CEO陶哲轩数学不成立.com泡沫终会遇见现实 轻触播放 陶哲轩把现在的 AI 行业跟 2000 年互联网泡沫做了类比:
“当年人们承诺互联网将改变一切,最终它确实改变了……一些方面改变了很多,另一些方面则没那么大变化。”
09为了融资?黄仁勋和陶哲轩的批评,指向了同一个问题:这些惊人的预测,到底是诚实的判断,还是在服务融资叙事?
而回头看 Anthropic 高层过去一年的公开言论,会发现一个规律:
说 AI 能写 90% 的代码?投资人听了觉得技术确实强。
说 AI 会消灭 50% 的白领岗位?那更得赶紧投,谁不想站在颠覆者这一边。
说 AI 有 20% 概率毁灭人类?那更要投了,因为 Anthropic 号称最注重安全,投它就是买保险。
PROPHECY FUNNEL90% 代码技术强50% 白领赶紧投颠覆者20% 毁灭投安全 = 买保险自我构建终极 pitch $ $ $ $ $ → 融资"请给更多钱"每条预言都指向同一方向 轻触播放 现在再加一条:AI 将在两年内完成自我构建。
每一条预言,都精准地指向了同一个方向:请给 Anthropic 更多的钱。
而 Clark 这篇声称 AI 两年内实现自我构建的文章,恰恰发表在 Anthropic 刚刚完成新一轮融资之后。
2026 NOW2030 ????????2026我们在这2027Clark30%2028Clark60%2029?2030?Clark看好 2028黄仁勋荒谬陶哲轩≠2627282930 按住看未来 → Clark 说60% 的可能性实现自我迭代,黄仁勋说「散布恐慌」,陶哲轩说「泡沫」。三个人,不同的判断。
2028,还有两年。你,更相信谁呢?
◇ ◆ ◇
智能网 https://www.cnaiplus.com
本文网址:




