来源：互联网2026-03-30 00:00:00 热度：

AI科学家登上Nature！独立完成科研论文并通过同行评审

智能网 https://www.cnaiplus.com

导读：专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！一个AI系统独立完成科研全过程、通过了顶级学术会议同行评审。从提出研究想法、设计实验、跑代码、分析数据，到写出完整论文，甚至自己评审自己的作品。AI完成的论文，甚至在ICLR（国际学习表征会议）的workshop上获得 ......

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

一个AI系统独立完成科研全过程、通过了顶级学术会议同行评审。

从提出研究想法、设计实验、跑代码、分析数据，到写出完整论文，甚至自己评审自己的作品。

AI完成的论文，甚至在ICLR（国际学习表征会议）的workshop上获得了平均6.33分的评审分数，超过了接受门槛。

这是人类历史上首次有完全由AI生成的论文通过正规学术会议的同行评审。

AI科研助手的进化之路人工智能帮助科学研究，这件事本身并不新鲜。

早在上世纪70年代，科学家们就开始梦想着让机器来帮助甚至自动化科研工作。只不过，那时候的AI能力有限，只能做一些比较简单的任务。

在大语言模型出现之前，AI主要在几个特定领域发挥作用。比如在化学领域，AI可以帮助发现新的分子结构；在数学领域，AI可以寻找新的证明方法；在材料科学领域，AI可以预测新材料的性质；在生物学领域，DeepMind公司的AlphaFold更是惊艳了全世界，它能够准确预测蛋白质的三维结构。

这些成就都令人印象深刻，但它们都有一个共同特点：AI只是在执行某个具体的、预先定义好的任务。

真正有挑战性的是另一个目标：让AI系统能够自主完成科学研究的全流程。

从最初的想法萌芽，到文献调研、实验设计、代码实现、数据分析，再到论文撰写和同行评审，这整个过程环环相扣，需要灵活的判断力和创造力。长期以来，这样的全自动系统一直是个遥不可及的梦想。

大语言模型的出现改变了这一切。GPT-4、Claude等模型展现出了惊人的通用能力，不仅能理解和生成文本，还能编写代码、分析数据。

研究者们开始尝试让这些模型来完成更复杂的科研任务：生成研究假设、撰写文献综述、编写实验代码。但这些尝试仍然停留在单个环节，没有人能够把所有环节串起来，形成一个完整的自动化科研流水线。

这次发表在Nature上的研究，第一次实现了这个目标。

研究团队开发了一个叫The AI Scientist的系统，它能够完成从研究构思到论文发表的全部工作。

AI科学家是如何工作的The AI Scientist的工作流程分为四个主要阶段。

第一个阶段是想法生成。

系统会根据用户指定的研究方向，不断生成新的研究想法。每个想法都包含一个描述性的标题、核心假设的说明、详细的实验计划，以及自我评估的分数。

系统会评估每个想法的有趣程度、新颖性和可行性。为了避免重复已有的研究，系统还会自动连接到Semantic Scholar这个学术数据库，检索相关文献。如果发现某个想法与现有工作太相似，就会直接丢弃。

第二个阶段是实验执行。

研究团队设计了两种模式。一种是模板模式，系统会基于人类提供的代码模板来执行实验。另一种是更开放的无模板模式，系统需要从零开始编写所有代码。

在无模板模式下，系统会使用一种树搜索的策略，不断尝试、调试、改进，就像一个科学家在实验室里反复摸索一样。每次实验完成后，系统会以实验日志的形式记录结果，为后面的论文写作做准备。

第三个阶段是论文撰写。

系统会把自己做的所有实验、收集的所有数据、生成的所有图表整理成一篇完整的论文。它会按照标准学术会议的格式来组织内容，包括引言、方法、实验、结论等各个部分。系统还会再次检索文献数据库，找到相关的参考文献，并正确引用。

第四个阶段是自动评审。

系统内置了一个自动评审模块，会按照顶级机器学习会议NeurIPS的评审标准，对生成的论文进行打分。评审结果包括多个维度的分数，比如合理性、呈现质量、贡献度、总体质量等，还会列出论文的优点和不足，最后给出接受或拒绝的建议。

为了让这个系统能够真正运作，研究团队在技术实现上做了很多巧妙的设计。

在代码生成方面，系统使用了Claude Sonnet 4等先进模型，并通过视觉语言模型来检查生成的图表是否合理。

在实验管理方面，系统引入了四阶段的实验流程：初步探索、超参数调优、主要实验执行、消融实验。

每个阶段都有明确的完成标准，系统会自动判断什么时候可以进入下一阶段。

整个生成过程通常需要几个小时到十几个小时不等，具体取决于问题的复杂程度。一个人类研究者可能需要几周甚至几个月才能完成的工作，这个系统在一天之内就能搞定。

AI科学家登上Nature！独立完成科研论文并通过同行评审

图1展示了The AI Scientist的完整工作流程。可以看到，系统从想法生成开始，经过树状的实验探索过程，最终产出论文并进行评审。实验阶段的树搜索设计让系统能够并行尝试多种方案，并选择最有希望的方向继续深入。

用AI评审AI论文既然要让AI来写论文，一个自然的问题是：谁来评判这些论文好不好？

研究团队的做法是再开发一个AI评审系统，叫做The Automated Reviewer。

这个系统按照NeurIPS会议的官方评审指南来运作。它会阅读论文PDF，然后给出结构化的评审意见，包括各个维度的评分、优点列表、缺点列表、以及最终的接受或拒绝决定。

为了验证这个自动评审系统靠不靠谱，研究团队做了一个对照实验。他们从公开的ICLR会议数据中收集了大量论文和评审结果，让自动评审系统对这些论文进行评审，然后和人类的评审结果做比较。

结果令人惊讶。自动评审系统的表现和人类评审员相当接近。在平衡准确率这个指标上，自动评审达到了69%，而人类评审员之间的相互一致性大约在66%左右。在F1分数这个指标上，自动评审系统甚至略高于人类评审员之间的共识程度。

当然，研究团队也考虑到了数据污染的可能性。如果模型在训练时已经见过这些论文的评审结果，那么它的表现可能只是记住了答案，而不是真正具备了评审能力。

为了排除这种可能性，研究团队把测试数据分成了两组：一组是可能被模型见过的早期数据，另一组是模型训练截止日期之后的2025年数据。

结果显示，在可能被污染的数据上，准确率是69%；在不可能被污染的新数据上，准确率是66%。两者差距很小，说明即使存在一些污染，影响也很有限。

这个自动评审系统还有一个重要用途：它可以帮助研究团队评估不同配置下The AI Scientist的产出质量。通过大量测试，研究团队发现了两个重要的规律。

第一个规律是，基础模型越好，生成的论文质量越高。

研究团队测试了多个不同版本的模型，发现模型能力与论文质量之间存在显著的正相关关系。这意味着，随着底层模型的持续进步，The AI Scientist的输出质量也会水涨船高。

第二个规律是，投入的计算资源越多，论文质量越好。

系统使用树搜索来探索实验空间，搜索的节点越多，找到好结果的可能性就越大。这提示我们，即使模型本身不变，增加推理时间的计算投入，也能提升输出质量。而计算成本正在以指数速度下降，这意味着未来这个系统有很大的提升空间。

AI科学家登上Nature！独立完成科研论文并通过同行评审

表1展示了自动评审系统与人类评审员的性能对比。可以看到，自动评审系统在两个指标上都达到了与人类相当甚至略优的水平。

AI科学家登上Nature！独立完成科研论文并通过同行评审

图3展示了实验阶段的具体过程和计算资源投入与论文质量的关系。可以看到，随着计算节点的增加，论文得分呈现出明显的上升趋势。

真正的考验：同行评审自动化评审系统测起来不错，但终究是AI评AI。真正的考验是：AI生成的论文能不能通过人类组织的同行评审？

研究团队决定做一个大胆的实验。

他们向ICLR 2025会议的一个workshop提交了AI生成的论文。这个workshop叫做ICBINB，专注于深度学习领域那些有趣但结果不太理想的研究。

研究团队在实验开始前就明确承诺，无论结果如何，所有AI生成的论文都会在评审结束后撤回。这个实验得到了ICLR会议组织者、workshop主办方、以及英属哥伦比亚大学伦理委员会的批准。

他们用无模板模式运行The AI Scientist，只给了系统一个workshop的主题描述，就让系统自己从头到尾完成所有工作。系统生成了多个研究想法，自己编写代码、跑实验、写论文。研究团队只做了最基础的筛选，挑出三篇格式正确、代码能跑通的论文提交。

评审过程是盲审的。

评审员知道这批投稿中可能有AI生成的论文，但不知道具体是哪几篇。

最终，三篇AI论文中的一篇获得了平均6.33分的评分，超过了workshop的接受门槛。这篇论文报告的是一个负面结果，正好符合workshop关注的主题。

ICLR是机器学习领域最顶级的学术会议之一。虽然workshop的接受率比主会高很多，但仍然需要通过正规的同行评审。一篇完全由AI生成的论文能够通过这个门槛，这在人类历史上还是第一次。

AI科学家登上Nature！独立完成科研论文并通过同行评审

图2展示了被接受的AI生成论文的部分内容。这篇论文获得了6分、7分、6分的评审分数，平均分超过了接受门槛。

当然，研究团队也清醒地认识到，这只是一个开始。

三篇论文中只有一篇通过评审，而且workshop的接受标准比主会宽松很多。ICLR 2025主会的接受率大约是32%，而这个workshop的接受率是70%。研究团队自己的内部评审也认为，目前AI生成的论文还达不到顶级会议主会的发表标准。

AI生成的论文还存在不少问题。

研究团队总结了常见的失败模式：研究想法有时比较幼稚或不够成熟；代码实现可能无法正确表达原本的想法；方法论缺乏深度严谨性；实验实现存在错误；图表可能在正文和附录中重复出现；还存在各种类型的幻觉，比如引用信息不准确。

但回顾机器学习领域的发展历史，很多技术一开始都存在明显缺陷，却能通过规模提升、数据增加、模型改进，在短短几年内达到甚至超越人类水平。

有研究显示，AI能够可靠完成的任务长度正在以每7个月翻倍的速度增长，这意味着当前的很多技术瓶颈可能在不远的将来就会被突破。

这项研究带来的影响是深远的。

从积极的一面看，这样的自动化系统有可能大大加速科学发现的进程。

但风险同样不容忽视。如果这样的系统被滥用，可能会给学术评审系统带来巨大压力，产生大量低质量的论文，淹没真正有价值的研究。

还有人担心，AI可能会不当借鉴他人的想法而不给予应有的引用，或者导致科研人员的工作岗位受到威胁。更严重的是，如果缺乏适当的约束，系统可能会进行不道德或危险的实验。

研究团队在论文中强调，他们之所以进行这项研究，正是希望在问题出现之前就开始思考和讨论。

他们主动向ICLR会议组织者和伦理委员会申请批准，并且在评审结束后立即撤回了所有AI生成的论文，就是为了避免在没有建立明确规范的情况下开一个不好的先例。

几个世纪以来，科学发现一直是人类智慧的专属领域。现在，这个过程不再仅仅是人类的专利。

未来会怎样？没人能够准确预测。

但可以肯定的是，我们需要认真思考如何在享受技术红利的同时，防范可能的风险。建立清晰的规范和标准，确保这类系统被用来推进而不是破坏科学研究的诚信。

未来的实验室里，AI科学家将成为人类科学家最亲密的同事。

参考资料：

https://www.nature.com/articles/s41586-026-10265-5

智能网 https://www.cnaiplus.com

本文网址：

欢迎关注微信公众号：人工智能报；合作及投稿请联系：editor@cnaiplus.com

智能推荐

无相关信息

精选

AI中国号...

关注微信公众号，了解最新精彩内容