来源:互联网2026-03-30 00:00:00 热度:

AI科学家登上Nature!独立完成科研论文并通过同行评审

智能网 https://www.cnaiplus.com

导读:专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!一个AI系统独立完成科研全过程、通过了顶级学术会议同行评审。从提出研究想法、设计实验、跑代码、分析数据,到写出完整论文,甚至自己评审自己的作品。AI完成的论文,甚至在ICLR(国际学习表征会议)的workshop上获得 ......

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

一个AI系统独立完成科研全过程、通过了顶级学术会议同行评审。

AI科学家登上Nature!独立完成科研论文并通过同行评审

从提出研究想法、设计实验、跑代码、分析数据,到写出完整论文,甚至自己评审自己的作品。

AI完成的论文,甚至在ICLR(国际学习表征会议)的workshop上获得了平均6.33分的评审分数,超过了接受门槛。

这是人类历史上首次有完全由AI生成的论文通过正规学术会议的同行评审。

AI科研助手的进化之路人工智能帮助科学研究,这件事本身并不新鲜。

早在上世纪70年代,科学家们就开始梦想着让机器来帮助甚至自动化科研工作。只不过,那时候的AI能力有限,只能做一些比较简单的任务。

在大语言模型出现之前,AI主要在几个特定领域发挥作用。比如在化学领域,AI可以帮助发现新的分子结构;在数学领域,AI可以寻找新的证明方法;在材料科学领域,AI可以预测新材料的性质;在生物学领域,DeepMind公司的AlphaFold更是惊艳了全世界,它能够准确预测蛋白质的三维结构。

这些成就都令人印象深刻,但它们都有一个共同特点:AI只是在执行某个具体的、预先定义好的任务。

真正有挑战性的是另一个目标:让AI系统能够自主完成科学研究的全流程。

从最初的想法萌芽,到文献调研、实验设计、代码实现、数据分析,再到论文撰写和同行评审,这整个过程环环相扣,需要灵活的判断力和创造力。长期以来,这样的全自动系统一直是个遥不可及的梦想。

大语言模型的出现改变了这一切。GPT-4、Claude等模型展现出了惊人的通用能力,不仅能理解和生成文本,还能编写代码、分析数据。

研究者们开始尝试让这些模型来完成更复杂的科研任务:生成研究假设、撰写文献综述、编写实验代码。但这些尝试仍然停留在单个环节,没有人能够把所有环节串起来,形成一个完整的自动化科研流水线。

这次发表在Nature上的研究,第一次实现了这个目标。

研究团队开发了一个叫The AI Scientist的系统,它能够完成从研究构思到论文发表的全部工作。

AI科学家是如何工作的The AI Scientist的工作流程分为四个主要阶段。

第一个阶段是想法生成。

系统会根据用户指定的研究方向,不断生成新的研究想法。每个想法都包含一个描述性的标题、核心假设的说明、详细的实验计划,以及自我评估的分数。

系统会评估每个想法的有趣程度、新颖性和可行性。为了避免重复已有的研究,系统还会自动连接到Semantic Scholar这个学术数据库,检索相关文献。如果发现某个想法与现有工作太相似,就会直接丢弃。

第二个阶段是实验执行。

研究团队设计了两种模式。一种是模板模式,系统会基于人类提供的代码模板来执行实验。另一种是更开放的无模板模式,系统需要从零开始编写所有代码。

在无模板模式下,系统会使用一种树搜索的策略,不断尝试、调试、改进,就像一个科学家在实验室里反复摸索一样。每次实验完成后,系统会以实验日志的形式记录结果,为后面的论文写作做准备。

第三个阶段是论文撰写。

系统会把自己做的所有实验、收集的所有数据、生成的所有图表整理成一篇完整的论文。它会按照标准学术会议的格式来组织内容,包括引言、方法、实验、结论等各个部分。系统还会再次检索文献数据库,找到相关的参考文献,并正确引用。

第四个阶段是自动评审。

系统内置了一个自动评审模块,会按照顶级机器学习会议NeurIPS的评审标准,对生成的论文进行打分。评审结果包括多个维度的分数,比如合理性、呈现质量、贡献度、总体质量等,还会列出论文的优点和不足,最后给出接受或拒绝的建议。

为了让这个系统能够真正运作,研究团队在技术实现上做了很多巧妙的设计。

在代码生成方面,系统使用了Claude Sonnet 4等先进模型,并通过视觉语言模型来检查生成的图表是否合理。

在实验管理方面,系统引入了四阶段的实验流程:初步探索、超参数调优、主要实验执行、消融实验。

每个阶段都有明确的完成标准,系统会自动判断什么时候可以进入下一阶段。

整个生成过程通常需要几个小时到十几个小时不等,具体取决于问题的复杂程度。一个人类研究者可能需要几周甚至几个月才能完成的工作,这个系统在一天之内就能搞定。

AI科学家登上Nature!独立完成科研论文并通过同行评审

图1展示了The AI Scientist的完整工作流程。可以看到,系统从想法生成开始,经过树状的实验探索过程,最终产出论文并进行评审。实验阶段的树搜索设计让系统能够并行尝试多种方案,并选择最有希望的方向继续深入。

用AI评审AI论文既然要让AI来写论文,一个自然的问题是:谁来评判这些论文好不好?

研究团队的做法是再开发一个AI评审系统,叫做The Automated Reviewer。

这个系统按照NeurIPS会议的官方评审指南来运作。它会阅读论文PDF,然后给出结构化的评审意见,包括各个维度的评分、优点列表、缺点列表、以及最终的接受或拒绝决定。

为了验证这个自动评审系统靠不靠谱,研究团队做了一个对照实验。他们从公开的ICLR会议数据中收集了大量论文和评审结果,让自动评审系统对这些论文进行评审,然后和人类的评审结果做比较。

结果令人惊讶。自动评审系统的表现和人类评审员相当接近。在平衡准确率这个指标上,自动评审达到了69%,而人类评审员之间的相互一致性大约在66%左右。在F1分数这个指标上,自动评审系统甚至略高于人类评审员之间的共识程度。

当然,研究团队也考虑到了数据污染的可能性。如果模型在训练时已经见过这些论文的评审结果,那么它的表现可能只是记住了答案,而不是真正具备了评审能力。

为了排除这种可能性,研究团队把测试数据分成了两组:一组是可能被模型见过的早期数据,另一组是模型训练截止日期之后的2025年数据。

结果显示,在可能被污染的数据上,准确率是69%;在不可能被污染的新数据上,准确率是66%。两者差距很小,说明即使存在一些污染,影响也很有限。

这个自动评审系统还有一个重要用途:它可以帮助研究团队评估不同配置下The AI Scientist的产出质量。通过大量测试,研究团队发现了两个重要的规律。

第一个规律是,基础模型越好,生成的论文质量越高。

研究团队测试了多个不同版本的模型,发现模型能力与论文质量之间存在显著的正相关关系。这意味着,随着底层模型的持续进步,The AI Scientist的输出质量也会水涨船高。

第二个规律是,投入的计算资源越多,论文质量越好。

系统使用树搜索来探索实验空间,搜索的节点越多,找到好结果的可能性就越大。这提示我们,即使模型本身不变,增加推理时间的计算投入,也能提升输出质量。而计算成本正在以指数速度下降,这意味着未来这个系统有很大的提升空间。

AI科学家登上Nature!独立完成科研论文并通过同行评审

表1展示了自动评审系统与人类评审员的性能对比。可以看到,自动评审系统在两个指标上都达到了与人类相当甚至略优的水平。

AI科学家登上Nature!独立完成科研论文并通过同行评审

图3展示了实验阶段的具体过程和计算资源投入与论文质量的关系。可以看到,随着计算节点的增加,论文得分呈现出明显的上升趋势。

真正的考验:同行评审自动化评审系统测起来不错,但终究是AI评AI。真正的考验是:AI生成的论文能不能通过人类组织的同行评审?

研究团队决定做一个大胆的实验。

他们向ICLR 2025会议的一个workshop提交了AI生成的论文。这个workshop叫做ICBINB,专注于深度学习领域那些有趣但结果不太理想的研究。

研究团队在实验开始前就明确承诺,无论结果如何,所有AI生成的论文都会在评审结束后撤回。这个实验得到了ICLR会议组织者、workshop主办方、以及英属哥伦比亚大学伦理委员会的批准。

他们用无模板模式运行The AI Scientist,只给了系统一个workshop的主题描述,就让系统自己从头到尾完成所有工作。系统生成了多个研究想法,自己编写代码、跑实验、写论文。研究团队只做了最基础的筛选,挑出三篇格式正确、代码能跑通的论文提交。

评审过程是盲审的。

评审员知道这批投稿中可能有AI生成的论文,但不知道具体是哪几篇。

最终,三篇AI论文中的一篇获得了平均6.33分的评分,超过了workshop的接受门槛。这篇论文报告的是一个负面结果,正好符合workshop关注的主题。

ICLR是机器学习领域最顶级的学术会议之一。虽然workshop的接受率比主会高很多,但仍然需要通过正规的同行评审。一篇完全由AI生成的论文能够通过这个门槛,这在人类历史上还是第一次。

AI科学家登上Nature!独立完成科研论文并通过同行评审

图2展示了被接受的AI生成论文的部分内容。这篇论文获得了6分、7分、6分的评审分数,平均分超过了接受门槛。

当然,研究团队也清醒地认识到,这只是一个开始。

三篇论文中只有一篇通过评审,而且workshop的接受标准比主会宽松很多。ICLR 2025主会的接受率大约是32%,而这个workshop的接受率是70%。研究团队自己的内部评审也认为,目前AI生成的论文还达不到顶级会议主会的发表标准。

AI生成的论文还存在不少问题。

研究团队总结了常见的失败模式:研究想法有时比较幼稚或不够成熟;代码实现可能无法正确表达原本的想法;方法论缺乏深度严谨性;实验实现存在错误;图表可能在正文和附录中重复出现;还存在各种类型的幻觉,比如引用信息不准确。

但回顾机器学习领域的发展历史,很多技术一开始都存在明显缺陷,却能通过规模提升、数据增加、模型改进,在短短几年内达到甚至超越人类水平。

有研究显示,AI能够可靠完成的任务长度正在以每7个月翻倍的速度增长,这意味着当前的很多技术瓶颈可能在不远的将来就会被突破。

这项研究带来的影响是深远的。

从积极的一面看,这样的自动化系统有可能大大加速科学发现的进程。

但风险同样不容忽视。如果这样的系统被滥用,可能会给学术评审系统带来巨大压力,产生大量低质量的论文,淹没真正有价值的研究。

还有人担心,AI可能会不当借鉴他人的想法而不给予应有的引用,或者导致科研人员的工作岗位受到威胁。更严重的是,如果缺乏适当的约束,系统可能会进行不道德或危险的实验。

研究团队在论文中强调,他们之所以进行这项研究,正是希望在问题出现之前就开始思考和讨论。

他们主动向ICLR会议组织者和伦理委员会申请批准,并且在评审结束后立即撤回了所有AI生成的论文,就是为了避免在没有建立明确规范的情况下开一个不好的先例。

几个世纪以来,科学发现一直是人类智慧的专属领域。现在,这个过程不再仅仅是人类的专利。

未来会怎样?没人能够准确预测。

但可以肯定的是,我们需要认真思考如何在享受技术红利的同时,防范可能的风险。建立清晰的规范和标准,确保这类系统被用来推进而不是破坏科学研究的诚信。

未来的实验室里,AI科学家将成为人类科学家最亲密的同事。

参考资料:

https://www.nature.com/articles/s41586-026-10265-5

智能网 https://www.cnaiplus.com

本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com

AI中国号...

关注微信公众号,了解最新精彩内容