来源:互联网2025-08-06 09:21:25 热度:

DeepMind哈萨比斯:AI能建模所有进化而来的事物

AI 中国网 https://www.cnaiplus.com

导读:不圆 发自 凹非寺量子位 | 公众号 QbitAI提出一个真正好的猜想,比解决它更难。这是谷歌DeepMind首席执行官哈萨比斯(Demis Hassabis)在莱克斯(Lex Fridman)最新对谈中的感慨。他同时也是2024年诺贝尔化学奖的得主,带队开发出了能够高精度预测蛋白质的三维结构的AlphaFold系列模型。在这次长达2小时的对谈中,哈萨比斯深入讨论了人工智能(AI)的未来,包括其在模拟物理现 ......

不圆 发自 凹非寺

量子位 | 公众号 QbitAI

提出一个真正好的猜想,比解决它更难。

这是谷歌DeepMind首席执行官哈萨比斯(Demis Hassabis)在莱克斯(Lex Fridman)最新对谈中的感慨。

他同时也是2024年诺贝尔化学奖的得主,带队开发出了能够高精度预测蛋白质的三维结构的AlphaFold系列模型。

DeepMind哈萨比斯:AI能建模所有进化而来的事物

在这次长达2小时的对谈中,哈萨比斯深入讨论了人工智能(AI)的未来,包括其在模拟物理现象和视频游戏开发中的应用,以及通用人工智能(AGI)的潜在发展。

同时提到了批判性思维、在日常生活中寻找意义、应对网络批评,以及其在学术和职业生涯中对研究的热情。

本次采访金句颇多,比如:

任何能够通过进化形成的事物,都能被AI高效建模

我们甚至还没有真正触及所谓经典系统所能做到的事情的皮毛,基于经典计算机之上的神经网络系统构建的AGI将是这一理念的终极体现。

能够以连贯的方式预测下一帧,在某种程度上就是一种理解。

“宇宙是什么”和“P是否等于NP”,其实是在问同一个问题。

游戏的伟大之处在于它将艺术最前沿的编程融合在了一起。

进化系统可能生成新的模式、新的能力和涌现属性,或许我们正处在发现如何实现这一点的风口浪尖。

当你进行真正的纯理论研究时,其实根本不存在失败这回事。

有一个雄心勃勃的梦想很容易,但关键在于如何把它们拆解成可管理、可实现的过渡步骤,这些步骤本身就有意义且有用。

我们希望看到的是在各方面都保持一致的智能。

发明新事物比快速跟进已有想法更难。

体验失败的感觉对我们至关重要,它是生活的基本组成部分。

你必须为一年后的技术能力而设计,而非为眼下的技术水平而设计

科学研究本身就是一项协作事业,最终的成果都将造福全人类

许多人将不得不重新学习或调整他们现有的技能,以适应时代的浪潮。

鉴于未来的不确定性和重要性,在我看来,唯一理性、明智的做法是以谨慎乐观的态度推进AI的发展

人类会发挥他们的聪明才智,提出正确的问题,然后巧妙地利用新工具来破解难题。

让我们一起走近这场被网友评价为最具未来启示性的对话。

DeepMind哈萨比斯:AI能建模所有进化而来的事物

哈萨比斯访谈全文开场白:以下是与德米斯哈萨比斯的对话,这是他第二次参加播客。他是谷歌DeepMind的负责人,现在还是诺贝尔奖得主。在我看来,德米斯哈萨比斯是当今世界上最杰出、最具魅力的人物之一,他致力于理解、构建智能,以及探索宇宙的重大奥秘。能与他交谈,我深感荣幸与喜悦。

任何能够通过进化形成的事物,都能被AI高效建模莱克斯:在你的诺贝尔奖演讲中,你提出了一个我认为超级有趣的猜想,即“自然界中能够产生或发现的任何模式,都可以通过经典学习算法高效地发现和建模”。其中可能包含哪些类型的系统模式?生物学、化学、物理学,也许还有宇宙学?

哈萨比斯:嗯,诺贝尔奖演讲有个传统,就是演讲者应该稍微有点挑衅性,我想遵循这一传统。当时我所说的是,如果退后一步审视我们所做的所有工作,尤其是AlphaGo和AlphaFold这类“Alpha X”系列的项目,可以发现,我们正在构建非常高维组合空间的模型。

如果你试图用穷举法来求解,找到围棋的最佳落子点,或者找到蛋白质的确切形状……如果要列举出所有的可能性,宇宙存在的所有时间都不够用所以你必须做一些更明智的事情。在这两种情况下,我们所做的都是构建这些环境的模型,以一种巧妙的方式去引导搜索,使问题变得容易处理。

如果你思考一下蛋白质折叠,它是如何发生的呢?物理学是如何做到这一点的?蛋白质在我们体内仅需几毫秒就能完成折叠,物理学解决了这个问题,而我们现在也通过计算解决了这个问题。我认为这之所以可能,是因为在自然界中,自然系统经历了塑造它们结构的进化过程,如果我们也做了类似的事情,也许就能了解那个结构是什么了。

莱克斯:这个观点很有趣,你似乎在暗示,任何能够通过进化形成的事物,都能被AI高效建模。 你认为这个结论成立吗?

哈萨比斯:我有时会把它叫做“最稳定者生存”(survival of the stables)之类的,你知道的,生命、生物存在进化。你想想地质时间,山脉的形态是在数千年的风化过程中塑造而成的,你甚至可以从宇宙学的角度来看待,行星的轨道、小行星的形状,这些都是经历了多次作用于它们的过程后留存下来的。所以如果这是真的,那么应该存在某种可以进行逆向学习的模式或者流形(manifold),能够真正帮助你找到正确的解决方案,找到正确的形状。

这能让你以一种高效的方式去预测,因为它并非随机模式,对吧?因此,对于纯粹的人造事物或者像分解大数字这样的抽象事物来说,除非数字空间中存在模式(不是完全随机或均匀的),否则它就无从学习,只能使用穷举法这类的暴力手段。在那种情况下,你可能需要一台量子计算机,或者诸如此类的东西。但在自然界中,我们感兴趣的大多数事物并非如此,它们具有因某种原因而进化并随时间存续下来的结构。而我相信神经网络是能够掌握这种结构的。

DeepMind哈萨比斯:AI能建模所有进化而来的事物

莱克斯:就好像大自然本身就在进行一场宏大的搜索,而令人着迷的是,这场搜索创造出的系统,恰好是可以被我们高效建模的。

哈萨比斯:是的,这些模式可以被我们有效地建模。因为自然并非随机,我们周遭的一切,包括那些更稳定的化学元素,都经历了某种选择模式的塑造。

如果我们真的理解了底层的运行机制,就可以对其进行学习莱克斯:既然你也是理论计算机科学和复杂性领域的爱好者,你认为我们是否可以提出一种新的复杂性类别?也许它叫作LNS(Learnable Natural Systems,可学习的自然系统),或者干脆叫“D类”,D代表Demis,用来专门描述可以被高效建模的自然系统类别。

哈萨比斯:是的,这会是一类新的系统,可以被经典系统学习并高效建模的自然系统。我一直对P对NP问题(P versus NP)以及经典计算系统(即非量子系统,也就是图灵机)能够建模的内容着迷。实际上,我和几位同事正在闲暇之余研究,是否存在一类新的问题,可以通过神经网络过程来解决,并映射到存在于物理世界的自然系统中。

我认为这是一种非常有趣的新思考方式,在某种程度上与我对物理学的总体思考方式相契合。我认为信息是首要的,信息是宇宙中最基本的单位,比能量和物质更为基本,我认为它们都可以相互转换。宇宙是一个巨大的信息系统。当你将宇宙视为一个信息系统,P对NP问题就成了一个物理学问题,而一旦从信息的视角看待物理学,P对NP问题就成了最根本的问题之一。我相信,这个问题的答案会非常具有启发性。

DeepMind哈萨比斯:AI能建模所有进化而来的事物

莱克斯:让我们来谈谈P=NP问题,我们接下来要聊的可能有点疯狂,就像克里斯蒂安安芬森 (Christian Anfinsen)在他的诺贝尔奖演讲中也说了一些听起来很疯狂的话(注:他提出蛋白质的三维结构完全由蛋白质中的氨基酸序列决定),后来你和约翰江珀 (John Jumper) 一起解决了蛋白质折叠问题,并因此获得了诺贝尔奖。

你认为,对于我们正在讨论的这类问题,我们是否可以构建一个巨大的模型,通过多项式时间乃至常数时间的预计算,来解决理论计算机科学中的那些顶级难题?

哈萨比斯:我认为有一大类问题可以用这种方式来表述,就像我们做AlphaGo和AlphaFold那样:首先对系统的动态、系统的属性以及你试图理解的环境进行建模;然后,寻找解决方案或预测下一步就变得高效,基本进入了多项式时间的范畴。这就成了一个经典系统可以处理的问题,而神经网络本身就是一个经典系统,它运行在普通电脑上,本质上就是一台图灵机。

我认为这是最有趣的问题之一:这种范式究竟能走多远?你知道,我们已经证明、整个AI界也已经证明,经典系统、图灵机的能力比我们之前认为的要强得多。它们能做诸如模拟蛋白质结构,以及下围棋达到超越世界冠军水平之类的事情。很多人可能在10年、20年前认为这是几十年后的事情,或者可能需要某种量子机器、量子系统才能实现像预测蛋白质折叠结构这样的功能。所以我认为,我们甚至还没有真正触及所谓经典系统所能做到的事情的皮毛。基于经典计算机之上的神经网络系统构建的AGI将是这一理念的终极体现。这种系统的能力极限在哪里,是一个非常有趣的问题,并且与P=NP问题直接相关。

莱克斯:你认为什么可能会超出这个范畴?也许是涌现现象?比如在细胞自动机中,一些极其简单的规则就能涌现出惊人的复杂性。这会超出经典系统的建模能力吗?或者,即便如此,经典系统依然可以对其进行高效建模?

哈萨比斯:我认为这些系统恰好处于能力的边界上。大多数涌现系统,比如细胞自动机,都可以通过经典系统来建模,只需要对其进行正向模拟,可能就足够高效了。当然,还存在这样一个问题,比如在混沌系统中,初始条件至关重要,微小的差异就可能导致截然不同的最终状态,这类系统可能很难进行建模。

所以我认为这些算是开放性问题,但当你退后一步,回顾我们在系统方面所做的工作以及我们解决过的问题,再看看像视频生成中的Veo3、渲染物理效果和光照等方面的内容。你知道,这实际上是物理学的核心基础问题。

这挺有意思的。在我看来,这似乎在向我们揭示一些关于宇宙结构的基本原理。从某种程度上说,这就是我想要构建AGI的初衷,即帮助我们科学家回答像P=NP这样的终极问题。

DeepMind哈萨比斯:AI能建模所有进化而来的事物

莱克斯:经典计算机能够建模的范畴会不断超出我们的预期。AlphaFold 3在分子相互作用方面取得了令人惊讶的进展,AlphaGenome将基因编码映射到功能的能力也同样令人震撼。这有点像在研究涌现现象:当你以为存在天文数字般的组合选项,结果却发现总能找到高效的模型来解决。

哈萨比斯:因为存在某种结构,存在某种格局。在能量格局或其他你可以遵循的格局中,存在某种你可以遵循的梯度。而神经网络非常擅长的就是遵循梯度。所以,如果存在一个可供遵循的梯度,并且能够正确地设定目标函数,就不必用穷举处理那些复杂难题,我认为这可能就是我们几十年来一直天真地思考这个问题的方式。

有些问题,如果你只是列举所有可能性,是无法解决的。蛋白质大约有10种可能的折叠结构,围棋有10种可能的落点,这些数字远远超过了宇宙中的原子数量。那么,人们究竟如何才能找到正确的解决方案,或者预测下一步呢?事实证明这是有可能的。

自然确实能做到这一点,对吧?蛋白质确实这样折叠了。如果我们在某种意义上理解了物理学是如何做到这一点的,那么我们就一定能够模仿这个过程。如果我们能对那个过程进行建模,这个猜想在我们的经典系统上应该是可行的。

莱克斯:这是一个伟大的猜想。还有非线性动力学系统,尤其是那些涉及流体的系统。我最近和陶哲轩有过一次对话,从数学角度来看,这涉及到系统中一个非常棘手的方面,即系统中存在一些奇点,这些奇点会破坏数学原理。我们人类很难对高度非线性的动态系统做出准确的预测,但如你所说,我们可能会对经典学习系统在处理流体问题时的表现感到惊讶。

哈萨比斯:是的没错。我的意思是,流体动力学和纳维-斯托克斯方程被认为是在经典系统中非常困难的问题。它们需要大量的计算,你知道的,预测系统这类东西都涉及到流体动力学计算。

不过话说回来,看看像VO这样的我们的视频生成模型,它可以很好地对液体进行建模,好得令人惊讶。还有材质、镜面反射光,我喜欢那种有人制作的视频,里面有清澈的液体在压力作用下流动,然后被挤压出来。我过去常常编写物理引擎和图形引擎,在我早期从事游戏开发的时候,我深知这是多么痛苦的一件事,要构建能实现这些功能的程序是多么困难。然而不知怎的,这些系统只是通过观看油管视频就被逆向工程了。

所以我推测正在发生的事情是,它正在提取这些材料如何表现的潜在逻辑结构,也许存在某种低维流形。如果我们真的完全理解了底层的运行机制,就可以对其进行学习,这个概念可能适用于现实世界的大部分领域。

DeepMind哈萨比斯:AI能建模所有进化而来的事物

能够以连贯的方式预测下一帧,在某种程度上就是一种理解莱克斯:我一直关注着Veo。很多人都在强调它的不同特质,比如喜剧效果、表情包潜力,还有它以一种引人入胜又贴近现实的方式捕捉人类的超现实能力,再加上原生音频……这些都是Veo了不起的地方。而你提到的物理特性,虽然不完美,但已经相当出色了。真正有趣的科学问题是:为了实现这一点,它到底理解了我们世界的什么?

人们对此抱有怀疑态度,认为一个扩散模型不可能真正理解任何东西,但事实似乎并非如此。如果不理解,它又如何能生成那样的视频?这使得我们自己对“理解”这一概念的哲学认知被推到了风口浪尖。你认为Veo对我们的世界理解到了什么程度?

哈萨比斯:我认为,它能够以连贯的方式预测下一帧,在某种程度上就是一种理解,对吧?不是拟人化版本的,也不是对正在发生的事情的某种深刻的哲学理解我不认为这些系统具备那个但它们肯定已经对动态进行了足够的建模。它们能够相当准确地生成8秒连贯的视频,至少从肉眼来看,一眼很难分辨出问题。

想象一下,再过两三年它会是个什么样子。回顾我们的起点,也就是一两年前的早期版本,它们看起来多么不可思议,取得了多么惊人的进步。和你我一样,很多人都喜欢那些模仿脱口秀演员的视频,Veo确实很好地捕捉到了许多包括肢体语言在内的人类动态。但最让我印象深刻和着迷的是物理行为、光照、材质和液体效果。它能做到这一点真是很了不起,我认为这表明它至少对直观物理学有一定的概念。它理解事物直观上应该如何运作,像是一种对物理的直觉理解可能就像人类儿童理解物理的方式,而不是像一个真正能够拆解所有方程式的博士生。

莱克斯:这种直观物理学正是基础,也就是人们所说的常识。它真正理解了某些东西,这真的让很多人都感到惊讶。我一直认为,如果没有理解能力,就不可能生成那种程度的真实感,这让我大为震撼。有一种观点认为:只有拥有具身AI系统,即与现实世界互动的机器人,才能理解物理世界,这是构建对那个世界理解的唯一途径。但Veo3在直接挑战这个观点。

哈萨比斯:很有意思的是,即便到现在,如果有人问我五年、十年前的看法,我会说尽管我是这个领域的关键人物,但我还是会说你需要具身智能才能理解直觉物理学。就像如果我把这个玻璃杯从桌子上推下去,它可能会摔碎,里面的液体也会洒出来,对吧?我们都知道这些事情。

神经科学中有一个理论叫作“行动中的感知”,即你需要在现实世界中行动,才能真正深入地感知它。有很多理论认为,你需要具身智能、机器人技术或其他类似的东西,或者至少需要模拟行动,才能理解诸如直觉物理学之类的东西。但现在看来似乎可以通过被动观察来理解它,这让我颇为惊讶。

而且我认为,这再次暗示了现实本质中一些深层次的东西,这超越了它所生成的那些酷炫视频,下一阶段甚至可能是让这些视频具有交互性,让人们可以走进它们并在它们周围活动,这真的会让人惊叹不已。尤其是考虑到我的游戏背景,我想你知道的,我们正开始接近我所说的世界模型,即关于世界如何运转、世界的机制、世界的物理规律以及那个世界中事物的模型。这正是真正的AGI系统所需要的。

莱克斯:我必须和你谈谈电子游戏。最近你在X平台上越来越开心了,看到这一点真好。有个叫吉米阿普尔斯(Jimmy Apples)的人发推文说:“让我玩一个用我的 Veo 视频制作的电子游戏吧。谷歌什么时候才能做出如此出色的可玩世界模型?”然后您转发并评论说:“那该有多好啊。”

我想问的是,用人工智能构建游戏世界有多难?也许你能展望一下5年、10年后电子游戏的未来?你觉得那看起来像什么?

DeepMind哈萨比斯:AI能建模所有进化而来的事物

AI 中国网 https://www.cnaiplus.com

本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com

AI中国号...

关注微信公众号,了解最新精彩内容