AI中国网 h ttps://www.cnaiplus.com
导读:宇树科技王兴兴:机器人目前最大的问题在于模型问题文|涵清编辑|赵阳2025年8月9日,在世界机器人大会上,宇树科技创始人王兴兴发表了一场引人深思的演讲。作为中国乃至全球机器人领域的先行者,王兴兴从一名学生时期的机器人爱好者,成长为一家拥有全球影响力的机器人公司的掌舵人。他的分享不仅回顾了宇树科技从零到一的创业历程从那台仅用一两万元人民币打造、却开启了低成 ......宇树科技王兴兴:机器人目前最大的问题在于模型问题文|涵清
编辑|赵阳
2025年8月9日,在世界机器人大会上,宇树科技创始人王兴兴发表了一场引人深思的演讲。
作为中国乃至全球机器人领域的先行者,王兴兴从一名学生时期的机器人爱好者,成长为一家拥有全球影响力的机器人公司的掌舵人。
他的分享不仅回顾了宇树科技从零到一的创业历程从那台仅用一两万元人民币打造、却开启了低成本高性能四足机器人先河的初代样机,到如今涵盖四足与人形、遍布消费级与工业级的多元化产品矩阵更深入地剖析了他对整个机器人行业,尤其是具身智能未来发展的独到见解。
划重点
商业开端:宇树科技的起点,源于创始人王兴兴在学生时代仅用一两万元打造的四足机器人样机,这笔“第一桶金”也开启了低成本高性能机器人的先河。
战略转向: 曾“坚决反对”做人形机器人,但市场的巨大需求和AI技术的突破(以ChatGPT为代表)让公司果断入局,并迅速成为该领域的全球出货量领导者。
核心瓶颈: 当前限制机器人大规模应用的最大瓶颈不是硬件,而是“具身智能AI还完全不够用”,机器人领域最大的问题不是数据而是模型的问题。
未来之路: 王兴兴认为机器人的“ChatGPT时刻”最快一两年,慢的话三到五年。其关键在于端到端的通用AI模型和分布式的算力架构,而非单纯依赖机器人本体的计算能力。
以下为发言完整实录(为方便理解,对内容有所删减)
一、为造机器人,我曾想过辍学大家下午好,非常荣幸能在这里做一个分享。我是宇树科技的创始人王兴兴。我们公司成立于2016年,到现在已经有九年时间了,时间还是比较长的。我们最早专注于做高性能四足机器人,最近几年也开始研发高性能的人形机器人,目前已经形成了相对丰富的产品布局。
简单介绍一下我的背景。最早在2013年到2016年我还在读书期间,做了一款名为 XDog的机器人。这款机器人在当时非常有开创性,基本上开启了全球范围内低成本、高性能四足机器人技术方案的先河。在我之前,业界和学界主流的方案大多采用工业电机和工业伺服驱动器,不仅成本极高,而且尺寸巨大,非常不便于使用。
2013年,我萌生了新的想法,当时甚至考虑过要不要辍学创业毕竟这个概念在当时非常时尚。但回头一想,那时的我只有一个想法,产品没有落地,也没有任何资源,所以并不现实。于是,在2013年到2016年间,我心无旁骛地把这款机器人做了出来。大家可能想象不到,整个研发投入大概只有一到两万元人民币。
2015年,我用这台机器人去上海参加了一个比赛,获得了总分二等奖,拿到了一笔奖金。所以,这款机器人也算是我赚到的第一桶金,成为了我们公司2016年成立时的启动资金。直到今天,很多人形机器人所采用的技术方案,都与我当时的设计有诸多相似之处。
二、从“坚决反对”到“全球销冠”:我们的人形机器人之路目前,我们公司的四足机器人主要有三款。一款是比较小型的Go2,这款机器人在2023年发布时就集成了大语言模型,功能非常健全,标配了3D激光雷达,并内置了各种实用功能。Go2是过去几年乃至今年,在全球范围内自主品牌机型中出货量最大的一款机器狗。
另一款是我们发布已有一两年的B2机器人,它主要面向工业应用。因为我们始终希望机器人能真正地去“干活”,深入到工业等各种真实场景中。所以,B2的持续负载能力和续航能力至今都非常强劲。
接下来谈谈人形机器人。在很多场合我都说过,我们公司早些年是坚决反对做人形机器人的。为什么?因为在2009年,我读大一的时候,做的第一款机器人就是一个小型的双足人形机器人,成本大概是两百多元。那时我就发现,在当时的技术条件下,做人形机器人不仅技术难度极高,商业价值也非常有限。因此,我们公司成立后的很多年里,一直没有涉足这个领域。
然而,从2021年到2022年,全球人工智能技术发展迅猛,特别是以ChatGPT的出现为标志性时刻,AI技术取得了显著的进步。同时,以埃隆马斯克为代表的企业家和顶尖公司对这一领域倾注了极高的关注,也带动了全球大众对人形机器人的热情。
最直接的一点是,大家可能想不到,在2022年,当我们公司还完全没有开始研发人形机器人时,就已经有非常多的客户直接找上门来下订单。我们什么都还没有,但客户就愿意付定金给我们。这直接促使我们在2023年初正式启动了人形机器人的项目。
我们花费了半年多时间,做出了第一款人形机器人。作为第一代产品,它的外观可能相对粗陋,但动力性能直到今天都非常强劲。比如今年登上春晚的就是这款机器人。下个礼拜在北京有一个机器人比赛,它也会登场,大家可以关注一下。
去年,我们发布了第二款人形机器人G1。这款机器人也极具代表性,体现在哪里呢?自从G1发布后,从去年下半年到今年,大家可以看到很多其他企业新推出的人形机器人,在整体架构上都和G1非常相似。G1的动力性能和灵活性都非常好,去年发布时,低配版价格大约是9.9万元人民币,非常有竞争力。因此,G1在去年和今年,也基本是全球人形机器人领域出货量最大的一款产品。如果大家平时刷短视频,可以看到很多我们的客户在自发地进行直播,几乎每天都有,大家可以看到这款机器人的身影,它确实很有竞争力。
就在前一两周,我们又发布了新款人形机器人R1。它最大的特点就是性价比更高,当然尺寸也更小一些,身高大约1.2米,最低配的价格做到了3.99万元人民币。R1还有一个特点,就是我们给客户留下了很大的外观定制空间,大家可以在上面进行改装或涂装,打造自己喜欢的造型。我们发现,用户其实很喜欢为自己的机器人做各种打扮。我相信,R1在今年和明年,会成为大家在全球范围内非常熟悉和喜爱的产品。我们的展位上就有,大家有兴趣可以去看一下,但目前量产还未完成,发货可能还需要一些时间。
三、春晚、格斗与未来:不止于表演的机器人除了人形机器人,前段时间我们也发布了一款新的四足机器人。它最大的特点是自重与负载能力的平衡做得非常好。它自重约35公斤,一个成年男性可以很方便地搬运。但它的持续负载能力非常强,可以达到25到30公斤,空载续航时间超过6小时,续航里程超过20公里。它的负载和续航能力,以及造型和感知能力都非常出色,发布后受到了大家的广泛喜爱。这款机器人同样是工业级防尘防水,我们希望能有更多的工业场景落地。
过去一两年,我们在人形机器人上开发了很多复杂的动作和算法,我们把这些算法直接应用到了机器狗上,使得我们轮足式的机器狗也获得了极大的灵活性提升。我们的工业级产品,过去几年已经在电网、工厂等很多场景实现了24小时不间断运行,包括自动充电、自动巡逻,以及对图像、气体等进行自动识别。
很多人可能以为我们公司只是让机器人做一些表演或者格斗,但其实我们一直非常重视让机器人去“干活”这件事。无论是四足还是人形,我们公司的核心目标始终是让机器人真正地去解决实际问题。我们也为此做了大量的数据采集和开源工作,大家如果关注我们的代码仓库,会发现我们每隔一两个月就会公开一些算法和数据。
我们机器人的核心零部件,从2016年开始就坚持自研,包括关节电机、减速器和部分传感器。比如我们自研的第二代3D激光雷达,视场角达到了90多度乘以360度,非常大,而单个零售价仅为1000元人民币左右,并且标配在我们最低配的机器狗上。虽然便宜,但它的精度非常好,能达到2到3厘米,室内外通用,非常适合低速的清洁或物流机器人,可以极大地降低整机成本。
最近半年多,全球范围内的机器人AI技术进步飞快。比如我们的G1,今年1月份的视频里,它跑步还显得有些僵硬。但最近几个月,通过OTA升级,它的跑步动作已经丝滑了很多,并且支持在上下坡、石子路等复杂地形上跑步,这个功能已经开放给了所有客户。
一个非常典型的例子就是今年春晚的机器人舞蹈。这个节目已经成为了中国科技与传统文化结合的一个文化符号,这是非常不容易的。这个项目是和张艺谋导演合作的,像转手绢、抛手绢这些动作都是张导提出来的,我们负责技术实现。项目最大的挑战并非单台机器人跳舞,而是16台机器人全自动、全自主地变换队形完成表演。它们通过头部的3D激光雷达感知环境,实现自主走位和舞蹈,音乐一响,全流程自动进行,中间甚至无法人为中断。最终的效果非常好,超过了所有人的预期。
大家可能会好奇,为什么春晚用的是我们老款的黑色机器人?原因很简单,新款G1身高只有1.3米多,在舞台上显得有点小,而老款尺寸更大,舞台效果更好。还有一个原因,大家现在看到的很多更丝滑的舞蹈动作,所依赖的技术是我们今年2月份才做出来的,在1月份时根本无法实现。
我们现在的技术,已经可以学习理论上任何的动作,无论是功夫还是舞蹈。但老一代的技术有个缺点:动作序列是固定的。你需要先采集数据,训练AI,再部署到机器人上,整个动作序列无法调整或中断。所以,我们最新的技术体现在格斗上。格斗要求动作序列能够随机、自由地组合,比如“1-2-3”之后,可以是“2-3-1”或“3-2-1”,并且切换时要非常丝滑。更关键的是,它需要极强的抗冲击和抗干扰能力。舞蹈表演没有外部干扰,但格斗时充满了剧烈的物理冲击。大家如果看我们机器人的腿部,会发现铝合金的腿上有很多凹坑,可见打击力度之大。
四、机器人领域最大的问题是模型问题首先,关于机器人本体,很多人有个误区,认为机器人没有大规模应用是因为硬件不够好或成本太高。其实,目前无论是人形机器人的整机还是灵巧手,硬件在技术层面上可以说是“够用”的当然还不够完美,还需要持续迭代和解决量产的工程问题。但从AI的角度看,硬件是够用的。当前最大的瓶颈,也是限制机器人大规模应用的最关键因素,是具身智能AI还完全不够用。
现在的感觉,有点像ChatGPT诞生前的一到三年。业界已经看到了大致的方向和技术路线,但还没有人能真正做出来。什么时候是机器人的“ChatGPT时刻” ?我觉得,如果有一天,我带一个人形机器人来到一个它从未见过的会场,我跟它说“帮忙把这瓶水带给那位观众”,它能顺畅地自主完成;或者我说“帮忙把这个陌生的房间整理一下”,它也能自主完成。到那个时候,具身智能的临界点就到来了。快的话,未来一到两年,慢的话三到五年,是很有可能实现的。
那到底是模型问题还是数据问题?我反而觉得,目前全球范围内对机器人数据问题的关注度有点太高了。现在最大的问题,其实是模型的问题。 在具身智能领域,模型架构还不够好,也不够统一。大家都在谈数据,但很多时候你采集了数据,却发现模型用不起来。所以,大家对模型本身的关注,反而有些不足。
现在比较火的VLA模型(视觉模仿模型),在我看来是一个相对“傻瓜式”的架构,我个人对其持保留态度。它在与真实世界交互时,采集数据的质量是不太够的。一个自然的想法是在VLA模型上加入强化学习(RL)训练,但根据我们的尝试,VLA + RL 这个方案依然不够,模型架构本身还需要再升级。
前几天谷歌发布了他们的新一代视频生成模型,或者说世界模型。去年OpenAI发布Sora时,大家就有一个很自然的想法:如果我能让视频模型生成一个“机器人整理房间”的视频,那我是不是能用这个模型直接驱动真实的机器人去干活?我们去年就做了这个尝试。我们用一个预训练的视频生成模型进行二次训练,让它先生成一个机器人动作的视频,然后再用这个视频去控制机器人。这个技术路线是可行的,我认为它收敛的概率可能比VLA模型更大。
其次,我想提一下机器人运动控制领域的RL scaling law(缩放定律)问题。现在我们训练机器人做一个新舞蹈或新任务,每次都几乎是从头开始。我们希望的是,每次学习新技能时,都能在原有基础上进行,学习速度越来越快,效果越来越好。但在整个行业,机器人的强化学习 scaling law 还没有人做得很好,这是一个非常值得探索的方向。
最后,展望未来二到五年,最重要的无疑是端到端的具身智能AI模型。其次是更低成本、更高寿命的硬件,这方面的工程挑战依然是巨大的。另外,还需要低成本、大规模的算力。但我认为,未来的算力很可能是分布式的。因为机器人本体的功耗有限,不可能部署大规模算力。同时,机器人执行任务时对通讯延迟要求极低。所以,我设想未来在一个工厂或者一个小区,会有一个局部的、分布式的集群算力中心,服务于这个区域内的所有机器人,这样既能保证低延迟,又能保障数据安全,用户购买机器人时也无需为算力建设支付高昂成本。
机器人和AI的发展,一直是一个全球共创的过程。无论是中国企业,还是像英伟达、苹果、谷歌、OpenAI这样的美国公司,大家都在为推动这个领域的发展做出巨大贡献。AI领域的创新永远伴随着随机性,永远需要更多聪明的年轻人参与进来。我相信,未来的突破依然需要我们全球协同,共同创造。
AI中国网 h ttps://www.cnaiplus.com
本文网址: