2026年,人形机器人将迎来规模化量产的元年。最清晰的信号来自特斯拉,“金色擎天柱”Optimus Gen 3预计在2026年第一季度亮相,并计划在年底前建成产能高达100万台的生产线。马斯克曾多次表示,特斯拉未来约80%的价值来自这里,而非汽车。而“擎天柱”的攻关关键,正在于它的“手与前臂”。
灵巧手,从驱动方案上可分为三大路径,每一派都有各自的代表:
【连杆方案】充分展现了机械设计的美感,但通常意味着低自由度,但也有以韩国ILDA为代表的高自由度灵巧手。
【绳驱方案】优势是轻量化、自由度高、力量输出稳定。特斯拉的Optimus和在硅谷101 Alignment科技大会上表演开可乐罐的TetherIA灵巧手,都是绳驱方案中“单向拉绳”的代表选手;“双向拉绳”的代表则有被誉为“灵巧手皇冠明珠”的Shadow Robot和ORCA Hand。但这类方案也面临着走线延伸、材料蠕变、装配难度高等问题。
【直驱方案】优点在于方便精细控制。在行业展会上,Sharpa机器人凭着一双电机直驱灵巧手惊艳了众人,它一张一张地发扑克牌,拿着相机按下快门。劣势则是抗冲击力差,重量较大等。
本期《硅谷101》,泓君邀请了灵巧手模型算法方面和硬件方面的两位专家来自的亚马逊&前Meta机器人研究科学家齐浩之,TetherIA联合创始人陶一伟,一起聊聊灵巧手的现状,不同技术路线的特点,以及它在数据和算法上面临的挑战。
嘉宾们认为,对灵巧手头部公司来说,短期内针对单项任务打造成功一个的Demo并不难,真正的突破在于通用性与可扩展性。当算法能让机器人在短时间内学会开可乐、开门、拧螺丝等多样化的灵巧操作,才意味着灵巧手达到了类似ChatGPT的泛化突破阶段。
以下是这次对话内容的精选:
01
机器人灵巧手的能力与挑战
泓君:可能听众最迷惑,在很多Demo里,大家看到机器人可以去拿吸尘器、倒垃圾、烧水,甚至把盘子放在洗碗机里。我记得特斯拉有一年的发布会,擎天柱现场给大家倒酒,看起来这个手已经是很智能了。所以可不可以概括一下,现在机器人的手它能做哪些场景?它到了一个什么样的发展程度?
齐浩之:好的,我会认为,在遥操作的情况下,如果这个手的手指不需要很精细的动作,那它是一个比较简单的问题,比如说擎天柱倒酒,它就是把手放到出酒的那个把手上,往下压,这个在控制上是比较简单的。
与此相对的是,比如说今天我们想让一个机器人使用我们家庭里面的各种工具,比如说像螺丝刀、像剪刀这样的东西,在这个过程中我们的手指需要更加精细灵巧的操作,在这种情况下它的操作就会变得很难。以及我们需要它适应于千家万户不同的工具,这个难度就会呈指数级的上升。
“擎天柱”(Optimus)展示倒酒 图片来源:X
泓君:你刚刚提到了一个词是“精细运动”,还有一个我理解就是讲它的“泛化能力”,就是把它放在不同的场景中,在这两块是还需要加强的。
陶一伟:我稍微补充一点,刚才齐老师可能是从系统端的角度来讲这个问题,我可能更多地是从硬件这方面去切入。一是把现有的硬件方案做得更可靠,就是说让机器人能够在真实的环境中不停地长时间稳定的运行,并且和自然物体的交互,在长时间使用中不会损坏,这个事情实际上也没有完全地去做到。
并且这个硬件还是需要继续地去迭代,比如增加它的自由度,增加它的触觉传感。在这个过程中,由于系统复杂性的增加,它的可靠性又变成了更大的挑战。这也是从硬件端还需要我们去做的很多工作。
泓君:我给听众一个更加形象的例子,今年我们的年会上,Evan是在现场用机器人表演了开可乐的。其实在彩排的时候,它是一个不稳定的状态。比如说当时我也想去试让这个机器人打开可乐,但是我随意放了一个角度,这个时候可能需要机器人旋转一下才能把这个可乐打开。旋转一下这个动作,对机器人很难吗?
陶一伟:没错,这个是一个非常好的问题。首先开可乐本身,看似只要一双手,再加上一个指甲就可以实现,但是真正把它放到一个双臂机器人系统上,还是非常有挑战的工作,而我们也只是浅浅Demo了一下,未来还有非常多的工作,怎样能让整个事情变得完全自动地实现起来,并且成功率非常高地去实现,还是一个很长的路要走。
可乐怎么去对准这个事,精度是一个方面的问题,还要感知到现在可乐的状态,以及,人可以实现用任意姿态去抓起这一罐可乐,然后在单手调整可乐的角度,去达到最完美的状态,再让另一只手过来,又以一个最完美的状态把它拉开。这个机器人还是需要一个过程,包括手的硬件设计、控制这些方面的能力。
泓君:现在世界上有其他的公司,比如说它在自由度上做得更多的,他们能做到很好地去旋转可乐,然后再把它打开吗?
陶一伟:我觉得一些比较头部的公司去调整优化一下他们的硬件,包括去更多地在这方面下一些工夫,也是可以实现这么一个Demo的。但是目前说让它完全自主去做,我觉得可能还是没有看到哪一家可以去做到。这个可能更多的我要看看齐老师的观点。
泓君:对对,齐老师还有论文是讲用视觉跟触觉做手内旋转的,应该是这方面的专家了。
齐浩之:我的看法是,现在大家有不同的宣传策略,或者说他们的一些发展或者研究的侧重点。比如说,对于像陶总这样的硬件厂商,他们可能目标是为了证明他们的硬件非常地好用,无论是从机械结构上,或者说用它做的一些控制系统上,所以去展示一些很炫酷的Demo是非常好的。
与此相对的,还有一些做灵巧手的算法,但是不做灵巧手硬件的公司,他们可能就会比较少的展示这样方面的能力,而更多的是一种展示它的泛化性的能力。
就正如陶总所说,如果我们只优化这一个视频,那有一些头部的硬件厂商或者算法的研究院,他们可以做出来。但是从长远的角度来看,我们更应该专注的是什么样灵巧手的构型是能够适用于最多种类的任务,以及对于算法的接口最好。
图片来源:Figure
泓君:所以现在,浩之,根据你的研究,你觉得已经有公司它能做到我随意摆上去我们不说任何环境、任何场景我们就说这个可乐罐,它的瓶跟它的开口,不一定是正对着这个机器人的手的,它能把它打开的这样的一些公司吗?
齐浩之:我觉得现在是没有这样的公司的。如果一个公司他们今天想要完成这个任务,他们可能会从技术上花几个月去做到这件事情,但是他们可能需要花费非常多的资源和非常多的时间,可能就是出于对他们本身公司路线的考量,他们不会去做这件事情本身,而更倾向做一些算法上的改进,让他能够缩短以后想要做这件事情的时间。
本文网址:




