来源:2025-07-07 08:04:17 热度:

特斯拉、英伟达机器人背后的“卖水人”

导读:出品|虎嗅科技组作者|陈伊凡编辑|苗正卿头图|AI生成“具身智能,还处于乱世。”这是与CyberOrigin(下称:赛源)创始人殷鹏见面时,他对我说的第一句话。赛源是特斯拉、英伟达等公司在人形机器人领域的合作商之一。而其所在的珠三角,是世界机器人供应链的核心,那是殷鹏真正的“战场”全球任何一家机器人相关的公司,都必须到珠三角寻找硬件供应链,如今,还包括数据。在 ......

特斯拉、英伟达机器人背后的“卖水人”

出品|虎嗅科技组

作者|陈伊凡

编辑|苗正卿

头图|AI生成

“具身智能,还处于乱世。”

这是与CyberOrigin(下称:赛源)创始人殷鹏见面时,他对我说的第一句话。赛源是特斯拉、英伟达等公司在人形机器人领域的合作商之一。而其所在的珠三角,是世界机器人供应链的核心,那是殷鹏真正的“战场”全球任何一家机器人相关的公司,都必须到珠三角寻找硬件供应链,如今,还包括数据。在机器人圈,这些为特斯拉、英伟达人形机器人提供关键训练数据的公司,往往被视为巨头背后的“卖水人”。

和此前十余年“卖水人”多为生产制造环节相关公司不同,AI纪元下,数据类“卖水人”正在异军突起。一批诸如赛源,开始聚焦于提供机器人与真实物理交互的数据。以殷鹏的公司为例,它的客户名单中,包括英伟达、特斯拉、OpenAI的人形机器人;也包括谷歌和斯坦福李飞飞的机器人模型训练实验室,也是赛源能够与其他机器人数据公司拉开差距的地方。

但对于这些“卖水人”而言,2025年以来警报声不时响起。

近期,据媒体报道,特斯拉被曝暂停人形机器人的研发,调整设计。殷鹏在四月份已知道这个消息,暂停的主要原因,仍然在数据问题特斯拉需要更多机器人数据以训练模型。这对于赛源这样的数据提供商而言,是个好消息,真实物理交互数据,而非本体,正在成为这场具身智能军备竞赛中的核心弹药“机器人是引擎,数据是石油。没油,发动机运不了。” 殷鹏说,“我们需要成长为特斯拉最大的数据端供应商。”

当虎嗅于六月在上海见到殷鹏时,他穿了一身运动打扮,黑色迪桑特polo衫和运动鞋,倔强的刘海,时不时在说话间甩到前额,他再利落地把它撇开。见面时,他正经历一场短期出差,还带有一丝风尘仆仆,他需要在晚上飞回深圳,也是大量“卖水人”的基地所在。

作为赛源的CEO,殷鹏的另一个身份是香港科技大学助理教授,他曾师从SLAM和规划界传奇人物,JiZhang教授,他开创了实时 3D 激光雷达 SLAM 的先河,并将其商业化。这一技术,是机器人、自动驾驶车辆的“导航大脑”,如果没有它,扫地机器人、车辆自动驾驶将无法存在。而殷鹏在此后曾深度参与NASA(美国国家航空航天局)、DARPA(美国国防部高级研究计划局)和英伟达的课题,其第一篇国际顶刊文章,成为NASA火星降落的参考方案之一,殷鹏也是NASA火星登陆项目的高级顾问;在DARPA的地下机器人挑战赛上,殷鹏和团队开发出了首个超大规模多机协作定位建模系统,这个成果也发了第二篇国际顶刊论文。

特斯拉、英伟达机器人背后的“卖水人”

图为殷鹏在实验室 图片由殷鹏提供

在与虎嗅的交流中,殷鹏不断提及马斯克特斯拉的创立者,他强调“第一性原理”的方法论,他读马斯克的自传,拆解这位硅谷“钢铁侠”的创业逻辑、商业故事,他称马斯克为“老马”,“第一性原理非常可怕,他能把一件在旁人看来不可能实现的事情变成可能。”殷鹏说。

2024年,殷鹏选择创立赛源。在创业之初,殷鹏请教过不少前辈,其中包括香港科技大学教授李泽湘与高秉强,前者建议充分利用大湾区的资源。后者则建议做海外市场,以及思考C端的生意。高秉强不仅是导师,也是殷鹏最早的天使投资人,这位在硬科技领域投资了不少上市企业的前辈告诉他,当下时点,找一个切口去创业,再层层迭代。

面对虎嗅,殷鹏分享了自己对具身智能的看法和创业的想法,从学者转化为企业CEO,殷鹏很坚决,因为学术已经很难满足他需要的资源,他需要到业界、到一线去获得更快更真实的数据反馈。这也是为什么他没有选择做CTO,而直接选择做CEO的原因。

“如果认准了身位,那就义无反顾。”殷鹏说。

机器人的ChatGPT时刻

虎嗅:很明显的行业趋势是,ChatGPT出现之后,出现了Emboied AI的概念,随即特斯拉、英伟达、亚马逊等大公司开始发布其各自的通用人形机器人计划。这个飞跃在过去机器人历史中极为少见。Transformer架构究竟做了什么,让这个行业出现这样质的飞跃?

殷鹏:Transformer架构最大的提升在于发明了一种可以Scaling Law的模式。过去我们强调强化学习的效果能达到多少,训练数据集和测试数据集相差不大,因为场景很多,一定无法涵盖所有场景,那么模型要不断重新训练。但这种基于监督学习的方式,在未知领域发展很慢。Transformer架构可以输入足够多的数据,在足够多的数据下再进行微调和提升。

这个策略架构最早是谷歌提出来,但真正用起来的是特斯拉的那群人,将Transformer架构运用在自动驾驶上。因为研究人员发现,Transformer的核心是当数据量到一定数量级时,会出现涌现。这让具身智能在空间理解方面有了很大进步。

首先,它实现了空间理解能力的质变:传统强化学习在有限场景中只能进行局部探索,而借助Transformer的自注意力机制,机器人能够对整个三维空间进行全局感知,并通过同时处理视觉、语言与动作等多模态信息,形成统一的空间认知模型;其次,它在泛化能力上取得了突破,传统方法在训练集和测试集场景相似时表现尚可,但一旦场景变化就需重新训练,而Transformer模型通过大规模数据训练后,能够在未见过的场景中自主推理与适应;第三,这一架构推动了从规则驱动到数据驱动的范式转变,彻底告别了基于IF-ELSE的人工规则系统,实现了从感知到动作的端到端学习,极大地减少了中间环节的信息损失。

此外,Transformer擅长时序建模,其注意力机制让机器人不仅理解动作间的先后关系,还能进行复杂动作序列的长期规划;更重要的是,它支持多任务学习:在世界模型中,视觉、语言与操作被整合于同一模型;在分层架构中,上层负责高层推理与决策,下层则承担精确执行,两者兼顾;在数据效率方面,尽管依然需要大量数据,但与传统方法相比,Transformer能用更少的任务特定示教数据完成复杂任务,并将学到的知识迁移到相关任务;同时,其在线学习能力使机器人在执行过程中不断学习与调整,并对光照、物体位置等环境变化具有更高的鲁棒性;最后,它实现了语言理解与执行的统一,不仅能理解复杂的自然语言指令,还能结合视觉信息进行多模态推理并转化为具体动作。

这种从“专用AI”向“通用AI”的转变,让机器人从只能执行预设任务的工具,进化为具备环境理解、技能学习与新场景适应能力的智能体,这一技术进展正是“通用机器人成为可能”的根本驱动力,也是当前人形机器人热潮的核心所在。

虎嗅:你刚才说最早将Transformer发扬光大的是特斯拉的无人车,让大家看到一个重要的实现路径,可以展开说说吗?

殷鹏:特斯拉无人车将Transformer"发扬光大"的关键在于他们率先将Transformer架构应用于自动驾驶的视觉感知系统,实现了从多个摄像头输入到驾驶决策输出的端到端学习。

这打破了传统自动驾驶依赖激光雷达和复杂传感器融合的技术路线,证明了纯视觉方案的可行性。特斯拉拥有全球最大的自动驾驶数据收集网络,每天有数百万辆车在路上收集数据,他们率先验证了Transformer架构在大规模真实世界数据下的"涌现"效应,当数据量达到一定规模时,模型性能会出现质的飞跃。

特斯拉的Transformer模型能够同时处理8个摄像头的实时画面、车辆运动轨迹和历史状态、以及3D环境理解和路径规划,这种统一的多模态处理能力为后来的具身智能提供了重要借鉴。

更重要的是,特斯拉证明了Transformer不仅能做感知理解环境,还能做决策规划路径和控制车辆,实现了完整的感知-决策-执行闭环,这为机器人的"大脑"设计提供了重要范式。通过车辆在真实道路上的行驶数据,特斯拉实现了大规模的自监督学习,让模型能够从未标注的数据中学习驾驶技能,这种方法后来被广泛应用于机器人的动作学习中。

另外,还将其工程化,实现了在车载硬件上的实时推理,这为具身智能的实际部署提供了重要经验。

所以特斯拉的成功让整个AI界看到了一条重要路径:通过大规模真实世界数据训练Transformer模型,可以实现从感知到行动的端到端智能。这直接启发了谷歌的机器人项目开始大规模收集机器人操作数据,OpenAI将类似架构应用于机器人控制,各大科技公司开始重视具身智能的数据收集。

所以,特斯拉实际上开创了"用数据驱动的AI来解决物理世界交互问题"的先河,这正是当前具身智能热潮的技术根源。他们证明了Transformer不仅能处理语言,更能处理复杂的时空序列数据,为机器人的"ChatGPT时刻"奠定了基础。

虎嗅:目前全球机器人模型主要来自几家实验室,包括谷歌和斯坦福李飞飞实验室,这些不同的模型技术路线有什么不同以及优劣之分?

殷鹏:目前,模型体系大致分为两类,很难简单评判优劣。第一类是“世界模型”,将视觉、语言与操作等多种能力整合进一个统一模型中进行训练。例如,李飞飞实验室的 Open VRA1.0 和谷歌的 PaLM。这类模型的优点是收敛速度快,适用于在厨房、浴室、卧室等特定场景中采集数据并优化机器人性能。但其缺陷在于泛化能力弱。一旦超出训练场景(如机器人从一个房间移动到另一个),就需重新采集数十小时的数据进行训练,否则性能会大幅下降。例如 SLAM(同步定位与地图构建)对光照和场景元素极为敏感,细微变化就可能导致如抓取等操作失败。因此,该类模型更适合简单场景的演示,难以应对如工厂等复杂、动态环境。

第二类是分层混合架构模型,代表如 Figure.AI。该模型结构类似于人脑与小脑的分工:大脑部分负责文本和视觉推理,解决“去哪里”“拿什么”的逻辑问题,如根据卧室或厨房的图像定位目标与制定抓取策略;小脑部分控制机器人本体的具体动作,如行走、开冰箱门、抓取鸡蛋等,需靠大量数据训练实现高精度控制,例如调整机械手的力度和手指分布。

这类模型的优势在于分工明确:上层负责空间逻辑与决策,下层执行精细动作,尤其在完成“最后一厘米”的操作时,能精准控制执行细节。

以特斯拉等公司的机械手为例,通常具备19至20个自由度,因搜索空间庞大,必须通过大量数据学习来优化动作路径。这种架构更适用于环境复杂、频繁变化、泛化要求高,且对操作精度极高的场景,如精细抓取。Figure 和特斯拉走的是这条路线。

李泽湘老师(虎嗅注:香港科技大学教授,固高科技董事长,松山湖国际机器人产业基地发起人)和高秉强老师(虎嗅注:香港科技大学荣休教授、工学院原院长,全球知名微电子专家,投资了思特威、博通集成、澜起科技等公司)。

本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com

AI中国号...

关注微信公众号,了解最新精彩内容