当你告诉朋友"把桌上的红色苹果放到篮子里"时,朋友能立刻理解你的意思,知道要找哪个苹果,明白篮子在哪里,然后准确地完成这个动作。但对于机器人来说,这却是一个极其复杂的挑战。如何让机器人既能理解人类的语言指令,又能在三维空间中准确定位物体并执行动作,一直是人工智能领域的难题。
上海人工智能实验室的研究团队提出了一个突破性的解决方案InternVLA-M1框架。这个框架的核心理念是"空间引导的视觉-语言-动作训练",简单来说就是让机器人先学会"在哪里行动",然后再学会"如何行动"。就像教孩子做家务时,我们首先告诉他"苹果在桌子上,篮子在椅子旁边",然后再教他"轻轻地拿起苹果,慢慢放进篮子"。
研究团队构建了一个包含超过300万个多模态训练样本的庞大数据集,其中230万个专门用于空间推理训练。他们还开发了一个能够自动生成24.4万个可泛化抓取-放置场景的仿真引擎。这个框架采用了独特的双阶段训练策略:第一阶段专注于空间理解能力的培养,第二阶段则将这种空间理解能力转化为具体的机器人控制能力。
实验结果令人振奋。在SimplerEnv Google Robot测试中,InternVLA-M1比没有空间引导的版本提升了14.6%的成功率。在WidowX平台上提升了17%,在LIBERO Franka测试中提升了4.3%。在包含200个任务和3000多个物体的大规模仿真测试中,平均改善了6.2%。更令人印象深刻的是,在真实世界的杂乱环境中,该系统在未见过的物体和新配置上取得了20.6%的提升,在长时程推理密集型场景中,性能超越现有方法10%以上。
双系统架构:让机器人既会思考又会行动
InternVLA-M1的设计灵感来源于人类认知的双系统理论。当我们要完成一个复杂任务时,大脑中有两套系统在工作:一个是负责深度思考和规划的"慢系统",另一个是负责快速执行的"快系统"。
在InternVLA-M1中,研究团队将这一理念转化为了具体的技术实现。系统包含一VLM规划器作为"慢而可靠的系统2推理器",和一个动作专家作为"快速的系统1控制器"。当机器人接收到指令时,VLM规划器首先像一个经验丰富的管家一样,仔细分析任务要求,识别关键物体的位置,制定详细的行动计划。然后,动作专家接过这些高层次的计划,快速将其转化为精确的机器人控制信号。
这种架构的妙处在于明确分工。VLM规划器专注于理解和推理,它不需要担心具体的关节角度或力度控制,只需要告诉动作专家"去抓桌子左边的红色杯子,然后放到右边的蓝色托盘上"。而动作专家则专门负责执行,它知道如何控制机器人的每个关节,如何调整抓取力度,如何规避障碍物。
为了让这两个系统能够有效协作,研究团队设计了一个巧妙的"空间提示"机制。当给机器人下达任务指令时,系统会自动在原始指令后添加一些空间相关的提示,比如"找出如何执行这个任务,然后定位需要的关键物体"。这样做的目的是显式激活在空间基础训练阶段学到的空间感知能力,确保规划器能够充分利用其空间推理能力。
整个系统共包含约41亿个参数,在单张RTX 4090显卡上运行,内存占用约12GB。通过FlashAttention技术,VLM组件达到了约10帧每秒的推理速度,动作执行还可以通过分块处理和KV缓存进一步加速。
空间引导训练:教会机器人"看懂"空间关系
传统的机器人训练方法往往将语言理解和动作执行混在一起学习,就像让一个人同时学习外语和驾驶技术。而InternVLA-M1采用了一种更加科学的分阶段学习策略,首先让机器人掌握空间理解能力,然后再将这种能力应用到具体的动作控制中。
第一阶段被称为"空间基础预训练",就像给孩子上几何课一样。研究团队精心构建了一个包含230万个空间推理数据的训练集,涵盖了四种核心的空间任务:物体检测、点定位、轨迹预测和多模态理解。这些任务看似简单,实际上是机器人空间智能的基础。
在物体检测任务中,系统学会识别图像中的各种物体并用边界框标出它们的位置,就像给照片中的每个人脸画框一样。点定位任务则更加精细,要求系统能够准确指出物体的特定部分,比如"杯子的把手在哪里"或"书本的左上角在哪里"。轨迹预测任务训练系统理解物体的运动路径,这对于抓取和放置动作至关重要。
第二阶段是"空间引导的动作后训练",这时VLM规划器和动作专家开始协同工作。在这个阶段,系统不再仅仅学习识别空间关系,而是学习如何将空间理解转化为实际的机器人动作。训练过程采用了两种策略:空间提示和协同训练。
空间提示就像给机器人的指令加上了"空间眼镜"。比如原始指令是"收拾桌子",系统会自动将其扩展为"收拾桌子。识别所有相关物品及其与容器的空间关系。"虽然VLM不会显式回答这个辅助提示,但这种提示的存在提高了系统在操作任务中的空间感知能力和泛化性能。
协同训练则确保空间理解能力和动作执行能力能够相互促进。训练过程在机器人轨迹数据和空间基础数据之间交替进行。对于轨迹数据,VLM骨干网络和动作专家都通过预测噪声的L2损失进行优化。对于空间基础数据,只有VLM骨干网络通过下一个令牌预测进行更新。这种协同训练方案既强化了空间推理能力,又支持了高效的端到端优化。
大规模数据构建:用仿真世界训练真实技能
要训练一个真正智能的机器人,需要大量多样化的训练数据。就像学习驾驶需要在各种路况下练习一样,机器人也需要在各种环境和任务中积累经验。但在现实世界中收集如此大量的机器人操作数据既昂贵又耗时,因此研究团队构建了一个高度逼真的仿真环境。
这个仿真系统建立在GenManip和Isaac Sim平台之上,拥有一个包含14716个物体、200多张桌子、80多种光照条件和1676种纹理的庞大资源库。这些资源的多样性确保了生成数据的丰富性,就像一个巨大的虚拟世界,里面有各种形状、大小、颜色和材质的物品。
数据生成过程采用了物理学和渲染分离的设计。规划器记录结构化的场景和轨迹数据,包括关节状态、物体位置和动作信息,然后由渲染器在随机化的光照、材质和视角下重放这些数据。这种分离设计大大提高了效率,避免了失败情况下的计算浪费。
为了确保生成的任务都是可执行的,系统还包含了严格的验证机制。每个候选轨迹都要在物理仿真中执行一次进行闭环验证,然后场景图验证器检查任务目标是否达成。只有既能成功执行又能通过验证的轨迹才会被接受,确保所有收集的数据都是物理上可行且任务完整的。
除了基础的抓取和放置任务,研究团队还专门构建了244K个封闭循环样本的InternData M1数据集。这个数据集采用与真实评测相同的物体集合和位置分布,通过可扩展的数据管线处理。每个合成样本都经过严格验证以确保正确性和一致性。为了进一步增强视觉多样性,系统还引入了光照条件和纹理映射的受控随机化。
为了支撑VLM预训练的大规模端到端数据生成,研究团队构建了一个高度可扩展、灵活且全自动化的仿真管线。这个管线能够从随机化的物体布局和光照条件生成多样化的操作轨迹。通过利用物体姿态、物体网格和机器人状态等特权仿真信号,系统能够通过场景图求解器快速生成场景布局,并基于物体网格计算候选抓取点。
全面评估:从仿真到现实的卓越表现
为了全面验证InternVLA-M1的性能,研究团队设计了一系列从简单到复杂、从仿真到现实的评估实验。这些实验就像给机器人安排了一系列"考试",从基础的物体抓取到复杂的长时程任务规划。
在SimplerEnv基准测试中,InternVLA-M1展现了出色的性能。这个测试平台专门设计用来检验机器人对视觉外观变化的鲁棒性,包括WidowX和Google Robot两个平台,涵盖短时程原子任务,以及光照、颜色、表面纹理和摄像头姿态的受控变化。在Google Robot视觉匹配任务中,InternVLA-M1达到了80.7%的平均成功率,比基线版本提升了14.6%。在视觉聚合任务中达到76.0%,提升了12.5%。在WidowX平台上,平均成功率达到71.7%,提升了17.0%。
LIBERO基准测试则考验机器人在更复杂场景中的表现。这是一个基于Franka机械臂的语言条件操作测试套件,包含多样化的场景和专家演示。测试分为四个子集:LIBERO-Spatial(相同物体,不同空间布局)、LIBERO-Object(固定布局,不同物体)、LIBERO-Goal(固定物体和布局,不同目标)和LIBERO-Long(更长的任务,跨越多个物体、布局和操作)。InternVLA-M1在所有子集上都表现优异,平均成功率达到95.9%,特别是在空间推理和长时程任务上优势明显。
为了测试真实世界的泛化能力,研究团队构建了一个包含200个抓取-放置任务的大规模仿真评估环境。这个环境中的每个任务操作的物体都互不相同,包括背景物体在内总共覆盖了超过3000个物品和容器。评估分为四种设置:分布内、未见物体、新背景和未见指令。结果显示,配备中期训练的InternVLA-M1在所有设置下都持续优于GR00T N1.5,平均增益为6.2%。
在真实世界的杂乱场景抓取-放置任务中,InternVLA-M1展现了强大的指令跟随能力。实验使用Franka Research 3机械臂配备Robotiq 2F-85夹爪,设置两个Intel RealSense D435摄像头进行RGB视觉输入。测试涵盖了23个已见物体和5个已见容器的分类任务。通过与合成数据的协同训练,InternVLA-M1在未见物体和新配置上实现了20.6%的成功率提升。
长时程推理:让机器人具备规划和适应能力
InternVLA-M1的一个突出优势是其在长时程推理密集型任务中的表现。这类任务不仅要求机器人能够执行单个动作,更需要它们能够制定计划、监控进度、适应变化,就像一个有经验的管家能够独立完成复杂的家务安排。
研究团队设计了五种不同类型的长时程任务来测试系统的规划能力。桌面整理任务要求Franka机器人根据高级语义类别将物体分类到容器中,确保桌面上的所有物品最终都被放置到正确的容器中。这个任务涉及五个已见容器和五个物体类别:水果、玩具、蔬菜、瓶子和零食。每个评估实例涉及将一到三个类别的物体分类到各自的容器中。
抽屉整理任务则更加复杂,要求机器人完成三个连续步骤:打开指定抽屉(上层或下层),将目标物体放入其中,然后关闭抽屉。这个任务需要精确的时序推理和协调操作能力。三明治制作任务要求机器人按照预定义的菜谱组装三明治,食材和盘子放置在机器人基座前50×70厘米的区域内。
数学计算任务考验机器人的逻辑推理能力,要求机器人解决数学问题并按下对应正确答案的彩色按钮(红色、黄色或蓝色)。商品购买任务则使用ARX LIFT2双臂机器人,要求识别并将带有正确价格标签的物体放入篮子,给定1到9的数字线索。
在这些长时程任务中,InternVLA-M1持续优于基线方法。在分布内设置下,各项任务的成功率都显著高于GR00T N1.5和π0。更令人印象深刻的是,系统在面对物理干扰和任务重规划时仍能保持强劲性能。
物理干扰测试模拟了真实环境中的不确定性,比如在抽屉整理任务中,机器人打开抽屉后人为将其关闭,或在抓取过程中移动目标物体。任务重规划测试则在执行过程中引入新的指令,比如在将物体放入抽屉但未关闭之前,突然要求机器人"也把奶牛玩具放到上层抽屉"。
结果显示,InternVLA-M1在这些压力测试中表现出了卓越的适应性。系统能够感知环境变化并相应调整行动计划,在桌面整理任务中,当容器意外移动时,InternVLA-M1能够跟踪新的容器位置并完成放置。在需要任务重规划时,系统能够实时修订其子任务序列并继续执行正确的动作。
技术创新的深层机制
InternVLA-M1的成功源于几个关键的技术创新。首先是潜在规划通过空间提示的实现机制。为了连接VLM规划器与动作专家,系统采用了一个轻量级查询变换器,以VLM规划器产生的潜在规划嵌入为条件。这个查询变换器通过将可变长度输入令牌映射到固定的可学习查询令牌集合来稳定专家学习和推理。
查询变换器实现为k层交叉注意模块,其中查询令牌选择性地关注VLM的k个中间层。为了显式激活空间基础预训练期间学到的空间感知能力,系统采用了空间提示策略。在一般物体操作任务中,系统会在任务指令后添加简单提示,如"找出如何执行它,然后定位需要的关键物体"。
考虑到先前研究表明动作和VLM模块之间的直接梯度流可能扭曲多模态知识,研究团队在查询变换器内引入了梯度衰减因子。这种方法衰减从动作专家传播回VLM的梯度(例如,通过0.5的因子),从而在保持规划器语义推理能力的同时仍然实现有效的联合优化。
双重监督策略是另一个关键创新。双系统架构支持训练过程中的多模态监督和动作监督。在每个训练步骤中,来自两种数据类型的批次被联合处理,模型计算来自两个监督信号的损失。结果梯度被聚合并应用于单个优化更新,确保感知和控制是协同适应的而不是孤立学习的。
具体来说,VLM规划器与广泛的空间基础数据对齐,涵盖物体检测、可供性识别和视觉轨迹规划等任务。同时,动作专家在机器人演示数据上训练,使其能够将这些空间先验专门化为具身特定的运动命令。这种双重监督策略在高级语义感知和低级运动控制之间建立了内聚联系,这对于在仿真和现实世界设置中的鲁棒指令跟随至关重要。
从仿真到现实的迁移能力
InternVLA-M1在仿真到现实迁移方面表现出了卓越的能力,这在机器人学习领域一直是一个重大挑战。系统在真实世界杂乱场景抓取-放置任务中的表现充分证明了这一点。
实验设置采用了严格的域适应测试。研究团队将所有可用的物体和容器资产分为互不相交的已见集和未见集。只有已见集包含在训练数据中,而两个集合都在测试期间进行评估以衡量模型泛化到新物体的能力。评估包括五种设置:分布内、未见物体、未见物体位置、未见物体方向和未见指令。
结果显示,InternVLA-M1的两个变体在分布内设置下都展现了优异性能,持续优于GR00T N1.5和π0。更重要的是,包含InternData-M1协同训练的版本在视觉泛化方面有显著提升,在新物体上的表现得到改善。这表明合成数据作为有限真实世界演示的有效补充。
由于真实世界数据收集无法详尽覆盖空间工作区,仿真数据丰富了物体位置和方向的分布,导致在未见配置的物体放置和姿态方面有substantially更好的泛化。此外,InternVLA-M1在给定新颖指令时保持鲁棒性能,突出了其跨多样化语言表达泛化的能力。
仿真到现实迁移的成功还体现在相机标定的精确性上。为了确保仿真与真实世界的对齐,研究团队使用ArUco标记对所有摄像头进行标定,确保其内在和外在参数与真实世界摄像头匹配,从而保持一致的视点几何。这种精心的标定确保了仿真中学到的空间理解能够准确转移到真实环境中。
合成数据的质量控制也是关键因素。每个合成样本都经过严格验证以确保正确性和一致性。系统不仅验证轨迹的物理可行性,还检查任务目标的完成情况。这种双重验证机制确保了训练数据的高质量,为现实世界的成功迁移奠定了坚实基础。
与现有方法的对比优势
InternVLA-M1相比现有方法的优势是全方位的。在传统的分层机器人系统中,通常依赖基于规则的任务分解和手动设计的规划启发式方法,这种刚性的符号任务结构与低级运动控制之间的分离使得这些系统难以自动扩展到更复杂和多样化的任务。
相比之下,近期的数据驱动VLA模型虽然利用预训练视觉语言模型和大规模遥操作数据集直接学习机器人控制,但这些模型往往过度拟合细粒度运动行为,同时在涉及绝对或相对位置的高级语言指令上泛化不足。它们未能充分将空间先验纳入执行中。
InternVLA-M1通过空间引导训练策略有效解决了这些问题。系统明确地将空间先验编码为可转移的知识,这些先验一旦建立,具身特定学习就可以专注于具体控制策略。这种分工明确了空间先验作为通用基础的作用,同时将具身特定细节留给下游适应。
在性能对比中,InternVLA-M1在多个基准测试上都取得了显著提升。在SimplerEnv Google Robot测试中,相比最强基线CogACT的74.8%,InternVLA-M1达到了80.7%。在WidowX测试中,相比最强基线GR00T N1.5的61.9%,InternVLA-M1达到了71.7%。在LIBERO测试中,相比最强基线π0.5-KI的94.3%,InternVLA-M1达到了95.9%。
更重要的是,InternVLA-M1在保持高性能的同时还展现了更好的泛化能力。在未见物体、新背景、未见指令等挑战性设置下,系统都能保持相对稳定的性能,而许多基线方法在这些设置下性能显著下降。
计算效率方面,InternVLA-M1也表现出色。尽管系统包含41亿参数,但通过优化的架构设计和高效的推理策略,在单张RTX 4090显卡上就能实现实时运行。VLM组件达到约10帧每秒的推理速度,动作执行还可通过分块处理和KV缓存进一步加速。
至顶AI实验室洞见
InternVLA-M1代表了机器人学习领域的一个重要进步。通过将空间理解作为连接语言指令和机器人动作的桥梁,系统成功解决了传统方法在泛化能力和执行精度之间的权衡问题。这种空间引导的训练范式为构建真正智能、能够在复杂现实环境中可靠工作的通用机器人提供了新的思路。
随着这项技术的进一步发展和完善,我们有理由期待在不久的将来看到更加智能和实用的机器人助手进入我们的日常生活,真正实现人机协作的美好愿景。这项研究证明了空间推理作为可扩展和有韧性的通用机器人统一原则的重要性,为机器人智能的未来发展指明了方向。
论文地址:
https://arxiv.org/pdf/2510.13778
本文网址: