AI中国网 h ttps://www.cnaiplus.com
双臂机器人怎么完成翻开瓶子的任务的?
总是需要用一只手抓住瓶底,用另一只手抓住瓶盖并拧开它。人类的这种儿科手术需要机器做很多工作。这个高端操作过程就是所谓的Schema。
不过值得幸亏的是,它不受方针的几许和空间状况的影响。不过,与旨在经过学习战略来处理使命的强化学习技术比较,schema的优势在于:不需求在数小时、数周乃至数月的时刻内提取数百万个示例。
最近,Facebook AI Research的一个团队,企图运用两个可以从库中挑选正确进程的Sawyer机械臂来完结这个意图。在每个时刻步长上,他们的智能体都有必要决议运用什么技术、以及要运用哪些论据来达到方针。例如,施加力的方位、力的巨细、要移动的方针姿态等等。
虽然触及杂乱性,不过该团队标明他们的办法进步了学习功率,因而仅需几个小时的练习,机械臂就可以发现操作技术。
团队的首要见地是:关于许多使命,学习进程可以分为两个部分,分别是(1)学习使命形式和(2)学习为不同技术挑选恰当参数化的战略。
他们以为,这种办法可以加速学习速度,部分原因是可以运用来自给定使命不同版别的数据来进步同享技术。而且,他们说这答应在相关使命之间搬运学习到的形式。
该论文的一起作者具体解说称,假定咱们现已学会了一种很好的计划,在一个模仿环境中咱们可以拜访方针的姿态、几许信息等、以及更多内容,然后在这个模仿环境中举起个长条,那么咱们就可以将该形式从头用于相关使命,例如仅从原始摄像机调查成果中拾取实际国际中的托盘。
即便状况空间和最佳参数化(例如,抓握姿态)都存在明显差异。由于该形式是固定的,因而针对该使命栏提取使命的战略学习将十分有用,由于它仅需求学习每种技术的(与调查相关的)参数。
研讨人员为上述两个机械臂供给了一个通用的技术库,例如改变、提高和扩展,他们有必要将其应用于触及不同方针、几许形状和初始姿态的多个横向提高、拾取、翻开和旋转使命。
在MuJoCo(模仿环境)中,经过运用低维输入数据进行练习,例如几许和本体感触特征(关节方位,关节速度,结尾履行器姿态)等,然后在模仿和实际国际中都转换为可视输入。
在试验进程中,Sawyer手臂(装备摄像头,并由Facebook的PyRobot开源机器人渠道操控)的使命是操作包含面杖、足球、玻璃罐和T型扳手在内的9个常用物品。
完结任何使命都需求两个相互配合的爪子。虽然有必要从原始视觉图画中学习,但他们说体系在大约4到10个小时的练习中学会了运用2000种技术来操作大多数项目,而且成功率超越90%。
论文的一起作者写道:“我们现在已经讨论了如何使用与条件无关的技术序列来大大提高无模型强化学习的样本能力。此外,我们现在已经测试并表示,我们将把在模仿环境中学习到的技术序列转移到实际的国际任务中,以便我们能够非常有效地处理图片中的稀少奖赏问题,从而使练习真实的机器人履行比如双手操作之类的杂乱技术变得可行。”
来源:新智元
AI中国网 h ttps://www.cnaiplus.com
本文网址: