训练机器人在现实世界中完成任务可能是一个非常耗时的过程,这涉及到建立一个快速高效的模拟器,对其进行多次试验,然后将在这些试验中学习到的行为转移到现实世界中。然而,在许多情况下,由于环境或任务的不可预测的变化,模拟中获得的性能与现实中获得的不匹配。
加州大学伯克利分校(UC Berkeley)的研究人员最近开发了一款名为DayDreamer的工具,可以用来训练机器人更有效地完成现实世界中的任务。他们的方法是基于世界的学习模型,允许机器人预测他们的动作和行动的结果,减少了在现实世界中大量的试错训练的需要。
进行这项研究的研究人员之一丹尼尔·哈夫纳(Danijar Hafner)说道:“我们希望制造出能够在现实世界中直接持续学习的机器人,而不需要创建模拟环境。我们之前只学习过电子游戏的世界模型,所以看到同样的算法也可以让机器人在现实世界中快速学习,这是非常令人兴奋的!”
使用他们的方法,研究人员能够有效和快速地教机器人在现实世界中执行特定的行为。例如,他们训练了一只机器狗,让它在一个小时内从背上滚下来,站起来并走路。
训练完成后,研究小组开始推机器人,并发现在10分钟内,机器人也能够承受推,或迅速用脚向后滚。该团队还在机械臂上测试了他们的工具,训练它们拿起物体并把它们放在特定的地方,但没有告诉它们物体最初的位置。
哈夫纳说:“我们发现机器人能够适应光照条件的变化,比如阴影在一天中随着太阳的移动而移动。除了在现实世界中快速、持续地学习外,相同的算法在四个不同的机器人和任务中都能很好地工作。因此,我们认为世界模型和在线适应将在机器人技术发展中发挥重要作用。”
基于强化学习的计算模型可以随着时间的推移教会机器人行为,通过给予它们理想行为的奖励,例如良好的物体抓取策略或以合适的速度移动。通常,这些模型都是经过漫长的试错过程训练的,使用可以加快速度的模拟和现实世界中的实验。
另一方面,由哈夫纳和他的同事开发的“梦想者”算法根据过去的“经验”构建了一个世界模型。这个世界模型可以用来教机器人基于“想象”互动的新行为。这大大减少了在现实环境中进行试验的需要,从而大大加快了训练过程。
直接预测未来的感官输入速度太慢,成本也太高,尤其是当涉及相机图像这样的大输入时。世界模型首先学会将每个时间步的感觉输入(电机角度、加速度计测量值、相机图像等)编码为一个紧凑的表示。给它一个表示法和一个运动指令,然后它学习预测下一个时间步骤的结果表示法。
“梦想家”制造的世界模型允许机器人“想象”未来的表现,而不是处理原始的感官输入。这反过来允许模型使用单个图形处理单元(GPU)并行规划数千个动作序列。这些“想象”的序列有助于快速提高机器人在特定任务中的表现。
潜在特征在强化学习中的使用已经在表征学习的背景下得到了广泛的研究,这项研究的另一名研究人员亚历杭德罗·埃斯孔雷拉说,我们的想法是,人们可以创建一个大型感官输入(相机图像、深度扫描)的紧凑表示,从而减少模型大小,可能还会减少所需的训练时间。然而,表征学习技术仍然需要机器人与现实世界或模拟器进行长时间的互动来学习任务。“梦想家”可以让机器人从想象的互动中学习,将其学习到的表征作为一个准确而高效的“模拟器”。这使得机器人能够在学习的世界模型中进行大量的训练。
在训练机器人的同时,“梦想家”不断收集新的经验,并利用它们来增强其世界模型,从而改善机器人的行为。他们的方法允许研究人员在一小时内训练一个四足机器人行走并适应特定的环境刺激,而不需要使用模拟器,这是以前从未实现过的。
哈夫纳说:“我们设想,在未来,这项技术将使用户能够在现实世界中直接教机器人许多新技能,从而无需为每项任务设计模拟器。这也为制造能够适应硬件故障的机器人打开了大门,比如即使一条腿的马达坏了,机器人也能行走。”
在他们最初的测试中,Hafner, Escontrela, Philip Wu和他们的同事还用他们的方法训练机器人拿起物体并将它们放在特定的地方。这项工作每天都是由人类工人在仓库和装配线上完成的,对于机器人来说可能很难完成,尤其是当它们期望捡到的物体的位置未知时。
这项任务的另一个困难是,在机器人真正掌握某些东西之前,我们不能给它中间反馈或奖励,所以没有中间指导,机器人可以探索很多东西。在10个小时的完全自主操作中,使用“梦想家”进行训练的机器人的性能接近人类远程操作员。这一结果表明,世界模型是仓库和装配线自动化工作站的一种有前途的方法。
在他们的实验中,研究人员成功地使用做梦者算法训练了四个形态不同的机器人完成各种任务。使用传统的强化学习方法训练这些机器人通常需要大量的人工调优,在不需要额外调优的情况下就能很好地完成任务。
哈夫纳说根据我们的研究结果,我们预计会有更多的机器人团队开始使用和改进“梦想家”,以解决更具挑战性的机器人问题。拥有一种开箱即用的强化学习算法,可以让团队有更多时间专注于构建机器人硬件,并指定他们想用世界模型自动化的任务。
该算法可以很容易地应用于机器人,其代码将很快开源。这意味着其他团队很快就能使用它来使用世界模型训练他们自己的机器人。
Hafner, Escontrela, Wu和他们的同事现在想要进行新的实验,给一个四足机器人装备一个摄像头,这样它不仅能学会走路,还能识别附近的物体。这将使机器人能够处理更复杂的任务,例如避开障碍物,识别环境中感兴趣的物体,或在人类用户旁边行走。
哈夫纳补充道,机器人领域的一个公开挑战是,用户如何直观地为机器人指定任务。在我们的工作中,我们实现了机器人作为Python函数优化的奖励信号,但最终它会很好,通过直接告诉机器人什么时候做对了或错了,从人类的偏好来教机器人。这可以通过按下一个按钮来给予奖励,甚至可以让机器人理解人类语言。
到目前为止,该团队只使用他们的算法训练机器人完成特定的任务,这些任务在他们的实验开始时就已经明确定义。然而,在未来,他们还想训练机器人探索环境,而不是解决明确定义的任务。
一个有前途的方向是,通过人工的好奇心,训练机器人在没有任务的情况下探索周围环境,然后更快地适应用户指定的任务。