在过去十年左右的时间里，机器人专家开发了许多先进的系统，但其中大多数系统仍然需要一定程度的人工监督。理想情况下，未来的机器人应该自主独立地探索未知环境，不断收集数据并从这些数据中学习。

ALAN 在现实世界的游戏厨房环境中运行。图片来源：Russell Mendonca、Shikhar Bahl、Deepak Pathak。

卡内基梅隆大学的研究人员最近创建了ALAN，这是一种可以自主探索陌生环境的机器人代理。该机器人在arXiv上预发表的一篇论文中进行了介绍，并将在国际机器人与自动化大会 (ICRA 2023) 上展示，经过短暂的探索试验后，人们发现它可以成功地完成现实世界中的任务。

“我们一直对构建一种通过设定自己的目标来学习的人工智能很感兴趣，”进行这项研究的研究人员之一拉塞尔·门东卡 (Russell Mendonca) 告诉 Tech Xplore。“通过不依赖人类的监督或指导，这些代理人可以在自己的好奇心的驱使下，在新的场景中不断学习。这将能够持续推广到不同的领域，并发现越来越复杂的行为。”

卡内基梅隆大学的机器人小组已经引入了一些自主代理，这些代理可以在很少或没有额外培训的情况下很好地完成新任务，包括经过训练可以玩马里奥视频游戏的模型和可以完成多阶段对象操作任务的系统. 然而，这些系统仅在模拟环境中接受过训练和测试。

该团队最近研究的主要目标是创建一个可以应用于世界上物理机器人的框架，提高它们探索周围环境和完成新任务的能力。他们创建的系统 ALAN 学习自主探索其环境，而无需从人类代理那里获得奖励或指导。随后，它可以重新利用过去学到的知识来解决新的任务或问题。

“ALAN 学习了一个世界模型，在这个模型中计划其行动，并使用以环境为中心和以代理为中心的目标来指导自己，”Mendonca 解释道。“它还使用现成的预训练检测器将工作空间缩小到感兴趣的区域。探索后，机器人可以拼接发现的技能，以执行通过目标图像指定的单阶段和多阶段任务。”

研究人员的机器人具有一个视觉模块，可以估计周围物体的运动。然后，该模块使用这些对物体移动方式的估计来最大化物体的变化，并鼓励机器人与这些物体进行交互。

ALAN 在现实世界的游戏厨房环境中运行。图片来源：Russell Mendonca、Shikhar Bahl、Deepak Pathak。

“这是一个以环境为中心的信号，因为它不依赖于代理人的信念，”Mendonca 说。“为了改进其对物体变化的估计，ALAN 需要对此保持好奇。为此，ALAN 使用其学习的世界模型来识别对预测的物体变化不确定的动作，然后在真实环境中执行它们世界。这种以代理为中心的信号随着机器人看到更多数据而演变。”

先前提出的自主机器人探索方法需要大量训练数据。这阻止或显着限制了它们在真实机器人上的部署。相比之下，Mendonca 和他的同事们提出的学习方法允许 ALAN 机器人在探索周围环境时持续自主地学习完成任务。

“我们表明，ALAN 可以在两个不同的游戏厨房中学习如何在 1-2 小时内仅使用大约 100 个轨迹来操纵物体，而无需任何奖励，”Mendonca 说。“因此，使用视觉先验可以大大提高机器人学习的效率。以 24/7 全天候运行的该系统的放大版本将能够在跨领域最少的人为干预的情况下不断获得新的有用技能，使我们更接近通用- 用途智能机器人。”

在初步评估中，该团队的机器人表现非常出色，因为它能够快速学习完成新的操作任务，而无需任何培训或人工代理的帮助。将来，ALAN 及其支撑框架可以为创建用于环境探索的性能更好的自主机器人系统铺平道路。

“接下来我们想研究如何利用其他先验来帮助构建机器人的行为，例如人类执行任务和语言描述的视频，”Mendonca 补充道。“能够有效地建立在这些数据之上的系统将能够通过在结构化空间中操作来更好地自主探索。此外，我们对可以汇集他们的经验以不断学习的多机器人系统感兴趣。”

编辑：澜澜

免责声明：文章转载自网络。文章内容不代表本站观点，本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺，仅供读者参考，风险自己甄别并承担后果；如有侵权请及时联系本站，我们会及时删除处理！