随着机器人技术的发展,代替人类来执行特定工作的机器人与日俱增,从家用清洁的扫地机器人到军用的无人战斗机,各式各类机器人都让人类的生活更加便利。
但机器人的领域仍然明显落后于NLP、AI领域,大部分的机器人学习的数据集单一不够全面,并且缺乏数据技能上的通用性,导致研发智能机器人需要付出大量的时间与劳动力。
大型数据集的诞生
谷歌认为AI机器人的性能十分强大,但在操作通用性上却很差。在大多数时候训练一个智能机器人需要针对的长期训练,然后进行反复调试收集反馈才能完成产品的研发。
为了能减少训练机器人来完成特定任务所花费的时间和劳动力,Google DeepMind与其他33家研究机构一起创建了一个基于AI的机器人训练数据集。值得一提的是,上海交通大学也参与了这个项目,在技术方面提供了支持。
该数据集称为Open X-Embodiment,谷歌将22种不同类型的机器人的数据导入其中,将数据集中关键信息汇集,创建出以供通用机器人学习的大型数据集资源。
DeepMind团队称:“与使用单个实例数据训练集相比,通过使用多个实例数据集训练的机器人性能明显更好。”Open X-Embodiment数据集在超过100万的集合中存储了500多项技能与150,000项任务,这或许是有史以来最为全面的机器人训练数据集。
强大的RT-X模型
紧接着,DeepMind在Open X-Embodiment数据集的基础上训练出了全球最大的通用模型之一RT-X。这个经过迭代更新的模型由控制模型RT-1-X和视觉模型RT-2-X组成,可以让机器人在极少的训练下完成数据集中含有的特定任务。
RT-1-X模型是由他的前身RT-1训练而成的,作为控制模型,主要负责控制机器人的运动与动作。由RT-2训练而成而RT-2-X视觉模型则是用于让机器人能准确感知到周围的环境与物体,就像人类的眼睛。
通过这两个模型共同作用组成了RT-X,而采用这个模型的机器人在一些基础的行为上(拿取物件、开关门等)的工作效率要明显优于同类型机器人。这也可以说明RT-1-X与RT-2-X在经受到不同情境且多样的数据训练之后,能表现出更好的泛化能力。
目前,Open X-Embodiment数据集与RT-X模型已经向各机器人研究社区开放。相信此举会加速机器人的研究,并且推进机器人社区的发展。这个工具或许会改变机器人的训练方式,极大地缩短研发训练机器人的流程。