首页>国内 > 正文

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero-shot性能提升2.9倍

2022-10-18 15:46:08来源：新智元

人工智能领域的下一个发展机会，有可能是给AI模型装上一个「身体」，与真实世界进行互动来学习。

相比现有的自然语言处理、计算机视觉等在特定环境下执行的任务来说，开放领域的机器人技术显然更难。

(资料图)

比如prompt-based学习可以让单个语言模型执行任意的自然语言处理任务，比如写代码、做文摘、问答，只需要修改prompt即可。

但机器人技术中的任务规范种类更多，比如模仿单样本演示、遵照语言指示或者实现某一视觉目标，这些通常都被视为不同的任务，由专门训练后的模型来处理。

最近来自英伟达、斯坦福大学、玛卡莱斯特学院、加州理工、清华大学和得克萨斯大学奥斯汀分校的研究人员共同提出一个基于Transformer的通用机器人智能体VIMA，利用多模态的prompt，实现极高的泛化性能，能够处理大量的机器人操作任务。

论文链接：https://arxiv.org/abs/2210.03094

项目链接：https://vimalabs.github.io/

代码链接：https://github.com/vimalabs/VIMA

输入prompt为交错使用的文字和视觉符号。

为了训练和评估VIMA，研究人员提出了一个新的模拟基准数据集，包含上千个由程序生成的带有多模态提示的桌面任务，和60多万条专家轨迹用于模仿学习，以四个等级来评估模型的泛化性能。

在同等尺寸的模型、等量训练数据的情况下，VIMA在最难的zero-shot的泛化设置下任务成功率为当下sota方法的2.9倍。

在训练数据减少10倍的情况下，VIMA的表现仍然比其他方法好2.7倍。

目前所有的代码、预训练模型、数据集和模拟基准都已完全开源。

论文的第一作者是Yunfan Jiang，斯坦福大学硕士二年级学生，目前在英伟达研究院实习。2020年本科毕业于爱丁堡大学。他的主要研究方向为具身人工智能（embodied AI），即通过与环境的互动来学习。具体研究内容为如何利用大规模的基础模型来实现开放式的的具身智能体（embodied agents）

论文包含两位导师，均为李飞飞曾经的学生。

朱玉可，本科毕业于浙江大学，并取得了浙江大学和加拿大西蒙弗雷泽大学的双学位。硕士和博士研究生就读于斯坦福大学，师从李飞飞，并于2019年8月取得博士学位。朱玉可现任UT Austin计算机科学系助理教授，同时是机器人感知和学习实验室的主任，以及英伟达研究院高级研究科学家。

范麟熙，博士毕业于斯坦福大学，师从李飞飞，目前是NVIDIA AI的研究科学家。主要研究方向为开发通用且强大的自主智能体（generally capable autonomous agents），具体的研究工作涵盖了基础模型、策略学习、机器人技术、多模式学习和大规模系统。

机器人与多模态prompt

Transformer在NLP领域多任务已经实现相当高的性能，仅一个模型就能同时完成问答、机器翻译、文本摘要等。

实现不同任务的接口就在于输入的文本提示，从而将具体的任务需求传递给通用大模型。

能不能把这种prompt接口用在通用机器人智能体上呢？

对于一个家务机器人来说，理想情况下，只需要输入给我拿<杯子的图像>，机器人就可以按照图片把杯子拿过来。

当机器人需要学习新技能时，最好可以通过输入视频演示就能学习。如果机器人需要与不熟悉的物体进行互动时，只需要通过图例即可轻松解释。

同时为了确保安全部署，用户可以进一步指定视觉约束，比如不要进入<图像>房间

为了实现这些功能，VIMA模型主要包含三部分：

1、形式化多模态提示，将机器人操纵任务转化为一个序列建模问题；