KITE:一种用于语义操作的人工智能框架,使用关键点作为视觉基础和精确动作推理的表示

随着人工智能领域的不断进步,人工智能技术开始与机器人技术相结合。从计算机视觉和自然语言处理到边缘计算,人工智能正在与机器人技术相集成,以开发有意义且有效的解决方案。人工智能机器人是在现实世界中行动的机器。重要的是要考虑语言作为人与机器人之间交流手段的可能性。然而,有两个主要问题阻碍现代机器人有效处理自由格式的语言输入。第一个挑战是让机器人能够根据提供的指令推理出需要操作的内容。另一个是拾放任务,其中需要仔细辨别,例如通过耳朵而不是腿拾取泰迪等物体,或者通过分配器而不是侧面拾取肥皂瓶。

机器人必须从输入指令中提取场景和对象语义,并根据执行语义操作来规划准确的低级动作。为了克服这些挑战,斯坦福大学的研究人员引入了KITE(关键点+执行指令),这是一个用于语义操作的两步框架。KITE中同时考虑了场景语义和对象语义。虽然对象语义精确地定位对象实例内的各个部分,但场景语义涉及区分视觉场景中的各个对象。

KITE的第一阶段需要使用2D图像关键点将输入指令置于视觉环境中。对于后续的动作推理,该过程提供了非常精确的以对象为中心的偏差。机器人通过将命令映射到场景中的关键点来精确理解物品及其相关特征。KITE的第二步涉及执行基于RGB-D场景观察的学习关键点条件技能。机器人使用这些参数化的人才来执行所提供的指令。关键点和参数化技能协同工作,为场景和对象的差异提供细粒度的操作和概括。

为了进行评估,团队评估了KITE在三种实际环境中的表现:高精度咖啡制作、语义抓取和长视界6-DoF桌面操控。KITE在桌面操作场景中以71%的成功率、70%的语义抓取成功率、75%的指令跟随成功率完成了冲泡咖啡的任务。KITE的性能优于使用基于关键点的基础框架,而不是预先训练的视觉语言模型。它比强调对技能使用进行端到端视觉运动控制的框架表现得更好。

尽管在整个培训过程中进行了相同或更少的演示,KITE仍取得了这些成果,证明了其有效性和效率。为了将图像和语言短语映射到显着性热图并生成关键点,KITE采用了CLIPort风格的技术。为了输出技能路径点,熟练架构修改PointNet++以接受带有关键点注释的输入多视点点云。2D 关键点使KITE能够精确关注视觉特征,而3D点云则为规划提供必要的6DoF上下文。

KITE:一种用于语义操作的人工智能框架,使用关键点作为视觉基础和精确动作推理的表示

总之,KITE框架为机器人在操作环境中解释和遵循自然语言命令这一长期挑战提供了一个有前途的解决方案。它利用关键点和指令基础的力量,实现高精度和泛化的细粒度语义操作。

项目链接:https://robotic-view-transformer.github.io/

论文链接:https://arxiv.org/abs/2306.14896

作者:Tanya Malhotra
译者:老马
来源:marktechpost

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论