用于采集物理和虚拟抓取的可重构数据手套

, , , , , , , , 刘航欣 , 张泽宇 , 焦子元 , 张振亮 , 李旻辰 , 蒋陈凡夫 , 朱毅鑫 , 朱松纯

工程(英文) ›› 2024, Vol. 32 ›› Issue (1) : 217 -232.

PDF (2672KB)
工程(英文) ›› 2024, Vol. 32 ›› Issue (1) : 217 -232. DOI: 10.1016/j.eng.2023.01.009
研究论文

用于采集物理和虚拟抓取的可重构数据手套

作者信息 +

A Reconfigurable Data Glove for Reconstructing Physical and Virtual Grasps

Author information +
文章历史 +
PDF (2735K)

摘要

本研究提出了一种用于采集各类手-物体交互数据的可重构数据手套设计,该数据对于训练具身智能体完成精细操作任务至关重要。为了应对不同的操作任务,该可重构数据手套基于一个统一的实时手势捕捉系统,并具备三种运行模式。在触觉感知模式下,手套系统通过由柔性压敏材料制成的定制力传感器感知操作过程中手部的施力情况,同时避免了传感器对手部运动的干扰。虚拟现实模式能够通过检测手指和物体的碰撞事件,以一种基于包笼抓取的方法实现对虚拟物体的稳定抓取。利用有限元方法,手套的仿真模式首次实现了对操作任务的四维细粒度数据采集,包括手和物体在三维空间中的运动以及物体的物理变量(如应力和能量)在时间维度上的变化,从而分析动作背后的物理和因果关系。在一系列实验中,我们详细评估了数据手套及其子系统:①实现了手势和手部施力的记录,②提高了虚拟现实中的操作流畅性,③模拟了不同工具使用中的物理效果。基于这三种模式,该可重构数据手套通过在物理和虚拟环境中收集和重建细粒度的人类抓取数据,为具身智能体的操作技能学习开辟了新的途径。

Abstract

In this work, we present a reconfigurable data glove design to capture different modes of human hand-object interactions, which are critical in training embodied artificial intelligence (AI) agents for fine manipulation tasks. To achieve various downstream tasks with distinct features, our reconfigurable data glove operates in three modes sharing a unified backbone design that reconstructs hand gestures in real time. In the tactile-sensing mode, the glove system aggregates manipulation force via customized force sensors made from a soft and thin piezoresistive material; this design minimizes interference during complex hand movements. The virtual reality (VR) mode enables real-time interaction in a physically plausible fashion: A caging-based approach is devised to determine stable grasps by detecting collision events. Leveraging a state-of-the-art finite element method, the simulation mode collects data on fine-grained four-dimensional manipulation events comprising hand and object motions in three-dimensional space and how the object’s physical properties (e.g., stress and energy) change in accordance with manipulation over time. Notably, the glove system presented here is the first to use high-fidelity simulation to investigate the unobservable physical and causal factors behind manipulation actions. In a series of experiments, we characterize our data glove in terms of individual sensors and the overall system. More specifically, we evaluate the system’s three modes by ① recording hand gestures and associated forces, ② improving manipulation fluency in VR, and ③ producing realistic simulation effects of various tool uses, respectively. Based on these three modes, our reconfigurable data glove collects and reconstructs fine-grained human grasp data in both physical and virtual environments, thereby opening up new avenues for the learning of manipulation skills for embodied AI agents.

关键词

数据手套 / 触觉感知 / 虚拟现实 / 基于物理的仿真

Key words

Data glove / Tactile sensing / Virtual reality / Physics-based simulation

引用本文

引用格式 ▾
Hangxin Liu,Zeyu Zhang,Ziyuan Jiao,Zhenliang Zhang,Minchen Li,Chenfanfu Jiang,Yixin Zhu,Song-Chun Zhu,刘航欣,张泽宇,焦子元,张振亮,李旻辰,蒋陈凡夫,朱毅鑫,朱松纯. 用于采集物理和虚拟抓取的可重构数据手套[J]. 工程(英文), 2024, 32(1): 217-232 DOI:10.1016/j.eng.2023.01.009

登录浏览全文

4963

注册一个新账户 忘记密码

1 学习操作中的挑战

操作和抓取是机器人技术中最基本的课题之一。由于近期具身人工智能(AI)的蓬勃发展,这一经典领域重新焕发了活力,其中智能体(如机器人)的任务是通过与其所处环境的交互来学习。从那时起,基于学习的方法得到了广泛的应用,并提高了机器人的操作能力。通常,机器人要么根据直接从传感器获得的数据进行训练(如从集群中抓取物体[12]、拾取和放置[3]、物体移交[4]或开门[5]),要么从人类演示中学习(如本体运动[67]、可供性[89]、任务结构[1012]或奖励函数 [1315])。

学习有意义的操作有一个独特的前提条件:它必须包含细粒度的物理学原理,来解释交互过程中发生的复杂过程。虽然我们已经目睹了某些具身AI任务(如视觉语言导航)的稳步发展,但这些成功主要归因于那些直接提取自现有训练平台[1618]的现成的普通图像及其注释(像素、片段或边界框),而交互过程中的物理学信息仍然缺乏。类似地,尽管现代基于视觉的传感器和运动捕捉系统可以收集精确的轨迹信息,但两者都不能精确地估计相互作用过程中的物理特性。现有的软件和硬件系统不足以支撑智能体学习复杂的操作技能,原因有以下三点:

第一,理解细粒度操作或人-物交互需要同时理解手势和力[20];如果可能的话,纯粹基于手势来区分某些动作是具有挑战性的。例如,打开一个带有防儿童打开机制的药瓶需要按压或挤压瓶盖,由于按压和挤压动作在视觉上是相似(甚至相同)的[21],因此仅通过视觉信息不足以区分两种打开动作。重建手势或轨迹本身已经被证明是具有挑战性的,因为手和物体间严重的相互遮挡阻碍了数据收集的可靠性。为解决这个问题,引入了一种触觉感知手套,通过惯性测量单元(IMU)网络捕捉手势,并在操作过程中使用六个定制的力传感器捕捉手部施加的力。力传感器由一种柔软而薄的压敏织物Velostat制成,该材料的阻力在压力下会发生变化,能够允许自然的手部运动。这些力传感器共同描述了操纵事件的整体视图。Liu等[20]在工作中提出了该系统的初步版本(见附录A)。

第二,手和物体之间的接触点在理解选择某个特定抓取方式的原因和标准方面起着重要的作用。通过传统方式(如热成像[22])获取接触点信息具有挑战性。为应对这一挑战,设计了一种虚拟现实(VR)手套并利用VR平台来获取接触点信息。本设计采用一种基于包笼的方法,根据手指和物体之间碰撞的几何形状来确定对虚拟物体的稳定抓取。这些碰撞触发手套上的振动马达网络,以提供触觉反馈。VR手套同时收集使用现实手段难以获取的轨迹和接触点信息。Liu等[23]在工作中介绍了该系统的初步版本(见附录A)。

第三,相关研究更多关注在精细操作过程中收集手的信息,而对被操纵的物体或动作引起的结果关注甚少,使用收集到的数据难以用来研究复杂的操作事件。例如,在工具使用场景中,如果不捕捉人的手、被操纵的工具和动作效果之间的相互作用,就不能全面地理解该操作事件。因此从这个角度来讲,在开发数据手套时,需要摒弃传统的以手为中心的解决方案。此外,由于操作动作引起的结果传统上难以捕获,因此它们在计算机视觉中常常被视为识别离散和符号化状态或属性[2426]的任务,失去了其内在的连续性。为克服传统数据手套的这些局限,建议使用最先进的有限元方法(FEM)来集成一个基于物理的仿真[19],模拟物体在事件中的状态时变[27]和其他涉及的物理特性,如接触力和物体内的应力。该仿真手套捕捉人类操作行动并在四维(4D)空间从以下方面对其进行分析:①手势和物体在三维空间中的接触和几何信息,②与时间推移一致的物体状态时变和操作事件。据我们所知,这是在该领域首次使用4D数据为操作事件提供一个整体视角,这将为研究操作和抓取开辟新的途径。

基于统一的能实时重建手势的主干设计,本研究提出的数据手套可以被容易地重构为以下三种模式:①使用压敏材料捕获手部施力,②记录在VR应用中稳定抓取时的接触信息,③通过集成物理仿真重建操作中的视觉和物理效果。本系统扩展了数据手套[28]开发的悠久历史并加深了具身AI智能体对手-物交互的理解。

与之前的研究[20,23]相比,本文有以下三个贡献。首先,提出了一个基于可重构手套的系统的概念。三种操作模式处理的下游任务范围更广且各具特色。由于使用统一的主干设计,这种扩展不会牺牲易于复制的特性。其次,集成了最先进的基于FEM的物理仿真,以模拟动作效应来增强抓取数据,从而为研究手-物交互和复杂操作事件提供了新机遇。第三,一系列案例研究证明了本研究的手套系统收集的数据——无论是虚拟上的还是物理上的——对学习都是有效的。

1.1 相关工作

1.1.1 手势感知

记录手指关节的运动是手势感知的核心。各种类型的硬件已经被用来获取手势。虽然曲率/弯曲传感器[2930]、液态金属[31]、可拉伸应变传感器[32]和摩擦电材料 [33]都是经过验证的方法,但这些方法只能测量单向弯曲角度。因此,它们难以用于记录具有手指外展和内收两个自由度的掌指(MCP)关节。此外,由于面积大和刚性强,这些仪器缠绕在弯曲的手指关节时牺牲了自然的手部运动。相比之下,IMU可以测量指骨的6自由度姿态,对关节运动的干扰更少,并且在较长的时间内表现更一致。因此,现代数据手套设计已普遍采用IMU,包括:由Zigbee网络支持的IMU [34];分别置于15个指骨处的电路板[35],每个电路板配备一个6自由度加速度计/陀螺仪和一个3自由度磁强计;以及通过柔性电缆连接的IMU群[36]。原始的感知信息常常需要进一步过滤[37]和估计 [35,3839]。

1.1.2 力感知

感知操作过程中的手部施力已经引起了越来越多的研究关注,亟需一个更集成的基于手套的系统。此处重点介绍一些标志性的设计。一种具有嵌入式液态金属材料的弹性体传感器[40]能够感知跨越很大区域(如手掌)的力,并能够通过测量皮肤张力来估计关节的运动。FlexiForce传感器可以获取手部的力[41],而基于光学的动作捕捉系统可以跟踪手势。也可以使用9自由度IMU——而无需额外的硬件[42]——来估计力和手势,但这种方式对力的估计是粗略的。其他设计包括使用专门的硬件,如力敏感电阻[43]和特定的指尖触觉传感器[44]。近年来,由压敏材料制成的软薄膜(如Velostat,其阻力在压力下会发生变化)在机器人应用中越来越受欢迎。这种材料可以在不限制机器人或人的手部运动的情况下感知力[4548]。

1.2 概述:可重构数据手套的三种模式

为解决上述挑战并填补文献中的空白,本研究设计了一种可重构的数据手套,它能够在三种模式下用于具有不同特性和目标的各种下游任务。

1.2.1 触觉感知模式

手套配置IMU [35]来重建手势。手套系统的软件和硬件设计是公开的,便于复制。采用一种由柔性压敏材料Velostat制成的定制力传感器获取手部在大面积上的力分布情况,同时不限制手部的自然运动。图1(a)[1920,23]总结了这种触觉感知手套的设计。

1.2.2 VR模式

通过在VR中重建虚拟抓取,这种模式提供操作动作过程中的补充接触信息(如物体上的接触点)。当抓取事件被触发[49]时,主流的规则式抓取方法会将虚拟物体直接放到虚拟手上。本研究的手套系统与上述方法不同,它通过细粒度的手势重建和特定接触点的施力估计来实现自然而现实的抓取体验。由于在规则式抓取方法中手和物体之间的接触是预定义的,因此会导致手指穿透或接触不到物体。虽然在VR中收集与抓取相关的数据比在其他专门的数据获取渠道更方便、更经济,但在VR中手与现实物体之间缺乏直接接触,从而不可避免地导致自然交互减少。因此,提供触觉反馈对于弥补这一缺陷至关重要。本研究使用振动马达为每根手指提供通用的触觉反馈,从而增加了在VR中抓取的真实性。图1(b)[1920,23]总结了VR手套的设计。

1.2.3 仿真模式

基于物理的仿真模拟了系统随时间的精确变化,从而为机器人学习开辟了新的方向[50],包括学习机器人导航[16]、从演示中学习来架起连接人类和机器人的桥梁[12]、软机器人运动[51]、液体浇注[52]以及机器人切割[53]。同样地,模拟一个物体的时变状态如何随着给定的操作动作而变化为手-物交互提供了一个新的视角。本文采用最先进的FEM模拟器[19]来模拟操作事件的原因和结果。如图1(c)[1920,23]所示,通过将数据手套收集的物理数据与仿真效果相结合,系统大规模地重建了一种具有高保真视觉和物理特性的新型4D操作数据。我们相信,这种新型数据可以显著影响未来操作数据集的收集方式并能够帮助机器人在学习中完成广泛的操作任务。

1.3 本文的结构

本文剩余部分组织如下。第2节介绍手势感知的主干设计;第3节和第4节基于不同的目标分别对触觉感知模式[20]和VR模式[23]进行阐释;第5节集成了一种最先进的、基于物理的FEM [54]仿真来收集4D操作数据,而据我们所知,这是该领域首次实现如此高保真度的数据;第6节评估了手套系统的三种模式;第7节对本文进行了总结。

2 手势感知的统一主干设计

第2.1节介绍用于捕捉手势的IMU设置。由于该设置由可重构数据手套的三种模式共享,因此第2.2节进一步评估了IMU的性能。

2.1 手势重建

2.1.1 IMU规范

部署15个Bosch BNO055 9-DoF IMU用于手势感知。其中,一个IMU安装在手掌上,两个IMU安装在拇指的远端和中间指骨上,剩余12个IMU安装在其他四个手指的指骨上。每个IMU配置一个16位三轴陀螺仪、一个12位三轴加速度计和一个三轴地磁力计。该IMU集成一个内置的专有传感器融合算法,该算法在32位微控制器上运行,以四元数的形式生成每个指骨的姿态。地磁计获得IMU对地球磁场的参考系,支持姿态校准协议(稍后介绍)。BNO055的覆盖面积(5.0 cm × 4.5 cm)小,能够很容易地附着在手套上,并能最大程度地减少对自然手部运动的干扰。使用一对TCA9548A I2C多路复用器将15个IMU联网,并将它们连接至Raspberry Pi 2 Model B主板(以下简称RPi)上的I2C总线接口;RPi作为整个手套系统的主控制器。

2.1.2 手的正向运动学

一只手大约有20个自由度:近端指间(PIP)关节和远端指间(DIP)关节各有一个自由度,而MCP关节有两个自由度。基于这种解剖结构,用一个4自由度的运动链来模拟每根手指,其基部框架为手掌,末端执行器框架为远端指骨。拇指被建模为一个由DIP关节和MCP关节组成的3自由度运动链。

利用两个连续的IMU获得一个关节的转动角后,可以通过正向运动学计算出每个指骨的位置和方向。图2[20]显示了食指的运动链及附带的坐标系。坐标系1分配给手掌,坐标系2、3和4分别分配给近端、中间和远端指骨。近端、中间、远端指骨的长度分别用l 1l 2l 3表示。MCP、PIP和DIP关节的屈伸角分别记为θ 1θ 2,和θ 3。此外,MCP关节的外展和内收角表示为βdxdy 是手掌中心和MCP关节之间的xy方向上的偏移量。表1给出了每个参考坐标系的Denavit-Hartenberg(D-H)参数,其中从坐标系i-1到坐标系i(其中i是上述的坐标系序数)的一般齐次变换矩阵 T 可以通过以下方法给出:

i i - 1 T = c o s θ i - s i n θ i 0 a i - 1 s i n θ i c o s α i - 1 c o s θ i c o s α i - 1 - s i n α i - 1 - s i n α i - 1 d i s i n θ i s i n α i - 1 c o s θ i s i n α i - 1 c o s α i - 1 c o s α i - 1 d i 0 0 0 1

其中,αi -1ai -1θi 为D-H参数。

表2列出了每个指骨的齐次变换矩阵,可以用来表示每个指骨在手掌参考系下的笛卡尔空间坐标。正向运动学模型通过减少由IMU制造误差和用户手之间的解剖差异引起的不一致性,更好地跟踪感知到的手势。

2.1.3 关节限制

本研究采用了一组常用的不等式约束[55]来限制手指关节的运动范围,从而消除由传感器噪声引起的非自然手势:

M C P   j o i n t :   0 θ 1 90 - 15 β 15 P I P   j o i n t :    0 θ 2 110 D I P   j o i n t :    0 θ 3 90

2.1.4 姿势校准

惯性传感器(如IMU)存在常见的漂移问题,在操作过程中导致误差的积累。为克服这个问题,引入了一个IMU校准协议。当感知到的手势明显退化时,手套的使用者可以将手放平并保持该手势(图3 [23]),以启动校准;系统记录IMU与世界坐标系之间的相对姿态。由IMU测量的方向数据乘以这个相对姿态的倒数来抵消差异,从而消除由于漂移造成的累积误差。当遇到不可靠的手势感知结果时,可以方便地执行此例程。

2.2 IMU评估

本研究评估了单个IMU转动时的偏差和方差。此外,还研究了两个铰接的IMU如何准确地重建一个静态角度,以此评估传感器单体在感知手指关节角度方面的性能。

2.2.1 对单个IMU的评估

由于手势感知的可靠性主要取决于IMU的性能,因此研究IMU的偏差和方差至关重要。具体来说,使用由Arduino微控制器控制的精确步进电机来旋转IMU。以60 r‧min-1的恒定角速度将IMU旋转90°、180°、270°和360°,每个角度旋转20次。未测试超过360°的旋转角度,因为这超出了手指的运动范围。图4(a)[20]总结了测量的角度误差的平均值和标准差。总体而言,IMU性能一致,其偏差为2°~3°,标准差为±1.7°,表明后处理可以有效降低传感器偏差。

2.2.2 对铰接式IMU的评估

由于缺乏基准真实值,很难评估IMU在全手手势感知上的性能。作为折中,我们3D打印了4个角度为0°、45°、90°和135°的刚性弯曲,以模拟手指弯曲的四种特定状态,均匀划分了等式(2)中定义的手指关节的运动范围。利用两个IMU构造一个弯曲并假设它是一个旋转关节,通过计算两个IMU之间的相对姿态来测试重建关节角度的准确性。图4(b)[20]显示了估计的关节角的误差;图4(c)[20]为该实验设置的示意图;图4(d)[20]显示了具有90°弯曲角的物理装置。在测试过程中,一个IMU放置在弯曲处后2 cm处,另一个放置在前方1 cm处,分别模拟连接到近端指骨和中间指骨的IMU。对每个刚性弯曲重复测试20次。随着弯曲角度的增加,重建误差从4°增加到6°左右,置信区间略有扩大。尽管随着弯曲角度的增加,IMU的性能趋于不佳,但总体而言,误差仍然合理。通过与姿态校准协议相结合,可以更好地平衡这些误差,并且所利用的IMU网络可以可靠地支持抓取数据的收集(各种案例研究见第6节)。

3 触觉感知模式

本研究的可重构数据手套可以被很容易地配置为触觉感知模式,并共享第2节中描述的统一主干设计。触觉感知模式测量在复杂的手-物交互中手部施力的分布。第3.1节中描述力传感器的规格;第3.2节详细介绍原型设计;第3.3节进行定性评估。

3.1 力传感器

使用由柔性压敏材料Velostat制成的力传感器网络,在触觉感知模式下提供力的感知。图5(a)[20]显示了Velostat力传感器的多层结构。每个触觉点位(即单点力传感单元)由一个Velostat内层(2 cm × 2 cm)和两层由导电线缝合在一起的中间层导电织物组成,外面被两层外层绝缘织物包围。每个手指上放置一个由两个触觉点位组成的力传感器垫,手掌上放置一个带有4 × 4触觉点位的传感器网格。连接传感器垫和传感器网格的引线被编织成导电线。

由于Velostat的电阻随压力的变化而变化,因此在触觉点位上测量的电压可以视为该区域的力读数。为获取电压读数,使用RPi上的通用出入输出接口(GPIO)控制的模拟多路复用器来并联连接这些Velostat力传感触觉点位,并输出到其串行外设接口(SPI)支持的ADS1256模数转换器(ADC)。具体而言,两个74HC4051复用器用于手掌网格,一个CD74HC4067复用器用于所有手指垫。通过在RPi上的ADC输入通道和多路复用器之间连接一个200 Ω的电阻构建一个分压器电路,如图5(b)[20]所示。

描述了传感器的力-电压关系[56]。对一个触觉点位共施加13个标准重量[0.1~1.0 kg(增量为0.1 kg)、1.2 kg、1.5 kg和2.0 kg],并测量该触觉点位上的相关电压。校准电路与图5(b)[20]相同,只是只连接了相关的触觉点位。以千克为单位的重量被转换为以牛顿为单位的力,重力加速度g=10 m‧s-2。首先测试了用幂次法则[56]来表征一个触觉点位的力-电压关系。结果为F = -1.067V -0.4798 + 3.244,相关系数R 2 = 0.9704,其中F为施加的力,V为输出电压。然而,进一步测试对数定律,得到了一个更好的力-电压关系:F = 0.569 × log (44.98 V),具有更高的R 2 = 0.9902。因此,采用对数拟合来建立触觉点位的电压读数与其所受力之间的对应关系。图5(c)[20]比较了这两种拟合情况。

3.2 原型设计

图1(a)[1920,23]显示了触觉感知手套的原型。通过在每个手指上放置一个Velostat力感知垫(在近端和远端各放一个触觉点位)和在手套的手掌区域上放置一个4 × 4的Velostat力感知网格来实现力的感知。基于建立的力-电压关系,这些触觉点位集体测量手部施力的分布情况。与此同时,15个IMU捕捉运动中的手部姿势。这些组件都连接到RPi,RPi可以被远程访问以实现可视化并随后在本地工作站中使用收集到的手势和施力数据,为收集人工操作数据提供一个简洁的解决方案。

通过测量每个组件之间的电压和电流,研究了原型的功耗。表3报道了每个相关组件在10 min的运行中,通过电压和电流的乘积测出的峰值功率。总功耗为2.72 W,可以很容易地由传统的锂电池供电,在数据收集过程中提供自由的用户体验和自然交互。

3.3 定性评估

通过抓取空、半满和满三种状态的水瓶(重量分别为0.13 kg、0.46 kg和0.75 kg),来分别评估触觉感知手套在区分低、中和高用力方面的性能。参与者被要求自然而简洁地进行抓取——施加的力足够防止瓶子从手中滑落即可。图5(d)[20]展示了这样一个例子。在每个状态下对瓶子进行10次抓取。为简化分析,手掌上的力是手掌网格中所有16个力读数的平均值,每个手指上的力是相应手指垫的平均读数。图5(e)[20]显示了记录的不同区域的手部施力。

4 VR模式

由于本研究数据手套的不同模式共享统一的主干设计,因此只要将手套重新配置为VR模式,就可以在交互过程中获得接触点。首先,需要基于由共享主干获得的感知手势构建一个用于交互的虚拟手部模型(见第4.1节)。接下来,必须开发一种方法来实现对虚拟物体的稳定抓取(见第4.2节)。最后,由于操纵中没有有形物体作为参照,在VR中进行精细地物体抓取存在新的困难;本研究利用触觉反馈来解决这一问题(见4.3节)。第4.4节进行了评估。

4.1 虚拟手模型

产生稳定的抓取是在交互过程中获得接触点的前提。由于遮挡、传感器噪声和有限的视场,现有的基于视觉的手势感知方案,包括LeapMotion [57]和RealSense [58]等商业项目,难以实现稳定的抓取;感兴趣的读者可以参考图6(a)[23],了解LeapMotion传感器在典型场景中的应用。相比之下,现有的VR控制器采用了另一种方法,即当抓取事件被触发时,虚拟物体被直接连接到虚拟手上;如图6(b)[23]所示,这种方法所产生的体验具有最小的真实性,不能反映实际的接触配置。上述限制促使我们开发了一种基于包笼的方法来实现稳定的虚拟抓取,该方法能够实时计算,同时提供足够的真实性;具体例子见图6(c)[23]。

由于手套的可重构性,在VR中创建虚拟手模型只是对第2节中描述的手势感知模块的重复;图7 [23]显示了虚拟手的结构。具体而言,IMU给出局部坐标系中的手势,而配置有HTC Lighthouse系统的VIVE追踪器通过到达时差计算提供手在世界坐标系中的精确定位。

4.2 稳定抓取

在VR中实现虚拟抓取的方法大致可以分为两种,各有其独特的优缺点。一种方法是使用基于物理的碰撞检测仿真,通过模拟柔软的手和由各种材料制成的虚拟物体之间的接触来支持更逼真的操作。尽管这种方法的保真度很高,但它通常需要大量的计算,难以实现实时使用。第二种流行的方法是基于符号和基于规则的抓取。当满足特定条件时,根据一组预定义的规则触发抓取或释放。这种方法计算效率高但真实感不强。

基于可重构手套的系统必须平衡上述两个因素,以在交互过程中获得接触点。它必须提供比基于规则的方法更自然的交互,从而从物体上获得相对准确的接触点,同时确保比高保真物理仿真更有效的计算,从而可以实现实时使用。

本研究设计了一个基于包笼的稳定抓取算法,总结如下。首先,该算法检测手与物体之间的所有碰撞[如图8(a)[23]中的红色区域]。然后,该算法计算手与物体之间的所有碰撞点的几何中心并检查该中心是否在物体内。假设上述情况成立[图8(b)[23]],认为这个物体被笼抓,因此可以被稳定地抓取。物体的物理属性被关闭,允许它们随着手一起移动。否则,只触发手与物体之间的标准碰撞。最后,当碰撞事件结束或碰撞的几何中心在物体之外时,释放被抓住的物体。这个过程确保了抓取只有在包笼形成后才开始,提供了比基于规则的抓取更自然的操作体验和更高的真实感。

4.3 触觉反馈

默认情况下,由于缺乏触觉反馈,参与者在VR模式下操作手套时无法感知虚拟手是否与虚拟物体接触,导致他们无法自然地操作该物体。为填补这一空白,VR模式使用了一个无轴振动电机网络,当相应的虚拟指骨与虚拟物体碰撞时触发该网络,为手指提供振动触觉反馈,与参与者在VR中应该接收到的接触反馈相对应。这些小(10 mm × 2 mm)而轻(0.8 g)的振动电机连接到74HC4051模拟多路复用器并由RPi上的GPIO控制,输入电压为3 V,转速为14 500 r‧min-1。一旦手指碰到虚拟物体,位于手套该区域的振动马达便被激活以提供连续的反馈。当手形成稳定的抓取时,所有的电机都会通电,这样用户就可以保持当前的手势来握住物体。

4.4 定性评价

开展了一项案例研究,要求参与者佩戴VR手套,抓取四个不同形状和功能的虚拟物体,包括杯子、网球拍、碗和鹅玩具(图9 [23])。选择这四个物品的原因如下:①它们是日常物品且几何形状差异较大,可以提供更全面的虚拟抓取评估;②这四个物体都可以根据它们的功能以不同的方式抓取,可以涵盖更多的抓取类型[5960]。首先测试与虚拟物体交互的不同方式,如抓住杯子的把手或边缘。通过集成无约束的细粒度手势,这种多样化的交互实现了一种自然的体验,而这对于现有平台(如LeapMotion)来说是很难实现的。相比之下,本研究的可重构手套在VR模式下成功地平衡了交互的自然性和抓取的稳定性,提高了VR的真实感,使在VR模式下的抓取更接近于现实世界中对物体的操作。

值得注意的是,VR模式下的可重构手套能够跟踪手势,并且即使在参与者的视场之外也能保持稳定的抓取,因此与基于视觉的方法(如LeapMotion传感器)相比具有显著的优势。在一项比较研究中(参与者的手可能在视场之外),VR手套的性能明显超过了LeapMotion(表4),从而证明了VR手套硬件、基于包笼的抓取方法和触觉反馈的有效性。

5 仿真模式

操作事件由手部信息和物体信息组成。以往研究主要关注前者,而没有对后者给予太多关注。事实上,操作事件(如使物体变形或开裂)可能导致物体被遮挡甚至显著地改变形状。这些信息对于理解操作事件至关重要,因为它反映了任务目标。然而,现有的解决方案——即使是那些使用了专门传感器的解决方案——也无法处理这种场景,因此需要一个超出传统数据手套范围的解决方案。

为应对这一挑战,集成了一个最先进的FEM模拟器[19],在操作过程中以数字化的方式重建物体的物理效果。根据使用虚拟手套系统获得的轨迹数据,本研究模拟和呈现了物体的物理和虚拟特性以及它们随时间演变的规律,为理解复杂的操作事件提供了一个新的维度。

5.1 仿真方法

首先介绍固态模拟的简要背景。通常采用FEM [61]进行固态模拟,将每个物体离散成小元素,以离散的样本点作为自由度。然后,质量和动量守恒方程在网格上离散,并随着时间的推移进行积分,以捕获动力学,其中弹性和接触是最重要但最具挑战性的因素。弹性是指物体在外力作用下保持其静止形状的能力,而接触则描述了物体运动轨迹上的无交叉约束。然而,弹性是非线性和非凸的,接触是非光滑的,这两者都会给传统的基于数值方法[62]的固态模拟器带来巨大的困难。最近,Li等[19]提出了增量势接触(IPC),这是一种鲁棒而精确的接触处理方法[6367];它将非光滑接触条件转化为光滑近似垒势,使非光滑接触条件可以用具有全局收敛保证的线搜索方法[6870]与电动力学同时求解。由于IPC能够在不存在数值不稳定问题的情况下持续产生高质量的结果,因此即使有非常大的变形,它也可以方便地模拟复杂的操作事件。

通过测量每对点的位移,进一步扩展原来的IPC来支撑物体断裂;即遍历三角形的所有点对和网格上的所有三角形。若相对于点对的原始距离的位移超过了一定的应变阈值(在本研究中设置为1.1),那么将中间的三角形标记为分隔的。在每个时间步长结束时,根据四面体的面分离信息,使用基于图的方法[71]重建网格拓扑。由于IPC屏障只允许表面基元之间的正距离,因此必须确保在拓扑变化后,分裂面不完全重叠。因此,通过向法线方向的微小位移来扰动分裂面上的重复节点,即使为了简单起见而忽略边缘-边缘接触对,效果也会很好。

5.2 原型设计和输入数据收集

仿真增强手套系统本质上与VR手套相同,除了没有振动马达;然而,它叠加了通过仿真计算得来的力信息。与前述两种以硬件为中心的设计相比,仿真增强手套系统提供了具有细粒度物体动力学的深入物理预测,即几何(如大变形)和拓扑机构(如断裂)是如何演化的。为了展示该系统的有效性,本研究关注工具使用场景,其中用户操作工具(如锤子)作用于目标物体(如螺母),导致几何和(或)拓扑变化。为了收集一组数据,使用另外两个基于手套的系统对手势和姿势进行重建。进一步跟踪工具的运动,以模拟工具和物体之间的相互作用。

具体而言,两个VIVE追踪器分别跟踪基于手套的系统(即手)和工具的运动。第三个追踪器作为目标物体(如螺母)的参考点被固定在桌子上。所有三个VIVE追踪器都进行了校准,使它们的相对姿态和捕获的轨迹可以用相同的坐标表示。预先使用深度照相机扫描目标物体和工具的网格。通过将扫描的网格和捕获的轨迹相结合,可以完全重建代表手和工具运动的一系列三维网格,并模拟目标物体的物理效果。捕获的网格序列作为边界条件直接输入到模拟中,被模拟的自由度主要是目标物体上的自由度。图10显示了砸核桃和切胡萝卜时收集的一些关键帧。需要注意的是,仅使用视觉信息来捕捉物体及其物理属性随时间的变化是极其具有挑战性的。

5.3 仿真设置

在仿真中,物体的材料特性主要反映在刚度上(即物体越硬越难变形或断裂),刚度由杨氏模量和泊松比控制。必须在仿真中适当地设置这些参数,以便产生与物理世界中的参数相匹配的效果。一种材料的杨氏模量和泊松比可以在相关研究[7274]中找到。另一个必须设置的参数是断裂应变阈值,它决定触发压裂时分段的尺寸。对这个参数进行调整,以便模拟器能够重现在物理世界中观察到的效应类型。模拟的时间步长是获取轨迹的VIVE追踪器的采样频率的倒数。

6 应用

本节通过将数据手套重新配置为触觉感知模式(6.1节)、VR模式(6.2节)和仿真模式(6.3节)来展示一系列的应用,以上三种模式共享一个相同的主干设计(见附录A中的视频演示)。

6.1 触觉感知模式

通过捕获打开三种药瓶的操作数据来评估触觉感知模式。其中有两个药瓶配备了不同的锁定机制,需要一系列特定的动作来移除盖子。更具体地说,药瓶1没有安全锁,只要拧一下盖子就能打开。打开药瓶2时,必须按住并旋转盖子。药瓶3的盖子里有一个安全锁,需要挤压一下瓶盖再拧动解锁。值得注意的是,在不使用手套记录施力信息的情况下,很难识别打开药瓶2和药瓶3分别所需的按压和挤压动作。

图11 [20]显示了记录手势和施力信息的数据的例子。图11 [20]中每副小图的第一行显示了打开这三种药瓶所捕获的操作动作序列。第二行显示了红绿蓝(RGB)相机拍摄的相应动作序列,以供参考。

定性地说,与第二行所示的动作序列相比,第一行的可视化结果通过额外的施力信息区分了精细操作动作。例如,图11(b)[20]中的手指平直且平行于瓶盖,而图11(c)[20]的手指类似于抓取姿势。由于人的手和盖子之间的接触点不同,施力标记物的响应也有所不同:图11(b)的高响应集中在手掌区域,而图11(c)[20]中只显示在拇指和食指远端有两处明显的反应。综上所述,这些结果表明在理解精细的操作行为时,需要考虑施力的重要性。

定量地说,图12 [20]显示了在手掌和拇指指尖上收集的一个触觉点位的力以及食指MCP关节的屈曲角度。将这三个读数结合起来可以区分打开三个药瓶的动作序列。更具体地说,由于打开药瓶2涉及按压盖子的动作,触觉手套成功地捕捉到手掌上的高力响应。相比之下,当打开其他两个药瓶时,同一区域的力读数几乎为零。药瓶3的挤压开锁机构需要由拇指施加更大的力。事实上,打开药瓶的动作在拇指的指尖产生了很大的力响应,该动作比打开没有安全锁的药瓶1时持续时间更长。在不接触盖子的情况下,打开药瓶2时拇指不会产生力响应。由于打开药瓶1和药瓶3涉及类似的旋拧动作,因此在这两种情况下,食指MCP关节的屈曲角度都在50°左右。由于打开药瓶2时只有手掌接触盖子而手指则保持拉伸,因此手指的弯曲角度较小。

该手套的一个很有前景的应用是从人类演示中学习精细的操作动作。所收集的触觉数据推动了对机器人在动作功能性理解、模仿学习[12,75]、逆强化学习[76]以及构建增进人类信任的可解释模型[21]方面的研究。图13 [75]展示了机器人学习打开不同药瓶[75]的技巧。

6.2 VR模式

在VR模式下操作时,可重构手套与传统硬件相比具有独特的优势。下文将展示在这种模式下可以有效地收集的两种数据类型。

6.2.1 轨迹

手和物体的轨迹对于机器人从演示中学习来说特别有用。可以在VR中添加不同的物体模型,而不需要使用物理设备来确保自然的手部轨迹。图14 [23]显示了一些收集到的轨迹的定性结果:结合了整体手部姿态和手势感知的手部运动(红线)和五指指尖轨迹(蓝线),以及由手部运动和抓取配置(稳定抓取与否)所导致的被抓取物体的运动(黑线)。这些结果证明了本研究设计的可靠性和在操纵事件中收集的轨迹信息的丰富性。

6.2.2 接触点

获得被操纵物体的接触点是极具挑战性的。尽管进行大量的数据训练,但基于计算机视觉的方法[77] 在处理手与物体之间的遮挡时仍然很困难。本研究的可重构手套在VR模式下可以很好地记录这种类型的数据。VR的物理引擎可以有效地检查虚拟手模型和物体的网格之间的碰撞。这些碰撞不仅决定了是否可以根据4.2节所述的标准稳定抓取物体,并且能够与被抓取物体上的接触点很好地对应。将碰撞点作为球形体积(其半径设置为手指直径)的空间中心,图15显示了不同参与者抓住不同物体时收集的三种接触情况。为了更好地揭示物体的一般抓取习惯,通过对不同轨迹上的接触点的空间位置进行平均并通过高斯分布进行拟合,得到图15底部一行所示的接触点。

机器人学习操作的一个基本挑战是要克服具身的差异[12,78]:人的手(五个手指)和机器人的机械爪(通常是两个或三个手指)有不同的形态。虽然这个问题需要进一步的研究,但通过聚合不同参与者的接触点,也可以找到首选的接触区域(见图15的最后一行)。尽管形态[12]不同,但这些聚合的数据可以用于训练机器人操作策略。

6.3 仿真模式

通过使用最先进的基于物理的仿真,本研究授权数据手套在操作过程中捕获细粒度的物体动态。图16展示了仿真物体在工具使用中的流态变化。即使以120帧每秒的速度记录下来,使用基于视觉的方法来捕捉物体的流态变化(如核桃是如何被砸碎的)仍是具有挑战性的。将收集的轨迹应用到仿真中后,本研究的系统能够呈现视觉上与物理现实相似的物体流态变化[图16(a)],从而揭示过程中发生的关键物理信息[图16(b)]。

6.3.1 结果

图16(a)描述了锤打核桃的各种过程。第一列说明了温和的锤击动作仅向核桃施加了较小的力/能量,致使应力较轻微且迅速消散,胡桃未开裂。当大力锤击核桃时[图16(a)中的第三列],较大的内部应力导致核桃破碎成许多碎片,类似于物理世界中的粉碎现象。这种差异反映在图16(b)中,这是使用基于物理的模拟器获得的。值得注意的是,这些物理量在物理世界中即便借助专业设备也难以测量。

6.3.2 失败示例

图16(a)的第四列展示了一个切胡萝卜的例子。施加的应力沿着将胡萝卜劈成两半的刀刃集中分布。然而,当切割动作完成且刀具抬起时,可以看到刀刃与胡萝卜的碰撞造成了切割周边非预期的断裂,这说明当前模拟器存在局限性。

7 讨论

此处更深入地讨论两个主题:仿真结果是否足够好?仿真结果如何发挥作用?

7.1 仿真结果是否足够好?

关于仿真的一个核心问题是,鉴于仿真在数值上与物理世界中直接测量的结果并不相同,仿真的结果是否有用。本研究认为模拟器确实是有帮助的,因为仿真定性地保留了物理事件,使研究复杂事件成为可能。如图16(b)所示,核桃所受的影响与施加的力有明显的对应。相反,虽然用锤子砸核桃和用刀切胡萝卜施加的能量相似(见图16的第二和第四列),但是所产生的压力在大小上有所不同,因为刀子引入的接触面积比锤子小得多,从而产生了不同的变形和拓扑变化。因此,仿真提供了对物理事件和物体流态变化的定性测量,而非精确的数量。在心理学的直觉物理学文献中也发现了类似的论点:人类通常只对状态如何演变作出近似的预测,有时甚至违反实际的物理定律[79]。这种不准确并不妨碍人类对物体和场景有较强的理解力;相反,它是人类常识的核心组成部分[8082]。在机器人工具使用[8385]和基于物理知识的场景理解[8694]方面的最新研究也证明了物理学在理解物体和场景方面的重要作用。

7.2 仿真结果如何发挥作用?

仿真产生的细粒度物体效应为研究现有的AI和机器人问题开辟了新的途径。例如,将任务规划和运动规划[9597]相结合是规划领域的一大挑战。仿真可以在两个方面帮助解决这一挑战[83]:①通过将模糊的任务符号与期望的结果(如“砸开”的动作符号)联系起来,②通过对隐式目标规范进行建模(如“砸开”的状态)。此外,仿真可用于增强现有的数据集,如抓取中的GARB [98]和GenDexHand [84]以及在场景理解方面的HUMANISE [99]、CHAIRS [100]和LEMMA [101]与不可观察到的信息。最终,本研究希望这种基于物理仿真的4D数据可以揭示操作中的几个深刻问题:选择某一物体的内容和原因(即涉及的物理原理)、如何正确地操作该物体(即其可见性)、参与者试图达到的效果(即参与者的任务目标)以及当目标未实现会发生什么(即规划和重新规划)。

8 结论

本研究提出了基于一个统一的主干设计的三种不同的手套系统配置,这不同于大多数只捕捉手势的传统数据手套。在触觉感知模式下,利用压敏Velostat材料,手套可以在操作事件中聚合手部施力信息。在VR模式下,通过结合基于包笼的方法,手套可以将感知到的手势重建为虚拟手,促进VR中的手-物交互,从而实现对虚拟物体的稳定抓取,同时提供振动触觉反馈。在仿真模式下,FEM拟器基于手部相关运动产生细粒度的物体流态变化和物理属性,从而形成4D操作事件。

本研究评估了该系统的组件,包括IMU、Velostat力传感器触觉点位和振动电机提供的触觉反馈,以证明该设计的能力和有效性。通过①捕捉力和手势的时空信号、②记录手的轨迹和在物体上的接触点以及③收集具有挑战性的4D操作事件(如工具使用),证明提出的基于手套的系统可以在机器人向人类学习和促进具身AI相关研究中发挥关键作用。

参考文献

[1]

Pinto L, Gupta A. Supersizing self-supervision: learning to grasp from 50K tries and 700 robot hours. In: Proceedings of IEEE International Conference on Robotics and Automation (ICRA 2016); 2016 May 16‒21; Stockholm, Sweden. New York City: IEEE; 2016. . 10.1109/icra.2016.7487517

[2]

Mahler J, Matl M, Satish V, Danielczuk M, DeRose B, McKinley S, et al. Learning ambidextrous robot grasping policies. Sci Robot 2019;4(26):eaau4984. . 10.1126/scirobotics.aau4984

[3]

Zeng A, Song S, Yu KT, Donlon E, Hogan FR, Bauza M, et al. Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching. In: Proceedings of IEEE International Conference on Robotics and Automation (ICRA 2018); 2018 May 21‍‒‍25; Brisbane, QLD, Australia. New York City: IEEE; 2018. . 10.1109/icra.2018.8461044

[4]

Cini F, Ortenzi V, Corke P, Controzzi M. On the choice of grasp type and location when handing over an object. Sci Robot 2019;4(27):eaau9757. . 10.1126/scirobotics.aau9757

[5]

Yahya A, Li A, Kalakrishnan M, Chebotar Y, Levine S. Collective robot reinforcement learning with distributed asynchronous guided policy search. In: Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2017); 2017 Sep 24‒28; Vancouver, BC, Canada. New York City: IEEE; 2017. p. 79‒86. . 10.1109/iros.2017.8202141

[6]

Schaal S, Ijspeert A, Billard A. Computational approaches to motor learning by imitation. Phil Trans R Soc Lond B 2003;358(1431):537‒47. . 10.1098/rstb.2002.1258

[7]

Maeda G, Ewerton M, Koert D, Peters J. Acquiring and generalizing the embodiment mapping from human observations to robot skills. IEEE Robot Autom Lett 2016;1(2):784‒91. . 10.1109/lra.2016.2525038

[8]

Nguyen A, Kanoulas D, Caldwell DG, Tsagarakis NG. Detecting object affordances with convolutional neural networks. In: Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2016); 2016 Oct 9‒14; Daejeon, Republic of Korea. New York City: IEEE; 2016. p. 2765‒70. . 10.1109/iros.2016.7759429

[9]

Kokic M, Stork JA, Haustein JA, Kragic D. Affordance detection for task-specific grasping using deep learning. In: Proceedings of 2017 IEEE-RAS 17th International Conference on Humanoid Robotics (Humanoids); 2017 Nov 15‒17; Birmingham, UK. New York City: IEEE; 2017. p. 91‒8. . 10.1109/humanoids.2017.8239542

[10]

Mohseni-Kabir A, Rich C, Chernova S, Sidner CL, Miller D. Interactive hierarchical task learning from a single demonstration. In: Proceedings of the 2015 10th Annual ACM/IEEE International Conference on Human‍‒‍Robot Interaction; 2015 Mar 2‒5; Portland, OR, USA. New York City: IEEE; 2015. p. 205‒12. . 10.1145/2696454.2696474

[11]

Xiong C, Shukla N, Xiong W, Zhu SC. Robot learning with a spatial, temporal, and causal and‍‒‍or graph. In: Proceedings of 2016 IEEE International Conference on Robotics and Automation (ICRA 2016); 2016 May 16‍‒‍21; Stockholm, Sweden. New York City: IEEE; 2016. p. 2144‒51. . 10.1109/icra.2016.7487364

[12]

Liu H, Zhang C, Zhu Y, Jiang C, Zhu SC. Mirroring without overimitation:. . 10.1609/aaai.v33i01.33018025

[13]

learning functionally equivalent manipulation actions. In: Proceedings of the AAAI Conference on Artificial Intelligence (AAAI); 2019 Jan 27‍‒‍Feb 1; Honolulu, HI, USA. 2019. p. 8025‒33. . 10.1609/aaai.v33i01.33018025

[14]

Abbeel P, Ng AY. Apprenticeship learning via inverse reinforcement learning. In: Proceedings of the 21st International Conference on Machine Learning (ICML 2004); 2004 Jul 4‒8; Banff, AB, Canada. New York City: Association for Computing Machinery (ACM); 2004. . 10.1145/1015330.1015430

[15]

Prieur U, Perdereau V, Bernardino A. Modeling and planning high-level in-hand manipulation actions from human knowledge and active learning from demonstration. In: Proceedings of 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems; 2012 Oct 7‒12; Vilamoura-Algarve, Portugal. New York City: IEEE; 2012. p. 1330‒6. . 10.1109/iros.2012.6386090

[16]

Ibarz B, Leike J, Pohlen T, Irving G, Legg S, Amodei D. Reward learning from human preferences and demonstrations in Atari. In: Proceedings of the 32nd Conference on Advances in Neural Information Processing Systems (NeurIPS 2018); 2018 Dec 3‒8; Montréal, QC, Canada. Red Hook: Curran Associates Inc.; 2018. p. 1‒13.

[17]

Xie X, Liu H, Zhang Z, Qiu Y, Gao F, Qi S, et al. VRGym: a virtual testbed for physical and interactive AI. In: Proceedings of the ACM Turing Celebration Conference-China; 2019 May 17‍‒‍19; Chengdu, China. New York City: Association for Computing Machinery; 2019. p. 1‒6. . 10.1145/3321408.3322633

[18]

Li C, Xia F, Martín-Martín R, Lingelbach M, Srivastava S, Shen B, et al. IGibson 2.0: bject-centric simulation for robot learning of everyday household tasks. In: Proceedings of the 5th Annual Conference on Robot Learning (CoRL 2021); 2021 Nov 8‒11; online; 2021.

[19]

Szot A, Clegg A, Undersander E, Wijmans E, Zhao Y, Turner J, et al. Habitat 2.0: training home assistants to rearrange their habitat. In: Proceedings of 35th Conference on Neural Information Processing Systems (NeurIPS 2021); 2021 Dec 6‒14; online; 2021.

[20]

Li M, Ferguson Z, Schneider T, Langlois T, Zorin D, Panozzo D, et al. Incremental potential contact: intersection-and inversion-free, large-deformation dynamics. ACM Trans Graph 2020;39(4):49. . 10.1145/3386569.3392425

[21]

Liu H, Xie X, Millar M, Edmonds M, Gao F, Zhu Y, et al. A glove-based system for studying hand‒object manipulation via joint pose and force sensing. In: Proceedings of 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS); 2019 Sep 24‒28; Vancouver, BC, Canada. New York City: IEEE; 2017. p. 6617‒24. . 10.1109/iros.2017.8206575

[22]

Edmonds M, Gao F, Liu H, Xie X, Qi S, Rothrock B, et al. A tale of two explanations: enhancing human trust by explaining robot behavior. Sci Robot 2019;4(37):aay4663. . 10.1126/scirobotics.aay4663

[23]

Brahmbhatt S, Ham C, Kemp CC, Hays J. ContactDB: analyzing and predicting grasp contact via thermal imaging. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2019); 2019 Jun 15‒20; Long Beach, CA, USA. New York City: IEEE; 2019. p. 8701‒11. . 10.1109/cvpr.2019.00891

[24]

Liu H, Zhang Z, Xie X, Zhu Y, Liu Y, Wang Y, et al. High-fidelity grasping in virtual reality using a glove-based system. In: Proceedings of the 2019 International Conference on Robotics and Automation (ICRA 2019); 2019 May 20‒24; Montreal, QC, Canada. New York City: IEEE; 2019. p. 5180‒6. . 10.1109/icra.2019.8794230

[25]

Duan K, Parikh D, Crandall D, Grauman K. Discovering localized attributes for fine-grained recognition. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2012); 2012 Jun 16‍‒‍21; Providence, RI, USA. New York City: IEEE; 2012. p. 3474‒81. . 10.1109/cvpr.2012.6248089

[26]

Liu Y, Wei P, Zhu SC. Jointly recognizing object fluents and tasks in egocentric videos. In: Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV); 2017 Oct 22‒29; Venice, Italy. New York City: IEEE; 2017. p. 2943‒51. . 10.1109/iccv.2017.318

[27]

Nagarajan T, Grauman K. Attributes as operators: factorizing unseen attribute-object compositions. In: Proceedings of European Conference on Computer Vision (ECCV 2018); 2018 Sep 8‒14; Munich, Germany. Berlin: Springer; 2018. p. 172‒90. . 10.1007/978-3-030-01246-5_11

[28]

Newton I, Colson J. The method of fluxions and infinite series; with its application to the geometry of curve-lines. London: Henry Woodfall; 1736.

[29]

Dipietro L, Sabatini AM, Dario P. A survey of glove-based systems and their applications. IEEE Trans Syst Man Cybern Part C 2008;38(4):461‒82. . 10.1109/tsmcc.2008.923862

[30]

Kramer RK, Majidi C, Sahai R, Wood RJ. Soft curvature sensors for joint angle proprioception. In: Proceedings of 2011 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2011); 2011 Sep 25‒30; San Francisco, CA, USA. New York City: IEEE; 2011. p. 1919‒26. . 10.1109/iros.2011.6094701

[31]

Kamel NS, Sayeed S, Ellis GA. Glove-based approach to online signature verification. IEEE Trans Pattern Anal Mach Intell 2008;30(6):1109‒13. . 10.1109/tpami.2008.32

[32]

Oh J, Kim S, Lee S, Jeong S, Ko SH, Bae J. A liquid metal based multimodal sensor and haptic feedback device for thermal and tactile sensation generation in virtual reality. Adv Funct Mater 2021;31(39):2007772. . 10.1002/adfm.202170285

[33]

Wang M, Yan Z, Wang T, Cai P, Gao S, Zeng Y, et al. Gesture recognition using a bioinspired learning architecture that integrates visual data with somatosensory data from stretchable sensors. Nat Electron 2020;3(9):563‒70. . 10.1038/s41928-020-0422-z

[34]

Wen F, Sun Z, He T, Shi Q, Zhu M, Zhang Z, et al. Machine learning glove using self-powered conductive superhydrophobic triboelectric textile for gesture recognition in VR/AR applications. Adv Sci 2020;7(14):2000261. . 10.1002/advs.202000261

[35]

Taylor T, Ko S, Mastrangelo C, Bamberg SJM. Forward kinematics using IMU on-body sensor network for mobile analysis of human kinematics. In: Proceedings of 2013 35th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC 2013); 2013 Jul 3‍‒‍7; Osaka, Japan. New York City: IEEE; 2013. p. 1230‒3. . 10.1109/embc.2013.6609729

[36]

Kortier HG, Sluiter VI, Roetenberg D, Veltink PH. Assessment of hand kinematics using inertial and magnetic sensors. J NeuroEng Rehabil 2014;11(1):70. . 10.1186/1743-0003-11-70

[37]

Hu B, Ding T, Peng Y, Liu L, Wen X. Flexible and attachable inertial measurement unit (IMU)-based motion capture instrumentation for the characterization of hand kinematics: a pilot study. Instrum Sci Technol 2020;49(2):125‒45. . 10.1080/10739149.2020.1789657

[38]

Santaera G, Luberto E, Serio A, Gabiccini M, Bicchi A. Low-cost, fast and accurate reconstruction of robotic and human postures via IMU measurements. In: Proceedings of 2015 IEEE International Conference on Robotics and Automation (ICRA 2015); 2015 May 26‒30; Seattle, WA, USA. New York City: IEEE; 2015. p. 2728‒35. . 10.1109/icra.2015.7139569

[39]

Ligorio G, Sabatini AM. Extended Kalman filter-based methods for pose estimation using visual, inertial and magnetic sensors: comparative analysis and performance evaluation. Sensors 2013;13(2):1919‒41. . 10.3390/s130201919

[40]

Kortier HG, Antonsson J, Schepers HM, Gustafsson F, Veltink PH. Hand pose estimation by fusion of inertial and magnetic sensing aided by a permanent magnet. IEEE Trans Neural Syst Rehabiln Eng 2015;23(5):796‒806. . 10.1109/tnsre.2014.2357579

[41]

Hammond FL, Mengucˇ Y, Wood RJ. Toward a modular soft sensor-embedded glove for human hand motion and tactile pressure measurement. In: Proceedings of 2014 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2014); 2014 Sep 14‒18; Chicago, IL, USA. New York City: IEEE; 2014. p. 4000‒7. . 10.1109/iros.2014.6943125

[42]

Gu Y, Sheng W, Liu M, Ou Y. Fine manipulative action recognition through sensor fusion. In: Proceedings of 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2015); 2015 Sep 28‒Oct 2; Hamburg, Germany. New York City: IEEE; 2015. p. 886‒91. . 10.1109/iros.2015.7353476

[43]

Mohammadi M, Baldi TL, Scheggi S, Prattichizzo D. Fingertip force estimation via inertial and magnetic sensors in deformable object manipulation. In: Proceedings of the International Symposium on Haptic Interfaces for Virtual Environment and Teleoperator Systems (HAPTICS 2016); 2016 Apr 8‒11; Philadelphia, PA, USA. New York City: IEEE; 2016. p. 284‒9. . 10.1109/haptics.2016.7463191

[44]

Lin BS, Lee IJ, Chen JL. Novel assembled sensorized glove platform for comprehensive hand function assessment by using inertial sensors and force sensing resistors. IEEE Sensors J 2020;20(6):3379‒89. . 10.1109/jsen.2019.2958533

[45]

Battaglia E, Bianchi M, Altobelli A, Grioli G, Catalano MG, Serio A, et al. ThimbleSense: a fingertip-wearable tactile sensor for grasp analysis. IEEE Trans Haptics 2016;9(1):121‒33. . 10.1109/toh.2015.2482478

[46]

Low JH, Khin PM, Yeow CH. A pressure-redistributing insole using soft sensors and actuators. In: Proceedings of 2015 IEEE International Conference on Robotics and Automation (ICRA 2015); 2015 May 26‒30; Seattle, WA, USA. New York City: IEEE; 2015. p. 2926‒30. . 10.1109/icra.2015.7139599

[47]

Pugach G, Melnyk A, Tolochko O, Pitti A, Gaussier P. Touch-based admittance control of a robotic arm using neural learning of an artificial skin. In: Proceedings of 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2016); 2016 Oct 9‒14; Daejeon, Republic of Korea. New York City: IEEE; 2016. p. 3374‒80. . 10.1109/iros.2016.7759519

[48]

Müller S, Schröter C, Gross HM. Smart fur tactile sensor for a socially assistive mobile robot. In: Proceedings of International Conference on Intelligent Robotics and Applications (ICIRA 2015); 2015 Aug 24‒27; Portsmouth, UK. Berlin: Springer; 2015. p. 49‒60. . 10.1007/978-3-319-22876-1_5

[49]

Jeong E, Lee J, Kim D. Finger-gesture recognition glove using Velostat. In: Proceedings of 2011 11th International Conference on Control, Automation and Systems (ICCAS 2011); 2011 Oct 26‒29; Gyeonggi-do, Republic of Korea. New York City: IEEE; 2011. p. 206‒10.

[50]

Boulic R, Rezzonico S, Thalmann D. Multi-finger manipulation of virtual objects. In: Proceedings of the ACM Symposium on Virtual Reality Software and Technology (VRST 1996); 1996 Jul 1‒4; Hong Kong, China. New York City: Association for Computing Machinery (ACM); 1996. p. 67‒74. . 10.1145/3304181.3304195

[51]

Choi H, Crump C, Duriez C, Elmquist A, Hager G, Han D, et al. On the use of simulation in robotics: opportunities, challenges, and suggestions for moving forward. Proc Nat Acad Sci USA 2019;118(1):e1907856118.

[52]

Hu Y, Liu J, Spielberg A, Tenenbaum JB, Freeman WT, Wu J, et al. ChainQueen: a real-time differentiable physical simulator for soft robotics. In: Proceedings of 2019 International Conference on Robotics and Automation (ICRA 2019); 2019 Dec 4‒6; Montréal, QC, Canada. 2019. p. 6265‒71. . 10.1109/icra.2019.8794333

[53]

Kennedy M, Schmeckpeper K, Thakur D, Jiang C, Kumar V, Daniilidis K. Autonomous precision pouring from unknown containers. IEEE Robot Autom Lett 2019;4(3):2317‒24. . 10.1109/lra.2019.2902075

[54]

Heiden E, Macklin M, Narang Y, Fox D, Garg A, Ramos F. DiSECt: a differentiable simulation engine for autonomous robotic cutting. In: Proceedings of the 2021 Robotics: Science and Systems (RSS 2021); 2021 Jul 12‒16; online. New York City: IEEE; 2021. . 10.15607/rss.2021.xvii.067

[55]

Wolper J, Fang Y, Li M, Lu J, Gao M, Jiang C. CD-MPM: continuum damage material point methods for dynamic fracture animation. ACM Trans Graph 2019;38(4):119. . 10.1145/3306346.3322949

[56]

Lin J, Wu Y, Huang TS. Modeling the constraints of human hand motion. In: Proceeding Workshop on Human Motion; 2000 Dec 7‒8; Austin, TX, USA. New York City: IEEE; 2000. p. 121‒6. . 10.1109/humo.2000.897381

[57]

Lee BW, Shin H. Feasibility study of sitting posture monitoring based on piezoresistive conductive film-based flexible force sensor. IEEE Sensors J 2016;16(1):15‒6. . 10.1109/jsen.2015.2480600

[58]

Leap motion controller [Internet]. Mountain View: ultraleap; [cited 2023 Jan 5]. Available from: 10.36872/lepi/v51i2/301077

[59]

Intel® RealSenseTM Technology [Internet]. Santa Clara: Intel; [cited 2023 Jan 5]. Available from: 10.1535/itj.1002.01

[60]

Feix T, Romero J, Schmiedmayer HB, Dollar AM, Kragic D. The GRASP Taxonomy of human grasp types. IEEE Trans Hum Mach Syst 2016;46(1):66‒77. . 10.1109/thms.2015.2470657

[61]

Liu T, Liu Z, Jiao Z, Zhu Y, Zhu SC. Synthesizing diverse and physically stable grasps with arbitrary hand structures using differentiable force closure estimator. IEEE Robot Autom Lett 2022;7(1):470‒7. . 10.1109/lra.2021.3129138

[62]

Zienkiewicz OC, Taylor RL. The finite element method, volume 2: solid mechanics. 5th ed. Oxford: Butterworth-Heinemann; 2000.

[63]

Li M. Robust and accurate simulation of elastodynamics and contact [dissertation]. Pennsylvania: University of Pennsylvania; 2020.

[64]

Li M, Kaufman DM, Jiang C. Codimensional incremental potential contact. ACM Trans Graph 2021;40(4):170. . 10.1145/3476576.3476756

[65]

Fang Y, Li M, Jiang C, Kaufman DM. Guaranteed globally injective 3D deformation processing. ACM Trans Graph 2021;40(4):75. . 10.1145/3476576.3476629

[66]

Ferguson Z, Li M, Schneider T, Gil-Ureta F, Langlois T, Jiang C, et al. Intersection-free rigid body dynamics. ACM Trans Graph 2021;40(4):183. . 10.1145/3476576.3476773

[67]

Lan L, Yang Y, Kaufman DM, Yao J, Li M, Jiang C. Medial IPC: accelerated incremental potential contact with medial elastics. ACM Trans Graph 2021;40(4):158. . 10.1145/3450626.3459753

[68]

Zhao Y, Choo J, Jiang Y, Li M, Jiang C, Soga K. A barrier method for frictional contact on embedded interfaces. 2021. arXiv:10.1016/j.cma.2022.114820

[69]

Li M, Gao M, Langlois T, Jiang C, Kaufman DM. Decomposed optimization time integrator for large-step elastodynamics. ACM Trans Graph 2019;38(4):70. . 10.1145/3306346.3322951

[70]

Wang X, Li M, Fang Y, Zhang X, Gao M, Tang M, et al. Hierarchical optimization time integration for CFL-rate MPM stepping. ACM Trans Graph 2020;39(3):21. . 10.1145/3386760

[71]

Nocedal J, Wright S. Numerical optimization. Berlin: Springer Science & Business Media; 2006. . 10.1007/978-0-387-40065-5

[72]

Hegemann J, Jiang C, Schroeder C, Teran JM. A level set method for ductile fracture. In: Proceedings of ACM SIGGRAPH/Eurographics Symposium on Computer Animation (SCA); 2013 Jul 19‒21; Anaheim, CA, USA. New York City: Association for Computing Machinery (ACM); 2013. p. 193‒202. . 10.1145/2485895.2485908

[73]

Bourne M. Food texture and viscosity: concept and measurement. Amsterdam: Elsevier; 2002. . 10.1016/b978-012119062-0/50006-1

[74]

Williams SH, Wright BW, Truong V, Daubert CR, Vinyard CJ. Mechanical properties of foods used in experimental studies of primate masticatory function. Am J Primatol 2005;67(3):329‒46. . 10.1002/ajp.20189

[75]

Kiani M, Maghsoudi H, Minaei S. Determination of Poisson’s ratio and Young’s modulus of red bean grains. J Food Process Eng 2011;34(5):1573‒83. . 10.1111/j.1745-4530.2009.00391.x

[76]

Edmonds M, Gao F, Xie X, Liu H, Qi S, Zhu Y, et al. Feeling the force: integrating force and pose for fluent discovery through imitation learning to open medicine bottles. In: Proceedings of 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2017); 2017 Sep 24‒28; Vancouver, BC, Canada. New York City: IEEE; 2017. p. 3530‒7. . 10.1109/iros.2017.8206196

[77]

Xie X, Li C, Zhang C, Zhu Y, Zhu SC. Learning virtual grasp with failed demonstrations via Bayesian inverse reinforcement learning. In: Proceedings of 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2019); 2019 Nov 3‒8; Macao, China. New York City: IEEE; 2019. p. 1812‒7. . 10.1109/iros40897.2019.8968063

[78]

Rautaray SS, Agrawal A. Vision based hand gesture recognition for human computer interaction: a survey. Artif Intell Rev 2015;43(1):1‒54. . 10.1007/s10462-012-9356-9

[79]

Dautenhahn K, Nehaniv CL. Imitation in animals and artifacts. Cambridge: MIT Press; 2002. . 10.7551/mitpress/3676.001.0001

[80]

Kubricht HKJ, Lu H. Intuitive physics: current research and controversies. Trends Cogn Sci 2017;21(10):749‒59. . 10.1016/j.tics.2017.06.002

[81]

Spelke ES. What babies know: core knowledge and composition, volume 1. Oxford: Oxford University Press; 2022. . 10.1093/oso/9780190618247.001.0001

[82]

Spelke ES, Kinzler KD. Core knowledge. Dev Sci 2007;10(1):89‒96. . 10.1111/j.1467-7687.2007.00569.x

[83]

Zhu Y, Gao T, Fan L, Huang S, Edmonds M, Liu H, et al. Dark, beyond deep: a paradigm shift to cognitive AI with humanlike common sense. Engineering 2020;6(3):310‒45. . 10.1016/j.eng.2020.01.011

[84]

Zhang Z, Jiao Z, Wang W, Zhu Y, Zhu SC, Liu H. Understanding physical effects for effective tool-use. IEEE Robot Autom Lett 2022;7(4):9469‒76. . 10.1109/lra.2022.3191793

[85]

Li P, Liu T, Li Y, Geng Y, Zhu Y, Yang Y, et al. GenDexGrasp: generalizable dexterous grasping. 2022. arXiv:10.1109/icra48891.2023.10160667

[86]

Zhu Y, Zhao Y, Zhu SC. Understanding tools: task-oriented object modeling, learning and recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2015); 2015 Jun 7‒12; Boston, MA, USA. New York City: IEEE; 2015. p. 2855‒64. . 10.1109/cvpr.2015.7298903

[87]

Han M, Zhang Z, Jiao Z, Xie X, Zhu Y, Zhu SC, et al. Scene reconstruction with functional objects for robot autonomy. Int J Comput Vis 2022;130(12):2940‒61. . 10.1007/s11263-022-01670-0

[88]

Han M, Zhang Z, Jiao Z, Xie X, Zhu Y, Zhu SC, et al. Reconstructing interactive 3D scene by panoptic mapping and cad model alignments. In: Proceedings of 2021 IEEE International Conference on Robotics and Automation (ICRA 2021); 2021 May 30‒Jun 5; Xi’an, China. New York City: IEEE; 2021. p. 12199‒206. . 10.1109/icra48506.2021.9561546

[89]

Chen Y, Huang S, Yuan T, Zhu Y, Qi S, Zhu SC. Holistic++ scene understanding: single-view 3D holistic scene parsing and human pose estimation with human‒object interaction and physical commonsense. In: Proceedings of 2019 IEEE/CVF International Conference on Computer Vision (ICCV 2019); 2019 Oct 27‒Nov 2; Seoul, Republic of Korea. New York City: IEEE; 2019. p. 8647‒56. . 10.1109/iccv.2019.00874

[90]

Huang S, Qi S, Xiao Y, Zhu Y, Wu YN, Zhu SC. Cooperative holistic scene understanding: unifying 3D object, layout and camera pose estimation. In: Proceedings of Proceedings of the 32nd International Conference on Neural Information Processing Systems (NeurIPS 2018); 2018 Dec 3‒8; Montréal, QC, Canada. Red Hook: Curran Associates Inc.; 2018. p. 206‒17.

[91]

Huang S, Qi S, Zhu Y, Xiao Y, Xu Y, Zhu SC. Holistic 3D scene parsing and reconstruction from a single RGB image. In: Proceedings of 2018 15th European Conference on Computer Vision (ECCV 2018); 2018 Sep 14‒18; Munich, Germany. Berlin: Springer; 2018. p. 194‒211. . 10.1007/978-3-030-01234-2_12

[92]

Li C, Liang W, Quigley C, Zhao Y, Yu LF. Earthquake safety training through virtual drills. IEEE Trans Vis Comput Graph 2017;23(4):1275‒84. . 10.1109/tvcg.2017.2656958

[93]

Zhu Y, Jiang C, Zhao Y, Terzopoulos D, Zhu SC. Inferring forces and learning human utilities from videos. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2016); 2016 Jun 27‒30; Las Vegas, NV, USA. New York City: IEEE; 2016. p. 3823‒33. . 10.1109/cvpr.2016.415

[94]

Zheng B, Zhao Y, Yu J, Ikeuchi K, Zhu SC. Scene understanding by reasoning stability and safety. Int J Comput Vis 2015;112(2):221‒38. . 10.1007/s11263-014-0795-4

[95]

Zheng B, Zhao Y, Yu JC, Ikeuchi K, Zhu SC. Beyond point clouds: scene understanding by reasoning geometry and physics. In: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2013); 2013 Jun 23‒28; Portland, OR, USA. New York City: IEEE; 2013. p. 3127‒34. . 10.1109/cvpr.2013.402

[96]

Jiao Z, Zhang Z, Wang W, Han D, Zhu SC, Zhu Y, et al. Efficient task planning for mobile manipulation: a virtual kinematic chain perspective. In: Proceedings of 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2021); 2021 Sep 27‒Oct 1; Prague, Czech Republic. New York City: IEEE; 2021. p. 8288‒94. . 10.1109/iros51168.2021.9636554

[97]

Jiao Z, Zhang Z, Jiang X, Han D, Zhu SC, Zhu Y, et al. Consolidating kinematic models to promote coordinated mobile manipulations. In: Proceedings of 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2021); 2021 Sep 27‒Oct 1; Prague, Czech Republic. New York City: IEEE; 2021. p. 979‒85. . 10.1109/iros51168.2021.9636351

[98]

Jiao Z, Niu Y, Zhang Z, Zhu SC, Zhu Y, Liu H. Sequential manipulation planning on scene graph. In: Proceedings of 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2022); 2022 Oct 23‒27; Kyoto, Japan. New York City: IEEE; 2022. p. 8203‒10. . 10.1109/iros47612.2022.9981735

[99]

Taheri O, Ghorbani N. Black MJ, Tzionas D. GRAB: a dataset of whole-body human grasping of objects. In: Proceedings of 16th European Conference on Computer Vision (ECCV 2020); 2020 Aug 23‍‒‍28, Glasgow, UK. Berlin: Springer; 2020. p. 581‒600. . 10.1007/978-3-030-58548-8_34

[100]

Wang Z, Chen Y, Liu T, Zhu Y, Liang W, Huang S. HUMANISE: language-conditioned human motion generation in 3D scenes. In: Proceedings of 36th Conference on Neural Information Processing Systems (NeurIPS 2022); 2022 Nov 28‒Dec 9; New Orleans, LA, USA. Red Hook: Curran Associates Inc.; 2022.

[101]

Jiang N, Liu T, Cao Z, Cui J, Chen Y, Wang H, et al. CHAIRS: towards full-body articulated human‒object interaction. 2022. arXiv:10.1109/iccv51070.2023.00859

[102]

Jia B, Chen Y, Huang S, Zhu Y, Zhu SC. LEMMA: a multi-view dataset for learning multi-agent multi-task activities. In: Proceedings of European Conference on Computer Vision (ECCV 2020); 2020 Aug 23‒28; Glasgow, UK. Berlin: Springer; 2020. p. 1‒7. . 10.1007/978-3-030-58574-7_46

AI Summary AI Mindmap
PDF (2672KB)

Supplementary files

Supplementary Material

3965

访问

0

被引

详细

导航
相关文章

AI思维导图

/