Collaborative Multiple Autonomous Systems

  • Jianru Xue 1 ,
  • Jianwu Fang 2 ,
  • Shanming Pang 1, 2, 4 ,
  • Nanning Zheng 2
Expand
  • 1National Key Laboratory of Human‒Machine Hybrid Augmented Intelligence, Xi’an 710049, China
  • 2National Key Laboratory of Human‒Machine Hybrid Augmented Intelligence, Xi’an 710049, China
  • 3College of Control Science and Engineering, Zhejiang University, Hangzhou 310027, China
  • 4School of Software Engineering, Xi’an Jiaotong University, Xi’an 710049, China

Received date: 20 Dec 2023

Published date: 22 May 2024

Abstract

Collaborative intelligence formed via information and behavioral interactions of multiple autonomous systems is an inevitable trend of future intelligent systems. It is a focus of planning of the next-generation artificial intelligence in China and is crucial for supporting national security and strengthening the manufacturing industry. Research aimed at overcoming bottlenecks regarding collaborative multiple autonomous systems will significantly aid the advancement of intelligent industries and accelerate industrial transformation and upgrading in China. Focusing on the challenge that collaborative multiple autonomous systems cannot adapt to complex tasks, this study thoroughly analyzes the research status and major bottlenecks of collaborative multiple autonomous systems from the aspects of fundamental research and engineering. Using multi-robot collaborative intelligent manufacturing as an example, we provide an in-depth analysis of relevant theoretic and technical problems. Our research indicates that collaborative multiple autonomous systems will inevitably evolve toward human ‒ machine teaming. To master this opportunity, it is critical to proactively lay the groundwork for the theoretical exploration and technological breakthroughs of human‒machine teaming and to conduct exemplary applications.

Cite this article

Jianru Xue , Jianwu Fang , Shanming Pang , Nanning Zheng . Collaborative Multiple Autonomous Systems[J]. Strategic Study of Chinese Academy of Engineering, 2024 , 26(1) : 101 -116 . DOI: 10.15302/J-SSCAE-2024.01.013

一、 前言

多机协同智能是指多个自主智能系统或智能机器人(以下简称为单机)通过信息交互和行为交互所构成的在时间、空间、模式和任务等多维度进行协同的智能系统。这类智能系统通常包含两个及以上的单机,呈现出的整体功能、性能超过各单机之和。组成多机协同智能的单机包括自主移动作业机器人、无人飞行器、无人车辆、无人舰船、无人潜器等,这里的单机是指高度融合机械化、信息化的系统,能自主完成指定任务。多机协同智能不仅拓展了单机的物理域、信息域和作业范围,也显著提升了单机面对复杂环境和任务的感知 ‒ 执行综合效能。
近年来,人工智能技术的快速发展给多机协同智能带来了新的发展机遇,并在国防、社会安全、工业制造等领域展示出广阔的应用前景。世界主要国家和地区均从顶层战略布局推动多机协同智能技术发展。我国发布的《新一代人工智能发展规划》(2017年)将多机协同智能列为重点发展方向和支撑“新基建”发展的重点技术领域[1],美国发布了《机器人计划2.0》(2017年)和《无人机集群计划(2019—2021年)》,欧盟部署了多个海陆空多机协同跨域感知项目等。各国竞相布局的多机协同智能发展战略重点呈现出从多机协作智能向群体协同智能演化、从完成单一任务拓展为胜任多类任务的发展趋势。
同时,多机协同智能的应用场景日益丰富,尤其是智能制造领域的多个自主作业机器人构成的多机协同智能制造系统呈现出柔性、灵活配置等特点,正在逐步适应日益复杂的任务,并形成了从前沿理论探索、关键技术突破到应用场景示范的良性迭代发展模式。多机协同智能制造已经发展成为智能制造领域的变革性战略技术,各国纷纷通过顶层规划抢占产业发展制高点,国际知名研究机构也在积极开展机器人协同作业技术攻关。
从多机协同智能创新技术链角度看,与发达国家相比,我国在基础性的模型、算法等环节处于“跟跑”,在定位导航、目标检测跟踪、集群调度等关键技术上处于个别“领跑”、大多数“并跑”的状态,而在支撑多机协同智能的先进通信基础设施方面则表现出十分突出的优势。梳理多机协同智能领域国内外研究现状,深入分析制约关键技术发展的主要瓶颈性问题,结合国情进行顶层设计,集中优势科研力量攻关重点任务,对于发展新质生产力推动我国智能产业高质量发展、加快推进新型工业化具有重要意义。
本文基于多机协同智能系统难以适应现实世界开放环境中复杂任务这一挑战,从基础理论和核心关键技术两个层面分析多机协同智能的研究现状,并以多机协同智能制造为典型应用,剖析理论与技术发展面临的挑战性问题,凝练核心科学问题,构建关键技术体系,并通过研判发展趋势,提出及早布局人机群组智能的基础理论研究、关键技术和典型应用示范的研究建议。

二、 多机协同智能面临的主要挑战与科学问题

多机协同智能系统由多个自治、交互的异构智能系统组成。研究目标是设计和实现多个智能系统之间的协作与竞争机制,使每个单机在达成自身目标的同时实现综合效能最优的任务协同。
多机协同智能的整体发展趋势呈现出从海、陆、空等多物理域向全域(融合物理域与地理、社交、规则、知识等信息域)快速转变的发展趋势。一方面是由于云平台、边缘计算等新型信息基础设施的渗透应用;另一方面,在现有物理域环境感知中引入地理、社交、规则、知识等多类型信息,可突破机器人“感知 ‒ 判断 ‒ 决策 ‒ 执行”各环节受局部感知的限制,推动多机协同从封闭环境、简单任务(未知静态环境探索、目标检测跟踪等)拓展至开放环境、复杂任务(紧急搜救、航空作业保障等)。
尽管封闭、静态环境下的多机协同智能系统已经应用于产业发展,但开放环境下多机协同智能系统仍然处于发展初期,难以应对高动态、不确定、资源受限环境下的复杂任务,系统性能与实际需求存在明显差距,远未解决通用性弱、协同效率低、鲁棒性差等问题。
(一) 多机协同智能面临的主要挑战
建立一个多机协同智能系统需要解决许多问题。例如,如何根据协同任务的复杂性选择单机及确定单机的自主智能水平?如何处理单机间复杂的信息交互和行为协调以及单机间的冲突和矛盾?如何评估单机的表现和进步?如何接受人类的反馈和指导?如何遵守人类的伦理和法律?……。针对这些问题,大量相关研究围绕着全域感知、集群决策、任务调度等前沿技术展开。
全域感知融合多域多类型信息,以提供时空基准统一、语义概念全局一致的全域态势表征。由于在多物理域环境感知基础上引入了地理、规则、社交及知识等多类型信息,突破了自主智能系统“感知 ‒ 判断 ‒ 决策 ‒ 执行”链路中各环节的局部感知限制,同时也自适应地支撑从任务调度、协同规划到协同控制等决策任务。这样才能推动多机协同从封闭环境、简单任务向开放环境、复杂任务方向发展,同时也带来了多类信息跨域关联与匹配、全域态势表征以及全域态势到单机任务情境的自适应适配等难点问题。
全域感知服务于多机协同的导航定位和决策。多机协同的导航定位依赖多个异构单机局部感知数据的时空对齐,但全域感知数据的多源异构、时空差异等特性增加了分布式同时定位和地图创建(SLAM)问题的求解难度。利用全域感知克服多机协同的目标检测与跟踪的决策一致性、主动搜索区域覆盖时效性、任务动态分配等性能受局部感知的限制依然比较困难。此外,在协同决策方面,动态复杂环境下多样任务、多异构自主系统等也加剧了集群调度、机间决策反馈与信息交互等问题的难度。
对于集群决策,现有的多机协同体系架构与信息交互反馈机制大多采用事先设计的扁平结构,信息交互效率低。例如,当前的多机协同制造系统难以满足柔性制造需求,稍遇意外就需人工重新调整,亟待结合协同制造的联动加工、多机耦合等特点及云 ‒ 边 ‒ 端通信架构重新设计自组织架构,探索群智涌现规律及自组织反馈机制。另一方面,集群机器人在任务、环境变化时需更新技能知识和重新分配任务,产生了大量编程与预训练时间成本,严重影响任务协同效能。为此,亟需研究自学习协同进化方法,这不仅是提升多机协同效能的重要途径,也有望加速智能涌现过程。
当前的任务调度方法忽略了对复杂任务自身内在关联结构的挖掘,难以刻画真实环境、信息不完备以及资源受限等复杂约束和多个耦合的优化指标,导致单机性能与任务负荷适配性差,无法充分发挥多机协同性能。例如,当前多机器人协同制造系统的规划算法智能化水平低,并不能适应高效生产需求。
(二) 多机协同智能的核心科学问题
多机协同智能面临的主要挑战可进一步凝练为两个科学问题:多类型信息跨域关联融合的全域态势表征与任务情境适配,全域感知支撑下的机器人集群智能自主涌现与反馈。
全域态势表征与任务情境适配。全域感知数据与信息异构多源、高维复杂,难以直接支撑从底层控制到高层群体行为的多机协同决策。因此,需构建时空基准统一、语义关系一致的全域态势表征,完整描述场景各要素状态及相互关系的时空变化。全域态势严重依赖于对各单机的环境感知数据以及任务相关的地理、社交、知识等多类型信息的高效关联融合。同时,为自适应地支撑从群体行为到单机控制的决策,还需考虑全域态势如何按机器人任务情境提供适配的态势服务,这些都是应用中不容忽视的难点问题。
集群智能涌现与自组织反馈。全域感知环境下异构集群机器人存在任务多样、机器人数量大、种类多、差异性大等特点,加剧了各机器人之间的决策反馈与交互难度,导致指令无法高效执行,影响了集群协同决策能力。因此,需建立个体 ‒ 分组 ‒ 集群协同决策反馈技术和实时交互架构,探索自上而下的全域态势信息分发和自底向上局部感知交互反馈汇聚的信息共享机制。这不仅是提升异构集群协同效能的重要途径,也是揭示全域感知支撑下的机器人集群智能自主涌现机制的核心科学问题。

三、 多机协同智能系统的关键技术体系

(一) 全域态势表征
当前,多机协同智能环境感知方面的研究大多集中在对物理环境多模态感知数据的融合,容易受限于局部感知,难以形成全局一致性的态势,直接影响多机协同效能。因此,亟需建立具有统一时空和语义基准的全域感知计算框架和全域态势表征模型。图1所示的全域感知计算框架融合了物理环境感知数据、机器人状态以及地理、社交等多域信息,通过多类信息跨域匹配,构建支撑多机一致性决策的全域态势。
图1 全域感知计算框架:全域态势表征与多类信息跨域匹配
注:GPS为全球定位系统;IMU为惯性传感器;GIS为地理信息系统。
全域态势表征的主要研究思路是建立基于语义关联与多机共享记忆编码的态势表征与预测模型。首先,建立覆盖全域的三维语义地图,采用自动编码器对环境、社交上下文信息进行编码。其次,设计拓扑演化与节点交互的全局语义关联与推理规则。最后,构建感知 ‒ 语义 ‒ 知识关联的全域态势表征模型。
由于多模态感知数据无法直接用于全域感知,需先解决非结构化的环境感知数据与规则、地理、社交等多类结构化信息的交叉融合问题,实现多模态数据、多源信息的时空配准、语义一致的跨域关联,建立全域态势的静态编码 ‒ 动态序列解码机制。这方面的主要研究包括中国科学院深圳先进技术研究院融合图像、深度图的云机器人系统[2]以及卡耐基梅隆大学无人机和地面机器人协同的SLAM系统 [3]。在跨域匹配方面,哈尔滨工业大学利用自监督学习实现了空 ‒ 地局部特征、全局特征的对齐[4],宾夕法尼亚大学提出了多域多源数据的时空对齐和语义匹配算法[5]。但这些研究仅关注物理域环境感知数据的融合,未考虑引入地理、社交等信息。近期出现的多类异构数据的一致性表述方法有望解决跨域数据交叉融合的时空对准问题。对于多类信息跨域匹配和交叉融合问题,基于统一张量表示将来自于多机器人所在物理环境域的感知数据时空对齐在统一的时空基准下,然后利用基于联邦学习方法建立地理、社交、规则知识等多类跨域信息的语义关联概率图,以此实现多域物理环境感知数据和多类型信息的一致性。
(二) 全域认知地图
全域认知地图是指在全域态势中嵌入任务相关的知识,通过设计类脑记忆的定位导航信息跨域映射与多机交互校准机制,以消解局部交互冲突和加速局部感知自底向上的逐层抽象过程。全域认知地图不仅能有效提高多机协同导航定位的一致性,也有利于跨域目标检测、跟踪。
构建全域认知地图需依次解决两个问题。首先,借鉴大脑空间认知的神经机制,构建局部类脑认知地图,并利用全域感知数据构建跨域信息关联的记忆模型解决回环检测问题。其次,利用局部通信保持机间连接,采用轻量描述子与原始传感数据相结合的分层次信息交互模式,识别地图重叠区域,通过情境记忆回放,解决认知地图拼接与全域环境记忆融合问题,实现全域认知地图的快速构建。
全域认知地图可显著提升多机协同探索效能。对未知区域覆盖问题,常利用集群梯度爬虫算法、局部动态避障等技术建立多机器人协同主动探索未知环境的策略。单纯依靠融合多机器人环境感知数据的导航定位一致性差、协同探索覆盖率低、协同跟踪精度差且能效低,引入全域认知地图有利于消解局部感知歧义和决策冲突。
多机协同导航定位是利用长短时记忆的脑机制启发多域信息快速映射,实现多机交互对齐的地图匹配和相对位置估计的导航定位。典型案例包括代尔夫特理工大学基于集群梯度算法的多无人机集群搜救系统[6]、南加州理工大学同时自主探索与建图的全局栅格地图[7],以及昆士兰大学[8]、中国科学院沈阳自动化研究所[9]等机构的类脑稀疏拓扑认知地图。多机协同目标检测、跟踪的代表性研究包括南洋理工大学的多机协同目标搜索[10]、得克萨斯大学基于视觉的多无人机协同搜索与跟踪的深度学习方法和融合激光、相机的多模态目标跟踪[11]
图2给出了一种典型的全域认知地图引导的多机协同导航定位与目标检测跟踪技术方案。对于协同搜索,结合跨模态身份重识别及目标轨迹片段的时空关联等技术,实现能量约束下跨域协同搜索最优路径规划。针对多机协同的目标检测与跟踪,先利用深度网络的跨尺度感知信息融合建立跨域关联目标检测。然后,利用目标轨迹片段的时空关联方法,实现轻量化多机协同的目标检测与轨迹预测。最后,通过局部信息交互决策,建立最优的目标跟踪任务分配和跟踪路径规划方法,实现复杂动态环境下高效的多机协同目标检测跟踪。另一个值得注意的发展趋势是引入广义位置,即将物理位置与功能、任务知识等相关联,突破环境要素和目标的跨域多机动态关联技术。
图2 多机协同导航定位与目标检测跟踪技术方案
(三) 分布式集群决策
分布式集群智能决策的研究旨在揭示集群自组织和智能涌现机制。主要研究发展可划分为三个阶段:仿生自适应规划、集群自主避障和复杂环境中自主协同,各阶段的代表性研究依次为:① 布达佩斯大学的无人机集群仿生自适应规划算法实现了大规模集簇飞行,但需依赖卫星定位和集中式地面计算且无法避障[12];② 中国电子科技集团有限公司研发的多机编队集结与重构技术解决了集群自主避障问题,在军事演习中实现了陆空协同的精确对地察打,但尚未在实际环境中应用。洛桑联邦理工学院提出了稠密障碍物环境下的集群避障方法,但只能离线集中式求解[13];③ 浙江大学提出了基于实时视觉感知和在线时空最优规划方法,实现了复杂环境下分布式自主飞行和编队协同[14],但系统规模有限且机器人种类单一,尚不足以揭示集群智能涌现机制,并且这些工作只针对同构集群且规模有限。
理想的集群智能决策应摆脱对集中式通信的依赖,通过去中心化的自组织行为适应动态任务协同情境,最终实现超越个体的集群智能涌现。当前主要发展趋势是在集群自组织机制设计中引入全域态势约束的集群决策数理模型和可解释策略学习方法。对集群自组织的研究主要集中在分布式通信策略和集群智能涌现机制的探索上,主要的工作可划分为以下两大类。
1. 基于代理概率模型的集群智能涌现方法
集群决策面临着全域感知信息数据量大、自主智能系统种类多样所导致的决策依据模糊、决策维度高、运算负荷大等问题,为此需要将宏观任务规划从集群规划逐步细分至个体规划,以降低集群决策维度,并为异构集群提供鲁棒性强、实时性高的决策与交互反馈。常用的一种协同决策架构为个体 ‒ 分组 ‒ 集群层级式决策反馈结构(见图3),这种架构依据任务需求与全域态势及单机状态合理进行任务分配,基于多通道反馈模型,实现任务执行、群体行为、个体行为、集群智能的回环反馈持续滚动优化。
图3 个体-分组-集群层次化多通道反馈机制技术方案
此外,异构集群任务多样、环境复杂、机器人数量多、功能差异大,协同规划时难以准确获得各机器人的状态,任务分配时存在重复探索的情况。为此,需利用全域态势信息准确估计当前任务情境,预测近邻机器人的行为意图,实现任务的合理分配,提高执行效率。进一步,可结合代理概率模型持续更新进化学习模型的参数,实现终身学习。
2. 指令 ‒ 规划融合优化的集群实时交互架构
集群机器人在复杂环境下执行并行任务存在指令执行效率低下、指令适配性差而导致规划成功率低等问题。实时分布式感知的自适应规划方法结合指令意图推断和共融控制可实现指令 ‒ 规划协同优化,从而提升集群指令执行效率。针对异构集群控制自由度高、交互难度大等问题,需研发多模式集群实时交互指挥平台,结合增强现实和眼动识别等沉浸式遥操作模式的高效分解协同指令,实现指令 ‒ 规划的融合与优化。
(四) 分布式任务调度
任务调度需综合考虑环境态势、动态资源和单机性能等约束,是一个典型的多目标、多约束任务调度优化问题。求解此问题的主要工作包括异构机器人任务优先级排序方法(佐治亚理工学院[15])、多机协同与对抗的深度强化学习方法(DeepMind[16]),但均存在效率低、收敛慢,难以适应大规模任务等局限性。代表性工作包括哈尔滨工程大学研发的50个海洋机器人协同作业系统(2021年)[17]、欧盟山区雪地多机协同搜救的SHERPA项目[18](2015年),美国国防部高级研究计划局用多个地面无人车、旋翼无人机和固定翼无人机构成的系统在仿真城市环境中实现了空地协同搜索和跟踪目标(2020年)[19]
以上的智能调度方法依赖任务描述模型,未考虑时空、任务耦合等约束,难以适应大规模任务等问题。改进性的研究工作集中在两个方面:① 针对低冗余信息聚合共享问题,基于图神经网络深度强化学习,研究集群分组任务协作方法,构建冗余小、导向明确的信息分发及聚合策略(见图4),实现云 ‒ 边 ‒ 机负载均衡的高能效通信;② 针对异构机器人集群系统高效调度问题,研究复杂任务分解与指派的迭代优化方法和基于混合整数非线性规划方法,设计综合考虑个体状态、执行时序与空间等多约束、多目标优化的任务分配方法。在此基础上,进一步建立动态适应性好和鲁棒性强的智能调度模型。
图4 去冗余信息共享聚合技术方案

四、 多机协同智能的典型应用——智能制造

飞机、舰船和高铁等高端装备的大型复杂构件加工尺寸大、曲面多、装配复杂,高效制造能力事关国家工业制造综合实力。当前,这些高端装备复杂构件的制造主要依赖大量人工、专机设备或自动化产线的制造模式,严重制约制造业发展。多机器人协同制造系统具有柔性、灵活配置性,位于智能制造产业技术链的顶端,是制造领域的变革性战略技术。各国纷纷通过顶层战略规划抢占发展先机,多机协同智能制造也成为探索和验证多机协同智能的重要领域。关键技术要点如图5所示,研究前沿聚焦于自主智能作业、集群协同作业、自学习进化作业和智能任务调度等关键技术。
图5 多机器人协同作业发展趋势
(一) 自主智能作业
自主智能作业是多机器人协同智能制造的基础性关键技术,其智能水平直接影响集群协同作业效能。近年来,不断涌现出兼具自主移动与灵巧操作能力的机器人,如波士顿动力公司的Stretch[20]。但这类机器人通常存在场景适应性差、操作技能单一、体 ‒ 臂协同控制难等问题。文献报道的工作多沿袭自主智能运动体的研究思路,围绕这三个问题展开。
针对场景适应性差的问题,研究者们提出了机器人长期自主探索(美国卡内基梅隆大学,2022年[21])、具身导航(澳大利亚阿德莱德大学,2023年[22])等方法,但这些方法适用场景有限,无法应对复杂动态环境和执行长期任务。针对机器人操作技能单一问题,斯坦福大学、麻省理工学院[23]等提出了通用操作技能模型,引入基础模型解决未经训练即能生成机械臂动作问题。
针对体 ‒ 臂协同控制的研究可分为两类:① 对机器人移动本体和机械臂进行独立规划(如英特尔公司和卡内基梅隆大学的HERB[24]、库卡(KUKA)机器人有限公司的LBR iiwa[25]),这种处理方式限制了移动操作的灵活性;② 将机器人移动本体和机械臂视为整体,设计体 ‒ 臂协同的端到端强化学习算法(如苏黎世联邦理工大学、卡内基梅隆大学),虽然实现了结构化环境中的自主移动作业,但泛化能力较为有限。
由此可见,自主移动作业机器人并非自主智能运动体、多自由度机械臂和灵巧手的简单组合,而是需要将这三者视为一个整体,结合作业任务需求,在系统层次上进行研究。沿着这一思路的工作主要集中在以下三项关键技术上(见图6)。
图6 大范围场景机器人自主移动作业
1. 大范围作业场景中具身智能定位与自主导航
研究目标是解决移动作业机器人场景适应能力差、作业效能低下的问题。大范围制造场景、动态环境、复杂作业工况严重影响机器人的自主定位精度、导航性能和操作精度,使其难以长期自主作业。为实现泛在信息的高效感知、存储与调用,需基于场景图谱建立融合任务、语义、几何信息的多层次混合环境地图,研究基于环境地图的快速全局定位方法、基于可变视窗模型预测控制的轨迹规划方法,实现大范围场景的具身导航。为自主构建和维护环境地图,需研究基于具身智能的未知环境主动探索方法,实现机器人自适应未知复杂环境。
2. 自主移动作业
自主移动作业的研究重点包括具备持续在线学习能力的机器人情境具身感知方法和适应动态环境的感知 ‒ 行为的闭环、自适应作业情境的灵巧精准操作。针对机械臂具身操作任务学习问题,采用基础模型的微调方法,自主生成面向复杂操作任务的动作序列,并探索基于共享特征空间的复杂操作技能学习与泛化方法。在体 ‒ 臂协同作业方面,研究基于特征自注意机制的操作空间高效探索方法,并采用基于互信息的效能优化函数,开发基于深度强化学习的体 ‒ 臂自解耦协同控制方法,实现复杂环境下的自主移动作业。
3. 机器人具身自主探索
现有移动机器人多为被动感知,难以适应大范围智能制造场景。基于具身导航的自主移动方法利用泛在信息克服了大范围场景难以建模问题,实现了机器人自主适应。为解决当前的作业操作方法精度低、适应性差等问题,最新研究开始引入具身智能操作技能学习方法,借助基础模型,提升机器人情境适应性和操作精度。
(二) 集群协同作业
集群协同作业主要包括协同作业任务规划和协同轨迹规划。协同作业任务规划是指各机器人通过信息交互自动调整任务指派,由于研究尚处于早期,鲜见文献报道。协同轨迹规划是指各机器人通过交互自动生成与动态环境(含其他机器人)无冲突且满足任务、能力、工艺等要求的运动轨迹。
现有的协同轨迹规划技术已能实现多机协同抓取运动物体。典型算法有两类:① 一致性、牵制等控制算法采用集群组织架构或由设计者预先设置或采用个体平等结构,但不具备自组织能力;② 仿生群智优化算法的环境适应性强,虽然具备一定的自组织能力,但难以进行理论分析。上述这些工作仅能适应规模有限的同构机器人集群,协同效率低,难以应对意外或故障情况。近期研究重点开始转向两个核心问题:群智涌现与反馈交互机制、自组织协同规划与控制。
集群智能涌现与反馈交互机制的研究思路如图7所示。首先,解决集群自组织决策复杂、混乱、难建模等问题。采用个体 ‒ 分组 ‒ 集群的多层级架构,将任务执行、群体行为、个体行为建模成统一数学框架下的多通道反馈模型,并借助并行计算求解时变多目标、多约束优化问题,实现集群策略的实时滚动优化。其次,基于深度强化学习和容差控制技术,实现高准确度指挥员意图推断和共融控制机制。利用分布式实时交互技术实现多机器人集群个体间信息高效互补和快速自适应最优无碰轨迹规划。利用分布 ‒ 集中式指令架构、组合优化策略和序列二次规划算法实现指令 ‒ 规划的融合优化。
图7 机器人集群智能涌现与反馈交互
自组织协同规划与控制技术的研究思路如图8所示。具有平面凸多边形外形的各机器人先用单机轨迹规划方法获得自身的理想轨迹,该理想轨迹包括理想位置曲线和理想转角曲线。设想一个虚拟的理想机器人沿理想轨迹运动,在无其他机器人的情况下,实际机器人可以在理想机器人的吸引力和力矩牵引下绕开障碍到达目标点,理想机器人的吸引可以视为广义的人工势场作用。
图8 群智涌现机理驱动的自组织规划与控制
为消解集群内可能出现的轨迹冲突问题,考虑机器人所处位置和区域,即按照“同区域同组”原则构建集群自组织架构,将集群中可能的轨迹冲突分解到各组处理。具体而言,就是在多智能体系统框架下考虑组内轨迹冲突消解。防范机器人间冲突的关键在于满足机器人中心与近邻机器人中心间的距离约束,该约束与机器人的状态均有关。博弈均衡化群智涌现方法是冲突消解的关键,机器人除受到理想机器人的吸引作用,还受到区域内障碍和近邻机器人的排斥作用。因此,在理论上存在一个平衡位姿,当智能体呈平衡位姿时受到的作用之和等于零,博弈中的全部智能体都呈平衡位姿即是均衡解,或者说实现了群智涌现。以缩小机器人实际位姿与平衡位姿的差距作为目标,在量化各吸引和排斥作用的基础上,借助均衡化群智涌现方法设计机器人的控制协议(群智涌现激励规则),生成控制输入驱动各机器人不断向自己的平衡位姿运动,实现自组织协同轨迹规划。
以多机协同搬运为例,大多数方法将大型构件和多个搬运机器人视为一个含多欠驱动关节的整体机器人,建立整体机器人运动学和动力学模型,研究基于整体机器人轨迹跟踪和期望动态阻抗的联动搬运协同控制方法。双机镜像操作是其中的一项难度较高的核心技术,要求构建严格镜像且协调双机实际轨迹的虚拟领航双机,对实际双机进行光滑轨迹补偿,然后基于力约束 ‒ 位置伺服实现双机镜像操作协同控制。
(三) 自学习进化作业
时变任务和动态环境时常导致多机协同制造系统出现作业技能和集群作业效能退化的问题。为此,需发展兼具自主学习和进化能力的集群进化作业技术,这也是集群机器人的重要发展方向。核心问题包括知识迁移、人机协同等。当前的探索沿着三条主要技术路线发展,主要研究思路及关系如图9所示。
图9 多机器人协同学习进化方法
(1)通用智能演绎,即基于通用智能演绎实现技能知识的迁移与衍生。目前,通用智能研究高度依赖于大模型克服小样本甚至零样本学问问题。例如,谷歌公司的多任务智能体Robocat,利用基础模型具备了进化能力[25],实现了自适应匹配多类机械臂的2种装配与1种搬运任务,而且成功率持续提升、对新任务所需训练次数持续下降。另一种思路是聚焦通用技能知识表达和技能知识库实现迁移和衍生,即通过将作业技能分解为不可进一步拆分的技能基元,建立基元库,然后根据协同制造领域知识建立基元同类拓扑库。针对技能知识泛化问题,基于贝叶斯逆向强化学习构建泛化能力强的技能知识自学习模型,组合已有基元和基元拓扑验证其可重现、可重组、可重构性。针对技能知识迁移问题,研究基于感知共享、迭代优化的多机协同作业数字孪生模型,构建标准化场景与向量化任务,建立基于深度进化强化学习的多智能体知识迁移与衍生框架、任务特征基准数据库。
(2)群体协同进化,即多智能体在内部合作与竞争、环境变化过程中呈现出的相互适应、共同进化的智能行为。斯坦福大学团队提出的深度进化强化学习模型实现了多智能体的自学习。现有协同进化研究多在云端或仿真中通过大模型完成,未实现虚实迁移。基于数字孪生模型及知识虚实迁移架构,有望实现无隙虚实迁移。
(3)人机智慧共生。英特尔公司提出了工业数字孪生和工业边缘控制平台,运用多源信息融合技术优化工业控制流程。然而,这些工作并没有解决虚实迁移、安全可靠等问题,无法直接用于机器人集群协同制造系统。此外,针对人机协同不足的问题,建立融合人机监督网络、冲突仲裁机制、人机柔性交互的混合增强智能模型。引入人的领域知识引导多机协同进化,实现安全可靠的多机协同作业自学习进化作业技术。
(四) 智能任务调度
智能任务调度是提升多机器人集群综合效能的关键技术。现有的调度方法大多忽略了对复杂任务自身内在关联结构的挖掘,难以刻画真实环境、信息不完备以及资源受限等复杂约束和多个耦合的优化指标,导致单机性能与任务负荷适配性差,难以充分提升多机协同性能。
当前的研究聚焦在以下三个方面:① 针对任务调度云 ‒ 边 ‒ 机负载难以均衡的问题,基于图神经网络深度强化学习的动态集群分组方法,构建任务导向、冗余最小的信息聚合与分发策略;② 针对复杂任务多机协同调度效率低下问题,研究个体状态、执行时序与空间等多约束、多目标的任务分解、混合整数非线性规划的调度算法;③ 任务引导与全域感知支撑下多机器人集群智能涌现的理论与方法也是不容忽视的研究重点。

五、 多机协同智能发展方向——人机群组智能

任何智能水平的系统都无法离开人的参与,因此需要将人的作用引入到多机协同中,形成多人、多机有组织的人机群组智能。人机群组智能将多个嵌入类人认知计算模型的机器人与专业人员团队通过自然、精准的协同交互关联起来、混合编队,实现真实、开放、动态环境的自组织学习、直觉推理及任务管理、调度、交互、协作,共同解决难度指数级增长的大规模复杂问题和困难任务。
人机群组智能是人工智能赋能人机混合作战班组、大规模人机协同作业等应用场景的关键技术。由于缺乏标准、数据、通用设备和有效工具,技术突破与应用落地相对于大数据智能难度显著提高。例如,现有国内外人工智能开发环境Tensorflow[26]、PyTorch[27]、百度飞桨[28]等都以数据智能为目标,缺乏对人机交互与人机协同从设备、算法库到测试环境的广泛支持,严重制约着多机协同系统对日益复杂应用场景的自适应能力。
人机互信下的人机群组智能在美国、欧盟、日本等的人工智能发展新战略中均被设想为人工智能的最终发展目标。美国科学院、工程院等机构于2022年联合发布的《人机群组协同:现状与研究需求》(Human-AI Teaming: State-of-the-Art and Research Needs[29])明确指出,将人类和人工智能视为队友,通过互动产生优于独立个体的绩效价值,包括适应变化需求的能力及相互支持等能力,将对军事、工业等多个领域产生深远影响。2020年《美国机器人发展路线图》[30]明确提出,机器人未来要像人一样利用历史交互信息调整自己的行为以适应人类伙伴,人机间的信任水平要达到人类队友间的信任水平,机器将无缝地融入社会,在不受控设置下实现安全、有效和自然地与人协作。
(一) 核心科学问题
1. 人机信息交互
人机混合增强智能是人机群组智能的基础,重点研究如何在人、机及环境系统之间通过信息、语义、知识、行为和认知等多层次的交互计算,实现效能最优的协同智能。具体而言,人机语义交互试图解决基于情景信息和生理状态的交互意图智能推理问题。人机知识交互试图解决人机概念交流问题,实现知识概念层面的统一理解。人机行为交互试图建立更广泛的人类行为模型,包括目标获取、连续运动等。人机认知交互主要围绕长短时记忆、感知和运动系统解释人的信息处理过程。
目前,人机智能交互的研究主要集中在语义与知识交互层次。自然、准确的人机语义与知识交互一方面能使机器人通过借鉴人类智能所擅长的知识演化与智能推理能力,提升自主学习与自适应能力。另一方面人类智能通过机器人的感知数据反馈,实现人的知识的最佳利用。这就需要揭示人机交互过程中的语义和知识交互机制,实现人在回路的知识交互、综合与增强。如图10所示,通过融入历史信息、外部知识和人机多轮对话实现人机群组的语义与知识充分交互。在多轮人机交互过程中,交互的历史信息能够被记录下来,这些历史信息能够用于帮助人与机器之间进行更准确的知识与语义交互。
图10 人机群组语义、知识交互示意图
2. 人机行为交互
面对复杂的作业场景,人机任务协同离不开紧密配合、高效协作的交互行为。作业环境具有动态性高、可变性强的特点,这就要求人与机器人不断根据环境变化做出行为选择。同时,由于人与机器、机器与机器之间的交互关系往往较为复杂,要想获得一个全局的交互关系非常困难。因此,通过语义、知识、行为、认知等多层次的交互计算,在知识概念和行为层面实现人机之间无障碍的人机交互与人机协作就变得极为迫切。
3. 人机协同决策
人机群组智能中的人机协同决策框架如图11所示,采用分布式的系统架构,通过综合视觉注意、动作、语言及作战指令等感知信息形成情境表征与预测,然后应用人在回路的深度强化学习方法实现集群路径规划。具体包含从态势感知协同、行为状态协作、任务协同等层次上进行自低向上的决策混合级联,并考虑了不同无人系统群组与人系统的稀疏互信反馈机制,通过共享意图的快速对齐为实现人机混合增强智能决策。
图11 分布式人机协同决策架构示意图
4. 人机任务协同
人和单机均有一定的决策能力,同时也各有优势与缺陷。单机执行大规模任务时具有局部感知、边缘计算的特点,能依据有限信息进行小范围任务的决策。由于无法获得全局感知信息,导致无法作出影响全局的决策,因此,需引入人的知识和经验进行联合决策。
人机协作任务分配技术主要研究人和机器在复杂决策任务中的角色、分析人和机器可适用的决策任务集合,在知识库的支持下,匹配到契合决策模型的决策任务,实现任务解耦,寻求最优性的任务分解与分配解决方案。
首先,建立类人的策略表示与优化,实现人机态势感知到协同决策的映射。人机协同决策的关键在于表示人和机器的策略、建立人机各自的态势感知到协同行为的映射。单机的策略表示往往通过路径规划、控制策略生成进行,采用“所感即所得”的技术路线。但人的策略形成往往是启发式、直觉式的。不同的人面对同一作业情境的领悟力、洞察力不尽相同,给出的决策必然不同。机器无法逼近这样的决策能力,因此需要深入研究人主观性引导的策略表示,以便实现与机器策略表示及计算方法的共融互通。
其次,分析不同任务的人机协作模式,包括智能系统单独决策、人机混合决策等,确定整个决策过程中的层级架构以及人机协同任务层次,明确人机协同决策不同阶段的任务单元。分析人机混合决策模型与任务的适配关系,建立决策模型标准化方法,通过知识库补充任务缺失信息,确保任务信息在决策模型下的完备性。确定任务级与指令级的不同粒度的任务单元,并在不同决策维度上给出任务分配与规划决策。
(二) 关键技术
1. 人机群组智能开源平台
当前,人机群组协同智能研究面临着缺乏标准、数据、通用设备和有效研究工具等迫切问题,亟需研究人机群组智能的云 ‒ 边 ‒ 端通用系统架构,研发从模拟仿真、实际部署到真实应用的工具链、开发环境以及基准模型、基准算法库。建立人机群组智能开源社区和软硬件开放创新平台,实现数据、模型和代码共享,提供标准化、货架化的人机群组智能装备、软硬件和统一公开测试环境与评测基准。
2. 非完整、非结构化信息处理
针对大范围复杂环境感知受限问题,研究多类型信息跨域匹配和交叉融合的分布式计算方法,全域态势表征和全域认知地图构建技术,以及动态场景要素的时空定位、跟踪与行为意图预测方法。针对开放环境信息类型异构异质问题,研究任务驱动的多域信息时空交叉融合方法,构建动态环境的多源信息融合模型以及非完整非结构化信息下的人机环境交互动作空间、策略空间学习方法,设计一体化端到端的感知 ‒ 运动自学习方法,建立原始数据到情境预测之间的深度映射模型。
3. 可信、可译、抗攻击方法
探索人机群组智能的性能边界,突破不确定环境带来的适应性差、不鲁棒以及抗攻击能力差等问题。研究不确定环境下人机群组协同感知中的任务环境知识表示与推理方法,噪声数据和扰动模型造成的不确定性表示方法,领域自适应的知识迁移及特征提纯方法,任务约束的模型集成方法,容忍环境噪声、数据缺失、模型更改的全域态势感知方法。
4. 人机群组协同情境推理
针对当前机器智能系统情境理解缺乏常识,研究受人脑认知启发的情境理解方法,探究顿悟、直觉、视觉、听觉综合的情境常识因果推理方法。研究自然逻辑规则的显式编码及隐语义认知解释,知识实体识别、关系抽取方法,人机意图互理解知识图谱构建方法,跨域环境感知、社交、上下文信息融合的情境理解与预测模型。
5. 人机群组智能决策
针对集群智能涌现机制未明问题,研究机 ‒ 组 ‒ 群层次化人机协同架构,多通道反馈模型和策略优化方法,分布式感知实时交互自适应规划,人意图推断、嵌入人类交互指令及语言的人机混合深度强化学习方法;针对人机群组协作中自组织决策问题,研究云 ‒ 边 ‒ 端架构下的机器群组层次化协同体系,建立自底向上及自顶向下的信息反馈及决策分发通道,构建个体、群体任务规划中的决策实时反馈链路。
(三) 典型应用场景
1. 人机群组协同智能建造
面向复杂、极端、危险作业环境下的人机群组远程操控协同作业任务,融合人工智能的数据处理能力和人员的经验推理能力,实现“虚实同步、动态修正、紧密协作、认知辅助、混合决策”的多无人装备人机混合智能建造。研究虚实同步的高沉浸度环境构建、“人在环路上”集群规划与智能导航、操控人员状态感知与交互增强,突破增强现实的多视角映射与智慧呈现、人机混合集群在线规划、知识与数据双重驱动的人机混合智能博弈决策等关键技术。
2. 大型舰船的人机群组协同智能航空保障
基于人机群组协同互信机制研究,研究可解释、鲁棒、安全、抗干扰能力强的大型舰船人机群组环境自适应感知及任务适配;研究个体状态、执行时序及空间等多约束的任务分解及非线性规划调度方法;构建自主可控、高效智能的大型舰船无人机群组协同编队、物资转运、航空保障中的全域感知、决策、规划与控制验证系统。
3. 广域人机群组应急支持系统
研究基于云端主动增量学习的群体感知认知模型持续更新方法,实现云 ‒ 边 ‒ 端多模态感知数据的广域融合和多模式协同决策。面向复杂多目标实际任务场景,研究无人车基站、多功能传感器和无人机载模块组成的边端智能动态组网方法。搭建虚实结合的应急响应演练仿真环境,研制云 ‒ 边 ‒ 端融合的广域自主群体智能系统,实现广域群智应急协同的迭代演化与评估验证。研究广域自主群体群智系统中人机混合智能群体的组织结构和认知交互模型,提出群智智能水平度量理论,构造数理融合驱动的群智跨尺度系统优化学习方法。构建面向复杂动态环境的群智认知体系,构建自演化知识驱动的态势认知引擎,突破多维信息精准透彻感知、多视角覆盖式目标搜索和及时准确的态势判断。

六、 结语

多机协同智能处于智能系统产业技术创新链的顶端,是促进国家制造业升级、引领经济结构优化升级、推动新兴产业发展的重要战略性技术。抢占多机协同智能技术发展先机的关键在于发展感知 ‒ 语义 ‒ 知识关联的全域态势表征模型及任务情境适配等基础理论,以及全域感知和多通道反馈的集群智能涌现方法。
任何智能水平的多机协同智能,都离不开人作为最终价值仲裁者。因此需在全域感知与集群决策系统架构中引入人的作用,通过信息和行为交互构建多人、多机共融增强的人机群组智能。人机交互是人机群组智能的重要信息通道和智能涌现的基础,亟需研究新型表达手段,挖掘与利用多源信息内在深层次关联关系。同时,基于人与机器人集群效能评估方法及仿真平台,通过综合各类指标数据分析评价不同人机混合智能决策和任务协同方法效能,指导未来人机群组智能的系统设计。
当前,人机群组协同智能处于发展早期,尚未形成基础理论和关键技术体系,应用场景也较为零散。我国《新一代人工智能发展规划》中明确提出了人机混合增强智能,并部署了从基础理论、关键技术到应用场景的科研任务。经过近几年的攻关,混合增强智能基础理论体系基本构成,突破了人在回路的混合增强智能、受脑认知与神经科学启发的混合增强智能、协作与冲突的自洽机制与模型等关键技术,锻炼和汇聚了从事人机混合增强智能的科研队伍,为实现人机群组协同智能奠定坚实基础。同时,随着人工智能技术的不断进步,发展人机群组智能的研究基础、科研环境和人才队伍等条件已经具备。及时开展人机群组智能研究有望为我国在人工智能领域带来原创性基础理论和核心关键技术突破,并为赶超国际领先水平提供重要发展机遇。
利益冲突声明
本文作者在此声明彼此之间不存在任何利益冲突或财务冲突。
Received date:December 20, 2023;Revised date:January 19, 2024
Corresponding author:Xue Jianru is a professor from Institute ofArtificial Intelligence and Robotics, Xi’an Jiaotong University. His major research field is artificial intelligence; E-mail: jrxue@xjtu.edu.cn
Funding project:Chinese Academy of Engineering project “StrategicResearch on New Generation of Artificial Intelligence and IndustrialCluster” (2022-PP-07); National Natural Science Fund Project (62036008)
[1]
中国人工智能‍发展战略研究项目组. 中国人工智能2.0发展战略研究 [M]. 杭州: 浙江大学出版社, 2018.

[2]
Liu B Y, Wang L J, Liu M, et al. Federated imitation learning: A novel framework for cloud robotic systems with heterogeneous sensor data [J]. IEEE Robotics and Automation Letters, 2020, 5(2): 3509‒3516.

[3]
Zhao S B, Zhang H R, Wang P, et al. Super odometry: IMU-centric LiDAR-visual-inertial estimator for challenging environments [C]. Prague: 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2021.

[4]
Xu J, Li R F, Zhao L J, et al. CamMap: Extrinsic calibration of non-overlapping cameras based on SLAM map alignment [J]. IEEE Robotics and Automation Letters, 2022, 7(4): 11879‒11885.

[5]
Chen S W, Nardari G V, Lee E S, et al. SLOAM: Semantic lidar odometry and mapping for forest inventory [J]. IEEE Robotics and Automation Letters, 2020, 5(2): 612‒619.

[6]
McGuire K N, De Wagter C, Tuyls K, et al. Minimal navigation solution for a swarm of tiny flying robots to explore an unknown environment [J]. Science Robotics, 2019, 4(35): eaaw9710.

[7]
Saboia M, Clark L, Thangavelu V, et al. Achord: Communication-aware multi-robot coordination with intermittent connectivity [J]. IEEE Robotics and Automation Letters, 2022, 7(4): 10184‒10191.

[8]
Talbot B, Dayoub F, Corke P, et al. Robot navigation in unseen spaces using an abstract map [J]. IEEE Transactions on Cognitive and Developmental Systems, 2021, 13(4): 791‒805.

[9]
Zhao D Y, Zhang Z, Lu H, et al. Learning cognitive map representations for navigation by sensory-motor integration [J]. IEEE Transactions on Cybernetics, 2022, 52(1): 508‒521.

[10]
Xiao J P, Pisutsin P, Feroskhan M. Collaborative target search with a visual drone swarm: An adaptive curriculum embedded multistage reinforcement learning approach [J]. IEEE Transactions on Neural Networks and Learning Systems, 2023: 1‒15.

[11]
Farmani N, Sun L, Pack D J. A scalable multitarget tracking system for cooperative unmanned aerial vehicles [J]. IEEE Transactions on Aerospace and Electronic Systems, 2017, 53(4): 1947‒1961.

[12]
Vásárhelyi G, Virágh C, Somorjai G, et al. Optimized flocking of autonomous drones in confined environments [J]. Science Robotics, 2018, 3(20): eaat3536.

[13]
Huber L, Slotine J J, Billard A. Avoiding dense and dynamic obstacles in enclosed spaces: Application to moving in crowds [J]. IEEE Transactions on Robotics, 2022, 38(5): 3113‒3132.

[14]
Zhou X, Wen X Y, Wang Z P, et al. Swarm of micro flying robots in the wild [J]. Science Robotics, 2022, 7(66): eabm5954.

[15]
Notomista G, Mayya S, Hutchinson S, et al. An optimal task allocation strategy for heterogeneous multi-robot systems [C]. Naples: 2019 18th European Control Conference (ECC), 2019.

[16]
Jaderberg M, Czarnecki W M, Dunning I, et al. Human-level performance in 3D multiplayer games with population-based reinforcement learning [J]. Science, 2019, 364(6443): 859‒865.

[17]
苗润龙‍. 分布式无人艇集群协同区域搜索与目标定位研究 [D]. 哈尔滨: 哈尔滨工程大学(博士学位论文), 2021.

[18]
Marconi L, Melchiorri C, Beetz M, et al. The SHERPA project: Smart collaboration between humans and ground-aerial robots for improving rescuing activities in alpine environments [C]. College Station: 2012 IEEE International Symposium on Safety, Security, and Rescue Robotics (SSRR), 2012.

[19]
Chung T. Offensive swarm-enabled tactics (offset) [R]. Arlington: DARPA Tactical Technology Office, 2017.

[20]
Ackerman E. A robot for the worst job in the warehouse: Boston Dynamics´ Stretch can move 800 heavy boxes per hour [J]. IEEE Spectrum, 2022, 59(1): 50‒51.

[21]
Cao C, Zhu H, Ren Z, et al. Representation granularity enables time-efficient autonomous exploration in large, complex worlds [J]. Science Robotics, 2023, 8(80): eadf0970.

[22]
Qiao Y Y, Qi Y K, Yu Z, et al. March in chat: Interactive prompting for remote embodied referring expression [C]. Paris: 2023 IEEE/CVF International Conference on Computer Vision (ICCV), 2023.

[23]
Mokaram S, Aitken J M, Martinez-Hernandez U, et al. A ROS-integrated API for the KUKA LBR iiwa collaborative robot [J]. IFAC-PapersOnLine, 2017, 50(1): 15859‒15864.

[24]
Srinivasa S S, Berenson D, Cakmak M, et al. Herb 2.0: Lessons learned from developing a mobile manipulator for the home [J]. Proceedings of the IEEE, 2012, 100(8): 2410‒2428.

[25]
Apolinarska A A, Pacher M, Li H, et al. Robotic assembly of timber joints using reinforcement learning [J]. Automation in Construction, 2021, 125: 103569.

[26]
Aguinaldo A, Bunker J, Pollard B, et al. RoboCat: A category theoretic framework for robotic interoperability using goal-oriented programming [J]. IEEE Transactions on Automation Science and Engineering, 2022, 19(3): 2637‒2645.

[27]
Abadi M, Agarwal A, Barham P, et al. TensorFlow: Large-scale machine learning on heterogeneous distributed systems [EB/OL]. (2016-03-14)[2023-11-15].https://www.semanticscholar.org/paper/TensorFlow: -Large-Scale-Machine-Learning-on-Systems-Abadi-Agarwal/9c9d7247f8c51ec5a02b0d911d1d7b9e8160495d.

[28]
Paszke A, Gross S, Massa F, et al. PyTorch: An imperative style, high-performance deep learning library [C].Vancouver: The 33rd Conference on Neural Information Processing Systems, 2019.

[29]
Bi R, Xu T T, Xu M X, et al. PaddlePaddle: A production-oriented deep learning platform facilitating the competency of enterprises [C]. Hainan: 2022 IEEE 24th International Conference on High Performance Computing and Communications, 2022.

[30]
Integration B O H S. Human-AI teaming: State-of-the-art and research needs [M]. Washington, DC: National Academies Press, 2022.

Outlines

/