《一、前言》

一、前言

群体智能(CI)的概念源自 1785 年 Condorcet 的陪审团定理:如果投票组的每个成员有超过一半 的机会做出正确的决定,则组中多数决定的准确性 随着组成员数目的增加而增加 [1]。在 20 世纪下叶, CI 被应用到机器学习领域 [2],并对如何设计智能 体的集合以满足全系统的目标进行了更广泛的考 虑 [3,4]。这与单智能体的奖励成形有关 [5],并在 博弈论界和工程界得到了众多研究者的关注 [6]。 然而,CI 算法,如众所周知的蚁群算法(ACO), 关注如何使群体智能涌现并超越个体智能,缺乏进 化个体智能的机制,因此在没有重大扩展的情况下 不能成为自我进化的人工通用智能(AGI)体。

AGI 的一个长期目标是创建能够从第一原理进 行自我学习的程序 [7]。最近,AlphaZero 算法通过 使用深度卷积神经网络和自我对弈游戏中的强化学 习,在围棋、国际象棋和将棋游戏中达到超人的性 能。然而,AlphaZero 如此成功的原因还没有被完 全理解。通过分析和试验 AlphaZero 可以感觉到群 智智能的逻辑思维暗含在算法当中。

本文从 CI 的 发 展 和 逻 辑 思 路 出 发, 将 AlphaZero 算法应用到五子棋的博弈中,展现了深 度神经网络的进化能力;然后,又将蒙特卡洛树 搜索(MCTS)与 ACO 进行比较,识别出 MCTS 是一种 CI 算法。最后,在深入分析和系统综合的 基础上,笔者提出了 CI 进化理论,将其作为走 向 AGI 的通用框架,并将其应用于智能机器人的 应用。

《二、群体智能概述》

二、群体智能概述

近年来,CI 被广泛应用于各种工作中,如项目 中的人员协作、公司董事会的投资决策、总统选举 投票等。看起来一个群体做事比个体更聪明。然而, Bon 在他的著名著作《乌合之众》中指出,群体行 为可能是极端的 [8]。在这个意义上,CI 不能通过 个人的简单组合来实现,而应该首先理解 CI 的特 征,以更好地利用它来实现我们的目标。

在社会学领域,麻省理工学院群智中心的一组 研究者将需要的工作分为四个组成部分,即执行者、 动机、目标和实现方式,并在此基础上提出“群智 基因组”[9]。以谷歌和维基百科为例,分别对这些 组织的基因进行分析,并提出“CI 基因”有用的条 件。此外,他们的同事在两个不同的实验中系统地 研究了团队的表现,并得出了衡量一个团队的一般 能力的“C 因子”[10]。这个“C 因子”与群体成 员的平均社会敏感度、话语权力的平等性以及女性 在群体中的比例相关。可以预见的是,通过重组“CI 基因”,并根据任务的“C 因子”,人们可以得到一 个他需要的强大系统。

在这些 CI 社会学理论的基础上,人们可以在 群体力量的帮助下更好地解决问题,尤其是在计 算机科学中。1991 年,Colorni 等人 [11] 研究蚂蚁 的食物搜索行为,并提出蚁群算法 [12~14]。该算 法的基本思想是基于信息素选择下一个节点,直到 达到适当的解决方案。在蚁群算法中,信息素信 息分布的更新过程是基于当前迭代中的所有搜索行 程,可以理解为蚂蚁的 CI 的涌现。在这个意义上, ACO 算法成功地应用于多个问题,如旅行商问题 (TSP)[15,16]、数据挖掘和比例 – 积分 – 微分(PID) 控制参数的优化。此外,科学家还提出了一些有效 的 CI 算法,如粒子群优化算法(PSO)[17],它模 拟了鸟类的觅食。

除了在这些优化问题中使用了 CI,从群体中学 习可能是解决现实世界中大数据背景下机器学习应 用挑战的一种方式。例如,用于监督学习的标签对 于许多应用来说可能太昂贵甚至不可能获得 [18]。 因此,研究者们开发了 CI 学习技术 [19~22] 来克服 这一困难。在下一节中,将看到 CI 处理大量棋类 游戏标签的能力。在本文中,笔者尝试用 CI 进化 理论解决工业中的问题,比如智能机器人的应用, 并取得了初步的验证效果。笔者的工作有可能促进 计算机科学领域对 CI 的研究,也为 CI 与深度学习 和强化学习的结合铺平道路。

《三、AlphaZero 中群智智能逻辑探索》

三、AlphaZero 中群智智能逻辑探索

在 这 一 节 中, 将 回 顾 AlphaZero 中 的 理 论, 也涉及它之前的版本 AlphaGo Fan [23],AlphaGo Lee [24],AlphaGo Master [24] 和 AlphaGo Zero [24]。 然后将从 CI 的角度分析这些理论。这些理论分为两部分:①用深度神经网络代表个体;②通过强化 学习使个体进化。注意笔者会将 MCTS 的细节留到 下一节来做重点分析,因为 CI 是在 MCTS 中涌现 的。最后将应用 AlphaZero 到一种新的游戏,即五 子棋,来展现 AlphaZero 的群智算法的逻辑。

《(一)AlphaZero 核心概念回顾》

(一)AlphaZero 核心概念回顾

从 实 际 对 弈 的 角 度 来 看,AlphaZero 使 用 MCTS 算法进行搜索寻找最佳落子。由于搜索时间 有限,不可能穷尽所有的可能落子,所以使用了策 略网络来减小搜索宽度,使用了价值网络来减小搜 索深度。策略网络作为采样的先验概率,以更大的 概率去搜索那些可能赢棋的落子。价值网络作为状 态的评价函数,不需要模拟到棋局结束便可给出胜 负的预测。

从训练的角度来看,策略网络和价值网络是用 强化学习的策略迭代算法训练出来的。MCTS 相当 于是策略提高算子,因为搜索概率比策略网络的概 率要好,用搜索概率作为标签来训练策略网络。基 于 MCTS 的自我对弈相当于是策略评价算子,这里 的策略指的是 MCTS 的搜索概率,因为评价的是使 用搜索概率下棋的胜负,这个胜负作为标签训练价 值网络。下面将换一个角度,从 CI 的角度来重新 分析 AlphaZero。

《(二)用深度神经网络代表个体》

(二)用深度神经网络代表个体

个体的表达能力限制了它们的智能程度。如果 个体的表达能力较低,即使 CI 涌现出来,CI 也不 能被个体继承。在 AlphaZero 中,个体是通过深度 神经网络来代表,就是为了提高个体的表达能力。

在 AlphaGo 中,给定当前棋盘状态,策略网络 用来提供下一步落子的概率分布,价值网络用来提 供赢棋的概率。在 AlphaGo Fan 中策略和价值是两 个独立的神经网络,每个网络有 13 个卷积层。然 后在 AlphaGo Lee 中,每个卷积层的卷积核数量由 192 增加为 256。从 AlphaGo Master 到 AlphaZero, 策略和价值网络被结合到一个网络当中,并且卷 积层的数量增加到 39 或 79。表 1 为 AlphaGo 所 有版本神经网络结构对比。AlphaZero 的棋力比 AlphaGo Lee 明显要好。而且值得一提的是监督学 习得到的 AlphaZero 神经网络也比得上 AlphaGo Lee 的棋力。这个事实体现了 AlphaZero 中神经网 络的作用。

AlphaZero 神经网络表现优异的原因有许多。 最首要的是网络的大小。可以看到 AlphaZero 中 卷积层的数量是 AlphaGo Lee 的 3 倍,这意味着 AlphaZero 中可调参数也大致是 AlphaGo Lee 的 3 倍。这表明网络的表达能力大幅提升。用这种方 式,网络能够学习到 MCTS 生成的搜索概率,也 就是说个体能够继承 CI 的知识。其他原因包括: ①残差块降低了训练难度;②双重网络结构使得策 略和价值网络被调整到一个共同的表达方式,并且 提高了计算效率。

《表 1》

表 1  AlphaGo 神经网络结构对比

《(三)通过强化学习使个体进化》

(三)通过强化学习使个体进化

一旦个体具备了足够的表达能力,下一个问题 就是怎样让它们进化。为了能让个体持续进化,就 需要找到进化的方向。在 AlphaZero 中,是通过个 体自己的经历来找到进化方向,即通过强化学习。 这样的结果就使个体能够持续进化,最后超越了之 前版本以及人类专家的棋力。

在最早的版本 AlphaGo Fan 中,策略网络是先 由专家知识训练的。然后用 Reinforce 算法提高策 略网络。换言之,强化的网络是通过策略网络自我 对弈结果训练出来的。之后,价值网络是通过强化 的策略网络自我对弈结果训练出来的。在下一个版 本 AlphaGo Lee 中,价值网络是由 AlphaGo 自我对 弈的结果训练出来的,而不是用策略网络自我对弈, 并且这个过程反复了几次。从 AlphaGo Master 到 AlphaZero,不仅价值网络是通过 AlphaGo 自我对 弈的结果训练出来的,策略网络也是由 AlphaGo 生 成的搜索概率训练出来的。值得一提的是 MCTS 用来生成搜索概率并落子。

从 AlphaGo 的发展可以总结出强化学习是进化 的关键,并且自己生成的标签质量决定了进化的程 度。对于价值网络,对比 AlphaGo Fan 和之后的版 本,主要区别是价值网络的标签。在之后的版本里, 标签更为准确,因为它们是由使用了 MCTS 落子的 AlphaGo 生成的,而不是仅用强化的策略网络。对 于策略网络,从 AlphaGo Master 到 AlphaZero,是 由 MCTS 生成的搜索概率作为标签,而不是由对弈 结果指引的策略网络自己的落子,具体的比较总结, 如表 2 所示。

之所以 MCTS 生成的标签比策略网络好是因 为:MCTS 包含了多次模拟来落子,在每次模拟中, 策略网络用来给出先验概率,价值网络用来更新行 动价值。可以把每次模拟中的策略和价值网络当作 一个个体,那么搜索概率会随着个体数量的增加而 变得准确。因此,MCTS 可以提供 CI,在这里指搜 索概率以及使用搜索概率下棋得到的胜负结果。在 文献 [24] 中,基于 MCTS 的自我对弈被视为强化 学习中的策略评价算子,但它的策略指的是 MCTS 的搜索概率,并不是原本的策略网络,与原本的策 略迭代算法不完全一致。所以,更合适的观点是将 MCTS 视为 CI 算法,关于 MCTS 的更多信息将在 下一节介绍。

《表 2》

表 2  标签来源对比

注:标签来源对比,分别是从监督学习的策略网络、强化的策略网络和使用 MCTS 的 AlphaGo 而来。

《(四)应用于五子棋时的训练结果 》

(四)应用于五子棋时的训练结果

为了展示 AlphaZero 的群智智能逻辑,笔者将 这一技术应用于一个新的游戏,即五子棋,同时也 应用于五子棋的一个变体,即有禁手五子棋。训练 结果将在下文展示。注意笔者对 AlphaZero 做了 一些改进使得它能适应五子棋和有禁手五子棋的 规则。

图 1 表示的是改进的 AlphaZero 在五子棋中的 训练结果。图 1(a) 展示了改进的 AlphaZero 的棋力。 注意在五子棋上同样实现了 AlphaGo Fan,它的棋 力也被作为对比对象。Elo 评分是用不同选手在多 样的开局下比赛算出来的,每步使用 1 s 的思考时 间。对于 AlphaZero,使用一个图形处理器(GPU) 来计算神经网络。图 1(b) 展示了训练时每一代神经 网络在测试集上的预测准确率。准确率测量了神经 网络给出的最高概率的落子的准确性。图 1(c) 展示 的是训练时每一代神经网络预测测试集对弈结果的 均方差(MSE)。同样的,改进的 AlphaZero 在有 禁手五子棋上的训练结果,如图 2 所示。

可以看出,AlphaZero 的棋力比传统的通过 专家知识构造的引擎要强。策略和价值网络从它 们自身的经历中逐渐学到了自己的战术。同时 也展示了 AlphaZero 可被用于不同规则的游戏。 AlphaZero 的通用性是继承于表达方式的通用性, 即深度神经网络,也继承于进化方法的通用性, 即强化学习。并且,由 MCTS 生成的标签为强化 学习提供了进化的方向。在下一节,CI 将被用来 解释 MCTS 的原理。

《图 1》

图 1 改进的 AlphaZero 在五子棋中的训练结果

 

注:(a) 改进的 AlphaZero 在五子棋的棋力,其中相应的策略网络的棋力用灰色表示;(b) 在测试集上的预测准确率;(c) 预测测试集对弈结果的 MSE

《图 2》

图 2 改进的 AlphaZero 在有禁手五子棋中的训练结果

 

注:(a) 改进的 AlphaZero 在有禁手五子棋的棋力,其中相应的策略网络的棋力用灰色表示;(b) 在测试集上的预测准确率;(c) 预测测试集对弈结果的 MSE。

《四、ACO 和 MCTS 的比较分析》

四、ACO 和 MCTS 的比较分析

MCTS 是一种高效的启发式决策搜索算法,广 泛应用于博弈游戏中。笔者就以群体算法中最具有 代表性的 ACO 为例,和 MCTS 算法进行对比,并 将它们应用到 TSP 问题中。然后通过应用的结果, 来分析 ACO 和 MCTS 算法的共性特征。

《(一)TSP 旅行商问题》

(一)TSP 旅行商问题

TSP 问题是一个经典的组合优化问题,有下列 具体描述 [25]

V = {a, …, z} 为城市集合,A = {(r,s):r,s∈V} 是城市中两两城市的连接的边,每个边是城市之间 的距离:δ(r,s) = δ(s,r),(r,s)∈A。TSP 问题是找到 能够不重复访问所有城市的最短路径。在该问题中, 每个城市由 r∈V 都有具体的坐标值 (xr, yr),因此也被称为欧拉形式的 TSP 问题。

TSP 问题也是非确定多项式(NP)问题的代表 问题,计算复杂度与城市数量呈指数关系。

《(二)ACO 蚁群算法》

(二)ACO 蚁群算法

ACO[25~27] 算法采用了模拟真实自然环境中 蚁群的行为,很好地解决了如TSP等组合优化问题。 蚁群在搜索食物时,最开始的时候在它们的巢穴周 边进行随机策略搜索,一旦有蚂蚁发现了食物,它 们就把食物从食物源搬回巢穴。在搬运食物的过程 中,蚂蚁会在返程的路径上释放化学信息素,信息 素释放的数量取决于找到的食物的数量和质量。当 之后的蚂蚁进行搜索时,能够依据信息素的多少, 判断食物源的方向,更快地找到食物。蚁群通过信 息素实现了多个个体的信息共享,这使得它们可以 很快地找到从巢穴到食物源的最短路径。

当解决 TSP 问题时,每个迭代步由以下两个主 要的步骤组成:

模拟:每只蚂蚁依据状态转移概率矩阵,按照 概率分布完成一次完整的搜索,选择每一条路径的 概率正比于状态转移概率矩阵

式(1)中,τ 为信息素;η = 1/δ(r,s) 为路径 δ(r,s) 的 倒数;Jk(r) 为第 k 只蚂蚁从搜索过程中的城市 r 出 发剩余需要访问的城市;β 为访问状态转移先验概 率的一个超参数。 更新:一旦所有蚂蚁完成了它们的搜索,需要 进行一次全局的信息素更新

其中,

式(2)和式(3)中,α 为信息素衰减因子;Lk 为 蚂蚁 k 途经路径的长度;m 为蚂蚁的总数量;Q 为 信息素的权重因子,它决定了探索和利用的比重。

整个搜索过程由以上步骤进行迭代,直到达到终止状态,在本文中,超参数取 Q = 1.0,α = 0.1, β = 1.0。

《(三)MCTS 蒙特卡洛树搜索》

(三)MCTS 蒙特卡洛树搜索

MCTS[28~30] 是一种能够在给定环境找到最 优策略的启发式的树搜索方法。MCTS 在计算机围 棋领域取得了巨大的成功,其中以 AlphaGo [23] 和 AlphaGo Zero [24] 为代表,结合了 MCTS 和深度神 经网络,并使用了自我对弈强化学习实现进化,最 终实现了超越人类顶尖棋手的棋力水平。

MCTS 在整个树搜索空间中,采用随机的策略 进行大量模拟来评估状态价值。随着模拟的次数增 加,搜索树也增加得更大,对状态价值的估计也更 加准确。进行树搜索的策略在搜索过程中也在不断 改进,渐渐地,树搜索策略收敛于最优策略,状态 价值估计也收敛于真实的状态价值。

图 3(a) 表示了 MCTS 搜索中的一个迭代步中 的四个步骤 [28],具体步骤如下:

选择(selection):从树的根节点开始,依照 选择策略递归进行子节点选取,直到达到搜索树的 叶节点。在 TSP 问题中的树搜索策略是在所有子节 点中根据置信上界方法选取(UCT)。

式(4)中,s 为当前节点状态; L(s,a) 为经过边 (s,a) 的总路径长度; N(s,a)为边(s,a)被访问过的总次数; L 为被访问过所有合法路径的长度的平均值;CΓ 为 UCT 方法中的一个超参数,用来平衡探索和利用。 搜索的先验概率为 P(s,a),为了和 ACO 算法中的先 验概率保持一致,取边长度 δ(s,a) 的倒数

扩展(expansion):对树叶节点进行扩展,选取当前节点之后所有的可行城市作为当前节点的子 节点。

模拟(simulation):当到达叶节点后,按照默 认策略行走直到达到终点,得到当前路径长度 lt 。 模拟的默认策略是按照正比于先验概率 P(s,a) 选择 当前节点的可行城市。

回溯(backpropagation):完成一次模拟之后, 按照当前的模拟结果对整个搜索树进行更新。

当经过了指定次数的迭代,最终依照访问次数 最多的城市进行选择。在本文中,超参数 Cp = 3.0。

《图 3》

图 3 MCTS 每个迭代步的四个步骤 (a) 及 ACO、MCTS 和随机搜索收敛曲线 (b)

 

《(四)结果与分析》

(四)结果与分析

由于欧拉 TSP 问题中的城市间的连接距离是按 照实际坐标点距离计算,因此是一个无向图问题, 并且搜索路径是一个闭环,因此整个搜索图也可以 被视作一个树搜索结构。为了和 MCTS 对比,ACO 每次都从一个固定的城市出发进行搜索,固定的城 市就是 MCTS 中的搜索起始根节点。两种算法的详 细配置见表 3。

本文将这两种算法应用于 30 个城市的 TSP 问 题,另外为了与这两种方法做对照,加入了纯随机 搜索作为对照。使用这三种方法分别进行了 10 次 TSP 问题优化,最终结果如图 3(b) 和表 4 所示。

相比于随机搜索,ACO 和 MCTS 都体现了良 好的收敛性,在前 100 迭代步中,MCTS 略微优于 ACO,但是在后半程出现了搜索停滞。一个主要原 因是由于 MCTS 搜索为一个树状结构,而 ACO 搜 索为一个网状结构,ACO 对于局部区域路径优化 的能力更强。

对比 ACO 和 MCTS 中的每一个迭代步中的具 体算法可以发现,MCTS 具有和 ACO 相似的机理, 在每一个迭代步中,每个个体需要按照特定策略进 行搜索,并依据全局群体共享信息实时更新策略。 这两种算法相似点有以下几点:

模拟策略:在 ACO 中,进行模拟的策略是按 照状态转移概率矩阵得到,在 MCTS 中,搜索树中 的部分是依照 UCT 策略得到,模拟的部分采用默 认模拟策略。

群体信息共享:在 ACO 中,所有的输出结果 都更新到全局信息素中,全局信息素决定了状态 转移概率矩阵。在 MCTS 中,模拟的结果更新到 Q(r,s),这影响到了下一次在搜索树中选择的 UCT 策略。

平衡探索和利用:在 ACO 中,模拟的行动选 择正比于概率分布,同时保证了探索和利用,受超 参数 Q 影响。在 MCTS 中,UCT 算法保证了平衡 探索和利用,受超参数 Cp 影响。

这些特征同样也是群智算法的关键特征。从 实验结果可以看到,虽然 MCTS 算法没有显式的 群体搜索的概念,其搜索的机理体现了群智涌现的特征,因此可以被视作群智算法。群智涌现是 保证 ACO 和 MCTS 具有良好搜索收敛性的关键 机制。

《表 3》

表 3 ACO、MCTS 的算法超参数设置

《表 4》

表 4 ACO、MCTS 和随机搜索结果

《五、群智进化理论》

五、群智进化理论

在深入研究了 AlphaZero 程序和 MCTS 算法 之后,其下隐藏的智能进化机制被完整地发现了。 AlphaZero 的成功主要取决于两个因素,一个是使 用深度卷积神经网络来表示个体智能,另一个是使 用 MCTS 使 CI 涌现并高于个体智能。深度卷积神 经网络能够通过用合适的目标标签训练来进化其智 能。MCTS 算法能够通过 CI 涌现来生成合适的目 标标签。在强化学习环境中结合这两个因素,个体 智能进化的正反馈就形成了。

因此,笔者提出了一个 CI 进化理论,并将其 作为走向 AGI 的通用框架。第一,定义一个深度神 经网络来表示个体智能;第二,使用 CI 算法使 CI 涌现并高于个体智能;第三,利用这个更高的 CI 进化个体智能。最后,在强化学习环境中不断重复 涌现 – 进化的步骤,以形成个体智能进化的正反 馈,直到智能收敛。通用 AGI 进化框架流程图, 如图 4 所示。

《图 4》

图 4 通用 AGI 进化框架流程图

 

用 p(k) 和 vp(k) 表示第 k 次迭代中的个体策 略和个体状态价值,其中 p(k) 由深度神经网络来 表达,vp(k) 是衡量个体智能程度的标准,可以通 过 p(k) 与环境交互得到(例如在围棋中将与几个 对手引擎下足够多盘棋作为环境,下赢的奖励为 1,下输的奖励为 0,那么 vp(k) 就等于策略 p(k) 的 胜率,AlphaZero 中使用 Elo 评分衡量个体智能程 度,本质也是先通过与环境交互的胜率计算得来,再通过个体 Elo 与环境平均的 Elo 之差便可反推胜 率);用 π(p(k)) 和 vπ(vp(k)) 表示群体策略和群体状 态价值,其中 π(p(k)) 由 CI 算法产生,vπ(vp(k)) 通过 π(p(k)) 与环境交互得到;用 v* 表示最优状态价值, 通常有 vp(k) ≤ vπ(vp(k)) ≤ v*;用 α(k)∈[0,1] 表示 个体智能学习 CI 的程度,即在 vp(k) 和 vπ(vp(k)) 之 间做线性插值;用 β(k) = vπ(vp(k)) – vp(k)∈[0,v* – vp(k)] 表示 CI 高于个体智能的程度。如果将 vp(k) 视为动力系统的状态量,将 vπ(vp(k)) 视为动力系 统的控制量,这种正反馈可以表示成离散时间 系统

目标是个体状态价值达到最优,即

理想情况是在达到最优前的任意 时刻 k,有 α(k) > 0 和 β(k) > 0,即 vp(k) 单调递增, 且

当然,实际应用中也可 能情况异常,存在某些时刻 k,α(k) < 0 或 β(k) > 0, 导致正反馈中断。为了保证正反馈的持续进行,需 要有理论的支撑,并且在实际应用中调节超参数来 弥补理论和实际的间隙。 其中,α(k) > 0 由神经网络的训练来保证,例 如使用损失函数 

和梯度下降来 训练神经网络。根据 Gibbs 不等式 [31],当且仅当 p(k) = π( p(k)) 时,l 达到最小值。虽然有理论保证, 但 α(k) 受神经网络的结构和梯度下降算法中的超参 数影响,不一定能达到 p(k) = π( p(k)),即 α(k) = 1。 实际应用中需要合理调节这些超参数使得 α(k) > 0 即可。

另一方面,β(k) > 0 由 CI 算法来保证。在最 早的蚁群算法 ant system(AS)[27] 的基础上改 进后,很多蚁群算法的扩展都有了收敛性的保证, graph-based ant system(GBAS)算法能收敛到最优 行动的概率为 1 [32],而常用的 ant colony system (ACS)[25] 和 max-min ant system(MMAS)[12] 算法能收敛到最优行动的概率大于一个下界 值 [33]。MCTS 从最初的版本改进到 UCT,也就 是将置信上界(UCB)[34] 加入到选择中,能收 敛到最优行动的概率为 1[30]。AlphaZero 是 将predictor UCB(PUCB)算法加入到 MCTS,而单 独的 PUCB 算法能收敛到最优行动的概率大于一 个下界值 [35]。虽然 AlphaZero 中的 MCTS 没有 理论证明,但从应用效果来看也可以使得 β(k) > 0, 实际应用中需要合理调节超参数来弥补理论和实 际的间隙。

在完美智能 v* 有限的情况下,CI 进化有两种 类型的智能收敛。一种是个体智能收敛到一个和 CI 相同的极限。这意味着或者是完美的智能已经 到达,即

或者是 CI 算法不足以使得更高的群体智能涌 现, 即

另一种是个体智能收敛到一个低于 CI 的 极 限,这意味着或者是个人智能的容量不够大, 或 者 是 训 练 方 法 不 再 有 效, 即

与现有的机器学习方法相比,CI 进化理论具 有一定的优势。深度学习是强大的,但依赖于大量 高质量的标签数据过于昂贵。强化学习通过廉价的 奖励信号为个体智能提供了进化环境,但由于试错 性质,学习效率较低。CI 算法能够使 CI 从无到有, 但缺乏一种进化个体智能的机制。CI 进化理论结合 深度学习、强化学习和 CI 算法的优势,通过 CI 的 涌现,使个体智能高效、低成本地进化。这种进化 可以从零开始,因此 CI 进化理论是向 AGI 迈进的 一步。

《六、智能机器人应用》

六、智能机器人应用

传统的机器人可以利用一些计算机视觉或专家 系统技术来实现某种智能行为,但它们缺乏学习或 进化能力来自动适应环境变化。例如,焊接机器人 能够通过 3D 视觉系统和基于传统特征的视觉算法 来跟踪焊缝。但是,为了使焊接机器人工作正常, 必须在新的焊接环境中手动调整一些关键参数。因 此,机器人工业迫切需要能够像人类一样自动适应 环境的智能机器人。

CI 进化理论在智能机器人中有着天然的应用, 它通过传感器、智能体和执行器的闭环提供了一个 强化学习环境。该理论的应用称为智能模型。为了 促进智能模型的实现,一个云端平台被开发出来帮 助创建和进化智能机器人的智能模型。

面向工业应用的智能模型主要分为三类,视觉 检测、数据预测、参数优化,其中参数优化具有最 广泛的需求。作为这一概念的验证,一个焊接机 器人的焊接参数优化智能模型已经在云端平台上 实现。

随着科技的发展,在钢铁材料的焊接领域,机 器人焊接逐渐取代了以往的人工焊接。在焊接机器 人实施焊接过程中,控制焊接的参数会直接影响焊 接的质量。焊接的参数有焊枪移动速度、电流、电 压、焊枪角度等。焊接参数需要焊接工程师根据焊 接板材材质、焊缝宽度以及焊接板材厚度等场景手 工调节优化焊接参数,为满足焊接机器人在工业应 用中智能化的需求,提出用深度学习和强化学习的 技术,结合焊接机器人 3D 视觉系统,实现焊接机 器人根据焊接场景的不同实现焊接参数的自动调 节,或者说实现由焊接场景到焊接参数最优的映射 关系。

考虑最简单的焊接场景,输入特征只保留一个 焊缝宽度,从零开始均匀增加,输出参数仅控制焊 枪移动速度。

焊接参数优化的目标是得到最好的焊接质量, 具体来说,就是对于较小的焊缝宽度,希望焊接后 的焊料宽度保持在 5 mm;对于较大的焊缝宽度, 希望焊料宽度比焊缝宽度大 2 mm,并且不论焊缝 多宽,理想的焊料高度都是 1 mm。图 5 为焊缝宽 度和焊接板材长度的关系曲线,图 6 为理想的焊料 宽度和焊缝宽度的关系曲线。

《图 5》

图 5 焊缝宽度和焊接板材长度的关系曲线

 

《图 6》

图 6 理想的焊料宽度和焊缝宽度的关系曲线

 

在一条焊缝的焊接过程中从起始点开始把每隔 等长的一小段间距作为一个焊接点,焊接点的个数用 n 表示,每一时刻未焊接点的焊缝宽度和已焊接 点的焊料宽度和高度分别用 gi ,wi ,hi 表示,焊接 到第 i 个焊接点的时刻用 ti 表示。笔者定义一个简 化的马尔可夫决策过程(MDP)模型,假设 t 时刻 的环境状态 st =gi,t 时刻智能体的行动就是焊枪在第 i 个焊点的移动速度 vt i ,即 at =vt i ,并且假设折扣 因子为 0,即仅考虑即时奖励,把每一焊接点的实 际焊接效果和理想焊接效果之间的偏差作为这一 时刻的奖励。

图 7 为焊接参数优化智能模型的训练流程图。 为了训练这个智能模型,首先到焊接现场采集实 际焊接效果数据,然后离线训练价值网络,最后 用这个训练价值网络训练策略网络,即焊接智能 体。图 8 为策略网络焊枪移动速度与焊缝宽度的 关系曲线。

《图 7》

图 7 焊接参数优化智能模型的训练流程图

 

《图 8》

图 8 策略网络焊枪移动速度与焊缝宽度的关系曲线

 

在云端平台上部署了这个智能模型,并到焊接 现场进行了测试验证(见图 9),实现了较好的焊接 质量。可以看出,针对线性变宽的直焊缝,得到的 训练策略网络基本符合要求。

《图 9》

图 9 焊接现场测试验证

 

对于简单的焊接场景,单个智能体离线强化学 习就可以达到较高的智能水平,即焊接质量。如果 是复杂的焊接场景,就需要先实现在线焊接质量评 估,然后根据群智进化理论进行在线智能进化,才 能够实现更高的智能水平。

《七、结语》

七、结语

CI 涌现和深度神经网络进化是 AlphaZero 程序 在很多游戏中达到超人性能的关键因素。将 CI 与深 度学习和强化学习相结合,就得出了 CI 进化理论。 并对该理论在焊接机器人中的示范应用进行了讨论。 这一理论是走向 AGI 的通用框架,因此期待在未来 有越来越多的应用和进一步的理论探讨。