人工智能开启机器人编程新模式机器人操作技能学习--688IT编程网

人工智能开启机器人编程新模式：机器人操作技能学习

文/吴鸿敏徐智浩周雪峰

机器人被誉为“制造业皇冠顶端的明珠”，是衡量一个国家创新能力和产业竞争力的重要标志，已经成为全球新一轮科技和产业革命的重要切入点。随着工业4.0和智能制造业的智能化和柔性化发展，机器人在智能化发展过程中也面临较大的挑战。一方面，产品生产方式呈现多样化、小批量和定制化特征，需要更短的制造系统迭代周期，迫使机器人具备快速编程与对不同场景的高效适应能力。另一方面，机器人正逐渐从工业环境的独立操作转化为与人类进行人机协作，这就要求机器人具备类人的灵巧操作能力。

现有依赖于人为干预与反复调试的机器人编程方式只适用于特定任务，当遇到相近任务或不同环境时，需要重新进行编程，从而无法汲取过往的操作经验，存在效率低、适应性差、灵巧性不足等问题。当前，新一代人工智能技术研发取得了重大进步，产品应用也日益广泛，随着机器人应用广度与深度的不断提升，探索如何利用人工智能技术让机器人系统具备一定的自主决策和学习能力，进而使机器人能够学习到适应于不同任务和环境的操作技能，避免对每个任务的繁琐编程，是未来机器人研究和发展的重要趋势。

人工智能技术促进机器人智能化与自主化发展

2017年7月，国务院发布了

《新一代人工智能发展规划》，将人工智能定位为国家战略，明确提出了三步走战略目标，即到2020年人工智能技术应用成为改善民生的新途径；到2025年人工智能成为带动我国产业升级和经济转型的主要动力，智能社会建设取得积极进展；到2030年人工智能理论、技术与应用总体达到世界领先水平。国家和各省份都高度重视人工智能与机器人技术融合发展等方面的研究工作，部署实施了一批重大重点科技攻关项目，如，2018年科技部发布科技创新2030“新一代人工智能”重大项目，明确指出开展自主智能体灵巧精准操作学习；2020年广东省重点领域研发计划“新一代人工智能”重大专项也明确提出开展多自由度智能体复杂技能的自主学习研究及应用等。由此可见，随着人工智能与互联网、大数据、云平台等深度融合，在跨媒体感知、自主协同控制和优化决策、机器学习、类脑智能计算等技术的支撑下，机器人的智能化与自主化水平将进一步提升，未来的机器人将具有更多的感知与决策认知能力，变得更加灵活、灵巧与通用，能够高效适用于复杂多变的应用场景。

如今，人们提出了借助人工智能技术让机器人进行自主决策与学习的方法，从而使机器人适应于灵活多样化的应用需求。其中，机器人操作技能学习被认为是最为有效的解决方案，主要是通过机器人与人类和环境交互的方式获得操作技能。具体包括两方面的内容：一是使机器人从与人类交互的经验数据中进行高效率模仿学习，充分利用人类的操作经验，实现人－机器人操作技能传授，目的是赋予机器人具备“举一反三”的能力；二是使机器人从与环境交互的经验数据中进行可持续增强学习，并根据实际环境的变化构建出自主操作策略模型，目的是赋予机器人具备“熟能生巧”的能力。特别是，模仿学习是增强学习初始化和提高技能学习效率的重要方式。

专家论道

机器人操作技能的高效率模仿学习

2018年8月，中国工程院院刊刊载的文章《走向新一代智能制造》中明确指出，新一代智能制造技术机理是人－信息－物理系统，其典型特征是人将部分认知转移给信息系统，使系统具有认知与学习能力。在人－信息－物理系统中将人的操作经验与灵巧性迁移到机器人系统，使其获得高度类人化操作能力，是机器人操作技能学习的一种重要方式，其实现过程有着不同的称谓，如示教编程（programming by demonstration, PbD）、示教学习（learning from demonstration, LfD）、模仿学习（imitation learn-ing），以及学徒学习（apprentice-ship learning）等。特别地，根据该类机器人操作技能学习方法的特点以及实现过程，我们在此表述为机器人操作技能的高效率模仿学习。在实际应用中，一般让熟练的工人根据自身操作经验通过拖动示教、远程示教或虚拟示教等方式对机器人系统进行示教，进而通过人工智能技术，从经验数据中获得机器人运动策略，最终实现机器人操作技能学习，当面临相近的操作任务应用需求时，机器人可以高效地对所习得的操作技能进行泛化处理，以生成新的操作技能来完成新的任务，从而极大增加了机器人系统编程的效率及灵活性。

机器人操作技能的高效率模仿学习过程包括三个阶段：

第一阶段是人类对机器人进行示教阶段。一般以在线示教为主，在示教过程中机器人跟随示教者进行

运动，并同步采集到机器人本体、

机器人与操作对象，以及环境的状

态信息，包括位姿、速度、力矩、

刚度、相对位姿关系等。

第二阶段是机器人操作技能的

建模与学习阶段。通过非线性动态

系统或轨迹编码算法对经验数据进

行封装，形成技能模型，并通过技

能学习获得模型参数。

第三阶段是机器人操作技能的

实例化与泛化应用阶段。通过智能

感知技术对新任务的目标进行识别

与定位，将学习到的技能模型适应

于环境的变化，并根据任务的需求

选择合适的机器人控制模式。其实

现过程如图1所示。

总体而言，机器人操作技能模

仿学习是通过构建“感知－动作”

的学习机制，赋予机器人“举一反

三”的操作能力，显著提升机器人

操作的编程效率与灵巧性，实现复

杂任务下多样化技能的高效习得。

机器人操作技能的可持续

增强学习

增强学习（Reinforcement Le-

arning）被认为是人类通往通用人

工智能（artiﬁcial general intelligen-

ce, AGI）的有效途径。在基于增

强学习的机器人操作技能学习中，

机器人以试错的机制与环境进行交

互，并通过给定当前状态及其回报

优化下一步动作，以最大化从环境

获得的预期回报进行最优操作技能

策略学习。相比于玩电脑游戏、围

棋的增强学习问题，机器人操作技

能的增强学习主要面临着三个方面

的挑战：一是需要对机器人的高维

连续状态与动作空间进行优化；二

中国在线编程是真实机器人与环境交互的数据采

集成本高昂且安全性低；三是策略

模型训练效率低。

为了应对增强学习在机器人操

作技能学习方面面临的挑战，目前

机器人操作技能增强学习方法主要

有两类：一是将机器人感知与控制

模块融合进策略模型中，形成端到

端的机器人操作技能策略模型，进

而可以直接将传感器原始观察作为

输入，并将底层执行器的驱动指令

作为输出。由于这一学习过程是对

机器人完成任务的每一步动作进行

优化，也被称为基于步骤的机器

人操作技能增强学习方法，如图

图1 机器人操作技能的模仿学习过程

䎛⚎鵄Ⰶ➃䊨兰腊倝傞➿

所示。

二是针对增强学习样本利用率低和学习效率低的瓶颈问题，在模仿学习的基础上，提出了一种基于运动基元表征（movement repres-entation ）的机器人操作技能增强学习方法，即将机器人完成任务的运动基元，例如，模仿学习中常用的动态运动原语（Dynamic move-ment primitives, DMP ）、概率运动基元（probabilistic movement primitives, ProMP ）和核化运动基元（kernelized movement primitives, KMP ）等，进行参数化后对这些运动基元的参数进行学习与优化，得到满足任务需求的运动基元参数配置。具体技术方案如图3所示。

通过结合模仿学习与增强学习

的优势，将人类的操作经验进行知识化表达后再进行学习，具有较好的样本利用率和学习效率，这也是近年来机器人操作技能学习的主要研究方向。

由此可见，机器人操作技能的增强学习方法是通过构建“感知+控制”一体的机器人操作技能增强学习机制，不断从与环境交互中进行操作策略学习与持续优化，赋予机器人“熟能生巧”的操作能力。

机器人操作技能学习的相关研究

目前，国内外学者通过效仿人类进行操作技能学习的内在机制，将机器人操作技能学习系统划分为四个功能模块：机器人本体、感知

与控制、技能模型与技能学习。其中，感知与控制是机器人本体与技能模型之间的中介层，通过视觉、触觉、听觉等传感器实现对操作对象和环境的状态感知，并由控制模块实现机器人本体的运动控制与执行。技能模型用于对经验数据进行封装，且不依赖于具体的机器人平台，可以由一定的参数配置实例化为具体的技能，其参数通常由技能学习实现。下面将针对技能模型与技能学习方法的不同，对目前机器人操作技能学习的相关研究进行阐述。

1.“举一反三”

为了赋予机器人“举一反三”的操作能力，学界提出了机器人操作技能的高效率模仿学习方法，包括基于非线性动态系统和轨迹编码两种技能模型。该方法能够充分利用人类的操作经验，将人类的操作技能传递给机器人，具有高效率、低成本等优点。

在动态系统方面，德国马普研究所的智能自主系统研究团队通过利用一系列线性可微方程，对人类示教的机器人运动进行建模，提出了基于动态系统的操作技能模仿学习方法，命名为动态运动原语（DMP ）。该方法继承了非线性动

态系统的条件收敛、对外界扰动的鲁棒性和时间独立性等优点，无论受到何种外界干扰，模型都将收敛于目标点。在此基础上，瑞士联邦理工学院的学习算法与系统实验室通过将机器人动力学与创新学习算法相结合，提出了一种基于非线性动态系统全局稳定估计（stable

estimator of dynamical systems,

图2 机器人装配技能的增强学习方法

图3 融合模仿学习与增强学习的机器人操作技能学习过程

专家论道

SEDS）的机器人操作技能模仿学习方法，将动态系统与概率统计模型相结合，给出全局稳定性的约束条件，将参数估计问题转化为最优化问题对未知参数进行学习，实现了动态性很强的机器人复杂操作技能模仿学习，具有较强的抗干扰性和全局稳定性。国内，哈尔滨工业大学采用动态运动原语与高斯回归模型（Gaussian mixture regressi-on, GMR）进行人机技能迁移学习，提出了基于阈值的启发式机器人操作任务分割算法，并在人机协作任务上进行泛化应用。华南理工大学提出了基于动态运动原语与模糊高斯混合回归模型的人机技能传递系统，并利用径向基神经网络进行机器人运动学估计，有效提升技能泛化的精度。广东省科学院针对已有操作技能模型在未知环境下感知能力不足的问题，提出了基于动态运动原语的机器人自感知操作技能模型(introspective movement primiti-ves, IMPs)，不仅具备传统机器人操作技能的运动特性，还兼备了外界的感知能力，并结合有限状态机在机器人装配及物流装箱任务中进行了验证，实现了机器人复杂多步操作任务的增长式表征。

在轨迹编码方面，瑞士Idiap研究所通过高斯混合模型（Gaussi-an mixture model, GMM）和高斯回归模型（Gaussian mixture re-gression, GMR），对人类示教的经验数据进行轨迹编码，构建了操作空

间的机器人操作技能模仿学习框架，且利用相对熵作为轨迹泛化性能的指标，保证了技能的稳定性。德国达姆施塔特工业大学提出了概率运动基元（ProMP）对示范

数据在时间和空间两个维度的不确

定性进行联合建模，使技能模型具

有运动预测及增加中间过渡节点的

能力。英国利兹大学在GMM/GMR

模型的基础上采用了核函数对回归

函数进行建模，提出了核化运动基

元（KMP）的机器人操作技能模仿

学习方法，适用于高维输入变量的

情况。国内，华中科技大学针对人

机技能模仿学习中任务约束的不确

定性问题，提出了基于GMM/GMR

模型的闭环式人机技能传递方法，

有效提升技能模型泛化应用的精度

和鲁棒性。中国科学院自动化所提

出了基于GMM/GMR的机器人微

装配技能模仿学习方法，实现了毫

米级零件微米级精度的微装配技能

学习，实现人机高精度装配技能的

迁移。

2.“熟能生巧”

为了赋予机器人“熟能生巧”

的操作能力，学界提出了机器人操

作技能的可持续增强学习方法，让

机器人以试错的机制与环境进行交

互，通过最大化累计奖赏的方式学

习得到最优操作技能策略。相比于

模仿学习，该方法主要适用于人类

难以示教，甚至不能示教，以及具

有较高不确定性因素影响的操作任

务，如打乒乓球、平底锅翻饼、物

体抓取等。

美国加州大学伯克利分校的

机器人人工智能与学习实验室提出

了针对机器人操作任务的端到端深

度视觉策略（visuomotor policy），

将感知与控制融合于策略模型中，

实现了直接由原始的观测状态，包

括机器人关节角、关节速度、末端

位姿、末端速度和RGB图像作为

策略模型输入，输出机器人关节力

矩。该方法不仅实现了较为复杂的

操作技能，而且避免技能学习对相

机标定、机器人动力学模型、视觉

特征提取算法的依赖，展现较强的

通用泛化能力，并在需要视觉和控

制之间密切协调的拧盖子任务进行

了验证。谷歌大脑耗时4个月采集

了14台真实机器人总共随机进行

80万次抓取物体的数据进行抓取

技能学习，成功率为82%；在此基

础上，为了提高效率，提出了一种

off-policy的增强学习算法QT-Opt，

并通过7台真实机器人收集超过58

万次的抓取数据进行训练，实现了

对未知物体抓取成功率达96%。谷

歌大脑联合剑桥大学在4台真实机

器人上采集视觉、惯性测量单元、

关节编码器等多模异构信息融合的

操作经验数据，并基于深度增强学

习算法进行机器人随机目标点到达

和开门技能的学习，平均成功率达

90%。DeepMind提出了基于数据

驱动的技能学习框架，在常见物体

的抓放、堆叠等2种技能应用中的

成功率分别为80%和60%，而该

框架依赖于人工的偏好进行新技能

的学习，需要重新设计网络及经历

8小时~12小时的调试后才能实现

一个简单的插入技能应用。

国内，清华大学针对人类示教

数据量不够和质量不高的问题，提

出了基于示教的操作技能增强学习

方法，将技能建模成一个带约束的

优化问题，实现了在专家示教附近

寻最优的技能策略，大幅度提升

了技能学习效率。山东大学将机器

人装配任务划分为两个阶段，先由

䎛⚎鵄Ⰶ➃䊨兰腊倝傞➿

视觉引导进行精定位，再通过深度确定性策略网络进行精装配，提出了基于力/力矩和机器人本体运动量等多模信息描述的机器人柔性装配技能学习方法，并在卡扣式装配任务进行了验证。腾讯机器人实验室采用最小化操作技能逆动力学差异的方法，分析了由观测和牵引示教两种方式进行多自由度智能体技能学习的性能，并将相关方法在虚拟场景下进行了验证。英特尔中国研究院提出了基于动态运动单元的机器人学习系统，通过DMP对机器人操作技能进行表达后，采用增强学习算法实现投掷、做菜等任务。

机器人操作技能学习的未来发展趋势

机器人操作技能学习作为人工智能与机器人学的交叉领域，通过让机器人从人类示教或与环境交互的经验数据中进行操作技能的自主获取与优化，并扩展应用于未知环境或任务，是实现机器人快速编程、高效适应和灵巧操作的有效途径。由于算法、算力、算据作为人工智能技术发展的三大支柱，同样也直接决定了机器人操作技能学习的上限。

一方面，利用深度学习已经部分解决机器人通过视觉、触觉、听觉等传感器进行外界感知的问题，并

且基于模仿学习和增强学习理论框架，机器人操作技能已取得初步的成效，让机器人具备一定的自主决策与学习能力，但目

前大部分工作尚处于理论研究阶

段，机器人所实现的操作技能相

对简单，与人类相比还有较大的

差距。在这个问题上，麻省理工

学院机器人专家Leslie Pack Kaebl

ing于2020在Science上发表一篇

名为“The Foundation of Efﬁ cient

Robot Learning”的文章，指出要

想实现下一代机器人学习的技术革

新，必须综合考虑工程原理、生物

学灵感、系统设计阶段学习以及最

终的在线学习，才能打造出类人的

智能机器人。

另一方面，目前机器人操作技

能学习主要集中在单个机器人对单

个任务的学习，缺乏从多个机器人、

多个任务以及不同任务之间进行学

习。为实现这一目标，需要对过往

的操作经验进行知识化表达，让机

器人学习到任务和环境的不变量并

存储起来，以便在学习新任务时利

用它们，这就需要算力超强的“云

端大脑”提供支撑，形成“云－

边－端”协同计算架构的机器人操

作技能学习与应用平台。

最后，在面临算据不足的问题

上，目前已提出了少样本学习、迁

移学习等理论框架，以及通过高逼

真度的机器人物理仿真引擎，实现

机器人操作技能的“虚－实”迁移，

但都将难以消除“虚－实”之间的

差异性。对此，构建具备硬件无关、

传感共享、技能派生和体智能特

征的云机器人平台，将促进机器人

操作技能学习技术更好落地应用。

机器人操作技能学习作为人

工智能加持下的机器人编程新模

式，已受到了社会各界的广泛关

注与认可，随着人工智能与机器

人技术的不断突破，我们有理由

相信，机器人将成为人类日常生

活的一部分，在工业、服务、医疗、

教育和军工等领域提供帮助，并

逐渐改变原有的产业模式，甚至

是人类的生存模式。

【作者简介】

吴鸿敏（1990－），男，任

职于广东省科学院智能制造研究所

人工智能研究中心，博士后，研究

方向：云机器人技能学习、多模态

感知；

徐智浩（1989－），男，任

职于广东省科学院智能制造研究所

人工智能研究中心，博士，助理研

究员，研究方向：机器人轨迹编码、

机器人智能控制；

周雪峰（1982－），男，任

职于广东省科学院智能制造研究所

人工智能研究中心，博士，研究员，

研究方向：机器人技能学习。

（编辑：拓晓瑞）

688IT编程网

人工智能开启机器人编程新模式机器人操作技能学习

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

人工智能开启机器人编程新模式机器人操作技能学习

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性