WO2023165177A1

WO2023165177A1 - 构建机器人的控制器的方法、机器人的运动控制方法、装置以及机器人

Info

Publication number: WO2023165177A1
Application number: PCT/CN2022/134041
Authority: WO
Inventors: 王帅; 张竞帆
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2022-03-01
Filing date: 2022-11-24
Publication date: 2023-09-07
Also published as: US20230305563A1; CN116736749A

Abstract

一种构建机器人的控制器的方法、机器人的运动控制方法、装置以及机器人，方法包括：利用第一控制器控制机器人运动，并获取机器人在运动过程中的运动状态数据和控制数据(S201)；根据运动状态数据和控制数据，使用策略迭代的方式对第一控制器的线性平衡参数矩阵进行更新(S202)；以及基于更新后的线性平衡参数矩阵，构建对应于机器人的动力学特性的第二控制器(S203)。

Description

构建机器人的控制器的方法、机器人的运动控制方法、装置以及机器人

相关申请的交叉引用

本申请要求于2022年03月01日提交中国专利局，申请号为202210194306X，申请名称为“构建机器人的控制器的方法和机器人”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及人工智能及机器人领域，更具体地涉及一种构建机器人的控制器的方法、机器人的运动控制方法、装置、机器人、计算机可读存储介质以及计算机程序产品。

背景技术

随着人工智能及机器人技术在民用和商用领域的广泛应用，基于人工智能及机器人技术的机器人在智能交通、智能家居等领域起到日益重要的作用，也面临着更高的要求。

当前对机器人，特别是欠驱动机器人进行运动控制时，通常需要设计与机器人机械结构精确对应的动力学模型，然后基于该动力学模型在行进过程中的变化来确定机器人各个关节处的控制力，以保证机器人的运动过程中的平衡。然而，由于机器人的机械结构复杂，尤其是某些轮腿式机器人，即使在知晓机器人的机械结构的情况下也很难得出准确的动力学模型。此外，即使动力学模型已知，但在一些情况下难以准确地进行动力学模型中的参数辨识。如果动力学模型的参数虽然已知但不准确，也会造成机器人的控制器效果不理想。为此需要提出一种能够对机器人进行灵活控制的方案。

发明内容

本公开提供了一种构建机器人的控制器的方法、机器人的运动控制方法、装置、机器人、计算机可读存储介质以及计算机程序产品。

一方面，本公开提供了一种构建机器人的控制器的方法，由处理器执行，所述方法包括：利用第一控制器控制机器人运动，并获取机器人运动过程中的运动状态数据和控制数据；根据所述运动状态数据和所述控制数据，使用策略迭代的方式对第一控制器的线性平衡参数矩阵进行更新；以及基于更新后的线性平衡参数矩阵，构建对应于所述机器人的动力学特性的第二控制器。

在又一方面，本公开提供了一种机器人运动控制方法，由处理器执行，所述机器人通过驱动主动轮运动，所述方法包括：

接收运动指令，所述运动指令指示所述机器人的运动轨迹；

根据运动指令，通过所述第一控制器控制施加给所述主动轮的驱动力，以使得所述机器人按照所述运动轨迹运动；

获取所述机器人在运动过程中的运动状态数据和控制数据；

基于所述运动状态数据和所述控制数据，使用策略迭代的方式构建对应于所述机器人的动力学特性的第二控制器；以及

利用所述第二控制器控制施加给所述主动轮的驱动力，以使得所述机器人平稳运动。

在又一方面，本公开提供了一种机器人，所述机器人包括：数据采集装置，被配置为：在第一控制器控制机器人运动的情况下，获取所述机器人的运动状态数据；数据处理装置，被配置为：获取与所述运动状态数据对应的控制数据；基于所述运动状态数据和所述控制数据，使用策略迭代的方式对第一控制器的线性平衡参数矩阵进行更新；以及基于更新后的线性平衡参数矩阵，构建对应于所述机器人的动力学特性的第二控制器。

在又一方面，本公开提供了一种构建机器人的控制器的装置，所述装置包括：

运动控制模块，用于利用第一控制器控制机器人运动，并获取所述机器人在运动过程中的运动状态数据和控制数据；

策略迭代模块，用于根据所述运动状态数据和所述控制数据，使用策略迭代的方式对所述第一控制器的线性平衡参数矩阵进行更新；以及

第二控制器构建模块，用于基于更新后的线性平衡参数矩阵，构建对应于所述机器人的动力学特性的第二控制器。

在又一方面，本公开提供了一种机器人运动控制装置，所述机器人通过驱动主动轮运动，所述装置包括：

指令接收模块，用于接收运动指令，所述运动指令指示所述机器人的运动轨迹；

指令执行模块，用于根据运动指令，通过所述第一控制器控制施加给所述主动轮的驱动力，以使得所述机器人按照所述运动轨迹运动；

数据获取模块，用于获取所述机器人在运动过程中的运动状态数据和控制数据；

策略迭代模块，用于基于所述运动状态数据和所述控制数据，使用策略迭代的方式构建对应于所述机器人的动力学特性的第二控制器；以及

驱动力控制模块，用于利用所述第二控制器控制施加给所述主动轮的驱动力，以使得所述机器人平稳运动。

在又一方面，本公开提供了一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时实现上述任一项所述的方法的步骤。

在又一方面，本公开提供了一种计算机程序产品，包括计算机可读指令，所述计算机可读指令被一个或多个处理器执行时实现上述任一项所述的方法的步骤。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员而言，在没有做出创造性劳动的前提下，还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制，重点在于示出本发明的主旨。

图1示出了根据本公开实施例的具有单轮腿式构型的左轮腿部及右轮腿部的机器人的结构示意图。

图2示出了根据本公开实施例的构建机器人的控制器的方法的示例性流程图。

图3示出了根据公开实施例的机器人对应的标注示意图。

图4示出了根据公开实施例的机器人对应的控制架构图。

图5示出了根据本公开实施例的构建机器人的控制器的方法的示例性流程图。

图6示出了根据本公开实施例的机器人的又一结构视图。

图7A示出了根据本公开实施例的机器人利用第一控制器控制机器人的运动过程中的运动状态数据和控制数据。

图7B示出了根据本公开实施例的构建第二控制器的过程中线性平衡参数矩阵的收敛过程，其中机器人的基座部高度分别为0.5米和0.6米。

图7C示出了根据本公开实施例的机器人利用第一控制器和第二控制器分别控制机器人在基座部高度为0.6米的情况下进行直线行走的运动状态数据。

图8示出了根据本公开实施例的构建第一控制器的示例性流程图。

图9示出了根据本公开实施例的构建机器人的控制器的方法的示例示意图。

图10示出了根据本公开实施例的采集机器人的运动状态数据和控制数据的过程示意图。

图11示出了根据本公开实施例的采集机器人的运动状态数据和控制数据的曲线图。

图12示出了根据本公开实施例的采集机器人的过程中的线性平衡参数矩阵的迭代示意图。

图13示出了根据本公开实施例的测试机器人的控制器的实验示意图。

图14示出了根据本公开实施例的测试机器人的控制器的实验数据图。

具体实施方式

下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本发明的部分实施例，而不是全部的实施例。基于本发明实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本发明保护的范围。

如本公开和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本公开对根据本公开的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本公开中使用了流程图用来说明根据本公开的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

本公开技术方案主要涉及人工智能技术中的机器人技术，主要涉及机器人智能控制。机器人是利用机械传动、现代微电子技术组合而成的一种能模仿人某种技能的机械电子设备，机器人是在电子、机械及信息技术的基础上发展而来的。机器人的样子不一定必须像人，只要能自主完成人类所赋予他的任务与命令，就属于机器人大家族的成员。机器人是一种自动化的机器，这种机器具备一些与人或生物相似的智能能力，如感知能力、规划能力、动作能力和协同能力，是一种具有高度灵活性的自动化机器。随着计算机技术和人工智能技术的发展，使机器人在功能和技术层次上有了很大的提高，移动机器人和机器人的视觉和触觉等技术就是典型的代表。

本公开涉及一种人工智能在机器人控制方面的应用，具体地，本公开提出了一种基于人工智能来构建机器人的控制器的方法，该方案增加了利用待优化的任意控制器来构建对应于机器人的动力学特性的控制器。在对应于机器人的动力学特性的控制器的控制下的机器人，相对于在该待优化的任意控制器的控制下的机器人，具有更靠近于平衡点的运动状态。

本公开涉及的机器人可以是欠驱动的机器人，欠驱动是独立控制变量个数小于自由度个数的一类非线性控制对象。例如，欠驱动的机器人可以是如图1所示轮腿式机器人。具体地，图1示出了根据本公开实施例的具有单轮腿式构型的左轮腿部及右轮腿部的机器人的结构示意图。

如图1所示，其示例性示出了一种机器人100的结构示意图。该轮腿式机器人100可以包括：轮腿部103；，轮腿部103包括主动轮104(又称为足部)。轮腿式机器人100还可以包括基座部101，基座部101是指该机器人的主体部分，例如可以为该机器人的躯干部，该基座部例如可以为连接至该机器人的轮腿部的平面板状部件或长方体状部件。作为示例，轮腿部103的一端与基座部101连接，另一端与主动轮104连接。基座部101上装配有动力输出装置(例如，电机)，可用于为驱动轮腿部103的主动轮提供动力。应了解，根据实际需要，该机器人还可以包括连接至该轮腿部的基座部或设置在该基座部上的附加部件。应了解，上述仅给出一种机器人的结构示例，本公开的实施例不受该机器人的具体组成部件及其连接方式的限制。

轮腿部103中的主动轮104可以使得轮腿式机器100人既可以进行行走，也可以进行轮式运动。可选地，轮腿式机器人100还可以包括可控的附加部件(例如，尾巴)，该尾巴可用于平衡轮腿式机器人，也可以辅助轮腿式机器人运动。例如，该尾巴可以辅助轮腿式机器人在运动中保持平衡。可选地，轮腿式机器人还可以包括可控的机械臂，机械臂可用于执行如搬运、拾取等操作任务。轮腿式机器人可以包括多足轮腿式机器人，例如双足轮腿式机器人、四足轮腿式机器人等。

例如，轮腿部103为并联结构腿(双足轮腿式机器人100的两条腿之间为平衡点所在位置)。参照图1，机器人100的轮腿部102包括左轮腿部和右轮腿部，左轮腿部及右轮腿部中的每一个，均包括主动轮及两个并联腿部，该两个并联腿部连接至该主动轮的中心轴且用于实现对该主动轮的运动控制。例如，该左轮腿部例如包括左主动轮，第一左轮腿部及第二左轮腿部，第一左轮腿部与第二左轮腿部并联；且该右轮腿部112例如包括右主动轮，第一右轮腿部及第二右轮腿部，第一右轮腿部与第二右轮腿部并联。如图1所示，左轮腿部和右轮腿部镜像对称。

例如，该主动轮例如可以为单轮、两轮、四轮或其他个数的主动轮构型，每一个主动轮的运动可以通过并联的两个腿部或串联的多个腿部进行控制。应了解，本公开的实施例不受该左、右轮腿部的具体组成类型及其主动轮数量的限制。在一些实施例中，左轮腿部及右轮腿部均为单轮腿式构型。单轮腿式构型是指该轮腿部仅包括单个主动轮。

例如，该左轮腿部与该右轮腿部可以包括相同的关节个数且具有相同的关节构型，或者，根据实际需要，该左轮腿部和该右轮腿部例如可以具有不同的关节个数或具有不同的关节构型，或既具有不同的关节个数又具有不同的关节构型。本公开的实施例不受该左轮腿部与该右轮腿部所具有的具体关节个数及关节构型的限制。以图1所示的示例为例，左、右轮腿部中各包含5个关节，且共有2个转动自由度，可以通过调整轮腿部103的各个关节来调整轮腿部/基座部的质心高度的变化和基座部的倾斜角。

机器人的腿部可以是串联结构腿，也可以是并联结构腿，与串联结构腿相比，并联结构腿能够具有更强的刚度，可承受复杂运动中可能带来的冲击。在与地面接触时，主动轮104可为轮腿式机器人100提供滑行的运动能力。可选地，双足轮腿式机器人100还可以包括附加部件102，附加部件102和基座部101连接。附加部件102上可装置被动轮105。附加部件102包括1个转动自由度。附加部件102的运动也会对基座部101和轮腿部103的变化产生影响，例如，附加部件的位置变化可以带动基座部，使其具有一定的转动速度。由此，可通过调整附加部件102的位置来调节机器人100的平衡与姿态。

轮腿式机器人100既具有轮式机器人的灵活性又具有腿式机器人的灵活性，因此可以在平坦的地面上快速移动、也可以穿越崎岖不平的道路。但是，对于某些轮腿式机器人(类似于图1所示的轮腿式机器人100)，该机器人与地面之间只有两个接触点。并且该轮腿式机器人100是非最小相位系统，因此在实际应用中仍难以对该轮腿式机器人100进行平衡控制。此外，由于(轮腿式)机器人的复杂机械结构，很难确定该(轮腿式)机器人的动力学特性。由于传统的平衡控制方法需要知晓机器人的动力学特性，因此，在未知动力学特性的情况下，传统的平衡控制方法难以对这样的机器人进行平衡控制。

本公开的实施例提供的构建机器人的控制器的方法，涉及在机器人的动力学特性未知的情况下，利用自适应动态规划方法(ADP)和/或全身动力学方法来设计使得该机器人在运动中能够保持平衡的控制器。ADP本质上解决了无限时域LQR问题，但系统模型的参数是完全未知的。因此，众所周知的代数黎卡提方程无法解析求解。本公开的实施例实现了在无法基于系统模型求解LQR问题的情况下，仍能通过人工智能方案得到LQR问题的解。

可选地，自适应动态规划方法可以通过基于数据驱动(data-driven)的策略迭代(Policy Iteration，PI)方案。

例如，本公开的实施例可选地结合最优控制技术，提出了一种基于自适应动态规划的策略迭代方法。基于自适应动态规划的策略迭代方法能够在机器人的动力学参数存在改变或动力学特性未知的情况下，动态地迭代控制器，以获取对应于参数变化后的机器人的动力学特性的控制器。该控制器使得即使机器人的动力学参数变化，也能使得机器人在平衡状态下也能以最优的控制效果沿目标轨迹行进。

作为一个示例，基于自适应动态规划的数值迭代方法可以不需要任何初始的控制器，但所需要的数据量相对较多，更适用于离线迭代控制器。而基于自适应动态规划的策略迭代方法虽然需要初始的控制器，但是所需要的数据量远小于基于自适应动态规划的数值迭代方法。

本公开的实施例基于人工智能技术，例如强化学习和ADP技术，利用策略迭代、数值迭代或全身动力学控制技术，在未知机器人的动力学特性的情况下解决了机器人控制器的最优平衡控制问题。本公开的实施例的构建控制器的过程仅需要轮腿式机器人在非最优控制器或任意控制器的控制下行进一段时间或一段轨迹，并收集与该时间段或该轨迹相对应的运动状态数据和控制数据作为训练数据。由此，本公开的实施例的训练数据的数量远远小于传统的强化学习算法所需的数据量。

更进一步地，本公开的实施例的训练的控制器随着学习步长的增加而逐渐收敛到对应于线性二次调节问题的最优解的控制器，从而可以保证闭环系统的稳定性，其训练过程被大大的简化，并且不需要对训练数据进行额外的限制，从而简化了轮腿式机器人的控制器的设计过程。更进一步地，由于本公开的各个实施例均是从真实机器人上采集的数据，并将基于这些真实机器人数据获取的控制策略直接应用于机器人，从而无需考虑模拟控制和真实控制之间的差异，提高了控制器在真实机器人上的应用效果。

为便于进一步描述本公开，在这里先简要解释后文中可能使用到的各种运算符和集合的含义。

在本公开中，

表示实数集。|·|表示向量的欧几里得范数(Euclidean norm)。

表示克罗内克积(Kronecker product)。粗体字母代表向量或矩阵。斜体字母代表标量。

对于任意矩阵A＝[a ₁,…,a _n]，

对于任意对称矩阵S＝[s _i,j]，vecs(S)＝[s _1,1,2s _1,2,…,2s _1,n,s _2,2,2s _2,3,…,2s _n-1,n,s _n,n] ^T。对于任意向量

如图2所示，根据本公开至少一实施例的构建机器人的控制器的方法可以包括步骤S201至步骤S203。可选地，步骤S201至步骤S203既可以在线地执行，也可以离线地执行，本公开并不以此为限。

如上所述，构建机器人的控制器的方法可以可选地应用于任何包括轮腿部、且轮腿部包括主动轮的机器人。为便于描述，接下来将以图1中示出的机器人100为例来进一步描述构建机器人的控制器的方法。为便于描述构建机器人的控制器的方法中涉及的各种特征量，参考图3对图1中的机器人100进行了进一步的标注。

例如，如图3所示，可以将图1中示出的复杂的机器人100在机器人的广义坐标系下进行标注。为便于标注，在图3中，主动轮的中心P ₁和P ₂被示出为两个分离的点，本领域技术人员应当理解，实质上P ₁和P ₂是相同的点。

具体地，在图3中，以q _{·,·}和τ _{·,·}分别标识轮腿部涉及各个关节的参数，其中，q _{·,·}标识关节转动角度，τ _{·,·}标识关节的扭矩。例如，如q _{1,2}标识机器人的左轮腿部的第一连杆与基座部之间关节转动角度，而τ _{1,2}标识机器人的左轮腿部的第一连杆与基座部之间关节转动扭矩。虽然在图3中并未示出，可以对应地设置尾部关节的角度和转动扭矩。

本公开的实施例可选地结合全身动力学技术，提出一种基于自适应动态规划的全身动力学控制方法。该全身动力学控制方法将基于自适应动态规划而计算的机器人控制器的输出作为全身动力学控制的参考参数，从而提高该机器人运动的整体的灵活性。

根据本公开的一个方面，本公开的实施例可选地结合了最优控制技术，提出了一种基于自适应动态规划的策略迭代方法。该基于自适应动态规划的策略迭代方法能够在机器人的动力学参数存在改变的情况下，动态地迭代控制器中的线性平衡参数矩阵以获取对应于参数变化后的机器人的动力学特性的控制器。该控制器使得即使机器人的动力学参数变化，也能使得机器人在平衡状态下也能以最优的控制效果沿目标轨迹行进。

在步骤S201中，利用第一控制器控制机器人运动，并获取机器人在运动过程中的运动状态数据和控制数据。

可选地，机器人的精确动力学特性未知，或者仅能粗略的确定机器人的部分动力学特性。此外，机器人的动力学特性可能还涉及部分可变参数。以机器人100为例，随着机器人100的运动，机器人100的重心的高度可能改变。此外，如果利用机器人100搬运物体，机器人100的质量也可能对应地改变。不论是重心的高度的改变还是质量的改变，都可能导致机器人在运动过程中的动能、势能、动量等特性的改变，从而导致机器人100对应的动力学模型的变化。本公开虽然仅以重心高度和质量作为可变参数的示例进行了描述，但并不以此为限。

其中，第一控制器可以基于机器人的历史运动数据来构建。具体来说，处理器可以从机器人的历史运动数据中获取历史运动状态数据和历史控制数据，历史运动状态数据和历史控制数据的多样性度量高于预定阈值；根据历史运动状态数据和历史控制数据，使用数值迭代的方式计算线性平衡参数矩阵；以及基于线性平衡参数矩阵，构建用于控制机器人运动的第一控制器。

具体来说，处理器可以控制机器人沿预定轨迹运动，并获取运动过程中的运动状态数据和控制数据。预定轨迹可以基于机器人的结构特性、运动特性、动力特性粗略估计的，以采集机器人在各种运动情形(场景)下的运动数据从而使得运动状态数据和控制数据的多样性度量足够高。

控制机器人运动可以通过确定用于控制机器人轮腿部的每个关节的控制力矩来实现。

示例性的，处理器基于机器人的历史运动信息，自适应地确定控制主动轮转动的控制信息，基于控制主动轮转动的控制信息，确定用于控制多个关节的第一控制信息，第一控制信息使得机器人保持平衡，基于机器人的目标轨迹，确定用于控制多个关节的第二控制信息，第二控制信息使得机器人沿目标轨迹运动，然后基于机器人的运动约束条件、第一控制信息以及第二控制信息，确定机器人的轮腿部中每个关节的控制力矩，以使得能够基于控制力矩驱动各关节，以控制机器人运动。

可选地，第一控制器的线性平衡参数矩阵可以为稳定初始增益矩阵。可选地，控制器在一时刻提供的控制力负相关于线性平衡参数矩阵和机器人在时刻的运动状态数据之间的乘积。例如，控制器可以具有u(t)＝-Kx(t)的形式，其中K是对应于机器人的线性平衡参数矩阵，u(t)是对应于控制器在时刻t输出的控制力或力矩中的至少一种，x(t)是对应于机器人在时刻t的运动状态数据。以图1至图4描述的机器人100为例，机器人100至少包括：包括多个关节的轮腿部、连接至轮腿部的基座部、以及用于控制轮腿部中的主动轮的驱动电机。对应地，运动状态数据包括：基座部俯仰角、基座部俯仰角速度、以及主动轮的线性速度。控制数据包括：驱动电机的输出力矩。对应地，由于运动数据和控制数据均可以通过相关测量仪器离散地进行采集，因此，运动状态数据和控制数据均对应于多个离散的连续时刻或对应于多个连续的时间区间。

可选地，第一控制器可以是非最优控制器。非最优控制器例如是仅能使得机器人100沿目标轨迹跌跌撞撞地运动的控制器。例如，作为非最优控制器的第一控制器可以是与简化动力学特性对应的控制器。例如，对于复杂轮腿式机器人对应的精确的动力学模型，可以将其简化成仅由主动轮和基座部组成的等效动力学模型等等。

作为一个示例，可以使用第一控制器来控制机器人在类平衡状态下运动，例如，在一些第一控制器的控制下，机器人会以一定幅度在平衡点左右摆动。例如，如果在第一控制器控制下控制动力学特性未知的机器人在类平衡状态下运动，那么可以以第一控制器的输出作为控制数据。而如果由实验人员利用遥控器来控制机器人进行运动，那么可以通过在真实机器人上采集控制器的输出(例如，检测主动轮的驱动力等)来获取控制数据。本公开不对控制数据的获取方式进行限制。

又例如，第一控制器也可以是PID控制器等等。在一些情况下，第一控制器的线性平衡参数矩阵甚至可以任意的稳定控制增益矩阵。甚至，可以直接随机地以任意控制数据来控制机器人行进一段距离，并截取机器人在彻底失去平衡前(例如摔倒)前的控制数据和运动状态数据作为步骤201中得到的运动状态数据和控制数据即可。本公开不对第一控制器的具体设计方案进行限制，只要其能够控制机器人能够不彻底失去平衡即可。

作为一个示例，还可以使用利用数值迭代方案获取的一个或多个第一控制器来控制机器人进行运动，这一方案的具体实现将在后续详细描述。例如，在可变参数为第一值时，可以利用数值迭代方案确定第一控制器。其中，利用数值迭代方案确定第一控制器可以离线地实现。例如，令可变参数为机器人的身高，并令可变参数的第一值为0.38米，可变参数的第二值为0.5米。在机器人100的身高为0.38米时，可以利用数值迭代方案确定控制该机器人直线行走的最优控制器，并将该控制器作为第一控制器。然后，通过改变关节角度，将机器人100的身高调至0.5米。然后，继续利用第一控制器控制身高调高后的机器人行进一段时间或一段距离，并对应地采集运动状态数据和控制数据。后续将利用该运动状态数据和控制数据作为第二控制器的训练数据，以获取在可变参数为第二值时的最优控制器。

本领域技术人员应当理解上述的第一值和第二值均仅为示例，本公开并不限于此。虽然数值迭代方案能够确定与身高为0.38米的机器人适配的第一控制器，但是，在机器人的身高改变的情况下，需要离线地重新计算与身高变更后的机器人适配的第二控制器。离线计算可能是耗时的，并可能导致机器人的运动中断。

为降低计算量，可以利用步骤S202至S203，采用策略迭代的方案，构建第二控制器。具体地，在步骤S202中，根据运动状态数据和控制数据，使用策略迭代的方式对第一控制器的线性平衡参数矩阵进行更新。在步骤S203中，基于更新后的线性平衡参数矩阵，构建对应于机器人的动力学特性的第二控制器。

例如，在第二控制器的控制下的机器人，相对于在第一控制器的控制下的机器人，在运动过程中可以具有更优的控制效果。比如，在对应于机器人的动力学特性的第二控制器下的机器人在平衡点左右的摆动幅度可以比在第一控制器下的更小。又例如，在控制器的控制下的机器人，相对于在第一控制器的控制下的机器人，在运动过程中可以以较快的收敛于平衡点附近、或机器人的震荡更小、或控制速度更快、或超调量更小、或稳态误差更小等等。或者，在一些情况下，任意控制器和控制器具有同等的控制效果，但是控制器的控制输入更小。本公开对此不进行限制。

示例性的，以行进的机器人100为例进行说明。处于平衡状态下的机器人100在线性运动维度和旋转运动维度上可以是处于稳定平衡状态的。例如，处于平衡状态下的机器人100能够在运动过程中保持与平衡点定义的状态相同或是非常近似的状态，或者能够在运动过程中以最快的速度或是最小的能耗恢复到与平衡点定义的状态。平衡点定义的状态可以是使得机器人100处于俯仰角为零、俯仰角对应的角速度为零、且线性速度处于目标速度的状态。例如，机器人100的姿态为竖直向上的状态，并且机器人100不具备旋转运动维度上的速度仅具备线性运动维度上的目标速度，即为机器人100处于平衡点定义的状态。

而处于类平衡状态下的机器人100，则是在运动过程中处于平衡点附近定义的状态。例如，类平衡状态下的机器人100在线性运动维度和旋转运动维度上可能处于由稳定平衡状态过渡到不稳定平衡状态的中间状态。类平衡状态下的机器人100在运动过程可能需要主动轮提供较大的力和力矩才能保证其不跌倒。例如，机器人100可以左右倾斜，并且机器人100具备线性运动维度上的速度的同时还具备旋转运动维度上的速度，即为机器人100处于类平衡点定义的状态。值得注意的是，本文中处于类平衡状态下的机器人100在运动中的某些时刻也可能在线性运动维度或旋转运动维度上处于接近不稳定平衡状态，只要其能够通过主动轮104的驱动力恢复到能够正常行进的状态即可。

作为一个示例，如果机器人100仅在主动轮104的控制下沿直线运动，平衡状态下的机器人100能够始终保持竖直向上的姿态以匀速直线运动，也即，不稳定平衡状态的机器人100的基座部的中轴线能够时刻垂直于水平线并且不具备旋转运动维度上的速度或加速度。而类平衡状态下的机器人100的基座部则可能具备倾斜角(俯仰角)，并具备旋转运动维度上的速度或加速度中的至少一种。

在本公开的实施例中，可以首先使得机器人在第一控制器的控制下行进一段时间或是一段轨迹，并收集与该时间段或是该轨迹相对应的运动状态数据和控制数据作为训练数据。即使机器人100的动力学特性未知或是不准确或动力学特性在运动过程中改变，并且第一控制器为非最优控制器，本公开的实施例也能通过策略迭代确定作为最优控制器的第二控制器。本公开的实施例利用数值驱动的策略迭代方案来计算线性平衡参数矩阵，进而构建第二控制器。第二控制器的控制效果将优于第一控制器的控制效果。

所构建的第二控制器能够收敛于对应于线性二次调节问题的最优解的控制器。对应于线性二次调节问题的最优解的控制器也即是与该机器人的精确动力学特性对应的控制器。且对应于线性二次调节问题的最优解的控制器能够最小化机器人在运动过程中的成本泛函，以使得机器人在平衡状态下以最优的控制效果沿目标轨迹行进。之后将在下文中进一步描述策略迭代方案和线性平衡参数矩阵的计算方案。

由此，本公开的实施例的训练数据的数量远远小于传统的强化学习算法所需的数据量。更进一步地，本公开的实施例的训练的控制器随着学习步长的增加而逐渐收敛到对应于线性二次调节问题的最优解的控制器，从而可以保证闭环系统的稳定性，其训练过程被大大的简化，并且不需要对训练数据进行额外的限制，从而简化了机器人的控制器的设计过程。此外，本公开的实施例可以在实现真实机器人上直接进行数据采集，训练得到的控制器直接应用于真实机器人。本公开的实施例不需要在基于物理引擎的仿真器中进行数据采集，也省去了虚拟世界中的数据向现实世界中迁移带来的一些问题。具体地，参加图1至图4，针对任意带基座部的机器人，可以以

来表征该机器人的广义坐标参数(generalized coordinates)。其中，机器人的广义坐标参数

包括基座部的姿态

以及n _j个关节角度

针对图1和图3中示出的机器人，也可以类似地得到该机器人的广义坐标参数q，其中，n _j＝12，q _i可以为图3中以q _{·,·}标识的任意关节之一。

基于机器人的广义坐标参数q，可以确定该机器人关节的广义速度集合

以及广义加速度集合

本领域技术人员应当理解，

和

分别表示机器人本体(body)的瞬时角速度和瞬时角加速度。类似地，关节扭矩还可以使用τ＝[τ ₁,τ ₂,…,τ ₈] ^T来标识。

由此，可以构建如下式(1)所示的通用的动力学模型。

其中，

M(q)用于表示机器人的质量矩阵。

用于表示机器人的重力项、离心力项和科里奥利力项。

矩阵S用于从所有关节中选择主动关节，其中，如果S中的某个元素的元素值为0，则代表其为无驱动关节，如果元素值不为0，则标识其为主动关节。f为机器人在与地面接触的时候，地面在接触点提供的广义力。

J _f是针对f串联的接触雅各布矩阵(concatenated contact Jacobian matrix)。λ是前腿部作用于后腿部的闭环力。

J _λ是针对λ的串联的接触雅各布矩阵。n _c是主动轮和地面之间的接触点数量。考虑到闭环约束(也即，在真实机器人上，机器人的各个关节应当是固定连接的)，n _λ是开环环节之间的接触点的数量。针对图1和图3中示出的机器人，n _c＝2并且n _λ＝2。具体地，机器人的轮腿部是五连杆机构。五连杆机构的闭环约束的开环环节之间的(例如，图3中P ₁和P ₂点之间的)接触点的数量为2。

在获得机器人构型的基础上，可以考虑到机器人的行进过程，为机器人设置对应的控制架构和控制任务，并通过数学语言对控制架构和控制任务进行描述。以下参考图4来进一步描述上述的控制架构和控制任务。图4示出了根据公开实施例的机器人对应的控制架构图。具体地，以图3中标注的机器人为例，图4示出了对该机器人的多个示例性控制任务以及控制任务之间的关联。这些示例性控制任务的组合和关联又称为该机器人对应的动态全身动力学控制。

图4还示出了另一种示例，其利用测量值进行了机器人的运动状态估计，然后再将状态估计后的值输入至用于自适应地确定控制主动轮转动的控制信息的数据处理模块，以便于该数据模块能够更快速地学习各个时刻对应的测量值，以更高效地计算用于控制主动轮转动的最优控制器。

可选地，控制主动轮转动的控制信息既可以是主动轮的加速度，也可以是主动轮的力矩。虽然从数学意义上说，这两个物理量作为控制主动轮转动的控制信息并没有太大的区别，但是实际物理系统当中，并不是这两个物理量都可以被准确测量。因此，本领域技术人员在实验中，可以根据具体情况，选择数据测试效果较好，比较符合模型的物理量进行后续计算和迭代。

例如，机器人对应的动态全身动力学控制可以被描述为在保证机器人平衡的情况下，以最小化对于各个关节的总输入能量、并最小化与目标轨迹之间的误差为目标，对于机器人的各个关节进行控制。例如，可以以公式(2)来表示对于图3中标注的机器人的动态全身动力学控制目标argminz。

其中，

为目标轨迹针对各个关节设置的加速度的集合组合而成的向量。

为各个关节在运动过程的加速度的集合组合而成的向量。τ ^des为目标轨迹针对各个关节设置的力矩的集合组合而成的向量。τ为各个关节在实际运动过程的力矩的集合组合而成的向量。f为机器人在与地面实际接触的时候，地面在接触点提供的广义力。λ是机器人在运动过程中前腿部作用于后腿部的闭环力。下标W _q、W _τ、W _f、W _λ分别标识

τ、f和λ在计算公式(2)的范数时需要乘以的权重系数矩阵。

如图4所示，自适应动态规划确定的控制器将用于控制图1和图3中示出的主动轮。而主动轮的运动状态和动力状态将对应地向各个控制任务提供输入参考或输入限制，从而对机器人的姿势和平衡状态进行改变。对应地，为避免机器人失去平衡，图3中的主动关节(例如，q _{1,2}和q _{7,8})将在主动轮(例如，q _{5,6})、无驱动关节(例如，q _{3,4}和q _{9,10})以及关节力矩(例如，τ _{1,2}和τ _{5,6})的共同作用下转动，以调整机器人的位姿，使得机器人保持平衡。

如图4所示，主动轮在自适应动态规划控制器的控制下的转动将向轮平衡控制任务、轮行进和旋转控制任务中的至少一种提供输入参考Ref。目标轨迹将向轮移动和旋转控制任务、基座部姿态控制任务、尾部控制任务提供输入参考。虽然主动轮和目标轨迹并未直接向其他的控制任务(例如，扭矩控制任务和外力控制任务)提供输入参考，但是考虑到各个控制任务往往需要对相同的机器人组件(例如，主轮、连杆组件、关节铰链等等)进行控制，这些控制任务的控制效果也往往受到主动轮和目标轨迹的限制。

进一步参考图4，机器人的运动还受到各种约束的限制，例如，各个关节能够提供的最大扭矩、机械构型的限制等等。图4中给出了四种示例约束，动力学(dynamic)约束、闭环联动(close-loop linkage)约束、非完整约束(nonholonomic)和摩擦力(friction)约束。

作为一个示例，公式(1)示出的动力学模型可以作为动力学约束的一个示例，以限定该机器人在运动过程中能量的变化范围。本领域技术人员应当理解动力学模型的限制不限于此。例如，为便于分析机器人的能量变化，可以对机器人建立简化的动力学模型，以简化公式(1)在动态全身动力学控制中对应的动力学模型限制。

作为又一个示例，公式(3)示出了针对图3中的机器人的一种闭环联动约束的示例。本领域技术人员应当闭环联动约束还可以以其它方式示出。本公开不限于此。

其中，

和

分别是点P ₁和P ₂对应的雅克比矩阵。下标J _·,l和J _·,r分别标识机器人的左轮腿部和右轮腿部。

作为又一个示例，假设轮是纯滚动并与地面接触，在轮的径向和轴向不存在滑移和滑动，公式(4)示出了针对图3中的机器人的一种非完整约束的示例。本领域技术人员应当理解，非完整约束还可以以其它方式示出。

其中，

是主动轮-地面接触点相对于基座部的雅可比矩阵的x轴和z轴。

继续图4中的示例，摩擦力约束的设置可以基于这样的假设：实际运动过程中地面与机器人之间的接触点处的摩擦锥(friction cone)被近似为金字塔形的摩擦锥(friction pyramid)。在每个接触点对应的接触力f _i的局部坐标系下，给定摩擦系数μ，摩擦力约束可以被表达为|f _i,x|≤μf _i,z和|f _i,y|≤μf _i,z。

除了图4中示出的四种约束以外，还可以对应地设置单边约束。单边约束的示例可以是f _i,z>0。

在受到上述的各种约束的情况下，可以对应地确定各种控制任务的控制模型。具体地，主动轮在自适应动态规划控制器的控制下的转动将向轮平衡控制任务提供了输入参考，而目标轨迹将向其它控制任务提供输入参考。例如，主动轮的转动速度将对基座部的姿态和速度造成影响，而基座部的姿态和速度将对机器人的平衡状态造成影响。

作为一个轮平衡控制任务的示例，为控制基座部的运动，可以通过PD控制律(比例微分控制器)来计算基座部的期望加速度

在一个示例中，该PD控制律中的至少部分是基于针对姿态的输入参考和针对速度的输入参考得到的。

具体地，针对姿态的输入参考又称为参考姿态，其指示：由于主动轮在自适应动态规划控制器的控制下的转动，导致的除了关节q _{5,6}以外的其他各个关节的姿态的变化。针对速度的输入参考又称为参考速度，其指示：由于主动轮在自适应动态规划控制器的控制下的转动，导致的除了关节q _{5,6}以外的各个关节的速度的变化。

也即，可以以公式(5)来对公式(2)中的

进行近似的表达。

此外，还可以以公式(6)来进一步地对公式(2)中的

进行近似的表达。在公式(6)中假定除关节q _{5,6}以外的其他关节

(i≠3,4)的力矩近似为零。

又例如，以图1至图3描述的机器人为例，针对姿态的输入参考包括：机器人的重心到主动轮连线中心在地面上投影的距离(例如，以state_com_p标识)。针对速度的输入参考包括：基于机器人的重心到主动轮连线中心在地面上投影的距离的差分的得到的速度(例如，以state_com_v标识)、以及主动轮的线速度(以wheel_x_v标识)。上述的PD控制律可以以state_com_p、state_com_v、wheel_x_v作为输入状态解算得到主动轮的参考加速度或参考扭矩中的至少一种。

本公开的实施例可选地结合全身动力学技术，提出一种基于自适应动态规划的全身动力学控制方法。该全身动力学控制方法将基于自适应动态规划而计算的机器人某个关节的控制器的输出作为全身动力学控制的参考参数，从而使得该关节的控制器能够与其它关节的控制器相配合，从而提高该机器人运动的整体的灵活性。

可选地，本公开的实施例还对应地公开了一种利用对应于机器人的动力学特性的控制器的机器人运动控制的方法。机器人包括轮腿部和连接至轮腿部的基座部，轮腿部包括主动轮和至少一个关节。具体地，该方法包括：接收第二控制器的运动指令，运动指令指示机器人的运动轨迹；根据运动指令，利用对应于机器人的动力学特性的控制器控制主动轮的驱动力，以使得机器人沿着目标轨迹平稳运动。在对应于机器人的动力学特性的控制器的控制下的机器人，相对于在第一控制器的控制下的机器人，在运动过程中更靠近于平衡点。

可选地，本公开的实施例还对应地公开了一种控制机器人的方法。具体地，该方法包括：接收第一控制器的运动指令，运动指令指示机器人的运动轨迹；根据运动指令，控制主动轮的驱动力，以使得机器人在第一控制器的控制下运动并获取运动过程中的运动状态数据和控制数据；基于运动状态数据和控制数据，使用策略迭代的方式构建对应于机器人的动力学特性的第二控制器，利用第二控制器控制主动轮的驱动力，以使得机器人平稳运动。在第二控制器的控制下的机器人，相对于在任意其它控制器的控制下的机器人，在运动过程中具有更优的控制效果，例如，更靠近于平衡点。

由此，本公开的实施例的控制机器人的方法能够使得动力学特性未知的机器人学习运动过程中的数据，并逐步改进/生成对应于机器人的动力学特性的控制器，最终能够实现平稳运动。由于可以使用第一控制器的控制输入来控制机器人运动一段时间以获得训练数据，在这样的情况下，本公开的实施例实现了在动力学特性未知或动力学特性改变的情况下对非最优控制器的改进，生成了对应于机器人的(精确)动力学特性的第二控制器。也即本公开的实施例可以使得机器人在没有精确的动力学模型的情况下，也能够对机器人进行灵活控制。

例如，进一步地参考图5的示例，机器人100的运动过程在数学上可被看作一个连续时间线性系统。假设对于机器人100存在对应于线性二次调节问题的最优解的控制器，其能够使得机器人的运动过程对应的成本泛函最小。例如，对应于线性二次调节问题的最优解的控制器能够最小化机器人处于平衡点附近的成本并能以最小能耗沿目标轨迹行进。

作为一个示例，线性二次调节问题可以由公式(7)定义，其指示在

的情况下，求解能够最小化连续时间线性系统的成本泛函J的控制器。其中，类似地，

并且

其中，J是该连续时间线性系统的成本泛函，Q是一个实对称且正半定的矩阵，

是可观测的，并且R>0。x与机器人构型和轮平衡任务相关。例如，参考图4中的示例，如果需要对主动轮确定控制器，那么x可选地包括俯仰角、俯仰角角速度以及机器人的线速度，u则是两个轮的输入扭矩之和。

根据最优控制理论，数学上，代数黎卡提(Algebraic Riccati)等式(公式(8))可作为由公式(7)定义的以下线性二次调节(LQR)问题的解。

其中，u ^*(t)为对应于线性二次调节问题的最优解的控制器，u ^*(t)＝-K ^*x(t)，其中，

P ^*为满足

的矩阵。

如果机器人100的精确动力学特性已知，那么公式(7)和(8)中的矩阵A和B就已知。在已知公式(7)和(8)中的矩阵A和B的情况下，能够对应的求解出u ^*(t)。

然而，如上所述，在机器人100的精确动力学特性未知，或仅能够确定机器人100的部分动力学特性的情况下，在实际应用中无法确定上述的最优控制器u ^*(t)＝-K ^*x(t)。更进一步地，公式(7)和(8)中的P并非线性，从而导致了难以求解出准确的P ^*。

在本公开的实施例的各个方面中，在机器人100的精确动力学特性未知或动力学特性中的可变参数改变的情况下，或仅能够确定机器人100的部分动力学特性的情况下，通过策略迭代的方案来确定上述的最优控制器u ^*(t)＝-K ^*x(t)。具体地，根据策略迭代的相关理论，可以对应地确定：

假设存在

K ₀是一个稳定控制增益矩阵。也即，A-BK ₀是Hurwitz的。那么，如果通过公式(9)不断地更新K _k,那么在k趋向于正无穷时，K _k将趋近于K ^*，也即lim _k→∞K _k＝K ^*。

在公式(9)中，P _k>0，并且P _k是李雅普诺夫(Lyapunov)方程的解。李雅普诺夫方程的示例参见公式(10)。

在公式(9)和公式(10)中，k＝0,1,2,…，A _k＝A-BK _k。与K _k类似地，lim _k→∞P _k＝P ^*。由此，公式(9)和公式(10)描述了K _k+1、K _k和P _k三者之间的关系。

由此，至少部分地基于上述公式(9)和公式(10)，可以示例性地确定利用策略迭代方式对第一控制器的线性平衡参数矩阵进行更新的方案。

例如，上述的步骤S202可以进一步地包括：对对应于多个时间区间中的运动状态数据和控制数据进行非线性组合以确定训练数据集合，基于训练数据集合，确定迭代关系函数；根据迭代关系函数，对迭代目标项进行多次策略迭代，逼近得到对应于机器人的动力学特性的线性平衡参数矩阵。

接下来，以图1至图4中描述的示例来说明步骤S202。根据图1至图4的描述，可以使用第一控制器u ₀来控制机器人进行运动，并采集对应于多个时间区间中的运动状态数据和控制数据。具体地，例如，对于控制策略u＝u ₀，闭环系统可以以公式(11)所示。

然后，通过公式(9)和公式(10)，沿公式(11)定义的轨迹，x(t) ^TP _kx(t)的对于时间导数可示例性地通过公式(12)示出。

其中，

进一步地，运动状态数据是通过传感器在一段时间中以一定的时间间隔采集的，其分别对应于一段时间内的各个离散的时刻的机器人的运动状态。因此运动状态数据和第一控制器的控制数据可以对应于[t ₀,t _r]中的多个时间区间。多个时间区间中的任意一个时间区间t至t+δt可以被记为[t,t+δt]，其时长δt可以根据机器人传感器能够达到的数据收集时间间隔来确定。

参考图5，可以对对应于多个时间区间中的运动状态数据和控制数据分别进行非线性组合，以用于构建迭代关系函数。积分运算后的运动状态数据和控制数据将作为训练数据，参与步骤S202中的对迭代目标项进行策略迭代的过程，以逼近得到对应于机器人的动力学特性的线性平衡参数矩阵。值得注意的是以下描述的仅是一种示例性的积分运算，本公开并不以此为限。

例如，可以取公式(12)两边在时间区间[t,t+δt]上的积分，并重新排列公式(12)，可以确定示例性的公式(13)。

为了确定变量P _k和k _k+1，可以在多个时间区间对公式(13)进行迭代。例如，可以通过将r指定为一个足够大的整数，并使得对于所有i＝0,1,…,r-1，δt≤t _i+1-t _i。

根据公式(13)可知，任意两个相邻时刻t和t+δt之间的运动状态数据在时间上的积分可能与以下各项中的至少一项相关：时刻t的运动状态数据的二次项、时刻t+δt的运动状态数据的二次项、时刻t的运动状态数据与时刻t+δt的运动状态数据的乘积、时刻t的控制数据与时刻t的运动状态数据的乘积、时刻t+δt的控制数据与时刻t+δt的运动状态数据的乘积等等。可选地，时刻t的控制数据为使用第一控制器控制机器人行进的控制数据。

为便于进一步描述策略迭代的过程，对于给定的整数r，本公开的实施例可选地以公式(14)定义了以下三个矩阵作为训练数据集合中的示例元素，第一矩阵Δ _xx、第二矩阵∑ _xx、和第三矩阵∑ _xu。其中，第一矩阵

第二矩阵

并且

每个矩阵都对应于多个时间区间中的运动状态数据和控制数据的非线性组合，例如涉及积分运算和乘积计算等等。

其中，0≤t ₀<t ₁<…<t _r。运算符

表示克罗内克积(Kronecker product)。

例如，对于图1至图4描述的机器人100，第一矩阵Δ _xx中的任意元素

对应于时刻t _i和时刻t _i+δ _t的基座部俯仰角、基座部俯仰角速度、主动轮的线性速度中任意两项的乘积或任意一项的二次项之差。第二矩阵∑ _xx中的任意元素

对应于时刻t _i和时刻t _i+δ _t的基座部俯仰角、基座部俯仰角速度、主动轮的线性速度中任意两项的乘积或任意一项的二次项的积分。第三矩阵∑ _xu中的任意元素

对应于时刻t _i和时刻t _i+δ _t的基座部俯仰角、基座部俯仰角速度、主动轮的线性速度中任意一项与由第一控制器控制的驱动力的乘积的积分。不同机器人的构型将对应于与不同的矩阵，以上仅作为示例示出，本公开并不以此为限。

接下来，针对不同的t，例如，t＝t ₀,t ₁,…,t _r，公式(13)的方程组可以示例性地写成公式(15)的形式。本领域技术人员应当理解，不同的训练数据的线性组合方式将对应地影响所构建的迭代关系函数的形式。以下仅是示例性的给出基于公式(13)而得到的迭代关系函数(例如，公式(15))，其中，迭代目标项包括待迭代的线性平衡参数矩阵，以及以待迭代的线性平衡参数矩阵为参数的李雅普诺夫方程的解。当然，本公开并不以此为限。

其中，vec(·)标识对括号内的内容进行矢量化。此外，

并且

可被定义成公式(16)中所示的形式。其中，如上述所述，k指示策略迭代的次数，P _k为第k次策略迭代中的李雅普诺夫方程的解，K _k为第k次策略迭代中使用的线性平衡参数矩阵，K _k+1为第k+1次策略迭代中的线性平衡参数矩阵。

在上述的从公式(13)到公式(15)之间的转换过程中，为了简化计算，可令

由此，通过将公式(16)中的K _k更新为公式(15)中的K _k+1，策略迭代方案使得最优控制器的生成不再依赖于模型信息(A,B)。此外，公式(16)还可以收集在线采集的数据，并利用公式(15)将控制策略从K _k更新为K _k+1。因此，在公式(16)中收集的数据还可以被重复使用，以应用公式(15)针对k＝0,1,…,l更新K _k，并且更新过程可以是在线的或离线的。因此，这样的策略迭代过程还可以被称为脱机策略迭代(off-policy iteration)。

此外，为了确保唯一的一对(P _k,K _k+1)存在以满足公式(15)的要求，还需要满足公式(17)定义的秩条件。

rank([∑ _xx ∑ _xu])＝n(n+3)/2 (17)

具体地，根据lim _k→∞P _k＝P ^*可知，如果相邻两次策略迭代对应的李雅普诺夫方程的解P _k和P _k+1之差小于预设值(例如一个非常小的值)，那么迭代目标项收敛，并且策略迭代结束。

接下来参考图6至图7B进一步描述对图1至图4所示的机器人进行控制的方法。图6示出了机器人100的又一结构视图。图7A示出了利用第一控制器控制机器人的运动过程中的运动状态数据和控制数据。图7B示出了构建对应于机器人的动力学特性的控制器的过程中线性平衡参数矩阵的收敛过程，其中机器人的基座部高度分别为0.5米和0.6米。图7C示出了机器人利用第一控制器和第二控制器分别控制机器人在基座部高度为0.6米的情况下进行直线行走的运动状态数据。

如图6所示，机器人100除了图1至图4中所描述的轮腿部和基座部外，还包括数据采集装置、数据处理装置和驱动电机。

其中，数据采集装置可以被配置为：在利用第一控制器控制机器人运动的情况下，获取运动过程中的运动状态数据和控制数据。例如，数据采集器可以包括：第一传感器，用于测量基座部的俯仰角θ及其角速度

第二传感器，用于测量左右主动轮的旋转角速度

和

其中，第一传感器可以是惯性测量单元(Inertial measurement unit，简称IMU)，其可以包括三轴陀螺仪、三轴加速度计、或三轴磁力计。第二传感器可以是电机编码器，采样频率为200Hz。

数据处理装置，被配置为：根据运动状态数据和控制数据，使用策略迭代的方式对第一控制器的线性平衡参数矩阵进行更新；以及基于更新后的线性平衡参数矩阵，构建对应于机器人的动力学特性的第二控制器。

数据处理装置可以包括微处理器、数字信号处理器(“DSP”)、专用集成电路(“ASIC”)、现场可编程门阵列、状态机或用于处理从传感器线接收的电信号的其他处理器件。这种处理器件可以包括可编程电子设备，例如PLC，可编程中断控制器(“PIC”)、可编程逻辑器件(“PLD”)、可编程只读存储器(“PROM”)、电子可编程只读存储器等。

例如，数据处理装置还可以进一步地配置为对数据采集装置采集的数据进行进一步处理。例如，基于左右主动轮的旋转角速度

和

数据处理装置可以计算机器人100的线速度

其中r _w为主动轮半径。可选地，r _w＝0.1m。可选地，数据处理装置还可以计算机器人的偏航角速度

其中w _d为机器人宽度，可选地，w _d＝0.47m。

为便于说明，本公开仅给出利用第一控制器或第二控制器控制主动轮104的示例，本领域技术人员应当理解，本公开的方案也可以用于控制机器人的其它组件。由于主动轮仅用于控制机器人的向前和向后运动，对于弯曲的目标轨迹，还需要一个用于控制偏航角的控制器来控制机器人转向。为简化描述，将该控制偏航角的控制器设置为

其中

是目标偏航角速度。然后通过

和

计算左右轮的扭矩。由于

τ _ψ不改变沿机器人纵向的力。因此，偏航运动不会影响机器人的平衡。此后，角度单位被转换为“度(deg)”，以便阅读。

接着，数据处理装置基于给定的目标轨迹，计算第一控制器的控制数据。为便于说明，后续以线性平衡参数矩阵K＝K ₀＝[-81.99,-34.96,-16.38]的控制器u ₀作为第一控制器作为示例进行说明。该第一控制器对应于机器人的身高最低时的，采用数值迭代的方式获得的，能够控制机器人100直立行走的最优控制器。具体地，机器人的最低身高为0.33米。更进一步地，数据处理装置的控制频率可选地为1000Hz。

如上所述，运动状态数据和控制数据将用于计算第一矩阵Δ _xx、第二矩阵∑ _xx、和第三矩阵∑ _xu。这些数据需要x和u的连续信号，因此在第一控制器和对应于机器人的动力学特性的控制器控制机器人100运动的情况下，数据处理装置进一步地还可以使用梯形积分来计算积分。梯形积分的步长为0.01s，与采样周期相同。

如图7A所示，可以将机器人的身高升至0.5米，使用第一控制器(其线性平衡参数矩阵K＝K ₀＝[-81.99,-34.96,-16.38])叠加探索噪声β(t)控制机器人行走5秒，并对应地采集偏航角、偏航角速度、线速度和主动轮的扭矩。具体地，探索噪声通常用于学习和系统识别领域。探索噪声可以触发各种系统行为，以避免重复收集数据。作为一个示例，探索噪声β(t)＝sin(10πt)+0.4cos(6πt)。

作为一个示例，数据处理装置还可以进一步被配置有如下指令来执行第一控制器的控制数据的计算以及第二控制器的构建。为便于表述，指令以伪代码的形式示出，本领域技术人员可以基于以下伪代码利用任何编程语言计算第一控制器的控制数据和构建第二控制器。

1：选择一个稳定的初始增益矩阵K ₀，并使得t ₀＝0。

2:对机器人施加u ₀(t)＝-K ₀x(t)+β(t)，其中β(t)为噪声，并利用利用数据采集装置采集数据，以计算第一矩阵至第三矩阵直到公式(17)满足。

3:重复k+1赋值给k，并利用公式(15)求解P _k和K _k+1。

4：如果|P _k+1-P _k|<ε就停止迭代。ε可以是一个很小的预设阈值。

5：使用u＝-K _kx作为第二控制器。

在数据处理装置被配置有上述的伪代码的情况下，如图7B的上图所示，线性平衡参数矩阵逐渐收敛至K＝[-99.58 -35.87 -5.18]。如图7B的左图所示，仅使用37次迭代，就可以使得|P _k+1-P _k|<ε＝10 ^-5。

类似地，本公开的实施例还以u＝-Kx作为第一控制器(其中，K＝[-99.58 -35.87 -5.18])，然后将机器人的身高升至0.6米进行了一组类似的实验，如图7B的下图所示，线性平衡参数矩阵收敛至K＝[-109.64,-34.08,-11.58]。如图7B的下图所示，仅使用47次迭代，就可以使得|P _k+1-P _k|<ε＝10 ^-5。很明显，策略迭代的收敛速度非常快，因此本公开的实施例能够适用于在线计算。

图7C进一步示出了第一控制器u ₀(t)＝-K ₀x(t)(其中，K ₀＝[-81.99,-34.96,-16.38])与第二控制器u(t)＝-K ₁x(t)(其中，K ₁＝[-109.64,-34.08,-11.58])的控制效果之间的比较。在该比较实验中，在第一控制器u ₀(t)和第二控制器u(t)均加入相同的正弦噪声来模拟外界作用在轮上的扰动。如图7C的上图和下图所示，两个控制器对噪声都是鲁棒的，并且控制性能相似。然而，如图7C的下图中由第二控制器的较小幅度所指示的，更新的增益K ₁在俯仰角速度

的调节中控制效果更好，从而机器人的行进状态更为稳定。

本公开的实施例结合最优控制技术，提出了一种基于自适应动态规划的数值迭代方法，该基于自适应动态规划的数值迭代方法能够在机器人动力学特性未知的情况下计算收敛至对应于机器人的动力学特性的控制器。与该机器人的精确动力学特性对应的控制器也即对应于线性二次调节问题的最优解的控制器，其能够使得机器人在平衡状态下以最优的控制效果沿目标轨迹行进。

接下来参考图8进一步描述构建对应于机器人的动力学特性的第一控制器的示例。图8示出了基于机器人的历史运动数据来构建第一控制器的的流程图。

首先，机器人100的运动过程在数学上可被看作一个连续时间线性系统。假设对于机器人100存在对应于线性二次调节问题的最优解的控制器，其能够使得机器人的运动过程对应的成本泛函最小。例如，对应于线性二次调节问题的最优解的控制器能够最小化机器人处于平衡点附近的成本并能以最小能耗沿目标轨迹行进。

作为一个示例，如上所述，已经阐述了公式(7)和公式(8)。如果机器人100的精确动力学特性已知，那么公式(7)和(8)中的矩阵A和B就已知。在已知公式(7)和(8)中的矩阵A和B的情况下，能够对应的求解出u ^*(t)。

如上所述，根据LQR相关理论以及数值迭代相关理论，针对公式(7)和公式(8)，如果(A,B)是可稳定的且

是可观测的，那么对于任何S≥0，lim _s→-∞P(s)＝P ^*，其中，P(s)是下列微分黎卡提方程(公式(18))的解，而P ^*是公式(8)的解。

也即，在s趋向负无穷时，P(s)将收敛于P ^*。

基于以上理论，如图8所示，本公开的实施例示出了构建第一控制器的数据处理过程。

在步骤S801中，从机器人的历史运动数据中获取历史运动状态数据和历史控制数据，历史运动状态数据和历史控制数据的多样性度量高于预定阈值。

例如，可以控制机器人沿预定轨迹运动，并获取历史运动过程中的历史运动状态数据和历史控制数据。预定轨迹可以基于机器人的结构特性、运动特性、动力特性粗略估计的，以采集机器人在各种运动情形(场景)下的历史运动数据从而使得历史运动状态数据和历史控制数据的多样性度量足够高(例如，至少高于预定阈值)。在一个示例中，多样性度量可以信息熵来进行表征，其表征历史运动状态数据和历史控制数据均存在足够多的不重复/不相近的值。在又一个示例中，多样性度量还可以以数据特征量来表征。

此时，可以以任意控制器控制机器人沿预定轨迹运动。例如，可以手动控制机器人以不同的加速度沿直线运动，而不论机器人是否处于平衡稳定运动的状态。如图1至图4所示的机器人，如果主动轮104提供过大的加速度，机器人100很快就会向后倾倒。如果主动轮104提供过小的加速度，则无法很快到达目的地并可能向前倾倒。

因此，在本公开的一个示例中，可以采用以下方式收集满足多样性度量的历史运动状态数据和历史控制数据。

如图9所示，例如，可以先控制驱动电机输出第一扭矩，以使得机器人由于低速运动而失去平衡。例如，第一扭矩可以为较小值，从而在控制驱动电机输出第一扭矩的情况下，机器人的基座部的质心先升高后降低，并且机器人在失去平衡时基座部的前端与地面接触。也即，机器人从低头状态(基座部的质心较低的状态)向前冲，但由于冲的力不够大，抬头抬了一半又低下去。

然后，还可以控制驱动电机输出第二扭矩，以使得机器人由于高速运动而失去平衡。例如，第二扭矩可以为较大值，在控制驱动电机输出第二扭矩的情况下，机器人的基座部的质心先升高后降低，并且机器人在失去平衡时基座部的后端与地面接触。也即，机器人从低头状态(基座部的质心较低的状态)向前冲，但由于冲的力过大，过了平衡点(基座部的质心最高点)向后侧倒下去。

然后，还可以控制驱动电机输出第三扭矩，以使得机器人维持平衡态一段时间。其中，在控制驱动电机输出第三扭矩的情况下，机器人的基座部的质心在机器人维持平衡态的情况下保持高度不变。或者控制驱动电机输出第四扭矩，以使得机器人维持类平衡态一段时间，类平衡状态下的机器人在运动过程中处于平衡点附近。在控制驱动电机输出第四扭矩的情况下，机器人的基座部在机器人维持类平衡态的情况下前后晃动。

如上所述，可以通过手动在远程遥控器输入的指令，并将这些指令发送给遥控控制器。遥控控制器接收到该指令后，可以确定其对应的控制数据。然后可以根据遥控控制器的控制数据，控制机器人运动，并获取运动过程中的运动状态数据。在一些实施例中，由于人眼和人手的反应速度难以满足机器人的控制要求，机器人的平衡很难通过手动控制。也即，遥控控制器并非是类平衡控制器，其往往导致机器人失去平衡。

接着，在步骤S802中，根据历史运动状态数据和历史控制数据，使用数值迭代的方式计算线性平衡参数矩阵。在步骤S803中，基于线性平衡参数矩阵，构建用于控制机器人运动的第一控制器。其中，在对应于机器人的动力学特性的控制器的控制下的机器人，相对于在遥控控制器的控制下的机器人，在运动过程中具有更优的控制效果。

可选地，对应于机器人的动力学特性的控制器为线性控制器，针对运动过程中的各个时刻，对应于机器人的动力学特性的控制器提供的控制力矩负相关于线性平衡参数矩阵和机器人的运动状态数据之间的乘积。

例如，针对图8中的步骤S802，其可以进一步包括：对多个时间区间中的历史运动状态数据和历史控制数据分别进行积分运算，构建迭代关系函数；以及根据迭代关系函数，对迭代目标项进行数值迭代，逼近得到对应于机器人的动力学特性的线性平衡参数矩阵。可选地，线性平衡参数矩阵K即为

其中，s趋向负无穷。

接下来，以图1至图4中描述的示例来分别说明步骤S802。根据图1至图4的描述，历史运动状态数据和历史控制数据可以是用于训练的运动状态数据和用于训练的控制数据。可选地，用于训练的运动状态数据和用于训练的控制数据是机器人并未倾倒(例如，基座部的前端/后端或尾部未与地面接触)的时刻的历史运动状态数据和控制数据。也即，至少在该段运动过程中，基于公式(18)，以下公式(19)成立。

其中，H(s)＝A ^TP(s)+P(s)A并且

进一步地，历史运动状态数据是通过传感器在一段时间中按照一定的时间间隔采集的，其分别对应于一段时间内的各个离散的时刻的机器人的历史运动状态。因此历史运动状态数据和第一控制器的历史控制数据是可以对应于[t ₀,t _r]中的多个时间区间。多个时间区间中的任意一个时间区间t _i至t _i+1可以被记为[t,t+δt]，其时长δt可以根据机器人传感器能够达到的数据收集时间间隔来确定。

例如，取公式(19)两边在时间区间[t,t+δt]上的积分，针对不同的t，例如，t＝t ₀,t ₁,…,t _r，可以得到公式(20)。

其中，

在公式(14)中已经给出了Δ _xx,∑ _xx,∑ _xu的表达式。由此，通过不断地迭代地通过求解公式(20)并更新公式(18)，在秩条件满足且存在一对唯一的(H(s),P(s))的情况下，线性平衡参数矩阵K ^*能够通过数值迭代生成，并且整个过程不再依赖于模型信息(A,B)。也即，在迭代目标项在数值迭代过程中收敛的情况下，可以停止数值迭代；然后根据收敛的迭代目标项，重建对应于机器人的动力学特性的线性平衡参数矩阵。

如上所述，本公开的实施例仅通过采集动力学特性未知的机器人在失去平衡(摔倒)前的历史运动状态数据和历史控制数据，并通过对这些历史数据进行积分运算来构建第一矩阵至第三矩阵以作为训练数据。由此，本公开实施例的训练数据的数量远远小于传统的强化学习算法所需的数据量。本公开的实施例还对应地构建了迭代关系函数(例如，公式(20))，以使得目标迭代项(例如，P(s)、K(s)和H(s))随着学习步长的增加而逐渐收敛。并且，收敛的目标迭代项可以得到一个控制器，该控制器收敛于对应于线性二次调节问题的最优解的控制器，从而可以保证闭环系统的稳定性，其训练过程被大大的简化。整个过程不需要对训练数据进行额外的限制，从而简化了机器人的控制器的设计过程。

进一步地，处理器还可以对数据采集装置采集的数据进行进一步处理。为便于说明，本公开仅给出控制主动轮104的示例，本领域技术人员应当理解，本公开的方案也可以用于控制机器人的其它组件。接着，数据处理装置基于给定的目标轨迹，设定用于训练的控制数据。正如参考图3，本公开并不对用于训练的控制器的具体控制律进行限制。为便于说明本公开对于用于训练的控制器的非限制性，后续以实验人员手动控制机器人运动来提取运动状态数据和控制数据作为示例进行说明。更进一步地，数据处理装置的控制频率为1000Hz。

如上所述，运动状态数据和控制数据将用于计算Δ _xx,∑ _xx,∑ _xu。这些数据需要x和u的连续信号。采用与图7A类似的方式搜集运动数据，例如可以收集在机器人100的基座部的高度l＝0.33m的情况下，手动地利用远程遥控器输入指令，以确定遥控控制器控制机器人运动的数据。具体地，由于实验人员并不能准确知晓机器人100的动力学特性，并且人工手动控制机器人往往由于不能准确及时调节机器人的控制器，导致机器人摔倒。

具体地，还可以对采集的运动状态数据进行进一步处理以尽快地获得对应于机器人的动力学特性的控制器。以下示出一个采用数据迭代方案计算对应于机器人动力学特性的控制器的示例实验。如图10所示，机器人的身高为最小高度0.33m。并且由远程遥控器手动直接给出运动指令，以指示主动轮的扭矩。在该实验中，随着主动轮的扭矩增加，机器人从初始状态(以状态A示出)开始，并且使用主动轮移动(以状态B和状态C示出)，并且最终摔倒(状态D)。由于，最终机器人失去了平衡，因此这样情况下的遥控控制器不是类平衡控制器。

类似的过程重复三次，三次采集的数据绘制在图11中，其中，扭矩是两个主动轮电机的总扭矩。特别地，当系统被假设为线性时，使用接近简化模型的线性区域的数据，即-20度<倾斜角<20度。如图11所示，三次数据采集的过程的持续时间分别为0.515秒、0.155秒、0.586秒，总共为1.256秒。任何非专业人员都可以通过遥控器手动输入扭矩来轻松地收集这些短时数据。此外，由于数据迭代的方案可以离线进行，从而可以容易地调节各项参数以使迭代项收敛。

针对图11中的运动状态数据和控制数据，设置Q＝diag[20000,8000,3000]，R＝20，t _i+1-t _i＝0.1s，可以得到图12所示出的P、K的迭代示意图。根据实验人员的测试，在第3275次数值迭代后，可以得到收敛的K＝[-81.99,-34.96,-16.38]。

基于K＝[-81.99,-34.96,-16.38]，构建了对应于机器人的动力学特性的控制器的。利用该控制器控制真实机器人在图13所示的路径中行进，采集到了图14所示的倾斜角(其大致在正负2度内)、线性速度、偏航速度数据的测试数据，可见采用数据迭代的方案能够得到鲁棒性和稳定性都足够强的控制器。

本领域技术人员应当理解，控制器还可以用于控制其他运动，本公开并不以此为限。此外，经测试，控制器的鲁棒性远远高于PID控制器，也即在外部对机器人100进行干扰时，控制器控制下的机器人能很快恢复平衡。

由此，本公开的实施例基于人工智能中的强化学习和ADP技术，利用数值迭代方案，在未知机器人的动力学特性的情况下解决了机器人的最优平衡控制问题。本公开的实施例的构建控制器的过程仅需要轮腿式机器人在非最优控制器/任意控制器的控制下行进一段时间/一段轨迹，并收集与该时间段/轨迹相对应的运动状态数据和控制数据作为训练数据。由此，本公开的实施例的训练数据的数量远远小于传统的强化学习算法所需的数据量。更进一步地，本公开的实施例的训练的控制器随着学习步长的增加而逐渐收敛到最对应于线性二次调节问题的最优解的控制器，从而可以保证闭环系统的稳定性，其训练过程被大大的简化，并且不需要对训练数据进行额外的限制，从而简化了轮腿式机器人的控制器的设计过程。

本申请提供了一种构建机器人的控制器的装置，所述装置包括：

在一些实施例中，所述机器人的动力学特性关联于至少一个可变参数；所述第一控制器对应于所述可变参数为第一值的动力学特性；所述第二控制器对应于所述可变参数为第二值的动力学特性。

在一些实施例中，所述第一控制器控制所述机器人在类平衡运动状态下运动，所述类平衡状态下的机器人在运动过程中处于平衡点附近；在所述第二控制器控制下的机器人，相对于在所述第一控制器控制下的机器人，在运动过程中具有更优的控制效果。

在一些实施例中，所述第一控制器和所述第二控制器均为线性控制器；在运动过程中的各个时刻，所述线性控制器提供的控制力矩，负相关于所述线性平衡参数矩阵和所述机器人的运动状态数据之间的乘积。

在一些实施例中，所述运动控制模块，还用于由所述第一控制器，根据所述机器人的当前运动状态，确定初始控制指令；对所述初始控制指令指示的控制数据施加扰动，得到所述第一控制器的控制数据；以及根据所述第一控制器的控制数据，控制所述机器人运动，并采集所述运动过程中的运动状态数据。

在一些实施例中，所述运动状态数据和所述控制数据对应于多个时间区间，所述策略迭代模块，还用于对对应于所述多个时间区间中的所述运动状态数据和所述控制数据进行非线性组合以确定训练数据集合；确定迭代目标项，并基于所述训练数据集合，确定迭代关系函数；以及根据所述迭代关系函数，对所述迭代目标项进行多次策略迭代，逼近得到对应于所述机器人的动力学特性的线性平衡参数矩阵。

在一些实施例中，所述策略迭代模块，还用于在各次策略迭代中，确定所述迭代目标项是否收敛，在所述迭代目标项收敛的情况下，停止策略迭代；以及根据收敛的所述迭代目标项，更新所述线性平衡参数矩阵。

在一些实施例中，所述迭代关系函数符合李雅普诺夫方程的形式，所述迭代目标项包括待迭代的线性平衡参数矩阵、以及以所述待迭代的线性平衡参数矩阵为参数的李雅普诺夫方程的解；所述迭代关系函数，用于根据本次策略迭代中的线性平衡参数矩阵以及本次策略迭代对应的李雅普诺夫方程的解，计算下次策略迭代对应的线性平衡参数矩阵。

在一些实施例中，所述迭代目标项收敛包括：相邻两次策略迭代对应的李雅普诺夫方程的解之差小于预设值。

在一些实施例中，所述构建机器人的控制器的装置，还包括第一控制器构建模块，用于从机器人的历史运动数据中获取历史运动状态数据和历史控制数据，所述历史运动状态数据和所述历史控制数据的多样性度量高于预定阈值；根据所述历史运动状态数据和所述历史控制数据，使用数值迭代的方式计算线性平衡参数矩阵；以及基于所述线性平衡参数矩阵，构建用于控制所述机器人运动的第一控制器。

在一些实施例中，所述历史运动数据，是基于控制力矩驱动所述机器人的轮腿部中每个关节，以带动所述机器人沿目标轨迹运动时获取的运动数据；

所述构建机器人的控制器的装置，还包括控制力矩获取模块，用于基于机器人的已有运动信息，自适应地确定控制所述机器人的主动轮转动的控制信息；基于控制所述主动轮转动的控制信息，确定用于控制所述机器人的多个关节的第一控制信息，所述第一控制信息使得所述机器人保持平衡；基于所述机器人的目标轨迹，确定用于控制所述多个关节的第二控制信息，所述第二控制信息使得所述机器人沿目标轨迹运动；基于所述机器人的运动约束条件、所述第一控制信息以及所述第二控制信息，确定所述机器人的轮腿部中每个关节的控制力矩。

本申请提供了一种机器人运动控制装置，所述机器人通过驱动主动轮运动，所述装置包括：

本申请还提供了一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时实现以上各实施例所述的方法的步骤。

本申请还提供了一种计算机程序产品，包括计算机可读指令，所述计算机可读指令被一个或多个处理器执行时实现以上各实施例所述的方法的步骤。

根据实际需要，该机器人例如还可以包括总线、存储器、传感器组件、通信模块和输入输出装置等。本公开的实施例不受该机器人的具体组成部分的限制。

总线可以是将该机器人的各部件互连并在各部件之中传递通信信息(例如，控制消息或数据)的电路。

传感器组件可以用于对物理世界进行感知，例如包括摄像头、红外传感器超声波传感器等。此外，传感器组件还可以包括用于测量机器人当前运行及运动状态的装置，例如霍尔传感器、激光位置传感器、或应变力传感器等。

通信模块例如可以通过有线或无效与网络连接，以便于与物理世界(例如，服务器)通信。通信模块可以是无线的并且可以包括无线接口，例如IEEE 802.11、蓝牙、无线局域网(“WLAN”)收发器、或用于接入蜂窝电话网络的无线电接口(例如，用于接入CDMA、GSM、UMTS或其他移动通信网络的收发器/天线)。在另一示例中，通信模块可以是有线的并且可以包括诸如以太网、USB或IEEE 1394之类的接口。

输入输出装置可以将例如从用户或任何其他外部设备输入的命令或数据传送到机器人的一个或多个其他部件，或者可以将从机器人的一个或多个其他部件接收的命令或数据输出到用户或其他外部设备。

多个机器人可以组成机器人系统以协同地完成一项任务，该多个机器人通信地连接到服务器，并且从服务器接收协同机器人指令。

上述技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”，通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如，各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。

所有软件或其中的一部分有时可能会通过网络进行通信，如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。因此，另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接，例如光波、电波、电磁波等，通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备，也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质，其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。

本公开使用了特定词语来描述本公开的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本公开至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本公开的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本公开的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本公开的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本公开的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims

一种构建机器人的控制器的方法，由处理器执行，所述方法包括：

利用第一控制器控制机器人运动，并获取所述机器人在运动过程中的运动状态数据和控制数据；

根据所述运动状态数据和所述控制数据，使用策略迭代的方式对所述第一控制器的线性平衡参数矩阵进行更新；以及

基于更新后的线性平衡参数矩阵，构建对应于所述机器人的动力学特性的第二控制器。
如权利要求1所述的方法，其中，所述机器人的动力学特性关联于至少一个可变参数；

所述第一控制器对应于所述可变参数为第一值的动力学特性；所述第二控制器对应于所述可变参数为第二值的动力学特性。
如权利要求1所述的方法，其中，所述第一控制器控制所述机器人在类平衡运动状态下运动，所述类平衡状态下的机器人在运动过程中处于平衡点附近；

在所述第二控制器控制下的机器人，相对于在所述第一控制器控制下的机器人，在运动过程中具有更优的控制效果。
如权利要求1所述的方法，其中，所述第一控制器和所述第二控制器均为线性控制器；

在运动过程中的各个时刻，所述线性控制器提供的控制力矩，负相关于所述线性平衡参数矩阵和所述机器人的运动状态数据之间的乘积。
如权利要求1所述的方法，其中，所述利用第一控制器控制机器人运动，并获取机器人在运动过程中的运动状态数据和控制数据，包括：

由所述第一控制器，根据所述机器人的当前运动状态，确定初始控制指令；

对所述初始控制指令指示的控制数据施加扰动，得到所述第一控制器的控制数据；以及

根据所述第一控制器的控制数据，控制所述机器人运动，并采集所述运动过程中的运动状态数据。
如权利要求5所述的方法，其中，所述运动状态数据和所述控制数据对应于多个时间区间，所述根据所述运动状态数据和所述控制数据，使用策略迭代的方式对所述第一控制器的线性平衡参数矩阵进行更新，包括：

对对应于所述多个时间区间中的所述运动状态数据和所述控制数据进行非线性组合以确定训练数据集合，

确定迭代目标项，并基于所述训练数据集合，确定迭代关系函数；以及

根据所述迭代关系函数，对所述迭代目标项进行多次策略迭代，逼近得到对应于所述机器人的动力学特性的线性平衡参数矩阵。
如权利要求6所述的方法，其中，所述根据所述迭代关系函数，对所述迭代目标项进行多次策略迭代，逼近得到对应于所述机器人的动力学特性的线性平衡参数矩阵，包括：

在各次策略迭代中，确定所述迭代目标项是否收敛；

在所述迭代目标项收敛的情况下，停止策略迭代；以及

根据收敛的所述迭代目标项，更新所述线性平衡参数矩阵。
如权利要求7所述的方法，其中，所述迭代关系函数符合李雅普诺夫方程的形式，所述迭代目标项包括待迭代的线性平衡参数矩阵、以及以所述待迭代的线性平衡参数矩阵为参数的李雅普诺夫方程的解，

所述迭代关系函数，用于根据本次策略迭代中的线性平衡参数矩阵以及本次策略迭代对应的李雅普诺夫方程的解，计算下次策略迭代对应的线性平衡参数矩阵。
如权利要求7所述的方法，其中，所述迭代目标项收敛包括：相邻两次策略迭代对应的李雅普诺夫方程的解之差小于预设值。
如权利要求1至9中任一项所述的方法，其中，所述第一控制器的构建过程包括：

从机器人的历史运动数据中获取历史运动状态数据和历史控制数据，所述历史运动状态数据和所述历史控制数据的多样性度量高于预定阈值；

根据所述历史运动状态数据和所述历史控制数据，使用数值迭代的方式计算线性平衡参数矩阵；以及

基于所述线性平衡参数矩阵，构建用于控制所述机器人运动的第一控制器。
如权利要求10所述的方法，所述历史运动数据，是基于控制力矩驱动所述机器人的轮腿部中每个关节，以带动所述机器人沿目标轨迹运动时获取的运动数据；

所述控制力矩的获取过程，包括：

基于机器人的已有运动信息，自适应地确定控制所述机器人的主动轮转动的控制信息；

基于控制所述主动轮转动的控制信息，确定用于控制所述机器人的多个关节的第一控制信息，所述第一控制信息使得所述机器人保持平衡；

基于所述机器人的目标轨迹，确定用于控制所述多个关节的第二控制信息，所述第二控制信息使得所述机器人沿目标轨迹运动；

基于所述机器人的运动约束条件、所述第一控制信息以及所述第二控制信息，确定所述机器人的轮腿部中每个关节的控制力矩。
一种机器人运动控制方法，由处理器执行，所述机器人通过驱动主动轮运动，所述方法包括：

接收运动指令，所述运动指令指示所述机器人的运动轨迹；

根据运动指令，通过所述第一控制器控制施加给所述主动轮的驱动力，以使得所述机器人按照所述运动轨迹运动；

获取所述机器人在运动过程中的运动状态数据和控制数据；

基于所述运动状态数据和所述控制数据，使用策略迭代的方式构建对应于所述机器人的动力学特性的第二控制器；以及

利用所述第二控制器控制施加给所述主动轮的驱动力，以使得所述机器人平稳运动。
一种机器人，所述机器人包括：

数据采集装置，被配置为：在第一控制器控制机器人运动的情况下，获取所述机器人的运动状态数据；

数据处理装置，被配置为：

获取与所述运动状态数据对应的控制数据；

基于所述运动状态数据和所述控制数据，使用策略迭代的方式对第一控制器的线性平衡参数矩阵进行更新；以及

基于更新后的线性平衡参数矩阵，构建对应于所述机器人的动力学特性的第二控制器。
如权利要求13所述的机器人，所述机器人包括轮腿部和设置在所述机器人上的驱动电机；

所述驱动电机，被配置为基于所述第一控制器或所述第二控制器，驱动所述轮腿部中的主动轮，以带动所述机器人运动。
一种构建机器人的控制器的装置，所述装置包括：

运动控制模块，用于利用第一控制器控制机器人运动，并获取所述机器人在运动过程中的运动状态数据和控制数据；

策略迭代模块，用于根据所述运动状态数据和所述控制数据，使用策略迭代的方式对所述第一控制器的线性平衡参数矩阵进行更新；以及

第二控制器构建模块，用于基于更新后的线性平衡参数矩阵，构建对应于所述机器人的动力学特性的第二控制器。
如权利要求15所述的装置，其中，所述机器人的动力学特性关联于至少一个可变参数；

所述第一控制器对应于所述可变参数为第一值的动力学特性；所述第二控制器对应于所述可变参数为第二值的动力学特性。
如权利要求15所述的装置，其中，所述第一控制器控制所述机器人在类平衡运动状态下运动，所述类平衡状态下的机器人在运动过程中处于平衡点附近；

在所述第二控制器控制下的机器人，相对于在所述第一控制器控制下的机器人，在运动过程中具有更优的控制效果。
一种机器人运动控制装置，所述机器人通过驱动主动轮运动，所述装置包括：

指令接收模块，用于接收运动指令，所述运动指令指示所述机器人的运动轨迹；

指令执行模块，用于根据运动指令，通过所述第一控制器控制施加给所述主动轮的驱动力，以使得所述机器人按照所述运动轨迹运动；

数据获取模块，用于获取所述机器人在运动过程中的运动状态数据和控制数据；

策略迭代模块，用于基于所述运动状态数据和所述控制数据，使用策略迭代的方式构建对应于所述机器人的动力学特性的第二控制器；以及

驱动力控制模块，用于利用所述第二控制器控制施加给所述主动轮的驱动力，以使得所述机器人平稳运动。
一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
一种计算机程序产品，包括计算机可读指令，所述计算机可读指令被一个或多个处理器执行时实现权利要求1至12中任一项所述的方法的步骤。