TWI811156B

TWI811156B - 機器人的運動步態的過渡方法

Info

Publication number: TWI811156B
Application number: TW111143727A
Authority: TW
Inventors: 毅安周; 信福吳; 羅應陞; 陳維超
Original assignee: 英業達股份有限公司
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-08-01

Abstract

機器人的運動步態的過渡方法包括：運算裝置多次執行部署程序，每次執行包括：隨機選擇源策略及目標策略，模擬從源策略至目標策略的過渡操作，記錄過渡配置及過渡結果至過渡資料庫，每個策略為神經網路模型。過渡配置中的潛在狀態為源策略的神經網路模型的隱藏層。所述方法還包括：運算裝置依據過渡資料庫訓練過渡網路，機器人上的元控制器執行下列步驟：選擇二步態策略作為現用策略及佇列策略，執行現用策略以驅動機器人，輸入現用策略及佇列策略至過渡網路以取得成功機率，當成功機率大於閾值時，執行佇列策略以驅動機器人。

Description

機器人的運動步態的過渡方法

本發明涉及機器學習、運動步態模擬及機器人控制，特別是一種機器人的運動步態的過渡方法。

近年來，機器人和自動化在工業中的應用取得了巨大的增長。有了更好的硬體和更精確的感測器，機器人的潛在用途具有多種可能。在一般導航和探索的領域，腿式機器人（legged robot）特別被關注，因為它具有應付挑戰性地形和動態環境的潛力。

成功和可靠的腿式運動需要高度的變通性（versatility）和穩健性（robustness）。一個可變通的的腿式機器人應該採用多種運動步態生成腳步序列，在應付多種場景的同時保持穩定。例如，當從平坦的地面移動到不平坦的地形時，或者爬一段樓梯時，足部軌跡需要針對當前環境最佳化以避免跌倒。此外，每種步態可以產生不同的特徵，例如以慢速或快速移動；以及風格特性，例如像狗或貓一樣移動。

然而，現有的方法通常採用組合的方式使用多種運動步態。這通常以分層方式完成：低階控制器處理不同的基礎動作，並與高階控制器一起訓練。這種高階和低階控制器的緊密耦合的擴展性有限。在現有的步態程式庫中增加新的步態需要重新訓練低階和高階控制器，從而影響現有的步態，而且增加時間成本及運算力成本。

本發明能夠以可擴充和迭代的方式建立大型運動步態程式庫。本發明提出的控制機制能夠調節和執行程式庫中可用的步態配對（pair）之間的過渡。本發明有助於在真實世界中部署任意數量的腿式機器人的特定步態。

本發明一實施例提出一種機器人的運動步態的過渡方法。機器人具有多個關節及元控制器。所述方法包括：以運算裝置多次執行一部署程序，以運算裝置依據過渡資料庫訓練過渡網路，此過渡網路用於依據過渡配置輸出成功機率，以及以元控制器執行多個步驟。每一次執行部署程序時，包括下列步驟：從多個步態策略中隨機選擇二者作為源策略及目標策略，及模擬從源策略至目標策略的過渡操作，並記錄過渡配置及過渡結果至過渡資料庫。每個步態策略為神經網路模型，用於控制機器人執行具有多個相位的週期性運動。過渡配置包括：源策略的編號、目標策略的編號、潛在狀態及關聯於目標策略的一個相位。潛在狀態為源策略對應的神經網路模型的隱藏層。元控制器執行的多個步驟包括：選擇二個步態策略作為現用策略及佇列策略，執行現用策略以驅動機器人，輸入現用策略及佇列策略至過渡網路以取得成功機率，當成功機率大於閾值時，執行佇列策略以驅動機器人。

以上之關於本揭露內容之說明及以下之實施方式之說明係用以示範與解釋本發明之精神與原理，並且提供本發明之專利申請範圍更進一步之解釋。

以下在實施方式中詳細敘述本發明之詳細特徵以及優點，其內容足以使任何熟習相關技藝者了解本發明之技術內容並據以實施，且根據本說明書所揭露之內容、申請專利範圍及圖式，任何熟習相關技藝者可輕易地理解本發明相關之目的及優點。以下之實施例係進一步詳細說明本發明之觀點，但非以任何觀點限制本發明之範疇。

本發明的目的是允許真實世界中的腿式機器人逐漸擴展其運動步態（gait）的程式庫（library），而不用改變先前學到的部分。在本發明一實施例中，藉由訓練專注於特定步態的獨立策略（policy），來涵蓋步態的複雜性。在本發明一實施例中，建立了穩定策略的程式庫，可以使用域隨機化（domain randomization）來轉移到真實世界的機器人。在本發明一實施例中，提出一種過渡機制，藉由即時地在任意兩個策略之間切換來連接獨立的策略們。為了確保過渡配置可以產生成功結果，在本發明一實施例中，提出一種過渡網路，名為transition-net，其使用運動策略的潛在表示（latent representation）。在應用到真實世界的機器人時，本發明一實施例提出元控制器（meta-controller），它執行在程式庫中可用的策略，並使用本發明一實施例提出的過渡機制來調整現用（active）策略和佇列（queued）策略之間的切換。

圖1是建立獨立運動策略的程式庫的流程圖，包括由運算裝置執行的步驟A1至A9。步驟A1是取得具有多個運動步態的動作捕捉資料庫，步驟A3是建立每個運動步態的神經網路模型。所述動作補充資料庫中包括多個動作捕捉資料（motion capture data）。

腿式機器人（後文皆以四足機器人作為實施例）透過步態來移動，所述步態指的是腳接觸地面的週期性序列。為了使機器人具有廣泛的技能庫，本發明一實施例使用動作模仿框架（motion imitation framework）在模擬中去學習參考動作。在一實施例中，使用來自真實動物的動作捕捉資料的資訊，將代理（agent）訓練為同時模仿參考動作並執行目標導向的任務。所述代理指的是以軟體模擬的機器人。

步驟A5是使用強化學習（reinforcement learning）進行訓練，並使用物理參數進行域隨機化。圖2是建立獨立運動策略的程式庫的示意圖，對應於步驟A5。

強化學習不需要精確的動力學模型達成穩健的運動，但是有必要仔細設計一個獎勵函數，去激勵預期的行為並懲罰不想要的動作。具體來說，藉由最大化期望回報來學習到一個策略π，如圖2及下方式一所示：

（式一）

其中，步驟A3所述的神經網路模型在此稱為策略π，後文提到的運動策略或步態策略為其同義詞，是給定策略時軌跡的機率，其中軌跡（trajectory）為代理從開始（t=0)到結束（t=T)的過程，若代理於[0, T]的過程中跌倒碰到地板，則代表軌跡提早結束，是在軌跡期間收集到的累計獎勵，代表在時間收集的獎勵，其中表示代理在當前行動中存活的時間長度，代表未來獎勵的折扣因子。策略的訓練是藉由模仿參考動作剪輯讓策略學到動作分布。策略的輸入包括代理的當前狀態和參考動作。策略的模型可以採用前饋（feed forward）神經網路，給定當前狀態和參考動作，模型的輸出是動作分布，即

接下來，將策略從模擬轉移到真實世界，方式是在訓練過程中，使用物理參數進行域隨機化，並加入其他的干擾，如圖2上方所示的馬達作用力（motor effort）、雜訊、重力、干擾、摩擦力、延遲。這樣可以提升每個策略固有的穩健性，而且縮小模擬和真實世界之間的效能差距。在一實施例中，域隨機化可用的參數如下方表格一所示。

表格一，均勻採樣的域隨機化參數

參數	範圍	類型
重力	[0.8, 1.2]	縮放(scaling)
動作雜訊	[-0.03, 0.03]	加法(additive)
觀測雜訊	[-0.03, 0.03]	加法
剛體質量	[0.85, 1.15]	縮放
地板摩擦力	[0.25, 1.5]	無
觀測延遲	[0.0, 0.0020]秒	無
剛性增益（比例微分控制器）	[45, 75]	無
阻尼增益（比例微分控制器）	[0.9, 1.8]	無

透過適當地選擇並應用表格一中的域隨機化參數，對獨立的運動策略執行從模擬到真實（sim-to-real）的部署可確保不失敗。對每一個想要的步態重複上述過程，可產生多個獨立且穩健的策略，每個策略都適用於真正的機器人。

如圖2下方所示，本發明一實施例使用Unitree A1 四足機器人，它具有以比例微分控制器致動的12個關節。控制器所需的多個比例微分控制參數對應於策略的輸出層的12個神經元。在訓練階段，代理匹配真實機器人的配置和屬性。策略的觀測空間由當前狀態和參考動作組成。當前狀態包括來自當前和過去兩個時間步長（timestep）的代理的狀態資訊。單個狀態資訊包括：關節角度共12個，方向及角速度共6個，每隻腳是否接觸地面的二元指標4個，以及上一個策略的動作共12個。參考動作包括四個時間步長的動作捕捉資料中的目標姿態，至多到未來1秒鐘。藉由調製模擬角色的近期目標使參考動作作為隱藏相位變數。在尋找佇列策略的最佳目標相位時，可在時間軸上移動排隊的參考動作資料。

本發明參考“X. B. Peng, P. Abbeel, S. Levine, and M. van de Panne, Deepmimic: Example-guided deep reinforcement learning of physics-based character skills, ACM Trans. Graph., vol. 37, no. 4, Jul. 2018”的模仿學習目標來訓練步態策略，使用的近端策略最佳化裁剪（Proximal Policy Optimization clip, PPO clip）損失參數如下方表格二所示：

表格二，使用PPO訓練運動策略的超參數

參數	值
環境數量	4096
序列長度	24
每個環境的序列數量	4
策略最佳化迭代次數	5
PPO批次大小	12288
Adam優化器學習率(learning rate, LR)	3×10 ^-4
折扣因子γ	0.95
廣義優勢估計λ (Generalized Advantage Estimation, GAE)	0.95
PPO裁剪閾值	0.2
相對熵(relative entropy)閾值	0.008
熵係數	0.0

本發明建立的強化學習訓練環境使用Isaac Gym模擬器，它藉由在單個物理場景中實例化數個平行的環境加速訓練，並透過類似PyTorch的應用程式介面（application interface, API）來呈現模擬狀態。在上述實施例中，單個運動策略的訓練過程需要的時間少於一個小時。在運算裝置的一實施例中，其配置為處理器Intel i7-11800H 2.3GHz和顯示卡RTX 3070 8GB，但本發明的運算裝置不限於上述硬體及其配置。訓練好的多個策略可以在零樣本（zero-shot）的方式下部署在實際的機器人。

在步驟A7中，運算裝置判斷是否完成所有運動步態的模型的訓練？若判斷為是，則繼續步驟A9，步驟A9是建立具有多個步態策略的程式庫。若判斷為否，則返回步驟A5，繼續下一個運動步態的模型訓練。

承上所述，圖1所示的流程可建立具有獨立運動策略的程式庫。

首先，收集多個真實世界中的運動步態的影像。在模擬方面，使用強化學習（reinforcement learning），藉由模仿影像中的參考動作，得到多個獨立的策略。運動策略表示為前饋神經網路架構。藉由域隨機化，確保每個運動策略可以被部署到真實世界中的機器人執行。每個動作策略是一個週期性的控制器，能夠在未指定容錯的情況下從不穩定的狀態中復原。

圖3是依據本發明一實施例的機器人的運動步態的過渡方法的流程圖，包括由運算裝置執行的步驟B1至B7，以及由元控制器執行的步驟C1至C7。元控制器設置在機器人上。在一實施例中，元控制器可以採用下列範例中的一者:特殊應用積體電路(Application Specific Integrated Circuit，ASIC)、數位訊號處理器(Digital Signal Processor，DSP)、現場可程式化邏輯閘陣列(Field Programmable Gate Array，FPGA)及系統晶片(system-on-a-chip，SOC)、深度學習加速器（deep learning accelerator），本發明不以上述範例為限制。

在步驟B1中，從多個步態策略中隨機選擇二者作為源策略及目標策略。在步驟B3中，模擬從源策略至目標策略的過渡操作。

憑藉具有穩健且獨立的策略的程式庫，本發明一實施例依據 “J. H. Soeseno, Y.-S. Luo, T. P.-C. Chen, and W.-C. Chen, Transition motion tensor: A data-driven approach for versatile and controllable agents in physically simulated environments, in SIGGRAPH Asia 2021 Technical Communications, 2021, pp. 14” 提出的切換技術，導入策略之間的過渡。每一個策略都是週期性（periodic）控制器，能夠在未指定容錯（tolerance）的情況下從不穩定的狀態中復原。例如，當代理被外部干擾絆倒，策略可採取行動避免代理跌倒，並且在之後恢復正常的週期性運動。基於此特性，當代理執行現用策略時，有可能立即地切換到另一個策略執行，並處在一個特定的目標相位。透過適當的切換時機和目標相位的選擇，新的現用策略獲得控制權，而且機器人保持穩定。

鑒於上述，需要持續地確認產生成功結果（即：代理在過渡後保持穩定）的過渡配置。圖4是過渡成功和過渡失敗的範例示意圖，其中代表源策略，代表目標策略，代表源策略中的一個相位，代表目標策略中的一個相位。執行策略的代理可進行週期性運動，週期性運動包括多個相位，每個相位相當於為執行週期性運動的代理的一個狀態。過渡成功代表代理的目標相位穩定，過渡失敗代表代理的目標相位不存在目標策略中。在一實施例中，可依據代理的指定部位（如背部）是否接觸到地面，決定過渡是成功或是失敗。

在步驟B5中，運算裝置判斷是否已經執行指定次數。若判斷為是，則繼續步驟B7。若判斷為否，則返回步驟B3，產生另一組過渡樣本。在步驟B7中，運算裝置依據過渡資料庫訓練過渡網路。

本發明一實施例提出的過渡網路，是在有監督的方式下，從使用域隨機化的模擬中，收集數百萬個過渡樣本訓練而成。換言之，步驟B5所述的指定次數是百萬數量級，而且這些過渡樣本被儲存在過渡資料庫中。每個樣本包含過渡配置的配對標籤及其對應的結果，其中源策略及目標策略是均勻地從程式庫取樣。由於採用隨機選取來收集樣本的方式可能導致成功案例和失敗案例的數量不平衡，因此，在本發明一實施例中，更進行二次取樣讓成功樣本和失敗樣本的數量平衡。

在步驟B7的一實施例中，制定一個過渡函數將過渡配置映射到過渡結果，其中代表前饋神經網路的權重，過渡結果表示為二元變數，過渡配置表示為四元組，如下方式二。過渡函數（transition function）是廣義的函數定義，而本發明提出的過渡網路是過渡函數的一種實作方式。

（式二）

其中分別是源策略和目標策略的編號（identifier），是高維度向量，代表源策略的潛在狀態（latent state，也稱為潛在表示，latent representation），代表目標策略的相位。請參考圖2。在一實施例中，潛在狀態是源策略的神經網路模型中的隱藏層的最後一層，如圖2中具有256個神經元的 Ψ。

為了訓練過渡網路，在一實施例中，收集數百萬個模擬中的過渡樣本作為過渡資料集，在有監督的情況下，訓練過渡網路解決二元分類問題，過渡網路的目的是預測某個過渡配置將導致成功的結果 )或失敗的結果。

在一實施例中，過渡網路使用作為分類標籤，並採用二元交叉熵（binary cross entropy, BCE）進行最佳化，如下方式三所示：

（式三）

其中代表記錄的實際結果，代表過渡網路的預測結果。

在一實施例中，過渡網路採用前饋神經網路實作，以128-64-32個神經元作為中間層。丟棄（dropout）參數設置為0.4，除了輸出層以外，在每一層後面使用修正線性單元（Rectified Linear Unit, ReLU）激勵函數，輸出層則是使用S型函數（sigmoid）。神經網路訓練的期數（epoch）為100，批次分割（mini-batch）數量為128個樣本，使用AdamW優化器且學習率設置為5e - 4。

承上所述，在步驟B1至B7的流程中，在程式庫中可用的任兩個策略之間執行過渡來收集資料。每個過渡樣本包括：源策略的編號、目標策略的編號、從最後一個隱藏層獲取的源策略的潛在狀態以及目標策略中的目標相位。然後在給定上述過渡配置的情況下，訓練二元分類器以預測過渡是否成功。接下來，使用設置在真實機器人上的元控制器統合策略。請參考步驟C1至C7以及圖5，圖5是元控制器運作的示意圖。

在步驟C1中，元控制器選擇現用策略及佇列策略。在步驟C3中，元控制器執行現用策略以驅動機器人。在步驟C5中，元控制器輸入現用策略的編號及佇列策略的編號至過渡函數以取得成功機率。在步驟C7中，當成功機率大於閾值時，元控制器執行佇列策略以驅動機器人。

為了在部署期間連貫地統合所有策略，本發明一實施例建構了元控制器，其使用過渡網路評估過渡分數。元控制器查詢過渡網路以確認最佳過渡配置。元控制器依據下列要素來負責選擇、排程和執行部署在機器人上的策略：

現用策略，經由比例微分控制產生關節的目標角度來控制機器人。

佇列策略，即將被切換為現用策略的另一個策略。

過渡函數，給定當前配置，可提供過渡分數的估計。在一實施例中，將過渡網路作為評分函數，元控制器只在評分超過閾值時，即，才執行過渡，其中閾值為0.95。

在運行時，首先定義一個初始現用策略來控制機器人。現用策略可以被初始化為程式庫中可用的任何策略。在某個時間點，出現改變策略的請求，使得程式庫中一個不同的策略被排入佇列。只要有策略排隊，元控制器認知到需要進行切換。在每個時間步長（例如30 Hz），元控制器使用過渡網路計算從現用策略切換到佇列策略的過渡分數。請注意，在佇列策略的多個目標相位中，元控制器計算出多個過渡分數，並選擇具有最高分數的目標相位。當過渡分數超過預設閾值，佇列策略變成現用策略，然後取得機器人的控制權。元控制器的流程如下方演算法所示。

綜上所述，本發明具有下列貢獻及功效：第一，允許建立一個運動步態的程式庫，此庫可以透過步態過渡穩健地部署在真實世界的腿式機器人上；第二，解決現有方法中的擴充性問題。透過將運動步態包含在專用的獨立的控制器中，可以透過迭代方式擴展步態程式庫，而不會影響現有的步態，也沒有重新訓練或者微調的需求。

雖然本發明以前述之實施例揭露如上，然其並非用以限定本發明。在不脫離本發明之精神和範圍內，所為之更動與潤飾，均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。

A1~A9, B1~B7, C1~C7:步驟 :當前狀態 :參考動作 :潛在狀態 π:策略 :源策略 :目標策略 :源策略的編號 :目標策略的編號 :源策略的相位 :目標策略的相位 :源策略的潛在狀態 :現用策略 :佇列策略 :現用策略的編號 :佇列策略的編號 :過渡網路

圖1是依據本發明一實施例的建立獨立運動策略的程式庫的流程圖；圖2是建立獨立運動策略的程式庫的示意圖；圖3是依據本發明一實施例的機器人的運動步態的過渡方法的流程圖；圖4是過渡成功和過渡失敗的範例示意圖；以及圖5是元控制器運作的示意圖。

B1~B7,C1~C7:步驟

Claims

一種機器人的運動步態的過渡方法，其中該機器人具有多個關節及元控制器，且該方法包括：以運算裝置多次執行一部署程序，每一次執行該部署程序時包括：從多個步態策略中隨機選擇二者作為源策略及目標策略，其中該些步態策略的每一者為神經網路模型，用於控制該機器人執行具有多個相位的週期性運動；及模擬從該源策略至該目標策略的過渡操作，並記錄過渡配置及過渡結果至過渡資料庫，其中該過渡配置包括：該源策略的編號、該目標策略的編號、潛在狀態及關聯於該目標策略的該些相位中的一者，且該潛在狀態為該源策略對應的該神經網路模型的隱藏層；以運算裝置依據該過渡資料庫訓練一過渡網路，該過渡網路用於依據該過渡配置輸出成功機率；以及以該元控制器執行：選擇該些步態策略中的二者作為現用策略及佇列策略；執行該現用策略以驅動該機器人；輸入該現用策略及該佇列策略至該過渡網路以取得該成功機率；及當該成功機率大於一閾值時，執行該佇列策略以驅動該機器人。
如請求項1所述機器人的運動步態的過渡方法，更包括以運算裝置執行：收集真實世界的多個運動步態的影像；對該些運動步態的每一者，建立對應的該神經網路模型；對該神經網路模型使用強化學習進行訓練，並使用多個物理參數進行域隨機化；以及當完成該些運動步態的每一者對應的該神經網路模型的訓練時，將該神經網路模型儲存至一程式庫。
如請求項2所述機器人的運動步態的過渡方法，其中該些物理參數包括：馬達作用力、雜訊、重力、摩擦力、干擾、延遲及比例微分控制器的增益參數中的至少一者。
如請求項1所述機器人的運動步態的過渡方法，其中該神經網路包括一輸入層、多個中間層及一輸出層，其中該輸入層包括多個時間點的當前狀態，該些時間點的每一者對應的該當前狀態包括該些關節的角度、該機器人的方向、該些關節的角速度、該機器人的腳是否接觸地面的二元指標中的至少一者；該潛在狀態為該些中間層的最後一者，以及該輸出層的多個神經元的數量對應於該些關節的數量，該些神經元用於輸出比例微分控制參數。
如請求項1所述機器人的運動步態的過渡方法，其中該神經網路模型為前饋神經網路。
如請求項1所述機器人的運動步態的過渡方法，其中該過渡網路為前饋神經網路，且包括輸入層、中間層及輸出層；該中間層包括128-64-32個神經元；該輸入層及該些中間層的每一者使用修正線性單元激勵函數；以及該輸出層使用S型函數。
如請求項1所述機器人的運動步態的過渡方法，其中模擬從該源策略至該目標策略的該過渡操作係使用Isaac Gym模擬器。