TWI827907B

TWI827907B - 機器人的控制裝置、控制方法、機器人及其系統、學習裝置、方法及電腦程式產品

Info

Publication number: TWI827907B
Application number: TW110105029A
Authority: TW
Inventors: 井尻善久; 柴田義也; 濵屋政志; 田中一敏; 菲力克斯馮德里加爾斯基; 中島千智
Original assignee: 日商歐姆龍股份有限公司
Priority date: 2020-03-13
Filing date: 2021-02-09
Publication date: 2024-01-01
Also published as: EP3900889A1; KR102513854B1; JP2021142632A; KR20210116229A; CN113386123A; US20210283771A1; JP7463777B2; US11745338B2; TW202134926A

Abstract

本發明較以往廉價且通用地實現可高速進行伴隨接觸的動作的機器人控制。一種控制裝置，為機器人的控制裝置，所述機器人包括用於握持對象物的握爪與用於使握爪移動的臂，在握爪的中途、握爪與臂之間、以及臂的中途中的至少任一處位置，具有在物理上為柔性的柔性部，所述控制裝置包括：狀態獲取部件，獲取包含柔性相關觀測資料的狀態觀測資料，所述柔性相關觀測資料是關於柔性部、較柔性部靠近握持對象物側的機器人的部位、及所握持的對象物中的至少任一者的狀態的觀測資料；以及控制部件，包含學習模型，並基於將由狀態獲取部件所獲取的狀態觀測資料輸入至學習模型而獲得的輸出，來控制機器人，所述學習模型預先經過機器學習，以使得當輸入狀態觀測資料時，輸出用於進行針對對象物的規定作業的機器人的行動。

Description

機器人的控制裝置、控制方法、機器人及其系統、學習裝置、方法及電腦程式產品

本發明是有關於一種包括柔性部的機器人的控制以及其學習。

考慮到工廠中的製品裝配等的動作時，間隙少的嵌入等接觸動作是不可或缺的。欲以與人進行相同或更少的動作時間來實現此動作的期望大。為了實現此類動作，以往研究有以下的途徑（approach）。

第一是使用高精度的機械與用於削減位置姿勢的不確定性的機構（治具、專用手等）的方法。然而，若在裝配中存在多個零件，則需要規劃每個對象的定位方法或治具，因此該方法在設計變更方面極弱。

第二是藉由縱深感測器等來推測對象的位置姿勢的方法。然而，該方法存在難以實現足夠精度的推測的問題。例如在小型零件的裝配中需要次mm的精度，但在現狀下無法獲得足夠的精度。進而，還存在握持對象時的握持方式的不確定性或者機器人與攝影機間的校準（calibration）誤差，因而即使獲得次mm的識別精度，裝配作業亦未必能成功。而且，基於使用視覺感測器所識別出的機器人或對象物的位置的視覺反饋（visual feedback）儘管是一定程度上的解決對策，但需要高速的反饋週期，並且在嵌入開始後，視覺識別變難，因此不要求用力情況。

第三是使用力控制來控制用力情況的方法（專利文獻1）。根據該方法，能控制用力情況，另一方面，必須根據對象來編排動作策略。而且，若不進行高速控制，便無法控制力，因此必須縮短控制週期，從而導致成本增大。

第四是有效利用可吸收誤差的被動動作機構的方法（專利文獻2）。藉由使用順應性單元（compliance unit）之類的被動性的可動元件，可吸收微小誤差。然而，需要能收斂至可吸收的誤差範圍內的程度的高精度。例如，在利用包括具備被動性的可動元件的臂的機器人，來將所握持的對象物引導至孔的倒角部並按入孔內時，需要可使對象物接觸至倒角部的程度的精度。進而，動作需要由人來編排，因此設定需要時間及熟練者。 [現有技術文獻] [專利文獻]

[專利文獻1]日本專利特開2000-042962號公報 [專利文獻2]日本專利特開2015-083324號公報

[發明所欲解決之課題]

本發明是有鑒於所述實際情況而完成，其目的在於提供一種可容易地使機器人進行伴隨接觸的高速動作的技術。 [解決課題之手段]

為了達成所述目的，本發明採用以下的結構。

本發明的第一形態是一種控制裝置，為機器人的控制裝置，所述機器人包括用於握持對象物的握爪與用於使所述握爪移動的臂，在所述握爪的中途、所述握爪與所述臂之間、以及所述臂的中途中的至少任一處位置，具有在物理上為柔性的柔性部，所述控制裝置包括：狀態獲取部件，獲取包含柔性相關觀測資料的狀態觀測資料，所述柔性相關觀測資料是關於所述柔性部、較所述柔性部靠近握持對象物側的所述機器人的部位、及所握持的所述對象物中的至少任一者的狀態的觀測資料；以及控制部件，包含學習模型，並基於將由所述狀態獲取部件所獲取的狀態觀測資料輸入至所述學習模型而獲得的輸出，來控制所述機器人，所述學習模型預先經過機器學習，以使得當輸入所述狀態觀測資料時，輸出用於進行針對所述對象物的規定作業的所述機器人的行動。

「在物理上為柔性的柔性部」是指包含下述機構的概念，該機構包含相對於位移而有復原力起作用的被動元件，典型的是包含彈簧或橡膠之類的彈性體、阻尼器（damper）、空氣壓的氣缸或液壓的液壓缸。使用力控制或者僅藉由力控制來獲得柔軟性的機構可從「在物理上為柔性的柔性部」中予以排除。

學習模型是將當前的狀態觀測資料作為輸入，而輸出適當的下一步驟的行動以便達成作業。學習模型也被稱作控制模型、控制策略等。學習模型亦可藉由任何機器學習算法而獲得，例如藉由強化學習而獲得。若考慮到資料效率，則可採用基於模型的強化學習，但亦可為無模型強化學習。而且，亦可藉由深層學習、有教學學習、半有教學學習而獲得學習模型。

本形態中，亦可為，所述規定作業包含多個基元（primitive）操作，所述控制部件包含與所述多個基元操作對應的多個學習模型。基元操作亦被稱作動作區間、運動基元、MP等。基元操作是分別規定有目標的操作，亦可對所注視的狀態變量及實施的行動實施單獨的限制。

本形態中，亦可為，所述多個基元操作包含一個或多個約束基元操作，所述約束基元操作是控制所述機器人一邊維持所述握爪或被所述握爪握持的所述對象物接觸或接近環境的約束狀態一邊運作。並且，亦可為，與所述約束基元操作對應的學習模型是藉由削減了狀態空間及行動空間的次元的學習處理來進行學習。

本形態中，亦可為，所述學習模型輸出包含如下所述的行動，即，在未被分割為多個基元操作的操作的整體或一個基元操作中，一邊維持所述握爪或被所述握爪握持的所述對象物接觸或接近環境的約束狀態一邊運作。亦可為，所述學習模型關於一邊維持所述約束狀態一邊控制所述機器人的情況，是藉由削減了狀態空間及行動空間的次元的學習處理來進行學習。

亦可為，本形態中的所述柔性部是設於所述握爪與所述臂之間，所述柔性相關觀測資料包含下述資料中的至少任一個，即：與所述握爪從所述對象物受到的力相關的力相關感測資料；所述握爪的位置、速度、姿勢、及關於姿勢變化的角速度中的至少任一個；所述握爪與所述臂之間的相對距離以及相對角度中的至少任一個；與所述柔性部所受到的力相關的力相關感測資料；以及基於對所述對象物、所述握爪及所述柔性部中的至少任一者進行拍攝所得的圖像的資料。

本發明的第二形態是一種機器人系統，包括：機器人，包含用於握持對象物的握爪與用於使所述握爪移動的臂，且在所述握爪的中途、所述握爪與所述臂之間、以及所述臂的中途中的至少任一處位置，具有在物理上為柔性的柔性部；以及第一形態的控制裝置。

本發明的第三形態是一種機器人，包括：握爪，用於握持對象物；臂，用於使所述握爪移動；柔性部，設在所述握爪的中途、所述握爪與所述臂之間、以及所述臂的中途中的至少任一處位置，且在物理上為柔性；以及感測器，檢測所述柔性部、較所述柔性部靠近握持所述對象物側的部位、及所握持的對象物中的至少任一者的狀態。

本發明的第四形態是一種學習裝置，包括：狀態獲取部件，獲取包含機器人的柔性相關觀測資料的狀態觀測資料，所述柔性相關觀測資料是關於機器人的柔性部、較所述柔性部靠近握持對象物側的所述機器人的部位、及所握持的所述對象物中的至少任一者的狀態的觀測資料，所述機器人包括用於握持對象物的握爪與用於使所述握爪移動的臂，在所述握爪的中途、所述握爪與所述臂之間、以及所述臂的中途中的至少任一處位置，具有在物理上為柔性的所述柔性部；以及學習部件，獲得學習模型，所述學習模型當輸入所述狀態觀測資料時，輸出用於進行針對所述對象物的規定作業的所述機器人的行動。

本發明亦能理解為控制機器人的控制方法，還能理解為獲得輸出機器人的行動的學習模型的學習方法。而且，本發明亦能作為用於實現所述方法的程式或非暫時地記錄有所述程式的記錄媒體而理解。再者，所述部件及處理各自只要可能，便可相互組合而構成本發明。 [發明的效果]

根據本發明，可容易地使機器人進行伴隨接觸的高速動作。

＜適用例＞參照圖1來說明本發明的機器人系統1的適用例。機器人系統1使用機器學習（例如基於模型的強化學習）來獲得用於進行包括柔性部的機器人10的控制的模型。由於機器人10具有柔性部，因此即便使所握持的零件接觸至環境亦安全，而且，即使控制週期有所延遲亦能實現嵌入作業等。另一方面，握爪及零件的位置因柔性部而變得不確定，因此難以獲得分析性的控制模型。因此，本發明中，使用機器學習來獲得控制模型。

若單純地進行控制模型的機器學習，則需要非常多的資料收集，從而學習耗費時間。因此，在機器人系統1中，考慮到機器人的柔軟性和因與環境的接觸引起的約束條件，而進行削減了狀態空間及行動空間的次元的學習。例如，在將銷栓嵌入孔內的動作的學習中，將整個動作分割為多個區間（基元操作（Motion Primitive，MP）），在處於接觸狀態的各MP中，僅著眼於存在自由度的次元的狀態變量。而且，由於機器人包括柔性部，因此以下述方式進行學習，即：對於因接觸而自由度變無的次元，由於不需要力控制，因此只要僅控制位置及速度即可，進而，僅採取因接觸而自由度變無的次元已被削減的行動空間內的行動。藉由如此般削減狀態空間及行動空間的次元，從而可實現迅速的學習。

亦可取代一邊維持所握持的零件接觸至環境的狀態一邊運作的情況，而一邊維持所握持的零件接近環境的狀態一邊運作。此處所謂接近，是指在零件與環境之間存在微小的間隔例如數mm的間隔。該間隔的大小是藉由基於靜電電容或電磁感應的接近感測器、光學位移感測器、視覺感測器等來測定或推測。亦可不測定間隔的大小而藉由位置控制來維持接近的狀態。該間隔亦可因來自外部的力或機器人的運動等的影響而從目標值發生變動。在維持接近狀態的期間，零件有時亦可暫時接觸至環境。在發生了接觸的情況下，柔性部起到吸收衝擊的作用。以下，只要在技術上可能，則關於一邊維持接觸狀態一邊運作的說明能夠置換為一邊維持接近狀態一邊運作的情況。

對於機器人10的狀態觀測，例如可利用機器人10的關節的編碼器、視覺感測器（攝影機）、姿態捕捉器（motion capturer）、力相關感測器。根據各關節的角度，可確定臂前端的位置/姿勢，由視覺感測器及/或力相關感測器可推測零件（作業對象物）的姿勢。在握爪上安裝有姿態捕捉器用的標記的情況下，可確定握爪的位置/姿勢，根據握爪的位置/姿勢，可推測零件（作業對象物）的姿勢。

所謂力相關感測器，是指力感度感測器及扭矩感測器的總稱，進而，在將感測器設於與零件接觸的部位的情況下，是指亦包含觸覺感測器的總稱。力相關感測器亦可設於握爪握持零件的部分的表面或握爪內的關節部分，以檢測機器人的握爪從零件受到的力。在握爪與臂之間為柔性部的情況下，力相關感測器亦可設於握爪與臂之間而檢測作用於握爪與臂之間的力。力相關感測器例如是單一元件或多元件的、對一軸、三軸或六軸的力進行檢測的感測器。藉由使用力相關感測器，可精度更好地掌握握爪如何握持零件即零件的姿勢，從而可實現適當的控制。本揭示中，將由力相關感測器所獲取的資料稱作力相關感測資料。

而且，藉由視覺感測器，亦能檢測握爪自身或握爪所握持的零件的位置及姿勢。在握爪與臂之間為柔性部的情況下，藉由檢測握爪相對於臂的位移的位移感測器，亦能確定握爪相對於臂的位置/姿勢。

如此，藉由各種感測器，可檢測關於柔性部、較柔性部靠近握持對象物側的機器人的部位、及所握持的零件中的至少任一者的狀態。可獲取感測器的檢測結果來作為狀態觀測資料。再者，本揭示中，關於柔性部、較柔性部靠近握持對象物側的機器人的部位、及所握持的零件的觀測資料亦稱作柔性相關觀測資料。狀態觀測資料既可僅包含柔性相關觀測資料，亦可除了柔性相關觀測資料以外，還包含關於除此以外的狀態的觀測資料。

學習裝置20使用機器學習來獲得機器人10的學習模型。作為學習算法，可使用機器學習，尤其是無教學資料而可藉由試行錯誤來進行學習的強化學習，但亦可使用有教學學習來獲得學習模型。在使用強化學習的情況下，尤其可使用資料效率高的基於模型的機器學習，但亦可使用無模型強化學習。而且，在使用強化學習的情況下，在學習初期，亦可使用人使機器人10的臂及握爪活動的結果來進行學習。在學習初期的隨機控制中，有時無法獲得收益而學習需要時間，但藉由手動地活動，可縮短學習時間。學習裝置20亦可藉由深層學習來獲得學習模型。

由學習裝置20所獲得的學習模型（學習完畢模型）被搭載於控制機器人10的控制裝置，以供實際作業。該控制裝置亦可具有學習功能，此時，亦可進行追加學習。

根據本適用例，由於機器人10具有柔性部，因此無須進行複雜的力控制，而容易一邊使握爪或對象物接觸至環境一邊進行運作。而且，可使握爪或對象物幾乎不減速而接觸至環境，因此可實現高速的作業。而且，由於藉由機器學習來獲得學習模型，因此可簡便地進行系統構建。而且，在機器學習時，藉由使用基於約束條件的、狀態空間及行動空間的次元削減或者感測器資料的次元削減，可削減資料量而實現高速的學習（學習模型獲得）。此時，能以少的工時來根據作業進行學習而獲得學習模型，因此不僅能容易地進行特定的作業，而且能容易地進行多種作業。

在進行狀態空間的次元削減的情況下，只要僅使用與削減後的次元對應的、由感測器所檢測出的狀態觀測資料即可。在狀態觀測資料為包含多個次元的成分的資料的情況下，只要從原始的狀態觀測資料中提取次元削減後剩餘的次元的成分來利用即可。或者，亦可在學習過程中進行狀態觀測資料的分析及次元壓縮，最終削減與運動被約束的次元對應的狀態觀測資料的次元。作為用於次元壓縮的分析的方法，可利用主成分分析、自編碼器、稀疏編碼（sparse coding）、深層學習等。亦可與在狀態空間中削減的次元對應地，在行動空間中亦削減次元。

＜第一實施形態＞圖1是本發明的第一實施形態的機器人系統。圖1表示在用於控制機器人系統的學習模型的學習階段所用的結構。在學習階段，機器人系統1具有機器人10與學習裝置20。

（機器人）圖2的(A)及圖2的(B)是表示機器人10的概略結構的圖。本實施形態中的機器人10為六軸垂直多關節機器人，在臂11的前端經由柔性部13而設有握爪（手）12。機器人10進行藉由握爪12來握持零件（例如銷栓）並嵌入孔內的嵌入作業。

如圖2的(A)所示，機器人10具有包括關節J1～關節J6的六自由度的臂11。各關節J1～關節J6藉由未圖示的馬達，將鏈節（link）彼此可朝箭頭C1～箭頭C6的方向旋轉地予以連接。此處是舉垂直多關節機器人為例，但亦可為水平多關節機器人（水平多關節機器人（SCARA robot））。而且，是舉六軸機器人為例，但亦可為五軸或七軸等其他自由度的多關節機器人，還可為並聯機器人（parallel link robot）。

握爪12具有一組夾持部12a，控制夾持部12a來夾持零件。握爪12經由柔性部13而與臂11的前端11a連接，伴隨臂11的移動而移動。本實施形態中，柔性部13包含三個彈簧13a～13c，所述三個彈簧13a～13c配置為各彈簧的基部處於正三角形的各頂點的位置關係，但彈簧的數量亦可為任意。而且，柔性部13只要是相對於位置的變動而產生復原力，從而獲得柔軟性的機構，則亦可為其他機構。例如，柔性部13亦可為彈簧或橡膠之類的彈性體、阻尼器、空氣壓的氣缸或液壓的液壓缸等。柔性部13較佳為包含被動元件，排除藉由力控制來獲得柔軟性的機構。藉由柔性部13，臂前端11a與握爪12構成為可沿水平方向及垂直方向相對移動5 mm以上，較佳為1 cm以上，進而較佳為2 cm以上。

亦可設置一機構，所述機構切換握爪12相對於臂11為柔性的狀態與被固定的狀態。

而且，此處例示了在臂11的前端11a與握爪12之間設置柔性部13的結構，但亦可設在握爪12的中途（例如指關節的場所或指的柱狀部分的中途）、臂的中途（例如關節J1～關節J6的任一場所或臂的柱狀部分的中途）。而且，柔性部13亦可設於該些中的多個部位。

（學習裝置）接下來，對學習裝置20進行說明。

圖3是表示本實施形態的學習裝置的硬體結構的方塊圖。如圖3所示，學習裝置20與一般的電腦（資訊處理裝置）為同樣的結構，具有中央處理單元（Central Processing Unit，CPU）31、唯讀記憶體（Read Only Memory，ROM）32、隨機存取記憶體（Random Access Memory，RAM）33、儲存器（storage）34、鍵盤35、滑鼠36、監視器37及通訊介面38。各結構經由匯流排39可相互通訊地連接。

本實施形態中，於ROM32或儲存器34中，保存有用於執行學習模型的學習處理的學習程式。CPU31為中央運算處理單元，執行各種程式或者控制各結構。即，CPU31從ROM32或儲存器34讀出程式，並將RAM33作為作業區域來執行程式。CPU31依據記錄於ROM32或儲存器34中的程式，來進行所述各結構的控制及各種運算處理。ROM32保存各種程式及各種資料。RAM33作為作業區域而暫時記憶程式或資料。儲存器34包含硬碟驅動器（Hard Disk Drive，HDD）、固態硬碟（Solid State Drive，SSD）或快閃記憶體，保存包含作業系統的各種程式及各種資料。鍵盤35及滑鼠36為輸入裝置的一例，被用於進行各種輸入。監視器37例如為液晶顯示器，顯示用戶介面。監視器37亦可採用觸控面板方式，而作為輸入部發揮功能。通訊介面38是用於與其他機器進行通訊的介面，例如使用乙太網（Ethernet）（註冊商標）、光纖分散式資料介面（Fiber Distributed Data Interface，FDDI）或無線保真（Wireless Fidelity，Wi-Fi（註冊商標））等規格。

接下來，對學習裝置20的功能結構進行說明。

圖4是表示學習裝置的功能結構的示例的方塊圖。如圖4所示，學習裝置20具有資料獲取部21、成功判定部22、收益決定部23、學習部24及控制指令發送部29，以作為其功能結構。各功能結構是藉由CPU31讀出記憶於ROM32或儲存器34中的學習程式，並於RAM33中展開執行而實現。再者，一部分或全部的功能亦可藉由專用的硬體裝置來實現。

資料獲取部21獲取表示機器人10的狀態的資料。此處，將所獲取的資料稱作狀態觀測資料。狀態觀測資料可包含能確定握爪12或者由握爪12所握持的零件的位置及姿勢的資料。詳細將後述，但資料獲取部21例如從關節的編碼器、視覺感測器（攝影機）、姿態捕捉器、力相關感測器（力感度感測器、扭矩感測器、觸覺感測器）、位移感測器獲取狀態觀測資料。

成功判定部22判定機器人10的動作是否滿足規定的成功條件。如後所述，本實施形態中，例如將銷栓的嵌入作業這一個作業（技能（skill））分割為多個基元操作（MP）來學習。成功判定部22判定是否滿足對各MP規定的成功條件。成功條件的示例例如是：銷栓位於孔附近（非接觸）、銷栓接觸至孔附近的表面、銷栓的前端落入孔內、銷栓落入孔內且與孔平行、銷栓完全嵌入孔內等。成功判定部22既可基於狀態觀測資料來進行判定，亦可基於與狀態觀測資料不同的資料來進行判定。

收益決定部23決定對狀態x（t）下的行動u（t）的收益r（t）。例如，收益決定部23僅在由成功判定部22作出成功判定時給予正的收益，而將除此以外的收益設為零。亦可在接近滿足成功條件的狀態時給予正的收益，而在遠離滿足成功條件的狀態時給予負的收益。

學習部24學習用於控制機器人10的策略28（學習模型）。學習部24在輸入機器人10的狀態觀測資料時，基於策略28來輸出適當的下一步驟的行動，以便進行規定作業。

本實施形態中學習部24使用基於模型的強化學習來獲得策略28。即，學習部24的狀態遷移模型更新部25學習機器人10的狀態遷移模型，學習部24的策略更新部26使用所學習的狀態遷移模型來學習機器人10的策略28。狀態遷移模型是將狀態x（t）與此時的行動u（t）作為輸入，而輸出行動後的狀態x（t+1）的模型。策略28是將狀態x（t）作為輸入，而輸出應採取的行動u（t）的模型。策略更新部26以累計期待收益最大化的方式來學習策略28。動作決定部27（代理者（agent））執行策略28而輸出行動u（t）。

控制指令發送部29基於依據學習中的策略28而輸出的行動u（t），來生成及發送針對機器人10的指令。

（狀態觀測資料的種類）此處，對在本實施形態中可利用的狀態觀測資料進行說明。狀態觀測資料的示例可列舉：握爪12接觸至對象物的部位的觸覺分佈（例如壓力分佈）的資料；由設於握爪12的夾持部12a的力感度感測器所測定的力；從機器人10的關節的編碼器獲取的各關節的角度及角速度；對機器人10的關節施加的扭矩；由安裝於機器人10的臂的視覺感測器所獲得的圖像；由力感度感測器所測定的、機器人10的柔性部13所承受的力；由設於柔性部13的位移感測器所測定的、夾著柔性部13的部位之間的相對位移；以及由姿態捕捉器所測定的握爪12的位置及姿勢。

根據來自關節編碼器的資料，求出臂前端11a的位置、姿勢（角度）、速度、關於姿勢變化的角速度。再者，只要能獲取各時刻的位置及姿勢（角度），便能獲取其時間變化（速度、角速度），因此，以下亦有時省略可獲取時間變化的提及。藉由來自視覺感測器的資料，求出握爪12及握持對象物相對於臂11的位置及姿勢。藉由來自力相關感測器的資料，亦可求出握爪12相對於臂11的位置及姿勢、或者握持對象物相對於握爪12的位置及姿勢。

而且，在握爪12安裝有姿態捕捉器用的標記的情況下，僅藉由姿態捕捉器資料便可獲取握爪12的位置及姿勢。握持對象物相對於臂的位置及姿勢亦可使用視覺感測器或力相關感測器來求出。而且，若於握持對象物也安裝有標記，則亦能獲取握持對象物的位置及姿勢。

以下的說明中，為了簡便，有時設狀態變量（狀態觀測資料）是笛卡兒座標（Cartesian coordinate）系中的握爪或握持對象物的位置及速度來進行說明。然而，狀態變量亦可作為上文說明的資料的一個或多個的組合而表示。

（運動基元（MP）與次元削減）基於運動基元來進行說明。本實施形態中學習的銷栓的嵌入作業被分割為多個動作區間，針對各個區間的每一個來進行控制模型的學習。該動作區間分別為運動基元（Motion Primitive）。運動基元亦被稱作MP、基元操作。

參照圖5、圖6，對本實施形態中的構成銷栓的嵌入作業的MP進行說明。圖5中，51表示臂前端，52表示握爪，53表示柔性部，54表示握持對象物（銷栓），55表示孔。圖5的符號56及符號57分別表示在各MP中考慮的狀態及行動。圖6是較圖5更具體地說明各MP的內容及在各MP中考慮的狀態及行動的圖。

銷栓嵌入作業整體的目的是將銷栓54插入至孔55內。銷栓的嵌入作業被分割為如下的五個MP，當在各MP中與所指定的目標值的誤差成為臨限值以下時，遷移至下個MP。 n1：靠近（approach） n2：接觸（contact） n3：配合（fit） n4：對準（align） n5：插入（insert）

「n1：靠近」是使握爪52從任意的初始位置接近至孔55附近為止的動作。「n2：接觸」是使銷栓54接觸至孔55附近的表面的動作。在可在固定模式與柔性模式之間切換柔性部53的情況下，在接觸前將柔性部53切換為柔性模式。「n3：配合」是保持著銷栓接觸至表面的狀態而使銷栓移動，使銷栓的前端嵌入孔的前端的動作。「n4：對準」是保持著銷栓的前端嵌入孔內而接觸的狀態，使銷栓的姿勢變得與孔平行（本例中為垂直）的動作。「n5：插入」是將銷栓插入至孔的底部為止的動作。

在「n1：靠近」及「n2：接觸」，即，在銷栓未接觸至表面的MP中，只要藉由位置控制來使銷栓移動至目標位置為止即可。在「n3：配合」「n4：對準」「n5：插入」，即，維持銷栓接觸至環境的狀態的MP（接觸基元操作）中，藉由基於機器學習的速度控制來控制握爪及銷栓的位置。在接觸MP中的機器學習中，藉由削減了狀態空間及行動空間的次元的學習處理來學習策略（控制模型）。

此處，設握爪及銷栓的移動是在yz平面內進行來進行說明。在「n1：靠近」MP中，將銷栓的yz位置作為輸入而進行yz面內的位置控制。在「n2：接觸」MP中，將銷栓的z位置作為輸入而進行z方向的位置控制。

在「n3：配合」MP中，藉由環境約束與臂的柔性部53，可進行不公開考慮z方向的模型的表達。狀態可設為y方向的位置/速度，行動可設為y方向的速度指令（圖6的x_fit 及u_fit ）。將銷栓54的前端嵌入孔55時的握爪的位置作為目標值。

在「n4：對準」MP中，狀態為握爪的角度與角速度，行動為y方向的速度指令（圖6的x_align 及u_align ）。柔性腕可實現六自由度（在yz二次元平面上為三自由度）的位移，因此在銷栓的前端與孔接觸的狀態下，僅利用y方向的平移運動便可實現銷栓的旋轉運動。將銷栓54的姿勢變得垂直時的握爪的角度作為目標值。

在「n5：插入」MP中，狀態為z方向的位置與速度，行動為y方向與z方向的速度指令位置（圖6的x_insertion 及u_insertion ）。y方向的速度指令是為了避免銷栓54的卡堵（jamming）（在插入中途變得無法活動）而導入。將銷栓54到達孔55的底部時的握爪的位置作為目標位置。

（學習處理）圖7是表示使用機器學習來獲得策略的學習處理的流程的流程圖。本實施形態中，藉由本處理而獲得「配合」「對準」「插入」這三個MP中的策略。圖7所示的流程圖是針對一個MP的策略的學習處理，對於各個MP適用該學習處理。

本實施形態中，利用使用高斯過程（Gaussian process）的基於模型的強化學習（學習控制的概率推理（Probabilistic Inference for Learning Control，PILCO））。本方法是取樣效率（資料效率）高的學習方法。

在步驟S71中，學習裝置20獲取機器人10的狀態遷移模型。具體而言，控制指令發送部29對臂前端給予隨機的速度控制輸入，資料獲取部21收集握爪的位置、速度、角度、角速度的資料。

在步驟S72中，學習裝置20進行使用高斯過程的狀態遷移模型的學習。具體而言，狀態遷移模型更新部25基於在步驟S71中獲取的資料，進行基於高斯過程回歸的狀態遷移模型的更新。高斯過程回歸是由資料來決定函數形式的非參數（nonparametric）回歸，可實現非線性的表達。高斯過程回歸進而可藉由概率預測來表達模型的不確定性（因雜訊或資料不足造成的不確定性）。本方法中，模型的輸入為某時刻t的狀態（握爪的位置與速度、角度與角速度）與行動（臂前端的目標速度指令），輸出為下個時刻t+1的狀態。

在步驟S73中，學習裝置20使用學習中的狀態遷移模型來進行策略28的學習。所謂策略，是指在某狀態x下決定接下來應採取的行動u的映射π（u|x）。本實施形態中，使用基於非線性函數的決定性的策略（僅使用高斯過程的預測平均）。策略是藉由策略參數θ（高斯核（Gaussian kernel）的寬度或基底）來表達。策略更新部26決定在規定的預測範圍（prediction horizon）t=0、…、T內使累計期待收益最大化的策略參數θ。累計期待收益是藉由根據模型來預測從某初始狀態經過T步驟的狀態遷移來計算。藉由PILCO，可分析性地求出累計期待收益的梯度，可利用一般的梯度法（共軛梯度法或者有限記憶布羅伊登-福勒雀-戈德法布-香農算法（Limited-Memory Broyden-Fletcher-Goldfarb-Shanno Algorithm，L-BFGS））來求出策略參數θ。

在步驟S74中，學習裝置判斷策略28的學習是否已完成。結束條件例如是預先指定的重複次數的結束、策略參數θ的變化成為臨限值以下等條件。若不滿足結束條件（S74-否），則前進至步驟S75。若滿足了結束條件（S74-是），則結束學習。

在步驟S75中，動作決定部27適用學習中的策略28來決定下個動作u（t+1），資料獲取部21觀測其結果的狀態。隨後，返回步驟S72，反覆進行使用此處獲取的狀態觀測資料的學習（狀態遷移模型的更新及策略的更新）。

一個MP中的學習結束後，進行關於下個MP的學習。再者，策略參數θ必須針對每個MP而進行初始化，但狀態遷移模型是利用前次的MP中的學習所使用的模型來作為初始模型。

藉由以上的處理，可獲得與多個MP對應的策略。

再者，存在下述情況，即，當依據學習初期的策略來行動時，無法選擇帶來收益的行動，從而無法推進學習。因此，在學習的初始階段，亦可基於由人手動操作機器人10而獲得的狀態觀測資料及行動，來進行模型的更新。或者，亦可基於由人手動操作對機器人10進行模擬的模擬機器人而獲得的狀態觀測資料、或者由人利用自身的身體進行演示並感測該演示而獲得的狀態觀測資料，來進行模型的更新。若如此，則在早期階段便可獲得可得到收益的行動，因此可實現更短時間的學習。

（控制裝置）圖8表示機器人系統1的運用階段的結構。在運用階段，機器人系統1具有機器人10與控制裝置80。

控制裝置80的硬體結構與學習裝置20同樣，因此省略重複的說明。控制裝置80具有資料獲取部81、成功判定部82、控制部84、控制指令發送部89以作為其功能結構。控制部84具有動作決定部87與多個策略（學習模型）88。各功能結構是藉由CPU31讀出記憶於ROM32或儲存器34中的學習程式，並在RAM33中展開執行而實現。再者，一部分或全部的功能亦可藉由專用的硬體裝置來實現。

資料獲取部81獲取表示機器人10的狀態的資料。資料獲取部81所獲取的資料與學習裝置20的情況同樣，因此省略重複的說明。再者，在學習時對感測器資料進行次元削減的情況下，在運用時亦進行同樣的次元削減。

成功判定部82判定機器人10的動作是否滿足規定的成功條件。成功判定部82與學習時同樣，判斷每個MP的成功條件。

控制部84具有動作決定部87與多個策略（學習模型）88。動作決定部87基於由資料獲取部81所獲得的狀態觀測資料與策略88，來決定使機器人10進行的行動。再者，在「靠近」及「接觸」的MP中，控制部84進行基於握爪12或銷栓的位置與孔的位置的位置控制。另一方面，在「配合」「對準」「插入」的MP中，依據藉由機器學習而獲得的策略來決定使機器人進行的行動。

一旦由成功判定部82判斷為滿足當前的MP的成功條件，控制部84便切換至與下個MP對應的策略88。具體而言，一旦「靠近」成功，則切換至與「接觸」對應的策略，一旦「接觸」成功，則切換至與「配合」對應的策略，一旦「配合」成功，則切換至與「對準」對應的策略，一旦「對準」成功，則切換至與「插入」對應的策略。一旦「插入」成功，則判定為銷栓的嵌入作業已完成。

控制指令發送部89基於依據策略88而輸出的行動，來生成及發送針對機器人10的指令。

再者，在各個MP中未能在預先規定的時間步驟以內滿足結束條件的情況、對機器人10施加了過剩的力的情況、機器人已到達指定區域外的情況下，則中斷任務（task）而恢復至初始狀態。

圖8中雖未示出，但控制裝置80亦可構成為，具備作為學習裝置20的功能而能進行追加的機器學習。

（效果的驗證）首先，藉由使用物理運算引擎的模擬來確認本方法的效果。在模擬中，使用二次元的物理運算引擎（Box2D）。

圖9的(A)是說明模擬的設置（set up）的圖。中央的四方形91是模仿機器人臂前端11a的部分，框92是模仿握爪12的部分，凸部94是模仿銷栓（握持對象物）的部分。臂與握爪藉由模仿柔性部13的彈簧（彈性體）93而連接。本模擬中，銷栓相對於握爪而固定。

在此種條件下，藉由所述的基於模型的機器學習，而獲得了關於「配合」「對準」「插入」這三個MP的策略。即，進行了實施狀態空間及行動空間的次元削減（參照圖6）的學習處理。作為比較，亦進行了未進行次元削減的學習處理。若不進行次元削減，則狀態為六次元（三自由度的位置及速度），行動為二次元（水平及垂直方向的速度）。

圖9的(B)至圖9的(D)是關於「配合」「對準」「插入」的各MP而表示各試行次數下的誤差的圖表。橫軸表示試行次數，縱軸表示與目標的誤差。學習是進行30場（session），摺線圖表示30場的平均值，誤差條（error bar）表示標準偏差。

根據其結果可掌握的是，不論次元削減的有無，均能以足夠的精度學習各個動作。但可知的是，藉由進行次元削減，可利用短的試行次數來實現誤差少的學習。

接下來，使用實際的機器人來進行實驗。機器人具有圖2的(A)、圖2的(B)所示的結構。而且，在握爪12安裝有姿態捕捉器標記，可測定握爪12的位置及姿勢。而且，銷栓被固定於握爪12，以便根據握爪12的位置來求出銷栓的位置。此處，僅進行有次元削減的學習。

圖10的(A)至圖10的(C)是關於「配合」「對準」「插入」的各MP而表示各試行次數下的誤差的圖表。橫軸表示試行次數，縱軸表示與目標的誤差。學習是進行10場，摺線圖表示10場的平均值，誤差條表示標準偏差。可知的是，在「配合」「對準」「插入」的任一MP中，五次以內的試行次數下均能使誤差足夠小。

＜第二實施形態＞本實施形態基本上與第一實施形態同樣，但使用力相關感測器的測量值來作為狀態觀測資料的一部分。以下，對本實施形態中所用的力相關感測器以及由力相關感測器所獲得的資料的具體例進行說明。

作為一例，為了對握爪從握持對象物受到的力進行測定，可使用觸覺感測器。

圖11的(A)及圖11的(B)是說明設於握爪12的觸覺感測器12b的圖。在握爪12的一組夾持部12a各自的表面設有觸覺感測器12b。觸覺感測器12b例如是藉由微機械加工技術（micromachining technology）而製作的、可同時檢測三方向的力及力矩的六軸應變計式的觸覺感測器。該類型的感測器亦有時被稱作力感度感測器。但是，亦可使用三軸或者單軸的觸覺感測器，還可使用靜電電容式、壓電式、光學式等其他檢測原理的觸覺感測器。觸覺感測器12b是8×8畫素的包含多元件的分佈觸覺感測器，但元件數既可更多，亦可更少，而且亦可為單元件的感測器。

藉由使用觸覺感測器12b，可掌握握爪12如何握持著握持對象物（銷栓）。例如，根據觸覺感測器12b的測定值，可掌握是垂直握持著握持對象物，還是傾斜握持著握持對象物。而且，根據從一對夾持部12a各自的觸覺感測器12b獲得的測量值之差，可掌握握爪12是垂直還是傾斜。進而，根據觸覺感測器12b的測量值，可掌握銷栓已接觸至對象表面、銷栓已落入孔內、已使銷栓的方向與孔平行、在將銷栓插入孔內時產生了卡堵、已將銷栓插入至孔的底部為止等。

作為另一例，為了對作用於柔性部13即握爪12與臂11之間的力進行測定，可使用利用位移感測器的力感度感測器。圖11的(C)表示用於測定臂前端11a與握爪12之間的距離（位移）的位移感測器15a、位移感測器15b。位移感測器15a、位移感測器15b測定兩者之間的距離變化。位移感測器亦可於臂前端11a與握爪12設有多組。位移感測器可利用雷射式、超音波式等任意類型者。臂前端11a與握爪12之間的距離跟作用於藉由彈簧而連接的臂前端11a與握爪12之間的力相關，因此位移感測器15a、位移感測器15b除了檢測握爪12相對於臂前端11a的位置及姿勢以外，還具有作為力感度感測器的作用。

再者，作用於握爪12與臂11之間的力除了位移感測器以外，還可使用應變計等力感度感測器來測定。

作為又一例，為了對作用於柔性部13與握爪12前端（與握持對象物的接觸部分）之間的力進行測定，亦可使用力感度感測器或扭矩感測器。例如，在握爪12的夾持部為具有一個或多個關節的機械手的情況下，亦可藉由力感度感測器或扭矩感測器來測定作用於指關節的力。

以上的說明中，在作用於握爪12與臂11之間的力、或者作用於柔性部13與握爪12前端之間的力中，亦可包含因較力的測定部位處於握爪前端側的機器人自身的重量而產生的力（因重力引起的力、因運動加速度引起的力）的成分。

對機器人的關節施加的力亦可作為基於在使機器人的關節活動的馬達中流動的電流值的扭矩而測定，但若藉由基於應變計式等的力感度感測器來測定，則靈敏度或者高速響應性優異的情況多。

學習處理的基本算法與第一實施形態同樣，因此省略重複的說明。根據本實施形態，藉由使用力相關感測器，可更準確地掌握較柔性部為前的握爪及握持對象物的狀態，因此可實現更適當的策略的學習。

＜變形例＞所述實施形態不過是例示性地說明本發明的結構例。本發明並不限定於所述的具體形態，可在其技術思想的範圍內進行各種變形。

作為學習算法，對利用PILCO的示例進行了說明，但亦可使用PILCO以外的基於模型的強化學習，還可使用無模型強化學習。而且，藉由有教學學習而非強化學習，亦可獲得學習模型。為了進行有教學學習，必須準備對各種狀態下的行動賦予正解標籤的教學資料。

所述示例中，以銷栓的嵌入作業為例進行了說明，但學習及控制對象的作業可為任意作業。但是，本發明適合於包含握爪自身或握爪所握持的零件與環境發生接觸的動作的作業。而且，所述示例中，僅在握持對象物接觸至環境的動作區間（MP）進行藉由機器學習的模型獲得，但在握持對象物或握爪未接觸至環境的動作區間（MP），亦可進行藉由機器學習的模型獲得。而且，在作業相對較簡單的情況下，亦可不將作業分割為多個動作區間而進行學習，以進行模型獲得。

＜附註＞ 1、一種控制裝置（80），為機器人（10）的控制裝置（80），所述機器人（10）包括用於握持對象物的握爪（12）與用於使所述握爪（12）移動的臂（11），在所述握爪（12）的中途、所述握爪（12）與所述臂（11）之間、以及所述臂（11）的中途中的至少任一處位置，具有在物理上為柔性的柔性部（13），所述控制裝置（80）包括：狀態獲取部件（81），獲取包含柔性相關觀測資料的狀態觀測資料，所述柔性相關觀測資料是關於所述柔性部、較所述柔性部靠近握持對象物側的所述機器人的部位、及所握持的所述對象物中的至少任一者的狀態的觀測資料；以及控制部件（84），包含學習模型（86），並基於將由所述狀態獲取部件（81）所獲取的狀態觀測資料輸入至所述學習模型（86）而獲得的輸出，來控制所述機器人，所述學習模型（86）預先經過機器學習，以使得當輸入所述狀態觀測資料時，輸出用於進行針對所述對象物的規定作業的所述機器人的行動。

2、一種機器人（10），包括：握爪（12），用於握持對象物；臂（11），用於使所述握爪（12）移動；柔性部，設在所述握爪（12）的中途、所述握爪（12）與所述臂（11）之間、以及所述臂（11）的中途中的至少任一處位置，且在物理上為柔性；以及力感度感測器（12b、15a、15b），獲取所述握爪（12）從所述對象物受到的力、或者作用於所述握爪（12）與所述臂（11）之間的力的至少任一個。

3、一種學習裝置（20），包括：狀態獲取部件（21），獲取包含柔性相關觀測資料的狀態觀測資料，所述柔性相關觀測資料是關於機器人（10）的柔性部（13）、較所述柔性部（13）靠近握持對象物側的所述機器人的部位、及所握持的所述對象物中的至少任一者的狀態的觀測資料，所述機器人（10）包括用於握持對象物的握爪（12）與用於使所述握爪（12）移動的臂（11），在所述握爪（12）的中途、所述握爪（12）與所述臂（11）之間、以及所述臂（11）的中途中的至少任一處位置，具有在物理上為柔性的所述柔性部（13）；以及學習部件（24），獲得學習模型，所述學習模型當輸入所述狀態觀測資料時，輸出用於進行針對所述對象物的規定作業的所述機器人（10）的行動。

1:機器人系統 10:機器人 11:臂 11a、51:臂前端 12、52:握爪 12a:夾持部 12b:觸覺感測器 13、53:柔性部 13a～13c、93:彈簧 15a、15b:位移感測器 20:學習裝置 21、81:資料獲取部 22、82:成功判定部 23:收益決定部 24:學習部 25:狀態遷移模型更新部 26:策略更新部 27、87:動作決定部 28、88:策略（學習模型） 29、89:控制指令發送部 31:CPU 32:ROM 33:RAM 34:儲存器 35:鍵盤 36:滑鼠 37:監視器 38:通訊介面 39:匯流排 54:握持對象物（銷栓） 55:孔 56:狀態 57:行動 80:控制裝置 84:控制部 91:四方形 92:框 94:凸部 C1～C6:箭頭 J1～J6:關節 r（t）:收益 S71~S75:步驟 u（t+1）:下個動作 x（t）:狀態

圖1是說明適用了本發明的機器人系統（學習階段（phase））的概要的圖。圖2的(A)及圖2的(B)是表示機器人的概略結構的圖。圖3是表示獲得機器人的控制系統的學習裝置的硬體結構的方塊圖。圖4是表示獲得機器人的控制系統的學習裝置的功能結構的方塊圖。圖5是說明構成銷栓（peg）的嵌入作業的操作基元（MP）的圖。圖6是說明構成銷栓的嵌入作業的操作基元（MP）的圖。圖7是學習處理的流程圖。圖8是表示控制機器人的控制裝置的功能結構的方塊圖。圖9的(A)至圖9的(D)是用於說明實施形態的效果的圖。圖10的(A)至圖10的(C)是用於說明實施形態的效果的圖。圖11的(A)至圖11的(C)是用於說明觸覺感測器的圖。

1:機器人系統

10:機器人

20:學習裝置

Claims

一種機器人的控制裝置，所述機器人包括用於握持對象物的握爪與用於使所述握爪移動的臂，在所述握爪的中途、所述握爪與所述臂之間、以及所述臂的中途中的至少任一處位置，具有在物理上為柔性的柔性部，所述柔性部包括多個彈性體，所述多個彈性體的各基部處於正三角形頂點的位置關係，所述控制裝置包括：狀態獲取部件，獲取包含柔性相關觀測資料的狀態觀測資料，所述柔性相關觀測資料是關於所述柔性部、較所述柔性部靠近握持對象物側的所述機器人的部位、及所握持的所述對象物的狀態的觀測資料；以及控制部件，包含學習模型，並基於將由所述狀態獲取部件所獲取的狀態觀測資料輸入至所述學習模型而獲得的輸出，來控制所述機器人，所述學習模型預先經過機器學習，以使得當輸入所述狀態觀測資料時，輸出用於進行針對所述對象物的規定作業的所述機器人的行動。
如請求項1所述的機器人的控制裝置，其中所述規定作業包含多個基元操作，所述控制部件包含與所述多個基元操作對應的多個學習模型。
如請求項2所述的機器人的控制裝置，其中所述多個基元操作包含一個或多個約束基元操作，所述約束基元操作是控制所述機器人一邊維持所述握爪或被所述握爪握持的所述對象物接觸或接近環境的約束狀態一邊運作。
如請求項3所述的機器人的控制裝置，其中與所述約束基元操作對應的學習模型是藉由削減了狀態空間及行動空間的次元的學習處理來進行學習。
如請求項1所述的機器人的控制裝置，其中所述學習模型輸出包含如下所述的行動，即，在未被分割為多個基元操作的操作的整體或一個基元操作中，一邊維持所述握爪或被所述握爪握持的所述對象物接觸或接近環境的約束狀態一邊運作。
如請求項5所述的機器人的控制裝置，其中所述學習模型關於一邊維持所述約束狀態一邊控制所述機器人的情況，是藉由削減了狀態空間及行動空間的次元的學習處理來進行學習。
如請求項1至請求項6中任一項所述的機器人的控制裝置，其中所述柔性部是設於所述握爪與所述臂之間，所述柔性相關觀測資料包含下述資料中的至少任一個，即：與所述握爪從所述對象物受到的力相關的力相關感測資料；所述握爪的位置、速度、姿勢、及關於姿勢變化的角速度中的至少任一個；所述握爪與所述臂之間的相對距離以及相對角度中的至少任一個；與所述柔性部所受到的力相關的力相關感測資料；以及基於對所述對象物、所述握爪及所述柔性部中的至少任一者進行拍攝所得的圖像的資料。
一種機器人系統，包括：機器人，包含用於握持對象物的握爪與用於使所述握爪移動的臂，且在所述握爪的中途、所述握爪與所述臂之間、以及所述臂的中途中的至少任一處位置，具有在物理上為柔性的柔性部，所述柔性部包括多個彈性體，所述多個彈性體的各基部處於正三角形頂點的位置關係；以及如請求項1至請求項7中任一項所述的機器人的控制裝置。
一種機器人，包括：握爪，用於握持對象物；臂，用於使所述握爪移動；柔性部，設在所述握爪的中途、所述握爪與所述臂之間、以及所述臂的中途中的至少任一處位置，且在物理上為柔性，所述柔性部包括多個彈性體，所述多個彈性體的各基部處於正三角形頂點的位置關係；以及感測器，檢測所述柔性部、較所述柔性部靠近握持所述對象物側的部位、及所握持的對象物的狀態。
一種學習裝置，包括：狀態獲取部件，獲取包含機器人的柔性相關觀測資料的狀態觀測資料，所述柔性相關觀測資料是關於機器人的柔性部、較所述柔性部靠近握持對象物側的所述機器人的部位、及所握持的所述對象物的狀態的觀測資料，所述機器人包括用於握持對象物的握爪與用於使所述握爪移動的臂，在所述握爪的中途、所述握爪與所述臂之間、以及所述臂的中途中的至少任一處位置，具有在物理上為柔性的所述柔性部；以及學習部件，獲得學習模型，所述學習模型當輸入所述狀態觀測資料時，輸出用於進行針對所述對象物的規定作業的所述機器人的行動。
如請求項10所述的學習裝置，其中所述學習部件是藉由強化學習或深層學習來獲得所述學習模型。
如請求項11所述的學習裝置，其中所述學習部件是藉由基於模型的強化學習或無模型強化學習來獲得所述學習模型。
如請求項10至請求項12中任一項所述的學習裝置，其中所述規定作業包含多個基元操作，所述學習部件獲得與所述多個基元操作對應的多個學習模型。
如請求項13所述的學習裝置，其中所述學習部件獲得輸出如下所述行動的所述學習模型，即，在所述多個基元操作中的至少任一個基元操作中，一邊維持所述握爪或被所述握爪握持的所述對象物接觸或接近環境的約束狀態一邊運作。
如請求項14所述的學習裝置，其中所述學習部件在控制所述機器人以維持所述約束狀態的基元操作中，削減狀態空間及行動空間的次元來進行學習。
如請求項10至請求項12中任一項所述的學習裝置，其中所述學習部件獲得輸出包含如下所述行動的所述學習模型，即，在未被分割為多個基元操作的操作的整體或一個基元操作中，一邊維持所述握爪或被所述握爪握持的所述對象物接觸或接近環境的約束狀態一邊運作。
如請求項16所述的學習裝置，其中所述學習部件關於控制所述機器人以維持所述約束狀態的情況，是削減狀態空間及行動空間的次元來進行學習。
如請求項10至請求項12中任一項所述的學習裝置，其中所述學習部件包含：第一學習部件，使用由人利用自身的身體進行演示或者操作所述機器人或模擬機器人而獲得的狀態觀測資料來進行學習；以及第二學習部件，使用作為基於由第一學習部件所獲得的策略進行行動的結果而獲得的狀態觀測資料來進行學習。
一種機器人的控制方法，所述機器人包括用於握持對象物的握爪與用於使所述握爪移動的臂，在所述握爪的中途、所述握爪與所述臂之間、以及所述臂的中途中的至少任一處位置，具有在物理上為柔性的柔性部，所述柔性部包括多個彈性體，所述多個彈性體的各基部處於正三角形頂點的位置關係，所述控制方法包括：狀態獲取步驟，獲取包含柔性相關觀測資料的狀態觀測資料，所述柔性相關觀測資料是關於所述柔性部、較所述柔性部靠近握持對象物側的所述機器人的部位、及所握持的所述對象物的狀態的觀測資料；以及控制步驟，使用學習模型，並基於根據在所述狀態獲取步驟中獲取的狀態觀測資料而獲得的輸出，來控制所述機器人，所述學習模型預先經過機器學習，以使得當輸入所述狀態觀測資料時，輸出用於進行針對所述對象物的規定作業的所述機器人的行動。
一種學習方法，包括：狀態獲取步驟，獲取包含柔性相關觀測資料的狀態觀測資料，所述柔性相關觀測資料是關於機器人的柔性部、較所述柔性部靠近握持對象物側的所述機器人的部位、及所握持的所述對象物的狀態的觀測資料，所述機器人包括用於握持對象物的握爪與用於使所述握爪移動的臂，在所述握爪的中途、所述握爪與所述臂之間、以及所述臂的中途中的至少任一處位置，具有在物理上為柔性的所述柔性部；以及學習步驟，獲得學習模型，所述學習模型當輸入所述狀態觀測資料時，輸出用於進行針對所述對象物的規定作業的所述機器人的行動。
一種電腦程式產品，用於使電腦執行如請求項19或請求項20所述的方法的各步驟。