TW202132071A

TW202132071A - 機器人控制裝置、機器人控制方法以及學習模型產生裝置

Info

Publication number: TW202132071A
Application number: TW109126822A
Authority: TW
Inventors: 太田佳
Original assignee: 日商三菱電機股份有限公司
Priority date: 2020-02-27
Filing date: 2020-08-07
Publication date: 2021-09-01
Also published as: WO2021171500A1; DE112020006315B4; JPWO2021171500A1; JP6815571B1; DE112020006315T5; CN115136089A; US20220300005A1

Abstract

構成一種機器人控制裝置(11)，使其包含：移動路徑取得部(13)，將表示存在於機器人移動的區域當中的障礙物的位置之觀測資料，以及在機器人移動的區域內的機器人的移動狀態之中，表示在機器人開始移動的移動開始點的機器人的移動狀態之狀態資料，給予第1學習模型(4)，從第1學習模型(4)當中取得機器人的移動路徑；以及控制值產生部(14)，沿著以移動路徑取得部(13)取得的移動路徑，產生用來使機器人移動的機器人的控制值。

Description

機器人控制裝置、機器人控制方法以及學習模型產生裝置

本揭露是關於一種產生機器人控制值的機器人控制裝置以及機器人控制方法、以及產生學習模型的學習模型產生裝置。

近年來，人類不斷在開發自律行走的機器人(以下，稱為「自律行走型機器人」)。對自律行走型機器人而言，有時候會要求在不碰撞存在於周圍環境的障礙物之情況下移動。對產生機器人的控制值的機器人控制裝置而言，一直都期望著開發一種控制裝置，能夠讓機器人在不碰撞障礙物的情況下，於障礙物存在的各式各樣的環境下移動，換言之，於各個障礙物的種類與存在的位置都互不相同的複數個環境下移動。附帶一提，以下的專利文獻1，揭露了一種機械學習裝置，學習用來讓機械手臂動作的動作程式，使得在稱為手臂型機器人的周邊存在有一些器材等的某種單一環境下，機器人的手臂不會碰到周邊器材。 [先前技術文獻] [專利文獻]

[專利文獻1]日本專利特開2018-43338號公報

[發明所欲解決的課題]

若能夠將專利文獻1揭露的機械學習裝置，應用在上述那種自律行走型機器人，就有可能學習讓機器人移動，而不會碰撞障礙物的動作程式。然而，該機械學習裝置，是在某種單一環境下，學習用來讓機械手臂動作的動作程式，在不同於某種單一環境的其他環境下，讓機械手臂動作時，並不保證機械手臂不會碰到周邊器材等。因此，依照以該機械學習裝置學習的動作程式而移動的機器人，如果移動到其他的區域內，就會產生可能與障礙物碰撞之課題。

本揭露是為了解決上述那樣的課題，目的在於得到一種機器人控制裝置以及機器人控制方法，能夠讓機器人在障礙物存在的已知區域、以及障礙物的位置等不同的區域內移動，而不會與障礙物碰撞。 [用以解決課題的手段]

關於本揭露的機器人控制裝置，包含：移動路徑取得部，將表示存在於機器人移動的區域當中的障礙物的位置之觀測資料，以及在機器人移動的區域內的機器人的移動狀態之中，表示在機器人開始移動的移動開始點的機器人的移動狀態之狀態資料，給予第1學習模型，從第1學習模型當中取得機器人的移動路徑；以及控制值產生部，沿著以移動路徑取得部取得的移動路徑，產生用來使機器人移動的機器人的控制值。 [發明的效果]

依照本揭露，能夠讓機器人在障礙物存在的已知區域、以及障礙物的位置等不同的區域內移動，而不會與障礙物碰撞。

以下，為了更詳細說明本揭露，針對用以實施本揭露的形態，依照所附的圖式進行說明。

實施形態1. 第1圖為一構成圖，表示關於實施形態1的學習模型產生裝置1。第2圖為一硬體構成圖，表示關於實施形態1的學習模型產生裝置1的硬體。第1圖中，學習模型產生裝置1包含教師資料產生部2以及學習模型產生部3。教師資料產生部2舉例來說，以第2圖所示的教師資料產生電路21實現。教師資料產生部2產生教師資料y_i (i = 1, …, I)，該教師資料y_i 表示機器人可以在不碰撞存在於I(I為2以上的整數)個區域的各個當中的障礙物之情況下，在各個區域移動的路徑。存在於I個區域的各個當中的障礙物，形狀、大小、或位置的任何一者並不相同。教師資料產生部2將產生的教師資料y_i ，輸出至學習模型產生部3。

學習模型產生部3舉例來說，以第2圖所示的學習模型產生電路22實現。學習模型產生部3取得表示存在於I個區域的各個當中的障礙物的位置之觀測資料d_ob,i (i = 1, …, I)，以及在各個區域內的機器人的移動狀態之中，表示在機器人開始移動的移動開始點的機器人的移動狀態之狀態資料d_s,i,0 。所謂機器人的移動狀態，是機器人的位置、機器人的速度、或機器人的加速度等。另外，學習模型產生部3取得以教師資料產生部2產生的教師資料y_i 。學習模型產生部3使用觀測資料d_ob,i 、狀態資料d_s,i,0 、以及教師資料y_i ，產生學習機器人的移動路徑的第1學習模型4(參照第8圖)。第1學習模型4舉例來說，以類神經網路實現。若第1學習模型4接收到表示存在於該機器人移動的區域當中的障礙物的位置之觀測資料d_ob ，以及在機器人移動的區域內的機器人的移動狀態之中，表示在機器人開始移動的移動開始點的機器人的移動狀態之狀態資料d_s,0 ，則輸出表示機器人的移動路徑之路徑資料。

第1圖中，設想各個教師資料產生部2以及學習模型產生部3，也就是學習模型產生裝置1的構成元件，以第2圖所示那樣的專用的硬體實現。意即，設想學習模型產生裝置1以教師資料產生電路21以及學習模型產生電路22實現。各個教師資料產生電路21以及學習模型產生電路22舉例來說，相當於單一電路、複合電路、程式化處理器、平行程式化處理器、應用特定積體電路(Application Specific Integrated Circuit, ASIC)、場式可程式閘陣列(Field-Programmable Gate Array, FPGA)、或該等的組合。

學習模型產生裝置1的構成元件，並不限於以專用的硬體實現；學習模型產生裝置1也可以由軟體、韌體、或軟體與韌體的組合實現。軟體或韌體作為程式，儲存於電腦的記憶體。電腦的意思是指執行程式的硬體，舉例來說，相當於中央處理器(Central Processing Unit, CPU)、中央處理裝置、處理裝置、演算裝置、微處理器、微電腦、處理器、或者是數位訊號處理器(Digital Signal Processor, DSP)。

第3圖為學習模型產生裝置1以軟體或韌體等實現時的電腦的硬體構成圖。學習模型產生裝置1以軟體或韌體等實現時，在記憶體41當中，儲存有用來讓電腦執行教師資料產生部2以及學習模型產生部3的各個處理流程之程式。然後，電腦的處理器42執行儲存於記憶體41的程式。

另外，第2圖中，示意了學習模型產生裝置1的各個構成元件以專用的硬體實現之例；第3圖中，示意了學習模型產生裝置1以軟體或韌體等實現之例。然而，這僅為一個範例，也可以讓學習模型產生裝置1的一部份的構成元件以專用的硬體實現，其餘的構成元件以軟體或韌體等實現。

第4圖為一構成圖，表示關於實施形態1的學習模型產生裝置5。第5圖為一硬體構成圖，表示關於實施形態1的學習模型產生裝置5的硬體。第4圖中，學習模型產生裝置5包含教師資料產生部6以及學習模型產生部7。教師資料產生部6舉例來說，以第5圖所示的教師資料產生電路23實現。教師資料產生部6與第1圖所示的教師資料產生部2同樣產生教師資料y_i (i = 1, …, I)，該教師資料y_i 表示機器人可以在不碰撞存在於I個區域的各個當中的障礙物之情況下，在各個區域移動的路徑。教師資料產生部6將產生的教師資料y_i ，輸出至學習模型產生部7。

學習模型產生部7包含報酬值算出部8以及模型產生處理部9。學習模型產生部7，使用表示機器人在各個區域移動時的機器人的移動狀態之狀態資料d_s,i,t ，以及以教師資料產生部6產生之教師資料y_i ，產生學習機器人的控制值a_t 的第2學習模型10(參照第8圖)。t表示後面所述的第8圖所示的機器人控制裝置11控制機器人的移動的控制處理時間。

報酬值算出部8舉例來說，以第5圖所示的報酬值算出電路24實現。報酬值算出部8取得表示機器人在各個區域移動時的機器人的移動狀態之狀態資料d_s,i,t ，以及以教師資料產生部6產生的教師資料y_i 。報酬值算出部8使用包含當作是報酬項的狀態資料d_s,i,t 以及教師資料y_i 在內的報酬函數，從機器人開始移動的移動開始點起，到機器人抵達結束移動的移動結束點為止，分別算出在控制機器人移動的複數個控制處理時間t的報酬值R_t 。報酬值算出部8將各個控制處理時間t的報酬值R_t ，輸出至模型產生處理部9。

模型產生處理部9舉例來說，以第5圖所示的模型產生處理電路25實現。模型產生處理部9使用以報酬值算出部8所算出在各個控制處理時間t的報酬值R_t 的累積和的期望值J，產生學習機器人的控制值a_t 的第2學習模型10。第2學習模型10舉例來說，以類神經網路實現。若第2學習模型10接收到表示機器人在某個區域內移動時的機器人的移動狀態之狀態資料d_s,t ，以及表示機器人的移動路徑之路徑資料，則輸出在各個控制處理時間t的機器人的控制值a_t 。

第4圖中，設想各個教師資料產生部6、報酬值算出部8、以及模型產生處理部9，也就是學習模型產生裝置5的構成元件，以第5圖所示那樣的專用的硬體實現。意即，設想學習模型產生裝置5以教師資料產生電路23、報酬值算出電路24、以及模型產生處理電路25實現。各個教師資料產生電路23、報酬值算出電路24、以及模型產生處理電路25舉例來說，相當於單一電路、複合電路、程式化處理器、平行程式化處理器、ASIC、FPGA、或該等的組合。

學習模型產生裝置5的構成元件，並不限於以專用的硬體實現；學習模型產生裝置5也可以由軟體、韌體、或軟體與韌體的組合實現。第6圖為學習模型產生裝置5以軟體或韌體等實現時的電腦的硬體構成圖。學習模型產生裝置5以軟體或韌體等實現時，在記憶體43當中，儲存有用來讓電腦執行教師資料產生部6、報酬值算出部8、以及模型產生處理部9的各個處理流程之程式。然後，電腦的處理器44執行儲存於記憶體43的程式。

另外，第5圖中，示意了學習模型產生裝置5的各個構成元件以專用的硬體實現之例；第6圖中，示意了學習模型產生裝置5以軟體或韌體等實現之例。然而，這僅為一個範例，也可以讓學習模型產生裝置5的一部份的構成元件以專用的硬體實現，其餘的構成元件以軟體或韌體等實現。

此處，第1圖所示的學習模型產生部3產生第1學習模型4，第4圖所示的學習模型產生部7產生第2學習模型10。然而，這僅為一個範例，舉例來說，如第7圖所示，也可以讓學習模型產生部3’包含第1圖所示的學習模型產生部3、以及第4圖所示的學習模型產生部7，讓學習模型產生部3’分別產生第1學習模型4以及第2學習模型10。第7圖為一構成圖，表示關於實施形態1的其他的學習模型產生裝置1。學習模型產生部3’分別產生第1學習模型4以及第2學習模型10時，學習模型產生部7的報酬值算出部8也可以不使用以教師資料產生部6產生的教師資料y_i ，而是使用從第1學習模型4輸出的路徑資料，來當作是用於算出報酬值R_t 的教師資料y_i 。報酬值算出部8使用從第1學習模型4輸出的路徑資料時，可以使第1學習模型4與第2學習模型10互相關聯。因此，學習模型產生部7在不使用以教師資料產生部6產生的教師資料y_i ，而是使用從第1學習模型4輸出的路徑資料的情況下，比起使用以教師資料產生部6產生的教師資料y_i ，能夠提高第2學習模型10的產生精確度。

第8圖為一構成圖，表示關於實施形態1的機器人控制裝置11。第9圖為一硬體構成圖，表示關於實施形態1的機器人控制裝置11的硬體。第8圖中，機器人控制裝置11包含資料取得部12、移動路徑取得部13、控制值產生部14、以及控制值補正部15。資料取得部12舉例來說，以第9圖所示的資料取得電路31實現。資料取得部12取得表示存在於機器人移動的區域當中的障礙物的位置之觀測資料d_ob ，以及在機器人移動的區域內的機器人的移動狀態之中，表示在機器人開始移動的移動開始點的機器人的移動狀態之狀態資料d_s,0 。另外，資料取得部12取得表示機器人在該區域內移動時的機器人的移動狀態之狀態資料d_s,t 。資料取得部12將各個觀測資料d_ob 以及狀態資料d_s,0 ，輸出至移動路徑取得部13。資料取得部12將狀態資料d_s,t 輸出至各個控制值產生部14。

移動路徑取得部13舉例來說，以第9圖所示的移動路徑取得電路32實現。移動路徑取得部13，包含以學習模型產生裝置1的學習模型產生部3產生的第1學習模型4。移動路徑取得部13，將以資料取得部12取得的觀測資料d_ob ，以及以資料取得部取得的表示在移動開始點的機器人的移動狀態之狀態資料d_s,0 ，給予第1學習模型4，從第1學習模型4當中取得機器人的移動路徑。移動路徑取得部13將表示機器人的移動路徑之路徑資料，輸出至控制值產生部14。

控制值產生部14舉例來說，以第9圖所示的控制值產生電路33實現。控制值產生部14沿著以移動路徑取得部13取得的移動路徑，產生用來使機器人移動的機器人的控制值a_t 。意即，控制值產生部14包含以學習模型產生裝置5的學習模型產生部7產生的第2學習模型10。控制值產生部14將表示機器人在區域內移動時的機器人的移動狀態之狀態資料d_s,t ，以及表示機器人的移動路徑之路徑資料給予第2學習模型10，從第2學習模型10當中取得機器人的控制值a_t 。機器人的控制值a_t 包含複數個控制值。對機器人的控制值a_t 而言，舉例來說，有關於機器人的移動方向的控制值a_t,d 、關於機器人的速度的控制值a_t,v 、或是關於機器人的加速度的控制值a_t,a 。控制值產生部14將機器人的控制值a_t 輸出至控制值補正部15。

控制值補正部15舉例來說，以第9圖所示的控制值補正電路34實現。控制值補正部15，以控制值產生部14產生的機器人的控制值a_t 之中，若關於機器人的速度的控制值a_t,v 比速度臨界值Th_v 還大，則將關於機器人的速度的控制值a_t,v 變更為速度臨界值Th_v 以下。控制值補正部15，以控制值產生部14產生的機器人的控制值a_t 之中，若關於機器人的加速度的控制值a_t,a 比加速度臨界值Th_a 還大，則將關於機器人的加速度的控制值a_t,a 變更為加速度臨界值Th_a 以下。各個速度臨界值Th_v 以及加速度臨界值Th_a 可以儲存於控制值補正部15的內部記憶體，也可以從機器人控制裝置11的外部取得。

第8圖中，設想各個資料取得部12、移動路徑取得部13、控制值產生部14、以及控制值補正部15，也就是機器人控制裝置11的構成元件，以第9圖所示那樣的專用的硬體實現。意即，設想機器人控制裝置11以資料取得電路31、移動路徑取得電路32、控制值產生電路33、以及控制值補正電路34實現。各個資料取得電路31、移動路徑取得電路32、控制值產生電路33、以及控制值補正電路34舉例來說，相當於單一電路、複合電路、程式化處理器、平行程式化處理器、ASIC、FPGA、或該等的組合。

機器人控制裝置11的構成元件，並不限於以專用的硬體實現；機器人控制裝置11也可以由軟體、韌體、或軟體與韌體的組合實現。第10圖為機器人控制裝置11以軟體或韌體等實現時的電腦的硬體構成圖。機器人控制裝置11以軟體或韌體等實現時，在記憶體45當中，儲存有用來讓電腦執行資料取得部12、移動路徑取得部13、控制值產生部14、以及控制值補正部15的各個處理流程之程式。然後，電腦的處理器46執行儲存於記憶體45的程式。

另外，第9圖中，示意了機器人控制裝置11的各個構成元件以專用的硬體實現之例；第10圖中，示意了機器人控制裝置11以軟體或韌體等實現之例。然而，這僅為一個範例，也可以讓機器人控制裝置11的一部份的構成元件以專用的硬體實現，其餘的構成元件以軟體或韌體等實現。

接著，針對第1圖所示的學習模型產生裝置1的動作進行說明。第11圖為一流程圖，表示第1圖所示的學習模型產生裝置1的處理流程。第12A、12B、12C、12D圖為說明圖，表示存在有障礙物的區域。存在於第12A、12B、12C圖各個所表示的區域的障礙物的形狀，彼此都不相同。另外，存在於各個所表示的區域的障礙物的大小，彼此都不相同。另外，存在於各個所表示的區域的障礙物的位置，彼此都不相同。第12C圖所示的區域、以及第12D圖所示的區域雖然是同一個區域，但是機器人的移動開始點與移動結束點並不相同。第12A、12B、12C、12D圖中，Start為機器人的移動開始點，Goal為機器人的移動結束點。虛線是學習用的路徑，可以讓機器人在不碰撞障礙物的情況下移動。

教師資料產生部2產生教師資料yi，該教師資料表示機器人可以在I(I為2以上的整數)個區域的各個區域當中移動的路徑，而不會讓機器人與存在於各個區域的障礙物碰撞(第11圖的步驟ST1)。即使存在有障礙物的複數個區域是相同的區域，舉例來說，如第12C以及第12D圖所示，若機器人的移動開始點Start與移動結束點Goal並不相同，則教師資料產生部2會將它視為不相同的區域，針對各自的區域產生教師資料yi。教師資料產生部2可以藉由使用表示存在於I個區域的各個區域當中的障礙物的位置之觀測資料d_ob,i (i = 1, …,I)，以及表示機器人在各個區域移動時的機器人的移動狀態之狀態資料d_s,i,t ，實施路徑產生演算法，而表示學習用的路徑之教師資料。以路徑產生演算法來說，可以使用RRT^* (Rapidly exploring Random Tree star，快速搜尋隨機樹)、A^* (A-star)、或是Dijkstra法(戴克斯特拉演算法)等。

此處，教師資料產生部2透過實施路徑產生演算法，產生表示學習用的路徑之教師資料y_i 。然而，這僅為一個範例，舉例來說，也可以像以下那樣，由教師資料產生部2產生教師資料y_i 。教師資料產生部2在各個區域內，取得表示障礙物佔有的區域之資訊。然後，教師資料產生部2透過電腦模擬，從該資訊當中算出機器人可以在各個區域移動，而不會與障礙物碰撞的路徑，當作是教師資料y_i 。

障礙物的位置的觀測，是以深度感測器等的距離影像感測器、LiDAR(Light Detection And Ranging，光達)、或毫米波雷射等執行。表示機器人的移動狀態之狀態資料的測定，是以機器人實裝的感測器等執行。路徑產生演算法的實施，由於需要許多時間，因此實時控制機器人的移動之際，實施路徑產生演算法較為困難。因此，教師資料產生部2透過第8圖所示的機器人控制裝置11，在機器人的移動以實時控制之際，產生學習用的路徑，將表示學習用的路徑之教師資料y_i 輸出至學習模型產生部3。

學習模型產生部3從距離影像感測器等當中，取得表示存在於I個區域的各個區域當中的障礙物的位置之觀測資料d_ob,i (i = 1, …, I)。另外，學習模型產生部3從機器人實裝的感測器等當中，取得在各個區域內的機器人的移動狀態之中，表示在機器人開始移動的移動開始點Start的機器人的移動狀態之狀態資料d_s,i,0 。另外，學習模型產生部3從教師資料產生部2當中，取得針對各個區域的教師資料y_i 。學習模型產生部3使用取得的觀測資料d_ob,i ，取得的狀態資料d_s,i,0 ，以及取得的教師資料yi，產生學習機器人的移動路徑的第1學習模型4(第11圖的步驟ST2)。若第1學習模型4接收到表示存在於機器人移動的區域當中的障礙物的位置之觀測資料d_ob ，以及在機器人移動的區域內的移動狀態之中，表示在機器人開始移動的移動開始點的機器人的移動狀態之狀態資料d_s,0 ，則輸出表示機器人的移動路徑之路徑資料。以學習模型產生部3產生的第1學習模型4，是以第8圖所示的機器人控制裝置11的移動路徑取得部13實裝。

以下，具體說明以學習模型產生部3產生的第1學習模型4的產生例。以學習模型產生部3產生的第1學習模型4，為類神經網路等的函數近似器f _θ (d_i )。若學習模型產生部3接收到表示學習用的路徑之教師資料y_i ，以及輸入資料d_i ，則透過解出算式(1)所示的回歸問題，利用函數近似器f _θ (d_i )取得的參數θ 之中，算出最佳參數θ *。算式(1)所示的回歸問題舉例來說，可以藉由使用梯度下降法來解出。輸入資料d_i 包含：在I個區域之中，表示存在於第i個區域的障礙物的位置之觀測資料d_ob,i ，以及機器人在第i個區域內的機器人的移動狀態之中，表示在機器人開始移動的移動開始點Start的機器人的移動狀態之狀態資料d_s,i,0 。

學習模型產生部3算出最佳參數θ *後，將具有最佳參數θ *的學習模型視為第1學習模型4，給予第8圖所示的移動路徑取得部13。

接著，針對第4圖所示的學習模型產生裝置5的動作進行說明。第13圖為一流程圖，表示第4圖所示的學習模型產生裝置5的處理流程。教師資料產生部6與第1圖所示的教師資料產生部2同樣產生教師資料y_i ，該教師資料y_i 表示機器人可以在不碰撞存在於I個區域的各個當中的障礙物之情況下，在各個區域移動的路徑(第13圖的步驟ST11)。教師資料產生部6以第8圖所示的機器人控制裝置11，在機器人的移動以實時控制之前產生學習用的路徑，將表示學習用的路徑之教師資料y_i 輸出至學習模型產生部7。

學習模型產生部7的報酬值算出部8，取得表示存在於I個區域的各個區域當中的障礙物的位置之觀測資料d_ob,i ，表示機器人在各個區域移動時的移動狀態之狀態資料d_s,i,t ，以及以教師資料產生部6產生的教師資料y_i 。報酬值算出部8使用包含報酬項，也就是取得的觀測資料d_ob,i ，取得的狀態資料d_s,i,t ，以及取得的教師資料y_i 在內的算式(2)的報酬函數，分別算出在控制機器人的移動的複數個控制處理時間t的報酬值R_t (第13圖的步驟ST12)。

算式(2)當中，分別w₁ 、w₂ 、w₃ 、w₄ 為權重。右邊第1項的Ⅱ_collision ，是在控制處理時間t時，表示機器人是否與障礙物碰撞的判定結果，也是從各個觀測資料d_ob,i 以及狀態資料d_s,i,t 當中取得的報酬項。右邊第2項的

，是在控制處理時間t時，機器人的加速度，也是從狀態資料d_s,i,t 當中取得的報酬項。右邊第2項是當作加速度的大小相對應的罰則而發揮作用，使機器人平滑地動作。右邊第3項的d_reference 以及右邊第4項的n_index ，分別是從教師資料y_i 以及狀態資料d_s,i,t 當中取得的報酬項。d_reference 是從教師資料y_i 表示的路徑到機器人之間的距離，若w₃ ＜0，則從教師資料y_i 表示的路徑到機器人之間的距離越近，算出的報酬值R_t 就越高。 n_index 表示機器人是否正朝著移動結束點Goal前進，若機器人正朝著移動結束點Goal前進，算出的報酬值R_t 就越高。以模型產生處理部9產生的第2學習模型10，也就是函數近似器，其取得的參數ø，會隨著算式(2)的右邊第1項到第4項而變化。

算式(2)示意了報酬函數，該報酬函數包含了將右邊第1項的Ⅱ_collision 作為報酬項。由於右邊第1項的Ⅱ_collision ，是分別從觀測資料d_ob,i 以及狀態資料d_s,i,t 當中取得，因此報酬值算出部8已經取得觀測資料d_ob,i 。報酬值算出部8也可以使用不包含右邊第1項的Ⅱ_collision 的報酬函數，算出在控制處理時間t的報酬值R_t 。使用不包含右邊第1項的Ⅱ_collision 的報酬函數時，報酬值算出部8並不需要取得觀測資料d_ob,i 。報酬值算出部8將各個控制處理時間t的報酬值R_t ，輸出至模型產生處理部9。

模型產生處理部9從報酬值算出部8收到在各個控制處理時間t的報酬值R_t 後，如以下的算式(3)所示，算出在各個控制處理時間t的報酬值R_t 的累積和的期望值J(第13圖的步驟ST13)。

算式(3)當中，a_t 是在控制處理時間t的機器人的控制值。 γ是模型產生處理部9產生第2學習模型10之際執行的強化學習的折扣率。由於γ的值一般來說是0＜γ＜1，因此在不久將來的報酬值R_t 會以指數的方式變小；另一方面，機器人的控制值a_t 可以經過學習，而使得不久將來的報酬值R_t 最大化。 T是控制處理時間t的最大步驟數，s_t 是現在的狀態。 p(s_t+1 |s_t ,a_t )是轉移至下一個狀態的機率。 E_{π(at|st),p(st+1|st,at)} [x]是x的期望值。

學習產生處理部9使用報酬值R_t 的累積和的期望值J，產生學習機器人的控制值a_t 的第2學習模型10(第13圖的步驟ST14)。意即，模型產生處理部9如以下的算式(4)所示，藉由學習在控制處理時間t的機器人的控制值a_t ，來產生第2學習模型10，使得累積和的期望值J變得最大。

為了使累積和的期望值J變得最大，在控制處理時間t的機器人的控制值a_t 經過學習後，第2學習模型10具有的參數ϕ，將變為最佳參數ϕ*。模型產生處理部9將具有最佳參數ϕ*的第2學習模型10，給予第8圖所示的控制值產生部14。

接著，針對第8圖所示的機器人控制裝置11的動作進行說明。第14圖為一流程圖，表示第8圖所示的機器人控制裝置11的處理流程。首先，資料取得部12從距離影像感測器等當中，取得表示存在於機器人移動的區域當中的障礙物的位置之觀測資料d_ob (第14圖的步驟ST21)。資料取得部12從機器人實裝的感測器等當中，取得在機器人移動的區域內的機器人的移動狀態之中，表示機器人開始移動的移動開始點的機器人的移動狀態之狀態資料d_s,0 (第14圖的步驟ST21)。另外，資料取得部12從機器人實裝的感測器當中，取得表示機器人在該區域內移動時的機器人的移動狀態之狀態資料d_s,t (第14圖的步驟ST21)。資料取得部12將各個觀測資料d_ob 以及狀態資料d_s,0 ，輸出至移動路徑取得部13。資料取得部12將狀態資料d_s,t 輸出至控制值產生部14。學習模型產生部7的報酬值算出部8算出報酬值R_t 之際，若使用觀測資料d_ob,i ，則資料取得部12也會將觀測資料d_ob 輸出至控制值產生部14。

移動路徑取得部13包含以學習模型產生裝置1的學習模型產生部3產生的第1學習模型4。移動路徑取得部13透過將資料取得部12輸出的各個觀測資料d_ob 以及狀態資料d_s,0 給予第1學習模型4，從第1學習模型4當中取得表示機器人的移動路徑之路徑資料(第14圖的步驟ST22)。第15圖為一說明書，表示機器人的移動路徑。第15圖中，點狀線的各個「‧」表示機器人的移動路徑上的各個位置k_t 。路徑資料為表示機器人的移動路徑上的各個位置k_t 的座標資料的集合。移動路徑取得部13將路徑資料輸出至控制值產生部14。

控制值產生部14包含以學習模型產生裝置5的學習模型產生部7產生的第2學習模型10。控制值產生部14把從資料取得部12當中取得的狀態資料d_s,t ，以及從移動路徑取得部13當中取得的路徑資料，給予第2學習模型10，藉以從第2學習模型10當中，取得各個控制處理時間t的機器人的控制值a_t (第14圖的步驟ST23)。學習模型產生部7的報酬值算出部8算出報酬值R_t 之際，若使用觀測資料d_ob,i ，則報酬值產生部14也會將觀測資料d_ob 給予第2學習模型10。機器人的控制值a_t 舉例來說，包含了：關於機器人的移動方向的控制值a_t,d ，關於機器人的速度的控制值a_t,v ，或是關於機器人的加速度的控制值a_t,a 。控制值產生部14將在各個控制處理時間t的機器人的控制值a_t ，輸出至控制值補正部15。

控制值補正部15從控制值產生部14當中，收到各個控制處理時間t的機器人的控制值a_t 後，則進行控制值a_t 的補正處理(第14圖的步驟ST24)。意即，控制值補正部15在機器人的控制值a_t 之中，若關於機器人的速度的控制值a_t,v 比速度臨界值Th_v 還大，則將關於機器人的速度的控制值a_t,v 變更為速度臨界值Th_v 以下。另外，控制值補正部15在機器人的控制值a_t 之中，若關於機器人的加速度的控制值a_t,a 比加速度臨界值Th_a 還大，則將關於機器人的加速度的控制值a_t,a 變更為加速度臨界值Th_a 以下。控制值補正部15依照補正處理後的機器人的控制值a_t ’，控制機器人的移動(第14圖的步驟ST24)。藉由控制值補正部15分別變更關於機器人的速度的控制值a_t,v 以及關於機器人的加速度的控制值a_t,a ，舉例來說，可以在移動路徑轉彎時，防止機器人的速度等因為太快而脫離路徑。

以上的實施形態1當中，構成一種機器人控制裝置11，使其包含：移動路徑取得部13，將表示存在於機器人移動的區域當中的障礙物的位置之觀測資料，以及在機器人移動的區域內的機器人的移動狀態之中，表示在機器人開始移動的移動開始點的機器人的移動狀態之狀態資料，給予第1學習模型4，從第1學習模型4當中取得機器人的移動路徑；以及控制值產生部14，沿著以移動路徑取得部13取得的移動路徑，產生用來使機器人移動的機器人的控制值。因此，機器人控制裝置11能夠讓機器人在障礙物存在的已知區域、以及障礙物的位置等不同的區域內移動，而不會與障礙物碰撞。

實施形態2. 實施形態2當中，針對機器人控制裝置11進行說明，其控制值產生部14並不使用第2學習模型來產生機器人的控制值a_t 。關於實施形態2的機器人控制裝置11的構成，與關於實施形態1的機器人控制裝置11的構成相同，表示關於實施形態2的機器人控制裝置11的構成圖為第8圖。但是，控制值產生部14並沒有實裝第2學習模型10。

控制值產生部14取得從資料取得部12輸出的狀態資料d_s,t ，以及從移動路徑取得部13輸出的路徑資料。控制值產生部14從狀態資料d_s,t 所示的在控制處理時間t的機器人的位置p_t 當中，算出朝向路徑資料所示的在控制處理時間t+1的機器人的位置k_t+1 的方向，當作是機器人的移動方向。控制值產生部14將算出的表示機器人的移動方向的控制值，當作是關於機器人的移動方向的控制值a_t,d ，並輸出至控制值補正部15。另外，控制值產生部14舉例來說，將表示一定的速度的控制值，當作是關於機器人的速度的控制值a_t,v ，並輸出至控制值補正部15。表示一定的速度的控制值舉例來說，可以儲存於控制值產生部14的內部記憶體，也可以從機器人控制裝置11的外部取得。另外，控制值產生部14在機器人的移動開始點以及移動結束點以外，舉例來說，將表示加速度為0的控制值，當作是關於機器人的加速度的控制值a_t,a ，並輸出至控制值補正部15。

關於實施形態2的機器人控制裝置11，也與關於實施形態1的機器人控制裝置11相同，能夠讓機器人在障礙物存在的已知區域、以及障礙物的位置等不同的區域內移動，而不會與障礙物碰撞。

關於實施形態1、2的機器人，可以應用在自律行走型機器人。然而，這僅為一個範例，關於實施形態1、2的機器人舉例來說，也可以應用在機械手臂。

另外，本揭露可以進行各實施形態的自由組合，或是各實施形態的任意構成元件的變形，或是各實施形態中任意構成元件的省略。 [產業可利用性]

本揭露適用於產生機器人的控制值的機器人控制裝置以及機器人控制方法。本揭露適用於產生學習模型的學習模型產生裝置。

1:學習模型產生裝置 2:教師資料產生部 3,3’:學習模型產生部 4:第1學習模型 5:學習模型產生裝置 6:教師資料產生部 7:學習模型產生部 8:報酬值算出部 9:模型產生處理部 10:第2學習模型 11:機器人控制裝置 12:資料取得部 13:移動路徑取得部 14:控制值產生部 15:控制值補正部 21:教師資料產生電路 22:學習模型產生電路 23:教師資料產生電路 24:報酬值算出電路 25:模型產生處理電路 31:資料取得電路 32:移動路徑取得電路 33:控制值產生電路 34:控制值補正電路 41:記憶體 42:處理器 43:記憶體 44:處理器 45:記憶體 46:處理器 ST1~ST2:步驟 ST11~ST14:步驟 ST21~ST24:步驟

第1圖為一構成圖，表示關於實施形態1的學習模型產生裝置1。第2圖為一硬體構成圖，表示關於實施形態1的學習模型產生裝置1的硬體。第3圖為學習模型產生裝置1以軟體或韌體等實現時的電腦的硬體構成圖。第4圖為一構成圖，表示關於實施形態1的學習模型產生裝置5。第5圖為一硬體構成圖，表示關於實施形態1的學習模型產生裝置5的硬體。第6圖為學習模型產生裝置5以軟體或韌體等實現時的電腦的硬體構成圖。第7圖為一構成圖，表示關於實施形態1的其他的學習模型產生裝置1。第8圖為一構成圖，表示關於實施形態1的機器人控制裝置11。第9圖為一硬體構成圖，表示關於實施形態1的機器人控制裝置11的硬體。第10圖為機器人控制裝置11以軟體或韌體等實現時的電腦的硬體構成圖。第11圖為一流程圖，表示第1圖所示的學習模型產生裝置1的處理流程。第12A、12B、12C、12D圖為說明圖，表示存在有障礙物的區域。第13圖為一流程圖，表示第4圖所示的學習模型產生裝置5的處理流程。第14圖為一流程圖，表示第8圖所示的機器人控制裝置11的處理流程。第15圖為一說明圖，表示機器人的移動路徑。

4:第1學習模型

10:第2學習模型

11:機器人控制裝置

12:資料取得部

13:移動路徑取得部

14:控制值產生部

15:控制值補正部

Claims

一種機器人控制裝置，包含：移動路徑取得部，將表示存在於機器人移動的區域當中的障礙物的位置之觀測資料，以及在該機器人移動的區域內的該機器人的移動狀態之中，表示在該機器人開始移動的移動開始點的該機器人的移動狀態之狀態資料，給予第1學習模型，從該第1學習模型當中取得該機器人的移動路徑；以及控制值產生部，沿著以該移動路徑取得部取得的移動路徑，產生用來使該機器人移動的該機器人的控制值。
如請求項1之機器人控制裝置，其中，該控制值產生部，將表示該機器人在該區域內移動時的機器人的移動狀態之狀態資料，以及以該移動路徑取得部取得的移動路徑，給予第2學習模型，從該第2學習模型當中取得該機器人的控制值。
如請求項1之機器人控制裝置，包含：控制值補正部，以該控制值產生部產生的機器人的控制值之中，若關於該機器人的速度的控制值比速度臨界值還大，則將關於該機器人的速度的控制值變更為該速度臨界值以下；若關於該機器人的加速度的控制值比加速度臨界值還大，則將關於該機器人的加速度的控制值變更為該加速度臨界值以下。
一種機器人控制方法，包含：由移動路徑取得部，將表示存在於機器人移動的區域當中的障礙物的位置之觀測資料，以及在該機器人移動的區域內的該機器人的移動狀態之中，表示在該機器人開始移動的移動開始點的該機器人的移動狀態之狀態資料，給予第1學習模型，從該第1學習模型當中取得該機器人的移動路徑；以及由控制值產生部，沿著以該移動路徑取得部取得的移動路徑，產生用來使該機器人移動的該機器人的控制值。
一種學習模型產生裝置，包含：教師資料產生部，產生教師資料，該教師資料表示機器人可以在各個區域移動的路徑，而不會讓該機器人與存在於複數個區域的各個區域的障礙物碰撞；以及學習模型產生部，使用表示存在於各個該複數個區域的當中的障礙物的位置之觀測資料，在各個區域內的該機器人的移動狀態之中，表示在該機器人開始移動的移動開始點的該機器人的移動狀態之狀態資料，以及以該教師資料產生部產生之教師資料，學習該機器人的移動路徑，若接收到表示存在於該機器人移動的區域當中的障礙物的位置之觀測資料，以及在該機器人移動的區域內的該機器人的移動狀態之中，表示在該機器人開始移動的移動開始點的該機器人的移動狀態之狀態資料，則產生輸出該機器人的移動路徑的第1學習模型。
如請求項5之學習模型產生裝置，其中，該學習模型產生部，使用表示該機器人在各個區域內移動時的該機器人的移動狀態之狀態資料，以該教師資料產生部產生之教師資料，或是從該第1學習模型輸出的機器人的移動路徑，學習該機器人的控制值，若接收到表示該機器人在某個區域內移動時的該機器人的移動狀態之狀態資料，以及從該第1學習模型輸出的機器人的移動路徑，則產生輸出該機器人的控制值的第2學習模型。
如請求項5之學習模型產生裝置，其中，該學習模型產生部，並不產生該第1學習模型，而是使用表示該機器人在各個區域內移動時的該機器人的移動狀態之狀態資料，以及以該教師資料產生部產生之教師資料，學習該機器人的控制值，若接收到表示該機器人在某個區域內移動時的該機器人的移動狀態之狀態資料，以及該機器人的移動路徑，則產生輸出該機器人的控制值的第2學習模型。