TWI802820B

TWI802820B - 機器人控制裝置、方法和儲存媒體

Info

Publication number: TWI802820B
Application number: TW109135505A
Authority: TW
Inventors: 和田悠基; 鳥井原茂
Original assignee: 日商佳能股份有限公司
Priority date: 2019-10-21
Filing date: 2020-10-14
Publication date: 2023-05-21
Also published as: EP3812107A1; TW202118608A; JP2021065955A; US20210114209A1; CN112757284B; KR20210047258A; JP7458741B2; CN112757284A

Abstract

本發明提供一種機器人控制裝置，用於控制被配置為進行預定操作的機器人，其中機器人控制裝置包括：獲取單元，其被配置為獲取由包括第一攝影裝置和與所述第一攝影裝置不同的第二攝影裝置的多個攝影裝置拍攝的多個影像；以及指定單元，其被配置為使用由所述獲取單元獲取到的多個拍攝影像作為神經網路的輸入，並且被配置為基於來自神經網路的作為結果的輸出來指定針對所述機器人的控制命令。

Description

機器人控制裝置、方法和儲存媒體

本發明關於關於機器人控制裝置、及控制其之方法和程式。

在工廠自動化(FA)領域中，已經引起了人們對使用機器人臂的工廠中的操作自動化的關注。使用機器人臂的任務的示例是拾取-放置操作。為了實現拾取-放置操作，需要創建被稱為教導的用於控制機器人臂的程式。教導主要是以下處理：用2D或3D照相機拍攝工件，透過電腦視覺(Computer Vision)估計位置和形狀，並將機器人臂控制成處於特定的位置和定向(例如，專利文獻1：日本特開2017-124450)。其中，估計位置和形狀特別需要試驗和錯誤，因此需要工時。然而，在工廠的實際現場中，存在具有各種形狀的工件，因此需要針對各工件進行教導，並且諸如散裝等的複雜任務使得教導更加困難。近年來，由於 AI繁榮的到來，存在將AI用於機器人臂控制的技術。一個示例是非專利文獻1，“Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning(Google)”。

然而，在專利文獻1中，透過匹配3D模型來進行位置和定向估計，但是需要使用相對昂貴的3D照相機以高精度地獲取工件的位置和定向資訊。

根據本發明的第一態樣，提供一種機器人控制裝置，用於控制被配置為進行預定操作的機器人，所述機器人控制裝置包括：獲取單元，其被配置為獲取由多個攝影裝置拍攝的多個影像，所述多個攝影裝置包括第一攝影裝置和與所述第一攝影裝置不同的第二攝影裝置；以及指定單元，其被配置為使用由所述獲取單元獲取到的多個拍攝影像作為神經網路的輸入，並且被配置為基於來自神經網路的作為結果的輸出來指定針對所述機器人的控制命令。

根據本發明，透過提供可以從2D視訊影像的輸入進行機器人控制的神經網路，可以由機器人以直觀且簡單的配置進行預定的操作。

透過以下(參考附圖)對示例性實施例的描述，本發明的其它特徵將變得明顯。

10:控制裝置

20:控制單元

30:儲存裝置

31:模擬器

32:機器人臂

33:第一攝影裝置

34:第二攝影裝置

35:工件

40:神經網路

50:機器人臂

60:第一攝影裝置

70:第二攝影裝置

100:機器人臂

101:把持件

110:第一攝影裝置

120:第二攝影裝置

130:工件

200:影像

210:影像

300:環境

310:代理

320:狀態

330:獎勵

340:神經網路

350:策略

400:表

401:卷積(Conv)層

402:卷積(Conv)層

403:全連接(FC)層

404:長短期記憶(LSTM)

405:全連接(FC)層

406:全連接(FC)

407:獎勵預測、全連接層

408:像素控制

410:輸入影像資料、輸入影像

420:重放緩衝器

501:卷積層

502:卷積層

503:卷積層

504:卷積層

505:全連接層

506:全連接層

507:像素控制

510:輸入影像

520:輸入影像

600:輸入影像

610:卷積層

640:梯度

630:特徵量圖

650:啟動函數

660:熱圖

700:輸入影像

710:熱圖

S10:步驟

S11:步驟

S12:步驟

S13:步驟

S14:步驟

S15:步驟

S23:步驟

S24:步驟

S16:步驟

S17:步驟

S19:步驟

S20:步驟

S21:步驟

S22:步驟

S100:步驟

S101:步驟

S102:步驟

S103:步驟

S104:步驟

[圖1]是根據實施例的被配置為進行神經網路的學習的控制裝置的方塊圖。

[圖2]是實際機器人、攝影裝置以及被配置為對其進行控制的控制裝置的方塊圖。

[圖3]是示出模擬器上的機器人或實際機器人的結構的示意圖。

[圖4A]和[圖4B]是示出由攝影裝置拍攝的影像的示例的圖。

[圖5]是示出根據實施例的機器人要進行的強化學習的處理的示意圖。

[圖6A]和[圖6B]是示出根據實施例的構建學習模型中的操作的流程圖。

[圖7]是根據實施例的神經網路的模型的示意圖。

[圖8]是根據實施例的神經網路的模型的示意圖。

[圖9]是根據實施例的基於學習的模型的機器人控制的流程圖。

[圖10]是示出根據實施例的創建熱圖的方法的示意圖。

[圖11]是示出根據實施例的各步驟的熱圖的示例的圖。

在下文中，將透過參考附圖詳細描述實施例。注意，根據請求項以下實施例不限制本發明。儘管在實施例中描述了多個特徵，但是多個特徵中的一些對於本發明可能不是必不可少的，並且可以任意地組合多個特徵。此外，在附圖中，相同或相似的組件由相同的參考符號表示，並且將省略冗餘描述。

另外，實施例中引用的非專利文獻2至5如下。

非專利文獻2：Asynchronous Methods for Deep Reinforcement Learning (DeepMind)

非專利文獻3：Reinforcement learning with unsupervised auxiliary tasks (DeepMind)

非專利文獻4：Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization (Virginia Tech, Georgia Institute of Technology)

非專利文獻5：Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World (OpenAI)

以下要描述的兩個實施例在機器學習的基本結構和執行方面是共同的，但是在學習的環境方面彼此不同。因此，將首先描述這兩個實施例的概要。

在第一實施例中，將描述機器人控制系統，該機器人控制系統透過在電腦上的模擬器上進行神經網路的學習並將學習的模型應用於實際機器人來進行機器人控制。由於模擬器可以比實際機器人更快地操作，因此學習可以快速地收斂。

在第二實施例中，將描述在實際機器人上進行神經網路的學習的機器人控制系統。雖然在第一實施例中使用模擬器具有可以加速學習的優點，但是在將由模擬器學習獲得的學習模型應用於實際機器人時，需要填補模擬器與實際機器人之間的差異的設計。可以在實際機器人上進行學習以消除學習與進行推斷之間的環境的差異。

以上已經描述了這兩個實施例的概要。現在將詳細描述各實施例。注意，將省略對各實施例共同的部分的冗餘描述。

第一實施例

在第一實施例中，將描述在機器人臂從初始狀態移動並把持工件之前在拾取操作中構建並使用學習模型的處理。把持之後的操作不受特別限制，但是其示例包括移動到其它位置、對準和檢查。把持之後的操作可在使用將在下文中描述的神經網路的結構中實現，或者可透過運動規劃來進行移動和對準。

圖1是進行神經網路的學習的控制裝置的方塊圖。控制裝置10的示例包括PC或伺服器。參考符號30表示儲存裝置，該儲存裝置為諸如儲存諸如應用軟體或操作系統(OS)的各種控制程式的硬碟驅動器(HDD)的輔助儲存裝置、諸如用於儲存為了執行程式而臨時需要的資料的隨機存取記憶體(RAM)的主儲存裝置等等。控制單元20包括諸如中央處理單元(CPU)的運算處理單元。另外，由於與學習相關聯的計算量大，因此，例如，可以安裝圖形處理單元(GPU)。模擬器31是物理模擬器，可以在電腦上再現物理現象，並且作為應用軟體被安裝在儲存裝置30中。模擬精度越高，需要的計算量越多，這影響速度。也就是說，透過將模擬精度降低到一定程度，可以高速移動模擬器上的機器人。模擬器31的視訊影像可在顯示器上繪製(render)和顯示，或者可僅在記憶體上部署。例如，還可以在雲端伺服器上產生多個虛擬機以在不繪製模擬器的視訊影像的情況下進行學習。神經網路40儲存在儲存裝置30中，並且在學習的模型的情況下被儲存為文件。神經網路40被部署在CPU或GPU的記憶體上並且在進行推斷或學習時使用。虛擬的機器人臂32、第一攝影裝置33、第二攝影裝置34和工件35存在於模擬器31上。

圖2是物理機器人和攝影裝置以及用於控制它們的控制裝置的方塊圖。控制裝置10、控制單元20、儲存裝置30和神經網路40具有與圖1中的控制裝置10、控制單元20、儲存裝置30和神經網路40相同的結構。圖2示出控制裝置10經由諸如通用串行匯流排(USB)或局域網(LAN)等的介面連接至物理的機器人臂50、第一攝影裝置60和第二攝影裝置70的狀態。

圖3是示出模擬器上的機器人或物理機器人的結構的示意圖。當圖3被視為模擬器上的機器人的結構圖時，應當理解，所示出的機器人臂100、第一攝影裝置110、以及第二攝影裝置120對應於圖1中的機器人臂32、第一攝影裝置33和第二攝影裝置34。

此外，當圖3被視為物理機器人的結構圖時，應當理解，機器人臂100、第一攝影裝置110、以及第二攝影裝置120對應於圖2中的機器人臂50、第一攝影裝置60、以及第二攝影裝置70。

此外，實際機器人100是透過鉸接結構和伺服馬達操作的機器人，並且包括臂。用於把持對象物的把持件101附接到機器人臂。注意，機器人臂100和把持件101的具體結構是本領域技術人員公知的，因此將省略其詳細描述。

此外，第一攝影裝置110和第二攝影裝置120是可獲取由各個二維RGB分量構成的彩色影像的照相機，但是也可包括除RGB等之外的距離資訊。工件130是機器人臂100把持的對象物，並且可以獲取模擬器上的位置坐標，以及可以任意地指定佈置位置。

圖4A和圖4B是由第一攝影裝置110和第二攝影裝置120拍攝的影像的示例。圖4A中的影像200是由第一攝影裝置110拍攝的影像的示例。為了獲取該影像200，第一攝影裝置110安裝在獨立於機器人臂100的可移動部的移動的位置處，使得整個工件130和機器人臂100的一部分或整個機器人臂100進入視角，並且不受機器人臂100的移動的影響。為了觀察把持件101的一部分把持工件130的狀態，始終使用圖4B的影像210。因此，第二攝影裝置120安裝在機器人臂100的預定位置(或預定部位)處。這裡，當第二攝影裝置120安裝在機器人臂100的可移動部上時，第二攝影裝置120也響應於機器人臂100的移動而移動。注意，上面已描述的機器人臂100、第一攝影裝置110、第二攝影裝置 120和工件130可以在模擬器上以與真實物體的結構接近的結構再現。注意，透過使用作為機器人中間件的開源的機器人操作系統(ROS，http：//wiki.ros.org/)、以及作為物理模擬器的開源的Gazebo(http：//gazebosim.org/)等，可以利用基本上相同的控制程式來操作模擬器上的機器人和真實機器人。

圖5是示出在本實施例中作為機器人進行學習時的算法的強化學習的處理的示意圖。強化學習是處理代理310觀察環境300中的當前狀態320並確定要採取什麼動作的問題的機器學習的類型。代理310選擇該動作來從環境中獲得獎勵330。在強化學習中，透過一系列動作來學習用於獲得最大獎勵的策略350。在本實施例中，神經網路340用於進行強化學習，其還被稱為深度強化學習。這裡，環境300是安裝機器人臂的實際工廠或模擬器。代理310是模擬器上的機器人臂或物理機器人臂。狀態320是由第一攝影裝置110和第二攝影裝置120拍攝的影像。例如，狀態320是圖4A和圖4B中所示的影像200和影像210。當滿足條件時發生獎勵330。

表400表示上述獎勵的發生條件與要獲得的獎勵之間的關係。注意，即使在實際機器人的情況下，也能夠透過正向運動學確定把持件101的坐標位置。作業坐標在模擬器上是可獲得的。影像200和210根據需要被調整大小和預處理，並且被輸入到神經網路340。作為策略350，例如，在具有把持件的六軸機器人的情況下，限定了14次離散動作，在所述離散動作中，各軸在正方向或負方向上旋轉一度，並且把持件被打開或關閉。作為神經網路340的輸出的策略350是從14個動作的選項中選擇哪個動作的可能性。基於該可能性，代理確定動作。

圖6A和6B是示出構建學習模型中的操作的流程圖。

在S10中，控制單元20將時刻T初始化為“0”。隨後，在S11中，控制單元20初始化狀態並開始情節(episode)。情節是從強化學習中的任務的開始到結束的一系列處理的單位。在本實施例中，機器人和工件的位置在情節的開始處於初始狀態，並且情節在滿足情節結束條件時結束。情節結束條件是諸如當代理使任務成功時或當發生錯誤時等。錯誤例如是機器人臂與自身或地板碰撞的情況等。狀態的具體初始化是將機器人臂100移動到預定位置，將工件130放置在預定位置中，並將所獲得的獎勵的累積總數設置為“0”。在這種情況下，機器人臂100可以返回到固定位置，但是當工件130隨機地配置在臂到達的範圍內時，神經網路可以進行學習以能夠考慮工件在輸入影像中的位置並選擇動作。在S12中，控制單元20將步驟數t初始化為 “0”。

在S13中，控制單元20使第一攝影裝置110和第二攝影裝置120拍攝影像，並接收所拍攝的影像。在S14中，控制單元20將所拍攝的影像輸入到神經網路340。在輸入中，控制單元20將所拍攝到的各影像調整大小為具有例如84×84等的像素大小的縮小影像。在S15中，控制單元20根據由神經網路340輸出的控制命令操作機器人臂100。作為神經網路的輸出的機器人的控制命令是softmax函數的輸出，並且由哪個軸要被移動的可能性來表示。根據該可能性操作機器人。注意，神經網路的輸出不需要是控制命令本身，或者可以基於神經網路的輸出來判斷要使用哪個控制命令。例如，這透過保持神經網路的輸出與控制命令彼此相關聯的表等而成為可能。以這種方式，只要控制單元20能夠基於神經網路的輸出來識別控制命令，則可以採用各種形式。

在S16中，控制單元20判斷是否滿足獎勵提供條件(見表400)。當判斷為滿足條件時，控制單元20使處理進入S17。在S17中，控制單元20提供獎勵(更新獎勵)。作為獎勵，根據表400提供得分。例如，在實現表400中的編號1至5的相應項的情況下，可以最終獲得“+5”的總獎勵。在S18中，控制單元20使時刻T和步驟數t各自遞增。

在S19中，控制單元20判斷時刻T是否變為等於或大於預定閾值Th_a。當時刻T等於或大於閾值Th_a時，控制單元20儲存作為學習的模型的神經網路的權重。這裡，作為 S19中的閾值Th_a，指定諸如10的8次冪的大值。這裡，這是因為由於學習何時收斂是不可預測的，因此將大值指定為閾值以使得學習循環重複。然而，也可以判斷為學習已經收斂並結束學習。

另一方面，在S19的判斷結果指示時刻T小於閾值Th_a的情況下，控制單元20使處理進入S21。在S21中，控制單元20判斷步驟數t是否等於或大於閾值Th_b。當步驟數t等於或大於閾值Th_b時，控制單元20使處理進入S22。在該S22中，控制單元20批量地進行多個步驟的學習。步驟數t的閾值Th_b是進行批量學習的單位，並且例如被指定為“20”。此後，控制單元20使處理返回到S12。

另外，在S21的判定結果指示步驟數t小於閾值Th_b的情況下，控制單元20使處理進入S23。在S23中，控制單元20判斷是否滿足情節結束條件。當控制單元20判斷為不滿足情節結束條件時，控制單元20使處理返回到S13。此外，當判斷為滿足情節結束條件時，控制單元20使處理進入S24。在S24中，控制單元20進行神經網路的學習。此時的學習的批量大小是步驟數t。在神經網路的學習中，透過被稱為反向傳播的技術調整權重值以減小各感知器的輸出的誤差。學習的詳情被省略，因為它們是已知的。

這裡，透過使用圖7說明神經網路的結構的概要。在本實施例中，使用在非專利文獻3中提出的無監督強化和輔助學習(UNREAL)的模型或者修改的模型作為神經網路的模型。在非專利文獻3中已經描述了詳情，因此將僅描述概要。UNREAL是擴展了非專利文獻2中提出的被稱為異步優勢動作評價器(asynchronous advantage actor-critic)(A3C)的模型的神經網路。A3C被配置為如下。

參考符號401和402表示提取影像特徵量並被稱為卷積(Conv)層的層，並且這些層將具有預定參數的濾波器應用於輸入影像資料410。濾波器中的預定參數對應於神經網路的權重。參考符號403表示全連接(FC)層，並且全連接層將已透過卷積層提取了特徵部分的資料組合到一個節點。具有參考符號404的長短期記憶(LSTM)是一種用以學習和保持時間序列資料的時間步長之間的長期依賴性的被稱為長短期記憶神經網路的遞歸神經網路。參考符號405表示全連接層，並且其輸出透過使用softmax函數而轉換成可能性以用作策略。策略是在狀態中採取任何動作的可能性。參考符號406表示全連接層，輸出是狀態值函數，並且是以狀態為起點要獲得的獎勵的預測值。雖然上面已經描述了A3C結構，但是UNREAL被配置有除了A3C之外的三個輔助任務。參考符號420表示重放緩衝器，其保持最新幾個步驟數的影像、獎勵和動作。三個輔助任務的輸入是從重放緩衝器420獲得的影像。

輔助任務之一是獎勵預測407，其根據已經獲得獎勵的過去資訊估計即時獎勵。通常，強化學習具有所謂的稀疏獎勵問題，即代理只能從可以獲得獎勵的經驗中進行學習，因此只有當任務成功時才能獲得獎勵。例如，同樣在本實施例中，即使從初始狀態起對機器人臂100進行了一步操作，也不能獲得獎勵。透過在這樣的環境下使用獎勵預測的任務，從重放緩衝器中檢索並產生任意發生獎勵的事件。輔助任務中的第二個是值功能重放，並且具有與全連接層406的輸出相同的功能，並且輸入影像從重放緩衝器輸入。然後，第三個是像素控制408，並且學習一種動作，使得輸入影像發生很大變化。輸出是動作值函數，並且估計在採取動作之後像素的變化量。

圖7中的輸入影像410是由第一攝影裝置110和第二攝影裝置120拍攝的兩個影像的組合影像，並且示出組合影像被輸入到作為輸入層的一個卷積層401。

圖8示出第一攝影裝置110和第二攝影裝置120拍攝並獲得的影像分別作為輸入影像510和520輸入到卷積層501和503的示例。然後，卷積層502和504的輸出在全連接層505處進行組合。全連接層505的輸入/輸出大小是全連接層403的輸入/輸出大小的兩倍。用於輸出獎勵預測的全連接層506的輸入大小是全連接層407的輸入大小的兩倍，以及卷積層502和504的輸出的組合被輸入到全連接層506。像素控制507是估計輸入影像520的變化量的任務。這是因為輸入影像520的像素的變化被認為與任務的成功有關，因為像素控制具有選擇動作以使得輸入影像的像素值變大的特徵，並且在工件進入利用第二攝影裝置的視訊影像的視角時，任務接近成功。注意，也可以在圖7和圖8的神經網路這兩者中學習任務。另外，該模型僅是示例，並且只要模型具有影像的輸入和針對機器人的控制命令的輸出，也可以使用其它結構。

以上述方式，學習輸入資料的特徵，並且遞歸獲得用於從輸入估計針對機器人臂的控制命令的學習模型。

本第一實施例將已經在模擬器上學習的神經網路的學習的模型應用於實際機器人。

圖9是當加載學習的模型以控制實際機器人時的流程圖。

在S100中，控制單元20加載已在圖6A的S20中儲存的學習模型。在S101中，控制單元20使得透過第一攝影裝置60和第二攝影裝置70來拍攝影像。在S102中，控制單元20將透過影像拍攝所獲得的拍攝影像輸入到神經網路340。然後，在S103中，控制單元20根據神經網路340輸出的機器人控制命令來操作物理機器人臂50。在S104中，控制單元20判斷是否滿足結束條件。當判斷為“否”時，控制單元20使處理返回到S101。結束條件的示例是透過諸如電腦視覺等的識別技術檢查在配置要進行拾取的工件的帶輸送器上或盒子中是否存在工件、並且不存在工件的情況。然而，結束條件可以與此不同。

在本第一實施例中，已經將模擬器學習的模型照原樣應用於實際機器，但是模擬器上的視訊影像的呈現與真實世界中的視訊影像的呈現在接收光的方式或物體的質感等方面並不完全相同。因此，即使在S102中將真實世界中的影像輸入到神經網路340時，也可能不會輸出期望的控制命令。在非專利文獻5中的稱為域隨機化的方法中，透過改變在模擬器上進行學習時的各種各樣的變量中的諸如背景、工件的質感、光源的位置、亮度、顏色、照相機的位置以及噪聲等的參數，可以構建適應真實世界中的視訊影像的強大的廣義神經網路。在本第一實施例的情況下，例如，透過針對各情節隨機更改這些參數以及更改環境的呈現，可以構建減小了模擬器上和真實世界中的視訊影像之間的呈現差異的神經網路的模型。

根據上述操作，可以透過簡單地僅將二維攝影裝置的視訊影像輸入到神經網路來控制機器人控制。

這裡，透過使用指示神經網路的卷積層在影像中關注的位置的被稱為Grad-CAM(非專利文獻4)的技術，可以使影像中的神經網路關注的位置可視化以進行判斷。深度學習通常在神經網路內具有黑盒並且不容易分析。此外，即使任務成功/失敗，也很難理解任務為什麼成功/失敗。因此，使神經網路的關注點(或關注區域)可視化非常重要。通常，卷積層保留空間資訊，該資訊在全連接層中丟失。然後，由於隨著階段在卷積層中進一步向後側前進，更多的抽象資訊被保持，因此在Grad-CAM中使用卷積層中的最後層的資訊來創建熱圖。如在非專利文獻4中描述的詳情，將省略其描述，但是將簡要描述將Grad-CAM應用於神經網路的方法，即在本實施例中使用的方法。

圖10是示出創建熱圖的方法的圖。當基於圖7中的神經網路創建熱圖時，在從神經網路輸出策略之後，創建一個熱向量，在該熱向量中將實際採用的動作設置為1，將其它動作設置為零，並且進行反向傳播。進行反向傳播直到卷積層610計算梯度640。卷積層610針對輸入影像600的輸出是特徵量圖630，並且計算特徵量圖630和梯度640的組合數的乘積，使乘積相加並使其透過啟動函數650以創建熱圖660。圖11是示出針對各步驟的熱圖的示例的圖。虛線圓表示熱圖中的受到關注的區域。當觀看針對輸入影像700的熱圖710時，在多個步驟中的初始步驟中，在第一攝影裝置110的視訊影像中臂前端和工件受到關注。在隨後的步驟中，可以看到，當工件進入第二攝影裝置120的視角時，第二攝影裝置120的視訊影像中的該工件受到關注。由此，可以看到主要根據第一攝影裝置110的視訊影像來選擇動作，直到臂接近工件為止，並且根據第二攝影裝置120的視訊影像來選擇動作，直到臂接近工件之後工件被把持為止，並且可以說機器人臂採取了預期的動作。

第二實施例

接著，將描述第二實施例。注意，在第二實施例和第一實施例中，基本結構和操作是共同的，因此將省略這些點的冗餘描述。在第二實施例中，神經網路的學習也利用實際機器。因此，不需要模擬器上的學習所需的域隨機化。同樣關於獎勵，在模擬器上，容易確定工件和末端執行器之間的距離，但實際上，末端執行器的絕對位置是根據運動學確定的，不能機械地確定工件的位置，因此手動放置工件，並且需要諸如輸入位置等的操作。當在第一實施例中在實際機器中進行微調時，這是相似的。

其它示例

在上述實施例中，已經描述了移動機器人臂以把持工件的所謂的拾取操作，但是本發明也可以應用於其它操作。例如，可以將不同的作業裝置附接到機器人臂的前端，例如，以應用於焊接、測量、測試和手術等。

本發明的實施例還可以藉由如下的方法來實現，即，藉由讀出並執行記錄在儲存媒體上的電腦可執行指令(例如，一個或多個程序)的系統或裝置的電腦來實現(也可以更全面地稱為“非暫時性電腦可讀儲存媒體”)，用於執行上述一個或多個實施例的功能和/或包括一個或多個電路(例如，專用集成電路(ASIC))用於執行上述一個或多個實施例的功能的方法，以及藉由系統或裝置的電腦執行的方法，例如，藉由從儲存媒體讀出並執行電腦可執行指令來執行一個或多個上述實施例的功能和/或控制一個或多個電路以執行上述一個或多個實施例的功能。電腦可以包括一個或多個處理器(例如，中央處理單元(CPU)，微處理單元(MPU))，並且可以包括單獨的電腦或單獨的處理器的網路以讀出和執行電腦可執行指令。可以將電腦可執行指令提供給電腦，例如，從網路或儲存媒體。儲存媒體可以包括例如硬碟，隨機存取記憶體(RAM)、唯讀記憶體 (ROM)、分佈式計算系統的記憶體、光碟(諸如光碟片(CD)、數位化多功能光碟(DVD)或藍光光碟(BD)^TM)、快閃記憶體裝置、記憶卡等)中的一個或多個。

雖然已經參考典型實施例描述了本發明，但是應當理解，本發明不限於所公開的典型實施例。所附請求項的範圍應被賦予最寬泛的解釋，以涵蓋所有這樣的修改以及等同的結構和功能。

Claims

一種機器人控制裝置，用於控制被配置為進行預定操作的機器人，該機器人控制裝置包括：獲取單元(S101)，其被配置為獲取由複數個攝影裝置拍攝的複數個影像，該複數個攝影裝置包括第一攝影裝置和與該第一攝影裝置不同的第二攝影裝置；以及指定單元(S102)，其被配置為使用透過對該第一攝影裝置和該第二攝影裝置各自的視訊影像進行組合而獲得的一個組合影像作為神經網路的輸入，並且被配置為基於來自該神經網路的結果的輸出來指定針對該機器人的控制命令。
根據請求項1之機器人控制裝置，進一步包括該第一攝影裝置，其中，該第一攝影裝置配置在獨立於該機器人的可移動部的位置處，並且拍攝該機器人的操作的影像。
根據請求項1之機器人控制裝置，進一步包括該第二攝影裝置，其中，該第二攝影裝置固定至該機器人。
根據請求項1之機器人控制裝置，進一步包括該第一攝影裝置以及該第二攝影裝置，其中，該第一攝影裝置配置在獨立於該機器人的可移動部的位置處，並且該第二攝影裝置固定至該機器人。
根據請求項1至4中的任一項之機器人控制裝置，還包括：控制單元，其被配置為根據由該神經網路獲得的針對該機器人的該控制命令來控制該機器人。
根據請求項3或4之機器人控制裝置，其中，該第二攝影裝置附接至該機器人的可移動部。
根據請求項3或4之機器人控制裝置，其中，該第二攝影裝置附接至該機器人的臂前端。
根據請求項3或4之機器人控制裝置，其中，該第二攝影裝置拍攝被配置為進行該機器人的該預定操作的該機器人的部位的影像，以及該預定操作是拾取工件的操作。
根據請求項1之機器人控制裝置，進一步包括神經網路，其中，該神經網路具有透過強化學習來更新的權重。
根據請求項1之機器人控制裝置，進一步包括神經網路，其中，該神經網路的輸入層配置有單個層，該單個層被配置為從該一個組合影像中提取影像特徵量。
根據請求項1之機器人控制裝置，進一步包括神經網路，其中，該神經網路包括被配置為提取影像特徵量的層，並且該神經網路還包括被配置為使影像中的關注區域可視化的部件。
一種機器人控制裝置的控制方法，該機器人控制裝置用於控制被配置為進行預定操作的機器人，該控制方法包括：獲取由複數個攝影裝置拍攝的複數個影像，該複數個攝影裝置包括第一攝影裝置和與該第一攝影裝置不同的第二攝影裝置；以及使用透過對該第一攝影裝置和該第二攝影裝置各自的視訊影像進行組合而獲得的一個組合影像作為神經網路的輸入，並且基於來自該神經網路的結果的輸出來指定針對該機器人的控制命令。
一種電腦程式，其在由電腦讀取並執行時，使得該電腦執行機器人控制裝置的控制方法的步驟，該機器人控制裝置用於控制被配置為進行預定操作的機器人，該控制方法包括：獲取由複數個攝影裝置拍攝的複數個影像，該複數個攝影裝置包括第一攝影裝置和與該第一攝影裝置不同的第二攝影裝置；以及使用透過對該第一攝影裝置和該第二攝影裝置各自的視訊影像進行組合而獲得的一個組合影像作為神經網路的輸入，並且基於來自該神經網路的結果的輸出指定針對該機器人的控制命令。