TW201830184A

TW201830184A - 控制裝置、機器人及機器人系統

Info

Publication number: TW201830184A
Application number: TW107102940A
Authority: TW
Inventors: 溝部公威; 長谷川浩; 田中太郎; 國益符; 尤莉拉派; 艾倫史蒂芬李
Original assignee: 日商精工愛普生股份有限公司
Priority date: 2017-02-06
Filing date: 2018-01-26
Publication date: 2018-08-16
Also published as: JP2018126797A; US20180222058A1; EP3357650A2; EP3357650A3; CN108393891A

Abstract

為了進行機器人之各種設定，需要高度之技術訣竅，難易度較高。本發明構成一種控制裝置，其具備：運算部，其使用機械學習，算出拍攝對象物之光學系統相關之光學參數；檢測部，其基於藉由上述光學系統根據所算出之上述光學參數而得之攝像結果，檢測上述對象物；及控制部，其基於上述對象物之檢測結果控制機器人。

Description

控制裝置、機器人及機器人系統

本發明係關於一種控制裝置、機器人及機器人系統。

為了使機器人進行作業，必須進行各種設定，先前，各種設定係人為地進行。又，先前，已知有為了將機床之工具修正之頻度最佳化而利用機械學習之技術(專利文獻1)。[先前技術文獻][專利文獻][專利文獻1]日本專利第5969676號公報

[發明所欲解決之問題]為了進行機器人之各種設定需要高度之技術訣竅，難易度較高。[解決問題之技術手段]為了解決上述問題之至少一個，控制裝置具備：運算部，其使用機械學習，算出拍攝對象物之光學系統相關之光學參數；檢測部，其基於藉由光學系統根據所算出之光學參數而得之攝像結果，檢測對象物；及控制部，其基於對象物之檢測結果控制機器人。根據該構成，能以較高之概率算出較人為地決定之光學參數更高精度地檢測對象物之光學參數。進而，亦可為如下構成：檢測部檢測對象物之位置姿勢。根據該構成，能高精度地檢測對象物之位置姿勢。進而，亦可為如下構成：光學系統包含攝像部，光學參數包含攝像部相關之攝像部參數。根據該構成，能以提高對象物之檢測精度之方式調整攝像部。進而，亦可為如下構成：光學參數包含對於由攝像部拍攝到之對象物之圖像進行的圖像處理相關之圖像處理參數。根據該構成，能執行提高對象物之檢測精度之圖像處理。進而，亦可為如下構成：光學系統包含照明部，光學參數包含照明部相關之照明部參數。根據該構成，能以提高對象物之檢測精度之方式調整照明部。進而，亦可為如下構成：運算部包含：狀態觀測部，其至少觀測使用光學系統以光學參數拍攝到之圖像，作為狀態變數；及學習部，其基於作為狀態變數之圖像，學習光學參數。根據該構成，可容易地算出高精度地檢測對象物之光學參數。進而，亦可為如下構成：學習部基於作為狀態變數之圖像而決定使光學參數變化之行動，將光學參數最佳化。根據該構成，能以成為與機器人之使用環境相應之光學參數之方式進行最佳化。進而，亦可為如下構成：學習部基於對象物之檢測結果之好壞，對行動之回報進行評估。根據該構成，能以提高對象物之檢測精度之方式執行最佳化。進而，亦可為如下構成：學習部基於機器人基於對象物之檢測結果而進行之作業之好壞，對行動之回報進行評估。根據該構成，能以提高機器人之品質之方式將參數最佳化。進而，亦可為如下構成：運算部藉由反覆進行狀態變數之觀測、與該狀態變數相應之上述行動之決定、及藉由該行動而獲得之回報之評估，而將光學參數最佳化。根據該構成，能自動地將光學參數最佳化。進而，亦可為如下構成：運算部使用機械學習，算出機器人之動作相關之動作參數，控制部基於動作參數而控制機器人。根據該構成，能使機器人之動作性能與對象物之檢測精度一併提高。進而，亦可為如下構成：運算部基於由光學系統拍攝機器人之作業對象即對象物而得之圖像，算出光學參數及動作參數。根據該構成，能以對象物之檢測精度提高之方式使機器人動作。

以下，一面參照隨附圖式一面依以下之順序針對本發明之實施形態進行說明。再者，於各圖中對相對應之構成要素標註相同之符號，並省略重複之說明。(1)機器人系統之構成：(2)機器人之控制：(3)拾取處理：(4)學習處理：(4-1)光學參數之學習：(4-2)光學參數之學習例：(4-3)動作參數之學習：(4-4)動作參數之學習例：(4-5)力控制參數之學習：(4-6)力控制參數之學習例：(5)其他實施形態：(1)機器人系統之構成：圖1係表示藉由本發明之一實施形態之控制裝置而控制之機器人之立體圖。作為本發明之一實施例之機器人系統係如圖1所示般具備機器人1～3。機器人1～3係具備末端執行器之6軸機器人，於機器人1～3中安裝有不同之末端執行器。即，於機器人1，安裝有攝像部21，於機器人2中安裝有照明部22，於機器人3中安裝有夾持器23。再者，此處，將攝像部21及照明部22稱為光學系統。機器人1～3係由控制裝置40控制。控制裝置40係藉由纜線而與機器人1～3可通信地連接。再者，控制裝置40之構成要素亦可配備於機器人1。又，控制裝置40亦可藉由複數個裝置而構成(例如，下述之學習部與控制部配備於不同之裝置等)。又，控制裝置40可藉由纜線或無線通信而連接未圖示之教示裝置。教示裝置可為專用之電腦，亦可為安裝有用以教示機器人1之程式的通用之電腦。進而，控制裝置40與教示裝置亦可一體地構成。機器人1～3係於臂安裝各種末端執行器而使用之單臂機器人，於本實施形態中，機器人1～3中之臂或軸之構成等同。於圖1中，於機器人3中標註有對臂或軸之構成進行說明之符號。如於機器人3中所示般，機器人1～3具備基台T、6個臂構件A1～A6、及6個關節J1～J6。基台T固定於作業台。基台T與6個臂構件A1～A6係藉由關節J1～J6而連結。臂構件A1～A6及末端執行器為可動部，藉由該等可動部進行動作，而使機器人1～3可進行各種作業。於本實施形態中，關節J2、J3、J5為彎曲關節，關節J1、J4、J6為扭轉關節。於臂A中之最前端側之臂構件A6，安裝力感測器(force sensor)P及末端執行器。機器人1～3可藉由驅動6軸之臂，而於可動範圍內將末端執行器配置於任意位置，設為任意姿勢(角度)。機器人3所具備之末端執行器為夾持器23，可固持對象物W。機器人2所具備之末端執行器為照明部22，可將光照射至照射範圍。機器人1所具備之末端執行器為攝像部21，可拍攝視野內之圖像。於本實施形態中，相對於機器人1～3所具備之末端執行器而相對性地固定之位置被定義為工具中心點(TCP，Tool Center Point)。TCP之位置成為末端執行器之基準位置，可定義TCP成為原點且相對於末端執行器而相對性地固定之三維正交座標系統即TCP座標系統。力感測器P為6軸之力檢測器。力感測器P係於以力感測器上之點作為原點之三維正交座標系統即感測器座標系統中檢測與相互正交之3個檢測軸平行之力之大小、及繞該3個檢測軸之轉矩之大小。再者，於本實施例中係以6軸機器人為例，但機器人之態樣亦可為各種態樣，機器人1～3之態樣亦可不同。又，亦可於除關節J6以外之關節J1～J5中之任一者以上具備作為力檢測器之力感測器。於將界定設置有機器人1～3之空間之座標系統稱為機器人座標系統時，機器人座標系統係藉由在水平面上相互正交之x軸與y軸、及以鉛直向上為正方向之z軸而界定之三維正交座標系統(參照圖1)。z軸中之負方向大致與重力方向一致。又，將繞x軸之旋轉角藉由Rx表示，將繞y軸之旋轉角藉由Ry表示，將繞z軸之旋轉角藉由Rz表示。藉由x、y、z方向之位置可表現三維空間中之任意位置，藉由Rx、Ry、Rz方向之旋轉角可表現三維空間中之任意姿勢。以下，設為於記為位置之情形時，亦可包含姿勢之意義。又，設為於記為力之情形時，亦可包含轉矩之意義。再者，於本實施形態中，可執行對作用於機器人之力進行控制之力控制，於力控制中，能以作用於任意點之該作用力成為目標力之方式進行控制。作用於各種部位之力可於作為三維正交座標系統之力控制座標系統中定義。目標力(包含轉矩)可藉由以利用力控制座標系統表現之力之作用點作為起點之向量而表現，於進行下述之學習以前，目標力向量之起點為力控制座標系統之原點，作用力之方向與力控制座標系統之1軸方向一致。但是，於已進行下述之學習之情形時，目標力向量之起點可能與力控制座標系統之原點不同，目標力向量之方向可能與力控制座標系統之軸方向不同。於本實施形態中，預先定義了各種座標系統之關係，各種座標系統中之座標值可相互轉換。即，TCP座標系統、感測器座標系統、機器人座標系統、力控制座標系統中之位置或向量可相互轉換。此處，為了簡單起見，說明控制裝置40藉由機器人座標系統控制TCP之位置及作用於TCP之作用力，但機器人1～3之位置或作用於機器人1～3之力可藉由各種座標系統而定義，且可相互轉換，因此位置或力可藉由任一座標系統進行定義、及控制。理所當然，除了此處所述之座標系統以外，亦可定義其他座標系統(例如固定於對象物之對象物座標系統等)並轉換。(2)機器人之控制：機器人1係可藉由進行教示而進行各種作業之通用機器人，如圖2所示般具備作為致動器之馬達M1～M6、及作為感測器之編碼器E1～E6。控制臂意指控制馬達M1～M6。馬達M1～M6及編碼器E1～E6係對應於關節J1～J6之各者而配備，編碼器E1～E6檢測馬達M1～M6之旋轉角度。又，於各馬達M1～M6連接有供給電力之電源線，於各電源線具備電流計。因此，控制裝置40可計測供給至各馬達M1～M6之電流。控制裝置40具備電腦等硬體資源及記憶於記憶部44之各種軟體資源，可執行程式。於本實施形態中，控制裝置40係作為運算部41、檢測部42、控制部43而發揮功能。再者，硬體資源可為包含CPU(Central Processing Unit，中央處理單元)、RAM(Random Access Memory，隨機存取記憶體)、ROM(Read Only Memory，唯讀記憶體)等之構成，亦可藉由ASIC(Application Specific Integrated Circuit，特定應用積體電路)等而構成，可採用各種構成。於本實施形態中，檢測部42可執行檢測對象物之處理，控制部43可驅動機器人1～3之臂。檢測部42連接於構成光學系統20之攝像部21及照明部22。檢測部42可控制攝像部21，獲取藉由攝像部21所具備之攝像感測器而拍攝到之圖像。又，檢測部42可控制照明部22，使輸出光之亮度變化。若自攝像部21輸出圖像，則檢測部42進行如下處理：基於攝像圖像進行模板匹配處理，而檢測對象物之位置(位置姿勢)。即，檢測部42基於記憶於記憶部44之模板資料44c而執行模板匹配處理。模板資料44c係複數個位置姿勢之各者之模板。因此，若相對於模板資料44c藉由ID等將位置姿勢建立對應關係，則可根據吻合之模板資料44c之種類特定出自檢測部42觀察到之對象物之位置姿勢。具體而言，檢測部42將複數個位置姿勢之各者之模板資料44c依次設為處理對象，一面使模板資料44c之大小變化，一面與拍攝到之圖像進行比較。然後，檢測部42將模板資料44c與圖像之差量為閾值以下之像作為對象物之像進行檢測。若檢測對象物之像，則檢測部42基於與預先決定之座標系統之關係吻合之模板資料44c之大小，特定出對象物之位置姿勢。即，根據模板資料44c之大小，判明攝像部21與對象物之光軸方向之距離，根據於圖像內檢測出之對象物之位置，判明垂直於光軸之方向之位置。因此，例如若為定義為攝像部21之攝像感測器之光軸及攝像平面上之2軸平行於TCP座標系統之各軸之情形時，檢測部42可基於模板資料44c之大小、及模板資料44c與圖像吻合之位置，而於TCP座標系統中特定出對象物之位置。又，檢測部42可基於吻合之模板資料44c之ID，特定出TCP座標系統中之對象物之姿勢。因此，檢測部42可利用上述座標系統之對應關係，特定出任意之座標系統、例如機器人座標系統中之對象物之位置姿勢。再者，模板匹配處理只要為用以特定出對象物之位置姿勢之處理即可，可採用各種處理。例如，模板資料44c與圖像之差量可根據灰度值之差量而進行評估，亦可根據圖像之特徵(例如圖像之梯度等)之差量而進行評估。檢測部42係參照參數而進行該模板匹配處理。即，於記憶部44中，記憶有各種參數44a，該參數44a包含關於檢測部42之檢測之參數。圖3係表示參數44a之例之圖。於圖3所示之例中，參數44a包含光學參數、動作參數及力控制參數。光學參數係關於檢測部42之檢測之參數。動作參數及力控制參數係控制機器人1～3時之參數，詳細情況於下文敍述。光學參數包含：關於攝像部21之攝像部參數、關於照明部22之照明部參數、及與對於藉由攝像部21拍攝到之對象物圖像之圖像處理相關之圖像處理參數。於圖3中，表示該等參數之例。即，拍攝對象物時供配置攝像部21之位置被定義為攝像部之位置，包含於攝像部參數。又，攝像部21具備可調整曝光時間及光圈之機構，拍攝對象物時之曝光時間及光圈之值包含於攝像部參數。再者，攝像部之位置可藉由各種方法而記述，例如可採用藉由機器人座標系統記述攝像部21之TCP之位置之構成等。檢測部42參照攝像部參數，將攝像部21之位置交付至下述之位置控制部43a。其結果，位置控制部43a產生目標位置Lt，並基於該目標位置Lt控制機器人1。又，檢測部42參照攝像部參數，設定攝像部21之曝光時間及光圈。其結果，於攝像部21中成為藉由該曝光時間及光圈進行攝像之狀態。又，拍攝對象物時供配置照明部22之位置被定義為照明部之位置，包含於照明部參數。又，照明部22具備可調整亮度之機構，拍攝對象物時之亮度之值包含於照明部參數。照明部之位置亦可藉由各種方法而記述，例如可採用藉由機器人座標系統記述照明部22之TCP之位置之構成等。檢測部42參照照明部參數，將照明部22之位置交付至下述之位置控制部43a。其結果，位置控制部43a產生目標位置Lt，並基於該目標位置Lt控制機器人2。又，檢測部42參照照明部參數，設定照明部22之亮度。其結果，於照明部22中成為輸出該亮度之光之狀態。檢測部42於對於藉由攝像部21拍攝到之圖像應用模板匹配處理時，參照圖像處理參數。即，圖像處理參數包含表示執行模板匹配處理時之處理順序之圖像處理序列。又，於本實施形態中，模板匹配處理中之閾值可變，當前之模板匹配之閾值包含於圖像處理參數。進而，檢測部42可於對模板資料44c與圖像進行比較之前執行各種處理。於圖3中，作為各種處理，例示有平滑化處理及銳化處理，各者之強度包含於圖像處理參數。若自攝像部21輸出圖像，則檢測部42基於圖像處理序列，決定圖像處理之順序(包含是否執行)，並以該順序執行平滑化處理或銳化處理等圖像處理。此時，檢測部42以圖像處理參數中所記述之強度執行平滑化處理或銳化處理等圖像處理。又，於執行圖像處理序列中所包含之比較(模板資料44c與圖像之比較)時，基於圖像處理參數所示之閾值而進行比較。再者，如以上般，檢測部42可基於光學參數特定出攝像部21或照明部22之位置，使機器人1、機器人2動作，但驅動機器人1及機器人2時之位置亦可藉由下述之動作參數或力控制參數而賦予。於本實施形態中，控制部43具備位置控制部43a、力控制部43b、接觸判定部43c、及伺服43d。又，於控制部43中，馬達M1～M6之旋轉角度之組合、與機器人座標系統中之TCP之位置之對應關係U1記憶於未圖示之記憶媒體，座標系統之對應關係U2被定義，並記憶於未圖示之記憶媒體。因此，控制部43或下述之運算部41可基於對應關係U2，將任意座標系統中之向量轉換為另一座標系統中之向量。例如，控制部43、運算部41可基於力感測器P之輸出而獲取感測器座標系統中之對機器人1～3之作用力，並轉換為機器人座標系統中之作用於TCP之位置之力。又，控制部43、運算部41可將藉由力控制座標系統而表現之目標力轉換為機器人座標系統中之TCP之位置之目標力。理所當然，對應關係U1、U2亦可記憶於記憶部44。控制部43可藉由驅動臂，而控制與機器人1～3一併移動之各種部位之位置或作用於各種部位之力，位置之控制主要藉由位置控制部43a執行，力之控制主要藉由力控制部43b執行。伺服43d可執行伺服控制，執行使編碼器E1～E6之輸出所示之馬達M1～M6之旋轉角度D_a 、與作為控制目標之目標角度Dt一致之反饋控制。即，伺服43d可執行使伺服增益Kpp、Kpi、Kpd作用於旋轉角度D_a 與目標角度Dt之偏差、該偏差之積分、該偏差之微分的PID(proportional-integral-differential，比例積分微分)控制。進而，伺服43d可執行使伺服增益Kvp、Kvi、Kvd作用於該伺服增益Kpp、Kpi、Kpd作用後之輸出與旋轉角度D_a 之微分之偏差、該偏差之積分、該偏差之微分的PID控制。該伺服43d之控制可針對馬達M1～M6之各者而執行。因此，各伺服增益可針對機器人1～3所具備之6軸之各者而執行。再者，於本實施形態中，控制部43可將控制信號輸出至伺服43d，使伺服增益Kpp、Kpi、Kpd、Kvp、Kvi、Kvd變化。於記憶部44中，除了上述參數44a以外，還記憶用以控制機器人1～3之機器人程式44b。於本實施形態中，參數44a及機器人程式44b係藉由教示而產生，並記憶於記憶部44，但可藉由下述之運算部41而修正。再者，機器人程式44b主要表示機器人1～3所實施之作業之序列(步驟之順序)，藉由預先定義之指令之組合而記述。又，參數44a主要為為了實現各步驟所必需之具體之值，被記述為各指令之引數。於用以控制機器人1～3之參數44a中，除了上述光學參數以外，還包含動作參數及力控制參數。動作參數係關於機器人1～3之動作之參數，於本實施形態中係於位置控制時所參照之參數。即，於本實施形態中，一連串之作業被分成複數個步驟，實施各步驟時之參數44a係藉由教示而產生。動作參數包含表示該複數個步驟中之起點及終點之參數。該起點及終點可藉由各種座標系統而定義，於本實施形態中，控制對象之機器人之TCP之起點及終點係藉由機器人座標系統而定義。即，關於機器人座標系統之各軸之平移位置及旋轉位置被定義。又，動作參數包含複數個步驟中之TCP之加減速特性。加減速特性表示機器人1～3之TCP自各步驟之起點移動至終點時之期間及該期間內之各時刻之TCP之速度。圖4係表示該加減速特性之例之圖，於自起點之TCP之移動開始時刻t₁ 起至TCP到達至終點之時刻t₄ 為止之期間內之各時刻，TCP之速度V被定義。又，於本實施形態中，於加減速特性中包含定速期間。定速期間為時刻t₂ ～t₃ 之期間，於該期間內速度固定。又，於該期間之前後，TCP加速、及減速。即，於時刻t₁ 至t₂ 為止之期間內TCP加速，於時刻t₃ 至t₄ 為止之期間內TCP減速。該加減速特性亦可藉由各種座標系統而定義，於本實施形態中係關於控制對象之機器人之TCP之速度，藉由機器人座標系統而定義。即，關於機器人座標系統之各軸之平移速度及旋轉速度(角速度)被定義。進而，動作參數包含伺服增益Kpp、Kpi、Kpd、Kvp、Kvi、Kvd。即，控制部43能以成為作為動作參數而記述之值之方式將控制信號輸出至伺服43d，調整伺服增益Kpp、Kpi、Kpd、Kvp、Kvi、Kvd。於本實施形態中，該伺服增益為上述每個步驟之值，但亦可藉由下述之學習等而設為每個更短期間之值。力控制參數係關於機器人1～3之力控制之參數，於本實施形態中係於力控制時所參照之參數。起點、終點、加減速特性、伺服增益係與動作參數相同之參數，起點、終點、加減速特性係針對機器人座標系統之3軸之平移及旋轉而定義。又，伺服增益係針對馬達M1～M6之各者而定義。但是，於力控制之情形時，亦存在起點及終點中之至少一部分未被定義之情形(被設為任意之情形)。例如，於以作用於某方向之力變為0之方式進行衝突避免或仿形控制之情形時，該方向上之起點及終點未被定義，亦存在定義能以將該方向之力設為0之方式使位置任意地變化之狀態之情形。又，力控制參數包含表示力控制座標系統之資訊。力控制座標系統係用以定義力控制之目標力之座標系統，於進行下述之學習之前，目標力向量之起點為原點，1軸朝向目標力向量之方向。即，於在教示中定義力控制中之各種目標力時，可教示各作業之各步驟中之目標力之作用點。例如，於在使對象物之一點觸碰另一物體，且於兩者之接觸點自對象物對另一物體作用固定之目標力之狀態下使對象物之朝向變化之情形時，對象物與另一物體接觸之點成為目標力之作用點，可定義以該作用點作為原點之力控制座標系統。因此，於力控制參數中，將用以特定出以力控制之目標力作用之點作為原點且1軸朝向目標力之方向之座標系統、即力控制座標系統之資訊包含於參數。再者，該參數可進行各種定義，例如，可藉由表示力控制座標系統與另一座標系統(機器人座標系統等)之關係之資料而定義。進而，力控制參數包含目標力。目標力係於各種作業中，作為應作用於任意點之力而教示之力，於力控制座標系統中被定義。即，表示目標力之目標力向量被定義為目標力向量之起點、及自起點起之6軸成分(3軸之平移力、3軸之轉矩)，且藉由力控制座標系統而表現。再者，若利用力控制座標系統與另一座標系統之關係，則可將該目標力轉換為任意座標系統、例如機器人座標系統中之向量。進而，力控制參數包含阻抗參數。即，於本實施形態中，力控制部43b所實施之力控制為阻抗控制。阻抗控制係藉由馬達M1～M6而實現假想之機械阻抗的控制。此時，TCP假想性地具有之質量被定義為假想慣性係數m，TCP假想性地受到之黏性阻力被定義為假想黏性係數d，TCP假想性地受到之彈性力之彈簧常數被定義為假想彈性係數k。阻抗參數係該等m、d、k，針對對於機器人座標系統之各軸之平移及旋轉而定義。於本實施形態中，該力控制座標系統、目標力、阻抗參數係上述每個步驟之值，但亦可藉由下述之學習等而設為每個更短期間之值。於本實施形態中，一連串之作業被分成複數個步驟，實施各步驟之機器人程式44b係藉由教示而產生，但位置控制部43a將機器人程式44b所示之各步驟進而細分化為每個微小時間ΔT之微小步驟。然後，位置控制部43a基於參數44a產生每個微小步驟之目標位置Lt。力控制部43b基於參數44a，而獲取一連串之作業之各步驟中之目標力fLt。即，位置控制部43a參照動作參數或力控制參數所示之起點、終點、加減速特性，產生自起點以該加減速特性移動至終點為止之情形(於姿勢之情形時為姿勢變化之情形)時之每個微小步驟之TCP之位置以作為目標位置Lt。力控制部43b參照針對各步驟之力控制參數所示之目標力，基於力控制座標系統與機器人座標系統之對應關係U2，將該目標力轉換為機器人座標系統中之目標力fLt。該目標力fLt可轉換為作用於任意點之力，此處，由於下述之作用力表現為作用於TCP之力，故而對該作用力及目標力fLt藉由運動方程式進行解析，因此設為目標力fLt被轉換為TCP之位置之力而進行說明。理所當然，根據步驟，亦存在未定義目標力fLt之情形，於該情形時，進行不伴隨力控制之位置控制。再者，此處，L之字元係設為表示界定機器人座標系統之軸之方向(x、y、z、Rx、Ry、Rz)中之任一個方向。又，L係設為亦表示L方向之位置。例如，於L＝x之情形時，藉由機器人座標系統而設定之目標位置之x方向成分記為Lt＝xt，目標力之x方向成分記為fLt＝fxt。由於執行位置控制或力控制，故而控制部43可獲取機器人1～3之狀態。即，控制部43可獲取馬達M1～M6之旋轉角度Da，並基於對應關係U1，將該旋轉角度Da轉換為機器人座標系統中之TCP之位置L(x、y、z、Rx、Ry、Rz)。又，控制部43可參照對應關係U2，基於TCP之位置L、及力感測器P之檢測值及位置，將現實地作用於力感測器P之力轉換為作用於TCP之作用力f_L 並於機器人座標系統中特定出。即，作用於力感測器P之力係藉由感測器座標系統而定義。因此，控制部43基於機器人座標系統中之TCP之位置L、對應關係U2及力感測器P之檢測值，而於機器人座標系統中特定出作用於TCP之作用力f_L 。又，作用於機器人之轉矩可根據作用力f_L 、及自工具接觸點(末端執行器與工件之接觸點)至力感測器P為止之距離而算出，並特定為未圖示之f_L 轉矩成分。再者，控制部43對作用力f_L 進行重力補償。所謂重力補償係指自作用力f_L 去除重力成分之處理。重力補償例如可進行如下等而實現，即，針對每個TCP之姿勢預先調查作用於TCP之作用力f_L 之重力成分，自作用力f_L 減去該重力成分。若特定出作用於TCP之除重力以外之作用力f_L 、及應作用於TCP之目標力fLt，則力控制部43b於對象物等物體存在於TCP，且力可作用於該TCP之狀態下，獲取利用阻抗控制之修正量ΔL(以後稱為來自力之修正量ΔL)。即，力控制部43b參照參數44a，獲取目標力fLt及阻抗參數m、d、k，並代入至運動方程式(1)而獲取來自力之修正量ΔL。再者，該來自力之修正量ΔL意指於TCP受到機械阻抗之情形時，為了消除目標力fLt與作用力f_L 之力偏差Δf_L (t)，而TCP應移動之位置L之大小。[數1](1)式之左邊包含：第1項，其係使TCP之位置L之二階微分值乘以假想慣性係數m；第2項，其係使TCP之位置L之微分值乘以假想黏性係數d；及第3項，其係使TCP之位置L乘以假想彈性係數k。(1)式之右邊係藉由自目標力fLt減去現實之作用力f_L 所得之力偏差Δf_L (t)構成。所謂(1)式中之微分意指利用時間之微分。若獲得來自力之修正量ΔL，則控制部43基於對應關係U1，將界定機器人座標系統之各軸之方向之動作位置轉換為各馬達M1～M6之目標旋轉角度即目標角度Dt。伺服43d藉由自目標角度Dt減去馬達M1～M6之現實旋轉角度即編碼器E1～E6之輸出(旋轉角度Da)，而算出驅動位置偏差De(＝Dt－Da)。伺服43d參照參數44a而獲取伺服增益Kpp、Kpi、Kpd、Kvp、Kvi、Kvd，將使驅動位置偏差De乘以伺服增益Kpp、Kpi、Kpd所得之值，加上使現實旋轉角度Da之與時間微分值即驅動速度之差即驅動速度偏差乘以伺服增益Kvp、Kvi、Kvd所得之值，藉此導出控制量Dc。控制量Dc係針對馬達M1～M6之各者而特定出，藉由各馬達M1～M6之控制量Dc控制馬達M1～M6之各者。控制部43控制馬達M1～M6之信號係經PWM(Pulse Width Modulation，脈寬調變)調變後之信號。將如以上般基於運動方程式根據目標力fLt導出控制量Dc而控制馬達M1～M6之模式設為稱為力控制模式者。又，控制部43係於末端執行器等構成要素不自對象物W接受力之非接觸狀態之步驟中，不進行力控制，而是藉由根據目標位置利用線性運算而導出之旋轉角度控制馬達M1～M6。將藉由根據目標位置利用線性運算而導出之旋轉角度控制馬達M1～M6之模式設為稱為位置控制模式者。進而，控制部43亦可藉由如下之混合模式控制機器人1，即，將根據目標位置利用線性運算而導出之旋轉角度、與將目標力代入運動方程式而導出之旋轉角度藉由例如線性組合而進行整合，藉由整合而成之旋轉角度控制馬達M1～M6。該等模式可藉由機器人程式44b而預先決定。於藉由位置控制模式或混合模式進行控制之情形時，位置控制部43a獲取每個微小步驟之目標位置Lt。若獲得每個微小步驟之目標位置Lt，則控制部43基於對應關係U1，將界定機器人座標系統之各軸之方向之動作位置轉換為各馬達M1～M6之目標旋轉角度即目標角度Dt。伺服43d參照參數44a而獲取伺服增益Kpp、Kpi、Kpd、Kvp、Kvi、Kvd，並基於目標角度Dt，導出控制量Dc。控制量Dc係針對馬達M1～M6之各者而特定出，藉由各馬達M1～M6之控制量Dc控制馬達M1～M6之各者。其結果，於各步驟中，TCP經由每個微小步驟之目標位置Lt，按照加減速特性自起點移動至終點。再者，於混合模式下，控制部43藉由將每個微小步驟之目標位置Lt加上來自力之修正量ΔL，而特定出動作位置(Lt＋ΔL)，並基於該動作位置獲取目標角度Dt，獲取控制量Dc。接觸判定部43c執行判定機器人1～3於作業中是否與未假定之物體接觸之功能。於本實施形態中，接觸判定部43c獲取機器人1～3之各者所具備之力感測器P之輸出，於輸出超過預先決定之基準值之情形時判定為機器人1～3於作業中與未假定之物體接觸。於該情形時，可進行各種處理，於本實施形態中接觸判定部43c將機器人1～3之控制量Dc設為0而使機器人1～3停止。再者，使機器人1～3停止時之控制量可為各種控制量，亦可為以消除停止前之控制量Dc之控制量使機器人1～3動作之構成等。(3)拾取處理：其次，對以上之構成中之機器人1～3之動作進行說明。此處，以藉由機器人3之夾持器23拾取藉由機器人2之照明部22照明且藉由機器人1之攝像部21拍攝之對象物W之作業為例進行說明。理所當然，利用機器人1～3而進行之作業並不限定於拾取作業，除此以外亦可應用於各種作業(例如，螺絲鎖緊作業、插入作業、利用鑽孔器之開孔作業、去毛邊作業、研磨作業、組裝作業、製品檢查作業等)。拾取處理係藉由檢測部42及控制部43根據利用上述指令所記述之機器人控制程式而執行之處理而實現。於本實施形態中，拾取處理可於對象物W配置於作業台之狀態下執行。圖5係表示拾取處理之流程圖之例之圖。若開始拾取處理，則檢測部42獲取攝像部21拍攝到之圖像(步驟S100)。即，檢測部42參照參數44a而特定出照明部22之位置，將該位置交付至位置控制部43a。其結果，位置控制部43a執行以當前之照明部22之位置為起點且以參數44a所示之照明部22之位置為終點之位置控制，使照明部22移動至參數44a所示之照明部之位置。其次，檢測部42參照參數44a而特定出照明部22之亮度，並控制照明部22將照明之亮度設定為該亮度。進而，檢測部42參照參數44a而特定出攝像部21之位置，並將該位置交付至位置控制部43a。其結果，位置控制部43a執行以當前之攝像部21之位置為起點且以參數44a所示之攝像部21之位置為終點之位置控制，使攝像部21移動至參數44a所示之照明部之位置。其次，檢測部42參照參數44a而特定出攝像部21之曝光時間及光圈，並控制攝像部21將曝光時間及光圈設定為該曝光時間及光圈。若曝光時間及光圈之設定完成，則攝像部21拍攝圖像，並輸出至檢測部42。檢測部42獲取該圖像。其次，檢測部42基於圖像，判定對象物之檢測是否成功(步驟S105)。即，檢測部42參照參數44a而特定出圖像處理序列，並以參數44a所示之強度執行該圖像處理序列所示之各處理。又，檢測部42參照模板資料44c，將模板資料44c與圖像之差量，與閾值進行比較，於差量為閾值以下之情形時，判定為對象物之檢測成功。於在步驟S105中未判定為對象物之檢測成功之情形時，檢測部42使模板資料44c與圖像之相對位置、或模板資料44c之大小中之至少一者變化，並重複進行步驟S100以後之處理。另一方面，於在步驟S105中判定為對象物之檢測成功之情形時，控制部43特定出控制目標(步驟S110)。本例中之拾取處理係如下之作業：與檢測部42檢測出之對象物W之位置姿勢對準地使機器人3之夾持器23移動，並改變其姿勢，藉由夾持器23拾取對象物W，將對象物W搬送至特定之位置為止，使對象物W自夾持器23離開。因此，位置控制部43a及力控制部43b係基於機器人程式44b，而特定出構成一連串之作業之複數個步驟。成為控制目標之特定對象之步驟係於各步驟中未處理且按時間序列之前存在之步驟。於成為控制目標之特定對象之步驟為力控制模式之步驟之情形時，力控制部43b參照參數44a之力控制參數，獲取力控制座標系統、目標力。力控制部43b基於力控制座標系統，將該目標力轉換為機器人座標系統之目標力fLt。又，力控制部43b將力感測器P之輸出轉換為作用於TCP之作用力f_L 。進而，力控制部43b參照參數44a之力控制參數，基於阻抗參數m、d、k，獲取來自力之修正量ΔL以作為控制目標。於成為控制目標之特定對象之步驟為位置控制模式之情形時，位置控制部43a將該步驟細分化為微小步驟。然後，位置控制部43a參照參數44a之動作參數，基於起點、終點、及加減速特性，獲取每個微小步驟之目標位置Lt以作為控制目標。於成為控制目標之特定對象之步驟為混合模式之情形時，位置控制部43a將該步驟細分化為微小步驟，參照參數44a之力控制參數，基於起點、終點、及加減速特性而獲取每個微小步驟之目標位置Lt，並基於力控制座標系統、目標力fLt、阻抗參數、作用力f_L 而獲取來自力之修正量ΔL。該等目標位置Lt及來自力之修正量ΔL為控制目標。若特定出控制目標，則伺服43d以當前之控制目標控制機器人3(步驟S115)。即，於當前之步驟為力控制模式或混合模式之步驟之情形時，伺服43d參照參數44a之力控制參數，基於伺服增益，而特定出與控制目標對應之控制量Dc，控制馬達M1～M6之各者。於當前之步驟為位置控制模式之步驟之情形時，伺服43d參照參數44a之動作參數，基於伺服增益，而特定出與控制目標對應之控制量Dc，控制馬達M1～M6之各者。其次，控制部43判定當前之步驟是否已結束(步驟S120)。該判定可藉由各種結束判定條件而執行，若為位置控制，則例如可列舉TCP到達至目標位置或於目標位置TCP整定(setting)等。若為力控制，則例如可列舉自作用力與目標力一致之狀態變化為作用力為指定之大小以上、或指定之大小以下、或者TCP變為指定之範圍外等。前者例如可列舉拾取作業中之對象物之固持動作之完成、或固持解除動作之完成等。後者例如可列舉於利用鑽孔器而進行之對象物之貫通作業中鑽孔器已貫通之情形等。理所當然，除此以外於推定為各步驟失敗之情形時，亦可判定為步驟結束。但是，於該情形時，較佳為進行作業之中止或中斷。作為用以判定步驟之失敗之結束判定條件，例如可列舉TCP之移動速度或加速度超過上限值之情形或發生超時之情形等。是否滿足結束判定條件可利用各種感測器、力感測器P或攝像部21、其他感測器等。於在步驟S120中未判定為當前之步驟已結束之情形時，控制部43於微小時間ΔT後，針對下一微小步驟執行步驟S115以後之處理。即，於當前之步驟為位置控制模式或混合模式之情形時，位置控制部43a以下一微小步驟中之目標位置Lt作為控制目標而控制機器人3。又，於當前之步驟為力控制模式或混合模式之情形時，力控制部43b再次基於力感測器P之輸出獲取作用力f_L ，以基於最新之作用力f_L 而特定出之來自力之修正量ΔL作為控制目標而控制機器人3。於在步驟S120中判定為當前之步驟已結束之情形時，控制部43判定作業是否已結束(步驟S125)。即，於在步驟S120中判定為已結束之步驟為最終步驟之情形時，控制部43判定為作業已結束。於在步驟S125中未判定為作業已結束之情形時，控制部43將作業序列之下一步驟變更為當前之步驟(步驟S130)，並執行步驟S110以後之處理。於在步驟S125中判定為作業已結束之情形時，控制部43判定為作業已結束，並結束拾取處理。(4)學習處理：本實施形態之控制裝置40可如以上般，基於參數44a控制機器人1～3。於上述實施形態中，參數44a係藉由教示而產生，但藉由人為之教示難以將參數44a最佳化。例如，於利用檢測部42而進行之對象物W之檢測中，即便為同一對象物W，若光學參數不同則對象物W之位置、圖像內之對象物之像或位置、於對象物W產生之影等各種要素亦可能變化。因此，若使光學參數變化，則利用檢測部42之對象物W之檢測精度可能變化。而且，於使光學參數變化之情形時對象物W之檢測精度如何變化未必明確。又，動作參數或力控制參數被利用於機器人1～3之控制，但如機器人1～3般具有複數個自由度(可動軸)之機器人可於極其多種模式下動作。而且，於機器人1～3中，必須以不產生振動或異音、過沖等不佳之動作之方式決定模式。進而，於安裝各種裝置作為末端執行器之情形時，機器人1～3之重心可能變化，因此最佳之動作參數、力控制參數亦可能變化。而且，於使動作參數或力控制參數變化之情形時，機器人1～3之動作如何變化未必明確。進而，力控制參數係於在機器人1～3中進行力控制之情形時被利用，但於機器人1～3中所實施之各作業中，於使力控制參數變化之情形時，機器人1～3之動作如何變化未必明確。例如，難以於所有作業步驟中推定出於哪種方向上哪種阻抗參數最佳。因此，為了提高檢測部42之檢測精度、或引出機器人1～3之潛在性能，必須進行極其大量之試行錯誤。但是，難以人為地進行極其大量之試行錯誤，因此難以人為地實現可推定為對象物W之檢測精度足夠高且該檢測精度達到大致上限之狀態、或引出了機器人1～3之潛在性能之狀態(所需時間或消耗電力等性能之進一步提高較為困難之狀態)。又，為了進行參數44a之調整，需要熟知參數44a之變化而引起之檢測精度之變化或機器人1～3之動作之變化的操作員，不熟知上述變化之操作員難以進行參數44a之調整。又，始終需要熟練之操作員之系統非常不方便。因此，於本實施形態中，具備用以不進行人為之參數44a之決定作業，而自動地決定參數44a之構成。再者，根據本實施形態，能實現可推定為檢測精度不會因少許之參數44a之變更而進一步提高(可推定為檢測精度極大)之狀態、或可推定為機器人1～3之性能不會因少許之參數44a之變更而高性能化(可推定為性能極大)之狀態。於本實施形態中，將該等狀態稱為經最佳化之狀態。於本實施形態中，控制裝置40為了參數44a之自動之決定而具備運算部41。於本實施形態中，運算部41可使用機械學習，算出光學參數、動作參數及力控制參數。圖6係表示運算部41之構成之圖，且為省略圖2所示之構成之一部分，並表示運算部41之詳細情況之圖。再者，圖6所示之記憶部44係與圖2所示之記憶部44相同之記憶媒體，於各圖中省略所記憶之資訊之一部分之圖示。運算部41具備：狀態觀測部41a，其觀測狀態變數；及學習部41b，其基於觀測到之狀態變數而學習參數44a。於本實施形態中，狀態觀測部41a觀測藉由使參數44a變化而產生之結果以作為狀態變數。因此，狀態觀測部41a可獲取伺服43d之控制結果、編碼器E1～E6之值、力感測器P之輸出、及檢測部42所獲取之圖像以作為狀態變數。具體而言，狀態觀測部41a觀測供給至馬達M1～M6之電流值，以作為伺服43d之控制結果。該電流值相當於藉由馬達M1～M6輸出之轉矩。編碼器E1～E6之輸出係基於對應關係U1而被轉換為機器人座標系統中之TCP之位置。因此，就狀態觀測部41a而言，若為機器人1則可觀測攝像部21之位置，若為機器人2則可觀測照明部22之位置，若為機器人3則可觀測夾持器23之位置。力感測器P之輸出係基於對應關係U2而被轉換為機器人座標系統中之作用於TCP之作用力。因此，狀態觀測部41a可觀測對機器人1～3之作用力以作為狀態變數。檢測部42所獲取之圖像係藉由攝像部21拍攝到之圖像，狀態觀測部41a可觀測該圖像以作為狀態變數。狀態觀測部41a可根據學習對象之參數44a而適當選擇觀測對象之狀態變數。學習部41b只要可藉由學習而將參數44a最佳化即可，於本實施形態中，藉由強化學習而將參數44a最佳化。具體而言，學習部41b基於狀態變數而決定使參數44a變化之行動，並執行該行動。若根據該行動後之狀態對回報進行評估，則判明該行動之行動價值。因此，運算部41係藉由反覆進行狀態變數之觀測、與該狀態變數相應之行動之決定、藉由該行動而獲得之回報之評估，而將參數44a最佳化。於本實施形態中，運算部41可自參數44a中選擇學習對象之參數並進行學習。於本實施形態中，可獨立地執行光學參數之學習、動作參數之學習、及力控制參數之學習之各者。(4-1)光學參數之學習：圖7係按照由智能體(agent)及環境構成之強化學習之模型對光學參數之學習例進行說明之圖。圖7所示之智能體係相當於根據預先決定之策略選擇行動a之功能，可藉由學習部41b而實現。環境係相當於基於智能體所選擇之行動a及當前之狀態s而決定下一狀態s'，並基於行動a、狀態s及狀態s'而決定即時回報r之功能，可藉由狀態觀測部41a及學習部41b而實現。於本實施形態中，可採用如下之Q學習(Q-Learning)：藉由反覆進行學習部41b根據預先決定之策略選擇行動a且狀態觀測部41a進行狀態之更新的處理，而算出某狀態s下之某行動a之行動價值函數(action-value function)Q(s，a)。即，於本例中，根據下述式(2)更新行動價值函數。且，若行動價值函數Q(s，a)適當地收斂之情形時，將該行動價值函數Q(s，a)最大化之行動a視為最佳行動，將表示該行動a之參數44a視為經最佳化之參數。[數2]此處，行動價值函數Q(s，a)係於在狀態s下採取行動a之情形時於將來可獲得之收益(於本例中為折算回報總和)之期望值。回報為r，狀態s、行動a、回報r之下標字t係表示以時間序列重複進行之試行過程中之1次之步驟之序號(稱為試行序號)，若於行動決定後狀態變化，則將試行序號遞增。因此，式(2)內之回報r_t+1 係於在狀態s_t 下選擇行動a_t ，且狀態變為s_t+1 之情形時所獲得之回報。α為學習率，γ為折算率。又，a'係於在狀態s_t+1 下可採取之行動a_t+1 之中將行動價值函數Q(s_t+1 ，a_t+1 )最大化之行動，max_a' Q(s_t+1 ，a')係藉由選擇行動a'而被最大化之行動價值函數。於光學參數之學習中，使光學參數變化相當於行動之決定，表示學習對象之參數及可採取之行動之行動資訊44d係預先記錄於記憶部44。即，於該行動資訊44d中作為學習對象而記述之光學參數即為學習對象。於圖7中，顯示光學參數中之攝像部參數、照明部參數、及圖像處理參數之一部分成為學習對象之例。具體而言，於攝像部參數中，攝像部21之x座標、y座標成為學習對象。因此，於該例中，z座標及相對於xyz軸之旋轉(姿勢)非為學習對象，攝像部21為朝向載置對象物W之作業台之狀態，並且攝像部21之於x-y平面內之移動為學習對象。當然，其他攝像部參數、例如攝像部21之姿勢或z座標、曝光時間或光圈亦可為學習對象。又，於圖7所示之例中，於照明部參數中，照明部22之x座標、y座標及照明部之亮度成為學習對象。因此，於該例中，z座標及相對於xyz軸之旋轉(姿勢)非為學習對象，照明部22為朝向載置對象物W之作業台之狀態，並且照明部22之於x-y平面內之移動為學習對象。當然，其他照明部參數、例如照明部22之姿勢或z座標亦可為學習對象。進而，於圖7所示之例中，於圖像處理參數中，平滑化處理之強度、銳化處理之強度及模板匹配之閾值成為學習對象。因此，於該例中，圖像處理序列未成為學習對象，對於藉由攝像部21拍攝到之圖像之圖像處理之順序不變化(理所當然，亦可採用圖像處理序列為學習對象之實施形態)。於圖7所示之例中，關於行動存在使值增加一定值之行動、及使值減少一定值之行動。因此，於圖7所示之共8個參數中可取之行動共16個(行動a1～行動a16)。由於行動資訊44d表示學習對象之參數及可取之行動，故而若為圖7所示之例，則圖示之8個參數作為學習對象而記述於行動資訊44d。又，用以特定出各行動之資訊(行動之ID、各行動中之增減量等)記述於行動資訊44d。於圖7所示之例中，回報可基於對象物W之檢測之成功與否而特定出。即，學習部41b係於作為行動a使光學參數變化之後，根據該光學參數使機器人1、2動作，藉由檢測部42獲取攝像部21拍攝到之圖像。然後，學習部41b基於該光學參數執行模板匹配處理，判定對象物W之檢測是否成功。進而，學習部41b根據檢測之成功與否而決定行動a、狀態s、s'之回報。該回報只要可基於對象物W之檢測之成功與否而決定即可，例如可採用對檢測之成功賦予正(例如＋1)之回報，對檢測之失敗賦予負(例如－1)之回報之構成等。根據該構成，能以提高對象物之檢測精度之方式進行最佳化。於在當前之狀態s下採用行動a之情形時之下一狀態s'可藉由如下方法而特定出，即，於進行作為行動a之參數之變化之後使機器人1、2動作，並由狀態觀測部41a觀測狀態。再者，於本例之光學參數之學習中，機器人3不動作。於圖7所示之例中，狀態變數包含攝像部21之x座標、y座標、照明部22之x座標、y座標、照明部22之亮度、平滑化處理之強度、銳化處理之強度、模板匹配之閾值、及藉由攝像部21拍攝到之圖像。因此，於該例中，狀態觀測部41a係於執行行動a之後，將機器人1之編碼器E1～E6之輸出基於U1進行轉換，並觀測攝像部21之x座標及y座標。又，狀態觀測部41a係於執行行動a之後，將機器人2之編碼器E1～E6之輸出基於U1進行轉換，並觀測照明部22之x座標及y座標。於本實施形態中，照明部22之亮度被視為可根據參數44a而無誤差地調整(或被視為不受誤差影響)，狀態觀測部41a獲取參數44a中所包含照明部之亮度，並視為觀測到狀態變數。理所當然，照明部22之亮度亦可藉由感測器等進行實測，亦可基於攝像部21拍攝到之圖像(例如根據平均灰度值等)進行觀測。狀態觀測部41a係針對平滑化處理之強度、銳化處理之強度、模板匹配之閾值，亦參照參數44a獲取當前之值，並視為觀測到狀態變數。進而，於狀態觀測部41a中，獲取攝像部21拍攝且檢測部42獲取之圖像以作為狀態變數(圖7所示之粗框)。即，狀態觀測部41a觀測攝像部21拍攝到之圖像(亦可為對象物可能存在之關注區域等之圖像)之每個像素之灰度值以作為狀態變數。攝像部之x座標等為行動並且為作為觀測對象之狀態，但攝像部21拍攝到之圖像並非行動。因此，於該意義下，拍攝到之圖像係可能產生難以根據光學參數之變化直接推定之變化之狀態變數。又，檢測部42基於該圖像檢測對象物，因此該圖像係可能對檢測之成功與否直接造成影響之狀態變數。因此，藉由觀測該圖像以作為狀態變數，能進行難以人為地進行改善之參數之改善，以有效地提高檢測部42之檢測精度之方式將光學參數最佳化。(4-2)光學參數之學習例：其次，對光學參數之學習例進行說明。表示學習之過程中所參照之變數或函數之資訊係作為學習資訊44e而記憶於記憶部44。即，運算部41採用藉由反覆進行狀態變數之觀測、與該狀態變數相應之行動之決定、藉由該行動而獲得之回報之評估而使行動價值函數Q(s，a)收斂之構成。因此，於本例中，於學習之過程中，狀態變數、行動及回報之時間序列之值依次記錄至學習資訊44e。行動價值函數Q(s，a)可藉由各種方法而算出，亦可基於多次試行而算出，於本實施形態中，採用作為近似地算出行動價值函數Q(s，a)之一方法之DQN(Deep Q-Network，深度Q網路)。於DQN中，使用多層類神經網路推定行動價值函數Q(s，a)。於本例中，採用將狀態s設為輸入，將可選擇之行動之數量N個行動價值函數Q(s，a)之值設為輸出之多層類神經網路。圖8係模式性地表示於本例中採用之多層類神經網路之圖。於圖8中，多層類神經網路將M個(M為2以上之整數)狀態變數設為輸入，將N個(N為2以上之整數)行動價值函數Q之值設為輸出。例如，若為圖7所示之例，則攝像部之x座標至模板匹配之閾值為止之8個狀態變數與拍攝到之圖像之像素數之和為M個，M個狀態變數之值被輸入至多層類神經網路。於圖8中，將試行序號t中之M個狀態表示為s_1t ～s_Mt 。N個係可選擇之行動a之數量，多層類神經網路之輸出係於在輸入之狀態s下選擇特定之行動a之情形時之行動價值函數Q之值。於圖8中，將於試行序號t中可選擇之行動a_1t ～a_Nt 之各者中之行動價值函數Q表示為Q(s_t ，a_1t )～Q(s_t ，a_Nt )。該Q中所包含之s_t 係代表輸入之狀態s_1t ～s_Mt 而表示之文字。若為圖7所示之例，則可選擇16個行動，因此為N＝16。理所當然，行動a之內容或數量(N之值)、狀態s之內容或數量(M之值)亦可根據試行序號t而變化。圖8所示之多層類神經網路係如下之模型：於各層之各節點執行對於上一層之輸入(於第1層為狀態s)之權重w之乘法及偏壓b之加法，並視需要執行獲得經由活化函數之輸出(成為下一層之輸入)之運算。於本例中，層DL存在P個(P為1以上之整數)，於各層中存在複數個節點。圖8所示之多層類神經網路係藉由各層中之權重、偏壓b、活化函數、及層之順序等而特定出。因此，於本實施形態中，用以特定出該多層類神經網路之參數(為了根據輸入獲得輸出所必需之資訊)係作為學習資訊44e而記錄於記憶部44。再者，於學習時，於用以特定出多層類神經網路之參數中更新可變之值(例如權重w及偏壓b)。此處，將學習之過程中可能變化之多層類神經網路之參數記為θ。若使用該θ，則上述行動價值函數Q(s_t ，a_1t )～Q(s_t ，a_Nt )亦可記為Q(s_t ，a_1t ；θ_t )～Q(s_t ，a_Nt ；θ_t )。其次，按照圖9所示之流程圖對學習處理之順序進行說明。光學參數之學習處理可於機器人1、2之運用過程中實施，亦可於實際運用之前事先執行學習處理。此處，按照於實際運用之前事先執行學習處理之構成(若表示多層類神經網路之θ被最佳化，則其資訊被保存，且可於下次以後之運用中利用之構成)，對學習處理進行說明。若開始學習處理，則運算部41將學習資訊44e初始化(步驟S200)。即，運算部41係於開始學習時特定出參照之θ之初始值。初始值可藉由各種方法而決定，於過去未進行學習之情形時，可使任意值或隨機值等成為θ之初始值，亦可準備模擬機器人1、2或攝像部21、照明部22之光學特性之模擬環境，將基於該環境而學習或推定出之θ設為初始值。於過去已進行學習之情形時，可採用該已學習之θ作為初始值。又，於過去已進行針對類似之對象之學習之情形時，亦可將該學習中之θ設為初始值。過去之學習可使用機器人1、2由使用者進行，亦可由機器人1、2之製造者於機器人1、2之出售前進行。於該情形時，亦可為如下構成：製造者根據對象物或作業之種類而預先準備複數個初始值之設定，使用者於學習時選擇初始值。若θ之初始值被決定，則該初始值作為當前之θ之值被記憶至學習資訊44e。其次，運算部41將參數初始化(步驟S205)。此處，由於光學參數為學習對象，故而運算部41將光學參數初始化。即，運算部41將機器人1之編碼器E1～E6之輸出根據對應關係U1進行轉換，將攝像部21之位置設定為初始值。又，運算部41將預先決定之初始曝光時間(於過去已進行學習之情形時為最新之曝光時間)設定為攝像部21之曝光時間之初始值。進而，運算部41將控制信號輸出至攝像部21，將當前之光圈之值設定為初始值。進而，運算部41將機器人2之編碼器E1～E6之輸出根據對應關係U1進行轉換，將照明部22之位置設定為初始值。又，運算部41將預先決定之初始亮度(於過去已進行學習之情形時為最新之亮度)設定為照明部22之亮度之初始值。進而，運算部41針對平滑化處理之強度、銳化處理之強度、模板匹配之閾值、圖像處理序列設定預先決定之初始值(於過去已進行學習之情形時為最新之值)。經初始化之參數係作為當前之參數44a而被記憶於記憶部44。其次，狀態觀測部41a觀測狀態變數(步驟S210)。即，控制部43參照參數44a及機器人程式44b控制機器人1、2。檢測部42於控制後之狀態下基於攝像部21拍攝到之圖像，執行對象物W之檢測處理(相當於上述步驟S100、S105)。其後，狀態觀測部41a將機器人1之編碼器E1～E6之輸出基於U1進行轉換，而觀測攝像部21之x座標及y座標。又，狀態觀測部41a將機器人2之編碼器E1～E6之輸出基於U1進行轉換，而觀測照明部22之x座標及y座標。進而，狀態觀測部41a參照參數44a，獲取應於照明部22設定之亮度，並視為觀測到狀態變數。進而，狀態觀測部41a針對平滑化處理之強度、銳化處理之強度、模板匹配之閾值，亦參照參數44a獲取當前之值，並視為觀測到狀態變數。進而，於狀態觀測部41a中，獲取攝像部21拍攝且檢測部42獲取之圖像，並獲取各像素之灰度值作為狀態變數。其次，學習部41b算出行動價值(步驟S215)。即，學習部41b參照學習資訊44e獲取θ，將最新之狀態變數輸入至學習資訊44e所示之多層類神經網路，並算出N個行動價值函數Q(s_t ，a_1t ；θ_t )～Q(s_t ，a_Nt ；θ_t )。再者，最新之狀態變數係於初次執行時為步驟S210之觀測結果，於第2次以後之執行時為步驟S225之觀測結果。又，試行序號t係於初次執行時成為0，於第2次以後之執行時成為1以上之值。於過去未實施學習處理之情形時，學習資訊44e所示之θ未被最佳化，因此作為行動價值函數Q之值可能成為不準確之值，但藉由步驟S215以後之處理之重複，行動價值函數Q逐漸最佳化。又，於步驟S215以後之處理之重複中，狀態s、行動a、回報r係與各試行序號t建立對應關係地記憶至記憶部44，能以任意時序進行參照。其次，學習部41b選擇行動並執行(步驟S220)。於本實施形態中，進行將行動價值函數Q(s，a)最大化之行動a被視為最佳行動之處理。因此，學習部41b於在步驟S215中算出之N個行動價值函數Q(s_t ，a_1t ；θ_t )～Q(s_t ，a_Nt ；θ_t )之值中特定出最大之值。然後，學習部41b選擇賦予最大之值之行動。例如，若於N個行動價值函數Q(s_t ，a_1t ；θ_t )～Q(s_t ，a_Nt ；θ_t )之中，Q(s_t ，a_Nt ；θ_t )為最大值，則學習部41b選擇行動a_Nt 。若選擇行動，則學習部41b使與該行動對應之參數44a變化。例如，於圖7所示之例中，於選擇使攝像部之x座標增加一定值之行動a1之情形時，學習部41b於光學參數之攝像部參數所示之攝像部之位置使x座標增加一定值。若參數44a變化，則控制部43參照該參數44a控制機器人1、2。檢測部42於控制後之狀態下基於攝像部21拍攝到之圖像，執行對象物W之檢測處理。其次，狀態觀測部41a觀測狀態變數(步驟S225)。即，狀態觀測部41a進行與步驟S210中之狀態變數之觀測相同之處理，作為狀態變數，獲取攝像部21之x座標及y座標、照明部22之x座標及y座標、應於照明部22設定之亮度、平滑化處理之強度、銳化處理之強度、模板匹配之閾值、攝像部21拍攝到之圖像之各像素之灰度值。再者，於當前之試行序號為t之情形時(於所選擇之行動為a_t 之情形時)，於步驟S225中獲取之狀態s為s_t+1 。其次，學習部41b對回報進行評估(步驟S230)。於本例中，回報可基於對象物W之檢測之成功與否而決定。因此，學習部41b自檢測部42獲取對象物之檢測結果之成功與否(步驟S105之成功與否)，若檢測成功則獲取既定量之正回報，若檢測失敗則獲取既定量之負回報。再者，於當前之試行序號為t之情形時，於步驟S230中獲取之回報r為r_t+1 。於本實施形態中，係以式(2)所示之行動價值函數Q之更新為目標，但為了恰當地更新行動價值函數Q，必須將表示行動價值函數Q之多層類神經網路最佳化(將θ最佳化)。為了藉由圖8所示之多層類神經網路恰當地輸出行動價值函數Q，需要有成為該輸出之目標之指導資料。即，藉由以將多層類神經網路之輸出與目標之誤差最小化之方式改善θ，可期待多層類神經網路被最佳化。但是，於本實施形態中，於學習未完成之階段內無行動價值函數Q之見解，難以特定出目標。因此，於本實施形態中，藉由將式(2)之第2項、所謂TD誤差(Temporal Difference，時間差分)最小化之目標函數，實施表示多層類神經網路之θ之改善。即，將(r_t+1 ＋γmax_a' Q(s_t+1 ，a'；θ_t ))設為目標，以目標與Q(s_t ，a_t ；θ_t )之誤差最小化之方式學習θ。但是，由於目標(r_t+1 ＋γmax_a' Q(s_t+1 ，a'；θ_t ))包含學習對象之θ，故而於本實施形態中，經過某程度之試行次數而固定目標(例如，藉由最後學習之θ(初次學習時為θ之初始值)固定)。於本實施形態中，作為固定目標之試行次數之既定次數被預先決定。由於在此種前提下進行學習，故而若於步驟S230中評估回報，則學習部41b算出目標函數(步驟S235)。即，學習部41b算出用以評估試行之各者中之TD誤差的目標函數(例如，與TD誤差之平方之期望值成比例之函數或TD誤差之平方之總和等)。再者，由於TD誤差係於目標固定之狀態下算出，故而若將被固定之目標記為(r_t+1 ＋γmax_a' Q(s_t+1 ，a'；θ_- ))，則TD誤差為(r_t+1 ＋γmax_a' Q(s_t+1 ，a'；θ_- )－Q(s_t ，a_t ；θ_t ))。於該TD誤差之式中，回報r_t+1 係藉由行動a_t 而於步驟S230中獲得之回報。又，max_a' Q(s_t+1 ，a'；θ_- )係於將利用行動a_t 於步驟S225中算出之狀態s_t+1 設為藉由被固定之θ_- 而特定出之多層類神經網路之輸入之情形時所獲得的輸出中之最大值。Q(s_t ，a_t ；θ_t )係於將選擇行動a_t 之前之狀態s_t 設為藉由試行序號t之階段之θ_t 而特定出之多層類神經網路之輸入之情形時所獲得之輸出中，與行動a_t 對應之輸出之值。若算出目標函數，則學習部41b判定學習是否已結束(步驟S240)。於本實施形態中，用以判定TD誤差是否足夠小之閾值被預先決定，於目標函數為閾值以下之情形時，學習部41b判定為學習已結束。於在步驟S240中未判定為學習已結束之情形時，學習部41b更新行動價值(步驟S245)。即，學習部41b基於TD誤差之利用θ之偏微分而特定出用以減小目標函數之θ之變化，使θ變化。理所當然，此處，可藉由各種方法使θ變化，例如可採用RMSProp(Root Mean Square Propagation，均方根傳播)等梯度下降法。又，亦可適當實施利用學習率等之調整。根據以上之處理，能以行動價值函數Q接近於目標之方式使θ變化。但是，於本實施形態中，如上述般目標固定，因此學習部41b進而進行是否更新目標之判定。具體而言，學習部41b判定是否已進行既定次數之試行(步驟S250)，於在步驟S250中判定為已進行既定次數之試行之情形時，學習部41b更新目標(步驟S255)。即，學習部41b將於算出目標時所參照之θ更新為最新之θ。其後，學習部41b重複進行步驟S215以後之處理。另一方面，若於步驟S250中未判定為已進行既定次數之試行，則學習部41b跳過步驟S255重複進行步驟S215以後之處理。於在步驟S240中判定為學習已結束之情形時，學習部41b更新學習資訊44e(步驟S260)。即，學習部41b將藉由學習而獲得之θ作為於利用機器人1、2而進行之作業或利用檢測部42之檢測時應參照之θ，記錄至學習資訊44e。於記錄有包含該θ之學習資訊44e之情形時，於如步驟100～S105般進行利用機器人1、2而進行之作業時，檢測部42基於參數44a而進行對象物之檢測處理。而且，於重複進行利用攝像部21之攝像直至利用檢測部42之檢測成功為止之步驟中，重複進行利用狀態觀測部41a而進行之當前狀態之觀測、及利用學習部41b而進行之行動之選擇。理所當然，此時，學習部41b於將狀態設為輸入而算出之輸出Q(s，a)之中選擇賦予最大值之行動a。然後，於選擇行動a之情形時，以成為相當於已進行行動a之狀態之值之方式更新參數44a。根據以上之構成，檢測部42可一面選擇行動價值函數Q被最大化之行動a，一面執行對象物之檢測處理。該行動價值函數Q係藉由上述處理而被反覆進行大量之試行，結果被最佳化。而且，該試行係藉由運算部41自動地進行，可容易地執行無法人為地實施之程度之大量之試行。因此，根據本實施形態，能以較人為地決定之光學參數更高之概率高精度地檢測對象物。進而，於本實施形態中，檢測部42為檢測對象物之位置姿勢之構成，因此，根據本實施形態，能高精度地檢測對象物之位置姿勢。進而，根據本實施形態，可基於經最佳化之行動價值函數Q，算出作為光學參數之攝像部參數。因此，能以提高對象物之檢測精度之方式調整攝像部21。進而，根據本實施形態，可基於經最佳化之行動價值函數Q，算出作為光學參數之照明部參數。因此，能以提高對象物之檢測精度之方式調整照明部22。進而，根據本實施形態，可基於經最佳化之行動價值函數Q，算出作為光學參數之圖像處理參數。因此，變為能執行提高對象物之檢測精度之圖像處理。進而，根據本實施形態，可自動地將行動價值函數Q最佳化，因此，可容易地算出高精度地檢測對象物之光學參數。又，由於行動價值函數Q之最佳化可自動地進行，故而最佳之光學參數之算出亦可自動地進行。進而，於本實施形態中，學習部41b係基於作為狀態變數之圖像而決定使光學參數變化之行動，將光學參數最佳化。因此，可基於在藉由照明部22進行照明之實際環境下藉由攝像部21實際上拍攝到之圖像，將光學參數最佳化。因此，能以成為與機器人1、2之使用環境相應之光學參數之方式最佳化。於本實施形態中，攝像部21之位置及照明部22之位置包含於行動，可藉由基於該行動將行動價值函數Q最佳化，而將攝像部21之位置及照明部22之位置相關之參數44a最佳化。因此，於學習後，至少攝像部21與照明部22之相對位置關係被理想化。又，若對象物W被置於作業台之固定位置或大致固定之位置，則於學習後，亦可認為攝像部21及照明部22之於機器人座標系統中之位置被理想化。進而，於本實施形態中，藉由攝像部21拍攝到之圖像係作為狀態而被觀測。因此，根據本實施形態，與各種圖像之狀態對應之攝像部21之位置或照明部22之位置被理想化。(4-3)動作參數之學習：於動作參數之學習中，亦可選擇學習對象之參數，此處，對其一例進行說明。圖10係藉由與圖7相同之模型對動作參數之學習例進行說明之圖。本例亦基於式(2)而將行動價值函數Q(s，a)最佳化。因此，將經最佳化之行動價值函數Q(s，a)最大化之行動a被視為最佳行動，表示該行動a之參數44a被視為經最佳化之參數。於動作參數之學習中，亦為使動作參數變化相當於行動之決定，表示學習對象之參數及可取之行動之行動資訊44d被預先記錄於記憶部44。即，於該行動資訊44d中作為學習對象而被記述之動作參數成為學習對象。於圖10中，機器人3中之動作參數中之伺服增益及加減速特性為學習對象，動作之起點及終點未成為學習對象。再者，動作之起點及終點為教示位置，於本實施形態中未教示其他位置。因此，於本實施形態中為不包含對機器人3進行教示之教示位置之構成。具體而言，動作參數中之伺服增益Kpp、Kpi、Kpd、Kvp、Kvi、Kvd可針對馬達M1～M6之各者而定義，可針對6軸之各者而增減。因此，於本實施形態中，可針對每1軸使6個伺服增益之各者增加或減少，關於增加可選擇36個行動，關於減少亦可選擇36個行動，共計72個行動(行動a1～a72)。另一方面，動作參數中之加減速特性係如圖4所示般之特性，可針對馬達M1～M6之各者(針對6軸)而定義。於本實施形態中，加減速特性係可使加速域中之加速度、減速域中之加速度、車速大於0之期間之長度(圖4所示之t₄ )變化。再者，於本實施形態中，加速域或減速域中之曲線可藉由加速度之增減而定義，例如，增減後之加速度表示曲線中央之斜率，該中央之周圍之曲線係按照預先決定之規則而變化。理所當然，加減速特性之調整法除此以外亦可採用各種方法。總而言之，於本實施形態中，每1軸可藉由3個要素(加速域、減速域、期間)調整加減速特性，可增加或減少與各要素對應之數值(加速度、期間長度)。因此，關於增加可選擇18個行動，關於減少亦可選擇18個行動，共計36個行動(行動a73～a108)。於本實施形態中，與如以上般預先定義之行動之選項對應之參數係作為學習對象而記述於行動資訊44d。又，用以特定出各行動之資訊(行動之ID、各行動中之增減量等)記述於行動資訊44d。於圖10所示之例中，回報可基於機器人3所進行之作業之好壞而進行評估。即，學習部41b係於作為行動a使動作參數變化之後，根據該動作參數使機器人3動作，執行拾取藉由檢測部42檢測出之對象物之作業。進而，學習部41b觀測作業之好壞，並對作業之好壞進行評估。然後，學習部41b根據作業之好壞決定行動a、狀態s、s'之回報。再者，作業之好壞不僅包含作業之成功與否(拾取成功與否等)，而且包含作業之品質。具體而言，學習部41b基於未圖示之計時電路而獲取自作業之開始至結束為止(自步驟S110之開始起至於步驟S125中判定為結束為止)之所需時間。然後，學習部41b於作業之所需時間較基準更短之情形時賦予正(例如＋1)之回報，於作業之所需時間較基準更長之情形時賦予負(例如－1)之回報。再者，基準可藉由各種要素而特定出，例如，可為上次作業之所需時間，亦可為過去之最短所需時間，亦可為預先決定之時間。進而，學習部41b於作業之各步驟中，將機器人3之編碼器E1～E6之輸出基於U1進行轉換而獲取夾持器23之位置。然後，學習部41b獲取各步驟之目標位置(終點)、與步驟結束時之夾持器23之位置之偏移量，於夾持器23之位置與目標位置之偏移量小於基準之情形時賦予正回報，於大於基準之情形時賦予負回報。再者，基準可藉由各種要素而特定出，例如，可為上次之偏移量，亦可為過去之最短之偏移量，亦可為預先決定之偏移量。進而，學習部41b於進行整定以前之特定期間內獲取於作業之各步驟中所獲取之夾持器23之位置，而獲取該期間內之振動強度。然後，學習部41b於該振動強度之程度小於基準之情形時賦予正回報，於大於基準之情形時賦予負回報。再者，基準可藉由各種要素而特定出，例如，可為上次之振動強度之程度，亦可為過去之最小振動強度之程度，亦可為預先決定之振動強度之程度。振動強度之程度可藉由各種方法而特定出，可採用自目標位置背離之積分值或產生閾值以上之振動之期間等各種方法。再者，特定期間可設為各種期間，若為自步驟之起點至終點之期間，則評估動作中之振動強度所得之回報，若步驟之末期被設為特定期間，則評估殘留振動之強度所得之回報。進而，學習部41b於進行整定以前之特定期間內獲取於作業之各步驟之末期所獲取之夾持器23之位置，獲取該期間內之自目標位置之背離之最大值作為過衝量。然後，學習部41b於該過衝量小於基準之情形時賦予正回報，於大於基準之情形時賦予負回報。再者，基準可藉由各種要素而特定出，例如，可為上次之過衝量之程度，亦可為過去之最小過衝量，亦可為預先決定之過衝量。進而，於本實施形態中，於控制裝置40、機器人1～3、作業台等之至少1處安裝有集音裝置，學習部41b獲取表示於作業中集音裝置所獲取之聲音之資訊。然後，學習部41b於作業中之產生音之大小小於基準之情形時賦予正回報，於大於基準之情形時賦予負回報。再者，基準可藉由各種要素而特定出，例如，可為上次作業或步驟之產生音之大小之程度，亦可為過去之產生音之大小之最小值，亦可為預先決定之大小。又，產生音之大小可藉由音壓之最大值而進行評估，亦可藉由特定期間內之音壓之統計值(平均值等)而進行評估，可採用各種構成。於在當前之狀態s下採用行動a之情形時之下一狀態s'可藉由如下方式而特定出，即，於進行作為行動a之參數之變化之後使機器人3動作，並由狀態觀測部41a觀測狀態。再者，本例之動作參數之學習係於利用機器人1、2而進行之對象物之檢測完成後，關於機器人3而執行。於圖10所示之例中，狀態變數包含馬達M1～M6之電流、編碼器E1～E6之值、力感測器P之輸出。因此，狀態觀測部41a可觀測供給至馬達M1～M6之電流值，以作為伺服43d之控制結果。該電流值相當於由馬達M1～M6輸出之轉矩。又，編碼器E1～E6之輸出係基於對應關係U1而被轉換為機器人座標系統中之TCP之位置。因此，狀態觀測部41a變為觀測機器人3所具備之夾持器23之位置資訊。力感測器P之輸出可藉由進行積分而轉換為機器人之位置。即，狀態觀測部41a係藉由基於對應關係U2對機器人座標系統中對於TCP之作用力進行積分而獲取TCP之位置。因此，於本實施形態中，狀態觀測部41a亦利用力感測器P之輸出，觀測機器人3所具備之夾持器23之位置資訊。再者，狀態可藉由各種方法進行觀測，亦可觀測未進行上述轉換之值(電流值或編碼器、力感測器之輸出值)以作為狀態。狀態觀測部41a並非直接觀測作為行動之伺服增益或加減速特性之調整結果，而是將調整之結果、藉由機器人3而獲得之變化設為馬達M1～M6之電流、編碼器E1～E6之值、力感測器P之輸出進行觀測。因此，變為間接地觀測行動所產生之影響，於該意義下，本實施形態之狀態變數係可能產生難以根據動作參數之變化而直接推定之變化之狀態變數。又，馬達M1～M6之電流、編碼器E1～E6之值、力感測器P之輸出直接表示機器人3之動作，該動作直接表示作業之好壞。因此，可藉由觀測馬達M1～M6之電流、編碼器E1～E6之值、力感測器P之輸出作為狀態變數，而進行難以人為地進行改善之參數之改善，而以有效地提高作業之品質之方式將動作參數最佳化。其結果，能以較高之概率算出較人為地決定之動作參數進行更高性能之動作之動作參數。(4-4)動作參數之學習例：其次，對動作參數之學習例進行說明。表示於學習之過程中所參照之變數或函數之資訊係作為學習資訊44e而記憶於記憶部44。即，運算部41可採用藉由反覆進行狀態變數之觀測、與該狀態變數相應之行動之決定、及藉由該行動而獲得之回報之評估而使行動價值函數Q(s，a)收斂之構成。因此，於本例中，於學習之過程中狀態變數、行動及回報之時間序列之值依次被記錄至學習資訊44e。再者，於本實施形態中，動作參數之學習係於位置控制模式下執行。為了執行位置控制模式下之學習，可產生僅由位置控制模式構成之作業以作為機器人3之機器人程式44b，亦可於產生包含任意模式之作業以作為機器人3之機器人程式44b之狀況下，僅使用其中之位置控制模式進行學習。行動價值函數Q(s，a)可藉由各種方法而算出，亦可基於很多次試行而算出，此處，對藉由DQN將行動價值函數Q最佳化之例進行說明。於行動價值函數Q之最佳化中利用之多層類神經網路係於上述圖8中模式性地表示。若為觀測如圖10所示般之狀態之本例，則機器人3中之馬達M1～M6之電流、編碼器E1～E6之值、力感測器P之輸出(6軸之輸出)為狀態，因此狀態s之數量M＝18。又，若為可選擇圖10所示之行動之本例，則可選擇108個行動，因此N＝108。理所當然，行動a之內容或數量(N之值)、狀態s之內容或數量(M之值)亦可根據試行序號t而變化。於本實施形態中，亦為用以特定出該多層類神經網路之參數(為了根據輸入獲得輸出所必需之資訊)作為學習資訊44e而記錄於記憶部44。此處亦將於學習之過程中可能變化之多層類神經網路之參數記為θ。若使用該θ，則上述行動價值函數Q(s_t ，a_1t )～Q(s_t ，a_Nt )亦可記為Q(s_t ，a_1t ；θ_t )～Q(s_t ，a_Nt ；θ_t )。其次，按照圖9所示之流程圖對學習處理之順序進行說明。動作參數之學習處理可於機器人3之運用過程中實施，亦可於實際運用之前事先執行學習處理。此處，按照於實際運用之前事先執行學習處理之構成(若表示多層類神經網路之θ被最佳化，則其資訊被保存，且可於下次以後之運用中利用之構成)，對學習處理進行說明。若開始學習處理，則運算部41將學習資訊44e初始化(步驟S200)。即，運算部41特定出於開始學習時所參照之θ之初始值。初始值可藉由各種方法而決定，於過去未進行學習之情形時，可使任意值或隨機值等成為θ之初始值，亦可準備模擬機器人3或對象物之模擬環境，將基於該環境而學習或推定出之θ設為初始值。於過去已進行學習之情形時，採用該已學習之θ作為初始值。又，於過去已進行針對類似之對象之學習之情形時，亦可將該學習中之θ設為初始值。過去之學習可使用機器人3由使用者進行，亦可由機器人3之製造者於機器人3之出售前進行。於該情形時，亦可為如下構成：製造者預先根據對象物或作業之種類準備複數個初始值之設定，使用者於學習時選擇初始值。若決定θ之初始值，則該初始值作為當前之θ之值被記憶至學習資訊44e。其次，運算部41將參數初始化(步驟S205)。此處，由於動作參數為學習對象，故而運算部41將動作參數初始化。即，若為未進行學習之狀態，則運算部41將藉由教示而產生之參數44a中所包含之動作參數設定為初始值。若為過去已進行某種學習之狀態，則運算部41將於學習時最後利用之參數44a中所包含之動作參數設定為初始值。其次，狀態觀測部41a觀測狀態變數(步驟S210)。即，控制部43參照參數44a及機器人程式44b而控制機器人3(相當於上述步驟S110～S130)。其後，狀態觀測部41a觀測供給至馬達M1～M6之電流值。又，狀態觀測部41a獲取編碼器E1～E6之輸出，並基於對應關係U1轉換為機器人座標系統中之TCP之位置。進而，狀態觀測部41a對力感測器P之輸出進行積分，而獲取TCP之位置。其次，學習部41b算出行動價值(步驟S215)。即，學習部41b參照學習資訊44e而獲取θ，將最新之狀態變數輸入至學習資訊44e所示之多層類神經網路，而算出N個行動價值函數Q(s_t ，a_1t ；θ_t )～Q(s_t ，a_Nt ；θ_t )。再者，最新之狀態變數係於初次執行時為步驟S210之觀測結果，於第2次以後之執行時為步驟S225之觀測結果。又，試行序號t係於初次執行時成為0，於第2次以後之執行時成為1以上之值。於過去未實施學習處理之情形時，學習資訊44e所示之θ未被最佳化，因此作為行動價值函數Q之值可能成為不準確之值，但藉由步驟S215以後之處理之重複，行動價值函數Q逐漸最佳化。又，於步驟S215以後之處理之重複中，狀態s、行動a、回報r係與各試行序號t建立對應關係地記憶至記憶部44，能以任意時序進行參照。其次，學習部41b選擇行動並執行(步驟S220)。於本實施形態中，進行將行動價值函數Q(s，a)最大化之行動a被視為最佳行動之處理。因此，學習部41b於在步驟S215中算出之N個行動價值函數Q(s_t ，a_1t ；θ_t )～Q(s_t ，a_Nt ；θ_t )之值中特定出最大之值。然後，學習部41b選擇賦予最大之值之行動。例如，若於N個行動價值函數Q(s_t ，a_1t ；θ_t )～Q(s_t ，a_Nt ；θ_t )之中，Q(s_t ，a_Nt ；θ_t )為最大值，則學習部41b選擇行動a_Nt 。若選擇行動，則學習部41b使與該行動對應之參數44a變化。例如，於圖10所示之例中，於選擇使馬達M1之伺服增益Kpp增加一定值之行動a1之情形時，學習部41b使動作參數所示之馬達M1之伺服增益Kpp之值增加一定值。若參數44a變化，則控制部43參照該參數44a控制機器人3，使其執行一連串之作業。再者，於本實施形態中，每當進行行動選擇則執行一連串之作業，但亦可為每當進行行動選擇則執行一連串之作業之一部分之構成(執行構成一連串之作業之複數個步驟中之至少1個步驟之構成)。其次，狀態觀測部41a觀測狀態變數(步驟S225)。即，狀態觀測部41a進行與步驟S210中之狀態變數之觀測相同之處理，作為狀態變數，獲取供給至馬達M1～M6之電流值、基於編碼器E1～E6之輸出而特定出之TCP之位置、基於力感測器P之輸出而特定出之TCP之位置。再者，於當前之試行序號為t之情形時(於所選擇之行動為a_t 之情形時)，於步驟S225中獲取之狀態s為s_t+1 。其次，學習部41b對回報進行評估(步驟S230)。即，學習部41b基於未圖示之計時電路而獲取自作業之開始至結束為止之所需時間，於作業之所需時間較基準更短之情形時獲取正回報，於作業之所需時間較基準更長之情形時獲取負回報。進而，學習部41b獲取作業之各步驟之結束階段內之夾持器23之位置，獲取與各步驟之目標位置之偏移量。然後，學習部41b於夾持器23之位置與目標位置之偏移量小於基準之情形時賦予正回報，於大於基準之情形時獲取負回報。於一連串之作業由複數個步驟構成之情形時，可獲取各步驟之回報之和，亦可獲取統計值(平均值等)。進而，學習部41b基於在作業之各步驟中所獲取之夾持器23之位置而獲取振動強度。然後，學習部41b於該振動強度之程度小於基準之情形時獲取正回報，於大於基準之情形時獲取負回報。於一連串之作業由複數個步驟構成之情形時，可獲取各步驟之回報之和，亦可獲取統計值(平均值等)。進而，學習部41b基於在作業之各步驟之末期所獲取之夾持器23之位置而獲取過衝量。然後，學習部41b於該過衝量小於基準之情形時獲取正回報，於大於基準之情形時獲取負回報。於一連串之作業藉由複數個步驟構成之情形時，可獲取各步驟之回報之和，亦可獲取統計值(平均值等)。進而，學習部41b獲取表示於作業中集音裝置所獲取之聲音之資訊。然後，學習部41b於作業中之產生音之大小小於基準之情形時獲取正回報，於大於基準之情形時獲取負回報。再者，於當前之試行序號為t之情形時，於步驟S230中獲取之回報r為r_t+1 。於本例中，亦以式(2)所示之行動價值函數Q之更新為目標，但為了恰當地更新行動價值函數Q，必須將表示行動價值函數Q之多層類神經網路最佳化(將θ最佳化)。而且，為了藉由圖8所示之多層類神經網路恰當地輸出行動價值函數Q，需要有成為該輸出之目標之指導資料。即，若以將多層類神經網路之輸出與目標之誤差最小化之方式改善θ，則可期待多層類神經網路被最佳化。但是，於本實施形態中，於學習未完成之階段內無行動價值函數Q之見解，難以特定出目標。因此，於本實施形態中，藉由將式(2)之第2項、所謂TD誤差最小化之目標函數，實施表示多層類神經網路之θ之改善。即，將(r_t+1 ＋γmax_a' Q(s_t+1 ，a'；θ_t ))設為目標，以目標與Q(s_t ，a_t ；θ_t )之誤差最小化之方式學習θ。但是，由於目標(r_t+1 ＋γmax_a' Q(s_t+1 ，a'；θ_t ))包含學習對象之θ，故而於本實施形態中，經過某程度之試行次數而固定目標(例如，藉由最後學習之θ(初次學習時為θ之初始值)固定)。於本實施形態中，作為固定目標之試行次數之既定次數被預先決定。由於在此種前提下進行學習，故而若於步驟S230中評估回報，則學習部41b算出目標函數(步驟S235)。即，學習部41b算出用以評估試行之各者中之TD誤差的目標函數(例如，與TD誤差之平方之期望值成比例之函數或TD誤差之平方之總和等)。再者，由於TD誤差係於目標固定之狀態下算出，故而若將被固定之目標記為(r_t+1 ＋γmax_a' Q(s_t+1 ，a'；θ_- ))，則TD誤差為(r_t+1 ＋γmax_a' Q(s_t+1 ，a'；θ_- )－Q(s_t ，a_t ；θ_t ))。於該TD誤差之式中，回報r_t+1 係藉由行動a_t 而於步驟S230中獲得之回報。又，max_a' Q(s_t+1 ，a'；θ_- )係於將利用行動a_t 於步驟S225中算出之狀態s_t+1 設為藉由被固定之θ_- 而特定出之多層類神經網路之輸入之情形時所獲得的輸出中之最大值。Q(s_t ，a_t ；θ_t )係於將選擇行動a_t 之前之狀態s_t 設為藉由試行序號t之階段之θ_t 而特定出之多層類神經網路之輸入之情形時所獲得之輸出中，與行動a_t 對應之輸出之值。若算出目標函數，則學習部41b判定學習是否已結束(步驟S240)。於本實施形態中，用以判定TD誤差是否足夠小之閾值被預先決定，於目標函數為閾值以下之情形時，學習部41b判定為學習已結束。於在步驟S240中未判定為學習已結束之情形時，學習部41b更新行動價值(步驟S245)。即，學習部41b基於TD誤差之θ之偏微分而特定出用以減小目標函數之θ之變化，使θ變化。當然，此處，可藉由各種方法使θ變化，例如，可採用RMSProp等梯度下降法。又，亦可適當實施利用學習率等進行之調整。根據以上之處理，能以行動價值函數Q接近於目標之方式使θ變化。惟於本實施形態中，如上述般由於目標固定，因此學習部41b進而進行是否更新目標之判定。具體而言，學習部41b判定是否已進行既定次數之試行(步驟S250)，於在步驟S250中判定為已進行既定次數之試行之情形時，學習部41b更新目標(步驟S255)。即，學習部41b將於算出目標時所參照之θ更新為最新之θ。其後，學習部41b重複進行步驟S215以後之處理。另一方面，若於步驟S250中未判定為已進行既定次數之試行，則學習部41b跳過步驟S255而重複進行步驟S215以後之處理。於在步驟S240中判定為學習已結束之情形時，學習部41b更新學習資訊44e(步驟S260)。即，學習部41b將藉由學習而獲得之θ作為於利用機器人3進行作業時應參照之θ而記錄於學習資訊44e。於已有記錄包含該θ之學習資訊44e之情形時，於如步驟110～S130般利用機器人3進行作業時，控制部43基於參數44a而控制機器人3。且，於該作業之過程中，反覆進行利用狀態觀測部41a而進行之當前狀態之觀測、及利用學習部41b而進行之行動之選擇。當然，此時，學習部41b於將狀態作為輸入而算出之輸出Q(s，a)中選擇賦予最大值之行動a。且，於選擇行動a之情形時，以成為相當於已進行行動a之狀態之值之方式更新參數44a。根據以上之構成，控制部43可一面選擇行動價值函數Q被最大化之行動a，一面執行作業。該行動價值函數Q藉由上述處理而被反覆進行大量之試行後被最佳化。而且，該試行可藉由運算部41自動地進行，可容易地執行無法人為地實施之程度之大量之試行。因此，根據本實施形態，能夠以較人為地決定之動作參數更高之概率提高機器人3之作業之品質。進而，於本實施形態中，作為參數44a之伺服增益根據行動而變化。因此，可自動地調整難以藉由人為之調整進行恰當設定之用以控制馬達之伺服增益。進而，於本實施形態中，作為參數44a之加減速特性根據行動而變化。因此，可自動地調整難以藉由人為之調整進行恰當設定之加減速特性。進而，於本實施形態中，機器人之動作之起點及終點不會根據行動而變化。因此，於本實施形態中，能防止機器人3自預定之起點及終點偏離，而進行使用者之意料外之動作。進而，於本實施形態中，對於機器人之教示位置即起點及終點不會根據行動而變化。因此，於本實施形態中，能防止機器人3自被教示之位置偏離，而進行使用者之意料外之動作。再者，於本實施形態中，教示位置為起點及終點，但其他位置亦可成為教示位置。例如，於在起點與終點之間存在應通過之位置或應取之姿勢之情形時，其等亦可為教示位置(教示姿勢)。進而，於本實施形態中，由於基於機器人3所進行之作業之好壞而對行動所得之回報進行評估，故而能以使機器人3之作業成功之方式將參數最佳化。進而，於本實施形態中，於作業之所需時間較基準更短之情形時將回報評估為正，因此，可容易地算出使機器人3於較短之時間內進行作業之動作參數。進而，於本實施形態中，於機器人3之位置與目標位置之偏移量小於基準之情形時將回報評估為正，因此，可容易地算出使機器人3準確地移動至目標位置之動作參數。進而，於本實施形態中，於振動強度小於基準之情形時將回報評估為正，因此，可容易地算出產生機器人3之動作所引起之振動之可能性較低之動作參數。進而，於本實施形態中，於機器人3之位置之過沖小於基準之情形時將回報評估為正，因此可容易地算出機器人3過沖之可能性較低之動作參數。進而，於本實施形態中，於產生音小於基準之情形時將回報評估為正，因此可容易地算出使機器人3產生異常之可能性較低之動作參數。進而，根據本實施形態，可自動地將行動價值函數Q最佳化，因此，可容易地算出進行高性能之動作之動作參數。又，由於行動價值函數Q之最佳化可自動地進行，故而最佳之動作參數之算出亦可自動地進行。進而，於本實施形態中，於機器人3中藉由通用地使用之力感測器P而獲取機器人3之位置資訊，因此可基於機器人3中通用地使用之感測器算出位置資訊。進而，於本實施形態中，學習部41b對作為狀態變數之機器人3之動作結果進行實測，將動作參數最佳化。因此，可於藉由機器人3進行作業之實際環境下相應地將動作參數最佳化。因此，能以成為與機器人3之使用環境相應之動作參數之方式進行最佳化。進而，於本實施形態中，狀態觀測部41a係於在機器人3設置有作為末端執行器之夾持器23之狀態下觀測狀態變數。又，學習部41b係於在機器人3設置有作為末端執行器之夾持器23之狀態下執行作為行動之參數44a之變更。根據該構成，可容易地算出適於進行使用作為末端執行器之夾持器23之動作之機器人3的動作參數。進而，於本實施形態中，狀態觀測部41a係於作為末端執行器之夾持器23固持有對象物之狀態下觀測狀態變數。又，學習部41b可於作為末端執行器之夾持器23固持有對象物之狀態下執行作為行動之參數44a之變更。根據該構成，可容易地算出適於藉由作為末端執行器之夾持器23固持對象物而進行動作之機器人3的動作參數。(4-5)力控制參數之學習：於力控制參數之學習中，亦可選擇學習對象之參數，此處，對其一例進行說明。圖11係藉由與圖7相同之模型說明力控制參數之學習例之圖。本例亦基於式(2)將行動價值函數Q(s，a)最佳化。因此，將經最佳化之行動價值函數Q(s，a)最大化之行動a被視為最佳行動，表示該行動a之參數44a被視為經最佳化之參數。於力控制參數之學習中，亦為使力控制參數變化相當於行動之決定，表示學習對象之參數及可取之行動之行動資訊44d被預先記錄於記憶部44。即，於該行動資訊44d中作為學習對象而記述之力控制參數成為學習對象。於圖11中，機器人3中之力控制參數中之阻抗參數、力控制座標系統、目標力、機器人3之動作之起點及終點為學習對象。再者，力控制中之動作之起點及終點為教示位置，可能根據力控制參數之學習而變動。又，力控制座標系統之原點為機器人3相對於TCP(工具中心點)之偏移點，於學習前為目標力所作用之作用點。因此，若力控制座標系統(原點座標及軸旋轉角)及目標力變化，則變為相對於TCP之偏移點之位置變化，亦可能產生目標力之作用點並非力控制座標系統之原點之情形。力控制參數中之阻抗參數m、k、d可針對對於機器人座標系統之各軸之平移及旋轉而定義。因此，於本實施形態中，可針對每1軸使3個阻抗參數m、d、k之各者增加或減少，關於增加可選擇18個行動，關於減少亦可選擇18個行動，共計36個行動(行動a1～a36)。另一方面，力控制座標系統可藉由將該座標系統之原點座標、及力控制座標系統之軸之旋轉角度以機器人座標系統作為基準而表現從而定義。因此，於本實施形態中，可進行原點座標之向3軸方向之增減、3軸之軸旋轉角之增減，關於原點座標之增加可進行3個行動，關於減少可進行3個行動，關於軸旋轉角之增加可進行3個行動，關於減少可進行3個行動，可選擇共計12個行動(行動a37～a48)。目標力可藉由目標力向量而表現，可藉由目標力之作用點、及力控制座標系統之6軸各自之成分之大小(3軸之平移力、3軸之轉矩)而定義。因此，於本實施形態中，關於目標力之作用點之向3軸方向之增減可進行6個行動，關於6軸各自之成分之增加可進行6個行動，關於減少可進行6個行動，可選擇共計18個行動(行動a49～a66)。機器人3之動作之起點及終點可沿機器人座標系統之各軸方向進行座標之增減，關於起點之增減可選擇6個行動，關於終點之增減可選擇6個行動，共計12個行動(行動a67～a78)。於本實施形態中，與如以上般預先定義之行動之選項對應之參數係作為學習對象而記述於行動資訊44d。又，用以特定出各行動之資訊(行動之ID、各行動中之增減量等)記述於行動資訊44d。於圖11所示之例中，回報可基於機器人3所進行之作業之好壞而進行評估。即，學習部41b於作為行動a使力控制參數變化之後，根據該力控制參數使機器人3動作，執行拾取藉由檢測部42檢測出之對象物之作業。進而，學習部41b觀測作業之好壞，並對作業之好壞進行評估。然後，學習部41b根據作業之好壞而決定行動a、狀態s、s'之回報。再者，作業之好壞不僅包含作業之成功與否(拾取成功與否等)，而且包含作業之品質。具體而言，學習部41b基於未圖示之計時電路而獲取自作業之開始至結束為止(自步驟S110之開始起至於步驟S125中判定為結束為止)之所需時間。然後，學習部41b於作業之所需時間較基準更短之情形時賦予正(例如＋1)之回報，於作業之所需時間較基準更長之情形時賦予負(例如－1)之回報。再者，基準可藉由各種要素而特定出，例如，可為上次作業之所需時間，亦可為過去之最短所需時間，亦可為預先決定之時間。進而，學習部41b於作業之各步驟中，將機器人3之編碼器E1～E6之輸出基於U1進行轉換，而獲取夾持器23之位置。然後，學習部41b於進行整定以前之特定期間內獲取於作業之各步驟中所獲取之夾持器23之位置，而獲取該期間內之振動強度。然後，學習部41b於該振動強度之程度小於基準之情形時賦予正回報，於大於基準之情形時賦予負回報。再者，基準可藉由各種要素而特定出，例如，可為上次之振動強度之程度，亦可為過去之最小振動強度之程度，亦可為預先決定之振動強度之程度。振動強度之程度可藉由各種方法而特定出，可採用自目標位置背離之積分值或產生閾值以上之振動之期間等各種方法。再者，特定期間可設為各種期間，若為自步驟之起點至終點之期間，則評估動作中之振動強度所得之回報，若步驟之末期被設為特定期間，則評估殘留振動之強度所得之回報。再者，於力控制中，前者之振動強度所得之回報更為重要之情形較多。若前者之振動強度所得之回報更為重要，則亦可設為不評估後者之殘留振動之強度所得之回報之構成。進而，學習部41b係於進行整定以前之特定期間內獲取於作業之各步驟之末期所獲取之夾持器23之位置，而獲取該期間內之自目標位置之背離之最大值作為過衝量。然後，學習部41b於該過衝量小於基準之情形時賦予正回報，於大於基準之情形時賦予負回報。再者，基準可藉由各種要素而特定出，例如，可為上次之過衝量之程度，亦可為過去之最小過衝量，亦可為預先決定之過衝量。進而，於本實施形態中，於控制裝置40、機器人1～3、作業台等之至少1處安裝有集音裝置，學習部41b獲取表示於作業中集音裝置所獲取之聲音之資訊。然後，學習部41b於作業中之產生音之大小小於基準之情形時賦予正回報，於大於基準之情形時賦予負回報。再者，基準可藉由各種要素而特定出，例如，可為上次之作業或步驟之產生音之大小之程度，亦可為過去之產生音之大小之最小值，亦可為預先決定之大小。又，產生音之大小可藉由音壓之最大值進行評估，亦可藉由特定期間內之音壓之統計值(平均值等)而進行評估，可採用各種構成。再者，於力控制參數之學習中，於動作參數之學習中被設為回報之自目標位置之背離不包含於回報。即，於力控制參數之學習中，步驟之起點或終點可能根據學習而變動，因此不包含於回報。於在當前之狀態s下採用行動a之情形時之下一狀態s'可藉由如下方式而特定出，即，於進行作為行動a之參數之變化後使機器人3動作，並由狀態觀測部41a觀測狀態。再者，本例之力控制參數之學習係於利用機器人1、2而進行之對象物之檢測完成後，關於機器人3而執行。於圖11所示之例中，狀態變數包含馬達M1～M6之電流、編碼器E1～E6之值、力感測器P之輸出。因此，狀態觀測部41a觀測供給至馬達M1～M6之電流值作為伺服43d之控制結果。該電流值相當於由馬達M1～M6輸出之轉矩。又，編碼器E1～E6之輸出係基於對應關係U1而被轉換為機器人座標系統中之TCP之位置。因此，狀態觀測部41a變為觀測機器人3所具備之夾持器23之位置資訊。於本實施形態中，可藉由對在機器人之運動中藉由力感測器P檢測出之輸出進行積分，而算出機器人之位置。即，狀態觀測部41a藉由基於對應關係U2於機器人座標系統中對對於運動中之TCP之作用力進行積分而獲取TCP之位置。因此，於本實施形態中，狀態觀測部41a亦利用力感測器P之輸出觀測機器人3所具備之夾持器23之位置資訊。再者，狀態可藉由各種方法而觀測，亦可觀測未進行上述轉換之值(電流值或編碼器、力感測器之輸出值)以作為狀態。狀態觀測部41a並非直接觀測作為行動之阻抗參數或力控制座標系統、步驟之起點及終點之調整結果，而是將調整之結果、藉由機器人3而獲得之變化設為馬達M1～M6之電流、編碼器E1～E6之值、力感測器P之輸出進行觀測。因此，變為間接地觀測行動所產生之影響，於該意義下，本實施形態之狀態變數係可能產生難以根據力控制參數之變化直接推定之變化之狀態變數。又，馬達M1～M6之電流、編碼器E1～E6之值、力感測器P之輸出直接表示機器人3之動作，該動作直接表示作業之好壞。因此，藉由觀測馬達M1～M6之電流、編碼器E1～E6之值、力感測器P之輸出作為狀態變數，能以進行難以人為地進行改善之參數之改善，有效地提高作業之品質之方式將力控制參數最佳化。其結果，能以較高之概率算出較人為地決定之力控制參數進行更高性能之動作之力控制參數。(4-6)力控制參數之學習例：其次，對力控制參數之學習例進行說明。表示於學習之過程中所參照之變數或函數之資訊係作為學習資訊44e而記憶於記憶部44。即，運算部41可採用藉由反覆進行狀態變數之觀測、與該狀態變數相應之行動之決定、及藉由該行動而獲得之回報之評估而使行動價值函數Q(s，a)收斂之構成。因此，於本例中，於學習之過程中狀態變數、行動及回報之時間序列之值依次被記錄至學習資訊44e。再者，於本實施形態中，力控制參數之學習係於力控制模式下執行(於僅進行位置控制之位置控制模式下不進行力控制參數之學習)。為了執行力控制模式下之學習，可產生僅由力控制模式構成之作業以作為機器人3之機器人程式44b，亦可於產生包含任意模式之作業以作為機器人3之機器人程式44b之狀況下，僅使用其中之力控制模式進行學習。行動價值函數Q(s，a)可藉由各種方法而算出，亦可基於很多次試行而算出，此處，對藉由DQN將行動價值函數Q最佳化之例進行說明。於行動價值函數Q之最佳化中利用之多層類神經網路係於上述圖8中模式性地表示。若為觀測如圖11所示般之狀態之本例，則機器人3中之馬達M1～M6之電流、編碼器E1～E6之值、力感測器P之輸出(6軸之輸出)為狀態，因此狀態s之數量M＝18。若為可選擇如圖11所示般之行動之本例，則可選擇60個行動因此N＝78。理所當然，行動a之內容或數量(N之值)、狀態s之內容或數量(M之值)亦可根據試行序號t而變化。於本實施形態中，亦為用以特定出該多層類神經網路之參數(為了根據輸入獲得輸出所必需之資訊)作為學習資訊44e而記錄於記憶部44。此處亦將於學習之過程中可能變化之多層類神經網路之參數記為θ。若使用該θ，則上述行動價值函數Q(s_t ，a_1t )～Q(s_t ，a_Nt )亦可記為Q(s_t ，a_1t ；θ_t )～Q(s_t ，a_Nt ；θ_t )。其次，按照圖9所示之流程圖對學習處理之順序進行說明。力控制參數之學習處理可於機器人3之運用過程中實施，亦可於實際運用之前事先執行學習處理。此處，按照於實際運用之前事先執行學習處理之構成(若表示多層類神經網路之θ被最佳化，則其資訊被保存，且可於下次以後之運用中利用之構成)，對學習處理進行說明。若開始學習處理，則運算部41將學習資訊44e初始化(步驟S200)。即，運算部41特定出於開始學習時所參照之θ之初始值。初始值可藉由各種方法而決定，於過去未進行學習之情形時，可使任意值或隨機值等成為θ之初始值，亦可準備模擬機器人3或對象物之模擬環境，將基於該環境而學習或推定出之θ設為初始值。於過去已進行學習之情形時，採用該已學習之θ作為初始值。又，於過去已進行針對類似之對象之學習之情形時，亦可將該學習中之θ設為初始值。過去之學習可使用機器人3由使用者進行，亦可由機器人3之製造者於機器人3之出售前進行。於該情形時，亦可為如下構成：製造者預先根據對象物或作業之種類準備複數個初始值之設定，使用者於學習時選擇初始值。若θ之初始值被決定，則該初始值作為當前之θ之值被記憶至學習資訊44e。其次，運算部41將參數初始化(步驟S205)。此處，由於力控制參數為學習對象，故而運算部41將力控制參數初始化。即，若為未進行學習之狀態，則運算部41將藉由教示而產生之參數44a中所包含之力控制參數設定為初始值。若為過去已進行某種學習之狀態，則運算部41將於學習時最後利用之參數44a中所包含之力控制參數設定為初始值。其次，狀態觀測部41a觀測狀態變數(步驟S210)。即，控制部43參照參數44a及機器人程式44b而控制機器人3(相當於上述步驟S110～S130)。其後，狀態觀測部41a觀測供給至馬達M1～M6之電流值。又，狀態觀測部41a獲取編碼器E1～E6之輸出，並基於對應關係U1轉換為機器人座標系統中之TCP之位置。進而，狀態觀測部41a對力感測器P之輸出進行積分，而獲取TCP之位置。其次，學習部41b算出行動價值(步驟S215)。即，學習部41b參照學習資訊44e而獲取θ，將最新之狀態變數輸入至學習資訊44e所示之多層類神經網路，而算出N個行動價值函數Q(s_t ，a_1t ；θ_t )～Q(s_t ，a_Nt ；θ_t )。再者，最新之狀態變數係於初次執行時為步驟S210之觀測結果，於第2次以後之執行時為步驟S225之觀測結果。又，試行序號t係於初次執行時成為0，於第2次以後之執行時成為1以上之值。於過去未實施學習處理之情形時，學習資訊44e所示之θ未被最佳化，因此作為行動價值函數Q之值可能成為不準確之值，但藉由步驟S215以後之處理之重複，行動價值函數Q逐漸最佳化。又，於步驟S215以後之處理之重複中，狀態s、行動a、回報r係與各試行序號t建立對應關係地記憶至記憶部44，能以任意時序進行參照。其次，學習部41b選擇行動並執行(步驟S220)。於本實施形態中，進行將行動價值函數Q(s，a)最大化之行動a被視為最佳行動之處理。因此，學習部41b於在步驟S215中算出之N個行動價值函數Q(s_t ，a_1t ；θ_t )～Q(s_t ，a_Nt ；θ_t )之值中特定出最大之值。然後，學習部41b選擇賦予最大之值之行動。例如，若於N個行動價值函數Q(s_t ，a_1t ；θ_t )～Q(s_t ，a_Nt ；θ_t )之中，Q(s_t ，a_Nt ；θ_t )為最大值，則學習部41b選擇行動a_Nt 。若選擇行動，則學習部41b使與該行動對應之參數44a變化。例如，於圖11所示之例中，於選擇使機器人座標系統之x軸相關之阻抗參數m增加一定值之行動a1之情形時，學習部41b使力控制參數所示之x軸相關之阻抗參數m增加一定值。若參數44a變化，則控制部43參照該參數44a而控制機器人3，使其執行一連串之作業。再者，於本實施形態中，每當進行行動選擇則執行一連串之作業，但亦可為每當進行行動選擇則執行一連串之作業之一部分之構成(執行構成一連串之作業之複數個步驟中之至少1個步驟之構成)。其次，狀態觀測部41a觀測狀態變數(步驟S225)。即，狀態觀測部41a進行與步驟S210中之狀態變數之觀測相同之處理，作為狀態變數，獲取供給至馬達M1～M6之電流值、基於編碼器E1～E6之輸出而特定出之TCP之位置、基於力感測器P之輸出而特定出之TCP之位置。再者，於當前之試行序號為t之情形時(於所選擇之行動為a_t 之情形時)，於步驟S225中獲取之狀態s為s_t+1 。其次，學習部41b對回報進行評估(步驟S230)。即，學習部41b基於未圖示之計時電路而獲取自作業之開始至結束為止之所需時間，於作業之所需時間較基準更短之情形時獲取正回報，於作業之所需時間較基準更長之情形時獲取負回報。進而，學習部41b獲取作業之各步驟中之夾持器23之位置，並基於在作業之各步驟中所獲取之夾持器23之位置而獲取振動強度。然後，學習部41b於該振動強度之程度小於基準之情形時獲取正回報，於大於基準之情形時獲取負回報。於一連串之作業由複數個步驟構成之情形時，可獲取各步驟之回報之和，亦可獲取統計值(平均值等)。進而，學習部41b基於在作業之各步驟之末期所獲取之夾持器23之位置而獲取過衝量。然後，學習部41b於該過衝量小於基準之情形時獲取正回報，於大於基準之情形時獲取負回報。於一連串之作業由複數個步驟構成之情形時，可獲取各步驟之回報之和，亦可獲取統計值(平均值等)。進而，學習部41b獲取表示於作業中集音裝置所獲取之聲音之資訊。然後，學習部41b於作業中之產生音之大小小於基準之情形時獲取正回報，於大於基準之情形時獲取負回報。再者，於當前之試行序號為t之情形時，於步驟S230中獲取之回報r為r_t+1 。於本例中，亦以式(2)所示之行動價值函數Q之更新為目標，但為了恰當地更新行動價值函數Q，必須將表示行動價值函數Q之多層類神經網路最佳化(將θ最佳化)。而且，為了藉由圖8所示之多層類神經網路恰當地輸出行動價值函數Q，需要有成為該輸出之目標之指導資料。即，若以將多層類神經網路之輸出與目標之誤差最小化之方式改善θ，則可期待多層類神經網路被最佳化。但是，於本實施形態中，於學習未完成之階段內無行動價值函數Q之見解，難以特定出目標。因此，於本實施形態中，藉由將式(2)之第2項、所謂TD誤差最小化之目標函數，實施表示多層類神經網路之θ之改善。即，將(r_t+1 ＋γmax_a' Q(s_t+1 ，a'；θ_t ))設為目標，以目標與Q(s_t ，a_t ；θ_t )之誤差最小化之方式學習θ。但是，由於目標(r_t+1 ＋γmax_a' Q(s_t+1 ，a'；θ_t ))包含學習對象之θ，故而於本實施形態中，經過某程度之試行次數而固定目標(例如，藉由最後學習之θ(初次學習時為θ之初始值)固定)。於本實施形態中，作為固定目標之試行次數之既定次數被預先決定。由於在此種前提下進行學習，故而若於步驟S230中評估回報，則學習部41b算出目標函數(步驟S235)。即，學習部41b算出用以評估試行之各者中之TD誤差的目標函數(例如，與TD誤差之平方之期望值成比例之函數或TD誤差之平方之總和等)。再者，由於TD誤差係於目標固定之狀態下算出，故而若將被固定之目標記為(r_t+1 ＋γmax_a' Q(s_t+1 ，a'；θ_- ))，則TD誤差為(r_t+1 ＋γmax_a' Q(s_t+1 ，a'；θ_- )－Q(s_t ，a_t ；θ_t ))。於該TD誤差之式中，回報r_t+1 係藉由行動a_t 而於步驟S230中獲得之回報。又，max_a' Q(s_t+1 ，a'；θ_- )係於將利用行動a_t 於步驟S225中算出之狀態s_t+1 設為藉由被固定之θ_- 而特定出之多層類神經網路之輸入之情形時所獲得的輸出中之最大值。Q(s_t ，a_t ；θ_t )係於將選擇行動a_t 之前之狀態s_t 設為藉由試行序號t之階段之θ_t 而特定出之多層類神經網路之輸入之情形時所獲得之輸出中，與行動a_t 對應之輸出之值。若算出目標函數，則學習部41b判定學習是否已結束(步驟S240)。於本實施形態中，用以判定TD誤差是否足夠小之閾值被預先決定，於目標函數為閾值以下之情形時，學習部41b判定為學習已結束。於在步驟S240中未判定為學習已結束之情形時，學習部41b更新行動價值(步驟S245)。即，學習部41b基於TD誤差之利用θ之偏微分而特定出用以減小目標函數之θ之變化，使θ變化。理所當然，此處，可藉由各種方法使θ變化，例如，可採用RMSProp等梯度下降法。又，亦可適當實施利用學習率等之調整。根據以上之處理，能以行動價值函數Q接近於目標之方式使θ變化。但是，於本實施形態中，如上述般由於目標固定，因此學習部41b進而進行是否更新目標之判定。具體而言，學習部41b判定是否已進行既定次數之試行(步驟S250)，於在步驟S250中判定為已進行既定次數之試行之情形時，學習部41b更新目標(步驟S255)。即，學習部41b將於算出目標時所參照之θ更新為最新之θ。其後，學習部41b重複進行步驟S215以後之處理。另一方面，若於步驟S250中未判定為已進行既定次數之試行，則學習部41b跳過步驟S255重複進行步驟S215以後之處理。於在步驟S240中判定為學習已結束之情形時，學習部41b更新學習資訊44e(步驟S260)。即，學習部41b將藉由學習而獲得之θ作為於利用機器人3而進行之作業時應參照之θ，記錄至學習資訊44e。於記錄有包含該θ之學習資訊44e之情形時，於如步驟110～S130般利用機器人3而進行作業時，控制部43基於參數44a而控制機器人3。然後，於該作業之過程中，反覆進行利用狀態觀測部41a而進行之當前狀態之觀測、及利用學習部41b而進行之行動之選擇。理所當然，此時，學習部41b於將狀態設為輸入而算出之輸出Q(s，a)中選擇賦予最大值之行動a。然後，於選擇行動a之情形時，以成為相當於已進行行動a之狀態之值之方式更新參數44a。根據以上之構成，控制部43可一面選擇行動價值函數Q被最大化之行動a，一面執行作業。該行動價值函數Q藉由上述處理而被反覆進行大量之試行，結果被最佳化。而且，該試行可藉由運算部41自動地進行，可容易地執行無法人為地實施之程度之大量之試行。因此，根據本實施形態，能較人為地決定之力控制參數以更高之概率提高機器人3之作業之品質。進而，於本實施形態中，作為參數44a之阻抗參數根據行動而變化。因此，可自動地調整難以藉由人為之調整進行恰當設定之阻抗參數。進而，於本實施形態中，作為參數44a之起點及終點根據行動而變化。因此，能以對人為地設定之起點或終點更高性能地進行力控制之方式自動地調整。進而，於本實施形態中，作為參數44a之力控制座標系統根據行動而變化。其結果，機器人3相對於TCP之偏移點之位置變化。因此，可自動地調整難以藉由人為之調整進行恰當設定之相對於TCP之偏移點之位置。進而，於本實施形態中，作為參數44a之目標力可能根據行動而變化。因此，可自動地調整難以藉由人為之調整進行恰當設定之目標力。尤其是，由於難以將力控制座標系統與目標力之組合人為地理想化，因此其等之組被自動地調整之構成有用。進而，於本實施形態中，由於基於機器人3所進行之作業之好壞而對行動之回報進行評估，故而能以使機器人3之作業成功之方式將參數最佳化。進而，於本實施形態中，於作業之所需時間較基準更短之情形時將回報評估為正，因此，可容易地算出使機器人3於較短之時間內進行作業之力控制參數。進而，於本實施形態中，於振動強度小於基準之情形時將回報評估為正，因此，可容易地算出產生機器人3之動作所引起之振動之可能性較低之力控制參數。進而，於本實施形態中，於機器人3之位置之過沖小於基準之情形時將回報評估為正，因此可容易地算出機器人3過沖之可能性較低之力控制參數。進而，於本實施形態中，於產生音小於基準之情形時將回報評估為正，因此可容易地算出使機器人3產生異常之可能性較低之力控制參數。進而，根據本實施形態，可自動地將行動價值函數Q最佳化，因此，可容易地算出進行高性能之力控制之力控制參數。又，由於行動價值函數Q之最佳化可自動地進行，因此，最佳之力控制參數之算出亦可自動地進行。進而，於本實施形態中，於機器人3中藉由通用地使用之力感測器P而獲取機器人3之位置資訊，因此可基於機器人3中通用地使用之感測器而算出位置資訊。進而，於本實施形態中，學習部41b對作為狀態變數之機器人3之動作結果進行實測，將力控制參數最佳化。因此，可於藉由機器人3進行作業之實際環境下相應地將力控制參數最佳化。因此，能以成為與機器人3之使用環境相應之力控制參數之方式進行最佳化。進而，於本實施形態中，狀態觀測部41a係於在機器人3設置有作為末端執行器之夾持器23之狀態下觀測狀態變數。又，學習部41b係於在機器人3設置有作為末端執行器之夾持器23之狀態下執行作為行動之參數44a之變更。根據該構成，可容易地算出適於進行使用作為末端執行器之夾持器23之動作之機器人3的力控制參數。進而，於本實施形態中，狀態觀測部41a係於作為末端執行器之夾持器23固持有對象物之狀態下觀測狀態變數。又，學習部41b可於作為末端執行器之夾持器23固持有對象物之狀態下執行作為行動之參數44a之變更。根據該構成，可容易地算出適於藉由作為末端執行器之夾持器23固持對象物而進行動作之機器人3的力控制參數。(5)其他實施形態：以上之實施形態係用以實施本發明之一例，除此以外亦可採用各種實施形態。例如，控制裝置可內置於機器人，亦可配備於與機器人之設置場所不同之場所、例如外部之伺服器等。又，控制裝置可由複數個裝置構成，亦可由控制部43與運算部41不同之裝置構成。又，控制裝置可為與機器人控制器、示教板(teaching pendant)、PC(Personal Computer，個人電腦)、網路相連之伺服器等，亦可包含其等。進而，可省略上述實施形態之一部分構成，亦可變動或省略處理之順序。進而，於上述實施形態中，針對TCP設定有目標位置或目標力之初始向量，但亦可針對其他位置、例如關於力感測器P之感測器座標系統之原點或螺絲之前端等，設定目標位置或目標力之初始向量。機器人只要可藉由任意態樣之可動部實施任意之作業即可。末端執行器係被利用於關於對象物之作業之部位，可安裝任意之工具。對象物只要為成為機器人之作業對象之物體即可，可為藉由末端執行器而固持之物體，亦可為藉由末端執行器所具備之工具而處理之物體，各種物體均可成為對象物。作用於機器人之目標力只要為於藉由力控制驅動該機器人時作用於機器人之目標力即可，例如，於將藉由力感測器等力檢測部檢測出之力(或根據該力而算出之力)控制為特定之力時，該力成為目標力。又，可以藉由除力感測器以外之感測器、例如加速度感測器檢測出之力(或根據該力而算出之力)成為目標力之方式被控制，亦可以加速度或角速度成為特定之值之方式被控制。進而，於上述學習處理中，每當試行則藉由θ之更新而更新行動價值，直至進行既定次數之試行為止將目標固定，但亦可於進行複數次試行之後進行θ之更新。例如，可列舉至進行第1既定次數之試行為止目標被固定，至進行第2既定次數(＜第1既定次數)之試行為止將θ固定之構成。於該情形時，成為於第2既定次數之試行後基於第2既定次數之程度之樣品更新θ，進而於試行次數超過第1既定次數之情形時藉由最新之θ更新目標之構成。進而，於學習處理中，可採用公知之各種方法，例如，亦可進行體驗再生或回報之截割(Clipping)等。進而，於圖8中，層DL存在P個(P為1以上之整數)，於各層中存在複數個節點，但各層之構造可採用各種構造。例如，層之數量或節點之數量可採用各種數量，作為活化函數亦可採用各種函數，網路構造亦可變為卷積類神經網路構造等。又，輸入或輸出之態樣亦不限定於圖8所示之例，例如，亦可採用至少利用輸入狀態s及行動a之構成、或將行動價值函數Q最大化之行動a作為獨熱碼(one-hot)向量而被輸出之構成之例。於上述實施形態中，藉由一面基於行動價值函數利用過積極(greedy)策略進行行動而試行，一面將行動價值函數最佳化，而對於經最佳化之行動價值函數之過積極策略被視為最佳策略。該處理係所謂之價值反覆法，但亦可藉由其他方法、例如策略反覆法而進行學習。進而，於狀態s、行動a、回報r等各種變數中，可進行各種標準化。作為機械學習之方法，採用各種方法，亦可藉由基於行動價值函數Q之ε-過積極(ε-greedy)策略而進行試行。又，作為強化學習之方法亦不限定於如上述般之Q學習，亦可使用SARSA(State-Action-Reward-State-Action)等方法。又，亦可利用將策略之模型與行動價值函數之模型分別模型化之方法、例如Actor-Critic運算法。若利用Actor-Critic運算法，則亦可為定義作為表示策略之actor之μ(s；θ)、及作為表示行動價值函數之critic之Q(s，a；θ)，按照對μ(s；θ)施加雜訊之策略產生行動並試行，基於試行結果更新actor及critic，藉此學習策略及行動價值函數之構成。運算部只要可使用機械學習，算出學習對象之參數即可，作為參數，只要為光學參數、圖像處理參數、動作參數、力控制參數中之至少1個即可。機械學習只要為使用樣品資料學習更佳之參數之處理即可，除了上述強化學習以外亦可採用藉由監督式學習或聚類(clustering)等各種方法而學習各參數之構成。光學系統可拍攝對象物。即，具備獲取將包含對象物之區域設為視野之圖像之構成。作為光學系統之構成要素，如上述般，較佳為包含攝像部或照明部，除此以外亦可包含各種構成要素。又，如上述般，攝像部或照明部可藉由機器人之臂而移動，亦可藉由二維移動機構而移動，亦可為固定。理所當然，攝像部或照明部亦可為可更換。又，於光學系統中使用之光(攝像部之檢測光或照明部之輸出光)之帶域並不限定於可見光帶域，可採用使用紅外線或紫外線、X射線等任意之電磁波之構成。光學參數只要為可使光學系統之狀態變化之值即可，於由攝像部或照明部等構成之光學系統中用以直接或間接地特定出狀態之數值等成為光學參數。例如，不僅表示攝像部或照明部等之位置或角度等之值，而且表示攝像部或照明部之種類之數值(ID或型號等)亦可成為光學參數。檢測部可基於根據所算出之光學參數而得之光學系統之攝像結果，檢測對象物。即，檢測部具備如下構成：藉由學習所得之光學參數使光學系統動作而拍攝對象物，基於攝像結果執行對象物之檢測處理。檢測部只要可檢測對象物即可，除了如上述實施形態般檢測對象物之位置姿勢之構成以外，亦可為檢測對象物之有無之構成，可採用各種構成。再者，對象物之位置姿勢例如可藉由3軸中之位置及相對於3軸之旋轉角之6個參數而定義，但理所當然，亦可視需要不考慮任意數量之參數。例如，若為設置於平面上之對象物，則亦可將至少1個位置相關之參數設為既知而自檢測對象排除。又，若為以固定之朝向設置於平面之對象物，則亦可將姿勢相關之參數自檢測對象排除。對象物只要為成為藉由光學系統拍攝並檢測之對象之物體即可，可假定成為機器人之作業對象之工件、或工件之周邊之物體、機器人之一部分等各種物體。又，作為基於攝像結果檢測對象物之方法亦可採用各種方法，可藉由提取圖像之特徵值而檢測對象物，亦可藉由對象物之動作(人等可動物體等之檢測)而檢測對象物，可採用各種方法。控制部可基於對象物之檢測結果而控制機器人。即，控制部具備根據對象物之檢測結果決定機器人之控制內容之構成。因此，機器人之控制係除了如上述般之用以抓住對象物之控制以外亦可進行各種控制。例如，可假定基於對象物而進行機器人之定位之控制、或基於對象物而使機器人之動作開始或結束之控制等各種控制。機器人之態樣可為各種態樣，除了如上述實施形態般之垂直多關節機器人以外亦可為正交機器人、水平多關節機器人、雙臂機器人等。又，亦可組合各種態樣之機器人。理所當然，軸之數量或臂之數量、末端執行器之態樣等可採用各種態樣。例如，亦可為攝像部21或照明部22安裝於存在於機器人3之上方之平面，且於該平面上攝像部21或照明部22可移動。狀態觀測部只要可觀測根據行動等之試行而變化所得之結果即可，可藉由各種感測器等觀測狀態，亦可為如下構成：進行自某狀態變化為另一狀態之控制，若未觀測到控制之失敗(錯誤等)則可視為觀測到該另一狀態。前者之利用感測器而進行之觀測係除了位置等之檢測以外亦包含利用攝像感測器而進行之圖像之獲取。進而，上述實施形態中之行動或狀態、回報為示例，亦可為包含其他行動或狀態、回報之構成或省略任意行動或狀態之構成。例如，於攝像部21或照明部22可更換之機器人1、2中，亦可為可將攝像部21或照明部22之種類之變更設為行動並選擇，且可觀測種類作為狀態。亦可基於接觸判定部43c之判定結果而決定回報。即，可採用如下構成：於學習部41b之學習過程中，於接觸判定部43c判定為於作業中未假定之物體與機器人接觸之情形時，將該之前之行動所得之回報設定為負。根據該構成，能以機器人不與假定外之物體接觸之方式將參數44a最佳化。又，例如，亦可為如下構成：於光學參數之最佳化時，藉由機器人1～3進行基於對象物之檢測結果之作業(例如上述拾取作業等)，學習部41b基於機器人1～3基於對象物之檢測結果而進行之作業之好壞，對行動之回報進行評估。該構成例如可列舉如下構成：於圖7所示之回報中，代替對象物之檢測將作業之成功與否(例如拾取之成功與否)設為回報，或者除了對象物之檢測以外還將作業之成功與否(例如拾取之成功與否)設為回報。作業之成功與否可根據例如可判定作業之成功與否之步驟(拾取之步驟等)中之步驟S120之判定結果等而定義。於該情形時，於行動或狀態中，亦可包含機器人1～3之動作相關之行動或狀態。進而，於該構成中，較佳為將藉由具備攝像部21及照明部22之光學系統拍攝機器人1～3之作業對象即對象物所得之圖像設為狀態。根據該構成，能以使機器人之作業成功之方式將光學參數最佳化。再者，作為為了學習光學參數或動作參數、力控制參數而觀測之狀態之圖像可為藉由攝像部21拍攝到之圖像本身，亦可為對藉由攝像部21拍攝到之圖像進行圖像處理(例如上述平滑化處理或銳化處理等)後之圖像。進而，亦可採用並非將光學參數、動作參數、力控制參數之各者個別地最佳化，而是將該等參數中之2種以上最佳化之構成。例如，於圖7所示之例中，若為包含使動作參數或力控制參數變化之行動之構成，則可將動作參數或力控制參數與光學參數一併最佳化。於該情形時，可基於經最佳化之動作參數或力控制參數而控制機器人1～3。根據該構成，可將進行伴隨對象物之檢測之作業之參數最佳化，可執行提高對象物之檢測精度之學習。圖像處理參數只要為可使作為對象物之攝像結果之圖像變化之值即可，並不限定於圖3所示之例，可進行追加或刪除。例如，圖像處理之有無或圖像處理之強度、圖像處理之順序等用以特定出所執行之圖像處理運算法之數值(包含表示處理順序等之旗標等)等可成為圖像處理參數。更具體而言，作為圖像處理，可列舉二值化處理、直線檢測處理、圓檢測處理、色檢測處理、OCR(optical character recognition，光學字元辨識)處理等。進而，圖像處理亦可為組合複數個種類之圖像處理所得之處理。例如，亦可組合圓檢測處理及OCR處理而進行「辨識圓內之文字之處理」之處理。總而言之，表示各圖像處理之有無或強度之參數可成為圖像處理參數。又，該等圖像處理參數之變化可成為行動。動作參數並不限定於上述實施形態中所列舉之參數。例如，於成為學習對象之動作參數中，亦可包含用以基於機器人1～3所具備之慣性感測器而進行控制之伺服增益。即，於藉由基於慣性感測器之輸出之控制重複指令而控制馬達M1～M6之構成中，亦可為該控制重複指令中之伺服增益根據行動而變化之構成。例如，於基於安裝於機器人1～3之編碼器E1～E6而算出機器人1～3之特定之部位之角速度，藉由作為慣性感測器之一種之陀螺儀感測器檢測該特定之部位之角速度，使兩者之差量乘以陀螺儀伺服增益而進行反饋控制之構成中，可列舉該陀螺儀伺服增益根據行動而變化之構成。若為該構成，則可進行抑制於機器人之特定之部位產生之角速度之振動成分之控制。理所當然，慣性感測器並不限定於陀螺儀感測器，於在加速度感測器等中進行相同之反饋控制之構成中，亦可為加速度增益根據行動而變化之構成。根據以上之構成，可自動地調整難以藉由人為之調整進行恰當設定之用以基於慣性感測器而進行控制之伺服增益。再者，加速度感測器係感測藉由機器人之運動而產生之加速度之感測器，上述力感測器係感測作用於機器人之力之感測器。通常，加速度感測器與力感測器係不同之感測器，但於一者可代替另一者之功能之情形時，一者亦可作為另一者而發揮功能。理所當然，力控制參數亦不限定於上述實施形態中所列舉之參數，成為學習對象之參數亦可適當選擇。例如，亦可為如下構成：關於目標力，6軸中之全部成分或一部分成分無法作為行動而選擇(即為固定)。該構成可假定如下構成等：於將機器人所固持之對象物插入至被固定之固定對象物(較細之筒等)之作業中，目標力相對於固定對象物之某點具有固定之成分，以根據機器人之插入作業而力控制座標系統變化之方式進行學習。學習部41b亦可為如下構成：於機器人3所固持之對象物於作業完成前掉落之情形、機器人3之作業對象即對象物之一部分於作業完成前分離之情形、機器人3破損之情形、機器人3之作業對象即對象物破損之情形中之至少1者時，將回報評估為負。根據於機器人3所固持之對象物於作業完成前掉落之情形時將回報評估為負之構成，可容易地算出不使對象物掉落地完成作業之可能性較高之動作參數或力控制參數。根據於機器人3之作業對象即對象物之一部分於作業完成前分離之情形時將回報評估為負之構成，可容易地算出不使對象物分離地完成作業之可能性較高之動作參數或力控制參數。根據於機器人3破損之情形時將回報評估為負之構成，可容易地算出使機器人3破損之可能性較低之動作參數或力控制參數。根據於機器人3之作業對象即對象物破損之情形時將回報評估為負之構成，可容易地算出使對象物破損之可能性較低之動作參數或力控制參數。再者，可採用藉由各種感測器、例如攝像部21等檢測是否將機器人3所固持之對象物於作業完成前掉落、機器人3之作業對象即對象物之一部分是否於作業完成前分離、機器人3是否破損、及機器人3之作業對象即對象物是否破損之構成。進而，學習部41b亦可為於利用機器人3而進行之作業正常地完成之情形時將回報評估為正之構成。根據於利用機器人3而進行之作業正常地完成之情形時將回報評估為正之構成，可容易地算出使機器人3之作業成功之動作參數或力控制參數。進而，用以檢測機器人3之位置之位置檢測部並不限定於如上述實施形態般之編碼器、力感測器，亦可為其他感測器、專用之慣性感測器或攝像部21等光學感測器、距離感測器等。又，感測器可內置於機器人，亦可配置於機器人之外部。若利用配置於機器人之外部之位置檢測部，則可不受機器人之動作影響地算出位置資訊。進而，運算部41亦可為基於機器人之不同之複數個動作，算出於複數個動作中共通之動作參數或力控制參數之構成。複數個動作只要包含利用經最佳化之動作參數而執行之動作即可。因此，複數個動作可列舉為不同之種類之複數個作業(拾取作業、研磨作業、螺絲鎖緊作業等)之構成、或為同種作業(螺絲之大小不同之複數個螺絲鎖緊作業等)之構成等。根據該構成，可容易地算出可應用於各種動作之通用之動作參數或力控制參數。

1～3‧‧‧機器人

20‧‧‧光學系統

21‧‧‧攝像部

22‧‧‧照明部

23‧‧‧夾持器

40‧‧‧控制裝置

41‧‧‧運算部

41a‧‧‧狀態觀測部

41b‧‧‧學習部

42‧‧‧檢測部

43‧‧‧控制部

43a‧‧‧位置控制部

43b‧‧‧力控制部

43c‧‧‧接觸判定部

43d‧‧‧伺服

44‧‧‧記憶部

44a‧‧‧參數

44b‧‧‧機器人程式

44c‧‧‧模板資料

44d‧‧‧行動資訊

44e‧‧‧學習資訊

A‧‧‧臂

A1～A6‧‧‧臂構件

Da‧‧‧旋轉角度

Dc‧‧‧控制量

Dt‧‧‧目標角度

E1～E6‧‧‧編碼器

f_L‧‧‧作用力

fLt‧‧‧目標力

L‧‧‧位置

Lt‧‧‧目標位置

M1～M6‧‧‧馬達

J1～J6‧‧‧關節

P‧‧‧力感測器

Rx、Ry、Rz、x、y、z‧‧‧方向

T‧‧‧基台

t₁‧‧‧時刻

t₂‧‧‧時刻

t₃‧‧‧時刻

t₄‧‧‧時刻

TCP‧‧‧工具中心點

U1‧‧‧對應關係

U2‧‧‧對應關係

V‧‧‧速度

W‧‧‧對象物

ΔL‧‧‧修正量

圖1係機器人系統之立體圖。圖2係控制裝置之功能方塊圖。圖3係表示參數之圖。圖4係表示加減速特性之圖。圖5係拾取處理之流程圖。圖6係與運算部相關之構成之方塊圖。圖7係表示學習光學參數時之例之圖。圖8係表示多層類神經網路之例之圖。圖9係學習處理之流程圖。圖10係表示學習動作參數時之例之圖。圖11係表示學習力控制參數時之例之圖。

Claims

一種控制裝置，其具備：運算部，其使用機械學習，算出拍攝對象物之光學系統相關之光學參數；檢測部，其基於藉由上述光學系統根據所算出之上述光學參數而得之攝像結果，檢測上述對象物；及控制部，其基於上述對象物之檢測結果控制機器人。
如請求項1之控制裝置，其中上述檢測部係檢測上述對象物之位置姿勢。
如請求項1或2之控制裝置，其中上述光學系統包含攝像部，上述光學參數包含上述攝像部相關之攝像部參數。
如請求項3之控制裝置，其中上述光學參數包含對於由上述攝像部拍攝到之上述對象物之圖像進行的圖像處理相關之圖像處理參數。
如請求項1至4中任一項之控制裝置，其中上述光學系統包含照明部，上述光學參數包含上述照明部相關之照明部參數。
如請求項1至5中任一項之控制裝置，其中上述運算部包含：狀態觀測部，其至少觀測使用上述光學系統以上述光學參數拍攝到之圖像，作為狀態變數；及學習部，其基於作為上述狀態變數之圖像，學習上述光學參數。
如請求項6之控制裝置，其中上述學習部係基於作為上述狀態變數之圖像，決定使上述光學參數變化之行動，將上述光學參數最佳化。
如請求項7之控制裝置，其中上述學習部係基於上述對象物之檢測結果之好壞，而評估上述行動之回報。
如請求項7或8之控制裝置，其中上述學習部係基於上述機器人基於上述對象物之檢測結果而進行之作業之好壞，評估上述行動之回報。
如請求項7至9中任一項之控制裝置，其中上述運算部係藉由反覆進行上述狀態變數之觀測、與該狀態變數對應之上述行動之決定、及藉由該行動而獲得之回報之評估，而將上述光學參數最佳化。
如請求項1至10中任一項之控制裝置，其中上述運算部係使用機械學習，算出上述機器人之動作相關之動作參數，上述控制部係基於上述動作參數而控制上述機器人。
如請求項11之控制裝置，其中上述運算部係基於由上述光學系統拍攝上述機器人之作業對象即上述對象物而得之圖像，算出上述光學參數及上述動作參數。
一種機器人，其係由如請求項1至12中任一項之控制裝置予以控制。
一種機器人系統，其具備：如請求項1至12中任一項之控制裝置；上述機器人，其由上述控制裝置予以控制；及上述光學系統，其拍攝上述機器人之作業之對象即上述對象物。