TWI743986B

TWI743986B - 馬達控制裝置及馬達控制方法

Info

Publication number: TWI743986B
Application number: TW109131446A
Authority: TW
Inventors: 高野直人; 木村将哉
Original assignee: 日商三菱電機股份有限公司
Priority date: 2019-09-19
Filing date: 2020-09-14
Publication date: 2021-10-21
Also published as: JPWO2021053784A1; JP6903240B1; US20220308531A1; KR20220044549A; WO2021053784A1; TW202113634A; DE112019007725T5; CN114514481A

Abstract

本發明提供一種馬達控制裝置，於反覆進行初始化運轉、評估運轉及學習動作而執行調整控制馬達(1)之控制指令(104)的自動調整時，為了縮短自動調整所需的時間，而具備：驅動控制部(4)，係根據控制指令驅動馬達，使由馬達與機械性連接於馬達之機械負載(3)構成的控制對象(2000)動作，執行將控制對象設定為初始狀態的初始化運轉以及從初始狀態開始的評估運轉；學習部，係將利用於評估運轉之控制指令與檢測出評估運轉時之控制對象之狀態的狀態感測器信號(101)賦予關聯性而進行學習，且根據所學習的結果，決定評估運轉中使用的控制指令；及調整管理部(9)，係根據執行學習部(7)的動作之學習動作、初始化運轉、評估運轉之中之任一者作為第一步驟的時機，決定執行學習動作、初始化運轉、評估運轉之中之任一者作為第二步驟的時機。

Description

馬達控制裝置及馬達控制方法

本發明係關於一種自動調整要控制馬達之控制指令的馬達控制裝置。

電子零件安裝機、半導體製造裝置等係驅動馬達而進行使安裝頭等機械僅移動目標距離的定位控制。定位控制中，為了縮短定位時間以提高裝置的生產性，而調整並設定用以驅動馬達之指令信號所包含之規定位置的軌道的參數、控制系統的參數等。

要調整這些參數可能需要試行錯誤而需要費工耗時。此外，存在著調整工作所需的時間及調整工作的結果取決於操作者的知識與經驗等問題。就解決上述問題的技術而言，提出了一種自動化參數調整工作的技術。

專利文獻1中記載的控制參數調整裝置係具備使用控制對象動作時的資料來更新控制對象模型的模型更新部。而且，具備在第一範圍內反覆進行使用完成更新的控制對象模型的模擬以探索控制參數而抽出最適值之候選的第一探索部。此外，具備在比第一範圍窄的第二範圍內使控制對象反覆動作而取得動作結果的第二探索部。

專利文獻2中記載的機器學習裝置係具備觀測由馬達控制裝置所驅動控制的馬達的狀態變數的狀態觀測部。並且具備學習與補正量具關聯性之條件的學習部，該補正量係用於依據由狀態變數組成的訓練資料集來補正馬達控制裝置的指令。 [先前技術文獻] [專利文獻]

專利文獻1：日本特開2017-102619號公報。專利文獻2：日本特開2017-102613號公報。

[發明所欲解決之課題]

專利文獻1、專利文獻2記載的裝置皆為反覆地交互進行一次的取得驅動馬達時之感測器值的評估運轉以及使用評估運轉中所取得之感測器值的計算處理，而使參數的調整工作自動化。在此，所謂的計算處理係指模擬、學習等。如此，反覆進行依據馬達的驅動而為的評估運轉與計算處理來執行調整時，有時必須進行將馬達等設定成開始評估運轉前之狀態之初始狀態的初始化運轉。並且，此種情形下，存在著當反覆進行初始化運轉、評估運轉及學習動作而執行調整控制馬達之控制指令的自動調整時，難以縮短自動調整所需的時間的課題。

本發明係鑒於上述課題而完成者，目的在於提供一種馬達控制裝置，於反覆進行初始化運轉、評估運轉及學習動作而執行調整控制馬達之控制指令的自動調整時，能夠縮短自動調整所需的時間。 [用以解決課題的手段]

本發明的馬達控制裝置係具備：驅動控制部，係根據控制指令驅動馬達，使由馬達與機械性連接於馬達之機械負載組成的控制對象動作，執行將控制對象設定為初始狀態的初始化運轉以及從初始狀態開始的評估運轉；學習部，係將利用於評估運轉之控制指令與檢測出評估運轉時之控制對象之狀態的狀態感測器信號賦予關聯性而進行學習，且根據所學習的結果，決定在取得狀態感測器信號的評估運轉之後要執行之評估運轉中使用的控制指令；及調整管理部，係根據執行學習部的動作之學習動作、初始化運轉或評估運轉之中之任一者作為第一步驟的時機，決定執行學習動作、初始化運轉或評估運轉之中之任一者作為第二步驟的時機。 [發明功效]

依據本發明，能夠提供一種馬達控制裝置，於反覆進行初始化運轉、評估運轉及學習動作而執行調整控制馬達之控制指令的自動調整時，能夠縮短自動調整所需的時間。

以下根據圖面來詳細說明實施型態。此外，以下說明的實施型態係例示。再者，各實施型態係可適切組合來執行。

實施型態1

圖1係顯示實施型態1之馬達控制裝置1000之構成之一例的方塊圖。馬達控制裝置1000係具備：將馬達1驅動成追隨指令信號的驅動控制部4；及取得指令參數104並生成指令信號103的指令生成部2。再者，馬達控制裝置1000更具備取得學習開始信號106及狀態感測器信號101並決定學習完成信號107及指令參數104的學習部7。而且，馬達控制裝置1000更具備取得學習完成信號107並決定學習開始信號106及指令開始信號105的調整管理部9。

馬達1係依據從驅動控制部4輸出的驅動電力E而產生轉矩、推力等。就馬達1的例而言，可舉例如旋轉式伺服馬達、線性馬達、步進馬達等。機械負載3係機械性地連接於馬達1並藉由馬達1而驅動。將馬達1及機械負載3稱為控制對象2000。可適切地選擇藉由馬達1產生的轉矩、推力等而進行動作的裝置作為機械負載3。機械負載3也可作為執行定位控制的裝置。就機械負載3的例而言，可舉例如電子零件安裝機、半導體製造裝置等。

驅動控制部4係根據指令信號103將驅動電力E供給至馬達1而驅動馬達1，使馬達1追隨指令信號103而使控制對象2000動作，執行評估運轉與初始化運轉。在此，指令信號103可為馬達1的位置、速度、加速度、電流、轉矩或推力之中之至少任一者。初始化運轉係將控制對象2000設定成初始狀態的運轉。評估運轉係從初始狀態開始的運轉，評估運轉時所取得的狀態感測器信號101係使用於後述的學習動作。可適切地採用使馬達1的位置追隨指令信號103的構成來作為驅動控制部4。例如可為根據PID控制來算出馬達1的轉矩或電流以使檢測出之馬達1的位置與指令信號103的差異變小的回授控制系統。此外，亦可採用對於將馬達1驅動成檢測出的機械負載3的位置追隨指令信號103的回授控制加上前饋控制之二自由度控制系統作為驅動控制部4。

指令生成部2係根據指令參數104來生成指令信號103。此外，指令生成部2係因應指令開始信號105所示的時機而生成指令信號103。並且，馬達1係於指令生成部2生成指令信號103的時機開始運轉。依據以上所述，馬達1係因應指令開始信號105所示的時機而生成指令信號103。亦即，馬達1係依據指令開始信號105而開始運轉。在此，將評估運轉或初始化運轉稱為運轉。初始化運轉及評估運轉係以追隨各自的運轉的指令信號103的方式執行，初始化運轉及評估運轉的指令信號103係根據各自的運轉使用的指令參數104而生成。針對指令生成部2的動作例，容後使用圖4來敘述。

狀態感測器5係將檢測出馬達1或機械負載3之至少任一方的狀態量，亦即檢測出控制對象2000之狀態量的結果輸出作為狀態感測器信號101。就狀態量的例而言，可舉例如關於馬達1的位置、速度、加速度、電流、轉矩、推力等。另外，就狀態量的例而言，可舉例如關於機械負載3的位置、速度、加速度等。就狀態感測器5的例而言，可舉例如編碼器、雷射位移計、陀螺儀感測器、加速度感測器、電流感測器、力感測器等。圖1的狀態感測器5係以檢測馬達1的位置作為狀態量的編碼器來進行說明。

學習部7係將評估運轉所使用的指令參數104與檢測出評估運轉時之控制對象2000之狀態的狀態感測器信號101賦予關聯性而進行學習。並且，決定在取得狀態感測器信號101後的評估運轉之後所執行之評估運轉使用的指令參數104。將此學習之開始起至指令參數104之決定為止之學習部7的動作稱為學習動作。此外，學習部7係依照學習開始信號106而開始學習。在此，學習開始信號106係顯示學習動作之開始時間點的信號，藉由後述的調整管理部9而決定。學習部7更決定學習完成信號107。學習完成信號107係顯示決定指令參數104的時間點，亦即學習動作的完成時間點。針對學習部7之詳細的動作，容後使用圖5及圖6來敘述。

調整管理部9係根據學習完成信號107來決定顯示評估運轉之開始時間點之指令開始信號105的值，藉此，依據學習動作的完成時間點而決定評估運轉的開始時間點。再者，圖2的動作例中，調整管理部9係根據評估運轉的完成時間點來決定顯示學習動作的開始時間點的學習開始信號106以及顯示初始化運轉之開始時間點的指令開始信號105。此外，如後所述，調整管理部9能夠從評估運轉之開始時間點起算，檢測出經過預先設定的時間而檢測得知評估運轉的完成時間點。換言之，調整管理部9係根據評估運轉的完成時間點來決定學習動作及初始化運轉的開始時間點。

圖2係顯示實施型態1之馬達控制裝置1000之動作時序之一例的圖。圖2(a)至圖2(e)的橫軸為時間，圖2(a)至圖2(e)的縱軸分別為學習動作、動作處理(初始化運轉及評估運轉)、學習開始信號106、學習完成信號107及指令開始信號105。

針對指令開始信號105、學習開始信號106及學習完成信號107的值與各信號所指示的內容的關係進行說明。圖2中，馬達1係在指令開始信號105的值成為1的時間點開始運轉。並且，學習部7係在學習開始信號106的值成為1的時間點開始學習動作。再者，學習部7係將學習動作完成的時間點之學習完成信號107的值決定為1。此外，指令開始信號105、學習開始信號106及學習完成信號107之各信號的值也可在成為1之後回復到0，直至指示下一個動作為止。上述各信號若可顯示動作的開始時間點、完成時間點的信號，則不限於上述的型態。

將評估運轉、初始化運轉及學習動作稱為步驟。將初始化運轉、評估運轉及學習動作之各步驟各至少包含一次而周期性地反覆進行的周期稱為學習周期。圖2的學習周期中，初始化運轉、評估運轉及學習動作之各步驟各包含一次。指令參數104也可於每一學習周期進行更新。馬達控制裝置1000係藉由反覆執行學習周期而進行學習。以下將反覆執行學習周期並探索要賦予控制對象2000之最適當的動作之指令參數104的調整動作稱為自動調整。

圖3係顯示實施型態1之調整管理部9之動作之一例的流程圖。參照圖2及圖3，例示馬達控制裝置1000的動作。自動調整開始時，步驟S101中，調整管理部9係將時刻TL111之學習開始信號106的值決定為1，而決定學習動作L11的開始時間點。學習部7係依照學習開始信號106而於時刻TL111開始學習動作L11。此外，如學習動作L11般地，學習部7於自動調整後未取得評估運轉時之狀態感測器信號101的狀態下開始學習動作時，學習部7亦可隨機地決定指令參數104。或者，也可根據事先的設定來決定。隨機地決定時，亦能夠以亂數將後述的行動價值函數Q初始化，而隨機地決定屬於行動a_t 的指令參數104。

步驟S102中，調整管理部9係將時刻TL111之指令開始信號105的值決定為1，而決定初始化運轉IN11的開始時間點。馬達1係依照指令開始信號105而於時刻TL111開始初始化運轉IN11。初始化運轉IN11係與學習動作L11並行地執行。以下，所謂的並行地執行係指二個步驟之至少一部分時間上重疊地執行的狀態。此外，初始化運轉IN11所需的時間比學習動作L11所需的時間短。因此，調整管理部9也可在等待時間不延長的範圍內，亦即初始化運轉IN11的完成不會比學習動作L11的完成延遲的範圍內，使初始化運轉IN11的開始時間點比學習動作L11的開始時間點延遲。馬達1係於時刻TL112完成初始化運轉IN11，初始化運轉IN11完成後就成為待機狀態。此外，待機狀態的馬達1可控制在預定的位置的範圍內，也可使之停止。再者，也可停止電力的供給。接著，學習部7係將學習動作之完成時間點的時刻TL113之學習完成信號107的值決定為1。

步驟S103中，調整管理部9係檢測出學習完成信號107的值成為1的時間點，並檢測得知時刻TL113作為學習動作L11的完成時間點。此外，步驟S103的動作若調整管理部9檢測得知學習動作的完成時間點即可，例如可為檢測得知學習部7輸出指令參數104的時間點。步驟S104中，調整管理部9係根據學習動作之完成時間點的時刻TL113，將時刻TL113之指令開始信號105之值決定為1，而決定評估運轉EV11(第一評估運轉)的開始時間點。馬達1係依照指令開始信號105而於時刻TL113開始評估運轉EV11。於時刻TL114完成評估運轉EV11時，馬達1就成為待機狀態。

步驟S105中，調整管理部9係從評估運轉EV11的開始時間點起算，檢測出經過預定的時間，而檢測得知時刻TL121作為評估運轉EV11的完成時間點。在此，上述的預定時間係設為與評估運轉EV11所需的時間的推定值相同或所需更長的時間。此外，本實施型態中，調整管理部9檢測得知評估運轉EV11的完成時間點的時間點係與評估運轉EV11結束後馬達1停止的時間點不同，應予留意。步驟S106中，調整管理部9係執行是否繼續自動調整的判斷。判斷為不繼續自動調整時，前進至步驟S108。

步驟S106之判斷的方法，例如，可在自動調整中所執行的學習周期的數目比所預先決定之預定次數少時，判斷為繼續自動調整，與預定次數相同時，判斷為不繼續自動調整。再者，也可在剛要進行步驟S106之前的評估運轉所取得的狀態感測器信號101滿足預定的基準時，判斷為不繼續自動調整，未滿足預定的基準時，判斷為要繼續自動調整。此狀態感測器信號101的基準，例如能夠以使用圖6而於後述之定位動作的收斂時間是否小於預定時間作為基準。

於時刻TL121執行的步驟S106中，調整管理部9判斷為繼續自動調整而前進至步驟S107。步驟S107中，調整管理部9係根據評估運轉EV11之完成時間點的時刻TL121，將時刻TL121之學習開始信號106及指令開始信號105的值決定為1。藉此由動作，分別決定學習動作L12(第一學習動作)及初始化運轉IN12(第一初始化運轉)的開始時間點。學習部7及馬達1係分別依照學習開始信號106及指令開始信號105，於時刻TL121開始學習動作L12及初始化運轉IN12。將自時刻TL111至時刻TL121為止設為學習周期CYC11。

以下，步驟S106中，至調整管理部9判斷為不繼續自動調整為止，係反覆執行步驟S103至步驟S107。之後，於學習周期CYC12的步驟S103中，調整管理部9係檢測得知時刻TL123作為學習動作L12的完成時間點。並且，於學習周期CYC12的步驟S104中，調整管理部9係根據所檢測出的學習動作L12的完成時間點，將評估運轉EV12(第二評估運轉)的開始時間點決定為時刻TL123。

調整管理部9係於時刻TL1X1執行學習周期CYC1X的步驟S106。然後，判斷為不繼續自動調整而前進至步驟S108。步驟S108中，調整管理部9係將時刻TL1X1之學習開始信號的值決定為大於1的值，並對學習部7指示結束處理T1。結束處理T1的指示若為能夠對學習部7指示結束處理的學習開始時刻即可。例如可將指示結束處理之時間點的學習開始信號106的值決定為0與1以外的值，也可於指示結束處理的時間點，將其他的信號輸出至學習部7。學習部7係檢測得知結束處理T1的開始時間點，並執行結束處理T1。

結束處理T1中，學習部7也可根據在自動調整中反覆執行的學習動作，決定使控制對象2000進行最佳的動作的指令參數104，亦即最適當的指令參數104。以下例示執行使控制對象2000僅移動目標距離的定位作為評估運轉時的結束處理T1。首先，使用於所有的學習周期之評估運轉的指令參數104之中，馬達1的位置與目標移動距離之間的差異之偏差一度進入預定的容許範圍中之後，選擇未超出容許範圍之外的評估運轉。然後，將這些評估運轉所使用的指令參數104設成最適當的指令參數104的候選。並且，也可在指令參數104的候選之中，進一步選擇從評估運轉之開始起使偏差在最短時間內進入容許範圍之中的評估運轉的執行中使用的指令參數104，決定為最適當的指令參數104。關於上述的偏差，容後使用圖4來敘述。

再者，學習部7也可決定未使用於評估運轉的指令參數104作為最適當的指令參數104。例如，從使用於所有的學習周期的評估運轉的指令參數104，選擇使偏差在預定的時間內進入容許範圍之中的動作執行中使用的指令參數104。並且，也可將所選擇的指令參數104的平均值決定作為最適當的指令參數104。圖2的時刻TL1Y1中，學習部7完成結束處理T1時，就結束自動調整。此外，也可省略結束處理T1。例如將使用於評估運轉EV1X的指令參數104決定作為最適當的指令參數104。

第一步驟及第二步驟係設為評估運轉、初始化運轉或學習動作之中之任一者。調整管理部9可根據執行第一步驟的時機，來決定執行第二步驟的時機。再者，執行第一步驟及第二步驟的時機可為各個步驟的開始時間點或完成時間點，也可為自開始時間點或完成時間點起偏移預定時間的時間點。根據執行第一步驟的時機來決定執行第二步驟的時機時，可將二個步驟之間的間隔調整為較短，而能夠縮短至馬達1或學習部7開始進行步驟為止的等待時間。

針對圖2之動作例中的各步驟的關係進行說明。圖2的動作例係使用由學習動作所決定的指令參數104來執行下一個評估運轉，並使用由評估運轉的結果所得到的狀態感測器信號101來執行下一個學習動作。因此，學習動作與評估運轉並未並行地執行。此外，由於是藉由一個控制對象2000來執行評估運轉與初始化運轉，所以評估運轉與初始化運轉並未並行地執行。另一方面，由於初始化運轉與學習動作不相互干涉，所以能夠並行地執行。再者，圖2所示的動作例中，相較於初始化運轉所需的時間，學習動作所需的時間所需較長。

圖2的動作例中，調整管理部9係根據評估運轉的完成時間點，決定顯示學習動作之開始時間點的學習開始信號106以及顯示初始化運轉之開始時間點的指令開始信號105。此外，學習動作L12及初始化運轉IN12係於藉由調整管理部9檢測得知的評估運轉EV11的完成時間點開始，評估運轉EV12係於學習動作L11的完成時間點開始。惟本實施型態不限於如此的動作者。

例如，也可執行屬於評估運轉之一的評估運轉EV11(第一評估運轉)，使用評估運轉EV11時所取得的狀態感測器信號101來執行學習動作L12，進而，使初始化運轉IN12與學習動作L12並行地執行。並且，也可根據由學習動作L12所決定的指令參數104(控制指令)，從藉由初始化運轉IN12所設定的初始狀態執行評估運轉EV11之下一個評估運轉的評估運轉EV12(第二評估運轉)。如上述地執行各步驟時，能夠並行地執行初始化運轉IN12及學習動作L11，調整步驟之間的時機，縮短等待時間。如此，也可提供馬達控制裝置1000或馬達控制方法。

再者，例如調整管理部9也可檢測得知評估運轉EV11的完成時間點，根據所得知的評估運轉EV11的完成時間點，決定學習動作L12的開始時間點及初始化運轉IN12的開始時間點，並調整步驟之間的時序，縮短等待時間。再者，例如調整管理部9也可將學習動作L12與初始化運轉IN12之中需要較長時間之一方的開始時間點決定為與另一方之開始時間點同時或較早，而縮短等待時間。此外，調整管理部9也可檢測得知學習動作L12或初始化運轉IN12之中，同時或較晚完成之一方的完成時間點，根據所得知的完成時間點來決定評估運轉EV12的開始時間點，而縮短等待時間。上述所舉出的動作例中，根據步驟的完成時間點來決定下一個步驟的開始時間點時，以在可實施的範圍內縮短先前的步驟的完成時間點與下一個步驟的開始時間點的間隔為較佳，若為同時或大致同時則更佳。

再者，調整管理部9係檢測自學習動作L11的開始時間點起經過預先設定的時間而得知學習動作L11的完成時間點，惟本實施型態不限於此種型態者。例如，會有執行第一步驟及第二步驟之二個步驟時，在第一步驟完成之後至第二步驟開始為止之間，執行包含初始化運轉、評估運轉、學習動作之中至少任一者的中間步驟的情形。如此的情形下，調整管理部9也可預先推定中間步驟所需的時間，而將第二步驟的開始時間點決定為比自第一步驟的完成時間點起算經過所推定之執行中間步驟所需的時間的時間點更晚的時間點。藉由如此的動作，以中間步驟所需的時間的推定值概略地調整第二步驟的開始時間點而縮短等待時間，藉此，減少自動調整所需的時間。再者，如使用圖2所說明的動作例，調整管理部9也可依據學習完成信號107更正確地檢測得知學習動作的完成時間點，而正確地決定下一個步驟之開始的時機。如此也可縮短等待時間。

接著，例示指令生成部2依據指令參數104生成指令信號103的動作。圖4係顯示實施型態1之指令態樣之一例的圖。在此，指令態樣係指時序列地顯示馬達1之指令值的態樣。此指令態樣係針對馬達1之位置、速度、加速度或加加速度(jerk)之中之任一者。上述的指令值可與指令信號103的值相同。此外，圖4的動作例中，時序列地顯示指令信號103的內容成為指令態樣。

評估運轉中，指令參數104係一併規定運轉條件與指令態樣。換言之，若指定了指令參數104與運轉條件，就無歧異地確定了指令態樣。在此，運轉條件係針對於評估運轉時之馬達1的動作的限制條件，在自動調整中反覆執行的評估運轉中為固定。相對於此，指令參數104係在自動調整中依每一學習周期更新。圖1的馬達控制裝置1000中，指令生成部2係根據指令參數104來生成指令信號103。此時，就結果而言，驅動控制部4係根據指令參數104來驅動馬達1。再者，驅動控制部4也可根據指令態樣來驅動馬達1。依據以上說明，將指令信號103、指令參數104或指令態樣設成屬於控制馬達1之指定的控制指令時，驅動控制部4係根據控制指令來驅動馬達1。

圖4(a)至圖4(d)的橫軸為時間。圖4(a)至圖4(d)之各自的縱軸為顯示馬達1之位置、速度、加速度及加加速度，此等為指令信號103。在此，速度、加速度及加加速度分別為馬達1之位置的一階微分、二階微分及三階微分。橫軸與縱軸的交叉點為橫軸上開始評估運轉之指令開始時間點的時刻0。圖4的動作例的運轉條件係設為目標移動距離為D。亦即，馬達1的位置於評估運轉的開始時間點0為0，而於終端時間點的時刻t＝T1＋T2＋T3＋T4＋T5＋T6＋T7時，馬達1的位置成為D。

圖4的指令態樣係從指令開始時間點的時刻0至終端時間點為止，依序區分為第一區間至第七區間。將n設為1至7的自然數時，第n區間的時間長度成為第n時間長度Tn。圖4的動作例中，將第一時間長度T1至第七時間長度T7為止的七個參數設為指令參數104。將第二區間及第六區間的加速度的大小分別設為Aa及Ad，此等加速度在區間內為固定。加速度的大小Aa與加速度的大小Ad係指令參數104的從屬變數而無設定自由度，應予留意。

第一區間的時刻t(0≦t＜T1)之指令信號103能夠如下地計算。以時間來對第一區間的時刻0至第一區間內的時刻t為止之間的加加速度、加速度A1及速度V1之各者進行積分之結果成為加速度A1、速度V1及位置P1。並且，在第一區間中，加速度以一定的比例增加，在時刻T1加速度的大小達到Aa，因此，第一區間的加加速度成為加速度的大小Aa除以T1所得到的值。如上所述，加速度A1、速度V1及位置P1分別能夠依數學式(1)至數學式(3)計算出。

此外，第二區間的時刻t(T1≦t＜T1＋T2)之指令信號103，亦即加速度A2、速度V2及位置P2，能夠與第一區間同樣地，依數學式(4)至數學式(6)計算出。

此外，第三區間的時刻t(T1＋T2≦t＜T1＋T2＋T3)的指令信號103，亦即加速度A3、速度V3及位置P3，能夠與第一區間同樣地，依數學式(7)至數學式(9)計算出。

此外，第四區間的時刻t(T1＋T2＋T3≦t＜T1＋T2＋T3＋T4)的指令信號103，亦即加速度A4、速度V4及位置P4，能夠與第一區間同樣地，依數學式(10)至數學式(12)計算出。

此外，第五區間的時刻t(T1＋T2＋T3＋T4≦t＜T1＋T2＋T3＋T4＋T5)的指令信號103，亦即加速度A5、速度V5及位置P5，能夠與第一區間同樣地，依數學式(13)至數學式(15)計算出。

此外，第六區間的時刻t(T1＋T2＋T3＋T4＋T5≦t＜T1＋T2＋T3＋T4＋T5＋T6)的指令信號103，亦即加速度A6、速度V6及位置P6，能夠與第一區間同樣地，依數學式(16)至數學式(18)計算出。

此外，第七區間的時刻t(T1＋T2＋T3＋T4＋T5＋T6≦t≦T1＋T2＋T3＋T4＋T5＋T6＋T7)的指令信號103，亦即加速度A7、速度V7及位置P7，能夠與第一區間同樣地，依數學式(19)至數學式(21)計算出。

再者，於終端時間點的時刻t＝T1＋T2＋T3＋T4＋T5＋T6＋T7時，速度V7與0一致，再者，位置P7與目標移動距離D一致。因此，於終端時間點時，數學式(22)及數學式(23)成立。第二區間的加速度的大小Aa及第六區間的加速度的大小Ad能夠由數學式(22)及數學式(23)決定。

以上係根據指令參數104與運轉條件來生成指令信號103之指令生成部2的動作例。在此，第一區間、第三區間、第五區間及第七區間中，加加速度為非零的固定值。換言之，第一時間長度T1、第三時間長度T3、第五時間長度T5及第七時間長度T7係指定為加加速度成為非零之固定值的時間。在此，所謂的非零之固定值係指大於0的固定值或小於0的固定值。此外，這些區間中，也可將加加速度的大小設成指令參數104來取代時間長度Tn。例如，將第一區間之加加速度的大小設定為J1時，第一時間長度T1與加加速度J1具有如數學式(24)的關係。

將加加速度為非零之固定值的區間的時間長度設定作為指令參數104的情形與將加加速度為非零之固定值的區間的加加速度的大小設定作為指令參數104的情形係等效。如上述的例子，指令參數104若與運轉條件組合來決定指令態樣的參數即可。如所舉出的例子，指令參數104的選擇方法在相同運轉條件的基礎下也能夠有複數種選項。此外，指令參數104的選擇方法不限於本實施型態中所說明的方法。

針對學習部7進行說明。圖5係顯示實施型態1之學習部7之構成之一例的方塊圖。學習部7係具備報酬計算部71、價值函數更新部72、意思決定部73、學習完成信號決定部74、指令參數決定部75及評估感測器信號決定部76。報酬計算部71係根據評估感測器信號102來計算針對使用於評估運轉之指令參數104的報酬r。價值函數更新部72係依據報酬r來更新行動價值函數。意思決定部73係使用價值函數更新部72所更新的行動價值函數，決定成為使用於評估運轉之指令參數104之候選的評估候選參數108。指令參數決定部75係根據評估候選參數108來決定使用於評估運轉的指令參數104。評估感測器信號決定部76係從評估運轉時的狀態感測器信號101決定評估感測器信號102。此外，意思決定部73也可決定指令參數104來取代評估候選參數108。並且，也可從學習部7中省略指令參數決定部75。

再者，學習部7也可學習指令信號103或指令態樣來取代指令參數104，因此，學習部7也可學習控制指令。此種情形下，學習部7係具備控制指令決定部來取代指令參數決定部75。控制指令決定部係根據評估候選參數108來決定使用於評估運轉的控制指令。此外，指令態樣及指令信號103係分別以單體來指定馬達11的動作，相對於此，指令參數104係藉由指令參數104與運轉條件的組合來指定馬達11的動作。因此，相較於學習部7學習指令態樣或指令信號103的情形，學習部7學習指令參數104時，資料量變得較少，能夠減少學習部7的計算量及計算時間。從而，學習指令參數104時，能夠效率良好地執行學習動作。

評估感測器信號決定部76也可藉由對狀態感測器信號101施予抽出、變換、校正、過濾等計算處理而導出評估感測器信號102。例如，也可將從狀態感測器信號101之整體時間性地抽出評估運轉時之狀態感測器信號101而得的信號作為評估感測器信號102。在此，也可抽出從評估運轉之開始至完成為止的狀態感測器信號101，除此之外，亦可抽出從評估運轉完成之後至經過預定的時間為止的狀態感測器信號101而評估剛完成評估運轉之後之振動的影響。此外，也可為在決定評估感測器信號102時，對於所取得的狀態感測器信號101施予校正而去除偏差(offset)的構成。再者，也可為狀態感測器信號101通過低通濾波器的構成而去除雜訊。也可藉由此等信號處理使學習動作的精確度提升。此外，將報酬計算部71作為根據狀態感測器信號101來計算報酬r的構成時，亦可省略評估感測器信號決定部76。

學習部7能夠使用各式各樣的學習演算法而執行學習。本實施型態中，就一例而言，以適用強化學習(Reinforcement Learning)的情形來說明。強化學習係指在某環境內的主體(行動主體)觀測現在的狀態而決定應採取的行動者。主體(agent)選擇行動而從環境獲得報酬。並且學習透過一連串的行動而可獲得最多報酬的策略。就強化學習之代表性的手法而言，已知有Q學習(Q-Learning)、TD學習(TD-Learning)等。例如，Q學習時，行動價值函數Q(s、a)之一般性的更新式能夠以數學式(25)表示。更新式也能夠以行動價值表來標記。

數學式(25)中，s_t 表示時刻t之環境，a_t 表示時刻t之行動。環境係依據行動at而變為s_t+1 。r_t+1 係表示因其環境的變化而可獲得的報酬，γ係表示比例，α係表示學習係數。此外，比例γ的值係設為大於0且於1以下的範圍(0＜γ≦1)，學習係數α的值係設為大於0且於1以下的範圍(0＜α≦1)。適用Q學習時，行動at係指令參數104的決定，惟實質上也有決定評估候選參數108的動作成為行動at的情形。環境s_t 係由運轉條件、馬達1的初始位置等構成。

使用圖6例示報酬計算部71的動作。圖6係顯示實施型態1之偏差之時間響應之一例的圖。圖6的偏差係評估運轉中使馬達1動作時之目標移動距離與馬達1的位置之間的差異。圖6的橫軸為時間，縱軸為偏差。縱軸與橫軸的交叉點係縱軸上偏差為0的狀態，橫軸上成為評估運轉開始時間點的時刻0。圖6中，IMP為偏差之容許範圍的界限值，且為能容許機械負載3之動作精確度之誤差的大小。

圖6(a)的偏差係在從評估運轉開始至時刻Tst1為止的期間進入容許範圍之中，其後，在容許範圍之中振盪而趨於收斂。圖6(b)的偏差係在從評估運轉開始至時刻Tst2為止的期間進入容許範圍之中，其後，暫時超出容許範圍之外。然後，再度進入容許範圍之中。圖6(c)的偏差係在從評估運轉開始至時刻Tst3為止的期間進入容許範圍之中，其後，在容許範圍之中振盪而收斂。在此，時刻Tst1、時刻Tst2及時刻Tst3之間具有時刻Tst2的值小於時刻Tst3的值，且時刻Tst3的值小於時刻Tst1的值之關係(Tst1＞Tst3＞Tst2)。相較於圖6(a)及圖6(b)的偏差，圖6(c)的偏差係較高速地收斂。

藉由報酬計算部71變更計算報酬r的方法，能夠選擇作為學習之結果而獲得之最適當的指令參數104的特性。例如，為了學習使偏差高速地收斂的指令參數104，報酬計算部71也可在從動作開始起至偏差進入容許範圍之中為止的時間為預先設定之時間以下時，賦予較大的報酬。再者，也可在從動作開始起至偏差進入容許範圍之中為止的時間愈短則賦予愈大的報酬r。再者，報酬計算部71也可算出從動作開始起至偏差進入容許範圍之中為止的時間之倒數作為報酬r。再者，如圖3(b)所示，也可在偏差進入容許範圍之中之後超出容許範圍之外時，賦予較小的報酬r，並學習不使機械負載3發生振盪的指令參數104。以上係圖6所示的報酬計算部71之動作例的說明。

計算了報酬r時，價值函數更新部72係依據報酬r而更新行動價值函數Q。意思決定部73係將經更新後的行動價值函數Q成為最大的行動at，亦即經更新後的行動價值函數Q成為最大的指令參數104，決定為評估候選參數108。

此外，圖1所示的馬達控制裝置1000的說明中，以學習部7使用的學習演算法為強化學習的情況進行了說明，惟學習部7使用的學習演算法不限於強化學習。也可適用監督學習、無監督學習、半監督學習等學習演算法。再者，也可使用學習特徵量本身的抽出之深層學習(Deep Learning)作為學習演算法。再者，可根據其他方法例如神經網路、遺傳程式設計、功能邏輯程式設計、支援向量機、貝葉斯優化等來執行機械性學習。

圖7係顯示實施型態一之馬達控制裝置1000具備的處理電路由處理器10001及記憶體10002構成時之構成例的圖。處理電路由處理器10001及記憶體10002構成時，馬達控制裝置1000之處理電路的各功能係藉由軟體、韌體或軟體與韌體的組合來實現。軟體或韌體係以程式來描述，並儲存在記憶體10002中。處理電路中，藉由處理器10001讀取並執行儲存在記憶體10002中的程式來實現各功能。也就是說，處理電路係具備用於儲存終將被執行之馬達控制裝置1000的處理結果之程式的記憶體10002。此外，這些程式亦可謂用以使電腦執行馬達控制裝置1000的步驟及方法者。

在此，處理器10001可為CPU(中央處理單元；Central Processing Unit) 、處理裝置、演算裝置、微處理器、微電腦、DSP(數位信號處理器；Digital Signal Processor)等。記憶體10002可為例如RAM(隨機存取記憶體；Random Access Memory)、ROM(唯讀記憶體；Read Only Memory)、快閃記憶體、EPROM(可抹可規劃唯讀記憶體；Erasable Programmable ROM)、EEPROM(註冊商標)(可電子清除的唯讀記憶體；Electrically EPROM)等非揮發性或揮發性半導體記憶體。此外，記憶體10002可為磁碟、可撓性磁碟、光碟、小型光碟、迷你光碟或DVD(多樣化數位光碟；Digital Versatile Disc)等。

圖8係顯示實施型態一之馬達控制裝置1000具備的處理電路係由專用硬體構成時的構成例的圖。處理電路由專用硬體構成時，圖8所示的處理電路10003可為例如單一電路、複合電路、程式化的處理器、並行程式化的處理器、ASIC(特定應用積體電路；Application Specific Integrated Circuit)、FPGA(現場可程式閘陣列；Field Programmable Gate Array)、或組合這些硬體而成者。馬達控制裝置1000的功能也可依各功能而藉由處理電路10003來實現，也可彙整複數種功能藉由處理電路10003來實現。此外，馬達控制裝置1000與控制對象2000可藉由網路而連接。再者，馬達控制裝置1000也可存在於雲端伺服器上。

再者，也可設置複數個與控制對象2000同樣的控制對象，並行地執行以複數個控制對象進行的評估運轉而效率良好地進行學習。例如，在圖2的評估運轉EV11的時間內，使複數個控制對象進行的評估運轉並行地執行，而取得包含複數組指令參數與評估感測器信號之成組的資料。接著，在學習動作L12的時間內，使用評估運轉EV11的時間內所取得的資料將行動價值函數Q更新複數次，決定複數個指令參數104。再者，在評估運轉EV11的時間內，使用學習動作L12的時間內所決定的複數個指令參數，執行由複數個控制對象進行的評估運轉。若如此地執行學習周期，則能夠並行地執行複數個評估運轉。此外，學習部針對決定複數個指令參數的動作也可使用容後於實施型態4敘述的方法。再者，在反覆進行學習周期中，也可變更上述的複數個控制對象之一部分或全部，也可增減構成複數個控制對象之控制對象的數量。

再者，也可將使用從控制對象2000所取得的資料而進行了學習的馬達控制裝置1000連接於其他的控制對象，並使用從其他的控制對象所取得的資料而更執行學習。再者，也可使用搭載有本實施型態之學習結果的完成學習之學習器而構成馬達控制裝置。上述完成學習之學習器亦可藉由使用因學習而完成更新的行動價值函數Q而決定指令參數104的完成學習之程式來實現。再者，亦可藉由記憶有指令參數104之調整的結果的完成學習之資料來實現上述完成學習之學習器。依據使用了完成學習之學習器的馬達控制裝置，能夠在短時間內提供可利用學習結果的馬達控制裝置。再者，依劇本實施型態所說明的方法，亦可執行馬達控制裝置之指令參數104的自動調整，亦可製造馬達控制裝置。此外，本實施型態的自動調整若調整作業之至少一部分為自動化即可而未排除人的操作或人的介入之調整。

如上所述，本實施型態之馬達控制裝置1000係具備驅動控制部4、學習部7及調整管理部9。驅動控制部4係根據指令參數104(控制指令)驅動馬達1，使由馬達1及與馬達1機械性地連接的機械負載3構成的控制對象2000動作。並且，執行將控制對象2000設定成初始狀態的初始化運轉，以及從初始狀態開始的評估運轉。學習部7係將使用於評估運轉的指令參數104(控制指令)與檢測出評估運轉時的控制對象2000之狀態的狀態感測器信號101賦予關聯性而進行學習。並且，根據學習到的結果，決定使用於取得了狀態感測器信號101之評估運轉之後要執行之評估運轉的指令參數104(控制指令)。調整管理部9係根據執行初始化運轉、評估運轉、學習動作之中任一者的第一步驟的時機，決定執行初始化運轉、評估運轉、學習動作之中任一者的第二步驟的時機。如上所述，能夠調整執行第一步驟與第二步驟的時機以縮短等待時間，效率良好地執行指令參數104(控制指令)的調整。

再者，本實施型態之馬達控制方法係根據指令參數104(控制指令)來驅動馬達1，使由馬達1及與馬達1機械性地連接的機械負載3構成的控制對象2000動作。並且，執行將控制對象2000設定成初始狀態的初始化運轉，以及從初始狀態開始的評估運轉。並且，將使用於評估運轉的指令參數104與檢測出評估運轉時的控制對象2000之狀態的狀態感測器信號101賦予關聯性並進行學習，並根據學習到的結果，執行決定使用於取得了狀態感測器信號101之評估運轉之後要執行之評估運轉之指令參數104的學習動作。在此，學習動作係從學習的開始至決定指令參數104為止的動作。並且，根據執行初始化運轉、評估運轉、學習動作之中任一者的第一步驟的時機，決定執行初始化運轉、評估運轉、學習動作之中任一者的第二步驟的時機。如此，可提供能夠效率良好地執行自動調整的馬達控制方法。

再者，也可將執行第二步驟的時機設成與執行第一步驟的時機同時或較晚的時機。如此，可將所檢測得知的執行第一步驟的時機運用於決定執行第二步驟的時機，能夠更確實地縮短步驟之間的間隔。此外，即使第一步驟所需的時間等變化時，也能夠對應於變化而調整執行第二步驟的時機。在此，第一步驟之完成時間點與第二步驟之開始時間點的間隔，以在可實施的範圍內盡量縮短為較佳，而將第一步驟之完成時間點與第二步驟之開始時間點設成同時或大致同時則更佳。

如上所述，依據本實施型態，能夠提供一種馬達控制裝置，於反覆進行初始化運轉、評估運轉及學習動作而執行調整控制馬達之控制指令的自動調整時，能夠縮短自動調整所需的時間。

實施型態2 圖9係顯示實施型態2之馬達控制裝置1000a之構成之一例的方塊圖。圖9(a)係顯示馬達控制裝置1000a之整體的構成例，圖9(b)係顯示學習部7a的構成例。馬達控制裝置1000a係具備學習部7a來取代實施型態1之圖1所示之馬達控制裝置1000的學習部7，且具備調整管理部9a來取代圖1的調整管理部9。學習部7a的構成係從學習部7的構成中省略了學習完成信號決定部74。再者，圖9的調整管理部9a係根據狀態感測器信號101檢測得知評估運轉及初始化運轉的完成時間點。並且，圖9的調整管理部9a係在決定評估運轉的開始時間點時使用初始化運轉的完成時間點。圖9所示的馬達控制裝置1000a的說明中，針對與圖1相同或對應的構成要素標記相同的符號。

圖10係顯示實施型態2之馬達控制裝置1000a的動作時序之一例的圖。圖10(a)至圖10(d)的橫軸為時間，圖10(a)至圖10(d)的縱軸分別為學習動作、動作處理(初始化運轉及評估運轉)、學習開始信號106及指令開始信號105。指令開始信號105及學習開始信號106之各信號的值與各信號所指示之內容的關係，係與實施型態1之圖2中所說明之內容的關係相同。

圖10的動作例中，相較於學習動作所需的時間，初始化運轉所需的時間所需較長。再者，初始化運轉係在學習動作之後完成。因此，根據初始化運轉的完成時間點來決定評估運轉的開始時間點，而非根據學習動作的完成時間點。再者，根據狀態感測器信號101來檢測得知初始化運轉及評估運轉的完成時間點。此係與圖2的動作例不同。

圖11係顯示實施型態2之調整管理部9a之動作之一例的流程圖。參照圖10及圖11，例示馬達控制裝置1000a的動作。自動調整開始時，步驟S201中，調整管理部9a係將時刻TL211之指令開始信號105的值決定為1，將初始化運轉IN12之開始時間點決定為時刻TL211。馬達1係依照指令開始信號105，於時刻TL211開始初始化運轉IN12。並且，於時刻TL213完成初始化運轉IN12。

步驟S202中，調整管理部9a係將時刻TL211之學習開始信號106的值決定為1，將學習動作L21之開始時間點決定為時刻TL211。學習部7a係依照學習開始信號106，於時刻TL211開始學習動作L12。並且，於時刻TL212完成學習動作L12。與圖2之學習動作L11同樣地，學習動作L12中，學習部7a也可依據事前的設定或隨機地決定指令參數104。初始化運轉IN21與學習動作L21係並行地執行。由於初始化運轉IN12所需的時間比學習動作L12所需的時間長，所以時刻TL213成為時刻TL212之後的時間點。與圖2的動作例同樣地，也可在不使等待時間延長的範圍內，使學習動作L12的開始時間點比初始化運轉IN12的開始時間點延遲。

步驟S203中，調整管理部9a係根據狀態感測器信號101檢測得知時刻TL213作為初始化運轉IN21的完成時間點。步驟S204中，調整管理部9a係根據所得知的初始化運轉IN21的完成時間點，將時刻TL213之指令開始信號105的值決定為1，而決定評估運轉EV21(第一評估運轉)的開始時間點。馬達1係依照指令開始信號105，於時刻TL213開始評估運轉EV11。並且，於時刻TL221完成評估運轉EV21。

步驟S205中，調整管理部9a係根據狀態感測器信號101，檢測得知時刻TL221作為評估運轉EV21的完成時間點。並且，步驟S206中，與圖3的步驟S106同樣地，執行是否繼續自動調整的判斷。於時刻TL221執行的步驟S206中，調整管理部9a係判斷為繼續自動調整而前進至步驟S207。將時刻TL211起至時刻TL221為止設為學習周期CYC21。

步驟S207中，調整管理部9a係根據評估運轉EV21的完成時間點，將時刻TL221之指令開始信號105及學習開始信號106的值決定為1。並且，藉由此動作而將時刻TL221決定為初始化運轉IN22(第一初始化運轉)及學習動作L22(第一學習動作)的開始時間點。馬達1及學習部7a係各自依照指令開始信號105及學習開始信號106，開始初始化運轉IN22及學習動作L22。初始化運轉IN22與學習動作L22係並行地執行。

之後，反覆執行步驟S203至步驟S207直到步驟S206中調整管理部9a判斷為不繼續自動調整。並且，於學習周期CYC22的步驟S204中，調整管理部9a係根據初始化運轉IN22之完成時間點的TL223，將時刻TL223之指令開始信號105的值決定為1。並且，藉由此動作，將時刻TL223決定作為評估運轉EV22(第二評估運轉)的開始時間點。馬達1係依照指令開始信號105，於時刻TL223開始評估運轉EV22。

調整管理部9a係於最後的學習周期之學習周期CYC2X的步驟S205中，檢測得知時刻TL2X2作為評估運轉EV2X的完成時間點。並且，步驟S206中判斷為不繼續自動調整而前進至步驟S208，步驟S208中，調整管理部9a係與圖3的步驟S108同樣地對學習部7a指示結束處理T2。學習部7a係與圖2的結束處理T1同樣地執行結束處理T2。此外，本實施型態也可與實施型態1同樣地使與控制對象2000同樣的複數個控制對象並行地執行評估運轉，效率良好地執行自動調整。再者，也可使用搭載有本實施型態之學習結果的完成學習之學習器而構成馬達控制裝置。此外，依據本實施型態的學習，亦可執行控制馬達之控制指令的自動調整，亦可執行馬達控制裝置的製造。

再者，也可於步驟S203或步驟S205中，調整管理部9a檢測得知運轉之完成時，檢測出顯示馬達1之位置的狀態感測器信號101與目標移動距離之差異之偏差成為預先設定的基準值以下的情形，而檢測得知運轉的完成。再者，除了偏差成為基準值以下的情形以外，也可在預先設定之時間的期間檢測出偏差未超過基準值時，判斷為運轉已完成。此外，調整管理部9a也能夠將檢測出控制對象2000之狀態的信號使用於運轉的完成時間點的檢測，而不限於狀態感測器信號101。再者，也能夠將指令信號103使用於運轉的完成時間點的檢測。

依據本實施型態，能夠提供一種馬達控制裝置，於反覆進行初始化運轉、評估運轉及學習動作而執行調整控制馬達之控制指令的自動調整時，能夠縮短自動調整所需的時間。

也可執行評估運轉之一的評估運轉EV21(第一評估運轉)，並使用評估運轉EV21時所取得的狀態感測器信號101而執行學習動作L22(第一學習動作)。並且，也可將初始化運轉IN22(第一初始化運轉)與學習動作L22並行地執行，從藉由初始化運轉IN22所設定的初始狀態，根據由學習動作L22所決定的指令參數104(控制指令)，執行評估運轉EV21之下一個評估運轉的評估運轉EV22(第二評估運轉)。藉由如此的動作，能夠並行地執行學習動作L22與初始化運轉IN22，而可縮短自動調整所需的時間。如此，亦可提供能夠效率良好地執行自動調整的馬達控制裝置1000a或馬達控制方法。

再者，調整管理部9a也可檢測得知評估運轉EV21的完成時間點，並根據所得知的完成時間點來決定學習動作L22的開始時間點及初始化運轉IN22的開始時間點，而縮短步驟之間的等待時間。再者，調整管理部9a也可將學習動作L22與初始化運轉IN22之中之需要時間較長之一方的開始時間點決定為另一方之開始時間點的同時或較早，而縮短步驟之間的等待時間。再者，調整管理部9a也可檢測得知初始化運轉IN22及學習動作L22之中之同時或較晚完成之一方的完成時間點，並根據所得知的完成時間點來決定評估運轉EV22的開始時間點，而縮短步驟之間的等待時間。此外，連續地執行前步驟與後步驟之二個步驟時，以在可實施的範圍內將前步驟的完成時間點與後步驟的開始時間點縮短為較佳，若將兩者設成同時或大致同時則更佳。再者，驅動控制部4也可將馬達1驅動成為追隨控制馬達1之指令值且為位置、速度、加速度、電流、轉矩或推力之指令值的指令信號103，藉由檢測出控制對象2000的信號或指令信號103，檢測出評估運轉或初始化運轉的完成時間點，而精度良好地檢測得知運轉的完成時間點。又，即使運轉所需的時間變化時，也可利用能夠正確地決定下一個步驟的開始時間點的情況，縮短自動調整所需的時間。如上所述，亦可提供能夠效率良好地執行自動調整的馬達控制裝置1000a或馬達控制方法。

實施型態3 圖12係顯示實施型態3之馬達控制裝置1000b之構成之一例的方塊圖。圖12(a)係顯示馬達控制裝置1000b之整體的構成例，圖12(b)係顯示學習部7b的構成例。馬達控制裝置1000b的構成除了具備學習部7b來取代學習部7a之外，與實施型態2之圖9所示的馬達控制裝置1000a相同。針對本實施型態之圖12所示的構成要素之中與實施型態2之圖9所示的構成要素相同或對應的構成要素標記相同的符號。

學習部7b除了圖9(b)的構成要素之外，更具備學習限制時間決定部77。學習制限時間決定部77係算出初始化運轉所需的時間作為推定初始化運轉所需時間。又，根據推定初始化運轉所需時間，決定學習部7b執行學習動作之時間的學習時間的上限值作為學習限制時間TLIM1。學習制限時間決定部77也可將學習限制時間TLIM1決定為與初始化運轉所需時間相同或較短的時間。又，學習部7b也可在與學習限制時間TLIM1相同或較短的時間之期間執行學習動作。藉由如此地執行學習動作，能夠於初始化運轉完成之前使學習動作完成。在此，學習部7b也可從外部取得推定初始化運轉所需時間。再者，學習部7b也可從狀態感測器信號101、指令信號103等求得初始化運轉所需時間的實測值，而使用此實測值來推定或更新推定初始化運轉所需時間。

學習制限時間決定部77也可更預先決定基本學習時間TSL1。基本學習時間TSL1係學習時間的下限，學習部7b也可在與基本學習時間TSL1相同長度的時間或更長的時間執行學習動作。例如，可將基本學習時間TSL1設為用以決定指令參數104之最小限度時間，也可設為用以決定所希望之精度之指令參數104之最小限度時間。學習制限時間決定部77亦可更根據基本學習時間TSL1與學習限制時間TLIM1決定追加學習時間TAD1，使基本學習時間TSL1與追加學習時間TAD1的和不超過學習限制時間TLIM1。此條件係以數學式(26)表示。此外，學習限制時間TLIM1係設成比基本學習時間TSL1長。

學習部7b係在基本學習時間TSL1的期間執行學習。又，也可更執行追加學習時間TAD1之期間的學習動作，提升指令參數104的精度。學習部7b係能夠利用基本學習時間TSL1執行預先定為下限之學習時間的學習。此外，也可僅設定學習限制時間TLIM1而不設定基本學習時間TSL1及追加學習時間TAD1。再者，學習制限時間決定部77亦可將推定初始化運轉所需時間、學習限制時間TLIM1、基本學習時間TSL1、追加學習時間TAD1等儲存於記憶裝置。

接著，針對學習時間與學習動作中決定的指令參數的精度的關係進行說明。例如，使用Q學習作為學習演算法時，意思決定部73係選擇行動價值函數Q的值變大的行動at作為評估候選參數108。執行此選擇之際，行動價值函數Q為連續性的函數等情況下，會有意思決定部73反覆執行計算的情形。如此，於學習動作中反覆執行計算時，意思決定部73能夠確保較長的計算時間，藉由增加計算的步驟數而提升計算精度。由以上的說明，學習動作包含反覆計算時，可更顯著地發揮本實施型態的功效。此外，就反覆計算的例而言，可舉例如最陡下降法或牛頓方法(Newton's method)之求取數值上的斜率的方法，以及如蒙特卡羅法(Monte Carlo Method)之使用概率要素的方法等。

圖13係顯示實施型態3之馬達控制裝置1000b之動作時序之一例的圖。圖13(a)至圖13(d)的橫軸為時間，圖13(a)至圖13(d)的縱軸分別為學習動作、動作處理(初始化運轉及評估運轉)、學習開始信號106及指令開始信號105。圖13中的指令開始信號105及學習開始信號106之各信號的值與各信號所指示之內容的關係，係與實施型態1之圖2中所說明之內容的關係相同。圖13所示的馬達控制裝置1000b的動作除了學習部7b以外，與圖10相同。圖13中，針對與圖10相同或對應的運轉、學習、學習周期、時刻等標記與圖10相同的符號。再者，圖13之動作例中的調整管理部9a之動作的流程圖係與實施型態2之圖11相同。參照圖11及圖13來說明馬達控制裝置1000b的動作例。

圖13的動作例中，學習制限時間決定部77係根據初始化運轉IN21所需之時間的實測值，算出推定初始化運轉所需時間。又，於與推定初始化運轉所需時間相同或較短的時間，決定學習限制時間TLIM1。再者，學習制限時間決定部77係決定基本學習時間TSL1作為學習時間的下限，並將學習限制時間TLIM1與基本學習時間TSL1的差作為追加學習時間TAD1。

圖13的動作例中，僅學習部7b的動作與實施型態2的圖10不同，因此，以學習周期CYC22為例來說明學習部7b的動作。學習部7b係依照在學習周期CYC22的步驟S202所決定的學習開始信號106，於時刻TL221開始學習動作L22(第一學習動作)。在此，學習部7b係執行部分學習動作L221及部分學習動作L222作為學習動作L22。部分學習動作L221的長度為基本學習時間TSL1。又，部分學習動作L222的長度為追加學習時間TAD1。再者，學習部7b係從時刻TL221起算，於經過基本學習時間TSL1及追加學習時間TAD1的時間點之時刻TL222，完成學習動作L22。在此，時刻TL222的值係等於時刻TL221的值、基本學習時間TSL1及追加學習時間TAD1之三者的和，而成為數學式(27)的關係。

圖13的動作例中，初始化運轉的開始時間點與學習動作的開始時間點為同時，惟在初始化運轉所需的時間比學習動作所需時間長時，也可使學習動作比初始化運轉較慢開始。學習制限時間決定部77亦可將學習限制時間TLIM1決定成為使從初始化運轉IN22的開始時間點起算經過推定初始化運轉所需時間的時間點，成為從學習動作L22(第一學習動作)的開始時間點起算經過學習限制時間TLIM1的時間點之後。又，學習部7b也可在與學習限制時間TLIM1相同或更短的時間的期間執行學習動作L22。如此，即使於學習動作L22的開始時間點在初始化運轉IN22的開始時間點之後的情形下，也能於初始化運轉IN22的完成前使學習動作L22完成。若為如此的狀況，則不須等待學習動作L22的完成，即可於初始化運轉IN22剛完成之後立即開始評估運轉EV22。因此，不會發生因等待學習動作L22的完成所致之延遲時間的增加。從而，能夠縮短自動調整所需的時間。如此，也可提供能夠效率良好地執行自動調整的馬達控制裝置1000a或馬達控制方法。

再者，除了決定學習限制時間TLIM1之外，學習制限時間決定部77也可決定作為學習時間之下限的基本學習時間TSL1。又，學習部7b也可在與基本學習時間TSL1相同或較長的時間，且與學習限制時間TLIM1相同或比學習限制時間TLIM1短的時間的期間，執行學習動作L22。若如此地執行學習動作，則能夠利用學習限制時間TLIM1確保預先設定為下限的學習時間。又，例如，若將基本學習時間TSL1設為用以獲得指令參數104之最低限度所需的時間，則能夠以更高的確率依，每一學習周期算出指令參數104。如上所述，亦可提供能夠效率良好地執行自動調整的馬達控制裝置1000a或馬達控制方法。

依據本實施型態，能夠提供一種馬達控制裝置，於反覆進行初始化運轉、評估運轉及學習動作而執行調整控制馬達1之指令參數104(控制指令)的自動調整時，能夠縮短自動調整所需的時間。

實施型態4 圖14係顯示實施型態4之馬達控制裝置1000c之構成之一例的方塊圖。圖14(a)係顯示馬達控制裝置1000c之整體的構成例，圖14(b)係顯示學習部7c的構成例。圖14所示的馬達控制裝置1000c係具備學習部7c來取代實施型態1之圖1所示之馬達控制裝置1000的學習部7，且具備調整管理部9b來取代調整管理部9。再者，除了圖1的馬達控制裝置1000的構成例以外，更具備學習時間推定部10。圖14所示的馬達控制裝置1000c的說明中，針對與實施型態1之圖1或圖5相同或對應的構成要素標記相同的符號。

本實施型態的學習係能夠使用各式各樣的學習演算法，惟在此例示使用Q學習之強化學習的情形。圖14所示的學習部7c係具備意思決定部73a來取代圖5所示之實施型態1之學習部7的意思決定部73。圖5的學習部7係在一次的學習動作中，取得一組之使用評估運轉的指令參數104與評估運轉時的狀態感測器信號101的組成，執行一次的指令參數104的決定。相對於此，學習部7c係在一次的學習周期中，取得複數組上述的組成。又，報酬計算部71與價值函數更新部72係針對所取得之組成的各個者，執行報酬r的計算與根據所算出的報酬r之行動價值函數Q的更新。結果，學習部7c係在一次的學習周期中，執行複數次報酬r的計算與行動價值函數Q的更新。

意思決定部73a係根據執行了上述複數次的更新的行動價值函數Q以及使用於更新之複數組之資料集，決定複數個評估候選參數108。又，指令參數決定部75係根據所決定的評估候選參數108，決定使用於執行中的學習動作之後的評估運轉的指令參數104。

針對意思決定部73a的動作進行說明。意思決定部73a係取得價值函數更新部72經更新的數學式(25)的行動價值函數Q(st、at)。又，針對複數個行動at，亦即複數組之資料集所包含的複數個指令參數104，計算對應的行動價值函數Q之值。在此，選擇行動at(指令參數104)時，賦予某行動價值函數Q(st、at)的值的情形下，行動at(指令參數104)與行動價值函數Q(st、at)的值係相互對應。再者，依大起的排序，從計算後的複數個行動價值函數Q的值，選出預先設定之預定個數的行動價值函數Q的值。並且，將與所選出之行動價值函數Q的值對應的指令參數104決定作為評估候選參數108。以上為意思決定部73a的動作之一例。此外，指令參數決定部75決定的指令參數104的個數也可與執行中的學習動作的下一個學習周期中要執行的評估運轉的次數相同。

接著，說明學習時間推定部10。學習時間推定部10係算出針對執行之學習動作之學習時間的推定值作為推定學習時間，並輸出顯示學習時間的推定學習時間信號109。此外，學習時間推定部10也可取得針對執行之學習動作之學習開始信號106及學習完成信號107，從學習開始時間點與學習完成時間點的差取得學習時間的實測值。又，也可根據所取得的學習時間的實測值，算出針對執行之學習動作之學習時間的推定值作為推定學習時間。再者，學習時間推定部10也可藉由外部的輸入而取得推定學習時間，也可依據學習時間的實測值來更新推定學習時間。

接著，說明調整管理部9b。調整管理部9b係根據學習完成信號107決定學習開始信號106而藉此根據學習動作的完成時間點決定下一個學習動作的開始時間點。再者，調整管理部9b係預先設定初始化運轉所需的時間之初始化運轉所需時間以及評估運轉所需的時間之評估運轉所需時間。又，從初始化運轉及評估運轉的開始時間點起算，藉由檢測得知經過初始化運轉所需時間及評估運轉所需時間，而分別得知初始化運轉及評估運轉的完成時間點。又，根據所得知的初始化運轉及評估運轉的完成時間點，分別決定下一個執行的評估運轉及初始化運轉的開始時間點。在此，調整管理部9b也可如實施型態2的調整管理部9a，根據檢測出控制對象2000的狀態之信號或指令信號103，正確地檢測得知初始化運轉及評估運轉的完成時間點。在此，將由初始化運轉以及從藉由初始化運轉所設定的初始狀態開始的評估運轉所構成的馬達1的動作，稱為評估運轉周期。調整管理部9b係於每一個評估運轉的完成時間點，執行是否完成評估運轉周期的判斷。以下的說明中，會有將評估運轉的完成時間點稱為判斷時間點的情形。

圖15係顯示實施型態4之馬達控制裝置1000c之動作時序之一例的圖。圖15(a)至圖15(e)的橫軸為時間，圖15(a)至圖15(e)的縱軸分別為學習動作、動作處理(初始化運轉及評估運轉)、學習開始信號106、學習完成信號107及指令開始信號105。學習開始信號106、學習完成信號107及指令開始信號105的值與各信號所示之學習動作或運轉的時序的關係，係與實施型態1之圖2所說明的內容相同。圖16係顯示實施型態4之調整管理部9b之動作之一例的流程圖。圖15中，一次的學習周期之中執行一次的學習動作，且與學習動作並行地執行二次評估運轉周期，惟與學習動作並行地執行的評估運轉周期的次數也可為三次以上。

使用圖15及圖16例示馬達控制裝置1000c的動作。自動調整開始時，步驟S401中，調整管理部9b係將時刻TL411之學習開始信號106的值決定為1，而將時刻TL411決定為學習動作L41(第三學習動作)的開始時間點。學習部7c係依照學習開始信號106而於時刻TL411開始學習動作L41。步驟S402中，調整管理部9b係根據學習動作L41的開始時間點，將時刻TL411之指令開始信號105的值決定為1，而將時刻TL411決定為初始化運轉IN41的開始時間點。馬達1係依照指令開始信號105而於時刻TL411開始初始化運轉IN41。再者，馬達1係於時刻TL412完成初始化運轉IN41，且在初始化運轉IN41的完成後成為待機狀態。在此，步驟S402中，調整管理部9b係藉由決定初始化運轉IN41的開始時間點而決定第一次的學習周期CYC1(第一評估運轉周期)的開始時間點。

步驟S403中，調整管理部9b係檢測從時刻TL411起算經過初始化運轉所需時間，檢測得知時刻TL413作為初始化運轉IN41的完成時間點。步驟S404中，調整管理部9b係根據所得知的初始化運轉IN41的完成時間點，將時刻TL413之指令開始信號105的值決定為1，而將時刻TL413決定為於評估運轉EV41的開始時間點。馬達1係依照指令開始信號105，於時刻TL413開始評估運轉EV41。又，馬達1係於時刻TL414完成評估運轉EV41，評估運轉EV41完成後成為待機狀態。

步驟S405中，調整管理部9b係檢測從時刻TL413起算經過評估運轉所需時間，檢測得知時刻TL415作為評估運轉EV41的完成時間點。步驟S406中，調整管理部9b係執行是否已完成執行中的評估運轉周期的判斷，判斷為未完成評估運轉周期時，前進至步驟S407，判斷為完成評估運轉周期時，前進至步驟S408。

在此例示步驟S406的判斷。調整管理部9b係預先設定一次評估運轉周期之所需時間的推定值，亦即推定評估運轉周期所需時間。調整管理部9b係於判斷時間點取得推定學習時間信號109，且算出從學習動作L41的開始時間點起算經過推定學習時間的時間點，亦即推定學習時間經過時間點。再者，調整管理部9b係在從評估運轉之完成時間點的判斷時間點至推定學習時間經過時間點為止的時間短於推定評估運轉周期所需時間時，判斷為完成評估運轉周期ECYC1。又，從上述的判斷時間點至推定學習時間經過時間點為止的時間長於推定評估運轉周期所需時間時，判斷為未完成評估運轉周期ECYC1。換言之，調整管理部9b係在推定學習時間經過時間點為止的剩餘時間的期間無法執行一次的評估運轉周期時，判斷為完成評估運轉周期ECYC1。又，剩餘時間的期間能夠執行一次的評估運轉周期時，判斷為未完成評估運轉周期ECYC1。以上為步驟S406之判斷的一例。

調整管理部9b係於時刻TL415的步驟S406的判斷中判斷為未完成評估運轉周期ECYC1時，前進至步驟S407。步驟S407中，調整管理部9b係根據評估運轉EV41的完成時間點，將時刻TL415之指令開始信號105的值決定為1，而將時刻TL415決定為初始化運轉IN42的開始時間點。馬達1係依照指令開始信號105，於時刻TL415開始初始化運轉IN42。之後，調整管理部9b係反覆執行步驟S403至步驟S407，直到步驟S406中判斷為完成評估運轉周期ECYC1。

調整管理部9b係於時刻TL421的判斷時間點，執行步驟S406的判斷，判斷為完成評估運轉周期ECYC1時，前進至步驟S408。步驟S408中，調整管理部9b係根據學習完成信號107，檢測得知時刻TL421作為學習動作L41的完成時間點。接著，步驟S409中，調整管理部9b係與實施型態1之圖3的步驟S106同樣地，判斷是否繼續自動調整，判斷為繼續自動調整時，前進至步驟S410，判斷為不繼續自動調整時，前進至步驟S411。調整管理部9b係於時刻TL421之步驟S409的判斷中，判斷為繼續自動調整。

在此，學習周期CYC41係從時刻TL411至時刻TL421為止的期間。此外，評估運轉周期ECYC1係從學習動作一次也未執行的狀態起開始。因此，評估運轉EV41及評估運轉EV42也可使用預先設定的指令參數104或隨機地決定的指令參數104來執行。再者，學習動作L41係與實施型態1的學習動作L11同樣地，也可隨機地決定指令參數104，也可根據設定來決定指令參數104。

調整管理部9b係於步驟S410，根據學習動作L41的完成時間點，將時刻TL421之學習開始信號106的值決定為1，而將時刻TL421決定為學習動作L42(第四學習動作)的開始時間點。學習部7c係依照學習開始信號106，於時刻TL421開始學習動作L42。學習動作L42係根據評估運轉周期ECYC1所使用的指令參數104與評估運轉周期ECYC1所取得的狀態感測器信號101來執行。之後，調整管理部9b係反覆執行步驟S402至步驟S410，直到步驟S409中判斷為不繼續自動調整為止。在此，評估運轉周期ECYC2(第二評估運轉周期)係使用學習動作L41中所決定的指令參數104來執行。再者，步驟S402中，調整管理部9b係藉由將時刻TL421決定為初始化運轉IN43的開始時間點，而將時刻TL421決定為評估運轉周期ECYC2的開始時間點。

學習周期CYC4Z的時刻TL4X3之步驟S409的判斷中，調整管理部9b係判斷為不繼續自動調整，而前進至步驟S411。步驟S411中，調整管理部9b係與實施型態1之圖3的步驟S108同樣地，指示結束處理T4。並且，學習部7c係與實施型態1之圖2的結束處理T1同樣地，執行結束處理T4。

此外，本實施型態也可與實施型態1同樣地，使與控制對象2000同樣的複數個控制對象並行地執行評估運轉，而效率良好地執行自動調整。例如，若於圖15之學習動作L41之期間，並行地使複數個控制對象執行評估運轉周期，則在一次的評估運轉周期之中能夠取得更多狀態感測器信號101與指令參數104的組成，所以能夠效率良好地執行學習。再者，也可使用搭載有本實施型態之學習結果的完成學習之學習器而構成馬達控制裝置。又，也可藉由執行本實施型態的學習，而執行控制馬達之控制指令的自動調整、馬達控制裝置的製造等。再者，也可提供能夠效率良好地執行自動調整的馬達控制方法。

又，也可執行屬於學習動作之一的學習動作L41(第三學習動作)，與學習動作L41並行地執行複數次屬於評估運轉周期之一的評估運轉周期ECYC1(第一評估運轉周期)，再者，也可使用在評估運轉周期ECYC1所取得的狀態感測器信號101，而執行學習動作L41之下一個學習動作的學習動作L42(第四學習動作)。又，也可使用由學習動作L41所決定的指令參數104(控制指令)，與學習動作L42並行地執行複數次評估運轉周期ECYC1之下一個評估運轉周期的評估運轉周期ECYC2(第二評估運轉周期)。藉由如此的動作，亦可於一次的學習動作的期間，執行複數次評估運轉周期，效率良好地取得指令參數104與評估感測器信號102的組成，縮短自動調整所需的時間。如此，亦可提供能夠效率良好地執行自動調整的馬達控制裝置1000c或馬達控制方法。

又，調整管理部9b亦可根據學習動作L41的完成時間點來決定學習動作L42的開始時間點，並根據學習動作L41及學習動作L42的開始時間點來分別決定評估運轉周期ECYC1及評估運轉周期ECYC2的開始時間點。藉由如此的動作，亦可調整執行二個學習動作之時機之間的關係，亦可調整執行學習動作的時機與執行評估運轉周期之時機的關係。藉此，可縮短等待時間。如此，亦可提供能夠效率良好地執行自動調整的馬達控制裝置1000c或馬達控制方法。

又，馬達控制裝置1000c更具備推定學習動作L21所需時間作為推定學習時間的學習時間推定部10。又，調整管理部9b也可預先設定執行評估運轉周期所需時間之推定值作為推定評估運轉周期所需時間。再者，調整管理部9b也可於評估運轉周期ECYC1完成的時間點的判斷時間點，當推定學習時間與從學習動作L21之開始時間點起至判斷時間點為止所經過之時間的差相同或長於推定評估運轉周期所需時間時，判斷為繼續評估運轉周期ECYC1，而當短於推定評估運轉周期所需時間時，判斷為不繼續評估運轉周期ECYC1。藉由如此的動作，可在學習時間的完成時間點為止前能夠使評估運轉周期完成的範圍內，增加評估運轉周期的數目。又，推定學習時間、推定評估運轉周期所需時間等變化時，能夠因應變化而調整評估運轉周期的執行次數，所以能夠效率良好地執行自動調整。如此，亦可提供能夠效率良好地執行自動調整的馬達控制裝置1000c或馬達控制方法。

又，圖15的動作例中，調整管理部9b係根據初始化運轉IN41的開始時間點與初始化運轉所需時間，來決定初始化運轉IN41的完成時間點。本實施型態不限於如此的動作。例如，會有於步驟中之第一步驟完成之後直到步驟中之第二步驟開始為止的期間，執行包含初始化運轉、評估運轉或學習動作之中之任一者的中間步驟的情形。如此的情形下，調整管理部9b也可預先推定執行中間步驟所需時間，而將比從第一步驟的完成時間點起算經過執行所推定之中間步驟所需時間的時間點還晚的時間點，決定為第二步驟的開始時間點。藉由此種動作，也可由中間步驟所需時間的推定值概略地調整第二步驟的開始時間點，縮短等待時間，藉此減少自動調整所需時間。如此，亦可提供能夠效率良好地執行自動調整的馬達控制裝置1000c或馬達控制方法。

如以上所述，依據本實施型態，能夠提供一種馬達控制裝置，於反覆進行初始化運轉、評估運轉及學習動作而執行調整控制馬達之控制指令的自動調整時，能夠縮短自動調整所需的時間。

1:馬達 2:指令生成部 3:機械負載 4:驅動控制部 5:狀態感測器 7,7a,7b,7c:學習部 9,9a,9b:調整管理部 71:報酬計算部 72:價值函數更新部 73,73a:意思決定部 74:學習完成信號決定部 75:指令參數決定部 76:評估感測器信號決定部 101:狀態感測器信號 102:評估感測器信號 103:指令信號 104:指令參數 105:指令開始信號 106:學習開始信號 107:學習完成信號 108:評估候選參數 1000,1000a,1000b,1000c:馬達控制裝置 10001:處理器 10002:記憶體 10003:處理電路 2000:控制對象 A:加速度 Aa,Ad:加速度的大小 CYC11,CYC12,CYC21,CYC22,CYC2X,CYC4Z:學習周期 D:目標移動距離 E:驅動電力 EV11,EV12,EV21,EV22,EV41:評估運轉 IMP:偏差之容許範圍的界限值 IN11,IN12,IN21,IN22,IN41,IN42:初始化運轉 L11,L12,L21,L22,L41,L42:學習動作 P:位置 Q:行動價值函數 T1至T7:第一時間長度至第七時間長度 TAD1:追加學習時間 TL111,TL112,TL113,TL114,TL121,TL122,TL123,TL211,TL212,TL213,TL221,TL222,TL223,TL411,TL412,TL413,TL414,TL415,TL1X1,TL1Y1,TL2X2,Tst1,Tst2,Tst3,TL4X3:時刻 TLIM1:學習限制時間 TSL1:基本學習時間 V:速度

圖1係顯示實施型態1之馬達控制裝置之構成之一例的方塊圖。圖2係顯示實施型態1之馬達控制裝置之動作時序之一例的圖。圖3係顯示實施型態1之調整管理部之動作之一例的流程圖。圖4係顯示實施型態1之指令態樣(pattern)之一例的圖。圖5係顯示實施型態1之學習部之構成之一例的方塊圖。圖6係顯示實施型態1之偏差之時間響應之一例的圖。圖7係顯示由處理器及記憶體構成實施型態1之馬達控制裝置具備的處理電路時之構成例的圖。圖8係顯示由專用的硬體構成實施型態1之馬達控制裝置具備的處理電路時之構成例的圖。圖9係顯示實施型態2之馬達控制裝置之構成之一例的方塊圖。圖10係顯示實施型態2之馬達控制裝置之動作時序之一例的圖。圖11係顯示實施型態2之調整管理部之動作之一例的流程圖。圖12係顯示實施型態3之馬達控制裝置之構成之一例的方塊圖。圖13係顯示實施型態3之馬達控制裝置之動作時序之一例的圖。圖14係顯示實施型態4之馬達控制裝置之構成之一例的方塊圖。圖15係顯示實施型態4之馬達控制裝置之動作時序之一例的圖。圖16係顯示實施型態4之調整管理部之動作之一例的流程圖。

1:馬達

2:指令生成部

3:機械負載

4:驅動控制部

5:狀態感測器

7:學習部

9:調整管理部

101:狀態感測器信號

103:指令信號

104:指令參數

105:指令開始信號

106:學習開始信號

107:學習完成信號

1000:馬達控制裝置

2000:控制對象

E:驅動電力

Claims

一種馬達控制裝置，係具備：驅動控制部，係根據控制指令驅動馬達，使由前述馬達與機械性連接於前述馬達之機械負載組成的控制對象動作，執行將前述控制對象設定為初始狀態的初始化運轉以及從前述初始狀態開始的評估運轉；學習部，係將利用於前述評估運轉之前述控制指令與檢測出前述評估運轉時之前述控制對象之狀態的狀態感測器信號賦予關聯性而進行學習，且根據所學習的結果，決定在取得前述狀態感測器信號的前述評估運轉之後要執行之前述評估運轉中使用的前述控制指令；及調整管理部，係以接近執行第一步驟的時機之方式來決定執行第二步驟的時機，該第一步驟係前述學習部的動作之學習動作、前述初始化運轉、及前述評估運轉之中之任一者，該第二步驟係從前述學習動作、前述初始化運轉、及前述評估運轉之中選擇與該第一步驟相異者。
如請求項1所述之馬達控制裝置，其中，執行屬於前述評估運轉之一的第一評估運轉；使用前述第一評估運轉時所取得的前述狀態感測器信號而執行屬於前述學習動作的第一學習動作；與前述第一學習動作並行地執行屬於前述初始化運轉之第一初始化運轉；從藉由前述第一初始化運轉所設定的前述初始狀態，根據由前述第一學習動作所決定的前述控制指令來執行前述第一評估運轉之下一個評估運轉的第二評估運轉。
如請求項2所述之馬達控制裝置，其中，前述調整管理部係檢測得知前述第一評估運轉的完成時間點，而根據所得知的前述第一評估運轉的完成時間點，決定前述第一學習動作的開始時間點及前述第一初始化運轉的開始時間點。
如請求項2所述之馬達控制裝置，其中，前述調整管理部係將前述第一學習動作與前述第一初始化運轉之中需要較長時間之一方的開始時間點，決定為相同或早於另一方的開始時間點。
如請求項3所述之馬達控制裝置，其中，前述調整管理部係將前述第一學習動作與前述第一初始化運轉之中需要較長時間之一方的開始時間點，決定為相同或早於另一方的開始時間點。
如請求項2所述之馬達控制裝置，其中，前述調整管理部係檢測得知前述第一學習動作或前述第一初始化運轉之中同時或較晚完成之一方的完成時間點，並根據所得知的前述完成時間點來決定前述第二評估運轉的開始時間點。
如請求項3所述之馬達控制裝置，其中，前述調整管理部係檢測得知前述第一學習動作或前述第一初始化運轉之中同時或較晚完成之一方的完成時間點，並根據所得知的前述完成時間點來決定前述第二評估運轉的開始時間點。
如請求項4所述之馬達控制裝置，其中，前述調整管理部係檢測得知前述第一學習動作或前述第一初始化運轉之中同時或較晚完成之一方的完成時間點，並根據所得知的前述完成時間點來決定前述第二評估運轉的開始時間點。
如請求項5所述之馬達控制裝置，其中，前述調整管理部係檢測得知前述第一學習動作或前述第一初始化運轉之中同時或較晚完成之一方的完成時間點，並根據所得知的前述完成時間點來決定前述第二評估運轉的開始時間點。
如請求項2至9中任一項所述之馬達控制裝置，其中，前述第一初始化運轉所需的時間係比前述第一學習動作所需的時間長；且該馬達控制裝置係具備：學習限制時間決定部，係將學習限制時間決定成為從前述第一初始化運轉的開始時間點起算經過初始化運轉所需的時間之推定值的推定初始化運轉所需時間的時間點，在從前述第一學習動作之開始時間點起算經過前述學習限制時間的時間點之後，該學習限制時間係執行前述學習動作的時間之學習時間的上限；前述學習部係於相同或較短於前述學習限制時間的時間的期間，執行前述第一學習動作。
如請求項10所述之馬達控制裝置，其中，前述學習限制時間決定部更決定基本學習時間，該基本學習時間係前述學習時間的下限且比前述學習限制時間短；前述學習部係於相同或較長於前述基本學習時間的時間的期間，執行前述第一學習動作。
如請求項1所述之馬達控制裝置，其中，執行前述學習動作之一的第三學習動作；與前述第三學習動作並行地執行複數次由前述初始化運轉與前述評估運轉構成的評估運轉周期之一的第一評估運轉周期；使用前述第一評估運轉周期時所取得的前述狀態感測器信號，執行前述第三學習動作之下一個學習動作的第四學習動作；使用由前述第三學習動作所決定的前述控制指令，與前述第四學習動作並行地執行複數次第一評估運轉周期之下一個前述評估運轉周期的第二評估運轉周期。
如請求項12所述之馬達控制裝置，其中，前述調整管理部係根據前述第三學習動作的完成時間點，決定前述第四學習動作的開始時間點，並根據前述第三學習動作及前述第四學習動作的開始時間點，分別決定前述第一評估運轉周期及前述第二評估運轉周期的開始時間點。
如請求項12所述之馬達控制裝置，更具備：學習時間推定部，係推定前述第三學習動作所需的時間作為推定學習時間；前述調整管理部係預先設定執行前述評估運轉周期所需的時間的推定值作為推定評估運轉所需時間；前述調整管理部係於前述第一評估運轉周期完成之時間點的判斷時間點，當前述推定學習時間與從前述第三學習動作之開始時間點至前述判斷時間點為止所經過之時間的差相同或長於前述推定評估運轉周期所需時間時，判斷為繼續前述第一評估運轉周期，而當短於前述推定評估運轉周期所需時間時，判斷為不繼續前述第一評估運轉周期。
如請求項13所述之馬達控制裝置，更具備：學習時間推定部，係推定前述第三學習動作所需的時間作為推定學習時間，前述調整管理部係預先設定執行前述評估運轉周期所需的時間的推定值作為推定評估運轉所需時間；前述調整管理部係於前述第一評估運轉周期完成之時間點的判斷時間點，當前述推定學習時間與從前述第三學習動作之開始時間點至前述判斷時間點為止所經過之時間的差相同或長於前述推定評估運轉周期所需時間時，判斷為繼續前述第一評估運轉周期，而當短於前述推定評估運轉周期所需時間時，判斷為不繼續前述第一評估運轉周期。
如請求項1至9中任一項所述之馬達控制裝置，其中，於前述第一步驟完成之後至前述第二步驟開始為止的期間，執行包含前述初始化運轉、前述評估運轉或前述學習動作之中至少任一者的中間步驟；前述調整管理部係預先推定執行前述中間步驟所需的時間，而將前述第二步驟之開始時間點決定為比從前述第一步驟的完成時間點起算經過執行所推定的前述中間步驟所需的時間還晚的時間點。
如請求項10所述之馬達控制裝置，其中，於前述第一步驟完成之後至前述第二步驟開始為止的期間，執行包含前述初始化運轉、前述評估運轉或前述學習動作之中至少任一者的中間步驟；前述調整管理部係預先推定執行前述中間步驟所需的時間，而將前述第二步驟之開始時間點決定為比從前述第一步驟的完成時間點起算經過執行所推定的前述中間步驟所需的時間還晚的時間點。
如請求項11所述之馬達控制裝置，其中，於前述第一步驟完成之後至前述第二步驟開始為止的期間，執行包含前述初始化運轉、前述評估運轉或前述學習動作之中至少任一者的中間步驟；前述調整管理部係預先推定執行前述中間步驟所需的時間，而將前述第二步驟之開始時間點決定為比從前述第一步驟的完成時間點起算經過執行所推定的前述中間步驟所需的時間還晚的時間點。
如請求項12至15中任一項所述之馬達控制裝置，其中，於前述第一步驟完成之後至前述第二步驟開始為止的期間，執行包含前述初始化運轉、前述評估運轉或前述學習動作之中至少任一者的中間步驟；前述調整管理部係預先推定執行前述中間步驟所需的時間，而將前述第二步驟之開始時間點決定為比從前述第一步驟的完成時間點起算經過執行所推定的前述中間步驟所需的時間還晚的時間點。
如請求項1至9中任一項所述之馬達控制裝置，其中，前述驅動控制部係追隨指令信號來驅動前述馬達，該指令信號係控制前述馬達的指令值，且為位置、速度、加速度、電流、轉矩或推力之指令值；前述調整管理部係根據檢測出前述控制對象之狀態的檢測結果或前述指令信號，檢測得知執行前述評估運轉或前述初始化運轉的時機。
如請求項10所述之馬達控制裝置，其中，前述驅動控制部係追隨指令信號來驅動前述馬達，該指令信號係控制前述馬達的指令值，且為位置、速度、加速度、電流、轉矩或推力之指令值；前述調整管理部係根據檢測出前述控制對象之狀態的檢測結果或前述指令信號，檢測得知執行前述評估運轉或前述初始化運轉的時機。
如請求項11所述之馬達控制裝置，其中，前述驅動控制部係追隨指令信號來驅動前述馬達，該指令信號係控制前述馬達的指令值，且為位置、速度、加速度、電流、轉矩或推力之指令值；前述調整管理部係根據檢測出前述控制對象之狀態的檢測結果或前述指令信號，檢測得知執行前述評估運轉或前述初始化運轉的時機。
如請求項12至15中任一項所述之馬達控制裝置，其中，前述驅動控制部係追隨指令信號來驅動前述馬達，該指令信號係控制前述馬達的指令值，且為位置、速度、加速度、電流、轉矩或推力之指令值；前述調整管理部係根據檢測出前述控制對象之狀態的檢測結果或前述指令信號，檢測得知執行前述評估運轉或前述初始化運轉的時機。
一種馬達控制方法，係根據控制指令驅動馬達，使由前述馬達與機械性連接於前述馬達之機械負載組成的控制對象動作，執行將前述控制對象設定為初始狀態的初始化運轉以及從前述初始狀態開始的評估運轉；且執行學習動作，係將利用於前述評估運轉之前述控制指令與檢測出前述評估運轉時之前述控制對象之狀態的狀態感測器信號賦予關聯性而進行學習，且根據所學習的結果，決定在取得前述狀態感測器信號的前述評估運轉之後要執行之前述評估運轉中使用之前述控制指令；並且以接近執行第一步驟的時機之方式來決定執行第二步驟的時機，該第一步驟係前述學習動作、前述初始化運轉、及前述評估運轉之中之任一者，該第二步驟係從前述學習動作、前述初始化運轉、及前述評估運轉之中選擇與該第一步驟相異者。