TWI680364B

TWI680364B - 用於教練式驅動多機器人合作運作系統之教練裝置及其合作運作控制方法

Info

Publication number: TWI680364B
Application number: TW107142286A
Authority: TW
Inventors: 王秉豐; Ping Feng Wang; 郭忠義; Jong Yih Kuo; 王蓁蒂; Chen Ti Wang
Original assignee: 財團法人資訊工業策進會; Institute For Information Industry
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2019-12-21
Also published as: CN111308996B; TW202020589A; US11275387B2; CN111308996A; US20200166952A1

Abstract

一種用於教練式驅動多機器人合作運作系統之教練裝置及其合作運作控制方法。教練裝置與複數行動機器人連線，並自各行動機器人接收一狀態空間資料。教練裝置將該等行動機器人劃分為複數行動群組。教練裝置精簡各行動群組中該等行動機器人之該等狀態空間資料，以產生各行動群組之一精簡狀態空間資料，並基於該等精簡狀態空間資料，訓練並生成一合作模型。此外，針對各行動群組，教練裝置根據該等精簡狀態空間資料，選擇一群組策略，並將合作模型及群組策略傳送至行動群組中各行動機器人，以使其根據合作模型及群組策略執行一行動任務。

Description

用於教練式驅動多機器人合作運作系統之教練裝置及其合作運作控制方法

本發明係關於一種用於教練式驅動多機器人合作運作系統之教練裝置及其合作運作控制方法。具體而言，本發明之教練裝置將複數行動機器人劃分為複數行動群組，並藉由精簡各行動群組中該等行動機器人之該等狀態空間資料，以降低訓練合作模型的資料量。

隨著科技的發展，機器人已逐漸融入人類的生活，以協助人類完成各種任務。近年來倉儲機器人風靡全球，電子商務營運商藉由倉儲機器人可有效地進行倉儲管理，以節省所需的人工，例如：對貨物進行分揀、搬運、放置操作等。除了倉儲管理外，機器人亦可運用於港口漂流物清理、巡檢、追捕、避障等應用。

在前述這些應用中，機器人間需要透過合作運作來完成目標任務。然而，傳統機器人合作運作係基於狀態-動作(State-Action)控制，無法即時規劃最佳避障路徑，難以負荷多機器人的避障合作運作，最終產生機器人凍結(freezing robot)問題。再者，機器人行走處理合作運作問題(例如：避免碰撞、追捕行為、共同清潔等)亦需要短時間內快速反應。有鑑於此，如何提供一種合作運作機制，其能降低資料計算量，提供最佳合作運作行為與反應時間，係為業界亟需解決的一技術問題。

本發明之目的在於提供一種合作運作機制，其藉由將複數行動機器人劃分為複數行動群組，並藉由精簡各行動群組中該等行動機器人之該等狀態空間資料，以降低訓練合作模型的資料量。據此，本發明能降低機器人合作運作所需的資料計算量，提供最佳合作運作行為與反應時間。

為達上述目的，本發明揭露一種用於一教練式驅動多機器人合作運作系統之教練裝置，其包含一儲存器、一通訊介面以及一處理器。該儲存器儲存一精簡狀態空間模型、一合作學習模型及一策略庫。該通訊介面用以與複數行動機器人連線。該處理器電性連接該儲存器及該通訊介面，且用以執行以下操作：透過該通訊介面，自各該行動機器人接收一狀態空間資料及一目標資訊；根據該等目標資訊及該等狀態空間資料，將該等行動機器人劃分為複數行動群組；將該等狀態空間資料輸入至該精簡狀態空間模型，以產生複數精簡狀態空間資料，其中各該精簡狀態空間資料對應至該等該行動群組其中之一，且經由整合所對應之該行動群組中至少一該等行動機器人之至少一該等狀態空間資料所產生；將該等精簡狀態空間資料輸入至該合作學習模型，以訓練並生成一合作模型；針對各該行動群組，根據該等精簡狀態空間資料，自該策略庫選擇一群組策略；以及針對各該行動群組，透過該通訊介面，將該合作模型及該群組策略傳送至該行動群組中各該行動機器人，以使該行動群組中各該行動機器人根據該合作模型及該群組策略執行一行動任務。

此外，本發明更揭露一種合作運作控制方法。該合作運作控制方法適用於一教練式驅動多機器人合作運作系統之一教練裝置。該教練裝置包含一儲存器、一通訊介面以及一處理器。該儲存器儲存一精簡狀態空間模型、一合作學習模型及一策略庫。該通訊介面與複數行動機器人連線。該合作運作控制方法由該處理器執行且包含以下步驟：透過該通訊介面，自各該行動機器人接收一狀態空間資料及一目標資訊；根據該等目標資訊及該等狀態空間資料，將該等行動機器人劃分為複數行動群組；將該等狀態空間資料輸入至該精簡狀態空間模型，以產生複數精簡狀態空間資料，其中各該精簡狀態空間資料對應至該等該行動群組其中之一，且經由整合所對應之該行動群組中至少一該等行動機器人之至少一該等狀態空間資料所產生；將該等精簡狀態空間資料輸入至該合作學習模型，以訓練並生成一合作模型；針對各該行動群組，根據該等精簡狀態空間資料，自該策略庫選擇一群組策略；以及針對各該行動群組，透過該通訊介面，將該合作模型及該群組策略傳送至該行動群組中各該行動機器人，以使該行動群組中各該行動機器人根據該合作模型及該群組策略執行一行動任務。

在參閱圖式及隨後描述之實施方式後，此技術領域具有通常知識者便可瞭解本發明之其他目的，以及本發明之技術手段及實施態樣。

1‧‧‧教練裝置

11‧‧‧儲存器

13‧‧‧通訊介面

15‧‧‧處理器

2a-2h‧‧‧行動機器人

G2a-G2d‧‧‧行動群組

GR1、GR2‧‧‧行動群組

RSSM‧‧‧精簡狀態空間模型

CLM‧‧‧合作學習模型

SB‧‧‧策略庫

S602-S612‧‧‧步驟

第1圖係本發明之教練裝置1之示意圖；第2圖描繪本發明之教練式驅動多機器人合作運作系統之一實施情境；第3A-3B圖描繪教練裝置1對行動機器人進行分群之示意圖；第4A-4B圖描繪一群組策略之示意圖；第5A-5B圖描繪另一群組策略之示意圖；以及第6圖係本發明之合作運作控制方法之流程圖；

以下將透過實施例來解釋本發明內容，本發明的實施例並非用以限制本發明須在如實施例所述之任何特定的環境、應用或特殊方式方能實施。因此，關於實施例之說明僅為闡釋本發明之目的，而非用以限制本發明。需說明者，以下實施例及圖式中，與本發明非直接相關之元件已省略而未繪示，且圖式中各元件間之尺寸關係僅為求容易瞭解，並非用以限制實際比例。

本發明第一實施例如第1-3圖所示。第1圖為本發明之教練裝置1之示意圖。教練裝置1適用於一教練式驅動多機器人合作運作系統，如第2圖所示。教練式驅動多機器人合作運作系統可包含至少一行動機器人(例如：行動機器人2a、2b、2c)。於一些文獻中，教練裝置1亦可稱作為教練機器人或教練代理人，以及行動機器人亦可稱作為行動代理人。

為簡化說明，於第2圖中僅繪示行動機器人2a、2b、2c；然而，可理解的是，行動機器人的數量並非用以限制本發明。教練裝置1可設置於該等行動機器人之近端或霧端。於其他實施例中，教練裝置1亦可同時扮演一行動機器人之角色，亦即教練裝置1亦可屬於該等行動機器人其中之一。教練裝置1與行動機器人2a、2b、2c間之溝通可採用使用一窄頻物聯網(Narrow Band Internet of Things；NB-IoT)技術、一無線區域網路技術(例如：WiFi)及低功耗廣域網路技術(例如：LoRa)其中之一達成，但不限於此。

教練裝置1包含一儲存器11、一通訊介面13以及一處理器15。儲存器11儲存一精簡狀態空間模型(Reduce State Space Model)RSSM、一合作學習模型(Cooperative Learning Model)CLM及一策略庫(Strategy base)SB。通訊介面13用以與複數行動機器人(例如：行動機器人2a、2b、2c)連線。處理器15電性連接儲存器11及通訊介面13。

處理器15透過通訊介面13，自各行動機器人2a、2b、2c接收一狀態空間資料及一目標資訊。目標資訊係記載行動機器人因應教練裝置1所傳送之策略，從其目標庫所選擇之需要達到的目標。狀態空間資料描述各行動機器人2a、2b、2c周遭環境資訊，其包含一自身位置值、一移動物體位置值、一固定物體位置值及一可行走方向值。各行動機器人2a、2b、2c於移動過程中會不斷產生新的狀態空間資料，並將新的狀態空間資料回報給教練裝置1。

自身位置值、移動物體位置值、固定物體位置值、可行走方向值及狀態空間資料皆可以向量方式表示。舉例而言，以二維空間作為說明，自身位置值包含二維空間座標值，其可表示為A_p=(a_x,a_y)，移動物體位置值包含二維空間座標值，其可表示為M_o=(m_x,m_y)、固定物體位置值包含二維空間座標值可表示為F_q=(f_x,f_y)、可行走方向值包含行動機器人之行動角度及行動方向，其可表示為D_n=(θ,d_y)，故狀態空間資料可表示為St=<A_p,M_o,F_q,D_n>。由於所屬技術領域中具有通常知識者可基於二維空間的實施情境輕易瞭解三維空間的實施情境，故在此不針對三維空間的實施情境加以贅述。

接著，處理器15根據該等目標資訊及該等狀態空間資料，將該等行動機器人劃分為複數行動群組。舉例而言，處理器15係根據該等目標資訊及該等狀態空間資料之該等自身位置值，動態地將該等行動機器人劃分為多個行動群組，如第3A-3B圖所示。各行動群組中之行動機器人彼此鄰近且具有相同的行動目標、相同的行動行為或其組合。

於第3A-3B圖中，圓形代表行動機器人2a、三角形代表行動機器人2b、正方形代表行動機器人2c以及菱形代表行動機器人2d。假設所有行動機器人2a皆往下方移動(即往行動機器人2b之位置移動)，所有行動機器人2b皆往右方移動(即往行動機器人2c之位置移動)、所有行動機器人2c皆往上方移動(即往行動機器人2d之位置移動)，以及所有行動機器人2d皆往左方移動(即往行動機器人2a之位置移動)。教練裝置1可根據各行動機器人之自身位置值、行動目標及行動行為，將彼此鄰近且具有相同行動行為之行動機器人2a劃分為同一行動群組G2a，將行動機器人2b劃分為同一行動群組G2b，行動機器人2c劃分為同一行動群組G2c，以及行動機器人2d劃分為同一行動群組G2d，如第3B圖所示。

於分群結束後，處理器15將各行動群組中之各行動代理人之狀態空間資料輸入至精簡狀態空間模型RSSM，以產生精簡狀態空間資料。各精簡狀態空間資料經由整合所對應之行動群組中至少一該等行動機器人之至少一該等狀態空間資料所產生。進一步言，針對各行動群組，處理器15根據各行動群組中該等行動機器人之該等狀態空間資料中之該等自身位置值、該等移動物體位置值及該等可行走方向值，透過精簡狀態空間模型RSSM計算各行動群組之一群組自身位置值、一移動群組值及一群組可行走方向值。

換言之，各行動群組之群組自身位置值可為行動群組中該等行動機器人之該等狀態空間資料中之該等自身位置值之平均值或是幾何重心值；各行動群組之移動群組值為行動群組中該等行動機器人之該等狀態空間資料中之該等移動物體位置值之平均值或是幾何重心值；以及，各行動群組之群組可行走方向值為行動群組中該等行動機器人之該等狀態空間資料中之該等可行走方向值之平均值或是幾何重心值。據此，行動群組之精簡狀態空間資料包含群組自身位置值、移動群組值、群組可行走方向值及各行動機器人所感測到的固定物體位置值。

處理器15將該等精簡狀態空間資料輸入至合作學習模型CLM，並基於一增強式學習演算法，訓練並生成一合作模型。增強式學習演算法可例如為改良過的貪婪(epsilon-greedy；ε-greedy)演算法，但不限於此。此外，於其他實施例中，通訊介面13可更與複數感測裝置連線。舉例而言，該等感測裝置可為感測天氣之無人飛行載具(Vehicle)、偵測洋流方向或汙泥漂流方向之無人載具(Vehicle)或判斷交通狀況之攝影機等定點感測裝置。在此情況下，處理器15更透過通訊介面13自該等感測裝置接收複數感測資料，並將該等精簡狀態空間資料及該等感測資料輸入至合作學習模型CLM，以訓練並生成合作模型。

針對各行動群組，處理器15根據該等精簡狀態空間資料，自策略庫SB選擇一群組策略，並透過通訊介面13，將合作模型及群組策略傳送至行動群組中之各行動機器人，以使行動群組中之各行動機器人根據合作模型及群組策略執行一行動任務。

進一步言，行動機器人中可儲存一目標庫(goal base)、一合作模型及一行動庫(action base)。群組策略可為一移動策略，例如：一對角線移動策略、死結(deadlock)移動策略等。目標庫用於儲存行動機器人之行動目標。行動庫用於儲存行動機器人之基本動作。行動機器人係根據群組策略自目標庫選擇需要達到的之行動目標，並透過將行動目標輸入至合作模型中，以自行動庫中選擇達到行動目標所需執行之行動行為。因此，各行動機器人所執行之行動任務係由行動目標及行動行為所構成。由於所屬技術領域中具有通常知識者可基於已公開之技術文獻及本案所揭露的技術內容瞭解行動機器人如何基於教練裝置所提供之合作模型及策略執行相關操作，故在此不再加以贅述。

舉例而言，請參考第4A-4B圖，其係描繪教練裝置1選擇群組策略之示意圖。如第4A圖所示，假設各行動機器人2a-2h之行動目標的位置均在其對角線的位置，即行動機器人2a之行動目標的位置為行動機器人2e所處位置，行動機器人2b之行動目標的位置為行動機器人2f所處位置，行動機器人2c之行動目標的位置為行動機器人2g所處位置，行動機器人2d之行動目標的位置為行動機器人2h所處位置，行動機器人2e之行動目標的位置為行動機器人2a所處位置，行動機器人2f之行動目標的位置為行動機器人2b所處位置，行動機器人2g之行動目標的位置為行動機器人2c所處位置，行動機器人2h之行動目標的位置為行動機器人2d所處位置。

處理器15判斷行動機器人2a-2h具有相同的行動行為(皆為往對角線方向移動)，故將行動機器人2a-2h劃分在同一行動群組GR1，如第4B圖所示。然而，若各行動機器人2a-2h皆以直線方向朝行動目標的位置移動且接近中心點時，容易彼此碰撞。由於接近中心點時，各行動機器人之距離過近，為了避免彼此碰撞，各行動機器人會不斷地更改行動速度，因而產生大量資料運算的情況，且亦可能因為不斷改變行動路徑而增加行動時間。

因此，處理器15判斷若行動群組GR1中之行動機器人2a-2h皆以順時針或逆時針方向旋轉移動，可縮短行動機器人2a-2h之行動時間，使各行動機器人2a-2h以最短時間移動至其行動目標時，處理器15可自策略庫SB選擇最適合行動群組GR1之群組策略(例如：對角線移動策略)。如此一來，行動機器人2a-2h根據對角線移動策略即可皆以順時針或逆時針方向旋轉移動，如第4B圖所示。

再舉例而言，請參考第5A-5B圖，其係描繪教練裝置1選擇群組策略之示意圖。於第5A圖中亦假設行動機器人2a-2d之行動目標的位置為其對角線之位置，處理器15同樣根據行動機器人2a-2d之行動行為將行動機器人2a-2d劃分為同一行動群組GR2。為了避免各行動機器人2a-2d產生碰撞，行動機器人2a-2d往行動目標移動的過程中，若與其他行動機器人距離過近時，可先靜止等待對方移動後再繼續往行動目標移動。然而，若所有行動機器人2a-2d為了避免彼此碰撞接而靜止，將造成行動群組出現死結(deadlock)狀態，如第5A圖所示。

為避免行動機器人彼此碰撞或行動群組出現死結狀態，教練裝置1可自策略庫SB中選擇死結移動策略。死結移動策略可使行動群組GR2中部分行動機器人(例如：行動機器人2c、2d)於判斷其他行動機器人與其距離過於接近時進入靜止狀態，並於行動機器人2a、2b通過後才繼續往行動目標移動，如第5B圖所示。

如同前述說明，行動機器人於移動過程中會不斷產生新的狀態空間資料，並將新的狀態空間資料回報給教練裝置，以供教練裝置1更新狀態空間資料、合作學習模型CLM及提供給行動機器人之策略。因此，於習知技術中，由於教練裝置是直接使用各行動機器人的狀態空間資料訓練合作模型，故在所需運算的狀態空間資料龐大的情況下，習知的教練裝置無法即時規劃最佳避障路徑，因而難以負荷多機器人的避障合作運作。反觀本發明，教練裝置1係藉由先將該等行動機器人劃分為複數行動群組，並透過精簡狀態空間模型RSSM產生各行動群組之精簡狀態空間資料後，才使用精簡狀態空間資料訓練合作模型，故本發明可降低訓練合作模型的資料量而減少訓練時間，進而達到即時規劃最佳避障路徑。

本發明第二實施例請再次參考第4A-4B圖及第5A-5B圖。第二實施例為第一實施例之延伸。不同於第一實施例，於本實施例中，處理器15亦可透過執行一策略選擇程序，由各行動群組中之各行動機器人選擇其所在群組欲使用之群組策略。詳言之，處理器15自策略庫SB選擇複數候選策略，並產生具有該等候選策略之一策略投票訊息，再透過通訊介面13傳送策略投票訊息至行動群組之各行動機器人。候選策略係教練裝置1基於行動群組之精簡狀態空間資料評估策略庫SB中哪些策略適用於行動群組。

行動群組中之各行動機器人於接收策略投票訊息後，會從候選策略中選擇最適合其所在群組之群組策略，並產生及傳送一策略選擇訊息至教練裝置1。當處理器15透過通訊介面13自行動群組中各行動機器人接收策略選擇訊息後，根據所有策略選擇訊息，例如：選擇票數最高之群組策略，決定群組策略。

舉例而言，教練裝置1所選擇之候選策略可包含對角線移動策略及死結移動策略。於第4A-4B圖所描繪之實施情境中，行動群組GR1之8個行動機器人2a-2h中，有5個行動機器人選擇對角線移動策略，以及3個行動機器人選擇死結移動策略，則教練裝置1可根據投票結果，決定行動群組GR1使用對角線移動策略，如第4B圖所示。

再舉例而言，於第5A-5B圖所描繪之實施情境中，行動群組GR2之4個行動機器人2a-2d中有3個行動機器人選擇死結移動策略，以及1個行動機器人選擇對角線移動策略，則教練裝置1可根據投票結果，決定行動群組GR2使用死結移動策略，如第5B圖所示。

於其他實施例中，若行動機器人判斷目前群組策略不適合其行動行為時，行動機器人亦可直接傳送一策略要求訊息，以向教練裝置1要求更改群組策略。當教練裝置1判斷行動群組中傳送策略要求訊息之行動機器人之數量超過行動群組之行動機器人總數之一比例時(例如：超過總數的一半時)，則重新執行策略選擇程序。

此外，於其他實施例中，行動機器人除了傳送策略要求訊息來要求教練裝置1更改群組策略外，亦可傳送一脫離群組要求訊息，以脫離原本的行動群組成為獨立個體。

於其他實施例中，若教練裝置1自非行動群組中之其他行動機器人接收到狀態空間資料及目標資訊時，可根據其他行動機器人之狀態空間資料及目標資訊，判斷其與鄰近行動群組中之行動機器人是否具有相同行動目標或行動行為，若具有相同行動目標或行動行為時，則將其他行動機器人加入鄰近行動群組中。

本發明第三實施例係描述一合作運作控制方法，其流程圖如第6圖所示。合作運作控制方法適用於一教練式驅動多機器人合作運作系統之一教練裝置(例如：前述實施例之教練裝置1)。教練裝置包含一儲存器、一通訊介面以及一處理器。儲存器儲存一精簡狀態空間模型、一合作學習模型及一策略庫。通訊介面與複數行動機器人連線。合作運作控制方法由處理器執行且包含以下步驟。

首先，於步驟S602中，透過通訊介面，自各行動機器人接收一狀態空間資料及一目標資訊。如第一實施例所述，各狀態空間資料包含一自身位置值、一移動物體位置值、一固定物體位置值及一可行走方向值。於步驟S604中，根據該等目標資訊及該等狀態空間資料，將該等行動機器人劃分為複數行動群組。於步驟S606中，將該等狀態空間資料輸入至精簡狀態空間模型，以產生複數精簡狀態空間資料。各精簡狀態空間資料對應至該等該行動群組其中之一，且經由整合所對應之行動群組中至少一行動機器人之至少一狀態空間資料所產生。

接著，於步驟S608中，將該等精簡狀態空間資料輸入至合作學習模型，以訓練並生成一合作模型。於一實施例中，合作學習模型基於一增強式學習演算法，訓練並生成合作模型。隨後，於步驟S610中，針對各行動群組，根據該等精簡狀態空間資料，自策略庫選擇一群組策略。於步驟S612中，針對各行動群組，透過通訊介面，將合作模型及群組策略傳送至行動群組中各行動機器人，以使行動群組中各行動機器人根據合作模型及群組策略執行一行動任務。

於其他實施例中，針對各行動群組，合作運作方法更包含步驟：根據行動群組中該等行動機器人之該等狀態空間資料中之該等自身位置值、該等移動物體位置值及該等可行走方向值，計算行動群組之一群組自身位置值、一移動群組值及一群組可行走方向值。行動群組之精簡狀態空間資料包含群組自身位置值、移動群組值、群組可行走方向值及該等行動機器人之該等固定物體位置值。

於其他實施例中，合作運作方法更包含步驟：根據目標資訊及該等狀態空間資料之該等自身位置值，動態地將該等行動機器人劃分為該等行動群組。各行動群組中之至少一該等行動機器人彼此鄰近且具有一相同的行動目標、一相同的行動行為或其組合。此外，於其他實施例中，儲存器更儲存一行動機器人資料庫。

於其他實施例中，針對各行動群組，合作運作方法更包含步驟：自策略庫選擇複數候選策略；產生具有該等候選策略之一策略投票訊息；透過通訊介面傳送策略投票訊息至行動群組之該等行動機器人；透過通訊介面自行動群組中各行動機器人接收一策略選擇訊息；以及根據該等策略選擇訊息，自該等候選策略選擇群組策略。

於其他實施例中，針對各行動群組，合作運作方法更包含步驟：執行一策略選擇程序。策略選擇程序包含以下步驟：判斷是否透過通訊介面，自行動群組中該等行動機器人至少其中之一接收一策略要求訊息；判斷傳送策略要求訊息之該等行動機器人之一數量是否超過行動群組之該等行動機器人之一總數的一比例；以及當數量超過總數的該比例時，重新執行策略選擇程序。

於其他實施例中，通訊介面用以與複數感測裝置連線，且合作運作方法更包含步驟：透過通訊介面自該等感測裝置接收複數感測資料；以及將該等精簡狀態空間資料及該等感測資料輸入至合作學習模型，以訓練並生成合作模型。

於其他實施例中，合作運作方法更包含步驟：透過通訊介面自該等行動機器人其中之一接收一脫離群組要求訊息，以脫離原本的行動群組成為獨立個體，如第二實施例所述。於其他實施例中，各行動群組之群組策略係一移動策略。

除了上述步驟，本發明之合作運作控制方法亦能執行在所有前述實施例中所闡述之所有操作並具有所有對應之功能，所屬技術領域具有通常知識者可直接瞭解此實施例如何基於所有前述實施例執行此等操作及具有該等功能，故不贅述。

綜上所述，本發明之合作運作機制藉由根據複數行動機器人所回報之感測資訊及目標資訊，動態地將該等行動機器人劃分為複數行動群組，並藉由精簡各行動群組中該等行動機器人之該等狀態空間資料，以降低訓練合作模型的資料量，進而減少訓練時間。此外，本發明之合作運作機制可基於簡化後之精簡狀態空間資料選擇適當的群組策略，以增加行動機器人合作運作的效率，達到最佳的合作結果。據此，本發明能降低機器人合作運作所需的資料計算量，提供最佳合作運作行為與反應時間。

上述之實施例僅用來例舉本發明之實施態樣，以及闡釋本發明之技術特徵，並非用來限制本發明之保護範疇。任何熟悉此技術者可輕易完成之改變或均等性之安排均屬於本發明所主張之範圍，本發明之權利保護範圍應以申請專利範圍為準。

Claims

一種用於一教練式驅動多機器人合作運作系統之教練裝置，包含：一儲存器，儲存一精簡狀態空間模型、一合作學習模型及一策略庫；一通訊介面，用以與複數行動機器人連線；以及一處理器，電性連接該儲存器及該通訊介面，用以執行以下操作：透過該通訊介面，自各該行動機器人接收一狀態空間資料及一目標資訊；根據該等目標資訊及該等狀態空間資料，將該等行動機器人劃分為複數行動群組；將該等狀態空間資料輸入至該精簡狀態空間模型，以產生複數精簡狀態空間資料，其中各該精簡狀態空間資料對應至該等行動群組其中之一，且經由整合所對應之該行動群組中至少一該等行動機器人之至少一該等狀態空間資料所產生；將該等精簡狀態空間資料輸入至該合作學習模型，以訓練並生成一合作模型；針對各該行動群組，根據該等精簡狀態空間資料，自該策略庫選擇一群組策略；以及針對各該行動群組，透過該通訊介面，將該合作模型及該群組策略傳送至該行動群組中各該行動機器人，以使該行動群組中各該行動機器人根據該合作模型及該群組策略執行一行動任務。
如請求項1所述之教練裝置，其中各該狀態空間資料包含一自身位置值、一移動物體位置值、一固定物體位置值及一可行走方向值。
如請求項2所述之教練裝置，其中針對各該行動群組，該處理器根據該行動群組中該等行動機器人之該等狀態空間資料中之該等自身位置值、該等移動物體位置值及該等可行走方向值，計算該行動群組之一群組自身位置值、一移動群組值及一群組可行走方向值，以及該行動群組之該精簡狀態空間資料包含該群組自身位置值、該移動群組值、該群組可行走方向值及該等行動機器人之該等固定物體位置值。
如請求項2所述之教練裝置，其中該處理器係根據該等狀態空間資料之該等自身位置值，動態地將該等行動機器人劃分為該等行動群組，以及各該行動群組中之至少一該等行動機器人彼此鄰近且具有一相同的行動目標、一相同的行動行為或其組合。
如請求項1所述之教練裝置，其中針對各該行動群組，該處理器更執行一策略選擇程序，其包含以下操作：自該策略庫選擇複數候選策略；產生具有該等候選策略之一策略投票訊息；透過該通訊介面傳送該策略投票訊息至該行動群組之該等行動機器人；透過該通訊介面自該行動群組中各該行動機器人接收一策略選擇訊息；以及根據該等策略選擇訊息，自該等候選策略選擇該群組策略。
如請求項5所述之教練裝置，其中針對各該行動群組，該處理器更執行以下操作：判斷是否透過該通訊介面，自該行動群組中該等行動機器人至少其中之一接收一策略要求訊息；判斷傳送該策略要求訊息之該等行動機器人之一數量是否超過該行動群組之該等行動機器人之一總數的一比例；以及當該數量超過該總數的該比例時，重新執行該策略選擇程序。
如請求項1所述之教練裝置，其中該通訊介面用以與複數感測裝置連線，以及該處理器更透過該通訊介面自該等感測裝置接收複數感測資料，並將該等精簡狀態空間資料及該等感測資料輸入至該合作學習模型，以訓練並生成該合作模型。
如請求項1所述之教練裝置，其中該處理器更透過該通訊介面自該等行動機器人其中之一接收一脫離群組要求訊息。
如請求項1所述之教練裝置，其中該合作學習模型基於一增強式學習演算法，訓練並生成該合作模型。
如請求項1所述之教練裝置，其中各該行動群組之該群組策略係一移動策略。
一種合作運作控制方法，適用於一教練式驅動多機器人合作運作系統之一教練裝置，該教練裝置包含一儲存器、一通訊介面以及一處理器，該儲存器儲存一精簡狀態空間模型、一合作學習模型及一策略庫，該通訊介面與複數行動機器人連線，該合作運作控制方法由該處理器執行且包含以下步驟：透過該通訊介面，自各該行動機器人接收一狀態空間資料及一目標資訊；根據該等目標資訊及該等狀態空間資料，將該等行動機器人劃分為複數行動群組；將該等狀態空間資料輸入至該精簡狀態空間模型，以產生複數精簡狀態空間資料，其中各該精簡狀態空間資料對應至該等該行動群組其中之一，且經由整合所對應之該行動群組中至少一該等行動機器人之至少一該等狀態空間資料所產生；將該等精簡狀態空間資料輸入至該合作學習模型，以訓練並生成一合作模型；針對各該行動群組，根據該等精簡狀態空間資料，自該策略庫選擇一群組策略；以及針對各該行動群組，透過該通訊介面，將該合作模型及該群組策略傳送至該行動群組中各該行動機器人，以使該行動群組中各該行動機器人根據該合作模型及該群組策略執行一行動任務。
如請求項11所述之合作運作控制方法，其中各該狀態空間資料包含一自身位置值、一移動物體位置值、一固定物體位置值及一可行走方向值。
如請求項12所述之合作運作控制方法，其中針對各該行動群組，該合作運作方法更包含以下步驟：根據該行動群組中該等行動機器人之該等狀態空間資料中之該等自身位置值、該等移動物體位置值及該等可行走方向值，計算該行動群組之一群組自身位置值、一移動群組值及一群組可行走方向值，以及該行動群組之該精簡狀態空間資料包含該群組自身位置值、該移動群組值、該群組可行走方向值及該等行動機器人之該等固定物體位置值。
如請求項12所述之合作運作控制方法，更包含以下步驟：根據該目標資訊及該等狀態空間資料之該等自身位置值，動態地將該等行動機器人劃分為該等行動群組，以及各該行動群組中之至少一該等行動機器人彼此鄰近且具有一相同的行動目標、一相同的行動行為或其組合。
如請求項11所述之合作運作控制方法，其中針對各該行動群組，該合作運作方法更包含以下步驟：執行一策略選擇程序，其包含以下步驟：自該策略庫選擇複數候選策略；產生具有該等候選策略之一策略投票訊息；透過該通訊介面傳送該策略投票訊息至該行動群組之該等行動機器人；透過該通訊介面自該行動群組中各該行動機器人接收一策略選擇訊息；以及根據該等策略選擇訊息，自該等候選策略選擇該群組策略。
如請求項15所述之合作運作控制方法，其中針對各該行動群組，該合作運作方法更包含以下步驟：判斷是否透過該通訊介面，自該行動群組中該等行動機器人至少其中之一接收一策略要求訊息；判斷傳送該策略要求訊息之該等行動機器人之一數量是否超過該行動群組之該等行動機器人之一總數的一比例；以及當該數量超過該總數的該比例半時，重新執行該策略選擇程序。
如請求項11所述之合作運作控制方法，其中該通訊介面用以與複數感測裝置連線，以及該合作運作方法更包含以下步驟：透過該通訊介面自該等感測裝置接收複數感測資料；以及將該等精簡狀態空間資料及該等感測資料輸入至該合作學習模型，以訓練並生成該合作模型。
如請求項11所述之合作運作控制方法，更包含以下步驟：透過該通訊介面自該等行動機器人其中之一接收一脫離群組要求訊息。
如請求項11所述之合作運作控制方法，其中該合作學習模型基於一增強式學習演算法，訓練並生成該合作模型。
如請求項11所述之合作運作控制方法，其中各該行動群組之該群組策略係一移動策略。