TWI680364B - 用於教練式驅動多機器人合作運作系統之教練裝置及其合作運作控制方法 - Google Patents
用於教練式驅動多機器人合作運作系統之教練裝置及其合作運作控制方法 Download PDFInfo
- Publication number
- TWI680364B TWI680364B TW107142286A TW107142286A TWI680364B TW I680364 B TWI680364 B TW I680364B TW 107142286 A TW107142286 A TW 107142286A TW 107142286 A TW107142286 A TW 107142286A TW I680364 B TWI680364 B TW I680364B
- Authority
- TW
- Taiwan
- Prior art keywords
- action
- group
- state space
- strategy
- space data
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000009471 action Effects 0.000 claims abstract description 185
- 238000004891 communication Methods 0.000 claims description 50
- 230000006399 behavior Effects 0.000 claims description 17
- 230000000875 corresponding effect Effects 0.000 claims description 8
- 238000010187 selection method Methods 0.000 claims description 5
- 230000001276 controlling effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 230000005484 gravity Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000010802 sludge Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0287—Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
- G05D1/0291—Fleet control
- G05D1/0295—Fleet control by at least one leading vehicle of the fleet
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
- B25J9/1682—Dual arm manipulator; Coordination of several manipulators
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0287—Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
- G05D1/0289—Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling with means for avoiding collisions between vehicles
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C5/00—Registering or indicating the working of vehicles
- G07C5/008—Registering or indicating the working of vehicles communicating information to a remotely located station
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Automation & Control Theory (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Manipulator (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
一種用於教練式驅動多機器人合作運作系統之教練裝置及其合作運作控制方法。教練裝置與複數行動機器人連線,並自各行動機器人接收一狀態空間資料。教練裝置將該等行動機器人劃分為複數行動群組。教練裝置精簡各行動群組中該等行動機器人之該等狀態空間資料,以產生各行動群組之一精簡狀態空間資料,並基於該等精簡狀態空間資料,訓練並生成一合作模型。此外,針對各行動群組,教練裝置根據該等精簡狀態空間資料,選擇一群組策略,並將合作模型及群組策略傳送至行動群組中各行動機器人,以使其根據合作模型及群組策略執行一行動任務。
Description
本發明係關於一種用於教練式驅動多機器人合作運作系統之教練裝置及其合作運作控制方法。具體而言,本發明之教練裝置將複數行動機器人劃分為複數行動群組,並藉由精簡各行動群組中該等行動機器人之該等狀態空間資料,以降低訓練合作模型的資料量。
隨著科技的發展,機器人已逐漸融入人類的生活,以協助人類完成各種任務。近年來倉儲機器人風靡全球,電子商務營運商藉由倉儲機器人可有效地進行倉儲管理,以節省所需的人工,例如:對貨物進行分揀、搬運、放置操作等。除了倉儲管理外,機器人亦可運用於港口漂流物清理、巡檢、追捕、避障等應用。
在前述這些應用中,機器人間需要透過合作運作來完成目標任務。然而,傳統機器人合作運作係基於狀態-動作(State-Action)控制,無法即時規劃最佳避障路徑,難以負荷多機器人的避障合作運作,最終產生機器人凍結(freezing robot)問題。再者,機器人行走處理合作運作問題(例如:避免碰撞、追捕行為、共同清潔等)亦需要短時間內快速反應。有鑑於
此,如何提供一種合作運作機制,其能降低資料計算量,提供最佳合作運作行為與反應時間,係為業界亟需解決的一技術問題。
本發明之目的在於提供一種合作運作機制,其藉由將複數行動機器人劃分為複數行動群組,並藉由精簡各行動群組中該等行動機器人之該等狀態空間資料,以降低訓練合作模型的資料量。據此,本發明能降低機器人合作運作所需的資料計算量,提供最佳合作運作行為與反應時間。
為達上述目的,本發明揭露一種用於一教練式驅動多機器人合作運作系統之教練裝置,其包含一儲存器、一通訊介面以及一處理器。該儲存器儲存一精簡狀態空間模型、一合作學習模型及一策略庫。該通訊介面用以與複數行動機器人連線。該處理器電性連接該儲存器及該通訊介面,且用以執行以下操作:透過該通訊介面,自各該行動機器人接收一狀態空間資料及一目標資訊;根據該等目標資訊及該等狀態空間資料,將該等行動機器人劃分為複數行動群組;將該等狀態空間資料輸入至該精簡狀態空間模型,以產生複數精簡狀態空間資料,其中各該精簡狀態空間資料對應至該等該行動群組其中之一,且經由整合所對應之該行動群組中至少一該等行動機器人之至少一該等狀態空間資料所產生;將該等精簡狀態空間資料輸入至該合作學習模型,以訓練並生成一合作模型;針對各該行動群組,根據該等精簡狀態空間資料,自該策略庫選擇一群組策略;以及針對各該行動群組,透過該通訊介面,將該合作模型及該群組策略傳送至該行動群組中各該行動機器人,以使該行動群組中各該行動機器人根據該合作模型及該群組策略執行一行動任務。
此外,本發明更揭露一種合作運作控制方法。該合作運作控制方法適用於一教練式驅動多機器人合作運作系統之一教練裝置。該教練裝置包含一儲存器、一通訊介面以及一處理器。該儲存器儲存一精簡狀態空間模型、一合作學習模型及一策略庫。該通訊介面與複數行動機器人連線。該合作運作控制方法由該處理器執行且包含以下步驟:透過該通訊介面,自各該行動機器人接收一狀態空間資料及一目標資訊;根據該等目標資訊及該等狀態空間資料,將該等行動機器人劃分為複數行動群組;將該等狀態空間資料輸入至該精簡狀態空間模型,以產生複數精簡狀態空間資料,其中各該精簡狀態空間資料對應至該等該行動群組其中之一,且經由整合所對應之該行動群組中至少一該等行動機器人之至少一該等狀態空間資料所產生;將該等精簡狀態空間資料輸入至該合作學習模型,以訓練並生成一合作模型;針對各該行動群組,根據該等精簡狀態空間資料,自該策略庫選擇一群組策略;以及針對各該行動群組,透過該通訊介面,將該合作模型及該群組策略傳送至該行動群組中各該行動機器人,以使該行動群組中各該行動機器人根據該合作模型及該群組策略執行一行動任務。
在參閱圖式及隨後描述之實施方式後,此技術領域具有通常知識者便可瞭解本發明之其他目的,以及本發明之技術手段及實施態樣。
1‧‧‧教練裝置
11‧‧‧儲存器
13‧‧‧通訊介面
15‧‧‧處理器
2a-2h‧‧‧行動機器人
G2a-G2d‧‧‧行動群組
GR1、GR2‧‧‧行動群組
RSSM‧‧‧精簡狀態空間模型
CLM‧‧‧合作學習模型
SB‧‧‧策略庫
S602-S612‧‧‧步驟
第1圖係本發明之教練裝置1之示意圖;第2圖描繪本發明之教練式驅動多機器人合作運作系統之一實施情境;第3A-3B圖描繪教練裝置1對行動機器人進行分群之示意圖;
第4A-4B圖描繪一群組策略之示意圖;第5A-5B圖描繪另一群組策略之示意圖;以及第6圖係本發明之合作運作控制方法之流程圖;
以下將透過實施例來解釋本發明內容,本發明的實施例並非用以限制本發明須在如實施例所述之任何特定的環境、應用或特殊方式方能實施。因此,關於實施例之說明僅為闡釋本發明之目的,而非用以限制本發明。需說明者,以下實施例及圖式中,與本發明非直接相關之元件已省略而未繪示,且圖式中各元件間之尺寸關係僅為求容易瞭解,並非用以限制實際比例。
本發明第一實施例如第1-3圖所示。第1圖為本發明之教練裝置1之示意圖。教練裝置1適用於一教練式驅動多機器人合作運作系統,如第2圖所示。教練式驅動多機器人合作運作系統可包含至少一行動機器人(例如:行動機器人2a、2b、2c)。於一些文獻中,教練裝置1亦可稱作為教練機器人或教練代理人,以及行動機器人亦可稱作為行動代理人。
為簡化說明,於第2圖中僅繪示行動機器人2a、2b、2c;然而,可理解的是,行動機器人的數量並非用以限制本發明。教練裝置1可設置於該等行動機器人之近端或霧端。於其他實施例中,教練裝置1亦可同時扮演一行動機器人之角色,亦即教練裝置1亦可屬於該等行動機器人其中之一。教練裝置1與行動機器人2a、2b、2c間之溝通可採用使用一窄頻物聯網(Narrow Band Internet of Things;NB-IoT)技術、一無線區域網路技術(例如:WiFi)及低功耗廣域網路技術(例如:LoRa)其中之一達成,但不限於
此。
教練裝置1包含一儲存器11、一通訊介面13以及一處理器15。儲存器11儲存一精簡狀態空間模型(Reduce State Space Model)RSSM、一合作學習模型(Cooperative Learning Model)CLM及一策略庫(Strategy base)SB。通訊介面13用以與複數行動機器人(例如:行動機器人2a、2b、2c)連線。處理器15電性連接儲存器11及通訊介面13。
處理器15透過通訊介面13,自各行動機器人2a、2b、2c接收一狀態空間資料及一目標資訊。目標資訊係記載行動機器人因應教練裝置1所傳送之策略,從其目標庫所選擇之需要達到的目標。狀態空間資料描述各行動機器人2a、2b、2c周遭環境資訊,其包含一自身位置值、一移動物體位置值、一固定物體位置值及一可行走方向值。各行動機器人2a、2b、2c於移動過程中會不斷產生新的狀態空間資料,並將新的狀態空間資料回報給教練裝置1。
自身位置值、移動物體位置值、固定物體位置值、可行走方向值及狀態空間資料皆可以向量方式表示。舉例而言,以二維空間作為說明,自身位置值包含二維空間座標值,其可表示為Ap=(ax,ay),移動物體位置值包含二維空間座標值,其可表示為Mo=(mx,my)、固定物體位置值包含二維空間座標值可表示為Fq=(fx,fy)、可行走方向值包含行動機器人之行動角度及行動方向,其可表示為Dn=(θ,dy),故狀態空間資料可表示為St=<Ap,Mo,Fq,Dn>。由於所屬技術領域中具有通常知識者可基於二維空間的實施情境輕易瞭解三維空間的實施情境,故在此不針對三維空間的實施情境加以贅述。
接著,處理器15根據該等目標資訊及該等狀態空間資料,將該等行動機器人劃分為複數行動群組。舉例而言,處理器15係根據該等目標資訊及該等狀態空間資料之該等自身位置值,動態地將該等行動機器人劃分為多個行動群組,如第3A-3B圖所示。各行動群組中之行動機器人彼此鄰近且具有相同的行動目標、相同的行動行為或其組合。
於第3A-3B圖中,圓形代表行動機器人2a、三角形代表行動機器人2b、正方形代表行動機器人2c以及菱形代表行動機器人2d。假設所有行動機器人2a皆往下方移動(即往行動機器人2b之位置移動),所有行動機器人2b皆往右方移動(即往行動機器人2c之位置移動)、所有行動機器人2c皆往上方移動(即往行動機器人2d之位置移動),以及所有行動機器人2d皆往左方移動(即往行動機器人2a之位置移動)。教練裝置1可根據各行動機器人之自身位置值、行動目標及行動行為,將彼此鄰近且具有相同行動行為之行動機器人2a劃分為同一行動群組G2a,將行動機器人2b劃分為同一行動群組G2b,行動機器人2c劃分為同一行動群組G2c,以及行動機器人2d劃分為同一行動群組G2d,如第3B圖所示。
於分群結束後,處理器15將各行動群組中之各行動代理人之狀態空間資料輸入至精簡狀態空間模型RSSM,以產生精簡狀態空間資料。各精簡狀態空間資料經由整合所對應之行動群組中至少一該等行動機器人之至少一該等狀態空間資料所產生。進一步言,針對各行動群組,處理器15根據各行動群組中該等行動機器人之該等狀態空間資料中之該等自身位置值、該等移動物體位置值及該等可行走方向值,透過精簡狀態空間模型RSSM計算各行動群組之一群組自身位置值、一移動群組值及一群組可行走
方向值。
換言之,各行動群組之群組自身位置值可為行動群組中該等行動機器人之該等狀態空間資料中之該等自身位置值之平均值或是幾何重心值;各行動群組之移動群組值為行動群組中該等行動機器人之該等狀態空間資料中之該等移動物體位置值之平均值或是幾何重心值;以及,各行動群組之群組可行走方向值為行動群組中該等行動機器人之該等狀態空間資料中之該等可行走方向值之平均值或是幾何重心值。據此,行動群組之精簡狀態空間資料包含群組自身位置值、移動群組值、群組可行走方向值及各行動機器人所感測到的固定物體位置值。
處理器15將該等精簡狀態空間資料輸入至合作學習模型CLM,並基於一增強式學習演算法,訓練並生成一合作模型。增強式學習演算法可例如為改良過的貪婪(epsilon-greedy;ε-greedy)演算法,但不限於此。此外,於其他實施例中,通訊介面13可更與複數感測裝置連線。舉例而言,該等感測裝置可為感測天氣之無人飛行載具(Vehicle)、偵測洋流方向或汙泥漂流方向之無人載具(Vehicle)或判斷交通狀況之攝影機等定點感測裝置。在此情況下,處理器15更透過通訊介面13自該等感測裝置接收複數感測資料,並將該等精簡狀態空間資料及該等感測資料輸入至合作學習模型CLM,以訓練並生成合作模型。
針對各行動群組,處理器15根據該等精簡狀態空間資料,自策略庫SB選擇一群組策略,並透過通訊介面13,將合作模型及群組策略傳送至行動群組中之各行動機器人,以使行動群組中之各行動機器人根據合作模型及群組策略執行一行動任務。
進一步言,行動機器人中可儲存一目標庫(goal base)、一合作模型及一行動庫(action base)。群組策略可為一移動策略,例如:一對角線移動策略、死結(deadlock)移動策略等。目標庫用於儲存行動機器人之行動目標。行動庫用於儲存行動機器人之基本動作。行動機器人係根據群組策略自目標庫選擇需要達到的之行動目標,並透過將行動目標輸入至合作模型中,以自行動庫中選擇達到行動目標所需執行之行動行為。因此,各行動機器人所執行之行動任務係由行動目標及行動行為所構成。由於所屬技術領域中具有通常知識者可基於已公開之技術文獻及本案所揭露的技術內容瞭解行動機器人如何基於教練裝置所提供之合作模型及策略執行相關操作,故在此不再加以贅述。
舉例而言,請參考第4A-4B圖,其係描繪教練裝置1選擇群組策略之示意圖。如第4A圖所示,假設各行動機器人2a-2h之行動目標的位置均在其對角線的位置,即行動機器人2a之行動目標的位置為行動機器人2e所處位置,行動機器人2b之行動目標的位置為行動機器人2f所處位置,行動機器人2c之行動目標的位置為行動機器人2g所處位置,行動機器人2d之行動目標的位置為行動機器人2h所處位置,行動機器人2e之行動目標的位置為行動機器人2a所處位置,行動機器人2f之行動目標的位置為行動機器人2b所處位置,行動機器人2g之行動目標的位置為行動機器人2c所處位置,行動機器人2h之行動目標的位置為行動機器人2d所處位置。
處理器15判斷行動機器人2a-2h具有相同的行動行為(皆為往對角線方向移動),故將行動機器人2a-2h劃分在同一行動群組GR1,如第4B圖所示。然而,若各行動機器人2a-2h皆以直線方向朝行動目標的位置移
動且接近中心點時,容易彼此碰撞。由於接近中心點時,各行動機器人之距離過近,為了避免彼此碰撞,各行動機器人會不斷地更改行動速度,因而產生大量資料運算的情況,且亦可能因為不斷改變行動路徑而增加行動時間。
因此,處理器15判斷若行動群組GR1中之行動機器人2a-2h皆以順時針或逆時針方向旋轉移動,可縮短行動機器人2a-2h之行動時間,使各行動機器人2a-2h以最短時間移動至其行動目標時,處理器15可自策略庫SB選擇最適合行動群組GR1之群組策略(例如:對角線移動策略)。如此一來,行動機器人2a-2h根據對角線移動策略即可皆以順時針或逆時針方向旋轉移動,如第4B圖所示。
再舉例而言,請參考第5A-5B圖,其係描繪教練裝置1選擇群組策略之示意圖。於第5A圖中亦假設行動機器人2a-2d之行動目標的位置為其對角線之位置,處理器15同樣根據行動機器人2a-2d之行動行為將行動機器人2a-2d劃分為同一行動群組GR2。為了避免各行動機器人2a-2d產生碰撞,行動機器人2a-2d往行動目標移動的過程中,若與其他行動機器人距離過近時,可先靜止等待對方移動後再繼續往行動目標移動。然而,若所有行動機器人2a-2d為了避免彼此碰撞接而靜止,將造成行動群組出現死結(deadlock)狀態,如第5A圖所示。
為避免行動機器人彼此碰撞或行動群組出現死結狀態,教練裝置1可自策略庫SB中選擇死結移動策略。死結移動策略可使行動群組GR2中部分行動機器人(例如:行動機器人2c、2d)於判斷其他行動機器人與其距離過於接近時進入靜止狀態,並於行動機器人2a、2b通過後才繼續往行動目標移動,如第5B圖所示。
如同前述說明,行動機器人於移動過程中會不斷產生新的狀態空間資料,並將新的狀態空間資料回報給教練裝置,以供教練裝置1更新狀態空間資料、合作學習模型CLM及提供給行動機器人之策略。因此,於習知技術中,由於教練裝置是直接使用各行動機器人的狀態空間資料訓練合作模型,故在所需運算的狀態空間資料龐大的情況下,習知的教練裝置無法即時規劃最佳避障路徑,因而難以負荷多機器人的避障合作運作。反觀本發明,教練裝置1係藉由先將該等行動機器人劃分為複數行動群組,並透過精簡狀態空間模型RSSM產生各行動群組之精簡狀態空間資料後,才使用精簡狀態空間資料訓練合作模型,故本發明可降低訓練合作模型的資料量而減少訓練時間,進而達到即時規劃最佳避障路徑。
本發明第二實施例請再次參考第4A-4B圖及第5A-5B圖。第二實施例為第一實施例之延伸。不同於第一實施例,於本實施例中,處理器15亦可透過執行一策略選擇程序,由各行動群組中之各行動機器人選擇其所在群組欲使用之群組策略。詳言之,處理器15自策略庫SB選擇複數候選策略,並產生具有該等候選策略之一策略投票訊息,再透過通訊介面13傳送策略投票訊息至行動群組之各行動機器人。候選策略係教練裝置1基於行動群組之精簡狀態空間資料評估策略庫SB中哪些策略適用於行動群組。
行動群組中之各行動機器人於接收策略投票訊息後,會從候選策略中選擇最適合其所在群組之群組策略,並產生及傳送一策略選擇訊息至教練裝置1。當處理器15透過通訊介面13自行動群組中各行動機器人接收策略選擇訊息後,根據所有策略選擇訊息,例如:選擇票數最高之群組策略,決定群組策略。
舉例而言,教練裝置1所選擇之候選策略可包含對角線移動策略及死結移動策略。於第4A-4B圖所描繪之實施情境中,行動群組GR1之8個行動機器人2a-2h中,有5個行動機器人選擇對角線移動策略,以及3個行動機器人選擇死結移動策略,則教練裝置1可根據投票結果,決定行動群組GR1使用對角線移動策略,如第4B圖所示。
再舉例而言,於第5A-5B圖所描繪之實施情境中,行動群組GR2之4個行動機器人2a-2d中有3個行動機器人選擇死結移動策略,以及1個行動機器人選擇對角線移動策略,則教練裝置1可根據投票結果,決定行動群組GR2使用死結移動策略,如第5B圖所示。
於其他實施例中,若行動機器人判斷目前群組策略不適合其行動行為時,行動機器人亦可直接傳送一策略要求訊息,以向教練裝置1要求更改群組策略。當教練裝置1判斷行動群組中傳送策略要求訊息之行動機器人之數量超過行動群組之行動機器人總數之一比例時(例如:超過總數的一半時),則重新執行策略選擇程序。
此外,於其他實施例中,行動機器人除了傳送策略要求訊息來要求教練裝置1更改群組策略外,亦可傳送一脫離群組要求訊息,以脫離原本的行動群組成為獨立個體。
於其他實施例中,若教練裝置1自非行動群組中之其他行動機器人接收到狀態空間資料及目標資訊時,可根據其他行動機器人之狀態空間資料及目標資訊,判斷其與鄰近行動群組中之行動機器人是否具有相同行動目標或行動行為,若具有相同行動目標或行動行為時,則將其他行動機器人加入鄰近行動群組中。
本發明第三實施例係描述一合作運作控制方法,其流程圖如第6圖所示。合作運作控制方法適用於一教練式驅動多機器人合作運作系統之一教練裝置(例如:前述實施例之教練裝置1)。教練裝置包含一儲存器、一通訊介面以及一處理器。儲存器儲存一精簡狀態空間模型、一合作學習模型及一策略庫。通訊介面與複數行動機器人連線。合作運作控制方法由處理器執行且包含以下步驟。
首先,於步驟S602中,透過通訊介面,自各行動機器人接收一狀態空間資料及一目標資訊。如第一實施例所述,各狀態空間資料包含一自身位置值、一移動物體位置值、一固定物體位置值及一可行走方向值。於步驟S604中,根據該等目標資訊及該等狀態空間資料,將該等行動機器人劃分為複數行動群組。於步驟S606中,將該等狀態空間資料輸入至精簡狀態空間模型,以產生複數精簡狀態空間資料。各精簡狀態空間資料對應至該等該行動群組其中之一,且經由整合所對應之行動群組中至少一行動機器人之至少一狀態空間資料所產生。
接著,於步驟S608中,將該等精簡狀態空間資料輸入至合作學習模型,以訓練並生成一合作模型。於一實施例中,合作學習模型基於一增強式學習演算法,訓練並生成合作模型。隨後,於步驟S610中,針對各行動群組,根據該等精簡狀態空間資料,自策略庫選擇一群組策略。於步驟S612中,針對各行動群組,透過通訊介面,將合作模型及群組策略傳送至行動群組中各行動機器人,以使行動群組中各行動機器人根據合作模型及群組策略執行一行動任務。
於其他實施例中,針對各行動群組,合作運作方法更包含
步驟:根據行動群組中該等行動機器人之該等狀態空間資料中之該等自身位置值、該等移動物體位置值及該等可行走方向值,計算行動群組之一群組自身位置值、一移動群組值及一群組可行走方向值。行動群組之精簡狀態空間資料包含群組自身位置值、移動群組值、群組可行走方向值及該等行動機器人之該等固定物體位置值。
於其他實施例中,合作運作方法更包含步驟:根據目標資訊及該等狀態空間資料之該等自身位置值,動態地將該等行動機器人劃分為該等行動群組。各行動群組中之至少一該等行動機器人彼此鄰近且具有一相同的行動目標、一相同的行動行為或其組合。此外,於其他實施例中,儲存器更儲存一行動機器人資料庫。
於其他實施例中,針對各行動群組,合作運作方法更包含步驟:自策略庫選擇複數候選策略;產生具有該等候選策略之一策略投票訊息;透過通訊介面傳送策略投票訊息至行動群組之該等行動機器人;透過通訊介面自行動群組中各行動機器人接收一策略選擇訊息;以及根據該等策略選擇訊息,自該等候選策略選擇群組策略。
於其他實施例中,針對各行動群組,合作運作方法更包含步驟:執行一策略選擇程序。策略選擇程序包含以下步驟:判斷是否透過通訊介面,自行動群組中該等行動機器人至少其中之一接收一策略要求訊息;判斷傳送策略要求訊息之該等行動機器人之一數量是否超過行動群組之該等行動機器人之一總數的一比例;以及當數量超過總數的該比例時,重新執行策略選擇程序。
於其他實施例中,通訊介面用以與複數感測裝置連線,且合
作運作方法更包含步驟:透過通訊介面自該等感測裝置接收複數感測資料;以及將該等精簡狀態空間資料及該等感測資料輸入至合作學習模型,以訓練並生成合作模型。
於其他實施例中,合作運作方法更包含步驟:透過通訊介面自該等行動機器人其中之一接收一脫離群組要求訊息,以脫離原本的行動群組成為獨立個體,如第二實施例所述。於其他實施例中,各行動群組之群組策略係一移動策略。
除了上述步驟,本發明之合作運作控制方法亦能執行在所有前述實施例中所闡述之所有操作並具有所有對應之功能,所屬技術領域具有通常知識者可直接瞭解此實施例如何基於所有前述實施例執行此等操作及具有該等功能,故不贅述。
綜上所述,本發明之合作運作機制藉由根據複數行動機器人所回報之感測資訊及目標資訊,動態地將該等行動機器人劃分為複數行動群組,並藉由精簡各行動群組中該等行動機器人之該等狀態空間資料,以降低訓練合作模型的資料量,進而減少訓練時間。此外,本發明之合作運作機制可基於簡化後之精簡狀態空間資料選擇適當的群組策略,以增加行動機器人合作運作的效率,達到最佳的合作結果。據此,本發明能降低機器人合作運作所需的資料計算量,提供最佳合作運作行為與反應時間。
上述之實施例僅用來例舉本發明之實施態樣,以及闡釋本發明之技術特徵,並非用來限制本發明之保護範疇。任何熟悉此技術者可輕易完成之改變或均等性之安排均屬於本發明所主張之範圍,本發明之權利保護範圍應以申請專利範圍為準。
Claims (20)
- 一種用於一教練式驅動多機器人合作運作系統之教練裝置,包含:一儲存器,儲存一精簡狀態空間模型、一合作學習模型及一策略庫;一通訊介面,用以與複數行動機器人連線;以及一處理器,電性連接該儲存器及該通訊介面,用以執行以下操作:透過該通訊介面,自各該行動機器人接收一狀態空間資料及一目標資訊;根據該等目標資訊及該等狀態空間資料,將該等行動機器人劃分為複數行動群組;將該等狀態空間資料輸入至該精簡狀態空間模型,以產生複數精簡狀態空間資料,其中各該精簡狀態空間資料對應至該等行動群組其中之一,且經由整合所對應之該行動群組中至少一該等行動機器人之至少一該等狀態空間資料所產生;將該等精簡狀態空間資料輸入至該合作學習模型,以訓練並生成一合作模型;針對各該行動群組,根據該等精簡狀態空間資料,自該策略庫選擇一群組策略;以及針對各該行動群組,透過該通訊介面,將該合作模型及該群組策略傳送至該行動群組中各該行動機器人,以使該行動群組中各該行動機器人根據該合作模型及該群組策略執行一行動任務。
- 如請求項1所述之教練裝置,其中各該狀態空間資料包含一自身位置值、一移動物體位置值、一固定物體位置值及一可行走方向值。
- 如請求項2所述之教練裝置,其中針對各該行動群組,該處理器根據該行動群組中該等行動機器人之該等狀態空間資料中之該等自身位置值、該等移動物體位置值及該等可行走方向值,計算該行動群組之一群組自身位置值、一移動群組值及一群組可行走方向值,以及該行動群組之該精簡狀態空間資料包含該群組自身位置值、該移動群組值、該群組可行走方向值及該等行動機器人之該等固定物體位置值。
- 如請求項2所述之教練裝置,其中該處理器係根據該等狀態空間資料之該等自身位置值,動態地將該等行動機器人劃分為該等行動群組,以及各該行動群組中之至少一該等行動機器人彼此鄰近且具有一相同的行動目標、一相同的行動行為或其組合。
- 如請求項1所述之教練裝置,其中針對各該行動群組,該處理器更執行一策略選擇程序,其包含以下操作:自該策略庫選擇複數候選策略;產生具有該等候選策略之一策略投票訊息;透過該通訊介面傳送該策略投票訊息至該行動群組之該等行動機器人;透過該通訊介面自該行動群組中各該行動機器人接收一策略選擇訊息;以及根據該等策略選擇訊息,自該等候選策略選擇該群組策略。
- 如請求項5所述之教練裝置,其中針對各該行動群組,該處理器更執行以下操作:判斷是否透過該通訊介面,自該行動群組中該等行動機器人至少其中之一接收一策略要求訊息;判斷傳送該策略要求訊息之該等行動機器人之一數量是否超過該行動群組之該等行動機器人之一總數的一比例;以及當該數量超過該總數的該比例時,重新執行該策略選擇程序。
- 如請求項1所述之教練裝置,其中該通訊介面用以與複數感測裝置連線,以及該處理器更透過該通訊介面自該等感測裝置接收複數感測資料,並將該等精簡狀態空間資料及該等感測資料輸入至該合作學習模型,以訓練並生成該合作模型。
- 如請求項1所述之教練裝置,其中該處理器更透過該通訊介面自該等行動機器人其中之一接收一脫離群組要求訊息。
- 如請求項1所述之教練裝置,其中該合作學習模型基於一增強式學習演算法,訓練並生成該合作模型。
- 如請求項1所述之教練裝置,其中各該行動群組之該群組策略係一移動策略。
- 一種合作運作控制方法,適用於一教練式驅動多機器人合作運作系統之一教練裝置,該教練裝置包含一儲存器、一通訊介面以及一處理器,該儲存器儲存一精簡狀態空間模型、一合作學習模型及一策略庫,該通訊介面與複數行動機器人連線,該合作運作控制方法由該處理器執行且包含以下步驟:透過該通訊介面,自各該行動機器人接收一狀態空間資料及一目標資訊;根據該等目標資訊及該等狀態空間資料,將該等行動機器人劃分為複數行動群組;將該等狀態空間資料輸入至該精簡狀態空間模型,以產生複數精簡狀態空間資料,其中各該精簡狀態空間資料對應至該等該行動群組其中之一,且經由整合所對應之該行動群組中至少一該等行動機器人之至少一該等狀態空間資料所產生;將該等精簡狀態空間資料輸入至該合作學習模型,以訓練並生成一合作模型;針對各該行動群組,根據該等精簡狀態空間資料,自該策略庫選擇一群組策略;以及針對各該行動群組,透過該通訊介面,將該合作模型及該群組策略傳送至該行動群組中各該行動機器人,以使該行動群組中各該行動機器人根據該合作模型及該群組策略執行一行動任務。
- 如請求項11所述之合作運作控制方法,其中各該狀態空間資料包含一自身位置值、一移動物體位置值、一固定物體位置值及一可行走方向值。
- 如請求項12所述之合作運作控制方法,其中針對各該行動群組,該合作運作方法更包含以下步驟:根據該行動群組中該等行動機器人之該等狀態空間資料中之該等自身位置值、該等移動物體位置值及該等可行走方向值,計算該行動群組之一群組自身位置值、一移動群組值及一群組可行走方向值,以及該行動群組之該精簡狀態空間資料包含該群組自身位置值、該移動群組值、該群組可行走方向值及該等行動機器人之該等固定物體位置值。
- 如請求項12所述之合作運作控制方法,更包含以下步驟:根據該目標資訊及該等狀態空間資料之該等自身位置值,動態地將該等行動機器人劃分為該等行動群組,以及各該行動群組中之至少一該等行動機器人彼此鄰近且具有一相同的行動目標、一相同的行動行為或其組合。
- 如請求項11所述之合作運作控制方法,其中針對各該行動群組,該合作運作方法更包含以下步驟:執行一策略選擇程序,其包含以下步驟:自該策略庫選擇複數候選策略;產生具有該等候選策略之一策略投票訊息;透過該通訊介面傳送該策略投票訊息至該行動群組之該等行動機器人;透過該通訊介面自該行動群組中各該行動機器人接收一策略選擇訊息;以及根據該等策略選擇訊息,自該等候選策略選擇該群組策略。
- 如請求項15所述之合作運作控制方法,其中針對各該行動群組,該合作運作方法更包含以下步驟:判斷是否透過該通訊介面,自該行動群組中該等行動機器人至少其中之一接收一策略要求訊息;判斷傳送該策略要求訊息之該等行動機器人之一數量是否超過該行動群組之該等行動機器人之一總數的一比例;以及當該數量超過該總數的該比例半時,重新執行該策略選擇程序。
- 如請求項11所述之合作運作控制方法,其中該通訊介面用以與複數感測裝置連線,以及該合作運作方法更包含以下步驟:透過該通訊介面自該等感測裝置接收複數感測資料;以及將該等精簡狀態空間資料及該等感測資料輸入至該合作學習模型,以訓練並生成該合作模型。
- 如請求項11所述之合作運作控制方法,更包含以下步驟:透過該通訊介面自該等行動機器人其中之一接收一脫離群組要求訊息。
- 如請求項11所述之合作運作控制方法,其中該合作學習模型基於一增強式學習演算法,訓練並生成該合作模型。
- 如請求項11所述之合作運作控制方法,其中各該行動群組之該群組策略係一移動策略。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107142286A TWI680364B (zh) | 2018-11-27 | 2018-11-27 | 用於教練式驅動多機器人合作運作系統之教練裝置及其合作運作控制方法 |
CN201811479876.3A CN111308996B (zh) | 2018-11-27 | 2018-12-05 | 教练装置及其合作运作控制方法 |
US16/216,341 US11275387B2 (en) | 2018-11-27 | 2018-12-11 | Coach apparatus and cooperative operation controlling method for coach-driven multi-robot-cooperative operation system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107142286A TWI680364B (zh) | 2018-11-27 | 2018-11-27 | 用於教練式驅動多機器人合作運作系統之教練裝置及其合作運作控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI680364B true TWI680364B (zh) | 2019-12-21 |
TW202020589A TW202020589A (zh) | 2020-06-01 |
Family
ID=69582262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107142286A TWI680364B (zh) | 2018-11-27 | 2018-11-27 | 用於教練式驅動多機器人合作運作系統之教練裝置及其合作運作控制方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11275387B2 (zh) |
CN (1) | CN111308996B (zh) |
TW (1) | TWI680364B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220156665A1 (en) * | 2018-01-26 | 2022-05-19 | Above Daas, Inc. | Systems and methods for orchestrating agents |
JP7415693B2 (ja) * | 2020-03-13 | 2024-01-17 | オムロン株式会社 | 打ち方決定装置、打ち方決定方法、打ち方決定プログラム、及び返球ロボット |
CN111625012B (zh) * | 2020-06-09 | 2022-12-06 | 西北工业大学 | 一种多空间机器人分布式协同操作方法 |
CN111844021B (zh) * | 2020-06-17 | 2021-12-03 | 慧灵科技(深圳)有限公司 | 机械臂协同控制方法、装置、设备及存储介质 |
US20210133633A1 (en) * | 2020-12-22 | 2021-05-06 | Intel Corporation | Autonomous machine knowledge transfer |
CN117957500A (zh) * | 2021-09-23 | 2024-04-30 | 西门子(中国)有限公司 | 一种多个机器人协同工作的控制方法、系统及机器人 |
CN117093021B (zh) * | 2023-10-19 | 2024-01-30 | 西北工业大学深圳研究院 | 一种应用于群体智能系统的分布式编队包围方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6408226B1 (en) * | 2001-04-24 | 2002-06-18 | Sandia Corporation | Cooperative system and method using mobile robots for testing a cooperative search controller |
US7343222B2 (en) * | 2002-08-21 | 2008-03-11 | Solomon Research Llc | System, method and apparatus for organizing groups of self-configurable mobile robotic agents in a multi-robotic system |
US20160017936A1 (en) * | 2013-03-18 | 2016-01-21 | Schaeffer Technologies AG & Co. KG | Sleeve-type freewheel |
TW201722653A (zh) * | 2015-10-05 | 2017-07-01 | X開發有限責任公司 | 選擇性地部署機器人以執行地圖測繪 |
TW201729023A (zh) * | 2015-10-26 | 2017-08-16 | X開發有限責任公司 | 關於使用光學識別符之機器人之資訊通信 |
CN108415460A (zh) * | 2018-03-29 | 2018-08-17 | 北京航空航天大学 | 一种组合分离式旋翼与足式移动操作机器人集中-分布式控制方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2474545B (en) * | 2009-09-24 | 2015-06-24 | Fisher Rosemount Systems Inc | Integrated unified threat management for a process control system |
US9527211B2 (en) * | 2013-05-10 | 2016-12-27 | Cnh Industrial America Llc | Control architecture for multi-robot system |
CN105751196A (zh) * | 2016-04-12 | 2016-07-13 | 华南理工大学 | 一种基于主从式的工业机器人协作作业方法 |
CN107831685B (zh) * | 2017-10-13 | 2023-03-14 | 南方科技大学 | 一种群体机器人的控制方法和系统 |
US10826932B2 (en) * | 2018-08-22 | 2020-11-03 | General Electric Company | Situation awareness and dynamic ensemble forecasting of abnormal behavior in cyber-physical system |
-
2018
- 2018-11-27 TW TW107142286A patent/TWI680364B/zh active
- 2018-12-05 CN CN201811479876.3A patent/CN111308996B/zh active Active
- 2018-12-11 US US16/216,341 patent/US11275387B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6408226B1 (en) * | 2001-04-24 | 2002-06-18 | Sandia Corporation | Cooperative system and method using mobile robots for testing a cooperative search controller |
US7343222B2 (en) * | 2002-08-21 | 2008-03-11 | Solomon Research Llc | System, method and apparatus for organizing groups of self-configurable mobile robotic agents in a multi-robotic system |
US20160017936A1 (en) * | 2013-03-18 | 2016-01-21 | Schaeffer Technologies AG & Co. KG | Sleeve-type freewheel |
TW201722653A (zh) * | 2015-10-05 | 2017-07-01 | X開發有限責任公司 | 選擇性地部署機器人以執行地圖測繪 |
TW201729023A (zh) * | 2015-10-26 | 2017-08-16 | X開發有限責任公司 | 關於使用光學識別符之機器人之資訊通信 |
CN108415460A (zh) * | 2018-03-29 | 2018-08-17 | 北京航空航天大学 | 一种组合分离式旋翼与足式移动操作机器人集中-分布式控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111308996B (zh) | 2023-06-27 |
TW202020589A (zh) | 2020-06-01 |
US11275387B2 (en) | 2022-03-15 |
CN111308996A (zh) | 2020-06-19 |
US20200166952A1 (en) | 2020-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI680364B (zh) | 用於教練式驅動多機器人合作運作系統之教練裝置及其合作運作控制方法 | |
US20220331961A1 (en) | Safety system for integrated human/robotic environments | |
Godoy et al. | Implicit coordination in crowded multi-agent navigation | |
CN105955262A (zh) | 一种基于栅格地图的移动机器人实时分层路径规划方法 | |
US11662726B2 (en) | Controlling movement of a device | |
Lauri et al. | Multi-robot active information gathering with periodic communication | |
Kenk et al. | Human-aware Robot Navigation in Logistics Warehouses. | |
WO2022229657A1 (en) | Method and system for robot navigation in unknown environments | |
Chen et al. | Dynamic obstacle avoidance for UAVs using a fast trajectory planning approach | |
Jones et al. | Information-guided persistent monitoring under temporal logic constraints | |
Xin et al. | Coordinated motion planning of multiple robots in multi-point dynamic aggregation task | |
CN109048910B (zh) | 机器人避让预判方法及装置 | |
Hallgarten et al. | Stay on track: A frenet wrapper to overcome off-road trajectories in vehicle motion prediction | |
Ferrari et al. | A geometric optimization approach to tracking maneuvering targets using a heterogeneous mobile sensor network | |
Su et al. | Dynamic task allocation for heterogeneous agents in disaster environments under time, space and communication constraints | |
CN115328167A (zh) | 一种基于三角锥的群机器人多目标搜索方法 | |
CN115097732A (zh) | 一种融合图神经网络与DH-Bug算法的多智能体 | |
Abichandani et al. | Experimental multi-vehicle path coordination under communication connectivity constraints | |
US11635774B2 (en) | Dynamic anchor selection for swarm localization | |
Streit et al. | Vision-based path construction and maintenance for indoor guidance of autonomous ground vehicles based on collaborative smart cameras | |
Bayrak et al. | Formation preserving path finding in 3-D terrains | |
Furlán et al. | Humanoid robot hierarchical navigation using Petri nets and fuzzy logic | |
Baranzadeh et al. | A distributed algorithm for grid-based search by a multi-robot system | |
Snape et al. | Goal velocity obstacles for spatial navigation of multiple autonomous robots or virtual agents | |
Ling et al. | SocialGAIL: Faithful Crowd Simulation for Social Robot Navigation |