TWI804220B

TWI804220B - 分散式倉儲管理系統及方法

Info

Publication number: TWI804220B
Application number: TW111107742A
Authority: TW
Inventors: 邱偉育; 吳紹齊
Original assignee: 國立清華大學
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2023-06-01
Also published as: TW202336686A

Abstract

一種分散式倉儲管理系統及方法。此方法是由中央伺服器接收多筆訂單，並使用廠域的廠域資訊、訂單的訂單資訊、廠域中貨架的貨品資訊定義多個系統狀態以建構強化學習代理人，以及在各個系統狀態下安排自主移動機器人執行訂單中貨品的搬運動作，並依據訂單完成時間及取貨量計算獎勵，以訓練強化學習代理人；由中央伺服器接收當前訂單，並利用強化學習代理人指派在當前系統狀態下適於處理當前訂單的自主移動機器人及其所執行的搬運動作；由自主移動機器人使用路徑規劃演算法計算從自身位置行進至搬運動作的目標位置的行進路徑並執行搬運動作。

Description

分散式倉儲管理系統及方法

本發明是有關於一種倉儲管理系統及方法，且特別是有關於一種分散式倉儲管理系統及方法。

隨著網路購物的蓬勃發展，在網路平台上的交易量逐年增加，這些訂單具備商品多樣性高、數量少、貨源分散等特性。且隨著生活步調加速，客戶對於取貨時間的要求越來越嚴格，這使得物流的效率受到了很大的考驗，許多物流公司開始尋求解決分案。

現有的AGV無人搬運車已被廣泛地使用於製造業，然而此類型的機器人缺乏彈性的路徑規劃，在吞吐量較大的物流業難以達到較高的效率，也較難滿足需要多元貨物的電商。現有的倉儲機器人路徑規劃解決方案為集中式計算，多為多智能體路徑尋找(Multi-Agent Path Finding，MAPF)，例如CBS、EECBS、RHCR 等演算法，但此類演算法的時間複雜度高，在機器人數目增加時，所消耗的計算資源與時間都會快速上升，且當廠內機器人有行動延遲的情形時，將使得原先規劃的路徑無法執行，而需要重新計算路徑以避免衝突。

本發明提供一種分散式倉儲管理系統及方法，通過分散式處理自動化倉儲中的工作分配及路徑規劃，可減少中央系統的計算負擔，並規劃出有效率的路徑以提高產能。

本發明提供一種分散式倉儲管理方法，適用於包括中央伺服器以及配置於廠域中的多個自主移動機器人的倉儲系統。此方法包括下列步驟：中央伺服器接收多筆訂單，並使用廠域的廠域資訊、訂單的訂單資訊、廠域中多個貨架的貨品資訊定義多個系統狀態以建構一強化學習代理人，以及在各個系統狀態下安排自主移動機器人執行訂單中貨品的搬運動作，並至少依據各個訂單的完成時間及自主移動機器人的取貨量計算獎勵，以訓練強化學習代理人；中央伺服器接收當前訂單，並利用經訓練的強化學習代理人指派在當前系統狀態下適於處理當前訂單的自主移動機器人及其所執行的搬運動作；以及自主移動機器人使用路徑規劃演算法計算從自身位置行進至中央伺服器所指派的搬運動作的目標位置的行進路徑，並依照行進路徑執行搬運動作，其中行進路徑的計算考量自主移動機器人的移動距離及行進路徑上的其他機器人。

本發明提供一種分散式倉儲管理系統，其包括配置於廠域中的多個自主移動機器人及中央伺服器。中央伺服器與各個自主移動機器人通訊連接，經配置以接收多筆訂單，並使用廠域的廠域資訊、訂單的訂單資訊、廠域中多個貨架的貨品資訊定義多個系統狀態以建構一強化學習代理人，以及在各個系統狀態下安排自主移動機器人執行訂單中貨品的搬運動作，並至少依據各個訂單的完成時間及自主移動機器人的取貨量計算獎勵，以訓練強化學習代理人。其中，中央伺服器接收當前訂單，並利用經訓練的強化學習代理人指派在當前系統狀態下適於處理當前訂單的自主移動機器人及其所執行的所述搬運動作。自主移動機器人使用路徑規劃演算法計算從自身位置行進至中央伺服器所指派的搬運動作的目標位置的行進路徑，並依照行進路徑執行搬運動作，其中行進路徑的計算考量自主移動機器人的移動距離及行進路徑上的其他機器人。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

10:廠域配置圖

12:揀貨區

122:揀貨站

14:自由移動區

16:貨物區

162:貨架

164:充電站

20:分散式倉儲管理系統

22:中央伺服器

24:自主移動機器人

100:比較圖

S302~S306、S402~S406、S502~S510、S602~S606、S702~S712、 S802~S810、S902~S906:步驟

圖1是依照本發明一實施例所繪示的廠域配置圖。

圖2是依照本發明一實施例所繪示之分散式倉儲管理系統的方塊圖。

圖3是依照本發明一實施例所繪示之分散式倉儲管理方法的流程圖。

圖4是依照本發明一實施例所繪示之中央伺服器指派工作的方法流程圖。

圖5是依照本發明一實施例所繪示之路徑規劃演算法的流程圖。

圖6是依照本發明一實施例所繪示之主移動機器人的充電方法的流程圖。

圖7是依照本發明一實施例所繪示之路徑衝突排除演算法的流程圖。

圖8是依照本發明一實施例所繪示之判斷是否進入路徑衝突排除狀態的方法流程圖。

圖9是依照本發明一實施例所繪示之廠域效能分析方法的流程圖。

圖10是依照本發明一實施例所繪示之廠域效能分析結果的比較圖。

本發明實施例使用分散方式來解決自動化倉儲中的工作分配與路徑規劃問題，由中央系統分派工作給機器人，再由機器人自行進行路徑規劃，以減少中央系統的計算負擔。其中，中央系統採用強化學習方式建構並訓練代理人，而可選擇當前系統狀態下適於處理訂單的機器人及其動作。機器人則使用路徑規劃演算法計算路徑，並使用路徑衝突排除演算法排除行進時所遇到的衝突或障礙，而可使得路徑規劃更具彈性及效率。

自動化倉儲對於自主移動機器人(Autonomous Mobile Robot，AMR)在廠域中行走路線的配置可包括單道單向、單道雙向及雙道雙向。其中，單道單向是指在貨物區行進時無死鎖的路線。單道雙向是機器人數量較少時可採用的簡易配置。雙道雙向則是場地較大時可提供騰挪位置。

舉例來說，圖1是依照本發明一實施例所繪示的廠域配置圖。請參考圖1，本實施例的廠域配置圖10是以單道單向的廠域為例，其可分為三種區域：最上方的揀貨區12、中間的自由移動區14及下方的貨物區16。自主移動機器人(未繪示)可從貨物區16中的貨架162載貨，並依廠域配置圖10中的箭頭方向行走，將貨品送至揀貨區12中的揀貨站122。此外，自主移動機器人還可偵測自身電量，並在適當時機移動至充電站164進行充電。

圖2是依照本發明一實施例所繪示之分散式倉儲管理系統的方塊圖。請參照圖2，本實施例的分散式倉儲管理系統20包括中央伺服器22及配置於廠域中的多個自主移動機器人24。

中央伺服器22是作為自動化倉儲中的中央系統，其例如是具備運算能力的檔案伺服器、資料庫伺服器、應用程式伺服器、工作站或個人電腦等計算機裝置，其中例如包括用以與外部裝置通訊的通訊裝置、用以儲存資料的儲存裝置及處理器等元件。

自主移動機器人24例如是用以移載及運送物件的自主移動載具(Automated Guided Vehicle，AGV)、搬運機器人等機器人裝置，其中例如包括用以與外部裝置通訊的通訊裝置、用以偵測周圍環境與自身操作的多個感測器、用以儲存資料的儲存裝置及處理器等元件。所述的感測器包括全球定位系統(global position system，GPS)、低功耗藍牙(Bluetooth Low Energy，BLE)、慣性測量單元(inertial measurement unit，IMU)、旋轉編碼器(rotary encoder)、相機、光感測器(photodetector)、雷射或其組合，而可感測自主移動機器人24周遭的電磁波、影像、聲波等環境資訊以及自主移動機器人24自身的慣性、位移等，從而估計自主移動機器人24的目前位置及/或狀態。

在一些實施例中，中央伺服器22與自主移動機器人24是位於相同廠域中，自主移動機器人24可通過無線保真(wireless fidelity，Wi-Fi)、無線射頻辨識(Radio Frequency Identification，RFID)、藍芽、紅外線、近場通訊(near-field communication，NFC)或裝置對裝置(device-to-device，D2D)等通訊協定與中央伺服器22通訊連接，以傳送資料及指令。在一些實施例中，中央伺服器22是位於廠域外，自主移動機器人24則可通過內部網路(Intranet)或是網際網路(Internet)與中央伺服器22通訊連接，以傳送資料及指令，本發明不限制其配置及連接方式。

上述中央伺服器22與自主移動機器人24中的儲存裝置例如是任意型態的固定式或可移動式隨機存取記憶體(random access memory，RAM)、唯讀記憶體(read-only memory，ROM)、快閃記憶體(flash memory)或類似元件或上述元件的組合，其可用以儲存可供處理器執行的電腦程式或指令。

上述中央伺服器22與自主移動機器人24中的處理器例如是中央處理單元(Central Processing Unit，CPU)或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位訊號處理器(Digital Signal Processor，DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits，ASIC)、可程式化邏輯裝置(Programmable Logic Device，PLD)或其他類似裝置或這些裝置的組合，其可從儲存裝置載入電腦程式或指令，據以執行本發明實施例的分散式倉儲管理方法。以下即舉實施例說明此方法的詳細步驟。

圖3是依照本發明一實施例所繪示之分散式倉儲管理方法的流程圖。請同時參照圖2及圖3，本實施例的方法適用於圖2的分散式倉儲管理系統20，以下即搭配分散式倉儲管理系統20中的各項裝置說明本發明之分散式倉儲管理方法的詳細步驟。

在步驟S302中，由中央伺服器22接收多筆訂單，並使用廠域的廠域資訊、訂單的訂單資訊、廠域中多個貨架的貨品資訊定義多個系統狀態以建構一強化學習代理人，以及在各個系統狀態下安排自主移動機器人執行訂單中貨品的搬運動作，並至少依據各個訂單的完成時間及自主移動機器人的取貨量計算獎勵，以訓練強化學習代理人。

詳細而言，本實施例的中央伺服器22係採用工作分配演算法來處理訂單，其例如是使用強化學習的方式，將所接收的多筆訂單作為輸入，按照物品數量、保存期限、貨架位置、機器人位置等資訊建立強化學習代理人，計算出訂單的拆分方式並找出最優的數個貨架，再以訂單完成的時間做為獎勵來訓練該代理人。其中，強化學習代理人中的狀態s可定義為：s=[Map,Order _k ,ItemList]

其中，Map為廠域的廠域資訊，其中包括廠域的地圖資訊及自主移動機器人24的位置，其例如是以二維矩陣的方式使用二元編碼(即，0、1)記錄所有自主移動機器人24在地圖中位置。Order _k為訂單資訊，其中包括k筆訂單的編號及其內容(貨品的品項和數量)，ItemList為貨品資訊，其中包括各貨架的貨架編號以及放置在該貨架上的貨品的品項、數量及保存期限等。在一些實施例中，貨品的保存期限可作為狀態s中的獨立元素，用以建構強化學習代理人，本實施例不限制其實施方式。

此外，強化學習代理人中的動作a可定義為中央伺服器22安排自主移動機器人24前往的下個貨架rack及其對應要處理的訂單編號orderID：a=[rack,orderID]

其中，在自主移動機器人24做出動作a之後，中央伺服器22可依據訂單的完成時間latency、自主移動機器人24的取貨量itemsTaken、貨品的有效期限expireTime、所處理訂單的訂單編號orderID等資料設定獎勵reward：reward=-latency．weight1+itemsTaken．weight2-(expireTime．weight3+orderID．weight4)

其中，正號代表正相關，負號代表負相關，weight1至weight4為對應權重，其可依據實際需求作調整。在一些實施例中，中央伺服器22僅以前兩項作為獎勵，而在其他實施例中，中央伺服器22可依情況將後兩項加入考量，在此不設限。其中，通過將有效期限納入考量，可使得有效期限較短的貨品先被處理；而通過將訂單編號納入考量，可使得排序在前的訂單先被處理。

在一些實施例中，強化學習代理人的價值函數q(s _t ,a _t)可定義為：

其中，t為時間點，T為結束時間點，γ為折扣率(discount factor)。

更新價值函數q(s _t ,a _t)時，可以使用以下更新式：q(s _t ,a _t)←q(s _t ,a _t)+α．(reward _t+

(s _t+1 ,a))

其中，α為學習率，γ為折扣率，q(s _t ,a _t)為在系統狀態s _t下安排搬運動作a _t時，從強化學習代理人獲得的價值函數值。藉由取系統狀態s _t下可安排的多種搬運動作a _t中可獲得最大價值函數值的搬運動作a _t作為最佳動作

，並將安排此最佳動作

至系統狀態s _t所獲得的獎勵reward _t回饋至系統狀態s _t對應的搬運動作a _t的價值函數值，而完成價值函數的更新。上述的學習率α例如為數值介於0.1至0.5之間的任意數，其可決定新系統狀態s _t+1對於原系統狀態s _t的價值函數值的影響比例。上述的折扣率γ例如為數值介於0.9至0.99之間的任意數，其可決定新系統狀態s _t+1的價值函數值的相對於所回饋的獎勵reward _t的比率。

回到圖3的流程，在步驟S304中，中央伺服器22接收當前訂單，並利用經訓練的強化學習代理人指派在當前系統狀態下適於處理當前訂單的自主移動機器人及其所執行的搬運動作。

其中，本實施例的工作分配演算法是由中央伺服器22利用訓練過的強化學習代理人與目前的系統狀態選擇下一個貨架，再根據選中貨架的位置計算並指派訂單至出貨站。然後，將工作指派至自主移動機器人24，其中包括根據閒置的自主移動機器人24的位置將貨架位置與出貨位置傳送給自主移動機器人24。若無可用的自主移動機器人24，則在此步驟等待。最後，則接收自主移動機器人24回傳的完成訊息以完成訂單。

詳細而言，圖4是依照本發明一實施例所繪示之中央伺服器指派工作的方法流程圖。請同時參照圖2及圖4，本實施例的方法適用於圖2的分散式倉儲管理系統20。

在步驟S402中，本實施例的工作分配演算法是由中央伺服器22利用經訓練的強化學習代理人在當前系統狀態下選擇當前訂單中貨品所在的下一貨架。其中，中央伺服器22例如會根據選中貨架的位置計算並指派訂單至出貨站。

在步驟S404中，中央伺服器22根據下一貨架的貨架位置選擇廠域中閒置的自主移動機器人24。其中，若無可用的自主移動機器人24，則中央伺服器22將在此步驟等待。

在步驟S406中，中央伺服器22傳送貨架位置及出貨位置至所選擇的自主移動機器人24，以指派自主移動機器人24執行搬運動作。最後，待中央伺服器22接收到自主移動機器人24回傳的完成訊息，即可完成訂單。

在一些實施例中，本發明實施例的中央伺服器22可分析進貨的貨品列表，並依據貨架容量、貨品剩餘數量等資訊計算出需進行補貨的貨品。對於有N個貨架的廠域，中央伺服器22判斷貨品i是否需補貨的條件如下：

<capacity _i．threshold _i

其中，

為第n個貨架上的貨品i的剩餘數量，capacity _i為貨品i的貨架容量，threshold _i為庫存閥值。

接著，中央伺服器22可根據選中貨架rack _n的位置計算進貨區p，公式如下：argmin _p(distance(p,rack _n))

其中，distance(p,rack _n)為選中貨架rack _n與進貨區p的距離，則argmin _p代表取使得上述距離達到最小值的進貨區p。

然後，中央伺服器22將工作指派至自主移動機器人24。其中，若無可用的自主移動機器人24，則中央伺服器22在此步驟等待。最後，待自主移動機器人24接收到自主移動機器人24回傳的完成訊息，即可完成補貨。

本發明實施例的中央伺服器22的操作包括資訊蒐集和回應機器人請求兩個部分。其中，在進行資訊蒐集時，中央伺服器22例如會根據自主移動機器人24回報的位置以進行場內自主移動機器人24的監控，並且根據自主移動機器人24回報的障礙位置進行場內區域封鎖。

在回應機器人的請求時，中央伺服器22例如接收各個自主移動機器人24對於廠域中多個路面的存取權的使用請求，並根據廠域資訊，決定是否給予這些路面的存取權。其中，若有路面已被其他機器人存取，則拒絕對於該路面的請求。中央伺服器22還接收各個自主移動機器人24回報的位置，並在已給予路面存取權的自主移動機器人24離開該路面時，回收該路面的存取權。

此外，中央伺服器22還包括回應自主移動機器人24的資訊更新請求，以將廠域資訊傳送至發出請求的自主移動機器人24；且回應自主移動機器人24的充電站請求，將最近可用的充電站回傳至發出請求的自主移動機器人24。

回到圖3的流程，在步驟S306中，自主移動機器人24使用路徑規劃演算法計算從自身位置行進至中央伺服器22所指派的搬運動作的目標位置的行進路徑，並依照此行進路徑執行搬運動作。其中，所述行進路徑的計算將考量自主移動機器人24的移動距離及該行進路徑上的其他機器人，以獲得最佳效率路徑。

詳細而言，圖5是依照本發明一實施例所繪示之路徑規劃演算法的流程圖。請同時參照圖2及圖5，本實施例的方法適用於圖2的分散式倉儲管理系統20。

在步驟S502中，自主移動機器人24自中央伺服器22取得廠域的廠域資訊。

在步驟S504中，自主移動機器人24根據所取得的廠域資訊，計算從自身位置行進至位於自身位置及目標位置之間的多個節點其中之一的累積成本，並在步驟S506中，根據所取得的廠域資訊，計算從該節點行進至目標位置的估算成本。

詳細而言，自主移動機器人24例如是使用A*演算法進行路徑規劃，其包括計算從起點行進至終點的行進成本f(n)：f(n)=g(n)+h(n)

其中，g(n)為從起點行進至節點n的路徑累積成本，而由節點n行進至其相鄰節點n_neighbor的路徑累積成本g(n_neighbor)如下：g(n_neighbor)=g(n)+stepCost+occupied(n_neighbor)

其中，occupied(n_neighbor)表示相鄰節點n_neighbor上是否有其他機器人，若有則回傳一定值，反之則回傳零；stepCost則包含行進至相鄰節點n_neighbor的行走與轉向的成本。

另一方面，h(n)是節點n至終點dst的估算成本，定義如下：

其中，前項代表節點n與終點dst之間的曼哈頓距離，後項則代表節點n附近機器人的密集度。

在完成一個節點的成本計算後，在步驟S508中，自主移動機器人24將判斷是否計算完所有節點。即，自主移動機器人24會針對起點至終點之間的所有節點計算行進成本，藉此選擇最佳效率路徑。其中，若仍有節點未計算，則回到步驟S504，選擇另一個節點計算成本。

若所有節點的成本均計算完畢，則在步驟S510中，自主移動機器人24根據所計算行經各節點的累積成本和估算成本決定從自身位置行進至目標位置的行進路徑。其中，自主移動機器人24例如是選擇累積成本和估算成本總和最小的節點作為其前往目標位置的行進路徑，藉此可獲得最佳行進效率。

本發明實施例通過上述分散式的路徑規劃，可有效降低中央伺服器22的計算量。

本發明實施例的分散式倉儲管理系統20例如是採用主動式的充電策略，並非等到自主移動機器人24剩餘電量達到特定值時才進行被動式充電，可避免同時有多個自主移動機器人24需要充電所造成的充電站不足的問題。

詳細而言，圖6是依照本發明一實施例所繪示之主移動機器人的充電方法的流程圖。請同時參照圖2及圖6，本實施例的方法適用於圖2的分散式倉儲管理系統20。

在步驟S602中，自主移動機器人24根據自身電量、廠域中閒置的充電站的數量以及自身位置附近的其他機器人的電量，判斷是否需進行充電。

其中，自主移動機器人24例如是依據自身電量battery、剩餘充電站數量c及附近機器人狀況，採用下式判斷是否前往充電站充電：battery+weight5．

lowerBattery(robot _i)<threshold+weight6．c

其中，lowerBattery(robot _i)是在機器人i的電量比自身少時回傳一個定值，否則為零，k為附近機器人數量，threshold為充電閥值，weight5、weight6為對應權重。

在步驟S604中，當自主移動機器人24判斷需進行充電時，向中央伺服器22發出充電請求。

在步驟S606中，自主移動機器人24根據中央伺服器22響應充電請求所指派的充電站的位置，使用前述的路徑規劃演算法計算從自身位置行進至充電站的位置的行進路徑，並依照行進路徑前往充電站進行充電。

通過上述方法，本實施例採取的充電策略可將廠內同時充電的機器人數量維持在一定比例，以防止同時需要充電的機器人數量過多，而導致充電站不足或是取貨效率下降。

在一些實施例中，在貨物區之外，自主移動機器人24可在行進過程中與前方機器人通訊，以判斷兩者的行進路徑是否相衝突。若不會互相衝突，則繼續行進；而若會互相衝突，則計算雙方的優先度，以決定是由自己或是對方重新規劃路徑。

詳細而言，圖7是依照本發明一實施例所繪示之路徑衝突排除演算法的流程圖。請同時參照圖2及圖7，本實施例的方法適用於圖2的分散式倉儲管理系統20。

在步驟S702中，自主移動機器人24與位於行進路徑上的其他機器人進行通訊，並在步驟S704中，判斷是否與其他機器人衝突。其中，自主移動機器人24例如是通過與前方機器人通訊以取得前方機器人的行進路徑，並與自身的行進路徑比對，以判斷兩者的行進路徑是否相衝突。

若行進路徑不衝突，則在步驟S708中，自主移動機器人24繼續沿著既定的行進路徑行進；而若行進路徑會衝突，則在步驟S710中，自主移動機器人24會按照自身與其他機器人行進的剩餘步數以及所處理訂單的完成比例計算優先度Priority，其算法如下：Priority=stepLeft+OrderCompletion．weight7

其中，stepLeft為行進路徑的剩餘步數，OrderCompletion為當前訂單的完成比例，weight7為對應權重。

在步驟S710中，自主移動機器人24會判斷自身的優先度是否低於其他機器人的優先度。

若未低於其他機器人的優先度，則在步驟S708中，自主移動機器人24繼續沿著行進路徑行進；而若低於其他機器人的優先度，則在步驟S710中，自主移動機器人24將使用路徑規劃演算法重新計算行進路徑，以避開與其他機器人的衝突。

需說明的是，依據不同的廠域設計，自主移動機器人24在貨物區內會有不同行為。其中，對於單道雙向，自主移動機器人24的行為與在貨物區之外時相同；對於單道單向，自主移動機器人24將不進行路徑規劃，該廠域配置在貨物區時皆可用等待的方式排除衝突；對於雙道雙向，自主移動機器人24處於路口處時將進入路徑規劃狀態。然而，上述行為僅為舉例說明，並非用以限制本發明的範圍。

在一些實施例中，自主移動機器人24是根據當前狀態決定目前動作，所述的狀態包括閒置狀態、充電狀態、路徑規劃狀態及行駛狀態，茲分述如下：在閒置狀態中，自主移動機器人24可利用充電策略判斷是否進入充電狀態，並等待中央伺服器22配發任務，而在獲得任務後進入路徑規劃狀態。

在充電狀態中，自主移動機器人24會在電量大於一定比例時進入閒置狀態。若未擁有充電站存取時，自主移動機器人24會向中央伺服器22提出充電站請求，並根據中央伺服器22指示的充電站，進入路徑規劃狀態。

在路徑規劃狀態中，自主移動機器人24會向中央伺服器22請求廠域的地圖資訊，並使用路徑規劃演算法規劃路徑，若取得有效路徑，則進入行駛狀態。

在行駛狀態中，自主移動機器人24會向中央伺服器22要求當前路徑上的前方數個路面的存取權，並根據是否取得存取權來決定是否進入衝突排除狀態。

詳細而言，圖8是依照本發明一實施例所繪示之判斷是否進入路徑衝突排除狀態的方法流程圖。請同時參照圖2及圖8，本實施例的方法適用於圖2的分散式倉儲管理系統20。

在步驟S802中，自主移動機器人24向中央伺服器22請求行進路徑上的多個路面的存取權，並在有取得存取權的路面上沿著行進路徑行進。

在步驟S804中，自主移動機器人24判斷是否到達未取得存取權的路面。

若尚未到達未取得存取權的路面，則回到步驟S802，繼續沿著行進路徑行進，而若到達未取得存取權的路面，則在步驟S806，自主移動機器人24將停止行進並累計等待時間，且在步驟S808中，判斷等待時間是否超過預設時間。

其中，自主移動機器人24例如會記錄當前的等待時間waitTime，若等待時間waitTime過大時，則進入路徑衝突排除狀態，具體判斷如下：random()．waitTime>threshold

其中，random()為介於0與1之間的隨機浮點數，threshold為預設時間。

若等待時間未超過預設時間，則回到步驟S806，自主移動機器人24繼續累計等待時間，直到取得路面的存取權，而若等待時間超過預設時間，則在步驟S806，自主移動機器人24進入衝突排除狀態，以判斷是否與取得路面的存取權的其他機器人衝突。所述的路徑衝突排除已於圖7的實施例中詳細說明其演算法，故在此不再贅述。

在一些實施例中，若自主移動機器人24上搭載的感測器偵測到前方有未預期障礙，則可向中央伺服器22回報，並進入路徑規劃狀態，以選擇有存取權的路面繼續移動。

在一些實施例中，中央伺服器22可依據實際廠域需求建置虛擬廠域的地圖及貨品資訊，並對所建置的虛擬廠域進行模擬，以分析不同機器人數量時的效能，從而找出最佳機器人的數量。

詳細而言，圖9是依照本發明一實施例所繪示之廠域效能分析方法的流程圖。請同時參照圖2及圖9，本實施例的方法適用於圖2的分散式倉儲管理系統20。

在步驟S902中，中央伺服器22會建置虛擬廠域的廠域資訊，其中包括設定虛擬廠域的廠域大小、自主移動機器人24的數量、揀貨站的位置及數量、充電站的位置及數量、自由移動區及揀貨區的大小、每排貨架的長度以及廠域中的行進方向中的至少一個。

在一些實施例中，中央伺服器22還可選擇使用不同的充電選項：充電站或更換電池。若採用充電站的形式，則會啟用前述的充電策略，並且可根據硬體的實際規格來調整充電時所需的時間；若採用更換電池的形式，則將不使用充電策略，改為電量低於一定比例後由機器人自行前往換電，且換電所需的時間為定值。

在步驟S904中，中央伺服器22會建置虛擬廠域的貨品資訊，其中包括設定所存放的多個貨品的種類、大小、數量、保存期限及各個貨架可存放的貨品數量。

在步驟S906中，中央伺服器22可根據所建置的廠域資訊及貨品資訊，使用前述的分散式倉儲管理方法對虛擬廠域進行模擬，以分析所建置的虛擬廠域的效能。其中，所述效能包括自主移動機器人完成多筆訂單的平均花費時間、出貨率及出貨成本其中之一。而通過分析不同機器人數量時的效能並以視覺化的方式顯示分析結果，可找到適於該虛擬廠域的最佳機器人數量。

舉例來說，圖10是依照本發明一實施例所繪示之廠域效能分析結果的比較圖。請參照圖10，本實施例的比較圖10的橫軸為機器人數量，縱軸為單位時間的工作量。其中，通過前述方法分別建置採用單道單向、單道雙向及雙道雙向這三種配置的虛擬廠域並進行模擬，可獲得在不同機器人數量時的效能。例如使用100筆的訂單作為輸入，並計算完成所有訂單所花費的時間，將所處理的工作量除以所花費時間，即可獲得單位時間的工作量。通過比較圖10所顯示的視覺化分析結果，即可找到採用不同配置的廠域的最佳機器人數量，作為建置廠域的參考。

綜上所述，在本發明實施例的分散式倉儲管理系統及方法中，通過將自動化倉儲中的工作分配與路徑規劃分散處理，可有效率地規劃路徑以提高產能，也可減少中央系統的計算負擔，降低系統出現故障的機率，相較於集中式的路徑規劃更有彈性，當機器人產生預期外的延遲時也能繼續工作，同時也能減少傳輸路徑時使用的通訊資源。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

S302~S306:步驟

Claims

一種分散式倉儲管理方法，適用於包括中央伺服器以及配置於廠域中的多個自主移動機器人的倉儲系統，所述方法包括下列步驟：所述中央伺服器接收多筆訂單，並使用所述廠域的廠域資訊、所述訂單的訂單資訊、所述廠域中多個貨架的貨品資訊定義多個系統狀態以建構一強化學習代理人，以及在各所述系統狀態下安排所述自主移動機器人執行所述訂單中貨品的搬運動作，並至少依據各所述訂單的完成時間及所述自主移動機器人的取貨量計算獎勵，以訓練所述強化學習代理人；所述中央伺服器接收當前訂單，並利用經訓練的所述強化學習代理人指派在當前系統狀態下適於處理所述當前訂單的所述自主移動機器人及其所執行的所述搬運動作；以及所述自主移動機器人使用路徑規劃演算法計算從自身位置行進至所述中央伺服器所指派的所述搬運動作的目標位置的行進路徑，並依照所述行進路徑執行所述搬運動作，其中所述行進路徑的計算考量所述自主移動機器人的移動距離及所述行進路徑上的其他機器人。
如請求項1所述的方法，其中訓練所述強化學習代理人的步驟包括：根據所計算的獎勵更新所述系統狀態及所述搬運動作配對的價值函數，以訓練所述強化學習代理人。
如請求項1所述的方法，其中利用經訓練的所述強化學習代理人指派在當前系統狀態下適於處理所述當前訂單的所述自主移動機器人及其所執行的所述搬運動作的步驟包括：利用經訓練的所述強化學習代理人在所述當前系統狀態下選擇所述當前訂單中貨品所在的下一貨架；根據所述下一貨架的貨架位置選擇所述廠域中閒置的所述自主移動機器人；以及傳送所述貨架位置及出貨位置至所選擇的所述自主移動機器人，以指派所述自主移動機器人執行所述搬運動作。
如請求項1所述的方法，更包括：所述中央伺服器接收各所述自主移動機器人對於所述廠域中多個路面的存取權的使用請求，並根據所述廠域資訊，決定是否給予所述路面的所述存取權；以及所述中央伺服器接收各所述自主移動機器人回報的位置，並在已給予所述路面的所述存取權的所述自主移動機器人離開所述路面時，回收所述路面的所述存取權。
如請求項1所述的方法，其中所述自主移動機器人使用路徑規劃演算法計算從自身位置行進至所述中央伺服器所指派的所述搬運動作的目標位置的行進路徑的步驟包括：自所述中央伺服器取得所述廠域的廠域資訊；根據所取得的所述廠域資訊，計算從所述自身位置行進至位於所述自身位置及所述目標位置之間的多個節點其中之一的累積成本，其中所述累積成本包括行走與轉向的成本；根據所取得的所述廠域資訊，計算從所述節點行進至所述目標位置的估算成本，所述估算成本包括所述節點至所述目標位置的曼哈頓距離以及所述節點附近的所述其他機器人所造成的擁塞成本；以及根據所計算行經各所述節點的所述累積成本和所述估算成本決定從自身位置行進至所述目標位置的所述行進路徑。
如請求項1所述的方法，更包括：所述自主移動機器人根據自身電量、所述廠域中閒置的充電站的數量以及自身位置附近的所述其他機器人的電量，判斷是否需進行充電；當判斷需進行充電時，向所述中央伺服器發出充電請求；以及根據所述中央伺服器響應所述充電請求所指派的所述充電站的位置，使用所述路徑規劃演算法計算從自身位置行進至所述充電站的位置的所述行進路徑，並依照所述行進路徑前往所述充電站進行充電。
如請求項1所述的方法，其中所述自主移動機器人依照所述行進路徑執行所述搬運動作的步驟更包括：所述自主移動機器人與位於所述行進路徑上的所述其他機器人進行通訊，以判斷是否與所述其他機器人衝突；當判定與所述其他機器人衝突時，按照自身與所述其他機器人行進的剩餘步數以及所處理訂單的完成比例計算優先度；以及若所述自主移動機器人的所述優先度低於所述其他機器人的所述優先度，使用路徑規劃演算法重新計算所述行進路徑，以避開與所述其他機器人的衝突。
如請求項7所述的方法，其中在所述自主移動機器人與位於所述行進路徑上的所述其他機器人進行通訊，以判斷是否與所述其他機器人衝突的步驟之前，所述方法更包括：所述自主移動機器人向所述中央伺服器請求所述行進路徑上的多個路面的存取權，並在有取得所述存取權的所述路面上沿著所述行進路徑行進；當到達未取得所述存取權的所述路面時，停止行進並累計等待時間；以及當所累計的所述等待時間超過預設時間時，進入衝突排除狀態，以判斷是否與取得所述路面的所述存取權的所述其他機器人衝突。
如請求項1所述的方法，更包括：所述中央伺服器建置一虛擬廠域的廠域資訊，其中包括設定所述虛擬廠域的廠域大小、所述自主移動機器人的數量、揀貨站的位置及數量、充電站的位置及數量、自由移動區及揀貨區的大小、每排貨架的長度以及廠域中的行進方向中的至少一個；所述中央伺服器建置所述虛擬廠域的貨品資訊，其中包括設定所存放的多個貨品的種類、大小、數量、保存期限及各所述貨架可存放的貨品數量；以及根據所建置的所述廠域資訊及所述貨品資訊，使用分散式倉儲管理方法對所述虛擬廠域進行模擬，以分析所建置的所述虛擬廠域的效能。
如請求項9所述的方法，其中所述效能包括所述自主移動機器人完成多筆訂單的平均花費時間、出貨率及出貨成本其中之一。
一種分散式倉儲管理系統，包括：多個自主移動機器人，配置於廠域中；以及中央伺服器，與各所述自主移動機器人通訊連接，經配置以接收多筆訂單，並使用所述廠域的廠域資訊、所述訂單的訂單資訊、所述廠域中多個貨架的貨品資訊定義多個系統狀態以建構一強化學習代理人，以及在各所述系統狀態下安排所述自主移動機器人執行所述訂單中貨品的搬運動作，並至少依據各所述訂單的完成時間及所述自主移動機器人的取貨量計算獎勵，以訓練所述強化學習代理人，其中所述中央伺服器接收當前訂單，並利用經訓練的所述強化學習代理人指派在當前系統狀態下適於處理所述當前訂單的所述自主移動機器人及其所執行的所述搬運動作，以及所述自主移動機器人使用路徑規劃演算法計算從自身位置行進至所述中央伺服器所指派的所述搬運動作的目標位置的行進路徑，並依照所述行進路徑執行所述搬運動作，其中所述行進路徑的計算考量所述自主移動機器人的移動距離及所述行進路徑上的其他機器人。
如請求項11所述的分散式倉儲管理系統，其中所述中央伺服器包括根據所計算的獎勵更新所述系統狀態及所述搬運動作配對的價值函數，以訓練所述強化學習代理人。
如請求項11所述的分散式倉儲管理系統，其中所述中央伺服器包括利用經訓練的所述強化學習代理人在所述當前系統狀態下選擇所述當前訂單中貨品所在的下一貨架，並根據所述下一貨架的貨架位置選擇所述廠域中閒置的所述自主移動機器人，以及傳送所述貨架位置及出貨位置至所選擇的所述自主移動機器人，以指派所述自主移動機器人執行所述搬運動作。
如請求項11所述的分散式倉儲管理系統，所述中央伺服器更接收各所述自主移動機器人對於所述廠域中多個路面的存取權的使用請求，並根據所述廠域資訊，決定是否給予所述路面的所述存取權，以及接收各所述自主移動機器人回報的位置，並在已給予所述路面的所述存取權的所述自主移動機器人離開所述路面時，回收所述路面的所述存取權。
如請求項11所述的分散式倉儲管理系統，其中所述自主移動機器人包括自所述中央伺服器取得所述廠域的廠域資訊，根據所取得的所述廠域資訊，計算從所述自身位置行進至位於所述自身位置及所述目標位置之間的多個節點其中之一的累積成本，其中所述累積成本包括行走與轉向的成本，根據所取得的所述廠域資訊，計算從所述節點行進至所述目標位置的估算成本，所述估算成本包括所述節點至所述目標位置的曼哈頓距離以及所述節點附近的所述其他機器人所造成的擁塞成本，以及根據所計算行經各所述節點的所述累積成本和所述估算成本決定從自身位置行進至所述目標位置的所述行進路徑。
如請求項11所述的分散式倉儲管理系統，所述自主移動機器人更根據自身電量、所述廠域中閒置的充電站的數量以及自身位置附近的所述其他機器人的電量，判斷是否需進行充電，並在判斷需進行充電時，向所述中央伺服器發出充電請求，以及根據所述中央伺服器響應所述充電請求所指派的所述充電站的位置，使用所述路徑規劃演算法計算從自身位置行進至所述充電站的位置的所述行進路徑，並依照所述行進路徑前往所述充電站進行充電。
如請求項11所述的分散式倉儲管理系統，其中所述自主移動機器人更與位於所述行進路徑上的所述其他機器人進行通訊，以判斷是否與所述其他機器人衝突，並在判定與所述其他機器人衝突時，按照自身與所述其他機器人行進的剩餘步數以及所處理訂單的完成比例計算優先度，其中若所述自主移動機器人的所述優先度低於所述其他機器人的所述優先度，所述自主移動機器人使用路徑規劃演算法重新計算所述行進路徑，以避開與所述其他機器人的衝突。
如請求項17所述的分散式倉儲管理系統，其中所述自主移動機器人更向所述中央伺服器請求所述行進路徑上的多個路面的存取權，並在有取得所述存取權的所述路面上沿著所述行進路徑行進，當到達未取得所述存取權的所述路面時，停止行進並累計等待時間，且當所累計的所述等待時間超過預設時間時，進入衝突排除狀態，以判斷是否與取得所述路面的所述存取權的所述其他機器人衝突。
如請求項11所述的分散式倉儲管理系統，其中所述中央伺服器更建置一虛擬廠域的廠域資訊，其中包括設定所述虛擬廠域的廠域大小、所述自主移動機器人的數量、揀貨站的位置及數量、充電站的位置及數量、自由移動區及揀貨區的大小、每排貨架的長度以及廠域中的行進方向中的至少一個，建置所述虛擬廠域的貨品資訊，其中包括設定所存放的多個貨品的種類、大小、數量、保存期限及各所述貨架可存放的貨品數量，以及根據所建置的所述廠域資訊及所述貨品資訊，使用分散式倉儲管理方法對所述虛擬廠域進行模擬，以分析所建置的所述虛擬廠域的效能。
如請求項19所述的分散式倉儲管理系統，其中所述效能包括所述自主移動機器人完成多筆訂單的平均花費時間、出貨率及出貨成本其中之一。