TWI815613B

TWI815613B - 適用於機器人之導航方法及其機器人

Info

Publication number: TWI815613B
Application number: TW111130840A
Authority: TW
Inventors: 王健宇
Original assignee: 和碩聯合科技股份有限公司
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2023-09-11
Also published as: US20240061426A1; TW202409769A; JP7459337B2; JP2024027082A

Abstract

一種適用於機器人之導航方法包含：(a)設定第一位置座標及第一移動資訊；(b)經由多個距離感測器分別朝不同方向量測多個感測距離；(c)輸入多個感測距離、第一位置座標及第一移動資訊至神經網路模型，以獲得第二移動資訊；(d)將第二移動資訊設定為下一輪決策程序的第一移動資訊；(e)依據第二移動資訊，使機器人從第一位置座標移動至第二位置座標；(f)將第二位置座標設定為下一輪決策程序的第一位置座標；及(g)重複執行步驟(b)至(f)直至第二位置座標與終點座標之距離小於閾值。本案更提供一種適用於機器人導航方法之機器人。

Description

適用於機器人之導航方法及其機器人

本案是關於機器人導航，特別是一種使機器人在陌生環境能有一定決策能力且大幅降低輸入資料複雜度之適用於機器人之導航方法及其機器人。

傳統機器人導航，必需先使機器人詳細移動到使用區域的各個地點，利用光學雷達(Lidar)或視覺即時定位與地圖建構系統(Visual SLAM)建立使用區域的地圖。將地圖儲存後，下次開啟SLAM時即可對機器人目前位置進行定位，指定地圖內的任一點，利用導航演算法規劃行徑路線使機器人抵達終點。以上過程均需奠基於地圖的建立，若無地圖則無法進行導航。

若是在陌生環境，想強行進行目標路徑導引，大多使用Lidar或深度相機確認機器人與周圍環境的相關距離，以傳統演算法或強化學習的方式，不斷探索各種方向的行走可能性。然而，強化學習相關演算法常有因輸入資料複雜且不確定性高而訓練困難的問題，導致抵達終點的時間大幅拉長並且會多走許多額外不必要的路徑。

在一實施例中，一種適用於機器人之導航方法，此機器人具有多個距離感測器及移動裝置。於此，導航方法包含：(a)設定第一位置座標及第一移動資訊，其中第一位置座標為初始座標，第一移動資訊為初始移動資訊；(b)經由多個距離感測器分別朝不同方向量測多個感測距離；(c)執行決策程序，決策程序係輸入多個感測距離、第一位置座標及第一移動資訊至神經網路模型，以獲得神經網路模型輸出第二移動資訊；(d)將第二移動資訊設定為下一輪決策程序的第一移動資訊；(e)依據第二移動資訊，驅動移動裝置，使機器人從第一位置座標移動至第二位置座標；(f)將第二位置座標設定為下一輪決策程序的第一位置座標及(g)重複執行步驟(b)至(f)直至第二位置座標與終點座標之距離小於閾值。

在一實施例中，一種機器人包含多個距離感測器、移動決策電路、移動裝置及控制電路。多個距離感測器配置為分別朝不同方向量測多個感測距離。移動決策電路配置為重複執行決策程序，決策程序係輸入多個感測距離、第一位置座標及第一移動資訊至神經網路模型，以獲得神經網路模型輸出第二移動資訊。控制電路配置為依據第二移動資訊驅動移動裝置從第一位置座標移動至第二位置座標。其中，當移動決策電路初次執行決策程序時，將第一位置座標設定為初始座標，並將第一移動資訊設定為初始移動資訊。其中，在執行決策程序後，移動決策電路將第二移動資訊設定為下一輪決策程序的第一移動資訊。其中，在控制電路依據第二移動資訊驅動移動裝置從第一位置座標移動至第二位置座標後，移動決策電路將第二位置座標設定為下一輪決策程序的第一位置座標。

以下在實施方式中詳細敘述本案之詳細特徵以及優點，其內容足以使任何熟習相關技藝者瞭解本案之技術內容並據以實施，且根據本說明書所揭露之內容、申請專利範圍及圖式，任何熟習相關技藝者可輕易地理解本案相關之目的及優點。

圖1為機器人1之一實施例的方塊示意圖。請參閱圖1。機器人1包含多個距離感測器10、移動決策電路20、控制電路30及移動裝置40。多個距離感測器10耦接於移動決策電路20，控制電路30耦接於移動決策電路20及移動裝置40。

圖2為機器人1的多個距離感測器10之位置之一實施例的示意圖。請參閱圖1及圖2。多個距離感測器10配置為分別朝四周不同方向量測感測距離。每一距離感測器10量測得在一方向上相對於一最接近物體的一感測距離。舉例而言，多個距離感測器10的數量為12個，而可量測出感測距離D1-D12。在一些實施例中，距離感測器10可為但不限於一超音波感測器。

在一些實施例中，多個距離感測器10平均分布於機器人1之四周以取得機器人1朝不同方向之多個感測距離。

移動決策電路20配置為重複執行決策程序，每一次執行決策程序時，可以依據當前的狀態資訊來決策出用以執行下一步動作的移動資訊（後稱第二移動資訊MD2）。所述狀態資訊可包括多個感測距離D1-D12、位置座標及移動資訊（後稱第一移動資訊MD1）。詳言之，決策程序係輸入多個感測距離D1-D12、第一位置座標P1及第一移動資訊MD1至神經網路模型M1，以獲得神經網路模型M1輸出第二移動資訊MD2。在一些實施例中，神經網路模型M1為用以進行動作決策的神經網路模型，例如一深度確定性策略梯度演算法(Deep Deterministic Policy Gradient)模型。

移動決策電路20初次執行決策程序時，移動決策電路20將第一位置座標P1設定為初始座標並將第一移動資訊MD1設定為初始移動資訊。

在一些實施例中，第一移動資訊MD1包括第一二維線速度V1與第一角速度W1。初始移動資訊包括初始二維線速度與初始角速度。決策程序的輸入維度由多個感測距離、第一位置座標P1、第一二維線速度V1及第一角速度W1決定。舉例而言，若多個感測距離的數量為12個，此時，決策程序的輸入即為感測距離D1-D12、第一位置座標P1、第一二維線速度V1及第一角速度W1。因此，決策程序的輸入維度即為16維。在此，決策程序輸出之第二移動資訊MD2包括第二二維線速度V2與第二角速度W2。

在一些實施例中，移動決策電路20將第一二維線速度V1歸一化在區間(0, 1)且將第一角速度W1歸一化在區間(-1, 1)，但本案不以此為限。

移動決策電路20在執行決策程序後，移動決策電路20將第二移動資訊MD2設定為下一輪決策程序的第一移動資訊MD1。

控制電路30配置為依據第二移動資訊MD2驅動移動裝置40從第一位置座標P1移動至第二位置座標P2。在控制電路30依據第二移動資訊MD2驅動移動裝置40從第一位置座標P1移動至第二位置座標P2後，移動決策電路20將第二位置座標P2設定為下一輪決策程序的第一位置座標P1。

移動裝置40用以於被控制電路30驅動時，從第一位置座標P1移動至第二位置座標P2。在一些實施例中，移動裝置40可為但不限於一底盤。

在一些實施例中，移動裝置40依據第二移動資訊MD2之第二二維線速度V2及第二角速度W2以固定頻率從第一位置座標P1移動至第二位置座標P2。在一些實施例中，固定頻率可為但不限於10Hz。

圖3為適用於機器人1之導航方法之一實施例的流程圖。請參閱圖1及圖3。移動決策電路20設定第一位置座標P1及第一移動資訊MD1的初始值，亦即將第一位置座標設定為初始座標，將第一移動資訊設定為初始移動資訊(步驟S01)。多個距離感測器10分別朝不同方向量測多個感測距離D1-D12(步驟S02)。移動決策電路20執行決策程序，決策程序係輸入多個感測距離D1-D12、第一位置座標P1及第一移動資訊MD1至神經網路模型M1，以獲得神經網路模型M1輸出第二移動資訊MD2(步驟S03)。移動決策電路20輸出第二移動資訊MD2後，移動決策電路20將第二移動資訊MD2設定為下一輪決策程序的第一移動資訊MD1(步驟S04)並將第二移動資訊MD2傳送至控制電路30。控制電路30依據第二移動資訊MD2驅動移動裝置40，使機器人1從第一位置座標P1移動至第二位置座標P2(步驟S05)。於機器人1移動至第二位置座標P2後，控制電路30將第二位置座標P2傳送至移動決策電路20。移動決策電路20將第二位置座標P2設定為下一輪決策程序的第一位置座標P1(步驟S06)並判斷第二位置座標P2與終點座標是否大於或等於閾值(圖3未示)。若第二位置座標P2與終點座標大於或等於閾值，機器人1重複執行步驟S02至步驟S06直至第二位置座標P2與終點座標之距離小於閾值。當第二位置座標P2與終點座標之距離小於閾值時，即為抵達終點。在一些實施例中，閾值可依照需求設定，例如為50公分。

在一些實施例中，步驟S04的執行順序不必然在步驟步驟S05及步驟S06之前。在一些實施例中，步驟S04可於步驟S06之後執行。在一些實施例中，步驟S04可於步驟S05之後且於步驟S06之前執行。

圖4為機器人1之另一實施例的方塊示意圖。圖5為適用於機器人1之導航方法之另一實施例的流程圖。請參閱圖4及圖5。在一些實施例中，機器人1更包含濾波電路50，耦接於移動決策電路20及控制電路30之間，濾波電路50配置為平滑化第二移動資訊MD2(步驟S07)。步驟S07執行順序在步驟S03之後且在步驟S04至步驟S06之前。換言之，移動決策電路20設定為下一輪決策程序的第一移動資訊MD1之第二移動資訊MD2及控制電路30驅動移動裝置40所依據之第二移動資訊MD2皆為經濾波電路50平滑化的第二移動資訊MD2。在一些實施例中，濾波電路50可為但不限於一擴展卡曼濾波器(Extended Kalman Filter)。

圖6為神經網路模型之一實施例的方塊示意圖。請參閱圖6。在一些實施例中，神經網路模型M1包含行為網路（Actor network）M11及評價網路（Critic network）M12。行為網路M11配置為依據多個感測距離D1-D12、第一位置座標P1及第一移動資訊MD1，決策出第二移動資訊MD2。評價網路M12配置為依據多個感測距離D1-D12、第一位置座標P1、第一移動資訊MD1及行為網路M11決策的第二移動資訊MD2，輸出評價值Q。

行為網路M11將多個感測距離D1-D12、第一位置座標P1及第一移動資訊MD1所組成之16維資訊作為輸入，經由兩個具有512個輸出神經元之神經層，取得一個線性整流(ReLU)函數之輸出。行為網路M11將此線性整流函數之輸出，輸入一個具有1個輸出神經元之神經層，以取得一個S型函數(Sigmoid)之輸出，並經由另一個具有1個輸出神經元之神經層，以取得一個雙曲正切函數(Tanh)之輸出。S型函數之輸出即為第二二維線速度V2，雙曲正切函數之輸出即為第二角速度W2。

評價網路M12之輸入同樣包括多個感測距離D1-D12、第一位置座標P1及第一移動資訊MD1所組成之16維資訊，此外評價網路M12之輸入還包括從行為網路M11所取得之第二移動資訊MD2。16維輸入資訊經由一個具有512個輸出神經元之神經層，取得一個線性整流函數之輸出。評價網路M12將此線性整流函數之輸出及第二移動資訊MD2，輸入至兩個具有512個輸出神經元之神經層，以取得另一個線性整流函數之輸出(下稱第二線性整流函數輸出)。評價網路M12將第二線性整流函數輸出，經由一個具有一個輸出神經元之神經層，以取得一個線性(Linear)函數之輸出，此線性函數之輸出即為評價值Q。

評價值Q為評價網路M12於每輪決策程序所得之獎勵值R之加權和。獎勵值R之公式為：

當第二位置座標P2與終點座標之距離d _p2-end小於閾值th時，評價網路M12設定獎勵值R為R _arrive，R _arrive為一正值。當第二位置座標P2進入限制區域RA所涵蓋之座標範圍，即機器人1接觸到限制區域RA時，評價網路M12設定獎勵值R為R _collision，R _collision為負值。除上述兩條件之外，評價網路M12依據前一輪的決策程序輸出的第二移動資訊MD2和本輪決策程序輸出的第二移動資訊MD2計算出前一輪的決策程序之移動距離d _t-1及本輪的決策程序之移動距離d _t，評價網路M12將機器人1對應兩輪之決策程序之移動距離的變化量d _t-1-d _t乘上第一參數C ₁並減去第二參數C ₂以取得獎勵值R。換言之，若決策程序的輪次（即動作次數）需要越多，則評價值Q會不斷遞減，評價網路M12以此鼓勵決策程序以更少的輪次（即動作次數）使機器人1到達終點。在一些實施例中，第二參數C ₂可為但不限於0.1。

圖7為機器人1於密閉空間S1之路線之一實施例的示意圖。請參閱圖6及圖7。在一些實施例中，限制區域RA包含實體障礙物O1及虛擬牆VW。如圖7所示，機器人1當於密閉空間S1無虛擬牆VW時，機器人1會經由路徑R2抵達終點END，於經由路徑R2抵達終點END之過程中，若機器人1碰撞到實體障礙物O1時，即機器人1接觸到限制區域RA時，評價網路M12即設定獎勵值R為負值。機器人1於使用者於密閉空間S1增加虛擬牆VW時，機器人1會經由路徑R1抵達終點END。於經由路徑R1抵達終點END之過程中，若機器人1碰撞到實體障礙物O1或虛擬牆VW時，即機器人1接觸到限制區域RA時，評價網路M12即設定獎勵值R為負值。在一些實施例中，使用者可於環境中自行增加虛擬牆VW影響機器人1之路徑。

綜上所述，在一些實施例中，機器人1無需地圖的建立，可於陌生環境，進行路徑導引。移動決策電路20僅以多個感測距離D1-D12、第一位置座標P1及第一移動資訊MD1作為神經網路模型M1之輸入，大幅降低輸入資料複雜度，減少訓練困難的問題。評價網路M12在評價值Q加入遞減值，鼓勵決策程序以更少的輪次抵達終點，降低神經網路模型M1輸出之不穩定性。透過濾波電路50平滑化神經網路模型M1輸出之第二移動資訊MD2，降低機器人1四處衝撞的機率。

雖然本案的技術內容已經以較佳實施例揭露如上，然其並非用以限定本案，任何熟習此技藝者，在不脫離本案之精神所作些許之更動與潤飾，皆應涵蓋於本案的範疇內，因此本案之保護範圍當視後附之申請專利範圍所界定者為準。

1:機器人

10:距離感測器

20:移動決策電路

30:控制電路

40:移動裝置

D1-D12:感測距離

M1:神經網路模型

MD1:第一移動資訊

MD2:第二移動資訊

V1:第一二維線速度

W1:第一角速度

V2:第二二維線速度

W2:第二角速度

P1:第一位置座標

P2:第二位置座標

S01~S06:步驟

50:濾波電路

S07:步驟

M11:行為網路

M12:評價網路

Q:評價值

S1:密閉空間

O1:障礙物

VW:虛擬牆

R1:第一路線

R2:第二路線

END:終點

圖1為機器人之一實施例的方塊示意圖。圖2為機器人的多個距離感測器之位置之一實施例的示意圖。圖3為適用於機器人之導航方法之一實施例的流程圖。圖4為機器人之另一實施例的方塊示意圖。圖5為適用於機器人之導航方法之另一實施例的流程圖。圖6為神經網路模型之一實施例的方塊示意圖。圖7為機器人於密閉空間之路線之一實施例的示意圖。