TWI815613B - 適用於機器人之導航方法及其機器人 - Google Patents
適用於機器人之導航方法及其機器人 Download PDFInfo
- Publication number
- TWI815613B TWI815613B TW111130840A TW111130840A TWI815613B TW I815613 B TWI815613 B TW I815613B TW 111130840 A TW111130840 A TW 111130840A TW 111130840 A TW111130840 A TW 111130840A TW I815613 B TWI815613 B TW I815613B
- Authority
- TW
- Taiwan
- Prior art keywords
- movement information
- decision
- robot
- position coordinate
- making
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000003062 neural network model Methods 0.000 claims abstract description 26
- 238000011156 evaluation Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 23
- 230000003542 behavioural effect Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims 3
- 230000000875 corresponding effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000001537 neural effect Effects 0.000 description 6
- 210000004205 output neuron Anatomy 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000012886 linear function Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/20—Control system inputs
- G05D1/24—Arrangements for determining position or orientation
- G05D1/242—Means based on the reflection of waves generated by the vehicle
- G05D1/2424—Means based on the reflection of waves generated by the vehicle for monitoring a plurality of zones
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0094—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots involving pointing a payload, e.g. camera, weapon, sensor, towards a fixed or moving target
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/40—Control within particular dimensions
- G05D1/43—Control of position or course in two dimensions
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/60—Intended control result
- G05D1/617—Safety or protection, e.g. defining protection zones around obstacles or avoiding hazards
- G05D1/622—Obstacle avoidance
- G05D1/628—Obstacle avoidance following the obstacle profile, e.g. a wall or undulated terrain
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D2101/00—Details of software or hardware architectures used for the control of position
- G05D2101/10—Details of software or hardware architectures used for the control of position using artificial intelligence [AI] techniques
- G05D2101/15—Details of software or hardware architectures used for the control of position using artificial intelligence [AI] techniques using machine learning, e.g. neural networks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D2111/00—Details of signals used for control of position, course, altitude or attitude of land, water, air or space vehicles
- G05D2111/60—Combination of two or more signals
- G05D2111/63—Combination of two or more signals of the same type, e.g. stereovision or optical flow
- G05D2111/65—Combination of two or more signals of the same type, e.g. stereovision or optical flow taken successively, e.g. visual odometry or optical flow
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Manipulator (AREA)
- Numerical Control (AREA)
Abstract
一種適用於機器人之導航方法包含:(a)設定第一位置座標及第一移動資訊;(b)經由多個距離感測器分別朝不同方向量測多個感測距離;(c)輸入多個感測距離、第一位置座標及第一移動資訊至神經網路模型,以獲得第二移動資訊;(d)將第二移動資訊設定為下一輪決策程序的第一移動資訊;(e)依據第二移動資訊,使機器人從第一位置座標移動至第二位置座標;(f)將第二位置座標設定為下一輪決策程序的第一位置座標;及(g)重複執行步驟(b)至(f)直至第二位置座標與終點座標之距離小於閾值。本案更提供一種適用於機器人導航方法之機器人。
Description
本案是關於機器人導航,特別是一種使機器人在陌生環境能有一定決策能力且大幅降低輸入資料複雜度之適用於機器人之導航方法及其機器人。
傳統機器人導航,必需先使機器人詳細移動到使用區域的各個地點,利用光學雷達(Lidar)或視覺即時定位與地圖建構系統(Visual SLAM)建立使用區域的地圖。將地圖儲存後,下次開啟SLAM時即可對機器人目前位置進行定位,指定地圖內的任一點,利用導航演算法規劃行徑路線使機器人抵達終點。以上過程均需奠基於地圖的建立,若無地圖則無法進行導航。
若是在陌生環境,想強行進行目標路徑導引,大多使用Lidar或深度相機確認機器人與周圍環境的相關距離,以傳統演算法或強化學習的方式,不斷探索各種方向的行走可能性。然而,強化學習相關演算法常有因輸入資料複雜且不確定性高而訓練困難的問題,導致抵達終點的時間大幅拉長並且會多走許多額外不必要的路徑。
在一實施例中,一種適用於機器人之導航方法,此機器人具有多個距離感測器及移動裝置。於此,導航方法包含:(a)設定第一位置座標及第一移動資訊,其中第一位置座標為初始座標,第一移動資訊為初始移動資訊;(b)經由多個距離感測器分別朝不同方向量測多個感測距離;(c)執行決策程序,決策程序係輸入多個感測距離、第一位置座標及第一移動資訊至神經網路模型,以獲得神經網路模型輸出第二移動資訊;(d)將第二移動資訊設定為下一輪決策程序的第一移動資訊;(e)依據第二移動資訊,驅動移動裝置,使機器人從第一位置座標移動至第二位置座標;(f)將第二位置座標設定為下一輪決策程序的第一位置座標及(g)重複執行步驟(b)至(f)直至第二位置座標與終點座標之距離小於閾值。
在一實施例中,一種機器人包含多個距離感測器、移動決策電路、移動裝置及控制電路。多個距離感測器配置為分別朝不同方向量測多個感測距離。移動決策電路配置為重複執行決策程序,決策程序係輸入多個感測距離、第一位置座標及第一移動資訊至神經網路模型,以獲得神經網路模型輸出第二移動資訊。控制電路配置為依據第二移動資訊驅動移動裝置從第一位置座標移動至第二位置座標。其中,當移動決策電路初次執行決策程序時,將第一位置座標設定為初始座標,並將第一移動資訊設定為初始移動資訊。其中,在執行決策程序後,移動決策電路將第二移動資訊設定為下一輪決策程序的第一移動資訊。其中,在控制電路依據第二移動資訊驅動移動裝置從第一位置座標移動至第二位置座標後,移動決策電路將第二位置座標設定為下一輪決策程序的第一位置座標。
以下在實施方式中詳細敘述本案之詳細特徵以及優點,其內容足以使任何熟習相關技藝者瞭解本案之技術內容並據以實施,且根據本說明書所揭露之內容、申請專利範圍及圖式,任何熟習相關技藝者可輕易地理解本案相關之目的及優點。
圖1為機器人1之一實施例的方塊示意圖。請參閱圖1。機器人1包含多個距離感測器10、移動決策電路20、控制電路30及移動裝置40。多個距離感測器10耦接於移動決策電路20,控制電路30耦接於移動決策電路20及移動裝置40。
圖2為機器人1的多個距離感測器10之位置之一實施例的示意圖。請參閱圖1及圖2。多個距離感測器10配置為分別朝四周不同方向量測感測距離。每一距離感測器10量測得在一方向上相對於一最接近物體的一感測距離。舉例而言,多個距離感測器10的數量為12個,而可量測出感測距離D1-D12。在一些實施例中,距離感測器10可為但不限於一超音波感測器。
在一些實施例中,多個距離感測器10平均分布於機器人1之四周以取得機器人1朝不同方向之多個感測距離。
移動決策電路20配置為重複執行決策程序,每一次執行決策程序時,可以依據當前的狀態資訊來決策出用以執行下一步動作的移動資訊(後稱第二移動資訊MD2)。所述狀態資訊可包括多個感測距離D1-D12、位置座標及移動資訊(後稱第一移動資訊MD1)。詳言之,決策程序係輸入多個感測距離D1-D12、第一位置座標P1及第一移動資訊MD1至神經網路模型M1,以獲得神經網路模型M1輸出第二移動資訊MD2。在一些實施例中,神經網路模型M1為用以進行動作決策的神經網路模型,例如一深度確定性策略梯度演算法(Deep Deterministic Policy Gradient)模型。
移動決策電路20初次執行決策程序時,移動決策電路20將第一位置座標P1設定為初始座標並將第一移動資訊MD1設定為初始移動資訊。
在一些實施例中,第一移動資訊MD1包括第一二維線速度V1與第一角速度W1。初始移動資訊包括初始二維線速度與初始角速度。決策程序的輸入維度由多個感測距離、第一位置座標P1、第一二維線速度V1及第一角速度W1決定。舉例而言,若多個感測距離的數量為12個,此時,決策程序的輸入即為感測距離D1-D12、第一位置座標P1、第一二維線速度V1及第一角速度W1。因此,決策程序的輸入維度即為16維。在此,決策程序輸出之第二移動資訊MD2包括第二二維線速度V2與第二角速度W2。
在一些實施例中,移動決策電路20將第一二維線速度V1歸一化在區間(0, 1)且將第一角速度W1歸一化在區間(-1, 1),但本案不以此為限。
移動決策電路20在執行決策程序後,移動決策電路20將第二移動資訊MD2設定為下一輪決策程序的第一移動資訊MD1。
控制電路30配置為依據第二移動資訊MD2驅動移動裝置40從第一位置座標P1移動至第二位置座標P2。在控制電路30依據第二移動資訊MD2驅動移動裝置40從第一位置座標P1移動至第二位置座標P2後,移動決策電路20將第二位置座標P2設定為下一輪決策程序的第一位置座標P1。
移動裝置40用以於被控制電路30驅動時,從第一位置座標P1移動至第二位置座標P2。在一些實施例中,移動裝置40可為但不限於一底盤。
在一些實施例中,移動裝置40依據第二移動資訊MD2之第二二維線速度V2及第二角速度W2以固定頻率從第一位置座標P1移動至第二位置座標P2。在一些實施例中,固定頻率可為但不限於10Hz。
圖3為適用於機器人1之導航方法之一實施例的流程圖。請參閱圖1及圖3。移動決策電路20設定第一位置座標P1及第一移動資訊MD1的初始值,亦即將第一位置座標設定為初始座標,將第一移動資訊設定為初始移動資訊(步驟S01)。多個距離感測器10分別朝不同方向量測多個感測距離D1-D12(步驟S02)。移動決策電路20執行決策程序,決策程序係輸入多個感測距離D1-D12、第一位置座標P1及第一移動資訊MD1至神經網路模型M1,以獲得神經網路模型M1輸出第二移動資訊MD2(步驟S03)。移動決策電路20輸出第二移動資訊MD2後,移動決策電路20將第二移動資訊MD2設定為下一輪決策程序的第一移動資訊MD1(步驟S04)並將第二移動資訊MD2傳送至控制電路30。控制電路30依據第二移動資訊MD2驅動移動裝置40,使機器人1從第一位置座標P1移動至第二位置座標P2(步驟S05)。於機器人1移動至第二位置座標P2後,控制電路30將第二位置座標P2傳送至移動決策電路20。移動決策電路20將第二位置座標P2設定為下一輪決策程序的第一位置座標P1(步驟S06)並判斷第二位置座標P2與終點座標是否大於或等於閾值(圖3未示)。若第二位置座標P2與終點座標大於或等於閾值,機器人1重複執行步驟S02至步驟S06直至第二位置座標P2與終點座標之距離小於閾值。當第二位置座標P2與終點座標之距離小於閾值時,即為抵達終點。在一些實施例中,閾值可依照需求設定,例如為50公分。
在一些實施例中,步驟S04的執行順序不必然在步驟步驟S05及步驟S06之前。在一些實施例中,步驟S04可於步驟S06之後執行。在一些實施例中,步驟S04可於步驟S05之後且於步驟S06之前執行。
圖4為機器人1之另一實施例的方塊示意圖。圖5為適用於機器人1之導航方法之另一實施例的流程圖。請參閱圖4及圖5。在一些實施例中,機器人1更包含濾波電路50,耦接於移動決策電路20及控制電路30之間,濾波電路50配置為平滑化第二移動資訊MD2(步驟S07)。步驟S07執行順序在步驟S03之後且在步驟S04至步驟S06之前。換言之,移動決策電路20設定為下一輪決策程序的第一移動資訊MD1之第二移動資訊MD2及控制電路30驅動移動裝置40所依據之第二移動資訊MD2皆為經濾波電路50平滑化的第二移動資訊MD2。在一些實施例中,濾波電路50可為但不限於一擴展卡曼濾波器(Extended Kalman Filter)。
圖6為神經網路模型之一實施例的方塊示意圖。請參閱圖6。在一些實施例中,神經網路模型M1包含行為網路(Actor network)M11及評價網路(Critic network)M12。行為網路M11配置為依據多個感測距離D1-D12、第一位置座標P1及第一移動資訊MD1,決策出第二移動資訊MD2。評價網路M12配置為依據多個感測距離D1-D12、第一位置座標P1、第一移動資訊MD1及行為網路M11決策的第二移動資訊MD2,輸出評價值Q。
行為網路M11將多個感測距離D1-D12、第一位置座標P1及第一移動資訊MD1所組成之16維資訊作為輸入,經由兩個具有512個輸出神經元之神經層,取得一個線性整流(ReLU)函數之輸出。行為網路M11將此線性整流函數之輸出,輸入一個具有1個輸出神經元之神經層,以取得一個S型函數(Sigmoid)之輸出,並經由另一個具有1個輸出神經元之神經層,以取得一個雙曲正切函數(Tanh)之輸出。S型函數之輸出即為第二二維線速度V2,雙曲正切函數之輸出即為第二角速度W2。
評價網路M12之輸入同樣包括多個感測距離D1-D12、第一位置座標P1及第一移動資訊MD1所組成之16維資訊,此外評價網路M12之輸入還包括從行為網路M11所取得之第二移動資訊MD2。16維輸入資訊經由一個具有512個輸出神經元之神經層,取得一個線性整流函數之輸出。評價網路M12將此線性整流函數之輸出及第二移動資訊MD2,輸入至兩個具有512個輸出神經元之神經層,以取得另一個線性整流函數之輸出(下稱第二線性整流函數輸出)。評價網路M12將第二線性整流函數輸出,經由一個具有一個輸出神經元之神經層,以取得一個線性(Linear)函數之輸出,此線性函數之輸出即為評價值Q。
評價值Q為評價網路M12於每輪決策程序所得之獎勵值R之加權和。獎勵值R之公式為:
當第二位置座標P2與終點座標之距離d
p2-end小於閾值th時,評價網路M12設定獎勵值R為R
arrive,R
arrive為一正值。當第二位置座標P2進入限制區域RA所涵蓋之座標範圍,即機器人1接觸到限制區域RA時,評價網路M12設定獎勵值R為R
collision,R
collision為負值。除上述兩條件之外,評價網路M12依據前一輪的決策程序輸出的第二移動資訊MD2和本輪決策程序輸出的第二移動資訊MD2計算出前一輪的決策程序之移動距離d
t-1及本輪的決策程序之移動距離d
t,評價網路M12將機器人1對應兩輪之決策程序之移動距離的變化量d
t-1-d
t乘上第一參數C
1並減去第二參數C
2以取得獎勵值R。換言之,若決策程序的輪次(即動作次數)需要越多,則評價值Q會不斷遞減,評價網路M12以此鼓勵決策程序以更少的輪次(即動作次數)使機器人1到達終點。在一些實施例中,第二參數C
2可為但不限於0.1。
圖7為機器人1於密閉空間S1之路線之一實施例的示意圖。請參閱圖6及圖7。在一些實施例中,限制區域RA包含實體障礙物O1及虛擬牆VW。如圖7所示,機器人1當於密閉空間S1無虛擬牆VW時,機器人1會經由路徑R2抵達終點END,於經由路徑R2抵達終點END之過程中,若機器人1碰撞到實體障礙物O1時,即機器人1接觸到限制區域RA時,評價網路M12即設定獎勵值R為負值。機器人1於使用者於密閉空間S1增加虛擬牆VW時,機器人1會經由路徑R1抵達終點END。於經由路徑R1抵達終點END之過程中,若機器人1碰撞到實體障礙物O1或虛擬牆VW時,即機器人1接觸到限制區域RA時,評價網路M12即設定獎勵值R為負值。在一些實施例中,使用者可於環境中自行增加虛擬牆VW影響機器人1之路徑。
綜上所述,在一些實施例中,機器人1無需地圖的建立,可於陌生環境,進行路徑導引。移動決策電路20僅以多個感測距離D1-D12、第一位置座標P1及第一移動資訊MD1作為神經網路模型M1之輸入,大幅降低輸入資料複雜度,減少訓練困難的問題。評價網路M12在評價值Q加入遞減值,鼓勵決策程序以更少的輪次抵達終點,降低神經網路模型M1輸出之不穩定性。透過濾波電路50平滑化神經網路模型M1輸出之第二移動資訊MD2,降低機器人1四處衝撞的機率。
雖然本案的技術內容已經以較佳實施例揭露如上,然其並非用以限定本案,任何熟習此技藝者,在不脫離本案之精神所作些許之更動與潤飾,皆應涵蓋於本案的範疇內,因此本案之保護範圍當視後附之申請專利範圍所界定者為準。
1:機器人
10:距離感測器
20:移動決策電路
30:控制電路
40:移動裝置
D1-D12:感測距離
M1:神經網路模型
MD1:第一移動資訊
MD2:第二移動資訊
V1:第一二維線速度
W1:第一角速度
V2:第二二維線速度
W2:第二角速度
P1:第一位置座標
P2:第二位置座標
S01~S06:步驟
50:濾波電路
S07:步驟
M11:行為網路
M12:評價網路
Q:評價值
S1:密閉空間
O1:障礙物
VW:虛擬牆
R1:第一路線
R2:第二路線
END:終點
圖1為機器人之一實施例的方塊示意圖。
圖2為機器人的多個距離感測器之位置之一實施例的示意圖。
圖3為適用於機器人之導航方法之一實施例的流程圖。
圖4為機器人之另一實施例的方塊示意圖。
圖5為適用於機器人之導航方法之另一實施例的流程圖。
圖6為神經網路模型之一實施例的方塊示意圖。
圖7為機器人於密閉空間之路線之一實施例的示意圖。
1:機器人
10:距離感測器
20:移動決策電路
30:控制電路
40:移動裝置
D1-D12:感測距離
M1:神經網路模型
MD1:第一移動資訊
MD2:第二移動資訊
V1:第一二維線速度
W1:第一角速度
V2:第二二維線速度
W2:第二角速度
P1:第一位置座標
P2:第二位置座標
Claims (10)
- 一種適用於一機器人之導航方法,該機器人具有多個距離感測器及一移動裝置,該導航方法包含: (a)設定一第一位置座標及一第一移動資訊,其中該第一位置座標為一初始座標,該第一移動資訊為一初始移動資訊; (b)經由該些距離感測器分別朝不同方向量測多個感測距離; (c)執行一決策程序,該決策程序係輸入該些感測距離、該第一位置座標及該第一移動資訊至一神經網路模型,以獲得該神經網路模型輸出一第二移動資訊; (d)將該第二移動資訊設定為下一輪該決策程序的該第一移動資訊; (e)依據該第二移動資訊,驅動該移動裝置,使該機器人從該第一位置座標移動至一第二位置座標; (f)將該第二位置座標設定為下一輪該決策程序的該第一位置座標;及 (g)重複執行步驟(b)至(f)直至該第二位置座標與一終點座標之距離小於一閾值。
- 如請求項1所述之導航方法,其中在步驟(c)之後且在步驟(d)至(f)之前,更包含: (c1)輸入該第二移動資訊至一濾波器,以獲得經平滑化的該第二移動資訊。
- 如請求項2所述之導航方法,其中在步驟(d)中,是將經由步驟(c1)獲得的經平滑化的該第二移動資訊設定為下一輪該決策程序的該第一移動資訊。
- 如請求項1所述之導航方法,其中該神經網路模型包含: 一行為網路,配置為依據該些感測距離、該第一位置座標、該第一移動資訊,決策出該第二移動資訊;及 一評價網路,配置為依據該些感測距離、該第一位置座標、該第一移動資訊及該行為網路決策的該第二移動資訊,輸出一評價值。
- 如請求項4所述之導航方法,其中該評價值與一獎勵值成正相關,該導航方法更包含: (a1)設定一限制區域; (a2)依據該第二位置座標判斷該機器人是否接觸該限制區域;及 (a3)若該機器人接觸該限制區域,設定該獎勵值為負值。
- 如請求項4所述之導航方法,其中該評價值與一獎勵值成正相關,該導航方法更包含: (b1)依據前一輪的該決策程序輸出的該第二移動資訊和本輪該決策程序輸出的該第二移動資訊,計算該機器人對應兩輪決策程序之移動距離的一變化量;及 (b2)依據該變化量決定該獎勵值,其中該獎勵值與該變化量成正相關。
- 如請求項1所述之導航方法,其中該神經網路模型為一深度確定性策略梯度演算法(DDPG)模型。
- 一種機器人,包含: 多個距離感測器,配置為分別朝不同方向量測多個感測距離; 一移動決策電路,配置為重複執行一決策程序,該決策程序係輸入該些感測距離、一第一位置座標及一第一移動資訊至一神經網路模型,以獲得該神經網路模型輸出一第二移動資訊; 一移動裝置;及 一控制電路,配置為依據該第二移動資訊驅動該移動裝置從該第一位置座標移動至一第二位置座標; 其中,當該移動決策電路初次執行該決策程序時,將該第一位置座標設定為一初始座標,並將該第一移動資訊設定為一初始移動資訊; 其中,在執行該決策程序後,該移動決策電路將該第二移動資訊設定為下一輪該決策程序的該第一移動資訊; 其中,在該控制電路依據該第二移動資訊驅動該移動裝置從該第一位置座標移動至該第二位置座標後,該移動決策電路將該第二位置座標設定為下一輪該決策程序的該第一位置座標。
- 如請求項8所述之機器人,更包含一濾波電路,耦接於該移動決策電路及該控制電路之間,配置為平滑化該第二移動資訊。
- 如請求項8所述之機器人,其中該神經網路模型包含: 一行為網路,配置為依據該些感測距離、該第一位置座標、該第一移動資訊,決策出該第二移動資訊;及 一評價網路,配置為依據該些感測距離、該第一位置座標、該第一移動資訊及該行為網路決策的該第二移動資訊,輸出一評價值。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111130840A TWI815613B (zh) | 2022-08-16 | 2022-08-16 | 適用於機器人之導航方法及其機器人 |
JP2023046614A JP7459337B2 (ja) | 2022-08-16 | 2023-03-23 | ロボットに適用されるナビゲーション方法及びそのロボット |
US18/319,635 US20240061426A1 (en) | 2022-08-16 | 2023-05-18 | Navigation method and robot thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111130840A TWI815613B (zh) | 2022-08-16 | 2022-08-16 | 適用於機器人之導航方法及其機器人 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI815613B true TWI815613B (zh) | 2023-09-11 |
TW202409769A TW202409769A (zh) | 2024-03-01 |
Family
ID=88966148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111130840A TWI815613B (zh) | 2022-08-16 | 2022-08-16 | 適用於機器人之導航方法及其機器人 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240061426A1 (zh) |
JP (1) | JP7459337B2 (zh) |
TW (1) | TWI815613B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150153738A1 (en) * | 2013-12-03 | 2015-06-04 | King Abdulaziz City For Science And Technology | Robotic leader-follower navigation and fleet management control method |
CN103984342B (zh) * | 2013-12-23 | 2016-04-06 | 河北师范大学 | 移动机器人的多脉冲神经网络控制器导航控制方法 |
CN106950969A (zh) * | 2017-04-28 | 2017-07-14 | 深圳市唯特视科技有限公司 | 一种基于无地图运动规划器的移动机器人连续控制方法 |
CN108762251A (zh) * | 2018-04-28 | 2018-11-06 | 南京大学 | 一种图书馆机器人定位导航方法 |
CN112004183A (zh) * | 2020-07-08 | 2020-11-27 | 武汉科技大学 | 一种基于卷积神经网络融合IMU和WiFi信息的机器人自主定位方法 |
CN112179367A (zh) * | 2020-09-25 | 2021-01-05 | 广东海洋大学 | 一种基于深度强化学习的智能体自主导航方法 |
CN113093727A (zh) * | 2021-03-08 | 2021-07-09 | 哈尔滨工业大学(深圳) | 一种基于深度安全强化学习的机器人无地图导航方法 |
TW202134681A (zh) * | 2020-03-11 | 2021-09-16 | 國立陽明交通大學 | 人員室內定位與移動機器人對特定人員追蹤互動之系統及其方法 |
JP6977093B2 (ja) * | 2019-03-27 | 2021-12-08 | エルジー エレクトロニクス インコーポレイティドLg Electronics Inc. | 移動ロボットの制御方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005316759A (ja) | 2004-04-28 | 2005-11-10 | Mitsubishi Heavy Ind Ltd | 移動体の障害物回避方法及び該移動体 |
JP7360792B2 (ja) | 2018-12-27 | 2023-10-13 | 株式会社ダイヘン | 移動体、学習器、及び学習器製造方法 |
-
2022
- 2022-08-16 TW TW111130840A patent/TWI815613B/zh active
-
2023
- 2023-03-23 JP JP2023046614A patent/JP7459337B2/ja active Active
- 2023-05-18 US US18/319,635 patent/US20240061426A1/en active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150153738A1 (en) * | 2013-12-03 | 2015-06-04 | King Abdulaziz City For Science And Technology | Robotic leader-follower navigation and fleet management control method |
CN103984342B (zh) * | 2013-12-23 | 2016-04-06 | 河北师范大学 | 移动机器人的多脉冲神经网络控制器导航控制方法 |
CN106950969A (zh) * | 2017-04-28 | 2017-07-14 | 深圳市唯特视科技有限公司 | 一种基于无地图运动规划器的移动机器人连续控制方法 |
CN108762251A (zh) * | 2018-04-28 | 2018-11-06 | 南京大学 | 一种图书馆机器人定位导航方法 |
JP6977093B2 (ja) * | 2019-03-27 | 2021-12-08 | エルジー エレクトロニクス インコーポレイティドLg Electronics Inc. | 移動ロボットの制御方法 |
TW202134681A (zh) * | 2020-03-11 | 2021-09-16 | 國立陽明交通大學 | 人員室內定位與移動機器人對特定人員追蹤互動之系統及其方法 |
CN112004183A (zh) * | 2020-07-08 | 2020-11-27 | 武汉科技大学 | 一种基于卷积神经网络融合IMU和WiFi信息的机器人自主定位方法 |
CN112179367A (zh) * | 2020-09-25 | 2021-01-05 | 广东海洋大学 | 一种基于深度强化学习的智能体自主导航方法 |
CN113093727A (zh) * | 2021-03-08 | 2021-07-09 | 哈尔滨工业大学(深圳) | 一种基于深度安全强化学习的机器人无地图导航方法 |
Also Published As
Publication number | Publication date |
---|---|
TW202409769A (zh) | 2024-03-01 |
JP2024027082A (ja) | 2024-02-29 |
US20240061426A1 (en) | 2024-02-22 |
JP7459337B2 (ja) | 2024-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111587408B (zh) | 机器人导航和对象跟踪 | |
Liu et al. | Robot navigation in crowded environments using deep reinforcement learning | |
CN107450593B (zh) | 一种无人机自主导航方法和系统 | |
Botteghi et al. | On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach | |
KR102303126B1 (ko) | 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템 | |
KR102303432B1 (ko) | 장애물의 특성을 고려한 dqn 및 slam 기반의 맵리스 내비게이션 시스템 및 그 처리 방법 | |
EP4137997B1 (en) | Methods and system for goal-conditioned exploration for object goal navigation | |
Sivaranjani et al. | Artificial Potential Field Incorporated Deep-Q-Network Algorithm for Mobile Robot Path Prediction. | |
CN114485673B (zh) | 基于深度强化学习的服务机器人人群感知导航方法及系统 | |
TWI815613B (zh) | 適用於機器人之導航方法及其機器人 | |
Quinones-Ramirez et al. | Robot path planning using deep reinforcement learning | |
Doellinger et al. | Environment-aware multi-target tracking of pedestrians | |
CN111984000A (zh) | 用于自动影响执行器的方法和设备 | |
Cimurs et al. | Information-based heuristics for learned goal-driven exploration and mapping | |
Yi et al. | Bayesian robot localization using spatial object contexts | |
CN113910221B (zh) | 一种机械臂自主运动规划方法、装置、设备及存储介质 | |
Botteghi et al. | Entropy-based exploration for mobile robot navigation: a learning-based approach | |
Dubey et al. | SNAP: Successor entropy based incremental subgoal discovery for adaptive navigation | |
CN114859940A (zh) | 机器人移动控制方法、装置、设备以及存储介质 | |
Han et al. | A novel navigation scheme in dynamic environment using layered costmap | |
JP2023051421A (ja) | 移動体制御装置、移動体、学習装置、学習方法、および、プログラム | |
CN114563011A (zh) | 一种用于无地图导航的主动听觉定位方法 | |
Li et al. | Q-learning based method of adaptive path planning for mobile robot | |
JP7459238B2 (ja) | ユーザ選好による強化学習基盤の自律走行最適化方法およびシステム | |
bin Kamarulariffin et al. | Improving Deep Reinforcement Learning Training Convergence using Fuzzy Logic for Autonomous Mobile Robot Navigation. |