TWI758828B - 具有自我學習能力的智慧型驅動裝置 - Google Patents
具有自我學習能力的智慧型驅動裝置 Download PDFInfo
- Publication number
- TWI758828B TWI758828B TW109128323A TW109128323A TWI758828B TW I758828 B TWI758828 B TW I758828B TW 109128323 A TW109128323 A TW 109128323A TW 109128323 A TW109128323 A TW 109128323A TW I758828 B TWI758828 B TW I758828B
- Authority
- TW
- Taiwan
- Prior art keywords
- neural network
- connection port
- trajectory
- network module
- switching signal
- Prior art date
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/39—Robotics, robotics to robotics hand
- G05B2219/39298—Trajectory learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Automation & Control Theory (AREA)
- Image Analysis (AREA)
- Manipulator (AREA)
Abstract
一種具有自我學習能力的智慧型驅動裝置,具有:一第一類神經網路模組,用以對一輸入影像進行一對應動作評估運算以產生至少一組軌跡座標;一切換單元,係依一切換信號作動,當該切換信號處於作用狀態時,其一第一連接埠會將接收到之資料傳送至一第二連接埠,且當該切換信號處於不作用狀態時,該第一連接埠會將接收到之資料傳送至一第三連接埠;一第二類神經網路模組,用以在該切換信號處於該作用狀態時對所述至少一組軌跡座標進行一對應影像評估運算以產生至少一個模擬的軌跡影像;以及一驅動單元,具有一機器手臂,用以在該切換信號處於該不作用狀態時使該機器手臂依所述至少一組軌跡座標產生至少一個對應的運動軌跡。
Description
本發明係關於智慧型驅動裝置,尤指一種具有自我學習能力的智慧型驅動裝置。
近年來,為了進一步提升工、商業的生產效率,人們已經投入了大量的精力對人腦的認知進行建模以提供具備人工智慧的驅動裝置。
一般人工智慧驅動裝置所採用的假設生成模型大多是基於概率而建立的,然而,事實上人腦的計算是基於神經元,因此,一般人工智慧驅動裝置的能力仍有很大的改進空間。
為解決上述的問題,本領域亟需一種具有自我學習能力的智慧型驅動裝置。
本發明之主要目的在於提供一種智慧型驅動裝置,其可藉由一輔助AI模組模仿一硬體驅動裝置的(輸入,輸出)的表現,再利用該輔助AI模組加速一主AI模組的訓練過程,以使該智慧型驅動裝置具備自我學習的能力。
為達成上述目的,一種具有自我學習能力的智慧型驅動裝置乃被提出,其具有:
一第一類神經網路模組,用以對一輸入影像進行一對應動作評估運算以產生至少一組軌跡座標;
一切換單元,具有一第一連接埠、一第二連接埠及一第三連接埠,且其係依一切換信號作動,其中,該第一連接埠係用以接收所述至少一組軌跡座標,當該切換信號處於作用狀態時,該第一連接埠會將接收到之資料傳送至該第二連接埠,且當該切換信號處於不作用狀態時,該第一連接埠會將接收到之資料傳送至該第三連接埠;
一第二類神經網路模組,用以在該切換信號處於該作用狀態時對所述至少一組軌跡座標進行一對應影像評估運算以產生至少一個模擬的軌跡影像;以及
一驅動單元,具有一機器手臂,用以在該切換信號處於該不作用狀態時使該機器手臂依所述至少一組軌跡座標產生至少一個對應的運動軌跡。
在一實施例中,所述之具有自我學習能力的智慧型驅動裝置進一步具有一使用者操作介面,該使用者操作介面具有一學習啟用圖框供使用者按壓,且當該學習啟用圖框被按壓時,該使用者操作介面會使該切換信號處於該作用狀態。
在一實施例中,該第二類神經網路模組內部的複數個加權係數係利用該驅動單元的複數組(所述軌跡座標,所述運動軌跡)進行一第一深度學習訓練而得。
在一實施例中,該第一類神經網路模組內部的複數個加權係數的更新方式為:該第一類神經網路模組與該第二類神經網路模組連結並利用複數組(所述輸入影像,所述模擬的軌跡影像)進行一第二深度學習訓練,且在進行該第二深度學習訓練的過程中只調整該第一類神經網路模組內部的所述複數個加權係數而不調整該第二類神經網路模組內部的所述複數個加權係數。
在一實施例中,該輸入影像係一書法字帖。
請參照圖1,其繪示本發明之具有自我學習能力的智慧型驅動裝置之一實施例的方塊圖。如圖1所示,一智慧型驅動裝置100具有一第一類神經網路模110、一切換單元120、一第二類神經網路模組130、一驅動單元140及一使用者操作介面150。
第一類神經網路模組110係用以對一輸入影像IMGIN進行一對應動作評估運算以產生至少一組軌跡座標COOR,其中,輸入影像IMGIN可為一書法字帖。
切換單元120具有一第一連接埠A、一第二連接埠B及一第三連接埠C,且其係依一切換信號SW作動,其中,第一連接埠A係用以接收所述至少一組軌跡座標COOR,當切換信號SW處於作用狀態時,第一連接埠A會將接收到之資料傳送至第二連接埠B,且當切換信號SW處於不作用狀態時,第一連接埠A會將接收到之資料傳送至第三連接埠C。
第二類神經網路模組130係用以在切換信號SW處於該作用狀態時對所述至少一組軌跡座標COOR進行一對應影像評估運算以產生至少一個模擬的軌跡影像IMGSM,其中,第二類神經網路模組130內部的複數個加權係數係利用驅動單元140的複數組(所述軌跡座標,所述運動軌跡)進行一第一深度學習訓練而得。
驅動單元140具有一機器手臂,用以在切換信號SW處於該不作用狀態時使該機器手臂依所述至少一組軌跡座標COOR產生至少一個對應的運動軌跡TR。
使用者操作介面150具有一學習啟用圖框(未示於圖中)供使用者按壓,且當該學習啟用圖框被按壓時,使用者操作介面150會輸出一更新信號UPDATE至第一類神經網路模組110並使切換信號SW處於該作用狀態以啟動一更新程序。
在該更新程序中,第一類神經網路模組內部110的複數個加權係數的更新方式為:第一類神經網路模組110與第二類神經網路模組130連結並利用複數組(所述輸入影像,所述模擬的軌跡影像)進行一第二深度學習訓練,且在進行該第二深度學習訓練的過程中只調整第一類神經網路模組110內部的所述複數個加權係數而不調整第二類神經網路模組130內部的所述複數個加權係數。另外,在進行該第二深度學習訓練的過程中,可在所述輸入影像與所述模擬的軌跡影像的像素灰階均方根差小於一閾值時停止訓練。
以下將以該輸入影像為一書法字帖的情境詳細說明本發明的原理。
本發明所提出的假設生成模型係由假設模型和評估模型兩部分組成。當這兩個模型相互作用時,系統能夠根據歷史經驗生成假設以解決複雜的任務,以驗證所提出的假設生成的可行性。以下展示了一個虛擬機器人及其認知系統,該機器人可以學習如何在模擬環境中寫中國書法,其包括通過一認知框架進行圖像到動作的翻譯,以學習漢字的模式,亦即其係通過根據人類寫作樣本進行思考和練習來完成複雜的動作。
近年來,人工智能(AI)已在許多領域極大地影響了人類的生活,例如安全性,自動化,自動系統,人臉識別,對象識別,市場分析等。為了適應不斷變化的環境的設備,機器和機器人需要深刻的思考和復雜的感知才能處理不確定性並做出正確的決定,因此,通用人工智能(AGI)成為重要的話題。AGI是一種強大的AI,它試圖對人類的認知和人類思維進行建模,而AGI內核的關鍵要素之一就是認知系統。
認知心理學包括推理,記憶和知覺等幾個部分,其中,假設生成模型是一個重要的研究主題,用於推理人類如何根據歷史經驗通過產生可能的狀態來做出決策來解決問題。在假設生成結構中,決策者需要世界的實際狀態以糾正當前狀態錯誤時的行為。事實上,習知的假設生成模型都是基於概率的,然而,人腦的計算卻是基於神經元而不是基於計算概率,因此本發明乃提出一種基於神經元的假設生成模型,稱為假設生成網,以對人類認知進行建模,包括如何制定決策和如何執行動作。
在過去的幾年中,深度神經網絡取得了一系列突破,它們廣泛用於圖像分類,對象檢測以及語音合成或圖像翻譯。AE(Autoencoder;自動編碼器)是一種自動學習和提取特徵的無監督學習神經網絡。AE的隱藏層由編碼器和解碼器兩部分組成。編碼器的目的是壓縮將輸入到一組潛在向量中,然後,這些潛在向量可以由解碼器處理以重建輸入。傳統AE通常用於降維或特徵提取。近年來,AE已廣泛應用於生成圖像,包括轉換圖片顏色,去除水印,對圖像進行降噪等。
結果,人們對自動編碼器進行了各種類型的研究,例如變化自動編碼器,去噪自動編碼器,稀疏自動編碼器等。無監督學習中的另一種相關方法是生成對抗網絡[GAN],它利用鑑別器模型將輸出圖像分類為“真實”或“偽造”,並利用生成器模型生成“偽造”圖像,鑑別器模型無法將其與“真實”圖像區分開。GANs模型的啟發許多後續的圖像合成工作,例如DCGAN和Deepfake算法,可以在視頻或圖像中將一個人的臉與另一個人的臉互換。受AE和GAN的啟發,這是一個基於神經元的假設生成模型。通過深度學習實現,提出的假設生成模型具有通過基於歷史經驗進行練習來學習和生成假設的能力,解決了圖像到動作翻譯的問題。
為了驗證所提出的假設生成模型的可行性,本發明展示了一個虛擬機器人及其認知系統,該虛擬機器人可以通過思考和練習從人類書寫樣本中學習如何在模擬環境中書寫中國書法。需要極其複雜的動作的任務是著重於改變毛筆的速度,壓力,強度,方向和角度來書寫美學書法。對於設計人員來說,分析不同字符的筆劃是很複雜的挑戰:需要良好的技巧來良好地書寫漢字,用力或輕按畫筆會分別使漢字的筆觸變粗或變細;此外,旋轉角度和操縱畫筆的時間也很重要。面對挑戰,已經有研究集中在中國書法寫作機器人的發展。在需要執行的任務中,大多數基於圖像的研究都利用3軸向量[x,y,z]來控制機器人寫中國書法,因為以6軸[x,y,z,滾動,俯仰,偏擺]書寫中國書法的運動計劃對機器人而言是複雜的任務。直觀地做法是通過書法字符的輪廓和粗細從中國書法字符中提取位置分量[x,y,z]。然而,筆刷的方向和傾斜度計算起來卻是複雜得多,因為中國書法文字可以用許多不同的動作來書寫。也就是說,不同的動作可以達到相同的筆跡效果,動作與筆跡結果之間的關係不是一對一的映射關係,而是多對一的映射函數。通過機器視覺操作很簡單,方向和傾斜順序的組合對於書寫筆來說非常多,因此很難通過直接使用人類書寫樣本來生成書寫筆的滾動,俯仰和偏擺坐標。 鑑於上述困難,因此本發明的目標是通過模擬環境將擬議的基於神經元的假設生成模型應用於虛擬機器人系統,其中虛擬機器人及其認知系統可以學習和思考如何書寫漢字。
要建立一個人工的認知系統來模擬假設生成過程,深層神經網絡的每個神經元都非常重要。通過連接多個神經元,本發明可以構建一個模擬人腦結構的系統來履行推理和判斷的功能。如果沒有假設生成過程,系統將無法理解周圍環境且無法自行學習。有鑑於此,本發明乃利用深度神經網絡來實現假設生成過程,以模擬人類的心理學習過程來完成不同類型的任務。
其中H是假設的完整集合,h,h'∈H,d是傳感器輸入,P(h | d)是後驗輸入,P(h | d)是假設h的後驗概率,P(h )表示其先驗概率,P(d | h)表示假設h下的感覺輸入數據的可能性,由於H是假設的完整集合,因此在許多情況下不可能生成假設的整個空間。馬爾可夫鏈蒙特卡羅(MCMC)方法可以通過以下公式(2)來幫助近似後驗概率:
然而,人腦中的計算單位是神經元,即決策,記憶和知覺均來自中樞神經系統。儘管許多研究支持將MCMC也可以用神經科學解釋為皮層迴路,但這一假設是由人產生的。實際上,所有的假設都來自人腦中的神經計算,因此本發明乃提出利用神經網絡架構對假設生成過程進行建模。
AE是Ballard首次提出的一種無監督學習方法,該方法用於通過編碼器將輸入壓縮為潛在向量,該潛在向量通常表示數據的重要部分。然後,解碼器利用潛向量重構輸入數據,將輸入與輸出進行比較,根據損失函數學習編碼器和解碼器的權重。請參照圖2,其給出了自動編碼器的原理示意圖。
Goodfellow等人引入了GANs,它們是用於通過對抗過程訓練生成模型的深層神經網絡架構。GANs由兩個網絡組成,即生成器網絡
G和鑑別器網絡
D。先驗噪聲分佈和鑑別器
D被訓練來區分樣本是來自真實數據分佈還是來自生成器的分佈。然後通過最小化
訓練生成器以使其與鑑別器D競爭,從而使鑑別器無法區分樣本是真實數據還是生成器數據。
假設生成模型
本發明的基於神經元的假設生成模型係通過神經網絡實現,且本發明的虛擬機器人可藉由假設生成模型學習如何寫中國書法,且其方式不是使用自上而下的策略來學習中國書法,而是利用自下而上的策略來構建學習的認知體系。請參照圖3,其展示了本發明所提出的用於機器人系統的假設生成模型的架構,其中,該模型係由假設模型和評估模型兩部分組成,假設模型根據過去儲存的經驗進行假設以在DNN1中解決問題;評估模型的功能則是判斷該假設。虛擬機器人將觀察到的結果儲存在DNN2中,以便虛擬機器人在將來回憶起結果和歷史經驗以幫助DNN1藉由判斷DNN先前的假設產生一新的假設。
例如,當本發明需要虛擬機器人來撿瓶子時,假設模型會生成一個動作向量作為控制電機的角度,然後閉合開關s1,以便虛擬機器人可以執行從DNN1接收到的動作向量。 然後,評估模型通過關閉開關s2將結果和假設儲存在DNN2中。
如果觀察到的向量
O
t 不是“撿個瓶子”,則該假設模型需要根據歷史經驗來做出新的假設。要創建新的假設,本發明通過閉合開關s3連接DNN1,從而生成下一個假設。儲存歷史經驗的DNN2有助於計算向量
m
t 和預期的觀察向量
間之誤差的梯度以僅更新DNN1。此更新定律與GAN的生成器更新類似,但此體系結構代表了各種機器人系統的通用形式。通過多次迭代,本發明根據優化準則
儲存了最佳假設。在此須特別指出的是,我們不知道動作向量和任務“撿瓶子”之間的關係,因為虛擬機器人會自己思考和學習該概念。
基於假設生成模型的虛擬機器人卷積系統控制
假設生成網的按圖書寫機器人
如果不預先設置坐標,中國書法作品對機器人將是一個巨大的挑戰。即使使用計算機視覺,仍然很難計算出機器人要達到的6軸坐標[x,y,z,滾動,俯仰,偏擺]。通過圖像處理可以知道二維坐標[x,y]與中國書法圖像之間的關係,但是其他坐標[z,滾動,俯仰,偏擺]則仍然很難設計,因此本發明所提出假設生成模型以便虛擬機器人可以思考和學習如何弄清楚中國書法的書寫方法。為了避免在真實環境中學習中國書法的耗時過程,本發明使用了虛擬機器人,請參照圖4a-4d,其為本發明虛擬機器人模擬筆刷書寫過程的示意圖。
另外,在此實施例中本發明使用了無旋轉軸的五軸簡化形式
,而不是使用六軸[x,y,z,滾動,俯仰,偏擺]的形式來描述笛卡爾坐標、旋轉角度和毛筆的傾斜角度,這是因為毛筆在書寫中國書法時很少旋轉。向量[
X ,Y]代表笛卡爾坐標,[Z]是垂直軸坐標以表示漢字的粗、細。向量
控製筆刷的旋轉和傾斜,這兩個因素會深刻影響中國書法的美學效果。圖4a和4b分別顯示了毛筆旋轉θ和傾斜
的示意圖。 圖4c和4d分別顯示了筆刷在模擬環境中根據坐標
寫入字符的示意圖。
書法網模型
機器人書法系統的假設生成模型的體系結構如圖5所示。首先,本發明利用快速稀疏算法從人類書寫樣本的漢字筆劃中提取數據。根據筆劃的軌跡將原始圖像分成幾個感興趣的區域(ROI)圖像。選擇ROI圖像的數量作為骨架點的數量。寫入過程中的每個ROI對應[
X ,Y] 由筆劃坐標給出。另一方面,可以通過訓練Writer Net來獲得與ROI圖像相對應的每個坐標
。通過使用坐標[
X ,Y]和
,可以通過虛擬機器人系統觀察寫入結果。然後,本發明通過虛擬機器人書寫的模擬圖像訓練估計器網絡(Estimator Net)以記憶和識別虛擬機器人系統的結果,然後,將書寫網絡(Writer Net)和估計器網絡(Estimator Net)連接為假設生成網,並鎖定估計器網絡來訓練書寫網絡以最大程度地減少原始圖像和估計器網絡儲存的圖像之間的損失。學習過程將在k1次迭代(用於優化Writer Net的優化)和k2次迭代(以優化Estimator Net的優化)之間交替進行。繼續優化此訓練模式,直到模擬圖像變得非常接近原始圖像。通過估計器網絡和書寫網絡之間的相互作用,他們可以同時進行以完成假設生成過程以獲得更準確的坐標來書寫中國書法。 Writer Net和Estimator Net的損失函數分別顯示為:
其中
R定義為ROI,
l是筆劃軌跡的長度。
被定義為根據書寫方向對骨架數據進行排序的函數。函數
代表書寫網絡,其根據ROI圖像輸出3維坐標
。函數
是虛擬的機器人系統,其根據坐標
輸出書寫結果。
代表估算器網絡,其根據坐標
輸出圖像。本發明利用均方根差(MSE)衡量書寫結果的性能。將估算器網絡
擬合到虛擬機器人系統
,本發明可以獲得
和
的均方根差
。須注意的是,估計器網絡的書寫結果需盡可能接近人類書寫樣本。如此,本發明可以獲得估計器網絡
和
之間的均方根差
。如此,通過最小化損失函數即可更新估計器網絡和書寫網絡。
為了幫助讀者更好地理解該方案,圖6繪示了一個偽代碼來說明所提出的假設生成模型的總體過程。
書寫網絡和估算器網絡
本發明的書寫網絡的詳細體系結構如表I所示,其由11個權重層組成,寫入書寫網絡的輸入樣本為20x20灰度圖像,所有捲積層均具有3x3濾波器和ReLu激活。在卷積層之後是步幅為2的最大池化層以降低資料擷取量。當上一層為最大池化層時,要素圖的數量加倍,以從較高維度的數據輸入中提取要素。丟棄層設置為因為本發明的輸入書寫樣本是筆劃圖像的ROI圖像,所以執行了表I中的LSTM和RNN。由於書寫過程是連續的,因此這些ROI圖像彼此相關。
表I
層 | 類型 | 濾波器/步幅 | 輸出尺寸 |
1 | 輸入圖像 | 20x20x1 | |
2 | 卷積和ReLU | 3x3/1 | 20x20x128 |
3 | 卷積和ReLU | 3x3/1 | 20x20x128 |
4 | 卷積和ReLU | 3x3/1 | 20x20x128 |
5 | 最大池化 | 2x2/2 | 10x10x128 |
6 | 卷積和ReLU | 3x3/1 | 10x10x128 |
7 | 卷積和ReLU | 3x3/1 | 10x10x256 |
8 | 卷積和ReLU | 3x3/1 | 20x20x256 |
9 | 最大池化 | 2x2/2 | 5x5x256 |
10 | 卷積和ReLU | 3x3/1 | 5x5x512 |
11 | 卷積和ReLU | 3x3/1 | 5x5x512 |
12 | 卷積和ReLU | 3x3/1 | 5x5x512 |
13 | 丟棄(50%) | ||
14 | LSTM | 1x1x1024 | |
15 | RNN | 1x1x3 |
圖7a和7b分別顯示了右下降筆劃及其軌跡,圖7c顯示了ROI塊以及筆劃軌跡,這表明每個圖像都與相鄰圖像有很強的聯繫和因果關係。此外,每個圖像的對應坐標
的分佈須平滑且柔和地變化。如果狀態接近,則筆刷的角度不能急劇變化。然後,使用LSTM和RNN來抑制
的變化。
估算器網絡的體系結構如表II所示,該結構由14個權重層組成。輸入向量是3維坐標
。卷積層還具有3×3濾波器並具有ReLu激活功能。轉置卷積層用於步幅為2的高檔次;丟棄層也設置為百分之五十;然後,使用兩個完全連接的層將特徵提取到最終400個輸出節點以獲得20×20的圖像。
表II
層 | 類型 | 濾波器/步幅 | 輸出尺寸 |
1 | 輸入 | 1x1x3 | |
2 | 完全連接 | 1x1x512 | |
3 | LSTM | 1x1x1024 | |
4 | 完全連接 | 1x1x12800 | |
5 | 卷積和ReLU | 3x3/1 | 5x5x512 |
6 | 卷積和ReLU | 3x3/1 | 5x5x512 |
7 | 卷積和ReLU | 3x3/2 | 10x10x512 |
8 | 卷積和ReLU | 3x3/1 | 10x10x256 |
9 | 卷積和ReLU | 3x3/1 | 10x10x256 |
10 | 卷積和ReLU | 3x3/2 | 20x20x256 |
11 | 卷積和ReLU | 3x3/1 | 20x20x512 |
12 | 卷積和ReLU | 3x3/1 | 20x20x512 |
13 | 轉置卷積和ReLU | 3x3/2 | 40x40x512 |
14 | 丟棄(50%) | ||
15 | 完全連接 | 1x1x1024 | |
16 | 完全連接 | 1x1x400 |
模擬結果
本發明在3.70 GHz的Intel Xeon CPU E3-1246 v6和具有32GB內存的NVIDIA GeForce GTX 1080 Ti上進行了實驗,為避免花費過多的時間訓練機械臂來書寫中國書法,本發明構建如圖3所示的機器人模擬環境。圖8繪示本發明的虛擬機器人模擬漢字書寫的過程。如圖8所示,左側圖片框“輸入圖像”顯示人類書寫的漢字筆劃,中間圖片框“模擬圖像”顯示虛擬機器人的書寫結果。圖片框“角度”顯示了畫筆的當前狀態。當前的5軸坐標也顯示在圖8的右側。除了“輸入圖像”以外,當模擬環境接收到書寫網絡的輸出時,所有其他框會同時更新狀態。網絡攝像頭捕獲的中國書法筆劃的圖像大小為200x200,然後將其轉換為灰階圖像作為輸入。
另外,該實驗是在Python 3.6下進行的,該Python使用Keras庫和NVIDIA CUDA 9.0庫計算Tensorflow後端以進行並行計算。均方根差(MSE)用於衡量假設生成網絡的性能。本發明使用均方根prop(RMSProp)為優化器。圖9a展示了漢字“永”的八個理想筆劃。圖9b和9c展示了書寫網絡和估計器網絡訓練八個筆劃的過程。 圖9b所示的圖像是由書寫網絡繪製的,它可以預測坐標。書寫網絡通過模擬系統模擬了機械臂可以繪製的相似圖像。圖9c顯示了估計器網絡根據書寫網絡提供的坐標所產生的圖像。最初,估計器網絡根據與書寫網絡的坐標極不相同的坐標生成圖像,然後逐漸地,估計器網絡的結果會越來越接近書寫網絡所書寫的漢字而使書寫網絡產生的坐標越來越接近理想的目標,而這個過程即模擬了人類的學習過程。亦即,在人類的學習過程中,人類先基於一學習任務產生一行為, 接著,將行為結果儲存在大腦中並予以分析以在下一次執行相同動作時,從先前的行為結果獲取經驗以做出更好的動作。
另外,藉由結合一些筆劃,本發明就可以形成一個完整的漢字。圖10a繪示一人類書寫的漢字“永”,圖10b繪示本發明之虛擬機器人在第1代模擬的書寫結果,圖10c繪示本發明之虛擬機器人在第50代模擬的書寫結果,圖10d繪示本發明之虛擬機器人在第100代模擬的書寫結果,圖10e繪示本發明之虛擬機器人的最佳書寫結果。如圖10a-10e所示,其包括8個筆劃。圖11a-11d繪示人類基於該些筆劃書寫的“永”、“寸”、“大”、“江”等四個漢字;而圖11e-11h繪示本發明之虛擬機器人基於該些筆劃書寫的“永”、“寸”、“大”、“江”等四個漢字的模擬結果。
由上述的說明可知本發明具有下列優點:
本發明的智慧型驅動裝置可藉由一輔助AI模組模仿一硬體驅動裝置的(輸入,輸出)的表現,再利用該輔助AI模組加速一主AI模組的訓練過程,以使該智慧型驅動裝置具備自我學習的能力。
必須加以強調的是,前述本案所揭示者乃為較佳實施例,舉凡局部之變更或修飾而源於本案之技術思想而為熟習該項技藝之人所易於推知者,俱不脫本案之專利權範疇。
綜上所陳,本案無論目的、手段與功效,皆顯示其迥異於習知技術,且其首先發明合於實用,確實符合發明之專利要件,懇請 貴審查委員明察,並早日賜予專利俾嘉惠社會,是為至禱。
100:智慧型驅動裝置
110:第一類神經網路模組
120:切換單元
130:第二類神經網路模組
140:驅動單元
150:使用者操作介面
圖1繪示本發明之具有自我學習能力的智慧型驅動裝置之一實施例的方塊圖。
圖2繪示一自動編碼器的原理示意圖。
圖3繪示本發明所提出的用於機器人系統之一假設生成模型的架構。
圖4a-4d,其為本發明虛擬機器人模擬筆刷書寫過程的示意圖。
圖5繪示本發明所提出的機器人書法系統的假設生成模型的結構。
圖6繪示了一個偽代碼來說明本發明所提出的假設生成模型的總體過程。
圖7a和7b分別顯示了一右下降筆劃及其軌跡,圖7c顯示了右下降筆劃的複數個ROI圖像。
圖8繪示本發明的虛擬機器人模擬漢字書寫的過程。
圖9a展示了漢字“永”的八個理想筆劃,圖9b和9c展示了本發明的書寫網絡和估計器網絡訓練八個筆劃的過程。
圖10a繪示一人類書寫的漢字“永”,圖10b繪示本發明之虛擬機器人在第1代模擬的書寫結果,圖10c繪示本發明之虛擬機器人在第50代模擬的書寫結果,圖10d繪示本發明之虛擬機器人在第100代模擬的書寫結果,以及圖10e繪示本發明之虛擬機器人的最佳書寫結果。
圖11a-11d繪示人類書寫的“永”、“寸”、“大”、“江”等四個漢字;而圖11e-11h繪示本發明之虛擬機器人書寫的“永”、“寸”、“大”、“江”等四個漢字的模擬結果。
100:智慧型驅動裝置
110:第一類神經網路模組
120:切換單元
130:第二類神經網路模組
140:驅動單元
150:使用者操作介面
Claims (3)
- 一種具有自我學習能力的智慧型驅動裝置,其具有:一第一類神經網路模組,用以對一輸入影像進行一對應動作評估運算以產生至少一組軌跡座標;一切換單元,具有一第一連接埠、一第二連接埠及一第三連接埠,且其係依一切換信號作動,其中,該第一連接埠係用以接收所述至少一組軌跡座標,當該切換信號處於作用狀態時,該第一連接埠會將接收到之資料傳送至該第二連接埠,且當該切換信號處於不作用狀態時,該第一連接埠會將接收到之資料傳送至該第三連接埠;一第二類神經網路模組,用以在該切換信號處於該作用狀態時對所述至少一組軌跡座標進行一對應影像評估運算以產生至少一個模擬的軌跡影像;以及一驅動單元,具有一機器手臂,用以在該切換信號處於該不作用狀態時使該機器手臂依所述至少一組軌跡座標產生至少一個對應的運動軌跡;其中,所述軌跡座標係由[X,Y,Z]三維空間座標、旋轉角度和傾斜角度所組成之五維座標;以及該第二類神經網路模組內部的複數個加權係數係利用該驅動單元的複數組(所述軌跡座標,所述運動軌跡)進行一第一深度學習訓練而得,且該第一類神經網路模組內部的複數個加權係數的更新方式為:該第一類神經網路模組與該第二類神經網路模組連結並利用複數組(所述輸入影像,所述模擬的軌跡影像)進行一第二深度學習訓練,且在進行該第二深度學習訓練的過程中只調整該第一類神經網路模組內部的所述複數個加權係數而不調整該第二類神經網路模組內部的所述複數個加權係數。
- 如申請專利範圍第1項所述之具有自我學習能力的智慧型驅動裝置,其進一步具有一使用者操作介面,該使用者操作介面具有一學習啟用圖框供使用者按壓,且當該學習啟用圖框被按壓時,該使用者操作介面會使該切換信號處於該作用狀態。
- 如申請專利範圍第1項所述之具有自我學習能力的智慧型驅 動裝置,其中,該輸入影像係一書法字帖。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109128323A TWI758828B (zh) | 2020-08-19 | 2020-08-19 | 具有自我學習能力的智慧型驅動裝置 |
US17/039,148 US11673263B2 (en) | 2020-08-19 | 2020-09-30 | Self-learning intelligent driving device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109128323A TWI758828B (zh) | 2020-08-19 | 2020-08-19 | 具有自我學習能力的智慧型驅動裝置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202209257A TW202209257A (zh) | 2022-03-01 |
TWI758828B true TWI758828B (zh) | 2022-03-21 |
Family
ID=80269352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109128323A TWI758828B (zh) | 2020-08-19 | 2020-08-19 | 具有自我學習能力的智慧型驅動裝置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11673263B2 (zh) |
TW (1) | TWI758828B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11611355B2 (en) * | 2020-06-22 | 2023-03-21 | Tencent America LLC | Techniques for parameter set and header design for compressed neural network representation |
CN116304655B (zh) * | 2022-09-06 | 2024-07-05 | 北京百度网讯科技有限公司 | 策略模型获取及参数调整方法、装置及存储介质 |
GR1010720B (el) * | 2023-05-19 | 2024-07-03 | Αριστοτελειο Πανεπιστημιο Θεσσαλονικης - Ειδικος Λογαριασμος Κονδυλιων Ερευνας, | Μεθοδος και συστημα καθοδηγησης ρομποτικου βραχιονα για αυτονομη εκτελεση εργασιων λαβης και τοποθετησης αντικειμενων με προσαρμοστικοτητα |
CN117863182B (zh) * | 2024-01-22 | 2024-10-11 | 睿尔曼智能科技(北京)有限公司 | 一种基于图像处理的机械臂精细控制方法、装置及机械臂 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111185902A (zh) * | 2019-12-30 | 2020-05-22 | 深圳市越疆科技有限公司 | 基于视觉识别的机器人文字书写方法、装置和书写系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10664722B1 (en) * | 2016-10-05 | 2020-05-26 | Digimarc Corporation | Image processing arrangements |
US11474519B2 (en) * | 2018-02-26 | 2022-10-18 | Nvidia Corporation | Systems and methods for computer-assisted shuttles, buses, robo-taxis, ride-sharing and on-demand vehicles with situational awareness |
US12076119B2 (en) * | 2018-04-26 | 2024-09-03 | Vektor Medical, Inc. | Bootstrapping a simulation-based electromagnetic output of a different anatomy |
US11561251B2 (en) * | 2018-08-01 | 2023-01-24 | Florida Power & Light Company | Remote autonomous inspection of utility system components utilizing drones and rovers |
US11507105B2 (en) * | 2019-06-27 | 2022-11-22 | Sensable Inc. | Method and system for using learning to generate metrics from computer vision-derived video data |
KR20190107614A (ko) * | 2019-09-02 | 2019-09-20 | 엘지전자 주식회사 | 이벤트 발생 시간 이용한 사용자 프로파일링 방법 |
CA3177901C (en) * | 2020-06-01 | 2024-01-02 | Ido Merkado | Systems and methods for retail environments |
US20220261593A1 (en) * | 2021-02-16 | 2022-08-18 | Nvidia Corporation | Using neural networks to perform object detection, instance segmentation, and semantic correspondence from bounding box supervision |
-
2020
- 2020-08-19 TW TW109128323A patent/TWI758828B/zh active
- 2020-09-30 US US17/039,148 patent/US11673263B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111185902A (zh) * | 2019-12-30 | 2020-05-22 | 深圳市越疆科技有限公司 | 基于视觉识别的机器人文字书写方法、装置和书写系统 |
Non-Patent Citations (2)
Title |
---|
網路文獻韕Ningyuan Zheng, Yifan Jiang & Dingjiang Huang韕"STROKENET: A NEURAL PAINTING ENVIRONMENT"韕 韕 韕International Conference on Learning Representations (ICLR)韕2019/05韕 韕https://openreview.net/forum?id=HJxwDiActX * |
網路文獻韕Ningyuan Zheng, Yifan Jiang & Dingjiang Huang韕"STROKENET: A NEURAL PAINTING ENVIRONMENT"韕 韕 韕International Conference on Learning Representations (ICLR)韕2019/05韕 韕https://openreview.net/forum?id=HJxwDiActX |
Also Published As
Publication number | Publication date |
---|---|
US20220055211A1 (en) | 2022-02-24 |
US11673263B2 (en) | 2023-06-13 |
TW202209257A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI758828B (zh) | 具有自我學習能力的智慧型驅動裝置 | |
Caetano et al. | Skeleton image representation for 3D action recognition based on tree structure and reference joints | |
Tsironi et al. | An analysis of convolutional long short-term memory recurrent neural networks for gesture recognition | |
Zhang et al. | On geometric features for skeleton-based action recognition using multilayer lstm networks | |
Sun et al. | Lattice long short-term memory for human action recognition | |
Soo Kim et al. | Interpretable 3d human action analysis with temporal convolutional networks | |
Li et al. | A two-stream neural network for pose-based hand gesture recognition | |
Elgammal et al. | Tracking people on a torus | |
Sincan et al. | Using motion history images with 3d convolutional networks in isolated sign language recognition | |
Jaswanth et al. | A novel based 3D facial expression detection using recurrent neural network | |
Weber et al. | Robot docking with neural vision and reinforcement | |
CN106066996A (zh) | 人体动作的局部特征表示方法及其在行为识别的应用 | |
Xu et al. | Face expression recognition based on convolutional neural network | |
Zhang et al. | Handsense: smart multimodal hand gesture recognition based on deep neural networks | |
Wagner et al. | Answering visual what-if questions: From actions to predicted scene descriptions | |
CN109711356A (zh) | 一种表情识别方法和系统 | |
CN110555383A (zh) | 一种基于卷积神经网络和3d估计的手势识别方法 | |
Yang et al. | Group behavior recognition using attention-and graph-based neural networks | |
Liu et al. | Real-time robotic mirrored behavior of facial expressions and head motions based on lightweight networks | |
Wang et al. | Deep learning-based hypothesis generation model and its application on virtual Chinese calligraphy-writing robot | |
Gu et al. | Online teaching gestures recognition model based on deep learning | |
Alizadeh Kolagar et al. | NAO robot learns to interact with humans through imitation learning from video observation | |
Fernández | Development of a hand pose recognition system on an embedded computer using Artificial Intelligence | |
Piekniewski et al. | Unsupervised learning from continuous video in a scalable predictive recurrent network | |
Chen et al. | Dynamic gesture design and recognition for human-robot collaboration with convolutional neural networks |