TW202219895A - 辨識系統及其圖資擴增與訓練方法 - Google Patents
辨識系統及其圖資擴增與訓練方法 Download PDFInfo
- Publication number
- TW202219895A TW202219895A TW109138988A TW109138988A TW202219895A TW 202219895 A TW202219895 A TW 202219895A TW 109138988 A TW109138988 A TW 109138988A TW 109138988 A TW109138988 A TW 109138988A TW 202219895 A TW202219895 A TW 202219895A
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- training
- images
- identification system
- identification
- Prior art date
Links
- 238000012549 training Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000003416 augmentation Effects 0.000 title claims abstract description 21
- 238000013434 data augmentation Methods 0.000 claims abstract description 16
- 230000007613 environmental effect Effects 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims description 12
- 230000003190 augmentative effect Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 9
- 230000036544 posture Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 239000000463 material Substances 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 2
- 238000009499 grossing Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G06T5/70—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Abstract
一種辨識系統及其圖資擴增與訓練方法。辨識系統之圖資擴增與訓練方法包括以下步驟。獲得數個圖資畫面。各個圖資畫面包括一物件圖像。獲得數個環境圖像。自各個圖資畫面分割出物件圖像。設定數個圖資參數。基於物件圖像與環境圖像,依據此些圖資參數,進行此些圖資畫面的擴增,以增加此些圖資畫面之數量。以此些圖資畫面,訓練一辨識模型。
Description
本揭露是有關於一種辨識系統及其圖資擴增與訓練方法。
隨著人工智慧的發展,各種物件得以透過辨識系統進行辨識,以使物件能夠導入例如無人販售場域。然而,物件的種類眾多,在訓練辨識模型時,需要耗費大量人力與時間來取得足夠的訓練圖資,並進行物件標註。如此一來,辨識系統難以進行即時應用。
此外,經過拍攝所取得之訓練圖資僅能夠局限於某些特定的背景環境。在辨識系統的實際應用上,背景環境的差異會造成辨識精準度的降低。
本揭露係有關於一種辨識系統及其圖資擴增與訓練方法。
根據本揭露之一實施例,提出一種辨識系統之圖資擴增與訓練方法。辨識系統之圖資擴增與訓練方法包括以下步驟。獲得數個圖資畫面,各個圖資畫面包括一物件圖像。獲得數個環境圖像。自各個圖資畫面分割出物件圖像。設定數個圖資參數。基於物件圖像與環境圖像,依據此些圖資參數,進行此些圖資畫面的擴增,以增加此些圖資畫面之數量。以此些圖資畫面,訓練一辨識模型。
根據本揭露之另一實施例,提出一種辨識系統。辨識系統包括一影像處理裝置及一模型建立裝置。影像處理裝置包括一影像擷取單元、一分割單元及一參數設定單元。影像擷取單元用以獲得數個圖資畫面,並獲得數個環境圖像。各個圖資畫面包括一物件圖像。分割單元用以自各個圖資畫面分割出物件圖像。參數設定單元用以設定數個圖資參數。模型建立裝置包括一圖資擴增單元及一訓練單元。圖資擴增單元用以基於物件圖像與環境圖像,依據此些圖資參數,進行此些圖資畫面的擴增,以增加此些圖資畫面之數量。訓練單元用以依據此些圖資畫面,訓練一辨識模型。
為了對本揭露之上述及其他方面有更佳的瞭解,下文特舉實施例,並配合所附圖式詳細說明如下:
請參照第1圖,其繪示根據一實施例之辨識系統1000之方塊圖。辨識系統1000包括一影像處理裝置100、一模型建立裝置200及一驗證裝置300。影像處理裝置100用以進行圖資畫面FM的擷取與處理。圖資畫面FM包括物件圖像OP與環境圖像EP。模型建立裝置200則是用以進行圖資畫面FM的擴增與辨識模型MD的訓練。驗證裝置300則是用以進行訓練結果與辨識成效的驗證。本實施例透過適應性的圖資擴增技術來增加圖資畫面FM的數量,並且在圖資擴增過程對物件圖像OP與環境圖像EP都做了各種不同的設定,豐富了圖資畫面FM的變化性。因此,藉由少量的圖資畫面FM即可訓練出準確度高的辨識模型MD。
影像處理裝置100、模型建立裝置200及驗證裝置300例如是攝像機、顯示裝置、電路、晶片、電路板、電腦或儲存程式碼之儲存裝置等。影像處理裝置100、模型建立裝置200及驗證裝置300可以是三個不同的裝置;或者,影像處理裝置100、模型建立裝置200及驗證裝置300可以整併為兩個或一個裝置。
影像處理裝置100包括一影像擷取單元110、一分割單元130及一參數設定單元140。模型建立裝置200包括一圖資擴增單元210、一分布調整單元220、一訓練單元230及一資料庫240。驗證裝置300包括一訓練判定單元310、一應用單元320及一成效判定單元330。影像擷取單元110例如是攝像機、資料輸入裝置、電路、晶片、電路板、電腦或儲存程式碼之儲存裝置。分割單元130、參數設定單元140、圖資擴增單元210、分布調整單元220、訓練單元230、訓練判定單元310、應用單元320及成效判定單元330例如是電路、晶片、電路板、電腦或儲存程式碼之儲存裝置。資料庫240例如是記憶體、硬碟或雲端儲存中心。以下更搭配流程圖詳細說明上述各項元件之運作。
請參照第2圖,其繪示根據一實施例之辨識系統1000之圖資擴增與訓練方法的流程圖。步驟S110~S140係為影像擷取與處理程序PD1。在步驟S110中,影像擷取單元110獲得數個圖資畫面FM。各個圖資畫面FM包括至少一物件圖像OP及一環境圖像EP。在此步驟中,影像擷取單元110係依據不同姿態及/或不同角度進行拍攝,以獲得此些圖資畫面FM。舉例來說,請參照第3圖,其繪示影像擷取單元110對實體物件OB以站立姿態進行8種角度的拍攝。請參照第4圖,其繪示影像擷取單元110對實體物件OB以平躺姿態進行8種角度的拍攝。在變化角度時,可以是實體物件OB自轉,也可以是影像擷取單元110以實體物件OB為中心公轉。影像擷取單元110係依據不同姿態及/或不同角度進行拍攝,可以拍攝到實體物件OB於各種面向的各種物件圖像OP。實際上,畫面中欲辨識的物件可能會以不同姿態及/或不同角度呈現,故這些不同面向的物件圖像OP可以提升辨識模型MD的精準度。
接著,在步驟S120中,影像擷取單元110獲得數個環境圖像EP。環境圖像EP中可不含有物件圖像OP。在此步驟中,影像擷取單元110可以對實體環境拍攝出環境圖像EP,或者以繪製之方式取得環境圖像EP。舉例來說,請參照第5圖,其繪示影像擷取單元110對無人販賣機進行拍攝。請參照第6圖,其繪示影像擷取單元110對展示平台進行拍攝。畫面中欲辨識的物件可能會出現在各種不同的環境,故這些不同的環境圖像EP可以提升辨識模型MD的精準度。
上述步驟S110、步驟S120之順序係可調換,也可同時進行。
步驟S110取得的圖資畫面FM包含了物件圖像OP。在步驟S130中,分割單元130自各個圖資畫面FM分割出物件圖像OP。舉例來說,請參照第7圖,其繪示從圖資畫面FM分割出物件圖像OP之動作示意圖。如最左側圖式所示,圖資畫面FM包含物件圖像OP及環境圖像EP。分割單元130透過邊緣偵測技術尋找出物件圖像OP之邊緣EG,並獲得一遮罩MK1。在遮罩MK1中,邊緣EG以內之保留權重為100%,邊緣EG以外之保留權重為0%。分割單元130可另對邊緣EG進行平滑化處理,以獲得遮罩MK2。遮罩MK2具有邊緣範圍RG。遮罩MK2之邊緣範圍RG係為遮罩MK1之邊緣EG擴大一定倍數之帶狀範圍。在邊緣範圍RG中,保留權重由100%朝外遞減至0%。然後,分割單元130將遮罩MK2疊合於圖資畫面FM,以保留物件圖像OP。上述邊緣範圍RG的漸進式保留權重可以平滑化物件圖像OP之邊緣,避免物件圖像OP之邊緣過於銳利而影響模型準確度。
接著,在步驟S140中,參數設定單元140設定數個圖資參數PR。圖資參數PR例如是一物件旋轉角度、一物件位置、一物件倍率、一物件疊合比例、一物件大小關係、一環境背景色彩、一取材圖像、一應用場域或一非完整性物件擴增等。請參照第8圖,其示例說明各種物件旋轉角度。物件圖像OP可以沿著X軸、Y軸或Z軸順時針或逆時針轉動某一角度。請參照第9圖,其示例說明轉動後之物件圖像OP。此步驟所轉動的是物件圖像OP。轉動的方式可以是直接對物件圖像OP進行形變,以模擬出轉動;或者可以取得三維模型後,對三維模型進行轉動後,再投影成二維的物件圖像OP。以第9圖左上角之圖式為例,物件圖像OP沿著X軸順時針轉30度時,頭部縮小且腳部放大,以使調整後的物件圖像OP模擬出實體物件OB(繪示於第3圖)沿著X軸順時針轉30度後的態樣。再以第10圖右下角之圖式為例,物件圖像OP沿著Z軸逆時針轉30度時,尺寸沒有變化,僅僅是做了圖像旋轉,以使物件圖像OP模擬出實體物件OB(繪示於第3圖)沿著Z軸逆時針轉30度後的態樣。
請參照第10圖,其示例說明各種物件位置。舉例來說,物件圖像OP可以移動至(45, 55)之座標點,或者移動至(15, 75)之座標點,或者移動至(80, 35)之座標點。在第10圖中,可同時對物件圖像OP進行了Z軸的旋轉。本實施例所舉的各種圖資參數PR均可搭配採用。
請參照第11圖,其示例說明各種物件倍率。舉例來說,物件圖像OP可以縮小倍率為0.5,或者放大倍率為1.3。倍率的縮小或放大相當於模擬出實體物件OB(繪示於第3圖)的距離遠近。
請參照第12圖,其示例說明各種物件疊合比例。舉例來說,物件圖像OP的疊合比例例如是0、0.3或0.7。疊合比例的變化相當於模擬出數個實體物件OB(繪示於第3圖)的疊合情況。
請參照第13圖,其示例說明各種物件大小關係。舉例來說,取得多個物件圖像OP時,其大小關係較佳是可匹配的,例如在相同距離下,寶特瓶應該大於易開罐。定位區域TA內的每個物件圖像OP可依參數設定單元140的參數,例如物件位置、物件倍率、物件疊合比例等,將物件於該區內調整至適合的大小關係。
請參照第14圖,其示例說明各種環境背景色彩。舉例來說,如左側圖式所示,參數設定單元140可以設定環境背景色彩為單色(如黃色(R: 238, G: 245, B: 149))。或者,如右側圖式所示,參數設定單元140可以設定環境色彩為多色階(例如是彩色的多色階或單色的多色階)。
請參照第15圖,其示例說明一種取材圖像。參數設定單元140可利用實景擷取、三原色任意比例混色、繪製或從網路上取得圖像作為取材圖像。取材圖像例如是卡通圖案、色塊組合或實景圖像等。取材圖像的變化相當於模擬實體物件OB(繪示於第3圖)位於不同的環境場景中。
請參照第16圖,其示例說明一種應用場域。應用場域例如是展示台、桌面等。參數設定單元140可以變換不同的環境圖像EP作為應用場域。應用場域的變化相當於模擬實體物件OB(繪示於第3圖)位於不同的環境。
請參照第17圖,其示例說明允許非完整性物件的擴增。如左側圖式所示,參數設定單元140可以定義物件圖像OP皆位於定位區域TA之內。或者,如右側圖式所示,參數設定單元140可以定義物件圖像OP之一部分位於定位區域TA之外。物件移出圖框程度的變化可以模擬僅拍攝到實體物件OB(繪示於第3圖)之一部分的情況。
接著,進入步驟S210~S230。步驟S210~S230係為圖資擴增與模型訓練程序PD2。在步驟S210中,圖資擴增單元210基於物件圖像OP與環境圖像EP,依據圖資參數PR,進行圖資畫面FM的擴增,以增加圖資畫面FM之數量。上述多種姿態及/或多種角度之物件圖像OP可以與各種環境圖像EP進行合成,以形成新的圖資畫面FM。或者,依據上述圖資參數PR可以調整物件圖像OP或環境圖像EP,以形成新的圖資畫面FM。擴增的圖資可模擬各種可能的情況,減少人工拍攝的動作。此外,在此步驟中,圖資擴增單元210在擴增圖資的過程中已知物件圖像OP的位置與範圍,故可在圖資畫面FM自動進行物件圖像OP之標註,而無須進行人工標註。
接著,在步驟S220中,分布調整單元220用以對這些圖資畫面FM進行分布調整,以使這些圖資畫面FM的分布均勻。請參照第18圖,其繪示根據一實施例之步驟S220之細部流程圖。在步驟S221中,分布調整單元220判斷這些圖資畫面FM之數個類型是否平衡。類型係按照不同物件圖像OP、不同環境圖像EP、不同圖資參數PR等的各種組合來界定。所謂的平衡是指各種類型的數量是否接近。若這些圖資畫面FM之類型平衡,則進入步驟S224;若這些圖資畫面FM之類型不平衡,則進入步驟S222。
在步驟S222中,分布調整單元220對圖資數量較少之類型進行圖資畫面FM的擴增。分布調整單元220可以一次僅針對一個類型進行圖資畫面FM的擴增。或者,分布調整單元220可以一次針對所有低於最高圖資數量之類型均進行圖資畫面FM的擴增。分布調整單元220透過此步驟讓各種類型的數量能夠接近。舉例來說,3種物件、3種姿態與3種環境可以組成9種類型。在多數類型的圖資數量為1050的情況下,某一類型的圖資數量為950時,則需針對此類型進行圖資畫面FM的擴增,使其圖資數量達到1050。
在步驟S224中,分布調整單元220對低於預定門檻值之類型進行圖資畫面FM的擴增。分布調整單元220透過此步驟讓各種類型的數量都能夠高於或等於預定門檻值。
接著,請同時參考第1圖與第2圖,在步驟S230中,訓練單元230依據這些圖資畫面FM,訓練辨識模型MD。辨識模型MD係可儲存於資料庫240中。
然後,進入步驟S310~S330。步驟S310~S330係為訓練結果與辨識成效的驗證程序PD3。在步驟S310中,訓練判定單元310依據辨識模型MD之一訓練產出數據,判斷辨識模型MD是否完成訓練。訓練產出數據例如是目標檢測平均精度(mean average precision, mAP)m1或一目標損失函數值(Loss error)L1等。請參照第19圖,其繪示根據一實施例之步驟S310之細部流程圖。在步驟S311中,訓練判定單元310判斷例如目標檢測平均精度m1是否大於預定百分比(例如是75%、80%、85%、90%等)。若目標檢測平均精度m1大於預定百分比,則進入步驟S312;若目標檢測平均精度m1不大於預定百分比,則繼續執行步驟S230的訓練。
在步驟S312中,訓練判定單元310判斷例如目標損失函數值L1是否小於一預定損失值(例如是0.8、0.9、1、1.1、1.2等)。若目標損失函數值L1不小於預定損失值,則繼續執行步驟S230的訓練;若目標損失函數值L1是小於預定損失值,可選擇性進入步驟S313或直接進入步驟S320。
在步驟S313中,迭代動作重複一預定次數(例如是1000次,預定次數可依需求調整之)。
在步驟S314中,訓練判定單元310判斷例如目標損失函數值L1的變化是否小於一預定倍數(例如是0.7倍、0.8倍、0.9倍等)。若目標損失函數值L1持續收斂其變化不小於預定倍數,則進入步驟S315,終止訓練。。
接著,請同時參考第1圖與第2圖,在步驟S320,確認辨識模型MD訓練成效。
接著,在步驟S330中,成效判定單元330判斷辨識模型MD是否準確。若辨識模型MD不準確,則回至步驟S220;若辨識模型MD準確,則進入步驟S350。
此外,步驟S340也可進入步驟S350。在步驟S340中,進行物件導入程序。
在步驟S350中,應用單元320應用辨識模型MD進行一辨識程序。舉例來說,應用單元320可以取得實際拍攝的一張物件影像,應用單元320應用辨識模型MD辨識出物件影像中含有某一或多個物件之機率與物件之位置與範圍。
接著,在步驟S360中,成效判定單元330判斷是否有新物件需要導入。若有新物件需要導入,則回至步驟S110,針對對應的實體物件OB擷取圖資畫面FM,並接續執行後續步驟;若沒有新物件需要導入,則回至步驟S230,訓練辨識模型MD。
也就是說,一旦發現辨識模型MD不準確,就會回至步驟S220,利用分布調整單元220對圖資畫面FM進行分布調整。例如是直接針對辨識錯誤之物件增加圖資,以使辨識模型MD對於此物件之辨識準確度能夠提高。舉例來說,分布調整單元220可以針對物件辨識錯誤的程度增加圖資30%或20%不等,以提高其辨識準確度。
一旦有新物件需要導入,就會回至步驟S110,針對新物件進行訓練。
本揭露之實施例提出一種辨識系統1000及其圖資擴增與訓練方法,其利用適應性的圖資擴增技術來增加圖資畫面FM的數量,並且在圖資擴增過程對物件圖像OP與環境圖像EP都做了各種不同的設定,豐富了圖資畫面FM的變化性。此外,利用圖資擴增與模型訓練程序PD2之分布調整技術及訓練結果與辨識成效的驗證程序PD3提高辨識模型MD的準確度。本揭露之實施例藉由少量的圖資畫面FM即可訓練出準確度高的辨識模型MD。
綜上所述,雖然本揭露已以實施例揭露如上,然其並非用以限定本揭露。本揭露所屬技術領域中具有通常知識者,在不脫離本揭露之精神和範圍內,當可作各種之更動與潤飾。因此,本揭露之保護範圍當視後附之申請專利範圍及其均等範圍所界定者為準。
1000:辨識系統
100:影像處理裝置
110:影像擷取單元
130:分割單元
140:參數設定單元
200:模型建立裝置
210:圖資擴增單元
220:分布調整單元
230:訓練單元
240:資料庫
300:驗證裝置
310:訓練判定單元
320:應用單元
330:成效判定單元
EG:邊緣
EP:環境圖像
FM:圖資畫面
L1:目標損失函數值
m1:目標檢測平均精度
MD:辨識模型
MK1,MK2:遮罩
OB:實體物件
OP:物件圖像
PD1:影像擷取與處理程序
PD2:圖資擴增與模型訓練程序
PD3:訓練結果與辨識成效的驗證程序
PR:圖資參數
RG:邊緣範圍
S110,S120,S130,S140,S210,S220,S221,S222,S23,S224,S230,S310,S311,S312,S313,S314,S315,S320,S330,S340,S350,S360:步驟
TA:定位區域
第1圖繪示根據一實施例之辨識系統之方塊圖。
第2圖繪示根據一實施例之辨識系統之圖資擴增與訓練方法的流程圖。
第3圖繪示影像擷取單元對實體物件以站立姿態進行8種角度的拍攝。
第4圖繪示影像擷取單元對實體物件以平躺姿態進行8種角度的拍攝。
第5圖繪示影像擷取單元對無人販賣機進行拍攝。
第6圖繪示影像擷取單元對展示平台進行拍攝。
第7圖繪示從圖資畫面分割出物件圖像之動作示意圖。
第8圖示例說明各種物件旋轉角度。
第9圖示例說明轉動後之物件圖像。
第10圖示例說明各種物件位置。
第11圖示例說明各種物件倍率。
第12圖示例說明各種物件疊合比例。
第13圖示例說明各種物件大小關係。
第14圖示例說明各種環境背景色彩。
第15圖示例說明一種取材圖像。
第16圖示例說明一種應用場域。
第17圖示例說明允許非完整性物件的擴增。
第18圖繪示根據一實施例之步驟S220之細部流程圖。
第19圖繪示根據一實施例之步驟S310之細部流程圖。
1000:辨識系統
100:影像處理裝置
110:影像擷取單元
130:分割單元
140:參數設定單元
200:模型建立裝置
210:圖資擴增單元
220:分布調整單元
230:訓練單元
240:資料庫
300:驗證裝置
310:訓練判定單元
320:應用單元
330:成效判定單元
EP:環境圖像
FM:圖資畫面
L1:目標損失函數值
m1:目標檢測平均精度
MD:辨識模型
OP:物件圖像
PR:圖資參數
Claims (20)
- 一種辨識系統之圖資擴增與訓練方法,包括: 獲得複數個圖資畫面,各該圖資畫面包括一物件圖像; 獲得複數個環境圖像; 自各該圖資畫面分割出該物件圖像; 設定複數個圖資參數; 基於該物件圖像與該環境圖像,依據該些圖資參數,進行該些圖資畫面的擴增,以增加該些圖資畫面之數量;以及 以該些圖資畫面,訓練一辨識模型。
- 如請求項1所述之辨識系統之圖資擴增與訓練方法,獲得該些圖資畫面之步驟中,該些圖資畫面係依據不同姿態及/或不同角度進行拍攝。
- 如請求項1所述之辨識系統之圖資擴增與訓練方法,其中該環境圖像係為虛擬環境。
- 如請求項1所述之辨識系統之圖資擴增與訓練方法,其中該些圖資參數係為一物件旋轉角度、一物件位置、一物件倍率、一物件疊合比例、一物件大小關係、一環境背景色彩、一取材圖像、一應用場域或一物件移出圖框程度。
- 如請求項1所述之辨識系統之圖資擴增與訓練方法,其中在進行該些圖資畫面之擴增的步驟中,更自動進行該些物件圖像之標註。
- 如請求項1所述之辨識系統之圖資擴增與訓練方法,更包括: 對該些圖資畫面進行分布調整。
- 如請求項6所述之辨識系統之圖資擴增與訓練方法,其中對該些圖資畫面進行分布調整之步驟包括: 判斷該些圖資畫面之複數個類型是否平衡; 若該些圖資畫面之該些類型不平衡,則對部分之該些類型進行該些圖資畫面的擴增; 判斷各該類型之數量是否達到一預定門檻值;以及 若該些類型之其中之一之數量低於該預定門檻值,則對低於該預定門檻值之該類型進行該些圖資畫面的擴增。
- 如請求項6所述之辨識系統之圖資擴增與訓練方法,更包括: 依據該辨識模型之一訓練產出數據,判斷該辨識模型是否完成訓練; 若該辨識模型完成訓練,則判斷該辨識模型是否準確;以及 若該辨識模型不準確,則再次執行對該些圖資畫面進行分布調整之步驟。
- 如請求項8所述之辨識系統之圖資擴增與訓練方法,其中判斷該辨識模型是否完成訓練之步驟包括: 判斷一目標檢測平均精度(mean average precision, mAP)是否大於一預定百分比; 若該目標檢測平均精度不大於該預定百分比,則該辨識模型未完成訓練; 判斷一目標損失函數值(Loss error)是否小於一預定損失值;以及 若該目標損失函數值不小於該預定損失值,則該辨識模型未完成訓練。
- 如請求項9所述之辨識系統之圖資擴增與訓練方法,其中判斷該辨識模型是否完成訓練之步驟更包括: 判斷該目標損失函數值的一變化是否小於一預定倍數;以及 若該目標損失函數值的該變化不小於該預定倍數,則該辨識模型未完成訓練。
- 一種辨識系統,包括: 一影像處理裝置,包括: 一影像擷取單元,用以獲得複數個圖資畫面,並獲得複數個環境圖像,各該圖資畫面包括一物件圖像; 一分割單元,用以自各該圖資畫面分割出該物件圖像;及 一參數設定單元,用以設定複數個圖資參數;以及 一模型建立裝置,包括: 一圖資擴增單元,用以基於該物件圖像與該環境圖像,依據該些圖資參數,進行該些圖資畫面的擴增,以增加該些圖資畫面之數量;及 一訓練單元,用以依據該些圖資畫面,訓練一辨識模型。
- 如請求項11所述之辨識系統,其中該影像擷取單元係依據不同姿態及/或不同角度進行拍攝,以獲得該些圖資畫面。
- 如請求項11所述之辨識系統,其中該分割單元更用以平滑化該物件圖像之邊緣。
- 如請求項11所述之辨識系統,其中該環境圖像係為虛擬環境。
- 如請求項11所述之辨識系統,其中該些圖資參數係為一物件旋轉角度、一物件位置、一物件倍率、一物件疊合比例、一物件大小關係、一環境背景色彩、一取材圖像、一應用場域或一物件移出圖框程度。
- 如請求項11所述之辨識系統,其中在該圖資擴增單元更自動進行該些物件圖像的標註。
- 如請求項11所述之辨識系統,其中該模型建立裝置更包括: 一分布調整單元,用以對該些圖資畫面進行分布調整。
- 如請求項17所述之辨識系統,其中 若該些圖資畫面之複數個類型不平衡,則該分布調整單元對部分之該些類型進行該些圖資畫面的擴增;以及 若該些類型之其中之一之數量低於一預定門檻值,則該分布調整單元對低於該預定門檻值之該類型進行該些圖資畫面的擴增。
- 如請求項17所述之辨識系統,更包括: 一驗證裝置,包括: 一訓練判定單元,用以依據該辨識模型之一訓練產出數據,判斷該辨識模型是否完成訓練; 一應用單元,用以應用該辨識模型進行一辨識程序;以及 一成效判定單元,用以判斷該辨識模型是否準確。
- 如請求項19所述之辨識系統,其中該訓練判定單元依據一目標檢測平均精度(mean average precision, mAP)及一目標損失函數值(Loss error)判斷該辨識模型是否完成訓練。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109138988A TW202219895A (zh) | 2020-11-09 | 2020-11-09 | 辨識系統及其圖資擴增與訓練方法 |
CN202011308244.8A CN114463593A (zh) | 2020-11-09 | 2020-11-19 | 辨识系统及其图资扩增与训练方法 |
US17/184,319 US11823438B2 (en) | 2020-11-09 | 2021-02-24 | Recognition system and image augmentation and training method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109138988A TW202219895A (zh) | 2020-11-09 | 2020-11-09 | 辨識系統及其圖資擴增與訓練方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202219895A true TW202219895A (zh) | 2022-05-16 |
Family
ID=81403797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109138988A TW202219895A (zh) | 2020-11-09 | 2020-11-09 | 辨識系統及其圖資擴增與訓練方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11823438B2 (zh) |
CN (1) | CN114463593A (zh) |
TW (1) | TW202219895A (zh) |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10664705B2 (en) * | 2014-09-26 | 2020-05-26 | Nec Corporation | Object tracking apparatus, object tracking system, object tracking method, display control device, object detection device, and computer-readable medium |
US11205119B2 (en) | 2015-12-22 | 2021-12-21 | Applied Materials Israel Ltd. | Method of deep learning-based examination of a semiconductor specimen and system thereof |
US9996771B2 (en) | 2016-02-15 | 2018-06-12 | Nvidia Corporation | System and method for procedurally synthesizing datasets of objects of interest for training machine-learning models |
DK3452959T3 (da) | 2016-05-02 | 2023-04-03 | Scopito Aps | Modelkonstruktion i et neuralt netværk til objektdetektion |
CN108734719A (zh) | 2017-04-14 | 2018-11-02 | 浙江工商大学 | 一种基于全卷积神经网络的鳞翅目昆虫图像前背景自动分割方法 |
US10356341B2 (en) * | 2017-10-13 | 2019-07-16 | Fyusion, Inc. | Skeleton-based effects and background replacement |
CN111937034A (zh) * | 2018-03-29 | 2020-11-13 | 国立大学法人奈良先端科学技术大学院大学 | 学习数据集的创建方法和装置 |
CN108898547B (zh) | 2018-06-27 | 2022-06-07 | 太原理工大学 | 一种基于单样本的人脸图像虚拟样本扩充方法及系统 |
CN109063845B (zh) | 2018-07-15 | 2021-12-07 | 大国创新智能科技(东莞)有限公司 | 基于生成样本的深度学习方法和机器人系统 |
TWI695344B (zh) | 2018-11-23 | 2020-06-01 | 中華電信股份有限公司 | 用於偵測監控影像內物件之方法及執行該方法之非暫態電腦可讀取紀錄媒體 |
US20200294248A1 (en) * | 2019-03-07 | 2020-09-17 | University Of Utah Research Foundation | Systems and methods for imaging of moving objects |
CN110348515A (zh) | 2019-07-10 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 图像分类方法、图像分类模型训练方法及装置 |
CN110852332B (zh) | 2019-10-29 | 2020-12-01 | 腾讯科技(深圳)有限公司 | 训练样本的生成方法、装置、存储介质及电子设备 |
CN111860448A (zh) | 2020-07-30 | 2020-10-30 | 北京华捷艾米科技有限公司 | 洗手动作识别方法及系统 |
US11557149B2 (en) * | 2020-08-14 | 2023-01-17 | Fujitsu Limited | Image synthesis for balanced datasets |
-
2020
- 2020-11-09 TW TW109138988A patent/TW202219895A/zh unknown
- 2020-11-19 CN CN202011308244.8A patent/CN114463593A/zh active Pending
-
2021
- 2021-02-24 US US17/184,319 patent/US11823438B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN114463593A (zh) | 2022-05-10 |
US11823438B2 (en) | 2023-11-21 |
US20220147763A1 (en) | 2022-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107316020B (zh) | 人脸替换方法、装置及电子设备 | |
Alhaija et al. | Augmented reality meets deep learning for car instance segmentation in urban scenes | |
Klein et al. | Sensor fusion and occlusion refinement for tablet-based AR | |
CN110249626B (zh) | 增强现实图像的实现方法、装置、终端设备和存储介质 | |
CN111931836A (zh) | 获取神经网络训练图像的方法和装置 | |
CN105719248B (zh) | 一种实时的人脸变形方法及其系统 | |
CN108074252B (zh) | 用于在标记表面上投影图像的系统、方法和计算机可读介质 | |
CN111523390B (zh) | 一种图像识别的方法及增强现实ar图标识别的系统 | |
CN111695431A (zh) | 一种人脸识别方法、装置、终端设备及存储介质 | |
CN110276239A (zh) | 眼球追踪方法、电子装置及非暂态电脑可读取记录媒体 | |
CN109816634A (zh) | 检测方法、模型训练方法、装置及设备 | |
WO2023116430A1 (zh) | 视频与城市信息模型三维场景融合方法、系统及存储介质 | |
Wattanachote et al. | Automatic dynamic texture transformation based on a new motion coherence metric | |
CN110942092A (zh) | 一种图形图像识别方法及识别系统 | |
CN114913308A (zh) | 摄像机跟踪方法、装置、设备及存储介质 | |
Bang et al. | Camera pose estimation using optical flow and ORB descriptor in SLAM-based mobile AR game | |
US20230342973A1 (en) | Image processing method and apparatus, device, storage medium, and computer program product | |
CN111275610B (zh) | 一种人脸变老图像处理方法及系统 | |
TW202219895A (zh) | 辨識系統及其圖資擴增與訓練方法 | |
Rodriguez-Lozano et al. | 3D reconstruction system and multiobject local tracking algorithm designed for billiards | |
CN110097061A (zh) | 一种图像显示方法及装置 | |
CN113486941B (zh) | 直播图像的训练样本生成方法、模型训练方法及电子设备 | |
Zhang et al. | Setforge-synthetic RGB-D training data generation to support CNN-based pose estimation for augmented reality | |
CN110910478B (zh) | Gif图生成方法、装置、电子设备及存储介质 | |
CN108846897B (zh) | 三维模型表面材质模拟方法、装置、存储介质及电子设备 |