TWI708190B

TWI708190B - 圖像辨識方法、物體辨識模型的訓練系統與物體辨識模型的訓練方法

Info

Publication number: TWI708190B
Application number: TW108141560A
Authority: TW
Inventors: 林信成; 周森益
Original assignee: 財團法人工業技術研究院
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-10-21
Also published as: TW202121238A; US20210150272A1; US11880747B2

Abstract

一種圖像辨識方法、物體辨識模型的訓練系統與物體辨識模型的訓練方法。圖像辨識方法包括以下步驟。取得一場域中一物體之至少一原始樣本圖像及此物體於原始樣本圖像之一物體範圍資訊及一物體類型資訊。調變至少一物理參數，以生成物體之數個模擬樣本圖像。自動標記物體於各個模擬樣本圖像之物體範圍資訊及物體類型資訊。進行一機器學習程序，以訓練出一物體辨識模型。利用物體辨識模型，針對一輸入圖像進行一圖像辨識程序，以辨識出輸入圖像是否有此物體及此物體於輸入圖像之物體範圍資訊及物體類型資訊。

Description

圖像辨識方法、物體辨識模型的訓練系統與物體辨識模型的訓練方法

本揭露是有關於一種圖像辨識方法、物體辨識模型的訓練系統與物體辨識模型的訓練方法。

隨著人工智慧技術的發展，圖像辨識的需求不斷增加。一般而言，圖像辨識模型需要大量的圖資進行學習，才能夠提高圖像辨識模型的辨識精準度。

倘若需要辨識的分類較為廣泛，例如辨識手機、電腦、滑鼠等分類，則很容易針對各個分類取得大量圖資來進行學習。

然而，倘若需要辨識的分類較為精細，例如辨識A型號滑鼠、B型號滑鼠、C型號滑鼠等，則不容易針對各個分類取得大量圖資來進行學習，進而嚴重影響到辨識精準度。

或者，在自駕車場域中，街景圖資係由少數幾間公司所掌握，而難以取得圖資。在自有的應用場域(例如自動光學檢測(AOI)、智慧零售商店等)，產品變化性高且快速，也難以針對此些場域的各個分類取得大量的圖資。

因此，如何在少量原始圖資的情況下，進行機器學習程序以訓練出圖像辨識模型，已成為目前研究人員極力研究的重要方向之一。

本揭露係有關於一種圖像辨識方法、物體辨識模型的訓練系統與物體辨識模型的訓練方法。

根據本揭露之一實施例，提出一種圖像辨識方法。圖像辨識方法包括以下步驟。取得一場域中一物體之至少一原始樣本圖像及此物體於原始樣本圖像之一物體範圍資訊及一物體類型資訊。調變至少一物理參數，以生成物體之數個模擬樣本圖像。自動標記物體於各個模擬樣本圖像之物體範圍資訊及物體類型資訊。以原始樣本圖像、此些模擬樣本圖像、此些物體範圍資訊及此些物體類型資訊進行一機器學習程序，以訓練出一物體辨識模型。利用物體辨識模型，針對一輸入圖像進行一圖像辨識程序，以辨識出輸入圖像是否有此物體及此物體於輸入圖像之物體範圍資訊及物體類型資訊。

根據本揭露之一實施例，提出一種物體辨識模型的訓練系統。訓練系統一儲存裝置、一樣本生成裝置及一機器學習裝置。儲存裝置用以儲存一影像擷取裝置於一場域中拍攝一物體之至少一原始樣本圖像及此物體於原始樣本圖像之一物體範圍資訊及一物體類型資訊。樣本生成裝置包括一參數調變單元及一標記單元。參數調變單元用以調變至少一物理參數，以生成物體之數個模擬樣本圖像。標記單元用以自動標記物體於各個模擬樣本圖像之物體範圍資訊及物體類型資訊。機器學習裝置係以原始樣本圖像、此些模擬樣本圖像、此些物體範圍資訊及此些物體類型資訊進行一機器學習程序，以訓練出一物體辨識模型。物體辨識模型用以針對一輸入圖像進行一圖像辨識程序，以辨識出輸入圖像是否有此物體及此物體於輸入圖像之物體範圍資訊及物體類型資訊。

根據本揭露之一實施例，提出一種物體辨識模型的訓練方法。訓練方法包括以下步驟。取得一場域中一物體之至少一原始樣本圖像及此物體於原始樣本圖像之一物體範圍資訊及一物體類型資訊。調變至少一物理參數，以生成物體之數個模擬樣本圖像。自動標記物體於各個模擬樣本圖像之物體範圍資訊及物體類型資訊。以原始樣本圖像、此些模擬樣本圖像、此些物體範圍資訊及此些物體類型資訊進行一機器學習程序，以訓練出一物體辨識模型。物體辨識模型用以針對一輸入圖像進行一圖像辨識程序，以辨識出輸入圖像是否有此物體及此物體於該輸入圖像之物體範圍資訊及物體類型資訊。

為了對本揭露之上述及其他方面有更佳的瞭解，下文特舉實施例，並配合所附圖式詳細說明如下：

100:訓練系統

110:儲存裝置

120:樣本生成裝置

121:參數調變單元

122:標記單元

130:機器學習裝置

200:行動裝置

210:輸入單元

220:處理單元

B1、B2、B3:灰階模糊圖樣

C11、C12、C21、C22、C4:物體類型資訊

IM11、IM12:原始樣本圖像

IM21、IM22、IM211、IM212、IM213、IM221、IM222、IM223、IM231、IM232、IM233、IM241、IM242、IM243、IM251、IM252、IM253、IM261、IM262、IM263、IM271、IM272、IM273:模擬樣本圖像

IM3:輸入圖像

IM4:輸出圖像

ML:物體辨識模型

O11:物體

P1:影像擷取參數

P2:物體參數

P3:環境參數

PP:物理參數

R11、R12、R21、R22、R4:物體範圍資訊

S110、S120、S1211、S1212、S1213、S1221、S1222、S1223、S1224、S1231、S1232、S1233、S1234、S1241、S1242、S1243、S1251、S1252、S1261、S1262、S1271、S1272、S130、S140、S150:步驟

第1圖繪示根據一實施例之一訓練系統與一行動裝置之示意圖。

第2圖繪示根據一實施例之訓練系統與行動裝置之方塊圖。

第3圖繪示根據一實施例之圖像辨識方法的流程圖。

第4圖繪示根據一實施例之調變物體旋轉角度的細部流程圖。

第5A~5C圖繪示第4圖之調變結果的示意圖。

第6圖繪示根據一實施例之調變物體位移量的細部流程圖。

第7A~7C圖繪示第6圖之調變結果的示意圖。

第8圖繪示根據一實施例之加入物體陰影的細部流程圖。

第9A~9C圖繪示第8圖之調變結果的示意圖。

第10圖繪示根據一實施例之設定物體遮蓋比例的細部流程圖。

第11A~11C圖繪示第10圖之調變結果的示意圖。

第12圖繪示根據一實施例之設定鏡頭畸變的細部流程圖。

第13A~13C圖繪示第12圖之調變結果的示意圖。

第14圖繪示根據一實施例之變更場景的細部流程圖。

第15A~15C圖繪示第14圖之調變結果的示意圖。

第16圖繪示根據一實施例之變更光源位置的細部流程圖。

第17A~17C圖繪示第16圖之調變結果的示意圖。

請參照第1圖，其繪示根據一實施例之一訓練系統100與一行動裝置200之示意圖。訓練系統100包括一儲存裝置110、一樣本生成裝置120及一機器學習裝置130。儲存裝置110例如是一記憶體、一記憶卡、一硬碟、或一雲端儲存中心。樣本生成裝置120及機器學習裝置130例如是一電腦、一伺服器、一電路板、一電路、一晶片、數組程式碼或儲存程式碼之儲存裝置。儲存裝置110用以儲存一場域中一物體O11之至少一原始樣本圖像(例如是原始樣本圖像IM11與原始樣本圖像IM12)。

樣本生成裝置120根據原始樣本圖像生成物體O11之數個模擬樣本圖像(例如是根據原始樣本圖像IM11生成物體O11之模擬樣本圖像IM21及根據原始樣本圖像IM12生成物體O11之模擬樣本圖像IM22)。

機器學習裝置130以原始樣本圖像IM11、IM12...及此些模擬樣本圖像IM21、IM22、...進行一機器學習程序以訓練出一物體辨識模型ML。

行動裝置200安裝物體辨識模型ML後，即可針對輸入圖像IM3進行一圖像辨識程序，以辨識輸入圖像IM3是否有物體O11。本發明揭露之圖像辨識方法、物體辨識模型的訓練系統100與其訓練方法並非僅限行動裝置使用，例如，其他可適用本發明之裝置包括電腦或嵌入式系統(embedded system)。

本實施例之訓練系統100可以生成模擬樣本圖像IM21、IM22、...，以補足原始樣本圖像IM11、IM12、...的不足。因此，透過本實施例之訓練系統100，在少量原始圖資的情況下，也能夠運用人工智慧技術進行圖像辨識。以下更搭配一方塊圖及一流程圖詳細說明上述各項元件之運作。

請參照第2~3圖，第2圖繪示根據一實施例之訓練系統100與行動裝置200之方塊圖，第3圖繪示根據一實施例之圖像辨識方法的流程圖。如第2圖所示，訓練系統100包括前述之儲存裝置110、樣本生成裝置120及機器學習裝置130。樣本生成裝置120包括一參數調變單元121及一標記單元122。參數調變單元121及標記單元122例如是一晶片、一電路、一電路板、數組程式碼或儲存程式碼之儲存裝置。行動裝置200包括一輸入單元210及一處理單元220。輸入單元210例如是一無線網路接收模組、一連接埠、一記憶卡插槽、一相機、或一攝影機。處理單元220例如是一晶片、一電路、一電路板、數組程式碼或儲存程式碼之儲存裝置。

如第3圖之步驟S110，自儲存裝置110取得一場域中一物體O11之至少一原始樣本圖像IM11、IM12、...。物體O11例如是自動販售櫃體之商品。在此步驟中，原始樣本圖像IM11、IM12、...可以是相機朝向物體O11以不同取像角度進行拍攝的結果。在拍攝過程中，可以是相機繞著物體O11公轉，或者是物體O11進行自轉。透過不同的取像角度，可以獲得不同面向的原始樣本圖像IM11、IM12、...。根據這些原始樣本圖像IM11、IM12、...，以下的步驟可以進一步生成更多的模擬樣本圖像IM21、IM22、...。

如第3圖之步驟S120所示，參數調變單元121調變至少一物理參數PP，以生成物體O11之數個模擬樣本圖像IM21、IM22、...。物理參數PP例如是一影像擷取參數P1、一物體參數P2、或一環境參數P3。影像擷取參數P1例如是一影像擷取裝置與物體O11的一相對位置、影像擷取裝置與物體O11的一相對距離、影像擷取裝置之一鏡頭畸變、一對比度、或一曝光量。物體參數P2例如是一物體旋轉角度、一物體位移量、一物體遮蓋比例、或一物體陰影。環境參數P3例如是一背景顏色、一場景、一環境亮度、或一光源位置。

參數調變單元121可以同時調變影像擷取參數P1、物體參數P2、及環境參數P3。或者，參數調變單元121可以僅調變影像擷取參數P1及物體參數P2、僅調變影像擷取參數P1及環境參數P3、僅調變物體參數P2及環境參數P3、僅調變影像擷取參數P1、僅調變物體參數P2、或僅調變環境參數P3。以下透過細部流程圖及示例圖詳細說明如何進行物理參數PP的調變。

請參照第4圖及第5A~5C圖，第4圖繪示根據一實施例之調變物體旋轉角度的細部流程圖，第5A~5C圖繪示第4圖之調變結果的示意圖。在第5A~5C圖中，係舉例說明根據原始樣本圖像IM11生成物體O11之模擬樣本圖像IM211、IM212、IM213。

在步驟S1211中，參數調變單元121對原始樣本圖像IM11去除背景。

然後，在步驟S1212中，參數調變單元121對物體O11之範圍乘上Z軸旋轉矩陣、X軸旋轉矩陣或Y軸旋轉矩陣。Z軸旋轉矩陣例如是下式(1)，X軸旋轉矩陣例如是下式(2)，Y軸旋轉矩陣例如是下式(3)。

其中，R _Z為Z軸旋轉矩陣，θ _Z為亂數取得之Z軸旋轉角度；R _X為X軸旋轉矩陣，θ _X為亂數取得之X軸旋轉角度；R _Y為Y軸旋轉矩陣，θ _Y為亂數取得之Y軸旋轉角度。

接著，在步驟S1213中，參數調變單元121將背景加回。在此步驟中，可以加回原來的背景，或者加回不同的背景。如此一來，即創造出各種不同的模擬樣本圖像IM211、IM212、IM213。如第5A~5C圖所示，模擬樣本圖像IM211、IM212、IM213中的物體O11被旋轉了不同的角度。

請參照第6圖及第7A~7C圖，第6圖繪示根據一實施例之調變物體位移量的細部流程圖，第7A~7C圖繪示第6圖之調變結果的示意圖。在第7A~7C圖中，係舉例說明根據原始樣本圖像IM11生成物體O11之模擬樣本圖像IM221、IM222、IM223。

在步驟S1221中，參數調變單元121對原始樣本圖像IM11去除背景。

然後，在步驟S1222中，參數調變單元121對物體O11之範圍之各點的座標加上位移矩陣，以進行X軸位移與Y軸位移。位移矩陣例如是下式(4)。

其中，S _(x,y)為位移矩陣，ΔX為亂數取得之X軸位移量，ΔY為亂數取得之Y軸位移量。

接著，在步驟S1223中，參數調變單元121進行線性插補或線性篩選，將物體O11之範圍放大或縮小，以進行Z軸位移。

然後，在步驟S1224中，參數調變單元121將背景加回。在此步驟中，可以加回原來的背景，或者加回不同的背景。如此一來，即創造出各種不同的模擬樣本圖像IM221、IM222、IM223。如第7A~7C圖所示，模擬樣本圖像IM221、IM222、IM223中的物體O11被位移到不同的位置。

請參照第8圖及第9A~9C圖，第8圖繪示根據一實施例之加入物體陰影的細部流程圖，第9A~9C圖繪示第8圖之調變結果的示意圖。在第9A~9C圖中，係舉例說明根據原始樣本圖像IM11生成物體O11之模擬樣本圖像IM231、IM232、IM233。

在步驟S1231中，參數調變單元121對原始樣本圖像IM11去除背景。

然後，在步驟S1232中，參數調變單元121依據物體O11產生灰階模糊圖樣B1、B2、B3。

接著，在步驟S1233中，參數調變單元121將灰階模糊圖樣B1、B2、B3貼於物體O11之邊緣處，以產生物件陰影。

然後，在步驟S1224中，參數調變單元121將背景加回。在此步驟中，可以加回原來的背景，或者加回不同的背景。如此一來，即創造出各種不同的模擬樣本圖像IM231、IM232、IM233。如第9A~9C圖所示，模擬樣本圖像IM231、IM232、IM233中的物體O11形成不同方向的陰影。

請參照第10圖及第11A~11C圖，第10圖繪示根據一實施例之設定物體遮蓋比例的細部流程圖，第11A~11C圖繪示第10圖之調變結果的示意圖。在第11A~11C圖中，係舉例說明根據原始樣本圖像IM11生成物體O11之模擬樣本圖像IM241、IM242、IM243。

在步驟S1241中，參數調變單元121對原始樣本圖像IM11去除背景。

然後，在步驟S1242中，參數調變單元121依據物體遮蓋比例，刪除物體O11之部分內容。物體遮蓋比例係為隨機選取。

接著，在步驟S1243中，參數調變單元121將背景加回。在此步驟中，可以加回原來的背景，或者加回不同的背景。在此步驟中，可以對刪除之內容進行插補，或者不對刪除之內容進行插補。如此一來，即創造出各種不同的模擬樣本圖像IM241、IM242、IM243。如第11A~11C圖所示，模擬樣本圖像IM241、IM242、IM243中的物體O11具有不同的物體遮蓋比例。

請參照第12圖及第13A~13C圖，第12圖繪示根據一實施例之設定鏡頭畸變的細部流程圖，第13A~13C圖繪示第12圖之調變結果的示意圖。在第13A~13C圖中，係舉例說明根據原始樣本圖像IM11生成物體O11之模擬樣本圖像IM251、IM252、IM253。

在步驟S1251中，參數調變單元121隨機選取枕形畸變程度或筒形畸變程度，以取得一畸變矩陣。

然後，在步驟S1242中，參數調變單元121依據枕形畸變程度或筒形畸變程度，對整張原始樣本圖像IM11乘上畸變矩陣。如此一來，即創造出各種不同的模擬樣本圖像IM251、IM252、IM253。如第13A~13C圖所示，模擬樣本圖像IM251、IM252、IM253中的物體O11具有不同程度的鏡頭畸變。

請參照第14圖及第15A~15C圖，第14圖繪示根據一實施例之變更場景的細部流程圖，第15A~15C圖繪示第14圖之調變結果的示意圖。在第15A~15C圖中，係舉例說明根據原始樣本圖像IM11生成物體O11之模擬樣本圖像IM261、IM262、IM263。

在步驟S1261中，參數調變單元121隨機選取背景。

然後，在步驟S1262中，參數調變單元121將背景取代為新的背景。如此一來，即創造出各種不同的模擬樣本圖像IM261、IM262、IM263。如第15A~15C圖所示，模擬樣本圖像IM261、IM262、IM263中的物體O11具有不同的場景。

請參照第16圖及第17A~17C圖，第16圖繪示根據一實施例之變更光源位置的細部流程圖，第17A~17C圖繪示第16圖之調變結果的示意圖。在第17A~17C圖中，係舉例說明根據原始樣本圖像IM11生成物體O11之模擬樣本圖像IM271、IM272、IM273。

在步驟S1271中，參數調變單元121隨機選取光源位置，以取得一亮度調整矩陣。亮度調整矩陣係由某一最亮點輻射向外遞減其亮度。

然後，在步驟S1272中，參數調變單元121對整張原始樣本圖像IM11乘上亮度調整矩陣。如此一來，即創造出各種不同的模擬樣本圖像IM271、IM272、IM273。如第17A~17C圖所示，模擬樣本圖像IM271、IM272、IM273中的物體O11具有不同的光源位置。

在一實施例中，若參數調變單元121同時調變影像擷取參數P1及物體參數P2，由於調整物體參數P2需要去除背景與加回背景的動作，故調整物體參數P2之順序優先於調整影像擷取參數P1之順序。

在一實施例中，若參數調變單元121同時物體參數P2及環境參數P3，由於調整物體參數P2需要去除背景與加回背景的動作，故調整物體參數P2之順序優先於調整環境參數P3之順序。

根據上述第4圖~第17C圖之說明，即可完成第3圖之步驟S120的物理參數PP之調變程序。

接著，在第3圖之步驟S130中，如第1圖所示，標記單元122自動標記物體O11於各個模擬樣本圖像IM21、IM22、...之物體範圍資訊R11、R12、...及物體類型資訊C11、C12、...。舉例來說，如第1圖所示，原始樣本圖像IM11、IM12、... 之物體範圍資訊R11、R12、...及物體類型資訊C11、C12、...係為已知。由於模擬樣本圖像IM21、IM22、...係由參數調變單元121依據原始樣本圖像IM11、IM12、...所產生，故參數調變單元121能夠告知模擬樣本圖像IM21、IM22、...所做的調變內容，標記單元122即可得知物體範圍資訊R21、R22、...及物體類型資訊C21、C22、...。

接著，在第3圖之步驟S140中，如第1圖所示，機器學習裝置130以原始樣本圖像IM11、IM12、...、模擬樣本圖像IM21、IM22、...、物體範圍資訊R11、R12、R21、R22、...及物體類型資訊C11、C12、C21、C22、...進行機器學習程序，以訓練出物體辨識模型ML。

然後，在第3圖之步驟S150中，如第1圖所示，行動裝置200之處理單元220利用物體辨識模型ML，針對輸入圖像IM3進行一圖像辨識程序，以辨識出輸入單元210所輸入之輸入圖像IM3是否有物體O11及物體O11於輸入圖像IM3之物體範圍資訊R4及物體類型資訊C4。如第1圖所示，輸出圖像IM4標示出物體範圍資訊R4。

如此一來，即使原始樣本圖像IM11、IM12、...沒有朝向下方的A型號滑鼠，也能夠補足圖資的不足，在輸入圖像IM3辨識出朝向下方的A型號滑鼠。也就是說，在少量原始圖資的情況下，透過上述技術也能夠正確進行圖像辨識。

綜上所述，雖然本揭露已以實施例揭露如上，然其並非用以限定本揭露。本揭露所屬技術領域中具有通常知識者，在不脫離本揭露之精神和範圍內，當可作各種之更動與潤飾。因此，本揭露之保護範圍當視後附之申請專利範圍所界定者為準。