TWI815762B

TWI815762B - 影像識別深度學習模型的訓練方法

Info

Publication number: TWI815762B
Application number: TW112100134A
Authority: TW
Inventors: 張益銘
Original assignee: 大陸商環旭電子股份有限公司
Priority date: 2022-12-16
Filing date: 2023-01-03
Publication date: 2023-09-11
Also published as: CN116342923A

Abstract

一種影像識別深度學習模型的訓練方法，其包含從多個原始資料中選取部分原始資料且對其標記；依據深度學習演算法訓練標記資料以產生影像識別深度學習模型；輸入部分原始資料至影像識別深度學習模型以推論出推論結果並計算正確率，然後判斷正確率是否大於等於門檻值。當正確率大於等於門檻值時，得到最終影像識別深度學習模型；當正確率小於門檻值時，重新標記推論結果有誤的原始資料以產生再標記資料並更新影像識別深度學習模型，然後重複前述流程，直到正確率大於等於門檻值為止。藉此，能快速地收斂影像識別深度學習模型。

Description

影像識別深度學習模型的訓練方法

本揭示內容係關於一種深度學習模型的訓練方法，特別是關於一種應用於影像識別且可快速收斂監督式學習模型的訓練方法。

於深度學習(Deep learning)與機器學習(Machine learning)中，已被眾人公認及多個實驗數據佐證目前具有較高正確率(Accuracy rate)的演算法是監督式學習(Supervised learning)，但是其若應用在影像辨識領域會需要非常龐大的標記影像和分類影像才足以使得辨識模型能達到較高的正確率。因此，前述缺點會造成在訓練辨識模型之前，需要額外人力成本去標記與分類大量的原始影像，導致訓練辨識模型的開發時程明顯地增加。

有鑑於此，如何開發一種應用於影像識別且可快速收斂監督式學習模型的訓練方法，實為民眾所殷切企盼，亦係相關業者須努力研發突破的目標及方向。

本揭示內容的目的在於提供一種影像識別深度學習模型的訓練方法，其從大量原始資料中選取少量原始資料，並建模影像識別深度學習模型，然後輸入未訓練的原始資料至影像識別深度學習模型之後，再重新標記推論結果有誤的原始資料以反覆訓練且更新影像識別深度學習模型，藉以令最終影像識別深度學習模型可快速收斂且同時保有高正確率。

依據本揭示內容的一實施方式提供一種影像識別深度學習模型的訓練方法，其用以獲得一最終影像識別深度學習模型並包含一第一資料選取步驟、一資料標記步驟、一模型訓練步驟、一第二資料選取步驟以及一資料推論步驟。第一資料選取步驟包含從T個原始資料中選取N _i個原始資料，其中i=1~n，且T、N _i、i及n均為正整數。資料標記步驟包含對N _i個原始資料進行標記以產生N _i個標記資料。模型訓練步驟包含依據一深度學習演算法訓練N _i個標記資料以產生一第i影像識別深度學習模型。第二資料選取步驟包含從T-M _i個原始資料中選取N _i+1個原始資料，其中M _i為正整數。資料推論步驟包含輸入P _i個原始資料至第i影像識別深度學習模型以推論出P _i個推論結果，並依據P _i個推論結果計算第i影像識別深度學習模型的一正確率，然後判斷正確率是否大於等於一門檻值，其中P _i為正整數。其中當正確率大於等於門檻值時，第i影像識別深度學習模型為最終影像識別深度學習模型。其中當正確率小於門檻值時，執行一資料再標記步驟與一模型更新步驟，然後將i設為i+1並重複執行第二資料選取步驟及資料推論步驟，直到正確率大於等於門檻值為止。其中資料再標記步驟包含重新標記P _i個原始資料的至少一者以產生至少一再標記資料。其中模型更新步驟包含依據深度學習演算法重新訓練至少一再標記資料以更新第i影像識別深度學習模型。

請參照第1圖，其係繪示依照本揭示內容實施例的影像識別深度學習模型的訓練系統100的示意圖。由第1圖可知，影像識別深度學習模型的訓練系統100包含一儲存單元110以及一運算處理單元120，並可以是用於運行影像識別深度學習模型的各式智慧型裝置及/或電腦裝置。

儲存單元110儲存T個原始資料(Raw data)112、深度學習演算法114及門檻值116，其中T為正整數。深度學習演算法114可為一監督式學習演算法，但本揭示內容不限於此。此外，門檻值116用以鑑定基於深度學習演算法114所訓練出的影像識別深度學習模型的正確率，端看使用者的需求來對門檻值116進行配置。具體而言，儲存單元110係為一機器可讀取媒體，其可為但不限定於隨機存取記憶體、唯讀記憶體、快閃記憶體、硬碟或前述裝置的組合，而可用以儲存前述影像識別深度學習模型。

運算處理單元120耦接儲存單元110，其可為但不限定於一般用途處理器、微控制器以及類似品。在本揭示內容實施例中，運算處理單元120可存取儲存單元110中記錄的模組、程式碼/電子指令來實現本揭示內容提出的影像識別深度學習模型的訓練方法，其細節詳述如下。

請參照第2圖，其係繪示依照本揭示內容的第一實施例的影像識別深度學習模型的訓練方法200的流程示意圖。影像識別深度學習模型的訓練方法200係用以獲得一最終影像識別深度學習模型並包含第一資料選取步驟S210、資料標記步驟S220、模型訓練步驟S230、第二資料選取步驟S240以及資料推論步驟S250，且可由第1圖的影像識別深度學習模型的訓練系統100執行，以下即搭配第1圖所示的元件說明第2圖各步驟的細節。

第一資料選取步驟S210為「從T個原始資料中選取N _i個原始資料」，其包含驅動運算處理單元120讀取來自儲存單元110的T個原始資料112，並從T個原始資料112中選取N _i個原始資料112，其中i=1~n，T、N _i、i及n均為正整數，且T大於N _i。進一步來說，第一資料選取步驟S210可更包含驅動運算處理單元120將T個原始資料112分群為複數原始資料群體，然後從各原始資料群體中選取部份原始資料112以集成N _i個原始資料112。舉例來說，T=30000。運算處理單元120將30000個原始資料112平均地拆分為5個原始資料群體；換言之，各原始資料群體包含相同數量(即6000個)的原始資料112。特別的是，運算處理單元120可依據複數分類特徵將30000個原始資料112分群為5個原始資料群體，藉以令各原始資料群體具有相同的分類特徵。舉例來說，原始資料112可為動物(如貓或狗)的一原始影像。在相同的原始資料群中，多個原始影像的動物可具有相同大小、品種或顏色。藉此，透過平均分群的方式可使後續資料標記步驟S220中的N _i個標記資料對於不同特徵的資料會具有相同的數量，進而可加快最終影像識別深度學習模型的收斂速度。

資料標記步驟S220為「對N _i個原始資料進行標記」，其包含驅動運算處理單元120對N _i個原始資料112進行標記以產生N _i個標記資料。

模型訓練步驟S230為「產生第i影像識別深度學習模型」，其包含驅動運算處理單元120依據深度學習演算法114訓練N _i個標記資料以產生第i影像識別深度學習模型。

第二資料選取步驟S240為「從T-M _i個原始資料中選取N _i+1個原始資料」，其包含驅動運算處理單元120從T-M _i個原始資料112中選取N _i+1個原始資料112，其中M _i為正整數且M _i大於N _i+1，並滿足下列條件：。須說明的是，N _i+1個原始資料112不同於N _i個原始資料112，即N _i+1個原始資料112是未經由深度學習演算法114訓練的原始資料112。

資料推論步驟S250為「推論出P _i個推論結果並判斷正確率是否大於等於門檻值」，其包含驅動運算處理單元120輸入P _i個原始資料112至第i影像識別深度學習模型以推論出P _i個推論結果，並依據P _i個推論結果計算第i影像識別深度學習模型的正確率，然後判斷正確率是否大於等於門檻值116，其中P _i為正整數，並滿足下列條件：。進一步來說，儲存單元110可更儲存T個實際結果(Ground truth)118，其分別對應T個原始資料。資料推論步驟S250可更包含驅動運算處理單元120從儲存單元110中的T個實際結果118獲得對應P _i個原始資料的P _i個實際結果118，然後依據P _i個實際結果118計算P _i個推論結果而產生第i影像識別深度學習模型的正確率。

當正確率大於等於門檻值116時，運算處理單元120接續執行模型判定步驟S260。其中模型判定步驟S260為「獲得最終影像識別深度學習模型」，其包含驅動運算處理單元120判定第i影像識別深度學習模型為最終影像識別深度學習模型。當正確率小於門檻值116時，運算處理單元120接續執行資料再標記步驟S262與模型更新步驟S264，然後將i設為i+1並重複執行第二資料選取步驟S240及資料推論步驟S250，直到正確率大於等於門檻值116為止。

其中資料再標記步驟S262為「重新標記P _i個原始資料的至少一者以產生至少一再標記資料」，其包含驅動運算處理單元120重新標記P _i個原始資料112的至少一者以產生至少一再標記資料。須注意的是，於資料再標記步驟S262中，P _i個原始資料112的至少一者所對應的推論結果不符合實際結果118；換言之，在輸入P _i個原始資料112至第i影像識別深度學習模型之後，運算處理單元120會重新標記推論結果有誤的原始資料112。

其中模型更新步驟S264為「重新訓練至少一再標記資料以更新第i影像識別深度學習模型」，其包含驅動運算處理單元120依據深度學習演算法114重新訓練至少一再標記資料以更新第i影像識別深度學習模型。

藉此，本揭示內容的影像識別深度學習模型的訓練方法200從大量(T個)原始資料112中選取少量(N _i個)原始資料112，並建模影像識別深度學習模型，然後將訓練過的原始資料112(即N _i個原始資料112)以及未訓練的原始資料112(即N _i+1個原始資料112)輸入至影像識別深度學習模型之後，再重新標記推論結果有誤的原始資料112以反覆訓練且更新影像識別深度學習模型，藉以令最終影像識別深度學習模型可快速收斂且同時保有高正確率。

請參照第3圖，其係繪示依照本揭示內容的第二實施例的影像識別深度學習模型的訓練方法300的流程示意圖。影像識別深度學習模型的訓練方法300等同於第2圖的影像識別深度學習模型的訓練方法200運行在n=2的情境下，並包含第一資料選取步驟S310、資料標記步驟S320、模型訓練步驟S330、第二資料選取步驟S340以及資料推論步驟S350，且可由第1圖的影像識別深度學習模型的訓練系統100執行，以下即搭配第1圖所示的元件說明第3圖各步驟的細節。

第一資料選取步驟S310包含驅動運算處理單元120將30000個(T=30000)原始資料112平均分群而產生5個原始資料群體，然後從各原始資料群體中平均選取60個原始資料112以集成300個(N ₁=300)原始資料112。資料標記步驟S320包含驅動運算處理單元120對300個原始資料112進行標記以產生300個標記資料121。模型訓練步驟S330包含驅動運算處理單元120依據深度學習演算法114訓練300個標記資料121以產生第1影像識別深度學習模型122。第二資料選取步驟S340包含驅動運算處理單元120從29700個(T-M ₁=T-N ₁=30000-300)原始資料112中選取200個(N ₂=200)原始資料112。資料推論步驟S350包含驅動運算處理單元120輸入500個(N ₁+N ₂=300+200=500)原始資料112至第1影像識別深度學習模型122以推論出500個推論結果123，並依據500個實際結果118計算500個推論結果123而產生第1影像識別深度學習模型122的正確率1221，然後判斷正確率1221是否大於等於門檻值116。

於第二實施例中，門檻值116可設為0.9，正確率1221可為0.88，因此正確率1221小於門檻值116(即否)。運算處理單元120接續執行資料再標記步驟S362與模型更新步驟S364。資料再標記步驟S362包含驅動運算處理單元120重新標記推論結果123不符合實際結果118的至少一原始資料112以產生至少一再標記資料124。模型更新步驟S364包含驅動運算處理單元120依據深度學習演算法114重新訓練至少一再標記資料124以更新第1影像識別深度學習模型122為一第2影像識別深度學習模型125。接著，運算處理單元120再執行第二資料選取步驟S340及資料推論步驟S350。

於執行第2次的第二資料選取步驟S340中，運算處理單元120從29500個(T-M ₂=T-(N ₁+N ₂)=30000-500)原始資料112中選取120個(N ₃=120)原始資料112。於執行第2次的資料推論步驟S350中，運算處理單元120輸入620個(N ₁+N ₂+N ₃=300+200+120=620)原始資料112至第2影像識別深度學習模型125以推論出620個推論結果126，並依據620個實際結果118計算620個推論結果126而產生第2影像識別深度學習模型125的正確率1251，然後判斷正確率1251是否大於等於門檻值116，其中正確率1251可為0.98，且正確率1251大於等於門檻值116(即是)。因此，運算處理單元120接續執行模型判定步驟S360。模型判定步驟S360包含驅動運算處理單元120判定第2影像識別深度學習模型125為最終影像識別深度學習模型。藉此，本揭示內容的影像識別深度學習模型的訓練方法300經由重新訓練再標記資料124以更新第1影像識別深度學習模型122，使得最終影像識別深度學習模型可快速收斂且同時保有高正確率，其中最終影像識別深度學習模型的正確率可高達98%，但是所花費的總時程相較於現有的監督式學習卻能夠節省97.6%的時間。

由上述實施方式可知，本揭示內容具有下列優點：其一，僅對少量原始資料進行標記與分類，可大大縮減訓練模型的開發時程。其二，透過平均分群原始資料的方式可使標記資料(即訓練資料)對於不同特徵的資料會具有相同的數量，進而可加快最終影像識別深度學習模型的收斂速度。其三，利用重新標記推論結果有誤的原始資料以反覆訓練且更新影像識別深度學習模型，不僅使得最終影像識別深度學習模型可快速收斂，同時還能保有高正確率。

雖然本揭示內容已以實施方式揭露如上，然其並非用以限定本揭示內容，任何熟習此技藝者，在不脫離本揭示內容的精神和範圍內，當可作各種的更動與潤飾，因此本揭示內容的保護範圍當視後附的申請專利範圍所界定者為準。

100:影像識別深度學習模型的訓練系統 110:儲存單元 112:原始資料 114:深度學習演算法 116:門檻值 118:實際結果 120:運算處理單元 121:標記資料 122:第1影像識別深度學習模型 1221,1251:正確率 123,126:推論結果 124:再標記資料 125:第2影像識別深度學習模型 200,300:影像識別深度學習模型的訓練方法 S210,S310:第一資料選取步驟 S220,S320:資料標記步驟 S230,S330:模型訓練步驟 S240,S340:第二資料選取步驟 S250,S350:資料推論步驟 S260,S360:模型判定步驟 S262,S362:資料再標記步驟 S264,S364:模型更新步驟

第1圖係繪示依照本揭示內容實施例的影像識別深度學習模型的訓練系統的示意圖；第2圖係繪示依照本揭示內容的第一實施例的影像識別深度學習模型的訓練方法的流程示意圖；以及第3圖係繪示依照本揭示內容的第二實施例的影像識別深度學習模型的訓練方法的流程示意圖。

200:影像識別深度學習模型的訓練方法

S210:第一資料選取步驟

S220:資料標記步驟

S230:模型訓練步驟

S240:第二資料選取步驟

S250:資料推論步驟

S260:模型判定步驟

S262:資料再標記步驟

S264:模型更新步驟

Claims

一種影像識別深度學習模型的訓練方法，用以獲得一最終影像識別深度學習模型，該影像識別深度學習模型的訓練方法包含以下步驟：一第一資料選取步驟，包含從T個原始資料中選取N _i個原始資料，其中i=1~n，且T、N _i、i及n均為正整數；一資料標記步驟，包含對該N _i個原始資料進行標記以產生N _i個標記資料；一模型訓練步驟，包含依據一深度學習演算法訓練該N _i個標記資料以產生一第i影像識別深度學習模型；一第二資料選取步驟，包含從T-M _i個原始資料中選取N _i+1個原始資料，其中M _i為正整數；以及一資料推論步驟，包含輸入P _i個原始資料至該第i影像識別深度學習模型以推論出P _i個推論結果，並依據該P _i個推論結果計算該第i影像識別深度學習模型的一正確率，然後判斷該正確率是否大於等於一門檻值，其中P _i為正整數；其中，當該正確率大於等於該門檻值時，該第i影像識別深度學習模型為該最終影像識別深度學習模型；其中，當該正確率小於該門檻值時，執行一資料再標記步驟與一模型更新步驟，然後將i設為i+1並重複執行該第二資料選取步驟及該資料推論步驟，直到該正確率大於等於該門檻值為止；其中，該資料再標記步驟包含重新標記該P _i個原始資料的至少一者以產生至少一再標記資料；其中，該模型更新步驟包含依據該深度學習演算法重新訓練該至少一再標記資料以更新該第i影像識別深度學習模型。
如請求項1所述的影像識別深度學習模型的訓練方法，其中該第一資料選取步驟更包含：將該T個原始資料分群為複數原始資料群體，然後從各該原始資料群體中選取部份原始資料以集成該N _i個原始資料。
如請求項1所述的影像識別深度學習模型的訓練方法，其中M _i滿足下列條件：。
如請求項1所述的影像識別深度學習模型的訓練方法，其中該N _i+1個原始資料不同於該N _i個原始資料。
如請求項1所述的影像識別深度學習模型的訓練方法，其中P _i滿足下列條件：。
如請求項1所述的影像識別深度學習模型的訓練方法，其中該資料推論步驟更包含：從該儲存單元獲得對應該P _i個原始資料的P _i個實際結果，然後依據該P _i個實際結果計算該P _i個推論結果而產生該正確率。
如請求項6所述的影像識別深度學習模型的訓練方法，其中於該資料再標記步驟中，該P _i個原始資料的該至少一者所對應的該推論結果不符合該實際結果。