TWI805485B

TWI805485B - 影像辨識的方法及其電子裝置

Info

Publication number: TWI805485B
Application number: TW111134783A
Authority: TW
Inventors: 邱予安; 李約瑟; 楊茆世芳; 趙文震; 施素真; 劉淑芳; 陳惠君; 吳杰亮
Original assignee: 財團法人工業技術研究院; 臺中榮民總醫院
Priority date: 2021-12-20
Filing date: 2022-09-14
Publication date: 2023-06-11
Also published as: TW202326519A

Abstract

一種影像辨識的方法及其電子裝置。本揭露提供訓練樣本集來訓練包括多個神經網路的識別模型，以透過訓練後的識別模型來識別待測影像所屬的分類標籤。訓練樣本集包括分屬於多個使用者的多組影像集。在訓練過程中，自訓練樣本集中的第一影像集中取出分別對應於多個分類標籤的多張訓練影像作為多個訓練用參考影像；自不同於第一影像集的第二影像集中取出一張訓練影像作為訓練用輸入影像；以及以所述訓練用參考影像以及訓練用輸入影像作為神經網路的輸入，以進行訓練，其中每一神經網路的輸入包括至少一訓練用參考影像以及訓練用輸入影像。

Description

影像辨識的方法及其電子裝置

本發明是有關於一種影像處理技術，且特別是有關於一種影像辨識的方法及其電子裝置。

電腦視覺（Computer vision）是利用攝影機和電腦模仿人眼對目標進行辨識、跟蹤和測量等的機器視覺，並進一步做影像處理，用電腦處理成為更適合人眼觀察或傳送給儀器檢測的影像。影像處理就是對影像進行分析、加工、處理等，讓機器（電腦）可以從處理後的影像中獲得更多、更有用的資訊，做更可靠的後續判斷、分析、及應用。

透過電腦視覺對影像進行的辨識已可實現人臉辨識、入侵偵測、車牌辨識、行為偵測等功能，根據不同目標，運用不同的影像辨識方法來辨別影像中的物體。而隨著應用越來越廣泛，如何進一步提升影像辨識的準確率則為待解決的課題之一。

本發明提供一種影像辨識的方法及其電子裝置，可提高識別準確率。

本發明的影像辨識的方法，其是利用處理器來實現，所述方法包括：訓練識別模型，以透過訓練後的識別模型來識別待測影像屬於多個分類標籤其中一者，其中識別模型包括多個神經網路。訓練識別模型的步驟包括：提供訓練樣本集，訓練樣本集包括分屬於多個使用者的多組影像集，每一影像集包括多張訓練影像，每一訓練影像標註有其中一個分類標籤；自第一影像集中取出分別對應於所述多個分類標籤的多張訓練影像作為多個訓練用參考影像，其中第一影像集為其中一個影像集；自第二影像集中取出一張訓練影像作為訓練用輸入影像，其中第二影像集為不同於第一影像集的另一個影像集；以及以所述訓練用參考影像以及訓練用輸入影像作為神經網路的輸入，以進行訓練，其中每一神經網路的輸入包括至少一訓練用參考影像以及訓練用輸入影像。

本發明的用於影像辨識的電子裝置，包括：儲存設備，儲存訓練樣本集，訓練樣本集包括分屬於多個使用者的多組影像集，每一影像集包括多張訓練影像，每一訓練影像標註有多個分類標籤其中一者；以及處理器，耦接至儲存設備，且經配置以訓練識別模型，以透過訓練後的識別模型來識別待測影像屬於所述分類標籤其中一者。識別模型包括多個神經網路。所述處理器經配置以訓練識別模型，包括：自第一影像集中取出分別對應所述多個分類標籤的多張訓練影像作為多個訓練用參考影像，其中第一影像集為其中一個影像集；自第二影像集中取出一張訓練影像作為訓練用輸入影像，其中第二影像集為不同於第一影像集的另一個影像集；以及以所述訓練用參考影像以及訓練用輸入影像作為神經網路的輸入，以進行訓練，其中每一神經網路的輸入包括至少一個訓練用參考影像以及訓練用輸入影像。

基於上述，本揭露在訓練階段採用不同使用者的參考影用與輸入影像作為神經網路的輸入來進行訓練，可基於兩個影像的差異來擷取特徵，故，可提高模型的辨識準確度。

圖1是依照本發明一實施例的用於影像辨識的電子裝置的方塊圖。請參照圖1，電子裝置100包括：處理器110以及儲存設備120。處理器110耦接至儲存設備120。電子裝置100的構成以實現電腦視覺來決定，也可進一步搭配影像擷取裝置來使用。

處理器110例如為中央處理單元（Central Processing Unit，CPU）、物理處理單元（Physics Processing Unit，PPU）、可程式化之微處理器（Microprocessor）、嵌入式控制晶片、數位訊號處理器（Digital Signal Processor，DSP）、特殊應用積體電路（Application Specific Integrated Circuits，ASIC）或其他類似裝置。

儲存設備120例如是任意型式的固定式或可移動式隨機存取記憶體（Random Access Memory，RAM）、唯讀記憶體（Read-Only Memory，ROM）、快閃記憶體（Flash memory）、硬碟或其他類似裝置或這些裝置的組合。儲存設備120包括一或多個程式碼片段、訓練樣本集121以及識別模型123，上述程式碼片段在被安裝後，會由處理器110來訓練識別模型123，後續便可透過訓練後的識別模型123來識別待測影像屬於哪一個分類標籤。

訓練樣本集121包括分屬於多個使用者的多組影像集。每一個影像集包括多張訓練影像，每一張訓練影像標註有其中一個分類標籤。以識別臉部表情而言，可將臉部表情分為平靜、緊張、疼痛三種，其對應的分類標籤則可標記為0、1、2。然，在此僅為舉例說明，並不以此為限。在其他實施例中，可可進一步設定更多種的臉部表情，以設定更多的分類標籤。

圖2是依照本發明一實施例的影像辨識的方法流程圖。請同時參照圖1及圖2，在步驟200A（包括步驟S205～S215）中，由處理器110訓練識別模型123。識別模型123包括多個神經網路。之後，在步驟200B中，處理器110透過訓練後的識別模型123來識別待測影像。例如，電子裝置100可進一步搭配影像擷取裝置來使用，以透過影像擷取裝置來擷取待測影像。影像擷取裝置可以內建於電子裝置100，或是透過有線或無線方式耦接至電子裝置100。在應用上，可透過影像擷取裝置來取得當下的影像作為待測影像，並透過訓練後的識別模型123立即進行識別。

底下以步驟S205～S215來說明識別模型123的訓練過程。

在步驟S205中，自第一影像集中取出分別對應至多個分類標籤的多張訓練影像作為多個參考影像（訓練用參考影像），其中第一影像集為其中一個影像集。並且，在步驟S210中，自第二影像集中取出一張訓練影像作為輸入影像（訓練用輸入影像），其中第二影像集為不同於第一影像集的另一個影像集。即，在每一次疊代（iteration）訓練中，處理器110是在同一個使用者的訓練影像中來取出多張參考影像，並且在另一個使用者的訓練影像中取出一張輸入影像。

接著，在步驟S215中，以所述參考影像以及輸入影像作為多個神經網路的輸入，以進行訓練。在此，識別模型123中的每一個神經網路的輸入包括至少其中一個參考影像以及一個輸入影像。例如，以分類標籤包括平靜（標記為“0”）、緊張（標記為“1”）、疼痛（標記為“2”）為例，每一個神經網路的輸入可以包括下列情況：標記為“0”或“1”或“2”的一個參考影像以及一個輸入影像；標記為“0”的一個參考影像、標記為“1”或“2”的一個參考影像以及一個輸入影像；標記為“0”、“1”及“2”的三個參考影像以及一個輸入影像。另外，也可將標記為“1”與“2”的兩張訓練影像所求得的平均影像作為一張參考影像。

在一實施例中，識別模型123的第一架構包括第一數量的神經網路，每一個神經網路具有對應的融合層以及全連接層。在第一架構中，分別透過每一個神經網路在輸入的參考影像與輸入影像中分別擷取參考特徵與輸入特徵；透過各神經網路對應的融合層來合併參考特徵與輸入特徵而獲得合併特徵；透過各神經網路對應的全連接層自合併特徵中獲得預測結果；並且搭配投票模型利用投票方式在這些神經網路的所有預測結果中獲得最終預測結果。

在另一實施例中，識別模型123的第二架構包括第二數量的神經網路，這些神經網路搭配一個融合層以及一個時序性神經網路來獲得最終預測結果。在第二架構中，透過每一個神經網路在輸入的參考影像與輸入影像中分別擷取參考特徵與輸入特徵；透過融合層來合併由這些神經網路所獲得的所有參考特徵與所有輸入特徵而獲得合併特徵；以及透過時序性神經網路自合併特徵中獲得最終預測結果。

底下舉例說明上述兩種識別模型123的架構。

圖3是依照本發明一實施例的識別模型的第一架構示意圖。圖3所示的第一架構以第一數量為三（神經網路310～330）來進行說明，然，並不以此限定所採用的神經網路的數量。在其他實施例中亦可採用兩個、四個或更多神經網路。

請參照圖3，第一架構包括神經網路310、320、330、分別與神經網路310、320、330對應的融合層313、323、333以及全連接層314、324、334、以及投票模組340。在每一次的疊代訓練中，處理器110在訓練樣本集121中隨機在其中一個使用者對應的影像集（第一影像集）中隨機取出三張訓練影像（其分類標籤可以相同也可以不同）來分別作為神經網路310～330的參考影像R11～R13。並且，處理器110在訓練樣本集121隨機在另一個使用者對應的影像集（第二影像集）中隨機取出一張訓練影像作為輸入影像N1。

也就是說，在每一次的疊代訓練中，處理器110會使用一個使用者（使用者A1）的三張訓練影像作為參考影像R11～R13，並分別搭配另一個使用者（不同於使用者A1的使用者A2）的同一張輸入影像N1而個別輸入至神經網路310～330，藉此來獲得預測結果315～335。每一次疊代訓練會在尚未被取出的訓練影像中再取出另外三張訓練影作為參考影像R11～R13。已被取出使用的訓練影像，在後續的疊代訓練中便不會再次被取用。

此外，可進一步設定所要取用的訓練影像的分類標籤的順序。例如，設定為：在每一次疊代訓練中，依序在使用者A1的影像集中取分類標籤為“0”、“1”、“2”的訓練影像作為參考影像R11～R13，並且依序在使用者A2的影像集中取分類標籤為“0”、“1”、“2”的訓練影像作為輸入影像N1。

例如，如表1所示，設定為三次疊代訓練（疊代訓練1～3）為一個循環。在疊代訓練1中，參考影像R11～R13與輸入影像N1的分類標籤皆為“0”。在疊代訓練2中，參考影像R11～R13與輸入影像N1的分類標籤皆為“1”。在疊代訓練3中，參考影像R11～R13與輸入影像N1的分類標籤皆為“2”。

表1

疊代訓練	參考影像	輸入影像
R11	R12	R13	N1
1	0	0	0	0
2	1	1	1	1
3	2	2	2	2

或者，也可設定為兩次疊代訓練為一個循環。在每一個循環的第一次疊代訓練中，依序在使用者A1的影像集中取分類標籤為“0”、“0”、“1”的訓練影像作為參考影像R11～R13，在下一次疊代訓練中依序在使用者A1的影像集中取分類標籤為“0”、“0”、“2”的訓練影像作為參考影像R11～R13。並且，設定為在連續三個循環中的輸入影像N1的分類標籤依序為“0”、“1”、“2”。例如，如表2所示，每一個循環包括2次的疊代訓練，一個循環針對同一個分類標籤的輸入影像N1與參考影像R11～R13進行訓練。

表2

	疊代訓練	參考影像	輸入影像
R11	R12	R13	N1
循環1	1	0	0	1	0
2	0	0	2	0
循環 2	3	0	0	1	1
4	0	0	2	1
循環 3	5	0	0	1	2
6	0	0	2	2

然，上述所取用的訓練影像的分類標籤的順序僅為舉例說明，並不以此為限。

以神經網路310而言，比較參考影像R11與輸入影像N1之間的差異，而在參考影像R11中擷取參考特徵311並且在輸入影像N1中擷取輸入特徵312，接著，將參考特徵311與輸入特徵312輸入至融合層313，融合層313對參考特徵311與輸入特徵312執行級聯（concatenate）操作而獲得合併特徵。之後，將合併特徵輸入全連接層314而獲得預測結果315。神經網路320、330亦以此類推。然後，將這三個神經網路310、320、330的預測結果315、325、332輸入至投票模組340。投票模組340使用投票方式來獲得最終預測結果341。投票模組340可採用硬投票（hard voting）或是軟投票（soft voting）。在一實施例中，神經網路310、320、330分別採用ResNet-34、VGG-16和Inception-V1來實現，然，在此僅為舉例說明，並不以此為限。

圖4是依照本發明一實施例的識別模型的第二架構示意圖。圖4所示的第二架構以第二數量為五（神經網路410～450）來進行說明，然，並不以此限定所採用的神經網路的數量。在其他實施例中亦可採用兩個、三個或更多神經網路。

請參照圖4，第二架構包括神經網路410～450、融合層460以及時序性神經網路470。在每一次的疊代訓練中，處理器110會在第一影像集中具有同一分類標籤的連續多張訓練影像中之尚未在先前疊代訓練中被取出者中，取出五張訓練影像作為參考影像R21～R25，並將參考影像R21～R25分別搭配同一張輸入影像N2而個別輸入至神經網路410～450。參考影像R21～R25與輸入影像N2為不同使用者的訓練影像。

例如，處理器110在使用者A1的第一影像集中取出具有分類標籤（例如標記為“0”）的連續N張（例如50張）訓練影像（記為T ₁～T ₅₀）。在第一次疊代訓練中，先取T ₁～T ₅作為神經網路410～450的參考影像R21～R25；在第二次疊代訓練中，取T ₆～T ₁₀作為神經網路410～450的參考影像R21～R25；在第三次疊代訓練中，取T ₁₁～T ₁₅作為神經網路410～450的參考影像R21～R25，以此類推，每次疊代訓練依序取5張連續的訓練影像作為神經網路410～450的參考影像R21～R25，直到T ₁～T ₅₀全部取用。並且，在每一次的疊代訓練中，處理器110在使用者A2的第二影像集中，隨機取出分類標籤為“0”的任一張訓練影像作為輸入影像N2。以此類推，再分別針對分類標籤為“1”與分類標籤為“2”進行訓練。

在每一次的疊代訓練中，透過神經網路410～450分別比對其個別的參考影像R21～R25與個別的輸入影像N2，以分別擷取出參考特徵411、421、431、441、451與輸入特徵412、422、432、442、452。以神經網路410而言，比較參考影像R21與輸入影像N2之間的差異，而在參考影像R21中擷取參考特徵411並且在輸入影像N2中擷取輸入特徵412。神經網路420～450亦以此類推。之後，透過融合層460對參考特徵411～451與輸入特徵412～452執行級聯操作而獲得合併特徵。之後，融合層460將合併特徵輸入至時序性神經網路470而獲得最終預測結果471。

在此，神經網路410～450分別採用ResNet-34、Inception-V1、Inception-V1、VGG-16、VGG-16來實現，時序性神經網路470以長短期記憶（Long Short-Term Memory，LSTM）神經網路來實現，然，在此僅為舉例說明，並不以此為限。由於上述第二架構的識別模型123是採用連續的訓練影像進行訓練，因此適用於對動態影像的臉部表情的識別。

上述圖3及圖4皆是針對1張參考影像與1張輸入影像作為各神經網路的輸入，然，在其他實施例中，也由可圖3及圖4類推至採用2張參考影像與1張輸入影像作為各神經網路的輸入，或者採用3張參考影像與1張輸入影像作為各神經網路的輸入，在此並不限定。

在識別模型123訓練完成之後，處理器110便可透過訓練後的識別模型123來識別待測影像。在識別過程中，識別模型123的輸入可以只有待測影像；或者，識別模型123的輸入也可以同時包括待測影像以及與待測影像屬於相同使用者的已標註有分類標記的至少一張參考影像（測試用參考影像）。

上述實施例可整合至加護病房（Intensive Care Unit，ICU）的實際應用中。電子裝置100可進一步搭配影像擷取裝置（例如相機或攝影機等）來使用，即，由影像擷取裝置來擷取患者的影像，電子裝置100利用臉部擷取程式（例如MediaPipe）或多任務級聯卷積神經網路（Multi-task Cascaded Convolutional Network，MTCNN）來擷取臉部區域的影像作為待測影像，之後，透過識別模型123來識別患者的臉部表情。

又，一般在加護病房的患者其臉部多半會配戴有面罩，因此在進行臉部表情的識別之前，處理器110會先對待測影像進行裁切處理，以將屏蔽部分切除而保留可識別部位。而在此應用中，在訓練過程中，處理器110會先對訓練樣本集121中的訓練樣本執行裁切處理，以將屏蔽部分切除而保留可識別部位。之後，以裁切後的訓練樣本進行後續的訓練。

圖5是依照本發明一實施例的臉部影像的示意圖。底下參照圖5來進行說明。在一實施例中，處理器110採用MTCNN來定位出影像中的臉部影像500。有鑑於眉毛附近的區域是解釋疼痛評分的關鍵區域，因此設定為在髮際線和鼻子之間的第一區域510為可識別部位，不僅可以關注眉毛區域，還可以避免配戴於臉部的醫療設備的混淆。另外，還可進一步以第一區域510的中心為基準，取60%的第一區域510的高度和80%的第一區域510的寬度，而獲得第二區域520作為為可識別部位，藉此進一步縮小視野，使得識別模型123專注於人臉的特定區域（第二區域520）。

在一實施例中，在訓練階段可進一步對訓練樣本集121中的各訓練影像進行裁切處理，以保留人臉的特定區域（如圖5所示的第二區域520）作為訓練影像。而預測階段中，在進行臉部表情的識別之前，處理器110也會先對待測影像進行裁切處理，以針對特定區域（如圖5所示的第二區域520）來進行識別。

圖6是依照本發明一實施例的使用者介面的示意圖。請參照圖6，電子裝置100還可進一步提供使用者介面600於顯示器中。顯示器可以是內建在電子裝置100中，或是透過有線或無線方式耦接至電子裝置100。使用者介面600包括多個區塊610～670。區塊610用以顯示輸入影像，並且可進一步框選出特定區塊A（對應至圖5的第一區域510）。輸入影像的來源選擇則是在區塊620中執行，可選擇由網路攝影機來擷取輸入影像，或者從動態影像資料夾中選擇輸入影像，或者直接選擇資料夾路徑。區塊630用以選擇識別模型123的類型。例如，“{0}, {2}”代表識別模型123的各神經網路的輸入包括分類標籤為“0”與“2”的2張參考影像。“{0}, {1, 2}”代表識別模型123的各神經網路的輸入包括2張參考影像，其中1張的分類標籤為“0”，另1張的分類標籤為“1”或“2”。“{0}, {1}, {2}”代表識別模型123的各神經網路的輸入包括分類標籤為“0”、“1”與“2”的3張參考影像。

區塊640用以顯示事件紀錄（log）。區塊650用以顯示區塊610中所框選的特定區塊A。區塊660用以顯示動態影像的最終預測結果。區塊660所示的曲線圖的橫軸為時間序列（動態影像的時間軸），縱軸代表分類機率。圖中的兩條曲線的上方曲線例如為對應至分類標籤為“0”的可能性，下方曲線例如為對應至分類標籤為“2”的可能性。即，在時間T的影格（作為輸入影像）經由識別模型123進行預測可獲得“0”的機率值以及“2”的機率值。在本實施例中可以看出，所輸入的動態影像的最終預測結果偏向“0”，即，大部分時間都是平靜，只有在某段時間（例如時間40～70）內會比較痛苦。

區塊670顯示靈敏度與臉部擷取率。靈敏度代表識別模型123的正確性。例如，在區塊620中選擇一段影片進行測試時，會在靈敏度對應的欄位中顯示識別模型123的正確率。臉部擷取率代表在所使用的動態影像包括的多個影格（frame）中，總共有幾個影格所能偵測到臉部，以百分比來表示。以82而言，表示100個影格中共有82張影格能夠偵測到臉部。區塊680提供開始按鈕與結束按鈕。

表3所示為使用不同架構進行訓練的識別模型的預測結果。表3列出採用投票模組的架構（與圖3所示的第一架構類似）以及Bi-LTSM（bidirectional LSTM）的架構（與圖4所示的第二架構類似）來實際進行實驗的最終預測結果。

表3

訓練使用的參考影像類別	測試時參考影像的使用
沒有使用	使用分類標籤“0”	使用所有分類標籤
兩個類別 {0},{2}	採用投票模組準確率0.8771	採用投票模組準確率0.8937	採用Bi-LSTM 準確率0.9221
兩個類別 {0},{1, 2}	採用投票模組準確率0.7954	採用投票模組準確率0.8	採用Bi-LSTM 準確率0.8323
三個類別 {0},{1}.{2}	採用投票模組準確率0.6421	採用投票模組準確率0.6347	採用投票模組準確率0.6493

在將電子裝置100應用於醫療系統時，醫護人員可透過由電子裝置100所提供的使用者介面600來進行識別模型123的訓練以及訓練完成後的使用。

例如，醫護人員可在區塊620中選擇輸入影像（患者的影像）的來源，並在區塊610中顯示輸入影像。接著，醫護人員可在區塊630選擇識別模型123的類型。在區塊620、區塊630的選擇完成之後，區塊640會顯示的所述選擇的結果（事件紀錄）。之後，醫護人員可按下區塊680中的開始按鈕，以利用識別模型123來辨識輸入影像，並在區塊660與區塊670中顯示最終預測結果。

綜上所述，本揭露在訓練階段採用不同使用者的參考影用與輸入影像作為神經網路的輸入來進行訓練，可基於兩個影像的差異來擷取特徵，故，可提高模型的辨識準確度。本揭露經由對待測影像執行裁切處理，可在缺乏整體臉部資訊只靠眼睛周邊和參考影像進行比對，便能夠識別受測者的臉部表情。

100:電子裝置 110:處理器 120:儲存設備 121:訓練樣本集 123:識別模型 200A、200B、S205～S215:影像辨識的方法的步驟 310～330、410～450:神經網路 311、321、331、411、421、431、441、451:參考特徵 312、322、332、412、422、432、442、452:參考特徵 313、323、333、460:融合層 314、324、334:全連接層 315、325、335:預測結果 340:投票模組 341、471:最終預測結果 470:時序性神經網路 500:臉部影像 510:第一區域 520:第二區域 600:使用者介面 610～670:區塊 A:特定區塊 N1、N2:輸入影像 R11～R13、R21～R25:參考影像

圖1是依照本發明一實施例的用於影像辨識的電子裝置的方塊圖。圖2是依照本發明一實施例的影像辨識的方法流程圖。圖3是依照本發明一實施例的識別模型的第一架構示意圖。圖4是依照本發明一實施例的識別模型的第二架構示意圖。圖5是依照本發明一實施例的臉部影像的示意圖。圖6是依照本發明一實施例的使用者介面的示意圖。

200A、200B、S205~S215:影像辨識的方法的步驟

Claims

一種用於影像辨識的電子裝置，包括：一儲存設備，儲存一訓練樣本集，該訓練樣本集包括分屬於多個使用者的多組影像集，每一該些影像集包括多張訓練影像，每一該些訓練影像標註有多個分類標籤其中一者；以及一處理器，耦接至該儲存設備，且經配置以訓練一識別模型，以透過訓練後的該識別模型來識別一待測影像屬於該些分類標籤其中一者，其中，該識別模型包括多個神經網路，該處理器經配置以訓練該識別模型，包括：自一第一影像集中取出分別對應該些分類標籤的多張訓練影像作為多個訓練用參考影像，其中該第一影像集為該些影像集其中一個；自一第二影像集中取出一張訓練影像作為一訓練用輸入影像，其中該第二影像集為該些影像集中不同於該第一影像集的另一個；以及以該些訓練用參考影像以及該訓練用輸入影像作為該些神經網路的輸入，以進行訓練，其中每一該些神經網路的輸入包括該些訓練用參考影像中的至少一者以及該訓練用輸入影像。
如請求項1所述的用於影像辨識的電子裝置，該處理器經配置以：對每一該些訓練影像執行一裁切處理，以一屏蔽部分切除而保留一可識別部位。
如請求項1所述的用於影像辨識的電子裝置，其中該識別模型更包括對應至每一該些神經網路的一融合層以及一全連接層，在每一次的疊代訓練中，該處理器經配置以：透過每一該些神經網路在輸入的一個訓練用參考影像與該訓練用輸入影像中分別擷取一參考特徵與一輸入特徵；透過每一該些神經網路對應的該融合層來合併該參考特徵與該輸入特徵而獲得一合併特徵；透過每一該些神經網路對應的該全連接層自該合併特徵中獲得一預測結果；以及利用一投票方式在該些神經網路的所有預測結果中獲得一最終預測結果。
如請求項3所述的用於影像辨識的電子裝置，其中該識別模型包括第一數量的該些神經網路，在每一次的疊代訓練中，該處理器配置以：自該第一影像集中取出該第一數量的該些訓練影像作為該些訓練用參考影像，並將該些訓練用參考影像分別搭配同一張訓練用輸入影像而個別輸入至該些神經網路。
如請求項1所述的用於影像辨識的電子裝置，其中該識別模型更包括一融合層以及一時序性神經網路，在每一次的疊代訓練中，該處理器經配置以：透過每一該些神經網路在輸入的一個訓練用參考影像與該訓練用輸入影像中分別擷取一參考特徵與一輸入特徵；透過該融合層來合併由該些神經網路所獲得的所有參考特徵與所有輸入特徵而獲得一合併特徵；以及透過該時序性神經網路自該合併特徵中獲得一最終預測結果。
如請求項5所述的用於影像辨識的電子裝置，其中該識別模型包括第二數量的該些神經網路，在每一次的疊代訓練中，該處理器配置以：在該第一影像集中具有同一分類標籤的連續多張訓練影像中之尚未在先前疊代訓練中被取出者中，取出該第二數量的該些訓練影像作為該些訓練用參考影像，並將該些訓練用參考影像分別搭配同一張訓練用輸入影像而個別輸入至該些神經網路。
如請求項1所述的用於影像辨識的電子裝置，其中該處理器經配置以：在透過訓練後的該識別模型來識別該待測影像的過程中，該識別模型的輸入包括該待測影像；或者，該識別模型的輸入同時包括該待測影像以及與該待測影像屬於相同使用者的已標註有分類標記的至少一測試用參考影像。
一種影像辨識的方法，其是利用一處理器來實現，該方法包括：訓練一識別模型，以透過訓練後的該識別模型來識別一待測影像屬於多個分類標籤其中一者，其中該識別模型包括多個神經網路，訓練該識別模型的步驟包括：提供一訓練樣本集，該訓練樣本集包括分屬於多個使用者的多組影像集，每一該些影像集包括多張訓練影像，每一該些訓練影像標註有該些分類標籤其中一者；自一第一影像集中取出分別對應該些分類標籤的多張訓練影像作為多個訓練用參考影像，其中該第一影像集為該些影像集其中一個；自一第二影像集中取出一張訓練影像作為一訓練用輸入影像，其中該第二影像集為該些影像集中不同於該第一影像集的另一個；以及以該些訓練用參考影像以及該訓練用輸入影像作為該些神經網路的輸入，以進行訓練，其中每一該些神經網路的輸入包括該些訓練用參考影像中的至少一者以及該訓練用輸入影像。
如請求項8所述的影像辨識的方法，其中訓練該識別模型的步驟更包括：對每一該些訓練影像執行一裁切處理，以將一屏蔽部分切除而保留一可識別部位。
如請求項8所述的影像辨識的方法，其中該識別模型更包括對應至每一該些神經網路的一融合層以及一全連接層，在以該些訓練用參考影像以及該訓練用輸入影像作為該些神經網路的輸入，以進行訓練的步驟中，在每一次的疊代訓練中，包括：透過每一該些神經網路在輸入的一個訓練用參考影像與該訓練用輸入影像中分別擷取一參考特徵與一輸入特徵；透過每一該些神經網路對應的該融合層來合併該參考特徵與該輸入特徵而獲得一合併特徵；透過每一該些神經網路對應的該全連接層自該合併特徵中獲得一預測結果；以及利用一投票方式在該些神經網路的所有預測結果中獲得一最終預測結果。
如請求項10所述的影像辨識的方法，其中該識別模型包括第一數量的該些神經網路，在每一次的疊代訓練中，更包括：自該第一影像集中取出該第一數量的該些訓練影像作為該些訓練用參考影像，並將該些訓練用參考影像分別搭配同一張訓練用輸入影像而個別輸入至該些神經網路。
如請求項8所述的影像辨識的方法，其中該識別模型更包括一融合層以及一時序性神經網路，在以該些訓練用參考影像以及該訓練用輸入影像作為該些神經網路的輸入，以進行訓練的步驟中，在每一次的疊代訓練中，包括：透過每一該些神經網路在輸入的一個訓練用參考影像與該訓練用輸入影像中分別擷取一參考特徵與一輸入特徵；透過該融合層來合併由該些神經網路所獲得的所有參考特徵與所有輸入特徵而獲得一合併特徵；以及透過該時序性神經網路自該合併特徵中獲得一最終預測結果。
如請求項12所述的影像辨識的方法，其中該識別模型包括第二數量的該些神經網路，在每一次的疊代訓練中，更包括：在該第一影像集中具有同一分類標籤的連續多張訓練影像中之尚未在先前疊代訓練中被取出者中，取出該第二數量的該些訓練影像作為該些訓練用參考影像，並將該些訓練用參考影像分別搭配同一張訓練用輸入影像而個別輸入至該些神經網路。
如請求項8所述的影像辨識的方法，其中在透過訓練後的該識別模型來識別該待測影像的過程中，包括：輸入該待測影像至該識別模型；或者輸入該待測影像以及與該待測影像屬於相同使用者的已標註有分類標記的至少一測試用參考影像至該識別模型。