TWI842389B

TWI842389B - 訓練系統、訓練方法以及辨識系統

Info

Publication number: TWI842389B
Application number: TW112105064A
Authority: TW
Inventors: 陳建豪; 吳治緯; 陳世澤
Original assignee: 瑞昱半導體股份有限公司
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2024-05-11
Also published as: US20240273944A1; TW202433339A

Abstract

本發明提供一種訓練系統、訓練方法以及辨識系統。訓練方法用於訓練神經網路模組，神經網路模組包含：編碼模組、共用解碼模組、合成模組以及分類模組；訓練方法包含在一個訓練回合（training epoch）中執行：反覆地執行：將訓練集中的訓練影像作為輸入影像；並且基於訓練影像的多個訓練特徵影像以及對應訓練影像的該些特徵影像，獲得第一損失；基於該訓練影像的分類標記與分類模組對應訓練影像所產生的分類，獲得第二損失；以及基於所有在前述步驟所得的第一損失平均與第二損失的平均以及更新演算法，更新第一參數與第二參數。

Description

訓練系統、訓練方法以及辨識系統

本發明係有關於影像辨識領域。特別是應用神經網路於影像辨識的技術。

人臉辨識(Face Recognition)在現今被應用的非常廣泛，而要如何達到能夠識別出當前的人物身分為何，主要是來自於人臉辨識的學習模型的輸出：人臉辨識學習模型的輸出會是一個一維的向量，而我們會在先前將此人物的臉部向量透過註冊的方式記錄下來，往後就可以透過不同的距離計算方式（歐式距離或是cosine distance）來得到當前人物身分為何。然而人臉辨識學習模型的輸出向量，雖然代表著該受測者臉部的相關資訊，但其排列卻是沒有意義的，該排列的決定方式完全由人臉辨識學習模型透過數據的疊代學習自行決定。但是，就我們人類的感知來說，我們紀錄一個人臉部的資訊主要是來自於該人物的五官資訊，我們可以很明確的知道這位人物他的五官的樣子，並且透過該人物的五官，進而得到這位受測者的身分為何。因此，當部分的五官資訊被物體遮擋（如口罩等），對於我們人類來說還是可以透過該受測者的眼睛來判斷，但對於人臉辨識學習模型來說，眼睛的資訊會被記錄在向量的哪一些位置，我們無從得知，進而導致此向量因五官被部分遮擋產生身分辨識錯誤。

有鑑於此，本發明一些實施例提供一種訓練系統、訓練方法以及辨識系統，以改善現有技術問題。

本發明一實施例提供一種訓練系統，包含至少一處理單元以及神經網路模組，其中神經網路模組包含：編碼模組，具有多個第一參數，經配置以接收輸入影像，並產生多個第一張量，其中多個第一張量包含多個特徵張量，該些特徵張量對應臉部的多個特徵；共用解碼模組，具有多個第二參數，經配置以接收該些特徵張量以產生多個特徵影像；合成模組，經配置以接收該些第一張量以產生一個向量；以及分類模組，經配置以接收前述向量以產生分類；前述至少一處理單元經配置以在一個訓練回合中執行：反覆地執行：將訓練集中的訓練影像作為輸入影像；並且基於訓練影像的多個訓練特徵影像以及對應訓練影像的該些特徵影像，獲得第一損失；基於訓練影像的分類標記與分類模組對應訓練影像所產生的分類，獲得第二損失；以及基於所有在前述步驟所得的第一損失的平均與第二損失的平均以及更新演算法，更新第一參數與第二參數。

本發明一實施例提供一種訓練方法，用於訓練神經網路模組，由至少一處理單元執行，其中神經網路模組包含：編碼模組，具有多個第一參數，經配置以接收輸入影像，並產生多個第一張量，其中多個第一張量包含多個特徵張量，該些特徵張量對應臉部的多個特徵；共用解碼模組，具有多個第二參數，經配置以接收該些特徵張量以產生多個特徵影像；合成模組，經配置以接收該些第一張量以產生一個向量；以及分類模組，經配置以接收前述向量以產生分類；訓練方法包含在一個訓練回合中執行：反覆地執行：將訓練集中的訓練影像作為輸入影像；並且基於訓練影像的多個訓練特徵影像以及對應訓練影像的該些特徵影像，獲得第一損失；基於訓練影像的分類標記與分類模組對應訓練影像所產生的分類，獲得第二損失；以及基於所有在前述步驟所得的第一損失的平均與第二損失的平均以及更新演算法，更新第一參數與第二參數。

本發明一實施例提供一種辨識系統，包含至少一處理單元、辨識編碼模組、辨識合成模組以及記憶單元；辨識編碼模組經配置以儲存多個已訓練第一參數並且經配置以接收輸入影像，並基於該些已訓練第一參數產生多個張量，該些張量中的該些特徵張量對應臉部的多個特徵；辨識合成模組經配置以接收該些張量以產生對應輸入影像的輸出向量；以及記憶單元，經配置以儲存第一向量集合，第一向量集合包含至少一第一向量，其中前述至少一第一向量為由辨識編碼模組與辨識合成模組對應於使用者的至少一影像所產生的輸出向量；前述至少一處理單元經配置以執行：接收待辨識影像；將待辨識影像作為輸入影像輸入至辨識編碼模組，並從辨識合成模組的輸出向量獲得對應待辨識影像的第二向量；以及基於第二向量至使用者的第一向量集合的距離，判斷待辨識影像是否對應使用者。

本發明一實施例提供一種辨識系統，包含至少一處理單元、辨識編碼模組、辨識合成模組以及記憶單元：辨識編碼模組經配置以儲存多個已訓練第一參數並且經配置以接收輸入影像，並基於該些已訓練第一參數產生多個張量，該些張量中的該些特徵張量對應臉部的多個特徵；辨識合成模組經配置以接收該些張量以產生對應該輸入影像的輸出向量；以及記憶單元經配置以儲存至少一組使用者向量，其中每一組使用者向量包含至少一個第一向量，其中每一組使用者向量的至少一第一向量為由辨識編碼模組與辨識合成模組對應於多個使用者中的對應使用者的至少一個影像所產生的輸出向量；前述至少一處理單元經配置以執行：接收待辨識影像；將待辨識影像作為輸入影像輸入至辨識編碼模組，並從辨識合成模組的輸出向量獲得對應待辨識影像的第二向量；以及基於第二向量至前述至少一組使用者向量所構成的多個第一向量集合的多個距離，判斷待辨識影像是否對應於該些使用者中的一個。

本發明一些實施例提供一種辨識系統，其中辨識系統的多個已訓練第一參數使用了前述訓練系統訓練所得的編碼模組的第一參數。

基於上述，本發明一些實施例提供的訓練系統、訓練方法，使用編碼模組-共用解碼模組架構，在模型訓練的過程加入共用解碼模組所產生多個特徵的還原影像與對應多個特徵的多個訓練特徵影像的誤差所構成的損失，來限制模型訓練的過程；並且在模型訓練的過程中，同時使用同一個共用解碼模組在臉部的多個特徵的還原過程，可讓共用解碼模組對不同的臉部特徵資訊，都可以再還原成臉部特徵的樣子，而強迫的讓共用解碼模組的輸入本身就只有臉部特徵的資訊。這使得合成模組所產生的向量中，部分的維度被限制在臉部的多個特徵。本發明一些實施例提供的辨識系統，應用這樣訓練出來的神經網路所產生的向量，可在待辨識影像的臉部有部分特徵被遮擋時，仍可透過其他未被遮擋的特徵資訊來完成身分識別。

有關本發明之前述及其他技術內容、特點與功效，在以下配合參考圖式之實施例的詳細說明中，將可清楚的呈現。任何不影響本發明所能產生之功效及所能達成之目的修改與變更，均仍應落在本發明所揭示之技術內容涵蓋之範圍內。在所有圖式中相同的標號將用於表示相同或相似的元件。以下實施例中所提到的「連接」一詞可指任何直接或間接、有線或無線的連接手段。於本文中，所描述之「第一」或「第二」等類似序數之詞語，係用以區分或指關聯於相同或類似的元件或結構，且不必然隱含此等元件在系統上的順序。應了解的是，在某些情況或配置下，序數詞語係可交換使用而不影響本發明之實施。

圖1係依據本發明一實施例所繪示的訓練系統方塊圖。請參閱圖1，訓練系統100包含處理單元101-1、101-2至101-N，以及神經網路模組102。其中，N為正整數，N的值可為1。處理單元101-1至101-N經配置以獲得輸入影像107。神經網路模組102包含編碼模組103、合成模組104、共用解碼模組105以及分類模組106。

編碼模組103具有多個第一參數。編碼模組103經配置以從處理單元101-1至101-N接收前述輸入影像107，並基於前述第一參數，對應輸入影像107產生多個第一張量。其中前述多個第一張量包含多個特徵張量，前述多個特徵張量對應臉部的多個特徵，以下會以具體的例子說明。共用解碼模組105具有多個第二參數。共用解碼模組105經配置以接收前述編碼模組103所產生的多個特徵張量，並基於前述多個第二參數，對所接收到的每一個特徵張量產生一個特徵影像。合成模組104經配置以接收編碼模組103所產生的多個第一張量，並基於接收到的多個第一張量產生一個向量。分類模組106經配置以接收合成模組104所產生的向量，並對應前述接收到的向量產生一分類。

在本發明一些實施例中，處理單元101-1、101-2至101-N在訓練方法的步驟開始時，先基於一機率分布（例如，常態分布）隨機設定前述多個第一參數與前述多個第二參數的初始值。處理單元101-1、101-2至101-N可利用一般程式語言所提供以軟體模擬隨機的函式，例如Python裡random模組的random()函式隨機設定前述多個第一參數與多個第二參數的初始值。

訓練系統100的處理單元101-1至101-N會基於底下關於圖2至圖4說明的技術內容產生一訓練集，訓練集包含多個訓練影像，每一個訓練影像都具有一個分類標記以及對應臉部的多個特徵的多個訓練特徵影像。以下即對如何產生訓練集進行說明。圖2係依據本發明一實施例所繪示的訓練影像定位點示意圖。圖3係依據本發明一實施例所繪示的改進的高斯遮罩（modified Gaussian mask）示意圖。圖4係依據本發明一實施例所繪示的訓練影像以及訓練特徵影像示意圖。

請同時參閱圖2至圖4。在本發明一些實施例中，前述臉部的多個特徵為眼睛、鼻子以及嘴巴。訓練系統100的處理單元101-1至101-N可先接收包含多個不同人的多張包含臉部的訓練影像。也就是說，每一張訓練影像都對應一個人。訓練集之中的一個人對應訓練集的一個訓練分類。因此，訓練集之中不同的人的數量代表訓練分類的數量。訓練系統100基於每一張訓練影像所對應的人，對每一張訓練影像設定一分類標記。

訓練系統100的處理單元101-1至101-N基於前述臉部的多個特徵（在此實施例中為眼睛、鼻子以及嘴巴），利用人臉特徵點定位方法（facial landmark localization method）偵測每一張訓練影像的臉部的多個特徵（在此實施例中為眼睛、鼻子以及嘴巴）的位置。請參閱圖2，訓練系統100的處理單元101-1至101-N利用人臉特徵點定位方法偵測訓練影像201的臉部的多個特徵，並獲得訓練影像201的眼睛位置2021-1與2021-2、鼻子位置2022以及嘴巴位置2023-1與2023-2。訓練系統100再利用高斯遮罩作用在鼻子位置2022以及嘴巴位置2023-1與2023-2以獲得鼻子的訓練特徵影像以及嘴巴的訓練特徵影像。訓練系統100利用改進的高斯遮罩作用在眼睛位置2021-1與2021-2以獲得眼睛的訓練特徵影像。

請參閱圖4，圖4繪示了訓練影像501以及訓練影像501的眼睛的訓練特徵影像502、鼻子的訓練特徵影像503以及嘴巴的訓練特徵影像504。如圖4所繪示，眼睛的訓練特徵影像502僅包含了訓練影像501眼睛部分的特徵，鼻子的訓練特徵影像503以及嘴巴的訓練特徵影像504則分別包含了訓練影像501鼻子部分以及嘴巴部分的特徵。

高斯遮罩可利用下列函式得到， …（函式1）請參閱圖3，高斯遮罩影像301為基於前述（函式1）（其中，設定為1）所繪示的大小為的二維高斯遮罩影像。如圖3所繪示，當高斯遮罩影像301所代表的高斯遮罩作用於影像時，將會加強中心部分的強度，並漸次衰減外圍部分的強度。

為獲得眼睛的訓練特徵影像，可使用S狀函式遮罩（sigmoid function mask）影像401所代表的S狀函式遮罩對高斯遮罩影像301所代表的高斯遮罩進行逐元素相乘（elementwise multiplication）以得到改進的高斯遮罩404。

其中，S狀函式遮罩為利用遮罩的y軸座標，利用遮罩的y軸座標中的最大值正規化（normalize）所有y軸座標後，以一倍數放大正規化後y軸座標的正值部分，再以S狀函式取值，其中S狀函式為： …（函式2）以的S狀函式遮罩為例，由於y軸座標為-40至40。因此，以40正規化-40至40可以得到如遮罩矩陣402所記載的1、0.975、0.95、…、-0.95、-0.975、-1。再將1、0.975、0.95、…、-0.95、-0.975、-1中正值的部分乘以2，則可以得到遮罩矩陣403所記載的2、1.95、1.9、…、-0.95、-0.975、-1。再以S狀函式對遮罩矩陣403取值，例如，遮罩矩陣403的元素4041的值為2，則以前述S狀函式（函式2）取值為1.99（在此實施例中，設定，）；遮罩矩陣403的元素4042的值為1.95，則以前述S狀函式（函式2）取值為1.99；遮罩矩陣403的元素4043的值為-1，則以前述S狀函式（函式2）取值為0.035。依此最後可獲得S狀函式遮罩（sigmoid function mask）影像401所代表的S狀函式遮罩。

值得說明的是，遮罩的大小可依據訓練影像201的大小進行調整，本發明並不以的遮罩為限。

在本發明一些實施例中，前述人臉特徵點定位方法為利用多任務卷積神經網路（Multi-task Cascaded Convolutional Networks，MTCNN）偵測人臉特徵點之位置。

值得說明的是，發明所屬技術領域中具有通常知識者依據需求，可輕易將前述臉部的多個特徵替換為其他部位。本發明並不以眼睛、鼻子以及嘴巴為限。

另值得說明的是，在本發明一些實施例中，訓練集由其他系統所產生，訓練系統100從外部接收其他系統所產生的訓練集。

以下即配合圖式詳細說明本發明一些實施例之訓練方法以及訓練系統100之各模組之間如何協同運作。

圖7係依據本發明一些實施例所繪示的訓練方法流程圖。請同時參閱圖1、圖4以及圖7，在圖7所繪示的實施例中，訓練方法包含由處理單元101-1至101-N在一個訓練回合中執行步驟S1301以及步驟S1302。在步驟S1301中，處理單元101-1至101-N反覆地執行以下步驟：將訓練集（例如前述由訓練系統100所產生的訓練集）中的訓練影像（例如訓練影像501）作為輸入影像輸入至編碼模組103，並且基於訓練影像的多個訓練特徵影像（例如眼睛的訓練特徵影像502、鼻子的訓練特徵影像503以及嘴巴的訓練特徵影像504）以及由共用解碼模組105對應訓練影像所產生的多個特徵影像，獲得第一損失；處理單元101-1至101-N基於訓練影像的分類標記（例如前述基於訓練影像501所對應的人，訓練影像501被設定的分類標記）與分類模組106對應訓練影像所產生的分類，獲得第二損失。

在訓練集中所有預定輸入至編碼模組103的訓練影像都輸入至編碼模組103，並獲得多個第一損失與多個第二損失後，處理單元101-1至101-N執行步驟S1302。在步驟S1302中，基於所有在步驟S1301中所得到的第一損失的平均與第二損失的平均以及所採用的更新演算法，更新前述多個第一參數與多個第二參數。採用第一損失的平均與第二損失的平均可使前述多個第一參數與多個第二參數的更新不受到訓練影像數量的影響。

前述更新演算法可為梯度下降法（Gradient descent，GD）、隨機梯度下降法（Stochastic gradient descent，SGD）、動量法（Momentum）、RMSProp方法、Adagrad方法以及適應性矩估計（Adaptive moment estimation，Adam）方法其中之一，或者是其他更新演算法，本發明並不對使用何種更新演算法予以限制。

圖5-1係依據本發明一些實施例所繪示的訓練系統模組示意圖。圖5-2係依據本發明一些實施例所繪示的特徵影像與訓練特徵影像對應示意圖。

請參閱圖5-1，在圖5-1所繪示的實施例中，編碼模組103包含第一卷積層模組601以及第二卷積層模組602。其中第一卷積層模組601經配置以接收輸入影像107，並輸出對應輸入影像107的第二張量。第二卷積層模組602經配置以接收前述第二張量以產生多個第一張量。

如圖5-1所繪示，在本發明一些實施例中，第一卷積層模組601包含串連的第三卷積層模組6011~6014，用以擷取輸入影像107的特徵。其中，第三卷積層模組6011~6014分別輸出一個3軸（axis）張量。3個軸分別註記為寬度軸、高度軸以及通道（channel）軸。各軸的數量標示於各卷積層模組上。舉例來說，第三卷積層模組6011的寬度標示為64，高度標示為64，通道標示為8，表示第三卷積層模組6011以8個卷積核（convolution kernel）對輸入影像107作用，將8個卷積核對輸入影像107作用所得到的張量依序疊（concat）起，以得到寬度軸數量為64、高度軸數量為64以及通道軸的通道數量為8的輸出張量，這樣的張量被稱為維度為的張量。其中，輸入影像107高度軸為128、寬度軸為128以及通道軸為3表示輸入影像107大小為，具有對應R、G、B3種顏色的通道。

第二卷積層模組602包含並連的第四卷積層模組6021~6024，分別接收第三卷積層模組6014所輸出的張量。並且如圖5-1所繪示，第四卷積層模組6021~6024分別以各自的32個卷積核對第三卷積層模組6014所輸出的張量作用，以各自輸出寬度軸數量為1、高度軸數量為1以及通道軸的通道數量為32的輸出張量。第四卷積層模組6021~6024所輸出的張量為編碼模組103所輸出的多個第一張量。

在本發明其他實施例中，第一卷積層模組601被設置成輸出一個的張量，再由一分割模組基於通道軸將其分割成4個的張量，以做為上述多個第一張量。分割模組可基於通道軸之順序，每32個通道為一組，以將前述第一卷積層模組601輸出的的張量分割成4個的張量。當然，分割模組也可基於其他次序基於通道軸分割，本發明並不予以限定。分割模組的架構為神經網路領域的慣用手段，於此不再贅述。

在本實施例中，第四卷積層模組6021~6024所輸出的張量分別被設定為對應眼睛特徵的眼睛特徵張量、對應鼻子特徵的鼻子特徵張量，以及對應嘴巴特徵的嘴巴特徵張量。

在本實施例中，共用解碼模組105包含串連的轉置卷積層模組1051~1055。共用解碼模組105用以分別接收前述眼睛、鼻子以及嘴巴特徵張量，並分別產生各自的特徵影像。

其中，轉置卷積層模組1051~1055、各自輸出一個3軸（axis）張量。3個軸分別註記為寬度軸、高度軸以及通道（channel）軸。各軸的數量標示於各轉置卷積層模組上。舉例來說，轉置卷積層模組1051的寬度標示為8，高度標示為8，通道標示為56，表示轉置卷積層模組1051以56個卷積核對所接收的張量作用，將56個卷積核對所接收的張量作用所得到的張量依序疊（concat）起，以得到寬度軸數量為8、高度軸數量為8以及通道軸的通道數量為56的輸出張量。

在本實施例中，前述多個第一參數包含第一卷積層模組601與第二卷積層模組602中各卷積層模組的所有卷積核的參數。前述多個第二參數包含共用解碼模組105中各轉置卷積層模組的所有卷積核的參數。

在本實施例中，轉置卷積層模組1055所輸出的張量被稱為特徵影像。並且在此實施例中，眼睛、鼻子以及嘴巴特徵張量所對應的特徵影像分別被稱為眼睛特徵影像、鼻子特徵影像以及嘴巴特徵影像。

值得說明的是，眼睛、鼻子以及嘴巴特徵張量是依照一順序分別輸入至共用解碼模組105。

請參閱圖5-2，在此實施例中，當轉置卷積層模組1055輸出眼睛特徵影像後，處理單元101-1、101-2至101-N計算眼睛特徵影像與眼睛的訓練特徵影像502的距離。相同地，鼻子特徵影像與鼻子的訓練特徵影像503的距離，以及嘴巴特徵影像與嘴巴的訓練特徵影像504的距離可以被計算出來。處理單元101-1、101-2至101-N以前述3個距離的和作為前述第一損失。前述以影像距離作為損失函式被稱為採用損失。

值得說明的是，第一張量中的多個特徵張量的維度可以與第一張量中的其他張量維度不同，也就是說，特徵張量可以具有較多的元素以表示臉部的特徵。

在前述圖5-1的實施例中，合成模組104基於所接收張量的通道軸，將所接收4個維度為的第一張量，合成為維度為的張量，維度為的張量可視為一個向量。

值得說明的是，在圖5-1所繪示的實施例中，編碼模組103所產生的多個第一張量的維度皆為的張量，合成模組104只需基於所接收第一張量的通道軸結合第一張量即可獲得一向量。合成模組104也可以接受其他維度的第一張量，合成模組104先將所接收的第一張量重塑為形式的張量（其中為一正整數），再基於通道軸結合所有第一張量，如此可獲得一個向量。

在本發明一些實施例中，分類模組106包含第一全連接層模組以及第二全連接層模組。在此實施例中，訓練集的訓練分類以獨熱編碼表示，例如，以表示訓練集中的一個人，以表示訓練集中的另一個人，以此類推。第一全連接層模組經配置以對應前述獨熱編碼使輸出數量相同於訓練集的訓練分類的數量。

當分類模組106接收合成模組104所輸出的向量從第二全連接層模組輸出分類模組106的輸出時，處理單元101-1至101-N計算分類模組106的輸出與訓練影像的分類標記的獨熱編碼的誤差平方和（Sum of squared errors，SSE）以獲得第二損失。舉例來說，若分類模組106對應訓練影像的輸出為，而訓練影像的分類標記的獨熱編碼為，則第二損失可計算得。

在本發明一些實施例中分類模組106包含第一全連接層模組、第二全連接層模組以及歸一化指數函式層（Softmax layer）。在此實施例中，訓練集的訓練分類以獨熱編碼表示，歸一化指數函式層經配置使輸出數量相同於訓練集的訓練分類的數量，並且歸一化指數函式層的第個輸出為對應訓練集中第個訓練分類的機率。

處理單元101-1至101-N計算分類模組106的輸出與訓練影像的分類標記的獨熱編碼的交叉熵誤差（Cross entropy error）以獲得第二損失。舉例來說，若分類模組106對應訓練影像的輸出為，而訓練影像的分類標記的獨熱編碼為，則第二損失可計算得。

在一實施例中，令表示總平均損失，令表示第一損失的平均，令表示第二損失的平均，令num表示臉部的多個特徵的數量（例如在前述實施例中，具有眼睛、鼻子以及嘴巴等3個特徵），則其中，的範圍為0.01~0.1。在本實施例的步驟S1302中，處理單元101-1至101-N係基於總平均損失以及更新演算法，更新第一參數與第二參數。

圖6係依據本發明一些實施例所繪示的辨識系統方塊圖。請參閱圖6，辨識系統1000包含處理單元1001-1、1001-2至1001-M，辨識模組1002以及記憶單元1003，其中M為正整數。處理單元1001-1至1001-M經配置以獲得待辨識影像1004。辨識模組1002包含辨識編碼模組10021以及辨識合成模組10022。其中，辨識編碼模組10021採用前述訓練系統100訓練完成的編碼模組103，辨識編碼模組10021儲存有由訓練系統100所獲得的已訓練的第一參數。辨識編碼模組10021經配置以儲存已訓練的前述第一參數並且經配置以接收輸入影像，並產生多個張量，其中前述多個張量包含多個特徵張量，前述多個特徵張量對應臉部的多個特徵（這裡使用張量指稱辨識編碼模組10021的輸出以與前述第一張量區別，這些張量包含多個特徵張量對應臉部的多個特徵）。辨識編碼模組10021經配置以從處理單元1001-1至1001-M接收前述待辨識影像1004。辨識合成模組10022則採用前述對應編碼模組103的合成模組104。辨識合成模組10022經配置以接收辨識編碼模組10021所產生的多個張量，並基於接收到的多個張量產生對應輸入影像的向量（為與前述合成模組104基於接收到的多個第一張量所產生的一個向量區別，辨識合成模組10022基於接收到的多個張量所產生對應輸入影像的向量被稱為對應輸入影像的輸出向量）。

本發明的辨識系統可應用於單一使用者或多個使用者的實施例，以下將分別說明。

在本發明辨識系統的一些應用於單一使用者的實施例中，處理單元1001-1至1001-M從外部接收一個使用者的至少一個影像，並輸入至辨識編碼模組10021以從辨識合成模組10022得到至少一個第一向量，其中每一個第一向量為由辨識編碼模組10021與辨識合成模組10022對應於一使用者的一個影像所產生的輸出向量。處理單元1001-1至1001-M再將前述至少一個第一向量儲存至前述記憶單元1003。前述至少一第一向量所構成的集合稱為第一向量集合。圖8係依據本發明一些實施例所繪示的辨識方法流程圖，請同時參閱圖6以及圖8，承接前述實施例，辨識方法包含由處理單元1001-1至1001-M執行步驟S1501至步驟S1503。在步驟S1501中，接收前述待辨識影像1004。在步驟S1502中，將待辨識影像1004作為輸入影像輸入至辨識編碼模組10021，並從辨識合成模組10022的輸出向量獲得對應待辨識影像1004的第二向量（亦即以辨識合成模組10022的輸出向量作為對應待辨識影像1004的第二向量）。以及在步驟S1503中，基於第二向量至使用者的第一向量集合的距離，判斷待辨識影像1004是否對應前述使用者。

前述第二向量至使用者的第一向量集合的距離有多種不同的定義方法。例如可以計算第二向量至每一個第一向量間的距離，再取這些距離的平均值或最大值，以做為第二向量至該第一向量集合的距離。

在本發明一些實施例中，前述步驟S1503還包含響應於第二向量至使用者的第一向量集合的距離小於一個預定值，判斷待辨識影像1004對應前述使用者。

在本發明辨識系統的一些應用於多個使用者的實施例中，處理單元1001-1至1001-M針對多個使用者從外部接收每一個使用者的至少一個影像。處理單元1001-1至1001-M將接收到的各使用者的至少一個影像輸入至辨識編碼模組10021以從辨識合成模組10022得到多組使用者向量，每一組使用者向量對應一個使用者，並且每一組使用者向量包含至少一第一向量，其中，與前述實施例相同，每一組使用者向量所包含的每一個第一向量為由辨識編碼模組10021與辨識合成模組10022對應於使用者的一個影像所產生的輸出向量。處理單元1001-1至1001-M將前述多組使用者向量儲存至前述記憶單元1003。每一組使用者向量包含的至少一第一向量構成該使用者的第一向量集合，故每一個使用者均對應一個第一向量集合。圖9係依據本發明一些實施例所繪示的辨識方法流程圖，請同時參閱圖6以及圖9，承接前述實施例，在圖9所繪示的實施例中，辨識方法包含由處理單元1001-1、1001-2至1001-M執行步驟S1601至步驟S1603。在步驟S1601中，接收前述待辨識影像1004。在步驟S1602中，將待辨識影像1004作為輸入影像輸入至辨識編碼模組10021，並從辨識合成模組10022的輸出獲得對應待辨識影像1004的第二向量。以及在步驟S1603中，計算第二向量到每一個第一向量集合的距離，其中「距離」可依照前述方法定義。處理單元1001-1、1001-2至1001-M再基於第二向量至多個第一向量集合的多個距離，判斷待辨識影像1004是否對應於前述使用者中的一個。

在本發明一些實施例中，前述步驟S1603包含響應於前述距離中最小的一個第一距離小於預定值，判斷待辨識影像1004對應於該些使用者中對應於前述第一距離的第一使用者。

前述實施例提供的訓練系統、訓練方法，使用編碼模組-共用解碼模組架構，在模型訓練的過程加入共用解碼模組所產生多個特徵的還原影像與對應多個特徵的多個訓練特徵影像的誤差所構成的損失，來限制模型訓練的過程；並且在模型訓練的過程中，同時使用同一個共用解碼模組在臉部的多個特徵的還原過程，可讓共用解碼模組對不同的臉部特徵資訊，都可以再還原成臉部特徵的樣子，而強迫的讓共用解碼模組的輸入本身就只有臉部特徵的資訊。這使得合成模組所產生的向量中，部分的維度被限制在臉部的多個特徵。本發明一些實施例提供的辨識系統，應用這樣訓練出來的神經網路所產生的向量，可在待辨識影像的臉部有部分特徵被遮擋時，仍可透過其他未被遮擋的特徵資訊來完成身分識別。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100:訓練系統 101-1~101-N, 1001-1~1001-M:處理單元 102:神經網路模組 103:編碼模組 104:合成模組 105:共用解碼模組 106:分類模組 107:輸入影像 N, M, R:正整數 201:訓練影像 2021-1, 2021-2:眼睛位置 2022:鼻子位置 2023-1與2023-2:嘴巴位置 301:高斯遮罩影像 401:S狀函式遮罩影像 402, 403:遮罩矩陣 404:改進的高斯遮罩 4041~4043:元素 501:訓練影像 502:眼睛的訓練特徵影像 503:鼻子的訓練特徵影像 504:嘴巴的訓練特徵影像 601:第一卷積層模組 602:第二卷積層模組 6011, 6012, 6013, 6014:第三卷積層模組 6021, 6022, 6023, 6024:第四卷積層模組 1051, 1052, 1053, 1054, 1055:轉置卷積層模組 1000:辨識系統 1002:辨識模組 1003:記憶單元 1004:待辨識影像 10021:辨識編碼模組 10022:辨識合成模組 S1301~S1302, S1402~S1402, S1501~S1503, S1601~S1603:步驟

圖1係依據本發明一實施例所繪示的訓練系統方塊圖。圖2係依據本發明一實施例所繪示的訓練影像定位點示意圖。圖3係依據本發明一實施例所繪示的改進的高斯遮罩示意圖。圖4係依據本發明一實施例所繪示的訓練影像以及訓練特徵影像示意圖。圖5-1係依據本發明一些實施例所繪示的訓練系統模組示意圖。圖5-2係依據本發明一些實施例所繪示的特徵影像與訓練特徵影像對應示意圖。圖6係依據本發明一些實施例所繪示的辨識系統方塊圖。圖7係依據本發明一些實施例所繪示的訓練方法流程圖。圖8係依據本發明一些實施例所繪示的辨識方法流程圖。圖9係依據本發明一些實施例所繪示的辨識方法流程圖。

100:訓練系統

101-1,101-2至101-N:處理單元

102:神經網路模組

103:編碼模組

104:合成模組

105:共用解碼模組

106:分類模組

107:輸入影像

N:正整數

Claims

一種訓練系統，包含：至少一處理單元以及一神經網路模組，其中該神經網路模組包含：一編碼模組，具有多個第一參數，經配置以接收一輸入影像，並產生多個第一張量，其中該些第一張量包含多個特徵張量，該些特徵張量對應臉部的多個特徵；一共用解碼模組，具有多個第二參數，經配置以接收該些特徵張量以產生多個特徵影像；一合成模組，經配置以接收該些第一張量以產生一向量；以及一分類模組，經配置以接收該向量以產生一分類；該至少一處理單元經配置以在一訓練回合中執行：（a）反覆地執行：將一訓練集中的一訓練影像作為該輸入影像；並且基於該訓練影像的多個訓練特徵影像以及對應該訓練影像的該些特徵影像，獲得一第一損失；基於該訓練影像的一分類標記與該分類模組對應該訓練影像所產生的該分類，獲得一第二損失；以及（b）基於所有在步驟（a）所得的該第一損失的一平均與該第二損失的一平均以及一更新演算法，更新該第一參數與該第二參數。
如請求項1所述之訓練系統，其中該編碼模組包含一第一卷積層模組與一第二卷積層模組，其中該第一卷積層模組經配置以接收該輸入影像，並輸出對應該輸入影像的一第二張量，該第二卷積層模組經配置以接收該第二張量以產生該些第一張量。
如請求項2所述之訓練系統，其中該第一卷積層模組包含串聯的多個第三卷積層模組，該第二卷積層模組包含並聯的多個第四卷積層模組，其中該些第四卷積層模組經配置以分別輸出該些第一張量。
如請求項3所述之訓練系統，其中每一該第四卷積層模組利用多個卷積核將一第三張量轉換成一第四張量，其中該第四張量之維度為，為該第四張量之通道數量，該些卷積核之數量為，為一正整數，所有對應該些第四卷積層模組的該些第四張量構成該些第一張量。
如請求項1所述之訓練系統，其中該共用解碼模組包含串聯的多個轉置卷積層模組，該些轉置卷積層模組經配置以分別接收該些特徵張量，每一該特徵張量轉換成對應的一對應特徵影像，該些對應特徵影像構成該些特徵影像。
如請求項1所述之訓練系統，其中該編碼模組包含一第一卷積層模組與一分割模組，其中該第一卷積層模組經配置以接收該輸入影像，並輸出對應該輸入影像的一第二張量，該分割模組經配置以接收該第二張量，並基於該第二張量的一通道軸，分割該第二張量以產生該些第一張量。
如請求項1所述之訓練系統，其中該第一損失採用損失。
如請求項1所述之訓練系統，其中，步驟（b）包含：（b1）基於該第一損失的該平均與該第二損失的該平均計算一總平均損失，其中該總平均損失為該第一損失的該平均乘以一系數後加上該第二損失的該平均，其中該系數為一子系數除以該些特徵的一數量；以及（b2）基於該總平均損失以及該更新演算法，更新該些第一參數與該些第二參數；其中，該子系數選擇自[0.01,0.1]的區間。
一種訓練方法，用於訓練一神經網路模組，由至少一處理單元執行，該神經網路模組包含：一編碼模組，具有多個第一參數，經配置以接收一輸入影像，並產生多個第一張量，其中該些第一張量包含多個特徵張量，該些特徵張量對應臉部的多個特徵；一共用解碼模組，具有多個第二參數，經配置以接收該些特徵張量以產生多個特徵影像；一合成模組，經配置以接收該些第一張量以產生一向量；以及一分類模組，經配置以接收該向量以產生一分類；該訓練方法包含在一訓練回合中執行：（a）反覆地執行：將一訓練集中的一訓練影像作為該輸入影像；並且基於該訓練影像的多個訓練特徵影像以及對應該訓練影像的該些特徵影像，獲得一第一損失；基於該訓練影像的一分類標記與該分類模組對應該訓練影像所產生的該分類，獲得一第二損失；以及（b）基於所有在步驟（a）所得的該第一損失的一平均與該第二損失的一平均以及一更新演算法，更新該第一參數與該第二參數。
一種使用請求項1至8所述之訓練系統訓練所得的該編碼模組的該些第一參數的辨識系統，該辨識系統包含：至少一處理單元；一辨識編碼模組，該辨識編碼模組經配置以儲存已訓練的該些第一參數並且經配置以接收一輸入影像，並產生多個張量，該些張量中的該些特徵張量對應臉部的多個特徵；一辨識合成模組，經配置以接收該些張量以產生對應該輸入影像的一輸出向量；以及一記憶單元，經配置以儲存一第一向量集合，該第一向量集合包含至少一第一向量，其中該至少一第一向量為由該辨識編碼模組與該辨識合成模組對應於一使用者的至少一影像所產生的該輸出向量；該至少一處理單元經配置以執行：（a）接收一待辨識影像；（b）將該待辨識影像作為該輸入影像輸入至該辨識編碼模組，並從該辨識合成模組的該輸出向量獲得對應該待辨識影像的一第二向量；以及（c）基於該第二向量至該使用者的該第一向量集合的一距離，判斷該待辨識影像是否對應該使用者。