TWI739401B

TWI739401B - 物件分類方法及物件分類裝置

Info

Publication number: TWI739401B
Application number: TW109113415A
Authority: TW
Inventors: 王家慶; 薇虹段; 王建宏; 裴孟俊; 栗永徽; 戴自強
Original assignee: 國立中央大學
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2021-09-11
Also published as: TW202141343A

Abstract

本揭露提出一種物件分類方法及物件分類裝置。物件分類方法包括：透過卷積神經網路模型接收物件的輸入圖像並將輸入圖像轉換為RGB色彩空間的第一圖像、HSV色彩空間的第二圖像及YCrCb色彩空間的第三圖像；將第一圖像、第二圖像及第三圖像分別編碼為第一編碼數據、第二編碼數據及第三編碼數據，並串聯第一編碼數據、第二編碼數據及第三編碼數據成為串聯輸出，其中串聯輸出與輸入圖像的寬度及高度相同且深度維度不同；以及解碼串聯輸出產生解碼數據並根據解碼數據產生分類輸出。

Description

物件分類方法及物件分類裝置

本揭露是有關於一種物件分類方法及物件分類裝置，且特別是有關於一種基於深度學習演算法的物件分類方法及物件分類裝置。

隨著機器學習的發展，物件辨識或物件分類方法逐漸被開發出來。然而，目前的物件辨識技術中在辨識真假物件的效果並不好，例如無法分辨真實人臉或假的人臉。因此，如何建立一個能辨識真假物件外觀表面的系統是本領域技術人員應致力的目標。

有鑑於此，本揭露提供一種物件分類方法及物件分類裝置，能辨識真假物件外觀表面並進行分類。

本揭露提出一種物件分類方法，包括：透過卷積神經網路模型接收物件的輸入圖像並將輸入圖像轉換為RGB色彩空間的第一圖像、HSV色彩空間的第二圖像及YCrCb色彩空間的第三圖像；將第一圖像、第二圖像及第三圖像分別編碼為第一編碼數據、第二編碼數據及第三編碼數據，並串聯第一編碼數據、第二編碼數據及第三編碼數據成為串聯輸出，其中串聯輸出與輸入圖像的寬度及高度相同且深度維度不同；以及解碼串聯輸出產生解碼數據並根據解碼數據產生分類輸出。

基於上述，本揭露的物件分類方法及物件分類裝置將輸入圖像轉換成三個不同色彩空間的圖像，並將轉換後的圖像進行編碼再串聯輸出。串聯輸出與輸入圖像的寬度及高度相同且深度維度不同。最後，對串聯輸出進行解碼以產生解碼數據並根據解碼數據產生分類輸出。

100:物件分類裝置

110:處理器

120:記憶體

210:輸入圖像

221:RGB色彩空間

222:HSV色彩空間

223:YCrCb色彩空間

231~233:編碼器

240:串聯模組

250:解碼器

261~262:全連接層

270:分類輸出

310:輸入資料

321:多個第一卷積層

322:多個第二卷積層

323:多個第三卷積層

331:第一池化層

332:第二池化層

340:串聯模組

350:串聯輸出

圖1為根據本揭露一實施例的物件分類裝置的方塊圖。

圖2為根據本揭露一實施例的物件分類方法的架構圖。

圖3為根據本揭露一實施例的物件分類方法分支結構的示意圖。

圖1為根據本揭露一實施例的物件分類裝置的方塊圖。

請參考圖1，本揭露一實施例的物件分類裝置100包括處理器110及記憶體120。記憶體120耦接到處理器110。物件分類裝置100例如是個人電腦、筆記型電腦、平板電腦、智慧型手機或其他類似裝置。處理器110例如是中央處理器(Central Processing Unit，CPU)或其他類似裝置。記憶體120可包括揮發性記憶體模組(例如，動態隨機存取記憶體等裝置)及非揮發性記憶體模組(例如，硬碟、固態硬碟等裝置)。在一實施例中，記憶體120可儲存人工智慧模組(例如，卷積神經網路模組)，且處理器110可執行人工智慧模組以進行物件分類、物件辨識及模型訓練等操作。

圖2為根據本揭露一實施例的物件分類方法的架構圖。

請參照圖2，本揭露一實施例的物件分類方法透過卷積神經網路(Convolutional Neural Network，CNN)模型接收物件的輸入圖像210並將輸入圖像210轉換為RGB色彩空間221的第一圖像、HSV色彩空間222的第二圖像及YCrCb色彩空間223的第三圖像，並將第一圖像、第二圖像及第三圖像透過編碼器231、編碼器232及編碼器233分別編碼為第一編碼數據、第二編碼數據及第三編碼數據。物件可包括人臉、動物、植物及物體。接著，第一編碼數據、第二編碼數據及第三編碼數據在串聯模組240被串聯成為串聯輸出。串聯輸出與輸入圖像210的寬度及高度相同且深度維度不同。解碼器250解碼串聯輸出產生解碼數據，解碼數據通過全連接層261及全連接層262，最後根據解碼數據產生分類輸出270。

圖3為根據本揭露一實施例的物件分類方法的一分支結構的示意圖。

請參照圖3，對應不同色彩空間的每個分支的分支結構依序包括輸入資料310、多個第一卷積層321、第一池化層331、多個第二卷積層322、第二池化層332及多個第三卷積層323。第一池化層331、第二池化層332及第三卷積層323的多個輸出透過串聯模組340產生串聯輸出350。值得注意的是，第一池化層331對應64x64的特徵、第二池化層332對應32x32的特徵且串聯輸出350對應32x32的特徵。在各個卷積層中的激勵函數為整流線性單位函數(Rectified Linear Unit,ReLU)，並具有以下方程式：y=max(0,x)。在本實施例中，整流線性單位函數激勵函數可使卷積神經網路模型的收斂速度比S函數(即，Sigmoid)或雙曲正切函數(即，tanh)等激勵函數來得快。值得注意的是，分支的分支結構可對多維視點進行建模操作，並在單色空間及多個色彩空間對該輸入資料310(或稱為輸入圖像)進行操作。

表三為根據本揭露一實施例的分支結構表。

在上表三中，「Conv2d_1」到「Conv2d_4」、「Conv2d_5」到「Conv2d_7」及「Conv2d_8」到「Conv2d_10」分別對應多個第一卷積層321、多個第二卷積層322及多個第三卷積層323。「Pooling_1」及「Pooling_2」分別對應第一池化層331及第二池化層332。

請再參考圖2，在一實施例中，訓練卷積神經網路模型包括第一步驟及第二步驟。第一步驟包括訓練對應多個色彩空間的多個分支的多個自動編碼(AutoEncoder)模型且輸出標籤為自動編碼模型的輸入，如此可讓卷積神經網路模型選出最重要的特徵來重建輸入圖像210。第二步驟包括串聯分支並在對應分支的解碼器231、解碼器232、解碼器233後連接多個全連接層261、全連接層262及輸出層270。在第二步驟中分支及解碼器231、解碼器232、解碼器233不進行訓練(即，被凍結)且全連接層261、全連接層262及輸出層270被訓練。

為了得知物體的真假資訊(例如，真臉或假臉)，二元交叉熵損失(Cross-Entropy Loss)函數被用於判斷輸入圖像210的機率。二元交叉熵損失又稱為S(Sigmoid)交叉熵損失，由S激勵加上交叉熵損失組成。與「softmax」損失函數相比，二元交叉熵損失的每個向量元件(即，分類)都是獨立的，也就是說每個卷積神經網路輸出向量元件計算出的損失不被其他元件的值所影響因此用於多標籤分類，因此屬於特定分類元件的洞察(insight)不會被其他分類的決定所影響。

二元交叉熵損失為每個C中的分類設定在C'=2分類的二元分類問題。因此當使用此損失時，以下用於二元問題的交叉熵損失的方程式可被使用：

CE=-t ₁ log(f(s _i))-(1-t ₁)log(1-f(s ₁))

如此一來，每個C分類可包括一個管道(pipeline)。C獨立二元分類問題C'=2可被設立。接著，不同二元問題的損失可被加總。具體來說，每個二元問題的梯度(gradient)會被加總來回傳(backpropagate)，且每個損失會被加總來監控全域損失。上述方程式中的s ₁與t ₁為C ₁分類(即，C中的C _i分類)的分數與真實標籤(ground truth label)。s ₂=1-s ₁與t ₂=1-t ₁為C ₂分類的分數與真實標籤，其中C ₂並不是原始問題對應C的分類，而是本揭露創造的分類來設定對應C ₁=C _i的二元問題。也就是說，C ₂為一個背景分類。損失可透過以下方程式表示：

當t ₁=1時，代表分類C ₁=C _i在此樣本為正。

在此情況中，激勵函數並不相依於C中C ₁=C _i以外的其他分類的分數。因此，對應於s中的每個分數s _i的梯度僅會相依於給定的二元問題的損失。

對應於分數s _i=s ₁的梯度可被描述為以下方程式：

其中，f()為S函數。

在一實施例中，一種具有KL(Kullback-Leibler)散度的約束非負矩陣分解(Nonnegative Matrix Factorization，NMF)模型可用於分類輸出270的資料表示(data representation)。此約束非負矩陣分解模型可被稱為由大型基礎錐及稀疏表示所約束的具有KL散度的非負矩陣分解，簡稱為「conespaNMF_KL」。「conespaNMF_KL」可透過基礎上的大型單純錐(large simplicial cone)約束和提取特徵上的稀疏正則化(sparse regularization)來實現稀疏性。在約束非負矩陣分解模型中，基本矩陣(即，W)及編碼矩陣(即，V)被約束以進行特徵提取操作。非負資料矩陣根據基本矩陣及編碼矩陣來產生。約束非負矩陣分解模型透過最大化基本矩陣上的基本錐體體積來約束基本矩陣，並透過最小化編碼矩陣的稀疏性來約束編碼矩陣。稀疏性可根據最大後驗(Maximum a Posteriori，MAP)估計來產生。

在一實施例中，給定一個非負資料矩陣x

^N×M，標準非負矩陣分解會找出兩個非負低秩矩陣W

^N×K及V

^K×M其積可近似原始矩陣X。非負矩陣分解的其中一個優勢為其目標散度函數選擇上的靈活性。非負矩陣分解可包括多種變化型利用不同資訊的散度。「Csisz'ar」的φ散度及α或β散度為一般用於重建非負矩陣分解的錯誤函數的矩陣分類。KL散度給定α=1及β=0的特殊情況中，具有KL散度的非負矩陣分解成本函數如以下方程式(1)：

上述標準非負矩陣分解提供用於方程式(1)的迭代更新規則如以下方程式(2)及方程式(3)：

在方程式(1)定義的具有KL散度的非負矩陣分解的分解問題中，本揭露的「conespaNMF_KL」目的在於藉由利用以下兩個新增的約束來增強在資料表示上的效能。

[約束1]

最大化W上的基本錐體體積，以提高泛化(generalization)能力。

給定向量由W的多個行所定義的單形(simplex)S _w，在1 ^T W _i=1,i=1,...,K的假設下，單形S _w的體積可被簡化為以下方程式(4)： f _{vol_cone}(W)=log(det(W ^T W))......................................................(4)

[約束2]

最小化編碼矩陣V的稀疏性。稀疏性約束對於隱藏元件是重要的，且有助於改善分解的唯一性同時強制基於局部(local-based)的表示。稀疏性標準可從最大後驗(Maximum a Posterori，MAP)估計導出，即fsparse(．)是懲罰非零增益的函數。

合併上述方程式(4)及方程式(5)的約束可建立「conespaNMF_KL」的成本函數如以下方程式(6)：

在此，α及λ用於平衡具有KL散度的非負矩陣分解的重建錯誤的正確性、W的體積約束及V的稀疏性懲罰之間的權衡關係。

若放寬稀疏條件(λ=0)或體積錐(γ)，以下方程式(7)變成錐約束非負矩陣分解(coneNMF_KL)及稀疏約束非負矩陣分解(spaNMF_KL)的問題。

迭代估計演算法從隨機初始化的矩陣W及V開始並使用倍數(multiplicative)更新規則直到數值收斂。

目標函數中三個條件的導數由下列方程式獨立計算：

▽_w f _{vol_cone}(W,V)=2(W ^†)^T....................................................(9)

其中，「†」表示摩爾-彭若斯偽逆(Moore-Penrose pseudoinverse)。

因此，「conespaNMF_KL」確保了基礎錐的大體積並最小化係數矩陣的稀疏性，且「conespaNMF_KL」具有用於W及V的倍數更新規則如以下方程式：

在一實施例中，藉由對基本矩陣及編碼矩陣都施加約束，「conespaNMF_KL」可提取有用特徵並增強臉部表情辨識(Face Expression Recognition，FER)及臉部辨識(Face Recognition，FR)的系統。

綜上所述，本揭露的物件分類方法及物件分類裝置將輸入圖像轉換成三個不同色彩空間的圖像，並將轉換後的圖像進行編碼再串聯輸出。串聯輸出與輸入圖像的寬度及高度相同且深度維度不同。最後，對串聯輸出進行解碼以產生解碼數據並根據解碼數據產生分類輸出。分類輸出會用具有KL散度的約束非負矩陣分解模型進行資料表示。

雖然本揭露已以實施例揭露如上，然其並非用以限定本揭露，任何所屬技術領域中具有通常知識者，在不脫離本揭露的精神和範圍內，當可作些許的更動與潤飾，故本揭露的保護範圍當視後附的申請專利範圍所界定者為準。