TWI731477B

TWI731477B - 影像辨識方法及裝置

Info

Publication number: TWI731477B
Application number: TW108142184A
Authority: TW
Inventors: 謝其璋
Original assignee: 中強光電股份有限公司
Priority date: 2019-11-11
Filing date: 2019-11-20
Publication date: 2021-06-21
Also published as: US11676017B2; US20210142081A1; CN112784652B; CN112784652A; TW202119264A

Abstract

本發明提供一種影像辨識方法及裝置。所述方法包括：取得影像，並擷取影像中的多個特徵點；取得膠囊網路，其中膠囊網路依序包括卷積層、主膠囊層、路由膠囊層及輸出層；將影像及所述特徵點輸入卷積層以產生多個特徵向量；將所述特徵向量及所述特徵點輸入主膠囊層，以產生多個活動向量；以及由路由膠囊層及輸出層基於前述活動向量產生對應於影像的辨識結果。

Description

影像辨識方法及裝置

本發明是有關於一種影像辨識方法及裝置，且特別是有關於一種引入膠囊網路技術的影像辨識方法及裝置。

卷積神經網路（convolutional neural network，CNN）是目前主流的影像辨識技術，其可藉由卷積操作提取局部特徵、池化操作捨去冗餘特徵、最後再透過全連接層以達到識別物件的效果。由於卷積操作可以充分利用影像局部相關性，並可透過權值共享與池化操作降低參數量與複雜度，進而在辨識領域上達到足以取代人工、商業化的價值，也宣佈了人工智慧時代的來臨。

膠囊網路（capsule network）的誕生來自於CNN的成功。具體而言，雖然CNN的卷積與池化操作造就了良好的特徵擷取能力，但同時亦產生了本質上的問題，即「Scalar in / Scalar out」。在此情況下，由於對物件的理解僅用純量(Scalar)來表示，因而使得一個相同的物件經過了旋轉或翻轉後，就會變成另外的一組特徵。這也可能造成雖然許多組特徵皆為同一種物件，但傳統神經網路卻未能察覺的情況。

膠囊網路將特徵擷取的方式做了突破性的改良，即「Vector in / Vector out」。在膠囊網路中，可藉由一組特徵向量記錄物件的基本資訊與形變資訊，進而從本質上解決CNN在相同物件經過了旋轉或翻轉後會變成不同的特徵的問題。

與傳統神經網路的區別在於，膠囊網路中的每一個神經元都是由一個膠囊所組成，而每個膠囊的目標是偵測目標物件的特性。這個特性可透過個別膠囊的輸出轉化為一個向量，而此向量的長度與方向能分別具備特殊意義。例如，向量的長度可表徵此膠囊所偵測的物件存在的機率，而向量的方向可表徵所偵測的物件所具有的特性（例如：位置、大小、材質、角度.....等）。

與傳統神經網路相同的是，上述向量（傳統神經網路是純量）代表著較低階層的物件特徵，而較高階層的神經元可透過多個較低階層的物件特徵訊息來偵測較高階層物件的特性。相同地，此特性會同樣將被轉化為一個向量，藉此來達到神經元的運作。

與傳統神經網路不同的地方在於，低階層物件特徵向量的方向性將可能影響高階層特徵物件的存在機率。舉例來說，兩個互相垂直的眼睛是無法構成一個人臉的。

傳統神經網路的成功有目共睹，其能力也遠超乎人類過往的想像，但在其成功的同時，其依然存在根本性的缺點。具體而言，對於傳統神經網路來說，當圖像中出現眼睛、鼻子、嘴巴等部件時，卷積神經網路會認為這是一張人臉，無論這些部件出現在哪個不合理的位置皆然。

然而，膠囊網路則不盡相同。低階層的膠囊可保留完整的部件特性（五官的位置、大小...），而高階層的膠囊則可依據這些特性來偵測是否為一個真實、完整的物件（人臉）。

膠囊網路在保留傳統神經網路優點的同時，還解決傳統神經網路根本性的缺點。藉此，不僅可提升神經網路的性能，還能解決一些人為添加的虛假影像（例如五官位置錯置的影像）。因此膠囊網路的應用範圍非常的廣，舉凡目前的神經網路能完成的工作，膠囊網路皆能完成，甚至表現更佳。

雖然膠囊較佳地保留了物件細節的幾何關係，但在網路架構設計上，並沒有真正很有效地讓神經網路理解物件的幾何意義。因此，雖然相較CNN可以擁有更小的訓練樣本，但效果依然有限。

有鑑於此，本發明提供一種影像辨識方法及裝置，其可用以解決上述技術問題。

本發明提供一種影像辨識方法，包括：取得一影像，並擷取影像中的多個特徵點；取得膠囊網路，其中膠囊網路依序包括卷積層、主膠囊層、至少一路由膠囊層及輸出層；將影像及前述特徵點輸入卷積層以產生多個特徵向量；將前述特徵向量及前述特徵點輸入主膠囊層，以產生多個活動向量；以及由至少一路由膠囊層及輸出層基於前述活動向量產生對應於影像的辨識結果。

在本發明的其中一個實施例中，擷取影像中的多個特徵點的步驟包括將影像輸入特徵點擷取網路，以由特徵點擷取網路辨識位於影像中的多個特徵點，其中多個特徵點的順序對應於多個特徵向量的順序。

在本發明的其中一個實施例中，特徵點擷取網路為卷積神經網路。

在本發明的其中一個實施例中，影像具有多個第一像素，各第一像素包括多個色彩通道資訊，多個特徵點位於特徵點影像中，特徵點影像包括對應於多個第一像素的多個第二像素，其中多個第二像素中對應於多個特徵點的第一部分經定義為第一值，而多個第二像素中未對應於多個特徵點的第二部分經定義為第二值；其中，將影像及多個特徵點輸入卷積層以產生多個特徵向量的步驟包括：將各第二像素的值與對應的各第一像素的多個色彩通道資訊合併為第一輸入矩陣；以及將第一輸入矩陣輸入至卷積層，以由卷積層對第一輸入矩陣執行特徵擷取操作而產生多個特徵向量。

在本發明的其中一個實施例中，多個特徵點位於特徵點影像中，特徵點影像包括對應於多個第一像素的多個第二像素，其中多個第二像素中對應於多個特徵點的第一部分經定義為第一值，而多個第二像素中未對應於多個特徵點的第二部分經定義為第二值；其中，將多個特徵向量及多個特徵點輸入主膠囊層，以產生多個活動向量的步驟包括：將各第二像素的值與對應的各特徵向量合併為多個輸入向量；以及將多個輸入向量輸入至主膠囊層，以由主膠囊層基於多個輸入向量產生多個活動向量。

在本發明的其中一個實施例中，至少一路由膠囊層依序包括第1個路由膠囊層至第P個路由膠囊層，P為至少一路由膠囊層的數量，且由至少一路由膠囊層及輸出層基於多個活動向量產生對應於影像的辨識結果的步驟包括：由所述第1個路由膠囊層基於多個活動向量產生多個輸出向量；由第k個路由膠囊層基於第(k-1)個路由膠囊層所產生的多個輸出向量而產生第k個路由膠囊層的多個輸出向量，其中k介於2至P之間；以及由輸出層將所述第P個路由膠囊層所產生的多個輸出向量轉換為對應於影像的辨識結果。

在本發明的其中一個實施例中，主膠囊層的多個活動向量的數量不大於所述第1個路由膠囊層的多個輸出向量的數量，且第j個路由膠囊層的多個輸出向量的數量不大於第(j+1)個路由膠囊層的多個輸出向量的數量，其中j介於1及(P-1)之間。

本發明提供一種影像辨識裝置，包括儲存電路及處理器。儲存電路儲存多個模組。處理器耦接儲存電路，存取前述模組以執行下列步驟：取得影像，並擷取影像中的多個特徵點；取得膠囊網路，其中膠囊網路依序包括卷積層、主膠囊層、至少一路由膠囊層及輸出層；將影像及前述特徵點輸入卷積層以產生多個特徵向量；將前述特徵向量及前述特徵點輸入主膠囊層，以產生多個活動向量；以及由至少一路由膠囊層及輸出層基於前述活動向量產生對應於影像的辨識結果。

在本發明的其中一個實施例中，處理器經配置：將影像輸入特徵點擷取網路，以由特徵點擷取網路辨識位於影像中的多個特徵點，其中多個特徵點的順序對應於多個特徵向量的順序。

在本發明的其中一個實施例中，影像具有多個第一像素，各第一像素包括多個色彩通道資訊，多個特徵點位於特徵點影像中，特徵點影像包括對應於多個第一像素的多個第二像素，其中多個第二像素中對應於多個特徵點的第一部分經定義為第一值，而多個第二像素中未對應於多個特徵點的第二部分經定義為第二值；其中，處理器經配置：將各第二像素的值與對應的各第一像素的多個色彩通道資訊合併為第一輸入矩陣；以及將第一輸入矩陣輸入至卷積層，以由卷積層對第一輸入矩陣執行特徵擷取操作而產生多個特徵向量。

在本發明的其中一個實施例中，多個特徵點位於特徵點影像中，特徵點影像包括對應於多個第一像素的多個第二像素，其中多個第二像素中對應於該多個徵點的第一部分經定義為第一值，而多個第二像素中未對應於多個特徵點的第二部分經定義為第二值；其中，處理器經配置：將各第二像素的值與對應的各特徵向量合併為多個輸入向量；以及將多個輸入向量輸入至主膠囊層，以由主膠囊層基於多個輸入向量產生多個活動向量。

在本發明的其中一個實施例中，至少一路由膠囊層依序包括第1個路由膠囊層至第P個路由膠囊層，P為至少一路由膠囊層的數量，且處理器經配置：由所述第1個路由膠囊層基於多個活動向量產生多個輸出向量；由第k個路由膠囊層基於第(k-1)個路由膠囊層所產生的多個輸出向量而產生第k個路由膠囊層的多個輸出向量，其中k介於2至P之間；以及由輸出層將所述第P個路由膠囊層所產生的多個輸出向量轉換為對應於影像的辨識結果。

基於上述，本發明對於膠囊網路的架構及運作機制進行了改良，並將所欲辨識影像中的幾何資訊引入整體的辨識機制中，從而可對影像進行較佳的幾何理解，並有助於改善整體辨識的準確性。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

請參照圖1，其是依據本發明之一實施例繪示的影像辨識裝置示意圖。在不同的實施例中，影像辨識裝置100可以是智慧型手機、平板電腦、個人電腦、筆記型電腦或其他具備影像處理功能的裝置，但不限於此。如圖1所示，影像辨識裝置100可包括儲存電路102及處理器104。儲存電路102例如是任意型式的固定式或可移動式隨機存取記憶體（Random Access Memory，RAM）、唯讀記憶體（Read-Only Memory，ROM）、快閃記憶體（Flash memory）、硬碟或其他類似裝置或這些裝置的組合，而可用以記錄多個程式碼或模組。

處理器104耦接於儲存電路102，並可為一般用途處理器、特殊用途處理器、傳統的處理器、數位訊號處理器、多個微處理器（microprocessor）、一個或多個結合數位訊號處理器核心的微處理器、控制器、微控制器、特殊應用集成電路（Application Specific Integrated Circuit，ASIC）、場可程式閘陣列電路（Field Programmable Gate Array，FPGA）、任何其他種類的積體電路、狀態機、基於進階精簡指令集機器（Advanced RISC Machine，ARM）的處理器以及類似品。

在本發明的實施例中，處理器104可存取儲存電路102中記錄的模組、程式碼來實現本發明提出的影像辨識方法，其細節詳述如下。

請參照圖2，其是依據本發明之一實施例繪示的影像辨識方法流程圖。本實施例的方法可由圖1的影像辨識裝置100執行，以下即搭配圖1所示的元件說明圖2各步驟的細節。

首先，在步驟S210中，處理器104可取得影像，並擷取影像中的多個特徵點。在不同的實施例中，上述影像可以是由影像辨識裝置100透過取像元件所拍攝的包括特定物件的影像、取自於任意影像資料庫或儲存位置的物件影像、影片中的一幀物件影像，或是其他任何影像，但可不限於此。為便於理解本發明的概念，以下將輔以圖3作進一步說明，但其並非用以限定本發明可能的實施方式。

請參照圖3，其是依據本發明之一實施例繪示的擷取影像中特徵點的示意圖。在本實施例中，影像300例如是包括人臉（即，特定物件）的影像。在影像300中可包括多個第一像素，而各第一像素可包括多個色彩通道資訊。假設影像300的長度、寬度分別是H及W，且各第一像素具有3個色彩通道資訊（其例如可分別對應於R、G、B通道）。在此情況下，各第一像素皆可用（R, G, B）的方式來表示。相應地，影像300例如可表示為

的矩陣（下稱第一矩陣M1），但本發明可不限於此。此外，色彩通道資訊可具有其他種類，影像300的座標位置及3個色彩通道資訊(例如是可分別對應於Y、U、V通道)，相應地，影像300例如可表示為

的矩陣。

如圖3所示，處理器104可將影像300輸入特徵點擷取網路305，以由特徵點擷取網路305辨識位於影像300中的特徵點310a。

為便於說明，本發明實施例所考慮的特徵點310a可假設為位於影像300中人臉上的臉部特徵點（其可對應於鼻尖、下巴等臉部特徵），但不限於此。為實現此目的，處理器104可對應地採用用於擷取臉部特徵點的特徵點擷取網路305，例如基於卷積神經網路(Convolutional Neural Networks, CNN)、多任務級連卷積神經網路(Multi-task Cascaded Convolutional Neural Networks, MTCNN)、密集面部地標(Dense Facial Landmarks)、RetinaFace等技術實現的CNN網路，且其例如可包括卷積層305a，但可不限於此。

在一實施例中，在特徵點擷取網路305從影像300擷取特徵點310a之後，可相應地以特徵點影像310來呈現這些特徵點310a。具體而言，特徵點影像310中可包括多個第二像素。在本實施例中，在影像300的長度、寬度分別是H及W的情況下，特徵點影像310的長度、寬度亦將分別是H及W。相應地，特徵點影像310可表示為

的矩陣（下稱第二矩陣M2），而其中的每個矩陣元素可對應於上述第二像素的其中之一。應了解的是，出於維持圖面的簡潔，圖3中僅標示一個特徵點310a，而本領域具通常知識者應可了解特徵點影像310中的其餘各點亦為特徵點，但本發明可不限於此。

在一實施例中，前述第二像素中對應於特徵點310a的第一部分可經定義為第一值（例如「1」），而前述第二像素中未對應於特徵點310a的第二部分可經定義為第二值（例如「0」）。在此情況下，第二矩陣M2中對應各特徵點310a的矩陣元素可表示為1，而未對應各特徵點310a的矩陣元素可表示為0。

此外，在特徵點擷取網路305從影像300擷取特徵點310a之後，可將各特徵點310a以1x1的向量形式輸出。具體而言，假設特徵點擷取網路305經配置從影像300中擷取固定數量，以下稱作K個特徵點310a。在此情況下，特徵點擷取網路305可因應於影像300而擷取出K個以1x1的向量形式表示的特徵點310a。並且，對應於特徵點310a的所述K個特徵點向量（下稱特徵點向量FPV）的排列順序還將具有一定的規則。更具體來說，對應於某個特徵的特徵點向量將被安排於某個固定的順序。例如，對應於鼻尖的特徵點向量的順序將固定被排在所述K個向量中的第i個，而對應於下巴的特徵點向量的順序將固定被排在所述K個向量中的第j個，但本發明可不限於此。

接著，在步驟S220中，處理器104可取得膠囊網路。在本發明的實施例中，所採用的膠囊網路例如可依序包括卷積層、一或多個膠囊層（其數量例如是P個）及輸出層（其又稱為數位膠囊（digit capsule）層）。

基於本領域具通常知識者對於膠囊網路的了解，可知在前述P個膠囊層中，第1個膠囊層可泛稱為主膠囊層（primary capsule），而第2個至第P個膠囊層可泛稱為路由膠囊層（routing capsule）。在各膠囊層中可包括一或多個膠囊。依膠囊網路的一般性定義，各膠囊即為一組神經元，而這組神經元的活動向量（activity vector）可代表特定類型實體（例如某物件或某物件部分）的實例參數（instantiation parameter）。

為便於說明，本發明實施例中僅將主膠囊層中各膠囊的輸出稱為活動向量，而各路由膠囊層中各膠囊的輸出則稱為輸出向量，但其並非用以限定本發明的實施方式。

一般而言，卷積層可作為膠囊網路的輸入層，並可用於對所接收的輸入（例如某個影像或資料矩陣）進行特徵擷取的操作。在此情況下，卷積層中各神經元所輸出的向量可稱為特徵向量（其個別的維度例如是Nx1），而這些特徵向量可作為主膠囊層的輸入。在主膠囊層接收前述N個特徵向量之後，可基於這些特徵向量產生對應的多個活動向量（其數量對應於主膠囊層中膠囊的數量），並將這些活動向量提供予第1個路由膠囊層。

之後，所述第1個路由膠囊層可基於上述活動向量產生多個輸出向量。對於第k個（k介於2至P之間）路由膠囊層而言，其可基於第(k-1)個路由膠囊層所產生的輸出向量而產生第k個路由膠囊層的多個輸出向量。接著，位於膠囊網路後的輸出層可將所述第P個路由膠囊層所產生的輸出向量轉換為對應的辨識結果。

然而，由於上述作法並未將所欲辨識影像中的幾何資訊引入整體的辨識機制中，因而無法對影像進行較佳的幾何理解，從而可能導致不佳的辨識結果。因此，本發明對於膠囊網路的架構及運作機制進行了改良，從而有助於改善整體辨識的準確性。

為便於理解本發明的概念，以下將輔以圖4作進一步說明，但其並非用以限定本發明可能的實施方式。

請參照圖4，其是依據圖3繪示的基於膠囊網路進行辨識的示意圖。在本實施例中，處理器104所取得的膠囊網路405例如可依序包括輸入矩陣合併（concatenate）層IMC、卷積層CL、輸入向量合併層IVC、主膠囊層PL、1個路由膠囊層RL及輸出層DC。圖4中僅標示一個路由膠囊層RL，而本領域具通常知識者應可了解路由膠囊層RL可為一個或多個，但本發明可不限於此。此外，圖4中描述每一層所輸出的向量的數量以K個表示，然，本領域通常知識者可理解依據設計每一層輸出的向量的數量可不相等且數量可呈遞增或遞減安排，舉例而言，主膠囊層PL可輸出K個活動向量，路由膠囊層RL可基於上述K個活動向量AV產生2K個輸出向量OV，以此類推。

概略而言，在本實施例的膠囊網路405中，卷積層CL除了可將待辨識的影像300作為輸入之外，還可一併考慮特徵點影像310中的各個特徵點310a。並且，對於主膠囊層PL而言，有別於習知僅以卷積層CL的輸出作為輸入的作法，本發明實施例可更將特徵點影像310中的各個特徵點310a一併納入考量。藉此，本發明可透過同時考慮影像300及特徵點310a的作法，讓膠囊網路405對於影像300具有更佳的幾何理解，從而讓整體的辨識機制在不需大量訓練資料的情況下達到更精確的辨識表現。詳細說明如下。

在步驟S230中，處理器104可將影像及前述特徵點310a輸入卷積層CL以產生多個特徵向量FV。在一實施例中，處理器104可將各第二像素的值與對應的各第一像素的色彩通道資訊輸入至輸入矩陣合併層IMC以進行合併且輸出第一輸入矩陣IM1。具體而言，承先前實施例所述，由於影像300中的各第一像素可具有R、G、B等3個色彩通道資訊，故每個第一像素皆可用（R, G, B）的方式來表示。並且，每個第一像素在特徵點影像310中皆有位於對應位置的第二像素，且各第二像素的值將因對應於特徵點310a與否而為1或0。

在此情況下，處理器104可將第一像素的（R, G, B）與對應的第二像素的值合併為（R, G, B, X），其中若對應的第二像素對應於其中一個特徵點310a，則X為1，反之則為0。亦即，若影像300中某第一像素所對應的第二像素係其中一個特徵點310a，則可產生（R, G, B, 1）的合併結果。另一方面，若某第一像素所對應的第二像素不為任何特徵點，則可產生（R, G, B, 0）的合併結果，但本發明可不限於此。如此一來，對應於各第一像素的合併結果可被表示為

的第一輸入矩陣IM1。從另一觀點而言，第一輸入矩陣IM1亦可視為是第一矩陣M1（其維度為

）及第二矩陣M2（其維度為

）經合併而產生的結果，但可不限於此。

之後，處理器104可將第一輸入矩陣IM1輸入至卷積層CL，以由卷積層CL對第一輸入矩陣IM1執行特徵擷取操作而產生特徵向量FV。亦即，在本發明的膠囊網路405架構中，係以第一輸入矩陣IM1（即，合併後的第一矩陣M1及第二矩陣M2）作為卷積層CL的輸入，而並非直接以對應於影像300的第一矩陣M1作為卷積層CL的輸入。

在本實施例中，卷積層CL例如可產生K個特徵向量FV（其個別的維度例如是Nx1）。卷積層CL執行特徵擷取操作的具體細節應可參照相關的習知技術文件，於此不另贅述。

在產生上述特徵向量FV之後，在步驟S240中，處理器104可將前述特徵向量FV及前述特徵點310a輸入主膠囊層PL，以產生多個活動向量AV。在一實施例中，處理器104可將各第二像素的值與對應的各特徵向量FV輸入輸入向量合併層IVC以進行合併且輸出多個輸入向量IV。具體而言，承先前實施例所述，K個特徵點310a可被表示為K個特徵點向量FPV（其個別的維度皆為1x1）。在此情況下，處理器104可將各特徵點向量FPV（其維度為1x1）與對應的特徵向量FV（其維度為Nx1）合併為輸入向量IV（其維度為(N+1)x1）。舉例而言，處理器104可將第z個特徵點向量FPV與第z個特徵向量FV合併為與第z個輸入向量IV。亦即，特徵點310a的順序（即，特徵點向量FPV的順序）對應於特徵向量FV的順序。

在基於以上合併操作而產生K個輸入向量IV之後，處理器104可將上述輸入向量IV輸入至主膠囊層PL，以由主膠囊層PL基於上述輸入向量IV產生活動向量AV（其維度為Nx1）。換言之，在本發明提出的膠囊網路405架構中，係以輸入向量IV（即，合併後的特徵向量FV及特徵點向量FPV）作為主膠囊層PL的輸入，而並非直接以特徵向量FV作為主膠囊層PL的輸入。本發明各膠囊層的運作機制可基於本領域具通常知識者熟知的方式進行，於此不另贅述。

之後，在步驟S250中，處理器104可由路由膠囊層RL及輸出層DC基於前述活動向量AV產生對應於影像300的辨識結果。在圖4情境中，由於膠囊網路405僅包括1個路由膠囊層RL，故路由膠囊層RL可基於上述K個活動向量AV產生K個輸出向量OV（其個別的維度例如是Nx1）。

之後，處理器104可由輸出層DC將路由膠囊層RL所產生的輸出向量OV轉換為對應於影像300的辨識結果（例如影像300中人像的具體身分）。

在其他實施例中，若所採用的膠囊網路包括P個路由膠囊層，則處理器104可經配置：由所述第1個路由膠囊層基於活動向量AV產生多個輸出向量；由第k個路由膠囊層基於第(k-1)個路由膠囊層所產生的輸出向量而產生第k個路由膠囊層的多個輸出向量，其中k介於2至P之間；以及由輸出層DC將所述第P個路由膠囊層所產生的輸出向量轉換為對應於影像300的辨識結果。

此外，在採用P個路由膠囊層的實施例中，主膠囊層PL的活動向量AV的數量可經設計為不大於所述第1個路由膠囊層的輸出向量的數量。並且，第j個路由膠囊層的輸出向量的數量（例如64）可經設計為不大於第(j+1)個路由膠囊層的輸出向量的數量（例如64、128、256或512等），其中j介於1及(P-1)之間。如此一來，可使膠囊網路能夠更有效地表述原始的影像（例如影像300），從而有助於提升後續辨識的精確度。

進一步而言，輸入矩陣合併層IMC以及輸入向量合併層IVC是用以進行數組合併的操作，而本領域具通常知識者應可了解也可使用相似的合併操作，於此不另贅述。

簡言之，本發明的方法可理解為基於兩個神經網路來進行。在第一個神經網路中，可採用傳統的CNN進行影像中特徵點的擷取。例如，可將人臉影像輸入至CNN中，以利用其中的數個卷積層進行特徵的抽取與轉換，再透過全連接層與其他技巧以產生所考慮影像中的人臉特徵點。在第二個神經網路（即，膠囊網路）中，可採用「人臉特徵點+人臉影像」的多重輸入的形式，先利用一至數個卷積層重新進行特徵的抽取，而後將抽取好的特徵結合人臉特徵點進行一至數次的膠囊運算，最後經由輸出層或其他技巧以得到辨識結果。

綜上所述，本發明的影像辨識方法及裝置可先利用特徵點擷取網路找出影像中的特徵點，再利用改良後的膠囊網路架構將特徵點作為影像的幾何意義來協助進行影像的辨識。藉由在適當的時機點將額外的幾何意義資訊（人臉特徵點）饋入膠囊網路，可加強膠囊網路對額外幾何意義的理解。如此一來，可讓膠囊網路更佳地結合物件特徵與其幾何意義，藉以讓膠囊網路得到更好的物件理解，進而提升辨識能力。

由於本發明的膠囊網路可以更好的理解物件，其意味著可以用更小的樣本訓練出更好的模型，從而達到更佳的辨識效果。並且，更好的物件理解意味著本發明的膠囊網路除了可準確辨識外，更可掌握物件細節的相對幾何關係以提升對物件內容呈現意境的理解，從而可讓現在的低階人工智慧可以往高階人工智慧更進一步發展。再者，由於膠囊網路可以做到更好的幾何意義理解，因而使得經訓練而得的模型在防欺騙上擁有更好的對抗性。

此外，在訓在訓練過程中，本發明所採用的兩個網路可同時進行學習也可以分開訓練。在一些實施例中，可以用大量的資料訓練兩個網路，也可以採端對端（end-to-end）的訓練方式同時訓練，亦或是交叉使用兩種訓練方式。在此情況下，可讓現有的訓練資料得到更佳的利用。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。惟以上所述者，僅為本發明的較佳實施例而已，當不能以此限定本發明實施之範圍，即大凡依本發明申請專利範圍及發明說明內容所作之簡單的等效變化與修飾，皆仍屬本發明專利涵蓋之範圍內。另外本發明的任一實施例或申請專利範圍不須達成本發明所揭露之全部目的或優點或特點。此外，摘要部分和標題僅是用來輔助專利文件搜尋之用，並非用來限制本發明之權利範圍。此外，本說明書或申請專利範圍中提及的” “第一”、“”第二”等用語僅用以命名元件(element)的名稱或區別不同實施例或範圍，而並非用來限制元件數量上的上限或下限。

100：影像辨識裝置 102：儲存電路 104：處理器 300：影像 305：特徵點擷取網路 305a：卷積層 310：特徵點影像 310a：特徵點 405：膠囊網路 AV：活動向量 CL：卷積層 DC：輸出層 FPV：特徵點向量 FV：特徵向量 IM1：第一輸入矩陣 IMC：輸入矩陣合併層 IV：輸入向量 IVC：輸入向量合併層 M1：第一矩陣 M2：第二矩陣 OV：輸出向量 PL：主膠囊層 RL：路由膠囊層 S210~S250：步驟。

圖1是依據本發明之一實施例繪示的影像辨識裝置示意圖。圖2是依據本發明之一實施例繪示的影像辨識方法流程圖。圖3是依據本發明之一實施例繪示的擷取影像中特徵點的示意圖。圖4是依據圖3繪示的基於膠囊網路進行辨識的示意圖。

S210~S250：步驟

Claims

一種影像辨識方法，包括：取得一影像，擷取該影像中的多個特徵點，並產生包含該些特徵點的一特徵點影像；取得一膠囊網路，其中該膠囊網路依序包括一卷積層、一主膠囊層、至少一路由膠囊層及一輸出層；將該影像及該特徵點影像輸入該卷積層以產生多個特徵向量；將該些特徵向量及該些特徵點輸入該主膠囊層，以產生多個活動向量；以及由該至少一路由膠囊層及該輸出層基於該些活動向量產生對應於該影像的一辨識結果。
如申請專利範圍第1項所述的方法，其中擷取該影像中的該些特徵點的步驟包括：將該影像輸入一特徵點擷取網路，以由該特徵點擷取網路辨識位於該影像中的該些特徵點，其中該些特徵點的順序對應於該些特徵向量的順序。
如申請專利範圍第2項所述的方法，其中該特徵點擷取網路為一卷積神經網路。
如申請專利範圍第1項所述的方法，其中該影像具有多個第一像素，各該第一像素包括多個色彩通道資訊，該特徵點影像包括對應於該些第一像素的多個第二像素，其中該些第二像素中對應於該些特徵點的一第一部分經定義為第一值，而該些第二像素中未對應於該些特徵點的一第二部分經定義為第二值；其中，將該影像及該特徵點影像輸入該卷積層以產生該些特徵向量的步驟包括：將各該第二像素的值與對應的各該第一像素的該些色彩通道資訊合併為一第一輸入矩陣；以及將該第一輸入矩陣輸入至該卷積層，以由該卷積層對該第一輸入矩陣執行一特徵擷取操作而產生該些特徵向量。
如申請專利範圍第1項所述的方法，其中該特徵點影像包括對應於該影像中的多個第一像素的多個第二像素，其中該些第二像素中對應於該些特徵點的一第一部分經定義為第一值，而該些第二像素中未對應於該些特徵點的一第二部分經定義為第二值；其中，將該些特徵向量及該特徵點影像輸入該主膠囊層，以產生該些活動向量的步驟包括：將各該第二像素的值與對應的各該特徵向量合併為多個輸入向量；以及將該些輸入向量輸入至該主膠囊層，以由該主膠囊層基於該些輸入向量產生該些活動向量。
一種影像辨識方法，包括：取得一影像，並擷取該影像中的多個特徵點；取得一膠囊網路，其中該膠囊網路依序包括一卷積層、一主膠囊層、至少一路由膠囊層及一輸出層；將該影像及該些特徵點輸入該卷積層以產生多個特徵向量；將該些特徵向量及該些特徵點輸入該主膠囊層，以產生多個活動向量；以及由該至少一路由膠囊層及該輸出層基於該些活動向量產生對應於該影像的一辨識結果，其中該至少一路由膠囊層依序包括第1個路由膠囊層至第P個路由膠囊層，P為該至少一路由膠囊層的數量，且由該至少一路由膠囊層及該輸出層基於該些活動向量產生對應於該影像的該辨識結果的步驟包括：由所述第1個路由膠囊層基於該些活動向量產生多個輸出向量；由第k個路由膠囊層基於第(k-1)個路由膠囊層所產生的該些輸出向量而產生第k個路由膠囊層的多個輸出向量，其中k介於2至P之間；以及由該輸出層將所述第P個路由膠囊層所產生的該些輸出向量轉換為對應於該影像的該辨識結果。
如申請專利範圍第6項所述的方法，其中該主膠囊層的該些活動向量的數量不大於所述第1個路由膠囊層的該些輸出向量的數量，且第j個路由膠囊層的該些輸出向量的數量不大於第(j+1)個路由膠囊層的該些輸出向量的數量，其中j介於1及(P-1)之間。
一種影像辨識裝置，包括：一儲存電路，儲存多個模組；以及一處理器，耦接該儲存電路，存取該些模組以執行下列步驟：取得一影像，擷取該影像中的多個特徵點，並產生包含該些特徵點的一特徵點影像；取得一膠囊網路，其中該膠囊網路依序包括一卷積層、一主膠囊層、至少一路由膠囊層及一輸出層；將該影像及該特徵點影像輸入該卷積層以產生多個特徵向量；將該些特徵向量及該些特徵點輸入該主膠囊層，以產生多個活動向量；以及由該至少一路由膠囊層及該輸出層基於該些活動向量產生對應於該影像的一辨識結果。
如申請專利範圍第8項所述的裝置，其中該處理器經配置：將該影像輸入一特徵點擷取網路，以由該特徵點擷取網路辨識位於該影像中的該些特徵點，其中該些特徵點的順序對應於該些特徵向量的順序。
如申請專利範圍第9項所述的裝置，其中該特徵點擷取網路為一卷積神經網路。
如申請專利範圍第8項所述的裝置，其中該影像具有多個第一像素，各該第一像素包括多個色彩通道資訊，該特徵點影像包括對應於該些第一像素的多個第二像素，其中該些第二像素中對應於該些特徵點的一第一部分經定義為第一值，而該些第二像素中未對應於該些特徵點的一第二部分經定義為第二值；其中，該處理器經配置：將各該第二像素的值與對應的各該第一像素的該些色彩通道資訊合併為一第一輸入矩陣；以及將該第一輸入矩陣輸入至該卷積層，以由該卷積層對該第一輸入矩陣執行一特徵擷取操作而產生該些特徵向量。
如申請專利範圍第8項所述的裝置，其中該特徵點影像包括對應於該影像中的多個第一像素的多個第二像素，其中該些第二像素中對應於該些特徵點的一第一部分經定義為第一值，而該些第二像素中未對應於該些特徵點的一第二部分經定義為第二值；其中，該處理器經配置：將各該第二像素的值與對應的各該特徵向量合併為多個輸入向量；以及將該些輸入向量輸入至該主膠囊層，以由該主膠囊層基於該些輸入向量產生該些活動向量。
一種影像辨識裝置，包括：一儲存電路，儲存多個模組；以及一處理器，耦接該儲存電路，存取該些模組以執行下列步驟：取得一影像，並擷取該影像中的多個特徵點；取得一膠囊網路，其中該膠囊網路依序包括一卷積層、一主膠囊層、至少一路由膠囊層及一輸出層；將該影像及該些特徵點輸入該卷積層以產生多個特徵向量；將該些特徵向量及該些特徵點輸入該主膠囊層，以產生多個活動向量；以及由該至少一路由膠囊層及該輸出層基於該些活動向量產生對應於該影像的一辨識結果，其中該至少一路由膠囊層依序包括第1個路由膠囊層至第P個路由膠囊層，P為該至少一路由膠囊層的數量，且該處理器經配置：由所述第1個路由膠囊層基於該些活動向量產生多個輸出向量；由第k個路由膠囊層基於第(k-1)個路由膠囊層所產生的該些輸出向量而產生第k個路由膠囊層的多個輸出向量，其中k介於2至P之間；以及由該輸出層將所述第P個路由膠囊層所產生的該些輸出向量轉換為對應於該影像的該辨識結果。
如申請專利範圍第13項所述的裝置，其中該主膠囊層的該些活動向量的數量不大於所述第1個路由膠囊層的該些輸出向量的數量，且第j個路由膠囊層的該些輸出向量的數量不大於第 (j+1)個路由膠囊層的該些輸出向量的數量，其中j介於1及(P-1)之間。