TW201839665A

TW201839665A - 物件辨識方法及物件辨識系統

Info

Publication number: TW201839665A
Application number: TW106113453A
Authority: TW
Inventors: 潘品睿
Original assignee: 潘品睿
Priority date: 2017-04-21
Filing date: 2017-04-21
Publication date: 2018-11-01
Also published as: TWI643137B

Abstract

本發明提出一種物件辨識方法及物件辨識系統。此方法包括：取得多媒體資料；將多媒體資料輸入至深度學習模型以辨識多媒體資料中的物件；以及根據所辨識出的多媒體資料中的物件，輸出對應於此物件的輸出資訊。

Description

物件辨識方法及物件辨識系統

本發明是有關於一種使用深度學習模型進行物件辨識的物件辨識方法及物件辨識系統。

一般來說，擴增實境可以分成兩個主要階段：物件辨識的階段以及根據辨識的結果來將對應的擴增實境內容疊加在影像上並顯示的階段。然而，物件辨識能力的好壞，大大影響了擴增實境的體驗。

特別是，物件辨識的階段還可以分成兩個階段：特徵擷取階段以及分類階段。圖1是物件辨識的流程示意圖。請參照圖1，一般物件辨識方法是將影像10輸入至物件辨識模組100中。當影像10被輸入至物件辨識模組100中時，首先會經由步驟S101來執行特徵擷取階段。在步驟S101中，物件辨識模組100可以將影像10進行特徵擷取，並且在步驟S102產生特徵向量(Feature vector)，此些特徵向量中的每個維度皆用來表示影像10中的某種特徵。之後在步驟S103中，物件辨識模組100可以將在步驟S102擷取到的特徵向量輸入至一分類器，分類器會依照此特徵向量進行分類，進而辨識出影像10中的目標物。特別是，經由特徵擷取階段而取得的特徵向量，通常決定了物件辨識結果的好壞。

圖2A是傳統的物件辨識的示意圖。請參照圖2A，在傳統的擴增實境中，物件辨識的特徵擷取階段(即，圖1中的步驟S101)通常是使用與顏色轉折點(Corner)相關的演算法。該演算法利用微分的概念找出影像中顏色變化較大的點，並利用該些顏色轉折點，產生屬於該影像的特徵向量(如圖2A所繪示的顏色轉折點20)。最後再依照該特徵向量，進行分類、預測出物件的大小、位置。

然而，使用顏色轉折點演算法的物件辨識方法具有以下缺點：無法辨識不同角度拍攝的相同物件。舉例來說，圖2B是同一物件經由不同角度拍攝所取得的影像的示意圖。請參照圖2B，由於影像22、影像24以及影像26是分別經由不同角度拍攝的同一物件；但因顏色轉折點分布也會隨著拍攝角度改變，故可能會造成無法被歸類為相同物件。因此目前以影像辨識的擴增實境來說，通常僅能辨識平面標記(如：二維碼、簡單圖片)；而難以有效地辨識複雜的三維物件。

此外，使用顏色轉折點演算法的物件辨識方法還具有以下缺點：無法辨識不同物件，但屬於相同類型的物件。例如，甲地的火山與乙地的火山因形狀稍微不同，卻無法接被歸類同為火山，並疊加顯示相關的擴增實境內容。

再者，使用顏色轉折點演算法的物件辨識方法還具有以下缺點：當欲辨識目標增加時，誤認機率增大。詳細來說，當辨識目標增加時，代表顏色轉折點的分布雷同的機率增加。若完全只取顏色轉折點當作特徵向量，則甲目標物容易被誤認為乙目標物，最終造成放置到錯誤的擴增實境內容。

最後，使用顏色轉折點演算法的物件辨識方法還具有以下缺點：在辨識高解析度圖片時，速度大幅下降。詳細來說，因解析度高的圖片，要計算的像素變多，其產生的顏色轉折點也較多，造成比對擴增實境目標與實體影像的時間增加。

本發明提出一種使用深度學習模型進行物件辨識的物件辨識方法及物件辨識系統，其可以提高對於多媒體資料中辨識物件的準確度與彈性，亦可以應用在擴增實境的技術當中並提供更良好的使用者體驗。

本發明的提出一種物件辨識方法。此方法包括：取得多媒體資料；將多媒體資料輸入至深度學習模型以辨識多媒體資料中的物件；以及根據所辨識出的多媒體資料中的物件，輸出對應於此物件的輸出資訊。

在本發明的一實施例中，其中深度學習模型包括卷積層類神經網路。

在本發明的一實施例中，其中卷積層類神經網路包括至少一卷積層與至少一池化層，上述的物件辨識方法還包括：藉由所述卷積層與所述池化層擷取多媒體資料的特徵值。

在本發明的一實施例中，其中深度學習模型包括還包括全連接層或一機器學習演算法，在輸出對應於物件的輸出資訊的步驟包括：藉由全連接層或機器學習演算法根據特徵值將物件分類並取得對應於物件的物件資訊。

在本發明的一實施例中，其中物件資訊包括物件在多媒體資料中的中心點、用於圈選出物件的邊界框的長度與邊界框的寬度以及物件在多媒體資料中的旋轉角度。

在本發明的一實施例中，其中物件資訊包括用於圈選出物件的邊界框的多個頂點的座標。

在本發明的一實施例中，其中物件資訊包括物件的種類。

在本發明的一實施例中，其中深度學習模型包括多個層，上述的物件辨識方法還包括：輸入多個待訓練多媒體資料與分別對應此些待訓練多媒體資料的解答至深度學習模型；以及根據此些待訓練多媒體資料與解答調整深度學習模型中每一層的多個權重以訓練深度學習模型。

在本發明的一實施例中，深度學習模型在訓練階段包括懲罰層(loss layer)，在根據待訓練多媒體資料與解答調整深度學習模型中每一層的權重以訓練深度學習模型的步驟包括：藉由深度學習模型根據待訓練多媒體資料輸出分別對應於待訓練多媒體資料的多個輸出解答；以及藉由懲罰層比較輸出解答以及對應待訓練多媒體資料的解答並根據懲罰函數調整深度學習模型中每一層的權重。

在本發明的一實施例中，其中在取得一多媒體資料的步驟之前，該物件辨識方法還包括：取得目前地理資訊；判斷目前地理資訊是否符合特定地理資訊；以及當目前地理資訊符合特定地理資訊時，執行取得多媒體資料的步驟。

在本發明的一實施例中，其中在輸出對應於物件的輸出資訊的步驟中，包括：根據物件取得對應於物件的疊加物件；將疊加物件疊加至多媒體資料；以及輸出已疊加疊加物件的多媒體資料。

在本發明的一實施例中，其中在將疊加物件疊加至多媒體資料的步驟中，包括：根據物件在多媒體資料中的旋轉角度，旋轉疊加物件並將疊加物件疊加至多媒體資料，其中物件在多媒體資料中的旋轉角度是藉由深度學習模型所辨識出。

在本發明的一實施例中，其中在將疊加物件疊加至多媒體資料的步驟中，包括：根據物件在多媒體資料中的中心點，將疊加物件疊加至多媒體資料中的中心點的位置，其中物件在多媒體資料中的中心點是藉由深度學習模型所辨識出。

在本發明的一實施例中，其中在將疊加物件疊加至多媒體資料的步驟中，包括：根據用於圈選出物件的邊界框的長度、邊界框的寬度對疊加物件進行縮放並將疊加物件疊加至多媒體資料，其中物件的邊界框的長度、邊界框的寬度是藉由深度學習模型所辨識出。

在本發明的一實施例中，其中多媒體資料包括影像、點雲(point cloud)、立體像素(voxel)以及網格(mesh)的至少其中之一。

在本發明提出一種物件辨識系統，此系統包括輸入裝置、處理器以及輸出裝置。輸入裝置用以取得多媒體資料。處理器用以將多媒體資料輸入至深度學習模型以辨識多媒體資料中的物件。輸出裝置用以根據所辨識出的多媒體資料中的物件，輸出對應於此物件的輸出資訊。

在本發明的一實施例中，其中卷積層類神經網路包括至少一卷積層與至少一池化層，處理器更用以藉由卷積層與池化層擷取多媒體資料的特徵值。

在本發明的一實施例中，其中深度學習模型包括一全連接層或一機器學習演算法，其中在輸出對應於物件的輸出資訊的運作中，處理器更用以藉由全連接層或機器學習演算法根據特徵值將物件分類並取得對應此物件的物件資訊。

在本發明的一實施例中，其中物件資訊包括物件在多媒體資料中的中心點、用於圈選出物件的邊界框的長度、邊界框的寬度以及物件在多媒體資料中的旋轉角度。

在本發明的一實施例中，其中物件資訊包括物件的種類。

在本發明的一實施例中，其中深度學習模型包括多個層，輸入裝置更用以輸入多個待訓練多媒體資料與分別對應待訓練多媒體資料的解答至深度學習模型，處理器更用以根據待訓練多媒體資料與解答調整深度學習模型中每一層的多個權重以訓練深度學習模型。

在本發明的一實施例中，其中深度學習模型包括懲罰層，在根據待訓練多媒體資料與解答調整深度學習模型中每一層的權重以訓練深度學習模型的運作中，處理器更用以藉由深度學習模型根據待訓練多媒體資料輸出分別對應於待訓練多媒體資料的多個輸出解答，處理器更用以藉由懲罰層比較輸出解答以及對應待訓練多媒體資料的解答並根據懲罰函數調整深度學習模型中每一層的權重。

在本發明的一實施例中，其中在取得多媒體資料的運作之前，處理器更用以取得目前地理資訊，處理器更用以判斷目前地理資訊是否符合特定地理資訊，當目前地理資訊符合特定地理資訊時，執行取得多媒體資料的運作。

在本發明的一實施例中，物件辨識系統更包括儲存裝置，其中在輸出對應於物件的輸出資訊的運作中，處理器更用以根據物件從儲存裝置中取得對應於物件的疊加物件，處理器更用以將疊加物件疊加至多媒體資料，輸出裝置更用以輸出已疊加疊加物件的多媒體資料。

在本發明的一實施例中，其中在將疊加物件疊加至多媒體資料的運作中，處理器更用以根據物件在多媒體資料中的旋轉角度，旋轉疊加物件並將疊加物件疊加至多媒體資料，其中物件在多媒體資料中的旋轉角度是藉由深度學習模型所辨識出。

在本發明的一實施例中，其中在將疊加物件疊加至多媒體資料的運作中，處理器更用以根據物件在多媒體資料中的中心點，將疊加物件疊加至多媒體資料中的中心點的位置，其中物件在多媒體資料中的中心點是藉由深度學習模型所辨識出。

在本發明的一實施例中，其中在將疊加物件疊加至多媒體資料的運作中，處理器更用以根據用於圈選出物件的邊界框的長度、邊界框的寬度對疊加物件進行縮放並將疊加物件疊加至多媒體資料，其中物件的邊界框的長度、邊界框的寬度是藉由深度學習模型所辨識出。

基於上述，本發明的物件辨識方法及物件辨識系統可以提高對於多媒體資料中辨識物件的準確度，亦可以應用在擴增實境的技術當中並提供更良好的使用者體驗。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖3是依據本發明一實施例所繪示的物件辨識系統的示意圖。請參照圖3，物件辨識系統300可以包括子系統302以及子系統304。子系統302包括輸入裝置30、輸出裝置32、處理器34a以及儲存裝置36。子系統304包括處理器34b。

輸入裝置30例如是採用電荷耦合元件（Charge coupled device，CCD）鏡頭、互補式金氧半電晶體（Complementary metal oxide semiconductor transistors，CMOS）鏡頭、或深度攝影機(Depth Camera、Time-Of-Flight Camera)、立體攝影機(Stereo Camera)。

輸出裝置32例如是液晶顯示器（liquid crystal display, LCD）、發光二極體（light-emitting diode, LED）、場發射顯示器（field emission display, FED）等提供顯示功能的顯示裝置。

處理器34a以及處理器34b可以是中央處理單元（Central Processing Unit，CPU），或是其他可程式化之一般用途或特殊用途的微處理器（Microprocessor）、數位信號處理器（Digital Signal Processor，DSP）、可程式化控制器、特殊應用積體電路（Application Specific Integrated Circuit，ASIC）或其他類似元件或上述元件的組合。

儲存裝置36可以是任何型態的固定或可移動隨機存取記憶體（random access memory，RAM）、唯讀記憶體（read-only memory，ROM）、快閃記憶體（flash memory）或類似元件或上述元件的組合。

在本範例實施例中，輸入裝置30、輸出裝置32以及儲存裝置36可以分別地透過有線或無線的方式與處理器34a連結。在本範例實施例中，子系統302例如是手持式電子裝置，子系統304例如是一伺服器。子系統302可以透過有線或無線的方式與子系統304連結，並且子系統302可以將部分的運算交由子系統304的處理器34b來執行，以達成雲端運算的功能。須注意的是，本發明並不用於限定物件辨識系統300中子系統的實際配置架構。在一實施例中，儲存裝置36也可以獨立於子系統302之外。

在此須說明的是，本發明是使用深度學習(Deep Learning)模型來辨識多媒體資料中的物件。所述多媒體資料例如是二維影像、三維點雲(point cloud)、立體像素(voxel)以及網格(mesh)的至少其中之一。在本範例實施例中，多媒體資料是二維影像。

在本範例實施例中，深度學習模型是由卷積層類神經網路(Convolution Neural Network, CNN)實作。圖4是依據本發明一實施例所繪示的卷積層類神經網路的示意圖。請參照圖4，在本範例實施例中，卷積層類神經網路400是由至少一個的卷積層(Convolution Layer) 401、至少一個的池化層(Pooling Layer) 402以及至少一個的全連接層(Fully connected layer) 403所構成。其中，在卷積層類神經網路400的前段通常由卷積層401與池化層402串連組成，通常用來作為影像的特徵擷取來取得所輸入的多媒體資料40的特徵值。此特徵值為可以是多維陣列，一般被視為代表多媒體資料40的特徵向量。然而須注意的是，在另一實施例中，卷積層401與池化層402也可以使用串聯結合並聯的方式進行組合，本發明並不用於限定卷積層401與池化層402的組合或排列方式。

而在卷積層類神經網路400的後段包括全連接層403，全連接層403會根據經由卷積層401與池化層402所產生的特徵值來將多媒體資料40中的物件進行分類。並且可以取得對應於所辨識出的物件的物件資訊。

在本範例實施例中，物件資訊包括用於圈選出所辨識出的物件的邊界框(Bonding Box)，且物件資訊還包括所辨識出的物件在多媒體資料40中的中心點、邊界框的長度與寬度以及該物件在多媒體資料40中的旋轉角度。在另一範例實施例中，物件資訊還包括邊界框為在多媒體資料中的多個頂點的座標。在另一範例實施例中，物件資訊還包括所辨識出的物件的種類。特別是，全連接層403的分類功能亦可由傳統的機器學習演算法來取代。然而，若欲得出上述的物件資訊(例如，中心座標、長寬、旋轉角度)等，仍需靠全連接層的類神經網路。此外，上述的傳統機器學習方法例如是支撐向量機(Support Vector Machine，SVM)、聯合貝葉斯氏(Joint Bayesian)、回歸分析(Regression Analysis)等等。在此須說明的是，在上述的傳統的演算法中，傳統的演算法通常比全連接層403更能有效分類物件。所以若要求結果更精準，可以先用全連接層求出物件座標、大小、旋轉角度，再將全連接層403的輸入再輸入傳統演算法做分類。

在此須說明的是，卷積層401是分別由多組的濾波器(kernel，亦稱為filter)所構成。而對於每一組濾波器，則再由多個滑動窗口(sliding window)組成。

具體來說，圖5是依據本發明一實施例所繪示的濾波器與其滑動窗口的示意圖。請參照圖5，在本範例實施例中，多媒體資料501首先會被拆解為紅色通道的影像501_R、綠色通道的影像501_G以及藍色通道的影像501_B。而以濾波器503來說，濾波器503包括用來與影像501_R進行卷積計算(convolution operation)的滑動窗口503_R、用來與影像501_G進行卷積計算的滑動窗口503_G以及用來與影像501_B進行卷積計算的滑動窗口503_B。滑動窗口503_R、滑動窗口503_G以及滑動窗口503_B分別包含多個權重。在辨識多媒體資料501時，即透過滑動窗口503_R、滑動窗口503_G以及滑動窗口503_B中的權重分別與影像501_R、影像501_G以及影像501_B作用。

圖6A至圖6E是依據本發明一實施例所繪示的滑動窗口的作用方式的示意圖。請參照圖6A至圖6E，在圖6A中，從影像501_R的某個角落開始(在本範例實施例中，是從左上角開始)，將滑動窗口503_R中每個權重的值，乘上影像501_R中區塊6001中對應的像素(Pixel)值，最後再將每個權重與像素值的乘積結果相加得到一個輸出值R_out 。

類似地，在圖6B中，從影像501_G的某個角落開始(在本範例實施例中，是從左上角開始)，將滑動窗口503_G中每個權重的值，乘上影像501_G中區塊6002中對應的像素(Pixel)值，最後再將每個權重與像素值的乘積結果相加得到一個輸出值G_out 。

類似地，在圖6C中，從影像501_B的某個角落開始(在本範例實施例中，是從左上角開始)，將滑動窗口503_B中每個權重的值，乘上影像501_B中區塊6003中對應的像素(Pixel)值，最後再將每個權重與像素值的乘積結果相加得到一個輸出值B_out 。

在計算出輸出值R_out 、輸出值G_out 以及輸出值B_out 後，如圖6D所示，可以將輸出值R_out 、輸出值G_out 以及輸出值B_out 以及該濾波器503的偏權值(Bias)相加，再將相加後的總和輸入至一函數(通常為Sigmoid或ReLU函數，圖6D中以函數f表示)，最後將其輸出到二維陣列600中的對應位置。隨後滑動窗口503_R、滑動窗口503_G以及滑動窗口503_B會分別在影像501_R、影像501_G以及影像501_B中往右移特定像素(例如，一個像素)並再重複前述操作，並將其輸出接在上一個輸出右邊，如圖6E所示。

當橫向做完後(即滑動窗口503_R、滑動窗口503_G以及滑動窗口503_B分別掃完影像501_R、影像501_G以及影像501_B的一列時)，滑動窗口503_R、滑動窗口503_G以及滑動窗口503_B會向下移動特定像素，再由左往右重複前述操作，並再將其輸出接在二維陣列600中上一列輸出的下方。最後直到滑動窗口503_R、滑動窗口503_G以及滑動窗口503_B分別掃完整張影像501_R、影像501_G以及影像501_B。當濾波器503與影像501_R、影像501_G以及影像501_B作用完成後，其結果輸出成二維陣列600。同樣地，其他濾波器亦可以輸出二維陣列601與二維陣列602。最後，可以再將這些二維陣列串聯，並送往下一層類神經網路，例如池化層。

卷積層的輸出通常為三維陣列，其中許多元素值接近零。因此，為了減少計算量，通常會在卷積層後面接上池化層。其作用類似於卷積層；但池化層的滑動窗口的作用是將其所包含的資料取平均或最大值並輸出。此作用類似於將資料中局域的特徵作彙整。之後通常再送到下一層卷積層。此卷積層的輸入陣列深度不再如第一層為R、G、B；而可能是一個非常深的陣列(深度與第一層卷積層的濾波器數目相等)。但作用原理仍同前所述。

在此須說明的是，卷積層與池化層的結合可以稱為卷積層類神經網路，而卷積層類神經網路具有多種特性。例如，卷積層類神經網路可以由訓練資料得出各濾波器中滑動窗口的權重。傳統物件辨識必須由特定演算法(例如，顏色轉折點的計算)或由專家設計出的濾波器來求出輸入影像的特徵向量。而卷積層類神經網路則是藉由在其訓練階段輸入大量影像，與其對應的解答(即分類結果、物件框)來讓網路自動找出適合的濾波器。通常人工能夠設計出的特徵擷取演算法或濾波器有限，且難免有遺漏。但深度學習可藉由大量的卷積層串、並聯，並在每個卷積層內增加大量數目的濾波器，來讓電腦找出大量合適的濾波器。故不只節省了人類設計濾波器的時間，更能找出大量人類無法想到的濾波器，以得出適合表示影像的特徵向量。

此外，卷積層類神經網路還具有權重共享的特性。具體來說，傳統的類神經網路，每個神經元必須與前一層(或輸入資料)做全連結。如此常會造成龐大的計算量。例如：輸入圖片為500*300像素，而假設第一層類神經網路共有700個神經元；則該層中即有500*300*700個連結，或是說有500*300*700個權重需在訓練時調整。最終通常會導致電腦無法負擔如此龐大的計算量。而卷積層中每張圖片(或輸入陣列)皆共享同一組滑動窗口的權重。藉此可以大幅減少全連結網路的計算量。

卷積層類神經網路還具有局預感知的特性。具體來說，如前所述，因一個濾波器通常小於整個影像(或輸入陣列)，故濾波器通常只對影像的局域做感知。此特性能有效支援待辨識目標在影像中的平移。假設一個5*5的濾波器能有效找到人臉，則不論人臉在影像中的哪個位置，只要濾波器平移到該處，就能偵測到人臉。比起全連接類神經網路，此法更有效率地處理目標物的平移。

卷積層類神經網路還具有自動習得不同抽象層次的濾波器的特性。具體來說，雖然在卷積層中，濾波器中的權重一開始為隨機；然後藉由大量資料訓練，最終習得適合的權重。但經驗法則上，將深度學習的每層卷積層(或池化層)映射回(deconvolution)所輸入的多媒體資料(或影像)後，會發現較前面幾層通常在偵測較局域或較低抽象層次的特徵(例如：顏色轉折點、邊界線、輪廓)；而後層通常偵測較廣域或較高抽象層次的特徵(例如：人臉、汽車、大樓… 等欲辨識目標)。此特性是人工設計的濾波器難以實現的。

請再次參照圖4，緊接在卷積層類神經網路400後的是全連接層，例如是全連接的類神經網路或傳統分類器(如：SVM)。因為卷積層通常只考慮局域的特徵，而全連接層可以將所有局域的特徵綜合考量，並加以分類、預測用於圈選出物件的邊界框。

圖7是依據本發明一實施例所繪示的訓練卷積層類神經網路的示意圖。請參照圖7，在規劃好深度學習模型的卷積層類神經網路400後，還必須輸入大量的待訓練多媒體資料700並同時標記好每個待訓練多媒體資料700的解答703至深度學習模型701。深度學習模型701包括前述的卷積層類神經網路400以及緊接在其後的懲罰層。也就是說，在本範例實施例中，深度學習模型701在訓練階段還會包括懲罰層。懲罰層中定義了計算誤差的方法。深度學習模型701可依照此誤差，來調整各層網路的權重。開發人員可依需求來定義計算誤差的方法。例如：若成功預測物件種類較為重要，則可設計出一個函數，當深度學習模型在預測物件種類錯誤時，會產生較大的誤差(例如：預測結果與解答差值的四次方)。若成功預測物件的寬、高較為次要，則可用一般計算誤差的方式(例如：預測結果與解答差值的平方)。

在本範例實施例中，懲罰層會比較卷積層類神經網路400的輸出702以及多媒體資料700解答703，並且計算出誤差。隨後深度學習模型701根據該誤差來調整其網路內部中每一層所具有的權重以訓練深度學習模型。當調整上述權重達一定程度後，卷積層類神經網路400的輸出702會非常接近所輸入的待訓練多媒體資料700的解答703，此時稱為學習完成，或稱為網路已收斂。

也就是說，在本範例實施例中，深度學習模型701在訓練階段會在卷積層類神經網路400的尾端加上懲罰層(Loss layer，又稱損失層)。懲罰層會比較卷積層類神經網路400根據待訓練多媒體資料所輸出的輸出解答與待訓練多媒體資料700的解答，並計算出誤差。隨後卷積層類神經網路藉由此誤差，並以倒傳遞的方式，逐一地由後往前，來調整網路中每一個層的權重。其誤差計算的方式(即：懲罰函數)例如是：平方差、Softmax… 等。在本範例實施例中，懲罰層只在訓練階段使用。當訓練階段完成後懲罰層會被拿掉。

當學習完成後，可以進入部屬(Deploy)階段。圖8是依據本發明一實施例所繪示的部屬階段的示意圖。請參照圖8，只要輸入多媒體資料801，深度學習模型803(相同於上述的深度學習模型701)即可取得其所偵測到的物件的物件資訊805。在本範例實施例中，多媒體資料801為日本城，而物件資訊805可以包括深度學習模型803判斷多媒體資料801為日本城的機率，並且取得邊界框為在多媒體資料801中的中心點的座標(即，X值與Y值)以及用於圈選出日本城的邊界框的長度、寬度與日本城在多媒體資料801中的旋轉角度。

在本發明的範例實施例中，深度學習模型會應用於擴增實境的技術中。以上述圖8的範例來說，在取得上述的物件資訊805後，可以依照所得出的物件資訊805，從儲存裝置36中取出相對應的疊加物件(亦稱為，擴增實境內容)，並且依照上述的旋轉角度旋轉此疊加物件、依照上述的邊界框的長度、寬度縮放此疊加物件並將此疊加物件擺放至上述中心點的座標的位置。

也就是說，利用深度學習模型的輸出(例如上述所辨識出的物件的機率、邊界框)，便能在輸入的多媒體資料中找出待辨識物件的位置、大小與旋轉角度。如此，便能將擴增實境影像(如：圖片、動畫模型、圖文資訊)依據該大小縮放，並放到相對合適的位置上，以達到擴增實境效果。

藉由深度學習模型的以上特性，可以下列方法解決傳統物件辨識的缺點：(1)藉由輸入各種角度拍攝目標物的訓練資料，並將其歸類為同一類別，解決傳統擴增實境無法辨識不同角度的缺點。(2)若訓練目標為辨識某物件的種類，則將同種類不同物件的資料加入訓練資料(如：將甲地與乙地的火山，皆丟入同一類別訓練)，以達成能辨識同種類物件的能力。若想區分同種類不同物件(如：想區分甲地與乙地的火山)，則將不同物件的資料分成不同類別，並輸入至深度學習模型訓練。如此，則具有比傳統物件辨識方法更高的彈性。(3)傳統的物件辨識，僅能取出低抽象層次的顏色轉折點。而藉由比對這些轉折點的分布，容易造成誤判(例如：當山與房子的顏色轉折點分布相似，則易誤判)。而深度學習模型，得以將低抽象層次的特徵向量，精煉成更高抽象的特徵，故可避免誤判的狀況。(4)因深度學習模型，並非以顏色轉折點來判斷兩影像是否相似，故可將高解析度的圖片縮小成低解析度的圖像，再做判斷。又因深度學習模型係採用較高抽象層次的特徵向量判斷兩影像是否相近，故當影像縮小時，不會降低其判斷精準度。

在此須說明的是，上述關於深度學習模型的訓練與部屬皆可透過圖3的物件辨識系統300的處理器34a或34b來執行。而圖3的物件辨識系統300可以使用深度學習模型來達成擴增實境的技術。

例如，圖9是依據本發明一實施例所繪示的擴增實境的顯示流程的示意圖。請參照圖9，搭配圖3的物件辨識系統300中的子系統302(例如，手持式裝置)來進行說明。在步驟S901中，子系統302例如可以透過輸入裝置30拍攝並取得內容為「橋」的多媒體資料。接著，在步驟S902中，子系統302的處理器34a例如可以將內容為「橋」的多媒體資料輸入至深度學習模型。之後，在步驟S903中，子系統302的處理器34a可以藉由深度學習模型得到多媒體資料中物件的類別為「橋」，以及用於圈選出此物件的邊界框的中心點座標、邊界框的長度、邊界框的寬度以及上述「橋」在多媒體資料中的旋轉角度。之後在步驟S904中，子系統302的處理器34a例如可以根據所辨識出的物件的類別，從儲存裝置36中取得對應該物件的疊加物件。最後在步驟S905中，物件辨識系統300的處理器34可以根據上述的邊界框的中心點座標、邊界框的長度、邊界框的寬度以及上述「橋」在多媒體資料中的旋轉角度將疊加物件疊加至多媒體資料，並且藉由輸出裝置32輸出(或顯示)已疊加疊加物件的多媒體資料。

在此須說明的是，上述步驟S902與步驟S903可以使用雲端運算的方式來實現。例如，使用者例如可以將在步驟S901中擷取到的多媒體資料從子系統302傳送至子系統304，並且子系統304的處理器34b會藉由位在子系統304中的深度學習模型執行步驟S902，並在步驟S903中回傳對應的辨識結果至子系統302。最後再由子系統302執行步驟S904與步驟S905完成擴增實境的顯示。藉此，可以達到使用雲端運算的方式來運行深度學習模型，進而降低使用者所使用的裝置(即，子系統302)的計算量。

圖10是依據本發明一實施例所繪示的擴增實境的顯示方法的示意圖。上述的擴增實境的顯示方法可以藉由圖10來進行說明。請參照圖10，在步驟S1001中，使用者可以使用子系統302的輸入裝置來取得多媒體資料。在步驟S1003中，子系統302的處理器34a可以判斷是否進行雲端運算。當欲進行雲端運算時，在步驟S1005中，子系統302的處理器34a可以透過通訊單元(未繪示)傳送至子系統304，並且藉由子系統304的處理器34b將多媒體資料輸入至位在子系統304中的深度學習模型以辨識多媒體資料中的物件，並且將辨識結果傳回給子系統302。當沒有要進行雲端運算時，在步驟S1007中，子系統302的處理器34a可以直接將多媒體資料輸入至位在子系統302中的深度學習模型以辨識多媒體資料中的物件。在辨識完多媒體資料中的物件後，在步驟S1009中，子系統302的處理器34a可以執行擴增實境影像處理模組來根據所辨識出的物件，取得對應的疊加物件，並且將此疊加物件疊加至多媒體資料。最後在步驟S1011中，子系統302的處理器34a可以透過輸出裝置32輸出(或顯示)已疊加疊加物件的多媒體資料。

在本發明一範例實施例中，擴增實境的顯示方式還可以結合深度學習模型以及地理資訊。

圖11是依據本發明一實施例所繪示的將地理資訊應用至擴增實境的顯示方法的示意圖。

請參照圖11，在步驟S1101中，子系統302的處理器34a可以透過定位裝置(未繪示)取得子系統302目前地理位置。接著在步驟S1103中，子系統302的處理器34a會判斷目前地理位置是否符合一特定地理資訊。若目前地理位置不符合特定地理資訊時，返回執行步驟S1101。若目前地理位置符合特定地理資訊時，可以執行圖10的步驟S1101，並且繼續執行圖10中後續的步驟。

須說明的是，在先前技術中，僅能判斷使用者是否到一特定地理座標附近，且依據網路訊號，可能產生非常大的誤差可能非常大，故無法確切知道使用者的行動裝置是否真的到達特定位置並且拍攝到具有目標物的多媒體資料(即，影像)。以當前流行的遊戲「寶可夢」來說，玩家甚至不需要打開手機的攝像頭，便可以進行遊玩。

然而，藉由本發明的深度學習模組，應用程式除了可以根據目前地理資訊來判斷使用者是否到達指定地點，更得以進一步判斷使用者是否用輸入裝置取得具有目標物的多媒體資料(即，影像)，並判斷是否讓擴增實境內容與玩家互動。如此，則能進一步增強使用者與真實環境的互動、讓擴增實境內容栩栩如生。例如：應用程式要求使用者不只要到日月潭，更要用手機捕捉到日月潭的池水，才會進一步產生擴增實境與其互動。

特別是，將地理資訊結合深度學習模型的物件辨識，更能克服僅使用地理資訊所無法達成的效果。例如：如果要讓使用者在賣場中，用行動裝置掃描商品並出現對應的擴增實境介紹或廣告，若是使用地理資訊，則由於在賣場中各商品的地理座標非常接近，並無法有效地達成擴增實境的顯示。且傳統的物件辨識並無法有效辨識三維物體，也難以達到準確的物件辨識的目標。

結合深度學習模型，亦可以用來判斷是否有某事件發生，並讓應用程式對應該事件產生特殊的反應。

圖12是依據本發明另一實施例所繪示的將地理資訊應用至擴增實境的顯示方法的示意圖。

請參照圖12，在步驟S1201中，子系統302的處理器34a可以透過定位裝置(未繪示)取得子系統302目前地理位置。接著在步驟S1203中，子系統302的處理器34a會判斷目前地理位置是否符合一特定地理資訊。若目前地理位置不符合特定地理資訊時，返回執行步驟S1201。若目前地理位置符合特定地理資訊時，則在步驟S1205中，使用者可以使用子系統302的輸入裝置來取得多媒體資料。在步驟S1207中，子系統302的處理器34a可以將多媒體資料輸入至位在子系統302中的深度學習模型以辨識多媒體資料中的物件。在辨識完多媒體資料中的物件後，在步驟S1209中，子系統302的處理器34a可以判斷是否補捉到特定的物件。若沒有補捉到特定的物件，則返回執行步驟S1207。若有補捉到特定的物件，則在步驟S1211中判斷該物件是否處在特殊事件的狀態。若該物件沒有處在特殊事件的狀態，則在步驟S1213中，子系統302的處理器34a可以疊加一般的疊加資訊來顯示一般的擴增實境內容。若該物件處在特殊事件的狀態，則在步驟S1215中，子系統302的處理器34a可以疊加特殊的疊加資訊來顯示特殊的擴增實境內容。

上述方法可以應用在下述情況，例如：如果應用程式會對水體產生反應；則除了應用程式原本建立的湖泊、水池… 等地理資料庫外，雨後突然產生的小水塘亦會讓應用程式與使用者互動。又例如：當應用程式捕捉到「山」的影像時，可以播放某種擴增實境內容；但當火山噴發時，又可以播放另一種特殊的擴增實境內容。如此，則可以達到出其不意、賦予應用程式隨機應變的能力。

圖13是依據本發明一實施例所繪示的物件辨識方法的流程圖。請參照圖13，在步驟S1301中，輸入裝置30用以取得多媒體資料。在步驟S1303中，處理器34a或處理器34b將多媒體資料輸入至深度學習模型以辨識多媒體資料中的物件。最後在步驟S1305中，輸出裝置32根據所辨識出的多媒體資料中的物件，輸出對應於此物件的輸出資訊。

綜上所述，本發明提出一種使用深度學習模型進行物件辨識的物件辨識方法及物件辨識系統，其可以提高對於多媒體資料中辨識物件的準確度，亦可以應用在擴增實境的技術當中並提供更良好的使用者體驗。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

10、22、24、26、501_R、501_G、501_B‧‧‧影像

100‧‧‧物件辨識模組

步驟S101‧‧‧特徵擷取的步驟

步驟S102‧‧‧產生特徵向量的步驟

步驟S103‧‧‧分類器依照特徵向量進行分類的步驟

20‧‧‧顏色轉折點

300‧‧‧物件辨識系統

302、304‧‧‧子系統

30‧‧‧輸入裝置

32‧‧‧輸出裝置

34a、34b‧‧‧處理器

36‧‧‧儲存裝置

400‧‧‧卷積層類神經網路

40‧‧‧多媒體資料

401‧‧‧卷積層

402‧‧‧池化層

403‧‧‧全連接層

501‧‧‧多媒體資料

503‧‧‧濾波器

503_R、503_G、503_B‧‧‧滑動窗口

6001、6002、6003‧‧‧區塊

600、601、602‧‧‧二維陣列

700‧‧‧待訓練多媒體資料

701、803‧‧‧深度學習模型

702‧‧‧輸出

703‧‧‧解答

801‧‧‧多媒體資料

805‧‧‧物件資訊

步驟S901‧‧‧透過輸入裝置取得多媒體資料的步驟

步驟S902‧‧‧將多媒體資料輸入至深度學習模型的步驟

步驟S903‧‧‧藉由深度學習模型得到多媒體資料中物件的類別、用於圈選出此物件的邊界框的中心點座標、邊界框的長度與寬度以及此物件在多媒體資料中的旋轉角度的步驟

步驟S904‧‧‧根據所辨識出的物件的類別，取得對應該物件的疊加物件的步驟

步驟S905‧‧‧將疊加物件疊加至多媒體資料，並且輸出已疊加疊加物件的多媒體資料的步驟

步驟S1001‧‧‧取得多媒體資料的步驟

步驟S1003‧‧‧判斷是否進行雲端運算的步驟

步驟S1005‧‧‧傳送多媒體資料，藉由另一子系統將多媒體資料輸入至深度學習模型以辨識多媒體資料中的物件，並且回傳辨識結果的步驟

步驟S1007‧‧‧將多媒體資料輸入至深度學習模型以辨識多媒體資料中的物件的步驟

步驟S1009‧‧‧執行擴增實境影像處理模組來根據所辨識出的物件取得對應的疊加物件，並且將此疊加物件疊加至多媒體資料的步驟

步驟S1011‧‧‧輸出已疊加疊加物件的多媒體資料的步驟

步驟S1101‧‧‧取得目前地理位置的步驟

步驟S1103‧‧‧判斷目前地理位置是否符合特定地理資訊的步驟

步驟S1201‧‧‧取得目前地理位置的步驟

步驟S1203‧‧‧判斷目前地理位置是否符合特定地理資訊的步驟

步驟S1205‧‧‧取得多媒體資料的步驟

步驟S1207‧‧‧將多媒體資料輸入至深度學習模型以辨識多媒體資料中的物件的步驟

步驟S1209‧‧‧判斷是否補捉到特定的物件的步驟

步驟S1211‧‧‧判斷物件是否處在特殊事件的狀態的步驟

步驟S1213‧‧‧疊加一般的疊加資訊來顯示一般的擴增實境內容的步驟

步驟S1215‧‧‧疊加特殊的疊加資訊來顯示特殊的擴增實境內容的步驟

步驟S1301‧‧‧取得多媒體資料的步驟

步驟S1303‧‧‧將多媒體資料輸入至深度學習模型以辨識多媒體資料中的物件的步驟

步驟S1305‧‧‧根據所辨識出的多媒體資料中的物件，輸出對應於此物件的輸出資訊的步驟

圖1是物件辨識的流程示意圖。圖2A是傳統的物件辨識的示意圖。圖2B是同一物件經由不同角度拍攝所取得的影像的示意圖。圖3是依據本發明一實施例所繪示的物件辨識系統的示意圖。圖4是依據本發明一實施例所繪示的卷積層類神經網路的示意圖。圖5是依據本發明一實施例所繪示的濾波器與其滑動窗口的示意圖。圖6A至圖6E是依據本發明一實施例所繪示的滑動窗口的作用方式的示意圖。圖7是依據本發明一實施例所繪示的訓練卷積層類神經網路的示意圖。圖8是依據本發明一實施例所繪示的部屬階段的示意圖。圖9是依據本發明一實施例所繪示的擴增實境的顯示流程的示意圖。圖10是依據本發明一實施例所繪示的擴增實境的顯示方法的示意圖。圖11是依據本發明一實施例所繪示的將地理資訊應用至擴增實境的顯示方法的示意圖。圖12是依據本發明另一實施例所繪示的將地理資訊應用至擴增實境的顯示方法的示意圖。圖13是依據本發明一實施例所繪示的物件辨識方法的流程圖。

Claims

一種物件辨識方法，包括：取得一多媒體資料；將該多媒體資料輸入至一深度學習模型以辨識該多媒體資料中的一物件；以及根據所辨識出的該多媒體資料中的該物件，輸出對應於該物件的一輸出資訊。
如申請專利範圍第1項所述的物件辨識方法，其中該深度學習模型包括一卷積層類神經網路(Convolution Neural Network，CNN)。
如申請專利範圍第2項所述的物件辨識方法，其中該卷積層類神經網路包括至少一卷積層(convolution layer)與至少一池化層(pooling layer)，該物件辨識方法還包括：藉由該至少一卷積層與該至少一池化層擷取該多媒體資料的一特徵值。
如申請專利範圍第3項所述的物件辨識方法，其中該深度學習模型包括還包括一全連接層或一機器學習演算法，在輸出對應於該物件的該輸出資訊的步驟包括：藉由該全連接層或該機器學習演算法根據該特徵值將該物件分類並取得對應於該物件的一物件資訊。
如申請專利範圍第4項所述的物件辨識方法，其中該物件資訊包括該物件在該多媒體資料中的一中心點、用於圈選出該物件的一邊界框的一長度、該邊界框的一寬度以及該物件在該多媒體資料中的一旋轉角度。
如申請專利範圍第4項所述的物件辨識方法，其中該物件資訊包括用於圈選出該物件的一邊界框的多個頂點的座標。
如申請專利範圍第4項所述的物件辨識方法，其中該物件資訊包括該物件的種類。
如申請專利範圍第1項所述的物件辨識方法，其中該深度學習模型包括多個層(layer)，該物件辨識方法還包括：輸入多個待訓練多媒體資料與分別對應該些待訓練多媒體資料的多個解答至該深度學習模型；以及根據該些待訓練多媒體資料與該些解答調整該深度學習模型中每一該些層的多個權重以訓練該深度學習模型。
如申請專利範圍第8項所述的物件辨識方法，其中該深度學習模型包括一懲罰層(loss layer)，在根據該些待訓練多媒體資料與該些解答調整該深度學習模型中每一該些層的該些權重以訓練該深度學習模型的步驟包括：藉由該深度學習模型根據該些待訓練多媒體資料輸出分別對應於該些待訓練多媒體資料的多個輸出解答；以及藉由該懲罰層比較該些輸出解答以及對應該些待訓練多媒體資料的該些解答並根據一懲罰函數調整該深度學習模型中每一該些層的該些權重。
如申請專利範圍第1項所述的物件辨識方法，其中在取得一多媒體資料的步驟之前，該物件辨識方法還包括：取得一目前地理資訊；判斷該目前地理資訊是否符合一特定地理資訊；以及當該目前地理資訊符合該特定地理資訊時，執行取得該多媒體資料的步驟。
如申請專利範圍第1項所述的物件辨識方法，其中在輸出對應於該物件的該輸出資訊的步驟中，包括：根據該物件，取得對應於該物件的一疊加物件；將該疊加物件疊加至該多媒體資料；以及輸出已疊加該疊加物件的該多媒體資料。
如申請專利範圍第11項所述的物件辨識方法，其中在將該疊加物件疊加至該多媒體資料的步驟中，包括：根據該物件在該多媒體資料中的一旋轉角度，旋轉該疊加物件並將該疊加物件疊加至該多媒體資料，其中該物件在該多媒體資料中的該旋轉角度是藉由該深度學習模型所辨識出。
如申請專利範圍第11項所述的物件辨識方法，其中在將該疊加物件疊加至該多媒體資料的步驟中，包括：根據該物件在該多媒體資料中的一中心點，將該疊加物件疊加至該多媒體資料中的該中心點的位置，其中該物件在該多媒體資料中的該中心點是藉由該深度學習模型所辨識出。
如申請專利範圍第11項所述的物件辨識方法，其中在將該疊加物件疊加至該多媒體資料的步驟中，包括：根據用於圈選出該物件的一邊界框的一長度、該邊界框的一寬度對該疊加物件進行縮放並將該疊加物件疊加至該多媒體資料，其中該物件的該邊界框的該長度、該邊界框的該寬度是藉由該深度學習模型所辨識出。
如申請專利範圍第1項所述的物件辨識方法，其中該多媒體資料包括影像、點雲(point cloud)、立體像素(voxel)以及網格(mesh)的至少其中之一。
一種物件辨識系統，包括：一輸入裝置，用以取得一多媒體資料；一處理器，用以將該多媒體資料輸入至一深度學習模型以辨識該多媒體資料中的一物件；以及一輸出裝置，用以根據所辨識出的該多媒體資料中的該物件，輸出對應於該物件的一輸出資訊。
如申請專利範圍第16項所述的物件辨識系統，其中該深度學習模型包括一卷積層類神經網路(Convolution Neural Network，CNN)。
如申請專利範圍第17項所述的物件辨識系統，其中該卷積層類神經網路包括至少一卷積層(convolution layer)與至少一池化層(pooling layer)，該處理器更用以藉由該至少一卷積層與該至少一池化層擷取該多媒體資料的一特徵值。
如申請專利範圍第18項所述的物件辨識系統，其中該深度學習模型包括一全連接層或一機器學習演算法，其中在輸出對應於該物件的該輸出資訊的運作中，該處理器更用以藉由該全連接層或該機器學習演算法根據該特徵值將該物件分類並取得對應該物件的一物件資訊。
如申請專利範圍第19項所述的物件辨識系統，其中該物件資訊包括該物件在該多媒體資料中的一中心點、用於圈選出該物件的一邊界框的長度、該邊界框的寬度以及該物件在該多媒體資料中的一旋轉角度。
如申請專利範圍第19項所述的物件辨識系統，其中該物件資訊包括用於圈選出該物件的一邊界框的多個頂點的座標。
如申請專利範圍第19項所述的物件辨識系統，其中該物件資訊包括該物件的種類。
如申請專利範圍第16項所述的物件辨識系統，其中該深度學習模型包括多個層(layer)，該輸入裝置更用以輸入多個待訓練多媒體資料與分別對應該些待訓練多媒體資料的多個解答至該深度學習模型，該處理器更用以根據該些待訓練多媒體資料與該些解答調整該深度學習模型中每一該些層的多個權重以訓練該深度學習模型。
如申請專利範圍第23項所述的物件辨識系統，其中該深度學習模型包括一懲罰層(loss layer)，在根據該些待訓練多媒體資料與該些解答調整該深度學習模型中每一該些層的該些權重以訓練該深度學習模型的運作中，該處理器更用以藉由該深度學習模型根據該些待訓練多媒體資料輸出分別對應於該些待訓練多媒體資料的多個輸出解答，該處理器更用以藉由該懲罰層比較該些輸出解答以及對應該些待訓練多媒體資料的該些解答並根據一懲罰函數調整該深度學習模型中每一該些層的該些權重。
如申請專利範圍第16項所述的物件辨識系統，其中在取得一多媒體資料的運作之前，該處理器更用以取得一目前地理資訊，該處理器更用以判斷該目前地理資訊是否符合一特定地理資訊，當該目前地理資訊符合該特定地理資訊時，執行取得該多媒體資料的運作。
如申請專利範圍第16項所述的物件辨識系統，該物件辨識系統更包括一儲存裝置，其中在輸出對應於該物件的該輸出資訊的運作中，該處理器更用以根據該物件，從該儲存裝置中取得對應於該物件的一疊加物件，該處理器更用以將該疊加物件疊加至該多媒體資料，該輸出裝置更用以輸出已疊加該疊加物件的該多媒體資料。
如申請專利範圍第26項所述的物件辨識系統，其中在將該疊加物件疊加至該多媒體資料的運作中，該處理器更用以根據該物件在該多媒體資料中的一旋轉角度，旋轉該疊加物件並將該疊加物件疊加至該多媒體資料，其中該物件在該多媒體資料中的該旋轉角度是藉由該深度學習模型所辨識出。
如申請專利範圍第26項所述的物件辨識系統，其中在將該疊加物件疊加至該多媒體資料的運作中，該處理器更用以根據該物件在該多媒體資料中的一中心點，將該疊加物件疊加至該多媒體資料中的該中心點的位置，其中該物件在該多媒體資料中的該中心點是藉由該深度學習模型所辨識出。
如申請專利範圍第26項所述的物件辨識系統，其中在將該疊加物件疊加至該多媒體資料的運作中，該處理器更用以根據用於圈選出該物件的一邊界框的一長度、該邊界框的一寬度對該疊加物件進行縮放並將該疊加物件疊加至該多媒體資料，其中該物件的該邊界框的該長度、該邊界框的該寬度是藉由該深度學習模型所辨識出。
如申請專利範圍第16項所述的物件辨識系統，其中該多媒體資料包括影像、點雲(point cloud)、立體像素(voxel)以及網格(mesh)的至少其中之一。