TW202226054A

TW202226054A - 物件辨識裝置及物件辨識方法

Info

Publication number: TW202226054A
Application number: TW109144640A
Authority: TW
Inventors: 黃國倫
Original assignee: 緯創資通股份有限公司
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2022-07-01
Also published as: EP4016394A1; US11776292B2; CN114708645A; US20220198181A1

Abstract

一種物件辨識方法包含，學生模型依據老師模型以調整複數個參數，當調整後的學生模型的輸出結果與老師模型的輸出結果之間的向量差值小於一學習門檻值，則視為學生模型完成訓練，提取學生模型作為一物件辨識模型。其中學生模型所需的空間小於老師模型。藉此可以有效率地產生大量訓練圖片及標記，達成了不需要消耗大量人工標記時間進行手動標記的功效。

Description

物件辨識裝置及物件辨識方法

本發明實施例是關於一種辨識裝置及辨識方法，特別是關於一種適用於判斷影像中之特定物件的物件辨識裝置及物件辨識方法。

目前人工智慧(AI)模型標記工作，多半被專門企業獨立承攬，以人工進行標記作業，尤其是在中國、印度、東南亞…等國家，有越來越多專門委託人工標記的公司。市面上所有AI物件辨識模型訓練前，必定要累積大量數據，並且需要大量人工標記，因此十分耗費人工資源，且需要大量時間進行手動標記。

因此如何使用自動標記產生工具，達到大量產生圖片並自動標記，已成為本領域需解決的問題之一。

本揭露內容之一態樣提供了一種物件辨識裝置包含處理器以及一儲存裝置。處理器用以存取儲存裝置所儲存之程式，以實現一前處理模組、一老師模型訓練模組以及一學生模型訓練模組。前處理模組用以產生一追蹤樣本及一對抗樣本。老師模型訓練模組用以產生一老師模型。學生模型訓練模組依據老師模型以初始化一學生模型。其中學生模型依據老師模型以及對抗樣本調整複數個參數，響應於調整後的學生模型的輸出結果與老師模型的輸出結果之間的向量差值小於一學習門檻值，則視為學生模型完成訓練，提取學生模型作為一物件辨識模型。

本揭露內容之一態樣提供了一種物件辨識方法，包含：產生一追蹤樣本及一對抗樣本；依據追蹤樣本產生一老師模型；以及依據老師模型初始化一學生模型；其中學生模型依據老師模型以及該對抗樣本調整複數個參數，響應於調整後的學生模型的輸出結果與老師模型的輸出結果之間的向量差值小於一學習門檻值，則視為學生模型完成訓練，提取學生模型作為一物件辨識模型。

由上述可知，在某些實施例中之物件辨識裝置及物件辨識方法使得作為物件辨識模型的學生模型的卷積層數及神經元數量小於老師模型的卷積層數及神經元數量，因此物件辨識模型具有模型精簡性，且建立學生模型的過程中使用到對抗樣本，此可使物件辨識模型具有模型強健性。再者，在整個學生模型的過程中，所需的人工標記樣本大幅小於對抗樣本數，因此具有人工樣本數稀釋性，達到降低人力標記的時間與資源。藉此，物件辨識裝置及物件辨識方法只需要輸入目標物在任何環境的影片或多張影像，即可大量自動追蹤標記物件，解決了人工智慧物件辨識領域中，最花時間的標記環節，因此可以有效率地產生大量訓練圖片及標記，達成了不需要消耗大量人工標記時間進行手動標記的功效。

以下說明係為完成發明的較佳實現方式，其目的在於描述本發明的基本精神，但並不用以限定本發明。實際的發明內容必須參考之後的申請專利範圍。

必須了解的是，使用於本說明書中的”包含”、”包括”等詞，係用以表示存在特定的技術特徵、數值、方法步驟、作業處理、元件以及/或組件，但並不排除可加上更多的技術特徵、數值、方法步驟、作業處理、元件、組件，或以上的任意組合。

於申請專利中使用如”第一”、"第二"、"第三"等詞係用來修飾申請專利中的元件，並非用來表示之間具有優先權順序，先行關係，或者是一個元件先於另一個元件，或者是執行方法步驟時的時間先後順序，僅用來區別具有相同名字的元件。

請參閱第1圖，第1圖係依照本發明實施例繪示一種物件辨識裝置100之方塊圖。物件辨識裝置100包含一處理器PR及一儲存裝置ST。在一實施例中，處理器PR存取並執行儲存裝置ST中儲存之程式，以實現一前處理模組10、一老師模型訓練模組20及一學生模型訓練模組30。於一實施例中，前處理模組10、老師模型訓練模組20及學生模型訓練模組30可以各自或一併由軟體或韌體實現之。

於一實施例中，儲存裝置ST可被實作為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之儲存媒體。

於一實施例中，前處理模組10、老師模型訓練模組20及學生模型訓練模組30可以各自或一併由一或多個處理器實現之，處理器可由體積電路如微控制單元(micro controller)、微處理器(microprocessor)、數位訊號處理器(Digital Signal Processor，DSP )、現場可程式化邏輯閘陣列(Field Programmable Gate Array，FPGA)、特殊應用積體電路(Application Specific Integrated Circuit，ASIC)或一邏輯電路來實施。於一實施例中，前處理模組10、老師模型訓練模組20及學生模型訓練模組30可以各自或一併由硬體電路實現之。舉例而言，前處理模組10、老師模型訓練模組20及學生模型訓練模組30可藉由主動元件(例如開關、電晶體)、被動元件(例如電阻、電容、電感)所構成。於一實施例中，處理器PR用以存取儲存裝置ST中的前處理模組10、老師模型訓練模組20及學生模型訓練模組30各自的運算結果。

請參閱第2~3圖，第2圖係依照本發明實施例繪示一種物件辨識方法200之示意圖。第3圖係依照本發明實施例繪示一種物件辨識方法300之流程圖。物件辨識方法200及物件辨識方法300可以由第1圖的元件實現之。由第2圖可看出，物件辨識方法200可分為資料收集ORI、資料前處理PRD、模型訓練MT與學生模型驗證STV等過程。以下以第3圖中的步驟配合第2圖進行說明。

於一實施例中，處理器PR用以存取前處理模組10、老師模型訓練模組20及學生模型訓練模組30或存取並執行儲存裝置ST中的程式/演算法，實現前處理模組10、老師模型訓練模組20及學生模型訓練模組30。於一實施例中，前處理模組10、老師模型訓練模組20及學生模型訓練模組30由硬體(例如為晶片或電路)實現時，可於接收到資料或訊號後自行運算，並將處理結果回傳給處理器PR。於一實施例中，前處理模組10、老師模型訓練模組20及學生模型訓練模組30由軟體(例如為演算法)實現時，處理器PR執行前處理模組10、老師模型訓練模組20及學生模型訓練模組30中的演算法，以取得處理結果。

於步驟310中，前處理模組10用以產生一追蹤樣本及一對抗樣本。

於一實施例中，前處理模組10接收資料收集ORI(資料收集ORI可以是，例如透過鏡頭拍攝，或是存取資料庫中的多張影像或一影片而獲得)後，先由使用者透過物件辨識的輸入介面(例如為觸控式螢幕、鍵盤、滑鼠…等等)框選影片的幾個幀或是幾張影像中的框選物件(例如為人)，前處理模組10接著依據一光流演算法以追蹤每個畫面中的一框選物件，以產生追蹤樣本DA。其中，光流演算法是關於追蹤視域中的物件，描述相對於觀察者的運動所造成的觀測目標、表面或邊緣的運動。透過使用者框選幾張幀或幾張影像以定義框選物件後，光流演算法可追蹤每一幀或其它影像中的框選物件，以產生追蹤樣本DA(即多張影像中追蹤到具有框選物件的影像後，產生對應框選物件的物件框資料，例如在第一張影像中框選出人，即使在第二張影像中，此人相對於第一張影像移動了約1公分，利用光流演算法仍可在第二張影像中框選出此人，依此類推，藉此可以應用多張影像追蹤此人的運動軌跡，以產生追蹤樣本DA)。於另一實施例中，可分別對不同類別的物件產生追蹤樣本DA，而獲得對應多個類別的物件的多筆追蹤樣本DA。

於一實施例中，追蹤樣本DA中包含相對於原始影像中的框選物件的框選位置的可延伸標記式語言(Extensible Markup Language，XML)檔，內容是標記於畫面中的框選位置之中心點座標(x,y)、框選位置的寬度W、框選位置的高度H及物件類別(例如為人)。追蹤樣本DA作為訓練老師模型TTM使用的資料集。

於一實施例中，前處理模組10將追蹤樣本DA加入一雜訊，以產生對抗樣本DB。

於一實施例中，前處理模組10將追蹤樣本DA輸入一生成對抗網路(generative adversarial network，GAN)或是一對抗產生對抗樣本法(adv-GAN)，生成對抗網路或是對抗產生對抗樣本法輸出對抗樣本DB。

於一實施例中，前處理模組10將追蹤樣本DA中的框選位置對應的影像擷取出來，將這些擷取出來的框選位置對應的影像輸入adv-GAN，以增強圖量，adv-GAN用以加入有意義的雜訊(即誤導老師模型TTM的有效資訊)，以產生雜訊圖，再將一或多張雜訊圖貼回追蹤樣本DA，以產生多張不同的對抗樣本DB。舉例而言，將框選位置對應的影像加入雜訊並貼回原本的追蹤樣本DA以產生對抗樣本DB後，使用者的肉眼看仍是框選到人類，但會使對抗樣本DB中的框選位置被老師模型TTM判讀成貓的機率為90%，判讀成人類的機率是15%，則於後續訓練步驟中調整老師模型TTM的參數(例如加強關於人類特徵的權重)，直到訓練出將對抗樣本DB中的框選位置辨識為人(例如被老師模型TTM判讀成貓的機率為10%，判讀成人類的機率是95%)。於另一實施例中，貼回追蹤樣本DA的雜訊圖包括不同物件類別(例如瓶子、箱子、標示牌等)的影像的雜訊圖，將包括不同物件類別的雜訊圖貼回追蹤樣本DA，而產生對抗樣本DB，後續利用對抗樣本DB訓練老師模型TTM，將使老師模型TTM識別出影像中同時存在的不同類別的物件。

藉由產生對抗樣本DB，可以增加給老師模型TTM訓練用的樣本數量，且透過增加雜訊的對抗樣本DB及對應的正確答案，以使老師模型TTM能夠自動調整參數，提升判斷物件的精準度。於另一實施例中，對抗樣本DB可增加不同類別的物件影像，並將不同類別的物件影像加入雜訊後，貼至對抗樣本DB中，可讓訓練後的老師模型TTM識別出多種物件。

於步驟320中，老師模型訓練模組20用以在初始時，先以追蹤樣本DA訓練出初版的一老師模型TTM，此時老師模型TTM對於數據的認知偏向追蹤樣本DA型態。

於一實施例中，老師模型TTM以對抗樣本DB數據型態做再訓練，此時老師模型TTM中的神經參數朝向對抗樣本DB更新，而老師模型TTM可應用於一些物體偵測模型，如YOLO系列，這種一階(one-stage)預測型態，增加模型精準度，原因在於訓練老師模型TTM時，已經將資料型態分成兩種維度做再訓練，所以這種維度再適應(Domain Adaptation)的訓練方式，縮減了梯度迷散的可能性。由於YOLO模型需要大量的訓練資料，透過輸入追蹤樣本DA及大量的對抗樣本DB，可以增加老師模型TTM的神經網路之強健性。於一實施例中，YOLO是一種物件偵測方法，只需要對圖片作一次卷積神經網路(Convolutional Neural Networks，CNN)架構便能夠判斷圖形內的物體位置與類別，因此提升辨識速度。

於步驟330中，學生模型訓練模組30依據老師模型TTM初始化一學生模型STM。

於一實施例中，學生模型STM採用的模型框架與老師模型TTM相同，但學生模型STM的大小可以設計成較小檔案的儲存量(如較少的權重參數量)。於一實施例中，其中學生模型與老師模型的神經框架搭建手法類似，僅減少部分框架搭建層。例如，老師模型TTM採用YOLO模型建置，則學生模型STM在初始化時，也採用YOLO模型的架構。於後續步驟中，學生模型STM會跟隨老師模型TTM進行學習，然而老師TTM以及學生模型STM的輸入數據皆是對抗樣本DB，在訓練過程中，讓學生模型STM訓練逼近老師模型TTM，以提升學生模型STM在辨識物件的精準度。其中，學生模型STM跟隨老師模型TTM進行學習是指，學生模型STM不斷調整多個參數，例如偏權值(bias)跟多個輸入樣本所對應的多個權重(weight)，學生模型STM使得輸出的多個輸出結果(例如包含多個機率的一學生張量)趨近於老師模型TTM的輸出結果(例如包含多個機率的一老師張量)。

於一實施例中，學生模型STM設置的參數數量小於老師模型TTM的參數數量。於一實施例中，學生模型STM設置的深度學習模型的卷積層數及神經元數量小於老師模型TTM的卷積層數及神經元數量，所以學生模型STM的卷積層數及神經元數量對應的權重參數數量也小於老師模型TTM的卷積層數及神經元數量對應的權重參數數量。因此，學生模型STM所需要的儲存空間小於老師模型TTM。再者，由於學生模型STM的卷積層數及神經元數量也小於老師模型TTM，因此，學生模型STM的運算速度會比老師模型TTM快。

於步驟340中，學生模型STM依據老師模型TTM以及對抗樣本DB調整複數個參數(對抗樣本DB為訓練學生模型STM和老師模型TTM的資料，學生模型STM向老師模型TTM學習)，響應於調整後的學生模型STM的一學生張量(tensor)與老師模型TTM的一老師張量之間的向量差值小於一學習門檻值(例如0.1)，則視為學生模型STM完成訓練，提取學生模型STM作為一物件辨識模型。於一實施例中，在提取學生模型STM作為一物件辨識模型之前，可以包含更細部的提升學生模型STM辨識精準度的方法，於後述詳述之。

於一實施例中，由第2圖可知，學生模型STM在運算的過程中，人工標記樣本DC並沒有直接輸入學生模型STM，因此可透過人工標記樣本DC進行學生模型驗證STV。例如，學生模型訓練模組30將人工標記樣本DC(例如框選了人)輸入學生模型STM，而學生模型STM正確的輸出框選位置是人的機率為99%，是貓的機率為0.1%，則可視為學生模型STM精準度已足夠辨識物件。

於一實施例中，學生模型STM依據老師模型TTM以調整的參數可以是偏權值跟多個輸入所對應的多個權重，而學生張量是指學生模型STM輸出的多個機率，例如判斷輸入影像中框選位置為人的機率為70%、為貓的機率為10%、為狗的機率為10%。同理，老師張量是指老師模型TTM輸出的多個機率，例如判斷輸入影像中框選位置為人的機率為90%、為貓的機率為5%、為狗的機率為5%。此處的機率是指框選位置分別為人、貓、狗的各自的機率，因此皆為獨立且彼此無關連性的機率。

於一實施例中，向量差值可以是損失函數(loss function)的一種實作方法，向量差值可以使用均方誤差(Mean square error，MSE)和平均絕對值誤差(Mean absolute error，MAE)…等方法計算出來。這些方法中的預測值(通常表示成y)例如為學生張量，真實值(通常表示成ŷ)例如為老師張量，並計算兩者的向量差值。由於此些方法為既有方法，故此處不贅述之。於一實施例中，向量差值的範圍在0~1之間。

於一實施例中，當調整後的學生模型STM的一學生張量(tensor)與老師模型TTM的一老師張量之間的向量差值小於學習門檻值(例如為0.1)，則視為學生模型STM完成訓練，進而提取學生模型STM作為一物件辨識模型。由於學生模型STM具有運算速度快及儲存空間小的特性，且學生模型STM是向老師模型TTM逼近向量差值，因此學生模型STM的辨識精準度也與大量資料訓練出來的老師模型TTM差不多高。

於一實施例中，於步驟340中，更包含前處理模組10更用以接收人工標記樣本DC。當學生模型STM的學生張量與老師模型TTM的老師張量之間的向量差值小於一學習門檻值(例如為0.2，此處僅為舉例，數值可依據實作調整)時，將人工標記樣本DC輸入老師模型TTM，以產生一進修老師模型。

在某些實施例中，當學生模型STM的學生張量與老師模型TTM的老師張量之間的向量差值小於學習門檻值，代表學生模型STM與老師模型TTM的執行結果相近，因此，老師模型TTM需要藉由人工標記樣本DC進行訓練(此稱為進修)；而當學生模型STM的學生張量與進修老師模型的進修後張量之間的向量差值小於學習門檻值，代表學生模型STM與進修老師模型的執行結果相近，此時學生模型STM視為已訓練完成。

於一實施例中，老師模型訓練模組20將人工標記樣本DC輸入進修老師模型。當進修老師模型輸出的一進修後張量與人工標記樣本的向量差值(或損失函數)小於一進修門檻值，則視為進修老師模型完成訓練。

於一實施例中，人工標記樣本DC的數量小於對抗樣本DB的數量。

藉由將人工標記樣本DC輸入老師模型TTM，可以使老師模型TTM學習到標記物件(例如人)於背景(例如街景)的相依性，當進修老師模型輸出的一進修後張量與人工標記樣本的向量差值(或損失函數)小於一進修門檻值，則視為進修老師模型完成訓練，老師模型訓練模組20再使用進修老師模型帶領學生模型TTM去逼近進修老師模型，學生模型TTM會再次向進修老師模型學習。

於一實施例中，學生模型訓練模組30將學生模型TTM依據進修老師模型以調整參數(學生模型TTM向進修老師模型學習)，例如調整偏權值及/或調整多個輸入所對應的多個權重。當調整後的學生模型的學生張量與進修老師模型的一進修老師張量之間的向量差值小於學習門檻值，則視為學生模型TTM完成訓練，提取學生模型TTM作為物件辨識模型。

藉此可以使學生模型TTM分析實際環境的影像時，提升影像中的物件(例如人)的辨識率。

於一實施例中，步驟340的停止條件為重複運算步驟340到達一特定次數(例如預先設定為70次)，代表學生模型STM調整了70次才使學生模型STM足夠精準，學生模型訓練模組30提取學生模型STM作為一物件辨識模型。

請參閱第4A~4B圖，第4A圖係依照本發明實施例繪示一種產生老師模型TTM與對抗樣本DB之示意圖。第4B圖係依照本發明實施例繪示一種產生物件辨識模型之流程圖。

於步驟410中，錄製目標物影片。例如，藉由一攝相機拍攝走在路上的一或多個行人。

於步驟420中，使用滑鼠框選目標物的範圍，被框選目標物的範圍視為框選位置。然，不限於使用滑鼠，若物件辨識裝置100包含觸控式螢幕，則可由觸控式螢幕接收框選目標的範圍，例如使用者用手指在觸控式螢幕上將框選目標(例如為人)框選出來。此時前處理模組10可知道框選目標在整個幀中的框選位置的長度與寬度及框選位置的中心點座標，藉此可產生人工標記樣本DC。其中，框選位置可以是指一個框選的範圍。

於一實施例中，在步驟420中，使用者可以針對多張幀或影像中的框選目標進行框選，使前處理模組10可知道多張幀或影像的框選目標在各個幀或影像中的框選位置的長度與寬度及框選位置的中心點座標。

於一實施例中，使用者可以針對多種類別的框選目標(目標物)進行框選，例如框選多個人物或貓。

於步驟430中，前處理模組10使用光流演算法搭配特徵金字塔，針對框選位置的像素面積進行光流追蹤。

於一實施例中，由於使用者已框選出至少一張幀的框選位置(例如為人)，前處理模組10使用光流演算法可以在後續的幀中繼續追蹤框選位置(例如人在下一幀中往右走，則前處理模組10使用光流演算法可以追蹤到人於此幀中的框選位置)。特徵金字塔網路是根據特徵金字塔概念設計的特徵提取器，目的是提高找到框選位置的精度和速度。

於步驟440中，前處理模組10針對移動中的框選目標，使用圖像處理演算法，找出目標邊緣輪廓。

於步驟450中，前處理模組10優化出最適合的追蹤框選位置。

於一實施例中，可能因為物件移動的位移較大，使得前述的框選位置的範圍太大或有雜訊，因此，藉由例如二值化演算法、邊緣偵測演算法(Edge detection)…等等，找出物件連續的邊，以找出目標邊緣輪廓(例如為人的輪廓)。例如，處理器PR應用開源電腦視覺函式庫(Open Source Computer Vision Library，open CV)進行移動偵測，由於框選位置已經透過二值化處理，前處理模組10可以計算出最小化的框選位置(最小化矩形)。藉此，處理器PR可以依據目標邊緣輪廓將框選位置收斂適當的大小，作為最適合的追蹤框選位置，再進行追蹤框選位置，以提升追蹤的精準度。

於步驟460中，前處理模組10產生追蹤樣本DA。

例如，前處理模組10接著依據一光流演算法以追蹤每個畫面中的一框選物件，以產生大量自動產生的追蹤樣本DA，無須人工進行框選，即可自動產生大量的追蹤樣本DA。

於步驟462中，前處理模組10將追蹤樣本DA輸入初始老師模型，以訓練初始老師模型。

於一實施例中，初始老師模型只是一個架構(例如YOLO模型的架構)。

於步驟464中，老師模型訓練模組20產生老師模型TTM。此老師模型TTM已經學習過追蹤樣本DA。

於步驟470中，前處理模組10擷取(crop)出框選位置的影像。換言之，前處理模組10會從整張幀或影像中將框選位置擷取出來。

於步驟472中，前處理模組10生成框選位置假樣本。

於一實施例中，可以將原始的框選位置的影像加入雜訊。較佳地，可使用adv-GAN演算法以加入有意義的雜訊(即誤導老師模型TTM的有效資訊)，以產生雜訊圖(即框選位置假樣本)。

於步驟474中，前處理模組10將一或多張框選位置假樣本貼回追蹤樣本DA，以產生多張不同的對抗樣本DB。

於此例中，可產生大量的對抗樣本DB，用於訓練老師模型TTM，讓老師模型TTM調整參數(讓老師模型TTM學習對抗樣本DB)，直到訓練出讓老師模型TTM也能將對抗樣本DB中的框選位置進行正確辨識。

由上述可知，透過第4A圖的流程產生了追蹤樣本DA、老師模型TTM及對抗樣本DB。接著，請參閱第4B圖。於一實施例中，第4B圖中的各步驟亦可以由處理器PR執行。

於步驟510中，前處理模組10讀取對抗樣本DB，並輸入學生模型和老師模型。

於步驟520中，前處理模組10接收人工標記樣本DC。

於一實施例中，對抗樣本DB約佔整體樣本量的70%，人工標記樣本DC約占整體樣本量的30%。

於步驟530中，前處理模組10讀取老師模型TTM。

於步驟540中，學生模型訓練模組30建置初始學生模型。此時的初始學生模型採用老師模型TTM相同的框架。

於步驟550中，學生模型訓練模組30利用對抗樣本DB訓練初始學生模型，產生一學生模型STM。

於一實施例中，學生模型訓練模組30依據老師模型TTM以初始化一學生模型STM。學生模型STM以老師模型TTM為標準，進行調整參數(學生模型STM向老師模型TTM學習)，以使學生模型STM的輸出張量接近老師模型TTM的輸出張量。

於一實施例中，當前的學生模型STM與前一版的學生模型STM兩者誤差小於一誤差門檻值(例如5%)，代表當前的學生模型STM的訓練已經趨於收斂，並進入步驟S560。

於步驟560中，學生模型STM輸出一學生張量。

於步驟570中，老師模型TTM輸出一老師張量。

於步驟580中，處理器PR判斷調整後的學生模型STM的學生張量與老師模型TTM的老師張量之間的向量差值是否小於一學習門檻值。若是，代表學生模型STM與老師模型TTM之間的損失函數較小，落差相近，進入步驟590。若否，則進行訓練流程A，繼續讓學生模型STM學習老師模型TTM，繼續調整學生模型STM的參數。

於步驟590中，處理器PR提取最新訓練後的學生模型STM。

執行完步驟590後，進行訓練流程B，藉由人工標記樣本DC訓練老師模型TTM，以提升老師模型TTM的精準度，再繼續讓學生模型STM學習老師模型TTM，繼續調整學生模型STM的參數。

於步驟572中，老師模型訓練模組20將人工標記樣本DC輸入老師模型TTM，以產生進修老師模型。

於步驟574中，老師模型訓練模組20判斷進修老師模型輸出的一進修後張量與人工標記樣本DC的向量差值是否小於一進修門檻值。若否，則回到步驟572，繼續以人工標記樣本DC或新增的人工標記樣本DC輸入進修老師模型，並進一步訓練進修老師模型。若是，則代表進修老師模型完成訓練，將步驟530中的老師模型TTM替換成進修老師模型，使學生模型STM繼續向進修老師模型學習，學生模型STM調整參數以逼近進修老師模型的張量。當調整後的學生模型STM的學生張量與進修老師模型的一進修老師張量之間的向量差值小於學習門檻值，則視為學生模型完成訓練，學生模型訓練模組30提取學生模型作為物件辨識模型。

於一實施例中，當一未知影像輸入物件辨識模型後，物件辨識模型可以辨識或框選出此未知影像中特定物件的位置及/或數量。於另一實施例中，物件辨識模型可以辨識或框選出此未知影像中不同類別的物件的位置及/或數量。

由上述可知，物件辨識裝置及物件辨識方法使得作為物件辨識模型的學生模型的卷積層數及神經元數量小於老師模型的卷積層數及神經元數量，因此物件辨識模型具有模型精簡性。再者，本案的物件辨識裝置及物件辨識方法在建立學生模型的過程中使用到對抗樣本，此可使物件辨識模型具有模型強健性，在整個學生模型的過程中，所需的人工標記樣本大幅小於對抗樣本數，因此具有人工樣本數稀釋性，達到降低人力標記的時間與資源。

藉此，物件辨識裝置及物件辨識方法只需要輸入目標物在任何環境的影片或多張影像，即可大量自動追蹤標記物件，解決了人工智慧物件辨識領域中，最花時間的標記環節，因此可以有效率地產生大量訓練圖片及標記，達成了不需要消耗大量人工標記時間進行手動標記的功效。

100:物件辨識裝置 PR:處理器 ST:儲存裝置 10:前處理模組 20:老師模型訓練模組 30:學生模型訓練模組 PRD:資料前處理 MT:模型訓練 DB:對抗樣本 DA:追蹤樣本 DC:人工標記樣本 ORI:資料收集 STM:學生模型 TTM:老師模型 STV:學生模型驗證 200, 300:物件辨識方法 310~340, 410~474, 510~590:步驟

第1圖係依照本發明實施例繪示一種物件辨識裝置之方塊圖。第2圖係依照本發明實施例繪示一種物件辨識方法之示意圖。第3圖係依照本發明實施例繪示一種物件辨識方法之流程圖。第4A圖係依照本發明實施例繪示一種產生老師模型與對抗樣本之示意圖。第4B圖係依照本發明一實施例繪示一種產生物件辨識模型之示意圖。

300:物件辨識方法

310~340:步驟

Claims

一種物件辨識裝置，包含：一處理器；以及一儲存裝置，該處理器用以存取該儲存裝置所儲存之程式，以實現一前處理模組、一老師模型訓練模組以及一學生模型訓練模組，其中該前處理模組，用以產生一追蹤樣本及一對抗樣本；該老師模型訓練模組，以該追蹤樣本訓練出一老師模型；以及該學生模型訓練模組，依據該老師模型初始化一學生模型；其中該學生模型依據該老師模型以及該對抗樣本調整複數個參數，響應於調整後的該學生模型的輸出結果與該老師模型的輸出結果之間的向量差值小於一學習門檻值，則視為該學生模型完成訓練，提取該學生模型作為一物件辨識模型。
如請求項1之物件辨識裝置，其中該學生模型設置的深度學習模型的卷積層數及神經元數量小於該老師模型的卷積層數及神經元數量，且該學生模型的卷積層數及神經元數量對應的權重參數數量也小於該老師模型的卷積層數及神經元數量對應的權重參數數量。
如請求項1之物件辨識裝置，其中該前處理模組更用以接收一人工標記樣本，響應於該學生模型的該輸出結果與該老師模型的該輸出結果之間的向量差值小於該學習門檻值時，該老師模型訓練模組將該人工標記樣本輸入該老師模型進行訓練，以產生一進修老師模型。
如請求項3之物件辨識裝置，其中該老師模型訓練模組將該人工標記樣本輸入該進修老師模型，響應於該進修老師模型輸出的一進修後張量與該人工標記樣本的向量差值小於一進修門檻值，則視為該進修老師模型完成訓練。
如請求項3之物件辨識裝置，其中該學生模型訓練模組將該學生模型依據該進修老師模型調整該些參數，響應於調整後的該學生模型的該輸出結果與該進修老師模型的輸出結果之間的向量差值小於該學習門檻值，則視為該學生模型完成訓練，提取該學生模型作為該物件辨識模型。
如請求項5之物件辨識裝置，其中該學生模型訓練模組將該學生模型依據該進修老師模型調整該些參數，響應於調整後的該學生模型的一學生張量(tensor)與該進修老師模型的一老師張量之間的向量差值小於該學習門檻值，則視為該學生模型完成訓練，提取該學生模型作為該物件辨識模型。
如請求項1之物件辨識裝置，其中該前處理模組依據一光流演算法追蹤每個畫面中的一框選物件，以產生該追蹤樣本；其中該前處理模組將該追蹤樣本加入一雜訊或將該追蹤樣本輸入一生成對抗網路(generative adversarial network，GAN)，以產生該對抗樣本。
如請求項7之物件辨識裝置，其中該前處理模組將該追蹤樣本加入一雜訊圖，該雜訊圖包括不同的物件類別的影像。
如請求項1之物件辨識裝置，其中該學生模型調整偏權值(bias)及複數個權重(weight)，使得該學生模型輸出的該輸出結果趨近於該老師模型的該輸出結果。
如請求項1之物件辨識裝置，其中該學生模型輸出的該輸出結果為一學生張量(tensor)，該老師模型輸出的該輸出結果為一老師張量。
一種物件辨識方法，包含：產生一追蹤樣本及一對抗樣本；依據該追蹤樣本訓練一老師模型；以及依據該老師模型初始化一學生模型；其中該學生模型依據該老師模型以及該對抗樣本調整複數個參數，響應於調整後的該學生模型的輸出結果與該老師模型的輸出結果之間的向量差值小於一學習門檻值，則視為該學生模型完成訓練，提取該學生模型作為一物件辨識模型。
如請求項11之物件辨識方法，其中該學生模型設置的深度學習模型的卷積層數及神經元數量小於該老師模型的卷積層數及神經元數量，且該學生模型的卷積層數及神經元數量對應的權重參數數量也小於該老師模型的卷積層數及神經元數量對應的權重參數數量。
如請求項11之物件辨識方法，更包含：接收一人工標記樣本；響應於該學生模型的該輸出結果與該老師模型的該輸出結果之間的向量差值小於該學習門檻值時，該老師模型訓練模組將該人工標記樣本輸入該老師模型進行訓練，以產生一進修老師模型。
如請求項13之物件辨識方法，更包含：將該人工標記樣本輸入該進修老師模型；響應於該進修老師模型輸出的一進修後張量與該人工標記樣本的向量差值小於一進修門檻值，則視為該進修老師模型完成訓練。
如請求項13之物件辨識方法，更包含：將該學生模型依據該進修老師模型調整該些參數；響應於調整後的該學生模型的該輸出結果與該進修老師模型的輸出結果之間的向量差值小於該學習門檻值，則視為該學生模型完成訓練，提取該學生模型作為該物件辨識模型。
如請求項15之物件辨識方法，更包含：將該學生模型依據該進修老師模型調整該些參數；響應於調整後的該學生模型的一學生張量(tensor)與該進修老師模型的一老師張量之間的向量差值小於該學習門檻值，則視為該學生模型完成訓練，提取該學生模型作為該物件辨識模型。
如請求項11之物件辨識方法，更包含：依據一光流演算法追蹤每個畫面中的一框選物件，以產生該追蹤樣本；以及將該追蹤樣本加入一雜訊或將該追蹤樣本輸入一生成對抗網路(generative adversarial network，GAN)，以產生該對抗樣本。
如請求項17之物件辨識方法，更包含：將該追蹤樣本加入一雜訊圖，該雜訊圖包括不同的物件類別的影像。
如請求項11之物件辨識方法，其中該學生模型調整偏權值(bias)及複數個權重(weight)，使得該學生模型輸出的該輸出結果趨近於該老師模型的該輸出結果。
如請求項11之物件辨識方法，其中該學生模型輸出的該輸出結果為一學生張量(tensor)，該老師模型輸出的該輸出結果為一老師張量。