TWI651662B

TWI651662B - 影像標註方法、電子裝置及非暫態電腦可讀取儲存媒體

Info

Publication number: TWI651662B
Application number: TW106140836A
Authority: TW
Inventors: 蔣欣翰; 陳彥霖; 林謙; 余兆偉; 李孟燦
Original assignee: 財團法人資訊工業策進會
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2019-02-21
Also published as: US20190156123A1; US10430663B2; TW201926140A; CN109829467A

Abstract

一種影像標註方法，包括：取得複數個影像訊框；自該些影像訊框中辨識並追蹤一或多個目標物件；根據一第一挑選條件，自該些影像訊框選出複數個候選關鍵影像訊框；決定該些候選關鍵影像訊框的複數個第一相似度指標；決定複數個相鄰影像訊框的複數個第二相似度指標；將該些候選關鍵影像訊框，連同該些相鄰影像訊框中符合一第二挑選條件者，挑選作為複數個關鍵影像訊框；將該些關鍵影像訊框呈現於一圖形化使用者介面，並透過該圖形化使用者介面顯示關於該一或多個目標物件的一標註資訊。

Description

影像標註方法、電子裝置及非暫態電腦可讀取儲存媒體

本發明是有關於一種影像處理方法、電子裝置及非暫態電腦可讀取儲存媒體，且特別是有關於一種影像標註(image annotation)方法、電子裝置及非暫態電腦可讀取儲存媒體。

目前結合電腦視覺之深度學習(deep learning)技術已是人工智慧的發展趨勢。然而深度學習網路需要大量的影像標註樣本，才能經由訓練而產生高正確性的深度學習網路。

目前影像標註的方法大多採取人工標註。操作者需針對視訊資料中的影像訊框(frame)逐一框選物件，並對其輸入關聯的標註名稱。然而當視訊資料中有大量的目標物件時，此種人工標註方式不僅費時而且耗工。

本發明是關於一種影像標註方法、電子裝置及非暫態電腦可讀取儲存媒體，可自動濾除視訊資料中重複性高的無效影像訊框樣本，並篩選出具有物件結構多樣性的關鍵影像訊框供使用者瀏覽，並新增、修正標註物件，以完善影像標註的結果，進而節省影像標註所需耗費的人力。另一方面，本發明提出的技術更可導入專家經驗回饋機制以提升擷取關鍵影像訊框的正確性及強健性。

根據本發明之一方面，提出一種由包含處理器的電子裝置實現的影像標註方法，包括：處理器自視訊資料取得影像訊框串列，影像訊框串列包括多個影像訊框；處理器對影像訊框串列執行物件偵測及追蹤程序，以自該些影像訊框中辨識並追蹤一或多個目標物件；處理器根據第一挑選條件，自該些影像訊框選出多個候選關鍵影像訊框，其中第一挑選條件包括當一或多個目標物件中的一目標物件在該些影像訊框中的影像訊框中開始出現或開始消失，將此影像訊框挑選作為該些候選關鍵影像訊框之一；處理器決定該些候選關鍵影像訊框的多個第一相似度指標，各個第一相似度指標係處理器透過相似度計算，由該些候選關鍵影像訊框中的對應候選關鍵影像訊框的第一共變異數值以及此對應候選關件影像訊框沿不同方向統計取得的多個第一變異數值決定；處理器決定多個相鄰影像訊框的多個第二相似度指標，各個相鄰影像訊框與該些候選關鍵影像訊框至少其一相鄰，各個第二相似度指標係處理器透過相似度計算，由該些相鄰影像訊框中對應相鄰影像訊框的第二共變異數值以及此對應相鄰影像訊框沿不同方向統計取得的多個第二變異數值決定；處理器將該些候選關鍵影像訊框，連同該些相鄰影像訊框中符合第二挑選條件者，選作複數個關鍵影像訊框，第二挑選條件包括當該些相鄰影像訊框中的相鄰影像訊框的對應第二相似度指標與鄰近於相鄰影像訊框的候選關鍵影像訊框的對應第一相似度指標之間的差值超過相似度門檻值，則將相鄰影像訊框挑選作為關鍵影像訊框之其一；處理器將該些關鍵影像訊框呈現於圖形化使用者介面，並透過圖形化使用者介面顯示關於一或多個目標物件的一標註資訊。

根據本發明之另一方面，提出一種非暫態電腦可讀取儲存媒體。非暫態電腦可讀取儲存媒體儲存一或多個指令，此一或多個指令可供處理器執行，以使包括此處理器的電子裝置執行本發明之影像標註方法。

根據本發明之又一方面，提出一種電子裝置。電子裝置包括記憶體以及處理器。處理器耦接記憶體，並經配置而用以：自視訊資料取得影像訊框串列，影像訊框串列包括多個影像訊框；對影像訊框串列執行物件偵測及追蹤程序，以自該些影像訊框中辨識並追蹤一或多個目標物件；根據第一挑選條件，自該些影像訊框選出多個候選關鍵影像訊框，其中第一挑選條件包括當一或多個目標物件中的一目標物件在該些影像訊框中的影像訊框中開始出現或開始消失，將此影像訊框挑選作為該些候選關鍵影像訊框之一；取得該些候選關鍵影像訊框的多個第一相似度指標，各個第一相似度指標係由該些候選關鍵影像訊框中的對應候選關鍵影像訊框的第一共變異數值以及此對應候選關件影像訊框沿不同方向統計取得的多個第一變異數值決定；取得多個相鄰影像訊框的多個第二相似度指標，各個相鄰影像訊框與該些候選關鍵影像訊框至少其一相鄰，各個第二相似度指標係由該些相鄰影像訊框中對應相鄰影像訊框的第二共變異數值以及此對應相鄰影像訊框沿不同方向統計取得的多個第二變異數值決定；將該些候選關鍵影像訊框，連同該些相鄰影像訊框中符合第二挑選條件者，選作複數個關鍵影像訊框，第二挑選條件包括當該些相鄰影像訊框中的相鄰影像訊框的對應第二相似度指標與鄰近於相鄰影像訊框的候選關鍵影像訊框的對應第一相似度指標之間的差值超過相似度門檻值，則將相鄰影像訊框挑選作為關鍵影像訊框之其一；將該些關鍵影像訊框呈現於圖形化使用者介面，並透過圖形化使用者介面顯示關於一或多個目標物件的一標註資訊。

為了對本發明之上述及其他方面有更佳的瞭解，下文特舉實施例，並配合所附圖式詳細說明如下：

本發明提出一種影像標註方法、電子裝置及非暫態電腦可讀取儲存媒體。影像標註例如是指透過電腦視覺技術，對視訊資料中的一或多個特定物件進行識別，並對識別出的特定物件賦予對應的名稱或語意敘述。以無人車自動駕駛的應用為例，車上的影像感測器可取得行車影像的視訊串流，透過影像標註技術，可讓自動駕駛系統識別車體周遭環境的物件，例如行人、車輛、貓狗等，自動駕駛系統可根據識別出的環境物件以及對應的標註，作出對應的反應，例如閃避突然出現於前方的行人。

本發明的影像標註方法可由電子裝置來實施。電子裝置例如包括記憶體以及處理器。記憶體可儲存可供處理器取得或執行的程式、指令、資料或檔案。處理器耦接記憶體，其經配置可執行本發明實施例之影像標註方法。處理器可例如被實施為微控制單元(microcontroller)、微處理器(microprocessor)、數位訊號處理器(digital signal processor)、特殊應用積體電路(application specific integrated circuit，ASIC)、數位邏輯電路、現場可程式邏輯閘陣列(field programmable gate array，FPGA)、或其它具有運算處理功能的硬體元件。本發明的影像標註方法亦可實作為一軟體程式，此軟體程式可儲存於非暫態電腦可讀取儲存媒體(non-transitory computer readable storage medium)，例如硬碟、光碟、隨身碟、記憶體，當處理器從非暫態電腦可讀取儲存媒體載入此軟體程式時，可執行本發明的影像標註方法。

第1圖繪示依據本發明一實施例的影像標註方法的流程圖。所述之影像標註方法可由包括處理器的電子裝置來實施。

步驟102，處理器執行視訊解壓縮，以自視訊資料取得影像訊框串列，影像訊框串列包括多個影像訊框(frame)。

步驟104，處理器自取得的影像訊框中搜尋候選關鍵影像訊框。在一實施例中，處理器可對影像訊框串列執行物件偵測及追蹤程序，以自多個影像訊框中辨識並追蹤一或多個目標物件，並在判斷出一目標物件的結構特徵在一影像訊框中的變化超過一預設門檻值時，將該影像訊框選為候選關鍵影像訊框。

步驟106，處理器自影像訊框中決定關鍵影像訊框。關鍵影像訊框除了包括步驟104所選出的候選關鍵影像訊框，亦可從候選關鍵影像訊框的相鄰影像訊框中挑選符合特定條件者作為關鍵影像。此處所指的兩影像訊框「相鄰」，指的是在一連續的影像訊框序列(例如視訊串流)中，時間序上彼此相鄰的兩張影像訊框，例如在接續的兩個取樣時間點所取得的兩張影像訊框。

步驟108，處理器將關鍵影像訊框呈現於圖形化使用者介面(graphical user interface，GUI)，並透過圖形化使用者介面顯示關於目標物件的標註資訊。標註資訊例如包括目標物件的名稱或語意描述，例如「行人」、「移動的車子」等。

圖形化使用者介面亦可供使用者自所顯示的關鍵影像訊框中框選欲新增的未識別物件，並對其作標註。舉例來說，對於包含複雜背景的影像訊框，可能有部分物件無法被識別及追蹤，此時使用者可採用手動框選的方式自關鍵影像訊框中框選未被識別的物件影像並對其作標註。被使用者框選的物件影像即為使用者框選物件。

應注意的是，在此所使用的術語「使用者」一詞例如包括擁有可執行本發明影像標註方法的電子裝置的人物或實體、或是操作或利用該電子裝置的人物或實體、或是以其他方式與該電子裝置相關聯的人物或實體。將意識到，「使用者」一詞並非意圖成為限制性的，且可包括超出所描述的範例之各種實施例。

步驟110，處理器針對使用者框選物件進行物件追蹤。此步驟可以任何已知的物件追蹤演算法來實現。

在步驟112，處理器取得加註結果。舉例來說，處理器可經由步驟108的圖形化使用者介面接收一使用者操作，並回應此使用者操作產生一加註結果。加註結果例如包括使用者框選物件以及關於此使用者框選物件的使用者標註資訊，其中使用者框選物件係擷取自關鍵影像訊框之影像內容。舉例來說，使用者可透過圖形化使用者介面框選某一張關鍵影像訊框中一個人的影像作為使用者框選物件，並輸入對應的標註資訊為「行人」。

在一實施例中，影像標註方法可進一步包括步驟114。在步驟114，係對使用者框選物件作特徵擷取、強化。特徵擷取、強化的結果可被作為訓練樣本提供至步驟104中訓練並更新用以執行物件偵測的分類器，藉此透過專家經驗的回饋強化影像標註的效能。

第2圖繪示搜尋候選關鍵影像訊框的一例流程圖。在一非限定的範例中，第2圖的流程可例如被實施於第1圖步驟104當中。步驟202及204可包含於一物件偵測及追蹤程序。

在步驟202，處理器可自視訊資料的多個連續影像訊框中偵測目標物件。在一實施例中，可利用影像金字塔(image pyramid)搭配分類器金字塔(classifier pyramid)所實現的混合式可變視窗物件偵測演算法進行物件偵測。上述混合式演算法將配合第3圖作說明。然本發明並不限於此，步驟202亦可透過任何已知的物件偵測演算法來實現，例如哈爾特徵(Haar-like)演算法、自適應增強(adaboost)演算法等，藉此設計出可偵測目標物件的分類器。

在步驟204，處理器將對偵測到的目標物件進行物件追蹤。在一實施例中，可利用以方向梯度直方圖(histogram of oriented gradient, HOG)特徵為基礎的核心化相關性濾波器(kernelized correlation filter，KCF) 物件追蹤程序，對偵測到的目標物件持續追蹤其動態。

舉例來說，處理器可先將目標物件影像轉成灰階影像以擷取目標物件的HOG特徵，再對此HOG特徵作一頻域轉換，以取得HOG頻域特徵。之後，處理器可執行KCF物件追蹤程序以追蹤此HOG頻域特徵，藉此實現對目標物件的追蹤。所述之頻域轉換例如是一傅立葉轉換，其可表示如下：

(式一)

式一中，β表示儲存在每個HOG單元(cell)內的直方塊(bin)分量；x、y表示要計算傅立葉轉換區域的區塊座標。

除了上述方式，步驟204亦可透過任何已知的物件追蹤演算法來實現，例如偵測視窗(detect window)演算法、相關性濾波器(correlation filter)演算法等。

在步驟206，處理器可判斷影像訊框是否符合第一挑選條件。若是，步驟208中處理器將符合第一挑選條件的影像訊框挑選作為候選關鍵影像訊框。若否，則針對下一張影像訊框作判斷。第一挑選條件例如包括當一目標物件在一影像訊框中開始出現或開始消失，則將此影像訊框挑選作為該些候選關鍵影像訊框之一。此處所指的物件「出現」或「消失」，泛指是物件的結構特徵變化超過一預設門檻值的情況。舉例來說，若視訊資料中行人的影像由正面轉身至背面，則對處理器而言，表示對應此人正面的物件消失，而對應此人背面的物件出現。

第3圖繪示可變視窗物件偵測的示意圖。根據此範例，處理器可對各個影像訊框分別建立對應的影像金字塔。各個影像金字塔可包括多個不同解析度的影像層。如第3圖所示，影像金字塔包括解析度由高至低的P個影像層IL ₁~IL _P，其中P為大於1的正整數。各個影像層IL ₁~IL _P中係實現一對應的分類器金字塔以進行物件偵測。在第3圖的例子中，每個分類器金字塔分別包括5大小不同的偵測視窗W1~W5。處理器可藉由自影像訊框中搜尋與一參考物件結構匹配，且大小符合某一偵測視窗的物件影像，偵測出目標物件。雖然本範例中分類器金字塔被實施成包括5不同大小的偵測視窗W1~W5，但本發明並不以此為限。在其他例子中，分類器金字塔中偵測視窗的數量可以是任意的。

第4圖繪示自候選關鍵影像訊框的鄰近影像訊框挑選關鍵影像訊框的一例流程圖。在一非限定的範例中，第4圖的流程可例如被實施於第1圖的步驟106當中。

在步驟402，處理器可運算取得候選關鍵影像訊框的第一相似度指標。第一相似度指標可例如由處理器透過相似度計算，依據對應候選關鍵影像訊框的第一共變異數值( )以及此對應候選關件影像訊框沿不同方向(如x、y方向)統計取得的多個第一變異數值( 、 )決定。在一實施例中，第一相似度指標( )可表示如下：

(式二)

其中；；；。上述N _p表示一個影像訊框所被分割成個的總片數(patch)，N _x表示某一片中沿x方向的總區塊行數，N _y表示一片中沿y方向的總區塊列數，μ _i表示某一片中第i個區塊的像素平均值，表示沿x方向的第j行區塊的像素平均值，表示沿y方向的第k列區塊的像素平均值。

在步驟404，處理器運算取得相鄰影像訊框(各個相鄰影像訊框與候選關鍵影像訊框至少其一相鄰)的第二相似度指標。第二相似度指標可例如由處理器透過相似度計算，依據對應相鄰影像訊框的第二共變異數值( )以及此對應相鄰影像訊框沿不同方向(如x、y方向)統計取得的多個第二變異數值( 、 )決定。在一實施例中，第二相似度指標( )可表示如下：

(式三)

其中；；；。

上述步驟402、404中所採用的相似度計算，亦可透過其他可衡量對象之間的相似程度的演算法來實現，例如歐氏距離(Euclidean distance)演算法、餘弦相似度(cosine similarity)演算法、皮爾遜相關性(Pearson correlation)演算法、逆用戶頻率(inverse user frequency，IUF)相似度演算法等。

在步驟406，處理器判斷相鄰影像訊框是否符合第二挑選條件。第二挑選條件例如包括當相鄰影像訊框的對應第二相似度指標( )與鄰近於此相鄰影像訊框的候選關鍵影像訊框的對應第一相似度指標( )之間的差值超過一相似度門檻值，也就是兩者影像中物件結構差異度頗大，則將此相鄰影像訊框挑選作為關鍵影像訊框之一。

在步驟408，處理器將候選關鍵影像訊框的相鄰影像訊框中符合第二挑選條件者挑選作為關鍵影像訊框。

反之，在步驟410，不符合第二挑選條件的相鄰影像將不會被挑選作為關鍵影像訊框。

之後，在步驟412，處理器可將所有的候選關鍵影像訊框，連同相鄰影像訊框中符合第二挑選條件者，輸出作為關鍵影像訊框。

第5圖繪示自連續的多張影像訊框挑選出關鍵影像訊框的示意圖。在第5圖的範例中，影像訊框F1~F7為視訊資料中連續的7張影像訊框。行人影像被視為目標物件OB1出現在影像訊框F1~F3當中，並於影像訊框F4消失。狗側身影像被視為目標物件OB2出現在影像訊框F5，狗正面影像被視為目標物件OB3出現在影像訊框F6~F7。由於影像訊框F1、F5、F6中目標物件(目標物件OB1/OB2/OB3)開始出現，且影像訊框F4中目標物件(OB1)開始消失，故影像訊框F1、F4~F6將被挑選作為候選關鍵影像訊框。

接著針對候選關鍵影像訊框F1、F4~F6的相鄰影像訊框F2、F3、F7作判斷。由於相鄰影像訊框F2、F7分別與鄰近的候選關鍵影像訊框F1、F6相似，故相鄰影像訊框F2、F7被排除於作為關鍵影像訊框。而由於相鄰影像訊框F3與鄰近的候選關鍵影像訊框F4差異頗大，故相鄰影像訊框F3將被挑選作為關鍵影像訊框。

最後，輸出的關鍵影像訊框將包括影像訊框F1以及F3~F6。關鍵影像訊框可例如被排序成一串列，並顯示在一圖形化使用者介面當中。

第6圖繪示依據本發明一實施例的圖形化使用者介面600的示意圖。在第6圖的範例中，圖形化使用者介面600包括關鍵影像訊框顯示區域602、主操作區域604以及標註區域606A、606B。

關鍵影像訊框顯示區域602可顯示由M張關鍵影像訊框KF ₁~KF _M構成的串列，其中M為正整數。使用者可對關鍵影像訊框顯示區域602中的任一張關鍵影像訊框作點選，被選取的關鍵影像訊框將呈現於主操作區域604。

使用者可在主操作區域604中框選未被識別的物件。以第6圖為例，關鍵影像訊框KF ₃被選取，其中物件614、616是已被識別的目標物件，而物件610、612則是未被識別、透過使用者手動選取的使用框選物件。

使用者可對使用框選物件進行標註，以賦予對應的名稱或語意敘述。相關的標註資訊可例如顯示於標註區域606A。如第6圖所示，標註區域606A可顯示使用框選物件610被標註為「行人2」，並顯示使用框選物件612被標註為「狗」。

已被識別的目標物件的標註資訊則可顯示於標註區域606B。如第6圖所示，標註區域606B可顯示目標物件614被標註為「車」，並顯示目標物件616被標註為「行人1」。

圖形化使用者介面600更可包括一或多個操作鍵608。舉例來說，在操作鍵608(「+新增物件」)被點選之後，使用者即可針對主操作區域604中所顯示的關鍵影像訊框內容進行使用者框選物件的選取，並對其加上相應的標註。操作鍵608亦可被實施成下拉式選單，選單中可包括預設的標註敘述以及曾經使用過的標註敘述。

應注意，第6圖的範例僅是用以說明本發明的其中一實施例，而非用以限制本發明。本發明之圖形化使用者介面亦可被實施成其他的文字及/或圖形的配置，只要該圖形化使用者介面可供使用者自關鍵影像訊框定義使用者框選物件以及輸入對應的標註資訊即可。

第7圖繪示第1圖步驟114的一非限定細部流程圖。為了讓之後的影像標註流程可自適應地識別並追蹤使用者所新增的使用者框選物件，在步驟702，處理器可先對使用者框選物件作特徵強化，並接著在步驟704將強化後的特徵作為訓練樣本來訓練分類器。所述之分類器具有分類出對應類別以及非對應類別的功能，並可實現於步驟104的物件偵測及追蹤程序，以識別目標物件。分類器可以是支持向量機(SVM)分類器，也可以是其他類型的線性映射分類器，像是費雪線性判斷分析分類器(Fisher’s linear discriminant classifier)、單純貝式分類器(naive Bayes classifier)等。步驟704的實施可有效減少分類器因為因新增使用者框選物件而所需增加的數量，進而提升分類及辨識的運算效率與準確率。

步驟702的實施可配合第1圖步驟104中所使用的物件偵測及追蹤演算法。舉例來說，若物件偵測及追蹤是以影像的HOG特徵為基礎，則步驟702可被實施為對HOG特徵的強化。同理，若第1圖步驟104中所使用的物件偵測及追蹤是以其他特定影像特徵為基礎，則步驟702將被實施為對該特定影像特徵的強化。

以強化HOG特徵為例，處理器可執行特徵強化程序如下：將使用者框選物件分成多個區塊(block)；自該些區塊中選取一待處理區塊；執行HOG特徵擷取程序，以取得待處理區塊的多個第一HOG特徵，以及待處理區塊的鄰近區塊的多個第二HOG特徵；對包括第一HOG特徵以及第二HOG特徵的一特徵集合作一範數運算(norm)，以取得正規化參數；根據正規化參數對第一HOG特徵作正規化處理，以取得多個強化後第一HOG特徵，並供物件偵測及追蹤程序進行物件偵測。

HOG特徵擷取程序例如包括：

(1)計算區塊中各像素位置的邊緣強度(M _i)：

(式四)

式四中，x ₁、x _-1分別表示目標像素位置的x方向前後的像素灰階值，y ₁、y _-1分別表示目標像素位置的y方向上下的像素灰階值。

(2)計算區塊中所有邊緣強度的總和(M _sum)：

(式五)

式五中，n表示區塊中的像素總數。

(3)計算最後儲存在每個直方塊內的方向分量(B _i)：

(式六)

式六中，M _b表示歸類在直方塊中的所有邊緣強度。

另外，在對待處理區塊作正規化處理時，會參考其鄰近區塊的特徵，以從鄰近區塊的特徵資訊判斷出哪些向量是主要的、或是連續性的邊緣，然後再針對較突出或是重要的邊緣向量計算正規化。

在一實施例中，正規化參數可表示如下：

(式七)

式七中， x ₁~x _n代表每一個需要被正規化計算的HOG特徵值，例如包括所有的第一HOG特徵以及第二HOG特徵。接著，可計算待處理區塊的HOG特徵正規化結果( )如下：

(式八)

其中表示待處理區塊的HOG特徵正規化前結果。

在一實施例中，處理器可省略步驟702，並直接以使用者框選物件的特徵作為訓練樣本來訓練分類器。

透過上述方式，可突顯連續區塊的主要邊緣方向特徵。在一實施例中，處理器更可依照物件偵測/追蹤時存取特徵的順序來排列並儲存計算得到的特徵值，以更準確地獲得使用者框選物件的特徵。

第8圖繪示HOG特徵強化的示意圖。在第8圖的範例中，係顯示3´3個區塊802，每個區塊802包括2´2個單元804，每個單元804例如包括多個像素(未顯示)。在正規化處理之前，針對不同的區塊802，可取得對應不同方向的HOG特徵組，如VA1、VA2。在正規化處理後，HOG特徵組VA1、VA2可分別轉換成強化後HOG特徵組VA1’以及VA2’。可看出，相較於HOG特徵組VA1、VA2，強化後HOG特徵組VA1’以及VA2’當中部分的HOG特徵被突顯。

第9圖繪示依據本發明一實施例的多類別分類器的自適應訓練的流程圖。在步驟902，處理器在物件偵測及追蹤程序中，實現多個分類器以進行物件偵測。

在步驟904，處理器自多個分類器中選取一分類器，並對此分類器提供多個訓練樣本，以針對多個類別分別建立參數範圍，其中該些類別係對應目標物件以及使用者框選物件的分類判斷。

在步驟906，處理器搜尋該些參數範圍區中不與其他參數範圍發生重疊的一可區分參數範圍，並將可區分參數範圍的對應類別標記為可區分類別。

在步驟908，處理器自該些類別中挑選一待區分類別，此待區分類別的對應參數範圍係與該些參數範圍中的其他參數範圍發生重疊。在一實施例中，待區分類別的對應參數範圍係與該些參數範圍中最多數量的其他參數範圍發生重疊。

在步驟910，處理器自該些分類器中選取可將該待區分類別被標記為該可區分類別的另一分類器。

在步驟912，處理器自該些參數範圍中移除待區分參數範圍。

在步驟914，處理器判斷該些分類器中所有被選取的分類器是否可讓各個類別均被標記為可區分類別。若是，則接續步驟916，自該些分類器中刪除未被選取的分類器。若否，則返回步驟906繼續執行自適應訓練流程，直到所有被選取的分類器可讓各個類別均被標記為可區分類別。

在一實施例中，處理器可將訓練樣本中對應某一類別的多個特定訓練樣本提供至分類器，以取得多個距離值，再根據該些距離值的平均值以及標準差，決定該類別的對應參數範圍。以下將配合第10圖及第11圖作說明。

此外，根據以下實施例，針對尚未訓練的物件類別(例如對應使用者框選物件的物件類別)的訓練樣本是作為分類器的正樣本，而針對其他物件類別的訓練樣本則是作為分類器的負樣本。

第10圖繪示訓練樣本相對於分類器不同類別的距離值的示意圖。根據此實施例，處理器可將訓練樣本代入每個分類器以取得對應的距離值。舉例來說，對第k個SVM分類器代入針對第i個類別的第j個訓練樣本可得相應的距離值如下：

(式九)

其中表示一個特徵向量尺寸(feature vector size)的向量；表示自第i類別的第j個訓練樣本取出的特徵向量；表示第k個SVM分類器的rho參數。接著，處理器可計算距離值的平均值如下：

(式十)

其中st _i表示第i類別的訓練樣本的數量。

透過上述方式，可將不同類別投影至一維空間，其中OSH _k表示第k個SVM分類器的距離值參考基準點。

第11圖繪示分類器的不同類別的參數區間的示意圖。如第11圖所示，不同的類別LP ₁、LP ₂分別對應至一個一維的參數範圍( 以及 )，其中各參數範圍的中心值為對應距離值的平均值( 以及 )，而參數範圍的上限值以及下限值分別與該平均值相距一倍的標準差，標準差可例如表示如下：

(式十一)

根據各類別LP ₁、LP ₂對應的距離平均值( 以及 )及標準差( 以及 )，各參數範圍的上限值可例如表示如下：

(式十二)

各參數範圍的下限值可例如表示如下：

(式十三)

雖然上述範例中參數範圍的上限值以及下限值分別是與對應平均值相距一倍的標準差，但本發明並不以此為限。參數範圍的大小可根據不同的應用而作調整。

第12圖繪示多類別分類器的自適應訓練的示意圖。在第12圖的範例中，所有待區分的類別包括LP ₀、LP ₁、LP ₂以及LP ₃。在階段1202，使用第一SVM分類器可區分類別LP ₀以及非類別LP ₀。換言之，可區分類別LP ₀的參數範圍不與其他類別的參數範圍發生重疊。而剩餘類別LP ₁、LP ₂、LP ₃的參數範圍因發生重疊，故第一SVM分類器並無法作有效的分類。在階段1204，引入第二SVM分類器以區分與最多參數範圍發生重疊的類別LP ₂。在階段1206，刪除已訓練完成的第一分類器和第二分類器所使用的參數區間。如此一來，即可分離出所有類別LP ₀~LP ₃所對應的參數區間。換言之，透過上述方式，僅需要使用兩個分類器，即可完成4個類別的分類。相較於傳統需針對各個類別設置對應分類器的作法，本發明提出的多類別分類器自適應訓練方法可有效減少分類器的使用，進而提升運算效率。

綜上所述，本發明提出一種影像標註方法、電子裝置及非暫態電腦可讀取儲存媒體，可自動濾除視訊資料中重複性高的無效影像訊框樣本，並篩選出具有物件結構多樣性的關鍵影像訊框供使用者瀏覽，並新增、修正標註物件，以完善影像標註的結果，進而節省影像標註所需耗費的人力。另一方面，本發明提出的技術更可導入專家經驗回饋機制以提升擷取關鍵影像訊框的正確性及強健性。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾。因此，本發明之保護範圍當視後附之申請專利範圍所界定者為準。

102、104、106、108、110、112、114、202、204、206、208、402、404、406、408、410、412、702、704、902、904、906、908、910、912、914、916‧‧‧步驟

IL₁~IL_P‧‧‧影像層

W1~W5‧‧‧偵測視窗

F1~F7‧‧‧影像訊框

OB1~OB3、614、616‧‧‧目標物件

610、612‧‧‧使用框選物件

600‧‧‧圖形化使用者介面

602‧‧‧關鍵影像訊框顯示區域

604‧‧‧主操作區域

606A、606B‧‧‧標註區域

608‧‧‧操作鍵

KF₁~KF_M‧‧‧關鍵影像訊框

802‧‧‧區塊

804‧‧‧單元

VA1、VA2‧‧‧HOG特徵組

VA1’、VA2’‧‧‧強化後HOG特徵組

LP₀~LP₃‧‧‧類別

、‧‧‧距離值

、‧‧‧距離值的平均值

、‧‧‧距離值的標準差

、‧‧‧參數範圍的上限值

、‧‧‧參數範圍的下限值

OSH_k‧‧‧距離值參考基準點

1202、1204、1206‧‧‧階段

第1圖繪示依據本發明一實施例的影像標註方法的流程圖。第2圖繪示搜尋候選關鍵影像訊框的一例流程圖。第3圖繪示可變視窗物件偵測的示意圖。第4圖繪示自候選關鍵影像訊框的鄰近影像訊框挑選關鍵影像訊框的一例流程圖。第5圖繪示自連續的多張影像訊框挑選關鍵影像訊框的示意圖。第6圖繪示依據本發明一實施例的圖形化使用者介面的示意圖。第7圖繪示第1圖步驟114的一非限定細部流程圖。第8圖繪示HOG特徵強化的示意圖。第9圖繪示依據本發明一實施例的多類別分類器的自適應訓練的流程圖。第10圖繪示訓練樣本相對於分類器不同類別的距離值的示意圖。第11圖繪示分類器的不同類別的參數區間的示意圖。第12圖繪示多類別分類器的自適應訓練的示意圖。

Claims

一種由包含一處理器的一電子裝置實現的影像標註方法，包括：該處理器自一視訊資料取得一影像訊框串列，該影像訊框串列包括複數個影像訊框；該處理器對該影像訊框串列執行一物件偵測及追蹤程序，以自該些影像訊框中辨識並追蹤一或多個目標物件；該處理器根據一第一挑選條件，自該些影像訊框選出複數個候選關鍵影像訊框，其中該第一挑選條件包括當該一或多個目標物件中的一目標物件在該些影像訊框中的一影像訊框中開始出現或開始消失，則將該影像訊框挑選作為該些候選關鍵影像訊框之一；該處理器決定該些候選關鍵影像訊框的複數個第一相似度指標，其中各該第一相似度指標係該處理器透過一相似度計算，根據該些候選關鍵影像訊框中的一對應候選關鍵影像訊框的一第一共變異數值以及該對應候選關件影像訊框沿不同方向統計取得的多個第一變異數值決定；該處理器決定複數個相鄰影像訊框的複數個第二相似度指標，其中各該相鄰影像訊框與該些候選關鍵影像訊框至少其一相鄰，各該第二相似度指標係該處理器透過該相似度計算，根據該些相鄰影像訊框中一對應相鄰影像訊框的一第二共變異數值以及該對應相鄰影像訊框沿不同方向統計取得的多個第二變異數值決定；該處理器將該些候選關鍵影像訊框，連同該些相鄰影像訊框中符合一第二挑選條件者，選作複數個關鍵影像訊框，該第二挑選條件包括當該些相鄰影像訊框中的一相鄰影像訊框的一對應第二相似度指標與鄰近於該相鄰影像訊框的一候選關鍵影像訊框的一對應第一相似度指標之間的差值超過一相似度門檻值，則將該相鄰影像訊框挑選作為該關鍵影像訊框之其一；該處理器將該些關鍵影像訊框呈現於一圖形化使用者介面，並透過該圖形化使用者介面顯示關於該一或多個目標物件的一標註資訊。
如申請專利範圍第1項所述之影像標註方法，其中該物件偵測及追蹤程序包括：透過該處理器，對該些影像訊框建立複數個影像金字塔，各該影像金字塔包括複數個不同解析度的影像層；以及透過該處理器，對各該影像金字塔中的該些影像層，以複數個分類器金字塔進行物件偵測。
如申請專利範圍第2項所述之影像標註方法，其中該物件偵測及追蹤程序更包括：透過該處理器，擷取該一或多個目標物件的一方向梯度直方圖(histogram of oriented gradient, HOG)特徵；對該HOG特徵作一頻域轉換，以取得一HOG頻域特徵；以及透過該處理器，執行一核心化相關性濾波器(kernelized correlation filter，KCF)物件追蹤程序以追蹤該HOG頻域特徵。
如申請專利範圍第1項所述之影像標註方法，更包括：透過該處理器，經由該圖形化使用者介面接收一使用者操作；以及透過該處理器，回應該使用者操作產生一加註結果，該加註結果包括一使用者框選物件以及關於該使用者框選物件的一使用者標註資訊，其中該使用者框選物件係擷取自該些關鍵影像訊框之影像內容。
如申請專利範圍第4項所述之影像標註方法，更包括：透過該處理器，執行一特徵強化程序，包括：將該使用者框選物件分成複數個區塊；自該些區塊中選取一待處理區塊；執行一HOG特徵擷取程序，以取得該待處理區塊的複數個第一HOG特徵，以及該待處理區塊的複數個鄰近區塊的複數個第二HOG特徵，其中該些鄰近區塊鄰近於該待處理區塊；對包括該些第一HOG特徵以及該些第二HOG特徵的一特徵集合作一範數運算，以取得一正規化參數；根據該正規化參數對該些第一HOG特徵作一正規化處理，以取得複數個強化後第一HOG特徵，並供該物件偵測及追蹤程序進行物件偵測。
如申請專利範圍第4項所述之影像標註方法，更包括： (a) 透過該處理器，在該物件偵測及追蹤程序中，實現複數個分類器以進行物件偵測； (b) 透過該處理器，自該些分類器中選取一分類器，並對該分類器提供複數個訓練樣本，以針對複數個類別建立複數個參數範圍，其中該些類別係對應該一或多個目標物件以及該使用者框選物件的分類判斷； (c) 透過該處理器，搜尋該些參數範圍區中不與其他參數範圍發生重疊的一可區分參數範圍，並將該可區分參數範圍的一對應類別標記為一可區分類別； (d) 透過該處理器，自該些類別中挑選一待區分類別，該待區分類別的一對應參數範圍係與該些參數範圍中的其他參數範圍發生重疊； (e) 透過該處理器，自該些分類器中選取可將該待區分類別被標記為該可區分類別的另一分類器； (f)自該些參數範圍中移除該待區分參數範圍； (g) 透過該處理器，重複步驟(c)~(f)，直到該些分類器中所有被選取的分類器可讓各該類別分別被標記為該可區分類別；以及 (h) 透過該處理器，自該些分類器中刪除未被選取的分類器。
如申請專利範圍第6項所述之影像標註方法，其中該待區分類別的該對應參數範圍係與該些參數範圍中最多數量的其他參數範圍發生重疊。
如申請專利範圍第6項所述之影像標註方法，更包括：透過該處理器，將該些訓練樣本中對應該些類別的一特定類別的複數個特定訓練樣本提供至該分類器，以取得複數個距離值；以及透過該處理器，根據該些距離值的一平均值以及一標準差，決定該些參數範圍中對應該特定類別的一特定參數範圍。
如申請專利範圍第8項所述之影像標註方法，其中該特定參數範圍的中心值為該平均值，該特定參數範圍的一上限值以及一下限值分別與該平均值相距一倍的該標準差。
如申請專利範圍第4項所述之影像標註方法，其中該些分類器為支持向量機(SVM)分類器。
一種非暫態電腦可讀取儲存媒體，該非暫態電腦可讀取儲存媒體儲存一或多個指令，該一或多個指令可供一處理器執行，以使包括該處理器的一電子裝置執行如申請專利範圍第1項至第10項中的任一項所述之影像標註方法之操作。
一種電子裝置，包括：一記憶體；以及一處理器，耦接該記憶體，並經配置而用以；自一視訊資料取得一影像訊框串列，該影像訊框串列包括複數個影像訊框；對該影像訊框串列執行一物件偵測及追蹤程序，以自該些影像訊框中辨識並追蹤一或多個目標物件；根據一第一挑選條件，自該些影像訊框選出複數個候選關鍵影像訊框，其中該第一挑選條件包括當該一或多個目標物件中的一目標物件在該些影像訊框中的一影像訊框中開始出現或開始消失，將該影像訊框挑選作為該些候選關鍵影像訊框之一；取得該些候選關鍵影像訊框的複數個第一相似度指標，各該第一相似度指標係該處理器透過一相似度計算，依據該些候選關鍵影像訊框中的一對應候選關鍵影像訊框的一第一共變異數值以及該對應候選關件影像訊框沿不同方向統計取得的多個第一變異數值決定；取得複數個相鄰影像訊框的複數個第二相似度指標，各該相鄰影像訊框與該些候選關鍵影像訊框至少其一相鄰，各該第二相似度指標係該處理器透過該相似度計算，由該些相鄰影像訊框中一對應相鄰影像訊框的一第二共變異數值以及該對應相鄰影像訊框沿不同方向統計取得的多個第二變異數值決定；將該些候選關鍵影像訊框，連同該些相鄰影像訊框中符合一第二挑選條件者，選作複數個關鍵影像訊框，該第二挑選條件包括當該些相鄰影像訊框中的一相鄰影像訊框的一對應第二相似度指標與鄰近於該相鄰影像訊框的一候選關鍵影像訊框的一對應第一相似度指標之間的差值超過一相似度門檻值，則將該相鄰影像訊框挑選作為該關鍵影像訊框之其一；將該些關鍵影像訊框呈現於一圖形化使用者介面，並透過該圖形化使用者介面顯示關於該一或多個目標物件的一標註資訊。
如申請專利範圍第12項所述之電子裝置，其中該處理器更用以：對該些影像訊框建立複數個影像金字塔，各該影像金字塔包括複數個不同解析度的影像層；以及對各該影像金字塔中的該些影像層，以複數個分類器金字塔進行物件偵測。
如申請專利範圍第13項所述之電子裝置，其中該處理器更用以：擷取該一或多個目標物件的一方向梯度直方圖(Histogram of oriented gradient, HOG)特徵；對該HOG特徵作一頻域轉換，以取得一HOG頻域特徵；以及執行一核心化相關性濾波器(Kernelized Correlation Filter，KCF)物件追蹤程序以追蹤該HOG頻域特徵。
如申請專利範圍第12項所述之電子裝置，其中該處理器更用以：經由該圖形化使用者介面接收一使用者操作；回應該使用者操作，產生一加註結果，該加註結果包括一使用者框選物件以及關於該使用者框選物件的一使用者標註資訊，其中該使用者框選物件係擷取自該些關鍵影像訊框之影像內容。
如申請專利範圍第15項所述之電子裝置，其中該處理器更用以：執行一特徵強化程序，包括：將該使用者框選物件分成複數個區塊；自該些區塊中選取一待處理區塊；執行一HOG特徵擷取程序，以取得該待處理區塊的複數個第一HOG特徵，以及該待處理區塊的複數個鄰近區塊的複數個第二HOG特徵，其中該些鄰近區塊鄰近於該待處理區塊；對包括該些第一HOG特徵以及該些第二HOG特徵的一特徵集合作一範數運算，以取得一正規化參數；根據該正規化參數對該些第一HOG特徵作一正規化處理，以取得複數個強化後第一HOG特徵，並供該物件偵測及追蹤程序進行物件偵測。
如申請專利範圍第15項所述之電子裝置，其中該處理器更用以： (a)在該物件偵測及追蹤程序中，實現複數個分類器以進行物件偵測； (b)自該些分類器中選取一分類器，並對該分類器提供複數個訓練樣本，以針對複數個類別建立複數個參數範圍，其中該些類別係對應該一或多個目標物件以及該使用者框選物件的分類判斷； (c)搜尋該些參數範圍區中不與其他參數範圍發生重疊的一可區分參數範圍，並將該可區分參數範圍的一對應類別標記為一可區分類別； (d)自該些類別中挑選一待區分類別，該待區分類別的一對應參數範圍係與該些參數範圍中的其他參數範圍發生重疊； (e)自該些分類器中選取可將該待區分類別被標記為該可區分類別的另一分類器； (f)自該些參數範圍中移除該待區分參數範圍； (g)重複步驟(c)~(f)，直到該些分類器中所有被選取的分類器可讓各該類別分別被標記為該可區分類別；以及 (h)自該些分類器中刪除未被選取的分類器。
如申請專利範圍第17項所述之電子裝置，其中該待區分類別的該對應參數範圍係與該些參數範圍中最多數量的其他參數範圍發生重疊。
如申請專利範圍第17項所述之電子裝置，其中該處理器更用以：將該些訓練樣本中對應該些類別的一特定類別的複數個特定訓練樣本提供至該分類器，以取得複數個距離值；以及根據該些距離值的一平均值以及一標準差，決定該些參數範圍中對應該特定類別的一特定參數範圍。
如申請專利範圍第19項所述之電子裝置，其中該特定參數範圍的中心值為該平均值，該特定參數範圍的一上限值以及一下限值分別與該平均值相距一倍的該標準差。