TWI783572B

TWI783572B - 物件追蹤方法及物件追蹤裝置

Info

Publication number: TWI783572B
Application number: TW110125898A
Authority: TW
Inventors: 熊俊凱; 周辰威
Original assignee: 信驊科技股份有限公司
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2022-11-11
Also published as: US20230022221A1; TW202303521A

Abstract

本發明實施例提供一種物件追蹤方法及物件追蹤裝置，並適用於低延遲應用。在方法中，對連續影像訊框中的一者進行物件偵測。物件偵測用於辨識目標。暫存連續影像訊框。依據物件偵測的結果對暫存的連續影像訊框進行物件追蹤。物件追蹤用於將連續影像訊框中的一者與另一者中的目標相關聯。藉此，可提升追蹤的準確度並滿足低延遲的需求。

Description

物件追蹤方法及物件追蹤裝置

本發明是有關於一種影像處理技術，且特別是有關於一種物件追蹤方法及物件追蹤裝置。

物件偵測(detection)及物件追蹤(tracking)是電腦視覺技術中的重要研究，並已廣泛應用在諸如視訊通話、醫療、行車輔助、保安等領域。

物件偵測的主要功能在於辨識感興趣區域(Region of Interest，ROI)中的物件類型。物件偵測的演算法有很多種。例如，YOLO(You Only Look Once)是類神經網路演算法，並具有資料輕量及高效率的特點。值得注意的是，YOLO第三代(version 3，V3)的架構中，上取樣(upsampling)層可學習更加細微的特徵，進而助於偵測尺寸較小的物件。又例如，RetinaFace主要是針對人臉偵測。RetinaFace可提供在自然場景下的單階段密集臉部定位，使用特徵金字塔網路(Feature Pyramid Network，FPN)負責不同尺寸的臉部(例如，更小臉部)，並採用多任務損失(multi-task loss)，進而對人臉偵測提供較高的準確度。再例如，自適應增強(Adaptive Boosting，AdaBoost)使用前一個分類器分錯的樣本來訓練下一個分類器，並加入弱分類器來增進分類結果，進而對異常資料或雜訊資料有較高的敏感度。

另一方面，物件追蹤的主要功能在於追蹤前後影像訊框(frame)所框選的相同物件。物件追蹤的演算法也有很多種。例如，光流法(optical flow)透過偵測影像像素點的強度(intensity)隨時間的變化，進而推斷出物件的移動速度及方向。然而，光流法容易受光線變化、其他物件的影響而誤判。又例如，最小平方誤差輸出和(Minimum Output Sum of Squared Error，MOSSE)濾波器利用待檢測區域與追蹤目標的相關性確定待檢測區域為追蹤目標。值得注意的是， MOSSE濾波器可對受遮蔽的追蹤目標更新濾波器參數，使得追蹤目標再次出現時能對其重新追蹤。再例如，尺度不變特徵變換 (Scale Invariant Feature Transform，SIFT)演算法確定特徵點的位置、尺度及旋轉不變數並對應產生特徵向量，且透過匹配特徵向量來確定目標的位置及方位。

一般而言，物件偵測相較於物件追蹤耗時，但物件追蹤的結果可能有不準確的問題。在一些應用情境中，兩種技術都可能影響使用體驗。例如，即時視訊會議的應用情境具有低延遲的需求。若偵測耗時過長，則無法準確地框選移動中的物體。例如，物件偵測經過四張訊框才得出的第一訊框中的框選結果，但目標的位置已在四張訊框之間改變，並使得即時顯示的第四張訊框中的框選結果不準確。或者，追蹤的目標不正確。由此可知，針對低延遲且高準確度的需求，現有技術仍有待改進。

有鑑於此，本發明實施例提供一種物件追蹤方法及物件追蹤裝置，基於物件偵測的結果進行連續追蹤，進而滿足低延遲的需求並提供高準確度。

本發明實施例的物件追蹤方法適用於低延遲應用，並包括(但不僅限於)下列步驟：對一張或更多張連續影像訊框中的一者進行物件偵測。物件偵測用於辨識目標。暫存連續影像訊框。依據物件偵測的結果對暫存的連續影像訊框進行物件追蹤。物件追蹤用於將連續影像訊框中的一者與另一者中的目標相關聯。

本發明實施例的物件追蹤裝置適用於低延遲應用，並包括(但不僅限於)儲存器及處理器。儲存器用以儲存程式碼。處理器耦接儲存器。處理器經配置用以載入且執行程式碼而執行下列步驟：對一張或更多張連續影像訊框中的一者進行物件偵測，暫存連續影像訊框，並依據物件偵測的結果對暫存的連續影像訊框進行物件追蹤。物件偵測用於辨識目標。物件追蹤用於將在連續影像訊框中的一者與另一者中的目標相關聯。

基於上述，依據本發明實施例的物件追蹤方法及物件追蹤裝置，暫存物件偵測過程中的連續影像訊框，並待物件偵測的結果得出而基於這結果追蹤那些暫存的連續影像訊框中的目標。藉此，可結合物件偵測的高準確度及物件追蹤的高效率，並可符合低延遲應用的需求。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖1是依據本發明一實施例的物件追蹤裝置100的元件方塊圖。請參照圖1，物件追蹤裝置100包括(但不僅限於)儲存器110及處理器130。物件追蹤裝置100可以是桌上型電腦、筆記型電腦、智慧型手機、平板電腦、伺服器、監視裝置、醫療檢測儀器、光學檢測儀器或其他運算裝置。

儲存器110可以是任何型態的固定或可移動隨機存取記憶體(Radom Access Memory，RAM)、唯讀記憶體(Read Only Memory，ROM)、快閃記憶體(flash memory)、傳統硬碟(Hard Disk Drive，HDD)、固態硬碟(Solid-State Drive，SSD)或類似元件。在一實施例中，儲存器110用以記錄程式碼、軟體模組、組態配置、資料(例如，影像訊框、偵測/追蹤結果、信心度等)或其他檔案，並待後文詳述其實施例。

在一實施例中，儲存器110包括緩衝器111。緩衝器111可以是一個或更多個儲存器110中的一者，也可以代表儲存器110中的一個或更多個記憶體區塊。緩衝器111用於暫存影像訊框，並待後續實施例詳述其功能。一張或更多張影像訊框可以是以有線或無線連接的影像擷取裝置(例如，相機、攝影機、或監視器)、伺服器(例如，影像串流伺服器、或雲端伺服器)或儲存媒體(例如，隨身碟、硬碟或資料庫伺服器)所提供。

處理器130耦接儲存器110，處理器130並可以是中央處理單元(Central Processing Unit，CPU)、圖形處理單元(Graphic Processing unit，GPU)，或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor，DSP)、可程式化控制器、現場可程式化邏輯閘陣列(Field Programmable Gate Array，FPGA)、特殊應用積體電路(Application-Specific Integrated Circuit，ASIC)、神經網路加速器或其他類似元件或上述元件的組合。在一實施例中，處理器130用以執行物件追蹤裝置100的所有或部份作業，且可載入並執行儲存器110所記錄的程式碼、軟體模組、檔案及資料。在一些實施例中，處理器130的功能可透過軟體實現。

處理器130包括偵測追蹤器131及次追蹤器135。偵測追蹤器131及次追蹤器135中的任一者或兩者可由獨立的數位電路、晶片、神經網路加速器或其他處理器實現，或其功能可由軟體實現。

在一實施例中，偵測追蹤器131包括偵測器132及主追蹤器133。偵測器132用以進行物件偵測。物件偵測例如是確定影像訊框中對應於目標(例如，人、動物、非生物體或其部位的物件)的感興趣區域(Region of Interest，ROI)(或是定界框(bounding box)、矩形框(bounding rectangle))，進而辨識目標的類型(例如，男性或女性、狗或貓、桌或椅、車或號誌燈等)。偵測器132例如可應用基於神經網路的演算法(例如，YOLO、基於區域的卷積神經網路(Region Based Convolutional Neural Networks，R-CNN)、或快速R-CNN(Fast CNN))或是基於特徵匹配的演算法(例如，方向梯度直方圖(Histogram of Oriented Gradient，HOG)、Harr、或加速穩健特徵(Speeded Up Robust Features，SURF)的特徵比對)實現物件偵測。須說明的是，本發明實施例不加以限制偵測器132所用的演算法。

在一實施例中，主追蹤器133及次追蹤器135用以進行物件追蹤。物件追蹤用於將連續影像訊框中的一者與另一者中的目標相關聯。連續影像訊框代表影片或視訊串流的那些連續的影像訊框。而物件追蹤例如是判斷相鄰影像訊框中相同目標(可由感興趣區域框選其對應位置)的位置、移動、方向及其他運動的關聯性，進而定位移動中的目標。主追蹤器133及次追蹤器135例如可應用光流法、排序法(Simple Online And Realtime Tracking，SORT)、深度排序法(Deep SORT)、聯合檢測及嵌入向量(Joint Detection and Embedding，JDE)模型或其他追蹤演算法實現物件追蹤。須說明的是，本發明實施例不加以限制主追蹤器133及次追蹤器135所用的演算法，且主追蹤器133及次追蹤器135可使用相同或不同的演算法。

在一些實施例中，物件追蹤裝置100可更包括顯示器(圖未示)。顯示器耦接處理器130。顯示器可以是液晶顯示器(Liquid-Crystal Display，LCD)、發光二極體(Light-Emitting Diode，LED)顯示器、有機發光二極體(Organic Light-Emitting Diode，OLED)、量子點顯示器(Quantum dot display)或其他類型顯示器。在一實施例中，顯示器用以顯示影像訊框或經物件偵測/追蹤的影像訊框。

下文中，將搭配物件追蹤裝置100中的各項裝置、元件及/或模組說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整，且並不僅限於此。

圖2是依據本發明一實施例的物件追蹤方法的流程圖。請參照圖2，偵測追蹤器131的偵測器132對一張或更多張連續影像訊框中的一者進行物件偵測(步驟S210)。具體而言，在一些應用情境中，例如是視訊通話、影像串流、影像監控或遊戲，處理器130可取得一張或更多張連續的影像訊框(本文稱為連續影像訊框)。連續影像訊框是指基於影像擷取裝置或錄製影像的影格率(例如以每秒顯示訊框數(Frames Per Second，FPS)或頻率計量)下相鄰影像訊框的集合。例如，若影格率為60 FPS，則一秒內的60張影像訊框可被稱為連續影像訊框。然而，連續影像訊框不以一秒內之影像訊框為限。例如，連續影像訊框亦可為一秒半、兩秒或二又三分之一秒內之影像訊框。

反應於連續影像訊框的輸入(例如，源自於影像擷取裝置、伺服器或儲存媒體，並可儲存於儲存器110)，偵測器132自儲存器110存取輸入的一張連續影像訊框。在一實施例中，為了達到即時處理的功能，偵測器132可對當前輸入的第一張連續影像訊框進行物件偵測。在另一實施例中，偵測器132可對輸入的其他張連續影像訊框進行物件偵測。即，忽略第一張連續影像訊框或忽略複數張連續影像訊框。須說明的是，此處的第一張訊框表示在某一時間點下所輸入的第一張訊框或是這時間點下對儲存器110存取的第一張訊框，且不限於影像或視訊串流的起始訊框。

另一方面，物件偵測的說明可參照前述針對偵測器132的說明，且於此不再贅述。

舉例而言，圖3是依據本發明一實施例描述偵測追蹤器131對連續影像訊框的追蹤的示意圖。請參照圖3，偵測器132在連續影像訊框F1~F4中的第一張連續影像訊框F1決定目標所處位置對應的感興趣區域ROI，並據以辨識這感興趣區域ROI中的目標。須說明的是，圖3所示的第二張至第四張連續影像訊框F2~F4代表第一張連續影像訊框F1的後續影像訊框。

處理器130可暫存一張或更多張連續影像訊框(步驟S230)至緩衝器111。具體而言，部分低延遲應用需要對輸入、存取或擷取的影像即時處理。低延遲應用相關於一張連續訊框影像的輸入時間點與對同張連續訊框影像的輸出時間點之間的時間延遲在特定容許時間內的視訊應用。例如，視訊通話/會議、或直播串流。依據不同需求，這些視訊應用可能額外提供諸如人臉偵測、亮度調整、特效處理或其他影像處理。然而，若影像處理期間過長，則將影響應用的體驗結果。例如，在即時視訊會議中，若人臉偵測期間過長，則頭部的運動可能導致偵測結果所得的人臉位置偏離當前輸出影像中的人臉位置，並使顯示的影像無法準確框選人臉。因此，在本發明實施例中，物件偵測過程中所接收的連續影像訊框可保留下來，使物件偵測的結果可更新所保留的影像訊框中的追蹤目標，並使得這張影像訊框的輸出時間點可晚於其物件偵測的結束時間點。

在一實施例中，在步驟S210的物件偵測的全部或部分期間中，處理器130可暫存這期間內輸入(系統，例如，物件追蹤裝置100)的一張或更多張連續影像訊框在緩衝器111。以圖3為例，在偵測器132對連續影像訊框F1進行物件偵測。而在偵測器132接收連續影像訊框F1及得出連續影像訊框F1中的感興趣區域ROI之間，儲存器110依序儲存連續影像訊框F1~F4。處理器130可將這些連續影像訊框F1~F4作為佇列訊框QF並儲存在緩衝器111中。

在另一實施例中，處理器130可進一步暫存物件偵測期間外所存取的其他連續影像訊框。例如，處理器130將物件偵測期間之前的最後一張或期間之後的下一張連續影像訊框。

又一實施例中，處理器130可暫存在物件追蹤完結前的全部或部分期間中輸入至系統的一個或更多個連續影像訊框。

須說明的是，圖3所示範例是以物件偵測的期間內所有連續影像訊框皆暫存到緩衝器111，然不以此為限。

在一實施例中，處理器130可比較暫存的那些連續影像訊框與數量上限。這數量上限相關於緩衝器111的空間大小、偵測器132的偵測速度或處理效率的需求。例如，數量上限為8、10或20張。處理器130可依據連續影像訊框與數量上限的比較結果刪除暫存的那些連續影像訊框中的至少一者。反應於暫存的那些連續影像訊框等於或大於數量上限，處理器130可刪除緩衝器111中部分的連續影像訊框。例如，處理器130可刪除排序在偶數順位或奇數順位的連續影像訊框，或者亂數刪除緩衝器111中特定數量的連續訊框。另一方面，反應於暫存的那些連續影像訊框未達到數量上限，處理器130可保留緩衝器111中全部或部分的連續影像訊框。

在另一實施例中，若緩衝器111的空間容許物件偵測期間所收到的所有連續影像訊框，則處理器130可保留那些連續影像訊框。

須說明的是，數量上限可能固定，也可能反應於偵測器132的即時處理速度、系統運算複雜度、後續應用需求等因素而變動。

主追蹤器133可依據物件偵測的結果對暫存的一張或更多張連續影像訊框進行物件追蹤(步驟S250)。在一實施例中，物件偵測的結果包括目標的感興趣區域。如圖3所示的感興趣區域ROI，感興趣區域ROI對應於在受物件偵測的那張連續影像訊框中的目標的位置。須說明的是，感興趣區域ROI可能完全或部分框選到目標，且本發明實施例不加以限制。在一些實施例中，物件偵測的結果更包括目標的類型。

另一方面，物件追蹤的說明可參照前述針對主追蹤器133的說明，且於此不再贅述。

此外，反應於連續影像訊框中的某一者的物件偵測的完成(即，取得物件偵測的結果，例如，圖3所示偵測到連續影像訊框F1的感興趣區域ROI)，主追蹤器133才對緩衝器111中的一張或更多張連續影像訊框進行物件追蹤。換句而言，在對第一張連續影像訊框的物件偵測完成之前，主追蹤器133禁能或不追蹤第一張連續影像訊框或後續輸入的其他連續影像訊框。

在一實施例中，主追蹤器133可決定物件偵測的結果中的感興趣區域在暫存的那些連續影像訊框之間的關聯性，並依據這關聯性決定出另一個感興趣區域。這關聯性相關於一個或更多個感興趣區域中的一個或更多個目標在相鄰連續影像訊框之間的位置、方位及/或速度。

以圖3為例，主追蹤器133在連續影像訊框F1~F4連續追蹤偵測器132所得出的感興趣區域ROI中的目標，並隨目標移動而更新成感興趣區域ROI2。

在一實施例中，假設物件偵測的結果包括對應於目標的偵測感興趣區域(即，對應於在受物件偵測的那張連續影像訊框中的目標的位置)。此外，假設追蹤感興趣區域是指物件追蹤先前追蹤的區域。換句而言，追蹤感興趣區域是當前時間點下或鄰近時間點之前物件追蹤在一張或更多張連續影像訊框中作為追蹤基礎的感興趣區域。主追蹤器133可將物件追蹤所針對的追蹤感興趣區域更新為物件偵測所得出的偵測感興趣區域。換句而言，追蹤感興趣區域直接被偵測感興趣區域取代。

圖4是依據本發明一實施例的目標更新機制的流程圖。請參照圖4，處理器130自儲存器110存取輸入的連續影像訊框(步驟S410)，並透過偵測追蹤器131偵測存取的那一張連續影像訊框中的目標。此時，次追蹤器135可能完成先前連續影像訊框的追蹤，並進一步決定偵測追蹤器131是否忙碌(步驟S420)？然而，無論偵測追蹤器131是否忙碌，次追蹤器135仍使用先前連續影像訊框所得出的感興趣區域來追蹤目標(步驟S430)。另一方面，若偵測追蹤器131未忙碌，代表已得出一偵測追蹤感興趣區域(即，即132偵測器完成偵測，且133主追蹤器已完成追蹤所有暫存的連續影像)(步驟S440)，則主追蹤器133可使用偵測器132所輸出的新的感興趣區域更新當前追蹤的感興趣區域(即，更新追蹤目標，步驟S450)，並於連續追蹤完畢/完結並暫存的所有連續影像訊框後得出一偵測追蹤感興趣區域，與次追蹤器135追蹤得出之一追蹤感興趣區域相比較或計算，選擇其一或混和運算得出一最終感興趣區域，用來更新次追蹤器135當前追蹤的感興趣區域 (步驟S460)。

在一實施例中，處理器130可依據物件偵測追蹤結果產生的時間禁能對先前追蹤感興趣區域的物件追蹤。假設偵測追蹤器131於次追蹤器135開始一輪追蹤但尚未完結的過程中產出一偵測追蹤結果，次追蹤器135可在開啟下一輪偵測追蹤前禁能或不進行物件追蹤。而在下一個物件追蹤的週期中，次追蹤器135直接以將該偵測追蹤結果作為基礎開始追蹤。

舉例而言，圖5是依據本發明一實施例的物件偵測及追蹤的時序圖，用以詳加解釋圖4之步驟S460之決策機制。請參照圖5，在偵測追蹤器131進行物件偵測追蹤501的期間D1中，次追蹤器135的物件追蹤503完成兩張連續影像訊框的追蹤。次追蹤器135進行第三張連續影像訊框的物件追蹤503的過程中，偵測追蹤器131即已完成或幾乎完成物件偵測追蹤501。即，在第三個物件追蹤503期間D2中，偵測追蹤器131執行物件偵測追蹤501並據以得出新的感興趣區域(步驟S510)。而在下一次偵測追蹤器131開啟物件偵測追蹤501之前後一定期間內，物件追蹤503可以物件偵測追蹤501所得出新的感興趣區域為基礎進行追蹤(步驟S530)。在另一實施例中，重新開啟追蹤的次追蹤器135可基於物件偵測追蹤501所最新得出的偵測追蹤感興趣區域及前一次物件追蹤503得出的追蹤感興趣區域進行物件追蹤503。例如，次追蹤器135可使用偵測追蹤感興趣區域及追蹤感興趣區域兩者的加權平均。其中，加權平均所用的權重可端視應用者的需求而自行變更，且本發明實施例不加以限制。或者，次追蹤器135可自偵測追蹤感興趣區域及追蹤感興趣區域兩者中擇一。

在一實施例中，處理器130可決定最近一次物件偵測追蹤501完成時間點與最近一次物件追蹤503完成時間點之間的時間差。這時間差代表次追蹤器135最新得出結果的時間點是否接近於偵測追蹤器131最新得出結果的時間點。次追蹤器135以及偵測追蹤器131可依據這時間差決定是否使用偵測追蹤感興趣區域及追蹤感興趣區域兩者進行物件追蹤以及物件偵測。

舉例而言，圖6是依據本發明另一實施例的物件偵測及追蹤的時序圖。請參照圖6，物件追蹤503不考慮物件追蹤503是否得出結果，一直持續執行。然而，次追蹤器135可判斷期間D1的結尾與週期D4的結果之間的時間差，並將這時間差與差異門檻值比較。若這時間差小於差異門檻值，則物件追蹤503可使用週期D4所得出的感興趣區域及物件偵測追蹤501在期間D1所得出的感興趣區域兩個的加權平均。另一方面，若這時間差未小於差異門檻值，則物件追蹤503以及物件偵測追蹤501僅使用物件偵測追蹤501在期間D1所得出的感興趣區域。

在一實施例中，假設物件偵測的期間未被記錄，次追蹤器135可依據追蹤感興趣區域(即，次追蹤器135先前追蹤的區域)在物件追蹤的信心度決定將追蹤感興趣區域更新為偵測追蹤感興趣區域(即，物件偵測追蹤的結果)。在一些應用情境中，物件追蹤的目標可能突然被遮蔽，使得物件追蹤的結果可能信心度較低(例如，小於信心度門檻值)。此時，當次追蹤器135的物件追蹤完結時，次追蹤器135可更新成物件偵測追蹤的結果或使用偵測追蹤感興趣區域及追蹤感興趣區域兩者的加權平均，並作為最終感興趣區域。

舉例而言，圖7是依據本發明一實施例的目標更新機制的時序圖。請參照圖7，假設次追蹤器135針對連續影像訊框F1~F4的結果的信心度C1~C4中感興趣區域ROI3的信心度C4小於信心度門檻值。此時，次追蹤器135可將感興趣區域ROI3更新為偵測追蹤器131所得出的感興趣區域ROI4。又例如，若信心度C1~C4中小於信心度門檻值的數量大於數量門檻值，則次追蹤器135也可將感興趣區域ROI3更新為偵測追蹤器131所得出的感興趣區域ROI4。再例如，次追蹤器135也可使用感興趣區域ROI3, ROI4兩者的加權平均，且感興趣區域ROI3的權重可較低。

在一實施例中，次追蹤器135可依據場景轉換的偵測結果決定將追蹤感興趣區域(即，次追蹤器135先前追蹤的區域)更新為偵測追蹤感興趣區域(即，物件偵測追蹤的結果)。場景轉換相關於相鄰的二張連續影像訊框的場景不同。處理器130可判斷背景的顏色、對比度或特定圖案的變化程度，並據以得出場景轉換的偵測結果(例如，場景不同/已轉換或相同/未轉換)。例如，變化程度大於變化門檻值，則偵測結果為場景已轉換，且次追蹤器135可更新感興趣區域。又例如，變化程度未大於變化門檻值，則偵測結果為場景未轉換，且次追蹤器135可維持追蹤感興趣區域或使用偵測追蹤感興趣區域及追蹤感興趣區域兩者。

舉例而言，圖8是依據本發明另一實施例的目標更新機制的時序圖。請參照圖8，假設處理器130在時間點t1偵測到場景轉換已轉換。例如，連續影像訊框F2的內容是白天，但連續影像訊框F3的內容是夜晚。此外，針對連續影像訊框F3，次追蹤器135可將連續影像訊框F2所得出的感興趣區域ROI5更新成偵測追蹤器131最近輸出的感興趣區域ROI6。

在一實施例中，反應於一張或更多張連續影像訊框中的一者的物件追蹤的完成，處理器130可要求這物件追蹤的結果的顯示。例如，處理器130可透過顯示器顯示連續影像訊框及物件追蹤所框選的感興趣區域。

以圖3為例，表(1)是時間關係表：表(1)

偵測器	F1	F1	F1	F1
主追蹤器					F1	F2	F3	F4
輸入	F1	F2	F3	F4
顯示器		F1	F2	F3	F4

在偵測器132偵測連續影像訊框F1的期間中，處理器130輸入連續影像訊框F1~F4至緩衝器111。此時，顯示器所顯示的連續影像訊框F1~F3尚未有物件偵測或物件追蹤的結果。當顯示器顯示連續影像訊框F4時，主追蹤器133可使用偵測器132所輸出的感興趣區域追蹤暫存的那些連續影像訊框F1~F4中的目標，並可據以顯示物件追蹤的結果(如圖3所示連續影像訊框F4中的感興趣區域ROI2)。於其他實施例中，感興趣區域ROI2被用以與次追蹤器135追蹤得出之追蹤感興趣區域相比較或計算，選擇其一或混和運算得出最終感興趣區域，當顯示器顯示連續影像訊框F4時，並同時顯示該最終感興趣區域。

在一實施例中，偵測器132可對緩衝器111所暫存的那些連續影像訊框之後的影像訊框進行物件偵測，並禁能或不對原先暫存的那些連續影像訊框中的其他者進行物件偵測。也就是說，偵測器132禁能或不對所有輸入的連續影像訊框進行物件偵測。偵測器132針對單一訊框的偵測期間可能遠大於主追蹤器133針對單一訊框的追蹤期間，且偵測期間甚至無法因應應用情境的低延遲需求。待偵測器132輸出一筆結果，偵測期間的其他連續影像訊框可能已被多次要求輸出或其他處理。如表(1)所示，顯示器輸出連續影像訊框F1~F3，但偵測器132仍在進行連續影像訊框F1的物件偵測。反應於物件偵測的結果輸出，偵測器132可直接對新輸入的連續影像訊框進行物件偵測，而禁能或不對先前暫存的其他連續影像訊框繼續進行物件偵測。以圖3為例，偵測器132偵測連續影像訊框F4之後輸入的影像訊框。

於另一實施例中，偵測追蹤器131係依據固定時間間隔、固定影像訊框張數間隔、或者場景轉換的偵測結果啟動對新輸入的連續影像訊框之物件偵測，且任一次物件偵測均為獨立事件，不問目前是否尚有未完成之物件偵測。任一次物件偵測追蹤之結果輸出時，均用以更新前一次物件偵測追蹤之結果輸出。由於每一次偵測追蹤所花費之時間長短不定，此處之前一次物件偵測追蹤係以輸出結果之時間點判定。於另一實施例中，偵測追蹤器131係依據固定時間間隔、固定影像訊框張數間隔、或者場景轉換的偵測結果選擇針對連續影像訊框中的哪一張訊框進行物件偵測。偵測追蹤器131之啟動時間點可略早或略晚於依據固定時間間隔、固定影像訊框張數間隔、或者場景轉換的偵測結果啟動之前一實施例，但啟動後依據固定時間間隔、固定影像訊框張數間隔、或者場景轉換的偵測結果選擇針對連續影像訊框中的特定一張訊框進行物件偵測，並選擇性地停止先前物件偵測或者物件追蹤，以增加偵測追蹤器131之啟動時間點的彈性。

綜上所述，在本發明實施例的物件追蹤方法及物件追蹤裝置中，可基於物件偵測的結果追蹤先前暫存的連續影像訊框中的目標。藉此，無論目標的類型(例如，人、動物或非生物)，可提升物件追蹤的準確度。此外，有鑑於追蹤器的高處理效率，本發明實施例可滿足即時視訊或其他低延遲應用的要求。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100:物件追蹤裝置 110:儲存器 111:緩衝器 130:處理器 131:偵測追蹤器 132:偵測器 133:主追蹤器 135:次追蹤器 S210~S250、S410~S460、S510~S530:步驟 F1~F5:連續影像訊框 ROI~ROI6:感興趣區域 QF:佇列訊框 501:物件偵測 503:物件追蹤 D1:期間 D2、D3、D4:週期 C1~C4:信心度 t1:時間點

圖1是依據本發明一實施例的物件追蹤裝置的元件方塊圖。圖2是依據本發明一實施例的物件追蹤方法的流程圖。圖3是依據本發明一實施例描述對連續影像訊框的追蹤的示意圖。圖4是依據本發明一實施例的目標更新機制的流程圖。圖5是依據本發明一實施例的物件偵測及追蹤的時序圖。圖6是依據本發明另一實施例的物件偵測及追蹤的時序圖。圖7是依據本發明一實施例的目標更新機制的時序圖。圖8是依據本發明另一實施例的目標更新機制的時序圖。

S210~S250:步驟

Claims

一種物件追蹤方法，適用於低延遲應用，該物件追蹤方法包括：對至少一連續影像訊框(frame)中的一者進行一物件偵測，其中該物件偵測用於辨識一目標；暫存該至少一連續影像訊框；以及依據該物件偵測的結果對暫存的該至少一連續影像訊框進行一物件追蹤，其中該物件追蹤用於將在該至少一連續影像訊框中的一者與另一者中的該目標相關聯，該物件偵測的結果包括該目標的一第一感興趣區域，該第一感興趣區域對應於在受該物件偵測的一該連續影像訊框中的該目標的位置，且依據該物件偵測的結果對暫存的該至少一連續影像訊框進行該物件追蹤的步驟包括：決定該第一感興趣區域在暫存的多個該連續影像訊框之間的關聯性，並依據關聯性決定出一第二感興趣區域。
如請求項1所述的物件追蹤方法，其中暫存該至少一連續影像訊框的步驟包括：暫存在該物件偵測以及該物件追蹤完結前的全部或部分期間中輸入一系統的該至少一連續影像訊框。
如請求項1所述的物件追蹤方法，其中該至少一連續影像訊框包括多個連續影像訊框，且暫存該至少一連續影像訊框的步驟包括：比較暫存的該些連續影像訊框與一數量上限；以及依據該些連續影像訊框與該數量上限的比較結果刪除暫存的該些連續影像訊框中的至少一者。
如請求項1所述的物件追蹤方法，更包括：對該至少一連續影像訊框中的該一者進行另一物件追蹤，以決定一第三感興趣區域。
如請求項4所述的物件追蹤方法，更包括：將該另一物件追蹤所決定的該第三感興趣區域更新為該第二感興趣區域，並依據該第二感興趣區域再度進行該另一物件追蹤。
如請求項5所述的物件追蹤方法，其中將該另一物件追蹤所決定的該第三感興趣區域更新為該第二感興趣區域的步驟包括：依據該第三感興趣區域在該另一物件追蹤的信心度決定將該第三感興趣區域更新為該第二感興趣區域或該第二感興趣區域與該第三感興趣區域之加權平均。
如請求項6所述的物件追蹤方法，更包括：當該另一物件追蹤完結時，以該第二感興趣區域或該第二感興趣區域與該第三感興趣區域之加權平均更新輸出之一最終感興趣區域。
如請求項1所述的物件追蹤方法，其中對該至少一連續影像訊框中的一者進行該物件偵測之步驟包括：依據一時間間隔、一影像訊框張數間隔、或者一場景轉換的偵測結果決定用以進行該物件偵測之該一者。
如請求項1所述的物件追蹤方法，更包括：當該物件追蹤完結時，以該物件追蹤之結果更新輸出之一最終感興趣區域。
如請求項1所述的物件追蹤方法，更包括：依據一時間間隔、一影像訊框張數間隔、或者一場景轉換的偵測結果，於該物件追蹤完成前對該至少一連續影像訊框中的另一者啟動另一物件偵測，其中該另一物件偵測亦用於辨識該目標；以及選擇性地停止該物件偵測或者該物件追蹤。
一種物件追蹤裝置，適用於低延遲應用，該物件追蹤裝置包括：一儲存器，用以儲存一程式碼；以及一處理器，耦接該儲存器，經配置用以載入且執行該程式碼而執行：對至少一連續影像訊框中的一者進行一物件偵測，其中該物件偵測用於辨識一目標；暫存該至少一連續影像訊框；以及依據該物件偵測的結果對暫存的該至少一連續影像訊框進行一物件追蹤，其中該物件追蹤用於將在該至少一連續影像訊框中的一者與另一者中的該目標相關聯，該物件偵測的結果包括該目標的一第一感興趣區域，該第一感興趣區域對應於在受該物件偵測的一該連續影像訊框中的該目標的位置，且該處理器更經配置用以：決定該第一感興趣區域在暫存的多個該連續影像訊框之間的關聯性，並依據關聯性決定出一第二感興趣區域。
如請求項11所述的物件追蹤裝置，其中該處理器更經配置用以：暫存在該物件偵測以及該物件追蹤完結前的全部或部分期間中輸入一系統的該至少一連續影像訊框。
如請求項11所述的物件追蹤裝置，其中該至少一連續影像訊框包括多個連續影像訊框，且該處理器更經配置用以：比較暫存的該些連續影像訊框與一數量上限；以及依據該些連續影像訊框與該數量上限的比較結果刪除暫存的該些連續影像訊框中的至少一者。
如請求項11所述的物件追蹤裝置，其中該處理器更經配置用以：對該至少一連續影像訊框中的該一者進行另一物件追蹤，以決定一第三感興趣區域。
如請求項14所述的物件追蹤裝置，其中該處理器更經配置用以：將該另一物件追蹤所決定的該第三感興趣區域更新為該第二感興趣區域，並依據該第二感興趣區域再度進行該另一物件追蹤。
如請求項15所述的物件追蹤裝置，其中該處理器更經配置用以：依據該第三感興趣區域在該另一物件追蹤的信心度決定將該第三感興趣區域更新為該第二感興趣區域或該第二感興趣區域與該第三感興趣區域之加權平均。
如請求項16所述的物件追蹤裝置，其中該處理器更經配置用以：當該另一物件追蹤完結時，以該第二感興趣區域或該第二感興趣區域與該第三感興趣區域之加權平均更新輸出之一最終感興趣區域。
如請求項11所述的物件追蹤裝置，其中該處理器更經配置用以：依據一時間間隔、一影像訊框張數間隔、或者一場景轉換的偵測結果決定用以進行該物件偵測之該一者。
如請求項11所述的物件追蹤裝置，其中該處理器更經配置用以：當該物件追蹤完結時，以該物件追蹤之結果更新輸出之一最終感興趣區域。
如請求項11所述的物件追蹤裝置，其中該處理器更經配置用以：依據一時間間隔、一影像訊框張數間隔、或者一場景轉換的偵測結果，於該物件追蹤完成前對該至少一連續影像訊框中的另一者啟動另一物件偵測，其中該另一物件偵測亦用於辨識該目標；以及選擇性地停止該物件偵測或者該物件追蹤。