TWI784330B

TWI784330B - 物件追蹤方法及其處理裝置與系統

Info

Publication number: TWI784330B
Application number: TW109136555A
Authority: TW
Inventors: 劉得鋕; 陳健龍; 林郁欣
Original assignee: 財團法人工業技術研究院
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2022-11-21
Also published as: TW202217747A; US11568550B2; CN114463371A; US20220122274A1

Abstract

一種物件追蹤方法及其處理裝置與系統，此方法包括下列步驟。利用主相機以及至少一輔相機針對實體場景進行影像擷取，以分別產生主影像以及至少一輔影像。針對主影像以及輔影像進行影像疊合，以產生疊合影像。計算疊合影像中的各個物件的位置資訊以及深度資訊。根據各個物件的位置資訊以及深度資訊，判斷疊合影像中的所有物件之中是否具有相同物件。

Description

物件追蹤方法及其處理裝置與系統

本揭露是有關於一種物件追蹤的技術。

隨著影像處理技術與空間定位技術的發展，互動式顯示器的應用已逐漸受到重視。此類的技術可依照使用者的操作需求來產生互動式的體驗，使資訊以更為直觀的方式呈現。然而，單相機系統所涵蓋的視野範圍有限，無法滿足對於大範圍的操作需求。魚眼相機系統會使影像變形，導致人臉不易辨識。多相機系統雖然可以涵蓋較大的視野範圍，然而在跨視野人臉追蹤上，除了需要針對視野範圍的重疊區域來進行特徵比對、影像拼接、影像辨識的大量運算，也會有人臉重複計算的疑慮。

本揭露提供一種物件追蹤方法及其處理裝置與系統，其可在不同相機的視野範圍中，提供具辨識率以及效能的物件追蹤，且可有效地避免相同物件的重複計算。

在本揭露的一範例實施例中，上述的方法包括下列步驟。利用主相機以及至少一輔相機針對實體場景進行影像擷取，以分別產生主影像以及至少一輔影像。針對主影像以及輔影像進行影像疊合，以產生疊合影像。計算疊合影像中的各個物件的位置資訊以及深度資訊。根據各個物件的位置資訊以及深度資訊，判斷疊合影像中的所有物件之中是否具有相同物件。

在本揭露的一範例實施例中，上述的處理裝置連接至主相機以及至少一輔相機，包括記憶體以及處理器。記憶體用以儲存資料。處理器用以自主相機以及至少一輔相機接收針對實體場景進行影像擷取所分別產生的主影像以及至少一輔影像，再針對主影像以及至少一輔影像進行影像疊合，以產生疊合影像，又計算疊合影像中的各個物件的位置資訊以及深度資訊，根據各個物件的位置資訊以及深度資訊，判斷疊合影像中的所有物件之中是否具有相同物件。

在本揭露的一範例實施例中，上述的系統包括主相機、至少一輔相機以及處理裝置。主相機用以針對實體場景進行影像擷取，以產生主影像。至少一輔相機用以針對實體場景進行影像擷取，以產生至少一輔影像。處理裝置連接至主相機以及至少一輔相機，用以取得主影像以及至少一輔影像，再針對主影像以及至少一輔影像進行影像疊合，以產生疊合影像，又計算疊合影像中的各個物件的位置資訊以及深度資訊，根據各個物件的位置資訊以及深度資訊，判斷疊合影像中的所有物件之中是否具有相同物件。

為讓本揭露能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

100:物件追蹤系統

110:主相機

120:輔相機

130:處理裝置

132:記憶體

134:處理器

S202~S208、S302~S308、S702A~S710B、S902A~S914:步驟

300A:主影像

300B:輔影像

310A:主區域

310B:輔區域

310:疊合影像

31A、31B、32A、32B:人臉

△X:畫素位移量

420、510、520、610A、610B、610C、710A、710B、810A、810B:相機

FOV、F1、F2:視野範圍

FOVX:水平視野距離

Z:深度

42:物件

L:鏡頭間距

θ:內傾角

RAC、RAB、RBC:視野重疊區域

S1、S2:距離

H:人頭

O:人頭中心

H1:眉心

A、B、C、D、O:點

BL:基準線

fov:水平視野範圍

d1、d2:深度偵測極限

圖1是根據本揭露一範例實施例所繪示的物件追蹤系統的示意圖。

圖2是根據本揭露一範例實施例所繪示的物件追蹤方法的流程圖。

圖3是根據本揭露之一範例實施例所繪示的物件追蹤方法的應用情境的示意圖。

圖4A以及圖4B是根據本揭露之一範例實施例所繪示的畫素位移量的計算方法的示意圖。

圖5A是根據本揭露之一範例實施例所繪示的相機架設方式的示意圖。

圖5B是根據本揭露之一範例實施例所繪示的畫素位移量的計算方法的示意圖。

圖6是根據本揭露之一範例實施例所繪示的多相機系統的架設方式的示意圖。

圖7A是根據本揭露之一範例實施例所繪示的選擇主相機的方法的流程圖。

圖7B是根據本揭露之一範例實施例所繪示的選擇主相機的應用情境的示意圖。

圖8A~圖8D根據本揭露之一範例實施例所繪示的深度偵測極限的縮短方法的示意圖。

圖9是根據本揭露一範例實施例所繪示的物件追蹤方法的流程圖。

本揭露的部份範例實施例接下來將會配合附圖來詳細描述，以下的描述所引用的元件符號，當不同附圖出現相同的元件符號將視為相同或相似的元件。這些範例實施例只是本揭露的一部份，並未揭示所有本揭露的可實施方式。更確切的說，這些範例實施例僅為本揭露的專利申請範圍中的方法、裝置以及系統的範例。

圖1是根據本揭露一範例實施例所繪示的物件追蹤系統的示意圖。首先圖1先介紹系統中的各個構件以及配置關係，詳細功能將配合後續範例實施例的流程圖一併揭露。

請參照圖1，物件追蹤系統100包括主相機110、至少一輔相機120以及處理裝置130，其中處理裝置130可以是以無線、有線或電性連接於主相機110以及輔相機120。需說明的是，在本範例實施例中僅繪示出單數個輔相機120來做為範例，而在其它範例實施例中的輔相機120可以為複數個。

主相機110以及輔相機120可包括影像感測器以及深度感測器，也就是說主相機110以及輔相機120可具有影像擷取以及深度擷取的功能。影像感測器用以擷取影像，其例如是具有透鏡以及感光元件的攝像鏡頭。感光元件用以感測進入透鏡的光線強度，進而產生影像。感光元件可以例如是電荷耦合元件(charge coupled device，CCD)、互補性氧化金屬半導體(complementary metal-oxide semiconductor，CMOS)元件或其他類似元件。深度感測器用以偵測深度資訊，其可以分為主動式深度感測技術以及被動式深度感測技術來實現。主動式深度感測技術可藉由主動發出光源、紅外線、超音波、雷射等作為訊號搭配時差測距技術來計算深度資訊。被動式深度感測技術可以藉由兩個影像感測器以不同視角同時擷取其前方的兩張影像，以利用兩張影像的視差來計算深度資訊。

處理裝置130用以對主相機110以及輔相機120所擷取到的影像來進行處理，以執行本揭露多個範例實施例中的流程。處理裝置130包括記憶體132以及處理器134。記憶體132可以例如是任意型式的固定式或可移動式隨機存取記憶體(random access memory，RAM)、唯讀記憶體(read-only memory，ROM)、快閃記憶體(flash memory)、硬碟或其他類似裝置、積體電路或其組合。處理器134可以例如是中央處理單元(central processing unit，CPU)、應用處理器(application processor，AP)或是其他可程式化之一般用途或特殊用途的微處理器(microprocessor)、數位訊號處理器(digital signal processor，DSP)、影像訊號處理器(image signal processor，ISP)、圖形處理器(graphics processing unit，GPU)或其他類似裝置、積體電路或其組合。

圖2是根據本揭露一範例實施例所繪示的物件追蹤方法的流程圖，而圖2的方法流程可由圖1的物件追蹤系統100來實現。

請同時參照圖1以及圖2，首先，主相機110以及至少一輔相機120將針對實體場景進行影像擷取，以分別產生主影像以及至少一輔影像(步驟S202)。也就是說，主相機110以及輔相機120將同步以不同視角來擷取實體場景的影像，以產生具有不同視野範圍的影像。接著，處理裝置130將針對主影像以及輔影像進行影像疊合，以產生疊合影像(步驟S204)，並且將計算疊合影像中的各個物件的位置資訊以及深度資訊(步驟S206)。在此的影像疊合可以是針對主影像以及輔影像進行水平疊合(左右疊合)或是垂直疊合(上下疊合)。

在一範例實施例中，處理裝置130可以判斷主相機110以及輔相機120為橫式拍攝或是直式拍攝來決定影像疊合的方式，以減少影像疊合所造成的變形量對於辨識率所造成的影響。舉例來說，當主相機110以及輔相機120為橫式拍攝並且相機解析度為640×360時，水平疊合後的影像解析度為1280×360，而垂直疊合後的影像解析度為640×720。一般來說，處理裝置130在進行人臉辨識前，例如把疊合影像縮放成300×300的影像解析度，水平疊合的疊合影像將會產生嚴重的變形，而造成辨識率的下降。以兩段解析度為640×360並且長度為74秒的影片為例，分別疊合後進行人臉辨識，從辨識結果可得知垂直疊合的辨識率較高。基此，當主相機110以及輔相機120為橫式拍攝時，處理裝置130將針對主影像以及輔影像進行垂直疊合，以產生疊合影像。當主相機110以及輔相機120為直式拍攝時，處理裝置130針對主影像以及輔影像進行水平疊合，以產生疊合影像。

接著，處理裝置130將計算疊合影像中的各個物件的位置資訊以及深度資訊(步驟S206)，並且將根據各個物件的位置資訊以及深度資訊，判斷疊合影像中的所有物件之中是否具有相同物件(步驟S208)。舉例來說，當處理裝置130判定兩個物件在疊合影像中對應於主影像以及輔影像的位置以及深度具有對應關係時，則此兩個物件將會視為相同物件。也就是說，本範例實施例以影像疊合來取代影像拼接來進行跨視野物件追蹤，即可以較少的運算量以及運算時間來達到效果。之後，處理裝置130可以再視實際應用情境來針對相同物件進行後續的處理。

為了方便明瞭，以下範例實施例將搭配物件追蹤系統100的不同應用情境來具體地說明圖2流程的細節。

圖3是根據本揭露之一範例實施例所繪示的物件追蹤方法的應用情境。在本範例實施例中，假設物件追蹤系統100的主相機110以及輔相機120為平行架設的兩台相機，而追蹤物件為人臉。

請先參照圖1以及圖3，主相機110以及輔相機120將針對實體場景進行影像擷取，以分別產生主影像300A以及輔影像300B(步驟S302)。接著，處理裝置130將針對主影像300A以及輔影像300B進行影像疊合，以產生疊合影像310(步驟S304)。以本範例實施例來說，處理裝置130是以垂直疊合的方式來針對主影像300A以及輔影像300B進行影像疊合，其中疊合影像310中的主區域310A以及輔區域310B分別對應於主影像300A以及輔影像300B。

接著，處理裝置130將會自疊合影像中辨識出人臉的各個區域，並且計算各個人臉的位置資訊以及深度資訊，藉以判斷疊合影像310中的主區域310A以及輔區域310B是否具有相同人臉。在此，處理裝置130將會根據垂直座標、深度資訊、水平座標三個條件，來判斷疊合影像310中的主區域310A以及輔區域310B是否具有相同人臉(步驟S306)。

在本範例實施例中，處理裝置130可以是先進行垂直座標的判斷。當處理裝置130判斷人臉31A於主區域310A的垂直座標與人臉31B於輔區域310B的垂直座標相同，則將會進行深度的判斷。當處理裝置130判斷人臉31A的深度與人臉31B的深度相同，則將會進行水平座標的判斷。接著，處理裝置130將判斷人臉31A於主區域310A的水平座標與人臉31B於輔區域310B的水平座標之間的差值與畫素位移量△X是否相同。在此，處理裝置130將會根據輔相機120的水平解析度、水平視野距離以及主相機110與輔相機120之間的鏡頭間距，來計算畫素位移量△X。以下圖4A以及圖4B將具體說明畫素位移量△X的計算方法的示意圖。

請先參照圖4A，考慮到相對於相機420的深度Z(單位為mm)的位置，根據相機420水平的視野範圍FOV的定義，可以計算出水平視野距離FOVX(單位為mm)如方程式(1)：

請再參照圖4B，當一台相機水平移動特定距離時，對於一個靜止的被拍攝物而言，相當於相機靜止並且被拍攝物反方向移動相同距離。以另一觀點來說，當兩台相機間隔特定距離時，計算兩台相機所拍攝到的視野範圍F2以及F1的同一物件42的水平畫素座標的差異量△X(水平畫素所需的修正值)，相當於計算同一相機所拍攝到相隔特定距離的兩個物體的畫素距離。基此，上述概念可以得到以下兩個方程式(2)(3)：

其中RSX為水平解析度，L為兩鏡頭間距。若將方程式(2)(3)合併，並且再帶入方程式(3)，即可得到計算畫素位移量△X的方程式(4)：

也就是說：

舉例來說，假設主相機與輔相機的鏡頭間距L為15cm，影像解析度RSX為640×360，相機水平的視野範圍FOV為75度，輔相機的畫素轉換到主相機的對應畫素的畫素位移量△X如方程式(5)：

為了減少運算量，上述方程式(5)可依照方程式(5.1)的泰勒級數(Taylor series)，在深度Z=600mm附近進行多項式的展開(即將a=600代入)，並且僅考慮前三項而產生方程式(5.2)。在此採用深度Z=600mm的原因在於，在近點(Z=200mm)與遠點(Z=1000mm)時的誤差將會過大：

其中：

因此方程式(5.2)可以寫成以下方程式(5.3)：

若將方程式(5.3)展開後，即可得到方程式(6)的兩次多項式：f(z)=△X=0.00039Z ²-0.7Z+417 (6)

請再回到圖3，當處理裝置130計算出畫素位移量△X後，將進行水平座標的判斷。當處理裝置130判斷人臉31A的水平座標與人臉31B的水平座標之間的差值與畫素位移量△X相同，則代表人臉31A與人臉31B為相同人臉。以本範例實施例為例，當處理裝置130針對其它人臉進行完步驟S306的判斷後，將會判定主區域310A中的人臉31A、32A分別與輔區域310B的人臉31B、32B為相同人臉，因此處理裝置130可以是針對輔相機120B所擷取到的人臉31B、32B進行後續處理，例如判定人臉31B、32B重複而不進行其後續的相關計算(步驟S308)。

需要說明的是，本領域具通常知識者應明瞭，前述處理裝置130判斷人臉31A的水平座標與人臉31B的水平座標之間的差值與畫素位移量△X相同是否有允許的容忍閥值(tolerance threshold)的前提下。舉例來說，在影像解析度為640×360，主相機與輔相機的鏡頭間距L為10cm下，輔相機的畫素座標(px,py)轉換到主相機的畫素座標(px',py')將會使用方程式(6.5)：

其中△X=5.83×10^-4 Z ²-1.052Z+570.7，並且Z的單位為mm。假設輔區域310B的人臉31B轉換到主區域310A後的畫素座標(px',py')與主區域310A的人臉31A的畫素座標之間的距離小於距離閥值d時，則會判定人臉31B為重複人臉。假設主區域310A中，與畫素座標(px',py')距離d的範圍內沒有任何人臉，則將會判定人臉31B為非重複人臉人臉。

在另一範例實施例中，處理裝置130可以是先進行深度的判斷。當處理裝置130判斷人臉31A於主區域310A的深度與人臉31B於輔區域310B的深度相同，則將會進行垂直座標的判斷。當處理裝置130判斷人臉31A的垂直座標與人臉31B的垂直座標相同，則將會進行水平座標的判斷。此範例實施例的細節請參照以上相關說明而類推，於此不再贅述。

需要說明的是，本領域具通常知識者應明瞭，前述判斷人臉31A與人臉B的垂直座標、深度資訊、水平座標三個條件(以下分別稱為「垂直條件」、「深度條件」、「水平條件」)是否符合是在有允許的容忍閥值的前提下。具體來說，判斷主區域310A中的人臉31A與輔區域310B中的人臉32B的垂直座標是否相同，是指判斷人臉32B在輔區域310B的垂直座標與人臉31A在主區域310A的垂直座標之間的差值(以下稱為「垂直差值」)是否小於垂直容忍閥值。若是，則判定符合垂直條件。判斷主區域310A中的人臉31A與輔區域310B中的人臉32B的深度是否相同，是指判斷人臉32B在輔區域310B的深度與人臉31A在主區域310A的深度之間的差值(以下稱為「深度差值」)是否小於深度容忍閥值。若是，則判定符合深度條件。判斷主區域310A中的人臉31A與輔區域310B中的人臉32B的水平座標之間的差值與畫素位移量是否相同，是指判斷人臉32B在輔區域310B的水平座標與人臉31A在主區域310A的水平座標之間的差值(以下稱為「水平差值」)與畫素位移量之間是否小於水平容忍閥值。若是，則判定符合水平條件。

上述的容忍閥值可以取決於人臉的實際尺寸或人眼在影像中的距離。具體來說，考慮到兩個人有可能前後緊貼的情況，因此深度容忍閥值可以是小於人頭的直徑(例如16cm)。考慮到有慣用眼的需求，水平容忍閥值可以小於極限距離時左右眼之間的畫素距離，而垂直座標則可比照水平座標。舉例來說，左右眼之間的距離(瞳距)是7-8cm，當相機解析度是640×360，相機水平視野是75度，極限距離是90cm時，左右眼之間的畫素距離為80畫素。進一步地來說，考量到側臉或人臉重疊，較佳容忍閥值可以是一般情況的1/4。例如：較佳深度容忍閥值可以設定為40mm，較佳水平容忍閥值以及較佳垂直容忍閥值可以設定為20畫素。

圖3以及圖4是在主相機以及輔相機為水平架設且光軸平行的應用情境。當主相機以及輔相機為水平架設但光軸具有內傾角或是外傾角時，則畫素位移量的計算方式將有所不同。以圖5A根據本揭露之一範例實施例所繪示的相機架設方式的示意圖為例，主相機510以及輔相機520皆具有內傾角θ，並且兩鏡頭間距為L，而畫素位移量的計算方法可分成圖5B根據本揭露之一範例實施例所繪示的三個步驟來說明。

請參照圖5B，以輔相機520的觀點來說，畫素位移量的計算可以分成輔相機520的平移

(步驟S502)、輔相機520的原地旋轉2θ(步驟S504)以及輔相機520的繼續平移

(步驟S506)。在此，當輔相機520的旋轉角度為θ時，水平畫素位移量△X可以方程式(7)表示：

接著，再搭配方程式(4)，當相機的平移計算公式，即可推估出在本實施例中輔相機520的畫素位移量的計算。詳細來說，輔相機 520的平移

所對應到的水平畫素位移量△X1可以方程式(8.1)來表示：

輔相機520的原地旋轉2θ所對應到的水平畫素位移量△X2可以方程式(8.2)來表示：

輔相機520的平移

所對應到的水平畫素位移量△X3可以方程式(8.3)來表示：

因此，輔相機520的總畫素位移量可以方程式(8.4)來表示：

類似地，當主相機以及輔相機皆具有外傾角θ’，以輔相機520的觀點來說，畫素位移量的計算同樣可以分成輔相機520的平移

、輔相機520的原地旋轉2θ’以及輔相機520的繼續平移

。詳細來說，輔相機520的平移

所對應到的水平畫素位移量△X1可以方程式(9.1)來表示：

輔相機520的原地旋轉2θ’所對應到的水平畫素位移量△X2可以方程式(9.2)來表示：

輔相機520的平移

所對應到的水平畫素位移量△X3可以方程式(9.3)來表示：

因此，輔相機520的總畫素位移量可以方程式(9.4)來表示：

當兩台相機不足以涵蓋使用者的互動區域時，可以在系統中添加相機，形成模組化的相機陣列。在模組化的相機陣列中，將有三台以上的相機。圖6是根據本揭露之一範例實施例所繪示的多相機系統的架設方式的示意圖，而以下將說明選擇主相機的依據。

請參照圖6，假設相機610A、相機610B以及相機610C為水平排列的三台相機，而RAB為相機610A與相機610B的重疊區域，RBC為相機610B與相機610C的重疊區域，RAC為相機610A與相機610C的重疊區域。在此，將會計算出每台相機的重疊區域與相機最近距離S1、S2的總和，並且將總和最小的相機設定為主相機，其餘的相機設定為輔相機。各個重疊區域與相機的距離如表1所示：

相機610B的重疊區域的距離總和最小，可將相機610B設定為主相機，相機610A以及相機610C則視為輔相機。

此外，當人臉越靠近相機，相機間所對應的畫素位移量越大，因此在進行座標轉換時的誤差也隨之越大。因此，越少近距離的座標轉換次數也可以是選擇主相機的另一依據。以圖6的相機A以及相機B為例，以下表2將列出人臉在重疊區域RAB的位置P1以及重疊區域RBC的位置P2所需要進行的座標轉換次數：

相機B的座標轉換次數總和最小，可將相機B設定為主相機，相機A以及相機C則皆視為輔相機。

在短距離使用時，假設有一台相機無法取得深度資訊，則將需要動態地選擇主相機。具體來說，圖7A是根據本揭露之一範例實施例所繪示的選擇主相機的方法的流程圖，圖7B是根據本揭露之一範例實施例所繪示的選擇主相機的應用情境的示意圖。

請先同時參照圖1以及圖7A，相機710A以及相機710B將分別進行影像擷取(步驟S702A、步驟S702B)，處理裝置130再針對所擷取到的影像進行人臉辨識(步驟S704A、步驟S704B)，進一步地針對人臉的所在位置進行深度擷取(步驟S706A、步驟S706B)。當相機710A的深度擷取失敗時，處理裝置130會將相機710A設定為輔相機以及將相機710B設定為主相機(步驟S710A)。當相機710B的深度擷取失敗時，處理裝置130會將相機710B設定為輔相機以及將相機710A設定為主相機(步驟 S710B)。

當相機710A以及相機710B的深度擷取皆成功時，處理裝置130可進一步地判斷深度A與深度B的大小，例如深度A是否大於或等於深度B(步驟S710)。當深度A小於深度B時，即代表此深度所對應的位置較靠近相機A，則處理裝置130會將相機710B設定為主相機以及將相機710A設定為輔相機(步驟S710A)。當深度A大於或等於深度B時，即代表此深度所對應的位置較靠近相機710B或者是位於相機710A與相機710B的中心，則處理裝置130會將相機710B設定為輔相機以及將相機710A設定為主相機(步驟S710B)。

請再參照圖7B，使用者71位於兩台相機的中心，則相機A將會被設定為使用者71的主相機。使用者72較靠近相機710A，則相機710B將會被設定為使用者72的主相機。使用者73較靠近相機710B，則相機710A將會被設定為使用者73的主相機。

每台相機都有深度偵測極限。假設深度偵測極限為20cm，即代表相機無法測得20cm內的物件的深度。然而，藉由多相機的架設，可以降低深度偵測極限，測得距離更為接近的物件。以下將以圖8A~圖8D根據本揭露之一範例實施例所繪示的深度偵測極限的縮短方法的示意圖來說明。

請先參照圖8A，舉例而言，使用者的人頭H的直徑為16cm。當眉心H1與相機810A的距離為20cm時，人頭H的中心O與相機810A的距離將會是28cm。此時，人臉的寬度將會佔水平視野32度。

請再參照圖8B，相機810A、810B的水平視野為75°，深度偵測極限20cm，相機距離為22.5cm並且均向內傾斜13°架設。假設使用者站在相機810A、810B的中間，並且眉心H1與基準線BL的距離為10cm。假設人頭H的中心為O點，兩台相機的中心點為B點，相機810的鏡頭中心為C點。通過C點垂直基準線上將會有A點。CD線段的方向是相機810A的光軸方向，D點是O點在CD線段的垂直投影點。

在此，BC線段是相機距離的一半，即11.25cm。OB線段是人頭中心O點到基準線BL的距離為18cm。由於相機810A是內傾13°，因此角度∠ACD為13°。藉由三角函數，可推得角度∠OCB為58°，斜邊OC線段為21.23cm，角度∠OCD為19°。最後可以推算出CD線段為28cm，而人頭表面的深度為20cm。如圖8C，使用者的人頭可完全位於相機810A的視野範圍內，是可偵測的。因此，藉由此種相機架設，是有可能將多相機系統的深度偵測極限縮小至10cm，而讓深度偵測極限更優於單相機系統。

簡單來說，請參照圖8C以及圖8D，單一相機的水平視野為fov，而深度偵測極限為d1時，透過水平架設以及內傾角度θ，使得多相機系統的最小深度偵測極限可以降到d2，其中d2<d1，而兩相機的預設距離L則將滿足以下方程式(9)：

附帶說明的是，當使用者位於相機810A與相機810B的中心點附近時，可以透過相機810A以及相機810B取得眼球的空間座標，各別進行座標轉換到基準線BL的新點(B點)，再透過人臉模型，推估眉心H1的空間座標，可藉此與透明螢幕進行虛實互動。以圖8A以及圖8B為例，在640×360的影像解析度下，根據水平座標x可以推估斜角θ為

，與相機距離可以近似為人臉在相機的深度值。接著，再加上相機傾角13度，與斜角相加，即為人臉與基準線的夾角，也就是夾角為(90°-內傾角-θ)。接著，由深度乘以夾角的正弦值即為人臉到基準線的距離，亦即為轉換後的深度值。另外，由深度乘以夾角的餘弦值即為人臉投影點到相機的距離，亦即為轉換後的水平座標。

當使用者遠離相機810A與相機810B的中心點時，僅有一台相機可以取得同側眼睛的深度資訊，另一台相機只能取得另一個眼睛的畫素位置。此時，可以使用近側的相機來利用人臉的大小與角度大致推估使用者的距離，再與使用者進行虛實互動。

上述範例實施例可利用圖9根據本揭露一範例實施例所繪示的物件追蹤方法的流程圖來進行統整，而圖9的方法流程可由圖1的物件追蹤系統100來實現。

請參照圖9，首先，主相機110以及輔相機120將根據同步信號來進行影像擷取(步驟S902A、步驟S902B)，而處理裝置130會將主相機110以及輔相機120所擷取到的影像進行影像疊合，以產生疊合影像(步驟S904)。接著，處理裝置130將會針對疊合影像中的主區域以及輔區域進行人臉辨識(步驟S906A、步驟S906B)，並且自主相機110以及輔相機120取得深度資料(步驟S908A、S908B)。針對主相機110對應的主區域，處理裝置130將會進行注視點運算(步驟S910A)，並且產生運算結果(步驟S912A)。針對輔相機120對應的輔區域，處理裝置130將進行有效人臉的判別(步驟S909B)，也就是說判別輔區域中是否有與主區域中相同的人臉。之後，針對輔相機120對應的輔區域，處理裝置130將會針對有效人臉進行注視點運算(步驟S910B)，並且產生運算結果(步驟S912B)。之後，處理裝置130將會針對步驟S912A以及步驟S912B的運算結果進行後續處理(步驟S914)，而此後續處理將會視應用情境而設定。舉例來說，處理裝置130將會依照運算結果來顯示後續的虛實互動的資訊等等。

以下表3將列出使用影像拼接的物件追蹤系統與使用影像疊合的物件追蹤系統100針對跨視野的物件追蹤方式的速度差異：

由表3可知，影像疊合的時間遠低於影像拼接的時間，因此物件追蹤系統100可提供較快的物件追蹤方式。

本揭露實施例提供一種物件追蹤方法及其處理裝置與系統，可在不同相機視野中，提供具辨識率以及效能的物件追蹤，且可有效地避免相同物件的重複計算。

雖然本揭露已以範例實施例揭露如上，然其並非用以限定本揭露，任何所屬技術領域中具有通常知識者，在不脫離本揭露的精神和範圍內，當可作些許的更動與潤飾，故本揭露的保護範圍當視後附的申請專利範圍及其均等範圍所界定者為準。

S202~S208:步驟

Claims

一種物件追蹤方法，包括：利用主相機以及至少一輔相機針對實體場景進行影像擷取，以分別產生主影像以及至少一輔影像；針對該主影像以及所述輔影像進行影像疊合，以產生疊合影像，該疊合影像包括對應於該主相機的主區域以及對應於該輔相機的輔區域；計算該疊合影像中的各個物件的位置資訊以及深度資訊，判斷位於該主區域以及該輔區域中的各所述物件的垂直座標、水平座標以及深度，其中所述物件包括位於該主區域中的第一物件；以及根據各所述物件的該位置資訊以及該深度資訊，判斷所述疊合影像中的所述物件之中是否具有相同物件，包括：判斷該輔區域中是否具有第二物件的垂直座標、深度以及水平座標分別與該第一物件的該垂直座標、該深度以及該水平座標符合垂直條件、深度條件以及水平條件；當符合該垂直條件、該深度條件以及該水平條件皆符合時，判定所述疊合影像中的所述物件之中具有相同物件；以及當該垂直條件、該深度條件以及該水平條件中的任一者不符合時，判定所述疊合影像中的所述物件之中不具有相同物件。
如請求項1所述的方法，其中針對該主影像以及所述輔影像進行影像疊合，以產生該疊合影像的步驟包括：判斷該主相機以及所述輔相機為直式拍攝或是橫式拍攝；當該主相機以及所述輔相機為該直式拍攝時，針對該主影像以及所述輔影像進行水平疊合，以產生該疊合影像；以及當該主相機以及所述輔相機為該橫式拍攝時，針對該主影像以及所述輔影像進行垂直疊合，以產生該疊合影像。
如請求項1所述的方法，其中當該第二物件的該垂直座標與該第一物件的該垂直座標之間的垂直差值小於垂直容忍閥值時，判定符合該垂直條件。
如請求項3所述的方法，其中當該第一物件以及該第二物件為人臉時，該垂直容忍閥值關聯於左右眼的畫素距離。
如請求項1所述的方法，其中當該第二物件的該深度與該第一物件的該深度之間的深度差值小於深度容忍閥值時，判定符合該深度條件。
如請求項5所述的方法，其中當該第一物件以及該第二物件為人臉時，該深度容忍閥值關聯於人頭直徑。
如請求項1所述的方法，其中當該第二物件的該水平座標與該第一物件的該水平座標之間的水平差值與畫素位移量之間的差值小於水平容忍閥值時，判定符合該水平條件。
如請求項7所述的方法，其中當該第一物件以及該第二物件為人臉時，該水平容忍閥值關聯於左右眼的畫素距離。
如請求項7所述的方法，其中當該主相機與所述輔相機為水平架設且光軸平行時，該畫素位移量是基於所述輔相機的水平解析度、水平視野距離以及該主相機與所述輔相機之間的鏡頭間距所計算出。
如請求項7所述的方法，其中當該主相機與所述輔相機為水平架設且光軸具有內傾角時，該畫素位移量是基於所述輔相機的水平解析度、水平視野距離、該內傾角以及該主相機與所述輔相機之間的鏡頭間距所計算出。
如請求項7所述的方法，其中當該主相機與所述輔相機為水平架設且光軸具有外傾角時，該畫素位移量是基於所述輔相機的水平解析度、水平視野距離、該外傾角以及該主相機與所述輔相機之間的鏡頭間距所計算出。
如請求項1所述的方法，其中該實體場景中具有第一辨識物件，該主相機可針對該第一辨識物件進行深度擷取，所述輔相機無法針對該第一辨識物件進行深度擷取。
如請求項1所述的方法，其中該實體場景中具有第一辨識物件，該主相機以及所述輔相機皆可針對該第一辨識物件進行深度擷取，該第一辨識物件相對於所述主相機的深度大於或等於該第一辨識物件相對於各所述輔相機的深度。
如請求項1所述的方法，其中所述輔相機的數量大於1，該主相機與所述輔相機具有多個視野重疊區域，其中該主相機與各所述視野重疊區域的距離總和小於任一所述輔相機與各所述視野重疊區域的距離總和。
如請求項1所述的方法，其中所述輔相機的數量大於1，該主相機與所述輔相機具有多個視野重疊區域，其中該實體場景中具有多個辨識物件，其中該主相機相對於所述辨識物件所需進行畫素座標轉換的總次數小於任一所述輔相機相對於各所述辨識物件所需進行畫素座標轉換的總次數。
如請求項1所述的方法，其中該主相機與所述輔相機為水平架設，其中該主相機的深度偵測極限為第一深度值，當該主相機與所述輔相機的鏡頭距離大於預設距離時，該主相機與所述輔相機的深度偵測極限為第二深度值，其中該第二深度值小於該第一深度值，其中該預設距離關聯於該第一深度值、該第二深度值以及該主相機的水平視野範圍。
一種處理裝置，連接至主相機以及至少一輔相機，包括：記憶體，用以儲存資料；以及處理器，用以：自該主相機以及所述輔相機接收針對實體場景進行影像擷取所分別產生的主影像以及至少一輔影像；針對該主影像以及所述輔影像進行影像疊合，以產生疊合影像，該疊合影像包括對應於該主相機的主區域以及對應於所述輔相機的輔區域；計算該疊合影像中的各個物件的位置資訊以及深度資訊，判斷位於該主區域以及該輔區域中的各所述物件的垂直座標、水平座標以及深度，其中所述物件包括位於該主區域中的第一物件；以及根據各所述物件的該位置資訊以及該深度資訊，判斷所述疊合影像中的所述物件之中是否具有相同物件，包括：判斷該輔區域中是否具有第二物件的垂直座標、深度以及水平座標分別與該第一物件的該垂直座標、該深度以及該水平座標符合垂直條件、深度條件以及水平條件；當符合該垂直條件、該深度條件以及該水平條件皆符合時，判定所述疊合影像中的所述物件之中具有相同物件；以及當該垂直條件、該深度條件以及該水平條件中的任一者不符合時，判定所述疊合影像中的所述物件之中不具有相同物件。
一種物件追蹤系統，包括：主相機，用以針對實體場景進行影像擷取，以產生主影像；至少一輔相機，用以針對該實體場景進行影像擷取，以產生至少一輔影像；以及處理裝置，連接至該主相機以及所述輔相機，用以：分別自該主相機以及所述輔相機取得該主影像以及所述輔影像；針對該主影像以及所述輔影像進行影像疊合，以產生疊合影像，該疊合影像包括對應於該主相機的主區域以及對應於所述輔相機的輔區域；計算該疊合影像中的各個物件的位置資訊以及深度資訊，判斷位於該主區域以及該輔區域中的各所述物件的垂直座標、水平座標以及深度，其中所述物件包括位於該主區域中的第一物件；以及根據各所述物件的該位置資訊以及該深度資訊，判斷所述疊合影像中的所述物件之中是否具有相同物件，包括：判斷該輔區域中是否具有第二物件的垂直座標、深度以及水平座標分別與該第一物件的該垂直座標、該深度以及該水平座標符合垂直條件、深度條件以及水平條件；當符合該垂直條件、該深度條件以及該水平條件皆符合時，判定所述疊合影像中的所述物件之中具有相同物件；以及當該垂直條件、該深度條件以及該水平條件中的任一者不符合時，判定所述疊合影像中的所述物件之中不具有相同物件。