TWI682326B

TWI682326B - 追蹤系統及其方法

Info

Publication number: TWI682326B
Application number: TW107125552A
Authority: TW
Inventors: 陳遠東; 游子杰
Original assignee: 宏達國際電子股份有限公司
Priority date: 2017-07-24
Filing date: 2018-07-24
Publication date: 2020-01-11
Also published as: US20190026904A1; EP3460756A1; TW201909030A; US10755422B2; CN109298778B; EP3460756B1; CN109298778A

Abstract

本揭示文件提出一種追蹤系統及方法。追蹤系統包含外觀具有特徵圖案之可追蹤裝置以及追蹤裝置。追蹤裝置包含光學感測模組，用以擷取涵蓋可追蹤裝置的第一影像。追蹤裝置還具有處理器，其耦接於光學感測模組。處理器係用以依據特徵圖案，在第一影像上擷取對應此特徵圖案的一關注區域，並在第一影像的關注區域中定位出複數個特徵區塊的區塊位置，其中每一特徵區塊包含該特徵圖案的一部分。處理器還根據此些區塊位置來計算可追蹤裝置的姿態資料。

Description

追蹤系統及其方法

本揭示文件係有關於追蹤系統及方法，特別是一種藉由分析影像來追蹤物件的追蹤系統及方法。

在習知的透過影像辨識的物件追蹤方法中，通常需要拍攝許多連續的影像，並辨識連續影像中的部分特徵來鎖定欲追蹤的物件。例如若欲追蹤的物件是具有特定發光頻率的特徵，則需要先拍攝連續的影像，並分別對此些影像進行影像辨識，再經由辨識的結果來評估物件的移動狀況。

然而，透過分析許多影像來對物件進行追蹤的作法，需要對每張影像分別進行識別。若影像的解析度越大，越不容易在影像上找到物件，造成物件追蹤的負擔。因此，如何降低追蹤物件時的負擔或成本實為相當重要的考量。

根據本揭示文件之一實施例，揭示一種追蹤系統，包含：一可追蹤裝置，外觀具有至少一特徵圖案；以及一追蹤裝置，包含：一光學感測模組，用以擷取包含該可追蹤裝置的一第一影像；以及一處理器，耦接於該光學感測模組，該處理器用以：依據該特徵圖案，在該第一影像中擷取對應該特徵圖案的一第一關注區域(region of interest)；在該第一關注區域中定位出複數個特徵區塊之複數個區塊位置，其中每一特徵區塊包含該特徵圖案的一部分；以及根據該些區塊位置，計算該可追蹤裝置之一第一姿態資料。

根據本揭示文件之一實施例，揭示一種追蹤方法，用於追蹤外觀具有至少一特徵圖案之一可追蹤裝置，該追蹤方法包含：擷取包含該可追蹤裝置的一第一影像；依據該特徵圖案，在該第一影像中擷取對應該特徵圖案的一第一關注區域；在該第一關注區域中定位出複數個特徵區塊之複數個區塊位置，其中每一特徵區塊包含該特徵圖案的一部分；以及根據該些區塊位置，計算該可追蹤裝置之一第一姿態資料。

為讓本揭示內容之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附符號之說明如下：

100‧‧‧追蹤裝置

110‧‧‧光學感測模組

120‧‧‧處理器

130‧‧‧通訊模組

200‧‧‧追蹤方法

300‧‧‧可追蹤裝置

310‧‧‧特徵圖案

320‧‧‧骨架

321a~321d‧‧‧特徵區塊

350‧‧‧可追蹤裝置

351‧‧‧慣性量測單元

353‧‧‧通訊模組

355‧‧‧發光模組

40‧‧‧追蹤系統

500‧‧‧使用者

610‧‧‧第一影像

611‧‧‧關注區域

612‧‧‧骨架

700‧‧‧追蹤方法

S210~240‧‧‧步驟

S221~S227‧‧‧步驟

以下詳細描述結合隨附圖式閱讀時，將有利於較佳地理解本揭示文件之態樣。應注意，根據說明上實務的需求，圖式中各特徵並不一定按比例繪製。實際上，出於論述清晰之目的，可能任意增加或減小各特徵之尺寸。

第1圖繪示根據本揭示文件一些實施例中追蹤系統在空間的環境示意圖。

第2圖繪示根據本揭示文件一些實施例中可追蹤裝置的示意圖。

第3圖繪示根據本揭示文件一些實施例中用於追蹤定位的特徵圖案的示意圖。

第4圖繪示根據本揭示文件一些實施例中一種追蹤系統的功能方塊圖。

第5圖繪示根據本揭示文件一些實施例中一種追蹤方法的步驟流程圖。

第6圖繪示由追蹤裝置擷取影像之畫面示意圖。

第7圖繪示根據本揭示文件另一些實施例中一種追蹤方法的步驟流程圖。

以下揭示內容提供許多不同實施例或實例，以便實施本發明之不同特徵。下文描述元件及排列之特定實例以簡化本發明。當然，該等實例僅為示例性且並不欲為限制性。本發明可在各實例中重複元件符號及/或字母。此重複係出於簡明性及清晰之目的，且本身並不指示所論述之各實施例及/或配置之間的關係。

請參閱第1圖，其繪示根據本揭示文件一些實施例中追蹤系統在空間的環境示意圖。如第1圖所示，環境中有追蹤裝置100以及可追蹤裝置300。追蹤裝置100設置在環境中，使用者500可手持可追蹤裝置300在三維空間中自由的移動。在移動的過程中，追蹤裝置100的光學感測模組110會擷取環境中的影像。在第1圖中，追蹤裝置100與光學感測模組110係顯示為分離的實體，實際上光學感測模組110亦可設置於追蹤裝置100上。可追蹤裝置300上設置有可供識別的特徵圖案310。特徵圖案310為經過特殊設計的圖案，以避免和空間環境中其他物件混淆，而能提高辨識度。在光學感測模組110擷取到影像後便會回傳至追蹤裝置100，由追蹤裝置100作影像識別。追蹤裝置100若判斷出影像中具有特徵圖案310，則可認定可追蹤裝置300目前在畫面中，據以接著對可追蹤裝置300作後續的追蹤操作。在一些實施例中，追蹤裝置100為可提供虛擬實境(virtual reality,VR)、擴增實境(augmented reality,AR)或混合實境(mixed reality,MR)的頭戴式裝置(head-mounted device)或頭戴式顯示器(head-mounted display)，由使用者500穿戴，而可追蹤裝置300為任何可穿戴於使用者500身上的控制裝置，如手持控制器或手套。在另一些實施例中，可追蹤裝置300可以用任何外觀上具有特徵圖案的物體替代，且其特徵圖案的部位為剛體(rigid body)，如此特徵圖案不致扭曲變形而無法辨識。

在一些實施例中，追蹤裝置100可設置一個以上的光學感測模組110。光學感測模組110可以是攝影機或照相機。舉例來說，追蹤裝置100設置四個攝影機的情況，此四個攝影機彼此相鄰設置，以分別擷取不同視野的影像。透過增加攝影機的數量，可以提升在環境中判讀到可追蹤裝置300的機會，縮短搜尋可追蹤裝置300的時程。

請參閱第2圖，其繪示根據本揭示文件一些實施例中可追蹤裝置300的示意圖。可追蹤裝置300上設置有一個或多個的特徵圖案310。特徵圖案310的數量，會影響對可追蹤裝置300在影像畫面中的搜尋效果。在可追蹤裝置300上設置越多個特徵圖案310，越容易在影像中擷取到特徵圖案310，使得更容易確認可追蹤裝置300在空間中的存在。在一些實施例中，該多個特徵圖案彼此不同，或是設置於可追蹤裝置300上具有差異點(例如大小、方位等不同)，以提高各特徵圖案的辨識度。

在另一些實施例中，在可追蹤裝置300上佈滿特徵圖案310，而形成一個大型的圖案，同樣可以提升對可追蹤裝置300的辨識成功率。

請參閱第3圖，其繪示根據本揭示文件一些實施例中用於追蹤定位的特徵圖案的示意圖。如第3圖所示之特徵圖案310是具有”hTCA”字樣的圖案，每個字樣內部的線條則為其骨架(skeleton)320。第3圖另顯示複數個較小的特徵區塊321a~321d，每一特徵區塊包含特徵圖案的一部分。此些特徵區塊321a~321d為彼此不同的區塊，或者是在整個特徵圖案310中獨一無二的區塊。

值得一提的是，特徵圖案310也可以是幾何圖案或與一般環境中物體或擺飾等等相異的圖樣，本揭示文件並不限制特徵圖案310的圖樣設計。在部分範例中，特徵圖案310必須具有一個以上(例如四個)彼此不相同的特徵區塊。特徵區塊的細節將於後面段落說明。

請參閱第4圖，其繪示根據本揭示文件一些實施例中一種追蹤系統40的功能方塊圖。如第4圖所示，追蹤系統40包含追蹤裝置100以及可追蹤裝置350。追蹤裝置100包含光學感測模組110、處理器120以及通訊模組130。追蹤裝置100 以及可追蹤裝置350執行如第1圖所示環境中的操作，即使用者500手持可追蹤裝置350在空間中自由的移動操作。請一併參閱第5圖，其繪示根據本揭示文件一些實施例中一種追蹤方法200的步驟流程圖。在步驟S210，光學感測模組110擷取第一影像。接著，在步驟S220中，處理器120會依據特徵圖案(例如第3圖所示的特徵圖案310)，在第一影像上擷取對應特徵圖案的關注區域(region of interest，ROI)。例如，處理器120可依據整個特徵圖案於第一影像中進行搜尋，以判斷第一影像是否包含該特徵圖案；若有包含，則從第一影像擷取包含該特徵影像的一關注區域。在一些實施例中，係使用如第3圖所示的特徵圖案310的骨架320來搜尋第一影像。由於骨架320所包含的像素數較特徵圖案310為少，因此可以加速影像的搜尋及比對，以更迅速地在第一影像中找到關注區域。

在另一些實施例中，追蹤方法200可以使用一第一深度學習演算法來決定第一影像的關注區域。舉例來說，在追蹤裝置100(如第1圖所示)具有多個攝影機的情況，在同一時間會擷取到多個第一影像。在執行到追蹤方法200的步驟S220時，各個第一影像上可能會擷取到零至多個的關注區域。例如，四個攝影機在同一時間擷取到四個第一影像，若在此四個第一影像上分別判斷有2個、2個、1個、0個關注區域，處理器120將此五個關注區域作為該第一深度學習演算法的輸入，經過判讀之後會得到一個最精確或信心值最高的關注區域。該第一深度學習演算法係事先經過訓練而得。於訓練過程中，利用大量經過標記(labeling)的影像(亦即標註影像是否包含特徵圖案)作為輸入，以訓練出深度學習模型所需的參數，最終建構出適用於判讀影像是否出現特徵圖案的深度學習演算法。

接著，執行步驟S230，處理器120在關注區域中判斷複數個特徵區塊(例如第3圖所示的特徵區塊321a~321d)，並在第一影像中定位出該等特徵區塊的複數個區塊位置。該等區塊位置可以為特徵區塊在第一影像的影像座標。此步驟所述的定位複數個區塊位置可以為先搜尋關注區域中的複數個特徵區塊，此些特徵區塊例如是前述的具有彼此不同特徵的影像區塊，由於關注區域的區塊大小(例如100x120)遠小於第一影像(例如1024x768)，在關注區域中搜尋更小的特徵區塊(例如20x20)，可以快速地計算出特徵區塊在第一影像上的所在位置。

接著，執行步驟S240，處理器120使用該等區塊位置來計算可追蹤裝置300的姿態資料。舉例來說，處理器120獲得了四個特徵區塊的四個影像座標，由於追蹤系統40具有光學感測模組110的內部參數(例如本身的三維座標)、四個特徵區塊的影像座標，則可使用一姿態估計演算法(pose estimation algorithm)如透視N點演算法(perspective n-point algorithm)，來推算出可追蹤裝置300在空間中的姿態資料，例如三軸位置(如相對於光學感測模組110的三軸座標)、偏航角度(Yaw)、傾斜角度(Pitch)、旋轉角度(Roll)、三軸旋轉角度之至少其一。

請參閱第6圖，其繪示由追蹤裝置100的光學感測模組110擷取第一影像610之畫面示意圖。此圖示以可追蹤裝置300上設置一個特徵圖案作為說明。在執行完如第5圖所示的步驟S220，處理器120依據特徵圖案612，在第一影像610上擷取對應特徵圖案612的關注區域611。獲得關注區域611之後，對於可追蹤裝置300的後續追蹤會鎖定在此關注區域611中，本揭示文件將說明如何在不同的影像中追蹤關注區域611，而不需要對於每個影像作完整的影像辨識。

請復參閱第4圖，可追蹤裝置350包含慣性量測單元351(inertial measurement unit，IMU)、通訊模組353以及發光模組355。慣性量測單元351耦接通訊模組353，慣性量測單元351感測可追蹤裝置350的三維空間中的動作而對應地產生動作訊號，而動作訊號透過通訊模組353被傳送，動作訊號由追蹤裝置100的通訊模組130所接收。慣性量測單元351可提供連續時間上三軸的加速度和角速度，其經過特定數學運算後可以表示可追蹤裝置350在一段時間區段內的移動與轉動，因此兩個時間點之間的移動與轉動狀況與加速度及角速度存在關連性。

第7圖繪示根據本揭示文件另一些實施例中一種追蹤方法700的步驟流程圖。請一併參閱第4圖，使用者手持可追蹤裝置350在空間中揮動，在步驟S210中，光學感測模組110對空間拍攝而擷取到第一影像。此步驟係與第5圖所示的步驟S210相同。

接著，執行步驟S221，取得光學感測模組110在擷取第一影像之前所擷取的第二影像，以及第二影像中對應特徵圖案的關注區域。第二影像是前一個時間點取得的影像訊框(frame)，例如在30Hz的幀率，第二影像就是取得第一影像之前1/30秒時取得的影像。而第二影像的關注區域即是在前一個時間點進行追蹤定位時所擷取之對應特徵圖案的區域。換言之，第一影像與第二影像為具有關注區域或特徵圖案的連續影像。

在步驟S222中，讀取可追蹤裝置350在第二影像與第一影像之擷取時間點間所產生的移動訊號。移動訊號可以是慣性量測單元351所產生的加速度與角速度訊號。接著，執行步驟S223，處理器120根據移動訊號與第二影像的關注區域來預估在第一影像中的一局部範圍，並依據特徵圖案或其骨架，在該局部範圍中搜尋關注區域。舉例來說，第二影像的關注區域為其中心點座標是在第二影像中的(576,488)，大小為100x120的小區塊。處理器120使用第二影像至第一影像之間的時間對加速度與角速度訊號分別進行二次積分與一次積分，可以獲得移動的位移量(translation)與轉動量(rotation)，再以此空間中的移動量進行映射轉換運算，以估算第二影像的關注區域經過移動量之後，會在第一影像的哪個位置，接著再依據此估算出來的位置設定出該局部範圍，以進行第一影像的關注區域之搜尋。如此，就不需在整張第一影像中進行搜尋，而大幅提升搜尋的速度及準確度。需注意的是，若因缺乏先前的有效定位資料，而無法獲取前一個時間點的第二影像及其關注區域，例如開機後首次進行定位或是發生追蹤失敗(lost tracking)的情形，仍需以整張第一影像為範圍來搜尋關注區域。

接著，執行步驟S224，處理器120依據可追蹤裝置350在第二影像的關注區域時的姿態資料以及移動訊號，來粗估可追蹤裝置350在第一影像的關注區域時的粗略姿態資料。此處稱之為粗略姿態資料，係因後續還會依據此粗略姿態資料，計算出更精確的姿態資料，下文將會詳述。可追蹤裝置350在第二影像的關注區域時的姿態資料，係由前一時間點的定位所產生，而根據前文，由移動訊號可算出第二影像至第一影像期間可追蹤裝置350的移動量(包含位移量與轉動量)，因此處理器120可根據此移動量及先前姿態資料(即可追蹤裝置350在第二影像的關注區域時的姿態資料)來粗估可追蹤裝置350在第一影像的關注區域時的粗略姿態資料。在一些實施例中，當無法獲取可追蹤裝置350先前在第二影像的關注區域時的姿態資料時，如前述的開機後首次定位或是發生追蹤失敗的情形，追蹤方法700可以使用一第二深度學習演算法來產生可追蹤裝置350的粗略姿態資料。第二深度學習演算法如同前述的第一深度學習演算法，亦為事先經過訓練而得。於訓練過程中，利用大量包含不同姿態之特徵圖案的影像作為輸入，以訓練出深度學習模型所需的參數，最終建構出適用於判讀影像中的特徵圖案為何種姿態的深度學習演算法。因此，若以第一影像中包含特徵圖案的關注區域為演算法的輸入，則第二深度學習演算法可輸出具最高信心值的對應姿態。

執行完步驟S224之後，處理器120已獲得可追蹤裝置350在第一影像時的粗略姿態資料，接著執行步驟S225，處理器120使用可追蹤裝置350在第一影像時的粗略姿態資料，於一姿態資料庫中進行比對，以獲得對應的一參考影像。在一些實施例中，該姿態資料庫中儲存多個預先產生的參考影像，每一個參考影像包含特徵圖案，且具有對應的姿態資料以及多個特徵區塊的區塊位置。舉例來說，處理器120以位移量與轉動量的至少其中一個值在姿態資料庫中尋找相同或最接近的一個或數個值，並取出此些值對應的參考影像，因此會取得一個或數個參考影像。

接著執行步驟S226，若取得複數個參考影像，則處理器120根據第一影像的關注區域(其包含特徵圖案)，從該等參考影像中選出一個最接近的影像。在一些實施例中，處理器120可執行一影像相似度演算法(image similarity algorithm)，將關注區域與該等參考影像進行詳細比對，以找出其中最相似的參考影像。在另一些實施例中，若從姿態資料庫中只取出一個參考影像，則處理器120同樣執行關注區域與參考影像的詳細比對，以確認取出的參考影像是正確的。

值得一提的是，本揭示文件提出的姿態資料庫的所有參考影像中，均具有複數個特徵區塊的區塊位置，也就是說，建置在姿態資料庫中的參考影像除了具有特徵圖案以外，也會具有正確的複數個特徵區塊的區塊位置。舉例來說，若參考影像有四個特徵區塊，則也會一併記錄此四個特徵區塊在影像中的精確影像位置。接著，在選擇出參考影像之後，執行步驟S227，處理器120以所選擇的參考影像的複數個特徵區塊之複數個區塊位置，計算可追蹤裝置350的姿態資料。相對於前文所述的粗略姿態資料，此處計算所得的姿態資料是更為精確的。在一些實施例中，處理器120係以該等區塊位置(如影像座標)使用一姿態估計演算法如透視N點演算法來計算該可追蹤裝置350的姿態資料。據此，本揭示文件的追蹤方法700可以在影像上快速取得多個特徵點及其影像位置，以用於計算可追蹤裝置350的精確姿態資料。

值得一提的是，本揭示文件的追蹤方法200以及追蹤方法700可以在每一個擷取的影像(或每一次同時擷取的多個影像)中就能計算出可追蹤裝置350(或可追蹤裝置300)的姿態資料，而不需要擷取兩個(或兩次)或以上的影像才能判斷姿態資料，如此就可較不受限於一般光學感應模組的低幀率，而提升以影像辨識進行追蹤定位的效率。

請復參閱第4圖，可追蹤裝置350包含發光模組355，以使光學感測模組110擷取到的第一影像會具有對應特徵圖案的發光圖案。例如，可追蹤裝置350外觀上的特徵圖案可製作成透光的，並將發光模組355設置於可追蹤裝置350內部，如此特徵圖案的部位即可透光，而形成對應特徵圖案的發光圖案。在一些實施例中，於前述追蹤方法200以及追蹤方法700中，當處理器120欲擷取對應特徵圖案的關注區域時，會先對第一影像執行二值化運算(thresholding)以獲得二值化影像。因此，處理器120可以在二值化影像上擷取具有發光圖案的關注區域。如此，藉由二值化運算可以讓關注區域的判斷(如第5圖的步驟S210)上更為快速。

綜上所述，本揭示文件的諸多實施例提供可快速識別追蹤物件的方法，首先透過特徵圖案或其骨架來初步判定影像中是否可能有追蹤到物件，接著，結合前一個影像定位所產生的關注區域與姿態資料以及物件的移動訊號，來預估下一個影像的關注區域以及粗略的姿態資料，並使用姿態資料庫來取得最正確的特徵區塊之區塊位置，不需要個別計算每一個影像特徵點的位置，即可快速地執行姿態估計運算而獲得精確的物件姿態。

上文概述若干實施例之特徵，使得熟習此項技術者可更好地理解本發明之態樣。熟習此項技術者應瞭解，可輕易使用本發明作為設計或修改其他製程及結構的基礎，以便實施本文所介紹之實施例的相同目的及/或實現相同優勢。熟習此項技術者亦應認識到，此類等效結構並未脫離本發明之精神及範疇，且可在不脫離本發明之精神及範疇的情況下產生本文的各種變化、替代及更改。