TWI467494B

TWI467494B - 使用深度圖進行移動式攝影機定位

Info

Publication number: TWI467494B
Application number: TW101101731A
Authority: TW
Inventors: Richard Newcombe; Shahram Izadi; David Molyneaux; Otmar Hilliges; David Kim; Jamie Daniel Joseph Shotton; Pushmeet Kohli; Andrew Fitzgibbon; Stephen Edward Hodges; David Alexander Butler
Original assignee: Microsoft Corp
Priority date: 2011-01-31
Filing date: 2012-01-17
Publication date: 2015-01-01
Also published as: JP2014511591A; US8711206B2; EP2671384B1; KR101896131B1; HK1171853A1; EP2671384A4; KR20140000315A; CN102609942B; CN102609942A; WO2012106068A3; US20120194644A1; JP5881743B2; AR084952A1; TW201234278A; WO2012106068A2; EP2671384A2

Description

使用深度圖進行移動式攝影機定位

本發明係關於使用深度圖進行移動式攝影機定位。

移動式攝影機定位涉及找到在其環境中移動的攝影機的位置和定向，並且對於如機器人、沉浸式遊戲、增強現實、架構、規劃、機器人、工程原型製作、車輛導覽、醫學應用和其他問題領域等許多應用是有用的。現有方案在精確度、穩健性和速度上受到限制。對於許多應用，需要即時地進行精確的攝影機定位，例如以使得機器人可以成功地在其環境中四處移動。

先前的許多移動式攝影機定位方法已經使用了彩色視訊攝影機而不是深度攝影機。通常彩色視訊攝影機提供高解析度和精確度，而豐富的色彩資訊允許在視訊圖像中偵測到視覺特徵。能從深度攝影機中獲得的資訊取決於環境的類型和所使用的深度攝影機的類型可能是有雜訊並且不精確的。深度攝影機擷取在本文中被稱為深度圖(depth map)的圖像，其中每個像素和從該深度攝影機到該攝影機的環境中的一個點的絕對和相對距離有關。與彩圖圖像相比，由於可用資訊的差異，偵測深度圖中的特徵可能更加困難。

先前的一些移動式攝影機定位方法已經涉及建立移動式攝影機的環境圖，同時追蹤攝影機相對於該圖的位置和定向。這被稱為同時定位和地圖構建(SLAM)。

以下描述的各實施例不限於解決已知的移動式攝影機定位系統的缺點中的任一個或全部的實現。

下文呈現了本發明的簡要概述，以便向讀者提供基本理解。本發明內容不是本發明的詳盡概述，並且不標識本發明的關鍵/重要元素，亦不描述本發明的範圍。其唯一的目的是以簡化形式呈現本文所揭示的概念選擇，作為稍後呈現的更詳細的描述的序言。

針對機器人、沉浸式遊戲、增強現實和其他應用描述了使用深度圖進行移動式攝影機定位。在一實施例中，在一環境中追蹤移動深度攝影機，同時使用所感測的深度資料形成該環境的3D模型。在一實施例中，當攝影機追蹤失敗時，藉由使用先前收集的關鍵框幅或以其他方式來偵測攝影機追蹤的失敗並重新定位攝影機。在一實施例中，藉由即時地將當前深度圖與該3D模型的特徵進行比較，偵測到移動式攝影機重新探訪一位置的迴路封閉(loop closure)。在一些實施例中，使用所偵測到的迴路封閉來改善該環境的3D模型的一致性和精確度。

結合附圖參考以下詳細描述，可更易於領會並更好地理解許多附帶特徵。

下文結合附圖提供的具體實施方式意欲作為本發明實例的描述，並不意欲表示可以構建或使用本發明實例的唯一形式。本描述闡述了本發明實例的功能，以及用於構建和操作本發明實例的步驟的序列。然而，可以藉由不同的實例來實現相同或等效功能和序列。

儘管本實例在本文中是使用從發出和擷取紅外光的移動深度攝影機獲得的深度圖像在即時攝影機追蹤系統中實現的，然而所描述的系統是作為實例而不是限制而提供的。本領域的技藝人士將會理解，本實例適於在各種不同類型的即時攝影機追蹤系統中應用，包括但不限於使用從立體攝影機獲得的深度資訊的系統和使用藉由發出和擷取其他類型的電磁輻射所獲得的深度資訊的系統。

術語「圖像元素」在本文中用於代表像素、像素群組、體素，或圖像的其他更高級別的分量。

術語「密集3D模型」在本文中用於代表包括物件和表面的三維場景的表示，其中該表示包括關於該場景的圖像元素的細節。相反，稀疏3D模型可包括物件的基於框幅的表示。可以按照減少儲存3D模型所需的冗餘和記憶體的方式來將密集3D模型轉換成諸如多邊形網格表示或其他表示等的稀疏3D模型。示例性密集3D模型可以是其中來自傳入深度圖的所有點或許多點被用於描述該環境中的表面的模型。稀疏模型將採用該等點的子集來使計算加速並減少記憶體佔用量。

圖1是站在一房間中並持有移動深度攝影機102的人100的示意圖，在本實例中移動深度攝影機102亦包括有投影儀，該投影儀將貓108的圖像投影到該房間中。該房間包含各種物件106，如椅子、門、窗、植物、燈和另一個人104。該等物件106中的許多物件是靜態的，但該等物件中的一些物件(諸如人104)可以移動。當人在該房間內四處移動時，該移動深度攝影機擷取圖像，即時攝影機追蹤系統112使用該圖像來監視該攝影機在該房間中的位置和定向。即時攝影機追蹤系統112可以與移動深度攝影機102整合，或可以處於另一位置，只要其能夠(直接或間接)接收來自移動深度攝影機102的通訊。例如，即時攝影機追蹤系統112可以在房間中的個人電腦、專用電腦遊戲裝置，或其他計算設備處提供，並與移動深度攝影機102進行無線通訊。在其他實例中，即時攝影機追蹤系統112可以處於建築物中的別處或處於使用任何合適類型的通訊網路與移動深度攝影機102進行通訊的另一遠端位置。移動深度攝影機102亦與該環境的密集3D模型110(在此情況下是該房間的3D模型)或該環境的另一類型的圖進行通訊。例如，當人在房間中四處移動時，移動深度攝影機102擷取到的圖像被用來形成和構建環境的密集3D模型。即時攝影機追蹤系統112可追蹤攝影機相對於環境的3D模型或圖110的位置。即時攝影機追蹤系統112的輸出和密集3D模型或圖110可由遊戲系統或其他應用軟體來使用，但此舉不是必要的。例如，移動深度攝影機102處的投影儀可被安排成取決於即時攝影機追蹤系統112的輸出和3D模型110來投影圖像。

圖2是建築物的層200的平面圖。持有移動深度攝影機204的人202正如虛線箭頭208所示在該層四處移動。此人沿走廊206走過各個房間和傢俱210。即時攝影機追蹤系統112能夠在移動深度攝影機204移動時追蹤移動深度攝影機的位置，並且形成該層的3D模型或圖。不必由人202來攜帶移動深度攝影機204並非必需。在其他實例中，移動深度攝影機204被安裝在機器人或運載工具上。此情況亦適用於圖1的實例。

圖3是與即時攝影機追蹤器316、密集模型形成系統324和可任選的遊戲系統332一起使用的移動環境感測器300的示意圖。移動環境感測器300包括被安排成擷取場景的深度圖像序列的深度攝影機302。每個深度圖像或深度圖框幅314包括二維圖像，在該二維圖像中每一圖像元素包括諸如從攝影機到所擷取的場景中的造成了該圖像元素的物件的長度或距離等的深度值。該深度值可以是以指定量測單位(如米或釐米)來提供的絕對值，或可以是相對深度值。在每一擷取到的深度圖像中，存在大約300000或更多個圖像元素，每一圖像元素具有深度值。框幅率足夠高而使得深度圖像能夠被用於工作機器人、電腦遊戲，或其他應用。例如，每秒至少20框幅。

深度資訊可以使用任何合適的技術來獲得，包括但不限於飛行時間、結構化光、立體圖像。在一些實例中，深度攝影機能夠將深度資訊組織為與沿該深度攝影機的視線延伸的Z軸垂直的Z層。

移動環境感測器300亦可包括被安排成以可由深度攝影機302查明深度資訊的方式來照亮該場景的發射器304。例如，在深度攝影機302是紅外(IR)飛行時間攝影機的情況下，發射器304將IR光發射到該場景上，並且深度攝影機302被安排成偵測從該場景中的一或多個物件的表面反向散射的光。在一些實例中，可以從發射器304發出脈衝紅外光，使得外出光脈衝與對應的傳入光脈衝之間的時間可由深度攝影機來偵測和量測，並被用來決定從環境感測器300到場景中的物件上的位置的實體距離。另外，在一些實例中，可將來自發射器304的出射光波的相位與在深度攝影機302處入射光波的相位進行比較來決定相移。隨後經由包括例如快門式光脈衝成像的各種技術藉由分析反射光束隨時間的強度來將相移用於決定從移動環境感測器300到各物件上的位置的實體距離。

在另一實例中，移動環境感測器300可使用結構化光來擷取深度資訊。在此種技術中，可使用發射器304將圖案化光(例如，顯示為諸如網格或橫條圖案等已知圖案的光)投影到場景上。在到達場景中的物件的表面之後，該圖案變形。深度攝影機302擷取圖案的此種變形並對其進行分析來決定從深度攝影機302到場景中的物件的絕對或相對距離。

在另一實例中，深度攝影機302包括一對立體攝影機，以便獲得並解析視覺立體資料來產生相對深度資訊。在此種情況下，發射器304可被用來照亮場景或可被省略。

在一些實例中，除深度攝影機302之外，移動環境感測器300包括被稱為RGB攝影機306的彩色視訊攝影機。RGB攝影機306被安排成在可見光頻率處擷取場景的圖像序列。

移動環境感測器300可包括定向感測器308，諸如慣性量測單元(IMU)、加速計、陀螺儀、指南針，或其他定向感測器308。然而，使用定向感測器不是必要的。移動環境感測器300可包括諸如GPS等位置追蹤設備，但此舉不是必要的。

移動環境感測器可包括上文參考圖1提到的投影儀312，但此舉不是必要的。

移動環境感測器亦包括一或多個處理器、記憶體、以及通訊基礎結構，如下文更詳細地描述的。

移動環境感測器可以在外殼中提供，該外殼的形狀和大小制定成由使用者手持或由使用者佩戴。在其他實例中，移動環境感測器的大小和形狀被制定成被包括或安裝在運載工具、玩具，或其他可移動裝置上。

移動環境感測器300連接到即時追蹤器316。該連接可以是實體有線連接或可以使用無線通訊。在一些實例中，移動環境感測器300經由諸如網際網路等一或多個通訊網路間接連接到即時追蹤器。

即時追蹤器316是使用控制一或多個平行計算單元(諸如圖形處理單元(GPUs)、向量機、多核處理器或其他平行計算設備)的通用微處理器來電腦實現的。其包括框幅對準引擎318並且可任選地包括迴路封閉引擎320和重新定位引擎322。即時追蹤器316從深度攝影機302獲得深度圖框幅314，並亦可任選地從移動環境感測器300獲得輸入，並獲得可任選圖資料334以及來自遊戲系統332的可任選資料。即時追蹤器可用於使深度圖框幅對準，以產生深度攝影機302的六自由度姿勢估計的即時系列328。其亦可以產生變換參數(亦稱為對準參數)以用於深度圖框幅的對之間的轉換。在一些實例中，即時追蹤器對來自深度攝影機的各對深度圖框幅314進行操作。在其他實例中，即時追蹤器216獲取單個深度圖框幅314並將其與該場景的密集3D模型326對準而非與另一深度圖框幅314對準。

例如，在一些實施例中，即時追蹤器316向密集3D模型形成系統324提供輸出，密集3D模型形成系統324使用該資訊以及深度圖框幅314來形成並儲存移動環境感測器300正在其中移動的場景或環境的密集3D模型。例如，在圖1的情況下，3D模型將是房間中的表面和物件的3D模型。在圖2的情況下，3D模型將是建築物的該層的3D模型。密集3D模型326可被儲存在GPU記憶體中，或以其他方式儲存。

移動環境感測器300可結合遊戲系統332來使用，遊戲系統332連接到顯示器330。例如，遊戲可以是高爾夫遊戲、拳擊遊戲、機車賽車遊戲，或其他類型的電腦遊戲。來自遊戲系統332的資料(如與遊戲相關的遊戲狀態或元資料)亦可被提供給即時追蹤器316。而且，來自即時追蹤器的資訊可以被遊戲系統332用來影響遊戲如何進行。來自3D模型的資訊亦可以被遊戲系統332用來影響遊戲如何進行。

可任選地，圖資料334對即時追蹤器316是可用的。例如，此圖資料334可以是架構師對該環境(例如，房間或建築物的層)的繪圖、該環境中已知的地標的位置、可從另一源獲得的該環境的地圖。

即時追蹤器的框幅對準引擎318被安排成將各對深度圖框幅對準，或將一深度圖框幅與來自密集3D模型的一深度圖框幅的估計對準。其使用迭代過程，該迭代過程是用一或多個圖形處理單元來實現的，以使框幅對準引擎即時操作。下文參考圖9提供關於框幅對準引擎的更多細節。

在一個實例中，即時追蹤器316及/或密集3D模型形成系統324所執行的處理可以離開移動環境擷取設備300的位置而遠端執行。例如，移動環境擷取設備300可被連接到(或包括)具有相對低處理能力並且經由通訊網路將深度圖像串流傳送到伺服器的計算設備。該伺服器具有相對高的處理能力，並且執行即時追蹤器316及/或密集3D模型形成系統324的在計算上複雜的任務。該伺服器可以逐框幅返回密集重構(dense reconstruction)的已渲染圖像以向使用者提供互動體驗，並且在模型完成時亦返回最終密集3D重構以供後續本端使用(例如，在遊戲中使用)。此種安排避免了使用者對擁有高能力本端計算設備的需要。

迴路封閉引擎被安排成偵測移動環境感測器何時按照迴路移動，使得當前深度框幅中圖示的場景至少部分與不是緊鄰的之前深度框幅的先前深度框幅的場景相重疊。當迴路封閉時，該移動環境傳感器重新探訪其之前探訪過的某處。例如，此操作可在使用者在圖2中的建築物的整層四處走動並再次到達起始點時發生。此操作亦可以在使用者在房間四處移動至某傢俱背後並再次出來到原始起始位置或接近該原始起始位置時發生。因此，迴路的大小將取決於移動環境感測器所處的環境並取決於應用域而改變。例如，在人在建築物的層四處走動的情況下(如在圖2中)，該迴路可能數十米長。在人在單個房間內四處移動的情況下(如在圖1中)，該迴路可以小於10米長。在玩具汽車上的機器人在兒童的玩具賽道上四處駕駛的情況下，該迴路可以小於1米長。偵測何時迴路封閉發生是有用的，因為此舉使得3D模型中累積的誤差能夠被標識。例如，移動環境感測器可以使所擷取的深度及/或彩色視訊圖像被標識為在迴路的開始或結束處，但是為彼等圖像中的每個圖像計算的攝影機位置和定向可能不是一致的。一旦該等誤差被標識，則可以減少該等誤差以改善該環境的3D模型或圖的精確度和一致性。而且，可以從攝影機追蹤的總誤差或誤定向(disorientation)中恢復。迴路封閉誤差可以被認為是包括局部化誤差和全域誤差兩者。全域迴路封閉誤差(亦被稱為漂移)包括隨著時間的攝影機的組合的6自由度姿勢估計中的誤差。局部化誤差可以在來自單個框幅或很大程度上重疊的框幅序列的攝影機的6自由度姿勢估計中出現。即時地精確偵測迴路封閉何時發生不是簡單直接的。一旦迴路封閉被偵測到，任何迴路封閉誤差將被標識並減少，而此舉難以在實現高品質結果的同時即時地實現。此外，可以以不同於局部迴路封閉誤差的方式來抵消或處置全域迴路封閉誤差。

重新定位引擎322被安排成處理以下情況：即時追蹤器失去移動環境感測器300的當前位置並且重新定位或再次找出當前位置。即時追蹤器可能由於許多原因而失去移動環境感測器300的當前位置。例如，快速攝影機運動、遮擋和運動模糊。在使用深度圖進行即時追蹤的情況下，在該環境具有很少的精細的細節並且包括主要是平面的表面的情況下，追蹤失敗亦可能發生。在使用結構化光發射器的深度攝影機的情況下，追蹤失敗可能在該環境包括高度反射性表面(諸如電腦螢幕)和產生很差的深度資訊的其他反射性表面時發生。若沒有偵測到追蹤失敗，則誤差的追蹤資訊有可能被用於遞增該環境的3D模型或圖。此舉可能導致該3D模型或圖的破壞。快速和精確的追蹤失敗偵測是有益的，因為其能被用於防止3D模型的損壞以及觸發追蹤恢復過程。

圖4是圖3的即時追蹤器316處的過程的流程圖。如下文參考圖9到圖13所述，使用框幅對準引擎318建立(400)即時攝影機追蹤。使用(402)深度圖框幅314和框幅對準引擎的輸出(對準參數和攝影機定向和位置)來細化移動環境感測器300在其中移動的環境的密集3D模型326。若偵測(404)到追蹤失敗，則移動環境感測器300的重新定位406發生，並且該過程在步驟402，同時隨著更多的深度圖框幅被擷取而遞增該密集3D模型。以此方式，一旦偵測到追蹤失敗，則暫停正在進行的攝影機追蹤和正在進行的3D模型的細化，直到重新定位成功。若偵測到(408)迴路封閉誤差，則修改該密集3D模型本身以考慮該誤差。在解決該迴路封閉誤差之後，該過程在步驟402繼續，同時遞增該密集3D模型。以此方式，當追蹤失敗發生時保留該環境的密集3D模型，並且其精確度和一致性因為偵測迴路封閉而被改善。

圖5是提供圖3的重新定位引擎322的更多細節的示意圖。其包括即時地操作的追蹤失敗偵測器500。追蹤失敗偵測器500可以包括閾值502，該閾值502是取決於所涉及的應用域而被預先配置的。例如，當該框幅對準引擎輸出的對準參數改變超過閾值量時，追蹤失敗可能發生。在另一實例中，當該框幅對準引擎的SE₃ 矩陣輸出在連續輸出間的改變超過閾值量時，追蹤失敗可能發生。當用於追蹤移動深度攝影機的位置和定向的迭代過程的收斂中發生失敗時，可以偵測到追蹤失敗。追蹤失敗偵測器500可以包括作為一或多個規則、準則、閾值或其他條件儲存的運動試探(heuristic) 504。例如，該運動試探可以是如下規則：移動環境感測器300正在以具有白色雜訊加速的恆定速度運動。來自框幅對準引擎的與此運動試探不一致的任何輸出可以觸發追蹤失敗。在另一實例中，該運動試探可以是：移動環境感測器300以隨機行走(random walk)移動，其具有被設定在普通人的行走速度的最大線性速度(在該移動環境感測器正在由使用者佩戴的情況下)且具有任意高的旋轉速度。來自框幅對準引擎的與此運動試探不一致的任何輸出可以觸發追蹤失敗。可以使用該等偵測追蹤失敗方式中的一或多個的任何組合。在一實例中，使用違反的三個態樣的組合來根據以下偵測追蹤失敗：違反運動試探、違反旋轉閾值及/或當用於追蹤移動深度攝影機的位置和定向的迭代過程的失敗由於無法收斂或以太大的殘留誤差收斂而發生。

追蹤失敗偵測器500可包括被安排成在該框幅對準引擎偵測到退化(degeneracy)(506)時偵測到追蹤失敗的元件。例如，如同下文描述的，該框幅對準引擎藉由使用一迭代過程來尋找各對深度圖之間的各對相應點，其中該迭代過程包括對誤差度量的最佳化。在最佳化誤差度量期間，當該最佳化過程無法提供任何解時，偵測到退化。例如，無法提供解可能是由於因環境中的反射性表面而不具有深度值的圖像元素、因為該環境高度平坦(若存在球形或柱形表面的話)，或由於其他原因。

該重新定向引擎亦包括重新定向過程508，該重新定向過程可以使用關鍵框幅或可以在沒有關鍵框幅的情況下操作。關鍵框幅是先前藉由即時追蹤器收集的或人工產生的深度圖或彩色視訊框幅。藉由找到是當前攝影機視圖的良好匹配的關鍵框幅來恢復追蹤，並且此舉提供了初始姿勢估計，追蹤可以從該初始姿勢估計重新開始。在一些情況下，關鍵框幅被邊緣化(marginalize)到SE₃ 矩陣中，並且此舉減少了記憶體要求。在需要時，藉由光線投射(ray casting)，可以從該密集3D模型恢復關鍵框幅點。

現在參考圖6提供重新定位過程508在沒有關鍵框幅的情況下操作的一實例。例如，使用移動環境感測器的運動模型，計算(600)攝影機姿勢的路徑分佈。此運動模型可以預測該移動環境感測器在一穩定延伸的球體內，該球體的中心在其最後已知位置附近並且具有任何定向。隨機地，或以任何其他方式，從該路徑分佈中選擇(602)取樣攝影機姿勢。隨後對所取樣的攝影機姿勢使用(604)該框幅對準引擎來將當前深度圖和先前的深度圖對準以獲得對準參數，如下文更詳細地描述的。若達到收斂(606)，亦即，若該等對準參數與最後已知位置一致，則該攝影機已被成功地重新定位(608)。否則，獲取另一取樣(602)並且該過程重複。

現在提供重新定位過程508在沒有關鍵框幅的情況下操作的另一實例。

向當前深度圖的各小塊(patch)和從該環境的3D模型獲得的複數個先前的深度圖的各小塊應用快速群集演算法(諸如隨機決策樹林)。藉由使用光線投射技術來呈現來自該3D模型的深度圖，或以任何其他方式，可以從該環境的3D模型獲得該等先前的深度圖。該隨機決策樹林中的每個蔓葉線節點均代表基元(texton)。基元是彩色圖像的紋理特徵，但是在本實例中使用的是深度圖，因此基元是深度圖的紋理特徵。隨機地，或以任何其他方式，選擇當前深度圖的複數個小塊。每個小塊是複數個毗鄰的圖像元素。亦從複數個先前深度圖中的每一個中選擇小塊。每個小塊被處理到隨機決策樹林的蔓葉線以標識該小塊的基元。隨後構築圖像中找到的所有基元的長條圖。

重新定位過程根據隨機決策樹林分類器輸出的基元的長條圖來選擇與當前深度圖類似的一先前深度圖。隨後用與所選的深度圖相關聯的攝影機姿勢作為當前攝影機姿勢並且重新定位該攝影機。離線訓練該隨機決策樹林群集演算法，或者在使用該即時追蹤器期間使用背景過程來訓練該隨機決策樹林群集演算法。

圖7是使用關鍵框幅進行重新定位的方法的流程圖。在即時追蹤期間收集(702)關鍵框幅並將其與該3D模型相關聯地儲存。例如，關鍵框幅是由移動環境感測器300處的RGB攝影機306擷取的彩色視訊框幅。在另一實例中，關鍵框幅是由深度攝影機302擷取的深度圖框幅314。每個關鍵框幅均具有相關聯的攝影機姿勢，該攝影機姿勢是在即時追蹤期間由框幅對準引擎318計算出來的。根據該攝影機姿勢，將每個關鍵框幅與3D模型326中的位置相關聯。例如，藉由對於該關鍵框幅在該3D模型中在由該攝影機姿勢所指定的位置處包括索引，將該關鍵框幅與3D模型相關聯地儲存。在一些實例中，將該3D模型儲存在GPU記憶體的一小格(cube)中，並且根據由該攝影機姿勢對於該關鍵框幅所指定的位置來將該關鍵框幅掛起在記憶體的此小格中。在一些情況下，關鍵框幅被儲存為其相關聯SE₃ 矩陣，並且此舉減少了記憶體要求。在需要時，藉由光線投射，可以從該密集3D模型恢復關鍵框幅深度點。

所收集的關鍵框幅的數量取決於可用的記憶體和處理能力，亦取決於應用域。然而，可以儲存數萬個關鍵框幅。使用隨機選擇、選擇每個第n個框幅、選擇包括先前未看到的視覺特徵的框幅、使用該等方法的組合，或以任何其他方式，來實現對作為關鍵框幅保存的框幅的選擇。在一實例中，該系統在各關鍵框幅之間等待最小數量的框幅，並且若一框幅與在平移和旋轉方面與任一現有關鍵框幅距離至少指定的量的攝影機姿勢相對應，則記錄該新的關鍵框幅。

當偵測到追蹤失敗(702)時，該重新定位引擎選擇(704)該關鍵框幅中與當前攝影機視圖(深度圖或RGB圖像)類似的關鍵框幅。該關鍵框幅和當前攝影機視圖之間的相似度的量測可以是任何適當類型的。例如，可以比較諸如邊緣、角落、團(blob)、線等特徵。亦可以使用相似度的其他量測，諸如把將物件分段過程(segmentation process)應用到該關鍵框幅和當前攝影機視圖的結果進行比較。在該等關鍵框幅是深度圖的情況下，可以將人類身體姿勢偵測器應用到該關鍵框幅和當前視圖並比較結果。可以向當前框幅和先前框幅應用幾何估計及/或語義圖像標記過程(諸如機器學習分類器)。隨後，有可能藉由選擇與當前框幅相比具有類似幾何(豎直和水平表面的安排和位置)及/或語義標記(物件的安排)的框幅來重新定位。

選擇關鍵框幅是複雜且耗時的任務，因為要遍歷搜尋如此多的關鍵框幅。在一些實例中，該搜尋是對位於最後已知攝影機位置附近的關鍵框幅進行的，隨後可以逐漸加寬搜尋空間，直到找到良好匹配。

一旦已選擇了關鍵框幅，則可使用(706)該關鍵框幅來提供初始姿勢估計，追蹤可以從該初始姿勢估計重新開始。

現在參考圖8來描述圖3的迴路封閉引擎320處的方法。迴路封閉偵測過程804從該環境的當前深度圖800和3D模型802取得輸入。在一些情況下，迴路封閉偵測過程804從RGB攝影機306所擷取的當前彩色圖像獲取輸入，儘管此舉不是必要的。迴路封閉偵測過程804使用任何適當的迴路封閉偵測方法，諸如特徵匹配過程806、詞袋過程808，或其他迴路封閉偵測過程。如同上文提到的，迴路封閉在移動環境傳感器重新探訪一位置時發生。詞袋過程能夠高效地辨識兩個圖像何時示出相同的場景，從而偵測到迴路封閉。詞袋過程(動態地或離線地)產生特徵描述符(例如，線、邊緣、角落、團、SIFT特徵、SURF特徵)的詞典並使用該詞典來標記在圖像中找到的特徵。隨後可以非常快速地將該等圖像進行比較以查看其是否具有許多共同的特徵，並因此可能是相同物件或位置的。特徵匹配過程是在不使用詞典的情況下標識兩幅圖像中相同的特徵的任何過程。

一旦偵測到迴路封閉，則任何迴路封閉誤差可被發現並可被考量。例如，迴路封閉標識該3D模型和當前深度圖具有相同的攝影機位置的部分。然而由於追蹤誤差，情況並非如此。此外，可以標識出迴路封閉誤差的類型。例如，該迴路封閉是全域的(諸如是對攝影機所估算的組合的6自由度姿勢中的漂移的結果)，還是該誤差是局部的(其是來自單個框幅或很大程度上重疊的框幅的序列的很差的6自由度姿勢估計的結果)。迴路封閉誤差可以是全域和局部迴路封閉誤差的組合。遵循迴路封閉程序812來減少此誤差並改善該3D模型的一致性和精確度。可以使用任何適當的迴路封閉程序，諸如最佳化能量函數。

圖9是圖3的框幅對準引擎318的更詳細的示意圖。框幅對準引擎908是在至少具有CPU和一或多個GPU的計算設備處實現的電腦。其包括迭代最近點過程912和可任選的平面提取組件910。迭代最近點過程使用投影資料關聯和點-到-平面誤差度量，如下文更詳細地描述的。該框幅對準引擎從深度攝影機接收當前深度圖900。該深度圖亦被稱為目的地深度圖。在一些實例中，其亦從深度攝影機接收源深度圖902，源深度圖902是先前的深度圖框幅。在其他實例中，該框幅對準引擎獲取該源深度圖的密集表面模型估計906。框幅對準引擎的輸出是變換的一組對準參數，用於將當前框幅和源框幅(或框幅估計)對準。在一些實例中，該等對準參數是作為SE₃ 矩陣形式的六自由度(6DOF)姿勢估計來提供的，該SE₃ 矩陣描述了深度攝影機302相對於真實世界座標的旋轉和平移。此變換矩陣可以被更加正式地表示為：

其中T_k 是深度圖像框幅k的變換矩陣，R_k 是框幅k的攝影機旋轉，t_k 是框幅k處的攝影機平移，而歐幾裡德群組SE ₃ :={R ,t |R SO₃ ,t □³ }。可以將攝影機空間中的座標(亦即，來自攝影機角度)藉由乘以該變換矩陣映射到真實世界座標。然而，對準參數可以以任何適當的形式提供。該等對準參數被即時追蹤器316用來產生該深度攝影機的6自由度姿勢估計的即時系列。

圖10是框幅對準引擎處的示例性迭代過程的流程圖。形成(1000)對準參數的初始估計。該等是用於將當前框幅和源框幅對準的變換的對準參數。該初始估計是用任何合適的方式形成的。例如，以下資訊源中的一或多個可被用來形成初始估計：遊戲狀態、遊戲元資料、圖資料、RGB攝影機輸出、定向感測器輸出、以及GPS資料。在另一實例中，藉由預測其中該攝影機正在使用關於該攝影機的先前運動路徑的資訊的情況來形成初始估計。例如，可假定該攝影機具有恆定的速度或恆定的加速度。可以使用攝影機從時刻0到時刻t-1的運動路徑來估計在時刻t攝影機將在何處，並因此獲得對準參數的估計。

使用初始估計，計算(1002)當前框幅和源框幅(深度圖或估計的深度圖)之間的各對相應點。一對相應點是來自來自一個深度圖的一點和來自另一深度圖的一點，其中彼等點被估計為產生自場景中的同一真實世界點。術語「點」在此處被用於指示像素，或一群組或一小塊相鄰像素。由於點的可能組合數量巨大，該對應性問題是非常困難的。藉由標識每個圖像中的諸如線、邊緣、角落等形狀隨後嘗試在各對圖像間匹配彼等形狀，前面的使用彩色或灰度圖像的方法已經解決了該問題。與之相對，本文描述的實施例標識相應的點而不需要在深度圖中尋找形狀。下文參考圖11提供了關於如何計算相應點的更多細節。計算(1004)對準參數的經更新的估計，其對被應用到所計算的相應點的誤差度量進行最佳化。

進行檢查以評估是否達到收斂(1006)。若達到，則經更新的估計中幾乎不存在改變或不存在改變，而輸出對準參數(1008)。若沒有達到，則該迭代過程重複，如圖10中所指示的。

參考圖11，現在提供有關如何計算各對相應點的更多細節。在一些實施例中，從當前深度圖和源深度圖中的任何一個或兩個採集(1100)取樣點，並且使用彼等取樣點作為從中尋找各對相應點的候選。取樣可以藉由隨機地選擇該等點的指定比例而實現。在另一實施例中，用考量該等點的表面法線的方式來實現取樣。例如，對於每個點計算出表面法線(如下文更詳細地描述的)並建立長條圖，該長條圖具有針對表面法線值的不同範圍的多個柱。如此進行取樣，以實現跨越各柱的均勻取樣。

藉由使用取樣，實現了減少計算成本的益處。然而，風險是當使用取樣時減少該過程的精確度和穩健性。此係因為取樣點可能不提供對從其採集取樣的深度圖的良好指示。例如，取樣可能使得該過程能夠找到該過程標識為解但是事實上卻表示局部最優解而不是全域最優解的一組相應點。

如上所述，使用任何取樣不是必要的。當使用所有可用點時，該過程亦是可行的，並且提供了很好的結果。在此情況下，本文描述的GPU實現允許該過程對於每個深度圖中的所有點即時地操作，該等點可能多達300000個或更多。在下文參考圖11描述的實例中，使用取樣描述該過程。然而，圖11的過程亦能夠在不執行取樣的情況下應用。

如圖11所指示的，計算(1102)取樣點(或者在不進行取樣的情況下的每個可用點)的表面法線。例如，對於給定點，藉由找出深度圖中的4個(或更多個)最接近的鄰居點並計算包括該等鄰居點及該點本身的表面小塊來實現該操作。隨後計算該表面小塊在該點的位置處的法線。

隨後接下來是尋找(1104)點的相應對的過程。現在在源深度圖和當前深度圖可用而不使用密集3D模型的情況下描述該操作。對於每個從源深度圖取樣的源點，從與該源深度圖相關聯的攝影機位置投影(1106)光線，該光線穿過被取樣的源點並投影到目的地深度圖中的目的地點上。在一些情況下，目的地點可以沿著所投影的光線位於被取樣的源點前方。該投影過程可被稱為「投影資料關聯」。隨後在目的地點周圍(且包括目的地點)搜尋(1108)候選相應點。例如，搜尋是針對具有與被取樣的源點的表面法線相相容的表面法線的點。若表面法線在彼此的指定範圍內並且該指定範圍在目的地點的指定歐幾裡德距離內，則稱該表面法線是相容的。例如，此指定範圍是使用者能夠配置的。

作為此搜尋的結果，找到了一或多個候選的相應點。從彼等候選相應點中選擇(1110)單個點來與源點形成一對。此種選擇是以距離度量為基礎作出的。例如，計算源點和該候選相應點中的每個點之間的歐幾裡德距離。隨後選擇提供最小歐幾裡德距離的那對點。隨後對於所取樣的源點中的每一個點，或者在不進行取樣的情況下對於源深度圖中的可用點中的每一個點，重複方塊1104的過程。

在一些實施例中，對各對相應點中的每一對賦予(1112)權重。例如，可以使用來自其他源(諸如RGB攝影機或其他感測器)的資訊來賦予權重。在一實例中，對於各對相應點中的每一對，計算與深度攝影機的量測特徵有關的權重並將其儲存。在應用誤差度量以改善結果的品質的過程期間，可以使用該等權重。

在一些實施例中，拒絕(1114)包括在深度圖的邊界上或邊界附近的點的對。此舉有助於避免兩個深度圖間只有部分重疊的情況下的誤差。亦可以使用其他準則來拒絕對。例如，在一些實施例中，執行如上面參考圖9的元件910所提到的平面提取。在該情況下，拒絕在平面上的對。

在一些實施例中，從深度攝影機所正在擷取的場景的密集3D模型中估計或預測源深度圖。在此情況下遵循圖12的方法。該場景的密集3D模型包括儲存在GPU記憶體中的場景的3D表面表示。亦可以使用其他儲存3D模型的方式。例如，該密集3D模型可以按照片-行-列的次序被儲存為線性陣列(下文提供了關於該點的更多細節)，可任選地具有一些填充(padding)以使得片和行對準某個記憶體區塊大小。可以使用其他儲存該3D模型的方式，諸如八叉樹、粗略-精細表示、基於網格的表示(諸如多邊形網格)。

現在提供關於密集3D模型被按照「片-行-列」的次序儲存在GPU上的情況的更多細節。在此情況下，該模型可以被儲存為用於表示3D體的記憶體位置的線性陣列。經由使用線性傾斜記憶體(linear pitched memory)將每個體素映射到記憶體陣列索引來實現該操作，該線性傾斜記憶體提供對儲存在該GPU記憶體上的資料的快速並行存取。

如上所述，藉由評估(1200)到取樣點的相鄰點，計算當前深度圖的取樣點的表面法線。對於所預測的源深度圖，對於每個所預測的取樣點，從該密集3D模型計算(1202)表面法線預測和表面位置預測。所預測的取樣點是來自該密集3D模型的與來自當前深度圖的取樣點處於同一像素位置處的點。此結果是藉由將光線投影到密集表面模型的體中完成的。該光線是從與當前深度圖相關聯的所估計的攝影機位置和定向投影的，並且穿過該3D模型的面上的與當前深度圖中的取樣點相對應的點而進入該3D模型。此情況在該3D模型被儲存為體表示的3D模型的情況下適用。在使用基於網格的表示儲存該3D模型的情形中，則此表示首先被投影以形成虛擬深度圖像表示。隨後該光線可被投影到該虛擬深度圖像表示中。藉由沿著該光線步進並評估表面密度函數以找到第一次從正到負的零跨越而找到沿著該光線的第一可見表面。沿著該光線從表面密度函數的交叉的估計找到相關聯的子像素世界點。在一個實例中，在提供三線性取樣的點在所偵測的零跨越的任一側上的情況下，使用簡單線性內插可以計算出沿光線的表面交叉點，以找到零出現處的子像素世界點。該子像素世界點被當作所預測的表面位置。為了找到此位置處的所預測的表面法線，使用三線性內插來尋找該表面密度函數梯度的有限差別。計算表面法線預測和表面位置預測的過程可以在GPU處實現，其中每個光線被並行處置。

對於每個所預測的取樣點(從該密集3D模型獲得)，遵循過程1204來標識當前深度圖中的相應點。此舉類似於圖11的過程1104。所預測的取樣點被投影(1206)到目的地深度圖(當前深度圖)中的目的地點上。隨後在目的地點周圍、對與該目的地點具有相容的表面法線的候選相應點進行搜尋(1208)。根據距離度量，從彼等候選相應點中選擇(1110)一點。例如，若一對點在彼此的指定歐幾裡德距離e1內並且該對點的表面法線之間的點積大於指定閾值e2，則該對點是相容的。參數e1和e2可以是使用者能夠配置的，或者可以在製造階段期間設置，由此根據經驗校準該設備以在特定設定中使用。

在一些情況下，對各對相應點賦予(1212)權重。在一些實施例中，若該對包括至少一個在深度圖邊界上或在邊界附近的點，則拒絕該對。在一實例中，對於各對相應點中的每一對，儲存與深度攝影機的量測特徵有關的權重。在應用誤差度量以改善結果的品質的過程期間，可以使用該等權重。

一旦例如使用圖11或圖12的過程標識了各對相應點，則計算並最小化誤差度量，且圖10的迭代過程重複。

在一實例中，對於各對相應點計算(1300)點-到-平面誤差度量，並且最佳化此度量以獲得經更新的對準參數。現在參考圖13描述此過程的一實例。該過程被設計為使用至少一個平行計算單元(諸如GPU)來實現，以獲得如現在述及之即時處理。

計算點-到-平面誤差度量可以被認為是計算(1302)從每個源點到包含該目的地點並且與該目的地點的近似表面法線垂直地定向的平面的平方距離的和。該過程設法最佳化此度量以尋找一組經更新的對準參數。解決此種類型的最佳化問題不是簡單直接的，而是通常需要大量的計算資源，從而使得此種類型的過程對於即時應用而言難以實現。現在描述賦能即時處理的使用並行處理單元(諸如GPU)的一種示例性實現。

各對相應點可被縮放和平移(1304)。此舉可以改善最佳化過程的穩定性，但是此操作不是必要的。

對於每一對相應點，在平行計算單元上形成(1306)包括複數個聯立方程的線性系統，以使用數值最小二乘最佳化來最佳化誤差度量。每個線性系統可以是6乘6矩陣的形式。在該平行計算單元上複數個矩陣可被簡化為單個6乘6矩陣。因為框幅率很高(例如，每秒20框幅或更多)，則對於任何兩個連續框幅之間的角度(攝影機定向的改變)進行小角度逼近是可能的。亦即，因為框幅率如此高，攝影機在框幅間將只移動了很小的量。藉由進行此種逼近，促進了系統的即時操作。

單個6乘6矩陣被傳遞給CPU(1308)並被求解以尋找經更新的對準參數。解被縮放並平移(1310)回去以逆轉1304的縮放和平移步驟。檢查(1312)解的穩定性並且該過程輸出經更新的對準參數1314。

在一實例中，使用下文的點-到-平面誤差度量，但是此舉不是必須的；亦可以使用其他誤差度量。

此誤差度量可用於獲得新的變換T _k 。現在提供關於所使用的符號的更多細節。深度攝影機D _k 的當前框幅k 提供圖像域u U中的圖像像素u =(x,y )處的經校準的深度量測d =D _k (u )。該等量測可以作為v _k (u )=(xd,yd,d ,1)被重新投影到攝影機的世界空間中(使用齊次座標)。因為來自該深度感測器的每一框幅是在規則網格上的表面量測，該系統亦可以計算相應的法線向量n _k (u )，該等法線向量是藉由相鄰的重新投影的網格點之間的有限差異來估計的。SE₃ 變換矩陣將時刻k 處的攝影機座標框幅映射到全域框幅g中，如。(法線向量的等效映射是。在全域座標系中該3D模型在時刻k 處的估計被表示為M _k ,M _k 可被儲存在本文述及之體表示中。藉由光線投射到先前框幅的攝影機姿勢T _k _-1 中，將傳入的深度框幅D _k 對照完全3D的經重構的模型M _k _-1 的先前框幅的估計來對準。此舉產生了所預測的圖像，或者等效地一組全域模型點和模型法線，其中i S是相應索引集。上文用於點到平面誤差度量的等式中的符號ρ^k 表示時刻k處的攝影機和模型點之間的保護性資料關聯映射。

在一實例中，被框幅對準引擎908標識的每對相應點可以在平行計算單元(諸如GPU)中被並行處理。因此，對於每對相應點，計算提供點-到-平面約束系統的算術運算式的線性系統。藉由作出小角度假定，藉由斜對稱矩陣R [α,β,γ ]_x 以及3元素的平移向量t ，可以使用一3向量的遞增旋轉來使該變換T 參數化。藉由將線性化的誤差度量的一階導數設為0，獲得線性系統。該點-到-平面約束系統表達了上文提到的點-到-平面誤差度量的最佳化。本計算在平行計算單元處對於每一對相應點並行進行。以此方式，將該誤差度量並行地應用到所標識的相應點中的每一個。使用樹簡化過程或估算算術運算式的其他適當方法來估算每對點的算術運算式。樹簡化過程是一種估算策略，藉由該估算策略，算術運算式被表示為樹結構，樹的節點表示算數運算而樹的葉節點表示值。藉由將估算的結果沿著樹的分支傳遞，按照根據樹的結構的次序估算該運算式。來自各並行過程的誤差度量最佳化過程的結果共同使得單個6乘6矩陣能被輸出。

圖14圖示示例性的基於計算的設備1404的各元件，該基於計算的設備1404可以任何形式的計算設備及/或電子設備來實現、並且其中可實現即時攝影機追蹤器的實施例。

基於計算的設備1404包括被安排成接收並處理來自諸如使用者輸入裝置(例如，擷取設備1406、遊戲控制器1405、鍵盤1407、滑鼠1409)的一或多個設備的輸入的一或多個輸入介面1402。此使用者輸入可被用於控制軟體應用或即時攝影機追蹤。例如，擷取設備1406可以是被安排成擷取場景的深度圖的移動深度攝影機。基於計算的設備1404可以被安排成提供該擷取設備1406的即時追蹤。

基於計算的設備1404亦包括被安排成向可與計算設備1404分開或整合在一起的顯示設備1408輸出顯示資訊的輸出介面1410。該顯示資訊可以提供圖形化使用者介面。在一實例中，若顯示設備1408是觸敏顯示設備，則其亦可擔當使用者輸入設備。輸出介面1410亦向除顯示設備之外的設備(例如，本端連接的列印設備)輸出資料。

可以使用基於計算的設備1404能夠存取的任何電腦可讀取媒體來提供電腦可執行指令。電腦可讀取媒體可以包括例如諸如記憶體1412等電腦儲存媒體和通訊媒體。諸如記憶體1412等電腦儲存媒體包括以用於儲存如電腦可讀取取指令、資料結構、程式模組或其他資料等資訊的任何方法或技術實現的揮發性和非揮發性、可移除和不可移除媒體。電腦儲存媒體包括但不限於，RAM、ROM、EPROM、EEPROM、快閃記憶體或其他記憶體技術、CD-ROM、數位多功能光碟(DVD)或其他光儲存設備、磁帶盒、磁帶、磁碟儲存器或其他磁儲存設備，或者可用於儲存資訊以供計算設備存取的任何其他非傳輸媒體。

相反，通訊媒體可以以諸如載波或其他傳輸機制等已調制資料信號來體現電腦可讀取取指令、資料結構、程式模組或者其他資料。如本文所定義的，電腦儲存媒體不包括通訊媒體。儘管在基於計算的設備1404中圖示電腦儲存媒體(記憶體1412)，然而應當理解，該儲存可以是分散式的或位於遠處並經由網路或其他通訊鏈路(例如，使用通訊介面1413)來存取。

基於計算的設備1404亦包括一或多個處理器1400，該一或多個處理器可以是微處理器、圖形處理單元(GPUs)、控制器，或用於處理計算可執行指令以控制設備的操作以便提供即時攝影機追蹤的任何其他合適類型的處理器。在一些實例中，例如在使用晶片上系統架構的實例中，處理器1400可以包括一或多個固定功能方塊(亦稱加速器)，該等方塊以硬體(而非軟體或韌體)來實現即時攝影機追蹤方法的一部分。

可以在基於計算的設備處提供包括作業系統1414或任何其他合適的平臺軟體的平臺軟體以使得能夠在該設備上執行應用軟體1416。可以在計算設備1404上執行的其他軟體包括：框幅對準引擎1418(例如，參見圖9到圖13及上文的描述)、迴路封閉引擎1420、重新定位引擎1422。提供資料儲存器1424來儲存資料，諸如先前接收的深度圖、對準參數、使用者可配置參數、其他參數、場景的3D模型、遊戲狀態資訊、遊戲元資料、圖資料和其他資料。

本文所使用的術語「電腦」代表帶有處理能力使得其可以執行指令的任何設備。本領域的技藝人士將認識到，此種處理能力被整合到許多不同的設備中，因此，術語「電腦」包括PC、伺服器、行動電話、個人數位助理和許多其他設備。

本文描述的方法可由有形儲存媒體上的機器可讀形式的軟體來執行，例如電腦程式的形式，該電腦程式包括在該程式在電腦上執行時適用於執行本文描述的任何方法的所有步驟的電腦程式代碼裝置並且其中該電腦程式可被包括在電腦可讀取媒體上。有形(或非瞬態)儲存媒體的實例可包括磁碟(disk)、拇指型驅動器、記憶體等，而不包括所傳播的信號。軟體可以適合於在並行處理器或連續處理器上執行，使得各方法步驟可以以任何適當的順序實現，或同時實現。

此舉確認了軟體可以是有價值的、可單獨交易的商品。其意欲包含執行於或者控制「啞」或標準硬體以實現所需功能的軟體。其亦意欲包含例如用於設計矽晶片，或者用於配置通用可程式設計晶片的HDL(硬體描述語言)軟體等「描述」或者定義硬體設定以實現期望功能的軟體。

本領域的技藝人士將認識到，用來儲存程式指令的儲存設備可以分佈在網路上。例如，遠端電腦可以儲存被描述為軟體的過程的實例。本端或終端電腦可以存取遠端電腦並下載軟體的一部分或全部以執行程式。或者，本端電腦可以根據需要下載軟體的片段，或在本端終端上執行一些軟體指令，並在遠端電腦(或電腦網路)上執行另一些軟體指令。本領域的技藝人士亦將認識到，藉由利用本領域的技藝人士已知的傳統技術，軟體指令的全部，或一部分可以藉由諸如DSP、可程式設計邏輯陣列等等之類的專用電路來實現。

如本領域技藝人士將清楚的，本文提供的任何範圍或者設備值皆可以被擴展或者改變而不失去所尋求的效果。

儘管用結構特徵及/或方法動作專用的語言描述了本標的，但可以理解，所附申請專利範圍中定義的標的不必限於上述具體特徵或動作。相反，上述具體特徵和動作是作為實現請求項的示例性形式揭示的。

可以理解，上文所描述的優點可以涉及一個實施例或可以涉及多個實施例。各實施例不限於解決問題中的任一個或全部的實施例或具有所述好處和優點中的任一個或全部的實施例。進一步可以理解，對「一個」項目的引用代表彼等項目中的一或多個。

本文所描述的方法的步驟可以在適當的情況下以任何合適的順序，或同時實現。另外，在不偏離本文所描述的標的的精神和範圍的情況下，可以從任何一個方法中刪除各單獨的方塊。上文所描述的任何實例的各態樣可以與所描述的其他實例中的任何實例的各態樣相結合，以構成進一步的實例，而不會丟失尋求的效果。

本文使用了術語「包括」意欲包括已標識的方法的方塊或元素，但是此種方塊或元素不構成排它性的清單，方法或裝置可以包含額外的方塊或元素。

可以理解，上文對一較佳實施例的描述只是作為實例提供並且本領域的技藝人士可以做出各種修改。以上說明、實例和資料提供了對本發明的各示例性實施例的結構和使用的全面描述。儘管上文以一定的詳細度或參考一或多個單個實施例描述了本發明的各實施例，但是，在不偏離本發明的精神或範圍的情況下，本領域的技藝人士可以對所揭示的實施例作出很多更改。

100．．．人

102．．．移動深度攝影機

104．．．另一個人

106．．．物件

108．．．貓

110．．．密集3D模型

112．．．即時攝影機追蹤系統

200．．．層

202．．．人

204．．．移動深度攝影機

206．．．走廊

208．．．虛線箭頭

210．．．房間和傢俱

300．．．移動環境感測器

302．．．深度攝影機

304．．．發射器

306．．．RGB攝影機

308．．．定向感測器

312．．．投影儀

314．．．深度圖框幅

316．．．即時追蹤器

318．．．框幅對準引擎

320．．．迴路封閉引擎

322．．．重新定位引擎

324．．．深度圖框幅

326．．．密集3D模型

328．．．六自由度姿勢估計的即時系列

330．．．顯示器

332．．．遊戲系統

334．．．圖資料

400．．．步驟

402．．．步驟

404．．．步驟

406．．．步驟

408．．．步驟

410．．．步驟

500．．．追蹤失敗偵測器

502．．．閾值

504．．．運動試探

506．．．偵測到退化

508．．．重新定向過程

600．．．步驟

602．．．步驟

604．．．步驟

606．．．步驟

608．．．步驟

702．．．步驟

704．．．步驟

706．．．步驟

800．．．當前深度圖

802．．．3D模型

804．．．迴路封閉偵測過程

806．．．特徵匹配過程

808．．．詞袋過程

812．．．迴路封閉程序

900．．．當前深度圖

902．．．源深度圖

906．．．密集表面模型估計

908．．．框幅對準引擎

910．．．平面提取組件

912．．．迭代最近點過程

1000．．．步驟

1002．．．步驟

1004．．．步驟

1006．．．步驟

1008．．．步驟

1100．．．步驟

1102．．．步驟

1104．．．步驟

1106．．．步驟

1108．．．步驟

1110．．．步驟

1112．．．步驟

1114．．．步驟

1200．．．步驟

1202．．．步驟

1204．．．過程

1206．．．步驟

1208．．．步驟

1212．．．步驟

1300．．．步驟

1302．．．步驟

1304．．．步驟

1306．．．步驟

1308．．．步驟

1310．．．步驟

1312．．．步驟

1314．．．經更新的對準參數

1400．．．處理器

1402．．．輸入介面

1404．．．基於計算的設備

1405．．．遊戲控制器

1406．．．擷取設備

1407．．．鍵盤

1408．．．顯示設備

1409．．．滑鼠

1410．．．輸出介面

1412．．．記憶體

1413．．．通訊介面

1414．．．作業系統

1416．．．應用軟體

1418．．．框幅對準引擎

1420．．．迴路封閉引擎

1422．．．重新定位引擎

1424．．．資料儲存器

根據附圖閱讀以下詳細描述，將更好地理解本發明，在附圖中：

圖1是房間中的持有移動深度攝影機的人的示意圖，該移動深度攝影機被用於即時攝影機追蹤並且可任選地亦產生該房間的3D模型或圖；

圖2是正由持有移動深度攝影機的人探測的建築物某層的平面視圖；

圖3是連接到即時攝影機追蹤系統、密集3D模型形成系統、以及遊戲系統的移動深度攝影機的示意圖；

圖4是即時追蹤器處的方法的流程圖；

圖5是重新定位引擎的示意圖；

圖6是不使用關鍵框幅的重新定位方法的流程圖；

圖7是使用關鍵框幅的重新定位方法的流程圖；

圖8是迴路封閉的方法的流程圖；

圖9是示例性框幅對準引擎的示意圖；

圖10是用於攝影機追蹤的迭代過程的流程圖；

圖11是圖5的迭代過程中用於計算相應點的對的部分的更多細節的流程圖；

圖12是用於使用來自密集3D模型的預測來計算相應點的對的過程的流程圖；

圖13是用於計算和最小化在圖10的迭代過程中使用的點-到-平面誤差度量的過程的流程圖；

圖14圖示可在其中實現攝影機定位系統的實施例的示例性的基於計算的設備。

在各個附圖中使用相同的元件符號來代表相同的部件。