TW202034215A

TW202034215A - 利用視訊資料映射物件實體

Info

Publication number: TW202034215A
Application number: TW108128722A
Authority: TW
Inventors: 約翰布蘭登麥克科馬克; 羅納德克拉克; 麥可布洛赫; 安德鲁戴維森; 史蒂芬勒特內哲
Original assignee: 英國帝國科技及醫學學院
Priority date: 2018-08-13
Filing date: 2019-08-13
Publication date: 2020-09-16
Also published as: JP2021534495A; CN112602116A; SG11202100469RA; KR20210042942A; US12062200B2; WO2020035661A1; US20210166426A1; GB2576322A; GB201813197D0; GB2576322B; EP3837667A1

Abstract

本發明提供一種方法，其包括將一物件辨識管線應用於視訊資料圖框。該物件辨識管線提供該等圖框中偵測到之物件之一遮罩輸出。該方法包含將該物件辨識管線之該遮罩輸出與相關聯於該等視訊資料圖框之深度資料融合以產生一物件實體映像，包含利用一攝影機姿勢估計及該深度資料將該遮罩輸出投影至該物件實體映像之一模型空間。該物件實體映像中之一物件實體係利用一三維物件體積內之表面距離度量值來定義，且具有指示該物件實體至該模型空間之一變換之一物件姿勢估計。該物件姿勢估計及該攝影機姿勢估計形成模型實體映像之一姿勢圖之節點。

Description

利用視訊資料映射物件實體

本發明係關於影像處理。特定而言，本發明係關於處理視訊資料圖框以產生一物件實體映像，其中物件實體對應於存在於一三維(3D)環境內之物件。本發明特定地但非排他地關於產生可由一機器人器件用來導航其環境及/或與其環境互動之一物件實體映像。

在電腦視覺及機器人領域中，通常需要構建一3D空間之一表示。構建一3D空間之一表示允許將一真實世界環境映射至一虛擬或數位場域，其中其可由電子器件利用及操縱。例如，在擴增實境應用中，一使用者可利用一手持型器件來與對應於一周圍環境中之實體之虛擬物件互動，或一可移動機器人器件可能需要一3D空間之一表示以允許同時定位及映射，且因此允許導航其環境。在諸多應用中，可能需要智慧型系統具有一環境之一表示以便將數位資訊源耦合至實體物件。此接著允許高級人機介面，其中環繞一人之實體環境變為介面。以一類似方式，此等表示亦可使高級機器世界介面能夠，例如使機器人器件能夠與一真實環境中之實體物件互動及操縱該等實體物件。

存在可用於構建一3D空間之一表示之若干技術。例如，運動恢復結構及多視立體視覺係兩種此等技術。諸多技術例如利用尺度不變特徵變換(SIFT)及/或加速穩健特徵(SURF)演算法自3D空間之影像提取特徵，諸如邊角及/或邊緣。接著可使此等經提取之特徵在影像間相關以建立一3D表示。此3D表示通常作為一3D點雲提供，即，作為3D空間之一經定義之體積內之一系列經定義之X、Y及Z座標。在特定情況下，在被稱為表面呈現之一程序中，可將一點雲轉換為用於在一顯示器上呈現之一多邊形網格。

一旦已產生一空間之一3D表示，便存在該表示之實用性之一進一步問題。例如，諸多機器人應用不僅需要空間內之點之一定義，而且需要關於什麼存在於空間中之有用資訊。此在電腦視覺領域中被稱為空間之「語意」知識。知道什麼存在於一空間內係潛意識地發生於人腦中之一程序；因而容易低估構建具有等效能力之一機器之難度。例如，當人類觀察一3D空間中之一物件(諸如一杯子)時，除核心視覺處理網路以外亦活化大腦之諸多不同區域，包含與本體感覺(例如，朝向物件之移動)及語言處理相關之區域。然而，諸多電腦視覺系統對一空間具有一非常天真之理解，例如一環境之一「映像」可被視為一3D影像，其中該影像中之可見點具有色彩資訊但缺少將點分段成離散實體之任何資料。

關於產生一3D空間之可用表示之研究仍處於初期階段。在過去，精力主要劃分在二維(2D)影像分類(例如「一場景之此影像是否含有一貓？」)與3D場景映射之相對單獨領域之間，諸如同時定位及映射(SLAM)系統。在後一類別中，設計可即時操作之有效映射系統亦存在一額外挑戰。例如，諸多既有系統需要離線操作大資料集(例如，隔夜或連續幾天內)。期望為真實世界應用即時提供3D場景映射。

如2017年2月IEEE/RSJ智慧型機器人及系統(IROS)會議議程中所述之N. Sünderhauf、T. T. Pham、Y. Latif、M. Milford及I. Reid之論文「Meaningful Maps With Object-Oriented Semantic Mapping」描述智慧型機器人必須如何理解其周圍場景之幾何及語意性質兩者以依有意義方式與其環境互動。如上文所述，其聲明迄今為止之大多數研究已單獨地解決此等映射挑戰(側重於幾何或語意映射)。在本論文中，其尋求建立包含語意上有意義之物件級實體及基於點或網格之幾何表示兩者之環境映像。已知物件類別之先前未見實體之幾何點雲模型與含有此等物件模型作為中心實體之一映像同時建立。所提出系統利用稀疏之基於特徵之SLAM、基於影像之深度學習物件偵測及3D無監督分段。雖然此方法有希望，但其利用由一ORB-SLAM路徑、一單次多盒偵測器(SSD)路徑及一3D分段路徑組成之一複雜之三通道影像處理管線，其中單獨路徑並行運行紅色、綠色、藍色(RGB)及深度(即，RGB-D)資料。作者亦指示，物件偵測存在特定問題，包含偽陰性偵測，即，系統通常無法映射既有物件。

在如2014年2月IEEE/RSJ智慧型機器人及系統(IROS)會議議程中所述之S. Choudhary、A. J. B. Trevor、H. I. Christensen及F. Dellaert之論文「SLAM with object discovery, modeling and mapping」中，描述一種用於在線物件發現及物件模型化之方法。一SLAM系統經擴展以利用經發現且經模型化之物件作為界標以幫助依一在線方式定位一機器人。此等界標被認為對偵測較大映像中之迴路閉合有用。除映像以外，系統亦輸出經偵測之物件模型之一資料庫以便用於未來SLAM或服務機器人任務中。此等方法自RGB-D資料產生一點雲，且對點雲執行連通分量分析(connected-component analysis)以依一無監督方式產生3D物件片段。描述所提出方法如何遭受偽陽性匹配，諸如由重複物件產生之匹配。

M. Rünz及L. Agapito之論文「MaskFusion: Real-Time Recognition, Tracking and Reconstruction of Multiple Moving Objects」描述一種被稱為「MaskFusion」之RGB-D SLAM系統。MaskFusion被描述為一即時視覺SLAM系統，其利用語意場景理解(利用Mask-RCNN)來映射及追蹤多個物件。然而，此論文解釋利用MaskFusion系統可能難以追蹤小物件。此外，未考量誤分類。

在給定既有技術之情況下，期望處理視訊資料以實現一三維空間中存在之物件之映射之可用且有效之方法。

根據本發明之一第一態樣，提供一種方法，其包括：將一物件辨識管線應用於視訊資料圖框，該物件辨識管線提供該等圖框中偵測到之物件之一遮罩輸出；及將該物件辨識管線之該遮罩輸出與相關聯於該等視訊資料圖框之深度資料融合以產生一物件實體映像，包含利用一攝影機姿勢估計及該深度資料將該遮罩輸出投影至該物件實體映像之一模型空間，其中該物件實體映像中之一物件實體係利用一三維物件體積內之表面距離度量值來定義，且具有指示該物件實體至該模型空間之一變換之一物件姿勢估計，其中該物件姿勢估計及該攝影機姿勢估計形成模型實體映像之一姿勢圖之節點。

在特定實例中，將該物件辨識管線之該遮罩輸出與相關聯於該等視訊資料圖框之深度資料融合包括：利用該攝影機姿勢估計估計物件實體之遮罩輸出；及比較該等經估計之遮罩輸出與該物件辨識管線之該遮罩輸出以判定是否在一視訊資料圖框中偵測到來自該物件實體映像之一物件實體。回應於該視訊資料圖框中之一既有物件實體之一缺失，將該物件辨識管線之該遮罩輸出與相關聯於該等視訊資料圖框之深度資料融合可包括：將一新物件實體添加至該物件實體映像；及將一新物件姿勢估計添加至該姿勢圖。將該物件辨識管線之該遮罩輸出與相關聯於該等視訊資料圖框之深度資料融合可包括：回應於一經偵測之物件實體，基於與該視訊資料圖框相關聯之影像及深度資料之至少一者更新該表面距離度量值。

在特定實例中，該三維物件體積包括一體素(voxel)集，其中不同物件實體在該物件實體映像內具有不同體素解析度。

在特定實例中，該等表面距離度量值係截斷帶正負號距離函數(TSDF)值。

在特定實例中，該方法包含：概率地判定一物件實體之該三維物件體積之部分是否形成一前景之部分。

在特定實例中，該方法包含：判定該物件實體映像中之一物件實體之一存在概率；及回應於判定該存在概率之一值小於一預定義臨限值，自該物件實體映像移除該物件實體。

在特定實例中，該遮罩輸出包括複數個經偵測之物件之二元遮罩及各自置信度值。在此等實例中，該方法可包括：在融合該遮罩輸出之前，基於該等置信度值過濾該物件辨識管線之該遮罩輸出。

在特定實例中，該方法包括：運算含有該等物件之一三維環境之一物件無關之模型；及回應於經偵測之物件之一缺失，利用該三維環境之該物件無關之模型來提供圖框至模型追蹤。在此等實例中，該方法可包含：追蹤相關聯於該等視訊資料圖框之影像及深度資料之至少一者與該物件無關之模型之間的一誤差；及回應於該誤差超過一預定義臨限值，執行重定位以將一當前視訊資料圖框與該物件實體映像對準，包含最佳化該姿勢圖。

根據本發明之一第二態樣，提供一種系統，其包括：一物件辨識管線，其包括用來偵測視訊資料圖框中之物件且提供該等圖框中偵測到之物件之一遮罩輸出之至少一個處理器；儲存定義一物件實體映像之資料之記憶體，該物件實體映像中之一物件實體係利用一三維物件體積內之表面距離度量值來定義；儲存定義該物件實體映像之一姿勢圖之資料之記憶體，該姿勢圖包括指示攝影機姿勢估計及物件姿勢估計之節點，該等物件姿勢估計指示該物件實體在一模型空間中之一位置及定向；及一融合引擎，其包括用來將該物件辨識管線之該遮罩輸出與相關聯於該等視訊資料圖框之深度資料融合以填充該物件實體映像之至少一個處理器，該融合引擎經組態以利用該姿勢圖之節點將該遮罩輸出投影至該物件實體映像之該模型空間。

在特定實例中，該融合引擎經組態以利用該等攝影機姿勢估計產生該物件實體映像內之物件實體之遮罩輸出，且比較該等經產生之遮罩輸出與該物件辨識管線之該遮罩輸出以判定是否在一視訊資料圖框中偵測到來自該物件實體映像之一物件實體。

在特定實例中，該融合引擎經組態以：回應於該視訊資料圖框中之一既有物件實體之一缺失，將一新物件實體添加至該物件實體映像且將一新節點添加至該姿勢圖，該新節點對應於該新物件實體之一經估計之物件姿勢。

在特定實例中，該系統包括記憶體，該記憶體儲存指示含有該等物件之一三維環境之一物件無關之模型之資料。在此等實例中，該融合引擎可經組態以回應於經偵測之物件實體之一缺失而利用該三維環境之該物件無關之模型來提供圖框至模型追蹤。在此等情況下，該系統可包含一追蹤組件，該追蹤組件包括用來追蹤相關聯於該等視訊資料圖框之影像及深度資料之至少一者與該物件無關之模型之間的一誤差之至少一個處理器，其中回應於該誤差超過一預定義臨限值，該模型追蹤引擎將最佳化該姿勢圖。

在特定實例中，該系統包含至少一個攝影機，該至少一個攝影機用來提供該等視訊資料圖框，各視訊資料圖框包括一影像分量及一深度分量。

在特定實例中，該物件辨識管線包括一基於區之卷積神經網路(RCNN)，具有用於預測影像分段遮罩之一路徑。

第二態樣之系統可經組態以實施本發明之第一態樣之任何特徵。

根據本發明之一第三態樣，提供一種機器人器件，其包括：至少一個擷取器件，其用來提供包括至少色彩資料之視訊資料圖框；如第二態樣之系統；一或多個致動器，其用來使該機器人器件能夠與一周圍三維環境互動；及一互動引擎，其包括用來控制該一或多個致動器之至少一個處理器，其中該互動引擎將利用該物件實體映像來與該周圍三維環境中之物件互動。

根據本發明之一第四態樣，提供一種包括電腦可執行指令之非暫時性電腦可讀儲存媒體，該等電腦可執行指令在由一處理器執行時致使一運算器件執行上文所描述之方法之任一者。

本發明之進一步特徵及優點將自參考隨附圖式所作、僅以實例方式給出之本發明之較佳實施例之下文描述而變得顯而易見。

在此所描述之特定實例使一周圍環境內之物件能夠基於含有該環境之觀察之視訊資料被映射。一物件辨識管線被應用於此視訊資料之圖框(例如呈一系列2D影像之形式)。物件辨識管線經組態以提供一遮罩輸出。遮罩輸出可以在一特定圖框中偵測到之物件之遮罩影像之形式提供。將遮罩輸出與相關聯於視訊資料圖框之深度資料融合以產生一物件實體映像。深度資料可包括來自一紅色、綠色、藍色深度(RGB-D)擷取器件之資料，及/或可自RGB影像資料運算(例如，利用運動恢復結構方法)。融合可包括利用一攝影機姿勢估計及深度資料將遮罩輸出投影至物件實體映像之一模型空間，例如判定與遮罩輸出相關聯之一3D表示，且接著基於經判定之3D表示更新一既有3D表示，其中3D表示係以物件為中心，即，針對各經偵測之物件定義。

本文中所描述之特定實例產生一物件實體映像。此映像可包括一物件實體集，其中各物件實體係利用一3D物件體積內之表面距離度量值來定義。各物件實體亦可具有指示物件實體至模型空間之一變換之一對應物件姿勢估計。表面距離度量值可指示至3D物件體積中之一表面之一正規化距離。物件姿勢估計接著指示如何變換3D物件體積以將其與模型空間對準。例如，一物件實體可被視為包括獨立於一模型空間之一3D表示及用來在模型空間內對準該表示之一變換。

本文中所描述之特定實例利用一姿勢圖來追蹤物件姿勢估計及攝影機姿勢估計兩者。例如，兩個估計集可形成姿勢圖之節點。攝影機姿勢估計指示一攝影機(即，一擷取器件)之一位置及定向如何隨著其繞周圍環境移動(例如隨著其移動且記錄視訊資料)而改變。可利用六個自由度(6DOF)來定義姿勢圖之節點。

利用本文中所描述之實例，可提供一種建立任意經重建物件之一持久且準確之3D圖映像之在線以物件為中心之SLAM系統。物件實體可經儲存為可用作環境之一映像表示之一可最佳化6DoF姿勢圖之部分。深度資料之融合可使物件實體能夠增量地細化，且經細化之物件實體可用於追蹤、重定位及迴路閉合偵測。藉由利用使用一3D物件體積內之表面距離度量值定義之物件實體，迴路閉合及/或姿勢圖最佳化致使物件姿勢估計之調整但避免物件內翹曲，例如避免3D物件體積內之表示之變形。

本文中所描述之特定實例使一3D環境之以物件為中心之表示能夠自視訊資料產生，即，利用表示一離散實體集之資料而非一3D座標系中之一點雲映射空間。此可被視為一場景中可觀察到之「偵測物件」：其中「偵測」指示基於表示3D環境之一觀察或量測之視訊資料產生對應於物理實體之離散資料定義(例如，不針對3D環境中不存在之物件產生離散實體)。在此，「物件」可指代具有一材料存在之任何可見事物或實體，例如一機器人可與其互動之事物或實體。一「物件」可對應於一人類可標記之物質之集合。在此，物件被廣泛地考量且尤其包含諸如一家庭、辦公室及/或外部空間中之牆壁、門、地板及人以及傢俱、其他器件及習知物件之實體。

如由本文中所描述之實例產生之一物件實體映像使電腦視覺及/或機器人應用能夠與一3D環境互動。例如，若一家用機器人之一映像包括識別一空間內之物件之資料，則機器人可將一「茶杯」與一「桌子」區分開。接著，機器人可應用適當致動器模式來抓住物件上具有經映射之物件實體之區域，例如使機器人能夠將「茶杯」與「桌子」分離地移動。

圖1A及圖1B示意性地展示一3D空間及與彼空間相關聯之視訊資料之擷取之一實例。圖1C接著展示經組態以在查看空間時產生視訊資料之一擷取器件。此等實例經提出以更好地解釋本文中所描述之特定特徵且不應被視為限制性；為便於解釋，已省略及簡化特定特徵。

圖1A展示一三維空間110之一實例100。3D空間110可為一內部及/或一外部實體空間，例如一房間或一地理位置之至少一部分。此實例100中之3D空間110包括定位於3D空間內之數個實體物件115。此等物件115可尤其包括以下項之一或多者：人、電子器件、傢俱、動物、建築物部分及設備。儘管圖1A中之3D空間110被展示為具有一下表面，但在所有實施方案中不需要係此情況，例如一環境可在空中或在地球外空間內。

實例100亦展示可用來擷取與3D空間110相關聯之視訊資料之各種實例擷取器件120-A、120-B、120-C (統稱為元件符號120)。一擷取器件(諸如圖1A之擷取器件120-A)可包括經配置以依數位或類比形式記錄由觀察3D空間110產生之資料之一攝影機。在特定情況下，擷取器件120-A係可移動的，例如可經配置以擷取對應於3D空間110之不同經觀察部分之不同圖框。擷取器件120-A可參考一靜態安裝而移動，例如可包括用來改變攝影機相對於3D空間110之位置及/或定向之致動器。在另一情況下，擷取器件120-A可為由一人類使用者操作及移動之一手持型器件。

在圖1A中，亦展示多個擷取器件120-B、120-C經耦合至經配置以在3D空間110內移動之一機器人器件130。機器人器件130可包括一自主空中及/或地面行動器件。在本實例100中，機器人器件130包括使該器件能夠導航3D空間110之致動器135。在圖解說明中，此等致動器135包括輪子；在其他情況下，其可包括軌道、穿隧(burrowing)機構、轉子等。一或多個擷取器件120-B、120-C可靜態地或可移動地安裝於此一器件上。在特定情況下，一機器人器件可靜態地安裝於3D空間110內，但該器件之一部分(諸如臂或其他致動器)可經配置以在空間內移動且與空間內之物件互動。各擷取器件120-B、120-C可擷取一不同類型之視訊資料及/或可包括一立體影像源。在一種情況下，擷取器件120-B可例如利用一遠端感測技術(諸如紅外線、超音波及/或雷達(包含光偵測及測距-LIDAR技術))擷取深度資料，而擷取器件120-C擷取光度資料，例如彩色或灰度影像(或反之亦然)。在一種情況下，擷取器件120-B、120-C之一或多者可獨立於機器人器件130移動。在一種情況下，擷取器件120-B、120-C之一或多者可經安裝於例如，以一成角度弧度旋轉及/或旋轉達360度之一旋轉機構上及/或經配置有適合光學件以擷取一場景之一全景(例如，高達一完整360度全景)。

圖1B展示一擷取器件120及/或一機器人器件130可用之自由度之一實例140。在一擷取器件(諸如120-A)之情況下，該器件之一方向150可與一透鏡或其他成像設備之軸共線。作為繞三個軸之一者旋轉之一實例，圖中展示一法線軸155。類似地，在機器人器件130之情況下，可定義機器人器件130之一對準方向145。此可指示機器人器件之一面向及/或一行進方向。亦展示一法線軸155。儘管僅參考擷取器件120或機器人器件130展示單個法線軸，但此等器件可繞如下文所描述之軸(示意性地展示為140)之任何一或多者旋轉。

更一般而言，一擷取器件之一定向及位置可參考六個自由度(6DOF)依三維定義：一位置可在三維之各者內(例如，由一[x, y, z]座標)定義，且一定向可由表示繞三個軸之各者之一旋轉之一角度向量定義，例如[θ_x , θ_y , θ_z ]。位置及定向可被視為三維內之一變換，例如相對於一3D座標系內定義之一原點。例如，[x, y, z]座標可表示自原點至3D座標系內之一特定位置之一平移，且角度向量 [θ_x , θ_y , θ_z ]可定義3D座標系內之一旋轉。具有6DOF之一變換可被定義為一矩陣，使得矩陣之乘法應用變換。在特定實施方案中，可參考此六個自由度之一受限集定義一擷取器件，例如針對一地面車輛上之一擷取器件，y維度可為恆定的。在特定實施方案(諸如機器人器件130之實施方案)中，耦合至另一器件之一擷取器件之一定向及位置可參考彼另一器件之定向及位置來定義，例如可參考機器人器件130之定向及位置來定義。

在本文中所描述之實例中，例如如一6DOF變換矩陣中所述之一擷取器件之定向及位置可被定義為擷取器件之姿勢。同樣地，例如如一6DOF變換矩陣中所述之一物件表示之定向及位置可被定義為物件表示之姿勢。一擷取器件之姿勢可能隨時間(例如當記錄視訊資料時)變化，使得一擷取器件可在一時間t+1 具有不同於在一時間t 之一姿勢。在包括一擷取器件之一手持型行動運算器件之一情況下，姿勢可隨著3D空間110內之一使用者移動手持型器件而變化。

圖1C示意性地展示一擷取器件組態之一實例。在圖1C之實例160中，一擷取器件165經組態以產生視訊資料170。視訊資料包括隨時間變動之影像資料。若擷取器件165係一數位攝影機，則此可直接執行，例如視訊資料170可包括來自一電荷耦合器件或互補金屬氧化物半導體(CMOS)感測器之經處理資料。亦可間接產生視訊資料170，例如透過處理其他影像源，諸如轉換類比信號源。

在圖1C中，影像資料170包括複數個圖框175。各圖框175可與擷取一3D空間(諸如圖1中之110)之影像之一時間週期內之一特定時間t 相關(即，F_t )。一圖框175通常由經量測之資料之一2D表示組成。例如，一圖框175可包括在時間t 之經記錄之像素值之一2D陣列或矩陣。在圖1C之實例中，視訊資料內之所有圖框175具有相同大小，但在所有實例中不需要係此情況。一圖框175內之像素值表示3D空間之一特定部分之一量測。

在圖1C之實例中，各圖框175包括兩種不同形式之影像資料之值。一第一值集與深度資料180 (例如，D_t )相關。深度資料可包括距擷取器件之一距離之一指示，例如各像素或影像元素值可表示3D空間之一部分距擷取器件165之一距離。一第二值集與光度資料185 (例如，色彩資料C_t )相關。針對一給定解析度，此等值可包括紅色、綠色、藍色像素值。在其他實例中，可利用其他色彩空間及/或光度資料185可包括單色或灰度像素值。在一種情況下，視訊資料170可包括一經壓縮之視訊串流或檔案。在此情況下，可自該串流或檔案重建視訊資料圖框，例如作為一視訊解碼器之輸出。在預處理視訊串流或檔案之後，可自記憶體位置擷取視訊資料。

圖1C之擷取器件165可包括經配置以擷取RGB資料185及深度(「D」)資料180兩者之一所謂RGB-D攝影機。在一種情況下，RGB-D攝影機經配置以隨時間擷取視訊資料。可在任何一個時間利用深度資料180及RGB資料185之一或多者。在特定情況下，RGB-D資料可利用四個或更多個通道組合於單個圖框中。深度資料180可藉由此項技術中已知之一或多種技術產生，諸如一結構光方法，其中一紅外線雷射投影儀在一三維空間之一經觀察部分上方投影一紅外光圖案，接著該紅外光圖案藉由一單色CMOS影像感測器而成像。此等攝影機之實例包含美國華盛頓州雷德蒙德微軟公司製造之Kinect®攝影機系列、台灣台北ASUSTeK電腦公司製造之Xtion®攝影機系列及美國加利福尼亞州庫比蒂諾蘋果公司之子公司PrimeSense製造之Carmine®攝影機系列。在特定實例中，一RGB-D攝影機可被併入至一行動運算器件中，諸如一平板電腦、膝上型電腦或行動電話。在其他實例中，一RGB-D攝影機可用作一靜態運算器件之一周邊裝置或可嵌入具有專用處理能力之一獨立器件中。在一種情況下，擷取器件165可經配置以將視訊資料170儲存於一耦合資料儲存器件中。在另一情況下，擷取器件165可將視訊資料170例如作為一資料串流或在逐圖框基礎上傳輸至一耦合運算器件。耦合運算器件可例如經由一通用串列匯流排(USB)連接直接耦合，或間接耦合，例如視訊資料170可透過一或多個電腦網路傳輸。在又一情況下，擷取器件165可經組態以跨一或多個電腦網路傳輸視訊資料170以儲存於一網路附接儲存器件中。視訊資料170可在逐圖框基礎上或在批量基礎上儲存及/或傳輸，例如複數個圖框可被捆綁在一起。深度資料180不需要依與光度資料185相同之解析度或圖框速率。例如，深度資料180可以低於光度資料185之一解析度來量測。亦可在視訊資料170用於稍後所描述之實例之前對視訊資料170執行一或多個預處理操作。在一種情況下，可應用預處理使得兩個圖框集具有一共同大小及解析度。在特定情況下，單獨擷取器件可分別產生深度及光度資料。本文中未描述之進一步組態亦係可能的。

在特定情況下，擷取器件可經配置以執行預處理以產生深度資料。例如，一硬體感測器件可產生視差資料或呈複數個立體影像之形式之資料，其中軟體及硬體之一或多者用來處理此資料以運算深度資訊。類似地，深度資料可替代地來自輸出可用來重建深度資訊之相位影像之一飛行時間攝影機。因而，可利用任何合適技術來產生如本文中之實例中所描述之深度資料。

圖1C係作為一實例提供，且如將明白，可利用不同於圖中所展示之組態之組態來產生視訊資料170以用於下文所描述之方法及系統。視訊資料170可進一步包括以表示一3D空間之一經擷取或經記錄視圖之一二維形式配置之任何經量測之感測輸入。例如，此可尤其包括深度資料或光度資料、電磁成像、超音波成像及雷達輸出之僅一者。在此等情況下，可能僅需要與特定形式之資料相關聯之一成像器件，例如不具有深度資料之一RGB器件。在上述實例中，深度資料D_t 圖框可包括一二維深度值矩陣。此可被表示為一灰度影像，例如其中具有一解析度x _R1 ×y _R1 之一圖框中之各[x, y ]像素值包括表示距三維空間中之一表面之擷取器件之一距離之一深度值d 。光度資料C_t 之圖框可包括一彩色影像，其中具有一解析度x _R2 ×y _R2 之一圖框中之各[x, y ]像素值包括一RGB向量[R, G, B]。作為一實例，兩個資料集之解析度可為640×480個像素。

圖2展示用於產生一物件實體映像之一實例系統200。圖2之系統包括一物件辨識管線210、一融合引擎220及記憶體230。物件辨識管線210及融合引擎220包括用來處理如本文中所描述之資料之至少一個處理器。物件辨識管線210及融合引擎220可藉由具有處理器之專用積體電路(例如特定應用積體電路(ASIC)或場可程式化閘陣列(FPGA))及/或通用處理器(諸如一或多個中央處理單元及圖形處理單元)實施。物件辨識管線210及融合引擎220之處理器可具有一或多個處理核心，其中處理經分佈遍及該等核心。物件辨識管線210及融合引擎220可經實施為例如具有用來發送及接收資料之外部介面之單獨電子組件，及/或可形成一共同運算系統之部分(例如，其處理器可包括一運算器件中之一組共同之一或多個處理器)。物件辨識管線210及融合引擎220可包括用來儲存電腦程式碼以供處理器執行以提供本文中所描述之功能之相關聯記憶體及/或持久性儲存裝置。在一種情況下，物件辨識管線210及融合引擎220可利用記憶體230來儲存待執行之電腦程式碼；在其他情況下，其可利用單獨記憶體。

在圖2中，物件辨識管線210經組態以偵測視訊資料圖框240中之物件且提供該等圖框中偵測到之物件之一遮罩輸出250。視訊資料可為如先前所描述之視訊資料，例如RGB或RGB-D資料。遮罩輸出可包括一影像集，其中各影像對應於由物件辨識管線250在一給定視訊資料圖框中偵測到之一物件。遮罩輸出可呈二元影像之形式，其中一值「1」指示一視訊資料圖框中之一像素被認為與一經偵測之物件相關聯，且一值「0」指示視訊資料圖框中之一像素不與一經偵測之物件相關聯。在其他情況下，遮罩輸出包括一或多個通道，例如各遮罩影像可包括一n 位元灰度值，其中該值表示一像素與一特定物件相關聯之一概率(例如，針對一8位元影像，一值255可表示一概率1)。在特定情況下，遮罩輸出可包括一O 通道影像，其中各通道表示O 個物件之一不同者；在其他情況下，可針對各經偵測之物件輸出不同影像。

融合引擎220經組態以存取記憶體230且更新儲存於記憶體230中之資料。在圖2中，記憶體230儲存定義一姿勢圖260之資料及定義一物件實體映像270之資料。雖然此等在圖2中被展示為包括兩個單獨資料實體，但其可形成一共同資料實體之部分，諸如一周圍環境之一映像或表示。記憶體可包括揮發性及/或非揮發性記憶體，諸如隨機存取記憶體或一硬碟機(例如，基於固態儲存或磁性儲存)。在使用時，定義完整姿勢圖260及物件實體映像270之資料可經儲存於揮發性記憶體中；在其他情況下，僅一部分可經儲存於揮發性記憶體中且此資料之一持久性副本可經維持於非揮發性儲存裝置上。記憶體230之組態將取決於應用及可用資源。

在圖2中，融合引擎220經組態以將物件辨識管線之遮罩輸出250與相關聯於視訊資料圖框240之深度資料融合以填充物件實體映像270。例如，融合引擎220可利用儲存於RGB-D視訊資料圖框之一深度通道(D)中之深度資料。替代地，融合引擎220可包括或可通信地耦合至經配置以自視訊資料圖框240產生深度資料之一深度處理器。融合引擎220經組態以利用姿勢圖260之節點將遮罩輸出250投影至物件實體映像之一模型空間。在此情況下，一「模型空間」可包括經定義以模型化視訊資料圖框240中具備之一周圍環境之一3D座標系。可任意地定義此模型空間之一原點。模型空間表示周圍環境之「世界」且可與各物件實體之「物件空間」形成對比。在本實例中，物件實體映像270包括對應於例如如由遮罩輸出250定義之周圍環境中偵測到之物件之一或多個離散實體之資料定義。可利用一3D物件體積(一「物件空間」)內之表面距離度量值定義物件實體映像中之一物件實體。接著亦可為一經偵測之物件定義一物件姿勢估計以將如物件空間中定義之物件映射至模型空間。例如，物件空間中之一定義可表示一物件之一預設位置及定向(例如，如定向於一平坦水平表面上之一「茶杯」)，且物件姿勢估計可包括將物件空間中之位置(position) (即，位置(location))及定向映射至周圍環境世界中之一位置及定向之一變換(例如，「茶杯」可在如視訊資料中觀察到之環境中旋轉、傾斜或倒置，且可相對地模型空間之一經定義原點平移，例如，在模型空間中具有反映相對於周圍環境中之其他物件之一位置(position或location)之一位置(position或location))。可將物件姿勢估計連同攝影機姿勢估計儲存為姿勢圖260之節點。隨時間推移，攝影機姿勢估計透過視訊資料圖框指示一擷取器件之一位置及定向。例如，可藉由在一環境(諸如一房間之內部)四處移動一擷取器件(諸如一RGB-D攝影機)來記錄視訊資料。因此，視訊資料圖框之至少一子集可具有表示在記錄圖框時擷取器件之位置及定向之對應攝影機姿勢估計。攝影機姿勢估計可能針對所有視訊資料圖框係不存在的，但可針對視訊資料之經記錄之時間範圍內之一時間子集來判定。

可利用至少兩個並行處理執行緒實施圖2之系統：一個執行緒實施物件辨識管線210且另一執行緒實施融合引擎220。物件辨識管線210操作2D影像，而融合引擎220操控物件之3D表示。因此，圖2中所展示之配置可被有效地提供且即時操作經獲得之視訊資料。然而，在其他情況下，視訊資料之處理之部分或全部可能不會即時發生。利用產生一遮罩輸出之一物件辨識管線實現與深度資料之簡單融合而無需無監督3D分段，此可能不如本文中實例之方法準確。由融合引擎220之操作產生之物件實體可與攝影機姿勢估計之一姿勢圖整合在一起，其中可在偵測到物件時將物件姿勢估計添加至姿勢圖。此使追蹤及3D物件偵測兩者能夠被組合，其中攝影機姿勢估計用來融合深度資料。例如當追蹤丟失時，亦可將攝影機姿勢估計及物件姿勢估計一起最佳化。

在一種情況下，基於由物件辨識管線210偵測到之物件初始化一物件實體。例如，若物件辨識管線210偵測一視訊資料圖框中之一特定物件(例如，「杯子」或「電腦」)，則其可輸出彼物件之一遮罩影像作為遮罩輸出250之部分。在啟動時，若無物件實體經儲存於物件實體映像270中，則可開始一物件初始化常式。在此常式中，可利用視訊資料圖框之一攝影機姿勢估計及例如來自一D深度通道之深度資料將來自經偵測之物件(例如，一2D座標空間中定義，諸如依680×480解析度)之遮罩影像之像素投影至模型空間中。在一種情況下，在一圖框k 之模型空間中(例如，在表示「W(世界)」之一3D座標系內)之點p _W 可例如依據以下方程式利用該圖框之一攝影機姿勢估計

、一內在攝影機矩陣K (例如，一3×3矩陣)、具有影像座標u=(u₁ , u₂ )之一第i個經偵測物件之一二元遮罩

及一深度映像

來運算：

因此，針對各遮罩影像，可映射模型空間中之一點集。此等點被認為與經偵測之物件相關聯。為了自此點集產生物件實體，可運算一體積中心。此可基於該點集之一中心來運算。該點集可被認為形成一點雲。在特定情況下，點雲之百分位可用來定義一體積中心及/或一體積大小。此例如避免來自遠端背景表面之干擾，該等干擾可能由一遮罩影像之一經預測邊界相對於一給定物件之一深度邊界未對準所致。此等百分位可針對各軸單獨地定義，且可例如被選擇為點雲之第10及第90百分位(例如，移除x、y及/或z軸中之底部10%值及頂部10%值)。因而，一體積中心可被定義為沿各軸之80%值之一中心，且體積大小係第90百分位與第10百分位之間的一距離。可將一填充因子應用於體積大小以考量侵蝕及/或其他因素。在特定情況下，可基於來自後續偵測之遮罩影像重新運算體積中心及體積大小。

在一種情況下，3D物件體積包括一體素集(例如，3D空間中之一規則柵格內之體積)，其中一表面距離度量與各體素相關聯。不同物件實體可具有不同解析度之3D物件體積。可基於物件大小設定3D物件體積解析度。此物件大小可基於上文所論述論述之體積大小。例如，若存在具有不同體積之兩個物件，例如在模型空間中含有點，則具有一較小體積之一物件可具有小於具一較大體積之一物件之一大小之體素。在一種情況下，可為各物件實體分配一初始固定解析度(例如，64×64×64)之一3D物件體積，且接著可藉由將一物件體積大小度量除以初始固定解析度來運算物件實體之一體素大小。此使小物件能夠依精細細節重建且使大物件能夠更粗略地重建。繼而，此使物件實體映像係記憶體有效的，例如在給定可用記憶體約束之情況下。

在上文所描述之特定情況下，可藉由基於經獲得之深度資料(諸如上述D^k )運算一3D物件體積之表面距離度量值來儲存一物件實體。例如，可如上文所描述般初始化一3D物件體積，且接著可將來自深度資料之表面量測儲存為3D物件體積之體素之表面距離度量值。因此，物件實體可包括數個位置處之一體素集。

作為其中表面距離度量包括一正規化截斷帶正負號距離函數(TSDF)值(參考圖4進一步描述)之一實例，可將TSDF值初始化為0。隨後，3D物件體積內之各體素可利用物件姿勢估計投影至模型空間中且接著利用攝影機姿勢估計投影至一攝影機圖框中。接著可比較此投影之後產生之攝影機圖框與深度資料，且基於該比較針對體素更新一表面距離度量值。例如，可自體素所投影至之像素之經量測深度(由深度資料表示)減去如投影至攝影機圖框中之體素之深度。此計算體素與物件實體表面之間的距離(其係例如一表面距離度量，諸如一帶正負號距離函數值)。若帶正負號距離函數比一預定截斷臨限值更深入至物件表面(諸如一深度值大於深度量測加上截斷臨限值)，則不更新表面距離度量值。否則，可利用自由空間中及剛好在表面內之體素來計算帶正負號距離函數值，該帶正負號距離函數值可經截斷至截斷臨限值以產生TSDF值。針對後續深度影像，可藉由對TSDF值求和且除以樣本數目來採取一加權平均方法。

因此，本文中所描述之特定實例提供一致物件實體映像且允許在真實、雜亂之室內場景中對先前未知形狀之眾多物件進行分類。特定描述之實例經設計以實現基於一模組化方法進行即時或近即時操作，其中模組用於基於影像之物件實體分段、資料融合及追蹤、及姿勢圖產生。此等實例允許產生側重於一場景內之顯著物件元素且實現可變、物件大小相依解析度之一長期映像。

圖3展示諸如可在定義圖2中之一姿勢圖260之資料內表示之一姿勢圖300之一實例。一姿勢圖係其節點對應於一物件之姿勢(其在不同時間點在一靜態場景或一攝影機中係時間不變的)且其邊緣表示姿勢之間的約束之一圖。約束可自環境之觀察(例如，自視訊資料)及/或由環境內之一機器人器件實行之移動動作(例如，利用測距)獲得。可藉由找到與由邊緣模型化之量測最一致之節點之一空間組態來最佳化一姿勢圖。

為便於解釋，圖3展示一小實例姿勢圖300。應注意，基於經獲得之資料之一實際姿勢圖可能會復雜得多。姿勢圖包括節點310、320及連接彼等節點之邊緣330。在圖3之實例中，各節點具有表示一攝影機或例如如由系統200偵測到之一物件之一位置及定向之一相關聯變換。例如，節點310與一第一攝影機姿勢估計C₁ 相關聯且節點320與一第一物件O₁ 之一物件姿勢估計相關聯。各邊緣330具有由Δ (增量)表示之約束(儘管為清楚起見，自圖3省略與除邊緣330以外之其他邊緣相關聯之約束)。可基於迭代最近點(ICP)誤差項判定一邊緣約束。可藉由比較連續攝影機姿勢估計及/或藉由比較攝影機姿勢估計及物件姿勢估計(例如，作為姿勢圖中之經連接節點)來定義此等誤差項。以此方式，一ICP演算法可用來將一輸入圖框與(例如，如儲存於姿勢圖中之)場景中之物件集之一當前模型對準。場景中之各物件之一最終姿勢可為姿勢圖之一當前狀態提供一量測誤差，且姿勢圖之最佳化可用來最小化量測誤差以提供一最佳當前姿勢圖組態。以此方式計算之量測誤差通常依賴於可利用ICP成本函數之一曲率(諸如一赫氏曲率或高斯-牛頓曲率(有時被稱為JtJ))來近似表示之一逆協方差。

在特定情況下，當物件辨識管線(諸如圖2中之210)偵測一物件且提供含有彼物件之資料之一遮罩輸出時，將一新攝影機姿勢估計作為一節點添加至姿勢圖300。類似地，當在物件實體映像中初始化一新物件實體時，可將一新物件姿勢估計作為一節點添加至姿勢圖。可關於附接至3D物件體積之一體積中心之一座標框架來定義一物件姿勢估計。物件姿勢估計可被認為係姿勢圖300中之界標節點，例如與「界標」相關聯之姿勢估計，即，對判定位置及定向有用之物件。姿勢圖中之各節點310、320可包括一6DOF變換。針對一攝影機姿勢估計，此變換可包括一「攝影機至世界」變換T_WC 且針對一物件姿勢估計，此可包括一6DOF「物件至世界」變換T_WO ，其中「世界」係由模型空間表示。該變換可包括一剛性之特殊歐幾里德群SE(3)變換。在此情況下，邊緣可包括可基於ICP誤差項判定之節點之間的SE(3)相對姿勢約束。在特定情況下，可利用定義為模型空間之原點之一固定第一攝影機姿勢估計初始化姿勢圖。

在操作中，融合引擎220可處理定義姿勢圖260之資料以便更新攝影機及/或物件姿勢估計。例如，在一種情況下，融合引擎220可最佳化姿勢圖以減小該圖之一總誤差，該總誤差經計算為在自攝影機至物件及自攝影機至攝影機之所有邊緣上方基於節點及邊緣值之姿勢估計轉變之一和。例如，一圖最佳化器可模型化對局部姿勢量測之擾動，且利用此等擾動來運算總誤差運算中例如連同基於一ICP誤差之一逆量測協方差利用之一資訊矩陣之賈可比(Jacobian)項。

圖4展示一物件實體之一3D物件體積410及穿過該體積之一相關聯2D切片之一實例400，其指示與該切片相關聯之一體素集之表面距離度量值。

如圖4中所展示，物件實體映像中之各物件實體具有一相關聯3D物件體積410。體素解析度(例如，其係物件體積410內之體素之數目)可固定於一初始值(例如，64×64×64)。在此等情況下，體素大小可取決於物件體積410，該物件體積410繼而取決於物件大小。例如，針對大小為1立方米且體素解析度為64×64×64之一物件，體素之大小可為0.0156立方米。類似地，針對大小為2立方米且體素解析度同為64×64×64之一物件，體素之大小可為0.0313立方米。換言之，與可更粗略地重建之較大物件相比，可依較精細細節(例如利用較小體素)重建較小物件。3D物件體積410被展示為一立方體積，但體積可變動及/或可為非規則形狀，此取決於組態及/或經映射之物件。

在圖4中，3D物件體積410內之一物件420之一範圍係由與該體積之體素相關聯之表面距離度量值定義。為了繪示此等值，圖中展示穿過3D物件體積410之一2D切片430。在此實例中，2D切片430延伸穿過物件420之中心且與具有一共同z空間值之一體素集440相關。在圖之右上方展示2D切片430之x及y範圍。在右下方，展示體素之實例表面距離度量值460。

在本情況下，表面距離度量指示距3D空間中之一經觀察表面之一距離。在圖4中，表面距離度量指示3D物件體積410之一體素是否屬於物件420外部之自由空間或屬於物件420內之經填充空間。表面距離度量可包括一正規化截斷帶正負號距離函數(TSDF)值。在圖4中，表面距離度量具有自1至-1之值。因而，切片430之值可被認為係一2D影像450。值1表示物件420外部之自由空間；而值-1表示物件420內之經填充空間。因此值0表示物件420之一表面。儘管為便於解釋而展示僅三個不同值(「1」、「0」及「-1」)，但實際值可為表示至表面之一相對距離之十進位值(例如「0.54」或「-0.31」)。亦應注意，負值或正值是否表示一表面外部之一距離係可在實施方案之間變動之一慣例。取決於實施方案，可截斷或可不截斷該等值；截斷意謂著超過一特定臨限值之距離經設定為「1」及「-1」之下限值或上限值。類似地，可應用或可不應用正規化，且可利用除「1」至「-1」以外之範圍(例如，針對8位元表示，值可為「-127至128」)。在圖4中，物件420之邊緣可藉由值「0」而看到，且物件之內部可藉由值「-1」而看到。在特定實例中，除一表面距離度量值以外，3D物件體積之各體素亦可具有供融合引擎220利用之一相關聯權重。在特定情況下，可每圖框設定權重(例如，來自一先前圖框之一物件之權重用來將深度資料與一後續圖框之表面距離度量值融合)。權重可用來以一加權平均方式融合深度資料。在如1996年ACM電腦圖形及互動技術第23次年度會議議程SIGGRAPH’96中發佈之Curless及Levoy之論文「A Volumetric Method for Building Complex Models from Range Images」(在適用的情況下以引入方式併入)中描述一種利用表面距離度量值及權重值融合深度資料之方法。在如2011年ACM使用者介面軟體及技術第24次年度ACM研討會中發佈之Newcombe等人之論文「KinectFusion: Real-Time Dense Surface Mapping and Tracking」(在適用的情況下以引入方式併入)描述涉及利用表面距離度量值及權重值融合深度資料之一進一步方法。

圖5展示由一物件辨識管線(諸如圖2中之物件辨識管線210)產生之遮罩輸出之一實例500。在圖之左上方，存在含有兩個物件525、530之一環境510。環境510係由一視訊攝影機520觀察。在圖之右上方，展示來自視訊攝影機520之RGB視訊資料535之一實例圖框。例如，此圖框可為具有各色彩通道之8位元色彩值之一640×480 RGB影像。圖框535作為輸入被提供至物件辨識管線。接著，物件辨識管線處理圖框535以產生包括一經偵測之物件集之各者之遮罩影像之一遮罩輸出。在本實例中，在圖之中間左側展示第一物件525之一第一遮罩影像540，且在圖之中間右側展示第二物件530之一第二遮罩影像560。在本情況下，遮罩影像係二元遮罩影像，例如像素具有兩個值之一者。遮罩影像540及560之像素值之一簡化實例在圖之底部被展示為各自柵格575及580。像素590之像素值585被展示為0或1 (例如，如形成一二元遮罩影像)，但取決於物件辨識管線之組態可為其他值。如可見，針對由物件525之偵測產生之遮罩影像540，像素值對於區域545被設定為1且對於區域550被設定為0，其中區域545指示經偵測之物件之一範圍。類似地，針對由物件530之偵測產生之遮罩影像560，像素值對於區域565被設定為1且對於區域570被設定為0，其中區域565指示經偵測之物件之一範圍。因此，來自物件辨識管線之遮罩輸出可被視為經偵測之物件之影像分段之一輸出。

遮罩輸出之組態可取決於實施方案而變動。在一種情況下，遮罩影像係相同於輸入影像之解析度(且例如可包括灰度影像)。在特定情況下，亦可由物件辨識管線輸出額外資料。在圖5之實例中，物件辨識管線經配置以亦輸出指示經偵測之物件之一置信度或概率之一置信度值595。例如，圖5展示物件辨識管線輸出物件525存在於圖框535中之一88%概率，而物件530存在於圖框535中之一64%概率。在實例中，物件辨識管線可替代地或另外輸出一經偵測之物件與一特定語意類別相關聯之一概率。例如，物件辨識管線可輸出物件525為一「椅子」之一88%概率、物件525為一「桌子」之一10%概率及物件525為一「其他」物件類型之一2%概率。此可用來判定一經偵測之物件之一類別。在一些情況下，在接受確實已偵測到一物件之前，比較相關聯於一特定語意類別之一物件之一概率或置信度與一臨限值(諸如一50%置信度)。亦可輸出經偵測之物件之一定界框(例如，影像空間中之一2D矩形之一定義)，其指示含有經偵測之物件之一區域。在此等情況下，可在定界框內計算遮罩輸出。

在特定實例中，物件辨識管線包括關於受監督(即，經標記)資料進行訓練之一神經網路，諸如一卷積神經網路。受監督資料可包括用於一物件集之影像及分段遮罩之對。卷積神經網路可為例如包括複數個層之一所謂「深度」神經網路。物件辨識管線可包括一基於區之卷積神經網路RCNN，具有用於預測影像分段遮罩之一路徑。K. He等人在2017 (1, 5)電腦視覺國際會議(ICCV)議程中發佈之論文「Mask R-CNN」(在適用的情況下以引入方式併入)中描述具有一遮罩輸出之一RCNN之一實例組態。可在開發時利用不同架構(以一「外掛(plug-in)」方式)。在特定情況下，物件辨識管線可獨立於一類別標籤概率向量輸出用於分段之一遮罩影像。在此情況下，類別標籤概率向量可具有針對不屬於一預定義類別之物件之一「其他」標籤。此等標籤接著可加旗標用於手動註釋，例如以添加至可用類別清單。

在特定情況下，可將視訊資料圖框(例如240、535)重新縮放至物件辨識管線之一原始解析度。類似地，在特定情況下，亦可重新縮放物件辨識管線之一輸出以匹配由一融合引擎利用之一解析度。除一神經網路方法以外或代替一神經網路方法，物件辨識管線可實施各種機器學習方法之至少一者，尤其包含：支援向量機(SVM)、貝葉斯網路、隨機森林、最近鄰叢聚法及類似者。一或多個圖形處理單元可用來訓練及/或實施物件辨識管線。

在一種情況下，一物件辨識管線以連續光度(例如RGB)影像(諸如圖1C中之光度資料185)之形式接收視訊資料圖框。在特定實例中，除光度資料以外或代替光度資料，物件辨識管線亦可經調適以接收深度資料，例如，深度影像，諸如圖1C中之180。因而，物件辨識管線可包括對應於RGB-D資料之各者之四個輸入通道。

可利用一或多個經標記之資料集訓練如本文中所描述之一物件辨識管線，即，其中已預先指派物件標籤之視訊資料圖框。例如，此一資料集包括N. Silberman等人在ECCV 2012中發佈之Indoor Segmentation and Support Inference from RGBD Images中所論述之NYU深度資料集V2。

在其中遮罩輸出包括用於複數個經偵測之物件之二元遮罩及各自置信度值(例如，諸如圖5中之590之值)之實例中，可在將遮罩輸出傳遞至一融合引擎以與深度資料融合之前過濾遮罩輸出。在一種情況下，可基於置信度值過濾遮罩輸出，例如可僅保留與前k 個置信度值相關聯之遮罩影像以供後續處理及/或可丟棄具有低於一預定義臨限值之一置信度值之遮罩影像。在特定情況下，過濾可基於例如如在預定數目個視訊資料圖框上方偵測到之一物件之複數個遮罩影像。在特定情況下，過濾可排除一影像邊緣或邊界之預定義數目個像素內之偵測。

返回至圖2且考量圖4之實例物件實體400及圖5中所展示之遮罩輸出575、580，在融合程序期間，圖2中之融合引擎220可經組態以利用姿勢圖260中之攝影機姿勢估計產生物件實體映像270內之物件實體之虛擬或合成遮罩輸出。例如，可利用基於物件實體映像270內之物件實體及給定圖框之一當前攝影機姿勢估計之光線投射來產生(即，呈現)給定視訊資料圖框之虛擬遮罩影像，例如其中物件實體係由如圖4中所展示之各自3D物件體積內之表面距離度量值表示。接著可比較此等經產生之虛擬遮罩輸出與物件辨識管線210之遮罩輸出250，以判定是否在一視訊資料圖框240中偵測到來自物件實體映像270之一既有物件實體。在特定情況下，比較包括評估物件辨識管線210之遮罩輸出250中之一遮罩影像與物件實體映像270中之物件實體之虛擬遮罩影像之一交叉。一既有物件之一偵測可基於具有一最大交叉之虛擬遮罩影像。比較亦可包括比較一交叉度量(例如，基於2D影像空間中之一重疊區域)與一預定義臨限值。例如，若一最大交叉具有低於預定義臨限值之一交叉度量，則來自物件辨識管線之遮罩影像可被認為未經指派。接著，未經指派之遮罩影像可觸發一物件初始化常式。因而，融合引擎220可經組態以回應於視訊資料圖框中之一既有物件實體之一缺失，將一新物件實體添加至物件實體映像270且將一新節點添加至姿勢圖260，新節點對應於新物件實體之一經估計之物件姿勢。

在特定情況下，可例如在具有或不具有上文所描述之遮罩匹配之情況下利用遮罩輸出內之物件標籤(即，類別)概率(例如，圖5中之置信度值595)，以匹配由物件辨識管線210偵測到之物件。例如，物件實體映像中之一物件實體可進一步包括可基於由物件辨識管線210輸出之物件標籤概率值更新之一物件標籤概率分佈。物件標籤概率分佈可包括其中各元素經映射至一物件標籤或識別符(例如，「杯子」或「C1234」)且儲存一概率值之一向量。因此，可藉由對概率分佈進行取樣或採取最高概率值來進行一物件標籤判定。在一種情況下，可利用貝葉斯方法更新一物件標籤概率分佈。在特定情況下，可藉由正規化及/或平均化由物件辨識管線輸出之每像素及/或每影像之物件標籤概率來判定物件標籤概率分佈。

在特定情況下，融合引擎220可進一步經調適以判定物件實體映像中之各自物件實體之存在概率。一存在概率可包括0與1(或0%及100%)之間的一值，其指示相關聯物件存在於周圍環境中之一概率。β分佈可用來模型化存在概率，其中該分佈之參數係基於物件偵測計數。例如，一物件實體可經投影以形成如上文所描述之一虛擬遮罩影像，且偵測計數可基於虛擬遮罩影像與形成遮罩輸出250之部分之遮罩影像之間的像素重疊。當儲存一物件實體之一存在概率時，則此可用來修剪物件實體映像270。例如，可監測物件實體之存在概率，且回應於判定存在概率之一值小於一預定義臨限值(例如，0.1)，可移除來自物件實體映像之相關聯物件實體。例如，該判定可包括採取存在概率之一期望值。移除一物件實體可包括自物件實體映像270刪除具有表面距離度量值之3D物件體積，且移除與物件之姿勢估計相關聯之姿勢圖之節點及邊緣。

圖6展示利用視訊資料映射一周圍環境或外界環境中之物件之一系統600之另一實例。系統600被展示為操作一視訊資料圖框605 F_t ，其中所涉及組件反覆地處理來自視訊資料之一圖框序列，該圖框序列表示隨時間之周圍環境之觀察或「擷取」。觀察不需要為連續的。正如圖2中所展示之系統200，系統600之組件可藉由由一或多個處理器、專用處理電路(諸如ASIC、FPGA或專用GPU)及/或兩者之一組合處理之電腦程式碼實施。系統600之組件可在單個運算器件(例如，一桌上型電腦、膝上型電腦、行動及/或嵌入式運算器件)內實施，或經分佈遍及多個離散運算器件(例如，特定組件可由一或多個伺服器運算器件基於透過一網路所作出之來自一或多個客戶端運算器件之請求來實施)。

圖6中所展示之系統600之組件被分組為兩個處理路徑。一第一處理路徑包括可類似於圖2之物件辨識管線210之一物件辨識管線610。一第二處理路徑包括可類似於圖2之融合引擎220之一融合引擎620。應注意，參考圖6所描述之特定組件，儘管參考物件辨識管線610及融合引擎620之一特定者描述，但在特定實施方案中可作為物件辨識管線610及融合引擎620之另一者之部分提供，同時維持圖中所展示之處理路徑。亦應注意，取決於實施方案，可省略或修改特定組件及/或添加其他組件，同時維持如本文中之實例中所描述之一般操作。在實際實施方案中，組件之間的互連亦為便於解釋而展示且可再次修改，或可存在額外通信路徑。

在圖6中，物件辨識管線610包括一卷積神經網路(CNN) 612、一過濾器614及一交疊率(Intersection over Union)(IOU)組件616。CNN 612可包括產生如先前所描述之一遮罩輸出之一基於區之CNN (例如，遮罩R-CNN之一實施方案)。可關於一或多個經標記之影像資料集訓練CNN 612。過濾器614接收呈各自經偵測之物件之一遮罩影像集及同一組經偵測之物件之一對應物件標籤概率分佈集之形式之CNN 612之一遮罩輸出。因此，各經偵測之物件具有一遮罩影像及一物件標籤概率。遮罩影像可包括二元遮罩影像。過濾器614可用來例如基於一或多個物件偵測度量(諸如物件標籤概率、與影像邊界之近接度及遮罩內之物件大小)過濾CNN 612之遮罩輸出(例如，可濾除低於X 像素² 之面積)。過濾器614可用來將遮罩輸出減小至一遮罩影像子集(例如，0至100個遮罩影像)，此協助即時操作及記憶體需求。接著，由IOU組件616接收包括一經過濾之遮罩輸出之過濾器614之輸出。IOU組件616存取基於一物件實體映像中之任何既有物件實體產生之經呈現或「虛擬」遮罩影像。由融合引擎620產生物件實體映像，如下文所描述。經呈現之遮罩影像可藉由利用物件實體(例如利用儲存於各自3D物件體積內之表面距離度量值)之光線投射來產生。經呈現之遮罩影像可針對物件實體映像中之各物件實體產生，且可包括用來匹配來自過濾器614之遮罩輸出之二元遮罩。IOU組件616可計算來自過濾器614之各遮罩影像與物件實體之經呈現之遮罩影像之一交叉。可選擇具有最大交叉之經呈現之遮罩影像作為一物件「匹配」，接著將彼經呈現之遮罩影像與物件實體映像中之對應物件實體相關聯。可比較由IOU組件616運算之最大交叉與一預定義臨限值。若最大交叉大於該臨限值，則IOU組件616輸出來自CNN 612之遮罩影像及與物件實體之關聯；若最大交叉低於該臨限值，則IOU組件616輸出未偵測到既有物件實體之一指示。接著將IOU組件616之輸出傳遞至融合引擎620。應注意，即使IOU組件616形成圖6中之物件辨識管線610之部分，例如因為其以基於CNN 612之一時序操作2D影像，所以在其他實施方案中，其可替代地形成融合引擎620之部分。

在圖6之實例中，融合引擎620包括一本端TSDF組件622、一追蹤組件624、一誤差檢查器626、一呈現器628、一物件TSDF組件630、一資料融合組件632、一重定位組件634及一姿勢圖最佳化器636。儘管為清楚起見未在圖6中展示，但在使用時，融合引擎620例如以類似於圖2之融合引擎220之一方式操作一姿勢圖及一物件實體映像。在特定情況下，可儲存單個表示，其中物件實體映像係由姿勢圖形成，且與物件實體相關聯之3D物件體積經儲存為姿勢圖節點之部分(例如，作為與該節點相關聯之資料)。在其他情況下，可針對姿勢圖及物件實體集儲存單獨表示。如本文中所論述，術語「映像」可指代物件實體之資料定義之一集合，其中彼等資料定義包含各自物件實體之位置及/或定向資訊，例如使得可記錄一物件實體相對於一經觀察環境之一位置及/或定向。

在圖6之實例中，與物件實體相關聯之表面距離度量值係TSDF值。在其他實例中，可利用其他度量值。在此實例中，除儲存此等值之一物件實體映像以外，亦利用周圍環境之一物件無關之模型。此由本端TSDF組件622產生及更新。物件無關之模型提供環境之一「粗略」或低解析度模型，該模型使追蹤能夠在缺失經偵測之物件之情況下執行。本端TSDF組件622及物件無關之模型可用於待觀察具有稀疏定位物件之一環境之實施方案。其可能不用於具有密集物件分佈之環境。如參考圖2之系統200所論述，定義物件無關之模型之資料例如以及姿勢圖及物件實體映像可經儲存於融合引擎620可存取之一記憶體中。

在圖6之實例中，本端TSDF組件622接收視訊資料圖框605且產生周圍(3D)環境之一物件無關之模型，以回應於經偵測之物件實體之一缺失而提供圖框至模型追蹤。例如，物件無關之模型可包括類似於3D物件體積之一3D體積，該3D體積儲存表示至如環境中形成之一表面之一距離之表面距離度量值。在本實例中，表面距離度量值包括TSDF值。物件無關之模型未將環境分段成離散物件實體；其可被認為係表示整個環境之一「物件實體」。物件無關之模型可為粗略的或低解析度的，在於可利用相對大尺寸之有限數目個體素來表示環境之事實。例如，在一種情況下，物件無關之模型之一3D體積可具有一解析度256×256×256，其中體積內之一體素表示環境中之一近似2 cm立方體。類似於圖2中之融合引擎220，本端TSDF組件622可判定物件無關之模型之3D體積之一體積大小及一體積中心。本端TSDF組件622可在接收進一步視訊資料圖框時更新體積大小及體積中心，以例如在攝影機已移動的情況下考量一經更新之攝影機姿勢。

在圖6之實例600中，物件無關之模型及物件實體映像被提供至追蹤組件624。追蹤組件624經組態以追蹤相關聯於視訊資料圖框605之影像及深度資料之至少一者與物件實體無關之模型及物件實體映像之一或多者之間的一誤差。在一種情況下，可藉由來自物件無關之模型及物件實體之光線投射來產生分層參考資料。參考資料可分層，因可以類似於影像編輯應用中之層之一方式獨立地存取基於物件無關之模型及物件實體之各者(例如，基於各物件實體)產生之資料。參考資料可包括一頂點映像、一法線映像及一實體映像之一或多者，其中各「映像」可呈基於一最近攝影機姿勢估計(例如，姿勢圖中之一先前攝影機姿勢估計)形成之一2D影像之形式，其中各自映像之頂點及法線例如參考一世界框架在模型空間中定義。頂點及法線值可被表示為此等映像中之像素值。接著，追蹤組件624可判定自參考資料映射至自一當前視訊資料圖框605 (例如，一所謂「實況」圖框)導出之資料之一變換。例如，可將時間t 之一當前深度映像投影至一頂點映像及一法線映像，且與參考頂點及法線映像進行比較。在特定情況下，雙邊過濾可應用於深度映像。追蹤組件624可利用一迭代最近點(ICP)函數將相關聯於當前視訊資料圖框之資料與參考資料對準。追蹤組件624可利用相關聯於當前視訊資料圖框之資料與自物件無關之模型及物件實體映像之至少一者導出之參考資料之比較來判定當前圖框之一攝影機姿勢估計(例如，

)。此可例如在重新計算物件無關之模型之前(例如在重定位之前)執行。最佳化ICP姿勢(及不變性協方差估計)可用作攝影機姿勢之間的一量測約束，該等攝影機姿勢各例如與姿勢圖之一各自節點相關聯。可在逐像素基礎上執行比較。然而，為了避免對屬於物件實體之像素給予過分權重，例如為了避免重複計數，可自攝影機姿勢之間的量測約束之最佳化省略已用來導出物件-攝影機約束之像素。

追蹤組件624輸出由誤差檢查器626接收之一誤差度量集。此等誤差度量可包括來自一ICP函數之一均方根誤差(RMSE)度量及/或有效追蹤像素之一比例。誤差檢查器626比較該誤差度量集與一預定義臨限值集以判定是否維持追蹤或是否待執行重定位。若待執行重定位，例如若誤差度量超過預定義臨限值，則誤差檢查器626觸發重定位組件634之操作。重定位組件634用來將物件實體映像與來自當前視訊資料圖框之資料對準。重定位組件634可利用各種重定位方法之一者。在一種方法中，可利用一當前深度映像將影像特徵投影至模型空間，且可利用影像特徵及物件實體映像應用隨機樣本一致性(RANSAC)。以此方式，可比較自當前圖框影像特徵產生之3D點與自物件實體映像中之物件實體導出(例如，自物件體積變換)之3D點。例如，針對一當前圖框中緊密地匹配物件實體映像中之一物件實體之一類別分佈(例如，具有大於0.6之一點積)之各實體，可執行3D-3D RANSAC。若數個非離群值(inlier)特徵超過一預定臨限值，例如一2 cm半徑內之5個非離群值特徵，則當前圖框中之一物件實體可被認為匹配映像中之一物件實體。若數個匹配物件實體達到或超過一臨限值(例如，3)，則可對在一5 cm半徑內具有最小50個非離群值特徵之所有點(包含背景中之點)再次執行3D-3D RANSAC，以產生一經修正之攝影機姿勢估計。重定位組件634經組態以輸出經修正之攝影機姿勢估計。接著，由姿勢圖最佳化器636利用此經修正之攝影機姿勢估計來最佳化姿勢圖。

姿勢圖最佳化器636經組態以最佳化姿勢圖以更新攝影機及/或物件姿勢估計。此可如上文所描述般執行。例如，在一種情況下，姿勢圖最佳化器636可最佳化姿勢圖以減小該圖之一總誤差，該總誤差經計算為在自攝影機至物件及自攝影機至攝影機之所有邊緣上方基於節點及邊緣值之姿勢估計轉變之一和。例如，一圖最佳化器可模型化對局部姿勢量測之擾動，且利用此等擾動來運算總誤差運算中例如連同基於一ICP誤差之一逆量測協方差利用之一資訊矩陣之賈可比項。取決於系統600之一組態，姿勢圖最佳化器636可經組態或可不經組態以在將一節點添加至姿勢圖時執行最佳化。例如，基於一誤差度量集執行最佳化可減小處理需求，此係因為每當將一節點添加至姿勢圖時不需要執行最佳化。姿勢圖最佳化中之誤差可能與追蹤中之誤差無關，該等誤差可由追蹤組件624獲得。例如，在給定一全輸入深度影像之情況下，由一姿勢組態之變化致使之姿勢圖中之誤差可相同於ICP中之一點至平面誤差度量。然而，基於一新攝影機姿勢重新計算此誤差通常涉及利用全深度影像量測及重新呈現物件模型，此可能在運算上係昂貴的。為了降低一運算成本，利用ICP誤差函數之赫氏產生之ICP誤差之一線性近似值可替代地在姿勢圖之最佳化期間用作姿勢圖中之約束。

返回至來自誤差檢查器626之處理路徑，若誤差度量在可接受界限內(例如，在操作期間或在重定位之後)，則呈現器628操作以產生經呈現之資料以供融合引擎620之其他組件利用。呈現器628可經組態以呈現深度映像(即，呈影像形式之深度資料)、頂點映像、法線映像、光度(例如，RGB)影像、遮罩影像及物件索引之一或多者。例如，物件實體映像中之各物件實體具有與其相關聯之一物件索引。例如，若映像中存在n 個物件實體，則物件實體可被標記為1至n (其中n 係一整數)。呈現器628可操作物件實體映像中之物件無關之模型及物件實體之一或多者。呈現器628可以2D影像或像素映像之形式產生資料。如先前所描述，呈現器628可利用光線投射及3D物件體積中之表面距離度量值來產生經呈現之資料。光線投射可包括利用一攝影機姿勢估計及3D物件體積來沿一給定步長內之經投影光線步進，且搜尋如由3D物件體積中之表面距離度量值定義之一零交叉點。呈現可取決於一體素屬於一場景之一前景或一背景之一概率。針對一給定物件實體，呈現器628可儲存具有一零交叉點之一最近交叉之一光線長度，且可不針對後續物件實體搜尋超過此光線長度。以此方式，可正確地呈現遮擋表面。若基於前景及背景偵測計數設定一存在概率之一值，則對存在概率之檢查可改良一環境中之重疊物件之呈現。

呈現器628輸出接著由物件TSDF組件630存取之資料。物件TSDF組件630經組態以利用呈現器628及IOU組件616之輸出初始化及更新物件實體映像。例如，若IOU組件616例如基於如上文所描述之一交叉輸出指示自過濾器614接收之一遮罩影像匹配一既有物件實體之一信號，則物件TSDF組件630擷取相關物件實體，例如儲存表面距離度量值(其在本實例中係TSDF值)之一3D物件體積。接著將遮罩影像及物件實體傳遞至資料融合組件632。此可針對形成例如如自過濾器614接收之經過濾之遮罩輸出之一遮罩影像集重複。因而，資料融合組件632可接收一遮罩影像集及一對應物件實體集之至少一指示或位址。在特定情況下，資料融合組件632亦可接收或存取與該遮罩影像集相關聯之一物件標籤概率集。資料融合組件632處之整合可包括針對由物件TSDF組件630指示之一給定物件實體且針對給定物件實體之一3D物件體積之一經定義體素，將體素投影至一攝影機圖框像素中，即，利用一最近攝影機姿勢估計，且比較經投影之值與視訊資料圖框605之一經接收深度映像。在特定情況下，若體素投影至具有小於一深度量測(例如，來自自一RGB-D擷取器件接收之一深度映像或影像)加上一截斷距離之一深度值(即，基於體素之一經投影TSDF之一經投影之「虛擬」深度值)之一攝影機圖框像素中，則可將深度量測融合至3D物件體積中。在特定情況下，除一TSDF值以外，各體素亦具有一相關聯權重。在此等情況下，可以一加權平均方式應用融合。

在特定情況下，可選擇性地執行此整合。例如，可基於一或多個條件執行整合，諸如當來自追蹤組件624之誤差度量低於預定義臨限值時。此可由誤差檢查器626指示。亦可參考視訊資料圖框執行整合，其中物件實體被認為可見。在一攝影機圖框漂移之一情況下，此等條件可有助於維持物件實體之重建品質。

在特定情況下，由資料融合組件632執行之整合可貫穿物件實體之3D物件體積執行，例如無論3D物件體積之一特定部分在投影為一遮罩影像時是否匹配物件辨識管線610之輸出。在特定情況下，可對一物件實體之3D物件體積之部分是否形成一前景之部分(例如，而非作為一前景之部分或一背景之部分)進行判定。例如，可基於來自遮罩輸出之一遮罩影像之像素與來自一經投影影像之像素之間的偵測或匹配，針對3D物件體積之各體素儲存一前景概率。在一種情況下，「前景」及「非前景」之偵測計數經模型化為一β分佈(例如，(α, β)形狀參數)，用(1, 1)初始化。當IOU組件616指示與一物件實體相關之一匹配或偵測時，資料融合組件632可經組態以基於來自遮罩輸出之一對應遮罩影像之一像素與來自一經投影之遮罩影像(例如，如由呈現器628輸出)之一像素之間的一比較更新一體素之「前景」及「非前景」偵測計數，例如，若兩個像素具有指示填充遮罩影像之一正值，則更新一「前景」計數，且若該等像素之一者具有指示影像中之一物件之缺失之一零值，則更新一「非前景」計數。此等偵測計數可用來判定一特定體素形成前景之部分之一期望值(即，一概率或置信度值)。可比較此期望值與一預定義臨限值(例如，0.5)以輸出關於一前景狀態之一離散決策(例如，指示體素是否被判定為前景之部分)。在一些情況下，不同物件實體之3D物件體積可至少部分地彼此重疊。因此，相同表面元素可與複數個不同體素相關聯(各體素與不同各自3D物件體積相關聯)，但在一些體素中可為「前景」且在其他體素中可為「非前景」。一旦由資料融合組件632融合資料，一經更新之物件實體映像便可用於融合引擎620 (例如，在各自3D物件體積中具有經更新之TSDF值)。接著，可由追蹤組件624存取此經更新之物件實體映像以用於圖框至模型追蹤。

圖6之系統600可反覆地操作視訊資料圖框605以隨時間建立一穩健物件實體映像連同指示物件姿勢及攝影機姿勢之一姿勢圖。接著，使物件實體映像及姿勢圖可用於其他器件及系統以允許導航經映射之環境及/或與經映射之環境互動。例如，來自一使用者之一命令(例如「把杯子遞給我」)可與物件實體映像內之一物件實體匹配(例如，基於一物件標籤概率分佈或3D形狀匹配)，且物件實體及物件姿勢可由一機器人器件用來控制致動器以自環境提取對應物件。類似地，物件實體映像可用來記錄環境內之物件，例如以提供一準確3D模型庫存。在擴增實境應用中，物件實體及物件姿勢連同即時攝影機姿勢可用來基於一即時視訊饋送準確地擴增一虛擬空間中之一物件。

圖6中所展示之系統600可應用於一RGB-D輸入。在此系統600中，諸如融合引擎620中之本端TSDF組件622、追蹤組件624及誤差檢查器626之組件允許初始化一粗略背景TSDF模型以用於本端追蹤及遮擋處置。若一姿勢充分地改變或系統看似已丟失，則可由重定位組件634執行重定位且可由姿勢圖最佳化器636執行圖最佳化。可執行重定位及圖最佳化以到達一新攝影機位置(例如，一新攝影機姿勢估計)，且可重設由本端TSDF組件622管理之粗略TSDF模型。當此發生時，物件辨識管線610可經實施為一單獨執行緒或並行程序。可由CNN組件612處理RGB圖框，且偵測可由過濾器614過濾且藉由IOU組件616與由物件TSDF組件630管理之既有物件實體映像匹配。當無匹配發生時，新TSDF物件實體係由物件TSDF組件630形成、定大小且添加至該映像以進行本端追蹤、全域姿勢圖最佳化及重定位。在未來圖框上，接著可將相關聯偵測連同物件標籤及存在概率一起融合至物件實體中。

因此，本文中所描述之特定實例使一RGB-D攝影機能夠瀏覽或觀察一雜亂室內場景且提供物件分段，其中物件分段用來初始化可具有一物件大小相依解析度之緊湊之每物件表面距離度量重建。實例可經調適使得各物件實體亦具有隨時間細化之類別內之一相關聯物件標籤(例如，「語意」)概率分佈，及考量虛假物件實體預測之一存在概率。

已對具有大量及各種物件實體之一雜亂辦公室場景之一手持型RGB-D序列測試本文中所描述之特定實例之實施方案。例如，此等測試利用一ResNet基礎模型用於對一室內場景資料集微調之物件辨識管線中之一CNN組件。在此環境中，此等實施方案能夠基於多個物件對準來閉合迴路且在重複迴路上充分利用既有物件(例如，其中「迴路」表示環境中之圓形或近圓形觀察路徑)。因此，此等實施方案被表明成功地且穩健地映射既有物件，從而在與特定比較方法相比時提供一改良。在此等實施方案中，一軌跡誤差被視為始終高於一基線方法，諸如一RGB-D SLAM基準。再者，當比較物件實體映像中之物件實體之3D呈現與公共實況模型時，觀察到良好、高品質物件重建。實施方案被視為具有高記憶體效率且適合在線即時利用。在特定組態中，可見記憶體利用與一3D物件體積之大小立方地縮放，且因此當一物件實體映像由所關注密集區域中之諸多相對小、高度詳細體積(而非適合最小物件之一解析度之環境之單個大體積)組成時獲得記憶體效率。

圖7展示根據一實例之用於映射物件實體之一方法700。在圖7中，方法700包括將一物件辨識管線應用於視訊資料圖框之一第一操作710。物件辨識管線可為分別如圖2及圖6中所展示之一管線210或610。應用物件辨識管線導致視訊資料圖框中偵測到之物件之一遮罩輸出。例如，物件辨識管線可應用於一圖框序列中之每個圖框或圖框之一經取樣子集(例如，每X 個圖框)。遮罩輸出可包括經偵測之物件之一2D遮罩影像集。可關於經標記之影像資料訓練物件辨識管線。在一第二操作720中，將物件辨識管線之遮罩輸出與相關聯於視訊資料圖框之深度資料融合以產生一物件實體映像。物件實體映像可包括環境內偵測到之各自物件之一3D物件體積集。此等3D物件體積可包括具有相關聯表面距離度量值(諸如TSDF值)之體積元素(例如體素)。可針對各物件實體定義一物件姿勢估計，該物件姿勢估計指示3D物件體積可如何映射至環境之一模型空間，例如自物件之一局部座標系(一「物件框架」)至環境之一全域座標系(一「世界框架」)。此映射可藉由一物件姿勢估計進行，例如物件在環境中之一位置及定向之一指示。此可藉由一變換來定義，諸如一6DOF變換。融合可涉及包含利用一攝影機姿勢估計及深度資料將遮罩輸出投影至物件實體映像之模型空間。例如，此可包括基於一3D物件體積及攝影機姿勢估計呈現一「虛擬」遮罩影像，且比較此與來自遮罩輸出之一或多個遮罩影像。在方法700中，物件姿勢估計及攝影機姿勢估計形成模型實體映像之一姿勢圖之節點。此使姿勢圖能夠相對於攝影機移動以及物件位置及定向兩者一致。

在特定情況下，將物件辨識管線之遮罩輸出與相關聯於視訊資料圖框之深度資料融合包括：利用攝影機姿勢估計來估計物件實體之遮罩輸出，且比較經估計之遮罩輸出與物件辨識管線之遮罩輸出以判定是否在一視訊資料圖框中偵測到來自物件實體映像之一物件實體。例如，此係參考上述IOU組件616進行描述。回應於視訊資料圖框中之一既有物件實體之一缺失，例如若在遮罩輸出中未找到一特定遮罩影像之匹配，則可將一新物件實體添加至物件實體映像且可將一新物件姿勢估計添加至姿勢圖。此可在姿勢圖中形成一界標節點。回應於一經偵測之物件實體，可基於與視訊資料圖框相關聯之影像及深度資料之至少一者更新一物件實體之表面距離度量值。

在特定情況下，一物件實體可包括定義一前景概率、一存在概率及一物件標籤概率之一或多者之資料。此等概率可被定義為接著經評估以判定一概率值(例如，藉由取樣或採取一期望值)之概率分佈。在此等情況下，方法700可包括概率地判定一物件實體之三維物件體積之部分是否形成一前景之部分，及/或判定物件實體映像中之一物件實體之一存在概率。在後一種情況下，回應於判定存在概率之一值小於一預定義臨限值，可自物件實體映像移除一物件實體。

在特定情況下，例如如上文所描述，遮罩輸出包括複數個經偵測之物件之二元遮罩。遮罩輸出亦可包括置信度值。在此等情況下，該方法可包括在融合遮罩輸出之前基於置信度值過濾物件辨識管線之遮罩輸出。

在特定情況下，可運算含有物件之一三維環境之一物件無關之模型。例如，此係至少參考上文所描述之本端TSDF組件622來解釋。在此情況下，三維環境之物件無關之模型可用來在缺失存在於一圖框或場景中之經偵測之物件的情況下提供圖框至模型追蹤，例如在其中物件姿勢估計不能用於追蹤之情況下及/或在具有稀疏分佈物件之情況下。可追蹤相關聯於視訊資料圖框之影像及深度資料之至少一者與物件無關之模型之間的一誤差，例如如至少參考誤差檢查器626所解釋。回應於一誤差超過一預定義臨限值，可執行重定位，例如如至少參考重定位組件634所解釋。此使一當前視訊資料圖框能夠至少與物件實體映像對準。此可包括最佳化姿勢圖，例如如至少參考姿勢圖最佳化器636所解釋。

本文中所描述之特定實例提供利用3D物件實體重建執行映射之一通用物件導向SLAM系統。在特定情況下，每圖框之物件實體偵測可利用例如體素前景遮罩穩健地融合，且可利用一「存在」概率考量錯失之偵測。物件實體映像及相關聯姿勢圖允許利用全域一致之基於閉合迴路物件之SLAM映像進行高品質物件重建。

不同於諸多比較性密集重建系統(例如，利用一高解析度點雲來表示一環境及環境中之物件)，本文中所描述之特定實例不需要維持整個場景之一密集表示。在當前實例中，可自經重建之物件實體自身構建一持久性映像。本文中所描述之特定實例組合高品質物件重建之剛性表面距離度量體積之利用與一姿勢圖系統之靈活性，而不使執行物件內體積變形複雜化。在特定實例中，各物件係在一單獨體積內表示，從而允許各物件實體具有一不同之合適解析度，其中較大物件經整合至較低保真度之表面距離度量體積而非其較小對應物中。其亦藉由排除大自由空間體積來實現以相對小記憶體利用及高保真重建追蹤大場景。在特定情況下，具有一未經識別之結構之環境之一「丟棄」局部模型可用來協助追蹤及模型遮擋。特定實例實現語意標記之物件重建，而未強有力地先驗知道一場景中存在之物件類型。在特定實例中，最佳化物件重建之品質且在姿勢圖之邊緣中吸收殘餘誤差。特定實例之以物件為中心之映像將構成一物件之幾何元素組合在一起作為「實體」，例如與獨立地標記密集幾何形狀(諸如3D空間中之點或表面元素(surfel))之方法相比，該等實體可被標記且處理為「單元」。此一方法促進例如室內環境中之機器-環境互動及動態物件推理。

本文中所描述之實例不需要預先知道或提供全物件實體集，包含其詳細幾何形狀。本文中所描述之特定實例利用2D影像分類及分段中之發展且使其適應3D場景探索，而不需要已知3D物件之預填充資料庫或複雜3D分段。特定實例係為在線利用而設計且不需要在一經觀察之環境中進行改變以映射或發現物件。在本文中所描述之特定實例中，經發現之物件實體緊密地整合至SLAM系統自身中，且利用遮罩影像比較將經偵測之物件融合至單獨物件體積中(例如，藉由比較憑藉自一3D物件體積投影產生之一前景「虛擬」影像與由物件辨識管線輸出之遮罩影像)。分離3D物件體積實現以物件為中心之姿勢圖最佳化，此對於用於物件定義之一共用3D體積而言係不可能的。本文中所描述之特定實例亦不需要全語意3D物件辨識(例如，知道一場景中存在什麼3D物件)，但概率地操作2D影像分段。

如本文中參考圖2及圖6所描述之功能組件之實例可包括專用處理電子裝置及/或可藉由由至少一個運算器件之一處理器執行之電腦程式碼來實施。在特定情況下，可利用一或多個嵌入式運算器件。如本文中所描述之組件可包括與記憶體相關聯地操作以執行載入至一電腦可讀媒體上之電腦程式碼之至少一個處理器。此媒體可包括固態儲存器，諸如一可擦除可程式化唯讀記憶體，且電腦程式碼可包括韌體。在其他情況下，組件可包括一適當組態之系統單晶片、特定應用積體電路及/或一或多個適當程式化之場可程式化閘陣列。在一種情況下，組件可藉由一行動運算器件及/或一桌上型運算器件中之電腦程式碼及/或專用處理電子裝置來實施。在一種情況下，除先前情況以外或代替先前情況，組件可由執行電腦程式碼之一或多個圖形處理單元來實施。在特定情況下，組件可藉由並行實施之一或多個功能來實施，例如在一圖形處理單元之多個處理器及/或核心上。

在特定情況下，上文所描述之裝置、系統或方法可利用機器人器件或針對機器人器件來實施。在此等情況下，可由該器件利用物件實體映像來與一三維空間互動及/或導航一三維空間。例如，一機器人器件可包括一擷取器件、如圖2或圖6中所展示之一系統、經組態以儲存一物件實體映像及一姿勢圖之一資料儲存器件、一互動引擎及一或多個致動器。一或多個致動器可使機器人器件能夠與一周圍三維環境互動。在一種情況下，機器人器件可經組態以在機器人器件導航一特定環境時擷取視訊資料(例如，依據圖1A中之器件130)。在另一情況下，機器人器件可掃描一環境，或操作自一第三方(諸如具有一行動器件或另一機器人器件之一使用者)接收之視訊資料。當機器人器件處理視訊資料時，其可經配置以產生如本文中所描述之一物件實體映像及/或一姿勢圖且將此儲存於資料儲存器件中。接著，互動引擎可經組態以存取經產生之資料以控制一或多個致動器與環境互動。在一種情況下，機器人器件可經配置以執行一或多個功能。例如，機器人器件可經配置以執行一映射功能，定位特定人及/或物件(例如，在一緊急情況下)，運輸物件，執行清潔或維護等。為了執行一或多個功能，機器人器件可包括用來與環境互動之額外組件，諸如進一步感測器件、真空系統及/或致動器。接著可基於物件實體應用此等函數。例如，一家用機器人可經組態以利用一「植物盆」物件實體之一3D模型應用一組功能且利用一「洗衣機」物件實體之一3D模型應用另一組功能。

上述實體應被理解為繪示性的。設想進一步實例。應理解，關於任一項實例所描述之任何特徵可單獨利用，或與所描述之其他特徵組合利用，且亦可與任何其他實例之一或多個特徵組合利用或以與任何其他實例之任何組合利用。此外，在不脫離隨附發明申請專利範圍定義之本發明之範疇之情況下，亦可採用上文未描述之等效物及修改。

100:實例 110:三維空間 115:實體物件 120:擷取器件 120-A:擷取器件 120-B:擷取器件 120-C:擷取器件 130:機器人器件 135:致動器 140:實例 145:對準方向 150:方向 155:法線軸 160:實例 165:擷取器件 170:視訊資料 175:圖框 180:深度資料 185:光度資料/RGB資料 200:系統 210:物件辨識管線 220:融合引擎 230:記憶體 240:視訊資料圖框 250:遮罩輸出 260:姿勢圖 270:物件實體映像 300:姿勢圖 310:節點 320:節點 330:邊緣 400:實例 410:3D物件體積 420:物件 430:2D切片 440:體素集 450:2D影像 460:表面距離度量值 500:實例 510:環境 520:視訊攝影機 525:第一物件 530:第二物件 535:RGB視訊資料 540:第一遮罩影像 545:區域 550:區域 560:第二遮罩影像 565:區域 570:區域 575:柵格 580:柵格 585:像素值 590:像素 595:置信度值 600:系統 605:視訊資料圖框 610:物件辨識管線 612:卷積神經網路(CNN) 614:過濾器 616:交疊率(IOU)組件 620:融合引擎 622:本端TSDF組件 624:追蹤組件 626:誤差檢查器 628:呈現器 630:物件TSDF組件 632:資料融合組件 634:重定位組件 636:姿勢圖最佳化器 700:方法 710:第一操作 720:第二操作

圖1A係展示一三維(3D)空間之一實例之一示意圖；

圖1B係展示3D空間中之一實例物件之可用自由度之一示意圖；

圖1C係展示由一實例擷取器件產生之視訊資料之一示意圖；

圖2係根據一實例之利用視訊資料產生一物件實體映像之一系統之一示意圖；

圖3係展示一實例姿勢圖之一示意圖；

圖4係展示根據一實例之一表面距離度量之利用之一示意圖；

圖5係展示一物件辨識管線之一實例遮罩輸出之一示意圖；

圖6係展示根據一實例之用於產生一物件實體映像之一系統之組件之一示意圖；及

圖7係展示根據一實例之用於產生一物件實體映像之一實例程序之一流程圖。

200:系統

210:物件辨識管線

220:融合引擎

230:記憶體

240:視訊資料圖框

250:遮罩輸出

260:姿勢圖

270:物件實體映像

Claims

一種方法，其包括：將一物件辨識管線應用於視訊資料圖框，該物件辨識管線提供該等圖框中偵測到之物件之一遮罩輸出；及將該物件辨識管線之該遮罩輸出與相關聯於該等視訊資料圖框之深度資料融合以產生一物件實體映像，包含利用一攝影機姿勢估計及該深度資料將該遮罩輸出投影至該物件實體映像之一模型空間，其中該物件實體映像中之一物件實體係利用一三維物件體積內之表面距離度量值來定義，且具有指示該物件實體至該模型空間之一變換之一物件姿勢估計，其中該物件姿勢估計及該攝影機姿勢估計形成模型實體映像之一姿勢圖之節點。
如請求項1之方法，其中將該物件辨識管線之該遮罩輸出與相關聯於該等視訊資料圖框之深度資料融合包括：利用該攝影機姿勢估計估計物件實體之遮罩輸出；及比較該等經估計之遮罩輸出與該物件辨識管線之該遮罩輸出以判定是否在一視訊資料圖框中偵測到來自該物件實體映像之一物件實體。
如請求項2之方法，其中回應於該視訊資料圖框中之一既有物件實體之一缺失，將該物件辨識管線之該遮罩輸出與相關聯於該等視訊資料圖框之深度資料融合包括：將一新物件實體添加至該物件實體映像；及將一新物件姿勢估計添加至該姿勢圖。
如請求項2或請求項3之方法，其中將該物件辨識管線之該遮罩輸出與相關聯於該等視訊資料圖框之深度資料融合包括：回應於一經偵測之物件實體，基於與該視訊資料圖框相關聯之影像及深度資料之至少一者更新該等表面距離度量值。
如先前請求項中任一項之方法，其中該三維物件體積包括一體素集，其中不同物件實體在該物件實體映像內具有不同體素解析度。
如請求項1至5中任一項之方法，其中該等表面距離度量值係截斷帶正負號距離函數(TSDF)值。
如先前請求項中任一項之方法，其包括：概率地判定一物件實體之該三維物件體積之部分是否形成一前景之部分。
如先前請求項中任一項之方法，其包括：判定該物件實體映像中之一物件實體之一存在概率；及回應於判定該存在概率之一值小於一預定義臨限值，自該物件實體映像移除該物件實體。
如先前請求項中任一項之方法，其中該遮罩輸出包括複數個經偵測之物件之二元遮罩及各自置信度值，該方法包括：在融合該遮罩輸出之前，基於該等置信度值過濾該物件辨識管線之該遮罩輸出。
如先前請求項中任一項之方法，其包括：運算含有該等物件之一三維環境之一物件無關之模型；及回應於經偵測之物件之一缺失，利用該三維環境之該物件無關之模型來提供圖框至模型追蹤。
如請求項10之方法，其包括：追蹤相關聯於該等視訊資料圖框之影像及深度資料之至少一者與該物件無關之模型之間的一誤差；及回應於該誤差超過一預定義臨限值，執行重定位以將一當前視訊資料圖框與該物件實體映像對準，包含最佳化該姿勢圖。
一種系統，其包括：一物件辨識管線，其包括用來偵測視訊資料圖框中之物件且提供該等圖框中偵測到之物件之一遮罩輸出之至少一個處理器；儲存定義一物件實體映像之資料之記憶體，該物件實體映像中之一物件實體係利用一三維物件體積內之表面距離度量值來定義；儲存定義該物件實體映像之一姿勢圖之資料之記憶體，該姿勢圖包括指示攝影機姿勢估計及物件姿勢估計之節點，該等物件姿勢估計指示該物件實體在一模型空間中之一位置及定向；及一融合引擎，其包括用來將該物件辨識管線之該遮罩輸出與相關聯於該等視訊資料圖框之深度資料融合以填充該物件實體映像之至少一個處理器，該融合引擎經組態以利用該姿勢圖之節點將該遮罩輸出投影至該物件實體映像之該模型空間。
如請求項12之系統，其中該融合引擎經組態以利用該等攝影機姿勢估計產生該物件實體映像內之物件實體之遮罩輸出，且比較該等經產生之遮罩輸出與該物件辨識管線之該遮罩輸出以判定是否在一視訊資料圖框中偵測到來自該物件實體映像之一物件實體。
如請求項12之系統，其中該融合引擎經組態以：回應於該視訊資料圖框中之一既有物件實體之一缺失，將一新物件實體添加至該物件實體映像且將一新節點添加至該姿勢圖，該新節點對應於該新物件實體之一經估計之物件姿勢。
如請求項12至13中任一項之系統，其包括：記憶體，其儲存指示含有該等物件之一三維環境之一物件無關之模型之資料；且其中該融合引擎待利用該三維環境之該物件無關之模型以回應於經偵測之物件實體之一缺失而提供圖框至模型追蹤。
如請求項15之系統，其包括：一追蹤組件，其包括用來追蹤相關聯於該等視訊資料圖框之影像及深度資料之至少一者與該物件無關之模型之間的一誤差之至少一個處理器，其中回應於該誤差超過一預定義臨限值，該模型追蹤引擎最佳化該姿勢圖。
如請求項12至16中任一項之系統，其包括：至少一個攝影機，其用來提供該等視訊資料圖框，各視訊資料圖框包括一影像分量及一深度分量。
如請求項12至17中任一項之系統，其中該物件辨識管線包括一基於區之卷積神經網路RCNN，具有用於預測影像分段遮罩之一路徑。
一種機器人器件，其包括：至少一個擷取器件，其用來提供包括至少色彩資料之視訊資料圖框；如請求項12至18中任一項之系統；一或多個致動器，其使該機器人器件能夠與一周圍三維環境互動；及一互動引擎，其包括用來控制該一或多個致動器之至少一個處理器，其中該互動引擎待利用該物件實體映像來與該周圍三維環境中之物件互動。
一種包括電腦可執行指令之非暫時性電腦可讀儲存媒體，該等電腦可執行指令在由一處理器執行時致使一運算器件執行如請求項1至12中任一項之方法。