TWI505200B

TWI505200B - 用於判定視訊中之一物件之部位及屬性的方法、系統、電腦程式產品及程序

Info

Publication number: TWI505200B
Application number: TW100126926A
Authority: TW
Inventors: Lisa Marie Brown; Rogerio Schmidt Feris; Arun Hampapur; Daniel Andre Vaquero
Original assignee: Ibm
Priority date: 2010-07-28
Filing date: 2011-07-28
Publication date: 2015-10-21
Also published as: TW201227535A; GB2495881B; US8774522B2; US8532390B2; US9245186B2; JP5657113B2; US9679201B2; KR101507662B1; US9002117B2; KR20130095727A; US8588533B2; WO2012013711A2; US20160132730A1; WO2012013711A3; DE112011101927T5; GB2495881A; CN103703472B; US20150131910A1; DE112011101927B4; US20130308868A1

Description

用於判定視訊中之一物件之部位及屬性的方法、系統、電腦程式產品及程序

本發明係關於視訊處理及物件識別，且更特定言之，係關於分析物件之影像以識別屬性。

本申請案與藉由代理人案號END920090038US1識別且與本申請案同時申請之題為「Multispectral Detection of Personal Attributes for Video Surveillance」的美國專利申請案有關，該申請案之揭示內容以全文引用之方式併入本文中。

另外，本申請案與藉由代理人案號END920090043US1識別且與本申請案同時申請之題為「Facilitating People Search in Video Surveillance」的美國專利申請案有關，該申請案之揭示內容以全文引用之方式併入本文中。

又，本申請案與藉由代理人案號END920090040US1識別且與本申請案同時申請之題為「Attribute-Based Person Tracking Across Multiple Cameras」的美國專利申請案有關，該申請案之揭示內容以引用之方式併入本文中。

自動地識別視訊中之物件及其部位之位置對於許多任務而言係重要的。舉例而言，在人體部位之情況下，自動地識別人體部位之位置對諸如自動動作辨識、人類姿勢估計等之任務而言係重要的。身體剖析為用以描述視訊中之個別身體部位之電腦化定位的術語。用於視訊中之身體剖析的當前方法僅估計諸如頭、腿、手臂等之部位位置。參見(例如)2005年6月美國加州聖地牙哥(San Diego,CA)Computer Vision and Pattern Recognition(CVPR)Ramanan等人「Strike a Pose：Tracking People by Finding Stylized Poses」及2005年1月International Journal of Computer Vision(IJCV)Felzenszwalb等人「Pictorial Structures for Object Recognition」。

多數先前方法實際上僅執行語法物件剖析，亦即，該等方法僅估計物件部位(例如，手臂、腿、臉部等)之定位而不有效地估計與該等物件部位相關聯的語意屬性。

鑒於上述內容，需要一種用於自影像有效地識別物件之語意屬性的方法及系統。

本發明在於用於估計視訊中之物件之部位及屬性的一種方法、一種電腦程式產品、一種電腦系統及一種程序。該方法、該電腦程式產品、該電腦系統及該程序包含：接收一視訊輸入；自該視訊輸入偵測一物件且自該視訊輸入裁切該物件之一影像；接收具有該物件之相關聯部位的複數個語意屬性；產生並儲存該影像之複數個版本，每一版本具有該物件之該影像的一不同解析度；針對該複數個語意屬性，計算在該物件之該影像之該等版本中的最低解析度版本上之複數個區中之每一區處的一外觀分數，針對每一區之該複數個語意屬性中之至少一語意屬性的該外觀分數指示該至少一語意屬性中之每一語意屬性出現於該區中的一機率；針對該最低解析度版本中之每一區來分析解析度比該最低解析度版本愈來愈高之版本以計算一解析度內容脈絡(resolution context)分數，該最低解析度版本中之該解析度內容脈絡分數指示：針對每一區，相比在最低解析度版本中，在該等解析度愈來愈高之版本中存在較精細空間結構的一程度；確定該最低解析度版本中之身體部位及相關聯語意屬性的一最佳化組態，該確定利用該最低解析度版本之該等區中的該等外觀分數及該等解析度內容脈絡分數；顯示及/或儲存身體部位及相關聯語意屬性之該最佳化組態。

自結合附圖進行之對本發明之各種態樣的以下詳細描述將更容易地理解本發明的此等及其他特徵，附圖描繪本發明各種實施例。

本發明之態樣提供一種用於偵測視訊中之物件之語意屬性的改良解決方案。舉例而言，本發明之態樣提供屬性自身體部位之提取，以使得能夠基於個人描述來在視訊中自動搜尋人物。在另一實例中，本發明提供屬性自汽車之提取，以使得能夠基於汽車之描述來在視訊中自動搜尋汽車。可能之查詢可為：「展示上個月進入IBM之有鬍鬚、戴太陽眼鏡、穿紅色夾克及藍色褲子的所有人物」或「展示上週進入IBM停車場之具有菱形輪轂蓋的所有藍色雙門Toyota」。

本發明處理語意物件剖析之問題，其中目標為在同一程序中有效地估計部位位置及語意屬性兩者。使用人體剖析作為一實例，本發明之實施例提供在同一程序中估計人體部位之語意屬性連同定位身體部位。克服先前方法之低效率及不準確後，本發明充分利用全域最佳化方案來同時估計部位及其對應屬性兩者。

不同於先前方法，本發明之實施例使用諸如「鬍鬚」、「小鬍子」及「無臉部毛髮」之語意屬性來不僅定位人體部位而且識別該身體部位之屬性。舉例而言，代替僅識別諸如「腿」之身體部位，本發明使用諸如「黑色長褲」、「長裙」及「短褲」之語意屬性來定位該身體部位且識別其屬性兩者。本發明維護使每一語意屬性與對應身體部位相關之資料表。舉例而言，語意屬性「鬍鬚」對應於身體部位「下部臉部區」。

本發明之實施例係基於三種特徵：外觀特徵、解析度內容脈絡特徵，及幾何特徵。外觀特徵指代藉由將來自影像庫之語意屬性與出現在該影像上之事物進行比較以評估匹配機率所獲得的分數。解析度內容脈絡特徵指代在不同影像解析度下之物件一致性。特定區之解析度內容脈絡分數為來自該特定區之較高解析度影像的加權平均分。藉由合計外觀分數、幾何分數及(若較高解析度影像可用)解析度內容脈絡分數來計算該較高解析度影像之總分。自較高解析度影像將解析度內容脈絡分數計算為給定區處的總分除以組成被分析之較高解析度影像上之彼區的子區數目。幾何特徵指代基於可能組態中之基礎部位間的空間關係來計算的分數。舉例而言，潛在屬性「鬍鬚」對應於「臉部」，且「黑襯衫」對應於「軀體」。幾何特徵藉由應用一般人體組態原理來測試候選語意屬性之準確性，該一般人體組態原理為「臉部」在「軀體」上方且距「軀體」一特定距離。

在人體剖析之實例中，本發明之態樣不僅估計人體部位位置，而且估計其語意屬性，諸如，顏色、臉部毛髮類型、眼鏡之存在等。換言之，本發明之態樣利用統一學習方案來執行語法剖析(亦即，位置估計)及語意剖析(亦即，提取描述每一身體部位之語意屬性)兩者。本發明優於先前技術而在同一程序中偵測身體部位及屬性兩者以更準確地識別人體之屬性。

轉向圖式，圖1展示根據本發明之一實施例的用於偵測人體之語意屬性的說明性環境。就此而言，至少一相機42擷取場景或背景90。通常，該背景或場景90可包括至少一物件(諸如，人員92)。如本文中所論述，獲得數位視訊輸入40且將其發送至系統12，該系統12包括(例如)語意屬性偵測程式30、資料50、預定或指定語意屬性52、輸出54及/或其類似者。

圖2展示根據本發明之一實施例的用於偵測視訊40中之人員92(圖1)之語意屬性的說明性環境10的近視圖。就此而言，環境10包括可執行本文中所描述之程序以便偵測視訊40中之人員92之語意屬性的電腦系統12。詳言之，電腦系統12經展示為包括計算裝置14，該計算裝置14包含使計算裝置14可操作以用於藉由執行本文中所描述之程序來偵測視訊40中之人員92(圖1)之語意屬性的語意屬性偵測程式30。

計算裝置14經展示為包括：處理器20、記憶體22A、輸入/輸出(I/O)介面24，及匯流排26。另外，計算裝置14經展示為與外部I/O裝置/資源28及非暫時性電腦可讀儲存裝置22B(例如，硬碟、軟性磁碟、磁帶、諸如光碟(CD)或數位影音光碟(DVD)之光學儲存器)通信。一般而言，處理器20執行諸如語意屬性偵測程式30之程式碼，該程式碼儲存於諸如記憶體22A(例如，動態隨機存取記憶體(DRAM)、唯讀記憶體(ROM)等)及/或儲存裝置22B之儲存系統中。在執行程式碼時，處理器20可讀取及/或寫入資料，諸如，將資料36寫入至記憶體22A、儲存裝置22B及/或I/O介面24/自記憶體22A、儲存裝置22B及/或I/O介面24讀取資料36。電腦程式產品包含儲存裝置22B，該儲存裝置22B上儲存有供處理器20隨後執行以執行用於估計視訊中之物件之部位及屬性的方法的程式碼。匯流排26提供計算裝置14中之組件中之每一者之間的通信鏈路。I/O裝置28可包含在使用者16與計算裝置14之間及/或在數位視訊輸入40與計算裝置14之間傳送資訊的任何裝置。就此而言，I/O裝置28可包含：使用者I/O裝置，其用以使得個別使用者16能夠與計算裝置14互動；及/或通信裝置，其使用任何類型之通信鏈路以使得元件(諸如，數位視訊輸入40)能夠與計算裝置14通信。I/O裝置28表示至少一輸入裝置(例如，鍵盤、滑鼠等)及至少一(例如，印表機、繪圖機、電腦螢幕、磁帶、抽取式硬碟、軟性磁碟)。

在任何情況下，計算裝置14可包含任何通用計算製造物件，其能夠執行安裝於其上之程式碼。然而，應理解，計算裝置14及語意屬性偵測程式30僅代表可執行本文中所描述之程序的各種可能之等效計算裝置。就此而言，在其他實施例中，藉由計算裝置14及語意屬性偵測程式30提供之功能性可藉由計算製造物件來實施，該計算製造物件包括通用及/或專用硬體及/或程式碼之任何組合。在每一實施例中，可分別使用標準程式設計及工程技術來建立程式碼及硬體。此等標準程式設計及工程技術可包括開放架構以允許整合來自不同位置之處理。此開放架構可包括雲端計算。因此，本發明揭示一種用於支援電腦基礎結構、整合、代管、維護及部署電腦可讀程式碼至電腦系統12中之程序，其中與該電腦系統12結合之程式碼能夠執行一種用於估計視訊中之物件之部位及屬性的方法。

類似地，電腦系統12僅說明用於實施本發明之態樣的各種類型之電腦系統。舉例而言，在一實施例中，電腦系統12包含兩個或兩個以上計算裝置，該兩個或兩個以上計算裝置經由任何類型之通信鏈路(諸如，網路、共用記憶體或其類似者)進行通信以執行本文中所描述之程序。另外，在執行本文中所描述之程序時，電腦系統12中之一或多個計算裝置可使用任何類型之通信鏈路與電腦系統12外部的一或多個其他計算裝置通信。在任一情況下，通信鏈路可包含各種類型之有線及/或無線鏈路的任何組合；包含一或多種類型之網路的任何組合；及/或利用各種類型之傳輸技術及協定的任何組合。

如本文中所論述，語意屬性偵測程式30使得電腦系統12能夠偵測物件(諸如，視訊40中之人員92(圖1))之語意屬性。就此而言，語意屬性偵測程式30經展示為包括物件偵測模組32、外觀分數模組34、幾何分數模組36、解析度內容脈絡模組37、組態最佳化模組38、計算總分模組39，及結構化學習模組35。本文中進一步論述此等模組中之每一者之操作。然而，應理解，圖2中所展示之各種模組中之一些模組可獨立地實施、組合及/或儲存於包括於電腦系統12中之一或多個單獨計算裝置的記憶體中。另外，應理解，可不實施一些模組及/或功能性，或可包括額外模組及/或功能性作為電腦系統12之部分。

本發明之態樣提供一種用於偵測物件(諸如，視訊40中之人員92(圖1))之語意屬性的改良解決方案。就此而言，圖3說明根據本發明之一實施例的輸入90(圖1)及輸出54(圖1)之實例。如上文(圖1)所描述，輸入90為具有至少一物件(在此實例中為人員)之場景。輸出54包括身體部位之空間位置及影像上之屬性。舉例而言，本發明將區402識別為上部臉部區，且自同一區識別該人員之屬性「禿髮」。區404為中間臉部區且識別屬性「太陽眼鏡」。區406為下部臉部區且識別屬性「鬍鬚」。區408被識別為手臂且識別屬性「紋身」。區410被識別為腿且識別屬性「黑色長褲」。此外，如本文中所描述，輸出54包括影像之外觀分數、幾何分數及(若可用)解析度內容脈絡分數之總分及/或加權平均分。

本發明之態樣提供一種用於偵測物件(諸如，視訊40中之人員92(圖1))之語意屬性的改良解決方案。就此而言，圖4展示根據本發明之一實施例的用於藉由使用語意屬性偵測程式30(圖2)之模組而偵測影像上之人員92(圖1)的語意屬性的說明性資料流程。舉例而言，在D1處，系統12接收數位彩色視訊輸入40。數位彩色視訊輸入40通常呈紅色-綠色-藍色(RGB)格式，且在每一時間瞬時處，具有人員92(圖1)之視訊輸入的圖框到達物件偵測模組32(圖2)。

在S1處，物件偵測模組32(圖2)在視訊輸入之圖框中偵測物件且識別其物件類型。可藉由使用物件分類器來將物件之影像與先前儲存且儲存於物件庫中的持續自學物件進行比較而測試該偵測(參見文件：2005年6月美國加州聖地牙哥(San Diego,USA)Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition N.Dalal及B.Triggs之「Histograms of Oriented Gradients for Human Detection」第II卷第886至893頁))。一旦自影像識別出物件，便裁切覆蓋該物件之影像區域。現有技術支援產生影像之較低解析度版本。自裁切區域，產生原始裁切區域之至少一較低解析度影像且將其與原始裁切影像一起保存以供進一步分析。在隨後步驟中，首先處理裁切區域之最低解析度影像，且以較低解析度至較高解析度之次序處理影像。出於獲得解析度內容脈絡分數之目的，處理較高解析度影像。特定言之，解析度內容脈絡模組37(圖2)分析對應於物件之各種部位及子部位的影像之各種區及子區的解析度愈來愈高之影像。較高解析度影像之分析又包括計算語意屬性之外觀分數、針對子區計算幾何分數及計算解析度內容脈絡分數，該等子區具有比最低解析度影像中之區高的細微度。最低解析度影像之解析度可為預定的，諸如，作為常數儲存於語意屬性偵測程式30中或作為輸入經由I/O裝置28(圖2)來提供。

D2維護語意屬性及相關聯影像之清單。除了描述語意屬性之外，每一語意屬性亦對應於一身體部位。舉例而言，語意屬性「太陽眼鏡」、「眼鏡」及「無眼鏡」全部對應於身體部位「中間臉部區」；語意屬性「鬍鬚」、「小鬍子」及「無臉部毛髮」全部對應於身體部位「下部臉部區」。圖5展示根據本發明之一實施例的與身體部位相關聯之語意屬性的實例。語意屬性52(圖1)之清單含有該等語意屬性及其對應身體部位兩者。

在S2處，外觀分數模組34(圖2)藉由評估語意屬性52(D2)存在於影像之區處之機率而即時或以延遲模式來分析自S1保存之影像。如上文所陳述，首先分析最低解析度影像。可在此階段評估可能在最低解析度影像上可見之語意屬性，而可在隨後步驟處評估可能在較高解析度影像上可見之其他語意屬性。語意屬性之影像儲存於持續自學之語意屬性庫中。

在S2處，在評估語意屬性存在於影像之區處之機率時，本發明之態樣使用描述於2001年2月「Cambridge Research Laboratory Technical Report」Viola等人之作品「Robust Real-time Object Detection」中之方法。在2004年IEEE International Conference on Automatic Face and Gesture Recognition Bo Wu等人之作品「Fast Rotation Invariant Multi-View Face Detection Based on Real Adaboost」中用實值信賴分數進一步描述該方法。該方法提供計算用以表示屬性存在於一區處之機率的外觀分數的步驟。經由語意屬性偵測器之應用來評估語意屬性的存在。用於語意屬性之偵測器為將影像之區映射成在區間[0,1]中之實數的函式，其中輸出指示語意屬性在給定作為輸入之影像區中存在的機率。依據本發明，外觀分數之所得值之範圍可為0至1。在影像的每一區處，可存在對應於多個語意屬性存在於同一區處之機率的多個外觀分數。

圖5A及圖5B展示根據本發明之一實施例的將語意屬性應用於人體影像之實例。在圖5A中，不同於將僅把影像區60、62及64分別識別為頭、軀體及腿之先前技術，本發明之實施例另外自區60提取皮膚顏色、自區62提取襯衫顏色且自區64提取褲子顏色等。類似地，在圖5B中，區66不僅被識別為上部臉部區，而且其可提供描述頭髮、禿髮或帽子之存在之屬性。區68不僅被識別為中間臉部區，而且其可提供描述眼睛、視力眼鏡或太陽眼鏡之屬性。區70不僅被識別為下部臉部區，而且其可提供嘴、小鬍子或鬍鬚之屬性。此外，圖5A之影像具有比圖5B低的解析度。將適用於整個身體之屬性偵測器(諸如，皮膚顏色、襯衫顏色及褲子顏色)應用於圖5A中之較低解析度影像，而將對臉部特定之屬性偵測器(諸如，髮型、眼鏡之存在及小鬍子)應用於圖5B。

隨後在S2(圖4)中，外觀分數模組34(圖2)將臨限值應用於由在影像上應用語意屬性偵測器所產生之所有外觀分數。將捨棄小於臨限值之外觀分數，而將保留剩餘之外觀分數。臨限值可為預定的，諸如，作為常數儲存於語意屬性偵測程式30中或作為輸入經由I/O裝置28(圖2)來提供。在應用臨限值之後，在影像之區處仍可存在剩餘之一個以上外觀分數。在影像之每一區處之每一外觀分數對應於一語意屬性。如上文所描述，每一語意屬性對應於一身體部位。因此，在影像之區處之每一外觀分數亦對應於一身體部位。接著，具有超過臨限值之外觀分數的每一區將用對應身體部位來加標籤。結果，外觀分數模組34之輸出包括用外觀分數作標記且用語意屬性及身體部位名稱加標籤之區的位置，例如，對於區x，外觀分數為0.6且標籤為「鬍鬚/下部臉部區」，其中「鬍鬚」為語意屬性且「下部臉部區」為身體部位。

圖5C展示根據本發明之一實施例的評估外觀分數之實例。區602含有三個外觀分數：鬍鬚(0.1)、小鬍子(0.1)及「無毛髮」(0.95)。舉例而言，臨限值為0.5。結果，如上文所描述，將「無毛髮」選擇為區602之屬性，此係因為「無毛髮」接收超過臨限值0.5之分數。類似地，區604獲得三個外觀分數：鬍鬚(0.9)、小鬍子(0.2)及「無毛髮」(0.1)。結果，將鬍鬚選擇為區604之屬性，此係因為鬍鬚接收超過臨限值0.5之分數。如上文所描述，區604及區602兩者將用身體部位「下部臉部區」加標籤。根據藉由S5(圖4)中之組態最佳化之評估，區604可由於具有低幾何分數以及低解析度內容脈絡分數而在隨後被拒絕。

S2(圖4)之輸出包括用屬性及外觀分數作標記且用身體部位名稱加標籤之區的位置。圖5D展示根據本發明之一實施例的用於計算外觀分數之步驟的輸入及輸出。在計算外觀分數時，外觀分數模組34(圖2)獲取輸入610，該輸入610包括物件之裁切影像612、具有對應部位之語意屬性之清單52、作為參考之語意屬性之影像庫620，及外觀分數臨限值630。輸出690包括影像上之具有語意屬性、部位名稱及外觀分數之區650。輸出外觀分數全部超過外觀分數臨限值630。

在S3(圖4)處，為了計算在S2中處理之影像(例如，影像x)的解析度內容脈絡分數，解析度內容脈絡分數模組37(圖2)需要分析影像x的較高解析度影像。如上文所描述，自S1產生且儲存較高解析度影像。主要想法在於，若身體部位在給定解析度下在影像中可見，則其在較高解析度下在同一影像中亦應可見。舉例而言，在特定區(區y)處，向語意屬性「鬍鬚」給定分數0.9且因此將區y加標籤為「鬍鬚/下部臉部區」。在較高解析度影像中，區y預期展示下部臉部區之子部位(例如，嘴，下巴等)。若該情況不發生，則有可能身體部位「下部臉部區」實際上不存在於區y中，且將較低解析度內容脈絡分數指派給區y。

圖6展示根據本發明之一實施例的評估解析度內容脈絡分數之實例。在較低解析度影像下，在影像700上，外觀分數模組34(圖2)藉由應用語意屬性偵測器(諸如，鬍鬚或眼鏡或臉部皮膚顏色)在區702處偵測臉部身體部位。影像750為區702之較高解析度影像。由於一區之解析度內容脈絡分數的可用性取決於該區之較高解析度影像的可用性，因此在影像750可用之情況下，可獲得影像700上之區702的解析度內容脈絡分數。在影像750下，評估區702以偵測如在影像700上所偵測到之臉部是否含有預期子部位(諸如，眼睛、鼻子及嘴)。相關語意屬性偵測器(諸如，鬍鬚或眼鏡或甚至眼睛顏色)可應用於影像750。因此，針對在諸如區704之區處應用之語意屬性而在影像750上計算外觀分數。此外，針對經識別具有超過預定臨限值之語意屬性的區來計算幾何分數。簡言之，圖4中之步驟S2到步驟S7將應用於影像750以產生總分及/或加權平均分，該總分及/或加權平均分為影像750之輸出54的部位。在分析時，每一影像產生輸出54。來自影像750之加權平均分成為圖像700上之區702的解析度內容脈絡分數。

圖6A進一步說明解析度內容脈絡分數模組37如何獲得一解析度分數。在自較低解析度影像至較高解析度影像之處理時，在解析度N下之影像670為解析度比在解析度N+1下之影像低的影像。在影像670上之區675處，屬性「歐洲臉部」具有外觀分數0.9。影像690在較高解析度下檢查區675。應用於影像690之分析程序包括藉由應用語意屬性來計算外觀分數、計算解析度內容脈絡分數、計算幾何分數(在隨後步驟描述)、執行組態最佳化(在隨後步驟描述)及計算總分(在隨後步驟描述)。如上文所描述，輸出54包括影像之外觀分數、解析度內容脈絡分數及幾何分數之加權平均分(如本文中所描述)。因此，在此情況下，來自影像690之輸出54之加權平均分0.7為影像670上之區675的解析度內容脈絡分數。

為了進一步說明圖6A上之影像670上之區675如何具有解析度內容脈絡分數0.7，假定基於應用於影像690上之語意屬性，存在在影像690上偵測出的三個區。假定該三個區為區x、區y及區z。假定影像690上之區x、區y及區z的外觀分數分別為0.9、0.8及0.9。假定影像690上之區x、區y及區z的幾何分數分別為0.5、0.6及0.35。假定存在區x、區y及區z之較高解析度影像。假定區x之較高解析度影像具有兩個子區：區xx及區xy。假定區xx及區xy不具有對應之較高解析度影像。假定區xx具有外觀分數0.95且區xy具有外觀分數0.9。假定區xx及區xy之幾何分數分別為0.9及0.8。由於不存在區xx及區xy之對應之較高解析度影像，因此區xx及區xy的解析度內容脈絡分數為0。假定在該實例中之所有分析中，外觀分數之加權因數為0.5，幾何分數之加權因數為0.3且解析度內容脈絡分數之加權因數為0.2。因此，可在表1中表示對應於影像690上之區x之最高解析度影像的數字。

對應於影像690上之區x之最高解析度影像的加權平均分為：

(0.95*0.5+0.9*0.3+0*0.2+0.9*0.5+0.8*0.3+0*0.2)/2=0.7275

因為在計算中存在兩個區(區xx及區xy)，所以將總和除以2。輸出0.7275成為影像690上之區x之解析度內容脈絡分數。類似地，假定依據對區y及區z之較高解析度影像的分析，區y及區z的解析度內容脈絡分數分別為0.6及0.5。表2描繪影像690上之區x、區y及區z之分數，其在下文展示。

因此，影像690之加權平均分為：

因為影像690為影像670上之區675之對應較高解析度影像，所以影像670上之區675具有解析度內容脈絡分數0.7。

如在圖6A中進一步表明，一區之解析度內容脈絡分數之存在取決於彼區之較高解析度影像是否可用於分析。因此，最高解析度影像不具有解析度內容脈絡分數。結果，最高解析度影像之輸出54的加權平均分將僅包括外觀分數及幾何分數之加權平均值。又，如由圖6A所表明，影像690提供影像670上之區675之解析度內容脈絡分數。影像670上之其他區將必須經歷如上文所描述之類似分析，以獲得其對應解析度內容脈絡分數。

S3(圖4)之輸出包括最低解析度影像上之具有語意屬性、部位名稱及解析度內容脈絡分數的區。圖6B展示根據本發明之一實施例的評估解析度內容脈絡分數之步驟的輸入及輸出。在計算解析度分數時，解析度分數模組37(圖2)獲取輸入830，該等輸入830包括具有不同解析度之影像860及最低解析度影像上之具有語意屬性、部位名稱及外觀分數之區650。輸出880包括最低解析度影像上之具有語意屬性、部位名稱及解析度內容脈絡分數之區885。在獲得最終輸出時，解析度分數模組37可產生中間輸出，該等中間輸出包括不同解析度影像上之具有語意屬性、部位名稱及解析度內容脈絡分數之區。

在S4(圖4)處，幾何分數模組36(圖2)藉由量測分析中之候選區之特定組態間的距離及角度來計算幾何分數，且試圖將候選區間之距離及角度匹配至人體之幾何組態。舉例而言，候選區之組態愈有可能匹配人體之自然位移，則組態中之每一部位被給定愈高的幾何分數。在一實施例中，計算幾何分數之演算法如下：在步驟S2(圖4)處所識別的語意屬性當中，自該等屬性提取部位名稱；對於每一部位，當將動態程式設計用於最佳化時，幾何分數模組36計算與所有其他部位或僅父代部位之距離及角度，且使用標準分類方法(例如，在http：//en.wikipedia.org/wiki/Naive_Bayes_classifier處可得的樸素貝葉斯分類器(Naive Bayes Classifier))來關於距離及角度特徵向量如何對應於人體之可行組態而給定範圍在0至1的分數。在諸實施例中，計算幾何分數之實例提供如下。

幾何分數(G_i )實例

身體部位i(或區i)的幾何分數(G_i )可依據基於角度之幾何分數(G_Ai )及/或基於距離之幾何分數(G_Di )來表達。

在一實施例中，G_i =(G_Ai +G_Di )/2，其為直接的算術平均值。

在一實施例中，G_i =W_A G_Ai +W_D G_Di ，其為加權的算術平均值，其中權重(W_A 、W_D )為滿足W_A +W_D =1的非負實數，且其中權重(W_A 、W_D )為輸入，在一實例中，該等輸入可基於諸如用以計算幾何分數G_Ai 及G_Di 之角度及距離(見下文)之參考值的相對準確性及/或重要性的因數來選擇或判定。

在一實施例中，G_i =(G_Ai * G_Di )^1/2 ，其為幾何平均值。

在一實施例中，G_i =G_Ai ，其中僅使用角度而不使用距離。

在一實施例中，G_i =G_Di ，其中僅使用距離而不使用角度。

基於角度之幾何分數(G_Ai )

使A_i ={A_i1 ,A_i2 ,...,A_iN }指示如上文所描述在部位i(或區i)與每一對其他身體部位(或區)之間所判定的N個角度的陣列。

使a_i ={a_i1 ,a_i2 ,...,a_iN }指示儲存於程式庫或檔案中之N個對應參考角度的陣列，其中N2。

使δ_Ai 指示A_i 與a_i 之間的差異之量測結果。

在一實施例中，δ_Ai =[{(A_i1 -a_i1 )² +(A_i2 -a_i2 )² +...+(A_iN -a_iN )² }/N]^1/2 。

在一實施例中，δ_Ai =(|A_i1 -a_i1 |+|A_i2 -a_i2 |+...+|A_iN -a_iN |)/N。

使t_A 指示指定或輸入之角度臨限值，使得：

若δ_Ai t_A ，則G_Ai =0，；且

若δ_Ai <t_A ，則G_Ai =1-δ_Ai /t_A 。

因此，G_Ai 滿足0G_A _i 1。詳言之，若δ_Ai =0(亦即，若所有判定之角度等於所有對應之參考角度)，則G_Ai =1。此外，若δ_Ai t_A (亦即，若A_i 與a_i 之間的差異之量測結果過大)，則G_A _i =0。

基於距離之幾何分數(G_Di )

使D_i ={D_i1 ,D_i2 ,...,D_iM }指示如上文所描述之在身體部位i(或區i)與每一其他身體部位(或區)之間所判定的M個距離的陣列。

使d_i ={d_i1 ,d_i2 ,...,d_iM }指示儲存於程式庫或檔案中之M個對應參考距離的陣列，其中M2。

讓δ_Di 指示D_i 與d_i 之間的差異之量測結果。

在一實施例中，δ_Di =[{(D_i1 -d_i1 )² +(D_i2 -d_i2 )² +...+(D_iN -d_iM )² }/M]^1/2 。

在一實施例中，δ_Di =(|D_i1 -d_i1 |+|D_i2 -d_i2 |+...+|D_iN -d_iM |)/M。

讓t_D 指示特定或輸入之距離臨限值，使得：

若δ_Di t_D ，則G_Di =0；且

若δ_Di <t_D ，則G_Di =1-δ_Di /t_D 。

因此，G_Di 滿足0G_Di 1。詳言之，若δ_Di =0(亦即，若所有判定之距離等於所有對應之參考距離)，則G_Di =1。此外，若δ_Di t_A (亦即，若D_i 與d_i 之間的差異之量測結果過大)，則G_Di =0。

圖7A及圖7B展示根據本發明之一實施例的用於評估最佳組態之幾何分數的實例。在圖7A中，存在在圖例800上所識別之許多部位，其中每一正方形表示影像上之識別出具有部位名稱之語意屬性的一區。在識別出許多隔離部位之情況下，存在可能形成人體之許多可能組態。影像中之實際人體在圖7A中疊置。舉例而言，可在區801處偵測到頭。在區803及805處偵測到兩個手臂，且在區807及809處偵測到兩條腿。圖7B說明圖例802上的藉由組態最佳化模組38選擇為最佳組態之部位的區之集合。在後續步驟中描述組態最佳化模組38之功能性。如在圖7B中所展示，將區801、803、805、807及809選擇為最佳化組態之部位。藉由量測與其他區之角度及距離來計算給定組態中之每一區的幾何分數。舉例而言，可自量測區801與屬於特定組態候選者之所有其他區的角度及距離來計算區801的幾何分數。

S4(圖4)之輸出包括候選部位的組態，其中每一部位(i)與語意屬性、外觀分數A_i 、解析度內容脈絡分數R_i 及幾何分數G_i 相關聯。圖7C展示根據本發明之一實施例的用於評估幾何分數之步驟的輸入及輸出。在計算幾何分數時，幾何分數模組36(圖2)獲取輸入810，該等輸入810可包括由最佳化模組分析之部位的候選組態(具有外觀分數及解析度分數之部位的集合)815，及部位間的角度及距離之參考庫820。輸出890包括部位候選者組態850，其中每一部位(i)與語意屬性、外觀分數A_i 、解析度內容脈絡分數R_i 及幾何分數G_i 相關聯。

在S5(圖4)處，組態最佳化模組38(圖2)使用動態程式設計來基於外觀分數、幾何分數及解析度內容脈絡分數選擇最佳組態。給定候選者之集合，可存在可自影像選擇為最終身體部位區加上屬性估計之若干可能組態。使用在2005年1月「International Journal of Computer Vision(IJCV)」Felzenszwalb等人「Pictorial Structures for Object Recognition」中提議之演算法經由動態程式設計來選擇最佳組態，該最佳組態為具有最大外觀分數、幾何分數及解析度分數之組態。當選定一最佳組態時，該最佳組態之選定區業已與語意屬性相關聯且在該區處具有身體部位標籤，如上文所描述。

因此，在S5(圖4)處，可自可用區及其相關聯身體部位標籤及屬性導出許多可能之候選身體組態。S5之目標為自該等許多可能之身體組態中選擇出最好組態。最佳化模組搜尋此組態空間，其旨在依據外觀分數、解析度內容脈絡分數及幾何分數判定具有最高加權平均分的組態。作為一實例，組態最佳化模組38可使用如上文所描述結合表1及表2使用之公式來計算每一可能組態的加權平均分，並選擇具有最高加權平均分的一者作為輸出。

作為對在計算加權平均分時使預定權重用於三種類型之分數的替代，可動態地判定該等權重。為了自所有三種類型之分數計算最佳化加權平均分，S6(圖4)可判定該等分數之最佳權重。在判定該等最佳權重時，在S6(圖4)處，結構化學習模組35(圖2)使用稱作「結構化學習」的機器學習程序，該機器學習程序描述於2005年9月「Journal of Machine Learning Research(JMLR)」Tsochantaridis等人「Large Margin Methods for Structured and Interdependent Output Variables」中。基本想法包括向系統呈現身體部位組態(包括其屬性)之許多實例。該結構化學習模組接著將使該等權重最佳化，使得所呈現之實例集合中之任何組態均具有比不對應於有效人體配置之無效組態高的整體分數。結構化學習亦於2007年「National Information Processing Systems Foundation」由Tran等人描述於「Configuration Estimates Improve Pedestrian Finding」中。結構化學習為使用一系列正確實例來相對於彼此估計特徵之適當加權，以產生在估計組態時有效的分數的方法。

在S7(圖4)處，計算總分模組39(圖2)基於最佳化組態中之區的外觀分數、幾何分數及解析度內容脈絡分數而計算最佳化總分。藉由來自結構化學習模組35(圖2)之輸入，計算總分模組39利用給定至外觀分數、幾何分數及解析度內容脈絡分數的最佳權重來計算最佳化總分，其又藉由用被分析之區的數目除總分來產生外觀分數、幾何分數及解析度內容脈絡分數之加權平均分。

因此，分析中之每一組態係由部位之一集合組成，其中每一部位(i)與一屬性及對應外觀分數A_i 、解析度內容脈絡分數R_i 及幾何分數G_i 相關聯。在S7(圖4)處，計算總分模組39(圖2)使用以下公式來計算最佳化總分：

其中A_i 表示組態之每一部位i之外觀分數，G_i 表示每一部位i之幾何分數，R_i 表示每一部位i之解析度分數，且W₁ 、W₂ 及W₃ 對應於由結構化學習模組獲得之權重。藉由S6之結構化學習模組35(圖2)經由上文所描述之方法來提供W₁ 、W₂ 及W₃ 。

圖8展示根據本發明之一實施例的用於計算一總分之步驟的輸入及輸出。計算總分模組39(圖2)的輸入840包括：部位候選者組態842，其中每一部位(i)具有外觀分數A_i 、解析度內容脈絡分數R_i 及幾何分數G_i ：及由結構化學習模組提供之權重844。一旦計算出總分，便可藉由用被分析之影像上之區的數目除該總分來計算加權平均分。輸出849包括為A_i 、R_i 及G_i 之加權平均值的分數847。

如本文中所使用，應理解，「程式碼」意謂陳述式或指令(以任何語言、程式碼或計數法表示)之任何集合，其使具有資訊處理能力之計算裝置直接地或在以下各者之任何組合之後執行特定功能：(a)轉換至另一語言、程式碼或計數法；(b)以不同材料形式重現；及/或(c)解壓縮。就此而言，程式碼可體現為一或多種類型之電腦程式的任何組合，諸如，應用程式/軟體程式、組件軟體/函式庫、作業系統、用於特定計算之基本I/O系統/驅動器、儲存器及/或I/O裝置，及其類似者。

已出於說明及描述之目的呈現了本發明之各種態樣之上述描述。其不意欲為詳盡的或將本發明限於所揭示之精確形式，且明顯地，許多修改及變化係可能的。熟習此項技術者可顯而易見之此等修改及變化包括於如由所附申請專利範圍所界定之本發明的範疇內。

10．．．用於偵測視訊中之人員之語意屬性的說明性環境

12．．．電腦系統

14．．．計算裝置

16．．．使用者

20．．．處理器

22A．．．記憶體

22B．．．儲存裝置

24．．．I/O介面

26．．．匯流排

28．．．I/O裝置

30．．．語意屬性偵測程式

32．．．物件偵測模組

34．．．外觀分數模組

35．．．結構化學習模組

36．．．幾何分數模組

37．．．解析度內容脈絡模組

38．．．組態最佳化模組

39．．．計算總分模組

40．．．數位視訊輸入

42．．．相機

50．．．資料

52．．．語意屬性

54．．．輸出

60．．．影像區

62．．．影像區

64．．．影像區

66．．．區

68．．．區

70．．．區

90．．．背景或場景

92．．．人員

402．．．區

404．．．區

406．．．區

408．．．區

410．．．區

602．．．區

604．．．區

610．．．輸入

612．．．物件之裁切影像

620．．．語意屬性之影像庫

630．．．外觀分數臨限值

650．．．影像上之具有語意屬性、部位名稱及外觀分數之區

670．．．影像

675．．．區

690．．．輸出/影像

700．．．影像

702．．．區

704．．．區

750．．．影像

800．．．圖例

801．．．區

802．．．圖例

803．．．區

805．．．區

807．．．區

809．．．區

810．．．輸入

815．．．由最佳化模組分析之部位(具有外觀分數及解析度分數之部位之集合)之候選組態

820．．．部位間之角度及距離之參考庫

830．．．輸入

840．．．輸入

842．．．部位候選者組態

844．．．由結構化學習模組提供之權重

847．．．分數

849．．．輸出

850．．．部位候選者組態

860．．．不同解析度之影像

880．．．輸出

885．．．最低解析度影像上之具有語意屬性、部位名稱及解析度內容脈絡分數之區

890．．．輸出

圖1展示根據本發明之一實施例的用於偵測人體之語意屬性之系統的說明性環境。

圖2展示根據本發明之一實施例的用於偵測視訊中之人體之語意屬性的說明性環境的近視圖。

圖3說明根據本發明之一實施例的輸入及輸出之實例。

圖4展示根據本發明之一實施例的用於偵測影像上之語意屬性的說明性資料流程。

圖5展示根據本發明之一實施例的與身體部位相關聯之語意屬性的實例。

圖5A及圖5B展示根據本發明之一實施例的將語意屬性應用於人體影像之實例。

圖5C展示根據本發明之一實施例的評估外觀分數之實例。

圖5D展示根據本發明之一實施例的用於計算外觀分數之步驟的輸入及輸出。

圖6及圖6A展示根據本發明之一實施例的計算解析度內容脈絡分數之實例。

圖6B展示根據本發明之一實施例的用於計算解析度內容脈絡分數之步驟的輸入及輸出。

圖7A及圖7B展示根據本發明之一實施例的用於計算最佳組態之幾何分數的實例。

圖7C展示根據本發明之一實施例的用於計算幾何分數之步驟的輸入及輸出。

圖8展示根據本發明之一實施例的用於計算總分之步驟的輸入及輸出。

請注意，該等圖式並不按比例繪製。該等圖式意欲僅描繪本發明之典型態樣，且因此不應被認為限制本發明之範疇。雖然該等圖式說明對視訊中之人體之處理，但本發明擴展至對視訊中之其他物件之處理。在圖式中，類似編號表示圖式之間的類似元件。

40．．．視訊輸入

52．．．語意屬性

54．．．輸出

Claims

一種用於判定視訊中之一物件之部位及相關聯屬性的方法，該方法包含：接收一視訊輸入；自該視訊輸入偵測一物件且自該視訊輸入裁切該物件之一影像；接收具有該物件之相關聯部位的複數個語意屬性；產生並儲存該影像之複數個版本，每一版本具有該物件之該影像的一不同解析度；針對該複數個語意屬性，計算在該物件之該影像之該等版本中的最低解析度版本上之複數個區中之每一區處的一外觀分數，針對每一區之該複數個語意屬性中之至少一語意屬性的該外觀分數指示該至少一語意屬性中之每一語意屬性出現於該區中的一機率；針對該最低解析度版本中之每一區來分析解析度比該最低解析度版本愈來愈高之版本以計算一解析度內容脈絡分數，該最低解析度版本中之該解析度內容脈絡分數指示：針對每一區，相比在最低解析度版本中，在該等解析度愈來愈高之版本中存在較精細空間結構的一程度；確定該最低解析度版本中之身體部位及相關聯語意屬性的一最佳化組態，該確定利用該最低解析度版本之該等區中的該等外觀分數及該等解析度內容脈絡分數；及顯示及/或儲存身體部位及相關聯語意屬性之該最佳化組態。
如請求項1之方法，其進一步包含：針對該最低解析度版本上之該複數個區中之每一區計算一幾何分數，該幾何分數關於該複數個區間之角度及距離來計算一區匹配對應於該所偵測之物件之一參考物件的所儲存參考資料之一機率。
如請求項2之方法，其中該影像之該較低解析度版本的該解析度內容脈絡分數經計算為一加權平均分，該加權平均分係自該影像之該等較高解析度版本中的下一較高解析度版本的複數個分數來計算。
如請求項3之方法，其中該影像之該下一較高解析度版本的該複數個分數包含外觀分數及幾何分數。
如請求項3之方法，其中該影像之該下一較高解析度版本的該複數個分數包含外觀分數、幾何分數及解析度內容脈絡分數。
如請求項5之方法，其中該影像之該下一較高解析度版本的該加權平均分係使用以下公式除以I來計算：其中I表示該影像之該下一較高解析度版本中之區的數目，i為一區索引，Σ_i 指示自i=1至i=I之一總和，A_i 表示區i中之外觀分數，G_i 表示區i中之幾何分數，R_i 表示區i中之解析度內容脈絡分數，且W₁ 、W₂ 及W₃ 表示分別指派給該等外觀分數、該等幾何分數及該等解析度內容脈絡分數之權重。
如請求項6之方法，其進一步包含：儲存及/或顯示具有關於語意屬性及相關聯部位之空間資訊的該影像之該等較高層級版本中之至少一版本中的該影像之至少一部位的輸出。
一種電腦程式產品，其包含：一電腦可讀儲存媒體，其具有體現於該儲存媒體中之電腦可讀程式碼，該電腦可讀程式碼含有執行用於估計視訊中之一物件之部位及屬性的一方法的指令，該方法包含：接收一視訊輸入；自該視訊輸入偵測一物件且自該視訊輸入裁切該物件之一影像；接收具有該物件之相關聯部位的複數個語意屬性；產生並儲存該影像之複數個版本，每一版本具有該物件之該影像的一不同解析度；針對該複數個語意屬性，計算在該物件之該影像之該等版本中的最低解析度版本上之複數個區中之每一區處的一外觀分數，針對每一區之該複數個語意屬性中之至少一語意屬性的該外觀分數指示該至少一語意屬性中之每一語意屬性出現於該區中的一機率；針對該最低解析度版本中之每一區來分析解析度比該最低解析度版本愈來愈高之版本以計算一解析度內容脈絡分數，該最低解析度版本中之該解析度內容脈絡分數指示：針對每一區，相比在最低解析度版本中，在該等解析度愈來愈高之版本中存在較精細空間結構的一程度；確定該最低解析度版本中之身體部位及相關聯語意屬性的一最佳化組態，該確定利用該最低解析度版本之該等區中的該等外觀分數及該等解析度內容脈絡分數；及顯示及/或儲存該身體部位及相關聯語意屬性之該最佳化組態。
如請求項8之電腦程式產品，該方法進一步包含：針對該最低解析度版本上之該複數個區中之每一區計算一幾何分數，該幾何分數關於該複數個區間之角度及距離來計算一區匹配對應於該所偵測之物件之一參考物件的所儲存參考資料之一機率。
如請求項9之電腦程式產品，其中該影像之該較低解析度版本的該解析度內容脈絡分數經計算為一加權平均分，該加權平均分係自該影像之該等較高解析度版本中的下一較高解析度版本的複數個分數來計算。
如請求項10之電腦程式產品，其中該影像之該下一較高解析度版本的該複數個分數包含外觀分數及幾何分數。
如請求項10之電腦程式產品，其中該影像之該下一較高解析度版本的該複數個分數包含外觀分數、幾何分數及解析度內容脈絡分數。
如請求項12之電腦程式產品，其中該影像之該下一較高解析度版本的該加權平均分係使用以下公式除以I來計算：其中I表示該影像之該下一較高解析度版本中之區的數目，i為一區索引，Σ_i 指示自i=1至i=I之一總和，A_i 表示區i中之外觀分數，G_i 表示區i中之幾何分數，R_i 表示區i中之解析度內容脈絡分數，且W₁ 、W₂ 及W₃ 表示分別指派給該等外觀分數、該等幾何分數及該等解析度內容脈絡分數之權重。
如請求項13之電腦程式產品，該方法進一步包含：儲存及/或顯示具有關於語意屬性及相關聯部位之空間資訊的該影像之該等較高層級版本中之至少一版本中的該影像之至少一部位的輸出。
一種電腦系統，其包含一處理器及耦接至該處理器之一電腦可讀記憶體單元，該電腦可讀記憶體單元含有指令，該等指令在由該處理執行時實施用於估計視訊中之一物件之部位及屬性的一方法，該方法包含：接收一視訊輸入；自該視訊輸入偵測一物件且自該視訊輸入裁切該物件之一影像；接收具有該物件之相關聯部位的複數個語意屬性；產生並儲存該影像之複數個版本，每一版本具有該物件之該影像的一不同解析度；針對該複數個語意屬性，計算在該物件之該影像之該等版本中的最低解析度版本上之複數個區中之每一區處的一外觀分數，針對每一區之該複數個語意屬性中之至少一語意屬性的該外觀分數指示該至少一語意屬性中之每一語意屬性出現於該區中的一機率；針對該最低解析度版本中之每一區來分析解析度比該最低解析度版本愈來愈高之版本以計算一解析度內容脈絡分數，該最低解析度版本中之該解析度內容脈絡分數指示：針對每一區，相比在最低解析度版本中，在該等解析度愈來愈高之版本中存在較精細空間結構的一程度；確定該最低解析度版本中之身體部位及相關聯語意屬性的一最佳化組態，該確定利用該最低解析度版本之該等區中的該等外觀分數及該等解析度內容脈絡分數；及顯示及/或儲存身體部位及相關聯語意屬性之該最佳化組態。
如請求項15之系統，該方法進一步包含：針對該最低解析度版本上之該複數個區中之每一區計算一幾何分數，該幾何分數關於該複數個區間之角度及距離來計算一區匹配對應於該所偵測之物件之一參考物件的所儲存參考資料之一機率。
如請求項16之系統，其中該影像之該較低解析度版本的該解析度內容脈絡分數經計算為一加權平均分，該加權平均分係自該影像之該等較高解析度版本中的下一較高解析度版本的複數個分數來計算。
如請求項17之系統，其中該影像之該下一較高解析度版本的該複數個分數包含外觀分數及幾何分數。
如請求項17之系統，其中該影像之該下一較高解析度版本的該複數個分數包含外觀分數、幾何分數及解析度內容脈絡分數。
如請求項19之系統，其中該影像之該下一較高解析度版本的該加權平均分係使用以下公式除以I來計算：其中I表示該影像之該下一較高解析度版本中之區的數目，i為一區索引，Σ_i 指示自i=1至i=I之一總和，A_i 表示區i中之外觀分數，G_i 表示區i中之幾何分數，R_i 表示區i中之解析度內容脈絡分數，且W₁ 、W₂ 及W₃ 表示分別指派給該等外觀分數、該等幾何分數及該等解析度內容脈絡分數之權重。
如請求項20之系統，該方法進一步包含：儲存及/或顯示具有關於語意屬性及相關聯部位之空間資訊的該影像之該等較高層級版本中之至少一版本中的該影像之至少一部位的輸出。
一種支援電腦基礎結構之程序，該程序包含提供用於建立、整合、代管、維護及部署電腦可讀程式碼於一電腦系統中之至少一者的至少一支援服務，其中結合該計算系統之程式碼能夠執行用於估計視訊中之一物件之部位及屬性的一方法，該方法包含：接收一視訊輸入；自該視訊輸入偵測一物件且自該視訊輸入裁切該物件之一影像；接收具有該物件之相關聯部位的複數個語意屬性；產生並儲存該影像之複數個版本，每一版本具有該物件之該影像的一不同解析度；針對該複數個語意屬性，計算在該物件之該影像之該等版本中的最低解析度版本上之複數個區中之每一區處的一外觀分數，針對每一區之該複數個語意屬性中之至少一語意屬性的該外觀分數指示該至少一語意屬性中之每一語意屬性出現於該區中的一機率；針對該最低解析度版本中之每一區來分析解析度比該最低解析度版本愈來愈高之版本，以計算一解析度內容脈絡分數，該最低解析度版本中之該解析度內容脈絡分數指示：針對每一區，相比在最低解析度版本中，在該等解析度愈來愈高之版本中存在較精細空間結構的一程度；確定該最低解析度版本中之身體部位及相關聯語意屬性的一最佳化組態，該確定利用該最低解析度版本之該等區中的該等外觀分數及該等解析度內容脈絡分數；及顯示及/或儲存身體部位及相關聯語意屬性之該最佳化組態。
如請求項22之程序，該方法進一步包含：針對該最低解析度版本上之該複數個區中之每一區計算一幾何分數，該幾何分數關於該複數個區間之角度及距離來計算一區匹配對應於該所偵測之物件之一參考物件的所儲存參考資料之一機率。
如請求項23之程序，其中該影像之該較低解析度版本的該解析度內容脈絡分數經計算為一加權平均分，該加權平均分係自該影像之該等較高解析度版本中的下一較高解析度版本的複數個分數來計算。