TWI489397B

TWI489397B - 用於提供適應性手勢分析之方法、裝置及電腦程式產品

Info

Publication number: TWI489397B
Application number: TW098136283A
Authority: TW
Inventors: Xiujuan Chai; Kongqiao Wang
Original assignee: Nokia Corp
Priority date: 2008-10-30
Filing date: 2009-10-27
Publication date: 2015-06-21
Also published as: US8325978B2; WO2010049790A1; CN102257511B; KR101300400B1; KR20110090973A; EP2344983B1; CN102257511A; EP2344983A1; TW201019239A; US20100111358A1; EP2344983A4

Description

用於提供適應性手勢分析之方法、裝置及電腦程式產品

技術領域

本發明之實施例大體上相關於使用者介面技術，且更特別地有關於用以提供視覺互動系統之手勢分析的一方法、裝置及電腦程式產品。

背景

現代的通訊時期已經引起有線及無線網路的巨大擴展。電腦網路、電視網路及電話網路正經歷由於消費者需求而引起的一前所未有的技術擴展。無線及行動網路技術已經滿足了相關的消費者需求，而且提供較靈活且即時的資訊傳輸。

目前及未來的網路技術繼續促進資訊傳輸的簡單性及使用者的便利性。存在提高資訊傳輸的簡單性及使用者的便利性之需求的一領域與用於HCI(人-電腦互動)之人機介面相關。隨著近來在運算設備及手持或行動設備領域的發展改良了此等裝置之性能，許多人思索著下一代HCI的開發。再者，考慮到該等設備將趨於提高它們相當快速地根據請求而產生內容、儲存內容及/或接收內容的能力，且也考慮到諸如一行動電話的行動電子設備通常面臨顯示器大小、文字輸入速度及使用者介面(UI)之實體實施的限制，所以挑戰通常產生於HCI的脈絡中。

再者，HCI中的改良也可以增強使用者樂趣，及針對與環境中的運算設備間之使用者介面，開啟可能已對於有效HCI以其他方式呈現改變之可能性。一此類改良與手勢辨識相關。與目前用於HCI中之諸如鍵盤及滑鼠的其他互動機制相比較，有些人可能考慮手勢辨識來改良通訊的自然性及簡易性。照這樣，某些應用已經發展為能實現手勢辨識在數位家庭裝置中作為一命令控制器來使用，在檔案/網頁導航中使用或作為該通常所使用之遙控器的一替代物來使用。然而，目前手勢分析的機制通常速度慢或使用上麻煩。而且，目前適當的許多手勢分析機制在未受約束的環境中可能經受檢測或追蹤手勢的困難。例如，在變化的或某些照明組態及環境下難以區分背景的實施例可能在手勢追蹤中呈現出挑戰。因而，考慮到下一代HCI的一般使用性，可能期望在手勢分析中的改良。

本發明的一些範例的簡單發明概述

因而提供一方法、裝置及電腦程式產品以能實現手勢分析在例如一視覺互動系統中的使用。在一些示範實施例中，一適應性手勢追蹤方案可使用深度資料來分析影像資料。例如，對於各種深度範圍，可以考慮多個強度影像。在一示範實施例中，在該等各種不同深度範圍下的該等強度影像可予以動作分析，來判定一目標(例如一手或其他手勢附肢)所位於的深度，以能實現該目標的追蹤。照這樣，在一些情況下，在每一深度範圍中的動作變化可以與其他線索一起使用，以提供相對快速且準確的目標追蹤。在一些實施例中，三維(3D)深度資料可用以提供強度影像的深度資料，以能實現在不受限制環境中的適應性手勢分析。照這樣，本發明的一些示範實施例可以提供相對強健且快速的手勢分析。

在一示範實施例中，用以提供適應性手勢分析的一方法予以提供。該方法可以包括以下步驟：將一距離範圍劃分為多個深度範圍，產生至少二個影像訊框的多個強度影像，其中該等強度影像之每一強度影像可以提供指示在一各自影像訊框的一相對應深度範圍下存在物體的影像資料，判定在每一相對應的深度範圍之該等二個影像訊框之間的動作變化，且至少部分地基於該動作變化判定一目標的深度。

在另一示範實施例中，用以提供適應性手勢分析的一電腦程式產品予以提供。該電腦程式產品包括具有儲存於其上之電腦可執行程式碼部分的一電腦可讀儲存媒體。該等電腦可執行程式碼部分可包括第一、第二、第三及第四程式碼部分。該第一程式碼部分用以將一距離範圍劃分為多個深度範圍。該第二程式碼部分用以產生至少二個影像訊框的多個強度影像。該等強度影像之每一強度影像可提供指示在一各自影像訊框的一相對應深度範圍下存在物體的影像資料。該第三程式碼部分用以判定在每一相對應深度範圍的該等二個影像訊框之間的動作變化。該第四程式碼部分用以至少部分地基於該動作變化來判定一目標的深度。

在另一示範實施例中，用以提供適應性手勢分析的一裝置予以提供。該裝置可包括一處理器。該處理器可受組配以將一距離範圍劃分為多個深度範圍，產生至少二個影像訊框的多個強度影像，其中該等強度影像之每一強度影像可提供指示在一各自影像訊框的一相對應深度範圍下存在物體的影像資料，判定在每一相對應範圍的該等二個影像訊框之間的動作變化，且至少部分地基於該動作變化來判定一目標的深度。

在又一示範實施例中，用以提供適應性手勢分析的一裝置予以提供。該裝置可包括用於將一距離範圍劃分為多個深度範圍的裝置，用以產生至少二個影像訊框的多個強度影像的裝置，其中該等強度影像之每一強度影像提供指示在一各自影像訊框的一相對應深度範圍下存在物體的影像資料，用以判定在每一相對應深度範圍的該等二個影像訊框之間的動作變化的裝置，及用以至少部分地基於該動作變化，來判定一目標深度的裝置。

本發明之實施例可提供用於例如行動或固定環境中的一方法、裝置及電腦程式產品。因此，例如運算設備使用者在與他們各自的運算設備互動時，可以享受改良的性能。

圖式之多個視圖的簡單描述

因而已經大體上描述了本發明的一些實施例，現在將參照不一定按比例繪製的附加圖式，其中：第1圖繪示根據本發明之一示範實施例，一UI控制器之一適應性手勢分析過程的一範例；第2圖繪示根據本發明之一示範實施例，劃分一個三維影像的整個深度範圍的不同深度間隔的一圖式；第3圖繪示根據本發明之一示範實施例，能實現手勢分析之一裝置的一示意方塊圖；第4圖(包括第4A至4I圖)繪示根據本發明之一示範實施例，相對應於每一各種不同深度之所產生的強度影像；第5圖(其包括第5A至5N圖)繪示根據本發明之一示範實施例，相鄰訊框的強度影像及其間相對動作的一指示；第6圖(包括第6A至6F圖)繪示根據本發明之一示範實施例，判定目標深度的一過程的階段；第7圖繪示可能受益於本發明之示範實施例之一行動終端機的一方塊圖；以及第8圖是根據本發明之一示範實施例，用以提供手勢分析的一示範方法的一流程圖。

本發明之一些實施例的詳細描述

現在將在下面參照附加圖式，較完整地描述本發明的一些實施例，其中顯示了本發明的一些而不是所有的實施例。確實，本發明之各種實施例可以許多不同的形式予以具體化，且不應該理解為限制於本文所提出的實施例；另外，此等實施例遭提供使得此揭露將滿足適當的法定要件。相同的參照數字是指相同的元件。如本文所使用，該等用語“資料”、“內容”、“資訊”及相似用語可相互交換地使用，來指示能夠根據本發明之實施例發射、接收及/或儲存的資料。而且，本文所使用的該用語“示範”不提供用以傳達任何定性評估，但是替代地僅傳達說明一範例。此外，該等用語近及遠是以相對的意義用於本文中，以指出物體針對於另一物體距離某一點較近及較遠，但是不另外表示任何特定或可計量的位置。因而，任何此等用語的使用不應理解為限制本發明之實施例的精神及範圍。

本發明的一些實施例可以提供可體驗與手勢分析相關之改良的一機制。在此方面，例如一些實施例可提供一即時手勢分析方案，該即時手勢分析方案可適用於手持或其他運算設備上的互動活動。因而，一使用者能實現由手勢而不是手動操作一設備(例如該使用者的手持或運算設備，或甚至一遠端設備)來控制該設備。一些示範實施例可經由一方案來提供自動的手勢分析，該方案整合諸如一3D攝影機、一深度分析器、一動作分析器、一目標追蹤器及一手勢辨識器的各種元件。根據本發明之一些實施例的目標追蹤可以在對背景、照明、手大小變化及運動等相對低的敏感度下，提供相對準確的目標(例如手)位置。

目標追蹤可藉由一基於檢測的策略來實現於一示範實施例中。在此方面，例如每一訊框中的目標位置可基於皮膚檢測及諸如大小、位置資訊(例如在一先前訊框中)等的多個有用線索而予以判定。根據一些實施例之基於檢測的追蹤可提供相對準確且快速的追蹤，這可以與即時應用相關地使用。

第1圖繪示根據本發明之一示範實施例，一UI控制器的一適應性手勢分析過程的一範例。應理解的是，儘管一示範實施例將在下面描述於對於手之基於目標檢測之手勢分析的脈絡中，但是針對於手勢分析，也可以包括身體的其他部分。例如，針對於手勢分析，也可考慮臂定位、腳定位等，假設該等臂、腳等遭暴露以能實現目標檢測。再者，第1圖的過程僅是示範，且從而其他實施例可包括諸如包括附加或不同操作、不同次序的相同或不同操作及/或一些操作檢測的刪除。

如第1圖所示，該第1圖是顯示可與一示範實施例相關聯地實施的各種操作的一流程圖，影像資料(例如視訊資料)最初可在操作10處予以接收。在一攝影機可能是一設備的一部分或與該設備通訊時，該影像資料可以根據一示範實施例，從與執行手勢辨識之該設備相關聯的該攝影機接收。在一些實施例中，在該攝影機與用於手勢分析中的其他元件之間的通訊可以是即時的或至少延遲相對較少。在一示範實施例中，該攝影機可以是能夠同時提供3D深度資料及一強度影像的一3D攝影機40，如第2圖所示。從第2圖中可以看出，該3D攝影機能夠提供可分離成為各種不同的深度間隔之資料。該等深度間隔可能是等距的或在其間可能具有變化距離(例如近深度42及遠深度44可能具有較大的間隔46，而中間距離48可能具有較小的間隔50)。

在操作12處，深度資料及強度資料可從由該3D攝影機所收集的影像資料中擷取。在操作10處所接收之影像資料的一訊框接著可被分段成不同的深度範圍，以在操作14處提供在變化深度範圍下的強度影像。該影像資料的分析可逐個訊框地予以實施，使得在操作16處，一先前(或後續)訊框的一強度影像可以與每一各自不同深度範圍的該等經分段影像相比較。在操作18處，可以在每一深度範圍下分析動作差。因為在許多情況下，期望執行該手勢的目標從一訊框至下一訊框可能具有最大的改變，所以針對於相鄰訊框的動作分析可用於識別一目標區域(例如一能作手勢的附肢，諸如手)。因而，儘管可能不一定能夠預測該目標的深度，但是可以預測的是，與其他深度相比，期望能在該目標所處的深度看見較顯著的動作。

基於針對於各種深度範圍的動作分析，在操作20處可以識別候選的深度範圍。在此方面，例如顯示在某一臨界值之上的動作，或作為一最大值或至少相對於其他深度範圍或一給定深度範圍之訊框較高的候選深度範圍可識別為候選深度範圍。在一些示範實施例中，在操作22處，一或多個線索(例如位置、大小等)可與候選深度範圍的動作分析一起考慮。基於該等候選深度範圍的動作(且在一些情況下也基於該等線索)，在操作24處可以判定一粗略的目標深度範圍。在操作26處，可以(例如透過對該目標深度範圍中的所有像素求平均值)判定一更新的平均目標深度。在操作28處，接著基於該最終所判定的目標深度範圍，可以判定且追蹤一目標區域。

其後，可繼續追蹤該目標，且針對於特徵的動作或改變可用於手勢分析，該等特徵可從所追蹤之目標區域(例如一手的區域)中擷取。在一示範實施例中，手勢分析可透過將來自該所追蹤之目標區域的特徵與在相對應於特定手勢之一特徵儲存資料庫中的特徵相比較，而獲得執行。透過判定在該資料庫(例如一匹配資料庫)中的特徵與從該所追蹤之目標區域中所擷取的特徵之間相匹配(或實質上在一臨界值內相似)，可以辨識相對應於該特定手勢的一手勢，該特定手勢與來自該資料庫之該等相匹配特徵相關聯。

如果辨識了一特定的手勢，那麼就可以執行一相對應的命令。照這樣，例如一資料庫可儲存將手勢與各自命令或UI功能相關聯的資訊。因而，例如如果在播放音樂或視訊內容時，一緊握的拳頭遭辨識，且該緊握的拳頭與一停止命令相關聯，則該所演示的音樂或視訊內容停止。

第3圖繪示根據本發明之一示範實施例，能實現適應性手勢分析之一裝置的一示意方塊圖。現在將參照第3圖來描述本發明的一示範實施例，其中能實現適應性手勢分析之一裝置的某些元件予以顯示。第3圖的裝置可用於例如一行動終端機(或第7圖的行動終端機110)或各種其他行動及固定的設備(諸如一網路設備、個人電腦、膝上型電腦等)上。可選擇地，實施例可使用於一結合設備上。因此，本發明之一些實施例可完全在一單一設備(例如該行動終端機110)處予以具體化，或藉由在一客戶/伺服器關係中的設備予以具體化。再者，應理解的是，下面所述的該等設備或元件可以不是強制的，且因而一些設備或元件可在某些實施例中予以省略。

現在參照第3圖，能實現適應性手勢分析的一裝置予以提供。該裝置可包括一處理器70、一使用者介面72、一通訊介面74及一記憶體設備76或另外與該處理器70、該使用者介面72、該通訊介面74及該記憶體設備76通訊。該記憶體設備76可包括例如依電性及/或非依電性記憶體。該記憶體設備76可受組配以儲存用於使該裝置能夠根據本發明之示範實施例來執行各種功能的資訊、資料、應用程式、指令等。例如，該記憶體設備76可受組配以緩衝用於藉由該處理器70來處理的輸入資料。附加地或可選擇地，該記憶體設備76可受組配以儲存由該處理器70所執行的指令。作為另一替代，該記憶體設備76可以是儲存資訊及/或媒體內容之多個資料庫中的一個。

該處理器70可以多個不同的方式予以具體化。例如，該處理器70可具體化為諸如一處理元件、一輔助運算器、一控制器的各種處理裝置，或包括諸如一ASIC(特定應用積體電路)、一FPGA(現場可程式閘陣列)、一硬體加速器等之積體電路的各種其他處理設備。在一示範實施例中，該處理器70可受組配以執行儲存於該記憶體設備76中或可由該處理器70以其他方式存取的指令。

同時，該通訊介面74可以是具體化於硬體、軟體或硬體與軟體之一結合中之諸如一設備或電路的任何裝置，該任何裝置受組配以從與該裝置通訊的一網路及/或任何其他設備或模組中接收資料，及/或將資料發射至與該裝置通訊的該網路及/或任何其他設備或模組。在此方面，該通訊介面74可包括例如一天線(或多個天線)，及能實現與一無線通訊網路通訊的支援硬體及/或軟體。在固定的環境中，該通訊介面74可取捨地或同樣地支援有線通訊。照這樣，該通訊介面74可包括一通訊數據機及/或用於支援經由電纜、數位用戶線路(DSL)、通用串列匯流排(USB)或其他機制之通訊的其他硬體/軟體。

該使用者介面72可與該處理器70通訊，以在該使用者介面72處接收一使用者輸入指示，及/或將一可聽、可見、機械或其他輸出提供給該使用者。照這樣，該使用者介面72可包括例如一鍵盤、一滑鼠、一搖桿、一顯示器、一觸摸螢幕、一麥克風、一揚聲器或其他輸入/輸出機制。在該裝置具體化為一伺服器或一些其他網路設備的一示範實施例中，可以限制或排除該使用者介面72。然而，在該裝置具體化為一行動終端機(例如該行動終端機110)的一實施例中，該使用者介面72可在其他設備或元件中包括一揚聲器、一麥克風、一顯示器及一鍵盤等中的任何一個或所有。

在一示範實施例中，該處理器70可具體化為包括或另外控制一深度分析器78、一動作分析器80、一目標追蹤器82及一手勢辨識器84。該深度分析器78、該動作分析器80、該目標追蹤器82及該手勢辨識器84可分別是具體化於硬體、軟體或硬體與軟體之一結合(例如在軟體控制下操作的處理器70)中的諸如一設備或電路的任何裝置，該任何裝置受組配以分別執行該深度分析器78、該動作分析器80、該目標追蹤器82及該手勢辨識器84的相對應功能，如下所述。在一示範實施例中，該深度分析器78、該動作分析器80、該目標追蹤器82及/或該手勢辨識器84可分別與一媒體捕獲模組(例如第7圖的該攝影機模組137)通訊，以接收用於如下所述分析中的影像資料。

該深度分析器78可受組配以將每一訊框的輸入影像資料分段為與各種不同深度範圍之每一深度範圍相對應的資料。該深度分析器78可接著產生與各種不同深度範圍之每一深度範圍相對應的強度影像。在一示範實施例中，該深度分析器78可受組配以將該整個距離範圍分離為許多小的間隔，例如D ={D ₁ D ₂ …D _N }。該等間隔可以是不相等的，如第3圖所示。該深度分析器78可接著對於每一強度訊框I ₁ ，產生每一深度範圍的一相對應強度影像。針對於每一深度範圍之強度影像的產生，將不在該相對應強度影像的深度範圍下之任何點的強度設定為零。因而，僅對於在該等各種不同深度範圍下的每一強度影像，提供在該各自深度範圍下的影像強度。

第4圖(包括第4A至4I圖)顯示在一訊框的不同深度範圍中，可由該深度分析器78所產生的強度影像的一範例。在此方面，第4A圖顯示未經該深度分析器78修改的一所捕獲強度影像。第4B至4I圖顯示在各種不同範圍之每一範圍下所產生的強度影像，該等各種不同範圍從距離產生該所捕獲強度影像之該攝影機最近(在第4B圖處)延伸至距離該攝影機最遠(在第4I圖處)。在第4B圖中，表示距離該攝影機最近之資料的強度影像檢測到該強度影像中所聚焦的人的一隻手。表示未在該手深度處之物體的所有影像資料已遭設定為零。在第4C圖中，該強度影像表示在該強度影像中該人面部及軀幹的近似深度處的資料，且將在所有其他深度處的資料設定為零。在第4D圖中，該強度影像表示該人的椅子的近似深度處的資料，設定所有其他資料為零。此過程繼續，使得例如在第4F圖中該強度影像表示在另一人之椅子的近似深度處的資料，設定所有其他資料為零，且在第4H圖中，該強度影像表示在該另一人之後之工作站的近似深度處的資料，設定所有其他資料為零。在一示範實施例中，由該深度分析器78所產生的該等多個強度影像可與該動作分析器80通訊，而用於繼續的處理。

該動作分析器80可受組配以相對於在同一相對應深度範圍下的相鄰資料訊框，分析在每一深度範圍下的資料。因而，例如該動作分析器80可將在同一深度範圍下的一第一訊框(例如第4B圖中的該訊框)與第二訊框(例如一相鄰訊框)的一強度影像依序相比較，以檢測從一訊框至下一訊框的動作。如上所示，與在該等各種不同深度範圍下的物體相比，一打手勢的手可能致使在後續的訊框中檢測到較多的動作。照這樣，例如，如果該強度影像中所聚焦的該人向該攝影機打手勢，那麼可能第4B圖之該訊框的一相鄰訊框(先前的或後續的)將顯示相比於該等其他訊框(例如第4C至4I圖的該等訊框)的動作(或至少較多的動作)，因為該等其他訊框顯示相對應於沒有運動之物體的資料，或至少較不可能顯示像該人的手那樣多的移動。

在一示範實施例中，該動作分析器80可受組配以根據下面的公式來運算在該目前訊框^I _t 與該先前訊框^I _t-1 之間每一深度範圍的一影像差，其中W 及H 分別是影像寬度及高度，及。該值可認為是相對動作，且在每一深度範圍中給出該動作的範例。

第5圖(其包括第5A至5N圖)繪示根據一示範實施例，該動作分析器80之操作的一範例。在此方面，第5A圖顯示一先前訊框的一強度影像，而第5B圖顯示該目前訊框的一強度影像。第5C至5J圖顯示相對於由該深度分析器78所產生的該等目前及先前訊框，在四個不同深度範圍之每一深度範圍下的強度影像。特別的是，第5C圖表示在一第一深度範圍下，相對應於該先前訊框的一強度影像。第5D圖表示在一第二深度範圍下，相對應於該先前訊框的一強度影像。第5E圖表示在一第三深度範圍下，相對應於該先前訊框的一強度影像。第5F圖表示在一第四深度範圍下，相對應於該先前訊框的一強度影像。同時，第5G圖表示在該第一深度範圍下，相對應於該目前訊框的一強度影像。第5H圖表示在該第二深度範圍下，相對應於該目前訊框的一強度影像。第5I圖表示在該第三深度範圍下，相對應於該目前訊框的一強度影像。第5J圖表示在該第四深度範圍下，相對應於該目前訊框的一強度影像。第5K至5N圖表示該動作分析器80的一輸出，該輸出指示從該先前訊框至該目前訊框的相對動作。特別的是，第5K圖顯示在該第一深度範圍下，沒有注意到從該先前訊框至該目前訊框的相對動作。第5L圖顯示注意到從該先前訊框至該目前訊框的相對動作，因為該手從該第三深度範圍(參見第5E圖)移動至該第二深度範圍(參見第5H圖)。第5M圖顯示從該先前訊框至該目前訊框已檢測到進入該第三深度範圍的少量動作，因為該手已離開該第三深度範圍而進入該第二深度範圍。第5N圖顯示在該第四深度範圍下，該等目前與先前訊框之間實質上沒有相對動作。

從由該動作分析器80所執行的該運算步驟中，可理解的是，相對動作僅涉及該目前訊框之特定深度範圍中的該等非零像素。因為該等非零像素相對應於位於該特定深度範圍中的該等物體(例如該目標或其他物體)，所以相對動作可作為用以找出該候選目標深度的一量測來使用。在此方面，顯示該最大相對動作(例如該第二深度範圍)的該深度在第5K圖中指示，該目標(例如該手)在該第二深度範圍中。

在一些實施例中，也可以例如經由來運算絕對動作。該絕對動作運算可用以評估在某一深度範圍中是否出現動作。提供一動作變化指示的此等二個量測(相對動作及絕對動作)可進一步用於目標深度判定中，下面將予以更詳細地描述。

使用每一深度範圍所獲得的動作變化，可能區別該目標與其他物體。在一些情況下，諸如位置、大小等的一或多個附加線索可用以幫助從其他物體中區別該目標。該目標追蹤器82可受組配以自動地判定(例如基於在各種不同深度範圍之相鄰訊框之間的該動作變化)該目標的深度。在此方面，一旦如上所述已判定該動作變化，該目標追蹤器82就可受組配以基於在該相對應深度範圍中所判定的該相對動作，且也可能基於該(等)附加線索，來選擇該等可能的深度範圍(例如候選深度範圍)中的一個作為該目標深度範圍。該目標追蹤器82可接著從該相對應深度範圍之所選定強度影像中擷取該目標，且追蹤該目標。

在一示範實施例中，該目標追蹤器82可受組配以執行下面的操作：

1)在先前訊框中所判定的該目標深度範圍D _k 中，將該影像差與一預定臨界值T 相比較。如果，那麼該目標的深度被視為未改變。

2)如果，那麼該目標的深度被視為已改變。考慮該目標動作的連續性，該目標追蹤器82可以從多個相鄰深度範圍D _k 中選擇m 個候選深度範圍。該目標追蹤器82可接著根據該相對動作來將該等深度範圍排序。接著，根據最高的m 個，可以選擇該等相對應的深度範圍作為目標深度的候選者。

3)非目標物體接著可以被排除以揭示該目標的深度範圍。在此方面，例如該目標追蹤器82可受組配以進一步透過整合多個限制條件(例如位置資訊、大小因素等)，而分析在每一候選深度下的該等多個強度影像(相對應於)，以得到該目標位置。在一示範實施例中，位置可表示為某一物體區域的重心。對於該等相鄰的二個訊框，該目標區域的大小及位置可能將不會有巨大的改變。因而，該位置改變可用作判定哪一個物體是需追蹤之目標的一有效的限制條件。在第6圖所示的範例中，在某一深度範圍中的位置改變可定義為在該目前訊框中之該物體的重心與在先前訊框中的該目標位置之間的距離。因而，與該最小位置改變及一相似大小相對應的該物體遭判定為該目標。因此，該物體深度被視為是目標的粗略深度D _k’ ，如第6圖的最下面一列(第6F圖)所示。

4)一旦判定該目標的深度範圍D _k’ ，就可以使用一後續目標分段公式來提供較準確的目標深度：，其中n是在於該深度範圍D _k’ 中之該像素的數量。接著目標像素可藉由一深度限制條件：來獲得，其中d _T 是該經驗臨界值。

該目標追蹤器82可受組配以經由該深度判定過程及包含該目標之該強度影像之分段來追蹤該目標(例如該使用者的手)。為了能實現針對於一手的手勢辨識，該手的準確位置可改良分析及產生的輸出的品質。基於上述用於判定手位置的機制，手的追蹤可在連續的訊框上完成以能實現手勢檢測。

一些實施例也可使用該手勢辨識器84，其可受組配以執行在與該目標相關聯的特徵以及與一特定已知手勢相關聯的特徵之間的手勢匹配。例如，可提供已知手勢及它們各自特徵的一資料庫，以與一目前手勢的特徵相比較。如果在所比較之手勢之間的相似性足夠，那麼該手勢辨識器84可將一目前手勢與該特定的已知手勢相關聯，從而識別或辨識該目前手勢。

在一示範實施例中，已知手勢的資料庫可以由該使用者(或由另一使用者)在離線階段中產生。因而，可以收集每一手勢的多個樣本以組成一手勢展示廊。在一示範實施例中，最初可以執行大小的正規化，且每一樣本可根據上述方案轉換為一特徵向量且記錄為用於匹配目的的一範本。一所辨識的手勢可用以觸發或致使與該所辨識手勢相關聯之一特定命令的執行。在此方面，例如該手勢辨識器84可將一所辨識手勢的身分與該處理器70通訊，該處理器70可執行(例如經由該使用者介面72)一相對應UI命令。該命令可用以引導一UI系統來執行一相對應操作。

第6圖(其包括第6A至6F圖)顯示說明目標深度判定的整個程序的一範例。第6A圖顯示一先前訊框的一強度影像，且第6B圖顯示該目前訊框的一強度影像。如第6C圖所繪示的一系列影像所示，該深度分析器78對於與該先前訊框相關的各種不同深度，判定每一各自深度範圍的強度影像。該深度分析器78也對於與該目前訊框相關之各自的各種不同深度，判定每一各自深度範圍的強度影像，如第6D圖中之一系列影像所示。該動作分析器80接著判定在每一深度範圍下的該等目前與先前訊框之間的動作變化，如第6E圖中之一系列影像所示。該目標追蹤器82接著透過整合每一深度範圍的動作及位置資訊，來執行目標深度範圍判定，如第6F圖中之一系列影像所示。如第6圖所示，該目標(例如在該等目前及先前訊框中所示的人的手)在該先前訊框中位於深度3中。然而，透過相鄰深度範圍的分析，在該目前訊框中，判定該目標的新位置在深度4中。在深度2中的動作由另一物體(在這種情況下，是另一人的手)產生，且為了考慮位置的限制條件而將其排除。

基於上面的描述，本發明之實施例可提供影像的分段，以定位一目標(例如一隻手)，從而以一有效的方式能實現強健的追蹤。因此，可以改良相對準確的目標追蹤結果及手的手勢辨識率。該3D攝影機的使用能實現即時地提供3D深度資料，該3D深度資料可由本發明之實施例使用，來排除或實質上減小背景及照明對於手勢辨識準確度的影響。深度範圍的分割也可在每一訊框之不同深度下幫助內容的分析。本文所述的該動作運算可能實現在每一深度範圍內的物體動作捕獲，該物體運動包括該目標及其他物體的動作。透過將在不同範圍中的該等動作相比較，及整合多個有用的線索，該目標的深度可自動地予以判定，以能實現該手的擷取。因此，基於該等準確的手的分段及追蹤結果，該手勢辨識準確度可予以改良。因而，例如追蹤及辨識性能可予以改良，且互動的可用性也可予以改良。

現在將參照第7圖來描述本發明的一示範實施例，其中顯示能實現適應性手勢分析的一裝置的某些元件。照這樣，第7圖繪示可受益於本發明之示範實施例之一行動終端機110的一方塊圖。然而，應理解的是，所繪示及其後所述的一行動終端機僅是可受益於本發明之一些實施例的一說明性類型的行動終端機，且因而不應理解為限制本發明之實施例的範圍。諸如可攜式數位助理(PDA)、呼叫器、行動電視、遊戲設備、所有類型的電腦(例如膝上型或行動電腦)、攝影機、音訊/視訊播放器、收音機、全球定位系統(GPS)設備或上述之任何結合的多個類型的行動終端機，及其他類型的通訊系統可容易地使用本發明之實施例。

此外，儘管本發明之方法的多個實施例可由或結合一行動終端機110來執行或使用，但是該方法可由或結合除了一行動終端機(例如個人電腦(PC)、伺服器等)之外的設備來使用。而且，本發明之實施例的系統及方法最初可能已經結合行動通訊應用予以描述。然而，應理解的是，本發明之實施例的系統及方法可結合在該等行動通訊產業內及該等行動通訊產業之外的產業中的各種其他應用來使用。

該行動終端機110可包括與一發射器114及一接收器116操作地通訊的一天線112(或多個天線)。該行動終端機110可更包括諸如一控制器120(或處理器70)或其他處理元件的一裝置，該裝置分別將信號提供該發射器114，且接收來自該接收器116的信號。該等信號可包括根據該可應用蜂巢式系統的空中介面標準來發信的資訊，及/或可包括與語音、所接收資料及/或使用者所產生/所發射的資料相對應的資料。在此方面，該行動終端機110能夠在一或多個空中介面標準、通訊協定、調變類型及接取類型下操作。藉由說明，該行動終端機110能夠根據多個第一、第二、第三及/或第四代通訊協定等中的任何一個來操作。例如，該行動終端機110能夠根據第二代(2G)無線通訊協定IS-136(分時多重接取(TDMA)、GSM(行動通訊全球系統))及IS-95(分碼多重接取(CDMA))，或根據諸如通用行動電信系統(UMTS)、CDMA2000、寬頻CDMA(WCDMA)及分時同步CDMA(TD-SCDMA)的第三代(3G)無線通訊協定，根據諸如E-UTRAN(進化式通用地面無線電接取網路)的3.9G無線通訊協定，根據第四代(4G)無線通訊協定等來操作。可選擇地(或附加地)，該行動終端機110能夠根據非蜂巢式通訊機制來操作。例如，該行動終端機110能夠在一無線區域網路(WLAN)或其他通訊網路中通訊。

應理解的是，諸如該控制器120的該裝置可包括用於實施尤其是該行動終端機110之音訊/視訊及邏輯功能的電路。例如，該控制器120可包含一數位信號處理器設備、一微處理器設備及各種類比至數位轉換器、數位至類比轉換器及/或其他支援電路。該行動終端機110的控制及信號處理功能可根據它們各自的性能而分配於此等設備之間。該控制器120從而也可包括用以在調變及發射之前編碼及交錯訊息及資料的功能。該控制器120可附加地包括一內部語音編碼器，且可包括一內部資料數據機。而且，該控制器120可包括用以操作儲存於記憶體中之一或多個軟體程式的功能。例如，該控制器120能夠操作一連接程式，諸如一習知的網頁瀏覽器。該連接程式可接著根據例如一無線應用協定(WAP)、超文本傳輸協定(HTTP)等，而允許該行動終端機110發射及接收網頁內容，諸如基於位置的內容及/或其他的網頁內容。

該行動終端機110也可包含一使用者介面，該使用者介面包括可操作地耦接於該控制器120之諸如一耳機或揚聲器124、一麥克風126、一顯示器128的一輸出設備及一使用者輸入介面。允許該行動終端機110接收資料的該使用者輸入介面可包括允許該行動終端機110接收資料之多個設備的任何一個，諸如一鍵盤130、一觸摸顯示器(圖未示)或其他輸入設備。在包括該鍵盤130的實施例中，該鍵盤130可包括數字(0-9)及相關鍵(#、*)，及用於操作該行動終端機110的其他硬鍵及軟鍵。可選擇地，該鍵盤130可包括一標準傳統鍵盤(QWERTY)的鍵盤安排。該鍵盤130也可包括具有相關聯功能的各種軟鍵。附加地或可選擇地，該行動終端機110可包括諸如一搖桿或其他使用者輸入介面的一介面設備。該行動終端機110更包括諸如一振動電池組的一電池134，用於供電給用以操作該行動終端機110的各種電路，及可取捨地提供機械振動作為一可檢測的輸出。

該行動終端機110可更包括一使用者身分模組(UIM)138。該UIM 138典型地是具有一內置處理器的一記憶體設備。該UIM 138可包括例如一用戶身分模組(SIM)、一通用積體電路卡(UICC)、一通用用戶身分模組(USIM)、一可移除使用者身分模組(R-UIM)等。該UIM 138典型地儲存與一行動用戶相關的資訊元件。該行動終端機110可配備除了該UIM 138之外的記憶體。該行動終端機10可包括依電性記憶體140及/或非依電性記憶體142。例如，依電性記憶體140可包括隨機存取記憶體(RAM)，該隨機存取記憶體(RAM)包括動態及/或靜態記憶體RAM、晶片內或晶片外快取記憶體等。可嵌入及/或可移除的非依電性記憶體142可包括例如唯讀記憶體、快閃記憶體、磁儲存設備(例如硬碟、軟式磁碟機、磁帶等)、光碟機及/或媒體、非依電性隨機存取記憶體(NVRAM)等。與依電性記憶體140相同，非依電性記憶體142可包括用於暫時儲存資料的一快取區域。該等記憶體可儲存由該行動終端機110所使用之用以實施該行動終端機110之功能的多件資訊及資料的任何一件。例如，該等記憶體可包括諸如一國際行動裝備識別(IMEI)碼的一識別符，該識別符能夠唯一地識別該行動終端機110。再者，該等記憶體可儲存用以判定蜂巢格id資訊的指令。特別的是，該等記憶體可儲存由該控制器120執行的一應用程式，該應用程式判定該行動終端機110通訊之該目前蜂巢格的一身分，即蜂巢格id身分或蜂巢格id資訊。

在一示範實施例中，該行動終端機110可包括與該控制器120通訊的一媒體捕獲模組，諸如一攝影機、視訊及/或音訊模組。該媒體捕獲模組可以是用以捕獲用於儲存、顯示或發射的一影像、視訊及/或音訊的任何裝置。例如，在該媒體捕獲模組是一攝影機模組137的一示範實施例中，該攝影機模組137可包括能夠由一所捕獲影像形成一數位影像檔案的一數位攝影機。照這樣，該攝影機模組137可包括用於由一所捕獲影像建立一數位影像檔案所需要之諸如一透鏡或其他光學設備的所有硬體及軟體。在一示範實施例中，該攝影機模組137可以是一3D攝影機，該3D攝影機能夠捕獲表示深度及強度的3D影像資訊。

第8圖是根據本發明之一些示範實施例的一系統、方法及程式產品的一流程圖。應理解的是，該流程圖的每一方塊或步驟及在該流程圖中方塊的結合，可由包括一或多個電腦程式指令之諸如硬體、韌體及/或軟體的各種裝置來實施。例如，該等上述程序的一或多個程序可由電腦程式指令予以具體化。在此方面，具體化該等上述程序的該等電腦程式指令可由一行動終端機或使用本發明之實施例之其他裝置的一記憶體設備來儲存，且由在該行動終端機或其他裝置中的一處理器來執行。應理解的是，任何此等電腦程式指令可載入一電腦或其他可規劃裝置(即硬體)中以產生一機器，使得執行於該電腦(例如經由一處理器)或其他可規劃裝置上的該等指令建立用以實施在該(等)流程圖方塊或步驟中所指定之功能的裝置。此等電腦程式指令也可儲存於一電腦可讀記憶體中，該電腦可讀記憶體可引導一電腦(例如該處理器或另一運算設備)或其他可規劃裝置以一特定的方式發揮作用，使得儲存於該電腦可讀記憶體中的該等指令產生一製品，該製品包括實施在該(等)流程圖方塊或步驟中所指定之功能的指令裝置。該等電腦程式指令也可載入一電腦或其他可規劃裝置上，以致使一系列的操作步驟執行於該電腦或其他可規劃裝置上，而產生一以電腦執行的過程，使得執行於該電腦或其他可規劃裝置上的該等指令提供用以實施在該(等)流程圖方塊或步驟中所指定之功能的步驟。

因此，該流程圖的方塊或步驟支援用以執行該等所指定功能之裝置的結合、用以執行該等所指定功能之步驟的結合及用以執行該等所指定功能之程式指令裝置。還應理解的是，該流程圖的一或多個方塊或步驟，及在該流程圖中方塊或步驟的結合可由執行該等所指定功能或步驟之特定用途硬體為基式電腦系統，或特定用途硬體與電腦指令之結合來實施。

在此方面，例如第8圖中所繪示之用以提供適應性手勢分析的一方法的一實施例可包括以下步驟：在操作200處將一距離範圍劃分為多個深度範圍，且在操作210處產生至少二個影像訊框的多個強度影像。該等強度影像的每一強度影像可提供表示在一各自影像訊框的一相對應深度範圍下存在物體的影像資料。該方法更包括以下步驟：在操作220處判定在每一相對應深度範圍的二個影像訊框之間的動作變化，且在操作230處至少部分地基於該動作變化來判定一目標的深度。

在一示範實施例中，劃分該距離範圍包括在近距離與遠距離處選擇與在該等近距離與遠距離之間的距離間隔相比，較寬的距離間隔。在一些情況下，產生該等多個強度影像可包括以下步驟：產生相鄰訊框的多個強度影像，或對於一特定訊框之每一相對應深度範圍，將與不在一目前深度範圍下之物體相對應的資料設定為一預定值，且保留與該目前深度範圍相對應的資料。在一示範實施例中，判定動作變化可包括以下步驟：將在一目前訊框中的物體資料與在一先前訊框中的物體資料相比較，以判定從該先前訊框至該目前訊框的強度改變，且將未表示該強度改變的資料設定為該預定值。在一些實施例中，判定該目標的深度可包括基於該動作變化與目標位置線索資訊的一整合，判定目標深度。

在一示範實施例中，該方法也可包括另一些可取捨的操作，該等可取捨操作的一些範例在第8圖中以虛線來顯示。在此方面，示範附加操作可包括基於該目標深度的判定而包括追蹤該目標動作的操作240。在一些實施例中，該方法可更包括在操作250處，辨識該目標的手勢特徵，以基於一所辨識的手勢啟始一使用者介面命令。

在一示範實施例中，用以執行上面第8圖之方法的一裝置可包含一處理器(例如該處理器70)，該處理器受組配以執行該等上述操作(200-250)的一些或每一操作。該處理器可例如受組配以透過執行硬體所實施的邏輯功能，執行所儲存的指令或執行用以執行該等操作之每一操作的演算法，來執行該等操作(200-250)。可選擇地，該裝置可包含用於執行該等上述操作之每一操作的裝置。在此方面，根據一示範實施例，用以執行操作200-250之裝置的範例可包含例如該處理器70、該深度分析器78、該動作分析器80、該目標追蹤器82及該手勢辨識器84中各自一個，或由該處理器所執行用以控制上述手勢辨識、手追蹤及深度判定的一演算法。

受益於前述描述及相關聯圖式中所提出的教示之該等發明所屬之該技藝中具有通常知識者將會想到在此所提出的本發明之許多修改及其他實施例。因此，應理解的是，本發明之該等實施例不限於所揭露的該等特定的實施例，且該等修改及其他實施例企圖被包括在該等後附申請專利範圍的範圍內。而且，雖然該等前述描述及該等相關聯圖式在元件及/或功能的某些示範結合的脈絡中描述了示範實施例，但是應理解的是，元件及/或功能的不同結合可由其他實施例來提供而不脫離該等附加申請專利範圍的範圍。在此方面，例如，與上面所明確描述者相比，元件及/或功能的不同結合也可考量為，可在該等申請專利範圍中的一些中提出。雖然特定的術語在此被使用，但它們只是以一般及描述性的意義，且沒有限制性之目的。

10~28．．．操作

40．．．3D攝影機

42．．．近深度

44．．．遠深度

46．．．間隔

48．．．中間距離

50．．．間隔

70．．．處理器

72．．．使用者介面

74．．．通訊介面

76．．．記憶體設備

78．．．深度分析器

80．．．動作分析器

82．．．目標追蹤器

84．．．手勢辨識器

110．．．行動終端機

112．．．天線

114．．．發射器

116．．．接收器

120．．．控制器

124．．．耳機或揚聲器

126．．．麥克風

128．．．顯示器

130．．．鍵盤

134．．．電池

137．．．攝影機模組

138．．．使用者身分模組(UIM)

140．．．依電性記憶體

142．．．非依電性記憶體

200~250．．．操作

第1圖繪示根據本發明之一示範實施例，一UI控制器之一適應性手勢分析過程的一範例；

第2圖繪示根據本發明之一示範實施例，劃分一個三維影像的整個深度範圍的不同深度間隔的一圖式；

第3圖繪示根據本發明之一示範實施例，能實現手勢分析之一裝置的一示意方塊圖；

第4圖(包括第4A至4I圖)繪示根據本發明之一示範實施例，相對應於每一各種不同深度之所產生的強度影像；

第5圖(其包括第5A至5N圖)繪示根據本發明之一示範實施例，相鄰訊框的強度影像及其間相對動作的一指示；

第6圖(包括第6A至6F圖)繪示根據本發明之一示範實施例，判定目標深度的一過程的階段；

第7圖繪示可能受益於本發明之示範實施例之一行動終端機的一方塊圖；以及

第8圖是根據本發明之一示範實施例，用以提供手勢分析的一示範方法的一流程圖。

200~250．．．操作

Claims

一種方法，包含以下步驟：將一距離範圍劃分為多個深度範圍；產生至少二個影像訊框的多個強度影像，該等強度影像之每一強度影像提供指示在一各自影像訊框的該等多個深度範圍之一相對應深度範圍中存在物體的影像資料；判定在每一相對應深度範圍之該等二個影像訊框之間的動作變化；及至少部分地基於該動作變化，來判定一目標的深度。
如申請專利範圍第1項所述之方法，其中劃分該距離範圍包含以下步驟：在近距離與遠距離處選擇比該等近距離與遠距離之間的距離間隔還寬的距離間隔。
如申請專利範圍第1項所述之方法，其中產生該等多個強度影像包含以下步驟：產生相鄰訊框之多個強度影像。
如申請專利範圍第1項所述之方法，其中產生該等多個強度影像包含以下步驟：對於一特定訊框的每一相對應深度範圍，將與不在一目前深度範圍中之物體相對應的資料設定為一預定值，且保留與該目前深度範圍相對應的資料。
如申請專利範圍第4項所述之方法，其中判定動作變化包含以下步驟：將在一目前訊框中的物體資料與在一先前訊框中的物體資料相比較，以判定在從該先前訊框至該目前訊框之強度中的一改變，且將未指示強度中該變化的資料設定為該預定值。
如申請專利範圍第1項所述之方法，其中判定該目標的深度包含以下步驟：基於該動作變化與目標位置線索資訊的一整合，來判定目標深度。
如申請專利範圍第1項所述之方法，更包含以下步驟：基於該目標之該深度的該判定，追蹤該目標的動作。
如申請專利範圍第7項所述之方法，更包含以下步驟：辨識該目標的手勢特徵，以基於一所辨識的手勢，啟始一使用者介面命令。
一種裝置，包含：一處理器；及一記憶體，其包括電腦程式碼，該記憶體和該電腦程式碼與該處理器組配來致使該裝置執行至少下面的步驟：將一距離範圍劃分為多個深度範圍；產生至少二個影像訊框的多個強度影像，該等強度影像之每一強度影像提供指示在一各自影像訊框的該等多個深度範圍之一相對應深度範圍中存在物體的影像資料；判定在每一相對應深度範圍之該等二個影像訊框之間的動作變化；及至少部分地基於該動作變化，來判定一目標的深度。
如申請專利範圍第9項所述之裝置，其中包括該電腦程式碼之該記憶體與該處理器進一步組配來致使該裝置透過在近距離及遠距離處選擇比該等近距離與遠距離之間的距離間隔還寬的距離間隔，來劃分該距離範圍。
如申請專利範圍第9項所述之裝置，其中包括該電腦程式碼之該記憶體與該處理器進一步組配來致使該裝置透過產生相鄰訊框的多個強度影像，來產生該等多個強度影像。
如申請專利範圍第9項所述之裝置，其中包括該電腦程式碼之該記憶體與該處理器進一步組配來致使該裝置透過對於一特定訊框的每一相對應深度範圍，將與不在一目前深度範圍中的物體相對應的資料設定為一預定值，且保留與該目前深度範圍相對應的資料，來產生該等多個強度影像。
如申請專利範圍第12項所述之裝置，其中包括該電腦程式碼之該記憶體與該處理器進一步組配來致使該裝置透過將一目前訊框中的物體資料與在一先前訊框中的物體資料相比較，來判定在從該先前訊框至該目前訊框的一強度中的一改變，且將未指示強度中之該改變的資料設定為該預定值，從而判定動作變化。
如申請專利範圍第9項所述之裝置，其中包括該電腦程式碼之該記憶體與該處理器進一步組配來致使該裝置透過基於該動作變化與目標位置線索資訊的一整合來判定目標深度，從而判定該目標的深度。
如申請專利範圍第9項所述之裝置，其中包括該電腦程式碼之該記憶體與該處理器進一步組配來致使該裝置基於該目標之該深度的該判定，來追蹤該目標的動作。
如申請專利範圍第15項所述之裝置，其中包括該電腦程式碼之該記憶體與該處理器進一步組配來致使該裝置辨識該目標的手勢特徵，以基於一所辨識的手勢，啟始一使用者介面命令。
一種電腦程式產品，其包含具有儲存於其上之電腦可執行程式碼指令的至少一個電腦可讀非暫時性儲存媒體，該等電腦可執行程式碼指令包含：多個第一程式碼指令，其等用以將一距離範圍劃分為多個深度範圍；多個第二程式碼指令，其等用以產生至少二個影像訊框的多個強度影像，該等強度影像之每一強度影像提供指示在一各自影像訊框的該等多個深度範圍之一相對應深度範圍中存在物體的影像資料；多個第三程式碼指令，其等用以判定每一相對應深度範圍之該等二個影像訊框之間的動作變化；及多個第四程式碼指令，其等用以至少部分地基於該動作變化，來判定一目標的深度。
如申請專利範圍第17項所述之電腦程式產品，其中該等第一程式碼指令包括用以在近距離與遠距離處選擇比該等近距離與遠距離之間的距離間隔還寬的距離間隔的指令。
如申請專利範圍第17項所述之電腦程式產品，其中該等第二程式碼指令包括用以產生相鄰訊框之該等多個強度影像的指令。
如申請專利範圍第17項所述之電腦程式產品，其中該等第二程式碼指令包括用以對於一特定訊框的每一相對應深度範圍，將與不在一目前深度範圍中之物體相對應的資料設定為一預定值，且保留與該目前深度範圍相對應的資料的指令。
如申請專利範圍第20項所述之電腦程式產品，其中該等第三程式碼指令包括用以將一目前訊框中的物體資料與一先前訊框中的物體資料相比較，來判定從該先前訊框至該目前訊框的強度中的一改變，且將未指示強度中之該改變的資料設定為該預定值的指令。
如申請專利範圍第17項所述之電腦程式產品，其中該等第四程式碼指令包括用以基於該動作變化與目標位置線索資訊的一整合，來判定目標深度的指令。
如申請專利範圍第17項所述之電腦程式產品，更包含多個第五程式碼指令，其等用以基於該目標之該深度的該判定，來追蹤該目標的動作。
如申請專利範圍第23項所述之電腦程式產品，更包含多個第六程式碼指令，其等用以辨識該目標的手勢特徵，以基於一所辨識的手勢，啟始一使用者介面命令。
一種裝置，包含：用以將一距離範圍劃分為多個深度範圍的裝置；用以產生至少二個影像訊框的多個強度影像的裝置，該等強度影像的每一強度影像提供指示在一各自影像訊框的該等多個深度範圍之一相對應深度範圍中存在物體的影像資料；用以判定每一相對應深度範圍之該等二個影像訊框之間的動作變化的裝置；及用以至少部分地基於該動作變化，來判定一目標深度的裝置。
如申請專利範圍第25項所述之裝置，其中用以產生該等多個強度影像的裝置包含，用以對於一特定訊框的每一相對應深度範圍，將與不在一目前深度範圍中之物體相對應的資料設定為一預定值，且保留與該目前深度範圍相對應之資料的裝置。