TWI524210B - 基於自然姿勢之使用者介面方法及系統 - Google Patents

基於自然姿勢之使用者介面方法及系統 Download PDF

Info

Publication number
TWI524210B
TWI524210B TW101100435A TW101100435A TWI524210B TW I524210 B TWI524210 B TW I524210B TW 101100435 A TW101100435 A TW 101100435A TW 101100435 A TW101100435 A TW 101100435A TW I524210 B TWI524210 B TW I524210B
Authority
TW
Taiwan
Prior art keywords
point
interest
gesture
poi
candidate
Prior art date
Application number
TW101100435A
Other languages
English (en)
Other versions
TW201237677A (en
Inventor
裘安卡洛斯 托西諾狄亞茲
凱文 席夢斯
吉爾斯 皮勞特
賽維爾 拜爾
朱利恩 索羅特
大衛 達卓特
Original Assignee
舒緩運動軟體公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 舒緩運動軟體公司 filed Critical 舒緩運動軟體公司
Publication of TW201237677A publication Critical patent/TW201237677A/zh
Application granted granted Critical
Publication of TWI524210B publication Critical patent/TWI524210B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/213Input arrangements for video game devices characterised by their sensors, purposes or types comprising photodetecting means, e.g. cameras, photodiodes or infrared cells
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • A63F13/42Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/10Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
    • A63F2300/1087Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals comprising photodetecting means, e.g. a camera
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6045Methods for processing data by generating or executing the game program for mapping control signals received from the input arrangement into game commands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Description

基於自然姿勢之使用者介面方法及系統
本發明有關於一種基於自然姿勢之使用者介面方法及系統,且尤其有關於一種用於在電腦化系統中的導航及控制之基於自然姿勢辨識之使用者介面。
電腦視覺技術已發展至可達成即時準確測量3D場景的階段。此等場景測量允許影像處理系統計算與提供新類型的輸入元素如目標物/使用者對系統的潛在互動,其中輸入互動在一所見場景中與視野內的目標物/使用者之動作及/或姿勢有關。
目前有數種類型的使用者介面裝置與方法為可用的。除了介面裝置如滑鼠、操縱桿、電腦鍵盤、觸控螢幕或紅外線遙控技術以外,最現今的技術係基於3D成像或感測系統,此等系統係偵測場景中之人體,且使對場景中之人體進行模型化與進行模擬變為可能。可根據該模擬分析出身體的一部分如手部,且一般可長期監視該身體的一部分如手部之位置。因此,可運用該手部以執行數個姿勢,然後藉由成像或感測系統辨識該等姿勢。此等姿勢目標在於發動觸發事件及/或將連續的輸入資料提供至依據所接收之輸入進行互動的電腦介面。
於WO-A-2009/042579中記載一種基於姿勢之導航系統,其用以控制與圍繞經辨識之使用者的標記之自定義圖標之間的通信對話。提供有一種用於影音通訊的進階介面,其中從相機影像之序列辨識出使用者之姿勢。 亦提供有一種包含控制件與使用者標記之使用者介面。方法導向一種導航介面與系統,利用影像處理而執行姿勢辨識,從而觸發控制輸入件。例如,藉由辨識出使用者標記之合契(engagement)姿勢,將電信對話狀態自待命狀態更改為呼叫或選單狀態。
於WO-A-2009/035705,WO-A-2009/108894,WO-A-2004/070595中記載有其他的基於姿勢之導航系統。於WO-A-2009/035705中揭露一種簡易系統及方法,用以處理在3D環境中使用者基於姿勢與互動式顯示器所進行之互動。該顯示器將可與系統互動之圖標當作使用者的手部顯示。
於WO-A-2009/108894中,記載一種進階型輸入,其係利用經辨識出之使用者的姿勢。於控制件的中央區域顯示使用者標記,在中央區域進一步包含呈放射狀配置的互動元素。該進階型輸入亦包含:基於經辨識出之使用者姿勢而與控制件互動;以及基於與控制件互動而控制應用程式。互動元素可採取一系列的圖標之形式,此等圖標係使用廣範圍之使用者標記的姿勢而選定,例如手指姿勢、手部、眼睛或身體動作、及臉部表情。
於WO-A-2004/070595中,揭示一種裝置與方法,其等係利用姿勢而以互動方式控制一影像表現設備之圖形使用者介面的影像中之滑鼠指標。該裝置包含:一視訊攝影機,用以產生一輔助影像;一影像處理裝置,其處理該輔助影像之影像資料;以及一鏡射單元,用以鏡射該輔助影像。亦設置一分析單元,用以偵測由該視訊 攝影機取得之目標,並判定該輔助影像中之已偵測之目標的記憶體位置。一滑鼠控制機制係連接於該分析單元,且依據各自已判定之記憶體位置而於該影像表現設備之影像內標記並移動該滑鼠指標;一混合及/或交叉混合裝置係連接於該鏡射單元,並配置以在該影像表現設備之影像中,以部分透明的方式重疊主影像與藉該鏡射單元取得之鏡射輔助影像。
來自使用者介面的使用者回饋係記載於WO-A-2010/126714中。其中,使用一擷取裝置以擷取使用者之運動,且設置一裝置以顯示映射使用者之運動的模型。使用姿勢以控制該使用者介面。然而,使用者可能會不熟悉映射本身之運動之系統、或可能不曉得何種姿勢適用以執行一特定應用程式,因而不知道如何進行適用以執行應用程式的姿勢。對使用者提供表示教學姿勢資料之視覺回饋可教示使用者如何適當地作出姿勢。能以任何的適合方式設置該視覺回饋。例如,可使用鬼影、玩家替身、或骨骼標記設置該視覺回饋。該系統亦可處理顯示表示教學姿勢資料之視覺回饋的預錄或現場內容。該視覺回饋可描繪出使用者之實際位置與理想姿勢位置之差異。
於WO-A-2010/103482中,記載一種用以操作一電腦化系統的方法,代表性為操作一虛擬鍵盤之方法,其中,將使用者介面元素呈現於一顯示螢幕上。偵測使用者之身體的一部分在一3D空間作出的一第一姿勢,並響應於該第一姿勢,識別該使用者藉由指向(pointing)所 預選之顯示螢幕的區域。然後增加該螢幕上已選擇區域中顯現的一個或以上的使用者元素之放大程度。在增加放大程度後,偵測該使用者之身體的一部分作出的一第二姿勢,從而自出現在使用者介面上的元素選擇預選元素。一第三姿勢減少該等使用者介面元素之放大程度。
WO-A-2003/071410記載一種通用姿勢辨識系統及方法,與身體姿勢有關,且尤其與手部姿勢有關,且使用深度感知感測器。一3D感測器替一使用者之身體的一部分之複數個離散區域提供3D位置資訊。姿勢係根據身體的一部分(即手部)之一區域內的形狀、位置與方向而辨識。將該姿勢分類以判定對於一相關電子裝置的輸入。一未定義切割模組運用深度資訊將該使用者之身體的一部分從背景分開。與該系統互動之像素群應該識別為與相機最接近之目標,或者,因為其等顯露與人體皮膚相同之光反射特性,故應該識別為屬於使用者。根據表示手部之像素群的姿勢與姿態判定姿勢辨識,該姿勢與手部形狀之位置與形狀相關,該姿態與該形狀與該姿勢之組合相關。可根據基於未定義分類之演算法、用以觸發例如一特定手部姿勢、一特定運動、一特定聲音或一按鍵輸入之動態姿勢的開始或結束之定界符,以自動執行動態姿勢辨識。需要一種確認功能,其中使用者需要確認用於確認之姿勢。此係藉由使用其他姿勢、一聲音或一硬體鍵盤上之文字輸入而完成。
於WO-A-2010/011923與WO-A-2010/011929中記載 更多特定姿勢辨識。於此等文獻中,在特定信號處理實施例中記載揮舞與畫圓姿勢辨識之技術。
於WO-A-2010/011923中,記載一種畫圓合契姿勢之進階偵測,其中,在動作資料內界定一形狀,而該動作資料係在符合已定義之形狀的點上取樣。此時,判定一移動目標是否根據取樣的動作資料所展現的圖形而表現出與該界定的形狀關聯的姿勢。若判定該移動目標表現出要求的姿勢,則控制一應用程式。
WO-A-2010/011929揭示一種揮舞合契姿勢之進階偵測,其中,在動作資料內界定一形狀,而該動作資料係在符合已定義之形狀的點上取樣,且根據取樣的動作資料,判定隨時間沿著定義形狀移動之目標的位置。若移動目標表現出要求的姿勢,則運用該移動目標是否根據該等判定的位置所展現的圖形而執行一姿勢的判定,以控制一應用程式。
然而,由於手部為用以與該系統介面互動之本體的一部分,故上述系統大多需要於場景中事先偵測與定位使用者、需要於場景中定位至少身體的一部分、及/或需要將使用者之標記模組化以輕易提取身體的一部分(例如手部)之位置。
本發明之目的因而在於提供一種使用者介面,其可輕易與一3D成像系統整合,使得可使用一使用者或一目標所作出的姿勢,以在不須要將該使用者或該目標的標記模型化的情況下,控制該成像系統的操作。此外,不需要事先偵測或追蹤場景內之使用者或目標的位置。
本發明記載一種自然姿勢遙控導航系統及與其相關聯之方法,其等提供其關聯的方法,提供脈絡式控制與脈絡式介面元素,另提供脈絡式使用者回饋。使用創新的影像處理技術以處理一3D成像裝置之輸出。於3D場景中識別至少一個POI,該POI互動於至少一個劃界的ROI,使得可運用一創新且有效的軌跡及/或動作分析而對於每一個已識別之POI執行即時自然姿勢辨識分析。然後可使用姿勢辨識分析之輸出資料作為一連續指示信號,並用以觸發系統內的事件,例如系統內之元素的選擇與活化。該系統採用適應於直覺、自然及簡易控制的自然姿勢驅動使用者介面。
更精確而言,本發明提供一種新穎且有效之方法及系統,其等使從一少語義多維點雲、經擷取之深度圖影像的像素、經擷取或一系列經擷取之深度圖影像的像素擷取界定使用者與機器或系統之間的互動之若干資料變為可能。就意義上而言,該資料分為兩類:第一個為允許使用者控制並傳送資訊至介面的輸入資料;以及第二個為機器或系統及一相關的應用程式所輸出的脈絡式資料。根據本發明,對於此兩組資料,使用者介面系統皆包含回饋/資訊給使用者。再更精確而言,其亦提供如何識別與用以跟系統/機器/使用者介面互動之身體或目標有關的至少一個POI的方法。
此外,本發明之方法與系統亦可界定一脈絡式介面系統,其與自然姿勢控制組合而要求使用者以最直覺且 有效的方式進行互動,同時提供與期望的以及已執行過的姿勢相關的回饋資訊。以上全部克服實時跨平台處理相容性的約束。
更精確而言,本發明提供一種導航方法與系統,其等於例如一顯示螢幕中呈現至少脈絡式回饋、控制及介面元素。該回饋可擴及任何其他可提供任何知覺相關的信號之裝置。其中,該方法及系統採用3D成像裝置以在一3D場景中偵測至少一個POI。此外,該導航方法與系統亦包含一內建的實時自然姿勢辨識分析系統,其執行於已偵測之POI以及更精確而言執行於其等之軌跡的離散讀數。自然姿勢辨識分析系統之輸出資料係用作為使用者介面之控制件。
本揭露亦有關於基於多維的使用者介面與無接觸式遙控系統,尤其有關於基於3D影像處理的使用者介面與無接觸式遙控系統,其包含POI偵測與自然姿勢辨識。於此方面,本發明使用能以運用一種叢集演算法之聰明的方式切割的成像場景,該叢集演算法產生在時間上顯示時空一致性的叢集。本發明之使用者介面可使用表示一3D場景的深度圖作為一輸入,在該場景中的每一個像素皆具有x,y及z座標(被稱為深度值)。使用者介面之輸出包含因使用者之姿勢而產生的連續與零散事件。亦可使用脈絡式使用者介面回饋。
更精確而言,可使用代表性的K平均領導者與追隨者切割演算法而將場景中之像素分組為具有若干空間限制的叢集。可至少根據該領導者與追隨者切割演算法與 若干預定參數而產生或摧毀叢集。一個該參數可為在每一個叢集中像素需呈現之最低數量。另外,叢集的最大半徑可用作為一參數。另外,可將一識別碼分配給每個叢集以及來自前面的畫格之叢集,並用作當下的畫格之種子。
此外,在場景內使用者之有意移動具有使叢集隨著可與場景內的雜訊或無意的移動區域區別的特定行為而移動的效果,使得允許將叢集識別為需要分析之POI候選。一旦至少第一叢集已執行一激活姿勢,可將叢集識別為一POI。然後可能將場景分析縮減至圍繞該POI之位置的ROI。
採用以上,本發明提供一健全及有效的方法,其可用以提供使用者介面之控制。理想的情況下:(i)因為整個場景叢集且隨時間執行每個叢集之運動的分析,故不需要從場景移除背景;(ii)因為結合成像系統之3D相機的使用而於可靠的座標系統中提供可靠的測量,故不需要場景校準;(iii)因為於一較佳實施例中移動的POI具有時空一致性特性且亦至少為一端點,且於進一步之較佳實施例中POI展現同調運動,故於影像中不需要使用者或目標之識別;(iv)因為同調移動POI將當作控制之支援者,故不需要手部或人類使用者之姿勢的其他部分之識別;以及(v)因為已取得之POI的時空一致性已足夠重要及可靠,故不需要一運動估測或追蹤演算法。
此外,本發明之方法允許運用使用者之其他部分提供控制,例如腳、手部以及手中握住的物體。亦可藉能 執行與期望的姿勢相關之特定移動的物體提供控制。
此外,本發明之方法允許運用使用者之其他部分提供控制,例如腳、手部以及手中握住的物體。亦可藉能執行與期望的姿勢相關之特定移動的物體提供控制。
根據本發明,提供一種與一使用者介面系統互動之方法,包含以下步驟:a)形成一場景的至少一個多維標記,該場景係在前述至少一個多維成像系統之視野的範圍內者;b)對於前述多維標記執行一多維約束叢集操作,以提供前述場景之經叢集之標記;以及c)從前述經叢集之標記識別興趣點候選。
步驟c)可包含識別展現同調運動的至少一個叢集。此外,步驟c)可包含識別連接至僅一個其他叢集的至少一個叢集。
更佳地,步驟c)包含姿勢辨識。
至少利用連續軌跡分析以判定姿勢辨識,該連續軌跡分析包含以下步驟:識別沿著一興趣點候選之軌跡的軌跡點;識別在一興趣點候選之軌跡方向上的至少一個多維變化,前述至少一個多維變化形成包含一參考種子識別順序的參考種子點;識別在軌跡方向上的連續變化,前述連續變化形成連續連續參考種子點;以及使用前述參考種子點與前述軌跡點以辨識一姿勢。
前述姿勢辨識包含使用前述參考種子識別順序。
有利地,前述軌跡分析進一步包含:對於每一點,判定相對於前面的點之距離、速度向量或加速度向量中 之至少一者。可進一步執行:對於每一點,使用幾何與統計計算以辨識前述姿勢。
根據一個實施例,若第一次執行一既定姿勢,則激活一興趣點候選作為一經激活之興趣點,前述經激活之興趣點仍具有興趣點候選狀態。此時,可判定一與前述經激活之興趣點有關之興趣區域。此外,可在執行一既定姿勢時,激活至少一個另一興趣點候選作為至少一個另一經激活之興趣點,前述至少一個另一經激活之興趣點仍具興趣點候選狀態。
再者,可判定與前述至少一個另一經激活之興趣點有關的至少一個另一興趣區域。每一個興趣區域具有與一興趣點候選之位置相對的位置及維度。
此外,前述方法包含:辨識一由在前述至少一個已判定之興趣區域範圍內之至少一個既定興趣點候選所執行的既定姿勢。
有利地,前述使用者介面系統包含一基於姿勢之具有圖形使用者介面的虛擬鍵盤,前述圖形使用者介面具有一既定的元素配置,用以僅使用最小限度之自然姿勢作選擇。
於一個實施例中,前述方法進一步包含:根據至少一個興趣點候選的同調運動以控制前述使用者介面系統。於其他可能的實施例中,前述方法可進一步包含:根據所辨識之姿勢以控制前述使用者介面系統。
可根據前述使用者介面系統之當下狀態,提供脈絡式(Contextual)回饋資訊。
步驟b)可包含使用多解析度影像處理。
於一較佳的實施例中,每一個多維標記包含一3D標記。
以下參照僅為例示性之附圖以進一步掌握本發明。
以下雖參照若干圖式就特定實施例說明本發明,但本發明並不限定為該等實施例。該等圖式僅為概要性並非限定性。於該等圖式中,可能誇大且未按比例繪製若干元件的尺寸,目的僅為用於說明。
依照一個一般性實作,一使用者可與一電腦化系統互動,以根據脈絡提供若干回饋資訊,且亦擷取3D場景資訊,該電腦化系統例如為一自宅「家用自動化(domotic)」控制器或一連接於至少一個裝置的多媒體導航系統。一回饋(rendering)裝置(例如一裝置顯示器)可用以提供若干視覺回饋資訊(例如一圖形使用者介面(GUI)之可視化中的至少一個元素的表現之變化)。於另一例中,擷取裝置可為一3D相機,提供使用者將互動之場景的3D影像。上述方法與系統亦可於另一互補執行嵌入式揚聲器中,例如藉以將附加聲頻回饋資訊提供給使用者。當然可使用其他裝置以提供其他類型的知覺回饋。
使用者與上述系統之互動可包含直接、直覺(亦即,具有極短之學習曲線)、及簡易自然姿勢,而系統與使用者的互動可包含知覺信號,例如響應於使用者之 動作的視覺及/或聲頻脈絡式資訊。系統與使用者之互動亦可提供使用者欲施行之互動的標記。
於第一步驟,上述系統及方法可包含於一顯示螢幕上提供一動畫,形成圖形化介面之一部分,表示人機介面將交談之人類所被預期執行的姿勢。此步驟的目的是激活及初始化互動會議。例如,預期的姿勢可為「擺手」,此可由一文字、圖式的動畫或視頻表示。使用者可直覺上了解視覺信號,然後可以至少一個身體的一部分或至少一與該身體的一部分鏈接之物體進行一揮舞姿勢。代表上,該身體的一部分包含人類使用者的手部,但請了解到本發明不僅限於該身體的一部分。因此,上述系統使用一相機裝置擷取場景的三D影像,執行若干信號處理以定位和識別預期的姿勢,然後可定位和界定一較佳的興趣區域(ROI),未來較佳將於其中尋找進一步的互動。同時,上述系統可識別較佳的POI(POI),其可為表示已執行期望的姿勢之身體的一部分之像素的群組。在這種情況下,上述POI是一部分的使用者標記,將通過該標記提供互動。因此,由於他/她給予上述系統所期望之形式的回饋答覆,藉由執行上述預期的姿勢,使用者將激活自己作為一系統控制器。更確切地說,上述方法及系統將讓表示已執行期望的激活姿勢之手部的成像點或3D影像點之群組為上述系統將著眼及分析的主POI。此第一步驟可視作激活與識別。因此,此步驟之特徵為不需要在偵測較佳的POI之前偵測任何使用者,且亦不需要事先執行任何身體部位或物體識別。
於第二步驟,一旦存在至少一個POI將互動成的至少一個ROI,上述系統對已識別之指定為主POI的第一POI執行控制姿勢辨識,以收集連續指示資訊或姿勢事件觸發因素。此第二步驟可視為導航系統之互動式介面的主要之基於自然姿勢之控制。例如,根據所辨識之姿勢,系統動態地且以脈絡方式使顯示的GUI變化。於一個實施例中,亦可在激活姿勢偵測時間完成。一般非限制而言,系統可顯示由數個元素、圖標及/或標記組成之多媒體選單於螢幕,此等元素、圖標及/或標記允許使用者開始不同類型之子選單或應用程式,例如一WWW導航、一地圖導航、一音樂撥放器、一視訊撥放器、一TV頻道資源管理器、一相簿播放器、遊戲、一音量控制、一投票應用程式等等。介面的編排,亦即對應於至少一子選單或一應用程式之每個元素、圖標、及/或標記可被組織成,讓使用者執行最簡單、最自然姿勢動作以選擇、預選或激活元素、圖標及/或標記中之任一者。能以數個方法作出選擇,例如在其最簡單的形式中,可藉由指示GUI元素而達成。可與該最簡單的形式組合使用計時器控制器及其他姿勢。
代表上,可藉移動例如一滑鼠指標或一虛擬使用者之使用者標記於一期望的GUI元素上,然後等待鏈接至該元素之關聯的計時器周期結束,從而透過自然姿勢遙控執行選擇、預選或激活,經過時間或剩餘時間的標記顯示於介面作為回饋資訊。
於另一個實施例,亦可於一個以上之步驟中執行選 擇,預選或激活。代表非限制而言,可於兩個步驟過程中執行選擇,預選或激活,該過程包括:執行一第一步驟,其中使用上述方法及系統之基於姿勢的連續指示功能而選擇一期望的元素;以及基於另一種自然控制姿勢的第二步驟,該姿勢可為文化上中立和語義相關的,比如一敲擊姿勢或推動姿勢,此將啟始POI點所產生之附加或鏈接於元素或標記的互動,例如,改變顯示介面選單、改變介面配置、執行一應用程式等。
上述方法及系統的第一步驟和第二步驟係適應於多POI和多ROI,以允許在同一時間內數個使用者與至少一個電腦化系統中之數個部分互動,或與網路上另一者鏈接之數個電腦化系統互動。
在另一個實施例,人類對機器和機器對人的互動處理被定義為直覺和自然,無經驗或有經驗的使用者至少一部分不需要取得與該等使用者被期望執行以與上述系統互動的姿勢相關的回饋。例如,一個無經驗的使用者在一基於自然姿勢之系統前面執行一自然揮舞姿勢,以與其將與一遠距人類合契互動的方式初始化互動處理。於另一例,已經歷過一基於自然姿勢之互動系統的人類使用者在一螢幕上將不需要任何經顯示之資訊以提醒或教示本人如何使一個主選單或聲音控制選單出現。一有經驗的使用者將知道在任何時候藉由執行一畫圓姿勢會使上述系統的主選單出現在螢幕上,且一旦藉由執行如上述之例如「揮舞姿勢」的激活姿勢而起始與基於姿勢之互動系統互動,則再次執行一揮舞姿勢將使經顯示於 螢幕上之無論是應用程式或介面的聲音控制選單出現。另外,如使用手部蓋住使用者的耳朵之語義的姿勢可以用來作為用以在上述系統中靜音的控制姿勢。
於本發明的另一個實施例,可圖解利用自然姿勢的脈絡式互動,使得能以與上述系統之狀態及其應用程式相關的方式在不同時間以不同方式使用例如「揮舞姿勢」之自然姿勢。於一個更精確的例子,在第一步驟中,上述揮舞姿勢可用以初始化、起始或激活一使用者與一系統間之互動,該系統提供一基於動畫之資訊,要求使用者執行上述「揮舞」姿勢。在第二步驟中,一旦使用者藉由執行經請求之姿勢以激活上述互動式系統,則無論經顯示之應用程式或GUI的狀態為何,在「揮舞姿勢」執行時,其可使聲音控制介面顯示於螢幕上。在第三步驟中,若顯示聲音控制選單,則再次執行揮舞姿勢將使其消失。
於一較佳之實施例,若一經判定的應用程式已經激活,則可動態載入及載出與一姿勢相關聯的控制可為動態加載和卸載,例如在一虛擬鍵盤應用介面中「揮舞姿勢」可與例如擦除字符選擇之互動處理相關聯。在退出特定虛擬鍵盤應用程式時,「揮舞姿勢」可自動與聲音選單欄重新產生關聯。
於上述系統和方法的較佳實施例,影像擷取裝置可利用兩維相機、立體相機、LIDAR、聲波探測器,3D相機、包括俗稱的結構光3D相機和飛行時間測量式(TOF) 的相機。於一更佳的實施例,上述系統和方法利用深度圖或三維點雲輸入資料類型。
於一較佳之實施例,將深度圖或多維點雲群分為時空上有意義的叢集,每個叢集由一中心點表示,且具有允許追蹤相對於時間之個別動作的軌跡的識別(identity)。於一更佳的實施例,3D場景叢集可例如為一約束K平均領導者與追隨者叢集演算法。
於另一個實施例,利用執行於一輸入資料的信號處理演算法,進行POI和ROI的檢測、定位及識別,尤其藉由分析叢集或中心點動作。於一較佳實施例,若中心點或叢集已如上所述執行上述激活姿勢,則識別至少一第一POI,且將其附加於一中心點或叢集。於一更佳的實施例,已執行激活姿勢之中心點或相關叢集必須為經叢集之多維場景點雲之區域相鄰圖(RAG)的端點。於一更佳的實施例,判定同調移動叢集或中心點是否為最好的POI候選,必須於數個候選之間消除假陽性與歧義。
於另一個實施例,若無中心點或叢集已符合激活姿勢,則主POI將為第一執行激活姿勢者。圍繞該主POI之區域中的任何其他同調運動端點將作為從屬POI。可根據若干預定規則交換POI之主與從屬狀態。圍繞POI之區域為ROI,其位置係置於與偵測到激活姿勢之位置相對的空間位置之中心點。
上述ROI的位置可以是靜態或動態。此意指可根據至少一個POI位置改變該位置。ROI的尺寸也可以是靜 態或動態。此意指若一個靜態的POI移出一開始定義的ROI,則可以修改尺寸。
若在若干期間之後,經判定的ROI中之POI之任一者移動不足,或經識別之POI之任一者移出該ROI,則由於其等再也無法提供任何互動,所以系統可銷毀對應的POI及ROI。於此情況下,系統將等待將被使用在上述之方法及系統的第一步驟中所執行的相同處理以識別的新的POI及ROI。
於另一個實施例,若移動足夠或重新進入其所鏈接之ROI,在一安全計時器起始互動時,該安全計時器可允許最近解除或停用之POI重新啟用或重新激活。此安全定時器之期間,對應的POI和ROI僅為解除或停用,而非被摧毀。
於另一較佳之實施例,無視於上述方法及系統中之特定步驟,藉由分析經分割之輸入影像的中心點或叢集的軌跡,執行自然姿勢辨識。這意指對於搜索激活姿勢之第一步驟或對於搜索控制姿勢之第二步驟,姿勢辨識取決於檢測自然姿勢如「揮舞」、「推」、「敲擊」、「拉」、「靜止」、「指示」以及基本幾何形狀檢測如「圓」、「方形」、「矩形」、「線」、「十字形」、「三角形」等。
於一更佳之實施例,對於在一對應的ROI中之主及/或從屬POI的軌跡執行姿勢辨識。
於一更佳之實施例,藉由分析下述者以執行該姿勢辨識:POI軌跡之方向變化、在一經判定之期間內的連 續POI方向變化、連續POI軌跡方向上之變化間的歐幾里德距離、連續POI軌跡之方向變化間的POI速度、以及連續POI軌跡之方向變化間的POI加速度。POI軌跡之方向變化的方向意指至少一連續的經取得之影像的逐格之POI的X、Y或Z方向上的變化。此等POI軌跡變化創造POI之下一個位置將被比較的參考種子點。此外,上述軌跡分析較佳為包括分析參考種子點之順序創造,以辨識經執行之姿勢。
於一甚至更佳之實施例,若方向之X、Y、Z變化的計算及方向上之軌跡變化之間的累積距離維持在至少一預定臨界值以下,則使用方向上之軌跡變化分析方法,以判定POI候選之間的同調運動中心點或叢集。
於上述之第一及第二步驟的激活姿勢或控制姿勢,就時間對於POI執行姿勢辨識,以取出姿勢互動觸發因素如「敲擊」、「推」、「揮舞」姿勢事件等及/或連續資料資訊如指示位置。
於上述方法及系統的一特定之實施例,可利用姿勢辨識以控制一虛擬鍵盤應用程式,該虛擬鍵盤之GUI的配置方式可為,允許使用者執行限制數量的姿勢之直覺上很簡單的動作。於一較佳的實施例,上述配置可要求使用者僅執行向前與向後姿勢,例如向上向下、向左或向右等,對於至少預選利用一POI標記指示動作,然後在沒有任何其他姿勢下選擇一個字符。例如,上述配置可由以下構成:一預選區域、該預選區域下之選擇區域、及經選擇之字符可在該預選區域下顯示之文字框 體。此外,亦可於該文字框體下提供一文字預選區域。藉由向上向下移動,POI標記自動選擇目前指向的對應區域之元素。於另一個實施例,可要求使用者對於每一個區域執行一經判定的姿勢,以確認經選擇之元素。
不同於以上討論之先前技術文獻之揭示,本發明提供具有實時互動能力之使用者介面方法及系統,並係基於新穎的多維非觸控式與無標記式之姿勢辨識技術。此允許既定介面元素以與脈絡/使用者/目標物互動相關的方式顯示。藉由運用限定為全球最常見與最為人知悉的人類姿勢之姿勢庫,以符合人體工學方式優化上述方法及系統,該等姿勢係例如「連續指向」、「揮舞」、「推」、「拉」、「向左揮擊」、「向右揮擊」及「畫圓」觸發件、或所有最常見的幾何形狀。此外,藉由例如與POI位置結合使用計時器、或藉由使用簡單控制姿勢以激活介面特徵或確認一選擇,以在單一互動與連續互動方面,花費最小的精力改善使用者經驗,從而以符合人體工學的方式優化上述方法及系統。
可提供一導航系統中之選單,其支援例如圖標、按鈕、虛擬使用者等等之控制元素。兩者選一地或者附加地,該等控制元素可界定至少一多媒體選單及/或至少一虛擬鍵盤。就理想而言,組織支援控制元素之配置以改善互動效率與直覺性,從而改善使用者經驗。
POI偵測係基於多維場景分析。該場景包含一3D叢集場景,其叢集說明一時空同調性。該場景分析亦支援單一及/或多興趣點與單一及/或多興趣區域。
本發明之方法及系統亦支援激活姿勢之偵測,其界定基於姿勢之互動會導致的ROI、以及至少一會產生該等互動姿勢之場景的主POI。控制姿勢係用以觸發根據實時POI軌跡分析而執行之姿勢辨勢的互動。此外,POI的標記提供至少與POI隨時間之移動與其位置相關的回饋。
以下就下述幾點說明本發明:偵測POI候選、激活對於POI候選之姿勢辨識;根據POI軌跡分析以控制姿勢辨識;針對時間之一已識別之POI的管理;針對時間管理經識別之ROI;POI與使用者介面之間的互動;脈絡式使用者介面導航系統之最佳化;以及無標記、基於姿勢、虛擬鍵盤輸入之使用者介面之最佳化。
於圖1中,顯示說明用以執行本發明之使用者介面的三個主要組合元素之流程圖100。結合基於候選元素之軌跡分析的激活姿勢辨識,運用定位與辨識技術,偵測場景中的POI(步驟110)。一旦偵測到至少一POI,則基於其軌跡分析,偵測該POI所作出的姿勢(步驟120)。然後,運用經偵測之姿勢,進行運用使用者介面之導航(步驟130)。以下更詳細說明此等步驟。
圖2說明顯示依據本發明之執行於使用者介面中的操作的流程圖200。於步驟205,將輸入資料提供至影像處理系統。此輸入資料之形式為包含至少一深度圖或多/3D點雲之場景的3D影像。深度圖對應於構成上述3D影像中之每一像素的成像系統之一部分的相機至點雲中的每一點之距離。然後,切割3D影像(步驟210)以創造複 數個叢集。於步驟215,依步驟210之輸出設置叢集清單。然後將叢集清單用作為候選叢集精製處理的輸入件(步驟220),設置候選叢集清單(步驟225)。候選叢集精製目的在於對於所有場景判定出至少顯露場景RAG之端點特性者、以及亦具有同調運動特性者。此等候選叢集係使用於步驟230中的姿勢辨識激活處理,目的在於判定哪個候選叢集已執行第一次既定激活姿勢。作為姿勢辨識一部分,產生一興趣點清單與一興趣區域清單(步驟235)。在處理中,管理此等清單以移除無用之POI與ROI、或增加新的POI或ROI(步驟240),從而形成控制姿勢辨識用之輸入(步驟250)。該姿勢辨識之控制提供事件觸發與連續控制(步驟255),用於脈絡式介面之控制(步驟260)。
圖3說明一流程圖300,其顯示將POI定位並識別的特定實施例。輸入資料可為深度圖之形式。在步驟305中,輸入深度圖資料以用於一重設比例/多解析度處理(步驟310)。該重設比例/多解析度處理之輸出包含N階金字塔影像輸入資料(步驟315)。此資料接著使用於一約束3D叢集及/或於一3D場景切割(步驟320)。該叢集及/或切割步驟提供包含低與高解析度資料兩者的N階經叢集之輸入資料(步驟325)。然後在精製步驟精製該低解析度資料(步驟330),產生包含低與高解析度叢集的經叢集之輸入資料(步驟335)。然後將該經叢集之輸入資料使用於一區域相鄰圖(RAG)產生器(步驟340)、於一n維端點偵測器(步驟350)、以及於一運動與關聯性分析 處理(步驟360)。該相鄰圖產生器產生一界定該場景之叢集之間的連接狀態的區域相鄰圖(步驟345),該n維端點偵測器產生一包含圖形端點之場景叢集清單(步驟355),且該運動與關聯性分析判定一同調運動叢集清單清單(步驟365)。與此三個元素每一者相關之資料形成用於一叢集及/或POI識別處理的輸入(步驟370),判定至少一第一POI為第一同調運動叢集(步驟365),且為一場景端點(步驟355),其顯示與一激活姿勢對應的代表性之特定運動。產生POI清單與ROI清單(步驟375)。將POI與ROI清單輸入至POI與ROI管理器(步驟380)。
於步驟310與320各步驟,在此階段多解析度與3D場景切割之順序並不重要。請瞭解到多解析度係一任選的處理,可運用其處理取得相同結果。
一多解析度處理之概要係一般性地顯示於圖4中。流程圖400顯示一開始取得該場景之一高解析度深度圖(步驟410),並運用多解析度技術處理該高解析度深度圖(步驟420),以下將更詳細說明。多解析度處理(步驟420)包含金字塔處理以縮減取樣該高解析度深度圖而分別產生至少一高解析度深度圖410、至少一中級解析度深度圖430、以及一低解析度深度圖440。該多解析度處理420對於金字塔階層每一者將解析度至少區域分為二。雖僅顯示三階,但請瞭解到處理420可包含任何適當的數量之階層。於圖5顯示金字塔縮減取樣之一例。
於圖5(a),顯示8×8像素之陣列500。每一個像素具有深度值1,2,3,4或5,配置如圖所示。此等值為舉 例,說明每一個像素與構成成像系統之一部分的相機之距離。此處,該陣列500旨在代表具有nn固定解析度之高解析度深度圖。
在將該高解析度深度圖縮減取樣至下一階時,將該8×8陣列縮減取樣至4×4陣列(圖5(b)所示),且將四個像素為一組每組之最小深度值,例如在陣列540中組510當作一具有深度值4之單一像素530。陣列540旨在代表原始高解析度深度圖之中解析度階層。於縮減取樣處理,在上述情況時,維持該原始高解析度深度圖,且創造具有解析度(n/2)(n/2)之中解析度深度圖。
亦可將該中解析度深度圖縮減取樣至一如圖5(c)所示之低解析度深度圖。此時,將該4×4陣列540縮減取樣而形成一2×2陣列。陣列540中顯示將四個像素為一組550縮減取樣而於低解析度陣列580形成一個低解析度像素570。如上述,於低解析度深度圖中保留四個像素為一組每組之最小值,即3。該低解析度深度圖具有(n/4)(n/4)之解析度。若需要(n/8)(n/8)解析度,則可將陣列580之解析度變化而形成一單一像素。
請瞭解到該8×8陣列、4×4、及2×2陣列僅為舉例。在實際的情況,高解析度陣列每者可包含可縮減取樣任何次數至(n/k)(n/k)解析度直到無法再縮減取樣的nn陣列。
圖6顯示一流程圖600,其說明場景叢集之步驟。一低解析度深度圖610形成一輸入,其用於一約束K平均領導者與追隨者演算法(KMLF)620。該KMLF係已知的演 算法之混合,操作以切割該場景為空間時間同調組之像素(具有一中心點之叢集)。該KMLF620有三個輸出,即低解析度叢集之低解析度影像630、每一叢集之中心點的鏈接圖640、以及根據該鏈接圖之僅連接至單一其他中心點的中心點之端點而定位與識別650。該鏈接圖640包含一n維鏈接圖,其中n=3。
圖7(a)說明一包含像素深度值之低解析度影像,該影像係運用例如一約束KMLF演算法620(圖6)而叢集。圖示為一包含11×11陣列之低解析度影像700。如圖示,該陣列中之像素每者具有1,2,3,4或5之深度值。將像素分組叢集,每一個叢集具有大約如圖7(b)所示之深度值。
圖7(b)中,明顯可看出叢集701,707,708及710具有相同深度值。叢集702,703,704,705,706及709方面,大部分像素具有相同深度值,但可有部分像素具有不同深度值。請瞭解到具有與圍繞或相鄰像素不同之深度值的像素實際上係與具有相同深度值之其他叢集此等像素每者像素隔開。此外,為求處理簡略化,允許之叢集設有最大尺寸。
圖7(c)中顯示叢集701,702,703,704,705,706,707,708,709,710各者之中心點751,752,753,754,756,757,758,759,760。該等中心點如圖7(d)所示可鏈接於二維空間與3D空間。
圖7(d)中顯示中心點752,753,754,755,756,758,760可連接至另一者。中心點751,757及709因為此等之 叢集具有大致上不同於其他周圍叢集的深度值,故無法被連接。原因在於此等叢集雖可為2D連接,但無法3D連接。2D連接表示中心點僅在2維上連接,而3D連接表示中心點係在三維上連接。結果,如圖示可看出中心點758與760僅3D連接至一個相鄰叢集的中心點,即中心點754與中心點756。叢集708與710及其等之關聯的中心點758與670每一者因而代表一端點。
現在回到圖6,根據參考圖7所述,判定低解析度叢集之低解析度影像630、中心點之鏈接圖640、以及定位之端點650。根據低解析度叢集之低解析度影像630,運用一精製處理660取得一低與高解析度叢集之高解析度影像670。
該精製處理660僅可施用於屬於由找出至少一POI之3D ROI所界定之ROI(未圖示)的叢集。於開始時,即激活或創造畫格1或若沒有激活或創造ROI,則高解析度影像670與低解析度叢集之低解析度影像630相同。一旦界定至少一ROI,不精製該ROI外之叢集,而僅精製該ROI內之叢集。話雖如此,至少一ROI外之同調運動端點叢集可於另一實施例中精製。
圖8說明根據精製處理660取得之輸入與輸出。圖8顯示一流程圖800,其中,將不同解析度經叢集之輸入資料810輸入至精製處理820以提供高解析度經叢集之輸出資料830之輸出。精製處理820之目的在於在例如從低解析度至中解析度然後至高解析度時,銳化叢集間之邊界如影像解析度提升。在該金字體之每一階,對於每一 個像素,精製處理界定像素實際上附屬於哪個叢集以鏈接叢集之識別至像素。對於每一個像素,依例如歐幾里德距離指定哪一個最接近該叢集。請瞭解到亦可使用其他方法判定一像素與一叢集間之「緊密度」。於圖9顯示精製處理820之更詳細說明。
於圖9(a)中顯示在時間t之叢集識別的較低解析度陣列900(LR(t))。顯示「A」至「E」的五個像素。此處像素「E」為興趣像素。由於圖9(b)中亦在時間t增加取樣較低解析度陣列900為一較高解析度如陣列930(HR(t)),像素E不再是像素「E」,寧可想做是像素「a」。然而,像素「a」之真面目可為圖9(c)之在時間(t-1)之陣列960(HR(t-1))中所示的數個值中的一者。
然而,對於每一個像素,將從像素與叢集之中心點之間的歐幾里德距離之觀點來看時為最靠近的叢集指定於與其比較者。如圖9上面所示,像素「a」之叢集候選可表示如以下中之一:ID(a)HR(t)=ID(Dmin(V(E);V({A,B,C,D}LR(t));V({0,1,2,3,4,5,6,7,8,9,10,11}HR(t-1)))其中:ID(a)係像素「a」的識別標誌;LR(t)係在時間t之較低解析度影像;HR(t)係在時間t之較高解析度影像;HR(t-1)係在時間t-1之較高解析度影像;Dmin(V;X)係像素「E」與X之間的最小歐幾里德距離,其中X係最靠近的叢集之中心點的位置; V(x)係ID為x的對應像素之3D值;{A,B,C,D}係較低解析度陣列900中之像素叢集識別候選清單;以及{0,1,2,3,4,5,6,7,8,9,10,11}係在時間(t-1)之較高解析度陣列960中之像素叢集識別候選清單。換言之,於較高解析度陣列930中在時間t之像素「a」的叢集識別係藉由在像素「a」與被認為所分配至之叢集的中心之間的最小歐幾里德距離而定。如上所述,像素「a」之叢集識別係最小距離界定如下:(i)在時間t之較低解析度陣列900中之對應的像素「E」之3D值(V(E));(ii)在時間t之較低解析度陣列900中之對應的像素「A」、「B」、「C」或「D」任一者之3D值(V({A,B,C,D}LR(t));或(iii)在時間t-1之較高解析度陣列960中之對應的像素「0」至「11」任一者之3D值V({0,1,2,3,4,5,6,7,8,9,10,11}HR(t-1))。
圖10顯示精製處理的結果之簡單說明。於圖10(a)中,於一較低解析度影像1000中顯示兩個叢集1010,1020。圖10(b)顯示已經執行精製處理820之後的較高解析度影像1050中的同兩個叢集1060,1070。
於例如上述之精製處理的一實施例中,若未確認像素有效,則該等像素不考慮作處理。例如,若來自對像素照明之相機的紅外光束屬於一既定臨界值範圍內、若有不良的照明坡度、若旗標像素為背景之一部分、或像 素在若干裁剪平面的實際限制之外,則可能確認像素為無效;該裁剪平面限制已處理的3D空間。
圖11說明一流程圖1100,其與一使用者介面之一實施例有關,且尤其與支援控制及/或互動之POI的偵測與識別有關。於該實施例中,對於使用者介面激活姿勢處理偵測器有兩個主要輸入,一般而言低與高解析度叢集影像之至少一高解析度1110(產生為如上文參照圖6所述之場景叢集之一個輸出),且叢集係識別為一端點1120(亦產生為如上參照圖6與圖7所述之場景叢集的非直接輸出)。經叢集之影像1110與叢集端點清單1120係輸入至一激活姿勢偵測器1130,其著眼於所有在圖6之鏈接圖640中標為端點並說明同調運動的叢集之中心點。移動中心點之同調性係藉判定其所屬之叢集的時期而判定,並係藉其說明與一經限定之聲音量的移動之事實而判定(亦即,非一不平穩的軌跡),該量在既定臨界值以下。移動目標之同調性,在本情況中,叢集之中心點的同調性可藉由例如偵測POI之方向上的連續變化(亦即其本身的中心點)並計算與在軌跡定位上的每一個變化的各自位置及找到之參考種子點的排序(一軌跡變化位置)相關的若干資料計算與統計而判定。於一個例子,展示每一畫格之在POI之方向上的變化的軌跡可視為不同調且無用。於另一個其他的例子,展示逐格相反方向上之高速移動的軌跡亦為無用且視為非同調移動點。一般來說,POI移動同調性要求移動在一定範圍的速度及加速 度內,且藉由已存POI執行一定時間量,並在相同方向上之連續軌跡之間展示一定量的方向向量同調性。
於步驟1130中之激活姿勢偵測包含執行POI軌跡分析,且因而依賴POI之方向上的變化之偵測(控制姿勢處理依賴相同處理,因為對激活姿勢叢集候選清單限制POI清單,其僅在輸入上不同)。對於在軌跡方向上找到之變化每者,界定參考種子點如上文所述。所有參考種子點位置係儲存系統中。連續激活姿勢辨識意指軌跡之連續分析。於藉由成像系統所擷取的每一個畫格,至少計算POI與最後掌握之參考種子位置相距的距離D,且由於已偵測出姿勢並一定的取樣數量內,所以亦判定出其軌跡的總長度L。若在連續參考種子點中間的順序、時間、幾何及統計特性對應於定義姿勢者,則隨著立即辨識出姿勢,並刷新儲存參考種子點之記憶體。
激活姿勢偵測器1130實時分析符合作為端點及處於同調運動之標準的POI候選的軌跡,以判定其等是否匹配期望的激活姿勢。此種類型的激活姿勢更詳細描述於下。激活偵測器1130對於被認為是視野中之至少端點的中心點進行軌跡分析,使得期望的激活姿勢可被偵測出來。一旦已偵測出期望的激活姿勢,在視野內創造ROI。產生激活姿勢的POI候選(例如,叢集中心點)接著成為在經創造之ROI的主POI。此外,於步驟1140,對於至少一個已完成至少一個激活姿勢的預定清單之至少一個叢集(POI候選),激活姿勢偵測器產生識別為執行互動之POI的叢集清單。
若在一特定使用者介面應用中允許多ROI及/或若允ROI重新創造,則控制框體管理器(ROI管理器)1150運用叢集清單中之經識別的POI,亦即每一個情況中之對應中心點的識別件,從而檢查中心點的3D位置足夠遠離已存之ROI。重新創造係可被對於單一ROI實例激活之參數,且僅在當下存在之ROI不具任何指示件及激活姿勢在已存之ROI外進行時執行。指示件被視作為已從激活姿勢或在激活姿勢之後識別出之興趣點,但其位置係在ROI中。
此外,在ROI管理器1150之控制下,已進行激活姿勢之中心點可成為已創造之ROI中的指示件。若接下來的同調移動端點進入ROI,根據ROI中允許的POI數量,其可成為另一個POI。ROI管理器950針對每一個ROI輸出ROI清單與POI清單。POI可被標記為主POI或者不標記。ROI管理器運用屬於對應之ROI的每一個POI之識別件,以針對時間管理ROI。
請注意到ROI為n維空間,其尺寸係依特定系統而預定。於另一個實施例中,例如若POI意圖移出ROI,則可動態改變尺寸。亦可利用ROI中之至少兩個POI界定對角端點。此外,將在預定期間D1內其中未有POI經激活之ROI停止;以及若其維持停止再一預定期間D2,則將其銷毀。
經激活之POI係RAG的端點,且展現同調運動。將預定期間D3未移動之經激活的POI停止。若其仍停止在一預定期間D4,則將其銷毀。一旦移出ROI之POI跨過 ROI之邊界,則將其停止。若其仍停止預定期間D5,則將其銷毀。然而,若同調移動端點(中心點)於接近先前的POI離開的位置處(透過秘密區域)且在屆滿D5期間之前重進ROI,則可重新激活POI。秘密區域為POI在接近其離開ROI由臨界值計時器控制之預定期間的位置處重新進入ROI的區域。
現在開始談論姿勢控制,請瞭解到許多姿勢可用作為控制信號,但以下僅敘述「畫圓」、「揮舞」、「大程度揮舞」、「揮擊」、「推」、「拉」、「靜止」、「敲擊」與「指示」。
在已判定在視野內可作為POI之使用者或目標之端點存在後,使用「畫圓」作為一激活姿勢,以例如指示成像系統即將激活該介面或打開。然而,應當注意根據本發明一激活姿勢並不一定要激活或活化使用者介面,僅可判定哪個POI要與介面互動。圖12說明基於軌跡的「畫圓」姿勢辨識。
於圖12,如由中心點位置所示,逐格判定POI之軌跡。於包含A、B、C或D之點的任一者開始,並如所示移動於順時鐘方向,中心點之軌跡如所示般繞「畫圓」移動。當中心點繞「畫圓」移動時,偵測到相對於X及Y軸之軌跡方向上的改變:(i)D點至A點,存在+Y軸方向上的改變;(ii)A點至B點,存在+X軸方向上的改變;(iii)B點至C點,存在-Y軸方向上的改變;(iv)C點至D點,存在-X軸方向上的改變。
根據中心點在+Y、+X、-Y、-X軸方向上的軌跡變化之離散讀數點的不同變化以偵測「畫圓」,從而判定經偵測之四分之一圓的數量。執行至少四個四分之一圓之POI被認作為執行一圓,且可藉由運用已偵測方向變化的至少四個參考種子點以判定圓係數。當在中心點的單一軌跡中偵測到至少四個連續的四分之一圓,則偵測為一「畫圓」。上述中心點方向上的變化係與A、C點之間的距離DeV及B、D點之間的距離DeH一起偵測,從而判定中心點是否執行「畫圓」之激活姿勢。界定「畫圓」之參數包含:在如順時鐘或逆時鐘之相同方向上偵測到之至少四個連續四分之一圓;預定尺寸之圓圈大小;執行一定期間之畫圓;以及如上述具有一定圓係數之圓。
圖13說明基於軌跡的「揮舞」姿勢辨識。如POI位置所示,逐格判定POI之軌跡。此處,當執行「揮舞」時,A、B、C及D點對應於POI軌跡之參考種子點(該情況下揮舞姿勢軌跡之端點)。在A點開始,POI移動一距離至B點;一幾乎相同距離回到C點;以及一幾乎相同距離至D點。如所示,就DX、DY、DZ之X、Y及Z軸而言,中心點移動的距離存在變化。參考種子點A、B、C及D之偵測與移動之距離指出已作出「揮舞」姿勢。
根據軌跡之兩個連續參考種子點之間相反方向上的變化以偵測「揮舞」。兩個連續參考種子點之間的距離D1對應於一半揮舞。可根據方向上之變化的特性,判定數種類型的參考種子點。每一個姿勢可為相對於數種類 型之參考種子點的時間之組合。例如,Y方向上的變化可為稱作「類型A」的參考種子點,X方向上的變化可為稱作「類型B」的參考種子點等等。在另一個距離D2增加半揮舞的數量時,該距離累積。若此其他的距離D2落入預定範圍且中心點的運動選擇式的落入預定速度範圍,則只要連續半揮舞之數量亦大於亦即至少兩個半揮舞的其他預定值,就判定偵測到「揮舞」。
「超級揮舞」與「揮舞」不同之處如下:兩個連續終點之間的距離可大於「揮舞」者;中心點之速度亦可大於「揮舞」者;例如,連續半揮舞之數量可大於「揮舞」者。
圖14說明基於軌跡的「揮擊」姿勢辨識。POI在「揮擊」姿勢的執行中從左邊移至右邊,如於PAT1、PAT2、PAT3、PAT4及PAT5之中心點位置所示,逐格判定POI之軌跡。每一畫格之POI的位置分別顯示為PAT1、PAT2、PAT3、PAT4及PAT5,每一畫格之POI的速度向量分別顯示為V1、V2、V3及V4。PAT1例如對應於在To時的點A。如所示,相對於X、Y及Z軸之距離DX、DY、DZ在POI從第一位置PAT1移至最終位置PAT5時亦可逐格變化。
若POI速度超過一預定臨界值且中心點具有線性軌跡,則偵測為「揮擊」。於線性軌跡中POI涵蓋的距離亦需超過預定臨界值。
圖15說明基於軌跡的「推」或「拉」姿勢(兩者相對)。POI在該「推」姿勢中從位置PAT1移至PAT4,並在「拉」姿勢中從PAT4移至PAT1,如在PAT1,PAT2, PAT3及PAT4之POI位置所示逐格判定POI之軌跡。每一個畫格之POI的速度向量分別示如V1,V2及V3。如上所述,PAT1對應於T0時之點A。
在深度或Z軸上,亦即在朝向相機的方向上,「推」係有效的一類型之「揮擊」。尤其,相對於X與Y軸之POI的位置大致上不會變化。
「拉」係在遠離相機的方向上,與「推」一樣為有效的一類型。
圖16說明基於軌跡的「敲擊」姿勢辨識,POI之軌跡係如PAT1,PAT2,PAT3,PAT4及PAT5之中心點位置所示逐格判定。PAT1對應於T0時的點A。在此種情況下,POI沿著Z軸從PAT1穿過PAT5然後返回PAT6。因為對於POI在任何時間點逐格計算速度及/或加速度特性,故圖16中僅顯示速度向量V1。
「指標」姿勢對應於相對於至少與其相關聯之ROI的尺寸之POI的相對位置。該POI可為主POI或一後成之POI。
一另外的姿勢係「靜止」,POI在至少一既定的期間並在對應的ROI內維持在一既定位置。
一般而言,藉由計算連續參考種子點之間的基本幾何、時間與POI軌跡特性,以偵測姿勢,每一個參考種子點為不同類型之軌跡特性經偵測如上文所示之位置。亦使用參考種子點排序分析以判定姿勢。
圖17說明使用者介面導航系統之流程圖1700。該系統可在兩種模式下操作,亦即如框體1720所指示之被動 控制模式、以及框體1760所指示之主動控制模式。輸入資料(框體1710)如所示係使用於被動及主動控制模式兩者,該輸入資料形成一輸入,用於動作偵測、使用者識別、使用者定位、POI偵測模組1725、姿勢控制、語音控制、以及硬體控制模組1765。
於該被動控制模式中,在沒有輸入資料、以及在步驟1725中沒有任何處理被觸發為將該系統切換至主動控制模式的事件時,該導航系統可操作於一待命模式(框體1730)。3D場景脈絡分析模組1735可判定是否要激活該系統或保持待命模式。模組1735從模組1725接收輸入控制,該輸入控制一般而言為「逗留或轉待命模式」或「逗留或轉已激活之模式」。例如,進入房間之使用者可能亦會進行相機的視野並可能會產生在步驟1725中經識別之動作。藉由與該系統之經活化之模式下的脈絡式選單及/或脈絡式應用模組1770互動之模組1735中之3D場景脈絡分析,該經識別之動作有效地要求處於待命模式之導航系統轉為經活化之模式。例如,在轉至經活化之模式時,該系統可在螢幕上顯示圖形多媒體介面之主選單。模組1770反過來與脈絡式使用者控制模組1775互動。模組1775從模組1765接收輸入控制信號,該輸入控制一般而言允許自然姿勢控制允許以與GUI互動。該脈絡式選單及/或脈絡式應用模組1770可採取許多形式並提供介面回饋給使用者。例如,可使用動畫圖以指示與該脈絡式選單及/或脈絡式應用模組1770互動需要的姿勢。
圖18說明一虛擬鍵盤主框1800,其可為圖17之模組1770所發動的脈絡式應用。主框1800包含預選區域1810、選擇區域1820、選擇順序視覽區域1830、以及建議區域1840。預選區域1810包含n個次預選1812,1814,...,1818,各種類之已定位的圖標或元素位於其中,待使用者選擇。一般而言,依據字元的種類將元素分群。選擇區域1820包含n個次選擇區域1822,1824,...,1828,圖標選擇或與由使用者在預選區域中選擇之特定種類相關的元素位於其中。選擇順序視覽區域1830係由使用者所作之選擇顯示的地方。建議區域1840包含n次建議區域1842,1844,...,1848,放置於經選擇之順序視覽區域1830中的最後選擇順序之建議在該等地方提供給客戶。虛擬鍵盤之一施行示於圖19中。
於圖19中,顯示虛擬鍵盤1900之一特定配置。鍵盤1900包含顯示字元群的區域1910。字元組1912,1914,1916,1918,1920,1922每者係個別地可選擇且可變化字元群之個數。在區域1910之左手側,設置允許將顯示於中央預選區域1910的數字的區域1930,且在區域1910之右手側,設置特殊字元之區域1940。區域1910,1930及1940對應於上文參照圖18所述之預選區域1812,1814,...,1818。
區域1950對應於圖18中之選擇區域1820,並與字元K,L,M,N,O一起顯示於此作為選項以供選擇,字元K每者對應於次選擇區域1822,1824,...,1828(圖18)之一者。區域1960對應於圖18之選擇順序視覽區域1830,且 區域1970對應於具有與次建議區域1842,1844,...,1848對應的區域1972,1974,1976,1978,1980之建議區域1840。請瞭解到可依若干既定規則變化字元之個數。
於圖19中,選擇區域1916以提供字母K,L,M,N,O於選擇區域1950中。選擇且呈現字母K於選擇順序視覽區域1960。在已選擇字母K時,各種選擇提議於建議區域建議區域1970中。在選擇另一字母時,不是來自選擇區域1950之當下的字元就是來自從預選區域1910選出並呈現於選擇區域1950之新的一組字元,提議區域1970中之提議會相應地更新。
請瞭解到在選擇數字區域1930或特定字元區域1940時,數字或特定字元會顯示於選擇區域1950以供選擇(未圖示)。
雖然於圖19中顯示具有字母與數字及特定字元的鍵盤,請瞭解到代替該等字母與數字及特定字元,該鍵盤可具有其他符號或字元。
於上文所述之特定實施例中,使用者經驗係改良為待執行之必要姿勢係自然、直覺及輕易的。例如,在就對在1930或1940之次預選上的姿勢控制指標之定位自動更新1910之視覽時,指示1950之次選擇自動更新選擇視覽1950,指示1950之次選擇自動更新選擇視覽1960。同樣地,使用指標滾下,並隨意地在指至建議元素1970一者時,使用該虛擬鍵盤需要執行單一姿勢(亦即,該指示),且僅由該使用者執行之差不多上與下(僅向後與向前)移動。
於一較低效的實施例中,可藉指著期望的元素長達一計時器管理的既定時段之、或指著期望的元素元素並執行至少一個例如上文所述之「敲擊」姿勢的其他自然姿勢,以執行預選、選擇或建議建議確認。
圖20說明ROI管理之流程圖2000。提供包含ROI候選清單與POI候選清單的輸入2010(亦即,作出一激活姿勢的叢集)。檢查該輸入2010以判定是否有允許的多興趣區域(步驟2020)。在僅一個ROI被允許時,系統檢查一ROI是否已經存在於該系統中(步驟2030)。在沒有ROI已經存在時,基於至少第一ROI候選而創造一新的ROI(步驟2040),且對於該新的ROI設定一關聯的主POI(步驟2050)。輸出2060包含可能具有已標記的至少一主POI的經精製之興趣區域與興趣點清單。
在允許多興趣區域時,系統使用包含允許的興趣區域之數量與至少ROI每者之尺寸的輸入參數2015檢查ROI候選是否有效(步驟2025)。在符合模組2025之輸入參數2015時,且在ROI候選不與任何已存在者重疊時,根據至少第一ROI候選創造一新的ROI。亦設定一關聯的主POI(步驟2050)。
此外,在允許一單一ROI且其已存在時,進行一檢查以判定該ROI中之主POI的狀態是否為主動(步驟2035)。在主POI不為主動時,可銷毀該已存在之ROI(步驟2045),並相對於ROI候選與其關聯的主POI創造一新的ROI(步驟2040)。
圖21說明POI管理之流程圖2100。提供輸入資料2110與輸入參數2120以管理主POI(步驟2130)與從屬POI(步驟2140)。一般非限定而言,一主POI係執行激活姿勢及一ROI所依附的POI。於若干其他實施例中,可依據若干既定規則而交換主POI與從屬POI狀態。例如,若喪失主POI,則一從屬POI可取代該主POI之狀態。步驟2130與步驟2140之輸出係使用於使主POI與從屬POI產生關聯性(步驟2150),其結果旨在提供一包含新的已識別之興趣點清單與新的已識別之興趣區域清單的輸出2160。主興趣點與從屬興趣點之相互關係可包含解除不再主動或有用之興趣點。
圖22說明POI管理器之操作流程圖2200。輸入資料2210(即POI)係施加於一POI狀態分析處理2220,其輸出係POI喪失2225、POI主動2230或POI被動2235。此等輸出係與包含例如數個時間值的輸入參數2215一起施加於一POI特性分析處理2240。該特性分析2240估測例如計時器(當下狀態之時間長度)、位置、端點、以及POI係一主POI或一從屬POI等特性。根據該特性分析2240,提供一個或以上的下述輸出:更新POI狀態2250;秘密管理2260;更新POI位置2270;POI主/從屬關聯性2280;以及POI黑名單2290。一POI黑名單係一包含無法用於一特定ROI之興趣點的識別之清單。例如,可解除自其他ROI移出之POI,然後移入該黑名單中。若該POI在一既定期間之後與其他ROI無關聯,則可從該黑名單中移除 該POI,而若該POI符合與當下的ROI相關之參數,則酌情使其與該當下的ROI連結。
於圖23中,顯示一ROI標記2300與興趣點。於該標記2300中,設置人類使用者之標記2310,於其上在一ROI 2340中顯示兩個興趣點2320與2330。該興趣點一般非限定而言,就人類來說,為手部的標記。該ROI 2340係顯示為一3D空間中的點框體,其包圍興趣點2320,2330兩者。此等興趣點每者對應於一中心點,並定位於該場景之對應的已叢集影像之區域相鄰圖的3D端點,其中,因為該等手部位於臂部的終端,故其等為人體之端點。選擇一個POI(POI 2320)作為主POI,且另一個POI(POI 2330)作為從屬POI。於此特定實施例中,該主POI與該從屬POI皆可用於控制姿勢,例如選擇、確認等等。
於圖24中說明激活與控制姿勢介面回饋。圖24(a)說明使用者之使用者/控制件標記2410,具有說明一「揮舞」姿勢之手部的擺動動作2420。同樣地,於圖24(b)中,與說明一「畫圓」姿勢之手部的畫圓動作2430一起顯示使用者/控制件標記2410。該使用者/控制件標記2410並未限定為圖24(a)及圖24(b)所示者,可採用使用者容易辨識之任何適當的形式之表示。
圖24(a)及圖24(b)所示之使用者/控制件標記一般可用作為回饋資訊,以向一使用者指示在與根據本發明之使用者介面互動之期間的特定時間需要哪個姿勢。
圖25說明在與一使用者之互動後(未圖示)之介面元素回饋2500之一個非限定實施例。一預設的控制元素表示或圖標示於2510。在使用者與圖標2510互動期間及/或之後,可顯示該圖標為以下任一者:2520所示之周圍變化;2530所示之形式變化;2540所示之內容變化;2550所示之維持原樣;2560所示之位置與方向變化;或2570所示之形式、周圍及內容變化之組合。
圖26說明根據本發明之介面元素回饋處理2600的第一較佳實施例。顯示控制與系統之互動的POI標記2610,一手部形式。亦顯示一圖形使用者介面(GUI)控制元素標記2620,一標有「圖標」之圓形按鈕形式。請瞭解到「圖標」可替換為任何其他可令使用者瞭解對應元素所關聯之互動者的適當標誌、用語或顏色。例如,該「圖標」可替換為「開始遊戲」。當選擇該按鈕2620時,其外觀會變化,例如該按鈕如所示變成已填滿或已加亮,作為使用者與該按鈕之間的互動之狀態指示。此逐步顯示於2630,2640,2650,直到起始期望的動作及/或選擇之位置2660。一旦該按鈕達到指示按鈕之激活的正確外觀,使用者可釋放或取消選擇如2670所示、或直接開始與新的使用者介面之標記互動。若互動並未令使用者介面元素變化,則該按鈕可返回其初始狀態以為下一次激活作準備。
圖27說明根據本發明之其他較佳介面元素回饋處理2700。介面元素回饋2700之操作方式與以上參照圖26所記載之回饋處理相同。其中,當選擇按鈕2720時,其外 觀變化,但本次,依時間階段性形成環形2730之動畫,如2740,2750,2760所示,作為使用者與該按鈕之互動的狀態指示,直到起始期望的動作及/或選擇。一旦該按鈕達到指示按鈕之激活的正確外觀,則使用者可釋放或取消選擇如2740所示、或在與對應元素相關聯之控制致使圖形使用者介面變化時開始與其他介面之互動。若互動並未令使用者介面元素變化,則該按鈕可返回其初始狀態以為下一次激活作準備。
亦可採用參照圖25之介面元素回饋所述之方式設置介面使用者標記回饋。以根據互動狀態產生變化的方式顯示使用者之標記。可根據選單元素或使用者姿勢控制依脈絡界定此互動狀態。例如,游標/指標標記可隨其有效性、其狀態(有效或無效)、其位置(在指定的ROI內或在該指定的ROI外)、或其互動狀態(與脈絡式介面控制元素互動或不互動)而變化。如上述,在使用者與一元素互動期間及/或之後,可顯示該元素為下列之一:一周圍變化;一形式變化;一內容變化;維持原樣;一位置及方向變化;或例如形式、周圍及內容之組合變化。此外,根據圖26及圖27所述之實施例亦可實現使用者介面標記回饋。
此外,游標方向可隨移動方向而變化。例如,該游標可如上述以一手部表示,且該手部標記依時間保持開放,並僅於在介面中選擇/確認/攫取一元素時,變化為手部閉合。
圖28以流程圖2800的形式說明一介面後段控制互動處理。於圖表2800中,顯示一第一介面狀態2810,提供一輸入至一基於姿勢辨識之控制處理2820。此處理提供一輸入至基於一後段控制姿勢之確認處理2830,其提供一第二介面狀態2840作為一輸出。
此處理係一姿勢控制確認處理之初步說明。該姿勢控制確認處理之目標在於根據一簡單的後段控制互動確認一已執行與已辨識之姿勢,從而防止進一步或錯誤的姿勢而執行一不期望的控制/命令/動作。例如,一使用者可在觀看電影時執行一畫圓姿勢,該畫圓與在系統中之使系統之主選單顯示於螢幕上的處理有關。該後段控制處理可使一「YES」/「NO」確認框顯示,詢問使用者是否打算停止該電影並使用該主選單。打算使用「YES」/「NO」確認框時,該後段控制需要使用其他自然姿勢控制之輸入,例如向右揮擊指示「YES」,而向左揮擊指示「NO」。此外,於其他實施例中,此確認框之控制僅可在執行姿勢之POI維持既定時間於既定位置時激活。然後可根據激活之控制變化介面外觀,例如一旦已準備好使用該確認介面,該介面可從紅色變化為綠色。
此外,本發明之方法與系統具有以下優點:(i)擷取裝置輸入資料之可調性,即適應於任何解析度的影像;(ii)實時跨平台操作,即適應於任何硬碟及/或操作系統; (iii)不需要先前使用者/目標物偵測及/或識別;(iv)不需要先前使用者部位/目標部位偵測及/或識別;(v)不需要姿勢分類器;(vi)可允許多控制者,即多ROI及/或多使用者/目標物;(vii)可允許多POI,即每一個單一ROI中允許數個POI;(viii)不需要特定追蹤/運動估測演算法;(ix)針對最小限度之耗力介面的改良型使用者經驗,即介面配置組織;(x)直覺與高效率介面,即運用少量自然姿勢於控制中;以及(xi)來自介面之智慧脈絡式資訊回饋。
雖然針對特定實施例說明本發明之使用者介面,但應理解可使用其他實施例實現本發明。
500‧‧‧8x8陣列
510‧‧‧4像素群
530‧‧‧單一像素
540‧‧‧4x4陣列
550‧‧‧四像素
570‧‧‧低解析度像素
580‧‧‧低解析度陣列
701~710‧‧‧叢集
751~760‧‧‧中心點
900‧‧‧較低解析度陣列
930‧‧‧較高解析度陣列
960‧‧‧較高解析度陣列
1000‧‧‧較低解析度影像
1010‧‧‧叢集
1020‧‧‧叢集
1050‧‧‧較高解析度影像
1060‧‧‧叢集
1070‧‧‧叢集
1800‧‧‧虛擬鍵盤總框
1810‧‧‧預選區域
1812~1818‧‧‧n次預選區域
1820‧‧‧選擇區域
1822~1828‧‧‧次選擇區域
1830‧‧‧選擇順序視覽區域
1840‧‧‧建議區域
1842~1848‧‧‧次建議區域
1910‧‧‧預選區域
1912~1922‧‧‧字元組
1930‧‧‧數字區域
1940‧‧‧特殊字元區域
1950‧‧‧選擇區域
1960‧‧‧選擇視覽
1970‧‧‧建議元素
1972~1980‧‧‧次建議區域
2300‧‧‧表示
2310‧‧‧人類使用者
2320‧‧‧興趣點
2330‧‧‧興趣點
2340‧‧‧興趣區域
2410‧‧‧使用者/控制件標記
2420‧‧‧姿勢
2430‧‧‧姿勢
2500‧‧‧介面元素回饋
2510~2570‧‧‧圖標
2600‧‧‧介面元素回饋處理
2610‧‧‧興趣點之表示
2620~2670‧‧‧圖標
2700‧‧‧介面元素回饋處理
2710‧‧‧興趣點之表示
2720~2770‧‧‧圖標
圖1說明本發明的主要元素之流程圖;圖2說明依照本發明操作使用者介面之流程圖;圖3說明操作興趣點(POI)定位與識別之流程圖;圖4說明多解析度處理之流程圖;圖5更詳細說明圖4之多解析度處理;圖6說明使用圖4與圖5之多解析度處理所創造之低解析度深度圖的流程圖; 圖7說明使用約束K平均領導者與追隨者演算法以判定中心點與端點之鏈接圖;圖8說明給像素指定一叢集識別的精製處理;圖9更詳細說明精製處理之操作;圖10說明圖8之精製處理的效果;圖11說明精製處理之輸出的使用流程圖;圖12說明基於軌跡的「畫圓」姿勢辨識;圖13說明基於軌跡的「揮舞」姿勢辨識;圖14說明基於軌跡的「揮擊」姿勢辨識;圖15說明基於軌跡的「推」/「拉」姿勢辨識;圖16說明基於軌跡的「敲擊」姿勢辨識;圖17說明使用者介面導航系統之流程圖;圖18說明虛擬鍵盤總框;圖19說明虛擬鍵盤之較佳實施例;圖20說明興趣區域(ROI)管理之流程圖;圖21說明POI管理之流程圖;圖22說明POI管理器之操作流程圖;圖23說明人類作為互動控制者之一場景中的ROI與POI之標記;圖24說明教示使用者他/她要執行的姿勢之激活與控制姿勢回饋圖形介面;圖25說明一回饋介面元素;圖26說明回饋介面元素之第一較佳實施例;圖27說明回饋介面元素之第二較佳實施例;以及圖28說明後段控制互動處理之流程圖。
2410‧‧‧使用者/控制件標記
2420‧‧‧擺動動作
2430‧‧‧畫圓動作

Claims (20)

  1. 一種用於與使用姿勢辨識的使用者介面系統互動之方法,該方法包含以下步驟:a)形成一場景的至少一個多維標記,該場景係在至少一個多維成像系統之視野的範圍內者;b)對於前述場景的前述多維標記執行一多維約束叢集操作,以提供前述場景之經叢集之標記;c)從前述經叢集之標記來識別興趣點候選,前述經叢集之標記能用於姿勢辨識,一興趣點將被識別為連接至僅一個其他叢集的叢集且該叢集展現同調運動;以及d)根據以前述至少一個興趣點執行的姿勢識別來控制前述使用者介面。
  2. 如申請專利範圍第1項之方法,另包含至少利用連續軌跡分析來辨識執行興趣點候選的姿勢之步驟,該連續軌跡分析包含以下步驟:識別沿著一興趣點候選之軌跡的軌跡點;識別在一興趣點候選之軌跡方向上的至少一個多維變化,前述至少一個多維變化形成包含一參考種子識別順序的參考種子點;識別在軌跡方向上的連續變化,前述連續變化形成連續參考種子點;以及使用前述參考種子點與前述軌跡點以辨識一姿勢。
  3. 如申請專利範圍第2項之方法,其中,前述軌跡分析 進一步包含:對於每一種子點,判定相對於前面的種子點,包含以下至少一者:距離、速度向量及加速度向量。
  4. 如申請專利範圍第3項之方法,其中,前述軌跡分析進一步包含:對於每一點,使用幾何與統計計算以辨識前述姿勢。
  5. 如申請專利範圍第1項之方法,其進一步包含:若第一次執行一既定姿勢,則激活一興趣點候選作為一經激活之興趣點,前述經激活之興趣點仍具有興趣點候選狀態。
  6. 如申請專利範圍第5項之方法,其進一步包含:判定一與前述經激活之興趣點有關之興趣區域。
  7. 如申請專利範圍第5項之方法,其進一步包含:在執行一既定姿勢時,激活至少一個另一興趣點候選作為至少一個另一經激活之興趣點,前述至少一個另一經激活之興趣點仍具興趣點候選狀態。
  8. 如申請專利範圍第7項中之方法,其進一步包含:判定與前述至少一個另一經激活之興趣點有關的至少一個另一興趣區域。
  9. 如申請專利範圍第6項之方法,其中,每一個興趣區域具有與一興趣點候選之位置相對的位置及維度。
  10. 如申請專利範圍第6項之方法,其進一步包含:辨識一由在前述至少一個已判定之興趣區域範圍內之至少一個既定興趣點候選所執行的既定姿勢。
  11. 如申請專利範圍第1項之方法,其中,前述使用者 介面系統包含一基於姿勢之具有圖形使用者介面的虛擬鍵盤,前述圖形使用者介面具有一既定的元素配置,用以僅使用最小限度之自然姿勢作選擇,該最小限度之自然姿勢係以至少一個興趣點候選而執行。
  12. 如申請專利範圍第1項之方法,其進一步包含:e)根據至少一個興趣點候選的同調運動以控制前述使用者介面系統。
  13. 如申請專利範圍第1項之方法,其中,步驟e)進一步包含:根據前述使用者介面系統之當下狀態,提供脈絡式回饋資訊。
  14. 如申請專利範圍第1項之方法,其中,步驟b)包含使用多解析度影像處理。
  15. 如申請專利範圍第1項之方法,其中,每一個多維標記包含一3D標記。
  16. 一種用於與使用姿勢辨識的使用者介面系統互動的系統,該系統包含:用以形成一場景的至少一個多維標記的手段,該場景係在至少一個多維成像系統之視野的範圍內者;對於前述多維標記執行一多維約束叢集操作的手段,以提供前述場景之經叢集之標記;從前述經叢集之標記識別興趣點候選的手段,其能用於姿勢辨識;以及根據辨識的姿勢來控制前述使用者介面系統的手段;其中該識別興趣點候選的手段包括辨別至少一個 叢集,該叢集係連接至僅一個其他叢集且展現同調運動作為一興趣點候選。
  17. 如申請專利範圍第16項之系統,另包含至少利用連續軌跡分析來辨識執行興趣點候選的姿勢之手段,該連續軌跡分析包含:識別沿著一興趣點候選之軌跡的軌跡點之手段;識別在一興趣點候選之軌跡方向上的至少一個多維變化之手段,前述至少一個多維變化形成包含一參考種子識別順序的參考種子點;識別在軌跡方向上的連續變化之手段,每一前述連續變化形成連續參考種子點;以及使用前述參考種子點與前述軌跡點以辨識一姿勢之手段。
  18. 如申請專利範圍第17項之系統,其中利用前述軌跡分析之手段進一步包含:對於每一種子點,判定相對於前面的種子點之距離、速度向量及加速度向量之一者的手段。
  19. 如申請專利範圍第18項之系統,其中利用前述軌跡分析之手段進一步包含:使用幾何與統計計算以使每一點辨識前述姿勢之手段。
  20. 如申請專利範圍第16項之系統,更包含一基於具有圖形使用者介面的虛擬鍵盤之姿勢,前述圖形使用者介面具有一既定的元素配置,用以僅使用最小限度之自然姿勢作選擇。
TW101100435A 2011-01-05 2012-01-05 基於自然姿勢之使用者介面方法及系統 TWI524210B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP11150271.2A EP2474950B1 (en) 2011-01-05 2011-01-05 Natural gesture based user interface methods and systems

Publications (2)

Publication Number Publication Date
TW201237677A TW201237677A (en) 2012-09-16
TWI524210B true TWI524210B (zh) 2016-03-01

Family

ID=44005288

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101100435A TWI524210B (zh) 2011-01-05 2012-01-05 基於自然姿勢之使用者介面方法及系統

Country Status (10)

Country Link
US (1) US9081419B2 (zh)
EP (1) EP2474950B1 (zh)
JP (2) JP5646085B2 (zh)
KR (1) KR101554082B1 (zh)
CN (1) CN103314391B (zh)
AU (1) AU2012204889B2 (zh)
CA (1) CA2817443C (zh)
SG (1) SG190826A1 (zh)
TW (1) TWI524210B (zh)
WO (1) WO2012093147A1 (zh)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9857868B2 (en) 2011-03-19 2018-01-02 The Board Of Trustees Of The Leland Stanford Junior University Method and system for ergonomic touch-free interface
US9374448B2 (en) 2012-05-27 2016-06-21 Qualcomm Incorporated Systems and methods for managing concurrent audio messages
EP2872966A1 (en) 2012-07-12 2015-05-20 Dual Aperture International Co. Ltd. Gesture-based user interface
CN105378593B (zh) * 2012-07-13 2019-03-01 索尼深度传感解决方案股份有限公司 利用手上的奇异兴趣点基于手势进行人机同步交互的方法和系统
US11237719B2 (en) 2012-11-20 2022-02-01 Samsung Electronics Company, Ltd. Controlling remote electronic device with wearable electronic device
US10551928B2 (en) 2012-11-20 2020-02-04 Samsung Electronics Company, Ltd. GUI transitions on wearable electronic device
US8994827B2 (en) 2012-11-20 2015-03-31 Samsung Electronics Co., Ltd Wearable electronic device
US11372536B2 (en) 2012-11-20 2022-06-28 Samsung Electronics Company, Ltd. Transition and interaction model for wearable electronic device
US9477313B2 (en) 2012-11-20 2016-10-25 Samsung Electronics Co., Ltd. User gesture input to wearable electronic device involving outward-facing sensor of device
US11157436B2 (en) 2012-11-20 2021-10-26 Samsung Electronics Company, Ltd. Services associated with wearable electronic device
US10185416B2 (en) 2012-11-20 2019-01-22 Samsung Electronics Co., Ltd. User gesture input to wearable electronic device involving movement of device
US10423214B2 (en) 2012-11-20 2019-09-24 Samsung Electronics Company, Ltd Delegating processing from wearable electronic device
KR101450586B1 (ko) * 2012-11-28 2014-10-15 (주) 미디어인터랙티브 동작 인식 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
USD732076S1 (en) * 2013-01-04 2015-06-16 Samsung Electronics Co., Ltd. Display screen or portion thereof with animated icon
DE102013100522A1 (de) * 2013-01-18 2014-08-07 Huf Hülsbeck & Fürst Gmbh & Co. Kg Universelle Sensoranordnung zur Erfassung von Bediengesten an Fahrzeugen
US9129155B2 (en) 2013-01-30 2015-09-08 Aquifi, Inc. Systems and methods for initializing motion tracking of human hands using template matching within bounded regions determined using a depth map
US9092665B2 (en) * 2013-01-30 2015-07-28 Aquifi, Inc Systems and methods for initializing motion tracking of human hands
DE102013003033A1 (de) * 2013-02-22 2014-08-28 Audi Ag Verfahren zum Betreiben einer Wiedergabeeinrichtung sowie Vorrichtung mit einer solchen Wiedergabeeinrichtung
RU2013110494A (ru) 2013-03-11 2014-09-20 ЭлЭсАй Корпорейшн Устройство обработки изображений с уровнем оценки, реализующим программный и аппаратный алгоритмы разной точности
EP2973427B1 (en) 2013-03-15 2020-09-09 Intel Corporation Continuous interaction learning and detection in real-time
US9298266B2 (en) 2013-04-02 2016-03-29 Aquifi, Inc. Systems and methods for implementing three-dimensional (3D) gesture based graphical user interfaces (GUI) that incorporate gesture reactive interface objects
US10533850B2 (en) 2013-07-12 2020-01-14 Magic Leap, Inc. Method and system for inserting recognized object data into a virtual world
US20150067603A1 (en) * 2013-09-05 2015-03-05 Kabushiki Kaisha Toshiba Display control device
US20150116200A1 (en) * 2013-10-25 2015-04-30 Honda Motor Co., Ltd. System and method for gestural control of vehicle systems
US10311595B2 (en) 2013-11-19 2019-06-04 Canon Kabushiki Kaisha Image processing device and its control method, imaging apparatus, and storage medium
JP6429466B2 (ja) * 2013-11-19 2018-11-28 キヤノン株式会社 画像処理装置およびその制御方法、撮像装置、プログラム
JP6344903B2 (ja) * 2013-11-19 2018-06-20 キヤノン株式会社 画像処理装置およびその制御方法、撮像装置、プログラム
CN103616952B (zh) * 2013-12-03 2017-08-08 北京悦动双成科技有限公司 确定动作的方法及三维传感器
US9390726B1 (en) 2013-12-30 2016-07-12 Google Inc. Supplementing speech commands with gestures
US9213413B2 (en) 2013-12-31 2015-12-15 Google Inc. Device interaction with spatially aware gestures
EP2891950B1 (en) 2014-01-07 2018-08-15 Sony Depthsensing Solutions Human-to-computer natural three-dimensional hand gesture based navigation method
US10691332B2 (en) 2014-02-28 2020-06-23 Samsung Electronics Company, Ltd. Text input on an interactive display
KR102265143B1 (ko) * 2014-05-16 2021-06-15 삼성전자주식회사 입력 처리 장치 및 방법
USD766305S1 (en) * 2014-05-21 2016-09-13 Panasonic Intellectual Property Management Co., Ltd. Portion of a vehicle display screen with graphical user interface
USD764493S1 (en) * 2014-11-14 2016-08-23 Microsoft Corporation Display screen with animated graphical user interface
CN105843371B (zh) * 2015-01-13 2018-11-02 上海速盟信息技术有限公司 人机隔空交互方法及系统
WO2016167672A1 (es) * 2015-04-14 2016-10-20 Delmar Lissa Jose Antonio Dispositivo portátil de comunicación para transmitir mensajes táctiles
CN107533359B (zh) * 2015-05-20 2019-04-23 三菱电机株式会社 信息处理装置和联锁控制方法
KR20160147326A (ko) 2015-06-15 2016-12-23 동의대학교 산학협력단 깊이 영상 처리 기반의 가상 키보드 조작 방법
EP3115926A1 (en) * 2015-07-08 2017-01-11 Nokia Technologies Oy Method for control using recognition of two-hand gestures
JP6569496B2 (ja) * 2015-11-26 2019-09-04 富士通株式会社 入力装置、入力方法、及びプログラム
CN105549873A (zh) * 2015-12-03 2016-05-04 联想(北京)有限公司 一种信息处理方法及装置
US10217283B2 (en) * 2015-12-17 2019-02-26 Google Llc Navigation through multidimensional images spaces
US9900584B2 (en) * 2016-04-27 2018-02-20 Semyon Nisenzon Depth map generation based on cluster hierarchy and multiple multiresolution camera clusters
USD814477S1 (en) * 2016-07-19 2018-04-03 Resounding, Llc Display screen or portion thereof with graphical user interface
CN106155326A (zh) * 2016-07-26 2016-11-23 北京小米移动软件有限公司 虚拟现实通讯中的对象识别方法和装置、虚拟现实设备
US10832071B2 (en) 2016-09-01 2020-11-10 International Business Machines Corporation Dynamic determination of human gestures based on context
CN107918481B (zh) * 2016-10-08 2022-11-11 深圳巧牛科技有限公司 基于手势识别的人机交互方法与系统
CN110545886A (zh) * 2016-12-05 2019-12-06 优史佩斯公司 用于基于手势的交互的系统和方法
US10437342B2 (en) 2016-12-05 2019-10-08 Youspace, Inc. Calibration systems and methods for depth-based interfaces with disparate fields of view
US10303417B2 (en) 2017-04-03 2019-05-28 Youspace, Inc. Interactive systems for depth-based input
US10303259B2 (en) 2017-04-03 2019-05-28 Youspace, Inc. Systems and methods for gesture-based interaction
US11010813B2 (en) * 2016-12-14 2021-05-18 Walmart Apollo, Llc System for building grocery basket and method of using same
CN107478227B (zh) * 2017-07-11 2020-06-16 厦门博尔利信息技术有限公司 交互式大型空间的定位算法
EP3454177B1 (en) * 2017-09-11 2020-06-10 Barco N.V. Method and system for efficient gesture control of equipment
US11284844B2 (en) * 2017-11-16 2022-03-29 Control Bionics Holdings Pty Ltd. Electromyography (EMG) assistive communications device with context-sensitive user interface
USD982613S1 (en) * 2018-04-06 2023-04-04 Google Llc Display screen with animated graphical user interface
CN109348400B (zh) * 2018-09-16 2020-08-04 台州昉创科技有限公司 一种3d音效的主体位姿预判方法
USD917557S1 (en) * 2019-03-12 2021-04-27 Capital One Services, Llc Display screen or portion thereof with animated card communication interface
US11559738B2 (en) 2019-12-11 2023-01-24 Playerunknown Productions B.V. Machine learned virtual gaming environment
CN111695420B (zh) * 2020-04-30 2024-03-08 华为技术有限公司 一种手势识别方法以及相关装置
CN112818224B (zh) * 2021-01-26 2024-02-20 北京百度网讯科技有限公司 信息推荐方法、装置、电子设备及可读存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6683968B1 (en) * 1999-09-16 2004-01-27 Hewlett-Packard Development Company, L.P. Method for visual tracking using switching linear dynamic system models
WO2002037471A2 (en) * 2000-11-03 2002-05-10 Zoesis, Inc. Interactive character system
JP3732757B2 (ja) * 2001-06-08 2006-01-11 株式会社東芝 画像認識方法および画像認識装置
WO2003071410A2 (en) * 2002-02-15 2003-08-28 Canesta, Inc. Gesture recognition system using depth perceptive sensors
DE20300882U1 (de) 2003-01-21 2003-03-13 Fraunhofer Ges Forschung Vorrichtung zur interaktiven Steuerung eines Mauszeigers einer graphischen Benutzerschnittstelle
JP2005242759A (ja) * 2004-02-27 2005-09-08 National Institute Of Information & Communication Technology 行動・意図推定システム、行動・意図推定方法、行動・意図推定プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
EP2458554B1 (en) * 2005-01-21 2015-04-29 Qualcomm Incorporated Motion-based tracking
MX2009011251A (es) * 2007-04-20 2009-12-14 Softkinetic S A Metodo y sistema de reconocimiento de volumen.
CN101952818B (zh) 2007-09-14 2016-05-25 智慧投资控股81有限责任公司 基于姿态的用户交互的处理
CN101874404B (zh) 2007-09-24 2013-09-18 高通股份有限公司 用于语音和视频通信的增强接口
US8555207B2 (en) 2008-02-27 2013-10-08 Qualcomm Incorporated Enhanced input using recognized gestures
WO2010011923A1 (en) 2008-07-24 2010-01-28 Gesturetek, Inc. Enhanced detection of circular engagement gesture
WO2010011929A1 (en) 2008-07-25 2010-01-28 Gesturetek, Inc. Enhanced detection of waving engagement gesture
JP5427385B2 (ja) * 2008-09-29 2014-02-26 日立コンシューマエレクトロニクス株式会社 操作制御装置及び操作表示方法
WO2010103482A2 (en) 2009-03-13 2010-09-16 Primesense Ltd. Enhanced 3d interfacing for remote devices
JP4840620B2 (ja) * 2009-04-30 2011-12-21 株式会社デンソー 車載用電子機器操作装置
US9377857B2 (en) 2009-05-01 2016-06-28 Microsoft Technology Licensing, Llc Show body position
US9400559B2 (en) * 2009-05-29 2016-07-26 Microsoft Technology Licensing, Llc Gesture shortcuts
EP2480955B1 (en) * 2009-09-22 2018-05-16 Facebook Inc. Remote control of computer devices
US20110151974A1 (en) * 2009-12-18 2011-06-23 Microsoft Corporation Gesture style recognition and reward
EP2357605B1 (en) * 2009-12-28 2013-01-16 Softkinetic Software Stabilisation method and computer system
WO2011106520A1 (en) * 2010-02-24 2011-09-01 Ipplex Holdings Corporation Augmented reality panorama supporting visually impaired individuals
US8558873B2 (en) * 2010-06-16 2013-10-15 Microsoft Corporation Use of wavefront coding to create a depth image
US8578299B2 (en) * 2010-10-08 2013-11-05 Industrial Technology Research Institute Method and computing device in a system for motion detection

Also Published As

Publication number Publication date
CN103314391A (zh) 2013-09-18
US20140007022A1 (en) 2014-01-02
KR20130112061A (ko) 2013-10-11
CA2817443A1 (en) 2012-07-12
KR101554082B1 (ko) 2015-09-17
EP2474950B1 (en) 2013-08-21
JP2014501415A (ja) 2014-01-20
JP2014225288A (ja) 2014-12-04
JP6031071B2 (ja) 2016-11-24
AU2012204889B2 (en) 2014-09-11
AU2012204889A1 (en) 2013-04-18
CN103314391B (zh) 2017-03-01
SG190826A1 (en) 2013-07-31
TW201237677A (en) 2012-09-16
JP5646085B2 (ja) 2014-12-24
US9081419B2 (en) 2015-07-14
WO2012093147A1 (en) 2012-07-12
EP2474950A1 (en) 2012-07-11
CA2817443C (en) 2015-08-25

Similar Documents

Publication Publication Date Title
TWI524210B (zh) 基於自然姿勢之使用者介面方法及系統
US10248218B2 (en) Systems and methods of direct pointing detection for interaction with a digital device
US20180292907A1 (en) Gesture control system and method for smart home
CN107077169B (zh) 扩增现实中的空间交互
EP3324271B1 (en) Selection of an object in an augmented or virtual reality environment
US9030498B2 (en) Combining explicit select gestures and timeclick in a non-tactile three dimensional user interface
CN105229582B (zh) 基于近距离传感器和图像传感器的手势检测
US20230274513A1 (en) Content creation in augmented reality environment
JP4323180B2 (ja) 自己画像表示を用いたインタフェース方法、装置、およびプログラム
US20140049558A1 (en) Augmented reality overlay for control devices
US9874977B1 (en) Gesture based virtual devices
CN105824422B (zh) 一种信息处理方法及电子设备
CN111643899A (zh) 一种虚拟物品显示方法、装置、电子设备和存储介质
CN113546419B (zh) 游戏地图显示方法、装置、终端及存储介质
US20220382377A1 (en) Systems and methods for controlling virtual widgets in a gesture-controlled device
EP3449390A1 (en) Augmented media
CN109753154B (zh) 有屏设备的手势控制方法和装置
Piumsomboon Natural hand interaction for augmented reality.
EP2886173A1 (en) Augmented reality overlay for control devices