TW201543268A

TW201543268A - 用於使用手勢控制媒體播放之系統及方法

Info

Publication number: TW201543268A
Application number: TW103145959A
Authority: TW
Inventors: Shaun Kohei Westbrook; Juan M Noguerol
Original assignee: Thomson Licensing
Priority date: 2014-01-07
Filing date: 2014-12-27
Publication date: 2015-11-16
Also published as: EP3092547A1; KR20160106691A; US20170220120A1; JP2017504118A; WO2015105884A1; CN105980963A

Abstract

藉由輸入手勢控制由一播放裝置進行之媒體播放。首先可將各使用者手勢分解為指示一特定播放模式之一基本手勢。接著，將該手勢分解為含有一修飾符命令之一第二部分，該修飾符命令判定自基本命令判定之該播放模式之速度。接著，使用該特定播放模式按藉由該修飾符命令判定之一速度播放媒體內容。

Description

用於使用手勢控制媒體播放之系統及方法

[相關申請案之參考]

本申請案主張2014年1月7日申請之美國臨時申請案第61/924,647號及2014年3月31日申請之美國臨時申請案第61/972,954號之權利，該等臨時申請案之全部內容以引用的方式併入本文中。

本發明大體上係關於控制媒體播放，特定言之係關於使用手勢控制媒體播放。

在諸如視訊或音訊之媒體之控制中，一使用者通常使用一遙控器或按鈕控制此媒體播放。舉例而言，一使用者可按壓一「播放」按鈕以致使媒體自一播放裝置(諸如一電腦、接收器、MP3播放器、電話、平板電腦及類似物)播放以使媒體以一即時播放模式播放。當一使用者意欲往前跳轉至媒體之一部分時，使用者可啟動一「快進」按鈕以致使播放裝置以一快於即時播放之模式向前推進媒體。同樣地，使用者可啟動一「快退按鈕」以致使播放裝置以一快於即時播放之模式使媒體倒退。

為自使用一遙控器或使用一播放裝置上之按鈕抽離，可實施一裝置以認知使用手勢來控制一裝置之播放。即，可藉由裝置之一使用者介面部分以光學方式辨識手勢，其中藉由裝置解譯手勢以控制媒體播放。由於播放模式及可用於此等模式之速度之多樣性，一裝置製造商將有可能要求一使用者記住諸多手勢命令以便控制媒體播放。

本發明揭示一種用於使用手勢控制一播放裝置之媒體播放之方法及系統。首先將一使用者手勢分解為指示一特定播放模式之一基本手勢。接著，將該手勢分解為含有一修飾符命令之一第二部分，該修飾符命令修飾自該基本命令判定之該播放模式。接著，該播放模式受到該修飾符命令影響，其中(舉例而言)可藉由該修飾符命令判定該播放模式之速度。

100‧‧‧系統組件

102‧‧‧影像擷取裝置

104‧‧‧處理裝置

106‧‧‧記憶體

108‧‧‧使用者介面

110‧‧‧儲存裝置

112‧‧‧手勢辨識模組

114‧‧‧目標偵測器及追蹤器

116‧‧‧模型匹配器

118‧‧‧HMM模型

120‧‧‧轉變偵測器

122‧‧‧特徵提取器

124‧‧‧修剪演算法或函數

202‧‧‧步驟

204‧‧‧步驟

206‧‧‧步驟

302‧‧‧步驟

304‧‧‧步驟

306‧‧‧步驟

308‧‧‧步驟

310‧‧‧步驟

312‧‧‧步驟

314‧‧‧步驟

316‧‧‧步驟

318‧‧‧步驟

502‧‧‧步驟

504‧‧‧步驟

506‧‧‧步驟

508‧‧‧步驟

510‧‧‧步驟

512‧‧‧步驟

514‧‧‧步驟

602‧‧‧步驟

604‧‧‧步驟

606‧‧‧步驟

608‧‧‧步驟

610‧‧‧步驟

612‧‧‧步驟

614‧‧‧步驟

700‧‧‧播放裝置

702‧‧‧輸入信號接收器

704‧‧‧輸入流處理器

706‧‧‧音訊處理器

708‧‧‧音訊介面

710‧‧‧視訊處理器

712‧‧‧儲存裝置

714‧‧‧控制器/處理器

716‧‧‧使用者介面

718‧‧‧顯示介面

720‧‧‧控制記憶體

722‧‧‧手勢模組

802‧‧‧步驟

804‧‧‧步驟

806‧‧‧步驟

808‧‧‧步驟

810‧‧‧步驟

900‧‧‧使用者介面

1000‧‧‧使用者介面

1100‧‧‧使用者介面

本發明之此等及其他態樣、特徵及優點將在較佳實施例之下列詳細描述中予以描述或變得明顯，將連同隨附圖式閱讀下列詳細描述。

在圖式中，其中相同參考數字表示貫穿圖式之類似元件：圖1係根據本發明之一態樣之用於手勢定點及辨識之一系統之一例示性圖解；圖2係根據本發明之一態樣之用於手勢辨識之一例示性方法之一流程圖；圖3係根據本發明之一態樣之用於手勢定點及辨識之一例示性方法之一流程圖；圖4圖解說明自由一使用者執行之自一分段跡線「0」提取之狀態轉變點之實例；圖5係根據本發明之一態樣之用於使用隱馬爾可夫模型(HMM)及幾何特徵分佈訓練一手勢辨識系統之一例示性方法之一流程圖；圖6係根據本發明之一態樣之用於針對一特定使用者調適一手勢辨識系統之一例示性實施例之一流程圖；圖7係根據本發明之一態樣之一例示性播放裝置之一方塊圖；圖8係根據本發明之一態樣之用於判定用於控制媒體播放之輸入手勢之一例示性實施例之一流程圖；圖9係根據本發明之一態樣之展示用於控制一媒體播放之一手臂及手使用者輸入手勢之一表示之一使用者介面之一表示；圖10係根據本發明之一態樣之展示用於控制一媒體播放之一手臂及手使用者輸入手勢之一使用者介面之一表示；及圖11係根據本發明之一態樣之展示用於控制一媒體播放之一手臂及手使用者輸入手勢之一使用者介面之一表示。

應理解，(諸)圖式係用於圖解說明本發明之概念之目的且未必為用於圖解說明本發明之唯一可能組態。

應理解，在圖式中展示之元件可以硬體、軟體或其等之組合之各種形式實施。較佳地，此等元件以一或多個經適當程式化之通用裝置上之硬體與軟體之一組合實施，一或多個經適當程式化之通用裝置可包含一處理器(若干處理器)、記憶體及輸入/輸出介面。

本描述圖解說明本發明之原理。因此，將暸解，熟習此項技術者將能夠設計儘管未在本文中明確描述或展示但體現本發明之原理且包含於本發明之範疇內之各種配置。

本文中陳述的所有實例及條件語言旨在用於教學目的以幫助閱讀者理解本發明之原理及由發明者貢獻以增進此項技術之概念，且應被解釋為不限於此等特定陳述之實例及條件。

再者，陳述本發明之原理、態樣及實施例以及本發明之特定實例之本文中之所有闡述旨在涵蓋其等之結構及功能等效物兩者。另外，此等等效物旨在包含目前已知之等效物以及未來發開之等效物，即，執行相同功能之任何所開發元件而無關於結構。

因此，舉例而言，熟習此項技術者將暸解，本文中呈現之方塊圖表示體現本發明之原理之闡釋性電路之概念圖。類似地，將暸解，任何流程表、流程圖、狀態轉變圖、偽碼及類似物表示可以電腦可讀媒體實質上表示且因此藉由一電腦或處理器執行之各種程序，無論是否明確展示此電腦或處理器。

可透過使用專用硬體以及能夠執行相關聯於適當軟體之軟體之硬體提供在圖式中展示之各種元件之功能。當藉由一處理器提供時，該等功能可藉由一單一專用處理器、藉由一單一共用處理器或藉由複數個個別處理器(其等之一些可共用)提供。再者，術語「處理器」或「控制器」之明確使用不應被解釋為僅指代能夠執行軟體之硬體，且可含蓄地包含(不限於)數位信號處理器(「DSP」)硬體、用於儲存軟體之唯讀記憶體(「ROM」)、隨機存取記憶體(「RAM」)及非揮發性儲存裝置。

在本文之申請專利範圍中，表達為用於執行一特定功能之一構件之任何元件旨在涵蓋執行該功能之任何方式，包含(例如)：a)執行該功能之電路元件之一組合，或b)呈任何形式之軟體(因此包含韌體、微碼或類似物)，其與用於執行該軟體之適當電路組合以執行該功能。如藉由此等申請專利範圍定義之本發明存在於以下事實中：藉由各種陳述構件提供之功能性以申請專利範圍要求之方式組合及集合在一起。因此，可提供該等功能性之任何構件被視為等效於本文中展示之構件。

本發明提供用於實施各種手勢辨識系統之一例示性實施例，然可使用用於辨識手勢之其他實施方案。亦提供採用隱馬爾可夫模型(HMM)及一使用者之一手跡線之幾何特徵分佈以達成自適應手勢辨識之系統及方法。

手勢辨識歸因於其在手語辨識、多模式人機互動、虛擬實境及機器人控制中之潛在使用而受到愈來愈多的關注。多數手勢辨識方法將所觀察到之輸入影像序列與訓練樣本或一模型匹配。輸入序列經分類為手勢類別，其之樣本或模型與其最為匹配。動態時間規整(DTW)、連續動態規劃(CDP)、隱馬爾可夫模型(HMM)及條件隨機場(CRF)係手勢分類器之實例。

HMM匹配係用於手勢辨識之最廣泛使用之技術。然而，此類方法無法利用一手跡線之幾何資訊，該幾何資訊已經證實對於手勢辨識有效。在利用手跡線之先前方法中，手跡線被視作一整體，且反映跡線之形狀之一些幾何特徵(諸如手在x軸及y軸上之平均位置、所觀察手之x位置及y位置之偏斜度等等)經提取為用於辨識之貝葉斯(Bayesian)分類器之輸入。然而，此方法無法精確描述手勢。

對於線上手勢辨識，手勢定點(即，判定手勢之起點及終點)係一十分重要而困難之任務。存在用於手勢定點之兩個類型之方法：直接方法及間接方法。在直接方法中，首先計算運動參數(諸如速率、加速度及跡線曲率)，且找到此等參數之突變以識別候選手勢邊界。然而，此等方法並不足夠精確。間接方法組合手勢定點與手勢辨識。對於輸入序列，間接方法找到當與訓練樣本或模型匹配時給出高辨識分數之間隔，從而同時達成暫時分段及手勢辨識。然而，此等方法通常係消耗時間的，且亦可發生一些錯誤手勢偵測。一種習知方法提出使用一修剪策略以改良系統精確性以及速度。然而，該方法基於手跡線之一單一點與一單一模型狀態之間的相容性簡單修剪。若當前觀察之可能性低於一臨限值，則將修剪匹配假設。基於此簡單策略之修剪分類器可能易於過擬合訓練資料。

此外，不同使用者之手勢通常在速度、起點及終點、轉折點角度等等的方面不同。因此，研究如何調整分類器以使一辨識系統適應於特定使用者係十分有意義的。

先前，僅少數研究者研究自適應手勢辨識。一個技術透過使用新樣本再訓練HMM模型來達成一手勢系統之調適。然而，此方法失去先前樣本之資訊且對雜訊資料敏感。另一技術使用Baum-Welch方法之一線上版本以實現手勢分類器之線上學習及更新，且開發可在線地學習一簡單手勢之一系統。然而，此方法之更新速度十分緩慢。

儘管僅存在對自適應手勢辨識之少數研究，但已發表用於自適應語音辨識之諸多方法。一項此研究透過最大後驗(MAP)參數估計來更新HMM模型。透過使用先前參數分佈，需要較少新資料來得到穩健參數估計及更新。此方法之缺點係新樣本僅可更新其對應類別之HMM模型，從而減小更新速度。最大似然線性回歸(MLLR)廣泛用於自適應語音辨識。最大似然線性回歸(MLLR)使用新樣本估計模型參數之一組線性變換，使得模型可在變換之後更好匹配新樣本。所有模型參數可共用一全域線性變換或將一全域線性變換叢集化至不同群組中，其中參數之各群組共用一相同線性變換。MLLR可克服MAP之缺點，且改良模型更新速度。

對於一輸入序列，所關注偵測點與一HMM模型匹配且透過一維特比(Viterbi)演算法或函數找到其中HMM模型之狀態改變之點。此等點被稱為狀態轉變點。基於狀態轉變點及手勢起點之相對位置自手勢模型提取幾何特徵。此等幾何特徵較於習知方法更精確描述手勢。狀態轉變點通常對應於其中跡線開始改變之點，且相比於將手跡線視作一整體且基於手跡線之統計性質提取幾何特徵之習知方法，基於此等點及起點之相對位置提取特徵可非常好地反映手勢形狀之特性。

此外，由於幾何特徵之提取併入至HMM模型之匹配中，故易於將所提取幾何特徵用於修剪以及幫助辨識手勢之類型。舉例而言，若在一狀態轉變點處提取到之幾何特徵之可能性低於一臨限值，則將修剪此匹配假設。即，若在某圖框處，將圖框匹配至一HMM模型之任何狀態之成本經判定為過高，則本發明之系統及方法斷定給定模型並不良好匹配輸入序列且接著其將停止將隨後圖框匹配至狀態。

併入幾何特徵以用於修剪比僅使用單一觀察更精確且穩健。當基於HMM模型及手跡線與一手勢類別之間的幾何特徵分佈之一組合計算之一模型匹配分數大於一臨限值時，對手勢進行分段及辨識。運動參數之突變之偵測、HMM模型匹配及跡線幾何特徵提取之此組合勝過現有手勢定點方法。

現參考圖式，在圖1中展示根據本發明之一實施例之例示性系統組件100。一影像擷取裝置102可經提供以用於擷取實行一手勢之一使用者之影像。應暸解，影像擷取裝置可為任何已知影像擷取裝置且可包含一數位照相機、一數位視訊記錄器、一網路攝影機等等。所擷取影像經輸入至一處理裝置104，例如，一電腦。電腦在各種已知電腦平台之任一者上實施，各種已知電腦平台具有諸如一或多個中央處理單元(CPU)、記憶體106(諸如隨機存取記憶體(RAM)及/或唯讀記憶體(ROM))、及(若干)輸入/輸出(I/O)使用者介面108(諸如一鍵盤、游標控制裝置(例如，一滑鼠或操縱桿)及顯示裝置)之硬體。電腦平台亦包含一作業系統及微指令碼。本文中描述之各種程序及功能可為經由作業系統執行之微指令碼之部分或一軟體應用程式之部分(或其等之一組合)。在一項實施例中，軟體應用程式有形地體現於一程式儲存裝置上，軟體應用程式可經上傳至諸如處理裝置104之任何合適機器且藉由其執行。另外，各種其他周邊裝置可藉由各種介面及匯流排結構(此一並列埠、串列埠或通用串聯匯流排(USB))連接至電腦平台。其他周邊裝置可包含額外儲存裝置110及一印表機(未展示)。

一軟體程式包含儲存於記憶體106中之一手勢辨識模組112(亦稱為一手勢辨識器)以用於在一序列所擷取影像中辨識由一使用者執行之手勢。手勢辨識模組112包含一目標偵測器及追蹤器114，其偵測一關注目標(例如一使用者之手)且透過一序列所擷取影像追蹤關注目標。一模型匹配器116經提供以將所偵測及所追蹤目標匹配至儲存於HMM模型118之一資料庫中之至少一個HMM模型。各手勢類型具有相關聯於其之一HMM模型。將輸入序列與對應於不同手勢類型之所有HMM模型進行匹配以找到哪一手勢類型最佳匹配輸入序列。舉例而言，給定一輸入序列(其係來自所擷取視訊之各圖框之一序列特徵)及一手勢模型(其係一序列狀態)，模型匹配器116找到各圖框與各狀態之間的對應關係。模型匹配器116可採用維特比演算法或函數、一前向演算法或函數、一前向後向演算法或函數等等以實現該匹配。

手勢辨識模組112(在圖7中亦稱為722)進一步包含一轉變偵測器120以用於偵測其中一HMM模型之狀態改變之點。此等點被稱為狀態轉變點且尤其透過由轉變偵測器120採用之一維特比演算法或函數來找到或偵測。藉由一特徵提取器122基於狀態轉變點與手勢起點之相對位置提取幾何特徵。

手勢辨識模組112進一步包含一修剪演算法或函數124(亦稱為一修剪器)，其用於減少經執行以找到匹配HMM模型之計算數目，藉此加速手勢定點及偵測程序。舉例而言，給定一輸入序列(其係來自所擷取視訊之各圖框之一序列特徵)及一手勢模型(其係一序列狀態)，應找到各圖框與各狀態之間的對應關係。然而，若在某圖框處，修剪演算法或函數124發現，將圖框匹配至任何狀態之成本過高，則修剪演算法或函數124將停止將隨後圖框匹配至狀態且斷定給定模型並不良好匹配輸入序列。

另外，手勢辨識模組112包含一最大似然線性回歸(MLLR)函數，其用於針對各手勢類別調適HMM模型且遞增地學習一特定使用者之幾何特徵分佈。透過同時更新HMM模型及幾何特徵分佈，手勢辨識系統可快速適應於使用者。

圖2係根據本發明之一態樣之用於手勢辨識之一例示性方法之一流程圖。首先，在步驟202處，處理裝置104獲取藉由影像擷取裝置102擷取之一序列輸入影像。接著，在步驟204中，手勢辨識模組112使用HMM模型及幾何特徵執行手勢辨識。將在下文中關於圖3至圖4進一步描述步驟204。在步驟206中，手勢辨識模組112將針對特定使用者調適各手勢類別之HMM模型及幾何特徵分佈。將在下文中關於圖5至圖6進一步描述步驟206。

圖3係根據本發明之一態樣之用於手勢定點及辨識之一例示性方法之一流程圖。

候選起點偵測

首先，在步驟302中，藉由影像擷取裝置102擷取影像之一輸入序列。在步驟304中，目標偵測器及追蹤器114在輸入序列中偵測候選起點且貫穿序列追蹤候選起點。諸如手位置及速率之特徵用於表示在輸入序列之各圖框中偵測到之手。藉由使用者之臉之位置及寬度正規化此等特徵。

類似於直接手勢定點方法，候選起點經偵測為輸入序列中之運動參數之突變。具有異常速率或劇烈(變化)之跡線曲率之點經偵測為候選起點。使用此方法通常存在諸多假陽性偵測。使用此等點作為手勢邊界之直接手勢定點方法並不十分精確及穩健。本發明之方法使用一不同策略。自此等候選起點開始將手跡線經匹配至各手勢類別之HMM模型，因此該方法可組合直接手勢定點方法之優勢與間接手勢定點方法之優勢。

HMM模型匹配

在步驟306中，經由模型匹配器116將輸入影像之序列匹配至一HMM模型118，如將在下文中描述。

使Q={Q ₁ ,Q ₂ ,…}成為特徵向量之一連續序列，其中Q _j係自輸入影像之輸入圖框j提取之一特徵向量。諸如手位置及速率之特徵用於表示在各圖框中偵測到之手。藉由執行手勢之使用者之臉之位置及寬度正規化此等特徵。使成為用於手勢g之具有m+1個狀態之一左右型HMM模型。各狀態相關聯於給出各觀察向量Q _j之可能性之一高斯觀察密度。Baum-Welch演算法或函數將用於訓練HMM模型。根據跡線長度規定用於各模型之狀態數目，如通常使用Baum-Welch演算法或函數來完成。轉變機率經固定以簡化學習任務，即，在各轉變處，模型等可能移動至下一狀態或保持於相同狀態。

將a _k,i指示為自狀態k轉變至狀態i之轉變機率，且將指示為特徵向量Q _j在與模型狀態匹配時之可能性。使C成為使用在章節1.1中描述之方法偵測之候選起點集。係一特殊狀態，其中

因此，HMM模型匹配僅在此等候選起點處開始。將V(i,i)指示為當前j個輸入特徵向量(Q ₁ ,…,Q _i )與前i+1個模型狀態匹配時之最大機率。接著，吾等具有

使最大匹配分數介於(Q ₁ ,…,Q _j )與之間，S _H (i,j)成為V(i,j)之演算法：S _H (i,j)=logV(i,j). (3)基於方程式2中之性質，動態規劃(DP)用於有效計算最大匹配分數。DP使用由(i,j)索引之一表實施。當自輸入圖框提取一新特徵向量Q _n時，計算對應於圖框n之表片，且在單元(i,n)處儲存兩條資訊：1)S _H (i,n)之值，對於i=0,…,m，及2)用於最小化方程式2之前導子k，其中S _H (i,n)係模型與在圖框i處結束之輸入序列之間的最佳匹配之分數，且k係先前圖框在最佳匹配中所對應於之狀態。S _H (m,n)對應於模型與在圖框n處結束之輸入序列之間的最佳對準。可使用回溯獲得最佳動態規劃(DP)路徑，即，HMM模型之最佳狀態序列。現有間接方法通常使用S _H (m,n)達成手勢定點，即，若S _H (m,n)大於一臨限值，則手勢端點經偵測為圖框n，且可藉由回溯最佳DP路徑找到手勢起點。

為改良系統之速度及精確性，習知系統使用一修剪策略，其中習知系統基於當前觀察之可能性進行修剪：若，其中τ(i)係針對模型狀態i之一臨限值且自訓練資料習得，則單元(i,j)將被修剪掉，且穿過其之所有路徑將被拒斥。然而，此簡單修剪策略並不足夠精確。

幾何特徵提取

在本發明之方法中，幾何特徵之提取經併入至HMM模型匹配程序中。對於一輸入序列，在步驟308中經由轉變偵測器120判定HMM模型之狀態序列。偵測其中HMM狀態改變之點。圖4給出自一分段跡線「0」提取之例示性狀態轉變點之一些實例，該跡線係由一使用者執行且藉由影像擷取裝置102擷取。黑點係狀態轉變點。可見，狀態轉變點之位置對於所有跡線皆類似，因此如將在下文中描述，在步驟310中，經由特徵提取器122基於狀態轉變點及手勢之起點之相對位置提取幾何特徵。

將手勢之起點指示為(x ₀ ,y ₀ )，在轉變點(x _t ,y _t )處提取之幾何特徵包含：x _t -x ₀、y _t -y ₀及。此等簡單特徵可良好描述手跡線之幾何資訊。

對於各手勢類別，相關聯於該手勢類別之HMM模型用於提取HMM模型之訓練樣本之幾何特徵。幾何特徵經假定為遵循高斯分佈。自訓練樣本學習幾何特徵之分佈。接著，各手勢類別相關聯於一 HMM模型及其之幾何特徵分佈。將手勢g之幾何特徵分佈指示為，其中m係關於M ^g之狀態數目，且係在其中HMM模型之狀態自i-1改變至i之點處提取之幾何特徵之分佈。由於幾何特徵之提取經併入至HMM模型匹配程序中，故容易利用幾何特徵來進行修剪。舉例而言，若一圖框F係一狀態轉變圖框，則基於圖框F提取幾何特徵。若所提取幾何特徵之機率低於一臨限值，則此匹配將被修剪掉，即，將藉由模型匹配器116停止將隨後圖框匹配至模型狀態且將選擇待匹配之至少一個第二手勢模型。現將關於下文之方程式(4)描述修剪程序。

在步驟312中，若滿足下列條件，則修剪函數或修剪器124將修剪掉單元(i,j)：

其中pre(i)係在HMM模型匹配期間狀態i之前導子，G _j係在點j處提取之幾何特徵，t(i)係自訓練樣本學習之一臨限值，且如章節1.2中般定義及τ(i)。

在步驟314中，藉由手勢辨識模組112如下計算介於(Q ₁ ,…,Q _n )與之間的總匹配分數：其中 α 係一係數，S _H (m,n)係HMM匹配分數，且G _j(i)係在其中HMM狀態自i-1改變至i之點處提取之幾何特徵。類似於間接方法來達成手勢之臨時分段，即，若S(m,n)大於一臨限值，則手勢端點經偵測為圖框n(如在步驟316中)，且可藉由回溯最佳DP路徑找到手勢起點(如在步驟318中)。藉由使用表達式4及方程式5，該方法可組合HMM與手跡線之幾何特徵以用於手勢定點及辨識，從而改良系統之精確性。

在另一實施例中，提供用於採用隱馬爾可夫模型(HMM)及幾何特徵分佈進行手勢辨識以達成自適應手勢辨識之一系統及方法。本發明之系統及方法組合HMM模型與一使用者之手跡線之幾何特徵以用於手勢辨識。對於一輸入序列，一所偵測關注目標(例如，一手)經追蹤且與一HMM模型匹配。透過一維特比演算法或函數、一前向演算法或函數、一前向後向演算法或函數等等找到其中HMM模型之狀態改變之點。此等點被稱為狀態轉變點。基於狀態轉變點與手勢起點之相對位置提取幾何特徵。給定調適資料(即，一特定使用者執行之手勢)，使用一最大似然線性回歸(MLLR)方法針對特定使用者調適HMM模型且遞增地學習各手勢類別之幾何特徵分佈。透過同時更新HMM模型及幾何特徵分佈，手勢辨識系統可快速適應於特定使用者。

組合HMM及跡線幾何特徵之手勢辨識

參考圖5，圖解說明根據本發明之一態樣之用於使用隱馬爾可夫模型(HMM)及幾何特徵分佈訓練一手勢辨識系統之一例示性方法之一流程圖。

首先，在步驟502中，藉由影像擷取裝置102獲取或擷取影像之一輸入序列。在步驟504中，目標偵測器及追蹤器114在輸入序列中偵測一關注目標(例如，一使用者之手)，且貫穿該序列追蹤目標。諸如手位置及速率之特徵用於表示在輸入序列之各圖框中偵測到之手。藉由使用者之臉之位置及寬度正規化此等特徵。給定臉中心位置(xf,yf)、臉寬度w及一影像之圖框上之手位置(xh,yh)，正規化手位置係xhn=(xh-xf)/w，yhn=(yh-yf)/w，即，絕對座標經改變為相對於臉中心之相對座標。

在步驟506中，使用具有高斯觀察密度之一左右型HMM模型將所偵測到之手匹配至一手勢模型且判定一手勢類別。舉例而言，給定一輸入序列(其係來自所擷取視訊之各圖框之一序列特徵)及一手勢模型(其係一序列狀態)，模型匹配器116經由(例如)維特比演算法或函數、一前向演算法或函數或一前向後向演算法或函數找到各圖框與各狀態之間的對應關係。

接著，在步驟508中，對於輸入序列，藉由轉變偵測器120使用一維特比演算法或函數偵測所匹配HMM模型之狀態序列。偵測其中HMM模型之狀態改變之點。在步驟510中，經由特徵提取器122基於狀態轉變點與手勢起點之相對位置提取幾何特徵。將手勢之起點指示為(x ₀ ,y ₀ )，在轉變點(x _t ,y _t )處提取之幾何特徵包含：x _t -x ₀、y _t -y ₀及。給定一輸入序列，在所有狀態轉變點處提取之特徵形成輸入序列之幾何特徵。此等簡單特徵可良好描述手跡線之幾何資訊。

對於各手勢類別，訓練一左右型HMM模型，且此HMM模型用於提取其之訓練樣本之幾何特徵。幾何特徵經假定為遵循高斯分佈。自訓練樣本學習幾何特徵之分佈。接著，在步驟512中，使各手勢類別相關聯於一HMM模型及其之幾何特徵分佈，且在步驟514儲存相關聯HMM模型及幾何特徵分佈。

分別將相關聯於第i個手勢類別之HMM模型及幾何特徵分佈指示為 λ _i及q _i。為使一分段手跡線O={O ₁ ,O ₂ ,…O _T }(即，所偵測及所追蹤目標)與第i個手勢類別匹配，使用 λ _i提取幾何特徵G={G ₁ ,G ₂ ,…G _N }。藉由手勢辨識模組112計算匹配分數，如下：S=α×logp(O|λ _i )+(1-α)×logq _i (G) (6)其中 α 係一係數且p(O|λ _i )係給定HMM模型 λ _i之手跡線O之機率。可使用前向後向演算法或函數計算p(O|λ _i )。輸入手跡線將被分類為匹配分數最高之手勢類別。因此，使用方程式6，本發明之系統及方法可組合HMM模型與使用者之手跡線(即，所偵測及所追蹤目標)之幾何特徵以用於手勢辨識。

手勢辨識之調適

圖6係根據本發明之一態樣之用於針對一特定使用者調適一手勢辨識系統之一例示性方法之一流程圖。給定調適資料(即，一特定使用者執行之手勢)，本發明之系統及方法採用一最大似然線性回歸(MLLR)函數針對各手勢類別調適HMM模型且遞增地學習幾何特徵分佈。

首先，在步驟602中，藉由影像擷取裝置102擷取影像之一輸入序列。在步驟604中，目標偵測器及追蹤器114在輸入序列中偵測一關注目標，且貫穿該序列追蹤目標。在步驟606中，使用具有高斯觀察密度之一左右型HMM模型來模型化一手勢類別。在步驟608中，取回相關聯於所判定手勢類別之幾何特徵分佈。

接著，在步驟610中，使用最大似然線性回歸(MLLR)函數針對特定使用者調適HMM模型。最大似然線性回歸(MLLR)廣泛用於自適應語音辨識。最大似然線性回歸(MLLR)使用新樣本估計模型參數之一組線性變換，使得模型可在變換之後更好匹配新樣本。在標準MLLR方法中，根據下列方程式更新高斯密度之平均向量其中W係一n×(n+1)矩陣(且n係觀察特徵向量之維度)且 ξ 係擴展平均向量： ξ ^T =[1,μ ₁ ,…,μ _n ]。假定調適資料O係一系列T觀察值：O=o ₁ …o _T。為計算方程式7中之W，待最大化之目標函數係產生調適資料之可能性：其中 θ 係產生O之可能狀態序列， λ 係模型參數集。藉由最大化輔助函數其中 λ 係當前模型參數集，且係重新估計之模型參數集，亦最大化方程式8中之目標函數。可使用期望-最大(EM)演算法或函數求解相對於W最大化方程式9。

接著，在步驟612中，系統藉由重新估計在一預定數目個調適樣本上之幾何特徵分佈之一平均值及協方差矩陣來遞增地學習用於使用者之幾何特徵分佈。將手勢g之當前幾何特徵分佈指示為，其中係在其中HMM模型之狀態自i-1改變至i之點處提取之幾何特徵分佈。假定之平均值及協方差矩陣分別係及。給定手勢g之調適資料，自資料提取幾何特徵，且使在其中狀態自i-1改變至i之調適資料之點處提取之幾何特徵形成集X={x ₁ ,…x _k }，其中x _i係自手勢g之第i個調適樣本提取之特徵，且k係用於手勢g之調適樣本之數目。接著，幾何特徵分佈更新如下：其中及分別係之重新估計平均值及協方差矩陣。

透過同時更新HMM模型及幾何特徵分佈，手勢辨識系統可快速適應於使用者。接著，在步驟614中，針對特定使用者將經調適HMM模型及習得的幾何特徵分佈儲存於儲存裝置110中。

已描述用於手勢辨識之一系統及方法。手勢模型(例如，HMM模型)及幾何特徵分佈用於執行手勢辨識。基於調適資料(即，一特定使用者執行之手勢)，更新HMM模型及幾何特徵分佈兩者。以此方式，該系統可適應於特定使用者。

在圖7中展示之播放裝置700中，經由輸入信號接收器702接收影像資訊及用於購買項目之對應資訊。輸入信號接收器702可為用於接收、解調變及解碼經由若干可能網路(包含空中、電纜、衛星、乙太網、光纖及電話線網路)之一者提供之信號之若干已知接收器電路之一者。可基於透過一控制介面(未展示)提供之使用者輸入在輸入信號接收器702中選擇且取回所要輸入信號。將解碼輸出信號提供至一輸入流處理器704。輸入流處理器704執行最終信號選擇及處理，且包含使內容流之視訊內容與音訊內容分離。將音訊內容提供至一音訊處理器706以用於自所接收格式(諸如壓縮數位信號)轉換至一類比波形信號。將類比波形信號提供至一音訊介面708且進一步提供至一顯示裝置或一音訊放大器(未展示)。替代性地，音訊介面708可使用一高清晰度多媒體介面(HDMI)電纜或替代音訊介面(諸如經由一Sony/Philips數位互連格式(SPDIF))將一數位信號提供至一音訊輸出裝置或顯示裝置。音訊處理器706亦執行用於音訊信號之儲存之任何必要轉換。

將自輸入流處理器704輸出之視訊提供至一視訊處理器710。視訊信號可為若干格式之一者。視訊處理器710基於輸入信號格式按所需提供視訊內容之一轉換。視訊處理器710亦執行用於視訊信號之儲存之任何必要轉換。

儲存裝置712儲存在輸入處接收之音訊及視訊內容。儲存裝置712允許隨後在一控制器714之控制下且亦基於自一使用者介面716接收之命令(例如，操縱指令，諸如下一項目、下一頁、縮放、快進(FF)播放模式及倒帶(Rew)播放模式)進行內容之取回及播放。儲存裝置712可為一硬碟機、一或多個大容量整合式電子記憶體(諸如靜態隨機存取記憶體或動態隨機存取記憶體)或可為一可互換光碟儲存系統(諸如一光碟機或數位視訊光碟機)。在一項實施例中，儲存裝置712可為外置的且不存在於系統中。

將來自視訊處理器710之經轉換視訊信號(源自輸入或源自儲存裝置712)提供至顯示介面718。顯示介面718進一步將顯示信號提供至上述類型之一顯示裝置。顯示介面718可為諸如紅綠藍(RGB)之一類比信號介面或可為諸如高清晰度多媒體介面(HDMI)之一數位介面。

可為一處理器之控制器714經由一匯流排與裝置700之若干組件(包含輸入流處理器704、音訊處理器706、視訊處理器710、儲存裝置712、使用者介面716及手勢模組722)互連。控制器714管理轉換程序以將輸入流信號轉換為用於儲存於儲存裝置上或用於顯示之一信號。控制器714亦管理用於所儲存內容之播放之取回模式及播放模式。此外，如將在下文中描述，控制器714執行經儲存或待經由上述遞送網路遞送之內容之搜尋。控制器714進一步耦合至控制記憶體720(例如，揮發性或非揮發性記憶體，包含隨機存取記憶體、靜態RAM、動態RAM、唯讀記憶體、可程式化ROM、快閃記憶體、EPROM、EEPROM等等)以用於儲存用於控制器714之資訊及指令碼。此外，記憶體之實施方案可包含若干可能實施例，諸如一單一記憶體裝置或替代性地連接在一起以形成一共用或共同記憶體之一個以上記憶體電路。仍此外，記憶體可包含於其他電路中，諸如一較大電路中之匯流排通信電路之部分。

本發明之使用者介面716可採用一輸入裝置，輸入裝置圍繞顯示器移動一游標，此繼而致使內容隨著游標越過其而放大。在一項實施例中，輸入裝置係具有運動偵測之一形式之一遙控器(諸如一陀螺儀或加速度計)，其允許使用者圍繞一螢幕或顯示器自由移動一游標。在另一實施例中，輸入裝置係呈觸控板或觸敏裝置之形式之控制器，其將追蹤使用者在板上(在螢幕上)之移動。在另一實施例中，輸入裝置可為具有方向按鈕之一傳統遙控器。使用者介面716亦可經組態以根據在本說明書中描述之例示性原理使用一相機、視覺感測器及類似物以光學方式辨識使用者手勢。

作為來自圖1之一例示性實施例，手勢模組722解譯來自使用者介面716之基於手勢之輸入且根據上述例示性原理判定一使用者正在做何種手勢。接著，所判定手勢可用於闡明一播放及該播放之一速度。特定言之，一手勢可用於指示快於媒體之即時播放之媒體播放，諸如一快進操作及一快退操作。同樣地，一手勢亦可指示慢於媒體之即時播放之媒體播放，諸如一慢動作前進操作及一慢動作倒退操作。在各種闡釋性實施例中描述對手勢有何含義及此等手勢如何控制媒體播放速度之此等判定。

手勢可經分解為被稱為一基本手勢及一手勢修飾符之至少兩個部分。一基本手勢係一「總(gross)」手勢，其涵蓋可為一手臂或一腿之移動之一移動態樣。一手勢之一修飾符可為當一人移動一手臂時呈現之手指之數目、當一人移動一手臂時一所呈現手指在一手上之位置、當一人移動其腿時一腳之移動、當一人移動一手臂時一手之揮動及類似物。可藉由手勢模組722將一基本手勢判定為以一播放模式(諸如快進、快退、慢動作前進、慢動作倒退、正常播放、暫停及類似物)操作播放裝置700。接著，藉由手勢模組722將手勢修飾符判定為設定播放之速度，其可快於或慢於相關聯於一正常播放模式之媒體之即時播放。在一例示性實施例中，只要一使用者保持一特定手勢，相關聯於該手勢之播放便將持續。

圖8圖解說明根據一例示性實施例之一流程圖800，其中輸入手勢用於控制媒體播放。步驟802使使用者介面716接收一使用者手勢。如上文描述，可藉由使用者介面716使用一視覺技術辨識一使用者手勢。在步驟804中，手勢模組722將輸入手勢分解為一基本手勢，其可闡釋性地為一手臂在一左方向上之一移動、一手臂在一右方向上之一移動、手臂在一向上方向上之一移動、在一向下方向上移動一手臂及類似物。接著，使所判定基本手勢相關聯於一控制命令，該控制命令用於選擇使用闡釋性播放模式(諸如一正常播放模式、快進、快退、慢動作前進、慢動作倒退、暫停模式及類似物)之一播放模式。一播放模式可為一即時播放模式，其係一即時播放操作。一播放模式亦可為一非即時播放模式，其使用諸如快進、快退、慢動作前進、慢動作倒退及類似物之一播放模式。在一例示性實施例中，一手臂在一右方向上之一移動指示一前進播放操作，而一手臂在一左方向上之移動指示一倒退播放操作。

步驟806使手勢模組722判定基本手勢之一修飾符，其中闡釋性修飾符包含呈現於一手上之手指之數目、一手指在一手上之位置、一手之一揮動數目、一手之一手指之一移動及類似物。在一闡釋性實例中，一第一手指可指示一第一播放速度，一第二手指可指示一第二播放速度，一第三手指可指示一第三播放速度，及諸如此類。理想地，修飾符對應於快於或慢於非即時之一播放速度。

在另一闡釋性實例中，一食指之位置可表示快於即時播放速度兩倍，一中指之位置可表示快於即時播放速度四倍，無名指之位置可表示快於即時播放速度八倍，及諸如此類。

對應於不同修飾符之速度可為快於及慢於即時速度之一混合。在一進一步闡釋性實例中，一食指之位置可表示快於即時播放速度兩倍，而一中指之一位置可表示即時播放速度之1.5倍。可根據例示性原理使用其他速度混合。

在步驟808中，使藉由手勢模組722判定之修飾符相關聯於自步驟806判定播放模式之速度之一控制命令。在步驟810中，控制器714使用控制命令以起始媒體在所判定播放模式中以由修飾符判定之一速度播放。可根據選定播放模式經由音訊處理器706及視訊處理器710以所判定播放模式輸出媒體。

在一可選實施例中，可藉由在一向下方向上移動一手臂來完成自一快速操作至一慢速動作模式之一改變。即，用於引起一快進操作之基本手勢現將引起一慢動作前進操作，而引起一快退操作之基本手勢現將引起一慢動作倒退操作。在一進一步可選實施例中，根據闡釋性原理，回應於在一向上方向上移動一手臂之手勢執行針對一基本手勢之自一慢速操作至一快速操作之一改變。

圖9呈現展示用於控制媒體播放之一手臂及手勢之一表示之一使用者介面900之一例示性實施例。使用者介面900中之特定手勢展示一手臂使用一個手指向右。手臂向右移動之基本手勢將指示媒體之一快進或一慢動作前進播放，其中修飾符指示應以第一速度播放媒體。圖10呈現展示向右移動之一手臂及手勢之一使用者介面1000之一例示性實施例，其中媒體播放將處於一第三速度，第三速度關聯於作為一修飾符之三個手指之顯示。

圖11呈現圖解說明用於控制媒體播放之一手臂及手勢之一使用者介面1100之一例示性實施例。特定言之，使用者介面1100中之手勢係向左移動之一基本手勢，其關聯於以一基於倒退之模式(係一快退或一慢動作回看)之媒體播放。根據例示性原理，基於倒退之模式之速度係來自複數個速度之一第二速度。下文之表1展示根據所揭示原理之具有相關聯修飾符之例示性基本手勢。

儘管已在本文中詳細展示及描述併入本發明之教示之實施例，但熟習此項技術者可容易地設想仍併入此等教示之諸多其他各種實施例。雖然已描述用於手勢辨識之一系統及方法之較佳實施例(其等旨在為闡釋性且非限制性的)，但應注意，熟習此項技術者可鑑於上述教示作出修改及變更。因此，應理解，可在所揭示本發明之特定實施例中作出在由隨附申請專利範圍概述之本發明之範疇內之改變。

802‧‧‧步驟

804‧‧‧步驟

806‧‧‧步驟

808‧‧‧步驟

810‧‧‧步驟

Claims

一種用於控制媒體播放之方法，其包括以下步驟：接收對應於一使用者手勢之一輸入(802)；使該輸入之一基本手勢相關聯於對應於一播放模式之一控制命令(804)；接收該基本手勢之一修飾符(806)；使該修飾符相關聯於該控制命令(808)；及根據該相關聯播放模式及回應於該控制命令之修飾符播放媒體(810)。
如請求項1之方法，其包括以下步驟：選擇性地使複數個不同修飾符之一者相關聯於該控制命令；及回應於該複數個修飾符之該選定者修飾該播放模式。
如請求項2之方法，其包括選擇該複數個修飾符之不同者以控制該播放模式之方向及速度之步驟。
如請求項1之方法，其中該播放模式係選自由以下項目組成之一群組之至少一個模式：一快進操作、一快退操作、一慢動作前進操作及一慢動作倒退操作。
如請求項1之方法，其中該基本手勢係選自由以下項目組成之一群組之至少一個手勢：朝向一左方向移動一手臂、朝向一右方向移動一手臂、在一向上方向上移動一手臂及在一向下方向上移動一手臂。
如請求項5之方法，其中該基本手勢之該修飾符係選自由以下項目組成之一群組之至少一個元素：呈現至少一個手指、至少一個所呈現手指之一位置；至少一個手揮動及至少一個手指之至少一個移動。
如請求項6之方法，其中至少一個手指之該呈現另外包括：一個手指之呈現表示針對一播放速度之一第一速度；一兩個手指之呈現表示針對一播放速度之一第二速度；及一三個手指之呈現表示針對一播放速度之一第三速度。
如請求項6之方法，其中至少一個手指之該呈現另外包括：該手指在一第一位置處之呈現表示處於一第一播放速度之一速度；該手指在一第二位置處之呈現表示處於一第二播放速度之一速度；及該手指在一第三位置處之呈現表示處於一第三播放速度之一速度。
如請求項5之方法，其中該手臂在一向下方向上之該移動使該播放速度自一快速操作改變至一慢動作操作。
如請求項5之方法，其中該手臂在一向上方向上之該移動使該播放速度自一慢動作操作改變至一快速操作。
如請求項1之方法，其中該基本手勢係指示該播放模式係一快進操作之一向右手臂移動，且該基本手勢之該修飾符係至少一個手指之一顯示，其中所顯示手指之數目用於判定該快進操作之一速度。
如請求項1之方法，其中該基本手勢係指示該播放模式係一快退操作之一向左手臂移動，且該基本手勢之該修飾符係至少一個手指之一顯示，其中所顯示手指之數目用於判定該快退操作之速度。
如請求項1之方法，其中該基本手勢係指示該播放模式係一慢進操作之一向右手臂移動，且該基本手勢之該修飾符係至少一個手指之一顯示，其中所顯示手指之數目用於判定該慢進操作之速度。
如請求項1之方法，其中該基本手勢係指示該播放模式係一慢退操作之一向左手臂移動，且該基本手勢之該修飾符係至少一個手指之一顯示，其中所顯示手指之數目用於判定該慢退操作之速度。
一種用於控制媒體播放之設備，其包括：一使用者介面(716)，其經組態以接收對應於一使用者手勢之一輸入；一處理器(714)，其經組態以使該輸入之一基本手勢相關聯於對應於一播放模式之一控制命令；一處理器(714)，其經組態以判定該基本手勢之一修飾符；一處理器(714)，其經組態以使該修飾符相關聯於該控制命令；及一處理器(714)，其經組態以回應於該控制命令在相關聯於該修飾符之一播放模式中播放該媒體。
如請求項15之設備，其另外包括：一處理器，其經組態以選擇性地使複數個不同修飾符之一者相關聯於該控制命令；及播放處理器，其回應於該複數個修飾符之該選定者改變該媒體之該播放模式。
如請求項16之設備，其進一步包括經組態以選擇該複數個修飾符之不同者以控制該媒體之該播放之方向及速度之一處理器。
如請求項15之設備，其中該播放模式係選自由以下項目組成之一群組之至少一個模式：一快進操作、一快退操作、一慢動作前進操作及一慢動作倒退操作。
如請求項15之設備，其中該基本手勢係選自由以下項目組成之一群組之至少一個手勢：朝向一左方向移動一手臂、朝向一右方向移動一手臂、在一向上方向上移動一手臂及在一向下方向上移動一手臂。
如請求項19之設備，其中該基本手勢之該修飾符係選自由以下項目組成之一群組選擇之至少一個元素：呈現至少一個手指、至少一個所呈現手指之一位置；至少一個手揮動及至少一個手指之至少一個移動。