TW201523460A

TW201523460A - 使用於互動裝置並用於辨識使用者操作該互動裝置的行為的方法，以及相關互動裝置與電腦可讀媒體

Info

Publication number: TW201523460A
Application number: TW103130136A
Authority: TW
Inventors: Jing-Jo Bei
Original assignee: Htc Corp
Priority date: 2013-12-10
Filing date: 2014-09-01
Publication date: 2015-06-16
Also published as: CN104699237A; US20150160730A1; US9971411B2; CN104699237B; TWI617994B

Abstract

一種使用於一互動裝置並用於辨識使用者操作該互動裝置的行為的方法，包含：擷取複數個影像；根據一膚色模型來形成對應於被擷取的該複數個影像之複數個多邊形影像；以及藉由分析該複數個多邊形影像來執行一功能。

Description

使用於互動裝置並用於辨識使用者操作該互動裝置的行為的方法，以及相關互動裝置與電腦可讀媒體

本發明係關於一種使用者互動架構，尤其是關於一種用於辨識使用者的行為的方法、對應的互動裝置，以及儲存有對應指令的電腦可讀媒體(computer readable medium)。

一般來說，在大部分的習知的使用者互動架構中，若不透過使用者對顯示螢幕進行觸碰來進行操作，則需基於辨識使用者獨特的臉部特徵來進行操作，例如辨識使用者獨特的眼部或嘴部特徵。這些習知的使用者互動架構需要密集的計算以及大量的記憶體頻寬，並且會導致大量的電源消耗。此外，環境雜訊以及使用者的姿勢(pose)也會對這些使用者互動架構的辨識成功率帶來極大的影響，使得習知的使用者互動架構無法有效地偵測使用者的獨特特徵。另外，這些習知的使用者互動架構無法持續偵測裝置與使用者之間的距離或相關的座標。因此，有需要提出一種全新的使用者互動架構來取代習知的使用者互動架構。

因此，本發明之一目的在於提供一種新的方法、一種對應的互動裝置及/或一種儲存有用以辨識使用者操作該互動裝置的行為的相關指令之電腦可讀媒體，以解決上述習知技術的問題。

本發明之一實施例提供了一種使用於一互動裝置並用於辨識使用者操作該互動裝置的行為的方法。該方法包含：擷取複數個影像；根據一膚色模型來形成對應於所擷取的該複數個影像之複數個多邊形影像；以及藉由分析該複數個多邊形影像來執行一功能。

本發明之另一實施例提供了一種互動裝置，用於辨識使用者操作該互動裝置的行為，該互動裝置包含一相機電路以及一處理單元。該相機電路係用以擷取複數個影像。該處理單元係耦接於該相機電路，用於根據一膚色模型來形成對應於所擷取的該複數個影像之複數個多邊形影像，以及藉由分析該複數個多邊形影像來執行一功能。

本發明之另一實施例提供了一種電腦可讀媒體，包含用於辨識使用者操作一互動裝置的行為的複數個指令，該複數個指令被執行時會執行以下步驟：擷取複數個影像；根據一膚色模型來形成對應於被擷取的該複數個影像之複數個多邊形影像；以及藉由分析該複數個多邊形影像來執行一功能。

在上述實施例中，藉由計算以及分析關聯於使用者的臉部的多邊形影像相關的特徵參數，該互動裝置、該方法或該組指令不需要使用者對該互動裝置的輸入部份進行觸碰，就能辨識使用者操作在該互動裝置的行為。本發明提供一種新的架構，用以動態地建立使用者臉部的膚色模型。這個架構係藉由使用以畫素為主的(pixel-based)膚色分類來執行，以對應於擷取的影像畫面，持續地將畫素分類為“膚色區域”或“非膚色區域”。經過上述分類的操作，互動裝置、方法或指令可建立膚色的區域/幾何圖(territory/geometry map)，且接著可伴隨著時間軸來進行分類，以使該互動裝置可分析輸入影像隨時間的變化，進而瞭解使用者的行為及需求，並對該需求作出回應。所提出的新穎兼具智慧型的架構為使用者控制/操作互動裝置提供了另一選擇。此外，所提出的架構也較不易受到環境雜訊以及使用者的姿勢所影響，故可提供更精確的操作以及更低的電源消耗。

100‧‧‧互動裝置

105‧‧‧相機電路

110‧‧‧儲存單元

115‧‧‧顯示裝置

120‧‧‧處理單元

205A~215A、205B~240B、605~645‧‧‧步驟

E1、E2‧‧‧眼部

N1‧‧‧鼻子

FN~FN+4‧‧‧畫面

第1圖係為根據本發明之一實施例的互動裝置的功能方塊圖。

第2A圖係為第1圖所示的互動裝置的簡化流程圖。

第2B圖係為說明第1圖所示的互動裝置的操作的另一範例的流程圖。

第3A圖係為位元圖分佈結果的一範例之示意圖。

第3B圖係為位元圖分佈結果經過邊緣壓縮或反鋸齒處理後的一範例之示意圖。

第4A~4D圖係分別為多邊形影像的四種不同範例之示意圖。

第5A~5C圖係為多邊形影像的其他不同範例之示意圖。

第6圖係為根據本發明的另一實施例的第1圖所示的互動裝置的操作之示意圖。

請參考第1圖，第1圖係為根據本發明之一實施例的一互動裝置100的功能方塊圖。互動裝置100係用以辨識使用者操作互動裝置100的行為(behavior)，尤其是，互動裝置100可在不需要使用者對互動裝置100進行觸碰之下，就能夠辨識使用者操作互動裝置100的行為。在本實施例中，互動裝置100係用來擷取影像、從擷取到的影像辨別出對應於使用者的特定影像，以及對特定影像進行估測以辨識出使用者的行為。在實作上，互動裝置100包含一相機電路105(例如一前置(front-facing)相機)、一儲存單元110(例如一記憶體裝置)、一顯示裝置115(例如一顯示螢幕)以及一處理單元120(例如一處理器)。處理單元120係分別耦接於相機電路105、儲存單元110以及顯示裝置115。第2A圖係為第1圖所示的互動裝置100的簡化流程圖。在步驟205A中，相機電路105係用以擷取複數個影像。處理單元120係用以根據一膚色模型(skin-tone model)來形成對應於被擷取的複數個影像之複數個多邊形影像(polygon image)(步驟210A)，以及藉由分析該複數個多邊形影像來執行一功能(步驟215A)。

請一併參考第1圖以及第2B圖。第2B圖係為說明第1圖所示的互動裝置100的操作的另一範例的流程圖。請注意，假若可獲得實質上相同的結果，則這些步驟並不一定要遵照第2B圖所示的執行次序來執行，亦即其他步驟可被插入其中。在步驟205B中，相機電路105係用以擷取使用者的臉部的至少一參考影像。擷取該至少一參考影像的操作可於互動裝置100一被啟用(亦即開機啟動)時便被執行，或者是互動裝置100開機啟動後並開始執行一預定程序時被執行，舉例來說，該預定程序可為一電子郵件應用(email application)、一網頁瀏覽器(Web browser)，或一文件編輯器應用(document editor application)等等。當該至少一參考影像已被擷取或產生時，在步驟210B中，處理單元120係用以根據該至少一參考影像來建立(build up)及/或產生一膚色模型，尤其是，處理單元120會基於包含於該至少一參考影像中的使用者臉部的膚色來產生該膚色模型。該膚色模型包含有用來指示出正在操作互動裝置100之使用者的膚色的資訊。所建立的該膚色模型後續會被儲存或暫存於儲存單元110中。

在步驟215B中，相機電路105係用以擷取複數個輸入影像(亦即上述被擷取的複數個影像)。詳細來說，當互動裝置100被啟用時及/或被使用者操作時，相機電路105可用來週期地/動態地擷取輸入影像。被擷取的輸入影像可包含部份關聯於使用者臉部的影像以及部份並非關聯於使用者臉部的影像。舉例來說，並非關聯於使用者臉部的影像可指出一背景影像、使用者的衣服及/或其他與使用者的膚色無關的部份。此外，若有二或多個使用者在相機電路105的前面，該二或多個使用者可被相機電路105所拍攝。被擷取的該些輸入影像可包含部份對應於該二或多個使用者的影像，也就是說，被擷取的該些輸入影像的內容並不用以限定本發明之範疇，且本發明並不侷限於只擷取及分析單一使用者的多邊形影像。

在步驟220B中，處理單元120係用來從被擷取的該些輸入影像中辨別出對應於使用者的影像。上述的辨別操作係基於儲存在儲存單元110 中的膚色模型來執行。如上所述，膚色模型係由處理單元120所建立且被儲存在儲存單元110中，此外，膚色模型也可被其他電路事先建立，此變化例亦屬於本發明之範疇。詳細來說，在步驟220B中，處理單元120係用來辨別在一輸入影像中一畫素之值是否對應於由膚色模型的資訊所指出的人體的膚色(亦即使用者臉部的顏色)。若該畫素之值對應於人體膚色，此畫素會被處理單元120分類至一第一畫素群組(group)；若該畫素之值不對應於人體膚色，則畫素會被處理單元120分類至一第二畫素群組。依此原則，處理單元120會得知每一畫素是被分類至關聯於人體膚色的第一畫素群組或是並非關聯於人體膚色的第二畫素群組。上述分類操作係為隨時間變化持續進行的畫素層級分類，而對於每一輸入影像，處理單元120皆會取得有一部分的畫素被分類至第一畫素群組且其他部分的畫素被分類至第二畫素群組的分類結果。

在步驟225B中，處理單元120係用以基於步驟220B所產生的分類結果來執行一位元圖(bit-map)轉換。對於每一畫素，若分類結果指出該畫素係被分類至第一畫素群組，處理單元120會用來將該畫素的一旗標(flag)設定為位元“1”以指出該畫素的影像內容是關聯於人體膚色；若分類結果指出該畫素係被分類至第二畫素群組，則處理單元120會用來將該旗標設定為位元“0”以指出該畫素的影像內容並非關聯於人體膚色。在依序設定好所有畫素的旗標後，處理單元120可取得指出位元0/1分佈(bit 0/1 distribution)的一位元圖。對於被擷取的輸入影像，處理單元120會根據該膚色模型來將包含於被擷取的該輸入影像中的畫素分類至位元“0”或位元“1”以產生該位元圖；對於被擷取的複數輸入影像，處理單元120會將包含於被擷取的該些輸入影像中的每一畫素分類至位元“0”或位元“1”，以產生複數個位元圖。

另一選擇性的作法是，在取得一位元圖後，處理單元120可對該位元圖執行邊緣壓縮(edge suppression)或反鋸齒(anti-jaggy)的操作，來平滑化對應於位元“1”的旗標所形成的一類多邊形(polygon-like)影像的形狀(shape)。請注意，上述邊緣壓縮以及反鋸齒的操作是選擇性的，而非用以限定本發明之範疇。請參考第3A圖以及第3B圖，第3A圖係為位元圖分佈結果的一範例之示意圖。第3B圖係為位元圖分佈結果經過邊緣壓縮或反鋸齒處理後的一範例之示意圖。如第3A圖所示，在輸入影像中，細點(dot)表示關聯於人體膚色的畫素，而其他部份則表示與人體膚色無關的畫素。處理單元120會對由關聯於人體膚色的畫素所形成的範圍的形狀(例如第3A圖所示的細點部份)執行邊緣壓縮或反鋸齒的操作，以取得如第3B圖所示的多邊形影像的處理後之形狀。以第3B圖所示的輸入影像來說，可看出處理單元120可取得具有類臉部(face-like)形狀的多邊型影像(其包含眼部E1、E2以及鼻子N1)之一樣本。這個類臉部形狀係由具有孔洞的多邊形影像所形成，其中孔洞包含眼部E1、E2以及鼻子N1。請再次參考第2B圖，在步驟225B中，處理單元120取得了具有孔洞的多邊形影像，根據該具有孔洞的多邊形影像，處理單元120可辨識或辨別出一輸入影像的一部分(亦即具有孔洞的該多邊形影像)是關聯於人臉。因此，在處理過擷取到的複數影像後，處理單元120會取得複數個具有孔洞的多邊形影像，其分別對應不同時間點的臉部。應注意的是，處理單元120亦可取得不具有孔洞的關聯於人臉的多邊形影像，上述多邊形影像的範例並不用以限定本發明之範疇。此外，在其他實施例中，處理單元120可直接根據產生於步驟220B中的分類結果來取得上述多邊形影像，而不需執行位元圖轉換。也就是說，雖然執行位元圖轉換可以帶來功效，但僅為一選擇性的操作，而非一必要操作。

因此，透過步驟220B以及步驟225B的處理，處理單元120根據膚色模型產生用以指出對應於被擷取的輸入影像的複數個位元0/1分佈的位元圖，並且根據這些位元圖來形成對應於被擷取的該些影像的複數個多邊形影像。

在步驟230B中，基於所取得之該些多邊形影像，處理單元120會計算以及分析關聯於取得之該些多邊形影像的至少一特徵參數的時間變化 (time variation)，以辨識/辨別使用者的行為。所謂至少一特徵參數的時間變化即表示該至少一特徵參數在不同時間點的變化，例如，該至少一特徵參數包含該複數個多邊形影像的中位點(median point，或稱核心(kernal))、該複數個多邊形影像的相似值(similarity)、該複數個多邊形影像的長度/寬度(例如平均(mean)長度/寬度)，及/或該複數個多邊形影像的每一類臉部形狀的比例中的任一或任何組合。請注意，上述特徵參數的範例僅用作說明之目的，並不用以限定本發明之範疇。在取得經計算及分析的特徵參數後，處理單元120會基於所取得之特徵參數來辨識或辨別使用者的行為，如此一來，處理單元120便可決定或辨別使用者下達何種命令來操作互動裝置100。舉例來說，基於分析後的至少一特徵參數，處理單元120可辨識或辨別使用者正在將其頭部轉向左或轉向右、將其頭部向上或向下移動、將其頭部前傾或後仰、將互動裝置100移動至靠近其臉部、將其臉部移動至靠近於互動裝置100，及/或使其臉部以及互動裝置100互相靠近。因此，互動裝置100可得知使用者在未觸碰互動裝置100的輸入部份的情況下，下達何種命令來操作互動裝置100。此外，處理單元120可用各式各樣的方式來計算出特徵參數，舉例來說，特徵參數的中位點(即核心)可藉由使用位於多邊形影像的孔洞(即分別對應於雙眼的二孔洞)之間的重心(gravity center)來計算，及/或藉由參考每一多邊形影像的多個邊緣來計算。這些實施方式皆包含在本發明之範疇。

在步驟235B中，於辨別出使用者下達何種命令之後，處理單元120會控制顯示裝置115或者與顯示裝置115一起被使用，以因應於使用者的命令(或使用者的行為)來執行一預定程序。

在步驟240B中，處理單元120係用來執行一環境條件偵測，以判斷環境條件是否發生改變。詳細來說，處理單元120可用來執行一光照條件(light condition)偵測以判斷光照條件是否發生改變。若光照條件已經改變，則流程由步驟240B進入步驟205B；若光照條件並未改變，則流程由步驟240B進入步驟215B。上述環境條件偵測係用來決定是否要重建該膚色模型。當光照條件已經改變，則有需要基於新的參考影像來重建該膚色模型，以避免處理單元120所執行的畫素層級分類中出現錯誤。反之，若光照條件並未改變，則不需要重建該膚色模型。依此原則，在本實施例中，互動裝置100會基於以下條件所衍生的新參考影像來建立膚色模型：(a)互動裝置被開啟(turned on)、電源開啟(powered on)或喚醒(waken up)；(b)互動裝置開始執行一預定程序；以及(c)偵測到光照條件發生改變。此外，描述於步驟240B中的步驟係為一選擇性的步驟，其可於本發明的其他實施例中被省略。

舉例來說，在本發明的一實施例中，互動裝置100可為一行動裝置，例如一智慧型手機裝置，而使用者可能會希望能夠以不使用手指對顯示螢幕(或觸控面板)的輸入部分進行觸碰的方式，來對互動裝置100進行操作。在此情況下，使用者可利用其頭部來控制/操作互動裝置100。例如，使用者可藉由將其頭部轉向左或轉向右、將其頭部向上或向下移動、將其頭部前傾或後仰、將互動裝置100移動至其臉部、將其臉部移動至靠近於互動裝置100，及/或使其臉部以及互動裝置100互相靠近等方式來操作互動裝置100。當使用者做了以上動作之一時，使用者所做的動作會被相機電路105所拍攝並記錄下來，以產生上述的輸入影像。另外，處理單元120會根據膚色模型來進行畫素層級分類、取得具有類臉部形狀的多邊形影像，以及計算並分析至少一特徵參數的時間變化，以辨識使用者的行為，也就是說，處理單元120會分析類臉部形狀在不同時間點的特徵參數的變化來辨識使用者做出何種動作，以辨別使用者所下達的命令。

例如，當使用者正在操作包含一捲動軸(scrollbar)的軟體應用(software application)時，使用者可移動將其頭部向上或向下移動，或者將其頭部向前或向後傾斜，來控制及移動該捲動軸。在此情況下，處理單元120會偵測到中位點、相似值及/或長度/寬度(例如平均長度/寬度)等特徵參數中至少一特徵參數的時間變化有大幅改變，且處理單元120會接著將使用者的行為辨識或辨別為一捲動動作(scroll action)。若一特徵參數的時間變化有大幅改變，則該特徵參數即反應出表使用者所迅速做的一種動作，舉例來說，使用者可迅速地將其頭部向上或向下移動，使得處理單元120可偵測到關於中位點的特徵參數的時間變化有大幅改變，並且將使用者的行為辨識為捲動動作。然而，時間變化的大幅改變並不用以限定本發明(亦即並非本發明唯一的判斷條件)，若使用者緩慢地將其頭部移動向上或向下移動，處理單元120也可偵測到中位點的時間變化並且將使用者的行為辨識為捲動動作。據此，當使用者控制捲動軸向上、向下或跨頁(across page)時，處理單元120可偵測到中位點、相似性及/或長度/寬度的時間變化有大幅改變，因此處理單元120可辨別使用者是要控制捲動軸向上、向下或跨過當前頁面/文件。

請參考第4A~4B圖，第4A圖係為多邊形影像的第一範例的示意圖，而第4A圖係為多邊形影像的第二範例的示意圖。舉例來說，處理單元120對特徵參數(如中位點(亦即核心))進行計算以及分析，並且取得該對特徵參數(如中位點)的時間變化。如第4A圖所示，畫面F_N~F_N+4分別表示在不同時間點的多邊形影像。處理單元120可偵測到中位點向上移動至整個畫面的上方，這表示使用者可能是將其頭部向上移動或是將其頭部後仰。在一默認設定(default setting)中，處理單元120會根據使用者的習慣來判斷使用者希望對螢幕的顯示畫面實施一向上捲動操作或一向上換頁(page up)操作，而處理單元120會控制顯示裝置115或與顯示裝置115一起被使用，來對顯示螢幕的畫面執行向上捲動操作/功能或向上換頁操作/功能。然而，上述方式僅用以說明，並非用以限定本發明之範疇。此外，如第4B圖所示，畫面F_N~F_N+4分別表示在不同時間點的多邊形影像。處理單元120可偵測到中位點向下移動至整個影像的下方，這表示使用者可能是將其頭部向下移動或是將其頭部前傾。在一默認設定中，處理單元120會根據使用者的習慣來判斷使用者希望對螢幕的顯示畫面實施一向下捲動操作或一向下換頁(page down)操作，而處理單元120會控制顯示裝置115或與顯示裝置115一起被使用，來對顯示螢幕的畫面執行向下捲動操作/功能或向下換頁操作/功能。然而，上述方式僅用以說明，並非用以限定本發明之範疇。

請參考第4C~4D圖，第4C圖係為多邊形影像的第三範例的示意圖，而第4B圖係為多邊形影像的第四範例的示意圖。如第4C圖所示，處理單元120可偵測到中位點向左移動，這表示使用者可能是將其頭部向左移動或是將其頭部轉向左。在一默認設定中，處理單元120會根據使用者的習慣來判斷使用者希望對螢幕的顯示畫面實施一向左換頁(page left)操作，而處理單元120會控制顯示裝置115或與顯示裝置115一起被使用，來對顯示螢幕的畫面執行向左換頁的操作/功能。此外，如第4B圖所示，處理單元120可偵測到中位點向右移動，這表示使用者可能是將其頭部向右移動或是轉向右。在一默認設定中，處理單元120會根據使用者的習慣來判斷使用者希望對螢幕的顯示畫面實施一向右換頁(page right)操作，而處理單元120會控制顯示裝置115或與顯示裝置115一起被使用，來對顯示螢幕的畫面執行向右換頁操作/功能。

請注意，在以上範例中，中位點這個特徵參數可與其他特徵參數(例如相似值及/或平均長度/寬度)一起被使用，來偵測使用者下達何種命令。舉例來說，藉由偵測相似性、平均長度及/或平均寬度，處理單元120可偵測到使用者可能向將其頭部後仰或前傾，或是將其頭部轉向左或轉向右，故可據以偵測到使用者下達何種命令。為簡潔之故，細節在此便不再贅述。

此外，舉例來說，使用者可將互動裝置100移近其臉部、主動將其臉部靠近互動裝置100及/或使其臉部以及互動裝置100互相靠近；另外，使用者可將互動裝置100移遠其臉部、主動將其臉部遠離互動裝置100及/或使其臉部以及互動裝置100互相遠離。在此情況下，處理單元120會偵測到“比例(ratio)”這個特徵參數的時間變化有大幅改變，接著處理單元120會將使用者的行為辨識或辨別為一放大/縮小顯示(zooming in/out)動作。當使用者希望對顯示於顯示螢幕上的內容做放大顯示或縮小顯示時，處理單元120可偵測比例的時間變化，故可判斷出使用者希望對顯示螢幕上的內容做放大顯示或做縮小顯示。

請參考第5A~5B圖，第5A圖係為多邊形影像的第五範例的示意圖，而第5B圖係為多邊形影像的第六範例的示意圖。舉例來說，處理單元120會對“比例”這個特徵參數進行計算以及分析。如第5A圖所示，畫面F_N~F_N+4分別表示在不同時間點的多邊形影像，處理單元120可偵測到多邊形影像在整個畫面所佔的比例逐漸變大，這表示使用者可能是將互動裝置100移近其臉部、主動將其臉部靠近互動裝置100及/或使其臉部以及互動裝置100互相靠近。在一默認設定中，處理單元120會根據視力良好或近視使用者的習慣來判斷使用者希望進行的操作。在本實施例的情況下，處理單元120會判斷使用者希望更清楚地瀏覽互動裝置100上所顯示的內容，而處理單元120會控制顯示裝置115或是與顯示裝置115一起被使用，來對顯示螢幕的畫面執行放大顯示的操作/功能。相反地，在另一替代性的(alternative)設定中，根據遠視使用者的習慣，處理單元120會控制顯示裝置115或是與顯示裝置115一起被使用，來對顯示螢幕的畫面執行縮小顯示的操作/功能。

如第5B圖所示，畫面F_N~F_N+4分別表示在不同時間點的多邊形影像。處理單元120可偵測到多邊形影像在整個畫面所佔的比例逐漸變小，這表示使用者可能是將互動裝置100移遠其臉部、主動將其臉部遠離互動裝置100及/或使其臉部以及互動裝置100互相遠離。在一默認設定中，處理單元120會根據視力良好或近視使用者的習慣來判斷使用者希望進行的操作。在本實施例的情況下，處理單元120會判斷使用者希望對互動裝置100上所顯示的內容作更大範圍的瀏覽或想要看到更多內容，而處理單元120會控制顯示裝置115或是與顯示裝置115一起被使用，來對顯示螢幕的畫面執行縮小顯示的操作/功能。而在另一替代性的設定中，根據遠視使用者的習慣，處理單元120會判斷使用者希望更清楚地瀏覽互動裝置100上所顯示的內容，而處理單元120會控制顯示裝置115或是與顯示裝置115一起被使用，來對顯示螢幕的畫面執行放大顯示的操作/功能。

此外，當偵測到使用者的一預定行為或是偵測到某些預定條件時，處理單元120可被設置來自動地暫停(pause)或中斷正在被使用者操作的一程序/軟體應用。舉例來說，處理單元120可與相機電路105一起被使用來偵測當下使用者是否正與其他人說話。請參考第5C圖，第5C圖係為多邊形影像的第七範例的示意圖。如第5C圖所示，畫面F_N~F_N+4分別表示在不同時間點的多邊形影像。處理單元120可偵測到第二個類臉部多邊形影像出現於畫面F_N+2中(也就是畫面F_N+2中一共出現二個多邊形影像)，原始的類臉部多邊形影像的寬度接下來在畫面F_N+3變的較窄，而到了畫面F_N+4時，兩個多邊形影像的寬度皆變得較窄，這表示使用者可能忽然地與另一人說話。藉由偵測特徵參數(例如本實施例中多邊形影像的寬度)的時間變化，處理單元120可偵測到使用者正在將其頭部左轉(在本範例中)或右轉(在其他範例中)，並可一併偵測到另一人正將其頭部右轉(在本範例中)或左轉(在其他範例中)。當偵測到至少一多邊形影像的寬度變窄時，處理單元120會判斷使用者忽然與另一人進行對話。在一默認設定中，處理單元120會判斷使用者希望與另一人進行簡短的對話，而處理單元120會控制顯示裝置115或是與顯示裝置115一起被使用，以執行一預定程序/功能，以自動地暫停或停止正在被使用者操作的程序/軟體應用，直到處理單元120偵測到使用者的臉部面向互動裝置。例如，當處理單元120偵測到使用者想要與另一人進行簡短對話時，被使用者所觀看的影像/電影可自動地被處理單元120暫停或停止。請注意，第5C圖所示的多邊形影像僅作說明之用途，並非作為本發明之限制。

此外，第2B圖中的流程圖所提及的操作可被設計為僅會於互動裝置100執行一特定軟體應用/程序(例如一網頁瀏覽器、一文件編輯器程式等等)時才執行，舉例來說，特別是當互動裝置100的顯示螢幕所顯示的內容為包含捲動軸的網頁瀏覽器或文件編輯器程式時，處理單元120可用來將使用者的行為辨識或辨別為一捲動動作。此變化例可節省更多電源以避免不必要的電源消耗。

如此一來，根據以上描述，處理單元120可根據取得之特徵參數的時間變化來將使用者的行為辨識或辨別為捲動動作或縮放動作。更確切來說，處理單元120可辨別使用者的動作對應到何種命令，以使得處理單元120可控制顯示裝置115或是與顯示裝置115一起被使用，以因應於使用者的行為或動作來執行一預定程序。

此外，在另一實施例中，互動裝置100的操作可關聯於不同的流程圖步驟，此變化例亦符合本發明之精神。請參考第6圖，第6圖係為根據本發明的另一實施例的第1圖所示之互動裝置100的操作之示意圖。請注意，假若可獲得實質上相同的結果，則這些步驟並不一定要遵照第6圖所示的執行次序來執行，亦即其他步驟可被插入其中。第6圖的步驟如下：步驟605：使用相機電路150來擷取使用者臉部的至少一影像；步驟610：根據使用者臉部的膚色來使用處理電路120建立一膚色模型；步驟615：使用處理電路120來進行環境條件偵測(例如光照條件偵測)，以在等待一預定時段後檢查環境條件是否改變，若環境條件已改變，執行步驟605；否則，繼續執行步驟620；步驟620：使用相機電路105來週期地/動態地擷取輸入影像；步驟625：使用處理電路120來根據該膚色模型對每一畫素進行畫素層級分類，以產生一分類結果；步驟630：使用處理電路120來基於該分類結果執行或進行一位元圖轉換，以取得多邊形影像；步驟635：使用處理電路120來計算以及分析關於取得之多邊形影像的至少一特徵參數，以辨識/辨別使用者的行為；步驟640：使用處理電路120來檢查使用者是否觸碰顯示面板，若使用者正在觸碰顯示面板，回到步驟605；否則繼續執行步驟645；以及步驟645：使用處理電路120來控制顯示裝置115或是與顯示裝置115一起被使用，以因應於使用者的行為來執行一預定程序。

此外，上述包含放大/縮小顯示、向左/右換頁、向上/下換頁及/或向上/下捲動等操作/功能僅作為本發明的範例，這些操作/功能並不用以限定本發明之範疇，其他操作/功能亦可應用於本發明。例如，透過處理電路120因應使用者的行為來進行上述操作，互動裝置100也可用來改變顯示面板的色調亮度(hue brightness)/顏色/功率控制、以調高或調低顯示畫面幀(display frame)、調整電源消耗、自動地將互動裝置100上鎖/解鎖、播放一影像及/或暫停/重播一影像應用。

另外，上述操作或步驟可被包含於一電腦可讀媒體中的軟體指令、執行緒(thread)或程式碼來執行，尤其是軟體指令、執行緒或程式碼不需要使用者對一裝置進行觸碰，就可以被執行來辨識使用者操作此裝置的行為。換言之，本發明可被實施為用於電腦中的系統、方法或程式。上述指令、執行緒或程式碼可被記錄在電腦可讀媒體，例如硬碟、光碟(CD-ROM/DVD-ROM)、光學儲存裝置或磁性儲存裝置。此外，上述指令、執行緒或程式碼可被記錄在另一電腦中並且可藉由網路來讀取。另外，本發明可被實施為硬體以及軟體的組合。

以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。

205A、210A、215A‧‧‧步驟

Claims

一種使用於一互動裝置並用於辨識使用者操作該互動裝置的行為的方法，包含：擷取複數個影像；根據一膚色模型(skin-tone model)來形成對應於所擷取之該複數個影像之複數個多邊形影像；以及藉由分析該複數個多邊形影像來執行一功能。
如請求項1所述之方法，另包含：根據至少一參考影像來產生該膚色模型；其中當該互動裝置被啟用、該互動裝置開始執行一預定程序或一光照條件(light condition)的改變被偵測到時，該至少一參考影像會被擷取。
如請求項1所述之方法，其中根據該膚色模型來形成對應於所擷取之該複數個影像之該複數個多邊形影像的步驟包含：根據該膚色模型來產生複數個位元圖(bit-map)，該複數個位元圖指出對應於所擷取之該複數個影像的複數個位元0/1分佈(bit 0/1 distribution)；以及根據該複數個位元圖來形成該複數個多邊形影像。
如請求項3所述之方法，其中根據該膚色模型來形成對應於所擷取之該複數個影像之該複數個多邊形影像的步驟包含：根據該膚色模型來將所擷取之該複數個影像中的位元分類為位元0或位元1，以產生該複數個位元圖。
如請求項1所述之方法，其中藉由分析該複數個多邊形影像來執行該功能的步驟包含：藉由分析關聯於該複數個多邊形影像的至少一特徵參數的時間變化(time variation)來執行該功能。
如請求項5所述之方法，其中該至少一特徵參數包含該複數個多邊形影像的中位點(median point)、該複數個多邊形影像的相似值(similarity)、該複數個多邊形影像的長度/寬度，以及該複數個多邊形影像的比例中的任一或任何組合。
如請求項6所述之方法，其中藉由分析關聯於該複數個多邊形影像的該至少一特徵參數的時間變化來執行該功能的步驟包含：當偵測到該複數個多邊形影像的中位點、該複數個多邊形影像的相似值或該複數個多邊形影像的長度/寬度的時間變化有大幅改變時，執行一捲動功能(scrolling function)。
如請求項6所述之方法，其中藉由分析關於該複數個多邊形影像的該至少一特徵參數的時間變化來執行該功能的步驟包含：當偵測到該複數個多邊形影像的比例的時間變化有大幅改變時，執行一放大/縮小顯示功能(zooming in/out function)。
一種互動裝置，用於辨識使用者操作該互動裝置的行為，該互動裝置包含：一相機電路，用以擷取複數個影像；以及一處理單元，耦接於該相機電路，用於根據一膚色模型(skin-tone model)來形成對應於所擷取之該複數個影像之複數個多邊形影像，以及藉由分析該複數個多邊形影像來執行一功能。
如請求項9所述之互動裝置，其中該相機電路係用以當該互動裝置被啟用、該互動裝置開始執行一預定程序或一光照條件(light condition)的改變被偵測到時，擷取至少一參考影像；以及該處理器係用以根據該至少一參考影像來產生該膚色模型。
如請求項9所述之互動裝置，其中該處理單元係用以根據該膚色模型來產生複數個位元圖(bit-map)，該複數個位元圖指出對應於所擷取之該複數個影像的複數個位元0/1分佈(bit 0/1 distribution)，以及用以根據該複數個位元圖來形成該複數個多邊形影像。
如請求項11所述之互動裝置，其中該處理單元係用以根據該膚色模型來將所擷取之該複數個影像中的位元分類為位元0或位元1，以產生該複數個位元圖。
如請求項9所述之互動裝置，其中該處理單元係用以藉由分析關聯於該複數個多邊形影像的至少一特徵參數的時間變化(time variation)來執行該功能。
如請求項13所述之互動裝置，其中該至少一特徵參數包含該複數個多邊形影像的中位點(median point)、該複數個多邊形影像的相似值(similarity)、該複數個多邊形影像的長度/寬度，以及該複數個多邊形影像的比例中的任一或任何組合。
如請求項14所述之互動裝置，其中該處理單元係用以於偵測到該複數個多邊形影像的中位點、該複數個多邊形影像的相似值或該複數個多邊形影像的長度/寬度的時間變化有大幅改變時，執行一捲動功能(scrolling function)。
如請求項14所述之互動裝置，其中該處理單元係用以於偵測到該複數個多邊形影像的比例的時間變化有大幅改變時，執行一放大/縮小顯示功能(zooming in/out function)。
一種電腦可讀媒體，包含用於辨識使用者操作一互動裝置的行為的複數個指令，當該複數個指令被執行時會執行以下步驟：擷取複數個影像；根據一膚色模型(skin-tone model)來形成對應於被擷取的該複數個影像之複數個多邊形影像；以及藉由分析該複數個多邊形影像來執行一功能。
如請求項17所述之電腦可讀媒體，其中該複數個指令另用來執行以下步驟：根據至少一參考影像來產生該膚色模型；其中當該互動裝置被啟用、該互動裝置開始執行一預定程序或一光照條件(light condition)的改變被偵測到時，該至少一參考影像係會被擷取。
如請求項17所述之電腦可讀媒體，其中根據該膚色模型來形成對應於被擷取的該複數個影像之該複數個多邊形影像的步驟包含：根據該膚色模型來產生複數個位元圖(bit-map)，該複數個位元圖指出對應於所擷取之該複數個影像的複數個位元0/1分佈(bit 0/1 distributions)；以及根據該複數個位元圖來形成該複數個多邊形影像。
如請求項19所述之電腦可讀媒體，其中根據該膚色模型來形成對應於被擷取的該複數個影像之該複數個多邊形影像的步驟包含：根據該膚色模型來將所擷取之該複數個影像中的位元分類為位元0或位元1，以產生該複數個位元圖。
如請求項17所述之電腦可讀媒體，其中藉由分析該複數個多邊形影像來執行該功能的步驟包含：藉由分析關聯於該複數個多邊形影像的至少一特徵參數的時間變化(time variation)來執行該功能。
如請求項21所述之電腦可讀媒體，其中該至少一特徵參數包含該複數個多邊形影像的中位點(median point)、該複數個多邊形影像的相似值(similarity)、該複數個多邊形影像的長度/寬度，以及該複數個多邊形影像的比例中的任一或任何組合。
如請求項22所述之電腦可讀媒體，其中藉由分析關聯於該複數個多邊形影像的該至少一特徵參數的時間變化來執行該功能的步驟包含：當偵測到該複數個多邊形影像的中位點、該複數個多邊形影像的相似值或該複數個多邊形影像的長度/寬度的時間變化有大幅改變時，執行一捲動功能(scrolling function)。
如請求項22所述之電腦可讀媒體，其中藉由分析關聯於該複數個多邊形影像的該至少一特徵參數的時間變化來執行該功能的步驟包含：當偵測到該複數個多邊形影像的比例的時間變化有大幅改變時，執行一放大/縮小顯示功能(zooming in/out function)。