TW201830198A - 手語辨識方法及系統 - Google Patents
手語辨識方法及系統 Download PDFInfo
- Publication number
- TW201830198A TW201830198A TW106104812A TW106104812A TW201830198A TW 201830198 A TW201830198 A TW 201830198A TW 106104812 A TW106104812 A TW 106104812A TW 106104812 A TW106104812 A TW 106104812A TW 201830198 A TW201830198 A TW 201830198A
- Authority
- TW
- Taiwan
- Prior art keywords
- sign language
- gesture
- database
- processing unit
- recognition
- Prior art date
Links
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
一種手語辨識方法及系統。手語辨識系統包含手勢資料擷取手套,以及一資訊處理單元。手勢資料擷取手套用來進行手勢的擷取。使用者的手語、手勢透過資料手套轉換為感測的手指彎曲角度、手部姿態與加速度等資訊,並且由資訊處理單元對該等資訊進行濾波、校正、手掌姿態計算及加權等處理,以建立一手語資料庫。當使用者藉由手勢資料擷取手套輸入輸入手語時,資訊處理單元執行一手語辨識演算法,以自手語資料庫中篩選出與輸入手語的手勢特徵最相近的動作序列,及其所代表的詞彙,作為輸入手語的辨識結果,並將辨識結果以文字或聲音呈現。
Description
本發明關於一種手語辨識技術,且特別是關於一種手語辨識方法及應用該方法的手語辨識系統。
為了幫助聽障者便於外界溝通,「手語翻譯員」成為工具之ㄧ。但是要培養一個專業手語翻譯員,至少需要三到五年的時間。除了通過認證外,更須接受200 小時的手語訓練、一年以上的手語服務經驗。所以截至目前止,持有證照者僅有兩百位左右的專業手語翻譯員,顯然手語翻譯員人力不足。而這也是手語辨識系統迫切需求的原因。
目前已經存在一些手語翻譯/辨識技術的方案,例如Rung-Huei Liang與Ming Ouhyoung在IEEE的期刊中的論文”A real- time continuous gesture recognition system for sign language”, In FG, pages 558-565, IEEE Computer Society, 1998”中提出使用單隻資料手套與一臺Polhemus 3D tracker作為輸入,並以隱馬可夫模型(HMMs) 作為辨識核心來辨識手語,辨識率可達到80.4%。然而,這樣的辨識率還是不夠理想。
因此,為了改善聾人朋友的生活,本發明提出一種數位的手語辨識方法及使用該方法的手語辨識系統,其利用一低功率的無線式資料手套,並透過資料手套上的彎曲感測器、陀螺儀及加速度感測器對應到手勢中的手指動作及手的方向進行手勢資訊擷取。再藉由專屬接收器與電子裝置連接後,以無線傳輸機制,例如2.4G無線傳輸機制,將手勢資訊傳到電子裝置機進行辨識,以實現用於穿戴性裝置上且具有可攜性的手語辨識系統,並且可達到理想的高辨識率。
有鑑於此,本發明的一目的在於提供一種手語辨識系統,其能夠經由擷取手勢資訊來建立手語資料庫,並且允許使用者輸入手語後進行手語辨識,藉此在高辨識率的條件下將使用者的手語翻譯成文字或聲音,傳送給使用者。
本發明的一目的在於提供一種手語辨識方法,可根據手勢資料擷取手套產生的感測值與完善的手語資料庫來準確地辨識出手語手勢,致使聾啞人士可直接與不懂手語的人進行溝通。
本發明的一態樣為提供一種數位手語辨識系統。本發明的數位手語辨識系統包含一手勢資料擷取手套,以及一電子裝置。手勢資料擷取手套用來進行手勢的擷取。使用者的手語、手勢透過資料手套轉換為感測的手指彎曲角度、手部姿態與加速度等數位資訊,並且將這些數位資訊經由一無線傳輸裝置傳送到電子裝置,再由電子裝置傳送至一雲端裝置,進行濾波、校正及加權處理,以便在雲端裝置上建立數位手語資料庫。此外,本發明的數位手語辨識系統亦允許使用者利用無線式資料手套輸入手語,並且經由過電子裝置送至雲端裝置,從而經由雲端裝置進行手語的辨識。辨識的結果會傳回電子裝置,並經由一資料輸出裝置或電子眼鏡,以文字或聲音的方式呈現給使用者。
本發明的一態樣為提供一種數位手語辨識方法。本發明的手語辨識方法的特徵在於,進行手勢的擷取,以便獲得感測的手指彎曲角度、手部姿態與加速度等數位資訊。接著,感測的手指彎曲角度、手部姿態與加速度進行濾波、校正及加權處理,以便建立數位手語資料庫。此外,本發明的手語辨識方法包含執行一辨識驗算法的步驟來辨識與使用者的手勢最相近的動作序列。根據本發明,在辨識演算法上,將手語辨識視為動作檢索之問題。根據使用者打出的手語,透過手勢資料擷取手套上的感測器將手勢轉換為數位資訊,於手語資料庫中搜尋出最相似的連續動作序列,並辨識為其相對應的手語詞彙。當辨識成功時,將辨識結果以文字與發聲兩種方式做呈現,建立聽人與聾人朋友間便利溝通的無障礙環境。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
本發明的部份實施例接下來將會配合附圖來詳細描述,以下的描述所引用的元件符號,當不同附圖出現相同的元件符號將視為相同或相似的元件。這些實施例只是本發明的一部份,並未揭示所有本發明的可實施方式。更確切的說,這些實施例只是本發明的專利申請範圍中的裝置與方法的範例。
本發明提出一種手語辨識系統,其組態設定為可以擷取使用者的手勢資訊。手勢的基本資訊包含了手形、位置、方向及動作。而如何擷取手勢資訊則是首要考慮的問題。考量到使用上的便利性及準確取得手部動作的目的性,本發明以手套做為輸入裝置,並且利用手套上的各式感測器收集資訊再加以轉換為雙手即時動作。請同時參照圖1及圖2,圖1為依照本發明一實施例所繪示的手勢資料擷取手套的方塊示意圖,圖2為依照本發明一實施例所繪示的手勢資料擷取手套的外觀示意圖。如圖1及圖2所示,本發明的手勢資料擷取手套包含一左手的手勢資料擷取手套10a及一右手的手勢資料擷取手套10b,每個手勢資料擷取手套10a或10b包含M個彎曲感測器(flex sensor) 130_1,…, 130_M。在本實施例中,M的個數係為9,意即每個手勢資料擷取手套10a或10b包含9個彎曲感測器130_1,…, 130_9,如圖1所示。每個手勢資料擷取手套10a或10b更包含一陀螺儀(gyroscope)140、一加速度感測器(accelerometer) 150,以及一控制器120,其中陀螺儀140及加速度感測器150由於設置在控制器120所在的電路板(未顯示)的相對面,因而未顯示於圖2中。然而,在本領域中具有通常知識者可以理解到,陀螺儀140及加速度感測器150的設置方式並非可限定於此間所揭露的形式,而可以有多種的變化。
控制器120由一具有超低功率(ultra-low power)的系統單晶片(system on chip, SoC)所組成,其內含一處理器(未顯示)、一無線傳輸模組121,及一記憶體(未顯示)。較佳者,控制器120為Nordic Semiconductor公司所生產的nrf24le1超低功率2.4GHz 射頻系統單晶片。手勢資料擷取手套10a或10b的材質可以是軟性材質。所述的軟性材質包括例如是聚酯、尼龍或是聚氨酯等材質製作而成的布料。手勢資料擷取手套10a或10b上的感測器詳細說明如下。
彎曲感測器130_1、…、130_M設置於手勢資料擷取手套10a或10b的多個關節部上且耦接控制器120,基本上由一個電阻所組成。當使用者的手指彎曲時,彎曲感測器的電阻值會改變,進而改變電壓,以感測手指的彎曲。然而,彎曲感測器並非需要設置在手指的每個關節上。在本實施例中,彎曲感測器設置在手指的第一指節及第二指節上,或是設置在手指的第三指節上。在手語的使用上,同一根手指上的每個關節通常是一起彎曲的,所以會使用同一條彎曲感測器。此外,加速度感測器1500耦接控制器120,主要用來偵測手部運動的加速度及傾角。事實上,加速度感測器所測量出來的是重力加速度,故加速度感測器亦可稱為重力感測器(G-sensor)。當加速度感測器平放時,重力加速度會集中在一個軸上。當加速度感測器位於傾斜的狀態下或被移動,重力加速度才會出現在其他軸向。
陀螺儀140耦接控制器120,以感測手勢資料擷取手套10a或10b相對於至少一軸向的旋轉狀態,以輸出對應於上述軸向的至少一旋轉量。於一實施例中,軸向包括相互垂直的X軸向、Y軸向與Z軸向。也就是說,陀螺儀140可分別感測出對應至X軸向、Y軸向與Z軸的三個旋轉量,且加速度感測器150可分別感測對應至X軸向、Y軸向與Z軸向的三個加速度值。因此,在本實施例中,加速度感測器150係為一三軸線性加速度感測器,例如STMicroelectronics公司所生產的LIS3DSH 加速度計,而陀螺儀140係為一三軸陀螺儀,例如STMicroelectronics公司所生產的L3GD20三軸數位陀螺儀。
觸碰感測器110_1、110_2、110_3、110_4、110_5分別設置於手勢資料擷取手套10a或10b的一個指尖上,並感測這些指尖上的觸碰以輸出多個觸碰感測值。在本實施例中,觸碰感測器110_1、110_2、110_3、110_4、110_5設置在手勢資料擷取手套10a或10b上相對於彎曲感測器110_1,.., 110_M的另一面,因而觸碰感測器110_1、110_2、110_3、110_4、110_5未顯示於圖2中。然而,觸碰感測器110_1、110_2、110_3、110_4、110_5的設置位置可以有多種變化。觸碰感測器110_1、110_2、110_3、110_4、110_5經配置而感測手勢資料擷取手套10a或10b的指尖是否碰觸到任何物體,而觸碰感測器110_1、110_2、110_3、110_4、110_5例如是電容式觸碰感測器、電阻式觸碰感測器、光學式觸碰感測器、表面聲波觸碰感測器、電磁觸碰感測器或近場成像觸碰感測器,本發明對此並不限制。此外,觸碰感測器110_1、110_2、110_3、110_4、110_5並非為必要性的元件,而可以視設計需求來設置。
然而,圖1與圖2所示的實施例是以各指尖分別配置一個觸碰感測器為例進行說明,但本發明並不以此為限。
於另一實施例中,手勢資料擷取手套10a或10b的各指尖上的觸碰感測器的數量可以是一個以上。
於一實施例中,觸碰感測器可以是壓力感測器。當操作者穿戴手勢資料擷取手套10a或10b時,壓力感測器可依據手勢資料擷取手套10a或10b的指尖與其他物體之間相互作用力大小,而據以輸出對應的壓力感測值。然而,圖1與圖2所示的實施例是以各指尖分別配置一個觸碰感測器為例進行說明,但本發明並不以此為限。
控制器120內含的無線傳輸模組121可依據無線通訊協定發射無線通信訊號,其可提供網路通訊連結功能,使得手勢資料擷取手套10a或10b可經由一無線網路連接至電子裝置。所述的無線網路可包括無線個人網路(Wireless Personal Area Network,WPAN)、無線區域網路(Wireless Local Area Network,WLAN)或無線廣域網路(Wireless Wide Area Network,WAN),本發明對此不限制。
舉例來說,無線個人網路連線例如是基於IEEE 802.15標準來建立連線;無線區域網路連線例如是基於IEEE 802.11標準來建立連線;無線廣域網路例如是基於3G標準或4G標準來建立連線。進一步來說,無線傳輸模組121可為支援無線個人網路連線的藍芽(Bluetooth)無線通訊技術的元件,也可以是支援無線區域網路連線的無線相容認證(Wireless Fidelity,Wi-Fi)通訊技術的元件,也可以是支援無線廣域網路連線的3G/4G通訊技術的元件,本發明對此不限制。再者,無線傳輸模組121可包括一個或多個支援不同種通訊技術的元件。
觸碰感測器110_1、110_2、110_3、110_4、110_5將各自感測到的觸碰感測值傳送給控制器120,而控制器120可從這些觸碰感測器110_1、110_2、110_3、110_4、110_5接收到分別對應至各個指尖的觸碰感測值。此外,控制器120也從彎曲感測器130_1、…、130_M接收彎曲感測值、從陀螺儀140接收旋轉量感測值以及從加速度感測器接收加速度感測值,並透過無線傳輸模組121將對應於同一時間點的觸碰感測值、彎曲感測值、旋轉量感測值以及加速度感測值傳送至一雲端伺服器400 (顯示於圖3中)。
也就是說,控制器120透過無線傳輸模組121將包括觸碰感測值的多個感測值傳輸至一雲端伺服器400,致使雲端伺服器400可依據觸碰感測值進行手語辨識。可以知道的是,手語的手勢會有手指之間及手指與身體其他器官之間的觸碰行為。因此,於使用者比畫手語時,手指頭的指尖可能碰觸到身體其他部位或手部上的其他區域。由於本發明之手勢資料擷取手套可以利用觸碰感測器來偵測手指的觸碰情況,本發明的手勢資料擷取手套所擷取到的觸碰感測值可協助手語手勢辨識。
圖3為依照本發明一實施例所繪示的手語辨識系統的系統方塊圖。請參照圖1至圖3,手語辨識系統30包括手勢資料擷取手套10a及10b、雲端伺服器400、電子裝置500、資料輸出裝置600以及電子眼鏡700。手勢資料擷取手套10a及10b皆包含多個感測器,包括彎曲感測器(130_1,…, 130_M)、陀螺儀140、加速度感測器150,並根據施於手勢資料擷取手套10a及10b的手勢而輸出多個感測值。控制器120設置於手勢資料擷取手套10a及10b上並耦接這些感測器,以從這些感測器接收感測值。手勢資料擷取手套10a及10b的構造與功能已於圖1與圖2詳細說明,於此不再贅述。
雲端伺服器400為一種架設在遠端的伺服器系統,其具有基本的網路連線及運算能力。雲端伺服器400可由一個或多個節點裝置來實現,而每個節點裝置例如為電腦主機或伺服器等實體裝置。這些節點裝置還可分類成計算節點裝置與儲存節點裝置。計算節點裝置用以提供計算服務。儲存節點裝置用以提供儲存服務,例如儲存節點裝置中包括一個或多個資料儲存中心。然而,為了清楚說明本發明,本實施例將以雲端伺服器400為單一個節點裝置為例進行說明,但本發明並不以此為限。
於本實施例中,雲端伺服器400包括儲存裝置410與處理器420。儲存裝置410儲存有手語資料庫411,而處理器420耦接儲存裝置410。儲存裝置410例如是任意型式的固定式或可移動式隨機存取記憶體(Random Access Memory,RAM)、唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體(Flash memory)、硬碟或其他類似裝置或這些裝置的組合。至少一程序或程式存儲在儲存裝置410中且經配置以由處理器420執行。具體而言,所述程序包括多個指令,而上述指令是由處理器420來執行。簡單來說,處理器420運行程序或程式,以依據手勢資料擷取手套10a、10b所擷取的感測值進行手語辨識。手語辨識方法的詳細流程將於後配合圖示再做說明。
處理器420例如是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之微處理器(Microprocessor)、數位訊號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)、可程式化邏輯裝置(Programmable Logic Device,PLD)或其他具備運算能力的硬體裝置。
電子裝置500例如是桌上型電腦、筆記型電腦、平板電腦(Tablet PC)、個人數位助理(personal digital assistant,PDA)、智慧型手機、電子書、遊戲機等,且可透過網路N1與雲端伺服器400建立網路連線,本發明並不對電子裝置500的形式與種類限制。於本實施例中,電子裝置500經由無線近端連線L1連結至手勢資料擷取手套10a、10b的無線傳輸模組,以從手勢資料擷取手套10a、10b的無線傳輸模組接收感測值。如此,電子裝置500可經由網路N1將包括觸碰感測值的多個感測值傳送至雲端伺服器400。在雲端伺服器400根據手勢資料擷取手套10a、10b的感測值而獲取辨識結果後,雲端伺服器400經由網路N1將辨識結果回傳至電子裝置500。電子裝置500再經由無線近端連線L2將辨識結果傳送至資料輸出裝置600。無線近端連線L1、L2例如是基於藍芽通訊協定或近場通訊協定等短距離通訊協定而建立的連線,但本發明並不限制於此。
於是,資料輸出裝置600可從雲端伺服器400接收手勢的辨識結果,以依據辨識結果顯示文字或輸出語音。具體來說,資料輸出裝置600例如是用以顯示文字的顯示螢幕或輸出語音訊號的揚聲器。如此一來,施於手勢資料擷取手套10a及10b之手勢所對應的辨識結果可藉由語音或文字而輸出,好讓他人與手勢資料擷取手套10a、10b的手套穿戴者進行溝通。
值得一提的是,於一實施例中,資料輸出裝置600可以是電子裝置500的螢幕或喇叭。當資料輸出裝置600是電子裝置500的螢幕或喇叭時,資料輸出裝置600可不需要透過無線近端連線L2而是直接經由網路N1接收手勢的辨識結果。此外,於另一實施例中,為揚聲器的資料輸出裝置600可直接設置於手勢資料擷取手套10a、10b之上。當資料輸出裝置600為設置於手勢資料擷取手套10a、10b之上的揚聲器時,而無線近端連線L2與無線近端連線L1為同一網路連線。
然而,圖3係以電子裝置500為雲端伺服器400與資料擷取手套10a、10b、資料輸出裝置600之間的通訊橋樑為例進行說明,但本發明並不以此為限。當手勢資料擷取手套10a、10b與資料輸出裝置600具有自行連結至廣域網路或蜂巢網路的能力時,手勢資料擷取手套10a、10b與資料輸出裝置600可在不存在電子裝置500的情況下直接與雲端伺服器400進行資料交換,以提供即時手語辨識的功能。
值得一提的是,除了手勢資料擷取手套10a、10b與資料輸出裝置600所建構的訊息表達管道,本實施例之手語辨識系統30更位聾啞人士提供一個訊息接收管道。進一步來說,手語辨識系統30更包括電子眼鏡700。電子眼鏡700包括語音接收裝置710。語音接收裝置710可實施為指向性麥克風或助聽器,用以接收週遭環境的語音訊息。語音接收裝置710接收語音訊息而產生語音資料。語音接收裝置710同樣可經由電子裝置500將語音資料傳送至雲端伺服器400,以接收關聯於語音資料的語音辨識結果。詳細來說,當雲端伺服器400接收到語音接收裝置710所傳送的語音資料時,雲端伺服器400可進行語音辨識並將語音辨識結果回傳給電子眼鏡700。之後,電子眼鏡700可將語音辨識結果顯示於電子眼鏡700的鏡片720上。如此一來,當聾啞人士穿戴手勢資料擷取手套10a、10b、資料輸出裝置600與電子眼鏡700時,聾啞人士可藉由資料擷取手套10a、10b、資料輸出裝置600向外表達訊息,並透過電子眼鏡700接收外來語音訊號並顯示外來語音訊號所代表的訊息意義。
接下來,請參見圖4。圖4顯示本發明一實施例所繪示之手語辨識方法的流程圖。在圖4的實施例中,本發明的手語辨識方法適用於上述的手勢資料擷取手套與手語辨識系統,以下即搭配圖2的手勢資料擷取手套以及圖3中的手語辨識系統來說明本實施例方法的詳細流程。
如圖4所示,本發明的手語辨識方法開始於步驟S401,經由擷取手勢特徵來建立手語資料庫。根據本發明,使用者利用手勢資料擷取手套10a或10b打出手語詞彙,手勢資料擷取手套10a或10b手套上的感測器會感測使用者的手部動作,產生感測信號。
為了得到有意義的資訊,本發明針對感測器所測出的原始數值做轉換。請同時參見圖5,其顯示用來執行圖4的步驟S401的手勢特徵擷取步驟所需的軟體模組的方塊示意圖。首先,在獲得感測器的原始感測信號時,必定存在雜訊。因此,針對各式感測器轉換後的數值,本發明分別採用不同方式進行雜訊的濾波與校正,最後以擷取出來的手指關節的彎曲角度、加速度值、手掌方向手勢特徵做為辨識演算法的輸入。詳細來說,若欲取得手指彎曲角度,則選用彎曲感測器130_1,…, 130_M作偵測,並將彎曲過程中所產生的電阻值V 進行正規化,其轉換公式如下:(公式1)
其中(Vmin
,Vmax
)為彎曲感測器130_1,…, 130_M輸出的電阻值範圍。
另外,陀螺儀140及加速度感測器150通常是以微機電(MEMS)元件所製成。微機電元件雖然具有體積小與低成本的優勢,但是只要是感測器都會有誤差的問題存在。因而在使用的過程中,都必須進行校正處理與濾波處理。關於加速度感測器150的部分,可透過預先測量水平狀態下與重力加速度的誤差並記錄,在轉換時使用校正裝置221直接對加速度感測值213作偏移校正,產生加速度值233。然而,用於測量角速度的陀螺儀140,在靜止的情況下,其旋轉量數值應該為零。本發明利用此條件,在初始的靜止狀態讀取100 筆的原始數據後求得平均值,即為陀螺儀140的誤差偏移量。對於往後的原始數值透過於此誤差偏移量的差值,作為校正裝置221用來校正旋轉量感測信號212的角動量值。
對於彎曲感測器130_1,…, 130_M和陀螺儀140的雜訊問題,本發明採用濾波器222,來進行手指彎曲角度感測信號211及旋轉量感測信號212的雜訊的過濾。在本實施例中,濾波器222為卡爾曼濾波器(Kalman filter)。卡爾曼濾波器是一個最佳化自回歸資料處理演算法(Optimal recursive data processing algorithm),能夠動態估測系統並且濾除測量雜訊。其濾波過程可分為兩步驟:
1. 預測(prediction):根據前一個時間點T-1的系統狀態進行狀態值及誤差值的預估。
2. 更新(update): 本發明可最佳化卡爾曼增益值,並利用卡爾曼增益乘上T時刻的實際誤差更新實際系統值,再利用卡爾曼增益乘上T時刻的預估誤差,更新下一個時間的預估誤差值。濾波後的手指彎曲角度感測值231如圖6A所示,而濾波後的旋轉量感測信號結果如圖6B所示。
另外,在姿態計算處理方面,意即在手掌的方向的計算上,其中一種方式是針對陀螺儀140偵側的角速度作積分。由於陀螺儀140本身既存在誤差,經過長時間的積分運算後,會造成誤差值的擴大而產生偏移。同時因使用尤拉角而存在的萬向鎖(Gimbal lock)問題也隨之發生,造成姿態錯誤。所以本發明採用用於計算四軸飛行器姿態的姿態航向參考系統(Attitude and heading reference system, AHRS)223,並使用Mahony等人在IEEE期刊上的文章”Nonlinear complementary filters on the special orthogonal group, IEEE Transactions, Automatic Control. 53(5):1203-1218, June 2008”上所教導的互補濾波法,以加速度感測器150求得的姿態來校正陀螺儀140於積分上的誤差。因為其過程以四元數形式作計算。這樣一來,不僅避免萬向鎖問題,亦能於3D場景中完整呈現即時手部姿態。旋轉量感測信號212經過校正及濾波後的結果,以四元數(quaternion)232來呈現手掌在空間中的旋轉方向。
利用記錄手套10a及10b得到的手部特徵,本發明建立了手語資料庫411以對使用者打出的手語進行動作檢索。手語資料庫中共有M個手語辭彙,記為V ={v 1
,...
,v M
}。將所有手語詞彙的幀(frame)依序排列並給予新的索引值後,也可將資料庫視為是一個動作序列F ={f 1
,...
,f N
},其中N為資料庫中的總取樣數。每一個幀f
i 皆是由一組特徵向量所組成,分別代表著手指彎曲角度、手掌方向、加速度值。詳細如下列表1所示。
表1
另外,不同的手語詞彙,在手勢動作上就會存在著差異性。有些手語詞彙僅僅只有改變手指的彎曲度,如「老師」、「你」等詞彙。除了手形上的改變外,也有包含動作的手語詞彙,且手的姿態與位置也不相同。不同的動作反應在感測器的數值上,可依照其變化性決定該特徵資訊於手語詞彙的重要性。在這樣的概念下,我們針對資料庫中的每個手語辭彙依據其特徵資訊的變化程度給予權重值,進行加權處理。
為了將特徵向量的變化程度數值化,因此選擇先計算每個詞彙中特徵向量各元素的標準差後,以其平均值做為變化量。以詞彙vi
為例,假設vi
由幀集合{f (vi,0)
,...
,f (vi, k)
} 所組成,其中第j個幀為。首先,計算手指角度、手掌方向、加速度值等特徵中各元素的標準差後,其結果依序記為
接著,對各個特徵的元素標準差,採用底下所示的公式2、公式3、公式4來計算平均值作為平均變化量,結果記為(Avi, Fa , Avi,O
, Avi,α
)。(公式2)(公式3)(公式4)
最後,利用下列的公式5、公式6、公式7 對手語資料庫411中所有詞彙的特徵向量平均標準差進行正規化計算後則可得到(Wvi , Fa , Wvi , O
, Wvi ,α
),即為詞彙v
i 的權重值。(公式5)(公式6)(公式7)
接下來回到圖4,此時進行到步驟S402,利用K-D樹演算法對手語資料庫中的手部特徵資訊進行編碼。對於預先錄製的手語資料庫411,本發明利用K-D樹(KD-Tree)演算法將手勢特徵向量進行編碼。更進一步的,本發明利用K-D樹於快速搜尋上的效能,加強動作檢索的運算速度。在手語資料庫411中,雙手手勢的特徵向量是由34 個維度組成。考量到感測器的可擴張性,為了滿足於擁有不同感測器數量之穿戴式裝置的使用,同時也避免高維度K-D樹之大量運算,本發明對不同自由度的三種特徵資訊個別做編碼,分別為手指角度20維、手掌方向8 維、加速度6維。
接著,圖4的方法進行到步驟S403,以經由手勢資料擷取手套來取得手勢的多個感測值,並經由無線傳輸模組傳送多個感測值到雲端伺服器。在建立手語資料庫411並進行上述的權重處理後,使用者便可以利用手勢資料擷取手套10a及10b輸入手語。藉此,手勢資料擷取手套10a, 10b取得手勢的多個感測值,並且經由無線傳輸模組121傳送多個感測值手部彎曲角度值231、四元數232、加速度值233 到雲端伺服器400。
接著,圖4的方法進行到步驟S404,以經由雲端伺服器執行一手語辨識演算法來搜尋出最相近的動作序列,並將此最相近的動作序列作為辨識結果。雲端伺服器400設定為在接收到無線傳輸模組121所傳送的手部彎曲角度值231、四元數232、加速度值233後,進行一手語辨識演算法來搜尋出最相近的動作序列,以便搜尋出與手勢最相近的動作序列,作為辨識結果。關於步驟404的執行,將於底下配合圖7的流程圖詳細說明。
圖7顯示本發明的手語辨識方法中的步驟404的手語辨識演算法的流程圖。如圖7所示,在雲端伺服器400接收到無線傳輸模組121所傳送的多個感測值後,便進行步驟S701,以便為傳送到雲端伺服器400的手部特徵資訊,各自建立線上惰性相鄰圖(online lazy neighborhood graph, OLNG)。本發明會根據每一種的感測器所產生的資訊個別建立獨立的惰性相鄰圖,如圖8所示的線上惰性相鄰圖的結構示意圖。
接下來,手語辨識演算法的方法會進行到步驟S702來進行動作檢索,意即執行搜尋演算法,以自手語資料庫411中搜尋出與傳送到雲端伺服器400的手部特徵資訊相似的數值。對於時間點t所輸入的特徵向量,及,本發明利用K-最近鄰演算法(k-nearest neighbors algorithm, KNN algorithm) 從個別的K-D樹中找出與其最相近的K 筆資料,並根據K-最近鄰演算法搜尋所得到的距離作為線上惰性相鄰圖點的成本,並透過線上惰性相鄰圖結構找出K個連續的動作序列與相對應的成本。
在Jochen Tautges等人發表在ACM Transaction期刊上的論文 “Motion Reconstruction Using Sparse Accelerometer Data.AC
MTrans
.Graph.
, pages 251–276, May 2011”中,為了重構出原本的動作,主要是利用線上惰性相鄰圖找出最相近的動作序列。因此在動作片段的選擇上,僅依照動作的相似性做挑選。如此一來,則會挑出多個屬於相同動作序列的幀。但針對要辨識出手語詞彙的目的,這樣的取法會將其他可能的詞語忽略掉而使得結果缺少了多樣性。因此,在建立線上惰性相鄰圖時,本發明選擇以詞彙為主的挑選法,對於搜尋到的幀依照詞語做分類後,將每個詞彙距離輸入的特徵向量最小的幀作為線上惰性相鄰圖的圖節點(graph node),藉此增加詞語選擇的多樣性。
接下來,手語辨識演算法的方法會進行到步驟S703,利用線上惰性相鄰圖,執行最佳化演算法而獲得最相似動作序列,藉此篩選出正確的手語詞彙。在此,藉由時間t輸入的特徵向量利用線上惰性相鄰圖結構進行動作檢索,我們分別得到與手指角度、手掌方向、加速度值三種特徵相似的幀集合,依序記為及其相對應的成本為,並透過下列公式8、公式9、公式10將路徑成本做正規化得到權重 (公式8)(公式9)(公式10)
為了在每個時間點都能找出最符合輸入資訊的幀,我們利用線上惰性相鄰圖的檢索結果為限制列出下列公式11,以計算經檢索得到的幀與整體輸入特徵的相似性,其中W
( vi, Fa
),W
( vi,O
),W
( vi,α
)為ft
所屬的手語詞彙vi
之特徵權重。,其中(公式11)
而在能量函數(energy function)中包含三個項目EFa
(ft
)、EO
(ft
)、Eα
(ft
),分別計算ft
對於所有檢索結果的相似性,其距離以向量餘弦方式計算。(公式12)(公式13)(公式14)
在連續手語辨識的判斷,由於打出每個手語詞彙間,手語詞彙間必定會存在手勢的轉換過程,稱之為過渡(transition)區間。因此,在連續手語的部分,該如何分割手語詞彙與過渡區間是必須要克服的問題。
詳細來說,為了解決分割問題,本發明選擇於固定的時間間隔輸出辨識結果。在統計了資料庫中手語辭彙的平均時間後,利用此平均時間T 作為辨識的時間間隔。在時間間隔T內,每個時間點t使用動作檢索與能量函數找出相似動作片段與其對應的手語詞彙做為預選詞彙(candidate word)。當到達時間間隔T 時,總合各個預選詞彙的能量值(Energy Value) ,捨棄出現次數少於門檻值的詞彙,以能量值總合最小值所對應的手語詞彙作為輸出結果。如此一來,對於連續手語的過渡問題,則會因為在時間間隔T中出現的次數過少而被過濾掉,藉此篩選出正確的手語辭彙。
最後,吾人進行了實驗以確認本發明的可用性與有效性。為了即時觀看系統截取之手勢正確性,在取得手套偵測的數位資訊後,以OpenGL搭配3D手部骨骼模型將手部姿態即時呈現。於手語系統辨識率的實驗上,經過5位不曾比過手語的使用者經教學後進行手語單詞的辨識及情境中連續手語的辨識。此外,也針對情境中的連續手語辨識於僅採用陀螺儀與加速度計兩個感測器資訊進行辨識實驗。
在手語單詞辨識的實驗中,每次實驗皆於資料庫中隨機挑選出20 個手語單詞的情況下,進行系統辨識率的實驗。本發明的平均手語的單詞辨識率可達到85%,高於Ruei-Huei Lian與Ming Ouhyoung在IEEE的期刊中的論文”A real- time continuous gesture recognition system for sign language”, In FG, pages 558-565, IEEE Computer Society, 1998”中的辨識率(80.4%)。詳細統計數據如表2:
表2
此外,在連續手語句子的辨識實驗中,本發明設計了下列三個情境的手語句子,如表3所示。並且於每個情境皆比出五次的條件下,要求使用者連續打出相對應的手語辭彙以進行連續手語句子的辨識率測試。本發明的平均辨識率可達到89%,統計結果如表4。
表3
根據實驗的紀錄表示,使用者的錯誤大部分皆發生於第一或二次的不熟悉情況下打出了相似的手勢,造成系統之誤判。經過前兩次的測試而熟悉手語詞彙的打法後,皆可正確的打出手語詞彙且系統辨識正確。
為了應用於不同的穿戴式裝置上,本發明模擬穿戴智慧型手錶的情況進行手語辨識實驗,統計數據如表5。僅透過陀螺儀與加速度計為輸入資訊,且於少量詞彙資料庫的情形下,其辨識率也可達到62.6%,證實本發明所提出的演算法對於感測器的可擴張性。於應用層面上,在缺少的手指角度資訊的情況,使用者預先針對預設情境可能使用到的詞彙建立客製化小型資料庫;再透過其他的穿戴式裝置實踐穿戴式手語辨識系統。
表4
表5
因此,本發明的手語辨識技術的特點在於以動作檢索方式搭配自製低功率的無線式資料手套進行臺灣手語辨識。在台灣手語辨識的研究上,上述Rung-Huei Liang與Ming Ouhyoung的論文中提到使用單隻資料手套與一臺Polhemus 3D tracker作為輸入,並以隱馬可夫模型(HMMs) 作為辨識核心來辨識手語。本發明透過自製的無線式資料手套擷取雙手手勢資訊,且以動作檢索方式進行手語詞彙的辨識。本發明的優點在於排除了在手語詞彙增加後,需要重新訓練的過程,且辨識率達85%, 高於Rung-Huei Liang與Ming Ouhyoung的辨識率80.4%。
此外,關於手語辨識演算法上感測器的可擴充性,本發明改善了Jochen Tautges 等人提出的線上惰性相鄰圖,將動作檢索應用於手語辨識研究。線上惰性相鄰圖使用四肢上的加速度計進行動作檢索與重構。但直接應用於手語辨識時,卻會因為手語中許多相似的動作而造成無法辨識。因此,本發明根據每一種的感測器所產生的資訊個別建立獨立的線上惰性相鄰圖,依照輸入的資料作檢索,再透過最佳化計算融合檢索結果,辨識出最相近的手語詞彙。由實驗結果指出,僅使用陀螺儀與加速度計所獲得的資訊進行連續手語辨識,其辨識率可達62.6%;再加入手指關節資訊後,辨識率則提升至89.3%。證實本發明提出的演算法於不同數量感測器之情況,透過個別資訊的檢索,再經最佳化計算融合檢索結果以實現感測器的可擴充性。
在本實施例中,手勢資料擷取手套10a及10b的諸多感測器所感測到的感測值,乃是經由無線傳輸模組121傳送到電子裝置500後,再由電子裝置500經由網路將感測值傳送到雲端伺服器400,而由雲端伺服器400進行手語資料庫411的建置及執行手語辨識演算法。然而,另一種可能的實施方式為,在計算量不大的情形下,感測值經由無線傳輸模組121傳送到電子裝置500後,在電子裝置500的儲存裝置(未顯示)內部建置手語資料庫及進行手語辨識演算法的執行。如此一來,本發明的手語辨識系統便不再需要雲端伺服器400,且電子裝置500能夠對感測值執行校正、濾波、姿態計算及加權處理來建置手語資料庫,以及執行圖7的手語辨識演算法。換句話說,本發明的手語辨識方法可由資訊處理單元,例如雲端伺服器400或電子裝置500來實現。
本發明的數位手語辨識系統,藉由低功率無線式資料手套進行手勢的擷取,將手語、手勢透過資料手套轉換為手指彎曲角度、手部姿態與加速度等數位資訊,並建立數位手語資料庫。在辨識演算法上,本發明將手語辨識視為動作檢索之問題,從而根據使用者打出的手語,透過資料手套上的感測器將手勢轉換為數位資訊,以便在手語資料庫中搜尋出最相似的連續動作,並辨識為其相對應的手語詞彙。在250個詞彙的手語資料庫中,平均辨識率可達到89.3%。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
10a、10b‧‧‧手勢資料擷取手套
30‧‧‧手語辨識系統
110_1~110_5‧‧‧觸碰感測器
120‧‧‧控制器
121‧‧‧無線傳輸模組
130_1~130_M‧‧‧彎曲感測器
140‧‧‧陀螺儀
150‧‧‧加速度感測器
400‧‧‧雲端伺服器
410‧‧‧儲存裝置
411‧‧‧手語資料庫
420‧‧‧處理器
500‧‧‧電子裝置
600‧‧‧資料輸出裝置
700‧‧‧電子眼鏡
710‧‧‧語音接收裝置
720‧‧‧鏡片
N1‧‧‧網路
L1、L2‧‧‧無線近端連線
211‧‧‧手指彎曲角度感側信號
212‧‧‧旋轉量感側信號
213‧‧‧加速度感側值
221‧‧‧校正裝置
222‧‧‧濾波器
223‧‧‧姿態航向參考系統
231‧‧‧手指彎曲角度值
232‧‧‧四元數
233‧‧‧加速度值
S401~S405、S701~S703‧‧‧步驟
圖1為根據本發明一實施例所繪示的手勢資料擷取手套的電路方塊示意圖。 圖2為依照本發明一實施例所繪示的手勢資料擷取手套的外觀示意圖。 圖3為依照本發明一實施例所繪示的手語辨識系統的系統方塊圖。 圖4為依照本發明一實施例所繪示之手語辨識方法的流程圖。 圖5顯示用來執行圖4的步驟S401的手勢特徵擷取步驟所需的軟體模組的方塊示意圖。 圖6A顯示濾波後的手指彎曲角度感測信號。 圖6B顯示濾波後的旋轉量感測信號。 圖7顯示圖4的手語辨識方法中的步驟404的手語辨識演算法的流程圖。 圖8顯示線上惰性相鄰圖(OLNG)的結構示意圖。
Claims (10)
- 一種手語辨識方法,適用於一手語辨識系統,包括: 提供一資訊處理單元及一手勢資料擷取手套,其中該手勢資料擷取手套包含多個感測器以感測多個手勢來輸出多個感測值,以及一傳輸模組以將該多個感測值傳送至該資訊處理單元; 藉由該資訊處理單元對該多個感測值執行一濾波處理程序、校正處理程序、手掌姿態計算處理程序及加權處理程序,以建立一手語資料庫; 藉由該手勢資料擷取手套感測一輸入手語的多個感測值,並傳送該多個感測值至該資訊處理單元; 藉由該資訊處理單元執行一手語辨識演算法,以自該手語資料庫篩選出與該輸入手語最相近的一動作序列,作為該輸入手語的辨識結果; 以及 將該辨識結果以文字或聲音方式呈現。
- 如請求項1所述的手語辨識方法,其中該多個感測值包含手指彎曲角度感測值、手掌旋轉量感測值,以及手部加速度感測值。
- 如請求項1所述的手語辨識方法,其中在藉由一資訊處理單元對該多個感測值執行一濾波處理程序、校正處理程序、手掌姿態計算處理程序及加權處理程序,以建立一手語資料庫的步驟之後,更包含下列步驟: 執行ㄧK-D樹演算法對該手語資料庫中的手勢特徵進行編碼。
- 如請求項3所述的手語辨識方法,其中該執行一手語辨識演算法,以自該手語資料庫篩選出與該輸入手語最相近的一動作序列的步驟,包含下列步驟: 為該輸入手語的手勢特徵各自建立一線上惰性相鄰圖; 執行一K-最近鄰演算法,以自該手語資料庫內的編碼的手勢特徵中,搜尋出與該輸入手語的手勢特徵相近的多組編碼的手勢特徵; 以及 利用該線上惰性相鄰圖執行一最佳化演算法,以自搜尋出的相近的多組編碼的手勢特徵,篩選出與該輸入手語的手勢特徵最相近的手勢特徵,並且將該最相近的手勢特徵所代表的動作序列,作為該輸入手語的辨識結果。
- 如請求項1所述的手語辨識方法,其中該濾波處理程序係藉由一卡爾曼濾波器來完成,且該手掌姿態計算處理程序係藉由一姿態航向參考系統來完成。
- 一種手語辨識系統,用以建立一手語資料庫,並根據該手語資料庫辨識一輸入手語並將該輸入手語翻譯成文字或聲音,包括: 一手勢資料擷取手套,具有多個感測器以及一傳輸模組,且該些感測器用以感測該輸入手語的手勢特徵,其中該手勢特徵包含手指彎曲角度、手掌旋轉量,以及手部加速度值;; 一資訊處理單元,信號耦接至該傳輸模組,設定為接收該手勢特徵,並且將該手勢特徵進行濾波、校正、手掌姿態計算及加權處理程序,以建立一手語資料庫,並且設定為執行一手語辨識演算法,以自該手語資料庫篩選出與一輸入手語最相近的一動作序列,作為該輸入手語的辨識結果; 以及 一資料輸出裝置,訊號連接該資料處理單元,用以呈現該辨識結果。
- 如請求項6所述的手語辨識系統,其中該資訊處理單元包含一雲端伺服器,經由一電子裝置信號耦接至該手勢資料擷取手套。
- 如請求項6所述的手語辨識系統,其中該資料輸出裝置包含一顯示螢幕或一揚聲器。
- 如請求項6所述的手語辨識系統,其中該多個感測器包含彎曲感測器、陀螺儀及加速度感測器。
- 如請求項6所述的手語辨識系統,其中該傳輸模組係為一無線傳輸裝置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106104812A TW201830198A (zh) | 2017-02-14 | 2017-02-14 | 手語辨識方法及系統 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106104812A TW201830198A (zh) | 2017-02-14 | 2017-02-14 | 手語辨識方法及系統 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201830198A true TW201830198A (zh) | 2018-08-16 |
Family
ID=63960600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106104812A TW201830198A (zh) | 2017-02-14 | 2017-02-14 | 手語辨識方法及系統 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TW201830198A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI723718B (zh) * | 2019-01-03 | 2021-04-01 | 宏達國際電子股份有限公司 | 電子系統及控制器 |
TWI775524B (zh) * | 2021-07-09 | 2022-08-21 | 華碩電腦股份有限公司 | 手勢判斷方法及電子裝置 |
-
2017
- 2017-02-14 TW TW106104812A patent/TW201830198A/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI723718B (zh) * | 2019-01-03 | 2021-04-01 | 宏達國際電子股份有限公司 | 電子系統及控制器 |
TWI775524B (zh) * | 2021-07-09 | 2022-08-21 | 華碩電腦股份有限公司 | 手勢判斷方法及電子裝置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10446059B2 (en) | Hand motion interpretation and communication apparatus | |
Ahmed et al. | A review on systems-based sensory gloves for sign language recognition state of the art between 2007 and 2017 | |
Al-Qurishi et al. | Deep learning for sign language recognition: Current techniques, benchmarks, and open issues | |
EP2891954B1 (en) | User-directed personal information assistant | |
Li et al. | Recognition system for home-service-related sign language using entropy-based $ K $-means algorithm and ABC-based HMM | |
US20160042228A1 (en) | Systems and methods for recognition and translation of gestures | |
CN108986801A (zh) | 一种人机交互方法、装置及人机交互终端 | |
CN109902296B (zh) | 自然语言处理方法、训练方法及数据处理设备 | |
CN104850773B (zh) | 用于智能移动终端的用户身份认证方法 | |
Heera et al. | Talking hands—An Indian sign language to speech translating gloves | |
Bui et al. | Recognizing postures in Vietnamese sign language with MEMS accelerometers | |
CN110008839B (zh) | 一种自适应手势识别的智能手语交互系统及方法 | |
CN105068657B (zh) | 手势的识别方法及装置 | |
CN111708433A (zh) | 手势数据采集手套及基于手势数据采集手套的手语手势识别方法 | |
CN111263956A (zh) | 信息处理设备、信息处理方法和程序 | |
CN109814707A (zh) | 一种基于智能指环的虚拟输入方法及系统 | |
Luo et al. | Wearable air-writing recognition system employing dynamic time warping | |
CN109002803A (zh) | 一种基于智能手表的握笔姿势检测和汉字笔顺识别方法 | |
Chen et al. | ViFin: Harness passive vibration to continuous micro finger writing with a commodity smartwatch | |
Swee et al. | Wireless data gloves Malay sign language recognition system | |
Pezzuoli et al. | Improvements in a wearable device for sign language translation | |
TW201830198A (zh) | 手語辨識方法及系統 | |
TWM546589U (zh) | 手語辨識系統 | |
KR101793607B1 (ko) | 수화교육 시스템, 방법 및 프로그램 | |
Chen et al. | Lisee: A headphone that provides all-day assistance for blind and low-vision users to reach surrounding objects |