TW201913297A

TW201913297A - 基於手勢之文字輸入系統及方法

Info

Publication number: TW201913297A
Application number: TW106130616A
Authority: TW
Inventors: 劉書承
Original assignee: 宏碁股份有限公司
Priority date: 2017-09-07
Filing date: 2017-09-07
Publication date: 2019-04-01

Abstract

一種基於手勢之文字輸入系統，其具有攝像裝置、控制器、以及顯示裝置。攝像裝置擷取使用者之手掌在視野範圍中之影像。控制器分析影像以決定手掌在視野範圍中之位置以及手掌之一手指呈現彎曲狀態，根據位置以及彎曲手指決定虛擬鍵盤中之一列以及一行，以及根據列與行所對應到之文字產生輸入訊號。顯示裝置根據輸入訊號顯示文字。

Description

基於手勢之文字輸入系統及方法

本申請主要關於文字輸入技術，特別係有關於一種適用於虛擬/擴增實境的情境、或非接觸式(touchless)操作情境下的基於手勢之文字輸入系統及方法。

近年來，虛擬實境裝置或擴增實境裝置已被運用在諸多領域中且其應用價值已受到相當之肯定，這些領域橫跨了科學視算(scientific visualization)、醫學、軍事訓練、工程設計及原型設計(prototyping)、遙控操作(tele-manipulation)及遙現(tele-presence)、以及個人娛樂系統。

擴增實境一般係指將擴增的內容(例如：二維(two-dimensional，3D)或三維(three-dimensional，3D)內容、文字、以及虛擬物件等)疊加到周遭真實世界的畫面。換句話說，擴增實境裝置所顯示的是被擴增的視圖，也就是真實世界的畫面再加上虛擬的二維或三維內容。

相較之下，虛擬實境一般係指呈現一個完全虛擬的二維或三維環境以取代周遭的真實世界。目前已有許多基於手機的虛擬實境裝置以頭戴式顯示器的方式實作，將手機螢幕固定在使用者的視線方向、並置於頭戴式顯示器的透鏡後方，使得使用者在其視域僅能看見手機螢幕所顯示的虛擬畫面，藉此提供廣角的視覺呈現效果。

雖然虛擬實境或擴增實境技術可以提供更直接的人機互動方式，但是要在虛擬/擴增實境的情境下進行文字輸入卻有其難度。在現行技術中，較為常見的文字輸入方式是採用語音辨識，然而，在不方便說話的場合、或輸入內容包括特殊符號或多國文字的情況下，並不適用語音輸入的方式。相較之下，傳統的打字輸入方式則需要使用額外的控制器或實體鍵盤才能在虛擬/擴增實境中實現，然而，需要配備或攜帶額外的裝置實際上並不符合擴增實境的情境。

為了解決上述問題，本申請提供了一種基於手勢之文字輸入系統及方法，讓使用者在虛擬/擴增實境的情境、或非接觸式操作情境下能夠透過手勢來實現打字輸入。

本申請之一實施例提供了一種基於手勢之文字輸入系統，其包括一攝像裝置、一控制器、以及一顯示裝置。上述攝像裝置係用以擷取一使用者之一手掌在一視野範圍中之一影像。上述控制器係用以分析上述影像以決定上述手掌在上述視野範圍中之一位置以及上述手掌之一手指呈現彎曲狀態，根據上述位置以及上述手指決定一虛擬鍵盤中之一列以及一行，以及根據上述列與上述行所對應到之一文字產生一輸入訊號。上述顯示裝置係用以根據上述輸入訊號顯示上述文字。

上述控制器還可進一步決定上述視野範圍之一部分區域，且上述位置係指上述手掌在上述部分區域內之位置。

本申請之另一實施例提供了一種基於手勢的文字輸入方法，包括以下步驟：透過一攝像裝置擷取一使用者之一手掌在一視野範圍中之一影像；分析上述影像以決定上述手掌在上述視野範圍中之一位置以及上述手掌之一手指呈現彎曲狀態；根據上述位置以及上述手指決定一虛擬鍵盤中之一列與一行；以及透過一顯示裝置顯示上述列與行所對應之一文字。

較佳的情況是，上述列係根據上述手掌在上述視野範圍中之一高度來決定，上述行係根據上述手指在上述手掌之所有手指中之一序位來決定。

上述顯示裝置還可進一步顯示上述虛擬鍵盤，其中上述虛擬鍵盤中之上述列係以浮空強調顯示，上述列中之上述行係以不同於其他行之一顏色強調顯示。

上述虛擬鍵盤可顯示於上述顯示裝置之一顯示畫面中之一下方區域。

上述基於手勢的文字輸入方法還可進一步包括：決定上述視野範圍之一部分區域，其中上述位置係指上述手掌在上述部分區域內之位置。

關於本申請其他附加的特徵與優點，此領域之熟習技術人士，在不脫離本申請之精神和範圍內，當可根據本案實施方法中所揭露之基於手勢的文字輸入系統及方法做些許的更動與潤飾而得到。

100‧‧‧基於手勢之文字輸入系統

10‧‧‧顯示裝置

20‧‧‧攝像裝置

30‧‧‧控制器

40‧‧‧儲存裝置

202‧‧‧前方下部

204、302‧‧‧前方中央部

206‧‧‧托架部分

208、304‧‧‧前方上部

306‧‧‧基座部位

第1圖係根據本申請一實施例所述基於手勢之文字輸入系統之架構圖。

第2圖係根據本申請一實施例所述基於手勢之文字輸入系統100之外觀示意圖。

第3圖係根據本申請另一實施例所述基於手勢之文字輸入系統100之外觀示意圖。

第4圖係根據第2圖之實施例所述基於手勢之文字輸入系統100之應用示意圖。

第5圖係根據本申請另一實施例所述之手勢判斷區域之設定示意圖。

第6圖係根據第3圖之實施例所述基於手勢之文字輸入系統100之應用示意圖。

本章節所敘述的是實施本申請之最佳方式，目的在於說明本申請之精神而非用以限定本申請之保護範圍，當可理解的是，使用於本說明書中的「包含」、「包括」等詞，係用以表示存在特定的技術特徵、數值、方法步驟、作業處理、元件以及/或組件，但並不排除可加上更多的技術特徵、數值、方法步驟、作業處理、元件、組件，或以上的任意組合。

第1圖係根據本申請一實施例所述基於手勢之文字輸入系統之架構圖。基於手勢之文字輸入系統100包括顯示裝置10、攝像裝置20、控制器30、以及儲存裝置40。

顯示裝置10主要負責顯示視覺內容(visual content)，舉例來說，視覺內容可包括影像、文字(如：數字、符號、字元)等。

在一實施例，基於手勢之文字輸入系統100可為一頭戴式的虛擬/擴增實境裝置，而顯示裝置10可包括光學引擎與透視光學元件(see-through optics)，其中光學引擎可將虛擬內容投影到透視光學元件上進行顯示。光學引擎可包括一或多個投影機，例如：奈米投影機、微型投影機(pico/micro/femto-projector)、雷射投影機、全像(holographic)投影機等。透視光學元件亦可稱為光學組件，其可包括一反射鏡以及至少一透鏡(例如可包括一光波導透鏡以及附著於該光波導透鏡之一透明校正透鏡)。無論光學引擎是開啟或關閉，穿戴者都能透過透視光學元件中的透鏡清楚地觀看到周遭環境的場景。

在另一實施例，基於手勢之文字輸入系統100可為一智慧型電視，而顯示裝置10可為液晶顯示器(Liquid-Crystal Display，LCD)、發光二極體(Light-Emitting Diode，LED)顯示器、有機發光二極體顯示器(Organic LED，OLED)、電子紙顯示器(Electronic Paper Display，EPD)、或陰極射線管(Cathode Ray Tube，CRT)顯示器等。

攝像裝置20主要負責擷取在其視野範圍(Field Of View，FOV)中之影像，特別是，用以擷取使用者手勢之影像。明確來說，使用者手勢主要由使用者的單手或雙手手掌所形成，例如：任一手掌的每支手指呈現伸直或彎曲狀態。

控制器30可為通用處理器、微處理器(Micro Control Unit，MCU)、應用處理器(Application Processor，AP)、數位訊號處理器(Digital Signal Processor，DSP)、圖形處理器(Graphics Processing Unit，GPU)、或全像處理器 (Holographic Processing Unit，HPU)、或上述處理器之任意組合，其可包括各式電路邏輯，用以：提供數據處理與影像分析之運算功能、傳送幀(frame)資料(如：代表文字訊息、圖形、或影像之資料)至顯示裝置10、從攝像裝置20接收影像數據、以及從儲存裝置40讀取或儲存數據。

特別是，控制器30係用以協調顯示裝置10、攝像裝置20、以及儲存裝置40之運作，以執行本申請的基於手勢之文字輸入方法。

該領域之熟習技藝人士當可理解，控制器30中的電路邏輯通常可包括多個電晶體，用以控制該電路邏輯之運作以提供所需之功能及作業。更進一步的，電晶體的特定結構及其之間的連結關係通常是由編譯器所決定，例如：暫存器轉移語言(Register Transfer Language，RTL)編譯器可由處理器所運作，將類似組合語言碼的指令檔(script)編譯成適用於設計或製造該電路邏輯所需之形式。

儲存裝置40為非暫態(non-transitory)之電腦可讀取儲存媒體，包括：記憶體(如：快閃記憶體、非揮發性隨機存取記憶體(Non-volatile Random Access Memory，NVRAM))、或磁性儲存裝置(如：硬碟、磁帶)、或光碟、或上述媒體之任意組合，其主要用以儲存包括：幀資料、電腦可讀取及執行之指令或程式碼(包括：應用/通訊協定之程式碼、以及/或本申請的基於手勢之文字輸入方法的程式碼)在內之數據。

當可理解的是，第1圖所示之元件僅用以提供一說明之範例，並非用以限制本申請之保護範圍。在另一實施例，基於手勢之文字輸入系統100還可包括其他元件，例如：一或多個按鈕、麥克風、喇叭、電源供應器、無線通訊裝置、以及/或全球定位系統(Global Positioning System，GPS)等。按鈕、麥克風、以及喇叭可用以提供人機操作介面(Man-Machine Interface，MMI)。電源供應器可為一可攜式/可替換的充電電池，用以負責提供電力。無線通訊裝置可包括藍芽或無線保真(Wireless Fidelity，WiFi)技術之晶片，用以提供與其他通訊裝置(如：智慧型手機或平板電腦)之間進行短距無線通訊之功能。全球定位系統可提供基於手勢之文字輸入系統100之位置資訊，以用於行動定位服務/應用。

第2圖係根據本申請一實施例所述基於手勢之文字輸入系統100之外觀示意圖。在此實施例，本申請之基於手勢之文字輸入系統100係實作為一虛擬/擴增實境之眼鏡或頭戴組。

如第2圖所示，顯示裝置10係布置於眼鏡/頭戴組的前方下部202，影像可投影在顯示裝置10的透鏡部件。攝像裝置20係布置於眼鏡/頭戴組的前方中央部204。基於手勢之文字輸入系統100的其餘元件，諸如：控制器30以及儲存裝置40可嵌入在眼鏡/頭戴組的托架部分206、前方上部208、或其餘未被使用的部分。

第3圖係根據本申請另一實施例所述基於手勢之文字輸入系統100之外觀示意圖。在此實施例，本申請之基於手勢之文字輸入系統100係實作為一智慧型電視。

如第3圖所示，顯示裝置10係布置於智慧型電視的前方中央部302，攝像裝置20係布置於智慧型電視的前方上部304。基於手勢之文字輸入系統100的其餘元件，諸如：控制器30以及儲存裝置40可嵌入在智慧型電視的基座部位306、背部、或其餘未被使用的部分。

第4圖係根據第2圖之實施例所述基於手勢之文字輸入系統100之應用示意圖。在此實施例，本申請之基於手勢之文字輸入系統100係實作為如第2圖所示之一虛擬/擴增實境之眼鏡或頭戴組。

首先，使用者將雙手舉起至眼鏡或頭戴組的前方，位於攝像裝置20的視野範圍中，讓攝像裝置20能夠擷取使用者手掌之影像。

在一較佳實施例，使用者的雙手係以手背朝向眼鏡或頭戴組，並且微微張開手掌，使得每支手指清晰分明，以利攝像裝置20擷取到清楚的手掌位置及動作。

接著，控制器30分析攝像裝置20所擷取的影像以決定兩個手掌在攝像裝置20的視野範圍中之位置以及每個手掌的哪一支手指呈現彎曲狀態，其中手掌的位置可以是以手掌心的中心位置為準，且位置資訊包含手掌在攝像裝置20的視野範圍中的高度資訊。

然後，控制器30根據每個手掌的高度分別決定對應到虛擬鍵盤中之哪一列(row)，並根據彎曲的手指在一手掌之所有手指中之序位來決定對應到虛擬鍵盤中之哪一行(column)。也就是說，每個手掌及其彎曲之手指皆對應到一特定的列與行。在一實施例，虛擬鍵盤中的文字排列方式可使用與實體鍵盤相同的排列方式。

明確來說，可先將攝像裝置20的視野範圍的總高度劃分為4等分、將總長度劃分為左右2等分，其中每個高度的等分由上而下分別對應到虛擬鍵盤中之一到四列，而視野範圍的左半部用以定位左手掌的位置，右半部用以定位右手掌的位置。另外，每個手掌的5支手指可由左而右依序設定其序位為1~5。

如第4圖所示，使用者的左手掌位於視野範圍的左半部中由上而下的第2等分，且左手拇指呈現彎曲狀態，因此，左手掌的整體手勢即對應到虛擬鍵盤的第2列、第5行的文字「T」。同時，使用者的右手掌位於視野範圍的右半部中由上而下的第4等分，且右手食指呈現彎曲狀態，因此，右手掌的整體手勢即對應到虛擬鍵盤的第4列、第2行的文字「M」。

或者，在另一實施例，亦可將判斷手勢的區域設定為小於攝像裝置20的視野範圍，如第5圖所示，判斷手勢的區域(圖中標示為R)可以是長度相同於攝像裝置20的視野範圍(圖中標示為L)，但高度則為攝像裝置20的視野範圍(圖中標示為L)的一定比例，如：2/3。如此一來，使用者就可以不用把手掌舉太高，即以較短的高度來劃分為4等分以對應到虛擬鍵盤的列數。以第5圖的手勢判斷區域為例，使用者只須要把手掌舉高到攝像裝置20的視野範圍的60%高度就可以操作到虛擬鍵盤的最上列，相較之下，在第4圖之實施例中，使用者則必須要把手掌舉高到攝像裝置20的視野範圍的90% 高度才可以操作到虛擬鍵盤的最上列。

更進一步地，在另一實施例，如果4*10的按鍵數量仍不敷使用(例如：除了英文字母以外還要輸入多種特殊符號、或者要進行中文輸入)，則可將手勢判斷區域的高度化分為5等分或6等分，端視文字總數的多寡而定。舉例來說，中文輸入至少需要37個代表注音符號的按鍵，再加上代表5聲調的按鍵，所以需要5*10的按鍵數量。

值得注意的是，為了提供使用者足夠的提示，顯示裝置10還可在顯示畫面的下方區域顯示一虛擬鍵盤的影像，如第4圖所示，其中虛擬鍵盤的左半部第二列以及右半部第四列係以浮空強調顯示，而左半部第二列中第五行、以及右半部第四列中第二行的文字係以跳色強調顯示。所述跳色係指不同於其他行的顏色，例如：其他行的顏色為白色，而跳色可為灰色、紅色等非白色之顏色。或者，在另一實施例，亦可選擇不顯示虛擬鍵盤的影像。

最後，顯示裝置10在顯示畫面中顯示手勢所對應之文字，如第4圖所示，左手手勢的輸入文字是「T」，右手手勢的輸入文字是「M」。

當可理解的是，雖然第4圖係顯示以雙手操作進行文字輸入，然而，在另一實施例，使用者亦可選擇以單手進行文字輸入。

第6圖係根據第3圖之實施例所述基於手勢之文字輸入系統100之應用示意圖。在此實施例，本申請之基於手勢之文字輸入系統100係實作為如第3圖所示之一智慧型電視。

基本上，使用者的手勢操作方式與第4圖之實施例所述相仿，差別在於本實施例中的使用者係面對智慧型電視，也就是說，使用者的雙手係以手心朝向智慧型電視的攝像裝置20，因此，攝像裝置20所擷取到的影像必須先經過鏡像處理，方能在智慧型電視的顯示裝置10上呈現影像時是採用與使用者相同的視角。

在另一實施例，本申請所述的手勢之文字輸入系統100亦可以分散式系統架構來實現，舉例來說，攝像裝置20、控制器30、以及儲存裝置40可以實作為一多媒體機上盒，而多媒體機上盒可再耦接到一外部之顯示裝置，如：電腦螢幕或一般的電視機，由外部之顯示裝置來提供顯示之功能。

根據上述第4、6圖之實施例，當可理解的是，本申請所提出的基於手勢之文字輸入方法能夠讓使用者在虛擬/擴增實境的情境、或非接觸式操作情境下透過手勢來實現打字輸入，其優點是，在不方便說話的場合、或輸入內容包括特殊符號或多國文字的情況下，都能輕鬆滿足使用者在文字輸入的需求。

本申請雖以各種實施例揭露如上，然而其僅為範例參考而非用以限定本申請的範圍，任何熟習此項技藝者，在不脫離本申請之精神和範圍內，當可做些許的更動與潤飾。因此上述實施例並非用以限定本申請之範圍，本申請之保護範圍當視後附之申請專利範圍所界定者為準。

Claims

一種基於手勢之文字輸入系統，包括：一攝像裝置，用以擷取一使用者之一手掌在一視野範圍(Field Of View，FOV)中之一影像；一控制器，用以分析上述影像以決定上述手掌在上述視野範圍中之一位置以及上述手掌之一手指呈現彎曲狀態，根據上述位置以及上述手指決定一虛擬鍵盤中之一列(row)以及一行(column)，以及根據上述列與行所對應到之一文字(text)產生一輸入訊號；以及一顯示裝置，用以根據上述輸入訊號顯示上述文字。
如申請專利範圍第1項所述之基於手勢之文字輸入系統，其中上述控制器更根據上述手掌在上述視野範圍中之一高度來決定上述列，以及根據上述手指在上述手掌之所有手指中之一序位來決定上述行。
如申請專利範圍第1項所述之基於手勢之文字輸入系統，其中上述顯示裝置更顯示上述虛擬鍵盤，且上述虛擬鍵盤中之上述列係以浮空強調顯示，上述列中之上述行係以不同於其他行之一顏色強調顯示。
如申請專利範圍第3項所述之基於手勢之文字輸入系統，其中上述虛擬鍵盤係顯示於上述顯示裝置之一顯示畫面中之一下方區域。
如申請專利範圍第1項所述之基於手勢之文字輸入系統，其中上述控制器更決定上述視野範圍之一部分區域，且上述位置係指上述手掌在上述部分區域內之位置。
一種基於手勢的文字輸入方法，包括：透過一攝像裝置擷取一使用者之一手掌在一視野範圍中之一影像；分析上述影像以決定上述手掌在上述視野範圍中之一位置以及上述手掌之一手指呈現彎曲狀態；根據上述位置以及上述手指決定一虛擬鍵盤中之一列與一行；以及透過一顯示裝置顯示上述列與行所對應之一文字。
如申請專利範圍第6項所述之基於手勢的文字輸入方法，其中上述列係根據上述手掌在上述視野範圍中之一高度來決定，上述行係根據上述手指在上述手掌之所有手指中之一序位來決定。
如申請專利範圍第6項所述之基於手勢的文字輸入方法，更包括：透過上述顯示裝置顯示上述虛擬鍵盤，其中上述虛擬鍵盤中之上述列係以浮空強調顯示，上述列中之上述行係以不同於其他行之一顏色強調顯示。
如申請專利範圍第8項所述之基於手勢的文字輸入方法，其中上述虛擬鍵盤係顯示於上述顯示裝置之一顯示畫面中之一下方區域。
如申請專利範圍第6項所述之基於手勢的文字輸入方法，更包括：決定上述視野範圍之一部分區域，其中上述位置係指上述手掌在上述部分區域內之位置。