TW202347267A - 用於智慧眼鏡之手語偵測 - Google Patents
用於智慧眼鏡之手語偵測 Download PDFInfo
- Publication number
- TW202347267A TW202347267A TW112103992A TW112103992A TW202347267A TW 202347267 A TW202347267 A TW 202347267A TW 112103992 A TW112103992 A TW 112103992A TW 112103992 A TW112103992 A TW 112103992A TW 202347267 A TW202347267 A TW 202347267A
- Authority
- TW
- Taiwan
- Prior art keywords
- gesture
- image
- user
- meaning
- interlocutor
- Prior art date
Links
- 239000004984 smart glass Substances 0.000 title abstract description 37
- 238000001514 detection method Methods 0.000 title description 6
- 238000000034 method Methods 0.000 claims abstract description 36
- 230000015654 memory Effects 0.000 claims abstract description 28
- 230000003287 optical effect Effects 0.000 claims abstract description 8
- 238000004891 communication Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 2
- 238000013518 transcription Methods 0.000 claims description 2
- 230000035897 transcription Effects 0.000 claims description 2
- 238000004590 computer program Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000013500 data storage Methods 0.000 description 4
- 230000001771 impaired effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 3
- 210000000707 wrist Anatomy 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 210000000038 chest Anatomy 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 210000002414 leg Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 210000002832 shoulder Anatomy 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 210000003371 toe Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/017—Head mounted
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/1613—Constructional details or arrangements for portable computers
- G06F1/163—Wearable computers, e.g. on a belt
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/0304—Detection arrangements using opto-electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/009—Teaching or communicating with deaf persons
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/0101—Head-up displays characterised by optical features
- G02B2027/0138—Head-up displays characterised by optical features comprising image capture systems, e.g. camera
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/0179—Display position adjusting means not related to the information to be displayed
- G02B2027/0187—Display position adjusting means not related to the information to be displayed slaved to motion of at least a part of the body of the user, e.g. head, eye
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Optics & Photonics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- User Interface Of Digital Computer (AREA)
- Position Input By Displaying (AREA)
Abstract
本發明提供一種用於在一沉浸式實境環境中併入語音辨識之智慧眼鏡。該智慧眼鏡包括一目鏡,其安裝於一框架上,該目鏡包括一透明光學組件以為一使用者提供一真實世界中之一場景之一視圖。該智慧眼鏡亦包括一第一相機,其經組態以自真實世界中之一對話者捕捉一手勢之一影像;及一處理器,其經組態以在該手勢之該影像中辨識一文字含義。亦提供一種包括儲存指令之記憶體及用以執行該等指令以執行用於使用該上述智慧眼鏡的方法之處理器之系統及該等方法。
Description
本發明係關於容許語言受損使用者與他人順暢地通信之智慧眼鏡。更具體言之,如本文中所揭露之具體實例係關於包括手語偵測能力之智慧眼鏡。
相關申請案之交叉參考
本發明根據35 U.S.C. §119(e)而關於且主張2022年2月4日申請之名稱為用於受損使用者或具備殘疾的使用者之智慧眼鏡及VR/AR裝置中之介面(INTERFACE IN SMART GLASSES AND VR/AR DEVICES FOR IMPAIRED USERS OR USERS WITH DISABILITIES)之美國臨時申請案第63/306,854號,2022年3月25日申請之名稱為用於受損使用者或具備殘疾的使用者之智慧眼鏡及VR/AR裝置中之介面(INTERFACE IN SMART GLASSES AND VR/AR DEVICES FOR IMPAIRED USERS OR USERS WITH DISABILITIES)之美國臨時申請案第63/323,901號,2022年6月2日申請之名稱為用於智慧眼鏡之手語偵測(SIGN LANGUAGE DETECTION FOR SMART GLASSES)之美國臨時申請案第63/348,392號及2023年2月2日申請之名稱為用於智慧眼鏡之手語偵測(SIGN LANGUAGE DETECTION FOR SMART GLASSES)之美國非臨時申請案第18/163,420號之優先權,所有申請案屬於Johana Gabriela Coyoc ESCUDERO
等人,該等申請案之內容出於所有目的以全文引用之方式併入下文中。
在穿戴式裝置之領域中,在假設具備殘疾的使用者涵蓋較小部分的市場之情況下,具備殘疾的使用者受到極少關注。然而,添加幫助具有特定需要之使用者的技術特徵可打開一般公眾可受益之新應用。在語言受損之使用者的情況下,手語偵測提供具挑戰性命題,此係因為需要具有高解析度(例如,影像辨識中之數毫米誤差可使努力毫無意義)且以相對較高步調(至少以可接受之交談式速度)之複雜三維圖案辨識。雖然在當前技術中不可能達成此等特徵,但其實施將不僅為了語言受損之使用者而且為公眾打開新的可能性。
在第一具體實例中,一種電腦實施方法包括利用安裝於頭戴裝置上之相機自對話者捕捉手勢之影像;在手勢之影像中辨識來自對話者之文字含義;及將來自對話者之文字含義提供至頭戴裝置之使用者。
在第二具體實例中,一種頭戴裝置包括:目鏡,其安裝於框架上,該目鏡包括允許使用者查看真實世界中之場景之透明光學組件;第一相機,其經組態以自真實世界中之對話者捕捉手勢之影像;及處理器,其經組態以自手勢之影像辨識文字含義。
在第三具體實例中,一種非暫時性電腦可讀媒體儲存指令,該等指令在由處理器執行時使得電腦執行一方法,該方法包括利用安裝於頭戴裝置上之相機自對話者捕捉手勢之影像;在手勢之影像中辨識來自對話者之文字含義;及將來自對話者之文字含義提供至頭戴裝置之使用者。
在又其他具體實例中,一種系統包括用以儲存指令之第一構件及用以執行指令且使得系統執行一方法之第二構件,該方法包括利用安裝於頭戴裝置上之相機自對話者捕捉手勢之影像;在手勢之影像中辨識來自對話者之文字含義;及將來自對話者之文字含義提供至頭戴裝置之使用者。
此等及其他具體實例將鑒於下文而由所屬領域中具通常知識者識別。
在以下實施方式中,闡述眾多特定細節以提供對本發明之充分理解。然而,所屬技術領域中具有通常知識者將顯而易見,可在不具有一些此等特定細節之情況下實踐本發明之具體實例。在其他情況下,未詳細展示熟知結構及技術以免混淆本發明。
具有語音及聽力殘疾之使用者通常被諸如用於沉浸式實境應用之網路化穿戴式裝置的電子電器市場排除在外。此主要歸因於使此等裝置達至此類使用者之需要的速度所涉及的挑戰,諸如辨識、解譯及轉譯即時對話或沉浸式實境情形之較大集合之錯綜複雜之手勢的能力。
如本文中所揭露之具體實例提供對用於沉浸式實境應用之網路化穿戴式裝置的領域中產生之上述技術問題的技術解決方案。為此,一些具體實例使用安裝於頭戴裝置或智慧眼鏡上之多個感測器來捕捉手勢之二維或三維影像。另外,一些具體實例利用快速網路連接策略以及配對的行動裝置及網路化伺服器以提供快速影像收集、處理及回應能力來解決上述技術問題。
例示性系統架構
圖1繪示根據一些具體實例之架構10,其包括彼此耦接之一或多個穿戴式裝置(智慧眼鏡100及腕帶裝置105)、行動裝置110、遠端伺服器130及資料庫152之。行動裝置110可為智慧手機,以上所有裝置可經由無線通信彼此通信且交換第一資料集103-1。資料集103-1可包括所記錄視訊、音訊或一些其他檔案或串流媒體。使用者101亦為所有者或與行動裝置110相關聯。
行動裝置110可經由網路150與遠端伺服器130及資料庫152通信地耦接,且彼此傳輸/共用資訊、檔案及其類似者(例如,資料集103-2及103-3)。
在一些具體實例中,智慧眼鏡100可包括安裝於框架109內之諸如慣性量測單元(inertial measurement unit;IMU)、陀螺儀的感測器121、麥克風/揚聲器124、相機125及其類似者。可包括於穿戴式裝置(例如,智慧眼鏡100、腕帶105及其類似者)中之其他感測器121可為磁力計、光電二極體、觸控感測器及諸如電容感測器之其他電磁裝置、壓力感測器及其類似者。在一些具體實例中,智慧眼鏡100可包括在至少一個目鏡106上的顯示器107以將表達來自對話者之語音之模型手勢提供至使用者101。
另外,智慧眼鏡100或腕帶105及任何其他穿戴式裝置、行動裝置110、伺服器130及資料庫152可包括儲存指令之記憶體電路120及處理器電路112,該處理器電路經組態以執行指令以使得智慧眼鏡100至少部分地執行與本發明一致的方法中之一些步驟。在一些具體實例中,記憶體120儲存針對用於具備聽力殘疾的人之文字含義所辨識的多個手勢。
在一些具體實例中,智慧眼鏡100、腕帶或穿戴式裝置105、行動裝置110、伺服器130及/或資料庫152可進一步包括通信模組118,其使得裝置能夠經由網路150與遠端伺服器130無線地通信。智慧眼鏡100可因此自遠端伺服器130下載多媒體線上內容(例如,資料集103-1),以至少部分地執行如本文中所揭露之方法中的一些操作。網路150可包括例如區域網路(local area network;LAN)、廣域網路(wide area network;WAN)、網際網路及其類似者中之任何一或多者。此外,網路可包括但不限於以下網路拓樸中之任何一或多者,包括匯流排網路、星形網路、環形網路、網狀網路、星形匯流排網路、樹或階層式網路及其類似者。
圖2繪示根據一些具體實例之智慧眼鏡200,其包括至少兩個相機225-1及225-2(下文中,統稱為「相機225」)以捕捉且解譯由對話者202做出之一連串手勢20,以為使用者提供文字內容230。在一些具體實例中,第二相機225-2經組態以自相對於相機225-1之不同視角捕捉對話者202之手勢20的第二影像。經由智慧眼鏡200之目鏡206-1及206-2(下文中,統稱為「目鏡206」)中之一者中的顯示器207提供文字內容230。目鏡206安裝於框架209上。各目鏡206包括透明光學組件以允許使用者查看真實世界中之場景。記憶體120儲存指令,處理器112執行該等指令以執行與本發明一致的方法中之至少一或多個步驟。在一些具體實例中,處理器112可使用來自相機225之立體視圖產生手勢20之三維(3D)重構。因此,處理器112可經組態以在手勢20之影像中辨識文字含義。在一些具體實例中,智慧眼鏡200包括通信模組118,其經組態以藉由使用者將手勢之影像傳輸至行動裝置(參見行動裝置110)。
圖3繪示根據一些具體實例之智慧眼鏡300,其包括至少兩個相機325-1及325-2(下文中,統稱為「相機325」)以捕捉且解譯由對話者302做出之一連串手勢20,以為使用者提供音訊內容334。在一些具體實例中,相機225-2經組態以自與相機325-1不同之視角捕捉手勢20之第二影像以具有立體視圖。經由安裝於智慧眼鏡300之框架309上的揚聲器324提供音訊內容334。
智慧眼鏡300包括安裝於框架309上之一或多個目鏡306-1及306-2(下文中,統稱為「目鏡306」)。各目鏡306包括透明光學組件以允許使用者查看真實世界中之場景。智型眼鏡300亦包括經組態以在手勢20之影像中辨識文字含義之處理器112。記憶體120儲存指令,處理器112執行該等指令以執行與本發明一致的方法中之至少一或多個步驟。舉例而言,在一些具體實例中,處理器112可基於由相機325提供之立體視圖而產生手勢20之3D模型。在一些具體實例中,智慧眼鏡300包括通信模組118,該通信模組經組態以藉由使用者將手勢20之影像或立體視圖傳輸至行動裝置(參見行動裝置310)。揚聲器324經組態以回應於自處理器112得出的手勢20之文字含義而將音訊內容334提供至使用者。
圖4為繪示根據一些具體實例之用於將語音辨識併入沉浸式實境環境中之方法400中的步驟之流程圖。在一些具體實例中,方法400中之步驟中之至少一或多者可藉由處理器執行,該處理器執行儲存在智慧眼鏡或使用者之身體部位(例如,頭、手臂、手腕、腿、腳踝、手指、腳趾、膝部、肩部、胸部、背部及其類似者)上之其他穿戴式裝置中的任一者中之記憶體中的指令。在一些具體實例中,方法400中之步驟中之至少一或多者可藉由執行儲存於記憶體中的指令之處理器執行,其中處理器或記憶體或兩者經由網路彼此通信地耦接之用於使用者之行動裝置、遠端伺服器或資料庫的部分。此外,行動裝置、智慧眼鏡及穿戴式裝置可經由無線通信系統及協定(例如,無線電、Wi-Fi、藍牙、近場通信-NFC-及其類似者)彼此通信地耦接。在一些具體實例中,與本發明一致之方法可包括來自方法400之一或多個步驟,該一或多個步驟按任何次序、同時、半同時或在時間上重疊地執行。
步驟402包括利用安裝於頭戴裝置上之相機自對話者捕捉手勢之影像。在一些具體實例中,步驟402包括經由頭戴裝置中之使用者介面自頭戴裝置之使用者接收手勢辨識能力之激活。在一些具體實例中,步驟402包括捕捉手勢之立體影像。在一些具體實例中,步驟402包括利用安裝於頭戴裝置上之相機自使用者捕捉手勢之影像。在一些具體實例中,步驟402包括自來自相機之立體視圖形成手勢的三維模型。
步驟404包括在手勢之影像中辨識來自對話者的文字含義。在一些具體實例中,步驟404包括自用於聽力及話音受損人之一組標準手勢識別手勢。在一些具體實例中,步驟404包括基於影像而形成手勢之三維表示。在一些具體實例中,步驟404包括在來自使用者之手勢的影像中辨識來自使用者之文字含義。在一些具體實例中,步驟406包括在手勢之影像中辨識指示對話者之心態的背景性含義。
步驟406包括將來自對話者之文字含義提供至頭戴裝置之使用者。在一些具體實例中,步驟406包括在頭戴裝置中之顯示器上為頭戴裝置之使用者顯示文字含義。在一些具體實例中,步驟406包括經由麥克風將文字含義之音訊轉錄提供至使用者。在一些具體實例中,步驟406包括將來自使用者之文字含義提供至對話者。
硬體概述
圖5為繪示根據一些具體實例之可實施頭戴裝置及其他用戶端裝置110及方法400之例示性電腦系統500的方塊圖。在某些態樣中,電腦系統500可使用在專屬伺服器中或整合至另一實體中或跨多個實體而分佈的硬體或軟體與硬體之組合來實施。電腦系統500可包括桌上型電腦、膝上型電腦、平板電腦、平板手機、智慧型手機、功能型手機(feature phone)、伺服器電腦或其他。伺服器電腦可遠端地位於資料中心或在本端儲存。
電腦系統500包括用於通信資訊之匯流排508或其他通信機制及與匯流排508耦接以用於處理資訊之處理器502(例如,處理器212)。舉例而言,電腦系統500可由一或多個處理器502實施。處理器502可為通用微處理器、微控制器、數位信號處理器(Digital Signal Processor;DSP)、特殊應用積體電路(Application Specific Integrated Circuit;ASIC)、場可程式化閘陣列(Field Programmable Gate Array;FPGA)、可程式化邏輯裝置(Programmable Logic Device;PLD)、控制器、狀態機、閘控邏輯、離散硬體組件或可執行資訊之計算或其他操控的任何其他適合的實體。
除硬體以外,電腦系統500可包括為所討論之電腦程式創建執行環境的程式碼,例如,構成處理器韌體、協定堆迭、資料庫管理系統、作業系統或儲存於所包括記憶體504(例如,記憶體220)中之前述各者中之一或多者的組合之程式碼,所包括記憶體諸如隨機存取記憶體(Random Access Memory;RAM)、快閃記憶體、唯讀記憶體(Read-Only Memory;ROM)、可程式化唯讀記憶體(Programmable Read-Only Memory;PROM)、可抹除PROM(Erasable PROM;EPROM)、暫存器、硬碟、可移磁碟、CD-ROM、DVD或任何其他適合的儲存裝置,其耦接匯流排508以用於儲存待由處理器502執行的資訊及指令。處理器502及記憶體504可由專用邏輯電路補充或併入於專用邏輯電路中。
指令可儲存在記憶體504中,且根據所屬技術領域中具有通常知識者熟知之任何方法在例如電腦可讀媒體上編碼之電腦程式指令的一或多個模組的一或多個電腦程式產品中實施以供電腦系統500執行或控制該電腦系統之操作,該等指令包括但不限於諸如以下之電腦語言:資料導向語言(例如,SQL、dBase)、系統語言(例如,C、Objective-C、C++、彙編)、架構語言(例如,Java、.NET)及應用語言(例如,PHP、Ruby、Perl、Python)。指令亦可以電腦語言實施,諸如陣列語言、特性導向語言、彙編語言、製作語言、命令行介面語言、編譯語言、並行語言、波形括號語言、資料流語言、資料結構式語言、宣告式語言、深奧語言、擴展語言、第四代語言、函數語言、互動模式語言、解譯語言、反覆語言、串列為基的語言、小語言、以邏輯為基的語言、機器語言、巨集語言、元程式設計語言、多重範型語言(multiparadigm language)、數值分析、非英語語言、基於物件導向分類之語言、基於物件導向原型之語言、場外規則語言、程序語言、反射語言、基於規則的語言、指令碼處理語言、基於堆疊的語言、同步語言、語法處置語言、視覺語言、沃思語言(wirth languages)及基於xml的語言。記憶體504亦可用於在待由處理器502執行之指令之執行期間儲存暫時性變數或其他中間資訊。
如本文中所論述之電腦程式未必對應於檔案系統中的檔案。可將程式儲存於保存其他程式或資料(例如,儲存於標示語言文件中之一或多個指令碼)之檔案的一部分中、儲存於專用於所討論程式之單一檔案中,或儲存於多個經協調檔案(例如,儲存一或多個模組、子程式或部分程式碼的檔案)中。電腦程式可經部署以在一個電腦上或在位於一個位點或跨多個位點分佈且由通信網路互連的多個電腦上執行。本說明書中所描述之過程及邏輯流程可由一或多個可程式化處理器執行,該一或多個可程式化處理器執行一或多個電腦程式以藉由對輸入資料進行操作且產生輸出來執行功能。
電腦系統500進一步包括諸如磁碟或光碟之資料儲存裝置506,其與匯流排508耦接以用於儲存資訊及指令。電腦系統500可經由輸入/輸出模組510耦接至各種裝置。輸入/輸出模組510可為任何輸入/輸出模組。例示性輸入/輸出模組510包括資料埠,諸如USB埠。輸入/輸出模組510經組態以連接至通信模組512。例示性通信模組512包括網路連接介面卡,諸如乙太網卡及數據機。在某些態樣中,輸入/輸出模組510經組態以連接至複數個裝置,諸如輸入裝置514及/或輸出裝置516。例示性輸入裝置514包括鍵盤及指標裝置,例如滑鼠或軌跡球,消費者可藉由該指標裝置將輸入提供至電腦系統500。其他種類之輸入裝置514亦可用於提供與消費者的互動,諸如觸覺輸入裝置、視覺輸入裝置、音訊輸入裝置或腦機介面裝置。舉例而言,提供給消費者之回饋可為任何形式之感測回饋,諸如視覺回饋、聽覺回饋或觸覺回饋;且可自消費者接收任何形式之輸入,包括聲輸入、語音輸入、觸覺輸入或腦波輸入。例示性輸出裝置516包括用於向消費者顯示資訊之顯示裝置,諸如液晶顯示(liquid crystal display;LCD)監視器。
根據本發明之一個態樣,可回應於處理器502執行記憶體504中所含有之一或多個指令的一或多個序列而至少部分地使用電腦系統500實施頭戴裝置及用戶端裝置110。此類指令可自另一機器可讀媒體(諸如資料儲存裝置506)讀取至記憶體504中。主記憶體504中所含有之指令序列的執行促使處理器502執行本文中所描述之過程步驟。呈多處理配置之一或多個處理器亦可用以執行記憶體504中所含有的指令序列。在替代態樣中,硬連線電路可代替軟體指令使用或與軟體指令組合使用,以實施本發明之各個態樣。因此,本發明的態樣不限於硬體電路系統及軟體之任何特定組合。
本說明書中所描述之主題的各種態樣可在計算系統中實施,該計算系統包括後端組件,例如資料伺服器,或包括中間軟體組件,例如應用伺服器,或包括前端組件,例如具有消費者可與本說明書中所描述之主題之實施方式互動所經由的圖形消費者介面或網路瀏覽器的用戶端電腦,或一或多個此類後端組件、中間軟體組件或前端組件的任何組合。系統之組件可藉由數位資料通信之任何形式或媒體(例如,通信網路)互連。通信網路可包括例如LAN、WAN、網際網路及其類似者中之任一或多者。另外,通信網路可包括但不限於例如以下網路拓樸中之任何一或多者,包括匯流排網路、星形網路、環形網路、網狀網路、星形匯流排網路、樹或階層式網路或其類似者。通信模組可例如為數據機或乙太網卡。
電腦系統500可包括用戶端及伺服器。用戶端及伺服器一般彼此遠離且通常經由通信網路進行互動。用戶端及伺服器之關係藉助於在各別電腦上運行且彼此具有主從式關係的電腦程式產生。電腦系統500可為例如但不限於桌上型電腦、膝上型電腦或平板電腦。電腦系統500亦可嵌入於另一裝置中,例如但不限於行動電話、PDA、行動音訊播放器、全球定位系統(Global Positioning System;GPS)接收器、視訊遊戲控制台及/或電視機上盒。
如本文中所使用之術語「機器可讀儲存媒體」或「電腦可讀媒體」係指參與將指令提供至處理器502以供執行之任何一或多個媒體。此媒體可呈許多形式,包括(但不限於)非揮發性媒體、揮發性媒體及傳輸媒體。非揮發性媒體包括例如光碟或磁碟,諸如資料儲存裝置506。揮發性媒體包括動態記憶體,諸如記憶體504。傳輸媒體包括同軸電纜、銅線及光纖,包括形成匯流排508之電線。機器可讀媒體之常見形式包括例如軟碟、軟性磁碟、硬碟、磁帶、任何其他磁性媒體、CD-ROM、DVD、任何其他光學媒體、打孔卡、紙帶、具有孔圖案之任何其他實體媒體、RAM、PROM、EPROM、FLASH EPROM、任何其他記憶體晶片或卡匣,或可供電腦讀取之任何其他媒體。機器可讀儲存媒體可為機器可讀儲存裝置、機器可讀儲存基板、記憶體裝置、影響機器可讀傳播信號之物質的組成物,或其中之一或多者的組合。
為繪示硬體與軟體之互換性,諸如各種說明性方塊、模組、組件、方法、操作、指令及演算法之項目已大體關於其功能性加以描述。將此類功能性實施為硬體、軟體抑或硬體與軟體之組合取決於外加在整個系統上之特定應用及設計約束。所屬技術領域中具有通常知識者可針對各特定應用以不同方式實施所描述功能性。
如本文中所使用,在一系列項目之前的藉由術語「及」或「或」分隔該等項目中之任一者的片語「中之至少一者」修飾清單整體,而非清單中之各成員(例如,各項目)。片語「中之至少一者」不需要選擇至少一個項目;相反,該片語允許包括該等項目中之任一者中之至少一者及/或該等項目之任何組合中之至少一者及/或該等項目中之各者中之至少一者之含義。舉例而言,片語「A、B及C中之至少一者」或「A、B或C中之至少一者」各自指僅A、僅B或僅C;A、B及C之任何組合;及/或A、B及C中之各者中的至少一者。
本文中所用的字語「例示性」意謂「充當實例、例子或說明」。在本文中描述為「例示性」之任何具體實例不應解釋為比其他具體實例較佳或有利。諸如一態樣、該態樣、另一態樣、一些態樣、一或多個態樣、一實施方式、該實施方式、另一實施方式、一些實施方式、一或多個實施方式、一具體實例、該具體實例、另一具體實例、一些具體實例、一或多個具體實例、一組態、該組態、另一組態、一些組態、一或多個組態、本發明技術、本發明(the disclosure/the present disclosure)、其其他變化及類似者之片語是為方便起見,且不暗示與此類片語相關之揭示內容對於本發明技術是必需的,亦不暗示此類揭示內容適用於本發明技術之所有組態。與此類片語相關之揭示內容可適用於所有組態或一或多個組態。與此類片語相關之揭示內容可提供一或多個實例。諸如一態樣或一些態樣之片語可指一或多個態樣且反之亦然,且此情況類似地適用於其他前述片語。
除非具體陳述,否則以單數形式對元件的提及並不意欲意謂「一個且僅一個」,而指「一或多個」。陽性代詞(例如,他的)包括陰性及中性性別(例如,她的及其)且反之亦然。術語「一些」係指一或多個。帶下劃線及/或斜體標題及子標題僅為了便利,而不限制本發明技術,且不結合本發明技術之描述的解釋予以參考。諸如第一及第二及其類似者之關係術語可用於區分一個實體或動作與另一實體或動作,而未必需要或意指此類實體或動作之間的任何實際此類關係或次序。所屬技術領域中具有通常知識者已知或稍後將知曉的貫穿本揭示而描述之各種組態之元件的所有結構及功能等效物係以引用方式明確地併入本文中,且意欲由本發明技術涵蓋。此外,本文所揭示之任何內容皆不意欲專用於公眾,無論在以上描述中是否明確地敍述此揭示。所主張的元件不應被解釋為依據35 U.S.C. §112第六段的規定,除非元件係明確地使用片語「用於...的構件」來敍述,或在方法技術方案的情況下,元件係使用片語「用於...的步驟」來敍述。
雖本說明書含有許多特殊性,但此等特殊性不應理解為對可能描述之內容的範疇之限制,而應理解為對主題之具體實施的描述。在個別具體實例之上下文中描述於本說明書中之某些特徵亦可在單一具體實例中以組合形式實施。相反,在單一具體實例之上下文中描述的各種特徵亦可在多個具體實例中分別或以任何合適子組合形式實施。此外,儘管上文可將特徵描述為以某些組合起作用且甚至最初按此來描述,但來自所描述組合之一或多個特徵在一些情況下可自該組合刪除,且所描述之組合可針對子組合或子組合之變化。
本說明書之主題已關於特定態樣加以描述,但其他態樣可經實施且在以下申請專利範圍之範疇內。舉例而言,儘管在圖式中以特定次序來描繪操作,但不應將此理解為需要以所展示之特定次序或以順序次序執行此等操作,或執行所有所繪示操作以達成合乎需要的結果。申請專利範圍中所陳述之動作可以不同次序執行且仍達成所需結果。作為一個實例,隨附圖式中描繪之過程未必需要展示之特定次序或順序次序以實現合乎需要之結果。在某些情形中,多任務及並行處理可為有利的。此外,不應將上文所描述之態樣中之各種系統組件的分離理解為在所有態樣中皆要求此分離,且應理解,所描述之程式組件及系統可大體一同整合於單個軟體產品或封裝至多個軟體產品中。
在此將標題、先前技術、圖式簡單說明、摘要及圖式併入本發明中且提供為本發明之說明性實例而非限定性描述。遵從以下理解:其將不用於限制申請專利範圍之範疇或含義。另外,在實施方式中可見,出於精簡本揭示內容之目的,本說明書提供說明性實例且在各種實施中將各種特徵分組在一起。然而,不應將本揭示方法解釋為反映以下意圖:相較於各技術方案中明確陳述之特徵,所描述之主題需要更多的特徵。實情為,如申請專利範圍所反映,本發明主題在於單個所揭示組態或操作之少於全部的特徵。申請專利範圍特此併入實施方式中,其中各技術方案就其自身而言作為分開描述之主題。
申請專利範圍並不意圖限於本文中所描述之態樣,而應符合與語言申請專利範圍一致之完整範疇且涵蓋所有法定等效物。儘管如此,申請專利範圍均不意欲涵蓋未能滿足可適用專利法之要求之主題,且亦不應以此方式解釋該等主題。
10:架構
20:手勢
100、200、300:智慧眼鏡
101:使用者
103-1、103-2、103-3:資料集
105:腕帶裝置
106、206、206-1、206-2、306、306-1、306-2:目鏡
107:顯示器
109、209、309:框架
110、310:行動裝置
112、502:處理器
118:通信模組
120、504:記憶體
121:感測器
124:麥克風/揚聲器
125:相機
130:遠端伺服器
150:網路
152:資料庫
202、302:對話者
207:顯示器
225、225-1、225-2、325、325-1、325-2:相機
230:文字內容
324:揚聲器
334:音訊內容
400:方法
402、404、406:步驟
500:電腦系統
506:資料儲存裝置
508:匯流排
510:輸入/輸出模組
512:通信模組
514:輸入裝置
516:輸出裝置
[圖1]繪示根據一些具體實例之包括架構,該架構包括彼此耦接之一或多個穿戴式裝置、行動裝置、遠端伺服器及資料庫。
[圖2]繪示根據一些具體實例之智慧眼鏡,其包括至少兩個相機以捕捉且解譯由對話者做出的一連串手勢,以為使用者提供文字內容。
[圖3]繪示根據一些具體實例之智慧眼鏡,其包括至少兩個相機以捕捉且解譯由對話者做出的一連串手勢,以為使用者提供音訊內容。
[圖4]為繪示根據一些具體實例之用於將語音辨識併入沉浸式實境環境中之方法400中的步驟之流程圖。
[圖5]為繪示可藉以實施頭戴裝置及其他用戶端裝置以及圖10及圖11中之方法的例示性電腦系統的方塊圖。
在諸圖中,除非另外明確陳述,否則具有相同或類似標記編號之元件具有與相同或類似屬性相關的特徵及屬性。
10:架構
20:手勢
100:智慧眼鏡
101:使用者
103-1、103-2、103-3:資料集
105:腕帶裝置
106:目鏡
107:顯示器
109:框架
110:行動裝置
112:處理器
118:通信模組
120:記憶體
121:感測器
124:麥克風/揚聲器
125:相機
130:遠端伺服器
150:網路
152:資料庫
Claims (20)
- 一種電腦實施方法,其包含: 利用安裝於一頭戴裝置上之一相機自一對話者捕捉一手勢之一影像; 在該手勢之該影像中辨識來自該對話者的一文字含義;及 將來自該對話者之該文字含義提供至該頭戴裝置之一使用者。
- 如請求項1之電腦實施方法,其中捕捉該手勢之該影像包含經由該頭戴裝置中之一使用者介面自該頭戴裝置之該使用者接收一手勢辨識能力之一激活。
- 如請求項1之電腦實施方法,其中捕捉該手勢之該影像包含捕捉該手勢之一立體影像。
- 如請求項1之電腦實施方法,其中捕捉該手勢之該影像包含自來自該相機之一立體視圖形成該手勢之一三維模型。
- 如請求項1之電腦實施方法,其中辨識該文字含義包含自用於一聽力及話音受損人之一組標準手勢識別該手勢。
- 如請求項1之電腦實施方法,其中辨識該文字含義包含基於該影像而形成該手勢之一三維表示。
- 如請求項1之電腦實施方法,其進一步包含在該手勢之該影像中辨識指示該對話者之一心態之一背景性含義。
- 如請求項1之電腦實施方法,其中提供該文字含義包含在該頭戴裝置中之一顯示器上為該頭戴裝置之該使用者顯示該文字含義。
- 如請求項1之電腦實施方法,其中提供該文字含義包含經由一麥克風將該文字含義之一音訊轉錄提供至該使用者。
- 如請求項1之電腦實施方法,其進一步包含: 利用安裝於該頭戴裝置上之該相機自該使用者捕捉該使用者之手勢的影像; 在來自該使用者之該手勢的該影像中辨識來自該使用者之一文字含義;及 將來自該使用者之該文字含義提供至該對話者。
- 一種頭戴裝置,其包含: 一目鏡,其安裝於一框架上,該目鏡包括一透明光學組件以允許一使用者查看一真實世界中之一場景; 一第一相機,其經組態以自該真實世界中之一對話者捕捉一手勢之一影像;及 一處理器,其經組態以自該手勢之該影像辨識一文字含義。
- 如請求項11之頭戴裝置,其進一步包含一通信模組,該通信模組經組態以由該使用者將該手勢之該影像傳輸至一行動裝置。
- 如請求項11之頭戴裝置,其進一步包含該目鏡上之一顯示器,該顯示器經組態以將該文字含義提供至該頭戴裝置之該使用者。
- 如請求項11之頭戴裝置,其中該第一相機經組態以回應於該文字含義而捕捉手勢之第二影像,且該處理器經組態以自該第二影像辨識該使用者之一文字含義。
- 如請求項11之頭戴裝置,其進一步包含一揚聲器,該揚聲器安裝於該框架上且經組態以回應於來自該處理器之該文字含義而將該文字含義之一音訊內容提供至該頭戴裝置之該使用者。
- 如請求項11之頭戴裝置,其進一步包含一第二相機,該第二相機經組態以自一不同視角捕捉該對話者之該手勢的一第二影像。
- 如請求項11之頭戴裝置,其進一步包含一麥克風,該麥克風用以自該對話者捕捉一語音;及一顯示器,該顯示器在該目鏡上以將表達來自該對話者之該語音之一模型手勢提供至該使用者。
- 如請求項11之頭戴裝置,其進一步包含一通信模組,該通信模組經組態以將該手勢之該影像提供至該使用者佩戴之一行動裝置,以供進一步影像處理。
- 如請求項11之頭戴裝置,其進一步包含一通信模組,該通信模組經組態以將該手勢之該影像提供至一遠端伺服器,以供進一步影像處理。
- 如請求項11之頭戴裝置,其進一步包含一記憶體,該記憶體儲存針對具備聽力殘疾的人之文字含義辨識的多個手勢。
Applications Claiming Priority (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202263306854P | 2022-02-04 | 2022-02-04 | |
US63/306,854 | 2022-02-04 | ||
US202263323901P | 2022-03-25 | 2022-03-25 | |
US63/323,901 | 2022-03-25 | ||
US202263348392P | 2022-06-02 | 2022-06-02 | |
US63/348,392 | 2022-06-02 | ||
US18/163,420 US20230252822A1 (en) | 2022-02-04 | 2023-02-02 | Sign language detection for smart glasses |
US18/163,420 | 2023-02-02 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202347267A true TW202347267A (zh) | 2023-12-01 |
Family
ID=85476349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW112103992A TW202347267A (zh) | 2022-02-04 | 2023-02-04 | 用於智慧眼鏡之手語偵測 |
Country Status (2)
Country | Link |
---|---|
TW (1) | TW202347267A (zh) |
WO (1) | WO2023150328A1 (zh) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102257181B1 (ko) * | 2016-09-13 | 2021-05-27 | 매직 립, 인코포레이티드 | 감각 안경류 |
-
2023
- 2023-02-04 TW TW112103992A patent/TW202347267A/zh unknown
- 2023-02-05 WO PCT/US2023/012360 patent/WO2023150328A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023150328A1 (en) | 2023-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210090314A1 (en) | Multimodal approach for avatar animation | |
US20180329209A1 (en) | Methods and systems of smart eyeglasses | |
WO2017129149A1 (zh) | 基于多模态输入进行交互的方法和设备 | |
EP4078528A1 (en) | Using text for avatar animation | |
CN109463004A (zh) | 数字助理服务的远场延伸 | |
CN109783046A (zh) | 多任务环境中的智能数字助理 | |
WO2018230160A1 (ja) | 情報処理システム、情報処理方法、およびプログラム | |
WO2016206645A1 (zh) | 为机器装置加载控制数据的方法及装置 | |
US20230260534A1 (en) | Smart glass interface for impaired users or users with disabilities | |
TW202347267A (zh) | 用於智慧眼鏡之手語偵測 | |
US20230152886A1 (en) | Gaze-based user interface with assistant features for smart glasses in immersive reality applications | |
US20230252822A1 (en) | Sign language detection for smart glasses | |
CN117716325A (zh) | 用于选择智能眼镜中的摄像头的视场的用户接口 | |
US20230046341A1 (en) | World lock spatial audio processing | |
US20240153182A1 (en) | Embedded sensors in immersive reality headsets to enable social presence | |
TW202316871A (zh) | 世界鎖定空間音訊處理 | |
US20230049175A1 (en) | One-touch spatial experience with filters for ar/vr applications | |
US20240143085A1 (en) | Code scanning via augmented reality device | |
US20230324984A1 (en) | Adaptive sensors to assess user status for wearable devices | |
EP4345755A1 (en) | Expression transfer to stylized avatars | |
US20230012426A1 (en) | Camera control using system sensor data | |
US20240221318A1 (en) | Solution of body-garment collisions in avatars for immersive reality applications | |
EP4227776A1 (en) | Scrolling and navigation in virtual reality | |
US11943601B2 (en) | Audio beam steering, tracking and audio effects for AR/VR applications | |
US20230401795A1 (en) | Extended reality based digital assistant interactions |