KR101748316B1 - 제스처들을 이용하여 프로세싱 모드들을 스위칭하기 위한 시스템들 및 방법들 - Google Patents

제스처들을 이용하여 프로세싱 모드들을 스위칭하기 위한 시스템들 및 방법들 Download PDF

Info

Publication number
KR101748316B1
KR101748316B1 KR1020157028927A KR20157028927A KR101748316B1 KR 101748316 B1 KR101748316 B1 KR 101748316B1 KR 1020157028927 A KR1020157028927 A KR 1020157028927A KR 20157028927 A KR20157028927 A KR 20157028927A KR 101748316 B1 KR101748316 B1 KR 101748316B1
Authority
KR
South Korea
Prior art keywords
mode
detected
audio
processing
gesture
Prior art date
Application number
KR1020157028927A
Other languages
English (en)
Other versions
KR20150127712A (ko
Inventor
푸옹 엘. 톤
에반 알. 힐드레쓰
조엘 에스. 베르나르테
수잔나 아렐라노
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20150127712A publication Critical patent/KR20150127712A/ko
Application granted granted Critical
Publication of KR101748316B1 publication Critical patent/KR101748316B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

구술된 단어에 대한 대체 의미가 적용될 수 있도록 제스처를 이용하여 음성 구술 모드들 사이에서 스위칭하기 위한 시스템들 및 방법들이 제공된다. 제공되는 시스템들 및 방법들은 음성 구술로부터 검출된 단어들 및 검출된 제스처들을 타임 스탬핑하며, 제스처가 검출된 타임 스탬프를 단어가 검출된 타임 스탬프와 비교한다. 제스처의 타임 스탬프가 단어의 타임 스탬프와 거의 매칭함이 결정될 때, 단어는 커맨드, 구두법 또는 동작과 같은 대체 의미를 갖는 것으로 프로세싱될 수 있다.

Description

제스처들을 이용하여 프로세싱 모드들을 스위칭하기 위한 시스템들 및 방법들{SYSTEMS AND METHODS FOR SWITCHING PROCESSING MODES USING GESTURES}
[0001] 본원에 개시된 실시예들은 일반적으로 컴퓨팅 디바이스에서 모드들 사이에서 스위칭하기 위한 시스템들 및 방법들에 관한 것이다. 특히, 본원에 개시된 실시예들은 검출된 제스처에 기초하는 모드들 사이의 스위칭에 관한 것이다.
[0002] 음성 구술(voice dictation)은 테이프 레코더(tape recorder) 또는 타이피스트(typist)에 말하는 것을 의미하기 위해 이용된다. 그러나, 음성 검출 시스템들이 향상되어, 시스템들이 텍스트로의 음성을 더 양호하게 프로세싱할 수 있음에 따라, 음성 구술 시스템들은 컴퓨터 또는 모바일 디바이스 상에 인스톨되는 소프트웨어로 구현되었다. 추가로, 음성 구술 시스템들은 사용자가 말할 때 음성을 텍스트로 프로세싱할 수 있어, 핸즈프리 및 액세스가능 애플리케이션들의 큰 진보들을 제공한다.
[0003] 음성 구술 구현의 어려움들 중 하나는 사람의 자연적 스피치 패턴들에 적응하는 것이다. 현재 음성 구술 시스템들은 전체의 말한 단어(full spoken word) 스트링들을 텍스트로서 프로세싱하며, 커맨드들 또는 구두법(punctuation)에 대한 텍스트를 프로세싱한다. 그러나, 많은 시스템들이 커맨드들 또는 구두법에 대한 텍스트를 프로세싱하는 것은 어렵다. 일부 시스템들은 텍스트의 끝을 결정하기 위해 포즈(pause)들을 찾으며, 다음 스트링이 이전 스트링 상에서 실행될 커맨드를 포함할 것인 큐(cue)로서 이러한 포즈를 이용한다. 사용자가 그들의 생각들을 수집하거나 다음에 말할 것에 대해 생각하기 위해 그들의 스피치에서 포즈하고, 다음 스트링이 커맨드로서 인터프리팅(interpret)될 수 있는 단어를 포함하는 경우, 사용자가 동시에 커맨드를 실행시키기를 원하지 않음에도 불구하고 커맨드는 실행될 수 있다.
[0004] 따라서, 사용자의 자연적 스피치 패턴들을 더 양호하게 설명할 수 있고, 커맨드들 및/또는 구두법일 수 있는 단어들을 포함하는 구술된(dictated) 단어들에 대한 상이한 의미들 사이에서 구별할 수 있는 향상된 음성 구술을 위한 시스템들 및 방법들에 대한 필요성이 존재한다.
[0005] 일부 실시예들과 일치하게, 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템이 제공된다. 시스템은 오디오 파형들을 검출하기 위해 구성되는 마이크로폰, 비접촉식 제스처들을 검출하도록 구성되는 제스처 검출 센서, 및 검출된 오디오 파형들 및 검출된 비접촉식 제스처들에 대한 타임 스탬프를 제공하도록 구성되는 시스템 클럭을 포함한다. 시스템은 또한, 검출된 오디오 파형의 타임 스탬프 및 검출된 비접촉식 제스처의 타임 스탬프가 거의 매칭할 때, 제 2 모드에서 검출된 오디오 파형을 프로세싱하도록 구성되는 하나 또는 둘 이상의 프로세서들을 포함한다.
[0006] 일부 실시예들과 일치하게, 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 방법이 추가로 제공된다. 방법은 마이크로폰에 의해, 초기 오디오 파형 입력을 검출하는 단계; 제스처 검출을 시작하는 단계, 오디오 파형 입력을 타임 스탬핑하는 단계, 비접촉식 제스처가 수행되는지 여부를 검출하는 단계, 검출된 비접촉식 제스처를 타임 스탬핑하는 단계; 및 마이크로폰에 커플링된 하나 또는 둘 이상의 프로세서들에 의해, 비접촉식 제스처가 더 이상 검출되지 않는 대략의 시간까지(until about) 검출된 비접촉식 제스처의 대략의 타임 스탬프로부터(from about the time stamp) 제 2 모드에서 오디오 파형 입력을 프로세싱하는 단계를 포함한다. 컴퓨터 판독가능한 매체에서 명령들로서 구현될 수 있는 방법이 또한 제공될 수 있다.
[0007] 일부 실시예들과 일치하게, 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템이 추가로 제공된다. 시스템은, 오디오 파형 입력을 검출하고, 오디오 파형 입력을 타임 스탬핑하기 위한 수단, 비접촉식 제스처를 검출하고, 검출된 비접촉식 제스처를 타임 스탬핑하기 위한 수단 및 오디오 파형 입력의 타임 스탬프가 검출된 비접촉식 제스처의 타임 스탬프와 거의 매칭할 때, 제 2 모드에서 오디오 파형 입력을 선택적으로 프로세싱하기 위한 수단을 포함한다.
[0008] 도 1은 일부 실시예들과 일치하게, 프로세싱 디바이스(100)를 예시하는 도면이다.
[0009] 도 2a-2c는 일부 실시예들과 일치하게, 검출된 제스처에 기초하여 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템의 예를 예시한다.
[0010] 도 3a-3f는 일부 실시예들과 일치하게, 검출된 제스처에 기초하여 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템의 예를 예시한다.
[0011] 도 4는 일부 실시예들과 일치하게, 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하는 방법을 예시하는 흐름도이다.
[0012] 도 5는 일부 실시예들과 일치하게, 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하는 방법을 예시하는 흐름도이다.
[0013] 도 6a-6g는 일부 실시예들과 일치하게, 검출된 제스처에 기초하여 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하는 시스템의 예를 예시한다.
[0014] 도 7은 일부 실시예들과 일치하게, 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하는 방법을 예시하는 흐름도이다.
[0015] 도면들에서, 동일한 지정을 갖는 엘리먼트들은 동일하거나 유사한 기능들을 갖는다.
[0016] 다음의 설명에서, 특정 실시예들을 설명하는 특정 세부사항들이 기술된다. 그러나, 개시된 실시예들이 이러한 특정 세부사항들 전부 또는 그 일부가 없이 실시될 수 있다는 것이 당업자에게 명백해질 것이다. 제시된 특정 실시예들은 제한하는 것이 아닌 예시적인 것으로 의도된다. 당업자는 본원에 구체적으로 설명되지 않지만 본 개시의 범위 및 사상 내에 있는 다른 재료(material)를 구현할 수 있다.
[0017] 도 1은 일부 실시예들과 일치하게, 프로세싱 디바이스(100)를 예시하는 도면이다. 프로세싱 디바이스(100)는 모바일 디바이스, 이를테면, 스마트폰, 이를테면, iPhone™ 또는 iOS™ 운영 시스템, Android™ 운영 시스템, BlackBerry™ 운영 시스템, Microsoft® Windows® Phone 운영 시스템, Symbian™ OS, 또는 webOS™을 실행시키는 다른 모바일 디바이스, 또는 운영 시스템을 구현하지 않는 모바일 디바이스일 수 있다. 프로세싱 디바이스(100)는 또한, 태블릿 컴퓨터, 이를테면, iPad™ 또는 전술된 운영 시스템들 중 하나를 실행시키는 다른 태블릿 컴퓨터일 수 있다. 프로세싱 디바이스(100)는 또한, PC들 또는 랩탑들 또는 넷북들, 이를테면, 케이블 또는 위성 컨텐츠 제공자들에 의해 제공되는 STB(set-top boxes), 또는 Nintendo® Wii™, Microsoft® Xbox 360™, 또는 Sony® PlayStation™ 3과 같은 비디오 게임 시스템 콘솔들, 또는 다른 비디오 게임 시스템 콘솔들일 수 있다. 일부 실시예들에서, 프로세싱 디바이스(100)는 예를 들어, 자동차의 엔터테인먼트 센터 또는 콘솔로 구현되거나, 헬스케어 디바이스에 포함되거나 헬스케어 디바이스로 구현된다. 일부 실시예들에 따라, 프로세싱 디바이스(100)는 오디오 입력을 수신 및 캡처하고, 제스처를 검출하기 위해 구성되는 하드웨어 및/또는 소프트웨어의 임의의 적절한 결합을 이용하여 구현될 수 있다. 특히, 프로세싱 디바이스(100)는 하나 또는 둘 이상의 프로세서들을 갖고, 그리고 오디오 입력을 수신 및 캡처하고, 제스처를 검출하기 위해 하나 또는 둘 이상의 프로세서들에 의한 실행을 위한 비-일시적 기계 판독가능한 매체 상에 저장된 명령들을 판독할 수 있는 하드웨어 및/또는 소프트웨어의 임의의 적절한 결합을 포함할 수 있다. 기계 판독가능한 매체들의 일부 통상적 형태들은, 예를 들어, 플로피 디스크, 플렉서블 디스크, 하드 디스크, 자기 테이프 또는 임의의 다른 자기 매체, CD-ROM, 임의의 다른 광 매체, 펀치 카드들(punch cards), 페이퍼테이프(paper tape), 홀들의 패턴들을 갖는 임의의 다른 물리 매체, RAM, PROM, EPROM, FLASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 및/또는 하나 또는 둘 이상의 프로세서들 또는 컴퓨터가 판독하도록 적응되는 임의의 다른 매체를 포함한다.
[0018] 프로세싱 디바이스(100)는 네트워크와의 통신을 위해 구성되는 네트워크 인터페이스 컴포넌트(102)를 포함할 수 있다. 일부 실시예들과 일치하게, 네트워크 인터페이스 컴포넌트(102)는 동축 케이블, 광섬유 케이블, DSL(digital subscriber line) 모뎀, PSTN(public switched telephone network) 모뎀, 이더넷 디바이스 및/또는 다양한 다른 타입들의 유선 네트워크 통신 디바이스들과 인터페이싱하도록 구성될 수 있다. 네트워크 인터페이스 컴포넌트(102)는 또한, 하나 또는 둘 이상의 무선 트랜시버들을 포함할 수 있으며, 여기서, 각각의 무선 트랜시버는, 분리가능하거나 내장되고(integral), 그리고 Wi-Fi™, 3G, 4G, HDSPA, LTE, RF, NFC와 같은 상이한 무선 네트워킹 프로토콜에 따라 정보를 송신 및 수신할 수 있는 안테나를 포함할 수 있다. 일부 실시예들과 일치하게, 프로세싱 디바이스(100)는 프로세싱 디바이스(100) 내의 다양한 컴포넌트들 및 다양한 컴포넌트들 사이의 통신 정보를 상호연결하기 위한 시스템 버스(104)를 포함한다. 일부 실시예들에서, 버스(104)는 SoC(System on Chip)로 구현되며, 하나 또는 둘 이상의 프로세서들의 칩 및/또는 코어들 상의 다양한 엘리먼트들 또는 컴포넌트들을 연결한다. 컴포넌트들은 하나 또는 둘 이상의 프로세서들, CPU(central processing unit)들, ISP(image signal processor)들, 마이크로제어기들, 또는 DSP(digital signal processor)들, 및 아날로그 및/또는 디지털 오디오 신호 프로세서들을 포함할 수 있는 오디오 신호 프로세서들일 수 있는 프로세싱 컴포넌트(106)를 포함할 수 있다. 컴포넌트들은 또한, RAM(random access memory)에 대응할 수 있는 시스템 메모리 컴포넌트(108), ROM(read only memory)에 대응할 수 있는 내부 메모리 컴포넌트(110) 및 광학, 자기 또는 고체-상태 메모리들에 대응할 수 있는 외부 또는 정적 메모리(112)를 포함할 수 있다. 일부 실시예들과 일치하게, 프로세싱 디바이스(100)는 또한, 정보를 사용자에게 디스플레이하기 위한 디스플레이 컴포넌트(114)를 포함할 수 있다. 디스플레이 컴포넌트(114)는 LCD(liquid crystal display) 스크린, OLED(organic light emitting diode) 스크린(활성 행렬 AMOLED 스크린들을 포함함), LED 스크린, 플라즈마 디스플레이, 또는 CRT(cathode ray tube) 디스플레이일 수 있다. 디스플레이 컴포넌트(114)는 프로세싱 디바이스(100)와 통합될 수 있거나, 프로세싱 디바이스(100)로부터 분리되고 프로세싱 디바이스(100)에 커플링될 수 있다. 프로세싱 디바이스(100)는 또한, 사용자가 정보를 입력하게 하고 디스플레이 컴포넌트(114)를 따라 네비게이팅(navigate)하게 하는 입력 및 네비게이션 제어 컴포넌트(116)를 포함할 수 있다. 입력 및 네비게이션 컴포넌트(116)는, 예를 들어, 물리적이든 가상적이든 간에 키보드 또는 키패드, 마우스, 트랙볼 또는 다른 이러한 디바이스, 또는 용량성 센서 기반 터치 스크린을 포함할 수 있다. 프로세싱 디바이스(100)는 일부 실시예들에 따라 도 1에 도시된 것들보다 많거나 적은 컴포넌트들을 포함할 수 있다. 예를 들어, 프로세싱 디바이스(100)는 시스템 메모리 컴포넌트(108), 내부 메모리 컴포넌트(110) 및 외부 메모리 컴포넌트(112) 중 임의의 하나 또는 2개를 포함할 수 있다. 더욱이, 도 1에 도시된 컴포넌트들은 도 1의 하나 또는 둘 이상의 다른 컴포넌트들에 직접 커플링될 수 있어서, 시스템 버스(104)에 대한 필요성이 제거된다. 일반적으로, 도 1에 도시된 컴포넌트들은 본원에 개시된 실시예들을 수행할 수 있는 프로세싱 디바이스(100) 내의 컴포넌트들의 예들로서 도시된다. 그러나, 프로세싱 디바이스(100)는 더 많거나 더 적은 컴포넌트들을 가질 수 있으며, 여전히 본원에 개시된 일부 실시예들을 수행할 수 있다.
[0019] 프로세싱 디바이스(100)는 또한, 예를 들어, 사용자(120)로부터 오디오 입력을 검출 및 수신하기 위한 마이크로폰(118)을 포함한다. 일부 실시예들에 따라, 마이크로폰(118)은 음성과 같은 오디오를 검출하도록 구성될 수 있고, 이 오디오는 그 다음, 프로세싱을 위해 프로세싱 컴포넌트(106)에 그리고 저장을 위해 메모리들(108, 110 및 112) 중 임의의 것에 송신된다. 일부 실시예들에서, 마이크로폰(118)은 구술(dictation) 시 이용을 위해 사용자(120)로부터 음성을 검출하기 위해 구성될 수 있다. 마이크로폰(118)은 프로세싱 디바이스(100)와 통합될 수 있거나, 분리될 수 있고, 케이블 또는 무선 커플링에 의해 프로세싱 디바이스(100)에 커플링될 수 있다. 일부 실시예들에 따라, 마이크로폰(118)은 사용자(120)의 음성과 연관된 오디오 파형들을 검출하고, 검출된 파형들을, 메모리들(108, 110 및 112) 중 임의의 것에 저장된 명령들에 따라 프로세싱하기 위한 프로세싱 컴포넌트(106)에 송신되는 하나 또는 둘 이상의 전기 신호들로 변형한다. 일부 실시예들에서, 마이크로폰(118)은 검출된 오디오 파형들을 하나 또는 둘 이상의 전기 신호들로 컨버팅하는 어쿠스틱-투-전기 트랜스듀서 또는 센서를 포함할 수 있다.
[0020] 프로세싱 디바이스(100)는 또한, 제스처 검출 센서(122)를 포함할 수 있다. 제스처 검출 센서(122)는 사용자(120)에 의해 수행되는 제스처를 검출할 수 있는 임의의 센서를 포함할 수 있다. 일부 실시예들에 따라, 제스처 검출 센서(122)는 카메라, 초음파 트랜스듀서, 광 파이프 섀도우 검출기, 적외선 센서, 및/또는 주변 광 센서 또는 제스처들을 검출하도록 구성되는 다른 센서일 수 있다. 일부 실시예들에서, 제스처는 제스처 검출 센서(122)에 의해 검출될 수 있는 비접촉식 제스처 또는 상호 동작일 수 있으며, 여기서, 사용자(120)에 의해 수행되는 제스처는 사용자가 제스처 검출 센서(122)에 접촉할 필요없이 검출될 수 있다. 비접촉식 제스처의 예들은 손 포우즈(pose), 이를테면, 들어올린 손, 또는 손 커버 제스처를 포함할 수 있으며, 여기서, 사용자(120)의 손은 제스처 검출 센서(122)를 커버한다. 일부 실시예들에서, 제스처 검출 센서(122)는 초음파 주파수들에 민감한 마이크로폰(118) 또는 별개의 마이크로폰을 포함할 수 있다. 카메라를 이용하여 제스처를 검출하는 실시예들에 대해, 카메라는 가시광 카메라 또는 깊이-감지 카메라, 이를테면, Microsoft® Xbox™ Kinect™ 카메라일 수 있다. 카메라는 또한, IR(infrared) 광 또는 UV(ultraviolet) 광을 검출하도록 구성될 수 있다. 제스처 검출 센서(122)는 또한, 스테레오 카메라, ToF(time-of-flight) 카메라, 또는 사용자(120)에 의해 수행되는 제스처를 검출할 수 있는 다른 카메라일 수 있다. 제스처 검출 센서(122)는 또한, 일부 실시예들에서, Nintendo® Wii™ WiiMote™ 또는 Sony® PlayStation™ Move™ 일 수 있다. 일부 실시예들에서, 제스처 검출 센서(122)는 사용자에 의해 수행되는 제스처들을 검출하기 위해 결합하여 동작하는, 위에서 설명된 바와 같은 하나 또는 둘 이상의 제스처 검출 센서들을 포함할 수 있다.
[0021] 일부 실시예들에 따라, 제스처 검출 센서(122)는 제 1 또는 정상 모드로부터 제 2 또는 대체(alternate) 모드로 프로세싱 컴포넌트(106)에 의해 오디오의 프로세싱을 스위칭하기 위해 사용자(120)에 의해 수행되는 제스처를 검출하도록 구성될 수 있다. 일부 실시예들에 따라, 제스처 검출 센서(122)는 전력을 보존하기 위해 마이크로폰(118)이 프로세싱하기 위한 오디오 파형들을 검출할 때까지 비활성일 수 있다. 더욱이, 제스처 검출 센서(122)는 검출된 오디오 파형이 프로세싱 컴포넌트(106)에 의해 사람 음성인 것으로 결정될 때까지 비활성일 수 있다. 일부 실시예들에서, 센서(122)에 의한 이용을 위한 제스처 검출 프로시저는, 오디오 파형 및/또는 사람 음성이 검출되는 것에 응답하여, 예를 들어, 프로세싱 컴포넌트(106)에 의해 인에이블된다. 일부 이러한 실시예들에서, 센서(122)는 오디오 파형 및/또는 사람 음성이 마이크로폰(118)에 의해 검출되지 않지만, 하나 또는 둘 이상의 특정 제스처들의 검출이 인에이블될 수 있고 그리고/또는 센서(122)가 더 높은 듀티 사이클에서 동작될 수 있거나, 하나 또는 둘 이상의 다른 방식들로 동작가능하게 영향을 받을 수 있을 때에도, 일부 환경들에 남아 있을 수 있다. 추가로, 제스처 검출 센서(122)는 제스처의 존재 및/또는 부재에 대해 분석될 수 있는, 이미지 데이터를 포함하는 데이터의 프레임들을 캡처하도록 구성될 수 있다. 일부 실시예들에서, 제스처 검출 센서(122)는 원하는 검출 정확성 및 전력 보존과 같은 이러한 인자들에 기초하여 증가 또는 감소될 수 있는 미리 결정된 수의 프레임들을 매초마다 캡처하도록 구성될 수 있다. 예를 들어, 매초마다 더 많은 프레임들을 캡처하는 것은 더 큰 정확성을 제공하면서 전력을 더 빨리 드레인할 수 있는 반면, 매초마다 더 적은 프레임들을 캡처하는 것은 더 적은 정확성을 제공하지만 전력을 덜 빨리 드레인할 것이다. 추가로, 제스처 검출 센서(122)는, 전력을 희생하여 정확성을 향상시키기 위해 증가될 수 있지만, 정확성을 희생하여 전력 보존을 향상시키기 위해 감소될 수 있는 가변 레이트로 프레임들에서 제스처를 찾도록 구성될 수 있다. 일부 실시예들에서, 제스처 검출 센서(122)는 전력을 보존하기 위해 모든 각각의 8개의 프레임들 중 하나에서 제스처들을 찾도록 구성될 수 있지만, 이 레이트는 정확성 또는 전력 보존을 향상시키기 위해 증가 또는 감소될 수 있다. 일부 실시예들에서, 가변 레이트는 마이크로폰(118)이 오디오 파형 및/또는 음성을 검출하는 것에 응답하여 증가된다. 더욱이, 프레임들은 제스처 검출 센서(122) 내의 버퍼에 또는 메모리들(108-112) 중 임의의 것에 저장될 수 있으며, 필요하다면, 제스처 검출에 대한 더 큰 정확성을 위해 액세스될 수 있다. 즉, 제스처 검출 센서(122)가 모든 각각의 8개의 프레임들 중 단지 하나에서 제스처들을 찾도록 구성되는 경우, 다른 7개의 프레임들은 버퍼 또는 메모리에 저장될 수 있으며, 제스처의 존재의 결정에 대한 더 큰 정확성을 위해, 또는 가능한 또는 부분적 검출된 제스처를 리졸브(resolve)하기 위해 제스처 검출 센서(122) 또는 프로세싱 컴포넌트(106)에 의해 액세스될 수 있다. 추가로, 프레임들은, 예를 들어, 제스처링을 말하는 것 사이에서의 지연으로 인하여, 특정한 말한 단어(spoken word)와 정확하게 상관하는 시간에 사용자가 제스처링하지 않는 것을 설명하기 위해, 버퍼링될 수 있다.
[0022] 프로세싱 디바이스(100)는 또한, 시스템 클럭(124)을 포함하고, 시스템 클럭(124)은 프로세싱 디바이스(100)의 컴포넌트들에 클럭 및 타이밍을 제공하고, 검출된 오디오 파형들 및 검출된 제스처들에 대한 타임 스탬프를 제공하도록 구성될 수 있다. 프로세싱 디바이스(100)의 컴포넌트가 프로세싱 디바이스(100)와 통합되는 것으로서 도시되지만, 컴포넌트들은 이에 제한되는 것이 아니며, 프로세싱 디바이스(100)로부터 분리되고 프로세싱 디바이스(100)의 외부에 있으며, 프로세싱 디바이스(100) 및 시스템 버스(104)에 유선 또는 무선 커플링을 통해 커플링될 수 있다.
[0023] 일부 실시예들과 일관되게, 사용자(120)는 사용자에 의해 구술된 단어들의 스트링과 연관된 오디오 파형들을 검출하도록 구성되는 마이크로폰(118)을 갖는, 음성 구술을 위한 디바이스(100)를 이용할 수 있고, 이 오디오 파형들은 전기 신호들로 컨버팅되어, 프로세싱을 위해 프로세싱 컴포넌트(106)에 송신된다. 오디오 파형들과 연관된 전기 신호들은 메모리들(108, 110 및 112) 중 임의의 것에 저장된 사전에서 정의되는 단어들, 커맨드들 또는 구두법에 대응하는 미리 결정된 의미들과 연관될 수 있고, 프로세싱 컴포넌트(106)는 오디오 파형과 연관된 전기 신호를 의미와 매칭시키고, 대응하는 의미를 텍스트로 출력할 수 있다. 위에서 서술된 바와 같이, 음성 구술의 구현에 대한 어려움들 중 하나는 상이한 의미들을 갖는 단어들의 스트링들 또는 단어들 사이에서 구별하는 것이다. "send", "delete", "message", "e-mail" 및 "forward"과 같은 단어들은 이메일 및 메시징 기능들과 관련된 커맨드들 또는 명령들로서 인터프리팅될 수 있는 모든 단어들이다. 유사하게, "dot", "period", "at" 및 "comma"와 같은 단어들은 단어들 또는 구두법으로서 인터프리팅될 수 있다.
[0024] 도 2a-2c는 일부 실시예들과 일치하게, 검출된 제스처에 기초하여 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템의 예를 예시한다. 도 2a에 도시된 바와 같이, 사용자(120)는 디바이스(100)에 구술하고 있다. 일부 실시예들에 따라, 마이크로폰(118)은 사용자(120)의 음성과 연관된 오디오 파형들을 검출하고, 전기 신호들은 메모리들(108, 110 및 112) 중 임의의 것에 저장된 명령들에 기초하여 프로세싱 컴포넌트(106)에 의해 프로세싱되는 오디오 파형들에 의해 생성된다. 특히, 프로세싱 컴포넌트(106)는 메모리들(108, 110 및 112) 중 임의의 것에 저장된 사전 내의, 특정 단어, 커맨드, 구두법 또는 단어들의 스트링과 대응하는 의미를 표현하는 공지된 신호와 비교되는 각각의 전기 신호를 비교한다. 일부 실시예들과 일치하게, 사전은 제 3 자에 의해 준비될 수 있거나, 통상의 음성 구술 시스템들과 연관된 공지된 사전일 수 있다. 더욱이, 사전은 사용자-편집가능할 수 있으며, 여기서, 사용자는 오디오 파형들을 레코딩할 수 있으며, 레코딩된 오디오 파형들에 대해 의미들을 정의할 수 있다.
[0025] 프로세싱 컴포넌트(106)가 전기 신호들을 사전 내의 전기 신호와 매칭시킬 때, 전기 신호와 연관된 의미가 디스플레이 컴포넌트(114) 상에 디스플레이될 수 있거나, 다른 동작이 디바이스(100)에 의해 취해질 수 있다. 의미는 추후 리콜 또는 송신을 위해 디스플레이 컴포넌트(114) 상에 디스플레이되거나 메모리들(108-112) 중 하나에 저장될 수 있는 단어 또는 구두법일 수 있고, 예를 들어, 또는 동작을 수행하도록 프로세싱 컴포넌트(106)에 명령할 수 있는 커맨드일 수 있다. 일부 실시예들과 일치하게, 음성에 대응하는 오디오 파형들과 연관된 전기 신호들은 제 2 또는 대체 의미를 가질 수 있다. 더욱이, 사용자(120)는 대체 의미를 이용하는 대체 모드에서 검출된 오디오 파형들에 대응하는 전기 신호들을 프로세싱하도록 음성 구술 시스템을 스위칭하기 위해 제스처 검출 센서(122)에 의해 검출된 제스처를 수행함으로써 이러한 대체 의미를 활성화할 수 있다. 제스처 검출 센서(122)가 제스처를 검출할 때, 검출된 오디오 파형들에 의해 생성된 대응하는 전기 신호가 또 다른 모드에서 프로세싱되어 대체 의미가 주어지도록, 메모리들(108, 110 및 112) 중 임의의 것에 저장된 명령들에 기초하여 프로세싱 컴포넌트(106)에 의해 프로세싱되는 전기 신호가 생성된다. 예를 들어, 사용자(120)가 도 2a에 도시된 바와 같은 제스처를 "Send Message To Matt"라는 단어들을 말함과 동시에 수행하는 경우, 프로세싱 컴포넌트(106)는 제스처에 의해 개시되는 대체 모드에 따라 스트링에서의 단어들 중 하나 또는 둘 이상을 프로세싱한다. 일부 실시예들에 따라, 사용자(120)에게는, 검출된 오디오 파형들이 대체 모드에서 프로세싱될 것임을 사용자에게 통보하는 디바이스(100)의 스피커(미도시)에 의해 소리가 나거나(emit), 디바이스(100)의 디스플레이 컴포넌트(114)에 의해 디스플레이되는 오디오 또는 시각 피드백이 제공된다.
[0026] 일부 실시예들에 따라, 프로세싱 컴포넌트(106)는 시스템 클럭(124)에 의해 제공되는 시간에 기초하여 각각의 검출된 오디오 파형을 타임 스탬핑할 것이다. 일부 실시예들에서, 타임 스탬프는 개별 단어들 사이의 공간을 표시하는 검출된 작은 포즈에 기초하여 검출된 오디오 파형과 연관될 것이다. 일부 실시예들에서, 각각의 검출된 오디오 파형의 각각의 음소 또는 음절은 타임 스탬핑될 수 있다. 더욱이, 일부 실시예들에서, 검출된 오디오 파형은 일정 기간에 기초하여 주기적으로 타임스탬핑될 수 있다(이는 매 초마다 이루어질 수 있거나 또는 초 중 특정 프랙션(fraction)으로 이루어질 수 있다). 프로세싱 컴포넌트(106)는 또한, 시스템 클럭(124)에 의해 제공되는 시간에 기초하여 검출된 제스처를 타임 스탬핑할 것이다. 그 다음, 프로세싱 컴포넌트(106)는 검출된 오디오 파형들의 타임 스탬프들과 검출된 제스처를 비교할 것이고, 하나 또는 둘 이상의 검출된 오디오 파형들이 제스처가 검출되는 시간 인터벌 동안 검출될 때, 프로세싱 컴포넌트(106)는 대체 모드에 따라 검출된 단어를 프로세싱할 것이다. 일부 실시예들과 일치하게, 시간 인터벌은, 레이턴시를 설명하기 위해 적당한 허용 오차에 기초하는, 제스처가 검출되기 이전의 그리고 그 이후의 시간 기간을 포함하는 인터벌일 수 있다. 일부 실시예들에서, 레이턴시는 하드웨어에 의해 야기되든 소프트웨어에 의해 야기되든, 사용자(120)가 제스처를 수행하고 말할 때 사이의 지연, 및/또는 프로세싱 디바이스(100) 또는 제스처 검출 센서(122)의 공지된 래그(lag)로 인한 것일 수 있다. 일부 실시예들에서, 프로세싱 컴포넌트(106)는 사용자(120)의 구술 패턴들, 이를테면, 사용자가 구술된 단어들을 얼마나 자주 정정하는지, 사용자(120)가 얼마나 빠르게 또는 얼마나 느리게 말을 하는지, 그리고 사용자(120)가 제스처를 수행할 때와 사용자(120)가 말할 때 사이에 얼마나 많은 지연이 존재하는지, 그리고 사용자(120)가 말할 때와 사용자(120)가 제스처를 수행할 때 사이에 얼마나 많은 지연이 존재하는지를 학습하도록 구성될 수 있다. 이러한 학습에 기초하여, 프로세싱 컴포넌트(106)는 적응형 또는 학습된 레이턴시를 제공할 수 있다. 시간 인터벌은 레이턴시를 설명하기 위한 것일 뿐만 아니라, 일부 실시예들에서 말하거나 인터프리팅된 것을 정정하기 위한 시간 인터벌을 사용자(120)에게 제공하기 위한 것일 수 있다.
[0027] 일부 실시예들과 일치하게, 마이크로폰(118)에 의해 검출된 오디오 파형들은 검출된 오디오 파형들이 제스처 검출 센서(122)에 의해 검출된 제스처에 기초하여 하나 또는 둘 이상의 모드들에서 프로세싱될 수 있도록 버퍼링될 수 있다. 예를 들어, 제 1 모드에서, 버퍼링된 오디오 파형들은 제 1 의미를 갖도록 프로세싱 컴포넌트에 의해 프로세싱될 수 있고, 이는 디스플레이 컴포넌트(114)에 의해 디스플레이되는 텍스트에 대응할 수 있다. 제스처 검출 센서(122)에 의해 검출된 제스처에 의해 활성화된 제 2 모드에서, 버퍼링된 오디오 파형들은 제 1 의미와 상이한 제 2 의미를 가질 수 있다. 일부 실시예들에 따라, 제 2 모드는 프로세싱 컴포넌트(106)에 의해 수행될 커맨드 또는 동작에 대응할 수 있다. 일부 실시예들에서, 버퍼링된 오디오 파형들 중 일부는 제 2 모드에서 상이한 의미를 갖지 않으며, 제 1 모드에서와 동일하게 프로세싱된다. 버퍼링된 오디오 파형들은, 대응하는 시간에 제스처 검출 센서(122)에 의해 제스처가 검출되는지 여부에 기초하여 프로세싱 컴포넌트(106)가 제 1 모드 또는 제 2 모드에서 버퍼링된 오디오 파형들을 선택적으로 프로세싱하도록, 오디오 파형과 연관된 타임 스탬프에 따라 프로세싱 컴포넌트(106)에 의해 프로세싱될 수 있다. 일부 실시예들에서, 제 2 모드에서의 프로세싱은 오디오 파형을, 텍스트 대신 구두법과 같은 상이한 출력과 상관시키는 것을 포함한다. 다른 실시예들에서, 오디오 파형은 동일한 출력에 상관되지만, 출력은, 예를 들어, "period"라는 단어를 구두법 심볼로 변형하기 위해 제 2 모드에서 변형된다. 일부 실시예들에서, 오디오 파형들은 사용자가 오디오 파형을 취소, 편집 및/또는 정정하게 하기 위해 인터프리팅되기 전의 짧은 시간 동안 버퍼에 저장된다.
[0028] 도 2a에 도시된 바와 같이, 사용자(120)로부터 마이크로폰(118)에 의해 검출된 오디오 파형들에 기초하여, 디스플레이 컴포넌트(114)는 "Send Message to Matt"의 텍스트를 디스플레이한다. 그러나, 사용자(120)는 센서(122)에 의해 검출될 수 있는 제스처를 수행하고 있기 때문에, 프로세싱 컴포넌트(106)는, 적당한 허용 오차 내에서, 검출된 제스처의 타임 스탬프와 검출된 오디오 파형들의 타임 스탬프를 비교함으로써 사용자(120)가 제스처를 수행하는 시간 및 오디오 파형들이 검출되는 시간을 매칭시킬 수 있으며, 제 2 또는 대체 모드에 따라 검출된 오디오 파형들을 프로세싱할 수 있는데, 이는 대체 의미들을 검출된 오디오 파형들 중 일부에 제공하지만, 검출된 오디오 파형들 중 일부는 동일한 의미를 가질 수 있다. 일부 실시예들과 일치하게, 도 2a에 도시된 검출된 오디오 파형들은, "Send Message to Matt"라고 구술된 단어들에 대응하는 검출된 오디오 파형이 Matt라는 연락처(contact)에 메시지를 전송하기 위한 커맨드로서 프로세싱되도록 프로세싱될 수 있다.
[0029] 일부 실시예들에서, 사용자에 의해 구술된 단어들에 대응할 수 있는, 사용자(120)에 의해 생성된 오디오 파형들은 양쪽에서(on either side) 짧은 포즈(short pause)를 갖는 하나 또는 둘 이상의 거의-연속적 오디오 파형들로서 표현되는 모든 각각의 단어에 대해 실시간 또는 거의 실시간으로 프로세싱될 수 있다. 일부 실시예들에서, 오디오 파형들은, 미리 결정된 양의 시간을 지속하는 오디오 파형들의 세그먼트가 즉시 프로세싱되도록, 세그먼트들로 프로세싱될 수 있다. 일부 실시예들에서, 미리 결정된 양의 시간은 사용자(120)가 단어를 말하는데 걸리는 평균 시간을 표현하도록 선택된다. 미리 결정된 양의 시간은 적응형일 수 있으며, 사용자(120)가 디바이스(100)를 이용하는 것으로서의 학습을 통해 변화할 수 있다. 일부 실시예들에서, 오디오 파형들은 짧은 포즈가 검출된 이후 프로세싱될 수 있으며, 그 포즈는 단어들 또는 구들 사이의 포즈를 표시한다. 일부 실시예들에서, 오디오 파형들은 주기적으로, 이를테면, 매초마다 또는 5초마다 프로세싱된다. 일부 실시예들에서, 검출된 오디오 파형들은 버퍼링될 수 있다. 일부 실시예들에서, 제스처 검출 센서(122)에 의한 제스처의 검출은, 모든 오디오 파형들로 하여금, 버퍼 내 또는 버퍼 밖으로 로딩되게 하고, 그 다음, 의미를 결정하기 위해 프로세싱 컴포넌트(106)에 의해 프로세싱되게 한다. 예를 들어, 버퍼에 저장된 오디오 파형들은 버퍼 밖으로 로딩되고, 제 2 모드에서 프로세싱되어, 제스처가 제스처 검출 센서(122)에 의해 검출될 때 제 2 의미와 연관될 수 있는 반면, 유입 오디오 파형들은 버퍼에 저장된다. 그 다음, 제스처가 제스처 검출 센서(122)에 의해 더 이상 검출되지 않을 때, 또는 신호 프로세싱 컴포넌트(106)가 제 2 모드에서 프로세싱을 중지하고 제 1 모드에서 프로세싱할 것인 후속 제스처가 검출될 때, 버퍼에 저장된 오디오 파형들은 버퍼 밖으로 로딩되고, 제 1 모드에서 프로세싱되어 제 1 의미와 연관된다. 일부 실시예들에서, 오디오 파형들의 스트링의 양끝에서의 타임 스탬프들은 오디오 파형들의 스트링 내에서 개별 단어들 또는 사운드들과 연관될 수 있는 타임 스탬프들을 보간(interpolate)하기 위해 이용될 수 있다.
[0030] 도 2b에 도시된 바와 같이, 사용자(120)는 제스처 수행을 중지하고, 따라서, 사용자가 제스처 수행을 중지한 시간은 센서(122)로부터의 정보에 기초하여 시스템 클럭(124)에 의해 제공되는 시간에 따라 타임 스탬핑될 것이다. 사용자(120)는 제스처를 중단한 이후 말을 계속하고, "Matt can you send me the message Charles forwarded you"라고 말할 수 있다. 프로세싱 컴포넌트(106)는 이 단어 스트링에 대응하는 검출된 오디오 파형들과 연관된 전기 신호들을 수신하고, 제스처가 또한 동시에 제스처 검출 센서(122)에 의해 검출되었는지 여부를 결정하기 위해 검출된 오디오 파형들과 연관된 타임 스탬프를 분석할 것이다. 사용자(120)가 제스처를 수행하고 있지 않았기 때문에, 제스처는 제스처 검출 센서(122)에 의해 검출되지 않았을 것이고, 검출된 오디오 파형들에 대한 타임 스탬프에 대응하는 타임 스탬프를 갖는 어떠한 검출된 제스처들도 존재하지 않았을 것이며, 프로세싱 컴포넌트(106)는 제 1 모드에서 검출된 오디오 파형들을 프로세싱하였을 것이고, 여기서, 검출된 오디오 파형들과 연관된 전기 신호들에는 제 1 의미가 주어졌을 것이다. 제 1 의미는 검출된 오디오 파형들과 연관된 텍스트일 수 있다.
[0031] 도 2c는 도 2a 및 도 2b의 결과를 도시한다. 도 2c에 도시된 바와 같이, 디바이스(100)의 디스플레이 컴포넌트(114)는 "Matt can you send me the message Charles forwarded you"라는 텍스트를 포함하는 메시지를 Mass에게 디스플레이한다. 제 1, 정상 모드와, 대체 의미들을 제공하는 제 2, 대체 모드 사이에서 스위칭하기 위해 제스처를 이용하지 않고, 검출된 오디오 파형들은 도 2c에 도시된 것과 일치하지 않을 다수의 상이한 방식들로 프로세싱되었을 수 있다. 예를 들어, 프로세싱 컴포넌트(106)는 "send", "message" 또는 "forward"라는 단어들 중 임의의 것을 "forwarded"에서 커맨드로서 프로세싱할 수 있어서, 부정확한 메시지가 전송 또는 포워딩되게 할 수 있다. 그러나, 검출된 제스처를 검출된 오디오 파형들과 상관시키고, 검출된 제스처의 타임 스탬프를 검출된 오디오 파형들의 타임 스탬프와 매칭시킴으로써, 프로세싱 컴포넌트(106)는, 사용자(120)가 대체 의미를 검출된 오디오 파형들에 제공하도록 검출된 오디오 파형들이 대체 모드에서 프로세싱되기를 원할 때를, 그리고 사용자가 제 1, 정상 의미를 검출된 오디오 파형들에 제공하도록 검출된 오디오 파형들이 제 1, 정상 모드에서 프로세싱되기를 원할 때를 이해한다.
[0032] 도 3a-3f는 일부 실시예들과 일치하게, 검출된 제스처에 기초하여 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하는 시스템의 예를 예시한다. 도 3a에 도시된 바와 같이, 사용자(120)는 단어 스트링을 디바이스(100)로 구술하고, 제 1 또는 정상 모드와 제 2, 대체 모드 사이에서 스위칭하기 위해 제스처를 이용할 수 있으며. 여기서, 검출된 오디오 파형들에는 대체 의미가 주어질 수 있다. 일부 실시예들과 일치하게, 사용자(120)로부터 검출된 오디오 파형과 연관된 전기 신호는 사전 내의 하나 또는 둘 이상의 의미들과 연관될 수 있고, 여기서, 사용자는 제 1 또는 정상 의미로부터 제스처의 이용에 의한 대체 의미로 스위칭할 수 있다. 제 1 또는 정상 의미는 단어 스트링에서의 단어의 검출된 오디오 파형에 대응하는 전기 신호와 연관된 텍스트에 대응할 수 있고, 대체 의미는 커맨드 또는 구두법에 대응한다. 예를 들어, 마이크로폰(118)은 시스템 클럭(124)에 의해 결정되는 타임 스탬프에서 사용자(120)로부터, 전기 신호를 생성하는 오디오 파형들을 검출한다. 제 1 모드에서, 프로세싱 컴포넌트(106)는 도 3a에 도시된 바와 같은 "E-mail"이라는 텍스트를 생성하기 위해 전기 신호를 프로세싱할 수 있다. 그러나, 제스처 검출 센서(122)는 사용자(120)가 시스템 클럭(124)에 의해 결정되는 타임 스탬프를 갖는 제스처를 수행하는 것을 검출한다. 프로세싱 컴포넌트(106)는 검출된 제스처에 대응하는 신호를 수신하고, 타임 스탬프를 노트(note)하며, 대체 모드에 따른 대략의(about) 동일한 타임 스탬프에서 마이크로폰(118)으로부터의 전기 신호를 프로세싱한다. 일부 실시예들과 일치하게, "E-mail"에 대한 대체 모드는 E-mail 메시지를 생성하기 위한 커맨드로서 프로세싱 컴포넌트(106)에 의해 프로세싱될 수 있다.
[0033] 도 3b에 도시된 바와 같이, 마이크로폰(118)은 시스템 클럭(124)에 의해 결정되는 타임 스탬프에서 단어 스트링으로부터, "Luke at home"의 텍스트에 대응하는 것으로서 프로세싱될 수 있는 전기 신호를 생성하는 오디오 파형들을 검출한다. 제스처가 제스처 검출 센서(122)에 의해 대응하는 타임 스탬프에서 검출되지 않기 때문에, 프로세싱 컴포넌트(106)는 제 1 또는 정상 모드에 따라 전기 신호를 프로세싱하고, 정상 의미를 단어 스트링에 적용시킬 것이다. 도 3c에 도시된 바와 같이, 마이크로폰(118)은 시스템 클럭(124)에 의해 결정되는 대략의 타임 스탬프에서 사용자(120)가 말한 단어로부터, 정상 모드에서 "at"이라는 단어의 텍스트에 대응하는 것으로서 프로세싱될 수 있는 전기 신호를 생성하는 오디오 파형을 검출한다. 그러나, 제스처 검출 센서(122)는 또한, 대략의 대응하는 타임 스탬프에서 제스처를 검출하고, 프로세싱 컴포넌트(106)는 대체 모드에 따라 전기 신호를 프로세싱할 것이다. 일부 실시예들과 일치하게, 대체 모드에서 "at"이라는 단어에 대한 의미는 구두법 마크, 즉 "@"일 수 있다.
[0034] 도 3d에 도시된 바와 같이, 마이크로폰(118)은 시스템 클럭(124)에 의해 결정되는 타임 스탬프에서 단어 스트링으로부터, 정상 모드에서 "blue dot"의 텍스트에 대응하는 것으로서 프로세싱될 수 있는 전기 신호를 생성하는 오디오 파형들을 검출한다. 제스처가 제스처 검출 센서(122)에 의해 대략의 대응하는 타임 스탬프에서 검출되지 않기 때문에, 프로세싱 컴포넌트(106)는 제 1 또는 정상 모드에 따라 전기 신호를 프로세싱할 것이다. 도 3e에 도시된 바와 같이, 마이크로폰은 시스템 클럭(124)에 의해 결정되는 타임 스탬프에서 사용자(120)가 말한 단어로부터, "dot com"이라는 단어의 텍스트에 대응하는 것으로서 프로세싱될 수 있는 전기 신호를 생성하는 오디오 파형을 검출한다. 그러나, 제스처 검출 센서(122)는 또한, 대략의 대응하는 타임 스탬프에서 제스처를 검출하고, 프로세싱 컴포넌트(106)는 대체 모드에 따라 전기 신호를 프로세싱할 것이다. 일부 실시예들과 일치하게, 대체 모드에서 "dot"이라는 단어에 대한 의미는 구두법 마크, 즉 "."인 것으로서 프로세싱될 수 있고, 대체 모드에서 "com"이라는 단어에 대한 어떤 의미도 존재하지 않을 수 있다.
[0035] 도 3e는 도 3a-3e의 결과를 예시한다. 도 3e에 도시된 바와 같이, 모드들을 스위칭하기 위해 오디오 검출 및 제스처 검출을 결합시킴으로써, 디바이스(100)는 "Lukeathome@bluedot.com"이라는 이메일 어드레스에 전송될 이메일을 생성한다. 그러나, 종래의 시스템들은 "at" 및 "dot"라는 단어들이 단어이어야 하는지 구두법 마크이어야 하는지를 추론하는 것이 어려울 수 있다. 그러나, 검출된 제스처를 검출된 오디오 파형들과 상관시키고, 검출된 제스처의 타임 스탬프를 검출된 오디오 파형들과 매칭시킴으로써, 프로세싱 컴포넌트(106)는, 사용자(120)가 대체 의미를 검출된 오디오 파형들에 제공하도록 검출된 오디오 파형들이 대체 모드에서 프로세싱되기를 원할 때를, 그리고 사용자가 정상 의미를 검출된 오디오 파형들에 제공하도록 검출된 오디오 파형들이 제 1 또는 정상 모드에서 프로세싱되기를 원할 때를 이해한다.
[0036] 도 4는 일부 실시예들과 일치하게, 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하는 방법을 예시하는 흐름도이다. 예시를 목적으로, 도 4는 도 1, 2a-2c 및 3a-3f 중 임의의 것을 참조하여 설명될 것이다. 도 4에 도시된 방법은, 디바이스(100)의 프로세싱 컴포넌트(106) 내의 하나 또는 둘 이상의 프로세서들에 의한 실행을 위한 컴퓨터 판독가능한 명령들로 구현될 수 있다. 도 4에 도시된 바와 같이, 마이크로폰(118)은 사용자(120)로부터 오디오 파형 입력을 검출할 수 있다(402). 일부 실시예들에 따라, 오디오 파형 입력은 음성 구술 또는 음성 커맨딩 디바이스(100)의 목적들을 위해 사용자(120)가 디바이스(100)에 말한 음성일 수 있다. 마이크로폰(118)에 의해 검출된 오디오 파형은, 의미들의 사전에 기초하여 전기 신호의 의미를 결정하기 위해 메모리들(108, 110 및 112) 중 임의의 것에서의 명령들에 따라 프로세싱 컴포넌트(106)에 의해 프로세싱될 수 있는 전기 신호를 생성할 수 있다. 그 다음, 검출된 오디오 파형 입력은 시스템 클럭(124)으로부터 수신된 신호에 따라 타임 스탬핑될 수 있다(404). 그 다음, 프로세싱 컴포넌트(106)는 정상 또는 제 1 모드에 따라 검출된 오디오 파형을 프로세싱할 수 있다. 일부 실시예들에 따라, 제 1 모드는 음성 구술 모드에 대응할 수 있으며, 여기서, 검출된 오디오 파형들은 검출된 오디오 파형과 연관된 제 1 의미에 기초하여 디스플레이 컴포넌트(114)에 의해 디스플레이되는 텍스트로 변형된다.
[0037] 그 다음, 제스처 검출 센서(122)는 비접촉식 제스처를 검출할 수 있다(406). 그 다음, 검출된 제스처는 시스템 클럭(124)로부터 수신된 시간에 따라 타임 스탬핑될 수 있다(408). 그 다음, 프로세싱 컴포넌트(106)는 오디오 파형의 타임 스탬프가 검출된 제스처의 타임 스탬프와 거의 매칭할 때 제 2 모드에서 검출된 오디오 파형을 프로세싱할 수 있다(410). 일부 실시예들에 따라, 제 2 모드에서 검출된 오디오 파형 입력을 프로세싱하는 것은, 검출된 오디오 파형에 의해 생성된 전기 신호에 대응하는 제 2 의미가 프로세싱 컴포넌트(106)에 의해 이용되도록, 커맨드 또는 구두법 모드와 같은 제 2 모드에서 검출된 오디오 파형 입력을 프로세싱하는 것을 포함할 수 있다. 제 2 의미는 커맨드, 구두법, 또는 단어의 동음어(homophone)에 대응할 수 있다.
[0038] 더욱이, 상이한 모드들은 상이한 검출된 비접촉식 제스처들에 대응할 수 있다. 예를 들어, 일부 실시예들에서, 사용자(120)가 손바닥을 디바이스(100)를 향하게 하고 그들의 팔을 들어올리는 것을 포함하는 관여(engagement) 제스처는, 제스처 검출 센서(122)에 의해 검출될 때, 커맨드 또는 구두법 모드에서 검출된 오디오 파형들을 프로세싱하도록 디바이스(100)의 프로세싱 컴포넌트(106)에 명령할 수 있다. 일부 실시예들에서, 사용자(120)가 그들의 손으로 제스처 검출 센서(122)를 커버하는 것을 포함하는 커버 제스처는 커맨드 또는 구두법 모드에서 검출된 오디오 파형들을 프로세싱하도록 디바이스(100)의 프로세싱 컴포넌트(106)에 명령할 수 있다. 이 제스처들은 또한, 커맨드 또는 구두법 모드 외에 다른 모드들에서 검출된 오디오 파형들을 프로세싱하도록 프로세싱 컴포넌트(106)에 명령하는 것으로서 디바이스(100)에 의해 이해될 수 있다. 다른 모드들은 정정 모드를 포함할 수 있고, 여기서, 사용자(120)는 자신들이 사용자(120)가 말한 검출된 오디오 파형들에 대응하는, 디스플레이 컴포넌트(114) 상에 디스플레이되는 하나 또는 둘 이상의 단어들, 문자들, 심볼들 또는 다른 텍스트를 정정하기를 원함을 표시하기 위해 제스처를 수행할 수 있다. 예를 들어, 센서(122)에 의해 검출된 짧게 왼쪽으로의 스와이프(short left swipe)는 일부 실시예들에서 이전 단어를 중복 기재(overwrite)하는 것으로 프로세싱 컴포넌트(106)에 의해 인터프리팅될 수 있다. 또 다른 모드는 문자식(literal) 또는 표음식(phonetic) 발음 모드들을 포함할 수 있으며, 여기서, 사용자(120)는 그들이, 예를 들어, 정확한 또는 수용되는 스펠링과는 대조적으로, 검출된 오디오 파형들의 문자식 또는 표음식 발음과 연관된 스펠링들을 원함을 표시하기 위해 제스처를 수행할 수 있다. 이 모드들을 활성화하기 위해 이용되는 제스처들은 위에서 설명된 바와 같은 관여 또는 커버 제스처일 수 있거나, 그들은 상이한 제스처들일 수 있다. 다른 제스처들은 손 흔듦, 손 움직임 또는 제스처 검출 센서(122)가 검출하도록 프로그래밍될 수 있는 다른 신중한(deliberate) 움직임들을 포함할 수 있다.
[0039] 도 5는 일부 실시예들과 일치하게, 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하는 방법을 예시하는 흐름도이다. 예시를 목적으로, 도 5는 도 1, 2a-2c 및 3a-3f 중 임의의 것을 참조하여 설명될 것이다. 도 5에 도시된 방법은, 디바이스(100)의 프로세싱 컴포넌트(106) 내의 하나 또는 둘 이상의 프로세서들에 의한 실행을 위한 컴퓨터 판독가능한 명령들로 구현될 수 있다. 도 5에 도시된 바와 같이, 마이크로폰(118)은 사용자(120)로부터 초기 오디오 파형 입력을 검출할 수 있다(502). 일부 실시예들에 따라, 오디오 파형 입력은 음성 구술 또는 음성 커맨딩 디바이스(100)의 목적들을 위해 사용자(120)가 디바이스(100)에 말한 음성일 수 있다. 마이크로폰(118)에 의해 검출된 오디오 파형은, 의미들의 사전에 기초하여 전기 신호의 의미를 결정하기 위해 메모리들(108, 110 및 112) 중 임의의 것에서의 명령들에 따라 프로세싱 컴포넌트(106)에 의해 프로세싱될 수 있는 전기 신호를 생성할 수 있다. 초기 오디오 파형 입력이 검출될 때, 디바이스(100)는 제스처 검출 센서(122)를 활성화함으로써 제스처 검출을 개시할 수 있거나(504), 제스처 검출은 일부 실시예들에서 이미 진행되었을 수 있다. 일부 실시예들에 따라, 제스처 검출 센서(122)는 초기 오디오 파형 입력이 검출될 때까지 전력을 보존하기 위해 비활성 상태로 남아 있을 수 있다. 그 다음, 검출된 오디오 파형 입력은 시스템 클럭(124)으로부터 수신된 시간에 따라 타임 스탬핑될 수 있다(506).
[0040] 제스처 검출 센서(122)는 제스처가 검출되는지 여부를 결정할 수 있다(508). 제스처가 검출되지 않은 경우, 프로세싱 컴포넌트(106)는 제 1 모드에서 검출된 오디오 파형 입력을 프로세싱할 수 있다(510). 일부 실시예들에 따라, 제 1 모드에서 검출된 오디오 입력을 프로세싱하는 것은, 검출된 오디오 파형에 의해 생성된 전기 신호에 대응하는 제 1 의미가 프로세싱 컴포넌트(106)에 의해 이용되도록, 검출된 오디오 파형 입력을 프로세싱하는 것을 포함할 수 있다. 제스처가 제스처 검출 센서(122)에 의해 검출되는 경우, 검출된 제스처는 시스템 클럭(124)으로부터 수신된 시간에 따라 타임 스탬핑된다(512). 그 다음, 프로세싱 컴포넌트(106)는 검출된 제스처의 시간으로부터 제 2 모드에서 검출된 오디오 파형을 프로세싱할 수 있다(514). 일부 실시예들에 따라, 제 2 모드에서 검출된 오디오 파형 입력을 프로세싱하는 것은, 검출된 오디오 파형에 의해 생성된 전기 신호에 대응하는 제 2 의미가 프로세싱 컴포넌트(106)에 의해 이용되도록, 제 2 모드에 따라 검출된 오디오 파형 입력을 프로세싱하는 것을 포함할 수 있다. 제 2 또는 대체 의미는 커맨드, 구두법 또는 단어의 동음어에 대응할 수 있다. 제 2 또는 대체 의미는 커맨드, 구두법 또는 단어의 동음어에 대응할 수 있다. 제 2 의미는 또한, 사용자가 이전 단어 또는 문자를 정정하게 할 수 있거나, 사용자가 단어의 문자식 또는 표음식 스펠링을 이용하게 할 수 있다.
[0041] 제스처 검출 센서(122)는 제스처가 검출되는지 여부에 대한 결정을 계속할 것이고(516), 제스처가 검출되는 한, 제스처는 타임 스탬핑될 것이며(512), 프로세싱 컴포넌트(106)는 검출된 제스처의 시간으로부터 제 2 모드에서 오디오 파형 입력을 프로세싱할 것이다(514). 제스처가 검출되지 않으면, 제스처가 더 이상 검출되지 않는 시간이 타임 스탬핑되고(518), 프로세싱 컴포넌트(106)는 제스처가 더 이상 검출되지 않는 시간으로부터 제 1 모드에서 오디오 파형 입력의 프로세싱을 시작할 것이다(520). 일부 실시예들에 따라, 제 1 모드에서 검출된 오디오 입력을 프로세싱하는 것은, 검출된 오디오 파형에 의해 생성된 전기 신호에 대응하는 제 1 의미가 프로세싱 컴포넌트(106)에 의해 이용되도록, 검출된 오디오 입력을 프로세싱하는 것을 포함할 수 있다. 프로세싱 컴포넌트는, 제스처가 검출될 때까지(508), 제 1 모드에서 오디오 파형 입력의 프로세싱을 계속할 것이다(510). 일부 실시예들에 따라, 오디오 파형들 입력이 마이크로폰(118)에 의해 더 이상 검출되지 않은 이후, 제스처 검출 센서(122)에 의한 제스처 검출은 전력을 보존하기 위해 중지될 수 있다.
[0042] 도 6a-6g는 일부 실시예들과 일치하게, 검출된 제스처에 기초하여 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하는 시스템의 예를 예시한다. 도 6a-6g에 도시된 예시적 시스템은, 도 6a-6g에 도시된 시스템에서, 디바이스(100)가 제스처가 검출된 이후 제 2 모드에서 검출된 오디오 파형들을 프로세싱하고, 후속 제스처가 검출될 때까지 제 2 모드에서 검출된 오디오 파형들의 프로세싱을 계속하는 것을 제외하고, 도 2a-2c 및 3a-3f에 도시된 시스템과 유사하다. 도 6a에 도시된 바와 같이, 사용자(120)는 시스템 클럭(124)에 의해 결정되는 타임 스탬프를 갖는 제스처 검출 센서(122)에 의해 검출된 제스처를 수행할 수 있다. 도 6a-6g에 도시된 예에 따라, 디바이스의 프로세싱 컴포넌트(106)는 후속하는 검출된 제스처의 대략의(approximately) 타임 스탬프까지 검출된 제스처의 대략의 타임 스탬프로부터 제 2 모드에서 검출된 오디오 파형들을 프로세싱할 수 있다.
[0043] 도 6b에 도시된 바와 같이, 마이크로폰(118)은 시스템 클럭(124)에 의해 결정되는 타임 스탬프에서 사용자로부터, 전기 신호를 생성하는 오디오 파형들을 검출할 수 있다. "E-mail", "John", "at", "doe", "dot" 및 "com"라는 단어들에 대응하는 검출된 오디오 파형들은 메모리들(108-112) 중 임의의 것에서의 사전들 내의 하나 또는 둘 이상의 의미들을 가질 수 있다. 검출된 오디오 파형들의 타임 스탬프 이전의 그리고 후속 제스처의 검출 이전의 타임 스탬프에서 제스처가 검출되었기 때문에, 오디오 파형들은 제 2 모드에서 프로세싱될 수 있고, 오디오 파형들에는 제 2 의미들이 주어질 수 있다. 제 2 의미는 커맨드 또는 구두법일 수 있다. 일부 실시예들에 따라, 제 2 모드에서, "E-mail"이라는 단어에는 다음의 이메일 어드레스로의 이메일을 생성하기 위해 커맨드의 의미가 주어질 수 있다. "John"이라는 단어는 제 2 의미를 갖지 않을 수 있으며, "John"이라는 단어에는 제 1 모드에서와 제 2 모드에서 동일한 의미가 주어질 수 있다. "at"이라는 단어에는 제 2 모드에서 구두법 마크 "@"로서의 의미가 주어질 수 있다. "doe"라는 단어는 제 2 의미를 갖지 않을 수 있으며, "doe"라는 단어에는 제 1 모드에서와 제 2 모드에서 동일한 의미가 주어질 수 있다. "dot"이라는 단어에는 제 2 모드에서 구두법 마크 "."로서의 의미가 주어질 수 있다. "com"이라는 단어는 제 2 의미를 갖지 않을 수 있으며, "com"이라는 단어에는 제 1 모드에서와 제 2 모드에서 동일한 의미가 주어질 수 있다.
[0044] 도 6c에 도시된 바와 같이, 사용자(120)는 제스처 검출 센서(122)에 의해 검출될 수 있는 제스처를 수행하며, 시스템 클럭(124)에 따른 타임 스탬프를 가질 수 있다. 디바이스(100)의 프로세싱 컴포넌트(106)는, 검출된 제스처와 연관된 타임 스탬프로부터 프로세싱 컴포넌트(106)에 의해 검출된 오디오 파형들에 제 1 의미가 주어지도록, 제 1 모드에 따라 후속하는 검출된 오디오 파형들을 프로세싱할 수 있다. 도 6d에 도시된 바와 같이, 마이크로폰(118)은, 시스템 클럭(124)에 의해 결정되는 타임 스탬프에서 사용자로부터, 전기 신호를 생성하는 오디오 파형들을 검출할 수 있다. "John", "please", "e-mail", "me", "the", "spreadsheet", "for", "the", "upcoming" 및 "period"라는 단어들에 대응하는 검출된 오디오 파형들은 메모리들(108-112) 중 임의의 것에서의 사전들 내의 하나 또는 둘 이상의 의미들을 가질 수 있다. 검출된 오디오 파형들의 타임 스탬프 이전의 타임 스탬프에서 후속 제스처가 검출되지 않았기 때문에, 오디오 파형들은 제 1 모드에서 프로세싱될 수 있고, 오디오 파형들에는 제 1 의미들이 주어질 수 있다. 제 1 의미는 디스플레이 컴포넌트(114)에 의해 디스플레이되는 텍스트에 대응할 수 있다.
[0045] 도 6e에 도시된 바와 같이, 사용자(120)는 제스처 검출 센서(122)에 의해 검출될 수 있는 제스처를 수행하며, 시스템 클럭(124)에 따른 타임 스탬프를 가질 수 있다. 디바이스(100)의 프로세싱 컴포넌트(106)는, 검출된 제스처와 연관된 타임 스탬프로부터 프로세싱 컴포넌트(106)에 의해 검출된 오디오 파형들에 제 2 의미가 주어지도록, 제 2 모드에 따라 후속하는 검출된 오디오 파형들을 프로세싱할 수 있다. 도 6e에 도시된 바와 같이, 마이크로폰(118)은, 시스템 클럭(124)에 의해 결정되는 타임 스탬프에서 사용자로부터, 전기 신호를 생성하는 오디오 파형들을 검출할 수 있다. "period"라는 단어에 대응하는 검출된 오디오 파형들은 메모리들(108-112) 중 임의의 것에서의 사전들 내의 하나 또는 둘 이상의 의미들을 가질 수 있다. 검출된 오디오 파형들의 타임 스탬프 이전의 그리고 후속 제스처가 검출되기 이전의 타임 스탬프에서 제스처가 검출되었기 때문에, 오디오 파형들은 제 2 모드에서 프로세싱될 수 있고, 오디오 파형들에는 제 2 의미들이 주어질 수 있다. 제 2 의미는 검출된 오디오 파형들과 연관된 구두법에 대응할 수 있다.
[0046] 도 6g는 도 6a-6f의 결과를 예시한다. 도 6g에 도시된 바와 같이, "John please e-mail me the spreadsheet for the upcoming period."라는 메시지를 포함하는, "john@doe.com"으로의 이메일 메시지가 생성되었다. 도 6a-6g에 도시된 바와 같이, "e-mail" 및 "period" 단어들은 적어도 제 1 모드에서 제 1 의미를 그리고 제 2 모드에서 제 2 의미를 가질 수 있으며, 여기서, 사용자(120)는 모드를 특정하고, 따라서, 제스처를 이용함으로써, 의미를 특정할 수 있다. 도 6a-6g가 텍스트에 대응하는 제 1 모드, 및 커맨드 또는 구두법에 대응하는 제 2 모드에 대해 설명되었지만, 추가 모드들이 또한 포함될 수 있다. 추가 모드들은 정정 모드, 또는 문자식 또는 표음식 사운딩 모드를 포함할 수 있다. 이 추가 모드들은 도시된 제 2 모드 대신일 수 있거나, 도시된 제 2 모드에 추가된 것일 수 있다.
[0047] 도 7은 일부 실시예들과 일치하게, 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하는 방법을 예시하는 흐름도이다. 예시를 목적으로, 도 7은 도 1 및 6a-6g 중 임의의 것을 참조하여 설명될 것이다. 도 7에 도시된 방법은, 디바이스(100)의 프로세싱 컴포넌트(106) 내의 하나 또는 둘 이상의 프로세서들에 의한 실행을 위한 컴퓨터 판독가능한 명령들로 구현될 수 있다. 도 7에 도시된 바와 같이, 마이크로폰(118)은 사용자(120)로부터 초기 오디오 파형 입력을 검출할 수 있다(702). 일부 실시예들에 따라, 오디오 파형 입력은 음성 구술 또는 음성 커맨딩 디바이스(100)의 목적들을 위해 사용자(120)가 디바이스(100)에 말한 음성일 수 있다. 마이크로폰(118)에 의해 검출된 오디오 파형은, 의미들의 사전에 기초하여 전기 신호의 의미를 결정하기 위해 메모리들(108, 110 및 112) 중 임의의 것에서의 명령들에 따라 프로세싱 컴포넌트(106)에 의해 프로세싱될 수 있는 전기 신호를 생성할 수 있다. 초기 오디오 파형 입력이 검출될 때, 디바이스(100)는 제스처 검출 센서(122)를 활성화함으로써 제스처 검출을 개시할 수 있거나(704), 제스처 검출은 일부 실시예들에서 이미 진행되었을 수 있다. 일부 실시예들에 따라, 제스처 검출 센서(122)는 초기 오디오 파형 입력이 검출될 때까지 전력을 보존하기 위해 비활성 상태로 남아 있을 수 있다. 그 다음, 검출된 오디오 파형 입력은 시스템 클럭(124)으로부터 수신된 시간에 따라 타임 스탬핑될 수 있다(706).
[0048] 제스처 검출 센서(122)는 제스처가 검출되는지 여부를 결정할 수 있다(708). 제스처가 검출되지 않은 경우, 프로세싱 컴포넌트(106)는 제 1, 정상 및/또는 디폴트 모드에서 검출된 오디오 파형 입력을 프로세싱할 수 있다(710). 일부 실시예들에 따라, 제 1 모드에서 검출된 오디오 입력을 프로세싱하는 것은, 검출된 오디오 파형에 의해 생성된 전기 신호에 대응하는 제 1 의미가 프로세싱 컴포넌트(106)에 의해 이용되도록, 검출된 오디오 파형 입력을 프로세싱하는 것을 포함할 수 있다. 제스처가 제스처 검출 센서(122)에 의해 검출되는 경우, 검출된 제스처는 시스템 클럭(124)으로부터 수신된 시간에 따라 타임 스탬핑된다(712). 그 다음, 프로세싱 컴포넌트(106)는 검출된 제스처의 타임 스탬프로부터 제 2 모드에서 검출된 오디오 파형을 프로세싱할 수 있다(714). 일부 실시예들에 따라, 제 2 모드에서 검출된 오디오 파형 입력을 프로세싱하는 것은, 검출된 오디오 파형에 의해 생성된 전기 신호에 대응하는 제 2 의미가 프로세싱 컴포넌트(106)에 의해 이용되도록, 제 2 모드에 따라 검출된 오디오 파형 입력을 프로세싱하는 것을 포함할 수 있다. 제 2 또는 대체 의미는 커맨드, 구두법 또는 단어의 동음어에 대응할 수 있다. 제 2 의미는 또한, 사용자가 이전 단어 또는 문자를 정정하게 할 수 있거나, 사용자가, 예를 들어, 단어의 문자식 또는 표음식 스펠링을 이용하게 할 수 있다.
[0049] 제스처 검출 센서(122)는 제스처가 검출되는지 여부에 대한 결정을 계속할 것이고(716), 프로세싱 컴포넌트(106)는 검출된 제스처의 시간으로부터 제 2 모드에서 오디오 파형 입력을 프로세싱할 것이다(714). 도 7에 예시된 실시예에서, 제 2 모드에서 오디오 파형 입력을 프로세싱하는 것은 후속 제스처가 검출될 때까지 계속될 수 있다. 후속 제스처가 검출되면, 후속 제스처가 검출되는 시간이 타임 스탬핑되고(718), 프로세싱 컴포넌트(106)는 후속 제스처가 검출되는 시간으로부터 제 1 모드에서 오디오 파형 입력의 프로세싱을 시작할 것이다(720). 일부 실시예들에 따라, 제 1 모드에서 검출된 오디오 입력을 프로세싱하는 것은, 검출된 오디오 파형에 의해 생성된 전기 신호에 대응하는 제 1 의미가 프로세싱 컴포넌트(106)에 의해 이용되도록, 검출된 오디오 입력을 프로세싱하는 것을 포함할 수 있다. 프로세싱 컴포넌트(106)는, 또 다른 제스처가 검출될 때까지(708), 제 1 모드에서 오디오 파형 입력의 프로세싱을 계속할 수 있다(710). 도 7에 도시된 방법은 사용자(120)가, 제스처를 이용하여 제 2 모드로 스위칭하게 할 수 있고, 그 다음, 제스처, 예를 들어, 동일한 제스처 또는 또 다른 제스처, 이를테면, 모드 엔드 제스처를 이용하여 제 1 모드로 다시 스위칭하게 할 수 있다. 도 7은 제스처를 이용하여 제 1 모드 및 제 2 모드 사이에서의 스위칭을 설명하지만, 추가 모드들로 스위칭하기 위해 제스처 검출 센서에 의해 추가 제스처들이 검출될 수 있다.
[0050] 예를 들어, 추가 모드들은 정정 모드를 포함할 수 있다. 예를 들어, 사용자(120)는 정정 모드에 진입할 수 있으며, 여기서, 특정 단어들에는 사용자가 디스플레이 컴포넌트(114) 상에 텍스트로서 디스플레이된 단어를 정정하게 하는 정정 모드에서의 의미가 주어진다. 이러한 단어들은 "delete", "fix", "I mean", "I meant", "oops", "correct", "back" 및 "replace"를 포함할 수 있다. 이러한 단어들에는, 검출된 제스처에 의해 표시된 정정 모드에서 프로세싱될 때, 이전 단어를 삭제 또는 교체하는 제 2 의미가 주어질 수 있다. 일부 실시예들에서, 이러한 단어들은, 특정 제스처, 예를 들어, 짧게 왼쪽으로의 스와이프 제스처에 의해 달성될 때, 정정 모드에서만 프로세싱된다.
[0051] 추가 모드들은 문자식 또는 표음식 변형 모드를 포함할 수 있다. 예를 들어, 특정한 검출된 오디오 파형들은 문자식 또는 표음식 스펠링에 대응하는 제 1 또는 정상 스펠링과 상이한 스펠링을 가질 수 있다. 일부 실시예들에서, 문자식 또는 표음식 스펠링은 자동으로 프로세싱 컴포넌트(106)에 의해 정정되어 제 1 또는 정상 스펠링이 주어질 수 있다. 예를 들어, 사용자가 스페인어 단어의 틀린 발음으로서 또는 영어 슬랭 용어로서 "playa"를 말하는 경우, 프로세싱 컴포넌트는 "player"의 정확한 영어 용어에 대응하는 이 단어에 대한 스펠링을 가질 수 있다. 이 단어는 슬랭 단어이거나 해변에 대한 스페인어 단어인 제 2 스펠링을 가질 수 있고, 사용자(120)는 제스처를 수행함으로써 그것이 원하는 스펠링임을 구체적으로 표시할 수 있다.
[0052] 이 추가 모드들은 도면들에 지칭되는 바와 같은 제 2 모드, 또는 제 3, 제 4 또는 임의의 추가 모드에 대응할 수 있다. 일부 실시예들과 일치하게, 검출된 오디오 파형들에 대응하는 전기 신호들에는 메모리들(108-112) 중 임의의 것에 저장된 사전들 내의 하나 또는 둘 이상의 의미들이 주어질 수 있다. 일부 오디오 파형들은 2개의 의미들을 가질 수 있으며, 여기서, 제스처는 의미들 사이에서 스위칭하기 위해 이용될 수 있다. 일부 오디오 파형들은 다수의 의미들을 가질 수 있으며, 여기서, 다수의 제스처들은 의미들 사이에서 스위칭하기 위해 이용될 수 있다. 의미들은, 위에서 설명된 바와 같이, 구두법, 커맨드들, 정정들 및 문자식 또는 표음식 의미들을 포함할 수 있다. 의미들은 또한, 특정 단어들에 대응하는 그룹들에 대응할 수 있다. 예를 들어, "friends"이라는 단어는 디스플레이 컴포넌트(114) 상에 단어의 텍스트를 디스플레이하는 제 1 의미를 가질 수 있다. 단어는 또한, 제스처를 수행하고 "e-mail friends"라고 말한 사용자(120)가 "friends"로서 라벨링되는 모든 연락처들(contacts)로의 이메일을 생성하기 위해 커맨드로서 인터프리팅될 수 있도록, "friends"로서 라벨링되는 연락처들의 그룹을 지칭하는 제 2 의미를 가질 수 있다. 제 2 또는 대체 의미들은 또한, 사용자-정의될 수 있어서, 사용자(120)가 단어 또는 구에 상이한 의미를 적용시키고, 그 다음, 제스처를 수행함으로써 이 의미로 스위칭할 수 있다.
[0053] 본 개시에 따라, 소프트웨어, 이를테면, 프로그램 코드 및/또는 데이터는 비-일시적 기계 판독가능한 매체를 포함하는 하나 또는 둘 이상의 기계 판독가능한 매체들 상에 저장될 수 있다. 본원에서 식별된 소프트웨어가 하나 또는 둘 이상의 범용 또는 특수 목적 컴퓨터들 및/또는 컴퓨터 시스템들, 네트워킹된 그리고/또는 다른 것들을 이용하여 구현될 수 있다는 것이 또한 고려된다. 적용가능한 경우, 본원에 설명된 특징들을 제공하기 위해 본원에 설명된 다양한 단계들의 순서가 변경되고, 복합 단계들로 결합되며 그리고/또는 서브-단계들로 분리될 수 있다.
[0054] 따라서, 본원에 설명된 바와 같은 실시예들은, 사용자가 제스처를 이용하여, 단어 또는 단어 스트링이 커맨드, 구두법 마크 또는 동작과 같은 대체 의미를 갖도록 대체 모드에서 프로세싱되기로 될 때를 특정함으로써, 현재 음성 구술 솔루션들에 대한 개선을 제공할 수 있다. 더욱이, 단어들 및 제스처들의 타임 스탬프들의 비교에 의해 모드들 사이에서 스위칭함으로써, 본원에 설명된 바와 같은 실시예들은 모드들을 스위칭할 때 더 정확성을 제공하고, 제스처를 수행할 때 사용자에 의해 초래된 임의의 레이턴시를 고려할 수 있는 시스템들 및 방법들을 제공할 수 있다. 위에서 제공된 예들은 단지 예시적이며, 제한되는 것으로 의도되지 않는다. 당업자는 본 개시의 범위 내에 있는 것으로 의도되는 개시된 실시예들과 일치하는 다른 시스템들을 쉽게 고안할 수 있다. 이로써, 본 출원은 단지 다음의 청구항들에 의해 제한된다.

Claims (39)

  1. 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템으로서,
    하나 또는 그 초과의 오디오 파형들을 검출하기 위해 구성되는 마이크로폰(microphone);
    상이한 프로세싱 모드들에 대응하는 하나 또는 그 초과의 비접촉식 제스처(touchless gesture)들을 검출하도록 구성되는 제스처 검출 센서;
    상기 마이크로폰에 의해 검출된 상기 하나 또는 그 초과의 오디오 파형들에 대한 타임 스탬프(time stamp)들 및 상기 제스처 검출 센서에 의해 검출된 상기 하나 또는 그 초과의 비접촉식 제스처들에 대한 타임 스탬프들을 제공하도록 구성되는 시스템 클럭 ― 상기 하나 또는 그 초과의 비접촉식 제스처들에 대한 타임 스탬프들은 각각의 검출된 비접촉식 제스처의 시작 시간 및 종료 시간을 표시함 ―;
    상기 하나 또는 그 초과의 비접촉식 제스처들에 관한 정보 및 상기 하나 또는 그 초과의 오디오 파형들을 저장하도록 구성되는 버퍼; 및
    검출된 오디오 파형의 타임 스탬프가 상기 제스처 검출 센서에 의해 검출된 상기 제 2 모드에 대응하는 제 1 비접촉식 제스처의 제 1 타임 스탬프와 상기 하나 또는 그 초과의 비접촉식 제스처들 중 하나와 연관된 제 2 타임 스탬프 사이에 있을 경우, 상기 제 2 모드에 진입하고 상기 제 2 모드에서 상기 버퍼에 저장된 상기 검출된 오디오 파형을 선택적으로 프로세싱하도록 구성되는 하나 또는 그 초과의 프로세서들을 포함하는, ,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  2. 제 1 항에 있어서,
    상기 하나 또는 그 초과의 프로세서들은, 검출된 오디오 파형의 타임 스탬프가 상기 제 1 타임 스탬프 이전에 있거나 또는 상기 제 2 타임 스탬프 이후에 있을 경우, 상기 제 1 모드에서 상기 검출된 오디오 파형을 프로세싱하도록 추가로 구성되는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  3. 제 1 항에 있어서,
    상기 제 1 모드에서 프로세싱되는 검출된 오디오 파형들에 대해 제 1 의미(meaning)들을 저장하고, 상기 제 2 모드에서 프로세싱되는 일부 검출된 오디오 파형들에 대해 제 2 의미들을 저장하는 메모리를 더 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  4. 제 3 항에 있어서,
    상기 제 2 의미들은 커맨드(command), 구두법(punctuation) 마크, 또는 동작 중 적어도 하나를 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  5. 제 4 항에 있어서,
    상기 제 1 의미들은 상기 검출된 오디오 파형들과 연관된 텍스트를 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  6. 제 1 항에 있어서,
    상기 제스처 검출 센서는 카메라, 초음파 트랜스듀서(transducer), 섀도우(shadow) 검출기, 또는 적외선 센서 중 적어도 하나를 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  7. 제 1 항에 있어서,
    상기 검출된 오디오 파형이 상기 제 2 모드에서 프로세싱되고 있는 때를 표시하는 피드백을 디스플레이하도록 구성되는 디스플레이를 더 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  8. 제 1 항에 있어서,
    상기 하나 또는 그 초과의 비접촉식 제스처들 각각은 복수의 모드들의 각각의 모드에 대응하고, 그리고
    상기 하나 또는 그 초과의 프로세서들은,
    상기 마이크로폰에 의해 검출된 오디오 파형의 타임 스탬프가 상기 제스처 검출 센서에 의해 검출된 상기 복수의 모드들 중 하나의 모드에 대응하는 상기 하나 또는 그 초과의 비접촉식 제스처들 중 하나의 비접촉식 제스처의 시작에 대응하는 타임 스탬프와 상기 하나의 비접촉식 제스처의 종료에 대응하는 타임 스탬프 사이에 있을 경우, 또는
    상기 검출된 오디오 파형의 타임 스탬프가 상기 하나의 비접촉식 제스처의 시작에 대응하는 타임 스탬프와 다음 검출된 비접촉식 제스처의 시작에 대응하는 타임 스탬프 사이에 있을 경우,
    상기 하나의 모드에서 상기 검출된 오디오 파형을 선택적으로 프로세싱하도록 구성되는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  9. 제 8 항에 있어서,
    상기 복수의 모드들은 정정 모드, 커맨드 모드, 또는 변형(translation) 모드 중 적어도 하나를 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  10. 제 1 항에 있어서,
    상기 검출된 오디오 파형들은 상기 제스처 검출 센서에 의해 검출된 상기 하나 또는 그 초과의 비접촉식 제스처들에 기초한 프로세싱을 위해 상기 버퍼로부터 상기 하나 또는 그 초과의 프로세서들에 제공되는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  11. 제 1 항에 있어서,
    상기 하나 또는 그 초과의 프로세서들은, 상기 마이크로폰이 오디오 파형을 검출하는 경우, 상기 제스처 검출 센서를 이용하는 제스처 검출 프로시저(procedure)를 인에이블(enable)하도록 구성되는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  12. 제 11 항에 있어서,
    상기 제스처 검출 센서는 상기 검출된 오디오 파형이 사람 음성인 것으로 결정될 때까지 비활성인,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  13. 제 1 항에 있어서,
    상기 제 2 모드는 정정 모드, 커맨드 모드, 또는 변형 모드 중 하나를 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  14. 제 1 항에 있어서,
    상기 제 1 비접촉식 제스처의 상기 제 1 타임 스탬프는 상기 제 1 비접촉식 제스처의 시작에 대응하고, 그리고
    상기 제 2 타임 스탬프는 상기 제 1 비접촉식 제스처의 종료에 대응하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  15. 제 1 항에 있어서,
    상기 제 1 비접촉식 제스처의 상기 제 1 타임 스탬프는 상기 제 1 비접촉식 제스처의 시작에 대응하고, 그리고
    상기 제 2 타임 스탬프는 상기 제 1 모드에 대응하는 다음 검출된 비접촉식 제스처의 시작에 대응하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  16. 제 1 항에 있어서,
    상기 하나 또는 그 초과의 오디오 파형들에 대한 타임 스탬프들은 단어들 사이의 포즈(pause)들에서 캡처(capture)되는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  17. 제 1 항에 있어서,
    상기 하나 또는 그 초과의 오디오 파형들에 대한 타임 스탬프들은 다수의 단어들을 포함하는 스트링(string)의 시작 및 종료에서 캡처되고, 그리고
    상기 스트링의 시작 및 종료에서 캡처된 상기 타임 스탬프들을 보간(interpolate)함으로써 개별적인 단어들에 대한 타임 스탬프들이 결정되는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  18. 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 방법으로서,
    마이크로폰에 의해, 하나 또는 그 초과의 오디오 파형들을 검출하는 단계;
    검출된 하나 또는 그 초과의 오디오 파형들을 타임 스탬핑하는 단계;
    제스처 검출 센서에 의해, 하나 또는 그 초과의 모드들에 대응하는 하나 또는 그 초과의 비접촉식 제스처들을 검출하는 단계;
    검출된 하나 또는 그 초과의 비접촉식 제스처들 각각의 시작 시간 및 종료 시간을 타임 스탬핑하는 단계;
    상기 하나 또는 그 초과의 비접촉식 제스처들에 관한 정보 및 상기 하나 또는 그 초과의 오디오 파형들을 버퍼에 저장하는 단계; 및
    상기 마이크로폰에 커플링된 하나 또는 그 초과의 프로세서들에 의해, 상기 오디오 파형의 타임 스탬프가 상기 제스처 검출 센서에 의해 검출된 상기 제 2 모드에 대응하는 제 1 비접촉식 제스처의 제 1 타임 스탬프와 상기 하나 또는 그 초과의 비접촉식 제스처들 중 하나와 연관된 제 2 타임 스탬프 사이에 있을 경우, 상기 제 2 모드에 진입하고 상기 제 2 모드에서 상기 하나 또는 그 초과의 오디오 파형들의 오디오 파형을 선택적으로 프로세싱하는 단계를 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 방법.
  19. 제 18 항에 있어서,
    상기 제 1 비접촉식 제스처의 상기 제 1 타임 스탬프는 상기 제 1 비접촉식 제스처의 시작에 대응하고, 그리고
    상기 제 2 타임 스탬프는 상기 제 1 비접촉식 제스처의 종료 또는 상기 제 1 모드에 대응하는 다음 검출된 비접촉식 제스처의 시작에 대응하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 방법.
  20. 제 18 항에 있어서,
    상기 오디오 파형의 타임 스탬프가 상기 제 1 타임 스탬프 이전에 있거나 또는 상기 제 2 타임 스탬프 이후에 있을 경우, 상기 제 1 모드에서 상기 오디오 파형을 프로세싱하는 단계를 더 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 방법.
  21. 제 18 항에 있어서,
    상기 제 2 모드에서 상기 오디오 파형을 프로세싱하는 단계는, 상기 오디오 파형을 상기 제 1 모드에 대응하는 제 1 의미와 상이한 의미와 상관시키는 단계를 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 방법.
  22. 제 21 항에 있어서,
    상기 제 1 의미와 상이한 의미는 커맨드, 구두법 마크, 또는 동작 중 적어도 하나를 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 방법.
  23. 제 22 항에 있어서,
    상기 제 1 의미는 상기 오디오 파형과 연관된 텍스트를 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 방법.
  24. 제 18 항에 있어서,
    상기 하나 또는 그 초과의 비접촉식 제스처들을 검출하는 단계는, 상기 하나 또는 그 초과의 비접촉식 제스처들이 카메라, 초음파 트랜스듀서, 섀도우 검출기, 또는 적외선 센서 중 적어도 하나를 이용하여 수행되는지를 검출하는 단계를 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 방법.
  25. 제 18 항에 있어서,
    상기 제 2 모드에서 상기 오디오 파형을 프로세싱하는 단계는, 상기 오디오 파형이 상기 제 2 모드에서 프로세싱되고 있음을 표시하는 오디오 또는 시각 피드백을 생성하는 단계를 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 방법.
  26. 제 18 항에 있어서,
    상기 하나 또는 그 초과의 비접촉식 제스처들 각각은 상기 하나 또는 그 초과의 모드들의 각각의 모드에 대응하고, 그리고
    상기 선택적으로 프로세싱하는 단계는,
    상기 오디오 파형의 타임 스탬프가 상기 제스처 검출 센서에 의해 검출된 하나의 비접촉식 제스처의 시작에 대응하는 타임 스탬프와 상기 하나의 비접촉식 제스처의 종료에 대응하는 타임 스탬프 사이에 있을 경우, 또는
    상기 오디오 파형의 타임 스탬프가 상기 하나의 비접촉식 제스처의 시작에 대응하는 타임 스탬프와 상기 하나 또는 그 초과의 비접촉식 제스처들의 다음 검출된 비접촉식 제스처의 시작에 대응하는 타임 스탬프 사이에 있을 경우,
    상기 하나 또는 그 초과의 비접촉식 제스처들 중 상기 하나의 비접촉식 제스처에 대응하는 상기 하나 또는 그 초과의 모드들 중 하나의 모드에서 상기 오디오 파형을 선택적으로 프로세싱하는 단계를 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 방법.
  27. 제 18 항에 있어서,
    상기 하나 또는 그 초과의 비접촉식 제스처들이 검출될 때 상기 버퍼로부터 상기 하나 또는 그 초과의 오디오 파형들을 제공하는 단계를 더 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 방법.
  28. 제 18 항에 있어서,
    상기 마이크로폰이 오디오 파형을 검출하는 것에 응답하여 제스처 검출 프로시저를 인에이블하는 단계를 더 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 방법.
  29. 명령들을 포함하는 비-일시적 컴퓨터 판독가능한 매체로서,
    상기 명령들은 하나 또는 그 초과의 프로세서들에 의해 실행될 때, 상기 하나 또는 그 초과의 프로세서들로 하여금, 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 방법을 수행하게 하고, 상기 방법은:
    하나 또는 그 초과의 오디오 파형들을 검출하는 단계;
    검출된 하나 또는 그 초과의 오디오 파형들을 타임 스탬핑하는 단계;
    하나 또는 그 초과의 모드들에 대응하는 하나 또는 그 초과의 비접촉식 제스처들을 검출하는 단계;
    검출된 하나 또는 그 초과의 비접촉식 제스처들 각각의 시작 시간 및 종료 시간을 타임 스탬핑하는 단계;
    상기 하나 또는 그 초과의 제스처들에 관한 정보 및 상기 하나 또는 그 초과의 오디오 파형들을 버퍼에 저장하는 단계; 및
    상기 오디오 파형의 타임 스탬프가 제스처 검출 센서에 의해 검출된 상기 제 2 모드에 대응하는 상기 하나 또는 그 초과의 비접촉식 제스처들 중 제 1 비접촉식 제스처의 제 1 타임 스탬프와 상기 하나 또는 그 초과의 비접촉식 제스처들 중 하나와 연관된 제 2 타임 스탬프 사이에 있을 경우, 상기 제 2 모드에 진입하고 상기 제 2 모드에서 상기 하나 또는 그 초과의 오디오 파형들의 오디오 파형을 선택적으로 프로세싱하는 단계를 포함하는,
    비-일시적 컴퓨터 판독가능한 매체.
  30. 제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템으로서,
    하나 또는 그 초과의 오디오 파형들을 검출하고, 상기 하나 또는 그 초과의 오디오 파형들을 타임 스탬핑하기 위한 수단;
    하나 또는 그 초과의 모드들에 대응하는 하나 또는 그 초과의 비접촉식 제스처들을 검출하고, 검출된 하나 또는 그 초과의 비접촉식 제스처들 각각의 시작 시간 및 종료 시간을 타임 스탬핑하기 위한 수단;
    상기 하나 또는 그 초과의 제스처들에 관한 정보 및 상기 하나 또는 그 초과의 오디오 파형들을 저장하기 위한 수단; 및
    상기 오디오 파형의 타임 스탬프가 상기 제 2 모드에 대응하는 상기 하나 또는 그 초과의 비접촉식 제스처들 중 제 1 검출된 비접촉식 제스처의 제 1 타임 스탬프와 상기 하나 또는 그 초과의 비접촉식 제스처들 중 하나와 연관된 제 2 타임 스탬프 사이에 있을 경우, 상기 제 2 모드에 진입하고 상기 제 2 모드에서 상기 하나 또는 그 초과의 오디오 파형들로부터 오디오 파형을 선택적으로 프로세싱하기 위한 수단을 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  31. 제 30 항에 있어서,
    상기 제 1 검출된 비접촉식 제스처의 상기 제 1 타임 스탬프는 상기 제 1 검출된 비접촉식 제스처의 시작에 대응하고, 그리고
    상기 제 2 타임 스탬프는 상기 제 1 검출된 비접촉식 제스처의 종료 또는 상기 제 1 모드에 대응하는 다음 검출된 비접촉식 제스처의 시작에 대응하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  32. 제 30 항에 있어서,
    상기 선택적으로 프로세싱하기 위한 수단은, 상기 오디오 파형의 타임 스탬프가 상기 제 1 타임 스탬프 이전에 있거나 또는 상기 제 2 타임 스탬프 이후에 있을 경우, 상기 제 1 모드에서 상기 오디오 파형을 프로세싱하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  33. 제 30 항에 있어서,
    상기 선택적으로 프로세싱하기 위한 수단은, 상기 오디오 파형을 상기 제 1 모드에 대응하는 제 1 의미와 상이한 제 2 의미와 상관시킴으로써 상기 제 2 모드에서 상기 오디오 파형을 프로세싱하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  34. 제 33 항에 있어서,
    상기 제 1 의미와 상이한 상기 제 2 의미는 커맨드, 구두법 마크, 또는 동작 중 적어도 하나를 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  35. 제 34 항에 있어서,
    상기 제 1 의미는 상기 오디오 파형과 연관된 텍스트를 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  36. 제 30 항에 있어서,
    상기 하나 또는 그 초과의 비접촉식 제스처들을 검출하기 위한 수단은, 카메라, 초음파 트랜스듀서, 섀도우 검출기, 또는 적외선 센서 중 적어도 하나를 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  37. 제 30 항에 있어서,
    상기 선택적으로 프로세싱하기 위한 수단은, 상기 오디오 파형이 상기 제 2 모드에서 프로세싱되고 있음을 표시하는 오디오 또는 시각 피드백을 생성하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  38. 제 30 항에 있어서,
    상기 하나 또는 그 초과의 비접촉식 제스처들 각각은 상기 하나 또는 그 초과의 모드들의 각각의 모드에 대응하고, 그리고
    상기 선택적으로 프로세싱하기 위한 수단은,
    상기 오디오 파형의 타임 스탬프가 제스처 검출 센서에 의해 검출된 하나의 비접촉식 제스처의 시작에 대응하는 타임 스탬프와 상기 하나의 비접촉식 제스처의 종료에 대응하는 타임 스탬프 사이에 있을 경우, 또는
    상기 오디오 파형의 타임 스탬프가 상기 하나의 비접촉식 제스처의 시작에 대응하는 타임 스탬프와 상기 하나 또는 그 초과의 비접촉식 제스처들의 다음 검출된 비접촉식 제스처의 시작에 대응하는 타임 스탬프 사이에 있을 경우,
    상기 하나 또는 그 초과의 비접촉식 제스처들 중 상기 하나의 비접촉식 제스처에 대응하는 상기 하나 또는 그 초과의 모드들 중 하나의 모드에서 상기 오디오 파형을 선택적으로 프로세싱하는 것을 포함하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
  39. 제 30 항에 있어서,
    상기 오디오 파형들을 저장하기 위한 수단은, 상기 하나 또는 그 초과의 비접촉식 제스처들을 검출하기 위한 수단이 상기 하나 또는 그 초과의 비접촉식 제스처들을 검출할 때 상기 선택적으로 프로세싱하기 위한 수단에 저장된 오디오 파형들을 제공하는,
    제 1 모드 및 제 2 모드에서 검출된 오디오 파형들을 프로세싱하기 위한 시스템.
KR1020157028927A 2013-03-15 2014-03-13 제스처들을 이용하여 프로세싱 모드들을 스위칭하기 위한 시스템들 및 방법들 KR101748316B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/835,234 US9436287B2 (en) 2013-03-15 2013-03-15 Systems and methods for switching processing modes using gestures
US13/835,234 2013-03-15
PCT/US2014/026273 WO2014151702A1 (en) 2013-03-15 2014-03-13 Systems and methods for switching processing modes using gestures

Publications (2)

Publication Number Publication Date
KR20150127712A KR20150127712A (ko) 2015-11-17
KR101748316B1 true KR101748316B1 (ko) 2017-06-16

Family

ID=50514046

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157028927A KR101748316B1 (ko) 2013-03-15 2014-03-13 제스처들을 이용하여 프로세싱 모드들을 스위칭하기 위한 시스템들 및 방법들

Country Status (6)

Country Link
US (1) US9436287B2 (ko)
EP (1) EP2973549B1 (ko)
JP (1) JP6072344B2 (ko)
KR (1) KR101748316B1 (ko)
CN (1) CN105074817B (ko)
WO (1) WO2014151702A1 (ko)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10042422B2 (en) 2013-11-12 2018-08-07 Thalmic Labs Inc. Systems, articles, and methods for capacitive electromyography sensors
US10188309B2 (en) 2013-11-27 2019-01-29 North Inc. Systems, articles, and methods for electromyography sensors
US11921471B2 (en) 2013-08-16 2024-03-05 Meta Platforms Technologies, Llc Systems, articles, and methods for wearable devices having secondary power sources in links of a band for providing secondary power in addition to a primary power source
US20150124566A1 (en) 2013-10-04 2015-05-07 Thalmic Labs Inc. Systems, articles and methods for wearable electronic devices employing contact sensors
US10163455B2 (en) * 2013-12-03 2018-12-25 Lenovo (Singapore) Pte. Ltd. Detecting pause in audible input to device
US9880632B2 (en) 2014-06-19 2018-01-30 Thalmic Labs Inc. Systems, devices, and methods for gesture identification
KR20170014589A (ko) * 2015-07-30 2017-02-08 삼성전자주식회사 번역 서비스를 제공하는 사용자 단말 장치 및 그 제어 방법
US9978370B2 (en) * 2015-07-31 2018-05-22 Lenovo (Singapore) Pte. Ltd. Insertion of characters in speech recognition
US9678954B1 (en) * 2015-10-29 2017-06-13 Google Inc. Techniques for providing lexicon data for translation of a single word speech input
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム
US11216069B2 (en) * 2018-05-08 2022-01-04 Facebook Technologies, Llc Systems and methods for improved speech recognition using neuromuscular information
CN110300542A (zh) 2016-07-25 2019-10-01 开创拉布斯公司 使用可穿戴的自动传感器预测肌肉骨骼位置信息的方法和装置
WO2020112986A1 (en) 2018-11-27 2020-06-04 Facebook Technologies, Inc. Methods and apparatus for autocalibration of a wearable electrode sensor system
WO2018022657A1 (en) 2016-07-25 2018-02-01 Ctrl-Labs Corporation System and method for measuring the movements of articulated rigid bodies
US10489986B2 (en) 2018-01-25 2019-11-26 Ctrl-Labs Corporation User-controlled tuning of handstate representation model parameters
US11331045B1 (en) 2018-01-25 2022-05-17 Facebook Technologies, Llc Systems and methods for mitigating neuromuscular signal artifacts
US11179066B2 (en) 2018-08-13 2021-11-23 Facebook Technologies, Llc Real-time spike detection and identification
US11000211B2 (en) 2016-07-25 2021-05-11 Facebook Technologies, Llc Adaptive system for deriving control signals from measurements of neuromuscular activity
US20190121306A1 (en) 2017-10-19 2019-04-25 Ctrl-Labs Corporation Systems and methods for identifying biological structures associated with neuromuscular source signals
US10409371B2 (en) 2016-07-25 2019-09-10 Ctrl-Labs Corporation Methods and apparatus for inferring user intent based on neuromuscular signals
JP2018074366A (ja) * 2016-10-28 2018-05-10 京セラ株式会社 電子機器、制御方法およびプログラム
CN106504755A (zh) * 2016-11-08 2017-03-15 广东小天才科技有限公司 一种错误发音的识别方法及装置、用户终端
CN106886286B (zh) * 2017-03-22 2023-11-24 广州幻境科技有限公司 一种基于光电感应的手势识别装置及方法
CN109213312B (zh) * 2017-07-06 2022-01-25 富泰华工业(深圳)有限公司 电子装置及电子装置的显示控制方法
TWI653550B (zh) * 2017-07-06 2019-03-11 鴻海精密工業股份有限公司 電子裝置及電子裝置的顯示控制方法
US20190013016A1 (en) * 2017-07-07 2019-01-10 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Converting speech to text and inserting a character associated with a gesture input by a user
CN107564526B (zh) * 2017-07-28 2020-10-27 北京搜狗科技发展有限公司 处理方法、装置和机器可读介质
US10937414B2 (en) 2018-05-08 2021-03-02 Facebook Technologies, Llc Systems and methods for text input using neuromuscular information
US11961494B1 (en) 2019-03-29 2024-04-16 Meta Platforms Technologies, Llc Electromagnetic interference reduction in extended reality environments
EP3743901A4 (en) 2018-01-25 2021-03-31 Facebook Technologies, Inc. REAL-TIME PROCESSING OF HAND REPRESENTATION MODEL ESTIMATES
US11907423B2 (en) 2019-11-25 2024-02-20 Meta Platforms Technologies, Llc Systems and methods for contextualized interactions with an environment
US11481030B2 (en) 2019-03-29 2022-10-25 Meta Platforms Technologies, Llc Methods and apparatus for gesture detection and classification
WO2019147996A1 (en) 2018-01-25 2019-08-01 Ctrl-Labs Corporation Calibration techniques for handstate representation modeling using neuromuscular signals
EP3743892A4 (en) 2018-01-25 2021-03-24 Facebook Technologies, Inc. VISUALIZATION OF INFORMATION ON THE STATE OF A RECONSTRUCTED HAND
US11493993B2 (en) 2019-09-04 2022-11-08 Meta Platforms Technologies, Llc Systems, methods, and interfaces for performing inputs based on neuromuscular control
WO2019148002A1 (en) 2018-01-25 2019-08-01 Ctrl-Labs Corporation Techniques for anonymizing neuromuscular signal data
US11150730B1 (en) 2019-04-30 2021-10-19 Facebook Technologies, Llc Devices, systems, and methods for controlling computing devices via neuromuscular signals of users
US10817795B2 (en) 2018-01-25 2020-10-27 Facebook Technologies, Llc Handstate reconstruction based on multiple inputs
US10592001B2 (en) * 2018-05-08 2020-03-17 Facebook Technologies, Llc Systems and methods for improved speech recognition using neuromuscular information
EP3801743A4 (en) 2018-05-25 2021-08-04 Facebook Technologies, LLC PROCESSES AND APPARATUS FOR OBTAINING A SUB-MUSCULAR COMMAND
EP3801216A4 (en) 2018-05-29 2021-04-14 Facebook Technologies, LLC. SHIELDING TECHNIQUES FOR NOISE REDUCTION IN SURFACE ELECTROMYOGRAPHY SIGNAL MEASUREMENT AND RELATED SYSTEMS AND METHODS
CN112585600A (zh) 2018-06-14 2021-03-30 脸谱科技有限责任公司 使用神经肌肉标记进行用户识别和认证
US11172293B2 (en) * 2018-07-11 2021-11-09 Ambiq Micro, Inc. Power efficient context-based audio processing
US11045137B2 (en) 2018-07-19 2021-06-29 Facebook Technologies, Llc Methods and apparatus for improved signal robustness for a wearable neuromuscular recording device
EP4241661A1 (en) 2018-08-31 2023-09-13 Facebook Technologies, LLC Camera-guided interpretation of neuromuscular signals
WO2020061451A1 (en) 2018-09-20 2020-03-26 Ctrl-Labs Corporation Neuromuscular text entry, writing and drawing in augmented reality systems
US10921764B2 (en) 2018-09-26 2021-02-16 Facebook Technologies, Llc Neuromuscular control of physical objects in an environment
WO2020072915A1 (en) 2018-10-05 2020-04-09 Ctrl-Labs Corporation Use of neuromuscular signals to provide enhanced interactions with physical objects in an augmented reality environment
US10905383B2 (en) 2019-02-28 2021-02-02 Facebook Technologies, Llc Methods and apparatus for unsupervised one-shot machine learning for classification of human gestures and estimation of applied forces
CN110164440B (zh) * 2019-06-03 2022-08-09 交互未来(北京)科技有限公司 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质
CN112309180A (zh) * 2019-08-30 2021-02-02 北京字节跳动网络技术有限公司 文本处理方法、装置、设备及介质
US20210225377A1 (en) * 2020-01-17 2021-07-22 Verbz Labs Inc. Method for transcribing spoken language with real-time gesture-based formatting
US11670293B2 (en) * 2020-09-02 2023-06-06 Google Llc Arbitrating between multiple potentially-responsive electronic devices
US11868531B1 (en) 2021-04-08 2024-01-09 Meta Platforms Technologies, Llc Wearable device providing for thumb-to-finger-based input gestures detected based on neuromuscular signals, and systems and methods of use thereof
US11908475B1 (en) * 2023-02-10 2024-02-20 Cephable Inc. Systems, methods and non-transitory computer readable media for human interface device accessibility

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050043954A1 (en) 2001-09-05 2005-02-24 Voice Signal Technologies, Inc. Speech recognition using automatic recognition turn off
US20120239396A1 (en) 2011-03-15 2012-09-20 At&T Intellectual Property I, L.P. Multimodal remote control

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0883158A (ja) * 1994-09-14 1996-03-26 Canon Inc 情報処理方法及び装置
JPH1173297A (ja) * 1997-08-29 1999-03-16 Hitachi Ltd 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法
WO2000019307A1 (fr) * 1998-09-25 2000-04-06 Hitachi, Ltd. Procede et dispositif d'interaction de traitement
US6795806B1 (en) * 2000-09-20 2004-09-21 International Business Machines Corporation Method for enhancing dictation and command discrimination
US7369997B2 (en) * 2001-08-01 2008-05-06 Microsoft Corporation Controlling speech recognition functionality in a computing device
US7260529B1 (en) 2002-06-25 2007-08-21 Lengen Nicholas D Command insertion system and method for voice recognition applications
US8952895B2 (en) * 2011-06-03 2015-02-10 Apple Inc. Motion-based device operations
US8022989B2 (en) * 2005-08-17 2011-09-20 Palo Alto Research Center Incorporated Method and apparatus for controlling data delivery with user-maintained modes
US8886521B2 (en) 2007-05-17 2014-11-11 Redstart Systems, Inc. System and method of dictation for a speech recognition command system
DE102008051757A1 (de) * 2007-11-12 2009-05-14 Volkswagen Ag Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen
WO2010030129A2 (en) 2008-09-10 2010-03-18 Jun Hyung Sung Multimodal unification of articulation for device interfacing
US9123341B2 (en) * 2009-03-18 2015-09-01 Robert Bosch Gmbh System and method for multi-modal input synchronization and disambiguation
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
JP5413673B2 (ja) 2010-03-08 2014-02-12 ソニー株式会社 情報処理装置および方法、並びにプログラム
US20110311144A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Rgb/depth camera for improving speech recognition
JP6087899B2 (ja) * 2011-03-31 2017-03-01 マイクロソフト テクノロジー ライセンシング,エルエルシー 会話ダイアログ学習および会話ダイアログ訂正
US8255218B1 (en) 2011-09-26 2012-08-28 Google Inc. Directing dictation into input fields
US8954330B2 (en) * 2011-11-28 2015-02-10 Microsoft Corporation Context-aware interaction system using a semantic model
US9931154B2 (en) * 2012-01-11 2018-04-03 Biosense Webster (Israel), Ltd. Touch free operation of ablator workstation by use of depth sensors

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050043954A1 (en) 2001-09-05 2005-02-24 Voice Signal Technologies, Inc. Speech recognition using automatic recognition turn off
US20120239396A1 (en) 2011-03-15 2012-09-20 At&T Intellectual Property I, L.P. Multimodal remote control

Also Published As

Publication number Publication date
JP6072344B2 (ja) 2017-02-01
KR20150127712A (ko) 2015-11-17
EP2973549B1 (en) 2017-04-19
US20140278441A1 (en) 2014-09-18
CN105074817A (zh) 2015-11-18
JP2016512364A (ja) 2016-04-25
CN105074817B (zh) 2018-11-27
EP2973549A1 (en) 2016-01-20
WO2014151702A1 (en) 2014-09-25
US9436287B2 (en) 2016-09-06

Similar Documents

Publication Publication Date Title
KR101748316B1 (ko) 제스처들을 이용하여 프로세싱 모드들을 스위칭하기 위한 시스템들 및 방법들
US11430428B2 (en) Method, apparatus, and storage medium for segmenting sentences for speech recognition
US11181980B2 (en) Natural human-computer interaction for virtual personal assistant systems
CN108829235B (zh) 语音数据处理方法和支持该方法的电子设备
CN108255290B (zh) 移动装置上的模态学习
CN108537207B (zh) 唇语识别方法、装置、存储介质及移动终端
US20200265197A1 (en) Language translation device and language translation method
US9880808B2 (en) Display apparatus and method of controlling a display apparatus in a voice recognition system
EP3483876A1 (en) Initiating actions based on partial hotwords
US9128930B2 (en) Method, device and system for providing language service
KR20180109580A (ko) 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
US20110264452A1 (en) Audio output of text data using speech control commands
CN106407176B (zh) 在语音识别中插入字符的方法和设备
WO2015062312A1 (en) Method, device and system for providing language service
KR102501083B1 (ko) 음성 인식 방법 및 이를 사용하는 전자 장치
EP3296990A1 (en) Voice recognition device, voice recognition method, and voice recognition program
KR20160104243A (ko) 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US11587564B2 (en) Enhancing signature word detection in voice assistants
WO2014103355A1 (ja) 情報処理装置、情報処理方法及びプログラム
CA3143933A1 (en) Enhancing signature word detection in voice assistants

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant