KR20220041831A - 음성 인식의 활성화 - Google Patents

음성 인식의 활성화 Download PDF

Info

Publication number
KR20220041831A
KR20220041831A KR1020227002030A KR20227002030A KR20220041831A KR 20220041831 A KR20220041831 A KR 20220041831A KR 1020227002030 A KR1020227002030 A KR 1020227002030A KR 20227002030 A KR20227002030 A KR 20227002030A KR 20220041831 A KR20220041831 A KR 20220041831A
Authority
KR
South Korea
Prior art keywords
hand
audio signal
detecting
response
detector
Prior art date
Application number
KR1020227002030A
Other languages
English (en)
Inventor
성락 윤
영모 강
혜진 장
병근 김
규웅 황
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20220041831A publication Critical patent/KR20220041831A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3231Monitoring the presence, absence or movement of users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/143Sensing or illuminating at different wavelengths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

입력 사운드를 나타내는 오디오 신호를 프로세싱하기 위한 디바이스는 디바이스의 적어도 부분 위에서의 손의 적어도 부분의 검출에 응답하여 제 1 표시를 생성하도록 구성된 손 검출기를 포함한다. 디바이스는 또한, 제 1 표시에 응답하여, 활성화되어, 오디오 신호를 프로세싱하도록 구성된 자동 음성 인식 시스템을 포함한다.

Description

음성 인식의 활성화
35 U.S.C. §119 하의 우선권 주장
본 특허출원은 "ACTIVATING SPEECH RECOGNITIONS" 의 명칭으로 2019년 7월 30일자로 출원된 정규출원 제16/526,608호를 우선권 주장하고, 이 출원은 본원의 양수인에게 양도되고 본 명세서에 참조로 명시적으로 통합된다.
분야
본 개시는 일반적으로 음성 인식에 관한 것으로, 보다 구체적으로는 음성 활성화 시스템을 활성화하는 것에 관한 것이다.
음성 인식은, 전자 디바이스가 사용자들로부터의 구두 질문들 또는 명령들을 해석할 수 있게 하는데 종종 사용된다. 이러한 구두 질문들 또는 명령들은, 구두 질문들 또는 명령들의 텍스처 출력을 생성하는 자동 음성 인식 (ASR) 엔진에서, 마이크로폰 입력과 같은 오디오 신호를 분석함으로써 식별될 수 있다. "상시 접속 (always-on)" ASR 시스템은 전자 디바이스가 오디오 입력을 계속적으로 스캔하여 오디오 입력에서 사용자 명령들 또는 질문들을 검출할 수 있게 한다. 그러나, ASR 시스템의 계속적 동작은 상대적으로 높은 전력 소비를 초래하며, 이는 모바일 디바이스에서 구현될 때 배터리 수명을 감소시킨다.
일부 디바이스들에서, 구두 음성 명령은 구두 활성화 키워드가 선행되지 않으면 인식되지 않을 것이다. 그 활성화 키워드의 인식은 이러한 디바이스들이 ASR 엔진을 활성화하여 음성 명령을 프로세싱할 수 있게 한다. 그러나, 모든 명령들 전에 활성화 키워드를 말하는 것은 추가 시간을 소비하고 화자에게 정확한 발음과 적절한 억양을 사용할 것을 요구한다. 다른 디바이스들에서는, 사용자가 음성 인식을 개시하기 위해 누를 수 있는 전용 버튼이 제공된다. 그러나, 차량을 운전 중일 때와 같은 일부 상황들에서, 버튼의 위치를 찾아 정확히 누르는 것은 다른 태스크들로부터의 사용자의 주의의 분산을 초래할 수 있다.
본 개시의 일 구현에 따르면, 입력 사운드를 나타내는 오디오 신호를 프로세싱하기 위한 디바이스는, 디바이스의 적어도 부분 위에서의 손의 적어도 부분의 검출에 응답하여 제 1 표시를 생성하도록 구성된 손 검출기를 포함한다. 디바이스는 또한, 제 1 표시에 응답하여, 활성화되어, 오디오 신호를 프로세싱하도록 구성된 자동 음성 인식 시스템을 포함한다.
본 개시의 다른 양태에 따르면, 입력 사운드를 나타내는 오디오 신호를 프로세싱하는 방법은, 디바이스에서, 디바이스의 적어도 부분 위에서 손의 적어도 부분을 검출하는 단계를 포함한다. 방법은 또한, 디바이스의 부분 위에서 손의 부분을 검출하는 것에 응답하여, 자동 음성 인식 시스템을 활성화하여 오디오 신호를 프로세싱하는 단계를 포함한다.
본 개시의 다른 양태에 따르면, 비일시적 컴퓨터 판독가능 매체는 명령들을 포함하고, 그 명령들은, 디바이스의 하나 이상의 프로세서들에 의해 실행될 경우, 하나 이상의 프로세서들로 하여금, 입력 사운드를 나타내는 오디오 신호를 프로세싱하기 위한 동작들을 수행하게 한다. 동작들은, 디바이스의 적어도 부분 위에서 손의 적어도 부분을 검출하는 것, 및 디바이스의 부분 위에서 손의 부분을 검출하는 것에 응답하여, 자동 음성 인식 시스템을 활성화하여 오디오 신호를 프로세싱하는 것을 포함한다.
본 개시의 다른 양태에 따르면, 입력 사운드를 나타내는 오디오 신호를 프로세싱하기 위한 장치는, 디바이스의 적어도 부분 위에서 손의 적어도 부분을 검출하기 위한 수단 및 오디오 신호를 프로세싱하기 위한 수단을 포함한다. 프로세싱하기 위한 수단은 디바이스의 부분 위에서의 손의 부분의 검출에 응답하여 활성화되도록 구성된다.
도 1 은 음성 인식을 활성화하도록 동작가능한 디바이스를 포함하는 시스템의 특정 예시적인 구현의 다이어그램이다.
도 2 는 도 1 의 디바이스에서 구현될 수 있는 컴포넌트들의 특정 예를 포함하는 다이어그램이다.
도 3 은 도 1 의 디바이스의 다른 특정 구현의 다이어그램이다.
도 4 는 음성 인식을 활성화하도록 동작가능한 디바이스의 다른 특정 예시적인 구현의 다이어그램이다.
도 5 는 도 1 의 디바이스에 의해 수행될 수도 있는 음성 인식을 활성화하는 방법의 특정 구현의 다이어그램이다.
도 6 은 도 1 의 디바이스에 의해 수행될 수도 있는 음성 인식을 활성화하는 방법의 다른 구현의 다이어그램이다.
도 7 은 음성 인식을 활성화하도록 동작가능한 차량의 다이어그램이다.
도 8 은 음성 인식을 활성화하도록 동작가능한 가상 현실 또는 증강 현실 헤드셋의 다이어그램이다.
도 9 는 음성 인식을 활성화하도록 동작가능한 디바이스의 특정 예시적인 예의 블록 다이어그램이다.
음성 인식 시스템을 활성화하기 위한 디바이스들 및 방법들이 개시된다. 오디오 입력을 계속적으로 스캔하여 그 오디오 입력에서 사용자 명령들 또는 질문들을 검출하는 상시 접속 ASR 시스템은 상대적으로 높은 전력 소비를 초래하기 때문에, ASR 엔진이 모바일 디바이스에서 구현될 때 배터리 수명이 감소된다. 전력 소비를 감소시키려는 시도로, 일부 시스템들은 오디오 입력에 대한 키워드 검출을 수행하기 위해 전체-전력 (full-power) ASR 엔진보다 적은 전력을 소비하는 감소된-용량 음성 인식 프로세서를 사용할 수도 있다. 활성화 키워드가 검출되면, 전체-전력 ASR 엔진이 활성화되어, 활성화 키워드 다음에 오는 음성 명령을 프로세싱할 수 있다. 그러나, 사용자에게 모든 명령 전에 활성화 키워드를 말할 것을 요구하는 것은 시간이 걸리고 화자에게 정확한 발음과 적절한 억양을 사용할 것을 요구한다. 사용자에게 음성 인식을 개시하기 위해 전용 버튼을 누를 것을 요구하는 디바이스들은 차량을 운전 중일 때와 같이, 안전하지 않은 사용자의 주의의 분산을 초래할 수 있다.
본 명세서에서 설명된 바와 같이, 음성 인식은, 사용자의 손이 디바이스의 스크린 위를 호버링하는 것과 같이, 디바이스의 부분 위에서 손을 검출하는 것에 응답하여 활성화된다. 사용자는, 활성화 키워드를 말하거나 또는 전용 버튼의 정확한 위치를 찾아 누를 필요 없이 사용자의 손을 디바이스 위에 위치시킴으로써 음성 명령에 대한 음성 인식을 활성화할 수 있다. 디바이스 위로부터의 사용자의 손의 제거는, 사용자가 음성 명령을 말하는 것을 완료하였음을 시그널링할 수 있다. 그 결과, 이를 테면 사용자가 차량을 운전 중일 때, 음성 인식이 편리하고 안전하게 활성화될 수 있다. 또한, 디바이스 위에 사용자의 손을 위치시키는 것은 음성 인식을 개시하도록 디바이스에 시그널링할 수 있고 디바이스 위로부터 사용자의 손을 제거하는 것은 사용자의 음성 명령의 종료를 시그널링하기 때문에, 음성 인식의 부적절한 활성화 및 음성 명령들의 종료의 부정확한 검출이 모두 감소될 수 있다.
그 문맥에 의해 명시적으로 한정되지 않으면, 용어 "산출하는 것" 은 계산하는 것, 생성하는 것, 및/또는 제공하는 것과 같이 그 일반적인 의미들 중 임의의 의미를 나타내는데 사용된다. 그 문맥에 의해 명시적으로 한정되지 않으면, 용어 "제공하는 것" 은 계산하는 것, 생성하는 것, 및/또는 산출하는 것과 같이 그 일반적인 의미들 중 임의의 의미를 나타내는데 사용된다. 그 문맥에 의해 명시적으로 한정되지 않으면, 용어 "커플링된" 은 직접적인 또는 간접적인 전기적 또는 물리적 연결을 나타내는데 사용된다. 그 연결이 간접적이면, "커플링되는" 구조들 사이에 다른 블록들 또는 컴포넌트들이 있을 수도 있다. 예를 들어, 라우드스피커는 중간 매체 (예컨대, 공기) 를 통해 인접 벽에 음향적으로 커플링되어, 라우드스피커로부터 그 벽으로의 (또는 그 반대도 마찬가지임) 파동들 (예컨대, 사운드) 의 전파를 가능하게 할 수도 있다.
용어 "구성 (configuration)" 은 그 특정 문맥에 의해 표시된 바와 같이 방법, 장치, 디바이스, 시스템, 또는 이들의 임의의 조합을 참조하여 사용될 수도 있다. 용어 "포함하는 것" 이 본 설명 및 청구항들에서 사용되는 경우, 다른 엘리먼트들 또는 동작들을 배제하는 것이 아니다. ("A 는 B 에 기초함" 에서와 같이) 용어 "~ 에 기초하여" 는, (i) "적어도 ~ 에 기초하여" (예컨대, "A 는 적어도 B 에 기초함") 및 특정 문맥에서 적절하면, (ii) "~ 와 동일한" (예컨대, "A 는 B 와 동일함") 경우들을 포함하여 그 일반적인 의미들 중 임의의 의미를 나타내는데 사용된다. (i) A 가 B 에 기초함이 적어도 ~ 에 기초함을 포함하는 경우, 이것은 A 가 B 에 커플링되는 구성을 포함할 수도 있다. 유사하게, 용어 "~ 에 응답하여" 는 "적어도 ~ 에 응답하여" 를 포함하여 그 일반적인 의미들 중 임의의 의미를 나타내는데 사용된다. 용어 "적어도 하나" 는 "하나 이상" 을 포함하여 그 일반적인 의미들 중 임의의 의미를 나타내는데 사용된다. 용어 "적어도 2 개" 는 "2 개 이상" 을 포함하여 그 일반적인 의미들 중 임의의 의미를 나타내는데 사용된다.
용어들 "장치" 및 "디바이스" 는 특정 문맥에 의해 달리 표시되지 않으면 일반적으로 그리고 상호교환가능하게 사용된다. 달리 표시되지 않으면, 특정 특징을 갖는 장치의 동작의 임의의 개시는 또한 유사한 특징을 갖는 방법을 개시하도록 명시적으로 의도되며 (그 반대도 마찬가지임), 특정 구성에 따른 장치의 동작의 임의의 개시는 또한 유사한 구성에 따른 방법을 개시하도록 명시적으로 의도된다 (그 반대도 마찬가지임). 용어들 "방법", "프로세스", "절차", 및 "기법" 은, 특정 문맥에 의해 달리 표시되지 않으면, 일반적으로 그리고 상호교환가능하게 사용된다. 용어들 "엘리먼트" 및 "모듈" 은 더 큰 구성의 부분을 나타내는데 사용될 수도 있다. 용어 "패킷" 은 헤더 부분 및 페이로드 부분을 포함하는 데이터의 단위에 대응할 수도 있다. 문서의 일 부분의 참조에 의한 통합은, 그 부분 내에서 참조되는 용어들 또는 변수들의 정의들 (여기서 이러한 정의들은 문서의 다른 곳에 나타난다), 뿐만 아니라 통합된 부분에서 참조된 임의의 도면들을 통합하는 것으로 또한 이해되어야 한다.
본 명세서에서 사용된 바와 같이, 용어 "통신 디바이스" 는 무선 통신 네트워크를 통한 음성 및/또는 데이터 통신을 위해 사용될 수도 있는 전자 디바이스를 지칭한다. 통신 디바이스들의 예들은 스마트 스피커들, 스피커 바들, 셀룰러 폰들, 개인 디지털 보조기들 (PDA들), 핸드헬드 디바이스들, 헤드셋들, 무선 모뎀들, 랩탑 컴퓨터들, 개인 컴퓨터들 등을 포함한다.
도 1 은 디바이스 (102) 를 포함하는 시스템 (100) 을 도시하며, 그 디바이스 (102) 는, 손 (190) 의 적어도 부분이 디바이스 (102) 위에 위치될 때, ASR 시스템 (140) 을 활성화하여, 음성 명령과 같은 입력 사운드 (106) 를 프로세싱하도록 구성된다. 디바이스 (102) 는, 마이크로폰 (112) 으로 표현된, 하나 이상의 마이크로폰들, 스크린 (110), 하나 이상의 센서들 (120), 손 검출기 (130), 및 ASR 시스템 (140) 을 포함한다. 투시도 (180) 는 손 (190) 이 디바이스 (102) 위에 위치됨을 예시하고, 블록 다이어그램 (182) 은 디바이스 (102) 의 컴포넌트들을 예시한다. 일부 구현들에서, 디바이스 (102) 는, 예시적인, 비제한적 예들로서, 휴대용 통신 디바이스 (예컨대, "스마트 폰"), 차량 시스템 (예컨대, 자동차 엔터테인먼트 시스템, 내비게이션 시스템, 또는 자율 주행 제어 시스템을 위한 음성 인터페이스), 가상 현실 또는 증강 현실 헤드셋, 또는 통합된 어시스턴트 애플리케이션이 있는 무선 스피커 및 음성 명령 디바이스 (예컨대, "스마트 스피커" 디바이스) 를 포함할 수 있다.
마이크로폰 (112) 은 입력 사운드 (106) 에 응답하여 오디오 신호 (114) 를 생성하도록 구성된다. 일부 구현들에서, 마이크로폰 (112) 은, 도 3 을 참조하여 추가로 설명되는 바와 같이, 표시 (132) 에 응답하여, 활성화되어, 오디오 신호 (114) 를 생성하도록 구성된다.
하나 이상의 센서들 (120) 은 손 검출기 (130) 에 커플링되고 손 검출기 (130) 에 센서 데이터 (122) 를 제공하도록 구성된다. 예를 들어, 센서(들) (120) 는, 도 2 를 참조하여 추가로 설명되는 바와 같이, 하나 이상의 카메라들, 이를 테면 저전력 주변 광 센서 또는 메인 카메라, 적외선 센서, 초음파 센서, 하나 이상의 다른 센서들, 또는 이들의 임의의 조합을 포함할 수 있다.
손 검출기 (130) 는 스크린 (110) 위와 같은 디바이스 (102) 의 적어도 부분 위에서의 손의 적어도 부분의 검출에 응답하여 표시 (132) 를 생성하도록 구성된다. 본 명세서에서 사용된 바와 같이, "손의 적어도 부분" 은, 예시적인, 비제한적 예들로서, 손의 임의의 부분 (예컨대, 하나 이상의 손가락들, 엄지손가락, 손바닥 또는 손등, 또는 이들의 임의의 부분, 또는 이들의 임의의 조합) 에 대응할 수 있거나, 또는 전체 손에 대응할 수 있다. 본 명세서에서 사용된 바와 같이, "손을 검출하는 것" 은 "손의 적어도 부분을 검출하는 것" 과 동등하며, 예시적인, 비제한적 예들로서, 2 개 이상의 손가락들을 검출하는 것, 손바닥의 부분에 연결된 적어도 하나의 손가락을 검출하는 것, 엄지손가락 및 적어도 하나의 손가락을 검출하는 것, 손바닥의 적어도 부분에 연결된 엄지손가락을 검출하는 것, 또는 전체 손 (예컨대, 4 개의 손가락들, 엄지손가락, 및 손바닥) 을 검출하는 것을 포함할 수 있다.
손 (190) 은 디바이스 (102) "위에서" 검출되는 것으로 설명되지만, 디바이스 (102) "위" 는 하나 이상의 센서들 (120) 의 위치 및 배향에 대하여 명시된 상대적 위치에 (또는 위치들의 명시된 범위 내에) 로케이트되는 것을 지칭한다. 도 1 에 예시된 바와 같이, 센서(들) (120) 가 위를 향하도록 디바이스 (102) 가 배향되는 예에서, 디바이스 (102) 위에서 손 (190) 을 검출하는 것은 손 (190) 이 디바이스 (102) 상측에 있음을 표시한다. 센서(들) (120) 가 아래를 향하도록 디바이스 (102) 가 배향되는 예에서, 디바이스 (102) 위에서 손 (190) 을 검출하는 것은 손 (190) 이 디바이스 (102) 하측에 있음을 표시한다.
손 검출기 (130) 는 센서 데이터 (122) 를 프로세싱하여 손 (190) 이 디바이스 (102) 위에서 검출되는지 여부를 결정하도록 구성된다. 예를 들어, 도 2 를 참조하여 추가로 설명되는 바와 같이, 일부 구현들에서, 손 검출기 (130) 는, 손 모양이 카메라에 의해 캡처되었는지 여부를 결정하기 위해 이미지 데이터를 프로세싱하거나, 손 (190) 의 검출된 온도가 손 온도에 대응하는지 여부를 결정하기 위해 적외선 데이터를 프로세싱하거나, 손 (190) 과 디바이스 (102) 사이의 거리가 명시된 범위 내에 있는지 여부를 결정하기 위해 초음파 데이터를 프로세싱하거나, 또는 이들의 조합을 행한다.
일부 구현들에서, 디바이스 (102) 는, 디바이스 (102) 위에서 손 (190) 을 검출하는 것에 응답하여, 음성 인식이 활성화되었음을 표시하기 위한 디바이스 (102) 의 사용자를 위한 알림 (notification) 을 생성하도록 구성되고, 디바이스 (102) 위에서 더 이상 손 (190) 을 검출하지 않는 것에 응답하여, 음성 인식을 위한 음성 입력이 비활성화됨을 표시하기 위한 제 2 알림을 생성하도록 추가로 구성될 수도 있다. 예를 들어, 디바이스 (102) 는 차임 (chime) 또는 음성 메시지, 이를 테면 "준비 (ready)" 와 같은 오디오 신호, 조명 또는 깜빡이는 빛과 같은 시각적 신호, 다른 디바이스에 의해, 이를 테면 디바이스와 통신하는 자동차 엔터테인먼트 시스템에 의해 재생될 디지털 신호, 또는 이들의 임의의 조합을 생성하도록 구성될 수도 있다. 알림(들)을 생성하는 것은, 디바이스 (102) 가 음성 명령을 수신할 준비가 되었음을 사용자가 확인할 수 있게 하며, 또한 사용자가 잘못된 활성화들 (예컨대, 손 (190) 으로 오인될 수도 있는 다른 물체에 의해 야기됨) 및 손 (190) 의 부적절한 위치지정으로 인한 누락된 활성화들을 검출 및 방지할 수 있게 할 수도 있다. ASR 시스템 (140) 의 각각의 활성화는 전력을 소비하고 프로세싱 리소스들을 사용하기 때문에, 잘못된 활성화들을 감소시키는 것은 전력 소비 및 프로세싱 리소스 사용을 감소시킨다.
ASR 시스템 (140) 은 표시 (132) 에 응답하여, 활성화되어, 오디오 신호 (114) 를 프로세싱하도록 구성된다. 예시적인 예에서, 제어 레지스터의 특정 비트는 표시 (132) 의 존재 또는 부재를 나타내고 ASR 시스템 (140) 내의 또는 그에 커플링된 제어 회로는 그 특정 비트를 판독하도록 구성된다. 비트의 "1" 값은 표시 (132) 에 대응하고 ASR 시스템 (140) 이 활성화되게 한다. 다른 구현들에서, 표시 (132) 는, 대신에 예시적인, 비제한적 예들로서, 버스 또는 제어 라인 상의 디지털 또는 아날로그 신호, 인터럽트 제어기에서의 인터럽트 플래그, 또는 광 또는 기계 신호로서 구현된다.
활성화되면, ASR 시스템 (140) 은 입력 사운드 (106) 를 포함하는 오디오 신호 (114) 의 하나 이상의 부분들 (예컨대, 프레임들) 을 프로세싱하도록 구성된다. 예를 들어, 디바이스 (102) 는 센서 데이터 (122) 가 손 검출기 (130) 에 의해 프로세싱될 때 오디오 신호 (114) 의 일련의 프레임들을 버퍼링할 수 있어, 표시 (132) 가 생성될 때, ASR 시스템 (140) 이 버퍼링된 일련의 프레임들을 프로세싱하고 사용자의 음성을 나타내는 출력을 생성할 수 있다. ASR 시스템 (140) 은, 음성 콘텐츠에 기초한 활동을 개시하기 위해, 도 3 을 참조하여 설명되는 바와 같은 "가상 어시스턴트" 애플리케이션 또는 다른 애플리케이션과 같은 디바이스 (102) 의 다른 컴포넌트에 입력 사운드 (106) 의 음성 콘텐츠의 텍스트 출력으로서 인식된 음성 (142) 을 제공할 수 있다.
비활성화되면, ASR 시스템 (140) 은 오디오 신호 (114) 를 프로세싱하지 않고 활성화될 때보다 적은 전력을 소비한다. 예를 들어, ASR 시스템 (140) 의 비활성화는, 동적 전력 소비를 감소시키기 위해, 오디오 신호 (114) 가 ASR 시스템 (140) 으로 입력되는 것을 방지하기 위해 ASR 시스템 (140) 의 입력 회로를 게이팅하는 것, ASR 시스템 (140) 내에서 회로 스위칭을 방지하기 위해 클록 신호를 게이팅하는 것, 또는 양자 모두를 포함할 수 있다. 다른 예로서, ASR 시스템 (140) 의 비활성화는, 회로 엘리먼트들의 상태를 잃지 않고 정적 전력 소비를 감소시키기 위해 ASR 시스템 (140) 에 대한 전력 공급을 감소시키는 것, ASR 시스템 (140) 의 적어도 부분으로부터 전력을 제거하는 것, 또는 이들의 조합을 포함할 수 있다.
일부 구현들에서, 손 검출기 (130), ASR 시스템 (140), 또는 이들의 임의의 조합은 전용 회로부 또는 하드웨어를 사용하여 구현된다. 일부 구현들에서, 손 검출기 (130), ASR 시스템 (140), 또는 이들의 임의의 조합은 펌웨어 또는 소프트웨어의 실행을 통해 구현된다. 예시하기 위해, 디바이스 (102) 는, 명령들을 저장하도록 구성된 메모리 및 그 명령들을 실행하여 도 9 를 참조하여 추가로 설명되는 바와 같이 손 검출기 (130) 및 ASR 시스템 (140) 을 구현하도록 구성된 하나 이상의 프로세서들을 포함할 수 있다.
동작 동안, 사용자는 음성 명령을 말하기 전에 디바이스 (102) 위에 사용자의 손 (190) 을 위치시킬 수 있다. 손 검출기 (130) 는 센서 데이터 (122) 를 프로세싱하여 손 (190) 이 디바이스 (102) 위에 있다고 결정한다. 디바이스 (102) 위에서 손 (190) 을 검출하는 것에 응답하여, 손 검출기 (130) 는 ASR 시스템 (140) 의 활성화를 야기하는 표시 (132) 를 생성한다. 마이크로폰 (112) 에서 음성 명령을 수신한 후, ASR 시스템 (140) 은 오디오 신호 (114) 의 대응하는 부분(들)을 프로세싱하여 음성 명령을 표시하는 인식된 음성 (142) 을 생성한다.
손이 디바이스 (102) 위에서 검출될 때 ASR 시스템 (140) 의 활성화는, 사용자가 활성화 키워드를 말하거나 또는 전용 버튼의 정확한 위치를 찾아 누를 필요 없이, 디바이스 위에 사용자의 손 (190) 을 위치시킴으로써 음성 명령에 대한 음성 인식을 디바이스 (102) 의 사용자가 활성화할 수 있게 한다. 그 결과, 이를 테면 사용자가 차량을 운전 중일 때, 음성 인식이 편리하고 안전하게 활성화될 수 있다. 또한, 디바이스 위에 사용자의 손을 위치시키는 것은 디바이스에 음성 인식을 개시하도록 시그널링하기 때문에, 음성 인식을 활성화하기 위해 키워드 검출을 대신 사용하는 시스템과 비교하여 음성 인식의 부적절한 활성화가 모두 감소될 수 있다.
도 2 는 도 1 의 디바이스 (102) 에서 구현될 수 있는 컴포넌트들의 추가 양태들을 도시하는 예 (200) 를 도시한다. 도 2 에 예시된 바와 같이, 센서들 (120) 은, 손 검출기 (130) 에 이미지 데이터 (212) 를 제공하도록 구성된 하나 이상의 카메라들 (202), 손 검출기 (130) 에 적외선 센서 데이터 (218) 를 제공하도록 구성된 적외선 (IR) 센서 (208), 및 손 검출기에 초음파 센서 데이터 (220) 를 제공하도록 구성된 초음파 센서 (210) 를 포함한다. 이미지 데이터 (212), 적외선 센서 데이터 (218), 및 초음파 센서 데이터 (220) 는 센서 데이터 (122) 에 포함된다. 카메라들 (202) 은 이미지 데이터 (212) 의 적어도 부분을 생성하도록 구성된 저전력 주변 광 센서 (204), 이미지 데이터 (212) 의 적어도 부분을 생성하도록 구성된 메인 카메라 (206), 또는 양자 모두를 포함한다. 메인 카메라 (206) 는 주변 광 센서 (204) 보다 높은 해상도를 갖는 이미지 데이터를 캡처할 수 있지만, 주변 광 센서 (204) 는 손 검출을 수행하기에 충분한 해상도를 갖는 이미지 데이터를 생성할 수 있고 메인 카메라 (206) 보다 적은 전력을 사용하여 동작한다.
손 검출기 (130) 는 손 패턴 검출기 (230), 손 온도 검출기 (234), 손 거리 검출기 (236), 및 활성화 신호 유닛 (240) 을 포함한다. 손 패턴 검출기 (230) 는 이미지 데이터 (212) 를 프로세싱하여 이미지 데이터 (212) 가 손 패턴 (232) 을 포함하는지 여부를 결정하도록 구성된다. 예시적인 구현에서, 손 패턴 검출기 (230) 는 손 패턴 (232) 을 인식하도록 훈련된 뉴럴 네트워크를 사용하여 이미지 데이터 (212) 를 프로세싱한다. 다른 예시적인 구현에서, 손 패턴 검출기 (230) 는 손 패턴 (232) 을 식별하기 위해 이미지 데이터 (212) 에 하나 이상의 필터들을 적용한다. 손 패턴 검출기 (230) 는 손 패턴 (232) 이 검출되는지 여부를 표시하는 제 1 신호 (231) 를 활성화 신호 유닛 (240) 으로 전송하도록 구성된다. 단일의 손 패턴 (232) 이 도시되지만, 다른 구현들에서, 손가락 모은 (fingers-together) 패턴, 손가락 벌린 (fingers-spread) 패턴, 부분 손 패턴 등과 같은 손의 상이한 양태들을 나타내는 다중의 손 패턴들이 포함될 수도 있다.
손 온도 검출기 (234) 는, 적외선 센서 (208) 로부터의 적외선 센서 데이터 (218) 를 프로세싱하고 적외선 센서 데이터 (218) 가 사람의 손을 나타내는 온도를 갖는 온도 소스를 표시하는지 여부를 표시하는 제 2 신호 (235) 를 활성화 신호 유닛 (240) 으로 전송하도록 구성된다. 일부 구현들에서, 손 온도 검출기 (234) 는 적외선 센서 (208) 의 시야 (field of view) 의 적어도 부분이 사람의 손을 나타내는 온도 범위의 온도 소스들을 갖는지 여부를 결정하도록 구성된다. 일부 구현들에서, 손 온도 검출기 (234) 는 손 패턴 검출기 (230) 로부터 손의 위치를 표시하는 데이터를 수신하여 그 손 위치에서의 온도 소스가 사람의 손의 온도 범위에 매칭하는지 여부를 결정하도록 구성된다.
손 거리 검출기 (236) 는 손 (190) 과 디바이스 (102) 의 적어도 부분 사이의 거리 (250) 를 결정하도록 구성된다. 예에서, 손 거리 검출기 (236) 는 초음파 센서 데이터 (220) 를 프로세싱하고 손 (190) 이 거리들의 명시된 범위 (238) 내에 있는지 여부를 표시하는 제 3 신호 (237) 를 생성한다. 일부 구현들에서, 손 거리 검출기 (236) 는 손 패턴 검출기 (230) 로부터, 손 온도 검출기 (234) 로부터, 또는 양자 모두로부터, 손 (190) 의 위치를 표시하는 데이터를 수신하고 그 손 위치 데이터를 사용하여 손 (190) 에 대응하는 초음파 센서 (210) 의 시야의 영역을 결정한다. 다른 구현들에서, 손 거리 검출기 (236) 는 초음파 센서 (210) 의 시야의 명시된 부분 (예를 들어, 25%) 을 초과하는 스크린 (110) 에 가장 가까운 물체를 로케이트함으로써 손 (190) 을 식별한다.
특정 구현에서, 범위 (238) 는 10 센티미터 (cm) 의 하한 및 30 cm 의 상한을 갖는다 (즉, 범위 (238) 는 10 cm 이상이고 30 cm 이하인 거리들을 포함한다). 다른 구현들에서, 범위 (238) 는 조정가능하다. 예를 들어, 디바이스 (102) 는, 거리 (250) 가 (예를 들어, 검출된 거리 (250) 로부터 하단 오프셋을 적용하여 하한을 설정하고 검출된 거리 (250) 로부터 상단 오프셋을 적용하여 상한을 설정함으로써) 범위 (238) 를 생성하기 위해 검출 및 사용될 수 있도록 디바이스 (102) 에 대한 바람직한 위치에 사용자가 손 (190) 을 위치시키는 업데이트 동작을 수행하도록 구성될 수도 있다.
활성화 신호 유닛 (240) 은 이미지 데이터 (212) 에서의 손 패턴 (232) 의 검출을 표시하는 제 1 신호 (231), 사람의 손 온도 범위 내의 손 온도의 검출을 표시하는 제 2 신호 (235), 및 손 (190) 이 범위 (238) 내에 있다 (예컨대, 손 (190) 이 스크린 (110) 으로부터 10 센티미터 내지 30 센티미터의 거리 (250) 에 있다) 는 검출을 표시하는 제 3 신호 (237) 에 응답하여 표시 (132) 를 생성하도록 구성된다. 예를 들어, 신호들 (231, 235, 및 237) 의 각각이 검출을 표시하는 이진 "1" 값 및 검출이 없음을 표시하는 이진 "0" 값을 갖는 구현에서, 활성화 신호 유닛 (240) 은 표시 (132) 를 신호들 (231, 235, 및 237) 의 논리 AND 로서 생성할 수 있다 (예를 들어, 표시 (132) 는 모든 3 개의 신호들 (231, 235, 237) 이 1 값을 갖는 것에 응답하여 1 값을 갖는다). 다른 예에서, 활성화 신호 유닛 (240) 은 또한, 신호들 (231, 235, 237) 중 임의의 2 개의 신호들이 1 값을 갖는 것에 응답하여 1 값을 갖는 표시 (132) 를 생성하도록 구성된다.
다른 구현들에서, 신호들 (231, 235, 및 237) 중 하나 이상은 대응하는 손 검출 기준이 충족될 가능성을 표시하는 다중 비트 값을 갖는다. 예를 들어, 제 1 신호 (231) 는 손 패턴이 검출된다는 확신을 표시하는 다중 비트 값을 가질 수도 있고, 제 2 신호 (235) 는 손 온도가 검출된다는 확신을 표시하는 다중 비트 값을 가질 수도 있고, 제 3 신호 (237) 는 디바이스 (102) 로부터의 손 (190) 의 거리가 범위 (238) 내에 있다는 확신을 표시하는 다중 비트 값을 가질 수도 있다. 활성화 신호 유닛 (240) 은 신호들 (231, 235, 및 237) 을 결합하고 결합된 결과를 임계치와 비교하여 표시 (132) 를 생성할 수 있다. 예를 들어, 활성화 신호 유닛 (240) 은 신호들 (231, 235, 및 237) 의 가중 합을 결정하기 위해 가중치들의 세트를 적용할 수도 있다. 활성화 신호 유닛 (240) 은 가중 합이 임계치를 초과하는 것에 응답하여 손 검출을 표시하는 값을 갖는 표시 (132) 를 출력할 수도 있다. 가중치들 및 임계치들의 값들은 하드코딩될 수 있거나, 또는 대안적으로는, 이하에 추가로 설명되는 바와 같이, 잘못된 포지티브들 및 잘못된 네거티브들에 관한 사용자 피드백에 기초하여 동적으로 또는 주기적으로 조정될 수 있다.
일부 구현들에서, 손 검출기 (130) 는 손 (190) 이 더 이상 디바이스 (102) 위에 있지 않다는 검출에 응답하여 제 2 표시 (242) 를 생성하도록 추가로 구성된다. 예를 들어, 손 검출기는 손 (190) 을 검출하는 것에 응답하여 (손 제거가 검출되지 않음을 표시하는) 0 값을 갖는 것으로 제 2 표시 (242) 를 출력할 수도 있고, 손이 더 이상 검출되지 않는다고 결정하는 것에 응답하여 (예를 들어, "손 검출됨" 상태로부터 "손 검출 안됨" 상태로의 전환을 표시하기 위해) 제 2 표시 (242) 를 1 값을 갖는 것으로 업데이트할 수도 있다. 제 2 표시 (242) 는, 도 3 을 참조하여 추가로 설명되는 바와 같이, ASR 시스템 (140) 에 대한 발화 종료 (end-of-utterance) 에 대응할 수 있다.
도 2 는 주변 광 센서 (204), 메인 카메라 (206), 적외선 센서 (208), 및 초음파 센서 (210) 를 포함하는 다중의 센서들을 도시하지만, 다른 구현들에서는, 주변 광 센서 (204), 메인 카메라 (206), 적외선 센서 (208), 또는 초음파 센서 (210) 중 하나 이상이 생략된다. 예를 들어, 주변 광 센서들 (204) 은 이미지 데이터 (212) 의 적어도 부분의 생성이 메인 카메라 (206) 를 사용하는 것과 비교하여 감소된 전력을 사용하여 손 모양을 검출할 수 있게 하지만, 일부 구현들에서는, 주변 광 센서 (204) 가 생략되고 메인 카메라 (206) 가 이미지 데이터를 생성하는데 사용된다. 전력 감소를 위해, 메인 카메라 (206) 는 손 검출을 위해 온/오프 듀티 사이클에 따라, 이를 테면 1/4 초의 간격을 두고 동작될 수 있다. 다른 예로서, 메인 카메라 (206) 는 이미지 데이터 (212) 의 적어도 부분의 생성이 주변 광 센서 (204) 를 사용하는 것과 비교하여 더 높은 해상도, 및 따라서 더 높은 정확성으로 손 모양을 검출할 수 있게 하지만, 일부 구현들에서는, 메인 카메라 (206) 가 생략되고 주변 광 센서 (204) 가 이미지 데이터 (212) 를 생성하는데 사용된다.
다른 예로서, 적외선 센서 (208) 는 적외선 센서 데이터 (218) 의 생성이, 물체가 사람의 손 온도에 매칭하는 온도를 갖는지 여부를 검출할 수 있게 하지만, 다른 구현들에서는, 적외선 센서 (208) 가 생략되고 디바이스 (102) 가 온도에 상관없이 손 검출을 수행한다. 다른 예로서, 초음파 센서 (210) 는 초음파 센서 데이터 (220) 의 생성이, 물체까지의 거리가 범위 (238) 내에 있는지 여부를 검출할 수 있게 하지만, 다른 구현들에서는, 초음파 센서 (210) 가 생략되고 디바이스 (102) 가 디바이스 (102) 로부터의 거리에 상관없이 손 검출을 수행한다. 대안적으로, 예시적인, 비제한적 예들로서, 거리 (250) 를 추정하기 위해 (예컨대, 시차 (parallax) 와 같은) 디바이스 (102) 의 다중의 카메라들 또는 상이한 디바이스 (예컨대, 디바이스 (102) 가 로케이트되는 차량) 의 다중의 카메라들로부터의 이미지 데이터에서의 물체 위치들을 비교하는 것에 의한, 거리 (250) 를 추정하기 위해 이미지 데이터 (212) 에서 또는 적외선 센서 데이터 (218) 에서 검출된 손의 사이즈를 사용하는 것에 의한, 또는 물체 거리를 추정하기 위해 구조광 또는 다른 전자기 신호들을 프로젝팅하는 것에 의한 것과 같은, 하나 이상의 다른 메커니즘들이 거리 검출을 위해 구현될 수 있다.
다양한 센서 타입들 및 센서들의 수의 증가는 일반적으로 손 검출의 정확성을 향상시키지만, 일부 구현들에서는 2 개의 센서들 또는 단일의 센서가 손 검출에 충분한 정확성을 제공한다. 비제한적 예로서, 일부 구현들에서, 손 검출에 사용되는 유일한 센서 데이터는 주변 광 센서 (204) 로부터의 이미지 데이터 (212) 이다. 일부 구현들에서, 센서들 (120) 은 동시에 활성이지만, 다른 구현들에서, 센서들 (120) 중 하나 이상은, 센서들 (120) 중 다른 것으로부터의 센서 데이터에 기초하여 손 검출 기준이 충족될 때까지 센서 (120) 중 하나 이상이 비활성 상태로 유지되도록 함으로써 전력이 보존되는 "캐스케이드" 동작에 따라 제어된다. 예시하기 위해, 메인 카메라 (206), 적외선 센서 (208), 및 초음파 센서 (210) 는, 손 검출의 향상된 정확성을 위한 추가 센서 데이터를 제공하기 위해 메인 카메라 (206), 적외선 센서 (208), 및 초음파 센서 (210) 중 하나 이상이 활성화되는 것에 응답하여, 손 패턴 검출기 (230) 가 주변 광 센서 (204) 에 의해 생성된 이미지 데이터 (212) 에서 손 패턴 (232) 을 검출할 때까지 비활성 상태로 유지될 수도 있다.
도 3 은 디바이스 (102) 에서 구현될 수 있는 컴포넌트들의 추가 양태들을 도시하는 예 (300) 를 도시한다. 도 3 에 예시된 바와 같이, 활성화 회로부 (302) 는 손 검출기 (130) 에 그리고 ASR 시스템 (140) 에 커플링되고, ASR 시스템은 ASR 엔진 (330) 에 액세스가능한 버퍼 (320) 를 포함한다. 디바이스 (102) 는 또한 가상 어시스턴트 애플리케이션 (340) 및 스피커 (350) (예를 들어, 디바이스 (102) 는 무선 스피커 및 음성 명령 디바이스로서 구현됨) 를 포함한다.
활성화 회로부 (302) 는 표시 (132) 를 수신하는 것에 응답하여 자동 음성 인식 시스템 (140) 을 활성화하도록 구성된다. 예를 들어, 활성화 회로부 (302) 는 표시 (132) 가 손 검출을 표시하는 상태로 전환하는 것 (예를 들어, 표시 (132) 는 손 검출이 없음을 표시하는 0 값으로부터 손 검출을 표시하는 1 값으로 전환한다) 에 응답하여 활성화 신호 (310) 를 생성하도록 구성된다. 활성화 신호 (310) 는 ASR 시스템 (140) 을 활성화하기 위해 신호 (306) 를 통해 ASR 시스템 (140) 에 제공된다. ASR 시스템 (140) 을 활성화하는 것은 버퍼 (320) 에서 오디오 신호 (140) 의 버퍼링을 개시하여 버퍼링된 오디오 데이터 (322) 를 생성하는 것을 포함한다. 활성화 신호 (310) 는 또한, 마이크로폰 (112) 을 활성화하는 신호 (304) 를 통해 마이크로폰 (112) 에 제공되어, 마이크로폰이 오디오 신호 (114) 를 생성할 수 있게 한다.
활성화 회로부 (302) 는 또한 발화 종료 신호 (312) 를 생성하도록 구성된다. 예를 들어, 활성화 회로부 (302) 는 제 2 표시 (242) 가 손 검출의 종료를 표시하는 상태로 전환하는 것 (예를 들어, 제 2 표시 (242) 는 (손 검출의 변화가 없음을 표시하는) 0 값으로부터 (검출된 손이 더 이상 검출되지 않음을 표시하는) 1 값으로 전환한다) 에 응답하여 발화 종료 신호 (312) 를 생성하도록 구성된다. 발화 종료 신호 (312) 는 신호 (308) 를 통해 ASR 시스템 (140) 에 제공되어 ASR 엔진 (330) 으로 하여금 버퍼링된 오디오 데이터 (332) 의 프로세싱을 시작하게 한다.
활성화 회로부 (302) 는 ASR 시스템 (140) 의 하나 이상의 컴포넌트들을 선택적으로 활성화하도록 구성된다. 예를 들어, 활성화 회로부 (302) 는 전력 관리 회로부, 클록 회로부, 헤드 스위치 또는 풋 스위치 회로부, 버퍼 제어 회로부, 또는 이들의 임의의 조합을 포함하거나 또는 이에 커플링될 수도 있다. 활성화 회로부 (302) 는, 이를 테면 버퍼 (320), ASR 엔진 (330), 또는 양자 모두의 전력 공급기의 전압을 선택적으로 인가 또는 상승시킴으로써, 버퍼 (320), ASR 엔진 (330), 또는 양자 모두의 파워-온을 개시하도록 구성될 수도 있다. 다른 예로서, 활성화 회로부 (302) 는, 이를 테면 전력 공급기를 제거하지 않고 회로 동작을 방지하기 위해, 버퍼 (320), ASR 엔진 (330), 또는 양자 모두에 클록 신호를 선택적으로 게이팅 또는 게이팅-해제 (un-gate) 하도록 구성될 수도 있다.
ASR 시스템 (140) 에 의해 출력된 인식된 음성 (142) 은 가상 어시스턴트 애플리케이션 (340) 에 제공된다. 예를 들어, 가상 어시스턴트 애플리케이션 (340) 은, 도 9 를 참조하여 더 상세히 설명되는 바와 같이, 명령들을 실행하는 하나 이상의 프로세서들에 의해 구현될 수도 있다. 가상 어시스턴트 애플리케이션 (340) 은, 이를 테면 인터넷 게이트웨이, 탐색 서버, 또는 다른 리소스에 대한 무선 연결, 디바이스 (102) 의 로컬 스토리지를 탐색하는 것, 또는 이들의 조합을 통해, 하나 이상의 탐색 질의들을 수행하도록 구성될 수도 있다.
예시하기 위해, 오디오 신호 (114) 는 구두 질문 "오늘 날씨는 어떤가요?" 를 나타낼 수도 있다. 가상 어시스턴트 애플리케이션 (340) 은 디바이스 (102) 가 로케이트되는 지리적 영역에 대한 일기 예보를 획득하기 위해 인터넷 기반 기상 서비스에 액세스하기 위한 질의를 생성할 수도 있다. 가상 어시스턴트 애플리케이션 (340) 은, 음성 인터페이스 구현에서와 같이, 스피커 (350) 로 하여금 청각적 출력을 생성하게 하는 출력 오디오 신호 (342) 와 같은 출력을 생성하도록 구성된다. 다른 구현들에서, 가상 어시스턴트 애플리케이션 (340) 은 디바이스 (102) 에 통합되거나 또는 디바이스 (102) 에 커플링되는 스크린 또는 디스플레이에 의해 디스플레이될 수도 있는 시각적 출력 신호와 같은 다른 모드의 출력을 생성한다.
일부 구현들에서, (예를 들어, 손 검출기 (130) 에서) 디바이스 (102) 에 의해 사용되는 가중치들 및 임계치들과 같은 파라미터들의 값들은 디바이스 (102) 의 제조자 또는 제공자에 의해 설정될 수 있다. 일부 구현들에서, 디바이스 (102) 는 ASR 시스템 (140) 과 연관된, 검출된 잘못된 네거티브들, 잘못된 활성화들, 또는 이들의 조합에 기초하여 디바이스 (102) 의 수명 동안 하나 이상의 이러한 값들을 조정하도록 구성된다. 예를 들어, 잘못된 활성화들의 이력은, 하나 이상의 가중치들 또는 임계치들을 자동으로 조정하기 위해, 이를 테면, 손 검출에 사용하기 위한 일 센서의 다른 센서에 대한 상대적 신뢰성을 강조하기 위해, 미래의 잘못된 활성화들의 가능성을 감소시키기 위해, 잘못된 활성화들을 트리거링한 센서 데이터 (122) 의 특성들이 주기적으로 사용될 수 있도록 디바이스 (102) 에 의해 유지될 수 있다.
포지티브 결과 (예컨대, 손 검출) 를 표시하기 위한 "1" 값 및 네거티브 결과를 표시하기 위한 "0" 값과 같은 특정 값들이 도 1 내지 도 3 의 설명들에 포함되지만, 이러한 값들은 설명의 목적으로만 제공되고 제한되지 않음을 이해할 것이다. 예시하기 위해, 일부 구현들에서, 표시 (132) 는 "0" 값에 의해 표시된다. 다른 예로서, 일부 구현들에서, 제 1 신호 (231) 의 "1" 값은, 손 패턴 (232) 이 이미지 데이터 (212) 에 있을 가능성이 높음을 표시하는 한편, 다른 구현들에서, 제 1 신호 (231) 의 "0" 값은, 손 패턴 (232) 이 이미지 데이터 (212) 에 있을 가능성이 낮음을 표시한다. 유사하게, 일부 구현들에서, 제 2 신호 (235), 제 3 신호 (237), 또는 양자 모두의 "1" 값은, 손 검출 기준이 충족될 가능성이 높음을 표시하고, 다른 구현들에서, 제 2 신호 (235), 제 3 신호 (237), 또는 양자 모두의 "1" 값은, 손 검출 기준이 충족되지 않을 가능성이 높음을 표시한다.
도 4 는 도 9 를 참조하여 추가로 설명되는 바와 같이, 반도체 칩 또는 패키지와 같은 개별 컴포넌트에 통합된 손 검출기 (130) 및 ASR 시스템 (140) 을 포함하는 디바이스 (402) 의 구현 (400) 을 도시한다. 디바이스 (402) 는, 오디오 신호 (114) 가 디바이스 (402) 의 외부의 마이크로폰으로부터 수신될 수 있게 하기 위해, 제 1 버스 인터페이스와 같은 오디오 신호 입력 (410) 을 포함한다. 디바이스 (402) 는 또한, 센서 데이터 (122) 가 디바이스 (402) 의 외부의 하나 이상의 센서들로부터 수신될 수 있게 하기 위해, 제 2 버스 인터페이스와 같은 센서 데이터 입력 (412) 을 포함한다. 디바이스 (402) 는 하나 이상의 외부 컴포넌트들 (예컨대, 스피커 350)) 에 프로세싱 결과들 (예컨대, 인식된 음성 (142) 또는 출력 오디오 신호 (342)) 을 제공하기 위해 하나 이상의 출력들을 더 포함할 수도 있다. 디바이스 (402) 는, 도 7 에 도시된 바와 같은 차량, 도 8 에 도시된 바와 같은 가상 현실 또는 증강 현실 헤드셋, 또는 도 9 에 도시된 바와 같은 무선 통신 디바이스에서와 같은, 마이크로폰 및 다른 센서들을 포함하는 시스템에서의 컴포넌트로서 손 검출 및 음성 인식 활성화의 구현을 가능하게 한다.
도 5 를 참조하면, 디바이스 (102) 또는 디바이스 (402) 에 의해 수행될 수도 있는 입력 사운드를 나타내는 오디오 신호를 프로세싱하는 방법 (500) 의 특정 구현이 도시된다. 방법은 502 에서 시작하고 이를 테면, 센서 데이터 (122) 를 프로세싱하는 손 검출기 (130) 에 의해 504 에서, 손이 디바이스의 스크린 위에 있는지 여부를 결정하는 단계를 포함한다. 스크린 위에서 손을 검출하는 것에 응답하여, 506 에서, 마이크로폰 및 버퍼가 활성화된다. 예를 들어, 도 3 의 마이크로폰 (112) 및 버퍼 (320) 는 신호들 (304 및 306) 을 통해 활성화 회로부 (302) 에 의해 활성화된다.
508 에서, 손이 스크린 상으로부터 제거되었다고 결정하는 것에 응답하여, 방법 (500) 은 510 에서, ASR 엔진을 활성화하여 버퍼링된 데이터를 프로세싱하는 단계를 포함한다. 예를 들어, ASR 엔진 (330) 은 활성화 회로부 (302) 에 의해 생성된 신호 (308) 에 의해 활성화되어 버퍼링된 오디오 데이터 (322) 를 프로세싱한다.
손이 스크린 위에서 검출될 때 ASR 을 활성화하는 것은, 활성화 키워드를 말하거나 또는 전용 버튼의 정확한 위치를 찾아 누를 필요 없이, 사용자의 손의 위치지정에 의해 음성 명령에 대한 음성 인식을 사용자가 활성화할 수 있게 한다. 그 결과, 이를 테면 사용자가 차량을 운전 중일 때, 음성 인식이 편리하고 안전하게 활성화될 수 있다. 또한, 스크린 위에 사용자의 손을 위치시키는 것은 음성 인식을 위한 음성 명령을 수신하기 위해 컴포넌트들의 활성화를 개시하고 스크린 상으로부터 사용자의 손을 제거하는 것은 수신된 음성 명령의 프로세싱을 개시하기 때문에, 음성 인식을 활성화하기 위해 키워드 검출을 대신 사용하는 시스템과 비교하여 음성 인식의 부적절한 활성화, 비활성화, 또는 양자 모두가 모두 감소될 수 있다.
도 6 를 참조하면, 예시적인, 비제한적 예들로서, 디바이스 (102) 또는 디바이스 (402) 에 의해 수행될 수도 있는 입력 사운드를 나타내는 오디오 신호를 프로세싱하는 방법 (600) 의 특정 구현이 도시된다.
방법 (600) 은 602 에서 시작하며, 604 에서, 디바이스에서, 디바이스의 적어도 부분 위에서 손의 적어도 부분을 검출하는 단계를 포함한다. 예를 들어, 손 검출기 (130) 는 하나 이상의 센서들 (120) 로부터 수신된 센서 데이터 (122) 의 프로세싱을 통해 손 (190) 을 검출한다. 일부 구현들에서, 디바이스의 부분 위에서 손의 부분을 검출하는 것은 이미지 데이터 (예컨대, 이미지 데이터 (212)) 를 프로세싱하여 이미지 데이터가 손 패턴 (예컨대, 손 패턴 (232)) 을 포함하는지 여부를 결정하는 것을 포함한다. 예에서, 이미지 데이터는 주변 광 센서 (204) 와 같은 디바이스의 저전력 주변 광 센서에서 생성된다. 디바이스의 부분 위에서 손의 부분을 검출하는 것은, 적외선 센서 데이터 (218) 와 같은 디바이스의 적외선 센서로부터의 적외선 센서 데이터를 프로세싱하는 것을 더 포함할 수도 있다. 디바이스의 부분 위에서 손의 부분을 검출하는 것은 또한, 초음파 센서 데이터 (220) 와 같은 디바이스의 초음파 센서로부터의 초음파 센서 데이터를 프로세싱하는 것을 포함할 수도 있다.
방법 (600) 은, 606 에서, 디바이스의 부분 위에서 손의 부분을 검출하는 것에 응답하여, 자동 음성 인식 시스템을 활성화하여 오디오 신호를 프로세싱하는 단계를 포함한다. 예를 들어, 디바이스 (102) 는 표시 (132) 에 응답하여 ASR 시스템 (140) 을 활성화한다. 일부 구현들에서, 자동 음성 인식 시스템을 활성화하는 것은, 디바이스 (102) (예컨대, 활성화 회로부 (302)) 가 신호 (306) 를 통해 버퍼 (320) 를 활성화하는 것과 같이, 오디오 신호의 버퍼링을 개시하는 것을 포함한다. 일부 예들에서, 디바이스의 스크린 위에서와 같이, 디바이스의 부분 위에서 손의 부분을 검출하는 것에 응답하여, 방법 (500) 은, 디바이스 (102) (예컨대, 활성화 회로부 (302)) 가 신호 (304) 를 통해 마이크로폰 (112) 을 활성화하는 것과 같이, 마이크로폰을 활성화하여 입력 사운드에 기초하여 오디오 신호를 생성하는 단계를 더 포함한다.
일부 구현들에서, 방법 (600) 은, 608 에서, 손의 부분이 더 이상 디바이스의 부분 위에 있지 않음을 검출하는 단계, 및 610 에서, 손의 부분이 더 이상 디바이스의 부분 위에 있지 않음을 검출하는 것에 응답하여, 자동 음성 인식 시스템에 발화 종료 신호를 제공하는 단계를 포함한다. 예에서, 손 검출기 (130) 는 손이 더 이상 디바이스의 부분 위에 있지 않음을 검출하고, 활성화 회로부 (302) 는 제 2 표시 (242) 에 응답하여 ASR 엔진 (330) 에 발화 종료 신호 (312) 를 제공한다.
디바이스의 부분 위에서 손을 검출하는 것에 응답하여 ASR 시스템을 활성화함으로써, 방법 (600) 은 사용자가 활성화 키워드를 말하거나 또는 전용 버튼의 위치를 찾아 누를 필요 없이 음성 명령에 대한 음성 인식을 활성화할 수 있게 한다. 그 결과, 이를 테면 사용자가 차량을 운전 중일 때, 음성 인식이 편리하고 안전하게 활성화될 수 있다. 또한, 음성 인식을 활성화하기 위해 키워드 검출을 대신 사용하는 시스템과 비교하여 ASR 시스템의 잘못된 활성화가 모두 감소될 수 있다.
도 5 의 방법 (500), 도 6 의 방법 (600), 또는 양자 모두는, 필드 프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적 회로 (ASIC), 중앙 프로세싱 유닛 (CPU) 과 같은 프로세싱 유닛, DSP, 제어기, 다른 하드웨어 디바이스, 펌웨어 디바이스, 또는 이들의 임의의 조합에 의해 구현될 수도 있다. 예로서, 도 5 의 방법 (500), 도 6 의 방법 (600), 또는 양자 모두는 도 9 를 참조하여 설명되는 바와 같이, 명령들을 실행하는 프로세서에 의해 수행될 수도 있다.
도 7 은 자동차 대시보드 디바이스 (702) 와 같은 차량 대시보드 디바이스에 통합된 손 검출기 (130) 및 ASR 시스템 (140) 의 구현 (700) 의 예를 도시한다. 스크린 (110) (예컨대, 터치스크린 디스플레이) 과 같은 시각적 인터페이스 디바이스는 자동차의 운전자가 볼 수 있도록 자동차 대시보드 디바이스 (702) 내에 장착된다. 마이크로폰 (112) 및 하나 이상의 센서들 (120) 은 또한 자동차 대시보드 디바이스 (702) 에 장착되지만, 다른 구현들에서, 마이크로폰 (112) 및 센서(들) (120) 중 하나 이상은 운전대 내의 또는 운전자의 머리 근처의 마이크로폰 (112) 과 같이, 차량의 다른 곳에 로케이트될 수 있다. 손 검출기 (130) 및 ASR 시스템 (140) 은, 차량의 탑승자에게 손 검출기 (130) 및 ASR 시스템 (140) 이 보이지 않음을 표시하기 위해 점선 테두리로 예시된다. 손 검출기 (130) 및 ASR 시스템 (140) 은 도 1 내지 도 3 의 디바이스 (102) 에서와 같이 마이크로폰 (112) 및 센서(들) (120) 를 또한 포함하는 디바이스에서 구현될 수도 있거나, 또는 도 4 의 디바이스 (402) 에서와 같이, 마이크로폰 (112) 및 센서(들) (120) 로부터 분리되고 이들에 커플링될 수도 있다.
일부 구현들에서, 다중의 마이크로폰들 (112) 및 센서들 (120) 의 세트들이 차량에 통합된다. 예를 들어, 마이크로폰 및 센서들의 세트는, 각각의 승객이 핸드-오버-디바이스 검출을 사용하여 음성 명령들을 입력할 수 있게 하기 위해, 각 조수석에, 이를 테면 팔걸이 제어 패널 또는 시트-백 디스플레이 디바이스에 위치될 수 있다. 일부 구현들에서, 각각의 승객의 음성 명령은 공통 ASR 시스템 (140) 으로 라우팅될 수도 있고; 다른 구현들에서, 차량은 차량의 다중의 탑승자들로부터의 음성 명령들을 동시 프로세싱을 가능하게 하기 위해 다중의 ASR 시스템들 (140) 을 포함한다.
도 8 은 가상 현실 또는 증강 현실 헤드셋과 같은 헤드셋 (802) 에 통합된 손 검출기 (130) 및 ASR 시스템 (140) 의 구현의 예를 도시한다. 스크린 (110) 은 헤드셋 (802) 이 착용되는 동안 증강 현실 또는 가상 현실 이미지들 또는 장면들을 사용자에게 디스플레이할 수 있도록 사용자의 눈 앞에 위치되며, 센서(들) (120) 는 ASR 인식을 개시하기 위해 사용자의 손이 스크린 (110) 위에 (예컨대, 앞에) 있을 때를 검출하도록 위치된다. 마이크로폰 (112) 은 헤드셋 (802) 이 착용되는 동안 사용자의 음성을 수신하도록 로케이트된다. 헤드셋 (802) 을 착용하는 동안, 사용자는 사용자가 ASR 을 활성화하기 위해 음성 명령을 말하려고 하고 있음을 헤드셋 (802) 에 표시하기 위해 스크린 (110) 앞에서 손을 들어 올릴 수 있고, 사용자가 음성 명령을 말하는 것을 완료하였음을 표시하기 위해 손을 내릴 수 있다.
도 9 는 무선 통신 디바이스 구현 (예컨대, 스마트폰) 에서와 같이, 손 검출기 (130) 및 ASR 엔진 (330) 을 포함하는 디바이스 (900) 의 특정 예시적인 구현의 블록 다이어그램을 도시한다. 다양한 구현들에서, 디바이스 (900) 는 도 9 에 예시된 것보다 더 많거나 또는 더 적은 컴포넌트들을 가질 수도 있다. 예시적인 구현에서, 디바이스 (900) 는 디바이스 (102) 에 대응할 수도 있다. 예시적인 구현에서, 디바이스 (900) 는 도 1 내지 도 8 을 참조하여 설명된 하나 이상의 동작들을 수행할 수도 있다.
특정 구현에서, 디바이스 (900) 는 프로세서 (906) (예컨대, 중앙 프로세싱 유닛 (CPU)) 를 포함한다. 디바이스 (900) 는 하나 이상의 추가적인 프로세서들 (910) (예컨대, 하나 이상의 DSP들) 을 포함할 수도 있다. 프로세서들 (910) 은 음성 및 음악 코더-디코더 (CODEC; 코덱) (908) 및 손 검출기 (130) 를 포함할 수도 있다. 음성 및 음악 코덱 (908) 은 음성 코더 ("보코더") 인코더 (936), 보코더 디코더 (938), 또는 양자 모두를 포함할 수도 있다.
디바이스 (900) 는 메모리 (986) 및 코덱 (934) 을 포함할 수도 있다. 메모리 (986) 는 도 1 의 손 검출기 (130), ASR 엔진 (330), ASR 시스템 (140), 활성화 회로부 (302), 또는 이들의 임의의 조합을 참조하여 설명된 기능을 구현하기 위해 하나 이상의 추가적인 프로세서들 (910) (또는 프로세서 (906)) 에 의해 실행가능한 명령들 (956) 을 포함할 수도 있다. 디바이스 (900) 는 트랜시버 (950) 를 통해, 안테나 (952) 에 커플링된 무선 제어기 (940) 를 포함할 수도 있다.
디바이스 (900) 는 디스플레이 제어기 (926) 에 커플링된 디스플레이 (928) (예컨대, 스크린 (110)) 를 포함할 수도 있다. 스피커 (350) 및 마이크로폰 (112) 은 코덱 (934) 에 커플링될 수도 있다. 코덱 (934) 은 디지털-아날로그 변환기 (902) 및 아날로그-디지털 변환기 (904) 를 포함할 수도 있다. 특정 구현에서, 코덱 (934) 은 마이크로폰 (112) 으로부터 아날로그 신호들을 수신하고, 아날로그 신호들을 아날로그-디지털 변환기 (904) 를 사용하여 디지털 신호들로 변환하고, 디지털 신호들을 음성 및 음악 코덱 (908) 에 제공할 수도 있다. 음성 및 음악 코덱 (908) 은 디지털 신호들을 프로세싱할 수도 있고, 디지털 신호들은 ASR 엔진 (330) 에 의해 추가로 프로세싱될 수도 있다. 특정 구현에서, 음성 및 음악 코덱 (908) 은 코덱 (934) 에 디지털 신호들을 제공할 수도 있다. 코덱 (934) 은 디지털 신호들을 디지털-아날로그 변환기 (902) 를 사용하여 아날로그 신호들로 변환할 수도 있고 아날로그 신호들을 스피커 (350) 에 제공할 수도 있다.
특정 구현에서, 디바이스 (900) 는 시스템-인-패키지 또는 시스템-온-칩 디바이스 (922) 에 포함될 수도 있다. 특정 구현에서, 메모리 (986), 프로세서 (906), 프로세서들 (910), 디스플레이 제어기 (926), 코덱 (934), 및 무선 제어기 (940) 는 시스템-인-패키지 또는 시스템-온-칩 디바이스 (922) 에 포함된다. 특정 구현에 있어서, 입력 디바이스 (930) (예컨대, 센서(들) (120) 중 하나 이상) 및 전력 공급기 (944) 가 시스템-온-칩 디바이스 (922) 에 커플링된다. 더욱이, 특정 구현에서, 도 9 에 예시된 바와 같이, 디스플레이 (928), 입력 디바이스 (930), 스피커 (350), 마이크로폰 (112), 안테나 (992), 및 전력 공급기 (944) 는 시스템-온-칩 디바이스 (922) 의 외부에 있다. 특정 구현에서, 디스플레이 (928), 입력 디바이스 (930), 스피커 (350), 마이크로폰 (112), 안테나 (992), 및 전력 공급기 (944) 의 각각은, 인터페이스 또는 제어기와 같은 시스템-온-칩 디바이스 (922) 의 컴포넌트에 커플링될 수도 있다.
디바이스 (900) 는 스마트 스피커 (예컨대, 프로세서 (906) 는 음성 제어 디지털 어시스턴트 애플리케이션 (340) 을 실행시키기 위해 명령들 (956) 을 실행할 수도 있음), 스피커 바, 모바일 통신 디바이스, 스마트 폰, 셀룰러 폰, 랩탑 컴퓨터, 컴퓨터, 태블릿, 개인 디지털 보조기, 디스플레이 디바이스, 텔레비전, 게이밍 콘솔, 음악 플레이어, 라디오, 디지털 비디오 플레이어, 디지털 비디오 디스크 (DVD) 또는 블루-레이 디스크 플레이어, 튜너, 카메라, 내비게이션 디바이스, 가상 현실 또는 증강 현실 헤드셋, 차량 콘솔 디바이스, 또는 이들의 임의의 조합을 포함할 수도 있다.
설명된 구현들과 함께, 입력 사운드를 나타내는 오디오 신호를 프로세싱하기 위한 장치는, 디바이스의 적어도 부분 위에서 손의 적어도 부분을 검출하기 위한 수단을 포함한다. 예를 들어, 손의 부분을 검출하기 위한 수단은 손 검출기 (130), 손 패턴 검출기 (230), 손 온도 검출기 (234), 손 거리 검출기 (236), 디바이스의 적어도 부분 위에서 손의 적어도 부분을 검출하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합에 대응할 수 있다.
장치는 또한 오디오 신호를 프로세싱하기 위한 수단을 포함한다. 프로세싱하기 위한 수단은 디바이스의 부분 위에서의 손의 부분의 검출에 응답하여 활성화되도록 구성된다. 예를 들어, 오디오 신호를 프로세싱하기 위한 수단은 ASR 시스템 (140), ASR 엔진 (330), 마이크로폰 (112), 코덱 (934), 음성 및 음악 코덱 (908), 오디오 신호를 프로세싱하도록 구성되고 디바이스의 부분 위에서의 손의 부분의 검출에 응답하여 활성화되는 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합에 대응할 수 있다.
일부 구현들에서, 장치는 정보를 디스플레이하기 위한 수단을 포함하고, 검출하기 위한 수단은 정보를 디스플레이하기 위한 수단 위에서 손의 부분을 검출하도록 구성된다. 예를 들어, 정보를 디스플레이하기 위한 수단은 스크린 (110), 디스플레이 (928), 디스플레이 제어기 (926), 정보를 디스플레이하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
장치는 또한, 입력 사운드에 기초하여 오디오 신호를 생성하기 위한 수단을 포함할 수도 있으며, 그 생성하기 위한 수단은 정보를 디스플레이하기 위한 수단 위에서 손의 부분을 검출하는 것에 응답하여 활성화되도록 구성된다. 예를 들어, 오디오 신호를 생성하기 위한 수단은 마이크로폰 (112), 마이크로폰 어레이, 코덱 (934), 음성 및 음악 코덱 (908), 입력 사운드에 기초하여 오디오 신호를 생성하고 제 1 표시에 응답하여 활성화되도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합에 대응할 수 있다.
일부 구현들에서, 장치는 이미지 데이터를 생성하기 위한 수단을 포함하고, 손 패턴 검출기 (230) 와 같은, 검출하기 위한 수단은 이미지 데이터가 손 패턴을 포함하는지 여부를 결정하도록 구성된다. 일부 구현들에서, 장치는, 손의 부분과 연관된 온도를 검출하기 위한 수단 (예컨대, 손 온도 검출기 (234), 적외선 센서 (208), 또는 이들의 조합), 및 디바이스로부터 손의 부분의 거리를 검출하기 위한 수단 (예컨대, 손 거리 검출기 (236), 초음파 센서 (210), 카메라 어레이, 구조광 프로젝터, 디바이스로부터 손의 부분의 거리를 검출하기 위한 하나 이상의 다른 메커니즘, 또는 이들의 조합) 중 적어도 하나를 포함한다.
일부 구현들에서, 비일시적 컴퓨터 판독가능 매체 (예컨대, 메모리 (986)) 는 명령들 (예컨대, 명령들 (956)) 을 포함하고, 그 명령들은, 디바이스의 하나 이상의 프로세서들 (예컨대, 프로세서 (906), 프로세서(들) (910), 또는 이들의 임의의 조합) 에 의해 실행될 경우, 하나 이상의 프로세서들로 하여금, 입력 사운드를 나타내는 오디오 신호를 프로세싱하기 위한 동작들을 수행하게 한다. 동작들은 (예를 들어, 손 검출기 (130) 에서) 디바이스의 적어도 부분 위에서 손의 적어도 부분을 검출하는 것을 포함한다. 예를 들어, 디바이스의 부분 위에서 손의 부분을 검출하는 것은 센서 데이터 (122) 를 수신하는 것, 하나 이상의 검출기들 (예컨대, 손 패턴 검출기 (230), 손 온도 검출기 (234), 또는 손 거리 검출기 (236)) 을 사용하여 센서 데이터 (122) 를 프로세싱하여 하나 이상의 검출 기준이 충족되는지 여부를 결정하는 것, 및 (예를 들어, 활성화 신호 유닛 (240) 을 참조하여 설명된 바와 같이) 적어도 부분적으로 하나 이상의 기준들이 충족된다는 검출에 응답하여 표시 (132) 를 생성하는 것을 포함할 수 있다. 예를 들어, 일부 구현들에서, 센서 데이터 (122) 를 프로세싱하여 검출 기준이 충족되는지 여부를 결정하는 것은, 손 패턴 (232) 을 인식하도록 훈련되는 (예를 들어, 손 패턴 검출기 (230) 를 참조하여 설명된 바와 같이) 뉴럴 네트워크 분류기를 적용하여 이미지 데이터 (212) 를 프로세싱하는 것 또는 이미지 데이터 (212) 에 하나 이상의 필터들을 적용하여 손 패턴 (232) 을 검출하는 것을 포함한다.
동작들은 또한, 디바이스의 부분 위에서 손의 부분을 검출하는 것에 응답하여, 자동 음성 인식 시스템을 활성화하여 오디오 신호를 프로세싱하는 것을 포함한다. 예를 들어, 자동 음성 인식을 활성화하는 것은 ASR 시스템 (140) 에 대한 입력에서 표시 (132) 를 검출하는 것, 및 표시 (132) 를 검출하는 것에 응답하여, ASR 시스템 (140) 의 적어도 하나의 컴포넌트 (예컨대, 버퍼 (320), ASR 엔진 (330)) 에 대한 파워-업 또는 클록 활성화 중 적어도 하나를 수행하는 것을 포함할 수 있다.
당업자는 또한, 본 명세서에서 개시된 구현들와 관련하여 설명된 다양한 예시적인 논리 블록들, 구성들, 모듈들, 회로들, 및 알고리즘 단계들이 전자 하드웨어, 프로세서에 의해 실행된 컴퓨터 소프트웨어, 또는 이들 양자의 조합들로서 구현될 수도 있음을 인식할 것이다. 다양한 예시적인 컴포넌트들, 블록들, 구성들, 모듈들, 회로들, 및 단계들이 일반적으로 그들의 기능의 관점에서 상기 설명되었다. 그러한 기능이 하드웨어로서 구현되는지 또는 프로세서 실행가능 명령들로서 구현되는지 여부는, 전체 시스템에 부과된 설계 제약들 및 특정 애플리케이션에 의존한다. 당업자들은 각각의 특정 애플리케이션에 대해 다양한 방식들로 설명된 기능을 구현할 수도 있으며, 이러한 구현 결정들은 본 개시의 범위로부터의 일탈을 야기하는 것으로 해석되지 않아야 한다.
본 명세서에서 개시된 구현들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 직접 하드웨어에서, 프로세서에 의해 실행된 소프트웨어 모듈에서, 또는 이들 양자의 조합에서 구현될 수도 있다. 소프트웨어 모듈은 랜덤 액세스 메모리 (RAM), 플래시 메모리, 판독 전용 메모리 (ROM), 프로그래밍가능 판독 전용 메모리 (PROM), 소거가능한 프로그래밍가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능한 프로그래밍가능 판독 전용 메모리 (EEPROM), 레지스터들, 하드 디스크, 착탈식 디스크, 컴팩트 디스크 판독 전용 메모리 (CD-ROM), 또는 당업계에 알려져 있는 임의의 다른 형태의 비일시적 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는, 프로세서가 저장 매체로부터 정보를 판독하고 저장 매체에 정보를 기입할 수도 있도록 프로세서에 커플링된다. 대안으로, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서 및 저장 매체는 주문형 집적 회로 (ASIC) 에 상주할 수도 있다. ASIC 은 컴퓨팅 디바이스 또는 사용자 단말기에 상주할 수도 있다. 대안으로, 프로세서 및 저장 매체는 컴퓨팅 디바이스 또는 사용자 단말기에서 이산 컴포넌트들로서 상주할 수도 있다.
개시된 구현들의 이전의 설명은 당업자로 하여금 개시된 구현들을 제조 또는 이용할 수 있도록 제공된다. 이들 구현들에 대한 다양한 수정들은 당업자에게 용이하게 자명할 것이며, 본 명세서에서 정의된 원리들은 본 개시의 범위로부터 일탈함 없이 다른 구현들에 적용될 수도 있다. 따라서, 본 개시는 본 명세서에 나타낸 구현들에 한정되도록 의도되지 않고, 다음의 청구항들에 의해 정의된 바와 같은 원리들 및 신규한 특징들에 부합하는 가능한 최광의 범위를 부여받아야 한다.

Claims (30)

  1. 입력 사운드를 나타내는 오디오 신호를 프로세싱하기 위한 디바이스로서,
    상기 디바이스의 적어도 부분 위에서의 손의 적어도 부분의 검출에 응답하여 제 1 표시를 생성하도록 구성된 손 검출기; 및
    상기 제 1 표시에 응답하여, 활성화되어, 상기 오디오 신호를 프로세싱하도록 구성된 자동 음성 인식 시스템을 포함하는, 오디오 신호를 프로세싱하기 위한 디바이스.
  2. 제 1 항에 있어서,
    스크린으로서, 상기 손 검출기는 상기 스크린 위에서의 상기 손의 적어도 부분의 검출에 응답하여 상기 제 1 표시를 생성하도록 구성되는, 상기 스크린; 및
    상기 제 1 표시에 응답하여, 활성화되어, 상기 입력 사운드에 기초하여 상기 오디오 신호를 생성하도록 구성된 마이크로폰을 더 포함하는, 오디오 신호를 프로세싱하기 위한 디바이스.
  3. 제 2 항에 있어서,
    상기 손 검출기는, 상기 손의 상기 부분이 상기 스크린으로부터 10 센티미터 내지 30 센티미터의 거리에 있다는 검출에 응답하여 상기 제 1 표시를 생성하도록 구성되는, 오디오 신호를 프로세싱하기 위한 디바이스.
  4. 제 1 항에 있어서,
    상기 손 검출기에 커플링되고 상기 손 검출기에 센서 데이터를 제공하도록 구성된 하나 이상의 센서들을 더 포함하는, 오디오 신호를 프로세싱하기 위한 디바이스.
  5. 제 4 항에 있어서,
    상기 하나 이상의 센서들은 상기 손 검출기에 이미지 데이터를 제공하도록 구성된 카메라를 포함하는, 오디오 신호를 프로세싱하기 위한 디바이스.
  6. 제 5 항에 있어서,
    상기 카메라는 상기 이미지 데이터를 생성하도록 구성된 저전력 주변 광 센서를 포함하는, 오디오 신호를 프로세싱하기 위한 디바이스.
  7. 제 5 항에 있어서,
    상기 손 검출기는, 상기 이미지 데이터를 프로세싱하여 상기 이미지 데이터가 손 패턴을 포함하는지 여부를 결정하도록 구성된 손 패턴 검출기를 포함하는, 오디오 신호를 프로세싱하기 위한 디바이스.
  8. 제 7 항에 있어서,
    상기 하나 이상의 센서들은 적외선 센서를 더 포함하는, 오디오 신호를 프로세싱하기 위한 디바이스.
  9. 제 8 항에 있어서,
    상기 손 검출기는 상기 적외선 센서로부터의 적외선 센서 데이터를 프로세싱하도록 구성된 손 온도 검출기를 더 포함하는, 오디오 신호를 프로세싱하기 위한 디바이스.
  10. 제 1 항에 있어서,
    상기 손 검출기에 커플링되고, 상기 제 1 표시를 수신하는 것에 응답하여 상기 자동 음성 인식 시스템을 활성화도록 구성되는 활성화 회로부를 더 포함하는, 오디오 신호를 프로세싱하기 위한 디바이스.
  11. 제 1 항에 있어서,
    상기 자동 음성 인식 시스템은 버퍼 및 자동 음성 인식 엔진을 포함하고, 상기 자동 음성 인식 시스템을 활성화하는 것은 상기 버퍼에서 상기 오디오 신호의 버퍼링을 개시하는 것을 포함하는, 오디오 신호를 프로세싱하기 위한 디바이스.
  12. 제 11 항에 있어서,
    상기 손 검출기는, 상기 손의 상기 부분이 더 이상 상기 디바이스의 상기 부분 위에 있지 않다는 검출에 응답하여 제 2 표시를 생성하도록 추가로 구성되고, 상기 제 2 표시는, 상기 자동 음성 인식 엔진이 상기 버퍼로부터의 오디오 데이터를 프로세싱하기 시작하게 하는 발화 종료 (end-of-utterance) 신호에 대응하는, 오디오 신호를 프로세싱하기 위한 디바이스.
  13. 제 1 항에 있어서,
    상기 손 검출기 및 상기 자동 음성 인식 시스템은 차량에 통합되는, 오디오 신호를 프로세싱하기 위한 디바이스.
  14. 제 1 항에 있어서,
    상기 손 검출기 및 상기 자동 음성 인식 시스템은 휴대용 통신 디바이스에 통합되는, 오디오 신호를 프로세싱하기 위한 디바이스.
  15. 제 1 항에 있어서,
    상기 손 검출기 및 상기 자동 음성 인식 시스템은 가상 현실 또는 증강 현실 헤드셋에 통합되는, 오디오 신호를 프로세싱하기 위한 디바이스.
  16. 입력 사운드를 나타내는 오디오 신호를 프로세싱하는 방법으로서,
    디바이스에서, 상기 디바이스의 적어도 부분 위에서 손의 적어도 부분을 검출하는 단계; 및
    상기 디바이스의 상기 부분 위에서 상기 손의 상기 부분을 검출하는 것에 응답하여, 자동 응답 인식 시스템을 활성화하여 상기 오디오 신호를 프로세싱하는 단계를 포함하는, 오디오 신호를 프로세싱하는 방법.
  17. 제 16 항에 있어서,
    상기 디바이스의 상기 부분은 상기 디바이스의 스크린을 포함하고, 상기 스크린 위에서 상기 손의 상기 부분을 검출하는 것에 응답하여, 마이크로폰을 활성화하여 상기 입력 사운드에 기초하여 상기 오디오 신호를 생성하는 단계를 더 포함하는, 오디오 신호를 프로세싱하는 방법.
  18. 제 16 항에 있어서,
    상기 손의 상기 부분이 더 이상 상기 디바이스의 상기 부분 위에 있지 않음을 검출하는 단계; 및
    상기 손의 상기 부분이 더 이상 상기 디바이스의 상기 부분 위에 있지 않음을 검출하는 것에 응답하여, 상기 자동 음성 인식 시스템에 발화 종료 신호를 제공하는 단계를 더 포함하는, 오디오 신호를 프로세싱하는 방법.
  19. 제 16 항에 있어서,
    상기 자동 음성 인식 시스템을 활성화하는 것은 상기 오디오 신호의 버퍼링을 개시하는 것을 포함하는, 오디오 신호를 프로세싱하는 방법.
  20. 제 16 항에 있어서,
    상기 디바이스의 상기 부분 위에서 상기 손의 상기 부분을 검출하는 단계는, 이미지 데이터를 프로세싱하여 상기 이미지 데이터가 손 패턴을 포함하는지 여부를 결정하는 단계를 포함하는, 오디오 신호를 프로세싱하는 방법.
  21. 제 20 항에 있어서,
    상기 이미지 데이터는 상기 디바이스의 저전력 주변 광 센서에서 생성되는, 오디오 신호를 프로세싱하는 방법.
  22. 제 20 항에 있어서,
    상기 디바이스의 상기 부분 위에서 상기 손의 상기 부분을 검출하는 단계는, 상기 디바이스의 적외선 센서로부터의 적외선 센서 데이터를 프로세싱하는 단계를 더 포함하는, 오디오 신호를 프로세싱하는 방법.
  23. 명령들을 포함하는 비일시적 컴퓨터 판독가능 저장 매체로서,
    상기 명령들은, 디바이스의 하나 이상의 프로세서들에 의해 실행될 경우, 상기 하나 이상의 프로세서들로 하여금, 입력 사운드를 나타내는 오디오 신호를 프로세싱하기 위한 동작들을 수행하게 하고, 상기 동작들은,
    상기 디바이스의 적어도 부분 위에서 손의 적어도 부분을 검출하는 것; 및
    상기 디바이스의 상기 부분 위에서 상기 손의 상기 부분을 검출하는 것에 응답하여, 자동 음성 인식 시스템을 활성화하여 상기 오디오 신호를 프로세싱하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  24. 제 23 항에 있어서,
    상기 디바이스의 상기 부분은 상기 디바이스의 스크린을 포함하고, 상기 동작들은, 상기 스크린 위에서 상기 손의 상기 부분을 검출하는 것에 응답하여, 마이크로폰을 활성화하여 상기 입력 사운드에 기초하여 상기 오디오 신호를 생성하는 것을 더 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  25. 제 23 항에 있어서,
    상기 동작들은,
    상기 손의 상기 부분이 더 이상 상기 디바이스의 상기 부분 위에 있지 않음을 검출하는 것; 및
    상기 손의 상기 부분이 더 이상 상기 디바이스의 상기 부분 위에 있지 않음을 검출하는 것에 응답하여, 상기 자동 음성 인식 시스템에 발화 종료 신호를 제공하는 것을 더 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  26. 제 23 항에 있어서,
    상기 디바이스의 상기 부분 위에서 상기 손의 상기 부분을 검출하는 것은 센서 데이터를 프로세싱하여 손 모양을 검출하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  27. 입력 사운드를 나타내는 오디오 신호를 프로세싱하기 위한 장치로서,
    디바이스의 적어도 부분 위에서 손의 적어도 부분을 검출하기 위한 수단; 및
    상기 오디오 신호를 프로세싱하기 위한 수단으로서, 상기 프로세싱하기 위한 수단은, 상기 디바이스의 상기 부분 위에서의 상기 손의 상기 부분의 검출에 응답하여 활성화되도록 구성된, 상기 오디오 신호를 프로세싱하기 위한 수단을 포함하는, 오디오 신호를 프로세싱하기 위한 장치.
  28. 제 27 항에 있어서,
    정보를 디스플레이하기 위한 수단으로서, 상기 검출하기 위한 수단은, 상기 정보를 디스플레이하기 위한 수단 위에서 상기 손의 상기 부분을 검출하도록 구성되는, 상기 정보를 디스플레이하기 위한 수단; 및
    상기 입력 사운드에 기초하여 상기 오디오 신호를 생성하기 위한 수단으로서, 상기 생성하기 위한 수단은, 상기 디스플레이하기 위한 수단 위에서의 상기 손의 상기 부분의 검출에 응답하여 활성화되도록 구성된, 상기 오디오 신호를 생성하기 위한 수단을 더 포함하는, 오디오 신호를 프로세싱하기 위한 장치.
  29. 제 27 항에 있어서,
    이미지 데이터를 생성하기 위한 수단을 더 포함하고, 상기 검출하기 위한 수단은, 상기 이미지 데이터가 손 패턴을 포함하는지 여부를 결정하도록 구성되는, 오디오 신호를 프로세싱하기 위한 장치.
  30. 제 29 항에 있어서,
    상기 손의 상기 부분과 연관된 온도를 검출하기 위한 수단, 및
    상기 디바이스로부터의 상기 손의 상기 부분의 거리를 검출하기 위한 수단 중 적어도 하나를 더 포함하는, 오디오 신호를 프로세싱하기 위한 장치.
KR1020227002030A 2019-07-30 2020-07-30 음성 인식의 활성화 KR20220041831A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/526,608 US11437031B2 (en) 2019-07-30 2019-07-30 Activating speech recognition based on hand patterns detected using plurality of filters
US16/526,608 2019-07-30
PCT/US2020/044127 WO2021021970A1 (en) 2019-07-30 2020-07-30 Activating speech recognition

Publications (1)

Publication Number Publication Date
KR20220041831A true KR20220041831A (ko) 2022-04-01

Family

ID=72087256

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227002030A KR20220041831A (ko) 2019-07-30 2020-07-30 음성 인식의 활성화

Country Status (8)

Country Link
US (1) US11437031B2 (ko)
EP (1) EP4004908A1 (ko)
JP (1) JP2022543201A (ko)
KR (1) KR20220041831A (ko)
CN (1) CN114144831A (ko)
BR (1) BR112022000922A2 (ko)
TW (1) TW202121115A (ko)
WO (1) WO2021021970A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210015234A (ko) * 2019-08-01 2021-02-10 삼성전자주식회사 전자 장치, 및 그의 음성 명령에 따른 기능이 실행되도록 제어하는 방법
US11682391B2 (en) * 2020-03-30 2023-06-20 Motorola Solutions, Inc. Electronic communications device having a user interface including a single input interface for electronic digital assistant and voice control access
US11590929B2 (en) * 2020-05-05 2023-02-28 Nvidia Corporation Systems and methods for performing commands in a vehicle using speech and image recognition

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020077830A1 (en) * 2000-12-19 2002-06-20 Nokia Corporation Method for activating context sensitive speech recognition in a terminal
US8958848B2 (en) 2008-04-08 2015-02-17 Lg Electronics Inc. Mobile terminal and menu control method thereof
JP5229083B2 (ja) * 2009-04-14 2013-07-03 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
KR101795574B1 (ko) * 2011-01-06 2017-11-13 삼성전자주식회사 모션에 의해 제어되는 전자기기 및 그 제어 방법
JP2013080015A (ja) 2011-09-30 2013-05-02 Toshiba Corp 音声認識装置および音声認識方法
JP6030430B2 (ja) 2012-12-14 2016-11-24 クラリオン株式会社 制御装置、車両及び携帯端末
JP2015096413A (ja) * 2013-10-11 2015-05-21 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 処理方法、プログラム、処理装置および検出システム
CN207758675U (zh) 2017-12-29 2018-08-24 广州视声光电有限公司 一种触发式车载后视镜
JP7091983B2 (ja) * 2018-10-01 2022-06-28 トヨタ自動車株式会社 機器制御装置
CN209571226U (zh) * 2018-12-20 2019-11-01 深圳市朗强科技有限公司 一种语音识别装置及系统

Also Published As

Publication number Publication date
EP4004908A1 (en) 2022-06-01
JP2022543201A (ja) 2022-10-11
BR112022000922A2 (pt) 2022-03-08
WO2021021970A1 (en) 2021-02-04
US20210035571A1 (en) 2021-02-04
TW202121115A (zh) 2021-06-01
US11437031B2 (en) 2022-09-06
CN114144831A (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
EP3179474B1 (en) User focus activated voice recognition
US11069343B2 (en) Voice activation method, apparatus, electronic device, and storage medium
KR102216048B1 (ko) 음성 명령 인식 장치 및 방법
KR20220041831A (ko) 음성 인식의 활성화
WO2019214361A1 (zh) 语音信号中关键词的检测方法、装置、终端及存储介质
US11348581B2 (en) Multi-modal user interface
EP3576085B1 (en) Operating method for microphones and electronic device supporting the same
JP5916888B2 (ja) 直接的文法アクセス
EP3274988A1 (en) Controlling electronic device based on direction of speech
KR20160009344A (ko) 귓속말 인식 방법 및 장치
WO2014130463A2 (en) Hybrid performance scaling or speech recognition
WO2014143491A1 (en) Method and apparatus for pre-processing audio signals
US9633655B1 (en) Voice sensing and keyword analysis
CN109189360B (zh) 屏幕发声控制方法、装置以及电子装置
CN111833872A (zh) 对电梯的语音控制方法、装置、设备、系统及介质
US11682392B2 (en) Information processing apparatus
CN114220420A (zh) 多模态语音唤醒方法、装置及计算机可读存储介质
KR20230084154A (ko) 동적 분류기를 사용한 사용자 음성 활동 검출
CN111681654A (zh) 语音控制方法、装置、电子设备及存储介质
CN109144462B (zh) 发声控制方法、装置、电子装置及计算机可读介质
CN108966094B (zh) 发声控制方法、装置、电子装置及计算机可读介质
CN115881125B (zh) 车载多音区语音交互方法、装置、电子设备和存储介质
WO2023151360A1 (zh) 一种电子设备控制方法、装置及电子设备
CN116189718A (zh) 语音活性检测方法、装置、设备及存储介质
CN114299945A (zh) 语音信号的识别方法、装置、电子设备、存储介质及产品