KR101810806B1

KR101810806B1 - 컴퓨팅 디바이스의 음성 인식 프로세스의 제어

Info

Publication number: KR101810806B1
Application number: KR1020167018329A
Authority: KR
Inventors: 기현 박; 수안-수 청; 아라빈드 산카란; 파라슈람 카다디
Original assignee: 퀄컴 인코포레이티드
Priority date: 2013-12-09
Filing date: 2014-12-08
Publication date: 2017-12-19
Also published as: EP3080809B1; WO2015088980A1; KR20160095141A; US9564128B2; JP6259094B2; CN105765656A; US20150161998A1; JP2016540250A; EP3080809A1; CN105765656B

Abstract

컴퓨팅 디바이스 상에서 음성 인식 프로세스를 제어하기 위한 방법들, 시스템들, 및 디바이스들이 제공된다. 컴퓨팅 디바이스는 마이크로폰으로부터 오디오 신호들을, 그리고 근전도 검사 센서와 같은 근육 운동 검출기로부터 근육 운동 신호들을 수신할 수도 있다. 컴퓨팅 디바이스는 오디오 신호들이 스피치를 표시하는 오디오 특징 기준을 충족시키는지 여부와, 두부 근육 활성도 신호들이 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는지 여부를 결정할 수도 있다. 컴퓨팅 디바이스는 오디오 신호들 및 두부 근육 활성도 신호들의 양자가 사용자가 말하고 있음을 표시하는 그 각각의 기준을 충족시키는 것으로 결정하는 것에 응답하여, 음성 인식 알고리즘을 통해 오디오 신호들에 대한 음성 인식 프로세싱을 수행할 수도 있고, 오디오 신호들 또는 두부 근육 활성도 신호들의 어느 하나가 사용자가 말하고 있음을 표시하는 그 각각의 기준을 충족시키지 않는 동안에는 오디오 신호들의 음성 인식 프로세싱을 수행하지 않을 수도 있다.

Description

컴퓨팅 디바이스의 음성 인식 프로세스의 제어{CONTROLLING A SPEECH RECOGNITION PROCESS OF A COMPUTING DEVICE}

연구는 소비자들을 위하여 이용가능한 다수의 웨어러블 컴퓨팅 디바이스들이 다음 4 년 동안에 5 배 증가할 것이라는 것을 보여준다. 웨어러블 컴퓨팅 디바이스들을 위한 사용자 입력은 어떤 웨어러블 컴퓨팅 디바이스들의 성공에 대한 핵심 결정 인자일 것이다. 웨어러블 컴퓨팅 디바이스를 위한 하나의 이러한 사용자 입력 방법은 음성 인식을 포함한다. 음성 인식 알고리즘들은 사용자에 의해 의도된 커맨드를 결정하기 위하여 사용자의 스피치 (speech) 를 해독한다.

다양한 실시형태들의 방법들 및 디바이스들은 마이크로폰으로부터 오디오 신호들을, 그리고 근육 운동 검출기로부터 두부 근육 활성도 (head muscle activity) 신호들을 수신하는 컴퓨팅 디바이스가, 전력을 절감하기 위하여 사용자가 말하고 있을 때에만 음성 인식 프로세스를 활성화 (activate) 하고, 사용자가 말하고 있지 않을 때에는 프로세싱 자원들을 활성화하는 것을 가능하게 한다. 실시형태의 방법들 및 디바이스들은 마이크로폰으로부터 오디오 신호들을 수신하는 것, 마이크로폰으로부터 오디오 신호들을 수신하는 것과 동시에 컴퓨팅 디바이스의 사용자의 두부 근육 활성도를 측정하도록 구성되고 위치된 근육 운동 검출기로부터 근육 활성도 신호들을 수신하는 것, 오디오 신호들이 컴퓨팅 디바이스의 사용자가 말하고 있음을 표시하는 오디오 특징 기준을 충족시키는지 여부를 결정하는 것, 두부 근육 활성도 신호들이 컴퓨팅 디바이스의 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는지 여부를 결정하는 것을 포함할 수도 있다. 실시형태의 방법들 및 디바이스들은 또한, 오디오 신호들이 컴퓨팅 디바이스의 사용자가 말하고 있음을 표시하는 오디오 특징 기준을 충족시키는 것으로, 그리고 두부 근육 활성도 신호들이 컴퓨팅 디바이스의 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는 것으로 결정하는 것에 응답하여 음성 인식 알고리즘을 통해 오디오 신호를 프로세싱하는 것과, 오디오 신호들이 컴퓨팅 디바이스의 사용자가 말하고 있음을 표시하는 오디오 특징 기준을 충족시키지 않거나 두부 근육 활성도 신호들이 컴퓨팅 디바이스의 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키지 않는 동안에는 음성 인식 알고리즘을 통해 오디오 신호를 프로세싱하지 않는 것을 포함할 수도 있다.

일부의 실시형태의 방법들 및 디바이스들에서, 오디오 신호들이 컴퓨팅 디바이스의 사용자가 말하고 있음을 표시하는 오디오 특징 기준을 충족시키는지 여부를 결정하는 것은 오디오 신호들의 제곱 평균 제곱근 (root mean square; RMS) 레벨이 RMS 임계 레벨을 초과하는지 여부를 결정하는 것을 포함할 수도 있다.

일부의 실시형태의 방법들 및 디바이스들에서, 오디오 신호들이 컴퓨팅 디바이스의 사용자가 말하고 있음을 표시하는 오디오 특징 기준을 충족시키는지 여부를 결정하는 것은, 수신된 오디오 신호들을 스피치의 특징 성조 패턴 (characteristic tonal pattern) 들과 비교하는 것, 수신된 오디오 신호들이 음조-패턴 일치 임계점 (tonal-pattern matching threshold) 을 초과하는 정도까지, 스피치의 특징 성조 패턴들과 일치하는지 여부를 결정하는 것, 및 수신된 오디오 신호들이 음조-패턴 일치 임계점을 초과하는 정도까지, 스피치의 특징 성조 패턴들과 일치하는 것으로 결정하는 것에 응답하여, 오디오 신호들이 컴퓨팅 디바이스의 사용자가 말하고 있음을 표시하는 오디오 특징 기준을 충족시키는 것으로 결정하는 것을 포함할 수도 있다.

일부의 실시형태의 방법들 및 디바이스들에서, 두부 근육 활성도 신호들이 컴퓨팅 디바이스의 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는지 여부를 결정하는 것은, 수신된 두부 근육 활성도 신호들이 스피치를 표시하는 근육 운동 신호 크기 임계점을 초과하는지 여부를 결정하는 것을 포함할 수도 있다.

일부의 실시형태의 방법들 및 디바이스들에서, 두부 근육 활성도 신호들이 컴퓨팅 디바이스의 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는지 여부를 결정하는 것은, 수신된 두부 근육 활성도 신호들을 컴퓨팅 디바이스의 사용자가 말하고 있음을 표시하는 근육 운동 신호 패턴들과 비교하는 것, 수신된 두부 근육 활성도 신호들이 근육 활성도 패턴 일치 임계점을 초과하는 정도까지, 컴퓨팅 디바이스의 사용자가 말하고 있음을 표시하는 특징 두부 근육 활성도 신호 패턴들과 일치하는지 여부를 결정하는 것, 수신된 두부 근육 활성도 신호들이 근육 활성도-패턴 일치 임계점을 초과하는 정도까지, 컴퓨팅 디바이스의 사용자가 말하고 있음을 표시하는 특징 두부 근육 활성도 신호 패턴들과 일치하는 것으로 결정하는 것에 응답하여, 수신된 두부 근육 활성도 신호들이 컴퓨팅 디바이스의 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는 것으로 결정하는 것을 포함할 수도 있다. 다양한 실시형태의 방법들 및 디바이스들의 근육 운동 신호 패턴들은 사용자에 의한 훈련으로부터 학습되고 컴퓨팅 디바이스의 메모리 내에 저장된 두부 근육 활성도 신호들을 포함할 수도 있다.

첨부한 도면들은 개시물의 실시형태들의 설명을 보조하기 위하여 제시되고, 실시형태들의 제한이 아니라 실시형태들의 예시를 위하여 전적으로 제공된다.
도 1 은 다양한 실시형태들과의 이용을 위해 적당한 웨어러블 컴퓨팅 디바이스의 사시도이다.
도 2 는 도 1 의 컴퓨팅 디바이스를 착용하는 사용자의 예시이다.
도 3 은 다양한 실시형태들과의 이용을 위해 적당한 웨어러블 컴퓨팅 디바이스의 개략적인 기능적 블록도이다.
도 4 는 마이크로폰 및 EMG 센서로부터 수신된 오디오 및 EMG 데이터의 그래프이다.
도 5 는 음성 인식을 위하여 오디오 신호들을 프로세싱할 것인지 여부를 결정하기 위한 실시형태의 방법을 예시하는 프로세스 흐름도이다.
도 6 은 수신된 오디오 신호들이 오디오 특징 기준을 충족시키는지 여부를 결정하기 위한 실시형태의 방법을 예시하는 프로세스 흐름도이다.
도 7 은 수신된 두부 근육 활성도가 근육 운동 기준을 충족시키는지 여부를 결정하기 위한 실시형태의 방법을 예시하는 프로세스 흐름도이다.

다양한 실시형태들은 첨부한 도면들을 참조하여 상세하게 설명될 것이다. 가능한 경우마다, 동일한 참조 번호들은 동일하거나 유사한 부분들을 지칭하기 위하여 도면들의 전반에 걸쳐 이용될 것이다. 특정한 예들 및 구현예들에 대해 행해진 참조들은 예시적인 목적들을 위한 것이고, 개시물 또는 청구항들의 범위를 제한하도록 의도된 것은 아니다. 대체 실시형태들은 개시물의 범위로부터 이탈하지 않으면서 고안될 수도 있다. 추가적으로, 개시물의 잘 알려진 엘리먼트들은 개시물의 관련된 세부사항들을 모호하게 하지 않도록 하기 위하여 상세하게 설명되지 않거나 생략될 것이다.

단어 "예시적" 은 "예, 사례, 또는 예시로서 작용함" 을 의미하기 위하여 본원에서 이용된다. "예시적" 으로서 본원에서 설명된 임의의 구현예는 다른 구현예들에 비해 바람직하거나 유리한 것으로서 반드시 해석되어야 하는 것은 아니다. 추가적으로, 단어들 "제 1" 및 "제 2" 또는 유사한 장황함은 다양한 설명된 엘리먼트들을 구별하기 위하여 명료성의 목적들을 위해 이용되고, 청구항들을 엘리먼트들의 특정한 순서 또는 계층구조로 제한하도록 의도된 것은 아니다.

음성 인식은 큰 전력의 양들을 소모할 수 있는 연산적으로 강력한 프로세스이다. 사용자가 대화하고 있지 않을 때 (예컨대, 주위 환경에서의 음악) 에 오디오 입력들에 대해 음성 인식 프로세싱 루틴들을 실행하는 것은 에너지를 낭비하고, 이것은 배터리 급전된 디바이스에서, 디바이스가 충전되어야 하기 전에 디바이스가 동작할 수 있는 시간을 제한할 수도 있다. 이에 따라, 배경 잡음을 포함하는 모든 수신된 오디오 입력들에 대해 음성 인식 루틴들을 항상 프로세싱하는 것은 웨어러블 컴퓨팅 디바이스에서의 사용자의 경험에 부정적으로 영향을 줄 수도 있다.

다양한 실시형태들은, 음성 인식 알고리즘을 통한 오디오 신호들 및/또는 두부 근육 활성도 신호들 (예컨대, EMG 신호들) 의 프로세싱이 수신된 오디오 신호들이 오디오 특징 기준을 충족시키고 수신된 두부 근육 활성도 신호들이 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족킬 때에 수행되기만 하는 웨어러블 컴퓨팅 디바이스에서 전력을 절약하는 것에 관한 것이다. 다양한 실시형태들은 불필요한 음성 인식 프로세싱 동작들을 최소화하고, 이에 따라, 웨어러블 컴퓨팅 디바이스 (예컨대, 스마트 안경) 의 제한된 배터리 전력을 절감한다.

다양한 실시형태들에서, 컴퓨팅 디바이스는 사용자가 말하고 있을 때에 근육 운동들을 검출하기 위하여 (예컨대, 신호 강도들이 임계 레벨을 초과하지 않음), 근전도 검사 (electromyography; EMG) 센서와 같은 하나 이상의 두부 근육 운동 검출기들을 이용할 수도 있다. 또한, 하나 이상의 마이크로폰들은 사용자가 말하고 있을 때에 오디오 신호들을 수신할 수도 있다 (예컨대, 수신된 오디오는 임계점 미만인 RMS 레벨들을 가짐). 마이크로폰으로부터 수신된 오디오 신호들 및 근육 운동 검출기들로부터 수신된 두부 근육 활성도 신호들 양자로부터 행해진 결정들에 기초하여, 컴퓨팅 디바이스는 음성 인식 알고리즘을 활성화할 것인지 여부를 결정할 수도 있다. 이러한 방법으로, 디지털 신호 프로세서 (digital signal processor; DSP) 와 같은 프로세서는 사용자가 말하고 있을 가능성이 있을 때에 연산적으로 부담이 큰 음성 인식 알고리즘들을 이용하여 오디오 신호들 및/또는 근육 활성도 신호들을 프로세싱하기만 한다. 임계점들이 수신된 오디오 신호들 및 수신된 근육 활성도 신호들로부터 충족되지 않으면, 컴퓨팅 디바이스는 수신된 오디오 신호들 및/또는 수신된 금육 활성도 신호들을 프로세싱하는 것을 금지하기 위하여 음성 인식 알고리즘을 비활성화 (deactivate) 할 수도 있다.

용어들 "웨어러블 컴퓨팅 디바이스" 또는 "스마트 안경" 은 음성 인식 알고리즘을 통해 수신된 오디오 신호들을 프로세싱하기 위하여 구성된 프로세서를 갖는 컴퓨팅 디바이스를 지칭하기 위하여 본원에서 상호 교환가능하게 이용된다. 웨어러블 컴퓨팅 디바이스는 마이크로폰, 근육 운동 센서, 입력 기구, 트랜시버, 디스플레이, 및 카메라와 같은 하나 이상의 다른 컴포넌트들을 가질 수도 있다. 웨어러블 컴퓨팅 디바이스는 스마트 안경 또는 스마트 시계와 같이, 디바이스가 착용가능한 것을 암시하지만, 유선 또는 무선 근육 운동 검출기들로 오디오 신호들을 받아들일 수 있는 임의의 컴퓨팅 디바이스는 다양한 실시형태의 방법들을 위해 구상된다. 예를 들어, 원격 근육 운동 센서들을 갖는 이동 전화는 설명된 방법들의 실시형태들에서 이용될 수 있다.

본원에서 이용된 바와 같이, 용어 "마이크로폰" 은 바로 주위의 환경으로부터 사운드 (하나 이상의 입력 오디오 신호들) 를 픽업 (pick up) 하고 그것을 전기적 신호로 변환하는 컴퓨팅 디바이스의 입력 트랜스듀서 (input transducer) 를 지칭한다.

본원에서 이용된 바와 같이, 용어 "두부 근육 활성도" 또는 "근육 활성도" 는 인간 스피치에서 관여된 (안면 근육들을 포함하는) 임의의 두부 근육의 활성도를 지칭한다. 인간 스피치에서 관여된 하나의 두부 근육은, 수축될 때, 턱의 운동을 야기시키는 (예컨대, 하부 턱이 상승될 때에 수축함) 측두 근육 (temporal muscle) 또는 측두근 (temporalis) 이다. 인간 스피치에서 관여된 또 다른 근육은, 하부 턱을 상승시키는 것을 또한 돕는 교근 (masseter muscle) 이다. 다양한 실시형태들에서, 두부 근육 활성도 검출기들은 측두근들 또는 교근들 중의 어느 하나뿐만 아니라, 인간 스피치에서 관여된 다른 두부, 안면, 및 목 근육들의 운동을 검출하도록 위치될 수도 있다.

본원에서 이용된 바와 같이, 용어 "두부 근육 운동 검출기" 또는 "근육 운동 검출기" 는 두부 근육 활성도, 특히, 말하는 사용자 또는 컴퓨팅 디바이스의 착용자와 연관된 그러한 근육 운동들 (예컨대, 측두 근육 운동들) 을 검출할 수 있는 센서를 지칭한다. 근육 운동 검출기는 두부의 운동들과 연관된 두부 근육들 및/또는 표면 피부의 운동의 표현인 두부 근육 운동 활성도를 수신할 수 있을 수도 있다. 다양한 실시형태들에서, 근육 운동 검출기는 말하는 것과 연관된 근육 운동을 검출하도록 특히 적합하게 되고 및/또는 위치될 수도 있다. 실시형태에 따른 예시적인 근육 운동 검출기는 근전도 검사 (EMG) 센서이다. EMG 는 골격근 (skeletal muscle) 들에 의해 생성된 전기적 활성도를 평가하고 레코딩하기 위한 기법이다.

EMG 센서는 근육 세포들에 의해 생성된 전기적 전위들의 형태로, 이 세포들이 전기적으로 또는 신경학적으로 활성화될 때에 신호들을 검출할 수도 있다. 신호들은 사람이 말하는 것에 대응하는 턱 운동들과 같은 인간들의 생체역학 (biomechanics) 을 검출하기 위하여 분석될 수도 있다. EMG 센서는 수축될 때에 근육 섬유 (muscle fiber) 들에 의해 생성되는 아주 작은 전기적 임펄스 (impulse) 들을 검출하고 증폭함으로써 근육 운동 활성도를 측정할 수도 있다.

근육 운동 검출기들의 또 다른 형태는 근육 움직임, 조직 변위, 및/또는 전극 변형에 의해 야기된 변화들을 검출할 수도 있는, 피부와 접촉하도록 배치된 하나 이상의 전도성 직물 전극 (conductive textile electrode) 들을 포함할 수도 있다. 추가의 근육 운동 검출기는 특히, 착용자의 턱에서 또는 그 근처에서 피부 표면 변화들을 검출하도록 구성된 압력 센서일 수도 있다. 또 다른 근육 운동 검출기는 뼈들을 포함하는 착용자의 조직을 통해 전도된 사운드를 검출하도록 구성된 마이크로폰일 수도 있다.

도 1 은 실시형태의 방법들을 구현하기 위해 적당한 스마트 안경의 형태로 웨어러블 컴퓨팅 디바이스 (100) 의 사시도를 예시한다. 스마트 안경이 도시되어 있지만, 임의의 이동 컴퓨팅 디바이스는 실시형태의 방법들을 구현할 수도 있다. 그러나, 명료성 및 간결성을 위하여, 그리고 제한 없이, 실시형태들은 도 1 에서 예시된 스마트 안경과 같은 웨어러블 컴퓨팅 디바이스를 참조하여 설명될 것이다.

웨어러블 컴퓨팅 디바이스 (100) 는 사운드를 수신하고 사운드를 오디오 신호들로 변환하기 위한 하나 이상의 마이크로폰들 (104a, 104b) 을 가질 수도 있다. 마이크로폰 (104) 은 사용자의 음성 (voice) 으로부터의 사운드와, 배경 또는 시끄러운 대화들에서 재생하는 음악과 같이, 사용자의 음성으로부터의 것이 아닌 사운드를 포함하는 주위 환경에서의 사운드를 수신한다. 웨어러블 컴퓨팅 디바이스는 사용자로부터 직접 오디오를 수신하기 위하여 위치되고 구성된 마이크로폰 (104b) 을 포함할 수도 있는 반면, 상이한 아미크로폰 (104a) 은 주위의 환경으로부터 (즉, 사용자로부터가 아님) 오디오를 수신하기 위하여 위치되고 구성될 수도 있다. 다양한 실시형태들의 웨어러블 컴퓨팅 디바이스는 하나 이상의 배터리들과 같은 전력원을 포함할 수도 있다.

웨어러블 컴퓨팅 디바이스 (100) 는 근육 운동을 검출하고 두부 근육 활성도 신호들을 생성하도록 구성된 하나 이상의 두부 근육 운동 검출기들 (102a, 102b) 을 또한 포함할 수도 있다. 근육 운동 검출기들은 근전도 검사 (EMG) 센서들일 수도 있다. 하나를 초과하는 근육 운동 검출기는 중복성을 제공하고 및/또는 상이한 근육 그룹들을 감지하기 위하여 이용될 수도 있다. 근육 운동 검출기 (들) (102a, 102b) 는 두부 근육 운동들, 특히, 말하는 것과 연관된 근육 운동들을 검출하기 위해 적당한 장소에서 착용자의 피부의 부분을 사용하도록 구성될 수도 있다. 이러한 방법으로, 근육 이동 검출기 (들) (102a, 102b) 는 착용자가 말하고 있을 때에 두부 근육들의 운동들을 검출하도록 구성될 수도 있다.

웨어러블 컴퓨팅 디바이스 (100) 는 하나 이상의 입력 기구들 (106) (예컨대, 버튼들) 을 포함할 수도 있다. 입력 기구들은 사용자가 입력 기구를 누르고 있는 동안에 음성 인식 프로세싱을 직접적으로 활성화하기 위하여, 사용자가 오디오 신호들 및/또는 근육 운동 신호들의 프로세싱을 무시하도록 할 수도 있다. 이러한 방법으로, 사용자는 말하고 있는 동안에, 특히, 사용자가 음성 프로세싱을 위한 커맨드로서 의도된 스피치를 웨어러블 컴퓨팅 디바이스에 보내고 있을 때, 디바이스가 사용자의 오디오 및/또는 두부 근육 활성도를 학습하는 것을 가능하게 할 수도 있다.

입력 기구들은 사용자가 판단 결정 프로세스를 정정하거나 스피치를 표시하는 오디오 또는 근육 운동 기준을 수정하도록 할 수도 있다. 예를 들어, 사용자는 스피치가 음성 인식 알고리즘에 의해 프로세싱되지 않으면서 (예컨대, 특징 기준 또는 근육 운동 기준이 충족되지 않았음) 웨어러블 컴퓨팅 디바이스 (100) 에 말할 수도 있다. 등록되지 않은 스피치 직후에, 사용자는 오디오 입력 또는 근육 활성도 입력을 프로세싱하지 않기 위한 판단이 부정확하였다는 것을 프로세서에 시그널링하는 입력 기구를 사용할 수도 있다 (예컨대, 버튼을 누름). 웨어러블 컴퓨팅 디바이스의 프로세서는 사용자의 스피치로부터의 오디오를 프로세싱하지 않을 시에 에러를 참작하고 정정하기 위하여, 오디오 특징 기준 또는 근육 운동 기준의 어느 하나 또는 양자를 업데이트/수정할 수도 있다.

웨어러블 컴퓨팅 디바이스 (100) 는 무선 트랜시버 (108) 를 포함할 수도 있다. 무선 트랜시버 (108) 는 무선 광역 네트워크 (wireless wide area network; WWAN) (예컨대, LTE 또는 임의의 셀룰러 접속) 및 무선 로컬 영역 네트워크 (wireless local area network; WLAN) (예컨대, WiFi) 와 같은 무선 통신 네트워크로/무선통신 네트워크로부터 무선 신호들을 송신하고 수신할 수 있을 수도 있다. 웨어러블 컴퓨팅 디바이스는 음성 인식 데이터 (예컨대, RMS 레벨들, 성조 패턴들, EMG 신호 강도들, 및 스피치를 표시하는 EMG 신호 패턴들) 를 송신하고 및/또는 수신하기 위하여 네트워크 서버에 접속할 수도 있다. 음성 인식 데이터는 수신된 오디오 신호들 및 두부 근육 활성도 신호들의 프로세싱을 업데이트하기 위하여, 주기적으로 수신될 수도 있거나 사용자에 의한 커맨드에 기초하여 취출될 수도 있다.

웨어러블 컴퓨팅 디바이스 (100) 는 다양한 실시형태들의 동작들을 수행하기 위한 프로세서-실행가능 명령들로 구성된 하나 이상의 프로세서들, 코어 (core) 들, 또는 코프로세서 (co-processor) 들 (110) 을 더 포함할 수도 있다. 프로세서 (들) 는 음성 인식 알고리즘을 통해 오디오 신호들 및/또는 근육 운동 신호들의 프로세싱을 활성화하거나 비활성화할 것인지 여부를 결정하기 위하여, 오디오 신호들을 수신하기 위한 하나 이상의 마이크로폰 (들) (104a, 104b) 과, 근육 운동 신호들을 수신하기 위한 근육 운동 검출기 (들) (102a, 102b) 에 결합될 수도 있다. 프로세서 (들) (110) 는 입력 기구 (106), 트랜시버 (108), 및 카메라 (103) 에 또한 결합될 수도 있다.

프로세서 (들) (110) 는 스피치를 표시하는 오디오 및/또는 근육 운동 활성도 신호들의 특징 패턴들이 저장될 수도 있는 메모리 (112) 에 결합될 수도 있다. 이러한 저장된 패턴들은 사용자가 언제 말하고 있는지를 더욱 양호하게 식별하기 위하여, 프로세서 (들) (110) 에 의해 이하에서 설명된 바와 같은 수신된 신호들과 비교될 수도 있다.

도 2 는 도 1 에서 예시된 웨어러블 컴퓨팅 디바이스 (100) 를 착용하는 사용자 (201) 를 예시한다. 예시된 바와 같이, 근육 운동 검출기를 위한 하나의 가능한 장소는 측두근 근육의 근육 운동을 검출하기 위하여 사용자 (201) 의 귀 바로 위다. 근육 운동 검출기가 스마트 안경에 직접적으로 접속된 것으로서 도시되어 있지만, 근육 운동 검출기는 스피치 동안에 구부러지는 임의의 근육으로부터의 근육 운동을 검출하고 스마트 안경 또는 다른 컴퓨팅 디바이스에 무선으로 접속하기 위하여 사용자 두부 또는 안면 상의 어딘가 상에 배치된 별도의 디바이스일 수도 있다.

도 3 은 웨어러블 컴퓨팅 디바이스 (300) 의 전자 컴포넌트들의 실시형태의 개략적인 기능적 블록도를 예시한다. 위에서 논의된 바와 같이, 웨어러블 컴퓨팅 디바이스는 입력 오디오 신호들을 수신하기 위한 (도 1 에서 예시된 하나 이상의 마이크로폰들 (104a, 104b) 을 포함할 수도 있는) 마이크로폰 (310) 을 포함한다. 예를 들어, 마이크로폰 (310) 은 착용자의 자신의 입으로부터의 사운드들을 더욱 용이하게 픽업하기 위하여 (예컨대, 사용자의 입에 근접한) 웨어러블 컴퓨팅 디바이스 상에 위치될 수도 있는 제 1 마이크로폰 (104b) 을 포함할 수도 있는 반면, 제 2 마이크로폰 (104a) 은 그것이 주변 사운드들을 주로 픽업하도록 (예컨대, 사용자의 입으로부터 먼) 디바이스 상에 위치될 수도 있다. 마이크로폰 (310) 에 의해 표현된 하나 이상의 마이크로폰들이 있는지 여부에 관계 없이, 마이크로폰 (310) 은 검출된/수신된 사운드들의 디지털 신호들을 생성하기 위하여 아날로그/디지털 (analog/digital; A/D) 변환기 (315) 를 통해 프로세싱될 수도 있는 사운드를 수신한다. 수신된 오디오 신호들은 음성 활성도 분석기 (320) 를 통해 프로세싱될 수도 있다.

음성 활성도 분석기 (320) 는 수신된 오디오 신호에서 음성이 존재하는지 여부를 검출하는 유닛일 수도 있다. 실시형태에서, 음성 활성도 분석기는 오디오 신호들의 측정된 제곱 평균 제곱근 (RMS) 레벨들을, 스피치를 표시하는 메모리 내에 저장된 RMS 레벨들과 비교할 수도 있다. 스피치를 표시하는 RMS 레벨들은 디바이스 상에 이전에 저장될 수도 있고 (즉, 인간 스피치와 연관된 일반적인 RMS 레벨들), 컴퓨팅 디바이스를 이용하여 개인의 스피치 패턴들을 반영하기 위하여 시간 경과에 따라 학습될 수도 있다. 사용자가 말하고 있음을 표시하는 RMS 레벨들은 특정한 데시벨 (decibel) 한계의 형태로 되어 있을 수도 있다. 예를 들어, 사용자는 식탁을 가로 질러 사람에게 대화하는 것보다 더욱 부드러운 레벨로 커맨드들을 그 웨어러블 컴퓨팅 디바이스에 말할 수도 있고, 이에 따라, 사용자가 음성 커맨드를 표시하기 위하여 그 웨어러블 컴퓨팅 디바이스에 소리칠 (예컨대, 높은 데시벨 레벨) 가능성이 없을 수도 있다. 음성 활성도 분석기는 수신된 오디오 신호들의 측정된 RMS 값들을 RMS 임계 레벨과 비교함으로써, 사용자가 웨어러블 컴퓨팅 디바이스에 말하거나 스피치를 보내고 있다는 것을 검출할 수도 있다. 수신된 오디오 신호가 임계 레벨을 초과하는 RMS 레벨을 가질 경우, 음성 활성도 검출은 사용자가 컴퓨팅 디바이스에 말하고 있지 않은 것으로 결정할 수도 있다.

실시형태에서, 음성 활성도 분석기 (320) 는 사용자의 스피치 패턴들을 특징화하는 하나 이상의 기본 주파수들을 인식하기 위하여 주파수 분석을 수신된 오디오 신호들에 적용함으로써, 착용자의 음성을 구체적으로 검출하도록 구성될 수도 있다. 이에 따라, 음성 활성도 분석기 (320) 는 수신된 사운드들의 디지털화된 표현을, 시간의 주기 동안에 사용자에게서 청취함으로써 디바이스에 의해 학습된 성조 패턴들과 같이, 인간 스피치에 상관된 주파수 패턴들 또는 성조 패턴들의 하나 이상의 세트들과 비교함으로써 음성 검출기로서 작동할 수도 있다. 예를 들어, 음성 활성도 분석기 (320) 및 웨어러블 컴퓨팅 디바이스의 설정의 일부로서, 사용자는 단락을 크게 읽음으로써 또는 일부의 어구들을 반복함으로써 디바이스를 훈련하도록 요청받을 수도 있고, 컴퓨팅 디바이스는 사용자에 의한 음성 커맨드들을 인식하기 위하여 음향 신호들을 분석할 시의 더 이후의 이용을 위하여 메모리 내에 저장될 수 있는 사용자의 스피치의 주파수 패턴들, 성조 패턴들, 및/또는 RMS 레벨들을 식별하기 위하여 이 입력을 이용할 수도 있다. 대안적으로, 하나 이상의 지정된 언어들, 단어들, 및/또는 심지어 음절 (syllable) 들과 연관된 사운드들의 동기 패턴들 및 고조파 구조들의 존재는 음성 활성도를 식별하기 위하여 이용될 수도 있다. 이러한 방법으로, 음성 활성도 분석기 (320) 는 오디오 신호 패턴에 의해 표현된 특징들과 같은 수신된 오디오 신호들의 적어도 부분이 착용자에 의해 생성된 스피치와 연관된 제 1 성조 패턴의 유사한 특징들과 일치하는지 여부를 결정할 수도 있다. 성조 패턴과의 오디오 신호들의 일치는 2 개의 패턴들 (각각이 오디오 신호를 나타냄) 이 실질적으로 유사하다는 것을 의미한다. 추가적으로, 음성 활성도 분석기 (320) 또는 잡음 패턴 분석기 (350) 는 컴퓨팅 디바이스가 음성 인식 프로세싱을 적용할 필요가 없는 (집합적으로 "잡음" 으로서 지칭된) 미리 정의된 사운드들, 바람직하지 않은 잡음들 및/또는 패턴들을 식별하는 필터로서 작용할 수도 있다. 잡음인 것으로 식별된 수신된 오디오 신호의 부분은, 웨어러블 컴퓨팅 디바이스가 사용자가 말하고 있는 것으로 결정할 경우에 판단 루틴 (370) 에서 수신된 오디오 신호로부터 감산될 수도 있는 잡음 패턴으로서 무시되거나 표기될 수도 있다. 이러한 방법으로, "잡음" 으로서 식별된 그러한 일부분들은 웨어러블 컴퓨팅 디바이스에 의해 (하나의 환경의 오디오 레코딩를 캡처하는 것과 같은) 레코딩의 목적들을 위하여 저장될 수도 있지만, 반드시 증폭되거나 감쇠되지는 않을 수도 있다. 인간 스피치를 포함하는 입력 오디오 신호의 그러한 부분들은 그 임의의 서브-부분이 인간 스피치 및/또는 착용자의 스피치로서 식별되었는지 여부에 대한 임의의 표시와 함께, 판단 루틴 (370) 으로 포워딩될 수도 있다. "잡음" 인 것으로 식별된 오디오 신호들의 그러한 부분들은 판단 루틴 (370) 에 의해 감쇠될 수도 있거나, 잡음 패턴 분석기 (350) 및/또는 음성 활성도 분석기 (320) 에 의해 완전히 필터링될 수도 있다.

특히, 스피치와 연관된 두부 근육들로부터 두부 근육 활성도 신호들을 수신하기 위하여 위치된 웨어러블 컴퓨팅 디바이스의 근육 운동 검출기 (330) 는 전압 차이를 측정하기 위한 표면 전극들을 포함할 수도 있는 EMG 센서일 수도 있다. 근육 운동 검출기 (330) 는 그것이 디바이스가 착용될 때에 착용자의 피부와 직접 접촉하도록 위치될 수도 있다. 예를 들어, 근육 운동 검출기 (330) 는 그 운동이 말하는 것과 연관되는 (예컨대, 도 2 에서 도시된 바와 같은 사용자의 귀의 후방에서) 사용자/착용자의 두부 또는 안면 영역들과 접촉하는 웨어러블 컴퓨팅 디바이스 (100)의 외부 부분 상에 위치될 수도 있다.

근육 운동 검출기 (330) 는 근육 운동의 패턴들을 검출/구별하기 위하여, 및/또는 운동이 검출되는 것을 보장하기 위한 중복성들을 제공하기 위하여, 하나를 초과하는 근육 운동 검출기를 포함할 수도 있다. 예를 들어, 제 1 근육 운동 검출기는 웨어러블 컴퓨팅 디바이스의 제 1 부분 상에 배치될 수도 있는 반면, 제 2 근육 운동 검출기는 웨어러블 컴퓨팅 디바이스 (100) 의 제 2 부분 상에 제 1 근육 운동 검출기로부터 떨어져서, 또는 심지어 주 웨어러블 컴퓨팅 디바이스 본체로부터 떨어져서 배치될 수도 있다.

근육 운동 검출기 (330) 는 디바이스 프로세서에 의한 디지털 프로세싱을 위한 아날로그/디지털 (analog/digital; A/D) 변환기 (335) 를 통해 프로세싱될 수도 있는 두부 근육 활성도를 특징화하는 신호들을 생성한다. 수신된 두부 근육 활성도는 증폭기 필터 (340) 를 통해 하나 이상의 신호들로서 프로세싱될 수도 있다.

증폭기 필터 (340) 는 음성 활성도 분석기 (320) 가 웨어러블 컴퓨팅 디바이스의 마이크로폰으로부터의 오디오를 프로세싱하고 있음과 동시에 사용자의 두부 근육 활성도 신호들을 프로세싱할 수도 있다. 증폭기 필터가 사용자가 말하고 있는 것의 운동들에 대응하는 근육 운동 신호를 인식할 때, 증폭기 필터는 하이 증폭 신호 (high amplify signal) 를 근육 운동 분석기 (360) 로 전송할 수도 있다. 유사하게, 증폭기 필터 (340) 가 근육 운동 신호들이 사용자의 스피치에 대응하지 않는 것으로 결정할 때, 증폭기 필터 (340) 는 로우 증폭 신호 (low amplify signal) 를 근육 운동 분석기 (360) 로 전송할 수도 있다. 이 하이 또는 로우 증폭 신호들은, 웨어러블 컴퓨팅 디바이스의 프로세서가 오디오 신호들 및 근육 운동 신호들의 양자까지는 아니라 하더라도 적어도 수신된 오디오 신호들에 대해 음성 인식 프로세서 (380) 를 활성화할 것인지 여부를 판단할 수도 있도록, 판단 루틴 (370) 이 사용자가 말하는 것에 가장 가능성 있게 대응하는 수신된 오디오 신호 내의 시간 주기들을 결정하는 것을 도울 수도 있다.

근육 운동 분석기 (360) 는 원래의 근육 운동 신호들 (예컨대, 원래의 EMG 신호들) 에 추가하여 증폭기 필터 (340) 로부터 오디오 신호들을 수신할 수도 있다. 근육 운동 분석기 (360) 는 수신된 EMG 신호들 내에서 "잡음" 을 구별하기 위하여 근육 운동 신호들을 프로세싱할 수도 있다. 예를 들어, 근육 운동 검출기 (330) 는 사용자가 말하기 바로 전과 말하기 바로 후에 자신의 입 (또는 턱) 을 움직일 때에 근육 운동 신호들 (예컨대, EMG 신호들) 을 생성할 수도 있다. 근육 운동 분석기 (360) 는 동시에 발생하는 또는 동시의 오디오 세그먼트를 갖지 않는 근육 운동 신호들이 "잡음" 으로 간주되고 동시에 발생하는 또는 동시의 오디오 세그먼트를 갖는 근육 운동 신호들로부터 구별될 수도 있도록, 사용자의 수신된 근육 운동들을 특정한 오디오 세그먼트들과 상관시킬 수도 있다. 예를 들어, 근육 운동 검출기 (330) 는 사용자가 검을 씹고 있을 때에 근육 운동 신호들을 생성할 수도 있지만, 마이크로폰 (310) 은 사용자가 말하고 있지 않으므로 오디오 신호들을 수신하지 않을 수도 있고, 이에 따라, 근육 운동 분석기 (360) 는 그것이 동시에 발생하는 오디오 신호를 수신하지 않았으므로 "잡음" 인 것으로 결정할 수도 있다. 근육 운동 분석기 (360) 는 프로세싱된 근육 운동 신호들을 판단 루틴 (370) 으로 전송할 수도 있다.

실시형태에서, 근육 운동 분석기 (360) 및 웨어러블 컴퓨팅 디바이스 (100) 의 설정의 일부로서, 사용자는 컴퓨팅 디바이스가 사용자의 스피치의 근육 운동 신호 강도들 및/또는 근육 운동 패턴들을 분석하는 동안에 단락을 크게 읽음으로써 또는 일부의 어구들을 반복함으로써 디바이스를 훈련하도록 요청받을 수도 있다. 검출된 근육 운동 신호 패턴들은 사용자에 의한 음성 커맨드들을 인식하기 위하여 음향 신호들 및/또는 두부 근육 활성도 신호들을 분석할 시의 더 이후의 이용을 위하여 메모리 내에 저장될 수도 있다. 대안적으로, 하나 이상의 지정된 언어들, 단어들, 및/또는 심지어 음절들과 연관된 동시 근육 운동 패턴들의 존재는 음성 활성도를 식별하기 위하여 이용될 수도 있다. 이에 따라, 근육 운동 분석기 (360) 는 사용자에게 고유한 근육 운동 신호 강도들 및/또는 근육 운동 패턴들을 학습할 수도 있다.

판단 루틴 (370) 에서, 컴퓨팅 디바이스의 프로세서는 두부 근육 활성도 신호들 및 오디오 신호들의 양자의 세그먼트가 사용자가 말하는 것에 대응하는지 여부를 결정할 수도 있다. 웨어러블 컴퓨팅 디바이스가 두부 근육 활성도 신호들 및 오디오 신호들이 사용자가 말하는 것에 대응하는 것으로 결정할 경우, 오디오 신호들은 음성 인식 알고리즘을 통해 음성 인식 프로세싱을 위한 음성 인식 프로세서로 전송될 수도 있다. 실시형태에서, 두부 근육 활성도 근육 운동 신호들은 음성 인식 프로세싱이 활성화될 때에 오디오 신호들과 함께, 음성 인식 프로세서 (380) 로 전송될 수도 있다. 실시형태에서, 판단 루틴 (370) 을 실행하는 프로세서가 두부 근육 활성도 신호들 및 사용자가 말하고 있는 오디오 신호들의 조합으로부터, 두부 근육 활성도 신호들에 의해 표시될 수도 있는 바와 같이, 사용자가 말하고 있을 때에 대응하는 오디오 데이터의 그러한 토막 (snippet) 들만이 프로세싱을 위한 음성 인식 프로세서 (380) 로 전송될 수도 있다. 이러한 방식으로, 근육 운동 신호들은 음성을 위하여 프로세싱되는 오디오 데이터 (381) (그리고 임의적으로, 두부 근육 활성도 데이터 (382)) 를 게이팅 (gate) 하기 위하여 이용될 수도 있어서, 음성 인식 알고리즘들에 의해 프로세싱되는 사운드 데이터 (그리고 임의적으로, 근육 활성도 데이터) 의 양을 감소시킬 수도 있고, 이것은 배터리 전력을 절약할 수도 있고, 다른 업무들을 위하여 프로세싱 자원들을 해방시킬 수도 있고, 배경 잡음, 근처의 다른 사람들의 음성들, 및 사용자가 말하는 것에 기인하지 않는 근육 운동 신호들을 배제함으로써 에러들을 감소시킬 수도 있다.

실시형태에서, 판단 루틴 (370) 에서의 프로세서는 사용자에게 고유하게 식별가능한 RMS 레벨들 및/또는 근육 운동 신호 강도들 패턴들을 학습할 수도 있다. 예를 들어, 각각의 사용자는 또 다른 사용자와는 상이한 평균 RMS 레벨 및/또는 근육 운동 신호 강도들을 가질 수도 있다. 난청인 하나의 사용자는 그 웨어러블 컴퓨팅 디바이스에서 더 크게 말할 수도 있고, 난청이 아닌 또 다른 사용자보다 말할 때에 그 턱의 더 큰 운동들을 가질 수도 있다. 이에 따라, 프로세서에 의해 구현된 판단 루틴 (370) 은 사용자를 위한 개인화된 RMS 임계점들 및/또는 근육 운동 신호 강도 임계점들을 조절하거나 생성할 수도 있다. 실시형태에서, 컴퓨팅 디바이스 프로세서가 판단 루틴 (370) 을 수행하는 것이 수신된 오디오 신호들 및 두부 근육 활성도 신호들이 스피치에 대응하는 것으로 결정할 때마다, 프로세서는 RMS 레벨 및/또는 근육 운동 신호 강도 레벨을 메모리 내에 저장할 수도 있다. 또 다른 실시형태에서, 사용자는 프로세서가 수신된 신호들을 스피치를 표시하는 것으로서 잘못 해석할 시에 이용된 저장된 오디오 RMS 및/또는 근육 활성도 신호 임계점들을 삭제하거나 조절함으로써 반응할 수도 있는 이러한 에러 직후에 입력 기구 (예컨대, 도 1 에서의 입력 기구 (106)) 를 누름으로써, 수신된 오디오 (예컨대, 디바이스 프로세서는 RMS 레벨이 스피치를 표시하지 않는 것으로 결정함) 및/또는 수신된 두부 근육 활성도 신호들의 잘못된 해석을 정정할 수도 있다.

실시형태에서, 판단 루틴 (370) 을 구현하는 프로세서는 사용자에게 고유한 성조 패턴들 및/또는 근육 운동 패턴들을 학습할 수도 있다. 실시형태에서, 프로세서가 수신된 오디오 신호들 및 두부 근육 활성도 신호들이 사용자의 스피치에 대응하는 것으로 결정할 때마다, 프로세서는 프로세서가 사용자의 스피치를 인식하기 위하여 이용하는 메모리 내에 저장된 오디오 신호 및 두부 근육 활성도 패턴들을 세분화하기 위하여 오디오 신호들 및 두부 근육 활성도 신호들을 이용할 수도 있다. 이러한 방식으로, 컴퓨팅 디바이스는 사용자의 음성을 인식하기 위하여 학습할 수 있고, 이에 따라, 구두로 표현된 커맨드들을 정확하게 인식하기 위한 그 능력을 개선시킬 수 있다.

음성 활성도 분석기 (320), 잡음 패턴 분석기 (350), 증폭기 (340), 근육 운동 분석기 (360), 및 판단 루틴 (370) 의 동작들은 디지털 신호 프로세서 (DSP) 또는 다중 프로세서들과 같은 단일 프로세서 (341) 에서 구현될 수도 있다는 것에 주목해야 한다. 명료성 및 간결성을 위하여, 실시형태의 방법들은 연산적으로 강력한 음성 인식 프로세스들을 수행하는 것으로부터 음성 인식 프로세서 (380) 를 게이팅하는 단일 프로세서 (341) 에 의해 수행되는 것으로서 설명된다. 그러나, 청구항들은 구체적으로 인용되지 않으면, 이러한 하드웨어 구현예로 제한되도록 의도된 것은 아니다.

도 4 는 신호들의 2 개의 세트들을 상관시키는 것이 오디오 신호들의 음성 인식 프로세싱을 활성화하는 목적들을 위하여 사용자의 스피치를 검출하는 정확도를 개선시키기 위하여 어떻게 이용될 수도 있는지를 예시하기 위하여, 마이크로폰 (310) 으로부터 수신된 오디오 신호들 및 근육 운동 검출기 (330) 로부터 수신된 두부 근육 활성도 신호들 (예컨대, EMG 신호들) 을 동시에 예시한다. 상부 그래프는 마이크로폰 (310) 에 의해 검출된 아날로그 오디오 신호들을 예시한다. 하부 그래프는 이 예에서, EMG 센서로부터 나오는, 근육 운동 검출기 (330) 에 의해 검출된 아날로그 두부 근육 활성도를 예시한다. 상부 및 하부 그래프들은 동시에 실행되고, 이것은 이들이 동일한 시간의 주기에서 발생하는 별도의 입력들을 나타내고, 이에 따라, 오디오 및 EMG 신호들이 시간에 대해 어떻게 상관될 수도 있는지를 예시한다.

오디오 신호들 및 EMG 신호들이 동시에 수신될 때, 프로세서 (341) 에 의해 구현된 판단 루틴 (370) 은 도 3 에서 예시된 바와 같은 음성 인식 프로세서 (380) 에서의 음성 인식 프로세싱을 언제 활성화할 것인지를 결정하기 위하여 양자의 신호들을 이용할 수도 있다. 예를 들어, 사용자가 말하는 것과 부합하는 오디오 신호들 또는 EMG 신호들의 어느 하나가 존재하지 않을 때, 프로세서 (341) 는 웨어러블 컴퓨팅 디바이스 사용자가 말하고 있지 않은 것으로 결정할 수도 있고, 음성 인식 프로세싱 또는 음성 인식 프로세서 (380) 가 비활성된 상태로 둘 수도 있다. 그러나, 사용자가 말하는 것과 부합하는 사운드 및 근육 운동 신호들의 양자가 검출될 때, 프로세서 (341) 는 사용자가 말하고 있는 것으로 결정할 수도 있고, 음성 인식 프로세싱 및/또는 음성 인식 프로세서를 활성화할 수도 있다. 이 프로세스는 도 4 에서 예시되고 이하에서 설명된 4 개의 시간 주기들 T₁ 내지 T₄ 에서 예시되어 있다.

제 1 예에서, 제 1 시간 주기 T₁ 동안, 마이크로폰 (310) 은 사운드를 수신하고 오디오 신호 세그먼트 A₁ 을 생성한다. 동일한 시간 주기 동안, 근육 운동 검출기 (330) 는 두부 근육 활성도 신호 세그먼트 M₁ 에서의 신호의 결핍에 의해 예시된 바와 같이 사용자의 두부 근육 활성도를 검출하지 않는다. 이 상황은 웨어러블 컴퓨팅 디바이스의 마이크로폰 (310) 이 사용자로부터 기인하지 않는 주변의 환경으로부터의 사운드 (예컨대, 웨어러블 컴퓨팅 디바이스를 착용하는 사용자 근처의 사람으로부터의 음성) 를 수신할 때에 발생할 수도 있다. 이에 따라, 마이크로폰 (310) 은 다른 사람으로부터 음성을 픽업하지만, 사용자가 대화하고 있지 않으므로, 사용자가 대화하는 것에 대응하는 두부 근육 활성도를 EMG 센서로부터 픽업하지 않는다. 이 정보로, 프로세서 (341) 는 시간 주기 T₁ 에서 오디오 신호 세그먼트 A₁ 에서 수신된 사운드들이 사용자가 말하는 것에 대응하지 않고, 음성 인식 프로세서 (380) 가 비활성화 (또는 비활성화된 상태로 유지) 할 것을 지시하고, 이에 따라, 오디오 신호 세그먼트 A₁ 에서의 사운드의 불필요한 프로세싱을 회피하는 것으로 결론을 내릴 수도 있다.

제 2 예는 사용자가 먹거나 검을 씹고 있을 때와 같이, 사용자가 두부 또는 안면 근육들을 움직이고 있지만, 시간 주기 T₂ 동안에 말하고 있지 않을 때에 수신될 수도 있는 신호들을 예시한다. 이 상황에서, 웨어러블 컴퓨팅 디바이스의 근육 운동 검출기 (330) 는 스피치에 대응하지 않는 두부 근육 활성도 신호 세그먼트 M₁ 에서 사용자로부터의 두부 근육 활성도를 검출한다. 이에 따라, 근육 활성도 검출기 (330) 는 사용자가 대화하고 있지 않고 마이크로폰 (310) 근처에 사운드가 없으므로, 사용자로부터 두부 근육 활성도를, 그러나 마이크로폰 (310) 으로부터 단지 배경 사운드를 픽업한다. 이 정보로, 판단 루틴 (370) 을 실행하는 프로세서 (341) 는 시간 주기 T₂ 에서 대응하는 오디오 신호 세그먼트 A₂ 없이 두부 근육 활성도 세그먼트 M₂ 만이 있으므로, 사용자가 말하고 있지 않은 것으로 결론을 내릴 수도 있다. 이에 응답하여, 프로세서 (341) 는 음성 인식 프로세서 (380) 가 비활성화 (또는 비활성화된 상태로 유지) 할 것을 지시할 수도 있고, 이에 따라, 오디오 신호 세그먼트 A₂ 에서의 사운드의 불필요한 프로세싱을 회피할 수도 있다.

제 3 시간 주기 T₃ 동안, 마이크로폰 (310) 은 오디오 신호 세그먼트 A₃ 에서 반영된 시끄러운 사운드를 수신하지만, 사용자는 말하고 있지 않으므로, 근육 운동 검출기 (330) 는 세그먼트 M₃ 에서 사용자로부터의 임의의 두부 근육 활성도를 검출하지 않는다는 점에서, 제 3 예는 제 1 의 것과 유사하다. 이에 따라, 제 1 예와 유사하게, 판단 루틴 (370) 을 실행하는 프로세서 (341) 는 대응하는 두부 활성도 신호가 없으므로, 시간 주기 T₃ 에서의 오디오 신호 세그먼트 A₃ 가 사용자가 말하는 것에 대응하지 않는 것으로 결정한다. 이에 응답하여, 프로세서 (341) 는 음성 인식 프로세서 (380) 가 비활성화 (또는 비활성화된 상태로 유지) 할 것을 지시할 수도 있고, 이에 따라, 오디오 신호 세그먼트 A₃ 에서의 사운드의 불필요한 프로세싱을 회피할 수도 있다.

제 4 예에서, 시간 주기 T₄ 동안, 마이크로폰 (310) 은 오디오 신호 세그먼트 A₄ 를 생성하는 사운드를 수신하고, 근육 운동 검출기 (330) 는 두부 근육 활성도를 검출하고 두부 활성도 신호 세그먼트 M₄ 를 생성한다. 이것은 EMG 센서 (330) 가 단어들을 형성하기 위하여 움직이는 사용자의 턱의 두부 근육 활성도를 검출할 수도 있으므로, 웨어러블 컴퓨팅 디바이스의 마이크로폰 (310) 이 (예컨대, 웨어러블 컴퓨팅 디바이스에 커맨드를 주는) 사용자가 말하는 것으로부터의 사운드를 수신할 때에 발생할 수도 있다. 오디오 세그먼트 A₄ 에서의 상당한 오디오 신호들과, 두부 활성도 신호 세그먼트 M₄ 에서의 상당한 근육 활성도의 양자를 수신하는 것에 응답하여, 판단 루틴 (370) 을 실행하는 프로세서 (341) 는 사용자가 말할 가능성이 있는 것으로 결정할 수도 있고 음성 인식 프로세서 (380) 에서 음성 인식 프로세싱을 활성화할 수도 있다.

도 5 는 마이크로폰 및 두부 근육 활성도 센서의 양자로부터의 신호들에 기초하여, 웨어러블 컴퓨팅 디바이스와 같은 컴퓨팅 디바이스의 스피치 인식 프로세스를 제어하기 위한 실시형태의 방법을 예시하는 프로세스 흐름도를 예시한다. 실시형태의 방법 (500) 은 웨어러블 컴퓨팅 디바이스의 하나 이상의 프로세서들 상에서 구현될 수도 있다. 간결성 및 명료성을 위하여, 방법 (500) 은 음성 인식 프로세서로부터 분리되어 있는 단일 프로세서에 의해 구현되는 것으로서 설명된다. 그러나, 실시형태들은 다양한 프로세서 아키텍처들로 구현될 수도 있으므로, 청구항들은 구체적으로 인용되지 않으면, 이러한 실시형태로 제한되도록 의도된 것은 아니다.

블록 (502) 에서, 웨어러블 컴퓨팅 디바이스의 프로세서는 도 1 및 도 3 에서 예시된 마이크로폰들 (104a, 104b, 330) 과 같은 하나 이상의 마이크로폰들로부터 오디오 신호들을 수신한다.

임의적인 블록 (504) 에서, 수신된 오디오 신호들은 잡음을 제거하기 위하여 증폭되거나 필터링될 수도 있고, 및/또는 무시될 수도 있는 세그먼트들로 용이하게 정의될 수도 있다. 예를 들어, (데시벨 레벨 또는 다른 특징들의 어느 하나에 의해) 인간 스피치로서 명확하게 식별가능하지 않을 정도로 왜곡되어 있는 수신된 오디오 신호들에서, 프로세서는 식별가능한 스피치일 더 높은 가능성을 가지는 다른 부분들로부터 오디오 신호의 이 부분들을 분리할 수도 있다.

동시에, 블록 (506) 에서, 프로세서는 도 1 및 도 3 에서 예시된 EMG 센서들 (102a, 102b, 330) 과 같은 하나 이상의 근육 운동 검출기들로부터 두부 근육 활성도 신호들 (예컨대, EMG 신호들) 을 수신한다. 수신된 근육 활성도 또는 근육 운동 신호들은 이들이 사용자가 말하는 것과 연관된 근육 운동 패턴들에 대응하는지 여부를 결정하기 위하여 프로세서에 의해 분석될 수도 있는 근육 운동 검출기 (들) 로부터의 프로세싱되지 않은 신호들일 수도 있다.

결정 블록 (508) 에서, 프로세서는 수신된 오디오 신호들이 사용자가 말하는 것과 연관된 오디오 특징 기준을 충족시키는지 여부를 결정할 수도 있다. 이 동작에서, 오디오 신호들의 어떤 특징들은 이들이 스피치 특징 기준을 충족시키는지 여부를 결정하기 위하여 임계점들 또는 패턴들과 비교될 수도 있다. 예를 들어, 음량 (volume) 의 측정치일 수도 있는 RMS 값은 사용자가 말하는 것과 부합하는 임계점 RMS 값에 대해 비교될 수도 있다. 또 다른 예로서, 오디오 신호들은 훈련 루틴을 통해 학습되고 메모리 내에 저장된 사용자의 스피치의 패턴들과 같은 스피치와 부합하는 성조 및 측두 패턴들과 비교될 수도 있다. 프로세서가 오디오 신호들이 오디오 특징 기준을 충족시키지 않는 것으로 결정하여 (즉, 결정 블록 (508) = "아니오"), 오디오가 사용자의 음성으로부터의 것일 가능성이 없음을 표시할 경우, 프로세서는 블록 (512) 에서 음성 인식 프로세싱 및/또는 음성 분석 프로세서를 비활성화 (또는 비활성화된 상태로 두는 것) 할 수도 있다. 그 후, 사운드들이 마이크로폰들에 의해 픽업되고 두부 근육 운동 활성도가 근육 운동 검출기들에 의해 검출되는 바와 같이, 방법 (500) 의 동작들은 연속적인 방식으로 프로세서에 의해 반복될 수도 있다.

프로세서가 오디오 신호들이 스피치 특징 기준을 충족시키는 것으로 결정하여 (즉, 결정 블록 (508) = "예"), RMS 음량 레벨 및/또는 성조 패턴들과 같은 다양한 인자들에 기초하여 사용자가 말하고 있는 것이 가능하다는 것을 표시할 경우, 프로세서는 결정 블록 (510) 에서, 수신된 두부 근육 활성도 신호들이 스피치 근육 운동 특징 기준을 충족시키는지 여부를 결정할 수도 있다. 결정 블록 (508) 에서의 오디오 신호들의 분석과 유사하게, 프로세서는 수신된 두부 근육 활성도 신호들을, 사용자가 말하는 것과 부합하는 것으로 알려져 있는 RMS 신호 레벨 및/또는 신호 패턴 데이터와 비교할 수도 있다. 예로서, 수신된 두부 근육 활성도 신호들은 근육 운동 활성도 신호들이 레코딩된 동안에 사용자가 정의된 대본을 읽는 훈련 프로세스 동안에 메모리 내에 저장되었던 신호들과 비교될 수도 있다. 프로세서가 오디오 신호들이 근육 운동 기준을 충족시키지 않는 것으로 결정하여 (즉, 결정 블록 (510) = "아니오"), 사용자가 말하고 있을 가능성이 없다는 것을 표시할 경우, 프로세서는 블록 (512) 에서 음성 인식 프로세싱 및/또는 음성 분석 프로세서를 비활성화 (또는 비활성화된 상태로 두는 것) 할 수도 있다. 그 후, 사운드들이 마이크로폰들에 의해 픽업되고 두부 근육 운동 활성도가 근육 운동 검출기들에 의해 검출되는 바와 같이, 방법 (500) 의 동작들은 연속적인 방식으로 프로세서에 의해 반복될 수도 있다.

프로세서가 두부 근육 활성도 신호들이 스피치 근육 운동 특징 기준을 충족시키는 것으로 결정하여 (즉, 결정 블록 (510) = "예"), 프로세서는 사용자가 말하고 있을 가능성이 매우 클 것이라고 결론을 내릴 수도 있고, 블록 (514) 에서, 음성 인식 알고리즘을 통해 오디오 신호들의 음성 인식 프로세싱을 활성화할 수도 있다. 임의적인 블록 (516) 에서, 음성 인식 알고리즘은 또한, 음성 인식 프로세스의 정확도를 증가시키기 위하여 스피치 인식 분석들의 일부로서, 근육 운동 검출기들로부터 수신된 두부 근육 활성도 신호들을 이용할 수도 있다.

이에 따라, 방법 (500) 에서 예시된 바와 같이, 오디오 신호들 및 두부 근육 활성도 신호들의 양자는 프로세서가 오디오 신호들의 스피치 인식 프로세싱을 활성화하거나 인에이블하기 전에 스피치 특징 기준들을 충족시켜야 한다.

도 6 은 도 5 를 참조하여 위에서 설명된 방법 (500) 의 결정 블록 (508) 의 동작들을 수행하기 위한 웨어러블 컴퓨팅 디바이스 (100) 와 같은 컴퓨팅 디바이스 상에서 구현될 수도 있는 실시형태의 방법 (508a) 을 예시한다.

방법 (508a) 에서, 프로세서는 임의적인 결정 블록 (608) 에서, 수신된 오디오 신호들의 RMS 레벨이 사용자가 말하는 것과 부합하는 RMS 임계 레벨을 중촉시키는지 여부를 임의적으로 결정할 수도 있다. 웨어러블 컴퓨팅 디바이스의 프로세서가 수신된 오디오 신호들의 RMS 레벨들이 RMS 임계 레벨을 충족시키지 않는 것으로 결정할 경우 (즉, 결정 블록 (608) = "예"), 프로세서는 위에서 설명된 바와 같은 방법 (500) 의 블록 (512) 에서, 음성 인식 알고리즘을 통해 오디오 신호들의 음성 인식 프로세싱을 비활성화 (또는 비활성화된 상태로 두는 것) 할 수도 있다. 예를 들어, 프로세서가 수신된 오디오 신호들이 오디오 커맨드들을 웨어러블 컴퓨팅 디바이스로 주기 위해 이용된 사용자 스피치보다 더 높은 데시벨 레벨을 가지는 것으로 결정할 경우, 프로세서는 사용자가 말하고 있지 않거나 (즉, 사운드들이 환경으로부터 나옴), 사용자가 음성 커맨드로서 인식되도록 의도된 방식으로 말하고 있지 않는 것으로 결론을 내릴 수도 있다. 그 경우, 프로세서는 오디오 신호들의 음성 인식 프로세싱을 정지시키거나 개시하지 않는다.

프로세서가 수신된 오디오 신호들의 RMS 레벨이 스피치의 특징인 RMS 임계 레벨을 충족시키는 것으로 결정할 경우 (즉, 결정 블록 (608) = "아니오"), 프로세서는 임의적인 블록 (609) 에서, 오디오 신호들이 사용자가 말하는 성조 패턴들 특징과 일치하는지 여부를 결정하기 위하여 한 쌍의 임의적인 동작들을 수행할 수도 있다. 블록 (610) 에서, 프로세서는 수신된 오디오 신호들을 메모리 내에 저장된 스피치의 특징 성조 패턴들과 비교할 수도 있다. 실시형태에서, 프로세서는 수신된 오디오 신호들을 일반적인 인간 스피치와 연관된 (특정한 방언들 또는 지역적 억양들을 포함하는) 이전에 저장된 성조 패턴들과 비교할 수도 있다. 이 이전에 저장된 패턴들은 컴퓨팅 디바이스를 인터넷에 접속함으로써 가끔 (자동으로 또는 수동으로) 업데이트될 수도 있다. 또 다른 실시형태에서, 프로세서는 수신된 오디오 신호들을, WWAN 또는 WLAN 을 이용하는 인터넷을 통한 원격 서버로부터의 성조 패턴들과 비교할 수도 있다. 추가의 실시형태에서, 프로세서는 수신된 오디오 신호들을, 사용자 훈련 세션 동안에 획득되었고 디바이스 또는 원격 서버의 메모리 내에 저장하는 사용자의 저장된 성조 패턴들과 비교할 수도 있다. 대안적으로, 사용자의 성조 패턴들은 사용자가 말하는 것을 청취하는 것으로부터 시간 경과에 따라 학습될 수도 있고, 디바이스 상의 메모리 내에 저장될 수 있고 사용자가 언제 말하는 것인지를 인식하기 위하여 오디오 신호들과 비교될 수 있는 고유의 사용자 말하기 패턴으로 통합될 수도 있다.

결정 블록 (611) 에서, 프로세서는 수신된 오디오 신호들이 성조-패턴 일치 임계점을 초과하는 정도까지 스피치의 특징 성조 패턴들과 일치하는지 여부를 결정할 수도 있다. 다시 말해서, 신호들이 패턴 특징들의 일치들의 미리 정의된 백분율 이내와 같이, 상당한 정도까지 패턴과 일치한다면, 수신된 오디오 신호들은 사용자가 말하고 있는 것을 프로세서에 표시하기 위하여 스피치의 특징 성조 패턴들의 완벽한 일치일 필요가 없다. 예를 들어, 프로세서는 수신된 오디오 신호들이 패턴 특징들의 어떤 백분율 (예컨대, 86 % 일치) 내에서 특징 성조 패턴들과 일치하는지 여부를 결정할 수도 있다. 프로세서가 수신된 오디오 신호들이 스피치의 특징 성조 패턴들과 일치하는 정도가 성조-패턴 일치 임계점을 충족시키거나 이를 초과하지 않는 것으로 결정할 경우 (즉, 결정 블록 (611) = "아니오"), 프로세서는 위에서 설명된 바와 같은 방법 (500) 의 블록 (512) 에서, 음성 인식 알고리즘을 통해 오디오 신호들의 음성 인식 프로세싱을 비활성화 (또는 비활성화된 상태로 두는 것) 할 수도 있다. 예를 들어, 프로세서가 임계점이 특징 성조 패턴들에서 적어도 80 % 일치를 요구할 때에, 수신된 오디오 신호들이 스피치를 표시하는 특징 성조 패턴들에 대해 불과 45 % 일치인 것으로 결정할 경우, 프로세서는 사용자가 말하고 있지 않는 것으로 결론을 내릴 수도 있고, 그러므로, 수신된 오디오 신호들의 음성 인식 프로세싱을 정지시키거나 활성화하지 않을 수도 있다.

프로세서가 수신된 오디오 신호들이 스피치의 특징 성조 패턴들과 일치하는 정도가 성조-패턴 일치 임계점을 충족시키거나 이를 초과하는 것으로 결정할 경우 (즉, 결정 블록 (611) = "예"), 프로세서는 도 5 를 참조하여 위에서 설명된 바와 같은 방법 (500) 의 결정 블록 (510) 에서, 수신된 두부 근육 활성도가 근육 운동 기준을 충족시키는지 여부를 결정할 수도 있다. 예를 들어, 프로세서는 수신된 오디오 신호들이, 임계점이 적어도 80 % 일치 특징 성조 패턴들을 요구할 때에, 스피치를 표시하는 저장된 성조 패턴들에 대해 오디오 신호들이 90 % 일치일 때의 사용자의 스피치를 포함하는 것으로 결정할 수도 있다.

실시형태에서, 오디오 신호들이 방법 (508a) 에서의 오디오 특징 기준을 충족시키는지 여부를 결정하는 것은 블록 (609) 에서의 임의적인 동작들이 아니라, 결정 블록 (608) 에서의 임의적인 동작들을 포함할 수도 있다. 또 다른 실시형태에서, 오디오 신호들이 방법 (508a) 에서의 오디오 특징 기준을 충족시키는지 여부를 결정하는 것은 임의적인 결정 블록 (608) 에서의 동작들을 수행하지 않고, 블록 (609) 에서의 한 쌍의 동작들을 포함할 수도 있다.

도 7 은 도 5 를 참조하여 위에서 설명된 방법 (500) 의 결정 블록 (510) 의 동작들을 수행하기 위한 웨어러블 컴퓨팅 디바이스 (100) 와 같은 컴퓨팅 디바이스 상에서 구현될 수도 있는 실시형태의 방법 (510a) 을 예시한다. 도 7 에서 예시된 바와 같이, 이 결정은 근육 운동 활성도 신호들이 임계 레벨 (즉, 활성도의 진폭 또는 크기) 을 초과하거나, 사용자가 말하고 있음을 표시하는 활성도의 패턴과 일치하거나, 또는 임계점을 초과하고 또한 패턴과 일치하는지 여부를 결정하는 것을 포함할 수도 있다.

수신된 오디오 신호들이 방법 (500) 의 결정 블록 (508) 에서 오디오 특징 기준을 충족시키는 것으로 결정한 후, 이와 같이 결정하기 전, 또는 이와 같이 결정하는 것과 병행하여, 프로세서는 임의적인 결정 블록 (709) 에서, 두부 근육 활성도 신호들이 근육 운동 신호-강도 임계점을 초과하는지 여부를 임의적으로 결정할 수도 있다. 프로세서가 수신된 두부 근육 활성도 신호들이 사용자가 말하는 것의 근육 운동 신호 강도 임계점 특징을 초과하지 않는 것으로 결정할 경우 (즉, 결정 블록 (709) = "아니오"), 프로세서는 위에서 설명된 바와 같은 방법 (500) 의 블록 (512) 에서, 음성 인식 알고리즘을 통해 오디오 신호들 및/또는 두부 근육 활성도 신호들의 음성 인식 프로세싱을 비활성화할 수도 있다. 예를 들어, 수신된 두부 근육 활성도 신호들 (예컨대, EMG 신호들) 이 사용자가 언제 말하는지에 대응하는 두부 근육 활성도의 레벨 미만으로 떨어질 경우, 프로세서는 상당한 사운드가 마이크로폰에 의해 감지되고 있더라도 (예컨대, 결정 블록 (608) = "예") 사용자가 대화하고 있지 않은 것으로 결론을 내릴 수도 있다.

프로세서가 수신된 두부 근육 활성도 신호들이 사용자가 말하는 것의 근육 운동 신호 강도 임계점 특징을 초과하는 것으로 결정할 경우 (즉, 결정 블록 (709) = "아니오"), 프로세서는 임의적인 블록 (710) 에서, 사용자가 언제 말할 가능성이 있는지를 인식하기 위하여 신호를 스피치의 근육 활성도 신호 패턴들 특징과 비교할 수도 있다. 이러한 특징 패턴들은 사용자가 정의된 서술문을 말하는 동안에 근육 활성도 신호들을 레코딩하고, 신호들 내의 특징 패턴들을 식별하기 위하여 신호들을 분석하고, 식별된 특징 패턴들을 메모리 내에 저장함으로써 획득될 수도 있다. 이러한 방식으로, 컴퓨팅 디바이스의 프로세서는 그것이 사용자가 말하고 있을 때의 두부 근육 활성도의 검출된 신호들을, 하품을 하는 것, 먹는 것, 운동하는 것, 또는 껌을 씹는 것과 같이 사용자가 다른 일들을 행할 때의 두부 근육 활성도의 검출된 신호들과 구별하는 것을 가능하게 하기 위하여 패턴들을 학습할 수 있다.

스피치 근육 운동 활성도를 다른 두부 근육 운동들과 구별하기 위하여, 프로세서는 블록 (711) 에서, 수신된 두부 근육 활성도 신호들을, 스피치를 표시하는 저장된 근육 운동 신호 특징 패턴들과 비교할 수도 있다. 이 비교 동작은 근접하게 수신된 신호들이 특징 패턴들에 어떻게 대응하는지에 대한 백분율 일치 또는 다른 메트릭 (metric)과 같이, 수신된 두부 근육 활성도 신호들이 저장된 근육 운동 신호 특징 패턴들과 일치하는 정도를 결정할 수도 있다. 결정 블록 (712) 에서, 프로세서는 수신된 두부 근육 활성도 신호들이 저장된 근육 운동 신호 특징 패턴들과 일치하는 정도가 근육 운동 신호-패턴 일치 임계점을 초과하거나, 이와 다르게 일치 기준을 충족시키는지 여부를 결정할 수도 있다. 프로세서가 수신된 두부 근육 활성도 신호들이 저장된 근육 운동 신호 특징 패턴들과 일치하는 정도가 근육 운동 신호-패턴 일치 임계점을 초과하지 않거나, 또 다른 일치 기준을 충족시키지 않는 것으로 결정할 경우 (즉, 결정 블록 (712) = "아니오"), 프로세서는 위에서 설명된 바와 같은 방법 (500) 의 블록 (512) 에서, 음성 인식 알고리즘을 통해 오디오 신호들의 음성 인식 프로세싱을 비활성화할 수도 있다. 예를 들어, 프로세서가 임계점이 근육 운동 신호-패턴들에 대해 적어도 80 % 일치를 요구할 때에, 수신된 두부 근육 활성도 신호들이 스피치를 표시하는 저장된 특징 근육 운동 신호-패턴들에 대해 불과 45 % 일치인 것으로 결정할 경우, 프로세서는 사용자가 말하고 있지 않은 것으로 결론을 내릴 수도 있다.

프로세서가 수신된 두부 근육 활성도 신호들이 저장된 근육 운동 신호 특징 패턴들과 일치하는 정도가 근육 운동 신호-패턴 일치 임계점을 초과하거나, 또는 이와 다르게 일치 기준을 충족시키는 것으로 결정할 경우 (즉, 결정 블록 (712) = "예"), 프로세서는 위에서 설명된 바와 같은 방법 (500) 의 블록 (514) 에서, 음성 인식 알고리즘을 통해 오디오 신호들의 음성 인식 프로세싱을 활성화할 수도 있다. 예를 들어, 프로세서가 임계점이 근육 운동 신호-패턴들에 대해 적어도 80 % 일치를 요구할 때에, 수신된 두부 근육 활성도 신호들이 스피치를 표시하는 근육 운동 신호-패턴들에 대해 94% 일치인 것으로 결정할 수도 있고, 프로세서는 사용자가 말하고 있는 것으로 결론을 내릴 수도 있다.

실시형태에서는, 방법 (510a) 에서, 두부 근육 활성도가 근육 운동 기준을 충족시키는지 여부를 결정하는 것은 임의적인 블록 (710) 에서의 임의적인 동작들이 아니라, 임의적인 결정 블록 (709) 에서의 임의적인 결정을 포함할 수도 있다. 또 다른 실시형태에서는, 방법 (510a) 에서, 두부 근육 활성도가 근육 운동 기준을 충족시키는지 여부를 결정하는 것은 임의적인 결정 블록 (709) 에서의 결정이 아니라, 임의적인 블록 (710) 에서, 두부 근육 운동 활성도 신호들을 스피치의 저장된 패턴들 특징과 비교하는 임의적인 동작들을 포함할 수도 있다.

도 1 을 참조하여 위에서 설명된 바와 같이, 웨어러블 컴퓨팅 디바이스 프로세서 (들) (110) 는 하나 이상의 마이크로폰 (들) (104a, 104b), 근육 운동 검출기들 (102a, 102b), 및 하나 이상의 입력 기구들 (106) (예컨대, 버튼들) 로부터 오디오 신호들을 수신하기 위한 프로세서-실행가능 명령들로 구성될 수도 있다. 이 센서들 (즉, 마이크로폰들, 두부 근육 운동 검출기들, 및 입력 기구들) 은 신호들 및/또는 표시들을 수신하기 위한 수단으로서 이용될 수도 있다. 프로세서 (들) (110) 는 패턴들이 일치하는지 여부와 같이 조건들/트리거들을 결정하기 위한 수단으로서, 또는 위에서 설명된 다양한 실시형태의 방법들에 따라 별도의 프로세서, 동일한 프로세서, 또는 그 일부의 조합 상에서 연산적으로 강력한 동작들 (예컨대, 음성 인식 프로세싱) 을 웨이크 (wake) 할 것인지 여부를 결정하기 위한 수단으로서 이용될 수도 있다. 프로세서 (들) (100) 는 특징 패턴 데이터를 저장하기 위한 수단으로서 이용될 수도 있는 하나 이상의 내부 메모리들 (112) 에 결합될 수도 있다. 내부 메모리 (112) 는 휘발성 또는 비휘발성 메모리들일 수도 있고, 또한, 보안 및/또는 암호화된 메모리들, 또는 비보안 및/또는 비암호화된 메모리들, 또는 그 임의의 조합일 수도 있다. 프로세서 (들) (110) 는, 위에서 설명된 다양한 실시형태들의 기능들을 포함하는 다양한 기능들을 수행하기 위하여 소프트웨어 명령들 (즉, 애플리케이션들) 에 의해 구성될 수 있는 임의의 프로그래밍가능한 마이크로프로세서, 마이크로컴퓨터, 또는 다중 프로세서 칩 또는 칩들일 수도 있다. 하나 이상의 기능들에 전용인 하나의 프로세서, 및 다른 애플리케이션들/기능들을 실행하는 것에 전용인 또 다른 하나 이상의 프로세서들과 같이, 다중 프로세서들 (110) 은 컴퓨팅 디바이스 내에 포함될 수도 있다. 전형적으로, 소프트웨어 애플리케이션들은, 이들이 액세스되고 프로세서 (들) 내로 로딩되기 전에 내부 메모리 내에 저장될 수도 있다. 프로세서 (들) (110) 는 애플리케이션 소프트웨어 명령들을 저장하기에 충분한 내부 메모리를 포함할 수도 있다. 이 설명의 목적들을 위하여, 메모리에 대한 일반적인 참조는, 내부 메모리 (112), 웨어러블 컴퓨팅 디바이스 내로 플러깅 (plugging) 될 수도 있는 분리가능 메모리 (도시되지 않음), 및 프로세서 내의 메모리를 포함하는, 프로세서 (들) (110) 에 의해 액세스가능한 메모리를 지칭한다.

하나 이상의 예시적인 실시형태들에서, 설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 그 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현될 경우, 기능들은 비-일시적인 컴퓨터 판독가능 저장 매체 또는 비-일시적인 프로세서-판독가능 저장 매체 상에서 하나 이상의 명령들 또는 코드로서 저장될 수도 있다. 방법 또는 알고리즘의 단계들은 비-일시적인 컴퓨터 판독가능 또는 프로세서-판독가능 저장 매체 상에서 상주할 수도 있는 프로세서-실행가능 소프트웨어 모듈에서 구체화될 수도 있다. 비-일시적인 컴퓨터 판독가능 또는 프로세서-판독가능 저장 매체들은 컴퓨터 또는 프로세서에 의해 액세스될 수도 있는 임의의 저장 매체들일 수도 있다. 제한이 아닌 예로서, 이러한 비-일시적인 컴퓨터 판독가능 또는 프로세서-판독가능 매체들은 RAM, ROM, EEPROM, FLASH 메모리, CD-ROM 또는 다른 광학 디스크 저장, 자기 디스크 저장, 또는 다른 자기 저장 디바이스들, 또는 명령들 또는 데이터 구조들의 형태로 희망하는 프로그램 코드를 저장하기 위하여 이용될 수도 있으며 컴퓨터에 의해 액세스될 수도 있는 임의의 다른 매체를 포함할 수도 있다. 본원에서 이용된 바와 같은 디스크 (disk) 및 디스크 (disc) 는 컴팩트 디스크 (compact disc; CD), 레이저 디스크 (laser disc), 광학 디스크 (optical disc), 디지털 다기능 디스크 (digital versatile disc; DVD), 플로피 디스크 (floppy disk) 및 블루레이 디스크 (blu-ray disc) 를 포함하고, 여기서, 디스크 (disk) 들은 통상 데이터를 자기적으로 재생하는 반면, 디스크 (disc) 들은 데이터를 레이저들로 광학적으로 재생한다. 상기의 조합들은 또한, 비-일시적인 컴퓨터 판독가능 및 프로세서-판독가능 매체들의 범위 내에 포함된다. 추가적으로, 방법 또는 알고리즘의 동작들은, 컴퓨터 프로그램 제품 내로 편입될 수도 있는 비-일시적인 프로세서-판독가능 매체 및/또는 컴퓨터 판독가능 매체 상에 코드들 및/또는 명령들 중의 하나 또는 임의의 조합 또는 세트로서 상주할 수도 있다.

상기한 방법 설명들 및 프로세스 흐름도들은 예시적인 예들에 불과한 것으로서 제공되고, 다양한 실시형태들의 블록들이 제시된 순서로 수행되어야 하는 것을 요구하거나 암시하도록 의도된 것이 아니다. 당해 분야의 당업자에 의해 인식되는 바와 같이, 상기한 실시형태들에서의 블록들의 순서는 임의의 순서로 수행될 수도 있다.

"그 후", "다음으로", "다음" 등과 같은 단어들은 블록들의 순서를 제한하도록 의도된 것이 아니고; 이 단어들은 방법들의 설명을 통해 독자를 안내하기 위하여 간단하게 이용된다. 또한, 예를 들어, 관사들 "a", "an", 또는 "the" 를 이용하는 단수인 청구항 구성요소들에 대한 임의의 참조는 구성요소를 단수로 제한하는 것으로 해석되지 않아야 한다. 추가적으로, 본원에서, 그리고 특히, 청구항들에서 이용된 바와 같이, "포함하는 (comprising)" 은 개방형 (open-ended) 의미를 가져서, 하나 이상의 추가적인 특정되지 않은 엘리먼트들, 단게들, 및 양태들이 추가로 포함되고 및/또는 존재할 수도 있다.

실시형태들과 관련하여 설명된 다양한 예시적인 논리적 블록들, 모듈들, 회로들, 및 프로세스 흐름도 블록들은 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합들로서 구현될 수도 있다. 하드웨어 및 소프트웨어의 이 교환가능성을 명확하게 예시하기 위하여, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들, 및 블록들은 일반적으로 그 기능성의 측면에서 위에서 설명되었다. 이러한 기능성이 하드웨어 또는 소프트웨어로서 구현되는지 여부는 특정한 애플리케이션과, 전체 시스템에 대해 부과된 설계 제약들에 종속된다. 숙련된 기술자들은 각각의 특정한 애플리케이션을 위한 다양한 방법들로 설명된 기능성을 구현할 수도 있지만, 이러한 구현 판단들은 본 발명의 범위로부터의 이탈을 야기시키는 것으로서 해석되지 않아야 한다.

개시된 실시형태들의 선행하는 설명은 당해 분야의 당업자가 본 발명을 제조하거나 이용하는 것을 가능하게 하도록 제공된다. 이 실시형태들에 대한 다양한 수정들은 당해 분야의 당업자들에게 용이하게 분명할 것이고, 본원에서 정의된 일반적인 원리들은 발명의 사상 또는 범위로부터 이탈하지 않으면서 다른 실시형태들에 적용될 수도 있다. 이에 따라, 본 발명은 본원에서 도시된 실시형태들에 제한되도록 의도된 것이 아니라, 다음의 청구항들 및 본원에서 개시된 원리들 및 신규한 특징들과 부합하는 가장 넓은 범위를 따르도록 하기 위한 것이다.

Claims

컴퓨팅 디바이스의 음성 인식 프로세스를 제어하는 방법으로서,
마이크로폰으로부터 오디오 신호들을 수신하는 단계;
상기 마이크로폰으로부터 오디오 신호들을 수신함과 동시에, 상기 컴퓨팅 디바이스의 사용자의 두부 (head) 근육 활성도를 측정하도록 구성되고 위치된 근육 운동 검출기로부터 두부 근육 활성도 신호들을 수신하는 단계;
상기 오디오 신호들이 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 오디오 특징 기준을 충족시키는지 여부를 결정하는 단계로서, 상기 오디오 특징 기준은 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 제 1 제곱 평균 제곱근 (RMS) 임계 레벨을 포함하는, 상기 오디오 특징 기준을 충족시키는지 여부를 결정하는 단계;
상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는지 여부를 결정하는 단계;
상기 오디오 신호들이 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 오디오 특징 기준을 충족시키는 것과, 상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는 것의 양자를 결정하는 것에 응답하여, 음성 인식 알고리즘을 통해 상기 오디오 신호들을 프로세싱하는 단계; 및
상기 오디오 신호들이 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 오디오 특징 기준을 충족시키지 않는 것, 또는 상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키지 않는 것의 어느 하나 동안에, 상기 음성 인식 알고리즘을 통해 상기 오디오 신호들을 프로세싱하지 않는 단계를 포함하고,
상기 오디오 신호들은, 상기 오디오 신호들의 RMS 레벨이 상기 제 1 RMS 임계 레벨을 초과하지 않는 경우에 상기 오디오 특징 기준을 충족시키고,
상기 오디오 신호들은, 상기 오디오 신호들의 RMS 레벨이 상기 제 1 RMS 임계 레벨을 초과하는 경우에 상기 오디오 특징 기준을 충족시키지 않는, 컴퓨팅 디바이스의 음성 인식 프로세스를 제어하는 방법.
제 1 항에 있어서,
상기 오디오 신호들이 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 오디오 특징 기준을 충족시키는지 여부를 결정하는 단계는,
상기 오디오 신호들을 스피치의 특징 성조 패턴들과 비교하는 단계;
상기 오디오 신호들이 성조-패턴 일치 임계점을 초과하는 정도까지 스피치의 상기 특징 성조 패턴들과 일치하는지 여부를 결정하는 단계; 및
상기 오디오 신호들이 상기 성조-패턴 일치 임계점을 초과하는 정도까지 스피치의 상기 특징 성조 패턴들과 일치하는 것으로 결정하는 것에 응답하여, 상기 오디오 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 오디오 특징 기준을 충족시키는 것으로 결정하는 단계를 포함하는, 컴퓨팅 디바이스의 음성 인식 프로세스를 제어하는 방법.
제 1 항에 있어서,
상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는지 여부를 결정하는 단계는, 상기 두부 근육 활성도 신호들이 스피치를 표시하는 근육 운동 신호 크기 임계점을 초과하는지 여부를 결정하는 단계를 포함하는, 컴퓨팅 디바이스의 음성 인식 프로세스를 제어하는 방법.
제 1 항에 있어서,
상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는지 여부를 결정하는 단계는,
상기 두부 근육 활성도 신호들을, 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 신호 패턴들과 비교하는 단계;
상기 두부 근육 활성도 신호들이 근육 활성도-패턴 일치 임계점을 초과하는 정도까지 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 상기 근육 운동 신호 패턴들과 일치하는지 여부를 결정하는 단계; 및
상기 두부 근육 활성도 신호들이 상기 근육 활성도-패턴 일치 임계점을 초과하는 정도까지 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 상기 근육 운동 신호 패턴들과 일치하는 것으로 결정하는 것에 응답하여, 상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는 것으로 결정하는 단계를 포함하는, 컴퓨팅 디바이스의 음성 인식 프로세스를 제어하는 방법.
제 4 항에 있어서,
상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 상기 근육 운동 신호 패턴들은 상기 사용자에 의한 훈련으로부터 학습되고 상기 컴퓨팅 디바이스의 메모리 내에 저장된 두부 근육 활성도 신호들을 포함하는, 컴퓨팅 디바이스의 음성 인식 프로세스를 제어하는 방법.
컴퓨팅 디바이스로서,
메모리;
마이크로폰;
근육 운동 검출기; 및
상기 메모리, 상기 마이크로폰, 및 상기 근육 운동 검출기에 결합된 프로세서를 포함하고,
상기 프로세서는,
상기 마이크로폰으로부터 오디오 신호들을 수신하는 것;
상기 마이크로폰으로부터 오디오 신호들을 수신함과 동시에, 상기 컴퓨팅 디바이스의 사용자의 두부 근육 활성도를 측정하도록 구성되고 위치된 상기 근육 운동 검출기로부터 두부 근육 활성도 신호들을 수신하는 것;
상기 오디오 신호들이 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 오디오 특징 기준을 충족시키는지 여부를 결정하는 것으로서, 상기 오디오 특징 기준은 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 제 1 제곱 평균 제곱근 (RMS) 임계 레벨을 포함하는, 상기 오디오 특징 기준을 충족시키는지 여부를 결정하는 것;
상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는지 여부를 결정하는 것;
상기 오디오 신호들이 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 오디오 특징 기준을 충족시키는 것과, 상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는 것의 양자를 결정하는 것에 응답하여, 음성 인식 알고리즘을 통해 상기 오디오 신호들을 프로세싱하는 것; 및
상기 오디오 신호들이 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 오디오 특징 기준을 충족시키지 않는 것, 또는 상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키지 않는 것의 어느 하나 동안에, 상기 음성 인식 알고리즘을 통해 상기 오디오 신호들을 프로세싱하지 않는 것을 포함하는 동작들을 수행하기 위한 프로세서-실행가능 명령들로 구성되고,
상기 오디오 신호들은, 상기 오디오 신호들의 RMS 레벨이 상기 제 1 RMS 임계 레벨을 초과하지 않는 경우에 상기 오디오 특징 기준을 충족시키고,
상기 오디오 신호들은, 상기 오디오 신호들의 RMS 레벨이 상기 제 1 RMS 임계 레벨을 초과하는 경우에 상기 오디오 특징 기준을 충족시키지 않는, 컴퓨팅 디바이스.
제 6 항에 있어서,
상기 프로세서는, 상기 오디오 신호들이 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 오디오 특징 기준을 충족시키는지 여부를 결정하는 것이,
상기 오디오 신호들을 스피치의 특징 성조 패턴들과 비교하는 것;
상기 오디오 신호들이 성조-패턴 일치 임계점을 초과하는 정도까지 스피치의 상기 특징 성조 패턴들과 일치하는지 여부를 결정하는 것; 및
상기 오디오 신호들이 상기 성조-패턴 일치 임계점을 초과하는 정도까지 스피치의 상기 특징 성조 패턴들과 일치하는 것으로 결정하는 것에 응답하여, 상기 오디오 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 오디오 특징 기준을 충족시키는 것으로 결정하는 것
을 포함하도록 하는 동작들을 수행하기 위한 프로세서-실행가능 명령들로 구성되는, 컴퓨팅 디바이스.
제 6 항에 있어서,
상기 프로세서는, 상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는지 여부를 결정하는 것이, 상기 두부 근육 활성도 신호들이 스피치를 표시하는 근육 운동 신호 크기 임계점을 초과하는지 여부를 결정하는 것을 포함하도록 하는 동작들을 수행하기 위한 프로세서-실행가능 명령들로 구성되는, 컴퓨팅 디바이스.
제 6 항에 있어서,
상기 프로세서는, 상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는지 여부를 결정하는 것이,
상기 두부 근육 활성도 신호들을, 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 신호 패턴들과 비교하는 것;
상기 두부 근육 활성도 신호들이 근육 활성도-패턴 일치 임계점을 초과하는 정도까지 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 상기 근육 운동 신호 패턴들과 일치하는지 여부를 결정하는 것; 및
상기 두부 근육 활성도 신호들이 상기 근육 활성도-패턴 일치 임계점을 초과하는 정도까지 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 상기 근육 운동 신호 패턴들과 일치하는 것으로 결정하는 것에 응답하여, 상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는 것으로 결정하는 것
을 포함하도록 하는 동작들을 수행하기 위한 프로세서-실행가능 명령들로 구성되는, 컴퓨팅 디바이스.
제 9 항에 있어서,
상기 프로세서는, 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 상기 근육 운동 신호 패턴들이 상기 사용자에 의한 훈련으로부터 학습되고 상기 컴퓨팅 디바이스의 상기 메모리 내에 저장된 두부 근육 활성도 신호들을 포함하도록 하는 동작들을 수행하기 위한 프로세서-실행가능 명령들로 구성되는, 컴퓨팅 디바이스.
컴퓨팅 디바이스로서,
마이크로폰으로부터 오디오 신호들을 수신하기 위한 수단;
상기 마이크로폰으로부터 오디오 신호들을 수신함과 동시에, 상기 컴퓨팅 디바이스의 사용자의 두부 근육 활성도를 측정하도록 구성되고 위치된 근육 운동 검출기로부터 두부 근육 활성도 신호들을 수신하기 위한 수단;
상기 오디오 신호들이 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 오디오 특징 기준을 충족시키는지 여부를 결정하기 위한 수단으로서, 상기 오디오 특징 기준은 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 제 1 제곱 평균 제곱근 (RMS) 임계 레벨을 포함하는, 상기 오디오 특징 기준을 충족시키는지 여부를 결정하기 위한 수단;
상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는지 여부를 결정하기 위한 수단;
상기 오디오 신호들이 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 오디오 특징 기준을 충족시키는 것과, 상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는 것의 양자를 결정하는 것에 응답하여, 음성 인식 알고리즘을 통해 상기 오디오 신호들을 프로세싱하기 위한 수단; 및
상기 오디오 신호들이 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 오디오 특징 기준을 충족시키지 않는 것, 또는 상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키지 않는 것의 어느 하나 동안에, 상기 음성 인식 알고리즘을 통해 상기 오디오 신호들을 프로세싱하지 않기 위한 수단을 포함하고,
상기 오디오 신호들은, 상기 오디오 신호들의 RMS 레벨이 상기 제 1 RMS 임계 레벨을 초과하지 않는 경우에 상기 오디오 특징 기준을 충족시키고,
상기 오디오 신호들은, 상기 오디오 신호들의 RMS 레벨이 상기 제 1 RMS 임계 레벨을 초과하는 경우에 상기 오디오 특징 기준을 충족시키지 않는, 컴퓨팅 디바이스.
제 11 항에 있어서,
상기 오디오 신호들이 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 오디오 특징 기준을 충족시키는지 여부를 결정하기 위한 수단은,
상기 오디오 신호들을 스피치의 특징 성조 패턴들과 비교하기 위한 수단;
상기 오디오 신호들이 성조-패턴 일치 임계점을 초과하는 정도까지 스피치의 상기 특징 성조 패턴들과 일치하는지 여부를 결정하기 위한 수단; 및
상기 오디오 신호들이 상기 성조-패턴 일치 임계점을 초과하는 정도까지 스피치의 상기 특징 성조 패턴들과 일치하는 것으로 결정하는 것에 응답하여, 상기 오디오 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 오디오 특징 기준을 충족시키는 것으로 결정하기 위한 수단을 포함하는, 컴퓨팅 디바이스.
제 11 항에 있어서,
상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는지 여부를 결정하기 위한 수단은, 상기 두부 근육 활성도 신호들이 스피치를 표시하는 근육 운동 신호 크기 임계점을 초과하는지 여부를 결정하기 위한 수단을 포함하는, 컴퓨팅 디바이스.
제 11 항에 있어서,
상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는지 여부를 결정하기 위한 수단은,
상기 두부 근육 활성도 신호들을, 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 신호 패턴들과 비교하기 위한 수단;
상기 두부 근육 활성도 신호들이 근육 활성도-패턴 일치 임계점을 초과하는 정도까지 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 상기 근육 운동 신호 패턴들과 일치하는지 여부를 결정하기 위한 수단; 및
상기 두부 근육 활성도 신호들이 상기 근육 활성도-패턴 일치 임계점을 초과하는 정도까지 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 상기 근육 운동 신호 패턴들과 일치하는 것으로 결정하는 것에 응답하여, 상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는 것으로 결정하기 위한 수단을 포함하는, 컴퓨팅 디바이스.
제 14 항에 있어서,
상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 상기 근육 운동 신호 패턴들은 상기 사용자에 의한 훈련으로부터 학습되고 상기 컴퓨팅 디바이스의 메모리 내에 저장된 두부 근육 활성도 신호들을 포함하는, 컴퓨팅 디바이스.
프로세서-실행가능 명령들을 저장한 비-일시적인 프로세서-판독가능 저장 매체로서,
상기 프로세서-실행가능 명령들은, 컴퓨팅 디바이스의 프로세서로 하여금,
마이크로폰으로부터 오디오 신호들을 수신하는 것;
상기 마이크로폰으로부터 오디오 신호들을 수신함과 동시에, 상기 컴퓨팅 디바이스의 사용자의 두부 근육 활성도를 측정하도록 구성되고 위치된 근육 운동 검출기로부터 두부 근육 활성도 신호들을 수신하는 것;
상기 오디오 신호들이 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 오디오 특징 기준을 충족시키는지 여부를 결정하는 것으로서, 상기 오디오 특징 기준은 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 제 1 제곱 평균 제곱근 (RMS) 임계 레벨을 포함하는, 상기 오디오 특징 기준을 충족시키는지 여부를 결정하는 것;
상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는지 여부를 결정하는 것;
상기 오디오 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는하는 오디오 특징 기준을 충족시키는 것과, 상기 두부 근육 활성도 신호들이 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 근육 운동 기준을 충족시키는 것의 양자를 결정하는 것에 응답하여, 음성 인식 알고리즘을 통해 상기 오디오 신호들을 프로세싱하는 것; 및
상기 오디오 신호들이 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 오디오 특징 기준을 충족시키지 않는 것, 또는 상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키지 않는 것의 어느 하나 동안에, 상기 음성 인식 알고리즘을 통해 상기 오디오 신호들을 프로세싱하지 않는 것
을 포함하는 동작들을 수행하게 하도록 구성되고,
상기 오디오 신호들은, 상기 오디오 신호들의 RMS 레벨이 상기 제 1 RMS 임계 레벨을 초과하지 않는 경우에 상기 오디오 특징 기준을 충족시키고,
상기 오디오 신호들은, 상기 오디오 신호들의 RMS 레벨이 상기 제 1 RMS 임계 레벨을 초과하는 경우에 상기 오디오 특징 기준을 충족시키지 않는, 비-일시적인 프로세서-판독가능 저장 매체.
제 16 항에 있어서,
저장된 상기 프로세서-실행가능 명령들은, 상기 컴퓨팅 디바이스로 하여금, 상기 오디오 신호들이 상기 사용자가 상기 컴퓨팅 디바이스에 대해 오디오 커맨드들을 지시하고 있음을 표시하는 오디오 특징 기준을 충족시키는지 여부를 결정하는 것이,
상기 오디오 신호들을 스피치의 특징 성조 패턴들과 비교하는 것;
상기 오디오 신호들이 성조-패턴 일치 임계점을 초과하는 정도까지 스피치의 상기 특징 성조 패턴들과 일치하는지 여부를 결정하는 것; 및
상기 오디오 신호들이 상기 성조-패턴 일치 임계점을 초과하는 정도까지 스피치의 상기 특징 성조 패턴들과 일치하는 것으로 결정하는 것에 응답하여, 상기 오디오 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 오디오 특징 기준을 충족시키는 것으로 결정하는 것을 포함하도록 하는 동작들을 수행하게 하도록 구성되는, 비-일시적인 프로세서-판독가능 저장 매체.
제 16 항에 있어서,
저장된 상기 프로세서-실행가능 명령들은, 상기 컴퓨팅 디바이스로 하여금, 상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는지 여부를 결정하는 것이, 상기 두부 근육 활성도 신호들이 스피치를 표시하는 근육 운동 신호 크기 임계점을 초과하는지 여부를 결정하는 것을 포함하도록 하는 동작들을 수행하게 하도록 구성되는, 비-일시적인 프로세서-판독가능 저장 매체.
제 16 항에 있어서,
저장된 상기 프로세서-실행가능 명령들은, 상기 컴퓨팅 디바이스로 하여금, 상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는지 여부를 결정하는 것이,
상기 두부 근육 활성도 신호들을, 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 신호 패턴들과 비교하는 것;
상기 두부 근육 활성도 신호들이 근육 활성도-패턴 일치 임계점을 초과하는 정도까지 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 상기 근육 운동 신호 패턴들과 일치하는지 여부를 결정하는 것; 및
상기 두부 근육 활성도 신호들이 상기 근육 활성도-패턴 일치 임계점을 초과하는 정도까지 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 상기 근육 운동 신호 패턴들과 일치하는 것으로 결정하는 것에 응답하여, 상기 두부 근육 활성도 신호들이 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 근육 운동 기준을 충족시키는 것으로 결정하는 것을 포함하도록 하는 동작들을 수행하게 하도록 구성되는, 비-일시적인 프로세서-판독가능 저장 매체.
제 19 항에 있어서,
저장된 상기 프로세서-실행가능 명령들은, 상기 컴퓨팅 디바이스로 하여금, 상기 컴퓨팅 디바이스의 상기 사용자가 말하고 있음을 표시하는 상기 근육 운동 신호 패턴들이 상기 사용자에 의한 훈련으로부터 학습되고 상기 컴퓨팅 디바이스의 메모리 내에 저장된 두부 근육 활성도 신호들을 포함하도록 하는 동작들을 수행하게 하도록 구성되는, 비-일시적인 프로세서-판독가능 저장 매체.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제