KR20160005045A

KR20160005045A - 음성 활성화를 제어하는 방법 및 장치

Info

Publication number: KR20160005045A
Application number: KR1020157032702A
Authority: KR
Inventors: 성락 윤; 민호 진; 태수 김; 규웅 황
Original assignee: 퀄컴 인코포레이티드
Priority date: 2013-05-07
Filing date: 2014-04-24
Publication date: 2016-01-13
Also published as: WO2014182458A1; JP2016526205A; CN105210146B; CN105210146A; JP6301451B2; EP2994909A1; US20140334645A1; US9892729B2

Abstract

모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법이 개시된다. 방법은 입력 사운드 스트림을 수신하는 단계를 포함한다. 입력 사운드 스트림이 스피치를 나타내는 경우, 음성 활성화 유닛이 활성화되어 타겟 키워드를 검출하고 적어도 하나의 사운드 피쳐가 입력 사운드 스트림으로부터 추출된다. 나아가, 방법은 적어도 하나의 사운드 피쳐가 비-타겟 키워드를 나타내는 경우 음성 활성화 유닛을 비활성화시키는 단계를 포함한다.

Description

음성 활성화를 제어하는 방법 및 장치{METHOD AND APPARATUS FOR CONTROLLING VOICE ACTIVATION}

본 출원은 공동으로 소유된, 2013 년 5 월 7 일이 출원된 미국 가출원 제 61/820,526 호, 2013 년 8 월 9 일에 출원된 미국 가출원 제 61/864,490 호, 및 2013 년 11 월 27 일에 출원된 미국 출원 제 14/092,527 호의 우선권을 주장하며, 그것들의 각각의 내용은 그 전체가 참조로서 본원에 명확히 포함된다.

기술분야

본 개시물은 일반적으로 음성 활성화에 관한 것으로, 좀더 구체적으로, 모바일 디바이스에서 음성 활성화를 제어하는 것에 관한 것이다.

최근에, 스마트폰들, 개인용 휴대정보 단말기 (personal digital assistants; PDA) 들, 태블릿 컴퓨터들, 및 랩탑 컴퓨터들과 같은 모바일 디바이스들의 이용이 널리 퍼졌다. 이러한 디바이스들은 사용자들이 인터넷 검색, 사진들 또는 비디오들 촬영, 전화 또는 화상전화 걸기 등과 같은 다양한 기능들을 수행하는 것을 허용한다. 더불어, 그러한 디바이스들은 종종 다양한 기능성들을 갖는 애플리케이션들을 제공한다.

나아가, 많은 그러한 모바일 디바이스들은 오디오 신호들을 캡쳐하는데 이용되는 하나 이상의 마이크로폰들을 포함할 수도 있다. 이러한 디바이스들 중 일부 디바이스는 음성 활성화를 위해 오디오 신호들이 캡쳐되어 프로세싱되는 것을 허용할 수도 있다. 그러한 음성 활성화 피쳐를 이용하여, 모바일 디바이스들에 음성 키워드를 입력함으로써 애플리케이션이 활성화될 수도 있다.

그러한 음성 활성화 피쳐의 모든 혜택을 받기 위해, 모바일 디바이스는 통상적으로 잠재적 키워드를 위해 환경적 사운드들을 계속해서 모니터링하고 프로세싱하도록 구성될 필요가 있다. 그러나, 음성 활성화 피쳐의 계속적인 동작은 모바일 디바이스의 제한된 전력 자원들을 고갈시킬 수도 있다.

본 개시물은 모바일 디바이스에서 음성 활성화를 제어하기 위한 방법들, 시스템들, 및 디바이스들을 제공한다. 이러한 방법들, 시스템들, 및 디바이스들에서, 입력 사운드 스트림을 수신할 시에, 입력 사운드 스트림이 스피치 (speech) 를 나타내는 경우 타겟 키워드를 검출하기 위해 음성 활성화 유닛이 활성화될 수도 있다. 나아가, 적어도 하나의 사운드 피쳐 (feature) 가 입력 사운드 스트림으로부터 추출될 수도 있고, 적어도 하나의 사운드 피쳐가 비-타겟 키워드를 나타내는 경우 음성 활성화 유닛이 비활성화될 수도 있다.

본 개시물의 일 양상에 따르면, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법이 개시된다. 그 방법에서는, 입력 사운드 스트림이 수신되고, 입력 사운드 스트림이 스피치를 나타내는 경우 타겟 키워드를 검출하기 위해 음성 활성화 유닛이 활성화된다. 적어도 하나의 사운드 피쳐가 입력 사운드 스트림으로부터 추출되고, 적어도 하나의 사운드 피쳐가 비-타겟 키워드를 나타내는 경우 음성 활성화 유닛이 비활성화된다. 본 개시물은 또한 이러한 방법과 관련되는 디바이스, 시스템, 수단들의 조합, 및 컴퓨터-판독가능 매체를 설명한다.

본 개시물의 다른 양상에 따르면, 타겟 키워드에 의해 음성 활성화를 제어하기 위한 모바일 디바이스가 개시된다. 모바일 디바이스는 수신기, 스피치 검출기, 음성 활성화 유닛, 및 음성 활성화 제어 유닛을 포함한다. 수신기는 입력 사운드 스트림을 수신하도록 구성된다. 나아가, 스피치 검출기는 입력 사운드 스트림이 스피치를 나타내는 경우 타겟 키워드를 검출하기 위해 음성 활성화 유닛을 활성화시키도록 구성된다. 음성 활성화 유닛은 입력 사운드 스트림으로부터 적어도 하나의 사운드 피쳐를 추출하도록 구성되고, 음성 활성화 제어 유닛은 적어도 하나의 사운드 피쳐가 비-타겟 키워드를 나타내는 경우 음성 활성화 유닛을 비활성화시키도록 구성된다.

도 1 은 본 개시물의 일 실시형태에 따른, 입력 사운드를 캡쳐하고 타겟 키워드가 입력 사운드에서 검출되는 경우 음성 활성화 기능을 수행하도록 구성된 모바일 디바이스를 도시한다.
도 2 는 본 개시물의 일 실시형태에 따른, 사용자의 모바일 디바이스가 회의 중의 대화들이 타겟 키워드를 포함하지 않는 경우 음성 활성화 유닛을 비활성화시키도록 구성되는, 회의 중인 사용자를 도시한다.
도 3 은 본 개시물의 일 실시형태에 따른, 모바일 디바이스에서 일 기능을 활성화시키기 위해 입력 사운드 스트림에서 타겟 키워드를 검출하도록 구성된 모바일 디바이스의 블록도를 도시한다.
도 4a 는 본 개시물의 일 실시형태에 따른, 사운드 센서로부터 활성화 신호 및 입력 사운드 스트림을 수신하고, 음성 보조 유닛을 활성화시키기 위해 활성화 신호를 발생시키도록 구성된 DSP 의 블록도를 도시한다.
도 4b 는 본 개시물의 다른 실시형태에 따른, 사운드 센서로부터 활성화 신호 및 입력 사운드 스트림을 수신하고, 음성 보조 유닛을 활성화시키기 위해 활성화 신호를 발생시키도록 구성된 DSP 의 블록도를 도시한다.
도 5 는 본 개시물의 일 실시형태에 따른, 입력 사운드 스트림을 수신하고 입력 사운드 스트림에서 타겟 키워드를 검출하도록 구성된 음성 활성화 유닛의 보다 상세한 블록도를 도시한다.
도 6 은 본 개시물의 일 실시형태에 따른, 입력 사운드 스트림에 대한 복수의 신뢰 스코어들, 복수의 현재 비-키워드 스코어들, 복수의 현재 키워드 스코어들, 및 복수의 전체 평균 비-키워드 스코어들의 예시적인 그래프들을 도시한다.
도 7 은 본 개시물의 일 실시형태에 따른, 음성 활성화 유닛에 의해 산출된 키워드 스코어 및 비-키워드 스코어에 기초하여 모바일 디바이스의 음성 활성화 유닛을 비활성화시키는 방법의 플로차트를 도시한다.
도 8 은 본 개시물의 일 실시형태에 따른, 수신되고 있는 입력 사운드 스트림을 수신하고 프로세싱하는 것을 종료하기 위해 음성 활성화 제어 유닛에 의해 음성 활성화 유닛을 비활성화시키는 방법의 플로차트를 도시한다.
도 9 는 본 개시물의 일 실시형태에 따른, 수신되고 있는 입력 사운드 스트림을 수신하고 프로세싱하는 것을 종료하기 위해 음성 활성화 유닛을 비활성화시킨 후에 음성 활성화 유닛을 재활성화시키는 방법의 플로차트를 도시한다.
도 10 은 본 개시물의 일 실시형태에 따른, 비활성화의 수가 미리 결정된 값과 동일한 경우 음성 활성화 유닛을 재활성화시키기 위해 입력 사운드 스트림의 상태 변화를 검출하는 방법의 상세한 플로차트를 도시한다.
도 11 은 본 개시물의 다른 실시형태에 따른, 비활성화의 수가 미리 결정된 값과 동일한 경우 음성 활성화 유닛을 재활성화시키기 위해 입력 사운드의 상태 변화를 검출하는 방법의 상세한 플로차트를 도시한다.
도 12a 는 본 개시물의 일 실시형태에 따른, 평균 비-키워드 스코어 임계치를 결정할 시에 이용하기 위한 시뮬레이션으로부터의 복수의 라인들을 보여주는 그래프를 도시한다.
도 12b 는 본 개시물의 다른 실시형태에 따른, 평균 비-키워드 스코어 임계치를 결정할 시에 이용하기 위한 시뮬레이션으로부터의 복수의 라인들을 보여주는 그래프를 도시한다.
도 13 은 본 개시물의 일 실시형태에 따른, 무선 통신 능력을 갖는 일 예시적인 모바일 디바이스의 블록도이다.

다양한 실시형태들에 대한 상세한 참조가 이제 이루어질 것인데, 그 실시형태들의 예들은 첨부된 도면들에서 도시된다. 다음의 상세한 설명에서, 대상 발명의 완전한 이해를 제공하기 위해 다양한 특정 세부사항들이 제시된다. 그러나, 대상 발명은 이러한 특정 세부사항들 없이 실시될 수도 있음이 당업자에게 자명할 것이다. 다른 예들에서, 공지의 방법들, 절차들, 시스템들, 및 컴포넌트들은 다양한 실시형태들의 양상들을 불필요하게 모호하게 하지 않기 위해 상세히 설명되지 않았다.

도 1 은 본 개시물의 일부 실시형태들에 따른, 입력 사운드 스트림을 캡쳐하고 타겟 키워드가 입력 사운드 스트림에서 검출되는 경우 음성 활성화 기능을 수행하도록 구성된 모바일 디바이스 (110) 를 도시한다. 도시된 실시형태에서, 사용자 (120) 는 침대 (130) 에 누워 있는 동안 타겟 키워드를 말할 수도 있고, 모바일 디바이스 (110) 가 스피치된 사운드를 수신한다. 스피치된 사운드에 응답하여, 모바일 디바이스 (110) 는 음성 활성화 유닛을 활성화시켜 수신된 입력 사운드 스트림에서 타겟 키워드를 검출한다. 음성 활성화 유닛은 입력 사운드 스트림으로부터 적어도 하나의 사운드 피쳐를 추출한다. 적어도 하나의 사운드 피쳐가 비-타겟 키워드를 나타내는 경우, 모바일 디바이스 (110) 는 음성 활성화 유닛을 비활성화시킨다.

모바일 디바이스 (110) 는 음성으로 활성화되는 기능 (voice activated function) 을 활성화시키기 위해 타겟 키워드의 검출을 허용하도록 사운드 캡쳐 능력, 예를 들어, 마이크로폰을 구비한 셀룰러 폰, 스마트폰, 랩탑 컴퓨터, 또는 태블릿 컴퓨터와 같은 임의의 적합한 디바이스일 수도 있다. 예를 들어, 잠들기 전에, 사용자 (120) 는 모바일 디바이스 (110) 에서의 알림 시계를 말로 (verbally) 설정할 수도 있다. 이러한 경우에, 사용자 (120) 는 모바일 디바이스 (110) 에 타겟 키워드 "알람 설정" 을 말할 수도 있으며, 이는 알람 시계 애플리케이션을 활성화시킨다. 모바일 디바이스 (110) 는 그러면 사운드를 수신하고 수신된 사운드 (즉, 입력 사운드 스트림) 가 미리 결정된 임계 사운드 강도를 초과하는지 여부를 결정하다. 나아가, 모바일 디바이스 (110) 는 수신된 사운드가 미리 결정된 임계 사운드 강도를 초과하는 경우 사운드 분류 방법 (예를 들어, Support Vector Machine 기법) 을 이용함으로써 수신된 사운드가 스피치인지 여부를 결정한다.

수신된 사운드가 미리 결정된 임계 사운드 강도를 초과하는 스피치라고 모바일 디바이스 (110) 가 결정하는 경우, 모바일 디바이스 (110) 는 음성 활성화 유닛을 활성화시켜 수신된 음성 사운드가 타겟 키워드를 포함하는지 여부를 결정하며, 타겟 키워드는 모바일 디바이스 (110) 는 키워드 데이터베이스에 사전에 저장될 수도 있다. 수신된 사운드가 타겟 키워드를 포함한다고 결정할 시에, 모바일 디바이스 (110) 는 타겟 키워드와 연관된 알람 애플리케이션을 활성화시키고 사용자 (120) 가 원하는 시간으로 알람 시계를 설정하는 것을 허용한다. 본원에서 이용되는 바와 같이, 용어 "사운드 스트림" 은 하나 이상의 사운드 신호들 또는 사운드 데이터의 시퀀스를 지칭한다. 나아가, 용어 "키워드" 는 모바일 디바이스에서의 기능 또는 애플리케이션을 활성화시키는데 이용될 수 있는 하나 이상의 단어들 또는 사운드의 임의의 디지털 또는 아날로그 표현을 지칭하고, 인간의 스피치 또는 대화의 스피치된 형태 또는 기록된 형태에 있는 임의의 개수의 단어들을 포함할 수도 있다. 본원에서 이용되는 바와 같이, 용어 "음성 활성화" 는 캡쳐된 사운드에서 미리 결정된 타겟 키워드를 검출함으로써 모바일 디바이스의 적어도 하나의 기능 또는 애플리케이션을 활성화시키는 것을 의미한다.

음성 활성화를 허용하기 위해, 모바일 디바이스 (110) 가 캡쳐된 사운드로부터 타겟 키워드를 검출할 때까지 모바일 디바이스 (110) 는 캡쳐된 사운드가 타켓 키워드를 포함하는지 여부를 결정하기 위해 입력 사운드 스트림을 계속해서 모니터링하도록 구성될 수도 있다. 그러한 방식으로 모바일 디바이스 (110) 를 동작시키는 것은 통상적으로 증가된 전력의 이용을 초래하며, 그렇게 함으로써 배터리 수명을 단축시킨다. 이에 따라, 전력을 절약하기 위해, 모바일 디바이스 (110) 의 전력 소비는, 하기의 일부 실시형태들에서 설명되는 바와 같이, 음성 활성화를 제어함으로써 감소될 수도 있다.

도 1 에서, 모바일 디바이스 (110) 의 음성 활성화 유닛이 활성화되면, 음성 활성화 유닛이 타겟 키워드를 검출할 때까지 활성화 모드에서 계속 동작할 수도 있다. 이 경우에, 사용자 (120) 가 잠을 자고 있기 때문에, 모바일 디바이스 (110) 로의 입력 사운드 스트림은 사용자 (120) 의 타겟 키워드를 포함하는 임의의 스피치를 갖지 않을 것이다. 따라서, 모바일 디바이스 (110) 는 하기에서 보다 상세히 설명되는 바와 같이 모바일 디바이스 (110) 의 음성 활성화 유닛을 자동적으로 비활성화시키도록 구성된다. 입력 사운드 스트림을 모니터링하고 필요한 경우 음성 활성화 유닛을 자동적으로 비활성화시킴으로써, 모바일 디바이스 (110) 는 전력을 절약하고 배터리 수명을 향상시킬 수도 있다. 비활성화된 음성 활성화 유닛은 후속하는 수신된 사운드가 스피치라고 모바일 디바이스 (110) 가 결정하는 경우 재활성화될 수도 있다.

상술된 바와 같이, 수신된 사운드가 미리 결정된 임계 사운드 강도를 초과하는 스피치라고 모바일 디바이스 (110) 가 결정하는 경우 모바일 디바이스 (110) 의 음성 활성화 유닛이 활성화될 수도 있다. 일부 경우들에서, 모바일 디바이스 (110) 의 음성 활성화 유닛은 임의의 스피치 입력 없이 소음 또는 오작동으로 인해 활성화될 수도 있다. 그러한 경우에는, 모바일 디바이스 (110) 는 전력 소비를 감소시키기 위해 활성화를 검출하고 음성 활성화 유닛을 비활성화시키도록 구성된다. 예를 들어, 도 1 에 도시된 바와 같이 사용자 (120) 가 잠을 자고 있는 동안에 모바일 디바이스 (110) 의 음성 활성화 유닛이 소음 또는 오작동으로 인해 뜻하지 않게 활성화되는 경우, 모바일 디바이스 (110) 는 후속하는 수신된 사운드에 기초하여 음성 활성화 유닛을 비활성화시킬 수도 있다. 본원에서 이용되는 바와 같이, 용어 "활성화" 는 디바이스 또는 유닛을 오프 상태 또는 비활성 상태 (예를 들어, 유휴 상태) 로부터 인에이블하거나 턴 온하여 디바이스 또는 유닛이 하나 이상의 연관된 기능들을 수행하는 것을 허용하는 것을 지칭한다. 나아가, 용어 "비활성화" 는 디바이스 또는 유닛을 활성 상태 (예를 들어, "온" 상태) 로부터 디스에이블하거나 턴 오프하는 것을 지칭한다. 용어 "재활성화" 는 디바이스 또는 유닛이 비활성화된 후에 디바이스 또는 유닛을 인에이블하거나 턴 온하는 것을 지칭한다.

도 2 는 본 개시물의 일 실시형태에 따른, 사용자 (220) 의 모바일 디바이스 (210) 가 회의 중의 대화들이 타겟 키워드를 포함하지 않는 경우 음성 활성화 유닛을 비활성화시키도록 구성되는, 회의 중인 사용자 (220) 를 도시한다. 예시된 시나리오에서, 모바일 디바이스 (210) 는 입력 사운드 스트림을 캡쳐하고 타겟 키워드가 입력 사운드 스트림에서 검출되는 경우 음성으로 활성화되는 기능을 수행하도록 구성된다. 일 실시형태에서, 모바일 디바이스 (210) 는 마이크로폰과 같은 사운드 센서를 통해 입력 사운드 스트림을 수신하고, 수신된 사운드가 스피치인지 여부를 결정하도록 구성된다. 수신된 사운드가 스피치라고 모바일 디바이스 (210) 가 결정하는 경우, 모바일 디바이스 (210) 는 음성 활성화 유닛을 활성화시켜 수신된 입력 사운드 스트림에서 타겟 키워드를 검출한다.

도 2 의 회의 시나리오에서, 모바일 디바이스 (210) 는 회의의 대화형 사운드를 수신하고 대화가 스피치라고 결정할 수도 있다. 검출된 스피치에 기초하여, 모바일 디바이스 (210) 의 음성 활성화 유닛은 그러면 수신된 사운드가 미리 결정된 타겟 키워드를 포함하는지 여부를 결정하도록 활성화된다. 수신된 대화 사운드가 미리 결정된 시간 기간 동안에 타겟 키워드를 포함하지 않는 경우, 후속하는 대화 사운드가 타겟 키워드를 포함할 매우 낮은 가능성이 있다고 가정될 수도 있다. 따라서, 수신된 사운드가 미리 결정된 시간 기간 동안에 타겟 키워드를 포함하지 않는다고 모바일 디바이스 (210) 가 결정하는 경우, 음성 활성화 유닛을 비활성화시켜 유사한 컨텍스트를 갖는 후속하는 사운드를 포함하는 대화형 사운드의 프로세싱을 종료할 수도 있다.

회의가 끝나고 대화형 사운드가 더 이상 수신되지 않는 경우, 모바일 디바이스 (210) 는 음성 활성화 유닛을 재활성화시켜 타겟 키워드를 검출할 수도 있다. 예를 들어, 모바일 디바이스 (210) 는 수신되고 있는 입력 사운드 스트림을 모니터링함으로써 대화가 끝나는 때를 검출할 수도 있다. 일 실시형태에서, 후속하는 대화형 사운드가 검출되고 이전에 수신된 대화형 사운드와 후속하는 대화형 사운드 사이에 미리 결정된 침묵의 지속기간이 있는 경우 모바일 디바이스 (210) 는 음성 활성화 유닛을 재활성화시킬 수도 있다. 본원에서 이용되는 바와 같이, 용어 "침묵" 은 미리 결정된 임계 사운드 강도 아래의 사운드가 수신된 상태를 의미한다. 다른 실시형태에서, 후속하는 사운드가 스피치인 것으로 검출되고 이전의 사운드와 후속하는 사운드 사이에서 컨텍스트의 변화가 검출되는 경우 모바일 디바이스 (210) 는 음성 활성화 유닛을 재활성화시킬 수도 있다.

도 3 은 본 개시물의 일 실시형태에 따른, 모바일 디바이스 (310) 에서 일 기능을 활성화시키기 위해 입력 사운드 스트림에서 타겟 키워드를 검출하도록 구성된 모바일 디바이스 (310) 의 블록도를 도시한다. 모바일 디바이스 (310) 는 사운드 센서 (312), 입력/출력 (I/O) 유닛 (316), 저장 유닛 (318), 통신 유닛 (320), 및 프로세서 (340) 를 포함한다. 모바일 디바이스들 (110 및 210) 과 유사하게, 모바일 디바이스 (310) 는 셀룰러 폰, 스마트폰, 개인용 컴퓨터, 랩탑 컴퓨터, 태블릿 컴퓨터, 스마트 텔레비젼, 게이밍 디바이스, 멀티미디어 재생기 등과 같이 사운드 캡쳐 및 프로세싱 능력을 갖춘 임의의 적합한 디바이스들일 수도 있다.

프로세서 (340) 는 디지털 신호 프로세서 (digital signal processor; DSP) (330) 및 음성 보조 유닛 (328) 을 포함하고, 모바일 디바이스 (310) 를 관리하거나 동작시키기 위한 애플리케이션 프로세서 또는 중앙 프로세싱 유닛 (central processing unit; CPU) 일 수도 있다. DSP (330) 는 스피치 검출기 (322), 음성 활성화 유닛 (324), 및 음성 활성화 제어 유닛 (326) 을 포함한다. 일 실시형태에서, DSP (330) 는 사운드 스트림들을 프로세싱할 시에 전력 소비를 감소시키는 저 전력 프로세서이다. 이러한 구성에서, 타겟 키워드가 입력 사운드 스트림에서 검출되는 경우 DSP (330) 에서의 음성 활성화 유닛 (324) 은 음성 보조 유닛 (328) 을 활성화시키도록 구성된다. 음성 활성화 유닛 (324) 은 도시된 실시형태에서 음성 보조 유닛 (328) 을 활성화시키도록 구성되나, 타겟 키워드와 연관될 수도 있는 임의의 기능들 또는 애플리케이션들을 또한 활성화시킬 수도 있다.

사운드 센서 (312) 는 입력 사운드 스트림을 수신하고 그것을 DSP (330) 에서의 스피치 검출기 (322) 에 제공하도록 구성될 수도 있다. 사운드 센서 (312) 는 모바일 디바이스 (310) 로의 사운드 입력 스트림을 수신, 캡쳐, 감지, 및/또는 검출하는데 이용될 수 있는 하나 이상의 마이크로폰들 또는 임의의 다른 유형의 사운드 센서들을 포함할 수도 있다. 또한, 사운드 센서 (312) 는 그러한 기능들을 수행하기 위해 임의의 적합한 소프트웨어 및/또는 하드웨어를 사용할 수도 있다.

일 실시형태에서, 사운드 센서 (312) 는 듀티 사이클에 따라 주기적으로 입력 사운드 스트림을 수신하도록 구성될 수도 있다. 사운드 센서 (312) 는 입력 사운드 스트림의 수신된 부분이 미리 결정된 임계 사운드 강도를 초과하는지 여부를 결정하기 위해 사운드 검출기 (314) 를 더 포함할 수도 있다. 입력 사운드 스트림의 수신된 부분이 임계 사운드 강도를 초과하는 경우, 사운드 센서 (312) 의 사운드 검출기 (314) 는 스피치 검출기 (322) 를 활성화시키고 DSP (330) 에서의 스피치 검출기 (322) 에 수신된 부분을 제공한다. 대안으로, 수신된 부분이 임계 사운드 강도를 초과하는지 여부를 결정하지 않으면서, 사운드 센서 (312) 는 주기적으로 입력 사운드 스트림의 일부분을 수신하고, 스피치 검출기 (322) 를 활성화시켜 스피치 검출기 (322) 에 수신된 부분을 제공할 수도 있다. 사운드 검출기 (314) 는 사운드 센서 (312) 의 외부에 독립적으로 존재할 수도 있거나 스피치 검출기 (322) 와 같은 다른 유닛에 포함될 수도 있는 것으로 이해될 수도 있다.

타겟 키워드를 검출할 시에 이용하기 위해, 저장 유닛 (318) 은 타겟 키워드 및 타겟 키워드 복수의 부분들과 연관된 정보를 저장한다. 일 실시형태에서, 타겟 키워드는 단음 (phone) 들, 음소 (phoneme) 들, 또는 그것들의 서브유닛들과 같은 복수의 기본 사운드 유닛들로 나눠질 수도 있고, 타겟 키워드를 표현하는 복수의 부분들은 기본 사운드 유닛들에 기초하여 발생될 수도 있다. 일부 실시형태들에서, 타겟 키워드의 검출은 HMM (hidden Markov model), SMM (semi-Markov model), 또는 이들의 조합과 같은 Markov 체인 모델을 포함하는 시간적 패턴 인식 방법을 이용하여 수행될 수도 있다. 그러한 경우에, 타겟 키워드의 각각의 부분은 그러면 HMM 또는 SMM 에 따른 상태와 연관될 수도 있다. 상태 정보는 타겟 키워드에 대한 상태들 중에서 엔트리 상태, 및 상태들의 각각으로부터 다음 상태 그 자체를 포함하는 다음 상태로의 전이 (transition) 정보를 포함할 수도 있다. 저장 유닛 (318) 은 RAM (Random Access Memory), ROM (Readonly Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), 플래시 메모리, 솔리드 스테이트 드라이브 (solid state drive; SSD) 등과 같은 임의의 적합한 스토리지 또는 메모리 디바이스들을 이용하여 구현될 수도 있다.

DSP (330) 에서의 스피치 검출기 (322) 는, 활성화되는 경우, 사운드 센서 (312) 로부터 입력 사운드 스트림의 일부분을 수신한다. 일 실시형태에서, 스피치 검출기 (322) 는 수신된 부분으로부터 복수의 사운드 피쳐들을 추출하고, GMM (Gaussian mixture model) 기본 분류기, HMM, 중립 네트워크, 지리학적 모델, 및 SVM (Support Vector Machine) 과 같은 임의의 적합한 사운드 분류 방법을 이용함으로써 추출된 사운드 피쳐들이 스피치와 같은 관심 사운드를 나타내는지 여부를 결정한다. 본원에서 이용되는 바와 같이, 용어 "사운드 피쳐" 는 특정 지속기간의 사운드를 서술하거나 표현하는 임의의 정보 또는 데이터를 지칭하고, 사운드로부터 추출되는 주파수 또는 전력 컴포넌트, 사운드의 분류를 표현하는 사운드 분류 식별자, 및/또는 사운드로부터 추출되는 임의의 다른 정보 또는 데이터를 포함할 수도 있다.

수신된 부분이 관심 사운드인 것으로 결정되는 경우, 스피치 검출기 (322) 는 음성 활성화 유닛 (324) 을 활성화시키고, 입력 사운드 스트림의 수신된 부분 및 남은 부분은 음성 활성화 유닛 (324) 에 제공된다. 일부 다른 실시형태들에서, 스피치 검출기 (322) 는 DSP (330) 에서 생략될 수도 있다. 이러한 경우에, 수신된 부분이 임계 사운드 강도를 초과하는 경우, 사운드 센서 (312) 는 음성 활성화 유닛 (324) 을 활성화시키고, 입력 사운드 스트림의 수신된 부분 및 남은 부분을 음성 활성화 유닛 (324) 에 직접적으로 제공한다.

음성 활성화 유닛 (324) 은, 활성화되는 경우, 입력 사운드 스트림을 계속해서 수신하고 입력 사운드 스트림으로부터 타겟 키워드를 검출하도록 구성된다. 입력 사운드 스트림이 수신됨에 따라, 음성 활성화 유닛 (324) 은 입력 사운드 스트림으로부터 복수의 사운드 피쳐들을 순차적으로 추출할 수도 있다. 타겟 키워드의 검출을 위해 HMM 을 이용하는 경우에, 음성 활성화 유닛 (324) 은 저장 유닛 (318) 으로부터 복수의 상태들, 엔트리 상태, 및 타겟 키워드에 대한 전이 정보를 포함하는 상태 정보를 획득할 수도 있다. 각각의 사운드 피쳐에 있어서, GMM, 중립 네트워크, 및 SVM 과 같은 임의의 적합한 확률 모델을 이용함으로써 상태들의 각각에 대해 관측 스코어 (score) 가 결정될 수도 있다. 전이 정보로부터, 음성 활성화 유닛 (324) 은 타겟 키워드에 대해 가능한 복수의 상태 시퀀스들에서 상태들의 각각으로부터 다음 상태로의 전이 스코어들을 획득할 수도 있다.

관측 스코어들을 결정하고 전이 스코어들을 획득한 후에, 음성 활성화 유닛 (324) 은 가능한 상태 시퀀스들에 대한 키워드 스코어들을 결정한다. 일 실시형태에서, 결정된 키워드 스코어들 중에서 가장 큰 키워드 스코어가 미리 결정된 스코어 임계치를 초과하는 경우, 음성 활성화 유닛 (324) 은 입력 사운드 스트림을 타겟 키워드로서 검출한다. 타겟 키워드를 검출할 시에, 음성 활성화 유닛 (324) 은 음성 보조 유닛 (328) 을 활성화시키기 위해 활성화 신호를 발생시켜 송신하며, 음성 보조 유닛 (328) 은 타겟 키워드와 연관된다.

음성 보조 유닛 (328) 은 음성 활성화 유닛 (324) 으로부터의 활성화 신호에 응답하여 활성화된다. 활성화되면, 음성 보조 유닛 (328) 은 터치 디스플레이 유닛 상에 및/또는 I/O 유닛 (316) 의 스피커 유닛을 통해 "도와 드릴까요" 와 같은 메시지를 출력함으로써 음성 보조 기능을 수행할 수도 있다. 응답으로, 사용자는 모바일 디바이스 (310) 의 다양한 연관된 기능들을 활성화시키도록 음성 커맨드들을 말할 수도 있다. 예를 들어, 인터넷 검색을 위한 음성 커맨드가 수신되는 경우, 음성 보조 유닛 (328) 은 음성 커맨드를 검색 커맨드로서 인식하고 통신 유닛 (320) 을 통해 네트워크 (350) 를 거쳐 웹 검색을 수행할 수도 있다.

음성 활성화 유닛 (324) 이 활성화되면, DSP (330) 에서의 음성 활성화 제어 유닛 (326) 이 후속하여 수신된 입력 사운드 스트림이 비-타겟 키워드를 나타내는지 여부를 결정한다. 본원에서 이용되는 바와 같이, 용어 "비-타겟 키워드" 는 타겟 키워드 이외의 모든 사운드들을 지칭하고, 침묵, 소음, 및 타겟 키워드가 아닌 임의의 단어나 사운드를 포함할 수도 있다. 타겟 키워드가 입력 사운드 스트림에 포함되지 않는다고 결정되는 경우, 음성 활성화 제어 유닛 (326) 은 음성 활성화 유닛 (324) 을 비활성화시킬 수도 있다. 이는 음성 활성화 유닛 (324) 이 입력 사운드 스트림을 계속해서 프로세싱하는 것을 방지함으로써, 모바일 디바이스 (310) 의 전력 소비를 감소시킨다.

도 4a 는 본 개시물의 일 실시형태에 따른, 사운드 센서 (312) 로부터 활성화 신호 및 입력 사운드 스트림을 수신하고, 음성 보조 유닛 (328) 을 활성화시키기 위해 활성화 신호를 발생시키도록 구성된 DSP (330) 의 블록도를 도시한다. 도 3 을 참조하여 상술된 바와 같이, 사운드 센서 (312) 는 입력 사운드 스트림을 수신하고, 입력 사운드 스트림이 미리 결정된 임계 사운드 강도를 초과하는 사운드인 것으로 결정되는 경우 DSP (330) 에서의 스피치 검출기 (322) 에 활성화 신호 ("온") 를 출력한다. 활성화 신호와 함께, 사운드 센서 (312) 는 또한 수신된 입력 사운드 스트림을 스피치 검출기 (322) 에 제공할 수도 있다.

사운드 센서 (312) 로부터의 활성화 신호는 스피치 검출기 (322) 를 활성화시켜 입력 사운드 스트림을 수신하여 프로세싱한다. 일 실시형태에서, 스피치 검출기 (322) 는 수신된 입력 사운드 스트림이 스피치인지 여부를 결정한다. 수신된 입력 사운드 스트림이 스피치인 것으로 결정되는 경우, 스피치 검출기 (322) 는 활성화 신호 ("온") 를 발생시키며, 활성화 신호 ("온") 는 입력 사운드 스트림과 함께 음성 활성화 유닛 (324) 에 제공된다.

스피치 검출기 (322) 로부터의 활성화 신호에 응답하여, 음성 활성화 유닛 (324) 이 턴 온되어 스피치 검출기 (322) 로부터 입력 사운드 스트림을 수신하여 프로세싱한다. 음성 활성화 유닛 (324) 은 입력 사운드 스트림을 복수의 프레임들로 세그먼트화하고 세그먼트화된 프레임들의 각각으로부터 사운드 피쳐를 추출할 수도 있다. 특정 실시형태에서, 음성 활성화 유닛 (324) 은 추출된 사운드 피쳐의 비-타겟 키워드 상태에 대응하는 제 1 메트릭을 결정할 수도 있다. 예를 들어, 음성 활성화 유닛 (324) 은 추출된 사운드 피쳐가 비-타겟 키워드와 연관된 가능성에 대응하는 메트릭을 결정할 수도 있다. 음성 활성화 유닛 (324) 은 제 1 메트릭을 제 2 메트릭과 비교할 수도 있으며, 이는 입력 사운드 스트림에 기초한다. 예를 들어, 제 2 메트릭은 추출된 사운드 피쳐의 타겟 키워드 상태에 대응할 수도 있거나 (예를 들어, 추출된 사운드 피쳐가 타겟 키워드와 연관되는 가능성), 제 2 메트릭은 특정 시간 기간 동안의 평균 비-타겟 키워드 상태에 대응할 수도 있다. 음성 활성화 유닛 (324) 은 비교의 결과에 기초하여 추출된 사운드 피쳐가 비-타겟 키워드를 나타내는지 여부를 결정할 수도 있다. 예를 들어, 음성 활성화 유닛 (324) 은 제 1 메트릭이 제 2 메트릭보다 큰 경우 추출된 사운드 피쳐가 비-타겟 키워드를 나타내는지 여부를 결정할 수도 있다.

다른 특정 실시형태에서는, 추출된 사운드 피쳐에 기초하여, 음성 활성화 유닛 (324) 은 수신된 입력 사운드 스트림이 타겟 키워드를 포함하는 확률을 나타내는 키워드 스코어, 및 수신된 입력 사운드 스트림이 타겟 키워드를 포함하지 않는 확률을 나타내는 비-키워드 스코어를 결정한다. 일 실시형태에서, 키워드 스코어가 미리 결정된 스코어 임계치를 초과하는 경우, 음성 활성화 유닛 (324) 은 입력 사운드 스트림을 타겟 키워드로서 검출한다. 타겟 키워드를 검출할 시에, 음성 활성화 유닛 (324) 은 음성 보조 유닛 (328) 을 활성화시키기 위해 활성화 신호를 발생시켜 송신한다.

음성 활성화 유닛 (324) 이 활성화되면, 후속하는 입력 사운드 스트림을 프로세싱함으로써 활성 상태로 계속 동작한다. 이는, 특히 후속하는 입력 사운드 스트림이 타겟 키워드를 포함하지 않는 경우, 불필요하게 모바일 디바이스 (310) 의 전력 자원들을 격감시킬 수도 있다. 그러한 경우들에서, 음성 활성화 제어 유닛 (326) 은 음성 활성화 유닛 (324) 을 턴 오프하는데 이용된다.

일 실시형태에서, 키워드 스코어 및 비-키워드 스코어를 결정한 후에, 음성 활성화 유닛 (324) 은 음성 활성화 제어 유닛 (326) 에 키워드 스코어 및 비-키워드 스코어를 출력한다. 키워드 스코어 및 비-키워드 스코어에 기초하여, 음성 활성화 제어 유닛 (326) 은 입력 사운드 스트림이 타겟 키워드를 포함하지 않는지 여부를 결정한다. 예를 들어, 음성 활성화 제어 유닛 (326) 은 키워드 스코어와 비-키워드 스코어 사이의 차이를 나타내는 신뢰 스코어를 결정하고, 신뢰 스코어가 신뢰 스코어 임계치보다 적은 경우 입력 사운드 스트림이 타겟 키워드를 포함하지 않는다고 검출할 수도 있다. 음성 활성화 제어 유닛 (326) 은 또한 현재 비-키워드 스코어 및 전체 비-키워드 평균 스코어를 결정하고, 현재 비-키워드 스코어가 평균 비-키워드 스코어 임계치보다 많게 전체 비-키워드 평균 스코어를 초과하는 경우 입력 사운드 스트림이 타겟 키워드를 포함하지 않는다고 검출할 수도 있다. 입력 사운드 스트림이 타겟 키워드를 포함하지 않는다고 음성 활성화 제어 유닛 (326) 이 결정하는 경우, 음성 활성화 제어 유닛 (326) 은 비활성화 신호 ("오프") 를 발생시키고 송신하여 음성 활성화 유닛 (324) 을 턴 오프한다. 상술된 바와 같이, 음성 활성화 제어 유닛 (326) 은 음성 활성화 유닛 (324) 에 의해 결정된 스코어들에 기초하여 음성 활성화 유닛 (324) 을 제어한다. 따라서, 스코어들을 산출하기 위해 음성 활성화 제어 유닛 (326) 이 추가적인 컴퓨팅 자원들을 이용할 필요가 없고, 음성 활성화 제어 유닛 (326) 은 효율적으로 음성 활성화 유닛 (324) 을 제어할 수 있다.

또한, 음성 활성화 제어 유닛 (326) 은 후속하는 입력 사운드 스트림이 스피치를 나타내는 경우 음성 활성화 유닛 (324) 을 턴 온하도록 스피치 검출기 (322) 를 제어하기 위해 제어 신호를 송신한다. 제어 신호에 응답하여, 스피치 검출기 (322) 는 음성 활성화 유닛 (324) 을 비활성화시킨 후에 수신된 후속하는 입력 사운드 스트림이 스피치인지 여부를 결정한다. 후속하는 입력 사운드 스트림이 스피치가 아니라고 (예를 들어, 침묵) 스피치 검출기 (322) 가 결정하는 경우, 스피치 검출기 (322) 는 음성 활성화 유닛 (324) 을 활성화시키지 않는다. 따라서, 음성 활성화 유닛 (324) 은 전력을 소비하지 않으면서 비활성화된 채로 있을 수도 있다. 반면에, 후속하는 입력 사운드 스트림이 스피치라고 스피치 검출기 (322) 가 결정하는 경우, 스피치 검출기 (322) 는 후속하는 입력 사운드 스트림에서 타겟 키워드를 검출하기 위해 음성 활성화 유닛 (324) 을 활성화시킬 수도 있다.

일 실시형태에서, 활성화 후에 음성 활성화 유닛 (324) 에 의해 수신되고 프로세싱된 입력 사운드 스트림은 타겟 키워드를 포함하지 않는 계속적인 대화 (예를 들어, 평범한 스피치, 일상적인 대화 등) 일 수도 있다. 이러한 경우에, 음성 활성화 제어 유닛 (326) 은 상술된 바와 같이 키워드 스코어 및 비-키워드 스코어에 기초하여 음성 활성화 유닛 (324) 을 비활성화시킨다. 음성 활성화 유닛 (324) 이 비활성화되면, 사운드 센서 (312) 는 후속하는 입력 사운드 스트림을 수신할 수도 있다. 후속하는 입력 사운드 스트림이 임계 사운드 강도를 초과하는 사운드를 나타내는 경우, 사운드 센서 (312) 의 사운드 검출기 (314) 는 스피치 검출기 (322) 에 활성화 신호를 송신하며, 스피치 검출기 (322) 는 후속하는 입력 사운드 스트림이 스피치를 포함하는 경우 결과적으로 음성 활성화 유닛 (324) 에 활성화 신호를 송신할 수도 있다.

음성 활성화 유닛 (324) 이 재활성화되는 경우, 음성 활성화 유닛 (324) 은 후속하는 입력 사운드 스트림의 각각의 사운드 피쳐에 대한 키워드 스코어 및 비-키워드 스코어를 산출할 수도 있다. 키워드 스코어 및 비-키워드 스코어는 그 다음에 음성 활성화 제어 유닛 (326) 으로 송신된다. 키워드 스코어 및 비-키워드 스코어에 기초하여, 음성 활성화 제어 유닛 (326) 은 후속하는 입력 사운드 스트림이 타겟 키워드를 포함하지 않는 것을 결정하고 음성 활성화 유닛 (324) 에 비활성화 신호를 송신할 수도 있다. 이러한 방식으로, 음성 활성화 유닛 (324) 은 반복적으로 활성화되고 비활성화될 수도 있다.

입력 사운드 스트림이 미리 결정된 카운트를 초과하는 타겟 키워드를 포함하지 않는다고 음성 활성화 제어 유닛 (326) 이 연속하여 결정하는 경우, 현재 수신되고 있는 입력 사운드 스트림이 타겟 키워드를 포함하는 낮은 확률이 있다고 가정될 수도 있다. 일 실시형태에 따르면, 음성 활성화 제어 유닛 (326) 은 음성 활성화 유닛 (324) 에 발생되어 송신된 비활성화 신호들의 개수에 기초하여 입력 사운드 스트림이 타겟 키워드를 포함하지 않는다는 결정들의 개수를 센다. 비활성화의 개수가 미리 결정된 카운트 이상인 경우, 음성 활성화 제어 유닛 (326) 은 후속하는 입력 사운드 스트림이 스피치를 나타낼지라도 음성 활성화 유닛 (324) 의 활성화를 방지하기 위해 스피치 검출기 (322) 에 제어 신호를 송신할 수도 있다. 따라서, 음성 활성화 제어 유닛 (326) 은 음성 활성화 유닛 (324) 을 비활성화시켜 수신되고 있는 입력 사운드 스트림을 수신하고 프로세싱하는 것을 종료할 수도 있다.

연속적인 비활성화들의 카운트에 기초하여 음성 활성화 유닛 (324) 이 비활성화된 후에, 후속하는 사운드 스트림을 수신하고 프로세싱하는 것이 재활성화될 수도 있다. 일 실시형태에서, 스피치 검출기 (322) 가 입력 사운드 스트림에서 이전 대화를 프로세싱하는 것을 끝마치고 새로운 대화를 수신하는 경우, 새롭게 수신된 대화가 타겟 키워드를 포함할 가능성이 있기 때문에 음성 활성화 유닛 (324) 을 재활성화시킬 수도 있다. 예를 들어, 스피치 검출기 (322) 는 이전에 수신된 대화와 후속하는 대화 사이에서 미리 결정된 침묵의 지속기간을 검출하는 경우 이전 대화가 끝났다고 검출할 수도 있다. 대안으로, 사운드 센서 (312) 에서의 사운드 검출기 (314) 는 음성 활성화 유닛 (324) 을 활성화시킬 시에 이용하기 위해 침묵의 지속기간을 검출하도록 구성될 수도 있다.

다른 실시형태에서, 스피치 검출기 (322) 는 연속적인 비활성화들의 카운트에 기초하여 비활성화된 후에 입력 사운드 스트림의 사운드 컨텍스트에서의 변화가 검출되는 경우 음성 활성화 유닛 (324) 을 재활성화시킬 수도 있다. 컨텍스트에서의 변화는 하나의 사운드 환경으로부터 다른 사운드 환경으로 변하는 것과 같은 사운드 환경에서의 변화를 지칭한다. 예를 들어, 모바일 디바이스 (310) 가 자동차로부터 방으로 이동되는 경우, 자동차 및 방으로부터 수신되는 환경적 사운드들은 각각의 환경에 대한 컨텍스트를 식별하는데 이용될 수 있는 상이한 사운드 특성들을 통상적으로 보인다. 수신된 사운드의 컨텍스트 정보는 임의의 적합한 컨텍스트 결정 방법을 사용함으로써 결정될 수 있다. 예를 들어, 입력 사운드의 사운드 피쳐들은 특정 컨텍스트로부터 트레이닝되는 데이터베이스에서의 사운드 피쳐들과 비교되고 매칭될 수도 있다. 그 후에, 수신된 사운드의 컨텍스트 정보는 데이터베이스에서 가장 잘 매칭되는 사운드 피쳐들과 연관된 컨텍스트 정보로부터 결정될 수도 있다. 음성 활성화 유닛 (324) 을 재활성화시키기 위해, 스피치 검출기 (322) 는 이전의 입력 사운드와 후속하는 입력 사운드 스트림 사이의 사운드 컨텍스트에서의 변화를 검출할 수도 있다. 스피치 검출기 (322) 대신에 임의의 다른 유닛 (예를 들어, 음성 활성화 제어 유닛 (326)) 이 사운드 컨텍스트에서의 변화를 검출할 수도 있는 것으로 이해될 수도 있다.

도 4b 는 본 개시물의 다른 실시형태에 따른, 사운드 센서 (312) 로부터 활성화 신호 및 입력 사운드 스트림을 수신하고, 음성 보조 유닛 (328) 을 활성화시키기 위해 활성화 신호를 발생시키도록 구성된 DSP (330) 의 블록도를 도시한다. 도 4a 와 유사하게, 사운드 센서 (312) 의 사운드 검출기 (314) 로부터의 활성화 신호는 입력 사운드 스트림을 수신하여 프로세싱하도록 스피치 검출기 (322) 를 활성화시킨다. 수신된 입력 사운드 스트림이 스피치인 것으로 결정되는 경우, 스피치 검출기 (322) 는 활성화 신호 ("온") 를 발생시키며, 활성화 신호 ("온") 는 입력 사운드 스트림과 함께 음성 활성화 유닛 (324) 에 제공된다. 스피치 검출기 (322) 로부터의 활성화 신호에 응답하여, 음성 활성화 유닛 (324) 은 키워드 스코어 및 비-키워드 스코어를 발생시킨다. 음성 활성화 유닛 (324) 에 의해 결정된 스코어들에 기초하여, 음성 활성화 제어 유닛 (326B) 은 음성 활성화 유닛 (324) 을 제어한다. 나아가, 음성 활성화 제어 유닛 (326B) 은 음성 활성화 유닛 (324) 에 발생되어 송신된 비활성화 신호들의 개수에 기초하여 입력 사운드 스트림이 타겟 키워드를 포함하지 않는 결정들의 개수를 센다.

이러한 실시형태에서, 비활성화의 개수가 미리 결정된 카운트 이상인 경우, 음성 활성화 제어 유닛 (326B) 은 사운드 센서 (312) 의 사운드 검출기 (314) 에 제어 신호를 송신하여 사운드 검출기 (314) 를 비활성화시킬 수도 있다. 예를 들어, 사운드 검출기 (314) 가 음성 활성화 제어 유닛 (326B) 으로부터 제어 신호를 수신하는 경우 사운드 검출기 (314) 는 미리 결정된 시간 기간 (예를 들어, 10 초) 동안 비활성화될 수도 있다. 대안적인 실시형태에서, 음성 활성화 유닛 (324) 이 비활성화되는 횟수가 미리 결정된 카운트 이상인 경우, 사운드 센서 (312) 는 미리 결정된 시간 기간 동안 비활성화될 수도 있다.

도 5 는 본 개시물의 일 실시형태에 따른, 입력 사운드 스트림을 수신하고 입력 사운드 스트림에서 타겟 키워드를 검출하도록 구성된 음성 활성화 유닛 (324) 의 보다 상세한 블록도를 도시한다. 음성 활성화 유닛 (324) 은 세그먼트화 유닛 (510), 피쳐 추출기 (520), 스코어 결정 유닛 (530), 및 키워드 검출 유닛 (540) 을 포함한다. 스코어 결정 유닛 (530) 은 관측 스코어 결정 유닛 (550) 및 최대 키워드 스코어 결정 유닛 (560) 을 포함한다.

세그먼트화 유닛 (510) 은 스피치 검출기 (322) 로부터 입력 사운드 스트림을 수신하고, 수신된 입력 사운드 스트림을 동일한 시간 기간의 복수의 순차적 프레임들로 세그먼트화한다. 피쳐 추출기 (520) 는 세그먼트화 유닛 (510) 으로부터 세그먼트화된 프레임들을 순차적으로 수신하고, 프레임들의 각각으로부터 사운드 피쳐를 추출한다. 일 실시형태에서, 피쳐 추출기 (520) 는 MFCC (Mel-Frequency Cepstral Coefficient) 방법과 같은 임의의 적합한 피쳐 추출 방법을 이용하여 프레임들로부터 사운드 피쳐들을 추출할 수도 있다. 예를 들어, MFCC 방법의 경우에, n-차원 벡터에서의 MFCC 들은 세그먼트화된 프레임들의 각각으로부터 산출되고, 벡터는 사운드 피쳐로서 이용된다.

스코어 결정 유닛 (530) 에서, 관측 스코어 결정 유닛 (550) 은 사운드 피쳐들을 순차적으로 수신하고, 저장 유닛 (318) 으로부터 타겟 키워드에 대한 상태 정보를 수신한다. 일 실시형태에 따르면, 타겟 키워드에 대한 상태 정보는 타겟 키워드의 복수의 부분들과 연관된 복수의 상태들, 및 상태들의 각각에 대해 제공되는 GMM 과 같은 확률 모델 (예를 들어, 확률 기능) 을 포함할 수도 있다. 상술된 바와 같이, 타겟 키워드는 사운드의 복수의 기본 유닛들로 나누어질 수도 있고, 타겟 키워드를 표현하는 복수의 부분들은 사운드의 기본 유닛들에 기초하여 발생될 수도 있다. 일부 실시형태들에서, 타겟 키워드의 상태들은 또한 비-키워드 상태 (예를 들어, "필터" 상태) 를 포함할 수도 있으며, 비-키워드 상태는 타겟 키워드를 표현하는 복수의 부분들 중 어느 부분과도 연관되지 않는다. 예를 들어, 미리 결정된 개수의 상태들을 포함하는 타겟 키워드의 경우에 (미리 결정된 개수의 상태들의 각각은 단음과 같은 사운드의 기본 유닛에 대응한다), 비-키워드 상태는 타겟 키워드에 포함된 사운드의 기본 유닛들 이외의 사운드의 기본 유닛들을 표현할 수도 있다.

각각의 사운드 피쳐가 수신됨에 따라, 관측 스코어 결정 유닛 (550) 은 저장 유닛 (318) 으로부터 수신된 사운드 피쳐 및 상태 정보에 기초하여 타겟 키워드의 각각의 상태에 대한 관측 스코어를 결정한다. 일 실시형태에서, 상태들의 각각에 대한 관측 스코어는 연관된 상태에 대해 확률 모델에 따라 확률 값을 산출함으로써 수신된 사운드 피쳐에 대해 결정된다. 확률 값들의 각각은 연관된 상태의 관측 스코어로서 이용될 수도 있다. 일 상태에 대한 높은 관측 스코어는 사운드 피쳐가 그 상태에 대한 기본 유닛에 대응할 높은 확률을 나타낸다. 관측 스코어 결정 유닛 (550) 은 복수의 상태 시퀀스들에 대해 키워드 스코어들을 결정하기 위해 최대 키워드 스코어 결정 유닛 (560) 에 수신된 사운드 피쳐들의 각각에 대한 관측 스코어들을 제공하며, 키워드 스코어들은 타겟 키워드에 대해 가능하다.

최대 키워드 스코어 결정 유닛 (560) 은 사운드 피쳐들의 각각에 대해 관측 스코어들을 수신하고, 저장 유닛 (318) 으로부터 상태 정보를 획득한다. 상태 정보는 비-키워드 상태를 포함하는 타겟 키워드에 대한 복수의 상태들, 상태들 중에서 엔트리 상태, 및 상태들의 각각으로부터 그 상태 자체를 포함하여 다음 상태로의 전이 정보를 포함할 수도 있다. 엔트리 상태는 비-키워드 상태가 타겟 키워드에 대한 가능한 상태 시퀀스들의 각각의 상태로 전이하는 제 1 상태를 표현할 수도 있다.

상태 정보에서의 전이 정보는 타겟 키워드에 대한 가능한 상태 시퀀스의 각각에서의 상태들의 각각으로부터 다음 상태로의 전이 스코어를 포함한다. 전이 스코어는 상태들의 각각이 각각의 가능한 상태 시퀀스에서 다음 상태로 전이하는 확률 값을 표현할 수도 있다. 전이 스코어는 또한 비-키워드 상태로부터 엔트리 상태로의 전이 스코어를 포함한다.

수신된 관측 스코어들 및 전이 스코어들에 기초하여, 최대 키워드 스코어 결정 유닛 (560) 은 가능한 상태 시퀀스들의 각각에 대한 키워드 스코어를 산출한다. 이러한 경우에, 비-키워드 상태는 입력 사운드 스트림이 수신되기 전에 할당되기 때문에 상태 시퀀스는 비-키워드 상태 (즉, 시작 상태) 로부터 시작할 수도 있다. 그에 따라, 전이 스코어들은 비-키워드 상태로부터 엔트리 상태로의 전이 스코어를 포함하고, 또한 상태 시퀀스에서 비-키워드 상태로부터 비-키워드 상태 그 자체로의 전이 스코어를 포함한다. 이러한 방식으로, 각각의 사운드 특정에 대한 관측 스코어들의 세트가 관측 스코어 결정 유닛 (550) 으로부터 수신됨에 따라, 최대 키워드 스코어 결정 유닛 (560) 은 각각의 상태 시퀀스에 다음 상태를 추가하고 업데이트된 상태 시퀀스들의 각각에 대한 키워드 스코어를 결정한다. 최대 키워드 스코어 결정 유닛 (560) 은 그 다음에 업데이트된 상태 시퀀스들에 대한 키워드 스코어들 중에서 가장 큰 키워드 스코어를 선택한다. 일 실시형태에서, 키워드 스코어들은 Viterbi 알고리즘과 같은 임의의 적합한 방법을 이용함으로써 가장 큰 키워드 스코어를 결정하기 위해 산출될 수도 있다. 가장 큰 키워드 스코어를 결정한 후에, 최대 키워드 스코어 결정 유닛 (560) 은 그것을 키워드 검출 유닛 (540) 에 제공한다.

최대 키워드 스코어 결정 유닛 (560) 으로부터 가장 큰 키워드 스코어를 수신한 후에, 키워드 검출 유닛 (540) 은 가장 큰 키워드 스코어에 기초하여 입력 사운드 스트림에서 타겟 키워드를 검출한다. 예를 들어, 키워드 검출 유닛 (540) 은 저장 유닛 (318) 으로부터 타겟 키워드를 검출하기 위한 스코어 임계치를 수신하고, 가장 큰 키워드 스코어가 수신된 스코어 임계치보다 큰 경우 타겟 키워드를 검출할 수도 있다. 이러한 경우에, 스코어 임계치는 원하는 신뢰 레벨 내에서 타겟 키워드를 검출하기 위한 최소 키워드 스코어로 설정될 수도 있다.

일부 실시형태들에서, 최대 키워드 스코어 결정 유닛 (560) 은 비-키워드 상태 시퀀스에 대해 비-키워드 스코어를 결정한다. 비-키워드 스코어는 가능한 상태 시퀀스들에 대한 결정된 키워드 스코어들 중에서 선택되어 키워드 검출 유닛 (540) 으로 제공될 수도 있다. 타겟 키워드가 검출되면, 키워드 검출 유닛 (540) 은 활성화 신호를 발생시켜 제공하여, 타겟 키워드와 연관된 음성 보조 유닛 (328) 을 턴 온한다.

키워드 스코어 (예를 들어, 가장 큰 키워드 스코어) 또는 비-키워드 스코어에 기초하여, 음성 활성화 제어 유닛 (326) 은 입력 사운드 스트림이 타겟 키워드를 포함하지 않는지 여부를 결정한다. 일 실시형태에서, 음성 활성화 제어 유닛 (326) 은 특히 입력 사운드 스트림이 키워드 스코어들에 영향을 줄 수도 있는 소음과 같은 주위 사운드를 포함하는 경우, 키워드 스코어 및 비-키워드 스코어 양자 모두를 이용하여 검출 정확도를 향상시킬 수도 있다. 이러한 실시형태에서, 음성 활성화 제어 유닛 (326) 은 키워드 스코어와 비-키워드 스코어 사이의 차이를 나타내는 신뢰 스코어를 결정할 수도 있다. 신뢰 스코어는 입력 사운드 스트림으로부터 타겟 키워드를 검출할 확률을 나타낸다. 신뢰 스코어가 높은 경우, 입력 사운드 스트림으로부터 타겟 키워드를 검출할 높은 확률을 나타낸다. 반면에, 신뢰 스코어가 낮은 경우, 입력 사운드 스트림으로부터 타겟 키워드를 검출할 낮은 확률을 나타낸다. 따라서, 신뢰 스코어가 신뢰 스코어 임계치보다 낮은 경우, 음성 활성화 제어 유닛 (326) 은 입력 사운드 스트림이 타겟 키워드를 포함하지 않는다고 결정한다.

다른 실시형태에서, 음성 활성화 제어 유닛 (326) 은 입력 사운드 스트림이 타겟 키워드를 포함하지 않는다고 결정할 시에 일정 기간에 걸쳐 입력 사운드 스트림을 분석할 수도 있다. 예를 들어, 사용자가 타겟 키워드 "hey" 를 말하는 경우, 음성 활성화 제어 유닛 (326) 은 오직 단음들이 "he" 만이 수신된 경우 수신된 사운드가 타겟 키워드가 아니라고 처음에 결정할 수도 있다. 음성 활성화 제어 유닛 (326) 은 그 다음에 단음 "y" 를 수신하는 경우, 수신된 사운드가 타겟 키워드라고 결정할 수도 있다. 이에 따라, 입력 사운드 스트림이 타겟 키워드를 포함하지 않는지 여부를 결정할 시에 정확도를 향상시키기 위해, 음성 활성화 제어 유닛 (326) 은 비-키워드 스코어들의 평균 값에 기초하여 입력 사운드 스트림이 타겟 키워드를 포함하지 않는지 여부를 결정한다.

음성 활성화 제어 유닛 (326) 은, 일 실시형태에서, 현재 비-키워드 스코어 및 전체 비-키워드 평균 스코어를 결정하고, 현재 비-키워드 스코어와 비-키워드 평균 스코어 사이의 차이를 결정할 수도 있다. 현재 비-키워드 스코어는 가장 최근에 추출된 사운드 피쳐로부터 산출된 비-키워드 스코어일 수도 있다. 다른 실시형태에서, 현재 비-키워드 스코어는 복수의 최근에 추출된 사운드 피쳐들로부터 산출된 평균 스코어일 수도 있다. 전체 비-키워드 평균 스코어는 특정 시간의 기간에 걸쳐 추출된 사운드 피쳐들의 모두로부터 산출된 평균 스코어를 나타내며, 특정 시간의 기간은 주기적으로 재설정될 수도 있다. 현재 비-키워드 스코어와 전체 비-키워드 평균 스코어 사이의 차이가 평균 비-키워드 스코어 임계치보다 큰 경우, 음성 활성화 제어 유닛 (326) 은 입력 사운드 스트림이 타겟 키워드를 포함하지 않는다고 결정한다. 대안으로, 신뢰 스코어가 신뢰 스코어 임계치보다 적고 현재 비-키워드 스코어와 전체 비-키워드 평균 스코어 사이의 차이가 평균 비-키워드 스코어 임계치보다 큰 경우, 음성 활성화 제어 유닛 (326) 은 입력 사운드 스트림이 타겟 키워드를 포함하지 않는다고 결정할 수도 있다.

도 6 은 본 개시물의 일 실시형태에 따른, 입력 사운드 스트림 (600) 에 대한 복수의 신뢰 스코어들 (620), 복수의 현재 비-키워드 스코어들 (640), 복수의 현재 키워드 스코어들 (650), 및 복수의 전체 평균 비-키워드 스코어들 (660) 의 예시적인 그래프들 (616 및 618) 을 도시한다. 수신된 입력 사운드 스트림 (600) 은 복수의 부분들 (602 내지 614) 을 포함한다. 도시된 바와 같이, 입력 사운드 스트림 (600) 은 2 개의 비-키워드 부분들 (602 및 606), 3 개의 키워드 부분들 (604, 610, 및 614), 및 2 개의 침묵 부분들 (608 및 612) 을 포함한다. 본원에서 이용되는 바와 같이, 용어 "비-키워드" 는 타겟 키워드, 침묵, 및 소음 이외의 모든 사운드들을 지칭한다.

스코어 그래프 (616) 는 신뢰 스코어 임계치 (630) 와 함께 입력 사운드 스트림 (600) 에 대한 신뢰 스코어들 (620) 을 도시하며, 신뢰 스코어 임계치 (630) 는 (도 6 에서 굵은 직선으로 나타내어지는 바와 같이) 일정하다. 도시된 바와 같이, 키워드 부분들 (604, 610, 및 614) 에 대응하는 신뢰 스코어들 (620) 중 일부 신뢰 스코어는 신뢰 스코어 임계치 (630) 를 초과한다. 이러한 경우들에서, 음성 활성화 제어 유닛 (326) 은 입력 사운드 스트림 (600) 이 타겟 키워드를 포함하지 않는다고 결정하지 않는다. 다른 신뢰 스코어들 (620) 은 비-키워드 부분들 (602 및 606) 또는 침묵 부분들 (608 및 612) 에 대응하고, 신뢰 스코어 임계치 (630) 를 초과하지 않는다. 따라서, 음성 활성화 제어 유닛 (326) 은 이러한 스코어들에 대응하는 입력 사운드 스트림 (600) 이 타겟 키워드를 포함하지 않는다고 결정할 수도 있다.

스코어 그래프 (618) 는 (검정색 실선으로 나타내어지는 바와 같은) 현재 비-키워드 스코어들 (640), (점선으로 나타내어지는 바와 같은) 현재 키워드 스코어들 (650), (검정색 굵은 실선으로 나타내어지는 바와 같은) 전체 평균 비-키워드 스코어들 (660) 을 도시한다. 원으로 표시된 부분들 (670) 로 도시된 바와 같이, 비-키워드 부분들 (602 및 606) 또는 침묵 부분 (612) 에 대응하는 현재 비-키워드 스코어들 (640) 중 일부는 평균 비-키워드 스코어 임계치들보다 많게 전체 평균 비-키워드 스코어 (660) 를 초과한다. 이러한 경우들에서, 음성 활성화 제어 유닛 (326) 은 이러한 스코어들에 대응하는 입력 사운드 스트림 (600) 이 타겟 키워드를 포함하지 않는다고 결정할 수도 있다.

도 7 은 본 개시물의 일 실시형태에 따른, 음성 활성화 유닛 (324) 에 의해 산출된 키워드 스코어 및 비-키워드 스코어에 기초하여 모바일 디바이스 (310) 의 음성 활성화 유닛 (324) 을 비활성화시키는 방법 (700) 의 플로차트를 도시한다. 모바일 디바이스 (310) 는 710 에서 사운드 센서 (312) 에 의해 입력 사운드 스트림을 수신한다. 그 다음에, 사운드 센서 (312) 의 사운드 검출기 (314) 및 스피치 검출기 (322) 는 720 에서 입력 사운드 스트림이 임계 사운드 강도를 초과하는 스피치인지 여부를 결정한다. 입력 사운드 스트림이 임계 사운드 강도를 초과하는 스피치인 경우, 스피치 검출기 (322) 는 730 에서 음성 활성화 유닛 (324) 을 활성화시킨다. 그러나, 입력 사운드 스트림이 임계 사운드 강도를 초과하는 스피치가 아닌 경우, 사운드 센서 (312) 의 사운드 검출기 (314) 및 스피치 검출기 (322) 는 710 에서 다시 후속하는 입력 사운드 스트림을 수신한다.

740 에서, 음성 활성화 유닛 (324) 은 입력 사운드 스트림을 복수의 사운드 프레임들로 세그먼트화하고 각각의 사운드 프레임으로부터 사운드 피쳐를 추출한다. 사운드 피쳐를 추출한 후에, 음성 활성화 유닛 (324) 은 사운드 피쳐로부터 키워드 스코어 및 비-키워드 스코어를 산출하고, 음성 활성화 제어 유닛 (326) 에 키워드 스코어 및 비-키워드 스코어를 송신한다. 음성 활성화 유닛 (324) 에 의해 산출된 키워드 스코어 및 비-키워드 스코어에 기초하여, 음성 활성화 제어 유닛 (326) 은 750 에서 키워드 스코어 및 비-키워드 스코어가 비-타겟 키워드를 나타내는지 여부를 결정한다. 키워드 스코어 및 비-키워드 스코어가 비-타겟 키워드를 나타낸다고 음성 활성화 제어 유닛 (326) 이 결정할 수 없는 경우, 음성 활성화 유닛 (324) 은 760 에서 후속하는 입력 사운드 스트림을 수신한다. 그 다음에, 750 에서 키워드 스코어 및 비-키워드 스코어가 비-타겟 키워드를 나타낸다고 음성 활성화 유닛 (324) 이 검출할 때가지 음성 활성화 유닛 (324) 은 740 에서 후속하는 입력 사운드 스트림에 대한 키워드 스코어 및 비-키워드 스코어를 산출할 수도 있다. 750 에서 키워드 스코어 및 비-키워드 스코어가 비-타겟 키워드를 나타낸다 (즉, 입력 사운드 스트림은 비-타겟 키워드를 나타낸다) 고 음성 활성화 제어 유닛 (326) 이 결정하는 경우, 음성 활성화 제어 유닛 (326) 은 770 에서 음성 활성화 유닛 (324) 을 비활성화시킨다.

도 8 은 본 개시물의 일 실시형태에 따른, 수신되고 있는 입력 사운드 스트림을 수신하고 프로세싱하는 것을 종료하기 위해 음성 활성화 제어 유닛 (326) 에 의해 음성 활성화 유닛 (324) 을 비활성화시키는 방법 (800) 의 플로차트를 도시한다. 방법 (800) 의 810 내지 840 에서의 동작들은 방법 (700) 의 740 내지 770 에서의 동작들과 동일한 방식으로 수행되고, 따라서 그 설명은 생략되는 것이 이해될 수도 있다. 840 에서 음성 활성화 유닛 (324) 을 비활성화시킨 후에, 음성 활성화 제어 유닛 (326) 은 850 에서 비활성들의 수를 증가시킨다. 예를 들어, 모바일 디바이스 (310) 는 카운트 값을 저장하기 위한 저장 유닛 (318) 을 가질 수도 있다. 카운트 값의 초기 값은 "0" 으로 설정될 수도 있다. 음성 활성화 제어 유닛 (326) 이 음성 활성화 유닛 (324) 에 비활성화 신호를 송신하고 음성 활성화 유닛 (324) 이 비활성화되는 경우, 음성 활성화 제어 유닛 (326) 은 카운트 값에 "1" 을 추가할 수도 있다.

860 에서, 음성 활성화 제어 유닛 (326) 은 비활성들의 수가 미리 결정된 값과 동일하거나 미리 결정된 값을 초과하는지 여부를 결정한다. 비활성화의 수가 미리 결정된 값과 동일하거나 미리 결정된 값을 초과하는 경우, 음성 활성화 제어 유닛 (326) 은 870 에서 후속하는 입력 사운드 스트림이 스피치를 나타내는 때에 음성 활성화 유닛 (324) 을 턴 온하는 것을 방지하도록 스피치 검출기 (322) 를 제어하기 위해 제어 신호를 송신한다. 따라서, 음성 활성화 제어 유닛 (326) 은 음성 활성화 유닛 (324) 을 비활성화시켜 수신되고 있는 입력 사운드 스트림을 수신하고 프로세싱하는 것을 종료할 수도 있다. 제어 신호를 스피치 검출기 (322) 에 송신한 후에, 음성 활성화 제어 유닛 (326) 은 890 에서 비활성화들의 수를 재설정한다. 그러나, 비활성화의 수가 미리 결정된 값보다 적은 경우, 음성 활성화 제어 유닛 (326) 은 880 에서 후속하는 입력 사운드 스트림이 스피치를 나타내는 때에 음성 활성화 유닛 (324) 을 턴 온하도록 스피치 검출기 (322) 를 제어하기 위해 제어 신호를 송신한다. 따라서, 음성 활성화 유닛 (324) 의 비활성화 후에, 스피치 검출기 (322) 가 후속하는 입력 사운드 스트림으로부터 스피치를 검출하는 경우, 스피치 검출기 (322) 는 음성 활성화 유닛 (324) 을 턴 온할 수도 있다.

도 9 는 본 개시물의 일 실시형태에 따른, 수신되고 있는 입력 사운드 스트림을 수신하고 프로세싱하는 것을 종료하기 위해 음성 활성화 유닛 (324) 을 비활성화시킨 후에 음성 활성화 유닛 (324) 을 재활성화시키는 방법 (900) 의 플로차트를 도시한다. 방법 (900) 의 910 내지 970 에서의 동작들은 방법 (700) 의 710 내지 770 에서의 동작들과 동일한 방식으로 수행되고, 따라서 그 설명은 생략된다는 것이 이해될 수도 있다. 음성 활성화 유닛 (324) 이 970 에서 비활성화된 후에, 음성 활성화 제어 유닛 (326) 은 980 에서 비활성화들의 수를 센다. 990 에서, 음성 활성화 제어 유닛 (326) 은 비활성들의 수가 미리 결정된 값과 동일하거나 미리 결정된 값을 초과하는지 여부를 결정한다. 비활성들의 수가 미리 결정된 값보다 적은 경우, 스피치 검출기 (322) 는 910 에서 후속하는 입력 사운드 스트림을 수신한다. 그러나, 비활성화의 수가 미리 결정된 값과 동일하거나 미리 결정된 값을 초과하는 경우, 스피치 검출기 (322) 는 995 에서 입력 사운드 스트림과 후속하는 입력 사운드 스트림 사이의 컨텍스트 변화가 검출되는지를 결정한다. 컨텍스트 변화가 검출되는 경우, 스피치 검출기 (322) 는 후속하는 입력 사운드 스트림을 프로세싱하여 후속하는 입력 사운드 스트림이 스피치를 나타내는지 여부를 결정한다.

도 10 은 본 개시물의 일 실시형태에 따른, 비활성화들의 수가 미리 결정된 값과 동일하거나 미리 결정된 값을 초과하는 경우 음성 활성화 유닛 (324) 을 재활성화시키기 위해 입력 사운드 스트림의 상태 변화를 검출하는 방법 (1000) 의 상세한 플로차트를 도시한다. 도 9 에서 상술된 바와 같이, 음성 활성화 제어 유닛 (326) 은 990 에서 비활성화들의 수가 미리 결정된 값과 동일하거나 미리 결정된 값을 초과하는지 여부를 결정한다. 비활성화들의 수가 미리 결정된 값을 초과하지 않는 경우, 스피치 검출기 (322) 는 910 에서 후속하는 입력 사운드 스트림을 수신한다. 그러나 비활성화들의 수가 미리 결정된 값과 동일하거나 미리 결정된 값을 초과하는 경우, 스피치 검출기 (322) 는 1010 에서 후속하는 입력 사운드 스트림을 수신한다. 1020 에서, 스피치 검출기 (322) 는 이전에 수신된 입력 사운드 스트림과 후속하는 입력 사운드 스트림 사이의 침묵의 지속기간을 결정한다. 침묵의 지속기간이 미리 결정된 시간 기간보다 크지 않은 경우, 스피치 검출기 (322)는 반복하여 후속하는 입력 사운드 스트림을 수신한다. 그러나, 침묵의 지속기간이 미리 결정된 시간 기간보다 큰 경우 (즉, 입력 사운드의 컨텍스트 변화가 검출된다), 스피치 검출기 (322) 는 920 에서 수신된 후속하는 입력 사운드가 후속하는 입력 사운드 스트림에 대한 스피치인지 여부를 결정한다.

도 11 은 본 개시물의 다른 실시형태에 따른, 비활성화들의 수가 미리 결정된 값과 동일하거나 미리 결정된 값을 초과하는 경우 음성 활성화 유닛 (324) 을 재활성화시키기 위해 입력 사운드의 컨텍스트 변화를 검출하는 방법 (1100) 의 상세한 플로차트를 도시한다. 도 9 에서 상술된 바와 같이, 음성 활성화 제어 유닛 (326) 은 990 에서 비활성화들의 수가 미리 결정된 값과 동일하거나 미리 결정된 값을 초과하는지 여부를 결정한다. 비활성화들의 수가 미리 결정된 값을 초과하지 않는 경우, 스피치 검출기 (322) 는 910 에서 후속하는 입력 사운드 스트림을 수신한다. 그러나, 비활성화들의 수가 미리 결정된 값과 동일하거나 미리 결정된 값을 초과하는 경우, 스피치 검출기 (322) 는 1110 에서 후속하는 입력 사운드 스트림을 수신한다. 1120 에서, 스피치 검출기 (322) 는 캡쳐된 후속하는 입력 사운드 스트림의 컨텍스트에서의 변화를 검출한다. 컨텍스트에서의 변화가 검출되지 않는 경우, 스피치 검출기 (322) 는 반복하여 후속하는 입력 사운드 스트림을 수신할 수도 있다. 그러나, 컨텍스트에서의 변화가 검출되는 경우 (즉, 입력 사운드의 컨텍스트 변화가 검출되는 경우), 스피치 검출기 (322) 는 920 에서 수신된 후속하는 입력 사운드가 후속하는 입력 사운드 스트림에 대한 스피치인지 여부를 결정한다.

도 12a 는 본 개시물의 일 실시형태에 따른, 평균 비-키워드 스코어 임계치를 결정할 시에 이용하기 위한 시뮬레이션으로부터의 복수의 라인들 (1210a, 1220a, 및 1230a) 을 보여주는 그래프 (1200a) 를 도시한다. 이러한 실시형태에서, 시뮬레이션은 소음이 없는 입력 사운드 스트림으로 수행된다. 그래프 (1200a) 의 x-축은 평균 비-키워드 스코어 임계치를 표현하고, 한편 y-축은 평균 비-키워드 스코어 임계치의 함수로서 라인들 (1210a, 1220a, 및 1230a) 에 대한 확률을 표현한다. 라인 (1210a) 은 입력 사운드 스트림이 사실은 타겟 키워드를 포함하는 경우에 입력 사운드 스트림이 타겟 키워드를 포함하지 않는다고 음성 활성화 제어 유닛 (326) 이 틀리게 결정하는 "거짓 경보" 의 확률을 나타낸다.

거짓 경보는 사용자에 의한 타겟 키워드의 반복되는 입력을 요구할 수도 있기 때문에 바람직하지 않다. 따라서, 거의 제로에 가깝도록 거짓 경보의 확률을 설정하는 것이 바람직할 수도 있다. 거짓 경보 라인 (1210a) 에서, 평균 비-키워드 스코어 임계치가 "2" 보다 큰 경우 거짓 경보의 확률은 거의 제로에 접근한다. 이에 따라, 음성 활성화 제어 유닛 (326) 에서의 평균 비-키워드 스코어 임계치는 "2" 또는 그보다 큰 값으로 설정될 수도 있다.

라인 (1210a) 은 입력 사운드 스트림이 사실은 타겟 키워드를 포함하지 않는 경우에 입력 사운드 스트림이 타겟 키워드를 포함한다고 음성 활성화 제어 유닛 (326) 이 틀리게 결정하는 "실책 (miss)" 확률을 나타낸다. 반면에, 라인 (1230a) 은 입력 사운드 스트림이 타겟 키워드를 포함하지 않는 경우 음성 활성화 제어 유닛 (326) 에 의해 비-키워드를 정확하게 검출할 확률을 나타낸다. 도시된 바와 같이, "실책" 라인 (1220a) 은 "실책" 의 확률이 초기에는 고르게 거의 제로이나 평균 비-키워드 스코어 임계치 값 "2" 이후에는 상당히 증가하는 것을 도시한다. 그에 반해, 라인 (1230a) 은 비-키워드를 정확하게 검출할 확률이 거의 "1" 의 확률 값이나, 평균 비-키워드 스코어가 "2" 의 값에 이를 경우 상당히 감소하기 시작하는 것을 나타낸다. 라인들 (1210a, 1220a, 및 1230a) 을 고려하여, 평균 비-키워드 스코어 임계치는 최적 성능을 위해 "2" 와 "3" 사이에서 설정될 수도 있다.

도 12b 는 본 개시물의 다른 실시형태에 따른, 평균 비-키워드 스코어 임계치를 결정할 시에 이용하기 위한 시뮬레이션으로부터의 복수의 라인들 (1210b, 1220b, 및 1230b) 을 보여주는 그래프 (1200b) 를 도시한다. 이러한 실시형태에서, 시뮬레이션은 소음을 갖는 입력 사운드 스트림으로 수행된다. 도 12a 와 유사하게, 라인 (1210b) 은 입력 사운드 스트림이 사실은 타겟 키워드를 포함하는 경우에 입력 사운드 스트림이 타겟 키워드를 포함하지 않는다고 음성 활성화 제어 유닛 (326) 이 틀리게 결정하는 "거짓 경보" 의 확률을 나타낸다. 나아가, 라인 (1220b) 은 입력 사운드 스트림이 사실은 타겟 키워드를 포함하지 않는 경우에 입력 사운드 스트림이 타겟 키워드를 포함한다고 음성 활성화 제어 유닛 (326) 이 틀리게 결정하는 "실책" 의 확률을 나타낸다. 반면에, 라인 (1230b) 은 입력 사운드 스트림이 타겟 키워드를 포함하지 않는 경우 음성 활성화 제어 유닛 (326) 에 의해 비-키워드를 정확하게 검출할 확률을 나타낸다. 도시된 바와 같이, 거짓 경보 라인 (1210b) 은 평균 비-키워드 스코어 임계치가 "3" 보다 큰 경우 거의 제로에 접근한다. 또한, "실책" 라인 (1220b) 은 "실책" 의 확률이 초기에는 고르게 거의 제로이나 평균 비-키워드 스코어 임계치 값 "2" 이후에는 상당히 증가하는 것을 도시한다. 반면에, 라인 (1230b) 은 비-키워드를 정확하게 검출할 확률이 "1" 의 확률 값이나, 평균 비-키워드 스코어 임계치가 "2" 의 값에 이르는 경우 상당히 감소하기 시작하는 것을 나타낸다. 라인들 (1210b, 1220b, 및 1230b) 을 고려하여, 평균 비-키워드 스코어 임계치는 최적 성능을 위해 (즉, 거짓 경보의 확률을 감소시키기 위해) "3" 과 "4" 사이로 설정될 수도 있다. 상술된 바와 같이, 평균 비-키워드 스코어 임계치는 모바일 디바이스의 컨텍스트 정보 (예를 들어, 시끄러운 컨텍스트) 에 기초하여 조정될 수도 있다.

도 13 은 본 개시물의 일 실시형태에 따른, 무선 통신 능력을 갖는 일 예시적인 모바일 디바이스 (1300) 의 블록도이다. 모바일 디바이스 (1300) 는 셀룰러 전화기, 단말기, 핸드셋, 개인용 휴대정보 단말기 (PDA), 무선 모뎀, 무선 전화기 등일 수도 있다. 무선 통신 시스템은 코드 분할 다중 액세스 (Code Division Multiple Access; CDMA) 시스템, 모바일 통신용 글로벌 시스템 (Global System for Mobile Communications; GSM) 시스템, 광대역 CDMA (Wideband CDMA; W-CDMA) 시스템, 롱 텀 에볼루션 (Long Term Evolution; LTE) 시스템, LTE 어드밴스드 시스템 등일 수도 있다.

모바일 디바이스 (1300) 는 수신 경로 및 송신 경로를 통해 양방향 통신을 제공하는 것이 가능할 수도 있다. 수신 경로에서, 기지국들에 의해 송신된 신호들이 안테나 (1312) 에 의해 수신되어, 수신기 (RCVR) (1314) 로 제공된다. 수신기 (1314) 는 수신된 신호를 컨디셔닝하고 디지털화하여, 추가적인 프로세싱을 위해 디지털 섹션 (1320) 에 컨디셔닝되고 디지털화된 신호를 제공한다. 송신 경로에서, 송신기 (TMTR) 가 디지털 섹션 (1320) 으로부터 송신될 데이터를 수신하여, 그 데이터를 프로세싱하고 컨디셔닝해서, 변조된 신호를 발생시키며, 변조된 신호는 안테나 (1312) 를 통해 기지국들로 송신된다. 수신기 (1314) 및 송신기 (1316) 는 CDMA, GSM, W-CDMA, LTE, LTE 어드밴스드 등을 지원하는 수도 있는 송수신기의 일부이다.

디지털 섹션 (1320) 은, 예를 들어, 모뎀 프로세서 (1322), RISC/DSP (reduced instruction set computer/digital signal processor) (1324), 제어기/프로세서 (1326), 내부 메모리 (1328), 일반화된 오디오 인코더 (1332), 일반화된 오디오 디코더 (1334), 그래픽/디스플레이 프로세서 (1336), 및/또는 외부 버스 인터페이스 (external bus interface; EBI) (1338) 와 같은 다양한 프로세싱, 인터페이스, 및 메모리 유닛들을 포함한다. 모뎀 프로세서 (1322) 는 데이터 송신 및 수신을 위한 프로세싱, 예를 들어, 인코딩, 변조, 복조, 및 디코딩을 수행한다. RISC/DSP (1324) 는 무선 디바이스 (1300) 를 위한 일반적인 프로세싱 및 특수한 프로세싱을 수행한다. 제어기/프로세서 (1326) 는 디지털 섹션 (1320) 내의 다양한 프로세싱 유닛 및 인터페이스 유닛의 동작을 제어한다. 내부 메모리 (1328) 는 디지털 섹션 (1320) 내의 다양한 유닛들에 대한 데이터 및/또는 명령들을 저장한다.

일반화된 오디오 인코더 (1332) 는 오디오 소스 (1342), 마이크로폰 (1343) 등으로부터의 입력 신호들에 대한 인코딩을 수행한다. 일반화된 오디오 디코더 (1334) 는 코딩된 오디오 데이터에 대한 디코딩을 수행하고, 출력된 신호들을 스피커/헤드셋 (1344) 으로 제공한다. 일반화된 오디오 인코더 (1332) 및 일반화된 오디오 디코더 (1334) 는 오디오 소스, 마이크로폰 (1343), 및 스피커/헤드셋 (1344) 과의 인터페이싱이 반드시 요구되는 것은 아니므로, 모바일 디바이스 (1300) 에서는 도시되지 않는다는 것이 유의되어야 한다. 그래픽/디스플레이 프로세서 (1336) 는 디스플레이 유닛 (1346) 에 나타내어질 수도 있는 그래픽들, 비디오들, 이미지들, 및 텍스트들에 대한 프로세싱을 수행한다. EBI (1338) 는 디지털 섹션 (1320) 과 메인 메모리 (1348) 사이의 데이터의 전송을 가능하게 한다.

디지털 섹션 (1320) 은 하나 이상의 프로세서들, DSP 들, 마이크로프로세서들, RISC 들 등으로 구현된다. 디지털 섹션 (1320) 은 또한 하나 이상의 주문형 반도체 (application specific integrated circuit; ASIC) 들 및/또는 일부 다른 유형의 집적 회로 (integrated circuit; IC) 들 상에 제작된다.

일반적으로, 본원에 설명된 임의의 디바이스는, 무선 전화기, 셀룰러 전화기, 랩탑 컴퓨터, 무선 멀티미디어 디바이스, 무선 통신 개인용 컴퓨터 (personal computer; PC) 카드, PDA, 외부 모뎀이나 내부 모뎀, 무선 채널을 통해 통신하는 디바이스 등과 같은 다양한 유형의 디바이스들을 나타낸다. 디바이스는, 액세스 단말기 (access terminal; AT), 액세스 유닛, 가입자 유닛, 이동국, 모바일 디바이스, 모바일 유닛, 모바일 전화기, 모바일, 원격국, 원격 단말기, 원격 유닛, 사용자 디바이스, 사용자 장비, 핸드헬드 디바이스 등과 같은 다양한 이름들을 가질 수도 있다. 본원에 설명된 임의의 디바이스는 명령들 및 데이터를 저장하기 위한 메모리, 뿐만 아니라 하드웨어, 소프트웨어, 펌웨어, 또는 그 조합들을 가질 수도 있다.

본원에 설명된 기법들은 다양한 수단으로 구현된다. 예를 들어, 이러한 기법들은 하드웨어, 펌웨어, 소프트웨어, 또는 그의 조합들로 구현된다. 본원의 개시물과 관련하여 설명된 다양한 예시적인 논리적 블록들, 모듈들, 회로들, 및 알고리즘 단계들은 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합들로 구현될 수도 있음을 당업자들은 또한 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호교환성을 명확하게 설명하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들, 및 단계들은 그들의 기능성의 관점에서 일반적으로 위에서 설명되었다. 그러한 기능성이 하드웨어 또는 소프트웨어로 구현되는지 여부는 특정 애플리케이션 및 전체 시스템에 부과되는 설계 제약들에 따라 달라진다. 당업자들은 각각의 특정 애플리케이션을 위해 다양한 방식들로 설명된 기능성을 구현할 수도 있으나, 그러한 구현 결정들이 본 개시물의 범위로부터 벗어나게 하는 것으로 해석되어서는 안된다.

하드웨어 구현에 있어서, 기법들을 수행하는데 이용되는 프로세싱 유닛들은, 하나 이상의 ASIC 들, DSP 들, 디지털 신호 프로세싱 디바이스들 (digital signal processing device; DSPD) 들, 프로그램가능 논리 디바이스 (programmable logic device; PLD) 들, 필드 프로그램가능 게이트 어레이 (field programmable gate array; FPGA) 들, 프로세서들, 제어기들, 마이크로-제어기들, 마이크로프로세서들, 전자 디바이스들, 본원에 설명된 기능들을 수행하도록 설계된 다른 전자 유닛들, 컴퓨터, 또는 그들의 조합 내에서 구현된다.

따라서, 본원의 개시물과 관련하여 설명된 다양한 예시적인 논리적 블록들, 모듈들, 및 회로들은 범용 프로세서, DSP, ASIC, FPGA 나 다른 프로그램가능 논리 디바이스, 이산 게이트나 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 본원에 설명된 기능들을 수행하도록 설계된 것들의 임의의 조합으로 구현되거나 수행된다. 범용-프로세서는 마이크로프로세서일 수도 있지만, 대안에서, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 연계한 하나 이상의 마이크로프로세서들, 또는 임의의 다른 그러한 구성으로 구현될 수도 있다.

소프트웨어로 구현되는 경우, 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 매체 상에 저장되거나 송신될 수도 있다. 컴퓨터-판독가능 매체들은 한 장소에서 다른 장소로 컴퓨터 프로그램의 전송을 가능하게 하는 임의의 매체를 포함하여 컴퓨터 저장 매체들 및 통신 매체들 양자 모두를 포함한다. 저장 매체들은 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체들일 수도 있다. 비제한적인 예로서, 그러한 컴퓨터-판독가능 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 요구되는 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 이송 또는 저장하기 위해 이용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함한다. 또한, 임의의 접속은 컴퓨터-판독가능 매체라고 적절히 칭해진다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선 (digital subscriber line; DSL), 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들을 이용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 송신되는 경우, 동축 케이블, 광섬유 케이블, 연선, DSL, 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들은 매체의 정의 내에 포함된다. 본원에서 이용된 디스크 (disk) 와 디스크 (disc) 는, 컴팩트 디스크 (compact disc; CD), 레이저 디스크, 광학 디스크, 디지털 다기능 디스크 (digital versatile disc; DVD), 플로피 디스크, 및 블루레이 디스크를 포함하며, 여기서 디스크 (disk) 들은 통상 자기적으로 데이터를 재생하는 반면, 디스크 (disc) 들은 레이저들을 이용하여 광학적으로 데이터를 재생한다. 위의 조합들도 컴퓨터-판독가능 매체들의 범위 내에 포함되어야 한다.

앞서의 개시물의 설명은 임의의 당업자가 본 개시물을 제작하거나 이용하는 것을 가능하게 하기 위해 제공된다. 본 개시물의 다양한 수정들이 당업자들에게 자명할 것이고, 본원에 정의된 일반적인 원리들은 본 개시물의 사상 또는 범위를 벗어나지 않으면서 다양한 변형들에 적용된다. 따라서, 본 개시물은 본원에 설명된 예들에 제한되고자 하는 것이 아니라, 본원에 개시된 원리들 및 신규한 피쳐들과 일관되는 가장 넓은 범위에 일치되고자 한다.

비록 예시적인 실시형태들이 하나 이상의 독립형 컴퓨터 시스템들의 맥락에서 현재 개시된 대상 발명의 양상들을 이용하는 것을 언급될 수도 있으나, 대상 발명은 그렇게 제한되지 않고, 오히려 네트워크나 분산된 컴퓨팅 환경과 같은 임의의 컴퓨팅 환경과 연계하여 구현될 수도 있다. 또 나아가, 현재 개시된 대상 발명의 양상들은 복수의 프로세싱 칩들이나 디바이스들에서 또는 그에 걸쳐 구현될 수도 있고, 스토리지는 복수의 디바이스들에 걸쳐 유사하게 영향을 받게 될 수도 있다. 그러한 디바이스들은 PC들, 네트워크 서버들, 및 핸드헬드 디바이스들을 포함할 수도 있다.

비록 대상 발명이 구조적 피쳐들 및/또는 방법론적 작용들에 대한 언어 특정적으로 설명되었으나, 첨부된 청구항들에서 규정된 대상 발명이 위에서 설명된 특정 피쳐들 또는 작용들로 반드시 제한되는 것은 아님이 이해될 것이다. 오히려, 상술된 특정 피쳐들 및 작용들은 청구항들을 구현하는 예시적인 형태들로서 개시된다.

Claims

모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법으로서,
입력 사운드 스트림을 수신하는 단계;
상기 입력 사운드 스트림이 스피치를 나타내는 경우 상기 타겟 키워드를 검출하기 위해 음성 활성화 기능을 활성화시키는 단계;
상기 입력 사운드 스트림으로부터 적어도 하나의 사운드 피쳐를 추출하는 단계; 및
상기 적어도 하나의 사운드 피쳐가 비-타겟 키워드를 나타내는 경우 상기 음성 활성화 기능을 비활성화시키는 단계를 포함하는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 1 항에 있어서,
상기 적어도 하나의 사운드 피쳐의 비-타겟 키워드 상태에 대응하는 제 1 메트릭을 결정하는 단계; 및
상기 제 1 메트릭을 상기 입력 사운드 스트림에 기초하는 제 2 메트릭과 비교하는 단계로서, 상기 적어도 하나의 사운드 피쳐는 상기 비교의 결과에 기초하여 상기 비-타겟 키워드를 나타내도록 결정되는, 상기 제 1 메트릭을 제 2 메트릭과 비교하는 단계를 더 포함하는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 2 항에 있어서,
상기 제 2 메트릭은 상기 적어도 하나의 사운드 피쳐의 타겟 키워드 상태에 대응하는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 2 항에 있어서,
상기 제 2 메트릭은 제 1 시간 기간 동안의 평균 비-타겟 키워드 상태와 연관되는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 1 항에 있어서,
상기 적어도 하나의 사운드 피쳐로부터 키워드 스코어 및 비-키워드 스코어를 결정하는 단계를 더 포함하는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 5 항에 있어서,
상기 키워드 스코어 및 상기 비-키워드 스코어는 상기 음성 활성화 기능에 의해 결정되는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 5 항에 있어서,
상기 음성 활성화 기능을 비활성화시키는 단계는, 상기 비-키워드 스코어가 제 1 스코어 임계치보다 많게 상기 키워드 스코어를 초과하는 경우 상기 음성 활성화 기능을 비활성화시키는 단계를 포함하는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 5 항에 있어서,
상기 음성 활성화 기능을 비활성화시키는 단계는, 제 1 시간의 기간 동안의 상기 비-키워드 스코어들의 제 1 평균 및 제 2 시간의 기간 동안의 상기 비-키워드 스코어들의 제 2 평균에 기초하여 상기 음성 활성화 기능을 비활성화시키는 단계를 포함하는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 8 항에 있어서,
상기 음성 활성화 기능을 비활성화시키는 단계는, 상기 제 1 평균이 제 2 스코어 임계치보다 많게 상기 제 2 평균보다 큰 경우 상기 음성 활성화 기능을 비활성화시키는 단계를 포함하는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 9 항에 있어서,
상기 모바일 디바이스의 컨텍스트 정보에 기초하여 상기 제 2 스코어 임계치를 조정하는 단계를 더 포함하는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 8 항에 있어서,
상기 제 1 시간의 기간은 상기 제 2 시간의 기간보다 짧은, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 1 항에 있어서,
상기 음성 활성화 기능을 비활성화시킨 후에 수신된 후속하는 입력 사운드 스트림이 스피치를 나타내는 경우 상기 음성 활성화 기능을 재활성화시키는 단계; 및
상기 후속하는 입력 사운드 스트림으로부터 추출된 적어도 하나의 사운드 피쳐가 비-타겟 키워드를 나타내는 경우 상기 음성 활성화 기능을 비활성화시키는 단계를 더 포함하는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 12 항에 있어서,
상기 음성 활성화 기능이 비활성화되는 횟수를 세는 단계를 더 포함하고,
상기 음성 활성화 기능을 재활성화시키는 단계는, 상기 음성 활성화 기능이 비활성화되는 횟수가 특정 수 미만인 경우 상기 음성 활성화 기능을 재활성화시키는 단계를 포함하는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 13 항에 있어서,
상기 음성 활성화 기능이 비활성화되는 횟수가 상기 특정 수 이상인 경우 수신된 상기 입력 사운드 스트림에서의 침묵의 지속기간을 결정하는 단계; 및
상기 침묵의 지속기간이 특정 시간 기간을 초과하는 경우 상기 음성 활성화 기능을 재활성화시키는 단계를 더 포함하는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 13 항에 있어서,
상기 음성 활성화 기능이 비활성화되는 횟수가 상기 특정 수 이상인 경우 수신된 상기 입력 사운드 스트림의 컨텍스트에서의 변화를 검출하는 단계; 및
상기 수신된 입력 사운드 스트림의 컨텍스트에서의 변화가 검출되는 경우 상기 음성 활성화 기능을 재활성화시키는 단계를 더 포함하는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 13 항에 있어서,
상기 음성 활성화 기능이 비활성화되는 횟수가 상기 특정 수 이상인 경우 특정 시간 기간 동안 상기 입력 사운드 스트림을 수신하는 것을 비활성화시키는 단계를 더 포함하는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 13 항에 있어서,
상기 입력 사운드 스트림을 수신하는 것은, 상기 입력 사운드 스트림이 스피치를 나타내는지 여부를 결정하는 것을 포함하는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 17 항에 있어서,
상기 음성 활성화 기능이 비활성화되는 횟수가 상기 특정 수 이상인 경우 상기 입력 사운드 스트림이 특정 시간 기간 동안 스피치를 나타내는지 여부를 결정하는 것을 비활성화시키는 단계를 더 포함하는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 13 항에 있어서,
상기 음성 활성화 기능이 비활성화되는 횟수를 재설정하는 단계를 더 포함하는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 19 항에 있어서,
상기 음성 활성화 기능이 비활성화되는 횟수를 재설정하는 단계는, 상기 음성 활성화 기능이 비활성화되는 횟수가 특정 시간 동안 변화되지 않는 채로 있는 경우 상기 음성 활성화 기능이 비활성화되는 횟수를 재설정하는 단계를 포함하는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
제 1 항에 있어서,
상기 음성 활성화 기능은 상기 모바일 디바이스에서 적어도 하나의 애플리케이션을 활성화시키도록 구성된 음성 활성화 유닛에 의해 수행되는, 모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하는 방법.
타겟 키워드에 의해 음성 활성화를 제어하기 위한 모바일 디바이스로서,
입력 사운드 스트림을 수신하도록 구성된 수신기;
상기 입력 사운드 스트림이 스피치를 나타내는지 여부를 결정하도록 구성된 스피치 검출기;
상기 입력 사운드 스트림이 스피치를 나타내는 경우 상기 타겟 키워드를 검출하기 위해 상기 스피치 검출기가 음성 활성화 유닛을 활성화시킨 후에 상기 입력 사운드 스트림으로부터 적어도 하나의 사운드 피쳐를 추출하도록 구성된 음성 활성화 유닛; 및
상기 적어도 하나의 사운드 피쳐가 비-타겟 키워드를 나타내는 경우 상기 음성 활성화 유닛을 비활성화시키도록 구성된 음성 활성화 제어 유닛을 포함하는, 타겟 키워드에 의해 음성 활성화를 제어하기 위한 모바일 디바이스.
제 22 항에 있어서,
상기 음성 활성화 유닛은 상기 적어도 하나의 사운드 피쳐로부터 키워드 스코어 및 비-키워드 스코어를 결정하도록 더 구성되는, 타겟 키워드에 의해 음성 활성화를 제어하기 위한 모바일 디바이스.
제 23 항에 있어서,
상기 음성 활성화 제어 유닛은 상기 비-키워드 스코어가 제 1 스코어 임계치보다 많게 상기 키워드 스코어를 초과하는 경우 상기 음성 활성화 유닛을 비활성화시키도록 구성되는, 타겟 키워드에 의해 음성 활성화를 제어하기 위한 모바일 디바이스.
제 23 항에 있어서,
상기 음성 활성화 제어 유닛은 제 1 시간의 기간 동안의 상기 비-키워드 스코어들의 제 1 평균 및 제 2 시간의 기간 동안의 상기 비-키워드 스코어들의 제 2 평균에 기초하여 상기 음성 활성화 유닛을 비활성화시키도록 구성되는, 타겟 키워드에 의해 음성 활성화를 제어하기 위한 모바일 디바이스.
모바일 디바이스에서 타겟 키워드에 의해 음성 활성화를 제어하기 위한 명령들을 저장하는 비일시적 컴퓨터-판독가능 저장 매체로서,
상기 명령들은 프로세서로 하여금 동작들을 수행하게 하고,
상기 동작들은,
입력 사운드 스트림을 수신하는 것;
상기 입력 사운드 스트림이 스피치를 나타내는 경우 상기 타겟 키워드를 검출하기 위해 음성 활성화 기능을 활성화시키는 것;
상기 입력 사운드 스트림으로부터 적어도 하나의 사운드 피쳐를 추출하는 것; 및
상기 적어도 하나의 사운드 피쳐가 비-타겟 키워드를 나타내는 경우 상기 음성 활성화 기능을 비활성화시키는 것을 포함하는, 비일시적 컴퓨터-판독가능 저장 매체.
제 26 항에 있어서,
상기 동작들은,
상기 적어도 하나의 사운드 피쳐의 비-타겟 키워드 상태에 대응하는 제 1 메트릭을 결정하는 것; 및
상기 제 1 메트릭을 상기 입력 사운드 스트림에 기초하는 제 2 메트릭과 비교하는 것으로서, 상기 적어도 하나의 사운드 피쳐는 상기 비교의 결과에 기초하여 상기 비-타겟 키워드를 나타내도록 결정되는, 상기 제 1 메트릭을 제 2 메트릭과 비교하는 것을 더 포함하는, 비일시적 컴퓨터-판독가능 저장 매체.
제 27 항에 있어서,
상기 제 2 메트릭은 상기 적어도 하나의 사운드 피쳐의 타겟 키워드 상태에 대응하는, 비일시적 컴퓨터-판독가능 저장 매체.
타겟 키워드에 의해 음성 활성화를 제어하기 위한 모바일 디바이스로서,
입력 사운드 스트림을 수신하는 수단;
상기 입력 사운드 스트림이 스피치를 나타내는지 여부를 결정하는 수단;
상기 입력 사운드 스트림이 스피치를 나타내는 경우 상기 타겟 키워드를 검출하기 위해 상기 결정하는 수단이 추출하는 수단을 활성화시킨 후에 상기 입력 사운드 스트림으로부터 적어도 하나의 사운드 피쳐를 추출하는 수단; 및
상기 적어도 하나의 사운드 피쳐가 비-타겟 키워드를 나타내는 경우 상기 추출하는 수단을 비활성화시키는 수단을 포함하는, 타겟 키워드에 의해 음성 활성화를 제어하기 위한 모바일 디바이스.
제 29 항에 있어서,
상기 적어도 하나의 사운드 피쳐로부터 키워드 스코어 및 비-키워드 스코어를 결정하는 수단을 더 포함하는, 타겟 키워드에 의해 음성 활성화를 제어하기 위한 모바일 디바이스.