KR20160145766A

KR20160145766A - 스피치 입력에 의해 애플리케이션을 활성화하는 방법 및 장치

Info

Publication number: KR20160145766A
Application number: KR1020167032299A
Authority: KR
Inventors: 태수 김; 민섭 이
Original assignee: 퀄컴 인코포레이티드
Priority date: 2014-04-21
Filing date: 2015-04-02
Publication date: 2016-12-20
Also published as: JP2017520012A; ES2818085T3; CN106233376A; EP3726526A1; EP3134896A1; EP3134896B1; WO2015164047A1; US10770075B2; BR112016024417A2; CN106233376B; US20150302855A1

Abstract

목표 애플리케이션을 활성화하기 위한, 전자 디바이스에서 수행되는 방법이 개시된다. 방법은 목표 애플리케이션을 활성화하기 위한 활성화 키워드 및 목표 애플리케이션의 기능을 나타내는 스피치 커맨드를 포함하는 입력 사운드 스트림을 수신하는 단계를 포함할 수도 있다. 방법은 또한 입력 사운드 스트림으로부터 활성화 키워드를 검출할 수도 있다. 활성화 키워드가 검출되는 경우, 스피치 커맨드의 적어도 일부를 포함하는 입력 사운드 스트림의 부분은 버퍼 메모리에 버퍼링될 수도 있다. 또, 활성화 키워드를 검출하는 것에 응답하여, 목표 애플리케이션은 목표 애플리케이션의 기능을 수행하기 위해 활성화될 수도 있다.

Description

스피치 입력에 의해 애플리케이션을 활성화하는 방법 및 장치{METHOD AND APPARATUS FOR ACTIVATING APPLICATION BY SPEECH INPUT}

본 출원은 2014년 4월 21일자로 출원된, 발명의 명칭이 "METHOD AND APPARATUS FOR ACTIVATING APPLICATION BY SPEECH INPUT" 인 미국 출원 제 14/257,814 호로부터 우선권을 주장하며, 그것의 전체 내용이 참조에 의해 포함된다.

본 개시는 일반적으로 전자 디바이스에서 애플리케이션을 활성화하는 것에 관한 것으로서, 특히 스피치 입력을 저장함으로써 기능을 수행하는 전자 디바이스에서 애플리케이션을 활성화하는 것에 관한 것이다.

최근에, 스마트폰들, 태블릿 컴퓨터들, 및 착용가능 컴퓨터들과 같은 전자 디바이스들의 사용이 소비자들 사이에 증가해왔다. 이들 디바이스들은 데이터 프로세싱 및 통신, 음성 통신, 인터넷 브라우저, 멀티미디어 플레이어, 게임 플레이어 등과 같은 다양한 능력들을 제공할 수도 있다. 또, 그러한 전자 디바이스들은 사용자들을 위해 여러 기능들을 수행할 수 있는 다양한 애플리케이션들을 포함할 수도 있다.

사용자의 편의를 위해, 종래의 전자 디바이스들은 종종 사용자들로부터 스피치를 인식하기 위해 스피치 인식 기능을 포함한다. 그러한 전자 디바이스들에서, 사용자는 터치 스크린 또는 키보드와 같은 I/O 디바이스르 통해 수동으로 네비게이팅하는 대신에 특정된 기능을 수행하기 위한 음성 커맨드를 스피킹할 수도 있다. 사용자로부터의 음성 커맨드는 그 후 인식될 수도 있고 특정된 기능이 전자 디바이스들에서 수행될 수도 있다.

스피치 인식 기능이 구비된 종래의 전자 디바이스들에서, 사용자는 통상적으로 후속하는 음성 커맨드를 인식하고 그 음성 커맨드와 연관된 기능을 수행할 수 있는 스피치 프로세싱 애플리케이션을 개시하기 위해 미리 결정된 키워드를 스피킹한다. 예를 들어, 사용자는 스피치 프로세싱 애플리케이션을 개시하고 애플리케이션이 로딩되기를 대기하기 위해 미리 결정된 키워드를 스피킹할 수도 있다. 애플리케이션이 로딩된 후, 사용자는 수행될 애플리케이션의 기능 (예를 들어, 인터넷 검색) 을 특정하는 음성 커맨드를 스피킹할 수도 있다. 키워드를 인식하고 애플리케이션을 로드하기 위해 필요한 시간은 사용자에 의해 음성 커맨드를 스피킹하는데 있어서 지연을 야기하기 때문에, 전자 디바이스에서 기능을 수행하기 위해 동시에 키워드 및 음성 커맨드를 사용하는 것은 사용자에게 그다지 편리하지 않을 수도 있다.

일부 경우들에서, 스피치 인식 기능이 구비된 전자 디바이스는 애플리케이션을 우연히 개시할 수도 있다. 예를 들어, 사용자는 연관된 애플리케이션을 개시하는 것을 의도하지 않고 다른 사람과 대화나 토의의 부분으로서 키워드를 스피킹할 수도 있다. 그럼에도 불구하고, 전자 디바이스는 사용자에 의해 스피킹된 키워드를 인식하고 애플리케이션을 개시할 수도 있다. 따라서, 사용자는 애플리케이션을 수동으로 종료할 필요가 있을 수도 있고, 이것에 의해 사용자 불편을 야기할 수도 있다. 한편, 사용자가 애플리케이션의 개시를 알아차리지 않은 경우, 애플리케이션은 전자 디바이스 상에서 계속 실행할 수도 있다.

본 개시는 스피치 커맨드와 연관되는 목표 애플리케이션의 기능을 수행하기 위해 활성화 키워드를 검추하는 것에 응답하여 목표 애플리케이션을 활성화하는 방법들 및 장치들을 제공한다.

본 개시의 하나의 양태에 따르면, 목표 애플리케이션을 활성화하기 위한, 전자 디바이스에서 수행되는 방법이 개시된다. 방법은 목표 애플리케이션을 활성화하기 위한 활성화 키워드 및 목표 애플리케이션의 기능을 나타내는 스피치 커맨드를 포함하는 입력 사운드 스트림을 수신하는 단계를 포함할 수도 있다. 방법은 또한 입력 사운드 스트림으로부터 활성화 키워드를 검출할 수도 있다. 활성화 키워드가 검출되는 경우, 스피치 커맨드의 적어도 일부를 포함하는 입력 사운드 스트림의 일부는 버퍼 메모리에 버퍼링될 수도 있다. 또, 활성화 키워드를 검출하는 것에 응답하여, 목표 애플리케이션은 목표 애플리케이션의 기능을 수행하기 위해 활성화될 수도 있다. 본 개시는 또한 이러한 방법과 관련된 장치, 디바이스, 시스템, 수단의 조합, 및 컴퓨터 판독가능 매체를 기술한다.

본 개시의 다른 양태에 따르면, 목표 애플리케이션을 활성화하기 위한 전자 디바이스가 개시된다. 전자 디바이스는 목표 애플리케이션을 활성화하기 위한 활성화 키워드 및 목표 애플리케이션의 기능을 나타내는 스피치 커맨드를 포함하는 입력 사운드 스트림을 수신하도록 구성된 사운드 센서를 포함할 수도 있다. 전자 디바이스는 또한 입력 사운드 스트림으로부터 활성화 키워드를 검출하고, 목표 애플리케이션의 기능을 수행하기 위해 활성화 키워드를 검출하는 것에 응답하여, 목표 애플리케이션을 활성화하도록 구성된 음성 활성화 유닛을 포함할 수도 있다. 전자 디바이스 내의 버퍼 메모리는, 활성화 키워드가 검출되는 경우, 스피치 커맨드의 적어도 일부를 포함하는 입력 사운드 스트림의 일부를 저장하도록 구성될 수도 있다.

본 개시의 발명의 양태들의 실시형태들은 첨부하는 도면들과 함께 읽을 때 다음의 상세한 설명을 참조하여 이해될 것이다.
도 1 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림에서의 활성화 키워드에 응답하여 음성 어시스턴트 애플리케이션을 활성화하는 이동 디바이스를 도시한다.
도 2 는 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림에서 활성화 키워드를 검출하는 때에 스피치 커맨드를 포함하는 입력 사운드 스트림의 부분을 버퍼링함으로써 음성 어시스턴트 애플리케이션을 활성화하도록 구성된 전자 디바이스의 블록도를 도시한다.
도 3 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림을 버퍼링하기 위한 복수의 버퍼 유닛들을 포함하는 전자 디바이스 내의 버퍼 메모리의 상세 블록도를 도시한다.
도 4 는 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림의 버퍼링된 부분에 기초하여 음성 어시스턴트 애플리케이션을 활성화할지 여부를 확인하도록 구성되는 전자 디바이스 내의 음성 활성화 유닛의 상세 블록도를 도시한다.
도 5 는 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림에서 활성화 키워드를 검출하는 때에 스피치 커맨드를 포함하는 입력 사운드 스트림의 부분을 버퍼링함으로써 음성 어시스턴트 애플리케이션을 활성화하는 방법의 플로우챠트를 도시한다.
도 6 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림에서 활성화 키워드가 검출될 때 스피치 커맨드를 포함하는 입력 사운드 스트림의 부분을 버퍼링하는 타이밍도이다.
도 7 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림으로부터의 활성화 키워드 및 입력 사운드 스트림에서의 활성화 키워드의 종료를 검출하기 위해 결정되는 입력 사운드 스트림의 키워드 스코어에서의 변경을 도시하는 그래프이다.
도 8 은 본 개시의 하나의 실시형태에 따른, 음성 어시스턴트 애플리케이션을 활성화할지 여부를 확인하는 것에 응답하여 음성 어시스턴트 애플리케이션을 활성화하는 타이밍도이다.
도 9 는 본 개시의 하나의 실시형태에 따른, 제 1 검출 임계값 스코어에 기초하여 음성 어시스턴트 애플리케이션을 로딩하는 것 및 제 2 검출 임계값 스코어에 기초하여 음성 어시스턴트 애플리케이션 (262) 의 로딩을 확인하는 것을 위해 결정되는 입력 사운드 스트림의 키워드 스코어에서의 변경을 도시하는 그래프이다.
도 10 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림에서 활성화 키워드를 검출하는 것에 응답하여 웹 브라우저 애플리케이션을 활성화하는 이동 디바이스를 도시한다.
도 11 은 본 개시의 하나의 실시형태에 따른, 전자 디바이스 내의 확인 센서에 의해 생성된 센서 데이터에 기초하여 웹 브라우저 애플리케이션을 활성화하도록 구성된 전자 디바이스의 블록도를 도시한다.
도 12 는 본 개시의 하나의 실시형태에 따른, 활성화 키워드를 검출함으로써 목표 애플리케이션을 활성화하는 것 및 전자 디바이스의 콘텍스트를 나타내는 센서 데이터에 기초하여 목표 애플리케이션을 활성화할지 여부를 확인하는 것을 위한 방법의 플로우챠트를 도시한다.
도 13 은 활성화 키워드를 검출하는 때에 목표 애플리케이션을 활성화하는 방법들 및 장치들이 본 개시의 일부 실시형태에 따라 구현되는 예시의 전자 디바이스의 블록도이다.

이제 첨부하는 도면들에서 도시되는 여러 실시형태들, 예들에 대한 참조가 상세히 행해질 것이다. 다음의 상세한 설명에서, 다수의 특정의 상세들은 본 주제의 철저한 이해를 제공하기 위해 진술된다. 그러나, 본 기술분야의 통상의 기술자에게는 본 주제가 이들 특정의 상세들 없이 실시될 수도 있다는 것이 분명할 것이다. 다른 예들에서, 잘 알려진 방법들, 절차들, 시스템들, 및 컴포넌트들은 여러 실시형태들의 양태들을 불필요하게 모호하게 하지 않도록 상세히 기술되지 않았다.

도 1 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림에서의 활성화 키워드에 응답하여 음성 어시스턴트 애플리케이션 (130) 을 활성화하는 이동 디바이스 (120) 를 도시한다. 처음에, 이동 디바이스 (120) 는 이동 디바이스 (120) 내의 음성 어시스턴트 애플리케이션 (130) 과 같은 애플리케이션을 활성화하기 위한 활성화 키워드를 저장할 수도 있다. 도시된 실시형태에서, 사용자 (110) 가 이동 디바이스 (120) 에게 "음성 어시스턴트 시작" 과 같은 활성화 키워드를 스피킹하는 경우, 이동 디바이스 (120) 는 입력 사운드 스트림을 캡쳐하고 그 입력 사운드 스트림에서 활성화 키워드를 검출할 수도 있다. 여기서 사용된 바와 같은, 용어 "사운드 스트림" 은 하나 이상의 사운드 신호들 또는 사운드 데이터의 시퀀스를 지칭할 수도 있고, 아날로그, 디지털, 및 음향 신호들 또는 데이터를 포함할 수도 있다.

활성화 키워드를 검출하는 때에, 이동 디바이스 (120) 는 이동 디바이스 (120) 의 버퍼 메모리에서 입력 사운드 스트림의 부분을 버퍼링할 수도 있다. 예를 들어, 사용자 (110) 는 음성 어시스턴트 애플리케이션 (130) 의 기능과 연관된 스피치 커맨드를 스피킹할 수도 있다. 음성 어시스턴트 애플리케이션 (130) 은 인터넷 상에서 검색을 수행하는 것, 알람들을 설정하는 것, 스케쥴들을 관리하는 것 등과 같은 임의의 적합한 수의 기능들을 수행하도록 구성될 수도 있고, 이들 각각은 스피치 커맨드와 연관될 수도 있다. 도시된 실시형태에서, 사용자 (110) 는 스피치 커맨드로서 "오늘 날씨는 어떤가요" 라고 스피킹하고, 입력 사운드 스트림에서의 스피치 커맨드의 적어도 일부는 버퍼 메모리에 버퍼링될 수도 있다.

일단 스피치 커맨드의 적어도 일부를 포함하는 입력 사운드 스트림의 부분이 버퍼링되면, 이동 디바이스 (120) 는 도 4 를 참조하여 더욱 상세히 이하에 기술되는 바와 같이, 입력 사운드 스트림의 버퍼링된 부분에 기초하여 음성 어시스턴트 애플리케이션 (130) 을 활성화할지 여부를 확인할 수도 있다. 예를 들어, 이동 디바이스 (120) 는 입력 사운드 스트림의 버퍼링된 부분의 신호대 잡음비 (SNR) 및/또는 스피치 특징들에 기초하여 음성 어시스턴트 애플리케이션 (130) 을 활성화할지 여부를 확인할 수도 있다. 음성 어시스턴트 애플리케이션 (130) 의 활성화가 입력 사운드 스트림의 버퍼링된 부분에 기초하여 확인되지 않는 경우, 이동 디바이스 (120) 는 활성화 키워드를 검출하기 위해 다음의 입력 사운드 스트림을 수신하도록 진행할 수도 있다.

한편, 음성 어시스턴트 애플리케이션 (130) 의 활성화가 확인되는 경우, 이동 디바이스 (120) 는 입력 사운드 스트림의 버퍼링된 부분에서 스피치 커맨드를 인식하기 위해 음성 어시스턴트 애플리케이션 (130) 을 활성화할 수도 있다. 도시된 실시형태에서, 음성 어시스턴트 애플리케이션 (130) 은 입력 사운드 스트림의 버퍼링된 부분으로부터 스피치 커맨드 "오늘 날씨는 어떤가요" 를 인식할 수도 있다. 그 스피치 커맨드를 인식한 때에, 음성 어시스턴트 애플리케이션 (130) 은 인터넷을 통해 날씨에 대한 검색 기능을 수행하고 사용자 (110) 를 위해 날씨 정보를 디스플레이할 수도 있다. 일부 실시형태들에서, 이동 디바이스 (120) 는 사용자의 입력 사운드로부터 활성화 키워드들을 검출하는데 사용하기 위한 복수의 활성화 키워드들을 저장할 수도 있다. 이러한 경우에, 활성화 키워드들 각각은 이동 디바이스 (120) 에서 활성화 키워드와 연관된 애플리케이션을 활성화하도록 구성될 수도 있다.

도 2 는 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림에서 활성화 키워드를 검출한 때에 스피치 커맨드를 포함하는 입력 사운드 스트림의 부분을 버퍼링함으로써 음성 어시스턴트 애플리케이션 (262) 을 활성화하도록 구성된 전자 디바이스 (200) 의 블록도를 도시한다. 여기서 사용된 바와 같이, 용어 "활성화 키워드" 는 이동 디바이스 (120) 에서 기능을 수행하기 위한 음성 어시스턴트 애플리케이션 (262) 을 나타내는 스피커로부터 말하여진 하나 이상의 단어들 또는 사운드를 지칭할 수도 있고, 용어 "스피치 커맨드" 는 음성 어시스턴트 애플리케이션 (262) 에 의해 수행될 수도 있는 기능을 나타내는 스피커로부터 말하여진 하나 이상의 단어들 또는 사운드를 지칭할 수도 있다. 전자 디바이스 (200) 는 사운드 센서 (210), I/O (입력/출력) 유닛 (220), 통신 유닛 (230), 프로세서 (240), 및 스토리지 유닛 (260) 을 포함할 수도 있다. 전자 디바이스 (200) 는 셀룰러 폰, 스마트폰 (예를 들어, 이동 디바이스 (120)), 개인용 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 텔레비젼, 게이밍 디바이스, 멀티미디어 플레이어, 스마트 안경, 착용가능 컴퓨터 등과 같은 사운드 캡쳐링 및 프로세싱 능력들이 구비된 임의의 적합한 디바이스일 수도 있다.

프로세서 (240) 는 전자 디바이스 (200) 를 관리하고 동작시키는 애플리케이션 프로세서 (AP), 중앙 프로세싱 유닛 (CPU), 또는 마이크로프로세서 유닛 (MPU) 일 수도 있고, 디지털 신호 프로세서 (DSP) (250) 를 포함할 수도 있다. DSP (250) 는 음성 활성화 유닛 (252) 및 버퍼 메모리 (254) 를 포함할 수도 있다. 하나의 실시형태에서, DSP (250) 는 사운드 스트림들을 프로세싱하는데 있어서의 전력 소비를 감소시키는 저전력 프로세서일 수도 있다. 이러한 구성에서, DSP (250) 내의 음성 활성화 유닛 (252) 은 입력 사운드 스트림 내의 활성화 키워드에 응답하여 스토리지 유닛 (260) 에 저장되는 음성 어시스턴트 애플리케이션 (262) 을 활성화하도록 구성될 수도 있다. 하나의 실시형태에 따르면, 음성 활성화 유닛 (252) 은 음성 어시스턴트 애플리케이션 (262) 을 로딩 및 론칭함으로써 (도 2 에서 화살표로 표시된 바와 같이) 음성 어시스턴트 애플리케이션 (262) 을 차례로 활성화할 수도 있는 프로세서 (240) 를 활성화할 수도 있다. 음성 활성화 유닛 (252) 이 도시된 실시형태에서 음성 어시스턴트 애플리케이션 (262) 을 활성화하도록 구성될지라도, 그것은 또한 활성화 키워드와 연관될 수도 있는 전자 디바이스 (200) 의 임의의 기능 또는 애플리케이션을 활성화할 수도 있다.

사운드 센서 (210) 는 입력 사운드 스트림을 수신하고 DSP (250) 로 수신된 입력 사운드 스트림을 제공하도록 구성될 수도 있다. 사운드 센서 (210) 는 사운드를 수신, 캡쳐, 감지, 및/또는 검출하기 위해 사용될 수 있는 하나 이상의 마이크로폰들 또는 다른 타입들의 사운드 센서들을 포함할 수도 있다. 또, 사운드 센서 (210) 는 그러한 기능들을 수행하기 위한 임의의 적합한 소프트웨어 및/또는 하드웨어를 채용할 수도 있다.

전력 소비를 감소시키는 것을 위해, 사운드 센서 (210) 는 듀티 사이클에 따라 주기적으로 입력 사운드 스트림을 수신하도록 구성될 수도 있다. 예를 들어, 사운드 센서 (210) 는 입력 사운드 스트림이 그 시간의 10% (예를 들어, 200 ms 주기에서 20 ms) 에서 수신되도록 10% 듀티 사이클로 동작할 수도 있다. 이러한 경우에, 사운드 센서 (210) 는 입력 사운드 스트림의 수신된 부분이 미리 결정된 임계 사운드 강도를 초과하는지 여부를 결정함으로써 사운드를 검출할 수도 있다. 예를 들어, 입력 사운드 스트림의 수신된 부분의 사운드 강도가 결정되고 미리 결정된 임계 사운드 강도와 비교될 수도 있다. 수신된 부분의 사운드 강도가 임계 사운드 강도를 초과하는 경우, 사운드 센서 (210) 는 입력 사운드 스트림의 나머지 부분으 수신하는 것을 계속하기 위해 듀티 사이클 기능을 디스에이블할 수도 있다. 또, 사운드 센서 (210) 는 DSP (250) 를 활성화하고 DSP (250) 로 나머지 부분을 포함하는 입력 사운드 스트림의 수신된 부분을 제공할 수도 있다.

DSP (250) 가 사운드 센서 (210) 에 의해 활성화되는 경우, 음성 활성화 유닛 (252) 은 사운드 센서 (210) 로부터 입력 사운드 스트림을 계속해서 수신하고 음성 어시스턴트 애플리케이션 (262) 을 활성화하기 위해 수신된 입력 사운드 스트림에서 활성화 키워드 (예를 들어, "음성 어시스턴트 시작") 를 검출하도록 구성될 수도 있다. 활성화 키워드를 검출하기 위해, 음성 활성화 유닛 (252) 은 은닉 마르코프 모델 (HMM), 세미-마르코프 모델 (SMM), 또는 이들의 조합과 같은 마르코프 체인 모델에 기초하여 임의의 적합한 키워드 검출 방법들을 채용할 수도 있다.

하나의 실시형태에서, 스토리지 유닛 (260) 은 음성 어시스턴트 애플리케이션 (262) 을 활성화하고 음성 어시스턴트 애플리케이션 (262) 의 기능을 수행하기 위해 사용될 수도 있는 하나 이상의 활성화 키워드들 및 스피치 커맨드들을 위한 복수의 단어들을 저장할 수도 있다. 또, 스토리지 유닛 (260) 은 단어들의 복수의 부분들과 연관된 복수의 상태들에 대한 상태 정보를 저장할 수도 있다. 하나의 실시형태에 따르면, 활성화 키워드들 및 스피치 커맨드들을 위한 단어들 각각은 단음들, 음소들, 또는 이들의 서브유닛들과 같은 사운드의 복수의 기본 유닛들로 분할될 수도 있고, 단어들 각각의 복수의 부분들은 사운드의 기본 유닛들에 기초하여 생성될 수도 있다. 단어들 각각의 각 부분은 그 후 HMM, SMM, 또는 이들의 조합과 같은 마르코프 체인 모델 하에서 상태와 연관될 수도 있다.

스토리지 유닛 (260) 은 또한 프로세서 (240) 에 의해 액세스될 수 있는 음성 어시스턴트 애플리케이션 (262) 을 저장할 수도 있다. 스토리지 유닛 (260) 이 도시된 실시형태에서 음성 어시스턴트 애플리케이션 (262) 을 저장할지라도, 그것은 또한 프로세서 (240) 에 의해 실행될 수 있는 전자 디바이스 (200) 의 임의의 다른 애플리케이션들 또는 기능들을 저장할 수도 있다. 스토리지 유닛 (260) 은 RAM (Random Access Memory), ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), 플래시 메모리, 또는 SSD (Solid State Drive) 와같은 임의의 적합한 스토리지 또는 메모리 디바이스들을 사용하여 구현될 수도 있다.

활성화 키워드를 검출한 때에, 음성 활성화 유닛 (252) 은 DSP (250) 의 버퍼 메모리 (254) 에 사운드 센서 (210) 로부터 수신된 입력 사운드 스트림의 부분을 버퍼링 (또는 일시적으로 저장) 하도록 구성될 수도 있다. 버퍼 메모리 (254) 는 로컬 메모리 또는 캐시 메모리와 같은 프로세서 내의 임의의 적합한 스토리지 또는 메모리 스킴들을 사용하여 구현될 수도 있다. DSP (250) 가 도시된 실시형태에서 버퍼 메모리 (254) 를 포함하더라도, 버퍼 메모리 (254) 는 스토리지 유닛 (260) 내의 메모리 영역으로서 구현될 수도 있다. 일부 실시형태들에서, 버퍼 메모리 (254) 는 복수의 물리적 메모리 영역들 또는 복수의 논리적 메모리 영역들을 사용하여 구현될 수도 있다.

입력 사운드 스트림의 부분이 사운드 센서 (210) 로부터 수신됨에 따라, 음성 활성화 유닛 (252) 은 버퍼 메모리 (254) 에 스피치 커맨드의 적어도 일부를 버퍼링할 수도 있다. 예를 들어, 버퍼링된 부분은 음성 어시스턴트 애플리케이션 (262) 의 기능을 나타내는 스피치 커맨드 (예를 들어, "오늘 날씨는 어떤가요") 의 전부 또는 대부분을 포함할 수도 있다. 일부 실시형태들에서, 입력 사운드 스트림의 수신된 부분은 스피치 커맨드의 종료 (end) 이 검출될 때까지 버퍼 메모리 (254) 에 계속 버퍼링될 수도 있다.

버퍼 메모리 (254) 내의 입력 사운드 스트림의 버퍼링된 부분을 액세스할 때, 음성 활성화 유닛 (252) 은 활성화 키워드를 검출하는 것에 응답하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다. 예를 들어, 음성 어시스턴트 애플리케이션 (262) 은 입력 사운드 스트림의 버퍼링된 부분의 사운드 특징들에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다. 음성 어시스턴트 애플리케이션 (262) 의 활성화가 확인되는 경우, 음성 활성화 유닛 (252) 은 프로세서 (240) 를 활성화할 수도 있고, 그것은 차례로 스토리지 유닛 (260) 을 액세스함으로써 음성 어시스턴트 애플리케이션 (262) 을 활성화할 수도 있다.

일단 음성 어시스턴트 애플리케이션 (262) 이 음성 활성화 유닛 (252) 에 의해 활성화되면, 음성 어시스턴트 애플리케이션 (262) 은 HMM, SMM 등에 기초하여 임의의 적합한 스피치 인식 방법들을 사용하여 스피치 커맨드를 인식함으로써 음성 어시스턴트 기능을 수행할 수도 있다. 하나의 실시형태에서, 음성 어시스턴트 애플리케이션 (262) 은 버퍼 메모리 (254) 에 저장되는 입력 사운드 스트림의 버퍼링된 부분으로부터 스피치 커맨드를 인식할 수도 있다. 일부 실시형태들에서, 입력 사운드 스트림의 버퍼링된 부분은 버퍼 메모리 (254) 로부터 스토리지 유닛 (260) 또는 프로세서 (240) 내의 로컬 메모리 (도시하지 않음) 로 복사될 수도 있고, 이것은 스피치 커맨드를 인식하기 위해 활성화된 음성 어시스턴트 애플리케이션 (262) 에 의해 액세스될 수도 있다.

입력 사운드 스트림의 버퍼링된 부분으로부터 스피치 커맨드를 인식한 때에, 음성 어시스턴트 애플리케이션 (262) 은 그 인식된 스피치 커맨드와 연관된 기능을 수행할 수도 있다. 예를 들어, 인터넷 검색을 위한 스피치 커맨드가 수신되는 경우, 음성 어시스턴트 애플리케이션 (262) 은 네트워크 (270) 을 통해 통신 유닛 (230) 을 통해 웹 검색을 수행할 수도 있다. 이러한 경우에, 스피치 커맨드에 대한 검색 결과들은 I/O 유닛 (220) 의 디스플레이 스크린상에 출력될 수도 있다.

도 3 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림을 버퍼링하기 위한 복수의 버퍼 유닛들 (310 및 320) 을 포함하는 버퍼 메모리 (254) 의 상세 블록도를 도시한다. 버퍼 유닛들 (310 및 320) 은 버퍼 메모리 (254) 내의 물리적 또는 논리적 메모리 블록들로서 구현될 수도 있다. 버퍼 메모리 (254) 가 도시된 실시형태에서 2 개의 버퍼 유닛들 (310 및 320) 을 포함하더라도, 버퍼 메모리 (254) 는 임의의 적합한 수의 버퍼 유닛들을 포함할 수도 있다.

버퍼 유닛들 (310 및 320) 이 논리적 메모리 블록들로 구현되는 경우, 버퍼 유닛들 (310 및 320) 은 버퍼 유닛들 (310 및 320) 에 대한 임의의 적합한 정보 또는 데이터 (예를 들어, 수신된 입력 사운드 스트림의 부분) 가 버퍼링 (또는 저장) 될 수도 있는 물리적 메모리의 미리 결정된 메모리 어드레스 범위를 공유할 수도 있다. 이러한 경우에, 복수의 포인터들이 그 메모리 어드레스 범위 내에서 각각 복수의 어드레스들, 또는 데이터의 로케이션들을 참조하도록 할당될 수도 있다. 포인터가 버퍼 유닛 (310) 에 대해 버퍼링된 정보 또는 데이터를 참조하기 위해 할당될 수도 있는 반면, 상이한 포인터는 버퍼 유닛 (320) 에 대해 버퍼링된 정보 또는 데이터를 참조하기 위해 할당될 수도 있다. 대안적으로, 동일한 메모리 어드레스가 버퍼 유닛들 (310 및 320) 에 저장된 상이한 데이터를 참조하기 위해 할당될 수도 있고, 미리 결정된 데이터 관리 동작이 버퍼 유닛들 (310 및 320) 각각에 대해 데이터를 저장, 유지, 액세스, 및/또는 취출하기 위해 수행될 수도 있다.

입력 사운드 스트림이 수신됨에 따라, 사운드 센서 (210) 는 버퍼 유닛 (310) 에 입력 사운드 스트림을 버퍼링하기를 시작할 수도 있는 DSP (250) 로 입력 사운드 스트림을 제공할 수도 있다. 버퍼 유닛 (310) 은 활성화 키워드를 검출함에 있어서 사용하기 위한 활성화 키워드의 적어도 일부를 포함하는 입력 사운드 스트림을 버퍼링 (또는 일시적으로 저장) 하도록 구성될 수도 있다. 버퍼 유닛 (310) 내의 입력 사운드 스트림의 버퍼링된 부분으로부터, 음성 활성화 유닛 (252) 은 활성화 키워드를 검출할 수도 있다. 활성화 키워드를 검출한 때에, DSP (250) 는 버퍼 유닛 (310) 에 입력 사운드 스트림을 버퍼링하기를 중단할 수도 있다.

활성화 키워드가 검출되는 경우, DSP (250) 는 사운드 센서 (210) 로부터 입력 사운드 스트림을 계속 수신하고 버퍼 유닛 (320) 에 입력 사운드 스트림을 버퍼링하기 시작할 수도 있다. 하나의 실시형태에서, DSP (250) 는 스피치 커맨드의 적어도 일부를 포함할 수도 있는 버퍼 유닛 (320) 에 입력 사운드 스트림의 부분을 수신 및 버퍼링 (또는 일시적으로 저장) 할 수도 있다. 입력 사운드 스트림이 버퍼 유닛 (320) 에 버퍼링됨에 따라, 음성 활성화 유닛 (252) 은 버퍼 유닛 (320) 에 입력 사운드 스트림의 버퍼링된 부분을 액세스하고 그 버퍼링된 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다.

도 4 는 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림의 버퍼링된 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인하도록 구성되는 전자 디바이스 (200) 의 음성 활성화 유닛 (252) 의 상세 블록도를 도시한다. 음성 활성화 유닛 (252) 은 키워드 검출 유닛 (410) 및 확인 유닛 (420) 을 포함할 수도 있다. 도시된 바와 같이, 음성 활성화 유닛 (252) 은 활성화 키워드를 검출하고 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인하기 위해 사운드 센서 (210) 로부터 입력 사운드 스트림을 수신할 수도 있다. 버퍼 메모리 (254) 는 활성화 키워드를 검출하고 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인함에 있어서 사용하기 위해 입력 사운드 스트림의 적어도 일부를 버퍼링할 수도 있다. 하나의 실시형태에서, 버퍼 메모리 (254) 는 도 3 을 참조하여 상술된 바와 같이, 각각 활성화 키워드의 적어도 일부 및 스피치 커맨드의 적어도 일부를 버퍼링하기 위한 버퍼 유닛들 (310 및 320) 을 포함할 수도 있다.

입력 사운드 스트림이 수신되고 버퍼 메모리 (254) 에 버퍼링됨에 따라, 음성 활성화 유닛 (252) 내의 키워드 검출 유닛 (410) 은 버퍼 메모리 (254) 를 액세스하고 HMM, SMM 등에 기초한 임의의 적합한 키워드 검출 방법들을 사용함으로써 입력 사운드 스트림의 버퍼링된 부분으로부터 활성화 키워드를 검출할 수도 있다. 일부 실시형태들에서, 입력 사운드 스트림이 수신 및 버퍼링됨에 따라, 키워드 검출 유닛 (410) 은 가우시안 혼합 모델 (GMM), 신경망, 서포트 벡터 머신 (SVM) 등과 같은 임의의 적합한 확률 모델들을 사용함으로써 입력 사운드 스트림의 버퍼링된 부분에 대한 복수의 키워드 스코어들을 결정할 수도 있다. 키워드 검출 유닛 (410) 은 키워드 스코어들 각각을 미리 결정된 검출 임계값 스코어와 비교할 수도 있고, 키워드 스코어들 중 하나가 그 검출 임계값 스코어를 초과하는 경우, 활성화 키워드가 입력 사운드 스트림의 버퍼링된 부분으로부터 검출될 수도 있다.

활성화 키워드를 검출한 때에, DSP (250) 는 사운드 센서 (210) 로부터 입력 사운드 스트림을 계속 수신하고 버퍼 메모리 (254) 에 수신된 입력 사운드 스트림을 버퍼링하기 시작할 수도 있다. 이러한 경우에, 버퍼 메모리 (254) 에 버퍼링되는 입력 사운드 스트림의 부분은 전자 디바이스 (200) 의 사용자로부터 스피치 커맨드의 적어도 일부를 포함할 수도 있다. 일부 실시형태들에서, DSP (250) 는 스피치 커맨드의 버퍼링된 부분으로부터 스피치 커맨드의 종료를 검출하고 버퍼 메모리 (254) 에 입력 사운드 스트림을 버퍼링하기를 종료할 수도 있다. 스피치 커맨드의 종료는 임의의 적합한 음성 활동 검출 (voice activity detection: VAD) 방법들을 사용함으로써 검출될 수도 있다. 하나의 실시형태에 따르면, 스피치 커맨드의 종료는 입력 사운드 스트림의 버퍼링된 부분의 사운드 강도를 분석함으로써 검출될 수도 있다. 예를 들어, 사운드 강도가 미리 결정된 강도 값 아래로 감소하는 경우, 스피치 커맨드의 종료가 검출될 수도 있다. 추가적으로 또는 대안적으로, 스피치 커맨드의 종료는 사운드 강도에서의 급격한 감소 (예를 들어, 사운드 강도의 변경에서의 에지) 가 검출될 때 검출될 수도 있다. 스피치 커맨드의 종료를 검출한 때에, DSP (250) 는 음성 활성화 유닛 (252) 내의 확인 유닛 (420) 에게 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인하도록 명령할 수도 있다.

스피치 커맨드의 종료가 검출되는 경우, 확인 유닛 (420) 은 버퍼 메모리 (254) 내에 버퍼링된 스피치 커맨드의 적어도 일부를 포함하는 입력 사운드 스트림의 부분을 액세스하고 버퍼링된 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다. 하나의 실시형태에서, 확인 유닛 (420) 은 GMM-기반 분류기, 신경망, HMM, 그래픽적 모델, SVM 기법 등과 같은 임의의 적합한 사운드 분류 방법들을 사용함으로써 입력 사운드 스트림의 버퍼링된 부분이 스피치를 포함하는지 여부를 결정할 수도 있다. 입력 사운드 스트림의 버퍼링된 부분이 스피치를 포함한다고 결정되는 경우, 확인 유닛 (420) 은 음성 어시스턴트 애플리케이션 (262) 의 활성화를 확인할 수도 있다.

하나의 실시형태에서, 확인 유닛 (420) 은 또한 입력 사운드 스트림의 버퍼링된 부분 내의 스피치가 활성화 키워드의 스피커를 나타내는지 여부를 결정할 수도 있다. 이러한 경우에, 사운드 피쳐들 및/또는 오디오 핑거프린트들과 같은 사운드 특징들은 활성화 키워드 및 입력 사운드 스트림의 버퍼링된 부분 내의 스피치로부터 추출될 수도 있다. 활성화 키워드로부터의 사운드 특징들은 그 후 스피치 커맨드로부터의 사운드 특징들과 비교될 수도 있고, 사운드 특징들이 동일하거나 유사한 것으로 결정되는 경우, 음성 어시스턴트 애플리케이션 (262) 의 활성화가 확인될 수도 있다.

다른 실시형태에서, 확인 유닛 (420) 은 스피치 커맨드의 부분을 VHG마하는 입력 사운드 스트림의 버퍼링된 부분의 신호대 잡음비 (SNR) 를 결정할 수도 있다. 이러한 경우에, 버퍼링된 부분의 SNR 이 미리 결정된 임계 SNR 보다 큰 것으로 결정되는 경우, 확인 유닛 (420) 은 음성 어시스턴트 애플리케이션 (262) 의 활성화를 확인할 수도 있다. 상기 실시형태들에서, 확인 유닛 (420) 은 스피치 커맨드의 종료가 검출되기 전후에 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인하기 위해 버퍼 메모리 (254) 에 액세스할 수도 있다.

일부 실시형태들에 따르면, 스피치 커맨드는 활성화 키워드를 취소하는 것을 나타내는 하나 이상의 미리 결정된 단어들 (예를 들어, "CANCEL", "NEVER MIND", 및 "FORGET IT") 을 포함할 수도 있다. 예를 들어, 전자 디바이스 (200) 근처의 사람 또는 사용자는 우연히 또는 의도하지 않게 활성화 키워드 (예를 들어, "음성 어시스턴트 시작") 를 스피킹할 수도 있고, 전자 디바이스 (200) 근처의 그 사람 또는 그 사용자는 음성 어시스턴트 애플리케이션 (262) 의 활성화를 회피하기 위해 그러한 미리 결정된 단어들을 스피킹함으로써 활성화 키워드를 취소할 수도 있다. 하나 이상의 취소 단어들은 또한 취소 커맨드로서 지칭될 수도 있다. 하나 이상의 취소 단어들을 포함하는 입력 사운드 스트림이 수신되고 버퍼 메모리 (254) 에 버퍼링됨에 따라, 확인 유닛 (420) 은 그 취소 단어들을 포함하는 버퍼링된 입력 사운드 스트림을 액세스하고, 그 버퍼링된 입력 사운드 스트림이 그러한 미리 결정된 단어들을 포함하는지 여부를 결정할 수도 있다. 버퍼링된 입력 사운드 스트림이 활성화 키워드를 취소하는 것을 나타내는 임의의 미리 결정된 단어들을 포함한다고 결정되는 경우, 전자 디바이스 (200) 는 음성 어시스턴트 애플리케이션 (262) 을 활성화하지 않고 활성화 키워드를 검출하기 위해 다음의 입력 사운드 스트림을 수신하도록 진행할 수도 있다. 한편, 버퍼링된 입력 사운드 스트림이 그러한 취소 단어들을 포함하지 않는다고 결정되는 경우, 스피커 또는 사용자가 의도적으로 활성화 키워드를 스피킹했다고 추론될 수도 있고, 확인 유닛 (420) 은 음성 어시스턴트 애플리케이션 (262) 의 활성화를 확인할 수도 있다.

도 5 는 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림에서 활성화 키워드를 검출한 때에 스피치 커맨드를 포함하는 입력 사운드 스트림의 부분을 버퍼링함으로써 음성 어시스턴트 애플리케이션 (262) 을 활성화하는 방법 (500) 의 플로우챠트를 도시한다. 전자 디바이스 (200) 는 510 에서 음성 어시스턴트 애플리케이션 (262) 을 활성화하는 활성화 키워드 및 음성 어시스턴트 애플리케이션 (262) 의 기능을 나타내는 스피치 커맨드를 포함하는 입력 사운드 스트림을 수신할 수도 있다. 예를 들어, 활성화 키워드는 "음성 어시스턴트 시작" 일 수도 있고, 스피치 커맨드는 "오늘 날씨는 어떤가요" 일 수도 있다.

하나의 실시형태에서, 활성화 키워드의 적어도 일부를 포함하는 수신된 입력 사운드 스트림의 부분은 버퍼 메모리 (254) 의 버퍼 유닛 (310) 에 버퍼링될 수도 있다. 전자 디바이스 (200) 의 DSP (250) 내의 음성 활성화 유닛 (252) 은 520 에서 버퍼 유닛 (310) 에 버퍼링된 입력 사운드 스트림의 부분으로부터 활성화 키워드를 검출할 수도 있다. 활성화 키워드가 검출되는 경우, 전자 디바이스 (200) 는 530 에서 버퍼 메모리 (254) 의 버퍼 유닛 (320) 에 입력 사운드 스트림의 일부를 버퍼링할 수도 있다. 버퍼 유닛 (320) 에 버퍼링된 입력 사운드 스트림의 부분은 스피치 커맨드의 적어도 일부를 포함할 수도 있다.

전자 디바이스 (200) 는 540 에서 활성화 키워드와 연관된 음성 어시스턴트 애플리케이션 (262) 을 활성화할 수도 있다. 하나의 실시형태에 따르면, 음성 활성화 유닛 (252) 은 버퍼 유닛 (320) 에 버퍼링된 입력 사운드 스트림의 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다. 이러한 실시형태에서, 음성 활성화 유닛 (252) 은 음성 어시스턴트 애플리케이션 (262) 의 활성화가 확인되는 경우 음성 어시스턴트 애플리케이션 (262) 을 활성화할 수도 있다. 일단 음성 어시스턴트 애플리케이션 (262) 이 활성화되면, 버퍼 유닛 (320) 에 버퍼링된 입력 사운드 스트림의 부분은 그 버퍼링된 부분으로부터 스피치 커맨드를 인식하고 인식된 스피치 커맨드와 연관된 음성 어시스턴트 애플리케이션 (262) 의 기능을 수행하기 위해 음성 어시스턴트 애플리케이션 (262) 에 의해 액세스될 수도 있다.

도 6 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림 (610) 에서 활성화 키워드 (620) 가 검출될 때 스피치 커맨드 (630) 를 포함하는 입력 사운드 스트림 (610) 의 부분 (642, 644, 또는 646) 을 버퍼링하는 타이밍도 (600) 이다. 도시된 바와 같이, 전자 디바이스 (200) 는 활성화 키워드 (620) 및 스피치 커맨드 (630) 를 포함하는 입력 사운드 스트림 (610) 을 수신할 수도 있다. 타이밍도 (600) 에서, 입력 사운드 스트림 (610) 내의 활성화 키워드 (620) 는 시간 (T₁) 으로부터 시간 (T₂) 까지 수신될 수도 있다. 따라서, 시간 (T₁) 및 시간 (T₂) 은 입력 사운드 스트림 (610) 내의 활성화 키워드 (620) 의, 각각, 시작 및 종료에 대응할 수도 있다. 후속적으로, 입력 사운드 스트림 (610) 내의 스피치 커맨드 (630) 는 시간 (T₃) 으로부터 시간 (T₄) 까지 수신될 수도 있다. 이러한 경우에, 시간 (T₃) 및 시간 (T₄) 은 입력 사운드 스트림 (610) 내의 스피치 커맨드 (630) 의, 각각, 시작 및 종료에 대응할 수도 있다.

입력 사운드 스트림 (610) 은 전자 디바이스 (200) 내의 사운드 센서 (210) 에 의해 수신되고, 활성화 키워드 (620) 를 검출하고 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인하기 위해 DSP (250) 로 제공될 수도 있다. 하나의 실시형태에서, 전자 디바이스 (200) 의 사운드 센서 (210) 는 입력 사운드 스트림 (610) 이 듀티 사이클에 기초하여 미리 결정된 사운드 강도를 초과하는 사운드를 포함하는지 여부를 결정하도록 구성될 수도 있다. 이러한 경우에, 수신된 입력 사운드 스트림 (610) 이 미리 결정된 사운드 강도를 초과하는 사운드를 포함한다고 결정되는 경우, 사운드 센서 (210) 의 듀티 사이클 기능은 사운드 센서 (210) 가 입력 사운드 스트림 (610) 을 계속해서 수신하고 DSP (250) 로 제공할 수 있도록 디스에이블될 수도 있다 (즉, 100% 듀티 사이클).

입력 사운드 스트림 (610) 이 사운드 센서 (210) 로부터 수신됨에 따라, DSP (250) 는 버퍼 메모리 (254) 의 버퍼 유닛 (310) 에 수신된 입력 사운드 스트림 (610) 을 버퍼링하고 버퍼 유닛 (310) 에 버퍼링되는 입력 사운드 스트림 (610) 으로부터 활성화 키워드 (620) 를 검출할 수도 있다. 도 4 를 참조하여 상술된 바와 같이, DSP (250) 는 버퍼 유닛 (310) 내의 입력 사운드 스트림 (610) 의 버퍼링된 부분에 대한 복수의 키워드 스코어들을 결정하고 그 키워드 스코어들을 검출 임계값 스코어와 비교함으로써 활성화 키워드 (620) 를 검출할 수도 있다. 타이밍도 (600) 에서, 활성화 키워드 (620) 는 입력 사운드 스트림 (610) 에서의 전체 활성화 키워드 (620) 를 수신하기 전에 시간 (T_D) 에서 입력 사운드 스트림 (610) 의 버퍼링된 부분으로부터 검출될 수도 있다. 다른 실시형태들에서, 활성화 키워드 (620) 는 입력 사운드 스트림 (610) 에서의 전체 활성화 키워드 (620) 를 수신한 때에 시간 (T₂) 에서 검출될 수도 있다.

활성화 키워드 (620) 가 검출되는 경우, DSP (250) 는 버퍼 메모리 (254) 의 버퍼 유닛 (320) 에 사운드 센서 (210) 로부터 수신된 입력 사운드 스트림 (610) 을 버퍼링하기 시작할 수도 있다. 하나의 실시형태에서, DSP (250) 는 시간 (T_D) 에서 활성화 키워드를 검출한 때에 버퍼 유닛 (320) 에 입력 사운드 스트림 (610) 을 버퍼링하기 시작할 수도 있다. DSP (250) 는 스피치 커맨드 (630) 의 종료가 시간 (T₄) 에서 검출될 때까지 버퍼 유닛 (320) 에 입력 사운드 스트림 (610) 을 계속 버퍼링할 수도 있다. 결과로서, 입력 사운드 스트림 (610) 의 부분 (642) 은 시간 (T_D) 에서 부터 시간 (T₄) 까지의 주기 동안 버퍼 유닛 (320) 에 버퍼링될 수도 있다.

다른 실시형태에서, DSP (250) 는 시간 (T₂) 에서 음성 활성화 키워드의 종료를 검출한 때에 버퍼 유닛 (320) 에 입력 사운드 스트림 (610) 을 버퍼링하기 시작할 수도 있다. 예를 들어, DSP (250) 는 버퍼 유닛 (310) 내의 입력 사운드 스트림 (610) 의 버퍼링된 부분에 대한 복수의 키워드 스코어들을 결정하고 그 키워드 스코어들을 종료 임계값 스코어와 비교함으로써 활성화 키워드 (620) 의 종료를 검출할 수도 있으며, 이것은 도 7 을 참조하여 상세하게 이하에 기술될 것이다. 일부 실시형태들에서, DSP (250) 내의 음성 활성화 유닛 (252) 은 활성화 키워드 (620) 의 종료를 검출하도록 구성될 수도 있다. 입력 사운드 스트림 (610) 은 스피치 커맨드 (630) 의 종료가 시간 (T₄) 에서 검출될 때까지 버퍼링될 수도 있다. 이에 따라, 입력 사운드 스트림 (610) 의 부분 (644) 은 시간 (T₂) 에서 부터 시간 (T₄) 까지의 주기 동안 버퍼 유닛 (320) 에 버퍼링될 수도 있다.

일부 실시형태들에 따르면, DSP (250) 는 시간 (T₃) 에서 스피치 커맨드 (630) 의 시작을 검출한 때에 버퍼 유닛 (320) 에 입력 사운드 스트림 (610) 을 버퍼링하기 시작할 수도 있다. 이러한 경우, 시간 (T₂) 에서 활성화 키워드 (620) 의 종료를 검출한 후, DSP (250) 는 임의의 적합한 VAD 방법들을 사용함으로써 스피치 커맨드 (630) 의 시작을 검출할 수도 있다. 예를 들어, 시간 (T₂) 에서 활성화 키워드 (620) 의 종료를 검출한 후, DSP (250) 는 버퍼 유닛 (310) 에 시간 (T₂) 후에 수신되는 입력 사운드 스트림 (610) 을 버퍼링할 수도 있다. 입력 사운드 스트림 (610) 이 시간 (T₂) 후에 버퍼링되고 있음에 따라, DSP (250) 는 버퍼링된 입력 사운드 스트림 (610) 의 사운드 강도를 주기적으로 또는 비주기적으로 결정하고 그 사운드 강도를 미리 결정된 임계 사운드 강도와 비교할 수도 있다. 사운드 강도가 임계 사운드 강도를 초과하는 경우, DSP (250) 는 스피치 커맨드 (630) 의 시작을 검출할 수도 있다. 대안적으로 또는 추가적으로, 스피치 커맨드 (630) 의 종료는 사운드 강도에서의 급격한 증가 (예를 들어, 사운드 강도의 변경에서의 에지) 가 검출되는 경우 검출될 수도 있다. 예를 들어, 그러한 증가는 현재의 사운드 강도가 미리 결정된 사운드 강도보다 더 많이 이전의 사운드 강도보다 큰 경우에 검출될 수도 있다. 일부 실시형태들에서, DSP (250) 내의 음성 활성화 유닛 (252) 은 스피치 커맨드 (630) 의 시작을 검출하도록 구성될 수도 있다. 도시된 타이밍도 (600) 에서, 스피치 커맨드 (630) 의 시작이 시간 (T₃) 에서 검출되는 경우, DSP (250) 는 시간 (T₃) 에서부터 시간 (T₄) 까지의 주기 동안 버퍼 유닛 (320) 에 입력 사운드 스트림 (610) 의 부분 (646) 을 버퍼링할 수도 있다.

타이밍도 (600) 가 스피치 커맨드 (630) 의 종료가 검추될 때까지 버퍼 유닛 (310) 에 입력 사운드 스트림 (610) 의 부분 (642, 644, 또는 646) 을 버퍼링하는 것을 도시하지만, DSP (250) 는 도 8 을 참조하여 더 상세히 기술될 바와 같이, 스피치 커맨드 (630) 의 종료가 검출되기 전에 버퍼 유닛 (320) 에 입력 사운드 스트림 (610) 을 버퍼링하기를 종료할 수도 있다. 이에 따라, 버퍼 유닛 (320) 에 버퍼링된 입력 사운드 스트림 (610) 의 부분 (642, 644, 또는 646) 은 스피치 커맨드 (630) 의 적어도 일부를 포함할 수도 있다. 일단 입력 사운드 스트림 (610) 의 부분 (642, 644, 또는 646) 이 버퍼 유닛 (320) 에 버퍼링되면, 음성 활성화 유닛 (252) 은 입력 사운드 스트림 (610) 의 버퍼링된 부분 (642, 644, 또는 646) 에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다.

도 7 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림으로부터의 활성화 키워드 및 입력 사운드 스트림에서의 활성화 키워드의 종료를 검출하기 위해 결정되는 입력 사운드 스트림의 키워드 스코어에서의 변경을 도시하는 그래프이다. 입력 사운드 스트림은 전자 디바이스 (200) 내의 사운드 센서 (210) 에 의해 수신되고 DSP (250) 로 제공될 수도 있다. 입력 사운드 스트림이 사운드 센서 (210) 로부터 수신됨에 따라, DSP (250) 는 버퍼 메모리 (254) 의 버퍼 유닛 (310) 에 수신된 입력 사운드 스트림을 버퍼링할 수도 있다. 입력 사운드 스트림으로부터의 활성화 키워드 및 입력 사운드 스트림에서의 활성화 키워드의 종료를 검출하기 위해, DSP (250) 의 음성 활성화 유닛 (252) 내의 키워드 검출 유닛 (410) 은 버퍼 유닛 (310) 에 버퍼링된 입력 사운드 스트림에 대해 복수의 키워드 스코어들을 주기적으로 또는 비주기적으로 결정할 수도 있다.

하나의 실시형태에서, 입력 사운드 스트림이 수신 및 버퍼링됨에 따라, 키워드 검출 유닛 (410) 은 버퍼링된 입력 사운드 스트림으로부터 복수의 사운드 피쳐들 (예를 들어, 오디오 핑거프린트들 또는 MFCC (Mel-frequency cepstral coefficients) 벡터들) 을 순차적으로 추출할 수도 있다. 이러한 경우, 키워드 스코어는 HMM, SMM 등과 같은 마르코프 체인 모델에 기초하여 임의의 적합한 키워드 검출 방법들을 사용함으로써 사운드 피쳐들의 하나 이상에 대해 결정될 수도 있다. 입력 사운드 스트림 내의 활성화 키워드의 더 많은 부분이 수신 및 버퍼링됨에 따라, 키워드 스코어는 증가할 수도 있고, 활성화 키워드의 실질적으로 전체의 부분이 수신되는 경우 최대 키워드 스코어에 도달할 수도 있다. 도 7 에 도시된 예에서, 키워드 스코어는 입력 사운드 스트림 내의 활성화 키워드의 실질적으로 전체의 부분이 수신 및 버퍼링될 때 시간 (T_M) 에서 최대 키워드 스코어에 도달하고, 이후에는 감소한다.

키워드 스코어들 각각은 미리 결정된 검출 임계값 스코어와 비교될 수도 있다. 키워드 검출 유닛 (410) 은 키워드 스코어들 중 적어도 하나가 검출 임계값 스코어를 초과하는 경우 활성화 키워드를 검출할 수도 있다. 검출 임계값 스코어는 버퍼 유닛 (310) 에 버퍼링된 입력 사운드 스트림에 포함되는 활성화 키워드의 검출을 보장하기 위한 스코어를 나타낼 수도 있다. 일부 실시형태들에서, 검출 임계값 스코어는 활성화 키워드의 부분이 입력 사운드 스트림에 포함될 때 활성화 키워드가 검출되도록 설정될 수도 있다. 예를 들어, 활성화 키워드 "음성 어시스턴트 시작" 이 수신되고 있는 동안, 키워드 검출 유닛 (410) 은 버퍼 유닛 (310) 에 버퍼링되는 활성화 키워드의 제 1 부분, 예를 들어 "음성 어시스턴" 으로부터 활성화 키워드를 검출할 수도 있다. 다른 실시형태들에서, 검출 임계값 스코어는 전체 활성화 키워드가 입력 사운드 스트림에 포함되는 경우, 예를 들어, 활성화 키워드의 종료가 수신되는 경우 활성화 스코어가 검출되도록 설정될 수도 있다. 도 7 에 도시된 예에서, 검출 임계값 스코어는 활성화 키워드의 제 1 부분이 수신 및 버퍼링될 때 키워드 검출 유닛 (410) 이 시간 (T_D) 에서 활성화 키워드를 검출할 수 있도록 설정된다.

또, DSP (250) 는 입력 사운드 스트림 내의 활성화 키워드의 종료를 검출할 수도 있다. 활성화 키워드의 종료를 검출한 때에, DSP (250) 는 도 6 을 참조하여 상술된 바와 같은 버퍼 메모리 (254) 의 버퍼 유닛 (320) 에, 스피치 커맨드의 적어도 일부를 포함할 수도 있는, 입력 사운드 스트림의 부분을 버퍼링하기 시작할 수도 있다. 하나의 실시형태에서, 시간 (T_D) 에서 활성화 키워드를 검출한 후, DSP (250) 는 버퍼 메모리 (254) 의 버퍼 유닛 (310) 에, 사운드 센서 (210) 로부터 수신되는 입력 사운드 스트림을 계속 버퍼링할 수도 있다. DSP (250) 는 버퍼 유닛 (310) 에 버퍼링된 입력 사운드 스트림에 대해 결정된 키워드 스코어들 중 하나 이상에 기초하여 활성화 키워드의 종료를 검출할 수도 있다.

하나의 실시형태에서, DSP (250) 는 버퍼 유닛 (310) 에 버퍼링된 입력 사운드 스트림의 연속적인 부분들로부터 추출된 사운드 피쳐들에 기초하여 복수의 키워드 스코어들을 계산할 수도 있다. 또한, DSP (250) 는 활성화 키워드의 종료를 검추하기 위해 복수의 키워드 스코어들 중 최대 키워드 스코어를 결정할 수도 있다. 예를 들어, DSP (250) 는 최대 키워드 스코어에 대응하는 입력 사운드 스트림의 부분이 수신되는 시간으로부터 미리 결정된 시간 주기가 경과한 시간에 검출되도록 활성화 키워드의 종료를 결정할 수도 있다. 도 7 에 도시된 예에서, DSP (250) 는 최대 키워드 스코어가 시간 (T_M) 에서 수신된 입력 사운드 스트림의 부분에 대해 계산된 이래로 미리 결정된 시간 주기 (P) 가 경과한 시간 (T_E1) 에서 검출되도록 활성화 키워드의 종료를 결정할 수도 있다.

다른 실시형태에서, 최대 키워드 스코어를 결정한 후, DSP (250) 는 후속적으로 결정된 키워드 스코어들을 미리 결정된 종료 임계값 스코어와 비교함으로써 활성화 키워드의 종료를 검출할 수도 있다. 이러한 경우, 활성화 키워드의 종료는 후속적으로 결정된 키워드 스코어들 중 하나가 종료 임계값 스코어보다 낮은 것으로 결정되는 경우 검출될 수도 있다. 도 7 의 예에서, DSP (250) 는 시간 (T_M) 에서 수신된 입력 사운드 스트림의 부분에 대해 계산되는 최대 키워드 스코어를 결정하고, 그 후 시간 (T_E2) 에서 활성화 키워드의 종료를 검출하며, 이 때부터 키워드 스코어는 종료 임계값 스코어 아래에 있다.

도 8 은 본 개시의 하나의 실시형태에 따른, 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인하는 것에 응답하여 음성 어시스턴트 애플리케이션 (262) 을 활성화하는 타이밍도 (800) 이다. 도 6 에서의 타이밍도 (600) 과 유사하게, 전자 디바이스 (200) 는 활성화 키워드 (820) 및 스피치 커맨드 (830) 를 포함하는 입력 사운드 스트림 (810) 을 수신할 수도 있다. 타이밍도 (800) 에서, 입력 사운드 스트림 (810) 내의 활성화 키워드 (820) 는 시간 (T₁) 에서 시간 (T₂) 까지 수신될 수도 있다. 따라서, 시간 (T₁) 및 시간 (T₂) 은 입력 사운드 스트림 (810) 내의 활성화 키워드 (820) 의, 각각, 시작 및 종료에 대응할 수도 있다. 후속적으로, 입력 사운드 스트림 (810) 내의 스피치 커맨드 (830) 는 시간 (T₃) 에서 시간 (T₄) 까지 수신될 수도 있다. 따라서, 시간 (T₃) 및 시간 (T₄) 은 입력 사운드 스트림 (810) 내의 스피치 커맨드 (830) 의, 각각, 시작 및 종료에 대응할 수도 있다.

사운드 센서 (210) 가 입력 사운드 스트림 (810) 을 수신하고 프로세서 (240) 내의 DSP (250) 에 그 수신된 입력 사운드 스트림을 제공함에 따라, DSP (250) 는 버퍼 메모리 (254) 의 버퍼 유닛 (310) 에, 활성화 키워드 (820) 의 적어도 일부를 포함할 수도 있는, 입력 사운드 스트림 (810) 의 부분을 버퍼링할 수도 있다. 또한, DSP (250) 는 버퍼 메모리 (254) 의 버퍼 유닛 (320) 에, 스피치 커맨드 (830) 의 적어도 일부를 포함할 수도 있는, 입력 사운드 스트림 (810) 의 다른 부분을 버퍼링할 수도 있다. DSP (250) 는 스피치 커맨드 (830) 의 종료가 시간 (T₄) 에서 검출되는 경우 버퍼 유닛 (320) 에 입력 사운드 스트림 (810) 의 부분을 버퍼링하기를 종료할 수도 있다. DSP (250) 내의 음성 활성화 유닛 (252) 은 그 후 버퍼 유닛 (320) 에 버퍼링된 입력 사운드 스트림 (810) 의 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다. 음성 어시스턴트 애플리케이션 (262) 의 활성화가 확인되는 경우, 음성 활성화 유닛 (252) 은 음성 어시스턴트 애플리케이션 (262) 을 활성화할 수도 있다.

하나의 실시형태에서, DSP (250) 가 시간 (T₄) 에서 버퍼 유닛 (320) 에 입력 사운드 스트림 (810) 의 부분을 버퍼링하기를 종료하고, 음성 활성화 유닛 (252) 이 버퍼 유닛 (320) 내의 입력 사운드 스트림 (810) 의 버퍼링된 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 의 활성화를 확인하는 경우, 음성 활성화 유닛 (252) 은 차례로 (도 8 에서 화살표 (840) 로 표시된 바와 같이) 음성 어시스턴트 애플리케이션 (262) 을 로딩할 수도 있는 프로세서 (240) 를 활성화할 수도 있다. 일부 실시형태들에 따르면, 음성 어시스턴트 애플리케이션 (262) 은 스토리지 유닛 (260), 예를 들어, ROM, EEPROM, 또는 플래시 메모리에 초기에 저장될 수도 있다. 또한, 프로세서 (240) 는 프로세서 (240) 에 의해 빠르게 액세스될 수도 있는 일시적 메모리 (또는 작업 메모리), 예를 들어 캐시 메모리 또는 RAM 으로 그 저장된 음성 어시스턴트 애플리케이션 (262) 을 로딩할 수도 있다.

일단 음성 어시스턴트 애플리케이션 (262) 이 로딩되면, 프로세서 (240) 는 스피치 커맨드 (830) 를 인식하고, 인식된 스피치 커맨드 (830) 와 연관되는 음성 어시스턴트 애플리케이션 (262) 의 기능을 수행하기 위해 음성 어시스턴트 애플리케이션 (262) 을 론치한다. 프로세서 (240) 는 일시적 메모리에 로딩되는 음성 어시스턴트 애플리케이션 (262) 에서 코딩된 하나 이상의 명령들을 실행함으로써 음성 어시스턴트 애플리케이션 (262) 을 론치할 수도 있다. 또, 론치된 음성 어시스턴트 애플리케이션 (262) 의 현재의 상태는 전자 디바이스 (200) 의 사용자에게 디스플레이를 위해 I/O 유닛 (220) 에 의해 출력될 수도 있다.

다른 실시형태에서, 음성 활성화 유닛 (252) 은 (도 8 에서 화살표 (850) 로 표시된 바와 같이) 시간 (T_D) 에서 활성화 키워드 (820) 를 검출한 때에 음성 어시스턴트 애플리케이션 (262) 의 로딩을 시작하기 위해 프로세서 (240) 를 활성화할 수도 있다. 이러한 경우, DSP (250) 는 시간 (T₄) 에서 버퍼 유닛 (320) 에 입력 사운드 스트림 (810) 의 부분을 버퍼링하는 것을 종료하고, 그 후 버퍼 유닛 (320) 내의 입력 사운드 스트림 (810) 의 버퍼링된 부분에 기초하여 그 로딩된 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다. 음성 어시스턴트 애플리케이션 (262) 의 활성화가 확인되는 경우, 프로세서 (240) 는 음성 어시스턴트 애플리케이션 (262) 의 로딩이 완료된 후 음성 어시스턴트 애플리케이션 (262) 을 론치할 수도 있다.

상기 실시형태에서, 프로세서 (240) 에 의한 음성 어시스턴트 애플리케이션 (262) 의 로딩은 시간 (T_D) 에서 활성화 키워드 (820) 를 검출한 때에 시작할 수도 있고, DSP (250) 가 시간 (T₄) 에서 버퍼 유닛 (320) 에 입력 사운드 스트림 (810) 의 부분을 버퍼링하기를 종료하기 전에 완료될 수도 있다. 예를 들어, 도 8 에 도시된 바와 같이, 음성 어시스턴트 애플리케이션 (262) 의 로딩은 스피치 커맨드 (830) 의 종료가 시간 (T₄) 에서 검출되기 전에 시간 (T_L) 에서 완료될 수도 있다. 그러한 경우에, 음성 어시스턴트 애플리케이션 (262) 의 로딩은 음성 활성화 유닛 (252) 이 입력 사운드 스트림 (810) 의 버퍼링된 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인하기 전에 완료될 수도 있다. 이에 따라, 음성 어시스턴트 애플리케이션 (262) 의 활성화가 확인되는 경우, 프로세서 (240) 는 음성 어시스턴트 애플리케이션 (262) 이 로딩되기를 대기하지 않고 음성 어시스턴트 애플리케이션 (262) 을 론치할 수도 있다.

일부 실시형태들에 따르면, 프로세서 (240) 에 의한 음성 어시스턴트 애플리케이션 (262) 의 로딩이 스피치 커맨드 (830) 의 종료가 수신되기 전에 (예를 들어, 시간 (T_L) 에서) 완료되는 경우, DSP (250) 는 음성 어시스턴트 애플리케이션 (262) 의 로딩을 완료한 때에 버퍼 유닛 (320) 에 입력 사운드 스트림 (810) 의 부분을 버퍼링하기를 종료할 수도 있다. DSP (250) 가 버퍼 유닛 (320) 에 입력 사운드 스트림 (810) 의 부분을 버퍼링하기를 종료한 후, 프로세서 (240) 는 예를 들어 스토리지 유닛 (260) 에 사운드 센서 (210) 로부터 후속적으로 수신되는 입력 사운드 스트림 (810) 의 다른 부분을 버퍼링하기를 시작할 수도 있다. 결과로서, 버퍼 유닛 (320) 에 버퍼링된 입력 사운드 스트림 (810) 의 부분은 스피치 커맨드 (830) 의 제 1 부분을 포함할 수도 있고, 스토리지 유닛 (260) 에 버퍼링된 입력 사운드 스트림 (810) 의 부분은 그 제 1 부분에 후속하는 스피치 커맨드 (830) 의 제 2 부분을 포함할 수도 있다. 버퍼 유닛 (320) 및 스토리지 유닛 (260) 에 버퍼링된 입력 사운드 스트림 (810) 의 부분들은 스피치 커맨드 (830) 와 연관된 기능을 수행하기 위해 음성 어시스턴트 애플리케이션 (262) 에 의해 스피치 커맨드 (830) 를 인식하는데 있어서 사용될 수도 있다.

DSP (250) 가 버퍼 유닛 (320) 에 입력 사운드 스트림 (810) 의 부분을 버퍼링하기를 종료하는 경우, 음성 활성화 유닛 (252) 은 스피치 커맨드 (830) 의 제 1 부분을 포함하는 버퍼 유닛 (320) 에 버퍼링된 입력 사운드 스트림 (810) 의 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다. 음성 어시스턴트 애플리케이션 (262) 의 활성화가 확인되는 경우, 프로세서 (240) 는 버퍼 유닛 (320) 및 스토리지 유닛 (260) 에 버퍼링된 입력 사운드 스트림 (810) 의 양 부분들을 액세스할 수도 있는 음성 어시스턴트 애플리케이션 (262) 을 론치할 수도 있다. 추가적으로 또는 대안적으로, 버퍼 유닛 (320) 에 버퍼링된 입력 사운드 스트림 (810) 의 부분은, 음성 어시스턴트 애플리케이션 (262) 이 스토리지 유닛 (260) 으로부터 스피치 커맨드 (830) 의 제 1 및 제 2 부분들을 액세스할 수 있도록, 스토리지 유닛 (260) 으로 송신 또는 복사될 수도 있다.

도 9 는 본 개시의 하나의 실시형태에 따른, 제 1 검출 임계값 스코어에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 로딩하는 것 및 제 2 검출 임계값 스코어에 기초하여 음성 어시스턴트 애플리케이션 (262) 의 로딩을 확인하는 것을 위해 결정되는 입력 사운드 스트림의 키워드 스코어에서의 변경을 도시하는 그래프이다. 입력 사운드 스트림은 전자 디바이스 (200) 내의 사운드 센서 (210) 에 의해 수신되고 DSP (250) 로 제공될 수도 있으며, 이것은 버퍼 메모리 (254) 의 버퍼 유닛 (310) 에 사운드 센서 (210) 로부터 수신된 입력 사운드 스트림의 부분을 버퍼링할 수도 있다. 버퍼 유닛 (310) 내의 입력 사운드 스트림의 버퍼링된 부분은 활성화 키워드의 적어도 일부를 포함할 수도 있다. DSP (250) 의 음성 활성화 유닛 (252) 내의 키워드 검출 유닛 (410) 은 입력 사운드 스트림의 버퍼링된 부분으로부터 복수의 사운트 피쳐들을 추출하고 그 복수의 사운드 피쳐들에 대해 복수의 키워드 스코어들을 결정할 수도 있다.

도시된 실시형태에서, 키워드 검출 유닛 (410) 은 키워드 스코어들 각각을 제 1 검출 임계값 스코어와 비교하도록 구성될 수도 있다. 제 1 검출 임계값 스코어는 상대적으로 낮은 신뢰도로, 입력 사운드 스트림의 버퍼링된 부분에 포함되는 활성화 키워드의 검출을 보장하기 위한 키워드 스코어를 나타낼 수도 있다. (예를 들어, 도 9 에서 시간 (T_D1) 에서 수신된 입력 사운드 스트림의 부분에 대해 결정된) 복수의 키워드 스코어들 중 하나가 제 1 검출 임계값 스코어를 초과하는 것으로 결정되는 경우, 활성화 키워드가 입력 사운드 스트림으로부터 검출된다는 것이 상대적으로 낮은 신뢰도로 추론될 수도 있다. 활성화 키워드의 검출 시에, 키워드 검출 유닛 (410) 은 스토리지 유닛 (260) 으로부터 프로세서 (240) 에 의해 빠르게 액세스될 수도 있는 일시적 메모리 (또는 작업 메모리) 로 음성 어시스턴트 애플리케이션 (262) 을 로딩하기를 시작하기 위해 프로세서 (240) 를 활성화할 수도 있다.

음성 어시스턴트 애플리케이션 (262) 이 로딩되고 있는 동안, DSP (250) 는 사운드 센서 (210) 로부터 입력 사운드 스트림을 계속 수신하고, 버퍼 유닛 (310) 에, 활성화 키워드의 적어도 일부를 포함할 수도 있는, 입력 사운드 스트림의 부분을 버퍼링할 수도 있다. 키워드 검출 유닛 (410) 은 음성 어시스턴트 애플리케이션 (262) 이 로딩되고 있는 동안 버퍼 유닛 (310) 에 버퍼링되는 입력 사운드 스트림의 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 의 로딩을 확인할 수도 있다. 예를 들어, 키워드 검출 유닛 (410) 은 입력 사운드 스트림의 버퍼링된 부분에 대해 복수의 키워드 스코어들을 결정하고, 그 복수의 키워드 스코어들 각각을 제 2 검출 임계값 스코어와 비교할 수도 있다. 제 2 검출 임계값 스코어는 상대적으로 높은 신뢰도로, 입력 사운드 스트림에 포함되는 활성화 키워드의 검출을 보장하기 위한 키워드 스코어를 나타낼 수도 있다. 이에 따라, 제 2 검출 임계값 스코어는 도 9 의 그래프에 도시된 바와 같이 제 1 검출 임계값 스코어보다 크도록 설정될 수도 있다.

복수의 키워드 스코어들 중 하나가 (예를 들어, 도 9 의 시간 (T_D2) 에서) 제 2 검출 임계값 스코어를 초과하는 것으로 결정되는 경우, 활성화 키워드가 입력 사운드 스트림으로부터 검출된다는 것이 상대적으로 높은 신뢰도로 추론될 수도 있고, 음성 어시스턴트 애플리케이션 (262) 의 로딩이 확인될 수도 있다. 이러한 경우, 키워드 검출 유닛 (410) 은 음성 어시스턴트 애플리케이션 (262) 의 로딩을 계속하도록 프로세서 (240) 에게 명령할 수도 있다. 후속적으로, DSP (250) 는 사운드 센서 (210) 로부터 입력 사운드 스트림을 계속 수신하고, 버퍼 메모리 (254) 의 버퍼 유닛 (320) 에, 스피치 커맨드의 적어도 일부를 포함할 수도 있는, 입력 사운드 스트림의 부분을 버퍼링할 수도 있다. 음성 활성화 유닛 (252) 내의 확인 유닛 (420) 은 그 후 도 8 에 대해 상술된 방식으로 음성 어시스턴트 애플리케이션 (262) 을 론치하기 위해 버퍼 유닛 (320) 에 버퍼링된 입력 사운드 스트림의 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다. 한편, 복수의 키워드 스코어들 중 어느 것도 제 2 검출 임계값 스코어를 초과하지 않는다고 결정되는 경우, 입력 사운드 스트림이 활성화 키워드를 포함하지 않는다고 추론될 수도 있다. 이러한 경우, 전자 디바이스 (200) 는 음성 어시스턴트 애플리케이션 (262) 을 론치하지 않고 활성화 키워드를 검출하기 위해 다음의 입력 사운드 스트림을 수신하기 위해 진행할 수도 있다.

일부 실시형태들에서, 사용자가 전자 디바이스의 목표 애플리케이션을 활성화하기 위한 활성화 키워드를 스피킹하는 경우, 전자 디바이스는 전자 디바이스 내의 하나 이상의 콘텍스트 센서들에 의해 생성된 환경 정보에 기초하여 목표 애플리케이션을 활성화할지 여부를 확인할 수도 있다. 도 10 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림에서 활성화 키워드를 검출하는 것에 응답하여 웹 브라우저 애플리케이션 (1010) 을 활성화하는 이동 디바이스 (120) 를 도시한다. 도 1 의 실시형태와 유사하게, 이동 디바이스 (120) 는 이동 디바이스 (120) 내의 웹 브라우저 애플리케이션 (1010) 을 활성화하기 위한 활성화 키워드를 미리 저장할 수도 있다. 도시된 실시형태에서, 사용자 (110) 가 이동 디바이스 (120) 에게 "브라우저 시작" 과 같은 활성화 키워드를 스피킹하는 경우, 이동 디바이스 (120) 는 입력 사운드 스트림을 캡쳐하고 그 입력 사운드 스트림에서의 그 활성화 키워드를 검출할 수도 있다.

이동 디바이스 (120) 는 이동 디바이스 (120) 의 콘텍스트를 나타내는 센서 데이터를 생성하도록 각각 구성된 하나 이상의 콘텍스트 센서들을 포함할 수도 있다. 여기서 사용된 바와 같이, 용어 전자 디바이스의 "콘텍스트" 는 거리, 사무실, 차량, 레스토랑, 운송 설비 등과 같은, 디바이스가 위치된 환경을 지칭할 수도 있다. 용어 "콘텍스트" 는 또한 어두운 환경에 있기, 집에서 잠자기, TV 프로그램 시청하기, 음악을 듣기, 운동장에서 축구하기 등과 같은, 디비이스 또는 그것의 사용자가 연루되는 활동들 또는 상황들을 지칭할 수도 있다. 예를 들어, 하나 이상의 콘텍스트 센서들은 도 10 에 도시된 바와 같이, 디스플레이 스크린 (1030) 을 포함하는 이동 디바이스 (120) 의 표면에 장착되는 카메라와 같은 이미지 센서 (1020) 를 포함할 수도 있다. 이미지 센서 (1020) 는 입력 이미지를 캡쳐링함으로써 센서 데이터를 생성하도록 구성될 수도 있다. 예를 들어, 사용자 (110) 가 디스플레이 스크린 (1030) 을 보는 경우, 캡쳐된 입력 이미지는 사용자 (110) 의 얼굴의 부분 (예를 들어, 사용자 (110) 의 눈들) 을 포함할 수도 있다. 일부 실시형태들에서, 활성화 키워드를 검출한 때에, 이미지 센서 (1020) 는 메모리 유닛에 센서 데이터로서 그 캡쳐된 입력 이미지를 버퍼링할 수도 있다.

웹 브라우저 애플리케이션 (1010) 을 활성화하기 위한 활성화 키워드가 입력 사운드 스트림으로부터 검출되는 경우, 이동 디바이스 (120) 는 이미지 센서 (1020) 에 의해 생성된 센서 데이터에 기초하여 웹 브라우저 애플리케이션 (1010) 을 활성화할지 여부를 확인할 수도 있다. 예를 들어, 이동 디바이스 (120) 는 이미지 센서 (1020) 에 의해 캡쳐된 입력 이미지가 사람 (예를 들어, 사용자 (110)) 의 적어도 하나의 눈을 포함하는지 여부를 결정함으로써 웹 브라우저 애플리케이션 (1010) 을 활성화할지 여부를 확인할 수도 있다. 입력 이미지가 사람의 적어도 하나의 눈을 포함한다고 결정되는 경우, 이동 디바이스 (120) 는 웹 브라우저 애플리케이션 (1010) 의 활성화를 확인하고 웹 브라우저 애플리케이션 (1010) 을 활성화한다. 일단 활성화되면, 웹 브라우저 애플리케이션 (1010) 은 사용자 (110) 가 웹 브라우저 애플리케이션 (1010) 에 의해 디스플레이된 웹 페이지를 볼 수 있도록 디스플레이 스크린 (1030) 에 디스플레이될 수도 있다. 한편, 입력 이미지가 사람의 눈을 포함하지 않는다고 결정되는 경우, 웹 브라우저 애플리케이션 (1010) 의 활성화는 확인되지 않고 이동 디바이스 (120) 는 활성화 키워드를 검출하기 위해 다음의 입력 사운드 스트림을 수신하도록 진행할 수도 있다.

도 11 은 본 개시의 하나의 실시형태에 따른, 전자 디바이스 (1100) 내의 콘텍스트 센서 (1120) 에 의해 생성된 센서 데이터에 기초하여 웹 브라우저 애플리케이션 (1130) 을 활성화하도록 구성된 전자 디바이스 (1100) 의 블록도를 도시한다. 전자 디바이스 (1100) 는 센서 유닛 (1110), I/O 유닛 (220), 통신 유닛 (230), 프로세서 (240), 및 스토리지 유닛 (260) 을 포함할 수도 있다. 센서 유닛 (1110) 은 사운드 센서 (210) 및 콘텍스트 센서 (1120) 를 포함할 수도 있다. 프로세서 (240) 는 음성 활성화 유닛 (252) 및 버퍼 메모리 (254) 를 포함할 수도 있는 DSP (250) 를 포함할 수도 있다. 도시된 실시형태에서, 사운드 센서 (210), I/O 유닛 (220), 통신 유닛 (230), 프로세서 (240), DSP (250), 음성 활성화 유닛 (252) , 버퍼 메모리 (254), 및 스토리지 유닛 (260) 은 도 2 의 전자 디바이스 (200) 에 포함된 것들과 유사한 구성 또는 기능을 가질 수도 있다. 또, 전자 디바이스 (1100) 는 셀룰러 전화, 스마트폰 (예를 들어, 이동 디바이스 (120)), 개인용 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 텔레비젼, 게이밍 디바이스, 멀티미디어 플레이어, 스마트 안경, 착용가능한 컴퓨터 등과 같은 사운드 캡쳐링 및 프로세싱 능력들이 구비된 임의의 적합한 디바이스일 수도 있다.

사운드 센서 (210) 는 입력 사운드 스트림을 수신하고 DSP (250) 로 그 수신된 입력 사운드 스트림을 제공한다. 입력 사운드 스트림이 사운드 센서 (210) 로부터 수신됨에 따라, DSP (250) 내의 음성 활성화 유닛 (252) 은 수신된 입력 사운드 스트림으로부터 웹 브라우저 애플리케이션 (1130) 을 활성화하기 위한 활성화 키워드 (예를 들어, "브라우저 시작") 를 검출할 수도 있다. 활성화 키워드를 검출하기 위해, 음성 활성화 유닛 (252) 은 HMM, SMM, 또는 이들의 조합과 같은 마르코프 체인 모델에 기초하여 임의의 적합한 키워드 검출 방법들을 채용할 수도 있다.

하나의 실시형태에서, 스토리지 유닛 (260) 은 HMM, SMM 등과 같은 마르코프 체인 모델 하에서의 활성화 키워드의 복수의 상태들에 대한 상태 정보와 같은 키워드 검출을 위해 임의의 적합한 정보 및/또는 데이터를 저장할 수도 있다. 스토리지 유닛 (260) 은 또한 프로세서 (240) 에 의해 액세스될 수 있는 웹 브라우저 애플리케이션 (1130) 을 저장할 수도 있다. 스토리지 유닛 (260) 이 도시된 실시형태에서 웹 브라우저 애플리케이션 (1130) 을 저장하지만, 그것은 또한 카메라 애플리케이션, 메모 애플리케이션, 칼렌다 애플리케이션, 음악 플레이어 애플리케이션 등과 같은 전자 디바이스 (1100) 의 임의의 다른 애플리케이션들 또는 기능들을 저장할 수도 있다.

센서 유닛 (1110) 내의 콘텍스트 센서 (1120) 는 전자 디바이스 (1100) 의 콘텍스트를 나타내는 센서 데이터를 생성하도록 각각 구성된 하나 이상의 센서들을 포함할 수도 있다. 예를 들어, 콘텍스트 센서 (1120) 는 센서 데이터로서 입력 이미지를 캡쳐하도록 구성되는 카메라 센서를 포함할 수도 있다. 카메라 센서는 카메라 센서가 디스플레이 스크린과 마주하는 사람 (예를 들어, 사용자 (110)) 의 하나 이상의 눈들을 포함하는 이미지를 캡쳐할 수 있도록, I/O 유닛 (220) 의 디스플레이 스크린을 포함하는 전자 디바이스 (1100) 의 표면에 장착될 수도 있다. 추가적으로 또는 대안적으로, 콘텍스트 센서 (1120) 는 조명 센서, 근접도 센서, 위치 센서 (예를 들어, 글로벌 포지셔닝 시스템 (GPS)), 가속도계, 모션 센서, 접촉 센서 등과 같은 임의의 다른 적합한 센서들을 포함할 수도 있다. 일부 실시형태들에서, 사운드 센서 (210) 는 또한 환경 사운드를 캡쳐함으로써 전자 디바이스 (1100) 의 콘텍스트를 나타내는 센서 데이터를 생성하도록 구성될 수도 있다.

활성화 키워드를 검출한 때에, 콘텍스트 센서 (1120) 는 버퍼 메모리 (254) 에 센서 데이터를 버퍼링할 수도 있는 DSP (250) 로 그 센서 데이터를 제공할 수도 있다. 음성 활성화 유닛 (252) 은 버퍼링된 센서 데이터에 기초하여 웹 브라우저 애플리케이션 (1130) 을 활성화할지 여부를 확인할 수도 있다. 예를 들어, DSP (250) 는 콘텍스트 센서 (1120) 의 카메라 센서로부터 센서 데이터로서 입력 이미지를 수신할 수도 있다. 또한, 음성 활성화 유닛 (252) 은 입력 이미지에 기초하여 웹 브라우저 애플리케이션 (1130) 을 활성화할지 여부를 확인할 수도 있다.

하나의 실시형태에서, 음성 활성화 유닛 (252) 은 입력 이미지가 사람의 적어도 하나의 눈을 포함하는지 여부를 결정함으로써 웹 브라우저 애플리케이션 (1130) 을 활성화할지 여부를 확인할 수도 있다. 입력 이미지가 사람의 적어도 하나의 눈을 포함한다고 결정되는 경우, 음성 활성화 유닛 (252) 은 차례로 웹 브라우저 애플리케이션 (1130) 을 활성화할 수도 있는 프로세서 (240) 를 활성화할 수도 있다. 한편, 입력 이미지가 사람의 눈을 포함하지 않는다고 결정되는 경우, 웹 브라우저 애플리케이션 (1130) 의 활성화는 확인되지 않고, 전자 디바이스 (1100) 는 활성화 키워드를 검출하기 위해 다음의 입력 사운드 스트림을 수신하도록 진행할 수도 있다.

일부 실시형태들에서, 버퍼 메모리 (254) 에 센서 데이터를 버퍼링하는 것 및 웹 브라우저 애플리케이션 (1130) 을 활성화하는 것의 동작들은 도 6 및 도 8 을 참조하여 상술된 바와 같은 유사한 방식들로 수행될 수도 있다. 또, 전자 디바이스 (1100) 가 카메라 센서에 의해 캡쳐된 입력 이미지와 같은 센서 데이터에 기초하여 웹 브라우저 애플리케이션 (1130) 의 활성화를 확인함으로써 웹 브라우저 애플리케이션 (1130) 을 활성화하지만, 전자 디바이스 (1100) 는 또한 임의의 다른 적합한 콘텍스트 센서드로부터 생성된 센서 데이터에 기초하여 애플리케이션들을 활성화할지 여부를 확인함으로써 임의의 다른 적합한 애플리케이션들을 활성화하도록 구성될 수도 있다. 하나의 실시형태에서, 전자 디바이스 (1100) 는 카메라 애플리케이션의 활성화가 콘텍스트 센서 (1120) 내의 조명 센서로부터의 센서 데이터에 기초하여 확인되는 경우 카메라 애플리케이션을 활성화할 수도 있다. 예를 들어, 음성 활성화 유닛 (252) 은 조명 센서로부터의 센서 데이터가 전자 디바이스 (1100) 의 환경이 볼 수 있기에 충분히 밝다고 표시하는 경우 카메라 애플리케이션의 활성화를 확인할 수도 있다. 카메라 애플리케이션의 활성이 확인되는 경우, 음성 활성화 유닛 (252) 은 카메라 애플리케이션을 활성화하기 위해 프로세서 (240) 를 활성화할 수도 있다.

도 12 는 본 개시의 하나의 실시형태에 따른, 활성화 키워드를 검출함으로써 목표 애플리케이션을 활성화하는 것 및 전자 디바이스 (1100) 의 콘텍스트를 나타내는 센서 데이터에 기초하여 목표 애플리케이션을 활성화할지 여부를 확인하는 것을 위한 방법 (1200) 의 플로우챠트를 도시한다. 전자 디바이스 (1100) 는 1210 에서 목표 애플리케이션을 활성화하기 위한 활성화 키워드를 포함하는 입력 사운드 스트림을 수신할 수도 있다. 예를 들어, 활성화 키워드는 "브라우저 시작" 일 수도 있고, 목표 애플리케이션은 도 11 을 참조하여 상술된 바와 같은 웹 브라우저 애플리케이션 (1130) 일 수도 있다.

하나의 실시형태에서, 활성화 키워드의 적어도 일부를 포함하는 수신된 입력 사운드 스트림의 부분이 DSP (250) 내의 버퍼 메모리 (254) 에 버퍼링될 수도 있다. DSP (250) 내의 음성 활성화 유닛 (252) 은 1220 에서 버퍼 메모리 (254) 에 버퍼링된 입력 사운드 스트림의 부분으로부터 활성화 키워드를 검출할 수도 있다. 활성화 키워드가 검출되는 경우, 전자 디바이스 (1100) 내의 하나 이상의 콘텍스트 센서들은 1230 에서 전자 디바이스 (1100) 의 콘텍스트를 나타내는 센서 데이터를 생성할 수도 있다. 생성된 센서 데이터는 버퍼 메모리 (254) 에 버퍼링될 수도 있다.

음성 활성화 유닛 (252) 은 1240 에서 센서 데이터에 기초하여 목표 애플리케이션을 활성화할지 여부를 확인할 수도 있다. 음성 활성화 유닛 (252) 이 목표 애플리케이션의 활성화를 확인하는 경우 (즉, 1240 에서 "예"), 음성 활성화 유닛 (252) 은 1250 에서 목표 애플리케이션을 활성화할 수도 있다. 한편, 목표 애플리케이션의 활성화가 확인되지 않는 경우 (즉, 1240 에서 "아니오"), 방법 (1200) 은 전자 디바이스 (1100) 가 활성화 키워드를 검출하기 위해 다음 입력 사운드 스트림을 수신할 수 있도록 1210 으로 진행한다.

도 13 은 활성화 키워드를 검출한 때에 목표 애플리케이션을 활성화하는 방법들 및 장치들이 본 개시의 일부 실시형태에 따라 구현될 수도 있는 예시의 전자 디바이스 (1300) 의 블록도이다. 전자 디바이스 (1300) 의 구성은 도 1 내지 도 12 를 참조하여 기술된 상기 실시형태들에 따라 전자 디바이스들에서 구현될 수도 있다. 전자 디바이스 (1300) 는 셀룰러 전화, 스마트폰, 태블릿 컴퓨터, 랩톱 컴퓨터, 단말기, 핸드셋, 개인용 휴대정보단말 (PDA), 무선 모뎀, 코드리스 전화 등일 수도 있다. 무선 통신 시스템은 코드 분할 다중 액세스 (CDMA) 시스템, 이동 통신들을 위한 브로드캐스트 시스템 (GSM) 시스템, 광대역 CDMA (WCDMA) 시스템, 롱 텀 에볼루션 (LTE) 시스템, LTE 어드밴스드 시스템 등일 수도 있다. 또한, 전자 디바이스 (1300) 는 예를 들어 Wi-Fi 다이렉트 또는 블루투스를 사용하여 다른 이동 디바이스와 직접 통신할 수도 있다.

전자 디바이스 (1300) 는 수신 경로 및 송신 경로를 통해 양방향 통신을 제공할 수 있다. 수신 경로에서, 기지국들에 의해 송신된 신호들은 안테나 (1312) 에 의해 수신되고 수신기 (RCVR) (1314) 로 제공된다. 수신기 (1314) 는 수신된 신호를 컨디셔닝 및 디지털화하고 추가의 프로세싱을 위해 디지털 섹션으로 컨디셔닝 및 디지털화된 디지털 신호와 같은 샘플들을 제공한다. 송신 경로에서, 송신기 (TMTR) (1316) 는 디지털 섹션 (1320) 으로부터 송신될 데이터를 수신하고, 그 데이터를 프로세싱 및 컨디셔닝하며, 기지국들로 안테나 (1312) 를 통해 송신되는 변조된 신호를 생성한다. 수신기 (1314) 및 송신기 (1316) 는 CDMA, GSM, LTE, LTE 어드밴스드 등을 지원할 수도 있는 송수신기의 부분일 수도 있다.

디지털 섹션 (1320) 은 예를 들어 모뎀 프로세서 (1322), 감소된 명령 세트 컴퓨터/디지털 신호 프로세서 (RISC/DSP) (1324), 제어기/프로세서 (1326), 내부 메모리 (1328), 일반화된 오디오/비디오 인코더 (1332), 일반화된 오디오 디코더 (1334), 그래픽스/디스플레이 프로세서 (1336), 및 외부 버스 인터페이스 (EBI) (1338) 과 같은 프로세싱, 인터페이스, 및 메모리 유닛들을 포함한다. 모뎀 프로세서 (1322) 는 데이터 송신 및 수신을 위한 프로세싱, 예를 들어, 인코딩, 변조, 복조, 및 디코딩을 수행할 수도 있다. RISC/DSP (1324) 는 전자 디바이스 (1300) 를 위해 일반적 및 특수화된 프로세싱을 수행할 수도 있다. 제어기/프로세서 (1326) 는 디지털 섹션 (1320) 내의 여러 프로세싱 및 인터페이스 유닛들의 동작을 수행할 수도 있다. 내부 메모리 (1328) 는 디지털 섹션 (1320) 내의 여러 유닛들을 위한 데이터 및/또는 명령들을 저장할 수도 있다.

일반화된 오디오/비디오 인코더 (1332) 는 오디오/비디오 소스 (1342), 마이크로폰 (1344), 이미지 센서 (1346) 등으로부터의 입력 신호들에 대한 인코딩을 수행할 수도 있다. 일반화된 오디오 디코더 (1334) 는 코딩된 오디오 데이터에 대해 디코딩을 수행할 수도 있고, 스피커/헤드셋 (1348) 으로 출력 신호들을 제공할 수도 있다. 그래픽스/디스플레이 프로세서 (1336) 는 디스플레이 유닛 (1350) 으로 제시될 수도 있는 그래픽들, 비디오들, 이미지들 및 텍스트들에 대한 프로세싱을 수행할 수도 있다. EBI (1338) 는 디지털 섹션 (1320) 과 메인 메모리 (1352) 사이의 데이터의 전송을 용이하게 할 수도 있다.

디지털 섹션 (1320) 은 하나 이상의 프로세서들, DSP 들, 마이크로프로세서들, RISC 들 등으로 구현될 수도 있다. 디지털 섹션 (1320) 은 또한 하나 이상의 주문형 반도체들 (ASICs) 및/또는 일부 다른 타입의 집적회로들 (ICs) 상에 제조될 수도 있다.

일반적으로, 여기에 기술된 임의의 디바이스는 무선 전화, 셀룰러 전화, 랩톱 컴퓨터, 무선 멀티미디어 디바이스, 무선 통신 개인용 컴퓨터 (PC) 카드, PDA, 외부 또는 내부 모뎀, 무선 채널을 통해 통신하는 디바이스 등과 같은 여러 타입들의 디바이스들을 나타낼 수도 있다. 디바이스는 액세스 단말기 (AT), 액세스 유닛, 가입자 유닛, 이동국, 이동 디바이스, 이동 유닛, 이동 전화, 모바일, 원격국, 원격 단말기, 원격 유닛, 사용자 디바이스, 사용자 장비, 핸드헬드 디바이스 등과 같은 여러 이름들을 가질 수도 있다. 여기에 기술된 임의의 디바이스는 명령들 및 데이터를 저장하는 메모리 뿐아니라 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합을 가질 수도 있다.

여기에 기술된 기법들은 여러 수단들에 의해 구현될 수도 있다. 예를 들어, 이들 기법들은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수도 있다. 본 기술에서 통상의 지식을 가진 자들은 또한 여기의 개시와 관련하여 기술된 여러 예시적인 로지컬 블록들, 모듈들, 회로들, 및 알고리즘 단계들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합으로서 구현될 수도 있다는 것을 인정할 것이다. 하드웨어 및 소프트웨어의 이러한 교환가능성을 명확히 설명하기 위해, 여러 예시적 컴포넌트들, 블록들, 모듈들, 회로들 및 단계들은 일반적으로 그들의 기능성에 의해 상술되었다. 그러한 기능성이 하드웨어로서 또는 소프트웨어로서 구현되는지 여부는 특정의 애플리케이션 및 전체 시스템에 부과된 설계 제약들에 달려있다. 통상의 기술자들은 각각의 특정의 애플리케이션에 대해 다양한 방식들로 기술된 기능성을 구현할 수도 있지만, 그러한 구현 결정들은 본 개시의 범위로부터 일탈을 야기하는 것으로서 해석되지 않아야 한다.

하드웨어 구현의 경우, 기법들을 수행하기 위해 사용되는 프로세싱 유닛들은 하나 이상의 ASIC 들, DSP 들, 디지털 신호 프로세싱 디바이스들 (DSPDs), 프로그램가능 로직 디바이스들 (PLDs), 필드 프로그램가능 게이트 어레이들 (FPGAs), 프로세서들, 제어기들, 마이크로-제어기들, 마이크로프로세서들, 전자 디바이스들, 여기에 기술된 기능들을 수행하도록 설계된 다른 전자 유닛들, 컴퓨터, 또는 이들의 조합 내에서 구현될 수도 있다.

따라서, 여기의 개시와 관련하여 기술된 여러 예시적인 로지컬 블록들, 모듈들, 및 회로들은 범용 프로세서, DSP, ASIC, FPGA 또는 다른 프로그램가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 여기에 기술된 기능들을 수행하도록 설계된 이들의 임의의 조합으로 구현되거나 수행된다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안적으로, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 결합한 하나 이상의 마이크로프로세서들, 또는 임의의 다른 그러한 구성으로서 구현될 수도 있다.

소프트웨어로 구현되는 경우, 그 기능들은 컴퓨터 판독가능 매체 상에서 하나 이상의 명령들 또는 코드로서 저장 또는 송신될 수도 있다. 컴퓨터 판독가능 매체는 한 곳에서 다른 곳으로 컴퓨터 프로그램의 이송을 용이하게 하는 임의의 매체를 포함하는 컴퓨터 저장 매체들 및 통신 매체들 양자를 포함한다. 저장 매체들은 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체들일 수도 있다. 제한이 아닌 예시로서, 그러한 컴퓨터 판독가능 매체는 RAM, ROM, EEPROM, CD-ROM, 또는 다른 광 디스크 스토리지, 자기 디스크 스토리지, 또는 다른 자기 저장 디바이스들, 또는 컴퓨터에 의해 액세스될 수 있고 명령들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 반송 또는 저장하는데 사용될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 연결은 컴퓨터 판독가능 매체로 적절하게 칭해질 수도 있다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 트위스티드 페어, 디지털 가입자 라인 (DSL), 또는 적외선, 라디오, 및 마이크로웨이브와 같은 무선 기술들을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 송신되는 경우, 동축 케이블, 광섬유 케이블, 트위스티드 페어, DSL, 또는 적외선, 라디오, 및 마이크로웨이브와 같은 무선 기술들은 매체의 정의에 포함된다. 디스크 (disk 및 disc) 는 본원에서 사용되는 바와 같이, 콤팩트 디스크 (compact disc, CD), 레이저 디스크, 광 디스크, 디지털 다용도 디스크 (DVD), 플로피 디스크 (floppy disk) 및 블루레이 디스크를 포함하는데, disk들은 보통 데이터를 자기적으로 재생하지만, disc들은 레이저들로써 광학적으로 데이터를 재생한다. 상기한 것들의 조합들은 또한 컴퓨터 판독가능 매체들의 범위 내에 포함된다.

본 개시의 이전의 설명은 본 기술에서 임의의 통상의 기술자가 본 개시를 실시하거나 사용하는 것을 가능하게 하도록 제공된다. 본 개시에 대한 여러 변경들은 본 기술에서의 통상의 기술자에게 용이하게 명백할 것이고, 여기에 정의된 일반 원리들은 본 개시의 사상 또는 범위로부터 일탈하지 않고 다른 변형들에 적용될 수도 있다. 따라서, 본 개시는 여기에 기술된 예시들 및 설계들에 제한되는 것으로 의도되지 않고, 여기에 개시된 원리들 및 신규한 특징들과 일관성 있는 가장 넓은 범위에 따라야 한다.

예시적인 구현들은 하나 이상의 스탠드-얼론 컴퓨터 시스템들의 콘텍스트에서 현재 개시된 주제의 양태들을 이용하는 것으로 참조되지만, 이들 주제는 그렇게 제한되지 않고, 오히려 네트워크 또는 분포된 컴퓨팅 환경과 같은 임의의 컴퓨팅 환경과 관련하여 구현될 수도 있다. 또한, 현재 개시된 주제의 양태들은 복수의 프로세싱 칩들 또는 디바이스들에서 또는 그것들에 걸쳐 구현될 수도 있고, 저장은 복수의 디바이스들에 걸쳐 유사하게 영향받을 수도 있다. 그러한 디바이스들은 PC 들, 네트워크 서버들, 및 핸드헬드 디바이스들을 포함할 수도 있다.

청구물이 구조적 특징들 및/또는 방법론적 액션들에 특정한 언어로 기술되었지만, 첨부된 청구범위에 정의된 청구물은 상술된 특정의 특징들 또는 액션들에 반드시 제한되지는 않는다는 것이 이해되어야 한다. 오히려, 상술된 특정의 특징들 및 액션들은 청구범위를 구현하는 예시의 형태들로서 개시된다.

Claims

전자 디바이스에서 수행되는, 목표 애플리케이션을 활성화하기 위한 방법으로서,
상기 목표 애플리케이션을 활성화하기 위한 활성화 키워드 및 상기 목표 애플리케이션의 기능을 나타내는 스피치 커맨드를 포함하는 입력 사운드 스트림을 수신하는 단계;
상기 입력 사운드 스트림으로부터 상기 활성화 키워드를 검출하는 단계;
상기 활성화 키워드를 검출하는 것에 응답하여 상기 스피치 커맨드의 적어도 일부를 포함하는 상기 입력 사운드 스트림의 부분을 버퍼 메모리에 버퍼링하는 단계; 및
상기 목표 애플리케이션의 상기 기능을 수행하기 위해 상기 활성화 키워드를 검출하는 것에 응답하여 상기 목표 애플리케이션을 활성화하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
제 1 항에 있어서,
상기 활성화 키워드를 검출하는 단계는 상기 입력 사운드 스트림에서의 상기 활성화 키워드의 부분으로부터 상기 활성화 키워드를 검출하는 단계를 포함하고,
상기 입력 사운드 스트림의 부분을 버퍼링하는 단계는 상기 활성화 키워드의 상기 부분으로부터 상기 활성화 키워드를 검출하는 것에 응답하여 상기 입력 사운드 스트림의 상기 부분을 버퍼링하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
제 1 항에 있어서,
상기 입력 사운드 스트림에서의 상기 활성화 키워드의 종료를 검출하는 단계를 더 포함하고,
상기 입력 사운드 스트림의 부분을 버퍼링하는 단계는 상기 활성화 키워드의 상기 종료를 검출하는 것에 응답하여 상기 입력 사운드 스트림의 상기 부분을 버퍼링하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
제 1 항에 있어서,
상기 입력 사운드 스트림에서의 상기 스피치 커맨드의 시작을 검출하는 단계를 더 포함하고,
상기 입력 사운드 스트림의 부분을 버퍼링하는 단계는 상기 스피치 커맨드의 상기 시작을 검출하는 것에 응답하여 상기 입력 사운드 스트림의 상기 부분을 버퍼링하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
제 1 항에 있어서,
상기 목표 애플리케이션을 활성화하는 단계는 상기 입력 사운드 스트림의 상기 버퍼링된 부분에 기초하여 상기 목표 애플리케이션을 활성화할지 여부를 확인하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
제 5 항에 있어서,
상기 목표 애플리케이션을 활성화할지 여부를 확인하는 단계는 상기 입력 사운드 스트림의 상기 버퍼링된 부분이 스피치를 포함하는지 여부를 결정하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
제 6 항에 있어서,
상기 목표 애플리케이션을 활성화할지 여부를 확인하는 단계는 상기 입력 사운드 스트림의 상기 버퍼링된 부분 내의 상기 스피치가 상기 활성화 키워드의 스피커를 나타내는지 여부를 결정하는 단계를 더 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
제 5 항에 있어서,
상기 목표 애플리케이션을 활성화할지 여부를 확인하는 단계는 상기 입력 사운드 스트림의 상기 버퍼링된 부분의 신호대 잡음비 (SNR) 가 미리 결정된 임계값을 초과하는지 여부를 결정하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
제 5 항에 있어서,
상기 목표 애플리케이션을 활성화할지 여부를 확인하는 단계는 상기 입력 사운드 스트림의 상기 버퍼링된 부분이 상기 활성화 키워드를 취소하는 것을 나타내는 미리 결정된 취소 커맨드를 포함하는지 여부를 결정하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
제 5 항에 있어서,
상기 활성화 키워드를 검출하는 단계는 상기 입력 사운드 스트림에서의 상기 활성화 키워드의 부분으로부터 상기 활성화 키워드를 검출하는 단계를 포함하고,
상기 목표 애플리케이션을 활성화하는 단계는:
상기 활성화 키워드의 상기 부분으로부터 상기 활성화 키워드를 검출하는 것에 응답하여 상기 목표 애플리케이션을 로딩하는 단계; 및
상기 목표 애플리케이션의 활성화를 확인하는 것에 응답하여 상기 목표 애플리케이션을 론치하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
제 1 항에 있어서,
상기 목표 애플리케이션을 활성화하는 단계는:
상기 입력 사운드 스트림의 상기 버퍼링된 부분으로부터 상기 스피치 커맨드를 인식하는 단계; 및
상기 스피치 커맨드에 응답하여 상기 목표 애플리케이션의 상기 기능을 수행하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
목표 애플리케이션을 활성화하기 위한 전자 디바이스로서,
상기 목표 애플리케이션을 활성화하기 위한 활성화 키워드 및 상기 목표 애플리케이션의 기능을 나타내는 스피치 커맨드를 포함하는 입력 사운드 스트림을 수신하도록 구성된 사운드 센서;
상기 입력 사운드 스트림으로부터 상기 활성화 키워드를 검출하고, 상기 목표 애플리케이션의 상기 기능을 수행하기 위해 상기 활성화 키워드를 검출하는 것에 응답하여, 상기 목표 애플리케이션을 활성화하도록 구성된 음성 활성화 유닛; 및
상기 활성화 키워드를 검출하는 것에 응답하여 상기 스피치 커맨드의 적어도 일부를 포함하는 상기 입력 사운드 스트림의 부분을 저장하도록 구성된 버퍼 메모리를 포함하는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
제 12 항에 있어서,
상기 음성 활성화 유닛은 또한 상기 입력 사운드 스트림에서의 상기 활성화 키워드의 부분으로부터 상기 활성화 키워드를 검출하도록 구성되고,
상기 버퍼 메모리는 또한 상기 활성화 키워드의 상기 부분으로부터 상기 활성화 키워드를 검출하는 것에 응답하여 상기 입력 사운드 스트림의 상기 부분을 저장하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
제 12 항에 있어서,
상기 음성 활성화 유닛은 또한 상기 입력 사운드 스트림에서의 상기 활성화 키워드의 종료를 검출하도록 구성되고,
상기 버퍼 메모리는 또한 상기 활성화 키워드의 상기 종료를 검출하는 것에 응답하여 상기 입력 사운드 스트림의 상기 부분을 저장하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
제 12 항에 있어서,
상기 음성 활성화 유닛은 또한 상기 입력 사운드 스트림에서의 상기 스피치 커맨드의 시작을 검출하도록 구성되고,
상기 버퍼 메모리는 또한 상기 스피치 커맨드의 상기 시작을 검출하는 것에 응답하여 상기 입력 사운드 스트림의 상기 부분을 저장하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
제 12 항에 있어서,
상기 음성 활성화 유닛은 또한 상기 입력 사운드 스트림의 상기 저장된 부분에 기초하여 상기 목표 애플리케이션을 활성화할지 여부를 확인하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
제 16 항에 있어서,
상기 음성 활성화 유닛은 또한 상기 입력 사운드 스트림의 상기 저장된 부분이 스피치를 포함하는지 여부를 결정하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
제 17 항에 있어서,
상기 음성 활성화 유닛은 또한 상기 입력 사운드 스트림의 상기 저장된 부분 내의 상기 스피치가 상기 활성화 키워드의 스피커를 나타내는지 여부를 결정하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
제 16 항에 있어서,
상기 음성 활성화 유닛은 또한 상기 입력 사운드 스트림의 상기 저장된 부분의 SNR 이 미리 결정된 임계값을 초과하는지 여부를 결정하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
제 16 항에 있어서,
상기 음성 활성화 유닛은 또한 상기 입력 사운드 스트림의 상기 저장된 부분이 상기 활성화 키워드를 취소하는 것을 나타내는 미리 결정된 취소 커맨드를 포함하는지 여부를 결정하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
제 16 항에 있어서,
상기 음성 활성화 유닛은 또한:
상기 입력 사운드 스트림에서의 상기 활성화 키워드의 부분으로부터 상기 활성화 키워드를 검출하고;
상기 활성화 키워드의 상기 부분으로부터 상기 활성화 키워드를 검출하는 것에 응답하여 상기 목표 애플리케이션을 로딩하며; 및
상기 목표 애플리케이션의 활성화를 확인하는 것에 응답하여 상기 목표 애플리케이션을 론치하도록
구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
제 12 항에 있어서,
상기 목표 애플리케이션은 상기 입력 사운드 스트림의 상기 저장된 부분으로부터 상기 스피치 커맨드를 인식하고, 상기 스피치 커맨드에 응답하여 상기 목표 애플리케이션의 상기 기능을 수행하는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
목표 애플리케이션을 활성화하기 위한 명령들을 포함하는 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령들은, 전자 디바이스의 프로세서로 하여금:
상기 목표 애플리케이션을 활성화하기 위한 활성화 키워드 및 상기 목표 애플리케이션의 기능을 나타내는 스피치 커맨드를 포함하는 입력 사운드 스트림을 수신하는 것;
상기 입력 사운드 스트림으로부터 상기 활성화 키워드를 검출하는 것;
상기 활성화 키워드를 검출하는 것에 응답하여 상기 스피치 커맨드의 적어도 일부를 포함하는 상기 입력 사운드 스트림의 부분을 버퍼 메모리에 버퍼링하는 것; 및
상기 목표 애플리케이션의 상기 기능을 수행하기 위해 상기 활성화 키워드를 검출하는 것에 응답하여 상기 목표 애플리케이션을 활성화하는 것
의 동작들을 수행하게 하는, 비일시적 컴퓨터 판독가능 저장 매체.
제 23 항에 있어서,
상기 활성화 키워드를 검출하는 것은 상기 입력 사운드 스트림에서의 상기 활성화 키워드의 부분으로부터 상기 활성화 키워드를 검출하는 것을 포함하고,
상기 입력 사운드 스트림의 부분을 버퍼링하는 것은 상기 활성화 키워드의 상기 부분으로부터 상기 활성화 키워드를 검출하는 것에 응답하여 상기 입력 사운드 스트림의 상기 부분을 버퍼링하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
제 23 항에 있어서,
상기 목표 애플리케이션을 활성화하는 것은 상기 입력 사운드 스트림의 상기 버퍼링된 부분에 기초하여 상기 목표 애플리케이션을 활성화할지 여부를 확인하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
제 25 항에 있어서,
상기 활성화 키워드를 검출하는 것은 상기 입력 사운드 스트림에서의 상기 활성화 키워드의 부분으로부터 상기 활성화 키워드를 검출하는 것을 포함하고,
상기 목표 애플리케이션을 활성화하는 것은:
상기 활성화 키워드의 상기 부분으로부터 상기 활성화 키워드를 검출하는 것에 응답하여 상기 목표 애플리케이션을 로딩하는 것; 및
상기 목표 애플리케이션의 활성화를 확인하는 것에 응답하여 상기 목표 애플리케이션을 론치하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
목표 애플리케이션을 활성화하기 위한 전자 디바이스로서,
상기 목표 애플리케이션을 활성화하기 위한 활성화 키워드 및 상기 목표 애플리케이션의 기능을 나타내는 스피치 커맨드를 포함하는 입력 사운드 스트림을 수신하는 수단;
상기 입력 사운드 스트림으로부터 상기 활성화 키워드를 검출하고, 상기 목표 애플리케이션의 상기 기능을 수행하기 위해 상기 활성화 키워드를 검출하는 것에 응답하여 상기 목표 애플리케이션을 활성화하는 수단;
상기 활성화 키워드를 검출하는 것에 응답하여 상기 스피치 커맨드의 적어도 일부를 포함하는 상기 입력 사운드 스트림의 부분을 저장하는 수단을 포함하는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
제 27 항에 있어서,
상기 활성화 키워드를 검출하고 상기 목표 애플리케이션을 활성화하는 수단은 상기 입력 사운드 스트림에서의 상기 활성화 키워드의 부분으로부터 상기 활성화 키워드를 검출하도록 구성되고,
상기 입력 사운드 스트림의 부분을 저장하는 수단은 상기 활성화 키워드의 상기 부분으로부터 상기 활성화 키워드를 검출하는 것에 응답하여 상기 입력 사운드 스트림의 상기 부분을 저장하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
제 27 항에 있어서,
상기 활성화 키워드를 검출하고 상기 목표 애플리케이션을 활성화하는 수단은 상기 입력 사운드 스트림의 상기 저장된 부분에 기초하여 상기 목표 애플리케이션을 활성화할지 여부를 확인하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
제 29 항에 있어서,
상기 활성화 키워드를 검출하고 상기 목표 애플리케이션을 활성화하는 수단은 또한:
상기 입력 사운드 스트림에서의 상기 활성화 키워드의 부분으로부터 상기 활성화 키워드를 검출하고;
상기 활성화 키워드의 상기 부분으로부터 상기 활성화 키워드를 검출하는 것에 응답하여 상기 목표 애플리케이션을 로딩하며; 및
상기 목표 애플리케이션의 활성화를 확인하는 것에 응답하여 상기 목표 애플리케이션을 론치하도록
구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.