KR20160145766A - 스피치 입력에 의해 애플리케이션을 활성화하는 방법 및 장치 - Google Patents

스피치 입력에 의해 애플리케이션을 활성화하는 방법 및 장치 Download PDF

Info

Publication number
KR20160145766A
KR20160145766A KR1020167032299A KR20167032299A KR20160145766A KR 20160145766 A KR20160145766 A KR 20160145766A KR 1020167032299 A KR1020167032299 A KR 1020167032299A KR 20167032299 A KR20167032299 A KR 20167032299A KR 20160145766 A KR20160145766 A KR 20160145766A
Authority
KR
South Korea
Prior art keywords
input sound
sound stream
keyword
activation
target application
Prior art date
Application number
KR1020167032299A
Other languages
English (en)
Inventor
태수 김
민섭 이
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20160145766A publication Critical patent/KR20160145766A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

목표 애플리케이션을 활성화하기 위한, 전자 디바이스에서 수행되는 방법이 개시된다. 방법은 목표 애플리케이션을 활성화하기 위한 활성화 키워드 및 목표 애플리케이션의 기능을 나타내는 스피치 커맨드를 포함하는 입력 사운드 스트림을 수신하는 단계를 포함할 수도 있다. 방법은 또한 입력 사운드 스트림으로부터 활성화 키워드를 검출할 수도 있다. 활성화 키워드가 검출되는 경우, 스피치 커맨드의 적어도 일부를 포함하는 입력 사운드 스트림의 부분은 버퍼 메모리에 버퍼링될 수도 있다. 또, 활성화 키워드를 검출하는 것에 응답하여, 목표 애플리케이션은 목표 애플리케이션의 기능을 수행하기 위해 활성화될 수도 있다.

Description

스피치 입력에 의해 애플리케이션을 활성화하는 방법 및 장치{METHOD AND APPARATUS FOR ACTIVATING APPLICATION BY SPEECH INPUT}
본 출원은 2014년 4월 21일자로 출원된, 발명의 명칭이 "METHOD AND APPARATUS FOR ACTIVATING APPLICATION BY SPEECH INPUT" 인 미국 출원 제 14/257,814 호로부터 우선권을 주장하며, 그것의 전체 내용이 참조에 의해 포함된다.
본 개시는 일반적으로 전자 디바이스에서 애플리케이션을 활성화하는 것에 관한 것으로서, 특히 스피치 입력을 저장함으로써 기능을 수행하는 전자 디바이스에서 애플리케이션을 활성화하는 것에 관한 것이다.
최근에, 스마트폰들, 태블릿 컴퓨터들, 및 착용가능 컴퓨터들과 같은 전자 디바이스들의 사용이 소비자들 사이에 증가해왔다. 이들 디바이스들은 데이터 프로세싱 및 통신, 음성 통신, 인터넷 브라우저, 멀티미디어 플레이어, 게임 플레이어 등과 같은 다양한 능력들을 제공할 수도 있다. 또, 그러한 전자 디바이스들은 사용자들을 위해 여러 기능들을 수행할 수 있는 다양한 애플리케이션들을 포함할 수도 있다.
사용자의 편의를 위해, 종래의 전자 디바이스들은 종종 사용자들로부터 스피치를 인식하기 위해 스피치 인식 기능을 포함한다. 그러한 전자 디바이스들에서, 사용자는 터치 스크린 또는 키보드와 같은 I/O 디바이스르 통해 수동으로 네비게이팅하는 대신에 특정된 기능을 수행하기 위한 음성 커맨드를 스피킹할 수도 있다. 사용자로부터의 음성 커맨드는 그 후 인식될 수도 있고 특정된 기능이 전자 디바이스들에서 수행될 수도 있다.
스피치 인식 기능이 구비된 종래의 전자 디바이스들에서, 사용자는 통상적으로 후속하는 음성 커맨드를 인식하고 그 음성 커맨드와 연관된 기능을 수행할 수 있는 스피치 프로세싱 애플리케이션을 개시하기 위해 미리 결정된 키워드를 스피킹한다. 예를 들어, 사용자는 스피치 프로세싱 애플리케이션을 개시하고 애플리케이션이 로딩되기를 대기하기 위해 미리 결정된 키워드를 스피킹할 수도 있다. 애플리케이션이 로딩된 후, 사용자는 수행될 애플리케이션의 기능 (예를 들어, 인터넷 검색) 을 특정하는 음성 커맨드를 스피킹할 수도 있다. 키워드를 인식하고 애플리케이션을 로드하기 위해 필요한 시간은 사용자에 의해 음성 커맨드를 스피킹하는데 있어서 지연을 야기하기 때문에, 전자 디바이스에서 기능을 수행하기 위해 동시에 키워드 및 음성 커맨드를 사용하는 것은 사용자에게 그다지 편리하지 않을 수도 있다.
일부 경우들에서, 스피치 인식 기능이 구비된 전자 디바이스는 애플리케이션을 우연히 개시할 수도 있다. 예를 들어, 사용자는 연관된 애플리케이션을 개시하는 것을 의도하지 않고 다른 사람과 대화나 토의의 부분으로서 키워드를 스피킹할 수도 있다. 그럼에도 불구하고, 전자 디바이스는 사용자에 의해 스피킹된 키워드를 인식하고 애플리케이션을 개시할 수도 있다. 따라서, 사용자는 애플리케이션을 수동으로 종료할 필요가 있을 수도 있고, 이것에 의해 사용자 불편을 야기할 수도 있다. 한편, 사용자가 애플리케이션의 개시를 알아차리지 않은 경우, 애플리케이션은 전자 디바이스 상에서 계속 실행할 수도 있다.
본 개시는 스피치 커맨드와 연관되는 목표 애플리케이션의 기능을 수행하기 위해 활성화 키워드를 검추하는 것에 응답하여 목표 애플리케이션을 활성화하는 방법들 및 장치들을 제공한다.
본 개시의 하나의 양태에 따르면, 목표 애플리케이션을 활성화하기 위한, 전자 디바이스에서 수행되는 방법이 개시된다. 방법은 목표 애플리케이션을 활성화하기 위한 활성화 키워드 및 목표 애플리케이션의 기능을 나타내는 스피치 커맨드를 포함하는 입력 사운드 스트림을 수신하는 단계를 포함할 수도 있다. 방법은 또한 입력 사운드 스트림으로부터 활성화 키워드를 검출할 수도 있다. 활성화 키워드가 검출되는 경우, 스피치 커맨드의 적어도 일부를 포함하는 입력 사운드 스트림의 일부는 버퍼 메모리에 버퍼링될 수도 있다. 또, 활성화 키워드를 검출하는 것에 응답하여, 목표 애플리케이션은 목표 애플리케이션의 기능을 수행하기 위해 활성화될 수도 있다. 본 개시는 또한 이러한 방법과 관련된 장치, 디바이스, 시스템, 수단의 조합, 및 컴퓨터 판독가능 매체를 기술한다.
본 개시의 다른 양태에 따르면, 목표 애플리케이션을 활성화하기 위한 전자 디바이스가 개시된다. 전자 디바이스는 목표 애플리케이션을 활성화하기 위한 활성화 키워드 및 목표 애플리케이션의 기능을 나타내는 스피치 커맨드를 포함하는 입력 사운드 스트림을 수신하도록 구성된 사운드 센서를 포함할 수도 있다. 전자 디바이스는 또한 입력 사운드 스트림으로부터 활성화 키워드를 검출하고, 목표 애플리케이션의 기능을 수행하기 위해 활성화 키워드를 검출하는 것에 응답하여, 목표 애플리케이션을 활성화하도록 구성된 음성 활성화 유닛을 포함할 수도 있다. 전자 디바이스 내의 버퍼 메모리는, 활성화 키워드가 검출되는 경우, 스피치 커맨드의 적어도 일부를 포함하는 입력 사운드 스트림의 일부를 저장하도록 구성될 수도 있다.
본 개시의 발명의 양태들의 실시형태들은 첨부하는 도면들과 함께 읽을 때 다음의 상세한 설명을 참조하여 이해될 것이다.
도 1 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림에서의 활성화 키워드에 응답하여 음성 어시스턴트 애플리케이션을 활성화하는 이동 디바이스를 도시한다.
도 2 는 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림에서 활성화 키워드를 검출하는 때에 스피치 커맨드를 포함하는 입력 사운드 스트림의 부분을 버퍼링함으로써 음성 어시스턴트 애플리케이션을 활성화하도록 구성된 전자 디바이스의 블록도를 도시한다.
도 3 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림을 버퍼링하기 위한 복수의 버퍼 유닛들을 포함하는 전자 디바이스 내의 버퍼 메모리의 상세 블록도를 도시한다.
도 4 는 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림의 버퍼링된 부분에 기초하여 음성 어시스턴트 애플리케이션을 활성화할지 여부를 확인하도록 구성되는 전자 디바이스 내의 음성 활성화 유닛의 상세 블록도를 도시한다.
도 5 는 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림에서 활성화 키워드를 검출하는 때에 스피치 커맨드를 포함하는 입력 사운드 스트림의 부분을 버퍼링함으로써 음성 어시스턴트 애플리케이션을 활성화하는 방법의 플로우챠트를 도시한다.
도 6 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림에서 활성화 키워드가 검출될 때 스피치 커맨드를 포함하는 입력 사운드 스트림의 부분을 버퍼링하는 타이밍도이다.
도 7 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림으로부터의 활성화 키워드 및 입력 사운드 스트림에서의 활성화 키워드의 종료를 검출하기 위해 결정되는 입력 사운드 스트림의 키워드 스코어에서의 변경을 도시하는 그래프이다.
도 8 은 본 개시의 하나의 실시형태에 따른, 음성 어시스턴트 애플리케이션을 활성화할지 여부를 확인하는 것에 응답하여 음성 어시스턴트 애플리케이션을 활성화하는 타이밍도이다.
도 9 는 본 개시의 하나의 실시형태에 따른, 제 1 검출 임계값 스코어에 기초하여 음성 어시스턴트 애플리케이션을 로딩하는 것 및 제 2 검출 임계값 스코어에 기초하여 음성 어시스턴트 애플리케이션 (262) 의 로딩을 확인하는 것을 위해 결정되는 입력 사운드 스트림의 키워드 스코어에서의 변경을 도시하는 그래프이다.
도 10 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림에서 활성화 키워드를 검출하는 것에 응답하여 웹 브라우저 애플리케이션을 활성화하는 이동 디바이스를 도시한다.
도 11 은 본 개시의 하나의 실시형태에 따른, 전자 디바이스 내의 확인 센서에 의해 생성된 센서 데이터에 기초하여 웹 브라우저 애플리케이션을 활성화하도록 구성된 전자 디바이스의 블록도를 도시한다.
도 12 는 본 개시의 하나의 실시형태에 따른, 활성화 키워드를 검출함으로써 목표 애플리케이션을 활성화하는 것 및 전자 디바이스의 콘텍스트를 나타내는 센서 데이터에 기초하여 목표 애플리케이션을 활성화할지 여부를 확인하는 것을 위한 방법의 플로우챠트를 도시한다.
도 13 은 활성화 키워드를 검출하는 때에 목표 애플리케이션을 활성화하는 방법들 및 장치들이 본 개시의 일부 실시형태에 따라 구현되는 예시의 전자 디바이스의 블록도이다.
이제 첨부하는 도면들에서 도시되는 여러 실시형태들, 예들에 대한 참조가 상세히 행해질 것이다. 다음의 상세한 설명에서, 다수의 특정의 상세들은 본 주제의 철저한 이해를 제공하기 위해 진술된다. 그러나, 본 기술분야의 통상의 기술자에게는 본 주제가 이들 특정의 상세들 없이 실시될 수도 있다는 것이 분명할 것이다. 다른 예들에서, 잘 알려진 방법들, 절차들, 시스템들, 및 컴포넌트들은 여러 실시형태들의 양태들을 불필요하게 모호하게 하지 않도록 상세히 기술되지 않았다.
도 1 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림에서의 활성화 키워드에 응답하여 음성 어시스턴트 애플리케이션 (130) 을 활성화하는 이동 디바이스 (120) 를 도시한다. 처음에, 이동 디바이스 (120) 는 이동 디바이스 (120) 내의 음성 어시스턴트 애플리케이션 (130) 과 같은 애플리케이션을 활성화하기 위한 활성화 키워드를 저장할 수도 있다. 도시된 실시형태에서, 사용자 (110) 가 이동 디바이스 (120) 에게 "음성 어시스턴트 시작" 과 같은 활성화 키워드를 스피킹하는 경우, 이동 디바이스 (120) 는 입력 사운드 스트림을 캡쳐하고 그 입력 사운드 스트림에서 활성화 키워드를 검출할 수도 있다. 여기서 사용된 바와 같은, 용어 "사운드 스트림" 은 하나 이상의 사운드 신호들 또는 사운드 데이터의 시퀀스를 지칭할 수도 있고, 아날로그, 디지털, 및 음향 신호들 또는 데이터를 포함할 수도 있다.
활성화 키워드를 검출하는 때에, 이동 디바이스 (120) 는 이동 디바이스 (120) 의 버퍼 메모리에서 입력 사운드 스트림의 부분을 버퍼링할 수도 있다. 예를 들어, 사용자 (110) 는 음성 어시스턴트 애플리케이션 (130) 의 기능과 연관된 스피치 커맨드를 스피킹할 수도 있다. 음성 어시스턴트 애플리케이션 (130) 은 인터넷 상에서 검색을 수행하는 것, 알람들을 설정하는 것, 스케쥴들을 관리하는 것 등과 같은 임의의 적합한 수의 기능들을 수행하도록 구성될 수도 있고, 이들 각각은 스피치 커맨드와 연관될 수도 있다. 도시된 실시형태에서, 사용자 (110) 는 스피치 커맨드로서 "오늘 날씨는 어떤가요" 라고 스피킹하고, 입력 사운드 스트림에서의 스피치 커맨드의 적어도 일부는 버퍼 메모리에 버퍼링될 수도 있다.
일단 스피치 커맨드의 적어도 일부를 포함하는 입력 사운드 스트림의 부분이 버퍼링되면, 이동 디바이스 (120) 는 도 4 를 참조하여 더욱 상세히 이하에 기술되는 바와 같이, 입력 사운드 스트림의 버퍼링된 부분에 기초하여 음성 어시스턴트 애플리케이션 (130) 을 활성화할지 여부를 확인할 수도 있다. 예를 들어, 이동 디바이스 (120) 는 입력 사운드 스트림의 버퍼링된 부분의 신호대 잡음비 (SNR) 및/또는 스피치 특징들에 기초하여 음성 어시스턴트 애플리케이션 (130) 을 활성화할지 여부를 확인할 수도 있다. 음성 어시스턴트 애플리케이션 (130) 의 활성화가 입력 사운드 스트림의 버퍼링된 부분에 기초하여 확인되지 않는 경우, 이동 디바이스 (120) 는 활성화 키워드를 검출하기 위해 다음의 입력 사운드 스트림을 수신하도록 진행할 수도 있다.
한편, 음성 어시스턴트 애플리케이션 (130) 의 활성화가 확인되는 경우, 이동 디바이스 (120) 는 입력 사운드 스트림의 버퍼링된 부분에서 스피치 커맨드를 인식하기 위해 음성 어시스턴트 애플리케이션 (130) 을 활성화할 수도 있다. 도시된 실시형태에서, 음성 어시스턴트 애플리케이션 (130) 은 입력 사운드 스트림의 버퍼링된 부분으로부터 스피치 커맨드 "오늘 날씨는 어떤가요" 를 인식할 수도 있다. 그 스피치 커맨드를 인식한 때에, 음성 어시스턴트 애플리케이션 (130) 은 인터넷을 통해 날씨에 대한 검색 기능을 수행하고 사용자 (110) 를 위해 날씨 정보를 디스플레이할 수도 있다. 일부 실시형태들에서, 이동 디바이스 (120) 는 사용자의 입력 사운드로부터 활성화 키워드들을 검출하는데 사용하기 위한 복수의 활성화 키워드들을 저장할 수도 있다. 이러한 경우에, 활성화 키워드들 각각은 이동 디바이스 (120) 에서 활성화 키워드와 연관된 애플리케이션을 활성화하도록 구성될 수도 있다.
도 2 는 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림에서 활성화 키워드를 검출한 때에 스피치 커맨드를 포함하는 입력 사운드 스트림의 부분을 버퍼링함으로써 음성 어시스턴트 애플리케이션 (262) 을 활성화하도록 구성된 전자 디바이스 (200) 의 블록도를 도시한다. 여기서 사용된 바와 같이, 용어 "활성화 키워드" 는 이동 디바이스 (120) 에서 기능을 수행하기 위한 음성 어시스턴트 애플리케이션 (262) 을 나타내는 스피커로부터 말하여진 하나 이상의 단어들 또는 사운드를 지칭할 수도 있고, 용어 "스피치 커맨드" 는 음성 어시스턴트 애플리케이션 (262) 에 의해 수행될 수도 있는 기능을 나타내는 스피커로부터 말하여진 하나 이상의 단어들 또는 사운드를 지칭할 수도 있다. 전자 디바이스 (200) 는 사운드 센서 (210), I/O (입력/출력) 유닛 (220), 통신 유닛 (230), 프로세서 (240), 및 스토리지 유닛 (260) 을 포함할 수도 있다. 전자 디바이스 (200) 는 셀룰러 폰, 스마트폰 (예를 들어, 이동 디바이스 (120)), 개인용 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 텔레비젼, 게이밍 디바이스, 멀티미디어 플레이어, 스마트 안경, 착용가능 컴퓨터 등과 같은 사운드 캡쳐링 및 프로세싱 능력들이 구비된 임의의 적합한 디바이스일 수도 있다.
프로세서 (240) 는 전자 디바이스 (200) 를 관리하고 동작시키는 애플리케이션 프로세서 (AP), 중앙 프로세싱 유닛 (CPU), 또는 마이크로프로세서 유닛 (MPU) 일 수도 있고, 디지털 신호 프로세서 (DSP) (250) 를 포함할 수도 있다. DSP (250) 는 음성 활성화 유닛 (252) 및 버퍼 메모리 (254) 를 포함할 수도 있다. 하나의 실시형태에서, DSP (250) 는 사운드 스트림들을 프로세싱하는데 있어서의 전력 소비를 감소시키는 저전력 프로세서일 수도 있다. 이러한 구성에서, DSP (250) 내의 음성 활성화 유닛 (252) 은 입력 사운드 스트림 내의 활성화 키워드에 응답하여 스토리지 유닛 (260) 에 저장되는 음성 어시스턴트 애플리케이션 (262) 을 활성화하도록 구성될 수도 있다. 하나의 실시형태에 따르면, 음성 활성화 유닛 (252) 은 음성 어시스턴트 애플리케이션 (262) 을 로딩 및 론칭함으로써 (도 2 에서 화살표로 표시된 바와 같이) 음성 어시스턴트 애플리케이션 (262) 을 차례로 활성화할 수도 있는 프로세서 (240) 를 활성화할 수도 있다. 음성 활성화 유닛 (252) 이 도시된 실시형태에서 음성 어시스턴트 애플리케이션 (262) 을 활성화하도록 구성될지라도, 그것은 또한 활성화 키워드와 연관될 수도 있는 전자 디바이스 (200) 의 임의의 기능 또는 애플리케이션을 활성화할 수도 있다.
사운드 센서 (210) 는 입력 사운드 스트림을 수신하고 DSP (250) 로 수신된 입력 사운드 스트림을 제공하도록 구성될 수도 있다. 사운드 센서 (210) 는 사운드를 수신, 캡쳐, 감지, 및/또는 검출하기 위해 사용될 수 있는 하나 이상의 마이크로폰들 또는 다른 타입들의 사운드 센서들을 포함할 수도 있다. 또, 사운드 센서 (210) 는 그러한 기능들을 수행하기 위한 임의의 적합한 소프트웨어 및/또는 하드웨어를 채용할 수도 있다.
전력 소비를 감소시키는 것을 위해, 사운드 센서 (210) 는 듀티 사이클에 따라 주기적으로 입력 사운드 스트림을 수신하도록 구성될 수도 있다. 예를 들어, 사운드 센서 (210) 는 입력 사운드 스트림이 그 시간의 10% (예를 들어, 200 ms 주기에서 20 ms) 에서 수신되도록 10% 듀티 사이클로 동작할 수도 있다. 이러한 경우에, 사운드 센서 (210) 는 입력 사운드 스트림의 수신된 부분이 미리 결정된 임계 사운드 강도를 초과하는지 여부를 결정함으로써 사운드를 검출할 수도 있다. 예를 들어, 입력 사운드 스트림의 수신된 부분의 사운드 강도가 결정되고 미리 결정된 임계 사운드 강도와 비교될 수도 있다. 수신된 부분의 사운드 강도가 임계 사운드 강도를 초과하는 경우, 사운드 센서 (210) 는 입력 사운드 스트림의 나머지 부분으 수신하는 것을 계속하기 위해 듀티 사이클 기능을 디스에이블할 수도 있다. 또, 사운드 센서 (210) 는 DSP (250) 를 활성화하고 DSP (250) 로 나머지 부분을 포함하는 입력 사운드 스트림의 수신된 부분을 제공할 수도 있다.
DSP (250) 가 사운드 센서 (210) 에 의해 활성화되는 경우, 음성 활성화 유닛 (252) 은 사운드 센서 (210) 로부터 입력 사운드 스트림을 계속해서 수신하고 음성 어시스턴트 애플리케이션 (262) 을 활성화하기 위해 수신된 입력 사운드 스트림에서 활성화 키워드 (예를 들어, "음성 어시스턴트 시작") 를 검출하도록 구성될 수도 있다. 활성화 키워드를 검출하기 위해, 음성 활성화 유닛 (252) 은 은닉 마르코프 모델 (HMM), 세미-마르코프 모델 (SMM), 또는 이들의 조합과 같은 마르코프 체인 모델에 기초하여 임의의 적합한 키워드 검출 방법들을 채용할 수도 있다.
하나의 실시형태에서, 스토리지 유닛 (260) 은 음성 어시스턴트 애플리케이션 (262) 을 활성화하고 음성 어시스턴트 애플리케이션 (262) 의 기능을 수행하기 위해 사용될 수도 있는 하나 이상의 활성화 키워드들 및 스피치 커맨드들을 위한 복수의 단어들을 저장할 수도 있다. 또, 스토리지 유닛 (260) 은 단어들의 복수의 부분들과 연관된 복수의 상태들에 대한 상태 정보를 저장할 수도 있다. 하나의 실시형태에 따르면, 활성화 키워드들 및 스피치 커맨드들을 위한 단어들 각각은 단음들, 음소들, 또는 이들의 서브유닛들과 같은 사운드의 복수의 기본 유닛들로 분할될 수도 있고, 단어들 각각의 복수의 부분들은 사운드의 기본 유닛들에 기초하여 생성될 수도 있다. 단어들 각각의 각 부분은 그 후 HMM, SMM, 또는 이들의 조합과 같은 마르코프 체인 모델 하에서 상태와 연관될 수도 있다.
스토리지 유닛 (260) 은 또한 프로세서 (240) 에 의해 액세스될 수 있는 음성 어시스턴트 애플리케이션 (262) 을 저장할 수도 있다. 스토리지 유닛 (260) 이 도시된 실시형태에서 음성 어시스턴트 애플리케이션 (262) 을 저장할지라도, 그것은 또한 프로세서 (240) 에 의해 실행될 수 있는 전자 디바이스 (200) 의 임의의 다른 애플리케이션들 또는 기능들을 저장할 수도 있다. 스토리지 유닛 (260) 은 RAM (Random Access Memory), ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), 플래시 메모리, 또는 SSD (Solid State Drive) 와같은 임의의 적합한 스토리지 또는 메모리 디바이스들을 사용하여 구현될 수도 있다.
활성화 키워드를 검출한 때에, 음성 활성화 유닛 (252) 은 DSP (250) 의 버퍼 메모리 (254) 에 사운드 센서 (210) 로부터 수신된 입력 사운드 스트림의 부분을 버퍼링 (또는 일시적으로 저장) 하도록 구성될 수도 있다. 버퍼 메모리 (254) 는 로컬 메모리 또는 캐시 메모리와 같은 프로세서 내의 임의의 적합한 스토리지 또는 메모리 스킴들을 사용하여 구현될 수도 있다. DSP (250) 가 도시된 실시형태에서 버퍼 메모리 (254) 를 포함하더라도, 버퍼 메모리 (254) 는 스토리지 유닛 (260) 내의 메모리 영역으로서 구현될 수도 있다. 일부 실시형태들에서, 버퍼 메모리 (254) 는 복수의 물리적 메모리 영역들 또는 복수의 논리적 메모리 영역들을 사용하여 구현될 수도 있다.
입력 사운드 스트림의 부분이 사운드 센서 (210) 로부터 수신됨에 따라, 음성 활성화 유닛 (252) 은 버퍼 메모리 (254) 에 스피치 커맨드의 적어도 일부를 버퍼링할 수도 있다. 예를 들어, 버퍼링된 부분은 음성 어시스턴트 애플리케이션 (262) 의 기능을 나타내는 스피치 커맨드 (예를 들어, "오늘 날씨는 어떤가요") 의 전부 또는 대부분을 포함할 수도 있다. 일부 실시형태들에서, 입력 사운드 스트림의 수신된 부분은 스피치 커맨드의 종료 (end) 이 검출될 때까지 버퍼 메모리 (254) 에 계속 버퍼링될 수도 있다.
버퍼 메모리 (254) 내의 입력 사운드 스트림의 버퍼링된 부분을 액세스할 때, 음성 활성화 유닛 (252) 은 활성화 키워드를 검출하는 것에 응답하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다. 예를 들어, 음성 어시스턴트 애플리케이션 (262) 은 입력 사운드 스트림의 버퍼링된 부분의 사운드 특징들에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다. 음성 어시스턴트 애플리케이션 (262) 의 활성화가 확인되는 경우, 음성 활성화 유닛 (252) 은 프로세서 (240) 를 활성화할 수도 있고, 그것은 차례로 스토리지 유닛 (260) 을 액세스함으로써 음성 어시스턴트 애플리케이션 (262) 을 활성화할 수도 있다.
일단 음성 어시스턴트 애플리케이션 (262) 이 음성 활성화 유닛 (252) 에 의해 활성화되면, 음성 어시스턴트 애플리케이션 (262) 은 HMM, SMM 등에 기초하여 임의의 적합한 스피치 인식 방법들을 사용하여 스피치 커맨드를 인식함으로써 음성 어시스턴트 기능을 수행할 수도 있다. 하나의 실시형태에서, 음성 어시스턴트 애플리케이션 (262) 은 버퍼 메모리 (254) 에 저장되는 입력 사운드 스트림의 버퍼링된 부분으로부터 스피치 커맨드를 인식할 수도 있다. 일부 실시형태들에서, 입력 사운드 스트림의 버퍼링된 부분은 버퍼 메모리 (254) 로부터 스토리지 유닛 (260) 또는 프로세서 (240) 내의 로컬 메모리 (도시하지 않음) 로 복사될 수도 있고, 이것은 스피치 커맨드를 인식하기 위해 활성화된 음성 어시스턴트 애플리케이션 (262) 에 의해 액세스될 수도 있다.
입력 사운드 스트림의 버퍼링된 부분으로부터 스피치 커맨드를 인식한 때에, 음성 어시스턴트 애플리케이션 (262) 은 그 인식된 스피치 커맨드와 연관된 기능을 수행할 수도 있다. 예를 들어, 인터넷 검색을 위한 스피치 커맨드가 수신되는 경우, 음성 어시스턴트 애플리케이션 (262) 은 네트워크 (270) 을 통해 통신 유닛 (230) 을 통해 웹 검색을 수행할 수도 있다. 이러한 경우에, 스피치 커맨드에 대한 검색 결과들은 I/O 유닛 (220) 의 디스플레이 스크린상에 출력될 수도 있다.
도 3 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림을 버퍼링하기 위한 복수의 버퍼 유닛들 (310 및 320) 을 포함하는 버퍼 메모리 (254) 의 상세 블록도를 도시한다. 버퍼 유닛들 (310 및 320) 은 버퍼 메모리 (254) 내의 물리적 또는 논리적 메모리 블록들로서 구현될 수도 있다. 버퍼 메모리 (254) 가 도시된 실시형태에서 2 개의 버퍼 유닛들 (310 및 320) 을 포함하더라도, 버퍼 메모리 (254) 는 임의의 적합한 수의 버퍼 유닛들을 포함할 수도 있다.
버퍼 유닛들 (310 및 320) 이 논리적 메모리 블록들로 구현되는 경우, 버퍼 유닛들 (310 및 320) 은 버퍼 유닛들 (310 및 320) 에 대한 임의의 적합한 정보 또는 데이터 (예를 들어, 수신된 입력 사운드 스트림의 부분) 가 버퍼링 (또는 저장) 될 수도 있는 물리적 메모리의 미리 결정된 메모리 어드레스 범위를 공유할 수도 있다. 이러한 경우에, 복수의 포인터들이 그 메모리 어드레스 범위 내에서 각각 복수의 어드레스들, 또는 데이터의 로케이션들을 참조하도록 할당될 수도 있다. 포인터가 버퍼 유닛 (310) 에 대해 버퍼링된 정보 또는 데이터를 참조하기 위해 할당될 수도 있는 반면, 상이한 포인터는 버퍼 유닛 (320) 에 대해 버퍼링된 정보 또는 데이터를 참조하기 위해 할당될 수도 있다. 대안적으로, 동일한 메모리 어드레스가 버퍼 유닛들 (310 및 320) 에 저장된 상이한 데이터를 참조하기 위해 할당될 수도 있고, 미리 결정된 데이터 관리 동작이 버퍼 유닛들 (310 및 320) 각각에 대해 데이터를 저장, 유지, 액세스, 및/또는 취출하기 위해 수행될 수도 있다.
입력 사운드 스트림이 수신됨에 따라, 사운드 센서 (210) 는 버퍼 유닛 (310) 에 입력 사운드 스트림을 버퍼링하기를 시작할 수도 있는 DSP (250) 로 입력 사운드 스트림을 제공할 수도 있다. 버퍼 유닛 (310) 은 활성화 키워드를 검출함에 있어서 사용하기 위한 활성화 키워드의 적어도 일부를 포함하는 입력 사운드 스트림을 버퍼링 (또는 일시적으로 저장) 하도록 구성될 수도 있다. 버퍼 유닛 (310) 내의 입력 사운드 스트림의 버퍼링된 부분으로부터, 음성 활성화 유닛 (252) 은 활성화 키워드를 검출할 수도 있다. 활성화 키워드를 검출한 때에, DSP (250) 는 버퍼 유닛 (310) 에 입력 사운드 스트림을 버퍼링하기를 중단할 수도 있다.
활성화 키워드가 검출되는 경우, DSP (250) 는 사운드 센서 (210) 로부터 입력 사운드 스트림을 계속 수신하고 버퍼 유닛 (320) 에 입력 사운드 스트림을 버퍼링하기 시작할 수도 있다. 하나의 실시형태에서, DSP (250) 는 스피치 커맨드의 적어도 일부를 포함할 수도 있는 버퍼 유닛 (320) 에 입력 사운드 스트림의 부분을 수신 및 버퍼링 (또는 일시적으로 저장) 할 수도 있다. 입력 사운드 스트림이 버퍼 유닛 (320) 에 버퍼링됨에 따라, 음성 활성화 유닛 (252) 은 버퍼 유닛 (320) 에 입력 사운드 스트림의 버퍼링된 부분을 액세스하고 그 버퍼링된 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다.
도 4 는 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림의 버퍼링된 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인하도록 구성되는 전자 디바이스 (200) 의 음성 활성화 유닛 (252) 의 상세 블록도를 도시한다. 음성 활성화 유닛 (252) 은 키워드 검출 유닛 (410) 및 확인 유닛 (420) 을 포함할 수도 있다. 도시된 바와 같이, 음성 활성화 유닛 (252) 은 활성화 키워드를 검출하고 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인하기 위해 사운드 센서 (210) 로부터 입력 사운드 스트림을 수신할 수도 있다. 버퍼 메모리 (254) 는 활성화 키워드를 검출하고 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인함에 있어서 사용하기 위해 입력 사운드 스트림의 적어도 일부를 버퍼링할 수도 있다. 하나의 실시형태에서, 버퍼 메모리 (254) 는 도 3 을 참조하여 상술된 바와 같이, 각각 활성화 키워드의 적어도 일부 및 스피치 커맨드의 적어도 일부를 버퍼링하기 위한 버퍼 유닛들 (310 및 320) 을 포함할 수도 있다.
입력 사운드 스트림이 수신되고 버퍼 메모리 (254) 에 버퍼링됨에 따라, 음성 활성화 유닛 (252) 내의 키워드 검출 유닛 (410) 은 버퍼 메모리 (254) 를 액세스하고 HMM, SMM 등에 기초한 임의의 적합한 키워드 검출 방법들을 사용함으로써 입력 사운드 스트림의 버퍼링된 부분으로부터 활성화 키워드를 검출할 수도 있다. 일부 실시형태들에서, 입력 사운드 스트림이 수신 및 버퍼링됨에 따라, 키워드 검출 유닛 (410) 은 가우시안 혼합 모델 (GMM), 신경망, 서포트 벡터 머신 (SVM) 등과 같은 임의의 적합한 확률 모델들을 사용함으로써 입력 사운드 스트림의 버퍼링된 부분에 대한 복수의 키워드 스코어들을 결정할 수도 있다. 키워드 검출 유닛 (410) 은 키워드 스코어들 각각을 미리 결정된 검출 임계값 스코어와 비교할 수도 있고, 키워드 스코어들 중 하나가 그 검출 임계값 스코어를 초과하는 경우, 활성화 키워드가 입력 사운드 스트림의 버퍼링된 부분으로부터 검출될 수도 있다.
활성화 키워드를 검출한 때에, DSP (250) 는 사운드 센서 (210) 로부터 입력 사운드 스트림을 계속 수신하고 버퍼 메모리 (254) 에 수신된 입력 사운드 스트림을 버퍼링하기 시작할 수도 있다. 이러한 경우에, 버퍼 메모리 (254) 에 버퍼링되는 입력 사운드 스트림의 부분은 전자 디바이스 (200) 의 사용자로부터 스피치 커맨드의 적어도 일부를 포함할 수도 있다. 일부 실시형태들에서, DSP (250) 는 스피치 커맨드의 버퍼링된 부분으로부터 스피치 커맨드의 종료를 검출하고 버퍼 메모리 (254) 에 입력 사운드 스트림을 버퍼링하기를 종료할 수도 있다. 스피치 커맨드의 종료는 임의의 적합한 음성 활동 검출 (voice activity detection: VAD) 방법들을 사용함으로써 검출될 수도 있다. 하나의 실시형태에 따르면, 스피치 커맨드의 종료는 입력 사운드 스트림의 버퍼링된 부분의 사운드 강도를 분석함으로써 검출될 수도 있다. 예를 들어, 사운드 강도가 미리 결정된 강도 값 아래로 감소하는 경우, 스피치 커맨드의 종료가 검출될 수도 있다. 추가적으로 또는 대안적으로, 스피치 커맨드의 종료는 사운드 강도에서의 급격한 감소 (예를 들어, 사운드 강도의 변경에서의 에지) 가 검출될 때 검출될 수도 있다. 스피치 커맨드의 종료를 검출한 때에, DSP (250) 는 음성 활성화 유닛 (252) 내의 확인 유닛 (420) 에게 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인하도록 명령할 수도 있다.
스피치 커맨드의 종료가 검출되는 경우, 확인 유닛 (420) 은 버퍼 메모리 (254) 내에 버퍼링된 스피치 커맨드의 적어도 일부를 포함하는 입력 사운드 스트림의 부분을 액세스하고 버퍼링된 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다. 하나의 실시형태에서, 확인 유닛 (420) 은 GMM-기반 분류기, 신경망, HMM, 그래픽적 모델, SVM 기법 등과 같은 임의의 적합한 사운드 분류 방법들을 사용함으로써 입력 사운드 스트림의 버퍼링된 부분이 스피치를 포함하는지 여부를 결정할 수도 있다. 입력 사운드 스트림의 버퍼링된 부분이 스피치를 포함한다고 결정되는 경우, 확인 유닛 (420) 은 음성 어시스턴트 애플리케이션 (262) 의 활성화를 확인할 수도 있다.
하나의 실시형태에서, 확인 유닛 (420) 은 또한 입력 사운드 스트림의 버퍼링된 부분 내의 스피치가 활성화 키워드의 스피커를 나타내는지 여부를 결정할 수도 있다. 이러한 경우에, 사운드 피쳐들 및/또는 오디오 핑거프린트들과 같은 사운드 특징들은 활성화 키워드 및 입력 사운드 스트림의 버퍼링된 부분 내의 스피치로부터 추출될 수도 있다. 활성화 키워드로부터의 사운드 특징들은 그 후 스피치 커맨드로부터의 사운드 특징들과 비교될 수도 있고, 사운드 특징들이 동일하거나 유사한 것으로 결정되는 경우, 음성 어시스턴트 애플리케이션 (262) 의 활성화가 확인될 수도 있다.
다른 실시형태에서, 확인 유닛 (420) 은 스피치 커맨드의 부분을 VHG마하는 입력 사운드 스트림의 버퍼링된 부분의 신호대 잡음비 (SNR) 를 결정할 수도 있다. 이러한 경우에, 버퍼링된 부분의 SNR 이 미리 결정된 임계 SNR 보다 큰 것으로 결정되는 경우, 확인 유닛 (420) 은 음성 어시스턴트 애플리케이션 (262) 의 활성화를 확인할 수도 있다. 상기 실시형태들에서, 확인 유닛 (420) 은 스피치 커맨드의 종료가 검출되기 전후에 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인하기 위해 버퍼 메모리 (254) 에 액세스할 수도 있다.
일부 실시형태들에 따르면, 스피치 커맨드는 활성화 키워드를 취소하는 것을 나타내는 하나 이상의 미리 결정된 단어들 (예를 들어, "CANCEL", "NEVER MIND", 및 "FORGET IT") 을 포함할 수도 있다. 예를 들어, 전자 디바이스 (200) 근처의 사람 또는 사용자는 우연히 또는 의도하지 않게 활성화 키워드 (예를 들어, "음성 어시스턴트 시작") 를 스피킹할 수도 있고, 전자 디바이스 (200) 근처의 그 사람 또는 그 사용자는 음성 어시스턴트 애플리케이션 (262) 의 활성화를 회피하기 위해 그러한 미리 결정된 단어들을 스피킹함으로써 활성화 키워드를 취소할 수도 있다. 하나 이상의 취소 단어들은 또한 취소 커맨드로서 지칭될 수도 있다. 하나 이상의 취소 단어들을 포함하는 입력 사운드 스트림이 수신되고 버퍼 메모리 (254) 에 버퍼링됨에 따라, 확인 유닛 (420) 은 그 취소 단어들을 포함하는 버퍼링된 입력 사운드 스트림을 액세스하고, 그 버퍼링된 입력 사운드 스트림이 그러한 미리 결정된 단어들을 포함하는지 여부를 결정할 수도 있다. 버퍼링된 입력 사운드 스트림이 활성화 키워드를 취소하는 것을 나타내는 임의의 미리 결정된 단어들을 포함한다고 결정되는 경우, 전자 디바이스 (200) 는 음성 어시스턴트 애플리케이션 (262) 을 활성화하지 않고 활성화 키워드를 검출하기 위해 다음의 입력 사운드 스트림을 수신하도록 진행할 수도 있다. 한편, 버퍼링된 입력 사운드 스트림이 그러한 취소 단어들을 포함하지 않는다고 결정되는 경우, 스피커 또는 사용자가 의도적으로 활성화 키워드를 스피킹했다고 추론될 수도 있고, 확인 유닛 (420) 은 음성 어시스턴트 애플리케이션 (262) 의 활성화를 확인할 수도 있다.
도 5 는 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림에서 활성화 키워드를 검출한 때에 스피치 커맨드를 포함하는 입력 사운드 스트림의 부분을 버퍼링함으로써 음성 어시스턴트 애플리케이션 (262) 을 활성화하는 방법 (500) 의 플로우챠트를 도시한다. 전자 디바이스 (200) 는 510 에서 음성 어시스턴트 애플리케이션 (262) 을 활성화하는 활성화 키워드 및 음성 어시스턴트 애플리케이션 (262) 의 기능을 나타내는 스피치 커맨드를 포함하는 입력 사운드 스트림을 수신할 수도 있다. 예를 들어, 활성화 키워드는 "음성 어시스턴트 시작" 일 수도 있고, 스피치 커맨드는 "오늘 날씨는 어떤가요" 일 수도 있다.
하나의 실시형태에서, 활성화 키워드의 적어도 일부를 포함하는 수신된 입력 사운드 스트림의 부분은 버퍼 메모리 (254) 의 버퍼 유닛 (310) 에 버퍼링될 수도 있다. 전자 디바이스 (200) 의 DSP (250) 내의 음성 활성화 유닛 (252) 은 520 에서 버퍼 유닛 (310) 에 버퍼링된 입력 사운드 스트림의 부분으로부터 활성화 키워드를 검출할 수도 있다. 활성화 키워드가 검출되는 경우, 전자 디바이스 (200) 는 530 에서 버퍼 메모리 (254) 의 버퍼 유닛 (320) 에 입력 사운드 스트림의 일부를 버퍼링할 수도 있다. 버퍼 유닛 (320) 에 버퍼링된 입력 사운드 스트림의 부분은 스피치 커맨드의 적어도 일부를 포함할 수도 있다.
전자 디바이스 (200) 는 540 에서 활성화 키워드와 연관된 음성 어시스턴트 애플리케이션 (262) 을 활성화할 수도 있다. 하나의 실시형태에 따르면, 음성 활성화 유닛 (252) 은 버퍼 유닛 (320) 에 버퍼링된 입력 사운드 스트림의 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다. 이러한 실시형태에서, 음성 활성화 유닛 (252) 은 음성 어시스턴트 애플리케이션 (262) 의 활성화가 확인되는 경우 음성 어시스턴트 애플리케이션 (262) 을 활성화할 수도 있다. 일단 음성 어시스턴트 애플리케이션 (262) 이 활성화되면, 버퍼 유닛 (320) 에 버퍼링된 입력 사운드 스트림의 부분은 그 버퍼링된 부분으로부터 스피치 커맨드를 인식하고 인식된 스피치 커맨드와 연관된 음성 어시스턴트 애플리케이션 (262) 의 기능을 수행하기 위해 음성 어시스턴트 애플리케이션 (262) 에 의해 액세스될 수도 있다.
도 6 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림 (610) 에서 활성화 키워드 (620) 가 검출될 때 스피치 커맨드 (630) 를 포함하는 입력 사운드 스트림 (610) 의 부분 (642, 644, 또는 646) 을 버퍼링하는 타이밍도 (600) 이다. 도시된 바와 같이, 전자 디바이스 (200) 는 활성화 키워드 (620) 및 스피치 커맨드 (630) 를 포함하는 입력 사운드 스트림 (610) 을 수신할 수도 있다. 타이밍도 (600) 에서, 입력 사운드 스트림 (610) 내의 활성화 키워드 (620) 는 시간 (T1) 으로부터 시간 (T2) 까지 수신될 수도 있다. 따라서, 시간 (T1) 및 시간 (T2) 은 입력 사운드 스트림 (610) 내의 활성화 키워드 (620) 의, 각각, 시작 및 종료에 대응할 수도 있다. 후속적으로, 입력 사운드 스트림 (610) 내의 스피치 커맨드 (630) 는 시간 (T3) 으로부터 시간 (T4) 까지 수신될 수도 있다. 이러한 경우에, 시간 (T3) 및 시간 (T4) 은 입력 사운드 스트림 (610) 내의 스피치 커맨드 (630) 의, 각각, 시작 및 종료에 대응할 수도 있다.
입력 사운드 스트림 (610) 은 전자 디바이스 (200) 내의 사운드 센서 (210) 에 의해 수신되고, 활성화 키워드 (620) 를 검출하고 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인하기 위해 DSP (250) 로 제공될 수도 있다. 하나의 실시형태에서, 전자 디바이스 (200) 의 사운드 센서 (210) 는 입력 사운드 스트림 (610) 이 듀티 사이클에 기초하여 미리 결정된 사운드 강도를 초과하는 사운드를 포함하는지 여부를 결정하도록 구성될 수도 있다. 이러한 경우에, 수신된 입력 사운드 스트림 (610) 이 미리 결정된 사운드 강도를 초과하는 사운드를 포함한다고 결정되는 경우, 사운드 센서 (210) 의 듀티 사이클 기능은 사운드 센서 (210) 가 입력 사운드 스트림 (610) 을 계속해서 수신하고 DSP (250) 로 제공할 수 있도록 디스에이블될 수도 있다 (즉, 100% 듀티 사이클).
입력 사운드 스트림 (610) 이 사운드 센서 (210) 로부터 수신됨에 따라, DSP (250) 는 버퍼 메모리 (254) 의 버퍼 유닛 (310) 에 수신된 입력 사운드 스트림 (610) 을 버퍼링하고 버퍼 유닛 (310) 에 버퍼링되는 입력 사운드 스트림 (610) 으로부터 활성화 키워드 (620) 를 검출할 수도 있다. 도 4 를 참조하여 상술된 바와 같이, DSP (250) 는 버퍼 유닛 (310) 내의 입력 사운드 스트림 (610) 의 버퍼링된 부분에 대한 복수의 키워드 스코어들을 결정하고 그 키워드 스코어들을 검출 임계값 스코어와 비교함으로써 활성화 키워드 (620) 를 검출할 수도 있다. 타이밍도 (600) 에서, 활성화 키워드 (620) 는 입력 사운드 스트림 (610) 에서의 전체 활성화 키워드 (620) 를 수신하기 전에 시간 (TD) 에서 입력 사운드 스트림 (610) 의 버퍼링된 부분으로부터 검출될 수도 있다. 다른 실시형태들에서, 활성화 키워드 (620) 는 입력 사운드 스트림 (610) 에서의 전체 활성화 키워드 (620) 를 수신한 때에 시간 (T2) 에서 검출될 수도 있다.
활성화 키워드 (620) 가 검출되는 경우, DSP (250) 는 버퍼 메모리 (254) 의 버퍼 유닛 (320) 에 사운드 센서 (210) 로부터 수신된 입력 사운드 스트림 (610) 을 버퍼링하기 시작할 수도 있다. 하나의 실시형태에서, DSP (250) 는 시간 (TD) 에서 활성화 키워드를 검출한 때에 버퍼 유닛 (320) 에 입력 사운드 스트림 (610) 을 버퍼링하기 시작할 수도 있다. DSP (250) 는 스피치 커맨드 (630) 의 종료가 시간 (T4) 에서 검출될 때까지 버퍼 유닛 (320) 에 입력 사운드 스트림 (610) 을 계속 버퍼링할 수도 있다. 결과로서, 입력 사운드 스트림 (610) 의 부분 (642) 은 시간 (TD) 에서 부터 시간 (T4) 까지의 주기 동안 버퍼 유닛 (320) 에 버퍼링될 수도 있다.
다른 실시형태에서, DSP (250) 는 시간 (T2) 에서 음성 활성화 키워드의 종료를 검출한 때에 버퍼 유닛 (320) 에 입력 사운드 스트림 (610) 을 버퍼링하기 시작할 수도 있다. 예를 들어, DSP (250) 는 버퍼 유닛 (310) 내의 입력 사운드 스트림 (610) 의 버퍼링된 부분에 대한 복수의 키워드 스코어들을 결정하고 그 키워드 스코어들을 종료 임계값 스코어와 비교함으로써 활성화 키워드 (620) 의 종료를 검출할 수도 있으며, 이것은 도 7 을 참조하여 상세하게 이하에 기술될 것이다. 일부 실시형태들에서, DSP (250) 내의 음성 활성화 유닛 (252) 은 활성화 키워드 (620) 의 종료를 검출하도록 구성될 수도 있다. 입력 사운드 스트림 (610) 은 스피치 커맨드 (630) 의 종료가 시간 (T4) 에서 검출될 때까지 버퍼링될 수도 있다. 이에 따라, 입력 사운드 스트림 (610) 의 부분 (644) 은 시간 (T2) 에서 부터 시간 (T4) 까지의 주기 동안 버퍼 유닛 (320) 에 버퍼링될 수도 있다.
일부 실시형태들에 따르면, DSP (250) 는 시간 (T3) 에서 스피치 커맨드 (630) 의 시작을 검출한 때에 버퍼 유닛 (320) 에 입력 사운드 스트림 (610) 을 버퍼링하기 시작할 수도 있다. 이러한 경우, 시간 (T2) 에서 활성화 키워드 (620) 의 종료를 검출한 후, DSP (250) 는 임의의 적합한 VAD 방법들을 사용함으로써 스피치 커맨드 (630) 의 시작을 검출할 수도 있다. 예를 들어, 시간 (T2) 에서 활성화 키워드 (620) 의 종료를 검출한 후, DSP (250) 는 버퍼 유닛 (310) 에 시간 (T2) 후에 수신되는 입력 사운드 스트림 (610) 을 버퍼링할 수도 있다. 입력 사운드 스트림 (610) 이 시간 (T2) 후에 버퍼링되고 있음에 따라, DSP (250) 는 버퍼링된 입력 사운드 스트림 (610) 의 사운드 강도를 주기적으로 또는 비주기적으로 결정하고 그 사운드 강도를 미리 결정된 임계 사운드 강도와 비교할 수도 있다. 사운드 강도가 임계 사운드 강도를 초과하는 경우, DSP (250) 는 스피치 커맨드 (630) 의 시작을 검출할 수도 있다. 대안적으로 또는 추가적으로, 스피치 커맨드 (630) 의 종료는 사운드 강도에서의 급격한 증가 (예를 들어, 사운드 강도의 변경에서의 에지) 가 검출되는 경우 검출될 수도 있다. 예를 들어, 그러한 증가는 현재의 사운드 강도가 미리 결정된 사운드 강도보다 더 많이 이전의 사운드 강도보다 큰 경우에 검출될 수도 있다. 일부 실시형태들에서, DSP (250) 내의 음성 활성화 유닛 (252) 은 스피치 커맨드 (630) 의 시작을 검출하도록 구성될 수도 있다. 도시된 타이밍도 (600) 에서, 스피치 커맨드 (630) 의 시작이 시간 (T3) 에서 검출되는 경우, DSP (250) 는 시간 (T3) 에서부터 시간 (T4) 까지의 주기 동안 버퍼 유닛 (320) 에 입력 사운드 스트림 (610) 의 부분 (646) 을 버퍼링할 수도 있다.
타이밍도 (600) 가 스피치 커맨드 (630) 의 종료가 검추될 때까지 버퍼 유닛 (310) 에 입력 사운드 스트림 (610) 의 부분 (642, 644, 또는 646) 을 버퍼링하는 것을 도시하지만, DSP (250) 는 도 8 을 참조하여 더 상세히 기술될 바와 같이, 스피치 커맨드 (630) 의 종료가 검출되기 전에 버퍼 유닛 (320) 에 입력 사운드 스트림 (610) 을 버퍼링하기를 종료할 수도 있다. 이에 따라, 버퍼 유닛 (320) 에 버퍼링된 입력 사운드 스트림 (610) 의 부분 (642, 644, 또는 646) 은 스피치 커맨드 (630) 의 적어도 일부를 포함할 수도 있다. 일단 입력 사운드 스트림 (610) 의 부분 (642, 644, 또는 646) 이 버퍼 유닛 (320) 에 버퍼링되면, 음성 활성화 유닛 (252) 은 입력 사운드 스트림 (610) 의 버퍼링된 부분 (642, 644, 또는 646) 에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다.
도 7 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림으로부터의 활성화 키워드 및 입력 사운드 스트림에서의 활성화 키워드의 종료를 검출하기 위해 결정되는 입력 사운드 스트림의 키워드 스코어에서의 변경을 도시하는 그래프이다. 입력 사운드 스트림은 전자 디바이스 (200) 내의 사운드 센서 (210) 에 의해 수신되고 DSP (250) 로 제공될 수도 있다. 입력 사운드 스트림이 사운드 센서 (210) 로부터 수신됨에 따라, DSP (250) 는 버퍼 메모리 (254) 의 버퍼 유닛 (310) 에 수신된 입력 사운드 스트림을 버퍼링할 수도 있다. 입력 사운드 스트림으로부터의 활성화 키워드 및 입력 사운드 스트림에서의 활성화 키워드의 종료를 검출하기 위해, DSP (250) 의 음성 활성화 유닛 (252) 내의 키워드 검출 유닛 (410) 은 버퍼 유닛 (310) 에 버퍼링된 입력 사운드 스트림에 대해 복수의 키워드 스코어들을 주기적으로 또는 비주기적으로 결정할 수도 있다.
하나의 실시형태에서, 입력 사운드 스트림이 수신 및 버퍼링됨에 따라, 키워드 검출 유닛 (410) 은 버퍼링된 입력 사운드 스트림으로부터 복수의 사운드 피쳐들 (예를 들어, 오디오 핑거프린트들 또는 MFCC (Mel-frequency cepstral coefficients) 벡터들) 을 순차적으로 추출할 수도 있다. 이러한 경우, 키워드 스코어는 HMM, SMM 등과 같은 마르코프 체인 모델에 기초하여 임의의 적합한 키워드 검출 방법들을 사용함으로써 사운드 피쳐들의 하나 이상에 대해 결정될 수도 있다. 입력 사운드 스트림 내의 활성화 키워드의 더 많은 부분이 수신 및 버퍼링됨에 따라, 키워드 스코어는 증가할 수도 있고, 활성화 키워드의 실질적으로 전체의 부분이 수신되는 경우 최대 키워드 스코어에 도달할 수도 있다. 도 7 에 도시된 예에서, 키워드 스코어는 입력 사운드 스트림 내의 활성화 키워드의 실질적으로 전체의 부분이 수신 및 버퍼링될 때 시간 (TM) 에서 최대 키워드 스코어에 도달하고, 이후에는 감소한다.
키워드 스코어들 각각은 미리 결정된 검출 임계값 스코어와 비교될 수도 있다. 키워드 검출 유닛 (410) 은 키워드 스코어들 중 적어도 하나가 검출 임계값 스코어를 초과하는 경우 활성화 키워드를 검출할 수도 있다. 검출 임계값 스코어는 버퍼 유닛 (310) 에 버퍼링된 입력 사운드 스트림에 포함되는 활성화 키워드의 검출을 보장하기 위한 스코어를 나타낼 수도 있다. 일부 실시형태들에서, 검출 임계값 스코어는 활성화 키워드의 부분이 입력 사운드 스트림에 포함될 때 활성화 키워드가 검출되도록 설정될 수도 있다. 예를 들어, 활성화 키워드 "음성 어시스턴트 시작" 이 수신되고 있는 동안, 키워드 검출 유닛 (410) 은 버퍼 유닛 (310) 에 버퍼링되는 활성화 키워드의 제 1 부분, 예를 들어 "음성 어시스턴" 으로부터 활성화 키워드를 검출할 수도 있다. 다른 실시형태들에서, 검출 임계값 스코어는 전체 활성화 키워드가 입력 사운드 스트림에 포함되는 경우, 예를 들어, 활성화 키워드의 종료가 수신되는 경우 활성화 스코어가 검출되도록 설정될 수도 있다. 도 7 에 도시된 예에서, 검출 임계값 스코어는 활성화 키워드의 제 1 부분이 수신 및 버퍼링될 때 키워드 검출 유닛 (410) 이 시간 (TD) 에서 활성화 키워드를 검출할 수 있도록 설정된다.
또, DSP (250) 는 입력 사운드 스트림 내의 활성화 키워드의 종료를 검출할 수도 있다. 활성화 키워드의 종료를 검출한 때에, DSP (250) 는 도 6 을 참조하여 상술된 바와 같은 버퍼 메모리 (254) 의 버퍼 유닛 (320) 에, 스피치 커맨드의 적어도 일부를 포함할 수도 있는, 입력 사운드 스트림의 부분을 버퍼링하기 시작할 수도 있다. 하나의 실시형태에서, 시간 (TD) 에서 활성화 키워드를 검출한 후, DSP (250) 는 버퍼 메모리 (254) 의 버퍼 유닛 (310) 에, 사운드 센서 (210) 로부터 수신되는 입력 사운드 스트림을 계속 버퍼링할 수도 있다. DSP (250) 는 버퍼 유닛 (310) 에 버퍼링된 입력 사운드 스트림에 대해 결정된 키워드 스코어들 중 하나 이상에 기초하여 활성화 키워드의 종료를 검출할 수도 있다.
하나의 실시형태에서, DSP (250) 는 버퍼 유닛 (310) 에 버퍼링된 입력 사운드 스트림의 연속적인 부분들로부터 추출된 사운드 피쳐들에 기초하여 복수의 키워드 스코어들을 계산할 수도 있다. 또한, DSP (250) 는 활성화 키워드의 종료를 검추하기 위해 복수의 키워드 스코어들 중 최대 키워드 스코어를 결정할 수도 있다. 예를 들어, DSP (250) 는 최대 키워드 스코어에 대응하는 입력 사운드 스트림의 부분이 수신되는 시간으로부터 미리 결정된 시간 주기가 경과한 시간에 검출되도록 활성화 키워드의 종료를 결정할 수도 있다. 도 7 에 도시된 예에서, DSP (250) 는 최대 키워드 스코어가 시간 (TM) 에서 수신된 입력 사운드 스트림의 부분에 대해 계산된 이래로 미리 결정된 시간 주기 (P) 가 경과한 시간 (TE1) 에서 검출되도록 활성화 키워드의 종료를 결정할 수도 있다.
다른 실시형태에서, 최대 키워드 스코어를 결정한 후, DSP (250) 는 후속적으로 결정된 키워드 스코어들을 미리 결정된 종료 임계값 스코어와 비교함으로써 활성화 키워드의 종료를 검출할 수도 있다. 이러한 경우, 활성화 키워드의 종료는 후속적으로 결정된 키워드 스코어들 중 하나가 종료 임계값 스코어보다 낮은 것으로 결정되는 경우 검출될 수도 있다. 도 7 의 예에서, DSP (250) 는 시간 (TM) 에서 수신된 입력 사운드 스트림의 부분에 대해 계산되는 최대 키워드 스코어를 결정하고, 그 후 시간 (TE2) 에서 활성화 키워드의 종료를 검출하며, 이 때부터 키워드 스코어는 종료 임계값 스코어 아래에 있다.
도 8 은 본 개시의 하나의 실시형태에 따른, 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인하는 것에 응답하여 음성 어시스턴트 애플리케이션 (262) 을 활성화하는 타이밍도 (800) 이다. 도 6 에서의 타이밍도 (600) 과 유사하게, 전자 디바이스 (200) 는 활성화 키워드 (820) 및 스피치 커맨드 (830) 를 포함하는 입력 사운드 스트림 (810) 을 수신할 수도 있다. 타이밍도 (800) 에서, 입력 사운드 스트림 (810) 내의 활성화 키워드 (820) 는 시간 (T1) 에서 시간 (T2) 까지 수신될 수도 있다. 따라서, 시간 (T1) 및 시간 (T2) 은 입력 사운드 스트림 (810) 내의 활성화 키워드 (820) 의, 각각, 시작 및 종료에 대응할 수도 있다. 후속적으로, 입력 사운드 스트림 (810) 내의 스피치 커맨드 (830) 는 시간 (T3) 에서 시간 (T4) 까지 수신될 수도 있다. 따라서, 시간 (T3) 및 시간 (T4) 은 입력 사운드 스트림 (810) 내의 스피치 커맨드 (830) 의, 각각, 시작 및 종료에 대응할 수도 있다.
사운드 센서 (210) 가 입력 사운드 스트림 (810) 을 수신하고 프로세서 (240) 내의 DSP (250) 에 그 수신된 입력 사운드 스트림을 제공함에 따라, DSP (250) 는 버퍼 메모리 (254) 의 버퍼 유닛 (310) 에, 활성화 키워드 (820) 의 적어도 일부를 포함할 수도 있는, 입력 사운드 스트림 (810) 의 부분을 버퍼링할 수도 있다. 또한, DSP (250) 는 버퍼 메모리 (254) 의 버퍼 유닛 (320) 에, 스피치 커맨드 (830) 의 적어도 일부를 포함할 수도 있는, 입력 사운드 스트림 (810) 의 다른 부분을 버퍼링할 수도 있다. DSP (250) 는 스피치 커맨드 (830) 의 종료가 시간 (T4) 에서 검출되는 경우 버퍼 유닛 (320) 에 입력 사운드 스트림 (810) 의 부분을 버퍼링하기를 종료할 수도 있다. DSP (250) 내의 음성 활성화 유닛 (252) 은 그 후 버퍼 유닛 (320) 에 버퍼링된 입력 사운드 스트림 (810) 의 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다. 음성 어시스턴트 애플리케이션 (262) 의 활성화가 확인되는 경우, 음성 활성화 유닛 (252) 은 음성 어시스턴트 애플리케이션 (262) 을 활성화할 수도 있다.
하나의 실시형태에서, DSP (250) 가 시간 (T4) 에서 버퍼 유닛 (320) 에 입력 사운드 스트림 (810) 의 부분을 버퍼링하기를 종료하고, 음성 활성화 유닛 (252) 이 버퍼 유닛 (320) 내의 입력 사운드 스트림 (810) 의 버퍼링된 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 의 활성화를 확인하는 경우, 음성 활성화 유닛 (252) 은 차례로 (도 8 에서 화살표 (840) 로 표시된 바와 같이) 음성 어시스턴트 애플리케이션 (262) 을 로딩할 수도 있는 프로세서 (240) 를 활성화할 수도 있다. 일부 실시형태들에 따르면, 음성 어시스턴트 애플리케이션 (262) 은 스토리지 유닛 (260), 예를 들어, ROM, EEPROM, 또는 플래시 메모리에 초기에 저장될 수도 있다. 또한, 프로세서 (240) 는 프로세서 (240) 에 의해 빠르게 액세스될 수도 있는 일시적 메모리 (또는 작업 메모리), 예를 들어 캐시 메모리 또는 RAM 으로 그 저장된 음성 어시스턴트 애플리케이션 (262) 을 로딩할 수도 있다.
일단 음성 어시스턴트 애플리케이션 (262) 이 로딩되면, 프로세서 (240) 는 스피치 커맨드 (830) 를 인식하고, 인식된 스피치 커맨드 (830) 와 연관되는 음성 어시스턴트 애플리케이션 (262) 의 기능을 수행하기 위해 음성 어시스턴트 애플리케이션 (262) 을 론치한다. 프로세서 (240) 는 일시적 메모리에 로딩되는 음성 어시스턴트 애플리케이션 (262) 에서 코딩된 하나 이상의 명령들을 실행함으로써 음성 어시스턴트 애플리케이션 (262) 을 론치할 수도 있다. 또, 론치된 음성 어시스턴트 애플리케이션 (262) 의 현재의 상태는 전자 디바이스 (200) 의 사용자에게 디스플레이를 위해 I/O 유닛 (220) 에 의해 출력될 수도 있다.
다른 실시형태에서, 음성 활성화 유닛 (252) 은 (도 8 에서 화살표 (850) 로 표시된 바와 같이) 시간 (TD) 에서 활성화 키워드 (820) 를 검출한 때에 음성 어시스턴트 애플리케이션 (262) 의 로딩을 시작하기 위해 프로세서 (240) 를 활성화할 수도 있다. 이러한 경우, DSP (250) 는 시간 (T4) 에서 버퍼 유닛 (320) 에 입력 사운드 스트림 (810) 의 부분을 버퍼링하는 것을 종료하고, 그 후 버퍼 유닛 (320) 내의 입력 사운드 스트림 (810) 의 버퍼링된 부분에 기초하여 그 로딩된 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다. 음성 어시스턴트 애플리케이션 (262) 의 활성화가 확인되는 경우, 프로세서 (240) 는 음성 어시스턴트 애플리케이션 (262) 의 로딩이 완료된 후 음성 어시스턴트 애플리케이션 (262) 을 론치할 수도 있다.
상기 실시형태에서, 프로세서 (240) 에 의한 음성 어시스턴트 애플리케이션 (262) 의 로딩은 시간 (TD) 에서 활성화 키워드 (820) 를 검출한 때에 시작할 수도 있고, DSP (250) 가 시간 (T4) 에서 버퍼 유닛 (320) 에 입력 사운드 스트림 (810) 의 부분을 버퍼링하기를 종료하기 전에 완료될 수도 있다. 예를 들어, 도 8 에 도시된 바와 같이, 음성 어시스턴트 애플리케이션 (262) 의 로딩은 스피치 커맨드 (830) 의 종료가 시간 (T4) 에서 검출되기 전에 시간 (TL) 에서 완료될 수도 있다. 그러한 경우에, 음성 어시스턴트 애플리케이션 (262) 의 로딩은 음성 활성화 유닛 (252) 이 입력 사운드 스트림 (810) 의 버퍼링된 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인하기 전에 완료될 수도 있다. 이에 따라, 음성 어시스턴트 애플리케이션 (262) 의 활성화가 확인되는 경우, 프로세서 (240) 는 음성 어시스턴트 애플리케이션 (262) 이 로딩되기를 대기하지 않고 음성 어시스턴트 애플리케이션 (262) 을 론치할 수도 있다.
일부 실시형태들에 따르면, 프로세서 (240) 에 의한 음성 어시스턴트 애플리케이션 (262) 의 로딩이 스피치 커맨드 (830) 의 종료가 수신되기 전에 (예를 들어, 시간 (TL) 에서) 완료되는 경우, DSP (250) 는 음성 어시스턴트 애플리케이션 (262) 의 로딩을 완료한 때에 버퍼 유닛 (320) 에 입력 사운드 스트림 (810) 의 부분을 버퍼링하기를 종료할 수도 있다. DSP (250) 가 버퍼 유닛 (320) 에 입력 사운드 스트림 (810) 의 부분을 버퍼링하기를 종료한 후, 프로세서 (240) 는 예를 들어 스토리지 유닛 (260) 에 사운드 센서 (210) 로부터 후속적으로 수신되는 입력 사운드 스트림 (810) 의 다른 부분을 버퍼링하기를 시작할 수도 있다. 결과로서, 버퍼 유닛 (320) 에 버퍼링된 입력 사운드 스트림 (810) 의 부분은 스피치 커맨드 (830) 의 제 1 부분을 포함할 수도 있고, 스토리지 유닛 (260) 에 버퍼링된 입력 사운드 스트림 (810) 의 부분은 그 제 1 부분에 후속하는 스피치 커맨드 (830) 의 제 2 부분을 포함할 수도 있다. 버퍼 유닛 (320) 및 스토리지 유닛 (260) 에 버퍼링된 입력 사운드 스트림 (810) 의 부분들은 스피치 커맨드 (830) 와 연관된 기능을 수행하기 위해 음성 어시스턴트 애플리케이션 (262) 에 의해 스피치 커맨드 (830) 를 인식하는데 있어서 사용될 수도 있다.
DSP (250) 가 버퍼 유닛 (320) 에 입력 사운드 스트림 (810) 의 부분을 버퍼링하기를 종료하는 경우, 음성 활성화 유닛 (252) 은 스피치 커맨드 (830) 의 제 1 부분을 포함하는 버퍼 유닛 (320) 에 버퍼링된 입력 사운드 스트림 (810) 의 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다. 음성 어시스턴트 애플리케이션 (262) 의 활성화가 확인되는 경우, 프로세서 (240) 는 버퍼 유닛 (320) 및 스토리지 유닛 (260) 에 버퍼링된 입력 사운드 스트림 (810) 의 양 부분들을 액세스할 수도 있는 음성 어시스턴트 애플리케이션 (262) 을 론치할 수도 있다. 추가적으로 또는 대안적으로, 버퍼 유닛 (320) 에 버퍼링된 입력 사운드 스트림 (810) 의 부분은, 음성 어시스턴트 애플리케이션 (262) 이 스토리지 유닛 (260) 으로부터 스피치 커맨드 (830) 의 제 1 및 제 2 부분들을 액세스할 수 있도록, 스토리지 유닛 (260) 으로 송신 또는 복사될 수도 있다.
도 9 는 본 개시의 하나의 실시형태에 따른, 제 1 검출 임계값 스코어에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 로딩하는 것 및 제 2 검출 임계값 스코어에 기초하여 음성 어시스턴트 애플리케이션 (262) 의 로딩을 확인하는 것을 위해 결정되는 입력 사운드 스트림의 키워드 스코어에서의 변경을 도시하는 그래프이다. 입력 사운드 스트림은 전자 디바이스 (200) 내의 사운드 센서 (210) 에 의해 수신되고 DSP (250) 로 제공될 수도 있으며, 이것은 버퍼 메모리 (254) 의 버퍼 유닛 (310) 에 사운드 센서 (210) 로부터 수신된 입력 사운드 스트림의 부분을 버퍼링할 수도 있다. 버퍼 유닛 (310) 내의 입력 사운드 스트림의 버퍼링된 부분은 활성화 키워드의 적어도 일부를 포함할 수도 있다. DSP (250) 의 음성 활성화 유닛 (252) 내의 키워드 검출 유닛 (410) 은 입력 사운드 스트림의 버퍼링된 부분으로부터 복수의 사운트 피쳐들을 추출하고 그 복수의 사운드 피쳐들에 대해 복수의 키워드 스코어들을 결정할 수도 있다.
도시된 실시형태에서, 키워드 검출 유닛 (410) 은 키워드 스코어들 각각을 제 1 검출 임계값 스코어와 비교하도록 구성될 수도 있다. 제 1 검출 임계값 스코어는 상대적으로 낮은 신뢰도로, 입력 사운드 스트림의 버퍼링된 부분에 포함되는 활성화 키워드의 검출을 보장하기 위한 키워드 스코어를 나타낼 수도 있다. (예를 들어, 도 9 에서 시간 (TD1) 에서 수신된 입력 사운드 스트림의 부분에 대해 결정된) 복수의 키워드 스코어들 중 하나가 제 1 검출 임계값 스코어를 초과하는 것으로 결정되는 경우, 활성화 키워드가 입력 사운드 스트림으로부터 검출된다는 것이 상대적으로 낮은 신뢰도로 추론될 수도 있다. 활성화 키워드의 검출 시에, 키워드 검출 유닛 (410) 은 스토리지 유닛 (260) 으로부터 프로세서 (240) 에 의해 빠르게 액세스될 수도 있는 일시적 메모리 (또는 작업 메모리) 로 음성 어시스턴트 애플리케이션 (262) 을 로딩하기를 시작하기 위해 프로세서 (240) 를 활성화할 수도 있다.
음성 어시스턴트 애플리케이션 (262) 이 로딩되고 있는 동안, DSP (250) 는 사운드 센서 (210) 로부터 입력 사운드 스트림을 계속 수신하고, 버퍼 유닛 (310) 에, 활성화 키워드의 적어도 일부를 포함할 수도 있는, 입력 사운드 스트림의 부분을 버퍼링할 수도 있다. 키워드 검출 유닛 (410) 은 음성 어시스턴트 애플리케이션 (262) 이 로딩되고 있는 동안 버퍼 유닛 (310) 에 버퍼링되는 입력 사운드 스트림의 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 의 로딩을 확인할 수도 있다. 예를 들어, 키워드 검출 유닛 (410) 은 입력 사운드 스트림의 버퍼링된 부분에 대해 복수의 키워드 스코어들을 결정하고, 그 복수의 키워드 스코어들 각각을 제 2 검출 임계값 스코어와 비교할 수도 있다. 제 2 검출 임계값 스코어는 상대적으로 높은 신뢰도로, 입력 사운드 스트림에 포함되는 활성화 키워드의 검출을 보장하기 위한 키워드 스코어를 나타낼 수도 있다. 이에 따라, 제 2 검출 임계값 스코어는 도 9 의 그래프에 도시된 바와 같이 제 1 검출 임계값 스코어보다 크도록 설정될 수도 있다.
복수의 키워드 스코어들 중 하나가 (예를 들어, 도 9 의 시간 (TD2) 에서) 제 2 검출 임계값 스코어를 초과하는 것으로 결정되는 경우, 활성화 키워드가 입력 사운드 스트림으로부터 검출된다는 것이 상대적으로 높은 신뢰도로 추론될 수도 있고, 음성 어시스턴트 애플리케이션 (262) 의 로딩이 확인될 수도 있다. 이러한 경우, 키워드 검출 유닛 (410) 은 음성 어시스턴트 애플리케이션 (262) 의 로딩을 계속하도록 프로세서 (240) 에게 명령할 수도 있다. 후속적으로, DSP (250) 는 사운드 센서 (210) 로부터 입력 사운드 스트림을 계속 수신하고, 버퍼 메모리 (254) 의 버퍼 유닛 (320) 에, 스피치 커맨드의 적어도 일부를 포함할 수도 있는, 입력 사운드 스트림의 부분을 버퍼링할 수도 있다. 음성 활성화 유닛 (252) 내의 확인 유닛 (420) 은 그 후 도 8 에 대해 상술된 방식으로 음성 어시스턴트 애플리케이션 (262) 을 론치하기 위해 버퍼 유닛 (320) 에 버퍼링된 입력 사운드 스트림의 부분에 기초하여 음성 어시스턴트 애플리케이션 (262) 을 활성화할지 여부를 확인할 수도 있다. 한편, 복수의 키워드 스코어들 중 어느 것도 제 2 검출 임계값 스코어를 초과하지 않는다고 결정되는 경우, 입력 사운드 스트림이 활성화 키워드를 포함하지 않는다고 추론될 수도 있다. 이러한 경우, 전자 디바이스 (200) 는 음성 어시스턴트 애플리케이션 (262) 을 론치하지 않고 활성화 키워드를 검출하기 위해 다음의 입력 사운드 스트림을 수신하기 위해 진행할 수도 있다.
일부 실시형태들에서, 사용자가 전자 디바이스의 목표 애플리케이션을 활성화하기 위한 활성화 키워드를 스피킹하는 경우, 전자 디바이스는 전자 디바이스 내의 하나 이상의 콘텍스트 센서들에 의해 생성된 환경 정보에 기초하여 목표 애플리케이션을 활성화할지 여부를 확인할 수도 있다. 도 10 은 본 개시의 하나의 실시형태에 따른, 입력 사운드 스트림에서 활성화 키워드를 검출하는 것에 응답하여 웹 브라우저 애플리케이션 (1010) 을 활성화하는 이동 디바이스 (120) 를 도시한다. 도 1 의 실시형태와 유사하게, 이동 디바이스 (120) 는 이동 디바이스 (120) 내의 웹 브라우저 애플리케이션 (1010) 을 활성화하기 위한 활성화 키워드를 미리 저장할 수도 있다. 도시된 실시형태에서, 사용자 (110) 가 이동 디바이스 (120) 에게 "브라우저 시작" 과 같은 활성화 키워드를 스피킹하는 경우, 이동 디바이스 (120) 는 입력 사운드 스트림을 캡쳐하고 그 입력 사운드 스트림에서의 그 활성화 키워드를 검출할 수도 있다.
이동 디바이스 (120) 는 이동 디바이스 (120) 의 콘텍스트를 나타내는 센서 데이터를 생성하도록 각각 구성된 하나 이상의 콘텍스트 센서들을 포함할 수도 있다. 여기서 사용된 바와 같이, 용어 전자 디바이스의 "콘텍스트" 는 거리, 사무실, 차량, 레스토랑, 운송 설비 등과 같은, 디바이스가 위치된 환경을 지칭할 수도 있다. 용어 "콘텍스트" 는 또한 어두운 환경에 있기, 집에서 잠자기, TV 프로그램 시청하기, 음악을 듣기, 운동장에서 축구하기 등과 같은, 디비이스 또는 그것의 사용자가 연루되는 활동들 또는 상황들을 지칭할 수도 있다. 예를 들어, 하나 이상의 콘텍스트 센서들은 도 10 에 도시된 바와 같이, 디스플레이 스크린 (1030) 을 포함하는 이동 디바이스 (120) 의 표면에 장착되는 카메라와 같은 이미지 센서 (1020) 를 포함할 수도 있다. 이미지 센서 (1020) 는 입력 이미지를 캡쳐링함으로써 센서 데이터를 생성하도록 구성될 수도 있다. 예를 들어, 사용자 (110) 가 디스플레이 스크린 (1030) 을 보는 경우, 캡쳐된 입력 이미지는 사용자 (110) 의 얼굴의 부분 (예를 들어, 사용자 (110) 의 눈들) 을 포함할 수도 있다. 일부 실시형태들에서, 활성화 키워드를 검출한 때에, 이미지 센서 (1020) 는 메모리 유닛에 센서 데이터로서 그 캡쳐된 입력 이미지를 버퍼링할 수도 있다.
웹 브라우저 애플리케이션 (1010) 을 활성화하기 위한 활성화 키워드가 입력 사운드 스트림으로부터 검출되는 경우, 이동 디바이스 (120) 는 이미지 센서 (1020) 에 의해 생성된 센서 데이터에 기초하여 웹 브라우저 애플리케이션 (1010) 을 활성화할지 여부를 확인할 수도 있다. 예를 들어, 이동 디바이스 (120) 는 이미지 센서 (1020) 에 의해 캡쳐된 입력 이미지가 사람 (예를 들어, 사용자 (110)) 의 적어도 하나의 눈을 포함하는지 여부를 결정함으로써 웹 브라우저 애플리케이션 (1010) 을 활성화할지 여부를 확인할 수도 있다. 입력 이미지가 사람의 적어도 하나의 눈을 포함한다고 결정되는 경우, 이동 디바이스 (120) 는 웹 브라우저 애플리케이션 (1010) 의 활성화를 확인하고 웹 브라우저 애플리케이션 (1010) 을 활성화한다. 일단 활성화되면, 웹 브라우저 애플리케이션 (1010) 은 사용자 (110) 가 웹 브라우저 애플리케이션 (1010) 에 의해 디스플레이된 웹 페이지를 볼 수 있도록 디스플레이 스크린 (1030) 에 디스플레이될 수도 있다. 한편, 입력 이미지가 사람의 눈을 포함하지 않는다고 결정되는 경우, 웹 브라우저 애플리케이션 (1010) 의 활성화는 확인되지 않고 이동 디바이스 (120) 는 활성화 키워드를 검출하기 위해 다음의 입력 사운드 스트림을 수신하도록 진행할 수도 있다.
도 11 은 본 개시의 하나의 실시형태에 따른, 전자 디바이스 (1100) 내의 콘텍스트 센서 (1120) 에 의해 생성된 센서 데이터에 기초하여 웹 브라우저 애플리케이션 (1130) 을 활성화하도록 구성된 전자 디바이스 (1100) 의 블록도를 도시한다. 전자 디바이스 (1100) 는 센서 유닛 (1110), I/O 유닛 (220), 통신 유닛 (230), 프로세서 (240), 및 스토리지 유닛 (260) 을 포함할 수도 있다. 센서 유닛 (1110) 은 사운드 센서 (210) 및 콘텍스트 센서 (1120) 를 포함할 수도 있다. 프로세서 (240) 는 음성 활성화 유닛 (252) 및 버퍼 메모리 (254) 를 포함할 수도 있는 DSP (250) 를 포함할 수도 있다. 도시된 실시형태에서, 사운드 센서 (210), I/O 유닛 (220), 통신 유닛 (230), 프로세서 (240), DSP (250), 음성 활성화 유닛 (252) , 버퍼 메모리 (254), 및 스토리지 유닛 (260) 은 도 2 의 전자 디바이스 (200) 에 포함된 것들과 유사한 구성 또는 기능을 가질 수도 있다. 또, 전자 디바이스 (1100) 는 셀룰러 전화, 스마트폰 (예를 들어, 이동 디바이스 (120)), 개인용 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 텔레비젼, 게이밍 디바이스, 멀티미디어 플레이어, 스마트 안경, 착용가능한 컴퓨터 등과 같은 사운드 캡쳐링 및 프로세싱 능력들이 구비된 임의의 적합한 디바이스일 수도 있다.
사운드 센서 (210) 는 입력 사운드 스트림을 수신하고 DSP (250) 로 그 수신된 입력 사운드 스트림을 제공한다. 입력 사운드 스트림이 사운드 센서 (210) 로부터 수신됨에 따라, DSP (250) 내의 음성 활성화 유닛 (252) 은 수신된 입력 사운드 스트림으로부터 웹 브라우저 애플리케이션 (1130) 을 활성화하기 위한 활성화 키워드 (예를 들어, "브라우저 시작") 를 검출할 수도 있다. 활성화 키워드를 검출하기 위해, 음성 활성화 유닛 (252) 은 HMM, SMM, 또는 이들의 조합과 같은 마르코프 체인 모델에 기초하여 임의의 적합한 키워드 검출 방법들을 채용할 수도 있다.
하나의 실시형태에서, 스토리지 유닛 (260) 은 HMM, SMM 등과 같은 마르코프 체인 모델 하에서의 활성화 키워드의 복수의 상태들에 대한 상태 정보와 같은 키워드 검출을 위해 임의의 적합한 정보 및/또는 데이터를 저장할 수도 있다. 스토리지 유닛 (260) 은 또한 프로세서 (240) 에 의해 액세스될 수 있는 웹 브라우저 애플리케이션 (1130) 을 저장할 수도 있다. 스토리지 유닛 (260) 이 도시된 실시형태에서 웹 브라우저 애플리케이션 (1130) 을 저장하지만, 그것은 또한 카메라 애플리케이션, 메모 애플리케이션, 칼렌다 애플리케이션, 음악 플레이어 애플리케이션 등과 같은 전자 디바이스 (1100) 의 임의의 다른 애플리케이션들 또는 기능들을 저장할 수도 있다.
센서 유닛 (1110) 내의 콘텍스트 센서 (1120) 는 전자 디바이스 (1100) 의 콘텍스트를 나타내는 센서 데이터를 생성하도록 각각 구성된 하나 이상의 센서들을 포함할 수도 있다. 예를 들어, 콘텍스트 센서 (1120) 는 센서 데이터로서 입력 이미지를 캡쳐하도록 구성되는 카메라 센서를 포함할 수도 있다. 카메라 센서는 카메라 센서가 디스플레이 스크린과 마주하는 사람 (예를 들어, 사용자 (110)) 의 하나 이상의 눈들을 포함하는 이미지를 캡쳐할 수 있도록, I/O 유닛 (220) 의 디스플레이 스크린을 포함하는 전자 디바이스 (1100) 의 표면에 장착될 수도 있다. 추가적으로 또는 대안적으로, 콘텍스트 센서 (1120) 는 조명 센서, 근접도 센서, 위치 센서 (예를 들어, 글로벌 포지셔닝 시스템 (GPS)), 가속도계, 모션 센서, 접촉 센서 등과 같은 임의의 다른 적합한 센서들을 포함할 수도 있다. 일부 실시형태들에서, 사운드 센서 (210) 는 또한 환경 사운드를 캡쳐함으로써 전자 디바이스 (1100) 의 콘텍스트를 나타내는 센서 데이터를 생성하도록 구성될 수도 있다.
활성화 키워드를 검출한 때에, 콘텍스트 센서 (1120) 는 버퍼 메모리 (254) 에 센서 데이터를 버퍼링할 수도 있는 DSP (250) 로 그 센서 데이터를 제공할 수도 있다. 음성 활성화 유닛 (252) 은 버퍼링된 센서 데이터에 기초하여 웹 브라우저 애플리케이션 (1130) 을 활성화할지 여부를 확인할 수도 있다. 예를 들어, DSP (250) 는 콘텍스트 센서 (1120) 의 카메라 센서로부터 센서 데이터로서 입력 이미지를 수신할 수도 있다. 또한, 음성 활성화 유닛 (252) 은 입력 이미지에 기초하여 웹 브라우저 애플리케이션 (1130) 을 활성화할지 여부를 확인할 수도 있다.
하나의 실시형태에서, 음성 활성화 유닛 (252) 은 입력 이미지가 사람의 적어도 하나의 눈을 포함하는지 여부를 결정함으로써 웹 브라우저 애플리케이션 (1130) 을 활성화할지 여부를 확인할 수도 있다. 입력 이미지가 사람의 적어도 하나의 눈을 포함한다고 결정되는 경우, 음성 활성화 유닛 (252) 은 차례로 웹 브라우저 애플리케이션 (1130) 을 활성화할 수도 있는 프로세서 (240) 를 활성화할 수도 있다. 한편, 입력 이미지가 사람의 눈을 포함하지 않는다고 결정되는 경우, 웹 브라우저 애플리케이션 (1130) 의 활성화는 확인되지 않고, 전자 디바이스 (1100) 는 활성화 키워드를 검출하기 위해 다음의 입력 사운드 스트림을 수신하도록 진행할 수도 있다.
일부 실시형태들에서, 버퍼 메모리 (254) 에 센서 데이터를 버퍼링하는 것 및 웹 브라우저 애플리케이션 (1130) 을 활성화하는 것의 동작들은 도 6 및 도 8 을 참조하여 상술된 바와 같은 유사한 방식들로 수행될 수도 있다. 또, 전자 디바이스 (1100) 가 카메라 센서에 의해 캡쳐된 입력 이미지와 같은 센서 데이터에 기초하여 웹 브라우저 애플리케이션 (1130) 의 활성화를 확인함으로써 웹 브라우저 애플리케이션 (1130) 을 활성화하지만, 전자 디바이스 (1100) 는 또한 임의의 다른 적합한 콘텍스트 센서드로부터 생성된 센서 데이터에 기초하여 애플리케이션들을 활성화할지 여부를 확인함으로써 임의의 다른 적합한 애플리케이션들을 활성화하도록 구성될 수도 있다. 하나의 실시형태에서, 전자 디바이스 (1100) 는 카메라 애플리케이션의 활성화가 콘텍스트 센서 (1120) 내의 조명 센서로부터의 센서 데이터에 기초하여 확인되는 경우 카메라 애플리케이션을 활성화할 수도 있다. 예를 들어, 음성 활성화 유닛 (252) 은 조명 센서로부터의 센서 데이터가 전자 디바이스 (1100) 의 환경이 볼 수 있기에 충분히 밝다고 표시하는 경우 카메라 애플리케이션의 활성화를 확인할 수도 있다. 카메라 애플리케이션의 활성이 확인되는 경우, 음성 활성화 유닛 (252) 은 카메라 애플리케이션을 활성화하기 위해 프로세서 (240) 를 활성화할 수도 있다.
도 12 는 본 개시의 하나의 실시형태에 따른, 활성화 키워드를 검출함으로써 목표 애플리케이션을 활성화하는 것 및 전자 디바이스 (1100) 의 콘텍스트를 나타내는 센서 데이터에 기초하여 목표 애플리케이션을 활성화할지 여부를 확인하는 것을 위한 방법 (1200) 의 플로우챠트를 도시한다. 전자 디바이스 (1100) 는 1210 에서 목표 애플리케이션을 활성화하기 위한 활성화 키워드를 포함하는 입력 사운드 스트림을 수신할 수도 있다. 예를 들어, 활성화 키워드는 "브라우저 시작" 일 수도 있고, 목표 애플리케이션은 도 11 을 참조하여 상술된 바와 같은 웹 브라우저 애플리케이션 (1130) 일 수도 있다.
하나의 실시형태에서, 활성화 키워드의 적어도 일부를 포함하는 수신된 입력 사운드 스트림의 부분이 DSP (250) 내의 버퍼 메모리 (254) 에 버퍼링될 수도 있다. DSP (250) 내의 음성 활성화 유닛 (252) 은 1220 에서 버퍼 메모리 (254) 에 버퍼링된 입력 사운드 스트림의 부분으로부터 활성화 키워드를 검출할 수도 있다. 활성화 키워드가 검출되는 경우, 전자 디바이스 (1100) 내의 하나 이상의 콘텍스트 센서들은 1230 에서 전자 디바이스 (1100) 의 콘텍스트를 나타내는 센서 데이터를 생성할 수도 있다. 생성된 센서 데이터는 버퍼 메모리 (254) 에 버퍼링될 수도 있다.
음성 활성화 유닛 (252) 은 1240 에서 센서 데이터에 기초하여 목표 애플리케이션을 활성화할지 여부를 확인할 수도 있다. 음성 활성화 유닛 (252) 이 목표 애플리케이션의 활성화를 확인하는 경우 (즉, 1240 에서 "예"), 음성 활성화 유닛 (252) 은 1250 에서 목표 애플리케이션을 활성화할 수도 있다. 한편, 목표 애플리케이션의 활성화가 확인되지 않는 경우 (즉, 1240 에서 "아니오"), 방법 (1200) 은 전자 디바이스 (1100) 가 활성화 키워드를 검출하기 위해 다음 입력 사운드 스트림을 수신할 수 있도록 1210 으로 진행한다.
도 13 은 활성화 키워드를 검출한 때에 목표 애플리케이션을 활성화하는 방법들 및 장치들이 본 개시의 일부 실시형태에 따라 구현될 수도 있는 예시의 전자 디바이스 (1300) 의 블록도이다. 전자 디바이스 (1300) 의 구성은 도 1 내지 도 12 를 참조하여 기술된 상기 실시형태들에 따라 전자 디바이스들에서 구현될 수도 있다. 전자 디바이스 (1300) 는 셀룰러 전화, 스마트폰, 태블릿 컴퓨터, 랩톱 컴퓨터, 단말기, 핸드셋, 개인용 휴대정보단말 (PDA), 무선 모뎀, 코드리스 전화 등일 수도 있다. 무선 통신 시스템은 코드 분할 다중 액세스 (CDMA) 시스템, 이동 통신들을 위한 브로드캐스트 시스템 (GSM) 시스템, 광대역 CDMA (WCDMA) 시스템, 롱 텀 에볼루션 (LTE) 시스템, LTE 어드밴스드 시스템 등일 수도 있다. 또한, 전자 디바이스 (1300) 는 예를 들어 Wi-Fi 다이렉트 또는 블루투스를 사용하여 다른 이동 디바이스와 직접 통신할 수도 있다.
전자 디바이스 (1300) 는 수신 경로 및 송신 경로를 통해 양방향 통신을 제공할 수 있다. 수신 경로에서, 기지국들에 의해 송신된 신호들은 안테나 (1312) 에 의해 수신되고 수신기 (RCVR) (1314) 로 제공된다. 수신기 (1314) 는 수신된 신호를 컨디셔닝 및 디지털화하고 추가의 프로세싱을 위해 디지털 섹션으로 컨디셔닝 및 디지털화된 디지털 신호와 같은 샘플들을 제공한다. 송신 경로에서, 송신기 (TMTR) (1316) 는 디지털 섹션 (1320) 으로부터 송신될 데이터를 수신하고, 그 데이터를 프로세싱 및 컨디셔닝하며, 기지국들로 안테나 (1312) 를 통해 송신되는 변조된 신호를 생성한다. 수신기 (1314) 및 송신기 (1316) 는 CDMA, GSM, LTE, LTE 어드밴스드 등을 지원할 수도 있는 송수신기의 부분일 수도 있다.
디지털 섹션 (1320) 은 예를 들어 모뎀 프로세서 (1322), 감소된 명령 세트 컴퓨터/디지털 신호 프로세서 (RISC/DSP) (1324), 제어기/프로세서 (1326), 내부 메모리 (1328), 일반화된 오디오/비디오 인코더 (1332), 일반화된 오디오 디코더 (1334), 그래픽스/디스플레이 프로세서 (1336), 및 외부 버스 인터페이스 (EBI) (1338) 과 같은 프로세싱, 인터페이스, 및 메모리 유닛들을 포함한다. 모뎀 프로세서 (1322) 는 데이터 송신 및 수신을 위한 프로세싱, 예를 들어, 인코딩, 변조, 복조, 및 디코딩을 수행할 수도 있다. RISC/DSP (1324) 는 전자 디바이스 (1300) 를 위해 일반적 및 특수화된 프로세싱을 수행할 수도 있다. 제어기/프로세서 (1326) 는 디지털 섹션 (1320) 내의 여러 프로세싱 및 인터페이스 유닛들의 동작을 수행할 수도 있다. 내부 메모리 (1328) 는 디지털 섹션 (1320) 내의 여러 유닛들을 위한 데이터 및/또는 명령들을 저장할 수도 있다.
일반화된 오디오/비디오 인코더 (1332) 는 오디오/비디오 소스 (1342), 마이크로폰 (1344), 이미지 센서 (1346) 등으로부터의 입력 신호들에 대한 인코딩을 수행할 수도 있다. 일반화된 오디오 디코더 (1334) 는 코딩된 오디오 데이터에 대해 디코딩을 수행할 수도 있고, 스피커/헤드셋 (1348) 으로 출력 신호들을 제공할 수도 있다. 그래픽스/디스플레이 프로세서 (1336) 는 디스플레이 유닛 (1350) 으로 제시될 수도 있는 그래픽들, 비디오들, 이미지들 및 텍스트들에 대한 프로세싱을 수행할 수도 있다. EBI (1338) 는 디지털 섹션 (1320) 과 메인 메모리 (1352) 사이의 데이터의 전송을 용이하게 할 수도 있다.
디지털 섹션 (1320) 은 하나 이상의 프로세서들, DSP 들, 마이크로프로세서들, RISC 들 등으로 구현될 수도 있다. 디지털 섹션 (1320) 은 또한 하나 이상의 주문형 반도체들 (ASICs) 및/또는 일부 다른 타입의 집적회로들 (ICs) 상에 제조될 수도 있다.
일반적으로, 여기에 기술된 임의의 디바이스는 무선 전화, 셀룰러 전화, 랩톱 컴퓨터, 무선 멀티미디어 디바이스, 무선 통신 개인용 컴퓨터 (PC) 카드, PDA, 외부 또는 내부 모뎀, 무선 채널을 통해 통신하는 디바이스 등과 같은 여러 타입들의 디바이스들을 나타낼 수도 있다. 디바이스는 액세스 단말기 (AT), 액세스 유닛, 가입자 유닛, 이동국, 이동 디바이스, 이동 유닛, 이동 전화, 모바일, 원격국, 원격 단말기, 원격 유닛, 사용자 디바이스, 사용자 장비, 핸드헬드 디바이스 등과 같은 여러 이름들을 가질 수도 있다. 여기에 기술된 임의의 디바이스는 명령들 및 데이터를 저장하는 메모리 뿐아니라 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합을 가질 수도 있다.
여기에 기술된 기법들은 여러 수단들에 의해 구현될 수도 있다. 예를 들어, 이들 기법들은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수도 있다. 본 기술에서 통상의 지식을 가진 자들은 또한 여기의 개시와 관련하여 기술된 여러 예시적인 로지컬 블록들, 모듈들, 회로들, 및 알고리즘 단계들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합으로서 구현될 수도 있다는 것을 인정할 것이다. 하드웨어 및 소프트웨어의 이러한 교환가능성을 명확히 설명하기 위해, 여러 예시적 컴포넌트들, 블록들, 모듈들, 회로들 및 단계들은 일반적으로 그들의 기능성에 의해 상술되었다. 그러한 기능성이 하드웨어로서 또는 소프트웨어로서 구현되는지 여부는 특정의 애플리케이션 및 전체 시스템에 부과된 설계 제약들에 달려있다. 통상의 기술자들은 각각의 특정의 애플리케이션에 대해 다양한 방식들로 기술된 기능성을 구현할 수도 있지만, 그러한 구현 결정들은 본 개시의 범위로부터 일탈을 야기하는 것으로서 해석되지 않아야 한다.
하드웨어 구현의 경우, 기법들을 수행하기 위해 사용되는 프로세싱 유닛들은 하나 이상의 ASIC 들, DSP 들, 디지털 신호 프로세싱 디바이스들 (DSPDs), 프로그램가능 로직 디바이스들 (PLDs), 필드 프로그램가능 게이트 어레이들 (FPGAs), 프로세서들, 제어기들, 마이크로-제어기들, 마이크로프로세서들, 전자 디바이스들, 여기에 기술된 기능들을 수행하도록 설계된 다른 전자 유닛들, 컴퓨터, 또는 이들의 조합 내에서 구현될 수도 있다.
따라서, 여기의 개시와 관련하여 기술된 여러 예시적인 로지컬 블록들, 모듈들, 및 회로들은 범용 프로세서, DSP, ASIC, FPGA 또는 다른 프로그램가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 여기에 기술된 기능들을 수행하도록 설계된 이들의 임의의 조합으로 구현되거나 수행된다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안적으로, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 결합한 하나 이상의 마이크로프로세서들, 또는 임의의 다른 그러한 구성으로서 구현될 수도 있다.
소프트웨어로 구현되는 경우, 그 기능들은 컴퓨터 판독가능 매체 상에서 하나 이상의 명령들 또는 코드로서 저장 또는 송신될 수도 있다. 컴퓨터 판독가능 매체는 한 곳에서 다른 곳으로 컴퓨터 프로그램의 이송을 용이하게 하는 임의의 매체를 포함하는 컴퓨터 저장 매체들 및 통신 매체들 양자를 포함한다. 저장 매체들은 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체들일 수도 있다. 제한이 아닌 예시로서, 그러한 컴퓨터 판독가능 매체는 RAM, ROM, EEPROM, CD-ROM, 또는 다른 광 디스크 스토리지, 자기 디스크 스토리지, 또는 다른 자기 저장 디바이스들, 또는 컴퓨터에 의해 액세스될 수 있고 명령들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 반송 또는 저장하는데 사용될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 연결은 컴퓨터 판독가능 매체로 적절하게 칭해질 수도 있다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 트위스티드 페어, 디지털 가입자 라인 (DSL), 또는 적외선, 라디오, 및 마이크로웨이브와 같은 무선 기술들을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 송신되는 경우, 동축 케이블, 광섬유 케이블, 트위스티드 페어, DSL, 또는 적외선, 라디오, 및 마이크로웨이브와 같은 무선 기술들은 매체의 정의에 포함된다. 디스크 (disk 및 disc) 는 본원에서 사용되는 바와 같이, 콤팩트 디스크 (compact disc, CD), 레이저 디스크, 광 디스크, 디지털 다용도 디스크 (DVD), 플로피 디스크 (floppy disk) 및 블루레이 디스크를 포함하는데, disk들은 보통 데이터를 자기적으로 재생하지만, disc들은 레이저들로써 광학적으로 데이터를 재생한다. 상기한 것들의 조합들은 또한 컴퓨터 판독가능 매체들의 범위 내에 포함된다.
본 개시의 이전의 설명은 본 기술에서 임의의 통상의 기술자가 본 개시를 실시하거나 사용하는 것을 가능하게 하도록 제공된다. 본 개시에 대한 여러 변경들은 본 기술에서의 통상의 기술자에게 용이하게 명백할 것이고, 여기에 정의된 일반 원리들은 본 개시의 사상 또는 범위로부터 일탈하지 않고 다른 변형들에 적용될 수도 있다. 따라서, 본 개시는 여기에 기술된 예시들 및 설계들에 제한되는 것으로 의도되지 않고, 여기에 개시된 원리들 및 신규한 특징들과 일관성 있는 가장 넓은 범위에 따라야 한다.
예시적인 구현들은 하나 이상의 스탠드-얼론 컴퓨터 시스템들의 콘텍스트에서 현재 개시된 주제의 양태들을 이용하는 것으로 참조되지만, 이들 주제는 그렇게 제한되지 않고, 오히려 네트워크 또는 분포된 컴퓨팅 환경과 같은 임의의 컴퓨팅 환경과 관련하여 구현될 수도 있다. 또한, 현재 개시된 주제의 양태들은 복수의 프로세싱 칩들 또는 디바이스들에서 또는 그것들에 걸쳐 구현될 수도 있고, 저장은 복수의 디바이스들에 걸쳐 유사하게 영향받을 수도 있다. 그러한 디바이스들은 PC 들, 네트워크 서버들, 및 핸드헬드 디바이스들을 포함할 수도 있다.
청구물이 구조적 특징들 및/또는 방법론적 액션들에 특정한 언어로 기술되었지만, 첨부된 청구범위에 정의된 청구물은 상술된 특정의 특징들 또는 액션들에 반드시 제한되지는 않는다는 것이 이해되어야 한다. 오히려, 상술된 특정의 특징들 및 액션들은 청구범위를 구현하는 예시의 형태들로서 개시된다.

Claims (30)

  1. 전자 디바이스에서 수행되는, 목표 애플리케이션을 활성화하기 위한 방법으로서,
    상기 목표 애플리케이션을 활성화하기 위한 활성화 키워드 및 상기 목표 애플리케이션의 기능을 나타내는 스피치 커맨드를 포함하는 입력 사운드 스트림을 수신하는 단계;
    상기 입력 사운드 스트림으로부터 상기 활성화 키워드를 검출하는 단계;
    상기 활성화 키워드를 검출하는 것에 응답하여 상기 스피치 커맨드의 적어도 일부를 포함하는 상기 입력 사운드 스트림의 부분을 버퍼 메모리에 버퍼링하는 단계; 및
    상기 목표 애플리케이션의 상기 기능을 수행하기 위해 상기 활성화 키워드를 검출하는 것에 응답하여 상기 목표 애플리케이션을 활성화하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
  2. 제 1 항에 있어서,
    상기 활성화 키워드를 검출하는 단계는 상기 입력 사운드 스트림에서의 상기 활성화 키워드의 부분으로부터 상기 활성화 키워드를 검출하는 단계를 포함하고,
    상기 입력 사운드 스트림의 부분을 버퍼링하는 단계는 상기 활성화 키워드의 상기 부분으로부터 상기 활성화 키워드를 검출하는 것에 응답하여 상기 입력 사운드 스트림의 상기 부분을 버퍼링하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
  3. 제 1 항에 있어서,
    상기 입력 사운드 스트림에서의 상기 활성화 키워드의 종료를 검출하는 단계를 더 포함하고,
    상기 입력 사운드 스트림의 부분을 버퍼링하는 단계는 상기 활성화 키워드의 상기 종료를 검출하는 것에 응답하여 상기 입력 사운드 스트림의 상기 부분을 버퍼링하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
  4. 제 1 항에 있어서,
    상기 입력 사운드 스트림에서의 상기 스피치 커맨드의 시작을 검출하는 단계를 더 포함하고,
    상기 입력 사운드 스트림의 부분을 버퍼링하는 단계는 상기 스피치 커맨드의 상기 시작을 검출하는 것에 응답하여 상기 입력 사운드 스트림의 상기 부분을 버퍼링하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
  5. 제 1 항에 있어서,
    상기 목표 애플리케이션을 활성화하는 단계는 상기 입력 사운드 스트림의 상기 버퍼링된 부분에 기초하여 상기 목표 애플리케이션을 활성화할지 여부를 확인하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
  6. 제 5 항에 있어서,
    상기 목표 애플리케이션을 활성화할지 여부를 확인하는 단계는 상기 입력 사운드 스트림의 상기 버퍼링된 부분이 스피치를 포함하는지 여부를 결정하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
  7. 제 6 항에 있어서,
    상기 목표 애플리케이션을 활성화할지 여부를 확인하는 단계는 상기 입력 사운드 스트림의 상기 버퍼링된 부분 내의 상기 스피치가 상기 활성화 키워드의 스피커를 나타내는지 여부를 결정하는 단계를 더 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
  8. 제 5 항에 있어서,
    상기 목표 애플리케이션을 활성화할지 여부를 확인하는 단계는 상기 입력 사운드 스트림의 상기 버퍼링된 부분의 신호대 잡음비 (SNR) 가 미리 결정된 임계값을 초과하는지 여부를 결정하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
  9. 제 5 항에 있어서,
    상기 목표 애플리케이션을 활성화할지 여부를 확인하는 단계는 상기 입력 사운드 스트림의 상기 버퍼링된 부분이 상기 활성화 키워드를 취소하는 것을 나타내는 미리 결정된 취소 커맨드를 포함하는지 여부를 결정하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
  10. 제 5 항에 있어서,
    상기 활성화 키워드를 검출하는 단계는 상기 입력 사운드 스트림에서의 상기 활성화 키워드의 부분으로부터 상기 활성화 키워드를 검출하는 단계를 포함하고,
    상기 목표 애플리케이션을 활성화하는 단계는:
    상기 활성화 키워드의 상기 부분으로부터 상기 활성화 키워드를 검출하는 것에 응답하여 상기 목표 애플리케이션을 로딩하는 단계; 및
    상기 목표 애플리케이션의 활성화를 확인하는 것에 응답하여 상기 목표 애플리케이션을 론치하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
  11. 제 1 항에 있어서,
    상기 목표 애플리케이션을 활성화하는 단계는:
    상기 입력 사운드 스트림의 상기 버퍼링된 부분으로부터 상기 스피치 커맨드를 인식하는 단계; 및
    상기 스피치 커맨드에 응답하여 상기 목표 애플리케이션의 상기 기능을 수행하는 단계를 포함하는, 목표 애플리케이션을 활성화하기 위한 방법.
  12. 목표 애플리케이션을 활성화하기 위한 전자 디바이스로서,
    상기 목표 애플리케이션을 활성화하기 위한 활성화 키워드 및 상기 목표 애플리케이션의 기능을 나타내는 스피치 커맨드를 포함하는 입력 사운드 스트림을 수신하도록 구성된 사운드 센서;
    상기 입력 사운드 스트림으로부터 상기 활성화 키워드를 검출하고, 상기 목표 애플리케이션의 상기 기능을 수행하기 위해 상기 활성화 키워드를 검출하는 것에 응답하여, 상기 목표 애플리케이션을 활성화하도록 구성된 음성 활성화 유닛; 및
    상기 활성화 키워드를 검출하는 것에 응답하여 상기 스피치 커맨드의 적어도 일부를 포함하는 상기 입력 사운드 스트림의 부분을 저장하도록 구성된 버퍼 메모리를 포함하는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
  13. 제 12 항에 있어서,
    상기 음성 활성화 유닛은 또한 상기 입력 사운드 스트림에서의 상기 활성화 키워드의 부분으로부터 상기 활성화 키워드를 검출하도록 구성되고,
    상기 버퍼 메모리는 또한 상기 활성화 키워드의 상기 부분으로부터 상기 활성화 키워드를 검출하는 것에 응답하여 상기 입력 사운드 스트림의 상기 부분을 저장하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
  14. 제 12 항에 있어서,
    상기 음성 활성화 유닛은 또한 상기 입력 사운드 스트림에서의 상기 활성화 키워드의 종료를 검출하도록 구성되고,
    상기 버퍼 메모리는 또한 상기 활성화 키워드의 상기 종료를 검출하는 것에 응답하여 상기 입력 사운드 스트림의 상기 부분을 저장하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
  15. 제 12 항에 있어서,
    상기 음성 활성화 유닛은 또한 상기 입력 사운드 스트림에서의 상기 스피치 커맨드의 시작을 검출하도록 구성되고,
    상기 버퍼 메모리는 또한 상기 스피치 커맨드의 상기 시작을 검출하는 것에 응답하여 상기 입력 사운드 스트림의 상기 부분을 저장하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
  16. 제 12 항에 있어서,
    상기 음성 활성화 유닛은 또한 상기 입력 사운드 스트림의 상기 저장된 부분에 기초하여 상기 목표 애플리케이션을 활성화할지 여부를 확인하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
  17. 제 16 항에 있어서,
    상기 음성 활성화 유닛은 또한 상기 입력 사운드 스트림의 상기 저장된 부분이 스피치를 포함하는지 여부를 결정하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
  18. 제 17 항에 있어서,
    상기 음성 활성화 유닛은 또한 상기 입력 사운드 스트림의 상기 저장된 부분 내의 상기 스피치가 상기 활성화 키워드의 스피커를 나타내는지 여부를 결정하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
  19. 제 16 항에 있어서,
    상기 음성 활성화 유닛은 또한 상기 입력 사운드 스트림의 상기 저장된 부분의 SNR 이 미리 결정된 임계값을 초과하는지 여부를 결정하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
  20. 제 16 항에 있어서,
    상기 음성 활성화 유닛은 또한 상기 입력 사운드 스트림의 상기 저장된 부분이 상기 활성화 키워드를 취소하는 것을 나타내는 미리 결정된 취소 커맨드를 포함하는지 여부를 결정하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
  21. 제 16 항에 있어서,
    상기 음성 활성화 유닛은 또한:
    상기 입력 사운드 스트림에서의 상기 활성화 키워드의 부분으로부터 상기 활성화 키워드를 검출하고;
    상기 활성화 키워드의 상기 부분으로부터 상기 활성화 키워드를 검출하는 것에 응답하여 상기 목표 애플리케이션을 로딩하며; 및
    상기 목표 애플리케이션의 활성화를 확인하는 것에 응답하여 상기 목표 애플리케이션을 론치하도록
    구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
  22. 제 12 항에 있어서,
    상기 목표 애플리케이션은 상기 입력 사운드 스트림의 상기 저장된 부분으로부터 상기 스피치 커맨드를 인식하고, 상기 스피치 커맨드에 응답하여 상기 목표 애플리케이션의 상기 기능을 수행하는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
  23. 목표 애플리케이션을 활성화하기 위한 명령들을 포함하는 비일시적 컴퓨터 판독가능 저장 매체로서,
    상기 명령들은, 전자 디바이스의 프로세서로 하여금:
    상기 목표 애플리케이션을 활성화하기 위한 활성화 키워드 및 상기 목표 애플리케이션의 기능을 나타내는 스피치 커맨드를 포함하는 입력 사운드 스트림을 수신하는 것;
    상기 입력 사운드 스트림으로부터 상기 활성화 키워드를 검출하는 것;
    상기 활성화 키워드를 검출하는 것에 응답하여 상기 스피치 커맨드의 적어도 일부를 포함하는 상기 입력 사운드 스트림의 부분을 버퍼 메모리에 버퍼링하는 것; 및
    상기 목표 애플리케이션의 상기 기능을 수행하기 위해 상기 활성화 키워드를 검출하는 것에 응답하여 상기 목표 애플리케이션을 활성화하는 것
    의 동작들을 수행하게 하는, 비일시적 컴퓨터 판독가능 저장 매체.
  24. 제 23 항에 있어서,
    상기 활성화 키워드를 검출하는 것은 상기 입력 사운드 스트림에서의 상기 활성화 키워드의 부분으로부터 상기 활성화 키워드를 검출하는 것을 포함하고,
    상기 입력 사운드 스트림의 부분을 버퍼링하는 것은 상기 활성화 키워드의 상기 부분으로부터 상기 활성화 키워드를 검출하는 것에 응답하여 상기 입력 사운드 스트림의 상기 부분을 버퍼링하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  25. 제 23 항에 있어서,
    상기 목표 애플리케이션을 활성화하는 것은 상기 입력 사운드 스트림의 상기 버퍼링된 부분에 기초하여 상기 목표 애플리케이션을 활성화할지 여부를 확인하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  26. 제 25 항에 있어서,
    상기 활성화 키워드를 검출하는 것은 상기 입력 사운드 스트림에서의 상기 활성화 키워드의 부분으로부터 상기 활성화 키워드를 검출하는 것을 포함하고,
    상기 목표 애플리케이션을 활성화하는 것은:
    상기 활성화 키워드의 상기 부분으로부터 상기 활성화 키워드를 검출하는 것에 응답하여 상기 목표 애플리케이션을 로딩하는 것; 및
    상기 목표 애플리케이션의 활성화를 확인하는 것에 응답하여 상기 목표 애플리케이션을 론치하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  27. 목표 애플리케이션을 활성화하기 위한 전자 디바이스로서,
    상기 목표 애플리케이션을 활성화하기 위한 활성화 키워드 및 상기 목표 애플리케이션의 기능을 나타내는 스피치 커맨드를 포함하는 입력 사운드 스트림을 수신하는 수단;
    상기 입력 사운드 스트림으로부터 상기 활성화 키워드를 검출하고, 상기 목표 애플리케이션의 상기 기능을 수행하기 위해 상기 활성화 키워드를 검출하는 것에 응답하여 상기 목표 애플리케이션을 활성화하는 수단;
    상기 활성화 키워드를 검출하는 것에 응답하여 상기 스피치 커맨드의 적어도 일부를 포함하는 상기 입력 사운드 스트림의 부분을 저장하는 수단을 포함하는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
  28. 제 27 항에 있어서,
    상기 활성화 키워드를 검출하고 상기 목표 애플리케이션을 활성화하는 수단은 상기 입력 사운드 스트림에서의 상기 활성화 키워드의 부분으로부터 상기 활성화 키워드를 검출하도록 구성되고,
    상기 입력 사운드 스트림의 부분을 저장하는 수단은 상기 활성화 키워드의 상기 부분으로부터 상기 활성화 키워드를 검출하는 것에 응답하여 상기 입력 사운드 스트림의 상기 부분을 저장하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
  29. 제 27 항에 있어서,
    상기 활성화 키워드를 검출하고 상기 목표 애플리케이션을 활성화하는 수단은 상기 입력 사운드 스트림의 상기 저장된 부분에 기초하여 상기 목표 애플리케이션을 활성화할지 여부를 확인하도록 구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.
  30. 제 29 항에 있어서,
    상기 활성화 키워드를 검출하고 상기 목표 애플리케이션을 활성화하는 수단은 또한:
    상기 입력 사운드 스트림에서의 상기 활성화 키워드의 부분으로부터 상기 활성화 키워드를 검출하고;
    상기 활성화 키워드의 상기 부분으로부터 상기 활성화 키워드를 검출하는 것에 응답하여 상기 목표 애플리케이션을 로딩하며; 및
    상기 목표 애플리케이션의 활성화를 확인하는 것에 응답하여 상기 목표 애플리케이션을 론치하도록
    구성되는, 목표 애플리케이션을 활성화하기 위한 전자 디바이스.



KR1020167032299A 2014-04-21 2015-04-02 스피치 입력에 의해 애플리케이션을 활성화하는 방법 및 장치 KR20160145766A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/257,814 2014-04-21
US14/257,814 US10770075B2 (en) 2014-04-21 2014-04-21 Method and apparatus for activating application by speech input
PCT/US2015/024155 WO2015164047A1 (en) 2014-04-21 2015-04-02 Method and apparatus for activating application by speech input

Publications (1)

Publication Number Publication Date
KR20160145766A true KR20160145766A (ko) 2016-12-20

Family

ID=52988459

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167032299A KR20160145766A (ko) 2014-04-21 2015-04-02 스피치 입력에 의해 애플리케이션을 활성화하는 방법 및 장치

Country Status (8)

Country Link
US (1) US10770075B2 (ko)
EP (2) EP3134896B1 (ko)
JP (1) JP2017520012A (ko)
KR (1) KR20160145766A (ko)
CN (1) CN106233376B (ko)
BR (1) BR112016024417A2 (ko)
ES (1) ES2818085T3 (ko)
WO (1) WO2015164047A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190103308A (ko) * 2017-06-05 2019-09-04 구글 엘엘씨 기록된 미디어 핫워드 트리거 억제
WO2021060573A1 (ko) * 2019-09-24 2021-04-01 엘지전자 주식회사 영상표시장치 및 이의 음성 인식 방법

Families Citing this family (175)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9697831B2 (en) * 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
CN104427350A (zh) * 2013-08-29 2015-03-18 中兴通讯股份有限公司 关联内容处理方法及系统
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR102281178B1 (ko) * 2014-07-09 2021-07-23 삼성전자주식회사 멀티-레벨 음성 인식 방법 및 장치
WO2016028254A1 (en) * 2014-08-18 2016-02-25 Nuance Communications, Inc. Methods and apparatus for speech segmentation using multiple metadata
US20160055847A1 (en) * 2014-08-19 2016-02-25 Nuance Communications, Inc. System and method for speech validation
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10319184B2 (en) 2015-04-03 2019-06-11 Cfph, Llc Aggregate tax liability in wagering
WO2016161641A1 (zh) 2015-04-10 2016-10-13 华为技术有限公司 语音识别方法、语音唤醒装置、语音识别装置及终端
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10141010B1 (en) * 2015-10-01 2018-11-27 Google Llc Automatic censoring of objectionable song lyrics in audio
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
CN105488112B (zh) * 2015-11-20 2019-09-17 小米科技有限责任公司 信息推送方法及装置
US9946862B2 (en) * 2015-12-01 2018-04-17 Qualcomm Incorporated Electronic device generating notification based on context data in response to speech phrase from user
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US9940929B2 (en) * 2015-12-09 2018-04-10 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10388280B2 (en) * 2016-01-27 2019-08-20 Motorola Mobility Llc Method and apparatus for managing multiple voice operation trigger phrases
CN109313902A (zh) * 2016-06-06 2019-02-05 思睿逻辑国际半导体有限公司 语音用户接口
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
AU2017100589B4 (en) * 2016-06-11 2017-08-31 Apple Inc. Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US20180144740A1 (en) * 2016-11-22 2018-05-24 Knowles Electronics, Llc Methods and systems for locating the end of the keyword in voice sensing
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US20180174574A1 (en) * 2016-12-19 2018-06-21 Knowles Electronics, Llc Methods and systems for reducing false alarms in keyword detection
US10276161B2 (en) * 2016-12-27 2019-04-30 Google Llc Contextual hotwords
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
CN108345777A (zh) * 2017-01-24 2018-07-31 中兴通讯股份有限公司 用户声音信息的识别方法及装置
CN107146611B (zh) * 2017-04-10 2020-04-17 北京猎户星空科技有限公司 一种语音响应方法、装置及智能设备
US10313782B2 (en) * 2017-05-04 2019-06-04 Apple Inc. Automatic speech recognition triggering system
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10887123B2 (en) 2017-10-19 2021-01-05 Libre Wireless Technologies, Inc. Multiprotocol audio/voice internet-of-things devices and related system
US10531247B2 (en) * 2017-10-19 2020-01-07 Libre Wireless Technologies Inc. Internet-of-things devices and related methods for performing in-call interactions
CN107808670B (zh) * 2017-10-25 2021-05-14 百度在线网络技术(北京)有限公司 语音数据处理方法、装置、设备及存储介质
CN108010515B (zh) * 2017-11-21 2020-06-30 清华大学 一种语音端点检测和唤醒方法及装置
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
CN108231076A (zh) * 2018-01-04 2018-06-29 广州视源电子科技股份有限公司 一种语音控制方法、装置、设备及存储介质
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
CN108305626A (zh) * 2018-01-31 2018-07-20 百度在线网络技术(北京)有限公司 应用程序的语音控制方法和装置
US10964311B2 (en) * 2018-02-23 2021-03-30 Kabushiki Kaisha Toshiba Word detection system, word detection method, and storage medium
US11765104B2 (en) * 2018-02-26 2023-09-19 Nintex Pty Ltd. Method and system for chatbot-enabled web forms and workflows
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
TWI672690B (zh) * 2018-03-21 2019-09-21 塞席爾商元鼎音訊股份有限公司 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置
US20190295540A1 (en) * 2018-03-23 2019-09-26 Cirrus Logic International Semiconductor Ltd. Voice trigger validator
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
CN108563468B (zh) * 2018-03-30 2021-09-21 深圳市冠旭电子股份有限公司 一种蓝牙音箱数据处理的方法、装置及蓝牙音箱
CN108492827B (zh) 2018-04-02 2019-07-30 百度在线网络技术(北京)有限公司 应用程序的唤醒处理方法、装置及存储介质
EP3622507B1 (en) * 2018-04-16 2020-10-21 Google LLC Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
WO2019203795A1 (en) 2018-04-16 2019-10-24 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
KR102612835B1 (ko) * 2018-04-20 2023-12-13 삼성전자주식회사 전자 장치 및 전자 장치의 기능 실행 방법
EP3564949A1 (en) * 2018-04-23 2019-11-06 Spotify AB Activation trigger processing
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
TWI679632B (zh) * 2018-05-09 2019-12-11 和碩聯合科技股份有限公司 語音偵測方法以及語音偵測裝置
US11487501B2 (en) * 2018-05-16 2022-11-01 Snap Inc. Device control using audio data
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
JP2019204025A (ja) * 2018-05-24 2019-11-28 レノボ・シンガポール・プライベート・リミテッド 電子機器、制御方法、及びプログラム
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
JP2021144065A (ja) * 2018-06-12 2021-09-24 ソニーグループ株式会社 情報処理装置および情報処理方法
CN109151564B (zh) * 2018-09-03 2021-06-29 海信视像科技股份有限公司 基于麦克风的设备控制方法及装置
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
EP3657303B1 (en) 2018-11-23 2022-05-11 Société BIC Writing instrument serving as a mechanical remote control for an electronic device
US11049496B2 (en) * 2018-11-29 2021-06-29 Microsoft Technology Licensing, Llc Audio pipeline for simultaneous keyword spotting, transcription, and real time communications
US11151993B2 (en) * 2018-12-28 2021-10-19 Baidu Usa Llc Activating voice commands of a smart display device based on a vision-based mechanism
TWI713016B (zh) * 2019-01-03 2020-12-11 瑞昱半導體股份有限公司 語音偵測處理系統與語音偵測方法
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110047487B (zh) * 2019-06-05 2022-03-18 广州小鹏汽车科技有限公司 车载语音设备的唤醒方法、装置、车辆以及机器可读介质
CN112073862B (zh) * 2019-06-10 2023-03-31 美商楼氏电子有限公司 数字处理器、麦克风组件和对关键字进行检测的方法
CN110459223B (zh) * 2019-07-05 2024-04-02 中国平安财产保险股份有限公司 数据跟踪处理方法、设备、存储介质及装置
EP3792914A3 (en) * 2019-09-12 2021-05-05 Orcam Technologies Ltd. Wearable apparatus and methods for processing audio signals
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
WO2021147018A1 (en) * 2020-01-22 2021-07-29 Qualcomm Incorporated Electronic device activation based on ambient noise
US11587564B2 (en) 2020-04-20 2023-02-21 Rovi Guides, Inc. Enhancing signature word detection in voice assistants
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
CN111597947A (zh) * 2020-05-11 2020-08-28 浙江大学 一种基于电源功率因数矫正噪声的应用程序推断方法
US11778361B1 (en) * 2020-06-24 2023-10-03 Meta Platforms Technologies, Llc Headset activation validation based on audio data
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN111897601B (zh) * 2020-08-03 2023-11-24 Oppo广东移动通信有限公司 应用启动方法、装置、终端设备以及存储介质
JP7258007B2 (ja) * 2020-12-24 2023-04-14 オナー デバイス カンパニー リミテッド 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
US11783850B1 (en) * 2021-03-30 2023-10-10 Amazon Technologies, Inc. Acoustic event detection
GB2612073A (en) * 2021-10-21 2023-04-26 Jaguar Land Rover Ltd Apparatus and method for providing a wake-up signal

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03200298A (ja) 1989-12-28 1991-09-02 Clarion Co Ltd 音声制御装置
JPH04177400A (ja) 1990-11-13 1992-06-24 Clarion Co Ltd 音声起動方式
US5873064A (en) 1996-11-08 1999-02-16 International Business Machines Corporation Multi-action voice macro method
US6340977B1 (en) * 1999-05-07 2002-01-22 Philip Lui System and method for dynamic assistance in software applications using behavior and host application models
US6397186B1 (en) 1999-12-22 2002-05-28 Ambush Interactive, Inc. Hands-free, voice-operated remote control transmitter
US7027986B2 (en) 2002-01-22 2006-04-11 At&T Corp. Method and device for providing speech-to-text encoding and telephony service
EP1493993A1 (en) * 2003-06-30 2005-01-05 Harman Becker Automotive Systems GmbH Method and device for controlling a speech dialog system
EP1562180B1 (en) 2004-02-06 2015-04-01 Nuance Communications, Inc. Speech dialogue system and method for controlling an electronic device
JP4237713B2 (ja) 2005-02-07 2009-03-11 東芝テック株式会社 音声処理装置
US20110119062A1 (en) * 2005-09-29 2011-05-19 Dohan Jewel L Voice-recognition/voice-activated vehicle signal system
US8620667B2 (en) * 2005-10-17 2013-12-31 Microsoft Corporation Flexible speech-activated command and control
CN101320559B (zh) 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
JP2009175179A (ja) 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
US8676904B2 (en) * 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR101545582B1 (ko) 2008-10-29 2015-08-19 엘지전자 주식회사 단말기 및 그 제어 방법
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US8510117B2 (en) * 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
US8515763B2 (en) 2009-11-24 2013-08-20 Honeywell International Inc. Methods and systems for utilizing voice commands onboard an aircraft
US8359020B2 (en) * 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context
WO2012025784A1 (en) 2010-08-23 2012-03-01 Nokia Corporation An audio user interface apparatus and method
EP2860726B1 (en) 2011-12-30 2017-12-06 Samsung Electronics Co., Ltd Electronic apparatus and method of controlling electronic apparatus
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US20140101608A1 (en) * 2012-10-05 2014-04-10 Google Inc. User Interfaces for Head-Mountable Devices
CN104969289B (zh) * 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9349386B2 (en) * 2013-03-07 2016-05-24 Analog Device Global System and method for processor wake-up based on sensor data
US9733821B2 (en) * 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US20140337031A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Method and apparatus for detecting a target keyword
US9786296B2 (en) * 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
US9575720B2 (en) * 2013-07-31 2017-02-21 Google Inc. Visual confirmation for a recognized voice-initiated action
CN104700832B (zh) * 2013-12-09 2018-05-25 联发科技股份有限公司 语音关键字检测系统及方法
US9240182B2 (en) * 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function
US9245527B2 (en) * 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
US9484025B2 (en) * 2013-10-15 2016-11-01 Toyota Jidosha Kabushiki Kaisha Configuring dynamic custom vocabulary for personalized speech recognition
US10984329B2 (en) * 2017-06-14 2021-04-20 Ademco Inc. Voice activated virtual assistant with a fused response

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190103308A (ko) * 2017-06-05 2019-09-04 구글 엘엘씨 기록된 미디어 핫워드 트리거 억제
US11244674B2 (en) 2017-06-05 2022-02-08 Google Llc Recorded media HOTWORD trigger suppression
US11798543B2 (en) 2017-06-05 2023-10-24 Google Llc Recorded media hotword trigger suppression
WO2021060573A1 (ko) * 2019-09-24 2021-04-01 엘지전자 주식회사 영상표시장치 및 이의 음성 인식 방법

Also Published As

Publication number Publication date
JP2017520012A (ja) 2017-07-20
ES2818085T3 (es) 2021-04-09
CN106233376A (zh) 2016-12-14
EP3726526A1 (en) 2020-10-21
EP3134896A1 (en) 2017-03-01
EP3134896B1 (en) 2020-06-17
WO2015164047A1 (en) 2015-10-29
US10770075B2 (en) 2020-09-08
BR112016024417A2 (pt) 2017-08-15
CN106233376B (zh) 2020-07-17
US20150302855A1 (en) 2015-10-22

Similar Documents

Publication Publication Date Title
EP3134896B1 (en) Method and apparatus for activating application by speech input
US20150302856A1 (en) Method and apparatus for performing function by speech input
EP2994911B1 (en) Adaptive audio frame processing for keyword detection
KR101981878B1 (ko) 스피치의 방향에 기초한 전자 디바이스의 제어
US9892729B2 (en) Method and apparatus for controlling voice activation
EP3754652B1 (en) Method and apparatus for adjusting detection threshold for activating voice assistant function
CN109791763B (zh) 多设备上的热词检测
KR101868711B1 (ko) 애플리케이션들에 대한 액세스를 제어하기 위한 방법 및 장치