KR101819681B1 - 다수의 디바이스들 상에서 핫워드 검출 - Google Patents

다수의 디바이스들 상에서 핫워드 검출 Download PDF

Info

Publication number
KR101819681B1
KR101819681B1 KR1020167020950A KR20167020950A KR101819681B1 KR 101819681 B1 KR101819681 B1 KR 101819681B1 KR 1020167020950 A KR1020167020950 A KR 1020167020950A KR 20167020950 A KR20167020950 A KR 20167020950A KR 101819681 B1 KR101819681 B1 KR 101819681B1
Authority
KR
South Korea
Prior art keywords
computing device
audio data
determining
audio signal
duration
Prior art date
Application number
KR1020167020950A
Other languages
English (en)
Other versions
KR20160105847A (ko
Inventor
야콥 니콜라우스 푀르스터
알렉산더 에이치. 그루엔스테인
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20160105847A publication Critical patent/KR20160105847A/ko
Application granted granted Critical
Publication of KR101819681B1 publication Critical patent/KR101819681B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • G10L15/265
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

다수의 디바이스들 상에서 핫워드 검출을 위한, 컴퓨터 저장 매체 상에서 인코딩된 컴퓨터 프로그램들을 포함하는 방법들, 시스템들 및 장치들이 개시된다. 일 양태에서, 방법은 컴퓨팅 디바이스에 의해, 발언에 대응하는 오디오 데이터를 수신하는 것의 동작들을 포함한다. 상기 동작들은 발언이 핫워드를 포함할 가능성을 결정하는 것을 더 포함한다. 상기 동작들은 오디오 데이터에 대해 음량 스코어를 결정하는 것을 더 포함한다. 상기 동작들은 음량 스코어에 기초하여, 지연 시간의 양을 결정하는 것을 더 포함한다. 상기 동작들은 지연 시간의 양이 경과한 후, 컴퓨팅 디바이스가 오디오 데이터에 대한 음성 인식 프로세싱을 개시할 것임을 표시하는 신호를 전송하는 것을 더 포함한다.

Description

다수의 디바이스들 상에서 핫워드 검출{HOTWORD DETECTION ON MULTIPLE DEVICES}
본 발명은 일반적으로 사람이 말하는 단어들을 인식하기 위한 시스템들 및 기술들에 관한 것이며, 음성 인식(speech recognition)으로 달리 지칭된다.
음성-가능(enabled) 집 또는 다른 환경의 현실이 -즉, 사용자는 단지 쿼리(query)를 말하거나 또는 큰 소리로 명령하고, 컴퓨터-기반 시스템이 상기 쿼리를 프로세싱하고 대답할 것이고 그리고/또는 명령이 수행되게 하는 것- 다가오고 있다. 음성-가능 환경(예를 들어, 집, 직장, 학교 등)은, 환경의 다양한 공간들 또는 지역들에 걸쳐 분산된 연결된 마이크로폰 디바이스들의 네트워크를 이용하여 구현될 수 있다. 사용자는, 이러한 마이크로폰들의 네트워크를 통해, 그/그녀 앞에 또는 심지어 근처에 컴퓨터 또는 다른 디바이스를 가지고 있을 필요없이, 상기 환경에서 기본적으로 어디에서든, 시스템에 구두로 쿼리할 수 있는 능력(power)을 갖는다. 예를 들면, 부엌에서 요리를 하고 있는 중에, 사용자는 시스템에게 "세 컵에 몇 밀리리터니?"라고 물어볼 수 있고, 이에 응답하여, 상기 시스템으로부터 예를 들어, 합성된 음성 출력의 형태로, 대답을 수신할 수 있다. 대안적으로, 사용자는 시스템에게 "나의 가까운 주유소가 언제 문을 닫는지"와 같은 질문을 물어볼 수 있거나, 또한 집을 나갈 준비를 하는 중에, "오늘 내가 코트를 입어야 하니?"와 같은 질문을 물어볼 수 있다.
추가로, 사용자는 사용자의 개인적인 정보와 관련된 시스템의 쿼리를 물어보고/보거나 명령을 내릴 수 있다. 예를 들면, 사용자는 시스템에게 "존과 미팅이 언제니"라고 물어보거나, 또는 시스템에게 "내가 집에 돌아왔을 때, 존에게 전화할 것을 상기시켜줘"라고 명령할 수 있다.
음성-이용가능 시스템에 대해, 상기 시스템과 인터렉션하는 사용자의 방식이 전적으로는 아니지만, 음성 입력에 의해 주로 구성된다. 결과적으로, 시스템으로 향하지 않는 발언들을 포함하는 주변 환경에서 이루어진 모든 발언들을 잠재적으로 픽업할 수 있는(pick up) 시스템은, 반대로, 임의의 주어진 발언이 시스템을 향하는 때, 예를 들면, 상기 환경에 존재하는 개별기기를 향하는 때를 구별하는 어떤 방식을 가져야 한다. 이를 달성하기 위한 한 방식은 핫워드를 사용하는 것이며, 상기 핫워드는 환경 내 사용자들 사이의 동의에 의해, 시스템의 주의를 불러 일으키기 위해 말해진 미리 결정된 단어로서 지정된다. 예시적인 환경에서, 시스템의 주의를 불러 일으키기 위해 사용되는 상기 핫워드는 단어들 "OK computer"이다. 결과적으로, 상기 단어들 "OK computer"가 말해지는 때마다, 이는 마이크로폰에 의해 픽업되고, 시스템에 전달되며, 상기 시스템은 핫워드가 말해졌는지 여부와, 만일 그렇다면, 확실한 명령 또는 쿼리를 기다릴지 여부를 결정하기 위한 음성 인식 기법들을 수행한다. 따라서, 시스템으로 향하는 발언들은 일반적인 형태 [HOTWORD][QUERY]를 가지고, 본 예시에서, "HOTWORD"는 "OK computer"이고, "QUERY"는 임의의 질문, 명령, 선언 또는, 단독으로 또는 네트워크를 통해 서버와 함께, 시스템에 의해 인식되고, 파싱(parse)되고, 그리고 동작(act)되는 음성일 수 있는 다른 요청이 될 수 있다.
본 명세서에 기술된 본 발명의 혁신적인 양태에 따르면, 컴퓨팅 디바이스는 사용자에 의해 말해진 발언을 수신한다. 컴퓨팅 디바이스는 상기 발언이 핫워드를 포함할 가능성을 결정하고, 상기 발언의 음량 스코어(loudness score)를 계산한다. 가까운 부근 내 다른 컴퓨팅 디바이스는 또한 상기 발언을 수신하고, 상기 발언이 핫워드를 포함할 가능성을 결정하고, 상기 발언의 음량 스코어를 계산한다. 또한, 각 컴퓨팅 디바이스는 상기 음량 스코어에 기초하여 지연을 계산하며, 지연의 길이(length of delay)가 음량 스코어에 반비례하도록 한다. 발언의 소스(scource)에 가까운 컴퓨팅 디바이스는 일반적으로 가장 큰 음량 스코어를 가질 것이므로, 가장 가까이 있는 디바이스는 결국 가장 짧은 지연을 가져야 한다. 해당 컴퓨팅 디바이스와 관련된 지연이 경과한 후, 상기 지연 기간 동안 통지 신호를 수신하지 않는 한, 각각의 컴퓨팅 디바이스는 통지 신호를 다른 컴퓨팅 디바이스들에 전송할 것이다. 그러므로, 가장 작은 지연을 가진 컴퓨팅 디바이스(및 결국 사용자와 가장 가까울 가능성이 있는)는, 상기 컴퓨팅 디바이스가 핫워드에 후속하는 추가적인 오디오를 프로세싱할 것임을 표시하기 위해, 다른 컴퓨팅 디바이스들에 신호를 전송한다. 이 예에서, 전송하는 컴퓨팅 디바이스는 상기 핫워드에 후속하는 추가적인 오디오를 프로세싱한다. 만일, 지연 동안, 컴퓨팅 디바이스들이, 다른 디바이스들 중의 하나로부터 다른 디바이스가 상기 핫워드에 후속하는 추가적인 오디오를 프로세싱할 것임을 표시하는 신호를 수신한다면, 상기 컴퓨팅 디바이스는 오디오를 프로세싱하는 것을 중단한다.
일반적으로, 본 명세서에 기술된 본 발명의 다른 혁신적인 양태는 컴퓨팅 디바이스에 의해, 발언에 대응하는 오디오 데이터를 수신하는 것; 발언이 핫워드를 포함할 가능성을 결정하는 것; 상기 오디오 데이터에 대한 음량 스코어를 결정하는 것; 상기 음량 스코어에 기초하여, 지연 시간의 양을 결정하는 것; 상기 지연 시간의 양이 경과한 후, 컴퓨팅 디바이스가 오디오 데이터에 대한 음성 인식 프로세싱을 개시할 것임을 표시하는 신호를 전송하는 것의 동작들을 포함하는 방법들로 구현된다.
이 들 및 다른 실시예들은 각각 임의로 후술하는 구성 중 하나 이상을 포함할 수 있다. 상기 동작들은 상기 컴퓨팅 디바이스에 의해, 추가적인 발언에 대응하는 추가적인 오디오 데이터를 수신하는 것; 상기 추가적인 발언이 상기 핫워드를 포함할 제2 가능성을 결정하는 것; 상기 추가적인 오디오 데이터에 대한 제2 음량 스코어를 결정하는 것; 상기 제2 음량 스코어에 기초하여, 제2 지연 시간의 양을 결정하는 것; 그리고 상기 지연 시간의 양이 경과하기 전에, (ⅰ) 제2 컴퓨팅 디바이스가 추가적인 오디오 데이터에 대한 음성 인식 프로세싱을 개시할 것임 및 (ⅱ) 상기 컴퓨팅 디바이스는 상기 추가적인 오디오 데이터에 대한 음성 인식 프로세싱을 개시하면 안됨을 표시하는 제2 신호를 수신하는 것을 더 포함한다. 상기 동작들은 제2 신호를 수신하는 것에 기초하여, 상기 컴퓨팅 디바이스의 활성 상태는 비활성화 상태임을 결정하는 것을 더 포함한다.
상기 동작들은 전송하는 신호에 기초하여, 컴퓨팅 디바이스의 활성 상태는 활성화 상태임을 결정하는 것을 더 포함한다. 상기 신호는 초음파 신호 또는 단거리 라디오 신호를 포함한다. 상기 신호는 다른 컴퓨팅 디바이스에 의해 수신되고, 오디오 데이터에 대한 음성 인식 프로세싱을 개시하지 않기 위해, 다른 컴퓨팅 디바이스에 표시한다. 상기 동작들은 발언이 핫워드를 포함할 가능성을 결정하는 것에 기초하여, 다른 컴퓨팅 디바이스가 오디오 데이터에 대한 음성 인식 프로세싱을 개시할 것임을 표시하는 신호를 수신할 준비하는 것을 더 포함한다. 음량 스코어는 지연 시간의 양에 비례한다. 음량 스코어가 임계치(threshold)를 만족하는 경우, 지연 시간은 0이다. 오디오 데이터에 대한 음량 스코어를 결정하는 것의 동작은 발언이 핫워드를 포함할 가능성이 가능성 임계치(likelihood threshold)를 만족함을 결정하는 것을 더 포함한다.
본 양태의 다른 실시예들은 대응하는 시스템들, 장치들 및 상기 방법들의 동작들을 수행하도록 각각 설정된 컴퓨터 저장 장치들에 기록된 컴퓨터 프로그램들을 포함한다.
본 명세서에 기술된 본 발명의 특정 실시예들은 하나 이상의 후속하는 이점들을 실현하기 위해 구현될 수 있다. 다수의 디바이스들은 핫워드를 검출할 수 있고, 단지 하나의 디바이스만이 상기 핫워드에 응답할 것이다.
본 명세서에 기술된 본 발명의 하나 이상의 실시예들의 세부사항들은 첨부 도면들 및 아래의 설명에서 기술된다. 다른 특징들, 양태들 및 본 발명의 이점들은 서술들, 도면들 및 청구범위들로부터 명확해질 것이다.
도 1은 핫워드 검출을 위한 예시적인 시스템의 다이어그램이다.
도 2는 핫워드 검출을 위한 예시적인 프로세스의 다이어그램이다.
도 3은 컴퓨팅 컴퓨팅 디바이스 및 모바일 컴퓨팅 디바이스의 예시를 나타낸다.
여러 도면들에서 동일한 참조 번호들 및 명칭들은 동일한 요소들을 나타낸다.
본 명세서는 음량에 기초한 프로토콜을 기술하며, 상기 프로토콜은 핫워드를 듣는(listen for) 다수의 컴퓨팅 디바이스로 하여금 어떤 디바이스가 응답해야 하는지를 결정한다. 바람직하게는, 상기 프로토콜은, 예를 들면, 오디오 신호들 또는 단거리 라디오 신호들을 사용하는, 로컬 인터렉션들에 기초하여 구현될 수 있고, 임의의 서버측 통신을 필요로 하지 않는다. 로컬 인터렉션들을 사용하는 것은 서버와의 통신의 지연을 발생시키지 않고, 응답의 조정을 허용할 수 있기 때문에, 유리할 수 있다.
도 1은 핫워드 검출을 위한 예시적인 시스템(100)의 다이어그램이다. 일반적으로, 시스템(100)은 컴퓨팅 디바이스들(106, 108 및 110)의 마이크로폰들에 의해 검출되는 발언(104)을 말하는 사용자(102)를 도시한다. 컴퓨팅 디바이스들(106, 108 및 110)은 발언에 대한 음량 스코어를 결정하는 것뿐만 아니라, 발언(104)이 핫워드를 포함할 가능성을 결정하기 위해 발언(104)을 프로세싱한다. 컴퓨팅 디바이스들(106, 108 및 110)은 음량 스코어에 비례하는 지연 시간을 계산한다. 일단, 컴퓨팅 디바이스에 대한 지연 시간들 중 하나가 경과하면, 그 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스들에게 신호를 전송한다. 상기 신호는 다른 컴퓨팅 디바이스들에게, 상기 전송하는 컴퓨팅 디바이스가 발언에 대응하는 오디오 데이터에 대한 음성 인식을 수행할 것임을 표시한다.
더욱 상세하게는, 사용자(102)는 발언(104) "OK computer"를 말하고, 컴퓨팅 디바이스들(106, 108 및 110)은 마이크로폰과 같은, 각각의 오디오 입력 디바이스를 통해 상기 발언(104)을 수신한다. 컴퓨팅 디바이스(106)는 사용자의 손에 사용자(102)가 들고 있는 폰(phone)이다. 컴퓨팅 디바이스(108)는 테이블에 위치한 테블릿(tablet)이다. 컴퓨팅 디바이스(110)은 벽에 위치한 온도조절장치(thermostat)이다. 컴퓨팅 디바이스(106)가 사용자에 가장 가깝고, 그 다음 컴퓨팅 디바이스(108)가 그 다음으로 가까우며, 마지막으로 컴퓨팅 디바이스(110)가 사용자로부터 가장 멀다. 각 컴퓨팅 디바이스(106, 108 및 110)는 마이크로폰(114, 116 또는 118)을 포함한다. 각 마이크로폰은 오디오 데이터를 각각의 오디오 서브시스템에 제공한다. 상기 오디오 서브시스템은 마이크로폰에 의해 수신된 오디오 데이터를 버퍼(buffer)하고, 필터링(filter)하고, 디지털화(digitize)한다. 일부 구현들에서, 또한 각 컴퓨팅 디바이스는 엔드포인팅 및 오디오 데이터에 대한 화자 식별을 수행할 수 있다. 일부 구현들에서, 컴퓨팅 디바이스(106, 108 및 110)는, 예컨데, 도 3을 참조하여 후술된 디바이스와 같은, 오디오 데이터를 수신하고 프로세싱하는 임의의 디바이스일 수 있다.
각 오디오 서브시스템은 프로세싱된 오디오 데이터를 핫워더(hotworder) (120, 122 또는 124)와 같은 핫워더에 제공한다. 각각의 핫워더는 알려진 핫워드의 발언들을 사용하여, 통보되거나 트레이닝(train)된 프로세싱된 오디오 데이터에 대한 분류 프로세스를 수행한다. 각각의 핫워더는 발언(104)이 핫워드를 포함할 가능성을 계산한다. 각각의 핫워더는 프로세싱된 오디오 데이터로부터 예컨데, 필터뱅크 에너지(filterbank energe)들 또는 멜-프리퀀시 켑스트랄 계수(mel-frequency cepstral coefficient)들과 같은, 오디오 구성들을 추출할 수 있다. 각각의 핫워더는 예컨데, 서포트 벡터 머신(support vector machine) 또는 뉴럴 네트워크(neural network)를 사용하는 것과 같이, 이런 오디오 구성들을 프로세싱하기 위해 분류하는 창(window)들을 사용할 수 있다. 상기 오디오 구성들의 프로세싱에 기초하여, 각각의 핫워더는 발언(104)이 핫워드를 포함할 가능성을 계산한다. 일부 구현들에서, 상기 가능성은 신뢰 스코어에 의해 반영된다. 신뢰 스코어는 발언(104)이 핫워드를 포함하는 더 높은 신뢰를 표시하는 더 높은 숫자와 함께, 1에서 100 단위로 정규화될 수 있다.
일부 구현들에서, 각각의 핫워더는 임계치에 대한 신뢰 스코어를 계산한다. 만일 신뢰 스코어가 임계치를 만족하면, 컴퓨팅 디바이스는 오디오 데이터를 프로세싱하는 것을 계속한다. 만일 신뢰 스코어가 임계치를 만족하지 않는다면, 컴퓨팅 디바이스는 오디오 데이터의 프로세싱를 중단한다. 예를 들면, 만일 신뢰 스코어가 0.8이고, 임계치가 0.7이면, 컴퓨팅 디바이스는 오디오 데이터를 프로세싱하는 것을 계속할 것이다. 오디오 데이터가 "OK, computer"에 대응하는 경우, 신뢰 스코어는 0.8일 수 있다. 만일 신뢰 스코어가 0.5이고, 임계치가 0.7이면, 컴퓨팅 디바이스는 오디오 데이터를 프로세싱하는 것을 중단할 것이다. 오디오 데이터가 "dinner time"에 대응하는 경우, 신뢰 스코어는 0.5일 수 있다.
핫워더는 오디오 데이터를 음량 스코어링기(loudness scorer)에 제공한다. 음량 스코어링기는 오디오 데이터에 대한 음량 스코어를 계산한다. 일반적으로 음량 스코어링기는 사용자가 각 컴퓨팅 디바이스로부터의 거리의 반영일 것이다. 예를 들면, 컴퓨팅 디바이스(106)의 음량 스코어링기(126)에 의해 계산된 음량 스코어는 0.9일 수 있다. 컴퓨팅 디바이스(108)의 음량 스코어링기(128)에 의해 계산된 음량 스코어는 0.6일 수 있다. 컴퓨팅 디바이스(110)의 음량 스코어링기(130)에 의해 계산된 음량 스코어는 0.5일 수 있다. 일부 구현들에서, 오디오 서브시스템은 오디오 데이터를 음량 스코어링기에 제공한다. 이 예에서, 핫워더는 음량 스코어를 계산하는 음량 스코어링기와 병행하여, 발언(104)이 핫워드를 포함할 가능성을 계산한다.
음량 스코어링기는, 음량에 비례하는 값(value)을 생성하는 임의의 적절한 기법, 예를 들면, 후술하는 기법들 중 하나 또는 조합을 사용하여, 오디오 데이터의 음량을 계산한다. 첫 번째 기법은 사용자가 발언을 말할 때 마이크로폰에 의해 수신된 것으로서, 최대 또는 평균 음압(sound pressure) 또는 음압 레벨을 계산하는 것이다. 음압 또는 음압레벨이 높을수록, 음량은 크다. 두 번째 기법은 오디오 데이터의 실효값(root mean square)을 계산하는 것이다. 오디오 데이터의 실효값이 높을수록, 음량은 크다. 세 번째 기법은 오디오 데이터의 소리 강도(sound intensity)를 계산하는 것이다. 오디오 데이터의 소리 강도가 높을수록, 음량은 크다. 네 번째 기법은 오디오 데이터의 소리 파워(sound power)를 계산하는 것이다. 소리 파워가 높을수록, 음량은 크다.
음량 스코어링기는 음량 스코어를 지연 계산 모듈에 제공한다. 상기 음량 스코어에 기초하여, 상기 모듈은 오디오 데이터를 추가적 프로세싱하고, 상기 컴퓨팅 디바이스가 다른 컴퓨팅 디바이스들에게 오디오 데이터를 프로세싱할 것임을 통지하기 전에, 컴퓨팅 디바이스가 기다려야 하는 지연 시간을 계산한다. 예를 들면, 음량 스코어링기(126)는 0.9의 음량 스코어를 지연 계산 모듈(132)에 제공하고, 상기 모듈(132)은 50밀리초의 지연 시간을 계산한다. 음량 스코어링기(128)는 0.6의 음량 스코어를 지연 계산 모듈(134)에 제공하고, 상기 모듈(134)은 200밀리초의 지연 시간을 계산한다. 음량 스코어링기(130)는 0.5의 음량 스코어를 지연 계산 모듈(136)에 제공하고, 상기 모듈(136)은 200밀리초의 지연 시간을 계산한다.
타이머는 그 후 지연 시간을 카운트 다운(count down)하고, 일단 지연 시간이 경과하면, 타이머는 통지신호를 방출하기 위해, 컴퓨팅 디바이스로 하여금 화자에 대한 컴퓨팅 디바이스의 화자에게 신호를 전송하게 한다. 상기 타이머는 지연 계산 모듈에 포함될 수 있거나, 또는 상기 타이머는 지연 계산 모듈로부터 분리될 수 있다. 상기 통지신호는, 예를 들면, 초음파 또는 가청 오디오 신호 또는 블루투스와 같은 단거리 라디오 신호일 수 있다. 상기 통지신호는 다른 컴퓨팅 디바이스들에 의해 수신되고, 다른 컴퓨팅 디바이스들에게 통지신호를 방출했던 컴퓨팅 디바이스가 오디오 데이터를 프로세싱하는 것을 다룰 것임을 표시한다. 예를 들면, 지연 계산 모듈(132)은 화자(138)를 지시하기 전에 통지신호를 방출하기 위해, 50밀리초를 기다린다. 컴퓨팅 디바이스들(108 및 110)의 타이머들이 그들 각각의 지연 시간을 카운트 다운하는 것을 끝내기 전에, 컴퓨팅 디바이스들(108 및 110)이 통지신호를 수신하기 때문에, 컴퓨팅 디바이스(108 및 110)는 오디오 데이터의 프로세싱을 중단하고, 화자들(140 및 142)은 통지신호를 방출하지 않는다. 일부 구현들에서, 통지신호는 특정 주파수 및/또는 패턴을 포함할 수 있다. 예를 들면, 통지신호는 컴퓨팅 디바이스가 오디오 데이터에 대한 음성 인식을 수행할 것임을 표시하기 위해, 20khz일 수 있다.
일부 구현들에서, 통지신호를 방출함에 따라, 또한 컴퓨팅 디바이스(106)는 그것의 디바이스 상태(138)를 설정할 수 있다. 컴퓨팅 디바이스(106)는 오디오 데이터를 프로세싱하는 것이기 때문에, 디바이스 상태(138)는 활성화 또는 "웨이크"(awake)로 설정된다. 컴퓨팅 디바이스들(108 및 110)의 디바이스 상태들(140 및 142)은 디바이스들 모두 오디오 데이터를 추가적 프로세싱하는 것을 수행하지 않기 때문에, 비활성화 또는 "슬립"(sleep)으로 설정된다.
일부 구현들에서, 컴퓨팅 디바이스들의 디바이스 상태들은 영향을 받지 않을 수 있다. 가장 큰 오디오 데이터를 측정하고 차례로, 가장 빨리 통지신호를 방출하는 컴퓨팅 디바이스는, 다른 컴퓨팅 디바이스들이 웨이크로 있게 되거나 웨이크 상태로 들어가는 동안, 오디오 데이터를 추가적 프로세싱하는 것을 시작한다. 예를 들면, 사용자(102)는 컴퓨팅 디바이스(108)상에서 영화를 보고 있을 수 있고, 사용자의 손에 컴퓨팅 디바이스(106)을 가지고 있을 수 있다. 사용자(102)가 "OK computer"를 말하는 경우, 컴퓨팅 디바이스(106)는 상기 오디오 데이터를 검출하고, 50밀리초 후에, 컴퓨팅 디바이스(106)는 컴퓨팅 디바이스(106)가 상기 오디오 데이터를 추가적 프로세싱할 것임을 알리기 위해 통지신호를 방출한다. 컴퓨팅 디바이스(108)는 상기 통지신호를 수신하고, 영화 재생을 계속한다.
일부 구현들에서, 컴퓨팅 디바이스는, 통지신호를 방출 또는 수신하기 전에, 오디오 데이터에 대한 음성 인식을 수행하는 것을 시작할 수 있다. 통지신호를 방출 또는 수신하기 전에 인식을 수행하는 것은 컴퓨팅 디바이스로 하여금 발언의 음성 인식을 빨리 완료하게 한다. 예를 들면, 만일 발언이 "OK, computer, call Alice"라면, 컴퓨팅 디바이스는, 만일 컴퓨팅 디바이스가 활성화 상태로 있게 되는 경우 컴퓨팅 디바이스는 더 빨리 응답하기 위해, 사용자가 "call Alice"를 말함을 인식하는 것을 시작할 수 있다. 만일 컴퓨팅 디바이스의 디바이스 상태가 비활성화인경우, 컴퓨팅 디바이스는 컴퓨팅 디바이스가 "call Alice"에 대한 음성 인식을 수행하였다는 표시를 디스플레이(display)하지 않을 수 있다. 도 1에서, 이러한 기술을 사용하는 것은 컴퓨팅 디바이스들(106, 108 및 110)로 하여금 오디오 데이터 및 상기 오디오 데이터에 후속하는 임의의 오디오 데이터에 대한 음성 인식을 수행하게 한다. 화자(138)가 통지신호를 전송할 때, 그 후 컴퓨팅 디바이스(106)는 음성 인식을 수행하는 것을 계속하고 결과들을 디스플레이 할 것이다. 마이크로폰들(116 및 118)이 통지신호를 수신할 때, 그 후 컴퓨팅 디바이스들(106 및 108)은 음성 인식을 수행하는 것을 중단하고 결과들을 디스플레이 하지 않을 것이다. 컴퓨팅 디바이스들(106 및 108)은 비활성화 상태로 유지되는 것으로서 사용자(102)에게 나타난다.
도 2는 핫워드 검출을 위한 예시적인 프로세스(200)의 다이어그램이다. 프로세스(200)는 도 1에서의 컴퓨팅 디바이스와 같은, 컴퓨팅 디바이스에 의해 수행될 수 있다. 프로세스(200)는 (ⅰ) 발언이 핫워드를 포함할 가능성 및 (ⅱ) 발언에 대응하는 오디오 데이터에 대한 음량 스코어를 계산한다. 프로세스(200)는, 다른 컴퓨팅 디바이스들에게 상기 컴퓨팅 디바이스가 오디오 데이터를 프로세싱하는 중임을 통지하기 전에, 컴퓨팅 디바이스가 기다리는 지연 시간을 계산한다.
컴퓨팅 디바이스는 발언에 대응하는 오디오 데이터를 수신(210)한다. 사용자는 발언을 말하고, 컴퓨팅 디바이스의 마이크로폰은 상기 발언의 오디오 데이터를 수신한다. 컴퓨팅 디바이스는 오디오 데이터를 버퍼링, 필터링, 엔드포인팅(endpointing) 및 디지털화함으로써, 오디오 데이터를 프로세싱한다. 예를 들어, 사용자는 "Ok, computer"라고 발언할 수 있고, 컴퓨팅 디바이스의 마이크로폰은 "Ok, computer"에 대응하는 오디오 데이터를 수신할 것이다. 컴퓨팅 디바이스의 오디오 서브시스템은 컴퓨팅 디바이스에 의한 추가적 프로세싱를 위해 오디오 데이터를 샘플(sample), 버퍼, 필터링 및 엔트포인트 할 것이다.
컴퓨팅 디바이스는 발언이 핫워드를 포함할 가능성을 결정(220)한다. 컴퓨팅 디바이스는, 발언의 오디오 데이터와 핫워드를 포함하는 오디오 샘플들의 그룹을 비교함으로써 그리고/또는 발언의 오디오 데이터의 오디오 특성들을 분석함으로써, 발언이 핫워드를 포함할 가능성을 결정한다. 일부 구현들에서, 발언이 핫워드를 포함할 가능성은 신뢰 스코어에 의해 나타날 수 있다. 신뢰 스코어는 100이 발언이 핫워드를 포함하는 가장 높은 가능성을 표시하는, 1에서 100단위로 정규화 될 수 있다. 컴퓨팅 디바이스는 신뢰 스코어와 임계치를 비교한다. 만일 신뢰 스코어가 임계치를 만족하면, 컴퓨팅 디바이스는 오디오 데이터를 프로세싱하는 것을 계속할 것이다. 만일 신뢰 스코어가 임계치를 만족하지 않는다면, 컴퓨팅 디바이스는 오디오 데이터의 프로세싱를 중단할 것이다. 일부 구현들에서, 컴퓨팅 디바이스가 프로세싱를 계속하기 위해, 신뢰 스코어는 임계치보다 높아야 한다. 예를 들면, 만일 신뢰 스코어가 0.9이고, 임계치가 0.7이라면, 컴퓨팅 디바이스는 오디오 데이터를 프로세싱하는 것을 계속할 것이다.
일부 구현들에서, 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스가 오디오 데이터에 대한 음성 인식 프로세싱을 개시할 것임을 표시하는 신호를 수신할 준비를 한다. 신호를 수신하기 위해, 컴퓨팅 디바이스는 컴퓨팅 디바이스의 마이크로폰이 활성화 된 상태로 있게 되는 것, 단거리 라디오 수신기가 활성화되는 것, 또는 근거리 무선 라디오와 같은, 다른 라디오가 활성화되는 것을 보장할 수 있다. 다른 컴퓨팅 디바이스가 결과들을 디스플레이 하는 경우, 오디오 데이터의 음성 인식으로 인해 컴퓨팅 디바이스가 디스플레이 하지 않기 위해, 컴퓨팅 디바이스가 신호를 수신할 준비를 하는 것이 필요할 수 있다.
컴퓨팅 디바이스는 오디오 데이터에 대한 음량 스코어를 결정(230)한다. 컴퓨팅 디바이스는 오디오 데이터에 대한 음량 스코어를 계산하기 위해, 후술하는 기법들의 하나 또는 조합을 사용할 수 있다. 첫 번째 기법은 사용자가 발언을 말할 때 마이크로폰에 의해 수신된 것으로서, 음압 또는 음압 레벨을 계산하는 것이다. 음압 또는 음압 레벨이 높을수록, 음량은 높다. 두 번째 기법은 오디오 데이터의 실효값을 계산하는 것이다. 오디오 데이터의 실효값이 높을수록, 음량은 높다. 세 번째 기법은 오디오 데이터의 소리 강도를 계산하는 것이다. 오디오 데이터의 소리 강도가 높을수록, 음량은 높다. 네 번째 기법은 오디오 데이터의 소리 파워를 계산하는 것이다. 소리 파워가 높을수록, 음량은 높다. 컴퓨팅 디바이스에 의해 수신된 오디오 데이터의 음량은 컴퓨팅 디바이스와 오디오 소스 사이의 거리를 반영한다. 직접 경로 신호 전파(direct path signal propagation)에 대해, 음량은 대략 소스와 수신기 사이의 거리의 제곱에 반비례한다. 일부 구현들에서, 컴퓨팅 디바이스는 만일 발언이 핫워드를 포함할 가능성이 임계치를 만족한다면, 단지 음량 스코어만을 계산한다. 만일 발언이 핫워드를 포함할 가능성이 없다면, 컴퓨팅 디바이스는 음량 스코어를 계산하지 않는다.
음량 스코어에 기초하여, 컴퓨팅 디바이스는 지연 시간의 양을 결정(240)한다. 일부 구현들에서, 지연 시간은 음량 스코어와 반비례한다. 예를 들면, 90의 음량 스코어는 50밀리초의 지연 시간에 대응하고, 0.6의 음량 스코어는 200밀리초의 지연 시간에 대응한다. 일부 구현들에서, 만일 음량 스코어가 임계치를 만족하지 않는다면, 지연 시간은 없다. 즉, 컴퓨팅 디바이스는 오디오 신호를 프로세싱하는 것을 중단하고, 언제든지 통지를 전송하지 않을 것이다. 일부 구현들에서, 만일 음량이 임계치를 초과하였다면, 지연 시간이 0이 될 것이고, 이는 대응하는 컴퓨팅 디바이스는 오디오 신호를 프로세싱하는 것을 계속하고 다른 디바이스들에게 통지신호를 즉시 보내는 것을 의미한다. 이러한 임계치들은 예컨데, 경험적으로 실험에 의한 것과 같은, 임의의 적합한 방법을 사용함으로써 결정된다.
지연 시간의 양이 경과한 후, 컴퓨팅 디바이스는, 상기 컴퓨팅 디바이스가 오디오 데이터에 대한 음성 인식 프로세싱을 개시할 것임을 표시하는 통지신호를 전송(250)한다. 일단 컴퓨팅 디바이스가 지연 시간을 계산하면, 컴퓨팅 디바이스의 타이머는 지연 시간을 카운트 다운한다. 지연 시간이 경과한 때, 컴퓨팅 디바이스는 컴퓨팅 디바이스가 오디오 데이터에 대한 음성 인식 프로세싱을 개시하고 있음을 표시하기 위해, 예컨데, 초음파, 단거리 라디오 신호 또는 근거리 무선 신호와 같은, 신호를 근처의 다른 컴퓨팅 디바이스들에게 전송한다. 예를 들면, 컴퓨팅 디바이스는 오디오 데이터를 수신한 후 활성화 또는 "웨이크"상태이고 다른 컴퓨팅 디바이스들은 상기 신호를 수신한 후 비활성화 또는 "슬립"상태이다.
일부 구현들에서, 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스로부터, 다른 컴퓨팅 디바이스가 오디오 데이터에 대한 음성 인식 프로세싱을 개시할 것임을 표시하는 신호를 수신한다. 이 예에서, 타이머가 지연 시간을 카운트다운 하는 동안, 컴퓨팅 디바이스는 신호를 수신한다. 컴퓨팅 디바이스가 신호를 수신할 때, 상기 컴퓨팅 디바이스는 오디오 데이터에 대한 음성 인식을 수행하지 않거나, 수행하는 것을 계속하지 않을 것이다. 예를 들면, 만일 컴퓨팅 디바이스가 200밀리초의 지연 시간을 계산하고, 컴퓨팅 디바이스의 타이머가 200밀리초를 카운트 다운하는 동안 컴퓨팅 디바이스가 다른 컴퓨팅 디바이스로부터 통지신호를 수신한다면, 상기 컴퓨팅 디바이스는 오디오 데이터에 대한 음성 인식을 수행하지 않을 것이다. 컴퓨팅 디바이스는 신호를 수신한 후, 지금 비활성화 또는 "슬립"상태일 수 있다.
일부 구현들에서, 컴퓨팅 디바이스는 근처에 있고 핫워드에 응답할 수 있는 다른 컴퓨팅 디바이스들을 검출한다. 컴퓨팅 디바이스는 주기적으로 응답을 요청하는 초음파 또는 라디오 신호를 전송한다. 예를 들면, 컴퓨팅 디바이스는 핫워드들을 인식하는 근처의 컴퓨팅 디바이스들을 검색할 때, 20.5khz인 초음파를 전송할 수 있다. 이에 응답하여, 20.5khz 초음파를 수신한 컴퓨팅 디바이스들은 21khz 초음파에 응답할 수 있다. 컴퓨팅 디바이스가 핫워드들을 인식하는 근처의 컴퓨팅 디바이스들을 검출하지 못한 경우, 컴퓨팅 디바이스는 오디오 데이터에 대한 음성 인식을 수행하기 전에, 음량 스코어 및 지연 시간을 계산하지 않는다.
일부 구현들에서, 컴퓨팅 디바이스는 동일한 사용자에 속하는 다른 컴퓨팅 디바이스들을 식별한다. 새로운 컴퓨팅 디바이스를 설정하는 동안, 상기 설정 절차의 일부는 동일한 사용자에 속하는 다른 컴퓨팅 디바이스들을 식별하는 것이다. 이는 사용자가 로그인 된 다른 장치들을 검출함으로써 달성될 수 있다. 일단 컴퓨팅 디바이스가 다른 컴퓨팅 디바이스를 식별하면, 컴퓨팅 디바이스들은 핫워드를 식별할 때 컴퓨팅 디바이스들이 교환할 수 있는 초음파 주파수 패턴 또는 비트 스트림을 의미하는 데이터를 교환한다. 초음파 주파수 패턴은 화자를 통해 전송될 수 있고, 비트 스트림은 라디오를 통해 전송될 수 있다. 예를 들면, 사용자는 온도조절장치를 설치할 수 있고, 설치 프로세스의 일부는 근처의 핫워드에 응답하는 다른 컴퓨팅 디바이스를 검색하는 것이다. 상기 온도조절장치는 사용자가 로그인 된 폰 및 테블릿을 식별할 수 있다. 예를 들어, 온도조절장치, 폰 및 테블릿은 20.5khz에 1밀리초, 21khz에 1밀리초, 21.5khz에 1밀리초의 램프(ramp)된 주파수 패턴을 사용하여, 데이터를 교환할 수 있다. 상기 패턴은 오디오 데이터에 대한 음성 인식 프로세싱을 개시하는 컴퓨터 디바이스로 하여금, 사용자에 속하고 다른 사용자에 속하는 다른 디바이스들에서의 음성 인식을 억제하지 않는 다른 컴퓨팅 디바이스에게 통지하게 한다.
도 3은 컴퓨팅 디바이스(300)의 예시 및 여기에 기술된 기법들을 구현하기 위해 사용될 수 있는 모바일 컴퓨팅 디바이스(350)를 도시한다. 컴퓨팅 디바이스(300)는 다양한 형태들의 디지털 컴퓨터들, 예를 들어, 랩탑들, 데스크탑들, 워크스테이션들, PDA들, 서버들, 블레이드 서버들, 메인 프레임들 및 다른 적합한 컴퓨터들을 나타내도록 의도된다. 모바일 컴퓨팅 디바이스(350)는 모바일 디바이스들의 다양한 형태들, 예를 들어, PDA들, 셀룰러 폰들, 스마트 폰들 및 다른 유사한 컴퓨팅 디바이스들을 나타내도록 의도된다. 여기에 도시된 컴포넌트들, 그 것들의 접속들 및 관계들, 그리고 그것들의 기능들은, 단지 예시적인 것을 의미하고, 제한하는 것을 의미하지 않는다.
컴퓨팅 디바이스(300)는 프로세서(302), 메모리(304), 저장 디바이스(306), 상기 메모리(304) 및 다수의 고속 확장 포트들(310)과 연결되는 고속 인터페이스(308) 및 저속 확장 포트(314) 및 상기 저장 디바이스(306)와 연결되는 저속 인터페이스(312)를 포함한다. 상기 프로세서(302), 메모리(304), 저장 디바이스(306), 고속 인터페이스(308), 고속 확장 포트들(310) 및 저속 인터페이스(312) 각각은 다양한 버스들을 사용하여 상호접속되고, 공통의 마더보드 상에 또는 적합한 다른 방식들로 장착될 수 있다. 상기 프로세서(302)는 외부 입력/출력 디바이스, 예를 들어, 고속 인터페이스(308)에 연결된 디스플레이(316) 상의 GUI 에 대한 그래픽 정보를 디스플레이 하기 위해 메모리(304) 내에 저장되거나 또는 저장 디바이스(306) 상에 저장된 명령어들을 포함하는, 컴퓨팅 디바이스(300) 내에서 실행을 위한 명령어들을 프로세싱할 수 있다. 다른 구현들에서, 다수의 프로세서들 및/또는 다수의 버스들은, 다수의 메모리들 및 메모리의 타입들에 따라, 적합하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들은 필요한 동작들의 부분들을 제공하는 각 디바이스(예를 들어, 서버 뱅크, 블레이드 서버들의 그룹 또는 멀티-프로세서 시스템으로서)와 연결될 수 있다.
메모리(304)는 컴퓨팅 디바이스(300) 내에 정보를 저장한다. 일부 구현들에서, 메모리(304)는 휘발성 메모리 또는 유닛들이다. 일부 구현들에서, 메모리(304)는 비-휘발성 메모리 유닛 또는 유닛들이다. 상기 메모리(304)는 또한 컴퓨터-판독가능한 매체, 예를 들어, 자기 또는 광 디스크의 다른 형태일 수 있다.
저장 디바이스(306)는 컴퓨팅 디바이스(300)에 대량 스토리지(storage)를 제공할 수 있다. 일부 구현들에서, 저장 디바이스(306)는 컴퓨터-판독가능한 매체, 예를 들어, 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스 또는 테이프 디바이스, 플래시 메모리 또는 다른 유사한 고체 상태 메모리 디바이스 또는 디바이스들의 어레이(저장 영역 네트워크 또는 다른 구성들 내의 디바이스를 포함)일 수 있거나 상기 컴퓨터-판독가능한 매체를 포함할 수 있다. 명령어들은 정보 캐리어 내에 저장될 수 있다. 상기 명령어들은, 하나 이상의 프로세싱 디바이스들(예를 들면, 프로세서(302))에 의해 실행될 때, 예를 들어, 상기 기술된 것들과 같은, 하나 이상의 방법들을 수행한다. 상기 명령어들은 또한, 예를 들어, 컴퓨터-판독가능한 매체 또는 기계-판독가능한 매체와 같은, 하나 이상의 저장 디바이스들(예를 들어, 메모리(304), 저장 디바이스(306) 또는 상기 프로세서(302)상의 메모리)에 의해 저장될 수 있다.
고속 인터페이스(308)는 컴퓨팅 디바이스(300)에 대한 대역폭-집약적인 동작들을 관리하는 반면에, 저속 인터페이스(312)는 더 낮은 대역폭-집약적인 동작들을 관리한다. 이와 같은 기능들의 할당은 단지 예시적이다. 일부 구현들에서, 고속 인터페이스(308)는 메모리(304), 디스플레이(316) 및 고속 확장 포트들(310)에 연결 (예를 들면, 그래픽 프로세서 또는 엑셀레이터를 통해) 되고, 상기 고속 확장 포트들(310)은 여러 확장 카드들(미도시)을 수용할 수 있다. 상기 구현에서, 저속 인터페이스(312)는 저장 디바이스(306) 및 저속 확장 포트(314)에 연결된다. 여러 통신 포트들(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)을 포함할 수 있는, 저속 확장 포트(314)는, 하나 이상의 입력/출력 디바이스들, 예를 들어, 키보드, 포인팅 디바이스, 스위치 또는 네트워크 어댑터를 통한 스위치 또는 라우터와 같은, 네트워킹 디바이스에 연결될 수 있다.
컴퓨팅 디바이스(300)는, 도면에서 도시된 것처럼, 복수의 서로 다른 형태들로 구현될 수 있다. 예를 들면, 표준 서버(320)로서, 또는 그와 같은 서버들의 그룹으로 여러 번 구현될 수 있다. 또한, 컴퓨팅 디바이스(300)는 랩탑 컴퓨터(322)와 같은 개인용 컴퓨터로 구현될 수 있다. 컴퓨팅 디바이스(300)는 또한 랙 서버 시스템(324)의 부분으로서 구현될 수 있다. 대안적으로, 컴퓨팅 디바이스(300)로부터의 컴포넌트들은, 모바일 컴퓨팅 디바이스(350)와 같은 모바일 컴퓨팅 디바이스(미도시) 내의 다른 컴포넌트들과 결합될 수 있다. 그와 같은 디바이스들 각각은, 하나 이상의 컴퓨팅 디바이스(300) 및 모바일 컴퓨팅 디바이스(350)를 포함할 수 있고, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 디바이스들로 구성될 수 있다.
모바일 컴퓨팅 디바이스(350)는, 다른 컴포넌트들 사이에서, 프로세서(352), 메모리(364), 디스플레이(354)와 같은 입력/출력 디바이스, 통신 인터페이스(366) 및 트랜시버(368)를 포함한다. 모바일 컴퓨팅 디바이스(350)는 또한 추가적인 저장을 제공하기 위해, 마이크로-드라이브와 같은 저장 디바이스 또는 다른 디바이스가 제공될 수 있다. 상기 프로세서(352), 메모리(364), 디스플레이(354), 통신 인터페이스(366) 및 트랜시버(368) 각각은 여러 버스들을 사용하여 상호접속되고, 상기 컴포넌트들 중 다수는 공통의 마더보드 상에 또는 적합한 다른 방식들로 장착될 수 있다.
프로세서(352)는 메모리(364) 내에 저장되는 명령어들을 포함하는, 모바일 컴퓨팅 디바이스(350) 내의 명령어들을 실행할 수 있다. 상기 프로세서는 독립된 다수의 아날로그 및 디지털 프로세서들을 포함하는 칩들의 칩셋으로 구현될 수 있다. 상기 프로세서는, 예를 들면, 사용자 인터페이스들의 제어와 같은, 모바일 컴퓨팅 디바이스(350)의 다른 컴포넌트들의 조정을 위해, 모바일 컴퓨팅 디바이스(350)에 의해 구동되는 어플리케이션들 및 모바일 컴퓨팅 디바이스(350)에 의한 무선 통신을 제공할 수 있다.
프로세서(352)는 디스플레이(354)와 연결된 제어 인터페이스(358) 및 디스플레이 인터페이스(356)를 통해, 사용자와 통신할 수 있다. 디스플레이(354)는, 예를 들면, TFT(Thin-Film-Transistor Liquid Crystal Display) 디스플레이 또는 OLED(Organic Light Emitting Diode) 디스플레이 또는 다른 적합한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(356)는 그래픽 및 다른 정보를 사용자에게 제공하기 위해, 디스플레이(354)를 구동하는 적합한 회로를 포함할 수 있다. 상기 제어 인터페이스(358)는 사용자로부터 명령어들을 수신할 수 있고, 프로세서(352)로의 제공을 위해 명령어들을 변환할 수 있다, 또한, 외부 인터페이스(362)는 다른 디바이스들과 모바일 컴퓨팅 디바이스(350)의 근거리 통신을 가능하게 하도록, 프로세서(352)와의 통신에 제공될 수 있다. 외부 인터페이스(362)는, 예를 들면, 일부 구현들에서 유선 통신을 제공할 수 있거나, 또는 구현들에서 무선 통신을 제공할 수 있으며, 다수의 인터페이스들이 또한 사용될 수 있다.
메모리(364)는 모바일 컴퓨팅 디바이스(350) 내에 정보를 저장한다. 상기 메모리(364)는 하나 이상의 컴퓨터-판독가능한 매체 또는 매체들, 휘발성 메모리 유닛 또는 유닛들, 또는 비-휘발성 메모리 유닛 또는 유닛들로서 구현될 수 있다. 확장 인터페이스(374)는 또한 확장 인터페이스(372)를 통해 디바이스(350)에 제공될 수 있거나 접속될 수 있고, 상기 확장 인터페이스(372)는, 예를 들면, SIMM(Single In Line Memory Module) 카드 인터페이스를 포함할 수 있다. 상기 확장 메모리(374)는 모바일 컴퓨팅 디바이스(350)를 위한 여분의 저장 공간을 제공할 수 있거나, 또는 모바일 컴퓨팅 디바이스(350)를 위한 어플리케이션 또는 다른 정보를 저장할 수 있다. 특히, 상기 확장 메모리(374)는 상기 기술된 프로세스들을 실행하거나 보충하기 위한 명령어들을 포함할 수 있고, 그리고 또한 보안 정보를 포함할 수 있다. 따라서, 예를 들면, 확장 메모리(374)는 모바일 컴퓨팅 디바이스(350)에 대한 보안 모듈로서 제공될 수 있고, 모바일 컴퓨팅 디바이스(350)의 안전한 사용을 허용하는 명령어들로 프로그래밍 될 수 있다. 부가적으로, 보안 어플리케이션들은, 해킹할 수 없는 방식으로 SIMM 카드 상의 정보를 식별하는 것을 배치하는 것처럼, 추가 정보에 따라, SIMM 카드들을 통해 제공될 수 있다.
상기 메모리는, 예를 들면, 하기에서 논의된 것처럼, 플래시 메모리 및/또는 NVRAM 메모리(non-volatile random access memory)를 포함할 수 있다. 일부 구현들에서, 상기 기술된 것들과 같이, 명령어들은 정보 캐리어 내에 저장되며, 상기 정보 캐리어는 명령어들이, 하나 이상의 프로세싱 디바이스들(예를 들면, 프로세서(352))에 의해 실행될 때, 하나 이상의 방법들을 수행한다. 명령어들은 또한, 예를 들어, 하나 이상의 컴퓨터-판독가능한 매체 또는 기계-판독가능한 매체들(예를 들면, 메모리(364), 확장 메모리(374) 또는 프로세서(352)상의 메모리)과 같은, 하나 이상의 저장 디바이스들에 의해 저장될 수 있다. 일부 구현들에서, 상기 명령어들은, 예를 들면, 트랜시버(368) 또는 외부 인터페이스(362)를 통해, 전파된 신호 내에서 수신될 수 있다.
모바일 컴퓨팅 디바이스(350)는 통신 인터페이스(366)을 통해 무선으로 통신할 수 있고, 상기 통신 인터페이스(366)는 필요한 디지털 신호 프로세싱 회로를 포함할 수 있다. 통신 인터페이스(366)는 다른 것들 중에서, GSM 음성 호출들(Global System for Mobile communications), SMS(Short Message Service), EMS(Enhanced Messaging Service) 또는 MMS 메시징(Multimedia Messaging Service), CDMA(code division multiple access), TDMA(time division multiple access), PDC(Personal Digital Celluar), WCDMA(Wideband Code Division Multiple Access)m CDMA2000 또는 GPRS(General Packet Radio Service)와 같은, 여러 모드들 또는 프로토콜들 하에서 통신들을 제공할 수 있다. 이러한 통신은, 예를 들면, 무선-주파수를 사용하는 트랜시버(368)를 통해 발생할 수 있다. 부가적으로, 단거리 통신은, 예를 들어 블루투스, WiFi 또는 다른 이러한 트랜시버(미도시)를 사용하여, 발생할 수 있다. 부가적으로, GPS(Global Positioning System) 수신기 모듈(370)은 모바일 컴퓨팅 디바이스(350)에 추가적인 내비게이션-관련 무선 데이터 및 위치-관련 무선 데이터를 제공할 수 있고, 상기 모바일 컴퓨팅 디바이스(350)는 모바일 컴퓨팅 디바이스(350) 상에서 구동하는 어플리케이션들에 의해 적합하게 사용될 수 있다.
모바일 컴퓨팅 디바이스(350)는 또한 오디오 코덱(360)을 사용하여 오디오적으로 통신할 수 있고, 상기 오디오 코덱(360)은 사용자로부터 음성 정보를 수신할 수 있고, 상기 음성 정보를 사용가능한 디지털 정보로 변환한다. 오디오 코덱(360)은 또한, 예를 들어, 모바일 컴퓨팅 디바이스(350)의 핸드세트(hand set) 내에서, 스피커를 통해, 사용자를 위한 들을 수 있는 소리를 발생시킬 수 있다. 이러한 소리는 음성 전화 호출들로부터 소리를 포함할 수 있고, 기록된 소리(예를 들면, 음성 메시지들, 음악 파일들, 등)를 포함할 수 있으며, 또한 모바일 컴퓨팅 디바이스(350) 상에서 동작하는 어플리케이션들에 의해 발생된 소리를 포함할 수 있다.
모바일 컴퓨팅 디바이스(350)는, 도면에서 도시된 것처럼, 다수의 서로 다른 형태들로 구현될 수 있다. 예를 들면, 상기 모바일 컴퓨팅 디바이스(350)는 셀룰러 텔레폰(380)으로서 구현될 수 있다. 모바일 컴퓨팅 디바이스(350)는 또한 스마트-폰(382), PDA 또는 다른 유사한 모바일 컴퓨팅 디바이스의 일부로서 구현될 수 있다.
본 명세서에서 기술되는 시스템들 및 기술들의 여러 구현들은, 디지털 전자 회로, 집적 회로, 특정하게 설계된 ASIC(application specific integrated circuits)들, 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 그것들의 조합으로 구현될 수 있다. 이러한 여러 구현들은, 적어도 하나의 프로그래밍 가능한 프로세서를 포함하는 프로그래밍 가능한 시스템 상에서 실행가능하고 및/또는 해석가능한 하나 이상의 컴퓨터 프로그램들 내의 구현을 포함할 수 있고, 상기 적어도 하나의 프로그래밍 가능한 프로세서는, 저장 시스템, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하고, 상기 저장 시스템, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스에 명령어들을 전송하기 위해 연결된, 특수용 또는 범용인 프로세서일 수 있다.
컴퓨터 프로그램(또한 프로그램, 소프트웨어, 소프트웨어 어플리케이션 또는 코드로 알려짐)은, 프로그래밍 가능한 프로세서를 위한 기계 명령어들을 포함하고, 하이-레벨 절차 및/또는 객체-지향 프로그래밍 언어 및/또는 어셈블리/기계 언어로 구현될 수 있다. 여기에서 사용된 것처럼, 용어 기계-판독가능한 매체 및 컴퓨터-판독가능한 매체는 기계 명령어들 및/또는 데이터를 프로그래밍 가능한 프로세서에 제공하기 위해 사용되는 임의의 컴퓨터 프로그램 제품, 장치 및/또는 디바이스(예를 들어, 자기 디스크들, 광학 디스크들, 메모리, 프로그래밍 가능한 로직 디바이스들(PLDs))을 언급하고, 기계-판독가능한 신호로서 기계 명령어들을 수신하는 기계-판독가능한 매체를 포함한다. 용어 기계-판독가능한 신호는 기계 명령어들 및/또는 데이터를 프로그래밍 가능한 프로세서에 제공하기 위해 사용되는 임의의 신호를 언급한다.
사용자와의 상호대화를 제공하기 위해, 본 명세서에서 기술되는 시스템들 및 기술들은, 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스(예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터) 및 사용자가 입력을 컴퓨터에 제공할 수 있는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 가지는 컴퓨터상에 구현될 수 있다. 다른 종류의 디바이스들은 또한 사용자에게 인터렉션을 제공하기 위해 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백(예를 들어, 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고; 그리고 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다.
본 명세서에서 기술되는 시스템들 및 기술들은, 백 엔트 컴포넌트(예를 들어, 데이터 서버)를 포함하거나 또는 미들웨어 컴포넌트(예를 들어, 어플리케이션 서버)를 포함하거나 또는 프론트 엔트 컴포넌트(예를 들어, 사용자가 본 명세서에서 서술되는 시스템들 및 기술들의 구현과 상호대화할 수 있는 그래픽 사용자 인터페이스 또는 웹 브라우저를 가지는 클라이언트 컴퓨터) 또는 그와 같은 백 엔트, 미들웨어 또는 프론트 엔트 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)에 의해 상호접속 될 수 있다. 통신 네트워크의 예들은 LAN(local area network), WAN(wide area network) 및 인터넷을 포함한다.
컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로로부터 원격이며 보통 통신 네트워크를 통해 인터렉션한다. 클라이언트와 서버의 관계는 각각의 컴퓨터들 상에서 동작하고 각각에 대하여 클라이언트-서버 관계를 가지는 컴퓨터 프로그램들에 의해 발생한다.
비록 약간의 구현들이 상기에 상세히 기술되었지만, 다른 변형들이 가능하다. 예를 들면, 클라이언트 어플리케이션이 델리게이트(delegate)(들)에 접근하는 것으로서 기술된 반면에, 다른 구현들에서는, 델리게이트(들)은 예컨데, 하나 이상의 서버들 상에서 실행하는 어플리케이션과 같은, 하나 이상의 프로세서들에 의해 구현되는 다른 어플리케이션들에 의해 이용될 수 있다. 추가적으로, 도면들에 도시된 논리 흐름들은 원하는 결과들을 얻기 위해, 도시된 특정 순서 또는 순차적인 순서를 요구하지 않는다. 추가적으로, 다른 단계들은, 기술된 흐름들로부터 제공될 수 있거나 제거될 수 있으며, 다른 컴포넌트들은 기술된 시스템들에 추가될 수 있거나 기술된 시스템들로부터 제거될 수 있다. 따라서, 다른 구현들은 후술하는 청구 범위 내에 있다.

Claims (24)

  1. 컴퓨터로 구현되는 방법에 있어서,
    컴퓨팅 디바이스의 하나 이상의 프로세서들에 의해, 발언(utterance)에 대응하는 오디오 데이터를 수신하는 단계와;
    상기 발언이 특정한 미리 정의된 핫워드(particular, predefined hotword)를 포함할 가능성이 있음을 결정하는 단계와;
    상기 발언이 상기 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 것에 응답하여, 상기 오디오 데이터의 음량(loudness)을 반영하는 스코어(score)를 결정하는 단계와;
    지연 기간의 지속시간(duration of delay period)을 결정하는 단계와, 상기 지연 기간의 지속시간은 상기 오디오 데이터의 음량에 반비례하며;
    다른 컴퓨팅 디바이스가 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작(commence)함을 표시하는 미리 결정된 오디오 신호(predetermined audio signal)를, 상기 지연 기간의 지속시간 동안, 상기 컴퓨팅 디바이스가 일시적으로 리스닝 하는(listen) 모드를 활성화(activate)하는 단계와;
    다른 컴퓨팅 디바이스로부터 상기 미리 결정된 오디오 신호를 듣는 것(hear) 없이 상기 지연 기간의 지속시간이 경과한 후, 상기 모드를 비활성화(deactivate)하고, 상기 컴퓨팅 디바이스가 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작하고 있음을 표시하는 상기 미리 결정된 오디오 신호를 전송하는 단계와; 그리고
    상기 미리 결정된 오디오 신호를 전송한 후에, 상기 컴퓨팅 디바이스 상에서 자동화된 음성 인식기(automated speech recognizer)를 사용하여 상기 오디오 데이터의 적어도 일부분을 프로세싱하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  2. 제 1항에 있어서,
    상기 컴퓨팅 디바이스의 하나 이상의 프로세서들에 의해, 추가적인 발언에 대응하는 추가적인 오디오 데이터를 수신하는 단계와;
    상기 추가적인 발언이 상기 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 단계와;
    상기 추가적인 발언이 상기 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 것에 응답하여, 상기 추가적인 오디오 데이터의 제2 음량을 반영하는 제2 스코어를 결정하는 단계와;
    제2 지연 기간의 제2 지속시간을 결정하는 단계와, 상기 제2 지연 기간의 제2 지속시간은 상기 추가적인 오디오 데이터의 상기 제2 음량에 반비례하며;
    상기 제2 지연 기간의 제2 지속시간 동안, 상기 다른 컴퓨팅 디바이스가 상기 추가적인 오디오 데이터에 대한 음성 인식 프로세싱을 시작하고 있음을 표시하는 상기 미리 결정된 오디오 신호를 상기 컴퓨팅 디바이스가, 일시적으로 리스닝 하는 모드를 활성화하는 단계와;
    상기 제2 지연 기간의 제2 지속시간이 경과하기 전에, 상기 다른 컴퓨팅 디바이스가 상기 추가적인 오디오 데이터에 대한 음성 인식 프로세싱을 시작하고 있음을 표시하는 상기 미리 결정된 오디오 신호를 수신하는 단계와; 그리고
    상기 미리 결정된 오디오 신호를 수신하는 것에 응답하여, 상기 추가적인 오디오 데이터의 프로세싱을 비활성화하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  3. 제 2항에 있어서,
    상기 미리 결정된 오디오 신호를 수신하는 단계에 기초하여, 상기 컴퓨팅 디바이스의 활성 상태는 비활성화 상태임을 결정하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  4. 제 1항에 있어서,
    상기 미리 결정된 오디오 신호를 전송하는 단계 이후에, 상기 컴퓨팅 디바이스의 활성 상태는 활성화 상태임을 결정하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  5. 제 1항에 있어서,
    상기 미리 결정된 오디오 신호는 초음파 신호(ultrasonic signal)를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  6. 제 1항에 있어서,
    상기 미리 결정된 오디오 신호는 다른 컴퓨팅 디바이스에 의해 수신되고, 상기 다른 컴퓨팅 디바이스에게 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작하지 않는 것을 표시하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  7. 제 1항에 있어서,
    상기 발언이 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 단계에 기초하여,
    다른 컴퓨팅 디바이스가 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작할 것임을 표시하는 상기 미리 결정된 오디오 신호를 수신할 준비하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  8. 삭제
  9. 제 1항에 있어서,
    상기 지연 기간의 지속시간은 상기 오디오 데이터의 음량을 반영하는 스코어가 임계치(threshold)를 만족할 때, 0(zero)인 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  10. 삭제
  11. 시스템에 있어서,
    하나 이상의 컴퓨터들 및 동작 가능한 명령어들을 저장하는 하나 이상의 저장 디바이스들을 포함하며, 상기 명령어들은 상기 하나 이상의 컴퓨터에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며,
    상기 동작들은:
    컴퓨팅 디바이스에 의해, 발언에 대응하는 오디오 데이터를 수신하는 동작과;
    상기 발언이 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 동작과;
    상기 발언이 상기 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 것에 응답하여, 상기 오디오 데이터의 음량을 반영하는 스코어를 결정하는 동작과;
    지연 기간의 지속시간을 결정하는 동작과, 상기 지연 기간의 지속시간은 상기 오디오 데이터의 음량에 반비례하며;
    다른 컴퓨팅 디바이스가 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작함을 표시하는 미리 결정된 오디오 신호를, 상기 지연 기간의 지속시간 동안, 상기 컴퓨팅 디바이스가 일시적으로 리스닝 하는 모드를 활성화하는 동작과;
    다른 컴퓨팅 디바이스로부터 상기 미리 결정된 오디오 신호를 듣는 것 없이 상기 지연 기간의 지속시간이 경과한 후, 상기 모드를 비활성화하고, 상기 컴퓨팅 디바이스가 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작하고 있음을 표시하는 상기 미리 결정된 오디오 신호를 전송하는 동작과; 그리고
    상기 미리 결정된 오디오 신호를 전송한 후에, 상기 컴퓨팅 디바이스 상에서 자동화된 음성 인식기를 사용하여 상기 오디오 데이터의 적어도 일부분을 프로세싱하는 동작을 포함하는 것을 특징으로 하는 시스템.
  12. 제 11항에 있어서,
    상기 컴퓨팅 디바이스의 하나 이상의 프로세서들에 의해, 추가적인 발언에 대응하는 추가적인 오디오 데이터를 수신하는 동작과;
    상기 추가적인 발언이 상기 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 동작과;
    상기 추가적인 발언이 상기 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 것에 응답하여, 상기 추가적인 오디오 데이터의 제2 음량을 반영하는 제2 스코어를 결정하는 동작과;
    제2 지연 기간의 제2 지속시간을 결정하는 동작과, 상기 제2 지연 기간의 제2 지속시간은 상기 추가적인 오디오 데이터의 상기 제2 음량에 반비례하며;
    상기 제2 지연 기간의 제2 지속시간 동안, 상기 다른 컴퓨팅 디바이스가 상기 추가적인 오디오 데이터에 대한 음성 인식 프로세싱을 시작하고 있음을 표시하는 상기 미리 결정된 오디오 신호를 상기 컴퓨팅 디바이스가, 일시적으로 리스닝 하는 모드를 활성화하는 동작과;
    상기 제2 지연 기간의 제2 지속시간이 경과하기 전에, 상기 다른 컴퓨팅 디바이스가 상기 추가적인 오디오 데이터에 대한 음성 인식 프로세싱을 시작하고 있음을 표시하는 상기 미리 결정된 오디오 신호를 수신하는 동작과; 그리고
    상기 미리 결정된 오디오 신호를 수신하는 것에 응답하여, 상기 추가적인 오디오 데이터의 프로세싱을 비활성화하는 동작을 더 포함하는 것을 특징으로 하는 시스템.
  13. 제 11항에 있어서,
    상기 미리 결정된 오디오 신호를 수신하는 동작에 기초하여, 상기 컴퓨팅 디바이스의 활성 상태는 비활성화 상태임을 결정하는 동작을 더 포함하는 것을 특징으로 하는 시스템.
  14. 제 11항에 있어서,
    상기 미리 결정된 오디오 신호는 초음파 신호를 포함하는 것을 특징으로 하는 시스템.
  15. 제 11항에 있어서,
    상기 미리 결정된 오디오 신호는 다른 컴퓨팅 디바이스에 의해 수신되고, 상기 다른 컴퓨팅 디바이스에게 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작하지 않는 것을 표시하는 것을 특징으로 하는 시스템.
  16. 제 11항에 있어서,
    상기 발언이 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 동작에 기초하여,
    다른 컴퓨팅 디바이스가 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작할 것임을 표시하는 상기 미리 결정된 오디오 신호를 수신할 준비하는 동작을 더 포함하는 것을 특징으로 하는 시스템.
  17. 삭제
  18. 제 11항에 있어서,
    상기 지연 기간의 지속시간은 상기 오디오 데이터의 음량을 반영하는 스코어가 임계치를 만족할 때, 0인 것을 특징으로 하는 시스템.
  19. 삭제
  20. 하나 이상의 컴퓨터들에 의해 실행가능한 명령어들을 포함하는 비-일시적인 컴퓨터-판독가능한 매체로서, 상기 명령어들은 실행 시, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 실행하게 하며,
    상기 동작들은:
    컴퓨팅 디바이스에 의해, 발언에 대응하는 오디오 데이터를 수신하는 동작과;
    상기 발언이 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 동작과;
    상기 발언이 상기 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 것에 응답하여, 상기 오디오 데이터의 음량을 반영하는 스코어를 결정하는 동작과;
    지연 기간의 지속시간을 결정하는 동작과, 상기 지연 기간의 지속시간은 상기 오디오 데이터의 음량에 반비례하며;
    다른 컴퓨팅 디바이스가 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작함을 표시하는 미리 결정된 오디오 신호를, 상기 지연 기간의 지속시간 동안, 상기 컴퓨팅 디바이스가 일시적으로 리스닝 하는 모드를 활성화하는 동작과;
    다른 컴퓨팅 디바이스로부터 상기 미리 결정된 오디오 신호를 듣는 것 없이 상기 지연 기간의 지속시간이 경과한 후, 상기 모드를 비활성화하고, 상기 컴퓨팅 디바이스가 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작하고 있음을 표시하는 상기 미리 결정된 오디오 신호를 전송하는 동작과; 그리고
    상기 미리 결정된 오디오 신호를 전송한 후에, 상기 컴퓨팅 디바이스 상에서 자동화된 음성 인식기를 사용하여 상기 오디오 데이터의 적어도 일부분을 프로세싱하는 동작을 포함하는 것을 특징으로 하는 컴퓨터-판독가능한 매체.
  21. 제 20항에 있어서,
    상기 컴퓨팅 디바이스의 하나 이상의 프로세서들에 의해, 추가적인 발언에 대응하는 추가적인 오디오 데이터를 수신하는 동작과;
    상기 추가적인 발언이 상기 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 동작과;
    상기 추가적인 발언이 상기 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 것에 응답하여, 상기 추가적인 오디오 데이터의 제2 음량을 반영하는 제2 스코어를 결정하는 동작과;
    제2 지연 기간의 제2 지속시간을 결정하는 동작과, 상기 제2 지연 기간의 제2 지속시간은 상기 추가적인 오디오 데이터의 상기 제2 음량에 반비례하며;
    상기 제2 지연 기간의 제2 지속시간 동안, 상기 다른 컴퓨팅 디바이스가 상기 추가적인 오디오 데이터에 대한 음성 인식 프로세싱을 시작하고 있음을 표시하는 상기 미리 결정된 오디오 신호를 상기 컴퓨팅 디바이스가, 일시적으로 리스닝 하는 모드를 활성화하는 동작과;
    상기 제2 지연 기간의 제2 지속시간이 경과하기 전에, 상기 다른 컴퓨팅 디바이스가 상기 추가적인 오디오 데이터에 대한 음성 인식 프로세싱을 시작하고 있음을 표시하는 상기 미리 결정된 오디오 신호를 수신하는 동작과; 그리고
    상기 미리 결정된 오디오 신호를 수신하는 것에 응답하여, 상기 추가적인 오디오 데이터의 프로세싱을 비활성화하는 동작을 더 포함하는 것을 특징으로 하는 컴퓨터-판독가능한 매체.
  22. 제 20항에 있어서,
    상기 미리 결정된 오디오 신호는 초음파 신호를 포함하는 것을 특징으로 하는 컴퓨터-판독가능한 매체.
  23. 제 20항에 있어서,
    상기 지연 기간의 지속시간은 상기 오디오 데이터의 음량을 반영하는 스코어가 임계치를 만족할 때, 0인 것을 특징으로 하는 컴퓨터-판독가능한 매체.
  24. 제 20항에 있어서,
    상기 미리 결정된 오디오 신호는 다른 컴퓨팅 디바이스에 의해 수신되고, 상기 다른 컴퓨팅 디바이스에게 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작하지 않는 것을 표시하는 것을 특징으로 하는 컴퓨터-판독가능한 매체.
KR1020167020950A 2014-10-09 2015-09-29 다수의 디바이스들 상에서 핫워드 검출 KR101819681B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462061903P 2014-10-09 2014-10-09
US62/061,903 2014-10-09
US14/659,861 US9424841B2 (en) 2014-10-09 2015-03-17 Hotword detection on multiple devices
US14/659,861 2015-03-17
PCT/US2015/052870 WO2016057269A1 (en) 2014-10-09 2015-09-29 Hotword detection on multiple devices

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020167026606A Division KR101819682B1 (ko) 2014-10-09 2015-09-29 다수의 디바이스들 상에서 핫워드 검출

Publications (2)

Publication Number Publication Date
KR20160105847A KR20160105847A (ko) 2016-09-07
KR101819681B1 true KR101819681B1 (ko) 2018-01-17

Family

ID=54347818

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020167026606A KR101819682B1 (ko) 2014-10-09 2015-09-29 다수의 디바이스들 상에서 핫워드 검출
KR1020167020950A KR101819681B1 (ko) 2014-10-09 2015-09-29 다수의 디바이스들 상에서 핫워드 검출

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020167026606A KR101819682B1 (ko) 2014-10-09 2015-09-29 다수의 디바이스들 상에서 핫워드 검출

Country Status (6)

Country Link
US (7) US9424841B2 (ko)
EP (3) EP3136381B1 (ko)
JP (2) JP6261751B2 (ko)
KR (2) KR101819682B1 (ko)
CN (2) CN105960673B (ko)
WO (1) WO2016057269A1 (ko)

Families Citing this family (134)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032452B1 (en) * 2016-12-30 2018-07-24 Google Llc Multimodal transmission of packetized data
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US11017428B2 (en) 2008-02-21 2021-05-25 Google Llc System and method of data transmission rate adjustment
US10013986B1 (en) * 2016-12-30 2018-07-03 Google Llc Data structure pooling of voice activated data packets
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10152723B2 (en) 2012-05-23 2018-12-11 Google Llc Methods and systems for identifying new computers and providing matching services
US10776830B2 (en) 2012-05-23 2020-09-15 Google Llc Methods and systems for identifying new computers and providing matching services
US10735552B2 (en) 2013-01-31 2020-08-04 Google Llc Secondary transmissions of packetized data
US10650066B2 (en) 2013-01-31 2020-05-12 Google Llc Enhancing sitelinks with creative content
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
EP2958010A1 (en) 2014-06-20 2015-12-23 Thomson Licensing Apparatus and method for controlling the apparatus by a user
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9424841B2 (en) * 2014-10-09 2016-08-23 Google Inc. Hotword detection on multiple devices
US9812128B2 (en) 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
KR20170034154A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 콘텐츠 제공 방법 및 이를 수행하는 전자 장치
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US9542941B1 (en) * 2015-10-01 2017-01-10 Lenovo (Singapore) Pte. Ltd. Situationally suspending wakeup word to enable voice command input
US9928840B2 (en) 2015-10-16 2018-03-27 Google Llc Hotword recognition
US9747926B2 (en) * 2015-10-16 2017-08-29 Google Inc. Hotword recognition
JP6463710B2 (ja) 2015-10-16 2019-02-06 グーグル エルエルシー ホットワード認識
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10453460B1 (en) * 2016-02-02 2019-10-22 Amazon Technologies, Inc. Post-speech recognition request surplus detection and prevention
US9779735B2 (en) 2016-02-24 2017-10-03 Google Inc. Methods and systems for detecting and processing speech signals
US20170294138A1 (en) * 2016-04-08 2017-10-12 Patricia Kavanagh Speech Improvement System and Method of Its Use
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10091545B1 (en) * 2016-06-27 2018-10-02 Amazon Technologies, Inc. Methods and systems for detecting audio output of associated device
US10438583B2 (en) * 2016-07-20 2019-10-08 Lenovo (Singapore) Pte. Ltd. Natural language voice assistant
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
KR102241970B1 (ko) 2016-11-07 2021-04-20 구글 엘엘씨 기록된 미디어 핫워드 트리거 억제
US10276149B1 (en) * 2016-12-21 2019-04-30 Amazon Technologies, Inc. Dynamic text-to-speech output
US10559309B2 (en) * 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
US10276161B2 (en) * 2016-12-27 2019-04-30 Google Llc Contextual hotwords
US10593329B2 (en) * 2016-12-30 2020-03-17 Google Llc Multimodal transmission of packetized data
US10708313B2 (en) 2016-12-30 2020-07-07 Google Llc Multimodal transmission of packetized data
KR20180083587A (ko) * 2017-01-13 2018-07-23 삼성전자주식회사 전자 장치 및 그의 동작 방법
KR20180085931A (ko) 2017-01-20 2018-07-30 삼성전자주식회사 음성 입력 처리 방법 및 이를 지원하는 전자 장치
US9990926B1 (en) * 2017-03-13 2018-06-05 Intel Corporation Passive enrollment method for speaker identification systems
US10403276B2 (en) 2017-03-17 2019-09-03 Microsoft Technology Licensing, Llc Voice enabled features based on proximity
US10621980B2 (en) * 2017-03-21 2020-04-14 Harman International Industries, Inc. Execution of voice commands in a multi-device system
WO2018195185A1 (en) 2017-04-20 2018-10-25 Google Llc Multi-user authentication on a device
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
KR102396729B1 (ko) * 2017-05-16 2022-05-12 구글 엘엘씨 공유된 음성 작동 디바이스상의 호출 핸들링
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10664533B2 (en) 2017-05-24 2020-05-26 Lenovo (Singapore) Pte. Ltd. Systems and methods to determine response cue for digital assistant based on context
US10395650B2 (en) 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
US10069976B1 (en) * 2017-06-13 2018-09-04 Harman International Industries, Incorporated Voice agent forwarding
US10636428B2 (en) 2017-06-29 2020-04-28 Microsoft Technology Licensing, Llc Determining a target device for voice command interaction
US20190065608A1 (en) * 2017-08-29 2019-02-28 Lenovo (Singapore) Pte. Ltd. Query input received at more than one device
KR102489914B1 (ko) * 2017-09-15 2023-01-20 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN107919119A (zh) 2017-11-16 2018-04-17 百度在线网络技术(北京)有限公司 多设备交互协同的方法、装置、设备及计算机可读介质
US10276175B1 (en) * 2017-11-28 2019-04-30 Google Llc Key phrase detection with audio watermarking
EP3519936B1 (en) 2017-12-08 2020-04-08 Google LLC Isolating a device, from multiple devices in an environment, for being responsive to spoken assistant invocation(s)
US10877637B1 (en) * 2018-03-14 2020-12-29 Amazon Technologies, Inc. Voice-based device operation mode management
US11127405B1 (en) 2018-03-14 2021-09-21 Amazon Technologies, Inc. Selective requests for authentication for voice-based launching of applications
US10885910B1 (en) 2018-03-14 2021-01-05 Amazon Technologies, Inc. Voice-forward graphical user interface mode management
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10692496B2 (en) 2018-05-22 2020-06-23 Google Llc Hotword suppression
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
GB2574803B (en) * 2018-06-11 2022-12-07 Xmos Ltd Communication between audio devices
KR102622357B1 (ko) 2018-07-13 2024-01-08 구글 엘엘씨 종단 간 스트리밍 키워드 탐지
JP7250900B2 (ja) * 2018-08-09 2023-04-03 グーグル エルエルシー ホットワード認識および受動的支援
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN109545207A (zh) * 2018-11-16 2019-03-29 广东小天才科技有限公司 一种语音唤醒方法及装置
CN109243462A (zh) * 2018-11-20 2019-01-18 广东小天才科技有限公司 一种语音唤醒方法及装置
CN109584876B (zh) * 2018-12-26 2020-07-14 珠海格力电器股份有限公司 语音数据的处理方法、装置和语音空调
CN109584878A (zh) * 2019-01-14 2019-04-05 广东小天才科技有限公司 一种语音唤醒方法及系统
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN112712803B (zh) * 2019-07-15 2022-02-25 华为技术有限公司 一种语音唤醒的方法和电子设备
CN110660390B (zh) * 2019-09-17 2022-05-03 百度在线网络技术(北京)有限公司 智能设备唤醒方法、智能设备及计算机可读存储介质
KR102629796B1 (ko) 2019-10-15 2024-01-26 삼성전자 주식회사 음성 인식의 향상을 지원하는 전자 장치
CN110890092B (zh) * 2019-11-07 2022-08-05 北京小米移动软件有限公司 唤醒控制方法及装置、计算机存储介质
KR20210069977A (ko) * 2019-12-04 2021-06-14 엘지전자 주식회사 기기 제어 방법 및 이를 이용한 제어 가능한 장치
CN111312239B (zh) * 2020-01-20 2023-09-26 北京小米松果电子有限公司 响应方法、装置、电子设备及存储介质
US11282527B2 (en) * 2020-02-28 2022-03-22 Synaptics Incorporated Subaudible tones to validate audio signals
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112133302B (zh) * 2020-08-26 2024-05-07 北京小米松果电子有限公司 预唤醒终端的方法、装置及存储介质
KR20220041413A (ko) * 2020-09-25 2022-04-01 삼성전자주식회사 전자장치 및 그 제어방법
EP4191577A4 (en) * 2020-09-25 2024-01-17 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE AND ASSOCIATED CONTROL METHOD
US11727925B2 (en) * 2020-10-13 2023-08-15 Google Llc Cross-device data synchronization based on simultaneous hotword triggers
US11557300B2 (en) * 2020-10-16 2023-01-17 Google Llc Detecting and handling failures in other assistants
US20210225374A1 (en) * 2020-12-23 2021-07-22 Intel Corporation Method and system of environment-sensitive wake-on-voice initiation using ultrasound
CN114115788A (zh) * 2021-10-09 2022-03-01 维沃移动通信有限公司 音频播放方法及装置
US20230178075A1 (en) * 2021-12-02 2023-06-08 Lenovo (Singapore) Pte. Ltd Methods and devices for preventing a sound activated response
CN116798419A (zh) * 2022-03-14 2023-09-22 追觅创新科技(苏州)有限公司 设备的语音控制方法和装置、存储介质及电子装置

Family Cites Families (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4363102A (en) 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
SE511418C2 (sv) 1997-03-13 1999-09-27 Telia Ab Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper.
US6076055A (en) 1997-05-27 2000-06-13 Ameritech Speaker verification method
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6141644A (en) 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
JP3357629B2 (ja) * 1999-04-26 2002-12-16 旭化成株式会社 設備制御システム
DE19939102C1 (de) * 1999-08-18 2000-10-26 Siemens Ag Verfahren und Anordnung zum Erkennen von Sprache
US6567775B1 (en) 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US6826159B1 (en) 2000-05-24 2004-11-30 Cisco Technology, Inc. System and method for providing speaker identification in a conference call
EP1215658A3 (en) * 2000-12-05 2002-08-14 Hewlett-Packard Company Visual activation of voice controlled apparatus
US20030231746A1 (en) 2002-06-14 2003-12-18 Hunter Karla Rae Teleconference speaker identification
TW200409525A (en) 2002-11-26 2004-06-01 Lite On Technology Corp Voice identification method for cellular phone and cellular phone with voiceprint password
EP1429314A1 (en) * 2002-12-13 2004-06-16 Sony International (Europe) GmbH Correction of energy as input feature for speech processing
US7222072B2 (en) 2003-02-13 2007-05-22 Sbc Properties, L.P. Bio-phonetic multi-phrase speaker identity verification
US8290603B1 (en) 2004-06-05 2012-10-16 Sonos, Inc. User interfaces for controlling and manipulating groupings in a multi-zone media system
US7571014B1 (en) 2004-04-01 2009-08-04 Sonos, Inc. Method and apparatus for controlling multimedia players in a multi-zone system
US20070198262A1 (en) 2003-08-20 2007-08-23 Mindlin Bernardo G Topological voiceprints for speaker identification
US8517921B2 (en) 2004-04-16 2013-08-27 Gyrus Acmi, Inc. Endoscopic instrument having reduced diameter flexible shaft
US8214447B2 (en) 2004-06-08 2012-07-03 Bose Corporation Managing an audio network
US7720012B1 (en) 2004-07-09 2010-05-18 Arrowhead Center, Inc. Speaker identification in the presence of packet losses
US8412521B2 (en) 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US8521529B2 (en) 2004-10-18 2013-08-27 Creative Technology Ltd Method for segmenting audio signals
US8709018B2 (en) 2005-09-16 2014-04-29 Applied Medical Technology, Inc. Non-balloon low profile feed device with insertion/removal tool
KR100711094B1 (ko) * 2005-11-29 2007-04-27 삼성전자주식회사 분산 통신 환경에서의 이동체들 간의 자원 할당 방법
US7741962B2 (en) * 2006-10-09 2010-06-22 Toyota Motor Engineering & Manufacturing North America, Inc. Auditory display of vehicular environment
CN1996847B (zh) 2006-12-27 2010-05-19 中国科学院上海技术物理研究所 基于协作网格的图像及多媒体数据通信与存储系统
US8099288B2 (en) 2007-02-12 2012-01-17 Microsoft Corp. Text-dependent speaker verification
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20080252595A1 (en) * 2007-04-11 2008-10-16 Marc Boillot Method and Device for Virtual Navigation and Voice Processing
US8385233B2 (en) 2007-06-12 2013-02-26 Microsoft Corporation Active speaker identification
US8504365B2 (en) 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8209174B2 (en) 2009-04-17 2012-06-26 Saudi Arabian Oil Company Speaker verification system
CN101923853B (zh) 2009-06-12 2013-01-23 华为技术有限公司 说话人识别方法、设备和系统
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
JP5411789B2 (ja) * 2010-04-19 2014-02-12 本田技研工業株式会社 コミュニケーションロボット
KR101672212B1 (ko) * 2010-06-15 2016-11-04 엘지전자 주식회사 휴대 단말기 및 그 동작 방법
US8719018B2 (en) 2010-10-25 2014-05-06 Lockheed Martin Corporation Biometric speaker identification
CN102325059B (zh) * 2011-09-09 2013-11-13 华南理工大学 非介入式单端采集的音频端到端时延测量方法及装置
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
US9031847B2 (en) 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
US9711160B2 (en) * 2012-05-29 2017-07-18 Apple Inc. Smart dock for activating a voice recognition mode of a portable electronic device
JP6131537B2 (ja) * 2012-07-04 2017-05-24 セイコーエプソン株式会社 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法
CN106774882B (zh) * 2012-09-17 2020-01-31 联想(北京)有限公司 一种信息处理的方法及电子设备
US8983836B2 (en) 2012-09-26 2015-03-17 International Business Machines Corporation Captioning using socially derived acoustic profiles
US8996372B1 (en) 2012-10-30 2015-03-31 Amazon Technologies, Inc. Using adaptation data with cloud-based speech recognition
WO2014107413A1 (en) 2013-01-04 2014-07-10 Kopin Corporation Bifurcated speech recognition
US8775191B1 (en) 2013-11-13 2014-07-08 Google Inc. Efficient utterance-specific endpointer triggering for always-on hotwording
CN103645876B (zh) * 2013-12-06 2017-01-18 百度在线网络技术(北京)有限公司 语音输入方法和装置
CN103730116B (zh) * 2014-01-07 2016-08-17 苏州思必驰信息科技有限公司 在智能手表上实现智能家居设备控制的系统及其方法
US8938394B1 (en) 2014-01-09 2015-01-20 Google Inc. Audio triggers based on context
US9424841B2 (en) 2014-10-09 2016-08-23 Google Inc. Hotword detection on multiple devices
US9812126B2 (en) 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10679629B2 (en) 2018-04-09 2020-06-09 Amazon Technologies, Inc. Device arbitration by multiple speech processing systems

Also Published As

Publication number Publication date
CN111105784A (zh) 2020-05-05
US11024313B2 (en) 2021-06-01
US20200258522A1 (en) 2020-08-13
JP2017513037A (ja) 2017-05-25
US11955121B2 (en) 2024-04-09
CN111105784B (zh) 2024-10-15
CN105960673A (zh) 2016-09-21
JP6251343B2 (ja) 2017-12-20
US20240233727A1 (en) 2024-07-11
KR20160121585A (ko) 2016-10-19
US10347253B2 (en) 2019-07-09
EP3483877A1 (en) 2019-05-15
CN105960673B (zh) 2019-12-31
US20160300571A1 (en) 2016-10-13
US20160104483A1 (en) 2016-04-14
US10665239B2 (en) 2020-05-26
EP3100260B1 (en) 2018-12-26
US20190385604A1 (en) 2019-12-19
US9424841B2 (en) 2016-08-23
JP6261751B2 (ja) 2018-01-17
EP3483877B1 (en) 2021-12-22
KR101819682B1 (ko) 2018-01-17
WO2016057269A1 (en) 2016-04-14
EP3100260A1 (en) 2016-12-07
US20210249016A1 (en) 2021-08-12
EP3136381A1 (en) 2017-03-01
US20180315424A1 (en) 2018-11-01
JP2017126317A (ja) 2017-07-20
EP3136381B1 (en) 2019-11-06
US9990922B2 (en) 2018-06-05
KR20160105847A (ko) 2016-09-07

Similar Documents

Publication Publication Date Title
KR101819681B1 (ko) 다수의 디바이스들 상에서 핫워드 검출
KR101752119B1 (ko) 다수의 디바이스에서의 핫워드 검출

Legal Events

Date Code Title Description
A201 Request for examination
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant