KR20230104712A - 개인화된 네거티브에 기초한 핫워드 인식 적응 - Google Patents

개인화된 네거티브에 기초한 핫워드 인식 적응 Download PDF

Info

Publication number
KR20230104712A
KR20230104712A KR1020237019747A KR20237019747A KR20230104712A KR 20230104712 A KR20230104712 A KR 20230104712A KR 1020237019747 A KR1020237019747 A KR 1020237019747A KR 20237019747 A KR20237019747 A KR 20237019747A KR 20230104712 A KR20230104712 A KR 20230104712A
Authority
KR
South Korea
Prior art keywords
hotword
audio data
segment
negative
stage
Prior art date
Application number
KR1020237019747A
Other languages
English (en)
Inventor
알렉산다르 크라쿤
매튜 샤리피
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20230104712A publication Critical patent/KR20230104712A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

방법(600)은 사용자 디바이스(102)에 의해 캡처된 오디오(118)에서 제1 스테이지 핫워드 검출기(210)에 의해 검출된 핫워드 이벤트를 나타내는 오디오 데이터(120)를 수신하는 단계를 포함한다. 방법은 또한 제2 스테이지 핫워드 검출기(220)를 사용하여, 상기 오디오 데이터의 제1 세그먼트(121)에서 핫워드가 검출되는지 여부를 결정하기 위해 상기 오디오 데이터를 프로세싱하는 단계를 포함한다. 핫워드가 제2 스테이지 핫워드 검출기에 의해 검출되지 않는 경우, 방법은 상기 오디오 데이터의 제1 세그먼트가 상기 제1 스테이지 핫워드 검출기에 의해 상기 스트리밍 오디오에서 핫워드 이벤트의 잘못된 검출을 야기한 네거티브 핫워드를 포함하는 것으로 분류하는 단계를 포함한다. 상기 오디오 데이터의 제1 세그먼트가 상기 네거티브 핫워드를 포함하는 것으로 분류되는 것에 기초하여, 방법은 상기 네거티브 핫워드를 포함하는 후속 오디오 데이터에서 상기 핫워드 이벤트를 트리거하는 것을 방지하기 위해 상기 제1 스테이지 핫워드 검출기를 업데이트하는 단계를 포함한다.

Description

개인화된 네거티브에 기초한 핫워드 인식 적응
본 개시는 개인화된 네거티브에 기초한 핫워드 인식을 적응시키는 것에 관한 것이다.
음성-지원 환경(예: 가정, 직장, 학교, 자동차 등)은 사용자가 쿼리를 입력하고 응답하는 컴퓨터 기반 시스템에 큰 소리로 쿼리 또는 명령을 말할 수 있게 하고 및/또는 명령에 기초하여 기능을 수행한다. 스피치 지원 환경은 상기 환경의 다양한 방 또는 영역에 분산되어 있는 연결된 마이크로폰 디바이스들의 네트워크를 사용하여 구현될 수 있다. 이러한 디바이스는 핫워드를 사용하여 주어진 발화가 환경에 있는 다른 개인을 향한 발화가 아니라 시스템을 향하는 경우를 식별하는데 도움을 줄 수 있다. 따라서 디바이스는 슬립 상태 또는 하이버네이션 상태로 동작하다가 검출된 발화에 핫워드를 포함하는 경우에만 웨이크업할 수 있다. 일반적으로 스트리밍 오디오에서 핫워드를 검출하는데 사용되는 시스템은 핫워드가 스트리밍 오디오에 존재할 확률을 나타내는 확률 점수를 생성한다. 확률 점수가 미리 결정된 임계값을 만족하면 디바이스는 웨이크업 프로세스를 개시한다.
본 발명의 일 양태는 개인화된 네거티브에 기초하여 핫워드 인식을 적응시키는 방법을 제공한다. 방법은 사용자 디바이스에 의해 캡처된 스트리밍 오디오에서 제1 스테이지 핫워드 검출기에 의해 검출된 핫워드 이벤트를 나타내는 오디오 데이터를 데이터 프로세싱 하드웨어에서 수신하는 단계를 포함한다. 방법은 또한 상기 데이터 프로세싱 하드웨어에 의해, 제2 스테이지 핫워드 검출기를 사용하여, 상기 오디오 데이터의 제1 세그먼트에서 핫워드가 제2 스테이지 핫워드 검출기에 의해 검출되는지 여부를 결정하기 위해 상기 오디오 데이터를 프로세싱하는 단계를 포함한다. 상기 오디오 데이터의 제1 세그먼트에서 상기 핫워드가 상기 제2 스테이지 핫워드 검출기에 의해 검출되지 않는 경우, 방법은 상기 데이터 프로세싱 하드웨어에 의해, 상기 오디오 데이터의 제1 세그먼트가 상기 제1 스테이지 핫워드 검출기에 의해 상기 스트리밍 오디오에서 핫워드 이벤트의 잘못된 검출을 야기한 네거티브 핫워드를 포함하는 것으로 분류하는 단계를 포함한다. 상기 오디오 데이터의 제1 세그먼트가 네거티브 핫워드를 포함하는 것으로 분류되는 것에 기초하여, 상기 방법은 상기 데이터 프로세싱 하드웨어에 의해, 네거티브 핫워드를 포함하는 후속 오디오 데이터에서 핫워드 이벤트를 트리거하는 것을 방지하기 위해 제1 스테이지 핫워드 검출기를 업데이트하는 단계를 포함한다.
본 개시의 구현예는 다음 구성들 중 하나 이상을 포함할 수 있다. 일부 구현예에서, 상기 방법은 상기 오디오 데이터의 제1 세그먼트에서 상기 핫워드가 상기 제2 스테이지 핫워드 검출기에 의해 검출되지 않는 경우, 상기 데이터 프로세싱 하드웨어에 의해, 상기 핫워드 및 상기 스트리밍 오디오에서 상기 핫워드를 뒤따르는 하나 이상의 다른 용어들을 프로세싱하기 위한 웨이크업 프로세스를 사용자 디바이스에서 억제하는 단계; 및 상기 데이터 프로세싱 하드웨어에 의해, 상기 사용자 디바이스에서 상기 웨이크업 프로세스를 억제한 후, 상기 사용자 디바이스의 사용자에 의해 즉각적인 후속 쿼리가 제공되었는지 여부를 결정하는 단계를 더 포함한다. 이러한 구현예에서, 상기 오디오 데이터의 제1 세그먼트가 상기 네거티브 핫워드를 포함하는 것으로 분류하는 단계는 상기 웨이크업 프로세스를 억제한 후 상기 사용자 디바이스의 사용자에 의해 후속 쿼리가 제공되지 않았다는 결정에 추가로 기초한다.
일부 예시에서, 상기 오디오 데이터의 제1 세그먼트에서 상기 핫워드가 상기 제2 스테이지 핫워드 검출기에 의해 검출되는 경우, 상기 방법은 상기 데이터 프로세싱 하드웨어에 의해, 오디오 데이터의 제2 세그먼트가 음성 쿼리-유형 발화를 나타내는지 여부를 결정하기 위해 오디오 데이터의 제1 세그먼트를 뒤따르는 오디오 데이터의 제2 세그먼트를 프로세싱하는 단계를 더 포함한다. 이들 예시에서, 상기 오디오 데이터의 제2 오디오 세그먼트가 상기 음성 쿼리-유형 발화를 나타내지 않는 경우, 방법은 또한: 상기 데이터 프로세싱 하드웨어에 의해, 상기 오디오 데이터의 제1 세그먼트가 네거티브 핫워드를 포함하는 것으로 분류하는 단계; 및 상기 오디오 데이터의 제1 세그먼트가 상기 네거티브 핫워드를 포함하는 것으로 분류되는 것에 기초하여, 상기 데이터 프로세싱 하드웨어에 의해, 상기 네거티브 핫워드를 포함하는 후속 오디오 데이터에서 상기 핫워드 이벤트를 트리거하는 것을 방지하기 위해 상기 제1 스테이지 핫워드 검출기를 업데이트하는 단계를 포함한다. 일부 구현예에서, 상기 방법은 상기 오디오 데이터의 제2 오디오 세그먼트가 상기 음성 쿼리-유형 발화를 나타내지 않는 경우, 상기 데이터 프로세싱 하드웨어에 의해, 즉각적인 후속 쿼리가 상기 사용자 디바이스. 의 사용자에 의해 제공되었는지 여부를 결정하는 단계를 더 포함한다. 상기 오디오 데이터의 제1 세그먼트가 상기 네거티브 핫워드를 포함하는 것으로 분류하는 단계는 상기 사용자 디바이스의 사용자에 의해 후속 쿼리가 제공되지 않았다는 결정에 추가로 기초한다. 상기 오디오 데이터의 제2 오디오 세그먼트가 상기 음성 쿼리-유형 발화를 나타내는 경우, 상기 방법은: 상기 데이터 프로세싱 하드웨어에서, 상기 사용자 디바이스의 사용자가 상기 사용자 디바이스에 제공된 음성 쿼리-유형 발화에 대한 결과와 부정적으로 인터렉션했음을 나타내는 네거티브 인터렉션 결과를 수신하는 단계; 상기 데이터 프로세싱 하드웨어에 의해, 상기 수신된 네거티브 인터렉션 결과에 기초하여, 상기 오디오 데이터의 제1 세그먼트가 네거티브 핫워드를 포함하는 것으로 분류하는 단계; 및 상기 오디오 데이터의 제1 세그먼트가 상기 네거티브 핫워드를 포함하는 것으로 분류되는 것에 기초하여, 상기 데이터 프로세싱 하드웨어에 의해, 상기 네거티브 핫워드를 포함하는 후속 오디오 데이터에서 상기 핫워드 이벤트를 검출하는 것을 방지하기 위해 상기 제1 스테이지 핫워드 검출기를 업데이트하는 단계를 포함한다.
일부 예에서, 제1 스테이지 핫워드 검출기에 의해 검출된 핫워드 이벤트를 나타내는 오디오 데이터를 수신한 후에, 상기 방법은 상기 데이터 프로세싱 하드웨어에서, 상기 사용자 디바이스에서 웨이크업 프로세스의 사용자 억제를 나타내는 네거티브 사용자 인터렉션을 수신하는 단계를 더 포함한다. 여기서, 상기 오디오 데이터의 제1 세그먼트가 상기 네거티브 핫워드를 포함하는 것으로 분류하는 단계는 상기 웨이크업 프로세스의 사용자 억제를 나타내는 네거티브 사용자 인터렉션에 더 기초한다.
선택적으로, 후속 오디오 데이터에서 핫워드 이벤트를 트리거하는 것을 방지하기 위해 상기 제1 스테이지 핫워드 검출기를 업데이트하는 단계는 상기 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터의 제1 세그먼트를 상기 사용자 디바이스에 제공하는 단계를 포함할 수 있다. 사용자 디바이스는 네거티브 핫워드를 포함하는 것으로 분류된 오디오 데이터의 제1 세그먼트를 사용하여 제1 스테이지 핫워드 검출기를 다시 트레이닝하도록 구성된다. 일부 구현예에서, 사용자 디바이스는 상기 사용자 디바이스의 메모리 하드웨어에, 상기 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터의 제1 세그먼트의 각 인스턴스를 상기 사용자 디바이스의 메모리 하드웨어에 저장하고 그리고 상기 메모리 하드웨어에 저장된 상기 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터의 제1 세그먼트의 인스턴스들의 수의 집계에 기초하여 상기 제1 스테이지 핫워드 검출기를 다시 트레이닝함으로써 상기 제1 스테이지 핫워드 검출기를 다시 트레이닝하도록 구성된다. 일부 구현예에서, 사용자 디바이스는 제1 스테이지 핫워드 검출기를 다시 트레이닝하기 전에, 상기 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터의 제1 세그먼트의 각각의 인스턴스와 연관된 대응하는 신뢰도 점수가 네거티브 핫워드 임계 점수를 만족하지 못한다고 결정하고 그리고 상기 인스턴스들의 수가 인스턴스들의 임계수를 초과하는지 결정하도록 구성된다.
후속 오디오 데이터에서 핫워드 이벤트를 트리거하는 것을 방지하기 위해 상기 제1 스테이지 핫워드 검출기를 업데이트하는 단계는 상기 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터의 제1 세그먼트를 상기 사용자 디바이스에 제공하는 단계를 포함할 수 있다. 사용자 디바이스는 상기 오디오 데이터의 제1 세그먼트의 임베딩 표현을 획득하고 그리고 상기 오디오 데이터의 제1 세그먼트의 임베딩 표현을 상기 사용자 디바이스의 메모리 하드웨어에 저장하도록 구성된다. 추가적으로, 사용자 디바이스는 제1 스테이지 핫워드 검출기에 의해 검출된 핫워드 이벤트를 나타내는 후속 오디오 데이터가 네거티브 핫워드를 포함하는 경우를 상기 오디오 데이터에 대한 평가 임베딩 표현을 계산하고; 상기 네거티브 핫워드로 분류된 상기 오디오 데이터의 제1 세그먼트의 임베딩 표현과 상기 후속 오디오 데이터에 대한 평가 임베딩 표현 사이의 유사성 점수를 결정하고 그리고 상기 유사성 점수가 유사성 점수 임계값을 만족하는 경우, 상기 후속 오디오 데이터가 상기 네거티브 핫워드를 포함한다고 결정함으로써 결정하도록 구성된다.
일부 구현예에서, 상기 데이터 프로세싱 하드웨어는 상기 데이터 프로세싱 하드웨어와 통신하는 서버에 상주하고; 그리고 상기 제1 스테이지 핫워드 검출기는 상기 사용자 디바이스의 프로세서에서 실행된다. 상기 오디오 데이터의 제1 세그먼트에서 핫워드가 제2 스테이지 핫워드 검출기에 의해 검출되는지 여부를 결정하기 위해 상기 오디오 데이터를 프로세싱하는 단계는 상기 오디오 데이터의 제1 세그먼트에서 상기 핫워드가 인식되는지 여부를 결정하기 위해 자동 스피치 인식을 수행하는 단계를 포함한다.
이 예에서, 데이터 프로세싱 하드웨어는 클라이언트 디바이스에 상주한다. 이러한 예에서, 상기 제1 스테이지 핫워드 검출기는 데이터 프로세싱 하드웨어의 디지털 신호 프로세서(DSP)에서 실행되고 그리고 상기 제2 스테이지 핫워드 검출기는 데이터 프로세싱 하드웨어의 애플리케이션 프로세서에서 실행된다. 제1 스테이지 핫워드 검출기는 상기 사용자 디바이스에 의해 캡처된 스트리밍 오디오의 오디오 피처들에서 핫워드의 존재를 나타내는 확률 점수를 생성하고 그리고 상기 확률 점수가 제1 스테이지 핫워드 검출기의 핫워드 검출 임계값을 만족하는 경우 스트리밍 오디오에서 핫워드 이벤트를 검출하도록 구성될 수 있다.
본 발명의 다른 양태는 개인화된 네거티브에 기초하여 핫워드 인식을 적응시키는 시스템을 제공한다. 시스템은 데이터 프로세싱 하드웨어와 상기 데이터 프로세싱 하드웨어와 통신하는 메모리 하드웨어를 포함한다. 메모리 하드웨어는 데이터 프로세싱 하드웨어에서 실행될 때 상기 데이터 프로세싱 하드웨어로 하여금 동작들을 수행하게 하는 명령어들을 저장한다. 동작들은 사용자 디바이스에 의해 캡처된 스트리밍 오디오에서 제1 스테이지 핫워드 검출기에 의해 검출된 핫워드 이벤트를 나타내는 오디오 데이터를 데이터 프로세싱 하드웨어에서 수신하는 동작을 포함한다. 동작들은 또한 제2 스테이지 핫워드 검출기를 사용하여, 상기 오디오 데이터의 제1 세그먼트에서 핫워드가 제2 스테이지 핫워드 검출기에 의해 검출되는지 여부를 결정하기 위해 상기 오디오 데이터를 프로세싱하는 동작을 포함한다. 상기 오디오 데이터의 제1 세그먼트에서 상기 핫워드가 상기 제2 스테이지 핫워드 검출기에 의해 검출되지 않는 경우, 동작들은 상기 오디오 데이터의 제1 세그먼트가 상기 제1 스테이지 핫워드 검출기에 의해 상기 스트리밍 오디오에서 핫워드 이벤트의 잘못된 검출을 야기한 네거티브 핫워드를 포함하는 것으로 분류하는 동작을 포함한다. 상기 오디오 데이터의 제1 세그먼트가 상기 네거티브 핫워드를 포함하는 것으로 분류되는 것에 기초하여, 동작들은 상기 네거티브 핫워드를 포함하는 후속 오디오 데이터에서 상기 핫워드 이벤트를 트리거하는 것을 방지하기 위해 상기 제1 스테이지 핫워드 검출기를 업데이트하는 동작을 포함한다.
본 개시의 구현예는 다음 구성들 중 하나 이상을 포함할 수 있다. 일부 실시예에서, 상기 동작들은 상기 오디오 데이터의 제1 세그먼트에서 상기 핫워드가 상기 제2 스테이지 핫워드 검출기에 의해 검출되지 않는 경우, 상기 핫워드 및/또는 상기 스트리밍 오디오에서 상기 핫워드를 뒤따르는 하나 이상의 다른 용어들을 프로세싱하기 위한 웨이크업 프로세스를 사용자 디바이스에서 억제하는 동작; 및 상기 사용자 디바이스에서 상기 웨이크업 프로세스를 억제한 후, 상기 사용자 디바이스의 사용자에 의해 즉각적인 후속 쿼리가 제공되었는지 여부를 결정하는 동작을 더 포함한다. 이러한 구현예에서, 상기 오디오 데이터의 제1 세그먼트가 상기 네거티브 핫워드를 포함하는 것으로 분류하는 단계는 상기 웨이크업 프로세스를 억제한 후 상기 사용자 디바이스의 사용자에 의해 후속 쿼리가 제공되지 않았다는 결정에 추가로 기초한다.
일부 예시에서, 상기 오디오 데이터의 제1 세그먼트에서 상기 핫워드가 상기 제2 스테이지 핫워드 검출기에 의해 검출되는 경우, 상기 동작들은 오디오 데이터의 제2 세그먼트가 음성 쿼리-유형 발화를 나타내는지 여부를 결정하기 위해 오디오 데이터의 제1 세그먼트를 뒤따르는 오디오 데이터의 제2 세그먼트를 프로세싱하는 동작을 더 포함한다. 이들 예시에서, 상기 오디오 데이터의 제2 오디오 세그먼트가 상기 음성 쿼리-유형 발화를 나타내지 않는 경우, 상기 동작들은 상기 오디오 데이터의 제1 세그먼트가 네거티브 핫워드를 포함하는 것으로 분류하는 동작; 및 상기 오디오 데이터의 제1 세그먼트가 상기 네거티브 핫워드를 포함하는 것으로 분류되는 것에 기초하여, 상기 네거티브 핫워드를 포함하는 후속 오디오 데이터에서 상기 핫워드 이벤트를 트리거하는 것을 방지하기 위해 상기 제1 스테이지 핫워드 검출기를 업데이트하는 동작을 포함한다. 일부 구현예에서, 상기 동작들은 상기 오디오 데이터의 제2 오디오 세그먼트가 상기 음성 쿼리-유형 발화를 나타내지 않는 경우, 즉각적인 후속 쿼리가 상기 사용자 디바이스의 사용자에 의해 제공되었는지 여부를 결정하는 동작을 더 포함한다. 상기 오디오 데이터의 제1 세그먼트가 상기 네거티브 핫워드를 포함하는 것으로 분류하는 동작은 상기 사용자 디바이스의 사용자에 의해 후속 쿼리가 제공되지 않았다는 결정에 추가로 기초한다. 상기 오디오 데이터의 제2 오디오 세그먼트가 상기 음성 쿼리-유형 발화를 나타내는 경우, 상기 동작들은: 상기 사용자 디바이스의 사용자가 상기 사용자 디바이스에 제공된 음성 쿼리-유형 발화에 대한 결과와 부정적으로 인터렉션했음을 나타내는 네거티브 인터렉션 결과를 수신하는 동작; 상기 수신된 네거티브 인터렉션 결과에 기초하여, 상기 오디오 데이터의 제1 세그먼트가 네거티브 핫워드를 포함하는 것으로 분류하는 동작; 및 상기 오디오 데이터의 제1 세그먼트가 상기 네거티브 핫워드를 포함하는 것으로 분류되는 것에 기초하여, 상기 네거티브 핫워드를 포함하는 후속 오디오 데이터에서 상기 핫워드 이벤트를 검출하는 것을 방지하기 위해 상기 제1 스테이지 핫워드 검출기를 업데이트하는 동작을 포함한다.
일부 예에서, 제1 스테이지 핫워드 검출기에 의해 검출된 핫워드 이벤트를 나타내는 오디오 데이터를 수신한 후에, 동작들은 상기 사용자 디바이스에서 웨이크업 프로세스의 사용자 억제를 나타내는 네거티브 사용자 인터렉션을 수신하는 동작을 더 포함한다. 여기서, 상기 오디오 데이터의 제1 세그먼트가 상기 네거티브 핫워드를 포함하는 것으로 분류하는 동작은 상기 웨이크업 프로세스의 사용자 억제를 나타내는 네거티브 사용자 인터렉션에 더 기초한다.
선택적으로, 후속 오디오 데이터에서 핫워드 이벤트를 트리거하는 것을 방지하기 위해 상기 제1 스테이지 핫워드 검출기를 업데이트하는 동작은 상기 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터의 제1 세그먼트를 상기 사용자 디바이스에 제공하는 동작을 포함할 수 있다. 사용자 디바이스는 네거티브 핫워드를 포함하는 것으로 분류된 오디오 데이터의 제1 세그먼트를 사용하여 제1 스테이지 핫워드 검출기를 다시 트레이닝하도록 구성된다. 일부 구현예에서, 사용자 디바이스는 상기 사용자 디바이스의 메모리 하드웨어에, 상기 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터의 제1 세그먼트의 각 인스턴스를 상기 사용자 디바이스의 메모리 하드웨어에 저장하고 그리고 상기 메모리 하드웨어에 저장된 상기 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터의 제1 세그먼트의 인스턴스들의 수의 집계에 기초하여 상기 제1 스테이지 핫워드 검출기를 다시 트레이닝함으로써 상기 제1 스테이지 핫워드 검출기를 다시 트레이닝하도록 구성된다. 일부 구현예에서, 사용자 디바이스는 제1 스테이지 핫워드 검출기를 다시 트레이닝하기 전에, 상기 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터의 제1 세그먼트의 각각의 인스턴스와 연관된 대응하는 신뢰도 점수가 네거티브 핫워드 임계 점수를 만족하지 못한다고 결정하고 그리고 상기 인스턴스들의 수가 인스턴스들의 임계수를 초과하는지 결정하도록 구성된다.
후속 오디오 데이터에서 핫워드 이벤트를 트리거하는 것을 방지하기 위해 상기 제1 스테이지 핫워드 검출기를 업데이트하는 동작은 상기 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터의 제1 세그먼트를 상기 사용자 디바이스에 제공하는 동작을 포함할 수 있다. 사용자 디바이스는 상기 오디오 데이터의 제1 세그먼트의 임베딩 표현을 획득하고 그리고 상기 오디오 데이터의 제1 세그먼트의 임베딩 표현을 상기 사용자 디바이스의 메모리 하드웨어에 저장하도록 구성된다. 추가적으로, 사용자 디바이스는 제1 스테이지 핫워드 검출기에 의해 검출된 핫워드 이벤트를 나타내는 후속 오디오 데이터가 네거티브 핫워드를 포함하는 경우를 상기 오디오 데이터에 대한 평가 임베딩 표현을 계산하고; 상기 네거티브 핫워드로 분류된 상기 오디오 데이터의 제1 세그먼트의 임베딩 표현과 상기 후속 오디오 데이터에 대한 평가 임베딩 표현 사이의 유사성 점수를 결정하고 그리고 상기 유사성 점수가 유사성 점수 임계값을 만족하는 경우, 상기 후속 오디오 데이터가 상기 네거티브 핫워드를 포함한다고 결정함으로써 결정하도록 구성된다.
일부 구현예에서, 상기 데이터 프로세싱 하드웨어는 상기 데이터 프로세싱 하드웨어와 통신하는 서버에 상주하고; 그리고 상기 제1 스테이지 핫워드 검출기는 상기 사용자 디바이스의 프로세서에서 실행된다. 상기 오디오 데이터의 제1 세그먼트에서 핫워드가 제2 스테이지 핫워드 검출기에 의해 검출되는지 여부를 결정하기 위해 상기 오디오 데이터를 프로세싱하는 동작은 상기 오디오 데이터의 제1 세그먼트에서 상기 핫워드가 인식되는지 여부를 결정하기 위해 자동 스피치 인식을 수행하는 동작을 포함한다.
이 예에서, 데이터 프로세싱 하드웨어는 클라이언트 디바이스에 상주한다. 이러한 예에서, 상기 제1 스테이지 핫워드 검출기는 데이터 프로세싱 하드웨어의 디지털 신호 프로세서(DSP)에서 실행되고 그리고 상기 제2 스테이지 핫워드 검출기는 데이터 프로세싱 하드웨어의 애플리케이션 프로세서에서 실행된다. 제1 스테이지 핫워드 검출기는 상기 사용자 디바이스에 의해 캡처된 스트리밍 오디오의 오디오 피처들에서 핫워드의 존재를 나타내는 확률 점수를 생성하고 그리고 상기 확률 점수가 제1 스테이지 핫워드 검출기의 핫워드 검출 임계값을 만족하는 경우 스트리밍 오디오에서 핫워드 이벤트를 검출하도록 구성될 수 있다.
본 개시의 하나 이상의 구현예의 세부 내용이 첨부 도면과 아래의 설명에서 기술된다. 다른 양태, 구성, 객체 및 이점은 아래의 설명, 도면 및 청구항으로부터 명백해질 것이다.
도 1은 네거티브 핫워드를 분류하고 네거티브 핫워드를 포함하는 오디오에서 핫워드 이벤트를 검출하는 것을 방지하기 위해 제1 스테이지 핫워드 검출기를 업데이트하기 위한 예시적 시스템의 개략도이다.
도 2는 핫워드 검출 아키텍처의 개략도이다.
도 3은 도 1의 시스템의 예시적 네거티브 핫워드 분류기의 개략도이다.
도 4는 네거티브 핫워드를 포함하는 것으로 분류된 오디오 데이터에 대한 분류 결과를 저장하는 사용자 디바이스의 개략도이다.
도 5는 오디오 데이터에서 핫워드 이벤트를 트리거하는 것을 방지하기 위해 캡처된 오디오 데이터에서 개인적인 네거티브 핫워드의 존재를 식별하는 예시적 사용자 디바이스의 개략도이다.
도 6은 개인화된 네거티브 핫워드를 분류하고 개인화된 네거티브 핫워드를 포함하는 오디오 데이터에서 핫워드 이벤트를 트리거하는 것을 방지하기 위해 제1 스테이지 핫워드 검출기를 업데이트하기 위한 동작의 예시적 구성의 흐름도이다.
도 7은 본 명세서에 기술된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적 컴퓨팅 디바이스의 개략도이다.
다양한 도면들에서 기호들은 동일한 엘리먼트를 표시한다.
디지털 어시스턴트와 같은 스피치 기반 인터페이스는 모바일폰 및 스피치 캡처용 마이크로폰을 포함하는 스마트 스피커/디스플레이를 포함하되 이에 한정되지 않는 다양한 디바이스에서 점차 보편화되고 있다. 스피치-지원 디바이스와 음성 인터렉션을 개시하는 일반적인 방법은 스트리밍 오디오에서 스피치-지원 디바이스에 의해 검출될 때 스피치-지원 디바이스가 사용자가 말한 쿼리를 확인하기 위해 후속 스피치를 녹음하고 프로세싱하기 시작하는 웨이크업 프로세스를 개시하도록 트리거하는 핫워드와 같은 고정 문구를 말하는 것이다. 따라서 스피치 기반 인터페이스의 기본 진입점으로서 핫워드 검출/인식이 회수 및 정밀도 측면에서 안정적으로 작동하여 수많은 잘못된 웨이크업 이벤트가 최소화되도록 하는 것이 중요하다.
거짓 부정('거짓 거부'라고도 함)은 스피치 기반 인터페이스(예: 디지털 어시스턴트)와 인터렉션하려고 의도할 때 사용자가 말한 스트리밍 오디오의 발화된 핫워드를 검출하지 못하는 것을 의미한다. 여기서 스피치 지원 디바이스는 사용자에게 반응하지 못하고, 사용자가 핫워드가 검출되었는지 확인하기 위해 종종 더 크게 다른 발음으로 핫워드를 다시 말함으로써 인터페이스 호출을 다시 시도해야 한다. 반면에, 거짓 긍정('거짓 수락'이라고도 함)은 일반적으로 발화된 경우 핫워드와 음성학적으로 비슷하게 들리는 단어/문구를 포함하는 스트리밍 오디오로 인하여, 스트리밍 오디오가 핫워드가 실제로 포함하지 않은 경우에 스트리밍 오디오에서 핫워드를 검출하는 것을 의미한다. 거짓 긍정은 사용자가 시스템을 호출할 의도가 없었음에도 불구하고 스피치 지원 디바이스가 웨이크업 프로세스를 개시하게 하여, 스피치 지원 디바이스가 슬립 상태를 유지해야 할 때 반응하여 사용자를 놀라게 하거나 혼란스럽게 한다.
캐스케이드 핫워드 검출 아키텍처는 스트리밍에서 핫워드의 존재를 검출하기 위해 디바이스에서 실행되는 제1 스테이지 핫워드 검출기와 제1 스테이지 핫워드 검출기에서 검출된 핫워드의 존재를 확인하는 제2 스테이지 핫워드 검출기를 통합한다. 제2 스테이지 핫워드 검출기는 스트리밍 오디오에서 핫워드의 존재를 검출할 때 더 높은 정확도와 연관되므로 제1 스테이지 핫워드 검출기보다 더 높은 전력 요구 사항을 포함한다. 종종, 제2 스테이지 핫워드 검출기는 스피치 지원 디바이스에 구현된 제1 스테이지 핫워드 검출기와 통신하는 서버에서 구현된다. 제1 스테이지 핫워드 검출기가 로컬에서 핫워드의 존재를 검출하지만 서버에서 구현된 제2 스테이지 핫워드 검출기가 핫워드의 존재를 거부하는 부분적 거짓 긍정 중에도, 서버가 궁극적으로 웨이크업 프로세스를 억제하더라도 사용자 경험에 부정적인 영향을 미친다. 즉, 제1 스테이지 핫워드 검출기에 의한 핫워드의 검출은 여전히 디바이스를 깨우고 사용자에게 눈에 띄고(예를 들어, 눈에 보이는 알림 또는 번쩍이는 빛) 서버에 연결하게 하고, 프라이버시 및 전력 보존 관점에서 바람직하지 않다. 따라서 사용자 경험을 향상시키기 위해서는 부분적인 거짓 긍정 인스턴스의 발생을 제거하는 것이 바람직하다.
일반적으로 스피치 지원 디바이스는 서버에서 디바이스로 푸시되는 새 버전으로 주기적으로 업데이트되는 특정 언어(또는 로케일)의 모든 사용자에 대해 동일한 고정 핫워드 모델을 사용한다. 즉, 동일한 핫워드 모델을 사용하여 스피치 지원 디바이스가 작동하는 사용자 스피치, 악센트, 어휘 및/또는 음향 환경에 큰 변화가 있음에도 불구하고 모든 사용자의 스트리밍 오디오에서 핫워드를 검출한다. 그 결과 주어진 언어/로케일의 모든 사용자가 단일 핫워드 모델을 공유할 때 핫워드를 검출하기 위한 엄격한 정밀도/재현 요구 사항을 구현하는 것은 거의 불가능하다.
주어진 사용자 및/또는 환경에서 핫워드 거짓 긍정 인스턴스는 함께 클러스터링될 가능성이 매우 높다. 비제한적 예에서, "poodle"이라는 용어를 말하는 특정 사용자는 스피치 지원 디바이스의 핫워드 검출 모델이 지정된 핫워드 "Hey Google"의 존재를 잘못 검출하게 할 수 있는 반면, 다른 사용자는 다른 스피치 지원 디바이스에 구현된 동일한 핫워드 검출 모델로 하여금 사용자가 "doodle"이라고 말할 때 지정된 핫워드를 검출하게 할 수 있다. 상이한 사용자들에 걸친 이러한 거짓 긍정 인스턴스의 변형은 사용자의 발음 차이 및/또는 해당 사용자의 각 어휘에서 해당 용어의 빈도에 기인할 수 있다. 동일한 환경에서 동일한 사용자에 대해 유사한 음향 패턴에 기초하여 동일한 거짓 긍정 인스턴스가 다시 발생할 가능성이 있으므로, 핫워드 검출기는 이상적으로는 사용자가 지정된 핫워드와 유사한 발음으로 말할 때 동일한 거짓 긍정을 반복하지 않게 적응하도록 학습해야 한다.
본 명세서에서 구현예는 핫워드 검출 거짓 긍정의 이전 인스턴스를 야기한 네거티브 핫워드로 분류된 특정 용어에 기초하여 사용자의 스피치 지원 디바이스에서 핫워드 검출기를 개인화하는 것에 관한 것이다. 네거티브 핫워드로 분류된 특정 용어는 해당 용어를 말하는 특정 사용자로부터 도출된 오디오 세그먼트가 핫워드 검출기에 의해 검출될 때 임의의 핫워드 검출이 억제되도록 사용자 특정적일 수 있다. 추가로 또는 대안적으로, 네거티브 핫워드로 분류된 특정 용어는 해당 용어를 말하는 사용자로부터 도출된 오디오 세그먼트가 특정 디바이스에서 구현된 핫워드 검출기에 의해 검출되지만 동일한 사용자(들)와 연관된 다른 스피치 지원 디바이스들에서는 검출되지 않을 때 핫워드 검출이 억제되도록 디바이스 특정적일 수 있다. 이것은 일부 환경에 위치한 디바이스가 음향 변화, 어휘의 변화 및 해당 환경에서 일반적으로 말하는 사용자 간의 변화로 인해 다른 환경에 있는 디바이스보다 핫워드 검출 거짓 긍정에 더 취약할 수 있다는 개념을 따른다.
도 1을 참조하면, 일부 구현예에서, 예시적 시스템(100)은 하나 이상의 사용자(10)와 연관되고 네트워크(104)를 통해 원격 시스템(110)과 통신하는 사용자 디바이스(102)를 포함한다. 사용자 디바이스(102)는 모바일폰, 컴퓨터(노트북 또는 데스크탑), 태블릿, 스마트 스피커/디스플레이, 스마트 기기, 스마트 헤드폰, 웨어러블, 차량 인포테인먼트 시스템 등과 같은 컴퓨팅 디바이스에 대응할 수 있으며, 데이터 프로세싱 하드웨어(103) 및 메모리 하드웨어(105)를 구비한다. 사용자 디바이스(102)는 각각의 사용자(10)로부터의 발화를 캡처하기 위해 하나 이상의 마이크(106)를 포함하거나 그와 통신한다. 원격 시스템(110)은 확장 가능한/탄력적인 컴퓨팅 리소스(112)(예: 데이터 프로세싱 하드웨어) 및/또는 저장 리소스(114)(예: 메모리 하드웨어)를 갖는 단일 컴퓨터, 다중 컴퓨터 또는 분산 시스템(예: 클라우드 환경)일 수 있다.
사용자 디바이스(102)는 스트리밍 오디오(118)에 대한 의미론적 분석 또는 스피치 인식 프로세싱을 수행하지 않고 스트리밍 오디오(118)에서 핫워드의 존재를 검출하도록 구성된 제1 스테이지 핫워드 검출기(210)(핫워드 검출 모델이라고도 함)를 포함한다. 일부 구현예에서, 사용자 디바이스(102)는 또한 스트리밍 오디오(118)를 수신하고 스트리밍 오디오(118)에서 핫워드가 검출되는지 여부를 확인하기 위해 제1 스테이지(정밀) 핫워드 검출기(210)를 호출하기 전에 핫워드의 존재를 초기에 검출하도록 트레이닝되는 초기 코어스(coarse) 핫워드 검출기(205)를 포함한다(도 2). 일부 구현예에서, 제1 스테이지 핫워드 검출기(210)는 네트워크(104)를 통해 원격 시스템(110)으로부터 수신된 트레이닝된 신경 네트워크(예를 들어, 암기된 신경 네트워크)을 포함한다. 원격 시스템(110)은 제1 스테이지 핫워드 검출기(210)의 업데이트 또는 새로운 버전을 주어진 로컬 및/또는 특정 언어의 사용자와 연관된 사용자 디바이스(102)의 모집단에 푸시할 수 있다. 즉, 미국-영어 사용자와 연관된 모든 사용자 디바이스(102)는 동일한 제1 스테이지 핫워드 검출기(210)를 수신하며, 이는 미국의 영어 사용자가 말할 때 스트리밍 오디오(118)에서 핫워드의 존재를 검출하도록 트레이닝된 신경 네트워크를 포함할 수 있다.
일부 예에서, 사용자 디바이스(102)에서 실행되는 제1 스테이지 핫워드 검출기(210)는 스트리밍 오디오(118)에서 핫워드 "Hey Google"의 존재를 검출하여 핫워드 및/또는 스트리밍 오디오(118)에서 핫워드에 뒤따르는 하나 이상의 다른 용어(예를 들어, 쿼리 또는 명령)를 프로세싱하기 위해 사용자 디바이스(102)에서 웨이크업 프로세스를 개시하도록 구성된다. 제1 스테이지 핫워드 검출기(210)는 상기 사용자 디바이스(102)에 의해 캡처된 스트리밍 오디오(118)의 오디오 피처들에서 핫워드의 존재를 나타내는 확률 점수를 생성하고 그리고 상기 확률 점수가 제1 스테이지 핫워드 검출기(210)의 핫워드 검출 임계값을 만족하는 경우 스트리밍 오디오(118)에서 핫워드를 검출하도록 구성될 수 있다. 따라서, 제1 스테이지 핫워드 검출기(210)는 스트리밍 오디오(118)의 오디오 피처들에 대해 생성된 확률 점수가 핫워드 검출 임계값을 만족할 때 사용자 디바이스(102)에 의해 캡처된 스트리밍 오디오(118)에서 핫워드 이벤트를 검출할 수 있다.
도시된 예에서, 사용자(10)는 제1 스테이지 핫워드 검출기(210)가 검출하도록 트레이닝된 핫워드로 지정된 고정된 용어/문구(예: "Hey Google"와 유사한 발음을 갖는, 사용자 디바이스(102)에 의해 스트리밍 오디오(118)로서 캡처된 용어/문구(예: "Hey Poodle")을 포함하는 발화(119)를 말한다. 특히, 사용자(10)는 약간 다른 발음을 사용하는 다른 사용자가 말할 때보다 제1 스테이지 핫워드 검출기가 지정된 핫워드 "Hey Google"을 구별하는 것이 더 어렵도록 용어 "Hey Poodle"을 발음할 수 있다. 결과적으로, 사용자 디바이스(102)에서 실행되는 제1 스테이지 핫워드 검출기(210)는 핫워드 검출 임계값을 만족하는 "Hey Poodle"과 연관된 오디오 피처들에 대한 확률 점수를 생성함으로써 핫워드의 존재를 잘못 검출하여, 사용자(10)가 의도하지 않았던 웨이크업 프로세스의 개시를 트리거한다.
"Hey Poodle"과 연관된 오디오 피처들에 대한 확률 점수가 핫워드 검출 임계값을 만족할 때, 제1 스테이지 핫워드 검출기(210)는 추가로 핫워드 이벤트를 나타내는 오디오 데이터(120)를 원격 시스템(110)에서 실행되는 제2 스테이지 핫워드 검출기(220)에 전송한다. 일부 예에서, 오디오 데이터(120)는 스트리밍 오디오(118)의 직접적인 표현이며, 다른 예에서 오디오 데이터(136)는 제1 스테이지 핫워드 검출기(210)에 의해 프로세싱된 후 스트리밍 오디오(118)를 나타낸다(예: 스트리밍 오디오(118)의 특정 오디오 특성을 식별 및/또는 격리하기 위해 또는 스트리밍 오디오(118)를 제2 스테이지 핫워드 검출기(220)에 의한 전송 및/또는 프로세싱에 적합한 포맷으로 변환하기 위해). 예를 들어, 오디오 데이터(120)는 제1 스테이지 핫워드 검출기(210)에 의해 검출된 핫워드의 존재와 연관된 관련 오디오 피처들을 포함하는 스트리밍 오디오(120)로부터 초핑(chomp)된 제1 세그먼트(121)를 포함한다. 오디오 데이터(120)는 또한 제1 세그먼트(121)에 뒤따르는 스트리밍 오디오(118)에서 사용자 디바이스(102)에 의해 캡처된 오디오 피처들을 포함하는 제2 세그먼트(122)를 포함한다. 일반적으로, 제1 세그먼트(121)는 일반적으로 지정된 핫워드와 연관된 오디오 피처들을 포함하기에 충분한 고정된 기간이다. 그러나 제2 세그먼트(122)는 마이크(106)가 오픈되어 있는 동안 사용자 디바이스(102)에 의해 캡처된 오디오를 포함하는 가변 기간을 가질 수 있다. 제2 세그먼트(122)는 오디오 데이터에서 쿼리 또는 명령을 식별하기 위해 하나 이상의 용어에 대한 추가 프로세싱(예를 들어, 자동 스피치 인식 및/또는 의미론적 해석)를 필요로 하는 쿼리-유형 발화를 캡처할 수 있다. 예시적 시나리오에서, 제1 세그먼트(121)는 핫워드를 말하는 사용자와 연관되지 않고 오히려 사용자(10)가 핫워드와 유사하게 발음하는 다른 용어/문구와 연관되는 사용자 디바이스에 의해 캡처된 오디오 피처들을 포함하기 때문에, 사용자(10)는 스피치를 통해 디바이스(102)를 호출하려는 의도가 아니므로, 제2 세그먼트(122)는 쿼리-유형 발화를 포함하지 않고 대신 사용자 디바이스(102)의 환경으로부터 스트리밍 오디오(118)에서 캡처된 배경 소음을 포함할 가능성이 있다.
제1 스테이지 핫워드 검출기(210) 및 제2 스테이지 핫워드 검출기(220)는 협력하여 캐스케이드 핫워드 검출 아키텍처(200)를 형성하고, 이로써 제2 스테이지 핫워드 검출기(220)는 제1 스테이지 핫워드 검출기(210)에 의해 검출된 핫워드가 오디오 데이터(120)에 존재하는지 여부를 확인하도록 구성된다. 구체적으로, 원격 시스템(110)에서 실행되는 제2 스테이지 핫워드 검출기(220)는 오디오 데이터(120)를 프로세싱하여 오디오 데이터(120)의 제1 세그먼트(121)에서 핫워드가 제2 스테이지 핫워드 검출기에 의해 검출되는지 여부를 결정한다. 일부 예에서, 제2 스테이지 핫워드 검출기(210)는 핫워드가 존재하는지 여부를 결정하기 위해 오디오 데이터(120)의 제1 세그먼트(121)에 대해 스피치 인식을 수행하는 자동 스피치 인식(ASR) 엔진으로 구현된다. 제2 스테이지 핫워드 검출기(210)는 핫워드를 인식할 확률이 핫워드 검출 임계값을 만족하는 경우 제1 세그먼트(121)에서 핫워드의 존재를 검출할 수 있다.
다른 예에서, 제2 스테이지 핫워드 검출기(220)는 제2 스테이지 핫워드 검출기(220)가 의미론적 분석이나 스피치 인식 프로세싱을 수행하지 않고 제1 오디오 세그먼트(121)에서 핫워드의 존재를 검출하도록 구성된 트레이닝된 신경 네트워크로서 구현된 모델이라는 점에서 제1 스테이지 핫워드 검출기(210)와 유사하다. 이러한 예에서, 제2 스테이지 핫워드 검출기(220)는 제1 스테이지 핫워드 검출기(210)에 의해 사용되는 더 큰 버전의 핫워드 검출 모델과 연관될 수 있고, 제1 스테이지 핫워드 검출기(210)의 신경 네트워크보다 잠재적으로 더 계산 집약적인 다른 신경 네트워크를 포함할 수 있으므로, 사용자 디바이스(102)의 리소스에 의해 제한되는 제1 스테이지 핫워드 검출기(210)에 비해 증가된 핫워드 검출 정확도를 제공한다. 제2 스테이지 핫워드 검출기(220)는 오디오 데이터(120)의 제1 세그먼트에 핫워드의 존재를 나타내는 확률 점수를 생성하고, 확률 점수가 제2 스테이지 핫워드 검출기(220)의 핫워드 검출 임계값을 만족할 때 핫워드의 존재를 검출할 수 있다. 여기서, 제2 스테이지 핫워드 검출기(220)에서의 핫워드 검출 임계값은 제1 스테이지 핫워드 검출기(210)에서의 핫워드 검출 임계값과 동일하거나 다를 수 있다. 일부 예에서, 제2 스테이지 핫워드 검출기(220)에서의 핫워드 검출 임계값의 값은 핫워드가 제1 오디오 세그먼트(121)에 존재하는지 여부를 결정할 때 제2 스테이지 핫워드 검출기(220)가 더 확신할 것을 요구하도록 더 높게 설정된다.
일부 구현예에서, 제2 스테이지 핫워드 검출기(220)는 원격 시스템(110)을 사용하지 않고 전체 캐스케이드 핫워드 검출 아키텍처(200)를 디바이스 상에서 구현하기 위해 사용자 디바이스(102)(예를 들어, 데이터 프로세싱 하드웨어(103))에서 실행된다. 사용자 디바이스(102)에서 실행될 때 제2 스테이지 핫워드 검출기(220)는 제1 오디오 세그먼트(121)에서 스피치 인식을 수행함으로써 핫워드의 존재를 검출하기 위해 온-디바이스 ASR 엔진으로 구현되거나 스피치 인식을 수행하지 않고 제1 오디오 세그먼트(121)에서 핫워드의 존재를 검출하기 위해 제1 스테이지 핫워드 검출기(210)에 의해 구현되는 핫워드 검출 모들의 더 큰 버전으로서 구현될 수 있다.
도 2는 제1 스테이지 핫워드 검출기(210), 제2 스테이지 핫워드 검출기(220) 및 선택적으로 초기 코어스 핫워드 검출기(205)를 포함하는 도 1의 캐스케이드 핫워드 검출 아키텍처(200)의 예를 제공한다. 일부 예에서, 사용자 디바이스(102)가 배터리 구동 디바이스인 경우, 사용자 디바이스(102)의 데이터 프로세싱 하드웨어(103)는 집합적으로 제1 프로세서(60)(예: 디지털 신호 프로세서(DSP)) 및 제2 프로세서(70)(예: 애플리케이션 프로세서(AP))를 포함한다. 제1프로세서(60)는 제2프로세서(70)가 동작하는 동안 소모하는 전력보다 동작하는 동안 더 적은 전력을 소모한다. 본 명세서에서 사용되는 바와 같이, 제1 프로세서(60)는 DSP로 상호교환적으로 지칭될 수 있고, 제2 프로세서(70)는 "AP" 또는 "디바이스 SoC"로 상호교환적으로 지칭될 수 있다. 초기 코어스 핫워드 검출기(205)는 제1 프로세서(60)에서 실행될 수 있고, 제1 스테이지 핫워드 검출기(210)는 제2 프로세서(70)에서 실행될 수 있다. 제2 스테이지 핫워드 검출기(220)는 서버에서 향상된 프로세싱 능력을 활용하는 서버측 핫워드 확인을 제공하기 위해 사용자 디바이스(102)와 통신하는 서버(예를 들어, 원격 시스템(110))에서 실행될 수 있다. 대안적으로, 제2 스테이지 핫워드 검출기(220)는 전체 캐스케이드 핫워드 검출 아키텍처를 온-디바이스로 구현하기 위해 사용자 디바이스(102)의 제2 프로세서(70)에서 실행될 수 있다.
일반적으로, 코어스 핫워드 검출기(205)는 특수 DSP(60)에 상주하고, 제1 스테이지 핫워드 검출기(210)와 연관된 모델보다 더 작은 모델 크기를 포함하고, 핫워드 검출을 위해 입력 스트리밍 오디오(118)를 대략적으로 스크리닝하는데 계산적으로 효율적이다. 따라서, 특수 DSP(60)(예를 들어, 제1 프로세서)는 "항상 켜짐"일 수 있어서 코어스 핫워드 검출기(205)가 멀티 채널 오디오(118)에서 핫워드 후보를 대략적으로 선별하기 위해 항상 실행되고 있는 반면, 메인 AP(70)(예: 제2프로세서)를 포함하는 사용자 디바이스(102)의 모든 다른 컴포넌트는 배터리 수명을 절약하기 위해 슬립 상태/모드에 있다. 한편, 제1 스테이지 핫워드 검출기(210)는 메인 AP(70)에 상주하며, 더 큰 모델 크기를 포함하고, 코어스 핫워드 검출기(205)에 의해 초기에 검출된 핫워드의 더 정확한 검출을 제공하기 위해 코어스 스테이지 핫워드 검출기(205)보다 더 많은 연산 출력을 제공한다. 따라서, 제1 스테이지 핫워드 검출기(210)는 핫워드가 오디오(118)에 존재하는지 여부를 결정하는데 더 엄격할 수 있다. DSP(60)가 "항상 켜져" 있는 동안, 더 많은 전력을 소비하는 메인 AP(70)는 슬립 모드에서 동작하여 DSP(60)의 코어스 핫워드 검출기(205)가 스트리밍 오디오(118)에서 후보 핫워드를 검출할 때까지 배터리 수명을 보존한다. 따라서, 일단 후보 핫워드가 검출되면 DSP(60)는 제1 스테이지 핫워드 검출기(210)를 실행하기 위해 슬립 모드로부터 핫워드 검출 모드로 트랜지션하도록 메인 AP(70)를 트리거한다.
스트리밍 오디오(118)를 수신하면, 상시 작동 DSP(60)는 스트리밍 오디오(118)의 각각의 오디오 피처들에서 핫워드가 검출되는지 여부를 결정하기 위해 코어스 핫워드 검출기(205)를 실행한다. 특히, AP(70)는 멀티 채널 오디오가 DSP(60)에서 수신될 때 그리고 DSP(60)가 스트리밍 오디오(118)의 각각의 오디오 피처들을 프로세싱하는 동안 슬립 모드에서 동작할 수 있다.
코어스 핫워드 검출기(205)가 스트리밍 오디오(118)에서 핫워드를 검출하면, DSP(60)는 초핑된 오디오 데이터(120)를 AP(70)에 제공한다. 일부 예에서, AP(70)에 초핑된 오디오 데이터(120)를 AP(70)에 제공하는 DSP(60)는 슬립 모드에서 핫워드 검출 모드로 트랜지션하도록 트리거/호출한다. 일부 구현예에서, 스트리밍 오디오(118)로부터 초핑된 오디오 데이터(120)는 스트리밍 오디오(118)에서 코어스 핫워드 검출기(205)에 의해 검출된 핫워드를 나타내는 제1 세그먼트(121)를 포함한다. 즉, 제1 세그먼트는 검출된 핫워드를 안전하게 포함하기에 충분한 기간을 포함한다. 추가로, 오디오 데이터(212)는 음성 쿼리를 포함하는 오디오의 지속시간을 포함할 수 있는 제1 세그먼트(121)에 뒤따르는 제2 세그먼트(122)를 포함한다. 코어스 핫워드 검출기(205)는 선택적이며, 제1 스테이지 핫워드 검출기(210)는 초기에 스트리밍 오디오(118)에서 핫워드 이벤트를 검출하고, 제1 및 제2 세그먼트(121, 122)를 포함하는 오디오 데이터(120)를 초핑하고, 상기 초핑된 오디오 데이터(120)를 제2 스테이지 핫워드 검출기(220)에 제공한다.
핫워드가 오디오 데이터(120)의 제1 세그먼트(121)에서 제1 스테이지 핫워드 검출기(210)에 의해 검출되면, AP(70)는 사용자 디바이스(102)에서 웨이크업 프로세스를 개시하고, 오디오 데이터(120)의 제1 세그먼트(121)에서 핫워드가 제2 스테이지 핫워드 검출기(220)에 의해 검출되는지 여부를 결정/확인하기 위한 프로세싱을 위해 오디오 데이터(120)를 제2 스테이지 핫워드 검출기(220)에 제공한다. 캐스케이드 핫워드 검출 아키텍처(200)가 전적으로 온-디바이스로 구현되는 예에서, AP(70)는 단순히 오디오 데이터(120)를 또한 AP(70)에서 실행되는 제2 스테이지 핫워드 검출기(220)에 전달한다. 제2 스테이지 핫워드 검출기(220)가 서버(110)에서 구현되는 다른 예에서, AP(70)는 오디오 데이터(120)를 네트워크(104)를 통해 제2 스테이지 핫워드 검출기(220)로 전송하도록 사용자 디바이스(102)에 지시한다.
다시 도 1을 참조하면, 일부 예에서, 오디오 데이터(120)의 제1 세그먼트(121)에서 핫워드가 제2 스테이지 핫워드 검출기(220)에 의해 검출되지 않는 경우(즉, 확률 점수가 핫워드 검출 임계값을 만족함), 원격 시스템(110)에서 실행되는 네거티브 핫워드 분류기(300)는 오디오 데이터(120)의 제1 세그먼트(121)를 제1 스테이지 핫워드 검출기(210)에 의해 스트리밍 오디오(118)에서 핫워드 이벤트의 잘못된 검출을 야기한 네거티브 핫워드(예를 들어, Hey Poodle)를 포함하는 것으로 분류한다. 제2 스테이지 핫워드 검출기(220)가 사용자 디바이스(102)에서 실행되는 구성에서, 네거티브 핫워드 분류기(300)도 사용자 디바이스(102)에서 실행될 수 있다. 네거티브 핫워드 분류기(300)는 네거티브 핫워드를 포함하는 것으로 오디오 데이터(120)의 제1 세그먼트(121)의 분류를 나타내는 분류 결과(170)를 네거티브 핫워드 업데이터(400)에 제공할 수 있다. 분류 결과(170)는 제1 오디오 세그먼트(121)에 대해 제2 스테이지 핫워드 검출기(220)에 의해 생성된 확률 점수(171) 및/또는 제1 스테이지 핫워드 검출기(210)를 업데이트하기 위해 네거티브 핫워드 업데이터(400)에 유용할 수 있는 대응하는 분류 결과(170)와 연관된 다른 관련 정보(172)를 제공할 수 있다. 여기서, 다른 관련 정보(170)는 제한 없이, 발화(119)의 전사, 발화(119)를 말한 사용자(10)의 화자 특성을 식별하는 화자 식별 점수(예를 들어, 화자 임베딩), 시간 및/또는 요일을 나타내는 핫워드 이벤트의 타임 스탬프 및 제1 세그먼트(121)를 네거티브 핫워드로 분류하기 위한 신뢰도를 나타내는 네거티브 핫워드 신뢰 점수(304)(도 3)를 포함할 수 있다. 도시된 예에서, 네거티브 핫워드 업데이터(400)는 네거티브 핫워드를 포함하는 후속 오디오 데이터에서 핫워드 이벤트를 트리거하는 것을 방지하기 위해 제1 스테이지 핫워드 검출기(210)를 업데이트함으로써 사용자 디바이스(102)에서 핫워드 검출을 개인화하기 위해 사용자 디바이스(102)에서 실행된다.
분류 결과(170)를 네거티브 핫워드 업데이터(400)로 전송하면 네거티브 핫워드 업데이터(400)가 제1 스테이지 핫워드 검출기(210)를 업데이트하여 네거티브 핫워드(예: Hey Poodle)를 포함하는 후속 오디오 데이터에서 핫워드 이벤트를 트리거하는 것을 방지할 수 있다. 일부 구현예에서, 핫워드가 오디오 데이터(120)의 제1 세그먼트(121)에서 제2 스테이지 핫워드 검출기(220)에 의해 검출되지 않는 경우, 원격 시스템(110)(또는 사용자 디바이스(102))은 사용자 디바이스(102)에서 핫워드 및/또는 스트리밍 오디오(118)에서 핫워드 다음에 오는 하나 이상의 다른 용어를 프로세싱하기 위한 웨이크업 프로세스를 억제한다. 일부 구현예에서, 원격 시스템(110)은 사용자 디바이스(102)로 하여금 웨이크업 프로세스를 억제하게 하는 억제 명령어들(160)을 사용자 디바이스(102)에 전송함으로써 웨이크업 프로세스를 억제한다. 다른 구현예에서, 오디오 데이터(120)의 제1 세그먼트(121)가 네거티브 핫워드를 포함함을 나타내는 분류 결과(170)를 제공하면 사용자 디바이스(102)는 웨이크업 프로세스를 억제한다. 또 다른 구현예에서, 원격 시스템(110)은 오디오 데이터(120)를 수신한 후에 사용자 디바이스(102)에 응답하지 않음으로써(예를 들어, 네트워크 연결을 닫음으로써) 웨이크업 프로세스를 억제한다. 원격 시스템(110)으로부터의 응답 부족은 사용자 디바이스(102)로 하여금 웨이크업 프로세스를 억제하게 할 수 있다. 즉, 일부 예에서 사용자 디바이스(102)는 핫워드가 스트리밍 오디오(118)에 존재한다는 제2 스테이지 핫워드 검출기(220)로부터의 확인을 수신할 때만 웨이크업 프로세스를 개시한다. 사용자 디바이스(102)는 웨이크업 프로세스를 독립적으로 억제할 수 있다. 예를 들어, 핫워드 다음의 쿼리 또는 명령이 비어 있을 때, 사용자 디바이스(102)는 웨이크업 프로세스를 자동으로 억제할 수 있다(즉, 핫워드 다음의 스트리밍 오디오(118)는 사용자 디바이스(102)로 향하는 명령 또는 쿼리를 포함하지 않는다).
일부 시나리오에서, 제2 스테이지 핫워드 검출기(220)가 오디오 데이터(120)의 제1 세그먼트(121)에서 핫워드의 존재를 검출하지 않기 때문에 웨이크업 프로세스를 억제한 후, 네거티브 핫워드 분류기(300)는 즉각적인 후속 쿼리가 사용자 디바이스(102)의 사용자(10)에 의해 제공되었는지 여부를 결정한다. 이러한 결정은 제1 스테이지 핫워드 검출기(210)에 의해 검출된 후속 핫워드 이벤트가 제2 스테이지 핫워드 검출기(220)에 의해 수신되지 않은 경우에 이루어질 수 있다. 여기서, 사용자(10)가 즉각적인 후속 쿼리를 제공하지 않았다는 결정은 사용자(10)가 이전에 발화(119)에서 핫워드를 말할 의도가 없었고 오히려 핫워드로 지정된 특정 용어/문구("Hey Google")와 유사한 발음을 갖는 용어("Hey Poodle")를 말했다는 추가적인 확인 역할을 한다. 따라서, 네거티브 핫워드를 포함하는 것으로 오디오 데이터(120)의 제1 세그먼트(121)를 분류하는 것은 웨이크업 프로세스를 억제한 후에 사용자 디바이스(102)로부터 어떠한 후속 쿼리도 수신되지 않았다는 결정에 추가로 기초할 수 있다.
추가 예에서, 사용자(10)가 실제로 유사하게 들리는 다른 문구("Hey Poodle")를 말하고 있음에도 불구하고 제2 스테이지 핫워드 검출기(220)가 오디오 데이터(120)의 제1 세그먼트(121)에서 핫워드("Hey Google")의 존재를 검출하면(즉, 확률 점수가 핫워드 검출 임계값을 만족함), 오디오 데이터(120)의 제2 세그먼트(122)(및 선택적으로 제1 세그먼트(121))가 쿼리 프로세서(180)에 제공된다. 여기서 상기 쿼리 프로세서(180)는 오디오 데이터(120)의 제2 세그먼트(122)가 음성 쿼리-유형 발화를 나타내는지 여부를 결정하기 위해 오디오 데이터(120)의 제2 세그먼트(122)를 프로세싱한다. 제2 스테이지 핫워드 검출기(220)가 ASR 엔진으로 구현될 때의 예에서, 쿼리 프로세서(180)는 제2 세그먼트(122)가 쿼리-유형 발화를 나타내는지 결정하기 위해 의미론적 분석을 수행함으로써 결과적인 스피치 인식 결과를 프로세싱한다. 다른 예로, 제2 스테이지 핫워드 검출기(220)가 핫워드 검출 모델로 구현되는 경우, 쿼리 프로세서(180)는 오디오 데이터(120)의 제2 세그먼트(122)를 스피치 인식 후 상기 스피치 인식 결과에 의미론적 분석을 수행하여 프로세싱하는 ASR 엔진으로 구현된다. 본 명세서에서 사용되는 바와 같이, 쿼리-유형 발화는 사용자 디바이스(102)로 향하는 발화, 예를 들어 디지털 어시스턴트에게 동작 또는 액션을 수행하도록 쿼리하기 위해 디지털 어시스턴트 인터페이스로 향하는 발화에 대응한다. 따라서, 오디오 데이터(120)의 제2 세그먼트(122)가 쿼리-유형 발화를 나타내는 경우, 제2 스테이지 핫워드 검출기(220)가 오디오 데이터(120)의 제1 세그먼트(121)에서 핫워드의 존재를 검출하는데 정확했을 가능성이 높다. 그렇지 않으면, 쿼리 프로세서(180)가 제2 세그먼트(122)가 쿼리-유형 발화를 나타내지 않는다고 결정하는 경우, 제2 스테이지 핫워드 검출기(220)가 제1 세그먼트(121)에서 핫워드의 존재를 검출하는데 부정확했을 가능성이 높다.
쿼리 프로세서(180)는 제2 세그먼트(122)가 쿼리-유형 발화를 나타내는지 여부를 나타내는 점수(182)를 제공할 수 있다. 일부 예에서, 점수(182)는 0 또는 1의 점수(182)가 쿼리-유형 발화를 나타내고 0 또는 1 중 다른 하나의 점수는 쿼리-유형 발화를 나타내지 않는 이진수이다. 다른 예에서, 점수(182)는 제2 세그먼트(122)가 쿼리-유형 발화를 나타내는 가능성(예를 들어, 확률)을 제공한다. 여기서, 점수(182)가 쿼리-유형 발화 임계값을 만족하지 못하는 경우, 제2 세그먼트(122)는 쿼리-유형 발화를 나타내지 않을 수 있다. 도시된 예에서, 네거티브 핫워드 분류기(300)는 오디오 데이터(120)의 제1 세그먼트(121)가 네거티브 핫워드를 포함하는 것으로 분류되어야 하는지 여부를 결정하기 위해 제2 스테이지 핫워드 검출기(220)에 의해 이루어진 결정에 더하여 입력으로서 점수(182)를 수신할 수 있다.
따라서, 네거티브 핫워드 분류기(300)가 오디오 데이터의 제2 오디오 세그먼트(122)가 음성 쿼리-유형 발화를 나타내지 않는다는 표시를 쿼리 프로세서(180)로부터 수신하는 경우, 네거티브 핫워드 분류기(300)는 오디오 데이터의 제1 세그먼트(121)가 제2 스테이지 핫워드 검출기(220)이 잘못된 수락을 제공했음을 나타내기 위해 네거티브 핫워드를 포함하는 것으로 분류할 수 있다. 네거티브 핫워드 분류기(300)는 제1 세그먼트(121)에 대해 제2 스테이지 핫워드 검출기(220)에 의해 생성된 확률 점수(171)를 추가로 수신할 수 있으며, 이에 따라 단지 좁은 마진으로 핫워드 검출 임계값을 만족하는 확률 점수는 네거티브 핫워드 분류기(300)를 더 편향시켜 제1 세그먼트(121)가 네거티브 핫워드를 포함하는 것으로 분류할 수 있다. 또한, 쿼리 프로세서(180)가 제2 세그먼트(122)가 쿼리-유형 발화를 나타내지 않는다고 결정한 후에, 네거티브 핫워드 분류기(300)는 또한 즉각적인 후속 쿼리가 사용자 디바이스의 사용자(10)에 의해 제공되었는지 여부를 결정할 수 있다. 상기 논의된 바와 같이, 사용자(10)가 즉각적인 후속 쿼리를 제공하지 않았다는 결정은 사용자(10)가 이전에 발화(119)에서 핫워드를 말할 의도가 없었고 오히려 핫워드로 지정된 특정 용어/문구("Hey Google")와 유사한 발음을 갖는 용어("Hey Poodle")를 말했다는 추가적인 확인 역할을 한다. 따라서, 네거티브 핫워드를 포함하는 것으로 오디오 데이터(120)의 제1 세그먼트(121)를 분류하는 것은 사용자 디바이스(102)로부터 어떠한 후속 쿼리도 수신되지 않았다는 결정에 추가로 기초할 수 있다.
일부 예에서, 제1 스테이지 핫워드 검출기(210)에 의해 검출된 핫워드 이벤트를 나타내는 오디오 데이터(120)를 수신한 후, 원격 시스템(110)은 사용자 디바이스(102)에서 웨이크업 프로세스의 사용자 억제를 나타내는 네거티브 사용자 인터렉션(162)을 수신한다. 즉, 사용자가 네거티브 핫워드 "Hey Poodle"을 말했을 때 핫워드 이벤트를 검출하는 것에서 제1 스테이지 핫워드 검출기(210)에 의한 거짓 수락 인스턴스는 사용자 디바이스(102)로 하여금 핫워드의 존재를 확인하거나 거부하기 위해 제2 스테이지 핫워드 검출기(220)를 기다리는 동안 초기에 깨어나도록 트리거할 수 있다. 여기서, 사용자 디바이스(102)는 사용자 디바이스(102)가 깨어 있음을 사용자에게 알리기 위해 청각적 및/또는 시각적 알림을 제공할 수 있고, 웨이크업 프로세스를 트리거할 의도가 없었으므로 사용자(102)가 디바이스(102)를 슬립 상태로 되돌리기 위해 네거티브 사용자 인터렉션(162)을 제공할 수 있다. 예를 들어, 사용자(10)는 사용자 디바이스의 물리적 버튼을 누르거나, 제스처를 제공하거나, 사용자 디바이스(102)가 디스플레이를 포함하는 경우 사용자 디바이스(102)를 다시 슬립 상태로 되돌리게 하는 디스플레이에 디스플레이된 그래픽 사용자 인터페이스에서 렌더링된 그래픽을 선택할 수 있다. 일부 구현예에서, 네거티브 핫워드 분류기(300)는 네거티브 핫워드를 포함하는 것으로 오디오 데이터(120)의 제1 세그먼트(121)를 분류하기 위한 입력으로서 사용자 디바이스에서 웨이크업 프로세스의 사용자 억제를 나타내는 네거티브 사용자 인터렉션(162)을 사용한다.
일부 추가 예에서, 쿼리 프로세서(180)가 오디오 데이터(120)의 제2 세그먼트(122)가 음성 쿼리-유형 발언을 나타낸다고 결정하면, 쿼리 프로세서(180)는 오디오 데이터(120)의 제2 세그먼트(122)의 전사를 포함하는 검색 엔진(190)(또는 다른 다운스트림 애플리케이션)에 쿼리(185)를 제공한다. 여기서, 검색 엔진(190)은 쿼리(185)에 응답하는 결과(192)를 사용자 디바이스(102)에 다시 제공한다. 여기서, 쿼리 프로세서(180)는 사용자가 "Hey Poodle"이라고 말했을 때 제1 스테이지 핫워드 검출기(210)가 거짓 양성 핫워드 이벤트를 검출한 후 오디오 데이터(120)의 제2 세그먼트(122)가 스트리밍 오디오(118)에서 사용자 디바이스(102)에 의해 캡처된 배경 스피치 또는 다른 배경 오디오에 대응하더라도 쿼리-유형 발화를 나타내는 것으로 제2 세그먼트(122)를 식별했을 수 있다. 이 배경 오디오는 스트리밍 오디오(118)에서 캡처될 수 있고 쿼리 프로세서(180)는 쿼리-유형 발화를 식별하고 검색 엔진(190)에 대응하는 쿼리(185)를 제공하여 결과(192)를 얻을 수 있다. 결과(192)는 사용자(10)가 사용자 디바이스(102)를 호출하려고 의도하지 않았음에도 불구하고 사용자 디바이스(102)에 의해 사용자(10)에게 청각적으로 및/또는 시각적으로 출력될 수 있다. 결과적으로, 사용자(10)는 사용자(10)가 결과(192)와 부정적으로 인터렉션했음을 나타내는 네거티브 사용자 인터렉션(162)을 제공할 수 있다. 예를 들어, 사용자(10)는 사용자(10)가 결과와 혼동되었음을 나타내는 음성 입력 또는 사용자(10)가 쿼리를 제공하지 않았다는 진술을 제공할 수 있다. 추가적으로 또는 대안적으로, 사용자(10)는 결과(192)를 무시하라는 지시/명령을 나타내는 입력 표시를 제공할 수 있다.
다른 시나리오에서, 결과(192)는 사용자(10)가 액션을 수행하기 위한 확인을 제공할 필요가 있다는 디바이스(102)로부터의 청각적 출력을 진술하는 디지털 어시스턴트로부터의 프롬프트이며(예: "현재 날씨에 대해 물었습니다. 맞습니까?"), 네거티브 사용자 인터렉션은 사용자(10)가 "아니요, 날씨에 대해 묻지 않았습니다"라고 말하는 것일 수 있다. 유사하게, 결과(192)는 쿼리 프로세서(180)가 쿼리를 확신하지 못하기 때문에 사용자에게 쿼리를 반복하도록 요청하는 프롬프트, 예를 들어 "질문을 이해하지 못했습니다. 반복해 주세요"일 수 있고, 네거티브 사용자 인터렉션은 사용자(10)가 "어?"라고 말함으로써 혼란을 표현하거나, 사용자(10)가 "아무것도 묻지 않았다"라고 말함으로써 확정적으로 프롬프트를 무시하거나, 단순히 사용자가 미리 정해진 시간 내에 응답하지 않는 것일 수 있다. 따라서, 네거티브 사용자 인터렉션(162)은 핫워드가 오디오 데이터(120)의 제1 세그먼트에서 제2 스테이지 핫워드 검출기(220)에 의해 검출되지 않았다는 표시, 오디오 데이터(120)의 제2 세그먼트(122)가 쿼리 유형 발화와 연관되지 않았다는 표시 또는 웨이크업 프로세스가 억제된 후 사용자(10)가 즉각적인 후속 쿼리를 제공하지 않았다는 표시와 같이 위에서 논의된 다른 입력들 중 하나 이상에 더하여 네거티브 핫워드 분류기(300)에 제공될 수 있다.
도 3은 오디오 데이터(120)의 제1 세그먼트(121)가 네거티브 핫워드로 분류되어야 하는지 여부를 결정하기 위한 하나 이상의 입력 피처들(302)을 수신하는 도 1의 네거티브 핫워드 분류기(300)의 예를 도시한다. 네거티브 핫워드 분류기(300)가 오디오의 제1 세그먼트(121)가 하나 이상의 입력 피처들(302)에 기초하여 네거티브 핫워드로 분류되어야 한다고 결정하는 경우, 네거티브 핫워드 분류기(300)는 도 1에서 위에서 논의된 바와 같이 오디오 데이터(120)의 제1 세그먼트(121)를 네거티브 핫워드로 분류함을 나타내는 분류 결과(170)를 생성할 것이다. 네거티브 핫워드 분류기(300)에 의해 수신된 하나 이상의 입력 피처들(302)은 제한 없이, 제2 핫워드 검출기(220)가 오디오 데이터(120)의 제1 세그먼트(121) 및/또는 확률 점수(171)에서 핫워드의 존재를 검출했는지 여부, 즉각적인 후속 쿼리가 사용자 디바이스(102)로부터 수신되었는지 여부, 오디오 데이터(120)의 제2 세그먼트(122)에 제2 세그먼트(122)가 쿼리 유형 발화를 포함하는지 여부를 나타내는 점수(182) 표시가 제공되었는지 여부(예를 들어, 제2 세그먼트(122)가 쿼리 유형 발화를 나타내는지 여부를 나타내는 점수(182)를 제공함으로써), 오디오 데이터(120)의 제1 세그먼트(121) 및/또는 제2 세그먼트(122)의 전사, 및 사용자 디바이스(102)에서 웨이크업 프로세스의 사용자 억제를 나타내는 부정적인 사용자 인터렉션(162)이 수신되었는지 여부 및/또는 사용자(10)가 오디오 데이터(120)의 제2 세그먼트(122)(및/또는 선택적으로 제1 세그먼트(121)를 쿼리 유형 발화로서 프로세싱하는 것에 응답하여 결과(192)와 부정적으로 인터렉션했는지 여부(예를 들어, 쿼리(185)를 검색 엔진(190) 또는 다른 다운스트림 애플리케이션에 제공)를 포함할 수 있다.
일부 입력 피처들(302)은 오디오 데이터(120)의 제1 세그먼트(121)가 네거티브 핫워드로 분류되어야 하는지 여부를 결정할 때 더 많이 가중될 수 있다. 예를 들어, 제1 세그먼트(121)에서 핫워드의 존재를 검출하지 못하는 제2 스테이지 핫워드 검출기(220)는 제1 세그먼트(121)가 제1 스테이지 핫워드 검출기(210)에서 잘못된 수락 인스턴스를 야기한 네거티브 핫워드를 포함한다는 강력한 표시이다. 확률 점수(171)의 크기는 분류 결과(170)를 편향시킬 수 있다. 예를 들어, 확률 점수(171)가 넓은 마진으로 제2 스테이지 핫워드 검출기(220)에서 핫워드 검출 임계값을 만족시키지 못하는 경우, 확률 점수(171)가 작은 마진으로 핫워드 검출 임계값을 충족하지 못한 경우보다 네거티브 핫워드일 더 큰 가능성을 제공한다.
일부 구성에서, 네거티브 핫워드 분류기(300)는 오디오 데이터(120)의 제1 세그먼트(121)가 네거티브 핫워드를 포함할 가능성을 나타내는 네거티브 핫워드 신뢰 점수(304)를 생성하도록 구성되는 (기계 학습을 통해 트레이닝된 신경 네트워크 모델을 포함하는) 트레이닝 분류기를 포함할 수 있다. 분류기(300)는 네거티브 핫워드 신뢰 점수(304)가 신뢰도 임계값을 만족할 때 네거티브 핫워드를 포함하는 것으로 제1 세그먼트(121)를 분류할 수 있다. 네거티브 핫워드 신뢰 점수(304)는 네거티브 핫워드를 포함하는 후속 오디오에서 핫워드 이벤트를 검출하지 않도록 제1 스테이지 핫워드 검출기(210)를 업데이트하는데 사용하기 위해 도 1의 네거티브 핫워드 업데이터(400)에 의해 수신된 분류 결과(170)에 포함될 수 있다. 일부 예에서, 네거티브 핫워드 신뢰 점수(304)는 오디오 데이터(120)의 제1 세그먼트(121)가 네거티브 핫워드를 포함하고 따라서 네거티브 핫워드로 분류되어야 함 또는 제1 세그먼트(121)가 네거티브 핫워드를 포함하지 않는다는 것을 나타내는 이진 점수이다.
도 1 및 도 4를 참조하면, 일부 예에서, 네거티브 핫워드 업데이터(400)는 오디오 데이터(120)의 제1 세그먼트(121)를 포함하는 분류 결과(170)를 사용자 디바이스(102)에 제공함으로써 네거티브 핫워드를 포함하는 후속 오디오 데이터에서 핫워드 이벤트가 트리거되는 것을 방지하기 위해 제1 스테이지 핫워드 검출기(210)를 업데이트한다. 여기서, 사용자 디바이스(102)는 네거티브 핫워드를 포함하는 것으로 분류된 오디오 데이터(120)의 제1 세그먼트(121)를 사용하여 제1 스테이지 핫워드 검출기(210)를 다시 트레이닝하도록 구성될 수 있다. 예를 들어, 오디오 데이터(120)의 제1 세그먼트(121)는 네거티브 핫워드로 라벨링되고 제1 스테이지 핫워드 검출기(210)에 대한 트레이닝 입력으로서 제공될 수 있으므로, 제1 스테이지 핫워드 검출기(210)는 핫워드("Hey Google')의 존재가 네거티브 핫워드('Hey Poodle')를 포함하는 후속 오디오 데이터에서 검출되지 않도록 학습한다. 본 명세서에서 사용되는 바와 같이, 제1 스테이지 핫워드 검출기(210)를 재트레이닝하는 것은 초기에 핫워드 이벤트를 부정확하게 검출한 사용자 디바이스(102)에서 실행되는 기존 핫워드 검출기(210)를 재트레이닝하는 것을 포함할 수 있거나, 나중에 사용자 디바이스(102)에 푸시된 새로운 제1 스테이지 핫워드 검출기(210)를 포함할 수 있다.
더욱이, 제1 스테이지 핫워드 검출기(210)를 업데이트하는 것은 또한 사용자 디바이스(102)가 배터리 구동식 디바이스를 포함하는 경우 DSP(60)(도 2)에서 실행되는 선택적인 초기 코어스 핫워드 검출기(205)를 업데이트하는 것을 포함할 수 있다. 제1 스테이지 핫워드 검출기(210)에서와 같이, 초기 코어스 핫워드 검출기(205)를 업데이트하는 것은 네거티브 핫워드를 포함하는 오디오 데이터에 대한 핫워드 이벤트를 트리거하는 것을 방지하기 위해 초기 코어스 핫워드 검출기(205)를 재트레이닝하는 것을 포함할 수 있다. 일부 예에서, 네거티브 핫워드를 포함하는 후속 오디오 데이터에서 핫워드 이벤트를 트리거하는 것을 방지하기 위해 초기 코어스 핫워드 검출기(205)만 업데이트된다.
도 4에 도시된 바와 같이, 사용자 디바이스(102)에서 실행되는 네거티브 핫워드 업데이터(400)는 대응하는 네거티브 핫워드를 포함하는 것으로 네거티브 핫워드 분류기(300)에 의해 분류된 오디오 데이터(120)의 제1 세그먼트(121)의 각 인스턴스를 메모리 하드웨어(105)에 저장한다. 도시된 예에서, 사용자 디바이스(102)는 오디오 데이터(120)의 제1 세그먼트(121)가 각각의 인스턴스에 대해 대응하는 분류 결과(170)를 저장함으로써 네거티브 핫워드로 분류된 각각의 인스턴스를 저장한다. 여기서, 분류 결과(170)는 네거티브 핫워드를 포함하는 것으로 분류된 제1 세그먼트(121), 제1 세그먼트(121)가 실제 핫워드를 포함할 가능성을 나타내는 확률 점수(171) 및 발화(119)의 전사와 같은 다른 관련 정보(172), 발화(119)를 말한 사용자(10)의 화자 특성을 식별하는 화자 식별 점수(예를 들어, 화자 임베딩), 시간 및/또는 요일을 나타내는 핫워드 이벤트의 타임 스탬프 및 제1 세그먼트(121)를 네거티브 핫워드로 분류하기 위한 신뢰도를 나타내는 네거티브 핫워드 신뢰 점수(304)(도 3)를 포함한다. 도시된 예에서, 사용자 디바이스(102)는 상이한 대응하는 네거티브 핫워드와 각각 연관된 하나 이상의 분류 결과(170)를 저장한다. 예를 들어, 사용자(10)가 말할 때 지정된 핫워드 "Hey Google"과 유사하게 발음되는 네거티브 핫워드 "Poodle", "Doodle" 및 "Noodle" 각각에 대해 하나 이상의 분류 결과(170Aa-n, 170Ba-n, 170Ca-n)가 저장될 수 있다.
일부 구현예에서, 사용자 디바이스(102)는 (네거티브 핫워드 업데이터(400)를 통해) 메모리 하드웨어(105)에 저장된 네거티브 핫워드를 포함하는 것으로 분류된 오디오 데이터(120)의 제1 세그먼트(121)의 인스턴스 수(예를 들어, 분류 결과(170)의 수)의 집계에 기초하여 제1 스테이지 핫워드 검출기(210)를 다시 트레이닝하도록 구성된다. 여기서, 임계 인스턴스 수를 만족하는 동일한 핫워드를 포함하는 것으로 분류된 오디오 데이터의 인스턴스 수는 사용자(10)가 제1 스테이지 핫워드 검출기(210)에 의해 지정된 핫워드로 잘못 검출된 네거티브 핫워드를 규칙적으로 말하고 있다는 패턴을 설정할 수 있다. 일부 예에서, 사용자 디바이스(102)는 점수와 연관된 네거티브 핫워드 신뢰도 점수(304)가 상대적으로 낮은 경우, 예를 들어 네거티브 핫워드 신뢰도 점수(304)가 약간의 마진만으로 임계치를 만족하는 경우, 동일한 용어를 말하는 사용자(10)로부터 특정 수의 거짓 수락 인스턴스들을 요구한다.
도 4를 계속 참조하면, 일부 예에서, 네거티브 핫워드 업데이터(400)는 메모리 하드웨어(105)에 저장된 각각의 분류 결과(170)에 임베딩 표현(12)을 첨부할 수 있다. 여기서, 제1 스테이지 핫워드 검출기(210)는 제1 스테이지 핫워드 검출기(210)에 의해 검출된 핫워드 이벤트를 나타내는 임의의 오디오 데이터에 대한 임베딩 표현(12)을 계산할 수 있고, 오디오 데이터(120)가 이후에 네거티브 핫워드 분류기(300)에 의해 네거티브 핫워드를 포함하는 것으로 분류되는 경우, 네거티브 핫워드 업데이터(400)는 임베딩 표현(12)을 분류 결과(170)의 대응하는 인스턴스에 첨부할 수 있다. 일부 구현예에서, 네거티브 핫워드 업데이터(400)는 각각의 대응하는 네거티브 핫워드에 대한 참조 임베딩(15)을 생성하기 위해 각각의 대응하는 네거티브 핫워드에 대해 메모리 하드웨어(105)에 저장된 임베딩 표현(12)을 집계/평균화한다. 예를 들어, 네거티브 핫워드 "Poodle", "Noodle" 및 "Doodle" 각각에 대해 대응하는 참조 임베딩(15)이 생성될 수 있다.
도 5는 사용자 디바이스(102)가 "My Poodle"이라는 용어를 포함하고 제1 스테이지 핫워드 검출기(210)가 다른 핫워드를 잘못 검출하게 하는 사용자(10)가 말한 다른 발화(519)에 대응하는 후속 오디오 데이터(120)를 캡처하는 예를 도시하는 개략도(500)를 도시한다. 사용자 디바이스(102)에서 실행되는 제1 스테이지 핫워드 검출기(210)는 후속 오디오 데이터(120)(예를 들어, 핫워드 이벤트를 나타내는 후속 오디오 데이터(120)의 부분)에 대한 평가 임베딩 표현(18)을 계산한다. 사용자 디바이스(102)는 네거티브 핫워드들(예를 들어, "Poodle", "Noodle" 및 "Doodle") 중 하나로서 분류된 오디오 데이터(120)의 대응하는 제1 세그먼트(121)의 임베딩 표현(12)을 각각 포함하는 메모리 하드웨어(105)에 저장된 분류 결과(들)(170)에 동시적으로 엑세스할 수 있다. 추가적으로 또는 대안적으로, 사용자 디바이스(102)는 도 4를 참조하여 전술한 바와 같이 네거티브 핫워드들 각각에 대해 생성된 대응하는 참조 임베딩(15)에 액세스할 수 있다.
일부 구현예에서, 점수화기(510)는 후속 오디오 데이터(120)에 대해 계산된 평가 임베딩 표현(18)을 각각의 네거티브 핫워드에 대해 생성되고 저장된 모든 참조 임베딩(15)과 비교한다. 이러한 구현예에서, 각각의 네거티브 핫워드 "Poodle", "Doodle" 및 "Noodle"과 연관된 참조 임베딩 표현(12, 15)은 다른 네거티브 핫워드들과 연관된 참조 임베딩들의 클러스터와 구별되는 임베딩 표현 공간에서 모두 함께 클러스터링된다. 따라서, 점수화기(510)는 네거티브 핫워드 중 임의의 것으로 분류된 오디오 데이터(120)의 각각의 제1 세그먼트(121)에 대해 계산된 참조 임베딩 표현(12)과 후속 오디오 데이터(120)에 대한 평가 임베딩 표현(18) 사이의 유사성 점수(515)를 결정할 수 있다. 추가적으로 또는 대안적으로, 점수화기(510)는 네거티브 핫워드들(예를 들어, "Poodle", "Doodle" 및 "Noodle") 중 대응하는 하나에 대한 집계/평균 임베딩 표현을 나타내는 각각의 대응하는 참조 임베딩 표현(15) 사이의 유사성 점수(515)를 결정할 수 있다. 일부 예에서, 각각의 유사성 점수(515)는 임베딩 표현 공간에서 평가 임베딩 표현(18)과 참조 임베딩 표현(12, 15) 사이의 거리(예를 들어, 코사인 거리)와 연관된다.
점수화기(510)가 유사성 점수(들)(515)를 결정/생성한 후, 분류기(520)는 각각의 유사성 점수(515)를 유사성 점수 임계값과 비교하고, 유사성 점수(515)가 유사성 점수 임계값을 만족하는 경우 후속 오디오 데이터(120)를 네거티브 핫워드를 포함하는 것으로 결정/분류할 수 있다. 일부 예에서, 유사성 점수 임계값은 동일한 네거티브 핫워드와 연관된 임베딩 표현 간의 최대 허용 가능한 코사인 거리를 나타낸다. 일부 시나리오에서, 후속 오디오에 대한 평가 임베딩(18)과 네거티브 핫워드로 분류되는 오디오 데이터(120)의 제1 세그먼트(121)의 각 인스턴스에 대해 계산된 대응하는 참조 임베딩 표현(12) 사이에서 유사성 점수(515)가 계산된 경우, 다수의 유사성 점수(515)는 유사성 점수 임계값을 만족할 수 있다. 예를 들어, 도시된 예에서, 평가 임베딩(18)과 네거티브 핫워드 "Poodle"로 분류된 대응하는 참조 임베딩 표현(12) 사이의 유사성 점수(515)는 유사성 점수 임계값을 만족할 것이고, 평가 임베딩(18)이 네거티브 핫워드 "Poodle"로 분류된 임베딩 표현(12)의 클러스터 내에 그리고 다른 네거티브 핫워드 "Doodle" 및 "Noodle"로 분류된 임베딩 표현(12)의 클러스터 외부에 포함된다고 나타낸다. 따라서, 분류기(520)가 유사성 점수(515)가 유사성 임계값을 만족한다고 결정하면, 분류기(520)는 후속 오디오 데이터(120)가 네거티브 핫워드를 포함한다고 결정한다. 그 결과, 분류기(520)는 제1 스테이지 핫워드 검출기(210)에 후속 오디오 데이터에서 핫워드 이벤트를 검출하지 않도록 지시하거나, 제1 스테이지 핫워드 검출기(210)가 핫워드 이벤트를 확정적으로 잘못 검출하고, 사용자 디바이스에서 웨이크업 프로세스의 개시를 트리거한 경우 사용자 디바이스(102)가 슬립 상태로 되돌아가도록 할 수 있다.
도 6은 핫워드 검출기에 의해 핫워드 검출 거짓 양성의 이전의 인스턴스를 야기한 네거티브 핫워드로서 특정 용어를 분류하는 것에 기초하여 사용자 디바이스에서 핫워드 검출기를 개인화하는 방법(600)에 대한 예시적 동작의 흐름도를 제공한다. 동작(602)에서, 방법(600)은 사용자 디바이스(102)에 의해 캡처된 스트리밍 오디오(118)에서 제1 스테이지 핫워드 검출기(210)에 의해 검출된 핫워드 이벤트를 나타내는 오디오 데이터(120)를 데이터 프로세싱 하드웨어(103, 112)에서 수신하는 단계를 포함한다. 제1 스테이지 핫워드 검출기(210)는 사용자 디바이스(102)의 데이터 프로세싱 하드웨어(103)의 디지털 신호 프로세서(DSP)에서 실행되거나 사용자 디바이스(102)의 데이터 프로세싱 하드웨어(103)의 애플리케이션 프로세서에서 실행될 수 있다.
동작(604)에서, 방법(600)은 또한 상기 데이터 프로세싱 하드웨어(103, 112)에 의해, 제2 스테이지 핫워드 검출기(220)를 사용하여, 상기 오디오 데이터(102)의 제1 세그먼트(121)에서 핫워드가 제2 스테이지 핫워드 검출기(220)에 의해 검출되는지 여부를 결정하기 위해 상기 오디오 데이터(120)를 프로세싱하는 단계를 포함한다. 제2 스테이지 핫워드 검출기(220)는 핫워드가 제1세그먼트(121)에서 인식되는지 여부를 결정하기 위해 자동 스피치 인식을 수행하는 ASR 엔진으로 구현될 수 있다. 제2 스테이지 핫워드 검출기(220)는 다른 구성에서 핫워드 검출 모델로 구현될 수 있으며, 핫워드 검출 모델은 스피치 인식을 수행하지 않고 핫워드가 제1 세그먼트(121)에서 검출되는지 여부를 결정한다.
동작(606)에서, 핫워드가 오디오 데이터(120)의 제1 세그먼트(121)에서 제2 스테이지 핫워드 검출기(220)에 의해 검출되지 않은 경우, 방법(600)은 데이터 프로세싱 하드웨어(103, 112)에 의해, 오디오 데이터(120)의 제1 세그먼트(121)가 제1 스테이지 핫워드 검출기(210)에 의해 스트리밍 오디오(118)에서 핫워드 이벤트의 잘못된 검출을 야기하는 네거티브 핫워드를 포함하는 것으로 분류하는 단계를 포함한다. 동작(608), 상기 방법(600)은 상기 데이터 프로세싱 하드웨어(103, 112)에 의해, 네거티브 핫워드를 포함하는 후속 오디오 데이터(120)에서 핫워드 이벤트를 트리거하는 것을 방지하기 위해 제1 스테이지 핫워드 검출기(210)를 업데이트하는 단계를 포함한다.
소프트웨어 애플리케이션(즉, 소프트웨어 리소스)은 컴퓨팅 디바이스가 작업을 수행하게 하는 컴퓨터 소프트웨어를 지칭할 수 있다. 일부 예에서, 소프트웨어 애플리케이션은 "애플리케이션", "앱" 또는 "프로그램"으로 지칭될 수 있다. 예시적 애플리케이션은 시스템 진단 애플리케이션, 시스템 관리 애플리케이션, 시스템 유지보수 애플리케이션, 워드 프로세싱 애플리케이션, 스프레드시트 애플리케이션, 메시징 애플리케이션, 미디어 스트리밍 애플리케이션, 소셜 네트워킹 애플리케이션 및 게임 애플리케이션을 포함하지만 이에 한정되지는 않는다.
도 7는 본 문서에 기술된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적 컴퓨팅 디바이스(700)의 개략도이다. 컴퓨팅 디바이스(700)는 랩톱, 데스크톱, 워크 스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인 프레임 및 다른 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터들을 나타내기 위한 것이다. 여기에 도시된 컴포넌트들, 그들의 연결 및 관계, 및 그들의 기능은 단지 예시적인 것을 의미하며, 본 명세서에 기술된 및/또는 청구된 발명의 구현을 제한하는 것을 의미하지는 않는다.
컴퓨팅 디바이스(700)는 프로세서(710), 메모리(720), 저장 디바이스(730), 메모리(720) 및 고속 확장 포트(750)에 연결되는 고속 인터페이스/제어기(740) 및 저속 버스(770) 및 저장 디바이스(730)에 연결되는 저속 인터페이스/제어기(760)를 포함한다. 컴포넌트들(710, 720, 730, 740, 750 및 760) 각각은 다양한 버스들을 사용하여 상호 연결되고, 공통 마더 보드 상에 또는 적절한 다른 방식으로 장착될 수 있다. 프로세서(710)(예: 데이터 프로세싱 하드웨어)는 메모리(720)(예 메모리 하드웨어) 또는 저장 디바이스(730)에 저장된 명령어들을 포함하는, 컴퓨팅 디바이스(700) 내에서 실행하기 위한 명령어들을 프로세싱하여, 고속 인터페이스(740)에 연결된 디스플레이(780)와 같은 외부 입/출력 디바이스상에 그래픽 사용자 인터페이스(GUI)에 대한 그래픽 정보를 디스플레이할 수 있다. 다른 구현예에서, 다수의 프로세서들 및/또는 다수의 버스들이 다수의 메모리들 및 다수의 유형의 메모리와 함께, 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들(700)은 필요한 동작의 부분들을 제공하는 각 디바이스와 연결될 수 있다(예를 들어, 서버 뱅크, 블레이드 서버 그룹 또는 멀티 프로세서 시스템). 프로세서(710)는 도 1의 사용자 디바이스(102)에 상주하는 데이터 프로세싱 하드웨어(103) 또는 도 1의 원격 시스템(110)에 상주하는 데이터 프로세싱 하드웨어(112)를 포함할 수 있다.
메모리(720)는 컴퓨팅 디바이스(700) 내에 비일시적으로 정보를 저장한다. 메모리(720)는 도 1의 사용자 디바이스(102)에 상주하는 메모리 하드웨어(105) 또는 도 1의 원격 시스템(110)에 상주하는 메모리 하드웨어(114)를 포함할 수 있다. 메모리(720)는 컴퓨터 판독가능 매체, 휘발성 메모리 유닛(들), 비휘발성 메모리 유닛(들)일 수 있다. 비일시적 메모리(720)는 컴퓨팅 디바이스(700)에 의해 사용하기 위해 일시적 또는 영구적으로 프로그램(예를 들어, 명령어 시퀀스) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는데 사용되는 물리적 디바이스일 수 있다. 비휘발성 메모리의 예는 플래시 메모리 및 읽기 전용 메모리(ROM)/프로그래밍 가능한 읽기 전용 메모리(PROM)/지울 수 있는 프로그램 가능한 읽기 전용 메모리(EPROM)/전자적으로 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EEPROM)(예: 일반적으로 부팅 프로그램과 같은 펌웨어에 사용됨)를 포함하지만, 이에 한정되지 않는다. 휘발성 메모리의 예는 RAM(Random Access Memory), DRAM(Dynamic Random Access Memory), SRAM(Static Random Access Memory), PCM(Phase Change Memory), 디스크 또는 테이프 등을 포함하지만, 이에 한정되지 않는다.
저장 디바이스(730)는 컴퓨팅 디바이스(700)에 대한 대형 스토리지를 제공할 수 있다. 일부 구현예에서, 저장 디바이스(730)는 컴퓨터 판독가능 매체이다. 다양한 상이한 구현예에서, 저장 디바이스(730)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스 또는 테이프 디바이스, 플래시 메모리 또는 다른 유사한 고체 상태 메모리 디바이스, 또는 저장 영역 네트워크 또는 다른 구성의 디바이스를 포함하는 디바이스의 어레이일 수 있다. 일 구현예에서, 컴퓨터 프로그램 제품은 정보 캐리어에 유형적으로 수록된다. 컴퓨터 프로그램 제품은 또한 실행될 때 상기 기술된 바와 같은 하나 이상의 방법을 수행하는 명령어들을 포함한다. 정보 캐리어는 메모리(720), 저장 디바이스(730) 또는 프로세서(710)상의 메모리와 같은 컴퓨터 또는 기계 판독가능 매체이다.
고속 제어기(740)는 컴퓨팅 디바이스(700)에 대한 대역폭 집중 동작들을 관리하는 반면, 저속 제어기(760)는 낮은 대역폭 집중 동작들을 관리한다. 이러한 기능들의 할당은 단지 예시적인 것이다. 일부 구현예에서, 고속 제어기(740)는 메모리(720), 디스플레이(780)(예를 들어, 그래픽 프로세서 또는 가속기를 통해) 및 다양한 확장 카드(도시되지 않음)를 수용할 수 있는 고속 확장 포트(750)에 연결된다. 일부 구현예에서, 저속 제어기(760)는 저장 디바이스(730) 및 저속 확장 포트(790)에 연결된다. 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트(790)는 키보드, 포인팅 디바이스, 스캐너와 같은 하나 이상의 입력/출력 디바이스 또는 예를 들어 네트워크 어댑터를 통해 스위치 또는 라우터와 같은 네트워킹 디바이스에 결합될 수 있다.
컴퓨팅 디바이스(700)는 도면에 도시된 바와 같이 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 표준 서버(700a)로서 또는 그러한 서버(700a)의 그룹에서 여러 번, 랩톱 컴퓨터(700b)로서 또는 랙 서버 시스템(700c)의 일부로서 구현될 수 있다.
본 명세서에 기술된 시스템들 및 기법들의 다양한 구현예들은 디지털 전자 및/또는 광학 회로, 집적 회로, 특수하게 설계된 ASIC들(application specific integrated circuits), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 구현될 수 있다. 이들 다양한 구현예들은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템 상에서 실행가능하고 및/또는 인터프리트가능한 하나 이상의 컴퓨터 프로그램들에서의 구현예를 포함할 수 있고, 이는 전용 또는 범용일 수 있고, 저장 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하고 그에 데이터 및 명령어들을 전송하기 위해 연결될 수 있다.
이들 컴퓨터 프로그램들(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로도 알려짐)은 프로그래머블 프로세서에 대한 기계 명령어들을 포함하며, 하이레벨 절차어 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계어에서 구현될 수 있다. 본 명세서에서 사용된 바와 같이, 용어 "기계 판독가능 매체", "컴퓨터 판독가능 매체"는 기계 판독가능 신호로서 기계 명령어들을 수신하는 기계 판독가능 매체를 포함하여, 기계 명령어들 및/또는 데이터를 프로그래머블 프로세서에 제공하는데 사용되는 임의의 컴퓨터 프로그램 물, 장치 및/또는 디바이스 예를 들어, 자기 디스크, 광학 디스크, 메모리, 비일시적 컴퓨터 판독가능 매체, 프로그래머블 로직 디바이스(PLD)를 지칭한다. 용어 "기계 판독가능 신호"는 기계 명령어들 및/또는 데이터를 프로그래머블 프로세서에 제공하는데 사용되는 임의의 신호를 지칭한다.
본 명세서에 기술된 프로세스들 및 논리 흐름들은 입력 데이터를 동작하고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 데이터 프로세싱 하드웨어로도 지칭되는 하나 이상의 프로그래머블 프로세서들에 의해 수행될 수 있다. 프로세스들 및 논리 흐름들은 또한 FPGA 또는 ASIC와 같은 특수 목적 논리 회로에 의해 수행될 수 있다. 컴퓨터 프로그램의 실행에 적절한 프로세서들은, 예시로서, 범용 및 전용 마이크로프로세서들과 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 읽기-전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 엘리먼트들은 명령어들을 수행하기 위한 프로세서 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대형 저장 디바이스들 예를 들면, 자기적, 자기-광학 디스크들 또는 광학적 디스크들 또한 포함하거나 또는 그로부터 데이터를 수신하거나 그에 데이터를 전송하기 위해 동작적으로 결합될 수 있다. 그러나, 컴퓨터는 상기 디바이스들을 반드시 가져야 하는 것은 아니다. 컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독가능 매체는 예를 들어, EPROM, EEPROM 및 플래시 메모리 디바이스들과 같은 반도체 메모리 디바이스들; 예를 들어, 내부 하드 디스크들 또는 이동식 디스크들과 같은 자기 디스크들; 및 CD-ROM 및 DVD-ROM 디스크들을 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스들을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보충되거나 그 안에 통합될 수 있다.
사용자와의 인터렉션을 제공하기 위해, 본 개시의 하나 이상의 양태는 사용자에게 정보를 디스플레이하기 위해 예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터 또는 터치 스크린과 같은 디스플레이 디바이스 및 선택적으로 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스 예를 들어, 마우스 또는 트랙볼을 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스들도 사용자와의 인터렉션을 제공하는데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각적 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 추가로, 컴퓨터는 사용자에 의해 사용되는 디바이스에 문서를 송수신함으로써 예를 들어, 웹브라우저로부터 수신된 요청에 응답하여, 사용자의 사용자 디바이스상의 웹브라우저에 웹페이지를 전송함으로써 사용자와 인터렉션할 수 있다.
다수의 구현예들이 기술되었다. 그럼에도 불구하고, 다양한 수정들이 본 발명의 정신과 범위로부터 벗어나지 않고 이루어질 수 있다는 것이 이해될 것이다. 따라서, 다른 구현예들도 다음의 청구항들의 범위 내에 있다.

Claims (30)

  1. 데이터 프로세싱 하드웨어(710)에서 실행될 때 상기 데이터 프로세싱 하드웨어(710)로 하여금 단계들을 수행하게 하는 컴퓨터로 구현되는 방법(600)으로서,
    사용자 디바이스(102)에 의해 캡처된 스트리밍 오디오(118)에서 제1 스테이지 핫워드 검출기(210)에 의해 검출된 핫워드 이벤트를 나타내는 오디오 데이터(120)를 수신하는 단계;
    제2 스테이지 핫워드 검출기(220)를 사용하여, 상기 오디오 데이터(120)의 제1 세그먼트(121)에서 핫워드가 상기 제2 스테이지 핫워드 검출기(220)에 의해 검출되는지 여부를 결정하기 위해 상기 오디오 데이터(120)를 프로세싱하는 단계; 및
    상기 오디오 데이터(120)의 제1 세그먼트(121)에서 상기 핫워드가 상기 제2 스테이지 핫워드 검출기(220)에 의해 검출되지 않는 경우:
    상기 오디오 데이터(120)의 제1 세그먼트(121)가 상기 제1 스테이지 핫워드 검출기(210)에 의해 상기 스트리밍 오디오(118)에서 핫워드 이벤트의 잘못된 검출을 야기한 네거티브 핫워드를 포함하는 것으로 분류하는 단계; 및
    상기 오디오 데이터(120)의 제1 세그먼트(121)가 상기 네거티브 핫워드를 포함하는 것으로 분류되는 것에 기초하여, 상기 네거티브 핫워드를 포함하는 후속 오디오 데이터(120)에서 상기 핫워드 이벤트를 트리거하는 것을 방지하기 위해 상기 제1 스테이지 핫워드 검출기를 업데이트하는 단계를 포함하는, 방법.
  2. 청구항 1에 있어서, 상기 오디오 데이터(120)의 제1 세그먼트(121)에서 상기 핫워드가 상기 제2 스테이지 핫워드 검출기(220)에 의해 검출되지 않는 경우:
    상기 핫워드 및/또는 상기 스트리밍 오디오(118)에서 상기 핫워드를 뒤따르는 하나 이상의 다른 용어들을 프로세싱하기 위한 웨이크업 프로세스를 사용자 디바이스(102)에서 억제하는 단계; 및
    상기 사용자 디바이스(102)에서 상기 웨이크업 프로세스를 억제한 후, 상기 사용자 디바이스(102)의 사용자에 의해 즉각적인 후속 쿼리가 제공되었는지 여부를 결정하는 단계를 더 포함하며,
    상기 오디오 데이터(120)의 제1 세그먼트(121)가 상기 네거티브 핫워드를 포함하는 것으로 분류하는 단계는 상기 웨이크업 프로세스를 억제한 후 상기 사용자 디바이스(102)의 사용자에 의해 후속 쿼리가 제공되지 않았다는 결정에 추가로 기초하는, 방법.
  3. 청구항 1 또는 2에 있어서, 상기 오디오 데이터(120)의 제1 세그먼트(121)에서 상기 핫워드가 상기 제2 스테이지 핫워드 검출기(220)에 의해 검출되지 경우:
    상기 오디오 데이터(120)의 제2 세그먼트(122)가 음성 쿼리-유형 발화를 나타내는지 여부를 결정하기 위해 상기 오디오 데이터(120)의 제1 세그먼트(121)를 뒤따르는 상기 오디오 데이터(120)의 제2 세그먼트(122)를 프로세싱하는 단계; 및
    상기 오디오 데이터(120)의 제2 오디오 세그먼트가 상기 음성 쿼리-유형 발화를 나타내지 않는 경우:
    상기 오디오 데이터(120)의 제1 세그먼트(121)가 상기 네거티브 핫워드를 포함하는 것으로 분류하는 단계; 및
    상기 오디오 데이터(120)의 제1 세그먼트(121)가 상기 네거티브 핫워드를 포함하는 것으로 분류하는 것에 기초하여, 상기 네거티브 핫워드를 포함하는 후속 오디오 데이터(120)에서 상기 핫워드 이벤트를 트리거하는 것을 방지하기 위해 상기 제1 스테이지 핫워드 검출기(210)를 업데이트하는 단계를 더 포함하는, 방법.
  4. 청구항 3에 있어서, 상기 오디오 데이터(120)의 제2 오디오 세그먼트가 상기 음성 쿼리-유형 발화를 나타내지 않는 경우:
    즉각적인 후속 쿼리가 상기 사용자 디바이스(102)의 사용자에 의해 제공되었는지 여부를 결정하는 단계를 더 포함하며,
    상기 오디오 데이터(120)의 제1 세그먼트(121)가 상기 네거티브 핫워드를 포함하는 것으로 분류하는 단계는 상기 사용자 디바이스(102)의 사용자에 의해 후속 쿼리가 제공되지 않았다는 결정에 추가로 기초하는, 방법.
  5. 청구항 3 또는 4에 있어서, 상기 오디오 데이터(120)의 제2 오디오 세그먼트가 상기 음성 쿼리-유형 발화를 나타내는 경우:
    상기 사용자 디바이스(102)의 사용자가 상기 사용자 디바이스(102)에 제공된 음성 쿼리-유형 발화에 대한 결과(192)와 부정적으로 인터렉션했음을 나타내는 네거티브 인터렉션 결과(162)를 수신하는 단계;
    상기 수신된 네거티브 인터렉션 결과(162)에 기초하여, 상기 오디오 데이터(120)의 제1 세그먼트(121)가 네거티브 핫워드를 포함하는 것으로 분류하는 단계; 및
    상기 오디오 데이터(120)의 제1 세그먼트(121)가 상기 네거티브 핫워드를 포함하는 것으로 분류되는 것에 기초하여, 상기 네거티브 핫워드를 포함하는 후속 오디오 데이터(120)에서 상기 핫워드 이벤트를 검출하는 것을 방지하기 위해 상기 제1 스테이지 핫워드 검출기를 업데이트하는 단계를 더 포함하는, 방법.
  6. 청구항 1 내지 5 중 어느 한 항에 있어서, 상기 제1 스테이지 핫워드 검출기(210)에 의해 검출된 핫워드 이벤트를 나타내는 상기 오디오 데이터(120)를 수신한 후에:
    상기 사용자 디바이스(102)에서 웨이크업 프로세스의 사용자 억제를 나타내는 네거티브 사용자 인터렉션(162)을 수신하는 단계를 더 포함하고,
    상기 오디오 데이터(120)의 제1 세그먼트(121)가 상기 네거티브 핫워드를 포함하는 것으로 분류하는 단계는 상기 웨이크업 프로세스의 사용자 억제를 나타내는 네거티브 사용자 인터렉션(162)에 더 기초하는, 방법.
  7. 청구항 1 내지 6 중 어느 한 항에 있어서, 후속 오디오 데이터(120)에서 핫워드 이벤트를 트리거하는 것을 방지하기 위해 제1 스테이지 핫워드 검출기(210)를 업데이트하는 단계는 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터(120)의 제1 세그먼트(121)를 상기 사용자 디바이스(102)에 제공하는 단계를 포함하며, 상기 사용자 디바이스(102)는 상기 네거티브 핫워드를 포함하는 것으로 분류된 오디오 데이터(120)의 제1 세그먼트(121)를 사용하여 제1 스테이지 핫워드 검출기(210)를 다시 트레이닝하도록 구성되는, 방법.
  8. 청구항 7에 있어서, 상기 사용자 디바이스(102)는:
    상기 사용자 디바이스(102)의 메모리 하드웨어(720)에, 상기 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터(120)의 제1 세그먼트(121)의 각 인스턴스를 상기 사용자 디바이스(102)의 메모리 하드웨어(720)에 저장하고; 그리고
    상기 메모리 하드웨어(720)에 저장된 상기 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터(120)의 제1 세그먼트(121)의 인스턴스들의 수의 집계에 기초하여 상기 제1 스테이지 핫워드 검출기(210)를 다시 트레이닝함으로써 상기 제1 스테이지 핫워드 검출기(210)를 다시 트레이닝하도록 구성되는, 방법.
  9. 청구항 8에 있어서, 상기 사용자 디바이스(102)는 상기 제1 스테이지 핫워드 검출기(210)를 다시 트레이닝하기 전에:
    상기 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터(120)의 제1 세그먼트(121)의 각각의 인스턴스와 연관된 대응하는 신뢰도 점수가 네거티브 핫워드 임계 점수를 만족하지 못한다고 결정하고; 그리고
    상기 인스턴스들의 수가 인스턴스들의 임계수를 초과하는지 결정하도록 구성되는, 방법.
  10. 청구항 1 내지 9 중 어느 한 항에 있어서,
    후속 오디오 데이터(120)에서 핫워드 이벤트를 트리거하는 것을 방지하기 위해 상기 제1 스테이지 핫워드 검출기(210)를 업데이트하는 단계는 상기 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터(120)의 제1 세그먼트(121)를 상기 사용자 디바이스(102)에 제공하는 단계를 포함하고, 사용자 디바이스(102)는:
    상기 오디오 데이터(120)의 제1 세그먼트(121)의 임베딩 표현(12)을 획득하고; 그리고
    상기 오디오 데이터(120)의 제1 세그먼트(121)의 임베딩 표현(12)을 상기 사용자 디바이스(102)의 메모리 하드웨어(720)에 저장하도록 구성되며; 그리고
    사용자 디바이스(102)는 제1 스테이지 핫워드 검출기(210)에 의해 검출된 핫워드 이벤트를 나타내는 후속 오디오 데이터(120)가 네거티브 핫워드를 포함하는 경우를:
    상기 후속 오디오 데이터(120)에 대한 평가 임베딩 표현(18)을 계산하고;
    상기 네거티브 핫워드로 분류된 상기 오디오 데이터(120)의 제1 세그먼트(121)의 임베딩 표현(12)과 상기 후속 오디오 데이터(120)에 대한 평가 임베딩 표현(18) 사이의 유사성 점수(515)를 결정하고; 그리고
    상기 유사성 점수(515)가 유사성 점수 임계값을 만족하는 경우, 상기 후속 오디오 데이터(120)가 상기 네거티브 핫워드를 포함한다고 결정함으로써 결정하도록 구성되는, 방법.
  11. 청구항 1 내지 10 중 어느 한 항에 있어서,
    상기 데이터 프로세싱 하드웨어(710)는 상기 데이터 프로세싱 하드웨어(710)와 통신하는 서버(110)에 상주하고; 그리고
    상기 제1 스테이지 핫워드 검출기(210)는 상기 사용자 디바이스(102)의 프로세서에서 실행되는, 방법.
  12. 청구항 11에 있어서, 상기 오디오 데이터(120)의 제1 세그먼트(121)에서 핫워드가 제2 스테이지 핫워드 검출기(220)에 의해 검출되는지 여부를 결정하기 위해 상기 오디오 데이터(120)를 프로세싱하는 단계는 상기 오디오 데이터(120)의 제1 세그먼트(121)에서 상기 핫워드가 인식되는지 여부를 결정하기 위해 자동 스피치 인식을 수행하는 단계를 포함하는, 방법.
  13. 청구항 1 내지 10 중 어느 한 항에 있어서, 상기 데이터 프로세싱 하드웨어(112)는 사용자 디바이스(102)에 상주하는, 방법.
  14. 청구항 13에 있어서,
    상기 제1 스테이지 핫워드 검출기(210)는 데이터 프로세싱 하드웨어(710)의 디지털 신호 프로세서(DSP)(60)에서 실행되고; 그리고
    상기 제2 스테이지 핫워드 검출기(220)는 데이터 프로세싱 하드웨어(710)의 애플리케이션 프로세서(70)에서 실행되는, 방법.
  15. 청구항 1 내지 14 중 어느 한 항에 있어서, 상기 제1 스테이지 핫워드 검출기(210)는:
    상기 사용자 디바이스(102)에 의해 캡처된 스트리밍 오디오(118)의 오디오 피처들에서 핫워드의 존재를 나타내는 확률 점수(171)를 생성하고; 그리고
    상기 확률 점수(171)가 제1 스테이지 핫워드 검출기(210)의 핫워드 검출 임계값을 만족하는 경우 스트리밍 오디오(118)에서 핫워드 이벤트를 검출하도록 구성되는, 방법.
  16. 시스템(100)으로서,
    데이터 프로세싱 하드웨어(710); 및
    상기 데이터 프로세싱 하드웨어(710)와 통신하는 메모리 하드웨어(720)를 포함하며, 상기 메모리 하드웨어(720)는 상기 데이터 프로세싱 하드웨어(710)에 의해 실행될 때 상기 데이터 프로세싱 하드웨어(710)로 하여금 동작들을 수행하게 하는 명령어들을 저장하며, 상기 동작들은:
    제2 스테이지 핫워드 검출기(220)를 사용하여, 상기 오디오 데이터(120)의 제1 세그먼트(121)에서 핫워드가 상기 제2 스테이지 핫워드 검출기(220)에 의해 검출되는지 여부를 결정하기 위해 상기 오디오 데이터(120)를 프로세싱하는 동작; 및
    상기 오디오 데이터(120)의 제1 세그먼트(121)에서 상기 핫워드가 상기 제2 스테이지 핫워드 검출기(220)에 의해 검출되지 않는 경우:
    상기 데이터 프로세싱 하드웨어(710)에 의해, 상기 오디오 데이터(120)의 제1 세그먼트(121)가 상기 제1 스테이지 핫워드 검출기(210)에 의해 상기 스트리밍 오디오(118)에서 핫워드 이벤트의 잘못된 검출을 야기한 네거티브 핫워드를 포함하는 것으로 분류하는 동작; 및
    상기 오디오 데이터(120)의 제1 세그먼트(121)가 상기 네거티브 핫워드를 포함하는 것으로 분류되는 것에 기초하여, 상기 데이터 프로세싱 하드웨어(710)에 의해, 상기 네거티브 핫워드를 포함하는 후속 오디오 데이터(120)에서 상기 핫워드 이벤트를 트리거하는 것을 방지하기 위해 상기 제1 스테이지 핫워드 검출기를 업데이트하는 동작을 포함하는, 시스템.
  17. 청구항 16에 있어서, 상기 오디오 데이터(120)의 제1 세그먼트(121)에서 상기 핫워드가 상기 제2 스테이지 핫워드 검출기(220)에 의해 검출되지 않는 경우:
    상기 핫워드 및/또는 상기 스트리밍 오디오(118)에서 상기 핫워드를 뒤따르는 하나 이상의 다른 용어들을 프로세싱하기 위한 웨이크업 프로세스를 사용자 디바이스(102)에서 억제하는 동작; 및
    상기 사용자 디바이스(102)에서 상기 웨이크업 프로세스를 억제한 후, 상기 사용자 디바이스(102)의 사용자에 의해 즉각적인 후속 쿼리가 제공되었는지 여부를 결정하는 동작을 더 포함하며,
    상기 오디오 데이터(120)의 제1 세그먼트(121)가 상기 네거티브 핫워드를 포함하는 것으로 분류하는 동작은 상기 웨이크업 프로세스를 억제한 후 상기 사용자 디바이스(102)의 사용자에 의해 후속 쿼리가 제공되지 않았다는 결정에 추가로 기초하는, 시스템.
  18. 청구항 16 또는 17에 있어서, 상기 오디오 데이터(120)의 제1 세그먼트(121)에서 상기 핫워드가 상기 제2 스테이지 핫워드 검출기(220)에 의해 검출되지 경우:
    상기 오디오 데이터(120)의 제2 세그먼트(122)가 음성 쿼리-유형 발화를 나타내는지 여부를 결정하기 위해 상기 오디오 데이터(120)의 제1 세그먼트(121)를 뒤따르는 상기 오디오 데이터(120)의 제2 세그먼트(122)를 프로세싱하는 동작; 및
    상기 오디오 데이터(120)의 제2 오디오 세그먼트가 상기 음성 쿼리-유형 발화를 나타내지 않는 경우:
    상기 오디오 데이터(120)의 제1 세그먼트(121)가 상기 네거티브 핫워드를 포함하는 것으로 분류하는 동작; 및
    상기 오디오 데이터(120)의 제1 세그먼트(121)가 상기 네거티브 핫워드를 포함하는 것으로 분류하는 것에 기초하여, 상기 네거티브 핫워드를 포함하는 후속 오디오 데이터(120)에서 상기 핫워드 이벤트를 트리거하는 것을 방지하기 위해 상기 제1 스테이지 핫워드 검출기(210)를 업데이트하는 동작을 더 포함하는, 시스템.
  19. 청구항 18에 있어서, 상기 오디오 데이터(120)의 제2 오디오 세그먼트가 상기 음성 쿼리-유형 발화를 나타내지 않는 경우:
    즉각적인 후속 쿼리가 상기 사용자 디바이스(102)의 사용자에 의해 제공되었는지 여부를 결정하는 동작을 더 포함하며,
    상기 오디오 데이터(120)의 제1 세그먼트(121)가 상기 네거티브 핫워드를 포함하는 것으로 분류하는 동작은 상기 사용자 디바이스(102)의 사용자에 의해 후속 쿼리가 제공되지 않았다는 결정에 추가로 기초하는, 시스템.
  20. 청구항 18 또는 19에 있어서, 상기 오디오 데이터(120)의 제2 오디오 세그먼트가 상기 음성 쿼리-유형 발화를 나타내는 경우:
    상기 사용자 디바이스(102)의 사용자가 상기 사용자 디바이스(102)에 제공된 음성 쿼리-유형 발화에 대한 결과(192)와 부정적으로 인터렉션했음을 나타내는 네거티브 인터렉션 결과(162)를 수신하는 동작;
    상기 수신된 네거티브 인터렉션 결과(162)에 기초하여, 상기 오디오 데이터(120)의 제1 세그먼트(121)가 네거티브 핫워드를 포함하는 것으로 분류하는 동작; 및
    상기 오디오 데이터(120)의 제1 세그먼트(121)가 상기 네거티브 핫워드를 포함하는 것으로 분류되는 것에 기초하여, 상기 네거티브 핫워드를 포함하는 후속 오디오 데이터(120)에서 상기 핫워드 이벤트를 검출하는 것을 방지하기 위해 상기 제1 스테이지 핫워드 검출기를 업데이트하는 동작을 더 포함하는, 시스템.
  21. 청구항 16 내지 20 중 어느 한 항에 있어서, 상기 제1 스테이지 핫워드 검출기(210)에 의해 검출된 핫워드 이벤트를 나타내는 상기 오디오 데이터(120)를 수신한 후에:
    상기 사용자 디바이스(102)에서 웨이크업 프로세스의 사용자 억제를 나타내는 네거티브 사용자 인터렉션(162)을 수신하는 동작을 더 포함하고,
    상기 오디오 데이터(120)의 제1 세그먼트(121)가 상기 네거티브 핫워드를 포함하는 것으로 분류하는 동작은 상기 웨이크업 프로세스의 사용자 억제를 나타내는 네거티브 사용자 인터렉션(162)에 더 기초하는, 시스템.
  22. 청구항 16 내지 21 중 어느 한 항에 있어서, 후속 오디오 데이터(120)에서 핫워드 이벤트를 트리거하는 것을 방지하기 위해 제1 스테이지 핫워드 검출기(210)를 업데이트하는 동작은 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터(120)의 제1 세그먼트(121)를 상기 사용자 디바이스(102)에 제공하는 동작을 포함하며, 상기 사용자 디바이스(102)는 상기 네거티브 핫워드를 포함하는 것으로 분류된 오디오 데이터(120)의 제1 세그먼트(121)를 사용하여 제1 스테이지 핫워드 검출기(210)를 다시 트레이닝하도록 구성되는, 시스템.
  23. 청구항 22에 있어서, 상기 사용자 디바이스(102)는:
    상기 사용자 디바이스(102)의 메모리 하드웨어(720)에, 상기 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터(120)의 제1 세그먼트(121)의 각 인스턴스를 상기 사용자 디바이스(102)의 메모리 하드웨어(720)에 저장하고; 그리고
    상기 메모리 하드웨어(720)에 저장된 상기 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터(120)의 제1 세그먼트(121)의 인스턴스들의 수의 집계에 기초하여 상기 제1 스테이지 핫워드 검출기(210)를 다시 트레이닝함으로써 상기 제1 스테이지 핫워드 검출기(210)를 다시 트레이닝하도록 구성되는, 시스템.
  24. 청구항 23에 있어서, 상기 사용자 디바이스(102)는 상기 제1 스테이지 핫워드 검출기(210)를 다시 트레이닝하기 전에:
    상기 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터(120)의 제1 세그먼트(121)의 각각의 인스턴스와 연관된 대응하는 신뢰도 점수가 네거티브 핫워드 임계 점수를 만족하지 못한다고 결정하고; 그리고
    상기 인스턴스들의 수가 인스턴스들의 임계수를 초과하는지 결정하도록 구성되는, 시스템.
  25. 청구항 16 내지 24 중 어느 한 항에 있어서,
    후속 오디오 데이터(120)에서 핫워드 이벤트를 트리거하는 것을 방지하기 위해 상기 제1 스테이지 핫워드 검출기(210)를 업데이트하는 동작은 상기 네거티브 핫워드를 포함하는 것으로 분류된 상기 오디오 데이터(120)의 제1 세그먼트(121)를 상기 사용자 디바이스(102)에 제공하는 동작을 포함하고, 사용자 디바이스(102)는:
    상기 오디오 데이터(120)의 제1 세그먼트(121)의 임베딩 표현(12)을 획득하고; 그리고
    상기 오디오 데이터(120)의 제1 세그먼트(121)의 임베딩 표현(12)을 상기 사용자 디바이스(102)의 메모리 하드웨어(720)에 저장하도록 구성되며; 그리고
    사용자 디바이스(102)는 제1 스테이지 핫워드 검출기(210)에 의해 검출된 핫워드 이벤트를 나타내는 후속 오디오 데이터(120)가 네거티브 핫워드를 포함하는 경우를:
    상기 후속 오디오 데이터(120)에 대한 평가 임베딩 표현(18)을 계산하고;
    상기 네거티브 핫워드로 분류된 상기 오디오 데이터(120)의 제1 세그먼트(121)의 임베딩 표현(12)과 상기 후속 오디오 데이터(120)에 대한 평가 임베딩 표현(18) 사이의 유사성 점수(515)를 결정하고; 그리고
    상기 유사성 점수(515)가 유사성 점수 임계값을 만족하는 경우, 상기 후속 오디오 데이터(120)가 상기 네거티브 핫워드를 포함한다고 결정함으로써 결정하도록 구성되는, 시스템.
  26. 청구항 16 내지 25 중 어느 한 항에 있어서,
    상기 데이터 프로세싱 하드웨어(710)는 상기 데이터 프로세싱 하드웨어(710)와 통신하는 서버(110)에 상주하고; 그리고
    상기 제1 스테이지 핫워드 검출기(210)는 상기 사용자 디바이스(102)의 프로세서에서 실행되는, 시스템.
  27. 청구항 26에 있어서, 상기 오디오 데이터(120)의 제1 세그먼트(121)에서 핫워드가 제2 스테이지 핫워드 검출기(220)에 의해 검출되는지 여부를 결정하기 위해 상기 오디오 데이터(120)를 프로세싱하는 동작은 상기 오디오 데이터(120)의 제1 세그먼트(121)에서 상기 핫워드가 인식되는지 여부를 결정하기 위해 자동 스피치 인식을 수행하는 동작을 포함하는, 시스템.
  28. 청구항 16 내지 25 중 어느 한 항에 있어서, 상기 데이터 프로세싱 하드웨어(112)는 사용자 디바이스(102)에 상주하는, 시스템.
  29. 청구항 28에 있어서,
    상기 제1 스테이지 핫워드 검출기(210)는 데이터 프로세싱 하드웨어(710)의 디지털 신호 프로세서(DSP)(60)에서 실행되고; 그리고
    상기 제2 스테이지 핫워드 검출기(220)는 데이터 프로세싱 하드웨어(710)의 애플리케이션 프로세서(70)에서 실행되는, 시스템.
  30. 청구항 16 내지 29 중 어느 한 항에 있어서, 상기 제1 스테이지 핫워드 검출기(210)는:
    상기 사용자 디바이스(102)에 의해 캡처된 스트리밍 오디오(118)의 오디오 피처들에서 핫워드의 존재를 나타내는 확률 점수(171)를 생성하고; 그리고
    상기 확률 점수(171)가 제1 스테이지 핫워드 검출기의 핫워드 검출 임계값을 만족하는 경우 스트리밍 오디오(118)에서 핫워드 이벤트를 검출하도록 구성되는, 시스템.
KR1020237019747A 2020-11-20 2021-11-11 개인화된 네거티브에 기초한 핫워드 인식 적응 KR20230104712A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/953,510 2020-11-20
US16/953,510 US11749267B2 (en) 2020-11-20 2020-11-20 Adapting hotword recognition based on personalized negatives
PCT/US2021/059039 WO2022108830A1 (en) 2020-11-20 2021-11-11 Adapting hotword recognition based on personalized negatives

Publications (1)

Publication Number Publication Date
KR20230104712A true KR20230104712A (ko) 2023-07-10

Family

ID=78828215

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237019747A KR20230104712A (ko) 2020-11-20 2021-11-11 개인화된 네거티브에 기초한 핫워드 인식 적응

Country Status (6)

Country Link
US (2) US11749267B2 (ko)
EP (1) EP4226363A1 (ko)
JP (1) JP2023550135A (ko)
KR (1) KR20230104712A (ko)
CN (1) CN116648743A (ko)
WO (1) WO2022108830A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284508B (zh) * 2021-07-21 2021-11-09 中国科学院自动化研究所 基于层级区分的生成音频检测系统
CN115273832B (zh) * 2022-09-22 2023-02-28 深圳市友杰智新科技有限公司 唤醒优化模型的训练方法、唤醒优化的方法和相关设备
CN115547337B (zh) * 2022-11-25 2023-03-03 深圳市人马互动科技有限公司 语音识别方法及相关产品

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2700071B1 (en) * 2011-04-20 2014-12-24 Robert Bosch GmbH Speech recognition using multiple language models
US8768707B2 (en) * 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9443198B1 (en) * 2014-02-27 2016-09-13 Amazon Technologies, Inc. Low latency cascade-based detection system
US9418656B2 (en) * 2014-10-29 2016-08-16 Google Inc. Multi-stage hotword detection
US9600231B1 (en) 2015-03-13 2017-03-21 Amazon Technologies, Inc. Model shrinking for embedded keyword spotting
US9443517B1 (en) * 2015-05-12 2016-09-13 Google Inc. Generating sounds for detectability by neural networks
FI128000B (en) 2015-12-22 2019-07-15 Code Q Oy Speech recognition method and device based on a wake up word
ES2806204T3 (es) * 2016-06-15 2021-02-16 Cerence Operating Co Técnicas para reconomiento de voz para activación y sistemas y métodos relacionados
US9728188B1 (en) * 2016-06-28 2017-08-08 Amazon Technologies, Inc. Methods and devices for ignoring similar audio being received by a system
US10311876B2 (en) * 2017-02-14 2019-06-04 Google Llc Server side hotwording
US10074371B1 (en) * 2017-03-14 2018-09-11 Amazon Technologies, Inc. Voice control of remote device by disabling wakeword detection
US10204624B1 (en) * 2017-08-14 2019-02-12 Lenovo (Singapore) Pte. Ltd. False positive wake word
EP3564949A1 (en) * 2018-04-23 2019-11-06 Spotify AB Activation trigger processing
US10872599B1 (en) * 2018-06-28 2020-12-22 Amazon Technologies, Inc. Wakeword training
US11232788B2 (en) * 2018-12-10 2022-01-25 Amazon Technologies, Inc. Wakeword detection
US11152001B2 (en) * 2018-12-20 2021-10-19 Synaptics Incorporated Vision-based presence-aware voice-enabled device
US10586540B1 (en) * 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11610578B2 (en) * 2020-06-10 2023-03-21 Google Llc Automatic hotword threshold tuning

Also Published As

Publication number Publication date
CN116648743A (zh) 2023-08-25
EP4226363A1 (en) 2023-08-16
US11749267B2 (en) 2023-09-05
WO2022108830A1 (en) 2022-05-27
US20230386468A1 (en) 2023-11-30
US20220165277A1 (en) 2022-05-26
JP2023550135A (ja) 2023-11-30

Similar Documents

Publication Publication Date Title
US12051408B2 (en) Promoting voice actions to hotwords
US10269346B2 (en) Multiple speech locale-specific hotword classifiers for selection of a speech locale
US11741953B2 (en) Using corrections, of automated assistant functions, for training of on-device machine learning models
KR20230104712A (ko) 개인화된 네거티브에 기초한 핫워드 인식 적응
JP7516571B2 (ja) ホットワードしきい値自動チューニング
US11361764B1 (en) Device naming-indicator generation
US12057119B2 (en) Contextual suppression of assistant command(s)
KR20230116886A (ko) 페이크 오디오 검출을 위한 자기 지도형 음성 표현
KR20230113368A (ko) 검출들의 시퀀스에 기반한 핫프레이즈 트리거링
US20230113883A1 (en) Digital Signal Processor-Based Continued Conversation
US20230019737A1 (en) Hotwording by Degree
JP2023553994A (ja) ホットワード特性に基づいた自動音声認識パラメータの適応
US20240013782A1 (en) History-Based ASR Mistake Corrections
US20240371377A1 (en) Promoting voice actions to hotwords
JP2024153632A (ja) ホットワードしきい値自動チューニング