KR20180011361A - 화자 검증을 위한 동적 임계치 - Google Patents

화자 검증을 위한 동적 임계치 Download PDF

Info

Publication number
KR20180011361A
KR20180011361A KR1020187002191A KR20187002191A KR20180011361A KR 20180011361 A KR20180011361 A KR 20180011361A KR 1020187002191 A KR1020187002191 A KR 1020187002191A KR 20187002191 A KR20187002191 A KR 20187002191A KR 20180011361 A KR20180011361 A KR 20180011361A
Authority
KR
South Korea
Prior art keywords
user
speech
computing device
data
speaker verification
Prior art date
Application number
KR1020187002191A
Other languages
English (en)
Inventor
야콥 니콜라우스 푀르스터
디에고 멜렌도 카사도
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20180011361A publication Critical patent/KR20180011361A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • G10L17/005
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/38Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
    • H04M3/382Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords
    • H04M3/385Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords using speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Debugging And Monitoring (AREA)

Abstract

화자 검증을 위한 동적 임계치에 대한, 컴퓨터 저장 매체 상에서 인코딩된 컴퓨터 프로그램들을 포함하는 방법들, 시스템들 및 장치들이 개시된다. 일 양태에서, 방법은 핫워드의 다수의 발화들의 각각에 대해, 화자 검증 신뢰 스코어 및 환경적 컨텍스트 데이터를 적어도 포함하는 데이터 세트를 수신하는 것의 동작들을 포함한다. 상기 동작들은 상기 데이터 세트들 중에서, 특정 환경적 컨텍스트와 관련된 데이터 세트들의 서브세트를 선택하는 것을 더 포함한다. 상기 동작들은 하나 이상의 선택 기준에 기초하여, 상기 데이터 세트들의 서브세트 중에서 특정 데이터 세트를 선택하는 것을 더 포함한다. 상기 동작들은 특정 환경적 컨텍스트에 대한 화자 검증 임계치로서, 화자 검증 신뢰 스코어를 선택하는 것을 더 포함한다. 상기 동작들은 상기 특정 환경적 컨텍스트와 관련된 발화들의 화자 검증을 수행하는데 사용하기 위해 화자 검증 임계치를 제공하는 것을 더 포함한다.

Description

화자 검증을 위한 동적 임계치{DYNAMIC THRESHOLD FOR SPEAKER VERIFICATION}
관련 출원들에 대한 상호 참조
관련 출원들에 대한 상호 참조
본 출원은 2014년 6월 24일자로 출원된 미국 출원 62/016,384호와 2014년 7월 25일자로 출원된 미국 출원 14/340,720호의 우선권을 주장한다. 상기 출원들의 내용들은 참조로서 여기에 포함된다.
기술 분야
본 발명은 일반적으로 화자 검증(speaker verification)에 관한 것이다.
핫워드(hotword)는 사용자가 음성 명령을 말하기 전 컴퓨팅 디바이스를 인보크(invoke)하기 위해 사용자가 말할 수 있는 특정 단어이다. 컴퓨팅 디바이스는 언제나 핫워드를 들을 수 있고, 핫워드가 수신된 경우, 상기 컴퓨팅 디바이스는 음성 명령으로서 후속적으로 수신된 발화(utterance)을 처리할 수 있다.
한 예에서, 컴퓨팅 디바이스는 핫워드 "Ok computer."를 들을 수 있다. 사용자가 "Ok computer, write a message."를 진술하는 경우, 상기 컴퓨팅 디바이스는 어구(phrase) "write a message"를 음성 명령으로서 처리되게 하는 핫워드 "ok computer."를 검출할 수 있다.
본 명세서에 기술된 본 발명의 하나의 혁신적인 양태에 따르면, 사용자 디바이스는 사용자에 의해 말해진 발화을 수신한다. 상기 사용자 디바이스는 상기 발화이 핫워드를 포함하였는지 여부를 결정하고, 발화의 화자가 디바이스의 인증된 사용자(authorized user)인지 사칭자(imposter)인지 여부를 식별하기 위해 화자 검증을 수행한다. 화자 검증을 수행하는 중에, 사용자 디바이스는, 상기 발화의 인증된 사용자와 관련된 음성 템플릿과의 유사성에 기초하여 상기 발화에 대한 신뢰 스코어(confidence score)를 생성하고, 상기 신뢰 스코어를 임계치(threshold)와 비교한다. 더욱이, 사용자 디바이스는 또한 예컨데, 주변 노이즈의 양과 같은, 상기 발화과 관련된 환경적 컨텍스트(environmental context)를 식별하고, 이 후 처리를 위해, 환경적 컨텍스트 및 신뢰 스코어를 표시하는 데이터 세트를 서버에 전송할 수 있다.
상기 서버는, 다른 디바이스들로부터의 데이터 세트들뿐만 아니라, 상기 데이터 세트를 분석하고, 유사한 환경적 컨텍스트에 의해, 데이터 세트들을 클러스터(cluster)한다. 상기 서버는 각 클러스터에서 특정 데이터 세트를 선택하고, 임계치로서, 상기 데이터 세트와 관련된 신뢰 스코어를 선택한다.
데이터 세트를 선택하는 한 가지 방식은 발화들의 특정 퍼센티지가 허용되어야 한다는 아이디어에 기초하여, 경험적으로 정의된 목표 거부율(empirically defined target rejection rate)을 사용하는 것이다. 서버는 선택된 데이터 세트의 신뢰 스코어와 대응하는 환경적 컨텍스트를 페어(pair)하고, 대응하는 환경적 컨텍스트에 대한 임계치인 신뢰 스코어를, 다른 사용자 디바이스들뿐만 아니라, 사용자 디바이스에 제공한다. 상기 임계치는 특정 환경적 컨텍스트에 대해 화자를 검증하기 위한 컷오프(cutoff) 신뢰 스코어를 나타낸다. 서로 다른 환경적 컨텍스트들에 대한 서로 다른 임계치들로, 사용자 디바이스는, 예컨데, 낮은 노이즈 환경에서와 같은 환경적 컨텍스트에서 사용자의 음성을 인식하려는 시도를 할 때 더 높은 신뢰 스코어를 요구할 수 있고, 예컨데, 높은 노이즈 환경적에서와 같은 다른 환경적 컨텍스트에서 사용자의 음성을 인식하려는 시도를 할 때 더 낮은 신뢰 스코어를 요구할 수 있다.
일반적으로, 본 명세서에 기술된 본 발명의 다른 혁신적인 양태는 핫워드의 다수의 발화들 각각에 대해, (ⅰ) 상기 발화과 관련된 화자 검증 신뢰 스코어 및 (ⅱ) 상기 발화과 관련된 환경적 컨텍스트 데이터를 적어도 포함하는 데이터 세트를 수신하는 것; 상기 데이터 세트들 중에서, 특정 환경적 컨텍스트와 관련된 데이터 세트들의 서브세트를 선택하는 것; 하나 이상의 선택 기준(selection criteria)에 기초하여, 상기 데이터의 서브세트들 중에서 특정 데이터 세트를 선택하는 것; 상기 특정 환경적 컨텍스트에 대한 화자 검증 임계치(speaker verification threshold)로서, 상기 특정 데이터 세트 내에 포함된 화자 검증 신뢰 스코어(speaker verification confidence score)를 선택하는 것; 그리고 상기 특정 환경적 컨텍스트와 관련된 발화들의 화자 검증을 수행하는 데 사용하기 위해, 화자 검증 임계치를 제공하는 것의 동작들을 포함하는 방법들로 구현된다.
이들 및 다른 실시 예들은 각각 임의로 다음 구성들 중 하나 이상을 포함할 수 있다. 환경적 컨텍스트 데이터는 발화의 수신 직전에 검출된 노이즈의 양을 특정(specify)한다. 환경적 컨텍스트 데이터는 발화의 음량을 특정한다. 환경적 컨텍스트 데이터는 발화을 인코딩(encode)하는 오디오 신호의 음량의 신호 대 노이즈 비를 특정한다. 하나 이상의 선택 기준은 경험적으로 정의된 거부율이다. 상기 동작들은 데이터 세트들에 발화과 관련된 포스트 트리거 정확도 표시기(post trigger accuracy indicator)를 라벨링(labeling)하는 것을 포함한다. 상기 동작들은 데이터 세트들에 서로 다른, 제2 화자 검증 신뢰 스코어를 라벨링하는 것을 포함한다. 상기 데이터 세트들 각각은 발화을 인코딩하는 오디오 신호를 더 포함한다. 상기 데이터 세트들 중에서 특정 환경적 컨텍스트와 관련된 데이터 세트들의 서브세트를 선택하는 것의 동작은: 환경적 컨텍스트 데이터 범위를 결정하는 것; 그리고 상기 환경적 컨텍스트 데이터 범위 내에서, 발화과 관련된 환경적 컨텍스트 데이터를 포함하는 데이터 세트들의 서브세트를 선택하는 것을 포함한다.
하나 이상의 선택 기준에 기초하여 데이터 세트들의 서브세트 중에서 특정 데이터 세트를 선택하는 것의 동작은: 하나 이상의 선택 기준에 기초하여, 임계치를 결정하는 것; 그리고 데이터 세트들의 서브세트 내의 다른 데이터 세트들보다 적은 차이로 임계치를 만족하는 데이터 세트들의 서브세트 중에서, 특정 데이터 세트를 식별하는 것을 포함한다. 상기 동작들은 상기 데이터 세트들 중에서, 각각의 특정 환경적 컨텍스트와 각각 관련된 상기 데이터 세트들 중 복수의 서브세트들을 선택하는 것; 상기 하나 이상의 선택 기준에 기초하여, 각 특정 데이터 세트는 상기 데이터 세트들 중 각각의 서브세트 중으로부터인 복수의 특정 데이터 세트들을 선택하는 것; 복수의 화자 검증 임계치들로서, 각각의 특정 데이터 세트에 포함된 복수의 화자 검증 신뢰 스코어들을 선택하는 것, 상기 화자 검증 임계치의 각각은 각각의 특정 환경적 컨텍스트에 대한 것이며; 그리고 각각의 특정 환경적 컨텍스트와 관련된 발화들의 화자 검증을 수행하는데 사용하기 위해 복수의 화자 검증 임계치들을 제공하는 것을 포함한다.
상기 동작들은 상기 데이터 세트들 중에서 각각의 사용자와 각각 관련된 데이터 세트들의 복수의 서브세트들을 선택하는 것; 상기 하나 이상의 선택 기준에 기초하여, 각 특정 데이터 세트는 상기 데이터 세트들 중 각각의 서브세트 중으로부터인 복수의 특정 데이터 세트들을 선택하는 것; 복수의 화자 검증 임계치들로서, 각각의 특정 데이터 세트에 포함된 복수의 화자 검증 신뢰 스코어들을 선택하는 것, 상기 화자 검증 임계치의 각각은 각각의 사용자에 대한 것이며; 그리고 각각의 사용자와 관련된 발화들의 화자 검증을 수행하는데 사용하기 위해 복수의 화자 검증 임계치들을 제공하는 것을 포함한다. 특정 환경적 컨텍스트와 관련된 발화들의 화자 검증을 수행하는데 사용하기 위해 화자 검증 임계치를 제공하는 것의 동작은 사용자 디바이스에게, 환경적 컨텍스트 데이터 범위 및 상기 환경적 컨텍스트 데이터 범위에 대한 화자 검증 임계치를 제공하는 것을 포함한다.
이 양태의 다른 실시 예들은 대응하는 컴퓨터 저장 디바이스들에 기록된 시스템들, 장치들 및 컴퓨터 프로그램들을 포함하며, 각각은 방법들의 동작들을 수행하기 위해 설정된다.
본 명세서에 기술된 본 발명의 특정 실시 예들은 하나 이상의 후술하는 이점들을 실현하기 위해 구현될 수 있다. 디바이스는 노이지(noisy) 환경들에서 화자를 식별할 수 있다.
본 명세서에 기술된 본 발명의 하나 이상의 실시 예들의 세부사항들은 첨부된 도면 및 이하의 서술로 설명된다. 본 발명의 다른 특징들, 양태들 및 이점들은 서술들, 도면들 및 청구범위들로부터 명확해질 것이다.
도 1은 화자 검증을 위한 예시적인 시스템의 다이어그램이다.
도 2는 화자 검증을 위한 예시적인 프로세스의 다이어그램이다.
도 3은 컴퓨팅 디바이스 및 모바일 컴퓨팅 디바이스의 예시를 나타낸다.
여러 도면들에서 동일한 참조 번호들 및 명칭들은 동일한 요소들을 나타낸다.
도 1은 화자 검증을 위한 예시적인 시스템(100)의 다이어그램이다. 일반적으로, 다이어그램(100)은 컴퓨팅 디바이스(106)의 마이크로폰으로 발화(104)을 말하는 사용자(102)를 도시한다. 컴퓨팅 디바이스(106)는 상기 발화(104)을 처리하고 주변 환경(108)과 관련된 데이터를 수집한다. 컴퓨팅 디바이스(106)는 상기 발화(104) 및 주위 환경(108)에 기초하여, 샘플 클러스터러(clusterer) 및 임계치 선택기(146)를 포함하는 서버로(106) 데이터를 전송한다. 상기 서버는 주위 환경(108) 및 유사 환경들에서 사용자의 음성을 검증하는 화자 검증 임계치를 식별하기 위해, 발화(104)에 근거한 데이터 세트뿐만 아니라 다른 발화들에 근거한 데이터를 처리한다. 일부 구현들에서, 사용자의 음성을 검증하는 것은 또한 사용자의 음성을 식별하는 것을 포함한다.
컴퓨팅 디바이스(106)의 화자 검증 구성을 사용하기 전에, 사용자는 사용자의 음성을 인식하기 위해 컴퓨팅 디바이스(106)를 트레이닝(training)시켜야 한다. 컴퓨팅 디바이스(106)를 트레이닝 시키기 위해, 사용자는 컴퓨팅 디바이스(106)에 의해 프롬프트(prompt)된 다수의 어구들을 반복한다. 상기 어구들은 핫워드뿐만 아니라 다른 단어들 및 다른 어구들을 포함할 수 있다. 예를 들면, 컴퓨팅 디바이스(106)는 사용자로 하여금 "Ok computer", "open", "call", "message" 및 다른 단어들을 말하는 것을 프롬프트 할 수 있다. 컴퓨팅 디바이스(106)는 음성 템플릿(template)을 만들기 위해 사용자의 음성으로부터 오디오를 처리하고, 상기 음성 템플릿은 컴퓨팅 디바이스(106)가 마이크로폰을 통해 오디오를 수신할 때, 컴퓨팅 디바이스(106)가 비교하기 위해 사용할 수 있다. 컴퓨팅 디바이스(106)는 데스크탑 컴퓨터, 랩탑 컴퓨터, 스마트폰 또는 테블릿 컴퓨터일 수 있다.
일단 컴퓨팅 디바이스(106)가 사용자(102)에 대한 음성 템플릿을 가지면, 사용자는 음성 명령을 개시하기 위해 핫워드를 말하는 것을 시작한다. 컴퓨팅 디바이스(102)는 활성화된 마이크로폰을 가지는 잠금(lock) 상태일 수 있고, 상기 마이크로폰을 통해 수신된 오디오를 처리하는 중일 수 있다. 컴퓨팅 디바이스(106)는 마이크로폰을 통해 수신된 오디오를 수신하고, 버퍼(buffer)에 상기 오디오를 저장한다. 컴퓨팅 디바이스(106)는 이전 몇 초의 오디오를 버퍼에 저장한다. 예를 들면, 컴퓨팅 디바이스(106)는 5초의 오디오를 저장할 수 있다. 잠금 상태에 있는 것 대신에, 컴퓨팅 디바이스(102)는 잠금 해제(unlock) 상태일 수 있다. 이 경우, 마이크로폰은 여전히 활성화 되어 있고, 컴퓨팅 디바이스(106)는 특정 양의 오디오를 버퍼에 저장하고 수신할 수 있다. 도 1에 도시된 예에서, 사용자(102)는 컴퓨팅 디바이스(106)에 "Ok computer"를 말한다. 컴퓨팅 디바이스(106)는 상기 사용자의 음성의 오디오 및 사용자가 말하기 전에 마이크로폰을 통해 수신된 오디오를 수신하고, 추가적 프로세싱을 위해 버퍼된 오디오(110)를 저장한다.
일부 구현들에서, 엔드포인터(endpointer)(112)는 컴퓨팅 디바이스(106)의 버퍼로부터 버퍼된 오디오(110)를 수신한다. 상기 엔드포인터(112)는 컴퓨팅 디바이스(106)의 하나 이상의 프로세서들로 실행되는 소프트웨어로 구현될 수 있다. 엔드포인터(112)는 버퍼된 오디오(110)들의 오디오 프레임들을 식별하고, 상기 버퍼된 오디오(110)는 음성 및 비-음성으로 분리되며, 그것들의 오디오 프레임들은 엔드포인트(endpoint)들이다. 도 1에 도시된 예에서, 버퍼된 오디오(110)는 비-음성 오디오(114) 및 음성 오디오(116)를 포함한다. 비-음성 오디오(114)는 사용자가 말하기 전에 마이크로폰으로부터 수신된 오디오에 대응하고, 음성 오디오(116)는 사용자가 말하는 것에 대응한다. 예를 들면, 비-음성 오디오(114)는 사용자(102)가 말하기 전에 마이크로폰에 의해 픽업된(pick up) 노이즈에 대응하고, 음성 오디오(116)는 사용자가 말하는 "Ok computer"에 대응한다.
일부 구현들에서, 컴퓨팅 디바이스(106)의 버퍼로부터 버퍼된 오디오(110)를 수신하는 엔드포인터(112)대신, 뉴럴 네트워크 모듈(neural network module)은 버퍼된 오디오(110)를 수신한다. 뉴럴 네트워크 모듈은 컴퓨팅 디바이스(106)의 하나 이상의 프로세서들로 실행되는 소프트웨어로 구현될 수 있다. 상기 뉴럴 네트워크 모듈은 비-음성으로부터 음성을 분리한 오디오 프레임을 식별하기 위해 버퍼된 오디오(110)를 분석한다. 도 1에 도시된 예에서, 뉴럴 네트워크는 음성 오디오(116)로부터 비-음성 오디오(114)를 분리한 음성 프레임을 식별한다.
핫워더(hotworder)(118)는 엔드포인터(112) 또는 뉴럴 네트워크 모듈로부터 음성 오디오(116)를 수신한다. 엔드포인터(112)와 마찬가지로, 핫워더는 컴퓨팅 디바이스(106)의 하나 이상의 프로세서들에 의해 실행되는 소프트웨어로 구현될 수 있다. 핫워더(118)는 음성 오디오(112)와 핫워드 템플릿을 비교하고, 사용자가 상기 핫워드를 말하였는지 여부를 결정한다. 일부 구현들에서, 서버(160)와 같은 컴퓨팅 디바이스는 핫워드를 말하고 각 핫워드 오디오 세그먼트를 결합하는 다수의 사용자로부터 핫워드 템플릿을 생성할 수 있다. 핫워드 템플릿은 다수의 사용자들에 의해 말해진 것으로서, 핫워드 오디오 세그먼트들의 평균일 수 있다. 일부 구현들에서, 서버(160)는 핫워드를 말하는 단일 사용자로부터 핫워드 템플릿을 생성할 수 있다. 이 경우, 핫워드 템플릿은 단일 사용자에 의해 말해진 다수의 핫워드 오디오 세그먼트들의 평균일 수 있다.
화자 검증 모듈(120)은 엔드포인터(112)로부터 버퍼된 오디오(110)를 수신하고, 화자 검증 신뢰 스코어(122)를 연산한다. 상기 화자 검증 모듈(120)의 스코어링기(scorer)(124)는 화자 검증 신뢰 스코어(122)를 연산한다. 화자 검증 신뢰 스코어(122)는 사용자의 음성이 음성 오디오(116) 내에 캡쳐(capture)되었을 가능성을 반영한다. 화자 검증 신뢰 스코어(122)를 연산하기 위해, 스코어링기(124)는 화자 오디오(116)와 사용자에 대한 음성 템플릿을 비교한다. 일부 구현들에서, 화자 검증 신뢰 스코어(122)는 0과 1사이의 값을 갖는다. 음성 오디오(116) 내에 사용자의 음성이 기록되었을 가능성이 높을수록, 화자 검증 신뢰 스코어(122)는 1에 가깝다.
화자 검증 모듈(120)의 환경적 컨텍스트 검출기(125)는 상기 버퍼된 오디오(110)와 관련된 환경적 컨텍스트 데이터(126)을 결정하기 위해 버퍼된 오디오(110)를 분석한다. 환경적 컨텍스트는 비-음성 오디오(114)의 음량, 음성 오디오(116)의 음량 또는 음성 오디오(116)의 음량 대 비-음성 오디오(114)의 음량의 비율에 관한 것일 수 있다. 상기 음량은 비-음성 오디오(114), 음성 오디오(116) 또는 두 비율의 데시벨 레벨(level)일 수 있다.
화자 검증 신뢰 스코어(122) 및 환경적 컨텍스트(126)를 사용하여, 화자 검증 모듈(120)은 음성 오디오(116)가 사용자에 대응하는지 여부를 결론내리기 위해 임계치들(128)을 사용한다. 환경적 컨텍스트(126)에 따라 서로 다른 임계치들이 있을 수 있다. 예를 들면, 만일 비-음성 오디오(114)의 노이즈들 정도를 나타내는 환경적 컨텍스트가 58데시벨인 경우, 그러면 상기 화자 검증 모듈(120)은 50에서 60 데시벨 범위에 대한 임계치를 사용한다. 화자 검증 모듈(120)은 상기 임계치와 화자 검증 신뢰 스코어(122)를 비교하고, 만일 화자 검증 신뢰 스코어(122)가 상기 임계치를 만족하는 경우, 그 후 화자 검증 모듈은 음성 오디오(116)를 말한 화자는 인증된 사용자라고 결론내린다. 일부 구현들에서, 만일 화자 검증 신뢰 스코어(122)가 임계치보다 크거나 같은 경우, 그러면 상기 화자는 인증된 사용자이다. 예를 들면, 만일 임계치가 0.7이고 화자 검증 신뢰 스코어(122)가 0.7이라면, 그 후 컴퓨팅 디바이스(106)는 상기 화자는 인증된 사용자라고 결론내린다.
화자 검증 모듈(120)은 화자 검증 신뢰 스코어(122) 및 환경적 컨텍스트 데이터(126)를 데이터 세트(130)에 저장한다. 도 1에 도시된 예에서, 데이터 세트(130)은 0.7의 화자 검증 신뢰 스코어(122) 및 58 데시벨의 환경적 컨텍스트 데이터(126)를 포함한다. 일부 구현들에서, 데이터 세트는 또한 버퍼된 오디오(110)를 포함한다.
샘플 클러스터러(132)는 컴퓨팅 디바이스(106)으로부터 데이터 세트(130)를 수신한다. 샘플 클러스터러(132)는 서버의 하나 이상의 프로세서들 상에서 구동하는 소프트웨어로 구현될 수 있다. 샘플 클러스터러(132)는 네트워크를 통해 컴퓨팅 디바이스(106)로부터 데이터 세트(130)를 수신할 수 있다. 또한, 샘플 클러스터러(132)는 핫워더(118)가 말해진 핫워드를 검출하는 때마다 컴퓨팅 디바이스(106)로부터 다른 데이터 세트들을 수신할 수 있고, 그 들 각각의 컴퓨팅 디바이스들에 핫워드들을 말하는 다른 사용자들(134)로부터 다른 데이터 세트들을 수신할 수 있다.
일부 구현들에서, 제2 화자 검증 모듈(136)은 데이터 세트에 추가하기 위해 추가적인 값을 연산한다. 또한, 샘플 클러스터(132)를 포함하는 서버는 버퍼된 오디오(110)를 처리하는 것을 수행하는 제2 화자 검증 모듈(136)을 포함할 수 있다. 제2 화자 검증 모듈(136)은 제한된 처리 능력을 가진 컴퓨팅 디바이스(106)상에서 불가능할 수 있는 버퍼된 오디오(110)의 더 확고한 분석을 수행할 수 있다. 제2 화자 검증 모듈(136)은, 상기 값이 0에서 1사이일 수 있고 1에 가까운 것은 음성 오디오(116)와 음성 템플릿 사이의 더 비슷한 일치를 표시한다는 점에서, 화자 검증 모듈(120)과 유사한 값을 연산할 수 있다. 샘플 클러스터러(132)는 제2 화자 검증 모듈(136)로부터 각 데이터 세트에 화자 검증 신뢰 스코어를 추가할 수 있다.
일부 구현들에서, 정확도 피드백 모듈(138)은 데이터 세트에 추가적인 값을 연산한다. 정확도 피드백 모듈(138)은 컴퓨팅 디바이스(106)의 화자 검증 특성을 이용하여, 사용자(102)로부터 수집된, 사용자의 성공들 및 실패들에 관한 데이터를 수집할 수 있다. 사용자(102)가 컴퓨팅 디바이스(106)의 마이크로폰에 핫워드를 말할 때, 상기 컴퓨팅 디바이스(106)가 상기 사용자(102)를 인식하지 못하는 경우가 있을 수 있다. 이는 거짓 거부(false rejection)로 고려된다. 대안적으로, 사칭자가 컴퓨팅 디바이스(106)의 마이크로폰에 핫워드를 말할 때, 상기 컴퓨팅 디바이스(106)가 상기 사칭자를 사용자(102)로 부정확하게 인식하는 경우가 있을 수 있다. 이는 거짓 수락(false acceptance)으로 고려된다. 거짓 수락의 다른 예는 사용자(102) 또는 사칭자가 핫워드와 유사한 단어를 말할 때, 컴퓨팅 디바이스(106)가 사용자(102)가 핫워드를 말한 것으로 부정확하게 결정하는 것이다. 예를 들면, 사용자(102)가 "hey scooter"를 말하고, 컴퓨팅 디바이스(106)가 사용자(102)가 "ok computer"를 말한 것으로 부정확하게 결정한다. 사용자(102)의 정확한 검증은 참 수락(true acceptance)이고, 사칭자 또는 비-핫워드의 정확한 거부는 참 거부(true rejection)이다.
사용자(102)로부터 피드백을 모으기 위해, 컴퓨팅 디바이스(106)는 사용자에게 패스워드를 요청하거나 화자 검증 이외의 다른 방식들에 의해 사용자의 신원(identity)을 검증한다. 일단, 사용자의 신원이 검증되면, 컴퓨팅 디바이스(106)는 특정 시점의 화자 검증 특성을 사용하여, 사용자(102)가 컴퓨팅 디바이스(106)에 접근하려고 하는지 여부에 관해 사용자(102)를 프롬프트한다. 사용자(102)는 각 접근 시도를 참 수락, 참 거부, 거짓 수락 또는 거짓 거부으로서 라벨(label)한다. 컴퓨팅 디바이스(102)는 정확도 피드백 모듈(138)에 사용자 피드백을 제공한다. 정확도 피드백 모듈(132)은 데이터 세트(130)에 사용자 피드백을 추가한다.
사용자(102)가 거짓 거부을 식별하는 경우, 컴퓨팅 디바이스는 음성 템플릿을 더 수정(refine)하기 위해, 버퍼된 오디오(110)를 사용하고, 상기 버퍼된 오디오(110)는 사용자(102)를 인식하기 위해 사용된다. 한 예로서, 사용자(102)가 "Ok computer"를 말하고, 컴퓨팅 디바이스(106)의 핫워더(118)가 상기 말해진 핫워드를 인식한다. 컴퓨팅 디바이스(106)의 화자 검증 모듈(120)은, 상기 발화에 대한 화자 검증 스코어가 사용자가 말한 환경적 컨텍스트에 대한 화자 검증 임계치보다 낮기 때문에, 사용자의 음성을 인식하지 않는다. 컴퓨팅 디바이스(106)는 사용자(102)에게 사용자(102)가 "Ok computer"를 말하는지 여부를 프롬프트한다. 사용자(102)는 사용자(102)가 "Ok computer"를 말함을 확인하고, 컴퓨팅 디바이스는 상기 발화을 거짓 거부으로서 라벨링한다. 컴퓨팅 디바이스가 사용자의 음성을 인식 못하였기 때문에, 화자 검증 모듈(120)은 사용자(102)에 대한 화자 검증을 개선하고, 거짓 거부 및 거짓 수락를 줄이기 위해 음성 템플릿을 최근 발화과 함께 업데이트한다.
일부 구현들에서, 제2 화자 검증 모듈(136)은 데이터 세트에, 데이터 세트가 참 거부, 참 수락, 거짓 거부 또는 거짓 수락에 대응하는지 여부를 나타내는 라벨을 추가한다. 이 경우, 컴퓨팅 디바이스(106)는, 데이터 세트(130) 내에, 화자 검증 모듈(120)이 음성 템플릿에 대응함으로서 음성 오디오(116)을 식별했는지 여부를 나타내는 추가적인 데이터 필드를 포함한다. 제2 화자 검증 모듈(136)은 화자 검증 모듈(120)이 참 거부, 참 수락, 거짓 거부 또는 거짓 수락을 만들었는지 여부를 식별하기 위해, 버퍼된 오디오(110)상에서 추가적인 연산들을 수행한다. 제2 화자 검증 모듈(136)은 컴퓨팅 디바이스(106)의 컴퓨팅 자원(computing resource)들과 비교하여 이용 가능한 더 많은 컴퓨팅 자원들을 가진다.
샘플 클러스터러(132)는 유사한 환경적 컨텍스트 데이터에 따라, 데이터 세트(130) 및 다른 데이터 세트들을 클러스터한다. 샘플 클러스터러(132)는 하나 이상의 환경적 컨텍스트 데이터 범위들을 결정하고, 그러한 환경적 컨텍스트 데이터 범위들 각각은 데이터 세트들의 최소값(minimum number)을 포함할 것이다. 예를 들면, 샘플 클러스터러(132)는 800개의 데이터 세트들의 각 환경적 컨텍스트 데이터 범위들에 대한 데이터 세트들의 최소값을 포함할 수 있다. 도 1에 도시된 예에서, 샘플 클러스터러(132)는 3개의 데이터 세트 클러스터들을 식별했다. 데이터 세트 클러스터(140)는 50과 60 데시벨 사이의 환경적 컨텍스트 데이터를 가지는 데이터 세트들을 포함한다. 데이터 세트 클러스터(142)는 50과 70 데시벨 사이의 환경적 컨텍스트 데이터를 가지는 데이터 세트들을 포함한다. 데이터 세트 클러스터(144)는 70과 80 데시벨 사이의 환경적 컨텍스트 데이터를 가지는 데이터 세트들을 포함한다.
일부 구현들에서, 샘플 클러스터러(132)는 같은 사용자에 의해 말해진 발화들에 대응하는 데이터 세트(130) 및 다른 데이터 세트들을 클러스터한다. 도 1에 도시된 예에서, 샘플 클러스터러(132)는 사용자(102)에 의해 말해진 발화들에 대응하는 데이터 세트들을 클러스터 한다. 특정 사용자에 의해 말해진 발화들에 대응하는 데이터 세트들만을 클러스트할 때, 각 환경적 컨텍스트에 대해 요구되는 데이터 세트들의 최소값은 다수의 사용자들에 의해 말해진 발화들에 대응하는 데이터 세트들에 클러스트할 때와 다르다.
임계치 선택기(146)는 각 데이터 세트 클러스터로부터 특정 데이터 세트를 선택하기 위해 선택 기준(148)을 사용한다. 상기 선택된 데이터 세트 클러스터는 임계치 선택기가, 향후의 화자 검증 신뢰 값들에 대한 화자 검증 신뢰 임계치로서 사용되기 위한 화자 검증 신뢰 값을 포함하는 데이터 세트로서 선택한 데이터 세트이고, 상기 향후의 화자 검증 신뢰 값들은 환경적 컨텍스트 데이터 범위 내의 환경적 컨텍스트 데이터와 관련된다. 일부 구현들에서, 상기 선택 기준은 경험적으로 정의된 목표 거부율이다. 경험적으로 정의된 목표 거부율은 과거 핫워드 발화 데이터를 분석하는 것에 기초한다. 과거 핫워드 발화 데이터를 분석하는데 있어, 핫워드를 말하는 인증된 사용자들과 핫워드를 말하는 사칭자들 사이의 차이(line)가 분명해져서, 과거 핫워드 발화 데이터의 특정 퍼센티지가 핫워드를 말하는 인증된 사용자들로부터의 발화에 기초하도록 한다. 예시적인 경험적으로 정의된 목표 거부율은 7 퍼센트이다. 경험적으로 정의된 7 퍼센트의 목표 거부율과 함께, 임계치 선택기(146)는 화자 검증 스코어에 의해, 각 데이터 클러스터 내의 데이터 세트들을 순위를 매기고(rank), 데이터 세트 클러스터 내의 데이터 세트들의 7 퍼센트보다 높은 화자 검증 스코어를 가지는 데이터 세트를 선택한다.
도 1에 도시된 예에서, 임계치 선택기(146)는 데이터 세트 클러스터(140, 142 및 144) 각각에 대해 7 퍼센트의 목표 거부율에서 데이터 세트를 식별한다. 화자 검증 임계치 테이블(150)에 도시된 바와 같이, 50에서 60데시벨 사이의 환경적 컨텍스트 데이터를 가진 데이터 세트들을 포함하는 데이터 세트 클러스터(140)는, 7 퍼센트의 레벨에서, 0.7의 화자 검증 스코어를 포함하는 데이터 세트를 가진다. 60에서 70데시벨 사이의 환경적 컨텍스트 데이터를 가진 데이터 세트들을 포함하는 데이터 세트 클러스터(142)는, 7 퍼센트의 레벨에서, 0.6의 화자 검증 스코어를 포함하는 데이터 세트를 가진다. 70에서 80데시벨 사이의 환경적 컨텍스트 데이터를 가진 데이터 세트들을 포함하는 데이터 세트 클러스터(144)는, 7 퍼센트의 레벨에서, 0.4의 화자 검증 스코어를 포함하는 데이터 세트를 가진다.
일부 구현들에서, 임계치 선택기(146)는 정확도 피드백 모듈(138)로부터 추가적인 데이터를 사용한다. 정확도 피드백 모듈(138)로부터의 데이터와 함께, 임계치 선택기(146)는 화자 검증 스코어에 의해, 각 데이터 세트 클러스터 내의 데이터 세트들을 순위를 매긴다. 임계치 선택기(146)는 각 데이터 세트 그룹에서 거부들로부터 수락들을 가장 잘 분리한 데이터 세트를 선택하고, 상기 선택된 데이터 세트에 대한 화자 검증 신뢰 스코어는 그 데이터 세트 클러스터의 환경적 컨텍스트 데이터 범위에 대한 화자 검증 신뢰 임계치다. 각 데이터 세트 클러스터에서, 선택된 데이터 세트는 서로 다른 퍼센티지 레벨일 수 있다. 각 데이터 세트 클러스터에서 거부들로부터 허용들을 분리한 데이터 세트를 선택할 때, 데이터 세트들의 일부가 거짓 거부들 및 거짓 수락들일 가능성이 있기 때문에 라인은 명백하지 않을 수 있다. 이러한 예들에서, 임계치 선택기(146)는 대부분의 거짓 거부들은 참 수락들 측면에 있고, 거짓 수락들은 참 거부들 측면에 있도록 데이터 세트를 나누는 데이터 세트를 선택한다. 또한, 임계치 선택기(146)는 제2 화자 검증 모듈(136)에 의해 추가되고, 정확도 피드백 모듈(138)로부터의 추가적인 데이터와 유사한 방식으로 데이터 세트가 참 거부, 참 수락, 거짓 거부 또는 거짓 수락에 대응하는지 여부를 표시하는 라벨을 사용한다.
일부 구현들에서, 임계치 선택기(146)는 제2 화자 검증 모듈(136)로부터 추가적인 데이터를 사용한다. 상기 제2 화자 검증 모듈(136)로부터의 추가적인 데이터와 함께, 임계치 선택기(146)는 제2 화자 검증 모듈(136)로부터의 화자 검증 신뢰 스코어에 의해, 각 데이터 세트 클러스터 내 데이터 세트들을 순위를 매긴다. 임계치 선택기(146)는 각 데이터 세트 클러스터를 나누기 위해 경험적으로 정의된 목표 거부율을 사용한다. 임계치 선택기(146)는 화자 검증 신뢰 임계치로서, 제2 화자 검증 모듈(136)로부터의 화자 검증 신뢰 스코어 또는 제2 화자 검증 모듈(120)로부터의 화자 검증 신뢰 스코어를 선택한다.
일부 구현들에서, 임계치 선택기(146)는 제2 화자 검증 모듈(136)로부터의 추가적인 데이터와 정확도 피드백 모듈(138)로부터의 추가적인 데이터 모두를 사용한다. 상기 예에서, 임계치 선택기(146)는 제2 화자 검증 모듈(136)로부터의 화자 검증 신뢰 스코어를 사용하여 데이터 세트들을 순위를 매기고, 이전에 기술된 바와 같이, 정확도 피드백 모듈(138)로부터의 추가적인 데이터에 기초하여 데이터 세트 클러스터를 선택한다. 상기와 마찬가지로, 임계치 선택기(146)는 화자 검증 신뢰 임계치로서, 제2 화자 검증 모듈(136)로부터의 화자 검증 신뢰 스코어 또는 제2 화자 검증 모듈(120)로부터의 화자 검증 신뢰 스코어를 선택한다.
임계치 선택기(146)는 화자 검증에 사용하기 위해, 화자 검증 임계치 테이블(150)을 컴퓨팅 디바이스(106) 및 다른 컴퓨팅 디바이스들(152)에 제공한다. 임계치 선택기(146)는 예컨데, 매주 또는 다른 소프트웨어 업데이트들의 일부와 같이, 주기적으로 화자 검증 임계치 테이블(150)을 컴퓨팅 디바이스들에 제공할 수 있다. 대안적으로, 임계치 선택기(146)는 컴퓨팅 디바이스들에 의해 프롬프트될 때, 화자 검증 임계치 테이블(150)을 컴퓨팅 디바이스들에 제공할 수 있다. 컴퓨팅 디바이스(120)는, 만일 사용자(102)가 화자 검증 임계치 모듈(120)이 많은 거짓 수락들 또는 거짓 거부들을 가질 것을 제안하는 피드백을 자주 제공하는 경우, 업데이트된 화자 검증 임계치 테이블(150)을 요청한다. 일단, 컴퓨팅 디바이스(120)이 화자 검증 임계치 테이블(150)을 수신하면, 컴퓨팅 디바이스(120)는 향후의 화자 검증을 위해 임계치들(128)에 화자 검증 임계치 테이블(150)을 저장한다.
도 2는 화자 검증을 위한 예시적인 프로세스(200)의 다이어그램이다. 프로세스(200)는 예컨데, 도 1로부터의 샘플 클러스터러(132) 및 임계치 선택기(146)을 포함하는 서버(160)와 같은, 컴퓨팅 디바이스에 의해 수행될 수 있다. 프로세스(200)는 화자 검증에 관한 데이터 세트들을 분석하고 서로 다른 환경적 컨텍스트들에서 사용하기 위해, 화자 검증 신뢰 스코어를 연산한다.
컴퓨팅 디바이스는, 핫워드의 다수의 발화들의 각각에 대해, (ⅰ) 발화과 관련된 화자 검증 신뢰 스코어 및 (ⅱ) 발화과 관련된 환경적 컨텍스트 데이터를 적어도 포함하는 데이터 세트를 수신(210)한다. 데이터 세트는 사용자로부터 핫워드의 발화을 수신하는 사용자 디바이스에 의해 만들어진다. 사용자 디바이스는 핫워드 발화과 사용자에 대한 음성 템플릿을 비교함으로써, 화자 검증 신뢰 스코어를 연산한다. 사용자 디바이스는 전형적으로 발화의 노이즈 레벨에 기초한 환경적 컨텍스트 데이터를 연산한다. 일부 구현들에서, 환경적 컨텍스트 데이터는 사용자가 발화을 말하기 전, 시간 간격에 대해 사용자 디바이스에 의해 검출된 노이즈의 양을 특정한다. 예를 들면, 환경적 컨텍스트 데이터는 사용자가 말하기 전, 특정 시간의 간격에 대해 수신된 오디오 신호의 실효치(root mean square) 또는 데시벨 레벨에 기초할 수 있다. 일부 구현들에서, 환경적 컨텍스트 데이터는 발화의 음량에 기초한다. 예를 들면, 환경적 컨텍스트 데이터는 발화의 실효치 또는 데시벨 레벨에 기초할 수 있다. 일부 구현들에서, 상기 환경적 컨텍스트 데이터는 발화의 신호 대 노이즈 비 또는 사용자가 발화의 음량을 말하기 전, 특정 시간의 간격에 대해 수신된 오디오 신호의 음량의 비의 신호 대 노이즈 비에 기초한다.
일부 구현들에서, 컴퓨팅 디바이스는 데이터 세트에 추가적인 데이터를 추가한다. 컴퓨팅 디바이스는 포스트 트리거 정확도 표시기를 추가한다. 컴퓨팅 디바이스는 사용자 디바이스가 오디오 신호에 기초한 사용자의 검증에 관한 결정을 만든 후에, 포스트 트리거 정확도 데이터를 모은다. 예를 들면, 사용자 디바이스는 화자 검증 구성을 사용하기 위해 사용자의 시도를 거절하고, 그 후 사용자로 하여금 패스워드를 입력하도록 프롬프트함으로써, 사용자를 인증(authenticate)한다. 이 경우, 컴퓨팅 디바이스는 거짓 거부을 나타내는 데이터 세트를 추가할 수 있다. 일부 구현들에서, 사용자 디바이스는 또한 데이터 세트 내의 오디오 신호를 포함한다. 컴퓨팅 디바이스는 데이터 세트에 포함할 서로 다른 제2 화자 검증 신뢰 스코어를 연산하기 위해, 오디오 신호를 분석한다.
컴퓨팅 디바이스는 데이터 세트들 중에서, 특정 환경적 컨텍스트와 관련된 데이터 세트들의 서브세트를 선택(220)한다. 컴퓨팅 디바이스는 클러스터들 각각이 적어도 데이터 세트들의 최소값을 포함하는 그러한 환경적 컨텍스트 데이터에 기초하여 데이터 세트들을 클러스터 한다. 컴퓨팅 디바이스는 데이터 세트들을 클러스터 하기 위해 환경적 컨텍스트 데이터 범위를 선택한다. 예를 들면, 컴퓨팅 디바이스는 사용자가 말하기 전, 특정 시간 간격에 대해 수신된 오디오 신호의 음량에 기초하여, 데이터 세트들을 클러스터할 수 있다.
컴퓨팅 디바이스는 하나 이상의 선택 기준에 기초하여, 데이터 세트들의 서브세트 중에서 특정 데이터 세트를 선택(230)한다. 컴퓨팅 디바이스는 환경적 컨텍스트 데이터에 따라, 데이터 세트들의 서브세트를 순위를 매긴다. 일부 구현들에서, 컴퓨팅 디바이스는 경험적으로 정의된 목표 거부율에 기초하여 특정 데이터 세트를 선택한다. 일부 구현들에서, 컴퓨팅 디바이스는 포스트 트리거 정확도 데이터에 기초하여, 특정 데이터 세트를 선택한다. 일부 구현들에서, 컴퓨팅 디바이스는 서로 다른, 제2 화자 검증 신뢰 스코어에 따라, 데이터 세트들의 서브세트를 순위를 매기고, 상기 서로 다른, 제2 화자 검증 신뢰 스코어에 기초하여 특정 데이터 세트를 선택한다.
컴퓨팅 디바이스는, 특정 환경적 컨텍스트에 대한 화자 검증 임계치로서, 특정 데이터 세트에 포함된 화자 검증 신뢰 스코어를 선택(240)한다. 예를 들면, 컴퓨팅 디바이스는, 50에서 60 데시벨의 환경적 컨텍스트 데이터 범위에서, 0.7의 화자 검증 신뢰 스코어를 가진 데이터 세트를 선택한다. 0.7의 화자 검증 신뢰 스코어는 50에서 60 데시벨 범위에서의 발화들에 대한 화자 검증 신뢰 임계치다.
컴퓨팅 디바이스는 특정 환경적 컨텍스트와 관련된 발화들의 화자 검증을 수행하는데 사용하기 위해, 화자 검증 임계치를 제공(250)한다. 일부 구현들에서, 컴퓨팅 디바이스는, 화자 검증을 사용하기 위해, 다른 환경적 컨텍스트 데이터 범위들 및 대응하는 화자 검증 신뢰 임계치들뿐만 아니라, 상기 환경적 컨텍스트 데이터 범위 및 대응하는 화자 검증 신뢰 임계치를 사용자 디바이스들에 제공한다.
일부 구현들에서, 컴퓨팅 디바이스는, 환경적 컨텍스트 데이터에 기초하여, 특정 사용자에 의해 말해진 데이터 세트들의 서브세트들을 선택한다. 이 경우, 컴퓨팅 디바이스는 특정 사용자에 대한 화자 검증 임계치를 식별하고, 대응하는 화자 검증 임계치 및 환경적 컨텍스트 데이터를 특정 사용자의 디바이스에 제공한다. 또한, 컴퓨팅 디바이스는 특정 사용자에 대한 화자 검증 임계치를 식별하기 위해, 포스트 트리거 정확도 표시기로부터의 데이터 및 서로 다른, 제2 화자 검증 스코어를 사용한다.
본 명세서에서 기술된 본 발명의 실시예들 및 동작들은 디지털 전자 회로에서, 또는 컴퓨터 소프트웨어, 펌웨어, 또는 하드웨어에서, 또는 그들의 하나 이상의 조합들에서 구현될 수 있고, 이 들은 본 명세서에서 개시된 구조들 및 그들의 구조적 균등물들을 포함한다. 본 명세서에서 기술된 본 발명의 실시예들은 하나 이상의 컴퓨터 프로그램들, 즉, 데이터 프로세싱 장치에 의한 실행을 위해, 또는 데이터 프로세싱 장치의 동작을 제어하기 위해, 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램 명령들의 하나 이상의 모듈들로서 구현될 수 있다. 대안적으로 또는 부가적으로, 프로그램 명령어들은 예를 들어, 데이터 프로세싱 장치에 의한 실행을 위해 적합한 수신 장치들로 전송하기 위한 정보를 인코딩 하기 위해 생성되는 기계-생성 전기, 광학 또는 전자기 신호와 같은, 인위적으로 생성된 전파 신호상에서 인코딩 될 수 있다. 컴퓨터 저장 매체는 기계-판독가능한 저장 디바이스, 기계-판독가능한 저장 기판, 랜덤 또는 시리얼 액세스 메모리 디바이스 또는 그들의 하나 이상의 조합일 수 있거나, 이들에 포함될 수 있다. 게다가, 비록 컴퓨터 저장 매체가 전파된 신호가 아니나, 컴퓨터 저장 매체는 소스(source)이거나, 인위적으로-생성된 전파된 신호에서 인코딩된 컴퓨터 프로그램 명령어들의 목적이 될 수 있다. 컴퓨터 저장 매체는 또한 하나 이상의 분리된 물리적 컴포넌트(component)들 또는 미디어(예를 들면, 다수의 CD들, 디스크들, 또는 다른 저장 디바이스들)이거나 이들에 포함될 수 있다.
본 명세서에서 기술된 동작들은 하나 이상의 컴퓨터-판독가능한 저장 디바이스들 상에 저장되거나 다른 소스들로부터 수신된 데이터 상의 데이터 프로세싱 장치에 의해 수행되는 동작들로서 구현될 수 있다.
용어 "데이터 프로세싱 장치"는, 예시적인 프로그램 가능한 프로세서, 컴퓨터, 칩 상의 시스템 또는 다수의 것들, 또는 앞서 말한 것의 조합들을 거치는 것을 포함하여, 데이터를 처리하기 위한 장치들, 디바이스들 및 기계들의 모든 종류를 포함한다. 상기 장치는 예를 들면, FPGA(field programmable gate way array) 또는 ASIC(application-specific integrated circuit)과 같은, 특수 목적 논리 회로를 포함한다. 상기 장치는 또한, 하드웨어에 추가하여, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 작동 시스템, 크로스-플랫폼 런타임 환경(cross-platform runtime environment), 가상 기계 또는 그들의 하나 이상의 조합을 구성하는 코드와 같은, 문제되는 컴퓨터 프로그램에 대한 실행 환경을 만드는 코드를 포함한다. 상기 상치 및 실행 환경은 예컨데, 웹 서비스들, 분산된 컴퓨팅 및 그리드(grid) 컴퓨팅 기반 시설들과 같은, 다양한 서로 다른 컴퓨팅 모델 기반 시설들을 실현할 수 있다.
컴퓨터 프로그램(또한 프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 또는 코드로서 알려진)은 컴파일(compile)되거나 해석된 언어들, 서술문의 또는 절차상의 언어들을 포함하여, 프로그래밍 언어의 임의의 형태로 쓰여질 수 있고, 상기 컴퓨터 프로그램은, 독립형 프로그램 또는 모듈, 컴포넌트, 서브루틴(subroutine), 오브젝트(object) 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 유닛을 포함하여, 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은, 필요하지는 않지만, 파일 시스템 내의 파일에 대응할 수 있다. 프로그램은 다른 프로그램들 또는 데이터를 유지하는 파일의 부분(예를 들어, 마크업 언어 문서 내에 저장된 하나 이상의 스크립트들)내, 문제되는 프로그램에 전용되는 단일 파일 내 또는 다수의 조직화된 파일들(예를 들어, 하나 이상의 모듈들, 서브-프로그램들 또는 코드의 부분들을 저장하는 파일들) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 실행될 수 있도록 전개될 수 있고, 상기 하나의 컴퓨터 또는 다수의 컴퓨터들은 하나의 사이트(site)에 위치해 있거나 또는 다수의 사이트에 걸쳐 분산되어 있고 통신 네트워크에 의해 상호 접속되어 있다.
본 명세서에 기술된 프로세스들 및 논리 흐름들은 입력 데이터를 작동하고 출력을 생성함으로써, 하나 이상의 프로그램 가능한 컴퓨터들에 의해 수행될 수 있고, 상기 프로그램 가능한 컴퓨터들은 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행한다. 상기 프로세스들 및 논리 흐름들 및 구현될 수 있는 장치는 또한 예를 들면, FPGA(field programmable gate way array) 또는 ASIC(application specific integrated circuit)과 같은, 특수 목적 논리 회로에 의해 수행될 수 있다.
컴퓨터 프로그램의 실행을 위해 적합한 프로세서들은, 예시로서, 일반 및 특수 목적 마이크로프로세서들 둘다 및 디지털 컴퓨터의 임의의 종류의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 읽기-전용 메모리 또는 랜덤 액세서 메모리 또는 모두로부터 명령어들 및 데이터를 받을 것이다. 컴퓨터의 필수 요소들은 명령들에 부합되는 동작들을 수행하기 위한 프로세서 및 명령들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 하나 이상의 대량 저장 디바이스들, 예를 들면, 자기, 자기 광학 디스크들 또는 광학 디스크들을 포함하거나, 그로부터 데이터를 수신하거나 그에 데이터를 전송하거나 또는 둘다를 위해 하나 이상의 대량 저장 디바이스들에 동작적으로 연결될 수 있다. 그러나, 컴퓨터는 이러한 디바이스들을 포함할 필요가 없다. 게다가, 컴퓨터는, 몇 가지만 예를 들자면, 예를 들어, 모바일 텔레폰, PDA, 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, Global Positioning System(GPS) 수신기 또는 휴대용 저장 장치(예를 들어, universal serial bus(USB) 플래시 드라이브)와 같은, 다른 디바이스 내에 포함될 수 있다. 컴퓨터 프로그램 명령어들 및 데이터를 저장하기 위해 적합한 디바이스들은, 예를 들면, EPROM, EEPROM 및 플래시 메모리 디바이스들, 자기 디스크들, 예를 들면, 내장 하드 디스크 또는 탈착 가능한 디스크들, 자기 광학 디스크들 및 CD-ROM 및 DVD-ROM 디스크들과 같은, 반도체 메모리 디바이스들의 예시적인 방법에 의한 것을 포함하여 비휘발성 메모리, 미디어 및 메모리 디바이스들의 모든 형태들을 포함한다. 상기 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보충되거나, 특수 목적 논리 회로에 통합될 수 있다.
사용자와의 상호작용을 제공하기 위해, 본 명세서에 기술된 본 발명의 실시 예들은 예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터와 같은, 사용자에게 정보를 디스플레이 하기 위한 디스플레이 디바이스 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 예를 들면, 마우스 또는 트랙볼과 같은, 포인팅 디바이스를 가지는 컴퓨터 상에서 구현될 수 있다. 디바이스들의 다른 종류들은 또한 사용자와의 상호작용을 제공하기 위해 사용될 수 있다. 예를 들면, 사용자에게 제공된 피드백은 예를 들면, 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은, 감각 피드백의 임의의 종류일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하여, 임의의 형태로 수신될 수 있다. 부가적으로, 예를 들면, 웹 브라우저로부터 수신된 요청들에 대응하여 사용자의 클라이언트 디바이스 상의 웹 브라우저에 웹 페이지들을 보내는 것과 같이, 컴퓨터는 서류들을 보내고 사용자에 의해 사용되는 디바이스로부터 서류들을 수신함으로써, 사용자와 상호작용을 할 수 있다.
본 명세서에 기술된 본 발명의 실시 예들은 예를 들면, 데이터 서버로서, 컴퓨팅 시스템 내에서 구현될 수 있고, 상기 컴퓨팅 시스템은 백-엔드(back-end) 컴포넌트를 포함하거나 또는 예를 들면, 어플리케이션 서버와 같은, 미들웨어(middleware) 컴포넌트를 포함하거나 또는 예를 들면, 그래픽 사용자 인터페이스 또는 사용자가 본 명세서에 기술된 주제의 구현들과 상호작용하는 것을 통한 웹 브라우저를 가지는 클라이언트 컴퓨터와 같은, 프론트-엔드(front-end) 컴포넌트를 포함하거나 또는 이러한 하나 이상의 벡-엔드, 미들웨어, 또는 프론트-엔드 컴포넌트들의 임의의 조합을 포함한다. 상기 시스템의 컴포넌트들은 예를 들면, 통신 네트워크와 같은, 임의의 형태 또는 디지털 데이터 통신의 매체에 의해 상호연결 될 수 있다. 통신 네트워크들의 예시들은 local area network("LAN"), wide area network("WAN"), 인터-네트워크(예를 들어, 인터넷) 및 peer-to-peer networks(예를 들어, ad hoc peer-to-peer 네트워크)를 포함한다.
하나 이상의 컴퓨터들의 시스템은, 야기된 동작에서 또는 시스템으로 하여금 액션들을 수행하게 하는 시스템 상에 설치된 소프트웨어, 펌웨어, 하드웨어 또는 그들의 결합을 구비함으로써, 특정 동작들 또는 액션들을 수행하도록 구성될 수 있다. 하나 이상의 컴퓨터 프로그램들은, 데이터 처리 장치들에 의해 실행될 때 상기 장치들로 하여금 상기 액션들을 수행하게 하는 명령들을 포함함으로써, 특정 동작들 또는 액션들을 수행하도록 구성될 수 있다.
컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로로부터 원격이며 보통 통신 네트워크를 통해 상호작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터들 상에서 동작하고 각각에 대하여 클라이언트-서버 관계를 가지는 컴퓨터 프로그램들에 의해 발생한다. 일부 구현들에서, 서버는 데이터(예를 들어, HTML 페이지)를 클라이언트 서버에 전송한다(예를 들어, 데이터를 디스플레이 및 클라이언트 디바이스와 상호작용하는 사용자로부터 사용자 입력을 수신하는 것의 목적들을 위해).
본 명세서는 많은 특정 구현 세부사항들을 포함하나, 이들은 임의의 발명들의 범위 또는 청구 범위에 대한 제한으로서 해석되어서는 안되며, 오히려 특정 발명들의 특정 실시예들의 구체적인 특징들의 기술로서 해석될 수 있다. 별개 실시예들의 문맥 내의 본 명세서에서 기술된 특정 구성들은 또한 단일 실시예에서의 조합에서 구현될 수 있다. 역으로, 단일 실시예의 문맥에서 기술된 여러 구성들은 또한 다수의 구현들에서 별개적으로 또는 임의의 적합한 서브컴비네이션(subcombination)에서 구현될 수 있다. 게다가, 비록 구성들이 특정 조합들에서 동작하는 것으로서 상기 기술되었고, 이와 같이 초기에 청구되었지만, 청구된 조합으로부터의 하나 이상의 구성들은 일부들에서 상기 조합으로부터 제외될 수 있고, 상기 주장된 조합은 서브컴비네이션 또는 서브컴비네이션의 변형을 지시할 수 있다.
유사하게, 동작들이 도면들에서 특정 순서로 표시되나, 이는 바람직한 결과들을 달성하기 위해 이러한 동작들이 보여진 특정 순서 또는 순차적인 순서로 수행되어야 하는 것을 요구하는 것 또는 모든 도시된 동작들이 수행되어야 하는 것을 요구하는 것으로 이해되어서는 안된다. 특정 상황들에서, 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 또한, 상기 기술된 실시 예들에서 다양한 시스템 컴포넌트들의 분리는 모든 실시 예에서 이러한 분리를 요구하는 것으로 이해되어서는 안되고, 기술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 통합되거나 또는 다수의 소프트웨어 제품들로 패키징(package)될 수 있다는 것이 이해되어야 한다.
이와 같이, 본 발명의 특정 실시예들이 기술되었다. 다른 실시예들은 후속하는 청구 범위 내에 있다. 일부 경우들에서, 청구 범위에 기재된 동작들은 서로 다른 순서로 수행될 수 있고, 여전히 원하는 결과를 달성할 수 있다. 추가적으로, 첨부된 도면들에 도시된 프로세스들은 원하는 결과들을 달성하기 위해, 반드시 보여진 특정 순서 또는 순차적인 순서를 필요로 하지 않는다. 특정 실시예들에서, 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다.
도 3은 컴퓨팅 디바이스(300)의 예시 및 여기에 기술된 기술들을 구현하기 위해 사용될 수 있는 모바일 컴퓨팅 디바이스(350)를 도시한다. 컴퓨팅 디바이스(300)는 다양한 형태들의 디지털 컴퓨터들, 예를 들어, 랩탑들, 데스크탑들, 워크스테이션들, PDA들, 서버들, 블레이드 서버들, 메인 프레임들 및 다른 적합한 컴퓨터들을 나타내도록 의도된다. 모바일 컴퓨팅 디바이스(350)는 모바일 디바이스들의 다양한 형태들, 예를 들어, PDA들, 셀룰러 폰들, 스마트 폰들 및 다른 유사한 컴퓨팅 디바이스들을 나타내도록 의도된다. 여기에 도시된 컴포넌트들, 그 것들의 접속들 및 관계들, 그리고 그것들의 기능들은, 단지 예시적인 것을 의미하고, 제한하는 것을 의미하지 않는다.
*컴퓨팅 디바이스(300)는 프로세서(302), 메모리(304), 저장 디바이스(306), 상기 메모리(304) 및 다수의 고속 확장 포트들(310)과 연결되는 고속 인터페이스(308) 및 저속 확장 포트(314) 및 상기 저장 디바이스(306)와 연결되는 저속 인터페이스(312)를 포함한다. 상기 프로세서(302), 메모리(304), 저장 디바이스(306), 고속 인터페이스(308), 고속 확장 포트들(310) 및 저속 인터페이스(312) 각각은 다양한 버스들을 사용하여 상호접속되고, 공통의 마더보드 상에 또는 적합한 다른 방식들로 장착될 수 있다. 상기 프로세서(302)는 외부 입력/출력 디바이스, 예를 들어, 고속 인터페이스(308)에 연결된 디스플레이(316) 상의 GUI 에 대한 그래픽 정보를 디스플레이 하기 위해 메모리(304) 내에 저장되거나 또는 저장 디바이스(306) 상에 저장된 명령어들을 포함하는, 컴퓨팅 디바이스(300) 내에서 실행을 위한 명령어들을 처리할 수 있다. 다른 구현들에서, 다수의 프로세서들 및/또는 다수의 버스들은, 다수의 메모리들 및 메모리의 타입들에 따라, 적합하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들은 필요한 동작들의 부분들을 제공하는 각 디바이스(예를 들어, 서버 뱅크, 블레이드 서버들의 그룹 또는 멀티-프로세서 시스템으로서)와 연결될 수 있다.
*메모리(304)는 컴퓨팅 디바이스(300) 내에 정보를 저장한다. 일부 구현들에서, 메모리(304)는 휘발성 메모리 또는 유닛들이다. 일부 구현들에서, 메모리(304)는 비-휘발성 메모리 유닛 또는 유닛들이다. 상기 메모리(304)는 또한 컴퓨터-판독가능한 매체, 예를 들어, 자기 또는 광 디스크의 다른 형태일 수 있다.
저장 디바이스(306)는 컴퓨팅 디바이스(300)에 대량 스토리지(storage)를 제공할 수 있다. 일부 구현들에서, 저장 디바이스(306)는 컴퓨터-판독가능한 매체, 예를 들어, 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스 또는 테이프 디바이스, 플래시 메모리 또는 다른 유사한 고체 상태 메모리 디바이스 또는 디바이스들의 어레이(저장 영역 네트워크 또는 다른 구성들 내의 디바이스를 포함)일 수 있거나 상기 컴퓨터-판독가능한 매체를 포함할 수 있다. 명령어들은 정보 캐리어 내에 저장될 수 있다. 상기 명령어들은, 하나 이상의 프로세싱 디바이스들(예를 들면, 프로세서(302))에 의해 실행될 때, 예를 들어, 상기 기술된 것들과 같은, 하나 이상의 방법들을 수행한다. 상기 명령어들은 또한, 예를 들어, 컴퓨터-판독가능한 매체 또는 기계-판독가능한 매체와 같은, 하나 이상의 저장 디바이스들(예를 들어, 메모리(304), 저장 디바이스(306) 또는 상기 프로세서(302)상의 메모리)에 의해 저장될 수 있다.
고속 인터페이스(308)는 컴퓨팅 디바이스(300)에 대한 대역폭-집약적인 동작들을 관리하는 반면에, 저속 인터페이스(312)는 더 낮은 대역폭-집약적인 동작들을 관리한다. 이와 같은 기능들의 할당은 단지 예시적이다. 일부 구현들에서, 고속 인터페이스(308)는 메모리(304), 디스플레이(316) 및 고속 확장 포트들(310)에 연결 (예를 들면, 그래픽 프로세서 또는 엑셀레이터를 통해) 되고, 상기 고속 확장 포트들(310)은 여러 확장 카드들(미도시)을 수용할 수 있다. 상기 구현에서, 저속 인터페이스(312)는 저장 디바이스(306) 및 저속 확장 포트(314)에 연결된다. 여러 통신 포트들(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)을 포함할 수 있는, 저속 확장 포트(314)는, 하나 이상의 입력/출력 디바이스들, 예를 들어, 키보드, 포인팅 디바이스, 스위치 또는 네트워크 어댑터를 통한 스위치 또는 라우터와 같은, 네트워킹 디바이스에 연결될 수 있다.
컴퓨팅 디바이스(300)는, 도면에서 도시된 것처럼, 복수의 서로 다른 형태들로 구현될 수 있다. 예를 들면, 표준 서버(320)로서, 또는 그와 같은 서버들의 그룹으로 여러 번 구현될 수 있다. 또한, 컴퓨팅 디바이스(300)는 랩탑 컴퓨터(322)와 같은 개인용 컴퓨터로 구현될 수 있다. 컴퓨팅 디바이스(300)는 또한 랙 서버 시스템(324)의 부분으로서 구현될 수 있다. 대안적으로, 컴퓨팅 디바이스(300)로부터의 컴포넌트들은, 모바일 컴퓨팅 디바이스(350)와 같은 모바일 컴퓨팅 디바이스(미도시) 내의 다른 컴포넌트들과 결합될 수 있다. 그와 같은 디바이스들 각각은, 하나 이상의 컴퓨팅 디바이스(300) 및 모바일 컴퓨팅 디바이스(350)를 포함할 수 있고, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 디바이스들로 구성될 수 있다.
*모바일 컴퓨팅 디바이스(350)는, 다른 컴포넌트들 사이에서, 프로세서(352), 메모리(364), 디스플레이(354)와 같은 입력/출력 디바이스, 통신 인터페이스(366) 및 트랜시버(368)를 포함한다. 모바일 컴퓨팅 디바이스(350)는 또한 추가적인 저장을 제공하기 위해, 마이크로-드라이브와 같은 저장 디바이스 또는 다른 디바이스가 제공될 수 있다. 상기 프로세서(352), 메모리(364), 디스플레이(354), 통신 인터페이스(366) 및 트랜시버(368) 각각은 여러 버스들을 사용하여 상호접속되고, 상기 컴포넌트들 중 다수는 공통의 마더보드 상에 또는 적합한 다른 방식들로 장착될 수 있다.
프로세서(352)는 메모리(364) 내에 저장되는 명령어들을 포함하는, 모바일 컴퓨팅 디바이스(350) 내의 명령어들을 실행할 수 있다. 상기 프로세서는 독립된 다수의 아날로그 및 디지털 프로세서들을 포함하는 칩들의 칩셋으로 구현될 수 있다. 상기 프로세서는, 예를 들면, 사용자 인터페이스들의 제어와 같은, 모바일 컴퓨팅 디바이스(350)의 다른 컴포넌트들의 조정을 위해, 모바일 컴퓨팅 디바이스(350)에 의해 구동되는 어플리케이션들 및 모바일 컴퓨팅 디바이스(350)에 의한 무선 통신을 제공할 수 있다.
프로세서(352)는 디스플레이(354)와 연결된 제어 인터페이스(358) 및 디스플레이 인터페이스(356)를 통해, 사용자와 통신할 수 있다. 디스플레이(354)는, 예를 들면, TFT(Thin-Film-Transistor Liquid Crystal Display) 디스플레이 또는 OLED(Organic Light Emitting Diode) 디스플레이 또는 다른 적합한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(356)는 그래픽 및 다른 정보를 사용자에게 제공하기 위해, 디스플레이(354)를 구동하는 적합한 회로를 포함할 수 있다. 상기 제어 인터페이스(358)는 사용자로부터 명령어들을 수신할 수 있고, 프로세서(352)로의 제공을 위해 명령어들을 변환할 수 있다, 또한, 외부 인터페이스(362)는 다른 디바이스들과 모바일 컴퓨팅 디바이스(350)의 근거리 통신을 가능하게 하도록, 프로세서(352)와의 통신에 제공될 수 있다. 외부 인터페이스(362)는, 예를 들면, 일부 구현들에서 유선 통신을 제공할 수 있거나, 또는 구현들에서 무선 통신을 제공할 수 있으며, 다수의 인터페이스들이 또한 사용될 수 있다.
메모리(364)는 모바일 컴퓨팅 디바이스(350) 내에 정보를 저장한다. 상기 메모리(364)는 하나 이상의 컴퓨터-판독가능한 매체 또는 매체들, 휘발성 메모리 유닛 또는 유닛들, 또는 비-휘발성 메모리 유닛 또는 유닛들로서 구현될 수 있다. 확장 인터페이스(374)는 또한 확장 인터페이스(372)를 통해 디바이스(350)에 제공될 수 있거나 접속될 수 있고, 상기 확장 인터페이스(372)는, 예를 들면, SIMM(Single In Line Memory Module) 카드 인터페이스를 포함할 수 있다. 상기 확장 메모리(374)는 모바일 컴퓨팅 디바이스(350)를 위한 여분의 저장 공간을 제공할 수 있거나, 또는 모바일 컴퓨팅 디바이스(350)를 위한 어플리케이션 또는 다른 정보를 저장할 수 있다. 특히, 상기 확장 메모리(374)는 상기 기술된 프로세스들을 실행하거나 보충하기 위한 명령어들을 포함할 수 있고, 그리고 또한 보안 정보를 포함할 수 있다. 따라서, 예를 들면, 확장 메모리(374)는 모바일 컴퓨팅 디바이스(350)에 대한 보안 모듈로서 제공될 수 있고, 모바일 컴퓨팅 디바이스(350)의 안전한 사용을 허용하는 명령어들로 프로그래밍 될 수 있다. 부가적으로, 보안 어플리케이션들은, 해킹할 수 없는 방식으로 SIMM 카드 상의 정보를 식별하는 것을 배치하는 것처럼, 추가 정보에 따라, SIMM 카드들을 통해 제공될 수 있다.
상기 메모리는, 예를 들면, 하기에서 논의된 것처럼, 플래시 메모리 및/또는 NVRAM 메모리(non-volatile random access memory)를 포함할 수 있다. 일부 구현들에서, 상기 기술된 것들과 같이, 명령어들은 정보 캐리어 내에 저장되며, 상기 정보 캐리어는 명령어들이, 하나 이상의 프로세싱 디바이스들(예를 들면, 프로세서(352))에 의해 실행될 때, 하나 이상의 방법들을 수행한다. 명령어들은 또한, 예를 들어, 하나 이상의 컴퓨터-판독가능한 매체 또는 기계-판독가능한 매체들(예를 들면, 메모리(364), 확장 메모리(374) 또는 프로세서(352)상의 메모리)과 같은, 하나 이상의 저장 디바이스들에 의해 저장될 수 있다. 일부 구현들에서, 상기 명령어들은, 예를 들면, 트랜시버(368) 또는 외부 인터페이스(362)를 통해, 전파된 신호 내에서 수신될 수 있다.
*모바일 컴퓨팅 디바이스(350)는 통신 인터페이스(366)을 통해 무선으로 통신할 수 있고, 상기 통신 인터페이스(366)는 필요한 디지털 신호 처리 회로를 포함할 수 있다. 통신 인터페이스(366)는 다른 것들 중에서, GSM 음성 호출들(Global System for Mobile communications), SMS(Short Message Service), EMS(Enhanced Messaging Service) 또는 MMS 메시징(Multimedia Messaging Service), CDMA(code division multiple access), TDMA(time division multiple access), PDC(Personal Digital Celluar), WCDMA(Wideband Code Division Multiple Access)m CDMA2000 또는 GPRS(General Packet Radio Service)와 같은, 여러 모드들 또는 프로토콜들 하에서 통신들을 제공할 수 있다. 이러한 통신은, 예를 들면, 무선-주파수를 사용하는 트랜시버(368)를 통해 발생할 수 있다. 부가적으로, 단거리 통신은, 예를 들어 블루투스, WiFi 또는 다른 이러한 트랜시버(미도시)를 사용하여, 발생할 수 있다. 부가적으로, GPS(Global Positioning System) 수신기 모듈(370)은 모바일 컴퓨팅 디바이스(350)에 추가적인 내비게이션-관련 무선 데이터 및 위치-관련 무선 데이터를 제공할 수 있고, 상기 모바일 컴퓨팅 디바이스(350)는 모바일 컴퓨팅 디바이스(350) 상에서 구동하는 어플리케이션들에 의해 적합하게 사용될 수 있다.
모바일 컴퓨팅 디바이스(350)는 또한 오디오 코덱(360)을 사용하여 오디오적으로 통신할 수 있고, 상기 오디오 코덱(360)은 사용자로부터 음성 정보를 수신할 수 있고, 상기 음성 정보를 사용가능한 디지털 정보로 변환한다. 오디오 코덱(360)은 또한, 예를 들어, 모바일 컴퓨팅 디바이스(350)의 핸드세트(hand set) 내에서, 스피커를 통해, 사용자를 위한 들을 수 있는 소리를 발생시킬 수 있다. 이러한 소리는 음성 전화 호출들로부터 소리를 포함할 수 있고, 기록된 소리(예를 들면, 음성 메시지들, 음악 파일들, 등)를 포함할 수 있으며, 또한 모바일 컴퓨팅 디바이스(350) 상에서 동작하는 어플리케이션들에 의해 발생된 소리를 포함할 수 있다.
모바일 컴퓨팅 디바이스(350)는, 도면에서 도시된 것처럼, 다수의 서로 다른 형태들로 구현될 수 있다. 예를 들면, 상기 모바일 컴퓨팅 디바이스(350)는 셀룰러 텔레폰(380)으로서 구현될 수 있다. 모바일 컴퓨팅 디바이스(350)는 또한 스마트-폰(382), PDA 또는 다른 유사한 모바일 컴퓨팅 디바이스의 일부로서 구현될 수 있다.
본 명세서에서 기술되는 시스템들 및 기술들의 여러 구현들은, 디지털 전자 회로, 집적 회로, 특정하게 설계된 ASIC(application specific integrated circuits)들, 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 그것들의 조합으로 구현될 수 있다. 이러한 여러 구현들은, 적어도 하나의 프로그래밍 가능한 프로세서를 포함하는 프로그래밍 가능한 시스템 상에서 실행가능하고 및/또는 해석가능한 하나 이상의 컴퓨터 프로그램들 내의 구현을 포함할 수 있고, 상기 적어도 하나의 프로그래밍 가능한 프로세서는, 저장 시스템, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하고, 상기 저장 시스템, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스에 명령어들을 전송하기 위해 연결된, 특수용 또는 범용인 프로세서일 수 있다.
컴퓨터 프로그램(또한 프로그램, 소프트웨어, 소프트웨어 어플리케이션 또는 코드로 알려짐)은, 프로그래밍 가능한 프로세서를 위한 기계 명령어들을 포함하고, 하이-레벨 절차 및/또는 객체-지향 프로그래밍 언어 및/또는 어셈블리/기계 언어로 구현될 수 있다. 여기에서 사용된 것처럼, 용어 기계-판독가능한 매체 및 컴퓨터-판독가능한 매체는 기계 명령어들 및/또는 데이터를 프로그래밍 가능한 프로세서에 제공하기 위해 사용되는 임의의 컴퓨터 프로그램 제품, 장치 및/또는 디바이스(예를 들어, 자기 디스크들, 광학 디스크들, 메모리, 프로그래밍 가능한 로직 디바이스들(PLDs))을 언급하고, 기계-판독가능한 신호로서 기계 명령어들을 수신하는 기계-판독가능한 매체를 포함한다. 용어 기계-판독가능한 신호는 기계 명령어들 및/또는 데이터를 프로그래밍 가능한 프로세서에 제공하기 위해 사용되는 임의의 신호를 언급한다.
사용자와의 상호대화를 제공하기 위해, 본 명세서에서 기술되는 시스템들 및 기술들은, 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스(예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터) 및 사용자가 입력을 컴퓨터에 제공할 수 있는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 가지는 컴퓨터상에 구현될 수 있다. 다른 종류의 디바이스들은 또한 사용자에게 상호작용을 제공하기 위해 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백(예를 들어, 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고; 그리고 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다.
본 명세서에서 기술되는 시스템들 및 기술들은, 백 엔트 컴포넌트(예를 들어, 데이터 서버)를 포함하거나 또는 미들웨어 컴포넌트(예를 들어, 어플리케이션 서버)를 포함하거나 또는 프론트 엔트 컴포넌트(예를 들어, 사용자가 본 명세서에서 서술되는 시스템들 및 기술들의 구현과 상호대화할 수 있는 그래픽 사용자 인터페이스 또는 웹 브라우저를 가지는 클라이언트 컴퓨터) 또는 그와 같은 백 엔트, 미들웨어 또는 프론트 엔트 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)에 의해 상호접속 될 수 있다. 통신 네트워크의 예들은 LAN(local area network), WAN(wide area network) 및 인터넷을 포함한다.
컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로로부터 원격이며 보통 통신 네트워크를 통해 상호작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터들 상에서 동작하고 각각에 대하여 클라이언트-서버 관계를 가지는 컴퓨터 프로그램들에 의해 발생한다.
비록 약간의 구현들이 상기에 상세히 기술되었지만, 다른 변형들이 가능하다. 예를 들면, 클라이언트 어플리케이션이 델리게이트(delegate)(들)에 접근하는 것으로서 기술된 반면에, 다른 구현들에서는, 델리게이트(들)은 예컨데, 하나 이상의 서버들 상에서 실행하는 어플리케이션과 같은, 하나 이상의 프로세서들에 의해 구현되는 다른 어플리케이션들에 의해 이용될 수 있다. 추가적으로, 도면들에 도시된 논리 흐름들은 원하는 결과들을 얻기 위해, 도시된 특정 순서 또는 순차적인 순서를 요구하지 않는다. 추가적으로, 다른 단계들은, 기술된 흐름들로부터 제공될 수 있거나 제거될 수 있으며, 다른 컴포넌트들은 기술된 시스템들에 추가될 수 있거나 기술된 시스템들로부터 제거될 수 있다. 따라서, 다른 구현들은 후술하는 청구 범위 내에 있다.

Claims (19)

  1. 컴퓨터로 구현되는 방법에 있어서,
    음성-기반 화자 식별(voice-based speaker identification)을 사용하는 컴퓨팅 디바이스에 의해, 상기 컴퓨팅 디바이스에 의해 이전에 수신된 발화를 식별하는 데이터 및 사용자가 발화했을 가능성이 있음을 나타내는 데이터를 수신하는 단계;
    사용자가 발화를 했는지 확인하도록 사용자에게 프롬프트하는 단계;
    사용자가 발화를 했다는 것을 확인함을 나타내는 데이터를 사용자로부터 수신하는 단계; 및
    사용자가 발화를 했다는 것을 확인함을 나타내는 데이터를 수신하는 것에 응답하여, 컴퓨팅 디바이스에 의해 이전에 수신된 발화에 대응하는 오디오 데이터를 사용하여 상기 이전에 수신된 발화와 공유된 특성을 갖는 후속하여 수신되는 발화에 대한 음성-기반 화자 식별을 수행하는 단계를 포함하며,
    상기 공유된 특성은 i) 동일한 배경 잡음 범위내의 배경 잡음의 양, ii) 동일한 음량 범위 내의 음량의 양 또는 동일한 신호-대-잡음비 범위 내의 신호-대-잡음비를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  2. 제1항에 있어서,
    음성-기반 화자 식별 이외의 기술(technique)을 이용하여 사용자의 신원을 인식하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  3. 제2항에 있어서,
    음성-기반 화자 식별 이외의 기술을 사용하여 사용자의 신원을 인식하는 단계는 사용자에게 패스워드를 프롬프트하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  4. 제1항에 있어서,
    컴퓨팅 디바이스에 의해 이전에 수신된 발화 및 후속하여 수신된 발화 각각은 사전 정의된 핫워드(hotword)를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  5. 제1항에 있어서,
    상기 배경 노이즈의 양은 이전에 수신된 발화 및 후속하여 수신된 발화를 수신하기 전에 측정되는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  6. 제1항에 있어서,
    사용자가 발화를 했는지 확인하도록 사용자에게 프롬프트하는 단계는, 발화가 수신된 날짜 및 시간을 나타내는 데이터를 디스플레이를 위해 제공하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  7. 시스템에 있어서,
    하나 이상의 컴퓨터들 및 동작 가능한 명령들을 저장하는 하나 이상의 저장 디바이스들을 포함하며, 상기 명령들은 하나 이상의 컴퓨터에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며,
    상기 동작들은:
    음성-기반 화자 식별(voice-based speaker identification)을 사용하는 컴퓨팅 디바이스에 의해, 상기 컴퓨팅 디바이스에 의해 이전에 수신된 발화를 식별하는 데이터 및 사용자가 발화했을 가능성이 있음을 나타내는 데이터를 수신하는 단계;
    사용자가 발화를 했는지 확인하도록 사용자에게 프롬프트하는 단계;
    사용자가 발화를 했다는 것을 확인했음을 나타내는 데이터를 사용자로부터 수신하는 단계; 및
    사용자가 발화를 했다는 것을 확인했음을 나타내는 데이터를 수신하는 것에 응답하여, 컴퓨팅 디바이스에 의해 이전에 수신된 발화에 대응하는 오디오 데이터를 사용하여 상기 이전에 수신된 발화와 공유된 특성을 갖는 후속하여 수신되는 발화에 대한 음성-기반 화자 식별을 수행하는 단계를 포함하며,
    상기 공유된 특성은 i) 동일한 배경 잡음 범위내의 배경 잡음의 양, ii) 동일한 음량 범위 내의 음량의 양 또는 iii) 동일한 신호-대-잡음비 범위 내의 신호-대-잡음비를 포함하는 것을 특징으로 하는 시스템.
  8. 제7항에 있어서, 상기 동작들은
    음성-기반 화자 식별 이외의 기술(technique)을 이용하여 사용자의 신원을 인식하는 단계를 더 포함하는 것을 특징으로 하는 시스템.
  9. 제8항에 있어서,
    음성-기반 화자 식별 이외의 기술을 사용하여 사용자의 신원을 인식하는 단계는 사용자에게 패스워드를 프롬프트하는 단계를 포함하는 것을 특징으로 하는 시스템.
  10. 제7항에 있어서,
    컴퓨팅 디바이스에 의해 이전에 수신된 발화 및 후속하여 수신된 발화 각각은 사전 정의된 핫워드(hotword)를 포함하는 것을 특징으로 하는 시스템.
  11. 제7항에 있어서,
    배경 노이즈의 양은 이전에 수신된 발화 및 후속하여 수신된 발화를 수신하기 전에 측정되는 것을 특징으로 하는 시스템.
  12. 제7항에 있어서,
    사용자가 발화를 했는지 확인하도록 사용자에게 프롬프트하는 단계는, 발화가 수신된 날짜 및 시간을 나타내는 데이터를 디스플레이를 위해 제공하는 단계를 포함하는 것을 특징으로 하는 시스템.
  13. 하나 이상의 컴퓨터들에 의해 실행 가능한 명령들을 포함하는 소프트웨어를 저장하는 비 일시적 컴퓨터 판독 가능 매체로서, 상기 명령들은 실행시에, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며,
    상기 동작들은:
    음성-기반 화자 식별(voice-based speaker identification)을 사용하는 컴퓨팅 디바이스에 의해, 상기 컴퓨팅 디바이스에 의해 이전에 수신된 발화를 식별하는 데이터 및 사용자가 발화했을 가능성이 있음을 나타내는 데이터를 수신하는 단계;
    사용자가 발화를 했는지 확인하도록 사용자에게 프롬프트하는 단계;
    사용자가 발화를 했다는 것을 확인했음을 나타내는 데이터를 사용자로부터 수신하는 단계; 및
    사용자가 발화를 했다는 것을 확인했음을 나타내는 데이터를 수신하는 것에 응답하여, 컴퓨팅 디바이스에 의해 이전에 수신된 발화에 대응하는 오디오 데이터를 사용하여 상기 이전에 수신된 발화와 공유된 특성을 갖는 후속하여 수신되는 발화에 대한 음성-기반 화자 식별을 수행하는 단계를 포함하며,
    상기 공유된 특성은 i) 동일한 배경 잡음 범위내의 배경 잡음의 양, ii) 동일한 음량 범위 내의 음량의 양 또는 동일한 신호-대-잡음비 범위 내의 신호-대-잡음비를 포함하는 것을 특징으로 하는 매체.
  14. 제13항에 있어서,
    컴퓨팅 디바이스에 의해 이전에 수신된 발화 및 후속하여 수신된 발화 각각은 사전 정의된 핫워드(hotword)를 포함하는 것을 특징으로 하는 매체.
  15. 제13항에 있어서,
    상기 동작들은
    음성-기반 화자 식별 이외의 기술(technique)을 이용하여 사용자의 신원을 인식하는 단계를 더 포함하는 것을 특징으로 하는 매체.
  16. 제15항에 있어서,
    음성-기반 화자 식별 이외의 기술을 사용하여 사용자의 신원을 인식하는 단계는 사용자에게 패스워드를 프롬프트하는 단계를 포함하는 것을 특징으로 하는 매체.
  17. 제13항에 있어서,
    배경 노이즈의 양은 이전에 수신된 발화 및 후속하여 수신된 발화를 수신하기 전에 측정되는 것을 특징으로 하는 매체
  18. 제13항에 있어서,
    사용자가 발화를 했는지 확인하도록 사용자에게 프롬프트하는 단계는, 발화가 수신된 날짜 및 시간을 나타내는 데이터를 디스플레이용으로 제공하는 단계를 포함하는 것을 특징으로 하는 매체.
  19. 컴퓨터로 구현되는 방법에 있어서,
    음성-기반 화자 식별(voice-based speaker identification)을 사용하는 컴퓨팅 디바이스에 의해, 상기 컴퓨팅 디바이스에 의해 이전에 수신된 발화를 식별하는 데이터 및 사용자가 발화했을 가능성이 있음을 나타내는 데이터를 수신하는 단계;
    디스플레이를 위해, 사용자가 발화를 했는지 확인하도록 사용자에게 프롬프트하는 단계, 상기 프롬프트는 발화가 수신된 날짜 및 시간을 나타내고;
    사용자가 발화를 했다는 것을 확인했음을 나타내는 데이터를 사용자로부터 수신하는 단계; 및
    사용자가 발화를 했다는 것을 확인했음을 나타내는 데이터를 수신하는 것에 응답하여, 컴퓨팅 디바이스에 의해 이전에 수신된 발화에 대응하는 오디오 데이터를 사용하여 후속하여 수신되는 발화에 대한 음성-기반 화자 식별을 수행하는 단계;를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.





KR1020187002191A 2014-06-24 2015-05-01 화자 검증을 위한 동적 임계치 KR20180011361A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462016384P 2014-06-24 2014-06-24
US62/016,384 2014-06-24
US14/340,720 2014-07-25
US14/340,720 US9384738B2 (en) 2014-06-24 2014-07-25 Dynamic threshold for speaker verification
PCT/US2015/028859 WO2015199813A1 (en) 2014-06-24 2015-05-01 Dynamic threshold for speaker verification

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020167020986A Division KR101824157B1 (ko) 2014-06-24 2015-05-01 화자 검증을 위한 동적 임계치

Publications (1)

Publication Number Publication Date
KR20180011361A true KR20180011361A (ko) 2018-01-31

Family

ID=54870212

Family Applications (4)

Application Number Title Priority Date Filing Date
KR1020187002192A KR20180014176A (ko) 2014-06-24 2015-05-01 화자 검증을 위한 동적 임계치
KR1020167020986A KR101824157B1 (ko) 2014-06-24 2015-05-01 화자 검증을 위한 동적 임계치
KR1020167021187A KR101824158B1 (ko) 2014-06-24 2015-05-01 화자 검증을 위한 동적 임계치
KR1020187002191A KR20180011361A (ko) 2014-06-24 2015-05-01 화자 검증을 위한 동적 임계치

Family Applications Before (3)

Application Number Title Priority Date Filing Date
KR1020187002192A KR20180014176A (ko) 2014-06-24 2015-05-01 화자 검증을 위한 동적 임계치
KR1020167020986A KR101824157B1 (ko) 2014-06-24 2015-05-01 화자 검증을 위한 동적 임계치
KR1020167021187A KR101824158B1 (ko) 2014-06-24 2015-05-01 화자 검증을 위한 동적 임계치

Country Status (6)

Country Link
US (4) US9384738B2 (ko)
EP (4) EP3100261B1 (ko)
JP (2) JP6474827B2 (ko)
KR (4) KR20180014176A (ko)
CN (2) CN105960628B (ko)
WO (1) WO2015199813A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190110728A (ko) * 2018-03-21 2019-10-01 현대모비스 주식회사 음성 화자 인식 장치 및 그 방법
KR20200041671A (ko) * 2018-10-12 2020-04-22 삼성전자주식회사 전자 장치 및 그 제어 방법
US12002475B2 (en) 2018-10-12 2024-06-04 Samsung Electronics Co., Ltd. Electronic device performing speaker recognition and control method thereof

Families Citing this family (192)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
LT4913B (lt) 2000-06-15 2002-05-27 G. Uždavinio Įmonė "Žara" Grūdų produkto receptūrinė kompozicija
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US11064250B2 (en) 2013-03-15 2021-07-13 Google Llc Presence and authentication for media measurement
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10541997B2 (en) 2016-12-30 2020-01-21 Google Llc Authentication of packetized audio signals
US10719591B1 (en) 2013-03-15 2020-07-21 Google Llc Authentication of audio-based input signals
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US11942095B2 (en) * 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US9542941B1 (en) * 2015-10-01 2017-01-10 Lenovo (Singapore) Pte. Ltd. Situationally suspending wakeup word to enable voice command input
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10311219B2 (en) * 2016-06-07 2019-06-04 Vocalzoom Systems Ltd. Device, system, and method of user authentication utilizing an optical microphone
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10438583B2 (en) * 2016-07-20 2019-10-08 Lenovo (Singapore) Pte. Ltd. Natural language voice assistant
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
GB2552722A (en) 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
GB2552723A (en) 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
FR3058558B1 (fr) * 2016-11-07 2020-01-10 Pw Group Procede et systeme d'authentification par biometrie vocale d'un utilisateur
GB2555661A (en) * 2016-11-07 2018-05-09 Cirrus Logic Int Semiconductor Ltd Methods and apparatus for biometric authentication in an electronic device
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR102653450B1 (ko) * 2017-01-09 2024-04-02 삼성전자주식회사 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치
US10878831B2 (en) 2017-01-12 2020-12-29 Qualcomm Incorporated Characteristic-based speech codebook selection
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
KR102622356B1 (ko) * 2017-04-20 2024-01-08 구글 엘엘씨 장치에 대한 다중 사용자 인증
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10664533B2 (en) 2017-05-24 2020-05-26 Lenovo (Singapore) Pte. Ltd. Systems and methods to determine response cue for digital assistant based on context
KR102371313B1 (ko) * 2017-05-29 2022-03-08 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
GB2578386B (en) 2017-06-27 2021-12-01 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
CN109427336B (zh) * 2017-09-01 2020-06-16 华为技术有限公司 语音对象识别方法及装置
KR102087202B1 (ko) * 2017-09-13 2020-03-10 (주)파워보이스 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10896673B1 (en) * 2017-09-21 2021-01-19 Wells Fargo Bank, N.A. Authentication of impaired voices
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201803570D0 (en) 2017-10-13 2018-04-18 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801663D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801661D0 (en) 2017-10-13 2018-03-21 Cirrus Logic International Uk Ltd Detection of liveness
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801874D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Improving robustness of speech processing system against ultrasound and dolphin attacks
CN108305615B (zh) * 2017-10-23 2020-06-16 腾讯科技(深圳)有限公司 一种对象识别方法及其设备、存储介质、终端
CN108064007A (zh) * 2017-11-07 2018-05-22 苏宁云商集团股份有限公司 用于智能音箱的增强人声识别的方法及微控制器和智能音箱
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
US10102858B1 (en) 2017-11-29 2018-10-16 International Business Machines Corporation Dynamically changing audio keywords
US10482878B2 (en) * 2017-11-29 2019-11-19 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10157611B1 (en) * 2017-11-29 2018-12-18 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
GB2608710B (en) * 2018-01-23 2023-05-17 Cirrus Logic Int Semiconductor Ltd Speaker identification
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
KR102585231B1 (ko) * 2018-02-02 2023-10-05 삼성전자주식회사 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
WO2019212221A1 (ko) * 2018-05-04 2019-11-07 삼성전자 주식회사 음성 입력 인증 디바이스 및 그 방법
KR102531654B1 (ko) * 2018-05-04 2023-05-11 삼성전자주식회사 음성 입력 인증 디바이스 및 그 방법
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
CN108735221A (zh) * 2018-05-28 2018-11-02 深圳市街角电子商务有限公司 一种基于深度学习的说话人识别系统及识别方法
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
CN110634489B (zh) * 2018-06-25 2022-01-14 科大讯飞股份有限公司 一种声纹确认方法、装置、设备及可读存储介质
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
KR102621881B1 (ko) * 2018-09-05 2024-01-05 주식회사 케이티 상담사와 상담하는 화자를 인증하는 서버 및 방법
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
KR102623246B1 (ko) * 2018-10-12 2024-01-11 삼성전자주식회사 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체.
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
KR102655628B1 (ko) * 2018-11-22 2024-04-09 삼성전자주식회사 발화의 음성 데이터를 처리하는 방법 및 장치
KR20200066149A (ko) * 2018-11-30 2020-06-09 삼성전자주식회사 사용자 인증 방법 및 장치
WO2020111880A1 (en) 2018-11-30 2020-06-04 Samsung Electronics Co., Ltd. User authentication method and apparatus
US11232788B2 (en) * 2018-12-10 2022-01-25 Amazon Technologies, Inc. Wakeword detection
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN109448725A (zh) * 2019-01-11 2019-03-08 百度在线网络技术(北京)有限公司 一种语音交互设备唤醒方法、装置、设备及存储介质
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
WO2020213996A1 (en) * 2019-04-17 2020-10-22 Samsung Electronics Co., Ltd. Method and apparatus for interrupt detection
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
WO2021123462A1 (es) * 2019-12-16 2021-06-24 Sigma Technologies, S.L. Método y sistema para estimar características de hablante sobre la marcha para hablante desconocido con alta precisión y baja latencia
US11526688B2 (en) * 2020-04-16 2022-12-13 International Business Machines Corporation Discovering ranked domain relevant terms using knowledge
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11664033B2 (en) * 2020-06-15 2023-05-30 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
CN111508503B (zh) * 2020-06-16 2020-10-20 北京爱数智慧科技有限公司 一种识别同一说话人的方法和装置
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11521604B2 (en) 2020-09-03 2022-12-06 Google Llc User mediation for hotword/keyword detection
KR20220111574A (ko) 2021-02-02 2022-08-09 삼성전자주식회사 전자 장치 및 그 제어 방법
CN112951247A (zh) * 2021-03-23 2021-06-11 上海掌数科技有限公司 一种基于应用场景进行声纹快速验证的方法及其应用
CN113160822B (zh) * 2021-04-30 2023-05-30 北京百度网讯科技有限公司 语音识别处理方法、装置、电子设备以及存储介质
CN114203178B (zh) * 2021-12-10 2022-09-20 镁佳(北京)科技有限公司 一种智能语音系统拒识方法、装置及计算机设备
US11861521B2 (en) 2021-12-21 2024-01-02 PolyAI Limited System and method for identification and verification

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01321499A (ja) * 1988-06-23 1989-12-27 Matsushita Electric Ind Co Ltd 音声認識装置
GB9021489D0 (en) 1990-10-03 1990-11-14 Ensigma Ltd Methods and apparatus for verifying the originator of a sequence of operations
US6081782A (en) 1993-12-29 2000-06-27 Lucent Technologies Inc. Voice command control and verification system
JP3522421B2 (ja) * 1995-10-31 2004-04-26 株式会社リコー 話者認識システムおよび話者認識方法
US5893057A (en) 1995-10-24 1999-04-06 Ricoh Company Ltd. Voice-based verification and identification methods and systems
US6073101A (en) 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
EP0856832A1 (fr) * 1997-02-03 1998-08-05 Koninklijke Philips Electronics N.V. Procédé de reconnaissance vocale de mots et dispositif dans lequel ledit procédé est mis en application
US6847717B1 (en) * 1997-05-27 2005-01-25 Jbc Knowledge Ventures, L.P. Method of accessing a dial-up service
US6107935A (en) 1998-02-11 2000-08-22 International Business Machines Corporation Systems and methods for access filtering employing relaxed recognition constraints
JP2002506241A (ja) * 1998-03-03 2002-02-26 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 話者照合の多重解像システム及び方法
US6253179B1 (en) 1999-01-29 2001-06-26 International Business Machines Corporation Method and apparatus for multi-environment speaker verification
DE10000973A1 (de) 2000-01-06 2001-07-12 Deutsche Telekom Ag Verfahren zur sprachgesteuerten Identifizierung des Nutzers eines Telekommunikationsanschlusses im Telekommunikationsnetz beim Dialog mit einem sprachgesteuerten Dialogsystem
JP3849841B2 (ja) * 2000-03-15 2006-11-22 オムロン株式会社 話者認識装置
JP2001319045A (ja) 2000-05-11 2001-11-16 Matsushita Electric Works Ltd 音声マンマシンインタフェースを用いたホームエージェントシステム、及びプログラム記録媒体
US6735562B1 (en) 2000-06-05 2004-05-11 Motorola, Inc. Method for estimating a confidence measure for a speech recognition system
US20040190688A1 (en) * 2003-03-31 2004-09-30 Timmins Timothy A. Communications methods and systems using voiceprints
US6973426B1 (en) 2000-12-29 2005-12-06 Cisco Technology, Inc. Method and apparatus for performing speaker verification based on speaker independent recognition of commands
US6804647B1 (en) * 2001-03-13 2004-10-12 Nuance Communications Method and system for on-line unsupervised adaptation in speaker verification
JP2002329118A (ja) * 2001-04-26 2002-11-15 Ricoh Co Ltd 経営者向け情報提供方法、サーバ装置、およびプログラム
DE60213595T2 (de) 2001-05-10 2007-08-09 Koninklijke Philips Electronics N.V. Hintergrundlernen von sprecherstimmen
US20020178004A1 (en) * 2001-05-23 2002-11-28 Chienchung Chang Method and apparatus for voice recognition
EP1262954A1 (en) * 2001-05-30 2002-12-04 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for verbal entry of digits or commands
JP3826032B2 (ja) 2001-12-28 2006-09-27 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
US7203652B1 (en) 2002-02-21 2007-04-10 Nuance Communications Method and system for improving robustness in a speech system
US7113169B2 (en) * 2002-03-18 2006-09-26 The United States Of America As Represented By The Secretary Of The Air Force Apparatus and method for a multiple-user interface to interactive information displays
US7079007B2 (en) 2002-04-19 2006-07-18 Cross Match Technologies, Inc. Systems and methods utilizing biometric data
US7457745B2 (en) 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US7415410B2 (en) 2002-12-26 2008-08-19 Motorola, Inc. Identification apparatus and method for receiving and processing audible commands
US7933226B2 (en) 2003-10-22 2011-04-26 Palo Alto Research Center Incorporated System and method for providing communication channels that each comprise at least one property dynamically changeable during social interactions
US8005668B2 (en) 2004-09-22 2011-08-23 General Motors Llc Adaptive confidence thresholds in telematics system speech recognition
KR100679044B1 (ko) * 2005-03-07 2007-02-06 삼성전자주식회사 사용자 적응형 음성 인식 방법 및 장치
JP2007052496A (ja) * 2005-08-15 2007-03-01 Advanced Media Inc ユーザ認証システム及びユーザ認証方法
JP4556028B2 (ja) * 2005-11-04 2010-10-06 株式会社国際電気通信基礎技術研究所 発話主体同定装置及びコンピュータプログラム
US7545962B2 (en) 2005-12-22 2009-06-09 Daon Holdings Limited Biometric authentication system
US7539616B2 (en) * 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
JP2008058452A (ja) * 2006-08-30 2008-03-13 Pioneer Electronic Corp 音声情報認証装置及び音声情報認証方法
US7949536B2 (en) 2006-08-31 2011-05-24 Microsoft Corporation Intelligent speech recognition of incomplete phrases
JP5151103B2 (ja) * 2006-09-14 2013-02-27 ヤマハ株式会社 音声認証装置、音声認証方法およびプログラム
TWI342010B (en) * 2006-12-13 2011-05-11 Delta Electronics Inc Speech recognition method and system with intelligent classification and adjustment
US8050919B2 (en) 2007-06-29 2011-11-01 Microsoft Corporation Speaker recognition via voice sample based on multiple nearest neighbor classifiers
US8060366B1 (en) * 2007-07-17 2011-11-15 West Corporation System, method, and computer-readable medium for verbal control of a conference call
CN101441869A (zh) * 2007-11-21 2009-05-27 联想(北京)有限公司 语音识别终端用户身份的方法及终端
JP2010109618A (ja) * 2008-10-29 2010-05-13 Ntt Communications Kk 認証装置、認証方法、及びプログラム
TWI421857B (zh) 2009-12-29 2014-01-01 Ind Tech Res Inst 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統
US8311820B2 (en) 2010-01-28 2012-11-13 Hewlett-Packard Development Company, L.P. Speech recognition based on noise level
US8265928B2 (en) * 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
US20110320201A1 (en) * 2010-06-24 2011-12-29 Kaufman John D Sound verification system using templates
US8639508B2 (en) 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
CN102142254A (zh) * 2011-03-25 2011-08-03 北京得意音通技术有限责任公司 基于声纹识别和语音识别的防录音假冒的身份确认方法
EP2713367B1 (en) 2012-09-28 2016-11-09 Agnitio, S.L. Speaker recognition
CN103065631B (zh) * 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置
TWI601032B (zh) 2013-08-02 2017-10-01 晨星半導體股份有限公司 應用於聲控裝置的控制器與相關方法
US9343068B2 (en) * 2013-09-16 2016-05-17 Qualcomm Incorporated Method and apparatus for controlling access to applications having different security levels
US8775191B1 (en) * 2013-11-13 2014-07-08 Google Inc. Efficient utterance-specific endpointer triggering for always-on hotwording
US9430629B1 (en) 2014-01-24 2016-08-30 Microstrategy Incorporated Performing biometrics in uncontrolled environments
US9589564B2 (en) * 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190110728A (ko) * 2018-03-21 2019-10-01 현대모비스 주식회사 음성 화자 인식 장치 및 그 방법
KR20200041671A (ko) * 2018-10-12 2020-04-22 삼성전자주식회사 전자 장치 및 그 제어 방법
US12002475B2 (en) 2018-10-12 2024-06-04 Samsung Electronics Co., Ltd. Electronic device performing speaker recognition and control method thereof

Also Published As

Publication number Publication date
KR101824157B1 (ko) 2018-02-01
EP3154055B1 (en) 2020-02-26
EP3154055A2 (en) 2017-04-12
JP6474827B2 (ja) 2019-02-27
US20170345430A1 (en) 2017-11-30
US9384738B2 (en) 2016-07-05
US20170103759A1 (en) 2017-04-13
US20160300575A1 (en) 2016-10-13
US9972323B2 (en) 2018-05-15
KR101824158B1 (ko) 2018-02-01
KR20180014176A (ko) 2018-02-07
JP2017507352A (ja) 2017-03-16
JP6474762B2 (ja) 2019-02-27
EP3100261B1 (en) 2018-12-26
EP3537434B1 (en) 2021-09-15
JP2017068243A (ja) 2017-04-06
US20150371639A1 (en) 2015-12-24
EP3154055A3 (en) 2017-06-21
CN110060694B (zh) 2021-03-23
CN110060694A (zh) 2019-07-26
WO2015199813A1 (en) 2015-12-30
US9679569B2 (en) 2017-06-13
EP3937166A1 (en) 2022-01-12
EP3100261A1 (en) 2016-12-07
CN105960628B (zh) 2019-01-01
US9502039B2 (en) 2016-11-22
CN105960628A (zh) 2016-09-21
KR20160105496A (ko) 2016-09-06
KR20170012188A (ko) 2017-02-02
EP3537434A1 (en) 2019-09-11

Similar Documents

Publication Publication Date Title
KR101824158B1 (ko) 화자 검증을 위한 동적 임계치
JP7384877B2 (ja) コロケーション情報を使用した話者照合
US11942095B2 (en) Speaker verification using co-location information

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X601 Decision of rejection after re-examination