KR20230153385A - 동적 분류기에 기초한 디바이스 동작 - Google Patents

동적 분류기에 기초한 디바이스 동작 Download PDF

Info

Publication number
KR20230153385A
KR20230153385A KR1020237029810A KR20237029810A KR20230153385A KR 20230153385 A KR20230153385 A KR 20230153385A KR 1020237029810 A KR1020237029810 A KR 1020237029810A KR 20237029810 A KR20237029810 A KR 20237029810A KR 20230153385 A KR20230153385 A KR 20230153385A
Authority
KR
South Korea
Prior art keywords
dynamic classifier
audio data
classification output
processor
clause
Prior art date
Application number
KR1020237029810A
Other languages
English (en)
Inventor
미르자하산루 타헤르 샤바지
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20230153385A publication Critical patent/KR20230153385A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/06Authentication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/30Security of mobile devices; Security of mobile applications
    • H04W12/33Security of mobile devices; Security of mobile applications using wearable devices, e.g. using a smartwatch or smart-glasses

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Collating Specific Patterns (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Stereophonic System (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

디바이스는, 오디오 데이터 샘플을 수신하고 오디오 데이터 샘플을 동적 분류기에 제공하도록 구성된 하나 이상의 프로세서들을 포함한다. 동적 분류기는 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된다. 하나 이상의 프로세서들은 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하도록 추가로 구성된다.

Description

동적 분류기에 기초한 디바이스 동작
관련 출원들에 대한 상호 참조
본 출원은 2021년 3월 9일자로 출원된 공동 소유의 미국 정규 특허출원 제17/196,563호로부터의 우선권의 이익을 주장하며, 그 내용들은 전부가 본 명세서에 참조에 의해 명백히 통합된다.
분야
본 개시는 일반적으로 입력 데이터를 분류하는 것에 기초한 디바이스들의 동작에 관한 것이다.
기술의 진보는 더 소형이고 더 강력한 컴퓨팅 디바이스들을 발생시켰다. 예를 들어, 소형이고 경량이며 사용자들에 의해 용이하게 휴대되는 모바일 및 스마트 폰들과 같은 무선 전화기들, 태블릿들 및 랩탑 컴퓨터들을 포함한 다양한 휴대용 개인용 컴퓨팅 디바이스들이 현재 존재한다. 이들 디바이스들은 무선 네트워크들 상으로 음성 및 데이터 패킷들을 통신할 수 있다. 추가로, 다수의 그러한 디바이스들은 디지털 스틸 카메라, 디지털 비디오 카메라, 디지털 레코더, 및 오디오 파일 플레이어와 같은 추가적인 기능성을 통합한다. 또한, 그러한 디바이스들은, 인터넷에 액세스하는데 사용될 수 있는 웹 브라우저 애플리케이션과 같은 소프트웨어 애플리케이션들을 포함한 실행가능 명령들을 프로세싱할 수 있다. 그에 따라, 이들 디바이스들은 현저한 컴퓨팅 능력들을 포함할 수 있다.
그러한 컴퓨팅 디바이스들은 종종, 하나 이상의 마이크로폰들로부터 오디오 신호를 수신하기 위한 기능성을 통합한다. 예를 들어, 오디오 신호는 마이크로폰들에 의해 캡처된 사용자 스피치, 마이크로폰들에 의해 캡처된 외부 사운드들, 또는 이들의 조합을 나타낼 수도 있다. 전자 디바이스는, 스피치가 존재하는지를 검출하기 위해 마이크로폰들로부터의 오디오 신호를 프로세싱하기 위한 하나의 메커니즘, 오디오 신호에서 키워드 (예를 들어, "헤이 어시스턴트 (hey assistant)") 가 검출되는지를 결정하기 위해 오디오 신호를 프로세싱하기 위한 제 2 메커니즘, 및 키워드를 말하는 사람이 키워드에 뒤따르는 커맨드를 실행하도록 인가되는지를 결정하기 위한 제 3 메커니즘을 포함할 수도 있다. 예를 들어, 오디오 신호가 스피치 "헤이 어시스턴트, 조명을 켜줘" 에 대응하는 경우, 전자 디바이스는 오디오 신호 내의 스피치 특성들과 저장된 사용자 정보를 비교하여 커맨드의 화자 (speaker) 가 인식되는지 여부, 및 만약 그렇다면, 화자가 조명을 켜도록 인가되는지 여부를 결정할 수도 있다.
종래에, 음성 커맨드들을 지원하는 디바이스들은 개선된 사용자 경험을 위해 "상시 온 (always-on)" 모드로 동작한다. 전체 전력 사용량을 줄이기 위해, 위에서 설명된 오디오 프로세싱 메커니즘들은 순차적으로 수행될 수도 있다. 예를 들어, 스피치 검출은 계속해서 수행될 수도 있고, 키워드 검출은 스피치가 검출되는 경우에만 수행될 수도 있고, 인증 및 인가는 키워드가 검출되는 경우에만 수행될 수도 있다. 그러나, 그러한 접근법들은, 스피치가 비교적 드문 주기들 동안 전체 전력 소비를 줄이지만, 통상적으로는 스피치 커맨드들을 프로세싱할 때 추가적인 복잡성, 리소스 요건들, 및 지연을 도입한다.
또한, 종래의 화자 인증 시스템들은 통상적으로, 특성 스피치 데이터가 나중에 수신된 스피치 샘플들과의 비교를 위해 전자 디바이스에 의해 추출 및 저장되는 다중의 스피치 샘플들을 제공할 것을 사용자에게 요구하는 것에 의해서와 같이, 디바이스가 사용자를 인식하는 방법을 학습하기 위한 비교적 지루한 등록 프로세스를 요구한다. 그러한 시스템들은 통상적으로 질병, 장애물들 (예를 들어, 마스크들 또는 스카프들), 환경적 변화들, 또는 사용자의 인증 실패를 야기하고 전자 디바이스가 사용자의 커맨드를 실행하는 것을 방지할 수 있는 다른 팩터들로 인한 것과 같이, 사용자의 스피치의 변화들에 상대적으로 민감하다. 사용자 스피치의 변화들을 수용하기 위해 화자 인증 시스템들의 강건성을 개선하는 것은 또한, 그러한 시스템들의 전력 소비, 프로세싱 리소스 요건들, 및 복잡성을 증가시키는 경향이 있다.
본 개시의 하나의 구현에 따르면, 디바이스는 오디오 데이터 샘플을 수신하고 오디오 데이터 샘플을 동적 분류기에 제공하도록 구성된 하나 이상의 프로세서들을 포함한다. 동적 분류기는 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된다. 하나 이상의 프로세서들은 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하도록 추가로 구성된다.
본 개시의 다른 구현에 따르면, 방법은 하나 이상의 프로세서들에서, 오디오 데이터 샘플을 수신하는 단계를 포함한다. 방법은 프로세서에서, 오디오 데이터 샘플을 동적 분류기에 제공하여 오디오 데이터 샘플에 대응하는 분류 출력을 생성하는 단계를 포함한다. 방법은 또한 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하는 단계를 포함한다.
본 개시의 다른 구현에 따르면, 비일시적 컴퓨터 판독가능 매체는 명령들을 포함하고, 명령들은, 하나 이상의 프로세서들에 의해 실행될 경우, 하나 이상의 프로세서들로 하여금, 오디오 데이터 샘플들을 수신하게 하고 오디오 데이터 샘플들을 동적 분류기에 제공하게 한다. 동적 분류기는 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된다. 명령들은 또한, 하나 이상의 프로세서들로 하여금, 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하게 하도록 실행가능하다.
본 개시의 다른 구현에 따르면, 장치가 오디오 데이터 샘플을 수신하기 위한 수단을 포함한다. 장치는 오디오 데이터 샘플에 기초하여 특징 데이터 (feature data) 를 생성하기 위한 수단을 포함한다. 장치는 또한, 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하기 위한 수단을 포함한다. 장치는 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하기 위한 수단을 더 포함한다.
본 개시의 다른 양태들, 이점들, 및 특징들은 다음의 섹션들: 즉, 도면의 간단한 설명, 상세한 설명, 및 청구항들을 포함하여 전체 출원의 검토 후 자명하게 될 것이다.
도 1 은 본 개시의 일부 예들에 따른, 다양한 디바이스 동작들이 동적 분류기를 사용하여 제어되는 시스템의 특정 예시적인 양태의 블록 다이어그램이다.
도 2 는 본 개시의 일부 예들에 따른, 동적 분류기를 사용하여 디바이스 동작들을 제어하는 예시적인 양태의 다이어그램이다.
도 3 은 본 개시의 일부 예들에 따른, 동적 분류기를 사용하여 하나 이상의 디바이스 컴포넌트들을 활성화하도록 동작가능한 시스템의 예시적인 양태의 블록 다이어그램이다.
도 4 는 본 개시의 일부 예들에 따른, 도 1 의 시스템의 컴포넌트들의 동작의 예시적인 양태의 다이어그램이다.
도 5 는 본 개시의 일부 예들에 따른, 다양한 디바이스 동작들이 동적 분류기를 사용하여 제어되는 시스템의 특정 예시적인 양태의 다이어그램이다.
도 6 은 본 개시의 일부 예들에 따른, 동적 분류기를 사용하여 프로세서 활성화를 제어하도록 동작가능한 시스템의 특정 예시적인 양태의 블록 다이어그램이다.
도 7 은 본 개시의 일부 예들에 따른, 동적 분류기를 사용하여 디바이스에 대한 액세스를 제어하도록 동작가능한 시스템의 특정 예시적인 양태의 블록 다이어그램이다.
도 8 은 본 개시의 일부 예들에 따른, 동적 분류기를 사용하여 키워드 검출의 활성화를 제어하도록 동작가능한 시스템의 특정 예시적인 양태의 블록 다이어그램이다.
도 9 는 본 개시의 일부 예들에 따른, 다양한 디바이스 동작들이 동적 분류기를 사용하여 제어되는 시스템의 특정 예시적인 양태의 블록 다이어그램이다.
도 10 은 본 개시의 일부 예들에 따른, 다양한 디바이스 동작들이 동적 분류기를 사용하여 제어되는 시스템의 특정 예시적인 양태의 블록 다이어그램이다.
도 11 은 본 개시의 일부 예들에 따른, 다양한 디바이스 동작들이 동적 분류기를 사용하여 제어되는 시스템의 특정 예시적인 양태의 블록 다이어그램이다.
도 12 는 본 개시의 일부 예들에 따른, 다양한 디바이스 동작들이 동적 분류기를 사용하여 제어되는 시스템의 특정 예시적인 양태의 블록 다이어그램이다.
도 13 은 본 개시의 일부 예들에 따른, 다양한 디바이스 동작들이 동적 분류기를 사용하여 제어되는 시스템의 특정 예시적인 양태의 블록 다이어그램이다.
도 14 는 본 개시의 일부 예들에 따른, 특징 추출기 및 동적 분류기를 포함하는 집적 회로의 예를 예시한다.
도 15 는 본 개시의 일부 예들에 따른, 특징 추출기 및 동적 분류기를 포함하는 모바일 디바이스의 다이어그램이다.
도 16 은 본 개시의 일부 예들에 따른, 특징 추출기 및 동적 분류기를 포함하는 헤드셋의 다이어그램이다.
도 17 은 본 개시의 일부 예들에 따른, 특징 추출기 및 동적 분류기를 포함하는 웨어러블 전자 디바이스의 다이어그램이다.
도 18 은 본 개시의 일부 예들에 따른, 특징 추출기 및 동적 분류기를 포함하는 음성-제어 스피커 시스템 (voice-controlled speaker system) 의 다이어그램이다.
도 19 는 본 개시의 일부 예들에 따른, 특징 추출기 및 동적 분류기를 포함하는 카메라의 다이어그램이다.
도 20 은 본 개시의 일부 예들에 따른, 특징 추출기 및 동적 분류기를 포함하는, 가상 현실 또는 증강 현실 헤드셋과 같은 헤드셋의 다이어그램이다.
도 21 은 본 개시의 일부 예들에 따른, 특징 추출기 및 동적 분류기를 포함하는 차량 (vehicle) 의 제 1 예의 다이어그램이다.
도 22 는 본 개시의 일부 예들에 따른, 특징 추출기 및 동적 분류기를 포함하는 차량의 제 2 예의 다이어그램이다.
도 23 은 본 개시의 일부 예들에 따른, 도 1 의 디바이스에 의해 수행될 수도 있는 동적 분류기를 사용하여 디바이스를 동작하는 방법의 특정 구현의 다이어그램이다.
도 24 는 본 개시의 일부 예들에 따른, 동적 분류기를 사용하여 디바이스를 동작하는 방법의 다른 특정 구현의 다이어그램이다.
도 25 는 본 개시의 일부 예들에 따른, 동적 분류기를 사용하여 디바이스를 동작하는 방법의 다른 특정 구현의 다이어그램이다.
도 26 은 본 개시의 일부 예들에 따른, 동적 분류기를 사용하여 디바이스를 동작하는 방법의 다른 특정 구현의 다이어그램이다.
도 27 은 본 개시의 일부 예들에 따른, 동적 분류기를 사용하여 디바이스를 동작하는 방법의 다른 특정 구현의 다이어그램이다.
도 28 은 본 개시의 일부 예들에 따른, 동적 분류기를 사용하여 디바이스를 동작하는 방법의 다른 특정 구현의 다이어그램이다.
도 29 는 본 개시의 일부 예들에 따른, 동적 분류기를 사용하여 디바이스를 동작하는 방법의 다른 특정 구현의 다이어그램이다.
도 30 은 본 개시의 일부 예들에 따른, 동적 분류기를 사용하여 디바이스를 동작하는 방법의 다른 특정 구현의 다이어그램이다.
도 31 은 본 개시의 일부 예들에 따른, 동적 분류기에 기초하여 동작들을 수행하도록 동작가능한 디바이스의 특정 예시적인 예의 블록 다이어그램이다.
종래에, 컴퓨팅 디바이스들은, 스피치가 존재하는지를 검출하기 위해 하나 이상의 마이크로폰들로부터의 오디오 신호들을 프로세싱하기 위한, 오디오 신호에서 키워드 (예를 들어, "헤이 어시스턴트") 가 검출되는지를 결정하기 위한, 그리고 키워드를 말하는 사람이 키워드에 뒤따르는 커맨드를 실행하도록 인가되는지를 결정하기 위한 다양한 메커니즘들을 포함한다. 위에서 설명된 오디오 프로세싱 메커니즘들이 상시 온 동작과 연관된 전력 소비를 줄이기 위해 순차적으로 수행될 수도 있지만, 그러한 접근법들은 통상적으로 스피치 커맨드들을 프로세싱할 때 추가적인 복잡성, 리소스 요건들, 및 지연을 도입한다. 또한, 종래의 화자 인증 시스템들은 통상적으로 특성 스피치 데이터가 나중에 수신된 스피치 샘플들과의 비교를 위해 전자 디바이스에 의해 추출 및 저장되는 다중의 스피치 샘플들을 제공할 것을 사용자에게 요구하는 것에 의해서와 같이, 디바이스가 사용자를 인식하는 방법을 학습하기 위한 비교적 지루한 등록 프로세스를 요구한다. 그러한 시스템들은 통상적으로 질병, 장애물들, 환경적 변화들, 또는 사용자의 인증 실패를 야기하고 전자 디바이스가 사용자의 커맨드를 실행하는 것을 방지할 수 있는 다른 팩터들로 인한 것과 같이, 사용자의 스피치의 변화들에 상대적으로 민감하다. 사용자 스피치의 변화들을 수용하기 위해 화자 인증 시스템들의 강건성을 개선하는 것은 또한, 그러한 시스템들의 전력 소비, 프로세싱 리소스 요건들, 및 복잡성을 증가시키는 경향이 있다.
동적 분류기들을 사용한 디바이스 동작의 시스템들 및 방법들이 개시된다. 예를 들어, 오디오 신호들은 하나 이상의 마이크로폰들을 통해 수신되고 오디오 신호들에 대응하는 주파수 도메인 특징 세트들을 추출하기 위해 디바이스에서 프로세싱될 수도 있다. 동적 분류기는 추출된 주파수 도메인 특징 세트들을 프로세싱하고, 오디오 데이터에서 스피치의 소스의 표시를, 그 스피치를 이전에 분류된 사용자의 스피치에 대응하는 것으로 분류하는 것에 기초하여 생성하는 것과 같이, 특징 세트들의 분류를 나타내는 출력을 생성한다. 동적 분류기는 상이한 사용자들에 대응하는 특징 세트들 간을 구별하기 위해 특징 데이터 공간의 2 개의 가장 구별되는 카테고리들 사이의 결정 경계의 조정 및 특징 데이터의 적응적 클러스터링을 수행할 수도 있다. 예시적인 예에서, 동적 분류기는 자가-조직화 맵 (self-organizing map) 들을 사용하여 구현된다.
그러한 동적 분류기들은 추출된 특징 세트들을 사용한 구별이 다양한 조건들, 예컨대 매우 비정상적인 상황들에서의 환경적 조건들; 미스매칭된 마이크로폰들; 장애물들, 연령, 또는 다른 팩터들로 인한 것과 같은 사용자의 스피치의 변화들; 주파수 스펙트럼에 걸친 마이크로폰들의 잡음 플로어, 바이어스, 및 감도들; 또는 이들의 조합에 능동적으로 응답하고 적응할 수 있게 한다. 일부 구현들에서, 동적 분류기는 그러한 변화들에 응답할 수 있고 사용되는 임계 파라미터들의 수 및 디바이스의 사용자들을 등록하는데 필요한 훈련 및 교정의 양을 감소 또는 최소화할 수 있는 적응적 특징 맵핑을 가능하게 한다. 일부 구현들에서, 동적 분류기는 비슷한 정확도를 제공하는 종래의 시스템들과 비교하여 다양한 조건들 하에서 높은 정확도로 그리고 비교적 낮은 전력 소비로 다양한 사용자들의 스피치 간의, 이전에 분류된 사용자들의 스피치와 분류되지 않은 사용자들의 스피치 간의, 스피치와 비-스피치 오디오 간의, 또는 이들의 조합들의 효과적인 구별을 가능하게 한다.
그러한 동적 분류기들에 의해 생성된 분류 출력들은 사용자들의 스피치에 기초하여 사용자들을 인증하고 인증된 사용자와 연관된 액세스 권한 (permission) 들을 결정하는데 사용될 수 있다. 예를 들어, 특정 사용자들에 대한 분류 출력들의 맵핑은 디바이스의 동작들 또는 컴포넌트들에 대한, 하나 이상의 원격 디바이스들 또는 그러한 원격 디바이스들에서의 동작들에 대한, 또는 이들의 조합에 대한 액세스를 인가하도록 액세스 권한들의 결정을 가능하게 한다. 일부 예들에서, 분류 출력들은 키워드 검출기 또는 음성 커맨드 프로세싱 동작 (예를 들어, 자동 음성 인식 (automatic voice recognition, ASR) 시스템) 을 저전력 상태로부터 활성 상태로 트랜지션하는 것과 같이, 디바이스의 하나 이상의 다른 컴포넌트들을 활성화할지 여부를 결정하는데 사용된다. 일부 예들에서, 키워드 프로세싱은 생략될 수 있고, 디바이스의 상시 온 스테이지에서의 동적 분류기의 분류 출력이, 수신된 오디오가 디바이스의 인가된 사용자로부터의 스피치임을 나타내는 것에 응답하여 음성 커맨드 프로세싱이 대신 활성화될 수 있다. 동적 분류기들은 사용자들이 즉석에서 분류 및 등록될 수 있게 하여, 종래의 음성 인식 시스템들에 요구될 수도 있는 바와 같은 다양한 미리결정된 스피치 샘플들을 사용자들이 제공하기 위한 요건들을 감소 또는 제거한다.
다양한 양태들에 따르면, 그러한 동적 분류기들은 사용자들의 스피치에 대응하는 오디오 데이터 대신에, 또는 그에 더하여, 카메라에 의해 캡처된 이미지 데이터, 지문 데이터 또는 다른 생체 데이터 (biometric data) 와 같은, 다양한 양식들을 통해 수신된 입력 데이터를 분류하는데 사용된다. 따라서, 멀티모달 (multimodal) 인증이 디바이스의 동작을 제어하거나, 디바이스의 또는 다른 디바이스들의 하나 이상의 컴포넌트들 또는 동작들에 액세스하거나, 이들의 조합을 행하기 위해 수행 및 사용될 수 있다.
본 개시의 특정 양태들은 도면들을 참조하여 이하에 설명된다. 설명에서, 공통 특징들은 공통 참조 번호들로 지정된다. 본 명세서에서 사용된 바와 같이, 다양한 용어가 단지 특정 구현들을 설명하는 목적으로 사용되며 구현들을 한정하는 것으로 의도되지 않는다. 예를 들어, 단수 형태들 ("a", "an" 및 "the") 은, 문맥이 분명하게 달리 표시하지 않으면, 복수의 형태들을 물론 포함하도록 의도된다. 추가로, 본 명세서에서 설명된 일부 특징들은 일부 구현들에서 단수이고 다른 구현들에서는 복수이다. 예시를 위해, 도 1 은 하나 이상의 프로세서들 (도 1 의 "프로세서(들)" (190)) 를 포함하는 디바이스 (102) 를 도시하며, 이는 일부 구현들에서 디바이스 (102) 가 단일의 프로세서 (190) 를 포함하고 다른 구현들에서는 디바이스 (102) 가 다중의 프로세서들 (190) 을 포함하는 것을 나타낸다. 본 명세서에서의 참조의 용이를 위해, 그러한 특징들은 일반적으로 "하나 이상의" 특징들로서 도입되고, 후속하여, 특징들 중 다중의 특징들과 관련된 양태들이 설명되지 않는 한 단수로 지칭된다.
용어들 "포함한다 (comprise)", "포함한다 (comprises)", 및 "포함하는 (comprising)" 은 "포함한다 (include)", "포함한다 (includes)", 또는 "포함하는 (including)" 과 상호교환가능하게 사용될 수도 있는 것으로 추가로 이해될 수도 있다. 추가적으로, 용어 "여기서 (wherein)" 는 "여기에서 (where)" 와 상호교환가능하게 사용될 수도 있는 것으로 이해될 것이다. 본 명세서에서 사용된 바와 같이, "예시적인" 은 예, 구현, 및/또는 양태를 나타낼 수도 있으며, 한정하는 것으로서 또는 선호도 또는 선호된 구현을 나타내는 것으로서 해석되지 않아야 한다. 본 명세서에서 사용된 바와 같이, 구조, 컴포넌트, 동작 등과 같은 엘리먼트를 수식하는데 사용되는 서수 용어 (예컨대, "제 1", "제 2", "제 3" 등) 는 그것만으로 그 엘리먼트의, 다른 엘리먼트에 대한 임의의 우선순위 또는 순서를 표시하지 않고, 오히려 그 엘리먼트를 (서수 용어의 사용이 없다면) 동일 명칭을 갖는 다른 엘리먼트와 구별할 뿐이다. 본 명세서에서 사용된 바와 같이, 용어 "세트" 는 하나 이상의 특정 엘리먼트를 지칭하고, 용어 "복수" 는 다수 (예를 들어, 2 개 이상) 의 특정 엘리먼트를 지칭한다.
본 명세서에서 사용된 바와 같이 "커플링된" 은 "통신가능하게 커플링된", "전기적으로 커플링된", 또는 "물리적으로 커플링된" 을 포함할 수도 있고, 또한 (또는 대안적으로) 이들의 임의의 조합들을 포함할 수도 있다. 2 개의 디바이스들 (또는 컴포넌트들) 은 하나 이상의 다른 디바이스들, 컴포넌트들, 와이어들, 버스들, 네트워크들 (예를 들어, 유선 네트워크, 무선 네트워크, 또는 이들의 조합) 등을 통해 직접 또는 간접적으로 커플링 (예를 들어, 통신가능하게 커플링, 전기적으로 커플링, 또는 물리적으로 커플링) 될 수도 있다. 전기적으로 커플링되는 2 개의 디바이스들 (또는 컴포넌트들) 은 동일한 디바이스 또는 상이한 디바이스들에 포함될 수도 있고, 예시적인 비제한적 예들로서, 전자기기들, 하나 이상의 커넥터들 또는 유도 커플링을 통해 접속될 수도 있다. 일부 구현들에서, 전기 통신에서와 같이, 통신가능하게 커플링되는 2 개의 디바이스들 (또는 컴포넌트들) 은 하나 이상의 와이어들, 버스들, 네트워크들 등을 통해, 직접 또는 간접적으로 신호들 (예를 들어, 디지털 신호들 또는 아날로그 신호들) 을 전송 및 수신할 수도 있다. 본 명세서에서 사용된 바와 같이, "직접 커플링된" 은 컴포넌트들을 개재하지 않으면서 커플링 (예를 들어, 통신가능하게 커플링, 전기적으로 커플링, 또는 물리적으로 커플링) 되는 2 개의 디바이스들을 포함할 수도 있다.
본 개시에 있어서, "결정하는 것", "계산하는 것, "추정하는 것", "시프팅하는 것", "조정하는 것" 등과 같은 용어들은 하나 이상의 동작들이 어떻게 수행되는지를 설명하기 위해 사용될 수도 있다. 그러한 용어들은 한정하는 것으로서 해석되지 않아야 하고 다른 기법들이 유사한 동작들을 수행하는데 활용될 수도 있음을 유의해야 한다. 부가적으로, 본 명세서에서 지칭되는 바와 같이, "생성하는 것", "계산하는 것", "추정하는 것", "사용하는 것", "선택하는 것", "액세스하는 것" 및 "결정하는 것" 은 상호교환가능하게 사용될 수도 있다. 예를 들어, 파라미터 (또는 신호) 를 "생성하는 것", "계산하는 것", "추정하는 것", 또는 "결정하는 것" 은 파라미터 (또는 신호) 를 능동적으로 생성하는 것, 추정하는 것, 계산하는 것, 또는 결정하는 것을 지칭할 수도 있거나, 또는 다른 컴포넌트 또는 디바이스에 의해서와 같이, 이미 생성된 파라미터 (또는 신호) 를 사용하는 것, 선택하는 것, 또는 액세스하는 것을 지칭할 수도 있다.
도 1 을 참조하면, 동적 분류기를 사용하여 디바이스 동작을 수행하도록 구성된 시스템의 특정 예시적인 양태가 개시되고 일반적으로 100 으로 지정된다. 시스템 (100) 은, 하나 이상의 마이크로폰들 (110), 하나 이상의 다른 센서들 (180), 및 제 2 디바이스 (160) 에 커플링되는 디바이스 (102) 를 포함한다. 디바이스 (102) 는 동적 분류기 (140) 를 사용하여 마이크로폰 (110) 에 의해 오디오 데이터로서 캡처된 스피치를 프로세싱하는 것에 기초하여 다양한 동작들을 수행하도록 구성된다. 본 명세서에서 사용된 바와 같이, "스피치" 는 사람으로부터 발생하지 않는 사운드들 (예를 들어, "다른 오디오 활동") 과 비교하여 사람 (예를 들어, 디바이스의 사용자) 의 음성 또는 발화 (178) 를 나타낸다.
디바이스 (102) 는 제 1 입력 인터페이스 (114), 제 2 입력 인터페이스 (184), 메모리 (192) 에 커플링된 하나 이상의 프로세서들 (190), 및 모뎀 (170) 을 포함한다. 제 1 입력 인터페이스 (114) 는 프로세서 (190) 에 커플링되고, 마이크로폰 (110) 에 커플링되도록 구성된다. 제 1 입력 인터페이스 (114) 는 마이크로폰 (110) 으로부터 마이크로폰 출력 (112) 을 수신하고 마이크로폰 출력 (112) 을 하나 이상의 오디오 데이터 샘플들 (116) 로서 프로세서 (190) 에 제공하도록 구성된다.
제 2 입력 인터페이스 (184) 는 프로세서 (190) 에 커플링되고, 센서 (180) 에 커플링되도록 구성된다. 제 2 입력 인터페이스 (184) 는 센서 (180) 로부터 센서 출력 (182) 을 수신하고 센서 출력 (182) 을 하나 이상의 데이터 샘플들 (186) 로서 프로세서 (190) 에 제공하도록 구성된다.
프로세서 (190) 는 모뎀 (170) 에 커플링되고 특징 추출기 (130) 및 동적 분류기 (140) 를 포함한다. 프로세서 (190) 는 마이크로폰 출력 (112) 에 대응하는 오디오 데이터 샘플 (116) 및 센서 출력 (122) 에 대응하는 데이터 샘플 (186) 을 수신하도록 구성된다. 프로세서 (190) 는 특징 추출기 (130) 에서 오디오 데이터 샘플 (116) 을 프로세싱하여 특징 데이터 (132) 를 생성하도록 구성된다.
일부 구현들에서, 프로세서 (190) 는 특징 데이터 (132) 를 생성하기 이전에 오디오 데이터 샘플 (116) 및 데이터 샘플 (186) 을 프로세싱하도록 구성된다. 예에서, 프로세서 (190) 는 오디오 데이터 샘플들 (116) 에 대해 에코 소거 (echo-cancellation), 잡음 억제, 또는 양자 모두를 수행하도록 구성된다. 일부 구현들에서, 프로세서 (190) 는 특징 데이터 (132) 를 생성하기 이전에 오디오 데이터 샘플들 (116) 을 변환 도메인으로 변환하도록 구성된다 (예를 들어, Fourier 변환).
프로세서 (190) 는 오디오 데이터 샘플들 (116) 에 기초하여 특징 데이터 (132) 를 생성하도록 구성된다. 예를 들어, 특징 데이터는 피치 (pitch) 및 선형 예측 코딩 (linear prediction coding; LPC) 계수들과 같은, 특정 사람에게 고유하고 사람의 성도의 형상과 연관될 수도 있는 팩터들에 대응할 수 있다. 일부 양태들에 따르면, 특징 데이터 (132) 는 스피치와 연관된 피치 데이터 (134) 및 포먼트 데이터 (formant data) (135) 를 포함한다. 일부 구현들에서, 특징 데이터 (132) 는 동적 분류기 (140) 가 구문 종속 (phrase-dependent) 분류를 수행하도록 구성되고 특징 데이터 (132) 가 지속기간 데이터 (136) 및 구문 특정 음절 큐 (phrase-specific syllable cue) 들 (137) 을 더 포함하는 구현과 같은, 추가적인 또는 대안적인 특징 타입들을 포함한다.
프로세서 (190) 는 동적 분류기 (140) 에서 특징 데이터 (132) 를 프로세싱하도록 구성된다. 동적 분류기 (140) 는 스피치 특성들에 기초하여 다중의 사용자들 간을 구별하여 분류 출력 (142) 을 생성하도록 구성된다. 일부 구현들에서, 동적 분류기 (140) 는 오디오 데이터 샘플 (116) 에 표현된 사운드가 클러스터링을 통해 동적 분류기 (140) 에서 구별된 다수의 스피치 소스들 (예를 들어, 사용자들) 중 하나로부터 발생하는지 여부에 기초하여 특징 데이터 (132) 의 세트들 (예를 들어, 샘플들) 을 적응적으로 클러스터링하도록 구성된다. 예시를 위해, 동적 분류기 (140) 는 동적 분류기 (140) 에서의 노드 값들에 대한 특징 데이터 (132) 의 유사성에 기초하여 특징 데이터 (132) 의 세트들을 적응적으로 클러스터링하며, 여기서 개개의 클러스터들은 개별의 사용자들에 대응한다. 예를 들어, 동적 분류기 (140) 는 특징 데이터 (132) 의 샘플들의 시퀀스를 수신하고 피치 값들, 포먼트 값들, 하나 이상의 다른 특징 값들, 또는 이들의 조합을 포함하는 특징 공간에서 샘플들을 적응적으로 클러스터링하도록 구성될 수도 있다.
동적 분류기 (140) 는 또한, 상이한 사용자들의 스피치에 대응하는 특징 데이터의 세트들 간을 구별하기 위해 (예를 들어, 사용자 (176) 의 발화 (178) 와 다른 사용자의 발화 간을 구별하기 위해) 특징 공간의 구별되는 카테고리들 사이의 결정 경계를 조정하도록 구성될 수도 있다. 예시를 위해, 동적 분류기 (140) 는 인입 특징 데이터를 다중의 클래스들 중 하나 (예를 들어, 동적 분류기 (140) 가 단 두 명이 사용자들 간을 구별하도록 구성될 때 클래스 0 또는 클래스 1) 로 분류하도록 구성될 수도 있으며, 여기서 2 개의 클래스들 중 하나는 제 1 사용자에 대응하고, 2 개의 클래스들 중 다른 하나는 제 2 사용자에 대응한다. 그러한 구현들에서, 분류 출력 (142) 은 다음의 2 개의 값들 중 하나를 갖는 단일 비트 또는 플래그를 포함할 수도 있다: 특징 데이터 (132) 가 2 개의 클래스들 중 하나에 대응함을 나타내기 위한 제 1 값 (예를 들어, "0"); 또는 특징 데이터 (132) 가 2 개의 클래스들 중 다른 하나에 대응함을 나타내기 위한 제 2 값 (예를 들어, "1"). 그러나, 다른 구현들에서, 동적 분류기 (140) 는 두 명의 사용자들 간을 구별하는 것으로 제한되지 않는다. 예를 들어, 프로세서 (190) 는 도 2 를 참조하여 더 설명되는 바와 같이 동적 분류기 (140) 에 의해 구별가능한 사용자들의 수에 대한 상한을 시행 (enforce) 하도록 구성될 수도 있다.
일부 구현들에서, 동적 분류기 (140) 는 클러스터링 및 벡터 양자화를 수행한다. 예를 들어, 클러스터링은 로서 정의되는, 클러스터 내 제곱합 (within-cluster sum of squares) 을 감소시키는 것 (예를 들어, 최소화하는 것) 을 포함하며, 여기서 C i 는 클러스터 i 를 나타내고, p i 는 클러스터 i 에 할당된 가중치를 나타내고, x j 는 특징 공간에서 노드 j 를 나타내고, μ i 는 클러스터 i 의 중심 (centroid) 을 나타낸다. 클러스터 가중치 p i 는, 이전 클러스터 분포와 같이 확률적 (probabilistic) 일 수도 있거나; 각각의 클러스터의 가능성에 할당된 신뢰도 측정치 (confidence measure) 와 같이 가능적 (possibilistic) 일 수도 있거나; 또는 상이한 클러스터들을 향해 일부 형태의 불균일한 바이어스를 시행할 임의의 다른 팩터에 의해 결정될 수도 있다. 벡터 양자화는 입력 벡터를 에 의해 정의된 양자화 가중 벡터로 양자화함으로써 에러를 감소시키는 것 (예를 들어, 최소화하는 것) 을 포함하며, 여기서 w i 는 양자화 가중 벡터 i 를 나타낸다.
일부 구현들에서, 동적 분류기 (140) 는 양자화의 유닛들이 특징 데이터 (132) 의 새로운 샘플들을 흡수하기 위해 경쟁하는 경쟁 학습 (competitive learning) 을 수행하도록 구성된다. 그 다음, 승리한 유닛 (winning unit) 이 새로운 샘플의 방향으로 조정된다. 예를 들어, 각각의 유닛의 가중 벡터는 분리를 위해 또는 랜덤으로 초기화될 수도 있다. 수신되는 특징 데이터의 각각의 새로운 샘플에 대해, 비제한적 예들로서, Euclidean 거리 또는 내적 유사성에 기초하는 것과 같이, 어느 가중 벡터가 새로운 샘플에 가장 가까운지에 대한 결정이 이루어진다. 새로운 샘플에 가장 가까운 가중 벡터 ("승자 (winner)" 또는 최상의 매칭 유닛) 는 그 다음 새로운 샘플의 방향으로 이동될 수도 있다. 예를 들어, Hebbian 학습에서, 승자들은 2 개의 노드들에 대한 입력들의 곱에 비례하여 2 개의 노드들 사이의 가중치들을 조정하는 것에 의해서와 같이, 입력과의 그들의 상관관계들을 강화한다.
일부 구현들에서, 동적 분류기 (140) 는 시냅스후 (postsynaptic) 시트의 로컬 클러스터들에 접속되는 시냅스전 (presynaptic) 시트의 로컬 클러스터들을 포함하고, 이웃하는 뉴런들 간의 상호접속들은 상관 자극 (correlating stimulation) 들 사이의 접속들을 강화하기 위해 Hebbian 학습을 통해 보강된다. 동적 분류기 (140) 는 입력이 시냅스후 시트 또는 맵의 모든 뉴런에 접속되는 Kohonen 자가-조직화 맵을 포함할 수도 있다. 학습은, 상이한 흡수 필드들이 입력 공간 (예를 들어, 특징 데이터 공간) 의 상이한 영역들에 응답한다는 점에서 맵이 로컬화되게 한다.
특정 구현에서, 동적 분류기 (140) 는 자가-조직화 맵 (148) 을 포함한다. 자가-조직화 맵 (148) 은 가중 벡터들을 초기화하고, 그리고 그 다음 각각의 입력 t (예를 들어, 특징 데이터 (132) 의 각각의 수신된 세트) 에 대해, 에 따라 승리한 유닛 (또는 셀 또는 뉴런) 을 결정하여, 입력 x(t) 로의 최소 거리 (예를 들어, Euclidean 거리) 를 갖는 유닛으로서 승자 v(t) 를 찾음으로써 동작할 수도 있다. 승리한 유닛과 그의 이웃들의 가중치들은 에 따라서와 같이, 업데이트되며, 여기서 Δw i (t) 는 유닛 i 에 대한 변화를 나타내고, α(t) 는 학습 파라미터를 나타내고, l(v, i, t) 는 승리한 유닛 주위의 이웃 함수, 예컨대, Gaussian 방사 기저 함수를 나타낸다. 일부 구현들에서, 내적 또는 다른 메트릭이 Euclidean 거리 대신 유사성 척도로서 사용될 수 있다.
일부 구현들에서, 동적 분류기 (140) 는 도 4 를 참조하여 더 설명되는 바와 같이, 스피치 샘플들의 시퀀스를 수용하기 위해 Kohonen 자가-조직화 맵의 변형을 포함한다. 예에서, 동적 분류기 (140) 는 시상수 모델링 감쇠 ("D") 를 갖는 활성화 함수가 각각의 유닛에 대해 정의되고 로서 업데이트되는 시간적 Kohonen 맵에 따라서와 같이, 시간적 시퀀스 프로세싱을 구현할 수도 있으며, 승리한 유닛은 가장 큰 활동을 갖는 유닛이다. 다른 예로서, 동적 분류기 (140) 는 제곱 놈 (squared norm) 대신에 차이 벡터 y: 를 사용하는 회귀 자가-조직화 맵에 따라서와 같이, 회귀 네트워크를 구현할 수도 있으며, 여기서 는 0 과 1 사이의 값을 갖는 망각 팩터 (forgetting factor) 를 나타내고, 승리한 유닛은 최소 차이 벡터 를 갖는 유닛으로서 결정되고, 가중치들은 로서 업데이트된다.
일부 구현들에서, 프로세서 (190) 는 특징 데이터 (132) 에 기초하여 동적 분류기 (140) 의 클러스터링 동작 (144) 을 업데이트하고 동적 분류기 (140) 의 분류 기준 (146) 을 업데이트하도록 구성된다. 예를 들어, 위에서 설명된 바와 같이, 프로세서 (190) 는, 오디오 데이터 샘플 (116) 의 인입 샘플들에 기초하여, 동적 분류기 (140) 를 특정 사용자의 음성 입력과 연관된 변화들에 적응시키거나, 분류되지 않은 사용자에 대한 클래스를 추가하거나, 양자 모두를 행하도록 구성되어, 동적 분류기 (140) 가 사용자 (176) 의 조건들, 환경, 다른 조건들 (예를 들어, 마이크로폰 배치 또는 조정), 새로 만난 사용자들의 스피치, 또는 이들의 임의의 조합을 변경하는 것에 기초하여 동작을 조정할 수 있게 한다.
동적 분류기 (140) 가 자가-조직화 맵 (148) 을 포함하는 것으로 예시되어 있지만, 다른 구현들에서, 동적 분류기 (140) 는 자가-조직화 맵 (148) 대신에 또는 그에 더하여, 분류 출력 (142) 을 생성하기 위한 하나 이상의 다른 기법들을 통합할 수도 있다. 비제한적 예들로서, 동적 분류기 (140) 는 비감독 구성을 갖는 제한된 Boltzmann 머신, 비감독 오토인코더, Hopfield 네트워크들의 온라인 변화 (online variation), 온라인 클러스터링, 또는 이들의 조합을 포함할 수도 있다. 음성 특징 공간의 각각의 파티션은 인증 상태를 생성하기 위해 다른 맵에 입력될 수 있다. 다른 비제한적 예로서, 동적 분류기 (140) 는 주성분 분석 (principal component analysis) 을 수행하도록 구성될 수도 있다 (예를 들어, 설정된 직교 방향 벡터들을 특징 공간의 특징 벡터 샘플들에 순차적으로 피팅함, 여기서 각각의 방향 벡터는 피처 공간에서 방향 벡터로 투영된 특징 벡터 샘플들의 분산을 최대화하는 것으로 선택됨). 다른 비제한적 예로서, 동적 분류기 (140) 는 독립 성분 분석 (independent component analysis) 을 수행하도록 구성될 수도 있다 (예를 들어, 하위성분들이 서로 통계적으로 독립적인 비-Gaussian 신호들이라는 가정 하에, 특징 공간에서 특징 벡터 샘플들의 가산 하위성분들의 세트를 결정함). 일부 구현들에서, 클래스들의 등록은 GAN (generative adversarial network) 들의 생성자 (generator) 들 및 훈련 판별자 (discriminator) 들에 의해 (예를 들어, 오프라인으로) 수행될 수도 있다.
프로세서 (190) 는 분류 출력 (142) 에 적어도 부분적으로 기초하여 인증 (150) 을 결정하도록 구성된다. 동적 분류기 (140) 가 4 개의 클래스들 간을 구별하도록 구성되는 예시적인 예에서, 분류 출력 (142) 은 특징 데이터 (132) 가 4 개의 클래스들 중 하나 (예를 들어, 클래스 "0", 클래스 "1", 클래스 "2", 또는 클래스 "3") 로서 분류되는 것을 나타낼 수도 있지만, 어느 클래스가 어느 특정 사용자에 대응하는지, 또는 어느 권한들이 각각의 클래스와 연관되는지를 나타내지 않을 수도 있다. 예를 들어, 동적 분류기 (140) 가 초기화되는 방법 및 동적 분류기 (140) 를 업데이트하는데 사용된 특징 데이터에 기초하여, 일부 경우들에서, 값 "0" 을 갖는 분류 출력 (142) 은 제 1 권한을 갖는 제 1 사용자를 나타내는 한편, 다른 경우들에서, 값 "0" 을 갖는 분류 출력은 제 2 권한들을 갖는 제 2 사용자를 나타낸다.
일부 구현들에서, 프로세서 (190) 는 인증 (150) 을 결정하기 위해 메모리 (192) 에 저장된 테이블 (194) 에 액세스한다. 테이블 (194) 은 동적 분류기 (140) 의 분류 출력들을 동적 분류기 (140) 에 의해 분류된 다중의 사용자들 중 특정 사용자들에 연관시킨다. 예시를 위해, 테이블 (194) 은 제 1 클래스 (154) (예를 들어, 값 "0" 을 갖는 분류 출력 (142)) 를 제 1 세트의 권한들 (155), 제 1 사용자 (156), 및 제 1 식별 데이터 (ID 데이터 1) (157) 와 연관시키는 제 1 데이터 (예를 들어, 테이블 (194) 의 제 1 로우) 를 포함한다. 테이블 (194) 은 또한, 제 2 클래스 (164) (예를 들어, 값 "1" 을 갖는 분류 출력 (142)) 를 제 2 세트의 권한들 (165), 제 2 사용자 (166), 및 제 2 식별 데이터 (ID 데이터 2) (167) 와 연관시키는 제 2 데이터 (예를 들어, 테이블 (194) 의 제 2 로우) 를 포함한다.
예시를 위해, 프로세서 (190) 는 사용자가 (예를 들어, 마이크로폰 (110) 을 통해) 스피치 샘플, 사용자 데이터 (예를 들어, 사용자의 이름, 로그인 식별자, 또는 다른 식별 정보), 및 사용자 식별 데이터 (120) 를 제공하는 등록 동작 동안 테이블 (194) 을 채우도록 구성될 수도 있다. 예에서, 카메라 (196) 는 말하는 사용자의 이미지를 캡처하고 이미지에 대응하는 데이터를 사용자 식별 데이터 (120) 로서 프로세서 (190) 로 전송하도록 구성된다. 일부 구현들에서, 사용자 식별 데이터 (120) 는 하나 이상의 센서들 (180) 에 의해 캡처된 식별 데이터의 하나 이상의 다른 세트들, 예컨대, 센서 (180) 에 포함된 생체 센서에 의해 캡처된 지문 데이터 또는 다른 생체 데이터, 제스처, 키패드 입력, 또는 터치스크린 입력으로서 센서들 (180) 중 하나 이상을 통해 입력된 뉴메릭 패스워드, 또는 이들의 조합을 포함한다. 등록 동안, 동적 분류기 (140) 는 새로 등록된 사용자에 대한 클래스를 추가하고 새로운 사용자와 연관된 분류 출력 (142) 을 생성하도록 조정될 수도 있고, 프로세서 (190) 는 새로운 클래스, 새로운 사용자, 새로운 식별 데이터, 및 사용자와 연관된 권한들을 나타내는 새로운 로우로 테이블 (194) 을 채울 수도 있다. 테이블 (194) 은 예시를 목적으로 단지 클래스들 (예를 들어, 2 개의 로우들) 과 연관된 데이터를 포함하는 것으로 예시되어 있지만, 테이블 (194) 은 동적 분류기 (140) 에 의해 지원되는 만큼의 클래스들과 연관된 데이터를 저장하도록 구성된다는 것이 이해되어야 한다.
일부 양태들에 따르면, 사용자들의 등록이 테이블 (194) 을 채우기 위해 수행된다. 일부 구현들에서, 테이블 (194) 은 등록 동작 동안 채워지고, 일단 채워지면, 추가 사용자들의 추가를 방지하기 위해 "고정된" 다 (예를 들어, 추가 변경들을 방지함). 대안적으로, 일부 구현들에서, 테이블 (194) 은 등록 동작이 수행되어야 하는 사용자 입력 커맨드와 같은, 테이블의 채움 (population) 을 지시하는 하이 레벨 특징에 기초하여 초기화된다. 예시적인 비제한적 예들로서, 특정 시간 주기가 경과하였거나, 임계 수의 엔트리들이 테이블 (194) 에 입력되었거나 (예를 들어, 동적 분류기 (140) 가 임계 수의 사용자들을 분류하도록 구성되었음), 또는 사용자 입력이 등록을 종료하기 위해 수신된 것과 같이, 일단 기준이 충족되면, 테이블 (194) 은 일부 사용 사례들에서 완결되고 고정될 수도 있거나, 또는 다른 사용 사례들에서 여전히 향후 변경의 여지가 있을 수도 있다. 일부 구현들에서, 공개 담화 (open-discourse) 인증 세트 (예를 들어, 스피치가 인증되지 않은 사용자들로부터 검출될 때 확장될 수 있는 가변적이고 조정가능한 인증된 사용자들의 세트가 검출됨) 또는 폐쇄 담화 (closed-discourse) 인증 세트 (예를 들어, 총 사용자들의 수에 기초하여 제약되거나 단지 특정 사용자들에만 제한되는 인증된 사용자들의 세트) 가 테이블 (194) 의 콘텐츠에 기초하여 유지될 수도 있다.
예시적인 구현에서, 테이블 (194) 내의 일부 엔트리들은 고정된 상태로 유지되는 한편, 다른 엔트리들은 테이블 (194) 에 추가되거나 그로부터 제거되도록 허용된다. 예를 들어, 디바이스 (102) 가 승차공유 차량과 같은 공유 리소스와 함께 동작되는 구현에서, 리소스의 하나 이상의 소유자들 또는 주요 운전자들은 테이블 (194) 에 고정된 상태로 유지되고 테이블 (194) 로부터의 퇴거 대상이 아닌 한편, 리소스의 다른 사용자들 (예를 들어, 승차공유 승객들) 은 만날 때 테이블 (914) 에 추가되거나, 하나 이상의 제거 기준들에 기초하여 테이블 (194) 로부터 제거될 수도 있다. 제거 기준들은 예시적인 비제한적 예들로서, 임계치를 초과하는 사용자의 스피치가 마지막으로 인식되었던 시간 이후의 지속기간, 테이블 (194) 이 테이블 사이즈 임계치에 도달하고 새로운 사용자가 추가되는 것, 또는 승차공유 세션이 종료한 후와 같이, 비-고정된 엔트리들의 테이블 (194) 을 클리어하기 위한 사용자 커맨드의 수신을 포함할 수 있다.
인증 (150) 은 분류 출력 (142) 에 맵핑되는 사용자 (예를 들어, 제 1 사용자 (156) 또는 제 2 사용자 (166)) 를 나타낸다. 일부 양태들에 따르면, 분류 출력 (142) 은 특징 데이터 (132) 가 어떤 클래스에도 맵핑되지 않음 (예를 들어, 특징 데이터 (132) 는 임계 신뢰도 레벨 내의 어떤 클러스터에도 매칭되지 않음) 을 나타낼 수도 있고, 그 결과 인증 (150) 은 말하는 사람이 인증되지 않았음을 나타낸다. 예를 들어, 일부 구현들에서, 분류 출력 (142) 은 매칭 클래스에 대응하는 특정 필드의 "1" 값 및 매칭 클래스에 대응하지 않는 각각의 필드의 "0" 값을 포함하는 "원-핫 (one-hot)" 인코딩된 데이터로 표현된다. 원-핫 인코딩된 데이터는 "1" 값이 특징 데이터 (132) 가 임계 신뢰도 레벨 내의 어떤 클래스에도 맵핑되지 않음을 나타내는 "클래스 없음 (no class)" 필드를 포함할 수 있다. 다른 구현들에서, 분류 출력 (142) 의 각각의 필드는 특징 데이터 (132) 가 대응하는 클래스와 매칭되는 신뢰도 레벨을 나타내는 값을 갖고, 여기서 가장 큰 값을 갖는 필드는 매칭 클래스를 나타낸다. 어떤 값도 임계 신뢰도 레벨을 초과하지 않는 경우, 특징 데이터 (132) 는 어떤 클래스에도 맵핑되지 않는 것으로 결정될 수 있다.
일부 양태들에 따르면, 분류 출력 (142) 은 정수 표현, 비트 벡터 표현 (예를 들어, 원-핫 표현 또는 인코딩된 이진 표현), 이진 트리 또는 그래프 표현, 또는 하나 이상의 다른 표현들, 예컨대 하나 이상의 해시 (hash), 이진 트리들, 그래프들, 또는 어레이들을 갖는다. 정수 표현들은 차수 O(N) 저장 리소스들을 사용하여 N 개의 엘리먼트들 (예를 들어, N 개의 클래스들, 여기서 N 은 양의 정수임) 을 갖는 데이터의 저장을 가능하게 하는 한편, 인코딩된 이진 비트 벡터는 차수 O(log N) 저장 리소스들을 사용하여 데이터의 저장을 가능하게 한다. 분류 출력 (142) 의 특정 표현의 사용은, 메모리 풋프린트, 룩업 복잡성, 또는 클래스들의 삽입 또는 제거의 복잡성에 대해 선택된 바와 같이, 사용 사례에 기초하여 선택될 수도 있다.
일부 구현들에서, 프로세서 (190) 는 분류 출력 (142) 에 적어도 부분적으로 기초하여 하나 이상의 권한들 (151) 을 결정하도록 추가로 구성된다. 예를 들어, 프로세서 (190) 는 분류 출력 (142) 에 대응하는 권한 (151) 을 결정하기 위해 테이블 (194) 로부터 제 1 세트의 권한들 (155) 또는 제 2 세트의 권한들 (165) 을 검색한다. 권한 (151) 은 예시적인 비제한적 예들로서, 사용자가 하나 이상의 특정 디바이스들, 예컨대, 디바이스 (102), 제 2 디바이스 (160), 하나 이상의 다른 디바이스들, 또는 이들의 조합에서 하나 이상의 동작들에 액세스하거나 또는 이들을 수행하도록 인가되는지 여부를 나타낼 수 있다.
일부 구현들에서, 프로세서 (190) 는 권한 (151) 이 음성 커맨드 프로세싱 동작 (152) 에 대한 액세스를 나타내는 것에 기초하여 음성 커맨드 프로세싱 동작 (152) 을 선택적으로 개시하도록 구성된다. 예시적인 예에서, 음성 커맨드 프로세싱 동작 (152) 은 키워드 또는 키 구문 검출, 핵심 구 검출, 자연어 (natural language) 프로세싱, 하나 이상의 다른 동작들, 또는 이들의 임의의 조합과 같은 음성 활성화 동작을 포함한다. 일부 구현들에서, 프로세서 (190) 는 도 3 을 참조하여 더 상세히 설명된 바와 같이, 음성 커맨드 프로세싱 동작 (152) 을 개시하기 위해 웨이크업 신호 또는 인터럽트 중 적어도 하나를 생성하도록 구성된다. 펄스 코드 변조 (pulse code modulation; PCM) 또는 오디오 데이터 샘플들이 사용자들을 위해 저장되고 수신된 오디오 샘플들과 비교되어 사용자를 인증하고, 및/또는 오디오 데이터 샘플 (116) 에 대응하는 PCM 데이터가 키워드들의 존재를 체크하도록 프로세싱되는 종래의 시스템들과 비교하여, 동적 분류기 (140) 의 분류 출력 (142) 은 대신 디바이스 (102) 의 음성 커맨드 프로세싱 동작 (152) 또는 하나 이상의 다른 컴포넌트들을 웨이크 업 또는 개시하는데 사용될 수 있다.
모뎀 (170) 은 프로세서 (190) 에 커플링되고, 무선 송신을 통해서와 같이, 제 2 디바이스 (160) 와의 통신을 가능하게 하도록 구성된다. 일부 예들에서, 모뎀 (170) 은 권한 (151) 이 제 2 디바이스 (160) 에 대한 액세스를 나타내는 것에 응답하여 음성 커맨드 프로세싱 동작 (152) 의 출력을 제 2 디바이스 (160) 에 송신하도록 구성된다. 일부 예들에서, 모뎀 (170) 은 오디오 데이터 샘플 (116) 이 동적 분류기 (140) 에 기초하여 인가된 사용자에 대응한다는 결정에 응답하여 오디오 데이터 샘플 (116) 을 제 2 디바이스 (160) 에 송신하도록 구성된다. 예를 들어, 디바이스 (102) 가 제 2 디바이스 (160) 에 무선으로 커플링되는 (예를 들어, 모바일 폰 또는 컴퓨터에 대한 BLUETOOTHTM 접속) 헤드셋 디바이스에 대응하는 구현에서, 디바이스 (102) 는 제 2 디바이스 (160) 의 음성 활성화 시스템 (162) 에서 음성 커맨드 프로세싱 동작 (152) 을 수행하기 위해 오디오 데이터 샘플 (116) 을 제 2 디바이스 (160) 로 전송할 수도 있다. 이 예에서, 디바이스 (102) 는 제 2 디바이스 (160) 의 더 큰 프로세싱 리소스들 및 전력 리소스들을 사용하여 수행되도록 더 계산적으로 비용이 많이 드는 프로세싱 (예를 들어, 음성 커맨드 프로세싱 동작 (152)) 을 오프로드한다. 다른 예들에서, 디바이스 (102) 는 음성 커맨드 프로세싱 동작 (152) 을 수행하도록 구성되고, 모뎀 (170) 은 권한 (151) 이 제 2 디바이스 (160) 에 대한 액세스를 나타내는 것에 응답하여 음성 커맨드 프로세싱 동작 (152) (예를 들어, 명령) 의 출력을 제 2 디바이스 (160) 에 송신하도록 구성된다.
일부 구현들에서, 디바이스 (102) 는 하나 또는 다양한 타입들의 디바이스들에 대응하거나 그에 포함된다. 예시적인 예에서, 프로세서 (190) 는, 도 16 을 참조하여 더 설명된 바와 같이, 헤드셋 디바이스에 통합된다. 다른 예들에서, 프로세서 (190) 는 도 15 를 참조하여 설명된 바와 같은, 모바일 폰 또는 태블릿 컴퓨터 디바이스, 도 17 을 참조하여 설명된 바와 같은, 웨어러블 전자 디바이스, 도 18 을 참조하여 설명된 바와 같은, 음성-제어 스피커 시스템, 도 19 를 참조하여 설명된 바와 같은, 카메라 디바이스, 또는 도 20 을 참조하여 설명된 바와 같은, 가상 현실 헤드셋, 혼합 현실 헤드셋, 또는 증강 현실 헤드셋 중 적어도 하나에 통합된다. 다른 예시적인 예에서, 프로세서 (190) 는, 도 21 및 도 22 를 참조하여 더 설명된 바와 같이, 차량에 통합된다.
동작 동안, 마이크로폰 (110) 은 사용자 (176) 의 발화 (178) 를 캡처하도록 구성된다. 오디오 데이터 샘플 (116) 은 에코 소거, 잡음 억제, 주파수 도메인 변환 등을 수행하는 것에 의해서와 같이, 프로세서 (190) 에서 프로세싱된다. 결과적인 오디오 데이터는 특징 추출기 (130) 에서 프로세싱되어 특징 데이터 (132) 를 생성한다. 특징 데이터 (132) 는 동적 분류기 (140) 에 입력되어, (예를 들어, 테이블 (194) 에서의 룩업 동작과 함께) 프로세서 (190) 에 의해 해석되는 분류 출력 (142) 을 생성하고, 사용자 (176) 가 인증 (예를 들어, 동적 분류기 (140) 에 의해 기존 클래스에 매칭) 되는지 여부를 나타낼 수도 있는 인증 (150) 을 생성하고 그리고 권한 (151) 을 획득한다.
일부 구현들에서, 센서 (180) 는 카메라 (196) 를 통해 캡처된 사용자 (176) 의 이미지와 같은 하나 이상의 다른 양태들을 캡처하도록 구성된다. 데이터 샘플 (186) 은 이미지 필터링, 주파수 도메인 변환 등을 수행하는 것에 의해서와 같이, 프로세서 (190) 에서 프로세싱된다. 결과적인 데이터는 특징 추출기 (130) (또는 다른 특징 추출기) 에서 프로세싱되어, 데이터 샘플들 (186) 에 대응하는 특징 데이터 (132) 의 추가적인 컴포넌트들을 생성할 수도 있다. 특징 데이터 (132) (예를 들어, 도 9 를 참조하여 더 설명된 바와 같이, 오디오 특징들 및 이미지 특징들을 포함하는 병합된 데이터) 는 동적 분류기 (140) 에 입력되어 분류 출력 (142) 을 생성하고, 분류 출력은 인증 (150) 을 결정하고 권한 (151) 을 획득하는데 사용된다. 일부 구현들에서, 단일 동적 분류기에서 병합된 오디오 및 이미지 데이터를 사용하기보다는, 디바이스 (102) 는 도 10 을 참조하여 더 설명된 바와 같이, 오디오 데이터에 대한 제 1 동적 분류기 및 이미지 데이터 또는 다른 데이터 타입들에 대한 제 2 동적 분류기와 같은 다중의 동적 분류기들을 포함한다. 디바이스 (102) 가 다중의 분류기들을 포함하는 다른 구현은 도 11 을 참조하여 더 설명된 바와 같이, (예를 들어, 오디오 데이터를 잡음 또는 스피치 중 어느 하나로 분류하기 위해) 제 1 세트의 클래스들에 대해 제 1 동적 분류기 및 (예를 들어, 오디오 데이터를 분류된 사용자들의 스피치로 또는 분류되지 않은 사용자들의 스피치로 분류하기 위해) 제 2 세트의 클래스들에 대해 제 2 동적 분류기를 사용한다. 다른 예에서, 디바이스 (102) 는 도 13 을 참조하여 더 설명된 바와 같이, 다중의 동적 분류기들을 포함할 수 있으며, 여기서 각각의 동적 분류기는 다중의 디바이스들의 세트의 대응하는 디바이스에 대한 인증 네트워크로서 기능한다. 다중의 동적 분류기들을 사용하는 상기 예들 중 임의의 예에서, 동적 분류기들의 계위적 구성은 예시적인 비제한적 예들로서, 하나의 스테이지에서 오디오 데이터 그리고 다른 스테이지에서 이미지 데이터를 분류하기 위해, 하나의 스테이지에서 제 1 오디오 특징들 그리고 다른 스테이지에서 제 2 오디오 특징들을 분류하기 위해 (예를 들어, 도 11 을 참조하여 설명된 바와 같음), 추가의 보안 계층들을 위해 또는 콘텐츠 또는 서비스들의 멀티-레벨 제어를 위해 멀티-스테이지 인증을 제공하는 것과 같이, 멀티-스테이지 인증에 사용될 수도 있다.
일부 구현들에서, 인증 (150) 은 디바이스 (102) 에서 음성 커맨드 프로세싱 동작 (152) 을 개시할지 여부를 결정하는데 사용된다. 예를 들어, 디바이스 (102) 는 스피치가 음성 커맨드에 대응하거나 그를 포함하는지를 결정하기 위해 임의의 인증된 사용자로부터의 스피치를 프로세싱할 수도 있다. 대안적으로 또는 추가로, 인증 (150) 은 음성 활성화 시스템 (162) 에서의 추가 프로세싱을 위해 제 2 디바이스 (160) 에 대한 출력 신호 (175) (예를 들어, 오디오 데이터 샘플 (116)) 의 생성을 개시할지 여부를 결정하는데 사용될 수 있다.
또한, 분류 출력 (142) 을 생성하는 것과 함께, 동적 분류기 (140) 는 특징 데이터 (132) 와 더 유사하도록 승리한 유닛 및 그 이웃들의 가중치들을 조정하거나, 클러스터링 동작 (144), 분류 기준 (146) 을 업데이트하거나, 또는 이들의 조합에 의해서와 같이, 특징 데이터 (132) 에 기초하여 업데이트된다. 이러한 방식으로, 동적 분류기 (140) 는 사용자 스피치의 변화들, 환경의 변화들, 디바이스 (102) 또는 마이크로폰 (110) 의 특성들의 변화들, 새로운 사용자들의 추가, 또는 이들의 조합에 자동으로 적응한다.
따라서 시스템 (100) 은 비교적 낮은 복잡성, 낮은 전력 소비, 및 높은 정확도로 사용자들 간을 구별하기 위해 동적 분류기 (140) 를 사용함으로써 사용자 인증을 개선한다. 사용자 및 환경 변화들에 자동으로 적응하는 것은 사용자에 의해 수행될 교정을 감소 또는 제거하고 사용자의 경험을 향상시킴으로써 개선된 이익을 제공한다.
마이크로폰 (110) 및 센서 (180) 가 디바이스 (102) 에 커플링되는 것으로 예시되지만, 다른 구현들에서 마이크로폰 (110) 또는 센서 (180) 중 하나 또는 양자 모두가 디바이스 (102) 에 통합될 수도 있다. 일부 구현들에서, 센서 (180) 는 생략되고, 인증은 다른 센서들로부터의 데이터 샘플들 (186) 을 사용하지 않고 오디오 데이터 샘플들 (116) 에 기초하여 수행된다.
테이블 (194) 이 클래스 데이터, 권한 데이터, 사용자 데이터, 및 식별 데이터를 저장하는 것으로 설명되지만, 다른 구현들에서 클래스 데이터, 권한 데이터, 사용자 데이터, 식별 데이터, 또는 이들의 임의의 조합은 테이블 이외의 다른 구조 (예를 들어, 비제한적 예들로서, 링크된 리스트, 어레이, 또는 관계형 데이터베이스) 를 사용하여 저장된다. 일부 구현들에서, 권한 데이터, 사용자 데이터, 및 식별 데이터 중 하나 이상이 생략된다. 예를 들어, 디바이스 (102) 의 음성 커맨드 프로세싱 동작 (152) 또는 다른 컴포넌트들 또는 기능들은 분류 출력 (142) 에 기초하여 그리고 임의의 특정 사용자를 식별하지 않고 활성화될 수도 있다. 예시적인 구현에서, 테이블 (194) 은 생략되고, 분류 출력 (142) 은 인증 (150) 및 권한 (151) 으로서 기능한다.
디바이스 (102) 가 음성 커맨드 프로세싱 동작을 수행할지 여부를 결정하기 위해 인증 (150) 및 권한 (151) 을 사용하는 것으로 설명되지만, 다른 구현들에서 인증 (150) 및 권한 (151) 은 디바이스 (102), 디바이스 (160), 또는 이들의 조합과 연관된 기능들에 대한 액세스를 선택적으로 잠금, 잠금해제, 또는 달리 제공하는데 사용된다. 예를 들어, 인증 (150) 및 권한 (151) 은 예시적인 비제한적 예들로서, 콘텐츠 (예를 들어, 비제한적 예들로서, 개인 데이터 및 애플리케이션들, 예컨대 연락처, 메시징, 또는 뱅킹, 또는 미디어 콘텐츠의 재생) 에 대한 액세스를 승인 또는 차단하기 위해, 디바이스 (102) 또는 디바이스 (160) 의 하나 이상의 컴포넌트들을 활성화하거나 비활성화하기 위해, 서비스들 (예를 들어, 지불 서비스들, 스트리밍 미디어 서비스들 등) 을 잠금 또는 잠금해제하기 위해, 가상 현실 또는 증강 현실 구현들에서 가상 환경으로의 진입을 허용하기 위해, 또는 가상 어시스턴트에 대한 액세스를 가능하게 하기 위해 사용될 수 있다. 따라서 동적 분류기 (140) 의 사용은 다중의 방식들이 다양한 컴포넌트들 및 기능들에 대한 액세스를 승인 또는 거부할 수 있게 하며, 이는 비감독 방식으로 업데이트되고 그러한 컴포넌트들 및 기능들에 대한 액세스를 제공하는 종래의 기법들과 비교하여 효율적인 아키텍처를 사용한다.
다양한 시스템들이 설명을 목적으로 동적 분류기를 갖고 하나 이상의 추가적인 디바이스들 (예를 들어, 제 2 디바이스 (160)) 에 커플링되는 제 1 디바이스 (예를 들어, 디바이스 (102)) 를 포함하는 것으로 본 개시에서 예시되지만, 달리 명시적으로 표시되지 않는 한, 그러한 추가적인 디바이스(들)는 옵션이고 요구된 컴포넌트들 또는 제한들로 해석되지 않아야 한다는 것이 이해되어야 한다. 예시를 위해, 일부 구현들에 따르면, 디바이스 (102) 는 동적 분류기 (140) 의 분류 출력 (142) 을 사용하여 디바이스 (160) 또는 임의의 다른 외부 디바이스에 커플링되거나 그와 통신하지 않고 디바이스 (102) 의 동작들, 컴포넌트들, 액세스, 또는 기능의 다른 양태들을 제어한다.
도 2 는 도 1 의 디바이스 (102) (예를 들어, 프로세서 (190)) 에 의해 수행될 수도 있는 인증과 연관된 동작들 (200) 의 예시적인 양태의 다이어그램이다. 특징 추출 (204) 이 입력 (202) 에 대해 수행되어 특징 데이터 (206) 를 생성한다. 예에서, 입력 (202) 은 오디오 데이터 샘플 (116) 에 대응하고, 특징 추출 (204) 은 특징 추출기 (130) 에 의해 수행되고, 특징 데이터 (206) 는 특징 데이터 (132) 에 대응한다.
동적 분류기 (208) 는 특징 데이터 (206) 에 대해 동작하여 분류 출력 (210) 을 생성한다. 예에서, 동적 분류기 (208) 는 동적 분류기 (140) 에 대응하고 분류 출력 (210) 에서 사용자 분류를 위한 매우 동적인 결정 경계들을 갖는 특징 데이터 (206) 에 기초하여 비감독 실시간 클러스터링을 수행하도록 구성된다. 예를 들어, 동적 분류기 (208) 는 특징 공간을 다중의 클래스들로 분할할 수도 있으며, 하나의 클래스는 스피치가 적응적 클러스터링 및 결정 경계 적응을 통해 분류된 각각의 사용자와 연관되었다. 분류 출력 (210) 은 예를 들어, 어느 클래스가 특징 데이터 (206) 와 연관되는지의 뉴메릭 또는 비트-플래그 표시자를 포함할 수도 있다. 예에서, 분류 출력 (210) 은 분류 출력 (142) 에 대응한다.
인증 연관 동작 (212) 은 분류 출력 (210) 및 검증 입력 (216) 에 기초하여 인증 표시자 (218) 를 생성한다. 검증 입력 (216) 은 분류 출력 (210) 의 클래스들의 각각을 특정 사용자와 연관시키는 정보를 제공할 수도 있다. 예를 들어, 검증 입력 (216) 은, 사용자의 이미지를 저장된 사용자 이미지 (예를 들어, 테이블 (194) 에 저장된 제 1 식별 데이터 (157) 또는 제 2 식별 데이터 (167) 와 비교되는 카메라 (196) 에 의해 캡처된 이미지) 와 비교하여 분류 출력 (210) 을 특정 사용자에 맵핑하는 것과 같이, 인증 연관 동작이 분류 출력 (210) 을 특정 사용자에 라벨링할 수 있게 하는 적어도 하나의 이전 검증 기준 (214) 에 기초하여 생성될 수도 있다. 예를 들어, 인증 연관은 "1" 의 분류 출력 (210) 값이 제 1 사용자 (156) 에 대응하고 "2" 의 분류 출력 (210) 값이 제 2 사용자 (166) 에 대응하거나, 또는 양자 모두라고 결정할 수도 있고, 그 결과 프로세서 (190) 는 이에 따라 테이블 (914) 을 채우거나 업데이트할 수도 있다.
인증 연관 동작 (212) 은 인증 표시자 (218) (예를 들어, 인증 (150)) 의 생성을 초래한다. 제어/액세스 사양 동작 (220) 은 인증 표시자 (218) 에 응답하여 하나 이상의 디바이스들 또는 시스템들 (224) 에 대한 신호 (222) 를 선택적으로 생성한다. 예를 들어, 신호 (222) 는 분류 출력 (210) 과 연관된 특정 권한들에 기초하여 생성될 수도 있다. 일부 구현들에서, 분류 출력 (210) 이, 특징 데이터 (206) 가 임의의 분류된 사용자에 대응하지 않음을 나타낼 때, 신호 (222) 는 디폴트 인가 또는 권한을 나타낼 수도 있거나, 또는 인가되지 않은 사용자들에게 액세스가 제공되지 않는 경우 신호 (222) 가 생성되지 않을 수도 있다. 신호 (222) 는 검출된 키워드, 음성 커맨드, 입력 오디오 데이터, 하나 이상의 다른 세트들의 데이터, 또는 이들의 임의의 조합을 포함할 수도 있다. 하나 이상의 디바이스들 또는 시스템들 (224) 은 동적 분류기를 포함하는 동일한 디바이스 내의 컴포넌트들 (예를 들어, 디바이스 (102) 의 컴포넌트, 예컨대, 키워드 검출기 또는 자동 스피치 인식 (ASR) 엔진) 일 수도 있거나, 또는 디바이스 외부에 있을 수도 있다 (예를 들어, 제 2 디바이스 (160)).
도 1 의 동적 분류기 (140) 및 도 2 의 동적 분류기 (140) 를 참조하여 설명된 것과 같은 동적 분류는, 추출된 특징 데이터를 사용한 구별이 다양한 조건들, 예컨대, 매우 비정상적인 상황들에서의 환경적 조건들; 시간의 경과에 따른 사용자 스피치 특성들의 변화들; 및 주파수 스펙트럼에 걸친 마이크로폰들의 잡음 플로어, 바이어스, 및 감도들에 능동적으로 응답하고 적응할 수 있게 한다. 동적 분류는 그러한 변화들에 응답할 수 있는 적응적 특징 맵핑을 가능하게 한다. 그 결과, 정확히 인증되도록 사용자에 의해 제공될 스피치 샘플들의 수는 종래의 시스템들과 비교하여 감소될 수도 있다.
도 3 은 본 개시의 일부 예들에 따른, 동적 분류기에 기초하여 디바이스 동작을 제어하도록 동작가능한 시스템 (300) 의 예시적인 양태의 블록 다이어그램이며, 여기서 프로세서 (190) 는 상시 온 전력 도메인 (303) 및 제 2 전력 도메인 (305), 예컨대 온-디맨드 전력 도메인을 포함한다. 일부 구현들에서, 음성 커맨드 프로세싱 시스템 (320) 으로 예시된, 멀티-스테이지 시스템의 제 1 스테이지 (340), 및 버퍼 (360) 는 상시 온 모드로 동작하도록 구성되고, 멀티-스테이지 시스템 (예를 들어, 음성 커맨드 프로세싱 시스템 (320)) 의 제 2 스테이지 (350) 는 온-디맨드 모드로 동작하도록 구성된다.
상시 온 전력 도메인 (303) 은 버퍼 (360), 특징 추출기 (130), 및 동적 분류기 (140) 를 포함한다. 버퍼 (360) 는 음성 커맨드 프로세싱 시스템 (320) 의 컴포넌트들에 의한 프로세싱을 위해 액세스가능할 오디오 데이터 샘플들 (116) 및 데이터 샘플들 (186) 을 저장하도록 구성된다.
제 2 전력 도메인 (305) 은 음성 커맨드 프로세싱 시스템 (320) 의 제 2 스테이지 (350) 내의 음성 커맨드 프로세싱 유닛 (370) 을 포함하고, 또한 활성화 회로부 (330) 를 포함한다. 일부 구현들에서, 음성 커맨드 프로세싱 유닛 (370) 은 도 1 의 음성 커맨드 프로세싱 동작 (152) 을 수행하도록 구성된다.
음성 커맨드 프로세싱 시스템 (320) 의 제 1 스테이지 (340) 는 동적 분류기 (140) 의 분류 출력에 기초하여 제 2 스테이지 (350) 를 활성화하도록 구성된다. 예에서, 음성 커맨드 프로세싱 시스템 (320) 의 제 1 스테이지 (340) 는, 동적 분류기 (140) 의 분류 출력이, 오디오 데이터 샘플들 (116), 데이터 샘플들 (186), 또는 양자 모두가 인가된 사용자에 대응함을 나타내는 것에 응답하여 음성 커맨드 프로세싱 유닛 (370) 에서 음성 커맨드 프로세싱 동작 (152) 을 개시하기 위해 웨이크업 신호 (322) 또는 인터럽트 (324) 중 적어도 하나를 생성하도록 구성된다. 예에서, 웨이크업 신호 (322) 는 음성 커맨드 프로세싱 유닛 (370) 을 활성화하기 위해 제 2 전력 도메인 (305) 을 저전력 모드 (332) 로부터 활성 모드 (334) 로 트랜지션하도록 구성된다. 일부 구현들에서, 웨이크업 신호 (322), 인터럽트 (324), 또는 양자 모두는 도 2 의 신호 (222) 에 대응한다.
예를 들어, 활성화 회로부 (330) 는 전력 관리 회로부, 클록 회로부, 헤드 스위치 또는 풋 스위치 회로부, 버퍼 제어 회로부, 또는 이들의 임의의 조합을 포함하거나 또는 이에 커플링될 수도 있다. 활성화 회로부 (330) 는 제 2 스테이지 (350) 의 전력 공급부의, 제 2 전력 도메인 (305) 의, 또는 양자 모두의 전압을 선택적으로 인가 또는 상승시키는 것에 의해서와 같이, 제 2 스테이지 (350) 의 파워-온 (powering-on) 을 개시하도록 구성될 수도 있다. 다른 예로서, 활성화 회로부 (330) 는 전력 공급부를 제거하지 않고 회로 동작을 방지하거나 인에이블하는 것과 같이, 제 2 스테이지 (350) 에 클록 신호를 선택적으로 게이팅 또는 언-게이팅하도록 구성될 수도 있다.
음성 커맨드 프로세싱 시스템 (320) 의 제 2 스테이지 (350) 에 의해 생성된 음성 커맨드 출력 (352) 은 애플리케이션 (354) 에 제공된다. 애플리케이션 (354) 은 검출된 음성 커맨드에 기초하여 하나 이상의 동작들을 수행하도록 구성될 수도 있다. 예시를 위해, 애플리케이션 (354) 은 예시적인 비제한적 예들로서, 음성 인터페이스 애플리케이션, 통합 보조 애플리케이션, 차량 내비게이션 및 엔터테인먼트 애플리케이션, 또는 홈 자동화 시스템에 대응할 수도 있다.
음성 커맨드 프로세싱 시스템 (320) 의 제 1 스테이지 (340) 내의 동적 분류기 (140) 에서 오디오 데이터 샘플들을 프로세싱한 결과에 기초하여 제 2 스테이지 (350) 를 선택적으로 활성화함으로써, 사용자 인증, 음성 커맨드 프로세싱, 또는 양자 모두와 연관된 전반적인 전력 소비는 감소될 수도 있다.
도 4 는 본 개시의 일부 예들에 따른, 도 1 의 시스템의 컴포넌트들의 동작의 예시적인 양태의 다이어그램이다. 특징 추출기 (130) 는 제 1 프레임 (F1) (412), 제 2 프레임 (F2) (414), 및 제 N 프레임 (FN) (416) (여기서 N 은 2 보다 더 큰 정수임) 을 포함한 하나 이상의 추가적인 프레임들로서 예시된, 오디오 데이터 샘플 (116) 의 연속적으로 캡처된 프레임들의 시퀀스와 같은, 오디오 데이터 샘플들의 시퀀스 (410) 를 수신하도록 구성된다. 특징 추출기 (130) 는 제 1 세트 (422), 제 2 세트 (424), 및 제 N 세트 (426) 를 포함한 하나 이상의 추가적인 세트들을 포함하는 특징 데이터의 세트들의 시퀀스 (420) 를 출력하도록 구성된다.
동적 분류기 (140) 는 특징 데이터의 세트들의 시퀀스 (420) 를 수신하고 시퀀스 (420) 내의 특징 데이터의 이전 세트 (예를 들어, 제 1 세트 (422)) 에 적어도 부분적으로 기초하여 시퀀스 (420) 의 각각의 세트 (예를 들어, 제 2 세트 (424)) 를 적응적으로 클러스터링하도록 구성된다. 예시적인 비제한적 예들로서, 동적 분류기 (140) 는 시간적 Kohonen 맵 또는 회귀 자가-조직화 맵으로 구현될 수 있다.
동작 동안, 특징 추출기 (130) 는 제 1 프레임 (412) 을 프로세싱하여 특징 데이터의 제 1 세트 (422) 를 생성하고, 동적 분류기 (140) 는 특징 데이터의 제 1 세트 (422) 를 프로세싱하여 분류 출력들의 시퀀스 (430) 의 제 1 분류 출력 (C1) (432) 을 생성한다. 특징 추출기 (130) 는 제 2 프레임 (414) 을 프로세싱하여 특징 데이터의 제 2 세트 (424) 를 생성하고, 동적 분류기 (140) 는 특징 데이터의 제 2 세트 (424) 를 프로세싱하여 특징 데이터의 제 2 세트 (424) 에 기초하여 그리고 특징 데이터의 제 1 세트 (422) 에 적어도 부분적으로 기초하여 제 2 분류 출력 (C2) (434) 을 생성한다. 특징 추출기 (130) 가 제 N 프레임 (416) 을 프로세싱하여 특징 데이터의 제 N 세트 (426) 를 생성하고, 동적 분류기 (140) 가 특징 데이터의 제 N 세트 (426) 를 프로세싱하여 제 N 분류 출력 (CN) (436) 을 생성하는 것을 포함하여, 그러한 프로세싱이 계속된다. 제 N 분류 출력 (436) 은 특징 데이터의 제 N 세트 (426) 에 기초하고 시퀀스 (420) 의 특징 데이터의 이전 세트들 중 하나 이상에 적어도 부분적으로 기초한다.
특징 데이터의 하나 이상의 이전 세트들에 기초하여 동적으로 분류함으로써, 동적 분류기 (140) 에 의한 분류의 정확도는 오디오 데이터의 다중의 프레임들에 걸쳐 있을 수도 있는 스피치 신호들에 대해 개선될 수도 있다.
도 5 는 본 개시의 일부 예들에 따른, 디바이스 (102) 의 프로세서 (190) 에 의해 수행될 수도 있는 동작들의 구현 (500) 을 도시한다. 사용자 (176) 는 등록 동작 (502) 을 통해 새로운 사용자로 등록될 수도 있다. 사용자 (176) 의 스피치 (예를 들어, 발화 (178)) 는 (예를 들어, 마이크로폰 (110), 입력 인터페이스 (114), 및 특징 추출기 (130) 를 통해) 수신 및 프로세싱되고 동적 분류기 (140) 에서 프로세싱된다. 동적 분류기 (140) 에서의 프로세싱의 결과에 기초하여, 등록 동작 (502) 은 사용자 (176) 를 새로운 사용자로 등록할지 여부를 결정한다.
일부 구현들에서, 등록 동작 (502) 은 새로운 사용자 (176) 의 스피치 (예를 들어, 발화 (178)) 에 대응하는 특징 벡터와 동적 분류기 (140) 의 기존 노드들 사이의 유사성 측정치 (544) 에 적어도 부분적으로 기초하여 사용자 (176) 를 새로운 사용자로 등록하기 위해 동적 분류기 (140) 를 업데이트할지 여부를 결정하는 것을 포함한다. 예를 들어, 유사성 측정치 (544) 가, 스피치 (예를 들어, 발화 (178)) 에 대응하는 특징 벡터가 유사성 임계치를 만족하지 않음을 나타내면, 사용자 (176) 를 새로운 사용자로 등록하라는 결정이 이루어진다. 대안적으로 또는 추가로, 일부 구현들에서, 등록 동작 (502) 은 제 1 성능 메트릭 (546) 과 제 2 성능 메트릭 (548) 의 비교에 적어도 부분적으로 기초하여 사용자 (176) 를 새로운 사용자로 등록하기 위해 동적 분류기 (140) 를 업데이트할지 여부를 결정하는 것을 포함한다. 제 1 성능 메트릭 (546) 은 (예를 들어, 사용자 (176) 를 기존 클래스에 매칭시킴으로써) 사용자 (176) 를 새로운 사용자로 등록하지 않고 동적 분류기 (140) 의 성능에 대응하고, 제 2 성능 메트릭 (548) 은 동적 분류기 (140) 가 사용자 (176) 를 새로운 사용자로 포함하기 위해 업데이트될 경우 동적 분류기 (140) 의 성능에 대응한다. 예시적인 예에서, 제 1 성능 메트릭 (546) 및 제 2 성능 메트릭 (548) 은 엔트로피 메트릭들에 대응한다.
사용자 (176) 를 새로운 사용자로 등록하기로 결정한 것에 응답하여, 특징 데이터 (132) 는 분류기에 추가 동작 (510) 과 함께 동적 분류기 (140) 에 제공된다. 동적 분류기 (140) 는 특징 데이터 (132) 를 프로세싱하여 특징 데이터 (132) 를 새로운 클래스 (506) 와 연관시키고, 새로운 클래스 (506) 와 연관된 분류 출력 (508) 을 생성한다. 업데이트 테이블 동작 (512) 은, 분류 출력 (508) (예를 들어, 클래스 표시자), 사용자 (176) 와 연관된 권한들의 세트, 사용자 (176) 의 표시, 및 사용자 (176) 에 대응하는 식별 데이터, 예컨대, 이미지 데이터 (504) 를 테이블 (194) 의 새로운 행으로서 저장하는 것에 의해서와 같이, 분류 출력 (580) 을 사용자 (176) 에 대응하는 추가적인 데이터와 연관시키기 위해 수행된다.
일부 구현들에서, 등록 동작 (502) 은 동적 분류기 (140) 에 의해 구별가능한 사용자들 (504) 의 수에 대한 상한 (524) 을 시행한다. 일부 구현들에서, 사용자 (176) 를 추가하여 사용자들 (540) 의 수가 상한 (524) 을 초과하게 되면, 기존 사용자가 제거된다. 예를 들어, 특정 사용자는, 특정 사용자가 얼마나 빈번하게 디바이스 (102) 와 상호작용하였는지, 디바이스 (102) 와의 특정 사용자의 가장 최근의 상호작용 이후 얼마나 많은 시간이 경과하였는지, 다른 사용자들을 제거하는 것과 연관된 성능 메트릭들과 비교한 특정 사용자를 제거하는 것과 연관된 하나 이상의 성능 메트릭들, 또는 이들의 조합에 기초하여 제거되도록 선택될 수도 있다.
일부 구현들에서, 프로세서 (190) 는, 특정 사용자를 제거하지 않고 동적 분류기 (140) 에 대응하는 성능 메트릭과, 특정 사용자를 제거하도록 업데이트되는 동적 분류기 (140) 에 대응하는 다른 성능 메트릭을 비교하는 것에 적어도 부분적으로 기초하여 다중의 사용자들 (540) 중 특정 사용자를 제거하기 위해 동적 분류기 (140) 를 업데이트할지 여부를 결정하도록 구성될 수도 있다.
도 6 은 본 개시의 일부 예들에 따른 시스템 (600) 의 구현을 도시한다. 시스템 (600) 은 제 1 프로세서 (690) 및 제 2 프로세서 (680) 를 포함하는 디바이스 (602) 를 포함한다. 제 1 프로세서 (690) 는 동적 분류기 (640) 를 포함하고 제 2 프로세서 (680) 에 커플링된다. 일부 구현들에서, 제 1 프로세서 (690) 및 제 2 프로세서 (680) 는 도 1 의 프로세서들 (190) 에 대응하고, 동적 분류기 (640) 는 동적 분류기 (140) 에 대응한다.
제 1 프로세서 (690) 는 도 1 의 오디오 데이터 샘플 (116) 과 같은 하나 이상의 오디오 데이터 샘플들 (616) 을 수신하고, 오디오 데이터 샘플 (616) 을 동적 분류기 (640) 에 제공하도록 구성된다. 제 1 프로세서 (690) 는 수신된 오디오 데이터 샘플 (616) 에 대응하는, 피치 데이터 및 포먼트 데이터와 같은, 특징 데이터 (632) 를 생성하도록 구성된다. 예시를 위해, 제 1 프로세서 (690) 는 도 1 의 특징 추출기 (130) 와 같은 특징 추출기를 포함할 수도 있거나, 동적 분류기 (640) 는 오디오 데이터 샘플 (616) 의 프로세싱 동안 특징 데이터 (632) 를 추출하도록 구성될 수도 있다. 동적 분류기 (640) 는 오디오 데이터 샘플 (616) 에 대응하는 분류 출력 (642) 을 생성하도록 구성된다.
제 2 프로세서 (680) 는 분류 출력 (642) 이 웨이크업 기준 (610) 을 만족하는 것에 응답하여 활성 상태로 트랜지션하도록 구성된다. 예를 들어, 제 2 프로세서 (680) 는 도 3 의 음성 커맨드 프로세싱 유닛 (370) 을 참조하여 설명된 바와 같이, 제 1 프로세서 (690) 로부터의 웨이크업 신호 또는 인터럽트에 응답하는 활성화 회로부를 포함할 수도 있다. 일부 구현들에서, 동적 분류기 (640) 는 스피치 (예를 들어, 사용자의 발화) 와 비-스피치 오디오 간을 구별하는 것과 같이, 다중의 오디오 소스들 간을 구별하도록 구성되고, 웨이크업 기준 (610) 은 검출된 스피치에 대응하는 분류 출력 (642) 을 포함한다. 일부 구현들에서, 웨이크업 기준 (610) 은 인가된 사용자와 연관된 클래스에 대응하는 분류 출력 (642) 을 포함한다.
일부 구현들에서, 웨이크업 기준 (610) 은 수신된 오디오 데이터 샘플 (616) 에서의 키워드의 존재와 독립적이다. 예를 들어, 제 2 프로세서 (680) 는 오디오 데이터 샘플 (616) 에 대해 키워드 검출을 수행하지 않고, 오디오 데이터 샘플 (616) 이 스피치, 또는 인가된 사용자의 스피치에 대응함을 나타내는 분류 출력 (642) 에 응답하여 활성 상태로 트랜지션할 수도 있다.
제 2 프로세서 (680) 를 활성화하기 위한 기준으로 키워드 검출을 생략하는 것은 제 1 프로세서 (690) 에서 키워드 검출을 수행하는 것과 연관된 전력 소비 및 복잡성의 감소를 가능하게 하는 한편, 제 2 프로세서 (680) 의 스퓨리어스 활성화 (spurious activation) 들은 (예를 들어, 분류 출력 (642) 이, 스피치가 검출되거나, 인가된 사용자로부터의 스피치가 검출됨을 나타낼 때) 웨이크업 기준 (610) 을 사용함으로써 감소되거나 제거될 수도 있다. 따라서 오디오 데이터 샘플 (616) 을 프로세싱하기 위한 동적 분류기 (640) 의 사용은, 종래의 상시 온 웨이크업 오디오 프로세싱 시스템들과 비교하여, 제 1 프로세서 (690) 에서 복잡성, 프로세싱 리소스들, 및 전력 소비를 감소시킬 수도 있고, 성능을 개선할 수도 있다.
도 7 은 본 개시의 일부 예들에 따른 시스템 (700) 의 구현을 도시한다. 시스템 (700) 은 디바이스 (760) 에 커플링되는 디바이스 (702) 를 포함한다. 디바이스 (702) 는 동적 분류기 (740) 를 포함하고 메모리 (792) 에 커플링되는 하나 이상의 프로세서들 (790) 을 포함한다. 일부 구현들에서, 하나 이상의 프로세서들 (790) 은 도 1 의 하나 이상의 프로세서들 (190) 에 대응하고, 메모리 (792) 는 메모리 (192) 에 대응하고, 동적 분류기 (740) 는 동적 분류기 (140) 에 대응하고, 디바이스 (760) 는 디바이스 (160) 에 대응한다. 메모리 (792) 는 도 1 의 테이블 (194) 과 같은, 동적 분류기 (740) 의 분류 출력들을 디바이스 (760) 와 연관된 하나 이상의 액세스 권한들과 연관시키는 테이블 (794) 을 포함한다.
프로세서 (790) 는 도 1 의 오디오 데이터 샘플 (116) 과 같은 하나 이상의 오디오 데이터 샘플들 (716) 을 수신하고, 오디오 데이터 샘플 (716) 을 동적 분류기 (740) 에 제공하도록 구성된다. 프로세서 (790) 는 수신된 오디오 데이터 샘플 (716) 에 대응하는 특징 데이터를 생성하도록 구성될 수도 있다. 예시를 위해, 프로세서 (790) 는 도 1 의 특징 추출기 (130) 와 같은 특징 추출기를 포함할 수도 있거나, 또는 동적 분류기 (740) 는 오디오 데이터 샘플 (716) 의 프로세싱 동안 특징 데이터를 추출하도록 구성될 수도 있다. 동적 분류기 (740) 는 오디오 데이터 샘플 (716) 에 대응하는 분류 출력 (742) 을 생성하도록 구성된다.
프로세서 (790) 는 분류 출력 (742) 에 기초하여 디바이스 (760) 에 선택적으로 액세스하도록 구성된다. 일부 구현들에서, 디바이스 (760) 에 선택적으로 액세스하는 것은 분류 출력 (742) 이 디바이스 (760) 에 액세스하도록 인가되는 클래스에 대응하는 것에 응답하여 디바이스 (760) 에 대한 액세스를 잠금해제하기 위해 제 1 신호 ("잠금해제 신호") (710) 를 전송하는 것을 포함한다. 일부 구현들에서, 디바이스 (760) 에 선택적으로 액세스하는 것은 분류 출력 (742) 이 디바이스 (760) 에 액세스하도록 인가되지 않는 클래스에 대응하는 것에 응답하여 디바이스 (760) 에 대한 액세스를 잠금하기 위해 제 2 신호 ("잠금 신호") (712) 를 전송하는 것을 포함한다. 일부 구현들에서, 디바이스 (760) 에 선택적으로 액세스하는 것은 분류 출력 (742) 이 디바이스 (760) 에 액세스하도록 인가된 클래스에 대응하는 것에 응답하여 디바이스 (760) 로 오디오 데이터 샘플 (716) 과 연관된 스피치 커맨드를 나타내는 데이터 ("스피치 커맨드 데이터") (714) 를 전송하는 것을 포함한다.
일부 구현들에서, 디바이스 (760) 는 버스 또는 다른 유선 접속을 통해 프로세서 (790) 에 커플링된다. 다른 구현들에서, 시스템 (700) 은 또한, 프로세서 (790) 에 커플링된 모뎀을 포함하고, 프로세서 (790) 는 디바이스 (760) 로의 신호의, 모뎀을 통한, 무선 송신을 통해 디바이스 (760) 에 선택적으로 액세스한다. 예시를 위해, 프로세서 (790) 는 모뎀을 통해 디바이스 (760) 에, 잠금해제 신호 (710), 잠금 신호 (712), 스피치 커맨드 데이터 (714), 또는 이들의 조합을 송신할 수도 있다.
일부 구현들에서, 동적 분류기 (740) 는 스피치 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 분류 출력 (742) 을 생성하도록 구성된다. 일부 예들에서, 동적 분류기 (740) 는 디바이스 (702) 로부터 임계 거리 (720) 내의 소스로부터 발생하는 스피치와, 디바이스 (702) 로부터 임계 거리 (720) 를 초과하는 소스로부터 발생하는 스피치 간을 구별하도록 구성된다. 프로세서 (790) 는 소스가 디바이스 (702) 로부터 임계 거리 (720) 를 초과하는 것에 기초하여 디바이스 (760) 에 대한 액세스를 거부하도록 구성될 수도 있다. 예를 들어, 임계 거리 (720) 는, (예를 들어, 디바이스 (702) 의 당면한 (immediate) 사용자가 아닌) 근처의 사람들의 스피치가 디바이스 (760) 를 활성화하는 것을 방지하거나, 또는 다른 사람이 디바이스 (702) 의 사용자의 바로 가까이에 있을 때 디바이스 (760) 가 액세스되는 것을 방지함으로써, 디바이스 (760) 의 보안, 디바이스 (760) 의 사용자의 보안, 또는 양자 모두를 향상시키기에 적절한 거리로 설정될 수도 있다.
일부 구현들에서, 프로세서 (790) 는 디바이스 (760) 에 액세스하도록 인가되는 제 1 사람으로부터의 스피치의 검출의 임계 시간 지속기간 (722) 내에 제 2 사람으로부터의 스피치의 검출에 기초하여 디바이스 (760) 에 대한 액세스를 거부하도록 구성된다. 예를 들어, 디바이스 (760) 의 보안, 디바이스 (760) 의 인가된 사용자의 보안 (예를 들어, 은행 계좌에 액세스하려고 시도할 때), 또는 양자 모두는, 다른 사람의 음성이 인가된 사용자의 음성의 검출의 특정된 시간 윈도우 내에 검출될 때 디바이스 (760) 의 동작을 방지하거나 제한함으로써 향상될 수도 있다.
도 8 은 본 개시의 일부 예들에 따른 시스템 (800) 의 구현을 도시한다. 시스템 (800) 은 하나 이상의 프로세서들 (890) 을 포함하는 디바이스 (802) 를 포함한다. 하나 이상의 프로세서들 (890) 은 동적 분류기 (840) 를 포함한다. 일부 구현들에서, 하나 이상의 프로세서들 (890) 은 도 1 의 하나 이상의 프로세서들 (190) 에 대응하고, 동적 분류기 (840) 는 동적 분류기 (140) 에 대응한다. 일부 구현들에서, 하나 이상의 프로세서들 (890) 은 동적 분류기 (840) 를 포함하는 제 1 프로세서 (810) 및 키워드 검출기 (814) 를 포함하는 제 2 프로세서 (812) 를 포함한다.
프로세서 (890) 는 도 1 의 오디오 데이터 샘플 (116) 과 같은, 오디오 데이터와 연관된 하나 이상의 오디오 데이터 샘플들 (816) 을 수신하고, 오디오 데이터 샘플 (816) 을 동적 분류기 (840) 에 제공하도록 구성된다. 예시를 위해, 프로세서 (890) 는 도 1 의 특징 추출기 (130) 와 같은 특징 추출기를 포함할 수도 있거나, 또는 동적 분류기 (840) 는 오디오 데이터 샘플 (816) 의 프로세싱 동안 특징 데이터를 추출하도록 구성될 수도 있다. 동적 분류기 (840) 는 오디오 데이터 샘플 (816) 에 대응하는 분류 출력 (842) 을 생성하도록 구성된다.
키워드 검출기 (814) 는 분류 출력 (842) 에 기초하여 오디오 데이터 샘플 (816) 에 대해 키워드 검출을 수행하고 키워드 검출기 결과 (820) 를 생성하도록 구성된다. 일부 구현들에서, 동적 분류기 (840) 는 스피치 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 분류 출력 (842) 을 생성하도록 구성되고, 키워드 검출기 (814) 는, 분류 출력 (842) 이 인가된 사용자와 연관된 클래스에 대응하지 않는 한 비활성으로 (예를 들어, 저전력 상태로) 유지된다.
일부 구현들에서, 제 2 프로세서 (812) 는 분류 출력 (842) 이 스피치를 나타내는 것에 응답하여 저전력 상태로부터 활성 상태로 트랜지션하도록 구성된다. 예를 들어, 제 2 프로세서 (812) 는 도 3 의 음성 커맨드 프로세싱 유닛 (370) 을 참조하여 설명된 것과 같이, 제 1 프로세서 (810) 로부터의 웨이크업 신호 또는 인터럽트에 응답하는 활성화 회로부를 포함할 수도 있다. 일부 구현들에서, 동적 분류기 (840) 는 스피치 (예를 들어, 사용자의 발화) 와 비-스피치 오디오 간을 구별하는 것과 같이, 다중의 오디오 소스들 간을 구별하도록 구성되고, 제 1 프로세서 (810) 는 분류 출력 (842) 이 검출된 스피치에 대응하는 것에 응답하여 제 2 프로세서 (812) 로 웨이크업 신호 또는 인터럽트를 전송한다. 일부 구현들에서, 동적 분류기 (840) 는 스피치 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 분류 출력 (842) 을 생성하도록 구성되고, 제 1 프로세서 (810) 는 분류 출력 (742) 이 인가된 사용자와 연관된 클래스에 대응하는 것에 응답하여 제 2 프로세서 (812) 로 웨이크업 신호 또는 인터럽트를 전송한다.
따라서, 오디오 데이터 샘플 (816) 을 프로세싱하기 위한 동적 분류기 (840) 의 사용은 상시 온 프로세싱 스테이지에서 키워드 검출을 수행하는 종래의 프로세싱 시스템들과 비교하여 복잡성, 프로세싱 리소스들, 및 전력 소비를 감소시킬 수도 있다.
도 9 는 본 개시의 일부 예들에 따른 시스템 (900) 의 구현을 도시한다. 시스템 (900) 은 디바이스 (960) 에 커플링된 디바이스 (902) 를 포함한다. 디바이스 (902) 는 동적 분류기 (940) 를 포함하는 하나 이상의 프로세서들 (990) 을 포함한다. 일부 구현들에서, 하나 이상의 프로세서들 (990) 은 도 1 의 하나 이상의 프로세서들 (190) 에 대응하고, 동적 분류기 (940) 는 동적 분류기 (140) 에 대응하고, 디바이스 (960) 는 디바이스 (160) 에 대응한다.
프로세서 (990) 는 하나 이상의 오디오 데이터 샘플들 (916), 하나 이상의 이미지 데이터 샘플들 (950), 및 하나 이상의 지문 데이터 샘플들 (952) 로서 예시된, 멀티모달 입력과 연관된 하나 이상의 데이터 샘플들을 수신하도록 구성된다. 구현에서, 오디오 데이터 샘플 (916) 은 도 1 의 오디오 데이터 샘플 (116) 에 대응하고, 이미지 데이터 샘플 (950) 및 지문 데이터 샘플 (952) 은 도 1 의 데이터 샘플 (186) 에 대응한다.
프로세서 (990) 는 멀티모달 입력과 연관된 데이터 샘플들을 동적 분류기 (940) 에 제공하도록 구성된다. 일부 구현들에서, 프로세서 (990) 는 수신된 데이터 샘플들에 대응하는 특징 데이터 (932) 를 생성하도록 구성된다. 예시를 위해, 제 1 프로세서 (690) 는 도 1 의 특징 추출기 (130) 와 같은 하나 이상의 특징 추출기들을 포함하여, 오디오 데이터 샘플 (916) (예를 들어, 피치 및 포먼트), 이미지 데이터 샘플 (950) (예를 들어, 키 포인트 검출, 얼굴, 눈, 홍채와 같은 특정 신체 부분들의 검출 등), 및 지문 데이터 샘플 (952) (예를 들어, 지문 특징들) 의 각각에서 특징들을 결정할 수도 있거나, 또는 동적 분류기 (940) 는 데이터 샘플들의 프로세싱 동안 특징 데이터 (932) 를 추출하도록 구성될 수도 있다. 동적 분류기 (940) 는 데이터 샘플들에 대응하는 분류 출력 (942) 을 생성하고 분류 출력 (942) 에 응답하여 디바이스 (960) 에 대한 액세스를 선택적으로 인가하도록 구성된다.
일부 구현들에서, 동적 분류기 (940) 는 얼굴 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 분류 출력 (942) 을 생성하도록 구성된다. 일부 구현들에서, 동적 분류기 (940) 는 스피치 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 분류 출력 (942) 을 생성하도록 구성된다. 일부 구현들에서, 동적 분류기 (940) 는 지문 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 분류 출력 (942) 을 생성하도록 구성된다.
일부 구현들에서, 하나 이상의 데이터 샘플들은 병합된 데이터 샘플 (918) 을 포함한다. 병합된 데이터 샘플 (918) 은 오디오 데이터 샘플 (916), 이미지 데이터 샘플 (950), 및 지문 데이터 샘플 (952) 중 적어도 2 개를 나타내도록 구성된다. 동적 분류기 (940) 는 병합된 데이터 샘플 (918) 에 기초하여 다중의 사용자들 간을 구별하여 분류 출력 (942) 을 생성하도록 구성될 수도 있다.
멀티모달 데이터 샘플들에 기초하여 분류 출력 (942) 을 생성함으로써, 디바이스 (902) 는 다양한 기준들 또는 기준들의 조합들에 기초하여 사용자들을 인증할 수도 있다. 예를 들어, 디바이스 (960) 에 액세스하도록 요구되는 권한의 레벨에 기초하여, 디바이스 (902) 는 입력 모드들 (예를 들어, 오디오, 시각적, 또는 지문) 중 임의의 하나, 입력 모드들 중 임의의 2 개, 또는 3 개의 입력 모드들 모두에 기초하여 인증을 요구할 수도 있다. 다른 예로서, 다중의 입력 모드들의 사용은, 입력 모드들 중 단일의 입력 모드를 사용하여 임계 신뢰도로 사용자를 인증할 수 없을 때 디바이스 (902) 가 사용자를 인증하는데 있어서 임계 신뢰도를 확립할 수 있게 한다. 예를 들어, 디바이스 (902) 가 보안 시스템에 대응하고, 디바이스 (960) 가 도어에 대한 잠금 메커니즘에 대응할 때, 밤에 뇌우 동안 도어를 잠금해제하려고 시도하는 사용자는 (바람 및 빗소리로 인해) 음성에 의해, (낮은 조명 및 희미하게 하는 비 또는 안개로 인해) 얼굴 인식에 의해, 또는 (사용자의 손가락, 지문 센서, 또는 양자 모두 상의 습기로 인해) 지문에 의해 인증될 수 없을 수도 있지만, 3 개의 입력 모드들 모두를 사용하는 데이터 샘플들의 조합에 기초하여 인증될 수도 있다.
디바이스 (902) 가 3 개의 입력 모드들 (이미지, 오디오, 및 지문) 을 사용하는 것으로 예시되어 있지만, 다른 구현들에서는 3 개보다 더 적은 입력 모드들 또는 3 개보다 더 많은 입력 모드들이 사용될 수도 있다. 대안적으로 또는 추가로, 이미지, 오디오, 또는 지문 입력 모드들 중 하나 이상은 하나 이상의 다른 입력 모드들로 대체될 수도 있다.
도 10 은 본 개시의 일부 예들에 따른 시스템 (1000) 의 구현을 도시한다. 시스템 (1000) 은 디바이스 (1060) 에 커플링된 하나 이상의 프로세서들 (1090) 을 포함하는 디바이스 (1002) 를 포함한다. 프로세서 (1090) 는 제 1 동적 분류기 (1040) 및 제 2 동적 분류기 (1044) 를 포함하는 동적 분류기 (1092) 를 포함한다. 일부 구현들에서, 프로세서 (1090) 는 도 1 의 프로세서 (190) 에 대응하고, 동적 분류기들 (1040, 1044) 중 하나 또는 양자 모두는 동적 분류기 (140) 에 대응하고, 디바이스 (1060) 는 디바이스 (160) 에 대응한다.
프로세서 (1090) 는 멀티모달 입력과 연관된 하나 이상의 데이터 샘플들을 수신하고 하나 이상의 데이터 샘플들을 동적 분류기 (1092) 에 제공하도록 구성된다. 예를 들어, 프로세서 (1090) 는 마이크로폰 (1010) 에 의해 캡처된 오디오 데이터에 기초하여 하나 이상의 오디오 데이터 샘플들 (1016) 을 수신하고, 카메라 (1096) 에 의해 캡처된 이미지 데이터로부터의 이미지 데이터 샘플들과 같은, 다른 센서 디바이스에 의해 캡처된 데이터에 기초하여 하나 이상의 비-오디오 데이터 샘플들 (1086) 을 수신한다. 일부 구현들에서, 카메라 (1096), 마이크로폰 (1010), 또는 양자 모두는 디바이스 (1002) 에 통합된다. 다른 구현들에서, 카메라 (1096), 마이크로폰 (1010), 또는 양자 모두는 디바이스 (1002) 에 커플링되는 외부 컴포넌트들이다. 마이크로폰 (1010) 은 도 1 의 마이크로폰 (110) 에 대응할 수도 있고, 카메라 (1096) 는 도 1 의 카메라 (196) 에 대응할 수도 있다.
제 1 동적 분류기 (1040) 는 오디오 데이터 샘플 (1016) 을 수신하고 오디오 데이터 샘플 (1016) 을 프로세싱하여 제 1 분류 출력 (1042) 을 생성하도록 구성된다. 제 1 동적 분류기 (1040) 는 다중의 사용자들의 스피치 특성들에 기초하여 다중의 사용자들과 연관된 클래스들 간을 구별하여 제 1 분류 출력 (1042) 을 생성하도록 구성된다. 제 1 분류 출력 (1042) 은 오디오 데이터 샘플 (1016) 과 연관된 특정 클래스의 뉴메릭 식별자 (1020) 를 나타낸다. 예를 들어, 사용자 (1076) 의 스피치가 제 1 동적 분류기 (1040) 에 의해 클래스 "2" 로 분류되는 경우, 뉴메릭 식별자 (1020) 는 "2" 에 대응한다.
제 2 동적 분류기 (1044) 는 비-오디오 데이터 샘플 (1086) 을 수신하고 비-오디오 데이터 샘플 (1086) 을 프로세싱하여 제 2 분류 출력 (1046) 을 생성하도록 구성된다. 제 2 분류 출력 (1046) 은 비-오디오 데이터 샘플 (1086) 과 연관된 특정 클래스의 뉴메릭 식별자 (1022) 를 나타낸다. 예를 들어, 사용자 (1076) 의 이미지가 제 2 동적 분류기 (1044) 에 의해 클래스 "2" 로 분류되는 경우, 뉴메릭 식별자 (1022) 는 "2" 에 대응한다.
예시된 바와 같이, 제 2 동적 분류기 (1044) 는 이미지 데이터에서의 뉴메릭 식별자 (1022) 의 시각적 표시 (1094) 에 기초하여 제 2 분류 출력 (1046) 을 생성하도록 구성된다. 예시적인 예에서, 이미지 데이터에서의 뉴메릭 식별자 (1022) 의 시각적 표시 (1094) 는 사용자들 중 하나의 사용자의 펴진 손가락 (extended digit) 들의 카운트 (예를 들어, 사용자 (1076) 의 한 손의 2 개의 펴진 손가락들) 를 포함한다.
프로세서 (1090) 는 제 1 분류 출력 (1042) 및 제 2 분류 출력 (1046) 중 적어도 하나에 응답하여 디바이스 (1060) 에 대한 액세스를 선택적으로 인가하도록 구성된다. 예를 들어, 사용자 (1076) 의 인증 (1050) 은 사용자 (1076) 의 스피치에 응답하는 뉴메릭 식별자 (1020) 에 기초하여, 사용자 (1076) 의 시각적 표시 (1094) 에 응답하는 뉴메릭 식별자 (1022) 에 기초하여, 또는 양자 모두에 기초하여 결정될 수도 있다. 디바이스 (1060) 에 대한 액세스는 인증 (1050) 과 연관된 하나 이상의 액세스 인가들 (1052) 에 기초하여 선택적으로 제공된다.
일부 구현들에서, 디스플레이 디바이스 (1062) 는 프로세서 (1090) 에 커플링되고, 프로세서 (1090) 는 디스플레이 디바이스 (1062) 를 통해 뉴메릭 식별자 (1020) 의 디스플레이를 개시하도록 구성된다. 예시를 위해, 사용자 (1076) 가 등록되면 (예를 들어, 제 1 동적 분류기 (1040) 의 특정 클러스터에 맵핑됨), 뉴메릭 식별자 (1020) 는 디스플레이 디바이스를 통해 사용자 (1076) 에게 제공될 수도 있다. 디바이스 (1002) 와의 후속 상호작용들에서, 사용자 (1076) 는 스피치를 제공하는 대신, 또는 그에 더하여 시각적 표시 (1094) 를 제공할 수 있다. 그 결과, 동적 분류기 (1092) 는 사용자 (1076) 의 스피치에 기초하여, 시각적 표시 (1094) 에 기초하여, 또는 이들의 조합에 기초하여 인증 (1050) 을 결정할 수 있다.
도 11 은 본 개시의 일부 예들에 따른 시스템 (1100) 의 구현을 도시한다. 시스템 (1100) 은 하나 이상의 프로세서들 (1190) 을 포함하고 디바이스 (1160) 에 커플링되는 디바이스 (1102) 를 포함한다. 프로세서 (1190) 는 제 1 동적 분류기 (1140) 및 제 2 동적 분류기 (1144) 를 포함하는 동적 분류기 (1192) 를 포함한다. 일부 구현들에서, 프로세서 (1190) 는 도 1 의 프로세서 (190) 에 대응하고, 동적 분류기들 (1140, 1144) 중 하나 또는 양자 모두는 동적 분류기 (140) 에 대응하고, 디바이스 (1160) 는 디바이스 (160) 에 대응한다.
프로세서 (1190) 는 음향 환경에 대응하는 오디오 데이터 샘플 (1116) 을 수신하도록 구성된다. 예를 들어, 오디오 데이터 샘플 (1116) 은 디바이스 (1102) 에 통합되거나 그에 커플링된 하나 이상의 마이크로폰들을 통해 수신될 수도 있다. 프로세서 (1190) 는 오디오 데이터 샘플 (1116) 을 동적 분류기 (1192) 에 제공하도록 구성된다.
동적 분류기 (1192) 는 동적 분류기 (1192) 에 의해 식별된 다중의 클래스들 간에 오디오 데이터 샘플 (1116) 을 분류하도록 구성된다. 예에서, 다중의 클래스들은 하나 이상의 이전에 분류된 사용자들에 대응하는 하나 이상의 사용자 클래스들 (1124), 하나 이상의 이전에 분류된 사용자들 이외의 누군가로부터의 스피치에 대응하는 비-사용자 스피치 클래스 (1126), 및 비-스피치 오디오에 대응하는 잡음 클래스 (1122) 를 포함한다.
예시된 바와 같이, 제 1 동적 분류기 (1140) 는 오디오 데이터 샘플 (1116) 을 스피치 클래스(1120) 또는 잡음 클래스 (1122) 로 분류함으로써 스피치와 비-스피치 오디오 간을 구별하여 제 1 분류 출력 (1142) 을 생성하도록 구성된다. 예를 들어, 제 1 분류 출력 (1142) 은 오디오 데이터 샘플 (1116) 이 스피치로 분류됨을 나타내는 제 1 값 또는 오디오 데이터 샘플 (1116) 이 잡음으로 분류됨을 나타내는 제 2 값을 가질 수도 있다. 제 2 동적 분류기 (1144) 는 하나 이상의 이전에 분류된 사용자들에 대응하는 하나 이상의 사용자 클래스들 (1124) 및 하나 이상의 이전에 분류된 사용자들로부터의 스피치 이외의 오디오에 대응하는 디폴트 클래스 ("비-사용자 스피치 클래스") (1126) 를 포함하는 다중의 클래스들 간을 구별하여, 제 2 분류 출력 (1146) 을 생성하도록 구성된다. 예를 들어, 제 2 분류 출력 (1146) 은 사용자 클래스들 (1124) 중 특정 클래스를 나타내는 다중의 값들 중 하나의 값 또는 비-사용자 스피치 클래스 (1126) 를 나타내는 다른 값을 가질 수도 있다.
일부 구현들에서, 프로세서는 제 1 동적 분류기 (1140) 에서 오디오 데이터 샘플을 먼저 프로세싱하고 제 1 동적 분류기 (1140) 가 오디오 데이터 샘플을 스피치 클래스 (1120) 로 분류하는 것에 응답하여 오디오 데이터 샘플 (1116) 을 제 2 동적 분류기 (1144) 에 제공하도록 구성된다. 그러한 구현들에서, 동적 분류기 (1192) 는 루트 동적 분류기 (예를 들어, 제 1 동적 분류기 (1140)) 의 출력이 분류의 다음 스테이지를 결정하는 계위적 분류기로서 동작한다 (예를 들어, 제 2 동적 분류기 (1144) 는 제 1 분류 출력 (1142) 이 스피치 클래스 (1120) 를 나타내는 것에 응답하여 활성화됨).
프로세서 (1190) 는 동적 분류기 (1192) 의 분류 출력에 응답하여 (예를 들어, 제 1 분류 출력 (1142) 및 제 2 분류 출력 (1146) 중 적어도 하나에 응답하여) 디바이스 (1160) 에 대한 액세스를 선택적으로 인가하도록 구성된다. 예를 들어, 사용자의 인증 (1150) 은 오디오 데이터 샘플 (1116) 이 특정 이전에 분류된 사용자의 스피치, 분류되지 않은 사람의 스피치, 또는 비-스피치 오디오에 대응하는지 여부에 기초하여 결정될 수도 있다. 디바이스 (1160) 에 대한 액세스는 인증 (1150) 과 연관된 하나 이상의 액세스 인가들 (1152) 에 기초하여 선택적으로 제공된다.
일부 구현들에서, 프로세서 (1190) 는, 제 1 분류 출력 (1142) 이 오디오 데이터 샘플 (1116) 이 잡음에 대응함을 나타내는 것에 응답하여, 오디오 데이터 샘플 (1116) 과 연관된 콘텍스트를 식별하도록 추가로 구성된다. 예를 들어, 오디오 데이터 샘플 (1116) 은 오디오 데이터 샘플 (1116) 의 음향 특성들에 기초하여, 디바이스 (1102) 가 차량, 밀폐된 영역, 사용자의 집의 특정 방, 사무실, 로비, 엘리베이터, 옥외 등에 있는지 여부와 같은, 음향 환경과 연관된 콘텍스트를 결정하도록 구성되는 콘텍스트 결정 엔진 (1170) 에 의해 프로세싱된다.
일부 구현들에서, 프로세서 (1190) 는, 제 1 분류 출력 (1142) 이 오디오 데이터 샘플 (1116) 이 잡음에 대응함을 나타내는 것에 응답하여, 오디오 데이터 샘플 (1116) 에 대응하는 오디오 데이터를 프로세싱하여 오디오 데이터의 잡음 성분을 적어도 부분적으로 제거하도록 추가로 구성된다. 예를 들어, 잡음 감소 엔진 (1172) 은 오디오 데이터 샘플 (1116) 을 프로세싱하여 소거 또는 다른 잡음 감소 기법들을 통해서와 같이, 수신된 오디오 데이터의 스피치 부분의 잡음 성분을 감소시키기 위해 사용될 수도 있는 배경 오디오 신호 (예를 들어, 레퍼런스 신호) 를 결정할 수도 있다.
동적 분류기 (1192) 가 개별의 분류 출력들 (1142, 1146) 을 생성하는 2 개의 분류기들 (1140, 1144) 을 포함하는 것으로 예시되지만, 다른 구현들에서, 동적 분류기 (1192) 는 오디오 데이터 샘플 (1116) 을 단일 분류 출력에서 잡음 클래스 (1122), 비-사용자 스피치 클래스 (1126), 또는 사용자 클래스들 (1124) 중 식별된 하나의 사용자 클래스로 분류하도록 구성된 단일 분류기를 포함한다. 다른 구현들에서, 동적 분류기 (1192) 는 제 2 동적 분류기 (1144) 를 생략할 수도 있고, 다양한 사용자 클래스들 (1124) 과 비-사용자 스피치 클래스 (1124) 간을 추가로 구별하지 않고 오디오 데이터 샘플 (1116) 을 스피치 클래스 (1120) 와 잡음 클래스 (1122) 중 하나로 분류하도록 구성될 수도 있다.
도 12 는 본 개시의 일부 예들에 따른 시스템 (1200) 의 구현을 도시한다. 시스템 (1200) 은 동적 분류기 (1240) 를 포함하고 디바이스 (1260) 에 커플링되는 하나 이상의 프로세서들 (1290) 을 포함한다. 일부 구현들에서, 하나 이상의 프로세서들 (1290) 은 도 1 의 하나 이상의 프로세서들 (190) 에 대응하고, 동적 분류기 (1240) 는 동적 분류기 (140) 에 대응하고, 디바이스 (1260) 는 디바이스 (160) 에 대응한다.
프로세서 (1290) 는 이미지 데이터로부터 이미지 데이터 샘플 (1286) 을 수신하도록 구성된다. 프로세서 (1290) 는 이미지 데이터 샘플 (1286) 을 동적 분류기 (1240) 에 제공하도록 구성된다. 예를 들어, 이미지 데이터 샘플 (1286) 은 이미지 데이터를 캡처하도록 구성되고 프로세서 (1290) 에 커플링되는 카메라 (1296) 를 통해 수신될 수도 있다. 카메라 (1296) 는 디바이스 (1202) 에 통합되거나 그에 커플링될 수도 있다. 대안적으로, 이미지 데이터 샘플 (1286) 은 저장 디바이스로부터 또는 무선 송신을 통해 (예를 들어, 원격 카메라로부터) 검색될 수도 있다.
동적 분류기 (1240) 는 얼굴 특성들 (1206) 에 적어도 부분적으로 기초하여 다중의 사람들 간을 구별하여 이미지 데이터 샘플 (1286) 에 대응하는 분류 출력 (1242) 을 생성하도록 구성된다. 예를 들어, 동적 분류기 (1240) 는 이미지 데이터 샘플 (1286) 을 프로세싱하여, 얼굴 특성들 (1206) 에 기초하여, 이미지 데이터 샘플 (1286) 이 제 1 사용자 (1276), 제 2 사용자 (1277), 또는 제 1 사용자 (1276) 와 제 2 사용자 (1277) 양자 모두를 포함하는지 여부를 결정하도록 구성될 수도 있다. 2 명의 사용자들이 예시되어 있지만, 동적 분류기 (1240) 는 얼굴 특성들 (1206) 에 기초하여 3 명의 사용자들, 4 명의 사용자들, 또는 임의의 다른 수의 사용자들 간을 구별하도록 구성될 수도 있다.
동적 분류기 (1240) 는 이미지 데이터 샘플 (1286) 에서 검출된 사용자(들)에 대응하는 하나 이상의 클래스들을 나타내는 분류 출력 (1242) 을 생성하도록 구성된다. 프로세서 (1290) 는 분류 출력 (1242) 에 응답하여 디바이스 (1260) 에 대한 액세스를 선택적으로 인가하도록 구성된다. 예를 들어, 사용자 (1276) 의 인증 (1250) 은 분류 출력 (1242) 에 기초하여 결정될 수도 있고, 디바이스 (1260) 에 대한 액세스는 인증 (1250) 과 연관된 하나 이상의 액세스 인가들 (1252) 에 기초하여 선택적으로 제공된다.
일부 구현들에서, 동적 분류기 (1240) 는 이미지 데이터 샘플 (1286) 에 기초하여 다중의 사람들의 검출을 나타내도록 구성되고, 프로세서 (1290) 는 동적 분류기 (1240) 가 다중의 사람들의 검출을 나타내는 것에 응답하여 디바이스 (1260) 에 대한 액세스를 거부하도록 추가로 구성된다. 예를 들어, 디바이스 (1202) 가 보안 시스템에 대응하고 디바이스 (1260) 가 도어에 대한 잠금 메커니즘에 대응할 때, 얼굴 인식을 통해 도어를 잠금해제하려고 시도하는 제 1 사용자 (1276) 는 제 1 사용자 (1276) 에 근접하여 있는 제 2 사람 (예를 들어, 제 2 사용자 (1277)) 의 검출로 인해 등록이 거부될 수도 있다. 일부 구현들에서, 프로세서 (1290) 는 이미지 데이터 샘플 (1286) 에서 검출된 모든 사람들이 이전에 분류된 사용자들인 것으로 동적 분류기 (1240) 에 의해 결정되지 않는 한 디바이스 (1260) 에 대한 액세스를 거부할 수도 있고, 프로세서 (1290) 는 검출된 사용자들의 각각이 디바이스 (1260) 에 액세스하기 (예를 들어, 예시적인 비제한적 예들로서, 도어를 잠금해제하고 건물 또는 차량에 대한 등록을 허용하기) 에 적절한 권한이 있다고 결정한다.
도 13 은 본 개시의 일부 예들에 따른 시스템 (1300) 의 구현을 도시한다. 시스템 (1300) 은 메모리 (1392) 에 커플링된 하나 이상의 프로세서들 (1390) 을 포함하는 디바이스 (1302) 를 포함한다. 프로세서 (1390) 는 제 1 동적 분류기 (1340) 및 제 2 동적 분류기 (1344) 를 포함한다. 프로세서 (1390) 는 제 1 디바이스 (1360) 및 제 2 디바이스 (1362) 를 포함하는 다중의 디바이스들에 커플링된다. 일부 구현들에서, 프로세서 (1390) 는 도 1 의 프로세서 (190) 에 대응하고, 메모리 (1392) 는 메모리 (192) 에 대응하고, 동적 분류기들 (1340, 1344) 중 하나 또는 양자 모두는 동적 분류기 (140) 에 대응하고, 디바이스들 (1360, 1362) 중 하나 또는 양자 모두는 디바이스 (160) 에 대응한다.
동적 분류기들 (1340, 1344) 의 각각은 다중의 디바이스들 (1360, 1362) 의 개별의 디바이스에 대한 인증 네트워크에 대응한다. 예에서, 제 1 동적 분류기 (1340) 는 제 1 디바이스 (1360) 에 대한 인증 네트워크에 대응하고, 제 2 동적 분류기 (1344) 는 제 2 디바이스 (1362) 에 대한 인증 네트워크에 대응한다. 예시를 위해, 제 1 동적 분류기 (1340) 는 제 1 분류 출력 (1342) 을 생성하기 위해 제 1 디바이스 (1360) 에 액세스하는 것과 관련하여 이전에 분류된 제 1 세트의 사용자들 간을 구별하도록 구성될 수도 있고, 제 2 동적 분류기 (1344) 는 제 2 분류 출력 (1346) 을 생성하기 위해 제 2 디바이스 (1362) 에 액세스하는 것과 관련하여 이전에 분류되었던, 제 1 세트의 사용자들에 매칭할 수도 있거나 또는 제 1 세트의 사용자들과 상이할 수도 있는, 제 2 세트의 사용자들 간을 구별하도록 구성될 수도 있다. 제 1 동적 분류기 (1340) 및 제 2 동적 분류기 (1344) 는 오디오 데이터 샘플들, 이미지 데이터 샘플들, 하나 이상의 다른 타입들의 데이터 (예를 들어, 지문 데이터), 또는 이들의 임의의 조합을 프로세싱하도록 구성될 수도 있다.
프로세서 (1390) 는 분류 출력들 (1342, 1346) 중 하나 이상에 기초하여 인증 (1350) 을 결정하고 인증 (1350) 에 기초하여 하나 이상의 액세스 권한들 (1352) 을 결정하도록 구성된다. 예에서, 프로세서 (1390) 는 동적 분류기들 (1340, 1344) 의 분류 출력들을 디바이스들 (1360, 1362) 중 특정 디바이스와 연관된 하나 이상의 액세스 권한들에 연관시키는 메모리 (1392) 에서의 테이블 (1394) 에 액세스하도록 구성된다. 특정 구현에서, 테이블 (1394) 은 도 1 의 테이블 (194) 에 대응한다.
일부 구현들에서, 하나 이상의 액세스 권한들 (1352) 중 적어도 하나는 시간 종속적이다. 예를 들어, 디바이스들 (1360, 1362) 중 하나 또는 양자 모두는 홈 엔터테인먼트 시스템 (예를 들어, 텔레비전, 스테레오 시스템, 게이밍 콘솔 등) 의 컴포넌트들에 대응할 수도 있고, 테이블 (1394) 은 하루 중의 일정 시간에 기초한 하나 이상의 사용자들에 대한 액세스 권한들을 나타낼 수도 있다. 예시를 위해, 디바이스 (1302) 는 가정 내 어린이가 특정된 시간 윈도우 동안, 또는 특정된 지속기간들 동안, 또는 양자 모두 동안 디바이스들 (1360, 1362) 에 액세스하도록 허용되는 한편, 성인들이 디바이스들 (1360, 1362) 에 제한 없이 액세스하는 홈 자동화 시스템용 제어기에서 구현될 수도 있다.
일부 구현들에서, 프로세서 (1390) 는 분류 출력들 (1342, 1346) 을 병렬로 생성하는 것과 동시에 동적 분류기들 (1340, 1344) 의 각각에 수신된 데이터 샘플을 제공하도록 구성된다. 다른 구현들에서, 프로세서 (1390) 는 특정 디바이스 (1360 또는 1362) 에 액세스하기 위한 사용자 표시에 기초하여 특정 동적 분류기 (1340 또는 1344) 를 선택하도록 구성된다. 예시를 위해, 오디오 데이터 샘플들은 제 2 디바이스 (1362) 에 액세스하기 위한 발화된 요청을 프로세싱하는 자동화된 스피치 인식 엔진의 출력과 같은 디바이스 표시 (1312) 를 생성하도록 프로세싱될 수도 있고, 응답으로, 프로세서 (1390) 는 제 2 디바이스 (1362) 에 대한 인증 네트워크로서 기능하는 제 2 동적 분류기 (1344) 를 나타내는 분류기 선택 (1310) 을 생성한다.
일부 구현들에서, 제 1 동적 분류기 (1340) 는 수신된 데이터 샘플이 제 1 디바이스 (1360) 에 액세스하도록 인가되는 클래스 (예를 들어, 특정 사용자) 에 대응하는지 여부를 나타내는 제 1 비트 플래그 (예를 들어, "0" 또는 "1" 값) 를 출력하도록 구성되고, 제 2 동적 분류기 (1344) 는 수신된 데이터 샘플이 제 2 디바이스 (1362) 에 액세스하도록 인가되는 클래스에 대응하는지 여부를 나타내는 제 2 비트 플래그를 생성하도록 구성된다. 일부 구현들에서, 제 1 동적 분류기 (1340) 는 제 1 비트 벡터 (예를 들어, 일련의 "0" 또는 "1" 값들) 를 출력하도록 구성되며, 여기서 각각의 비트는 제 1 디바이스 (1360) 에서의 특정 동작에 대한 개별의 액세스/제어 권한에 대응한다. 제 1 비트 벡터의 임의의 비트들이 수신된 데이터 샘플이 제 1 디바이스 (1360) 에서 적어도 하나의 동작을 수행하도록 허용되는 클래스에 대응함을 나타내는 "1" 값을 갖는 경우, 디바이스 (1302) 는 제 1 비트 벡터를 제 1 디바이스 (1360) 로 전송하고, 제 1 디바이스 (1360) 는 제 1 비트 벡터에 의해 표시된 권한들에 기초하여 적절한 커맨드 라인들을 인에이블 (예를 들어, 잠금해제) 한다. 유사하게, 제 2 동적 분류기 (1344) 는 제 2 디바이스 (1362) 에서의 동작들에 대한 액세스/제어 권한들에 대응하는 제 2 비트 벡터를 생성하도록 구성되고, 디바이스 (1302) 는 제 2 디바이스 (1362) 로 0이 아닌 비트 벡터들을 전송하고, 제 2 디바이스 (1362) 는 제 2 비트 벡터에 의해 표시된 권한들에 기초하여 적절한 커맨드 라인들을 인에이블 (예를 들어, 잠금해제) 한다. 그러한 구현들에서, 분류 출력들 (1342 및 1346) 로서 출력되는 개별의 비트 플래그들 또는 비트 벡터들은 인증 (1350) 및 액세스 권한들 (1352) 양자 모두로서 직접 기능할 수도 있고, 따라서 테이블 (1394) 은 우회되거나 생략될 수도 있다.
도 14 는 하나 이상의 프로세서들 (190) 을 포함하는 집적 회로 (1402) 로서의 디바이스 (102) 의 구현 (1400) 을 도시한다. 집적 회로 (1402) 는 또한, 오디오 데이터 샘플 (116) 이 프로세싱을 위해 수신될 수 있게 하기 위해 하나 이상의 버스 인터페이스들과 같은 오디오 입력부 (1404) 를 포함한다. 집적 회로 (1402) 는 또한, 인증 (1150) 과 같은 출력 신호의 전송을 가능하게 하기 위해 버스 인터페이스와 같은 신호 출력부 (1406) 를 포함한다. 집적 회로 (1402) 는 도 15 에 도시된 바와 같은 모바일 폰 또는 태블릿, 도 16 에 도시된 바와 같은 헤드셋, 도 17 에 도시된 바와 같은 웨어러블 전자 디바이스, 도 18 에 도시된 바와 같은 음성-제어 스피커 시스템, 도 19 에 도시된 바와 같은 카메라, 도 20 에 도시된 바와 같은 가상 현실 헤드셋, 혼합 현실 헤드셋, 또는 증강 현실 헤드셋, 또는 도 21 또는 도 22 에 도시된 바와 같은 차량과 같은, 마이크로폰들을 포함하는 시스템 내의 컴포넌트로서 동적 분류기 기반 인증의 구현을 가능하게 한다.
도 15 는, 디바이스 (102) 가 예시적인 비제한적 예들로서, 폰 또는 태블릿과 같은 모바일 디바이스 (1502) 인 구현 (1500) 을 도시한다. 모바일 디바이스 (1502) 는 마이크로폰 (110) 및 디스플레이 스크린 (1504) 을 포함한다. 특징 추출기 (130) 및 동적 분류기 (140) 를 포함하는 프로세서 (190) 의 컴포넌트들은, 모바일 디바이스 (1502) 에 통합되고, 모바일 디바이스 (1502) 의 사용자에게 일반적으로 보이지 않는 내부 컴포넌트들을 나타내기 위해 점선들을 사용하여 예시된다. 특정 예에서, 특징 추출기 (130) 및 동적 분류기 (140) 는 사용자 인증을 수행하도록 동작하며, 이는, 그 다음, 그래픽 사용자 인터페이스를 런칭하는 것 또는 그렇지 않으면 (예를 들어, 통합 "스마트 어시스턴트" 애플리케이션을 통해) 디스플레이 스크린 (1504) 에서 사용자의 스피치와 연관된 다른 정보를 디스플레이하는 것과 같은, 모바일 디바이스 (1502) 에서 하나 이상의 동작들의 수행을 선택적으로 가능하게 하는데 사용된다.
도 16 은, 디바이스 (102) 가 헤드셋 디바이스 (1602) 인 구현 (1600) 을 도시한다. 헤드셋 디바이스 (1602) 는 사용자의 스피치를 주로 캡처하도록 포지셔닝된 마이크로폰 (110) 을 포함한다. 특징 추출기 (130) 및 동적 분류기 (140) 를 포함하는 프로세서 (190) 의 컴포넌트들은 헤드셋 디바이스 (1602) 에 통합된다. 특정 예에서, 특징 추출기 (130) 및 동적 분류기 (140) 는 사용자 인증을 수행하도록 동작하며, 이는 헤드셋 디바이스 (1602) 로 하여금, 헤드셋 디바이스 (1602) 에서 하나 이상의 동작들을 수행하게 하거나, 추가 프로세싱을 위해, 도 1 의 제 2 디바이스 (160) 와 같은 제 2 디바이스 (도시되지 않음) 에 사용자 스피치에 대응하는 오디오 데이터를 송신하게 하거나, 또는 이들의 조합을 야기할 수도 있다.
도 17 은, 디바이스 (102) 가 "스마트 워치" 로서 예시된 웨어러블 전자 디바이스 (1702) 인 구현 (1700) 을 도시한다. 특징 추출기 (130), 동적 분류기 (140), 및 마이크로폰 (110) 은 웨어러블 전자 디바이스 (1702) 에 통합된다. 특정 예에서, 특징 추출기 (130) 및 동적 분류기 (140) 는 사용자 인증을 수행하도록 동작하며, 이는 그래픽 사용자 인터페이스를 런칭하는 것 또는 그렇지 않으면 웨어러블 전자 디바이스 (1702) 의 디스플레이 스크린 (1704) 에서 사용자의 스피치와 연관된 다른 정보를 디스플레이하는 것과 같은, 웨어러블 전자 디바이스 (1702) 에서 하나 이상의 동작들의 수행을 가능하게 할 수도 있다. 예시를 위해, 웨어러블 전자 디바이스 (1702) 는 웨어러블 전자 디바이스 (1702) 에 의해 검출된 사용자 스피치에 기초하여 통지를 디스플레이하도록 구성되는 디스플레이 스크린 (1704) 을 포함할 수도 있다. 특정 예에서, 웨어러블 전자 디바이스 (1702) 는 사용자 음성 활동의 검출에 응답하여 햅틱 통지 (예를 들어, 진동) 를 제공하는 햅틱 디바이스를 포함한다. 예를 들어, 햅틱 통지는 사용자로 하여금 웨어러블 전자 디바이스 (1702) 를 보게 하여, 사용자가 말한 키워드의 검출을 나타내는 디스플레이된 통지를 보게 할 수 있다. 따라서 웨어러블 전자 디바이스 (1702) 는 청각 장애를 갖는 사용자 또는 헤드셋을 착용한 사용자에게, 사용자의 음성 활동이 검출되었음을 경고할 수 있다.
도 18 은, 디바이스 (102) 가 무선 스피커 및 음성 활성화된 디바이스 (1802) 인 구현 (1800) 이다. 무선 스피커 및 음성 활성화된 디바이스 (1802) 는 무선 네트워크 접속성을 가질 수 있고 어시스턴트 동작을 실행하도록 구성된다. 특징 추출기 (130) 및 동적 분류기 (140) 를 포함하는 프로세서 (190), 마이크로폰 (110), 또는 이들의 조합은 무선 스피커 및 음성 활성화된 디바이스 (1802) 에 포함된다. 무선 스피커 및 음성 활성화된 디바이스 (1802) 는 또한 스피커 (1804) 를 포함한다. 동작 동안, 특징 추출기 (130) 및 동적 분류기 (140) 의 동작을 통해 인증된 사용자의 스피치로서 식별된 구두 커맨드를 수신하는 것에 응답하여, 무선 스피커 및 음성 활성화된 디바이스 (1802) 는 통합 어시스턴트 애플리케이션의 실행을 통해서와 같이 어시스턴트 동작들을 실행할 수 있다. 어시스턴트 동작들은 온도를 조정하는 것, 음악을 재생하는 것, 조명을 켜는 것 등을 포함할 수 있다. 예를 들어, 어시스턴트 동작들은 키워드 또는 키 구문 (예를 들어, "헬로 어시스턴트") 후에 커맨드를 수신하는 것에 응답하여 수행된다.
도 19 는, 디바이스 (102) 가 카메라 디바이스 (1902) 에 대응하는 휴대용 전자 디바이스인 구현 (1900) 을 도시한다. 특징 추출기 (130) 및 동적 분류기 (140), 마이크로폰 (110), 또는 이들의 조합은 카메라 디바이스 (1902) 에 포함된다. 동작 동안, 특징 추출기 (130) 및 동적 분류기 (140) 의 동작을 통해 사용자 스피치로서 식별된 구두 커맨드를 수신하는 것에 응답하여, 카메라 디바이스 (1902) 는 예시적인 예들로서, 이미지 또는 비디오 캡처 설정들, 이미지 또는 비디오 재생 설정들, 또는 이미지 또는 비디오 캡처 명령들을 조정하는 것과 같이, 발화된 사용자 커맨드들에 응답하여 동작들을 실행할 수 있다.
도 20 은, 디바이스 (102) 가 가상 현실 ("VR"), 증강 현실 ("AR"), 또는 혼합 현실 ("MR") 헤드셋 디바이스와 같은, 확장 현실 ("XR") 헤드셋 (2002) 에 대응하는 휴대용 전자 디바이스를 포함하는 구현 (2000) 을 도시한다. 특징 추출기 (130), 동적 분류기 (140), 마이크로폰 (110), 또는 이들의 조합은 헤드셋 (2002) 에 통합된다. 특정 양태에서, 헤드셋 (2002) 은 사용자의 스피치를 주로 캡처하도록 포지셔닝된 마이크로폰 (110) 을 포함한다. 사용자 인증은 마이크로폰 (110) 으로부터 수신된 오디오 신호들에 기초하여 수행될 수 있다. 시각적 인터페이스 디바이스는 헤드셋 (2002) 이 착용된 동안 사용자에게 증강 현실 또는 가상 현실 이미지들 또는 장면들의 디스플레이를 가능하게 하기 위해 사용자의 눈 앞에 포지셔닝된다. 특정 예에서, 시각적 인터페이스 디바이스는 오디오 신호에서 검출된 스피치에 기초하여 사용자 인증을 나타내는 통지를 디스플레이하도록 구성된다.
도 21 은 디바이스 (102) 가 유인 또는 무인 항공 디바이스 (예를 들어, 수화물 배송 드론) 으로서 예시되는 차량 (2102) 에 대응하거나 차량 내에 통합되는 구현 (2100) 을 도시한다. 특징 추출기 (130), 동적 분류기 (140), 마이크로폰 (110), 또는 이들의 조합은 차량 (2102) 에 통합된다. 사용자 음성 활동 검출은 차량 (2102) 의 인가된 사용자로부터의 전달 명령들을 위해서와 같이, 차량 (2102) 의 마이크로폰으로부터 수신된 오디오 신호들에 기초하여 수행될 수 있다.
도 22 는 디바이스 (102) 가 자율주행차와 같은 차량 (2202) 에 대응하거나 또는 차량 내에 통합되는 다른 구현 (2200) 을 도시한다. 차량 (2202) 은 특징 추출기 (130) 및 동적 분류기 (140) 를 포함하는 프로세서 (190) 를 포함한다. 차량 (2202) 은 또한, 다중의 마이크로폰들 (110) 을 포함한다. 마이크로폰들 (110) 은 차량 (2202) 의 운전자 및 승객들의 발화들을 캡처하도록 포지셔닝된다. 사용자 음성 활동 검출은 마이크로폰들 (110) 로부터 수신된 오디오 신호들에 기초하여 수행될 수 있다. 일부 구현들에서, 사용자 인증은, 인가된 승객으로부터의 음성 커맨드에 대한 것과 같이, 내부 마이크로폰들 (예를 들어, 마이크로폰 (110)) 로부터 수신된 오디오 신호에 기초하여 수행될 수 있다. 예를 들어, 인증은 차량 (2202) 의 운전자로부터 (예를 들어, 부모로부터 볼륨을 5 로 설정하거나 또는 자율주행 차량의 목적지를 설정하라는) 음성 커맨드를 실행할지 여부를 결정하고 음성 커맨드를 실행하도록 인가되지 않은 다른 승객으로부터의 음성 커맨드 (예를 들어, 볼륨을 10 으로 설정하거나 또는 목적지를 변경하라는 어린이로부터의 음성 커맨드) 를 무시하는데 사용될 수 있다. 일부 구현들에서, 사용자 인증은 차량 외부에 있는 인가된 사용자와 같이, 외부 마이크로폰들로부터 수신된 오디오 신호에 기초하여 수행될 수 있다. 특정 구현에서, 특징 추출기 (130) 및 동적 분류기 (140) 의 동작을 통해 인가된 사용자의 스피치로서 식별된 구두 커맨드를 수신하는 것에 응답하여, 차량 (2202) 의 하나 이상의 동작들은 디스플레이 (2220) 또는 하나 이상의 스피커들 (예를 들어, 스피커 (2210)) 를 통해 피드백 또는 정보를 제공하는 것에 의해서와 같이, 음성 커맨드에서 검출된 하나 이상의 키워드들 (예를 들어, "잠금해제", "엔진 시동", "음악 재생", "일기 예보 디스플레이", 또는 다른 음성 커맨드) 에 기초하여 개시된다.
도 23 을 참조하면, 동적 분류기에 기초한 디바이스 동작의 방법 (2300) 의 특정 구현이 도시된다. 특정 양태에서, 방법 (2300) 의 하나 이상의 동작들은 도 1 의 특징 추출기 (130), 동적 분류기 (140), 프로세서 (190), 디바이스 (102), 시스템 (100), 또는 이들의 조합 중 적어도 하나에 의해 수행된다.
방법 (2300) 은, 2302 에서, 하나 이상의 프로세서들에서, 오디오 데이터 샘플을 수신하는 단계를 포함한다. 예를 들어, 도 1 의 특징 추출기 (130) 는 도 1 을 참조하여 설명된 바와 같이, 마이크로폰 (110) 의 출력에 대응하는 오디오 데이터 샘플 (116) 을 수신한다.
방법 (2300) 은, 2304 에서, 하나 이상의 프로세서들에서, 오디오 데이터 샘플에 기초하여 특징 데이터를 생성하는 단계를 포함한다. 예를 들어, 도 1 의 특징 추출기 (130) 는 도 1 을 참조하여 설명된 바와 같이, 오디오 데이터 샘플들 (116) 에 기초하여 특징 데이터 (132) 를 생성한다.
방법 (2300) 은 2306 에서, 하나 이상의 프로세서들에서, 다중의 사용자들 간을 구별하여 분류 출력을 생성하도록 구성된 동적 분류기에서 특징 데이터를 프로세싱하는 단계를 포함한다. 예를 들어, 도 1 의 동적 분류기 (140) 는 도 1 을 참조하여 설명된 바와 같이, 특징 데이터 (132) 를 프로세싱하여 분류 출력 (142) 을 생성한다.
방법 (2300) 은 2308 에서, 하나 이상의 프로세서들에서, 분류 출력에 적어도 부분적으로 기초하여, 인증을 결정하는 단계를 포함한다. 예를 들어, 도 1 의 프로세서 (190) 는 도 1 을 참조하여 설명된 바와 같이, 분류 출력 (142) 에 적어도 부분적으로 기초하여 인증 (150) 을 결정한다.
방법 (2300) 은 종래의 사용자 인증 기법들과 비교하여 비교적 낮은 복잡성, 낮은 전력 소비, 및 높은 정확도로 사용자 스피치 샘플들에 기초하여 사용자들 간을 구별하기 위해 동적 분류기를 사용함으로써 사용자 인증의 성능을 개선한다. 사용자 및 환경 변화들에 자동으로 적응하는 것은 사용자에 의해 수행될 다중의 스피치 샘플들을 사용한 광범위한 훈련을 감소 또는 제거하고 따라서 사용자의 경험을 향상시킴으로써 개선된 이익을 제공한다.
도 23 의 방법 (2300) 은 필드 프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적 회로 (ASIC), 프로세싱 유닛, 예컨대 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP), 제어기, 다른 하드웨어 디바이스, 펌웨어 디바이스, 또는 이들의 임의의 조합에 의해 구현될 수도 있다. 예로서, 도 23 의 방법 (2300) 은 도 31 을 참조하여 설명된 것과 같이, 명령들을 실행하는 프로세서에 의해 수행될 수도 있다.
도 24 를 참조하면, 동적 분류기에 기초한 디바이스 동작의 방법 (2400) 의 특정 구현이 도시된다. 특정 양태에서, 방법 (2400) 의 하나 이상의 동작들은 도 1 의 특징 추출기 (130), 동적 분류기 (140), 프로세서 (190), 디바이스 (102), 시스템 (100), 도 6 의 제 1 프로세서 (690), 제 2 프로세서 (680), 동적 분류기 (640), 디바이스 (602), 시스템 (600), 또는 이들의 조합 중 적어도 하나에 의해 수행된다.
방법 (2400) 은, 2402 에서, 제 1 프로세서에서, 오디오 데이터 샘플을 수신하는 단계를 포함한다. 예를 들어, 도 1 의 특징 추출기 (130) 는 도 1 을 참조하여 설명된 바와 같이, 마이크로폰 (110) 의 출력에 대응하는 오디오 데이터 샘플 (116) 을 수신한다. 다른 예로서, 제 1 프로세서 (690) 는 도 6 을 참조하여 설명된 바와 같이, 오디오 데이터 샘플 (616) 을 수신한다.
방법 (2400) 은, 2404 에서, 제 1 프로세서에서, 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하는 단계를 포함한다. 예를 들어, 도 1 의 동적 분류기 (140) 는 도 1 을 참조하여 설명된 바와 같이, 오디오 데이터 샘플 (116) 의 특징 데이터 (132) 표현을 수신 및 프로세싱하여 분류 출력 (142) 을 생성한다. 다른 예로서, 도 6 을 참조하여 설명된 바와 같이, 제 1 프로세서 (690) 는 오디오 데이터 샘플 (616) (또는 오디오 데이터 샘플 (616) 을 나타내는 특징 데이터 (632)) 을 도 6 의 동적 분류기 (640) 에 제공하고, 동적 분류기 (640) 는 분류 출력 (642) 을 생성한다.
방법 (2400) 은 2406 에서, 분류 출력이 웨이크업 기준을 만족하는 것에 응답하여 제 2 프로세서를 활성 상태로 트랜지션하는 단계를 포함한다. 예를 들어, 도 6 을 참조하여 설명된 바와 같이, 제 2 프로세서 (680) 는 분류 출력 (642) 이 웨이크업 기준 (610) 을 만족하는 것에 응답하여 활성 상태로 트랜지션된다.
방법 (2400) 은 종래의 사용자 인증 기법들과 비교하여 비교적 낮은 복잡성, 낮은 전력 소비, 및 높은 정확도로 사용자 스피치 샘플들에 기초하여 사용자들 간을 구별하기 위해 동적 분류기를 사용함으로써 사용자 인증의 성능을 개선한다. 분류 출력에 기초하여 제 2 프로세서를 활성화하는 것은 제 2 프로세서가 상시 온 상태로 유지되는 시스템과 비교하여 제 2 프로세서와 연관된 감소된 전력 소비를 가능하게 한다.
도 24 의 방법 (2400) 은 필드 프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적 회로 (ASIC), 프로세싱 유닛, 예컨대 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP), 제어기, 다른 하드웨어 디바이스, 펌웨어 디바이스, 또는 이들의 임의의 조합에 의해 구현될 수도 있다. 예로서, 도 24 의 방법 (2400) 은 도 31 을 참조하여 설명된 것과 같이, 명령들을 실행하는 프로세서에 의해 수행될 수도 있다.
도 25 를 참조하면, 동적 분류기에 기초한 디바이스 동작의 방법 (2500) 의 특정 구현이 도시된다. 특정 양태에서, 방법 (2500) 의 하나 이상의 동작들은 도 1 의 특징 추출기 (130), 동적 분류기 (140), 프로세서 (190), 디바이스 (102), 시스템 (100), 도 7 의 프로세서 (790), 메모리 (792), 디바이스 (702), 시스템 (700), 또는 이들의 조합 중 적어도 하나에 의해 수행된다.
방법 (2500) 은, 2502 에서, 프로세서에서, 오디오 데이터 샘플을 수신하는 단계를 포함한다. 예를 들어, 도 1 을 참조하여 설명된 바와 같이, 도 1 의 프로세서 (190) 의 특징 추출기 (130) 는 마이크로폰 (110) 의 출력에 대응하는 오디오 데이터 샘플 (116) 을 수신한다. 다른 예로서, 도 7 을 참조하여 설명된 바와 같이, 프로세서 (790) 는 오디오 데이터 샘플 (716) 을 수신한다.
방법 (2500) 은, 2504 에서, 프로세서에서, 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하는 단계를 포함한다. 예를 들어, 도 1 을 참조하여 설명된 바와 같이, 도 1 의 특징 추출기 (130) 는 오디오 데이터 샘플들 (116) 에 기초하여 특징 데이터 (132) 를 생성하고 오디오 데이터 샘플 (116) 을 나타내는 특징 데이터 (132) 를 동적 분류기 (140) 에 제공하고, 동적 분류기 (140) 는 분류 출력 (142) 을 생성한다. 다른 예로서, 도 7 을 참조하여 설명된 바와 같이, 프로세서 (790) 는 오디오 데이터 샘플 (716) (또는 오디오 데이터 샘플 (716) 의 특징 데이터 표현) 을 동적 분류기 (740) 에 제공하고, 동적 분류기 (740) 는 분류 출력 (742) 을 생성한다.
방법 (2500) 은 2506 에서, 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하는 단계를 포함한다. 예를 들어, 도 1 을 참조하여 설명된 바와 같이, 디바이스 (102) 는 분류 출력 (142) 이 하나 이상의 권한들 (151) 과 연관된 인증 (150) 에 대응하는 것에 응답하여 디바이스 (160) 에 선택적으로 액세스할 수도 있다. 다른 예로서, 도 7 을 참조하여 설명된 바와 같이, 프로세서 (790) 는 잠금해제 신호 (710) 를 전송하거나, 잠금 신호 (712) 를 전송하거나, 스피치 커맨드 데이터 (714) 를 전송하거나, 또는 이들의 조합에 의해서와 같이, 분류 출력 (742) 에 기초하여 디바이스 (760) 에 선택적으로 액세스한다.
따라서, 방법 (2500) 은 종래의 사용자 인증 기법들과 비교하여 비교적 낮은 복잡성, 낮은 전력 소비, 및 높은 정확도로 특정 디바이스에 선택적으로 액세스하기 위한 사용자들을 인증하기 위해 동적 분류기를 사용한다.
도 25 의 방법 (2500) 은 필드 프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적 회로 (ASIC), 프로세싱 유닛, 예컨대 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP), 제어기, 다른 하드웨어 디바이스, 펌웨어 디바이스, 또는 이들의 임의의 조합에 의해 구현될 수도 있다. 예로서, 도 25 의 방법 (2500) 은 도 31 을 참조하여 설명된 것과 같이, 명령들을 실행하는 프로세서에 의해 수행될 수도 있다.
도 26 을 참조하면, 동적 분류기에 기초한 디바이스 동작의 방법 (2600) 의 특정 구현이 도시된다. 특정 양태에서, 방법 (2600) 의 하나 이상의 동작들은 도 1 의 특징 추출기 (130), 동적 분류기 (140), 프로세서 (190), 디바이스 (102), 시스템 (100), 도 8 의 제 1 프로세서 (810), 제 2 프로세서 (812), 키워드 검출기 (814), 프로세서 (890), 디바이스 (802), 시스템 (800), 또는 이들의 조합에 의해 수행된다.
방법 (2600) 은, 2602 에서, 제 1 프로세서에서, 오디오 데이터와 연관된 오디오 데이터 샘플을 수신하는 단계를 포함한다. 예를 들어, 도 1 의 특징 추출기 (130) 는 도 1 을 참조하여 설명된 바와 같이, 마이크로폰 (110) 의 출력에 대응하는 오디오 데이터 샘플 (116) 을 수신한다. 다른 예로서, 제 1 프로세서 (890) 는 도 8 을 참조하여 설명된 바와 같이, 오디오 데이터 샘플 (816) 을 수신한다.
방법 (2600) 은, 2604 에서, 제 1 프로세서에서, 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하는 단계를 포함한다. 예를 들어, 도 1 을 참조하여 설명된 바와 같이, 도 1 의 특징 추출기 (130) 는 오디오 데이터 샘플들 (116) 에 기초하여 특징 데이터 (132) 를 생성하고 오디오 데이터 샘플 (116) 을 나타내는 특징 데이터 (132) 를 동적 분류기 (140) 에 제공하고, 동적 분류기 (140) 는 분류 출력 (142) 을 생성한다. 다른 예로서, 도 8 을 참조하여 설명된 바와 같이, 프로세서 (890) (예를 들어, 제 1 프로세서 (810)) 는 오디오 데이터 샘플 (816) (또는 오디오 데이터 샘플 (816) 의 특징 데이터 표현) 을 동적 분류기 (840) 에 제공하고, 동적 분류기 (840) 는 분류 출력 (842) 을 생성한다.
방법 (2600) 은 2606 에서, 제 2 프로세서에서, 분류 출력에 기초하여 키워드 검출을 수행하기 위해 오디오 데이터를 프로세싱하는 단계를 포함한다. 예를 들어, 도 1 의 음성 커맨드 프로세싱 동작 (152) 은 도 1 을 참조하여 설명된 바와 같이, 분류 출력 (142) 에 응답하여 생성된 인증 (150) 에 기초하여 키워드 검출을 수행할 수도 있다. 다른 예로서, 도 8 을 참조하여 설명된 바와 같이, 프로세서 (890) (예를 들어, 제 2 프로세서 (812)) 는 분류 출력 (842) 에 기초하여 키워드 검출기 (814) 에서 오디오 데이터 샘플 (816) 을 프로세싱한다.
방법 (2600) 은 종래의 사용자 인증 기법들과 비교하여 비교적 낮은 복잡성, 낮은 전력 소비, 및 높은 정확도로 사용자 스피치 샘플들에 기초하여 사용자들 간을 구별하기 위해 동적 분류기 (140) 를 사용함으로써 디바이스의 성능을 개선한다. 분류 출력 (842) 에 기초하여 키워드 검출을 수행하는 것은, 키워드 검출이 모든 수신된 오디오 데이터에 대해 수행되는 시스템들과 비교하여 전력 소비를 감소시킨다.
도 26 의 방법 (2600) 은 필드 프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적 회로 (ASIC), 프로세싱 유닛, 예컨대 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP), 제어기, 다른 하드웨어 디바이스, 펌웨어 디바이스, 또는 이들의 임의의 조합에 의해 구현될 수도 있다. 예로서, 도 26 의 방법 (2600) 은 도 31 을 참조하여 설명된 것과 같이, 명령들을 실행하는 프로세서에 의해 수행될 수도 있다.
도 27 을 참조하면, 동적 분류기에 기초한 디바이스 동작의 방법 (2700) 의 특정 구현이 도시된다. 특정 양태에서, 방법 (2700) 의 하나 이상의 동작들은 도 1 의 특징 추출기 (130), 동적 분류기 (140), 프로세서 (190), 디바이스 (102), 시스템 (100), 도 9 의 프로세서 (990), 디바이스 (902), 시스템 (900), 또는 이들의 조합 중 적어도 하나에 의해 수행된다.
방법 (2700) 은, 2702 에서, 프로세서에서, 멀티모달 입력과 연관된 하나 이상의 데이터 샘플들을 수신하는 단계를 포함한다. 예를 들어, 도 1 의 프로세서 (190) 는 도 1 을 참조하여 설명된 바와 같이, 마이크로폰 (110) 의 출력에 대응하는 오디오 데이터 샘플 (116) 및 카메라 (196) 로부터의 이미지 데이터와 같은, 하나 이상의 센서들 (180) 에 대응하는 데이터 샘플 (186) 을 수신한다. 다른 예로서, 프로세서 (990) 는 도 9 를 참조하여 설명된 바와 같이, 병합된 데이터 샘플 (918) 을 통해서와 같이, 오디오 데이터 샘플 (916), 이미지 데이터 샘플 (950), 및 지문 데이터 샘플 (952) 을 수신한다.
방법 (2700) 은, 2704 에서, 프로세서에서, 하나 이상의 데이터 샘플들을, 하나 이상의 데이터 샘플들에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하는 단계를 포함한다. 예를 들어, 도 1 을 참조하여 설명된 바와 같이, 도 1 의 특징 추출기 (130) 는 오디오 데이터 샘플들 (116) 및 데이터 샘플들 (186) 에 기초하여 특징 데이터 (132) 를 생성하고 데이터 샘플들을 나타내는 특징 데이터 (132) 를 동적 분류기 (140) 에 제공하고, 동적 분류기 (140) 는 분류 출력 (142) 을 생성한다. 다른 예로서, 도 9 를 참조하여 설명된 바와 같이, 프로세서 (990) 는 병합된 데이터 샘플 (918) (또는 병합된 샘플 (918) 을 나타내는 특징 데이터 (932)) 을 동적 분류기 (940) 에 제공하고, 동적 분류기 (940) 는 분류 출력 (942) 을 생성한다.
방법 (2700) 은 2706 에서, 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하는 단계를 포함한다. 예를 들어, 도 1 을 참조하여 설명된 바와 같이, 디바이스 (102) 는 분류 출력 (142) 이 하나 이상의 권한들 (141) 과 연관된 인증 (150) 에 대응하는 것에 응답하여 디바이스 (160) 에 대한 액세스를 인가할 수도 있다. 다른 예로서, 도 9 를 참조하여 설명된 바와 같이, 프로세서 (990) 는 분류 출력 (942) 에 기초하여 디바이스 (960) 에 대한 액세스를 선택적으로 인가한다.
멀티모달 데이터 샘플들에 기초하여 분류 출력을 생성함으로써, 방법 (2700) 은 다양한 기준들 또는 기준들의 조합들에 기초하여 사용자들의 인증 및 특정 디바이스에 대한 액세스를 가능하게 한다. 예를 들어, 특정 디바이스에 액세스하도록 요구되는 권한의 레벨에 기초하여, 인증은 다중의 입력 모드들 (예를 들어, 오디오, 시각적, 또는 지문) 의 임의의 조합에 기초한다. 다른 예로서, 다중의 입력 모드들의 사용은, 입력 모드들 중 단일의 입력을 사용하여 임계 신뢰도로 사용자를 인증할 수 없을 때 사용자를 인증하는데 있어서 임계 신뢰도의 확립을 가능하게 한다.
도 27 의 방법 (2700) 은 필드 프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적 회로 (ASIC), 프로세싱 유닛, 예컨대 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP), 제어기, 다른 하드웨어 디바이스, 펌웨어 디바이스, 또는 이들의 임의의 조합에 의해 구현될 수도 있다. 예로서, 도 27 의 방법 (2700) 은 도 31 을 참조하여 설명된 것과 같이, 명령들을 실행하는 프로세서에 의해 수행될 수도 있다.
도 28 을 참조하면, 동적 분류기에 기초한 디바이스 동작의 방법 (2800) 의 특정 구현이 도시된다. 특정 양태에서, 방법 (2800) 의 하나 이상의 동작들은 도 1 의 특징 추출기 (130), 동적 분류기 (140), 프로세서 (190), 디바이스 (102), 시스템 (100), 도 10 의 동적 분류기 (1092), 제 1 동적 분류기 (1040), 제 2 동적 분류기 (1044), 프로세서 (1090), 디바이스 (1002), 시스템 (1000), 또는 이들의 조합 중 적어도 하나에 의해 수행된다.
방법 (2800) 은, 2802 에서, 프로세서에서, 멀티모달 입력과 연관된 하나 이상의 데이터 샘플들을 수신하는 단계를 포함한다. 예를 들어, 도 1 의 프로세서 (190) 는 도 1 을 참조하여 설명된 바와 같이, 마이크로폰 (110) 의 출력에 대응하는 오디오 데이터 샘플 (116) 및 카메라 (196) 로부터의 이미지 데이터와 같은, 하나 이상의 센서들 (180) 에 대응하는 데이터 샘플 (186) 을 수신한다. 다른 예로서, 프로세서 (1090) 는 도 10 을 참조하여 설명된 바와 같이, 마이크로폰 (101) 에 의해 캡처된 오디오 데이터에 기초한 오디오 데이터 샘플 (1016) 및 카메라 (1096) 에 의해 캡처된 이미지 데이터에 기초한 비-오디오 데이터 샘플 (1086) 을 수신한다.
방법 (2800) 은 2804 에서, 하나 이상의 데이터 샘플들을, 제 1 동적 분류기 및 제 2 동적 분류기를 포함하는 동적 분류기에 제공하는 단계를 포함하고, 제 1 동적 분류기는 오디오 데이터 샘플을 수신하고 다중의 사용자들의 스피치 특성들에 기초하여 다중의 사용자들과 연관된 클래스들 간을 구별하여 제 1 분류 출력을 생성하도록 구성되고, 제 1 분류 출력은 오디오 데이터 샘플과 연관된 특정 클래스의 뉴메릭 식별자를 나타내고, 제 2 동적 분류기는 비-오디오 데이터 샘플을 수신하고 제 2 분류 출력을 생성하도록 구성되고, 제 2 분류 출력은 비-오디오 데이터 샘플과 연관된 특정 클래스의 뉴메릭 식별자를 나타낸다. 예를 들어, 도 10 을 참조하여 설명된 바와 같이, 프로세서 (1090) 는 오디오 데이터 샘플 (1016) (또는 오디오 데이터 샘플 (1016) 의 특징 데이터 표현) 및 비-오디오 샘플 (1086) (또는 비-오디오 데이터 샘플 (1086) 의 특징 데이터 표현) 을 동적 분류기 (1086) 에 제공한다. 제 1 동적 분류기 (1040) 는 뉴메릭 식별자 (1020) 를 나타내는 제 1 분류 출력 (1042) 을 생성하거나, 제 2 동적 분류기 (1044) 는 뉴메릭 식별자 (1022) 를 나타내는 제 2 분류 출력 (1046) 을 생성하거나, 또는 이들의 조합이다.
방법은 (2800) 는 2806 에서, 제 1 분류 출력 및 제 2 분류 출력 중 적어도 하나에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하는 단계를 포함한다. 예를 들어, 도 10 을 참조하여 설명된 바와 같이, 프로세서 (1090) 는 인증 (1050) 및 액세스 인가 (1052) 가 제 1 분류 출력 (1042), 제 2 분류 출력 (1046), 또는 이들의 조합에 응답하여 생성된 것에 기초하여 디바이스 (1060) 에 대한 액세스를 선택적으로 인가한다.
멀티모달 입력에 대응하는 데이터 샘플들에 기초하여 분류 출력들을 생성함으로써, 방법 (2700) 은 다양한 기준들 또는 기준들의 조합들에 기초하여 사용자들의 인증 및 특정 디바이스에 대한 액세스를 가능하게 한다. 예를 들어, 특정 디바이스에 대한 액세스는 오디오 데이터, 사용자가 사용자의 분류 뉴메릭 식별자를 시각적으로 나타내는 이미지 데이터, 또는 이들의 조합에 기초할 수 있다. 다중의 입력 모드들의 사용은, 사용자가 입력 모드들 중 하나를 사용하여 인증될 수 없거나, 인증되지 않기로 선택할 때 사용자의 인증을 가능하게 한다.
도 28 의 방법 (2800) 은 필드 프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적 회로 (ASIC), 프로세싱 유닛, 예컨대 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP), 제어기, 다른 하드웨어 디바이스, 펌웨어 디바이스, 또는 이들의 임의의 조합에 의해 구현될 수도 있다. 예로서, 도 28 의 방법 (2800) 은 도 31 을 참조하여 설명된 것과 같이, 명령들을 실행하는 프로세서에 의해 수행될 수도 있다.
도 29 를 참조하면, 동적 분류기에 기초한 디바이스 동작의 방법 (2900) 의 특정 구현이 도시된다. 특정 양태에서, 방법 (2900) 의 하나 이상의 동작들은 도 1 의 특징 추출기 (130), 동적 분류기 (140), 프로세서 (190), 디바이스 (102), 시스템 (100), 도 11 의 동적 분류기 (1192), 제 1 동적 분류기 (1140), 제 2 동적 분류기 (1144), 프로세서 (1190), 디바이스 (1102), 시스템 (1100), 또는 이들의 조합 중 적어도 하나에 의해 수행된다.
방법 (2900) 은, 2902 에서, 프로세서에서, 음향 환경에 대응하는 오디오 데이터 샘플을 수신하는 단계를 포함한다. 예를 들어, 도 1 의 특징 추출기 (130) 는 도 1 을 참조하여 설명된 바와 같이, 마이크로폰 (110) 의 출력에 대응하는 오디오 데이터 샘플 (116) 을 수신한다. 다른 예로서, 프로세서 (1190) 는 도 11 을 참조하여 설명된 바와 같이, 디바이스 (1102) 의 음향 환경에 대응하는 오디오 데이터 샘플 (1116) 을 수신한다.
방법 (2900) 은, 2904 에서, 프로세서에서, 오디오 데이터 샘플을, 스피치와 잡음 간을 구별하여 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하는 단계를 포함한다. 예를 들어, 도 11 을 참조하여 설명된 바와 같이, 프로세서 (1190) 는 오디오 데이터 샘플 (1116) (또는 오디오 데이터 샘플 (1116) 의 특징 데이터 표현) 을 동적 분류기 (1192) 에 제공하고, 동적 분류기 (1192) 는 스피치 클래스 (1120) 또는 잡음 클래스 (1122) 에 대응하는 제 1 분류 출력 (1142), 사용자 클래스들 (1124) 또는 비-사용자 스피치 클래스 (1126) 중 하나에 대응하는 제 2 분류 출력 (1146), 또는 이들의 조합을 생성한다.
방법 (2900) 은 2906 에서, 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하는 단계를 포함한다. 예를 들어, 도 1 을 참조하여 설명된 바와 같이, 디바이스 (102) 는 분류 출력 (142) 이 하나 이상의 권한들 (141) 과 연관된 인증 (150) 에 대응하는 것에 응답하여 디바이스 (160) 에 대한 액세스를 인가할 수도 있다. 다른 예로서, 도 11 을 참조하여 설명된 바와 같이, 프로세서 (1190) 는 스피치 클래스 (1120) 또는 잡음 클래스 (1122) 에 대응하는 제 1 분류 출력 (1142), 사용자 클래스들 (1124) 또는 비-사용자 스피치 클래스 (1126) 중 하나에 대응하는 제 2 분류 출력 (1146), 또는 이들의 조합에 기초하는, 인증 (1150) 에 대응하는 액세스 인가 (1152) 에 기초하여 디바이스 (1160) 에 대한 액세스를 선택적으로 인가한다.
방법 (2900) 은 비교적 낮은 복잡성, 낮은 전력 소비, 및 높은 정확도로 오디오 데이터 샘플들에 기초하여 사용자 스피치와, 사용자 스피치 이외의 오디오 간의 구별을 가능하게 한다. 또한, 방법 (2900) 은 이전에 분류된 사용자들의 스피치 뿐만 아니라 분류되지 않은 사용자들로부터의 스피치 간의 구별을 추가로 가능하게 할 수도 있다. 비-스피치 오디오는 콘텍스트를 결정하기 위해, 잡음 감소에 사용하기 위해, 또는 이들의 조합으로 프로세싱될 수 있다.
도 29 의 방법 (2900) 은 필드 프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적 회로 (ASIC), 프로세싱 유닛, 예컨대 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP), 제어기, 다른 하드웨어 디바이스, 펌웨어 디바이스, 또는 이들의 임의의 조합에 의해 구현될 수도 있다. 예로서, 도 29 의 방법 (2900) 은 도 31 을 참조하여 설명된 것과 같이, 명령들을 실행하는 프로세서에 의해 수행될 수도 있다.
도 30 을 참조하면, 동적 분류기에 기초한 디바이스 동작의 방법 (3000) 의 특정 구현이 도시된다. 특정 양태에서, 방법 (3000) 의 하나 이상의 동작들은 도 1 의 특징 추출기 (130), 동적 분류기 (140), 프로세서 (190), 디바이스 (102), 시스템 (100), 도 12 의 동적 분류기 (1240), 프로세서 (1290), 디바이스 (1202), 시스템 (1200), 또는 이들의 조합 중 적어도 하나에 의해 수행된다.
방법 (3000) 은, 3002 에서, 프로세서에서, 이미지 데이터로부터 이미지 데이터 샘플을 수신하는 단계를 포함한다. 예를 들어, 도 1 의 특징 추출기 (130) 는 도 1 을 참조하여 설명된 바와 같이, 데이터 샘플 (186) 을 (예를 들어, 카메라 (196) 의 출력에 대응하는 이미지 데이터에 기초하여) 수신한다. 다른 예로서, 프로세서 (1290) 는 도 12 를 참조하여 설명된 바와 같이, 카메라 (1296) 에 의해 캡처된 이미지 데이터에 기초하여 이미지 데이터 샘플 (1286) 을 수신한다.
방법 (3000) 은, 3004 에서, 프로세서에서, 이미지 데이터 샘플을, 얼굴 특성들에 적어도 부분적으로 기초하여 다중의 사람들 간을 구별하여 이미지 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하는 단계를 포함한다. 예를 들어, 도 12 를 참조하여 설명된 바와 같이, 프로세서 (1290) 는 이미지 데이터 샘플 (1286) (또는 이미지 데이터 샘플 (1286) 의 특징 데이터 표현) 을 동적 분류기 (1240) 에 제공하고, 동적 분류기 (1240) 는 얼굴 특성들 (1206) 에 적어도 부분적으로 기초하여 분류 출력 (1242) 을 생성한다.
방법 (3000) 은 3006 에서, 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하는 단계를 포함한다. 예를 들어, 도 12 의 프로세서 (1290) 는 도 12 를 참조하여 설명된 바와 같이, 분류 출력 (1242) 에 적어도 부분적으로 기초하여 디바이스 (1260) 에 액세스하기 위한 인증 (1250) 및 연관된 액세스 인가 (1252) 를 결정한다.
방법 (3000) 은 얼굴 인식에 기초한 인증 기법들을 사용하는 종래의 시스템들과 비교하여 비교적 낮은 복잡성, 낮은 전력 소비, 및 높은 정확도로 얼굴 특성들에 기초하여 사용자들 간을 구별하기 위해 동적 분류기를 사용함으로써 사용자 인증의 성능을 개선한다.
도 30 의 방법 (3000) 은 필드 프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적 회로 (ASIC), 프로세싱 유닛, 예컨대 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP), 제어기, 다른 하드웨어 디바이스, 펌웨어 디바이스, 또는 이들의 임의의 조합에 의해 구현될 수도 있다. 예로서, 도 30 의 방법 (3000) 은 도 31 을 참조하여 설명된 것과 같이, 명령들을 실행하는 프로세서에 의해 수행될 수도 있다.
도 31 을 참조하면, 디바이스의 특정 예시적인 구현의 블록 다이어그램이 도시되고 일반적으로 3100 으로 지정된다. 다양한 구현들에서, 디바이스 (3100) 는 도 31 에 예시된 것보다 더 많거나 또는 더 적은 컴포넌트들을 가질 수도 있다. 예시적인 구현에서, 디바이스 (3100) 는 디바이스 (102) 에 대응할 수도 있다. 예시적인 구현에서, 디바이스 (3100) 는 도 1 내지 도 30 을 참조하여 설명된 하나 이상의 동작들을 수행할 수도 있다.
특정 구현에서, 디바이스 (3100) 는 프로세서 (3106) (예를 들어, 중앙 프로세싱 유닛 (CPU)) 를 포함한다. 디바이스 (3100) 는 하나 이상의 추가적인 프로세서들 (3110) (예를 들어, 하나 이상의 DSP들) 을 포함할 수도 있다. 특정 양태에서, 도 1 의 프로세서 (190) 는 프로세서 (3106), 프로세서들 (3110), 또는 이들의 조합에 대응한다. 프로세서들 (3110) 은 음성 코더 ("보코더") 인코더 (3136), 보코더 디코더 (3138), 특징 추출기 (130), 동적 분류기 (140), 또는 이들의 조합을 포함하는 스피치 및 음악 코더-디코더 (CODEC) (3108) 를 포함할 수도 있다.
디바이스 (3100) 는 메모리 (3186) 및 CODEC (3134) 을 포함할 수도 있다. 메모리 (3186) 는 특징 추출기 (130), 동적 분류기 (140), 또는 양자 모두를 참조하여 설명된 기능성을 구현하기 위해 하나 이상의 추가적인 프로세서들 (3110) (또는 프로세서 (3106)) 에 의해 실행가능한 명령들 (3156) 을 포함할 수도 있다. 디바이스 (3100) 는 트랜시버 (3150) 를 통해, 안테나 (3152) 에 커플링된 모뎀 (170) 을 포함할 수도 있다.
디바이스 (3100) 는 디스플레이 제어기 (3126) 에 커플링된 디스플레이 (3128) 를 포함할 수도 있다. 스피커 (3192), 마이크로폰 (110), 및 센서 (180) 는 CODEC (3134) 에 커플링될 수도 있다. CODEC (3134) 은 디지털-투-아날로그 변환기 (DAC) (3102), 아날로그-투-디지털 변환기 (ADC) (3104), 또는 양자 모두를 포함할 수도 있다. 특정 구현에서, CODEC (3134) 은 마이크로폰 (110) 및 센서 (180) 로부터 아날로그 신호들을 수신하고, 아날로그 신호들을 아날로그-투-디지털 변환기 (3104) 를 사용하여 디지털 신호들을 변환하고, 디지털 신호들을 스피치 및 음악 코덱 (3108) 에 제공할 수도 있다. 스피치 및 음악 코덱 (3108) 은 디지털 신호들을 프로세싱할 수도 있고, 디지털 신호들은 특징 추출기 (130) 및 동적 분류기 (140) 에 의해 추가로 프로세싱될 수도 있다. 특정 구현에서, 스피치 및 음악 코덱 (3108) 은 CODEC (3134) 에 디지털 신호들을 제공할 수도 있다. CODEC (3134) 은 디지털 신호들을 디지털-투-아날로그 변환기 (3102) 를 사용하여 아날로그 신호들로 변환할 수도 있고 아날로그 신호들을 스피커 (3192) 에 제공할 수도 있다.
특정 구현에서, 디바이스 (3100) 는 시스템-인-패키지 또는 시스템-온-칩 디바이스 (3122) 에 포함될 수도 있다. 특정 구현에서, 메모리 (3186), 프로세서 (3106), 프로세서들 (3110), 디스플레이 제어기 (3126), CODEC (3134), 및 모뎀 (170) 은 시스템-인-패키지 또는 시스템-온-칩 디바이스 (3122) 에 포함된다. 특정 구현에서, 입력 디바이스 (3130) 및 전력 공급부 (3144) 는 시스템-온-칩 디바이스 (3122) 에 커플링된다. 더욱이, 특정 구현에서, 도 31 에 예시된 바와 같이, 디스플레이 (3128), 입력 디바이스 (3130), 스피커 (3192), 마이크로폰 (110), 센서 (180), 안테나 (3152), 및 전력 공급부 (3144) 는 시스템-온-칩 디바이스 (3122) 의 외부에 있다. 특정 구현에서, 디스플레이 (3128), 입력 디바이스 (3130), 스피커 (3192), 마이크로폰 (110), 센서 (180), 안테나 (3152), 및 전력 공급부 (3144) 의 각각은, 인터페이스 (예를 들어, 제 1 입력 인터페이스 (114) 또는 제 2 입력 인터페이스 (184)) 또는 제어기와 같은 시스템-온-칩 디바이스 (3122) 의 컴포넌트에 커플링될 수도 있다.
디바이스 (3100) 는 스마트 스피커, 스피커 바, 모바일 통신 디바이스, 스마트 폰, 셀룰러 폰, 랩탑 컴퓨터, 컴퓨터, 태블릿, 개인 디지털 보조기, 디스플레이 디바이스, 텔레비전, 게이밍 콘솔, 음악 플레이어, 무선기기, 디지털 비디오 플레이어, 디지털 비디오 디스크 (digital video disk; DVD) 플레이어, 튜너, 카메라, 내비게이션 디바이스, 차량, 헤드셋, 증강 현실 헤드셋, 가상 현실 헤드셋, 항공 차량, 홈 자동화 시스템, 음성-활성화 디바이스, 무선 스피커 및 음성 활성화 디바이스, 휴대용 전자 디바이스, 자동차, 차량, 컴퓨팅 디바이스, 통신 디바이스, 사물 인터넷 (IoT) 디바이스, 가상 현실 (VR) 디바이스, 기지국, 모바일 디바이스, 또는 이들의 임의의 조합을 포함할 수도 있다.
설명된 구현들과 함께, 제 1 장치는 오디오 데이터 샘플을 수신하기 위한 수단을 포함한다. 예를 들어, 오디오 데이터 샘플을 수신하기 위한 수단은 디바이스 (102), 입력 인터페이스 (114), 프로세서 (190), 특징 추출기 (130), 동적 분류기 (140), 오디오 데이터 샘플을 수신하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
제 1 장치는 오디오 데이터 샘플에 기초하여 특징 데이터를 생성하기 위한 수단을 포함한다. 예를 들어, 오디오 데이터 샘플에 기초하여 특징 데이터를 생성하기 위한 수단은 프로세서 (190), 특징 추출기 (130), 동적 분류기 (140), 오디오 데이터 샘플에 기초하여 특징 데이터를 생성하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
제 1 장치는 다중의 사용자들 간을 구별하여 분류 출력을 생성하도록 구성된 동적 분류기에서 특징 데이터를 프로세싱하기 위한 수단을 포함한다. 예를 들어, 특징 데이터를 프로세싱하기 위한 수단은 프로세서 (190), 동적 분류기 (140), 특징 데이터를 프로세싱하여 분류 출력을 생성하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
제 1 장치는 분류 출력에 적어도 부분적으로 기초하여 인증하기 위한 수단을 포함한다. 예를 들어, 인증하기 위한 수단은 프로세서 (190), 디바이스 (102), 분류 출력에 적어도 부분적으로 기초하여 인증하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
설명된 구현들과 함께, 제 2 장치는 오디오 데이터 샘플을 수신하기 위한 수단을 포함한다. 예를 들어, 오디오 데이터 샘플을 수신하기 위한 수단은 디바이스 (602), 프로세서 (690), 동적 분류기 (640), 오디오 데이터 샘플을 수신하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
제 2 장치는, 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하기 위한 수단을 포함한다. 예를 들어, 오디오 데이터 샘플을 동적 분류기에 제공하기 위한 수단은 디바이스 (602), 프로세서 (690), 동적 분류기 (640), 오디오 데이터 샘플을 동적 분류기에 제공하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
제 2 장치는 분류 출력이 웨이크업 기준을 만족하는 것에 응답하여 제 2 프로세서를 활성 상태로 트랜지션하기 위한 수단을 포함한다. 예를 들어, 제 2 프로세서를 활성 상태로 트랜지션하기 위한 수단은 디바이스 (602), 프로세서 (690), 동적 분류기 (640), 활성화 회로부 (330), 분류 출력이 웨이크업 기준을 만족하는 것에 응답하여 제 2 프로세서를 활성 상태로 트랜지션하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
설명된 구현들과 함께, 제 3 장치는 오디오 데이터 샘플을 수신하기 위한 수단을 포함한다. 예를 들어, 오디오 데이터 샘플을 수신하기 위한 수단은 디바이스 (702), 프로세서 (790), 동적 분류기 (740), 오디오 데이터 샘플을 수신하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
제 3 장치는 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하기 위한 수단을 포함한다. 예를 들어, 오디오 데이터 샘플을 동적 분류기에 제공하기 위한 수단은 디바이스 (702), 프로세서 (790), 동적 분류기 (740), 오디오 데이터 샘플을 동적 분류기에 제공하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
제 3 장치는 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하기 위한 수단을 포함한다. 예를 들어, 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하기 위한 수단은 디바이스 (702), 프로세서 (790), 동적 분류기 (740), 모뎀 (170), 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
설명된 구현들과 함께, 제 4 장치는 오디오 데이터와 연관된 오디오 데이터 샘플을 수신하기 위한 수단을 포함한다. 예를 들어, 오디오 데이터 샘플을 수신하기 위한 수단은 디바이스 (802), 프로세서 (890), 제 1 프로세서 (810), 제 2 프로세서 (812), 동적 분류기 (840), 오디오 데이터 샘플을 수신하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
제 4 장치는 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하기 위한 수단을 포함한다. 예를 들어, 오디오 데이터 샘플을 동적 분류기에 제공하기 위한 수단은 디바이스 (802), 프로세서 (890), 제 1 프로세서 (810), 동적 분류기 (840), 오디오 데이터 샘플을 동적 분류기에 제공하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
제 4 장치는 분류 출력에 기초하여 키워드 검출을 수행하기 위해 오디오 데이터를 프로세싱하기 위한 수단을 포함한다. 예를 들어, 분류 출력에 기초하여 키워드 검출을 수행하기 위해 오디오 데이터를 프로세싱하기 위한 수단은 디바이스 (802), 프로세서 (890), 제 2 프로세서 (812), 키워드 검출기 (814), 분류 출력에 기초하여 키워드 검출을 수행하기 위해 오디오 데이터를 프로세싱하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
설명된 구현들과 함께, 제 5 장치는 멀티모달 입력과 연관된 하나 이상의 데이터 샘플들을 수신하기 위한 수단을 포함한다. 예를 들어, 하나 이상의 데이터 샘플들을 수신하기 위한 수단은 디바이스 (902), 프로세서 (990), 동적 분류기 (940), 하나 이상의 데이터 샘플들을 수신하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
제 5 장치는 하나 이상의 데이터 샘플들을, 하나 이상의 데이터 샘플들에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하기 위한 수단을 포함한다. 예를 들어, 하나 이상의 데이터 샘플들을 동적 분류기에 제공하기 위한 수단은 디바이스 (902), 프로세서 (990), 동적 분류기 (940), 하나 이상의 데이터 샘플들을 동적 분류기에 제공하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
제 5 장치는 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하기 위한 수단을 포함한다. 예를 들어, 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하기 위한 수단은 디바이스 (902), 프로세서 (990), 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
설명된 구현들과 함께, 제 6 장치는 멀티모달 입력과 연관된 하나 이상의 데이터 샘플들을 수신하기 위한 수단을 포함한다. 예를 들어, 하나 이상의 데이터 샘플들을 수신하기 위한 수단은 디바이스 (1002), 프로세서 (1090), 동적 분류기 (1092), 제 1 동적 분류기 (1040), 제 2 동적 분류기 (1044), 하나 이상의 데이터 샘플들을 수신하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
제 6 장치는 하나 이상의 데이터 샘플을 동적 분류기에 제공하기 위한 수단을 포함한다. 동적 분류기는 제 1 동적 분류기 및 제 2 동적 분류기를 포함한다. 제 1 동적 분류기는 오디오 데이터 샘플을 수신하고 다중의 사용자들의 스피치 특성들에 기초하여 다중의 사용자들과 연관된 클래스들 간을 구별하여 제 1 분류 출력을 생성하도록 구성된다. 제 1 분류 출력은 오디오 데이터 샘플과 연관된 특정 클래스의 뉴메릭 식별자를 나타낸다. 제 2 동적 분류기는 비-오디오 데이터 샘플을 수신하고 제 2 분류 출력을 생성하도록 구성된다. 제 2 분류 출력은 비-오디오 데이터 샘플과 연관된 특정 클래스의 뉴메릭 식별자를 나타낸다. 예를 들어, 하나 이상의 데이터 샘플들을 동적 분류기에 제공하기 위한 수단은 디바이스 (1002), 프로세서 (1090), 제 1 동적 분류기 (1040), 제 2 동적 분류기 (1044), 하나 이상의 데이터 샘플들을 동적 분류기에 제공하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
제 6 장치는 제 1 분류 출력 및 제 2 분류 출력 중 적어도 하나에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하기 위한 수단을 포함한다. 예를 들어, 제 1 분류 출력 및 제 2 분류 출력 중 적어도 하나에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하기 위한 수단은 디바이스 (1002), 프로세서 (1090), 제 1 분류 출력 및 제 2 분류 출력 중 적어도 하나에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
설명된 구현들과 함께, 제 7 장치는 음향 환경에 대응하는 오디오 데이터 샘플을 수신하기 위한 수단을 포함한다. 예를 들어, 음향 환경에 대응하는 오디오 데이터 샘플을 수신하기 위한 수단은 디바이스 (1102), 프로세서 (1190), 동적 분류기 (1192), 제 1 동적 분류기 (1140), 제 2 동적 분류기 (1144), 음향 환경에 대응하는 오디오 데이터 샘플을 수신하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
제 7 장치는 오디오 데이터 샘플을, 스피치와 잡음 간을 구별하여 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하기 위한 수단을 포함한다. 예를 들어, 오디오 데이터 샘플을 동적 분류기에 제공하기 위한 수단은 디바이스 (1102), 프로세서 (1190), 제 1 동적 분류기 (1140), 오디오 데이터 샘플을 동적 분류기에 제공하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
제 7 장치는 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하기 위한 수단을 포함한다. 예를 들어, 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하기 위한 수단은 디바이스 (1102), 프로세서 (1190), 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
설명된 구현들과 함께, 제 8 장치는 이미지 데이터로부터 이미지 데이터 샘플을 수신하기 위한 수단을 포함한다. 예를 들어, 이미지 데이터로부터 이미지 데이터 샘플을 수신하기 위한 수단은 디바이스 (1202), 프로세서 (1290), 동적 분류기 (1240), 이미지 데이터로부터 이미지 데이터 샘플을 수신하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
제 8 장치는 이미지 데이터 샘플을, 얼굴 특성들에 적어도 부분적으로 기초하여 다중의 사람들 간을 구별하여 이미지 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하기 위한 수단을 포함한다. 예를 들어, 이미지 데이터 샘플을 동적 분류기에 제공하기 위한 수단은 디바이스 (1202), 프로세서 (1290), 동적 분류기 (1240), 이미지 데이터 샘플을 동적 분류기에 제공하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
제 8 장치는 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하기 위한 수단을 포함한다. 예를 들어, 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하기 위한 수단은 디바이스 (1202), 프로세서 (1290), 동적 분류기 (1240), 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합을 포함할 수 있다.
일부 구현들에서, 비일시적 컴퓨터 판독가능 매체 (예를 들어, 메모리 (3186) 와 같은 컴퓨터 판독가능 저장 디바이스) 는, 하나 이상의 프로세서들 (예를 들어, 하나 이상의 프로세서들 (3110) 또는 프로세서 (3106)) 에 의해 실행될 경우, 하나 이상의 프로세서들로 하여금, 도 23 의 방법 (2300), 도 24 의 방법 (2400), 도 25 의 방법 (2500), 도 26 의 방법 (2600), 도 27 의 방법 (2700), 도 28 의 방법 (2800), 도 29 의 방법 (2900), 도 30 의 방법 (3000), 또는 이들의 임의의 조합에 대응하는 동작들을 수행하게 하는 명령들 (예를 들어, 명령들 (3156)) 을 포함한다.
본 개시의 특정 양태들은 상호관련된 조항들의 세트로 하기에서 설명된다:
조항 1 에 따르면, 디바이스는, 제 1 프로세서로서, 오디오 데이터 샘플을 수신하고; 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하도록 구성된, 상기 제 1 프로세서; 및 분류 출력이 웨이크업 기준을 만족하는 것에 응답하여 활성 상태로 트랜지션하도록 구성된 제 2 프로세서를 포함한다.
조항 2 는 조항 1 의 디바이스를 포함하고, 여기서 오디오 데이터 샘플은 특징 데이터에 대응하고, 제 1 프로세서는 수신된 오디오 데이터에 기초하여 특징 데이터를 생성하도록 추가로 구성된다.
조항 3 은 조항 2 의 디바이스를 포함하고, 여기서 특징 데이터는 피치 데이터 및 포먼트 데이터를 포함한다.
조항 4 는 조항 1 내지 조항 3 중 임의의 조항의 디바이스를 포함하고, 여기서 웨이크업 기준은 수신된 오디오 데이터에서의 키워드의 존재와 독립적이다.
조항 5 는 조항 1 내지 조항 4 중 임의의 조항의 디바이스를 포함하고, 여기서 동적 분류기는 다중의 오디오 소스들 간을 구별하도록 구성되고, 웨이크업 기준은 검출된 스피치에 대응하는 분류 출력을 포함한다.
조항 6 은 조항 1 내지 조항 4 중 임의의 조항의 디바이스를 포함하고, 여기서 웨이크업 기준은 인가된 사용자와 연관된 클래스에 대응하는 분류 출력을 포함한다.
조항 7 에 따르면, 방법은, 제 1 프로세서에서, 오디오 데이터 샘플을 수신하는 단계; 제 1 프로세서에서, 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하는 단계; 및 분류 출력이 웨이크업 기준을 만족하는 것에 응답하여 제 2 프로세서를 활성 상태로 트랜지션하는 단계를 포함한다.
조항 8 에 따르면, 비일시적 컴퓨터 판독가능 매체는 명령들을 포함하고, 명령들은, 하나 이상의 프로세서들에 의해 실행될 경우, 하나 이상의 프로세서들로 하여금, 제 1 프로세서에서, 오디오 데이터 샘플을 수신하게 하고; 제 1 프로세서에서, 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하게 하고; 그리고 분류 출력이 웨이크업 기준을 만족하는 것에 응답하여 제 2 프로세서를 활성 상태로 트랜지션하게 한다.
조항 9 에 따르면, 장치는, 오디오 데이터 샘플을 수신하기 위한 수단; 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하기 위한 수단; 및 분류 출력이 웨이크업 기준을 만족하는 것에 응답하여 제 2 프로세서를 활성 상태로 트랜지션하기 위한 수단을 포함한다.
조항 10 에 따르면, 디바이스는 프로세서를 포함하고, 프로세서는, 오디오 데이터 샘플을 수신하고; 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하고; 그리고 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하도록 구성된다.
조항 11 은 조항 10 의 디바이스를 포함하고, 여기서 특정 디바이스에 선택적으로 액세스하는 것은 분류 출력이 특정 디바이스에 액세스하도록 인가되는 클래스에 대응하는 것에 응답하여 특정 디바이스에 대한 액세스를 잠금해제하기 위해 제 1 신호를 전송하는 것을 포함한다.
조항 12 는 조항 10 의 디바이스를 포함하고, 여기서 특정 디바이스에 선택적으로 액세스하는 것은 분류 출력이 특정 디바이스에 액세스하도록 인가되지 않는 클래스에 대응하는 것에 응답하여 특정 디바이스에 대한 액세스를 잠금하기 위해 제 2 신호를 전송하는 것을 포함한다.
조항 13 은 조항 10 또는 조항 11 의 디바이스를 포함하고, 여기서 특정 디바이스에 선택적으로 액세스하는 것은 분류 출력이 특정 디바이스에 액세스하도록 인가된 클래스에 대응하는 것에 응답하여 특정 디바이스로 오디오 데이터 샘플과 연관된 스피치 커맨드를 나타내는 데이터를 전송하는 것을 포함한다.
조항 14 는 조항 10 내지 조항 13 중 임의의 조항의 디바이스를 포함하고, 프로세서에 커플링된 특정 디바이스를 더 포함한다.
조항 15 는 조항 10 내지 조항 14 중 임의의 조항의 디바이스를 포함하고, 프로세서에 커플링된 모뎀을 더 포함하고, 여기서 특정 디바이스에 선택적으로 액세스하는 것은 특정 디바이스로의 신호의, 모뎀을 통한, 무선 송신을 포함한다.
조항 16 은 조항 10 내지 조항 15 중 임의의 조항의 디바이스를 포함하고, 여기서 동적 분류기는 스피치 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 분류 출력을 생성하도록 구성된다.
조항 17 은 조항 10 내지 조항 16 중 임의의 조항의 디바이스를 포함하고, 여기서 동적 분류기는 디바이스로부터 임계 거리 내의 소스로부터 발생하는 스피치와, 디바이스로부터 임계 거리를 초과하는 소스로부터 발생하는 스피치 간을 구별하도록 추가로 구성되고, 프로세서는 소스가 임계 거리를 초과하는 것에 기초하여 특정 디바이스에 대한 액세스를 거부하도록 추가로 구성된다.
조항 18 은 조항 10 내지 조항 17 중 임의의 조항의 디바이스를 포함하고, 여기서 프로세서는 특정 디바이스에 액세스하도록 인가되는 제 1 사람으로부터의 스피치의 검출의 임계 시간 지속기간 내에 제 2 사람으로부터의 스피치의 검출에 기초하여 특정 디바이스에 대한 액세스를 거부하도록 추가로 구성된다.
조항 19 는 조항 10 내지 조항 18 중 임의의 조항의 디바이스를 포함하고, 프로세서에 커플링된 메모리를 더 포함하고, 메모리는 동적 분류기의 분류 출력들을 특정 디바이스와 연관된 하나 이상의 액세스 권한들에 연관시키는 테이블을 포함한다.
조항 20 은 조항 10 내지 조항 19 중 임의의 조항의 디바이스를 포함하고, 여기서 특정 디바이스에 액세스할지 여부의 결정은 오디오 데이터 샘플과 연관된 수신된 오디오 데이터에서의 키워드의 존재와 독립적이다.
조항 21 에 따르면, 방법은, 프로세서에서, 오디오 데이터 샘플을 수신하는 단계; 프로세서에서, 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하는 단계; 및 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하는 단계를 포함한다.
조항 22 에 따르면, 비일시적 컴퓨터 판독가능 매체는 명령들을 포함하고, 명령들은, 하나 이상의 프로세서들에 의해 실행될 경우, 하나 이상의 프로세서들로 하여금, 오디오 데이터 샘플을 수신하게 하고; 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하게 하고; 그리고 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하게 한다.
조항 23 에 따르면, 장치는, 오디오 데이터 샘플을 수신하기 위한 수단; 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하기 위한 수단; 및 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하기 위한 수단을 포함한다.
조항 24 에 따르면, 디바이스는 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은, 오디오 데이터와 연관된 오디오 데이터 샘플을 수신하고; 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하고; 그리고 분류 출력에 기초하여 키워드 검출을 수행하기 위해 오디오 데이터를 프로세싱하도록 구성된다.
조항 25 는 조항 24 의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은, 동적 분류기를 포함하는 제 1 프로세서; 및 키워드 검출을 수행하도록 구성된 제 2 프로세서를 포함하고, 제 2 프로세서는 분류 출력이 스피치를 나타내는 것에 기초하여 활성화된다.
조항 26 은 조항 25 의 디바이스를 포함하고, 여기서 동적 분류기는 스피치 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 분류 출력을 생성하도록 구성되고, 제 2 프로세서는 분류 출력이 인가된 사용자를 나타내는 것에 응답하여 키워드 검출을 수행하도록 구성된다.
조항 27 에 따르면, 방법은, 제 1 프로세서에서, 오디오 데이터와 연관된 오디오 데이터 샘플을 수신하는 단계; 제 1 프로세서에서, 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하는 단계; 및 제 2 프로세서에서, 분류 출력에 기초하여 키워드 검출을 수행하기 위해 오디오 데이터를 프로세싱하는 단계를 포함한다.
조항 28 에 따르면, 비일시적 컴퓨터 판독가능 매체는 명령들을 포함하고, 명령들은, 하나 이상의 프로세서들에 의해 실행될 경우, 하나 이상의 프로세서들로 하여금, 오디오 데이터와 연관된 오디오 데이터 샘플을 수신하게 하고; 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하게 하고; 그리고 분류 출력에 기초하여 키워드 검출을 수행하기 위해 오디오 데이터를 프로세싱하게 한다.
조항 29 에 따르면, 장치는, 오디오 데이터와 연관된 오디오 데이터 샘플을 수신하기 위한 수단; 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하기 위한 수단; 및 분류 출력에 기초하여 키워드 검출을 수행하기 위해 오디오 데이터를 프로세싱하기 위한 수단을 포함한다.
조항 30 에 따르면, 디바이스는 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은, 멀티모달 입력과 연관된 하나 이상의 데이터 샘플들을 수신하고; 하나 이상의 데이터 샘플들을, 하나 이상의 데이터 샘플들에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하고; 그리고 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하도록 구성된다.
조항 31 은 조항 30 의 디바이스를 포함하고, 여기서 하나 이상의 데이터 샘플들은 이미지 데이터 샘플을 포함하고, 동적 분류기는 얼굴 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 분류 출력을 생성하도록 구성된다.
조항 32 는 조항 30 또는 조항 31 의 디바이스를 포함하고, 여기서 하나 이상의 데이터 샘플들은 오디오 데이터 샘플을 포함하고, 동적 분류기는 스피치 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 분류 출력을 생성하도록 구성된다.
조항 33 은 조항 30 내지 조항 32 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 데이터 샘플들은 지문 데이터 샘플을 포함하고, 동적 분류기는 지문 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 분류 출력을 생성하도록 구성된다.
조항 34 는 조항 30 내지 조항 33 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 데이터 샘플들은 오디오 데이터 샘플, 이미지 데이터 샘플, 및 지문 데이터 샘플 중 적어도 2 개를 나타내도록 구성된 병합된 데이터 샘플을 포함하고, 동적 분류기는 병합된 데이터 샘플에 기초하여 다중의 사용자들 간을 구별하여 분류 출력을 생성하도록 구성된다.
조항 35 에 따르면, 방법은, 프로세서에서, 멀티모달 입력과 연관된 하나 이상의 데이터 샘플들을 수신하는 단계; 프로세서에서, 하나 이상의 데이터 샘플들을, 하나 이상의 데이터 샘플들에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하는 단계; 및 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하는 단계를 포함한다.
조항 36 에 따르면, 비일시적 컴퓨터 판독가능 매체는 명령들을 포함하고, 명령들은, 하나 이상의 프로세서들에 의해 실행될 경우, 하나 이상의 프로세서들로 하여금, 멀티모달 입력과 연관된 하나 이상의 데이터 샘플들을 수신하게 하고; 하나 이상의 데이터 샘플들을, 하나 이상의 데이터 샘플들에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하게 하고; 그리고 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하게 한다.
조항 37 에 따르면, 장치는, 멀티모달 입력과 연관된 하나 이상의 데이터 샘플들을 수신하기 위한 수단; 하나 이상의 데이터 샘플들을, 하나 이상의 데이터 샘플들에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하기 위한 수단; 및 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하기 위한 수단을 포함한다.
조항 38 에 따르면, 디바이스는 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은, 멀티모달 입력과 연관된 하나 이상의 데이터 샘플들을 수신하고; 하나 이상의 데이터 샘플들을 동적 분류기에 제공하는 것으로서, 동적 분류기는, 제 1 동적 분류기로서, 오디오 데이터 샘플을 수신하고; 그리고 다중의 사용자들의 스피치 특성들에 기초하여 다중의 사용자들과 연관된 클래스들 간을 구별하여, 오디오 데이터 샘플과 연관된 특정 클래스의 뉴메릭 식별자를 나타내는 제 1 분류 출력을 생성하도록 구성된, 상기 제 1 동적 분류기; 및 제 2 동적 분류기로서, 비-오디오 데이터 샘플을 수신하고; 그리고 비-오디오 데이터 샘플과 연관된 특정 클래스의 뉴메릭 식별자를 나타내는 제 2 분류 출력을 생성하도록 구성된, 상기 제 2 동적 분류기를 포함하는, 상기 하나 이상의 데이터 샘플들을 동적 분류기에 제공하고; 그리고 제 1 분류 출력 및 제 2 분류 출력 중 적어도 하나에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하도록 구성된다.
조항 39 는 조항 38 의 디바이스를 포함하고, 하나 이상의 프로세서들에 커플링된 카메라를 더 포함하고, 여기서 하나 이상의 데이터 샘플들은 카메라에 의해 캡처된 이미지 데이터로부터의 이미지 데이터 샘플을 포함하고, 제 2 동적 분류기는 이미지 데이터에서의 뉴메릭 식별자의 시각적 표시에 기초하여 제 2 분류 출력을 생성하도록 구성된다.
조항 40 은 조항 39 의 디바이스를 포함하고, 여기서 이미지 데이터에서의 뉴메릭 식별자의 시각적 표시는 사용자들 중 하나의 사용자의 펴진 손가락들의 카운트를 포함한다.
조항 41 은 조항 38 내지 조항 40 중 임의의 조항의 디바이스를 포함하고, 하나 이상의 프로세서들에 커플링된 디스플레이 디바이스를 더 포함하고, 여기서 하나 이상의 프로세서들은 디스플레이 디바이스를 통해 뉴메릭 식별자의 디스플레이를 개시하도록 구성된다.
조항 42 에 따르면, 방법은, 프로세서에서, 멀티모달 입력과 연관된 하나 이상의 데이터 샘플들을 수신하는 단계; 하나 이상의 데이터 샘플들을 동적 분류기에 제공하는 단계로서, 동적 분류기는, 제 1 동적 분류기로서, 오디오 데이터 샘플을 수신하고; 그리고 다중의 사용자들의 스피치 특성들에 기초하여 다중의 사용자들과 연관된 클래스들 간을 구별하여, 오디오 데이터 샘플과 연관된 특정 클래스의 뉴메릭 식별자를 나타내는 제 1 분류 출력을 생성하도록 구성된, 상기 제 1 동적 분류기; 및 제 2 동적 분류기로서, 비-오디오 데이터 샘플을 수신하고; 그리고 비-오디오 데이터 샘플과 연관된 특정 클래스의 뉴메릭 식별자를 나타내는 제 2 분류 출력을 생성하도록 구성된, 상기 제 2 동적 분류기를 포함하는, 상기 하나 이상의 데이터 샘플들을 동적 분류기에 제공하는 단계; 및 제 1 분류 출력 및 제 2 분류 출력 중 적어도 하나에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하는 단계를 포함한다.
조항 43 에 따르면, 비일시적 컴퓨터 판독가능 매체는 명령들을 포함하고, 명령들은, 하나 이상의 프로세서들에 의해 실행될 경우, 하나 이상의 프로세서들로 하여금, 멀티모달 입력과 연관된 하나 이상의 데이터 샘플들을 수신하게 하고; 하나 이상의 데이터 샘플들을 동적 분류기에 제공하게 하는 것으로서, 동적 분류기는, 제 1 동적 분류기로서, 오디오 데이터 샘플을 수신하고; 그리고 다중의 사용자들의 스피치 특성들에 기초하여 다중의 사용자들과 연관된 클래스들 간을 구별하여, 오디오 데이터 샘플과 연관된 특정 클래스의 뉴메릭 식별자를 나타내는 제 1 분류 출력을 생성하도록 구성된, 상기 제 1 동적 분류기; 및 제 2 동적 분류기로서, 비-오디오 데이터 샘플을 수신하고; 그리고 비-오디오 데이터 샘플과 연관된 특정 클래스의 뉴메릭 식별자를 나타내는 제 2 분류 출력을 생성하도록 구성된, 상기 제 2 동적 분류기를 포함하는, 상기 하나 이상의 데이터 샘플들을 동적 분류기에 제공하게 하고; 그리고 제 1 분류 출력 및 제 2 분류 출력 중 적어도 하나에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하게 한다.
조항 44 에 따르면, 장치는, 멀티모달 입력과 연관된 하나 이상의 데이터 샘플들을 수신하기 위한 수단; 하나 이상의 데이터 샘플들을 동적 분류기에 제공하기 위한 수단으로서, 동적 분류기는, 제 1 동적 분류기로서, 오디오 데이터 샘플을 수신하고; 그리고 다중의 사용자들의 스피치 특성들에 기초하여 다중의 사용자들과 연관된 클래스들 간을 구별하여, 오디오 데이터 샘플과 연관된 특정 클래스의 뉴메릭 식별자를 나타내는 제 1 분류 출력을 생성하도록 구성된, 상기 제 1 동적 분류기; 및 제 2 동적 분류기로서, 비-오디오 데이터 샘플을 수신하고; 그리고 비-오디오 데이터 샘플과 연관된 특정 클래스의 뉴메릭 식별자를 나타내는 제 2 분류 출력을 생성하도록 구성된, 상기 제 2 동적 분류기를 포함하는, 상기 하나 이상의 데이터 샘플들을 동적 분류기에 제공하기 위한 수단; 및 제 1 분류 출력 및 제 2 분류 출력 중 적어도 하나에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하기 위한 수단을 포함한다.
조항 45 에 따르면, 디바이스는 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은, 음향 환경에 대응하는 오디오 데이터 샘플을 수신하고; 오디오 데이터 샘플을, 스피치와 잡음 간을 구별하여 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하고; 그리고 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하도록 구성된다.
조항 46 은 조항 45 의 디바이스를 포함하고, 여기서 동적 분류기는 동적 분류기에 의해 식별된 다중의 클래스들 간에 오디오 데이터 샘플을 분류하도록 구성되고, 다중의 클래스들은, 하나 이상의 이전에 분류된 사용자들에 대응하는 하나 이상의 사용자 클래스들; 하나 이상의 이전에 분류된 사용자들 이외의 누군가로부터의 스피치에 대응하는 비-사용자 스피치 클래스; 및 비-스피치 오디오에 대응하는 잡음 클래스를 포함한다.
조항 47 은 조항 45 또는 조항 46 의 디바이스를 포함하고, 다중의 클래스들 간을 구별하도록 구성된 제 2 동적 분류기를 더 포함하고, 다중의 클래스들은, 하나 이상의 이전에 분류된 사용자들에 대응하는 하나 이상의 사용자 클래스들; 및 하나 이상의 이전에 분류된 사용자들로부터의 스피치 이외의 오디오에 대응하는 디폴트 클래스를 포함한다.
조항 48 은 조항 47 의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 제 2 동적 분류기가 오디오 데이터 샘플을 디폴트 클래스로서 분류하는 것에 응답하여 오디오 데이터 샘플을 동적 분류기에 제공하도록 추가로 구성된다.
조항 49 는 조항 45 내지 조항 48 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은, 분류 출력이 오디오 데이터 샘플이 잡음에 대응함을 나타내는 것에 응답하여, 오디오 데이터 샘플과 연관된 콘텍스트를 식별하도록 추가로 구성된다.
조항 50 은 조항 45 내지 조항 49 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은, 분류 출력이 오디오 데이터 샘플이 잡음에 대응함을 나타내는 것에 응답하여, 오디오 데이터 샘플에 대응하는 오디오 데이터를 프로세싱하여 오디오 데이터의 잡음 성분을 적어도 부분적으로 제거하도록 추가로 구성된다.
조항 51 에 따르면, 방법은, 프로세서에서, 음향 환경에 대응하는 오디오 데이터 샘플을 수신하는 단계; 프로세서에서, 오디오 데이터 샘플을, 스피치와 잡음 간을 구별하여 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하는 단계; 및 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하는 단계를 포함한다.
조항 52 에 따르면, 비일시적 컴퓨터 판독가능 매체는 명령들을 포함하고, 명령들은, 하나 이상의 프로세서들에 의해 실행될 경우, 하나 이상의 프로세서들로 하여금, 음향 환경에 대응하는 오디오 데이터 샘플을 수신하게 하고; 오디오 데이터 샘플을, 스피치와 잡음 간을 구별하여 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하게 하고; 그리고 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하게 한다.
조항 53 에 따르면, 장치는, 음향 환경에 대응하는 오디오 데이터 샘플을 수신하기 위한 수단; 오디오 데이터 샘플을, 스피치와 잡음 간을 구별하여 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하기 위한 수단; 및 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하기 위한 수단을 포함한다.
조항 54 에 따르면, 디바이스는 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은, 이미지 데이터로부터 이미지 데이터 샘플을 수신하고; 이미지 데이터 샘플을, 얼굴 특성들에 적어도 부분적으로 기초하여 다중의 사람들 간을 구별하여 이미지 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하고; 그리고 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하도록 구성된다.
조항 55 는 조항 54 의 디바이스를 포함하고, 하나 이상의 프로세서들에 커플링되고 이미지 데이터를 캡처하도록 구성된 카메라를 더 포함한다.
조항 56 은 조항 54 또는 조항 55 의 디바이스를 포함하고, 여기서 동적 분류기는 이미지 데이터 샘플에 기초하여 다중의 사람들의 검출을 나타내도록 추가로 구성되고, 하나 이상의 프로세서들은 동적 분류기가 다중의 사람들의 검출을 나타내는 것에 응답하여 특정 디바이스에 대한 액세스를 거부하도록 추가로 구성된다.
조항 57 에 따르면, 방법은, 프로세서에서, 이미지 데이터로부터 이미지 데이터 샘플을 수신하는 단계; 프로세서에서, 이미지 데이터 샘플을, 얼굴 특성들에 적어도 부분적으로 기초하여 다중의 사람들 간을 구별하여 이미지 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하는 단계; 및 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하는 단계를 포함한다.
조항 58 에 따르면, 비일시적 컴퓨터 판독가능 매체는 명령들을 포함하고, 명령들은, 하나 이상의 프로세서들에 의해 실행될 경우, 하나 이상의 프로세서들로 하여금, 이미지 데이터로부터 이미지 데이터 샘플을 수신하게 하고; 이미지 데이터 샘플을, 얼굴 특성들에 적어도 부분적으로 기초하여 다중의 사람들 간을 구별하여 이미지 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하게 하고; 그리고 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하게 한다.
조항 59 에 따르면, 장치는, 이미지 데이터로부터 이미지 데이터 샘플을 수신하기 위한 수단; 이미지 데이터 샘플을, 얼굴 특성들에 적어도 부분적으로 기초하여 다중의 사람들 간을 구별하여 이미지 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하기 위한 수단; 및 분류 출력에 응답하여 특정 디바이스에 대한 액세스를 선택적으로 인가하기 위한 수단을 포함한다.
조항 60 에 따르면, 디바이스는 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은, 오디오 데이터 샘플을 수신하고; 오디오 데이터 샘플에 기초하여 특징 데이터를 생성하고; 스피치 특성들에 기초하여 다중의 사용자들 간을 구별하여 분류 출력을 생성하도록 구성된 동적 분류기에서 특징 데이터를 프로세싱하고; 그리고 분류 출력에 적어도 부분적으로 기초하여 인증을 결정하도록 구성된다.
조항 61 은 조항 60 의 디바이스를 포함하고, 하나 이상의 프로세서들에 커플링되고 오디오 데이터 샘플을 생성하기 위해 오디오 데이터를 캡처하도록 구성된 마이크로폰을 더 포함한다.
조항 62 는 조항 60 또는 조항 61 의 디바이스를 포함하고, 여기서 특징 데이터는 스피치와 연관된 피치 데이터 및 포먼트 데이터를 포함한다.
조항 63 은 조항 62 의 디바이스를 포함하고, 여기서 동적 분류기는 구문 종속 분류를 수행하도록 구성되고, 특징 데이터는 지속기간 데이터 및 구문 특정 음절 큐들을 더 포함한다.
조항 64 는 조항 60 내지 조항 63 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 특징 데이터를 생성하기 이전에 오디오 데이터 샘플을 변환 도메인으로 변환하도록 추가로 구성된다.
조항 65 는 조항 60 내지 조항 64 중 임의의 조항의 디바이스를 포함하고, 하나 이상의 프로세서들에 커플링된 메모리를 더 포함하고, 메모리는 동적 분류기의 분류 출력들을 다중의 사용자들 중 특정 사용자들에 연관시키는 테이블을 포함한다.
조항 66 은 조항 65 의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 등록 동작 동안 테이블을 채우도록 추가로 구성된다.
조항 67 은 조항 65 또는 조항 66 의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 사용자 식별 데이터에 적어도 부분적으로 기초하여 테이블을 채우도록 추가로 구성된다.
조항 68 은 조항 67 의 디바이스를 포함하고, 하나 이상의 프로세서들에 커플링된 카메라를 더 포함하고, 카메라는 말하는 사용자의 이미지를 캡처하고 이미지에 대응하는 데이터를 사용자 식별 데이터로서 하나 이상의 프로세서들로 전송하도록 구성된다.
조항 69 는 조항 60 내지 조항 68 중 임의의 조항의 디바이스를 포함하고, 하나 이상의 프로세서들에 커플링된 메모리를 더 포함하고, 메모리는 동적 분류기의 분류 출력들을 특정 디바이스와 연관된 하나 이상의 액세스 권한들에 연관시키는 테이블을 포함한다.
조항 70 은 조항 69 의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 다중의 동적 분류기들로부터 동적 분류기를 선택하도록 추가로 구성되고, 다중의 동적 분류기들의 각각은 다중의 디바이스들의 개별의 디바이스에 대한 인증 네트워크에 대응하고, 동적 분류기는 특정 디바이스에 액세스하라는 사용자 표시에 기초하여 선택된다.
조항 71 은 조항 69 또는 조항 70 의 디바이스를 포함하고, 여기서 하나 이상의 액세스 권한들 중 적어도 하나는 시간 종속적이다.
조항 72 는 조항 60 내지 조항 71 중 임의의 조항의 디바이스를 포함하고, 여기서 동적 분류기는 동적 분류기에서의 노드 값들에 대한 특징 데이터의 유사성에 기초하여 특징 데이터의 세트들을 적응적으로 클러스터링하도록 구성되고, 개개의 클러스터들은 다중의 사용자들의 개별의 사용자들에 대응한다.
조항 73 은 조항 60 내지 조항 72 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 동적 분류기를 특정 사용자의 스피치 입력과 연관된 변화들에 적응시키기 위해, 분류되지 않은 사용자에 대한 클래스를 추가하기 위해, 또는 양자 모두를 위해 특징 데이터에 기초하여 동적 분류기의 클러스터링 동작을 업데이트하도록 추가로 구성된다.
조항 74 는 조항 60 내지 조항 73 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 동적 분류기의 분류 결정 기준을 업데이트하도록 추가로 구성된다.
조항 75 는 조항 60 내지 조항 74 중 임의의 조항의 디바이스를 포함하고, 여기서 동적 분류기는 자가-조직화 맵을 포함한다.
조항 76 은 조항 60 내지 조항 74 중 임의의 조항의 디바이스를 포함하고, 여기서 동적 분류기는 주성분 분석, 독립 성분 분석, 또는 제한된 Boltzmann 머신에 따른 음성 특징 공간의 비감독 파티셔닝 중 적어도 하나를 수행하도록 구성된다.
조항 77 은 조항 60 내지 조항 76 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 동적 분류기에 의해 구별가능한 사용자들의 수에 대한 상한을 시행하도록 추가로 구성된다.
조항 78 은 조항 60 내지 조항 77 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 새로운 사용자의 스피치에 대응하는 특징 벡터와 동적 분류기의 기존 노드들 사이의 유사성 측정치에 적어도 부분적으로 기초하여 새로운 사용자를 등록하기 위해 동적 분류기를 업데이트하도록 추가로 구성된다.
조항 79 는 조항 60 내지 조항 78 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 새로운 사용자를 포함하도록 업데이트되는 동적 분류기에 대응하는 제 2 성능 메트릭과 비교하여, 새로운 사용자를 등록하지 않고 동적 분류기에 대응하는 제 1 성능 메트릭에 적어도 부분적으로 기초하여 새로운 사용자를 등록하기 위해 동적 분류기를 업데이트할지 여부를 결정하도록 추가로 구성된다.
조항 80 은 조항 79 의 디바이스를 포함하고, 여기서 제 1 성능 메트릭 및 제 2 성능 메트릭은 엔트로피 메트릭들에 대응한다.
조항 81 은 조항 60 내지 조항 80 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 특정 사용자를 제거하도록 업데이트되는 동적 분류기에 대응하는 제 2 성능 메트릭과 비교하여, 특정 사용자를 제거하지 않고 동적 분류기에 대응하는 제 1 성능 메트릭에 적어도 부분적으로 기초하여 다중의 사용자들 중 특정 사용자를 제거하기 위해 동적 분류기를 업데이트할지 여부를 결정하도록 추가로 구성된다.
조항 82 는 조항 60 내지 조항 81 중 임의의 조항의 디바이스를 포함하고, 여기서 동적 분류기는 특징 데이터의 세트들의 시퀀스를 수신하고 시퀀스에서의 특징 데이터의 이전 세트에 적어도 부분적으로 기초하여 시퀀스에서의 특징 데이터의 각각의 세트를 적응적으로 클러스터링하도록 추가로 구성된다.
조항 83 은 조항 60 내지 조항 82 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 분류 출력에 적어도 부분적으로 기초하여 하나 이상의 권한들을 결정하도록 추가로 구성된다.
조항 84 는 조항 83 의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 하나 이상의 권한들이 음성 커맨드 프로세싱 동작에 대한 액세스를 나타내는 것에 기초하여 음성 커맨드 프로세싱 동작을 선택적으로 개시하도록 구성된다.
조항 85 는 조항 84 의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 음성 커맨드 프로세싱 동작을 개시하기 위해 웨이크업 신호 또는 인터럽트 중 적어도 하나를 생성하도록 구성된다.
조항 86 은 조항 83 내지 조항 85 중 임의의 조항의 디바이스를 포함하고, 하나 이상의 프로세서들에 커플링된 모뎀을 더 포함하고, 모뎀은 하나 이상의 권한들이 제 2 디바이스에 대한 액세스를 나타내는 것에 응답하여 음성 커맨드 프로세싱 동작의 출력을 제 2 디바이스에 송신하도록 구성된다.
조항 87 은 조항 60 내지 조항 86 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 모바일 폰, 태블릿 컴퓨터 디바이스, 웨어러블 전자 디바이스, 카메라 디바이스, 가상 현실 헤드셋, 또는 증강 현실 헤드셋 중 적어도 하나에 통합된다.
조항 88 은 조항 60 내지 조항 86 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 하나 이상의 프로세서들에 커플링된 마이크로폰을 더 포함하는 차량에 통합되고, 마이크로폰은 동적 분류기에 기초한 인증을 위한 스피치 입력으로서 차량의 운전자의 발화들을 캡처하도록 포지셔닝된다.
조항 89 에 따르면, 방법은, 하나 이상의 프로세서들에서, 오디오 데이터 샘플을 수신하는 단계; 하나 이상의 프로세서들에서, 오디오 데이터 샘플에 기초하여 특징 데이터를 생성하는 단계; 하나 이상의 프로세서들에서, 다중의 사용자들 간을 구별하여 분류 출력을 생성하도록 구성된 동적 분류기에서 특징 데이터를 프로세싱하는 단계; 및 하나 이상의 프로세서들에서, 분류 출력에 적어도 부분적으로 기초하여, 인증을 결정하는 단계를 포함한다.
조항 90 은 조항 89 의 방법을 포함하고, 여기서 오디오 데이터 샘플은 마이크로폰에서 캡처된 오디오 데이터에 기초하여 생성된다.
조항 91 은 조항 89 또는 조항 90 의 방법을 포함하고, 여기서 특징 데이터는 스피치와 연관된 피치 데이터 및 포먼트 데이터를 포함한다.
조항 92 는 조항 89 내지 조항 91 중 임의의 조항의 방법을 포함하고, 여기서 동적 분류기는 구문 종속 분류를 수행하고, 특징 데이터는 지속기간 데이터 및 구문 특정 음절 큐들을 더 포함한다.
조항 93 은 조항 89 내지 조항 92 중 임의의 조항의 방법을 포함하고, 특징 데이터를 생성하기 이전에 오디오 데이터 샘플을 변환 도메인으로 변환하는 단계를 더 포함한다.
조항 94 는 조항 89 내지 조항 93 중 임의의 조항의 방법을 포함하고, 여기서 인증을 결정하는 단계는 동적 분류기의 분류 출력들을 다중의 사용자들 중 특정 사용자들에 연관시키는 테이블에 액세스하는 단계를 포함한다.
조항 95 는 조항 94 의 방법을 포함하고, 등록 동작 동안 테이블을 채우는 단계를 더 포함한다.
조항 96 은 조항 94 또는 조항 95 의 방법을 포함하고, 사용자 식별 데이터에 적어도 부분적으로 기초하여 테이블을 채우는 단계를 더 포함한다.
조항 97 은 조항 96 의 방법을 포함하고, 카메라로부터, 사용자 식별 데이터로서 말하는 사용자의 캡처된 이미지에 대응하는 데이터를 수신하는 단계를 더 포함한다.
조항 98 은 조항 89 내지 조항 97 중 임의의 조항의 방법을 포함하고, 동적 분류기의 분류 출력들을 특정 디바이스와 연관된 하나 이상의 액세스 권한들에 연관시키는 테이블에 액세스하는 단계를 더 포함한다.
조항 99 는 조항 89 내지 조항 98 중 임의의 조항의 방법을 포함하고, 다중의 동적 분류기들로부터 동적 분류기를 선택하는 단계를 더 포함하고, 다중의 동적 분류기들의 각각은 다중의 디바이스들의 개별의 디바이스에 대한 인증 네트워크에 대응하고, 동적 분류기는 특정 디바이스에 액세스하라는 사용자 표시에 기초하여 선택된다.
조항 100 은 조항 98 의 방법을 포함하고, 여기서 하나 이상의 액세스 권한들 중 적어도 하나는 시간 종속적이다.
조항 101 은 조항 89 내지 조항 100 중 임의의 조항의 방법을 포함하고, 여기서 동적 분류기는 동적 분류기에서의 노드 값들에 대한 특징 데이터의 유사성에 기초하여 특징 데이터의 세트들을 적응적으로 클러스터링하도록 구성되고, 개개의 클러스터들은 다중의 사용자들의 개별의 사용자들에 대응한다.
조항 102 는 조항 89 내지 조항 101 중 임의의 조항의 방법을 포함하고, 동적 분류기를 특정 사용자의 스피치 입력과 연관된 변화들에 적응시키기 위해, 분류되지 않은 사용자에 대한 클래스를 추가하기 위해, 또는 양자 모두를 위해 특징 데이터에 기초하여 동적 분류기의 클러스터링 동작을 업데이트하는 단계를 더 포함한다.
조항 103 은 조항 89 내지 조항 102 중 임의의 조항의 방법을 포함하고, 동적 분류기의 분류 결정 기준을 업데이트하는 단계를 더 포함한다.
조항 104 는 조항 89 내지 조항 103 중 임의의 조항의 방법을 포함하고, 여기서 동적 분류기는 자가-조직화 맵을 포함한다.
조항 105 는 조항 89 내지 조항 103 중 임의의 조항의 방법을 포함하고, 여기서 동적 분류기는 주성분 분석, 독립 성분 분석, 또는 제한된 Boltzmann 머신에 따른 음성 특징 공간의 비감독 파티셔닝 중 적어도 하나를 수행하도록 구성된다.
조항 106 은 조항 89 내지 조항 105 중 임의의 조항의 방법을 포함하고, 동적 분류기에 의해 구별가능한 사용자들의 수에 대한 상한을 시행하는 단계를 더 포함한다.
조항 107 은 조항 89 내지 조항 106 중 임의의 조항의 방법을 포함하고, 새로운 사용자의 스피치에 대응하는 특징 벡터와 동적 분류기의 기존 노드들 사이의 유사성 측정치에 적어도 부분적으로 기초하여 새로운 사용자를 등록하기 위해 동적 분류기를 업데이트하는 단계를 더 포함한다.
조항 108 은 조항 89 내지 조항 107 중 임의의 조항의 방법을 포함하고, 새로운 사용자를 포함하도록 업데이트되는 동적 분류기에 대응하는 제 2 성능 메트릭과 비교하여, 새로운 사용자를 등록하지 않고 동적 분류기에 대응하는 제 1 성능 메트릭에 적어도 부분적으로 기초하여 새로운 사용자를 등록하기 위해 동적 분류기를 업데이트할지 여부를 결정하는 단계를 더 포함한다.
조항 109 는 조항 108 의 방법을 포함하고, 여기서 제 1 성능 메트릭 및 제 2 성능 메트릭은 엔트로피 메트릭들에 대응한다.
조항 110 은 조항 89 내지 조항 109 중 임의의 조항의 방법을 포함하고, 특정 사용자를 제거하도록 업데이트되는 동적 분류기에 대응하는 제 2 성능 메트릭과 비교하여, 특정 사용자를 제거하지 않고 동적 분류기에 대응하는 제 1 성능 메트릭에 적어도 부분적으로 기초하여 다중의 사용자들 중 특정 사용자를 제거하기 위해 동적 분류기를 업데이트할지 여부를 결정하는 단계를 더 포함한다.
조항 111 은 조항 89 내지 조항 110 중 임의의 조항의 방법을 포함하고, 여기서 동적 분류기는 특징 데이터의 세트들의 시퀀스를 수신하고 시퀀스에서의 특징 데이터의 이전 세트에 적어도 부분적으로 기초하여 시퀀스에서의 특징 데이터의 각각의 세트를 적응적으로 클러스터링하도록 추가로 구성된다.
조항 112 는 조항 89 내지 조항 111 중 임의의 조항의 방법을 포함하고, 분류 출력에 적어도 부분적으로 기초하여 하나 이상의 권한들을 결정하는 단계를 더 포함한다.
조항 113 은 조항 112 의 방법을 포함하고, 하나 이상의 권한들이 음성 커맨드 프로세싱 동작에 대한 액세스를 나타내는 것에 기초하여 음성 커맨드 프로세싱 동작을 선택적으로 개시하는 단계를 더 포함한다.
조항 114 는 조항 113 의 방법을 포함하고, 음성 커맨드 프로세싱 동작을 개시하기 위해 웨이크업 신호 또는 인터럽트 중 적어도 하나를 생성하는 단계를 더 포함한다.
조항 115 는 조항 112 내지 조항 114 중 임의의 조항의 방법을 포함하고, 하나 이상의 권한들이 제 2 디바이스에 대한 액세스를 나타내는 것에 응답하여 음성 커맨드 프로세싱 동작의 출력을 제 2 디바이스에 송신하는 단계를 더 포함한다.
조항 116 은 조항 89 내지 조항 115 중 임의의 조항의 방법을 포함하고, 여기서 하나 이상의 프로세서들은 모바일 폰, 태블릿 컴퓨터 디바이스, 웨어러블 전자 디바이스, 카메라 디바이스, 가상 현실 헤드셋, 또는 증강 현실 헤드셋 중 적어도 하나에 통합된다.
조항 117 은 조항 89 내지 조항 115 중 임의의 조항의 방법을 포함하고, 여기서 하나 이상의 프로세서들은 차량에 통합되고, 차량의 운전자의 발화는 동적 분류기에 기초한 인증을 위한 스피치 입력으로서 차량의 마이크로폰에 의해 캡처된다.
조항 118 에 따르면, 비일시적 컴퓨터 판독가능 매체는 명령들을 포함하고, 명령들은, 하나 이상의 프로세서들에 의해 실행될 경우, 하나 이상의 프로세서들로 하여금, 오디오 데이터 샘플을 수신하게 하고; 오디오 데이터 샘플에 기초하여 특징 데이터를 생성하게 하고; 다중의 사용자들 간을 구별하여 분류 출력을 생성하도록 구성된 동적 분류기에서 특징 데이터를 프로세싱하게 하고; 그리고 분류 출력에 적어도 부분적으로 기초하여 인증을 결정하게 한다.
조항 119 는 조항 118 의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 오디오 데이터 샘플은 마이크로폰에서 캡처된 오디오 데이터에 기초하여 생성된다.
조항 120 은 조항 118 또는 조항 119 의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 특징 데이터는 스피치와 연관된 피치 데이터 및 포먼트 데이터를 포함한다.
조항 121 은 조항 118 내지 조항 120 중 임의의 조항의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 동적 분류기는 구문 종속 분류를 수행하고, 특징 데이터는 지속기간 데이터 및 구문 특정 음절 큐들을 더 포함한다.
조항 122 는 조항 118 내지 조항 121 중 임의의 조항의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 특징 데이터를 생성하기 이전에 오디오 데이터 샘플을 변환 도메인으로 변환하게 하도록 실행가능하다.
조항 123 은 조항 118 내지 조항 122 중 임의의 조항의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 인증을 결정하는 것은 동적 분류기의 분류 출력들을 다중의 사용자들 중 특정 사용자들에 연관시키는 테이블에 액세스하는 것을 포함한다.
조항 124 는 조항 123 의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 등록 동작 동안 테이블을 채우게 하도록 실행가능하다.
조항 125 는 조항 123 또는 조항 124 의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 사용자 식별 데이터에 적어도 부분적으로 기초하여 테이블을 채우게 하도록 실행가능하다.
조항 126 은 조항 125 의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 카메라로부터, 사용자 식별 데이터로서 말하는 사용자의 캡처된 이미지에 대응하는 데이터를 수신하게 하도록 실행가능하다.
조항 127 은 조항 118 내지 조항 126 중 임의의 조항의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 동적 분류기의 분류 출력들을 특정 디바이스와 연관된 하나 이상의 액세스 권한들에 연관시키는 테이블에 액세스하게 하도록 실행가능하다.
조항 128 은 조항 127 의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 다중의 동적 분류기들로부터 동적 분류기를 선택하게 하도록 실행가능하고, 다중의 동적 분류기들의 각각은 다중의 디바이스들의 개별의 디바이스에 대한 인증 네트워크에 대응하고, 동적 분류기는 특정 디바이스에 액세스하라는 사용자 표시에 기초하여 선택된다.
조항 129 는 조항 127 또는 조항 128 의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 하나 이상의 액세스 권한들 중 적어도 하나는 시간 종속적이다.
조항 130 은 조항 118 내지 조항 129 중 임의의 조항의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 동적 분류기는 동적 분류기에서의 노드 값들에 대한 특징 데이터의 유사성에 기초하여 특징 데이터의 세트들을 적응적으로 클러스터링하도록 구성되고, 개개의 클러스터들은 다중의 사용자들의 개별의 사용자들에 대응한다.
조항 131 은 조항 118 내지 조항 130 중 임의의 조항의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 동적 분류기를 특정 사용자의 스피치 입력과 연관된 변화들에 적응시키기 위해, 분류되지 않은 사용자에 대한 클래스를 추가하기 위해, 또는 양자 모두를 위해 특징 데이터에 기초하여 동적 분류기의 클러스터링 동작을 업데이트하게 하도록 실행가능하다.
조항 132 는 조항 118 내지 조항 131 중 임의의 조항의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 동적 분류기의 분류 결정 기준을 업데이트하게 하도록 실행가능하다.
조항 133 은 조항 118 내지 조항 132 중 임의의 조항의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 동적 분류기는 자가-조직화 맵을 포함한다.
조항 134 는 조항 118 내지 조항 132 중 임의의 조항의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 동적 분류기는 주성분 분석, 독립 성분 분석, 또는 제한된 Boltzmann 머신에 따른 음성 특징 공간의 비감독 파티셔닝 중 적어도 하나를 수행하도록 구성된다.
조항 135 는 조항 118 내지 조항 134 중 임의의 조항의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 동적 분류기에 의해 분류가능한 사용자들의 수에 대한 상한을 시행하게 하도록 실행가능하다.
조항 136 은 조항 118 내지 조항 135 중 임의의 조항의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 새로운 사용자의 스피치에 대응하는 특징 벡터와 동적 분류기의 기존 노드들 사이의 유사성 측정치에 적어도 부분적으로 기초하여 새로운 사용자를 등록하기 위해 동적 분류기를 업데이트하게 하도록 실행가능하다.
조항 137 은 조항 118 내지 조항 136 중 임의의 조항의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 새로운 사용자를 포함하도록 업데이트되는 동적 분류기에 대응하는 제 2 성능 메트릭과 비교하여, 새로운 사용자를 등록하지 않고 동적 분류기에 대응하는 제 1 성능 메트릭에 적어도 부분적으로 기초하여 새로운 사용자를 등록하기 위해 동적 분류기를 업데이트할지 여부를 결정하게 하도록 실행가능하다.
조항 138 은 조항 137 의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 제 1 성능 메트릭 및 제 2 성능 메트릭은 엔트로피 메트릭들에 대응한다.
조항 139 는 조항 137 또는 조항 138 의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 특정 사용자를 제거하도록 업데이트되는 동적 분류기에 대응하는 제 2 성능 메트릭과 비교하여, 특정 사용자를 제거하지 않고 동적 분류기에 대응하는 제 1 성능 메트릭에 적어도 부분적으로 기초하여 다중의 사용자들 중 특정 사용자를 제거하기 위해 동적 분류기를 업데이트할지 여부를 결정하게 하도록 실행가능하다.
조항 140 은 조항 118 내지 조항 139 중 임의의 조항의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 동적 분류기는 특징 데이터의 세트들의 시퀀스를 수신하고 시퀀스에서의 특징 데이터의 이전 세트에 적어도 부분적으로 기초하여 시퀀스에서의 특징 데이터의 각각의 세트를 적응적으로 클러스터링하도록 추가로 구성된다.
조항 141 은 조항 118 내지 조항 140 중 임의의 조항의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 분류 출력에 적어도 부분적으로 기초하여 하나 이상의 권한들을 결정하게 하도록 실행가능하다.
조항 142 는 조항 141 의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 하나 이상의 권한들이 음성 커맨드 프로세싱 동작에 대한 액세스를 나타내는 것에 기초하여 음성 커맨드 프로세싱 동작을 선택적으로 개시하게 하도록 실행가능하다.
조항 143 은 조항 142 의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 음성 커맨드 프로세싱 동작을 개시하기 위해 웨이크업 신호 또는 인터럽트 중 적어도 하나를 생성하게 하도록 실행가능하다.
조항 144 는 조항 141 내지 조항 143 중 임의의 조항의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 하나 이상의 권한들이 제 2 디바이스에 대한 액세스를 나타내는 것에 응답하여 음성 커맨드 프로세싱 동작의 출력을 제 2 디바이스에 송신하게 하도록 실행가능하다.
조항 145 는 조항 118 내지 조항 144 중 임의의 조항의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 하나 이상의 프로세서들은 모바일 폰, 태블릿 컴퓨터 디바이스, 웨어러블 전자 디바이스, 카메라 디바이스, 가상 현실 헤드셋, 또는 증강 현실 헤드셋 중 적어도 하나에 통합된다.
조항 146 은 조항 118 내지 조항 145 중 임의의 조항의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 하나 이상의 프로세서들은 차량에 통합되고, 차량의 운전자의 발화는 동적 분류기에 기초한 인증을 위한 스피치 입력으로서 차량의 마이크로폰에 의해 캡처된다.
조항 147 에 따르면, 장치는, 오디오 데이터 샘플을 수신하기 위한 수단; 오디오 데이터 샘플에 기초하여 특징 데이터를 생성하기 위한 수단; 다중의 사용자들 간을 구별하여 분류 출력을 생성하도록 구성된 동적 분류기에서 특징 데이터를 프로세싱하기 위한 수단; 및 분류 출력에 적어도 부분적으로 기초하여 인증하기 위한 수단을 포함한다.
조항 148 은 조항 147 의 장치는 포함하고, 여기서 오디오 데이터 샘플은 마이크로폰에서 캡처된 오디오 데이터에 기초하여 생성된다.
조항 149 는 조항 147 또는 조항 148 의 장치를 포함하고, 여기서 특징 데이터는 스피치와 연관된 피치 데이터 및 포먼트 데이터를 포함한다.
조항 150 은 조항 147 내지 조항 149 중 임의의 조항의 장치를 포함하고, 여기서 동적 분류기는 구문 종속 분류를 수행하고, 특징 데이터는 지속기간 데이터 및 구문 특정 음절 큐들을 더 포함한다.
조항 151 은 조항 147 내지 조항 150 중 임의의 조항의 장치를 포함하고, 특징 데이터를 생성하기 이전에 오디오 데이터 샘플을 변환 도메인으로 변환하기 위한 수단을 더 포함한다.
조항 152 는 조항 147 내지 조항 151 중 임의의 조항의 장치를 포함하고, 여기서 인증을 결정하는 것은 동적 분류기의 분류 출력들을 다중의 사용자들 중 특정 사용자들에 연관시키는 테이블에 액세스하는 것을 포함한다.
조항 153 은 조항 152 의 장치를 포함하고, 등록 동작 동안 테이블을 채우기 위한 수단을 더 포함한다.
조항 154 는 조항 152 또는 조항 153 의 장치를 포함하고, 사용자 식별 데이터에 적어도 부분적으로 기초하여 테이블을 채우기 위한 수단을 더 포함한다.
조항 155 는 조항 154 의 장치는 포함하고, 카메라로부터, 사용자 식별 데이터로서 말하는 사용자의 캡처된 이미지에 대응하는 데이터를 수신하기 위한 수단을 더 포함한다.
조항 156 은 조항 147 내지 조항 155 중 임의의 조항의 장치를 포함하고, 동적 분류기의 분류 출력들을 특정 디바이스와 연관된 하나 이상의 액세스 권한들에 연관시키는 테이블에 액세스하기 위한 수단을 더 포함한다.
조항 157 은 조항 147 내지 조항 156 중 임의의 조항의 장치를 포함하고, 다중의 동적 분류기들로부터 동적 분류기를 선택하기 위한 수단을 더 포함하고, 다중의 동적 분류기들의 각각은 다중의 디바이스들의 개별의 디바이스에 대한 인증 네트워크에 대응하고, 동적 분류기는 특정 디바이스에 액세스하라는 사용자 표시에 기초하여 선택된다.
조항 158 은 조항 156 또는 조항 157 의 장치를 포함하고, 여기서 하나 이상의 액세스 권한들 중 적어도 하나는 시간 종속적이다.
조항 159 는 조항 147 내지 조항 158 중 임의의 조항의 장치를 포함하고, 여기서 동적 분류기는 동적 분류기에서의 노드 값들에 대한 특징 데이터의 유사성에 기초하여 특징 데이터의 세트들을 적응적으로 클러스터링하도록 구성되고, 개개의 클러스터들은 다중의 사용자들의 개별의 사용자들에 대응한다.
조항 160 은 조항 147 내지 조항 159 중 임의의 조항의 장치를 포함하고, 동적 분류기를 특정 사용자의 스피치 입력과 연관된 변화들에 적응시키기 위해, 분류되지 않은 사용자에 대한 클래스를 추가하기 위해, 또는 양자 모두를 위해 특징 데이터에 기초하여 동적 분류기의 클러스터링 동작을 업데이트하기 위한 수단을 더 포함한다.
조항 161 은 조항 147 내지 조항 160 중 임의의 조항의 장치를 포함하고, 동적 분류기의 분류 결정 기준을 업데이트하기 위한 수단을 더 포함한다.
조항 162 는 조항 147 내지 조항 161 중 임의의 조항의 장치를 포함하고, 여기서 동적 분류기는 자가-조직화 맵을 포함한다.
조항 163 은 조항 147 내지 조항 161 중 임의의 조항의 장치를 포함하고, 여기서 동적 분류기는 주성분 분석, 독립 성분 분석, 또는 제한된 Boltzmann 머신에 따른 음성 특징 공간의 비감독 파티셔닝 중 적어도 하나를 수행하도록 구성된다.
조항 164 는 조항 147 내지 조항 163 중 임의의 조항의 장치를 포함하고, 동적 분류기에 의해 구별가능한 사용자들의 수에 대한 상한을 시행하기 위한 수단을 더 포함한다.
조항 165 는 조항 147 내지 조항 164 중 임의의 조항의 장치를 포함하고, 새로운 사용자의 스피치에 대응하는 특징 벡터와 동적 분류기의 기존 노드들 사이의 유사성 측정치에 적어도 부분적으로 기초하여 새로운 사용자를 등록하기 위해 동적 분류기를 업데이트하기 위한 수단을 더 포함한다.
조항 166 은 조항 147 내지 조항 165 중 임의의 조항의 장치를 포함하고, 새로운 사용자를 포함하도록 업데이트되는 동적 분류기에 대응하는 제 2 성능 메트릭과 비교하여, 새로운 사용자를 등록하지 않고 동적 분류기에 대응하는 제 1 성능 메트릭에 적어도 부분적으로 기초하여 새로운 사용자를 등록하기 위해 동적 분류기를 업데이트할지 여부를 결정하기 위한 수단을 더 포함한다.
조항 167 은 조항 166 의 장치를 포함하고, 여기서 제 1 성능 메트릭 및 제 2 성능 메트릭은 엔트로피 메트릭들에 대응한다.
조항 168 은 조항 147 내지 조항 167 중 임의의 조항의 장치를 포함하고, 특정 사용자를 제거하도록 업데이트되는 동적 분류기에 대응하는 제 2 성능 메트릭과 비교하여, 특정 사용자를 제거하지 않고 동적 분류기에 대응하는 제 1 성능 메트릭에 적어도 부분적으로 기초하여 다중의 사용자들 중 특정 사용자를 제거하기 위해 동적 분류기를 업데이트할지 여부를 결정하기 위한 수단을 더 포함한다.
조항 169 는 조항 147 내지 조항 168 중 임의의 조항의 장치를 포함하고, 여기서 동적 분류기는 특징 데이터의 세트들의 시퀀스를 수신하고 시퀀스에서의 특징 데이터의 이전 세트에 적어도 부분적으로 기초하여 시퀀스에서의 특징 데이터의 각각의 세트를 적응적으로 클러스터링하도록 추가로 구성된다.
조항 170 은 조항 147 내지 조항 169 중 임의의 조항의 장치를 포함하고, 분류 출력에 적어도 부분적으로 기초하여 하나 이상의 권한들을 결정하기 위한 수단을 더 포함한다.
조항 171 은 조항 170 의 장치를 포함하고, 하나 이상의 권한들이 음성 커맨드 프로세싱 동작에 대한 액세스를 나타내는 것에 기초하여 음성 커맨드 프로세싱 동작을 선택적으로 개시하기 위한 수단을 더 포함한다.
조항 172 는 조항 171 의 장치를 포함하고, 음성 커맨드 프로세싱 동작을 개시하기 위해 웨이크업 신호 또는 인터럽트 중 적어도 하나를 생성하기 위한 수단을 더 포함한다.
조항 173 은 조항 170 내지 조항 172 중 임의의 조항의 장치를 포함하고, 하나 이상의 권한들이 제 2 디바이스에 대한 액세스를 나타내는 것에 응답하여 음성 커맨드 프로세싱 동작의 출력을 제 2 디바이스에 송신하기 위한 수단을 더 포함한다.
조항 174 는 조항 147 내지 조항 173 중 임의의 조항의 장치를 포함하고, 여기서 동적 분류기에서 특징 데이터를 프로세싱하기 위한 수단은 모바일 폰, 태블릿 컴퓨터 디바이스, 웨어러블 전자 디바이스, 카메라 디바이스, 가상 현실 헤드셋, 또는 증강 현실 헤드셋 중 적어도 하나에 통합된다.
조항 175 는 조항 147 내지 조항 173 중 임의의 조항의 장치를 포함하고, 여기서 동적 분류기에서 특징 데이터를 프로세싱하기 위한 수단은 차량에 통합되고, 차량의 운전자의 발화는 동적 분류기에 기초한 인증을 위한 스피치 입력으로서 차량의 마이크로폰에 의해 캡처된다.
조항 176 에 따르면, 디바이스는 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은, 오디오 데이터 샘플을 수신하고; 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하고; 그리고 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하도록 구성된다.
조항 177 은 조항 176 의 디바이스를 포함하고, 여기서 특정 디바이스에 선택적으로 액세스하는 것은 분류 출력이 특정 디바이스에 액세스하도록 인가되는 클래스에 대응하는 것에 응답하여 특정 디바이스에 대한 액세스를 잠금해제하기 위해 제 1 신호를 전송하는 것을 포함한다.
조항 178 은 조항 176 또는 조항 177 의 디바이스를 포함하고, 여기서 특정 디바이스에 선택적으로 액세스하는 것은 분류 출력이 특정 디바이스에 액세스하도록 인가되지 않는 클래스에 대응하는 것에 응답하여 특정 디바이스에 대한 액세스를 잠금하기 위해 제 2 신호를 전송하는 것을 포함한다.
조항 179 는 조항 176 내지 조항 178 중 임의의 조항의 디바이스를 포함하고, 여기서 특정 디바이스에 선택적으로 액세스하는 것은 분류 출력이 특정 디바이스에 액세스하도록 인가된 클래스에 대응하는 것에 응답하여 특정 디바이스로 오디오 데이터 샘플과 연관된 스피치 커맨드를 나타내는 데이터를 전송하는 것을 포함한다.
조항 180 은 조항 176 내지 조항 179 중 임의의 조항의 디바이스를 포함하고, 프로세서에 커플링된 특정 디바이스를 더 포함한다.
조항 181 은 조항 176 내지 조항 179 중 임의의 조항의 디바이스를 포함하고, 프로세서에 커플링된 모뎀을 더 포함하고, 여기서 특정 디바이스에 선택적으로 액세스하는 것은 특정 디바이스로의 신호의, 모뎀을 통한, 무선 송신을 포함한다.
조항 182 는 조항 176 내지 조항 181 중 임의의 조항의 디바이스를 포함하고, 여기서 동적 분류기는 스피치 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 분류 출력을 생성하도록 구성된다.
조항 183 은 조항 176 내지 조항 182 중 임의의 조항의 디바이스를 포함하고, 여기서 동적 분류기는 디바이스로부터 임계 거리 내의 소스로부터 발생하는 스피치와, 디바이스로부터 임계 거리를 초과하는 소스로부터 발생하는 스피치 간을 구별하도록 추가로 구성되고, 프로세서는 소스가 임계 거리를 초과하는 것에 기초하여 특정 디바이스에 대한 액세스를 거부하도록 추가로 구성된다.
조항 184 는 조항 176 내지 조항 183 중 임의의 조항의 디바이스를 포함하고, 여기서 프로세서는 특정 디바이스에 액세스하도록 인가되는 제 1 사람으로부터의 스피치의 검출의 임계 시간 지속기간 내에 제 2 사람으로부터의 스피치의 검출에 기초하여 특정 디바이스에 대한 액세스를 거부하도록 추가로 구성된다.
조항 185 는 조항 176 내지 조항 184 중 임의의 조항의 디바이스를 포함하고, 프로세서에 커플링된 메모리를 더 포함하고, 메모리는 동적 분류기의 분류 출력들을 특정 디바이스와 연관된 하나 이상의 액세스 권한들에 연관시키는 테이블을 포함한다.
조항 186 은 조항 176 내지 조항 185 중 임의의 조항의 디바이스를 포함하고, 여기서 특정 디바이스에 액세스할지 여부의 결정은 오디오 데이터 샘플과 연관된 수신된 오디오 데이터에서의 키워드의 존재와 독립적이다.
조항 187 은 조항 176 내지 조항 186 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 모바일 폰, 태블릿 컴퓨터 디바이스, 웨어러블 전자 디바이스, 카메라 디바이스, 가상 현실 헤드셋, 또는 증강 현실 헤드셋 중 적어도 하나에 통합된다.
조항 188 은 조항 176 내지 조항 187 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 하나 이상의 프로세서들에 커플링된 마이크로폰을 더 포함하는 차량에 통합되고, 마이크로폰은 동적 분류기에 기초한 인증을 위한 스피치 입력으로서 차량의 운전자의 발화들을 캡처하도록 포지셔닝된다.
조항 189 는 조항 176 내지 188 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 오디오 데이터 샘플을 동적 분류기에 제공하도록 구성된 제 1 프로세서; 및 분류 출력이 웨이크업 기준을 만족하는 것에 응답하여 활성 상태로 트랜지션하도록 구성된 제 2 프로세서를 포함한다.
조항 190 은 조항 176 내지 조항 189 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 분류 출력에 기초하여 키워드 검출을 수행하기 위해 오디오 데이터를 프로세싱하도록 구성된다.
조항 191 은 조항 176 내지 조항 190 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 동적 분류기에 하나 이상의 비-오디오 데이터 샘플들을 제공하도록 추가로 구성되고, 동적 분류기는 하나 이상의 비-오디오 데이터 샘플들에 추가로 기초하여 분류 출력을 생성하도록 구성된다.
조항 192 는 조항 191 의 디바이스를 포함하고, 하나 이상의 프로세서들에 커플링되고 말하는 사용자의 이미지를 캡처하도록 구성된 카메라를 더 포함하고, 하나 이상의 비-오디오 데이터 샘플들은 이미지에 대응한다.
조항 193 은 조항 191 또는 조항 192 의 디바이스를 포함하고, 여기서 동적 분류기는 오디오 데이터 샘플을 프로세싱하도록 구성된 제 1 동적 분류기; 및 비-오디오 데이터 샘플을 프로세싱하도록 구성된 제 2 동적 분류기를 포함한다.
조항 194 는 조항 176 내지 조항 193 중 임의의 조항의 디바이스를 포함하고, 동적 분류기는 스피치와 잡음 간을 구별하여 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된다.
조항 195 는 조항 176 내지 조항 194 중 임의의 조항의 디바이스를 포함하고, 하나 이상의 프로세서들에 커플링되고 오디오 데이터 샘플을 생성하기 위해 오디오 데이터를 캡처하도록 구성된 마이크로폰을 더 포함한다.
조항 196 은 조항 176 내지 조항 195 중 임의의 조항의 디바이스를 포함하고, 여기서 하나 이상의 프로세서들은 다중의 동적 분류기들로부터 동적 분류기를 선택하도록 추가로 구성되고, 다중의 동적 분류기들의 각각은 다중의 디바이스들의 개별의 디바이스에 대한 인증 네트워크에 대응하고, 동적 분류기는 특정 디바이스에 액세스하라는 사용자 표시에 기초하여 선택된다.
조항 197 에 따르면, 방법은, 프로세서에서, 오디오 데이터 샘플을 수신하는 단계; 프로세서에서, 오디오 데이터 샘플을 동적 분류기에 제공하여 오디오 데이터 샘플에 대응하는 분류 출력을 생성하는 단계; 및 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하는 단계를 포함한다.
조항 198 은 조항 197 의 방법을 포함하고, 여기서 특정 디바이스에 선택적으로 액세스하는 단계는 분류 출력이 특정 디바이스에 액세스하도록 인가되는 클래스에 대응하는 것에 응답하여 특정 디바이스에 대한 액세스를 잠금해제하기 위해 제 1 신호를 전송하는 단계를 포함한다.
조항 199 는 조항 197 의 방법을 포함하고, 여기서 특정 디바이스에 선택적으로 액세스하는 단계는 분류 출력이 특정 디바이스에 액세스하도록 인가되지 않는 클래스에 대응하는 것에 응답하여 특정 디바이스에 대한 액세스를 잠금하기 위해 제 2 신호를 전송하는 단계를 포함한다.
조항 200 은 조항 197 의 방법을 포함하고, 여기서 특정 디바이스에 선택적으로 액세스하는 단계는 분류 출력이 특정 디바이스에 액세스하도록 인가된 클래스에 대응하는 것에 응답하여 특정 디바이스로 오디오 데이터 샘플과 연관된 스피치 커맨드를 나타내는 데이터를 전송하는 단계를 포함한다.
조항 201 은 조항 197 내지 조항 200 중 임의의 조항의 방법을 포함하고, 여기서 동적 분류기는 스피치 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 분류 출력을 생성한다.
조항 202 에 따르면, 비일시적 컴퓨터 판독가능 매체는 명령들을 포함하고, 명령들은, 하나 이상의 프로세서들에 의해 실행될 경우, 하나 이상의 프로세서들로 하여금, 오디오 데이터 샘플을 수신하게 하고; 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하게 하고; 그리고 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하게 한다.
조항 203 은 조항 202 의 비일시적 컴퓨터 판독가능 매체를 포함하고, 여기서 동적 분류기는 스피치 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 분류 출력을 생성하도록 구성된다.
조항 204 에 따르면, 장치는, 오디오 데이터 샘플을 수신하기 위한 수단; 오디오 데이터 샘플을, 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하기 위한 수단; 및 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하기 위한 수단을 포함한다.
조항 205 는 조항 204 의 장치를 포함하고, 여기서 동적 분류기는 스피치 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 분류 출력을 생성하도록 구성된다.
당업자는 본 명세서에 개시된 구현들과 관련하여 설명된 다양한 예시적인 논리 블록들, 구성들, 모듈들, 회로들, 및 알고리즘 단계들이 전자 하드웨어, 프로세서에 의해 실행되는 컴퓨터 소프트웨어, 또는 이들 양자의 조합들로서 구현될 수도 있음을 추가로 인식할 것이다. 다양한 예시적인 컴포넌트들, 블록들, 구성들, 모듈들, 회로들 및 단계들이 일반적으로 그들의 기능성의 관점에서 상기 기술되었다. 그러한 기능성이 하드웨어로서 구현될지 또는 프로세서 실행가능 명령들로서 구현될지는 전체 시스템에 부과된 설계 제약들 및 특정 애플리케이션에 의존한다. 당업자는 설명된 기능성을 각각의 특정 애플리케이션에 대하여 다양한 방식으로 구현할 수도 있으며, 그러한 구현의 결정들은 본 개시의 범위로부터의 일탈을 야기하는 것으로서 해석되지는 않아야 한다.
본 명세서에 개시된 구현들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어에서, 프로세서에 의해 실행되는 소프트웨어 모듈에서, 또는 이들 양자의 조합에서 직접 구현될 수도 있다. 소프트웨어 모듈은 랜덤 액세스 메모리 (RAM), 플래시 메모리, 판독 전용 메모리 (ROM), 프로그래밍가능 판독 전용 메모리 (PROM), 소거가능한 프로그래밍가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능한 프로그래밍가능 판독 전용 메모리 (EEPROM), 레지스터들, 하드 디스크, 착탈가능 디스크, 컴팩트 디스크 판독 전용 메모리 (CD-ROM), 또는 당업계에 공지된 임의의 다른 형태의 비일시적 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는, 프로세서가 저장 매체로부터 정보를 판독할 수도 있고 저장 매체에 정보를 기입할 수도 있도록 프로세서에 커플링된다. 대안으로, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서 및 저장 매체는 주문형 집적 회로 (ASIC) 에 상주할 수도 있다. ASIC 은 컴퓨팅 디바이스 또는 사용자 단말기에 상주할 수도 있다. 대안으로, 프로세서 및 저장 매체는 컴퓨팅 디바이스 또는 사용자 단말기에서 이산 컴포넌트들로서 상주할 수도 있다.
개시된 양태들의 상기 설명은 당업자로 하여금 개시된 양태들을 제조 또는 이용할 수 있도록 제공된다. 이들 양태들에 대한 다양한 수정들은 당업자에게 용이하게 자명할 것이며, 본 명세서에서 정의된 원리들은 본 개시의 범위로부터 일탈함없이 다른 양태들에 적용될 수도 있다. 따라서, 본 개시는 본 명세서에 나타낸 양태들로 한정되도록 의도되지 않으며, 다음의 청구항들에 의해 정의된 바와 같은 원리들 및 신규한 특징들과 부합하는 가능한 최광의 범위를 부여받아야 한다.

Claims (30)

  1. 디바이스로서,
    하나 이상의 프로세서들을 포함하고,
    상기 하나 이상의 프로세서들은,
    오디오 데이터 샘플을 수신하고;
    상기 오디오 데이터 샘플을, 상기 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하고; 및
    상기 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하도록
    구성된, 디바이스.
  2. 제 1 항에 있어서,
    상기 특정 디바이스에 선택적으로 액세스하는 것은 상기 분류 출력이 상기 특정 디바이스에 액세스하도록 인가되는 클래스에 대응하는 것에 응답하여 상기 특정 디바이스에 대한 액세스를 잠금해제하기 위해 제 1 신호를 전송하는 것을 포함하는, 디바이스.
  3. 제 1 항에 있어서,
    상기 특정 디바이스에 선택적으로 액세스하는 것은 상기 분류 출력이 상기 특정 디바이스에 액세스하도록 인가되지 않는 클래스에 대응하는 것에 응답하여 상기 특정 디바이스에 대한 액세스를 잠금하기 위해 제 2 신호를 전송하는 것을 포함하는, 디바이스.
  4. 제 1 항에 있어서,
    상기 특정 디바이스에 선택적으로 액세스하는 것은 상기 분류 출력이 상기 특정 디바이스에 액세스하도록 인가된 클래스에 대응하는 것에 응답하여 상기 특정 디바이스로 상기 오디오 데이터 샘플과 연관된 스피치 커맨드를 나타내는 데이터를 전송하는 것을 포함하는, 디바이스.
  5. 제 1 항에 있어서,
    상기 프로세서에 커플링된 상기 특정 디바이스를 더 포함하는, 디바이스.
  6. 제 1 항에 있어서,
    상기 프로세서에 커플링된 모뎀을 더 포함하고, 상기 특정 디바이스에 선택적으로 액세스하는 것은 상기 특정 디바이스로의 신호의, 상기 모뎀을 통한, 무선 송신을 포함하는, 디바이스.
  7. 제 1 항에 있어서,
    상기 동적 분류기는 스피치 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 상기 분류 출력을 생성하도록 구성되는, 디바이스.
  8. 제 1 항에 있어서,
    상기 동적 분류기는 상기 디바이스로부터 임계 거리 내의 소스로부터 발생하는 스피치와, 상기 디바이스로부터 상기 임계 거리를 초과하는 상기 소스로부터 발생하는 스피치 간을 구별하도록 추가로 구성되고, 상기 프로세서는 상기 소스가 상기 임계 거리를 초과하는 것에 기초하여 상기 특정 디바이스에 대한 액세스를 거부하도록 추가로 구성되는, 디바이스.
  9. 제 1 항에 있어서,
    상기 프로세서는 상기 특정 디바이스에 액세스하도록 인가되는 제 1 사람으로부터의 스피치의 검출의 임계 시간 지속기간 내에 제 2 사람으로부터의 스피치의 검출에 기초하여 상기 특정 디바이스에 대한 액세스를 거부하도록 추가로 구성되는, 디바이스.
  10. 제 1 항에 있어서,
    상기 프로세서에 커플링된 메모리를 더 포함하고, 상기 메모리는 상기 동적 분류기의 분류 출력들을 상기 특정 디바이스와 연관된 하나 이상의 액세스 권한들에 연관시키는 테이블을 포함하는, 디바이스.
  11. 제 1 항에 있어서,
    상기 특정 디바이스에 액세스할지 여부의 결정은 상기 오디오 데이터 샘플과 연관된 수신된 오디오 데이터에서의 키워드의 존재와 독립적인, 디바이스.
  12. 제 1 항에 있어서,
    상기 하나 이상의 프로세서들은 모바일 폰, 태블릿 컴퓨터 디바이스, 웨어러블 전자 디바이스, 카메라 디바이스, 가상 현실 헤드셋, 또는 증강 현실 헤드셋 중 적어도 하나에 통합되는, 디바이스.
  13. 제 1 항에 있어서,
    상기 하나 이상의 프로세서들은 상기 하나 이상의 프로세서들에 커플링된 마이크로폰을 더 포함하는 차량에 통합되고, 상기 마이크로폰은 상기 동적 분류기에 기초한 인증을 위한 스피치 입력으로서 상기 차량의 운전자의 발화들을 캡처하도록 포지셔닝되는, 디바이스.
  14. 제 1 항에 있어서,
    상기 하나 이상의 프로세서들은,
    상기 오디오 데이터 샘플을 상기 동적 분류기에 제공하도록 구성된 제 1 프로세서; 및
    상기 분류 출력이 웨이크업 기준을 만족하는 것에 응답하여 활성 상태로 트랜지션하도록 구성된 제 2 프로세서를 포함하는, 디바이스.
  15. 제 1 항에 있어서,
    상기 하나 이상의 프로세서들은 상기 분류 출력에 기초하여 키워드 검출을 수행하기 위해 오디오 데이터를 프로세싱하도록 구성되는, 디바이스.
  16. 제 1 항에 있어서,
    상기 하나 이상의 프로세서들은 상기 동적 분류기에 하나 이상의 비-오디오 데이터 샘플들을 제공하도록 추가로 구성되고, 상기 동적 분류기는 상기 하나 이상의 비-오디오 데이터 샘플들에 추가로 기초하여 상기 분류 출력을 생성하도록 구성되는, 디바이스.
  17. 제 16 항에 있어서,
    상기 하나 이상의 프로세서들에 커플링되고 말하는 사용자의 이미지를 캡처하도록 구성된 카메라를 더 포함하고, 상기 하나 이상의 비-오디오 데이터 샘플들은 상기 이미지에 대응하는, 디바이스.
  18. 제 16 항에 있어서,
    상기 동적 분류기는,
    상기 오디오 데이터 샘플을 프로세싱하도록 구성된 제 1 동적 분류기; 및
    상기 비-오디오 데이터 샘플을 프로세싱하도록 구성된 제 2 동적 분류기를 포함하는, 디바이스.
  19. 제 1 항에 있어서,
    상기 동적 분류기는 스피치와 잡음 간을 구별하여 상기 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성되는, 디바이스.
  20. 제 1 항에 있어서,
    상기 하나 이상의 프로세서들에 커플링되고 상기 오디오 데이터 샘플을 생성하기 위해 오디오 데이터를 캡처하도록 구성된 마이크로폰을 더 포함하는, 디바이스.
  21. 제 1 항에 있어서.
    상기 하나 이상의 프로세서들은 다중의 동적 분류기들로부터 상기 동적 분류기를 선택하도록 추가로 구성되고, 상기 다중의 동적 분류기들의 각각은 다중의 디바이스들의 개별의 디바이스에 대한 인증 네트워크에 대응하고, 상기 동적 분류기는 상기 특정 디바이스에 액세스하라는 사용자 표시에 기초하여 선택되는, 디바이스.
  22. 방법으로서,
    프로세서에서, 오디오 데이터 샘플을 수신하는 단계;
    상기 프로세서에서, 상기 오디오 데이터 샘플을 동적 분류기에 제공하여 상기 오디오 데이터 샘플에 대응하는 분류 출력을 생성하는 단계; 및
    상기 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하는 단계를 포함하는, 방법.
  23. 제 22 항에 있어서,
    상기 특정 디바이스에 선택적으로 액세스하는 단계는 상기 분류 출력이 상기 특정 디바이스에 액세스하도록 인가되는 클래스에 대응하는 것에 응답하여 상기 특정 디바이스에 대한 액세스를 잠금해제하기 위해 제 1 신호를 전송하는 단계를 포함하는, 방법.
  24. 제 22 항에 있어서,
    상기 특정 디바이스에 선택적으로 액세스하는 단계는 상기 분류 출력이 상기 특정 디바이스에 액세스하도록 인가되지 않는 클래스에 대응하는 것에 응답하여 상기 특정 디바이스에 대한 액세스를 잠금하기 위해 제 2 신호를 전송하는 단계를 포함하는, 방법.
  25. 제 22 항에 있어서,
    상기 특정 디바이스에 선택적으로 액세스하는 단계는 상기 분류 출력이 상기 특정 디바이스에 액세스하도록 인가된 클래스에 대응하는 것에 응답하여 상기 특정 디바이스로 상기 오디오 데이터 샘플과 연관된 스피치 커맨드를 나타내는 데이터를 전송하는 단계를 포함하는, 방법.
  26. 제 22 항에 있어서,
    상기 동적 분류기는 스피치 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 상기 분류 출력을 생성하는, 방법.
  27. 명령들을 포함하는 비일시적 컴퓨터 판독가능 저장 매체로서,
    상기 명령들은, 하나 이상의 프로세서들에 의해 실행될 경우, 상기 하나 이상의 프로세서들로 하여금,
    오디오 데이터 샘플을 수신하게 하고;
    상기 오디오 데이터 샘플을, 상기 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하게 하고; 그리고
    상기 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하게 하는, 비일시적 컴퓨터 판독가능 저장 매체.
  28. 제 27 항에 있어서,
    상기 동적 분류기는 스피치 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 상기 분류 출력을 생성하도록 구성되는, 비일시적 컴퓨터 판독가능 저장 매체.
  29. 장치로서,
    오디오 데이터 샘플을 수신하기 위한 수단;
    상기 오디오 데이터 샘플을, 상기 오디오 데이터 샘플에 대응하는 분류 출력을 생성하도록 구성된 동적 분류기에 제공하기 위한 수단; 및
    상기 분류 출력에 기초하여 특정 디바이스에 선택적으로 액세스하기 위한 수단을 포함하는, 장치.
  30. 제 29 항에 있어서,
    상기 동적 분류기는 스피치 특성들에 적어도 부분적으로 기초하여 다중의 사용자들 간을 구별하여 상기 분류 출력을 생성하도록 구성되는, 장치.
KR1020237029810A 2021-03-09 2022-02-08 동적 분류기에 기초한 디바이스 동작 KR20230153385A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/196,563 2021-03-09
US17/196,563 US11776550B2 (en) 2021-03-09 2021-03-09 Device operation based on dynamic classifier
PCT/US2022/070558 WO2022192825A1 (en) 2021-03-09 2022-02-08 Device operation based on dynamic classifier

Publications (1)

Publication Number Publication Date
KR20230153385A true KR20230153385A (ko) 2023-11-06

Family

ID=80683005

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237029810A KR20230153385A (ko) 2021-03-09 2022-02-08 동적 분류기에 기초한 디바이스 동작

Country Status (6)

Country Link
US (1) US11776550B2 (ko)
EP (1) EP4305807A1 (ko)
KR (1) KR20230153385A (ko)
CN (1) CN116918301A (ko)
BR (1) BR112023017511A2 (ko)
WO (1) WO2022192825A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11776550B2 (en) * 2021-03-09 2023-10-03 Qualcomm Incorporated Device operation based on dynamic classifier
US11904909B2 (en) * 2021-06-25 2024-02-20 Gm Cruise Holdings Llc Enabling ride sharing during pandemics
US20230035531A1 (en) * 2021-07-27 2023-02-02 Qualcomm Incorporated Audio event data processing
US11966663B1 (en) * 2021-09-29 2024-04-23 Amazon Technologies, Inc. Speech processing and multi-modal widgets

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3745403B2 (ja) * 1994-04-12 2006-02-15 ゼロックス コーポレイション オーディオデータセグメントのクラスタリング方法
US9262612B2 (en) * 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20170011406A1 (en) * 2015-02-10 2017-01-12 NXT-ID, Inc. Sound-Directed or Behavior-Directed Method and System for Authenticating a User and Executing a Transaction
EP3257043B1 (en) * 2015-02-11 2018-12-12 Bang & Olufsen A/S Speaker recognition in multimedia system
US10476872B2 (en) * 2015-02-20 2019-11-12 Sri International Joint speaker authentication and key phrase identification
JP2016206428A (ja) * 2015-04-23 2016-12-08 京セラ株式会社 電子機器および声紋認証方法
US20180018973A1 (en) * 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10775986B2 (en) * 2017-03-24 2020-09-15 Apple Inc. Ergonomic adjustments
KR102411766B1 (ko) * 2017-08-25 2022-06-22 삼성전자주식회사 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치
US10733990B2 (en) * 2017-10-18 2020-08-04 Motorola Mobility Llc Preventing initiation of a voice recognition session
US11475898B2 (en) * 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11464055B2 (en) * 2019-09-04 2022-10-04 Sonos, Inc. Systems and methods for configuring a media player device on a local network using a graphical user interface
US11363416B2 (en) * 2019-10-04 2022-06-14 Samsung Electronics Co., Ltd. System and method for WiFi-based indoor localization via unsupervised domain adaptation
US11350151B2 (en) * 2020-09-24 2022-05-31 ONQ Solutions, Inc. Methods, systems and devices that enable a user of a mobile phone to select what content is displayed on a screen of a consumer electronic device on display
US11783809B2 (en) * 2020-10-08 2023-10-10 Qualcomm Incorporated User voice activity detection using dynamic classifier
US11677735B2 (en) * 2020-12-18 2023-06-13 Shopify Inc. Hidden line property of online content to inhibit bot activity
US11776550B2 (en) * 2021-03-09 2023-10-03 Qualcomm Incorporated Device operation based on dynamic classifier

Also Published As

Publication number Publication date
WO2022192825A1 (en) 2022-09-15
US11776550B2 (en) 2023-10-03
BR112023017511A2 (pt) 2023-10-10
US20220292134A1 (en) 2022-09-15
CN116918301A (zh) 2023-10-20
EP4305807A1 (en) 2024-01-17

Similar Documents

Publication Publication Date Title
US11776550B2 (en) Device operation based on dynamic classifier
US11978440B2 (en) Wakeword detection
CN111699528B (zh) 电子装置及执行电子装置的功能的方法
JP6306190B2 (ja) アプリケーションへのアクセスを制御するための方法および装置
WO2021135685A1 (zh) 身份认证的方法以及装置
JP6977004B2 (ja) 車載装置、発声を処理する方法およびプログラム
US9530417B2 (en) Methods, systems, and circuits for text independent speaker recognition with automatic learning features
US10916249B2 (en) Method of processing a speech signal for speaker recognition and electronic apparatus implementing same
US11862170B2 (en) Sensitive data control
US11626104B2 (en) User speech profile management
US10825451B1 (en) Wakeword detection
US11240641B1 (en) Automated device grouping
US11783809B2 (en) User voice activity detection using dynamic classifier
US11776534B1 (en) Natural language understanding intent adjustment
US11741969B1 (en) Controlled access to device data
US11380349B2 (en) Security system
US11531736B1 (en) User authentication as a service