KR20160147955A - 공존 정보를 이용한 화자 검증 - Google Patents
공존 정보를 이용한 화자 검증 Download PDFInfo
- Publication number
- KR20160147955A KR20160147955A KR1020167033161A KR20167033161A KR20160147955A KR 20160147955 A KR20160147955 A KR 20160147955A KR 1020167033161 A KR1020167033161 A KR 1020167033161A KR 20167033161 A KR20167033161 A KR 20167033161A KR 20160147955 A KR20160147955 A KR 20160147955A
- Authority
- KR
- South Korea
- Prior art keywords
- computing device
- user
- user device
- speaker
- score
- Prior art date
Links
- 238000012795 verification Methods 0.000 title claims description 90
- 238000000034 method Methods 0.000 claims abstract description 89
- 230000005236 sound signal Effects 0.000 claims abstract description 53
- 230000004044 response Effects 0.000 claims description 28
- 238000004891 communication Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 abstract description 22
- 230000015654 memory Effects 0.000 description 45
- 230000008569 process Effects 0.000 description 30
- 230000009471 action Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 229920001690 polydopamine Polymers 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/06—Authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2111—Location-sensitive, e.g. geographical location, GPS
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Emergency Alarm Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
다중-사용자 환경에서 사용자를 식별하기 위한, 컴퓨터 저장 매체 상에 인코딩된 컴퓨터 프로그램을 포함하여, 방법들, 시스템들 및 장치들이 제공된다. 방법들 중 하나는 제1 사용자 디바이스에 의해, 발언(utterance)을 인코딩한 오디오 신호를 수신하는 단계와, 상기 제1 사용자 디바이스에 의해, 상기 제1 사용자 디바이스의 제1 사용자에 대한 제1 화자 모델(first speaker model)을 획득하는 단계와, 상기 제1 사용자 디바이스에 의해, 상기 제1 사용자 디바이스와 공존하는(co-located) 대응하는 제2 사용자 디바이스의 제2 사용자에 대해, 상기 제2 사용자에 대한 제2 화자 모델 또는 상기 제2 사용자에 의해 발언이 이루어졌을 각각의 가능성(likelihood)을 나타내는 제2 스코어를 획득하는 단계와, 그리고 상기 제1 사용자 디바이스에 의해, (i) 상기 제1 화자 모델 및 상기 제2 화자 모델 또는 (ii) 상기 제1 화자 모델 및 상기 제2 스코어를 이용하여 상기 제1 사용자에 의해 발언이 이루어짐을 결정하는 단계를 포함한다.
Description
본 명세서는 화자 검증에 관한 것이다.
집(home) 또는 자동차와 같은 스피치 인에이블 환경(speech-enabled environment)에서, 사용자는 음성 입력을 이용하여 정보에 액세스하거나 다양한 기능들을 제어할 수 있다. 이 정보 및 기능들은 소정 사용자에 대해 개인화될 수 있다. 복수의 사용자 환경들에서, 화자들의 그룹으로부터 소정 화자를 식별하는 것은 장점적일 수 있다.
본 명세서는 화자 검증 시스템들에 더 많은 정보를 제공함으로써 화자 검증 시스템들을 강화하는 것에 관한 것이다. 예를 들어, 특정 화자 검증 시스템들은, 일반적으로 추가의 프로세싱을 수행 및/또는 스피치 커맨드들 및 쿼리(query)들과 같은 더 많은 사용자 입력을 수신하기 위해, 컴퓨팅 디바이스를 웨이크업(wake up)하기 위한 미리 정의된 문구(phrase)를 지속적으로 청취(listen)하는 것을 수반한다. 이러한 화자 검증 시스템들은 디바이스 내의 등록된(enrolled) 사용자들의 세트 및 알려지지 않은 비등록된 사용자들로부터 미리 정의된 문구의 발언(utterance)을 구별할 수 있다. 전형적인 시나리오들에서, 특별한 컴퓨팅 디바이스는 상기 디바이스에 근접하여 상대적으로 가까이 위치된 사람들(예컨대, 회의실 내의 사람들의 그룹 또는 테이블에 있는 다른 손님(diner)들)이 말하는 미리 정의된 문구의 어떤 발언들을 검출할 수 있다. 일부 예들에서, 이러한 사람들은 자신들의 디바이스들과 호환되는 화자 검증 시스템들을 이용할 수 있다. 공존 정보의 장점으로 취함으로써, 각각의 디바이스와 관련된 화자 검증 시스템은 각각의 디바이스의 등록된 사용자에 의해 발언이 이루어지는지 또는 근접하여 가까이 있는 다른 사용자(예컨대, 사칭자(imposter))에 의해 발언이 이루어지는지를 검출할 수 있고, 이 정보는 화자 검증 결정을 개선하기 위해 이용될 수 있다.
일반적으로, 본 명세서에 기술된 본 발명의 하나의 혁신적인 양상은 방법들로 구현될 수 있는 바, 상기 방법들은 제1 사용자 디바이스에 의해 발언을 인코딩한 오디오 신호를 수신하는 동작과, 상기 제1 사용자 디바이스에 의해 상기 제1 사용자 디바이스의 제1 사용자에 대한 제1 화자 모델(first speaker model)을 획득하는 동작과, 상기 제1 사용자 디바이스에 의해, 상기 제1 사용자 디바이스와 공존하는 대응하는 제2 사용자 디바이스의 제2 사용자에 대해, 상기 제2 사용자에 대한 제2 화자 모델 및 상기 제2 사용자에 의해 발언이 이루어졌을 각각의 가능성을 나타내는 제2 스코어를 획득하는 동작과 그리고 상기 제1 사용자 디바이스에 의해, (i) 상기 제1 화자 모델 및 상기 제2 화자 모델 또는 (ii) 상기 제1 화자 모델 및 상기 제2 스코어를 이용하여 상기 제1 사용자에 의해 발언이 이루어짐을 결정하는 동작을 포함한다. 본 발명의 다른 실시예들은 대응하는 컴퓨터 시스템, 장치 및 하나 이상의 컴퓨터 저장 디바이스들 상에 레코딩된 컴퓨터 프로그램들을 포함하며, 이들 각각은 방법들의 동작들을 수행하도록 구성된다. 하나 이상의 컴퓨터들의 시스템은, 동작 시 상기 시스템으로 하여금 동작들을 수행하도록 상기 시스템 상에 인스톨된 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합을 구비함으로써 특별한 동작들 또는 작동들을 수행하도록 구성될 수 있다. 하나 이상의 컴퓨터 프로그램들은, 데이터 프로세싱 장치에 의해 실행될 때 상기 장치로 하여금 동작들을 수행하도록 하는 명령어들을 포함함으로써 특별한 동작들 또는 작동들을 수행하도록 구성될 수 있다.
일반적으로, 본 명세서에 기술된 본 발명의 하나의 혁신적인 양상은 방법들로 구현될 수 있는 바, 상기 방법들은 제1 사용자 디바이스에 의해 발언을 인코딩한 오디오 신호를 수신하는 동작과, 상기 제1 사용자 디바이스에 의해 상기 제1 사용자 디바이스의 제1 사용자에 대한 제1 화자 모델을 획득하는 동작과, 상기 제1 사용자 디바이스에 의해, 상기 제1 사용자 디바이스와 공존하는 다른 사용자 디바이스들의 복수의 다른 사용자들 각각에 대해, 상기 각각의 사용자에 대한 화자 모델 및 상기 각각의 사용자에 의해 발언이 이루어졌을 각각의 가능성을 나타내는 스코어를 획득하는 동작과 그리고 상기 제1 사용자 디바이스에 의해, (i) 상기 제1 화자 모델 및 복수의 다른 화자 모델들 또는 (ii) 상기 제1 화자 모델 및 복수의 스코어들을 이용하여 상기 제1 사용자에 의해 발언이 이루어짐을 결정하는 동작을 포함한다. 본 발명의 다른 실시예들은 대응하는 컴퓨터 시스템, 장치 및 하나 이상의 컴퓨터 저장 디바이스들 상에 레코딩된 컴퓨터 프로그램들을 포함하며, 이들 각각은 방법들의 동작들을 수행하도록 구성된다. 하나 이상의 컴퓨터들의 시스템은, 동작 시 상기 시스템으로 하여금 동작들을 수행하도록 상기 시스템 상에 인스톨된 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합을 구비함으로써 특별한 동작들 또는 작동들을 수행하도록 구성될 수 있다. 하나 이상의 컴퓨터 프로그램들은, 데이터 프로세싱 장치에 의해 실행될 때 상기 장치로 하여금 동작들을 수행하도록 하는 명령어들을 포함함으로써 특별한 동작들 또는 작동들을 수행하도록 구성될 수 있다.
일반적으로, 본 명세서에 기술된 본 발명의 하나의 혁신적인 양상은 방법들로 구현될 수 있는 바, 상기 방법들은 제1 사용자 디바이스에 의해 발언을 인코딩한 오디오 신호를 수신하는 동작과, 상기 제1 사용자 디바이스에 의해 상기 제1 사용자 디바이스의 제1 사용자에 대한 제1 화자 모델을 획득하는 동작과, 상기 제1 사용자 디바이스에 의해, 상기 제1 사용자 디바이스와 공존할 수 있는 다른 사람들에 대해, 상기 제1 사용자 디바이스 상에 저장된 하나 이상의 제2 화자 모델들을 결정하는 동작과, 그리고 상기 제1 사용자 디바이스에 의해, 상기 제1 화자 모델 및 상기 제2 화자 모델들을 이용하여 상기 제1 사용자에 의해 발언이 이루어짐을 결정하는 동작을 포함한다. 본 양상의 다른 실시예들은 대응하는 컴퓨터 시스템, 장치 및 하나 이상의 컴퓨터 저장 디바이스들 상에 레코딩된 컴퓨터 프로그램들을 포함하며, 이들 각각은 방법들의 동작들을 수행하도록 구성된다. 하나 이상의 컴퓨터들의 시스템은, 동작 시 상기 시스템으로 하여금 동작들을 수행하도록 상기 시스템 상에 인스톨된 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합을 구비함으로써 특별한 동작들 또는 작동들을 수행하도록 구성될 수 있다. 하나 이상의 컴퓨터 프로그램들은, 데이터 프로세싱 장치에 의해 실행될 때 상기 장치로 하여금 동작들을 수행하도록 하는 명령어들을 포함함으로써 특별한 동작들 또는 작동들을 수행하도록 구성될 수 있다.
일반적으로, 본 명세서에 기술된 본 발명의 하나의 혁신적인 양상은 방법들로 구현될 수 있는 바, 상기 방법들은 컴퓨터들 중 적어도 하나에 의해 발언을 인코딩한 오디오 신호를 수신하는 동작과, 상기 컴퓨터들 중 적어도 하나에 의해, 둘 이상의 사용자 디바이스들 각각에 대해, 각각의 사용자 디바이스의 각각의 사용자에 대한 각각의 화자 모델들의 식별을 획득하는 동작과 그리고 상기 컴퓨터들 중 적어도 하나에 의해, 상기 식별된 화자 모델들을 이용하여 상기 사용자 디바이스들 중 하나의 사용자 디바이스의 특별한 사용자에 의해 발언이 이루어짐을 결정하는 동작을 포함한다. 본 양상의 다른 실시예들은 대응하는 컴퓨터 시스템, 장치 및 하나 이상의 컴퓨터 저장 디바이스들 상에 레코딩된 컴퓨터 프로그램들을 포함하며, 이들 각각은 방법들의 동작들을 수행하도록 구성된다. 하나 이상의 컴퓨터들의 시스템은, 동작 시 상기 시스템으로 하여금 동작들을 수행하도록 상기 시스템 상에 인스톨된 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합을 구비함으로써 특별한 동작들 또는 작동들을 수행하도록 구성될 수 있다. 하나 이상의 컴퓨터 프로그램들은, 데이터 프로세싱 장치에 의해 실행될 때 상기 장치로 하여금 동작들을 수행하도록 하는 명령어들을 포함함으로써 특별한 동작들 또는 작동들을 수행하도록 구성될 수 있다.
일반적으로, 본 명세서에 기술된 본 발명의 하나의 혁신적인 양상은 방법들로 구현될 수 있는 바, 상기 방법들은 제1 사용자 디바이스에 의해 발언을 인코딩한 오디오 신호를 수신하는 동작과, 상기 제1 사용자 디바이스에 의해 상기 제1 사용자 디바이스의 제1 사용자에 의해 발언이 이루어졌을 가능성을 나타내는 제1 스코어를 획득하는 동작과, 상기 제1 사용자 디바이스에 의해, 상기 제1 사용자 디바이스와 공존하는 대응하는 제2 사용자 디바이스의 제2 사용자에 대해, 상기 제2 사용자에 의해 발언이 이루어졌을 각각의 가능성을 나타내는 제2 스코어를 획득하는 동작과, 상기 제1 사용자 디바이스에 의해, 상기 제1 스코어 및 상기 제2 스코어의 결합을 결정하는 동작과, 상기 제1 사용자 디바이스에 의해, 상기 제1 스코어 및 상기 제2 스코어의 결합을 이용하여 상기 제1 스코어 및 상기 제2 스코어를 정규화(normalizing)하는 동작과, 그리고 상기 제1 사용자 디바이스에 의해, 상기 정규화된 제1 스코어 및 상기 정규화된 제2 스코어를 이용하여 상기 제1 사용자에 의해 발언이 이루어짐을 결정하는 동작을 포함한다.
상기 및 다른 실시예들 각각은 옵션에 따라서는, 단독으로 또는 조합하여 다음의 특징들 중 하나 이상을 포함할 수 있다. 상기 제1 사용자 디바이스에 의해, 상기 제1 사용자 디바이스와 공존하는 대응하는 제2 사용자 디바이스의 제2 사용자에 대해, 상기 제2 사용자에 대한 제2 화자 모델 또는 상기 제2 사용자에 의해 발언이 이루어졌을 각각의 가능성을 나타내는 제2 스코어를 획득하는 것은 상기 제1 사용자 디바이스에 의해, 상기 제1 사용자 디바이스의 물리적 위치와 가까운 물리적 영역에 공존하는 상기 제2 사용자 디바이스의 상기 제2 사용자에 대해 상기 제2 사용자에 대한 제2 화자 모델 또는 상기 제2 사용자에 의해 발언이 이루어졌을 각각의 가능성을 나타내는 제2 스코어를 획득하는 것을 포함할 수 있다. 상기 방법은 상기 제1 사용자에 의해 발언이 이루어짐을 결정함에 응답하여 동작을 수행하는 것을 포함할 수 있다. 상기 방법은 발언에 포함된 커맨드를 식별하기 위해 상기 오디오 신호를 분석하는 것과 상기 커맨드에 대응하는 동작을 수행하는 것을 포함할 수 있다. 상기 방법은 상기 제1 사용자 디바이스에 의해, 상기 오디오 신호의 일부 및 상기 제1 화자 모델을 이용하여 상기 제1 사용자에 의해 발언이 이루어졌을 가능성을 나타내는 제1 스코어를 생성하는 단계를 포함할 수 있다. 상기 방법은 가장 높은 스코어를 결정하기 위해 상기 제1 스코어를 상기 제2 스코어와 비교하는 단계를 포함할 수 있다. 상기 제1 사용자에 의해 발언이 이루어짐을 결정하는 단계는 상기 제1 스코어가 가장 높은 스코어임을 결정하는 것을 포함하는 것을 포함할 수 있다.
일부 구현들에서, 상기 제1 사용자 디바이스에 의해, 상기 제1 사용자 디바이스와 공존하는 대응하는 제2 사용자 디바이스의 제2 사용자에 대해, 상기 제2 사용자에 대한 제2 화자 모델 또는 상기 제2 사용자에 의해 발언이 이루어졌을 각각의 가능성을 나타내는 제2 스코어를 획득하는 단계는 상기 제1 사용자 디바이스에 의해, 상기 제2 화자 모델을 획득하는 것과 그리고 상기 제1 사용자 디바이스에 의해, 상기 오디오 신호의 일부 및 상기 제2 화자 모델을 이용하여 상기 제2 스코어를 생성하는 것을 포함할 수 있다.
일부 구현들에서, 상기 제1 사용자 디바이스에 의해, 상기 제1 사용자 디바이스와 공존하는 대응하는 제2 사용자 디바이스의 제2 사용자에 대해, 상기 제2 사용자에 대한 제2 화자 모델 또는 상기 제2 사용자에 의해 발언이 이루어졌을 각각의 가능성을 나타내는 제2 스코어를 획득하는 단계는 상기 제1 사용자 디바이스에 의해, 상기 제2 사용자 디바이스가 상기 제1 사용자 디바이스의 물리적 위치와 가까운 물리적 영역에 위치됨을 결정하는 것과, 상기 제1 사용자 디바이스에 의해, 상기 제1 사용자 디바이스가 상기 제1 사용자 디바이스로 하여금 상기 제2 화자 모델에 액세스하도록 하는 설정들을 가짐을 결정하는 것과, 상기 제1 사용자 디바이스에 의해, 상기 제2 화자 모델을 수신하는 것과, 그리고 상기 제1 사용자 디바이스에 의해, 상기 오디오 신호의 일부 및 상기 제2 화자 모델을 이용하여 상기 제2 스코어를 생성하는 것을 포함할 수 있다. 상기 제1 사용자 디바이스에 의해, 상기 제2 화자 모델을 수신하는 것은 상기 제1 사용자 디바이스에 의해, 상기 제1 사용자 디바이스 상에 저장된 하나 이상의 제3 화자 모델들을 식별하는 것과 그리고 상기 제1 사용자 디바이스에 의해, 상기 제3 화자 모델들의 서브세트가 상기 제2 화자 모델을 포함함을 결정하는 것을 포함할 수 있다. 방법은 상기 제1 사용자 디바이스에 의해, 상기 제1 사용자 디바이스로부터 상기 제3 화자 모델들의 서브세트에 포함되지 않은 제3 화자 모델들을 제거하는 단계를 포함할 수 있다. 상기 제1 사용자 디바이스에 의해, 상기 제2 화자 모델을 수신하는 것은 상기 제1 사용자 디바이스에 의해, 상기 제1 사용자 디바이스 내의 메모리로부터 상기 제2 화자 모델을 검색하는 것을 포함할 수 있다. 상기 제1 사용자 디바이스에 의해, 상기 제2 스코어를 생성하는 것은 상기 제1 사용자 디바이스에 의해, 다른 사용자 디바이스로부터 상기 제2 화자 모델을 요청함이 없이 상기 제1 사용자 디바이스 상에 저장된 상기 제2 화자 모델 및 상기 오디오 신호의 일부를 이용하여 상기 제2 스코어를 생성하는 것을 포함할 수 있다. 상기 제1 사용자 디바이스에 의해, 상기 제2 화자 모델을 수신하는 것은 상기 제1 사용자 디바이스에 의해, 서버로부터 상기 제2 화자 모델을 수신하는 것을 포함할 수 있다. 상기 제2 사용자 디바이스는 상기 제2 화자 모델을 포함할 수 있다. 상기 제1 사용자 디바이스에 의해, 상기 제2 화자 모델을 수신하는 것은 상기 제1 사용자 디바이스에 의해, 상기 제2 사용자 디바이스로부터 상기 제2 화자 모델을 수신하는 것을 포함할 수 있다.
일부 구현들에서, 상기 제1 사용자 디바이스에 의해, 상기 제1 사용자 디바이스의 물리적 위치와 가까운 물리적 영역에 위치된 대응하는 제2 사용자 디바이스의 제2 사용자에 대해, 상기 제2 사용자에 대한 제2 화자 모델 또는 상기 제2 사용자에 의해 발언이 이루어졌을 각각의 가능성을 나타내는 제2 스코어를 획득하는 단계는 상기 제1 사용자 디바이스에 의해, 상기 제2 사용자 디바이스가 상기 제1 사용자 디바이스의 물리적 위치와 가까운 물리적 영역에 위치됨을 결정하는 것과 그리고 상기 제1 사용자 디바이스에 의해, 상기 제2 스코어를 수신하는 것을 포함할 수 있다. 상기 제1 사용자 디바이스에 의해, 상기 제2 스코어를 수신하는 것은 상기 제1 사용자 디바이스에 의해, 상기 제2 사용자 디바이스로부터 상기 제2 스코어를 수신하는 것을 포함할 수 있다. 상기 제1 사용자 디바이스에 의해, 상기 제2 스코어를 수신하는 것은 상기 제1 사용자 디바이스에 의해, 서버로부터 상기 제2 스코어를 수신하는 것을 포함할 수 있다. 상기 방법은 상기 제1 사용자 디바이스에 의해, 상기 제2 사용자 디바이스에 대한 디바이스 식별자를 결정하는 단계와, 상기 제1 사용자 디바이스에 의해, 상기 서버에 상기 디바이스 식별자를 제공하는 단계를 포함하고, 상기 제1 사용자 디바이스는 상기 서버에 상기 식별자를 제공함에 응답하여 상기 서버로부터 상기 제2 스코어를 수신한다.
일부 구현들에서, 방법은 상기 제1 사용자 디바이스에 의해, 상기 제1 사용자 디바이스의 물리적 위치와 가까운 물리적 영역에 위치될 수 있는 다른 사람들에 대해 상기 제1 사용자 디바이스 상에 저장된 하나 이상의 제3 화자 모델들을 결정하는 단계와 그리고 상기 제1 사용자 디바이스에 의해, (i) 상기 제1 화자 모델, 상기 제2 화자 모델 및 상기 제3 화자 모델들 또는 (ii) 상기 제1 화자 모델, 상기 제2 스코어 및 상기 제3 화자 모델들을 이용하여 상기 제1 사용자에 의해 발언이 이루어짐을 결정하는 단계를 포함할 수 있다. 상기 방법은 상기 제1 사용자 디바이스에 의해, 상기 오디오 신호의 일부 및 상기 제1 화자 모델을 이용하여 상기 제1 사용자에 의해 발언이 이루어졌을 가능성을 나타내는 제1 스코어를 생성하는 단계와, 상기 제1 사용자 디바이스에 의해, 상기 제3 화자 모델들 각각에 대해, 각각의 제3 화자 모델 및 상기 오디오 신호의 일부를 이용하여 각각의 제3 스코어를 생성하는 단계와, 그리고 상기 제1 사용자 디바이스에 의해, 가장 높은 스코어를 결정하기 위해 상기 제1 스코어, 상기 제2 스코어 및 상기 제3 스코어들을 비교하는 단계를 포함할 수 있다. 방법은 상기 제1 사용자 디바이스에 의해, 제3 사용자 디바이스에 대해, 상기 제3 사용자 디바이스가 상기 제1 사용자 디바이스의 물리적 위치와 가까운 물리적 영역에 위치되는 빈도(frequency)를 결정하는 단계와, 상기 제1 사용자 디바이스에 의해, 상기 빈도가 임계 빈도를 만족하는 지를 결정하는 단계와, 그리고 상기 제1 사용자 디바이스에 의해, 상기 빈도가 상기 임계 빈도를 만족함을 결정함에 응답하여 상기 제3 화자 모델들에 상기 제3 사용자 디바이스의 제3 사용자에 대한 제3 화자 모델을 저장하는 단계를 포함할 수 있다.
방법은 상기 제1 사용자 디바이스에 의해, 제3 화자 모델을 식별하는 입력을 상기 제1 사용자로부터 수신하는 단계와 그리고 상기 제1 사용자 디바이스에 의해, 상기 사용자로부터 상기 제3 화자 모델을 식별하는 입력을 수신함에 응답하여 상기 제3 화자 모델들에 상기 제3 화자 모델을 저장하는 단계를 포함할 수 있다.
일부 구현들에서, 방법은 컴퓨터들 중 적어도 하나에 의해, 사용자 디바이스들 각각에 대해, 각각의 사용자 디바이스로부터 각각의 화자 모델을 수신하는 단계를 포함할 수 있다. 상기 방법은 컴퓨터들 중 적어도 하나에 의해, 사용자 디바이스들 각각에 대해, 각각의 식별을 이용하여 컴퓨터들 중 적어도 하나에 포함된 메모리로부터 각각의 화자 모델을 검색하는 단계를 포함할 수 있다.
일부 구현들에서, 방법은 제1 사용자 디바이스에 의해, 정규화된 제1 스코어가 임계 값을 만족함을 결정하는 단계를 포함할 수 있고, 상기 제1 사용자에 의해 발언이 이루어짐을 결정하는 것은 상기 정규화된 제1 스코어가 임계 값을 만족함을 결정함에 응답하여 이루어진다. 상기 방법은 상기 제1 사용자 디바이스에 의해, 상기 제1 스코어 및 상기 제2 스코어의 평균이 임계 값을 만족하지 못함을 결정하는 단계를 포함할 수 있고, 상기 제1 스코어 및 상기 제2 스코어의 결합을 결정하는 것은 상기 제1 스코어 및 상기 제2 스코어의 평균이 임계 값을 만족하지 못함을 결정함에 응답하여 이루어진다. 상기 방법은 제1 사용자 디바이스에 의해, 상기 제1 스코어 및 상기 제2 스코어 모두가 임계 값을 만족하지 못함을 결정하는 단계를 포함할 수 있고, 상기 제1 스코어 및 상기 제2 스코어의 결합을 결정하는 것은 상기 제1 스코어 및 상기 제2 스코어 모두가 임계 값을 만족하지 못함을 결정함에 응답하여 이루어진다. 방법은 제1 사용자 디바이스에 의해, 상기 제1 스코어가 상기 임계 값을 만족하지 못함을 결정하는 단계를 포함할 수 있고, 상기 제1 스코어 및 상기 제2 스코어의 결합을 결정하는 것은 상기 제1 스코어가 임계 값을 만족하지 못함을 결정함에 응답하여 이루어진다.
본 명세서에 기술된 본 발명은 다음의 장점들 중 하나 이상을 실현하도록 특별한 실시예들에 구현될 수 있다. 일부 구현들에서, 사칭자 화자 모델들의 이용은 사용자 디바이스의 사용자 이외의 사람에 의해 이루어진 발언들에 응답하여 이루어지는 사용자 디바이스의 동작들을 감소시킬 수 있다. 일부 구현들에서, 시스템은 사칭자 화자 모델들을 이용할 때 60 내지 80 퍼센트만큼 위정(false positive)들을 감소시킬 수 있다. 일부 구현들에서, 시스템은 서로 다른 공존하는 화자들에 대한 스코어들의 결합을 이용하여 최종 발언 스코어를 정규화시킬 수 있다.
본 명세서의 본 발명의 하나 이상의 실시예들의 세부사항은 첨부 도면들 및 하기 상세한 설명에 제시된다. 본 발명의 다른 특징들, 양상들 및 장점들이 상세한 설명, 도면들 및 특허청구범위로부터 분명해질 것이다.
도 1a 내지 1c는 하나 이상의 사용자 디바이스들 A 내지 D가 발언을 인코딩한 오디오 신호를 분석하는 환경의 예를 도시한다.
도 2는 화자 검증 시스템의 예이다.
도 3은 사용자에 의해 발언이 이루어졌는지를 결정하기 위한 프로세스의 순서도이다.
도 4는 본 명세서에 기술된 시스템들 및 방법들을 구현하기 위해 이용될 수 있는 컴퓨팅 디바이스들의 블록도이다.
다양한 도면들에서 도면 부호들 및 지정들은 유사한 요소들을 나타낸다.
도 2는 화자 검증 시스템의 예이다.
도 3은 사용자에 의해 발언이 이루어졌는지를 결정하기 위한 프로세스의 순서도이다.
도 4는 본 명세서에 기술된 시스템들 및 방법들을 구현하기 위해 이용될 수 있는 컴퓨팅 디바이스들의 블록도이다.
다양한 도면들에서 도면 부호들 및 지정들은 유사한 요소들을 나타낸다.
화자 검증 시스템들은, 일반적으로 추가의 프로세싱을 수행하고 그리고/또는 스피치 커맨드들 및 쿼리들과 같은 더 많은 사용자 입력을 수신하기 위해, 컴퓨팅 디바이스를 웨이크업 하기 위한 미리 정의된 문구를 지속적으로 청취하는 프로세스를 포함할 수 있다. 이러한 화자 검증 시스템들은 디바이스에 등록된 사용자들의 세트로부터의 그리고 알려지지 않은 비-등록된 사용자들로부터의 핫워드(hotword)의 발언을 구별할 수 있다.
등록은 사용자가 자신을 알려진 또는 알려지지 않은 다른 사용자들과 차별하기 위해 이용될 수 있는 모델을 생성하기 위해 시스템에 샘플 발언들을 제공했는지의 여부를 참조한다. 화자 검증 프로세스는 화자(또는 화자들)에 대해 생성된 모델에 대하여 소정 발언에 대해 생성된 모델을 비교하는 것과 그리고 유사성 임계에 기초하여 발언을 수락 또는 거절할지를 결정하는 것을 수반할 수 있다.
화자 검증 시스템들은 폭넓은 영역들 및 또한 폭넓은 성능 요건들 - 특히 인식 품질 및 사칭자 방지 효과에 관한 성능 요건 - 에 있어서 적용성(applicability)을 가진다. 예를 들어, 디바이스를 언락(unlock)하기 위해 이용되는 화자 검증 시스템은 더 낮은 오거부(false rejection)(등록된 사용자를 인식하지 않음)를 지지하여 오수락(false acceptance)이 완화될 수 있는 신뢰되는 환경(trusted environment)에서 시스템이 이미 언락된 디바이스에 이용될 때보다, 사칭자의 낮은 오수락을 제공하기 위한 더 높은 요건들을 가질 수 있다.
검증 시스템이 소정 발언의 수락 또는 부정의 결정을 수행하기 위해 등록된 화자(들)로부터의 제공된 정보만을 가질 때, 검증 프로세스는 알려지지 않은 가능한 사칭자들의 세트가 사실상 언바이딩된 상태(unbind)이기 때문에 도전적 (challenging)일 수 있다. 이는 결과적으로, 알려지지 않은 화자로부터의 발언이 등록된 화자에 대한 유사성 임계를 초과 - 이는 결과적으로 오수락이 됨 - 할 확률이 높아지게 한다. 이러한 과제(challenge)는 디바이스 주변의 가능한 사칭자의 이용가능성이 증가되고 끊임없이 변화하는 모바일 디바이스들에 관하여 특별한 중요성을 가진다.
화자 검증 시스템들은 이 시스템들에 더 많은 정보를 제공함으로써 개선될 수 있다. 특히, 모바일 디바이스들/플랫폼들에 이미 존재할 수 있는 일반적으로 이용가능한 API들에 의해 제공되는 공존 정보를 이용함으로써, 각각의 디바이스 상의 검증 시스템은 근처에 가능한 사칭자가 존재하는지를 검출할 수 있다. 이러한 정보는 유사성 임계를 조정하고, 또한 검증 결정을 개선하기 위해 자신의 등록된 화자 모델들을 공유하기 위해 이용될 수 있다. 일부 예들에서, 시스템들은 공존하는 화자들에 대한 스코어들의 결합을 이용하여 하나 이상의 화자 모델들에 대한 스코어를 정규화할 수 있다. 예를 들어, 사용자 디바이스는 각각의 스코어들을 생성하고, 스코어들의 결합을 결정하고 그리고 이러한 결합을 이용하여 스코어들 각각을 정규화하기 위해 상기 사용자 디바이스 상에 저장된 화자 모델들 및 다른 사용자 디바이스들로부터 수신된 화자 모델들을 이용할 수 있다.
예를 들어, 사용자 디바이스들은 배경 노이즈 때문에 발화에 대해 낮은 스코어들을 생성할 수 있는 바, 예컨대 스코어들은 배경 노이즈에 비례하여 감소될 수 있다. 동작중인 차량 또는 붐비는 레스토랑과 같은 매우 노이지한 조건들에서, 사용자 디바이스의 사용자로부터의 발언에 대한 스코어는 임계 값을 만족시키지 못하여(예컨대, 수락 임계보다 낮거나 동일하여) 잘못 거절될 가능성이 있을 수 있다. 스코어들의 정규화는 노이즈 패널티를 감소시킬 수 있다. 예를 들어, 서로 다른 화자 모델을 이용하여 각각 생성된 복수의 스코어들의 평균은 허용 임계를 만족시키지 못하는 바, 예컨대 수락 임계보다 낮거나 동일하기 때문에, 정규화는 결과적으로 사용자 디바이스의 사용자에 대한 스코어가 수락 임계를 만족시켜야 하도록(예컨대, 수락 임계보다 커지도록) 스코어들 각각이 향상되게 할 수 있다.
이러한 검증 시스템들이 가능한 사칭자의 모델들에 액세스할 수 있기 때문에, 이 시스템들은 사칭자의 발언이 수락 임계보다 높은 등록된 사용자에 대한 유사성 스코어를 가지는 경우들에서 일부 발언들을 더 양호하게 거절할(예컨대, 가수락율을 감소시킬) 수 있다. 예를 들어, 발언이, 예컨대 공존하는 사용자들로부터 생성된 "사칭자들" 세트 내의 모델들 중 하나에 대해 동일하거나 이보다 높은 스코어를 가지는 경우, 시스템은 발언이 사칭자로부터의 발언일 가능성이 높음을 가정하여 이를 거절할 수 있다. 이러한 접근법은 다양한 타입의 화자 모델들, 예컨대 i-벡터들, d-벡터들, 등등과 호환가능할 수 있다.
디바이스들이 소정 지리적 영역에 공존할 때를 결정하기 위한 복수의 방식들이 존재할 수 있다. 예를 들어, 이 정보는 GPS, NFC, 블루투스, 아음속 오디오(subsonic audio) 및/또는 다른 센서들 및 기술들 중 하나 이상으로부터 도출될 수 있다. 일부 예들에서, 공존하는 디바이스들은, 예컨대 디바이스들이 동일한 전화 또는 비디오 컨퍼런스에 참여할 때 가상적으로 관련될 수 있다. 이 예들에서, 디바이스들 또는 서버는 카렌더(calendar) 입력들, 이메일 또는 텍스트 메시지들 또는 다른 "소프트(soft)" 컨셉들을 이용하여 공존을 결정할 수 있다.
복수의 사용자들은 또한, 사용자들의 전부가 대응하는 사용자 디바이스를 가지는 것이 아니라 사용자 디바이스들의 일부가 이 사용자들에 대한 화자 모델들을 가질 때 동일한 영역에 공존할 수 있다. 예를 들어, 다섯 명의 친구들이 이들의 거실들 중 하나에 있고, 이 친구들 중 두 명이 자신의 모바일 디바이스들을 가지고 있을 때, 제1 모바일 디바이스는 모바일 디바이스들을 가지고 있지 않은 세 명의 친구들에 대한 화자 모델들을 포함할 수 있고, 제2 모바일 디바이스들은 이 친구들 중 누가 특별한 발언을 했는지를 결정하기 위해, 모바일 디바이스들을 가지고 있지 않은 세 명의 친구들에 대한 화자 모델들 및 디바이스들을 소유한 친구들에 대한 화자 모델들을 이용할 수 있다.
예시적인 구현들에서, 화자 검증 시스템은 발언을 인코딩한 오디오 신호를 수신하고, 화자 모델을 이용하여 생성된 스코어가 임계 스코어 값을 만족시키는지를 결정한다. 화자 검증 시스템이 특별한 사용자 디바이스의 특별한 사용자에 대한 단일 화자 모델만을 이용할 때, 화자 검증 시스템은 다른 사용자(예컨대, 사용자의 형제)에 의해 이루어진 발언에 대한 임계 스코어 값을 만족하는 스코어를 생성할 수 있다.
화자 검증 시스템은 이 화자 검증 시스템의 정확성을 증가시키기 위해 복수의 화자 모델들 - 예컨대, 사용자에 대한 화자 모델 및 사용자의 형제에 대한 다른 화자 모델 - 을 이용한다. 예를 들어, 화자 검증 시스템은 발언을 인코딩한 오디오 신호에 대한 두 개의 스코어들 - 사용자에 대한 스코어 및 사용자의 형제에 대한 다른 스코어 - 을 생성할 수 있다. 화자 검증 시스템은 어느 스코어가 가장 높은지를 결정하기 위해 스코어들을 비교하는 바, 이 스코어들 모두는 임계 스코어 값을 만족시킬 수 있다. 화자 검증 시스템은, 예컨대 다른 사람에 대한 화자 모델이 가장 높은 스코어를 생성하기 위해 이용될 것이기 때문에 상기 다른 사람이 발언을 할 때와 비교하여 발언을 한 특별한 사용자에 대한 화자 모델을 이용하여 가장 높은 스코어를 생성할 가능성이 가장 높다.
화자 검증 시스템이, 예컨대, 사용자에 대한 화자 모델을 이용하여 생성된 사용자에 대한 스코어가 가장 높음을 결정할 때, 특별한 사용자 디바이스는 발언에 응답하여 동작을 수행할 수 있다. 화자 검증 시스템이, 예컨대, 사용자의 형제에 대한 화자 모델을 이용하여 생성된 사용자의 형제에 대한 스코어가 가장 높음을 결정할 때, 특별한 사용자 디바이스는 어떤 동작도 취하지 않는다.
화자 검증 시스템은 어느 스코어가 가장 높은지(greatest) 그리고 특별한 사용자 디바이스가 발언에 응답하여 동작을 수행해야 하는지를 결정하기 위해 특별한 사용자 디바이스 가까이의 물리적 영역에 있는 - 예컨대 특별한 사용자 디바이스와 공존하는 - 다른 사용자들에 대한 다른 화자 모델들 또는 이 다른 사용자 디바이스들로부터 수신된 스코어들을 이용할 수 있다. 화자 검증 시스템은 특별한 디바이스 또는 다른 디바이스, 예컨대 서버 상에서 실행될 수 있다.
도 1a 내지 1c는 하나 이상의 사용자 디바이스들 A 내지 D(102a 내지 d)이 발언을 인코딩한 오디오 신호를 분석하는 환경(100)의 예를 도시한다. 사용자 디바이스들 A 내지 D(102a 내지 d)은 사용자 디바이스의 각각의 사용자에 의해 발언이 이루어졌을 가능성이 높은지를 결정하고 사용자 디바이스가 발언에 응답하여 동작을 수행해야 함을 결정하거나 또는 각각의 사용자에 의해 발언이 이루어지지 않았을 가능성이 높음을 결정하고 사용자 디바이스가 어떤 동작도 취하지 않아야함을 결정하기 위해 복수의 다른 알고리즘들 중 하나를 이용할 수 있다.
예를 들어, 네 명의 동료들이 컨퍼런스 룸에 있을 수 있고, 제1 동료, 예컨대 사용자 D는 명령어 "Okay Google, please start the demo"를 발행할 수 있다. 사용자 디바이스 A(102a)는 사용자 디바이스 A(102a)의 사용자 A에 대한 화자 모델 A(104a) 및 예컨대 사용자 A 또는 사용자 디바이스 A(102a)와 동일한 물리적 영역에 때때로 또는 종종 있는 다른 사용자들에 대한 다른 화자 모델들을 포함하는 복수의 화자 모델들을 이용하여 오디오 신호를 분석할 수 있다. 다른 화자 모델들은 짧은 시간 기간 동안 예컨대, 사용자 디바이스 A(102a)가 최근에 다른 사용자 디바이스 B 내지 D(102b 내지 d)로부터 특별한 화자 모델을 요청한 때 또는 긴 시간 기간 동안 예컨대, 다른 사용자들이 사용자 디바이스 A(102a)와 동일한 물리적 영역에 존재할 때 사용자 디바이스 A(102a)의 메모리에 저장될 수 있다.
사용자 디바이스 A(102a)는 화자 모델들 각각에 대한 스코어 및 복수의 스코어들로부터의 가장 높은 스코어를 결정한다. 사용자 디바이스 A(102a)는, 예컨대 가장 높은 스코어를 임계 스코어 값과 비교함으로써 가장 높은 스코어가 임계 스코어 값을 만족하는지를 결정하고 가장 높은 스코어가 사용자 디바이스 A(102a)의 사용자 A에 대한 스코어일 높은 가능성이 존재함을 결정할 수 있다. 가장 높은 스코어가 임계 스코어 값을 만족하지 않는 경우, 사용자 디바이스 A(102a)는 예컨대, 어떤 추가의 동작도 취하지 않을 수 있고, 사용자 디바이스(102a)가 화자 모델을 가지지 않는 사용자에 의해 발언이 이루어짐을 결정할 수 있다.
사용자 디바이스 A(102a)가 가장 높은 스코어가 사용자 디바이스 A(102a)의 사용자 A에 대한 스코어임을 결정할 때(예컨대 커맨드를 발행한 제1 동료가 사용자 A임을 결정할 때) 사용자 디바이스 A(102a)는 오디오 신호의 수신에 응답하여 동작을 수행한다. 예를 들어, 사용자 디바이스 A(102a)는 요청된 데모를 런칭할 수 있다.
사용자 디바이스 A(102a)가 가장 높은 스코어가 사용자 A에 대한 스코어가 아님을 결정하고 제1 동료가 사용자 A가 아님을 결정할 때, 사용자 디바이스 A(102a)는 오디오 신호에 관하여 어떤 추가의 동작도 취하지 않을 수 있다. 예를 들어, 사용자 디바이스 A(102a)는 제1 동료에 의해 이루어진 다른 발언을 갖는 다른 오디오 신호를 수신하고, 이 다른 발언에 응답하여 어떤 동작도 취하지 않을 수 있다.
일부 예들에서, 사용자 디바이스들 A 내지 D(102a 내지 d)이 동일하거나 호환가능한 화자 검증 시스템을 포함할 때, 사용자 디바이스들 A 내지 D(102a 내지 d) 각각은 각각의 사용자들에 관한 정보, 예컨대 화자 모델들 또는 발언을 인코딩한 오디오 신호의 분석에 관한 정보, 예컨대 스코어들을 공유할 수 있다. 예를 들어, 도 1a에 도시된 바와 같이, 제1 동료, 예컨대 사용자 D는 발언(106) "Okay Google, please start the demo"을 말할 수 있고, 사용자 디바이스들 A 내지 D(102a 내지 d) 각각 상의 마이크(microphone)는 발언을 나타내는 신호를 캡쳐하여 오디오 신호에 이 발언을 인코딩할 수 있다.
사용자 디바이스들 A 내지 D(102a 내지 d) 각각은 도 1b에 도시된 바와 같이, 사용자 디바이스의 각각의 사용자 A 내지 D가 발언(106)을 할 가능성을 나타내는 스코어를 생성하기 위해 대응하는 화자 모델들 A 내지 D(104a 내지 d)를 이용하여 각각의 오디오 신호들을 분석한다. 이 예에서, 사용자 디바이스 A(102a)는 사용자 A에 대해 0.76의 스코어를 생성하고, 사용자 디바이스 B(102b)는 사용자 B에 대해 0.23의 스코어를 생성하고, 사용자 디바이스 C(102c)는 사용자 C에 대해 0.67의 스코어를 생성하고, 사용자 디바이스 D(102d)는 사용자 D에 대해 0.85의 스코어를 생성한다.
사용자 디바이스들 A 내지 D(102a 내지 d) 각각은 다른 사용자 디바이스들과 각각의 스코어들을 공유한다. 예를 들어, 사용자 디바이스들 A 내지 D(102a 내지 d)은 각각의 사용자 디바이스와 가까운 영역에 물리적으로 위치된 다른 사용자 디바이스들을 결정하기 위해 GPS, NFC, 블루투스, 아음속 오디오 또는 어떤 다른 적절한 기술과 같은 하나 이상의 센서들을 이용할 수 있다. 사용자 디바이스들 A 내지 D(102a 내지 d)은 사용자 디바이스가 다른 사용자 디바이스와 자신의 스코어를 공유할 수 있는지를 나타내는 액세스 설정들을 결정할 수 있고, 다른 사용자 디바이스들이 예컨대 동일한 화자 검증 시스템을 이용하는지 그리고 스코어를 이용할 수 있는지 또는 이 두가지 모두를 결정할 수 있다.
사용자 디바이스들 A 내지 D(102a 내지 d) 각각은, 각각의 사용자 디바이스에 의해 생성된 스코어가 가장 높은 스코어인지를 결정하고 각각의 사용자 디바이스가 발언(106)에 응답하여 동작을 수행해야 함을 결정하기 위해 스코어들의 전부를 서로 비교한다. 예를 들어, 도 1c에 도시된 바와 같이, 사용자 디바이스 D(102d)는 사용자 디바이스 D(102d)의 사용자 D에 대한 화자 모델 D(104d)을 이용하여 생성된 스코어가 가장 높음을 결정하고, 사용자 D에 의해 발언(106)이 이루어졌을 가능성이 다른 사용자 디바이스들 A 내지 C(102a 내지 c)에 대한 다른 사용자들에 의해 발언(106)이 이루어졌을 가능성보다 높음을 결정한다. 사용자 디바이스 D(102d)는 요청된 데모(108)를 런칭하는 것과 같은 발언(106)과 대응되는 동작을 수행할 수 있다. 사용자 디바이스 D(102d)는 예컨대, 사용자 디바이스 D(102d)가 스코어를 수신하지 않은 다른 사용자가 아닌, 사용자 D에 의해 발언이 이루어졌을 높은 가능성이 존재함을 보증하기 위해 가장 높은 스코어를 임계 스코어 값과 비교할 수 있다.
유사하게, 다른 사용자 디바이스들 A 내지 C(102a 내지 c) 각각은 자신들 각각의 스코어가 가장 높지 않음을 결정하고, 각각의 다른 사용자 디바이스가 어떤 동작도 취하지 않아야 함을 결정한다. 자신 각각의 스코어가 가장 높은 스코어가 아님을 결정하기 전에, 다른 사용자 디바이스들 A 내지 C(102a 내지 c) 각각은 발언과 화자 모델들 중 하나와의 사이의 적어도 최소한의 유사성이 존재하고 다른 사용자 디바이스들 A 내지 C(102a 내지 c)이 각각의 화자 모델을 가지지 않는 다른 사용자에 의해 발언이 이루어지지 않음을 보증하기 위해, 예컨대 각각의 사용자 디바이스에 특정적인 임계 스코어 값과 가장 높은 스코어를 비교할 수 있다. 다른 사용자 디바이스들 A 내지 C(102a 내지 c)는 가장 높은 스코어가 다른 사용자 디바이스로부터 수신될 때 가장 높은 스코어와 대응되는 사용자, 사용자 디바이스 또는 둘 모두에 관한 정보를 알 수 있거나 또는 알지 못할 수 있다. 예를 들어, 사용자 디바이스들 A 내지 D(102a 내지 d) 각각은 예컨대, 사용자 또는 사용자 디바이스의 어떤 식별 정보도 없이 다른 사용자 디바이스들에 스코어들을 전송할 수 있다. 일부 예들에서, 사용자 디바이스는 스코어가 생성된 사용자에 대한 식별자와 함께 스코어를 전송할 수 있다.
도 2는 화자 검증 시스템(200)의 예시이다. 하나 이상의 사용자 디바이스들 A 내지 B(102a 내지 b) 또는 서버(204)는, 발언을 했을 가능성이 가장 높은 사용자를 결정하기 위해 발언을 인코딩한 오디오 신호, 예컨대 발언의 속성들을 나타내는 데이터를 분석할 수 있다. 사용자 디바이스들 A 내지 B(202a 내지 b), 서버(204), 이 디바이스들 중 둘 이상의 조합은 화자 모델을 이용하여 오디오 신호를 분석하고, 화자 모델들을 이용하여 결정된 오디오 신호의 다른 분석을 비교하며, 특별한 사용자가 발언을 했는지를 결정할 수 있다.
예를 들어, 사용자 디바이스들 A 내지 B(202a 내지 b) 각각은 각각의 사용자에 대한 화자 모델 A 내지 B(206a 내지 b)를 포함한다. 화자 모델들 A 내지 B(206a 내지 b)는 각각의 사용자가 등록 문구를 말하게 하고, 그 다음, 예컨대 키워드 샘플로부터 MFCC(mel-frequency cepstral coefficient) 특징들을 추출하여 향후의 비교를 위해 참조로서 이 특징들을 이용 및/또는 특별한 사용자에 의해 이루어진 발언들의 표시들을 이용하여 신경망(neural network)을 트레이닝하는 것과 같은 어떤 적절한 방법을 이용하여 특별한 사용자들에 대해 생성될 수 있다.
화자 검증 모듈 A(208a)은 사용자 A에 의해 특별한 발언이 어루어진 가능성을 결정하기 위해 사용자 디바이스 A(202a)의 사용자 A에 대한 화자 모델 A(206a)을 이용한다. 예를 들어, 화자 검증 모듈 A(208a)은 특별한 발언을 인코딩한 오디오 예컨대, 오디오 신호의 표시를 수신하고, 사용자 A에 의해 특별한 발언이 이루어졌을 가능성을 나타내는 스코어를 생성하기 위해 화자 모델 A(206a)를 이용한다.
화자 검증 모듈 A(208a)은 사칭자 화자 모델들(210a) 각각에 대해, 특별한 사칭자 화자 모델과 대응되는 각각의 사용자에 의해 특별한 발언이 이루어졌을 가능성을 나타내는 스코어를 생성하기 위해 사용자 디바이스 A(202a) 상에 저장된 하나 이상의 사칭자 화자 모델들(210a)을 이용할 수 있다. 예를 들어, 사용자 디바이스 A(202a)는 오디오 신호를 수신하고, 사용자 디바이스 B(202b)가 사용자 디바이스 A(202a)의 물리적 위치 가까이의 물리적 영역, 예컨대 동일한 방에 위치됨을 결정하고, 그리고 사용자 디바이스 B(202b)로부터 또는 서버(204)로부터 사용자 디바이스 B(202b)의 사용자들에 대한 화자 모델들(예컨대 화자 모델 B(206b))를 요청할 수 있다. 예를 들어, 사용자 디바이스 A는 예컨대, 서버(204)에 사용자 디바이스 B(202b)에 대한 디바이스 식별자 또는 사용자 B에 대한 식별자를 화자 모델 B(206b)에 대한 요청의 일부로서 전송할 수 있다. 사용자 디바이스 A(202a)는 메모리에 화자 모델 B(206b)을 사칭자 화자 모델들(210a) 중 하나로서 저장하고, 화자 검증 모듈(208a)은 사칭자 화자 모델들(210a) 각각에 대한 스코어를 생성한다.
사칭자 화자 모델들(210a)은 동일한 방, 복도 또는 인도 또는 길의 일부, 등등과 같이, 사용자 디바이스 A(202a)의 물리적 위치와 가까운 물리적 영역에 존재할 수 있는 다른 사용자들에 대한 화자 모델들을 포함할 수 있다. 사칭자 화자 모델들은 예컨대, 이력 데이터를 이용하여 결정된 바와 같이, 사용자 A 또는 사용자 디바이스 A(202a)와 동일한 물리적 영역에 빈번하게 있는 사용자들에 대한 화자 모델들을 포함할 수 있다. 예를 들어, 사용자 디바이스 A(202a)는 다른 사용자 디바이스, 예컨대 사용자 디바이스 C가 업무일(work day) 마다 약 네 시간 동안 사용자 디바이스 A(202a)와 동일한 물리적 영역에 있음을 결정하고, 이 하루(daily) 네 시간 지속 기간이 예컨대, 업무일들에 특정적인 하루 세 시간 임계 지속 기간, 평균 하루 지속 기간, 등등보다 길다는 것을 결정하고, 그리고 사용자 디바이스 C의 사용자 C에 대한 화자 모델 C가 예컨대, 사용자 A가 사칭자 화자 모델들(210a)로부터 화자 모델 C의 제거를 요청할 때까지 또는 사용자 디바이스 C에 대한 하루 지속 기간이 임계 지속 기간을 더이상 만족시키지 않을 때까지 사칭자 화자 모델들(210a)에 저장되어야 함을 결정할 수 있다. 빈도는 몇 가지 예를 들자면, 특정 값, 예컨대 하루 네시간, 또는 퍼센티지일 수 있는 바, 예컨대 사용자 디바이스 A(202)가 특별한 다른 사용자 디바이스를 검출하는 횟수(time)의 5 퍼센트 또는 사용자 디바이스 A(202a)에 의해 검출되는 다른 사용자 디바이스들의 총량의 10 퍼센트가 특별한 다른 사용자 디바이스이다.
일부 예들에서, 사용자 A는 사용자 디바이스 A(202a)가 사칭자 화자 모델들(210a)에 포함시켜야 하는 하나 이상의 화자 모델들을 식별할 수 있다. 예를 들어, 사용자 디바이스 A(202a)는 사용자 A의 가족 멤버 또는 친구에 대해 사용자 디바이스 A(202a) 상의 다른 화자 모델을 트레이닝하는 입력을 수신할 수 있다. 입력은 다른 화자 모델이 예컨대, 사칭자 화자 모델이어야 하며 사용자 디바이스 A(202a)의 사용자가 아닌, 사용자 A 이외의 사용자에 대한 화자 모델임을 나타낼 수 있다. 다른 화자 모델은, 사용자 디바이스 A(202a)가 달리 프로그램되지 않는 한, 다른 사용자에 의해 이루어진 발언에 응답하여 사용자 디바이스 A(202a)에 의해 수행되는 동작들을 감소 또는 제거하기 위해 사용자 디바이스 A(202a) 주위의 물리적 영역에 종종 존재하는 다른 사용자, 예컨대 사용자 A의 아이(child)에 대한 화자 모델일 수 있다.
예를 들어, 화자 검증 모듈(208a)이 화자 모델 A(206a)을 이용한 제1 스코어 및 사칭자 화자 모델들(210a)에 대한 각각의 제2 스코어를 생성할 때, 화자 검증 모듈(208a)은 가장 높은 스코어를 결정하기 위해 스코어들을 비교한다. 가장 높은 스코어가 화자 모델 A(206a)을 이용하여 생성될 때, 화자 검증 모듈(208a)은 사용자 A가 특별한 발언을 함을 결정하고, 사용자 디바이스 A(202a)가 적절한 동작을 취할 수 있음을 결정하는 바, 예컨대 스피치 인식 모듈(212a)은 특별한 발언에 포함된 커맨드를 식별하기 위해 특별한 발언을 분석할 수 있다.
하나의 예에서, 사칭자 화자 모델들 중 하나는 예컨대, 형제자매(sibling) 중 둘이 비슷한 목소리를 가질 때 사용자 A의 형제자매에 대한 화자 모델일 수 있다. 화자 검증 모듈(208a)은 각각의 화자 모델들을 이용하여 형제들 중 하나에 의해 이루어진 발언을 분석함으로써 사용자 A에 대해 제1 스코어를 그리고 사용자 A의 형제에 대해 제2 스코어를 생성한다. 화자 검증 모듈(208a)은 어느 스코어가 더 큰지를 결정하기 위해 두 개의 스코어들을 비교하는 바, 이들 각각은 임계 스코어보다 클 수 있으며, 예컨대 화자 모델들의 유사성 때문에 그렇지 않은 경우에도 사용자 디바이스 A(202a)에 의한 동작을 단독으로 트리거할 수 있다. 사용자 A에 대한 제1 스코어가 제2 스코어보다 클 때, 사용자 디바이스 A(202a)는 예컨대, 발언에 기초하여 동작을 수행하고, 이 동작은 부분적으로는 스피치 인식 모듈(212a)을 이용하여 결정될 수 있다. 사용자 A의 형제에 대한 제2 스코어가 제1 스코어보다 클 때, 사용자 디바이스 A(202a)는 예컨대 어떤 추가의 동작도 취하지 않고, 특별한 발언에 응답하여 동작을 수행하지 않는다.
사칭자 화자 모델들(210a) 중 일부는 하루 중의 특별한 시간 동안, 특별한 날들에, 특별한 위치들에서 또는 이들 중 둘 이상의 조합에 의해 이용될 수 있다. 예를 들어, 사용자 디바이스 A(202a)가 사용자 A의 가족 멤버의 집에 있을 때, 사용자 디바이스 A(202a)는 예컨대, 상기 가족 멤버의 집에 사는 사람들에 대한 사칭자 화자 모델들을 이용할 수 있고 이 사람들 중 한 명에 대한 공존하는 사용자 디바이스가 달리 검출되지 않는 한 이 사칭자 화자 모델들을 이용하지 않을 수 있다.
일부 예들에서, 사용자 디바이스들 A 내지 B(202a 내지 b)는 각각의 화자 모델 또는 각각의 화자 모델을 이용하여 생성된 스코어가 예컨대, NFC를 이용하여 생성된 것과 같은 무선 통신 채널(216)을 이용하여 다른 사용자 디바이스들에게 제공될 수 있는지를 결정하기 위해 메모리에 저장된 설정들(214a 내지 b)을 이용할 수 있다. 예를 들어, 사용자 디바이스 A(202a)는 특별한 발언을 수신하고, 사용자 디바이스 B(202b)가 사용자 디바이스 A(202a)와 가까운 물리적 영역에 존재함을 결정하고, 그리고 요청된 특별한 화자 모델을 알지 못한 채로 사용자 디바이스 B(202b)로부터 화자 모델, 예컨대 화자 모델 B(206b)을 요청할 수 있다. 사용자 디바이스 B(202b)는 요청을 수신하고, 화자 모델 B(206b)이 다른 디바이스 또는 특정 사용자 디바이스 A(202a)와 공유될 수 있는지를 결정하기 위해 설정들 B(214b)를 분석하고, 사용자 디바이스 B(202b)가 화자 모델 B(206b)을 공유할 수 있음을 결정함에 응답하여, 사용자 디바이스 B(202b)는 무선 통신 채널(216)을 이용하여 사용자 디바이스 A(202a)에 화자 모델 B(206b)의 카피를 전송한다.
사용자 디바이스 A(202a)는 사용자 디바이스 B(202b)의 사용자 B에 대한 화자 모델을 요청하거나 또는 예컨대, 하나보다 많은 사람이 단일 사용자 디바이스를 동작시킬 수 있는 예시들에서 사용자 디바이스 B(202b)의 모든 사용자들에 대한 화자 모델을 요청할 수 있다. 화자 모델 A(206a)은 하나보다 많은 사람이 사용자 디바이스 A(202a)를 동작시키는 예시들에서 복수의 화자 모델들을 포함할 수 있다. 이 예시들에서, 화자 검증 모듈(208a)은 사용자 디바이스 A(202a)의 사용자들 각각에 대한 스코어를 생성하고, 이 스코어들을 사칭자 화자 모델들(210a)을 이용하여 생성된 다른 스코어들과 비교하며, 그리고 가장 높은 스코어를 결정할 수 있다. 가장 높은 스코어가 사용자 디바이스 A(202a)의 사용자들 중 하나에 대한 스코어일 때, 사용자 디바이스 A(202a)는 예컨대, 스피치 인식 모듈(212a)을 이용하여 적어도 부분적으로 결정된 적절한 동작을 수행할 수 있다.
동작을 수행할지 또는 수행하지 않을지의 결정은 동작의 특별한 타입, 사용자 디바이스 A(202a)의 특정 사용자 또는 둘 모두를 이용하여 이루어질 수 있다. 예를 들어, 제1 사용자 A는 사용자 디바이스 A(202a) 상에서 어떤 어플리케이션을 런칭하기 위한 허락들을 가질 수 있고, 제2 사용자 A는 사용자 디바이스 A(202a) 상에서 교육적인 어플리케이션들만을 런칭하기 위한 허락들을 가질 수 있다.
일부 구현들에서, 화자 모델들 중 하나 이상은 사용자 디바이스들 A(202a 내지 b) 대신 또는 이에 추가적으로 서버(204) 상에 저장된다. 예를 들어, 서버(204)는 사용자 디바이스들 A 내지 B(202a 내지 b)의 사용자들 A 내지 B에 대한 화자 모델들(218)을 저장할 수 있다. 이 예시들에서, 사용자 디바이스 A(202a) 또는 다른 디바이스 B(202b)는 발언을 인코딩한 오디오 신호를 수신하고, 서버(204)에 상기 오디오 신호 또는 상기 오디오 신호의 일부, 예컨대, 상기 오디오 신호의 일부의 표시를 제공할 수 있다. 서버(204)는 사용자 디바이스, 화자 모델 또는 사용자 디바이스의 사용자의 식별자를 수신하고, 예컨대, 화자 식별자들(220)을 이용하여 화자 모델들(218) 중 어느 화자 모델이 수신된 식별자와 대응되는지를 결정한다.
일부 예들에서, 서버(204)는 오디오 신호의 일부를 분석할 때 사용자 디바이스의 화자 모델에 추가적으로 이용될 다른 화자 모델들에 대한 식별자들을 수신한다. 예를 들어, 사용자 디바이스 A(202a)가 사용자 디바이스 B(202b)가 사용자 디바이스 A(202a)의 물리적 위치와 가까운 영역에 물리적으로 위치됨을 결정할 때, 서버(204)는 화자 검증 요청과 함께 오디오 신호 및 사용자 디바이스들 A 내지 B(202a 내지 b)에 대한 식별자들을 사용자 디바이스 A(202a)로부터 수신할 수 있다.
서버(204)는 예컨대, 오디오 신호와 함께 또는 별개로 사용자 디바이스로부터 위치 정보를 수신하고, 예컨대, 다른 사용자 디바이스들에 대한 위치 정보를 이용하여 서버(204)에 오디오 신호를 제공한 사용자 디바이스의 물리적 위치와 가까운 영역에 물리적으로 위치된 다른 사용자 디바이스들을 결정하기 위해 위치 정보를 이용할 수 있다. 그 다음, 서버(204)는 결정된 다른 디바이스들에 대한 다른 화자 모델들(218)을 식별할 수 있다. 서버(204)는 서버(204) 상에서 스코어들을 생성할 때 또는 사용자 디바이스들 A 내지 B(202a 내지 b)에 화자 모델들을 제공할 때 식별된 다른 화자 모델들을 이용할 수 있다.
서버(204) 상의 화자 검증 모듈(222)은 각각의 사람이 오디오 신호에 인코딩된 특별한 발언을 했을 가능성을 각각 나타내는 각각의 스코어들을 생성하기 위해 오디오 신호를 서버(204)에 제공한 사용자 디바이스 및 결정된 다른 사용자 디바이스들로부터의 화자 모델들 모두를 이용한다. 화자 검증 모듈(222)은 서버(204)에 포함된 메모리로부터 화자 모델들을 검색할 수 있다. 화자 검증 모듈(222)은 각각의 사용자 디바이스들로부터 화자 모델들을 수신할 수 있다. 서버(204) 또는 화자 검증 모듈(222)은 가장 높은 스코어를 결정하고, 해당 사용자 디바이스의 사용자가 특별한 발언을 했을 가능성이 가장 높음을 나타내는 메시지를 각각의 사용자 디바이스에 제공한다. 서버(204)는 대응하는 다른 사용자들이 발언을 하지 않았을 가능성이 높음을 나타내는 메세지를 다른 사용자 디바이스들에 제공할 수 있다.
일부 예들에서, 특별한 사용자 디바이스는 복수의 화자 식별자들, 예컨대, 특별한 사용자 디바이스의 사용자들 각각에 대한 식별자, 특별한 사용자 디바이스와 관련된 사칭자 화자 모델들 각각에 대한 식별자 또는 둘 모두를 서버(204)에 제공할 수 있다. 특별한 사용자 디바이스는 화자 식별자들 각각에 대한 모델의 타입(예컨대, 사용자 또는 사칭자)을 나타내는 데이터를 포함할 수 있다. 화자 검증 모듈(222)은 수신된 화자 식별자들과 대응되는 화자 모델들(218) 전부를 이용하여 오디오 신호를 분석하고, 어느 화자 모델이 가장 높은 스코어를 생성하기 위해 이용되는지를 결정할 수 있다. 가장 높은 스코어가 특별한 사용자 디바이스의 사용자들 중 하나에 대한 모델을 이용하여 생성되었을 때, 서버(204)는 특별한 디바이스의 사용자가 특별한 발언을 했을 가능성이 가장 높음을 나타내는 메시지를 특별한 사용자 디바이스에 제공한다. 메시지는 가장 높은 스코어를 생성하기 위해 이용되는 특별한 화자 모델에 대한 화자 식별자를 포함할 수 있다.
일부 구현들에서, 높은 수치적 값에 비해 낮은 수치적 값은 특별한 사용자가 발언을 했을 더 높은 가능성을 나타낼 수 있다. 예를 들어, 낮은 수치적 값은 높은 수치적 값보다 높은 스코어일 수 있다.
일부 예들에서, 사용자 디바이스가 복수의 사용자들을 가질 때, 사용자 디바이스 또는 서버(204)는 사용자 디바이스의 현재 사용자에 대한 특별한 화자 모델을 결정할 수 있다. 예를 들어, 사용자 디바이스는 서버(204)에 현재 사용자에 대한 화자 식별자를 제공하고, 사용자 디바이스의 다른 사용자들에 대한 다른 화자 식별자들 모두가 서버(204) 상에 저장된 사칭자 화자 모델들에 대한 식별자임을 나타낼 수 있다. 일부 예들에서, 사용자 디바이스는 오디오 신호의 수신에 응답하여 동작을 수행할지 하지 않을지를 결정하기 위해 현재의 사용자에 대한 화자 모델을 이용하고, 사용자 디바이스의 다른 사용자들에 대한 화자 모델들을 사칭자 화자 모델들로서 이용한다. 사용자 디바이스는 사용자 디바이스를 언락하고 그리고 현재의 사용자를 결정하기 위해 패스워드, 사용자이름 또는 둘 모두를 사용하는 것과 같이, 사용자 디바이스의 현재의 사용자를 결정하기 위해 어떤 적절한 방법을 이용할 수 있다.
일부 구현들에서, 오디오 신호에 대한 스코어가 사칭자 화자 모델 또는 다른 사용자 디바이스로부터 수신된 모델을 이용하여 생성되고 그 스코어가 특별한 사용자 디바이스의 사용자에 대한 화자 모델을 이용하여 생성된 스코어보다 크거나 동일할 때, 그 특별한 사용자 디바이스는 오디오 신호의 수신에 응답하여 어떤 동작도 수행하지 않는다. 이 구현들에서, 두 개의 스코어들이 동일할 때, 어떤 사용자 디바이스도 오디오 신호의 수신에 응답하여 동작을 수행하지 않는다. 다른 구현들에서, 서로 다른 사용자 디바이스들의 두 사용자들에 대한 두 개의 스코어들이 동일하고, 둘 모두가 가장 높은 스코어일 때, 두 스코어들에 대응하는 두 사용자 디바이스들 모두는 동작을 수행할 수 있다. 단일 사용자 디바이스 상의 모델들에 대한 두 개의 스코어들이 동일한 가장 높은 스코어인 구현들에서, 사용자 디바이스는 동작을 수행할 수 있거나 또는 수행하지 않을 수 있다. 예를 들어, 두 개의 스코어들 각각이 사용자 디바이스의 다른 사용자에 대한 스코어일 때, 사용자 디바이스는 동작을 수행할 수 있다. 스코어들 중 하나가 사용자 화자 모델에 대한 스코어이고, 스코어들 중 하나가 사칭자 화자 모델에 대한 스코어일 때, 사용자 디바이스는 어떤 동작도 수행하지 않을 수 있다.
일부 구현들에서, 사용자 디바이스는 검출된 다른 사용자 디바이스들의 양에 따라 임계 값을 조정할 수 있다. 예를 들어, 임계 값은 예컨대, 오디오 신호를 수신한 후, 어떤 다른 디바이스들도 검출되지 않을 때 덜 제약적(less restrictive)이고, 다른 사용자 디바이스들이 검출될 때 더 제약적일 수 있다. 임계 값은 최대 임계값에 도달할 때까지 검출된 다른 디바이스들의 양에 기초하여 예컨대, 선형적으로 또는 지수적으로 더 제약적이게 될 수 있다. 일부 예들에서, 하나 이상의 스코어들은 예컨대, 서로 다른 유사성 모델들을 이용하여 생성되는 동일한 발언에 대한 스코어들의 결합을 이용하여 정규화될 수 있다. 결합은 평균, 합 또는 곱일 수 있다.
일부 구현들에서, 사용자 디바이스들 A 내지 B(202a 내지 b) 중 하나 이상은 각각의 사용자 디바이스와 가까운 물리적 영역에서 다른 사용자 디바이스들을 주기적으로 검출할 수 있다. 예를 들어, 사용자 디바이스 B(202b)는 다른 사용자 디바이스가 사용자 디바이스 B(202b)와 동일한 방에 있는지를 5분, 10분 또는 30분마다 결정할 수 있다. 일부 예들에서, 사용자 디바이스 B(202b)는, 사용자 디바이스 B(202b)가 미리 결정된 시간 기간 동안 실질적으로 동일한 영역에 여전히 있음(예컨대, 사용자 디바이스 B(202b)의 사용자 B가 사용자 디바이스 B(202b)를 쥐고있으되 걷지 않거나 또는 사용자 B가 하나의 방에 여전히 있음)을 결정할 시 다른 사용자 디바이스가 사용자 디바이스 B(202b)로부터 미리 정의된 거리 내에 있는지를 결정할 수 있다
사용자 디바이스들 A 내지 B(202a 내지 b)는 개인 컴퓨터들, 모바일 통신 디바이스들, 예컨대 스마트폰들 또는 태블릿들, 및 네트워크(224)를 통해 데이터를 전송 및 수신할 수 있는 다른 디바이스들, 예컨대 워치(watche)들 또는 서모스탯(thermostat)들과 같은 웨어러블 디바이스들, 텔레비전 및 네트워크 연결 가전들을 포함할 수 있다. 로컬 영역 네트워크(LAN), 광역 네트워크(WAN), 인터넷 또는 이들의 조합과 같은 네트워크(224)는 사용자 디바이스들 A 내지 B(202a 내지 b) 및 서버(204)를 연결한다.
도 3은 사용자에 의해 발언이 이루어졌는지를 결정하기 위한 프로세스(300)의 순서도이다. 예를 들어, 프로세스(300)는 화자 검증 시스템(200)으로부터 사용자 디바이스 A(202a) 또는 서버(204)에 의해 이용될 수 있다.
프로세스는 발언을 인코딩하는 오디오 신호를 수신한다(단계 302). 예를 들어, 사용자 디바이스 상의 마이크는 오디오 신호를 수신하고, 제1 사용자 디바이스 상의 화자 검증 모듈 또는 서버에 이 오디오 신호를 제공한다.
프로세스는 제1 사용자 디바이스의 제1 사용자에 대한 제1 화자 모델을 획득한다(단계 304). 예를 들어, 화자 검증 모듈은 제1 사용자 디바이스에 대해 단일의 제1 사용자가 존재함을 결정하고, 제1 사용자에 대한 제1 화자 모델을 획득한다. 일부 예들에서, 화자 검증 모듈은 제1 사용자 디바이스에 현재 로그인되거나 또는 제1 사용자 디바이스가 락된 상태에 있을 때 상기 제1 사용자 디바이스에 가장 최근에 로그인한 제1 사용자 디바이스에 대한 현재의 사용자를 결정하고, 그 사용자에 대한 제1 화자 모델을 획득한다.
일부 예들에서, 화자 검증 모듈은 제1 사용자 디바이스에 대해 복수의 사용자들이 존재함을 결정하고, 이 사용자들 중 하나에 대한 제1 화자 모델을 획득한다. 그 다음, 제1 사용자 디바이스는 다른 사용자들에 대한 프로세스(300)의 하나 이상의 단계들을 반복할 수 있다. 예를 들어, 화자 검증 모듈은 사용자들 각각에 대해 단계들(304 및 306)을 반복할 수 있다.
프로세스는 오디오 신호의 일부 및 제1 화자 모델을 이용하여 제1 사용자에 의해 발언이 이루어졌을 가능성을 나타내는 제1 스코어를 생성한다(단계 306). 예를 들어, 제1 디바이스의 화자 검증 모듈은 제1 스코어를 생성하기 위해 전체 오디오 신호 및 제1 화자 모델을 이용한다.
오디오 신호는 화자 검증 모듈이 제1 화자 모델에 대해 비교할 수 있는 발언의 변환(transformation)을 포함할 수 있다. 예를 들어, 마이크는 발언을 레코딩하고, 화자 검증 모듈이 제1 스코어를 생성하기 위해 이용하는 오디오 신호를 생성하는 특징 추출 모듈에 발언의 레코딩을 제공할 수 있다.
제1 사용자 디바이스의 복수의 사용자들이 존재하는 구현들에서, 화자 검증 모듈은 복수의 사용자들 각각에 대한 스코어들을 비교하고 가장 높은 스코어를 선택한다. 예를 들어, 제1 사용자 디바이스는 1 내지 5 개의 화자 모델들을 가질 수 있고, 이들 각각은 제1 사용자 디바이스의 각각의 사용자에 대한 화자 모델이다.
화자 검증 모듈은 예컨대, 스코어가 임계 스코어 값을 만족하는지를 결정하기 위해 스코어, 예컨대 가장 높은 스코어를 임계 스코어 값과 비교할 수 있다. 예를 들어, 화자 검증 모듈은 예컨대, 임계 스코어 값이 최소 요구 스코어일 때 가장 높은 스코어가 임계 스코어 값보다 높은지를 결정하거나 또는 임계 스코어 값이 최대 요구 스코어일 때 가장 높은 스코어가 임계 스코어 값보다 낮은지를 결정하며, 가장 높은 스코어는 제1 사용자 디바이스의 사용자들에 대해 생성된 스코어들의 가장 낮은 수치적 값을 가진다.
가장 높은 스코어가 임계 스코어 값을 만족시키는 경우, 화자 검증 모듈 또는 제1 사용자 디바이스 상의 다른 모듈은 제1 사용자 디바이스 상에서 식별되는 예컨대, 제1 사용자 디바이스 또는 서버 상에 저장되는 사칭자 화자 모델들의 각각에 대해 스코어들을 생성하고, 단계(308)를 수행하기 위해 프로세스(300)를 계속할 수 있다. 가장 높은 스코어가 임계 스코어 값을 만족하지 않는 경우, 사용자 디바이스 또는 서버는 프로세스(300)를 수행하는 것을 중지할 수 있다. 제1 사용자 디바이스 또는 서버가 프로세스(300)를 수행하는 것을 중지할 때, 제1 사용자 디바이스 또는 서버는 사용자 디바이스들로부터 다른 화자 모델들 또는 다른 스코어들을 요청하는 것을 중지할 수 있다.
제1 사용자 디바이스 상의 화자 검증 모듈 또는 서버 상의 유사한 모듈은, 제1 사용자 디바이스의 사용자에 대한 가장 높은 스코어와 동일하거나 그보다 높은 스코어가 생성될 때 - 이 때 화자 검증 모듈이 프로세스(300)를 수행하는 것을 중지함 - 까지 사칭자 화자 모델들 각각에 대한 스코어를 생성할 수 있다. 화자 검증 모듈은 사칭자 화자 모델들이 더 없음을 결정하거나 또는 제1 사용자 디바이스의 사용자에 대한 가장 높은 스코어가 예컨대, 단계들(308 및 310)을 이용하여 결정된 다른 사용자 디바이스들의 다른 사용자들에 대한 사칭자 화자 모델들에 대한 스코어들을 포함하는 사칭자 화자 모델들 모두에 대한 스코어들과 비교되었음을 결정할 때, 프로세스는 단계(312)로 진행된다.
예를 들어, 프로세스는 제1 사용자 디바이스의 물리적 위치와 가까운 물리적 영역에 위치된 하나 이상의 제2 사용자 디바이스들을 결정한다(단계 308). 상기 제1 사용자 디바이스는 NFC를 이용하여 제2 사용자 디바이스들을 결정할 수 있다. 화자 검증 모듈이 제1 스코어를 이미 결정한 예들에서, 제1 사용자 디바이스는 예컨대, 유사한 프로세스를 수행하는 다른 화자 검증 모듈들에 의한 이용을 위해 다른 사용자 디바이스들에 제1 스코어를 제공할 수 있다. 일부 예들에서, 제1 사용자 디바이스는 제1 화자 모델, 제1 사용자 디바이스의 다른 사용자들에 대한 다른 화자 모델들 또는 이 두 가지의 조합을 제2 사용자 디바이스들 중 적어도 일부에 제공할 수 있다.
일부 구현들에서, 프로세스는 제1 사용자 디바이스와 공존하되 서로 다른 물리적 위치들에 있는 제2 사용자 디바이스들을 결정할 수 있다. 예를 들어, 제1 사용자 디바이스는 특별한 제2 사용자 디바이스 및 제1 사용자가 디바이스가 동일한 전화 또는 비디오 컨퍼런스에 참여하거나 또는 이에 참여한 디바이스들에 가까이 있을 때 상기 특별한 제2 사용자 디바이스가 제1 사용자 디바이스와 공존함을 결정할 수 있다. 디바이스들은 동일한 물리적 공간(room)에 위치될 수 있거나 또는 개별적인 비디오 컨퍼런스 장비를 각기 구비한 서로 다른 공간들에 위치될 수 있다. 제1 디바이스 또는 서버는, 예컨대, 두 사용자들에 대한 카렌더 입력이 동일하고 이벤트에 참석하는 사용자들 모두를 나타낼 때, 각각의 사용자들에 대한 카렌더 입력들을 이용하여 디바이스들이 공존함을 결정할 수 있다.
프로세스는 제2 사용자 디바이스들 각각에 대한 제2 사용자에 대해, 각각의 제2 사용자에 대한 제2 화자 모델 또는 각각의 제2 사용자에 의해 발언이 이루어졌을 각각의 가능성을 나타내는 제2 스코어를 획득한다(단계 310). 예를 들어, 제2 사용자 디바이스들 상의 다른 화자 검증 모듈들은, 예컨대, 각각의 제2 화자 모델들 및 동일한 발언 또는 동일한 발언의 일부를 인코딩한 다른 오디오 신호들을 이용하여 제2 사용자 디바이스들의 사용자들 각각에 대한 각각의 제2 스코어들을 생성한다. 제1 사용자 디바이스는 제2 사용자 디바이스들로부터 제2 스코어들 각각을 수신하고, 단일 제2 사용자 디바이스로부터 단일 메시지로 또는 그러한 단일 제2 사용자 디바이스가 복수의 사용자들을 가질 때 복수의 메시지로 복수의 제2 스코어들을 수신할 수 있다.
일부 예들에서, 서버는 제2 스코어들 중 일부를 생성하고 제1 사용자 디바이스에 제2 스코어들을 제공할 수 있다. 서버는 제1 사용자 디바이스의 사용자들에 대한 제1 스코어 또는 제1 스코어들을 생성하고 제1 사용자 디바이스에 제1 스코어들을 제공할 수 있다. 서버는 스코어들의 전부를 비교하고 가장 높은 스코어를 갖는 메시지를 디바이스에 전송할 수 있다. 서버는 가장 높은 스코어와 대응되지 않는 다른 디바이스들에 메시지들을 전송할 수 있거나 또는 전송하지 않을 수 있다.
프로세스는 제1 사용자에 의해 발언이 이루어짐을 결정한다(단계 312). 예를 들어, 화자 검증 모듈은 제1 사용자 디바이스에 대한 가장 높은 스코어를 상기 사용자 디바이스 상에 저장된 사칭자 화자 모델들에 대한 스코어들, 제2 사용자 디바이스들로부터 수신된 제2 스코어들 또는 이 두가지 모두와 비교한다. 화자 검증 모듈은 예컨대, 상기 화자 검증 모듈이 다른 스코어들 중 하나가 제1 사용자 디바이스에 대한 가장 높은 스코어보다 크거나 동일함을 결정할 때 제1 사용자 디바이스에 대한 가장 높은 스코어를 다른 스코어들과 비교하는 것을 중지하고 프로세스(300)를 수행하는 것을 중지한다.
프로세스는 제1 사용자에 의해 발언이 이루어졌다는 결정에 응답하여 동작을 수행한다(단계 314). 예를 들어, 스피치 인식 모듈은 오디오 신호를 분석하고 오디오 신호에 인코딩된 발언의 텍스트 표현(text representation)을 결정한다. 제1 사용자 디바이스는 발언으로 제1 사용자에 의해 제공된 커맨드를 결정하기 위해 텍스트 표현을 이용하고 커맨드에 응답하여 동작을 수행한다.
상기에 기술된 프로세스(300)의 단계들의 순서는 단지 예시적인 것이며, 사용자에 의해 발언이 이루어졌는지를 결정하는 것은 다른 순서들로 수행될 수 있다. 예를 들어, 사용자 디바이스는 사용자 디바이스의 물리적 위치와 가까운 물리적 영역에 위치된 제2 사용자 디바이스들을 결정하는 바, 예컨대 오디오 신호를 수신, 예컨대 단계(302)를 수행하기 전에, 단계(308)를 수행할 수 있다.
일부 구현들에서, 프로세스(300)는 추가적인 단계들, 더 적은 단계들을 포함할 수 있거나 또는 이 단계들 중 일부는 복수의 단계들로 분리될 수 있다. 예를 들어, 제1 사용자 디바이스는 제2 사용자 디바이스들을 결정하고, 제2 사용자에 대한 어떤 화자 모델들이 메모리에 예컨대, 사칭자 화자 모델로서 저장되는지를 결정하고, 그리고 각각의 제2 사용자 디바이스들로부터 메모리에 저장되지 않은 제2 화자 모델들만을 요청할 수 있다. 이 예들에서, 제1 사용자 디바이스는 예컨대, 제1 사용자 디바이스의 물리적 위치와 가까운 물리적 영역에 더 이상 있지 않고 제2 사용자 디바이스들에 현재 포함되지 않는 각각의 다른 사용자 디바이스들을 소유한 다른 사용자들에 대한 어떤 사칭자 화자 모델들을 메모리로부터 제거할 수 있다.
제1 사용자 디바이스의 물리적 위치와 가까운 물리적 영역에 더 이상 있지 않은 사용자 디바이스들에 대한 사칭자 화자 모델들을 메모리로부터 제거할 때, 제1 사용자 디바이스는 제거를 위한 것으로서 플래그(flag)되지 않은 다른 사용자들에 대한 어떤 사칭자 화자 모델들을 유지할 수 있다. 예를 들어, 사칭자 화자 모델들 중 하나는 제1 사용자 디바이스의 물리적 위치와 가까운 물리적 영역에 종종 있는 제1 사용자의 친구에 대한 모델일 수 있다. 제1 사용자 디바이스는 심지어 상기 제1 사용자 디바이스가 친구에 의해 동작되는 다른 사용자 디바이스를 검출하지 않을 때에도 그 친구에 대한 사칭자 화자 모델들 중 하나를 유지할 수 있다.
본 명세서에 기술된 본 발명의 실시예들 및 기능적 동작들은 본 명세서에 개시된 구조들 및 이들의 구조적 균등물들을 포함하여, 디지털 전자 회로망으로, 유형 매체 상에 수록된 컴퓨터 소프트웨어 또는 펌웨어로 또는 하드웨어로 또는 이들 중 하나 이상의 조합들로 구현될 수 있다. 본 명세서에 개시된 본 발명의 실시예들은 데이터 프로세싱 장치에 의한 실행을 위해 또는 데이터 프로세싱 장치의 동작을 제어하기 위해 유형의 비 일시적 프로그램 캐리어 상에 인코딩된 하나 이상의 컴퓨터 프로그램들, 즉 컴퓨터 프로그램 명령어들의 하나 이상의 모듈들로서 구현될 수 있다. 대안적으로 또는 추가적으로는, 프로그램 명령어들은 데이터 프로세싱 장치에 의한 실행을 위해 적절한 수신기 장치에 전송하기 위한 정보를 인코딩하도록 생성된 인공적으로 생성된 전파 신호, 예컨대 머신-생성 전기, 광학, 또는 전자기 신호 상에 인코딩될 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 저장 디바이스, 컴퓨터 판독가능 저장 기판, 랜덤 또는 시리얼 액세스 메모리 디바이스, 또는 이들 중 하나 이상의 조합일 수 있다.
용어 "데이터 프로세싱 장치"는 데이터 프로세싱 하드웨어를 나타내며, 예컨대, 프로그래머블 프로세서, 컴퓨터 또는 복수의 프로세서들 또는 컴퓨터들을 포함하여 데이터를 프로세싱하기 위한 모든 종류의 장치, 디바이스들, 및 머신들을 포괄한다. 장치는 또한, 특수용 로직 회로망, 예컨대 FPGA 또는 ASIC일 수 있거나 또는 이를 더 포함할 수 있다. 장치는 옵션에 따라서는, 하드웨어에 추가적으로, 컴퓨터 프로그램들을 위한 실행 환경을 생성하는 코드, 예컨대, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 이들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다.
프로그램, 소프트웨어, 소프트웨어 어플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드로서도 지칭될 수 있는 컴퓨터 프로그램은 컴파일 또는 해석 언어들, 선언 또는 절차 언어들을 포함하는 프로그래밍 언어의 어떤 형태로 작성될 수 있고, 이는 단독 프로그램 또는 모듈, 컴포넌트, 서브루틴, 또는 컴퓨팅 환경에서 사용하기에 적절한 다른 유닛을 포함하여 어떤 형태로든 전개(deploy)될 수 있다. 컴퓨터 프로그램은 반드시 그러해야 하는 것은 아니지만, 파일 시스템 내의 파일에 대응할 수 있다. 프로그램은 다른 프로그램 또는 데이터를 유지하는 파일의 일부(예컨대, 마크업 언어 문서에 저장된 하나 이상의 스크립트들)에, 당해의 프로그램에 전용인 단일 파일에 또는 복수의 조직화된 파일들(예컨대, 하나 이상의 모듈들, 서브 프로그램들 또는 코드의 일부들을 저장하는 파일들)에 저장될 수 있다. 컴퓨터 프로그램은 일 컴퓨터 상에서 또는, 한 장소에 위치되거나 또는 복수의 장소들에 걸쳐 분산되어 통신 네트워크에 의해 상호연결된 복수의 컴퓨터들 상에서 실행되도록 전개될 수 있다.
본 명세서에 기술된 프로세스들 및 로직 흐름들은 입력 데이터로 동작하고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 하나 이상의 프로그램가능 컴퓨터들에 의해 수행될 수 있다. 프로세스들 및 로직 흐름들은 또한, 특수용 로직 회로망, 예컨대 FPGA 또는 ASIC에 의해 수행될 수 있고 장치는 또한, 특수용 로직 회로망, 예컨대 FPGA 또는 ASIC으로서 구현될 수 있다.
컴퓨터 프로그램의 실행에 적합한 프로세서들은 예컨대, 범용 및 특수용 마이크로프로세서들 또는 이 두가지 모두 또는 어떤 다른 종류의 중앙 프로세싱 유닛을 포함한다. 일반적으로, 중앙 프로세싱 유닛은 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 이 두가지 모두로부터 명령어들 및 데이터를 수신하게 된다. 컴퓨터의 필수 요소들은 명령어들을 수행하기 위한 중앙 프로세싱 유닛 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 또한, 데이터를 저장하기 위한 하나 이상의 매스(mass) 저장 디바이스들, 예컨대 자기, 자기 광학 디스크들, 또는 광학 디스크들을 포함하거나 또는 이들로부터 데이터를 수신하거나 또는 이들에 데이터를 전달하도록 동작적으로 결합되거나 또는 이 두가지 모두가 다 이루어지게 된다. 더욱이, 컴퓨터는 다른 디바이스, 예컨대 몇 가지 예를 들면, 모바일 전화기, PDA, 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기, 또는 포터블 저장 디바이스(예컨대, USB 플래시 드라이브)에 내장될 수 있다.
컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적절한 컴퓨터 판독가능 매체는, 예로서 반도체 메모리 디바이스들 예컨대, EPROM, EEPROM 및 플래시 메모리 디바이스들, 자기 디스크들 예컨대, 내부 하드 디스크들 또는 탈착가능한 디스크들, 자기-광학 디스크들, 및 CD-ROM 및 DVD-ROM 디스크들을 포함하여, 모든 형태의 비-휘발성 메모리, 매체 및 메모리 디바이스들을 포함한다. 프로세서 및 메모리는 특수용 로직 회로망에 의해 보충되거나 또는 이에 통합될 수 있다.
사용자와의 인터랙션(interaction)을 제공하기 위해, 본 명세서에 기술된 본 발명의 실시예들은, 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스, 예컨대 CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터 및 사용자가 컴퓨터에 입력을 제공할 수 있게 하는 키보드 및 포인팅 디바이스 예컨대, 마우스 또는 트랙볼을 가지는 컴퓨터로 구현될 수 있다. 다른 종류의 디바이스들이 마찬가지로 사용자와의 인터랙션을 제공하기 위해 사용될 수 있는 바, 예를 들어, 사용자에게 제공되는 피드백은 감각적인(sensory) 피드백의 어떤 형태, 예컨대 시각적 피드백, 청각적 피드백 또는 촉각적 피드백일 수 있고, 사용자로부터의 입력은 음향, 스피치 또는 촉각 입력을 포함하는 어떤 형태로 수신될 수 있다. 추가적으로, 컴퓨터는 사용자에 의해 이용되는 디바이스에 문서들을 전송하고 이 디바이스로부터 문서들을 수신함으로써(예컨대, 웹 브라우져로부터 수신된 요청들에 응답하여 사용자의 디바이스 상의 웹 브라우져에 웹 페이지들을 전송함으로써) 사용자와 인터랙션할 수 있다.
본 명세서에 기술된 본 발명의 실시예들은, 예컨대, 데이터 서버로서 백-엔드 컴포넌트들을 포함하거나 또는 미들웨어 컴포넌트 예컨대, 어플리케이션 서버를 포함하거나 또는 프런트-엔드 컴포넌트 예컨대, 사용자가 본 명세서에 기술된 본 발명의 구현물과 인터랙션할 수 있는 그래픽 사용자 인터페이스 또는 웹 브라우져를 가지는 클라이언트 컴퓨터를 포함하는 컴퓨팅 시스템, 또는 하나 이상의 이러한 백-엔드, 미들웨어 또는 프런트-엔드 컴포넌트들의 어떤 조합으로 구현될 수 있다. 시스템의 컴포넌트들은 디지털 데이터 통신, 예컨대 통신 네트워크의 어떤 형태 또는 매체에 의해 상호연결될 수 있다. 통신 네트워크들의 예들은 로컬 영역 네트워크("LAN") 및 광역 네트워크("WAN"), 예컨대 인터넷을 포함한다.
컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로로부터 원격이며, 전형적으로 통신 네트워크를 통해 인터랙션한다. 클라이언트와 서버의 관계는 각각의 컴퓨터들 상에서 실행되고 서로에 대해 클라이언트-서버 관계를 가지는 컴퓨터 프로그램들에 의해 발생된다. 일부 실시예들에서, 서버는 (예컨대, 클라언트로서 역할을 하는 사용자 디바이스와 인터랙션하는 사용자에게 데이터를 디스플레이 및 사용자로부터 사용자 입력을 수신하기 위해) 사용자 디바이스에 데이터(예컨대, HTML 페이지)를 전송한다. 사용자 디바이스에서 생성되는 데이터(예컨대, 사용자 인터랙션의 결과)는 사용자 디바이스로부터 서버에서 수신될 수 있다.
도 4는 클라이언트로서 또는 서버 또는 복수의 서버들로서 본 명세서에서 기술되는 시스템들 및 방법들을 구현하기 위해 이용될 수 있는 컴퓨팅 디바이스들(400, 450)의 블록도이다. 컴퓨팅 디바이스(400)는 랩탑들, 데스크탑들, 워크스테이션들, PDA들, 서버들, 블레이드 서버들, 메인프레임들 및 다른 적절한 컴퓨터들과 같은 디지털 컴퓨터들의 다양한 형태들을 나타내도록 의도된다. 컴퓨팅 디바이스(450)는 PDA들, 셀룰러 전화기들, 스마트폰들, 스마트-워치들, 해드 워어링 디바이스(head-worn device)들 및 다른 유사한 컴퓨팅 디바이스들과 같은 모바일 디바이스들의 다양한 형태들을 나타내도록 의도된다. 여기서 보여지는 컴포넌트들, 이들의 연결들 및 관계들, 및 이들의 기능들은 단지 예시적인 것을 의미하며, 본 출원에서 설명 및/또는 청구되는 본 발명들의 구현들을 제한하는 것을 의미하지 않는다.
컴퓨팅 디바이스(400)는 프로세서(402), 메모리(404), 저장 디바이스(407), 메모리(404) 및 고속 확장 포트(410)에 연결된 고속 인터페이스(408), 그리고 저속 버스(414) 및 저장 디바이스(407)에 연결된 저속 인터페이스(412)를 포함한다. 컴포넌트들(402, 404, 407, 408, 410, 및 412)의 각각은 다양한 버스들을 이용하여 상호연결되고, 공통 마더보드 상에 또는 다른 방식들로 적절하게 고정(mount)될 수 있다. 프로세서(402)는 고속 인터페이스(408)에 결합된 디스플레이(416)와 같은 외부 입/출력 디바이스 상의 GUI에 대한 그래픽 정보를 디스플레이하기 위해 메모리(404)에 또는 저장 디바이스(406) 상에 저장된 명령어들을 포함하여, 컴퓨팅 디바이스(400) 내에서의 실행을 위한 명령어들을 프로세스할 수 있다. 다른 구현들에서, 복수의 프로세서들 및/또는 복수의 버스들이 복수의 메모리들 및 메모리 타입들과 함께 적절하게 사용될 수 있다. 또한, 복수의 컴퓨팅 디바이스들(400)이 연결되며, 각각의 디바이스는 (예컨대, 서버 뱅크, 블레이드 서버들의 그룹 또는 다중-프로세서 시스템으로서) 필수 동작들의 부분들을 제공한다.
메모리(404)는 컴퓨팅 디바이스(400) 내에 정보를 저장한다. 일 구현에서, 메모리(404)는 컴퓨터 판독가능 매체이다. 상기 컴퓨터 판독가능 매체는 전파신호가 아니다. 일 구현에서, 메모리(404)는 휘발성 메모리 유닛 또는 유닛들이다. 다른 구현에서, 메모리(404)는 비휘발성 메모리 유닛 또는 유닛들이다.
저장 디바이스(406)는 컴퓨팅 디바이스(400)에 대한 매스 저장을 제공할 수 있다. 일 구현에서, 저장 디바이스(406)는 컴퓨터 판독가능 매체이다. 다양한 서로 다른 구현들에서, 저장 디바이스(406)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광학 디스크 디바이스 또는 테이프 디바이스, 플래시 메모리 또는 다른 유사한 고체 상태 메모리 디바이스 또는, 저장 영역 네트워크 또는 다른 구성들 내의 디바이스들을 포함하는 디바이스들의 어레이일 수 있다. 일 구현에서, 컴퓨터 프로그램 물은 정보 캐리어에 유형으로 수록된다. 컴퓨터 프로그램 물은 명령어들을 포함하며, 상기 명령어들은 실행될 때 상기 기술된 방법들과 같은 하나 이상의 방법들을 수행한다. 정보 캐리어는 메모리(704), 저장 디바이스(706) 또는 프로세서(702) 상의 메모리와 같은 컴퓨터 또는 머신 판독가능 매체이다.
고속 제어기(408)는 컴퓨팅 디바이스(400)에 대한 대역폭 집약적 동작들을 관리하며, 저속 제어기(412)는 적은 대역폭 집약적 동작(lower bandwidth-intensive operation)들을 관리한다. 이러한 의무(duty)들의 할당은 단지 예시적일 뿐이다. 일 구현에서, 고속 제어기(408)는 메모리(404), (예컨대, 그래픽 프로세서 또는 가속도계를 통해) 디스플레이(416)에 결합되고 다양한 확장 카드들(미도시)을 받아들일 수 있는 고속 확장 포트들(410)에 결합된다. 상기 구현에서, 저속 제어기(412)는 저장 디바이스(406) 및 저속 확장 포트(414)에 결합된다. 다양한 통신 포트들(예컨대, USB, 블루투스, 이더넷, 무선 이더넷)을 포함하는 저속 확장 포트는 키보드, 포인팅 디바이스, 스캐너와 같은 하나 이상의 입력/출력 디바이스들에 또는, 예컨대 네트워크 어댑터를 통해 스위치 또는 라우터와 같은 네트워킹 디바이스에 결합될 수 있다.
컴퓨팅 디바이스(400)는 도면에 도시된 바와 같이 다수의 서로 다른 형태들로 구현될 수 있다. 예를 들어, 이는 표준 서버(420)로서 또는 이러한 서버들의 그룹에 복수번 구현될 수 있다. 이는 또한, 랙(rack) 서버 시스템(424)의 일부로서 구현될 수 있다. 추가적으로, 이는 랩탑 컴퓨터(422)와 같은 개인용 컴퓨터로 구현될 수 있다. 대안적으로는, 컴퓨팅 디바이스(400)로부터의 컴포넌트들은 디바이스(450)와 같은 모바일 디바이스(미도시) 내의 다른 컴포넌트들과 결합될 수 있다. 이러한 디바이스들 각각은 컴퓨팅 디바이스(400, 450) 중 하나 이상을 포함할 수 있고, 전체 시스템은 서로와 통신하는 복수의 컴퓨팅 디바이스들(400, 450)로 구성될 수 있다.
컴퓨팅 디바이스(450)는 다른 컴포넌트들 중에서도 특히, 프로세서(452), 메모리(464), 디스플레이(454)와 같은 입력/출력 디바이스, 통신 인터페이스(466) 및 송수신기(468)를 포함한다. 디바이스(450)에는 또한, 추가적인 저장을 제공하기 위해 마이크로-드라이브 또는 다른 디바이스와 같은 저장 디바이스가 제공될 수 있다. 컴포넌트들(450, 452, 464, 454, 466, 및 468) 각각은 다양한 버스들을 이용하여 상호연결되고, 여러 컴포넌트들은 공통 마더보드 상에 또는 다른 방식들로 적절하게 고정될 수 있다.
프로세서(452)는 메모리(464)에 저장된 명령어들을 포함하여, 컴퓨팅 디바이스(450) 내에서 실행하기 위한 명령어들을 프로세스할 수 있다. 프로세서는 또한, 별개의 아날로그 및 디지털 프로세서들을 포함할 수 있다. 프로세서는 예컨대, 사용자 인터페이스들, 디바이스(450)에 의해 실행되는 어플리케이션 및 디바이스(450)에 의한 무선 통신의 제어와 같이, 디바이스(450)의 다른 컴포넌트들의 조직화(coordination)를 제공할 수 있다.
프로세서(452)는 디스플레이(454)에 결합된 제어 인터페이스(458) 및 디스플레이 인터페이스(456)를 통해 사용자와 통신할 수 있다. 디스플레이(454)는 예컨대, TFT LCD 디스플레이 또는 OLED 디스플레이 또는 다른 적절한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(456)는 사용자에게 그래픽 및 다른 정보를 제시하기 위해 디스플레이(454)를 구동하기 위한 적절한 회로망을 포함할 수 있다. 제어 인터페이스(458)는 사용자로부터 커맨드들을 수신하고 이들을 프로세서(452)에 제출하기 위해 변환할 수 있다. 추가적으로, 외부 인터페이스(462)가 다른 디바이스들과의 디바이스(450)의 NFC를 가능하게 하도록 프로세서(452)와의 통신에 제공될 수 있다. 외부 인터페이스(462)는 예컨대, (예컨대, 도킹 절차를 통해) 유선 통신을 또는 (예컨대, 블루투스 또는 다른 이러한 기술들을 통해) 무선 통신을 제공할 수 있다.
메모리(464)는 컴퓨팅 디바이스(450) 내에 정보를 저장한다. 일 구현에서, 메모리(464)는 컴퓨터 판독가능 매체이다. 일 구현에서, 메모리(464)는 휘발성 메모리 유닛 또는 유닛들이다. 다른 구현에서, 메모리(464)는 비휘발성 메모리 유닛 또는 유닛들이다. 확장 메모리(474)가 또한, 제공되며, 예컨대, SIMM 카드 인터페이스를 포함할 수 있는 확장 인터페이스(472)를 통해 디바이스(450)에 연결될 수 있다. 이러한 확장 메모리(474)는 디바이스(450)에 대한 추가적인(extra) 저장 공간을 제공할 수 있거나 또는 디바이스(450)에 대한 어플리케이션들 또는 다른 정보를 또한 저장할 수 있다. 특히, 확장 메모리(474)는 상기에 기술된 프로세스들을 수행 또는 보충하기 위한 명령어들을 포함할 수 있고, 보안 정보 또한 포함할 수 있다. 따라서, 예컨대, 확장 메모리(474)는 디바이스(450)에 대한 보안 모듈로서 제공될 수 있고, 디바이스(450)의 보안 사용을 허가하는 명령어들로 프로그래밍될 수 있다. 추가적으로, 보안 어플리케이션들이, 해킹불가능한 방식으로 SIMM 카드 상에 식별 정보를 배치하는 것과 같이, 추가적인 정보와 함께 SIMM 카드를 통해 제공될 수 있다.
메모리는 하기에 논의되는 바와 같이 예컨대, 플래시 메모리 및/또는 MRAM 메모리를 포함할 수 있다. 일 구현에서, 컴퓨터 프로그램 물은 정보 캐리어에 유형으로 수록된다. 컴퓨터 프로그램 물은 명령어들을 포함하며, 상기 명령어들은 실행될 때 상기 기술된 방법들과 같은 하나 이상의 방법들을 수행한다. 정보 캐리어는 메모리(464), 확장 메모리(474) 또는 프로세서(452) 상의 메모리와 같은 컴퓨터 또는 머신 판독가능 매체이다.
디바이스(450)는 필요한 경우 디지털 신호 프로세싱 회로망을 포함할 수 있는 통신 인터페이스(466)를 통해 무선으로 통신할 수 있다. 통신 인터페이스(466)는 다른 것들 중에서도 특히, GSM 음성 호출들, SMS, EMS 또는 MMS 메시징, CDMA, TDMA, PDC, WCDMA, CDMA2000 또는 GPRS와 같은 다양한 모드들 또는 프로토콜들 하의 통신들을 제공할 수 있다. 이러한 통신은 예컨대, 무선 주파수 송수신기(468)를 통해 발생될 수 있다. 추가적으로, 단거리 통신은 예컨대, 블루투스, 와이파이 또는 다른 이러한 송수신기(미도시)를 이용하여 발생될 수 있다. 추가적으로, GPS 수신기 모듈(470)은 디바이스(450) 상에서 실행되는 어플리케이션들에 의해 적절하게 사용될 수 있는 추가적인 무선 데이터를 디바이스(450)에 제공할 수 있다.
디바이스(450)는 또한, 사용자로부터 발화 정보를 수신하고 이를 이용가능한 디지털 정보로 변환할 수 있는 오디오 코덱(460)을 이용하여 들을 수 있게(audibly) 통신할 수 있다. 마찬가지로, 오디오 코덱(460)은 예컨대 디바이스(450)의 해드셋에서 가령, 스피커를 통해, 사용자로부터 가청 사운드를 생성할 수 있다. 이러한 사운드는 음성 전화 호출들로부터의 사운드를 포함할 수 있고, 레코딩된 사운드(예컨대, 음성 메시지들, 음악 파일들, 등)를 포함할 수 있고, 그리고 또한, 디바이스(450) 상에서 동작하는 어플리케이션들에 의해 생성되는 사운드를 포함할 수 있다.
컴퓨팅 디바이스(450)는 도면에 도시된 바와 같이 다수의 서로 다른 형태들로 구현될 수 있다. 예를 들어, 이는 셀룰러 전화기(480)로서 구현될 수 있다. 이는 또한, 스마트폰(482), 개인용 디지털 단말기(PDA) 또는 다른 유사한 모바일 디바이스의 일부로서 구현될 수 있다.
본 명세서가 많은 특정한 구현 세부사항들을 포함하지만, 이들은 청구될 수 있는 것의 범위을 제한하는 것으로 해석되어서는 안되며, 오히려 특별한 실시예들에 특정적인 특징들의 설명으로서 해석되어야 한다. 개별적인 실시예들의 맥락에서 본 명세서에 기술된 특정한 특징들은 또한, 단일 실시예로 결합하여 구현될 수 있다. 반대로, 단일 실시예의 맥락에서 기술된 다양한 특징들은 또한, 복수의 실시예들에서 개별적으로 또는 어떤 적절한 서브조합으로 구현될 수 있다. 더욱이, 비록 특징들이 특정한 조합들에서 역할하는 것으로 상기에 기술될 수 있고 심지어는 초기에 그러하게 청구될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우들에서, 상기 조합으로부터 삭제될 수 있으며, 청구된 조합은 서브조합 또는 서브조합의 변형으로 유도될 수 있다.
유사하게, 동작들이 도면들에서 특별한 순서로 도시되지만, 이는 바람직한 결과들을 달성하기 위해, 이러한 동작들이 도시된 특별한 순서 또는 순차적인 순서로 수행되어야 하거나 또는 모든 예시된 동작들이 수행되어야 함을 요하는 것으로 해석되어서는 안된다. 특정한 상황들에서, 멀티태스킹 및 병렬 프로세싱이 장점적일 수 있다. 더욱이, 상기 기술된 실시예들에서의 다양한 시스템 모듈들 및 컴포넌트들의 분리가 모든 구현들에서 그러한 분리를 요하는 것으로서 해석되어서는 안되며, 기술된 프로그램 컴포넌트들 및 시스템들은 일반적으로, 단일 소프트웨어 물에 함께 통합되거나 또는 복수의 소프트웨어 물들 내로 패키징될 수 있음이 이해되어야만 한다.
본 명세서에 논의된 시스템들이 사용자들에 관한 개인 정보룰 수집할 수 있거나 개인 정보를 이용할 수 있는 상황들에서, 사용자들은 프로그램들 또는 특징들이 사용자 정보(예컨대, 화자 모델, 사용자의 선호도들 또는 사용자의 현재 위치)를 수집할지의 여부를 제어하기 위한 기회 또는 컨텐츠 서버로부터 컨텐츠를 수신할지의 여부 또는 수신하는 법을 제어할 기회를 제공받을 수 있다. 추가적으로, 특정 데이터는 이 데이터가 저장되거나 사용되기 전에 개인적으로 실별가능한 정보가 제거되도록 하나 이상의 방식들로 처리될 수 있다. 예를 들어, 사용자에 대한 어떤 개인적으로 식별가능한 정보도 결정될 수 없도록 사용자의 신원이 처리될 수 있거나 또는 위치 정보가 획득되는 사용자의 지리적 위치가 (예컨대, 시, 우편번호, 또는 주(state) 레벨로) 일반화될 수 있어서 사용자의 특별한 위치가 결정될 수 없게 된다. 따라서, 사용자는 사용자에 관한 정보가 어떻게 수집되고 컨텐츠 서버에 의해 사용되는지에 관한 제어권을 가질 수 있다.
본 발명의 특별한 실시예들이 기술되었다. 다른 실시예들이 다음의 특허 청구 범위 내에 있다. 예를 들어, 특허 청구 범위에 기재된 동작들은 상이한 순서로 수행될 수 있으며 여전히 바람직한 결과들을 달성할 수 있다. 일례로서, 첨부 도면들에 도시된 프로세스들은 바람직한 결과들을 달성하기 위해 반드시, 도시된 특별한 순서 또는 순차적인 순서를 요하지 않는다. 일부 경우들에서, 멀티태스킹 및 병렬 프로세싱이 장점적일 수 있다. 예를 들어, 유사성 스코어 컴퓨테이션을 수행하는 모듈, 예컨대 화자 검증 모듈의 일부는 하드웨어로(예컨대, 디지털 신호 프로세싱(DSP) 유닛 상에 직접적으로) 구현될 수 있다.
Claims (20)
- 컴퓨터로 구현되는 방법으로서,
특정한 미리 정의된 핫워드(hotword)의 수신 시, 락된 상태(locked state)에 있는 동안 음성 커맨드들에 응답하도록 구성된 제1 컴퓨팅 디바이스에 의해, 상기 제1 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스들에 화자 검증 데이터(speaker verification data)를 제공하는 것이 허용됨을 나타내는 설정에 대한 값을 획득하는 단계와;
상기 제1 컴퓨팅 디바이스에 의해, 상기 특정한 미리 정의된 핫워드 다음에 오는 음성 커맨드의 발언에 대응하는 오디오 데이터를 수신하는 단계 - 상기 오디오 데이터는 상기 제1 컴퓨팅 디바이스가 락된 상태에 있고 제2 컴퓨팅 디바이스와 공존(co-located)하는 동안 수신되며, 상기 제2 컴퓨팅 디바이스 역시 상기 특정한 미리 정의된 핫워드 다음에 오는 음성 커맨드들에 응답하도록 구성됨 - 와;
상기 제1 컴퓨팅 디바이스가 락된 상태에 있는 동안 그리고 상기 제1 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스들과 화자 검증 데이터를 공유하는 것이 허용됨을 나타내는 설정에 대한 획득된 값에 기초하여, 상기 제1 컴퓨팅 디바이스에 의해, (i) 상기 제1 컴퓨팅 디바이스와 공존하고 그리고 (ii) 상기 특정한 미리 정의된 핫워드 다음에 오는 음성 커맨드들에 응답하도록 구성된 상기 제2 컴퓨팅 디바이스에 메시지를 전송하는 단계와; 그리고
상기 제1 컴퓨팅 디바이스에 의해, 상기 특정한 미리 정의된 핫워드 다음에 오는 상기 음성 커맨드의 발언에 대응하는 상기 오디오 데이터를 수신함에도 불구하고, 락된 상태로 유지되어 상기 음성 커맨드에 응답하지 않을지를 결정하는 단계를 포함하는 것을 특징으로 하는 방법. - 제1항에 있어서,
상기 제2 컴퓨팅 디바이스에 상기 메시지를 전송하는 단계는 상기 제1 컴퓨팅 디바이스에 의해, 상기 제1 컴퓨팅 디바이스의 사용자에 대한 화자 검증 모델을 포함하는 메시지를 상기 제2 컴퓨팅 디바이스에 전송하는 것을 포함하는 것을 특징으로 하는 방법. - 제1항에 있어서,
상기 제2 컴퓨팅 디바이스에 상기 메시지를 전송하는 단계는 상기 제1 컴퓨팅 디바이스에 의해, 상기 제1 컴퓨팅 디바이스의 사용자가 발언을 했을 가능성을 나타내는 화자 검증 스코어를 포함하는 메시지를 상기 제2 컴퓨팅 디바이스에 전송하는 것을 포함하는 것을 특징으로 하는 방법. - 제1항에 있어서,
상기 제2 컴퓨팅 디바이스에 상기 메시지를 전송하는 단계는 상기 발언에 대응하는 상기 오디오 신호를 수신함에 응답하여 수행되는 것을 특징으로 하는 방법. - 제1항에 있어서,
상기 제2 컴퓨팅 디바이스에 상기 메시지를 전송하는 단계는 상기 제1 컴퓨팅 디바이스에 의해, 단거리 통신 프로토콜(short-range communication protocol)을 이용하여 상기 제2 컴퓨팅 디바이스에 상기 메시지를 전송하는 것을 포함하는 것을 특징으로 하는 방법. - 제1항에 있어서,
상기 제1 컴퓨팅 디바이스에 의해, 상기 제2 컴퓨팅 디바이스가 상기 제1 컴퓨팅 디바이스와 공존함을 결정하는 단계를 포함하고, 상기 제2 컴퓨팅 디바이스에 상기 메시지를 전송하는 단계는 상기 제2 컴퓨팅 디바이스가 상기 제1 컴퓨팅 디바이스와 공존함을 결정함에 응답하여 수행되는 것을 특징으로 하는 방법. - 제1항에 있어서,
상기 제1 컴퓨팅 디바이스에 의해, 상기 제2 컴퓨팅 디바이스로부터 상기 제2 컴퓨팅 디바이스의 사용자를 나타내는 데이터를 수신하는 단계를 포함하고, 상기 락된 상태로 유지되어 상기 음성 커맨드에 응답하지 않을지를 결정하는 단계는 상기 제1 컴퓨팅 디바이스에 의해, 상기 제2 컴퓨팅 디바이스의 사용자를 나타내는 데이터를 이용하여, 상기 특정한 미리 정의된 핫워드 다음에 오는 상기 음성 커맨드의 발언에 대응하는 상기 오디오 데이터를 수신함에도 불구하고, 락된 상태로 유지되어 상기 음성 커맨드에 응답하지 않을지를 결정하는 것을 포함하는 것을 특징으로 하는 방법. - 제7항에 있어서,
상기 제2 컴퓨팅 디바이스의 사용자를 나타내는 데이터를 수신하는 단계는 상기 제1 컴퓨팅 디바이스에 의해, 상기 제2 컴퓨팅 디바이스로부터 상기 제2 컴퓨팅 디바이스의 사용자에 대한 화자 검증 모델을 수신하는 것을 포함하는 것을 특징으로 하는 방법. - 제7항에 있어서,
상기 제2 컴퓨팅 디바이스의 사용자를 나타내는 데이터를 수신하는 단계는 상기 제1 컴퓨팅 디바이스에 의해, 상기 제2 컴퓨팅 디바이스로부터 상기 제2 컴퓨팅 디바이스의 사용자가 발언을 했을 가능성을 나타내는 화자 검증 스코어를 수신하는 것을 포함하는 것을 특징으로 하는 방법. - 제1항에 있어서,
상기 제1 컴퓨팅 디바이스에 의해, 상기 제1 컴퓨팅 디바이스의 사용자에 대한 화자 검증 모델을 이용하여, 상기 제1 컴퓨팅 디바이스의 사용자가 발언을 했을 가능성을 나타내는 화자 검증 스코어를 생성하는 단계를 포함하며, 상기 락된 상태로 유지되어 상기 음성 커맨드에 응답하지 않을지를 결정하는 단계는 상기 제1 컴퓨팅 디바이스에 의해, 상기 제1 컴퓨팅 디바이스의 사용자가 발언을 했을 가능성을 나타내는 상기 화자 검증 스코어를 이용하여, 상기 특정한 미리 정의된 핫워드 다음에 오는 상기 음성 커맨드의 발언에 대응하는 상기 오디오 데이터를 수신함에도 불구하고, 락된 상태로 유지되어 상기 음성 커맨드에 응답하지 않을지를 결정하는 것을 포함하는 것을 특징으로 하는 방법. - 제1항에 있어서,
제1 컴퓨팅 디바이스에 의해, 상기 제1 컴퓨팅 디바이스의 사용자가 아닌 사람에 대해 상기 제1 컴퓨팅 디바이스 상에 각각 저장된 하나 이상의 화자 모델들을 결정하는 단계를 포함하고, 상기 락된 상태로 유지되어 상기 음성 커맨드에 응답하지 않을지를 결정하는 단계는 상기 제1 컴퓨팅 디바이스에 의해, 상기 제1 컴퓨팅 디바이스의 사용자가 아닌 사람에 대해 상기 제1 컴퓨팅 디바이스 상에 각각 저장된 하나 이상의 화자 모델들을 이용하여, 상기 특정한 미리 정의된 핫워드 다음에 오는 상기 음성 커맨드의 발언에 대응하는 상기 오디오 데이터를 수신함에도 불구하고, 락된 상태로 유지되어 상기 음성 커맨드에 응답하지 않을지를 결정하는 것을 포함하는 것을 특징으로 하는 방법. - 제11항에 있어서,
상기 제1 컴퓨팅 디바이스에 의해, 상기 제1 컴퓨팅 디바이스의 사용자가 아닌 사람에 대해 상기 제1 컴퓨팅 디바이스 상에 각각 저장된 하나 이상의 화자 모델들에 대한 데이터를 식별하는 사용자 입력을 획득하는 단계를 포함하는 것을 특징으로 하는 방법. - 제11항에 있어서,
상기 제1 컴퓨팅 디바이스에 의해, 제3 컴퓨팅 디바이스에 대해 상기 제3 컴퓨팅 디바이스가 상기 제1 컴퓨팅 디바이스의 물리적 위치에 근접한 물리적 영역에 위치되는 빈도를 결정하는 단계와;
제1 컴퓨팅 디바이스에 의해, 상기 빈도가 임계 빈도를 만족하는지를 결정하는 단계와; 그리고
제1 컴퓨팅 디바이스에 의해, 상기 빈도가 임계 빈도를 만족함을 결정함에 응답하여 상기 제3 컴퓨팅 디바이스의 특정한 사용자에 특정적인 특정한 화자 모델을 상기 제1 컴퓨팅 디바이스와 관련시키는 단계를 포함하는 것을 특징으로 하는 방법. - 시스템으로서,
특정한 미리 정의된 핫워드의 수신 시, 락된 상태에 있는 동안 음성 커맨드들에 응답하도록 구성된 제1 컴퓨팅 디바이스와; 그리고
명령어들이 저장된 하나 이상의 저장 디바이스를 포함하고, 상기 명령어들은 상기 제1 컴퓨팅 디바이스에 의해 실행될 때, 상기 제1 컴퓨팅 디바이스로 하여금 동작들을 수행하도록 하고, 상기 동작들은:
상기 제1 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스들에 화자 검증 데이터를 제공하는 것이 허용됨을 나타내는 설정에 대한 값을 획득하는 동작과;
상기 특정한 미리 정의된 핫워드 다음에 오는 음성 커맨드의 발언에 대응하는 오디오 데이터를 수신하는 동작 - 상기 오디오 데이터는 상기 제1 컴퓨팅 디바이스가 락된 상태에 있고 제2 컴퓨팅 디바이스와 공존하는 동안 수신되며, 상기 제2 컴퓨팅 디바이스 역시 상기 특정한 미리 정의된 핫워드 다음에 오는 음성 커맨드들에 응답하도록 구성됨 - 과;
상기 제1 컴퓨팅 디바이스가 락된 상태에 있는 동안 그리고 상기 제1 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스들과 화자 검증 데이터를 공유하는 것이 허용됨을 나타내는 설정에 대한 획득된 값에 기초하여, (i) 상기 제1 컴퓨팅 디바이스와 공존하고 그리고 (ii) 상기 특정한 미리 정의된 핫워드 다음에 오는 음성 커맨드들에 응답하도록 구성된 상기 제2 컴퓨팅 디바이스에 메시지를 전송하는 동작과; 그리고
상기 특정한 미리 정의된 핫워드 다음에 오는 상기 음성 커맨드의 발언에 대응하는 상기 오디오 데이터를 수신함에도 불구하고, 락된 상태로 유지되어 상기 음성 커맨드에 응답하지 않을지를 결정하는 동작을 포함하는 것을 특징으로 하는 시스템. - 제14항에 있어서,
상기 제2 컴퓨팅 디바이스에 상기 메시지를 전송하는 동작은 상기 제1 컴퓨팅 디바이스에 의해, 상기 제1 컴퓨팅 디바이스의 사용자에 대한 화자 검증 모델을 포함하는 메시지를 상기 제2 컴퓨팅 디바이스에 전송하는 것을 포함하는 것을 특징으로 하는 시스템. - 제14항에 있어서,
상기 제2 컴퓨팅 디바이스에 상기 메시지를 전송하는 동작은 상기 제1 컴퓨팅 디바이스에 의해, 상기 제1 컴퓨팅 디바이스의 사용자가 발언을 했을 가능성을 나타내는 화자 검증 스코어를 포함하는 메시지를 상기 제2 컴퓨팅 디바이스에 전송하는 것을 포함하는 것을 특징으로 하는 시스템. - 제14항에 있어서,
상기 제2 컴퓨팅 디바이스에 상기 메시지를 전송하는 동작은 상기 발언에 대응하는 상기 오디오 신호를 수신함에 응답하여 수행되는 것을 특징으로 하는 시스템. - 제14항에 있어서,
상기 제2 컴퓨팅 디바이스에 상기 메시지를 전송하는 동작은 상기 제1 컴퓨팅 디바이스에 의해, 단거리 통신 프로토콜을 이용하여 상기 제2 컴퓨팅 디바이스에 상기 메시지를 전송하는 것을 포함하는 것을 특징으로 하는 시스템. - 제14항에 있어서,
상기 제1 컴퓨팅 디바이스에 의해, 상기 제2 컴퓨팅 디바이스가 상기 제1 컴퓨팅 디바이스와 공존함을 결정하는 동작을 포함하고, 상기 제2 컴퓨팅 디바이스에 상기 메시지를 전송하는 동작은 상기 제2 컴퓨팅 디바이스가 상기 제1 컴퓨팅 디바이스와 공존함을 결정함에 응답하여 수행되는 것을 특징으로 하는 시스템. - 하나 이상의 컴퓨터들에 의해 실행가능한 명령어들을 포함하는 소프트웨어를 저장한 비일시적 컴퓨터 판독가능 매체로서, 상기 명령어들은 상기 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하도록 하고, 상기 동작들은:
특정한 미리 정의된 핫워드의 수신 시, 락된 상태에 있는 동안 음성 커맨드들에 응답하도록 구성된 제1 컴퓨팅 디바이스에 의해, 상기 제1 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스들에 화자 검증 데이터를 제공하는 것이 허용됨을 나타내는 설정에 대한 값을 획득하는 동작과;
상기 제1 컴퓨팅 디바이스에 의해, 상기 특정한 미리 정의된 핫워드 다음에 오는 음성 커맨드의 발언에 대응하는 오디오 데이터를 수신하는 동작 - 상기 오디오 데이터는 상기 제1 컴퓨팅 디바이스가 락된 상태에 있고 제2 컴퓨팅 디바이스와 공존하는 동안 수신되며, 상기 제2 컴퓨팅 디바이스 역시 상기 특정한 미리 정의된 핫워드 다음에 오는 음성 커맨드들에 응답하도록 구성됨 - 과;
상기 제1 컴퓨팅 디바이스가 락된 상태에 있는 동안 그리고 상기 제1 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스들과 화자 검증 데이터를 공유하는 것이 허용됨을 나타내는 설정에 대한 획득된 값에 기초하여, 상기 제1 컴퓨팅 디바이스에 의해, (i) 상기 제1 컴퓨팅 디바이스와 공존하고 그리고 (ii) 상기 특정한 미리 정의된 핫워드 다음에 오는 음성 커맨드들에 응답하도록 구성된 상기 제2 컴퓨팅 디바이스에 메시지를 전송하는 동작과; 그리고
상기 제1 컴퓨팅 디바이스에 의해, 상기 특정한 미리 정의된 핫워드 다음에 오는 상기 음성 커맨드의 발언에 대응하는 상기 오디오 데이터를 수신함에도 불구하고, 락된 상태로 유지되어 상기 음성 커맨드에 응답하지 않을지를 결정하는 동작을 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/335,380 | 2014-07-18 | ||
US14/335,380 US9257120B1 (en) | 2014-07-18 | 2014-07-18 | Speaker verification using co-location information |
PCT/US2015/030569 WO2016010616A1 (en) | 2014-07-18 | 2015-05-13 | Speaker verification using co-location information |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167027999A Division KR101804388B1 (ko) | 2014-07-18 | 2015-05-13 | 공존 정보를 이용한 화자 검증 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160147955A true KR20160147955A (ko) | 2016-12-23 |
KR101890377B1 KR101890377B1 (ko) | 2018-08-21 |
Family
ID=53268901
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167027999A KR101804388B1 (ko) | 2014-07-18 | 2015-05-13 | 공존 정보를 이용한 화자 검증 |
KR1020167033161A KR101890377B1 (ko) | 2014-07-18 | 2015-05-13 | 공존 정보를 이용한 화자 검증 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167027999A KR101804388B1 (ko) | 2014-07-18 | 2015-05-13 | 공존 정보를 이용한 화자 검증 |
Country Status (6)
Country | Link |
---|---|
US (6) | US9257120B1 (ko) |
EP (2) | EP4047497A3 (ko) |
JP (4) | JP6509903B2 (ko) |
KR (2) | KR101804388B1 (ko) |
CN (3) | CN109376521B (ko) |
WO (1) | WO2016010616A1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190077296A (ko) * | 2019-06-26 | 2019-07-03 | 네이버 주식회사 | 화자 검증 방법 및 음성인식 시스템 |
KR20190113927A (ko) * | 2017-04-20 | 2019-10-08 | 구글 엘엘씨 | 장치에 대한 다중 사용자 인증 |
Families Citing this family (177)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
KR102103057B1 (ko) | 2013-02-07 | 2020-04-21 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10541997B2 (en) * | 2016-12-30 | 2020-01-21 | Google Llc | Authentication of packetized audio signals |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
JP6259911B2 (ja) | 2013-06-09 | 2018-01-10 | アップル インコーポレイテッド | デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11676608B2 (en) * | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US11942095B2 (en) * | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US9257120B1 (en) * | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US11275757B2 (en) | 2015-02-13 | 2022-03-15 | Cerner Innovation, Inc. | Systems and methods for capturing data, creating billable information and outputting billable information |
US9734682B2 (en) | 2015-03-02 | 2017-08-15 | Enovate Medical, Llc | Asset management using an asset tag device |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10133538B2 (en) * | 2015-03-27 | 2018-11-20 | Sri International | Semi-supervised speaker diarization |
US20160299213A1 (en) * | 2015-04-10 | 2016-10-13 | Enovate Medical, Llc | Asset tags |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US9542941B1 (en) * | 2015-10-01 | 2017-01-10 | Lenovo (Singapore) Pte. Ltd. | Situationally suspending wakeup word to enable voice command input |
US9571995B1 (en) * | 2015-10-07 | 2017-02-14 | Verizon Patent And Licensing Inc. | Call transfer initiation via near field communication (NFC) |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US9860355B2 (en) * | 2015-11-23 | 2018-01-02 | International Business Machines Corporation | Call context metadata |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
JP2017138476A (ja) * | 2016-02-03 | 2017-08-10 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US10373612B2 (en) * | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) * | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10438583B2 (en) * | 2016-07-20 | 2019-10-08 | Lenovo (Singapore) Pte. Ltd. | Natural language voice assistant |
US10621992B2 (en) * | 2016-07-22 | 2020-04-14 | Lenovo (Singapore) Pte. Ltd. | Activating voice assistant based on at least one of user proximity and context |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US9741360B1 (en) | 2016-10-09 | 2017-08-22 | Spectimbre Inc. | Speech enhancement for target speakers |
GB2557375A (en) * | 2016-12-02 | 2018-06-20 | Cirrus Logic Int Semiconductor Ltd | Speaker identification |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10559309B2 (en) * | 2016-12-22 | 2020-02-11 | Google Llc | Collaborative voice controlled devices |
US10916243B2 (en) * | 2016-12-27 | 2021-02-09 | Amazon Technologies, Inc. | Messaging from a shared device |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US11100384B2 (en) | 2017-02-14 | 2021-08-24 | Microsoft Technology Licensing, Llc | Intelligent device user interactions |
US11010601B2 (en) | 2017-02-14 | 2021-05-18 | Microsoft Technology Licensing, Llc | Intelligent assistant device communicating non-verbal cues |
US10467509B2 (en) | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10664533B2 (en) | 2017-05-24 | 2020-05-26 | Lenovo (Singapore) Pte. Ltd. | Systems and methods to determine response cue for digital assistant based on context |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
JP6846753B2 (ja) * | 2017-06-28 | 2021-03-24 | 株式会社オプティム | コンピュータシステム、Web会議音声補助方法及びプログラム |
WO2019005233A1 (en) | 2017-06-30 | 2019-01-03 | Google Llc | METHODS, SYSTEMS, AND MEDIA FOR CONNECTING AN IOT DEVICE TO A CALL |
US11264019B2 (en) | 2017-06-30 | 2022-03-01 | Google Llc | Methods, systems, and media for voice-based call operations |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10749855B2 (en) * | 2017-10-30 | 2020-08-18 | Vmware, Inc. | Securely managing digital assistants that access third-party applications |
US10515640B2 (en) * | 2017-11-08 | 2019-12-24 | Intel Corporation | Generating dialogue based on verification scores |
US10157611B1 (en) * | 2017-11-29 | 2018-12-18 | Nuance Communications, Inc. | System and method for speech enhancement in multisource environments |
US10482878B2 (en) * | 2017-11-29 | 2019-11-19 | Nuance Communications, Inc. | System and method for speech enhancement in multisource environments |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10992684B2 (en) * | 2017-12-08 | 2021-04-27 | Google Llc | Distributed identification in networked system |
CN107993665B (zh) * | 2017-12-14 | 2021-04-30 | 科大讯飞股份有限公司 | 多人会话场景中发言人角色确定方法、智能会议方法及系统 |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
KR102513297B1 (ko) * | 2018-02-09 | 2023-03-24 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 기능 실행 방법 |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10877637B1 (en) | 2018-03-14 | 2020-12-29 | Amazon Technologies, Inc. | Voice-based device operation mode management |
US11127405B1 (en) * | 2018-03-14 | 2021-09-21 | Amazon Technologies, Inc. | Selective requests for authentication for voice-based launching of applications |
US10885910B1 (en) | 2018-03-14 | 2021-01-05 | Amazon Technologies, Inc. | Voice-forward graphical user interface mode management |
US11240057B2 (en) * | 2018-03-15 | 2022-02-01 | Lenovo (Singapore) Pte. Ltd. | Alternative output response based on context |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
WO2020003413A1 (ja) * | 2018-06-27 | 2020-01-02 | 日本電気株式会社 | 情報処理装置、制御方法、及びプログラム |
KR102563817B1 (ko) | 2018-07-13 | 2023-08-07 | 삼성전자주식회사 | 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
KR102621897B1 (ko) * | 2018-10-10 | 2024-01-08 | 주식회사 케이티 | 화자 인식 장치 및 그 동작방법 |
KR102623246B1 (ko) * | 2018-10-12 | 2024-01-11 | 삼성전자주식회사 | 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체. |
WO2020085769A1 (en) * | 2018-10-24 | 2020-04-30 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus in environment including plurality of apparatuses |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11004454B1 (en) * | 2018-11-06 | 2021-05-11 | Amazon Technologies, Inc. | Voice profile updating |
US11024291B2 (en) | 2018-11-21 | 2021-06-01 | Sri International | Real-time class recognition for an audio stream |
WO2020111880A1 (en) | 2018-11-30 | 2020-06-04 | Samsung Electronics Co., Ltd. | User authentication method and apparatus |
US11875883B1 (en) | 2018-12-21 | 2024-01-16 | Cerner Innovation, Inc. | De-duplication and contextually-intelligent recommendations based on natural language understanding of conversational sources |
US11869509B1 (en) | 2018-12-21 | 2024-01-09 | Cerner Innovation, Inc. | Document generation from conversational sources |
US11062704B1 (en) | 2018-12-21 | 2021-07-13 | Cerner Innovation, Inc. | Processing multi-party conversations |
US11798560B1 (en) | 2018-12-21 | 2023-10-24 | Cerner Innovation, Inc. | Rapid event and trauma documentation using voice capture |
US11410650B1 (en) | 2018-12-26 | 2022-08-09 | Cerner Innovation, Inc. | Semantically augmented clinical speech processing |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US10923111B1 (en) | 2019-03-28 | 2021-02-16 | Amazon Technologies, Inc. | Speech detection and speech recognition |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US20220415330A1 (en) * | 2019-07-17 | 2022-12-29 | Hosiden Corporation | Microphone unit |
CN110600041B (zh) * | 2019-07-29 | 2022-04-29 | 华为技术有限公司 | 一种声纹识别的方法及设备 |
US11721330B1 (en) * | 2019-09-04 | 2023-08-08 | Amazon Technologies, Inc. | Natural language input processing |
US11158329B2 (en) * | 2019-09-11 | 2021-10-26 | Artificial Intelligence Foundation, Inc. | Identification of fake audio content |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11145315B2 (en) * | 2019-10-16 | 2021-10-12 | Motorola Mobility Llc | Electronic device with trigger phrase bypass and corresponding systems and methods |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11798546B2 (en) * | 2020-08-14 | 2023-10-24 | Google Llc | Transient personalization mode for guest users of an automated assistant |
JPWO2022149384A1 (ko) * | 2021-01-05 | 2022-07-14 | ||
KR20220137437A (ko) * | 2021-04-02 | 2022-10-12 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 동작 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
KR20140031391A (ko) * | 2011-07-01 | 2014-03-12 | 퀄컴 인코포레이티드 | 소셜 그래프들, 스피치 모델들, 및 사용자 콘텍스트를 통해 모바일 디바이스 사용자에 근접한 사람들을 식별하는 것 |
Family Cites Families (152)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4363102A (en) | 1981-03-27 | 1982-12-07 | Bell Telephone Laboratories, Incorporated | Speaker identification system using word recognition templates |
JPS59180599A (ja) | 1983-03-31 | 1984-10-13 | 日本電気ホームエレクトロニクス株式会社 | 車載用音声認識制御装置 |
JPS59180599U (ja) | 1983-05-19 | 1984-12-03 | 株式会社村田製作所 | 圧電発音装置 |
JPH0231896A (ja) | 1988-07-21 | 1990-02-01 | Osaka Gas Co Ltd | 廃水の処理装置 |
JPH0552976A (ja) | 1991-08-22 | 1993-03-02 | Canon Inc | 電子装置 |
US6081782A (en) * | 1993-12-29 | 2000-06-27 | Lucent Technologies Inc. | Voice command control and verification system |
US5659665A (en) | 1994-12-08 | 1997-08-19 | Lucent Technologies Inc. | Method and apparatus for including speech recognition capabilities in a computer system |
JP3522421B2 (ja) * | 1995-10-31 | 2004-04-26 | 株式会社リコー | 話者認識システムおよび話者認識方法 |
US6073101A (en) * | 1996-02-02 | 2000-06-06 | International Business Machines Corporation | Text independent speaker recognition for transparent command ambiguity resolution and continuous access control |
US5895448A (en) | 1996-02-29 | 1999-04-20 | Nynex Science And Technology, Inc. | Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose |
US6023676A (en) | 1996-12-12 | 2000-02-08 | Dspc Israel, Ltd. | Keyword recognition system and method |
SE511418C2 (sv) | 1997-03-13 | 1999-09-27 | Telia Ab | Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper. |
US8209184B1 (en) * | 1997-04-14 | 2012-06-26 | At&T Intellectual Property Ii, L.P. | System and method of providing generated speech via a network |
US6076055A (en) | 1997-05-27 | 2000-06-13 | Ameritech | Speaker verification method |
US5897616A (en) | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
JPH1152976A (ja) | 1997-07-29 | 1999-02-26 | Nec Home Electron Ltd | 音声認識装置 |
JP3524370B2 (ja) | 1998-02-19 | 2004-05-10 | 富士通テン株式会社 | 音声起動システム |
JP2000075954A (ja) * | 1998-09-02 | 2000-03-14 | Sony Corp | 電子機器制御装置 |
US6141644A (en) | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
US6499013B1 (en) * | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
JP2000122678A (ja) * | 1998-10-14 | 2000-04-28 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識機器制御装置 |
US6744860B1 (en) | 1998-12-31 | 2004-06-01 | Bell Atlantic Network Services | Methods and apparatus for initiating a voice-dialing operation |
US6671672B1 (en) | 1999-03-30 | 2003-12-30 | Nuance Communications | Voice authentication system having cognitive recall mechanism for password verification |
US6408272B1 (en) | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
JP3357629B2 (ja) | 1999-04-26 | 2002-12-16 | 旭化成株式会社 | 設備制御システム |
GB9911971D0 (en) * | 1999-05-21 | 1999-07-21 | Canon Kk | A system, a server for a system and a machine for use in a system |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
DE10015960C2 (de) | 2000-03-30 | 2003-01-16 | Micronas Munich Gmbh | Spracherkennungsverfahren und Spracherkennungsvorrichtung |
US6567775B1 (en) | 2000-04-26 | 2003-05-20 | International Business Machines Corporation | Fusion of audio and video based speaker identification for multimedia information access |
US6826159B1 (en) | 2000-05-24 | 2004-11-30 | Cisco Technology, Inc. | System and method for providing speaker identification in a conference call |
EP1168736A1 (en) | 2000-06-30 | 2002-01-02 | Alcatel | Telecommunication system and method with a speech recognizer |
US7016833B2 (en) | 2000-11-21 | 2006-03-21 | The Regents Of The University Of California | Speaker verification system using acoustic data and non-acoustic data |
US6973426B1 (en) | 2000-12-29 | 2005-12-06 | Cisco Technology, Inc. | Method and apparatus for performing speaker verification based on speaker independent recognition of commands |
JP2002279245A (ja) * | 2001-03-19 | 2002-09-27 | Ntt Docomo Inc | サービスセンタ及び発注受付方法 |
US20020194003A1 (en) * | 2001-06-05 | 2002-12-19 | Mozer Todd F. | Client-server security system and method |
US6701293B2 (en) | 2001-06-13 | 2004-03-02 | Intel Corporation | Combining N-best lists from multiple speech recognizers |
US7233933B2 (en) * | 2001-06-28 | 2007-06-19 | Microsoft Corporation | Methods and architecture for cross-device activity monitoring, reasoning, and visualization for providing status and forecasts of a users' presence and availability |
US20030171930A1 (en) * | 2002-03-07 | 2003-09-11 | Junqua Jean-Claude | Computer telephony system to access secure resources |
JP4224250B2 (ja) | 2002-04-17 | 2009-02-12 | パイオニア株式会社 | 音声認識装置、音声認識方法および音声認識プログラム |
JP2003345391A (ja) | 2002-05-23 | 2003-12-03 | Denso Corp | 端末、音声認識サーバ、音声認識システムおよびコンピュータプログラム |
US20030231746A1 (en) | 2002-06-14 | 2003-12-18 | Hunter Karla Rae | Teleconference speaker identification |
US7224981B2 (en) | 2002-06-20 | 2007-05-29 | Intel Corporation | Speech recognition of mobile devices |
JP2004086356A (ja) * | 2002-08-23 | 2004-03-18 | Fujitsu Ten Ltd | 認証方法および認証装置 |
TW200409525A (en) | 2002-11-26 | 2004-06-01 | Lite On Technology Corp | Voice identification method for cellular phone and cellular phone with voiceprint password |
US7457745B2 (en) | 2002-12-03 | 2008-11-25 | Hrl Laboratories, Llc | Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments |
EP1429314A1 (en) | 2002-12-13 | 2004-06-16 | Sony International (Europe) GmbH | Correction of energy as input feature for speech processing |
US7533023B2 (en) | 2003-02-12 | 2009-05-12 | Panasonic Corporation | Intermediary speech processor in network environments transforming customized speech parameters |
US7222072B2 (en) | 2003-02-13 | 2007-05-22 | Sbc Properties, L.P. | Bio-phonetic multi-phrase speaker identity verification |
US7571014B1 (en) | 2004-04-01 | 2009-08-04 | Sonos, Inc. | Method and apparatus for controlling multimedia players in a multi-zone system |
US8290603B1 (en) | 2004-06-05 | 2012-10-16 | Sonos, Inc. | User interfaces for controlling and manipulating groupings in a multi-zone media system |
US20070198262A1 (en) | 2003-08-20 | 2007-08-23 | Mindlin Bernardo G | Topological voiceprints for speaker identification |
EP1511277A1 (en) | 2003-08-29 | 2005-03-02 | Swisscom AG | Method for answering an incoming event with a phone device, and adapted phone device |
US7305078B2 (en) | 2003-12-18 | 2007-12-04 | Electronic Data Systems Corporation | Speaker identification during telephone conferencing |
US20050165607A1 (en) | 2004-01-22 | 2005-07-28 | At&T Corp. | System and method to disambiguate and clarify user intention in a spoken dialog system |
US8214447B2 (en) | 2004-06-08 | 2012-07-03 | Bose Corporation | Managing an audio network |
US7720012B1 (en) | 2004-07-09 | 2010-05-18 | Arrowhead Center, Inc. | Speaker identification in the presence of packet losses |
US8589156B2 (en) * | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
US8412521B2 (en) | 2004-08-20 | 2013-04-02 | Multimodal Technologies, Llc | Discriminative training of document transcription system |
US8521529B2 (en) | 2004-10-18 | 2013-08-27 | Creative Technology Ltd | Method for segmenting audio signals |
JP4710331B2 (ja) * | 2005-01-27 | 2011-06-29 | ソニー株式会社 | プレゼンテーション用アプリケーションをリモートコントロールするための装置,方法,プログラム及び記録媒体 |
KR100679043B1 (ko) | 2005-02-15 | 2007-02-05 | 삼성전자주식회사 | 음성 대화 인터페이스 장치 및 방법 |
US8725514B2 (en) * | 2005-02-22 | 2014-05-13 | Nuance Communications, Inc. | Verifying a user using speaker verification and a multimodal web-based interface |
US8041570B2 (en) | 2005-05-31 | 2011-10-18 | Robert Bosch Corporation | Dialogue management using scripts |
US7603275B2 (en) | 2005-10-31 | 2009-10-13 | Hitachi, Ltd. | System, method and computer program product for verifying an identity using voiced to unvoiced classifiers |
JP4657097B2 (ja) * | 2005-12-21 | 2011-03-23 | 京セラミタ株式会社 | 電子機器及び音声操作プログラム |
JP2006227634A (ja) * | 2006-03-29 | 2006-08-31 | Seiko Epson Corp | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体 |
US8595007B2 (en) | 2006-06-15 | 2013-11-26 | NITV Federal Services, LLC | Voice print recognition software system for voice identification and matching |
US8073681B2 (en) * | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
CN1996847B (zh) | 2006-12-27 | 2010-05-19 | 中国科学院上海技术物理研究所 | 基于协作网格的图像及多媒体数据通信与存储系统 |
US8099288B2 (en) | 2007-02-12 | 2012-01-17 | Microsoft Corp. | Text-dependent speaker verification |
US20110060587A1 (en) | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
US8838457B2 (en) | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US8352264B2 (en) | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
US8503686B2 (en) | 2007-05-25 | 2013-08-06 | Aliphcom | Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems |
US8385233B2 (en) | 2007-06-12 | 2013-02-26 | Microsoft Corporation | Active speaker identification |
GB2450886B (en) | 2007-07-10 | 2009-12-16 | Motorola Inc | Voice activity detector and a method of operation |
US8495727B2 (en) * | 2007-08-07 | 2013-07-23 | Microsoft Corporation | Spam reduction in real time communications by human interaction proof |
JP2009104020A (ja) * | 2007-10-25 | 2009-05-14 | Panasonic Electric Works Co Ltd | 音声認識装置 |
CN101140646A (zh) * | 2007-11-05 | 2008-03-12 | 陆航程 | 基于epc、ebc物联网的“数据大跟踪”税控系统及其税控终端 |
US8140335B2 (en) * | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US8423362B2 (en) * | 2007-12-21 | 2013-04-16 | General Motors Llc | In-vehicle circumstantial speech recognition |
US8447838B2 (en) * | 2008-01-31 | 2013-05-21 | Bizmobile Inc. | System and method for providing mobile service |
GB2458461A (en) | 2008-03-17 | 2009-09-23 | Kai Yu | Spoken language learning system |
US8504365B2 (en) | 2008-04-11 | 2013-08-06 | At&T Intellectual Property I, L.P. | System and method for detecting synthetic speaker verification |
US8145482B2 (en) | 2008-05-25 | 2012-03-27 | Ezra Daya | Enhancing analysis of test key phrases from acoustic sources with key phrase training models |
KR101056511B1 (ko) | 2008-05-28 | 2011-08-11 | (주)파워보이스 | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 |
US8676586B2 (en) | 2008-09-16 | 2014-03-18 | Nice Systems Ltd | Method and apparatus for interaction or discourse analytics |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9922640B2 (en) | 2008-10-17 | 2018-03-20 | Ashwin P Rao | System and method for multimodal utterance detection |
KR101519104B1 (ko) | 2008-10-30 | 2015-05-11 | 삼성전자 주식회사 | 목적음 검출 장치 및 방법 |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8209174B2 (en) | 2009-04-17 | 2012-06-26 | Saudi Arabian Oil Company | Speaker verification system |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
CN101923853B (zh) | 2009-06-12 | 2013-01-23 | 华为技术有限公司 | 说话人识别方法、设备和系统 |
WO2011064938A1 (ja) * | 2009-11-25 | 2011-06-03 | 日本電気株式会社 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8626511B2 (en) | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
WO2011106925A1 (en) * | 2010-03-01 | 2011-09-09 | Nokia Corporation | Method and apparatus for estimating user characteristics based on user interaction data |
US8543402B1 (en) | 2010-04-30 | 2013-09-24 | The Intellisis Corporation | Speaker segmentation in noisy conversational speech |
US8306814B2 (en) * | 2010-05-11 | 2012-11-06 | Nice-Systems Ltd. | Method for speaker source classification |
KR101672212B1 (ko) | 2010-06-15 | 2016-11-04 | 엘지전자 주식회사 | 휴대 단말기 및 그 동작 방법 |
US8532994B2 (en) * | 2010-08-27 | 2013-09-10 | Cisco Technology, Inc. | Speech recognition using a personal vocabulary and language model |
US8719018B2 (en) | 2010-10-25 | 2014-05-06 | Lockheed Martin Corporation | Biometric speaker identification |
US8874773B2 (en) | 2010-11-30 | 2014-10-28 | Gary W. Grube | Obtaining group and individual emergency preparedness communication information |
CN102741918B (zh) | 2010-12-24 | 2014-11-19 | 华为技术有限公司 | 用于话音活动检测的方法和设备 |
JP5636309B2 (ja) * | 2011-02-18 | 2014-12-03 | 株式会社東芝 | 音声対話装置および音声対話方法 |
US9262612B2 (en) * | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9444816B2 (en) * | 2011-03-30 | 2016-09-13 | Qualcomm Incorporated | Continuous voice authentication for a mobile device |
SG194633A1 (en) * | 2011-04-27 | 2013-12-30 | Right Brain Interface N V | Method and apparatus for collaborative upload of content |
US20130024196A1 (en) * | 2011-07-21 | 2013-01-24 | Nuance Communications, Inc. | Systems and methods for using a mobile device to deliver speech with speaker identification |
US8660847B2 (en) | 2011-09-02 | 2014-02-25 | Microsoft Corporation | Integrated local and cloud based speech recognition |
CN102710732A (zh) * | 2011-11-06 | 2012-10-03 | 李宗诚 | 互联网全息协同系统信息融合基础 |
US9031847B2 (en) | 2011-11-15 | 2015-05-12 | Microsoft Technology Licensing, Llc | Voice-controlled camera operations |
EP2783365B1 (en) | 2011-11-21 | 2018-02-21 | Robert Bosch GmbH | Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance |
US8825020B2 (en) | 2012-01-12 | 2014-09-02 | Sensory, Incorporated | Information access and device control using mobile phones and audio in the home environment |
JP6221202B2 (ja) * | 2012-02-03 | 2017-11-01 | ヤマハ株式会社 | 通信システム |
US20130262873A1 (en) * | 2012-03-30 | 2013-10-03 | Cgi Federal Inc. | Method and system for authenticating remote users |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US20140006825A1 (en) | 2012-06-30 | 2014-01-02 | David Shenhav | Systems and methods to wake up a device from a power conservation state |
US9536528B2 (en) | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
JP6131537B2 (ja) | 2012-07-04 | 2017-05-24 | セイコーエプソン株式会社 | 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法 |
TWI474317B (zh) | 2012-07-06 | 2015-02-21 | Realtek Semiconductor Corp | 訊號處理裝置以及訊號處理方法 |
WO2014029099A1 (en) * | 2012-08-24 | 2014-02-27 | Microsoft Corporation | I-vector based clustering training data in speech recognition |
US9058806B2 (en) * | 2012-09-10 | 2015-06-16 | Cisco Technology, Inc. | Speaker segmentation and recognition based on list of speakers |
US8983836B2 (en) | 2012-09-26 | 2015-03-17 | International Business Machines Corporation | Captioning using socially derived acoustic profiles |
US8904498B2 (en) * | 2012-10-17 | 2014-12-02 | Ca, Inc. | Biometric identification for mobile applications |
WO2014064324A1 (en) | 2012-10-26 | 2014-05-01 | Nokia Corporation | Multi-device speech recognition |
US8996372B1 (en) | 2012-10-30 | 2015-03-31 | Amazon Technologies, Inc. | Using adaptation data with cloud-based speech recognition |
JP2014092777A (ja) * | 2012-11-06 | 2014-05-19 | Magic Hand:Kk | モバイル通信機器の音声による起動 |
US9704486B2 (en) | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
US10134392B2 (en) * | 2013-01-10 | 2018-11-20 | Nec Corporation | Terminal, unlocking method, and program |
US9502038B2 (en) * | 2013-01-28 | 2016-11-22 | Tencent Technology (Shenzhen) Company Limited | Method and device for voiceprint recognition |
US9349386B2 (en) | 2013-03-07 | 2016-05-24 | Analog Device Global | System and method for processor wake-up based on sensor data |
US9361885B2 (en) | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9257952B2 (en) | 2013-03-13 | 2016-02-09 | Kopin Corporation | Apparatuses and methods for multi-channel signal compression during desired voice activity detection |
EP2984599A4 (en) * | 2013-04-12 | 2016-11-30 | Sciometrics Llc | IDENTITY BASKET: TOOL TO DETERMINE IN REAL TIME AN IDENTITY IN THE MOBILE ENVIRONMENT |
US8768687B1 (en) | 2013-04-29 | 2014-07-01 | Google Inc. | Machine translation of indirect speech |
US9058805B2 (en) * | 2013-05-13 | 2015-06-16 | Google Inc. | Multiple recognizer speech recognition |
US9697831B2 (en) * | 2013-06-26 | 2017-07-04 | Cirrus Logic, Inc. | Speech recognition |
WO2015025330A1 (en) | 2013-08-21 | 2015-02-26 | Kale Aaditya Kishore | A system to enable user to interact with an electronic processing device using voice of the user |
US9865255B2 (en) | 2013-08-29 | 2018-01-09 | Panasonic Intellectual Property Corporation Of America | Speech recognition method and speech recognition apparatus |
US9343068B2 (en) | 2013-09-16 | 2016-05-17 | Qualcomm Incorporated | Method and apparatus for controlling access to applications having different security levels |
US8775191B1 (en) | 2013-11-13 | 2014-07-08 | Google Inc. | Efficient utterance-specific endpointer triggering for always-on hotwording |
US9373321B2 (en) | 2013-12-02 | 2016-06-21 | Cypress Semiconductor Corporation | Generation of wake-up words |
US8938394B1 (en) | 2014-01-09 | 2015-01-20 | Google Inc. | Audio triggers based on context |
US9639854B2 (en) | 2014-06-26 | 2017-05-02 | Nuance Communications, Inc. | Voice-controlled information exchange platform, such as for providing information to supplement advertising |
US9257120B1 (en) * | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US9318107B1 (en) | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9424841B2 (en) | 2014-10-09 | 2016-08-23 | Google Inc. | Hotword detection on multiple devices |
US9812126B2 (en) | 2014-11-28 | 2017-11-07 | Microsoft Technology Licensing, Llc | Device arbitration for listening devices |
JP6754184B2 (ja) | 2014-12-26 | 2020-09-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声認識装置及び音声認識方法 |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
-
2014
- 2014-07-18 US US14/335,380 patent/US9257120B1/en active Active
-
2015
- 2015-05-13 KR KR1020167027999A patent/KR101804388B1/ko active IP Right Grant
- 2015-05-13 CN CN201811329425.1A patent/CN109376521B/zh active Active
- 2015-05-13 EP EP22161101.5A patent/EP4047497A3/en active Pending
- 2015-05-13 EP EP15725176.0A patent/EP3129982B1/en active Active
- 2015-05-13 CN CN201580018671.3A patent/CN106164921B/zh active Active
- 2015-05-13 CN CN201811329448.2A patent/CN109598112B/zh active Active
- 2015-05-13 JP JP2016561322A patent/JP6509903B2/ja active Active
- 2015-05-13 KR KR1020167033161A patent/KR101890377B1/ko active IP Right Grant
- 2015-05-13 WO PCT/US2015/030569 patent/WO2016010616A1/en active Application Filing
- 2015-07-22 US US14/805,687 patent/US9412376B2/en active Active
-
2016
- 2016-07-05 US US15/201,972 patent/US9792914B2/en active Active
-
2017
- 2017-09-06 US US15/697,052 patent/US10147429B2/en active Active
-
2018
- 2018-10-26 US US16/172,221 patent/US10460735B2/en active Active
-
2019
- 2019-04-03 JP JP2019071251A patent/JP7007320B2/ja active Active
- 2019-09-17 US US16/573,581 patent/US10986498B2/en active Active
-
2021
- 2021-09-24 JP JP2021155665A patent/JP7384877B2/ja active Active
-
2023
- 2023-11-08 JP JP2023190911A patent/JP2023184691A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140031391A (ko) * | 2011-07-01 | 2014-03-12 | 퀄컴 인코포레이티드 | 소셜 그래프들, 스피치 모델들, 및 사용자 콘텍스트를 통해 모바일 디바이스 사용자에 근접한 사람들을 식별하는 것 |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190113927A (ko) * | 2017-04-20 | 2019-10-08 | 구글 엘엘씨 | 장치에 대한 다중 사용자 인증 |
US11238848B2 (en) | 2017-04-20 | 2022-02-01 | Google Llc | Multi-user authentication on a device |
US11721326B2 (en) | 2017-04-20 | 2023-08-08 | Google Llc | Multi-user authentication on a device |
US11727918B2 (en) | 2017-04-20 | 2023-08-15 | Google Llc | Multi-user authentication on a device |
KR20190077296A (ko) * | 2019-06-26 | 2019-07-03 | 네이버 주식회사 | 화자 검증 방법 및 음성인식 시스템 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101890377B1 (ko) | 공존 정보를 이용한 화자 검증 | |
KR101824158B1 (ko) | 화자 검증을 위한 동적 임계치 | |
US11557301B2 (en) | Hotword-based speaker recognition | |
US11942095B2 (en) | Speaker verification using co-location information | |
US11676608B2 (en) | Speaker verification using co-location information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |