KR101868711B1 - 애플리케이션들에 대한 액세스를 제어하기 위한 방법 및 장치 - Google Patents
애플리케이션들에 대한 액세스를 제어하기 위한 방법 및 장치 Download PDFInfo
- Publication number
- KR101868711B1 KR101868711B1 KR1020167009013A KR20167009013A KR101868711B1 KR 101868711 B1 KR101868711 B1 KR 101868711B1 KR 1020167009013 A KR1020167009013 A KR 1020167009013A KR 20167009013 A KR20167009013 A KR 20167009013A KR 101868711 B1 KR101868711 B1 KR 101868711B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice command
- delete delete
- user confidence
- applications
- security level
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 description 59
- 230000004913 activation Effects 0.000 description 31
- 238000010586 diagram Methods 0.000 description 21
- 230000004044 response Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 238000012790 confirmation Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 230000006854 communication Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 101000574648 Homo sapiens Retinoid-inducible serine carboxypeptidase Proteins 0.000 description 3
- 102100025483 Retinoid-inducible serine carboxypeptidase Human genes 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
- H04L63/105—Multiple levels of security
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G10L17/005—
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
본 개시물의 일 양상에 따르면, 전자 디바이스에서 복수의 애플리케이션들에 대한 액세스를 제어하는 방법이 개시된다. 방법은 복수의 애플리케이션들 중에서 대상 애플리케이션에 액세스하기 위해 화자로부터 음성 커맨드를 수신하는 단계, 및 승인된 사용자의 화자 모델에 기초하여 음성 커맨드가 애플리케이션들에 액세스하도록 승인된 사용자를 나타내는지 여부를 확인하는 단계를 포함한다. 이러한 방법에서, 각각의 애플리케이션은 임계 값을 갖는 보안 레벨과 연관된다. 방법은 음성 커맨드가 사용자를 나타내는 것으로 확인되면 음성 커맨드로 화자 모델을 업데이트하고, 업데이트된 화자 모델에 기초하여 임계 값들 중 적어도 하나의 임계 값을 조정하는 단계를 더 포함한다.
Description
관련 출원들에 대한 상호-참조
본 출원은 2013 년 9 월 16 일에 출원된 미국 특허 출원 제 14/028,139 호의 우선권을 주장하며 그 내용은 그 전체가 참조를 위해 본원에 명시적으로 포함된다.
기술분야
본 개시물은 전자 디바이스들에서 애플리케이션들에 액세스하는 것에 관한 것으로, 좀더 구체적으로 음성 커맨드들에 응답하여 애플리케이션들에 대한 액세스를 제어하는 것에 관한 것이다.
최근에, 애플리케이션들을 구동할 수 있는 전자 디바이스들이 사용자들 사이에서 매우 유명해졌다. 예를 들어, 스마트폰들, 태블릿 컴퓨터들, 및 개인용 컴퓨터들과 같은 전자 디바이스들은 메시징 애플리케이션들, 연락처 애플리케이션들, 달력 애플리케이션들, 사진 애플리케이션들 등과 같은 애플리케이션들을 포함할 수도 있다. 또한, 사용자들은 인터넷을 통해 애플리케이션 제공자로부터 다른 애플리케이션들 (예를 들어, 뱅킹 애플리케이션) 을 검색하고 다운로드할 수도 있다. 이러한 애플리케이션들은 사용자들에게 다양한 기능들 및 정보에 대한 편리한 액세스를 제공한다.
사용자들에 의해 액세스되는 애플리케이션들은 종종 다른 사람들이 액세스하는 것을 사용자들이 원하지 않을 수도 있는 개인적 또는 사적 정보를 포함한다. 예를 들어, 메시징 애플리케이션 (예를 들어, 이메일 애플리케이션) 에서 이메일들은 개인용 또는 비즈니스용 정보를 포함할 수도 있다. 유사하게, 사용자의 뱅킹 애플리케이션은 계좌 번호 및 계좌 잔액과 같은 사용자의 금융 정보에 대한 액세스를 포함하거나 가능하게 할 수 있다.
애플리케이션들을 통해 액세스될 수도 있는 정보의 기밀성을 감안하여, 종래의 전자 디바이스들은 일반적으로 그러한 애플리케이션들에 대한 액세스를 제한하기 위한 하나 이상의 보안 기능들을 제공한다. 그러한 보안 기능들은 애플리케이션에 액세스하기 위한 사용자의 인증을 요구할 수도 있다. 예를 들어, 사용자는 개인 코드를 입력하도록 요구되고 코드가 확인되는 경우 애플리케이션에 대한 액세스가 가능해질 수도 있다.
일부 종래의 전자 디바이스들은 또한 발화 인식 기능들을 갖추고 있다. 그러한 디바이스들에서, 애플리케이션은 사용자로부터의 발화 커맨드에 응답하여 액세스될 수도 있다. 애플리케이션에 대한 승인되지 않은 액세스를 방지하기 위해, 승인된 사용자의 음성 특성들에 기초하여 이러한 디바이스들은 발화 커맨드의 진위를 확인할 수도 있다. 그러나, 승인된 사용자의 음성 특성들이 시간에 따라 또는 사용자의 조건 때문에 변할 수도 있으므로 그러한 디바이스들에서의 승인된 사용자의 인증은 신뢰할 수 없을 수도 있다.
본 개시물은 화자 모델을 업데이트하고 보안 레벨들과 연관된 임계 값들을 조정함으로써 상이한 보안 레벨들을 갖는 애플리케이션들에 대한 액세스를 제어하는 것에 관한 것이다.
본 개시물의 일 양상에 따르면, 전자 디바이스에서 복수의 애플리케이션들에 대한 액세스를 제어하는 방법이 개시된다. 방법은 복수의 애플리케이션들 중에서 대상 애플리케이션에 액세스하기 위해 화자로부터 음성 커맨드를 수신하는 단계, 및 승인된 사용자의 화자 모델에 기초하여 음성 커맨드가 애플리케이션들에 액세스하도록 승인된 사용자를 나타내는지 여부를 확인하는 단계를 포함한다. 이러한 방법에서, 각각의 애플리케이션은 임계 값을 갖는 보안 레벨과 연관된다. 방법은 음성 커맨드가 사용자를 나타내는 것으로 확인되면 음성 커맨드로 화자 모델을 업데이트하고, 업데이트된 화자 모델에 기초하여 임계 값들 중 적어도 하나의 임계 값을 조정한다. 본 개시물은 또한 이러한 방법과 관련되는 장치, 디바이스, 시스템, 수단들의 조합, 및 컴퓨터-판독가능 매체를 설명한다.
본 개시물의 다른 양상에 따르면, 복수의 애플리케이션들에 대한 액세스를 제어하기 위한 전자 디바이스가 개시된다. 전자 디바이스는 복수의 애플리케이션들 중에서 대상 애플리케이션에 액세스하기 위해 화자로부터 음성 커맨드를 수신하도록 구성된 사운드 센서, 및 복수의 애플리케이션들, 복수의 보안 레벨들, 복수의 임계 값들, 및 애플리케이션들에 액세스하도록 승인된 사용자의 화자 모델을 저장하도록 구성된 저장 유닛을 포함한다. 각각의 애플리케이션은 복수의 임계 값들 중에서 하나의 임계 값을 갖는, 복수의 보안 레벨들 중에서 하나의 보안 레벨과 연관된다. 전자 디바이스는 또한 승인된 사용자의 화자 모델에 기초하여 음성 커맨드가 승인된 사용자를 나타내는지 여부를 확인하도록 구성된 화자 확인 유닛, 및 음성 커맨드가 사용자를 나타내는 것으로 확인되면 음성 커맨드로 화자 모델을 업데이트하고, 업데이트된 화자 모델에 기초하여 임계 값들 중 적어도 하나의 임계 값을 조정하도록 구성된 데이터베이스 업데이트 유닛을 포함한다.
본 개시물의 진보적인 양상들의 실시형태들은, 첨부 도면들과 연계하여 읽는 경우, 다음의 상세한 설명을 참조하여 이해될 것이다.
도 1 은, 본 개시물의 일 실시형태에 따른, 화자의 음성 커맨드에 응답하여 복수의 보안 레벨들에 기초해 복수의 애플리케이션들이 액세스될 수 있는 모바일 디바이스를 도시한다.
도 2 는, 본 개시물의 일 실시형태에 따른, 화자의 음성 커맨드에 응답하여 애플리케이션들에 대한 보안 레벨들의 임계 값들을 조정함으로써 복수의 애플리케이션들에 대한 액세스를 제어하도록 구성된 전자 디바이스의 블록도를 도시한다.
도 3 은, 본 개시물의 일 실시형태에 따른, 화자로부터의 음성 커맨드를 확인하기 위한 전자 디바이스에서의 애플리케이션 액세스 데이터베이스의 블록도를 도시한다.
도 4 는, 본 개시물의 일 실시형태에 따른, 화자 및 승인되지 않은 화자의 사운드 샘플들에 기초하는, 복수의 보안 레벨들에 대한 초기 임계 값들을 포함하는, 전자 디바이스에서 화자 확인 데이터베이스를 설정하는 도면을 도시한다.
도 5 는, 본 개시물의 일 실시형태에 따른, 화자로부터의 음성 커맨드가 확인되는 경우 애플리케이션에 액세스하도록 구성된 전자 디바이스에서의 음성 활성화 유닛의 블록도이다.
도 6 은, 본 개시물의 일 실시형태에 따른, 전자 디바이스에서, 음성 커맨드에 기초하여 애플리케이션에 액세스하고 애플리케이션에 대한 액세스를 조정하는 방법의 플로 차트를 도시한다.
도 7 은, 본 개시물의 일 실시형태에 따른, 화자로부터의 음성 커맨드를 확인함으로써 애플리케이션에 액세스하도록 구성된 전자 디바이스에서의 화자 확인 유닛의 블록도이다.
도 8 은, 본 개시물의 일 실시형태에 따른, 확인된 음성 커맨드에 기초하여, 화자 모델을 업데이트하고 보안 레벨들에 대한 임계 값들을 조정하도록 구성된 전자 디바이스에서의 데이터베이스 업데이트 유닛의 블록도를 도시한다.
도 9 는, 본 개시물의 일 실시형태에 따른, 확인된 음성 커맨드에 대한 새로운 사운드 샘플로 업데이트될 수도 있는 전자 디바이스에서의 화자 확인 데이터베이스의 도면이다.
도 10 은, 본 개시물의 일 실시형태에 따른, 음성 커맨드에 대한 신뢰도 값에 기초하여 화자 모델을 업데이트하는 방법의 플로 차트를 도시한다.
도 11 은, 본 개시물의 일 실시형태에 따른, 새로운 사운드 샘플의 보안 레벨에 대한 임계 값이 새로운 사운드 샘플을 수신하는 것에 응답하여 조정되는 전자 디바이스의 화자 확인 데이터베이스의 도면을 도시한다.
도 12 는, 본 개시물의 일 실시형태에 따른, 새로운 사운드 샘플의 보안 레벨과 상이한 보안 레벨에 대한 임계 값이 새로운 사운드 샘플을 수신하는 것에 응답하여 조정되는 전자 디바이스의 화자 확인 데이터베이스의 도면을 도시한다.
도 13 은, 본 개시물의 일 실시형태에 따른, 새로운 사운드 샘플을 수신하는 것에 응답하여 보안 레벨들에 대한 임계 값들이 조정되는 전자 디바이스의 화자 확인 데이터베이스의 도면을 도시한다.
도 14 는, 본 개시물의 일 실시형태에 따른, 보안 레벨들에 대한 임계 값들 중 적어도 하나의 임계 값을 조정하는 방법의 플로 차트를 도시한다.
도 15 는, 본 개시물의 몇몇 실시형태들에 따른, 애플리케이션들에 대한 액세스를 제어하기 위한 방법들 및 장치가 구현될 수도 있는 일 예시적인 모바일 디바이스의 블록도이다.
도 1 은, 본 개시물의 일 실시형태에 따른, 화자의 음성 커맨드에 응답하여 복수의 보안 레벨들에 기초해 복수의 애플리케이션들이 액세스될 수 있는 모바일 디바이스를 도시한다.
도 2 는, 본 개시물의 일 실시형태에 따른, 화자의 음성 커맨드에 응답하여 애플리케이션들에 대한 보안 레벨들의 임계 값들을 조정함으로써 복수의 애플리케이션들에 대한 액세스를 제어하도록 구성된 전자 디바이스의 블록도를 도시한다.
도 3 은, 본 개시물의 일 실시형태에 따른, 화자로부터의 음성 커맨드를 확인하기 위한 전자 디바이스에서의 애플리케이션 액세스 데이터베이스의 블록도를 도시한다.
도 4 는, 본 개시물의 일 실시형태에 따른, 화자 및 승인되지 않은 화자의 사운드 샘플들에 기초하는, 복수의 보안 레벨들에 대한 초기 임계 값들을 포함하는, 전자 디바이스에서 화자 확인 데이터베이스를 설정하는 도면을 도시한다.
도 5 는, 본 개시물의 일 실시형태에 따른, 화자로부터의 음성 커맨드가 확인되는 경우 애플리케이션에 액세스하도록 구성된 전자 디바이스에서의 음성 활성화 유닛의 블록도이다.
도 6 은, 본 개시물의 일 실시형태에 따른, 전자 디바이스에서, 음성 커맨드에 기초하여 애플리케이션에 액세스하고 애플리케이션에 대한 액세스를 조정하는 방법의 플로 차트를 도시한다.
도 7 은, 본 개시물의 일 실시형태에 따른, 화자로부터의 음성 커맨드를 확인함으로써 애플리케이션에 액세스하도록 구성된 전자 디바이스에서의 화자 확인 유닛의 블록도이다.
도 8 은, 본 개시물의 일 실시형태에 따른, 확인된 음성 커맨드에 기초하여, 화자 모델을 업데이트하고 보안 레벨들에 대한 임계 값들을 조정하도록 구성된 전자 디바이스에서의 데이터베이스 업데이트 유닛의 블록도를 도시한다.
도 9 는, 본 개시물의 일 실시형태에 따른, 확인된 음성 커맨드에 대한 새로운 사운드 샘플로 업데이트될 수도 있는 전자 디바이스에서의 화자 확인 데이터베이스의 도면이다.
도 10 은, 본 개시물의 일 실시형태에 따른, 음성 커맨드에 대한 신뢰도 값에 기초하여 화자 모델을 업데이트하는 방법의 플로 차트를 도시한다.
도 11 은, 본 개시물의 일 실시형태에 따른, 새로운 사운드 샘플의 보안 레벨에 대한 임계 값이 새로운 사운드 샘플을 수신하는 것에 응답하여 조정되는 전자 디바이스의 화자 확인 데이터베이스의 도면을 도시한다.
도 12 는, 본 개시물의 일 실시형태에 따른, 새로운 사운드 샘플의 보안 레벨과 상이한 보안 레벨에 대한 임계 값이 새로운 사운드 샘플을 수신하는 것에 응답하여 조정되는 전자 디바이스의 화자 확인 데이터베이스의 도면을 도시한다.
도 13 은, 본 개시물의 일 실시형태에 따른, 새로운 사운드 샘플을 수신하는 것에 응답하여 보안 레벨들에 대한 임계 값들이 조정되는 전자 디바이스의 화자 확인 데이터베이스의 도면을 도시한다.
도 14 는, 본 개시물의 일 실시형태에 따른, 보안 레벨들에 대한 임계 값들 중 적어도 하나의 임계 값을 조정하는 방법의 플로 차트를 도시한다.
도 15 는, 본 개시물의 몇몇 실시형태들에 따른, 애플리케이션들에 대한 액세스를 제어하기 위한 방법들 및 장치가 구현될 수도 있는 일 예시적인 모바일 디바이스의 블록도이다.
다양한 실시형태들에 대한 상세한 참조가 이제 이루어질 것인데, 그 실시형태들의 예들은 첨부된 도면들에서 도시된다. 다음의 상세한 설명에서, 다수의 특정 세부사항들은 본 개시물의 진보적 양상들의 철저한 이해를 제공하기 위해 제시된다. 그러나, 본 개시물의 진보적인 양상들은 이러한 특정 세부사항들이 없이도 실시될 수도 있다는 것이 당업자에게 자명할 것이다. 다른 예들에서, 공지의 방법들, 절차들, 시스템들, 및 컴포넌트들은 다양한 실시형태들의 양상들을 불필요하게 모호하게 하지 않기 위해 상세히 설명되지 않았다.
도 1 은, 본 개시물의 일 실시형태에 따른, 화자 (110) 의 음성 커맨드에 응답하여 복수의 보안 레벨들에 기초하여 복수의 애플리케이션들 (122, 124, 및 126) 이 액세스될 수 있는 모바일 디바이스 (120) 를 도시한다. 모바일 디바이스 (120) 는 애플리케이션들 (122, 124, 및 126) 을 포함하며, 애플리케이션들은, 각각, 화자 (110) 로부터의 음성 커맨드들 "뱅킹", "사진", 및 "연락처" 에 응답하여 액세스된다. 모바일 디바이스 (120) 가 애플리케이션들 (122, 124, 및 126) 과 함께 도시되었으나, 모바일 디바이스는 하나 이상의 기능들을 수행하기 위한 임의의 다른 애플리케이션들을 포함할 수도 있다. 본원에서 이용되는 바와 같이, 애플리케이션에 액세스한다는 맥락에서 용어 "액세스" 는 애플리케이션 또는 애플리케이션에서의 기능을 수행하거나, 실행하거나, 구동하거나, 활성화시키거나, 동작시키는 것을 지칭한다. 또한, 용어 "음성 커맨드" 는 모바일 디바이스 (120) 에서 수행될 액션을 나타내는 화자로부터 소리내어진 하나 이상의 단어들의 임의의 디지털 또는 아날로그 표현을 지칭하고, 명령, 요청, 주문, 키워드 등을 포함한다.
모바일 디바이스 (120) 에서의 애플리케이션들 (122, 124, 및 126) 의 각각은 연관된 애플리케이션에 액세스하기 위한 보안 레벨로 구성된다. 애플리케이션들 (122, 124, 및 126) 에 대한 보안 레벨들의 각각은 연관된 애플리케이션들 (122, 124, 및 126) 에 액세스하기 위한 최소 신뢰도 값을 나타내는 임계 값에 맵핑된다. 모바일 디바이스 (120) 는 화자 (110) 로부터의 음성 커맨드가 인식되고 애플리케이션과 연관된 임계 값에 기초하여 승인된 사용자로부터인 것으로 확인되는 경우 애플리케이션에 액세스할 수도 있다. 본 개시물의 일부 실시형태들에 따르면, 애플리케이션이 높은 레벨의 보안을 요구하면, 높은 임계 값에 맵핑되는 높은 보안 레벨이 할당될 수도 있다.
도시된 실시형태에서, 모바일 디바이스 (120) 는 화자 (110) 로부터의 연관된 음성 커맨드들에 응답하여 승인된 사용자로서 화자 (110) 가 애플리케이션들 (122, 124, 및 126) 에 액세스하는 것을 가능하게 하도록 구성된다. 도시된 바와 같이, 화자 (110) 는 모바일 디바이스 (120) 에서의 애플리케이션 (122, 124, 또는 126) 에 액세스하기 위한 입력 사운드로서 음성 커맨드를 말할 수도 있다. 모바일 디바이스 (120) 가 입력 사운드에서의 음성 커맨드를 애플리케이션들 (122, 124, 및 126) 중 하나의 애플리케이션에 액세스하기 위한 커맨드로서 인식하는 경우, 모바일 디바이스는 음성 커맨드가 승인된 사용자의 음성 커맨드일 가능성을 나타내는 음성 커맨드의 신뢰도 값을 결정한다. 음성 커맨드의 신뢰도 값이 애플리케이션 (122, 124, 또는 126) 과 연관된 임계 값을 초과하면, 모바일 디바이스 (120) 는 음성 커맨드와 연관된 애플리케이션 (122, 124, 또는 126) 에 액세스한다.
도 1 에서, 모바일 디바이스 (120) 는 화자 (110) 로부터의 음성 커맨드들에 응답하여 상이한 보안 레벨들로 애플리케이션들 (122, 124, 및 126) 에 액세스한다. 예를 들어, 모바일 디바이스 (120) 는 화자 (110) 로부터의 입력 사운드로서 음성 커맨드 "뱅킹" 을 수신할 수도 있다. 모바일 디바이스 (120) 는 음성 커맨드를, 가장 높은 보안 레벨을 나타내는 보안 레벨 "1" 을 갖는 뱅킹 애플리케이션 (122) 에 액세스하기 위한 커맨드로서 인식할 수도 있다. 이러한 경우에, 음성 커맨드에 대한 신뢰도 값이 보안 레벨 "1" 과 연관된 임계 값보다 높은 것으로 결정되면, 모바일 디바이스 (120) 는 음성 커맨드가 승인된 사용자로부터인 것으로 확인하고 화자 (110) 를 위해 뱅킹 애플리케이션 (122) 에 액세스한다.
다른 예에서, 모바일 디바이스 (120) 가 음성 커맨드 "사진" 을 입력 사운드로서 수신하는 경우, 모바일 디바이스 (120) 는 음성 커맨드를 중간 보안 레벨을 나타내는 레벨 "3" 을 갖는 사진 애플리케이션 (124) 에 액세스하기 위한 커맨드로서 인식할 수도 있다. 이러한 경우에, 음성 커맨드에 대한 신뢰도 값이 보안 레벨 "3" 과 연관된 임계 값보다 높은 것으로 결정되면, 모바일 디바이스 (120) 는 음성 커맨드가 승인된 사용자로부터인 것으로 확인하고 사진 애플리케이션 (124) 에 액세스한다.
또한, 수신된 입력 사운드가 음성 커맨드 "연락처" 를 포함하면, 모바일 디바이스 (120) 는 음성 커맨드를 보안 레벨 "5" 와 연관된 연락처 애플리케이션 (126) 에 액세스하기 위한 커맨드로서 인식할 수도 있다. 예를 들어, 보안 레벨 "5" 는 가장 낮은 보안 레벨을 나타낼 수도 있다. 이러한 경우에, 음성 커맨드에 대한 신뢰도 값이 보안 레벨 "5" 와 연관된 임계 값보다 높은 것으로 결정되면, 모바일 디바이스 (120) 는 음성 커맨드가 승인된 사용자로부터인 것으로 확인하고 연락처 애플리케이션 (126) 에 액세스한다.
도 2 는, 본 개시물의 일 실시형태에 따른, 화자의 음성 커맨드에 응답하여 애플리케이션들에 대한 보안 레벨들의 임계 값들을 조정함으로써 복수의 애플리케이션들에 대한 액세스를 제어하도록 구성된 전자 디바이스 (200) 의 블록도를 도시한다. 디바이스 (200) 는 사운드 센서 (210), I/O 유닛 (220), 통신 유닛 (230), 프로세서 (240), 및 저장 유닛 (270) 을 포함한다. 전자 디바이스 (200) 는 셀룰러 전화기과 같은 모바일 디바이스, 스마트폰, 랩탑 컴퓨터, 개인용 컴퓨터, 태블릿 컴퓨터, 게임 디바이스와 멀티미디어 디바이스, 스마트 텔레비젼, 개인용 컴퓨터 등과 같은 사운드 캡쳐 및 프로세싱 기능을 갖추고 있는 임의의 적합한 디바이스일 수도 있다.
프로세서 (240) 는 디지털 신호 프로세서 (digital signal processor; DSP) (250) 및 데이터베이스 업데이트 유닛 (260) 을 포함하고, 디바이스 (200) 를 관리하고 동작시키기 위한 애플리케이션 프로세서 (application processor; AP) 또는 중앙 프로세싱 유닛 (central processing unit; CPU) 일 수도 있다. DSP (250) 는 발화 검출기 (252) 및 음성 활성화 유닛 (254) 을 포함한다. 일 실시형태에서, DSP (250) 는 입력 사운드 스트림들을 프로세싱할 시에 전력 소비를 감소시키는 저 전력 프로세서이다. 이러한 구성에서, DSP (250) 에서의 음성 활성화 유닛 (254) 은 입력 사운드 스트림에서 인식되고 확인되는 경우 음성 커맨드가 저장 유닛 (270) 에 저장된 뱅킹 애플리케이션 (272), 사진 애플리케이션 (274), 및 연락처 애플리케이션 (276) 과 같은 애플리케이션에 액세스하도록 구성된다.
사운드 센서 (210) 는 입력 사운드 스트림을 수신하고 그것을 DSP (250) 에서의 발화 검출기 (252) 에 제공하도록 구성될 수도 있다. 사운드 센서 (210) 는 입력 사운드 스트림을 수신, 캡쳐, 감지, 및/또는 검출하는데 이용될 수 있는 하나 이상의 마이크로폰들 또는 임의의 다른 유형의 사운드 센서들을 포함할 수도 있다. 또한, 사운드 센서 (210) 는 그러한 기능들을 수행하기 위해 임의의 적합한 소프트웨어 및/또는 하드웨어를 사용할 수도 있다.
일 실시형태에서, 사운드 센서 (210) 는 듀티 사이클에 따라 주기적으로 입력 사운드 스트림을 수신하도록 구성될 수도 있다. 이러한 경우에, 사운드 센서 (210) 는 입력 사운드 스트림의 수신된 부분의 강도가 임계 강도보다 큰지 여부를 결정할 수도 있다. 수신된 부분의 강도가 임계 강도를 초과하는 경우, 사운드 센서 (210) 는 발화 검출기 (252) 를 활성화시키고 수신된 부분을 DSP (250) 에서의 발화 검출기 (252) 에 제공한다. 대안으로, 사운드 센서 (210) 는 주기적으로 입력 사운드 스트림의 일부분을 수신하고 발화 검출기 (252) 를 활성화시켜 수신된 부분의 강도가 임계 강도를 초과하는지 여부를 결정하지 않으면서 발화 검출기 (252) 의 수신된 부분을 제공할 수도 있다. 본원에서 이용되는 바와 같이, 용어 "사운드 스트림" 은 하나 이상의 사운드 신호들 또는 사운드 데이터의 시퀀스를 지칭한다.
DSP (250) 에서의 발화 검출기 (252) 는 사운드 센서 (210) 로부터 입력 사운드 스트림의 일부분을 수신하도록 구성된다. 일 실시형태에서, 발화 검출기 (252) 는 수신된 부분으로부터 복수의 사운드 특징들을 추출하고, GMM (Gaussian mixture model) 기반 분류기, 신경망, HMM (hidden Markov model), 지리학적 모델, 및 SVM (Support Vector Machine) 과 같은 임의의 적합한 사운드 분류 방법을 이용함으로써 추출된 사운드 특징들이 사람의 발화와 같은 관심 사운드를 나타내는지 여부를 결정할 수도 있다. 수신된 부분이 관심 사운드인 것으로 결정되는 경우, 발화 검출기 (252) 는 음성 활성화 유닛 (254) 을 활성화시키고, 입력 사운드 스트림의 수신된 부분 및 남은 부분은 음성 활성화 유닛 (254) 에 제공된다. 일부 다른 실시형태들에서, 발화 검출기 (252) 는 DSP (250) 에서 생략될 수도 있다. 이러한 경우에, 수신된 입력 사운드 스트림이 강도가 임계 강도보가 큰 경우, 사운드 센서 (210) 는 음성 활성화 유닛 (254) 을 활성화시키고 수신된 입력 사운드 스트림을 직접적으로 음성 활성화 유닛 (254) 에 제공한다.
애플리케이션들에 액세스하기 위한 음성 커맨드들을 인식할 시에 이용하기 위해, 저장 유닛 (270) 은 복수의 음성 커맨드의 부분들과 연관된 복수의 상태들에 대한 상태 정보와 함께 애플리케이션들의 각각에 대한 음성 커맨드 (예를 들어, 대상 키워드) 를 저장한다. 일 실시형태에서, 저장 유닛 (270) 은 음성 커맨드를 인식하기 위해 발화 또는 음향 모델을 저장할 수도 있다. 발화 또는 음향 모델은 음성 커맨드의 발화 특성들을 표현하는 모델이고, 그러한 발화 특성들의 통계적 모델일 수도 있다.
발화 또는 음향 모델에 있어서, 음성 커맨드는 단음들, 음소들, 또는 그것의 서브유닛들과 같은 복수의 기본 사운드 유닛들로 나눠질 수도 있다. 이러한 경우에, 음성 커맨드를 표현하는 복수의 부분들은 기본 사운드 유닛들에 기초하여 생성될 수도 있다. 음성 커맨드의 기본 사운드 유닛들의 각각은 임의의 적합한 발화 인식 방법들인, HMM (hidden Markov model), GMM (Gaussian mixture model), SMM (semi-Markov model) 등을 이용하여 분석될 수도 있다. 그 분석에 기초하여, 기본 사운드 유닛들의 각각의 평균 및 분산이 결정될 수도 있다. 음성 커맨드에 대한 기본 사운드 유닛들에 대한 결정된 평균 및 분산은 음성 커맨드에 대한 발화 또는 음향 모델을 생성하는데 이용된다.
저장 유닛 (270) 은 또한 프로세서 (240) 에 의해 액세스될 수 있는 뱅킹 애플리케이션 (272), 사진 애플리케이션 (274), 및 연락처 애플리케이션 (276) 을 저장한다. 도시된 실시형태에서는 저장 유닛 (270) 이 뱅킹 애플리케이션 (272), 사진 애플리케이션 (274), 및 연락처 애플리케이션 (276) 을 저장하지만, 저장 유닛은 또한 프로세서 (240) 에 의해 실행될 수 있는 임의의 다른 애플리케이션들 또는 기능들을 저장할 수도 있다. 저장 유닛 (270) 은 RAM (Random Access Memory), ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), 플래시 메모리, 또는 SSD (Solid State Drive) 와 같은 임의의 적합한 스토리지 또는 메모리 디바이스들을 이용하여 구현될 수도 있다.
또한, 저장 유닛 (270) 은 음성 활성화 유닛 (254) 및 데이터베이스 업데이트 유닛 (260) 에 의해 액세스되는 애플리케이션 액세스 데이터베이스 (278) 를 저장할 수도 있다. 애플리케이션 액세스 데이터베이스 (278) 는 음성 커맨드들을 애플리케이션들 및 애플리케이션들과 연관된 보안 레벨들에 연관시키는 정보를 포함한다. 나아가, 애플리케이션 액세스 데이터베이스 (278) 는 또한 화자 확인 데이터베이스 및 화자 모델과 같은 승인된 사용자를 확인하기 위한 정보를 포함할 수도 있다.
DSP (250) 에서의 음성 활성화 유닛 (254) 은 발화 검출기 (252) 에서 수신된 부분에서 시작하여 입력 사운드 스트림을 수신하도록 구성된다. 애플리케이션에 액세스하기 위한 음성 커맨드는 그러면 음성 활성화 유닛 (254) 에서 입력 사운드 스트림으로부터 인식될 수도 있다. 음성 커맨드를 인식하기 위해, 하나 이상의 사운드 특징들 (예를 들어, 오디오 핑거 핑거프린트들, MFCC 벡터들) 이 수신된 입력 사운드 스트림으로부터 추출되고 HMM (hidden Markov model), SMM (semi-Markov model) 등에 기초하여 임의의 적합한 발화 인식 방법들을 이용하여 분석될 수도 있다.
음성 커맨드가 인식되면, 음성 활성화 유닛 (254) 은 저장 유닛 (270) 에서의 애플리케이션 액세스 데이터베이스 (278) 에 기초하여 음성 커맨드와 연관되는 액세스될 애플리케이션, 그 애플리케이션과 연관된 보안 레벨, 및 그 보안 레벨과 연관된 임계 값을 식별한다. 예를 들어, 음성 커맨드 "뱅킹" 이 인식되는 경우, 음성 활성화 유닛 (254) 은 애플리케이션 액세스 데이터베이스 (278) 에 기초하여 뱅킹 애플리케이션 (272), 연관된 보안 레벨 (예를 들어, 보안 레벨 "1"), 및 그 보안 레벨에 대한 임계 값 (예를 들어, 임계 값 "9") 을 식별할 수도 있다.
음성 활성화 유닛 (254) 은 또한 추출된 사운드 특징들 및 애플리케이션 액세스 데이터베이스 (278) 에서의 화자 모델에 기초하여 음성 커맨드의 신뢰도 값을 결정하도록 구성된다. 화자 모델은 화자의 사운드 특성들을 표현하는 모델이고, 그러한 사운드 특성들의 통계적 모델이다. 음성 커맨드의 신뢰도 값은 그 다음에 액세스될 애플리케이션과 연관된 임계 값과 비교된다. 신뢰도 값이 임계 값을 초과하면, 음성 커맨드는 승인된 사용자로부터인 것으로 확인된다. 이러한 경우에, 음성 활성화 유닛 (254) 은 음성 커맨드와 연관된 애플리케이션에 액세스하도록 활성화 신호를 생성한다. 음성 커맨드가 확인된 경우, 음성 활성화 유닛 (254) 은 액세스된 애플리케이션에 대한 보안 레벨, 음성 커맨드에 대한 신뢰도 값, 및 음성 커맨드에 대한 사운드 특징들을 데이터베이스 업데이트 유닛 (260) 에 송신한다. 일 실시형태에서, 음성 커맨드에 대한 입력 사운드 스트림에 더해 또는 그 대신에 음성 커맨드에 대한 사운드 특징들이 데이터베이스 업데이트 유닛 (260) 에 송신될 수도 있다.
액세스된 애플리케이션에 대한 보안 레벨, 음성 커맨드에 대한 신뢰도 값, 및 음성 커맨드의 사운드 특징들을 수신하면, 데이터베이스 업데이트 유닛 (260) 은 저장 유닛 (270) 에서의 화자 모델을 업데이트한다. 예를 들어, 음성 커맨드의 사운드 특징들은 새로운 사운드 샘플로서 기존의 사운드 샘플들에 추가된다. 통계적 화자 모델의 경우에, 화자 모델에 대한 사운드 샘플들의 새로운 평균 및 새로운 분산은 새로운 사운드 샘플 및 기존의 사운드 샘플들의 이전의 평균과 분산에 기초하여 결정될 수도 있다. 데이터베이스 업데이트 유닛 (260) 은 그 다음에 업데이트된 화자 모델을 이용하여 보안 레벨들에 대한 임계 값들 중 적어도 하나의 임계 값을 조정한다. 전자 디바이스 (200) 는 그 다음에 업데이트된 화자 모델 및 조정된 임계 값을 이용하여 애플리케이션들 (272, 274, 및 276) 에 액세스하는 후속하는 음성 커맨드들을 확인할 수도 있다.
도 3 은, 본 개시물의 일 실시형태에 따른, 화자로부터의 음성 커맨드를 확인하기 위한 애플리케이션 액세스 데이터베이스 (278) 의 블록도를 도시한다. 애플리케이션 액세스 데이터베이스 (278) 는 애플리케이션 보안 데이터베이스 (310), 화자 확인 데이터베이스 (320), 및 화자 모델 (330) 을 포함한다. 애플리케이션 보안 데이터베이스 (310) 는 복수의 커맨드들 (312), 복수의 애플리케이션 식별자들 (314), 및 복수의 보안 레벨들 (316) 을 포함한다. 화자 확인 데이터베이스 (320) 는 복수의 보안 레벨들 (316), 복수의 임계 값들 (322), 및 복수의 사운드 샘플들 (324) 을 포함한다.
애플리케이션 보안 데이터베이스 (310) 는 커맨드들 (312) 을 액세스될 애플리케이션들을 나타내는 애플리케이션 식별자들 (314) 에 맵핑한다. 애플리케이션 식별자들 (314) 은 액세스될 애플리케이션들에 대한 보안 레벨들을 결정하기 위해 보안 레벨들 (316) 과 연관된다. 일 실시형태에서, 커맨드들 (312), 애플리케이션 식별자들 (314), 및 보안 레벨들 (316) 은 커맨드들 (312) 에 응답하여 애플리케이션 식별자들 (314) 및 보안 레벨들 (316) 을 결정하기 위해 룩업 테이블 또는 임의의 적합한 데이터 구조의 형태로 저장될 수도 있다. 애플리케이션 보안 데이터베이스 (310) 를 이용하여, 음성 활성화 유닛 (254) 은 음성 커맨드가 커맨드들 (312) 중 하나의 커맨드로 인식되는 경우에 액세스될 애플리케이션의 보안 레벨을 결정한다.
화자 확인 데이터베이스 (320) 에서, 보안 레벨들 (316) 은 인식된 음성 커맨드들의 신뢰도 값들이 보안 레벨들 (316) 과 연관된 애플리케이션들에 액세스하기 위해 초과해야할 최소 값들을 나타내는 임계 값들 (322) 에 맵핑된다. 일 실시형태에서, 보안 레벨은 보안 레벨에 대한 최소 신뢰도 값을 나타내는 임계 값에 맵핑된다. 화자의 사운드 샘플들 (324) 은 보안 레벨들 (316) 의 임계 값들 (322) 에 따라 화자 확인 데이터베이스 (320) 에서의 보안 레벨들 (316) 에 할당된다. 보안 레벨들 (316), 임계 값들 (322), 및 사운드 샘플들 (324) 을 포함하는 화자 확인 데이터베이스 (320) 는 룩업 테이블 또는 임의의 적합한 데이터 구조의 형태로 저장될 수도 있다.
애플리케이션 액세스 데이터베이스 (278) 에서의 화자 모델 (330) 은 화자의 음성 커맨드를 확인할 시에 이용하기 위해 음성 커맨드의 신뢰도 값을 산출하는데 이용된다. 화자 모델 (330) 은 사운드 샘플들 (324) 에 대한 평균 (332) 및 분산 (334) 과 같은 통계적 데이터를 포함하는 GMM 모델일 수도 있다. 다른 실시형태들에서, 화자 모델 (330) 은 또한 사운드 샘플들 (324) 의 최대 값, 최소 값, 잡음 전력, SNR, 신호 전력, 엔트로피, 첨도, 고차 모멘텀 (high order momentum) 등을 포함할 수도 있다. 음성 활성화 유닛 (254) 은 음성 커맨드의 신뢰도 값과 액세스될 애플리케이션에 대한 보안 레벨의 임계 값을 비교한다. 음성 커맨드의 신뢰도 값이 애플리케이션의 임계 값을 초과하면, 음성 활성화 유닛 (254) 은 음성 커맨드가 승인된 사용자로부터인 것으로 확인하고, 애플리케이션에 액세스하도록 활성화 신호를 생성한다.
도 4 는, 본 개시물의 일 실시형태에 따른, 승인된 사용자 및 승인되지 않은 사용자의 사운드 샘플들에 기초하여, 복수의 보안 레벨들에 대한 초기의 임계 값들을 포함하는, 화자 확인 데이터베이스 (320) 를 설정하는 도면을 도시한다. 도시된 바와 같이, 화자 확인 데이터베이스 (320) 는 5 개의 보안 레벨들 "1" 내지 "5" 를 포함하며, 보안 레벨 "1" 은 가장 높은 보안 레벨이다. 모바일 디바이스 (120) 에서의 각각의 애플리케이션에는 액세스를 위한 보안 레벨들 중 하나의 보안 레벨이 할당될 수도 있다. 화자 확인 데이터베이스 (320) 가 5 개의 보안 레벨들을 갖는 것으로 도시되나, 임의의 적합한 개수의 보안 레벨들을 포함할 수도 있다.
화자 확인 데이터베이스 (320) 를 설정하기 위해, 전자 디바이스 (200) 는 승인된 사용자인 화자로부터 복수의 사운드 샘플들 (S1 내지 S10) 및 승인되지 않은 사용자 (즉, 사기꾼) 로부터 복수의 사운드 샘플들 (U1 내지 U10) 을 수신하여 저장한다. 위에서 논의된 바와 같이, 승인된 사용자의 사운드 샘플들 (S1 내지 S10) 은 사운드 샘플들의 통계적 데이터 (예를 들어, 평균 및 분산) 를 이용하여 화자 모델을 생성하는데 이용된다. 사운드 샘플들 (S1 내지 S10) 및 사운드 샘플들 (U1 내지 U10) 의 신뢰도 값들은 그러면 화자 모델에 기초하여 결정된다. 이러한 경우에, 승인된 사용자에 대한 사운드 샘플들의 신뢰도 값들은 일반적으로 승인되지 않은 사용자에 대한 사운드 샘플들의 신뢰도 값들보다 상당히 높을 것이다.
사운드 샘플들 (S1 내지 S10, 및 U1 내지 U10) 의 신뢰도 값들이 결정된 후에, 가장 높은 임계 값 및 가장 낮은 임계 값이 신뢰도 값들 중에서 선택된다. 전자 디바이스 (200) 는 가장 높은 임계 값이 승인된 사용자에 대한 사운드 샘플들 (S1 내지 S10) 의 신뢰도 값들 중 최소 값이 되도록 결정할 수도 있다. 가장 높은 임계 값은 그러면 가장 높은 보안 레벨 "1" 에 맵핑된다. 반면에, 전자 디바이스 (200) 는 가장 낮은 임계 값이 승인되지 않은 사용자에 대한 사운드 샘플들 (U1 내지 U10) 의 신뢰도 값들 중에서 최대 값이 되도록 결정할 수도 있다. 이러한 경우에, 가장 낮은 임계 값은 가장 낮은 보안 레벨 "5" 에 맵핑된다.
각각, 가장 높은 보안 레벨 "1" 및 가장 낮은 보안 레벨 "5" 에 대응하는, 가장 높은 임계 값과 가장 낮은 임계 값 사이의 간격은 그러면 보안 레벨 "1" 과 보안 레벨 "5" 사이의 중간 보안 레벨들 "2," "3," 및 "4" 에 대한 임계 값들을 결정하도록 파티셔닝되거나 나눠질 수도 있다. 일 실시형태에서, 전자 디바이스 (200) 는 가장 높은 임계 값과 가장 낮은 임계 값 사이의 차이를 동일하게 파티셔닝함으로써 보안 레벨들 "2", "3", 및 "4" 에 대한 임계 값들을 결정한다. 이러한 경우에, 차이는 임계 값 증분을 산출하기 위해 4 (즉, 중간 보안 레벨들 + 1 의 수) 로 나눠질 수도 있다. 하나 이상의 임계 값 증분들은 그러면 가장 낮은 임계 값에 추가되어 중간 보안 레벨들 "2", "3", 및 "4" 에 대한 임계 값들을 결정할 수도 있다. 대안으로, 하나 이상의 임계 값 증분들은 가장 높은 임계 값들로부터 감산되어 중간 보안 레벨들 "2", "3", 및 "4" 에 대한 임계 값들을 결정할 수도 있다. 이러한 방식으로, 보안 레벨들의 각각은 보안 레벨에 대한 최소 신뢰도 값을 나타내는 연관된 임계 값만큼 증가하게 정의될 수도 있다.
도 5 는, 본 개시물의 일 실시형태에 따른, 화자로부터의 음성 커맨드가 확인되는 경우 애플리케이션에 액세스하도록 구성된 음성 활성화 유닛 (254) 의 블록도이다. 음성 활성화 유닛 (254) 은 커맨드 결정 유닛 (510), 보안 레벨 결정 유닛 (520), 및 화자 확인 유닛 (530) 을 포함한다. 커맨드 결정 유닛 (510) 은 입력 사운드 스트림으로부터 애플리케이션에 액세스하기 위한 음성 커맨드를 인식하고, 보안 레벨 결정 유닛 (520) 은 애플리케이션에 대한 보안 레벨을 결정한다. 화자 확인 유닛 (530) 은 그러면 음성 커맨드가 승인된 사용자로부터인 것으로 확인되면 애플리케이션에 액세스한다.
음성 활성화 유닛 (254) 에서, 커맨드 결정 유닛 (510) 은 발화 검출기 (252) 로부터 입력 사운드 스트림을 수신하고 입력 사운드 스트림으로부터 애플리케이션에 액세스하기 위한 음성 커맨드를 인식하도록 구성된다. 음성 커맨드를 인식하기 위해, 커맨드 결정 유닛 (510) 은 수신된 입력 사운드 스트림으로부터 하나 이상의 사운드 특징들 (예를 들어, 오디오 핑거 핑거프린트들, MFCC 벡터들) 을 추출한다. 추출된 사운드 특징들은 그 다음에 음성 커맨드를 인식하기 위해 HMM, SMM 등에 기초하여 임의의 적합한 발화 인식 방법들을 이용하여 분석된다. 일 실시형태에서, 커맨드 결정 유닛 (510) 은 입력 사운드 스트림을 음소들과 같은 복수의 기본 사운드 유닛들로 나누고, 그 다음에 저장 유닛 (270) 에 저장된 음성 커맨드에 대한 발화 또는 음향 모델에 액세스하여 음성 커맨드를 인식할 수도 있다. 음성 커맨드가 인식되면, 커맨드 결정 유닛 (510) 은 인식된 음성 커맨드를 보안 레벨 결정 유닛 (520) 에 송신한다. 일 실시형태에서, 추출된 사운드 특징들은 음성 커맨드를 확인할 시에 이용하기 위해 화자 확인 유닛 (530) 에 송신될 수도 있다.
보안 레벨 결정 유닛 (520) 은 음성 커맨드를 수신하고 인식된 음성 커맨드에 기초하여 액세스될 애플리케이션을 식별한다. 일 실시형태에서, 복수의 커맨드들, 음성 커맨드들과 연관된 애플리케이션 식별자들, 및 애플리케이션들에 대한 보안 레벨들은 저장 유닛 (270) 의 애플리케이션 보안 데이터베이스 (310) 에 저장된다. 음성 커맨드에 기초하여, 보안 레벨 결정 유닛 (520) 은 애플리케이션 보안 데이터베이스 (310) 로부터 액세스될 애플리케이션을 식별한다. 보안 레벨 결정 유닛 (520) 은 또한 애플리케이션 보안 데이터베이스 (310) 로부터 액세스될 애플리케이션과 연관된 보안 레벨을 결정할 수도 있다. 애플리케이션에 액세스하기 위한 애플리케이션 식별자 및 그것의 보안 레벨이 그러면 화자 확인 유닛 (530) 으로 송신된다.
화자 확인 유닛 (530) 은 입력 사운드 스트림 및 보안 레벨과 함께 애플리케이션 식별자를 수신하고 음성 커맨드가 애플리케이션에 액세스하도록 승인된 사용자로부터의 것인지 여부를 확인하도록 구성된다. 화자 확인 유닛 (530) 은 화자 모델 (330) 및 입력 사운드 스트림으로부터 추출된 사운드 특징들에 기초하여 입력 사운드 스트림에서의 음성 커맨드의 신뢰도 값을 결정할 수도 있다. 이러한 경우에, 화자 확인 유닛 (530) 은 입력 사운드 스트림으로부터 사운드 특징들을 추출하거나 커맨드 결정 유닛 (510) 으로부터 수신되는 추출된 사운드 특징들을 이용할 수도 있다. 일 실시형태에서, 사운드 특징들의 각각에 대한 신뢰도 값은 화자 모델 (330) 에 기초하여 산출될 수도 있고, 사운드 특징들의 신뢰도 값들의 평균은 음성 커맨드에 대한 신뢰도 값으로 이용될 수도 있다.
화자 확인 유닛 (530) 은 또한 저장 유닛 (270) 에서의 화자 확인 데이터베이스 (320) 로부터 애플리케이션 식별자의 보안 레벨에 대한 임계 값을 획득하도록 구성된다. 화자 확인 유닛 (530) 은 그 다음에 임계 값과 음성 커맨드의 신뢰도 값을 비교하여 신뢰도 값이 임계 값을 초과하는지를 결정한다. 신뢰도 값이 임계 값을 초과하지 않으면, 음성 커맨드는 승인된 사용자로부터인 것으로 확인되지 않는다. 이러한 경우에, 화자 확인 유닛 (530) 은 화자로부터 추가적인 입력을 수신하여 애플리케이션에 액세스하기 위한 음성 커맨드들을 인증할 수도 있다. 화자가 확인되지 않으면, 애플리케이션은 액세스되지 않는다.
반면에, 음성 커맨드의 신뢰도 값이 임계 값을 초과하면, 음성 커맨드는 승인된 사용자로부터인 것으로 확인된다. 화자 확인 유닛 (530) 은 그러면 음성 커맨드에 응답하여 식별된 애플리케이션에 액세스하기 위한 활성화 신호를 생성한다. 또한, 화자 확인 유닛 (530) 은 액세스된 애플리케이션에 대한 보안 레벨, 음성 커맨드의 신뢰도 값, 및 음성 커맨드에 대한 새로운 사운드 샘플로서 사운드 특징들을 데이터베이스 업데이트 유닛 (260) 에 송신한다.
도 6 은 본 개시물의 일 실시형태에 따른 전자 디바이스 (200) 에서 음성 커맨드에 기초하여 애플리케이션들에 대한 액세스를 제어하기 위한 방법 (600) 의 플로 차트를 도시한다. 전자 디바이스 (200) 에는 복수의 애플리케이션들이 제공된다. 애플리케이션들의 각각은 보안 레벨과 연관되며, 보안 레벨은 최소 신뢰도 값을 애플리케이션에 액세스하기 위한 임계 값으로 갖는다.
610 에서, 복수의 애플리케이션들 중에서 대상 애플리케이션에 액세스하기 위한 화자로부터의 음성 커맨드를 포함하는 입력 사운드 스트림이 수신된다. 음성 커맨드가 대상 애플리케이션에 액세스하기 위한 커맨드로 인식되면, 620 에서, 승인된 사용자의 화자 모델 (330) 에 기초하여 음성 커맨드가 승인된 사용자를 나타내는지 여부가 확인된다. 음성 커맨드가 확인되면, 대상 애플리케이션에 액세스하기 위한 활성화 신호가 생성되고, 대상 애플리케이션이 액세스된다. 또한, 음성 커맨드가 확인되면, 630 에서, 화자 모델 (330) 은 새로운 사운드 샘플로서 그 음성 커맨드로 업데이트된다. 업데이트된 화자 모델에 기초하여, 640 에서, 보안 레벨들에 대한 임계 값들 중 적어도 하나의 임계 값이 조정된다. 이에 따라, 전자 디바이스 (200) 는 그 다음에 업데이트된 화자 모델 및 조정된 임계 값을 이용하여 애플리케이션들에 액세스하기 위한 후속하는 음성 커맨드들을 확인할 수도 있다.
도 7 은, 본 개시물의 일 실시형태에 따른, 화자로부터의 음성 커맨드를 확인함으로써 애플리케이션에 액세스하도록 구성된 화자 확인 유닛 (530) 의 블록도이다. 화자 확인 유닛 (530) 은 음성 확인 유닛 (710) 및 이차 확인 유닛 (740) 을 포함한다. 음성 확인 유닛 (710) 은 신뢰도 결정 유닛 (720) 및 애플리케이션 액세스 제어기 (730) 를 더 포함한다.
음성 확인 유닛 (710) 은 보안 레벨 결정 유닛 (520) 으로부터 액세스될 애플리케이션을 나타내는 애플리케이션 식별자 및 애플리케이션의 보안 레벨을 수신한다. 또한, 음성 확인 유닛 (710) 은 발화 검출기 (252) 로부터 입력 사운드 스트림을 수신하고, 입력 사운드 스트림으로부터 사운드 특징들을 추출할 수도 있다. 대안으로, 음성 확인 유닛 (710) 은 커맨드 결정 유닛 (510) 으로부터 추출된 사운드 특징들을 수신할 수도 있다. 신뢰도 결정 유닛 (720) 은 그 다음에 추출된 사운드 특징들 및 저장 유닛 (270) 으로부터의 화자 모델 (330) 에 기초하여 음성 커맨드의 신뢰도 값을 결정한다. 음성 커맨드의 신뢰도 값은 그러면 애플리케이션 액세스 제어기 (730) 로 송신된다.
신뢰도 결정 유닛 (720) 은 음성 커맨드의 신뢰도 값을 결정한다. 일 실시형태에서, 신뢰도 결정 유닛 (720) 은 화자 모델 (330) 및 사운드 특징들의 신뢰도 값들의 평균에 기초하여 사운드 특징들의 각각에 대한 신뢰도 값을 산출할 수도 있다. 이러한 경우에, 평균 신뢰도 값은 음성 커맨드에 대한 신뢰도 값으로서 이용될 수도 있다. 예를 들어, 화자 모델 (330) 이 평균 및 분산을 포함하는 GMM 모델인 경우, 신뢰도 결정 유닛 (720) 은 사운드 특징이 신뢰도 값으로서 GMM 모델에 속할 가능성을 산출한다. 음성 커맨드의 사운드 피쳐들에 대한 신뢰도 값들은 그러면 평균내어져 사운드 특징들에 대한 평균 신뢰도 값을 생성할 수도 있다. 다른 실시형태들에서, 신뢰도 결정 유닛 (720) 은 은닉 마르코브 모델들, 패턴 매칭 알고리즘, 신경망들, 벡터 양자화와 결정 트리들, 안티-화자 기법들 (예를 들어, 범용 배경 모델) 등과 같은, 음성 커맨드의 신뢰도 값을 결정하기 위한, 임의의 다른 적합한 알고리즘을 이용할 수도 있다.
화자 확인 데이터베이스 (320) 로부터, 애플리케이션 액세스 제어기 (730) 는 액세스될 애플리케이션에 대한 보안 레벨의 임계 값을 획득한다. 보안 레벨의 임계 값 및 음성 커맨드의 신뢰도 값이 그러면 비교된다. 신뢰도 값이 보안 레벨의 임계 값을 초과하는 경우, 음성 커맨드는 승인된 사용자로부터의 것으로 확인된다. 이러한 경우에, 애플리케이션 액세스 제어기 (730) 는 애플리케이션에 액세스하기 위한 활성화 신호를 생성하다. 또한, 신뢰도 값, 애플리케이션의 보안 레벨, 및 새로운 사운드 샘플로서의 사운드 특징들이 데이터베이스 업데이트 유닛 (260) 으로 송신되어 화자 모델 (330) 을 업데이트하고 보안 레벨들에 대한 임계 값들 중 적어도 하나의 임계 값을 조정한다.
반면에, 입력 사운드의 신뢰도 값이 보안 레벨의 임계 값을 초과하지 않으면, 음성 확인 유닛 (710) 은 화자로부터 추가적인 입력을 수신하여 음성 커맨드가 승인된 사용자로부터의 것인지를 확인하도록 이차 확인 유닛 (740) 에 통지한다. 이차 확인 유닛 (740) 은 그러면 I/O 유닛 (220) 을 통해 추가적인 음성 샘플, 비밀번호, 홍채 스캔, 지문 스캔, 얼굴 스캔을 포함하는 생체인식 스캔 등과 같은 하나 이상의 입력들을 제공할 것을 화자에게 요청할 수도 있다.
입력이 화자로부터 수신되면, 이차 확인 유닛 (740) 은 추가적인 입력이 승인된 사용자로부터의 것인지 여부를 결정하도록 구성된다. 예를 들어, 이차 확인 유닛 (740) 이 확인을 위한 비밀번호를 요청하면, 화자는 I/O 유닛 (220) 에서의 키패드를 통해 비밀번호를 입력할 수도 있다. 입력된 비밀번호가 저장 유닛 (270) 에 저장된 승인된 사용자의 비밀번호와 동일한 경우, 이차 확인 유닛 (740) 은 음성 커맨드의 화자가 승인된 사용자인 것으로 확인된다고 애플리케이션 액세스 제어기 (730) 에 통지한다. 다른 예에서, 추가적인 음성 샘플이 수신되는 경우, 그것은 음성 확인 유닛 (710) 으로 송신되어 추가적인 음성 샘플이 승인된 사용자로부터의 것인지를 확인할 수도 있다.
추가적인 화자 확인에 기초하여, 이차 확인 유닛 (740) 은 처음에 확인되지 않은 음성 커맨드가 애플리케이션에 액세스하도록 승인된 사용자로부터의 것이라고 확인할 수도 있다. 추가적인 화자 확인에 기초하여 음성 커맨드의 화자가 확인되면, 이차 확인 유닛 (740) 은 음성 커맨드의 화자가 확인되었다고 음성 확인 유닛 (710) 에 통지한다. 응답으로, 애플리케이션 액세스 제어기 (730) 는 애플리케이션에 액세스하기 위한 활성화 신호를 생성하다. 또한, 애플리케이션 액세스 제어기 (730) 는 신뢰도 값, 애플리케이션의 보안 레벨, 및 새로운 사운드 샘플로서 음성 커맨드의 사운드 피쳐들을 데이터베이스 업데이트 유닛 (260) 에 송신한다.
도 8 은, 본 개시물의 일 실시형태에 따른, 확인된 음성 커맨드에 기초하여, 화자 모델 (330) 을 업데이트하고 보안 레벨들 (316) 에 대한 임계 값들 (322) 을 조정하도록 구성된 데이터베이스 업데이트 유닛 (260) 의 블록도를 도시한다. 확인된 음성 커맨드에 응답하여 화자 모델 (330) 이 업데이트되고 보안 레벨들 (316) 에 대한 임계 값들 (322) 이 조정된 경우, 그것들은 후속하는 애플리케이션들에 액세스하기 위한 음성 커맨드들을 확인하는데 이용될 수도 있다. 데이터베이스 업데이트 유닛 (260) 은 화자 모델 업데이트 유닛 (810) 및 임계 조정 유닛 (820) 을 포함한다.
화자 모델 업데이트 유닛 (810) 은 확인된 음성 커맨드에 대한 새로운 사운드 샘플 및 새로운 사운드 샘플에 대해 결정된 신뢰도 값을 수신하도록 구성된다. 화자 모델 업데이트 유닛 (810) 은 그 다음에 새로운 사운드 샘플을 추가함으로써 화자 확인 데이터베이스 (320) 의 사운드 샘플들 (324) 을 업데이트한다. 일 실시형태에서, 사운드 샘플들 (324) 은 그것들이 신뢰도 값들에 기초하여 연관된 보안 레벨들 (316) 에 맵핑된다. 예를 들어, 새로운 사운드 샘플과 연관된 신뢰도 값이 9.1 이고 보안 레벨 "1" 의 임계 값이 9.0 이면, 새로운 사운드 샘플은 보안 레벨 "1" 에 맵핑된다.
예시된 바와 같이, 화자 모델 업데이트 유닛 (810) 은 평균 (332) 과 분산 (334) 에 기초한 새로운 평균과 새로운 분산 및 새로운 사운드 샘플의 신뢰도 값을 결정함으로써 화자 모델 (330) 을 업데이트한다. 대안으로, 화자 모델 업데이트 유닛 (810) 은 사운드 샘플들 (324) 을 이용하여 화자 모델 (330) 에 대한 새로운 평균 및 새로운 분산을 결정할 수도 있다. 화자 모델 (330) 의 새로운 평균 및 분산을 결정할 시에, 새로운 사운드 샘플은 그것의 신뢰도 값에 따라 가중치가 주어질 수도 있다. 예를 들어, 새로운 사운드 샘플의 신뢰도 값이 낮으면, 화자 모델 (330) 의 새로운 평균 및 분산을 산출할 시에 새로운 사운드 샘플에는 낮은 가중치가 주어질 수도 있다. 반면에, 새로운 사운드 샘플의 신뢰도 값이 높으면, 발화 모델 (330) 의 새로운 평균 및 분산을 산출할 시에 새로운 사운드 샘플에 높은 가중치가 주어질 수도 있다.
일부 실시형태들에서, 화자 모델 (330) 의 평균 (332) 및 분산 (334) 은 MAP (Maximum a posteriori) 적응 기법을 이용함으로써 업데이트될 수도 있다. 이러한 경우에, 평균 (332) 및/또는 분산 (334) 은 이전의 평균 및/또는 분산과, 새로운 사운드 샘플을 이용하여 계산된 새로운 평균 및/또는 분산의 선형 조합을 수행함으로써 업데이트된다. 이전의 평균 및/또는 분산 및 새로운 평균 및/또는 분산의 각각은 새로운 사운드 샘플의 신뢰도 값에 기초하여 상이하게 가중치가 주어진다. 예를 들어, 새로운 사운드 샘플의 신뢰도 값이 높으면, 선형 조합을 수행할 경우에 새로운 평균에 대해 큰 계수 값이 이용될 수도 있다. 새로운 사운드 샘플을 이용하여, 화자 모델 (330) 의 평균 (332) 및 분산 (334) 이 그러면 업데이트될 수도 있다. 화자 모델 업데이트 유닛 (810) 은 또한 화자 모델 (330) 이 업데이트되었다고 임계 조정 유닛 (820) 에 통지한다.
임계 조정 유닛 (820) 은 화자 모델 업데이트 유닛 (810) 으로부터 업데이트 통지를 수신하도록 구성된다. 임계 조정 유닛 (820) 은 그러면 화자 모델 (330) 에 액세스하여 업데이트된 사운드 샘플들 (324) 에 대한 신뢰도 값들을 재-산출한다. 일 실시형태에서, 임계 조정 유닛 (820) 은 액세스된 애플리케이션의 보안 레벨과 연관된 사운드 샘플들에 대한 신뢰도 값들을 재-산출할 수도 있다. 재-산출된 신뢰도 값들은 그러면 액세스된 애플리케이션의 보안 레벨에 대한 새로운 임계 값을 결정하는데 이용될 수도 있다. 예를 들어, 새로운 임계 값은 재산출된 신뢰도 값들 중에서 최소 신뢰도 값일 수도 있다. 따라서, 최소 신뢰도 값이 보안 레벨에 대한 이전의 임계 값과 상이하면, 임계 값은 재-산출된 신뢰도 값들 중에서 최소 신뢰도 값으로 조정될 수도 있다.
대안으로, 임계 조정 유닛 (820) 은 화자 확인 데이터베이스 (320) 에서의 사운드 샘플들 (324) 에 대한 신뢰도 값들을 재-산출할 수도 있다. 이러한 경우에, 화자 확인 데이터베이스 (320) 에서의 보안 레벨들 (316) 에 대한 임계 값들 (322) 은 보안 레벨들 (316) 에 대한 임의의 새로운 최소 신뢰도 값들을 반영하도록 조정될 수도 있다. 다른 실시형태에서, 임계 조정 유닛 (820) 은 새로운 사운드 샘플이 맵핑되는 보안 레벨과 연관된 사운드 샘플들 (324) 에 대한 신뢰도 값들을 재-산출할 수도 있다. 이러한 보안 레벨에 대한 임계 값은 보안 레벨과 연관된 사운드 샘플들에 대한 재-산출된 신뢰도 값들 중에서 최소 신뢰도 값이 되도록 조정될 것이다.
도 9 는, 본 개시물의 일 실시형태에 따른, 확인된 음성 커맨드에 대한 새로운 사운드 샘플로 업데이트될 수도 있는 화자 확인 데이터베이스 (320) 의 도면을 도시한다. 화자 확인 데이터베이스 (320) 는 각각 임계 값들 9.0, 7.0, 5.0, 3.0, 및 1.0 과 연관되는 5 개의 보안 레벨들 "1" 내지 "5" 를 포함한다. 임계 값들의 각각은 연관된 보안 레벨에 대한 최소 신뢰도 값을 나타낸다. 보안 레벨들 "1" 내지 "5" 는 또한 각각 사운드 샘플 그룹들 (910, 920, 930, 940, 및 950) 과 연관된다. 사운드 샘플 그룹들 (910, 920, 930, 940, 및 950) 의 각각은 FIFO (first-in first-out) 데이터 구조를 이용하여 큐, 버퍼 등의 형태로 구현될 수도 있고, 0 부터 미리 결정된 숫자까지 사운드 샘플들의 세트를 포함할 수도 있다.
도시된 화자 확인 데이터베이스 (320) 에서, 사운드 샘플 그룹들 (910, 920, 930, 940, 및 950) 의 각각은 최대 4 개의 사운드 샘플들을 포함할 수도 있으나, 또한 임의의 적합한 개수의 사운드 샘플들을 포함할 수도 있다. 도 9 의 예에서, 사운드 샘플 그룹들 (910, 920, 930, 940, 및 950) 은 화자 확인 데이터베이스 (320) 의 초기 설정 후에 이전에 확인된 음성 커맨드들에 대한 사운드 샘플들을 포함한다. 화자로부터의 후속하는 음성 커맨드들이 추가적으로 확인됨에 따라, 확인된 커맨드들에 대한 사운드 특징들이 새로운 사운드 샘플로서 화자 확인 데이터베이스 (320) 에 추가될 수도 있다.
사운드 샘플들에는 그것들의 신뢰도 값들 및 보안 레벨들 "1" 내지 "5" 에 대한 임계 값들에 기초하여 사운드 샘플 그룹들 (910 내지 950) 이 할당된다. 예를 들어, 사운드 샘플의 신뢰도 값은 보안 레벨들 "1" 내지 "5" 에 대한 임계 값들과 비교되어 사운드 샘플의 신뢰도 값보다 적은 임계 값들을 갖는 하나 이상의 보안 레벨들을 결정할 수도 있다. 사운드 샘플에는 그러면 결정된 임계 값들 중에서 가장 높은 임계 값을 갖는 보안 레벨과 연관된 사운드 샘플 그룹이 할당된다. 예를 들어, 사운드 샘플 (S3_2) 의 신뢰도 값이 6.3 이면, 임계 값들 5.0, 3.0, 및 1.0 은 신뢰도 값 6.3 보다 적도록 결정된다. 사운드 샘플 (S3_2) 에는 그러면 결정된 임계 값들 5.0, 3.0, 및 1.0 중에서 가장 높은 임계 값 5.0 을 갖는 보안 레벨 "3" 과 연관된 사운드 샘플 그룹 930 이 할당된다.
처음에, 도 4 에서 도시된 바와 같이, 보안 레벨들 및 그것들의 초기 임계 값들은 승인된 사용자 및 승인되지 않은 사용자의 사운드 샘플들에 기초하여 결정된다. 음성 커맨드들이 수신되고 확인됨에 따라, 화자 확인 데이터베이스 (320) 는 그러면 확인된 음성 커맨드들에 대한 사운드 샘플들을 그것들의 신뢰도 값들에 기초하여 사운드 샘플 그룹들 (910, 920, 930, 940, 및 950) 에 할당한다. 화자 확인 데이터베이스 (320) 에서, 사운드 샘플 그룹들 (910, 920, 930, 940, 및 950) 은 각각 3 개의 사운드 샘플들 (예를 들어, S1_1, S1_2, 및 S1_3), 2 개의 사운드 샘플들 (예를 들어, S2_1 및 S2_2), 4 개의 사운드 샘플들 (예를 들어, S3_1, S3_2, S3_3, 및 S3_4), 1 개의 사운드 샘플 (예를 들어, S4_1), 및 4 개의 사운드 샘플들 (예를 들어, S5_1, S5_2, S5_3, 및 S5_4) 을 포함한다.
새로운 사운드 샘플 및 확인된 음성 커맨드에 대한 새로운 사운드 샘플의 신뢰도 값이 수신되는 경우, 사운드 샘플 그룹은 새로운 사운드 샘플의 신뢰도 값에 기초하여 결정된다. 새로운 사운드 샘플은 그 다음에 결정된 사운드 샘플 그룹에 추가될 것이다. 예를 들어, 8.2 의 신뢰도 값을 갖는 새로운 사운드 샘플 (S_IN) 이 수신되면, 7.0 의 임계 값을 갖는 보안 레벨 "2" 의 새로운 사운드 샘플은 사운드 샘플 그룹 920 에 추가된다. 사운드 샘플 그룹들 930 및 950 처럼 사운드 샘플 그룹이 꽉 차면, 새로운 사운드 샘플을 추가하기 위해 기존의 사운드 샘플은 제거된다. 그러한 경우에, 기존의 사운드 샘플들은 선입 선출 기준으로 제거된다. 예를 들어, 새로운 사운드 샘플 (예를 들어, S3_5) 이 4 개의 사운드 샘플들 (S3_l 내지 S3_4) 의 최대치를 갖는 사운드 샘플 그룹 930 에 추가될 경우, 제 1 사운드 샘플 (S3_l) 이 제거될 수도 있고 새로운 사운드 샘플이 사운드 샘플 그룹 930 에 추가될 수도 있다.
화자 확인 데이터베이스 (320) 에서의 사운드 샘플들이 업데이트된 후에, 데이터베이스 업데이트 유닛 (260) 은 화자 모델 (330) 의 통계적 데이터를 업데이트할 수도 있다. 일 실시형태에서, 화자 모델 (330) 은 새롭게 추가된 사운드 샘플의 신뢰도 값으로 업데이트될 수도 있다. 예를 들어, 화자 모델 (330) 의 새로운 통계적 데이터는 새로운 사운드 샘플 및 이전의 통계적 데이터에 기초하여 산출될 수도 있다. 새로운 사운드 샘플을 위한 자리를 만들기 위해 기존의 사운드 샘플이 제거되면, 제거된 사운드 샘플, 새로운 사운드 샘플, 및 이전의 통계적 데이터에 기초하여 새로운 통계적 데이터가 산출될 수도 있다. 일부 실시형태들에서, 새로운 사운드 샘플의 신뢰도 값에 비례하여 새로운 사운드 샘플에 가중치가 주어질 수도 있다.
도 10 은, 본 개시물의 일 실시형태에 따른, 음성 커맨드에 대한 신뢰도 값에 기초하여 화자 모델 (330) 을 업데이트하는 방법 (1000) 의 플로 차트를 도시한다. 음성 활성화 유닛 (254) 은 음성 커맨드에 대한 신뢰도 값을 결정함으로써 음성 커맨드를 확인한다. 음성 커맨드가 확인되면, 음성 활성화 유닛 (254) 은 확인된 음성 커맨드에 대한 하나 이상의 사운드 특징들을 새로운 사운드 샘플로서 데이터베이스 업데이트 유닛 (260) 에 제공한다.
도 10 에 도시된 바와 같이, 데이터베이스 업데이트 유닛 (260) 은, 1010 에서, 확인된 음성 커맨드에 대한 새로운 사운드 샘플을 수신한다. 더불어, 데이터베이스 업데이트 유닛 (260) 은 또한 음성 활성화 유닛 (254) 으로부터 확인된 음성 커맨드에 대한 신뢰도 값을 수신한다. 수신된 새로운 사운드 샘플 및 신뢰도 값은 화자 모델 (330) 을 업데이트할 시에 이용된다. 이러한 프로세스에서, 새로운 사운드 샘플은, 1020 에서, 음성 커맨드에 대한 신뢰도 값에 비례하여 가중치가 주어진다. 화자 모델 (330) 은 그러면, 1030 에서, 가중된 새로운 사운드 샘플에 기초하여 업데이트된다.
도 11 은, 본 개시물의 일 실시형태에 따른, 새로운 사운드 샘플 (S_IN) 의 보안 레벨에 대한 임계 값이 새로운 사운드 샘플 (S_IN) 을 수신하는 것에 응답하여 조정되는 화자 확인 데이터베이스 (320) 의 도면을 도시한다. 이러한 실시형태에서, 새로운 사운드 샘플 (S_IN) 은 신뢰도 값에 따라 보안 레벨 "1" 과 연관된 사운드 그룹 910 에 추가되어 화자 확인 데이터베이스 (320) 를 업데이트한다. 위에서 설명된 바와 같이, 화자 모델 (330) 은 그러면 화자 확인 데이터베이스 (320) 에서의 새로운 사운드 샘플 (S_IN) 에 기초하여 업데이트될 수도 있다.
화자 모델 (330) 이 업데이트된 후에, 데이터베이스 업데이트 유닛 (260) 은 새로운 사운드 샘플 (S_IN) 을 포함하는 보안 레벨 "1" 에 대한 사운드 샘플 그룹 910 과 연관된 임계 값 9.0 을 업데이트한다. 이러한 경우에, 보안 레벨 "1" 과 연관된 사운드 샘플 그룹 910 에서의 사운드 샘플들 (예를 들어, S1_l, S1_2, S1_3, 및 S_IN) 에 대한 신뢰도 값들은 업데이트된 화자 모델 (330) 을 이용하여 재-산출된다. 재-산출된 신뢰도 값들 중에서 최소 신뢰도 값이 그러면 보안 레벨 "1" 에 대한 새로운 임계 값으로서 선택될 수도 있다. 따라서, 보안 레벨 "1" 에 대해 이전에 설정된 임계 값 9.0 이 최소 신뢰도 값과 상이하면, 임계 값은 도 11 에서 화살표에 의해 나타내어진 바와 같이 최소 신뢰도 값으로 조정될 수도 있다.
도 12 는, 본 개시물의 일 실시형태에 따른, 새로운 사운드 샘플 (S_IN) 의 보안 레벨과 상이한 보안 레벨에 임계 값이 새로운 사운드 샘플 (S_IN) 을 수신하는 것에 응답하여 조정되는 전자 디바이스의 화자 확인 데이터베이스 (320) 의 도면을 도시한다. 도 11 과 유사하게, 새로운 사운드 샘플 (S_IN) 은 신뢰도 값에 따라 보안 레벨 "1" 과 연관된 사운드 샘플 그룹 910 에 추가되어 화자 확인 데이터베이스 (320) 를 업데이트한다. 또한, 화자 모델 (330) 은 화자 확인 데이터베이스 (320) 에서의 새로운 사운드 샘플 (S_IN) 에 기초하여 업데이트될 수도 있다.
도시된 실시형태에서, 데이터베이스 업데이트 유닛 (260) 은 음성 활성화 유닛 (254) 으로부터 확인된 음성 커맨드와 연관된 애플리케이션과 연관된 보안 레벨을 수신한다. 이러한 예에서, 애플리케이션과 연관된 보안 레벨은 보안 레벨 "3" 인 것으로 가정된다. 따라서, 데이터베이스 업데이트 유닛 (260) 은 보안 레벨 "3" 에 대한 사운드 샘플 그룹 930 과 연관된 임계 값 5.0 을 업데이트한다. 이러한 경우에, 보안 레벨 "3" 과 연관된 사운드 샘플 그룹 930 에서의 사운드 샘플들에 대한 신뢰도 값들 (예를 들어, S3_1, S3_2, S3_3, 및 S3_4) 은 업데이트된 화자 모델 (330) 을 이용하여 재-산출된다. 재-산출된 신뢰도 값들 중에서 최소 신뢰도 값이 그러면 보안 레벨 "3" 에 대한 새로운 임계 값으로서 선택될 수도 있다. 따라서, 보안 레벨 "3" 에 대해 이전에 설정된 임계 값 5.0 이 최소 신뢰도 값과 상이하면, 임계 값은 도 12 에서 화살표에 의해 나타내어진 바와 같이 최소 신뢰도 값으로 조정될 수도 있다.
도 13 은, 본 개시물의 일 실시형태에 따른, 새로운 사운드 샘플 (S_IN) 을 수신하는 것에 응답하여 보안 레벨들에 대한 임계 값들이 조정되는 화자 확인 데이터베이스 (320) 의 도면을 도시한다. 도 11 과 유사하게, 새로운 사운드 샘플 (S_IN) 은 신뢰도 값에 따라 보안 레벨 "1" 과 연관된 사운드 샘플 그룹 910 에 추가되어 화자 확인 데이터베이스 (320) 를 업데이트한다. 또한, 화자 모델 (330) 은 화자 확인 데이터베이스 (320) 에서의 새로운 사운드 샘플 (S_IN) 에 기초하여 업데이트될 수도 있다.
업데이트된 화자 모델로, 데이터베이스 업데이트 유닛 (260) 은 보안 레벨들 "1" 내지 "5" 에 대한 사운드 샘플 그룹들 (910, 920, 930, 940, 및 950) 과 연관된 임계 값들 (예를 들어, 9.0, 7.0, 5.0, 3.0, 및 1.0) 을 업데이트한다. 이러한 경우에, 사운드 샘플 그룹 910 (예를 들어, S1_1, S1_2, S1-3, 및 S_IN), 사운드 샘플 그룹 920 (예를 들어, S2_1 및 S2_2), 사운드 샘플 그룹 930 (예를 들어, S3_1, S3_2, S3_3, 및 S3_4), 사운드 샘플 그룹 940 (예를 들어, S4_1), 및 사운드 샘플 그룹 950 (예를 들어, S5_1, S5_2, S5_3, 및 S5_4) 에서의 사운드 샘플들에 대한 신뢰도 값들은 업데이트된 화자 모델 (330) 에 기초하여 재산출된다. 최소 신뢰도 값은 사운드 샘플 그룹들 (910, 920, 930, 940, 및 950) 의 각각에서의 사운드 샘플들에 대한 재-산출된 신뢰도 값들 중에서 선택되고, 선택된 최소 신뢰도 값들은 각각 보안 레벨들 "1" 내지 "5" 에 대한 새로운 임계 값들이 되도록 결정된다. 따라서, 보안 레벨들 "1" 내지 "5" 에 대한 임계 값들은 도 13 에서 화살표들에 의해 나타내어진 바와 같이 보안 레벨들 "1" 내지 "5" 에 대한 임의의 새로운 최소 신뢰도 값들을 반영하도록 조정될 수도 있다.
다른 실시형태에서, 화자 확인 데이터베이스 (320) 는 모든 이전에 확인된 음성 커맨드들을 사운드 샘플들로 갖는 사운드 샘플 그룹을 포함할 수도 있다. 새로운 사운드 샘플이 수신되어 확인되는 경우, 새로운 사운드 샘플이 사운드 샘플 그룹에 추가된다. 위에서 논의된 바와 같이, 화자 모델 (330) 은 그러면 화자 확인 데이터베이스 (320) 에서의 새로운 사운드 샘플에 기초하여 업데이트될 수도 있다.
업데이트된 화자 모델 (330) 에 기초하여, 새로운 사운드 샘플을 포함하는 사운드 샘플 그룹에서의 사운드 샘플들의 모두에 대한 신뢰도 값들이 결정될 수도 있다. 가장 낮은 신뢰도 값 및 가장 높은 신뢰도 값이 신뢰도 값들 중에서 선택될 수도 있고, 가장 낮은 값이 가장 낮은 보안 레벨 (예를 들어, 보안 레벨 "5") 에 대한 임계 값인 것으로 결정될 수도 있다. 가장 높은 신뢰도 값과 가장 낮은 신뢰도 값 사이의 차이는 그러면 복수의 범위들로 파티셔닝될 수도 있으며, 각각의 범위는 하한을 갖는다. 일부 실시형태들에서, 차이는 임계 값 증분을 산출하기 위해 보안 레벨들의 수에 의해 나눠질 수도 있다. 하한들은 그러면 보안 레벨들 (예를 들어, 보안 레벨들 "1", "2", "3", 및 "4") 에 대한 임계 값들로서 할당될 수도 있다.
도 14 는, 본 개시물의 일 실시형태에 따른, 복수의 보안 레벨들에 대한 복수의 임계 값들을 조정하기 위한 방법 (1400) 의 플로 차트를 도시한다. 음성 커맨드가 확인된 후에, 데이터베이스 업데이트 유닛 (260) 은 확인된 음성 커맨드에 대한 새로운 사운드 샘플을 수신한다. 새로운 사운드 샘플은 그러면 신뢰도 값에 따라 보안 레벨과 연관된 사운드 샘플 그룹에 추가되고, 화자 모델 (330) 은 새로운 사운드 샘플에 기초하여 업데이트된다.
복수의 보안 레벨들 중에서 선택된 보안 레벨과 연관된 사운드 샘플들의 각각에 대한 새로운 신뢰도 값은 그러면, 1410 에서, 업데이트된 화자 모델 (330) 에 기초하여 결정된다. 일 실시형태에서, 보안 레벨은 새로운 사운드 샘플의 신뢰도 값에 따라 선택된다. 다른 실시형태에서, 음성 커맨드의 애플리케이션에 맵핑된 보안 레벨은 복수의 보안 레벨들 중에서 선택된다. 대안으로, 데이터베이스 업데이트 유닛 (260) 은 보안 레벨을 선택하지 않고 모든 보안 레벨들에 대한 사운드 샘플들의 새로운 신뢰도 값들을 결정할 수도 있다.
선택된 보안 레벨과 연관된 사운드 샘플들에 대한 새로운 신뢰도 값들 중에서, 1420 에서, 최소 신뢰도 값이 선택된다. 선택된 보안 레벨의 이전의 임계 값은 그러면, 1430 에서, 최소 신뢰도 값으로 조정된다. 모든 보안 레벨들에 대한 새로운 신뢰도 값들을 결정할 경우에, 각각, 최소 신뢰도 값은 보안 레벨들의 각각에 대한 새로운 신뢰도 값들 중에서 선택되고, 선택된 최소 신뢰도 값들이 보안 레벨들에 대한 새로운 임계 값들인 것으로 결정된다.
도 15 는, 본 개시물의 몇몇 실시형태들에 따른, 애플리케이션들에 대한 액세스를 제어하기 위한 방법들 및 장치가 구현될 수도 있는 일 예시적인 모바일 디바이스 (1500) 의 블록도이다. 모바일 디바이스 (1500) 의 구성은 도 1 내지 도 14 를 참조하여 설명된 위의 실시형태들에 따라 모바일 디바이스들에서 구현될 수도 있다. 모바일 디바이스 (1500) 는 셀룰러 전화기, 스마트폰, 단말기, 핸드셋, PDA (personal digital assistant), 무선 모뎀, 무코드 폰 등일 수도 있다. 무선 통신 시스템은 코드 분할 다중 액세스 (Code Division Multiple Access; CDMA) 시스템, 모바일 통신용 브로드캐스트 (GSM) 시스템, 광대역 CDMA (Wideband CDMA; WCDMA) 시스템, 롱 텀 에볼루션 (Long Tern Evolution; LTE) 시스템, LTE 어드밴스드 시스템 등일 수도 있다. 또한, 모바일 디바이스 (1500) 는, 예를 들어, Wi-Fi 다이렉트, 블루투스, 또는 플래시링크 기술을 이용하여 다른 모바일 디바이스와 직접 통신할 수도 있다.
모바일 디바이스 (1500) 는 수신 경로 및 송신 경로를 통해 양방향 통신을 제공할 수 있다. 수신 경로에서, 기지국들에 의해 송신된 신호들이 안테나 (1512) 에 의해 수신되어,수신기 (RCVR) (1514) 로 제공된다. 수신기 (1514) 는 수신된 신호를 컨디셔닝하고 디지털화하여, 추가적인 프로세싱을 위해 디지털 섹션에 컨디셔닝되고 디지털화된 신호와 같은 샘플들을 제공한다. 송신 경로에서, 송신기 (TMTR) (1516) 가 디지털 섹션 (1520) 으로부터 송신되는 데이터를 수신하여, 그 데이터를 프로세싱하고 컨디셔닝해서, 변조된 신호를 생성하며, 변조된 신호는 안테나 (1512) 를 통해 기지국들로 송신된다. 수신기 (1514) 및 송신기 (1516) 는 CDMA, GSM, LTE, LTE 어드밴스드 등을 지원할 수도 있는 트랜시버의 일부분일 수도 있다.
디지털 섹션 (1520) 은, 예를 들어, 모뎀 프로세서 (1522), 감소된 명령 세트 컴퓨터/디지털 신호 프로세서 (reduced instruction set computer/digital signal processor; RISC/DSP) (1524), 제어기/프로세서 (1526), 내부 메모리 (1528), 일반화된 오디오 인코더 (1532), 일반화된 오디오 디코더 (1534), 그래픽/디스플레이 프로세서 (1536), 및 외부 버스 인터페이스 (external bus interface; EBI) (1538) 와 같은 다양한 프로세싱 인터페이스 및 메모리 유닛들을 포함한다. 모뎀 프로세서 (1522) 는 데이터 송신 및 수신을 위한 프로세싱, 예를 들어, 인코딩, 변조, 복조, 및 디코딩을 수행할 수도 있다. RISC/DSP (1524) 는 모바일 디바이스 (1500) 에 대해 범용 프로세싱 및 특수 프로세싱을 수행할 수도 있다. 제어기/프로세서 (1526) 는 디지털 섹션 (1520) 내의 다양한 프로세싱 유닛 및 인터페이스 유닛의 동작을 수행할 수도 있다. 내부 메모리 (1528) 는 디지털 섹션 (1520) 내의 다양한 유닛들에 대한 데이터 및/또는 명령들을 저장할 수도 있다.
일반화된 오디오 인코더 (1532) 는 오디오 소스 (1542), 마이크로폰 (1543) 등으로부터의 입력 신호들에 대한 인코딩을 수행할 수도 있다. 일반화된 오디오 디코더 (1534) 는 코딩된 오디오 데이터에 대한 디코딩을 수행할 수도 있고, 출력 신호들을 기능 결정 엔진 (1544) 에 제공할 수도 있다. 그래픽/디스플레이 프로세서 (1536) 는 디스플레이 유닛 (1546) 에 나타내어질 수도 있는 그래픽들, 비디오들, 이미지들, 및 텍스트들에 대하 프로세싱을 수행할 수도 있다. EBI (1538) 는 디지털 섹션 (1520) 과 데이터베이스 (1548) 사이의 데이터의 전송을 가능하게 할 수도 있다.
디지털 섹션 (1520) 은 하나 이상의 프로세서들, DSP들, 마이크로프로세서들, RISC들 등으로 구현될 수도 있다. 디지털 섹션 (1520) 은 또한 하나 이상의 ASIC (application specific integrated circuit) 들 및/또는 일부 다른 유형의 집적 회로 (IC) 들 상에 제작될 수도 있다.
일반적으로, 본원에 설명된 임의의 디바이스는, 무선 전화기, 셀룰러 전화기, 랩탑 컴퓨터, 무선 멀티미디어 디바이스, 무선 통신 개인용 컴퓨터 (personal computer; PC) 카드, PDA, 외부 모뎀이나 내부 모뎀, 무선 채널을 통해 통신하는 디바이스 등과 같은 다양한 유형의 디바이스들을 표현할 수도 있다. 디바이스는, 액세스 단말기 (access terminal; AT), 액세스 유닛, 가입자 유닛, 이동국, 모바일 디바이스, 모바일 유닛, 모바일 전화기, 모바일, 원격국, 원격 단말기, 원격 유닛, 사용자 디바이스, 사용자 장비, 핸드헬드 디바이스 등과 같은 다양한 이름들을 가질 수도 있다. 본원에 설명된 임의의 디바이스는 명령들 및 데이터를 저장하기 위한 메모리, 뿐만 아니라 하드웨어, 소프트웨어, 펌웨어, 또는 그 조합들을 가질 수도 있다.
본원에 설명된 기법들은 다양한 수단으로 구현될 수도 있다. 예를 들어, 이러한 기법들은 하드웨어, 펌웨어, 소프트웨어, 또는 그 조합으로 구현될 수도 있다. 본원의 개시물과 관련하여 설명된 다양한 예시적인 논리적 블록들, 모듈들, 회로들, 및 알고리즘 단계들은 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합들로 구현될 수도 있음을 당업자들은 더 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호교환성을 명확하게 설명하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들, 및 단계들은 그들의 기능성의 관점에서 일반적으로 위에서 설명되었다. 그러한 기능이 하드웨어 또는 소프트웨어로 구현되는지 여부는 특정 애플리케이션 및 전체 시스템에 부과되는 설계 제약들에 따라 달라진다. 당업자들은 각각의 특정 애플리케이션을 위해 다양한 방식들로 설명된 기능을 구현할 수도 있으나, 그러한 구현 결정들이 본 개시물의 범위로부터 벗어나게 하는 것으로 해석되어서는 안된다.
하드웨어 구현에서, 기법들을 수행하는데 이용되는 프로세싱 유닛들은, 하나 이상의 ASIC 들, DSP 들, 디지털 신호 프로세싱 디바이스들 (digital signal processing device; DSPD) 들, 프로그램가능 논리 디바이스 (programmable logic device; PLD) 들, 필드 프로그램가능 게이트 어레이 (field programmable gate array; FPGA), 프로세서들, 제어기들, 마이크로-제어기들, 마이크로프로세서들, 전자 디바이스들, 본원에 설명된 기능들을 수행하도록 설계된 다른 전자 유닛들, 컴퓨터, 또는 그들의 조합 내에서 구현될 수도 있다.
따라서, 본원의 개시물과 관련하여 설명된 다양한 예시적인 논리적 블록들, 모듈들, 및 회로들은 범용 프로세서, DSP, ASIC, FPGA 나 다른 프로그램가능 논리 디바이스, 이산 게이트나 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 본원에 설명된 기능들을 수행하도록 설계된 것들의 임의의 조합으로 구현되거나 수행된다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안에서, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 연계한 하나 이상의 마이크로프로세서들, 또는 임의의 다른 그러한 구성으로 구현될 수도 있다.
소프트웨어로 구현되는 경우, 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 저장 매체 상에 저장될 수도 있다. 컴퓨터-판독가능 매체들은 컴퓨터 저장 매체들 및 한 장소에서 다른 장소로 컴퓨터 프로그램의 전송을 가능하게 하는 임의의 통신 매체를 포함하는 통신 매체들 양자 모두를 포함한다. 저장 매체들은 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 저장 매체일 수도 있다. 비제한적인 예로서, 그러한 컴퓨터-판독가능 저장 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 요구되는 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 이송 또는 저장하기 위해 이용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 저장 매체를 포함한다. 또한, 임의의 접속은 통신 매체라고 적절히 칭해진다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선 (DSL), 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 전송되면, 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선, 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들은 통신 매체의 정의 내에 포함된다. 본원에서 이용된 디스크 (disk) 와 디스크 (disc) 는, 컴팩트 디스크 (compact disc; CD), 레이저 디스크, 광학 디스크, 디지털 다기능 디스크 (digital versatile disc; DVD), 플로피 디스크, 및 블루레이 디스크를 포함하며, 여기서 디스크 (disk) 들은 통상 자기적으로 데이터를 재생하는 반면, 디스크 (disc) 들은 레이저들을 이용하여 광학적으로 데이터를 재생한다.
앞서의 개시물의 설명은 임의의 당업자가 본 개시물을 제작하거나 이용하는 것을 가능하게 하기 위해 제공된다. 본 개시물의 다양한 수정들이 당업자들에게 자명할 것이고, 본원에 정의된 일반적인 원리들은 본 개시물의 사상 또는 범위를 벗어나지 않으면서 다양한 변형들에 적용될 수도 있다. 따라서, 본 개시물은 본원에 설명된 예시들에 제한되고자 하는 것이 아니라, 본원에 개시된 원리들 및 신규한 특징들과 일관되는 가장 넓은 범위에 일치되고자 한다.
비록 예시적인 실시형태들이 하나 이상의 독립형 컴퓨터 시스템들의 맥락에서 현재 개시된 대상 발명의 양상들을 이용하는 것으로 언급될 수도 있으나, 대상 발명은 그렇게 제한되지 않고, 오히려 네트워크나 분산된 컴퓨팅 환경과 같은 임의의 컴퓨팅 환경과 연계하여 구현될 수도 있다. 또 나아가, 현재 개시된 대상 발명의 양상들은 복수의 프로세싱 칩들이나 디바이스들에서 또는 그에 걸쳐 구현될 수도 있고, 스토리지는 복수의 디바이스들에 걸쳐 유사하게 영향을 받게 될 수도 있다. 이러한 디바이스들은 PC들, 네트워크 서버들, 및 핸드헬드 디바이스들을 포함할 수도 있다.
비록 대상 발명이 구조적 특징들 및/또는 방법론적 작용들에 대해 언어 특정적으로 설명되었으나, 첨부된 청구항들에서 규정된 대상 발명이 반드시 위에서 설명된 특정 특징들 또는 작용들로 제한되는 것은 아님이 이해될 것이다. 오히려, 위에서 설명된 특정 특징들 및 작용들은 청구항들을 구현하는 예시적인 형태로서 설명된다.
Claims (50)
- 전자 디바이스 (120) 의 복수의 애플리케이션들 (122, 124, 126) 에 대한 액세스를 제어하는 방법으로서,
상기 복수의 애플리케이션들 중에서 대상 애플리케이션에 액세스하기 위해 음성 커맨드를 수신하는 단계 (610) 로서, 상기 복수의 애플리케이션들의 각각의 애플리케이션은 보안 레벨과 연관되고, 각각의 보안 레벨은 사용자 신뢰도 임계치와 연관되는, 상기 음성 커맨드를 수신하는 단계 (610);
상기 음성 커맨드를 나타내는 데이터를 승인된 사용자와 연관된 화자 모델과 비교함으로써 상기 음성 커맨드와 연관된 사용자 신뢰도 값을 결정하는 단계 (620);
상기 사용자 신뢰도 값이 상기 대상 애플리케이션의 보안 레벨과 연관된 대상 사용자 신뢰도 임계치를 만족시키는 경우 상기 음성 커맨드에 기초하여 업데이트된 화자 모델을 생성하는 단계 (630); 및
상기 업데이트된 화자 모델에 기초하여 상기 사용자 신뢰도 임계치들 중 적어도 하나의 사용자 신뢰도 임계치를 조정하는 단계 (640)
를 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법. - 제 1 항에 있어서,
상기 업데이트된 화자 모델을 생성한 후에,
상기 복수의 애플리케이션들 중에서 제 2 대상 애플리케이션에 액세스하기 위해 제 2 음성 커맨드를 수신하는 단계; 및
상기 업데이트된 화자 모델에 기초하여 상기 제 2 음성 커맨드가 상기 승인된 사용자를 나타내는지 여부를 결정하는 단계
를 더 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법. - 제 1 항에 있어서,
상기 사용자 신뢰도 값이 상기 대상 애플리케이션의 보안 레벨과 연관된 상기 대상 사용자 신뢰도 임계치를 초과하는 경우 상기 대상 애플리케이션에 액세스하는 단계를 더 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법. - 제 3 항에 있어서,
상기 업데이트된 화자 모델을 생성하는 단계는,
상기 음성 커맨드와 연관된 상기 사용자 신뢰도 값에 비례하여 상기 음성 커맨드에 가중치를 주는 단계; 및
가중치가 주어진 상기 음성 커맨드에 기초하여 상기 화자 모델을 업데이트하는 단계
를 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법. - 제 1 항에 있어서,
상기 화자 모델은 상기 승인된 사용자의 복수의 사운드 샘플들로부터 추출된 사운드 특징들에 기초한 통계적 데이터를 포함하고,
상기 업데이트된 화자 모델을 생성하는 단계는 상기 음성 커맨드의 적어도 하나의 사운드 특징에 기초하여 상기 통계적 데이터를 업데이트하는 단계를 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법. - 제 1 항에 있어서,
상기 사용자 신뢰도 임계치들 중 적어도 하나의 사용자 신뢰도 임계치를 조정하는 단계는,
상기 업데이트된 화자 모델에 기초하여, 선택된 보안 레벨과 연관된 사운드 샘플들에 대한 업데이트된 사용자 신뢰도 값들을 결정하는 단계; 및
상기 업데이트된 사용자 신뢰도 값들에 기초하여 상기 선택된 보안 레벨의 상기 사용자 신뢰도 임계치를 새로운 사용자 신뢰도 임계 값으로 조정하는 단계
를 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법. - 제 6 항에 있어서,
상기 새로운 사용자 신뢰도 임계 값은 상기 업데이트된 사용자 신뢰도 값들 중에서 가장 낮은 값에 대응하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법. - 제 6 항에 있어서,
상기 선택된 보안 레벨은 상기 대상 애플리케이션과 연관된 보안 레벨이거나,
상기 선택된 보안 레벨은 상기 음성 커맨드와 연관된 상기 사용자 신뢰도 값에 기초하여 선택되는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법. - 제 1 항에 있어서,
상기 사용자 신뢰도 임계치들 중 적어도 하나의 사용자 신뢰도 임계치를 조정하는 단계는,
상기 업데이트된 화자 모델에 기초하여, 복수의 사운드 샘플들에 대한 업데이트된 사용자 신뢰도 값들을 결정하는 단계; 및
상기 업데이트된 사용자 신뢰도 값들에 기초하여 상기 사용자 신뢰도 임계치들 중 적어도 하나의 사용자 신뢰도 임계치를 조정하는 단계
를 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법. - 제 9 항에 있어서,
상기 사용자 신뢰도 임계치들 중 적어도 하나의 사용자 신뢰도 임계치를 조정하는 단계는,
상기 업데이트된 사용자 신뢰도 값들 중에서 가장 낮은 사용자 신뢰도 값 및 가장 높은 사용자 신뢰도 값을 결정하는 단계;
상기 가장 낮은 사용자 신뢰도 값과 상기 가장 높은 사용자 신뢰도 값 사이의 차이를 상기 보안 레벨들과 연관된 복수의 범위들로 파티셔닝하는 단계로서, 상기 복수의 범위들의 각각의 범위는 하한을 포함하는, 상기 파티셔닝하는 단계; 및
대응하는 보안 레벨에 대한 새로운 사용자 신뢰도 임계치로서 상기 복수의 범위들의 각각의 범위의 하한을 할당하는 단계
를 더 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법. - 제 1 항에 있어서,
각각의 보안 레벨은 상기 보안 레벨과 연관된 상기 사용자 신뢰도 임계치보다 큰 사용자 신뢰도 값을 갖는 사운드 샘플들의 세트와 연관되는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법. - 제 11 항에 있어서,
상기 음성 커맨드와 연관된 상기 사용자 신뢰도 값에 기초하여 상기 사운드 샘플들의 세트들 중 하나의 세트에 상기 음성 커맨드를 추가하는 단계를 더 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법. - 제 1 항에 있어서,
상기 사용자 신뢰도 값이 상기 대상 애플리케이션의 보안 레벨과 연관된 상기 대상 사용자 신뢰도 임계치를 만족시키는데 실패하는 경우, 상기 음성 커맨드를 인증하기 위해 상기 음성 커맨드의 화자로부터의 추가적인 입력을 요청하는 단계를 더 포함하고,
상기 추가적인 입력은 얼굴의 이미지, 지문, 개인 식별 번호, 및 추가적인 음성 커맨드 중 적어도 하나를 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법. - 복수의 애플리케이션들에 대한 액세스를 제어하기 위한 전자 디바이스로서,
상기 복수의 애플리케이션들 (122, 124, 126) 중에서 대상 애플리케이션에 액세스하기 위해 음성 커맨드를 수신하는 수단 (1542, 1543);
상기 복수의 애플리케이션들, 복수의 보안 레벨들을 식별하는 데이터, 복수의 사용자 신뢰도 임계 값들을 식별하는 데이터, 및 상기 애플리케이션들에 액세스하도록 승인되어진 승인된 사용자의 화자 모델을 저장하는 수단 (1528, 1548) 으로서, 상기 복수의 애플리케이션들의 각각의 애플리케이션은 상기 복수의 보안 레벨들 중에서의 보안 레벨과 연관되고, 상기 복수의 보안 레벨들의 각각의 보안 레벨은 상기 복수의 사용자 신뢰도 임계 값들 중에서의 사용자 신뢰도 임계 값과 연관되는, 상기 저장하는 수단 (1528, 1548);
상기 음성 커맨드와 연관된 사용자 신뢰도 값을 결정하기 위해 상기 음성 커맨드를 나타내는 데이터를 상기 화자 모델과 비교하고, 상기 음성 커맨드와 연관된 상기 사용자 신뢰도 값이 상기 대상 애플리케이션의 보안 레벨과 연관된 대상 사용자 신뢰도 임계 값을 만족시키는지 여부를 결정함으로써, 상기 화자 모델에 기초하여 상기 음성 커맨드가 상기 승인된 사용자를 나타내는지 여부를 결정하는 수단;
상기 음성 커맨드가 상기 승인된 사용자를 나타낸다고 결정되는 경우 상기 음성 커맨드에 기초하여 상기 화자 모델을 업데이트하는 수단; 및
상기 업데이트된 화자 모델에 기초하여 상기 사용자 신뢰도 임계 값들 중 적어도 하나의 사용자 신뢰도 임계 값을 조정하는 수단
을 포함하는, 복수의 애플리케이션들에 대한 액세스를 제어하기 위한 전자 디바이스. - 복수의 애플리케이션들에 대한 액세스를 제어하기 위한 명령들을 포함하는 비일시적 컴퓨터-판독가능 저장 매체로서,
상기 명령들은, 전자 디바이스의 프로세서로 하여금, 제 1 항 내지 제 13 항 중 어느 한 항에 기재된 방법에 따른 동작들을 수행하게 하도록 실행가능한, 비일시적 컴퓨터-판독가능 저장 매체. - 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/028,139 | 2013-09-16 | ||
US14/028,139 US9343068B2 (en) | 2013-09-16 | 2013-09-16 | Method and apparatus for controlling access to applications having different security levels |
PCT/US2014/054352 WO2015038435A1 (en) | 2013-09-16 | 2014-09-05 | Method and apparatus for controlling access to applications |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160055839A KR20160055839A (ko) | 2016-05-18 |
KR101868711B1 true KR101868711B1 (ko) | 2018-06-18 |
Family
ID=51570907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167009013A KR101868711B1 (ko) | 2013-09-16 | 2014-09-05 | 애플리케이션들에 대한 액세스를 제어하기 위한 방법 및 장치 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9343068B2 (ko) |
EP (1) | EP3047622B1 (ko) |
JP (1) | JP6306190B2 (ko) |
KR (1) | KR101868711B1 (ko) |
CN (1) | CN105556920B (ko) |
WO (1) | WO2015038435A1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020184753A1 (ko) * | 2019-03-12 | 2020-09-17 | 엘지전자 주식회사 | 음성 추출 필터를 이용하여 음성 제어를 수행하는 인공 지능 장치 및 그 방법 |
KR102639755B1 (ko) * | 2023-05-31 | 2024-02-23 | 농협은행(주) | 전자 장치 제어를 지원하는 서버 및 이의 제어 방법 |
US12002475B2 (en) | 2018-10-12 | 2024-06-04 | Samsung Electronics Co., Ltd. | Electronic device performing speaker recognition and control method thereof |
Families Citing this family (144)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US12014347B2 (en) * | 2011-07-18 | 2024-06-18 | Rabih S. Ballout | Kit, system and associated method and service for providing a platform to prevent fraudulent financial transactions |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10541997B2 (en) * | 2016-12-30 | 2020-01-21 | Google Llc | Authentication of packetized audio signals |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
CN104423552B (zh) * | 2013-09-03 | 2017-11-03 | 联想(北京)有限公司 | 一种处理信息的方法和电子设备 |
US11334314B2 (en) * | 2013-10-25 | 2022-05-17 | Voyetra Turtle Beach, Inc. | Networked gaming headset with automatic social networking |
US9928839B1 (en) * | 2013-12-04 | 2018-03-27 | United Services Automobile Association (Usaa) | Systems and methods for authentication using voice biometrics and device verification |
US9607137B2 (en) * | 2013-12-17 | 2017-03-28 | Lenovo (Singapore) Pte. Ltd. | Verbal command processing based on speaker recognition |
US10978060B2 (en) * | 2014-01-31 | 2021-04-13 | Hewlett-Packard Development Company, L.P. | Voice input command |
US11288346B1 (en) * | 2014-03-03 | 2022-03-29 | Charles Schwab & Co., Inc. | System and method for authenticating users using weak authentication techniques, with differences for different features |
US10540979B2 (en) | 2014-04-17 | 2020-01-21 | Qualcomm Incorporated | User interface for secure access to a device using speaker verification |
CN104142909B (zh) * | 2014-05-07 | 2016-04-27 | 腾讯科技(深圳)有限公司 | 一种汉字注音方法及装置 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
CN105280180A (zh) * | 2014-06-11 | 2016-01-27 | 中兴通讯股份有限公司 | 一种终端控制方法、装置、语音控制装置及终端 |
US9384738B2 (en) * | 2014-06-24 | 2016-07-05 | Google Inc. | Dynamic threshold for speaker verification |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
KR102261552B1 (ko) * | 2014-06-30 | 2021-06-07 | 삼성전자주식회사 | 음성 명령어 제공 방법 및 이를 지원하는 전자 장치 |
KR102281178B1 (ko) * | 2014-07-09 | 2021-07-23 | 삼성전자주식회사 | 멀티-레벨 음성 인식 방법 및 장치 |
US9257120B1 (en) * | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
WO2016015687A1 (zh) * | 2014-07-31 | 2016-02-04 | 腾讯科技(深圳)有限公司 | 声纹验证方法及装置 |
US9313219B1 (en) * | 2014-09-03 | 2016-04-12 | Trend Micro Incorporated | Detection of repackaged mobile applications |
US9318107B1 (en) | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9812128B2 (en) | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US10111093B2 (en) * | 2015-01-09 | 2018-10-23 | Qualcomm Incorporated | Mobile device to provide continuous and discrete user authentication |
KR102371697B1 (ko) | 2015-02-11 | 2022-03-08 | 삼성전자주식회사 | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9472196B1 (en) | 2015-04-22 | 2016-10-18 | Google Inc. | Developer voice actions system |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
GB2539185B (en) * | 2015-06-02 | 2021-11-03 | Bae Systems Plc | Aircraft avionics system interface |
US10630712B2 (en) | 2015-06-02 | 2020-04-21 | Bae Systems Plc | Safe aircraft avionics system interface |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
CN106373575B (zh) * | 2015-07-23 | 2020-07-21 | 阿里巴巴集团控股有限公司 | 一种用户声纹模型构建方法、装置及系统 |
CN106709399B (zh) * | 2015-08-21 | 2021-02-09 | 小米科技有限责任公司 | 指纹识别方法及装置 |
US9978374B2 (en) | 2015-09-04 | 2018-05-22 | Google Llc | Neural networks for speaker verification |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US9706300B2 (en) | 2015-09-18 | 2017-07-11 | Qualcomm Incorporated | Collaborative audio processing |
US10013996B2 (en) | 2015-09-18 | 2018-07-03 | Qualcomm Incorporated | Collaborative audio processing |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
GB2552082A (en) * | 2016-06-06 | 2018-01-10 | Cirrus Logic Int Semiconductor Ltd | Voice user interface |
US10127926B2 (en) | 2016-06-10 | 2018-11-13 | Google Llc | Securely executing voice actions with speaker identification and authentication input types |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
CN114693289A (zh) | 2016-06-11 | 2022-07-01 | 苹果公司 | 用于交易的用户界面 |
US10621581B2 (en) | 2016-06-11 | 2020-04-14 | Apple Inc. | User interface for transactions |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
US20180068313A1 (en) | 2016-09-06 | 2018-03-08 | Apple Inc. | User interfaces for stored-value accounts |
US10304463B2 (en) * | 2016-10-03 | 2019-05-28 | Google Llc | Multi-user personalization at a voice interface device |
KR102241970B1 (ko) * | 2016-11-07 | 2021-04-20 | 구글 엘엘씨 | 기록된 미디어 핫워드 트리거 억제 |
GB2555661A (en) * | 2016-11-07 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Methods and apparatus for biometric authentication in an electronic device |
WO2018088534A1 (ja) * | 2016-11-11 | 2018-05-17 | 旭化成株式会社 | 電子機器、電子機器の制御方法及び電子機器の制御プログラム |
US10956545B1 (en) * | 2016-11-17 | 2021-03-23 | Alarm.Com Incorporated | Pin verification |
US11216540B2 (en) * | 2016-12-13 | 2022-01-04 | Motorola Mobility Llc | Flexible security level for device interaction |
KR20180082033A (ko) * | 2017-01-09 | 2018-07-18 | 삼성전자주식회사 | 음성을 인식하는 전자 장치 |
US11532250B2 (en) * | 2017-01-11 | 2022-12-20 | Sony Corporation | Information processing device, information processing method, screen, and information drawing system |
KR102640423B1 (ko) * | 2017-01-31 | 2024-02-26 | 삼성전자주식회사 | 음성 입력 처리 방법, 이를 지원하는 전자 장치, 및 시스템 |
WO2018169381A1 (en) * | 2017-03-17 | 2018-09-20 | Samsung Electronics Co., Ltd. | Method and system for automatically managing operations of electronic device |
WO2018195185A1 (en) | 2017-04-20 | 2018-10-25 | Google Llc | Multi-user authentication on a device |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US11221744B2 (en) | 2017-05-16 | 2022-01-11 | Apple Inc. | User interfaces for peer-to-peer transfers |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
CN118264635A (zh) | 2017-05-16 | 2024-06-28 | 苹果公司 | 用于对等传输的用户界面 |
CN109102802B (zh) * | 2017-06-21 | 2023-10-17 | 三星电子株式会社 | 用于处理用户话语的系统 |
KR101995443B1 (ko) * | 2017-07-26 | 2019-07-02 | 네이버 주식회사 | 화자 검증 방법 및 음성인식 시스템 |
KR102002903B1 (ko) * | 2017-07-26 | 2019-07-23 | 네이버 주식회사 | 화자 인증 방법 및 음성인식 시스템 |
US10896673B1 (en) | 2017-09-21 | 2021-01-19 | Wells Fargo Bank, N.A. | Authentication of impaired voices |
EP3690878A4 (en) * | 2017-09-28 | 2021-06-09 | Kyocera Corporation | VOICE COMMAND SYSTEM AND VOICE COMMAND PROCESS |
US10332545B2 (en) * | 2017-11-28 | 2019-06-25 | Nuance Communications, Inc. | System and method for temporal and power based zone detection in speaker dependent microphone environments |
US10433230B2 (en) * | 2017-12-12 | 2019-10-01 | Cassia Networks Inc. | Methods, devices, and systems for supporting wireless roaming |
CN111357048B (zh) * | 2017-12-31 | 2024-10-08 | 美的集团股份有限公司 | 用于控制家庭助手装置的方法和系统 |
US10789959B2 (en) * | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
KR102595184B1 (ko) | 2018-05-25 | 2023-10-30 | 삼성전자주식회사 | 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체 |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
CN112561537A (zh) | 2018-06-03 | 2021-03-26 | 苹果公司 | 用于转账账户的用户界面 |
US11100498B2 (en) | 2018-06-03 | 2021-08-24 | Apple Inc. | User interfaces for transfer accounts |
CN108766448B (zh) * | 2018-06-19 | 2020-05-01 | 苏州科达科技股份有限公司 | 混音测试系统、方法、装置及存储介质 |
JP6980603B2 (ja) | 2018-06-21 | 2021-12-15 | 株式会社東芝 | 話者モデル作成システム、認識システム、プログラムおよび制御装置 |
EP3790006A4 (en) * | 2018-06-29 | 2021-06-09 | Huawei Technologies Co., Ltd. | VOICE COMMAND PROCESS, PORTABLE DEVICE AND TERMINAL |
ES2912165T3 (es) * | 2018-07-06 | 2022-05-24 | Veridas Digital Authentication Solutions S L | Autenticación de un usuario |
CN109189310B (zh) * | 2018-07-27 | 2020-10-27 | 维沃移动通信有限公司 | 一种解锁方法及终端设备 |
US11580002B2 (en) * | 2018-08-17 | 2023-02-14 | Intensity Analytics Corporation | User effort detection |
KR102184300B1 (ko) * | 2018-09-20 | 2020-12-01 | 현대오토에버 주식회사 | 음성 인식 기반 제어 시스템 |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10922433B2 (en) * | 2018-11-26 | 2021-02-16 | Wells Fargo Bank, N.A. | Interrupting receipt of sensitive information |
KR20200100481A (ko) * | 2019-02-18 | 2020-08-26 | 삼성전자주식회사 | 생체 정보를 인증하기 위한 전자 장치 및 그의 동작 방법 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11328352B2 (en) | 2019-03-24 | 2022-05-10 | Apple Inc. | User interfaces for managing an account |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
WO2020242595A1 (en) * | 2019-05-31 | 2020-12-03 | Apple Inc. | Voice identification in digital assistant systems |
EP4297021A3 (en) * | 2019-05-31 | 2024-03-20 | Apple Inc. | Voice identification in digital assistant systems |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN112397060B (zh) * | 2019-07-31 | 2024-02-23 | 北京声智科技有限公司 | 一种语音指令处理方法、系统、设备及介质 |
US11205433B2 (en) * | 2019-08-21 | 2021-12-21 | Qualcomm Incorporated | Method and apparatus for activating speech recognition |
KR20210050884A (ko) * | 2019-10-29 | 2021-05-10 | 삼성전자주식회사 | 화자 인식을 위한 등록 방법 및 장치 |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US12118562B2 (en) | 2020-05-29 | 2024-10-15 | Apple Inc. | Configuring an account for a second user identity |
CN111833868A (zh) * | 2020-06-30 | 2020-10-27 | 北京小米松果电子有限公司 | 语音助手控制方法、装置及计算机可读存储介质 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
KR20220040875A (ko) * | 2020-09-24 | 2022-03-31 | 삼성전자주식회사 | 음성 인식 서비스를 위한 등록 사용자에 대한 화자 인증 학습 장치 및 그 동작 방법 |
KR20220082258A (ko) * | 2020-12-10 | 2022-06-17 | 삼성전자주식회사 | 전자 장치 및 전자 장치에서 기억 서비스를 제공하는 방법 |
US11983702B2 (en) | 2021-02-01 | 2024-05-14 | Apple Inc. | Displaying a representation of a card with a layered structure |
CN112951243A (zh) * | 2021-02-07 | 2021-06-11 | 深圳市汇顶科技股份有限公司 | 语音唤醒方法、装置、芯片、电子设备及存储介质 |
US11921992B2 (en) | 2021-05-14 | 2024-03-05 | Apple Inc. | User interfaces related to time |
EP4377954A1 (en) * | 2021-07-27 | 2024-06-05 | Qualcomm Incorporated | Voice or speech recognition using contextual information and user emotion |
US11784956B2 (en) | 2021-09-20 | 2023-10-10 | Apple Inc. | Requests to add assets to an asset account |
CN114005435A (zh) * | 2021-11-02 | 2022-02-01 | 北京元心君盛科技有限公司 | 一种响应语音信息的方法、装置、设备、介质及程序产品 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002055957A (ja) * | 2000-06-06 | 2002-02-20 | Internatl Business Mach Corp <Ibm> | 信頼性ベースの増分アクセス認証用のシステムおよび方法 |
WO2008126254A1 (ja) * | 2007-03-30 | 2008-10-23 | Pioneer Corporation | 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4837830A (en) * | 1987-01-16 | 1989-06-06 | Itt Defense Communications, A Division Of Itt Corporation | Multiple parameter speaker recognition system and methods |
US5805674A (en) | 1995-01-26 | 1998-09-08 | Anderson, Jr.; Victor C. | Security arrangement and method for controlling access to a protected system |
EP0938793A4 (en) | 1996-11-22 | 2003-03-19 | T Netix Inc | VOICE RECOGNITION FOR ACCESS TO INFORMATION SYSTEMS AND PROCESSING OF TRANSACTIONS |
US6691089B1 (en) | 1999-09-30 | 2004-02-10 | Mindspeed Technologies Inc. | User configurable levels of security for a speaker verification system |
US7212969B1 (en) | 2000-09-29 | 2007-05-01 | Intel Corporation | Dynamic generation of voice interface structure and voice content based upon either or both user-specific contextual information and environmental information |
US7668718B2 (en) * | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
US7457745B2 (en) * | 2002-12-03 | 2008-11-25 | Hrl Laboratories, Llc | Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments |
US7404086B2 (en) | 2003-01-24 | 2008-07-22 | Ac Technology, Inc. | Method and apparatus for biometric authentication |
US8775187B2 (en) * | 2008-09-05 | 2014-07-08 | Auraya Pty Ltd | Voice authentication system and methods |
JP2010108074A (ja) * | 2008-10-28 | 2010-05-13 | Hitachi Ltd | 生体認証システム及び方法 |
JP2010198384A (ja) * | 2009-02-25 | 2010-09-09 | Kyocera Corp | 通信端末装置 |
CN101697514B (zh) * | 2009-10-22 | 2016-08-24 | 中兴通讯股份有限公司 | 一种身份验证的方法及系统 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
CN102223367B (zh) * | 2011-06-10 | 2014-04-23 | 安徽科大讯飞信息科技股份有限公司 | 移动用户访问网站的方法、设备及系统 |
CN102510426A (zh) * | 2011-11-29 | 2012-06-20 | 安徽科大讯飞信息科技股份有限公司 | 个人助理应用访问方法及系统 |
US9042867B2 (en) * | 2012-02-24 | 2015-05-26 | Agnitio S.L. | System and method for speaker recognition on mobile devices |
-
2013
- 2013-09-16 US US14/028,139 patent/US9343068B2/en active Active
-
2014
- 2014-09-05 CN CN201480050579.0A patent/CN105556920B/zh active Active
- 2014-09-05 WO PCT/US2014/054352 patent/WO2015038435A1/en active Application Filing
- 2014-09-05 EP EP14767251.3A patent/EP3047622B1/en active Active
- 2014-09-05 KR KR1020167009013A patent/KR101868711B1/ko active IP Right Grant
- 2014-09-05 JP JP2016542025A patent/JP6306190B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002055957A (ja) * | 2000-06-06 | 2002-02-20 | Internatl Business Mach Corp <Ibm> | 信頼性ベースの増分アクセス認証用のシステムおよび方法 |
WO2008126254A1 (ja) * | 2007-03-30 | 2008-10-23 | Pioneer Corporation | 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12002475B2 (en) | 2018-10-12 | 2024-06-04 | Samsung Electronics Co., Ltd. | Electronic device performing speaker recognition and control method thereof |
WO2020184753A1 (ko) * | 2019-03-12 | 2020-09-17 | 엘지전자 주식회사 | 음성 추출 필터를 이용하여 음성 제어를 수행하는 인공 지능 장치 및 그 방법 |
US11468886B2 (en) | 2019-03-12 | 2022-10-11 | Lg Electronics Inc. | Artificial intelligence apparatus for performing voice control using voice extraction filter and method for the same |
KR102639755B1 (ko) * | 2023-05-31 | 2024-02-23 | 농협은행(주) | 전자 장치 제어를 지원하는 서버 및 이의 제어 방법 |
Also Published As
Publication number | Publication date |
---|---|
CN105556920A (zh) | 2016-05-04 |
CN105556920B (zh) | 2018-11-09 |
US20150081295A1 (en) | 2015-03-19 |
EP3047622B1 (en) | 2017-08-23 |
JP2016538658A (ja) | 2016-12-08 |
JP6306190B2 (ja) | 2018-04-04 |
US9343068B2 (en) | 2016-05-17 |
EP3047622A1 (en) | 2016-07-27 |
KR20160055839A (ko) | 2016-05-18 |
WO2015038435A1 (en) | 2015-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101868711B1 (ko) | 애플리케이션들에 대한 액세스를 제어하기 위한 방법 및 장치 | |
US9946862B2 (en) | Electronic device generating notification based on context data in response to speech phrase from user | |
US20150302856A1 (en) | Method and apparatus for performing function by speech input | |
CN106663430B (zh) | 使用用户指定关键词的说话者不相依关键词模型的关键词检测 | |
US9916431B2 (en) | Context-based access verification | |
CN106233376B (zh) | 用于通过话音输入激活应用程序的方法和设备 | |
KR101824157B1 (ko) | 화자 검증을 위한 동적 임계치 | |
US10705789B2 (en) | Dynamic volume adjustment for virtual assistants | |
US20160284350A1 (en) | Controlling electronic device based on direction of speech | |
WO2018083495A2 (en) | Methods and apparatus for biometric authentication in an electronic device | |
WO2012121809A1 (en) | System and method for recognizing environmental sound | |
US11031010B2 (en) | Speech recognition system providing seclusion for private speech transcription and private data retrieval | |
WO2012121856A1 (en) | Sound recognition method and system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
A302 | Request for accelerated examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |