KR101868711B1 - 애플리케이션들에 대한 액세스를 제어하기 위한 방법 및 장치 - Google Patents

애플리케이션들에 대한 액세스를 제어하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR101868711B1
KR101868711B1 KR1020167009013A KR20167009013A KR101868711B1 KR 101868711 B1 KR101868711 B1 KR 101868711B1 KR 1020167009013 A KR1020167009013 A KR 1020167009013A KR 20167009013 A KR20167009013 A KR 20167009013A KR 101868711 B1 KR101868711 B1 KR 101868711B1
Authority
KR
South Korea
Prior art keywords
voice command
delete delete
user confidence
applications
security level
Prior art date
Application number
KR1020167009013A
Other languages
English (en)
Other versions
KR20160055839A (ko
Inventor
성락 윤
태수 김
준철 조
민규 박
규웅 황
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20160055839A publication Critical patent/KR20160055839A/ko
Application granted granted Critical
Publication of KR101868711B1 publication Critical patent/KR101868711B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/105Multiple levels of security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/005
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

본 개시물의 일 양상에 따르면, 전자 디바이스에서 복수의 애플리케이션들에 대한 액세스를 제어하는 방법이 개시된다. 방법은 복수의 애플리케이션들 중에서 대상 애플리케이션에 액세스하기 위해 화자로부터 음성 커맨드를 수신하는 단계, 및 승인된 사용자의 화자 모델에 기초하여 음성 커맨드가 애플리케이션들에 액세스하도록 승인된 사용자를 나타내는지 여부를 확인하는 단계를 포함한다. 이러한 방법에서, 각각의 애플리케이션은 임계 값을 갖는 보안 레벨과 연관된다. 방법은 음성 커맨드가 사용자를 나타내는 것으로 확인되면 음성 커맨드로 화자 모델을 업데이트하고, 업데이트된 화자 모델에 기초하여 임계 값들 중 적어도 하나의 임계 값을 조정하는 단계를 더 포함한다.

Description

애플리케이션들에 대한 액세스를 제어하기 위한 방법 및 장치{METHOD AND APPARATUS FOR CONTROLLING ACCESS TO APPLICATIONS}
관련 출원들에 대한 상호-참조
본 출원은 2013 년 9 월 16 일에 출원된 미국 특허 출원 제 14/028,139 호의 우선권을 주장하며 그 내용은 그 전체가 참조를 위해 본원에 명시적으로 포함된다.
기술분야
본 개시물은 전자 디바이스들에서 애플리케이션들에 액세스하는 것에 관한 것으로, 좀더 구체적으로 음성 커맨드들에 응답하여 애플리케이션들에 대한 액세스를 제어하는 것에 관한 것이다.
최근에, 애플리케이션들을 구동할 수 있는 전자 디바이스들이 사용자들 사이에서 매우 유명해졌다. 예를 들어, 스마트폰들, 태블릿 컴퓨터들, 및 개인용 컴퓨터들과 같은 전자 디바이스들은 메시징 애플리케이션들, 연락처 애플리케이션들, 달력 애플리케이션들, 사진 애플리케이션들 등과 같은 애플리케이션들을 포함할 수도 있다. 또한, 사용자들은 인터넷을 통해 애플리케이션 제공자로부터 다른 애플리케이션들 (예를 들어, 뱅킹 애플리케이션) 을 검색하고 다운로드할 수도 있다. 이러한 애플리케이션들은 사용자들에게 다양한 기능들 및 정보에 대한 편리한 액세스를 제공한다.
사용자들에 의해 액세스되는 애플리케이션들은 종종 다른 사람들이 액세스하는 것을 사용자들이 원하지 않을 수도 있는 개인적 또는 사적 정보를 포함한다. 예를 들어, 메시징 애플리케이션 (예를 들어, 이메일 애플리케이션) 에서 이메일들은 개인용 또는 비즈니스용 정보를 포함할 수도 있다. 유사하게, 사용자의 뱅킹 애플리케이션은 계좌 번호 및 계좌 잔액과 같은 사용자의 금융 정보에 대한 액세스를 포함하거나 가능하게 할 수 있다.
애플리케이션들을 통해 액세스될 수도 있는 정보의 기밀성을 감안하여, 종래의 전자 디바이스들은 일반적으로 그러한 애플리케이션들에 대한 액세스를 제한하기 위한 하나 이상의 보안 기능들을 제공한다. 그러한 보안 기능들은 애플리케이션에 액세스하기 위한 사용자의 인증을 요구할 수도 있다. 예를 들어, 사용자는 개인 코드를 입력하도록 요구되고 코드가 확인되는 경우 애플리케이션에 대한 액세스가 가능해질 수도 있다.
일부 종래의 전자 디바이스들은 또한 발화 인식 기능들을 갖추고 있다. 그러한 디바이스들에서, 애플리케이션은 사용자로부터의 발화 커맨드에 응답하여 액세스될 수도 있다. 애플리케이션에 대한 승인되지 않은 액세스를 방지하기 위해, 승인된 사용자의 음성 특성들에 기초하여 이러한 디바이스들은 발화 커맨드의 진위를 확인할 수도 있다. 그러나, 승인된 사용자의 음성 특성들이 시간에 따라 또는 사용자의 조건 때문에 변할 수도 있으므로 그러한 디바이스들에서의 승인된 사용자의 인증은 신뢰할 수 없을 수도 있다.
본 개시물은 화자 모델을 업데이트하고 보안 레벨들과 연관된 임계 값들을 조정함으로써 상이한 보안 레벨들을 갖는 애플리케이션들에 대한 액세스를 제어하는 것에 관한 것이다.
본 개시물의 일 양상에 따르면, 전자 디바이스에서 복수의 애플리케이션들에 대한 액세스를 제어하는 방법이 개시된다. 방법은 복수의 애플리케이션들 중에서 대상 애플리케이션에 액세스하기 위해 화자로부터 음성 커맨드를 수신하는 단계, 및 승인된 사용자의 화자 모델에 기초하여 음성 커맨드가 애플리케이션들에 액세스하도록 승인된 사용자를 나타내는지 여부를 확인하는 단계를 포함한다. 이러한 방법에서, 각각의 애플리케이션은 임계 값을 갖는 보안 레벨과 연관된다. 방법은 음성 커맨드가 사용자를 나타내는 것으로 확인되면 음성 커맨드로 화자 모델을 업데이트하고, 업데이트된 화자 모델에 기초하여 임계 값들 중 적어도 하나의 임계 값을 조정한다. 본 개시물은 또한 이러한 방법과 관련되는 장치, 디바이스, 시스템, 수단들의 조합, 및 컴퓨터-판독가능 매체를 설명한다.
본 개시물의 다른 양상에 따르면, 복수의 애플리케이션들에 대한 액세스를 제어하기 위한 전자 디바이스가 개시된다. 전자 디바이스는 복수의 애플리케이션들 중에서 대상 애플리케이션에 액세스하기 위해 화자로부터 음성 커맨드를 수신하도록 구성된 사운드 센서, 및 복수의 애플리케이션들, 복수의 보안 레벨들, 복수의 임계 값들, 및 애플리케이션들에 액세스하도록 승인된 사용자의 화자 모델을 저장하도록 구성된 저장 유닛을 포함한다. 각각의 애플리케이션은 복수의 임계 값들 중에서 하나의 임계 값을 갖는, 복수의 보안 레벨들 중에서 하나의 보안 레벨과 연관된다. 전자 디바이스는 또한 승인된 사용자의 화자 모델에 기초하여 음성 커맨드가 승인된 사용자를 나타내는지 여부를 확인하도록 구성된 화자 확인 유닛, 및 음성 커맨드가 사용자를 나타내는 것으로 확인되면 음성 커맨드로 화자 모델을 업데이트하고, 업데이트된 화자 모델에 기초하여 임계 값들 중 적어도 하나의 임계 값을 조정하도록 구성된 데이터베이스 업데이트 유닛을 포함한다.
본 개시물의 진보적인 양상들의 실시형태들은, 첨부 도면들과 연계하여 읽는 경우, 다음의 상세한 설명을 참조하여 이해될 것이다.
도 1 은, 본 개시물의 일 실시형태에 따른, 화자의 음성 커맨드에 응답하여 복수의 보안 레벨들에 기초해 복수의 애플리케이션들이 액세스될 수 있는 모바일 디바이스를 도시한다.
도 2 는, 본 개시물의 일 실시형태에 따른, 화자의 음성 커맨드에 응답하여 애플리케이션들에 대한 보안 레벨들의 임계 값들을 조정함으로써 복수의 애플리케이션들에 대한 액세스를 제어하도록 구성된 전자 디바이스의 블록도를 도시한다.
도 3 은, 본 개시물의 일 실시형태에 따른, 화자로부터의 음성 커맨드를 확인하기 위한 전자 디바이스에서의 애플리케이션 액세스 데이터베이스의 블록도를 도시한다.
도 4 는, 본 개시물의 일 실시형태에 따른, 화자 및 승인되지 않은 화자의 사운드 샘플들에 기초하는, 복수의 보안 레벨들에 대한 초기 임계 값들을 포함하는, 전자 디바이스에서 화자 확인 데이터베이스를 설정하는 도면을 도시한다.
도 5 는, 본 개시물의 일 실시형태에 따른, 화자로부터의 음성 커맨드가 확인되는 경우 애플리케이션에 액세스하도록 구성된 전자 디바이스에서의 음성 활성화 유닛의 블록도이다.
도 6 은, 본 개시물의 일 실시형태에 따른, 전자 디바이스에서, 음성 커맨드에 기초하여 애플리케이션에 액세스하고 애플리케이션에 대한 액세스를 조정하는 방법의 플로 차트를 도시한다.
도 7 은, 본 개시물의 일 실시형태에 따른, 화자로부터의 음성 커맨드를 확인함으로써 애플리케이션에 액세스하도록 구성된 전자 디바이스에서의 화자 확인 유닛의 블록도이다.
도 8 은, 본 개시물의 일 실시형태에 따른, 확인된 음성 커맨드에 기초하여, 화자 모델을 업데이트하고 보안 레벨들에 대한 임계 값들을 조정하도록 구성된 전자 디바이스에서의 데이터베이스 업데이트 유닛의 블록도를 도시한다.
도 9 는, 본 개시물의 일 실시형태에 따른, 확인된 음성 커맨드에 대한 새로운 사운드 샘플로 업데이트될 수도 있는 전자 디바이스에서의 화자 확인 데이터베이스의 도면이다.
도 10 은, 본 개시물의 일 실시형태에 따른, 음성 커맨드에 대한 신뢰도 값에 기초하여 화자 모델을 업데이트하는 방법의 플로 차트를 도시한다.
도 11 은, 본 개시물의 일 실시형태에 따른, 새로운 사운드 샘플의 보안 레벨에 대한 임계 값이 새로운 사운드 샘플을 수신하는 것에 응답하여 조정되는 전자 디바이스의 화자 확인 데이터베이스의 도면을 도시한다.
도 12 는, 본 개시물의 일 실시형태에 따른, 새로운 사운드 샘플의 보안 레벨과 상이한 보안 레벨에 대한 임계 값이 새로운 사운드 샘플을 수신하는 것에 응답하여 조정되는 전자 디바이스의 화자 확인 데이터베이스의 도면을 도시한다.
도 13 은, 본 개시물의 일 실시형태에 따른, 새로운 사운드 샘플을 수신하는 것에 응답하여 보안 레벨들에 대한 임계 값들이 조정되는 전자 디바이스의 화자 확인 데이터베이스의 도면을 도시한다.
도 14 는, 본 개시물의 일 실시형태에 따른, 보안 레벨들에 대한 임계 값들 중 적어도 하나의 임계 값을 조정하는 방법의 플로 차트를 도시한다.
도 15 는, 본 개시물의 몇몇 실시형태들에 따른, 애플리케이션들에 대한 액세스를 제어하기 위한 방법들 및 장치가 구현될 수도 있는 일 예시적인 모바일 디바이스의 블록도이다.
다양한 실시형태들에 대한 상세한 참조가 이제 이루어질 것인데, 그 실시형태들의 예들은 첨부된 도면들에서 도시된다. 다음의 상세한 설명에서, 다수의 특정 세부사항들은 본 개시물의 진보적 양상들의 철저한 이해를 제공하기 위해 제시된다. 그러나, 본 개시물의 진보적인 양상들은 이러한 특정 세부사항들이 없이도 실시될 수도 있다는 것이 당업자에게 자명할 것이다. 다른 예들에서, 공지의 방법들, 절차들, 시스템들, 및 컴포넌트들은 다양한 실시형태들의 양상들을 불필요하게 모호하게 하지 않기 위해 상세히 설명되지 않았다.
도 1 은, 본 개시물의 일 실시형태에 따른, 화자 (110) 의 음성 커맨드에 응답하여 복수의 보안 레벨들에 기초하여 복수의 애플리케이션들 (122, 124, 및 126) 이 액세스될 수 있는 모바일 디바이스 (120) 를 도시한다. 모바일 디바이스 (120) 는 애플리케이션들 (122, 124, 및 126) 을 포함하며, 애플리케이션들은, 각각, 화자 (110) 로부터의 음성 커맨드들 "뱅킹", "사진", 및 "연락처" 에 응답하여 액세스된다. 모바일 디바이스 (120) 가 애플리케이션들 (122, 124, 및 126) 과 함께 도시되었으나, 모바일 디바이스는 하나 이상의 기능들을 수행하기 위한 임의의 다른 애플리케이션들을 포함할 수도 있다. 본원에서 이용되는 바와 같이, 애플리케이션에 액세스한다는 맥락에서 용어 "액세스" 는 애플리케이션 또는 애플리케이션에서의 기능을 수행하거나, 실행하거나, 구동하거나, 활성화시키거나, 동작시키는 것을 지칭한다. 또한, 용어 "음성 커맨드" 는 모바일 디바이스 (120) 에서 수행될 액션을 나타내는 화자로부터 소리내어진 하나 이상의 단어들의 임의의 디지털 또는 아날로그 표현을 지칭하고, 명령, 요청, 주문, 키워드 등을 포함한다.
모바일 디바이스 (120) 에서의 애플리케이션들 (122, 124, 및 126) 의 각각은 연관된 애플리케이션에 액세스하기 위한 보안 레벨로 구성된다. 애플리케이션들 (122, 124, 및 126) 에 대한 보안 레벨들의 각각은 연관된 애플리케이션들 (122, 124, 및 126) 에 액세스하기 위한 최소 신뢰도 값을 나타내는 임계 값에 맵핑된다. 모바일 디바이스 (120) 는 화자 (110) 로부터의 음성 커맨드가 인식되고 애플리케이션과 연관된 임계 값에 기초하여 승인된 사용자로부터인 것으로 확인되는 경우 애플리케이션에 액세스할 수도 있다. 본 개시물의 일부 실시형태들에 따르면, 애플리케이션이 높은 레벨의 보안을 요구하면, 높은 임계 값에 맵핑되는 높은 보안 레벨이 할당될 수도 있다.
도시된 실시형태에서, 모바일 디바이스 (120) 는 화자 (110) 로부터의 연관된 음성 커맨드들에 응답하여 승인된 사용자로서 화자 (110) 가 애플리케이션들 (122, 124, 및 126) 에 액세스하는 것을 가능하게 하도록 구성된다. 도시된 바와 같이, 화자 (110) 는 모바일 디바이스 (120) 에서의 애플리케이션 (122, 124, 또는 126) 에 액세스하기 위한 입력 사운드로서 음성 커맨드를 말할 수도 있다. 모바일 디바이스 (120) 가 입력 사운드에서의 음성 커맨드를 애플리케이션들 (122, 124, 및 126) 중 하나의 애플리케이션에 액세스하기 위한 커맨드로서 인식하는 경우, 모바일 디바이스는 음성 커맨드가 승인된 사용자의 음성 커맨드일 가능성을 나타내는 음성 커맨드의 신뢰도 값을 결정한다. 음성 커맨드의 신뢰도 값이 애플리케이션 (122, 124, 또는 126) 과 연관된 임계 값을 초과하면, 모바일 디바이스 (120) 는 음성 커맨드와 연관된 애플리케이션 (122, 124, 또는 126) 에 액세스한다.
도 1 에서, 모바일 디바이스 (120) 는 화자 (110) 로부터의 음성 커맨드들에 응답하여 상이한 보안 레벨들로 애플리케이션들 (122, 124, 및 126) 에 액세스한다. 예를 들어, 모바일 디바이스 (120) 는 화자 (110) 로부터의 입력 사운드로서 음성 커맨드 "뱅킹" 을 수신할 수도 있다. 모바일 디바이스 (120) 는 음성 커맨드를, 가장 높은 보안 레벨을 나타내는 보안 레벨 "1" 을 갖는 뱅킹 애플리케이션 (122) 에 액세스하기 위한 커맨드로서 인식할 수도 있다. 이러한 경우에, 음성 커맨드에 대한 신뢰도 값이 보안 레벨 "1" 과 연관된 임계 값보다 높은 것으로 결정되면, 모바일 디바이스 (120) 는 음성 커맨드가 승인된 사용자로부터인 것으로 확인하고 화자 (110) 를 위해 뱅킹 애플리케이션 (122) 에 액세스한다.
다른 예에서, 모바일 디바이스 (120) 가 음성 커맨드 "사진" 을 입력 사운드로서 수신하는 경우, 모바일 디바이스 (120) 는 음성 커맨드를 중간 보안 레벨을 나타내는 레벨 "3" 을 갖는 사진 애플리케이션 (124) 에 액세스하기 위한 커맨드로서 인식할 수도 있다. 이러한 경우에, 음성 커맨드에 대한 신뢰도 값이 보안 레벨 "3" 과 연관된 임계 값보다 높은 것으로 결정되면, 모바일 디바이스 (120) 는 음성 커맨드가 승인된 사용자로부터인 것으로 확인하고 사진 애플리케이션 (124) 에 액세스한다.
또한, 수신된 입력 사운드가 음성 커맨드 "연락처" 를 포함하면, 모바일 디바이스 (120) 는 음성 커맨드를 보안 레벨 "5" 와 연관된 연락처 애플리케이션 (126) 에 액세스하기 위한 커맨드로서 인식할 수도 있다. 예를 들어, 보안 레벨 "5" 는 가장 낮은 보안 레벨을 나타낼 수도 있다. 이러한 경우에, 음성 커맨드에 대한 신뢰도 값이 보안 레벨 "5" 와 연관된 임계 값보다 높은 것으로 결정되면, 모바일 디바이스 (120) 는 음성 커맨드가 승인된 사용자로부터인 것으로 확인하고 연락처 애플리케이션 (126) 에 액세스한다.
도 2 는, 본 개시물의 일 실시형태에 따른, 화자의 음성 커맨드에 응답하여 애플리케이션들에 대한 보안 레벨들의 임계 값들을 조정함으로써 복수의 애플리케이션들에 대한 액세스를 제어하도록 구성된 전자 디바이스 (200) 의 블록도를 도시한다. 디바이스 (200) 는 사운드 센서 (210), I/O 유닛 (220), 통신 유닛 (230), 프로세서 (240), 및 저장 유닛 (270) 을 포함한다. 전자 디바이스 (200) 는 셀룰러 전화기과 같은 모바일 디바이스, 스마트폰, 랩탑 컴퓨터, 개인용 컴퓨터, 태블릿 컴퓨터, 게임 디바이스와 멀티미디어 디바이스, 스마트 텔레비젼, 개인용 컴퓨터 등과 같은 사운드 캡쳐 및 프로세싱 기능을 갖추고 있는 임의의 적합한 디바이스일 수도 있다.
프로세서 (240) 는 디지털 신호 프로세서 (digital signal processor; DSP) (250) 및 데이터베이스 업데이트 유닛 (260) 을 포함하고, 디바이스 (200) 를 관리하고 동작시키기 위한 애플리케이션 프로세서 (application processor; AP) 또는 중앙 프로세싱 유닛 (central processing unit; CPU) 일 수도 있다. DSP (250) 는 발화 검출기 (252) 및 음성 활성화 유닛 (254) 을 포함한다. 일 실시형태에서, DSP (250) 는 입력 사운드 스트림들을 프로세싱할 시에 전력 소비를 감소시키는 저 전력 프로세서이다. 이러한 구성에서, DSP (250) 에서의 음성 활성화 유닛 (254) 은 입력 사운드 스트림에서 인식되고 확인되는 경우 음성 커맨드가 저장 유닛 (270) 에 저장된 뱅킹 애플리케이션 (272), 사진 애플리케이션 (274), 및 연락처 애플리케이션 (276) 과 같은 애플리케이션에 액세스하도록 구성된다.
사운드 센서 (210) 는 입력 사운드 스트림을 수신하고 그것을 DSP (250) 에서의 발화 검출기 (252) 에 제공하도록 구성될 수도 있다. 사운드 센서 (210) 는 입력 사운드 스트림을 수신, 캡쳐, 감지, 및/또는 검출하는데 이용될 수 있는 하나 이상의 마이크로폰들 또는 임의의 다른 유형의 사운드 센서들을 포함할 수도 있다. 또한, 사운드 센서 (210) 는 그러한 기능들을 수행하기 위해 임의의 적합한 소프트웨어 및/또는 하드웨어를 사용할 수도 있다.
일 실시형태에서, 사운드 센서 (210) 는 듀티 사이클에 따라 주기적으로 입력 사운드 스트림을 수신하도록 구성될 수도 있다. 이러한 경우에, 사운드 센서 (210) 는 입력 사운드 스트림의 수신된 부분의 강도가 임계 강도보다 큰지 여부를 결정할 수도 있다. 수신된 부분의 강도가 임계 강도를 초과하는 경우, 사운드 센서 (210) 는 발화 검출기 (252) 를 활성화시키고 수신된 부분을 DSP (250) 에서의 발화 검출기 (252) 에 제공한다. 대안으로, 사운드 센서 (210) 는 주기적으로 입력 사운드 스트림의 일부분을 수신하고 발화 검출기 (252) 를 활성화시켜 수신된 부분의 강도가 임계 강도를 초과하는지 여부를 결정하지 않으면서 발화 검출기 (252) 의 수신된 부분을 제공할 수도 있다. 본원에서 이용되는 바와 같이, 용어 "사운드 스트림" 은 하나 이상의 사운드 신호들 또는 사운드 데이터의 시퀀스를 지칭한다.
DSP (250) 에서의 발화 검출기 (252) 는 사운드 센서 (210) 로부터 입력 사운드 스트림의 일부분을 수신하도록 구성된다. 일 실시형태에서, 발화 검출기 (252) 는 수신된 부분으로부터 복수의 사운드 특징들을 추출하고, GMM (Gaussian mixture model) 기반 분류기, 신경망, HMM (hidden Markov model), 지리학적 모델, 및 SVM (Support Vector Machine) 과 같은 임의의 적합한 사운드 분류 방법을 이용함으로써 추출된 사운드 특징들이 사람의 발화와 같은 관심 사운드를 나타내는지 여부를 결정할 수도 있다. 수신된 부분이 관심 사운드인 것으로 결정되는 경우, 발화 검출기 (252) 는 음성 활성화 유닛 (254) 을 활성화시키고, 입력 사운드 스트림의 수신된 부분 및 남은 부분은 음성 활성화 유닛 (254) 에 제공된다. 일부 다른 실시형태들에서, 발화 검출기 (252) 는 DSP (250) 에서 생략될 수도 있다. 이러한 경우에, 수신된 입력 사운드 스트림이 강도가 임계 강도보가 큰 경우, 사운드 센서 (210) 는 음성 활성화 유닛 (254) 을 활성화시키고 수신된 입력 사운드 스트림을 직접적으로 음성 활성화 유닛 (254) 에 제공한다.
애플리케이션들에 액세스하기 위한 음성 커맨드들을 인식할 시에 이용하기 위해, 저장 유닛 (270) 은 복수의 음성 커맨드의 부분들과 연관된 복수의 상태들에 대한 상태 정보와 함께 애플리케이션들의 각각에 대한 음성 커맨드 (예를 들어, 대상 키워드) 를 저장한다. 일 실시형태에서, 저장 유닛 (270) 은 음성 커맨드를 인식하기 위해 발화 또는 음향 모델을 저장할 수도 있다. 발화 또는 음향 모델은 음성 커맨드의 발화 특성들을 표현하는 모델이고, 그러한 발화 특성들의 통계적 모델일 수도 있다.
발화 또는 음향 모델에 있어서, 음성 커맨드는 단음들, 음소들, 또는 그것의 서브유닛들과 같은 복수의 기본 사운드 유닛들로 나눠질 수도 있다. 이러한 경우에, 음성 커맨드를 표현하는 복수의 부분들은 기본 사운드 유닛들에 기초하여 생성될 수도 있다. 음성 커맨드의 기본 사운드 유닛들의 각각은 임의의 적합한 발화 인식 방법들인, HMM (hidden Markov model), GMM (Gaussian mixture model), SMM (semi-Markov model) 등을 이용하여 분석될 수도 있다. 그 분석에 기초하여, 기본 사운드 유닛들의 각각의 평균 및 분산이 결정될 수도 있다. 음성 커맨드에 대한 기본 사운드 유닛들에 대한 결정된 평균 및 분산은 음성 커맨드에 대한 발화 또는 음향 모델을 생성하는데 이용된다.
저장 유닛 (270) 은 또한 프로세서 (240) 에 의해 액세스될 수 있는 뱅킹 애플리케이션 (272), 사진 애플리케이션 (274), 및 연락처 애플리케이션 (276) 을 저장한다. 도시된 실시형태에서는 저장 유닛 (270) 이 뱅킹 애플리케이션 (272), 사진 애플리케이션 (274), 및 연락처 애플리케이션 (276) 을 저장하지만, 저장 유닛은 또한 프로세서 (240) 에 의해 실행될 수 있는 임의의 다른 애플리케이션들 또는 기능들을 저장할 수도 있다. 저장 유닛 (270) 은 RAM (Random Access Memory), ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), 플래시 메모리, 또는 SSD (Solid State Drive) 와 같은 임의의 적합한 스토리지 또는 메모리 디바이스들을 이용하여 구현될 수도 있다.
또한, 저장 유닛 (270) 은 음성 활성화 유닛 (254) 및 데이터베이스 업데이트 유닛 (260) 에 의해 액세스되는 애플리케이션 액세스 데이터베이스 (278) 를 저장할 수도 있다. 애플리케이션 액세스 데이터베이스 (278) 는 음성 커맨드들을 애플리케이션들 및 애플리케이션들과 연관된 보안 레벨들에 연관시키는 정보를 포함한다. 나아가, 애플리케이션 액세스 데이터베이스 (278) 는 또한 화자 확인 데이터베이스 및 화자 모델과 같은 승인된 사용자를 확인하기 위한 정보를 포함할 수도 있다.
DSP (250) 에서의 음성 활성화 유닛 (254) 은 발화 검출기 (252) 에서 수신된 부분에서 시작하여 입력 사운드 스트림을 수신하도록 구성된다. 애플리케이션에 액세스하기 위한 음성 커맨드는 그러면 음성 활성화 유닛 (254) 에서 입력 사운드 스트림으로부터 인식될 수도 있다. 음성 커맨드를 인식하기 위해, 하나 이상의 사운드 특징들 (예를 들어, 오디오 핑거 핑거프린트들, MFCC 벡터들) 이 수신된 입력 사운드 스트림으로부터 추출되고 HMM (hidden Markov model), SMM (semi-Markov model) 등에 기초하여 임의의 적합한 발화 인식 방법들을 이용하여 분석될 수도 있다.
음성 커맨드가 인식되면, 음성 활성화 유닛 (254) 은 저장 유닛 (270) 에서의 애플리케이션 액세스 데이터베이스 (278) 에 기초하여 음성 커맨드와 연관되는 액세스될 애플리케이션, 그 애플리케이션과 연관된 보안 레벨, 및 그 보안 레벨과 연관된 임계 값을 식별한다. 예를 들어, 음성 커맨드 "뱅킹" 이 인식되는 경우, 음성 활성화 유닛 (254) 은 애플리케이션 액세스 데이터베이스 (278) 에 기초하여 뱅킹 애플리케이션 (272), 연관된 보안 레벨 (예를 들어, 보안 레벨 "1"), 및 그 보안 레벨에 대한 임계 값 (예를 들어, 임계 값 "9") 을 식별할 수도 있다.
음성 활성화 유닛 (254) 은 또한 추출된 사운드 특징들 및 애플리케이션 액세스 데이터베이스 (278) 에서의 화자 모델에 기초하여 음성 커맨드의 신뢰도 값을 결정하도록 구성된다. 화자 모델은 화자의 사운드 특성들을 표현하는 모델이고, 그러한 사운드 특성들의 통계적 모델이다. 음성 커맨드의 신뢰도 값은 그 다음에 액세스될 애플리케이션과 연관된 임계 값과 비교된다. 신뢰도 값이 임계 값을 초과하면, 음성 커맨드는 승인된 사용자로부터인 것으로 확인된다. 이러한 경우에, 음성 활성화 유닛 (254) 은 음성 커맨드와 연관된 애플리케이션에 액세스하도록 활성화 신호를 생성한다. 음성 커맨드가 확인된 경우, 음성 활성화 유닛 (254) 은 액세스된 애플리케이션에 대한 보안 레벨, 음성 커맨드에 대한 신뢰도 값, 및 음성 커맨드에 대한 사운드 특징들을 데이터베이스 업데이트 유닛 (260) 에 송신한다. 일 실시형태에서, 음성 커맨드에 대한 입력 사운드 스트림에 더해 또는 그 대신에 음성 커맨드에 대한 사운드 특징들이 데이터베이스 업데이트 유닛 (260) 에 송신될 수도 있다.
액세스된 애플리케이션에 대한 보안 레벨, 음성 커맨드에 대한 신뢰도 값, 및 음성 커맨드의 사운드 특징들을 수신하면, 데이터베이스 업데이트 유닛 (260) 은 저장 유닛 (270) 에서의 화자 모델을 업데이트한다. 예를 들어, 음성 커맨드의 사운드 특징들은 새로운 사운드 샘플로서 기존의 사운드 샘플들에 추가된다. 통계적 화자 모델의 경우에, 화자 모델에 대한 사운드 샘플들의 새로운 평균 및 새로운 분산은 새로운 사운드 샘플 및 기존의 사운드 샘플들의 이전의 평균과 분산에 기초하여 결정될 수도 있다. 데이터베이스 업데이트 유닛 (260) 은 그 다음에 업데이트된 화자 모델을 이용하여 보안 레벨들에 대한 임계 값들 중 적어도 하나의 임계 값을 조정한다. 전자 디바이스 (200) 는 그 다음에 업데이트된 화자 모델 및 조정된 임계 값을 이용하여 애플리케이션들 (272, 274, 및 276) 에 액세스하는 후속하는 음성 커맨드들을 확인할 수도 있다.
도 3 은, 본 개시물의 일 실시형태에 따른, 화자로부터의 음성 커맨드를 확인하기 위한 애플리케이션 액세스 데이터베이스 (278) 의 블록도를 도시한다. 애플리케이션 액세스 데이터베이스 (278) 는 애플리케이션 보안 데이터베이스 (310), 화자 확인 데이터베이스 (320), 및 화자 모델 (330) 을 포함한다. 애플리케이션 보안 데이터베이스 (310) 는 복수의 커맨드들 (312), 복수의 애플리케이션 식별자들 (314), 및 복수의 보안 레벨들 (316) 을 포함한다. 화자 확인 데이터베이스 (320) 는 복수의 보안 레벨들 (316), 복수의 임계 값들 (322), 및 복수의 사운드 샘플들 (324) 을 포함한다.
애플리케이션 보안 데이터베이스 (310) 는 커맨드들 (312) 을 액세스될 애플리케이션들을 나타내는 애플리케이션 식별자들 (314) 에 맵핑한다. 애플리케이션 식별자들 (314) 은 액세스될 애플리케이션들에 대한 보안 레벨들을 결정하기 위해 보안 레벨들 (316) 과 연관된다. 일 실시형태에서, 커맨드들 (312), 애플리케이션 식별자들 (314), 및 보안 레벨들 (316) 은 커맨드들 (312) 에 응답하여 애플리케이션 식별자들 (314) 및 보안 레벨들 (316) 을 결정하기 위해 룩업 테이블 또는 임의의 적합한 데이터 구조의 형태로 저장될 수도 있다. 애플리케이션 보안 데이터베이스 (310) 를 이용하여, 음성 활성화 유닛 (254) 은 음성 커맨드가 커맨드들 (312) 중 하나의 커맨드로 인식되는 경우에 액세스될 애플리케이션의 보안 레벨을 결정한다.
화자 확인 데이터베이스 (320) 에서, 보안 레벨들 (316) 은 인식된 음성 커맨드들의 신뢰도 값들이 보안 레벨들 (316) 과 연관된 애플리케이션들에 액세스하기 위해 초과해야할 최소 값들을 나타내는 임계 값들 (322) 에 맵핑된다. 일 실시형태에서, 보안 레벨은 보안 레벨에 대한 최소 신뢰도 값을 나타내는 임계 값에 맵핑된다. 화자의 사운드 샘플들 (324) 은 보안 레벨들 (316) 의 임계 값들 (322) 에 따라 화자 확인 데이터베이스 (320) 에서의 보안 레벨들 (316) 에 할당된다. 보안 레벨들 (316), 임계 값들 (322), 및 사운드 샘플들 (324) 을 포함하는 화자 확인 데이터베이스 (320) 는 룩업 테이블 또는 임의의 적합한 데이터 구조의 형태로 저장될 수도 있다.
애플리케이션 액세스 데이터베이스 (278) 에서의 화자 모델 (330) 은 화자의 음성 커맨드를 확인할 시에 이용하기 위해 음성 커맨드의 신뢰도 값을 산출하는데 이용된다. 화자 모델 (330) 은 사운드 샘플들 (324) 에 대한 평균 (332) 및 분산 (334) 과 같은 통계적 데이터를 포함하는 GMM 모델일 수도 있다. 다른 실시형태들에서, 화자 모델 (330) 은 또한 사운드 샘플들 (324) 의 최대 값, 최소 값, 잡음 전력, SNR, 신호 전력, 엔트로피, 첨도, 고차 모멘텀 (high order momentum) 등을 포함할 수도 있다. 음성 활성화 유닛 (254) 은 음성 커맨드의 신뢰도 값과 액세스될 애플리케이션에 대한 보안 레벨의 임계 값을 비교한다. 음성 커맨드의 신뢰도 값이 애플리케이션의 임계 값을 초과하면, 음성 활성화 유닛 (254) 은 음성 커맨드가 승인된 사용자로부터인 것으로 확인하고, 애플리케이션에 액세스하도록 활성화 신호를 생성한다.
도 4 는, 본 개시물의 일 실시형태에 따른, 승인된 사용자 및 승인되지 않은 사용자의 사운드 샘플들에 기초하여, 복수의 보안 레벨들에 대한 초기의 임계 값들을 포함하는, 화자 확인 데이터베이스 (320) 를 설정하는 도면을 도시한다. 도시된 바와 같이, 화자 확인 데이터베이스 (320) 는 5 개의 보안 레벨들 "1" 내지 "5" 를 포함하며, 보안 레벨 "1" 은 가장 높은 보안 레벨이다. 모바일 디바이스 (120) 에서의 각각의 애플리케이션에는 액세스를 위한 보안 레벨들 중 하나의 보안 레벨이 할당될 수도 있다. 화자 확인 데이터베이스 (320) 가 5 개의 보안 레벨들을 갖는 것으로 도시되나, 임의의 적합한 개수의 보안 레벨들을 포함할 수도 있다.
화자 확인 데이터베이스 (320) 를 설정하기 위해, 전자 디바이스 (200) 는 승인된 사용자인 화자로부터 복수의 사운드 샘플들 (S1 내지 S10) 및 승인되지 않은 사용자 (즉, 사기꾼) 로부터 복수의 사운드 샘플들 (U1 내지 U10) 을 수신하여 저장한다. 위에서 논의된 바와 같이, 승인된 사용자의 사운드 샘플들 (S1 내지 S10) 은 사운드 샘플들의 통계적 데이터 (예를 들어, 평균 및 분산) 를 이용하여 화자 모델을 생성하는데 이용된다. 사운드 샘플들 (S1 내지 S10) 및 사운드 샘플들 (U1 내지 U10) 의 신뢰도 값들은 그러면 화자 모델에 기초하여 결정된다. 이러한 경우에, 승인된 사용자에 대한 사운드 샘플들의 신뢰도 값들은 일반적으로 승인되지 않은 사용자에 대한 사운드 샘플들의 신뢰도 값들보다 상당히 높을 것이다.
사운드 샘플들 (S1 내지 S10, 및 U1 내지 U10) 의 신뢰도 값들이 결정된 후에, 가장 높은 임계 값 및 가장 낮은 임계 값이 신뢰도 값들 중에서 선택된다. 전자 디바이스 (200) 는 가장 높은 임계 값이 승인된 사용자에 대한 사운드 샘플들 (S1 내지 S10) 의 신뢰도 값들 중 최소 값이 되도록 결정할 수도 있다. 가장 높은 임계 값은 그러면 가장 높은 보안 레벨 "1" 에 맵핑된다. 반면에, 전자 디바이스 (200) 는 가장 낮은 임계 값이 승인되지 않은 사용자에 대한 사운드 샘플들 (U1 내지 U10) 의 신뢰도 값들 중에서 최대 값이 되도록 결정할 수도 있다. 이러한 경우에, 가장 낮은 임계 값은 가장 낮은 보안 레벨 "5" 에 맵핑된다.
각각, 가장 높은 보안 레벨 "1" 및 가장 낮은 보안 레벨 "5" 에 대응하는, 가장 높은 임계 값과 가장 낮은 임계 값 사이의 간격은 그러면 보안 레벨 "1" 과 보안 레벨 "5" 사이의 중간 보안 레벨들 "2," "3," 및 "4" 에 대한 임계 값들을 결정하도록 파티셔닝되거나 나눠질 수도 있다. 일 실시형태에서, 전자 디바이스 (200) 는 가장 높은 임계 값과 가장 낮은 임계 값 사이의 차이를 동일하게 파티셔닝함으로써 보안 레벨들 "2", "3", 및 "4" 에 대한 임계 값들을 결정한다. 이러한 경우에, 차이는 임계 값 증분을 산출하기 위해 4 (즉, 중간 보안 레벨들 + 1 의 수) 로 나눠질 수도 있다. 하나 이상의 임계 값 증분들은 그러면 가장 낮은 임계 값에 추가되어 중간 보안 레벨들 "2", "3", 및 "4" 에 대한 임계 값들을 결정할 수도 있다. 대안으로, 하나 이상의 임계 값 증분들은 가장 높은 임계 값들로부터 감산되어 중간 보안 레벨들 "2", "3", 및 "4" 에 대한 임계 값들을 결정할 수도 있다. 이러한 방식으로, 보안 레벨들의 각각은 보안 레벨에 대한 최소 신뢰도 값을 나타내는 연관된 임계 값만큼 증가하게 정의될 수도 있다.
도 5 는, 본 개시물의 일 실시형태에 따른, 화자로부터의 음성 커맨드가 확인되는 경우 애플리케이션에 액세스하도록 구성된 음성 활성화 유닛 (254) 의 블록도이다. 음성 활성화 유닛 (254) 은 커맨드 결정 유닛 (510), 보안 레벨 결정 유닛 (520), 및 화자 확인 유닛 (530) 을 포함한다. 커맨드 결정 유닛 (510) 은 입력 사운드 스트림으로부터 애플리케이션에 액세스하기 위한 음성 커맨드를 인식하고, 보안 레벨 결정 유닛 (520) 은 애플리케이션에 대한 보안 레벨을 결정한다. 화자 확인 유닛 (530) 은 그러면 음성 커맨드가 승인된 사용자로부터인 것으로 확인되면 애플리케이션에 액세스한다.
음성 활성화 유닛 (254) 에서, 커맨드 결정 유닛 (510) 은 발화 검출기 (252) 로부터 입력 사운드 스트림을 수신하고 입력 사운드 스트림으로부터 애플리케이션에 액세스하기 위한 음성 커맨드를 인식하도록 구성된다. 음성 커맨드를 인식하기 위해, 커맨드 결정 유닛 (510) 은 수신된 입력 사운드 스트림으로부터 하나 이상의 사운드 특징들 (예를 들어, 오디오 핑거 핑거프린트들, MFCC 벡터들) 을 추출한다. 추출된 사운드 특징들은 그 다음에 음성 커맨드를 인식하기 위해 HMM, SMM 등에 기초하여 임의의 적합한 발화 인식 방법들을 이용하여 분석된다. 일 실시형태에서, 커맨드 결정 유닛 (510) 은 입력 사운드 스트림을 음소들과 같은 복수의 기본 사운드 유닛들로 나누고, 그 다음에 저장 유닛 (270) 에 저장된 음성 커맨드에 대한 발화 또는 음향 모델에 액세스하여 음성 커맨드를 인식할 수도 있다. 음성 커맨드가 인식되면, 커맨드 결정 유닛 (510) 은 인식된 음성 커맨드를 보안 레벨 결정 유닛 (520) 에 송신한다. 일 실시형태에서, 추출된 사운드 특징들은 음성 커맨드를 확인할 시에 이용하기 위해 화자 확인 유닛 (530) 에 송신될 수도 있다.
보안 레벨 결정 유닛 (520) 은 음성 커맨드를 수신하고 인식된 음성 커맨드에 기초하여 액세스될 애플리케이션을 식별한다. 일 실시형태에서, 복수의 커맨드들, 음성 커맨드들과 연관된 애플리케이션 식별자들, 및 애플리케이션들에 대한 보안 레벨들은 저장 유닛 (270) 의 애플리케이션 보안 데이터베이스 (310) 에 저장된다. 음성 커맨드에 기초하여, 보안 레벨 결정 유닛 (520) 은 애플리케이션 보안 데이터베이스 (310) 로부터 액세스될 애플리케이션을 식별한다. 보안 레벨 결정 유닛 (520) 은 또한 애플리케이션 보안 데이터베이스 (310) 로부터 액세스될 애플리케이션과 연관된 보안 레벨을 결정할 수도 있다. 애플리케이션에 액세스하기 위한 애플리케이션 식별자 및 그것의 보안 레벨이 그러면 화자 확인 유닛 (530) 으로 송신된다.
화자 확인 유닛 (530) 은 입력 사운드 스트림 및 보안 레벨과 함께 애플리케이션 식별자를 수신하고 음성 커맨드가 애플리케이션에 액세스하도록 승인된 사용자로부터의 것인지 여부를 확인하도록 구성된다. 화자 확인 유닛 (530) 은 화자 모델 (330) 및 입력 사운드 스트림으로부터 추출된 사운드 특징들에 기초하여 입력 사운드 스트림에서의 음성 커맨드의 신뢰도 값을 결정할 수도 있다. 이러한 경우에, 화자 확인 유닛 (530) 은 입력 사운드 스트림으로부터 사운드 특징들을 추출하거나 커맨드 결정 유닛 (510) 으로부터 수신되는 추출된 사운드 특징들을 이용할 수도 있다. 일 실시형태에서, 사운드 특징들의 각각에 대한 신뢰도 값은 화자 모델 (330) 에 기초하여 산출될 수도 있고, 사운드 특징들의 신뢰도 값들의 평균은 음성 커맨드에 대한 신뢰도 값으로 이용될 수도 있다.
화자 확인 유닛 (530) 은 또한 저장 유닛 (270) 에서의 화자 확인 데이터베이스 (320) 로부터 애플리케이션 식별자의 보안 레벨에 대한 임계 값을 획득하도록 구성된다. 화자 확인 유닛 (530) 은 그 다음에 임계 값과 음성 커맨드의 신뢰도 값을 비교하여 신뢰도 값이 임계 값을 초과하는지를 결정한다. 신뢰도 값이 임계 값을 초과하지 않으면, 음성 커맨드는 승인된 사용자로부터인 것으로 확인되지 않는다. 이러한 경우에, 화자 확인 유닛 (530) 은 화자로부터 추가적인 입력을 수신하여 애플리케이션에 액세스하기 위한 음성 커맨드들을 인증할 수도 있다. 화자가 확인되지 않으면, 애플리케이션은 액세스되지 않는다.
반면에, 음성 커맨드의 신뢰도 값이 임계 값을 초과하면, 음성 커맨드는 승인된 사용자로부터인 것으로 확인된다. 화자 확인 유닛 (530) 은 그러면 음성 커맨드에 응답하여 식별된 애플리케이션에 액세스하기 위한 활성화 신호를 생성한다. 또한, 화자 확인 유닛 (530) 은 액세스된 애플리케이션에 대한 보안 레벨, 음성 커맨드의 신뢰도 값, 및 음성 커맨드에 대한 새로운 사운드 샘플로서 사운드 특징들을 데이터베이스 업데이트 유닛 (260) 에 송신한다.
도 6 은 본 개시물의 일 실시형태에 따른 전자 디바이스 (200) 에서 음성 커맨드에 기초하여 애플리케이션들에 대한 액세스를 제어하기 위한 방법 (600) 의 플로 차트를 도시한다. 전자 디바이스 (200) 에는 복수의 애플리케이션들이 제공된다. 애플리케이션들의 각각은 보안 레벨과 연관되며, 보안 레벨은 최소 신뢰도 값을 애플리케이션에 액세스하기 위한 임계 값으로 갖는다.
610 에서, 복수의 애플리케이션들 중에서 대상 애플리케이션에 액세스하기 위한 화자로부터의 음성 커맨드를 포함하는 입력 사운드 스트림이 수신된다. 음성 커맨드가 대상 애플리케이션에 액세스하기 위한 커맨드로 인식되면, 620 에서, 승인된 사용자의 화자 모델 (330) 에 기초하여 음성 커맨드가 승인된 사용자를 나타내는지 여부가 확인된다. 음성 커맨드가 확인되면, 대상 애플리케이션에 액세스하기 위한 활성화 신호가 생성되고, 대상 애플리케이션이 액세스된다. 또한, 음성 커맨드가 확인되면, 630 에서, 화자 모델 (330) 은 새로운 사운드 샘플로서 그 음성 커맨드로 업데이트된다. 업데이트된 화자 모델에 기초하여, 640 에서, 보안 레벨들에 대한 임계 값들 중 적어도 하나의 임계 값이 조정된다. 이에 따라, 전자 디바이스 (200) 는 그 다음에 업데이트된 화자 모델 및 조정된 임계 값을 이용하여 애플리케이션들에 액세스하기 위한 후속하는 음성 커맨드들을 확인할 수도 있다.
도 7 은, 본 개시물의 일 실시형태에 따른, 화자로부터의 음성 커맨드를 확인함으로써 애플리케이션에 액세스하도록 구성된 화자 확인 유닛 (530) 의 블록도이다. 화자 확인 유닛 (530) 은 음성 확인 유닛 (710) 및 이차 확인 유닛 (740) 을 포함한다. 음성 확인 유닛 (710) 은 신뢰도 결정 유닛 (720) 및 애플리케이션 액세스 제어기 (730) 를 더 포함한다.
음성 확인 유닛 (710) 은 보안 레벨 결정 유닛 (520) 으로부터 액세스될 애플리케이션을 나타내는 애플리케이션 식별자 및 애플리케이션의 보안 레벨을 수신한다. 또한, 음성 확인 유닛 (710) 은 발화 검출기 (252) 로부터 입력 사운드 스트림을 수신하고, 입력 사운드 스트림으로부터 사운드 특징들을 추출할 수도 있다. 대안으로, 음성 확인 유닛 (710) 은 커맨드 결정 유닛 (510) 으로부터 추출된 사운드 특징들을 수신할 수도 있다. 신뢰도 결정 유닛 (720) 은 그 다음에 추출된 사운드 특징들 및 저장 유닛 (270) 으로부터의 화자 모델 (330) 에 기초하여 음성 커맨드의 신뢰도 값을 결정한다. 음성 커맨드의 신뢰도 값은 그러면 애플리케이션 액세스 제어기 (730) 로 송신된다.
신뢰도 결정 유닛 (720) 은 음성 커맨드의 신뢰도 값을 결정한다. 일 실시형태에서, 신뢰도 결정 유닛 (720) 은 화자 모델 (330) 및 사운드 특징들의 신뢰도 값들의 평균에 기초하여 사운드 특징들의 각각에 대한 신뢰도 값을 산출할 수도 있다. 이러한 경우에, 평균 신뢰도 값은 음성 커맨드에 대한 신뢰도 값으로서 이용될 수도 있다. 예를 들어, 화자 모델 (330) 이 평균 및 분산을 포함하는 GMM 모델인 경우, 신뢰도 결정 유닛 (720) 은 사운드 특징이 신뢰도 값으로서 GMM 모델에 속할 가능성을 산출한다. 음성 커맨드의 사운드 피쳐들에 대한 신뢰도 값들은 그러면 평균내어져 사운드 특징들에 대한 평균 신뢰도 값을 생성할 수도 있다. 다른 실시형태들에서, 신뢰도 결정 유닛 (720) 은 은닉 마르코브 모델들, 패턴 매칭 알고리즘, 신경망들, 벡터 양자화와 결정 트리들, 안티-화자 기법들 (예를 들어, 범용 배경 모델) 등과 같은, 음성 커맨드의 신뢰도 값을 결정하기 위한, 임의의 다른 적합한 알고리즘을 이용할 수도 있다.
화자 확인 데이터베이스 (320) 로부터, 애플리케이션 액세스 제어기 (730) 는 액세스될 애플리케이션에 대한 보안 레벨의 임계 값을 획득한다. 보안 레벨의 임계 값 및 음성 커맨드의 신뢰도 값이 그러면 비교된다. 신뢰도 값이 보안 레벨의 임계 값을 초과하는 경우, 음성 커맨드는 승인된 사용자로부터의 것으로 확인된다. 이러한 경우에, 애플리케이션 액세스 제어기 (730) 는 애플리케이션에 액세스하기 위한 활성화 신호를 생성하다. 또한, 신뢰도 값, 애플리케이션의 보안 레벨, 및 새로운 사운드 샘플로서의 사운드 특징들이 데이터베이스 업데이트 유닛 (260) 으로 송신되어 화자 모델 (330) 을 업데이트하고 보안 레벨들에 대한 임계 값들 중 적어도 하나의 임계 값을 조정한다.
반면에, 입력 사운드의 신뢰도 값이 보안 레벨의 임계 값을 초과하지 않으면, 음성 확인 유닛 (710) 은 화자로부터 추가적인 입력을 수신하여 음성 커맨드가 승인된 사용자로부터의 것인지를 확인하도록 이차 확인 유닛 (740) 에 통지한다. 이차 확인 유닛 (740) 은 그러면 I/O 유닛 (220) 을 통해 추가적인 음성 샘플, 비밀번호, 홍채 스캔, 지문 스캔, 얼굴 스캔을 포함하는 생체인식 스캔 등과 같은 하나 이상의 입력들을 제공할 것을 화자에게 요청할 수도 있다.
입력이 화자로부터 수신되면, 이차 확인 유닛 (740) 은 추가적인 입력이 승인된 사용자로부터의 것인지 여부를 결정하도록 구성된다. 예를 들어, 이차 확인 유닛 (740) 이 확인을 위한 비밀번호를 요청하면, 화자는 I/O 유닛 (220) 에서의 키패드를 통해 비밀번호를 입력할 수도 있다. 입력된 비밀번호가 저장 유닛 (270) 에 저장된 승인된 사용자의 비밀번호와 동일한 경우, 이차 확인 유닛 (740) 은 음성 커맨드의 화자가 승인된 사용자인 것으로 확인된다고 애플리케이션 액세스 제어기 (730) 에 통지한다. 다른 예에서, 추가적인 음성 샘플이 수신되는 경우, 그것은 음성 확인 유닛 (710) 으로 송신되어 추가적인 음성 샘플이 승인된 사용자로부터의 것인지를 확인할 수도 있다.
추가적인 화자 확인에 기초하여, 이차 확인 유닛 (740) 은 처음에 확인되지 않은 음성 커맨드가 애플리케이션에 액세스하도록 승인된 사용자로부터의 것이라고 확인할 수도 있다. 추가적인 화자 확인에 기초하여 음성 커맨드의 화자가 확인되면, 이차 확인 유닛 (740) 은 음성 커맨드의 화자가 확인되었다고 음성 확인 유닛 (710) 에 통지한다. 응답으로, 애플리케이션 액세스 제어기 (730) 는 애플리케이션에 액세스하기 위한 활성화 신호를 생성하다. 또한, 애플리케이션 액세스 제어기 (730) 는 신뢰도 값, 애플리케이션의 보안 레벨, 및 새로운 사운드 샘플로서 음성 커맨드의 사운드 피쳐들을 데이터베이스 업데이트 유닛 (260) 에 송신한다.
도 8 은, 본 개시물의 일 실시형태에 따른, 확인된 음성 커맨드에 기초하여, 화자 모델 (330) 을 업데이트하고 보안 레벨들 (316) 에 대한 임계 값들 (322) 을 조정하도록 구성된 데이터베이스 업데이트 유닛 (260) 의 블록도를 도시한다. 확인된 음성 커맨드에 응답하여 화자 모델 (330) 이 업데이트되고 보안 레벨들 (316) 에 대한 임계 값들 (322) 이 조정된 경우, 그것들은 후속하는 애플리케이션들에 액세스하기 위한 음성 커맨드들을 확인하는데 이용될 수도 있다. 데이터베이스 업데이트 유닛 (260) 은 화자 모델 업데이트 유닛 (810) 및 임계 조정 유닛 (820) 을 포함한다.
화자 모델 업데이트 유닛 (810) 은 확인된 음성 커맨드에 대한 새로운 사운드 샘플 및 새로운 사운드 샘플에 대해 결정된 신뢰도 값을 수신하도록 구성된다. 화자 모델 업데이트 유닛 (810) 은 그 다음에 새로운 사운드 샘플을 추가함으로써 화자 확인 데이터베이스 (320) 의 사운드 샘플들 (324) 을 업데이트한다. 일 실시형태에서, 사운드 샘플들 (324) 은 그것들이 신뢰도 값들에 기초하여 연관된 보안 레벨들 (316) 에 맵핑된다. 예를 들어, 새로운 사운드 샘플과 연관된 신뢰도 값이 9.1 이고 보안 레벨 "1" 의 임계 값이 9.0 이면, 새로운 사운드 샘플은 보안 레벨 "1" 에 맵핑된다.
예시된 바와 같이, 화자 모델 업데이트 유닛 (810) 은 평균 (332) 과 분산 (334) 에 기초한 새로운 평균과 새로운 분산 및 새로운 사운드 샘플의 신뢰도 값을 결정함으로써 화자 모델 (330) 을 업데이트한다. 대안으로, 화자 모델 업데이트 유닛 (810) 은 사운드 샘플들 (324) 을 이용하여 화자 모델 (330) 에 대한 새로운 평균 및 새로운 분산을 결정할 수도 있다. 화자 모델 (330) 의 새로운 평균 및 분산을 결정할 시에, 새로운 사운드 샘플은 그것의 신뢰도 값에 따라 가중치가 주어질 수도 있다. 예를 들어, 새로운 사운드 샘플의 신뢰도 값이 낮으면, 화자 모델 (330) 의 새로운 평균 및 분산을 산출할 시에 새로운 사운드 샘플에는 낮은 가중치가 주어질 수도 있다. 반면에, 새로운 사운드 샘플의 신뢰도 값이 높으면, 발화 모델 (330) 의 새로운 평균 및 분산을 산출할 시에 새로운 사운드 샘플에 높은 가중치가 주어질 수도 있다.
일부 실시형태들에서, 화자 모델 (330) 의 평균 (332) 및 분산 (334) 은 MAP (Maximum a posteriori) 적응 기법을 이용함으로써 업데이트될 수도 있다. 이러한 경우에, 평균 (332) 및/또는 분산 (334) 은 이전의 평균 및/또는 분산과, 새로운 사운드 샘플을 이용하여 계산된 새로운 평균 및/또는 분산의 선형 조합을 수행함으로써 업데이트된다. 이전의 평균 및/또는 분산 및 새로운 평균 및/또는 분산의 각각은 새로운 사운드 샘플의 신뢰도 값에 기초하여 상이하게 가중치가 주어진다. 예를 들어, 새로운 사운드 샘플의 신뢰도 값이 높으면, 선형 조합을 수행할 경우에 새로운 평균에 대해 큰 계수 값이 이용될 수도 있다. 새로운 사운드 샘플을 이용하여, 화자 모델 (330) 의 평균 (332) 및 분산 (334) 이 그러면 업데이트될 수도 있다. 화자 모델 업데이트 유닛 (810) 은 또한 화자 모델 (330) 이 업데이트되었다고 임계 조정 유닛 (820) 에 통지한다.
임계 조정 유닛 (820) 은 화자 모델 업데이트 유닛 (810) 으로부터 업데이트 통지를 수신하도록 구성된다. 임계 조정 유닛 (820) 은 그러면 화자 모델 (330) 에 액세스하여 업데이트된 사운드 샘플들 (324) 에 대한 신뢰도 값들을 재-산출한다. 일 실시형태에서, 임계 조정 유닛 (820) 은 액세스된 애플리케이션의 보안 레벨과 연관된 사운드 샘플들에 대한 신뢰도 값들을 재-산출할 수도 있다. 재-산출된 신뢰도 값들은 그러면 액세스된 애플리케이션의 보안 레벨에 대한 새로운 임계 값을 결정하는데 이용될 수도 있다. 예를 들어, 새로운 임계 값은 재산출된 신뢰도 값들 중에서 최소 신뢰도 값일 수도 있다. 따라서, 최소 신뢰도 값이 보안 레벨에 대한 이전의 임계 값과 상이하면, 임계 값은 재-산출된 신뢰도 값들 중에서 최소 신뢰도 값으로 조정될 수도 있다.
대안으로, 임계 조정 유닛 (820) 은 화자 확인 데이터베이스 (320) 에서의 사운드 샘플들 (324) 에 대한 신뢰도 값들을 재-산출할 수도 있다. 이러한 경우에, 화자 확인 데이터베이스 (320) 에서의 보안 레벨들 (316) 에 대한 임계 값들 (322) 은 보안 레벨들 (316) 에 대한 임의의 새로운 최소 신뢰도 값들을 반영하도록 조정될 수도 있다. 다른 실시형태에서, 임계 조정 유닛 (820) 은 새로운 사운드 샘플이 맵핑되는 보안 레벨과 연관된 사운드 샘플들 (324) 에 대한 신뢰도 값들을 재-산출할 수도 있다. 이러한 보안 레벨에 대한 임계 값은 보안 레벨과 연관된 사운드 샘플들에 대한 재-산출된 신뢰도 값들 중에서 최소 신뢰도 값이 되도록 조정될 것이다.
도 9 는, 본 개시물의 일 실시형태에 따른, 확인된 음성 커맨드에 대한 새로운 사운드 샘플로 업데이트될 수도 있는 화자 확인 데이터베이스 (320) 의 도면을 도시한다. 화자 확인 데이터베이스 (320) 는 각각 임계 값들 9.0, 7.0, 5.0, 3.0, 및 1.0 과 연관되는 5 개의 보안 레벨들 "1" 내지 "5" 를 포함한다. 임계 값들의 각각은 연관된 보안 레벨에 대한 최소 신뢰도 값을 나타낸다. 보안 레벨들 "1" 내지 "5" 는 또한 각각 사운드 샘플 그룹들 (910, 920, 930, 940, 및 950) 과 연관된다. 사운드 샘플 그룹들 (910, 920, 930, 940, 및 950) 의 각각은 FIFO (first-in first-out) 데이터 구조를 이용하여 큐, 버퍼 등의 형태로 구현될 수도 있고, 0 부터 미리 결정된 숫자까지 사운드 샘플들의 세트를 포함할 수도 있다.
도시된 화자 확인 데이터베이스 (320) 에서, 사운드 샘플 그룹들 (910, 920, 930, 940, 및 950) 의 각각은 최대 4 개의 사운드 샘플들을 포함할 수도 있으나, 또한 임의의 적합한 개수의 사운드 샘플들을 포함할 수도 있다. 도 9 의 예에서, 사운드 샘플 그룹들 (910, 920, 930, 940, 및 950) 은 화자 확인 데이터베이스 (320) 의 초기 설정 후에 이전에 확인된 음성 커맨드들에 대한 사운드 샘플들을 포함한다. 화자로부터의 후속하는 음성 커맨드들이 추가적으로 확인됨에 따라, 확인된 커맨드들에 대한 사운드 특징들이 새로운 사운드 샘플로서 화자 확인 데이터베이스 (320) 에 추가될 수도 있다.
사운드 샘플들에는 그것들의 신뢰도 값들 및 보안 레벨들 "1" 내지 "5" 에 대한 임계 값들에 기초하여 사운드 샘플 그룹들 (910 내지 950) 이 할당된다. 예를 들어, 사운드 샘플의 신뢰도 값은 보안 레벨들 "1" 내지 "5" 에 대한 임계 값들과 비교되어 사운드 샘플의 신뢰도 값보다 적은 임계 값들을 갖는 하나 이상의 보안 레벨들을 결정할 수도 있다. 사운드 샘플에는 그러면 결정된 임계 값들 중에서 가장 높은 임계 값을 갖는 보안 레벨과 연관된 사운드 샘플 그룹이 할당된다. 예를 들어, 사운드 샘플 (S3_2) 의 신뢰도 값이 6.3 이면, 임계 값들 5.0, 3.0, 및 1.0 은 신뢰도 값 6.3 보다 적도록 결정된다. 사운드 샘플 (S3_2) 에는 그러면 결정된 임계 값들 5.0, 3.0, 및 1.0 중에서 가장 높은 임계 값 5.0 을 갖는 보안 레벨 "3" 과 연관된 사운드 샘플 그룹 930 이 할당된다.
처음에, 도 4 에서 도시된 바와 같이, 보안 레벨들 및 그것들의 초기 임계 값들은 승인된 사용자 및 승인되지 않은 사용자의 사운드 샘플들에 기초하여 결정된다. 음성 커맨드들이 수신되고 확인됨에 따라, 화자 확인 데이터베이스 (320) 는 그러면 확인된 음성 커맨드들에 대한 사운드 샘플들을 그것들의 신뢰도 값들에 기초하여 사운드 샘플 그룹들 (910, 920, 930, 940, 및 950) 에 할당한다. 화자 확인 데이터베이스 (320) 에서, 사운드 샘플 그룹들 (910, 920, 930, 940, 및 950) 은 각각 3 개의 사운드 샘플들 (예를 들어, S1_1, S1_2, 및 S1_3), 2 개의 사운드 샘플들 (예를 들어, S2_1 및 S2_2), 4 개의 사운드 샘플들 (예를 들어, S3_1, S3_2, S3_3, 및 S3_4), 1 개의 사운드 샘플 (예를 들어, S4_1), 및 4 개의 사운드 샘플들 (예를 들어, S5_1, S5_2, S5_3, 및 S5_4) 을 포함한다.
새로운 사운드 샘플 및 확인된 음성 커맨드에 대한 새로운 사운드 샘플의 신뢰도 값이 수신되는 경우, 사운드 샘플 그룹은 새로운 사운드 샘플의 신뢰도 값에 기초하여 결정된다. 새로운 사운드 샘플은 그 다음에 결정된 사운드 샘플 그룹에 추가될 것이다. 예를 들어, 8.2 의 신뢰도 값을 갖는 새로운 사운드 샘플 (S_IN) 이 수신되면, 7.0 의 임계 값을 갖는 보안 레벨 "2" 의 새로운 사운드 샘플은 사운드 샘플 그룹 920 에 추가된다. 사운드 샘플 그룹들 930 및 950 처럼 사운드 샘플 그룹이 꽉 차면, 새로운 사운드 샘플을 추가하기 위해 기존의 사운드 샘플은 제거된다. 그러한 경우에, 기존의 사운드 샘플들은 선입 선출 기준으로 제거된다. 예를 들어, 새로운 사운드 샘플 (예를 들어, S3_5) 이 4 개의 사운드 샘플들 (S3_l 내지 S3_4) 의 최대치를 갖는 사운드 샘플 그룹 930 에 추가될 경우, 제 1 사운드 샘플 (S3_l) 이 제거될 수도 있고 새로운 사운드 샘플이 사운드 샘플 그룹 930 에 추가될 수도 있다.
화자 확인 데이터베이스 (320) 에서의 사운드 샘플들이 업데이트된 후에, 데이터베이스 업데이트 유닛 (260) 은 화자 모델 (330) 의 통계적 데이터를 업데이트할 수도 있다. 일 실시형태에서, 화자 모델 (330) 은 새롭게 추가된 사운드 샘플의 신뢰도 값으로 업데이트될 수도 있다. 예를 들어, 화자 모델 (330) 의 새로운 통계적 데이터는 새로운 사운드 샘플 및 이전의 통계적 데이터에 기초하여 산출될 수도 있다. 새로운 사운드 샘플을 위한 자리를 만들기 위해 기존의 사운드 샘플이 제거되면, 제거된 사운드 샘플, 새로운 사운드 샘플, 및 이전의 통계적 데이터에 기초하여 새로운 통계적 데이터가 산출될 수도 있다. 일부 실시형태들에서, 새로운 사운드 샘플의 신뢰도 값에 비례하여 새로운 사운드 샘플에 가중치가 주어질 수도 있다.
도 10 은, 본 개시물의 일 실시형태에 따른, 음성 커맨드에 대한 신뢰도 값에 기초하여 화자 모델 (330) 을 업데이트하는 방법 (1000) 의 플로 차트를 도시한다. 음성 활성화 유닛 (254) 은 음성 커맨드에 대한 신뢰도 값을 결정함으로써 음성 커맨드를 확인한다. 음성 커맨드가 확인되면, 음성 활성화 유닛 (254) 은 확인된 음성 커맨드에 대한 하나 이상의 사운드 특징들을 새로운 사운드 샘플로서 데이터베이스 업데이트 유닛 (260) 에 제공한다.
도 10 에 도시된 바와 같이, 데이터베이스 업데이트 유닛 (260) 은, 1010 에서, 확인된 음성 커맨드에 대한 새로운 사운드 샘플을 수신한다. 더불어, 데이터베이스 업데이트 유닛 (260) 은 또한 음성 활성화 유닛 (254) 으로부터 확인된 음성 커맨드에 대한 신뢰도 값을 수신한다. 수신된 새로운 사운드 샘플 및 신뢰도 값은 화자 모델 (330) 을 업데이트할 시에 이용된다. 이러한 프로세스에서, 새로운 사운드 샘플은, 1020 에서, 음성 커맨드에 대한 신뢰도 값에 비례하여 가중치가 주어진다. 화자 모델 (330) 은 그러면, 1030 에서, 가중된 새로운 사운드 샘플에 기초하여 업데이트된다.
도 11 은, 본 개시물의 일 실시형태에 따른, 새로운 사운드 샘플 (S_IN) 의 보안 레벨에 대한 임계 값이 새로운 사운드 샘플 (S_IN) 을 수신하는 것에 응답하여 조정되는 화자 확인 데이터베이스 (320) 의 도면을 도시한다. 이러한 실시형태에서, 새로운 사운드 샘플 (S_IN) 은 신뢰도 값에 따라 보안 레벨 "1" 과 연관된 사운드 그룹 910 에 추가되어 화자 확인 데이터베이스 (320) 를 업데이트한다. 위에서 설명된 바와 같이, 화자 모델 (330) 은 그러면 화자 확인 데이터베이스 (320) 에서의 새로운 사운드 샘플 (S_IN) 에 기초하여 업데이트될 수도 있다.
화자 모델 (330) 이 업데이트된 후에, 데이터베이스 업데이트 유닛 (260) 은 새로운 사운드 샘플 (S_IN) 을 포함하는 보안 레벨 "1" 에 대한 사운드 샘플 그룹 910 과 연관된 임계 값 9.0 을 업데이트한다. 이러한 경우에, 보안 레벨 "1" 과 연관된 사운드 샘플 그룹 910 에서의 사운드 샘플들 (예를 들어, S1_l, S1_2, S1_3, 및 S_IN) 에 대한 신뢰도 값들은 업데이트된 화자 모델 (330) 을 이용하여 재-산출된다. 재-산출된 신뢰도 값들 중에서 최소 신뢰도 값이 그러면 보안 레벨 "1" 에 대한 새로운 임계 값으로서 선택될 수도 있다. 따라서, 보안 레벨 "1" 에 대해 이전에 설정된 임계 값 9.0 이 최소 신뢰도 값과 상이하면, 임계 값은 도 11 에서 화살표에 의해 나타내어진 바와 같이 최소 신뢰도 값으로 조정될 수도 있다.
도 12 는, 본 개시물의 일 실시형태에 따른, 새로운 사운드 샘플 (S_IN) 의 보안 레벨과 상이한 보안 레벨에 임계 값이 새로운 사운드 샘플 (S_IN) 을 수신하는 것에 응답하여 조정되는 전자 디바이스의 화자 확인 데이터베이스 (320) 의 도면을 도시한다. 도 11 과 유사하게, 새로운 사운드 샘플 (S_IN) 은 신뢰도 값에 따라 보안 레벨 "1" 과 연관된 사운드 샘플 그룹 910 에 추가되어 화자 확인 데이터베이스 (320) 를 업데이트한다. 또한, 화자 모델 (330) 은 화자 확인 데이터베이스 (320) 에서의 새로운 사운드 샘플 (S_IN) 에 기초하여 업데이트될 수도 있다.
도시된 실시형태에서, 데이터베이스 업데이트 유닛 (260) 은 음성 활성화 유닛 (254) 으로부터 확인된 음성 커맨드와 연관된 애플리케이션과 연관된 보안 레벨을 수신한다. 이러한 예에서, 애플리케이션과 연관된 보안 레벨은 보안 레벨 "3" 인 것으로 가정된다. 따라서, 데이터베이스 업데이트 유닛 (260) 은 보안 레벨 "3" 에 대한 사운드 샘플 그룹 930 과 연관된 임계 값 5.0 을 업데이트한다. 이러한 경우에, 보안 레벨 "3" 과 연관된 사운드 샘플 그룹 930 에서의 사운드 샘플들에 대한 신뢰도 값들 (예를 들어, S3_1, S3_2, S3_3, 및 S3_4) 은 업데이트된 화자 모델 (330) 을 이용하여 재-산출된다. 재-산출된 신뢰도 값들 중에서 최소 신뢰도 값이 그러면 보안 레벨 "3" 에 대한 새로운 임계 값으로서 선택될 수도 있다. 따라서, 보안 레벨 "3" 에 대해 이전에 설정된 임계 값 5.0 이 최소 신뢰도 값과 상이하면, 임계 값은 도 12 에서 화살표에 의해 나타내어진 바와 같이 최소 신뢰도 값으로 조정될 수도 있다.
도 13 은, 본 개시물의 일 실시형태에 따른, 새로운 사운드 샘플 (S_IN) 을 수신하는 것에 응답하여 보안 레벨들에 대한 임계 값들이 조정되는 화자 확인 데이터베이스 (320) 의 도면을 도시한다. 도 11 과 유사하게, 새로운 사운드 샘플 (S_IN) 은 신뢰도 값에 따라 보안 레벨 "1" 과 연관된 사운드 샘플 그룹 910 에 추가되어 화자 확인 데이터베이스 (320) 를 업데이트한다. 또한, 화자 모델 (330) 은 화자 확인 데이터베이스 (320) 에서의 새로운 사운드 샘플 (S_IN) 에 기초하여 업데이트될 수도 있다.
업데이트된 화자 모델로, 데이터베이스 업데이트 유닛 (260) 은 보안 레벨들 "1" 내지 "5" 에 대한 사운드 샘플 그룹들 (910, 920, 930, 940, 및 950) 과 연관된 임계 값들 (예를 들어, 9.0, 7.0, 5.0, 3.0, 및 1.0) 을 업데이트한다. 이러한 경우에, 사운드 샘플 그룹 910 (예를 들어, S1_1, S1_2, S1-3, 및 S_IN), 사운드 샘플 그룹 920 (예를 들어, S2_1 및 S2_2), 사운드 샘플 그룹 930 (예를 들어, S3_1, S3_2, S3_3, 및 S3_4), 사운드 샘플 그룹 940 (예를 들어, S4_1), 및 사운드 샘플 그룹 950 (예를 들어, S5_1, S5_2, S5_3, 및 S5_4) 에서의 사운드 샘플들에 대한 신뢰도 값들은 업데이트된 화자 모델 (330) 에 기초하여 재산출된다. 최소 신뢰도 값은 사운드 샘플 그룹들 (910, 920, 930, 940, 및 950) 의 각각에서의 사운드 샘플들에 대한 재-산출된 신뢰도 값들 중에서 선택되고, 선택된 최소 신뢰도 값들은 각각 보안 레벨들 "1" 내지 "5" 에 대한 새로운 임계 값들이 되도록 결정된다. 따라서, 보안 레벨들 "1" 내지 "5" 에 대한 임계 값들은 도 13 에서 화살표들에 의해 나타내어진 바와 같이 보안 레벨들 "1" 내지 "5" 에 대한 임의의 새로운 최소 신뢰도 값들을 반영하도록 조정될 수도 있다.
다른 실시형태에서, 화자 확인 데이터베이스 (320) 는 모든 이전에 확인된 음성 커맨드들을 사운드 샘플들로 갖는 사운드 샘플 그룹을 포함할 수도 있다. 새로운 사운드 샘플이 수신되어 확인되는 경우, 새로운 사운드 샘플이 사운드 샘플 그룹에 추가된다. 위에서 논의된 바와 같이, 화자 모델 (330) 은 그러면 화자 확인 데이터베이스 (320) 에서의 새로운 사운드 샘플에 기초하여 업데이트될 수도 있다.
업데이트된 화자 모델 (330) 에 기초하여, 새로운 사운드 샘플을 포함하는 사운드 샘플 그룹에서의 사운드 샘플들의 모두에 대한 신뢰도 값들이 결정될 수도 있다. 가장 낮은 신뢰도 값 및 가장 높은 신뢰도 값이 신뢰도 값들 중에서 선택될 수도 있고, 가장 낮은 값이 가장 낮은 보안 레벨 (예를 들어, 보안 레벨 "5") 에 대한 임계 값인 것으로 결정될 수도 있다. 가장 높은 신뢰도 값과 가장 낮은 신뢰도 값 사이의 차이는 그러면 복수의 범위들로 파티셔닝될 수도 있으며, 각각의 범위는 하한을 갖는다. 일부 실시형태들에서, 차이는 임계 값 증분을 산출하기 위해 보안 레벨들의 수에 의해 나눠질 수도 있다. 하한들은 그러면 보안 레벨들 (예를 들어, 보안 레벨들 "1", "2", "3", 및 "4") 에 대한 임계 값들로서 할당될 수도 있다.
도 14 는, 본 개시물의 일 실시형태에 따른, 복수의 보안 레벨들에 대한 복수의 임계 값들을 조정하기 위한 방법 (1400) 의 플로 차트를 도시한다. 음성 커맨드가 확인된 후에, 데이터베이스 업데이트 유닛 (260) 은 확인된 음성 커맨드에 대한 새로운 사운드 샘플을 수신한다. 새로운 사운드 샘플은 그러면 신뢰도 값에 따라 보안 레벨과 연관된 사운드 샘플 그룹에 추가되고, 화자 모델 (330) 은 새로운 사운드 샘플에 기초하여 업데이트된다.
복수의 보안 레벨들 중에서 선택된 보안 레벨과 연관된 사운드 샘플들의 각각에 대한 새로운 신뢰도 값은 그러면, 1410 에서, 업데이트된 화자 모델 (330) 에 기초하여 결정된다. 일 실시형태에서, 보안 레벨은 새로운 사운드 샘플의 신뢰도 값에 따라 선택된다. 다른 실시형태에서, 음성 커맨드의 애플리케이션에 맵핑된 보안 레벨은 복수의 보안 레벨들 중에서 선택된다. 대안으로, 데이터베이스 업데이트 유닛 (260) 은 보안 레벨을 선택하지 않고 모든 보안 레벨들에 대한 사운드 샘플들의 새로운 신뢰도 값들을 결정할 수도 있다.
선택된 보안 레벨과 연관된 사운드 샘플들에 대한 새로운 신뢰도 값들 중에서, 1420 에서, 최소 신뢰도 값이 선택된다. 선택된 보안 레벨의 이전의 임계 값은 그러면, 1430 에서, 최소 신뢰도 값으로 조정된다. 모든 보안 레벨들에 대한 새로운 신뢰도 값들을 결정할 경우에, 각각, 최소 신뢰도 값은 보안 레벨들의 각각에 대한 새로운 신뢰도 값들 중에서 선택되고, 선택된 최소 신뢰도 값들이 보안 레벨들에 대한 새로운 임계 값들인 것으로 결정된다.
도 15 는, 본 개시물의 몇몇 실시형태들에 따른, 애플리케이션들에 대한 액세스를 제어하기 위한 방법들 및 장치가 구현될 수도 있는 일 예시적인 모바일 디바이스 (1500) 의 블록도이다. 모바일 디바이스 (1500) 의 구성은 도 1 내지 도 14 를 참조하여 설명된 위의 실시형태들에 따라 모바일 디바이스들에서 구현될 수도 있다. 모바일 디바이스 (1500) 는 셀룰러 전화기, 스마트폰, 단말기, 핸드셋, PDA (personal digital assistant), 무선 모뎀, 무코드 폰 등일 수도 있다. 무선 통신 시스템은 코드 분할 다중 액세스 (Code Division Multiple Access; CDMA) 시스템, 모바일 통신용 브로드캐스트 (GSM) 시스템, 광대역 CDMA (Wideband CDMA; WCDMA) 시스템, 롱 텀 에볼루션 (Long Tern Evolution; LTE) 시스템, LTE 어드밴스드 시스템 등일 수도 있다. 또한, 모바일 디바이스 (1500) 는, 예를 들어, Wi-Fi 다이렉트, 블루투스, 또는 플래시링크 기술을 이용하여 다른 모바일 디바이스와 직접 통신할 수도 있다.
모바일 디바이스 (1500) 는 수신 경로 및 송신 경로를 통해 양방향 통신을 제공할 수 있다. 수신 경로에서, 기지국들에 의해 송신된 신호들이 안테나 (1512) 에 의해 수신되어,수신기 (RCVR) (1514) 로 제공된다. 수신기 (1514) 는 수신된 신호를 컨디셔닝하고 디지털화하여, 추가적인 프로세싱을 위해 디지털 섹션에 컨디셔닝되고 디지털화된 신호와 같은 샘플들을 제공한다. 송신 경로에서, 송신기 (TMTR) (1516) 가 디지털 섹션 (1520) 으로부터 송신되는 데이터를 수신하여, 그 데이터를 프로세싱하고 컨디셔닝해서, 변조된 신호를 생성하며, 변조된 신호는 안테나 (1512) 를 통해 기지국들로 송신된다. 수신기 (1514) 및 송신기 (1516) 는 CDMA, GSM, LTE, LTE 어드밴스드 등을 지원할 수도 있는 트랜시버의 일부분일 수도 있다.
디지털 섹션 (1520) 은, 예를 들어, 모뎀 프로세서 (1522), 감소된 명령 세트 컴퓨터/디지털 신호 프로세서 (reduced instruction set computer/digital signal processor; RISC/DSP) (1524), 제어기/프로세서 (1526), 내부 메모리 (1528), 일반화된 오디오 인코더 (1532), 일반화된 오디오 디코더 (1534), 그래픽/디스플레이 프로세서 (1536), 및 외부 버스 인터페이스 (external bus interface; EBI) (1538) 와 같은 다양한 프로세싱 인터페이스 및 메모리 유닛들을 포함한다. 모뎀 프로세서 (1522) 는 데이터 송신 및 수신을 위한 프로세싱, 예를 들어, 인코딩, 변조, 복조, 및 디코딩을 수행할 수도 있다. RISC/DSP (1524) 는 모바일 디바이스 (1500) 에 대해 범용 프로세싱 및 특수 프로세싱을 수행할 수도 있다. 제어기/프로세서 (1526) 는 디지털 섹션 (1520) 내의 다양한 프로세싱 유닛 및 인터페이스 유닛의 동작을 수행할 수도 있다. 내부 메모리 (1528) 는 디지털 섹션 (1520) 내의 다양한 유닛들에 대한 데이터 및/또는 명령들을 저장할 수도 있다.
일반화된 오디오 인코더 (1532) 는 오디오 소스 (1542), 마이크로폰 (1543) 등으로부터의 입력 신호들에 대한 인코딩을 수행할 수도 있다. 일반화된 오디오 디코더 (1534) 는 코딩된 오디오 데이터에 대한 디코딩을 수행할 수도 있고, 출력 신호들을 기능 결정 엔진 (1544) 에 제공할 수도 있다. 그래픽/디스플레이 프로세서 (1536) 는 디스플레이 유닛 (1546) 에 나타내어질 수도 있는 그래픽들, 비디오들, 이미지들, 및 텍스트들에 대하 프로세싱을 수행할 수도 있다. EBI (1538) 는 디지털 섹션 (1520) 과 데이터베이스 (1548) 사이의 데이터의 전송을 가능하게 할 수도 있다.
디지털 섹션 (1520) 은 하나 이상의 프로세서들, DSP들, 마이크로프로세서들, RISC들 등으로 구현될 수도 있다. 디지털 섹션 (1520) 은 또한 하나 이상의 ASIC (application specific integrated circuit) 들 및/또는 일부 다른 유형의 집적 회로 (IC) 들 상에 제작될 수도 있다.
일반적으로, 본원에 설명된 임의의 디바이스는, 무선 전화기, 셀룰러 전화기, 랩탑 컴퓨터, 무선 멀티미디어 디바이스, 무선 통신 개인용 컴퓨터 (personal computer; PC) 카드, PDA, 외부 모뎀이나 내부 모뎀, 무선 채널을 통해 통신하는 디바이스 등과 같은 다양한 유형의 디바이스들을 표현할 수도 있다. 디바이스는, 액세스 단말기 (access terminal; AT), 액세스 유닛, 가입자 유닛, 이동국, 모바일 디바이스, 모바일 유닛, 모바일 전화기, 모바일, 원격국, 원격 단말기, 원격 유닛, 사용자 디바이스, 사용자 장비, 핸드헬드 디바이스 등과 같은 다양한 이름들을 가질 수도 있다. 본원에 설명된 임의의 디바이스는 명령들 및 데이터를 저장하기 위한 메모리, 뿐만 아니라 하드웨어, 소프트웨어, 펌웨어, 또는 그 조합들을 가질 수도 있다.
본원에 설명된 기법들은 다양한 수단으로 구현될 수도 있다. 예를 들어, 이러한 기법들은 하드웨어, 펌웨어, 소프트웨어, 또는 그 조합으로 구현될 수도 있다. 본원의 개시물과 관련하여 설명된 다양한 예시적인 논리적 블록들, 모듈들, 회로들, 및 알고리즘 단계들은 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합들로 구현될 수도 있음을 당업자들은 더 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호교환성을 명확하게 설명하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들, 및 단계들은 그들의 기능성의 관점에서 일반적으로 위에서 설명되었다. 그러한 기능이 하드웨어 또는 소프트웨어로 구현되는지 여부는 특정 애플리케이션 및 전체 시스템에 부과되는 설계 제약들에 따라 달라진다. 당업자들은 각각의 특정 애플리케이션을 위해 다양한 방식들로 설명된 기능을 구현할 수도 있으나, 그러한 구현 결정들이 본 개시물의 범위로부터 벗어나게 하는 것으로 해석되어서는 안된다.
하드웨어 구현에서, 기법들을 수행하는데 이용되는 프로세싱 유닛들은, 하나 이상의 ASIC 들, DSP 들, 디지털 신호 프로세싱 디바이스들 (digital signal processing device; DSPD) 들, 프로그램가능 논리 디바이스 (programmable logic device; PLD) 들, 필드 프로그램가능 게이트 어레이 (field programmable gate array; FPGA), 프로세서들, 제어기들, 마이크로-제어기들, 마이크로프로세서들, 전자 디바이스들, 본원에 설명된 기능들을 수행하도록 설계된 다른 전자 유닛들, 컴퓨터, 또는 그들의 조합 내에서 구현될 수도 있다.
따라서, 본원의 개시물과 관련하여 설명된 다양한 예시적인 논리적 블록들, 모듈들, 및 회로들은 범용 프로세서, DSP, ASIC, FPGA 나 다른 프로그램가능 논리 디바이스, 이산 게이트나 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 본원에 설명된 기능들을 수행하도록 설계된 것들의 임의의 조합으로 구현되거나 수행된다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안에서, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 연계한 하나 이상의 마이크로프로세서들, 또는 임의의 다른 그러한 구성으로 구현될 수도 있다.
소프트웨어로 구현되는 경우, 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 저장 매체 상에 저장될 수도 있다. 컴퓨터-판독가능 매체들은 컴퓨터 저장 매체들 및 한 장소에서 다른 장소로 컴퓨터 프로그램의 전송을 가능하게 하는 임의의 통신 매체를 포함하는 통신 매체들 양자 모두를 포함한다. 저장 매체들은 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 저장 매체일 수도 있다. 비제한적인 예로서, 그러한 컴퓨터-판독가능 저장 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 요구되는 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 이송 또는 저장하기 위해 이용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 저장 매체를 포함한다. 또한, 임의의 접속은 통신 매체라고 적절히 칭해진다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선 (DSL), 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 전송되면, 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선, 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들은 통신 매체의 정의 내에 포함된다. 본원에서 이용된 디스크 (disk) 와 디스크 (disc) 는, 컴팩트 디스크 (compact disc; CD), 레이저 디스크, 광학 디스크, 디지털 다기능 디스크 (digital versatile disc; DVD), 플로피 디스크, 및 블루레이 디스크를 포함하며, 여기서 디스크 (disk) 들은 통상 자기적으로 데이터를 재생하는 반면, 디스크 (disc) 들은 레이저들을 이용하여 광학적으로 데이터를 재생한다.
앞서의 개시물의 설명은 임의의 당업자가 본 개시물을 제작하거나 이용하는 것을 가능하게 하기 위해 제공된다. 본 개시물의 다양한 수정들이 당업자들에게 자명할 것이고, 본원에 정의된 일반적인 원리들은 본 개시물의 사상 또는 범위를 벗어나지 않으면서 다양한 변형들에 적용될 수도 있다. 따라서, 본 개시물은 본원에 설명된 예시들에 제한되고자 하는 것이 아니라, 본원에 개시된 원리들 및 신규한 특징들과 일관되는 가장 넓은 범위에 일치되고자 한다.
비록 예시적인 실시형태들이 하나 이상의 독립형 컴퓨터 시스템들의 맥락에서 현재 개시된 대상 발명의 양상들을 이용하는 것으로 언급될 수도 있으나, 대상 발명은 그렇게 제한되지 않고, 오히려 네트워크나 분산된 컴퓨팅 환경과 같은 임의의 컴퓨팅 환경과 연계하여 구현될 수도 있다. 또 나아가, 현재 개시된 대상 발명의 양상들은 복수의 프로세싱 칩들이나 디바이스들에서 또는 그에 걸쳐 구현될 수도 있고, 스토리지는 복수의 디바이스들에 걸쳐 유사하게 영향을 받게 될 수도 있다. 이러한 디바이스들은 PC들, 네트워크 서버들, 및 핸드헬드 디바이스들을 포함할 수도 있다.
비록 대상 발명이 구조적 특징들 및/또는 방법론적 작용들에 대해 언어 특정적으로 설명되었으나, 첨부된 청구항들에서 규정된 대상 발명이 반드시 위에서 설명된 특정 특징들 또는 작용들로 제한되는 것은 아님이 이해될 것이다. 오히려, 위에서 설명된 특정 특징들 및 작용들은 청구항들을 구현하는 예시적인 형태로서 설명된다.

Claims (50)

  1. 전자 디바이스 (120) 의 복수의 애플리케이션들 (122, 124, 126) 에 대한 액세스를 제어하는 방법으로서,
    상기 복수의 애플리케이션들 중에서 대상 애플리케이션에 액세스하기 위해 음성 커맨드를 수신하는 단계 (610) 로서, 상기 복수의 애플리케이션들의 각각의 애플리케이션은 보안 레벨과 연관되고, 각각의 보안 레벨은 사용자 신뢰도 임계치와 연관되는, 상기 음성 커맨드를 수신하는 단계 (610);
    상기 음성 커맨드를 나타내는 데이터를 승인된 사용자와 연관된 화자 모델과 비교함으로써 상기 음성 커맨드와 연관된 사용자 신뢰도 값을 결정하는 단계 (620);
    상기 사용자 신뢰도 값이 상기 대상 애플리케이션의 보안 레벨과 연관된 대상 사용자 신뢰도 임계치를 만족시키는 경우 상기 음성 커맨드에 기초하여 업데이트된 화자 모델을 생성하는 단계 (630); 및
    상기 업데이트된 화자 모델에 기초하여 상기 사용자 신뢰도 임계치들 중 적어도 하나의 사용자 신뢰도 임계치를 조정하는 단계 (640)
    를 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법.
  2. 제 1 항에 있어서,
    상기 업데이트된 화자 모델을 생성한 후에,
    상기 복수의 애플리케이션들 중에서 제 2 대상 애플리케이션에 액세스하기 위해 제 2 음성 커맨드를 수신하는 단계; 및
    상기 업데이트된 화자 모델에 기초하여 상기 제 2 음성 커맨드가 상기 승인된 사용자를 나타내는지 여부를 결정하는 단계
    를 더 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법.
  3. 제 1 항에 있어서,
    상기 사용자 신뢰도 값이 상기 대상 애플리케이션의 보안 레벨과 연관된 상기 대상 사용자 신뢰도 임계치를 초과하는 경우 상기 대상 애플리케이션에 액세스하는 단계를 더 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법.
  4. 제 3 항에 있어서,
    상기 업데이트된 화자 모델을 생성하는 단계는,
    상기 음성 커맨드와 연관된 상기 사용자 신뢰도 값에 비례하여 상기 음성 커맨드에 가중치를 주는 단계; 및
    가중치가 주어진 상기 음성 커맨드에 기초하여 상기 화자 모델을 업데이트하는 단계
    를 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법.
  5. 제 1 항에 있어서,
    상기 화자 모델은 상기 승인된 사용자의 복수의 사운드 샘플들로부터 추출된 사운드 특징들에 기초한 통계적 데이터를 포함하고,
    상기 업데이트된 화자 모델을 생성하는 단계는 상기 음성 커맨드의 적어도 하나의 사운드 특징에 기초하여 상기 통계적 데이터를 업데이트하는 단계를 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법.
  6. 제 1 항에 있어서,
    상기 사용자 신뢰도 임계치들 중 적어도 하나의 사용자 신뢰도 임계치를 조정하는 단계는,
    상기 업데이트된 화자 모델에 기초하여, 선택된 보안 레벨과 연관된 사운드 샘플들에 대한 업데이트된 사용자 신뢰도 값들을 결정하는 단계; 및
    상기 업데이트된 사용자 신뢰도 값들에 기초하여 상기 선택된 보안 레벨의 상기 사용자 신뢰도 임계치를 새로운 사용자 신뢰도 임계 값으로 조정하는 단계
    를 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법.
  7. 제 6 항에 있어서,
    상기 새로운 사용자 신뢰도 임계 값은 상기 업데이트된 사용자 신뢰도 값들 중에서 가장 낮은 값에 대응하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법.
  8. 제 6 항에 있어서,
    상기 선택된 보안 레벨은 상기 대상 애플리케이션과 연관된 보안 레벨이거나,
    상기 선택된 보안 레벨은 상기 음성 커맨드와 연관된 상기 사용자 신뢰도 값에 기초하여 선택되는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법.
  9. 제 1 항에 있어서,
    상기 사용자 신뢰도 임계치들 중 적어도 하나의 사용자 신뢰도 임계치를 조정하는 단계는,
    상기 업데이트된 화자 모델에 기초하여, 복수의 사운드 샘플들에 대한 업데이트된 사용자 신뢰도 값들을 결정하는 단계; 및
    상기 업데이트된 사용자 신뢰도 값들에 기초하여 상기 사용자 신뢰도 임계치들 중 적어도 하나의 사용자 신뢰도 임계치를 조정하는 단계
    를 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법.
  10. 제 9 항에 있어서,
    상기 사용자 신뢰도 임계치들 중 적어도 하나의 사용자 신뢰도 임계치를 조정하는 단계는,
    상기 업데이트된 사용자 신뢰도 값들 중에서 가장 낮은 사용자 신뢰도 값 및 가장 높은 사용자 신뢰도 값을 결정하는 단계;
    상기 가장 낮은 사용자 신뢰도 값과 상기 가장 높은 사용자 신뢰도 값 사이의 차이를 상기 보안 레벨들과 연관된 복수의 범위들로 파티셔닝하는 단계로서, 상기 복수의 범위들의 각각의 범위는 하한을 포함하는, 상기 파티셔닝하는 단계; 및
    대응하는 보안 레벨에 대한 새로운 사용자 신뢰도 임계치로서 상기 복수의 범위들의 각각의 범위의 하한을 할당하는 단계
    를 더 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법.
  11. 제 1 항에 있어서,
    각각의 보안 레벨은 상기 보안 레벨과 연관된 상기 사용자 신뢰도 임계치보다 큰 사용자 신뢰도 값을 갖는 사운드 샘플들의 세트와 연관되는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법.
  12. 제 11 항에 있어서,
    상기 음성 커맨드와 연관된 상기 사용자 신뢰도 값에 기초하여 상기 사운드 샘플들의 세트들 중 하나의 세트에 상기 음성 커맨드를 추가하는 단계를 더 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법.
  13. 제 1 항에 있어서,
    상기 사용자 신뢰도 값이 상기 대상 애플리케이션의 보안 레벨과 연관된 상기 대상 사용자 신뢰도 임계치를 만족시키는데 실패하는 경우, 상기 음성 커맨드를 인증하기 위해 상기 음성 커맨드의 화자로부터의 추가적인 입력을 요청하는 단계를 더 포함하고,
    상기 추가적인 입력은 얼굴의 이미지, 지문, 개인 식별 번호, 및 추가적인 음성 커맨드 중 적어도 하나를 포함하는, 전자 디바이스의 복수의 애플리케이션들에 대한 액세스를 제어하는 방법.
  14. 복수의 애플리케이션들에 대한 액세스를 제어하기 위한 전자 디바이스로서,
    상기 복수의 애플리케이션들 (122, 124, 126) 중에서 대상 애플리케이션에 액세스하기 위해 음성 커맨드를 수신하는 수단 (1542, 1543);
    상기 복수의 애플리케이션들, 복수의 보안 레벨들을 식별하는 데이터, 복수의 사용자 신뢰도 임계 값들을 식별하는 데이터, 및 상기 애플리케이션들에 액세스하도록 승인되어진 승인된 사용자의 화자 모델을 저장하는 수단 (1528, 1548) 으로서, 상기 복수의 애플리케이션들의 각각의 애플리케이션은 상기 복수의 보안 레벨들 중에서의 보안 레벨과 연관되고, 상기 복수의 보안 레벨들의 각각의 보안 레벨은 상기 복수의 사용자 신뢰도 임계 값들 중에서의 사용자 신뢰도 임계 값과 연관되는, 상기 저장하는 수단 (1528, 1548);
    상기 음성 커맨드와 연관된 사용자 신뢰도 값을 결정하기 위해 상기 음성 커맨드를 나타내는 데이터를 상기 화자 모델과 비교하고, 상기 음성 커맨드와 연관된 상기 사용자 신뢰도 값이 상기 대상 애플리케이션의 보안 레벨과 연관된 대상 사용자 신뢰도 임계 값을 만족시키는지 여부를 결정함으로써, 상기 화자 모델에 기초하여 상기 음성 커맨드가 상기 승인된 사용자를 나타내는지 여부를 결정하는 수단;
    상기 음성 커맨드가 상기 승인된 사용자를 나타낸다고 결정되는 경우 상기 음성 커맨드에 기초하여 상기 화자 모델을 업데이트하는 수단; 및
    상기 업데이트된 화자 모델에 기초하여 상기 사용자 신뢰도 임계 값들 중 적어도 하나의 사용자 신뢰도 임계 값을 조정하는 수단
    을 포함하는, 복수의 애플리케이션들에 대한 액세스를 제어하기 위한 전자 디바이스.
  15. 복수의 애플리케이션들에 대한 액세스를 제어하기 위한 명령들을 포함하는 비일시적 컴퓨터-판독가능 저장 매체로서,
    상기 명령들은, 전자 디바이스의 프로세서로 하여금, 제 1 항 내지 제 13 항 중 어느 한 항에 기재된 방법에 따른 동작들을 수행하게 하도록 실행가능한, 비일시적 컴퓨터-판독가능 저장 매체.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
KR1020167009013A 2013-09-16 2014-09-05 애플리케이션들에 대한 액세스를 제어하기 위한 방법 및 장치 KR101868711B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/028,139 2013-09-16
US14/028,139 US9343068B2 (en) 2013-09-16 2013-09-16 Method and apparatus for controlling access to applications having different security levels
PCT/US2014/054352 WO2015038435A1 (en) 2013-09-16 2014-09-05 Method and apparatus for controlling access to applications

Publications (2)

Publication Number Publication Date
KR20160055839A KR20160055839A (ko) 2016-05-18
KR101868711B1 true KR101868711B1 (ko) 2018-06-18

Family

ID=51570907

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167009013A KR101868711B1 (ko) 2013-09-16 2014-09-05 애플리케이션들에 대한 액세스를 제어하기 위한 방법 및 장치

Country Status (6)

Country Link
US (1) US9343068B2 (ko)
EP (1) EP3047622B1 (ko)
JP (1) JP6306190B2 (ko)
KR (1) KR101868711B1 (ko)
CN (1) CN105556920B (ko)
WO (1) WO2015038435A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020184753A1 (ko) * 2019-03-12 2020-09-17 엘지전자 주식회사 음성 추출 필터를 이용하여 음성 제어를 수행하는 인공 지능 장치 및 그 방법
KR102639755B1 (ko) * 2023-05-31 2024-02-23 농협은행(주) 전자 장치 제어를 지원하는 서버 및 이의 제어 방법
US12002475B2 (en) 2018-10-12 2024-06-04 Samsung Electronics Co., Ltd. Electronic device performing speaker recognition and control method thereof

Families Citing this family (144)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US12014347B2 (en) * 2011-07-18 2024-06-18 Rabih S. Ballout Kit, system and associated method and service for providing a platform to prevent fraudulent financial transactions
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10541997B2 (en) * 2016-12-30 2020-01-21 Google Llc Authentication of packetized audio signals
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
CN104423552B (zh) * 2013-09-03 2017-11-03 联想(北京)有限公司 一种处理信息的方法和电子设备
US11334314B2 (en) * 2013-10-25 2022-05-17 Voyetra Turtle Beach, Inc. Networked gaming headset with automatic social networking
US9928839B1 (en) * 2013-12-04 2018-03-27 United Services Automobile Association (Usaa) Systems and methods for authentication using voice biometrics and device verification
US9607137B2 (en) * 2013-12-17 2017-03-28 Lenovo (Singapore) Pte. Ltd. Verbal command processing based on speaker recognition
US10978060B2 (en) * 2014-01-31 2021-04-13 Hewlett-Packard Development Company, L.P. Voice input command
US11288346B1 (en) * 2014-03-03 2022-03-29 Charles Schwab & Co., Inc. System and method for authenticating users using weak authentication techniques, with differences for different features
US10540979B2 (en) 2014-04-17 2020-01-21 Qualcomm Incorporated User interface for secure access to a device using speaker verification
CN104142909B (zh) * 2014-05-07 2016-04-27 腾讯科技(深圳)有限公司 一种汉字注音方法及装置
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
CN105280180A (zh) * 2014-06-11 2016-01-27 中兴通讯股份有限公司 一种终端控制方法、装置、语音控制装置及终端
US9384738B2 (en) * 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR102261552B1 (ko) * 2014-06-30 2021-06-07 삼성전자주식회사 음성 명령어 제공 방법 및 이를 지원하는 전자 장치
KR102281178B1 (ko) * 2014-07-09 2021-07-23 삼성전자주식회사 멀티-레벨 음성 인식 방법 및 장치
US9257120B1 (en) * 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
WO2016015687A1 (zh) * 2014-07-31 2016-02-04 腾讯科技(深圳)有限公司 声纹验证方法及装置
US9313219B1 (en) * 2014-09-03 2016-04-12 Trend Micro Incorporated Detection of repackaged mobile applications
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9812128B2 (en) 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US10111093B2 (en) * 2015-01-09 2018-10-23 Qualcomm Incorporated Mobile device to provide continuous and discrete user authentication
KR102371697B1 (ko) 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9472196B1 (en) 2015-04-22 2016-10-18 Google Inc. Developer voice actions system
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
GB2539185B (en) * 2015-06-02 2021-11-03 Bae Systems Plc Aircraft avionics system interface
US10630712B2 (en) 2015-06-02 2020-04-21 Bae Systems Plc Safe aircraft avionics system interface
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN106373575B (zh) * 2015-07-23 2020-07-21 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
CN106709399B (zh) * 2015-08-21 2021-02-09 小米科技有限责任公司 指纹识别方法及装置
US9978374B2 (en) 2015-09-04 2018-05-22 Google Llc Neural networks for speaker verification
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US9706300B2 (en) 2015-09-18 2017-07-11 Qualcomm Incorporated Collaborative audio processing
US10013996B2 (en) 2015-09-18 2018-07-03 Qualcomm Incorporated Collaborative audio processing
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
GB2552082A (en) * 2016-06-06 2018-01-10 Cirrus Logic Int Semiconductor Ltd Voice user interface
US10127926B2 (en) 2016-06-10 2018-11-13 Google Llc Securely executing voice actions with speaker identification and authentication input types
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
CN114693289A (zh) 2016-06-11 2022-07-01 苹果公司 用于交易的用户界面
US10621581B2 (en) 2016-06-11 2020-04-14 Apple Inc. User interface for transactions
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US20180068313A1 (en) 2016-09-06 2018-03-08 Apple Inc. User interfaces for stored-value accounts
US10304463B2 (en) * 2016-10-03 2019-05-28 Google Llc Multi-user personalization at a voice interface device
KR102241970B1 (ko) * 2016-11-07 2021-04-20 구글 엘엘씨 기록된 미디어 핫워드 트리거 억제
GB2555661A (en) * 2016-11-07 2018-05-09 Cirrus Logic Int Semiconductor Ltd Methods and apparatus for biometric authentication in an electronic device
WO2018088534A1 (ja) * 2016-11-11 2018-05-17 旭化成株式会社 電子機器、電子機器の制御方法及び電子機器の制御プログラム
US10956545B1 (en) * 2016-11-17 2021-03-23 Alarm.Com Incorporated Pin verification
US11216540B2 (en) * 2016-12-13 2022-01-04 Motorola Mobility Llc Flexible security level for device interaction
KR20180082033A (ko) * 2017-01-09 2018-07-18 삼성전자주식회사 음성을 인식하는 전자 장치
US11532250B2 (en) * 2017-01-11 2022-12-20 Sony Corporation Information processing device, information processing method, screen, and information drawing system
KR102640423B1 (ko) * 2017-01-31 2024-02-26 삼성전자주식회사 음성 입력 처리 방법, 이를 지원하는 전자 장치, 및 시스템
WO2018169381A1 (en) * 2017-03-17 2018-09-20 Samsung Electronics Co., Ltd. Method and system for automatically managing operations of electronic device
WO2018195185A1 (en) 2017-04-20 2018-10-25 Google Llc Multi-user authentication on a device
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US11221744B2 (en) 2017-05-16 2022-01-11 Apple Inc. User interfaces for peer-to-peer transfers
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
CN118264635A (zh) 2017-05-16 2024-06-28 苹果公司 用于对等传输的用户界面
CN109102802B (zh) * 2017-06-21 2023-10-17 三星电子株式会社 用于处理用户话语的系统
KR101995443B1 (ko) * 2017-07-26 2019-07-02 네이버 주식회사 화자 검증 방법 및 음성인식 시스템
KR102002903B1 (ko) * 2017-07-26 2019-07-23 네이버 주식회사 화자 인증 방법 및 음성인식 시스템
US10896673B1 (en) 2017-09-21 2021-01-19 Wells Fargo Bank, N.A. Authentication of impaired voices
EP3690878A4 (en) * 2017-09-28 2021-06-09 Kyocera Corporation VOICE COMMAND SYSTEM AND VOICE COMMAND PROCESS
US10332545B2 (en) * 2017-11-28 2019-06-25 Nuance Communications, Inc. System and method for temporal and power based zone detection in speaker dependent microphone environments
US10433230B2 (en) * 2017-12-12 2019-10-01 Cassia Networks Inc. Methods, devices, and systems for supporting wireless roaming
CN111357048B (zh) * 2017-12-31 2024-10-08 美的集团股份有限公司 用于控制家庭助手装置的方法和系统
US10789959B2 (en) * 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
KR102595184B1 (ko) 2018-05-25 2023-10-30 삼성전자주식회사 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
CN112561537A (zh) 2018-06-03 2021-03-26 苹果公司 用于转账账户的用户界面
US11100498B2 (en) 2018-06-03 2021-08-24 Apple Inc. User interfaces for transfer accounts
CN108766448B (zh) * 2018-06-19 2020-05-01 苏州科达科技股份有限公司 混音测试系统、方法、装置及存储介质
JP6980603B2 (ja) 2018-06-21 2021-12-15 株式会社東芝 話者モデル作成システム、認識システム、プログラムおよび制御装置
EP3790006A4 (en) * 2018-06-29 2021-06-09 Huawei Technologies Co., Ltd. VOICE COMMAND PROCESS, PORTABLE DEVICE AND TERMINAL
ES2912165T3 (es) * 2018-07-06 2022-05-24 Veridas Digital Authentication Solutions S L Autenticación de un usuario
CN109189310B (zh) * 2018-07-27 2020-10-27 维沃移动通信有限公司 一种解锁方法及终端设备
US11580002B2 (en) * 2018-08-17 2023-02-14 Intensity Analytics Corporation User effort detection
KR102184300B1 (ko) * 2018-09-20 2020-12-01 현대오토에버 주식회사 음성 인식 기반 제어 시스템
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10922433B2 (en) * 2018-11-26 2021-02-16 Wells Fargo Bank, N.A. Interrupting receipt of sensitive information
KR20200100481A (ko) * 2019-02-18 2020-08-26 삼성전자주식회사 생체 정보를 인증하기 위한 전자 장치 및 그의 동작 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11328352B2 (en) 2019-03-24 2022-05-10 Apple Inc. User interfaces for managing an account
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
WO2020242595A1 (en) * 2019-05-31 2020-12-03 Apple Inc. Voice identification in digital assistant systems
EP4297021A3 (en) * 2019-05-31 2024-03-20 Apple Inc. Voice identification in digital assistant systems
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN112397060B (zh) * 2019-07-31 2024-02-23 北京声智科技有限公司 一种语音指令处理方法、系统、设备及介质
US11205433B2 (en) * 2019-08-21 2021-12-21 Qualcomm Incorporated Method and apparatus for activating speech recognition
KR20210050884A (ko) * 2019-10-29 2021-05-10 삼성전자주식회사 화자 인식을 위한 등록 방법 및 장치
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US12118562B2 (en) 2020-05-29 2024-10-15 Apple Inc. Configuring an account for a second user identity
CN111833868A (zh) * 2020-06-30 2020-10-27 北京小米松果电子有限公司 语音助手控制方法、装置及计算机可读存储介质
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
KR20220040875A (ko) * 2020-09-24 2022-03-31 삼성전자주식회사 음성 인식 서비스를 위한 등록 사용자에 대한 화자 인증 학습 장치 및 그 동작 방법
KR20220082258A (ko) * 2020-12-10 2022-06-17 삼성전자주식회사 전자 장치 및 전자 장치에서 기억 서비스를 제공하는 방법
US11983702B2 (en) 2021-02-01 2024-05-14 Apple Inc. Displaying a representation of a card with a layered structure
CN112951243A (zh) * 2021-02-07 2021-06-11 深圳市汇顶科技股份有限公司 语音唤醒方法、装置、芯片、电子设备及存储介质
US11921992B2 (en) 2021-05-14 2024-03-05 Apple Inc. User interfaces related to time
EP4377954A1 (en) * 2021-07-27 2024-06-05 Qualcomm Incorporated Voice or speech recognition using contextual information and user emotion
US11784956B2 (en) 2021-09-20 2023-10-10 Apple Inc. Requests to add assets to an asset account
CN114005435A (zh) * 2021-11-02 2022-02-01 北京元心君盛科技有限公司 一种响应语音信息的方法、装置、设备、介质及程序产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002055957A (ja) * 2000-06-06 2002-02-20 Internatl Business Mach Corp <Ibm> 信頼性ベースの増分アクセス認証用のシステムおよび方法
WO2008126254A1 (ja) * 2007-03-30 2008-10-23 Pioneer Corporation 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4837830A (en) * 1987-01-16 1989-06-06 Itt Defense Communications, A Division Of Itt Corporation Multiple parameter speaker recognition system and methods
US5805674A (en) 1995-01-26 1998-09-08 Anderson, Jr.; Victor C. Security arrangement and method for controlling access to a protected system
EP0938793A4 (en) 1996-11-22 2003-03-19 T Netix Inc VOICE RECOGNITION FOR ACCESS TO INFORMATION SYSTEMS AND PROCESSING OF TRANSACTIONS
US6691089B1 (en) 1999-09-30 2004-02-10 Mindspeed Technologies Inc. User configurable levels of security for a speaker verification system
US7212969B1 (en) 2000-09-29 2007-05-01 Intel Corporation Dynamic generation of voice interface structure and voice content based upon either or both user-specific contextual information and environmental information
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US7457745B2 (en) * 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US7404086B2 (en) 2003-01-24 2008-07-22 Ac Technology, Inc. Method and apparatus for biometric authentication
US8775187B2 (en) * 2008-09-05 2014-07-08 Auraya Pty Ltd Voice authentication system and methods
JP2010108074A (ja) * 2008-10-28 2010-05-13 Hitachi Ltd 生体認証システム及び方法
JP2010198384A (ja) * 2009-02-25 2010-09-09 Kyocera Corp 通信端末装置
CN101697514B (zh) * 2009-10-22 2016-08-24 中兴通讯股份有限公司 一种身份验证的方法及系统
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
CN102223367B (zh) * 2011-06-10 2014-04-23 安徽科大讯飞信息科技股份有限公司 移动用户访问网站的方法、设备及系统
CN102510426A (zh) * 2011-11-29 2012-06-20 安徽科大讯飞信息科技股份有限公司 个人助理应用访问方法及系统
US9042867B2 (en) * 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002055957A (ja) * 2000-06-06 2002-02-20 Internatl Business Mach Corp <Ibm> 信頼性ベースの増分アクセス認証用のシステムおよび方法
WO2008126254A1 (ja) * 2007-03-30 2008-10-23 Pioneer Corporation 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12002475B2 (en) 2018-10-12 2024-06-04 Samsung Electronics Co., Ltd. Electronic device performing speaker recognition and control method thereof
WO2020184753A1 (ko) * 2019-03-12 2020-09-17 엘지전자 주식회사 음성 추출 필터를 이용하여 음성 제어를 수행하는 인공 지능 장치 및 그 방법
US11468886B2 (en) 2019-03-12 2022-10-11 Lg Electronics Inc. Artificial intelligence apparatus for performing voice control using voice extraction filter and method for the same
KR102639755B1 (ko) * 2023-05-31 2024-02-23 농협은행(주) 전자 장치 제어를 지원하는 서버 및 이의 제어 방법

Also Published As

Publication number Publication date
CN105556920A (zh) 2016-05-04
CN105556920B (zh) 2018-11-09
US20150081295A1 (en) 2015-03-19
EP3047622B1 (en) 2017-08-23
JP2016538658A (ja) 2016-12-08
JP6306190B2 (ja) 2018-04-04
US9343068B2 (en) 2016-05-17
EP3047622A1 (en) 2016-07-27
KR20160055839A (ko) 2016-05-18
WO2015038435A1 (en) 2015-03-19

Similar Documents

Publication Publication Date Title
KR101868711B1 (ko) 애플리케이션들에 대한 액세스를 제어하기 위한 방법 및 장치
US9946862B2 (en) Electronic device generating notification based on context data in response to speech phrase from user
US20150302856A1 (en) Method and apparatus for performing function by speech input
CN106663430B (zh) 使用用户指定关键词的说话者不相依关键词模型的关键词检测
US9916431B2 (en) Context-based access verification
CN106233376B (zh) 用于通过话音输入激活应用程序的方法和设备
KR101824157B1 (ko) 화자 검증을 위한 동적 임계치
US10705789B2 (en) Dynamic volume adjustment for virtual assistants
US20160284350A1 (en) Controlling electronic device based on direction of speech
WO2018083495A2 (en) Methods and apparatus for biometric authentication in an electronic device
WO2012121809A1 (en) System and method for recognizing environmental sound
US11031010B2 (en) Speech recognition system providing seclusion for private speech transcription and private data retrieval
WO2012121856A1 (en) Sound recognition method and system

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant