KR102282197B1

KR102282197B1 - 바이오메트릭 프로세스들

Info

Publication number: KR102282197B1
Application number: KR1020207029797A
Authority: KR
Inventors: 존 폴 레소
Original assignee: 시러스 로직 인터내셔널 세미컨덕터 리미티드
Priority date: 2018-03-21
Filing date: 2019-03-20
Publication date: 2021-07-26
Also published as: GB2587126A; US20190295554A1; KR20200124310A; CN111837180A; GB202016578D0; GB2587126B; CN111837180B; WO2019180436A1; US10878825B2

Abstract

본 개시내용은 오디오 신호들과 허가된 사용자에 대해 저장된 음성 모델의 비교에 기초하여 사용자를 인증하기 위한 방법들, 시스템들, 디바이스들 및 컴퓨터 프로그램 제품들을 제공한다. 일 양태에서, 방법은 골-전도 신호의 표현을 포함하는 제1 오디오 신호를 획득하는 단계 - 골-전도 신호는 사용자의 골격의 적어도 일부를 통해 전도됨 -; 공기-전도 신호의 표현을 포함하는 제2 오디오 신호를 획득하는 단계; 및 제1 오디오 신호가 음성 신호를 포함한다는 결정에 응답하여, 제2 오디오 신호에 기초하여 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 하는 단계를 포함한다.

Description

바이오메트릭 프로세스들

본 개시내용의 실시예들은 바이오메트릭 프로세스들을 수행하기 위한 방법들, 장치들 및 시스템들에 관한 것으로, 특히 사용자의 스피치(speech)에 기초한 사용자의 인증을 포함하는 바이오메트릭 프로세스들을 수행하기 위한 방법들, 장치들 및 시스템들에 관한 것이다.

제한된 영역 또는 디바이스에 액세스하려고 하거나, 또는 제한된 액션을 수행하려는 해당 사용자들을 인증하기 위한 방법으로서 바이오메트릭 기술들이 점점 보편화되고 있다. 지문 인식, 홍채 인식 및 얼굴 인식을 포함하여 다양한 상이한 바이오메트릭 식별자들이 알려져 있다.

음성 바이오메트릭 시스템들은 사용자의 스피치에 기초하여 사용자를 인증한다. 사용자는 인증을 위해 음성 바이오메트릭 시스템을 사용하기 전에, 먼저 시스템에 등록한다. 등록하는 동안, 음성 바이오메트릭 시스템은 사용자의 음성의 특징인 바이오메트릭 데이터를 취득하고, 데이터를 음성 모델 또는 성문(voice print)으로서 저장한다. 인증은 등록 동안 말해지는 특정 단어 또는 구에 기초할 수도 있고(텍스트-의존형), 등록 동안 말해지는 것과 상이한 스피치에 기초할 수도 있다(텍스트-독립형). 인증은 입력 오디오 신호로부터 하나 이상의 바이오메트릭 피처를 추출하는 것, 및 해당 피처들을 저장된 성문들과 비교하는 것을 포함한다. 취득된 데이터가 저장된 성문에 매치되거나 또는 이에 충분히 가깝다는 결정은 사용자의 성공적인 인증으로 이어진다. 사용자의 성공적인 인증은 (예를 들어) 사용자가 제한된 액션을 수행하도록 허가받게 하거나, 또는 제한된 영역 또는 디바이스에 대한 액세스를 승인받게 할 수 있다. 취득된 피처들이 저장된 성문에 매치되지 않거나 또는 이에 충분히 가깝지 않은 경우, 사용자는 인증되지 않고, 인증 시도는 성공하지 못한다. 성공하지 못한 인증 시도는 사용자가 제한된 액션을 수행하도록 허가받는 것을 방지할 수 있고, 또는 사용자는 제한된 영역 또는 디바이스에 대한 액세스가 거부될 수 있다.

음성 바이오메트릭 시스템의 성능은 등록과 인증 사이의 시간 기간에 발생하는 사용자의 음성 변화들에 의해 제한될 수 있다. 예를 들어, 사용자의 음성은 노화, 질병, 또는 하루 중 바이오메트릭 데이터가 취득되는 시간의 결과로서 변화될 수 있다. 사용자의 음성이 충분히 변경된 경우, 사용자는 허가를 받았더라도 인증 시스템에 의해 거부될 수 있고, 인증을 받았어야 하며, 이것은 "오거부(false rejection)"로 알려진 문제이다. 음성 바이오메트릭 시스템들은 다양한 간격들로 추가 바이오메트릭 데이터를 수집하고 이러한 데이터를 사용하여 저장된 성문들을 업데이트함으로써 사용자의 음성의 변경들을 고려할 수 있다. 이 프로세스를 강화(enrichment)라고 한다.

강화는 감독형(supervised) 또는 비감독형(unsupervised) 프로세스일 수 있다. 감독형 강화는 사용자에게 다양한 간격들로 시스템에 재-등록하라고 프롬프트하는 단계를 포함한다. 예를 들어, 사용자는 특정 단어 또는 구를 반복하도록 요청받을 수 있고, 결과 데이터는 저장된 성문을 업데이트하는 데 사용될 수 있다. 이 프로세스 이전에, 사용자의 아이덴티티가 하나 이상의 인증 기술을 사용하여 확립된다(예를 들어, 사용자는 패스워드 또는 핀 번호를 입력하도록 요청받을 수 있다). 감독형 강화는 저장된 성문들을 업데이트하기 위한 강력한 접근법을 제공하지만, 이것은 사용자가 강화 프로세스에 적극적으로 참여할 것을 요구한다.

대조적으로, 비감독형 강화는 사용자의 명시적인 지식 없이 저장된 성문을 업데이트하기 위해 사용자로부터의 임의의 스피치를 사용한다. 바이오메트릭 데이터는 사용자에게 추가 입력을 제공하라고 프롬프트할 필요 없이 일상적인 사용 동안 수집될 수 있다. 따라서, 비감독형 강화는 저장된 성문들이 더 빈번하게 업데이트되게 함으로써, 음성 바이오메트릭 시스템의 성능을 향상시킨다.

비감독형 강화가 효율적으로 사용되려면, 사용자의 스피치만이 사용자의 저장된 성문을 업데이트하는 데 사용되는 것이 중요하다. 예를 들어, 다른 화자로부터의 스피치를 사용하여 성문이 잘못 업데이트되는 경우, 음성 바이오메트릭 시스템의 효율성이 저하될 수 있고, 사용자는 더 빈번하게 오거부들을 경험할 수 있다. 저장된 성문을 잘못 업데이트하면 사용자를 불편하게 할 뿐만 아니라, 상당한 보안 위험이 발생할 수도 있다. 따라서, 비감독형 강화가 음성 바이오메트릭 시스템에서 성공적으로 구현되려면, 음성 바이오메트릭 시스템이 사용자의 스피치와 시스템에 의해 검출된 다른 오디오(예를 들어, 다른 화자들로부터의 스피치)를 구분할 수 있어야 한다.

본 개시내용의 실시예들은 이러한 문제 및 다른 문제들을 해결하고자 한다.

본 개시내용의 일 양태는 바이오메트릭 인증 시스템(biometric authentication system)에서의 방법 - 바이오메트릭 인증 시스템은 오디오 신호들과 허가된 사용자에 대해 저장된 음성 모델의 비교에 기초하여 사용자를 인증함 - 을 제공한다. 방법은 골-전도 신호(bone-conducted signal)의 표현을 포함하는 제1 오디오 신호를 획득하는 단계 - 골-전도 신호는 사용자의 골격의 적어도 일부를 통해 전도됨 -; 공기-전도 신호(air-conducted signal)의 표현을 포함하는 제2 오디오 신호를 획득하는 단계; 및 제1 오디오 신호가 음성 신호를 포함한다는 결정에 응답하여, 제2 오디오 신호에 기초하여 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 하는 단계를 포함한다.

다른 양태는 오디오 신호들과 인증된 사용자에 대해 저장된 음성 모델의 비교에 기초하여 사용자를 인증하기 위한 바이오메트릭 인증 시스템을 제공한다. 바이오메트릭 인증 시스템은 제1 오디오 신호를 획득하기 위한 제1 입력 - 제1 오디오 신호는 골-전도 신호의 표현을 포함하고, 골-전도 신호는 사용자의 골격의 적어도 일부를 통해 전도됨 -; 제2 오디오 신호를 획득하기 위한 제2 입력 - 제2 오디오 신호는 공기-전도 신호의 표현을 포함함 -; 및 제1 오디오 신호가 음성 신호를 포함하는지를 결정하고, 제1 오디오 신호가 음성 신호를 포함한다는 결정에 응답하여, 제2 오디오 신호에 기초하여 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 하도록 동작 가능한 인에이블먼트 모듈을 포함한다.

추가 양태는 오디오 신호들과 인증된 사용자에 대해 저장된 음성 모델의 비교에 기초하여 사용자를 인증하기 위한 전자 장치를 제공한다. 전자 장치는 프로세싱 회로망, 및 명령어들을 저장하는 비-일시적 머신 판독 가능 매체를 포함하고, 명령어들은, 프로세싱 회로망에 의해 실행될 때, 전자 장치로 하여금, 골-전도 신호의 표현을 포함하는 제1 오디오 신호를 획득하게 하고 - 골-전도 신호는 사용자의 골격의 적어도 일부를 통해 전도됨 -, 공기-전도 신호의 표현을 포함하는 제2 오디오 신호를 획득하게 하고, 제1 오디오 신호가 음성 신호를 포함한다는 결정에 응답하여, 제2 오디오 신호에 기초하여 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 한다.

다른 양태는 오디오 신호들과 인증된 사용자에 대해 저장된 음성 모델의 비교에 기초하여 사용자를 인증하기 위한 비-일시적 머신 판독 가능 매체를 제공한다. 매체는 명령어들을 저장하고, 명령어들은, 프로세싱 회로망에 의해 실행될 때, 전자 장치로 하여금, 골-전도 신호의 표현을 포함하는 제1 오디오 신호를 획득하게 하고 - 골-전도 신호는 사용자의 골격의 적어도 일부를 통해 전도됨 -, 공기-전도 신호의 표현을 포함하는 제2 오디오 신호를 획득하게 하고, 제1 오디오 신호가 음성 신호를 포함한다는 결정에 응답하여, 제2 오디오 신호에 기초하여 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 한다.

본 개시내용의 예들을 더 잘 이해하고 예들이 어떻게 실시될 수 있는지 더 명확하게 보여주기 위해, 이제 단지 예로서 다음의 도면들이 참조될 것이다.
도 1a 내지 도 1f는 본 개시내용의 실시예들에 따른 개인용 오디오 디바이스들을 도시한다.
도 2는 본 개시내용의 실시예들에 따른 배열을 도시하는 개략도이다.
도 3은 본 개시내용의 실시예들에 따른 시스템을 도시한다.
도 4는 본 개시내용의 실시예들에 따른 방법의 흐름도이다.

본 개시내용의 실시예들은 바이오메트릭 인증 시스템의 허가된 사용자에 대해 저장된 음성 모델(템플릿 또는 성문으로도 알려짐)을 강화하거나 업데이트하기 위한 방법들, 장치들 및 컴퓨터 프로그램들을 제공한다. 실시예들은 사용자가 말하고 있을 때를 식별하고 저장된 음성 모델에 대한 업데이트들을 가능하게 하기 위해 골-전도 음성 신호들(예를 들어, 턱 뼈와 같은 사용자의 골격의 일부를 통해 적어도 부분적으로 전도된 음성 신호)을 사용한다. 예를 들어, 방법은 골-전도 신호 및 공기-전도 신호의 표현들을 각각 포함하는 제1 및 제2 오디오 신호들을 획득하는 단계를 포함할 수 있다. 제1 오디오 신호가 음성 신호를 포함한다는 결정에 응답하여, 저장된 음성 모델에 대한 업데이트들이 제2 오디오 신호에 기초하여 가능하게 될 수 있다. 추가 실시예들은 제2 오디오 신호가 음성 신호를 포함한다는 결정에 응답하여, 또는 제1 및 제2 오디오 신호들이 서로 상관되는 각각의 음성 신호들을 포함한다는 결정에 응답하여, 저장된 음성 모델에 대한 업데이트들을 가능하게 하는 단계를 포함할 수 있다.

본 개시내용의 실시예들은 다양한 상이한 전자 디바이스들 및 시스템들에서 구현될 수 있다. 도 1a 내지 도 1f는 본 개시내용의 양태들을 구현하는 데 사용될 수 있는 개인용 오디오 디바이스들의 예들을 도시한다. 본 명세서에서 사용되는 바와 같이, "개인용 오디오 디바이스(personal audio device)"라는 용어는 실질적으로 단일 사용자에게만 오디오 재생을 제공하기에 적절하거나, 이를 위해 구성 가능 가능한 임의의 전자 디바이스이다. 적절한 개인용 오디오 디바이스들의 일부 예들이 도 1a 내지 도 1f에 도시되어 있다.

도 1a는 (외부) 귓바퀴(pinna) 또는 외이(auricle)(12a) 및 (내부) 외이도(ear canal)(12b)를 포함하는 사용자의 귀의 개략도를 도시한다. 귀 덮개식 헤드폰(circum-aural headphone)을 포함하는 개인용 오디오 디바이스(20)가 사용자에 의해 귀 위에 착용된다. 헤드폰은 사용자의 귀와 외부 환경 사이에 물리적인 장벽을 제공하기 위해 외이(12a)를 실질적으로 둘러싸고 감싸는 쉘(shell)을 포함한다. 사용자의 편안함 및 헤드폰과 사용자의 피부 사이의 음향 커플링을 증가시키기 위해(즉, 외부 환경과 사용자의 귀 사이에 보다 효과적인 장벽을 제공하기 위해) 쉘의 에지에 쿠션 또는 패딩이 제공될 수 있다.

헤드폰은 헤드폰의 내부 표면 상에 위치 결정되고 사용자의 귀, 특히, 외이도(12b)를 향해 음향 신호들을 생성하도록 배열되는 하나 이상의 라우드스피커(22)를 포함한다. 헤드폰은 역시 헤드폰의 내부 표면 상에 위치 결정되고, 헤드폰, 외이(12a) 및 외이도(12b)에 의해 정의되는 내부 볼륨 내의 음향 신호들을 검출하도록 배열되는 하나 이상의 마이크로폰(24)을 추가로 포함한다. 이러한 마이크로폰들(24)은 골-전도 음성 신호들을 검출하도록 동작 가능할 수 있다.

헤드폰은 헤드폰의 사용자에 의해 경험되는 노이즈의 양을 감소시키기 위해 능동형 노이즈 캔슬링(active noise cancellation)을 수행할 수 있다. 능동형 노이즈 캔슬링은 노이즈를 검출하고(즉, 마이크로폰 사용) 노이즈 신호와 동일한 진폭을 갖지만 위상이 반대인 신호를 생성함으로써(즉, 라우드스피커 사용) 동작한다. 따라서, 생성된 신호는 노이즈를 파괴적으로 간섭하고, 그에 따라 사용자에 의해 경험되는 노이즈를 줄인다. 능동형 노이즈 캔슬링은 피드백 신호들, 피드포워드 신호들 또는 이들의 조합에 기초하여 동작할 수 있다. 피드포워드 능동형 노이즈 캔슬링은 헤드폰 외부 표면에 있는 하나 이상의 마이크로폰을 활용하여, 환경 노이즈가 사용자의 귀에 도달하기 전에 이를 검출하도록 동작한다. 검출된 노이즈는 신속하게 프로세싱되고, 들어오는 노이즈가 사용자의 귀에 도달할 때, 이에 매치되도록 캔슬링 신호가 생성된다. 피드백 능동형 노이즈 캔슬링은 헤드폰의 내부 표면 상에 위치 결정되는 하나 이상의 오차 마이크로폰을 활용하여, 노이즈와 하나 이상의 라우드스피커에 의해 생성된 오디오 재생 신호의 조합을 검출하도록 동작한다. 이 조합은 오디오 재생 신호에 대한 지식과 함께 피드백 루프에서 사용되어, 라우드스피커에 의해 생성된 캔슬링 신호를 조정하고, 이에 따라 노이즈를 감소시킨다. 따라서, 도 1a에 도시된 마이크로폰(24)은, 예를 들어, 오차 마이크로폰으로서 능동형 노이즈 캔슬링 시스템의 일부를 형성할 수 있다.

개인용 오디오 디바이스(20)는 사용자의 음성의 공기-전도 표현을 캡처하기 위해 제공되는 음성 마이크로폰을 포함하거나 또는 이와 함께 사용될 수 있다. 자세한 내용은 도 1f를 참조하도록 한다.

도 1b는 귀에 거는식 헤드폰(supra-aural headphone)을 포함하는 대안적인 개인용 오디오 디바이스(30)를 도시한다. 귀에 거는식 헤드폰은 사용자의 귀를 둘러싸거나 감싸지 않고 오히려 외이(12a) 상에 놓여 있다. 헤드폰은 환경 노이즈의 영향을 줄이기 위해 쿠션 또는 패딩을 포함할 수 있다. 도 1a에 도시된 귀 덮개식 헤드폰과 마찬가지로, 귀에 거는식 헤드폰은 하나 이상의 라우드스피커(32) 및 하나 이상의 마이크로폰(34)을 포함한다. 라우드스피커(들)(32) 및 마이크로폰(들)(34)은 능동형 노이즈 캔슬링 시스템의 일부를 형성할 수 있으며, 마이크로폰(34)은 오차 마이크로폰으로서 역할을 한다.

도 1c는 인트라-콘차 헤드폰(intra-concha headphone)(또는 이어폰)을 포함하는 또 다른 대안적인 개인용 오디오 디바이스(40)를 도시한다. 사용시, 인트라-콘차 헤드폰은 사용자의 외이(concha) 공동 내부에 놓인다. 인트라-콘차 헤드폰은 공동 내에 느슨하게 끼워져서, 사용자의 외이도(12b) 안팎으로 공기가 흐를 수 있게 할 수 있다.

도 1a 및 도 1b에 도시된 디바이스들에서와 마찬가지로, 인트라-콘차 헤드폰은 하나 이상의 라우드스피커(42) 및 하나 이상의 마이크로폰(44)을 포함하며, 이들은 능동형 노이즈 캔슬링 시스템의 일부를 형성할 수 있다.

도 1d는 인-이어 헤드폰(in-ear headphone)(또는 이어폰), 삽입형 헤드폰 또는 이어 버드를 포함하는 또 다른 대안적인 개인용 오디오 디바이스(50)를 도시한다. 이 헤드폰은 외이도(12b) 내에 부분적으로 또는 전체적으로 삽입되도록 구성되고, 외이도(12b)와 외부 환경 사이에 상대적으로 타이트한 밀봉을 제공할 수 있다(즉, 이것은 음향적으로 폐쇄되거나 밀봉될 수 있다). 헤드폰은 위에서 설명된 다른 디바이스들에서와 마찬가지로 하나 이상의 라우드스피커(52) 및 하나 이상의 마이크로폰(54)을 포함할 수 있으며, 이들 컴포넌트들은 능동형 노이즈 캔슬링 시스템의 일부를 형성할 수 있다.

인-이어 헤드폰이 외이도(12b) 주위에 상대적으로 타이트한 음향 밀봉을 제공할 수 있기 때문에, 마이크로폰(54)에 의해 검출되는 외부 노이즈(즉, 외부 환경에서 오는 것)가 낮을 가능성이 있다.

도 1e는 모바일 또는 셀룰러폰 또는 핸드셋인 또 다른 대안적인 개인용 오디오 디바이스(60)를 도시한다. 핸드셋(60)은 사용자에 대한 오디오 재생을 위한 하나 이상의 라우드스피커(62), 및 하나 이상의 마이크로폰(64)을 포함하며, 이들은 유사하게 위치 결정된다.

사용시, 핸드셋(60)은 (예를 들어, 통화 동안) 오디오 재생을 제공하기 위해 사용자의 귀에 가깝게 유지된다. 핸드셋(60)과 사용자의 귀 사이에 타이트한 음향 밀봉이 달성되지는 않지만, 핸드셋(60)은 통상적으로 하나 이상의 마이크로폰(64)이 골-전도 음성 신호들을 검출할 수 있을 만큼 충분히 가깝게 유지된다. 다른 디바이스들에서와 마찬가지로, 라우드스피커(들)(62) 및 마이크로폰(들)(64)이 능동형 노이즈 캔슬링 시스템의 일부를 형성할 수 있다.

핸드셋(60)은 라우드스피커(들)(62) 및 마이크로폰(들)(64)에 대한 핸드셋의 대향하는 단부에 또는 그에 가깝게 위치 결정되는 음성 마이크로폰(66)을 추가로 포함한다. 따라서, 음성 마이크로폰(66)은 사용시 사용자의 얼굴에 가깝게 유지될 때, 사용자의 입에 상대적으로 가깝고, 공기를 통해 전도되는 사용자의 스피치를 검출할 수 있다.

따라서, 위에서 설명된 모든 개인용 오디오 디바이스들은 사용시 실질적으로 단일 사용자에게 오디오 재생을 제공한다. 각각의 디바이스는 각각의 마이크로폰들(24, 34, 44, 54 및 64)을 통해 골-전도 음성 신호들을 검출하도록 추가로 동작 가능하다.

도 1f는 사용자에 대한 개인용 오디오 디바이스(이 경우, 개인용 오디오 디바이스(50)와 유사한 구성을 가짐)의 적용을 도시한다. 사용자는 2개의 외이도(104, 108)를 가지고 있다. 제1 인-이어 헤드폰(102)(제1 라우드스피커 또는 다른 오디오 트랜스듀서, 및 제1 마이크로폰 또는 다른 트랜스듀서를 포함함)은 제1 외이도(104)에 삽입되고, 제2 인-이어 헤드폰(106)(제2 라우드스피커 또는 다른 오디오 트랜스듀서, 및 제2 마이크로폰을 포함함)은 제2 외이도(108)에 삽입된다.

귀의 외부에 위치 결정되는 음성 마이크로폰(110)도 제공된다. 예시된 실시예에서, 음성 마이크로폰(110)은 유선 연결을 통해 제1 및 제2 헤드폰들(102, 106)에 커플링된다. 그러나, 음성 마이크로폰(110)은, 예를 들어, 헤드폰들(102, 106) 중 하나 이상의 것의 외부 표면 상에서 공기를 통해 전도되는 사용자의 음성을 검출하기에 적절한 임의의 위치에 위치 결정될 수 있다. 음성 마이크로폰들(110)은 무선 연결을 통해 제1 및 제2 헤드폰들(102, 106)에 커플링될 수 있다. 헤드폰들(102, 106) 및 음성 마이크로폰(110)은 호스트 전자 디바이스(112)에 추가로 커플링된다. 호스트 전자 디바이스(112)는 스마트폰 또는 다른 셀룰러 또는 모바일폰, 미디어 플레이어 등일 수 있다. 일부 실시예들에서는, 호스트 전자 디바이스(112)가 불필요하도록 헤드폰들(102, 106) 중 하나 내에서 프로세싱이 수행될 수 있다. 또한, 도 1f는 2개의 헤드폰(102, 106)을 도시하지만, 일부 실시예들에서는, 단일 헤드폰만이 제공될 수도 있고, 또는 2개의 헤드폰(102, 106) 중 단일의 것으로부터의 신호들이 이하에서 설명되는 프로세싱에 사용될 수 있다는 점에 유의할 것이다.

사용자가 말할 때, 그의 음성은 공기를 통해 이것이 검출되는 음성 마이크로폰(110)으로 전달된다. 또한, 음성 신호는 턱뼈와 같은 사용자의 골격 또는 두개골의 일부를 통해 전달되고, 외이도에 커플링된다. 따라서, 헤드폰들(102, 106)의 마이크로폰들은 골-전도 음성 신호를 검출한다.

골-전도 신호를 검출하는 마이크로폰들 또는 기타 트랜스듀서들(가속도계들 등)은 (예를 들어, 오차 신호를 검출하기 위해) 능동형 노이즈 캔슬링 시스템의 일부로서 제공되는 마이크로폰들 또는 기타 트랜스듀서들과 동일할 수 있다는 것이 본 기술분야의 통상의 기술자에 의해 이해될 것이다. 대안적으로, 위에서 설명된 개인용 오디오 디바이스들에서는 이러한 개별 목적들(또는 목적들의 조합들)을 위해 별도의 마이크로폰들 또는 트랜스듀서들이 제공될 수 있다.

도 1a 내지 도 1f에 도시되고 위에서 설명된 모든 디바이스들은 본 개시내용의 양태들을 구현하는 데 사용될 수 있다.

도 2는 본 개시내용의 실시예들에 따른 배열(200)을 도시한다. 배열(200)은 개인용 오디오 디바이스(202) 및 바이오메트릭 시스템(204)을 포함한다. 개인용 오디오 디바이스(202)는 사용자로부터 골-전도 및 공기-전도 음성 신호들을 검출하기에 적절하거나 또는 이를 검출하도록 구성되는 임의의 디바이스일 수 있다. 골-전도 음성 신호들은 본질적으로 단일 사용자(즉, 개인용 오디오 디바이스의 사용자)로부터 발생한다. 공기-전도 음성 신호들은 디바이스(202) 주변의 환경에 따라 근처 화자들로부터의 추가 음성 신호들을 포함할 수 있다. 개인용 오디오 디바이스(202)는 사용시 (골-전도 오디오 신호들을 검출하기 위해) 사용자의 귀에 각각 인접하게 또는 그 내부에, 그리고 (공기-전도되는 오디오 신호들을 검출하기 위해) 사용자의 입에 인접하게 각각 위치 결정되는 제1 및 제2 마이크로폰들을 포함한다. 개인용 오디오 디바이스는 착용 가능할 수 있으며, 사용자의 귀들 각각에 대한 헤드폰들을 포함할 수 있다. 대안적으로, 개인용 오디오 디바이스는 사용자가 휴대하도록 동작 가능할 수 있고, 사용 동안 사용자의 귀 또는 귀들에 인접하게 유지될 수 있다. 개인용 오디오 디바이스는 도 1a 내지 도 1f 중 임의의 것과 관련하여 위에서 설명된 바와 같은 헤드폰들 또는 모바일폰 핸드셋을 포함할 수 있다.

바이오메트릭 시스템(204)은 개인용 오디오 디바이스(202)에 커플링되고, 개인용 오디오 디바이스를 사용하는 개인을 나타내는 바이오메트릭 데이터를 수신한다. 일부 실시예들에서, 바이오메트릭 시스템(204)은 바이오메트릭 데이터를 취득하기 위해 개인용 오디오 디바이스(202)를 제어하도록 동작 가능할 수 있다.

예를 들어, 개인용 오디오 디바이스(202)는 골-전도 음성 신호들을 취득하고, 프로세싱을 위해 바이오메트릭 시스템(204)에 신호들을 출력할 수 있다. 예를 들어, 개인용 오디오 디바이스(202)는 공기-전도 음성 신호들을 취득하고, 프로세싱을 위해 바이오메트릭 시스템(204)에 신호들을 출력할 수 있다. 예를 들어, 개인용 오디오 디바이스(202)는 음성 바이오메트릭 데이터를 취득하고, 프로세싱을 위해 바이오메트릭 시스템(204)에 신호들을 출력할 수 있다.

바이오메트릭 시스템(204)은 적절한 제어 신호들을 개인용 오디오 디바이스(202)에 전송하여, 바이오메트릭 데이터의 취득을 개시하고, 개인용 오디오 디바이스(202)로부터 바이오메트릭 데이터를 수신할 수 있다. 바이오메트릭 시스템(204)은 바이오메트릭 데이터로부터 하나 이상의 피처를 추출하고, 바이오메트릭 프로세스의 일부로서 해당 피처들을 활용하도록 동작 가능하다.

적절한 바이오메트릭 프로세스들의 일부 예들은 바이오메트릭 등록 및 바이오메트릭 인증을 포함한다. 등록은 개인의 특징인 바이오메트릭 데이터의 취득 및 저장을 포함한다. 현재 문맥에서, 이러한 저장된 데이터는 "성문"으로 알려져 있을 수 있다. 인증은 개인으로부터 바이오메트릭 데이터를 취득하는 것, 및 해당 데이터를 하나 이상의 등록된 또는 허가된 사용자의 저장된 데이터와 비교하는 것을 포함한다. 긍정적인 비교(즉, 취득된 데이터가 저장된 성문 또는 이문(ear print)에 매치되거나 또는 이에 충분히 가까움)는 개인이 인증되게 한다. 예를 들어, 개인은 제한된 액션을 수행하도록 허가받을 수도 있고, 또는 제한된 영역 또는 디바이스에 대한 액세스를 승인받을 수도 있다. 부정적인 비교(즉, 취득된 데이터가 저장된 성문 또는 이문에 매치되지 않거나 또는 이에 충분히 가깝지 않음)는 개인이 인증되지 않게 한다. 예를 들어, 개인은 제한된 액션을 수행하도록 허가받지 못할 수도 있고, 또는 제한된 영역 또는 디바이스에 대한 액세스를 승인받지 못할 수도 있다.

일부 실시예들에서, 바이오메트릭 시스템(204)은 개인용 오디오 디바이스(202) 자체의 일부를 형성할 수 있다. 대안적으로, 바이오메트릭 시스템(204)은 개인용 오디오 디바이스(202)가 유선들을 통해 또는 무선으로 커플링되는 전자 호스트 디바이스(예를 들어, 오디오 플레이어)의 일부를 형성할 수 있다. 또 다른 실시예들에서, 바이오메트릭 시스템(204)의 동작들은 개인용 오디오 디바이스(202)의 회로망과 전자 호스트 디바이스 사이에 분산될 수 있다.

도 3은 본 개시내용의 실시예들에 따른 시스템(300)을 도시한다.

시스템(300)은 중앙 프로세싱 유닛 또는 애플리케이션 프로세서(applications processor)(AP) 또는 디지털 신호 프로세서(digital signal processor)(DSP)와 같은 하나 이상의 프로세서를 포함할 수 있는 프로세싱 회로망(324)을 포함한다. 시스템(300)은 프로세싱 회로망(324)에 통신 가능하게 커플링되는 메모리(326)를 추가로 포함한다. 메모리(326)는, 프로세싱 회로망(324)에 의해 수행될 때, 프로세싱 회로망으로 하여금, 이하에서 설명되는 하나 이상의 방법을 수행하게 하는 명령어들을 저장할 수 있다.(예를 들어, 도 4 참조).

하나 이상의 프로세서는 메모리(324)에 저장된 데이터 및 프로그램 명령어들에 기초하여 본 명세서에서 설명되는 방법들을 수행할 수 있다. 메모리(324)는 단일 컴포넌트로서 또는 다수의 컴포넌트들로서 제공될 수도 있고, 또는 프로세싱 회로망(322)의 적어도 일부와 공동-통합될 수 있다. 특히, 본 명세서에서 설명되는 방법들은 메모리(324)에 비-일시적 형태로 저장되는 명령어들을 실행함으로써 프로세싱 회로망(322)에서 수행될 수 있으며, 프로그램 명령어들은 시스템(300) 또는 개인용 오디오 디바이스(202)의 제조 동안 또는 시스템 또는 디바이스가 사용 중인 동안 업로드에 의해 저장될 수 있다.

시스템(300)은 개인용 오디오 디바이스(즉, 위에서 설명된 바와 같음)에 속할 수 있는 제1 마이크로폰(302)을 포함한다. 제1 마이크로폰(302)은 사용시 사용자의 귀 내부에 또는 이에 인접하게 배치되도록 구성 가능할 수 있으며, 이하 "이어 마이크로폰(ear microphone)(302)"으로 지칭된다. 이어 마이크로폰(302)은, 위에서 설명된 바와 같이, 사용자로부터 골-전도 음성 신호들을 검출하도록 동작 가능할 수 있다.

프로세싱 회로망(324)은 이어 마이크로폰에 의해 검출된 전기 오디오 신호를 수신하고 이를 아날로그 도메인으로부터 디지털 도메인으로 변환하는 아날로그-디지털 변환기(analogue-to-digital converter)(ADC)(304)를 포함한다. 물론, 대안적인 실시예들에서, 이어 마이크로폰(302)은 디지털 마이크로폰일 수 있고, 디지털 데이터 신호를 생성할 수 있다(따라서, 디지털 도메인으로의 변환을 필요로 하지 않는다).

시스템(300)은 개인용 오디오 디바이스(202)(즉, 위에서 설명된 바와 같음)에 속할 수 있는 제2 마이크로폰(310)을 추가로 포함한다. 제2 마이크로폰(310)은 사용시 사용자의 귀 외부에 배치되도록 구성 가능할 수 있다. 제2 마이크로폰(310)은 이하 "음성 마이크로폰(310)"으로 명명된다. 음성 마이크로폰(310)은 위에서 설명된 바와 같이 사용자로부터 공기-전도 음성 신호들을 검출하도록 동작 가능할 수 있다. (위에서 논의된 바와 같이, 음성 마이크로폰(310)이 디지털 데이터 신호를 생성하는 디지털 마이크로폰이 아닌 경우) 프로세싱 회로망(324)은 또한 음성 마이크로폰(310)에 의해 검출된 오디오 신호들과 관련하여 ADC(312)를 포함한다.

ADC(304)의 출력(즉, 골-전도 오디오 신호)은 인에이블먼트 모듈(306)로 전달된다. ADC(310)의 출력(즉, 공기-전도 오디오 신호)도 인에이블먼트 모듈(306)로 임의적으로 전달된다. 인에이블먼트 모듈(306)의 동작은 이하에서 더 상세하게 설명될 것이다.

시스템은 음성 바이오메트릭 인증 알고리즘을 구현한다. 따라서, 공기-전도 오디오 신호는 음성 바이오메트릭 인증을 수행하는 데에도 사용된다.

음성 마이크로폰(310)에 의해 검출된 신호는 시간 도메인에 있다. 그러나, 바이오메트릭 프로세스의 목적들을 위해 추출된 피처들은 (특징적인 사용자의 음성의 주파수들이라는 점에서) 주파수 도메인에 있을 수 있다. 따라서, 프로세싱 회로망(324)은 반사된 신호를 주파수 도메인으로 변환하는 푸리에 변환 모듈(308)을 포함한다. 예를 들어, 푸리에 변환 모듈(308)은 고속 푸리에 변환(fast Fourier transform)(FFT)을 구현할 수 있다.

변환된 신호는 그 후 바이오메트릭 프로세스(예를 들어, 바이오메트릭 등록, 바이오메트릭 인증 등)에서 사용하기 위해 변환된 신호의 하나 이상의 피처를 추출하는 피처 추출 모듈(314)로 전달된다. 예를 들어, 피처 추출 모듈(314)은 하나 이상의 멜 주파수 켑스트럼 계수(mel frequency cepstrum coefficient)를 추출할 수 있다. 대안적으로, 피처 추출 모듈은 하나 이상의 미리 결정된 주파수에서 또는 하나 이상의 주파수 범위에 걸쳐 사용자의 음성의 진폭 또는 에너지를 결정할 수 있다. 추출된 피처들은 사용자의 음성 모델에 대한 데이터에 대응할 수 있다.

추출된 피처(들)는 이들에 대해 바이오메트릭 프로세스를 수행하는 바이오메트릭 모듈(316)로 전달된다. 예를 들어, 바이오메트릭 모듈(316)은 바이오메트릭 등록을 수행할 수 있으며, 여기서는 추출된 피처들(또는 그로부터 도출된 파라미터들)이 개인의 특징인 바이오메트릭 데이터의 일부로서 저장된다. 바이오메트릭 데이터는 시스템 내에 제공되거나 또는 시스템으로부터 원격에 있는 메모리 모듈(318)에 저장될 수 있다(그리고, 바이오메트릭 모듈(316)에 의해 안전하게 액세스 가능하다). 이러한 저장된 데이터는 "성문"으로 알려져 있다. 다른 예에서, 바이오메트릭 모듈(316)은 바이오메트릭 인증을 수행하고, 하나 이상의 추출된 피처를 저장된 성문(또는 다수의 저장된 성문들)의 대응하는 피처들과 비교할 수 있다. 비교에 기초하여, 공기-전도 음성 신호 내에 포함된 음성이 허가된 사용자의 음성에 대응할 가능성을 나타내는 바이오메트릭 점수가 생성된다. 해당 점수는 임계값과 비교되어, 공기-전도 음성 신호 내에 포함된 음성이 허가된 사용자의 음성으로서 인증되어야 하는지를 결정할 수 있다. 예를 들어, 일 구현에서, 바이오메트릭 점수가 임계값을 초과할 때에는 음성이 인증될 수 있고, 바이오메트릭 점수가 임계값 미만일 때에는 음성이 인증되지 않을 수 있다.

위에서 설명된 바와 같이, 본 개시내용의 실시예들은 허가된 사용자에 대해 저장된 성문의 강화 또는 업데이트에 관한 것으로, 특히 공기-전도 오디오 신호가 시스템의 사용자의 음성을 포함할 때를 결정하기 위해 골-전도 오디오 신호를 사용하는 것에 관한 것이다. 즉, 사용시의 이어 마이크로폰(302)의 포지션으로 인해, 골-전도 오디오 신호는 시스템(300)의 사용자의 음성만을 포함할 가능성이 있다. (예를 들어, 다른 근처의 화자들로 인해) 골-전도 오디오 신호에 다른 음성들이 존재하는 경우, 해당 음성들과 연관된 신호들은 사용자의 음성과 연관된 신호들보다 훨씬 더 낮은 진폭을 가질 가능성이 있다. 따라서, 골-전도 오디오 신호에서의 음성의 존재에 대한 긍정적인 결정은 허가된 사용자에 대한 성문의 업데이트 또는 강화를 가능하게 하는 데 사용될 수 있다.

따라서, 일 실시예에서, 인에이블먼트 모듈(306)은 ADC(304)로부터 골-전도 오디오 신호를 수신하고, 바이오메트릭 모듈(316)에 대한 출력 제어 신호를 생성하도록 동작하여, 바이오메트릭 모듈(316)이 공기-전도 오디오 신호에 기초하여 저장된 음성 모델을 업데이트할 수 있게 한다.

일 실시예에서, 인에이블먼트 모듈(306)은 골-전도 오디오 신호만을 수신할 수 있고, 음성 활동 검출 모듈을 포함할 수 있고, 또는 다르게는 음성 활동 검출 모듈을 수행하도록 동작할 수도 있어, 스피치의 특징인 골-전도 오디오 신호에서의 오디오의 존재를 검출할 수 있다. 이러한 음성 활동 검출은 화자 검출(즉, 특정 화자의 식별)에 대응하지 않고, 일반적인 스피치의 검출에 대응한다는 것에 유의하도록 한다.

다양한 음성 활동 검출 방법들이 본 기술분야에 알려져 있으며, 본 개시내용은 그 점에 제한되지 않는다. 예를 들어, 음성 활동 검출은 상대적으로 복잡할 수 있으며, 골-전도 신호의 하나 이상의 파라미터(예를 들어, 스펙트럼 기울기, 상관 계수들, 로그 우도 비율, 켑스트럴(cepstral), 가중 켑스트럴(weighted cepstral) 및/또는 수정된 거리 측정값들)가 결정되고, 스피치의 특징인 대응하는 파라미터들과 비교될 수 있다. 하나의 더 간단한 실시예에서, 사용자가 말할 때에는, 개인용 오디오 디바이스(202)의 사용자의 음성이 골-전도 신호에서 지배적이라고 가정될 수 있다(즉, 사용자의 음성이 다른 노이즈 소스들보다 지배적일 것이다). 이 경우에, 음성 활동 검출은 골-전도 오디오 신호의 진폭과 임계값의 단순 비교를 포함할 수 있고, 진폭이 임계값보다 클 때, 골-전도 오디오 신호는 사용자의 음성을 포함한다고 가정될 수 있다.

일 실시예에서, 골-전도 오디오 신호가 음성 신호를 포함한다는 결정에 응답하여, 인에이블먼트 모듈(306)은 바이오메트릭 모듈(316)이 공기-전도 오디오 신호에 기초하여 허가된 사용자에 대해 저장된 성문을 업데이트할 수 있게 하는 제어 신호를 바이오메트릭 모듈(316)에 출력한다.

인에이블먼트 모듈(306)은 ADC(310)로부터 공기-전도 오디오 신호를 추가로 수신할 수 있고, 골-전도 오디오 신호 및 공기-전도 오디오 신호 둘 모두에 기초하여 저장된 음성 모델에 대한 업데이트들을 가능하게 할 것인지에 대한 결정을 기초할 수 있다.

예를 들어, 인에이블먼트 모듈(306)은 스피치의 특징인 공기-전도 오디오 신호에서의 오디오의 존재를 검출하기 위해 공기-전도 오디오 신호에 대해 음성 활동 검출 기능을 수행할 수 있다. 인에이블먼트 모듈(306)은, 위에서 설명된 바와 같이, 공기-전도 오디오 신호 및 골-전도 오디오 신호 모두가 음성을 포함할 때, 바이오메트릭 모듈(316)에 대한 출력 제어 신호를 생성할 수 있다. 이 실시예에서, 제어 신호는 시간적으로 중첩되는(또는 동시적인) 공기-전도 오디오 신호 및 골-전도 오디오 신호의 부분들이 모두 음성을 포함할 때 생성될 수 있다는 것이 이해될 것이다. 이러한 방식으로, 골-전도 오디오 신호의 음성과 공기-전도 오디오 신호의 음성은 모두 동일한 사람(즉, 사용자)으로부터 발생된다고 가정될 수 있다.

추가적으로 또는 대안적으로, 인에이블먼트 모듈(306)은 골-전도 오디오 신호를 공기-전도 오디오 신호와 상호-상관시킬 수 있다. 골-전도 오디오 신호가 음성을 포함한다고 결정되면, 인에이블먼트 모듈(306)은 골-전도 오디오 신호(특히, 음성을 포함하는 골-전도 오디오 신호의 해당 부분)를 공기-전도 오디오 신호(특히, 음성을 포함하는 골-전도 오디오 신호의 부분과 동시에 발생하는 공기-전도 오디오 신호의 해당 부분)와 상호-상관시켜, 두 신호 사이의 상관 레벨을 결정할 수 있다. 임의의 적절한 상관 알고리즘이 사용될 수 있다. 두 신호가 상관된다는 결정에 응답하여(예를 들어, 상관이 임계값을 초과함), 인에이블먼트 모듈(306)은 저장된 음성 모델에 대한 업데이트들을 가능하게 하는 제어 신호를 바이오메트릭 모듈(316)에 출력할 수 있다.

저장된 음성 모델에 대한 업데이트들을 가능하게 하는 결정은 개인용 오디오 디바이스(202)의 사용자를 허가된 사용자로서 인증하는 것에 추가로 기초할 수 있다. 따라서, 예시된 실시예에서, 시스템(300)은 인에이블먼트 모듈(306)에 커플링되는 인증 모듈(320)을 추가로 포함한다.

일 실시예에서, 인증 모듈(320)은 바이오메트릭 모듈(316)을 포함하거나, 또는 이와 동일하다. 따라서, 시스템(300)은 공기-전도 오디오 신호에 기초하여 사용자를 인증하는 데 활용될 수 있다. 바이오메트릭 모듈(316)은 공기-전도 오디오 신호에 대해 바이오메트릭 인증 알고리즘을 수행하고, 공기-전도 오디오 신호로부터 추출된 하나 이상의 피처를 허가된 사용자에 대해 저장된 성문과 비교한다. 해당 비교에 기초하여, 시스템(300)의 사용자가 허가된 사용자인지 여부에 대한 결정을 나타내는 출력이 생성된다. 이 출력은 일반적으로 시스템(300) 또는 개인용 오디오 디바이스에 의해 하나 이상의 제한된 액션을 허용하는 데 사용될 수 있다. 예시된 실시예에서, 출력은 추가적으로 또는 대안적으로 인에이블먼트 모듈(306)에 전달되며, 이는 응답으로 저장된 성문에 대한 업데이트들을 가능하게 할 수 있다.

추가적으로 또는 대안적으로, 인증 모듈(320)은 하나 이상의 대안적인 인증 메커니즘을 포함할 수 있다. 예를 들어, 인증 모듈(320)은 귀 바이오메트릭들, 지문들, 홍채 또는 망막 스캐닝과 같은 하나 이상의 대안적인 바이오메트릭에 기초하여 인증을 구현할 수 있다. 예를 들어, 인증 모듈(320)은 사용자에 의해 입력되고 허가된 사용자와 연관된 패스프레이즈(passphrase), 패스워드 또는 핀 번호에 기초하여 사용자를 수락하고 허가하기 위한 입력-출력 메커니즘을 구현할 수 있다. 입력-출력 메커니즘은 패스프레이즈, 패스워드 또는 핀 번호에 기초하여 사용자에게 질문을 제시할 수 있고, 이에 대한 대답은 전체 패스프레이즈, 패스워드 또는 핀 번호를 드러내지 않는다. 예를 들어, 질문은 패스프레이즈, 패스워드 또는 핀 번호의 특정 문자 또는 숫자와 관련될 수 있다(예를 들어, "패스워드의 세 번째 문자는 무엇입니까?"). 질문은 핀 번호 또는 그 일부에 대한 수학적 연산의 수행을 필요로 할 수 있다(예를 들어, "핀 번호의 첫 번째 숫자에 3을 더한 값은 무엇입니까?"). 입력-출력 메커니즘은 사용자만 질문을 들을 수 있도록 (예를 들어, 라우드스피커를 통한 재생을 통해) 청각적으로 질문을 출력할 수 있다. 또한, 입력-출력 메커니즘은 (예를 들어, 마이크로폰(310)을 통해) 청각적으로 또는 터치 스크린, 키패드, 키보드 등과 같은 일부 다른 입력 메커니즘을 통해 대답의 입력을 제공할 수 있다.

본 개시내용의 실시예들에 따르면, 시스템(300)은 허가된 사용자로서의 사용자의 성공적인 인증 후에 해당 허가된 사용자에 대해 저장된 성문을 업데이트하도록 동작 가능하다.

따라서, 사용자는 바이오메트릭 모듈(316)(즉, 음성 모델 데이터의 취득을 통함) 및 사용자에 대해 저장된 성문(318)에 등록된다. 사용자는 나중에 시스템(300)을 통해 인증을 추구할 수 있으며, 따라서, 위에서 설명된 바와 같이, 해당 목적을 위해 추가 음성 바이오메트릭 데이터가 취득된다. 인증이 성공적인 경우, 바이오메트릭 모듈(316)은 긍정적인 인증 메시지를 인에이블먼트 모듈(306)에 리턴할 수 있어, 취득된 음성 데이터에 기초하여 사용자에 대해 저장된 성문(318)에 대한 업데이트를 가능하게 할 수 있다.

인증이 성공적이지 않은 경우, 바이오메트릭 모듈(316)은 부정적인 인증 메시지를 리턴할 수 있다. 그러나, 시스템(300)은 하나 이상의 추가 인증 메커니즘(320)을 포함한다. 사용자가 후속하여 이들 메커니즘들 중 하나 이상을 통해 성공적으로 인증되는 경우, 인에이블먼트 모듈(306)은 성공적이지 않은 음성 바이오메트릭 인증 시도의 일부로서 취득된 데이터를 갖고 사용자에 대해 저장된 음성 모델(318)을 업데이트하기 위해 바이오메트릭 모듈(316)에 제어 신호를 발행할 수 있다.

추가적으로 또는 대안적으로, 사용자에 대해 저장된 음성 모델(318)의 업데이트는 (즉, 성공한 또는 실패한 인증 시도의 일부로서라기보다는) 단지 해당 목적을 위해 취득되는 음성 모델 데이터에 기초할 수 있다. 성공적으로 인증되면, 시스템(300)은 사용자의 지식이 있거나 또는 없는 상태에서 마이크로폰(310)을 활용하여 추가 음성 모델 데이터를 취득할 수 있다. 그러한 데이터의 취득은 정의된 스케줄에서 또는 하나 이상의 정의된 이벤트의 검출에 따라 주기적, 연속적일 수 있다.

저장된 음성 모델(318)은 음성 신호를 포함하는 골-전도 오디오 신호의 데이터와 시간적으로 중첩되거나 또는 이와 동시에 발생하는 공기-전도 오디오 신호 내의 데이터에 기초하여 바이오메트릭 모듈(316)에 의해 업데이트될 수 있다. 예를 들어, 일부 실시예들에서, 골-전도 오디오 신호에서 검출된 스피치는 저장된 음성 모델에 대한 업데이트에 사용될 공기-전도 오디오 신호의 일부들을 게이팅(gate)하는 데 사용될 수 있다. 이 목적을 위해 각각의 오디오 신호의 데이터에 타임 스탬프들이 적용될 수 있다. 따라서, 스피치를 포함하는 것으로 검출되는 골-전도 오디오 신호의 데이터 프레임들의 타임 스탬프들은 저장된 음성 모델을 업데이트하는 데 사용될 공기-전도 오디오 신호의 데이터 프레임들을 식별하는 데 사용될 수 있다.

도 4는 본 개시내용의 실시예들에 따른 방법의 흐름도이다.

단계(400)에서, 바이오메트릭 시스템은, 예를 들어, 마이크로폰들(24, 34, 44, 54, 64 또는 302) 중 임의의 것을 사용하여 골-전도 오디오 신호를 획득한다. 단계(402)에서, 바이오메트릭 시스템은, 예를 들어, 마이크로폰들(66, 110 또는 310) 중 임의의 것을 사용하여 공기-전도 오디오 신호를 획득한다. 별도의 단계들로 설명되었지만, 본 기술분야의 통상의 기술자는 이러한 단계들이 동시에 발생하고, 골-전도 오디오 신호 및 공기-전도 오디오 신호가 동시에 오디오 환경과 관련된다는 것을 이해할 것이다.

단계(404)에서, 바이오메트릭 시스템은 골-전도 오디오 신호가 임의의 음성 활동을 포함하는지를 결정한다. 다양한 음성 활동 검출 방법들이 본 기술분야에 알려져 있으며, 본 개시내용은 그 점에 제한되지 않는다. 예를 들어, 음성 활동 검출은 상대적으로 복잡할 수 있으며, 골-전도 신호의 하나 이상의 파라미터(예를 들어, 스펙트럼 기울기, 상관 계수들, 로그 우도 비율, 켑스트럴, 가중 켑스트럴 및/또는 수정된 거리 측정값들)가 결정되고, 스피치의 특징인 대응하는 파라미터들과 비교될 수 있다. 하나의 더 간단한 실시예에서, 사용자가 말할 때에는, 개인용 오디오 디바이스(202)의 사용자의 음성이 골-전도 신호에서 지배적이라고 가정될 수 있다(즉, 사용자의 음성이 다른 노이즈 소스들보다 지배적일 것이다). 이 경우에, 음성 활동 검출은 골-전도 오디오 신호의 진폭과 임계값의 단순 비교를 포함할 수 있고, 진폭이 임계값보다 클 때, 골-전도 오디오 신호가 사용자의 음성을 포함한다고 가정될 수 있다.

골-전도 오디오 신호에 음성 활동이 없는 경우, 아무도 말하지 않고 있는 것으로 가정될 수 있으며, 방법은 단계(406)에서 종료된다. 음성 활동이 있는 경우, 방법은 단계(408)로 진행하며, 여기서 바이오메트릭 시스템은 공기-전도 오디오 신호가 임의의 음성 활동을 포함하는지를 결정한다. 다시 말하자면, 임의의 적절한 음성 활동 검출 방법이 사용될 수 있다.

공기-전도 오디오 신호에 음성 활동이 없는 경우, 음성 마이크로폰이 제대로 동작하고 있지 않거나 또는 음성이 검출될 수 없는 노이즈 환경에 있다고 가정될 수 있으며, 방법은 단계(406)에서 종료된다. 공기-전도 오디오 신호에 음성 활동이 있는 경우, 방법은 단계(410)로 진행하며, 여기서 바이오메트릭 시스템은 공기-전도 오디오 신호와 골-전도 오디오 신호가 서로 상관되는지를 결정한다.

예를 들어, 두 신호 사이의 상관 레벨을 나타내는 상관값이 임계값과 비교될 수 있고, 상관값이 임계값을 초과하는 경우, 신호들은 상관되는 것으로 결정될 수 있고, 상관값이 임계값 미만인 경우, 신호들은 상관되지 않은 것으로 결정될 수 있다. 임의의 적절한 상호-상관 방법이 사용될 수 있으며, 본 개시내용은 그 점에 제한되지 않는다.

두 오디오 신호가 상관되지 않는 경우, 음성 마이크로폰이 상당한 레벨들의 노이즈(예를 들어, 다른 화자들의 존재)를 검출했다고 가정될 수 있다. 이 경우, 저장된 음성 템플릿이 공기-전도 음성 신호에 기초하여 업데이트되는 것은 부적절할 수 있으므로, 방법은 단계(406)로 진행하여 종료된다. 오디오 신호들이 상관되는 경우, 방법은 단계(412)로 진행하며, 여기서 바이오메트릭 시스템은 사용자가 허가된 사용자로서 인증되는지 여부를 결정한다.

사용자는 임의의 적절한 메커니즘을 통해 허가된 사용자로서 인증될 수 있다. 예를 들어, 사용자는 단계(402)에서 획득된 공기-전도 오디오 신호에 대해 수행된 음성 바이오메트릭 알고리즘에 기초하여 인증될 수 있다. 대안적으로, 인증은 귀 바이오메트릭들, 지문들, 홍채 또는 망막 스캐닝과 같은 하나 이상의 대안적인 바이오메트릭, 또는 패스프레이즈, 패스워드 또는 핀 번호의 입력과 같은 비-바이오메트릭 인증에 기초할 수 있다.

사용자가 허가된 사용자로서 인증되지 않는 경우, 허가된 사용자에 대해 저장된 음성 템플릿이 상이한 사람의 음성에 기초하여 업데이트되지 않아야 하기 때문에, 방법은 단계(406)에서 종료된다. 사용자가 허가된 사용자로서 인증되는 경우, 방법은 단계(414)로 진행하며, 여기서 사용자에 대한 음성 모델은 단계(402)에서 획득된 공기-전도 오디오 신호에 기초하여 업데이트된다.

음성 모델은 스피치를 포함하는 포함하는 골-전도 오디오 신호의 부분들에 대응하는 대응하는 공기-전도 오디오 신호의 해당 부분들에 기초하여 업데이트될 수 있다. 예를 들어, 스피치를 포함하는 골-전도 오디오 신호의 해당 부분들은 공기-전도 오디오 신호를 게이팅하는 데 사용될 수 있으므로, 사용자의 스피치를 공기-전도 오디오 신호에 존재하는 다른 노이즈 또는 스피치 소스들로부터 분리할 수 있다.

예를 들어, 저장된 음성 모델의 파라미터들은 다음과 같이 업데이트될 수 있다.

여기서, α는 0 내지 1의 계수이고,

는 새로이(즉, 업데이트된) 저장된 음성 모델 파라미터이고,

는 예전에(즉, 이전에) 저장된 음성 모델 파라미터이고,

는 새로이 취득된 음성 모델 데이터 파라미터이다. 따라서, 새로운 음성 모델은 이전 음성 모델과 새로이 취득된 음성 모델 데이터의 조합에 기초한다. 물론, 대안적인 표현들이 동일한 효과를 더 많이 달성하는 데 사용될 수 있다. 계수 α의 값은 저장된 음성 모델의 원하는 변화율을 달성하기 위해 필요에 따라 설정될 수 있다. 예를 들어, 시스템을 고장내기 어렵게 만들기 위해 음성 모델이 상대적으로 느리게 변경되는 것이 바람직할 수 있다. 따라서, α는 1에 가까운 값(예를 들어, 0.95 이상)으로 설정될 수 있다.

따라서, 본 개시내용의 실시예들은 사용자를 인증하기 위한 방법들, 장치들 및 시스템들을 제공한다.

실시예들은 스마트폰, 오디오 플레이어, 모바일 또는 셀룰러폰, 핸드셋과 같은 전자, 휴대용 및/또는 배터리 전원 구동 호스트 디바이스에서 구현될 수 있다. 실시예들은 이러한 호스트 디바이스 내에 제공된 하나 이상의 집적 회로 상에서 구현될 수 있다. 대안적으로, 실시예들은 스마트폰, 모바일 또는 셀룰러폰, 헤드폰들, 이어폰들 등과 같이 한 사람에게 오디오 재생을 제공하도록 구성 가능한 개인용 오디오 디바이스에서 구현될 수 있다. 도 1a 내지 도 1f를 참조하도록 한다. 다시, 이러한 개인용 오디오 디바이스 내에 제공된 하나 이상의 집적 회로 상에서 실시예들이 구현될 수 있다. 또 다른 대안들에서, 실시예들은 호스트 디바이스와 개인용 오디오 디바이스의 조합으로 구현될 수 있다. 예를 들어, 실시예들은 개인용 오디오 디바이스 내에 제공된 하나 이상의 집적 회로, 및 호스트 디바이스 내에 제공된 하나 이상의 집적 회로에서 구현될 수 있다.

특히, 본 개시내용의 이점을 갖는 본 기술분야의 통상의 기술자에 의해, 특히 도면들과 관련하여 본 명세서에 설명된 다양한 동작들이 다른 회로망 또는 다른 하드웨어 컴포넌트들에 의해 구현될 수 있다는 것이 이해되어야 한다. 주어진 방법의 각각의 동작이 수행되는 순서는 변경될 수 있으며, 본 명세서에 예시된 시스템들의 다양한 엘리먼트들이 추가, 재정렬, 결합, 생략, 수정 등이 될 수 있다. 본 개시내용은 모든 이러한 수정들 및 변경들을 포함하도록 의도되며, 따라서, 상기 설명은 제한적인 의미가 아니라 예시적인 의미로 간주되어야 한다.

유사하게, 본 개시내용은 특정 실시예들을 참조하지만, 본 개시내용의 범위 및 적용 범위를 벗어나지 않고, 이러한 실시예들에 대해 특정 수정들 및 변경들이 이루어질 수 있다. 더욱이, 특정 실시예들과 관련하여 본 명세서에서 설명되는 문제들에 대한 임의의 이점들, 장점들 또는 솔루션들은 중요하거나, 필요하거나, 필수적인 피처 또는 엘리먼트로서 해석되도록 의도되지 않는다.

본 개시내용의 이점을 갖는 추가 실시예들 및 구현들 또한 본 기술분야의 통상의 기술자에게 명백할 것이며, 그러한 실시예들은 본 명세서에 포함되는 것으로 간주되어야 한다. 또한, 본 기술분야의 통상의 기술자는 다양한 등가의 기술들이 논의된 실시예들을 대신하여 또는 이와 함께 적용될 수 있다는 것을 인식할 것이며, 모든 이러한 등가물들은 본 개시내용에 의해 포함되는 것으로 간주되어야 한다.

본 기술분야의 통상의 기술자는 위에서 설명된 장치들 및 방법들의 일부 양태들, 예를 들어, 발견 및 구성 방법들이, 예를 들어, 디스크, CD- 또는 DVD-ROM과 같은 비-휘발성 캐리어 매체, 판독 전용 메모리(펌웨어)와 같은 프로그래밍된 메모리, 또는 광학 또는 전기 신호 캐리어와 같은 데이터 캐리어 상에서 프로세서 제어 코드로서 구체화될 수 있다. 많은 애플리케이션들의 경우, 본 발명의 실시예들은 DSP(Digital Signal Processor), ASIC(Application Specific Integrated Circuit) 또는 FPGA(Field Programmable Gate Array) 상에서 구현될 것이다. 따라서, 코드는 종래의 프로그램 코드 또는 마이크로 코드 또는, 예를 들어, ASIC 또는 FPGA를 설정하거나 제어하기 위한 코드를 포함할 수 있다. 코드는 또한 재-프로그래밍 가능한 로직 게이트 어레이들과 같은 재-구성 가능한 장치를 동적으로 구성하기 위한 코드를 포함할 수 있다. 유사하게, 코드는 Verilog™ 또는 VHDL(Very high speed integrated circuit Hardware Description Language)과 같은 하드웨어 설명 언어에 대한 코드를 포함할 수 있다. 본 기술분야의 통상의 기술자가 이해하는 바와 같이, 코드는 서로 통신하는 복수의 커플링된 컴포넌트들 사이에 분산될 수 있다. 적절한 경우, 실시예들은 아날로그 하드웨어를 구성하기 위해 필드-(재)프로그래밍 가능한 아날로그 어레이 또는 유사한 디바이스 상에서 실행되는 코드를 사용하여 구현될 수도 있다.

본 명세서에서 사용되는 바와 같이, 모듈이라는 용어는 맞춤형 정의된 회로망과 같은 전용 하드웨어 컴포넌트에 의해 적어도 부분적으로 구현될 수 있고/있거나, 하나 이상의 소프트웨어 프로세서에 의해 적어도 부분적으로 구현될 수 있는 기능 유닛 또는 블록, 또는 적절한 범용 프로세서 등 상에서 실행되는 적절한 코드를 지칭하는 데 사용된다는 것에 유의하도록 한다. 모듈 자체는 다른 모듈들 또는 기능 유닛들을 포함할 수 있다. 모듈은 같은 위치에 배치될 필요가 없고 상이한 집적 회로들 상에 제공되고/되거나 상이한 프로세서들 상에서 실행될 수 있는 다수의 컴포넌트들 또는 하위-모듈들에 의해 제공될 수 있다.

상기 언급된 실시예들은 본 발명을 제한하기보다는 예시하는 것이며, 본 기술분야의 통상의 기술자는 첨부된 청구 범위 또는 실시예들의 범위를 벗어나지 않고 많은 대안적인 실시예들을 설계할 수 있을 것이라는 점에 유의해야 한다. "포함하는(comprising)"이라는 단어는 청구항 또는 실시예에 나열된 것들 이외의 엘리먼트들 또는 단계들의 존재를 배제하지 않으며, "a" 또는 "an"은 복수를 배제하지 않고, 단일 피처 또는 다른 유닛은 청구 범위 또는 실시예들에 인용된 다수의 유닛들의 기능들을 수행할 수 있다. 청구 범위 또는 실시예들에서의 임의의 참조 번호들 또는 라벨들은 그들의 범위를 제한하도록 해석되어서는 안된다.

본 개시내용 및 특정한 대표적인 장점들이 상세하게 설명되었지만, 첨부된 청구 범위 또는 실시예들에 의해 정의된 본 개시내용의 사상 및 범위를 벗어나지 않고, 다양한 변경들, 치환들 및 대체들이 본 명세서에서 이루어질 수 있다는 것이 이해되어야 한다. 더욱이, 본 개시내용의 범위는, 본 명세서의 대응하는 실시예들이 활용될 수 있을 때, 실질적으로 동일한 기능을 수행하거나 실질적으로 동일한 결과를 달성하는 현재 존재하거나 이후에 개발될 프로세스, 머신, 제조, 재료의 조성, 수단, 방법들 또는 단계들의 특정 실시예들에 제한되는 것으로 의도되지 않는다. 따라서, 첨부된 청구 범위 또는 실시예들은 이러한 프로세스들, 머신들, 제조, 재료의 조성들, 수단들, 방법들 또는 단계들을 그들의 범위 내에 포함하도록 의도된다.

Claims

바이오메트릭 인증 시스템(biometric authentication system)에서의 방법으로서 - 상기 바이오메트릭 인증 시스템은 오디오 신호들과 허가된 사용자에 대해 저장된 음성 모델의 비교에 기초하여 사용자를 인증하고, 상기 저장된 음성 모델은 상기 허가된 사용자의 화자 인식(speaker recognition)을 위해 사용됨 -,
골-전도 신호(bone-conducted signal)의 표현을 포함하는 제1 오디오 신호를 획득하는 단계 - 상기 골-전도 신호는 사용자의 골격의 적어도 일부를 통해 전도됨 -;
공기-전도 신호(air-conducted signal)의 표현을 포함하는 제2 오디오 신호를 획득하는 단계;
상기 제1 오디오 신호가 음성 신호를 포함한다는 결정에 응답하여, 상기 제2 오디오 신호에 기초하여 상기 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 하는 단계; 및
상기 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 하는 단계에 추가하여, 상기 허가된 사용자로서의 상기 사용자의 인증에 응답하여, 상기 제2 오디오 신호를 사용하여 상기 허가된 사용자에 대해 저장된 음성 모델을 업데이트하는 단계를 포함하는, 방법.
삭제
제1항에 있어서, 상기 사용자는 바이오메트릭 프로세스에 기초하여 상기 허가된 사용자로서 인증되는, 방법.
제3항에 있어서, 상기 바이오메트릭 프로세스는 상기 제2 오디오 신호에 기초한 음성 바이오메트릭 프로세스를 포함하는, 방법.
제1항에 있어서, 상기 사용자는 비-바이오메트릭 프로세스에 기초하여 상기 허가된 사용자로서 인증되는, 방법.
제5항에 있어서, 상기 비-바이오메트릭 프로세스는 상기 허가된 사용자에 대한 패스워드의 입력을 포함하는, 방법.
제1항, 제3항 내지 제6항 중 어느 한 항에 있어서, 상기 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 하는 단계는 상기 제2 오디오 신호가 음성 신호를 포함한다는 결정에 추가로 응답하는, 방법.
제1항, 제3항 내지 제6항 중 어느 한 항에 있어서, 상기 제2 오디오 신호에 기초하여 상기 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 하는 단계는 상기 제1 및 제2 오디오 신호들 사이의 비교에 추가로 기초하는, 방법.
제8항에 있어서, 상기 제2 오디오 신호에 기초하여 상기 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 하는 단계는 상기 제1 및 제2 오디오 신호들 사이의 상관의 검출에 응답하는, 방법.
제9항에 있어서, 상기 제2 오디오 신호에 기초하여 상기 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 하는 단계는 상기 음성 신호를 포함하는 것으로 식별된 상기 제1 오디오 신호의 부분과 상기 제2 오디오 신호의 대응하는 부분 사이의 상관의 검출에 응답하는, 방법.
제1항, 제3항 내지 제6항 중 어느 한 항에 있어서, 상기 제1 오디오 신호는 인-이어 트랜스듀서(in-ear transducer)에 의해 생성되는, 방법.
제1항, 제3항 내지 제6항 중 어느 한 항에 있어서, 상기 제2 오디오 신호는 상기 사용자의 귀들 외부에 있는 마이크로폰에 의해 생성되는, 방법.
오디오 신호들과 허가된 사용자에 대해 저장된 음성 모델의 비교에 기초하여 사용자를 인증하기 위한 바이오메트릭 인증 시스템으로서 - 상기 저장된 음성 모델은 상기 허가된 사용자의 화자 인식을 위해 사용됨 -,
제1 오디오 신호를 획득하기 위한 제1 입력 - 상기 제1 오디오 신호는 골-전도 신호의 표현을 포함하고, 상기 골-전도 신호는 사용자의 골격의 적어도 일부를 통해 전도됨 -;
제2 오디오 신호를 획득하기 위한 제2 입력 - 상기 제2 오디오 신호는 공기-전도 신호의 표현을 포함함 -;
상기 제1 오디오 신호가 음성 신호를 포함하는지를 결정하고, 상기 제1 오디오 신호가 음성 신호를 포함한다는 결정에 응답하여, 상기 제2 오디오 신호에 기초하여 상기 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 하도록 동작 가능한 인에이블먼트 모듈; 및
상기 허가된 사용자로서의 상기 사용자의 인증에 응답하여, 상기 제2 오디오 신호를 사용하여 상기 허가된 사용자에 대해 저장된 음성 모델을 업데이트하도록 동작 가능한 바이오메트릭 모듈
을 포함하는, 바이오메트릭 인증 시스템.
삭제
제13항에 있어서, 바이오메트릭 프로세스에 기초하여 상기 사용자를 상기 허가된 사용자로서 인증하도록 동작 가능한 인증 모듈을 추가로 포함하는, 바이오메트릭 인증 시스템.
제15항에 있어서, 상기 바이오메트릭 프로세스는 상기 제2 오디오 신호에 기초한 음성 바이오메트릭 프로세스를 포함하는, 바이오메트릭 인증 시스템.
제13항에 있어서, 비-바이오메트릭 프로세스에 기초하여 상기 사용자를 상기 허가된 사용자로서 인증하도록 동작 가능한 인증 모듈을 추가로 포함하는, 바이오메트릭 인증 시스템.
제17항에 있어서, 상기 비-바이오메트릭 프로세스는 상기 허가된 사용자에 대한 패스워드의 입력을 포함하는, 바이오메트릭 인증 시스템.
제13항, 제15항 내지 제18항 중 어느 한 항에 있어서, 상기 인에이블먼트 모듈은, 상기 공기-전도 신호가 음성 신호를 포함한다는 결정에 응답하여, 상기 제2 오디오 신호에 기초하여 상기 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 하도록 추가로 동작 가능한, 바이오메트릭 인증 시스템.
제13항, 제15항 내지 제18항 중 어느 한 항에 있어서, 상기 인에이블먼트 모듈은, 상기 제1 및 제2 오디오 신호들의 비교에 기초하여, 상기 제2 오디오 신호에 기초하여 상기 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 하도록 추가로 동작 가능한, 바이오메트릭 인증 시스템.
제20항에 있어서, 상기 인에이블먼트 모듈은, 상기 제1 및 제2 오디오 신호들 사이의 상관의 검출에 응답하여, 상기 제2 오디오 신호에 기초하여 상기 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 하도록 추가로 동작 가능한, 바이오메트릭 인증 시스템.
제13항, 제15항 내지 제18항 중 어느 한 항에 있어서, 상기 제1 입력은 사용자의 귀에 삽입하도록 적응되는 트랜스듀서에 연결 가능한, 바이오메트릭 인증 시스템.
제13항, 제15항 내지 제18항 중 어느 한 항에 있어서, 상기 제2 입력은 음성 마이크로폰에 연결 가능한, 바이오메트릭 인증 시스템.
제13항, 제15항 내지 제18항 중 어느 한 항에 있어서, 상기 바이오메트릭 인증 시스템은 단일 집적 회로 상에 제공되는, 바이오메트릭 인증 시스템.
오디오 신호들과 허가된 사용자에 대해 저장된 음성 모델의 비교에 기초하여 사용자를 인증하기 위한 전자 장치로서 - 상기 저장된 음성 모델은 상기 허가된 사용자의 화자 인식을 위해 사용됨 -,
상기 전자 장치는 프로세싱 회로망, 및 명령어들을 저장하는 비-일시적 머신 판독 가능 매체를 포함하고, 상기 명령어들은, 상기 프로세싱 회로망에 의해 실행될 때, 상기 전자 장치로 하여금,
골-전도 신호의 표현을 포함하는 제1 오디오 신호를 획득하게 하고 - 상기 골-전도 신호는 사용자의 골격의 적어도 일부를 통해 전도됨 -,
공기-전도 신호의 표현을 포함하는 제2 오디오 신호를 획득하게 하고,
상기 제1 오디오 신호가 음성 신호를 포함한다는 결정에 응답하여, 상기 제2 오디오 신호에 기초하여 상기 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 하고,
상기 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 하는 것에 추가하여, 상기 허가된 사용자로서의 상기 사용자의 인증에 응답하여, 상기 제2 오디오 신호를 사용하여 상기 허가된 사용자에 대해 저장된 음성 모델을 업데이트하게 하는, 전자 장치.
제25항에 있어서, 상기 전자 장치는 개인용 오디오 디바이스 또는 호스트 전자 디바이스를 포함하는, 전자 장치.
오디오 신호들과 허가된 사용자에 대해 저장된 음성 모델의 비교에 기초하여 사용자를 인증하기 위한 비-일시적 머신 판독 가능 매체로서 - 상기 저장된 음성 모델은 상기 허가된 사용자의 화자 인식을 위해 사용됨 -,
상기 매체는 명령어들을 저장하고, 상기 명령어들은, 프로세싱 회로망에 의해 실행될 때, 전자 장치로 하여금,
골-전도 신호의 표현을 포함하는 제1 오디오 신호를 획득하게 하고 - 상기 골-전도 신호는 사용자의 골격의 적어도 일부를 통해 전도됨 -,
공기-전도 신호의 표현을 포함하는 제2 오디오 신호를 획득하게 하고,
상기 제1 오디오 신호가 음성 신호를 포함한다는 결정에 응답하여, 상기 제2 오디오 신호에 기초하여 상기 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 하고,
상기 허가된 사용자에 대해 저장된 음성 모델에 대한 업데이트들을 가능하게 하는 것에 추가하여, 상기 허가된 사용자로서의 상기 사용자의 인증에 응답하여, 상기 제2 오디오 신호를 사용하여 상기 허가된 사용자에 대해 저장된 음성 모델을 업데이트하게 하는, 비-일시적 머신 판독 가능 매체.