KR102109874B1

KR102109874B1 - 화자 검증

Info

Publication number: KR102109874B1
Application number: KR1020187009479A
Authority: KR
Inventors: 익나시오 로페즈 모레노; 리 완; 콴 왕
Original assignee: 구글 엘엘씨
Priority date: 2016-07-15
Filing date: 2017-07-06
Publication date: 2020-05-12
Also published as: RU2697736C1; US20190385619A1; CN108140386A; KR20180050365A; JP6561219B1; WO2018013401A1; CN108140386B; EP3373294A1; US20210256981A1; US20180018973A1; JP2019530888A; EP3345181A1; US20180277124A1; EP3345181B1; US11017784B2; US11594230B2; EP3373294B1; US10403291B2

Abstract

언어-독립적 화자 검증을 용이하게 하기 위해, 컴퓨터 저장 매체 상에 인코딩된 컴퓨터 프로그램들을 포함하는 방법들, 시스템들, 장치들. 하나의 양태에서, 방법은 사용자의 발언을 표현하는 오디오 데이터를, 사용자 디바이스에 의해 수신하는 액션들을 포함한다. 다른 액션들은 사용자 디바이스에 저장된 신경 네트워크에 오디오 데이터 및 언어 식별자로부터 도출된 입력 데이터를 제공하는 것을 포함할 수 있다. 신경 네트워크는 상이한 언어들 또는 방언들의 스피치를 표현하는 스피치 데이터를 사용하여 트레이팅될 수 있다. 이 방법은 신경 네트워크의 출력에 기초하여, 화자 표현을 생성하고, 화자 표현 및 제2 표현에 기초하여 발언이 사용자의 발언임을 결정하는 추가 액션들을 포함할 수 있다. 상기 방법은 상기 발언이 사용자의 발언임을 결정하는 것에 기초하여 사용자 장치에 대한 액세스를 사용자에게 제공할 수 있다.

Description

화자 검증

본 명세서는 일반적으로 화자 검증과 관련이 있다.

음성 인증(voice authentication)은 사용자 디바이스의 사용자가 사용자 디바이스에 대한 액세스를 얻기 위한 쉬운 방법을 제공한다. 음성 인증은 사용자가 암호를 기억하거나 입력하지 않고도 사용자의 디바이스를 잠금 해제하고, 액세스할 수 있게 한다. 그러나, 다수의 상이한 언어들, 방언들, 억양들, 그리고 그와 같은 것의 존재는 음성 인증 분야에서 일정 과제들을 제시한다.

하나의 구현예에서, 화자 검증 모델은 화자의 언어, 방언 또는 억양에 관계없이 화자 검증을 용이하게 함으로써 종래의 시스템들을 개선한다. 화자 검증 모델은 신경 네트워크에 기초할 수 있다. 신경 네트워크는 발언 및 언어 식별자를 포함하는 입력들을 사용하여 트레이닝될 수 있다. 트레이닝을 받으면, 신경 네트워크의 숨겨진 레이어(hidden layer)에 의한 활성화들 출력이 성문(voiceprint)으로 사용될 수 있으며, 사용자의 디바이스 상에서 레퍼런스 표현과 비교될 수 있다. 상기 성문 및 레퍼런스 표현이 미리 결정된 유사성 임계치를 만족하면 화자가 인증될 수 있다.

하나의 구현예에서, 본 명세서의 발명은 언어-독립적 화자 검증을 용이하게 하기 위한 방법으로 구현될 수 있다. 상기 방법은 액션들을 포함할 수 있는데, 상기 액션들은: 사용자 디바이스에 의해, 사용자의 발언을 표현하는 오디오 데이터를 수신하는 것; 사용자 디바이스와 연관된 언어 식별자를 결정하는 것; 상기 오디오 데이터 및 상기 결정된 언어 식별자로부터 도출된 입력 데이터의 세트를, 상기 사용자 디바이스에 저장된 신경 네트워크에 제공하는 것, 상기 신경 네트워크는 상이한 언어들 또는 상이한 방언들의 스피치(speech)를 표현하는 스피치 데이터를 사용하여 트레이닝된 파라미터들을 가지며; 입력 데이터의 상기 세트를 수신하는 것에 응답하여 생산된 상기 신경 네트워크의 출력에 기초하여, 상기 사용자의 상기 음성의 특성들을 표시하는 화자 표현을 생성하는 것; 상기 화자 표현 및 제2 표현에 기초하여, 상기 발언이 상기 사용자의 발언임을 결정하는 것; 및 상기 발언이 상기 사용자의 발언임을 결정하는 것에 기초하여, 상기 사용자 디바이스에 상기 사용자 액세스를 제공하는 것이다.

다른 버전들은 컴퓨터 저장 디바이스들에 암호화 되어있는 방법들의 액션들을 수행하기 위해, 대응하는 시스템들, 장치, 및 컴퓨터 프로그램들을 포함한다.

이들 및 다른 버전들은 선택적으로 하나 이상의 다음 피쳐(feature)들을 포함할 수 있다. 예를 들어, 일부 구현예들에서, 오디오 데이터 및 결정된 언어 식별자로부터 도출된 입력 데이터의 세트는 오디오 데이터로부터 도출된 제1 벡터 및 결정된 언어 식별자로부터 도출된 제2 벡터를 포함한다.

일부 구현예들에서, 상기 방법은 상기 제1 벡터 및 상기 제2 벡터를 단일 연결 벡터로 연결함으로써 입력 벡터를 생성하는 것, 상기 생성된 입력 벡터를 신경 네트워크에 제공하는 것, 및 상기 입력 벡터를 수신하는 것에 응답하여 생산된 상기 신경 네트워크의 출력에 기초하여, 상기 사용자의 상기 음성의 특성들을 표시하는 화자 표현을 생성하는 것을 포함할 수 있다.

일부 구현예들에서, 상기 방법은 (i) 상기 제1 벡터, (ii) 상기 제2 벡터, 또는 (iii) 상기 제1 벡터 및 상기 제2 벡터 둘 모두에 기초하여 출력들을 각각 생성하는 적어도 두 개의 다른 신경 네트워크들의 상기 출력들을 연결함으로써 입력 벡터를 생성하는 것, 상기 생성된 입력 벡터를 상기 신경 네트워크에 제공하는 것; 및 상기 입력 벡터를 수신하는 것에 응답하여 생산된 상기 신경 네트워크의 출력에 기초하여, 상기 사용자의 상기 음성의 특성들을 표시하는 화자 표현을 생성하는 것을 포함할 수 있다.

일부 구현예들에서, 상기 방법은 상기 제1 벡터와 상기 제2 벡터의 상기 가중 합에 기초하여 입력 벡터를 생성하는 것; 상기 생성된 입력 벡터를 상기 신경 네트워크에 제공하는 것; 및 상기 입력 벡터를 수신하는 것에 응답하여 생산된 상기 신경 네트워크의 출력에 기초하여, 상기 사용자의 상기 음성의 특성들을 표시하는 화자 표현을 생성하는 것을 포함할 수 있다.

일부 구현예들에서, 입력 데이터의 상기 세트를 수신하는 것에 응답하여 생산된 상기 신경 네트워크의 상기 출력은 상기 신경 네트워크의 숨겨진 레이어에 의해 생성된 활성화들의 세트를 포함한다.

일부 구현예들에서, 상기 화자 표현 및 제2 표현에 기초하여, 상기 발언이 상기 사용자의 발언임을 결정하는 것은 상기 제1 표현과 상기 제2 표현 사이의 거리를 결정하는 것을 포함할 수 있다.

일부 구현예들에서, 상기 발언이 상기 사용자의 발언임을 결정하는 것에 기초하여 상기 사용자 디바이스에 상기 사용자 액세스를 제공하는 것은 상기 사용자 디바이스를 잠금 해제하는 것을 포함한다.

본 명세서에 기술된 발명의 다른 구현예들은 언어-독립적 화자 검증을 위한 방법을 포함하며, 상기 방법은 수신된 오디오 데이터가 다수의 언어-특정적 핫워드들 중 하나의 발언을 포함할 가능성이 있는지 여부를 결정하도록 구성된 언어-독립적 화자 검증 모델을 구현하는 모바일 디바이스에 의해, (i) 사용자의 특정한 발언에 대응하는 특정한 오디오 데이터, 및 (ii) 상기 사용자에 의해 발화된 특정한 언어를 표시하는 데이터를 수신하는 것, 및 (i) 사용자의 특정한 발언에 대응하는 특정한 오디오 데이터, 및 (ii) 상기 사용자에 의해 발화된 특정한 언어를 표시하는 데이터를 수신하는 것에 응답하여, 출력을 위해, 언어-독립적 화자 검증 모델이 상기 특정한 오디오 데이터가 상기 사용자에 의해 발화된 상기 특정한 언어에 대해 지정된 핫워드의 발언을 포함할 가능성이 있다고 결정했다는 표시를 제공하는 것을 포함한다.

이들 및 다른 버전들은 선택적으로 하나 이상의 다음 피쳐들을 포함할 수 있다. 예를 들어, 하나의 구현예에서, 출력을 위해, 상기 표시를 제공하는 것은 상기 모바일 디바이스의 리소스에 대한 액세스를 제공하는 것을 포함할 수 있다. 대안적으로 또는 추가로, 출력을 위해, 상기 표시를 제공하는 것은 상기 모바일 디바이스를 잠금 해제하는 것을 포함할 수 있다. 대안적으로 또는 추가로, 출력을 위해, 상기 표시를 제공하는 것은 상기 모바일 디바이스를 저전력 상태로부터 깨우는 것을 포함할 수 있다. 대안적으로 또는 추가로, 출력을 위해, 상기 표시를 제공하는 것은 언어-독립적 화자 검증 모델이 상기 특정한 오디오 데이터가 상기 모바일 디바이스와 연관된 특정한 사용자의 상기 발언을 포함하는 것으로 결정했다는 표시를 제공하는 것을 포함한다.

일부 구현예들에서, 상기 언어-독립적 화자 검증 모델은 상기 사용자의 발언들을 사용하지 않고 트레이닝된 신경 네트워크를 포함할 수 있다.

본 명세서의 발명은 종래의 방법들에 비해 다수의 이점들을 제공한다. 예를 들어, 본 출원의 발명은 쉽게 배포될 수 있는 화자 검증 모델을 제공한다. 화자 검증 모델은 언어, 방언 및 억양 독립적이므로 동일한 화자 검증 모델이 사용자 디바이스들에 넓게 배포될 수 있다. 이것은 디바이스 사용자의 언어에 기초하여 상이한 디바이스들에 상이한 화자 검증 모델들을 제공하는 것보다 훨씬 효율적이다. 대안적으로, 동일한 디바이스에 사용자가 하나를 선택할 수 있는 다수의 화자 검증 모델을 배치할 필요가 없다.

본 출원에 의해 제공되는 화자 검증 모델은 화자 언어, 방언 또는 억양에 독립적인 화자 검증을 수행하기 위하여 동일한 모델을 사용할 때 개선된 정확도를 나타낸다. 예를 들어, 언어, 방언 또는 억양의 변화들은 특정한 사용자가 다른 사용자들보다 상이한 방식으로 미리 결정된 핫워드를 발음 하게할 수 있다. 상기 발음 차이는 종래 시스템들 내의 정확성 문제를 일으킬 수 있다. 본 개시의 화자 검증 모델은 종래 시스템들의 이러한 약점을 개선한다.

본 출원에 의해 제공된 화자 검증 모델은 또한 업데이트의 용이성을 제공한다. 예를 들어, 새롭게 트레이닝된 모델은 사용자 디바이스의 운영 시스템에 대한 일상적인 소프트웨어 업데이트의 일부로서 쉽게 배치될 수 있다. 이렇게 업데이트된 화자 검증 모델들은 새로운 언어들, 방언들, 및/또는 억양이 발생할 때, 이들을 설명하기 위해 쉽게 트레이닝될 수 있다. 대안적으로, 알려진 언어들, 방언들, 및/또는 억양들에 기초하여 화자 검증 모델의 기존 버전에 대한 업데이트들이 제작될 수 있다. 이렇게 업데이트된 화자 검증 모델은 특정 지리적 지역 내의 특정 디바이스들에게 특정한 화자 검증 모델들을 제공할 필요 없이, 보편적으로 배치될 수 있다.

본 명세서에 기술된 발명의 하나 이상의 실시예들의 세부 사항들은 첨부된 도면 및 아래의 설명에서 기술되어 있다. 발명의 다른 피쳐들, 양태들, 및 장점들은 설명, 도면 및 청구항들로부터 명백해질 것이다.

도 1은 화자 검증을 수행하기 위해 언어-독립적 화자 검증 모델을 사용하기 위한 시스템의 예시적인 문맥 다이어그램(contextual diagram)을 도시한다.
도 2는 언어-독립적 화자 검증 모델을 트레이닝 시키기 위한 시스템의 예시이다.
도 3은 복수의 개별 언어 식별 벡터의 개념적 표현 예시이다.
도 4는 언어-독립적 화자 검증을 수행하는 시스템의 예시이다.
도 5는 언어-독립적 화자 검증을 수행하기 위한 프로세스의 흐름도이다.

일부 구현예들에서, 시스템은 신경 네트워크에 기초한 모델일 수 있는, 언어-독립적 화자 검증 모델을 사용자 디바이스에 제공한다. 언어-독립적 화자 검증 모델은, 사용자 디바이스 상에 설치되기 전에, (i) 다수의 상이한 사용자들로부터의 발언들 및 (ii) 각각의 발언들에 대응하는 언어들 또는 위치들을 표시하는 벡터들을 포함하는 트레이닝 데이터에 기초하여 트레이닝된다. 일단 사용자 디바이스 상에 설치되면, 언어-독립적 화자 검증 모델은 언어-독립적 화자 검증 모델의 후속적인 트레이닝 없이 사용자 디바이스의 사용자의 신원을 검증하기 위해 사용될 수 있다. 사용자 디바이스는 사용자를 등록시키기 위해 사용자의 발언들을 획득하고 사용할 수 있는 반면에, 상기 모델 자체는 사용자 디바이스의 사용자의 임의의 발언들에 기초하여 트레이닝될 필요가 없다.

본 명세서에 사용된 것처럼, "언어-독립적" 화자 검증 모델은 상이한 언어들 또는 방언들을 발화하는 화자들의 신원들을 정확하게 검증하는데 사용될 수 있는 단일 모델을 지칭한다. 즉, 상기 모델은 특정 단일 언어로 되어있는 스피치에 의존하거나 국한되지 않는다. 결과적으로, 상이한 언어들, 방언들, 또는 억양들에 대해 다른 모델들을 사용하는 대신, 단일 언어-독립적 모델이 사용될 수 있다. 일부 구현예들에서, 텍스트-의존적 모델은, 예를 들어, 미리 결정된 핫워드 또는 주의 단어처럼, 특정 단어 또는 구문의 발언에 기초하여 화자를 식별하도록 트레이닝된다. 언어-독립적 모델은 단일 핫워드에 기초하거나, 상이한 언어들에 대한 상이한 핫워드들 또는 위치들에 기초하여 상이한 언어들의 화자들을 구별하도록 트레이닝될 수 있다. 동일한 핫워드가 상이한 언어들로 또는 위치들에서 사용될 때, 상이한 언어들, 방언들, 억양들 또는 위치들을 가진 사용자들은 핫워드를 상이하게 발음할 수 있다. 이러한 변화들은 이전 모델의 정확성을 떨어뜨렸으며, 이것은 화자-구별적 특성으로서 지역의 언어 또는 억양에 의한 가변성에 부적절하게 기인한 것이었다. 예를 들어, 이전 모델은 지역 억양의 일반적인 피쳐들을 특정한 화자 음성의 주된 구별적 요소들로 해석하는 경우, 하지만 사실상 상기 피쳐들은 실제로는 매우 유사한 억양을 가진 많은 다른 사용자들에게 공통적인 경우에, 검증의 긍정 오류 비율(rate of false positive)이 증가된다. 본 어플리케이션은 사용자의 언어 또는 위치에 관한 정보를 획득하고 상기 정보를 모델에 제공하며, 상기 모델이 예를 들어, 동일한 언어, 방언, 억양 또는 위치를 갖는 다른 사용자들로부터 사용자를 더 잘 구별하는 성문들 같은 화자 표현들을 제작하도록 한다.

도 1은 신원 검증을 수행하기 위해 언어-독립적 화자 검증 모델을 사용하기 위한 시스템(100)의 예시에 대한 문맥 다이어그램을 도시한다. 시스템(100)은 사용자 디바이스(110), 사용자 디바이스(120), 네트워크(130), 서버(140), 신경 네트워크(150) 및 화자 검증 모델(180)을 포함한다.

시스템(100)은 신경 네트워크(150)를 저장하는 서버(140)를 포함한다. 신경 네트워크(150)는 상이한 언어들, 상이한 방언들, 또는 둘 모두의 스피치 샘플들을 표현하는 스피치 데이터를 사용하여 트레이닝 되었다. 서버(140)는 신경 네트워크(150)에 기초하여 화자 검증 모델(180)을 생성한다. 그 후, 서버(150)는 화자 검증 모델(180)의 사본을 네트워크(130)를 통해 제1 사용자 디바이스(110) 및 제2 사용자 디바이스(120)로 전송한다. 화자 검증 모델(180)의 사본은 그 후 각 사용자 디바이스(110, 120)에 저장된다.

사용자, 예를 들어, "Joe"는 음성 인증을 사용하여 사용자 장치(110)에 대한 액세스를 시도할 수 있다. 예를 들어, Joe 영어로 "Ok Google"과 같은 미리 결정된 핫워드(105a)를 발언할 수 있다. 미리 결정된 발언에 대응하는 오디오(105b)는 사용자 디바이스(110)의 마이크로폰(111)에 의해 탐지될 수 있다. 사용자 디바이스(110)는 저장된 화자 검증 모델(180)에 대하여 마이크로폰(111)에 의해 탐지된 오디오(105b)로부터 도출된 제1 입력을 생성할 수 있다. 추가로, 사용자 디바이스(110)는 Joe가 영어로 핫워드(105a) 또는 구문을 발언했었다는 결정에 기초하여 저장된 화자 검증 모델(180)에 대한 제2 입력을 도출할 수 있다. 사용자 디바이스(110)는 디바이스의 언어 셋팅을 획득함으로써 Joe가 영어로 핫워드(105a) 또는 구문를 발언했었다고 결정할 수 있다. Joe의 사용자 디바이스(110)에 저장된 화자 검증 모델(180)은 그 후 오디오(105b)로부터 도출된 제1 입력 및 Joe의 영어 사용으로부터 도출된 제2 입력을 프로세싱하는 것에 기초하여 Joe에 대한 성문을 생성할 수 있다. 생성된 성문의 분석에 기초하여, 사용자 디바이스(110)는 Joe가 디바이스(110)에 액세스하도록 권한이 부여(authorize)되었는지를 결정할 수 있다. Joe가 사용자 디바이스(110)에 액세스하도록 권한이 부여되었다고 결정한 것에 응답하여, 사용자 디바이스(110)는 사용자 디바이스(110)를 잠금 해제하는 프로세싱을 개시할 수 있다. 일부 경우들에서, 사용자 디바이스(110)는 그래픽 사용자 인터페이스(112) 상에 예를 들어, "화자 신원 검증됨"(113)을 나열하는 메시지를 디스플레이할 수 있다. 대안적으로 또는 추가로, 사용자 디바이스(110)가 잠금 해제될 때, 사용자 디바이스(110)의 스피커는 "Welcome Joe"를 나열하는 오디오 인사말(115)을 출력할 수 있다.

도 1의 예시에서, 다른 사용자, 예를 들어, "Wang"은 동일한 화자 검증 모델(180)의 사본을 또한 저장하는 사용자 디바이스(120)를 갖는다. 중국어가 유창한 화자인, Wang은 음성 인증을 사용하여 사용자 디바이스(120)에 대한 액세스를 시도할 수 있다. 예를 들어, Wang은 중국어로

와 같은 미리 결정된 핫워드(115a) 또는 구문을 발언할 수 있다. (영어로 "Hello Android"로 대략 번역됨). 미리 결정된 발언에 대응하는 오디오(115b)는 사용자 디바이스(120)의 마이크로폰(121)에 의해 탐지될 수 있다. 추가로, 사용자 디바이스(120)는 Wang이 중국어로 핫워드(115a) 또는 구문을 발언했던 결정에 기초하여 저장된 화자 검증 모델(180)에 대한 제2 입력을 도출할 수 있다. 사용자 디바이스(120)는 디바이스의 언어 셋팅을 획득함으로써 Joe가 중국어로 핫워드(115a) 또는 구문을 발언했었다고 결정할 수 있다. Wang의 사용자 디바이스(120)에 저장된 화자 검증 모델(180)은 그 후 오디오(115b)로부터 도출된 제1 입력 및 Wang의 중국어 사용으로부터 도출된 제2 입력의 프로세싱에 기초하여, Wang에 대한 성문을 생성할 수 있다. 생성된 성문의 분석에 기초하여, 사용자 디바이스(120)는 Wang이 디바이스(120)에 액세스하도록 권한이 부여되었는지를 결정할 수 있다. Wang이 사용자 디바이스(120)에 액세스하도록 권한이 부여되었다고 결정한 것에 응답하여, 사용자 디바이스(120)는 사용자 디바이스(120)를 잠금 해제하는 프로세싱을 개시할 수 있다. 일부 경우들에서, 사용자 디바이스(120)는 그래픽 사용자 인터페이스(122) 상에 예를 들어,

(123) (영어로 "화자 신원 검증됨"으로 대략 번역됨)을 나열하는 메시지를 디스플레이할 수 있다. 대안적으로 또는 추가로, 사용자 디바이스(120)가 잠금 해제될 때, 사용자 디바이스(120)의 스피커는

(영어로 "Welcome Wang"으로 대략 번역됨)을 나열하는 오디오 인사말(125)을 출력할 수 있다.

도 1의 예시에 도시된 바와 같이, 단일 텍스트-의존적 화자 인식 모델(180)은 상이한 언어들 또는 위치들에 대해 상이한 미리 결정된 핫워드들을 사용하도록 구성될 수 있다. 추가로 또는 대안으로서, 모델(180)은 다수의 언어들 또는 위치들에 대해 동일한 핫워드를 사용할 수 있지만, 모델(180)은 예를 들어, 상이한 언어들 또는 지역 억양들로 인하여, 핫워드 발음의 상이한 변화들과 관련된 화자 표현들을 생성할 수 있다. 아래에서 논의되는 바와 같이, 모델(180)은 오디오 정보와 함께 모델(180)의 신경 네트워크에 언어 또는 위치에 대한 식별자를 입력함으로써 검증 프로세스를 미세-조정할 수 있다.

도 2는 언어-독립적 화자 검증 모델(280)을 트레이닝 시키기 위한 시스템(200)의 예시이다. 시스템(200)은 사용자 디바이스(210), 네트워크(230), 서버(240) 및 신경 네트워크(250)를 포함한다. 일반적으로, 언어-독립적 화자 검증 모델(280)의 트레이닝은 모델(280)이 사용자 디바이스(210)에 배포되고 화자 인식을 수행하기 위해 사용되기 전에, 서버(240)에서 발생하는 프로세싱을 통하여 발생한다. 이런 트레이닝은 사용자 디바이스(210)가 네트워크(230)에 접속될 것을 요구하지 않는다.

트레이닝이 시작될 수 있기 전에, 서버(240)는 트레이닝 발언들(210a 및 210b)의 세트를 획득한다. 트레이닝 발언들은 다수의 상이한 트레이닝 화자에 의해 각각 발언되었고, 기록되었으며, 서버(240)가 이용 가능하도록 만들어진 트레이닝 발언들 저장소에 저장된 하나 이상의 스피치 샘플들을 포함할 수 있다. 각각의 트레이닝 발언(210a, 210b)은 사용자가 트레이닝 발언을 발언할 때 결과로서 일어나는 오디오 신호의 적어도 일부를 포함할 수 있다.

음성 인증을 용이하게 하도록, 신경 네트워크(250)는 음성 인증 동안 사용자 디바이스(210)의 사용자에 의해 발언될 수 있는 미리 결정된 핫워드에 대응하는 트레이닝 발언들을 사용하여 트레이닝될 수 있다. 트레이닝 발언들은 상이한 언어, 상이한 방언, 상이한 억양 또는 그와 같은 것의 동일한 핫워드를 각각 발언하는 다수의 상이한 사용자들로부터의 발언들을 포함할 수 있다. 하나의 구현예에서, 다수의 트레이닝 데이터 세트들은 특정한 언어, 방언, 억양 또는 그와 같은 것의 특정한 키워드 발언에 대응하는 각각의 트레이닝 데이터 세트로 신경 네트워크(250)를 트레이닝 시키는데 사용될 수 있다. 예를 들어, 단일 신경 네트워크(250)는 미국 영어로 "Ok Google"을 발언하는 다수의 상이한 사용자들로부터의 트레이닝 발언들의 세트 및 영국 영어로 "Ok Google"을 발언하는 다수의 상이한 사용자들의 다른 트레이닝 테이터의 세트로 트레이닝될 수 있다. 하나의 구현예에서, 단일 신경 네트워크(250)는 신경 네트워크(250)가 모든 알려진 언어들, 방언들, 억양들, 또는 그와 같은 것을 위하여 트레이닝될 때까지 상이한 언어들, 상이한 방언들, 상이한 억양들, 또는 그와 같은 것으로 발언되는 핫워드 "Ok Google"을 포함하는 다른 트레이닝 데이터 세트들로 유사하게 트레이닝될 수 있다. 대안적으로, 신경 네트워크(250)는 신경 네트워크(250)가 신경 네트워크(250)에 기초한 화자 검증 모델이 배치될 지역들 내의 모든 언어들, 방언들, 억양들, 또는 그와 같은 것을 위하여 트레이닝될 때까지 상이한 언어들, 상이한 방언들, 상이한 또는 그와 같은 것으로 발언되는 핫워드 "Ok Google"을 포함하는 다른 트레이닝 데이터 세트들로 유사하게 트레이닝될 수 있다. 본 명세서에서 사용되는 바와 같이, 핫워드는 단일 단어 또는 다수의 단어들을 포함하는 구문일 수 있다. 일부 구현예들에서, 각 언어에 대한 핫워드가 상기 모델의 트레이닝 동안 고정되어, 특정한 위치에서 상기 모델을 사용하는 각 사용자는 동일한 핫워드를 사용한다.

발언된 트레이닝 구문들에 대응하는 오디오 신호들이 캡쳐되고 기록될 수 있다. 여기서 제공되는 미리 결정된 핫워드에 대응하는 트레이닝 발언들의 예시가 "Ok Google" 및

를 포함하지만, 본 개시는 그렇게 제한될 필요는 없다. 대신에, 임의의 언어 또는 임의의 방언의 임의의 미리 결정된 핫워드에 대응하는 트레이닝 발언들이 신경 네트워크(250)를 트레이닝 시키기 위해 사용될 수 있다. 추가로, 신경 네트워크(250)는 모든 알려진 언어들, 방언들, 억양들 또는 그와 같은 것을 수용하도록 쉽게 트레이닝될 수 있는 것으로 고려된다.

일부 경우들에서, 동일한 트레이닝 단어 또는 구문에 대한 다수의 상이한 트레이닝 발언들을 생성하기 위해, 트레이닝 화자는 동일한 트레이닝 구문을 여러 번 발언 및 기록하도록 요구될 수 있다. 이러한 방식으로, 다수의 상이한 언어들, 다수의 상이한 방언들, 또는 그와 같은 것의 트레이닝 단어 또는 구문을 발언하는 다수의 상이한 화자들을 사용하여 트레이닝 발언들이 획득될 수 있다. 일단 트레이닝 발언들(210a, 210b)이 획득되면, 시스템(200)은 관련된 트레이닝 발언의 음향 피쳐들에 대응하는 각각의 트레이닝 발언에 대한 각각의 피쳐 벡터를 도출할 수 있다(212a, 212b). 각각의 트레이닝 발언에 대한 각각의 피쳐 벡터는, 예를 들어, 트레이닝 발언으로부터 도출되고 발언의 음향 피쳐들에 대응하는 N×1 벡터를 포함할 수 있다. N×1 벡터는 N 개 값들의 단일 열을 사용하여 개념적으로 모델링될 수 있다. 하나의 구현예에서, N×1 벡터의 N 개 값들 각각은 "0" 또는 "1"의 값을 포함할 수 있다.

시스템(200)은 또한 다수의 상이한 언어 ID들(215a, 215b)을 획득할 수 있다. 언어 ID들은 특정한 언어를 식별하는 데이터를 포함할 수 있다. 하나의 구현예에서, 언어 ID는 1-핫 언어 벡터를 포함할 수 있다. 이러한 1-핫 언어 벡터들은 N×1 벡터를 포함할 수 있으며, 여기서 언어 벡터의 하나의 피쳐만이 활성화된다. 언어 벡터의 특정한 피쳐는 예를 들어, 상기 피쳐를 "1" 값으로 셋팅함으로써 활성화될 수 있다. 유사하게, 임의의 주어진 1-핫 언어 벡터에 대하여, 1-핫 언어 벡터의 다른 모든 피쳐들은 비활성화될 것이다. 예를 들어, 피쳐를 "0"으로 셋팅함으로써 언어 벡터의 상기 피쳐는 비활성화될 수 있다.

도 3은 복수의 1-핫 언어 벡터들(305, 310, 315, 320)의 개념적 표현의 예시이다. 각각의 1-핫 언어 벡터(305,310,315,310)에서, 다른 모든 피쳐들이 비활성화된 반면, 하나의 피쳐만은 활성화되었다. 시스템(200)은 각각의 1-핫 언어 벡터(305, 310, 315, 320)를 특정한 언어와 연관시킬 수 있다. 예를 들어, 시스템(200)은 언어 식별 벡터(305)와 관련된 경우와 같이 활성화된 언어 벡터의 제1 피쳐를 갖는 1-핫 언어 벡터가 "영어"와 연관될 수 있다고 결정할 수 있다. 유사하게, 시스템(200)은 언어 식별 벡터(305)와 관련된 경우와 같이 활성화된 언어 벡터의 제2 피쳐를 갖는 1-핫 언어 벡터(310)가 "중국어"와 연관될 수 있다고 결정할 수 있다. 유사한 언어 연관들이 언어 식별 벡터들(315 및 320) 및 다른 언어들간에 만들어질 수 있다.

화자 검증 모델(280)의 트레이닝은 트레이닝 데이터의 세트들을 신경 네트워크(250)에 제공함으로써 시작될 수 있다. 하나의 구현예에서, 신경 네트워크(250)는 쌍방향 트레이닝 기법을 사용하여 트레이닝될 수 있다. 예를 들어, 트레이닝 발언 벡터(214a) 및 언어 ID(215a)를 포함한 제2 입력을 포함하는 트레이닝 데이터(213a)의 제1 세트는 신경 네트워크(250)에 입력된다. 언어 ID(215a)는 예를 들어, 트레이닝 발언 벡터(214a)가 도출되었던 트레이닝 발언(210a)을 제공했던 트레이닝 화자에 의해 사용된 언어 또는 방언을 식별하는 1-핫 언어 벡터를 포함할 수 있다. 신경 네트워크(250)는 트레이닝 데이터(213a)의 제1 세트를 프로세스하고 출력(260a)을 생성한다. 이어서, 트레이닝 데이터(213b)의 제2 세트가 신경 네트워크(250)에 입력된다. 신경 네트워크(250)는 트레이닝 데이터(213b)의 제2 세트를 프로세스하고 출력(260b)을 생성한다. 출력들(260a, 260b)은 그 후 비교기(270)를 사용하여 비교된다. 비교기(270)는 트레이닝 벡터들(214a, 214b)이 동일한 화자에 의해 발언되었던 트레이닝 발언들(210a, 210b)로부터 도출되었었는지 여부를 결정하기 위해 출력들(260a, 260b)을 분석한다. 하나의 구현예에서, 비교 모듈(440)은 출력들(260a, 260b) 간의 거리를 계산함으로써 동일한 화자에 의해 발언되었던 트레이닝 발언들(210a, 210b)로부터 트레이닝 벡터들(214a, 214b)이 도출되었었는지를 결정할 수 있다. 이러한 거리는 예를 들어, 코사인 유사도를 사용하여 계산될 수 있다.

비교 모듈의 출력(272)은 트레이닝 발언들(210a, 210b)이 동일한 화자에 의해 발언되었었는지 여부에 대한 표시를 제공한다. 하나의 구현예에서, 예를 들어, 출력(272)은 '0' 또는 '1' 중 하나로 구성된 이진 값일 수 있다. 그러한 구현예에서, '0'은 발언이 동일한 화자로부터 발언되었던 것이 아님을 표시할 수 있다. 반면에 '1'은 발언이 동일한 화자로부터 발언되었던 것임을 표시할 수 있다. 대안적으로, 출력(272)은 '0' 또는 '1'과 같은 이진 값에 매핑(map)될 수 있는 값일 수 있다. 예를 들어, 출력(272)은 트레이닝 발언들(210a, 210b)이 동일한 화자에 의해 발언되었었는지 여부를 표시하는 확률을 포함할 수 있다. 신경 네트워크(250)의 파라미터들은 비교 모듈(270)의 출력(272)에 기초하여 조정될 수 있다. 일부 구현예들에서, 신경 네트워크(250)의 파라미터들은 출력(272)에 기초하여 자동으로 조정될 수 있다. 대안적으로, 일부 구현예들에서, 신경 네트워크의 하나 이상의 파라미터들은 출력(272)에 기초하여 수동으로 조정될 수 있다. 두 출력들(260a, 260b)의 비교가 동일한 화자에 의해 발언된 발언들(210a, 210b)로부터 (214a, 214b) 와 같은 한 쌍의 트레이닝 벡터가 도출되었었는지 여부를 일관되게 표시할 때까지 이러한 방식으로 다수의 트레이닝 데이터 세트들이 프로세스될 수 있다.

신경 네트워크(250)는 트레이닝 데이터의 세트들을 입력하기 위한 입력 레이어(252), 트레이닝 데이터의 세트들을 프로세스하기 위한 다수의 숨겨진 레이어들(254a, 254b, 254c), 및 출력을 제공하기 위한 출력 레이어(256)를 포함할 수 있다. 각각의 숨겨진 레이어(254a, 254b, 254c)는 하나 이상의 가중치들 또는 다른 파라미터들을 포함할 수 있다. 각각의 숨겨진 레이어(254a, 254b, 254c)의 가중치들 또는 다른 파라미터들은 트레이닝된 신경 네트워크가 트레이닝 데이터의 각 세트에 대응하는 원하는 타겟 벡터를 생산하도록 조정될 수 있다. 각각의 숨겨진 레이어(254a, 254b, 254c)의 출력은 M×1 활성화 벡터를 생성할 수 있다. (254c)와 같은 마지막 숨겨진 레이어의 출력은 출력 레이어(256)에 제공될 수 있으며, 출력 레이어(256)는 신경 네트워크 출력을 생성하기 위해 수신된 활성화 벡터의 추가 계산들을 수행한다. 신경 네트워크(250)가 원하는 수준의 성능에 도달하면, 신경 네트워크(250)는 트레이닝된 신경 네트워크로 지정될 수 있다. 예를 들어, 신경 네트워크(250)는 네트워크(250)가 상이한 화자들의 스피치를 구별할 수 있고, 동일한 화자의 스피치 간에 일치들을 최대 오류율보다 작은 비율로 식별할 수 있을 때까지 트레이닝될 수 있다.

트레이닝 발언 벡터(214a) 및 언어 ID(215a)를 포함하는 (213a)와 같은 트레이닝 데이터의 세트는 신경 네트워크(250)에 트레이닝 입력으로서 제공되기 전에 여러가지의 상이한 방식들로 사전 프로세싱될 수 있다. 예를 들어, 트레이닝 발언 벡터(214a) 및 1-핫 언어 벡터와 같은 언어 ID(215a)가 연결될 수 있다. 이러한 경우들에서, 연결된 벡터는 트레이닝 동안 신경 네트워크(250)에 대한 입력으로서 제공될 수 있다. 대안적으로, 시스템(200)은 트레이닝 발언 벡터(214a), 1-핫 언어 벡터, 또는 트레이닝 발언 벡터(214a) 및 1-핫 언어 벡터 둘 모두에 대한 각각의 신경 네트워크의 프로세싱에 기초하여, 각각 생성된 출력들을 갖는 적어도 두개의 다른 신경 네트워크들의 출력들을 연결함으로써 신경 네트워크(250)에 대한 입력을 생성할 수 있다. 이러한 경우들에서, 둘 이상의 다른 신경 네트워크들의 연결된 출력은 신경 네트워크(250)를 트레이닝 시키는데 사용될 수 있다. 대안적으로, 시스템(200)은 트레이닝 발언 벡터(214a) 및 1-핫 언어 벡터의 가중 합에 기초하여 입력 벡터를 생성할 수 있다. 트레이닝 발언 벡터(214a) 및 1-핫 언어 벡터에 기초하여 트레이닝 데이터의 세트를 생성하는 다른 방법들이 사용될 수 있다.

신경 네트워크(250)의 부분(258)은 트레이닝된 것으로 신경 네트워크(250)가 지정되면 획득될 수 있으며, 화자 검증 모델(280)을 생성하는데 사용될 수 있다. 신경 네트워크(250)의 획득된 부분(258)은 신경 네트워크(250)의 입력 레이어(252) 및 신경 네트워크(254a)의 하나 이상의 숨겨진 레이어들을 포함할 수 있다. 그러나, 일부 구현예들에서, 신경 네트워크(250)의 획득된 부분은 출력 레이어(256)를 포함하지 않는다. 일단 트레이닝되면, 신경 네트워크(250)는 화자에 대한 성문으로 사용될 수 있는 획득된 부분(258)의 마지막 숨겨진 레이어의 출력으로써, 활성화 벡터를 생산할 수 있다. 상기 성문은 사용자 디바이스에 핫워드의 발언을 제공하는 사람의 신원을 확인하기 위해 사용자 디바이스에 의해 사용될 수 있다.

서버(240)는 화자 검증 모델(280)의 복사본을 네트워크(230)를 통해 사용자 디바이스(210)와 같은 하나 이상의 각각의 사용자 디바이스들로 전송한다. 화자 검증 모델(280)의 사본은 그 후 각각의 사용자 디바이스(110)에 저장되고, 언어-독립적 화자 신원 검증을 용이하게 하는데 사용될 수 있다. 다른 예시로서, 화자 검증 모델(280)은 사용자 디바이스(210) 상에, 예를 들어 사용자 디바이스(210)의 운영 시스템과 함께 사전 설치될 수 있다.

도 4는 언어-독립적 화자 신원 검증을 수행하는 시스템(400)의 예시이다. 시스템(400)은 사용자 디바이스(210), 화자 검증 모델(280), 비교 모듈(440), 및 검증 모듈(450)을 포함한다.

도 4에 도시된 예시에서, 사용자(402)는 음성 검증을 이용하여 사용자 디바이스(210)에 대한 액세스를 시도한다. 사용자 디바이스(210)는 네트워크(230)를 통해 서버(240)에 의해 제공된 화자 검증 모델(280)을 이전에 수신하고 저장하였다. 음성 검증을 사용하여 사용자 디바이스(210)에 액세스하기 위해, 사용자(402)는 "Ok Google"과 같은 미리 결정된 핫워드(410a) 또는 구문를 발언한다. 미리 결정된 핫워드(410a) 또는 구문 "Ok Google"에 대응하는 오디오(410b)는 사용자 디바이스(210)의 마이크로폰(211)에 의해 탐지된다. 사용자 디바이스(210)는 오디오(410b)로부터 오디오(410b)의 음향 피쳐들을 표현하는 음향 피쳐 벡터를 도출(413)할 수 있다.

추가로, 시스템(400)은 사용자 디바이스(210)의 언어 ID 저장 영역에 저장된 언어 ID(415)를 획득할 수 있다. 언어 ID는 사용자와 연관된 특정한 언어 또는 방언을 식별하는 데이터를 포함할 수 있다. 하나의 구현예에서, 언어 ID는 1-핫 언어 벡터를 포함할 수 있다. 임의의 특정한 사용자 디바이스(210)에 저장된 언어 ID(415)는 여러가지 상이한 방식으로 알려진 언어들 및 방언들에 대응하는 다수의 상이한 언어 ID들의 세트로부터 특정한 언어 ID로 셋팅될 수 있다. 예를 들어, 사용자는 사용자 디바이스(210)의 구입 후에 처음으로 사용자 디바이스(210)를 켜고 구성할 때, 특정한 언어 또는 방언을 선택할 수 있다. 대응하는 언어 ID는 사용자에 의해 선택된 특정한 언어 또는 방언에 기초하여 선택되고, 사용자 디바이스(210)에 저장될 수 있다.

대안적으로 또는 추가로, 디바이스의 위치에 기초하여, 특정한 언어 ID가 선택되고 사용자 디바이스(210)에 저장될 수 있다. 예를 들어, 사용자 디바이스(210)는 디바이스가 처음 활성화 되었던 위치, 디바이스의 현재 위치, 또는 그와 같은 것에 기초하여 언어 ID에 대한 디폴트 셋팅을 확립할 수 있다. 대안적으로 또는 추가로, 사용자 디바이스(210)는 사용자로부터 획득된 스피치 샘플들에 기초하여 사용자와 연관된 특정 언어 또는 방언을 동적으로 탐지할 수 있다. 사용자와 연관된 특정한 언어 또는 방언의 동적 탐지는 예를 들어, 화자 인증 동안 사용자가 미리 결정된 핫워드를 발언할 때 결정될 수 있다. 그러한 경우들에서, 대응하는 언어 ID가 사용자의 스피치 샘플들로부터 탐지된 언어 또는 방언에 기초하여, 선택될 수 있고 사용자 디바이스(210)에 저장될 수 있다. 선택적으로 또는 추가로, 사용자는 언제든지 특정한 언어 또는 방언을 선택하기 위해 사용자 디바이스(210)와 연관된 언어 또는 방언 셋팅을 수정할 수 있다. 그러한 경우들에서, 대응하는 언어 ID는 사용자 디바이스(210) 언어 또는 방언 셋팅들의 사용자의 수정에 기초하여 선택될 수 있고 사용자 디바이스(210)에 저장될 수 있다.

음향 피쳐 벡터(414) 및 언어 ID(415)는 트레이닝된 신경 네트워크(250)의 적어도 일부에 기초하는 스피치 검증 모델(280)에 대한 입력으로서 제공될 수 있다. 예를 들어, 스피치 검증 모델(280)은 예를 들어, 입력 레이어(252) 및 하나 이상의 숨겨진 레이어들(254a, 254b, 254)과 같은 트레이닝된 신경 네트워크(250)의 하나 이상의 레이어들을 포함할 수 있다. 그러나, 하나의 구현예에서, 스피치 검증 모델(280)은 신경 네트워크(250)의 출력 레이어(256)를 활용하지 않는다.

음향 피쳐 벡터(414) 및 언어 ID(415)는 여러가지 상이한 방식들로 스피치 검증 모델(280)에 입력으로서 제공될 수 있다. 예를 들어, 음향 피쳐 벡터(414) 및 1-핫 언어 벡터와 같은 언어 ID(415)가 연결될 수 있다. 이러한 경우들에서, 연결된 벡터는 스피치 검증 모델에 대한 입력으로서 제공될 수 있다. 대안적으로, 시스템(400)은 음향 피쳐 벡터(414), 1- 핫 언어 벡터와 같은 언어 ID(415), 또는 음향 피쳐 벡터(414) 및 언어 ID(415) 둘 모두의 각각의 신경 네트워크의 프로세싱에 기초하여 각각 출력들을 생성한 두개의 다른 신경 네트워크들의 출력들을 연결시킬 수 있다. 그러한 경우들에서, 둘 이상의 다른 신경 네트워크들의 연결된 출력은 스피치 검증 모델(280)에 제공될 수 있다. 대안적으로, 시스템(400)은 음향 피쳐 벡터(414) 및 언어 ID(415)로서 사용되고 있는 1-핫 언어 벡터의 가중된 합에 기초하여 입력 벡터를 생성할 수 있다. 음향 피쳐 벡터(414) 및 언어 ID(415)에 기초하여 스피치 검증 모델(280)에 입력 데이터를 생성하는 다른 방법들이 사용될 수 있다.

스피치 검증 모델의(280) 음향 피쳐 벡터(414) 및 언어 ID(415)에 기초하여 제공된 입력 데이터의 프로세싱은 스피치 검증 모델의(280) 신경 네트워크의 하나 이상의 숨겨진 레이어들에서 활성화들 세트가 생성되도록 할 수 있다. 예를 들어, 제공된 입력에 대한 스피치 검증 모델들의(280) 프로세싱은 제1 숨겨진 레이어(254a), 제2 숨겨진 레이어(255b), 제3 숨겨진 레이어(254c), 또는 그와 같은 것에 활성화들 세트가 생성되도록 할 수 있다. 하나의 구현예에서, 시스템(400)은 스피치 검증 모델의(280) 신경 네트워크의 최종 숨겨진 레이어(254c)에 의에 출력된 활성화들을 획득할 수 있다. 최종 숨겨진 레이어(254c)에 의해 출력된 활성화들은 화자 벡터(420)를 생성하는데 사용될 수 있다. 이 화자 벡터(420)는 사용자 음성의 특성들을 표시하는 표현을 제공한다. 이 화자 벡터는 성문으로 지칭될 수 있다. 성문은 사용자 음성의 특성들에 기초하여 화자의 신원을 고유하게 검증하는데 사용될 수 있다.

비교 모듈(440)은 화자 벡터(420) 및 레퍼런스 벡터(430)를 수신하도록 구성될 수 있다. 레퍼런스 벡터(430)는 디바이스에 의해 캡쳐된 이전의 사용자 발언으로부터, 예를 들어 디바이스로 사용자를 등록하는 동안 제공된 발언, 도출된 벡터일 수 있다. 예를 들어, 음성 인증을 사용하여 사용자 디바이스(210)를 잠금 해제하기 위해 사용자(402)가 시스템(400)을 사용하기 전에 어떤 시점에서, 사용자(402)는 "Ok Google"과 같은 구문을 한번, 또는 여러 번 발언할 수 있다. 사용자 디바이스(210)는 마이크로폰(211)을 사용하여 사용자의 발언들에 대응하는 오디오 신호들을 캡쳐하도록 구성될 수 있다. 사용자 디바이스(210)는 그 후 음성 인증을 사용하여 사용자 디바이스를(210)를 잠금 해제하기 위해 사용자(402)가 시스템(400)을 사용하기 이전의 어떤 시점에서 캡쳐된 발언된 구문들 중 적어도 하나에 대응하는 오디오 신호들로부터 레퍼런스 피쳐 벡터(430)를 도출할 수 있다. 레퍼런스 벡터(430)는 생성된 성문이 비교될 수 있는 사용자(402) 음성의 특성들의 베이스라인(baseline) 표현을 제공할 수 있다. 하나의 구현예에서, 레퍼런스 벡터(430)는 미리 결정된 핫워드의 사용자(402) 발언에 기초하여 생성될 수 있으며, 상기 핫워드는 음성 인증 동안 폰을 잠금 해제하기 위해 발언될 수 있다.

비교 모듈(440)은 화자 벡터(420)와 레퍼런스 벡터(430) 사이의 유사성 정도를 결정할 수 있다.　하나의 구현예에서, 비교 모듈(440)은 화자 벡터(420)와 레퍼런스 벡터(430) 사이의 유사도를 계산할 수 있다. 일부 경우들에서, 비교 모듈(440)은 화자 벡터(420)와 레퍼런스 벡터(430) 사이의 유사도가 미리 결정된 임계치를 초과 하는지 여부를 결정할 수 있다. 유사도가 미리 결정된 임계치를 초과하는 경우들에서, 비교 모듈(440)은 유사도가 미리 결정된 임계치를 초과했었다는 것을 표시하는 출력 데이터를 검증 모듈(450)에 제공할 수 있다. 대안적으로, 비교 모듈(440)은 유사도가 미리 결정된 임계치를 초과하지 않는다고 결정할 수 있다. 그러한 경우들에서, 비교 모듈(440)은 유사도가 미리 결정된 임계치를 초과하지 않았었다는 것을 표시하는 출력 데이터를 검증 모듈(450)에 제공할 수 있다.

일부 구현예들에서, 화자 벡터(420)와 레퍼런스 벡터(430) 사이의 유사도는 화자 벡터(420)와 레퍼런스 벡터(430) 사이의 거리에 기초하여 계산될 수 있다. 비교 모듈(440)은 화자 벡터(420)와 레퍼런스 벡터(430) 사이의 거리를 결정하도록 구성될 수 있다. 하나의 구현예에서, 화자 벡터(420)와 레퍼런스 벡터(430) 사이의 거리는 예를 들어, 코사인 함수를 사용하여 결정될 수 있다.　코사인 함수는 두 벡터들 사이의 각도를 측정함으로써 화자 벡터(420)와 레퍼런스 벡터(430) 사이의 거리를 결정할 수 있다.

검증 모듈(450)은 검증 모듈(450)이 비교 모듈(440)로부터 수신한 출력 데이터를 수신하고 해석한다. 비교 모듈(440)로부터 수신된 출력 데이터에 기초하여, 검증 모듈은 화자 벡터(420)가 도출되었던 구문(410a)을 발언했던 사용자(402)가 이전에 레퍼런스 벡터(430)가 도출되었던 구문를 발언했던 사용자와 동일한 사용자인지 여부를 결정할 수 있다. 화자 벡터(420)가 도출되었던 구문(410a)을 발언했던 사용자(402)가 이전에 레퍼런스 벡터(430)가 도출되었던 구문를 발언했던 사용자와 동일한 사용자로 결정되면, 검증 모듈(450)은 사용자 디바이스(210) 상에서 실행중인 어플리케이션에게 사용자(402)에게 디바이스(420)에 대한 액세스를 제공하도록 명령할 수 있다. 선택적으로 또는 추가로, 화자 벡터(420)가 도출되었던 구문(410a)을 발언했던 사용자(402)가 이전에 레퍼런스 벡터(430)가 도출되었던 구문를 발언했던 사용자와 동일한 사용자로 결정되면, 검증 모듈(450)은 디바이스 상의 특정한 리소스에 대한 액세스를 제공하거나, 디바이스를 잠금 해제하거나, 저전력 상태로부터 디바이스를 깨우거나(wake up), 또는 그와 같은 것을 할 수 있다.

비교 모듈(440)로부터의 출력 데이터가 유사도가 미리 결정된 임계치를 초과한다는 것을 표시하면, 검증 모듈(450)은, 비교 모듈(440)로부터의 출력 데이터에 기초하여, 문구(410a)를 발언했던 사용자가 레퍼런스 벡터(430)가 도출된 문구를 발언했던 사용자와 동일하다고 결정할 수 있다. 그러한 경우들에서, 검증 모듈은 사용자 디바이스(210)를 사용하기 위해 사용자가 완전히 인증되고 권한이 부여되었다고 결정할 수 있다. 대안적으로, 검증 모듈(450)은 비교 모듈(440)로부터의 출력 데이터에 기초하여, 검증 모듈(450)이 구문(410a)를 발언했던 사용자(402)가 레퍼런스 벡터(430)를 발언했던 사용자와 동일하다고 결론 지을 수 없다고 결정할 수 있다. 이러한 경우들에서, 사용자(402)는 인증되지 않고 디바이스에 대한 액세스는 제공되지 않는다. 대신에, 시스템(400), 사용자 디바이스(210), 하나 이상의 다른 어플리케이션들, 또는 이들의 조합은 사용자 디바이스(210)에 액세스하기 위한 대안적인 옵션들을 제공할 수 있다. 예를 들어, 사용자 디바이스(210)는 비밀 패스코드를 입력하도록 사용자(402)에게 촉구할 수 있다.

사용자(402)가 인증되었을 때, 구문(410a)를 발언했던 사용자(402)가 레퍼런스 벡터(430)가 도출된 구문을 발언했던 사용자와 동일하다고 결정함으로써, 사용자 디바이스(210)는 잠금 해제하고 "화자의 신원이 검증됨"(460)을 표시하는 메시지를 사용자에게 출력할 수 있다. 이 메시지는 사용자 디바이스(210)의 그래픽 사용자 인터페이스 상에 디스플레이된 텍스트 메시지, 사용자 디바이스(210)의 스피커에 의해 출력된 오디오 메시지, 사용자 디바이스(210)의 그래픽 사용자 인터페이스 상에 디스플레이된 비디오 메시지, 또는 전술한 메시지들의 유형들 중 하나 이상의 조합일 수 있다.

도 5는 언어-독립적 화자 신원 검증을 수행하기 위한 프로세스(500)의 흐름도다. 편의상, 프로세스(500)는 시스템에 의해 수행되는 것으로 기술될 것이다. 예를 들어, 전술한 시스템(400)은 사용자 디바이스(210)에 액세스를 시도하는 사용자를 인증하도록 프로세스(500)를 수행할 수 있다.

프로세스(500)는 사용자 디바이스(210)가 디바이스의 사용자로부터 음성 인증을 수행하기 위한 요청을 수신할 때(510) 시작될 수 있다.　일부 구현예들에서, 사용자의 음성 인증을 시작하도록 폰에 명령하기 위해, 사용자는 사용자 디바이스 상의 버튼을 선택해야 하거나, 사용자 디바이스의 사용자 인터페이스 상에서 제스처를 수행해야 하거나, 사용자 디바이스의 카메라의 시야에 있는 공중에서 제스처를 수행해야 하거나, 또는 그와 같은 것을 수행해야 한다. 그러한 경우들에서, 음성 인증을 개시하라는 명령이 수신된 후, 사용자는 사용자의 신원을 검증하는데 사용될 수 있는 임의의 언어 또는 방언의 미리 결정된 핫워드를 발언할 수 있다. 선택적으로 또는 추가로, 사용자 디바이스(210)는 사용자의 음성 인증을 개시하는데 사용될 수 있는 임의의 언어 또는 방언의 미리 결정되고 발언된 핫워드의 탐지를 수동적으로 "청취"하기 위해 마이크로폰을 사용할 수 있다. 미리 결정된 핫워드는, 예를 들어, “Hello Phone,"“Ok Google,"

또는 그와 같은 것을 포함할 수 있다. 일부 구현예들에서, 특정한 위치 내의 모든 사용자들 또는 특정한 언어를 발화하는 모든 사용자들에 대한 단일 고정 핫워드가 있다.

프로세스는 시스템(400)이 사용자 디바이스(210)의 사용자에 의해 입력된 발언을 획득할 때 (520)에서 계속될 수 있다. 발언은 예를 들어, 사용자의 음성 인증을 개시하는데 사용될 수 있는 임의의 언어 또는 방언의 미리 결정된 핫워드를 포함할 수 있다. 시스템(400)은 획득된 발언에 대응하는 오디오 신호들로부터 음향 피쳐 벡터를 도출할 수 있다.

시스템(400)은 사용자 디바이스(210)와 연관된 언어 식별자를 결정(530)할 수 있다. 언어 식별자는 사용자와 연관된 특정한 언어 또는 방언을 식별하는 데이터를 포함할 수 있다. 하나의 구현예에서, 언어 식별자는 1-핫 언어 벡터를 포함할 수 있다. 임의의 특정한 사용자 디바이스(210)에 저장된 언어 식별자는 예를 들어 상술한 바와 같이, 여러가지 상이한 방식들로 알려진 언어들 및 방언들에 대응하는 다수의 상이한 언어 식별자들의 풀(pool)로부터 특정한 언어 식별자로 셋팅될 수 있다. 그러나, 본 명세서의 발명은 현재 알고 있는 언어들 또는 방언들로만 제한되지 않는다. 예를 들어, 화자 검증 모델은 새로운 언어들, 방언들, 또는 억양들을 수용할 수 있도록 트레이닝될 수 있다. 화자 검증 모델이 다시 트레이닝되면, 예를 들어, 새로운 위치들 또는 언어들을 추가하도록 언어들 또는 위치들과 식별자들 사이의 매핑들이 조정될 수 있다.

시스템(400)은 음향 피쳐 벡터 및 언어 식별자에 기초하여 화자 검증 모델에 입력 데이터를 제공(540)할 수 있다. 입력은 여러가지 상이한 방식들로 화자 검증 모델에 제공될 수 있다. 예를 들어, 음향 피쳐 벡터 및 1-핫 언어 벡터와 같은 언어 식별자가 연결될 수 있다. 이러한 경우들에서, 연결된 벡터는 화자 검증 모델에 대한 입력으로서 제공될 수 있다. 대안적으로, 시스템(400)은 음향 피쳐 벡터, 1-핫 언어 벡터와 같은 언어 식별자, 또는 음향 피쳐 벡터 및 언어 식별자 둘 모두의 각각의 신경 네트워크의 프로세싱에 기초하여 각각 출력들을 생성한 적어도 두개의 다른 신경 네트워크들의 출력들을 연결시킬 수 있다. 그러한 경우들에서, 둘 이상의 다른 신경 네트워크들의 연결된 출력이 스피치 검증 모델에 제공될 수 있다. 대안적으로, 시스템(400)은 음향 피쳐 벡터 및 언어 식별자로 사용되고 있는 1-핫 언어 벡터의 가중된 합에 기초하여 입력 벡터를 생성할 수 있다. 음향 피쳐 벡터 및 언어 식별자에 기초하여 스피치 검증 모델(280)에 대한 입력 데이터를 생성하는 다른 방법들이 사용될 수 있다.

시스템(400)은 (540)에서 제공된 입력에 기초하여 화자 표현을 생성할 수 있다. 예를 들어, 화자 검증 모델은 (540)에서 제공된 입력을 프로세스하고 하나 이상의 숨겨진 레이어들에서 활성화들의 세트를 생성하는 신경 네트워크를 포함할 수 있다. 화자 표현은 그 후 신경 네트워크의 적어도 하나의 숨겨진 레이어로부터 획득된 특정한 활성화들의 세트로부터 도출될 수 있다. 하나의 구현예에서, 활성화들은 신경 네트워크의 마지막 숨겨진 레이어로부터 획득될 수 있다. 화자 표현은 사용자의 음성의 특성들을 표시하는 피쳐 벡터를 포함할 수 있다.

(560)에서, 시스템(400)은 단계(520)에서 획득된 발언의 화자가 사용자 디바이스(210)에 액세스할 수 있는지 여부를 결정할 수 있다. 이러한 결정은 예를 들어, 화자 표현과 레퍼런스 표현의 비교에 기초할 수 있다. 상기 레퍼런스는 사용자가 음성 인증을 사용하여 사용자 디바이스에 액세스하기를 요청하기 이전의 어떤 시점에서 사용자 디바이스(210)에 입력되었던 사용자 발언으로부터 도출되었던 피쳐 벡터일 수 있다. 화자 표현과 레퍼런스 표현의 비교는 화자 표현과 레퍼런스 표현 사이의 유사성을 나타내는 유사도를 결정하도록 한다. 유사도는 화자 표현과 레퍼런스 표현 사이의 거리를 포함할 수 있다. 하나의 구현예에서, 상기 거리는 코사인 함수를 사용하여 계산될 수 있다. 유사도가 미리 결정된 임계치를 초과하는 것으로 결정되면, 시스템(400)은 사용자 디바이스(210)에 대한 액세스를 사용자에게 제공(570) 하는 것을 결정할 수 있다.

본 명세서에서 기술된 발명의 실시예들, 기능 동작들 및 프로세스들은 디지털 전자 회로, 실체적으로 구현된 컴퓨터 소프트웨어 또는 펌웨어, 컴퓨터 하드웨어로 구현될 수 있으며, 상기 컴퓨터 하드웨어는 본 명세서에 개시된 구조들 및 그들의 구조적 등가물들, 또는 그들 중 하나 이상의 조합들을 포함한다. 본 명세서에서 기술된 발명의 실시예들은 하나 이상의 컴퓨터 프로그램, 즉 데이터 프로세싱 장치에 의해 실행되거나 또는 데이터 프로세싱 장치의 동작을 제어하도록 유형의 비휘발성 프로그램 캐리어 상에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈들로 구현될 수 있다. 선택적으로 또는 추가로, 프로그램 명령어들은 예를 들어, 데이터 프로세싱 장치에 의한 실행에 적합한 수신기 장치로의 전송을 위한 정보를 인코딩하도록 생성된 기계-생성 전기, 광학, 또는 전자기 신호 같은, 인위적으로 생성되고 전파된 신호이다. 컴퓨터 저장 매체는 기계 판독가능 저장 디바이스, 기계 판독가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 디바이스, 또는 그들 중 하나 이상의 조합일 수 있다.

"데이터 처리 장치"라는 용어는 데이터 프로세싱을 위한 모든 종류의 장치들, 디바이스들 및 기계들 예를 들어, 프로그램 가능한 프로세서, 컴퓨터, 또는 다수의 프로세서들 또는 컴퓨터들을 포함한다. 상기 장치는 특수 목적 논리 회로, 예를 들어 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)을 포함할 수 있다. 상기 장치는 하드웨어 이외에, 문제의 컴퓨터 프로그램을 위한 실행 환경을 제작하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 또는 그들 중 하나 이상의 조합을 구성하는 코드를 또한 포함할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 모듈, 소프트웨어 모듈, 스크립트, 또는 코드로 또한 지칭되거나 기술될 수 있음)은 컴파일된 또는 해석된 언어들, 또는 선언적 또는 절차적 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 작성될 수 있으며, 상기 컴퓨터 프로그램은 독립형 프로그램 또는 모듈, 컴포넌트, 서브루틴, 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 유닛을 포함하여, 임의의 형태로 배치될 수 있다. 컴퓨터 프로그램은 파일 시스템 내의 파일에 대응할 수 있지만, 반드시 그런 것은 아니다. 프로그램은 다른 프로그램들 또는 데이터(예를 들어, 마크업 언어 문서에 저장된 하나 이상의 스크립트들)를 보유한 파일의 일부분, 문제의 프로그램 전용 단일 파일, 또는 다수의 조정된 파일들(예를 들어, 하나 이상의 모듈들, 하위 프로그램들, 또는 코드의 일부들을 저장하는 파일)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 하나의 사이트에 있거나 여러 사이트에 걸쳐서 분산되어 있고 통신 네트워크로 상호접속된 다수의 컴퓨터들에서 실행되도록 배치될 수 있다.

본 명세서에 기술된 프로세스들 및 논리 흐름들은 입력 데이터를 조작하고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 하나 이상의 프로그램 가능한 컴퓨터들에 의해 수행될 수 있다. 상기 프로세스들 및 논리 흐름들은 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)과 같은 특수 목적 논리 회로에 의해 또한 수행될 수 있고, 장치는 특수 목적 논리 회로로 또한 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 컴퓨터들은 예를 들어, 범용 또는 전용 목적 마이크로프로세서들, 또는 둘 모두, 또는 임의의 다른 종류의 중앙 프로세싱 유닛에 기초할 수 있다. 일반적으로, 중앙 프로세싱 유닛은 읽기-전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 요소들은 명령어들을 수행하거나 실행하기 위한 중앙 프로세싱 유닛 및 명령어들과 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 데이터(예를 들어, 자기, 광 자기 디스크 또는 광학 디스크)를 저장하기 위한 하나 이상의 대용량 저장 장치로부터 데이터를 수신하거나 하나 이상의 대용량 저장 장치로 데이터를 전송, 또는 둘 모두를 하기 위해 동작 가능하게 결합될 것이다. 그러나, 컴퓨터는 그러한 디바이스들을 가질 필요가 없다. 게다가, 컴퓨터는 다른 디바이스, 몇 가지 예를 들자면, 모바일 전화기, 개인 휴대 정도 단말기(PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, 위성 위치 확인 시스템(GPS) 수신기, 또는 휴대용 저장 디바이스에 내장될 수 있다(예를 들어, 범용 직렬 버스(USB) 플래시 드라이브).

컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스들을 포함하며, 상기 디바이스들은 반도체 메모리 디바이스들, 예를 들어, EPROM, EEPROM, 및 플래시 메모리 디바이스; 자기 디스크들, 예를 들어, 내부 하드 디스크들 또는 이동식 디스크들; 광 자기 디스크들; 및 CD-ROM 및 DVD-ROM 디스크들을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보충되거나 또는 그 안에 포함될 수 있다.

사용자와의 인터랙션을 제공하기 위해, 본 명세서에 기술된 발명의 실시예들은 예를 들면, CRT(cathode ray tube) 또는 LCD(liquid crystal display)모니터와 같은 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스 및 키보드 및 예를 들면, 사용자가 컴퓨터에 입력을 제공할 수 있는 마우스 또는 트랙볼과 같은 포인팅 디바이스를 갖는 컴퓨터 상에서 구현될 수 있다. 다른 종류의 디바이스들도 사용자와의 인터랙션을 제공하는데 또한 사용될 수 있다; 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백, 또는 촉각 피드백과 같은 감각 피드백일 수 있다; 그리고 사용자로부터의 입력은 음향, 스피치, 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 추가로, 컴퓨터는 사용자에 의해 사용되는 디바이스와 문서들을 전송하고 상기 디바이스로부터 문서들을 수신함으로써 예를 들어, 웹 브라우저로부터 수신된 요청들에 응답하여 사용자 디바이스 상의 웹 브라우저에 웹 페이지들을 전송함으로써, 사용자와 인터랙팅할 수 있다.

본 명세서에 기술된 발명의 실시예들은 컴퓨팅 시스템에서 구현될 수 있으며, 상기 컴퓨팅 시스템은 백 엔드 컴포넌트, 예를 들어, 데이터 서버를 포함하거나, 또는 미들웨어 컴포넌트, 예를 들어, 어플리케이션 서버를 포함하거나, 또는 프런트 엔드 컴포넌트, 예를 들어, 그래픽 사용자 인터페이스 또는 사용자가 본 명세서에 기술된 발명의 구현과 인터랙팅할 수 있는 웹 브라우저를 가진 클라이언트 컴퓨터, 또는 그러한 백 엔드, 미들웨어 또는 프런트 엔드 컴포넌트들의 하나 이상의 임의의 조합을 포함한다. 시스템의 컴포넌트들은 예를 들어, 통신 네트워크와 같은 디지털 데이터 통신의 매체 또는 임의의 형태에 의해 상호접속될 수 있다. 통신 네트워크들의 예시들은 근거리 통신망("LAN") 및 광역 통신망("WAN"), 예를 들어, 인터넷을 포함한다.

컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 전형적으로 통신 네트워크를 통해 인터랙팅 한다. 클라이언트와 서버의 관계는 각각의 컴퓨들 상에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들에 의해서 발생한다.

본 명세서는 많은 특정 구현 세부사항들을 포함하지만, 이들이 청구될 수 있는 범위에 대한 제한들로 해석되어서는 안되며, 오히려 특정한 실시예들에서 특정될 수 있는 구성들의 기술들로 해석되어야 한다. 별도 실시예들의 상황 속에서 본 명세서에 기술된 일정 피쳐들은 또한 단일 실시예 내의 조합으로 구현될 수 있다. 반대로, 단일 실시예의 상황 속에서 기술된 다양한 피쳐들은 다수의 실시예들에서 개별적으로 구현되거나 또는 임의의 적합한 하위조합으로 구현될 수 있다. 추가로, 구성들은 일정 조합들로 동작하는 것으로서 상기 기술되었고 심지어 초기적으로는 그와 같이 청구되었지만, 청구된 조합으로부터의 하나 이상의 구성들은 일부 경우들에서는 상기 조합으로부터 제거될 수 있고, 청구된 조합은 하위조합 또는 하위조합의 변형으로 유도될 수 있다.

유사하게, 동작들이 특정한 순서로 도면들에 도시되어 있지만, 바람직한 결과들을 달성하기 위해, 그러한 동작들이 도시된 특정한 순서 또는 순차적 순서로 수행되거나, 또는 도시된 모든 동작들이 수행될 것을 요구하는 것으로 이해되어서는 안된다. 일정 상황들에서는, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술된 실시예들에서 다양한 시스템 컴포넌트들의 분리는 모든 실시예들에서 그러한 분리를 요구하는 것으로 이해되어서는 안된다. 상기 기술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품에 함께 통합되거나 다수의 소프트웨어 제품들로 패키징될 수 있다는 것을 이해하여야 한다.

발명의 특정한 실시예가 기술되었다. 다른 실시예들은 다음의 청구항들의 범위 내에 있다. 예를 들어, 청구 범위에 열거된 액션들은 상이한 순서로 수행될 수 있으며 여전히 바람직한 결과들을 달성한다. 하나의 예시로서, 첨부된 도면에 도시된 프로세스들은 바람직한 결과들을 달성하기 위해 반드시 도시된 특정한 순서, 또는 순차적 순서를 요구하지 않는다. 일정 구현예들에서, 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 상기 기술된 프로세스들로부터, 다른 스텝들 또는 단계들이 제공되거나, 스텝들 또는 단계들이 제거될 수 있다. 따라서, 다른 구현예들은 다음의 청구항들의 범위 내에 있다.

Claims

화자 검증을 위한 시스템으로서,
하나 이상의 컴퓨터들 및 동작가능한 명령어들을 저장하는 하나 이상의 저장 디바이스들을 포함하며, 상기 명령어들은 하나 이상의 컴퓨터들에 의해 실행시, 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며, 상기 동작들은:
사용자 디바이스에 의해, 사용자의 발언을 표현하는 오디오 데이터를 수신하는 동작;
상기 사용자 디바이스에 저장된 신경 네트워크에, 상기 오디오 데이터와 상기 사용자 디바이스와 연관된 언어 식별자 또는 위치 식별자로부터 도출된 입력 데이터의 세트를 제공하는 동작, 상기 신경 네트워크는 상이한 언어들 또는 상이한 방언들의 스피치(speech)를 표현하는 스피치 데이터를 사용하여 트레이닝된 파라미터들을 가지며;
상기 입력 데이터의 세트를 수신하는 것에 응답하여 생성된 상기 신경 네트워크의 출력에 기초하여, 상기 사용자의 음성(voice)의 특성들을 표시하는 화자 표현을 생성하는 동작;
상기 화자 표현 및 제2 표현에 기초하여, 상기 발언이 상기 사용자의 발언임을 결정하는 동작; 및
상기 발언이 상기 사용자의 발언임을 결정하는 것에 기초하여, 상기 사용자 디바이스에 사용자 액세스를 제공하는 동작을 포함하는 것을 특징으로 하는 화자 검증을 위한 시스템.
청구항 1에 있어서, 상기 오디오 데이터 및 상기 결정된 언어 식별자로부터 도출된 입력 데이터의 상기 세트는 상기 오디오 데이터로부터 도출된 제1 벡터 및 상기 사용자 디바이스와 연관된 언어 식별자로부터 도출된 제2 벡터를 포함하는 것을 특징으로 하는 화자 검증을 위한 시스템.
청구항 2에 있어서,
상기 제1 벡터 및 상기 제2 벡터를 단일 연결 벡터로 연결함으로써 입력 벡터를 생성하는 동작;
상기 생성된 입력 벡터를 신경 네트워크에 제공하는 동작; 및
상기 입력 벡터를 수신하는 것에 응답하여 생산된 상기 신경 네트워크의 출력에 기초하여, 상기 사용자의 상기 음성의 특성들을 표시하는 화자 표현을 생성하는 동작을 더 포함하는 것을 특징으로 하는 화자 검증을 위한 시스템.
청구항 2에 있어서,
(i) 상기 제1 벡터, (ii) 상기 제2 벡터, 또는 (iii) 상기 제1 벡터 및 상기 제2 벡터 둘 모두에 기초하여 출력들을 각각 생성하는 적어도 두 개의 다른 신경 네트워크들의 상기 출력들을 연결함으로써 입력 벡터를 생성하는 동작;
상기 생성된 입력 벡터를 상기 신경 네트워크에 제공하는 동작; 및
상기 입력 벡터를 수신하는 것에 응답하여 생산된 상기 신경 네트워크의 출력에 기초하여, 상기 사용자의 상기 음성의 특성들을 표시하는 화자 표현을 생성하는 동작을 더 포함하는 것을 특징으로 하는 화자 검증을 위한 시스템.
청구항 2에 있어서,
상기 제1 벡터와 상기 제2 벡터의 가중 합에 기초하여 입력 벡터를 생성하는 동작;
상기 생성된 입력 벡터를 상기 신경 네트워크에 제공하는 동작; 및
상기 입력 벡터를 수신하는 것에 응답하여 생산된 상기 신경 네트워크의 출력에 기초하여, 상기 사용자의 상기 음성의 특성들을 표시하는 화자 표현을 생성하는 동작을 더 포함하는 것을 특징으로 하는 화자 검증을 위한 시스템.
청구항 1 내지 청구항 5 중 어느 한 항에 있어서,
입력 데이터의 상기 세트를 수신하는 것에 응답하여 생성된 상기 신경 네트워크의 상기 출력은 상기 신경 네트워크의 숨겨진 레이어(hidden layer)에 의해 생성된 활성화(activation)들의 세트를 포함하는 것을 특징으로 하는 화자 검증을 위한 시스템.
삭제
삭제
삭제
삭제
삭제
삭제
화자 검증을 위한 방법으로서,
사용자 디바이스에 의해, 사용자의 발언을 표현하는 오디오 데이터를 수신하는 단계;
상기 사용자 디바이스에 저장된 신경 네트워크에, 상기 오디오 데이터와 상기 사용자 디바이스와 연관된 언어 식별자 또는 위치 식별자로부터 도출된 입력 데이터의 세트를 제공하는 단계, 상기 신경 네트워크는 상이한 언어들 또는 상이한 방언들의 스피치(speech)를 표현하는 스피치 데이터를 사용하여 트레이닝된 파라미터들을 가지며;
입력 데이터의 상기 세트를 수신하는 것에 응답하여 생성된 상기 신경 네트워크의 출력에 기초하여, 상기 사용자의 음성(voice)의 특성들을 표시하는 화자 표현을 생성하는 단계;
상기 화자 표현 및 제2 표현에 기초하여, 상기 발언이 상기 사용자의 발언임을 결정하는 단계; 및
상기 발언이 상기 사용자의 발언임을 결정하는 것에 기초하여, 상기 사용자 디바이스에 사용자 액세스를 제공하는 단계를 포함하는 것을 특징으로 하는 화자 검증을 위한 방법.
청구항 13에 있어서, 상기 오디오 데이터 및 상기 결정된 언어 식별자로부터 도출된 입력 데이터의 상기 세트는 상기 오디오 데이터로부터 도출된 제1 벡터 및 상기 사용자 디바이스와 연관된 언어 식별자로부터 도출된 제2 벡터를 포함하는 것을 특징으로 하는 화자 검증을 위한 방법.
청구항 14에 있어서,
상기 제1 벡터 및 상기 제2 벡터를 단일 연결 벡터로 연결함으로써 입력 벡터를 생성하는 단계;
상기 생성된 입력 벡터를 신경 네트워크에 제공하는 단계; 및
상기 입력 벡터를 수신하는 것에 응답하여 생성된 상기 신경 네트워크의 출력에 기초하여, 상기 사용자의 상기 음성의 특성들을 표시하는 화자 표현을 생성하는 단계를 더 포함하는 것을 특징으로 하는 화자 검증을 위한 방법.
청구항 14에 있어서,
(i) 상기 제1 벡터, (ii) 상기 제2 벡터, 또는 (iii) 상기 제1 벡터 및 상기 제2 벡터 둘 모두에 기초하여 출력들을 각각 생성하는 적어도 두 개의 다른 신경 네트워크들의 상기 출력들을 연결함으로써 입력 벡터를 생성하는 단계;
상기 생성된 입력 벡터를 상기 신경 네트워크에 제공하는 단계; 및
상기 입력 벡터를 수신하는 것에 응답하여 생성된 상기 신경 네트워크의 출력에 기초하여, 상기 사용자의 상기 음성의 특성들을 표시하는 화자 표현을 생성하는 단계를 더 포함하는 것을 특징으로 하는 화자 검증을 위한 방법.
청구항 14에 있어서,
상기 제1 벡터와 상기 제2 벡터의 가중 합에 기초하여 입력 벡터를 생성하는 단계;
상기 생성된 입력 벡터를 상기 신경 네트워크에 제공하는 단계; 및
상기 입력 벡터를 수신하는 것에 응답하여 생성된 상기 신경 네트워크의 출력에 기초하여, 상기 사용자의 상기 음성의 특성들을 표시하는 화자 표현을 생성하는 단계 더 포함하는 것을 특징으로 하는 화자 검증을 위한 방법.
청구항 13에 있어서,
입력 데이터의 상기 세트를 수신하는 것에 응답하여 생성된 상기 신경 네트워크의 상기 출력은 상기 신경 네트워크의 숨겨진 레이어에 의해 생성된 활성화들의 세트를 포함하는 것을 특징으로 하는 화자 검증을 위한 방법.
청구항 13에 있어서, 상기 화자 표현 및 제2 표현에 기초하여, 상기 발언이 상기 사용자의 발언임을 결정하는 단계는:
제1 표현과 상기 제2 표현 사이의 거리를 결정하는 단계를 포함하는 것을 특징으로 하는 화자 검증을 위한 방법.
청구항 13 내지 청구항 19 중 어느 한 항에 있어서, 상기 발언이 상기 사용자의 발언임을 결정하는 것에 기초하여 상기 사용자 디바이스에 상기 사용자 액세스를 제공하는 단계는 상기 사용자 디바이스를 잠금 해제하는 단계를 포함하는 것을 특징으로 하는 화자 검증을 위한 방법.