KR102198835B1 - 심층 신경망을 사용한 단-대-단 화자 인식 - Google Patents

심층 신경망을 사용한 단-대-단 화자 인식 Download PDF

Info

Publication number
KR102198835B1
KR102198835B1 KR1020207002634A KR20207002634A KR102198835B1 KR 102198835 B1 KR102198835 B1 KR 102198835B1 KR 1020207002634 A KR1020207002634 A KR 1020207002634A KR 20207002634 A KR20207002634 A KR 20207002634A KR 102198835 B1 KR102198835 B1 KR 102198835B1
Authority
KR
South Korea
Prior art keywords
speaker
neural network
speech
speech sample
feed
Prior art date
Application number
KR1020207002634A
Other languages
English (en)
Other versions
KR20200013089A (ko
Inventor
엘리 코우리
매튜 가랜드
Original Assignee
핀드롭 시큐리티 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 핀드롭 시큐리티 인코포레이티드 filed Critical 핀드롭 시큐리티 인코포레이티드
Publication of KR20200013089A publication Critical patent/KR20200013089A/ko
Application granted granted Critical
Publication of KR102198835B1 publication Critical patent/KR102198835B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Image Analysis (AREA)
  • Telephonic Communication Services (AREA)
  • Image Processing (AREA)

Abstract

본 발명은, 화자 인식을 수행하기에 적합한, 삼중 망 아키텍처를 가진 심층 신경망(DNN)에 관한 것이다. 특히, DNN은 음의 트레이닝 샘플의 코호트 세트를 이용한 배취 프로세스에 따라 트레이닝되는, 3개의 피드-포워드 신경망을 포함한다. 트레이닝 샘플의 각각의 배취가 프로세싱된 후, DNN은 성문의 강력한 표현을 제공하기 위해, 양의 마진 및 음의 마진과 함께, 예로서, 각각의 샘플 간의 코사인 유사도를 이용하여, 손실 함수에 따라 트레이닝될 수 있다.

Description

심층 신경망을 사용한 단-대-단 화자 인식{END-TO-END SPEAKER RECOGNITION USING DEEP NEURAL NETWORK}
본 출원은 2016년 9월 12일자로 출원된 미국 정규 특허 출원 제15/262,748호에 대한 우선권을 주장하며, 그 전체 개시내용은 참고로 본 명세서에 원용된다.
발명의 분야
본 발명은 화자 검증(speaker verification) 및/또는 화자의 식별을 포함하는 음성 인식에 관한 것이다. 또한, 본 발명은 텍스트-독립적 화자 인식을 행하기 위해 사용될 수 있다.
화자 인식에 대한 현재 최신의 접근법은 음향 가우시안 혼합 모델링(Gaussian mixture modeling: GMM)(문헌[Douglas A. Reynolds et al., "Speaker Verification Using Adapted Gaussian Mixture Models," Digital Signal Processing, 2000] 참조, 이 문헌의 전체 내용은 참고로 본 명세서에 편입됨) 또는 음성학적-인식 심층 신경망 아키텍처(phonetically-aware deep neural network architecture)(문헌[Y. Lei et al., "A Novel Scheme for Speaker Recognition Using a Phonetically-Aware Deep Neural Network," Proceedings of ICASSP 2014] 참조, 이 문헌의 전체 내용은 참고로 본 명세서에 편입됨)를 사용하여 추정된 보편적 배경 모델(universal background model: UBM)에 기초한다. 가장 성공적인 기술은 총 가변성 패러다임을 사용하여 모든 스피치 발화에 UBM 모델을 적응시키는 것으로 이루어진다(문헌[N. Dehak et al., "Front-End Factor Analysis for Speaker Verification," IEEE Transactions on Audio, Speech, and Language Processing, Vol. 19, No. 4, pp. 788-798, May 2011] 참조, 이 문헌의 전체 내용은 참고로 본 명세서에 편입됨). 총 가변성 패러다임은 화자 및 채널에 대한 총 정보를 보존하는 "i-벡터"로서 알려진 저-차원 특징 벡터를 추출하는 것을 목표로 한다. 채널 보상 기술을 적용한 후, 결과적인 i-벡터는 화자의 성문 또는 음성 서명으로 고려될 수 있다.
이러한 접근법의 주요 결점은, 단지 인간 지각 시스템을 재생하도록 설계된 직접 만든 특징만을 사용함으로써, 이러한 접근법이 화자를 인식하거나 또는 검증하기 위해 중요한 유용한 정보를 폐기하려는 경향이 있다는 것이다. 통상적으로, 앞서 언급한 접근법은 Mel 주파수 캡스트럼 계수(Mel Frequency Cepstrum Coefficient: MFCC)와 같은, 저-레벨 특징을 이용하며, 고정된 수의 가우시안 분포(통상적으로 1024 또는 2048 가우시안)에 이러한 접근법을 맞추려고 시도한다. 이것은 가우시안 가정이 반드시 유지되는 것은 아닌 특징 공간에서 복잡한 구조를 모델링하는 것을 어렵게 한다.
본 발명은 화자의 아이덴티티의 검증의 태스크를 수행하기 위해 사용되거나 또는 폐쇄된 세트의 알려진 화자 간에 화자를 식별하는, 프론트-엔드 특징 추출기를 트레이닝하기 위해 삼중 망 아키텍처를 가진 심층 신경망을 이용하는 시스템에 관한 것이다.
예시적인 실시예에 따르면, 시스템은 메모리 디바이스 및 프로세서-기반 디바이스로 구성된다. 메모리 디바이스는, 동일한 화자에 기인한 스피치 샘플의 이중 세트, 이중 세트와 동일한 화자에 기인하지 않는 스피치 샘플의 코호트(cohort) 세트, 및 화자 모델의 세트를 포함하는 스피치 샘플을 저장한다. 또한, 프로세서-기반 디바이스는 삼중 망 아키텍처를 가진 심층 신경망을 모델링하도록 구성된다. 프로세서-기반 디바이스는 스피치 샘플의 이중 세트가 스피치 샘플의 코호트 세트와 조합하여 심층 신경망을 통해 공급되는 배취 프로세스(batch process)에 따라 심층 신경망을 트레이닝한다.
추가의 예시적인 실시예에 따르면, 심층 신경망은 제1 망 출력을 생성하기 위해 제1 입력을 수신하고 프로세싱하는 제1 피드-포워드 신경망, 제2 망 출력을 생성하기 위해 제2 입력을 수신하고 프로세싱하는 제2 피드-포워드 신경망, 및 제3 망 출력을 생성하기 위해 제3 입력을 수신하고 프로세싱하는 제3 피드-포워드 신경망을 포함할 수 있다. 또한, 복수의 화자의 각각에 대해서, 메모리 디바이스는 화자에 기인한 제1 세트의 P개의 스피치 샘플(x1, ..., xP) 및 화자에 기인한 제2 세트의 P개의 스피치 샘플
Figure 112020008926573-pat00001
을 포함하되, P는 2 이상의 정수이다. 심층 신경망은, 복수의 화자의 각각에 대해서, 심층 신경망이 대응하는 제1 세트의 스피치 샘플이 제1 피드-포워드 신경망을 통해 공급되고, 대응하는 제2 세트의 스피치 샘플이 제2 피드-포워드 신경망을 통해 공급되며, 스피치 샘플의 코호트 세트가 제3 피드-포워드 신경망을 통해 공급되는 배취 프로세싱을 수행하도록 프로세서-기반 디바이스에 의해 트레이닝된다. 배취 프로세싱의 완료 시, 손실 함수는 각각 대응하는 제1 세트의 스피치 샘플, 대응하는 제2 세트의 스피치 샘플, 및 스피치 샘플의 코호트 세트에 기초하여 획득된 제1 망 출력, 제2 망 출력 및 제3 망 출력에 기초하여 계산된다. 계산된 손실 함수는 역 전파 기술에 따라 제1, 제2 및 제3 피드-포워드 신경망의 각각에서 연결 가중치를 수정하기 위해 사용된다.
추가의 예시적인 실시예에 따르면, 앞서 언급된 손실 함수는, 제1 세트의 스피치 샘플(xi) 중 하나에 반응하는 제1 망 출력과 제2 세트의 스피치 샘플(
Figure 112020008926573-pat00002
)의 대응하는 것에 반응하는 제2 망 출력 간의 유사도(S+)에 대응하는 양의 거리(positive distance)(d+), 및 제1 세트의 스피치 샘플(xi) 중 하나에 반응하는 제1 망 출력과 코호트 세트의 각각의 스피치 샘플에 반응하는 제3 망 출력 중 가장 유사한 것 간의 유사도(S-)에 대응하는 음의 거리(d-)에 기초할 수 있다. 또한, 양의 거리(d+) 및 음의 거리(d-)는 대응하는 유사도(S+, S-)에 상이한 각각의 마진(M+, M-)을 적용함으로써 결정될 수 있다. 특히, 손실 함수는
Figure 112020008926573-pat00003
로서 정의될 수 있으며, 여기에서
Figure 112020008926573-pat00004
, d+ = 2(1-min((S+ + M+), 1), d- = 2(1-max((S+ + M- -1), 0),
Figure 112020008926573-pat00005
,
Figure 112020008926573-pat00006
,
Figure 112020008926573-pat00007
은 N회 반복 동안 공급된 N개의 음의 스피치 샘플 중 n번째 것이고, EVxi는 제1 세트의 스피치 샘플 중 하나에 반응하는 제1 망 출력이고,
Figure 112020008926573-pat00008
는 제2 세트의 스피치 샘플 중 하나에 반응하는 제2 망 출력이고,
Figure 112020008926573-pat00009
은 음의 스피치 샘플(
Figure 112020008926573-pat00010
)에 반응하는 제3 망 출력이고,
Figure 112020008926573-pat00011
, 그리고 K는 상수이다.
대안적인 예시적인 실시예에 따르면, 손실 함수는 동일 에러 레이트(EER) 메트릭에 관련될 수 있다. 이 경우에, 손실 함수는
Figure 112020008926573-pat00012
로서 정의될 수 있되, 여기서 μ+ 및 σ+는 가우시안 분포에 기초한 양의 인식 스코어의 평균 및 표준 편차이고, μ_ 및 σ_는 가우시안 분포에 기초한 음의 인식 스코어의 평균 및 표준 편차이다.
예시적인 실시예에 따르면, 삼중 망 아키텍처에서 이용된 피드-포워드 신경망의 각각은 적어도 하나의 컨볼루션층(convolutional layer), 적어도 하나의 최대-풀링층(max-pooling layer) 및 완전 연결층(fully connected layer)을 포함할 수 있다.
더욱이, 일 예시적인 실시예에서, 본 발명은 사용자가 자체-식별을 입력하는 화자 검증 태스크를 수행하기 위해 사용될 수 있으며, 인식 스피치 샘플은 사용자의 아이덴티티가 자체-식별과 동일함을 확인하기 위해 사용된다. 또 다른 예시적인 실시예에서, 본 발명은 인식 스피치 샘플이 각각의 스피치 샘플과 관련하여 저장된 복수의 잠재적인 아이덴티티로부터 사용자를 식별하기 위해 사용되는 화자 식별 태스크를 수행하기 위해 사용될 수 있다. 앞서 언급된 실시예는 상호 배타적이지 않으며, 동일한 삼중 신경망은 양쪽 태스크 모두를 수행하기 위해 사용될 수 있다.
도 1은 본 발명의 예시적인 실시예에 따른 화자 인식을 수행하기 위한 시스템을 예시한다.
도 2a는 본 발명의 예시적인 실시예에 따라, 트레이닝 시 사용을 위한 삼중 망 아키텍처를 가진 심층 신경망의 일반적인 구조를 예시한다.
도 2b는 본 발명의 예시적인 실시예에 따라, 특정한 사용자에 대한 등록 및 검사 시 사용을 위한 삼중 망 아키텍처를 가진 심층 신경망의 일반적인 구조를 예시한다.
도 3a는 트레이닝 시 사용을 위해, 사전-프로세싱된 스피치 샘플을 수신하도록 설계된, 삼중 망 아키텍처를 가진 심층 신경망의 구조의 특정 예를 예시한다.
도 3b는 특정한 사용자에 대한 등록 및 검사 시 사용을 위한 심층 신경망 아키텍처의 구조의 특정 예를 예시한다.
도 3c는 트레이닝 시 사용을 위해, 원 스피치 샘플을 프로세싱하도록 설계된, 삼중 망 아키텍처를 가진 심층 신경망의 구조의 또 다른 특정 예를 예시한다.
도 4는 본 발명의 예시적인 실시예에 따른 화자 인식을 위한 일반적인 프로세스의 흐름도를 예시한다.
도 5는 본 발명의 예시적인 실시예에 따라, 화자 인식을 수행하기 위해 삼중 망 아키텍처의 심층 신경망을 이용하는 프로세스의 흐름도를 예시한다.
도 6은 본 발명의 예시적인 실시예에 따라, 삼중 망 아키텍처를 가진 심층 신경망을 트레이닝하기 위한 프로세스의 흐름도이다.
도 7은 소프트맥스 함수(softmax function)를 통합하도록 설계되며 화자 식별을 구체적으로 수행하기 위해 사전-트레이닝되는, 삼중 망 아키텍처를 가진 심층 신경망의 구조의 예를 예시한다.
본 발명의 보다 상세한 설명은 이제 수반되는 도면을 참조하여 제공될 것이다.
본 발명의 예시적인 실시예는 텍스트-독립적 화자 인식을 행하기 위해, 삼중 망 아키텍처를 가진 심층 신경망(DNN)을 이용하는 시스템 및 방법에 관한 것이다. 용어 "심층 신경망" 및 "DNN"은 다수의 선형 및 비-선형 변환 함수로 구성된, 다수의 은닉층을 가진 신경망을 나타낸다. 본 출원에서, 화자 인식의 두 개의 서브태스크, 즉, 검증 및 식별이 고려된다. 본 출원의 목적을 위해, "검증"은 실제 화자가 그/그녀가 주장하는 사람인지를 검출하는 태스크를 나타내는 반면, "식별"은 화자의 미리 결정된 리스트로부터 화자의 아이덴티티를 검색하는 태스크를 나타낸다. 이하에서 설명되는 본 발명의 원리는 이들 서브태스크 중 하나 또는 양쪽 모두에 적용될 수 있다. 또한, 본 출원에서, 용어 "사용자"는 때때로 DNN이 인식하도록 트레이닝되는 특정한 화자를 나타내기 위해 사용될 것이다.
화자 인식을 수행하기 위한 DNN의 사용은, DNN이 저-레벨 특징을 나타내고 이러한 저-레벨 특징을 고-레벨 특징에 매핑시키는 것을 더 잘하기 때문에, 가우시안 혼합 모델(GMM)을 사용하여 추정된 범용 배경 모델(UBM)을 이용하는 다른 접근법에 비해 유리하다. 저-레벨 특징은 원시 스피치 신호만큼 낮을 수 있다. 고-레벨 특징은 스피치 신호의 총 가변성을 보존하는 성문이다. 이와 같이, DNN에 의해 추출된 성문은 UBM/GMM에 의해 획득된 i-벡터를 닮을 수 있지만, 우수한 결과를 제공한다.
도 1은 본 발명의 예시적인 실시예에 다른 화자 인식을 수행하기 위한 시스템을 예시한다. 도 1에 따르면, 사용자 또는 화자는 발화된 사운드를 전기 신호로 변환하기 위해 마이크로폰을 포함하는 입력 디바이스(10)에 말을 할 수 있다. 특히 도 1에 도시된 바와 같이, 입력 디바이스(10)는 전화기(셀룰러 또는 일반 전화) 또는 컴퓨터 또는 VoIP(voice over internet) 통신이 가능한 다른 프로세서 기반 디바이스와 같은, 전기 통신이 가능한 디바이스일 수 있다. 사실상, 본 발명은 구체적으로 전화 사기에 대해 보호하기 위해, 예로서 호출자가 그/그녀가 주장하는 사람임을 검증하거나, 또는 "블랙리스트" 또는 "차단된 호출자 리스트" 상에서의 누군가로서 호출자의 아이덴티티를 검출하는 애플리케이션에서 이용될 수 있다는 것이 고려된다.
도 1에 따르면, 화자 식별을 수행하기 위해 사용되는 사용자의 말은 본 명세서에서 "인식 스피치 샘플"로서 불릴 것이다. 인식 스피치 샘플은 입력 디바이스(10)로부터 화자 인식 서브시스템(20)으로 전기적으로 송신될 수 있다. 인식 스피치 샘플이 말한 입력 디바이스(10)는 전기통신 디바이스(예로서, 전화)일 수 있다는 것이 고려되지만, 이것은 그 경우일 필요는 없다. 예를 들면, 입력 디바이스(10)는 간단히 화자 인식 서브시스템(20)에 아주 근접하여 위치된 마이크로폰일 수 있다.
도 1의 화자 인식 서브시스템(20)은, 삼중 망 아키텍처(이의 세부사항은 이하에서 보다 상세하게 설명될 것임)를 가진 심층 신경망을 모델링하도록 프로그램된, 서버 또는 범용 개인 컴퓨터(PC)일 수 있는, 컴퓨팅 시스템(22)을 포함할 수 있다. 그러나, 컴퓨팅 시스템(22)은 단일 디바이스로 엄격하게 제한되지 않으며, 대신에 본 명세서에서 설명된 동작을 수행하기 위해 협력하여 작동하는 다수의 컴퓨터 및/또는 디바이스를 포함할 수 있다(예로서, DNN의 트레이닝은 하나의 컴퓨팅 디바이스에서 발생할 수 있지만, 실제 검증/식별 태스크는 또 다른 것에서 수행된다)는 것에 유의해야 한다. 단일 또는 다수의 중앙 처리 장치(CPU)는 트레이닝 및 검사 양쪽 모두를 위한 컴퓨팅 디바이스로서 사용될 수 있지만, 그래픽 처리 장치(GPU)가 또한 사용될 수 있다. 예를 들면, 컴퓨팅 시스템(22)에서 GPU의 사용은 특히, 트레이닝 동안, 계산 비용을 감소시키도록 도울 수 있다.
도 1에 도시된 바와 같이, 화자 인식 서브시스템(20)은 또한 예시적인 실시예에서 DNN을 트레이닝하기 위해 사용된 메모리 디바이스(24)를 포함한다. 특히, 이러한 메모리 디바이스(24)는 다수의 사용자 또는 화자로부터의 복수의 샘플링된 스피치 신호(또는 "스피치 샘플"), 뿐만 아니라 화자 등재 서브시스템(20)에 "등록된" 사용자에 대해 획득된 복수의 등재된 성문(registered voiceprint)을 포함할 수 있다. 특히, 메모리 디바이스(24)는 DNN에 대하여 수행될 각각의 기능에 대응하는 두 개의 상이한 데이터세트, 즉, 트레이닝 및 검사를 포함한다.
본 발명의 예시적인 실시예에 따른 트레이닝의 함수와 관련하여, DNN은 다수의 화자에 대응하는 양의 샘플, 뿐만 아니라 N개의 음의 샘플에 따라 트레이닝된다. 트레이닝을 행하기 위해, 메모리 디바이스(24)는 바람직하게는 다수의 화자의 각각으로부터 실제 말로서 획득된 적어도 두 개의 화자 샘플을 포함하는 데이터세트를 포함할 것이다. 이들 스피치 샘플은 관련 화자에 대해 "양의 스피치 샘플"로 불린다. 메모리 디바이스(24)에서, DNN을 트레이닝하기 위한 데이터세트는 또한 앞서 언급한 화자의 각각에 대하여 N개의 "음의 스피치 샘플"을 포함할 것이다. 이들 음의 스피치 샘플은 관련 화자와는 상이한 사람에 의한 말에 대응한다. 특정한 예에서, 1000개의 음의 스피치 샘플(즉, N = 1000)은 DNN을 트레이닝하기 위해 사용된 다수의 화자의 각각과 관련하여 사용될 수 있다. 그러나, 개수 N은 1000보다 높거나 또는 낮을 수 있다. 알려지지 않은 기원의 스피치 샘플은, 이러한 스피치 샘플이 DNN을 트레이닝하기 위해 현재 사용된 것과는 상이한 화자(i)에서 비롯되었다는 것이 확인될 수 있는지 여부에 관계없이, N개의 음의 스피치 샘플 중 하나로서 사용될 수 있다는 것에 또한 유의해야 한다.
메모리 디바이스(24)는 "검사" 기능을 수행하기 위해 또 다른 데이터세트를 포함할 수 있으며, 그에 의해 DNN은 사용자를 긍정적으로 검증하거나 또는 식별함으로써 실제 화자 인식을 수행한다. 이러한 기능을 수행하기 위해, 데이터세트는, (이하에서 보다 상세하게 설명될) 화자 인식 서브시스템(22)에 사용자를 "등록한" 결과로서 획득될 수 있는, 특정한 사용자의 단지 하나의 양의 스피치 샘플만을 요구한다. 또한, 이러한 데이터세트는 시스템에 의해 검증/식별될 수 있는 각각의 사용자에 대응하는, 하나 이상의 등재된 성문을 포함할 수 있다.
도 1을 재차 참조하면, 화자 인식 분석의 결과는 호출자(즉, 사용자)를 인증하도록 요구하는, 즉 호출자가 그/그녀가 주장하는 사람임을 검증하는 최종 애플리케이션(30)에 의해 사용될 수 있다. 대안으로서, 최종 애플리케이션(30)은 미리 정의된 리스트(예로서, 블랙리스트 또는 차단된 호출자)에 있는 임의의 호출자를 식별하도록 요구할 수 있다. 이것은 발신 번호 표시(calling line identification: CLID)(때때로 "호출자 ID"로 지칭됨)에 의한 검출을 피하기 위해 전화 번호를 도용하는 악의적인 호출자를 검출하도록 도울 수 있다. 그러나, 본 발명은 악의적인 호출자를 걸러내도록 설계된 애플리케이션(30)에 의해 사용될 수 있지만, 본 발명은 이들 유형의 애플리케이션(30)으로 제한되지 않는다. 예를 들면, 본 발명은 유리하게는, 예로서 음성 생체 인식이 룸, 리소스 등으로의 액세스를 해제하기 위해 사용되는, 다른 애플리케이션(30)에서 사용될 수 있다.
다양한 수정이 도 1에 예시된 시스템에 대해 이루어질 수 있다는 것에 유의해야 한다. 예를 들면, 입력 디바이스(10)는 인식 스피치 샘플을 직접 최종 애플리케이션(30)으로 송신할 수 있으며, 이것은 결국 인식 스피치 샘플을 화자 인식 서브시스템(20)으로 전달한다. 이 경우에, 최종 애플리케이션(30)은 또한 자체-식별을 나타내는 사용자로부터 몇몇 형태의 입력을 수신할 수 있다. 예를 들면, 화자 식별 태스크를 수행한 경우에, 최종 애플리케이션(30)은 그 또는 그녀 자신을 식별하도록 (들릴 수 있게 또는 다른 형태의 입력에 의해) 사용자에게 요청하며, 인식 스피치 샘플 및 사용자의 주장된 아이덴티티 양쪽 모두를 인증을 위해 스피치 인식 서브시스템(20)으로 전송할 수 있다. 다른 경우에서, 사용자의 자체-식별은, CLID에 의해 획득된 바와 같이, 사용자의 주장된 전화 번호로 이루어질 수 있다. 더욱이, 도 1에 예시된 다양한 요소의 각각의 위치에 관하여 어떤 제한도 없다. 특정한 상황에서, 최종 애플리케이션(30)은 사용자로부터 멀리 떨어질 수 있으며, 따라서 최종 애플리케이션(30)과 상호 작용하기 위해 사용자에 대한 전기통신의 사용을 요구한다. 대안적으로, 사용자(및 입력 디바이스(10))는 예로서, 애플리케이션(30)이 음성-활성화 보안 게이트 등을 제어한다면, 사용 시 최종 애플리케이션(30)에 매우 근접할 수 있다.
도 2a는 본 발명의 예시적인 실시예에 따라, 트레이닝 동안 사용을 위한 삼중 망 아키텍처를 가진 심층 신경망(DNN)의 일반적인 구조를 예시한다. 또한, 도 2a는 P개의 오디오 샘플, 이들의 대응하는 P개의 양의 샘플, 및 N개의 음의 스피치 샘플의 코호트 세트가 제1, 제2 및 제3 피드-포워드 신경망을 트레이닝하기 위해 사용되는 배취 프로세스의 사용을 개념적으로 예시한다.
도 2a에서, DNN은 동일한 피드-포워드 신경망(212, 222 및 232)의 3개의 인스턴스로 이루어지며, 이것은 동일한 파라미터를 공유한다. (도면에 나타낸 바와 같이) 공유된 파라미터를 이용해서, 3개의 피드-포워드 신경망(212, 222, 232)은 층의 수 및 구성, 층 간 연결 가중치 등이 동일하다. 이들 피드 포워드 신경망(212, 222, 232)은 각각, 입력(210, 220, 230)을 통해 3개의 상이한 샘플을 제공받는다. 특히, DNN이 트레이닝됨에 따라, DNN은 제1 피드-포워드 신경망(212) 및 제2 피드-포워드 신경망(222)이, 각각의 입력(210 및 220)을 통해, 각각 xi(i = 1, ..., P)로서 지정된, P개의 스피치 샘플의 세트, 및 각각이
Figure 112020008926573-pat00013
로서 지정된, P개의 양의 스피치 샘플의 대응하는 세트를 공급받는 배취 프로세싱을 수행할 수 있다. 스피치 샘플의 이들 두 개의 세트는 동일한 화자에 의해 말하여진다(따라서 그것에 기인한다). 또한, 제3 피드-포워드 신경망(232)은 배취 프로세싱 동안 입력(230)을 통해 음의 스피치 샘플(
Figure 112020008926573-pat00014
)의 공통 코호트 세트를 공급받는다. 코호트 세트에서 음의 스피치 샘플은 P개의 샘플의 앞서 언급한 세트와 동일한 화자에 의해 말하여지지 않으며(또는 적어도 그것에 의해 말하는 것으로 알려지지 않으며), 따라서 동일한 화자에 기인하지 않는다. 제1 피드-포워드 신경망(212)의 출력(214)은 샘플(xi)에 반응하는 제1 세트의 P 내장 벡터를 생성하며, 제2 피드-포워드 신경망(222)의 출력(224)은 샘플(
Figure 112020008926573-pat00015
)에 반응하는 제2 세트의 P개의 내장 벡터를 생성한다. 또한, 제3 피드-포워드 신경망(232)의 출력(234)은 코호트 세트에서 음의 스피치 샘플에 반응하는 제3 세트의 N개의 내장 벡터를 생성한다. 주어진 배취가 프로세싱된 후, 이들 내장 벡터는 손실을 계산하기 위해 사용되며(이하에서 보다 상세하게 설명될 것이며), 손실은 역-전파 기술에 따라 3개의 피드-포워드 신경망(212, 222, 232)에서 연결 가중치를 수정하기 위해 사용된다.
더욱이, 도 2b에 도시된 바와 같이, 또 다른 피드-포워드 신경망(242)은 DNN의 트레이닝이 완료된 후 사용자에 의해 (입력 디바이스(10)를 통해) 입력된 인식 스피치 샘플에 기초하여 실제 화자 인식을 수행하기 위해 사용된다. 제1, 제2 및 제3 피드-포워드 신경망(212, 222, 232)은 공유된 파라미터를 통합하며, 그에 따라 DNN의 트레이닝이 완료될 때 서로 동일하므로, 이들 3개의 피드-포워드 신경망 중 임의의 하나는 화자 인식을 수행하는 피드-포워드 신경망(242)으로서 상호 교환 가능하게 사용될 수 있다. 대안적으로, 3개의 피드-포워드 신경망(212, 222, 232) 간에 공유된 파라미터를 통합하는 피드-포워드 신경망의 새로운 인스턴스는 사용자의 등록 및/또는 검사(화자 인식) 시 사용을 위해 도 2b의 피드-포워드 신경망(242)으로서 사용될 수 있다. 이러한 피드-포워드 신경망(242)에 따라 수행된 등록 및 검사는 이하에서 보다 상세하게 설명될 것이다.
이제, 부가적인 세부사항이 DNN의 설계 시 제공될 것이다. 이하에서 논의될 바와 같이, 컨볼루션 신경망(CNN)의 양상은 제1, 제2 및 제3 피드-포워드 신경망(212, 222, 232)의 각각에 적어도 하나의 컨볼루션층을 통합함으로써 DNN의 것들과 조합될 수 있다. 또한, 각각의 컨볼루션층은 3개의 치수, 즉, 높이, 폭 및 깊이의 뉴런을 갖는다.
도 3a는 DNN을 트레이닝할 때 사용을 위한 삼중 망 아키텍처를 가진 DNN의 구조의 특정 예를 예시한다. 도 3a에 도시된 바와 같이, 제1, 제2 및 제3 피드-포워드 신경망(212, 222, 232)의 각각은 최대-풀링층에 연결된 제1 컨볼루션층, 제2 최대-풀링층에 앞서 제2 컨볼루션층, 그 다음의 완전 연결층, 및 내장 벡터를 포함하는 출력층을 포함할 수 있다. 그러나, 트레이닝의 마무리 시, 피드-포워드 신경망(212, 222, 232)의 각각의 출력층은 입력된 샘플의 특징 표현(즉, 성문)을 생성하도록 구성될 것이다.
제1, 제2 및 제3 피드-포워드 신경망(212, 222, 232)의 각각의 입력(210, 220, 230)이 도 3a에 또한 도시된다. 예시적인 실시예에 따르면, 피드-포워드 신경망(212, 222, 232)의 각각에 입력되기 전에, 스피치 샘플(스피치 샘플(xi), 양의 스피치 샘플(
Figure 112020008926573-pat00016
), 및 음의 스피치 샘플(
Figure 112020008926573-pat00017
)을 포함)의 각각은 대응하는 말의 "이미지"를 생성하도록 사전 프로세싱될 수 있다. 이러한 사전 프로세싱은 신호의 비-스피치 부분을 폐기하기 위해 음성 활동 검출을 이용하는 것을 포함할 수 있다. 사전 프로세싱은 또한 기본 스피치 신호를 특정한 수(W)의 중첩 윈도우로 분할하는 것, 및 W개의 중첩 윈도우의 각각으로부터 특정한 수(F)의 특징(예로서, Mel 필터뱅크 특징)을 추출하는 것을 포함할 수 있다. 청구항을 제한하는 것으로 해석되지 않을, 이러한 사전-프로세싱의 특정 예가 이제 설명될 것이다. 이러한 비-제한적인 예에서, 이미지는 기본 스피치 신호를, 10밀리초의 중첩(또는 윈도우 시프트)과 함께, 20-밀리초 지속 기간의 윈도우로 분할함으로써 각각의 스피치 샘플에 대해 생성될 수 있다. 또한, 각각의 샘플에 대한 이미지는 500개의 앞서 언급한 중첩 윈도우(W = 500)를 포함할 수 있으며, 40개 Mel 필터뱅크 특징(F = 40)은 각각의 윈도우로부터 추출된다(그에 의해 입력(210, 220, 230)의 각각에서 크기 40×500의 이미지를 야기한다). 이것은 5초의 지속 기간을 가진 스피치 샘플에 대응할 것이다(40-차원 특징 벡터는 10 밀리초마다 추출된다). 그러나, 이것은 단지 예이며, 상이한 말 지속 기간, 상이한 수의 윈도우, 및 상이한 수 및 유형의 특징이 사용될 수 있다는 것에 유의해야 한다. 다시 말해서, 상이한 유형의 스피치 "이미지"가 DNN에 적용될 수 있다.
앞서 언급한 사전 프로세싱은 관련 스피치 샘플이 메모리 디바이스(24)에 저장되기 전 또는 후에 수행될 수 있다는 것에 유의해야 한다. 사용자로부터 인식 스피치 샘플을 입력하는 디바이스(10), 및 양의 및 음의 스피치 샘플을 입력하기 위해 사용되는 다른 유형의 스피치 송신/기록 디바이스가 앞서 언급한 사전 프로세싱의 동작 중 일부 또는 모두를 수행하기 위해 구성될 수 있다는 것이 또한 고려된다.
도 3a를 재차 참조하면, 입력 신호가 설명된 바와 같이 크기 F×W의 사전 프로세싱된 이미지라고 가정하면, 제1, 제2 및 제3 피드-포워드 신경망의 각각의 제1 컨볼루션층은 이러한 이미지를 프로세싱하기 위해 적절한 개수(NC)의 컨볼루션 필터를 포함할 수 있다. 또한, 이러한 층에서 각각의 컨볼루션 필터는 대응하는 윈도우의 특징을 프로세싱하도록 구성될 수 있으며, 따라서 F×wf 신경 유닛(또는 "뉴런")의 크기를 가질 수 있다. 이와 같이, 각각의 컨볼루션 필터는 특징(F)의 수에 비례하는 높이, 및 다양한 고려사항에 기초하여(예로서, 스피치의 역학을 감안하기 위해, 프로세싱 및 메모리 요건을 충족시키기 위해 등) 선택될 수 있는 폭(wf)을 가질 것이다.
도 3a의 피드-포워드 신경망(212, 222, 232)에서 제1 컨볼루션층의 구성의 특정 비-제한적인 예가 이제 설명될 것이다. 이러한 예의 목적을 위해, 입력된 이미지는 사전 프로세싱(5초의 스피치에 대응하는, 10 밀리초마다 추출된 40-차원 특징 벡터를 이용)에 관한 이전 비-제한적인 예와 관련하여 위에서 언급된 바와 같이 40×500의 크기(F×W)로 사전 프로세싱된다고 가정될 수 있다. 이 경우에, 제1, 제2 및 제3 피드-포워드 신경망의 각각의 제1 컨볼루션층은 256개의 컨볼루션 필터(NC = 256)를 포함할 수 있으며, 각각의 필터는 40개의 뉴런의 높이(각각의 윈도우로부터 추출된 40개 특징에 대응함), 및 5개를 초과하지 않는 뉴런(예로서, 1 또는 3개의 뉴런)의 폭(wf)을 갖는다. 이 경우에, 도 3a에서 제1 컨볼루션층의 깊이는 256일 것이고, 이 층의 높이는 40일 것이며, 층의 폭은 wf≤5일 것이다. 또한, 이러한 비-제한적인 예에서, 제1 컨볼루션층에서 엔트리 뉴런은 입력 이미지의 다수의 윈도우에 연결될 수 있다.
상기 내용은 비-제한적인 예이며, 제1 컨볼루션층의 깊이 및 높이 치수는 각각, 앞서 언급한 256 및 40과는 상이할 수 있다는 것에 유의해야 한다. 이 경우에, 그러나, 깊이(즉, 컨볼루션 필터(NC)의 수)는 바람직하게는 입력된 이미지에서 중첩 윈도우의 수 이하일 것이지만, 높이는 바람직하게는 관련 스피치 샘플의 사전 프로세싱 동안 윈도우의 각각으로부터 추출된 특징(예로서, Mel 필터뱅크 특징)의 수와 같을 것이라는 것이 제안된다.
도 3a를 재차 참조하면, 피드-포워드 신경망(212, 222, 232)의 각각에서 제1 컨볼루션층 다음에, 크기(sm)의 1-차원 최대-풀링층이 제공된다. 최대-풀링층은 일시적으로 입력된 시퀀스로부터의 최대 값을 계산하는 층이다. 도 3a에서, 최대-풀링층의 결과는, NC개의 컨볼루션 필터로 구성된, 제2 컨볼루션층으로 제공된다. 그러나, 이들 필터의 크기는 반드시 제1 컨볼루션층에서의 것과 동일한 것은 아니다. 비-제한적인 예에서, 이러한 제2 컨볼루션층의 높이 및 폭은 1일 수 있다. 더욱이, 도 3a에 따르면, 최종 전역적 최대-풀링층은 결과적인 내장 벡터를 입력된 이미지의 지속 기간에 덜 민감하게 만들기 위해, 전체 시간 축에 걸쳐 적용된다. 다음 층은 완전 연결층 및 출력층이며, 예로서 각각은 NC개의 뉴런을 갖는다. 출력층은 트레이닝 동안 내장 벡터를 제공하지만, 트레이닝 후 특징 표현, 즉 샘플을 발생시킨 화자의 성문 또는 음성 서명을 생성하도록 구성된다. 구체적으로, 각각의 제1, 제 2, 및 제3 피드-포워드 신경망(212, 222, 232)의 출력층은 이전에 DNN의 제1, 제2 및 제3 망 출력(214, 224, 234)으로 불렸던 것이다.
예를 들면, 트레이닝 동안, 스피치 샘플(
Figure 112020008926573-pat00018
)의 이미지가 제1 피드-포워드 신경망(212)을 통해 공급될 때, 제1 망 출력(214)은,
Figure 112020008926573-pat00019
에 대한 내장 벡터를 나타내는, EVxi로서 심볼화될 수 있는 결과를 생성한다. 유사하게, 양의 스피치 샘플(
Figure 112020008926573-pat00020
)의 이미지가 제2 피드-포워드 신경망(222)을 통해 공급될 때, 제2 망 출력(224)은
Figure 112020008926573-pat00021
에 대한 내장 벡터를 나타내는,
Figure 112020008926573-pat00022
로서 심볼화될 수 있는 결과를 생성한다. 유사하게, 음의 스피치 샘플(
Figure 112020008926573-pat00023
)의 이미지가 제3 피드-포워드 신경망(232)을 통해 공급될 때(n은 1과 N 사이의 임의의 정수임), 제3 망 출력(234)은
Figure 112020008926573-pat00024
에 대한 내장 벡터를 나타내는
Figure 112020008926573-pat00025
로서 심볼화될 수 있는 결과를 생성한다.
도 3a에 도시된 바와 같이, 트레이닝 샘플의 주어진 배취가 프로세싱된 후, 손실 함수는 제1, 제2 및 제3 피드-포워드 신경망(212, 222, 232)의 각각의 출력(214, 224, 234)에 기초하여 산출될 수 있다. 계산된 손실 함수는, DNN에서 가중치 모두에 대하여 손실 함수의 기울기를 계산하는 것을 목표로 하는, "확률적 기울기 하강(stochastic gradient descent)" 최적화기를 이용하는 역전파 알고리즘을 사용하여 DNN의 각각의 신경망(212, 222, 232)을 트레이닝하기 위해 사용될 수 있다. 최적화기의 목적은, 손실 함수를 최소화하기 위해, 가중치를 업데이트하는 것이다. 그러나, 다른 유형의 역전파 알고리즘이 사용될 수 있다는 것이 또한 고려된다. 도 3a의 예에서, 손실 함수는 제1 컨볼루션층, 제2 컨볼루션층 및 완전 연결층의 각각에서 연결 가중치를 업데이트하기 위해 사용될 수 있다. 트레이닝 알고리즘에 관한 보다 많은 세부사항이 도 6과 관련하여 이하에서 논의될 것이다.
이제, 특정한 사용자에 대한 등록 및 검사 시 사용을 위한 DNN 아키텍처의 특정 예를 예시하는 도 3b를 참조할 것이다. 특히, 도 3b는 등록 및 검사 기능을 수행하기 위한 피드-포워드 신경망(242)을 예시한다. 도 2b와 관련하여 위에서 언급된 바와 같이, 도 3b에서 피드-포워드 신경망(242)의 구성 및 파라미터는 도 3a의 DNN이 트레이닝된 후 제1, 제2 및 제3 피드-포워드 신경망(212, 222, 232)의 각각과 동일한 구성 및 파라미터를 공유할 것이다. 이와 같이, 트레이닝의 끝맺음에서, 제1, 제2 및 제3 피드-포워드 신경망(212, 222, 232) 중 임의의 것은 도 3b의 피드-포워드 신경망(242)으로서 사용될 수 있거나, 또는 공유된 파라미터 및 구성을 통합한 신경망의 새로운 인스턴스가 사용될 수 있다.
도 3b에 도시된 바와 같이, 신경망(242)은 스피치 샘플의 사전 프로세싱에 의해 생성된 이미지를 그의 입력(240)에서 수신할 수 있다. 등록 또는 검사가 수행되는지에 의존하여, 입력된 이미지는 특정한 사용자를 등록하거나 또는 등재할 목적으로 입력된 스피치 샘플(즉, "등록 스피치 샘플"), 또는 화자 인식이 행해질 스피치 샘플(즉, "인식 스피치 샘플)에 대응할 것이다. 일단 입력된 이미지가 피드-포워드 신경망(242)을 통해 공급되면, 출력층(240)은 대응하는 특징 프리젠테이션(즉, 성문)을 생성할 것이다. 출력층(240)에 의해 생성된 각각의 특징 표현은 i-벡터를 닮을 수 있지만, DNN에 의해 생성되었으므로 화자의 음성에서 저-레벨 특징을 보다 양호하게 나타내도록 설계된다.
위에서 언급된 바와 같이, 도 3a 및 도 3b 양쪽 모두에서의 예시적인 DNN 아키텍처는 각각의 입력된 스피치 샘플이 이미지로서 사전 프로세싱된다는 가정에 기초한다. 그러나, 이것은 그 경우일 필요는 없다. 예를 들면, DNN은 도 3c가 입력으로서 원 스피치 샘플을 프로세싱하기 위해 삼중 망 아키텍처를 갖는 심층 신경망의 예를 예시하는 상이한 삼중 망 아키텍처를 취할 수 있다. 특히, 도 3c에 도시된 바와 같이, 각각의 피드-포워드 신경망(212, 222 및 232)의 각각의 입력(210, 220 및 230)에서 수신된 스피치 샘플은 도 3a 및 도 3b와 관련하여 위에서 설명된 방식으로 사전 프로세싱되지 않는다. 대신에, 각각의 입력된 샘플은 일련의 샘플을 획득하기 위해 원 스피치 신호(예로서, 입력 디바이스(10)를 통해 입력된 바와 같이)를 샘플링함으로써 획득된 신호를 구성한다. 또한, 도 3c의 특정한 예에서 도시된 바와 같이, 제1, 제2 및 제3 피드-포워드 신경망(212, 222, 232)의 각각은 도 3a와 관련하여 설명된 것과 유사한 다른 층의 앞에 배치되는, 부가적인 컨볼루션층 및 로컬 최대-풀링을 포함한다. 원 스피치 샘플을 수신하는 것으로 도시되는, 도 3c의 부가된 컨볼루션층은 원 스피치 샘플로부터 추출될 특징의 수에 대응하는 수(F)의 컨볼루션 필터로 구성된다. 부가된 최대-풀링층은 크기(sml)의 1-차원 층일 수 있다. 이들 부가적인 층은 도 3a 및 도 3b와 관련하여 위에서 설명된 사전 프로세싱과 유사한 변환을 적용하도록 구성될 수 있다.
이제, 본 발명의 예시적인 실시예에 따라 화자 인식을 위한 일반 프로세스(400)의 흐름도를 예시하는 도 4를 참조할 것이다. 이러한 도면에서 동작(S410)에 따르면, 삼중 망 아키텍처를 가진 DNN이 트레이닝된다. 특정한 사용자에 대한 화자 인식을 행하기 위해, DNN은 다른 화자(및, 가능하게는, 알려지지 않은 화자)로부터 획득된 다수의 음의 스피치 샘플과 조합하여, 사용자로부터 획득된 적어도 하나의 양의 스피치 샘플에 기초하여 트레이닝될 것이라는 것이 고려된다. 도 4에 예시된 바와 같이, DNN을 트레이닝하기 위해 사용된 스피치 샘플은 메모리 디바이스(24) 내 저장소로부터 추출될 수 있다. DNN이 트레이닝된 후, 특정한 사용자가 동작(S420)에서 화자 등재 서브시스템(20)에 의해 등재되거나 또는 등록될 수 있다. 이것은 "화자 모델"이 화자 검증을 수행하기 위해 동일한 사용자의 특징 표현 또는 성문과의 미래 비교의 목적을 위해, 특정한 사용자에 대해 생성될 수 있음을 의미한다. 그 후, 인식 스피치 샘플이 동작(S430)에서 획득된다. 인식 스피치 샘플은, 예로서 입력 디바이스(10)로부터 획득될 수 있다. 도 4의 동작(S440)에서, 인식 스피치 샘플은 DNN(즉, 신경망(242))을 통해 공급되며, 인식 스피치 샘플에 반응하는 DNN의 출력은 화자 인식을 수행하기 위해, 즉 DNN 출력에 기초하여 사용자를 검증하거나 또는 식별하기 위해 (앞서 언급한 화자 모델과 함께) 동작(S450)에서 사용된다.
도 5는 본 발명의 예시적인 실시예에 따라, 특정한 사용자에 대한 화자 인식을 행하기 위한 보다 특정한 프로세스(500)의 흐름도를 예시한다. 도 5의 동작(S510)에서, 제1, 제2 및 제3 피드-포워드 신경망(212, 222, 232)으로 구성된 DNN은 메모리 디바이스(24)에 저장된 스피치 샘플을 사용하여 컴퓨터 시스템(22)에 의해 트레이닝된다. 이러한 트레이닝 프로세스의 예시적인 실시예는 도 6과 관련하여 보다 상세하게 설명될 것이다. 메모리 디바이스(24)는 복수의 상이한 사용자에 대응하는 배취에서 DNN을 트레이닝하는데 유용한 스피치 샘플의 뱅크를 포함할 수 있다는 것에 유의해야 한다. 그러므로, S510에 따라, DNN을 트레이닝하는 것은 화자에 따라 메모리 디바이스(24)에서 스피치 샘플을 분류하고 추출하기 위한 임의의 필요한 단계를 포함할 수 있다.
DNN이 S510의 결과로서 트레이닝된 후, 컴퓨터 시스템(22)은 등재된(또는 등록된) 사용자의 리스트에 관하여 화자 인식을 수행하기 위해 DNN을 사용하도록 동작 가능하다. 이것은 DNN이 화자가 등재된(등록된) 사용자 중 하나인 것으로 주장하는 사람이, 사실상 그/그녀가 주장하는 사람인지를 결정함으로써 검증을 수행할 수 있다는 것을 의미한다. 또한 DNN은 그/그녀가 실제로 등재된(등록된) 사용자의 리스트 상에 있다면 익명 화자를 식별할 수 있음을 의미하며, 화자가 이러한 리스트 상에 없다면, 화자가 알려지지 않았음을 나타낸다. 이와 같이, 본 발명의 예시적인 실시예에서, 화자 모델은 등록되거나 또는 등재되는 각각의 사용자에 대해 생성된다. 이러한 화자 모델을 생성하는 특정한 예는, 특정한 사용자를 등록하기 위해, 도 5의 동작(S520 및 S525)과 관련하여 개시된다.
도 5의 동작(S520)에서, 특정한 사용자의 등록이 대응하는 등록 스피치 샘플(즉, 특정한 사용자에 의해 실제로 발언된 스피치 샘플)을 수신함으로써 개시된다. 동작(S525)에서, 등록 스피치 샘플은 대응하는 성문(또는 특징 표현)을 출력하기 위해 (도 2b 및 도 3b와 관련하여 위에서 설명된 바와 같이) 피드-포워드 신경망(242)을 통해 공급된다. 피드-포워드 신경망(242)에 의해 생성된 성문은 그 다음에 메모리 디바이스(24)에 저장되며 등재된 사용자를 위한 화자 모델로서 사용될 수 있다. 또한, 사용자로부터의 하나 이상의 등록 스피치 샘플이 수신되며, 사용자를 등재하기 위해 사용될 수 있는 것이 가능하다. 이 경우에, 다수의 등록 샘플은 사용자에 대한 다수의 성문을 생성하기 위해 피드-포워드 신경망(242)을 통해 공급될 수 있다. 이 경우에, 평균 벡터는 다수의 성문으로부터 계산되며, 사용자를 위한 화자 모델로서 사용될 수 있다.
도 5의 동작(S520 및 S525)은 예시적인 실시예에 따라, DNN의 "등록" 기능의 예를 설명한다. 그러나, 등재된 사용자에 대한 화자 모델을 생성하기 위해, DNN이 앞서 언급된 방식으로 사용되는 것은 본 발명의 요건이 아니다.
도 5에서 동작(S530 내지 S560)의 시퀀스에 따라, 화자 인식은 특정한 사용자에 대해 수행될 수 있다. 이와 같이, 이들 동작은 본 발명의 예시적인 실시예에 따른 DNN의 "검사" 기능에 대응한다.
S530에서, 인식 스피치 샘플은 디바이스(10)를 통해 사용자로부터 수신된다. 이러한 인식 스피치 샘플은 그 후 동작(S530)에서 피드-포워드 신경망(242)으로 공급되며, 그것에 응답하여 이러한 피드-포워드 신경망(242)은 사용자의 인식 스피치 샘플의 특정 표현 또는 성문을 망 출력(244)에서 생성한다.
도 5의 동작(S540)에서, 인식 스피치 샘플에 응답하여 피드-포워드 신경망(242)에 의해 출력되는, 성문 또는 특징 표현은 사용자를 검증하거나 또는 식별하기 위해 사용된다. 특히, 이러한 성문은 동작(S525)에 따라 생성되며 하나 이상의 등재된 사용자와 관련하여 메모리 디바이스(24)에 저장된 하나 이상의 화자 모델과 비교될 수 있다. 위에서 언급된 바와 같이, 이들 화자 모델의 각각은 피드-포워드 신경망(242)에 의해 유사하게 생성된 성문일 수 있다. 판단 박스(S550)에 따르면, 인식 스피치 샘플의 결과로서 신경망(242)에 의해 획득된 성문이 저장된 화자 모델 중 임의의 것에 "매칭되는지"에 대한 판단이 이루어진다. 각각의 화자 모델이 유사하게-생성된 성문이라고 가정하면, 이러한 매칭은 두 개의 성문 간의 유사성(또는 거리)의 척도에 따라 결정될 수 있다. 다른 한편으로, 각각의 화자 모델이 대응하는 사용자의 스피치 특징의 상이한 표현을 포함한다면, 상이한 프로세스가 성문을 화자 모델의 각각의 특징과 비교하고 매칭이 존재하는지를 결정하기 위해 S540 및 S550에서 사용될 수 있다.
S550에서 매칭이 인식 스피치 샘플의 성문과, 저장된 화자 모델 중 하나 사이에서 발생한다고 판단하면, 프로세스(500)는 (화자 검증 태스크에서) 특정한 사용자의 아이덴티티가 인증되었거나 또는 (화자 식별 태스크에서) 특정한 사용자의 아이덴티티가 미리 정의된 리스트 또는 세트의 알려진 아이덴티티에 위치되었음을나타내는 S560으로 진행한다. 다른 한편으로, S550에서 어떤 매칭도 발생하지 않았다고 판단하면, 프로세스(500)는 특정한 사용자가 그/그녀가 주장하는 사람이 아니거나(및 따라서 사칭하는 사람이거나) 또는 그/그녀의 아이덴티티가 화자 인식 서브시스템(20)에 알려지지 않았음을 나타내는 S570으로 진행한다. 이들 결과는 컴퓨팅 시스템(22)에 의해, 예로서 디스플레이 및/또는 그의 오디오 출력 상에 출력될 수 있거나, 또는 결과는 출력될 또 다른 위치로 송신될 수 있거나, 또는 그 외 최종 애플리케이션(30)에 의해 전송되고 사용될 수 있다. 예를 들면, 화자 검증 및 식별 태스크 양쪽 모두에서, 최종 애플리케이션(30)은 특정한 리소스 또는 경로로의 사용자 액세스를 허용/거부하기 위해 결과를 사용할 수 있다. 예를 들면, 최종 애플리케이션(30)은 사용자가 블랙리스트 또는 차단된 호출자의 리스트의 멤버인 것으로 식별될 때 사용자의 전화 호출을 차단하기 위해 사용될 수 있다. 애플리케이션(30)은 또한 그/그녀의 아이덴티티에 대해 거짓말을 하고 있는 사용자를 자동으로 플래그하기 위해(또는 그것에 대해 관계자에게 알리기 위해) 사용될 수 있다.
도 5를 재차 참조하면, 하나의 화자 인식 태스크가 수행된 후, DNN은 S580(프로세스(500)는 새로운 인식 스피치 샘플을 수신하기 위해 S530으로 되돌아감)에서 예시된 바와 같이, 등재된 사용자의 현재 풀에 기초하여, 특정한 샘플에 대한 또 다른 화자 인식 태스크를 수행하기 위해 사용될 수 있다. 또 다른 화자가, 미래 화자 인식 태스크를 행할 목적으로, 등록, 즉 등재된 사용자의 풀에 부가될 필요가 있을 수 있다는 것이 또한 고려된다. S590에 예시된 바와 같이, 새로운 사용자가 등록되거나 또는 등재될 필요가 있다면, 프로세스(500)는 새로운 화자 모델이 생성되는 동작(S520)으로 돌아간다.
다음으로, 보다 구체적인 설명이, 도 5의 동작(S510)에 따라, DNN이 각각의 등재된 사용자에 대해 트레이닝되는 프로세스에 관하여 제공될 것이다.
특히, 도 6은 본 발명의 예시적인 실시예에 따라 DNN을 트레이닝하기 위한 프로세스(5100)의 흐름도이다. DNN의 이러한 트레이닝은 배취 프로세스에 따라 수행될 수 있으며, 그에 의해 손실 함수는 트레이닝 샘플의 배취가 DNN을 통해 공급된 후 계산된다. 각각의 배취에 대해서, 모두가 동일한 화자에 의해 말해진, xi(i = 1, .., P)로서 지정된 P개의 스피치 샘플의 세트는 제1 피드-포워드 신경망(212)을 통해 순차적으로 적용된다. 또한, 각각의 배취에 대해서, 모두가 xi 샘플과 동일한 화자에 의해 말하여진 P개의 양의 스피치 샘플
Figure 112020008926573-pat00026
(i = 1, ...., P)의 대응 세트는 제2 피드-포워드 신경망(222)에 순차적으로 적용된다. 제3 피드-포워드 신경망(232)에 대해, 음의 스피치 샘플(
Figure 112020008926573-pat00027
)의 "코호트 세트"(xi
Figure 112020008926573-pat00028
스피치 샘플을 말한 사람과는 상이한 화자에 의해 말해진 것)는 각각의 배취 동안 제3 피드-포워드 신경망(232)으로 연속적으로 입력된다. 비-제한적인 예에 따르면, 코호트 세트에서 음의 스피치 샘플(및 각각의 배취 동안 실행된 반복의 수)의 개수 N은 1000과 같을 수 있다. 그러나, 코호트 세트는 상이한 수의 음의 스피치 샘플을 포함할 수 있다. 음의 스피치 샘플의 동일한 코호트 세트는, DNN의 트레이닝 동안 다수의 배취, 또는 가능하게는 모든 배취를 위해 사용될 수 있다는 것이 가능하다. 또한, 각각의 음의 스피치 샘플은 xi
Figure 112020008926573-pat00029
스피치 샘플의 화자와는 상이한 사람에 의해 말해질 것이라는 것이 고려되지만, 코호트 세트에서 음의 스피치 샘플 중 하나로서 알려지지 않은 기원(즉, 화자의 아이덴티티가 알려지지 않음)의 스피치 샘플을 이용하는 것이 또한 가능하다.
도 6을 참조하면, 동작(S5110)에 따르면, 특정한 화자로부터 P개의 스피치 샘플(xi)의 세트가 메모리 디바이스(24)로부터 추출된다. 마찬가지로, 동작(S5120)에서, 동일한 화자로부터 P개의 양의 스피치 샘플의 세트가 또한 메모리 디바이스(24)로부터 추출된다. P개의 양의 스피치 샘플은 적어도 2여야 하며, P는 2 이상일 것이라는 것이 고려된다. 또한, 동작(S5130)에 따르면, N개의 음의 스피치 샘플의 코호트 세트가 메모리 디바이스(24)로부터 획득된다.
위에서 언급된 바와 같이, 심층 신경망(DNN)은 각각의 배취에서, 모두가 동일한 화자에서 비롯된, P개의 스피치 샘플 xi(i = 1,..., P) 및 P개의 양의 스피치 샘플
Figure 112020008926573-pat00030
(i = 1,..., P)의 대응 세트가 각각 제1 및 제2 피드-포워드 신경망(212 및 222)을 통해 공급되도록 배취에서 트레이닝을 수행할 것이다. P개의 스피치 샘플 xi(i = 1,..., P)의 세트는 동작(S5140)에서 제1 신경망(212)을 통해 연속적으로 공급되지만, P개의 양의 스피치 샘플
Figure 112020008926573-pat00031
(i = 1,..., P)의 세트는 동작(5150)에서 제2 피드-포워드 신경망(222)을 통해 공급된다. 동작(S5160)에서, 코호트 세트에서 N개의 음의 스피치 샘플은 제3 피드-포워드 신경망(232)을 통해 연속적으로 공급된다.
주어진 배취가 이와 같이 설명된 바와 같이 DNN을 통해 프로세싱된 후, 동작(S5170)이 수행된다. 이러한 동작은 DNN을 통해 스피치 샘플(xi), 양의 스피치 샘플(
Figure 112020008926573-pat00032
), 및 음의 스피치 샘플(
Figure 112020008926573-pat00033
)의 코호트 세트(X-)를 공급한 결과로서 생성된 내장 벡터의 세트에 기초하여 손실을 산출한다. 또한, S5170에 따르면, 산출된 손실은 제1, 제2 및 제3 피드-포워드 신경망(212, 222, 232)의 각각에서 연결 가중치를 수정하기 위해 사용된다. 특히, 확률적 기울기 하강 최적화기를 이용한 역전파 기술은 손실이 산출되면 가중치를 수정하기 위해 사용될 수 있다. 손실을 산출하기 위한 기능은 이하에서 보다 상세하게 설명될 것이다.
각각의 배취에 대한(즉, P개의 스피치 샘플(xi)의 각각의 세트 및 P개의 양의 스피치 샘플(
Figure 112020008926573-pat00034
)의 대응 세트에 대한) 손실을 산출하기 위해 사용되는, 손실 함수는 다음의 파라미터에 기초한다:
Figure 112020008926573-pat00035
각각의 스피치 샘플(xi)에 반응하는 제1 망 출력(214)(즉, 내장 벡터(EVxi))과 대응하는 양의 스피치 샘플(
Figure 112020008926573-pat00036
)에 반응하는 제2 망 출력(224)(즉, 내장 벡터(
Figure 112020008926573-pat00037
)) 간의 유사도(S+),
Figure 112020008926573-pat00038
각각의 스피치 샘플(xi)에 반응하는 제1 망 출력(214)(즉, EVxi)과 코호트 세트에 반응하는 제3 망 출력(234) 중 가장 유사한 것(즉, 특징 표현(
Figure 112020008926573-pat00039
) 중 가장 유사한 것) 간의 유사도(S-),
Figure 112020008926573-pat00040
유사도(S+ 및 S-)에 각각 적용되는 양의 마진(M+) 및 음의 마진(M-),
Figure 112020008926573-pat00041
유사도(S+) 및 대응하는 마진(M+)에 기초하여 산출된 양의 거리(d+), 및
Figure 112020008926573-pat00042
유사도(S-) 및 대응하는 마진(M-)에 기초하여 산출된 음의 거리(d-).
양의 마진(M+) 및 음의 마진(M-)의 사용은 스피치 샘플(xi
Figure 112020008926573-pat00043
)이 서로에 적정하게 가까우며, 스피치 샘플(xi)이 음의 스피치 샘플 중 가장 가까운 것에서 적정하게 멀리 있는 상황하에서 손실 함수에서의 부가적인 비용을 피하도록 돕는다.
예시적인 실시예에 따르면, 각각의 배취에 대한 손실 함수는 다음과 같이 정의될 수 있다:
Figure 112020008926573-pat00044
식 (1)
여기에서
Figure 112020008926573-pat00045
식 (2).
식 (2)에서, K는 상수(예로서, 1000)를 나타낸다. 또한, 식 (2)에서 양의 및 음의 거리(d+ 및 d-)는 다음의 식에 따라 산출될 수 있다:
Figure 112020008926573-pat00046
식 (3)
Figure 112020008926573-pat00047
식 (4).
식 (3) 및 식 (4)에서 표시된 바와 같이, 양의 및 음의 거리(d+ 및 d-)는 각각 유사도(S+ 및 S-) 및 대응하는 마진(M+ 및 M-)에 기초하여 산출된다. 이들 유사도(S+ 및 S-)는 다음의 식에 따라 산출될 수 있다:
Figure 112020008926573-pat00048
식 (5)
Figure 112020008926573-pat00049
식 (6).
식 (5)에서, max 연산자는 특징 표현(EVxi)과 가장 유사한, 코호트 세트에 기초하여 제3 피드-포워드 신경망(232)에 의해 생성된, 특징 표현(
Figure 112020008926573-pat00050
) 중 하나를 추출한다.
또한, 양의 및 음의 마진(M+ 및 M-)은 다음의 식에 따라 산출될 수 있다:
Figure 112020008926573-pat00051
식 (7)
Figure 112020008926573-pat00052
식 (8).
식 (5) 내지 식 (8)에 따르면, 각각의 거리(d+ 및 d-)를 결정하기 위해 사용되는, 유사성(S+ 및 S-) 및 마진(M+ 및 M-)은 코사인 측정치에 대하여 계산된다. 양의 및 음의 마진의 사용과 함께, 코사인 척도에 기초한 거리의 사용은 성문의 강력한 표현을 위해 제공한다.
도 6을 재차 참조하면, 손실 함수가 주어진 배취에 대해 산출될 때, 계산된 손실은 예로서, 확률적 기울기 하강 최적화기를 사용한 역전파 기술에 따라 제1, 제2 및 제3 피드-포워드 신경망(212, 222, 232)의 각각에서 연결 가중치를 수정하기 위해 동작(S5170)에서 사용된다. 예를 들면, DNN이 도 3a에서 예시된 바와 같이 특정한 구성을 가질 때, 계산된 손실은 제1 컨볼루션층, 제2 컨볼루션층, 및 완전 연결층과 관련하여 가중치를 수정하기 위해 사용될 수 있다.
드롭아웃 트레이닝 알고리즘(dropout training algorithm)이, 가중치를 수정하기 위해, 역전파 기술과 함께, 사용될 수 있다는 것에 또한 유의해야 한다. 특히, 드롭아웃 알고리즘에서, 트레이닝 동안 특정한 부분 또는 퍼센티지의 뉴런이 그들의 대응하는 가중치의 수정을 방지하기 위해 트레이닝 동안 드롭된다. 예를 들면, 드롭아웃 알고리즘은 단지 80%(또는 심지어 50%)의 가중치만이 주어진 배취의 결과로서 수정되도록 적용될 수 있다.
도 6의 프로세스(5100)에서, DNN의 연결 가중치가 동작(S5170)에 따른 주어진 배취에 대해 산출된 손실에 따라 수정된 후, DNN이 더 많은 배취(즉, 상이한 화자에 대응하는 상이한 세트의 스피치 샘플(xi) 및 양의
Figure 112020008926573-pat00053
)에 따라 트레이닝될지에 대한 결정이 S5180에서 이루어진다. 프로세싱될 더 많은 배취가 있다면, 프로세싱은 필요한 샘플을 추출하고 새로운 배취를 프로세싱하기 시작하기 위해 동작(S5110)으로 돌아간다. 그렇지 않다면, 도 6에서, DNN을 위한 트레이닝은 완료된 것으로 고려된다.
도 4 내지 도 6에서의 흐름도는 단지 예시의 목적을 위해 제공되며, 첨부된 청구항에 의해 정의된 것으로 본 발명에 대해 제한하도록 의도되지 않는다는 것에 유의해야 한다. 이들 도면에 개시된 프로세스는 수정될 수 있으며 여전히 본 발명의 사상 및 범위 내에 있다. 예를 들면, 이들 흐름도의 각각이 일련의 동작을 예시하는 반면, 이들 동작의 순서는 변경될 수 있으며, 이들 흐름도에서 예시된 특정한 동작은 생략될 수 있지만, 도시되지 않은 다른 동작이 부가될 수 있다.
유사하게, 도 1, 도 2a, 도 2b, 및 도 3a 내지 도 3c에서 예시된 구조 및 구성은 또한 단지 예시의 목적을 위해 제공된다. 예시된 시스템 및 신경망 구성은 본 발명의 사상 및 범위와 일치하는 임의의 방식으로 수정될 수 있다.
대안적인 실시예
위에서 설명된 실시예에서, 삼중 망 아키텍처를 가진 DNN은 검증(실제 화자가 그/그녀가 주장하는 사람인지를 검출하는) 및 식별의(밀폐 세트에서의 누군가에 화자의 아이덴티티를 매칭시키는) 화자 인식 태스크 양쪽 모두를 수행하기 위해 트레이닝된다. 이러한 실시예에서, 삼중 망 아키텍처를 위한 DNN 모델은 도 3a 및 도 3b에 예시된 바와 같은 구조를 포함할 수 있으며, 도 6에 도시된 프로세스에 따라 추가로 트레이닝될 수 있다. 이 경우에, 삼중 망 아키텍처를 위한 DNN 모델의 파라미터는, 트레이닝 이전에, 랜덤하게 초기화될 수 있다.
그러나, 대안적인 실시예에 따르면, DNN은 구체적으로 식별의 태스크를 위해 설계될 수 있으며, 상이한 DNN 구조 및 트레이닝의 방법이 이용될 수 있다. 예를 들면, 삼중 망 아키텍처를 가진 DNN 모델의 파라미터를 랜덤하게 초기화하는 대신에, 파라미터는 대신에 폐쇄된 세트의 화자에 대해 화자 식별 태스크를 수행하도록 구체적으로 트레이닝된 DNN의 것들로 초기화될 수 있으며, 여기에서 출력 클래스는 상이한 화자 라벨이다. 또한, 이러한 화자 식별 트레이닝 동안, DNN의 구조는 도 3a 및 도 3b에 예시된 피드-포워드 신경망(212, 222, 232, 242)의 것에 기초할 수 있지만, 적어도 두 개의 부가적인 층, 즉, (1) 소프트맥스층(softmax layer) 및 (2) 트레이닝 세트에서 각각의 화자에 대한 다수의 유닛을 포함하는 출력층을 이용해서 수정된다.
예를 들면, 이들 부가적인 층은 도 3a 및 도 3b에 예시된 피드-포워드 신경망 구조에 부가될 수 있다. 이전에 설명된 바와 같이, 도 3a 및 도 3b에서 예시된 피드-포워드 신경망의 각각은 내장 벡터 또는 성문을 생성하기 위해 완전-연결층 및 후속하는 층으로 끝난다. 대안적인 실시예에 따르면, 이러한 후속하는 층은 제2 완전-연결층으로 변환될 수 있으며, 이것은 부가된 소프트맥스층 및 출력층을 공급한다. 소프트맥스층은, 때때로 정규화 지수로서 불리는 함수를 실행하며, 시그모이드(sigmoid) 함수의 일반화이다. 소프트맥스 함수는, 인공 신경망에 의해 구현된 것들을 포함한, 다양한 확률 다중-클래스 분류 기술에서 사용된다. 부가된 출력층에 대해, 이러한 층에서 신경 유닛의 수는 화자의 수와 같으며, DNN은 식별하기 위해 트레이닝된다. 예를 들면, DNN이 3000의 상이한 화자에 대해 화자 식별을 수행하기 위해 트레이닝되는 비-제한적인 예에서, 출력층은 3000개의 상이한 유닛을 포함할 것이다.
(부가된 층을 가진)DNN이 폐쇄된 세트의 화자에 대한 화자 식별을 수행하기 위해 트레이닝된 후, 트레이닝된 파라미터는 그 후 손실 함수에 기초하여, 예로서 도 6과 관련하여 위에서 설명된 프로세스에 따라 그 다음의 트레이닝을 위해 제1, 제2 및 제3 피드-포워드 신경망(212, 222, 232)으로 부여될 수 있다.
이러한 대안적인 실시예는 위에서 설명된 바와 같이 도 3a 및 도 3b에서 예시된 구조에 기초할 수 있지만, 다른 수정이 또한 이러한 대안적인 실시예에서 피드-포워드 신경망의 구조에 대해 이루어질 수 있다는 것이 고려된다. 예를 들면, 도 7은 대안적인 실시예와 관련하여 사용될 수 있는 DNN의 구조의 특정 예를 예시한다. 참고로 도 3b의 피드-포워드 신경망(242)의 구조를 사용하여, 도 7은 3개의 컨볼루션층, 3개의 최대 풀링층, 및 4개의 완전-연결층을 통합한 수정된 구조를 가진 피드-포워드 신경망(242')을 예시한다. 도 7에서, 제4 완전-연결층은 소프트맥스층(710), 및 (DNN이 식별하기 위해 트레이닝되는 화자의 수와 같은) 다수의 유닛으로 구성된 출력층(720)에 연결된다. 화자 식별 트레이닝이 행해진 후, 파라미터는 그 후 삼중 망 아키텍처에 따라 각각의 피드-포워드 신경망으로 부여되며, 앞서 언급된 손실 함수에 기초하여 트레이닝될 수 있다.
제2 대안적인 실시예
도 6에 예시된 트레이닝 프로세스의 설명에서, 특정 손실 함수는 식 (1) 내지 식 (8)과 관련하여 위에서 설명되었다는 것에 유의해야 한다. 그러나, DNN이 도 6과 관련하여 위에서 설명된, 특정한 손실 함수에 따라 트레이닝된다는 것은 요구사항이 아니다. 대안적인 예시적인 실시예에서, 예를 들면, 동일 에러 레이트(EER) 메트릭에 직접 관련되는 상이한 손실 함수가 DNN을 트레이닝하기 위해 사용될 수 있다.
EER 메트릭은 통상적으로 화자 인식 시스템의 정확도를 평가하기 위해 사용된다. 화자 인식 및 다른 생체 인식 시스템에서, EER은 오수락률 및 오거부율을 균등화하기 위한 임계 값을 미리 결정하기 위해 사용된다. EER은 (매칭을 나타내는) 양의 인식 스코어 및 (미스매칭을 나타내는) 음의 인식 스코어의 분포가 가우시안이라는 가정하에서 도출되며, 다음의 식에 의해 표현될 수 있다:
Figure 112020008926573-pat00054
식 (9).
식 (9)에서, 항 erf(z)는 에러 함수를 나타내는 반면, μ+ 및 σ+는 양의 인식 스코어의 평균 및 표준 편차이며, μ- 및 σ-는 음의 인식 스코어의 평균 및 표준 편차이다. 이 경우에, 양 및 음의 인식 스코어는 식 (1) 내지 식 (8)의 손실 함수와 관련하여 위에서 언급된 유사도(S+ 및 S-)와 유사하다. 이와 같이, 양의 인식 스코어(μ+ 및 σ+)의 평균 및 표준 편차, 및 음의 인식 스코어(μ- 및 σ-)의 평균 및 표준 편차는 다음과 같이 배취 프로세싱으로부터 도출될 수 있다:
Figure 112020008926573-pat00055
식 (10)
Figure 112020008926573-pat00056
식 (11)
Figure 112020008926573-pat00057
식 (12)
Figure 112020008926573-pat00058
식 (13)
여기에서 심볼 P, N, EVxi,
Figure 112020008926573-pat00059
Figure 112020008926573-pat00060
은 식 (1) 내지 식 (8)과 관련하여 상기 정의된 것과 동일한 의미를 가진다.
상기 식 (9)에서 도시된 바와 같이, EER의 값을 최소화하는 것은 항
Figure 112020008926573-pat00061
의 최대화를 내포한다. 이러한 로직을 사용하여, 트레이닝 동안 최소화될, 손실 함수는 다음과 같이 정의될 수 있다:
Figure 112020008926573-pat00062
식 (14).
그러므로, 식 (1) 내지 식 (8)과 관련하여 설명된 손실 함수에 대한 대안으로서, 삼중 망 아키텍처를 가진 DNN은 식 (14)에 따라 정의된 손실 함수에 따라 트레이닝될 수 있다. 그러나, 다른 손실 함수는 또한 DNN을 트레이닝하기 위해 사용될 수 있으며, 본 발명은 특정한 손실 함수에 제한되지 않을 것이다.
특정한 실시예가 예의 목적을 위해 위에서 설명되었지만, 경계 및 한계가 첨부한 청구항에서 정의된 본 발명에 대해 제한적이도록 의도되지 않는다.

Claims (14)

  1. 화자 인식 디바이스(speaker recognition device)로서,
    삼중 망 아키텍처를 가진 트레이닝된 심층 신경망을 모델링하도록 구성된 프로세서-기반 디바이스 - 상기 심층 신경망은, 스피치 샘플의 이중 세트가 상기 이중 세트와 동일한 화자에 기인하지 않은 스피치 샘플의 코호트 세트와 조합하여 상기 심층 신경망을 통해 공급되는 프로세스에 따라 트레이닝됨 -; 및
    스피커 모델 세트를 포함하는 스피치 샘플을 저장하는 메모리 디바이스를 포함하고,
    상기 프로세서-기반 디바이스는,
    상기 트레이닝된 심층 신경망을 통해 인식 스피치 샘플을 공급하고,
    상기 인식 스피치 샘플과 적어도 하나의 화자 모델에 반응하는 상기 트레이닝된 심층 신경망의 출력에 기초하여 사용자를 검증하거나 또는 식별하도록 더 구성되는, 화자 인식 디바이스.
  2. 제1항에 있어서,
    상기 심층 신경망은,
    제1 망 출력을 생성하기 위해 제1 입력을 수신하고 프로세싱하는 제1 피드-포워드 신경망,
    제2 망 출력을 생성하기 위해 제2 입력을 수신하고 프로세싱하는 제2 피드-포워드 신경망, 및
    제3 망 출력을 생성하기 위해 제3 입력을 수신하고 프로세싱하는 제3 피드-포워드 신경망을 포함하는, 화자 인식 디바이스.
  3. 제2항에 있어서,
    상기 제1, 제2 및 제3 피드-포워드 신경망의 각각은 적어도 하나의 컨볼루션층(convolutional layer) 및 완전 연결층을 포함하는, 화자 인식 디바이스.
  4. 제3항에 있어서,
    상기 제1, 제2 및 제3 피드-포워드 신경망의 각각은 적어도 하나의 최대-풀링층(max-pooling layer) 및 후속하는 완전 연결층을 더 포함하는, 화자 인식 디바이스.
  5. 제3항에 있어서,
    상기 제1, 제2 및 제3 피드포워드 신경망의 각각에 입력되는, 각각의 스피치 샘플은,
    기본 스피치 신호를 복수의 중첩 윈도우로 분할하고; 그리고 상기 중첩 윈도우의 각각으로부터 복수의 특징을 추출함으로써 사전 프로세싱되는, 화자 인식 디바이스.
  6. 제5항에 있어서,
    상기 제1, 제2 및 제3 피드-포워드 신경망의 각각은 사전 프로세싱된 상기 스피치 샘플을 수신하기 위해 제1 컨볼루션층을 포함하고,
    상기 제1 컨볼루션층은 NC개의 컨볼루션 필터를 포함하고,
    상기 NC개의 컨볼루션 필터의 각각은 F×wf 뉴런을 가지되, F는 상기 제1 컨볼루션층의 높이에 대응하며, wf는 상기 컨볼루션층의 폭에 대응하고,
    F는 상기 중첩 윈도우의 각각으로부터 추출된 특징의 수와 같은, 화자 인식 디바이스.
  7. 제1항에 있어서,
    상기 디바이스는 화자 검증 태스크를 수행하도록 구성되며,
    상기 화자 검증 태스크는, 사용자 입력을 통해 자체-식별을 수신하면서 또한 상기 인식 스피치 샘플을 사용하여 상기 사용자의 아이덴티티가 상기 자체-식별과 동일하다는 것을 확인하도록 구성된, 화자 인식 디바이스.
  8. 제1항에 있어서,
    상기 디바이스는 화자 식별 태스크를 수행하도록 구성되고,
    상기 화자 식별 태스크는 각각의 스피치 샘플과 관련하여 상기 메모리 디바이스에 저장된 복수의 잠재적인 아이덴티티로부터 상기 사용자를 식별하기 위해 상기 인식 스피치 샘플을 사용하도록 구성되는, 화자 인식 디바이스.
  9. 제1항에 있어서,
    사용자로부터의 스피치 샘플을 상기 인식 스피치 샘플로서 수신하도록 구성된 입력 디바이스를 더 포함하는, 화자 인식 디바이스.
  10. 화자 인식 디바이스를 사용하는 방법으로서,
    상기 화자 인식 디바이스는, 삼중 망 아키텍처를 가진 트레이닝된 심층 신경망을 모델링하도록 구성된 프로세서-기반 디바이스 - 상기 심층 신경망은 스피치 샘플의 이중 세트가 상기 이중 세트와 동일한 화자에 기인하지 않은 스피치 샘플의 코호트 세트와 조합하여 상기 심층 신경망을 통해 공급되는 프로세스에 따라 트레이닝됨 -를 포함하고, 상기 방법은,
    화자 모델의 세트를 포함하는 스피치 샘플을 저장하는 단계;
    상기 트레이닝된 심층 신경망을 통해 인식 스피치 샘플을 공급하는 단계; 및
    상기 화자 모델 중 적어도 하나 및 상기 인식 스피치 샘플에 반응하는 상기 트레이닝된 심층 신경망의 출력에 기초하여 사용자를 검증하거나 또는 식별하는 단계를 포함하는, 화자 인식 디바이스를 사용하는 방법.
  11. 제10항에 있어서,
    기본 스피치 신호를 복수의 중첩 윈도우로 분할하고; 그리고 상기 중첩 윈도우의 각각으로부터 복수의 특징을 추출함으로써, 각각의 스피치 샘플을 사전프로세싱하는 단계를 더 포함하는, 화자 인식 디바이스를 사용하는 방법.
  12. 제10항에 있어서,
    화자 검증 태스크를 수행하는 단계를 더 포함하고,
    상기 화자 검증 태스크는, 사용자 입력을 통해 자체-식별을 수신하면서 또한 상기 인식 스피치 샘플을 사용하여 상기 사용자의 아이덴티티가 상기 자체-식별과 동일하다는 것을 확인하도록 구성된, 화자 인식 디바이스를 사용하는 방법.
  13. 제10항에 있어서,
    화자 식별 태스크를 수행하는 단계를 더 포함하고,
    상기 화자 식별 태스크는 각각의 스피치 샘플과 관련하여 복수의 저장된 잠재적인 아이덴티티로부터 상기 사용자를 식별하기 위해 상기 인식 스피치 샘플을 사용하도록 구성되는, 화자 인식 디바이스를 사용하는 방법.
  14. 제10항에 있어서,
    사용자로부터의 스피치 샘플을 상기 인식 스피치 샘플로서 수신하는 단계를 더 포함하는, 화자 인식 디바이스를 사용하는 방법.
KR1020207002634A 2016-09-12 2017-09-11 심층 신경망을 사용한 단-대-단 화자 인식 KR102198835B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/262,748 US9824692B1 (en) 2016-09-12 2016-09-12 End-to-end speaker recognition using deep neural network
US15/262,748 2016-09-12
PCT/US2017/050927 WO2018049313A1 (en) 2016-09-12 2017-09-11 End-to-end speaker recognition using deep neural network

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020197010208A Division KR102072782B1 (ko) 2016-09-12 2017-09-11 심층 신경망을 사용한 단-대-단 화자 인식

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020207037861A Division KR102239129B1 (ko) 2016-09-12 2017-09-11 심층신경망을 이용하는 종단 간 화자 인식

Publications (2)

Publication Number Publication Date
KR20200013089A KR20200013089A (ko) 2020-02-05
KR102198835B1 true KR102198835B1 (ko) 2021-01-05

Family

ID=59955660

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020197010208A KR102072782B1 (ko) 2016-09-12 2017-09-11 심층 신경망을 사용한 단-대-단 화자 인식
KR1020207037861A KR102239129B1 (ko) 2016-09-12 2017-09-11 심층신경망을 이용하는 종단 간 화자 인식
KR1020207002634A KR102198835B1 (ko) 2016-09-12 2017-09-11 심층 신경망을 사용한 단-대-단 화자 인식

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020197010208A KR102072782B1 (ko) 2016-09-12 2017-09-11 심층 신경망을 사용한 단-대-단 화자 인식
KR1020207037861A KR102239129B1 (ko) 2016-09-12 2017-09-11 심층신경망을 이용하는 종단 간 화자 인식

Country Status (8)

Country Link
US (5) US9824692B1 (ko)
EP (1) EP3501025B1 (ko)
JP (2) JP7173974B2 (ko)
KR (3) KR102072782B1 (ko)
AU (3) AU2017322591B2 (ko)
CA (3) CA3036533C (ko)
ES (1) ES2883326T3 (ko)
WO (1) WO2018049313A1 (ko)

Families Citing this family (123)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10650046B2 (en) 2016-02-05 2020-05-12 Sas Institute Inc. Many task computing with distributed file system
US10795935B2 (en) 2016-02-05 2020-10-06 Sas Institute Inc. Automated generation of job flow definitions
US10642896B2 (en) 2016-02-05 2020-05-05 Sas Institute Inc. Handling of data sets during execution of task routines of multiple languages
US10650045B2 (en) * 2016-02-05 2020-05-12 Sas Institute Inc. Staged training of neural networks for improved time series prediction performance
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
CA3179080A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
USD898059S1 (en) 2017-02-06 2020-10-06 Sas Institute Inc. Display screen or portion thereof with graphical user interface
US10672403B2 (en) 2017-02-07 2020-06-02 Pindrop Security, Inc. Age compensation in biometric systems using time-interval, gender and age
US10692502B2 (en) * 2017-03-03 2020-06-23 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
CN107180628A (zh) * 2017-05-19 2017-09-19 百度在线网络技术(北京)有限公司 建立声学特征提取模型的方法、提取声学特征的方法、装置
CN107221320A (zh) * 2017-05-19 2017-09-29 百度在线网络技术(北京)有限公司 训练声学特征提取模型的方法、装置、设备和计算机存储介质
USD898060S1 (en) 2017-06-05 2020-10-06 Sas Institute Inc. Display screen or portion thereof with graphical user interface
US10354656B2 (en) * 2017-06-23 2019-07-16 Microsoft Technology Licensing, Llc Speaker recognition
US10091349B1 (en) 2017-07-11 2018-10-02 Vail Systems, Inc. Fraud detection system and method
US10623581B2 (en) 2017-07-25 2020-04-14 Vail Systems, Inc. Adaptive, multi-modal fraud detection system
CN111316281B (zh) * 2017-07-26 2024-01-23 舒辅医疗 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统
US10325602B2 (en) * 2017-08-02 2019-06-18 Google Llc Neural networks for speaker verification
US10755142B2 (en) * 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
CN107919130B (zh) * 2017-11-06 2021-12-17 百度在线网络技术(北京)有限公司 基于云端的语音处理方法和装置
US10671888B1 (en) 2017-12-14 2020-06-02 Perceive Corporation Using batches of training items for training a network
CN108417217B (zh) * 2018-01-11 2021-07-13 思必驰科技股份有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN108447490B (zh) * 2018-02-12 2020-08-18 阿里巴巴集团控股有限公司 基于记忆性瓶颈特征的声纹识别的方法及装置
CN108428455A (zh) * 2018-02-13 2018-08-21 上海爱优威软件开发有限公司 声纹特征的采集方法及系统
CN108399395A (zh) * 2018-03-13 2018-08-14 成都数智凌云科技有限公司 基于端到端深度神经网络的语音和人脸复合身份认证方法
US11995537B1 (en) * 2018-03-14 2024-05-28 Perceive Corporation Training network with batches of input instances
US11586902B1 (en) 2018-03-14 2023-02-21 Perceive Corporation Training network to minimize worst case surprise
CN108875904A (zh) * 2018-04-04 2018-11-23 北京迈格威科技有限公司 图像处理方法、图像处理装置和计算机可读存储介质
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
GB2573809B (en) 2018-05-18 2020-11-04 Emotech Ltd Speaker Recognition
CN108766440B (zh) 2018-05-28 2020-01-14 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11356551B2 (en) 2018-06-19 2022-06-07 Securelogix Corporation Active audio calling device identification system
JP6980603B2 (ja) * 2018-06-21 2021-12-15 株式会社東芝 話者モデル作成システム、認識システム、プログラムおよび制御装置
US10720151B2 (en) 2018-07-27 2020-07-21 Deepgram, Inc. End-to-end neural networks for speech recognition and classification
US10721190B2 (en) * 2018-07-31 2020-07-21 Microsoft Technology Licensing, Llc Sequence to sequence to classification model for generating recommended messages
US10872601B1 (en) * 2018-09-27 2020-12-22 Amazon Technologies, Inc. Natural language processing
US20200104678A1 (en) * 2018-09-27 2020-04-02 Google Llc Training optimizer neural networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN111091020A (zh) * 2018-10-22 2020-05-01 百度在线网络技术(北京)有限公司 自动驾驶状态判别方法和装置
US11475898B2 (en) * 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN113169748B (zh) * 2018-11-23 2022-10-28 诺基亚技术有限公司 通信系统中的端到端学习
KR102644945B1 (ko) 2018-12-14 2024-03-08 삼성전자주식회사 클럭 주파수 공급 장치 및 방법
US20200201970A1 (en) * 2018-12-20 2020-06-25 Cirrus Logic International Semiconductor Ltd. Biometric user recognition
KR102570070B1 (ko) * 2018-12-27 2023-08-23 삼성전자주식회사 일반화된 사용자 모델을 이용한 사용자 인증 방법 및 장치
US11114103B2 (en) 2018-12-28 2021-09-07 Alibaba Group Holding Limited Systems, methods, and computer-readable storage media for audio signal processing
CN109840588B (zh) * 2019-01-04 2023-09-08 平安科技(深圳)有限公司 神经网络模型训练方法、装置、计算机设备及存储介质
CN109769099B (zh) * 2019-01-15 2021-01-22 三星电子(中国)研发中心 通话人物异常的检测方法和装置
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
US11017783B2 (en) * 2019-03-08 2021-05-25 Qualcomm Incorporated Speaker template update with embedding vectors based on distance metric
US10956474B2 (en) 2019-03-14 2021-03-23 Microsoft Technology Licensing, Llc Determination of best set of suggested responses
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US10659588B1 (en) * 2019-03-21 2020-05-19 Capital One Services, Llc Methods and systems for automatic discovery of fraudulent calls using speaker recognition
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
KR20200126675A (ko) * 2019-04-30 2020-11-09 삼성전자주식회사 전자 장치 및 이의 제어 방법
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
CN110347807B (zh) * 2019-05-20 2023-08-08 平安科技(深圳)有限公司 问题信息处理方法及装置
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11257493B2 (en) 2019-07-11 2022-02-22 Soundhound, Inc. Vision-assisted speech processing
JP2021026050A (ja) * 2019-07-31 2021-02-22 株式会社リコー 音声認識システム、情報処理装置、音声認識方法、プログラム
KR102286775B1 (ko) * 2019-08-02 2021-08-09 서울시립대학교 산학협력단 미등록 화자를 추가할 수 있는 심층 신경망 기반의 화자 식별 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
US11900246B2 (en) * 2019-09-02 2024-02-13 Samsung Electronics Co., Ltd. Method and apparatus for recognizing user based on on-device training
EP4042415A4 (en) * 2019-10-11 2023-05-31 Pindrop Security, Inc. Z-VECTORS: SPEAKER EMBEDDED FROM RAW AUDIO USING SINCNET, EXTENDED CNN ARCHITECTURE AND IN-NET AUGMENTATION METHODS
WO2020035085A2 (en) * 2019-10-31 2020-02-20 Alipay (Hangzhou) Information Technology Co., Ltd. System and method for determining voice characteristics
US11282495B2 (en) * 2019-12-12 2022-03-22 Amazon Technologies, Inc. Speech processing using embedding data
US11899765B2 (en) 2019-12-23 2024-02-13 Dts Inc. Dual-factor identification system and method with adaptive enrollment
CN111145761B (zh) * 2019-12-27 2022-05-24 携程计算机技术(上海)有限公司 模型训练的方法、声纹确认的方法、系统、设备及介质
CN111310836B (zh) * 2020-02-20 2023-08-18 浙江工业大学 一种基于声谱图的声纹识别集成模型的防御方法及防御装置
AU2021231850B2 (en) * 2020-03-05 2023-08-03 Pindrop Security, Inc. Systems and methods of speaker-independent embedding for identification and verification from audio
CN111354345B (zh) * 2020-03-11 2021-08-31 北京字节跳动网络技术有限公司 生成语音模型和语音识别的方法、装置、设备以及介质
CN111524521B (zh) * 2020-04-22 2023-08-08 北京小米松果电子有限公司 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN111524525B (zh) * 2020-04-28 2023-06-16 平安科技(深圳)有限公司 原始语音的声纹识别方法、装置、设备及存储介质
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
CN111341324B (zh) * 2020-05-18 2020-08-25 浙江百应科技有限公司 一种基于fasttext模型的识别纠错及训练方法
US20240033457A1 (en) * 2020-06-08 2024-02-01 Resmed Sensor Technologies Limited Systems and methods for categorizing and/or characterizing a user interface
US11574622B2 (en) * 2020-07-02 2023-02-07 Ford Global Technologies, Llc Joint automatic speech recognition and text to speech conversion using adversarial neural networks
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112017670B (zh) * 2020-08-13 2021-11-02 北京达佳互联信息技术有限公司 一种目标账户音频的识别方法、装置、设备及介质
CA3202062A1 (en) 2020-10-01 2022-04-07 Pindrop Security, Inc. Enrollment and authentication over a phone call in call centers
US11837238B2 (en) * 2020-10-21 2023-12-05 Google Llc Assessing speaker recognition performance
WO2022086045A1 (ko) * 2020-10-22 2022-04-28 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN112071322B (zh) * 2020-10-30 2022-01-25 北京快鱼电子股份公司 一种端到端的声纹识别方法、装置、存储介质及设备
CN112382298B (zh) * 2020-11-17 2024-03-08 北京清微智能科技有限公司 唤醒词声纹识别方法、唤醒词声纹识别模型及其训练方法
CN112447188B (zh) * 2020-11-18 2023-10-20 中国人民解放军陆军工程大学 一种基于改进softmax函数的声学场景分类方法
KR102487936B1 (ko) * 2020-12-07 2023-01-11 서울시립대학교 산학협력단 세그먼트 집계를 통해 짧은 발성을 보상하는 심층 신경망 기반 화자 인증 시스템 및 방법
KR102661876B1 (ko) * 2020-12-21 2024-04-29 한국전자통신연구원 합성곱 신경망 기반 오디오 핑거프린트 추출 방법 및 장치
CN112466311B (zh) * 2020-12-22 2022-08-19 深圳壹账通智能科技有限公司 声纹识别方法、装置、存储介质及计算机设备
CN113555032B (zh) * 2020-12-22 2024-03-12 腾讯科技(深圳)有限公司 多说话人场景识别及网络训练方法、装置
CN112820313B (zh) * 2020-12-31 2022-11-01 北京声智科技有限公司 模型训练方法、语音分离方法、装置及电子设备
CN112784749B (zh) * 2021-01-22 2023-11-10 北京百度网讯科技有限公司 目标模型的训练方法、目标对象的识别方法、装置及介质
US20220328050A1 (en) * 2021-04-12 2022-10-13 Paypal, Inc. Adversarially robust voice biometrics, secure recognition, and identification
US20220366916A1 (en) * 2021-05-13 2022-11-17 Itaú Unibanco S/A Access control system
EP4390919A3 (en) * 2021-06-18 2024-09-25 My Voice AI Limited Methods for improving the performance of neural networks used for biometric authentication
CN113327598B (zh) * 2021-06-30 2023-11-14 北京有竹居网络技术有限公司 模型的训练方法、语音识别方法、装置、介质及设备
CA3221044A1 (en) * 2021-07-02 2023-01-05 Tianxiang Chen Speaker embedding conversion for backward and cross-channel compatibility
US11558506B1 (en) * 2021-09-27 2023-01-17 Nice Ltd. Analysis and matching of voice signals
US20230186896A1 (en) * 2021-12-15 2023-06-15 My Voice Ai Limited Speaker verification method using neural network
FR3131039A1 (fr) * 2021-12-19 2023-06-23 Oso-Ai Procédé d’analyse d’une donnée numérique
CN114299953B (zh) * 2021-12-29 2022-08-23 湖北微模式科技发展有限公司 一种结合嘴部运动分析的话者角色区分方法与系统
CN114613369B (zh) * 2022-03-07 2024-08-09 哈尔滨理工大学 一种基于特征差异最大化的说话人识别方法
WO2023177616A1 (en) * 2022-03-18 2023-09-21 Sri International Rapid calibration of multiple loudspeaker arrays
KR102612986B1 (ko) * 2022-10-19 2023-12-12 한국과학기술원 온라인 추천 시스템, 메타 학습 기반 추천기 업데이트 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140214417A1 (en) 2013-01-28 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
US20150127336A1 (en) 2013-11-04 2015-05-07 Google Inc. Speaker verification using neural networks
JP2015102806A (ja) 2013-11-27 2015-06-04 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム

Family Cites Families (103)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62231993A (ja) 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
CA1311059C (en) 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
US4817156A (en) 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
US5072452A (en) 1987-10-30 1991-12-10 International Business Machines Corporation Automatic determination of labels and Markov word models in a speech recognition system
US5461697A (en) * 1988-11-17 1995-10-24 Sekisui Kagaku Kogyo Kabushiki Kaisha Speaker recognition system using neural network
JP2524472B2 (ja) 1992-09-21 1996-08-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 電話回線利用の音声認識システムを訓練する方法
US5867562A (en) 1996-04-17 1999-02-02 Scherer; Gordon F. Call processing system with call screening
US7035384B1 (en) 1996-04-17 2006-04-25 Convergys Cmg Utah, Inc. Call processing system with call screening
US5835890A (en) 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
WO1998014934A1 (en) 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
WO1998022936A1 (en) 1996-11-22 1998-05-28 T-Netix, Inc. Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation
JP2991144B2 (ja) 1997-01-29 1999-12-20 日本電気株式会社 話者認識装置
US5995927A (en) 1997-03-14 1999-11-30 Lucent Technologies Inc. Method for performing stochastic matching for use in speaker verification
EP1027700A4 (en) 1997-11-03 2001-01-31 T Netix Inc MODEL ADAPTATION SYSTEM AND SPEAKER CHECKING METHOD
US6009392A (en) 1998-01-15 1999-12-28 International Business Machines Corporation Training speech recognition by matching audio segment frequency of occurrence with frequency of words and letter combinations in a corpus
EP1084490B1 (de) 1998-05-11 2003-03-26 Siemens Aktiengesellschaft Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
US6141644A (en) 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6411930B1 (en) 1998-11-18 2002-06-25 Lucent Technologies Inc. Discriminative gaussian mixture models for speaker verification
AU2684100A (en) 1999-03-11 2000-09-28 British Telecommunications Public Limited Company Speaker recognition
US6463413B1 (en) 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
KR100307623B1 (ko) 1999-10-21 2001-11-02 윤종용 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7318032B1 (en) 2000-06-13 2008-01-08 International Business Machines Corporation Speaker recognition method based on structured speaker modeling and a “Pickmax” scoring technique
DE10047724A1 (de) 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern
DE10047723A1 (de) 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE60007637T2 (de) 2000-10-10 2004-11-18 Sony International (Europe) Gmbh Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung
GB0114866D0 (en) * 2001-06-19 2001-08-08 Securivox Ltd Speaker recognition systems
US7209881B2 (en) 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
US7457745B2 (en) 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US7184539B2 (en) 2003-04-29 2007-02-27 International Business Machines Corporation Automated call center transcription services
US20050039056A1 (en) 2003-07-24 2005-02-17 Amit Bagga Method and apparatus for authenticating a user using three party question protocol
US7328154B2 (en) 2003-08-13 2008-02-05 Matsushita Electrical Industrial Co., Ltd. Bubble splitting for compact acoustic modeling
US7447633B2 (en) 2004-11-22 2008-11-04 International Business Machines Corporation Method and apparatus for training a text independent speaker recognition system using speech data with text labels
US8903859B2 (en) 2005-04-21 2014-12-02 Verint Americas Inc. Systems, methods, and media for generating hierarchical fused risk scores
CA2609247C (en) 2005-05-24 2015-10-13 Loquendo S.P.A. Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
US7539616B2 (en) 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
US8099288B2 (en) 2007-02-12 2012-01-17 Microsoft Corp. Text-dependent speaker verification
KR101756834B1 (ko) 2008-07-14 2017-07-12 삼성전자주식회사 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
US8886663B2 (en) 2008-09-20 2014-11-11 Securus Technologies, Inc. Multi-party conversation analyzer and logger
EP2182512A1 (en) 2008-10-29 2010-05-05 BRITISH TELECOMMUNICATIONS public limited company Speaker verification
US8442824B2 (en) 2008-11-26 2013-05-14 Nuance Communications, Inc. Device, system, and method of liveness detection utilizing voice biometrics
EP2221805B1 (en) * 2009-02-20 2014-06-25 Nuance Communications, Inc. Method for automated training of a plurality of artificial neural networks
US8463606B2 (en) 2009-07-13 2013-06-11 Genesys Telecommunications Laboratories, Inc. System for analyzing interactions and reporting analytic results to human-operated and system interfaces in real time
US8160877B1 (en) 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
US8554562B2 (en) 2009-11-15 2013-10-08 Nuance Communications, Inc. Method and system for speaker diarization
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
TWI403304B (zh) 2010-08-27 2013-08-01 Ind Tech Res Inst 隨身語能偵知方法及其裝置
US8484023B2 (en) 2010-09-24 2013-07-09 Nuance Communications, Inc. Sparse representation features for speech recognition
US8484024B2 (en) 2011-02-24 2013-07-09 Nuance Communications, Inc. Phonetic features for speech recognition
US20130080165A1 (en) 2011-09-24 2013-03-28 Microsoft Corporation Model Based Online Normalization of Feature Distribution for Noise Robust Speech Recognition
US9042867B2 (en) 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
US8781093B1 (en) 2012-04-18 2014-07-15 Google Inc. Reputation based message analysis
US20130300939A1 (en) 2012-05-11 2013-11-14 Cisco Technology, Inc. System and method for joint speaker and scene recognition in a video/audio processing environment
US9064491B2 (en) * 2012-05-29 2015-06-23 Nuance Communications, Inc. Methods and apparatus for performing transformation techniques for data clustering and/or classification
US9262640B2 (en) 2012-08-17 2016-02-16 Charles Fadel Controlling access to resources based on affinity planes and sectors
US9368116B2 (en) 2012-09-07 2016-06-14 Verint Systems Ltd. Speaker separation in diarization
DK2713367T3 (en) 2012-09-28 2017-02-20 Agnitio S L Speech Recognition
US9633652B2 (en) 2012-11-30 2017-04-25 Stmicroelectronics Asia Pacific Pte Ltd. Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon
US9230550B2 (en) * 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US9406298B2 (en) 2013-02-07 2016-08-02 Nuance Communications, Inc. Method and apparatus for efficient i-vector extraction
US9454958B2 (en) 2013-03-07 2016-09-27 Microsoft Technology Licensing, Llc Exploiting heterogeneous data in deep neural network-based speech recognition systems
US20140337017A1 (en) 2013-05-09 2014-11-13 Mitsubishi Electric Research Laboratories, Inc. Method for Converting Speech Using Sparsity Constraints
US9460722B2 (en) 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers
US9984706B2 (en) 2013-08-01 2018-05-29 Verint Systems Ltd. Voice activity detection using a soft decision mechanism
US20160293167A1 (en) * 2013-10-10 2016-10-06 Google Inc. Speaker recognition using neural networks
US9336781B2 (en) 2013-10-17 2016-05-10 Sri International Content-aware speaker recognition
US9232063B2 (en) 2013-10-31 2016-01-05 Verint Systems Inc. Call flow and discourse analysis
US9620145B2 (en) 2013-11-01 2017-04-11 Google Inc. Context-dependent state tying using a neural network
US9514753B2 (en) 2013-11-04 2016-12-06 Google Inc. Speaker identification using hash-based indexing
US9665823B2 (en) 2013-12-06 2017-05-30 International Business Machines Corporation Method and system for joint training of hybrid neural networks for acoustic modeling in automatic speech recognition
EP2897076B8 (en) 2014-01-17 2018-02-07 Cirrus Logic International Semiconductor Ltd. Tamper-resistant element for use in speaker recognition
US9401143B2 (en) 2014-03-24 2016-07-26 Google Inc. Cluster specific speech model
WO2015168606A1 (en) 2014-05-02 2015-11-05 The Regents Of The University Of Michigan Mood monitoring of bipolar disorder using speech analysis
US9792899B2 (en) 2014-07-15 2017-10-17 International Business Machines Corporation Dataset shift compensation in machine learning
US9978013B2 (en) * 2014-07-16 2018-05-22 Deep Learning Analytics, LLC Systems and methods for recognizing objects in radar imagery
US9373330B2 (en) 2014-08-07 2016-06-21 Nuance Communications, Inc. Fast speaker recognition scoring using I-vector posteriors and probabilistic linear discriminant analysis
KR101844932B1 (ko) 2014-09-16 2018-04-03 한국전자통신연구원 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법
US9324320B1 (en) * 2014-10-02 2016-04-26 Microsoft Technology Licensing, Llc Neural network-based speech processing
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9418656B2 (en) * 2014-10-29 2016-08-16 Google Inc. Multi-stage hotword detection
US20160180214A1 (en) * 2014-12-19 2016-06-23 Google Inc. Sharp discrepancy learning
US9875742B2 (en) 2015-01-26 2018-01-23 Verint Systems Ltd. Word-level blind diarization of recorded calls with arbitrary number of speakers
US10580401B2 (en) * 2015-01-27 2020-03-03 Google Llc Sub-matrix input for neural network layers
KR101988222B1 (ko) 2015-02-12 2019-06-13 한국전자통신연구원 대어휘 연속 음성 인식 장치 및 방법
US9666183B2 (en) 2015-03-27 2017-05-30 Qualcomm Incorporated Deep neural net based filter prediction for audio event classification and extraction
US9978374B2 (en) * 2015-09-04 2018-05-22 Google Llc Neural networks for speaker verification
US10056076B2 (en) 2015-09-06 2018-08-21 International Business Machines Corporation Covariance matrix estimation with structural-based priors for speech processing
KR102423302B1 (ko) 2015-10-06 2022-07-19 삼성전자주식회사 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법
EP3561707A1 (en) 2015-10-14 2019-10-30 Pindrop Security, Inc. Call detail record analysis to identify fraudulent activity and fraud detection in interactive voice response systems
US9818431B2 (en) * 2015-12-21 2017-11-14 Microsoft Technoloogy Licensing, LLC Multi-speaker speech separation
US9584946B1 (en) 2016-06-10 2017-02-28 Philip Scott Lyren Audio diarization system that segments audio input
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
WO2018053531A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
CA3179080A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
CA3195323A1 (en) 2016-11-01 2018-05-01 Transaction Network Services, Inc. Systems and methods for automatically conducting risk assessments for telephony communications
US10205825B2 (en) 2017-02-28 2019-02-12 At&T Intellectual Property I, L.P. System and method for processing an automated call based on preferences and conditions
US10623581B2 (en) 2017-07-25 2020-04-14 Vail Systems, Inc. Adaptive, multi-modal fraud detection system
US10506088B1 (en) 2017-09-25 2019-12-10 Amazon Technologies, Inc. Phone number verification
US10887452B2 (en) 2018-10-25 2021-01-05 Verint Americas Inc. System architecture for fraud detection
US10554821B1 (en) 2018-11-09 2020-02-04 Noble Systems Corporation Identifying and processing neighbor spoofed telephone calls in a VoIP-based telecommunications network
US10477013B1 (en) 2018-11-19 2019-11-12 Successful Cultures, Inc Systems and methods for providing caller identification over a public switched telephone network
US10375238B1 (en) 2019-04-15 2019-08-06 Republic Wireless, Inc. Anti-spoofing techniques for outbound telephone calls

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140214417A1 (en) 2013-01-28 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
US20150127336A1 (en) 2013-11-04 2015-05-07 Google Inc. Speaker verification using neural networks
JP2015102806A (ja) 2013-11-27 2015-06-04 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム

Also Published As

Publication number Publication date
US20230037232A1 (en) 2023-02-02
AU2023263421A1 (en) 2023-11-23
KR20200013089A (ko) 2020-02-05
US20190392842A1 (en) 2019-12-26
CA3036533A1 (en) 2018-03-15
KR102239129B1 (ko) 2021-04-09
CA3075049A1 (en) 2018-03-15
US9824692B1 (en) 2017-11-21
JP2019532354A (ja) 2019-11-07
AU2017322591B2 (en) 2021-10-21
US11468901B2 (en) 2022-10-11
KR20190075914A (ko) 2019-07-01
EP3501025B1 (en) 2021-08-11
US20240249728A1 (en) 2024-07-25
US10381009B2 (en) 2019-08-13
JP7173974B2 (ja) 2022-11-16
JP2022153376A (ja) 2022-10-12
WO2018049313A1 (en) 2018-03-15
AU2021286422B2 (en) 2023-08-10
US20180075849A1 (en) 2018-03-15
AU2017322591A1 (en) 2019-05-02
ES2883326T3 (es) 2021-12-07
CA3096378A1 (en) 2018-03-15
AU2021286422A1 (en) 2022-01-20
CA3075049C (en) 2020-12-01
EP3501025A1 (en) 2019-06-26
KR102072782B1 (ko) 2020-02-03
KR20210003307A (ko) 2021-01-11
CA3036533C (en) 2020-04-21

Similar Documents

Publication Publication Date Title
KR102198835B1 (ko) 심층 신경망을 사용한 단-대-단 화자 인식
US10553218B2 (en) Dimensionality reduction of baum-welch statistics for speaker recognition
US10997980B2 (en) System and method for determining voice characteristics
US11727942B2 (en) Age compensation in biometric systems using time-interval, gender and age
Singh et al. Applications of speaker recognition
KR100406307B1 (ko) 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
US10909991B2 (en) System for text-dependent speaker recognition and method thereof
TW202213326A (zh) 用於說話者驗證的廣義化負對數似然損失
Li et al. Cost‐Sensitive Learning for Emotion Robust Speaker Recognition
Georgescu et al. GMM-UBM modeling for speaker recognition on a Romanian large speech corpora
Ren et al. A hybrid GMM speaker verification system for mobile devices in variable environments
Sheriffdeen Architecture for Automatic Speaker Recognition in Voice User Interfaces
Pekcan Development of machine learning based speaker recognition system

Legal Events

Date Code Title Description
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant