KR101843074B1 - Vae를 이용한 화자 인식 특징 추출 방법 및 시스템 - Google Patents

Vae를 이용한 화자 인식 특징 추출 방법 및 시스템 Download PDF

Info

Publication number
KR101843074B1
KR101843074B1 KR1020160130100A KR20160130100A KR101843074B1 KR 101843074 B1 KR101843074 B1 KR 101843074B1 KR 1020160130100 A KR1020160130100 A KR 1020160130100A KR 20160130100 A KR20160130100 A KR 20160130100A KR 101843074 B1 KR101843074 B1 KR 101843074B1
Authority
KR
South Korea
Prior art keywords
baum
vector
learning
speaker recognition
vae
Prior art date
Application number
KR1020160130100A
Other languages
English (en)
Inventor
김남수
강우현
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020160130100A priority Critical patent/KR101843074B1/ko
Application granted granted Critical
Publication of KR101843074B1 publication Critical patent/KR101843074B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 VAE를 이용한 화자 인식 특징 추출 방법에 관한 것으로서, 보다 구체적으로는 (1) 복수 개의 음성 파일들로 구성된 학습 데이터를 사용하여 화자 독립적 모델인 일반 배경 모델(universal background model, UBM)을 학습하는 단계; (2) 상기 단계 (1)에서 학습된 일반 배경 모델을 이용하여 상기 복수 개의 음성 파일들에서의 Baum-Welch statistics를 추출하고, 상기 추출된 Baum-Welch statistics에 기초하여 하나의 통합 벡터를 생성하는 단계; (3) 상기 단계 (2)에서 생성된 하나의 통합 벡터를 입력 벡터로 하여 VAE를 학습하는 단계; 및 (4) 상기 단계 (3)에서의 학습 결과를 바탕으로 딥 러닝(deep learning) 구조를 생성하여 상기 입력 벡터를 재구성하는 과정에서 생성되는 랜덤 변수(latent variables)를 화자 인식 특징으로 추출하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
또한, 본 발명은 VAE를 이용한 화자 인식 특징 추출 시스템에 관한 것으로서, 보다 구체적으로는 복수 개의 음성 파일들로 구성된 학습 데이터를 사용하여 화자 독립적 모델인 일반 배경 모델(universal background model, UBM)을 학습하는 UBM 학습부; 상기 UBM 학습부에서 학습된 일반 배경 모델을 이용하여 상기 복수 개의 음성 파일들에서의 Baum-Welch statistics를 추출하고, 상기 추출된 Baum-Welch statistics에 기초하여 하나의 통합 벡터를 생성하는 Baum-Welch statistics 추출부; 상기 Baum-Welch statistics 추출부에서 생성된 하나의 통합 벡터를 입력 벡터로 하여 VAE를 학습하는 VAE 학습부; 및 상기 VAE 학습부에서의 학습 결과를 바탕으로 딥 러닝(deep learning) 구조를 생성하여 상기 입력 벡터를 재구성하는 과정에서 생성되는 랜덤 변수(latent variables)를 화자 인식 특징으로 추출하는 화자 인식 특징 추출부를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 VAE를 이용한 화자 인식 특징 추출 방법 및 시스템에 따르면, 입력된 벡터를 여러 은닉층을 통과시켜 출력에서 재구성하는 딥 러닝(deep learning) 구조인 오토 인코더(autoencoder)의 일종으로, 가운데 은닉층에 랜덤 변수들을 가지고 있는 구조를 갖는 variational auto encoder(VAE)를 이용하되, VAE의 구조 중 입력층과 은닉층으로 구성되는 인코더 네트워크를 화자 인식 특징 추출기로 활용하고, 입력 벡터를 재구성하는 과정에서 얻어지는 랜덤 변수들을 화자 인식 특징으로 사용함으로써, 보다 비관측 데이터에 대해서도 강인하고 안정적인 고정된 차원의 특징을 추출할 수 있어, 화자 인식의 성능이 보다 높아질 수 있다.

Description

VAE를 이용한 화자 인식 특징 추출 방법 및 시스템{SPEAKER RECOGNITION FEATURE EXTRACTION METHOD AND SYSTEM USING VARIATIONAL AUTO ENCODER}
본 발명은 화자 인식 특징 추출 방법 및 시스템에 관한 것으로서, 보다 구체적으로는 VAE를 이용한 화자 인식 특징 추출 방법 및 시스템에 관한 것이다.
화자의 인식 및 인증은 얼굴, 지문 등의 생체 정보와 함께 화자를 식별하는 차원으로서 주로 적용되어 왔다. 인증 서비스와 관련한 종래 기술로는 특정 사업자가 제공하는 정보를 서비스 이용자가 이용하고자 할 경우, 서비스 이용자가 성인인지 여부를 판별하기 위해 이용자가 입력한 주민등록번호에 대한 화자 인식 및 음성 인식을 통해 본인 인증을 수행하는 기술이 있다. 또한, 인터넷 브라우저와 컴퓨터 프로그램 실행 시 아이디어와 비밀 번호를 입력해야 하는 번거로움을 줄이고 음성 명령과 화자 인증 및 지문 인증을 병합하여 사용자를 간편하게 인식할 수 있는 인증 기술도 제시된 바 있다.
이러한 화자 인식 시스템에 있어서, 입력된 화자의 음성으로부터 특징을 추출하게 되는데, 이때, 기존에 널리 사용되어온 I-벡터는 특정 시간에서의 주파수 특성 혹은 Mel frequency cepstral coefficient와 같은 음성의 프레임 단위 특징의 분포를 나타내는 Gaussian mixture model(GMM)이 갖는 다양한 특성을 고정된 차원의 벡터로 표현하는 특징으로서, 이는 GMM의 파라미터를 연결시킨 벡터인 GMM 슈퍼벡터와 선형적인 관계를 가진 특징이기에, 학습 과정에서 관측되지 않은 데이터에 대해서는 불안정할 수 있다는 단점이 있다. 대한민국 등록특허공보 제10-0571427호는 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치 및 역상관 필터링 방법에 대한 선행기술 문헌을 개시하고 있고, 대한민국 등록특허공보 제10-0571574호는 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템에 대한 선행기술 문헌을 개시하고 있다.
한편, variational auto encoder(VAE)는 입력된 벡터를 여러 은닉층을 통과시켜 출력에서 재구성하는 딥 러닝(deep learning) 구조인 오토 인코더(auto encoder)의 일종으로서, 가운데 은닉층에 랜덤 변수인 latent variable을 포함하는 구조를 갖는다. latent variable을 기준으로 입력 쪽의 네트워크를 encoder 네트워크, 출력 쪽의 네트워크를 decoder 네트워크라 하는데, encoder 네트워크는 입력으로부터 latent variable을 추정하는 역할을 하고, decoder 네트워크는 latent variable로부터 입력을 재구성하는 역할을 한다. VAE의 학습은 오류 역전파 알고리즘을 사용하여 encoder 네트워크와 decoder 네트워크를 한번에 학습한다. 이때, 딥 러닝(deep learning)은 다층 구조 형태의 신경망을 기반으로 한 기계학습기술의 한 분야로서, 다양한 데이터로부터 높은 수준의 추상화 모델을 구축할 때 주로 이용된다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 입력된 벡터를 여러 은닉층을 통과시켜 출력에서 재구성하는 딥 러닝(deep learning) 구조인 오토 인코더(autoencoder)의 일종으로, 가운데 은닉층에 랜덤 변수들을 가지고 있는 구조를 갖는 variational auto encoder(VAE)를 이용하되, VAE의 구조 중 입력층과 은닉층으로 구성되는 인코더 네트워크를 화자 인식 특징 추출기로 활용하고, 입력 벡터를 재구성하는 과정에서 얻어지는 랜덤 변수들을 화자 인식 특징으로 사용함으로써, 보다 비관측 데이터에 대해서도 강인하고 안정적인 고정된 차원의 특징을 추출할 수 있어, 화자 인식의 성능이 보다 높아질 수 있는, VAE를 이용한 화자 인식 특징 추출 방법 및 시스템을 제공하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른, VAE를 이용한 화자 인식 특징 추출 방법은,
(1) 복수 개의 음성 파일들로 구성된 학습 데이터를 사용하여 화자 독립적 모델인 일반 배경 모델(universal background model, UBM)을 학습하는 단계;
(2) 상기 단계 (1)에서 학습된 일반 배경 모델을 이용하여 상기 복수 개의 음성 파일들에서의 Baum-Welch statistics를 추출하고, 상기 추출된 Baum-Welch statistics에 기초하여 하나의 통합 벡터를 생성하는 단계;
(3) 상기 단계 (2)에서 생성된 하나의 통합 벡터를 입력 벡터로 하여 VAE를 학습하는 단계; 및
(4) 상기 단계 (3)에서의 학습 결과를 바탕으로 딥 러닝(deep learning) 구조를 생성하여 상기 입력 벡터를 재구성하는 과정에서 생성되는 랜덤 변수(latent variables)를 화자 인식 특징으로 추출하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 단계 (2)의 Baum-Welch statistics는,
하기의 수학식을 통해 계산되는 0차 Baum-Welch statistics 및 1차 Baum-Welch statistics를 포함할 수 있다.
Figure 112016097489312-pat00001
여기서, nc(X)는 음성 X의 0차 Baum-Welch statistics를 의미하고, fc(X)는 음성 X의 1차 Baum-Welch statistics를 의미하며, γl(c)는 UBM의 c번째 가우시안 성분에 l번째 프레임이 속할 확률을 의미하고, xl은 음성 X의 l번째 프레임 특징을 의미하며, L은 프레임의 개수를 의미한다.
더욱 바람직하게는, 상기 단계 (2)의 통합 벡터는,
상기 Baum-Welch statistics들에 기초한 벡터로서, 하기의 수학식으로 나타내어질 수 있다.
Figure 112016097489312-pat00002
여기서, I(X)는 c개의 가우시안 성분에 대한 음성 X의 모든 0차 및 1차 Baum-Welch statistics들을 연결시킨 벡터를 의미하며, 이때, 음성 X의 한 프레임에서의 프레임 단위 특징의 크기가 N인 경우 I(X)의 크기는 c+Nc이다.
바람직하게는, 상기 단계 (4)의 딥 러닝 구조는,
입력 벡터를 입력하는 입력층(input layer), 상기 입력층을 통해 입력된 입력 벡터의 차원을 축소하여 상기 랜덤 변수를 생성하는 은닉층(hidden layer), 및 상기 랜덤 변수를 상기 입력 벡터와 동일한 크기로 변환하여 출력 벡터를 생성하는 출력층(output layer)으로 구성될 수 있다.
더욱 바람직하게는, 상기 단계 (4)의 딥 러닝 구조는,
상기 입력층 및 은닉층으로 구성되어, 상기 입력 벡터로부터 상기 랜덤 변수를 추론하는 인코더(encoder) 네트워크; 및
상기 은닉층 및 출력층으로 구성되어, 상기 랜덤 변수로부터 출력 벡터를 생성하는 디코더(decoder) 네트워크로 구성될 수 있다.
더욱 더 바람직하게는,
상기 인코더 네트워크는 화자 인식 특징 추출기로 사용될 수 있다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른, VAE를 이용한 화자 인식 특징 추출 시스템은,
복수 개의 음성 파일들로 구성된 학습 데이터를 사용하여 화자 독립적 모델인 일반 배경 모델(universal background model, UBM)을 학습하는 UBM 학습부;
상기 UBM 학습부에서 학습된 일반 배경 모델을 이용하여 상기 복수 개의 음성 파일들에서의 Baum-Welch statistics를 추출하고, 상기 추출된 Baum-Welch statistics에 기초하여 하나의 통합 벡터를 생성하는 Baum-Welch statistics 추출부;
상기 Baum-Welch statistics 추출부에서 생성된 하나의 통합 벡터를 입력 벡터로 하여 VAE를 학습하는 VAE 학습부; 및
상기 VAE 학습부에서의 학습 결과를 바탕으로 딥 러닝(deep learning) 구조를 생성하여 상기 입력 벡터를 재구성하는 과정에서 생성되는 랜덤 변수(latent variables)를 화자 인식 특징으로 추출하는 화자 인식 특징 추출부를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 Baum-Welch statistics는,
하기의 수학식을 통해 계산되는 0차 Baum-Welch statistics 및 1차 Baum-Welch statistics를 포함할 수 있다.
Figure 112016097489312-pat00003
여기서, nc(X)는 음성 X의 0차 Baum-Welch statistics를 의미하고, fc(X)는 음성 X의 1차 Baum-Welch statistics를 의미하며, γl(c)는 UBM의 c번째 가우시안 성분에 l번째 프레임이 속할 확률을 의미하고, xl은 음성 X의 l번째 프레임 특징을 의미하며, L은 프레임의 개수를 의미한다.
더욱 바람직하게는, 상기 통합 벡터는,
상기 Baum-Welch statistics들에 기초한 벡터로서, 하기의 수학식으로 나타내어질 수 있다.
Figure 112016097489312-pat00004
여기서, I(X)는 c개의 가우시안 성분에 대한 음성 X의 모든 0차 및 1차 Baum-Welch statistics들을 연결시킨 벡터를 의미하며, 이때, 음성 X의 한 프레임에서의 프레임 단위 특징의 크기가 N인 경우 I(X)의 크기는 c+Nc이다.
바람직하게는, 상기 딥 러닝 구조는,
입력 벡터를 입력하는 입력층(input layer), 상기 입력층을 통해 입력된 입력 벡터의 차원을 축소하여 상기 랜덤 변수를 생성하는 은닉층(hidden layer), 및 상기 랜덤 변수를 상기 입력 벡터와 동일한 크기로 변환하여 출력 벡터를 생성하는 출력층(output layer)으로 구성될 수 있다.
더욱 바람직하게는, 상기 딥 러닝 구조는,
상기 입력층 및 은닉층으로 구성되어, 상기 입력 벡터로부터 상기 랜덤 변수를 추론하는 인코더(encoder) 네트워크; 및
상기 은닉층 및 출력층으로 구성되어, 상기 랜덤 변수로부터 출력 벡터를 생성하는 디코더(decoder) 네트워크로 구성될 수 있다.
더욱 더 바람직하게는,
상기 인코더 네트워크는 화자 인식 특징 추출기로 사용될 수 있다.
본 발명에서 제안하고 있는 VAE를 이용한 화자 인식 특징 추출 방법 및 시스템에 따르면, 입력된 벡터를 여러 은닉층을 통과시켜 출력에서 재구성하는 딥 러닝(deep learning) 구조인 오토 인코더(autoencoder)의 일종으로, 가운데 은닉층에 랜덤 변수들을 가지고 있는 구조를 갖는 variational auto encoder(VAE)를 이용하되, VAE의 구조 중 입력층과 은닉층으로 구성되는 인코더 네트워크를 화자 인식 특징 추출기로 활용하고, 입력 벡터를 재구성하는 과정에서 얻어지는 랜덤 변수들을 화자 인식 특징으로 사용함으로써, 보다 비관측 데이터에 대해서도 강인하고 안정적인 고정된 차원의 특징을 추출할 수 있어, 화자 인식의 성능이 보다 높아질 수 있다.
도 1은 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 방법의 흐름을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 방법의 흐름을 블록도로 도시한 도면.
도 3은 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 방법의 딥 러닝(deep learning) 구조를 설명하기 위해 도시한 도면.
도 4는 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 방법의 딥 러닝(deep learning) 구조를 이용하여 랜덤 변수를 추출하는 것을 설명하기 위해 도시한 도면.
도 5는 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 방법을 이용하여 특정 화자를 분류하는 과정을 설명하기 위해 도시한 도면.
도 6은 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 시스템을 도시한 도면.
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 방법의 흐름을 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 방법은, 복수 개의 음성 파일들로 구성된 학습 데이터를 사용하여 화자 독립적 모델인 일반 배경 모델(universal background model, UBM)을 학습하는 단계(S100), 단계 S100에서 학습된 일반 배경 모델을 이용하여 복수 개의 음성 파일들에서의 Baum-Welch statistics를 추출하고, 추출된 Baum-Welch statistics에 기초하여 하나의 통합 벡터를 생성하는 단계(S200), 단계 S200에서 생성된 하나의 통합 벡터를 입력 벡터로 하여 VAE를 학습하는 단계(S300), 및 단계 S300에서의 학습 결과를 바탕으로 딥 러닝(deep learning) 구조를 생성하여 입력 벡터를 재구성하는 과정에서 생성되는 랜덤 변수(latent variables)를 화자 인식 특징으로 추출하는 단계(S400)를 포함하여 구현될 수 있다.
단계 S100은, 화자 독립적 모델인 일반 배경 모델(universal background model, UBM)을 학습하는 단계로서, 보다 구체적으로는 복수 개의 음성 파일들로 구성된 학습 데이터를 사용하여 일반 배경 모델을 학습할 수 있다.
단계 S200은, 입력 벡터로 이용되는 통합 벡터를 생성하는 단계로서, 단계 S100에서 학습된 일반 배경 모델을 이용하여 복수 개의 음성 파일들에서의 Baum-Welch statistics를 추출하고, 추출된 Baum-Welch statistics에 기초하여 통합 벡터를 생성할 수 있다.
이때, Baum-Welch statistics는, 일반 배경 모델이 존재할 때, 주어진 음성 데이터가 일반 배경 모델에서 어떠한 통계적 특성을 보이는지를 나타내는 파라미터로서, 0차 Baum-Welch statistics 및 1차 Baum-Welch statistics를 포함할 수 있다.
보다 구체적으로, C개의 가우시안 성분을 가진 일반 배경 모델이 주어졌을 때, L개의 프레임을 가진 음성 X의 0차 Baum-Welch statistics 및 1차 Baum-Welch statistics는 하기의 수학식 1을 통해 계산될 수 있다.
Figure 112016097489312-pat00005
여기서, nc(X)는 음성 X의 0차 Baum-Welch statistics를 의미하고, fc(X)는 음성 X의 1차 Baum-Welch statistics를 의미하며, γl(c)는 UBM의 c번째 가우시안 성분에 l번째 프레임이 속할 확률을 의미하고, xl은 음성 X의 l번째 프레임 특징을 의미하며, L은 프레임의 개수를 의미한다.
한편, 단계 S200에서 추출된 Baum-Welch statistics에 기초하여 생성되는 통합 벡터는, 하기의 수학식 2로 나타내어질 수 있다.
Figure 112016097489312-pat00006
여기서, I(X)는 c개의 가우시안 성분에 대한 음성 X의 모든 0차 및 1차 Baum-Welch statistics들을 연결시킨 벡터를 의미하며, 이때, 음성 X의 한 프레임에서의 프레임 단위 특징의 크기가 N인 경우 I(X)의 크기는 c+Nc이다.
단계 S300은, variational auto encoder(VAE)를 학습하는 단계로서, 단계 S200에서 생성된 통합 벡터를 입력 벡터로 하여 VAE를 학습할 수 있다.
단계 S400은, 화자 인식 특징을 추출하는 단계로서, 단계 S300에서의 학습 결과를 바탕으로 딥 러닝(deep learning) 구조를 생성하여 입력 벡터를 출력 벡터로 재구성하는 과정에서 생성되는 랜덤 변수(latent variables)를 화자 인식 특징으로 추출할 수 있다.
한편, 단계 S400의 구체적인 내용에 대해서는 추후 도 3 및 도 4를 참조하여 보다 상세히 설명하도록 한다.
도 2는 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 방법의 흐름을 블록도로 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 방법은, 먼저 학습 데이터를 이용하여 일반 배경 모델을 학습하고, 학습된 일반 배경 모델을 이용하여 각각의 음성 파일들의 Baum-Welch statistics를 추출한 후, 이들을 연결시킨 하나의 통합 벡터를 입력 벡터로 하여 VAE를 학습하고, 딥 러닝구조에서 얻어지는 랜덤 변수들의 평균 벡터를 화자 인식 특징으로 추출할 수 있다.
이와 같이, 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 방법에 따르면, 입력된 벡터를 여러 은닉층을 통과시켜 출력에서 재구성하는 딥 러닝(deep learning) 구조인 오토 인코더(autoencoder)의 일종으로, 가운데 은닉층에 랜덤 변수들을 가지고 있는 구조를 갖는 variational auto encoder(VAE)를 이용하되, VAE의 구조 중 입력층과 은닉층으로 구성되는 인코더 네트워크를 화자 인식 특징 추출기로 활용하고, 입력 벡터를 재구성하는 과정에서 얻어지는 랜덤 변수들을 화자 인식 특징으로 사용함으로써, 보다 비관측 데이터에 대해서도 강인하고 안정적인 고정된 차원의 특징을 추출할 수 있어, 화자 인식의 성능이 보다 높아질 수 있다.
도 3은 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 방법의 딥 러닝(deep learning) 구조를 설명하기 위해 도시한 도면이고, 도 4는 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 방법의 딥 러닝(deep learning) 구조를 이용하여 랜덤 변수를 추출하는 것을 설명하기 위해 도시한 도면이다. 도 3 및 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 방법의 딥 러닝(deep learning) 구조는, 입력층(input layer), 은닉층(hidden layer) 및 출력층(output layer)으로 구성될 수 있다.
보다 구체적으로, 입력 벡터를 입력하는 입력층, 입력층을 통해 입력된 입력 벡터의 차원을 축소하여 랜덤 변수를 생성하는 은닉층, 랜덤 변수를 입력 벡터와 동일한 크기로 변환, 즉, 재구성하여 출력 벡터를 생성하는 출력층으로 구성될 수 있다. 이때, 은닉층은, 도 3에 도시된 바와 같이, 1개일 수 있으나, 실시예에 따라서 2개 이상의 복수 개로 구성될 수도 있다.
또한, 딥 러닝 구조는, 입력층 및 은닉층으로 구성되어, 입력 벡터로부터 랜덤 변수를 추론하는 인코더(encoder) 네트워크, 및 은닉층 및 출력층으로 구성되어, 랜덤 변수로부터 출력 벡터를 생성하는 디코더(decoder) 네트워크로 구성될 수 있다.
본 발명에서는, 딥 러닝 구조의 입력 벡터로부터 랜덤 변수들을 추론하는 구조인 인코더 네트워크를 화자 인식 특징 추출기로 사용할 수 있다. 즉, 인코더 네트워크에서 입력 벡터로 0차 Baum-Welch statistics 및 1차 Baum-Welch statistics를 포함하는 Baum-Welch statistics가 들어가게 되면, 입력 벡터의 정보를 축약시킨 랜덤 변수가 생성되며, 생성된 랜덤 변수의 평균 벡터를 화자 인식 특징으로 사용할 수 있다.
한편, 딥 러닝 구조에서 ReLU 층은, Rectified Linear Unit(ReLU) 함수를 사용하여 정보를 전달하는 전달 층으로서, ReLU 함수는 하기의 수학식 3으로 나타내어질 수 있다.
Figure 112016097489312-pat00007
이러한 ReLU 함수를 이용함으로써, 계산 속도가 빨라질 수 있어, 은닉층이 복수 개인 복잡한 딥 러닝 구조에서 보다 효율적으로 데이터를 출력할 수 있다.
도 5는 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 방법을 이용하여 특정 화자를 분류하는 과정을 설명하기 위해 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 방법을 이용하여 특정 화자를 분류할 수 있다. 보다 구체적으로, 본 발명에서 제안하는 화자 인식 특징 추출 방법을 이용하여 특정 화자를 구별하고자 하는 경우, 타겟 화자의 비교 대상으로 사용되는 등록 데이터와 인식하고자 하는 테스트 데이터로부터 각각 Baum-Welch statistics를 추출하고, 이들을 입력 벡터로 하여 랜덤 변수들을 생성한 후, 랜덤 변수들의 평균들을 구하고, 이들을 비교하여 테스트 데이터의 화자가 어떤 화자인지 분류하는 작업을 수행할 수 있다.
도 6은 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 시스템을 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 시스템은, UBM 학습부(100), Baum-Welch statistics 추출부(200), VAE 학습부(300) 및 화자 인식 특징 추출부(400)를 포함하여 구성될 수 있다.
이러한 UBM 학습부(100), Baum-Welch statistics 추출부(200), VAE 학습부(300) 및 화자 인식 특징 추출부(400)는 각각 본 발명의 일실시예에 따른 VAE를 이용한 화자 인식 특징 추출 방법의 단계 S100, S200, S300 및 S400을 수행하는 구성들로서, 이들의 구체적인 내용에 대해서는 앞에서 도 1 내지 도 5를 참조하여 상세히 설명한 바와 같으므로, 이하 생략한다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
100: UBM 학습부
200: Baum-Welch statistics 추출부
300: VAE 학습부
400: 화자 인식 특징 추출부
S100: 복수 개의 음성 파일들로 구성된 학습 데이터를 사용하여 화자 독립적 모델인 일반 배경 모델(universal background model, UBM)을 학습하는 단계
S200: 단계 S100에서 학습된 일반 배경 모델을 이용하여 복수 개의 음성 파일들에서의 Baum-Welch statistics를 추출하고, 추출된 Baum-Welch statistics에 기초하여 하나의 통합 벡터를 생성하는 단계
S300: 단계 S200에서 생성된 하나의 통합 벡터를 입력 벡터로 하여 VAE를 학습하는 단계
S400: 단계 S300에서의 학습 결과를 바탕으로 딥 러닝(deep learning) 구조를 생성하여 입력 벡터를 재구성하는 과정에서 생성되는 랜덤 변수(latent variables)를 화자 인식 특징으로 추출하는 단계

Claims (12)

  1. VAE(variational auto encoder)를 이용한 화자 인식 특징 추출 방법으로서,
    (1) 복수 개의 음성 파일들로 구성된 학습 데이터를 사용하여 화자 독립적 모델인 일반 배경 모델(universal background model, UBM)을 학습하는 단계;
    (2) 상기 단계 (1)에서 학습된 일반 배경 모델을 이용하여 상기 복수 개의 음성 파일들에서의 Baum-Welch statistics를 추출하고, 상기 추출된 Baum-Welch statistics에 기초하여 하나의 통합 벡터를 생성하는 단계;
    (3) 상기 단계 (2)에서 생성된 하나의 통합 벡터를 입력 벡터로 하여 VAE를 학습하는 단계; 및
    (4) 상기 단계 (3)에서의 학습 결과를 바탕으로 딥 러닝(deep learning) 구조를 생성하여 상기 입력 벡터를 재구성하는 과정에서 생성되는 랜덤 변수(latent variables)를 화자 인식 특징으로 추출하는 단계를 포함하되,
    상기 단계 (4)의 딥 러닝 구조는,
    입력 벡터를 입력하는 입력층(input layer), 상기 입력층을 통해 입력된 입력 벡터의 차원을 축소하여 상기 랜덤 변수를 생성하는 은닉층(hidden layer)으로 구성되어, 상기 입력 벡터로부터 상기 랜덤 변수를 추론하는 인코더(encoder) 네트워크; 및
    상기 은닉층 및 상기 랜덤 변수를 상기 입력 벡터와 동일한 크기로 변환하여 출력 벡터를 생성하는 출력층(output layer)으로 구성되어, 상기 랜덤 변수로부터 출력 벡터를 생성하는 디코더(decoder) 네트워크로 구성되는 것을 특징으로 하는, VAE를 이용한 화자 인식 특징 추출 방법.
  2. 제1항에 있어서, 상기 단계 (2)의 Baum-Welch statistics는,
    하기의 수학식을 통해 계산되는 0차 Baum-Welch statistics 및 1차 Baum-Welch statistics를 포함하는 것을 특징으로 하는, VAE를 이용한 화자 인식 특징 추출 방법.
    Figure 112016097489312-pat00008

    여기서, nc(X)는 음성 X의 0차 Baum-Welch statistics를 의미하고, fc(X)는 음성 X의 1차 Baum-Welch statistics를 의미하며, γl(c)는 UBM의 c번째 가우시안 성분에 l번째 프레임이 속할 확률을 의미하고, xl은 음성 X의 l번째 프레임 특징을 의미하며, L은 프레임의 개수를 의미한다.
  3. 제2항에 있어서, 상기 단계 (2)의 통합 벡터는,
    상기 Baum-Welch statistics들에 기초한 벡터로서, 하기의 수학식으로 나타내어지는 것을 특징으로 하는, VAE를 이용한 화자 인식 특징 추출 방법.
    Figure 112016097489312-pat00009

    여기서, I(X)는 c개의 가우시안 성분에 대한 음성 X의 모든 0차 및 1차 Baum-Welch statistics들을 연결시킨 벡터를 의미하며, 이때, 음성 X의 한 프레임에서의 프레임 단위 특징의 크기가 N인 경우 I(X)의 크기는 c+Nc이다.
  4. 삭제
  5. 삭제
  6. 제1항에 있어서,
    상기 인코더 네트워크는 화자 인식 특징 추출기로 사용되는 것을 특징으로 하는, VAE를 이용한 화자 인식 특징 추출 방법.
  7. VAE(variational auto encoder)를 이용한 화자 인식 특징 추출 시스템으로서,
    복수 개의 음성 파일들로 구성된 학습 데이터를 사용하여 화자 독립적 모델인 일반 배경 모델(universal background model, UBM)을 학습하는 UBM 학습부(100);
    상기 UBM 학습부(100)에서 학습된 일반 배경 모델을 이용하여 상기 복수 개의 음성 파일들에서의 Baum-Welch statistics를 추출하고, 상기 추출된 Baum-Welch statistics에 기초하여 하나의 통합 벡터를 생성하는 Baum-Welch statistics 추출부(200);
    상기 Baum-Welch statistics 추출부(200)에서 생성된 하나의 통합 벡터를 입력 벡터로 하여 VAE를 학습하는 VAE 학습부(300); 및
    상기 VAE 학습부(300)에서의 학습 결과를 바탕으로 딥 러닝(deep learning) 구조를 생성하여 상기 입력 벡터를 재구성하는 과정에서 생성되는 랜덤 변수(latent variables)를 화자 인식 특징으로 추출하는 화자 인식 특징 추출부(400)를 포함하되,
    상기 딥 러닝 구조는,
    입력 벡터를 입력하는 입력층(input layer), 상기 입력층을 통해 입력된 입력 벡터의 차원을 축소하여 상기 랜덤 변수를 생성하는 은닉층(hidden layer)으로 구성되어, 상기 입력 벡터로부터 상기 랜덤 변수를 추론하는 인코더(encoder) 네트워크; 및
    상기 은닉층 및 상기 랜덤 변수를 상기 입력 벡터와 동일한 크기로 변환하여 출력 벡터를 생성하는 출력층(output layer)으로 구성되어, 상기 랜덤 변수로부터 출력 벡터를 생성하는 디코더(decoder) 네트워크로 구성되는 것을 특징으로 하는, VAE를 이용한 화자 인식 특징 추출 시스템.
  8. 제7항에 있어서, 상기 Baum-Welch statistics는,
    하기의 수학식을 통해 계산되는 0차 Baum-Welch statistics 및 1차 Baum-Welch statistics를 포함하는 것을 특징으로 하는, VAE를 이용한 화자 인식 특징 추출 시스템.
    Figure 112016097489312-pat00010

    여기서, nc(X)는 음성 X의 0차 Baum-Welch statistics를 의미하고, fc(X)는 음성 X의 1차 Baum-Welch statistics를 의미하며, γl(c)는 UBM의 c번째 가우시안 성분에 l번째 프레임이 속할 확률을 의미하고, xl은 음성 X의 l번째 프레임 특징을 의미하며, L은 프레임의 개수를 의미한다.
  9. 제7항에 있어서, 상기 통합 벡터는,
    상기 Baum-Welch statistics들에 기초한 벡터로서, 하기의 수학식으로 나타내어지는 것을 특징으로 하는, VAE를 이용한 화자 인식 특징 추출 시스템.
    Figure 112016097489312-pat00011

    여기서, I(X)는 c개의 가우시안 성분에 대한 음성 X의 모든 0차 및 1차 Baum-Welch statistics들을 연결시킨 벡터를 의미하며, 이때, 음성 X의 한 프레임에서의 프레임 단위 특징의 크기가 N인 경우 I(X)의 크기는 c+Nc이다.
  10. 삭제
  11. 삭제
  12. 제7항에 있어서,
    상기 인코더 네트워크는 화자 인식 특징 추출기로 사용되는 것을 특징으로 하는, VAE를 이용한 화자 인식 특징 추출 시스템.
KR1020160130100A 2016-10-07 2016-10-07 Vae를 이용한 화자 인식 특징 추출 방법 및 시스템 KR101843074B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160130100A KR101843074B1 (ko) 2016-10-07 2016-10-07 Vae를 이용한 화자 인식 특징 추출 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160130100A KR101843074B1 (ko) 2016-10-07 2016-10-07 Vae를 이용한 화자 인식 특징 추출 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR101843074B1 true KR101843074B1 (ko) 2018-03-28

Family

ID=61901571

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160130100A KR101843074B1 (ko) 2016-10-07 2016-10-07 Vae를 이용한 화자 인식 특징 추출 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101843074B1 (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108777146A (zh) * 2018-05-31 2018-11-09 平安科技(深圳)有限公司 语音模型训练方法、说话人识别方法、装置、设备及介质
CN109545227A (zh) * 2018-04-28 2019-03-29 华中师范大学 基于深度自编码网络的说话人性别自动识别方法及系统
KR20200018154A (ko) * 2018-08-10 2020-02-19 서울대학교산학협력단 브이에이이 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템
KR20200103494A (ko) 2019-02-25 2020-09-02 서강대학교산학협력단 학습 데이터에 대한 오버샘플링 방법
WO2020220541A1 (zh) * 2019-04-29 2020-11-05 平安科技(深圳)有限公司 一种识别说话人的方法及终端
CN112420056A (zh) * 2020-11-04 2021-02-26 乐易欢 基于变分自编码器的说话人身份鉴别方法、系统及无人机
WO2021096739A1 (en) * 2019-11-13 2021-05-20 Nec Laboratories America, Inc. Self-supervised sequential variational autoencoder for disentangled data generation
WO2023177063A1 (ko) * 2022-03-16 2023-09-21 삼성전자주식회사 사운드를 인식하는 전자 장치 및 그 방법
US11915121B2 (en) 2019-11-04 2024-02-27 International Business Machines Corporation Simulator-assisted training for interpretable generative models

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Diederik P. Kingma et al., ‘Auto-encoding variational bayes’, arXiv:1312.6114v10, pp.1~14, May 2014.*
Timur Pekhovsky et al., ‘On autoencoders in the i-vector space for speaker recognition’, Odyssey 2016 Speaker and Language recognition workshop, pp.217~224, June 2016.*

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109545227A (zh) * 2018-04-28 2019-03-29 华中师范大学 基于深度自编码网络的说话人性别自动识别方法及系统
CN108777146A (zh) * 2018-05-31 2018-11-09 平安科技(深圳)有限公司 语音模型训练方法、说话人识别方法、装置、设备及介质
KR20200018154A (ko) * 2018-08-10 2020-02-19 서울대학교산학협력단 브이에이이 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템
KR102174189B1 (ko) * 2018-08-10 2020-11-04 서울대학교산학협력단 브이에이이 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템
KR20200103494A (ko) 2019-02-25 2020-09-02 서강대학교산학협력단 학습 데이터에 대한 오버샘플링 방법
WO2020220541A1 (zh) * 2019-04-29 2020-11-05 平安科技(深圳)有限公司 一种识别说话人的方法及终端
US11915121B2 (en) 2019-11-04 2024-02-27 International Business Machines Corporation Simulator-assisted training for interpretable generative models
WO2021096739A1 (en) * 2019-11-13 2021-05-20 Nec Laboratories America, Inc. Self-supervised sequential variational autoencoder for disentangled data generation
CN112420056A (zh) * 2020-11-04 2021-02-26 乐易欢 基于变分自编码器的说话人身份鉴别方法、系统及无人机
WO2023177063A1 (ko) * 2022-03-16 2023-09-21 삼성전자주식회사 사운드를 인식하는 전자 장치 및 그 방법

Similar Documents

Publication Publication Date Title
KR101843074B1 (ko) Vae를 이용한 화자 인식 특징 추출 방법 및 시스템
Kabir et al. A survey of speaker recognition: Fundamental theories, recognition methods and opportunities
JP3584458B2 (ja) パターン認識装置およびパターン認識方法
KR102221513B1 (ko) 음성 감정 인식 방법 및 시스템
Nandwana et al. Robust unsupervised detection of human screams in noisy acoustic environments
Ohi et al. Deep speaker recognition: Process, progress, and challenges
JP2018169494A (ja) 発話意図推定装置および発話意図推定方法
JP2016061968A (ja) 音声処理装置、音声処理方法およびプログラム
Maas et al. Recurrent neural network feature enhancement: The 2nd CHiME challenge
Cid et al. A novel multimodal emotion recognition approach for affective human robot interaction
KR102026226B1 (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
KR101843079B1 (ko) 화자 상호 정보를 활용한 강인한 i-벡터 추출기 학습 방법 및 시스템
KR102174189B1 (ko) 브이에이이 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템
CN111028833B (zh) 一种交互、车辆的交互方法、装置
JP5070591B2 (ja) 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
JP6791816B2 (ja) 音声区間検出装置、音声区間検出方法、およびプログラム
Jagadeeshwar et al. ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN
CN114822497A (zh) 语音合成模型的训练及语音合成方法、装置、设备和介质
Medikonda et al. Higher order information set based features for text-independent speaker identification
Gomes Implementation of i-vector algorithm in speech emotion recognition by using two different classifiers: Gaussian mixture model and support vector machine
Gondohanindijo et al. Multi-Features Audio Extraction for Speech Emotion Recognition Based on Deep Learning
Nguyen et al. Vietnamese speaker authentication using deep models
KR20200114705A (ko) 음성 신호 기반의 사용자 적응형 스트레스 인식 방법
Zhang et al. Online audio-visual speech separation with generative adversarial training
Huq et al. Speech enhancement using generative adversarial network (GAN)

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant