KR20190037025A - 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템 - Google Patents

딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템 Download PDF

Info

Publication number
KR20190037025A
KR20190037025A KR1020170126616A KR20170126616A KR20190037025A KR 20190037025 A KR20190037025 A KR 20190037025A KR 1020170126616 A KR1020170126616 A KR 1020170126616A KR 20170126616 A KR20170126616 A KR 20170126616A KR 20190037025 A KR20190037025 A KR 20190037025A
Authority
KR
South Korea
Prior art keywords
baum
inference model
input signal
random
network
Prior art date
Application number
KR1020170126616A
Other languages
English (en)
Other versions
KR102026226B1 (ko
Inventor
김남수
강우현
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020170126616A priority Critical patent/KR102026226B1/ko
Publication of KR20190037025A publication Critical patent/KR20190037025A/ko
Application granted granted Critical
Publication of KR102026226B1 publication Critical patent/KR102026226B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Error Detection And Correction (AREA)

Abstract

본 발명은 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법에 관한 것으로서, 보다 구체적으로는 인코더 네트워크 및 디코더 네트워크를 포함하는 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법으로서, (1) 프레임 단위를 가지는 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습하는 단계; (2) 상기 단계 (1)에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량(Baum-Welch Statistics)을 계산하는 단계; (3) 상기 단계 (2)에서 계산한 상기 바움-웰치 통계량을 입력 벡터로 입력받아 상기 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 학습하는 단계; 및 (4) 상기 단계 (3)에서 학습한 Variational Inference 모델의 인코더 네트워크에서 상기 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수(Latent Variable)를 생성하여 상기 입력 신호의 특징을 추출하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
또한, 본 발명은 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템에 관한 것으로서, 보다 구체적으로는 인코더 네트워크 및 디코더 네트워크를 포함하는 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템으로서, 프레임 단위를 가지는 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습하는 UBM 학습부; 상기 UBM 학습부에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량(Baum-Welch Statistics)을 계산하는 바움-웰치 통계량 계산부; 상기 바움-웰치 통계량 계산부에서 계산한 상기 바움-웰치 통계량을 입력 벡터로 입력받아 상기 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 학습하는 Variational Inference 모델 학습부; 및 상기 Variational Inference 모델 학습부에서 학습한 Variational Inference 모델의 인코더 네트워크에서 상기 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수(Latent Variable)를 생성하여 상기 입력 신호의 특징을 추출하는 특징 추출부를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템에 따르면, 랜덤 변수를 입출력의 매개체로 두는 Variational Inference 기반의 딥러닝 구조를 활용하여 특징을 추출함으로써, 입력의 분포를 표현하는 파라미터를 생성할 수 있다.
또한, 본 발명에서 제안하고 있는 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템에 따르면, Variational Inference 모델에서 생성되는 매개 랜덤 은닉 변수는 인공신경망을 통한 비선형적인 처리로 생성되므로, 기존 I-Vector 기법에서 선형적으로 매핑될 수 없는 비선형적 특징도 추출할 수 있으며, 입력 신호의 프레임 단위 특징들의 분포가 갖는 다양한 정보를 표현하는 특징을 추출할 수 있다.

Description

딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템{METHOD FOR EXTRACTING SIGNAL UNIT FEATURES USING VARIATIONAL INFERENCE MODEL BASED DEEP LEARNING AND SYSTEM THEREOF}
본 발명은 신호 단위 특징 추출 방법 및 시스템에 관한 것으로서, 보다 구체적으로는 딥러닝 기반의 Variational Inference 모델을 이용하여 신호 단위의 특징을 추출하는 방법 및 시스템에 관한 것이다.
일반적으로 특징 추출 알고리즘에서는 음성, 영상, 생체 신호와 같은 신호를 분류하거나 분석하기 위해 프레임 단위로 특징을 추출한다. 예를 들어, 음성의 경우에는 입력 음성을 짧은 시간 단위의 프레임으로 나눈 후 각각의 프레임에서 MFCC(Mel-Frequency Cepstral Coefficients)와 같은 특징을 추출할 수 있다. 이러한 프레임 단위의 특징은 특정 시간에서 신호가 갖는 주파수 특성을 표현한다. 음성의 경우에는 발화한 화자의 성도(Vocal tract) 형태의 패턴을, 그리고 영상의 경우에는 경계선(Edge)에 대한 정보를 담고 있다. 하지만 입력된 신호의 길이가 다른 경우, 추출되는 프레임 단위 특징의 수가 달라지기 때문에 SVM(Support Vector Machine)이나 DNN(Deep Neural Network)과 같이 하나의 고정된 크기의 벡터를 입력으로 받는 분류기를 사용하기 어렵다는 문제점이 있다.
이러한 문제를 해결하기 위하여 입력 신호의 길이에 무관하게 전체적인 패턴을 압축적으로 고정된 크기의 벡터에 표현하는 많은 기법들이 연구되어왔으며, 대표적으로 I-Vector라는 기법이 있다. I-Vector 특징 추출 기법은 입력의 프레임 단위 특징의 분포를 GMM(Gaussian Mixture Model)으로 모델링 한 후, 각각의 가우시안의 평균 벡터들을 연결시킨 GMM 슈퍼벡터(GMM Supervector)를 선형적으로 분해시키는 기법이다. 즉, I-Vector 특징 추출 기법은 입력 신호 내에 존재하는 다양한 특성들을 I-Vector라는 작은 벡터로 표현할 수 있다. 이는 잡음이나 통신 채널로 인하여 열화된 음성을 이용한 화자 인식에서 높은 성능을 보였으며, 작은 벡터 차원으로 인해 다양한 분류 알고리즘에 적용할 수 있으므로 현재까지도 음성 및 영상 분야에서 널리 사용되고 있다.
하지만 입력 신호의 길이가 짧은 경우에는 입력 신호에 포함된 정보가 적은 탓에 추출된 I-Vector 특징의 신뢰도가 매우 떨어진다는 문제점이 여러 연구에서 보고된 바 있다. 더 나아가 I-Vector는 기본적으로 선형적인 처리를 통하여 추출되는 특징이기에, 전체 변이성 공간(Total variability space)에 선형적으로 매핑될 수 없는 특성들을 표현할 수 없으므로 그 성능에 한계가 있을 수 있다.
해당 기술분야와 관련된 선행기술로서, 대한민국 등록특허 제10-0571427호 ‘잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치 및 역상관 필터링 방법’ 등이 제안된 바 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 랜덤 변수를 입출력의 매개체로 두는 Variational Inference 기반의 딥러닝 구조를 활용하여 특징을 추출함으로써, 입력의 분포를 표현하는 파라미터를 생성할 수 있고, 추출되는 특징이 보다 통계적인 특성을 반영할 수 있는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템을 제공하는 것을 목적으로 한다.
또한, 본 발명은, Variational Inference 모델에서 생성되는 매개 랜덤 은닉 변수는 인공신경망을 통한 비선형적인 처리로 생성되므로, 기존 I-Vector 기법에서 선형적으로 매핑될 수 없는 비선형적 특징도 추출할 수 있으며, 입력 신호의 프레임 단위 특징들의 분포가 갖는 다양한 정보를 표현하는 특징을 추출할 수 있는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템을 제공하는 것을 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법은,
인코더 네트워크 및 디코더 네트워크를 포함하는 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법으로서,
(1) 프레임 단위를 가지는 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습하는 단계;
(2) 상기 단계 (1)에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량(Baum-Welch Statistics)을 계산하는 단계;
(3) 상기 단계 (2)에서 계산한 상기 바움-웰치 통계량을 입력 벡터로 입력받아 상기 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 학습하는 단계; 및
(4) 상기 단계 (3)에서 학습한 Variational Inference 모델의 인코더 네트워크에서 상기 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수(Latent Variable)를 생성하여 상기 입력 신호의 특징을 추출하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 단계 (2)의 바움-웰치 통계량은,
하기의 수학식을 통계 계산되는 0차 바움-웰치 통계량 및 1차 바움-웰치 통계량을 포함할 수 있다.
Figure pat00001
여기서, nc(X)는 입력 신호 X의 0차 바움-웰치 통계량, fc(X)는 입력 신호 X의 1차 바움-웰치 통계량, γl(c)는 UBM의 c번째 가우시안 성분에 l번째 프레임이 속할 확률, xl은 입력 신호 X의 l번째 프레임 특징, L은 프레임의 개수이다.
바람직하게는, 상기 단계 (3)은,
오류 역전파 알고리즘을 사용하여 상기 인코더 네트워크 및 상기 디코더 네트워크를 동시에 학습할 수 있다.
더욱 바람직하게는, 상기 단계 (3)은,
상기 Variational Inference 모델의 디코더 네트워크에서 출력되는 벡터의 출력 분포의 로그 우도를 최대화하도록 목적 함수인 하기의 수학식이 최대화되는 방향으로 학습할 수 있다.
Figure pat00002
여기서, qφ(Z|X)는 인코더 네트워크에서 주어진 입력 X로부터 매개 랜덤 은닉 변수 Z를 생성할 확률, pθ(Z)는 디코더 네트워크의 파라미터가 주어졌을 때 매개 랜덤 은닉 변수 Z가 생성될 사전확률, DKL(qφ(Z|X)|pθ(Z))은 입력 X가 주어졌을 때, 매개 랜덤 은닉 변수 Z의 사전 확률 분포의 차이를 나타내는 Kullback-Leibler Divergence, p(X|φ,θ,Z)은 인코더 네트워크, 디코더 네트워크 및 특정 매개 랜덤 은닉 변수 Z가 주어졌을 때 생성되는 입력 신호 X에 종속적인 분포를 가지는 우도이다.
바람직하게는, 상기 단계 (4)는,
상기 인코더 네트워크를 특징 추출기로 사용하여, 상기 인코더 네트워크로부터 상기 복수 개의 신호 단위에서 프레임 단위 특징의 분포를 상기 매개 은닉 변수의 평균 및 분산으로 추출할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템은,
인코더 네트워크 및 디코더 네트워크를 포함하는 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템으로서,
프레임 단위를 가지는 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습하는 UBM 학습부;
상기 UBM 학습부에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량(Baum-Welch Statistics)을 계산하는 바움-웰치 통계량 계산부;
상기 바움-웰치 통계량 계산부에서 계산한 상기 바움-웰치 통계량을 입력 벡터로 입력받아 상기 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 학습하는 Variational Inference 모델 학습부; 및
상기 Variational Inference 모델 학습부에서 학습한 Variational Inference 모델의 인코더 네트워크에서 상기 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수(Latent Variable)를 생성하여 상기 입력 신호의 특징을 추출하는 특징 추출부를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 계산부의 바움-웰치 통계량은,
하기의 수학식을 통계 계산되는 0차 바움-웰치 통계량 및 1차 바움-웰치 통계량을 포함할 수 있다.
Figure pat00003
여기서, nc(X)는 입력 신호 X의 0차 바움-웰치 통계량, fc(X)는 입력 신호 X의 1차 바움-웰치 통계량, γl(c)는 UBM의 c번째 가우시안 성분에 l번째 프레임이 속할 확률, xl은 입력 신호 X의 l번째 프레임 특징, L은 프레임의 개수이다.
바람직하게는, 상기 Variational Inference 모델 학습부는,
오류 역전파 알고리즘을 사용하여 상기 인코더 네트워크 및 상기 디코더 네트워크를 동시에 학습할 수 있다.
더욱 바람직하게는, 상기 Variational Inference 모델 학습부는,
상기 Variational Inference 모델의 디코더 네트워크에서 출력되는 벡터의 출력 분포의 로그 우도를 최대화하도록 목적 함수인 하기의 수학식이 최대화되는 방향으로 학습할 수 있다.
Figure pat00004
여기서, qφ(Z|X)는 인코더 네트워크에서 주어진 입력 X로부터 매개 랜덤 은닉 변수 Z를 생성할 확률, pθ(Z)는 디코더 네트워크의 파라미터가 주어졌을 때 매개 랜덤 은닉 변수 Z가 생성될 사전확률, DKL(qφ(Z|X)|pθ(Z))은 입력 X가 주어졌을 때, 매개 랜덤 은닉 변수 Z의 사전 확률 분포의 차이를 나타내는 Kullback-Leibler Divergence, p(X|φ,θ,Z)은 인코더 네트워크, 디코더 네트워크 및 특정 매개 랜덤 은닉 변수 Z가 주어졌을 때 생성되는 입력 신호 X에 종속적인 분포를 가지는 우도이다.
바람직하게는, 상기 특징 추출부는,
상기 인코더 네트워크를 특징 추출기로 사용하여, 상기 인코더 네트워크로부터 상기 복수 개의 신호 단위에서 프레임 단위 특징의 분포를 상기 매개 은닉 변수의 평균 및 분산으로 추출할 수 있다.
본 발명에서 제안하고 있는 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템에 따르면, 랜덤 변수를 입출력의 매개체로 두는 Variational Inference 기반의 딥러닝 구조를 활용하여 특징을 추출함으로써, 입력의 분포를 표현하는 파라미터를 생성할 수 있다.
또한, 본 발명에서 제안하고 있는 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템에 따르면, Variational Inference 모델에서 생성되는 매개 랜덤 은닉 변수는 인공신경망을 통한 비선형적인 처리로 생성되므로, 기존 I-Vector 기법에서 선형적으로 매핑될 수 없는 비선형적 특징도 추출할 수 있으며, 입력 신호의 프레임 단위 특징들의 분포가 갖는 다양한 정보를 표현하는 특징을 추출할 수 있다.
도 1은 종래의 I-Vector를 추출하는 과정을 도시한 도면.
도 2는 Variational Inference 모델에 대한 개략적인 구조를 도시한 도면.
도 3은 VAE의 인코더 네트워크와 디코더 네트워크의 노드를 도시한 도면.
도 4는 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법의 구성을 개략적으로 도시한 도면.
도 5는 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법에서 Variational Inference 모델의 구성을 도시한 도면.
도 6은 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법의 구성을 도시한 도면.
도 7은 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법이 화자 인식에 사용되는 경우의 Variational Inference 모델의 구성을 도시한 도면.
도 8은 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법이 적용된 화자 인식에 적용되는 경우에 추출된 매개 랜덤 은닉 변수의 로그 분산으로 구한 미분 엔트로피(Differential Entropy)의 그래프.
도 9는 I-Vector와 특징과 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법에서 생성된 매개 랜덤 은닉 변수를 이용하였을 때 화자 인식 성능을 도시한 표.
도 10은 본 발명의 다른 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템의 구성을 도시한 도면.
이하에서는 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일 또는 유사한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 종래의 I-Vector를 추출하는 과정을 도시한 도면이다. I-Vector는 입력 신호 내에 존재하는 다양한 변이성을 작은 차원의 벡터로 표현할 수 있다. 데이터의 분포를 GMM(Gaussian Mixture Model)으로 모델링했을 때, 각각의 가우시안들의 평균값들을 연결하여, 변이를 표현하는 벡터인 GMM 슈퍼벡터(Supervector)와 I-Vector의 관계는 다음의 수학식 1로 나타낼 수 있다.
Figure pat00005
여기서, m(X)는 입력 X에 종속적인 GMM 슈퍼벡터, u는 UBM(Universal Background Model), T는 전체 변이성 행렬(Total Variability Matrix), w(X)는 입력 X에 종속적인 I-Vector를 나타낸다. UBM은 여러 종류의 신호를 사용하여 학습한 GMM으로, 특정 신호에 독립적인 신호의 분포를 나타낼 수 있다. 이때, 전체 변이성 행렬은 I-Vector 추출기 역할을 할 수 있다.
도 1을 참조하면, 전체 변이성 행렬은 UBM과 가우시안 분포를 갖는 랜덤 변수인 I-Vector가 주어졌을 때, 구할 수 있는 GMM 슈퍼벡터가 갖는 로그우도(Log-likelihood)를 최대화하는 방향으로 학습된다. 이때, 최대 우도(Maximum Likelihood) 최적화에 널리 사용되는 Expectation-Maximization 알고리즘이 사용될 수 있다. I-Vector 및 전체 변이성 행렬을 구하는 과정에서는 UBM에 대한 입력의 분포 패턴을 나타내는 파라미터인 바움-웰치 통계량(Baum-Welch Statistics)이 입력된다. 이때, I-Vector는 선형적인 처리를 통하여 추출되는 특징이므로, 전체 변이성 공간에 선형적으로 매핑될 수 없는 특성들은 표현할 수 없는 문제점이 있다.
도 2는 Variational Inference 모델에 대한 개략적인 구조를 도시한 도면이다. 또한, 도 3은 VAE의 인코더 네트워크와 디코더 네트워크의 노드를 도시한 도면이다. 도 2를 참조하면, Variational Inference 모델은 인코더 네트워크와 디코더 네트워크를 포함할 수 있다. Variational Inference 모델의 대표적인 예로, VAE(Variational AutoEncoder)가 있다. VAE는 입력된 벡터를 출력에서 재구성하는 오토인코더(Autoencoder)의 일종이다. VAE는 가운데 은닉층(Hidden layer)을 랜덤 변수인 매개 랜덤 은닉 변수(Latent variable)로 가지고 있으며, 인코더 네트워크 및 디코더 네트워크로 구성된다.
도 3을 참조하면, 인코더 네트워크는 입력 벡터를 받아서 입력이 조건으로 주어진 경우 매개 랜덤 은닉 변수의 사후 분포를 추정한다. 인코더 네트워크는 매개 랜덤 은닉 변수가 따르는 추정된 분포(평균(μ)과 분산(σ2))로부터 샘플링을 통해 매개 랜덤 은닉 변수를 생성한다. 이러한 샘플링된 매개 랜덤 은닉 변수는 디코더 네트워크로 입력되며, 디코더 네트워크의 출력으로 매개 랜덤 은닉 변수의 입력이 재구성된다.
VAE에서 인코더 네트워크와 디코더 네트워크가 학습되는데, 그 목적 함수는 아래의 수학식 2로 정의될 수 있다.
Figure pat00006
여기서, qφ(Z|X)는 인코더 네트워크에서 주어진 입력 X로부터 매개 랜덤 은닉 변수 Z를 생성할 확률, pθ(X|Z)는 디코더 네트워크에서 매개 랜덤 은닉 변수로부터 입력 X를 재구성할 확률, pθ(Z)는 디코더 네트워크의 파라미터가 주어졌을 때, 매개 랜덤 은닉 변수 Z가 생성될 사전확률이다. DKL(qφ(Z|X)|pθ(Z))은 입력 X가 주어졌을 때, 매개 랜덤 은닉 변수 Z의 사전 확률 분포의 차이를 나타내는 Kullback-Leibler Divergence를 나타내며, 생성되는 매개 랜덤 은닉 변수의 분포가 최대한 사전 확률 분포에 가깝도록 규제해주는 역할을 한다. 반면, Eqφ(Z|X)[logpθ(X|Z)]는 재구성 오차로, 입력 X가 주어졌을 때 매개 랜덤 은닉 변수 Z의 생성 확률 분포와 매개 랜덤 은닉 변수 Z로부터 입력 X가 생성되는 확률 분포 간의 Cross-entropy 오차를 의미한다.
도 4는 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법의 구성을 개략적으로 도시한 도면이다. 또한, 도 5는 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법에서 Variational Inference 모델의 구성을 도시한 도면이다. 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법은, VAE와 같이 매개 랜덤 은닉 변수의 개입이 들어간 Variational Inference 모델을 활용하여 입력 신호로부터 특징을 추출할 수 있다. 하지만 도 4에 도시된 바와 같이, 일반적인 VAE와 달리 디코더 네트워크에서 입력을 재구성하는 것이 아니라, 입력 신호의 프레임 단위 신호가 갖는 분포를 추정할 수 있다. 다시 말해, 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법은, 인코더 네트워크의 입력으로는 입력 신호의 바움-웰치 통계량이 들어가며 디코더의 출력으로는 입력 신호에 종속적인 확률 분포가 생성될 수 있다.
보다 구체적으로, 도 5를 참조하면, 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법은, 매개 랜덤 은닉 변수 Z를 입출력의 매개체로 두는 Variational Inference 모델 기반의 딥러닝 구조를 활용하여 특징을 추출할 수 있다. 이때, 랜덤 매개 변수 Z는 정규 분포를 따른다. 기존의 오토인코더가 매개 랜덤 은닉 변수를 직접 출력하도록 학습되는데 반해, 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법은 랜덤 매개 변수 Z가 따르는 평균과 분산을 출력하도록 학습한 후, 샘플링을 통해 랜덤 매개 변수 Z를 생성할 수 있다. 디코더 네트워크는 샘플링된 랜덤 매개 변수 Z로 학습한다. 즉, 입력을 단순히 출력단에서 재구성하는 모델이 아니라, 입력 신호에 종속적인 분포를 표현하는 파라미터를 생성하는 Variational Inference 모델을 구성함으로써 인코더 네트워크에서 추출되는 특징이 보다 통계적인 특성을 반영할 수 있다. 제약 함수 DKL와 로그 우도 logP에 대해서는 후술하여 설명한다.
본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법의 각각의 단계는 컴퓨팅 장치에 의해 수행될 수 있다. 이하에서는, 설명의 편의를 위해 각각의 단계에서 수행 주체가 생략될 수도 있다.
도 6은 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법의 구성을 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법은, 프레임 단위를 가지는 복수 개의 신호 단위로 구성된 입력 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습하는 단계(S100), 단계 S100에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량(Baum-Welch Statistics)을 계산하는 단계(S200), 단계 S200에서 계산한 바움-웰치 통계량을 입력 벡터로 입력받아 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 동시에 학습하는 단계(S300), 및 단계 S400에서 학습한 Variational Inference 모델의 인코더 네트워크에서 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수를 생성하여 입력 신호의 특징을 추출하는 단계(S400)를 포함할 수 있다. 이하에서는, 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법의 각각의 구성에 대해 상세히 설명하기로 한다.
단계 S100에서는, 프레임 단위를 가지는 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습할 수 있다. 여기서, 복수 개의 신호 단위는, 음성, 영상 및 생체신호를 포함하며, 프레임 단위로 분할될 수 있다. 단계 S100에서는, 이러한 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 UBM을 학습할 수 있다.
단계 S200에서는, 단계 S100에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량(Baum-Welch Statistics)을 계산할 수 있다. 바움-웰치 통계량은 주어진 입력 데이터가 UBM에서 어떤 통계적 특성을 보이는지를 나타내는 파라미터이다. 이때, 바움-웰치 통계량은 0차 바움-웰치 통계량 및 1차 바움-웰치 통계량을 포함할 수 있다. 0차 바움-웰치 통계량은 특정 가우시안 성분에 속하는 프레임의 수, 1차 바움-웰치 통계량은 특정 가우시안 성분에 속하는 평균 프레임을 의미한다. C개의 가우시안 성분을 가진 UBM이 주어졌을 때, L개의 프레임을 가진 입력 신호 X의 0차 바움-웰치 통계량과 1차 바움-웰치 통계량은 다음의 수학식 3에 의해 계산될 수 있다.
Figure pat00007
여기서, nc(X)는 입력 신호 X의 0차 바움-웰치 통계량, fc(X)는 입력 신호 X의 1차 바움-웰치 통계량, γl(c)는 UBM의 c번째 가우시안 성분에 l번째 프레임이 속할 확률, xl은 입력 신호 X의 l번째 프레임 특징, L은 프레임의 개수이다.
단계 S300에서는, 단계 S200에서 계산한 바움-웰치 통계량을 입력 벡터로 입력받아 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 학습할 수 있다. 여기서, 단계 S200에서 계산한 바움-웰치 통계량은 다음의 수학식 4에 의해 하나의 입력 벡터로 생성될 수 있다.
Figure pat00008
여기서, I(X)는 c개의 가우시안 성분에 대한 입력 신호 X의 모든 0차 및 1차 바움-웰치 통계량들을 연결시킨 벡터로, 입력 벡터에 해당한다. 이때, 입력 신호 X의 한 프레임에서의 프레임 단위 특징의 크기가 N인 경우 I(X)의 크기는 c+Nc이다.
단계 S300에서는, 오류 역전파 알고리즘(Error Back Propagation)을 사용하여 인코더 네트워크 및 디코더 네트워크를 동시에 학습할 수 있다. 보다 구체적으로, 단계 S300에서는, Variational Inference 모델의 디코더 네트워크에서 출력되는 벡터의 출력 분포의 로그 우도를 최대화하도록 목적 함수를 최대화되는 방향으로 학습할 수 있다. 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법은, 인코더 네트워크의 입력으로는 입력 신호의 바움-웰치 통계량이 입력되며 디코더 네트워크의 출력으로는 입력 신호에 종속적인 확률 분포가 생성되므로, 일반적인 VAE에서의 재구성 오차 대신 출력 분포의 로그 우도를 최대화하는 방향으로 학습할 수 있으며, 그 목적 함수는 다음의 수학식 5와 같다.
Figure pat00009
여기서, qφ(Z|X)는 인코더 네트워크에서 주어진 입력 X로부터 매개 랜덤 은닉 변수 Z를 생성할 확률, pθ(Z)는 디코더 네트워크의 파라미터가 주어졌을 때 매개 랜덤 은닉 변수 Z가 생성될 사전확률이다. DKL(qφ(Z|X)|pθ(Z))은 입력 X가 주어졌을 때, 매개 랜덤 은닉 변수 Z의 사전 확률 분포의 차이를 나타내는 Kullback-Leibler Divergence, p(X|φ,θ,Z)은 인코더 네트워크, 디코더 네트워크 및 특정 매개 랜덤 은닉 변수 Z가 주어졌을 때 생성되는 입력 신호 X에 종속적인 분포를 가지는 우도이다.
단계 S400에서는, 단계 S300에서 학습한 Variational Inference 모델의 인코더 네트워크에서 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수를 생성하여 입력 신호의 특징을 추출할 수 있다. 단계 S300에서 목적 함수인 수학식 5를 최대화하는 방향으로 Variational Inference 모델을 학습함으로써 인코더 네트워크에서 생성되는 매개 랜덤 은닉 변수는 입력 신호의 사전 확률 분포에 가까운 분포를 가질 수 있다. 동시에 디코더 네트워크에서 생성되는 입력 신호에 종속적인 분포는 입력 신호의 프레임 단위 특징들의 분포를 잘 나타내도록 최적화될 수 있다. 그 결과 매개 랜덤 은닉 변수는 입력 신호의 분포를 정확히 추정하는데 필요한 다양한 분포적 패턴을 담을 수 있다. 디코더 네트워크에서 출력되는 입력 신호에 종속적인 분포는, 예를 들어 가우시안, GMM 및 라플라시안 분포 등과 같이 사용 목적이나 입력 데이터에 따라서 다양하게 선택될 수 있다.
단계 S400에서는, 인코더 네트워크를 특징 추출기로 사용하여, 인코더 네트워크로부터 입력 신호에서 프레임 단위 특징의 분포를 매개 은닉 변수의 평균 및 분산으로 추출할 수 있다. 단계 S300에서 학습한 Variational Inference 모델의 인코더 네트워크는 특징 추출기로 사용할 수 있다. 즉, 인코더 네트워크의 출력으로 생성되는 매개 랜덤 은닉 변수의 평균 및 분산은 입력 신호의 프레임 단위 특징들의 분포가 가지는 다양한 정보를 표현하는 특징으로 사용될 수 있다. 매개 랜덤 은닉 변수의 평균은 입력 신호 분포가 가지는 전반적인 분포 패턴에 대한 정보를 포함할 수 있다. 또한, 매개 랜덤 은닉 변수의 분산은 입력 신호의 길이가 짧거나 열화될수록 큰 값을 가지기 때문에 추출된 특징이 가지는 신뢰도를 나타낼 수 있다.
도 7은 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법이 화자 인식에 사용되는 경우의 Variational Inference 모델의 구성을 도시한 도면이다. 도 7에 도시된 바와 같이, 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법에서 Variational Inference 모델의 인코더 네트워크는 바움-웰치 통계량을 입력받아 매개 랜덤 은닉 변수를 생성할 수 있다. 여기서, 인코더 네트워크는 특징 추출기 역할을 하며, 디코더 네트워크는 기존 I-Vector 기법에서 전체 변이성 행렬과 같이 추출된 특징을 받아서 입력 신호에 종속적인 GMM 슈퍼벡터를 생성하는데 사용될 수 있다. 이때, 추출된 GMM 슈퍼벡터의 입력 음성에 대한 로그 우도는 다음의 수학식 6과 같다.
Figure pat00010
여기서, F는 프레임 단위 특징(예를 들어, MFCC)의 크기,
Figure pat00011
는 GMM 슈퍼벡터의 c번째 가우시안 평균,
Figure pat00012
는 UBM의 c번째 가우시안의 공분산 행렬의 역행렬이다.
수학식 6은 특정 매개 랜덤 은닉 변수 Z에 대한 로그 우도이므로, 매개 랜덤 은닉 변수에 대하여 주변화(marginalize)하면 다음의 수학식 7로 근사될 수 있다.
Figure pat00013
여기서, S는 몬테 카를로(Monte Carlo) 근사에 사용한 샘플의 수, Zs(X)는 매개 랜덤 은닉 변수의 사전 확률 분포에서 랜덤하게 샘플링한 매개 랜덤 은닉 변수이다.
수학식 7을 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출의 Variational Inference 모델의 목적 함수에 대입하면 다음의 수학식 8과 같다.
Figure pat00014
수학식 8의 목적 함수를 최소화하도록 오류 역전파 알고리즘을 통하여 Variational Inference 모델을 학습한 후, 인코더 네트워크는 화자 인식용 특징 추출기로 사용될 수 있다.
도 8은 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법이 적용된 화자 인식에 적용되는 경우에 추출된 매개 랜덤 은닉 변수의 로그 분산으로 구한 미분 엔트로피(Differential Entropy)의 그래프이다. 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법의 성능 검증을 위해 인코더 네트워크 및 디코더 네트워크를 각각 ReLU 활성함수 노드 4096으로 구성된 단일 은닉층으로 설정하였다. 화자 630명 및 6300 음성 샘플로 구성된 TIMIT 데이터셋으로 모델을 학습시킨 후 326명의 화자로 구성된 TIDIGITS로 성능 검증을 진행하였다. LDA(Linear Discriminant Analysis)로 특징을 일반화하고, PLDA(Probabilistic Linear Discriminant Analysis)로 화자 인식을 수행하였다. UBM 및 GMM의 가우시안은 32개로 설정되었으며, 매개 랜덤 은닉 변수의 차원은 200으로 설정하였다. 추출된 매개 랜덤 은닉 변수의 로그 분산으로 구한 미분 엔트로피는 도 8에 도시된 바와 같다. 도 8을 참조하면, 음성 신호의 길이가 길어짐에 따라 매개 랜덤 은닉 변수의 로그 분산으로 계산된 미분 엔트로피가 감소하는 것을 확인할 수 있다. 이는 매개 랜덤 은닉 변수의 로그 분산이 음성의 짧은 길이에 따른 불확실성을 표현해주고 있다는 것을 의미한다.
도 9는 I-Vector와 특징과 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법에서 생성된 매개 랜덤 은닉 변수를 이용하였을 때 화자 인식 성능을 도시한 표이다. I-Vector(400) 및 I-Vector(600)은 각각 400차원과 600차원의 I-Vector, LM+LV는 매개 랜덤 은닉 변수의 평균과 로그 분산을 연결시킨 특징, I-Vector(200)+LM은 200차원 I-Vector와 매개 랜덤 은닉 변수의 로그 분산을 연결시킨 특징, I-Vector(200)+LM+LV는 200차원 I-Vector와 매개 랜덤 은닉 변수의 평균 및 로그 분산을 모두 연결시킨 특징이다. 도 9를 참조하면, 매개 랜덤 은닉 변수만 사용하였을 때 같은 차원의 I-Vector 특징에 비해 높은 성능을 보임을 확인할 수 있으며, I-Vector와 연결시켰을 때 보다 높은 성능을 보인다.
도 10은 본 발명의 다른 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템의 구성을 도시한 도면이다. 도 10에 도시된 바와 같이, 본 발명의 다른 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템(100)은, 인코더 네트워크 및 디코더 네트워크를 포함하는 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템으로서, UBM 학습부(110), 바움-웰치 통계량 계산부(120), Variational Inference 모델 학습부(130) 및 특징 추출부(140)를 포함할 수 있다. 이하에서는, 본 발명의 다른 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템의 각각의 구성에 대해 상세히 설명하기로 한다.
UBM 학습부(110)는, 프레임 단위를 가지는 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습할 수 있다.
바움-웰치 통계량 계산부(120)는, UBM 학습부(110)에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량(Baum-Welch Statistics)을 계산할 수 있다. 바움-웰치 통계량 계산부(120)의 바움-웰치 통계량은, 전술한 수학식 3을 통해 계산되는 0차 바움-웰치 통계량 및 1차 바움-웰치 통계량을 포함할 수 있다.
Variational Inference 모델 학습부(130)는, 바움-웰치 통계량 계산부에서 계산된 바움-웰치 통계량을 입력 벡터로 입력받아 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 학습할 수 있다. 이때, Variational Inference 모델 학습부(130)는, 오류 역전파 알고리즘을 사용하여 인코더 네트워크 및 디코더 네트워크를 동시에 학습할 수 있다. 또한, Variational Inference 모델 학습부(130)는, Variational Inference 모델의 디코더 네트워크에서 출력되는 입력 신호에 종속적인 확률 분포의 로그 우도가 최대화되도록 목적 함수인 전술한 수학식 5가 최대화되는 방향으로 학습할 수 있다.
특징 추출부(150)는, Variational Inference 모델 학습부(130)에서 학습한 Variational Inference 모델의 인코더 네트워크에서 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수(Latent Variable)를 생성하고 입력 신호의 특징을 추출할 수 있다. 또한, 특징 추출부(150)는, 인코더 네트워크를 특징 추출기로 사용하여, 인코더 네트워크로부터 입력 신호에서 프레임 단위 특징의 분포를 매개 은닉 변수의 평균 및 분산으로 추출할 수 있다.
전술한 바와 같이, 본 발명에서 제안하고 있는 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템에 따르면, 랜덤 변수를 입출력의 매개체로 두는 Variational Inference 기반의 딥러닝 구조를 활용하여 특징을 추출함으로써, 입력의 분포를 표현하는 파라미터를 생성할 수 있다. 또한, 본 발명에서 제안하고 있는 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템에 따르면, Variational Inference 모델에서 생성되는 매개 랜덤 은닉 변수는 인공신경망을 통한 비선형적인 처리로 생성되므로, 기존 I-Vector 기법에서 선형적으로 매핑될 수 없는 비선형적 특징도 추출할 수 있으며, 입력 신호의 프레임 단위 특징들의 분포가 갖는 다양한 정보를 표현하는 특징을 추출할 수 있다.
한편, 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템은, 비선형적인 처리를 통해 입력 신호나 정보열에 있는 분포적 패턴을 고정된 크기의 벡터로 표현해주므로, 기존의 I-Vector나 GMM 슈퍼벡터와 같은 기법을 사용하는 분야에는 모두 적용할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 청구범위에 의하여 정해져야 할 것이다.
S100: 프레임 단위를 가지는 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습하는 단계;
S200: 단계 S100에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량을 계산하는 단계;
S300: 단계 S200에서 계산한 바움-웰치 통계량을 입력 벡터로 입력받아 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 학습하는 단계
S400: 단계 S300에서 학습한 Variational Inference 모델의 인코더 네트워크에서 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수를 생성하여 입력 신호의 특징을 추출하는 단계
100: 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템
110: UBM 학습부
120: 바움-웰치 통계량 계산부
130: Variational Inference 모델 학습부
140: 특징 추출부

Claims (10)

  1. 인코더 네트워크 및 디코더 네트워크를 포함하는 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법으로서,
    (1) 프레임 단위를 가지는 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습하는 단계;
    (2) 상기 단계 (1)에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량(Baum-Welch Statistics)을 계산하는 단계;
    (3) 상기 단계 (2)에서 계산한 상기 바움-웰치 통계량을 입력 벡터로 입력받아 상기 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 학습하는 단계; 및
    (4) 상기 단계 (3)에서 학습한 Variational Inference 모델의 인코더 네트워크에서 상기 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수(Latent Variable)를 생성하여 상기 입력 신호의 특징을 추출하는 단계를 포함하는 것을 특징으로 하는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법.
  2. 제1항에 있어서, 상기 단계 (2)의 바움-웰치 통계량은,
    하기의 수학식을 통해 계산되는 0차 바움-웰치 통계량 및 1차 바움-웰치 통계량을 포함하는 것을 특징으로 하는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법.
    Figure pat00015

    여기서, nc(X)는 입력 신호 X의 0차 바움-웰치 통계량, fc(X)는 입력 신호 X의 1차 바움-웰치 통계량, γl(c)는 UBM의 c번째 가우시안 성분에 l번째 프레임이 속할 확률, xl은 입력 신호 X의 l번째 프레임 특징, L은 프레임의 개수이다.
  3. 제1항에 있어서, 상기 단계 (3)은,
    오류 역전파 알고리즘을 사용하여 상기 인코더 네트워크 및 상기 디코더 네트워크를 동시에 학습하는 것을 특징으로 하는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법.
  4. 제3항에 있어서, 상기 단계 (3)은,
    상기 Variational Inference 모델의 디코더 네트워크에서 출력되는 입력 신호에 종속적인 확률 분포의 로그 우도가 최대화되도록 목적 함수인 하기의 수학식이 최대화되는 방향으로 학습하는 것을 특징으로 하는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법.
    Figure pat00016

    여기서, qφ(Z|X)는 인코더 네트워크에서 주어진 입력 X로부터 매개 랜덤 은닉 변수 Z를 생성할 확률, pθ(Z)는 디코더 네트워크의 파라미터가 주어졌을 때 매개 랜덤 은닉 변수 Z가 생성될 사전확률, DKL(qφ(Z|X)|pθ(Z))은 입력 X가 주어졌을 때, 매개 랜덤 은닉 변수 Z의 사전 확률 분포의 차이를 나타내는 Kullback-Leibler Divergence, p(X|φ,θ,Z)은 인코더 네트워크, 디코더 네트워크 및 특정 매개 랜덤 은닉 변수 Z가 주어졌을 때 생성되는 입력 신호 X에 종속적인 분포를 가지는 우도이다.
  5. 제1항에 있어서, 상기 단계 (4)는,
    상기 인코더 네트워크를 특징 추출기로 사용하여, 상기 인코더 네트워크로부터 상기 복수 개의 신호 단위에서 프레임 단위 특징의 분포를 상기 매개 은닉 변수의 평균 및 분산으로 추출하는 것을 특징으로 하는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템.
  6. 인코더 네트워크 및 디코더 네트워크를 포함하는 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템으로서,
    프레임 단위를 가지는 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습하는 UBM 학습부;
    상기 UBM 학습부에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량(Baum-Welch Statistics)을 계산하는 바움-웰치 통계량 계산부;
    상기 바움-웰치 통계량 계산부에서 계산한 상기 바움-웰치 통계량을 입력 벡터로 입력받아 상기 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 학습하는 Variational Inference 모델 학습부; 및
    상기 Variational Inference 모델 학습부에서 학습한 Variational Inference 모델의 인코더 네트워크에서 상기 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수(Latent Variable)를 생성하여 상기 입력 신호의 특징을 추출하는 특징 추출부를 포함하는 것을 특징으로 하는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템.
  7. 제6항에 있어서, 상기 바움-웰치 통계량 계산부의 바움-웰치 통계량은,
    하기의 수학식을 통해 계산되는 0차 바움-웰치 통계량 및 1차 바움-웰치 통계량을 포함하는 것을 특징으로 하는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템.
    Figure pat00017

    여기서, nc(X)는 입력 신호 X의 0차 바움-웰치 통계량, fc(X)는 입력 신호 X의 1차 바움-웰치 통계량, γl(c)는 UBM의 c번째 가우시안 성분에 l번째 프레임이 속할 확률, xl은 입력 신호 X의 l번째 프레임 특징, L은 프레임의 개수이다.
  8. 제6항에 있어서, 상기 Variational Inference 모델 학습부는,
    오류 역전파 알고리즘을 사용하여 상기 인코더 네트워크 및 상기 디코더 네트워크를 동시에 학습하는 것을 특징으로 하는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템.
  9. 제8항에 있어서, 상기 Variational Inference 모델 학습부는,
    상기 Variational Inference 모델의 디코더 네트워크에서 출력되는 입력 신호에 종속적인 확률 분포의 로그 우도가 최대화되도록 목적 함수인 하기의 수학식이 최대화되는 방향으로 학습하는 것을 특징으로 하는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템.
    Figure pat00018

    여기서, qφ(Z|X)는 인코더 네트워크에서 주어진 입력 X로부터 매개 랜덤 은닉 변수 Z를 생성할 확률, pθ(Z)는 디코더 네트워크의 파라미터가 주어졌을 때 매개 랜덤 은닉 변수 Z가 생성될 사전확률, DKL(qφ(Z|X)|pθ(Z))은 입력 X가 주어졌을 때, 매개 랜덤 은닉 변수 Z의 사전 확률 분포의 차이를 나타내는 Kullback-Leibler Divergence, p(X|φ,θ,Z)은 인코더 네트워크, 디코더 네트워크 및 특정 매개 랜덤 은닉 변수 Z가 주어졌을 때 생성되는 입력 X에 종속적인 분포를 가지는 우도이다.
  10. 제6항에 있어서, 상기 특징 추출부는,
    상기 인코더 네트워크를 특징 추출기로 사용하여, 상기 인코더 네트워크로부터 상기 입력 신호에서 프레임 단위 특징의 분포를 상기 매개 은닉 변수의 평균 및 분산으로 추출하는 것을 특징으로 하는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템.
KR1020170126616A 2017-09-28 2017-09-28 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템 KR102026226B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170126616A KR102026226B1 (ko) 2017-09-28 2017-09-28 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170126616A KR102026226B1 (ko) 2017-09-28 2017-09-28 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20190037025A true KR20190037025A (ko) 2019-04-05
KR102026226B1 KR102026226B1 (ko) 2019-09-27

Family

ID=66103985

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170126616A KR102026226B1 (ko) 2017-09-28 2017-09-28 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102026226B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102145698B1 (ko) * 2019-09-27 2020-08-18 주식회사 인피니그루 딥러닝 모델을 통해 예측된 해답을 해석하는 방법 및 시스템
WO2020239126A1 (en) * 2019-05-31 2020-12-03 Huawei Technologies Co., Ltd. Methods and systems for relaying feature-driven communications
CN113408425A (zh) * 2021-06-21 2021-09-17 湖南翰坤实业有限公司 一种生物语言解析的集群控制方法及系统
CN113642822A (zh) * 2020-12-04 2021-11-12 广东省建筑设计研究院有限公司 用于评估建筑群结构安全的基于vae的样本集指向性扩展法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Kenny, Patrick, et al. Deep neural networks for extracting baum-welch statistics for speaker recognition. Proc. Odyssey. 2014.* *
Pekhovsky, Timur, and Maxim Korenevsky. Investigation of Using VAE for i-Vector Speaker Verification. arXiv preprint arXiv:1705.09185v1. 2017.5.25.* *
강우현 외. VAE를 이용한 화자인식을 위한 음성 특질 추출. 한국통신학회 학술대회논문집. 한국통신학회. 2017.1.* *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020239126A1 (en) * 2019-05-31 2020-12-03 Huawei Technologies Co., Ltd. Methods and systems for relaying feature-driven communications
US11700518B2 (en) 2019-05-31 2023-07-11 Huawei Technologies Co., Ltd. Methods and systems for relaying feature-driven communications
KR102145698B1 (ko) * 2019-09-27 2020-08-18 주식회사 인피니그루 딥러닝 모델을 통해 예측된 해답을 해석하는 방법 및 시스템
CN113642822A (zh) * 2020-12-04 2021-11-12 广东省建筑设计研究院有限公司 用于评估建筑群结构安全的基于vae的样本集指向性扩展法
CN113642822B (zh) * 2020-12-04 2024-03-01 广东省建筑设计研究院有限公司 用于评估建筑群结构安全的基于vae的样本集指向性扩展法
CN113408425A (zh) * 2021-06-21 2021-09-17 湖南翰坤实业有限公司 一种生物语言解析的集群控制方法及系统
CN113408425B (zh) * 2021-06-21 2022-04-26 湖南翰坤实业有限公司 一种生物语言解析的集群控制方法及系统

Also Published As

Publication number Publication date
KR102026226B1 (ko) 2019-09-27

Similar Documents

Publication Publication Date Title
Michelsanti et al. Conditional generative adversarial networks for speech enhancement and noise-robust speaker verification
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN108922544B (zh) 通用向量训练方法、语音聚类方法、装置、设备及介质
CN110310647B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
Stewart et al. Robust audio-visual speech recognition under noisy audio-video conditions
WO2019237517A1 (zh) 说话人聚类方法、装置、计算机设备及存储介质
US9489965B2 (en) Method and apparatus for acoustic signal characterization
CN111161752A (zh) 回声消除方法和装置
KR102026226B1 (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
CN112949708A (zh) 情绪识别方法、装置、计算机设备和存储介质
JP2016143043A (ja) 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
WO2013132926A1 (ja) 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
WO1991013430A1 (en) Method for spectral estimation to improve noise robustness for speech recognition
CN110767244A (zh) 语音增强方法
Lemercier et al. Analysing diffusion-based generative approaches versus discriminative approaches for speech restoration
Hayashi et al. BLSTM-HMM hybrid system combined with sound activity detection network for polyphonic sound event detection
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
CN111666996B (zh) 一种基于attention机制的高精度设备源识别方法
Morrison et al. Forensic voice comparison–human-supervised-automatic approach
Poorjam et al. A parametric approach for classification of distortions in pathological voices
Ozerov et al. GMM-based classification from noisy features
Al-Ali et al. Enhanced forensic speaker verification using multi-run ICA in the presence of environmental noise and reverberation conditions
Nathwani et al. An extended experimental investigation of DNN uncertainty propagation for noise robust ASR
Oh et al. Vocabulary optimization process using similar phoneme recognition and feature extraction
KR102055886B1 (ko) 화자 음성 특징 추출 방법 및 장치, 그리고 이를 위한 기록 매체

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant