KR102026226B1 - Method for extracting signal unit features using variational inference model based deep learning and system thereof - Google Patents

Method for extracting signal unit features using variational inference model based deep learning and system thereof Download PDF

Info

Publication number
KR102026226B1
KR102026226B1 KR1020170126616A KR20170126616A KR102026226B1 KR 102026226 B1 KR102026226 B1 KR 102026226B1 KR 1020170126616 A KR1020170126616 A KR 1020170126616A KR 20170126616 A KR20170126616 A KR 20170126616A KR 102026226 B1 KR102026226 B1 KR 102026226B1
Authority
KR
South Korea
Prior art keywords
inference model
variational inference
signal
baum
unit
Prior art date
Application number
KR1020170126616A
Other languages
Korean (ko)
Other versions
KR20190037025A (en
Inventor
김남수
강우현
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020170126616A priority Critical patent/KR102026226B1/en
Publication of KR20190037025A publication Critical patent/KR20190037025A/en
Application granted granted Critical
Publication of KR102026226B1 publication Critical patent/KR102026226B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Abstract

본 발명은 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법에 관한 것으로서, 보다 구체적으로는 인코더 네트워크 및 디코더 네트워크를 포함하는 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법으로서, (1) 프레임 단위를 가지는 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습하는 단계; (2) 상기 단계 (1)에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량(Baum-Welch Statistics)을 계산하는 단계; (3) 상기 단계 (2)에서 계산한 상기 바움-웰치 통계량을 입력 벡터로 입력받아 상기 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 학습하는 단계; 및 (4) 상기 단계 (3)에서 학습한 Variational Inference 모델의 인코더 네트워크에서 상기 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수(Latent Variable)를 생성하여 상기 입력 신호의 특징을 추출하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
또한, 본 발명은 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템에 관한 것으로서, 보다 구체적으로는 인코더 네트워크 및 디코더 네트워크를 포함하는 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템으로서, 프레임 단위를 가지는 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습하는 UBM 학습부; 상기 UBM 학습부에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량(Baum-Welch Statistics)을 계산하는 바움-웰치 통계량 계산부; 상기 바움-웰치 통계량 계산부에서 계산한 상기 바움-웰치 통계량을 입력 벡터로 입력받아 상기 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 학습하는 Variational Inference 모델 학습부; 및 상기 Variational Inference 모델 학습부에서 학습한 Variational Inference 모델의 인코더 네트워크에서 상기 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수(Latent Variable)를 생성하여 상기 입력 신호의 특징을 추출하는 특징 추출부를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템에 따르면, 랜덤 변수를 입출력의 매개체로 두는 Variational Inference 기반의 딥러닝 구조를 활용하여 특징을 추출함으로써, 입력의 분포를 표현하는 파라미터를 생성할 수 있다.
또한, 본 발명에서 제안하고 있는 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템에 따르면, Variational Inference 모델에서 생성되는 매개 랜덤 은닉 변수는 인공신경망을 통한 비선형적인 처리로 생성되므로, 기존 I-Vector 기법에서 선형적으로 매핑될 수 없는 비선형적 특징도 추출할 수 있으며, 입력 신호의 프레임 단위 특징들의 분포가 갖는 다양한 정보를 표현하는 특징을 추출할 수 있다.
The present invention relates to a signal unit feature extraction method using a deep learning based Variational Inference model. More specifically, the present invention relates to a signal unit feature extraction method using a Variational Inference model including an encoder network and a decoder network. Learning a universal background model (UBM) independent of a specific signal using training data having a plurality of signal units; (2) calculating Baum-Welch Statistics from the input signal using the UBM learned in step (1); (3) learning the encoder network and decoder network of the Variational Inference model by receiving the Baum-Welch statistics calculated in step (2) as an input vector; And (4) extracting a characteristic of the input signal by generating a latent random variable having a distribution close to the probability distribution of the input signal in the encoder network of the Variational Inference model learned in step (3). It characterized by including the configuration.
The present invention also relates to a signal unit feature extraction system using a deep learning based Variational Inference model. More specifically, the present invention relates to a signal unit feature extraction system using a Variational Inference model including an encoder network and a decoder network. A UBM learning unit for learning a UBM (Universal Background Model) independent of a specific signal using learning data composed of a plurality of signal units; A Baum-Welch Statistics calculation unit for calculating Baum-Welch Statistics from an input signal using the UBM learned by the UBM learning unit; A Variational Inference model learner learning the encoder network and the decoder network of the Variational Inference model by receiving the Baum-welch statistics calculated by the Baum-welch statistics calculation unit as an input vector; And a feature extractor for generating a random random variable having a distribution close to the probability distribution of the input signal in an encoder network of the Variational Inference model trained by the Variational Inference model learner. It is characterized by the configuration thereof.
According to the method and system for signal unit feature extraction using the deep learning-based Variational Inference model proposed by the present invention, input distribution is obtained by extracting the feature by using the Variational Inference-based deep learning structure that has a random variable as an input / output medium. You can create a parameter that represents.
In addition, according to the signal unit feature extraction method and system using the deep learning-based Variational Inference model proposed in the present invention, since the parametric random hidden variable generated in the Variational Inference model is generated by non-linear processing through the artificial neural network, I In addition, non-linear features that cannot be linearly mapped in the vector technique may be extracted, and features representing various information of the distribution of frame unit features of the input signal may be extracted.

Description

딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템{METHOD FOR EXTRACTING SIGNAL UNIT FEATURES USING VARIATIONAL INFERENCE MODEL BASED DEEP LEARNING AND SYSTEM THEREOF}Signal unit feature extraction method and system using deep learning-based Variational Inference model METHOD FOR EXTRACTING SIGNAL UNIT FEATURES USING VARIATIONAL INFERENCE MODEL BASED DEEP LEARNING AND SYSTEM THEREOF}

본 발명은 신호 단위 특징 추출 방법 및 시스템에 관한 것으로서, 보다 구체적으로는 딥러닝 기반의 Variational Inference 모델을 이용하여 신호 단위의 특징을 추출하는 방법 및 시스템에 관한 것이다.The present invention relates to a method and a system for extracting signal unit features, and more particularly, to a method and system for extracting features of a signal unit using a deep learning based Variational Inference model.

일반적으로 특징 추출 알고리즘에서는 음성, 영상, 생체 신호와 같은 신호를 분류하거나 분석하기 위해 프레임 단위로 특징을 추출한다. 예를 들어, 음성의 경우에는 입력 음성을 짧은 시간 단위의 프레임으로 나눈 후 각각의 프레임에서 MFCC(Mel-Frequency Cepstral Coefficients)와 같은 특징을 추출할 수 있다. 이러한 프레임 단위의 특징은 특정 시간에서 신호가 갖는 주파수 특성을 표현한다. 음성의 경우에는 발화한 화자의 성도(Vocal tract) 형태의 패턴을, 그리고 영상의 경우에는 경계선(Edge)에 대한 정보를 담고 있다. 하지만 입력된 신호의 길이가 다른 경우, 추출되는 프레임 단위 특징의 수가 달라지기 때문에 SVM(Support Vector Machine)이나 DNN(Deep Neural Network)과 같이 하나의 고정된 크기의 벡터를 입력으로 받는 분류기를 사용하기 어렵다는 문제점이 있다.
In general, a feature extraction algorithm extracts a feature on a frame-by-frame basis to classify or analyze signals such as voice, video, and bio signals. For example, in the case of speech, a feature such as Mel-Frequency Cepstral Coefficients (MFCC) may be extracted from each input frame after dividing the input speech into a short time frame. These frame unit characteristics represent frequency characteristics of a signal at a specific time. In the case of voice, it contains the pattern of the vocal tract of the speaker, and in the case of the image, information about the edge. However, if the length of the input signal is different, the number of frame unit features to be extracted is different, so use a classifier that receives a fixed size vector as an input such as a support vector machine (SVM) or a deep neural network (DNN). There is a problem that is difficult.

이러한 문제를 해결하기 위하여 입력 신호의 길이에 무관하게 전체적인 패턴을 압축적으로 고정된 크기의 벡터에 표현하는 많은 기법들이 연구되어왔으며, 대표적으로 I-Vector라는 기법이 있다. I-Vector 특징 추출 기법은 입력의 프레임 단위 특징의 분포를 GMM(Gaussian Mixture Model)으로 모델링 한 후, 각각의 가우시안의 평균 벡터들을 연결시킨 GMM 슈퍼벡터(GMM Supervector)를 선형적으로 분해시키는 기법이다. 즉, I-Vector 특징 추출 기법은 입력 신호 내에 존재하는 다양한 특성들을 I-Vector라는 작은 벡터로 표현할 수 있다. 이는 잡음이나 통신 채널로 인하여 열화된 음성을 이용한 화자 인식에서 높은 성능을 보였으며, 작은 벡터 차원으로 인해 다양한 분류 알고리즘에 적용할 수 있으므로 현재까지도 음성 및 영상 분야에서 널리 사용되고 있다.
In order to solve this problem, many techniques for expressing the whole pattern into a compressively fixed size vector irrespective of the length of the input signal have been studied, and there is a technique called I-Vector. I-Vector feature extraction is a method that linearly decomposes the GMM supervector, which combines the average vectors of each Gaussian after modeling the distribution of the input frame features by a Gaussian Mixture Model (GMM). . That is, the I-Vector feature extraction technique can express various characteristics existing in the input signal as a small vector called I-Vector. It shows high performance in speaker recognition using speech deteriorated due to noise or communication channel, and can be applied to various classification algorithms due to small vector dimensions.

하지만 입력 신호의 길이가 짧은 경우에는 입력 신호에 포함된 정보가 적은 탓에 추출된 I-Vector 특징의 신뢰도가 매우 떨어진다는 문제점이 여러 연구에서 보고된 바 있다. 더 나아가 I-Vector는 기본적으로 선형적인 처리를 통하여 추출되는 특징이기에, 전체 변이성 공간(Total variability space)에 선형적으로 매핑될 수 없는 특성들을 표현할 수 없으므로 그 성능에 한계가 있을 수 있다.
However, several studies have reported that the input signal is short in reliability due to the small amount of information included in the input signal. Furthermore, since I-Vector is basically a feature extracted through linear processing, there is a limit in performance because it cannot express characteristics that cannot be linearly mapped to the total variability space.

해당 기술분야와 관련된 선행기술로서, 대한민국 등록특허 제10-0571427호 ‘잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치 및 역상관 필터링 방법’ 등이 제안된 바 있다.As a related art in the related art, Korean Patent Registration No. 10-0571427 has proposed a feature vector extraction apparatus and decorrelation filtering method for speech recognition in a noise environment.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 랜덤 변수를 입출력의 매개체로 두는 Variational Inference 기반의 딥러닝 구조를 활용하여 특징을 추출함으로써, 입력의 분포를 표현하는 파라미터를 생성할 수 있고, 추출되는 특징이 보다 통계적인 특성을 반영할 수 있는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템을 제공하는 것을 목적으로 한다.
The present invention has been proposed to solve the above problems of the conventionally proposed methods, by using the Variational Inference-based deep learning structure that puts a random variable as a medium for input and output, extracting features to express the distribution of the input It is an object of the present invention to provide a signal unit feature extraction method and system using a deep learning based Variational Inference model, which can generate parameters and reflect extracted statistical features.

또한, 본 발명은, Variational Inference 모델에서 생성되는 매개 랜덤 은닉 변수는 인공신경망을 통한 비선형적인 처리로 생성되므로, 기존 I-Vector 기법에서 선형적으로 매핑될 수 없는 비선형적 특징도 추출할 수 있으며, 입력 신호의 프레임 단위 특징들의 분포가 갖는 다양한 정보를 표현하는 특징을 추출할 수 있는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템을 제공하는 것을 목적으로 한다.In addition, the present invention, since the intermediate random hidden variable generated in the Variational Inference model is generated by non-linear processing through the artificial neural network, it is also possible to extract non-linear features that can not be linearly mapped in the existing I-Vector technique, An object of the present invention is to provide a signal unit feature extraction method and system using a deep learning-based Variational Inference model capable of extracting a feature representing various information of a frame unit feature of an input signal.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법은,Signal unit feature extraction method using a deep learning based Variational Inference model according to the characteristics of the present invention for achieving the above object,

인코더 네트워크 및 디코더 네트워크를 포함하는 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법으로서,A signal unit feature extraction method using a Variational Inference model including an encoder network and a decoder network,

(1) 프레임 단위를 가지는 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습하는 단계;(1) learning a universal background model (UBM) independent of a specific signal using training data composed of a plurality of signal units having a frame unit;

(2) 상기 단계 (1)에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량(Baum-Welch Statistics)을 계산하는 단계;(2) calculating Baum-Welch Statistics from the input signal using the UBM learned in step (1);

(3) 상기 단계 (2)에서 계산한 상기 바움-웰치 통계량을 입력 벡터로 입력받아 상기 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 학습하는 단계; 및(3) learning the encoder network and decoder network of the Variational Inference model by receiving the Baum-Welch statistics calculated in step (2) as an input vector; And

(4) 상기 단계 (3)에서 학습한 Variational Inference 모델의 인코더 네트워크에서 상기 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수(Latent Variable)를 생성하여 상기 입력 신호의 특징을 추출하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
(4) extracting the characteristics of the input signal by generating a latent random variable having a distribution close to the probability distribution of the input signal in the encoder network of the Variational Inference model learned in step (3); It is characterized by the configuration thereof.

바람직하게는, 상기 단계 (2)의 바움-웰치 통계량은,Preferably, the Baum-Welch statistic of step (2) is

하기의 수학식을 통계 계산되는 0차 바움-웰치 통계량 및 1차 바움-웰치 통계량을 포함할 수 있다.The following equations may include the zero order Baum-Welch statistics and the first order Baum-Welch statistics, which are statistically calculated.

Figure 112017095552390-pat00001
Figure 112017095552390-pat00001

여기서, nc(X)는 입력 신호 X의 0차 바움-웰치 통계량, fc(X)는 입력 신호 X의 1차 바움-웰치 통계량, γl(c)는 UBM의 c번째 가우시안 성분에 l번째 프레임이 속할 확률, xl은 입력 신호 X의 l번째 프레임 특징, L은 프레임의 개수이다.
Where n c (X) is the zero-order Baum-welch statistic of the input signal X, f c (X) is the first-order Baum-welch statistic of the input signal X, γ l (c) is the l-th Gaussian component of the UBM The probability that the first frame belongs, x l is the l-th frame feature of the input signal X, and L is the number of frames.

바람직하게는, 상기 단계 (3)은,Preferably, step (3) is

오류 역전파 알고리즘을 사용하여 상기 인코더 네트워크 및 상기 디코더 네트워크를 동시에 학습할 수 있다.
The error backpropagation algorithm can be used to learn the encoder network and the decoder network simultaneously.

더욱 바람직하게는, 상기 단계 (3)은,More preferably, step (3) is

상기 Variational Inference 모델의 디코더 네트워크에서 출력되는 벡터의 출력 분포의 로그 우도를 최대화하도록 목적 함수인 하기의 수학식이 최대화되는 방향으로 학습할 수 있다.In order to maximize the log likelihood of the output distribution of the vector output from the decoder network of the Variational Inference model, the following equation, which is an objective function, can be learned in the direction of maximization.

Figure 112017095552390-pat00002
Figure 112017095552390-pat00002

여기서, qφ(Z|X)는 인코더 네트워크에서 주어진 입력 X로부터 매개 랜덤 은닉 변수 Z를 생성할 확률, pθ(Z)는 디코더 네트워크의 파라미터가 주어졌을 때 매개 랜덤 은닉 변수 Z가 생성될 사전확률, DKL(qφ(Z|X)|pθ(Z))은 입력 X가 주어졌을 때, 매개 랜덤 은닉 변수 Z의 사전 확률 분포의 차이를 나타내는 Kullback-Leibler Divergence, p(X|φ,θ,Z)은 인코더 네트워크, 디코더 네트워크 및 특정 매개 랜덤 은닉 변수 Z가 주어졌을 때 생성되는 입력 신호 X에 종속적인 분포를 가지는 우도이다.
Where q φ (Z | X) is the probability of generating a parametric random concealment variable Z from a given input X in the encoder network, and p θ (Z) is a dictionary in which the parametric random concealment variable Z will be generated when a parameter of the decoder network is given. The probability, D KL (q φ (Z | X) | p θ (Z)), is given by the Kullback-Leibler Divergence, p (X | φ, which represents the difference in the prior probability distribution of each random hidden variable Z, given the input X. is a likelihood with a distribution dependent on the encoder network, the decoder network, and the input signal X generated when a particular parametric random concealment variable Z is given.

바람직하게는, 상기 단계 (4)는,Preferably, step (4),

상기 인코더 네트워크를 특징 추출기로 사용하여, 상기 인코더 네트워크로부터 상기 복수 개의 신호 단위에서 프레임 단위 특징의 분포를 상기 매개 은닉 변수의 평균 및 분산으로 추출할 수 있다.
The encoder network may be used as a feature extractor to extract a distribution of frame unit features in the plurality of signal units from the encoder network as an average and a variance of the intermediate hidden variable.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템은,Signal unit feature extraction system using a deep learning based Variational Inference model according to the features of the present invention for achieving the above object,

인코더 네트워크 및 디코더 네트워크를 포함하는 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템으로서,A signal unit feature extraction system using a Variational Inference model including an encoder network and a decoder network,

프레임 단위를 가지는 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습하는 UBM 학습부;A UBM learning unit for learning a UBM (Universal Background Model) independent of a specific signal using training data composed of a plurality of signal units having a frame unit;

상기 UBM 학습부에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량(Baum-Welch Statistics)을 계산하는 바움-웰치 통계량 계산부;A Baum-Welch Statistics calculation unit for calculating Baum-Welch Statistics from an input signal using the UBM learned by the UBM learning unit;

상기 바움-웰치 통계량 계산부에서 계산한 상기 바움-웰치 통계량을 입력 벡터로 입력받아 상기 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 학습하는 Variational Inference 모델 학습부; 및A Variational Inference model learner learning the encoder network and the decoder network of the Variational Inference model by receiving the Baum-welch statistics calculated by the Baum-welch statistics calculation unit as an input vector; And

상기 Variational Inference 모델 학습부에서 학습한 Variational Inference 모델의 인코더 네트워크에서 상기 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수(Latent Variable)를 생성하여 상기 입력 신호의 특징을 추출하는 특징 추출부를 포함하는 것을 그 구성상의 특징으로 한다.
And a feature extractor configured to extract a feature of the input signal by generating a latent random variable having a distribution close to the probability distribution of the input signal in an encoder network of the Variational Inference model trained by the Variational Inference model learner. It is characterized by the configuration.

바람직하게는, 상기 계산부의 바움-웰치 통계량은,Preferably, the Baum-Welch statistic of the calculation unit,

하기의 수학식을 통계 계산되는 0차 바움-웰치 통계량 및 1차 바움-웰치 통계량을 포함할 수 있다.The following equations may include the zero order Baum-Welch statistics and the first order Baum-Welch statistics, which are statistically calculated.

Figure 112017095552390-pat00003
Figure 112017095552390-pat00003

여기서, nc(X)는 입력 신호 X의 0차 바움-웰치 통계량, fc(X)는 입력 신호 X의 1차 바움-웰치 통계량, γl(c)는 UBM의 c번째 가우시안 성분에 l번째 프레임이 속할 확률, xl은 입력 신호 X의 l번째 프레임 특징, L은 프레임의 개수이다.
Where n c (X) is the zero-order Baum-welch statistic of the input signal X, f c (X) is the first-order Baum-welch statistic of the input signal X, γ l (c) is the l-th Gaussian component of the UBM The probability that the first frame belongs, x l is the l-th frame feature of the input signal X, and L is the number of frames.

바람직하게는, 상기 Variational Inference 모델 학습부는,Preferably, the Variational Inference model learning unit,

오류 역전파 알고리즘을 사용하여 상기 인코더 네트워크 및 상기 디코더 네트워크를 동시에 학습할 수 있다.
The error backpropagation algorithm can be used to learn the encoder network and the decoder network simultaneously.

더욱 바람직하게는, 상기 Variational Inference 모델 학습부는,More preferably, the Variational Inference model learning unit,

상기 Variational Inference 모델의 디코더 네트워크에서 출력되는 벡터의 출력 분포의 로그 우도를 최대화하도록 목적 함수인 하기의 수학식이 최대화되는 방향으로 학습할 수 있다.In order to maximize the log likelihood of the output distribution of the vector output from the decoder network of the Variational Inference model, the following equation, which is an objective function, can be learned in the direction of maximization.

Figure 112017095552390-pat00004
Figure 112017095552390-pat00004

여기서, qφ(Z|X)는 인코더 네트워크에서 주어진 입력 X로부터 매개 랜덤 은닉 변수 Z를 생성할 확률, pθ(Z)는 디코더 네트워크의 파라미터가 주어졌을 때 매개 랜덤 은닉 변수 Z가 생성될 사전확률, DKL(qφ(Z|X)|pθ(Z))은 입력 X가 주어졌을 때, 매개 랜덤 은닉 변수 Z의 사전 확률 분포의 차이를 나타내는 Kullback-Leibler Divergence, p(X|φ,θ,Z)은 인코더 네트워크, 디코더 네트워크 및 특정 매개 랜덤 은닉 변수 Z가 주어졌을 때 생성되는 입력 신호 X에 종속적인 분포를 가지는 우도이다.
Where q φ (Z | X) is the probability of generating a parametric random concealment variable Z from a given input X in the encoder network, and p θ (Z) is a dictionary in which the parametric random concealment variable Z will be generated when a parameter of the decoder network is given. The probability, D KL (q φ (Z | X) | p θ (Z)), is given by the Kullback-Leibler Divergence, p (X | φ, which represents the difference in the prior probability distribution of each random hidden variable Z, given the input X. is a likelihood with a distribution dependent on the encoder network, the decoder network, and the input signal X generated when a particular parametric random concealment variable Z is given.

바람직하게는, 상기 특징 추출부는,Preferably, the feature extraction unit,

상기 인코더 네트워크를 특징 추출기로 사용하여, 상기 인코더 네트워크로부터 상기 복수 개의 신호 단위에서 프레임 단위 특징의 분포를 상기 매개 은닉 변수의 평균 및 분산으로 추출할 수 있다.The encoder network may be used as a feature extractor to extract a distribution of frame unit features in the plurality of signal units from the encoder network as an average and a variance of the intermediate hidden variable.

본 발명에서 제안하고 있는 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템에 따르면, 랜덤 변수를 입출력의 매개체로 두는 Variational Inference 기반의 딥러닝 구조를 활용하여 특징을 추출함으로써, 입력의 분포를 표현하는 파라미터를 생성할 수 있다.
According to the method and system for signal unit feature extraction using the deep learning-based Variational Inference model proposed by the present invention, input distribution is obtained by extracting the feature by using the Variational Inference-based deep learning structure that has a random variable as an input / output medium. You can create a parameter that represents.

또한, 본 발명에서 제안하고 있는 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템에 따르면, Variational Inference 모델에서 생성되는 매개 랜덤 은닉 변수는 인공신경망을 통한 비선형적인 처리로 생성되므로, 기존 I-Vector 기법에서 선형적으로 매핑될 수 없는 비선형적 특징도 추출할 수 있으며, 입력 신호의 프레임 단위 특징들의 분포가 갖는 다양한 정보를 표현하는 특징을 추출할 수 있다.In addition, according to the signal unit feature extraction method and system using the deep learning-based Variational Inference model proposed in the present invention, since the parametric random hidden variable generated in the Variational Inference model is generated by non-linear processing through the artificial neural network, I In addition, non-linear features that cannot be linearly mapped in the vector technique may be extracted, and features representing various information of the distribution of frame unit features of the input signal may be extracted.

도 1은 종래의 I-Vector를 추출하는 과정을 도시한 도면.
도 2는 Variational Inference 모델에 대한 개략적인 구조를 도시한 도면.
도 3은 VAE의 인코더 네트워크와 디코더 네트워크의 노드를 도시한 도면.
도 4는 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법의 구성을 개략적으로 도시한 도면.
도 5는 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법에서 Variational Inference 모델의 구성을 도시한 도면.
도 6은 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법의 구성을 도시한 도면.
도 7은 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법이 화자 인식에 사용되는 경우의 Variational Inference 모델의 구성을 도시한 도면.
도 8은 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법이 적용된 화자 인식에 적용되는 경우에 추출된 매개 랜덤 은닉 변수의 로그 분산으로 구한 미분 엔트로피(Differential Entropy)의 그래프.
도 9는 I-Vector와 특징과 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법에서 생성된 매개 랜덤 은닉 변수를 이용하였을 때 화자 인식 성능을 도시한 표.
도 10은 본 발명의 다른 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템의 구성을 도시한 도면.
1 is a diagram illustrating a process of extracting a conventional I-Vector.
2 shows a schematic structure for a Variational Inference model.
3 shows the nodes of an encoder network and a decoder network of a VAE.
4 is a diagram schematically illustrating the configuration of a signal unit feature extraction method using a deep learning based Variational Inference model according to an embodiment of the present invention.
5 is a diagram illustrating a configuration of a Variational Inference model in a signal unit feature extraction method using a deep learning based Variational Inference model according to an embodiment of the present invention.
FIG. 6 is a diagram illustrating a signal unit feature extraction method using a deep learning based Variational Inference model according to an embodiment of the present invention. FIG.
FIG. 7 is a diagram illustrating the configuration of a Variational Inference model when a signal unit feature extraction method using a deep learning based Variational Inference model according to an embodiment of the present invention is used for speaker recognition.
FIG. 8 is a differential entropy obtained by log variance of the extracted random random variables when the signal unit feature extraction method using the deep learning based Variational Inference model according to an embodiment of the present invention is applied. FIG. Graph.
FIG. 9 is a table illustrating speaker recognition performance using an I-Vector and a feature and a parameterized random hidden variable generated in a signal unit feature extraction method using a deep learning based Variational Inference model according to an embodiment of the present invention. FIG.
10 is a diagram illustrating a configuration of a signal unit feature extraction system using a deep learning based Variational Inference model according to another embodiment of the present invention.

이하에서는 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일 또는 유사한 부호를 사용한다.
Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention. However, in describing the preferred embodiment of the present invention in detail, if it is determined that the detailed description of the related known function or configuration may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted. In addition, the same or similar reference numerals are used throughout the drawings for parts having similar functions and functions.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
In addition, throughout the specification, when a part is 'connected' to another part, it is not only 'directly connected' but also 'indirectly connected' with another element in between. Include. In addition, the term 'comprising' of an element means that the element may further include other elements, not to exclude other elements unless specifically stated otherwise.

도 1은 종래의 I-Vector를 추출하는 과정을 도시한 도면이다. I-Vector는 입력 신호 내에 존재하는 다양한 변이성을 작은 차원의 벡터로 표현할 수 있다. 데이터의 분포를 GMM(Gaussian Mixture Model)으로 모델링했을 때, 각각의 가우시안들의 평균값들을 연결하여, 변이를 표현하는 벡터인 GMM 슈퍼벡터(Supervector)와 I-Vector의 관계는 다음의 수학식 1로 나타낼 수 있다.1 is a diagram illustrating a process of extracting a conventional I-Vector. I-Vector can express various variability existing in the input signal as a vector of small dimension. When modeling the distribution of data as a Gaussian Mixture Model (GMM), by connecting the average values of each Gaussian, the relationship between the GMM Supervector and I-Vector, which is a vector representing the variation, is represented by Equation 1 below. Can be.

Figure 112017095552390-pat00005
Figure 112017095552390-pat00005

여기서, m(X)는 입력 X에 종속적인 GMM 슈퍼벡터, u는 UBM(Universal Background Model), T는 전체 변이성 행렬(Total Variability Matrix), w(X)는 입력 X에 종속적인 I-Vector를 나타낸다. UBM은 여러 종류의 신호를 사용하여 학습한 GMM으로, 특정 신호에 독립적인 신호의 분포를 나타낼 수 있다. 이때, 전체 변이성 행렬은 I-Vector 추출기 역할을 할 수 있다.
Where m (X) is the GMM supervector dependent on input X, u is the Universal Background Model (UBM), T is the total variability matrix, and w (X) is the I-Vector dependent on input X. Indicates. The UBM is a GMM trained using several kinds of signals, and can represent a signal distribution independent of a specific signal. In this case, the overall variability matrix may serve as an I-Vector extractor.

도 1을 참조하면, 전체 변이성 행렬은 UBM과 가우시안 분포를 갖는 랜덤 변수인 I-Vector가 주어졌을 때, 구할 수 있는 GMM 슈퍼벡터가 갖는 로그우도(Log-likelihood)를 최대화하는 방향으로 학습된다. 이때, 최대 우도(Maximum Likelihood) 최적화에 널리 사용되는 Expectation-Maximization 알고리즘이 사용될 수 있다. I-Vector 및 전체 변이성 행렬을 구하는 과정에서는 UBM에 대한 입력의 분포 패턴을 나타내는 파라미터인 바움-웰치 통계량(Baum-Welch Statistics)이 입력된다. 이때, I-Vector는 선형적인 처리를 통하여 추출되는 특징이므로, 전체 변이성 공간에 선형적으로 매핑될 수 없는 특성들은 표현할 수 없는 문제점이 있다.
Referring to FIG. 1, the entire variability matrix is learned in a direction of maximizing the log-likelihood of the GMM supervector that can be obtained, given a random variable I-Vector having a UBM and Gaussian distribution. In this case, an Expectation-Maximization algorithm widely used for maximum likelihood optimization may be used. In the process of obtaining the I-Vector and the overall variability matrix, Baum-Welch Statistics, which is a parameter representing the distribution pattern of the input to the UBM, is input. At this time, since the I-Vector is a feature that is extracted through a linear process, there is a problem that can not be expressed characteristics that cannot be linearly mapped to the entire variability space.

도 2는 Variational Inference 모델에 대한 개략적인 구조를 도시한 도면이다. 또한, 도 3은 VAE의 인코더 네트워크와 디코더 네트워크의 노드를 도시한 도면이다. 도 2를 참조하면, Variational Inference 모델은 인코더 네트워크와 디코더 네트워크를 포함할 수 있다. Variational Inference 모델의 대표적인 예로, VAE(Variational AutoEncoder)가 있다. VAE는 입력된 벡터를 출력에서 재구성하는 오토인코더(Autoencoder)의 일종이다. VAE는 가운데 은닉층(Hidden layer)을 랜덤 변수인 매개 랜덤 은닉 변수(Latent variable)로 가지고 있으며, 인코더 네트워크 및 디코더 네트워크로 구성된다.
2 illustrates a schematic structure of a Variational Inference model. 3 is a diagram illustrating nodes of an encoder network and a decoder network of a VAE. Referring to FIG. 2, the Variational Inference model may include an encoder network and a decoder network. A representative example of the Variational Inference model is VAE (Variational AutoEncoder). VAE is a type of autoencoder that reconstructs the input vector from the output. The VAE has a hidden layer in the middle as a random random parameter, which is a random variable, and consists of an encoder network and a decoder network.

도 3을 참조하면, 인코더 네트워크는 입력 벡터를 받아서 입력이 조건으로 주어진 경우 매개 랜덤 은닉 변수의 사후 분포를 추정한다. 인코더 네트워크는 매개 랜덤 은닉 변수가 따르는 추정된 분포(평균(μ)과 분산(σ2))로부터 샘플링을 통해 매개 랜덤 은닉 변수를 생성한다. 이러한 샘플링된 매개 랜덤 은닉 변수는 디코더 네트워크로 입력되며, 디코더 네트워크의 출력으로 매개 랜덤 은닉 변수의 입력이 재구성된다.
Referring to FIG. 3, the encoder network takes an input vector and estimates the posterior distribution of the intermediate random concealment variable when the input is given as a condition. The encoder network generates a mediated random concealment variable through sampling from an estimated distribution (mean (μ) and variance (σ 2 )) followed by the random random concealment variable. This sampled random random variable is input to the decoder network, and the input of the random random hidden variable is reconstructed as an output of the decoder network.

VAE에서 인코더 네트워크와 디코더 네트워크가 학습되는데, 그 목적 함수는 아래의 수학식 2로 정의될 수 있다.In VAE, an encoder network and a decoder network are learned. The objective function may be defined by Equation 2 below.

Figure 112017095552390-pat00006
Figure 112017095552390-pat00006

여기서, qφ(Z|X)는 인코더 네트워크에서 주어진 입력 X로부터 매개 랜덤 은닉 변수 Z를 생성할 확률, pθ(X|Z)는 디코더 네트워크에서 매개 랜덤 은닉 변수로부터 입력 X를 재구성할 확률, pθ(Z)는 디코더 네트워크의 파라미터가 주어졌을 때, 매개 랜덤 은닉 변수 Z가 생성될 사전확률이다. DKL(qφ(Z|X)|pθ(Z))은 입력 X가 주어졌을 때, 매개 랜덤 은닉 변수 Z의 사전 확률 분포의 차이를 나타내는 Kullback-Leibler Divergence를 나타내며, 생성되는 매개 랜덤 은닉 변수의 분포가 최대한 사전 확률 분포에 가깝도록 규제해주는 역할을 한다. 반면, Eqφ(Z|X)[logpθ(X|Z)]는 재구성 오차로, 입력 X가 주어졌을 때 매개 랜덤 은닉 변수 Z의 생성 확률 분포와 매개 랜덤 은닉 변수 Z로부터 입력 X가 생성되는 확률 분포 간의 Cross-entropy 오차를 의미한다.
Where q φ (Z | X) is the probability of generating a parametric random concealment variable Z from a given input X in an encoder network, p θ (X | Z) is the probability of reconstructing input X from a parametric random concealment variable in a decoder network, p θ (Z) is the prior probability that an intermediate random concealment variable Z will be generated, given the parameters of the decoder network. DKL (q φ (Z | X) | p θ (Z)) represents the Kullback-Leibler Divergence representing the difference in the prior probability distribution of the parametric random concealment variable Z, given the input X, This function regulates the distribution of as close to the prior probability distribution as possible. On the other hand, E qφ (Z | X) [logp θ (X | Z)] is a reconstruction error, where the input X is generated from the probability distribution of the randomized random variable Z and the randomized random variable Z when the input X is given. It means the cross-entropy error between probability distributions.

도 4는 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법의 구성을 개략적으로 도시한 도면이다. 또한, 도 5는 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법에서 Variational Inference 모델의 구성을 도시한 도면이다. 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법은, VAE와 같이 매개 랜덤 은닉 변수의 개입이 들어간 Variational Inference 모델을 활용하여 입력 신호로부터 특징을 추출할 수 있다. 하지만 도 4에 도시된 바와 같이, 일반적인 VAE와 달리 디코더 네트워크에서 입력을 재구성하는 것이 아니라, 입력 신호의 프레임 단위 신호가 갖는 분포를 추정할 수 있다. 다시 말해, 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법은, 인코더 네트워크의 입력으로는 입력 신호의 바움-웰치 통계량이 들어가며 디코더의 출력으로는 입력 신호에 종속적인 확률 분포가 생성될 수 있다.
4 is a diagram schematically illustrating a configuration of a signal unit feature extraction method using a deep learning based Variational Inference model according to an embodiment of the present invention. 5 is a diagram illustrating the configuration of a Variational Inference model in a signal unit feature extraction method using a deep learning based Variational Inference model according to an embodiment of the present invention. In the signal unit feature extraction method using a deep learning based Variational Inference model according to an embodiment of the present invention, a feature may be extracted from an input signal by using a Variational Inference model including an intervention of a parameter random hidden variable, such as VAE. However, as shown in FIG. 4, unlike the general VAE, the distribution of the input signal in the frame unit of the input signal may be estimated instead of reconfiguring the input in the decoder network. In other words, the signal unit feature extraction method using the deep learning based Variational Inference model according to an embodiment of the present invention, the Baum-Welch statistics of the input signal is input to the input of the encoder network and dependent on the input signal as the output of the decoder A probability distribution can be generated.

보다 구체적으로, 도 5를 참조하면, 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법은, 매개 랜덤 은닉 변수 Z를 입출력의 매개체로 두는 Variational Inference 모델 기반의 딥러닝 구조를 활용하여 특징을 추출할 수 있다. 이때, 랜덤 매개 변수 Z는 정규 분포를 따른다. 기존의 오토인코더가 매개 랜덤 은닉 변수를 직접 출력하도록 학습되는데 반해, 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법은 랜덤 매개 변수 Z가 따르는 평균과 분산을 출력하도록 학습한 후, 샘플링을 통해 랜덤 매개 변수 Z를 생성할 수 있다. 디코더 네트워크는 샘플링된 랜덤 매개 변수 Z로 학습한다. 즉, 입력을 단순히 출력단에서 재구성하는 모델이 아니라, 입력 신호에 종속적인 분포를 표현하는 파라미터를 생성하는 Variational Inference 모델을 구성함으로써 인코더 네트워크에서 추출되는 특징이 보다 통계적인 특성을 반영할 수 있다. 제약 함수 DKL와 로그 우도 logP에 대해서는 후술하여 설명한다.
More specifically, referring to FIG. 5, a signal unit feature extraction method using a deep learning based Variational Inference model according to an embodiment of the present invention may include a deep Variational Inference model based on a random random variable Z as a medium for input and output. Features can be extracted using the running structure. In this case, the random parameter Z follows a normal distribution. While the conventional autoencoder is trained to output parametric random concealment variables directly, the signal unit feature extraction method using the deep learning based Variational Inference model according to an embodiment of the present invention outputs the average and the variance of the random parameter Z. After learning, the random parameter Z can be generated by sampling. The decoder network learns with the sampled random parameter Z. That is, by constructing a Variational Inference model that generates a parameter representing a distribution dependent on the input signal, rather than simply reconstructing the input at the output, the features extracted from the encoder network can reflect more statistical characteristics. The constraint function D KL and log likelihood logP will be described later.

본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법의 각각의 단계는 컴퓨팅 장치에 의해 수행될 수 있다. 이하에서는, 설명의 편의를 위해 각각의 단계에서 수행 주체가 생략될 수도 있다.
Each step of the signal unit feature extraction method using the deep learning based Variational Inference model according to an embodiment of the present invention may be performed by a computing device. In the following description, an execution subject may be omitted in each step for convenience of description.

도 6은 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법의 구성을 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법은, 프레임 단위를 가지는 복수 개의 신호 단위로 구성된 입력 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습하는 단계(S100), 단계 S100에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량(Baum-Welch Statistics)을 계산하는 단계(S200), 단계 S200에서 계산한 바움-웰치 통계량을 입력 벡터로 입력받아 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 동시에 학습하는 단계(S300), 및 단계 S400에서 학습한 Variational Inference 모델의 인코더 네트워크에서 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수를 생성하여 입력 신호의 특징을 추출하는 단계(S400)를 포함할 수 있다. 이하에서는, 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법의 각각의 구성에 대해 상세히 설명하기로 한다.
FIG. 6 is a diagram illustrating the configuration of a signal unit feature extraction method using a deep learning based Variational Inference model according to an embodiment of the present invention. As illustrated in FIG. 6, a signal unit feature extraction method using a deep learning based Variational Inference model according to an embodiment of the present invention may include input training data composed of a plurality of signal units having a frame unit to a specific signal. Learning an independent Universal Background Model (UBM) (S100), calculating Baum-Welch Statistics from an input signal using the UBM learned in step S100 (S200), calculating in step S200 A step of learning an encoder network and a decoder network of a Variational Inference model by receiving one Baum-Welch statistic as an input vector (S300), and a distribution that is close to the probability distribution of an input signal in the encoder network of the Variational Inference model learned in step S400. The method may include generating a parameter of the input signal by extracting a feature of the input signal (S400). . Hereinafter, each configuration of a signal unit feature extraction method using a deep learning based Variational Inference model according to an embodiment of the present invention will be described in detail.

단계 S100에서는, 프레임 단위를 가지는 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습할 수 있다. 여기서, 복수 개의 신호 단위는, 음성, 영상 및 생체신호를 포함하며, 프레임 단위로 분할될 수 있다. 단계 S100에서는, 이러한 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 UBM을 학습할 수 있다.
In operation S100, the UBM (Universal Background Model) independent of the specific signal may be trained using the training data composed of the plurality of signal units having the frame unit. Here, the plurality of signal units may include audio, video, and bio signals, and may be divided into frame units. In operation S100, the UBM may be trained using the training data composed of the plurality of signal units.

단계 S200에서는, 단계 S100에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량(Baum-Welch Statistics)을 계산할 수 있다. 바움-웰치 통계량은 주어진 입력 데이터가 UBM에서 어떤 통계적 특성을 보이는지를 나타내는 파라미터이다. 이때, 바움-웰치 통계량은 0차 바움-웰치 통계량 및 1차 바움-웰치 통계량을 포함할 수 있다. 0차 바움-웰치 통계량은 특정 가우시안 성분에 속하는 프레임의 수, 1차 바움-웰치 통계량은 특정 가우시안 성분에 속하는 평균 프레임을 의미한다. C개의 가우시안 성분을 가진 UBM이 주어졌을 때, L개의 프레임을 가진 입력 신호 X의 0차 바움-웰치 통계량과 1차 바움-웰치 통계량은 다음의 수학식 3에 의해 계산될 수 있다.In step S200, Baum-Welch Statistics may be calculated from an input signal using the UBM learned in step S100. The Baum-Welch statistic is a parameter that indicates what statistical characteristics a given input data exhibits in UBM. In this case, the Baum-Welch statistic may include a 0th Baum-Welch statistic and a primary Baum-Welch statistic. The zero-order Baum-Welch statistic refers to the number of frames belonging to a specific Gaussian component, and the first-order Baum-Welch statistic refers to an average frame belonging to a specific Gaussian component. Given a UBM with C Gaussian components, the zero-order Baum-welch statistics and the first-order Baum-welch statistics of the input signal X with L frames can be calculated by the following equation.

Figure 112017095552390-pat00007
Figure 112017095552390-pat00007

여기서, nc(X)는 입력 신호 X의 0차 바움-웰치 통계량, fc(X)는 입력 신호 X의 1차 바움-웰치 통계량, γl(c)는 UBM의 c번째 가우시안 성분에 l번째 프레임이 속할 확률, xl은 입력 신호 X의 l번째 프레임 특징, L은 프레임의 개수이다.
Where n c (X) is the zero-order Baum-welch statistic of the input signal X, f c (X) is the first-order Baum-welch statistic of the input signal X, γ l (c) is the l-th Gaussian component of the UBM The probability that the first frame belongs, x l is the l-th frame feature of the input signal X, and L is the number of frames.

단계 S300에서는, 단계 S200에서 계산한 바움-웰치 통계량을 입력 벡터로 입력받아 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 학습할 수 있다. 여기서, 단계 S200에서 계산한 바움-웰치 통계량은 다음의 수학식 4에 의해 하나의 입력 벡터로 생성될 수 있다.In operation S300, the encoder and decoder networks of the Variational Inference model may be trained by receiving the Baum-Welch statistic calculated in operation S200 as an input vector. Here, the Baum-Welch statistic calculated in step S200 may be generated as one input vector by Equation 4 below.

Figure 112017095552390-pat00008
Figure 112017095552390-pat00008

여기서, I(X)는 c개의 가우시안 성분에 대한 입력 신호 X의 모든 0차 및 1차 바움-웰치 통계량들을 연결시킨 벡터로, 입력 벡터에 해당한다. 이때, 입력 신호 X의 한 프레임에서의 프레임 단위 특징의 크기가 N인 경우 I(X)의 크기는 c+Nc이다.
Here, I (X) is a vector connecting all zero-order and first-order Baum-welch statistics of the input signal X for c Gaussian components and corresponds to an input vector. In this case, when the size of the frame unit feature in one frame of the input signal X is N, the size of I (X) is c + Nc.

단계 S300에서는, 오류 역전파 알고리즘(Error Back Propagation)을 사용하여 인코더 네트워크 및 디코더 네트워크를 동시에 학습할 수 있다. 보다 구체적으로, 단계 S300에서는, Variational Inference 모델의 디코더 네트워크에서 출력되는 벡터의 출력 분포의 로그 우도를 최대화하도록 목적 함수를 최대화되는 방향으로 학습할 수 있다. 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법은, 인코더 네트워크의 입력으로는 입력 신호의 바움-웰치 통계량이 입력되며 디코더 네트워크의 출력으로는 입력 신호에 종속적인 확률 분포가 생성되므로, 일반적인 VAE에서의 재구성 오차 대신 출력 분포의 로그 우도를 최대화하는 방향으로 학습할 수 있으며, 그 목적 함수는 다음의 수학식 5와 같다.In operation S300, an encoder network and a decoder network may be simultaneously learned using an error back propagation algorithm. More specifically, in step S300, it is possible to learn in the direction to maximize the objective function to maximize the log likelihood of the output distribution of the vector output from the decoder network of the Variational Inference model. In the signal unit feature extraction method using a deep learning based Variational Inference model according to an embodiment of the present invention, a Baum-Welch statistic of an input signal is input as an input of an encoder network and dependent on an input signal as an output of a decoder network. Since the probability distribution is generated, it can be learned in the direction of maximizing the log likelihood of the output distribution instead of the reconstruction error in the general VAE. The objective function is expressed by Equation 5 below.

Figure 112017095552390-pat00009
Figure 112017095552390-pat00009

여기서, qφ(Z|X)는 인코더 네트워크에서 주어진 입력 X로부터 매개 랜덤 은닉 변수 Z를 생성할 확률, pθ(Z)는 디코더 네트워크의 파라미터가 주어졌을 때 매개 랜덤 은닉 변수 Z가 생성될 사전확률이다. DKL(qφ(Z|X)|pθ(Z))은 입력 X가 주어졌을 때, 매개 랜덤 은닉 변수 Z의 사전 확률 분포의 차이를 나타내는 Kullback-Leibler Divergence, p(X|φ,θ,Z)은 인코더 네트워크, 디코더 네트워크 및 특정 매개 랜덤 은닉 변수 Z가 주어졌을 때 생성되는 입력 신호 X에 종속적인 분포를 가지는 우도이다.
Where q φ (Z | X) is the probability of generating a parametric random concealment variable Z from a given input X in the encoder network, and p θ (Z) is a dictionary in which the parametric random concealment variable Z will be generated when a parameter of the decoder network is given. Probability. D KL (q φ (Z | X) | p θ (Z)) is the Kullback-Leibler Divergence, p (X | φ, θ, which represents the difference in the prior probability distribution of the intermediate random concealment variable, given the input X. (Z) is a likelihood with a distribution dependent on the encoder network, the decoder network and the input signal X produced when a particular parametric random concealment variable Z is given.

단계 S400에서는, 단계 S300에서 학습한 Variational Inference 모델의 인코더 네트워크에서 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수를 생성하여 입력 신호의 특징을 추출할 수 있다. 단계 S300에서 목적 함수인 수학식 5를 최대화하는 방향으로 Variational Inference 모델을 학습함으로써 인코더 네트워크에서 생성되는 매개 랜덤 은닉 변수는 입력 신호의 사전 확률 분포에 가까운 분포를 가질 수 있다. 동시에 디코더 네트워크에서 생성되는 입력 신호에 종속적인 분포는 입력 신호의 프레임 단위 특징들의 분포를 잘 나타내도록 최적화될 수 있다. 그 결과 매개 랜덤 은닉 변수는 입력 신호의 분포를 정확히 추정하는데 필요한 다양한 분포적 패턴을 담을 수 있다. 디코더 네트워크에서 출력되는 입력 신호에 종속적인 분포는, 예를 들어 가우시안, GMM 및 라플라시안 분포 등과 같이 사용 목적이나 입력 데이터에 따라서 다양하게 선택될 수 있다.
In operation S400, the parameter of the input signal may be extracted by generating a parameterized random hidden variable having a distribution close to the probability distribution of the input signal in the encoder network of the Variational Inference model learned in operation S300. By learning the Variational Inference model in the direction of maximizing Equation 5 as the objective function in step S300, the parametric random concealment variable generated in the encoder network may have a distribution close to the prior probability distribution of the input signal. At the same time, the distribution dependent on the input signal generated in the decoder network can be optimized to better represent the distribution of the frame unit features of the input signal. As a result, each random concealment variable can contain various distribution patterns necessary to accurately estimate the distribution of the input signal. The distribution dependent on the input signal output from the decoder network may be variously selected according to the purpose of use or input data such as, for example, a Gaussian, GMM, and Laplacian distribution.

단계 S400에서는, 인코더 네트워크를 특징 추출기로 사용하여, 인코더 네트워크로부터 입력 신호에서 프레임 단위 특징의 분포를 매개 은닉 변수의 평균 및 분산으로 추출할 수 있다. 단계 S300에서 학습한 Variational Inference 모델의 인코더 네트워크는 특징 추출기로 사용할 수 있다. 즉, 인코더 네트워크의 출력으로 생성되는 매개 랜덤 은닉 변수의 평균 및 분산은 입력 신호의 프레임 단위 특징들의 분포가 가지는 다양한 정보를 표현하는 특징으로 사용될 수 있다. 매개 랜덤 은닉 변수의 평균은 입력 신호 분포가 가지는 전반적인 분포 패턴에 대한 정보를 포함할 수 있다. 또한, 매개 랜덤 은닉 변수의 분산은 입력 신호의 길이가 짧거나 열화될수록 큰 값을 가지기 때문에 추출된 특징이 가지는 신뢰도를 나타낼 수 있다.
In operation S400, the encoder network may be used as a feature extractor to extract a distribution of frame-based features from the encoder network as an average and a variance of the intermediate hidden variables. The encoder network of the Variational Inference model learned in step S300 can be used as a feature extractor. That is, the average and the variance of the intermediate random hidden variables generated at the output of the encoder network may be used as a feature representing various information of the distribution of frame unit features of the input signal. The average of the parameter random concealment variables may include information on an overall distribution pattern of the input signal distribution. In addition, the variance of the parameter random hidden variable may have a larger value as the length of the input signal is shorter or deteriorated, thereby indicating the reliability of the extracted feature.

도 7은 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법이 화자 인식에 사용되는 경우의 Variational Inference 모델의 구성을 도시한 도면이다. 도 7에 도시된 바와 같이, 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법에서 Variational Inference 모델의 인코더 네트워크는 바움-웰치 통계량을 입력받아 매개 랜덤 은닉 변수를 생성할 수 있다. 여기서, 인코더 네트워크는 특징 추출기 역할을 하며, 디코더 네트워크는 기존 I-Vector 기법에서 전체 변이성 행렬과 같이 추출된 특징을 받아서 입력 신호에 종속적인 GMM 슈퍼벡터를 생성하는데 사용될 수 있다. 이때, 추출된 GMM 슈퍼벡터의 입력 음성에 대한 로그 우도는 다음의 수학식 6과 같다.FIG. 7 is a diagram illustrating a configuration of a Variational Inference model when a signal unit feature extraction method using a deep learning based Variational Inference model according to an embodiment of the present invention is used for speaker recognition. As shown in FIG. 7, in the signal unit feature extraction method using the deep learning based Variational Inference model according to an embodiment of the present invention, the encoder network of the Variational Inference model receives the Baum-Welch statistic to generate a parameterized random hidden variable. can do. Here, the encoder network serves as a feature extractor, and the decoder network may be used to generate a GMM supervector dependent on an input signal by receiving a feature extracted like a full variability matrix in the conventional I-Vector scheme. At this time, the log likelihood for the input voice of the extracted GMM supervector is expressed by Equation 6 below.

Figure 112017095552390-pat00010
Figure 112017095552390-pat00010

여기서, F는 프레임 단위 특징(예를 들어, MFCC)의 크기,

Figure 112017095552390-pat00011
는 GMM 슈퍼벡터의 c번째 가우시안 평균,
Figure 112017095552390-pat00012
는 UBM의 c번째 가우시안의 공분산 행렬의 역행렬이다.
Where F is the size of a frame-by-frame feature (eg, MFCC),
Figure 112017095552390-pat00011
Is the c th Gaussian mean of the GMM supervector,
Figure 112017095552390-pat00012
Is the inverse of the covariance matrix of the c th Gaussian of UBM.

수학식 6은 특정 매개 랜덤 은닉 변수 Z에 대한 로그 우도이므로, 매개 랜덤 은닉 변수에 대하여 주변화(marginalize)하면 다음의 수학식 7로 근사될 수 있다.Since Equation 6 is the log likelihood for the specific parameterized random concealment variable Z, marginalizing the parameterized random concealment variable may be approximated by Equation 7 below.

Figure 112017095552390-pat00013
Figure 112017095552390-pat00013

여기서, S는 몬테 카를로(Monte Carlo) 근사에 사용한 샘플의 수, Zs(X)는 매개 랜덤 은닉 변수의 사전 확률 분포에서 랜덤하게 샘플링한 매개 랜덤 은닉 변수이다.
Here, S is the number of samples used for Monte Carlo approximation, and Z s (X) is a mediated random hidden variable sampled randomly from the prior probability distribution of the mediated random hidden variable.

수학식 7을 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출의 Variational Inference 모델의 목적 함수에 대입하면 다음의 수학식 8과 같다.Substituting Equation 7 into the objective function of the Variational Inference model of signal unit feature extraction using the deep learning based Variational Inference model according to an embodiment of the present invention is shown in Equation 8 below.

Figure 112017095552390-pat00014
Figure 112017095552390-pat00014

수학식 8의 목적 함수를 최소화하도록 오류 역전파 알고리즘을 통하여 Variational Inference 모델을 학습한 후, 인코더 네트워크는 화자 인식용 특징 추출기로 사용될 수 있다.
After learning the Variational Inference model through the error backpropagation algorithm to minimize the objective function of Equation 8, the encoder network can be used as a feature extractor for speaker recognition.

도 8은 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법이 적용된 화자 인식에 적용되는 경우에 추출된 매개 랜덤 은닉 변수의 로그 분산으로 구한 미분 엔트로피(Differential Entropy)의 그래프이다. 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법의 성능 검증을 위해 인코더 네트워크 및 디코더 네트워크를 각각 ReLU 활성함수 노드 4096으로 구성된 단일 은닉층으로 설정하였다. 화자 630명 및 6300 음성 샘플로 구성된 TIMIT 데이터셋으로 모델을 학습시킨 후 326명의 화자로 구성된 TIDIGITS로 성능 검증을 진행하였다. LDA(Linear Discriminant Analysis)로 특징을 일반화하고, PLDA(Probabilistic Linear Discriminant Analysis)로 화자 인식을 수행하였다. UBM 및 GMM의 가우시안은 32개로 설정되었으며, 매개 랜덤 은닉 변수의 차원은 200으로 설정하였다. 추출된 매개 랜덤 은닉 변수의 로그 분산으로 구한 미분 엔트로피는 도 8에 도시된 바와 같다. 도 8을 참조하면, 음성 신호의 길이가 길어짐에 따라 매개 랜덤 은닉 변수의 로그 분산으로 계산된 미분 엔트로피가 감소하는 것을 확인할 수 있다. 이는 매개 랜덤 은닉 변수의 로그 분산이 음성의 짧은 길이에 따른 불확실성을 표현해주고 있다는 것을 의미한다.
FIG. 8 is a differential entropy obtained by log variance of the extracted random random variables when the signal unit feature extraction method using the deep learning based Variational Inference model according to an embodiment of the present invention is applied. FIG. Is a graph. In order to verify the performance of the signal unit feature extraction method using the deep learning based Variational Inference model according to an embodiment of the present invention, the encoder network and the decoder network are set as a single hidden layer composed of ReLU active function nodes 4096. The model was trained using a TIMIT dataset consisting of 630 speakers and 6300 voice samples, and then performance-tested using TIDIGITS of 326 speakers. The features were generalized by linear discriminant analysis (LDA), and speaker recognition was performed by probabilistic linear discriminant analysis (PLDA). The Gaussians of UBM and GMM were set to 32, and the dimension of the intermediate random concealment variable was set to 200. The differential entropy obtained by the logarithmic variance of the extracted random random hidden variables is shown in FIG. 8. Referring to FIG. 8, it can be seen that as the length of the voice signal becomes longer, the differential entropy calculated by the log variance of the parameter random concealment variable decreases. This means that the log variance of each random concealment variable represents the uncertainty over the short length of speech.

도 9는 I-Vector와 특징과 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법에서 생성된 매개 랜덤 은닉 변수를 이용하였을 때 화자 인식 성능을 도시한 표이다. I-Vector(400) 및 I-Vector(600)은 각각 400차원과 600차원의 I-Vector, LM+LV는 매개 랜덤 은닉 변수의 평균과 로그 분산을 연결시킨 특징, I-Vector(200)+LM은 200차원 I-Vector와 매개 랜덤 은닉 변수의 로그 분산을 연결시킨 특징, I-Vector(200)+LM+LV는 200차원 I-Vector와 매개 랜덤 은닉 변수의 평균 및 로그 분산을 모두 연결시킨 특징이다. 도 9를 참조하면, 매개 랜덤 은닉 변수만 사용하였을 때 같은 차원의 I-Vector 특징에 비해 높은 성능을 보임을 확인할 수 있으며, I-Vector와 연결시켰을 때 보다 높은 성능을 보인다.
FIG. 9 is a table illustrating speaker recognition performance using an I-Vector and a feature and a parameterized random hidden variable generated in a signal unit feature extraction method using a deep learning based Variational Inference model according to an embodiment of the present invention. I-Vector (400) and I-Vector (600) are 400- and 600-dimensional I-Vectors, and LM + LV is a feature that connects the mean and log variance of each random hidden variable, I-Vector (200) + LM is a feature that links the log variance of a 200-dimensional I-Vector with a parametric random hidden variable. It is characteristic. Referring to FIG. 9, it can be seen that the performance is higher than that of the I-Vector feature of the same dimension when using only the parameter random hidden variable, and higher performance when connected to the I-Vector.

도 10은 본 발명의 다른 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템의 구성을 도시한 도면이다. 도 10에 도시된 바와 같이, 본 발명의 다른 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템(100)은, 인코더 네트워크 및 디코더 네트워크를 포함하는 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템으로서, UBM 학습부(110), 바움-웰치 통계량 계산부(120), Variational Inference 모델 학습부(130) 및 특징 추출부(140)를 포함할 수 있다. 이하에서는, 본 발명의 다른 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템의 각각의 구성에 대해 상세히 설명하기로 한다.
FIG. 10 illustrates a configuration of a signal unit feature extraction system using a deep learning based Variational Inference model according to another embodiment of the present invention. As shown in FIG. 10, the signal unit feature extraction system 100 using the deep learning based Variational Inference model according to another embodiment of the present invention may include a signal unit feature using a Variational Inference model including an encoder network and a decoder network. The extraction system may include a UBM learner 110, a Baum-welch statistics calculator 120, a Variational Inference model learner 130, and a feature extractor 140. Hereinafter, each configuration of a signal unit feature extraction system using a deep learning based Variational Inference model according to another embodiment of the present invention will be described in detail.

UBM 학습부(110)는, 프레임 단위를 가지는 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습할 수 있다.
The UBM learning unit 110 may learn a universal background model (UBM) independent of a specific signal using learning data composed of a plurality of signal units having a frame unit.

바움-웰치 통계량 계산부(120)는, UBM 학습부(110)에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량(Baum-Welch Statistics)을 계산할 수 있다. 바움-웰치 통계량 계산부(120)의 바움-웰치 통계량은, 전술한 수학식 3을 통해 계산되는 0차 바움-웰치 통계량 및 1차 바움-웰치 통계량을 포함할 수 있다.
The Baum-Welch statistics calculation unit 120 may calculate Baum-Welch Statistics from an input signal using the UBM learned by the UBM learning unit 110. The Baum-Welch statistic of the Baum-Welch statistic calculator 120 may include a zero-order Baum-Welch statistic and a primary Baum-Welch statistic calculated through Equation 3 described above.

Variational Inference 모델 학습부(130)는, 바움-웰치 통계량 계산부에서 계산된 바움-웰치 통계량을 입력 벡터로 입력받아 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 학습할 수 있다. 이때, Variational Inference 모델 학습부(130)는, 오류 역전파 알고리즘을 사용하여 인코더 네트워크 및 디코더 네트워크를 동시에 학습할 수 있다. 또한, Variational Inference 모델 학습부(130)는, Variational Inference 모델의 디코더 네트워크에서 출력되는 입력 신호에 종속적인 확률 분포의 로그 우도가 최대화되도록 목적 함수인 전술한 수학식 5가 최대화되는 방향으로 학습할 수 있다.
The Variational Inference model learner 130 may learn the encoder network and the decoder network of the Variational Inference model by receiving the Baum-welch statistics calculated by the Baum-welch statistics calculation unit as an input vector. In this case, the Variational Inference model learner 130 may simultaneously learn the encoder network and the decoder network using an error backpropagation algorithm. In addition, the Variational Inference model learner 130 may learn in a direction in which the above-described Equation 5, which is an objective function, is maximized to maximize the log likelihood of the probability distribution dependent on the input signal output from the decoder network of the Variational Inference model. have.

특징 추출부(150)는, Variational Inference 모델 학습부(130)에서 학습한 Variational Inference 모델의 인코더 네트워크에서 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수(Latent Variable)를 생성하고 입력 신호의 특징을 추출할 수 있다. 또한, 특징 추출부(150)는, 인코더 네트워크를 특징 추출기로 사용하여, 인코더 네트워크로부터 입력 신호에서 프레임 단위 특징의 분포를 매개 은닉 변수의 평균 및 분산으로 추출할 수 있다.
The feature extractor 150 generates an intermediate random variable having a distribution close to the probability distribution of the input signal in the encoder network of the Variational Inference model trained by the Variational Inference model learner 130, Features can be extracted. In addition, the feature extractor 150 may use the encoder network as the feature extractor to extract the distribution of the frame unit feature from the encoder network as an average and a variance of the intermediate hidden variables.

전술한 바와 같이, 본 발명에서 제안하고 있는 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템에 따르면, 랜덤 변수를 입출력의 매개체로 두는 Variational Inference 기반의 딥러닝 구조를 활용하여 특징을 추출함으로써, 입력의 분포를 표현하는 파라미터를 생성할 수 있다. 또한, 본 발명에서 제안하고 있는 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템에 따르면, Variational Inference 모델에서 생성되는 매개 랜덤 은닉 변수는 인공신경망을 통한 비선형적인 처리로 생성되므로, 기존 I-Vector 기법에서 선형적으로 매핑될 수 없는 비선형적 특징도 추출할 수 있으며, 입력 신호의 프레임 단위 특징들의 분포가 갖는 다양한 정보를 표현하는 특징을 추출할 수 있다.
As described above, according to the signal unit feature extraction method and system using the deep learning-based Variational Inference model proposed in the present invention, the feature is extracted by using a Variational Inference-based deep learning structure that puts a random variable as an input / output medium By doing so, a parameter representing the distribution of the input can be generated. In addition, according to the signal unit feature extraction method and system using the deep learning-based Variational Inference model proposed in the present invention, since the parametric random hidden variable generated in the Variational Inference model is generated by non-linear processing through the artificial neural network, I In addition, non-linear features that cannot be linearly mapped in the vector technique may be extracted, and features representing various information of the distribution of frame unit features of the input signal may be extracted.

한편, 본 발명의 일 실시예에 따른 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템은, 비선형적인 처리를 통해 입력 신호나 정보열에 있는 분포적 패턴을 고정된 크기의 벡터로 표현해주므로, 기존의 I-Vector나 GMM 슈퍼벡터와 같은 기법을 사용하는 분야에는 모두 적용할 수 있다.
On the other hand, the signal unit feature extraction method and system using the deep learning based Variational Inference model according to an embodiment of the present invention, because the non-linear processing to represent the distribution pattern in the input signal or information string as a fixed size vector In addition, it can be applied to all fields using techniques such as I-Vector or GMM supervector.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 청구범위에 의하여 정해져야 할 것이다.The present invention described above may be variously modified or applied by those skilled in the art, and the scope of the technical idea according to the present invention should be defined by the following claims.

S100: 프레임 단위를 가지는 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습하는 단계;
S200: 단계 S100에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량을 계산하는 단계;
S300: 단계 S200에서 계산한 바움-웰치 통계량을 입력 벡터로 입력받아 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 학습하는 단계
S400: 단계 S300에서 학습한 Variational Inference 모델의 인코더 네트워크에서 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수를 생성하여 입력 신호의 특징을 추출하는 단계
100: 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템
110: UBM 학습부
120: 바움-웰치 통계량 계산부
130: Variational Inference 모델 학습부
140: 특징 추출부
S100: learning a universal background model (UBM) independent of a specific signal using training data composed of a plurality of signal units having a frame unit;
S200: calculating Baum-welch statistics from the input signal using the UBM learned in step S100;
S300: Learning the encoder network and decoder network of the Variational Inference model by receiving the Baum-Welch statistics calculated in step S200 as an input vector.
S400: extracting the characteristics of the input signal by generating a parametric random hidden variable having a distribution close to the probability distribution of the input signal in the encoder network of the Variational Inference model learned in step S300
100: Signal Unit Feature Extraction System Using Deep Learning Based Variational Inference Model
110: UBM Learning Division
120: Baum-Welch statistics calculation unit
130: Variational Inference Model Learning Unit
140: feature extraction unit

Claims (10)

인코더 네트워크 및 디코더 네트워크를 포함하는 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법으로서,
(1) UBM 학습부가, 프레임 단위를 가지는 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습하는 단계;
(2) 바움-웰치 통계량 계산부가, 상기 단계 (1)에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량(Baum-Welch Statistics)을 계산하는 단계;
(3) Variational Inference 모델 학습부가, 상기 단계 (2)에서 계산한 상기 바움-웰치 통계량을 입력 벡터로 입력받아 상기 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 학습하는 단계; 및
(4) 특징 추출부가, 상기 단계 (3)에서 학습한 Variational Inference 모델의 인코더 네트워크에서 상기 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수(Latent Variable)를 생성하여 상기 입력 신호의 특징을 추출하는 단계를 포함하며,
상기 인코더 네트워크의 입력으로는 상기 단계 (2)에서 계산한 상기 바움-웰치 통계량을 사용하고, 상기 디코더 네트워크의 출력으로는 입력 신호에 종속적인 확률 분포가 생성되며,
상기 단계 (3)에서는, 상기 Variational Inference 모델 학습부가 매개 랜덤 은닉 변수가 따르는 평균과 분산을 출력하도록 학습하며,
상기 단계 (4)는, 상기 특징 추출부가,
상기 인코더 네트워크를 특징 추출기로 사용하여, 상기 인코더 네트워크로부터 상기 복수 개의 신호 단위에서 프레임 단위 특징의 분포를 상기 매개 랜덤 은닉 변수의 평균 및 분산으로 추출하는 것을 특징으로 하는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법.
A signal unit feature extraction method using a Variational Inference model including an encoder network and a decoder network,
(1) a UBM learning unit, learning UBM (Universal Background Model) independent of a specific signal using learning data composed of a plurality of signal units having a frame unit;
(2) a Baum-Welch Statistics calculation unit, calculating Baum-Welch Statistics from an input signal using the UBM learned in step (1);
(3) learning a encoder network and a decoder network of the Variational Inference model by receiving the Variational Inference model learner by receiving the Baum-Welch statistic calculated in the step (2) as an input vector; And
(4) The feature extracting unit generates a latent random variable having a distribution close to the probability distribution of the input signal in the encoder network of the Variational Inference model learned in step (3) to characterize the input signal. Extracting,
As the input of the encoder network, the Baum-Welch statistic calculated in step (2) is used, and as the output of the decoder network, a probability distribution dependent on the input signal is generated.
In step (3), the Variational Inference model learner learns to output an average and a variance followed by a parametric random hidden variable,
Step (4), the feature extraction unit,
Using the encoder network as a feature extractor, the deep learning based Variational Inference model is characterized by extracting the distribution of the frame unit feature in the plurality of signal units from the encoder network as the mean and the variance of the intermediate random hidden variables. Signal unit feature extraction method.
제1항에 있어서, 상기 단계 (2)의 상기 바움-웰치 통계량 계산부가 계산하는 바움-웰치 통계량은,
하기의 수학식을 통해 계산되는 0차 바움-웰치 통계량 및 1차 바움-웰치 통계량을 포함하는 것을 특징으로 하는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법.
Figure 112019067634718-pat00015

여기서, nc(X)는 입력 신호 X의 0차 바움-웰치 통계량, fc(X)는 입력 신호 X의 1차 바움-웰치 통계량, γl(c)는 UBM의 c번째 가우시안 성분에 l번째 프레임이 속할 확률, xl은 입력 신호 X의 l번째 프레임 특징, L은 프레임의 개수이다.
The method of claim 1, wherein the Baum-Welch statistics calculated by the Baum-Welch statistics calculation unit of step (2),
A method for extracting signal unit characteristics using a deep learning-based Variational Inference model, comprising a zero-order Baum-welch statistic and a first-order Baum-welch statistic calculated through the following equation.
Figure 112019067634718-pat00015

Where n c (X) is the zero-order Baum-welch statistic of the input signal X, f c (X) is the first-order Baum-welch statistic of the input signal X, γ l (c) is the l-th Gaussian component of the UBM The probability that the first frame belongs, x l is the l-th frame feature of the input signal X, and L is the number of frames.
제1항에 있어서, 상기 단계 (3)은, 상기 Variational Inference 모델 학습부가,
오류 역전파 알고리즘을 사용하여 상기 인코더 네트워크 및 상기 디코더 네트워크를 동시에 학습하는 것을 특징으로 하는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법.
The method of claim 1, wherein the step (3), The Variational Inference model learning unit,
A method for extracting signal unit features using a deep learning based Variational Inference model, wherein the encoder network and the decoder network are simultaneously trained using an error backpropagation algorithm.
제3항에 있어서, 상기 단계 (3)은, 상기 Variational Inference 모델 학습부가,
상기 Variational Inference 모델의 디코더 네트워크에서 출력되는 입력 신호에 종속적인 확률 분포의 로그 우도가 최대화되도록 목적 함수인 하기의 수학식이 최대화되는 방향으로 학습하는 것을 특징으로 하는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법.
Figure 112019067634718-pat00016

여기서, qφ(Z|X)는 인코더 네트워크에서 주어진 입력 X로부터 매개 랜덤 은닉 변수 Z를 생성할 확률, pθ(Z)는 디코더 네트워크의 파라미터가 주어졌을 때 매개 랜덤 은닉 변수 Z가 생성될 사전확률, DKL(qφ(Z|X)|pθ(Z))은 입력 X가 주어졌을 때, 매개 랜덤 은닉 변수 Z의 사전 확률 분포의 차이를 나타내는 Kullback-Leibler Divergence, p(X|φ,θ,Z)은 인코더 네트워크, 디코더 네트워크 및 특정 매개 랜덤 은닉 변수 Z가 주어졌을 때 생성되는 입력 신호 X에 종속적인 분포를 가지는 우도이다.
The method of claim 3, wherein the step (3), The Variational Inference model learning unit,
A signal using a deep learning based Variational Inference model, characterized in that the following equation, which is an objective function, is learned to be maximized to maximize the log likelihood of the probability distribution dependent on the input signal output from the decoder network of the Variational Inference model. Unit feature extraction method.
Figure 112019067634718-pat00016

Where q φ (Z | X) is the probability of generating a parametric random concealment variable Z from a given input X in the encoder network, and p θ (Z) is a dictionary in which the parametric random concealment variable Z will be generated when a parameter of the decoder network is given. The probability, D KL (q φ (Z | X) | p θ (Z)), is given by the Kullback-Leibler Divergence, p (X | φ, which represents the difference in the prior probability distribution of each random hidden variable Z, given the input X. is a likelihood with a distribution dependent on the encoder network, the decoder network, and the input signal X generated when a particular parametric random concealment variable Z is given.
삭제delete 인코더 네트워크 및 디코더 네트워크를 포함하는 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템으로서,
프레임 단위를 가지는 복수 개의 신호 단위로 구성된 학습 데이터를 사용하여 특정 신호에 독립적인 UBM(Universal Background Model)을 학습하는 UBM 학습부;
상기 UBM 학습부에서 학습한 UBM을 이용하여 입력 신호에서 바움-웰치 통계량(Baum-Welch Statistics)을 계산하는 바움-웰치 통계량 계산부;
상기 바움-웰치 통계량 계산부에서 계산한 상기 바움-웰치 통계량을 입력 벡터로 입력받아 상기 Variational Inference 모델의 인코더 네트워크 및 디코더 네트워크를 학습하는 Variational Inference 모델 학습부; 및
상기 Variational Inference 모델 학습부에서 학습한 Variational Inference 모델의 인코더 네트워크에서 상기 입력 신호의 확률 분포에 근사한 분포를 가지는 매개 랜덤 은닉 변수(Latent Variable)를 생성하여 상기 입력 신호의 특징을 추출하는 특징 추출부를 포함하며,
상기 인코더 네트워크의 입력으로는 상기 단계 (2)에서 계산한 상기 바움-웰치 통계량을 사용하고, 상기 디코더 네트워크의 출력으로는 입력 신호에 종속적인 확률 분포가 생성되며,
상기 Variational Inference 모델 학습부가 매개 랜덤 은닉 변수가 따르는 평균과 분산을 출력하도록 학습하며,
상기 특징 추출부는,
상기 인코더 네트워크를 특징 추출기로 사용하여, 상기 인코더 네트워크로부터 상기 복수 개의 신호 단위에서 프레임 단위 특징의 분포를 상기 매개 랜덤 은닉 변수의 평균 및 분산으로 추출하는 것을 특징으로 하는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템.
A signal unit feature extraction system using a Variational Inference model including an encoder network and a decoder network,
A UBM learning unit for learning a UBM (Universal Background Model) independent of a specific signal using training data composed of a plurality of signal units having a frame unit;
A Baum-Welch Statistics calculation unit for calculating Baum-Welch Statistics from an input signal using the UBM learned by the UBM learning unit;
A Variational Inference model learner learning the encoder network and the decoder network of the Variational Inference model by receiving the Baum-welch statistics calculated by the Baum-welch statistics calculation unit as an input vector; And
And a feature extractor configured to extract a feature of the input signal by generating a latent random variable having a distribution close to the probability distribution of the input signal in an encoder network of the Variational Inference model trained by the Variational Inference model learner. ,
As the input of the encoder network, the Baum-Welch statistic calculated in step (2) is used, and as the output of the decoder network, a probability distribution dependent on the input signal is generated.
The Variational Inference model learner learns to output an average and a variance followed by a parametric random hidden variable,
The feature extraction unit,
Using the encoder network as a feature extractor, the deep learning based Variational Inference model is characterized by extracting the distribution of the frame unit feature in the plurality of signal units from the encoder network as the mean and the variance of the intermediate random hidden variables. Signal unit feature extraction system used.
제6항에 있어서, 상기 바움-웰치 통계량 계산부의 바움-웰치 통계량은,
하기의 수학식을 통해 계산되는 0차 바움-웰치 통계량 및 1차 바움-웰치 통계량을 포함하는 것을 특징으로 하는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템.
Figure 112017095552390-pat00017

여기서, nc(X)는 입력 신호 X의 0차 바움-웰치 통계량, fc(X)는 입력 신호 X의 1차 바움-웰치 통계량, γl(c)는 UBM의 c번째 가우시안 성분에 l번째 프레임이 속할 확률, xl은 입력 신호 X의 l번째 프레임 특징, L은 프레임의 개수이다.
The method of claim 6, wherein the Baum-Welch statistics of the Baum-Welch statistics,
Signal unit feature extraction system using a deep learning based Variational Inference model, characterized in that it comprises a zero-order Baum-welch statistics and the first-order Baum-welch statistics calculated through the following equation.
Figure 112017095552390-pat00017

Where n c (X) is the zero-order Baum-welch statistic of the input signal X, f c (X) is the first-order Baum-welch statistic of the input signal X, γ l (c) is the l-th Gaussian component of the UBM The probability that the first frame belongs, x l is the l-th frame feature of the input signal X, and L is the number of frames.
제6항에 있어서, 상기 Variational Inference 모델 학습부는,
오류 역전파 알고리즘을 사용하여 상기 인코더 네트워크 및 상기 디코더 네트워크를 동시에 학습하는 것을 특징으로 하는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템.
The method of claim 6, wherein the Variational Inference model learning unit,
And a deep learning based Variational Inference model, wherein the encoder network and the decoder network are simultaneously trained using an error backpropagation algorithm.
제8항에 있어서, 상기 Variational Inference 모델 학습부는,
상기 Variational Inference 모델의 디코더 네트워크에서 출력되는 입력 신호에 종속적인 확률 분포의 로그 우도가 최대화되도록 목적 함수인 하기의 수학식이 최대화되는 방향으로 학습하는 것을 특징으로 하는, 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 시스템.
Figure 112017095552390-pat00018

여기서, qφ(Z|X)는 인코더 네트워크에서 주어진 입력 X로부터 매개 랜덤 은닉 변수 Z를 생성할 확률, pθ(Z)는 디코더 네트워크의 파라미터가 주어졌을 때 매개 랜덤 은닉 변수 Z가 생성될 사전확률, DKL(qφ(Z|X)|pθ(Z))은 입력 X가 주어졌을 때, 매개 랜덤 은닉 변수 Z의 사전 확률 분포의 차이를 나타내는 Kullback-Leibler Divergence, p(X|φ,θ,Z)은 인코더 네트워크, 디코더 네트워크 및 특정 매개 랜덤 은닉 변수 Z가 주어졌을 때 생성되는 입력 X에 종속적인 분포를 가지는 우도이다.
The method of claim 8, wherein the Variational Inference model learning unit,
A signal using a deep learning based Variational Inference model, characterized in that the following equation, which is an objective function, is learned to be maximized to maximize the log likelihood of the probability distribution dependent on the input signal output from the decoder network of the Variational Inference model. Unit feature extraction system.
Figure 112017095552390-pat00018

Where q φ (Z | X) is the probability of generating a parametric random concealment variable Z from a given input X in the encoder network, and p θ (Z) is a dictionary in which the parametric random concealment variable Z will be generated when a parameter of the decoder network is given. The probability, D KL (q φ (Z | X) | p θ (Z)), is given by the Kullback-Leibler Divergence, p (X | φ, which represents the difference in the prior probability distribution of each random hidden variable Z, given the input X. θ, Z) is a likelihood with a distribution dependent on the encoder network, the decoder network, and the input X produced when a particular parametric random concealment variable Z is given.
삭제delete
KR1020170126616A 2017-09-28 2017-09-28 Method for extracting signal unit features using variational inference model based deep learning and system thereof KR102026226B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170126616A KR102026226B1 (en) 2017-09-28 2017-09-28 Method for extracting signal unit features using variational inference model based deep learning and system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170126616A KR102026226B1 (en) 2017-09-28 2017-09-28 Method for extracting signal unit features using variational inference model based deep learning and system thereof

Publications (2)

Publication Number Publication Date
KR20190037025A KR20190037025A (en) 2019-04-05
KR102026226B1 true KR102026226B1 (en) 2019-09-27

Family

ID=66103985

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170126616A KR102026226B1 (en) 2017-09-28 2017-09-28 Method for extracting signal unit features using variational inference model based deep learning and system thereof

Country Status (1)

Country Link
KR (1) KR102026226B1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11700518B2 (en) 2019-05-31 2023-07-11 Huawei Technologies Co., Ltd. Methods and systems for relaying feature-driven communications
KR102145698B1 (en) * 2019-09-27 2020-08-18 주식회사 인피니그루 Methods and systems for interpreting predicted solution through deep learning model
CN113642822B (en) * 2020-12-04 2024-03-01 广东省建筑设计研究院有限公司 VAE-based sample set directivity extension method for evaluating building group structure safety
CN113408425B (en) * 2021-06-21 2022-04-26 湖南翰坤实业有限公司 Cluster control method and system for biological language analysis

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Kenny, Patrick, et al. Deep neural networks for extracting baum-welch statistics for speaker recognition. Proc. Odyssey. 2014.*
Pekhovsky, Timur, and Maxim Korenevsky. Investigation of Using VAE for i-Vector Speaker Verification. arXiv preprint arXiv:1705.09185v1. 2017.5.25.*
강우현 외. VAE를 이용한 화자인식을 위한 음성 특질 추출. 한국통신학회 학술대회논문집. 한국통신학회. 2017.1.*

Also Published As

Publication number Publication date
KR20190037025A (en) 2019-04-05

Similar Documents

Publication Publication Date Title
US20220148571A1 (en) Speech Recognition Method and Apparatus, and Computer-Readable Storage Medium
CN109841226B (en) Single-channel real-time noise reduction method based on convolution recurrent neural network
Hsu et al. Unsupervised learning of disentangled and interpretable representations from sequential data
Chang et al. Temporal modeling using dilated convolution and gating for voice-activity-detection
CN110310647B (en) Voice identity feature extractor, classifier training method and related equipment
WO2019227586A1 (en) Voice model training method, speaker recognition method, apparatus, device and medium
Lu et al. Ensemble modeling of denoising autoencoder for speech spectrum restoration.
Kwon et al. Phoneme recognition using ICA-based feature extraction and transformation
WO2019237517A1 (en) Speaker clustering method and apparatus, and computer device and storage medium
KR102026226B1 (en) Method for extracting signal unit features using variational inference model based deep learning and system thereof
CN108922544B (en) Universal vector training method, voice clustering method, device, equipment and medium
CN111899757B (en) Single-channel voice separation method and system for target speaker extraction
Pascual et al. Time-domain speech enhancement using generative adversarial networks
Guo et al. Deep neural network based i-vector mapping for speaker verification using short utterances
CN112949708A (en) Emotion recognition method and device, computer equipment and storage medium
Yu et al. Cam: Context-aware masking for robust speaker verification
Shivakumar et al. Simplified and supervised i-vector modeling for speaker age regression
Wang Supervised speech separation using deep neural networks
Ozerov et al. GMM-based classification from noisy features
Martínez et al. Bioinspired sparse spectro-temporal representation of speech for robust classification
Morrison et al. Forensic voice comparison–human-supervised-automatic approach
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
Medikonda et al. An information set-based robust text-independent speaker authentication
Khan et al. Speech recognition: increasing efficiency of support vector machines
KR102055886B1 (en) Speaker voice feature extraction method, apparatus and recording medium therefor

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant