KR101001684B1 - System and Method for Speaker Adaptation using Bilinear Model - Google Patents

System and Method for Speaker Adaptation using Bilinear Model Download PDF

Info

Publication number
KR101001684B1
KR101001684B1 KR1020090016903A KR20090016903A KR101001684B1 KR 101001684 B1 KR101001684 B1 KR 101001684B1 KR 1020090016903 A KR1020090016903 A KR 1020090016903A KR 20090016903 A KR20090016903 A KR 20090016903A KR 101001684 B1 KR101001684 B1 KR 101001684B1
Authority
KR
South Korea
Prior art keywords
speaker
model
matrix
adaptation
bilinear
Prior art date
Application number
KR1020090016903A
Other languages
Korean (ko)
Other versions
KR20100097982A (en
Inventor
김형순
송화전
Original Assignee
부산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 부산대학교 산학협력단 filed Critical 부산대학교 산학협력단
Priority to KR1020090016903A priority Critical patent/KR101001684B1/en
Publication of KR20100097982A publication Critical patent/KR20100097982A/en
Application granted granted Critical
Publication of KR101001684B1 publication Critical patent/KR101001684B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은 새로운 화자의 음성데이터를 이용하여 화자 적응을 수행하고, 추정 파라메터 수를 적응 데이터 수에 따라 조절할 수 있도록 하여 화자 적응 성능을 높인 쌍일차 모델(bilinear model)을 이용한 화자 적응 시스템 및 방법에 관한 것으로, 각각의 화자에 대해 총 C개의 Gaussian 분포로 이루어진 HMM(Hidden Markov Model), GMM(Gaussian mixture model)을 선택하여 구성한 후 평균 벡터를 이용하여 관찰 행렬을 구성하는 단계;구성된 행렬에 대해 SVD를 적용하여 이를 쌍일차 모델에 할당하는 단계;상기 쌍일차 모델 중 콘텐트 기저 벡터들을 사용하여 화자 적응을 수행하는 단계;를 포함한다.

Figure R1020090016903

쌍일차 모델, bilinear model, 화자 적응, HMM, GMM, 화자 적응 모델

The present invention provides a speaker adaptation system and method using a bilinear model which performs speaker adaptation using new speaker's speech data and adjusts the estimated parameter number according to the adaptation data number, thereby improving speaker adaptation performance. The method relates to a method comprising: selecting and configuring a Hidden Markov Model (HMM) and a Gaussian mixture model (GMM) including a total of Gaussian distributions for each speaker, and constructing an observation matrix using an average vector; And assigning it to a bilinear model; performing speaker adaptation using content basis vectors among the bilinear models.

Figure R1020090016903

Bilinear model, bilinear model, speaker adaptation, HMM, GMM, speaker adaptation model

Description

쌍일차 모델을 이용한 화자 적응 시스템 및 방법{System and Method for Speaker Adaptation using Bilinear Model}System and Method for Speaker Adaptation using Bilinear Model

본 발명은 음성인식 기술에 관한 것으로, 구체적으로 새로운 화자의 음성데이터를 이용하여 화자 적응을 수행하고, 추정 파라메터 수를 적응 데이터 수에 따라 조절할 수 있도록 하여 화자 적응 성능을 높인 쌍일차 모델을 이용한 화자 적응 시스템 및 방법에 관한 것이다.The present invention relates to speech recognition technology. Specifically, a speaker adaptation is performed using a new speaker's voice data, and the speaker using a bilinear model having improved speaker adaptation performance by adjusting the estimated parameter number according to the adaptation data number. It relates to an adaptive system and method.

최근 휴대용 단말기, 차량용 내비게이션 그리고 지능 로봇 등의 보급으로 인해 음성 인터페이스에 대한 많은 연구가 이루어지고 있다. 이런 응용분야에서는 주 사용자가 고정된 경우가 많으며, 고속 화자적응 기술을 이용하는 경우 적은 양의 적응 데이터만으로도 인식 성능 향상을 얻을 수 있다. Recently, due to the widespread use of portable terminals, vehicle navigation systems, and intelligent robots, many researches have been conducted on voice interfaces. In these applications, the main user is often fixed, and when using the fast speaker adaptation technique, the recognition performance can be improved with only a small amount of adaptive data.

도 1은 일반적인 음성 인식 시스템의 개략적인 구성도이다.1 is a schematic configuration diagram of a general speech recognition system.

음성인식 시스템은 일반적으로 도 1과 같은 구성을 가지고 있다.The speech recognition system generally has a configuration as shown in FIG. 1.

먼저, 음성신호단계에서 음성신호가 입력되면, 실음성 검출단계에서 실제 사람이 발성한 음성신호만을 검출한다. 실음성을 검출하고 특징추출단계에서 음성의 특징인 특징 벡터를 추출한다.First, when a voice signal is input in the voice signal step, only a voice signal spoken by a real person is detected in the real voice detection step. Real speech is detected and a feature vector, which is a feature of speech, is extracted in the feature extraction step.

추출 특징벡터는 기준음성 모델과의 비교를 통한 유사도 측정단계와 인식결정단계를 거치게 된다.The extracted feature vector is subjected to a similarity measurement step and a recognition decision step through comparison with a reference speech model.

음성인식기의 성능 향상을 위해 사용하는 대표적인 방법으로 화자 적응 방법이 있다.Speaker adaptation is a representative method used to improve the performance of speech recognizers.

가장 대표적인 화자 적응 방법으로 MAP 계열, MLLR 계열 및 Eigenvoice 계열을 언급할 수 있으며, 이 중 MLLR과 eigenvoice 계열이 적응 데이터가 적절하거나 아주 적은 경우에 좋은 성능 향상을 보인다.The most representative speaker adaptation methods can be mentioned MAP series, MLLR series and Eigenvoice series. Among them, MLLR and eigenvoice series show good performance improvement when the adaptation data is appropriate or very few.

MLLR의 경우는 각각의 기준모델 대해 선형변환, 특히 어파인(affine) 선형변환을 통해 적응 모델을 표현한다. 또한 선형변환행렬은 적응데이터로부터 선형 회귀(linear regression) 방법을 통해 구한다.In the case of MLLR, the adaptive model is represented through a linear transformation, particularly an affine linear transformation, for each reference model. The linear transformation matrix is also obtained from the adaptive data through linear regression.

여기서, 적응 데이터가 적절할 경우 선형변환 행렬의 신뢰성 있는 추정이 이루어져 인식기의 성능을 향상시킬 수 있지만 적응 데이터가 아주 적응 경우 선형변환 행렬이 제대로 추정되지 않아 오히려 인식기의 성능이 급속히 떨어진다.Here, if the adaptive data is appropriate, reliable estimation of the linear transformation matrix can be performed to improve the performance of the recognizer. However, if the adaptive data is very adaptive, the linear transformation matrix is not properly estimated.

이를 보완하기 위해 주성분 분석법(Principal Component Analysis;PCA) 등을 이용하여 음성 특징 벡터의 차원을 감소시키는 방법이 사용될 수도 있다.To compensate for this, a method of reducing the dimension of the speech feature vector using a principal component analysis (PCA) or the like may be used.

마지막으로 eigenvoice기반 방식은 훈련데이터의 SD(Speaker Dependent) 모델들의 평균으로부터의 변위량에 대한 기저 벡터(basis vector)를 구한 후 새로운 화자의 모델은 적응 데이터로부터 평균값과 기저 벡터들의 가중합으로 표현할 수 있다.Finally, the eigenvoice-based method obtains a basis vector of displacements from the mean of the SD (Speaker Dependent) models of the training data, and then the new speaker model can express the weighted sum of the mean and the basis vectors from the adaptive data. .

즉, 평균값은 컨텐트 팩터(content factor)를 나타내며, 변위량에 대한 기저 벡터는 각각의 화자간의 차이(style factor)를 나타내어 이 스타일의 차이에 대한 기저 벡터의 가중치만을 구하므로 그 개수가 적어 고속 화자 적응에 아주 유리하다.That is, the average value represents the content factor, and the base vector for the displacement amount represents the style factor between each speaker, so that only the weight of the base vector for the difference of styles is obtained, so that the number is small. It is very advantageous to

이 방법에서도 가중치를 선형 회귀(linear regression) 방법으로 구한다. 이 경우에는 적응 데이터 수가 증가하더라도 그 성능을 더 이상 향상되지 못하는 문제가 있다.In this method, the weights are also obtained by linear regression. In this case, even if the number of adaptive data increases, the performance is no longer improved.

본 발명은 이와 같은 종래 기술의 화자 적응 방식의 문제를 해결하기 위한 것으로, 새로운 화자의 음성데이터를 이용하여 화자 적응을 수행하고, 추정 파라메터 수를 적응 데이터 수에 따라 조절할 수 있도록 하여 화자 적응 성능을 높인 쌍일차 모델을 이용한 화자 적응 시스템 및 방법을 제공하는데 그 목적이 있다.The present invention is to solve the problem of the speaker adaptation method of the prior art, it is possible to perform the speaker adaptation using the speech data of the new speaker, and to adjust the estimated parameter number according to the adaptation data number to improve the speaker adaptation performance The purpose of the present invention is to provide a speaker adaptation system and method using the enhanced bilinear model.

본 발명은 훈련 단계에서 훈련에 참여한 화자에 대한 스타일 팩터 및 콘텐트 팩터를 구성하고, 적응데이터를 이용하여 화자에 관계없는 콘텐트 팩터를 기준으로 하여 새로운 화자에 대한 스타일 팩터를 추정하여 새로운 화자에 대한 모델을 추정하는 것에 의해 화자 적응 성능을 높인 쌍일차 모델을 이용한 화자 적응 시스템 및 방법을 제공하는데 그 목적이 있다.The present invention configures the style factor and content factor for the speaker who participated in the training in the training phase, and estimates the style factor for the new speaker based on the content factor irrelevant to the speaker by using the adaptation data. It is an object of the present invention to provide a speaker adaptation system and method using a bilinear model that improves speaker adaptation performance by estimating.

본 발명은 쌍일차 모델(Bilinear model)의 콘텐트 기저 벡터(content basis vector) 수를 조절함으로써 적응 데이터가 아주 적은 경우에도 높은 화자 적응 성능을 유지 할 수 있도록 한 쌍일차 모델을 이용한 화자 적응 시스템 및 방법을 제공하는데 그 목적이 있다.The present invention provides a speaker adaptation system and method using a paired linear model to maintain a high speaker adaptation performance even when the adaptation data is very small by adjusting the number of content basis vectors of the bilinear model. The purpose is to provide.

본 발명은 콘텐트 기저 벡터(content basis vector) 차원을 증가시키고, 추정 파라메터 수를 적응 데이터 수에 따라 조절할 수 있도록 한 쌍일차 모델을 이용한 화자 적응 시스템 및 방법을 제공하는데 그 목적이 있다.An object of the present invention is to provide a speaker adaptation system and method using a bilinear model to increase the content basis vector dimension and to adjust the estimated parameter number according to the adaptation data number.

이와 같은 목적을 달성하기 위한 본 발명에 따른 쌍일차 모델을 이용한 화자 적응 시스템은 각각의 화자에 대해

Figure 112010062381511-pat00112
차원의
Figure 112010062381511-pat00113
개의 가우시안으로 구성된 HMM(Hidden Markov Model; 은닉 마르코프 모델),GMM(Gaussian mixture model; 가우시안 믹스쳐 모델)을 선택적으로 사용하여
Figure 112010062381511-pat00114
개의 SD(Speaker Dependent;화자 종속) 모델들을 구성한 후 평균 벡터(mean vector)만을 고려하여 구성된 SD(Speaker Dependent) 모델을 사용하여 관찰 행렬을 구성하는 관찰 행렬 구성부;구성된 행렬에 대해 SVD(Singular Value Decomposition)를 적용하여 비대칭 쌍일차 모델 파라미터를 구하고, 화자의 스타일을 반영한 공간으로 선형 변환하여 쌍일차 모델을 구성하는 쌍일차 모델 구성부;구성된 쌍일차 모델을 이용해 새로운 화자의 적응 데이터가 들어오면 스타일 팩터만을 추정하여 화자 적응 모델을 구성하는 화자 적응부;구성된 화자 적응 모델을 이용하여 사용자의 테스트 음성 인식을 수행하는 음성 인식부;를 포함하는 것을 특징으로 한다.Speaker adaptation system using the bilinear model according to the present invention for achieving the above object is for each speaker
Figure 112010062381511-pat00112
Dimension
Figure 112010062381511-pat00113
HMM (Hidden Markov Model) and GMM (Gaussian mixture model) consisting of two Gaussians
Figure 112010062381511-pat00114
Observation matrix component that constructs observation matrix using SD (Speaker Dependent) model which is composed of speaker dependent (SD) models and considers only mean vector; Singular Value of constructed matrix Decomposition) to obtain the asymmetric bilinear model parameters, and to form a bilinear model by linear transformation into a space that reflects the speaker's style; the bilinear model component; A speaker adaptor configured to estimate only a factor to construct a speaker adaptation model; a speech recognizer configured to perform test speech recognition of a user using the configured speaker adaptation model.

다른 목적을 달성하기 위한 본 발명에 따른 쌍일차 모델을 이용한 화자 적응 방법은 쌍일차 모델을 이용한 화자 적응을 위하여 관찰 행렬을 구성하는 단계에서,

Figure 112010062381511-pat00115
차원의
Figure 112010062381511-pat00116
개의 가우시안으로 구성된 HMM(Hidden Markov Model),GMM(Gaussian mixture model)을 선택적으로 사용하여
Figure 112010062381511-pat00117
개의 SD(Speaker Dependent) 모델들을 구성하고, s번째 화자의 관찰 행렬은 가우시안 평균 벡터를 이용하여,
Figure 112010062381511-pat00118
으로 나타내고,
Figure 112010062381511-pat00119
이고,여기서,
Figure 112010062381511-pat00120
관찰 행렬의 크기는
Figure 112010062381511-pat00121
이고,
Figure 112010062381511-pat00122

으로 정규화되는 것을 특징으로 한다.Speaker adaptation method using a bilinear model according to the present invention for achieving another object in the step of configuring the observation matrix for the speaker adaptation using the bilinear model,
Figure 112010062381511-pat00115
Dimension
Figure 112010062381511-pat00116
HMM (Hidden Markov Model) and GMM (Gaussian mixture model)
Figure 112010062381511-pat00117
Speaker Dependent (SD) models, and the observation matrix of the s-th speaker is a Gaussian mean vector.
Figure 112010062381511-pat00118
Represented by
Figure 112010062381511-pat00119
Where,
Figure 112010062381511-pat00120
The size of the observation matrix
Figure 112010062381511-pat00121
ego,
Figure 112010062381511-pat00122

It is characterized in that normalized to.

이와 같은 본 발명에 따른 쌍일차 모델을 이용한 화자 적응 시스템 및 방법은 다음과 같은 효과를 갖는다.The speaker adaptation system and method using the bilinear model according to the present invention has the following effects.

첫째, 새로운 화자의 음성데이터를 이용하여 화자 적응을 수행하고, 추정 파라메터 수를 적응 데이터 수에 따라 조절할 수 있도록 하여 화자 적응 성능을 높인 다.First, speaker adaptation is performed using the new speaker's voice data, and the estimated parameter number can be adjusted according to the number of adaptive data, thereby improving speaker adaptation performance.

둘째, 적응데이터를 이용하여 화자에 관계없는 콘텐트 팩터를 기준으로 하여 새로운 화자에 대한 스타일 팩터를 추정하여 새로운 화자에 대한 모델을 추정하는 것에 의해 화자 적응 성능을 높인다.Second, the speaker adaptation performance is improved by estimating the style factor for the new speaker based on the content factor irrelevant to the speaker using the adaptation data.

셋째, 쌍일차 모델(Bilinear model)의 콘텐트 기저 벡터(content basis vector) 수를 조절함으로써 적응 데이터가 아주 적은 경우에도 높은 화자 적응 성능을 유지 할 수 있다. Third, by adjusting the number of content basis vectors of the bilinear model, high speaker adaptation performance can be maintained even when the adaptation data is very small.

이하, 본 발명에 따른 쌍일차 모델을 이용한 화자 적응 시스템 및 방법의 바람직한 실시예에 관하여 상세히 설명하면 다음과 같다.Hereinafter, a preferred embodiment of a speaker adaptation system and method using a bilinear model according to the present invention will be described in detail.

본 발명에 따른 쌍일차 모델을 이용한 화자 적응 시스템 및 방법의 특징 및 이점들은 이하에서의 각 실시예에 대한 상세한 설명을 통해 명백해질 것이다.Features and advantages of the speaker adaptation system and method using the bilinear model according to the present invention will become apparent from the following detailed description of each embodiment.

도 2는 본 발명에 따른 쌍일차 모델을 이용한 화자 적응 시스템의 구성도이다.2 is a block diagram of a speaker adaptation system using a bilinear model according to the present invention.

본 발명은 새로운 화자의 음성데이터를 이용하여 화자 적응을 수행하고, 추정 파라메터 수를 적응 데이터 수에 따라 조절할 수 있도록 하여 화자 적응 성능을 높일수 있도록 한 것이다.The present invention is to improve the speaker adaptation performance by performing the speaker adaptation using the new speaker's voice data, and by adjusting the estimated number of parameters according to the adaptation data number.

본 발명은 MLLR(maximum likelihood linear regression)과 EV(eigenvoice)과 같은 화자 적응 방식에서의 문제를 해결하고 화자 인식 성능을 높이기 위하여 쌍일 차 모델을 화자 적응에 이용하는 방법을 제안한다.The present invention proposes a method of using a bi-linear difference model for speaker adaptation to solve problems in speaker adaptation methods such as maximum likelihood linear regression (MLLR) and eigenvoice (EV) and to improve speaker recognition performance.

본 발명은 고속 화자적응에 유리한 EV(eigenvoice)의 장점과 적응데이터가 적절할 때 높은 성능 향상을 보이는 MLLR의 장점을 취하여 적응 데이터 수에 관계없이 높은 성능 향상을 이루기 위한 것이다.The present invention aims to achieve high performance regardless of the number of adaptive data by taking advantage of EV (eigenvoice), which is advantageous for high-speed speaker adaptation, and MLLR, which exhibits high performance improvement when adaptive data is appropriate.

이를 위한 본 발명은 쌍일차 모델(bilinear model) 방법을 사용하여 모델의 파라메터를 스타일 팩터(style factor)와 콘텐트 팩터(content factor)를 분리하는 방식을 적용한다.To this end, the present invention applies a method of separating a style factor and a content factor from a parameter of a model using a bilinear model method.

훈련단계에서 이상의 두 가지 팩터로 모델을 구성해 놓고 새로운 화자의 약간의 적응 데이터를 이용하여 그 화자의 스타일 팩터(style factor)정보를 추정하여 이미 구성된 스타일 팩터(style factor)에 관계없는 콘텐트 팩터(content factor)와 결합하면 이는 화자 적응 방법이라 할 수 있다.In the training phase, the model is composed of two or more factors, and a little adaptation data of the new speaker is used to estimate the style factor information of the speaker, and the content factor (regardless of the style factor already configured) Combined with a content factor, this is a speaker adaptation method.

즉, 새로운 화자가 음성 인식기를 사용하는 경우 새로운 화자의 스타일로 모델을 변형시킴으로써 인식성능을 향상시킬 수 있기 때문이다. 이 두 가지 팩터는 쌍일차(bilinear) 모델을 사용하여 효과적으로 표현하고 수학적으로 간단히 다룰 수가 있다.That is, when the new speaker uses the speech recognizer, the recognition performance can be improved by transforming the model into a new speaker style. Both of these factors can be represented efficiently and mathematically simplified using a bilinear model.

쌍일차 모델은 스타일 팩터(style factor), 콘택트 팩터(content factor) 및 이중 매핑 펑션(bilinear mapping function)으로 구성된다.The bilinear model consists of a style factor, a contact factor and a bilinear mapping function.

여기서 이중 매핑 펑션(bilinear mapping function)은 두 가지 팩터의 공간에서 관찰 벡터 공간으로 쌍일차적으로 매핑해 주는 기능을 수행한다.In this case, the bilinear mapping function performs a bi-linear mapping from the two factor spaces to the observation vector space.

이를 이용하여 각각의 화자로부터 얻을 수 있는 정보(style과 content)를 효과적으로 표현할 수 있으며 또한 새로운 화자의 약간의 적응데이터로부터 그 화자 의 스타일 팩터를 추정하여 새로운 화자의 모델을 구성할 수도 있다.By using this, it is possible to effectively express the information (style and content) obtained from each speaker, and to construct a new speaker model by estimating the speaker's style factor from some adaptation data of the new speaker.

쌍일차 모델은 크게 대칭 쌍일차 모델(symmetric bilinear model)과 비대칭 쌍일차 모델(asymmetric bilinear model)로 나눌 수 있는데, 본 발명에서는 비대칭 쌍일차 모델(asymmetric bilinear model)을 기반으로 한 화자적응 방법을 제안한다.The bilinear model can be largely divided into a symmetric bilinear model and an asymmetric bilinear model. The present invention proposes a speaker adaptation method based on an asymmetric bilinear model. do.

비대칭 쌍일차 모델 기반의 화자 적응 방법은 MLLR의 일반화로 해석될 수 있다.Speaker adaptation based on asymmetric bilinear model can be interpreted as generalization of MLLR.

본 발명에 따른 쌍일차 모델을 이용한 화자 적응 시스템은

Figure 112009012363828-pat00003
명의 화자로 구성된 훈련데이터로부터 각각의 화자에 대해
Figure 112009012363828-pat00004
차원의
Figure 112009012363828-pat00005
개의 가우시안으로 구성된 HMM 또는 GMM을 사용하여
Figure 112009012363828-pat00006
개의 SD모델들을 구성하는 화자별 모델 구성부(21)와, 가우시안 파라메터중 평균 벡터(mean vector)만을 고려하여 구성된 SD 모델을 사용하여 관찰 행렬을 구성하는 관찰 행렬 구성부(22)와, 비대칭 쌍일차 모델 파라미터를 구하고, 콘텐트 공간에 존재하는 벡터에 대해 이와는 독립적인 화자의 스타일을 반영한 공간으로 선형 변환하여 쌍일차 모델을 구성하는 쌍일차 모델 구성부(23)와, 구성된 쌍일차 모델을 이용해 새로운 화자의 적응 데이터가 들어오면 스타일 팩터만을 추정하여 화자 적응 모델을 구성하는 화자 적응부(24)와, 구성된 화자 적응 모델을 이용하여 사용자의 테스트 음성 인식을 수행하는 음성 인식부(25)를 포함한다.Speaker adaptation system using a bilinear model according to the present invention
Figure 112009012363828-pat00003
For each speaker from the training data consisting of two speakers
Figure 112009012363828-pat00004
Dimension
Figure 112009012363828-pat00005
Using HMM or GMM of four Gaussians
Figure 112009012363828-pat00006
A speaker-specific model constructor 21 constituting the two SD models, an observation matrix constructer 22 constituting an observation matrix using an SD model configured by considering only a mean vector of Gaussian parameters, and an asymmetric pair The bilinear model constructing unit 23 constructs the bilinear model by obtaining a linear model parameter and linearly transforming the vector existing in the content space into a space that reflects the speaker's style independent from each other. A speaker adaptation unit 24 constituting a speaker adaptation model by estimating only a style factor when the speaker's adaptation data is received, and a speech recognition unit 25 performing a test speech recognition of a user using the configured speaker adaptation model. .

그리고 쌍일차 모델을 이용한 화자 적응 방법을 구체적으로 설명하면 다음과 같다.The speaker adaptation method using the bilinear model is described in detail as follows.

본 발명은 비대칭 쌍일차 모델(asymmetric bilinear model) 구성 단계와, 구성된 모델을 이용한 화자 적응 단계로 구성된다.The present invention consists of asymmetric bilinear model construction and speaker adaptation using the constructed model.

쌍일차 모델을 적용하기 위하여 훈련 DB로부터 관찰 행렬(observation matrix)를 구성해야 한다. In order to apply the bilinear model, an observation matrix must be constructed from the training DB.

먼저, 화자별 모델 구성부(21)에서

Figure 112009012363828-pat00007
명의 화자로 구성된 훈련데이터로부터 각각의 화자에 대해
Figure 112009012363828-pat00008
차원의
Figure 112009012363828-pat00009
개의 가우시안으로 구성된 HMM 또는 GMM을 사용하여
Figure 112009012363828-pat00010
개의 SD모델들을 구성하고, s번째 화자의 관찰 행렬은
Figure 112009012363828-pat00011
으로 나타낸다.First, in the speaker model configuration unit 21
Figure 112009012363828-pat00007
For each speaker from the training data consisting of two speakers
Figure 112009012363828-pat00008
Dimension
Figure 112009012363828-pat00009
Using HMM or GMM of four Gaussians
Figure 112009012363828-pat00010
Two SD models, the observation matrix of the s-th speaker
Figure 112009012363828-pat00011
Represented by

여기서 가우시안 파라메터중 평균 벡터(mean vector)만을 고려한다.Only the mean vector of Gaussian parameters is considered here.

이와 같이 화자별 모델이 구성되면 구성된 SD 모델을 사용하여 관찰 행렬 구성부(22)에서 관찰 행렬을 구성한다.When the speaker-specific model is constructed as described above, the observation matrix constructing unit 22 constructs the observation matrix using the constructed SD model.

Figure 112009012363828-pat00012
Figure 112009012363828-pat00012

여기서,

Figure 112009012363828-pat00013
관찰 행렬의 크기는
Figure 112009012363828-pat00014
이며, 또한, 각각의 모델간의 차이에 대해 쌍일차 모델을 적용하는 것 외에 예를 들어 SI(Speaker Independent) 모델과 SD 모델들의 차이에 대해서도 스타일과 콘텐트 팩터를 구성할 수도 있다.here,
Figure 112009012363828-pat00013
The size of the observation matrix
Figure 112009012363828-pat00014
Also, in addition to applying a bilinear model to the difference between each model, for example, a style and content factor may be configured for a difference between a speaker independent model and an SD model.

수학식 1에서 각각의 콘텐트 팩터별로 평균값을 구한 후

Figure 112009012363828-pat00015
에 이를 빼준 후 평균값과 각각의 SD 모델 값들 간의 차이(즉, SD모델이 평균으로부터 얼마큼 떨어져 있느냐)에 대한 값에 대해 각각의 factor들에 대해 기저 팩터를 구성할 수 있다.After calculating the average value for each content factor in Equation 1
Figure 112009012363828-pat00015
After subtracting this, we can construct the base factor for each factor for the value of the difference between the mean value and the respective SD model values (ie, how far the SD model is from the mean).

본 발명은 다음과 같은 sample mean을 사용하여 평균 벡터를 구한다.The present invention obtains an average vector using the following sample mean.

Figure 112009012363828-pat00016
Figure 112009012363828-pat00016

따라서, 관찰 행렬

Figure 112009012363828-pat00017
는 다음과 같이 평균에 의해 정규화(normalization) 된다.Thus, observation matrix
Figure 112009012363828-pat00017
Is normalized by the mean as

Figure 112009012363828-pat00018
Figure 112009012363828-pat00018

그리고 쌍일차 모델 구성부(23)에서 다음과 같은 처리 과정을 수행한다.The bilinear model component 23 performs the following processing.

먼저 비대칭 쌍일차 모델 파라미터를 구하기 위해 SVD(Singular Value Decomposition)를 이용한다.First, we use Singular Value Decomposition (SVD) to obtain asymmetric bilinear model parameters.

수학식 1에서 SVD를 적용하면

Figure 112010062381511-pat00019
이다.
여기서, U는 SD x SD 의
Figure 112010062381511-pat00123
행렬의 고유벡터 행렬, V는 C x C 의
Figure 112010062381511-pat00124
행렬의 고유벡터 행렬이고, S는 SD x C의 특이값이 SD와 C의 크기중 작은 것을 선택한 min(SD,C) x min(SD,C)의 부 정방행렬의 주대각에 위치하는 행렬이다.
다음과 같이 J개의 고유 벡터(eigenvector) 수를 사용하여 스타일 스페시픽 매트릭스(style-specific matrix)
Figure 112010062381511-pat00020
와 콘텐트 베이시스 매트릭스(content basis matrix)
Figure 112010062381511-pat00021
를 정의한다.Applying SVD in Equation 1
Figure 112010062381511-pat00019
to be.
Where U is SD x SD
Figure 112010062381511-pat00123
Matrix of eigenvectors, where V is C x C
Figure 112010062381511-pat00124
S is the eigenvector matrix of the matrix, and S is the matrix located at the main diagonal of min (SD, C) x min (SD, C) where the singular value of SD x C is the smaller of SD and C. .
Style-specific matrix using J number of eigenvectors as follows:
Figure 112010062381511-pat00020
And content basis matrix
Figure 112010062381511-pat00021
Define.

Figure 112009012363828-pat00022
Figure 112009012363828-pat00022

Figure 112009012363828-pat00023
Figure 112009012363828-pat00023

Figure 112010062381511-pat00024
Figure 112010062381511-pat00025
크기의
Figure 112010062381511-pat00026
에서 s번째 화자의 스타일 스페시픽 매트릭스(style-specific matrix)이고,
Figure 112010062381511-pat00027
는 (J x C) 크기의
Figure 112010062381511-pat00028
에서 c번째 콘텐트 베이시스 벡터(content basis vector)이다.
Figure 112010062381511-pat00024
Is
Figure 112010062381511-pat00025
Size
Figure 112010062381511-pat00026
Is the style-specific matrix of the s-th speaker in
Figure 112010062381511-pat00027
Is the size of ( J x C )
Figure 112010062381511-pat00028
Is the c th content basis vector.

이를 사용하여 s번째 화자의 c번째 콘텐트 평균 벡터(content mean vector)를 구하면 다음과 같다.Using this, the c-th content mean vector of the s-th speaker is obtained as follows.

Figure 112010062381511-pat00125
Figure 112010062381511-pat00125

즉, 이는 스타일과 무관하며 모든 화자에 공통적인 특징인 콘텐트 공간에 존재하는 벡터에 대해 이와는 독립적인 화자의 스타일을 반영한 공간으로 선형 변환됨을 알 수 있다.In other words, it can be seen that the vector existing in the content space, which is independent of the style and is common to all speakers, is linearly transformed into the space reflecting the speaker's style.

Figure 112009012363828-pat00030
는 서로 직교하는 공간이다.
Figure 112009012363828-pat00030
Are spaces orthogonal to each other.

이는 이전의 MLLR에서 선형변환행렬을 구하는 것과 가장 큰 차이이다.This is the biggest difference from finding the linear transformation matrix in the previous MLLR.

수학식 3을 이용하는 경우에는

Figure 112010062381511-pat00126
으로 나타낸다.When using equation (3)
Figure 112010062381511-pat00126
Represented by

그리고 화자 적응부(24)에서 다음과 같은 과정을 수행한다.And the speaker adaptation unit 24 performs the following process.

구성된 쌍일차 모델을 이용해 새로운 화자의 적응 데이터가 들어오면, 새로운 화자에 대해서도 콘탠트 팩터는 변하지 않으므로 단지 스타일 팩터만을 추정하면 된다.When the new speaker's adaptation data comes in using the constructed bilinear model, the content factor does not change for the new speaker, so only the style factor needs to be estimated.

본 발명에서는 새로운 모델을 비대칭 쌍일차 모델을 사용하여 화자적응에 이용하였으며 화자 적응 모델을 수학식 6을 새로운 화자에 대해 다음과 나타낸다.In the present invention, a new model is used for speaker adaptation using an asymmetric bilinear model, and the speaker adaptation model is shown in Equation 6 for the new speaker as follows.

Figure 112009012363828-pat00032
Figure 112009012363828-pat00032

Figure 112010062381511-pat00033
Figure 112010062381511-pat00034
인 새로운 화자
Figure 112010062381511-pat00035
의 스타일 스페시픽 매트릭스(style-specific matrix)를 나타내며,
Figure 112010062381511-pat00036
는 수학식 5에 정의한 것처럼 c번째 콘텐트 베이시스 벡터(content basis vector)이며,
Figure 112010062381511-pat00037
는 새로운 화자
Figure 112010062381511-pat00038
c번째 콘텐트 벡터(content vector)를 뜻한다.
Figure 112010062381511-pat00033
Is
Figure 112010062381511-pat00034
New speaker
Figure 112010062381511-pat00035
Represents the style-specific matrix of
Figure 112010062381511-pat00036
Is the c th content basis vector as defined in Equation 5,
Figure 112010062381511-pat00037
The new speaker
Figure 112010062381511-pat00038
The c th content vector of the.

새로운 화자의 스타일 스페시픽 매트릭스(style-specific matrix)

Figure 112010062381511-pat00039
는 적응 데이터인 관찰 벡터열 (observation vector sequence)
Figure 112010062381511-pat00040
를 사용하여 추정하면 되고 본 발명에서는 MLE(maximum likelihood estimator)를 사용한다.New speaker's style-specific matrix
Figure 112010062381511-pat00039
Is an adaptation data, an observation vector sequence
Figure 112010062381511-pat00040
It is estimated by using and in the present invention, MLE (maximum likelihood estimator) is used.

이를 위하여 관찰 벡터에 대하여 각각의 콘텐트들은 가우시안(Gaussian) 분 포를 따른다고 가정한다. 그리고

Figure 112009012363828-pat00041
는 현재 모델 파라메터 세트이고,
Figure 112009012363828-pat00042
는 재추정(re-estimated) 모델 파라메터 세트라고 가정한다.For this purpose, it is assumed that each content follows a Gaussian distribution for the observation vector. And
Figure 112009012363828-pat00041
Is the current model parameter set,
Figure 112009012363828-pat00042
Is assumed to be a set of re-estimated model parameters.

새로운 화자의 적응데이터인

Figure 112010062381511-pat00043
가 주어지면 다음과 같이 전체 유사도(total likelihood)
Figure 112010062381511-pat00044
가 최대가 되는 것은 다음과 같은 보조 함수(auxiliary function)
Figure 112010062381511-pat00045
을 반복적(iterative)으로 수행하면 된다.The new speaker's adaptation data
Figure 112010062381511-pat00043
Is given, the total likelihood is
Figure 112010062381511-pat00044
Is the maximum auxiliary function (auxiliary function)
Figure 112010062381511-pat00045
This can be done iteratively.

Figure 112009012363828-pat00046
Figure 112009012363828-pat00046

여기서,

Figure 112010062381511-pat00047
는 새로운 화자
Figure 112010062381511-pat00048
t번째 D차원 적응데이터이고,
새로운 화자
Figure 112010062381511-pat00050
의 관찰 벡터열
Figure 112010062381511-pat00051
과 모델
Figure 112010062381511-pat00052
가 주어졌을 때 t 시간에 content c 에 있을 사후확률은
Figure 112010062381511-pat00127
이다.here,
Figure 112010062381511-pat00047
The new speaker
Figure 112010062381511-pat00048
T - D adaptive data of
A new speaker
Figure 112010062381511-pat00050
Observation vector column
Figure 112010062381511-pat00051
And model
Figure 112010062381511-pat00052
Given, the post-probability at content c at time t is
Figure 112010062381511-pat00127
to be.

여기서, 재추정 모델의 공분산 행렬(covariance matrix)

Figure 112009012363828-pat00053
는 SI 모델과 동일하다고 가정하며 평균 벡터(mean vector)에 대해서만 선형변환을 수행한다.Where the covariance matrix of the reestimation model
Figure 112009012363828-pat00053
Assumes the same as the SI model and performs linear transformation only on the mean vector.

수학식 7을 수학식 8에 대입하고 적응데이터

Figure 112009012363828-pat00054
에 대하여
Figure 112009012363828-pat00055
가 최대가 되는
Figure 112009012363828-pat00056
는 다음과 같이 구해진다.Substituting Equation 7 into Equation 8 and adapting data
Figure 112009012363828-pat00054
about
Figure 112009012363828-pat00055
Is the maximum
Figure 112009012363828-pat00056
Is obtained as follows.

Figure 112010062381511-pat00128
Figure 112010062381511-pat00128

이를 정리하면,In summary,

Figure 112010062381511-pat00129
Figure 112010062381511-pat00129

만약,

Figure 112009012363828-pat00059
가 대각 행렬 요소로만 이루어져 있다면 수학식 10은
Figure 112009012363828-pat00060
의 row-by-row basis로 Gaussian elimination이나 LU decomposition 방법 등을 이용하여
Figure 112009012363828-pat00061
를 추정할 수 있으며, 이것은 MLLR 화자적응에서 변환행렬을 추정하는 것과 동일한 과정을 제공한다.if,
Figure 112009012363828-pat00059
If is composed of only diagonal matrix elements, Equation 10
Figure 112009012363828-pat00060
Gaussian elimination or LU decomposition on a row-by-row basis
Figure 112009012363828-pat00061
Can be estimated, which provides the same process as estimating the transform matrix in MLLR speaker adaptation.

쌍일차 모델 중 본 발명에 적용하는 비대칭 모델(asymmetric model)을 사용하여 화자 적응에 적용한 경우는 MLLR 방법의 일반화된 형태이다. 즉, MLLR의 형태는 비대칭 쌍일차 모델의 형태에서 J 차원의 콘텐트 기저 벡턱 대신 관찰벡터 차원과 동일한 D차원의 SI모델을 사용하는 경우이다.The bilinear model, which is applied to speaker adaptation using an asymmetric model applied to the present invention, is a generalized form of the MLLR method. That is, the MLLR is a form of an asymmetric bilinear model in which the SI model of the same D dimension as the observation vector dimension is used instead of the J -based content basis vector.

즉, D차원으로 고정되어 있다. 이를 줄이기 위해서는 주성분 분석법등을 사용하여 관찰 벡터의 차원을 줄여야만 한다.That is, it is fixed in the D dimension. To reduce this, the dimension of the observation vector should be reduced by using principal component analysis.

그러나 쌍일차 모델의 경우 콘텐트 기저 벡터는 MLLR과는 달리 EV(eigenvoice)와 같이 훈련에 참여한 화자들 간의 variation(style factor)을 basis vector로 구성하며, 가장 큰 차이인 관찰 벡터 차원을 줄일 필요가 없이 basis vector의 개수를 조절하면 된다.However, in the case of bilinear models, the content basis vector, unlike MLLR, consists of the basis vector of the variation (style factor) among the speakers who participated in the training, such as EV (eigenvoice), and does not need to reduce the largest difference, the observed vector dimension. You can adjust the number of basis vectors.

즉, 1≤ J ≤ C의 범위로 값을 변화시킬 수 있다. 특히, J = 1인 경우는 추정해야 할 파라메터 수가 D개가 되므로 이 경우는 적응 데이터가 아주 적은 경우라 도

Figure 112009012363828-pat00062
를 신뢰있게 추정할 수 있다.That is, the value can be changed in the range of 1 ≦ J ≦ C. In particular, when J = 1, the number of parameters to be estimated is D. In this case, even if the adaptation data is very small.
Figure 112009012363828-pat00062
Can be estimated reliably.

따라서, 본 발명에 따른 화자 적응 방식은 MLLR과 같이 적응데이터가 적절할 경우뿐만 아니라 EV(eigenvoice)와 같이 적응 데이터가 아주 적은 경우에서도 잘 동작한다.Therefore, the speaker adaptation method according to the present invention works well when the adaptation data such as MLLR is appropriate as well as when there is very little adaptation data such as EV (eigenvoice).

그리고 음성 인식부(25)에서 구성된 화자 적응 모델을 이용하여 사용자의 테스트 음성에 대해 음성 인식을 수행한다.Then, speech recognition is performed on the user's test voice using the speaker adaptation model configured in the voice recognition unit 25.

이와 같은 본 발명에 따른 쌍일차 모델을 이용한 화자 적응 시스템 및 방법은 새로운 화자의 음성데이터를 이용하여 화자 적응을 수행하고, 추정 파라메터 수를 적응 데이터 수에 따라 조절할 수 있도록 하여 화자 적응 성능을 높인다.The speaker adaptation system and method using the bilinear model according to the present invention improves speaker adaptation performance by performing speaker adaptation using new speaker's speech data and adjusting the estimated parameter number according to the adaptation data number.

이상 설명한 내용을 통해 당업자라면 본 발명의 기술 사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정이 가능함을 알 수 있을 것이다.It will be apparent to those skilled in the art that various modifications and variations can be made in the present invention without departing from the spirit or scope of the invention.

따라서, 본 발명의 기술적 범위는 실시예에 기재된 내용으로 한정되는 것이 아니라 특허 청구의 범위에 의하여 정해져야 한다.Therefore, the technical scope of the present invention should not be limited to the contents described in the embodiments, but should be defined by the claims.

도 1은 일반적인 음성 인식 시스템의 개략적인 구성도1 is a schematic configuration diagram of a general speech recognition system

도 2는 본 발명에 따른 쌍일차 모델을 이용한 화자 적응 시스템의 구성도2 is a block diagram of a speaker adaptation system using a bilinear model according to the present invention

도면의 주요 부분에 대한 부호의 설명Explanation of symbols for the main parts of the drawings

21. 화자별 모델 구성부 22. 관찰 행렬 구성부21. Speaker-specific model construct 22. Observation matrix construct

23. 쌍일차 모델 구성부 24. 화자 적응부23. Bilinear model component 24. Speaker adaptor

25. 음성 인식부25. Speech Recognition

Claims (5)

각각의 화자에 대해
Figure 112010062381511-pat00063
차원의
Figure 112010062381511-pat00064
개의 가우시안으로 구성된 HMM(Hidden Markov Model; 은닉 마르코프 모델),GMM(Gaussian mixture model; 가우시안 믹스쳐 모델)을 선택적으로 사용하여
Figure 112010062381511-pat00065
개의 SD(Speaker Dependent;화자 종속) 모델들을 구성한 후 평균 벡터(mean vector)만을 고려하여 구성된 SD(Speaker Dependent) 모델을 사용하여 관찰 행렬을 구성하는 관찰 행렬 구성부;
For each speaker
Figure 112010062381511-pat00063
Dimension
Figure 112010062381511-pat00064
HMM (Hidden Markov Model) and GMM (Gaussian mixture model) consisting of two Gaussians
Figure 112010062381511-pat00065
An observation matrix constructing unit for constructing SD (Speaker Dependent) models and constituting an observation matrix using a SD (Speaker Dependent) model configured by considering only a mean vector;
구성된 행렬에 대해 SVD(Singular Value Decomposition)를 적용하여 비대칭 쌍일차 모델 파라미터를 구하고, 화자의 스타일을 반영한 공간으로 선형 변환하여 쌍일차 모델을 구성하는 쌍일차 모델 구성부;A bilinear model construction unit configured to obtain asymmetric bilinear model parameters by applying Singular Value Decomposition (SVD) to the constructed matrix, and to construct a bilinear model by linearly transforming to a space reflecting a speaker style; 구성된 쌍일차 모델을 이용해 새로운 화자의 적응 데이터가 들어오면 스타일 팩터만을 추정하여 화자 적응 모델을 구성하는 화자 적응부;A speaker adaptor configured to construct a speaker adaptation model by estimating only a style factor when a new speaker's adaptation data is input using the constructed bilinear model; 구성된 화자 적응 모델을 이용하여 사용자의 테스트 음성 인식을 수행하는 음성 인식부;를 포함하는 것을 특징으로 하는 쌍일차 모델을 이용한 화자 적응 시스템.And a speech recognition unit configured to perform test speech recognition of a user using the configured speaker adaptation model.
쌍일차 모델을 이용한 화자 적응을 위하여 관찰 행렬을 구성하는 단계에서,In the step of constructing an observation matrix for speaker adaptation using a bilinear model,
Figure 112010062381511-pat00066
차원의
Figure 112010062381511-pat00067
개의 가우시안으로 구성된 HMM(Hidden Markov Model),GMM(Gaussian mixture model)을 선택적으로 사용하여
Figure 112010062381511-pat00068
개의 SD(Speaker Dependent) 모델들을 구성하고, s번째 화자의 관찰 행렬은 가우시안 평균 벡터를 이용하여,
Figure 112010062381511-pat00066
Dimension
Figure 112010062381511-pat00067
HMM (Hidden Markov Model) and GMM (Gaussian mixture model)
Figure 112010062381511-pat00068
Speaker Dependent (SD) models, and the observation matrix of the s-th speaker is a Gaussian mean vector.
Figure 112010062381511-pat00069
으로 나타내고,
Figure 112010062381511-pat00069
Represented by
Figure 112010062381511-pat00070
이고,
Figure 112010062381511-pat00070
ego,
여기서,
Figure 112010062381511-pat00071
관찰 행렬의 크기는
Figure 112010062381511-pat00072
이고,
here,
Figure 112010062381511-pat00071
The size of the observation matrix
Figure 112010062381511-pat00072
ego,
Figure 112010062381511-pat00073
Figure 112010062381511-pat00073
으로 정규화되는 것을 특징으로 하는 쌍일차 모델을 이용한 화자 적응 방법.Speaker adaptation method using a bilinear model, characterized in that normalized to.
제 2 항에 있어서, 관찰 행렬에 SVD(Singular Value Decomposition; 특이값 분해)를 적용하면,
Figure 112010062381511-pat00074
로 분리되고,
The method of claim 2, wherein applying Singular Value Decomposition (SVD) to an observation matrix,
Figure 112010062381511-pat00074
Separated by,
여기서, U는 SD x SD 의
Figure 112010062381511-pat00130
행렬의 고유벡터 행렬, V는 C x C 의
Figure 112010062381511-pat00131
행렬의 고유벡터 행렬이고, S는 SD x C의 특이값이 SD와 C의 크기중 작은 것을 선택한 min(SD,C) x min(SD,C)의 부 정방행렬의 주대각에 위치하는 행렬이며, 전체 고유벡터 수 중에 주요한 J(≤C) 개의 고유벡터(eigenvector)수를 사용하여 스타일 스페시픽 매트릭스(style-specific matrix)
Figure 112010062381511-pat00075
와 콘텐트 베이시스 매트릭스(content basis matrix)
Figure 112010062381511-pat00076
를 정의하면,
Where U is SD x SD
Figure 112010062381511-pat00130
Matrix of eigenvectors, where V is C x C
Figure 112010062381511-pat00131
S is the eigenvector matrix of the matrix, and S is the matrix located at the main diagonal of min (SD, C) x min (SD, C) where the singular value of SD x C is the smaller of SD and C. A style-specific matrix using the number of dominant J (≤C) eigenvectors out of the total eigenvectors
Figure 112010062381511-pat00075
And content basis matrix
Figure 112010062381511-pat00076
If you define
Figure 112010062381511-pat00077
Figure 112010062381511-pat00077
Figure 112010062381511-pat00078
Figure 112010062381511-pat00078
여기서,
Figure 112010062381511-pat00079
Figure 112010062381511-pat00080
크기의
Figure 112010062381511-pat00081
에서 s번째 화자의 스타일 스페시픽 매트릭스(style-specific matrix)이고,
Figure 112010062381511-pat00082
는 (J x C) 크기의
Figure 112010062381511-pat00083
에서 c번째 콘텐트 베이시스 벡터(content basis vector)이고,
here,
Figure 112010062381511-pat00079
Is
Figure 112010062381511-pat00080
Size
Figure 112010062381511-pat00081
Is the style-specific matrix of the s-th speaker in
Figure 112010062381511-pat00082
Is the size of ( J x C )
Figure 112010062381511-pat00083
Is the c th content basis vector,
s번째 화자의 c번째 콘텐트 평균 벡터(content mean vector)
Figure 112010062381511-pat00132
를 구하면, J의 값에 따라
Figure 112010062381511-pat00133
이고, J=C일 때 등호가 성립하며,
Figure 112010062381511-pat00134
에 대해서도 위와 동일한 SVD 적용 및 스타일 스페시픽 매트릭스(style-specific matrix)
Figure 112010062381511-pat00135
와 콘텐트 베이시스 매트릭스(content basis matrix)
Figure 112010062381511-pat00136
를 동일하게 적용할 수 있으며, 여기서, s번째 화자의 c번째 콘텐트 평균 벡터(content mean vector)
Figure 112010062381511-pat00137
Figure 112010062381511-pat00138
으로 정리되는 것을 특징으로 하는 쌍일차 모델을 이용한 화자 적응 방법.
c-th content mean vector of s-th speaker
Figure 112010062381511-pat00132
If you find
Figure 112010062381511-pat00133
, The equal sign holds when J = C,
Figure 112010062381511-pat00134
Same SVD application and style-specific matrix as above
Figure 112010062381511-pat00135
And content basis matrix
Figure 112010062381511-pat00136
Is equally applicable, where c is the content mean vector of the s-th speaker.
Figure 112010062381511-pat00137
Is
Figure 112010062381511-pat00138
Speaker adaptation method using a bilinear model, characterized in that to be summarized.
제 2 항에 있어서, 새로운 화자의 적응 데이터가 들어오면 비대칭 쌍일차 모델을 사용하여 화자 적응 모델을,The method of claim 2, wherein when a new speaker's adaptation data is received, the speaker adaptation model is generated using an asymmetric bilinear model.
Figure 112010062381511-pat00087
으로 정의하고,
Figure 112010062381511-pat00087
To be defined as,
Figure 112010062381511-pat00088
Figure 112010062381511-pat00089
인 새로운 화자
Figure 112010062381511-pat00090
의 스타일 스페시픽 매트릭스(style-specific matrix)를 나타내며,
Figure 112010062381511-pat00091
c번째 콘텐트 베이시스 벡터(content basis vector)이며,
Figure 112010062381511-pat00092
는 새로운 화자
Figure 112010062381511-pat00093
c번째 콘텐트 벡터(content vector)인 것을 특징으로 하는 쌍일차 모델을 이용한 화자 적응 방법.
Figure 112010062381511-pat00088
Is
Figure 112010062381511-pat00089
New speaker
Figure 112010062381511-pat00090
Represents the style-specific matrix of
Figure 112010062381511-pat00091
Is the c th content basis vector,
Figure 112010062381511-pat00092
The new speaker
Figure 112010062381511-pat00093
Speaker adaptation method using a bilinear model, characterized in that the c- th content vector (content vector).
제 4 항에 있어서, 새로운 화자의 적응데이터인
Figure 112010062381511-pat00094
가 주어지면 전체 유사도(total likelihood)
Figure 112010062381511-pat00095
가 최대가 되는 것은 다음과 같은 보조 함수(auxiliary function)
Figure 112010062381511-pat00096
을 반복적(iterative)으로 수행하면 되고,
The method according to claim 4, which is adaptation data of a new speaker.
Figure 112010062381511-pat00094
Is given, the total likelihood
Figure 112010062381511-pat00095
Is the maximum auxiliary function (auxiliary function)
Figure 112010062381511-pat00096
Is iterative,
Figure 112010062381511-pat00097
Figure 112010062381511-pat00097
여기서,
Figure 112010062381511-pat00139
Figure 112010062381511-pat00140
는 각각 현재 및 재추정 후 모델이며,
Figure 112010062381511-pat00098
는 새로운 화자
Figure 112010062381511-pat00099
t번째 D차원 적응데이터이고,
here,
Figure 112010062381511-pat00139
Wow
Figure 112010062381511-pat00140
Are the current and reestimated models, respectively.
Figure 112010062381511-pat00098
The new speaker
Figure 112010062381511-pat00099
T - D adaptive data of
그리고 새로운 화자
Figure 112010062381511-pat00101
의 관찰 벡터열
Figure 112010062381511-pat00102
과 모델
Figure 112010062381511-pat00103
가 주어졌을 때 t 시간에 콘텐트(content) c 에 있을 사후확률은
Figure 112010062381511-pat00141
이고,
And a new speaker
Figure 112010062381511-pat00101
Observation vector column
Figure 112010062381511-pat00102
And model
Figure 112010062381511-pat00103
Given then, the posterior probability of being in content c at time t is
Figure 112010062381511-pat00141
ego,
재추정 모델의 공분산 행렬
Figure 112010062381511-pat00104
는 SI(Speaker Independent;화자 독립) 모델과 동일하다고 가정하며 평균 벡터(mean vector)에 대해서만 선형변환을 수행하여 적응데이터
Figure 112010062381511-pat00105
에 대하여
Figure 112010062381511-pat00106
가 최대가 되는
Figure 112010062381511-pat00107
는,
Covariance Matrix of Reestimation Model
Figure 112010062381511-pat00104
Is assumed to be the same as the SI (Speaker Independent) model, and the adaptive data is performed by performing linear transformation only on the mean vector.
Figure 112010062381511-pat00105
about
Figure 112010062381511-pat00106
Is the maximum
Figure 112010062381511-pat00107
Quot;
Figure 112010062381511-pat00142
Figure 112010062381511-pat00142
이를 정리하면,In summary,
Figure 112010062381511-pat00143
인 것을 특징으로 하는 쌍일차 모델을 이용한 화자 적응 방법.
Figure 112010062381511-pat00143
Speaker adaptation method using a bi-linear model, characterized in that.
KR1020090016903A 2009-02-27 2009-02-27 System and Method for Speaker Adaptation using Bilinear Model KR101001684B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090016903A KR101001684B1 (en) 2009-02-27 2009-02-27 System and Method for Speaker Adaptation using Bilinear Model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090016903A KR101001684B1 (en) 2009-02-27 2009-02-27 System and Method for Speaker Adaptation using Bilinear Model

Publications (2)

Publication Number Publication Date
KR20100097982A KR20100097982A (en) 2010-09-06
KR101001684B1 true KR101001684B1 (en) 2010-12-15

Family

ID=43005014

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090016903A KR101001684B1 (en) 2009-02-27 2009-02-27 System and Method for Speaker Adaptation using Bilinear Model

Country Status (1)

Country Link
KR (1) KR101001684B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185186A (en) 1997-09-08 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk Nonspecific speaker acoustic model forming apparatus and speech recognition apparatus

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185186A (en) 1997-09-08 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk Nonspecific speaker acoustic model forming apparatus and speech recognition apparatus

Also Published As

Publication number Publication date
KR20100097982A (en) 2010-09-06

Similar Documents

Publication Publication Date Title
CA2652302C (en) Intersession variability compensation for automatic extraction of information from voice
EP2189976B1 (en) Method for adapting a codebook for speech recognition
Kuhn et al. Eigenvoices for speaker adaptation
CN109360572B (en) Call separation method and device, computer equipment and storage medium
EP1507255A2 (en) Bubble splitting for compact acoustic modeling
WO2014029099A1 (en) I-vector based clustering training data in speech recognition
US20140222423A1 (en) Method and Apparatus for Efficient I-Vector Extraction
WO2005055200A1 (en) Model adaptation system and method for speaker recognition
US20030046068A1 (en) Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification
Mak et al. Kernel eigenvoice speaker adaptation
Lee et al. The estimating optimal number of Gaussian mixtures based on incremental k-means for speaker identification
Shinohara et al. Covariance clustering on Riemannian manifolds for acoustic model compression
Nakatani et al. Logmax observation model with MFCC-based spectral prior for reduction of highly nonstationary ambient noise
KR101001684B1 (en) System and Method for Speaker Adaptation using Bilinear Model
Von Agris et al. Rapid signer adaptation for continuous sign language recognition using a combined approach of eigenvoices, MLLR, and MAP
Hasan et al. Integrated Feature Normalization and Enhancement for robust Speaker Recognition using Acoustic Factor Analysis.
Mak et al. Embedded kernel eigenvoice speaker adaptation and its implication to reference speaker weighting
KR20140077774A (en) Apparatus and method for adapting language model based on document clustering
Miao et al. Learning discriminative basis coefficients for eigenspace MLLR unsupervised adaptation
Gunawardana et al. Discounted likelihood linear regression for rapid speaker adaptation
Huang et al. A new eigenvoice approach to speaker adaptation
KR100960918B1 (en) Fast Speaker Adaptation System and Method Using Environment Clustering
Kim et al. Speaker verification and identification using principal component analysis based on global eigenvector matrix
KR101059925B1 (en) Fast Speaker Adaptation Using Clustered EV
Song et al. A new method for speaker adaptation using bilinear model

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131204

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20141208

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee