KR20050014183A - Method for modificating state - Google Patents

Method for modificating state

Info

Publication number
KR20050014183A
KR20050014183A KR1020030052682A KR20030052682A KR20050014183A KR 20050014183 A KR20050014183 A KR 20050014183A KR 1020030052682 A KR1020030052682 A KR 1020030052682A KR 20030052682 A KR20030052682 A KR 20030052682A KR 20050014183 A KR20050014183 A KR 20050014183A
Authority
KR
South Korea
Prior art keywords
state
training
class
speech
loss function
Prior art date
Application number
KR1020030052682A
Other languages
Korean (ko)
Other versions
KR100576501B1 (en
Inventor
권태희
Original Assignee
주식회사 팬택
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 팬택 filed Critical 주식회사 팬택
Priority to KR1020030052682A priority Critical patent/KR100576501B1/en
Priority to US10/787,017 priority patent/US20050021337A1/en
Publication of KR20050014183A publication Critical patent/KR20050014183A/en
Application granted granted Critical
Publication of KR100576501B1 publication Critical patent/KR100576501B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

PURPOSE: A state probability correction method is provided to increase recognition performance of training and speech data consistently by training an HMM(Hidden Markov Modeling) state weight value by using an extended linear loss function in an HMM based speech recognition system. CONSTITUTION: A pattern of speech inputted through a discriminant function is recognized(S110). A class of the inputted speech is determined(S120). An average loss function that indicates speech recognition performance according to the determination of the class is obtained(S130). A model parameter equation is derived by the average loss function(S140). A state weight value training is performed according to the model parameter equation(S150). A weight value of an optimal state for time is applied to a probability density component in the discriminant function in each class.

Description

상태 확률 보정 방법{METHOD FOR MODIFICATING STATE}State Probability Correction Method {METHOD FOR MODIFICATING STATE}

본 발명은 상태 확률 보정 방법에 관한 것으로, 특히, MCE 훈련 과정에 있어서 상태 가중치의 훈련 데이터에 대한 과적응을 방지하기 위하여 확장된 오인식 척도를 사용하여 상태 가중치를 훈련시킴으로써 음성 인식 성능 향상을 도모하는 확정된 손실 함수를 이용한 상태 확률 보정 방법에 관한 것이다.The present invention relates to a state probability correction method, and more particularly, to improve speech recognition performance by training state weights using an extended misperception measure to prevent overadaptation of state weights to training data in an MCE training process. A state probability correction method using a determined loss function.

일반적으로, 은닉 마코프 모델링(Hidden Markov Modeling)은 음성 인식에서음성의 특징을 표현하는데 매우 널리 사용되고 있다. 은닉 마코프 모델링은 통계적인 기반 위에서 음성의 특징을 모델링하는 일을 HMM 상태의 확률 분포 추정 방법으로 귀결시킨다. 이러한 상태 확률 분포 추정 방법으로써 가장 널리 사용되는 방법은 ML(Maximun Likelihood) 추정 방법이다.In general, Hidden Markov Modeling is widely used to express speech features in speech recognition. Hidden Markov modeling results in modeling the features of speech on a statistical basis with a probability distribution estimation method of the HMM state. The most widely used method for estimating the state probability distribution is ML (Maximun Likelihood) estimation method.

그러나, ML 추정 방법은 훈련 데이터의 확률 분포에 대한 정확한 정보를 알아내는 일이 매우 어려우며 유사 음성들 사이의 구분되는 정보를 모델링하기가 거의 불가능하다. 패턴 인식 문제에서 위와 같은 확률 분포 추정의 단점을 보완하기 위한 방법으로 분별 훈련 방법이 많이 연구되어 왔다.However, the ML estimation method is very difficult to find out accurate information about the probability distribution of the training data, and it is almost impossible to model the information distinguished between similar voices. Discriminant training methods have been studied as a way to make up for the shortcomings of the probability distribution estimation in the pattern recognition problem.

특히, 음성 인식기의 성능은 인식기의 평균 인식 에러율로 정의되며 최적 인식기는 최소의 인식 에러율을 나타내는 인식기이다. 이러한 관점에서 주로 연구되어 온 분별 훈련 기법이 GPD(Genernalized Probabilistic Descent) 알고리즘에 기반한 MCE(Minimum Classification Error) 훈련 방법이다.In particular, the performance of the speech recognizer is defined as the average recognition error rate of the recognizer and the optimum recognizer is the recognizer exhibiting the minimum recognition error rate. The classification training technique that has been mainly studied in this respect is the Minimum Classification Error (MCE) training method based on the Generalized Probabilistic Descent (GPD) algorithm.

MCE 훈련 기법의 목적은 데이터의 확률 분포를 추정하여 모델을 얻는 것이 아니고 최고의 인식 결과를 위해서 HMM의 관측 데이터를 구분하는 것이다. 이하 MCE 알고리즘을 간략히 설명하고 에러 확률의 합리적인 추정치를 나타내는 최적화 범주에 대하여 논의한다. 또한, MCE 훈련 방법은 궁극적으로 인식 오류의 최소화 관점에서 접근하며 특징 추출, 음향 모델링 기법, 음향 모델의 정밀도가 고정된 상태에서 믹스쳐(mixture) 가중치, 평균, 표준편차 등의 HMM 기본 파라미터들을 조절해 줌으로써 음성 인식의 성능 향상을 달성할 수 있음이 이미 연구되어 왔다. MCE 훈련 방법의 확장된 방법으로써 HMM 상태 확률에 내재해 있는 음성들 사이의 구분되는 정보를 이용하여 인식기를 최적화하기 위해서 상태 가중치를 도입하는 방법이 연구되었다. MCE 훈련 기법은 주로 ML 훈련 기법과 병행하여 행해지고 있으며 ML 훈련 방법에 의해 추정된 HMM보다 우수한 성능을 보인다.The purpose of the MCE training technique is not to obtain a model by estimating the probability distribution of the data, but to distinguish the observed data of the HMM for the best recognition results. The following describes the MCE algorithm briefly and discusses an optimization category that represents a reasonable estimate of the error probability. In addition, the MCE training method ultimately approaches from the point of view of minimizing cognitive errors and adjusts HMM basic parameters such as feature extraction, acoustic modeling techniques, and mixture weights, averages, and standard deviations with fixed precision of the acoustic model. It has already been studied that performance improvement of speech recognition can be achieved by doing so. As an extended method of the MCE training method, a method of introducing state weights to optimize the recognizer using information distinguished between voices inherent in HMM state probability has been studied. The MCE training technique is mainly performed in parallel with the ML training technique and shows better performance than the HMM estimated by the ML training technique.

기본적인 HMM 기반의 음성 인식기에서, 패턴 인식을 위해 클래스 i에 대한 분별 함수는 다음 식과 같이 정의된다.In a basic HMM-based speech recognizer, the classification function for class i for pattern recognition is defined as

여기에서,는, 클래스 i에 대해 조인트 상태열-관측열 확률 함수를 최대화하는 최적의 상태열이고,는 상태 i에서 상태 j로 천이하는 상태 천이 확률을 의미한다.From here, Is the optimal state string that maximizes the joint state-observed probability function for class i, Denotes a state transition probability of transitioning from state i to state j.

는 상태 j에서 관측벡터를 관측하는 확률 밀도 함수를 나타낸다. 연속적인 다변수 믹스쳐(mixture) 가우시안 HMM에서는, 상태 출력 분포는 다음과 같다. Is an observation vector in state j Represents a probability density function. In a continuous multivariate mixture Gaussian HMM, the state output distribution is

여기에서, N(·)은 다변수 가우시안 밀도 함수를 표기하며는 상태 j,믹스쳐(mixture) m에서의 평균 벡터이고,는 상태 j, 믹스쳐(mixture) m에서의 상관행렬이다.Where N (·) denotes the multivariate Gaussian density function Is the mean vector in state j, mixture m, Is the correlation matrix in state j, mixture m.

입력 음성에 대하여, 클래스 결정 규칙이 사용되며 입력 음성 X에 대한 클래스 C(X)는 다음과 같은 규칙에 의해 결정된다.For the input voice, a class decision rule is used and the class C (X) for the input voice X is determined by the following rule.

여기에서,는 분별함수에 의해 입력 음성 또는 관측 벡터열에 대해 결정된 클래스를 의미한다.From here, Denotes the class determined for the input speech or observation vector sequence by the classification function.

먼저, 연산적인 결정 규칙인 수학식 3을 함수 형태로 표현하는 것이 필요하다. 패턴 인식기의 파라미터 세트 Λ의 연속적인 함수로서 결정 규칙을 함축하는 클래스 오인식 척도는 다음과 같이 정의된다.First, it is necessary to express the mathematical decision formula (3) in the form of a function. A class misrecognition measure that implies a decision rule as a continuous function of the parameter set Λ of the pattern recognizer is defined as follows.

여기에서, η는 양의 상수이고 N은 N-best 오인식 클래스들의 개수이다. 클래스 i에 해당하는 음성 X에 대해,는 오인식을 의미하며는 정확한 인식을 의미한다.Where η is a positive constant and N is the number of N-best misrecognition classes. For voice X corresponding to class i, Means misrecognition Means accurate recognition.

완전한 손실함수는 부드러운 이진 손실함수의 형태로서 오인식 척도에 관하여 정의된다.The complete loss function is defined in terms of misrecognition measures in the form of a smooth binary loss function.

부드러운 이진 손실함수는 임의의 연속적인 이진 함수로 정의될 수 있으나 보통 다음과 같은 S형(sigmoid) 함수가 사용된다.The smooth binary loss function can be defined as any continuous binary function, but usually the following sigmoid function is used.

여기에서, θ는 영 또는 영보다 다소 작은 값으로 설정되고 r은 상수값이다.Where θ is set to zero or somewhat less than zero and r is a constant value.

마지막으로, 미지의 음성에 대하여 인식기 성능은 평균 손실함수로써 평가된다.Finally, recognizer performance for unknown speech is estimated as the average loss function.

여기에서, l(·)는 표시자(indicator) 함수이다.Where l (·) is an indicator function.

최적의 모델 파라미터는 평균 손실을 최소로 하는 모델 파라미터이며 평균손실을 최소화하기 위해서 GPD 알고리즘이 주로 사용된다. GPD 알고리즘은 다음과 같이 주어진다.The optimal model parameter is a model parameter that minimizes the average loss, and the GPD algorithm is mainly used to minimize the average loss. The GPD algorithm is given by

여기에서, U는 양으로 정의된 행렬,는 학습 비율 또는 조절의 스텝 크기(step size)이고,는 시각 n에서 모델 파라미터 세트이다.Where U is a matrix defined as positive, Is the step size of the learning rate or adjustment, Is a set of model parameters at time n.

GPD 알고리즘은 제한 조건이 없는 최적화 기술이다. 그러나, 확률 모델로서의 HMM 구조를 유지하기 위해서는 어떠한 제약 조건이 주어져야만 한다. 복잡한 제약조건을 갖는 GPD 알고리즘을 사용하는 대신에 GPD 알고리즘을 변환된 HMM 파라미터에 적용하였다. 파라미터 변환 과정은 변환된 공간에서 어떠한 제약조건이 없으며 원시 공간으로의 변환시 HMM 제약조건이 만족되어야 한다. 다음과 같은 HMM 파라미터에 대한 제약조건이 원시 공간에서 유지되어야 한다.GPD algorithm is an optimization technique without constraints. However, some constraints must be given to maintaining the HMM structure as a probabilistic model. Instead of using a complex constraint GPD algorithm, the GPD algorithm is applied to the transformed HMM parameters. The parameter conversion process does not have any constraints in the transformed space and the HMM constraint must be satisfied when converting to the raw space. Constraints on the following HMM parameters must be maintained in raw space:

상술한 식과 같은 원시 공간에서의 파라미터 제약 조건을 만족시키기 위해서 다음 식과 같은 파라미터 변환 과정이 파라미터 훈련 전후에 사용된다.In order to satisfy the parameter constraints in the raw space as in the above-described equation, a parameter conversion process as in the following equation is used before and after parameter training.

그러나, 세그멘탈(segmental) GPD 알고리즘에 기반한 MCE 훈련은 훈련 클래스에 의한 최적 상태열을 구하는 과정과 HMM을 구성하는 파라미터에 대한 경도 계산이 요구되며, 특히, 상태 확률 보정 방법은 훈련 데이터에 대한 과적응이 되어 훈련 데이터 및 인식 데이터에 대하여 일관되게 음성 인식 성능 향상을 도모하기가 어려운 문제점이 있다.However, MCE training based on the segmental GPD algorithm requires the process of finding the optimal state sequence by the training class and the longitude calculation for the parameters constituting the HMM. There is a problem that it is difficult to consistently improve the speech recognition performance with respect to the training data and the recognition data.

상기 문제점을 해결하기 위하여 안출된 본 발명은, 훈련 데이터에 대한 인식 오류를 감소시키기 위하여 음성 인식 단위 집합을 구성하는 각각의 HMM의 상태에 대응하는 가중치를 도입하고 이를 훈련하는 과정에 있어서 발생하는 훈련 데이터에 대한 과적응 문제를 해결하기 위해서 확장된 손실 함수를 도입하여 상태 가중치를 훈련함으로써 훈련 데이터에 대한 과적응 문제를 완화시킴으로써 훈련 데이터 및 인식 데이터에 대한 음성 인식 성능 향상을 도모할 수 있는 상태 확률 보정 방법을제공하는데 그 목적이 있다.The present invention devised to solve the above problems, the training that occurs in the process of introducing a weight corresponding to the state of each HMM constituting the set of speech recognition units to reduce the recognition error for the training data and training it State probabilities that can improve speech recognition performance for training data and recognition data by mitigating overadaptation problems for training data by training state weights by introducing extended loss functions to solve overadaptation problems with data. The purpose is to provide a correction method.

도 1은 본 발명의 일 실시예에 의한 상태 확률 보정 방법을 나타낸 동작흐름도,1 is a flowchart illustrating a state probability correction method according to an embodiment of the present invention;

도 2는 SIG를 이용한 상태 가중치 훈련을 나타낸 그래프,2 is a graph showing state weight training using SIG,

도 3은 SIG+WL을 이용한 상태 가중치 훈련을 나타낸 그래프,3 is a graph showing state weight training using SIG + WL;

도 4는 LIN을 이용한 상태 가중치 훈련을 나타낸 그래프,4 is a graph showing state weight training using LIN,

도 5는 LIN+WL을 이용한 상태 가중치 훈련을 나타낸 그래프.5 is a graph showing state weight training using LIN + WL.

상기 목적을 달성하기 위하여 본 발명의 상태 확률 보정 방법은, 분별함수를 통하여 입력되는 음성의 패턴을 인식하는 단계; 입력 음성에 대하여 클래스를 결정하는 단계; 상기 클래스의 결정에 따른 음성 인식 성능을 나타내는 평균손실함수를 획득하는 단계; 상기 평균손실함수에 의해 모델 파라미터식을 도출하는 단계; 및 상기 모델 파라미터 식에 따라 상태 가중치 훈련을 수행하는 단계를 포함하고, 상기 분별함수는 각 클래스에서 시간에 대한 최적 상태의 가중치를 상기 분별함수 내 확률 밀도 성분에 적용하는 것을 특징으로 한다.In order to achieve the above object, the state probability correction method of the present invention includes: recognizing a pattern of a voice input through a classification function; Determining a class for the input voice; Obtaining an average loss function representing speech recognition performance according to the class determination; Deriving a model parameter equation by the average loss function; And performing state weight training according to the model parameter equation, wherein the classification function applies a weight of an optimal state with respect to time in each class to a probability density component in the classification function.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여 본 발명의 가장 바람직한 실시예들을 첨부된 도면을 참조하여 설명하기로 한다.Hereinafter, the most preferred embodiments of the present invention will be described with reference to the accompanying drawings so that those skilled in the art can easily implement the technical idea of the present invention. .

도 1은 본 발명의 일 실시예에 의한 상태 확률 보정 방법을 나타낸 동작흐름도로서, 이러한 본 발명의 상태 확률 보정 방법에 관하여 설명하면 다음과 같다.1 is a flowchart illustrating a state probability correction method according to an exemplary embodiment of the present invention. The state probability correction method of the present invention will be described below.

먼저, 분별함수를 통하여 입력되는 음성의 패턴을 인식한다(S110). 여기서, HMM 상태 출력 확률에 내재해 있는 구별되는 정보를 이용하기 위해서 각 상태는 가중치를 갖게 되며 각 상태 출력 스코어는 상태 출력 확률값과 상태 가중치의 곱으로 표현된다. 기본적인 음성 인식 단위로써 M개의 HMM을 가지고 있고 개개의 인식단위는 J개의 상태로 구성된다고 가정하자. 기본 인식 단위로는 보통 음소 또는 단어 모델이 사용된다. 또한, 전통적인 HMM에서는 클래스 i에 대한 분별함수가 수학식 1에 의해 정의되는 것과 유사하게 상태 가중 HMM에서 클래스 i에 대한 상기 분별함수는 다음 수학식에 의해 정의된다.First, the pattern of the voice input through the classification function is recognized (S110). In this case, in order to use the distinguishing information inherent in the HMM state output probability, each state has a weight and each state output score is expressed as a product of the state output probability value and the state weight. Suppose we have M HMMs as basic speech recognition units and each recognition unit consists of J states. The basic recognition unit is usually a phoneme or word model. In addition, in the conventional HMM, the classification function for class i in the state weighted HMM is defined by the following equation, similarly to the classification function for class i.

여기에서,는 클래스 i에서 시간 t에 대한 최적 상태의 가중치이다.From here, Is the weight of the optimal state for time t in class i.

그 후, 입력 음성에 대하여 클래스 결정규칙을 적용한다(S120). 즉, 입력 음성 또는 관측벡터열에 대해 클래스를 결정한다.Thereafter, the class decision rule is applied to the input voice (S120). That is, the class is determined for the input speech or the observation vector sequence.

그 후, 상기 클래스의 오인식에 따라 음성 인식 성능을 나타내는 평균손실함수를 획득한다(S130).Thereafter, an average loss function representing speech recognition performance is obtained according to the misperception of the class (S130).

그 후, 상기 평균손실함수에 의해 모델 파라미터식을 도출한다(S140). 즉, 초기값 1로 설정된 상태 가중치의 훈련은 앞에서 언급된 수학식 4~수학식 8과 동일한 과정을 통해 다음과 같은 상기 모델 파라미터식으로 표현된다.Thereafter, a model parameter equation is derived from the average loss function (S140). That is, the training of the state weight set to the initial value 1 is expressed by the model parameter equation as follows through the same process as the above Equation 4 to Equation 8.

수학식 9와 유사하게, 상태 가중치에 대한 제약조건은 원시 공간에서 성립되어야 한다. 즉, 음성 인식 단위 내의 상태 가중치는 하기 식에 의하여 제약되어야 한다.Similar to equation (9), constraints on state weights must be established in raw space. That is, the state weight in the speech recognition unit should be constrained by the following equation.

여기에서,는 기본 인식 단위인 HMM 내의 상태 j에 대한 상태 가중치이고 J는 인식 단위 내의 상태의 총 개수이다.From here, Is the state weight for state j in the HMM that is the basic recognition unit and J is the total number of states in the recognition unit.

끝으로, 상기 모델 파라미터 식에 따라 상태 가중치 훈련을 수행하고(S150), 상기 상태 가중치 훈련 전후에 파라미터 변환을 수행하는데, 상기 파라미터 변환은 다음 식에 의해 주어진다.Finally, state weight training is performed according to the model parameter equation (S150), and parameter conversion is performed before and after the state weight training, wherein the parameter transformation is given by the following equation.

여기에서,의 변환된 파라미터 공간에서의 상태 가중치이다.From here, Is Is the state weight in the transformed parameter space.

또한, 상태 가중치의 훈련의 초기값은 1로 설정될 수 있다.In addition, the initial value of the training of the state weight may be set to one.

일반적으로, MCE 훈련에서는 오인식된 음성을 이용하여 파라미터 적응 훈련을 하므로 MCE 훈련에 사용되는 즉, 오인식되는 훈련 데이터의 양이 너무 적다면훈련 데이터에 대한 과적응 문제가 발생하게 되어 훈련 데이터와 인식 데이터 사이에 인식 성능의 차이가 발생하게 된다. 따라서, 이러한 훈련 데이터와 인식 데이터의 인식 성능 차이를 극복하기 위한 방법이 요구되며 이를 위해서 부드러운 이진 손실 함수를 대신하여 대체 손실 함수를 고려한다. 이를 위해 오인식 척도를 구하는 과정에서 훈련 음성의 스트링 모델의 확률값에 가중치를 두어 오인식 척도에 더함으로써 오인식 척도를 확장하고 이를 확장된 선형 손실 함수로 선택할 수 있으며, 이러한 확장된 오인식 척도를 S형(sigmoid) 함수에 대입함으로써 S형(sigmoid) 이진 손실 함수를 선택할 수 있다. 훈련 음성의 스트링의 확률값에 가중치를 주어 더해주는 오인식 척도에 대한 확장은 다음 아래의 식과 같이 정의된다.In general, MCE training uses parametric adaptive training using misrecognized voice, so if the amount of training data used for MCE is too small, an overadaptation problem with the training data may occur. The difference in recognition performance occurs. Therefore, a method for overcoming the difference in the recognition performance of the training data and the recognition data is required. For this purpose, an alternative loss function is considered instead of the smooth binary loss function. To do this, in the process of calculating the misperception scale, weighting the probability value of the string model of the training voice and adding it to the misperception scale can extend the misperception scale and select it as an extended linear loss function. We can choose the S-type (sigmoid) binary loss function by substituting An extension to the misperception scale that adds weights to the probability values of the strings of training speech is defined as follows.

여기에서, k는 추가로 더해주는 확률값의 계수이고 훈련 데이터에 대한 인식 오류를 증가시켜 주고 훈련 음성의 스트링 모델에 대한 확률값의 HMM 파라미터에 대한 미분값을 증가시켜 주는 효과가 있다.Here, k is a coefficient of the probability value added further, and increases the recognition error of the training data and increases the derivative value of the HMM parameter of the probability value for the string model of the training voice.

HMM의 상태 확률 보정을 통한 음성 인식의 성능 향상을 평가하기 위하여 단독 숫자음을 이용한 실험을 실시하였다. 단독 숫자음 DB는 조용한 사무실 환경에서 녹음되었으며 500명(남성 250명, 여성 250명)의 음성으로 구성되었고, 400명(남성 200명, 여성 200명)의 음성이 훈련에 사용되었고 100명(남성 50명, 여성 50명)의 음성이 인식에 사용되었다. 본 실험에서는 11.025KHz DSP 보드 상에서의 음성 인식기 구현을 위해서 16KHz로 샘플링된 음성을 11.025KHz로 다운 샘플링하였다. 특징 벡터로는 log 에너지를 포함하여 13차 cepstral 계수, 13차 1차 미분계수, 13차 2차 미분 계수를 이용하여 총 3스트림, 39차 특징 벡터를 구성하였다. 모든 상태 출력 확률 분포는 8 믹스쳐(mixture) 다변수 가우시안 분포를 사용하였다. 베이스 라인 실험으로써 ML 훈련 방법에 의해서 3개의 상태, 3개의 스트림, 8개의 믹스쳐(mixture)로 구성된 모델을 생성하였다. HMM 가중치를 훈련하는 과정에서 오인식 척도를 계산하기 위해 3개의 가장 경쟁적인 스트링을 사용하였다(N=3).In order to evaluate the performance improvement of speech recognition through state probability correction of HMM, experiments using single digits were conducted. The single digit DB was recorded in a quiet office environment and consisted of 500 voices (250 males, 250 females), 400 voices (200 males, 200 females) and 100 voices (male) 50 voices and 50 female voices were used for recognition. In this experiment, to sample the speech recognizer on the 11.025KHz DSP board, we sampled the 16KHz downsampled to 11.025KHz. As the feature vectors, a total of 3 streams and 39th feature vectors were constructed by using 13th order cepstral coefficients, 13th order first derivatives, and 13th order second derivatives. All state output probability distributions used an 8-mixture multivariable Gaussian distribution. As a baseline experiment, a model consisting of three states, three streams and eight mixtures was generated by the ML training method. In training HMM weights, the three most competitive strings were used to calculate the misperception scale (N = 3).

본 실험에서는 4가지의 손실 함수(오인식 척도에 기인한 이진 손실 함수, 확장된 오인식 척도에 기인한 이진 손실 함수, 오인식 척도, 확장된 오인식 척도)를 사용하여 HMM 기본 파라미터를 MCE 훈련하여 인식 실험을 실시하였다. 하기 표 1은 훈련 데이터 인식률이 최대가 되었을 경우 훈련 및 인식 데이터에 대한 단어 인식률을 나타낸 것이다. 훈련을 반복함에 따라 훈련 데이터 인식률은 점차적으로 증가하나 인식 데이터에 대한 인식률은 거의 변화가 없는데, 이는 셉트럴(ceptral) 계수에 대한 상태 확률 분포가 훈련 데이터에 과적응 되어가는 과정임을 의미한다.In this experiment, we use MCE training of HMM basic parameters using four loss functions (binary loss function due to misperceived scale, binary loss function due to extended misperceived scale, misrecognition scale, extended misunderstanding scale). Was carried out. Table 1 below shows word recognition rates for training and recognition data when the training data recognition rate is maximized. As the training is repeated, the training data recognition rate gradually increases, but the recognition rate for the recognition data is almost unchanged, which means that the state probability distribution for the ceptral coefficient is over-adapted to the training data.

HMM 기반의 음성 인식기에서 HMM 상태 가중치를 훈련한 음향 모델링의 성능 평가를 위해서 앞에서 언급된 4가지 손실 함수를 사용하여 반복하여 훈련함에 따른 인식 성능의 변화를 비교 평가하였다. 훈련 과정에서, 확률 모델로서의 HMM 구조를 유지하기 위해서 파라미터 변환 과정을 통해서 상태 가중치를 조절해 주었다. 하기 표 2는 인식 데이터에 대한 단어 인식률이 최대가 되었을 경우, 훈련 데이터 및 인식 데이터에 대한 인식률을 나타낸다.In order to evaluate the performance of acoustic modeling with HMM state weights in HMM-based speech recognizer, we compared and evaluated the change of recognition performance by repeatedly training using the four loss functions mentioned above. In the training process, the state weight was adjusted through the parameter transformation process to maintain the HMM structure as a probabilistic model. Table 2 below shows the recognition rate for the training data and the recognition data when the word recognition rate for the recognition data is maximum.

도 2는 S형(sigmoid) 손실 함수를 사용하여 반복하여 훈련함에 따른 훈련 및 인식 데이터의 인식률 변화를 보여준다. 훈련을 반복함에 따라 초반에는 훈련 데이터의 인식률이 증가하는 경향을 보이나 MCE 훈련에 사용되는 훈련 데이터에 대한 과적응으로 인하여 인식률의 감소가 초래됨을 보여준다. 도 3은 k=0.005인 경우에훈련 음성에 대한 훈련 음소열의 확률값에 가중치를 두어 확장된 오인식 척도를 구하고 이로부터 S형(sigmoid) 손실 함수를 구하여 훈련함에 따른 인식률의 변화를 보여준다. 반복함에 따라 훈련 데이터의 인식률 감소와 더불어 인식 데이터 인식률이 진동함을 볼 수 있다.Figure 2 shows the change in the recognition rate of the training and recognition data with repeated training using the S-type (sigmoid) loss function. As the training is repeated, the recognition rate of the training data tends to increase initially, but the recognition rate decreases due to the overadaptation of the training data used for MCE training. FIG. 3 shows a change in recognition rate according to training by obtaining an extended misperception scale by weighting the probability values of training phoneme strings for training speech in the case of k = 0.005, and obtaining a sigmoid loss function therefrom. As it is repeated, the recognition data recognition rate oscillates as well as the recognition rate of the training data decreases.

도 4는 k=0인 경우의 선형 손실 함수를 사용하여 상태 가중치를 훈련한 결과는 훈련 데이터 및 인식 데이터에 대해서 일관성 있는 인식 성능 향상을 보여주지 못함을 나타낸다. 도 5는 k=0.005인 경우의 훈련 음성에 대한 훈련 음소열의 확률값에 가중치를 주어 얻어진 확장된 선형 손실 함수를 사용하여 훈련한 결과는 훈련 데이터는 물론 인식 데이터에 대하여도 일관된 인식 성능 향상을 보여줌을 나타낸다.4 shows that the result of training the state weight using the linear loss function in the case of k = 0 does not show a consistent recognition performance improvement for the training data and the recognition data. FIG. 5 shows that the results of training using the extended linear loss function obtained by weighting the probability values of the trained phoneme strings for the training speech in the case of k = 0.005 show a consistent improvement in recognition performance not only for the training data but also for the recognition data. Indicates.

선형 손실 함수에서 훈련 음소열 모델의 확률값에 곱하는 가중치에 따른 훈련 데이터와 인식 데이터의 인식률 변화를 실험하였을 때, 인식 데이터에 대한 인식률이 최대가 되었을 경우의 인식 결과는 다음 표 3과 같다.When the recognition rate of the training data and the recognition data is changed according to the weight multiplied by the probability value of the training phoneme sequence model in the linear loss function, the recognition results when the recognition rate for the recognition data is maximized are shown in Table 3 below.

훈련 음성에 대한 훈련 음소열 모델의 확률값에 가중치 k를 주어 오인식 척도에 더한 확장된 오인식 척도를 사용하는 것은 훈련 데이터에 대한 인식 오류를증가시켜주는 효과를 가져오며, 아울러 상태 가중치에 대한 선형 손실 함수의 미분값을 (1+k)배 만큼 증가시켜 주는 효과가 있다. 따라서, k값을 적절히 조절해 줌으로써 훈련 데이터와 인식 데이터 인식률이 일관되게 향상되는 결과를 얻을 수가 있다.Using the extended misperception scale in addition to the misperception scale by giving the weight k to the probability value of the training phoneme model for training speech has the effect of increasing the recognition error for the training data, and also the linear loss function for the state weight. It is effective to increase the derivative of by (1 + k) times. Therefore, by appropriately adjusting the k value, it is possible to obtain a result in which the training data and the recognition data recognition rate are improved consistently.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지로 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.The present invention described above is capable of various substitutions, modifications, and changes without departing from the technical spirit of the present invention for those skilled in the art to which the present invention pertains. It is not limited to the drawings shown.

HMM 기반의 음성 인식 시스템에서 훈련 음성에 대한 훈련 음소열의 확률값에 가중치를 주어 얻어진 확장된 선형 손실 함수를 사용하여 HMM 상태 가중치를 훈련함으로써 훈련 및 음성 데이터에 대한 인식 성능이 일관성 있게 증가할 수 있도록 하는 장점이 있다.In the HMM-based speech recognition system, the HMM state weights are trained using the extended linear loss function obtained by weighting the probability values of the training phoneme sequences for the training speech so that the recognition performance of the training and speech data can be consistently increased. There is an advantage.

Claims (6)

분별함수를 통하여 입력되는 음성의 패턴을 인식하는 단계;Recognizing a pattern of speech input through the classification function; 입력 음성에 대하여 클래스를 결정하는 단계;Determining a class for the input voice; 상기 클래스의 결정에 따른 음성 인식 성능을 나타내는 평균손실함수를 획득하는 단계;Obtaining an average loss function representing speech recognition performance according to the class determination; 상기 평균손실함수에 의해 모델 파라미터식을 도출하는 단계; 및Deriving a model parameter equation by the average loss function; And 상기 모델 파라미터 식에 따라 상태 가중치 훈련을 수행하는 단계Performing state weight training according to the model parameter expression 를 포함하고,Including, 상기 분별함수는 각 클래스에서 시간에 대한 최적 상태의 가중치를 상기 분별함수 내 확률 밀도 성분에 적용하는The classification function is to apply the weight of the optimal state with respect to time in each class to the probability density component in the classification function. 것을 특징으로 하는 상태 확률 보정 방법.State probability correction method, characterized in that. 제1항에 있어서,The method of claim 1, 상기 클래스의 결정에 따른 음성 인식 성능을 나타내는 평균손실함수를 획득하는 단계는,Obtaining an average loss function representing the speech recognition performance according to the determination of the class, 훈련 음성의 스트링의 확률값에 가중치를 주어 오인식 척도를 더해서 획득된 확장된 오인식 척도를 사용하는Using the extended misperception scale obtained by weighting the probability value of the string of training speech and adding the misperception scale 것을 특징으로 하는 상태 확률 보정 방법.State probability correction method, characterized in that. 제1항에 있어서,The method of claim 1, 상기 상태 가중치의 훈련의 초기값은 1로 설정되는The initial value of the training of the state weight is set to 1 것을 특징으로 하는 상태 확률 보정 방법.State probability correction method, characterized in that. 제3항에 있어서,The method of claim 3, 상기 모델 파라미터식은, GPD 알고리즘에 의하여 주어지는The model parameter expression is given by the GPD algorithm. 것을 특징으로 하는 상태 확률 보정 방법.State probability correction method, characterized in that. 제4항에 있어서,The method of claim 4, wherein 음소 또는 단어인 음성 인식 단위 내의 상기 상태 가중치는 원시 공간에서 성립되는 제약 조건을 가지는The state weights in the speech recognition unit, which are phonemes or words, have constraints established in raw space. 것을 특징으로 하는 상태 확률 보정 방법.State probability correction method, characterized in that. 제3항에 있어서,The method of claim 3, 상기 모델 파라미터 식에 의한 파라미터 변환은 상기 상태 가중치의 훈련 전후에 수행되는Parameter transformation by the model parameter expression is performed before and after the training of the state weight. 것을 특징으로 하는 상태 확률 보정 방법.State probability correction method, characterized in that.
KR1020030052682A 2003-07-23 2003-07-30 Method for modificating state KR100576501B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020030052682A KR100576501B1 (en) 2003-07-30 2003-07-30 Method for modificating state
US10/787,017 US20050021337A1 (en) 2003-07-23 2004-02-24 HMM modification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030052682A KR100576501B1 (en) 2003-07-30 2003-07-30 Method for modificating state

Publications (2)

Publication Number Publication Date
KR20050014183A true KR20050014183A (en) 2005-02-07
KR100576501B1 KR100576501B1 (en) 2006-05-10

Family

ID=37225349

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030052682A KR100576501B1 (en) 2003-07-23 2003-07-30 Method for modificating state

Country Status (1)

Country Link
KR (1) KR100576501B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100808775B1 (en) * 2006-07-26 2008-03-07 한국정보통신대학교 산학협력단 System and method for speech recognition using Class-based histogram equalization
CN112992107A (en) * 2021-03-25 2021-06-18 腾讯音乐娱乐科技(深圳)有限公司 Method, terminal and storage medium for training acoustic conversion model
CN113327586A (en) * 2021-06-01 2021-08-31 深圳市北科瑞声科技股份有限公司 Voice recognition method and device, electronic equipment and storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102154676B1 (en) * 2015-05-14 2020-09-10 한국과학기술원 Method for training top-down selective attention in artificial neural networks

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100808775B1 (en) * 2006-07-26 2008-03-07 한국정보통신대학교 산학협력단 System and method for speech recognition using Class-based histogram equalization
CN112992107A (en) * 2021-03-25 2021-06-18 腾讯音乐娱乐科技(深圳)有限公司 Method, terminal and storage medium for training acoustic conversion model
CN113327586A (en) * 2021-06-01 2021-08-31 深圳市北科瑞声科技股份有限公司 Voice recognition method and device, electronic equipment and storage medium
CN113327586B (en) * 2021-06-01 2023-11-28 深圳市北科瑞声科技股份有限公司 Voice recognition method, device, electronic equipment and storage medium

Also Published As

Publication number Publication date
KR100576501B1 (en) 2006-05-10

Similar Documents

Publication Publication Date Title
US6260013B1 (en) Speech recognition system employing discriminatively trained models
Juang et al. Hidden Markov models for speech recognition
US7617103B2 (en) Incrementally regulated discriminative margins in MCE training for speech recognition
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
Shinoda Speaker adaptation techniques for automatic speech recognition
GB2387008A (en) Signal Processing System
Katagiri et al. A new hybrid algorithm for speech recognition based on HMM segmentation and learning vector quantization
US7574359B2 (en) Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models
KR100576501B1 (en) Method for modificating state
Aradilla et al. Posterior features applied to speech recognition tasks with user-defined vocabulary
Rosti Linear Gaussian models for speech recognition
KR100582341B1 (en) Method for modificating hmm
Crammer Efficient online learning with individual learning-rates for phoneme sequence recognition
Rabiner et al. Hidden Markov models for speech recognition—strengths and limitations
Amrouche et al. Efficient system for speech recognition using general regression neural network
Matsui et al. N-best-based unsupervised speaker adaptation for speech recognition
Shinozaki et al. Hidden mode HMM using bayesian network for modeling speaking rate fluctuation
Birkenes et al. Penalized logistic regression with HMM log-likelihood regressors for speech recognition
Low et al. Speech recognition using the probabilistic neural network
Juang et al. Mixture autoregressive hidden Markov models for speaker independent isolated word recognition
Ijima et al. Emotional speech recognition based on style estimation and adaptation with multiple-regression HMM
Hu et al. A neural network based nonlinear feature transformation for speech recognition.
Vasilache et al. Speaker adaptation of quantized parameter HMMs.
Kwon et al. Performance of HMM-based speech recognizers with discriminative state-weights
JP3589508B2 (en) Speaker adaptive speech recognition method and speaker adaptive speech recognizer

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120403

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130405

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee