KR20120052778A - Apparatus for adapting acoustic model and method thereof - Google Patents

Apparatus for adapting acoustic model and method thereof Download PDF

Info

Publication number
KR20120052778A
KR20120052778A KR1020100114085A KR20100114085A KR20120052778A KR 20120052778 A KR20120052778 A KR 20120052778A KR 1020100114085 A KR1020100114085 A KR 1020100114085A KR 20100114085 A KR20100114085 A KR 20100114085A KR 20120052778 A KR20120052778 A KR 20120052778A
Authority
KR
South Korea
Prior art keywords
model
adaptive
acoustic model
acoustic
loss function
Prior art date
Application number
KR1020100114085A
Other languages
Korean (ko)
Inventor
정호영
강병옥
전형배
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020100114085A priority Critical patent/KR20120052778A/en
Publication of KR20120052778A publication Critical patent/KR20120052778A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

PURPOSE: An acoustic model adaptation apparatus and method thereof are provided to minimize the reduction of discrimination in each environment by applying a voice recognition method to diverse environment. CONSTITUTION: An adaptation data collecting unit(50) collects predetermined adaptation data. A adaption model creation unit(60) creates adaptive acoustic models and adaptive anti-models. An error pattern detection unit(70) detects error patterns from the adaptive acoustic models and the adaptive anti-models. A loss function calculation unit(80) calculates loss rates for the error patterns. A model parameter control unit(90) controls model parameter values of the adaptive anti-models and the adaptive acoustic models in case the loss rates are over the predetermined reference values.

Description

음향모델 적응 장치 및 그 방법{Apparatus for adapting acoustic model and method thereof}Apparatus for adapting acoustic model and method

본 발명은 음향모델 적응 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 미리 훈련된 음향모델을 새로운 환경에 적응시키기 위해 환경 변이에 따른 오류패턴을 보정하는 변별력 개선 기법과 모델 신뢰도를 개선하도록 하는 음향모델 적응 장치 및 그 방법에 관한 것이다.The present invention relates to an acoustic model adaptation apparatus and a method thereof, and more particularly, to discriminate error patterns according to environmental variations and to improve model reliability in order to adapt a previously trained acoustic model to a new environment. A model adaptation apparatus and a method thereof.

일반적으로 음향모델을 훈련하기 위해서는 다양한 화자로부터 대용량의 데이터를 수집해야 하며, 이 과정을 음성인식이 적용되는 모든 환경에서 수행하기에는 많은 시간과 비용을 필요로 한다. 따라서, 음성인식을 적용할 환경에서 소량의 데이터를 수집하여 음향모델을 적응하는 것이 필요하다.In general, training a sound model requires collecting a large amount of data from various speakers, and it takes a lot of time and money to perform this process in all environments where speech recognition is applied. Therefore, it is necessary to adapt a sound model by collecting a small amount of data in an environment to which speech recognition is to be applied.

기존의 음향모델 적응방법으로는 수집한 소량의 데이터를 기존 음향모델로 인식과정을 수행하여 환경변이에 따라 변별력이 약해지는 인식어휘들 사이의 변별력을 개선하는 변별적응이 있다.The existing acoustic model adaptation method is the discrimination adaptation which improves the discrimination ability between the recognized vocabulary which weakens the discrimination power according to the environmental variation by performing the process of recognizing the collected data with the existing acoustic model.

변별적응은 새로운 환경의 데이터를 이용해 인식 오류에 기반하여 변별력 개선을 수행하지만, 적응데이터에 특화되어 임의의 데이터에 대해 성능 개선을 이루지 못하는 일반화에 문제가 있을 수 있다. 또한, 모델 적응에 있어 변별력 개선 문제와 함께 적응된 모델의 신뢰도 향상도 중요한 문제이다.Discrimination adaptation improves discriminant power based on recognition error using data of new environment, but there may be a problem in generalization that is not specialized in adaptation data and does not improve performance on arbitrary data. In addition, the improvement of the reliability of the adapted model is also an important issue in the adaptation of the model.

본 발명의 목적은, 새로운 환경에서의 적응데이터를 이용하여 변별력을 개선하는 과정과 신뢰도를 향상시키는 과정을 통합하는 음향모델 적응 장치 및 그 방법을 제공함에 있다.SUMMARY OF THE INVENTION An object of the present invention is to provide an acoustic model adaptation apparatus and method for integrating a process of improving discrimination power and a process of improving reliability by using adaptation data in a new environment.

본 발명의 다른 목적은, 미리 학습된 모델을 이용하여 적응데이터에 대해 인식을 수행하고, 인식 결과의 오류패턴에 기반하여 모델을 적응하는 과정과 인식 스코어의 신뢰도 분석에 기반하여 모델을 적응하는 과정이 동시에 수행되도록 하여 인식성능을 더욱 개선하고 아울러 발화검증을 위한 모델도 생성하는 음향모델 적응 장치 및 그 방법을 제공함에 있다.Another object of the present invention, the process of performing the recognition of the adaptation data using the pre-trained model, the process of adapting the model based on the error pattern of the recognition result and the process of adapting the model based on the reliability analysis of the recognition score The present invention provides an acoustic model adaptation apparatus and method for further improving recognition performance and generating a model for speech verification.

상기의 목적을 달성하기 위한 본 발명에 따른 음향모델 적응 장치는, 음성인식 시스템을 적용하고자 하는 환경에 대응하는 소정의 적응 데이터를 수집하는 적응 데이터 수집부, 상기 소정의 적응 데이터를 적어도 하나의 음향모델과 상기 음향모델에 대응하는 반모델(anti-model)에 적용하여 적응 음향모델 및 적응 반모델을 생성하는 적응 모델 생성부, 상기 적응 데이터를 적용한 상기 적응 음향모델 및 상기 적응 반모델로부터 오류패턴을 검출하는 오류 패턴 검출부, 상기 오류 패턴을 상기 음성인식 시스템을 적용하고자 하는 환경에서 기 정의된 손실함수에 적용하여 상기 오류 패턴에 대한 손실률을 계산하는 손실함수 계산부, 및 상기 손실률이 기 설정된 기준치를 초과하는 경우, 상기 적응 음향모델 및 상기 적응 반모델의 모델 파라미터 값을 조정하는 모델 파라미터 조정부를 포함한다.According to an aspect of the present invention, there is provided an acoustic model adaptation apparatus comprising: an adaptive data collection unit configured to collect predetermined adaptation data corresponding to an environment to which a speech recognition system is to be applied; An adaptive model generator for generating an adaptive acoustic model and an adaptive half model by applying a model and an anti-model corresponding to the acoustic model, and an error pattern from the adaptive acoustic model and the adaptive half model to which the adaptive data is applied. An error pattern detection unit for detecting a loss function, a loss function calculator for calculating a loss rate for the error pattern by applying the error pattern to a predefined loss function in an environment to which the speech recognition system is to be applied, and the loss rate is a preset reference value. If exceeding, adjusts model parameter values of the adaptive acoustic model and the adaptive half model. It includes a model parameter adjustment section.

이때, 상기 손실함수 계산부는, 조정된 상기 모델 파라미터 값이 적용된 적응 음향모델 및 적응 반모델을 적용하여 손실률을 재계산하는 것을 특징으로 한다.In this case, the loss function calculating unit may recalculate a loss rate by applying an adaptive acoustic model and an adaptive half model to which the adjusted model parameter value is applied.

본 발명에 따르면, 음성인식을 다양한 환경에 적용할 때 각 환경에 따른 변별력 저하를 최소로하여 인식성능을 개선할 수 있는 이점이 있다.According to the present invention, when speech recognition is applied to various environments, there is an advantage that the recognition performance can be improved by minimizing the reduction of discrimination power according to each environment.

또한, 본 발명은, 음향모델의 변별력을 개선하는데 있어서 혼동성을 가지는 오류쌍만 고려하는 것이 아니라 반모델과의 변별력까지 고려하여 음향모델의 신뢰도 개선에 기반한 변별력 개선을 통해 다양한 환경으로의 효과적인 모델 적응 방식을 제공할 수 있는 이점이 있다. In addition, the present invention not only considers error pairs with confusion in improving the discriminating power of the acoustic model, but also considers the discriminating power with the anti-model and effectively improves the discriminating power based on the reliability of the acoustic model. There is an advantage to providing an adaptive approach.

또한, 본 발명은, 인식결과의 신뢰도 판단을 개선하여 효율적인 음성인터페이스를 제공할 수 있는 이점이 있다.In addition, the present invention has the advantage of providing an efficient voice interface by improving the reliability determination of the recognition result.

도 1 은 본 발명에 따른 음향모델 적응 장치의 구성을 설명하는데 참조되는 블록도이다.
도 2 는 본 발명에 따른 저장부의 세부 구성을 설명하는데 참조되는 블록도이다.
도 3 은 본 발명에 따른 음향모델 적응 방법에 대한 동작 흐름을 도시한 순서도이다.
1 is a block diagram referred to for explaining the configuration of the acoustic model adaptation apparatus according to the present invention.
2 is a block diagram referred to describe a detailed configuration of a storage unit according to the present invention.
3 is a flowchart illustrating an operation flow of an acoustic model adaptation method according to the present invention.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 설명한다.
Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings.

도 1 은 본 발명에 따른 음향모델 적응 장치의 구성을 설명하는데 참조되는 블록도이다.1 is a block diagram referred to for explaining the configuration of the acoustic model adaptation apparatus according to the present invention.

도 1에 도시된 바와 같이, 본 발명에 따른 음향모델 적응 장치는 제어부(10), 입력부(20), 출력부(30), 저장부(40), 적응 데이터 수집부(50), 적응 모델 생성부(60), 오류 패턴 검출부(70), 손실함수 계산부(80), 및 모델 파라미터 조정부(90)를 포함한다. 이때, 제어부(10)는 음향모델 적응 장치의 각 부 동작을 제어한다.As shown in FIG. 1, the acoustic model adaptation apparatus according to the present invention includes a control unit 10, an input unit 20, an output unit 30, a storage unit 40, an adaptive data collection unit 50, and an adaptive model generation. The unit 60 includes an error pattern detection unit 70, a loss function calculation unit 80, and a model parameter adjustment unit 90. At this time, the controller 10 controls the operation of each sub-unit of the acoustic model adaptation apparatus.

입력부(20)는 사용자의 제어 명령을 입력받을 수 있으며, 사용자가 적용하고자 하는 조건을 입력받을 수 있다. 출력부(30)는 음향모델 적응 장치에서 음향모델을 적응하는 과정에서 발생된 오류 패턴 및 손실함수 계산 결과 등을 출력한다. 또한 출력부(30)는 음향모델 적응 장치에 의해 해당 환경에서 적응 완료된 적응 음향모델을 출력한다.The input unit 20 may receive a user's control command and may receive a condition to be applied by the user. The output unit 30 outputs an error pattern and a loss function calculation result generated in the process of adapting the acoustic model in the acoustic model adaptation apparatus. In addition, the output unit 30 outputs the adaptive acoustic model that has been adapted in the environment by the acoustic model adaptation apparatus.

저장부(40)는 기 생성된 음향 모델이 저장되며, 음향 모델에 대응하는 반모델이 저장된다. 또한, 저장부(40)는 음향 모델에 적응 데이터를 적용하여 생성된 적응 음향모델이 저장되며, 적응 음향모델에 대응하는 적응 반모델이 저장된다. 여기서, 저장부(40)의 세부 구성은 도 2를 참조하도록 한다.The storage 40 stores a pre-generated acoustic model and a half model corresponding to the acoustic model. In addition, the storage unit 40 stores the adaptive acoustic model generated by applying the adaptation data to the acoustic model, and stores the adaptive half model corresponding to the adaptive acoustic model. Here, a detailed configuration of the storage unit 40 will be described with reference to FIG. 2.

적응 데이터 수집부(50)는 음성인식 시스템을 적용하고자 하는 환경에 대응하는 소정의 적응 데이터를 수집한다. 데이터 수집부(50)를 통해 수집된 적응 데이터들은 저장부(40)에 저장된다.The adaptive data collection unit 50 collects predetermined adaptive data corresponding to the environment to which the speech recognition system is to be applied. The adaptive data collected through the data collector 50 is stored in the storage 40.

적응 모델 생성부(60)는 적응 데이터 수집부(50)에 의해 수집된 적응 데이터를 음향 모델 및 반모델에 적용하여 적응 음향모델 및 적응 반모델을 생성한다.The adaptive model generator 60 generates an adaptive acoustic model and an adaptive half model by applying the adaptive data collected by the adaptive data collector 50 to the acoustic model and the half model.

오류 패턴 검출부(70)는 적응 데이터를 적용한 적응 음향모델로부터 오류패턴을 검출한다. 또한, 오류 패턴 검출부(70)는 적응 데이터를 적용한 적응 반모델로부터 오류패턴을 검출한다.The error pattern detection unit 70 detects an error pattern from an adaptive acoustic model to which the adaptation data is applied. In addition, the error pattern detection unit 70 detects an error pattern from an adaptive half model to which the adaptation data is applied.

손실함수 계산부(80)는 오류 패턴 검출부(70)에 의해 검출된 오류 패턴을 손실함수에 적용하여 손실률을 계산한다. 이때, 손실함수 계산부(80)는 계산된 손실률과 손실률에 대해 기 정의된 기준치(α)를 비교한다. The loss function calculation unit 80 calculates a loss rate by applying the error pattern detected by the error pattern detection unit 70 to the loss function. In this case, the loss function calculator 80 compares the calculated loss rate with a reference value α defined for the loss rate.

만일, 계산된 손실률이 기준치(α)를 초과한 경우, 모델 파라미터 조정부(90)는 적응 음향모델 및 적응 반모델의 모델 파라미터 값을 조정한다. 모델 파라미터 조정부(90)에 의해 모델 파라미터 값이 조정된 적응 음향모델 및 적응 반모델은 오류 패턴 검출부(70)에 다시 적용된다.If the calculated loss ratio exceeds the reference value α, the model parameter adjusting unit 90 adjusts model parameter values of the adaptive acoustic model and the adaptive half model. The adaptive acoustic model and the adaptive half model whose model parameter values are adjusted by the model parameter adjusting unit 90 are again applied to the error pattern detection unit 70.

한편, 계산된 손실률이 기준치(α) 이하인 경우, 손실함수 계산부(80)는 해당 적응 음향모델 및 적응 반모델을 저장부(40)에 저장한다.On the other hand, if the calculated loss ratio is less than the reference value α, the loss function calculation unit 80 stores the adaptive acoustic model and the adaptive half model in the storage unit 40.

따라서, 본 발명에 따른 음향모델 적응 장치는 음성인식 시스템을 적용하고자 하는 환경에서도 손실률이 적은 음향모델을 제공할 수 있게 된다.
Therefore, the acoustic model adaptation apparatus according to the present invention can provide an acoustic model with a low loss rate even in an environment in which a speech recognition system is to be applied.

손실함수 계산부(80)에 적용되는 손실함수의 실시예는 아래 [수학식 1] 내지 [수학식 6]을 참조한다.An embodiment of the loss function applied to the loss function calculation unit 80 is referred to [Equation 1] to [Equation 6] below.

먼저, 변별력을 개선하는 대표적인 방법은 MCE(Minimum Classification Error) 기법으로, 손실함수 계산부(80)는 MCE 기법을 이용하여 오류 패턴 검출부(70)에서 검출된 오류패턴으로부터 손실함수(loss function)를 정의한다. 이때, 손실함수는 [수학식 1]과 같다.First, a representative method of improving the discrimination power is the MCE (Minimum Classification Error) technique, and the loss function calculator 80 uses the MCE technique to calculate a loss function from the error pattern detected by the error pattern detector 70. define. At this time, the loss function is shown in [Equation 1].

Figure pat00001
Figure pat00001

Pi는 i번째 음향모델에 의한 확률값이고, d는 번째 음향모델에 대한 손실량을 나타낸다. 이때, d(O)가 0보다 크면 i 이외의 다른 음향모델에 의한 확률값이 크게 되어 오류가 발생하게 된다. P i is a probability value by the i-th acoustic model, and d represents a loss amount for the ith acoustic model. At this time, if d (O) is greater than 0, the probability value by the acoustic model other than i becomes large and an error occurs.

따라서, 손실함수 계산부(80)는 상기와 같은 오류에 의한 손실량을 계산하고, 이후 모델 파라미터 조정부(90)는 손실량이 최소가 되도록 모델 파라미터를 조장한다.
Therefore, the loss function calculation unit 80 calculates the loss amount due to the above error, and then the model parameter adjustment unit 90 promotes the model parameter so that the loss amount is minimum.

또한, 손실함수 계산부(80)는 [수학식 2]에서와 같이, [수학식 1]의 d(O)에 sigmoid 함수를 적용하여 음향모델로 널리 사용되는 Gaussian 모델 파라미터를 훈련한다.In addition, the loss function calculator 80 trains a Gaussian model parameter widely used as an acoustic model by applying a sigmoid function to d (O) of [Equation 1], as shown in [Equation 2].

Figure pat00002
Figure pat00002

한편, 적응된 모델 파라미터의 신뢰도를 개선하는 대표적인 방법으로는 MVE(Minimum Verification Error) 기법으로, 손실함수 계산부(80)는 음향모델의 신뢰도를 높이기 위해 음향모델에 대한 반모델(anti-model)을 구축하고 음향모델과 이에 대응하는 반모델의 확률값 차를 적용하여 손실함수를 정의한다. 이때, 손실함수는 [수학식 3]과 같다.On the other hand, a representative method for improving the reliability of the adapted model parameters is the MVE (Minimum Verification Error) technique, the loss function calculation unit 80 to increase the reliability of the acoustic model anti-model (anti-model) The loss function is defined by applying the probability difference between the acoustic model and the corresponding half model. At this time, the loss function is shown in [Equation 3].

Figure pat00003
Figure pat00003

여기서, [수학식 3]의 첫째 항은 i번째 음향모델 및 반모델의 확률값 차이를 나타내고, 둘째 항은 i가 아닌 나머지 모델 및 이에 대응하는 반모델의 확률값 차이를 나타낸다.Here, the first term of Equation 3 represents the difference between the probability values of the i-th acoustic model and the half model, and the second term represents the difference of the probability values of the remaining models other than i and the corresponding half model.

입력 데이터 i에 대해, [수학식 3]의 첫째 항에서 반모델의 확률값이 더 크면 오류가 발생하고, 둘째 항에서 j번째 음향모델의 확률값이 j번째 반모델의 값보다 더 크면 입력 데이터 i가 j 음향모델로 인식되는 오류가 발생하게 된다.For input data i, an error occurs if the probability value of the half-model is larger in the first term of Equation 3, and if the probability value of the j-th acoustic model is greater than the value of the j-th half-model in the second term, the input data i is j An error recognized by the acoustic model occurs.

이때, [수학식 3]을 계산하기 위해서는 [수학식 4]의 각 식이 적용된다.At this time, in order to calculate [Equation 3], each equation of [Equation 4] is applied.

Figure pat00004
Figure pat00004

여기서, i=1,2,3, ..., M, k=I,II이고, j=1,2,...,M이다. 단, j≠i인 것을 전제로 한다.Where i = 1, 2, 3, ..., M, k = I, II, and j = 1, 2, ..., M. However, it is assumed that j ≠ i.

또한, [수학식 4]에서 g는 [수학식 1]에서의 log 확률값을 의미하고, gi ,t는 i번째 음향모델에 대한 log 확률값을, gi ,a는 i번째 반모델에 대한 log 확률값을 의미한다.
In Equation 4, g denotes a log probability value in Equation 1, g i and t denote log probability values for the i-th acoustic model, and g i and a log for the i-th half model. It means the probability value.

손실함수 계산부(80)는 [수학식 4]에 따라 모델 적응에 사용되는 모든 데이터에 대해 손실량을 계산하고, 적응 모델 생성부(60)는 손실함수 계산부(80)에서 계산된 손실량이 최소가 되도록 음향모델 및 반모델을 생성하게 된다.
The loss function calculator 80 calculates a loss amount for all data used for model adaptation according to [Equation 4], and the adaptive model generator 60 minimizes the loss amount calculated by the loss function calculator 80. Acoustic models and half models are generated to be.

여기서, MCE 기법은 혼동성이 높은 오류패턴을 대상으로 음향모델을 개선하기 위한 것이고, MVE 기법은 인식결과의 신뢰도 판단을 위해 음향모델과 반모델 사이의 변별력을 높이기 위한 것이다.Here, the MCE technique is to improve the acoustic model for error patterns with high confusion, and the MVE technique is to increase the discrimination between the acoustic model and the semi-model to determine the reliability of the recognition result.

이러한 두 가지 기법을 종합하여 살펴보면, 인식 결과를 높이기 위해 음향모델을 개선하는 것은 결과의 신뢰도 판단의 정확성을 높이는 것이 되며, 신뢰도 판단을 위해 반모델을 적응하는 것은 실제 음향모델을 적응하는 효과를 주게 된다.Taking these two techniques together, improving the acoustic model to improve the recognition result is to increase the accuracy of the reliability judgment of the result, and adapting the anti-model to determine the reliability has the effect of adapting the actual acoustic model. do.

즉, i번째 반모델은 i번째 음향모델 이외의 나머지 음향모델로부터 생성하게 되므로, i번째 모델과 반모델의 변별력을 개선하는 것은 결국 i번째 모델과 나머지 모델들 사이의 변별력을 높이는 것이 된다. 따라서 음향모델 사이의 변별력을 높이는 것과 음향모델대비 반모델의 변별력을 높이는 것은 하나의 통계적 모델 학습 과정에 동시에 처리될 수 있으며, 본 발명에서는 그에 따른 통계적 적응 학습방법을 제시하고자 한다.That is, since the i-th half model is generated from the remaining acoustic models other than the i-th acoustic model, improving the discrimination between the i-th model and the semi-model is to increase the discrimination between the i-th model and the remaining models. Therefore, increasing the discrimination between the acoustic models and the discrimination of the anti-model compared to the acoustic model can be simultaneously processed in one statistical model learning process, the present invention is to propose a statistical adaptive learning method accordingly.

손실함수 계산부(80)는 앞서 설명한 MCE 기법과 MVE 기법을 통합하여 적용한 손실함수를 정의한다. 이때, 손실함수는 [수학식 5]와 같다.The loss function calculator 80 defines a loss function applied by integrating the MCE technique and the MVE technique described above. At this time, the loss function is shown in [Equation 5].

Figure pat00005
Figure pat00005

[수학식 5]의 손실함수는 3가지 오류에 대한 손실을 정의한다.The loss function in Equation 5 defines the loss for three errors.

다시 말해, [수학식 5]의 첫째 항은 인식오류가 없는 경우에 음향모델대비 반모델의 차이를 나타내며, 입력 데이터 i에 대해 음향모델의 확률값 보다 반모델의 확률값이 클 때 i로 인식하지 못하는 missing 오류를 나타낸다.In other words, the first term of [Equation 5] represents the difference between the half model and the acoustic model in the absence of a recognition error, and when the probability value of the half model is larger than the probability value of the acoustic model for the input data i, it is not recognized as i. Indicates a missing error.

둘째 항은 인식오류가 있는 경우 i번째 음향모델과 혼동성을 가지는 다른 음향모델들에 의한 classification 오류를 나타낸다.The second term represents the classification error by other acoustic models that are confused with the i-th acoustic model when there is a recognition error.

셋째 항은 인식오류가 있는 경우 i번째 이외의 다른 음향모델의 확률값이 그에 대응하는 반모델의 확률값 보다 커서 i번째가 아닌 다르게 인식할 수 있는 false alarm을 나타낸다.The third term represents a false alarm that can be recognized differently than the i-th because the probability value of the acoustic model other than the i-th is larger than the probability value of the corresponding half-model when there is a recognition error.

따라서, 본 발명에 따른 음향모델 적응 장치는 입력 데이터의 시간대별 분석을 통해 인식오류의 유무에 따라 구간을 나누고, 구간별로 손실함수를 계산하여 전체 손실량이 최소가 되도록 음향모델 및 반모델을 동시에 개선할 수 있게 된다.Therefore, the acoustic model adaptation apparatus according to the present invention divides the sections according to the presence or absence of a recognition error through time-phase analysis of the input data, and simultaneously improves the acoustic model and the semi-model so that the total loss is minimized by calculating the loss function for each section. You can do it.

손실함수 계산부(80)는 앞서 설명한 세 가지 오류에 대한 손실함수를 아래 [수학식 6]과 같이 정의한다.The loss function calculation unit 80 defines a loss function for the above three errors as shown in Equation 6 below.

Figure pat00006
Figure pat00006

이때, [수학식 6]에 정의된 각각의 식을 [수학식 5]에 적용함으로써, 손실함수를 계산할 수 있다.At this time, by applying each equation defined in [Equation 6] to [Equation 5], it is possible to calculate the loss function.

즉, 본 발명은 [수학식 5]와 [수학식 6]으로부터 반모델을 고려함으로써 서로 혼동성이 있는 음향모델 사이의 변별력이 더욱 개선될 수 있고, 음향모델의 개선에 따라 반모델도 적응하게 되어 음성인식 성능 및 인식 결과의 신뢰도 판단을 동시에 개선할 수 있는 특성을 가지게 된다.
That is, the present invention can further improve the discrimination between acoustic models that are confused with each other by considering the half models from [Equation 5] and [Equation 6], and adapt the half model according to the improvement of the acoustic model. As a result, the speech recognition performance and the reliability of the recognition result can be improved simultaneously.

도 2는 본 발명에 따른 저장부의 세부 구성을 설명하는데 참조되는 블록도이다.2 is a block diagram referred to describe a detailed configuration of a storage unit according to the present invention.

도 2에 도시된 바와 같이, 저장부(40)는 기본 음향모델 저장부(41), 기본 반모델 저장부(42), 적응 데이터 저장부(43), 적응 음향모델 저장부(44), 및 적응 반모델 저장부(45)를 포함한다.As shown in FIG. 2, the storage unit 40 includes a basic acoustic model storage unit 41, a basic half model storage unit 42, an adaptive data storage unit 43, an adaptive acoustic model storage unit 44, and Adaptive half model storage unit 45 is included.

기본 음향모델 저장부(41)는 음성인식 시스템을 적용할 해당 환경에 적응하기 이전의 기본이 되는 음향모델이 저장된다. 여기서, 음향모델은 사전에 훈련된 음향 모델로서, 음성인식을 적용하기 위한 목표모델로 이용된다.The basic acoustic model storage unit 41 stores the basic acoustic model before adapting to the environment to which the speech recognition system is applied. Here, the acoustic model is a previously trained acoustic model, and is used as a target model for applying speech recognition.

한편, 기본 반모델 저장부(42)는 기본 음향모델 저장부(41)에 저장된 음향모델에 반하는 반모델(anti model)이 저장된다. 이때, 기본 반모델 저장부(42) 또한 음성인식 시스템을 적용할 해당 환경에 적응하기 이전의 기본이 되는 반모델이 저장된다. 기본 반모델 저장부(42)에 저장되는 반모델은 기본 음향모델 저장부(41)에 저장되는 음향모델에 대응되어 저장된다.On the other hand, the basic half-model storage unit 42 is stored in the anti-model contrary to the acoustic model stored in the basic acoustic model storage 41. At this time, the basic half-model storage unit 42 also stores the basic half-model before adapting to the environment to apply the speech recognition system. The half model stored in the basic half model storage 42 is stored corresponding to the acoustic model stored in the basic acoustic model storage 41.

적응 데이터 저장부(43)는 음성인식 시스템을 적용할 해당 환경에 대하여 음향모델과 반모델을 적응시키기 위한 적응 데이터가 저장된다.The adaptation data storage unit 43 stores adaptation data for adapting the acoustic model and the semi-model to the environment to which the speech recognition system is to be applied.

이때, 적응 데이터에는 실제 음성인식기 사용되는 환경의 채널 특성을 나타내는 데이터, 사용자가 주로 사용하며 인식 오류 가능성이 높은 어휘를 포함하는 데이터 및 사용자들이 자주 발성하는 무의미어 데이터 등이 포함된다.In this case, the adaptive data includes data representing channel characteristics of an environment in which an actual voice recognizer is used, data including a vocabulary mainly used by a user and having a high probability of recognition error, and meaningless data frequently spoken by the user.

적응 음향모델 저장부(44)는 적응 데이터를 음향모델에 적용하여 해당 환경에 적응시킨 적응 음향모델이 저장된다. 적응 음향모델 저장부(44)는 적응 음향모델과 함께 적응 음향모델에 적용되는 모델 파라미터가 함께 저장된다. 적응 음향모델 저장부(44)에 저장된 모델 파라미터 값이 변경된 경우에는 변경된 모델 파라미터 값을 적용한 적응 음향모델이 추가 저장되거나 기존의 적응 음향모델에 덮어쓰기 될 수 있다.The adaptive acoustic model storage unit 44 stores the adaptive acoustic model adapted to the environment by applying the adaptation data to the acoustic model. The adaptive acoustic model storage unit 44 stores model parameters applied to the adaptive acoustic model together with the adaptive acoustic model. When the model parameter value stored in the adaptive acoustic model storage unit 44 is changed, the adaptive acoustic model applying the changed model parameter value may be additionally stored or overwritten with the existing adaptive acoustic model.

적응 반모델 저장부(45)는 적응 데이터를 반모델에 적용하여 해당 환경에 적응시킨 적응 반모델이 저장된다. 적응 반모델 저장부(45)에 저장된 적응 반모델은 적응 음향모델 저장부(44)에 저장된 적응 음향모델에 대응되어 저장된다.
The adaptive half model storage unit 45 stores the adaptive half model adapted to the environment by applying the adaptation data to the half model. The adaptive half model stored in the adaptive half model storage 45 is stored corresponding to the adaptive acoustic model stored in the adaptive acoustic model storage 44.

도 3은 본 발명에 따른 음향모델 적응 방법에 대한 동작 흐름을 도시한 순서도이다.3 is a flowchart illustrating an operation flow of an acoustic model adaptation method according to the present invention.

도 3에 도시된 바와 같이, 음향모델 적응 장치는 기본이 되는 음향모델 및 반모델을 입력받는다(S100). 이때, 음향모델 적응 장치는 하나의 음향모델 및 그에 대응하는 반모델을 입력받을 수도 있고, 복수의 음향모델들과 그에 대응하는 반모델들을 입력받을 수도 있다. 물론, 기존에 저장부(40)에 음향모델 및 그에 대응하는 반모델이 저장되어 있는 경우에 'S100' 과정은 생략될 수 있다.As shown in FIG. 3, the acoustic model adaptation apparatus receives a basic acoustic model and a half model (S100). In this case, the acoustic model adaptation apparatus may receive one acoustic model and a half model corresponding thereto, or may receive a plurality of acoustic models and half models corresponding thereto. Of course, when the acoustic model and the corresponding half model is stored in the storage unit 40, the 'S100' process may be omitted.

이후, 음향모델 적응 장치는 음성인식 시스템을 적용하고자 하는 환경에 대응하는 소정의 적응 데이터를 수집하고(S110), 수집된 소정의 적응 데이터를 음향 모델 및 반모델에 적용하여 적응 음향모델 및 적응 반모델을 생성한다(S120).Thereafter, the acoustic model adaptation apparatus collects predetermined adaptation data corresponding to the environment to which the speech recognition system is to be applied (S110), and applies the collected predetermined adaptation data to the acoustic model and the half model to adapt the acoustic model and the adaptation class. Create a model (S120).

한편, 음향모델 적응 장치는 'S120' 과정에서 생성된 적응 음향모델 및 적응 반모델에 대한 오류 패턴을 검출하고(S130), 검출된 오류 패턴에 근거하여 손실률을 계산한다(S140).Meanwhile, the acoustic model adaptation apparatus detects an error pattern for the adaptive acoustic model and the adaptive half model generated in step S120 and calculates a loss rate based on the detected error pattern (S140).

'S140' 과정에서, 음향모델 적응 장치는 기 정의된 [수학식 1] 내지 [수학식 6]의 손실함수를 이용하여 손실률을 계산한다.In operation 'S140', the acoustic model adaptation apparatus calculates a loss rate using the loss functions of Equations 1 to 6, which are predefined.

만일, 오류 패턴에 의한 손실률이 기 설정된 기준치(α)를 초과하는 경우(S150), 음향모델 적응 장치는 적음 음향모델 및 적응 반모델의 모델 파라미터를 조정한 후(S160), 조정된 모델 파라미터를 적용한 적응 음향모델 및 적응 반모델을 이용하여 'S130' 및 'S140' 과정을 재수행하도록 한다.If the loss rate due to the error pattern exceeds the preset reference value α (S150), the acoustic model adaptation apparatus adjusts the model parameters of the less acoustic model and the adaptive half model (S160), and then adjusts the adjusted model parameters. The 'S130' and 'S140' processes are re-executed using the applied adaptive acoustic model and the adaptive half model.

이러한 과정은 오류 패턴에 의한 손실률이 기 설정된 기준치(α) 이하가 될 때까지 반복하여 수행하도록 한다.This process is repeatedly performed until the loss rate due to the error pattern is less than or equal to the predetermined reference value α.

오류 패턴에 의한 손실률이 기 설정된 기준치(α) 이하가 되면(S150), 음향모델 적응 장치는 해당 적응 음향모델 및 적응 반모델을 저장부(40)에 저장하고(S170), 음향모델 적응 동작을 종료한다.When the loss rate due to the error pattern is less than or equal to the predetermined reference value α (S150), the acoustic model adaptation apparatus stores the adaptive acoustic model and the adaptive half model in the storage unit 40 (S170), and performs the acoustic model adaptation operation. Quit.

이와 같이, 본 발명은 미리 훈련된 음향모델 및 이에 대응하는 반모델을 이용하여 음성인식 시스템을 적용할 환경의 적응데이터에 대해 손실함수를 계산하고, 학습규칙에 따라 손실량이 최소가 되도록 음향모델 및 반모델의 학습을 반복하게 된다.
As described above, the present invention calculates a loss function of the adaptive data of the environment to which the speech recognition system is applied using the pre-trained acoustic model and the corresponding anti-model, and the acoustic model and the minimum loss amount according to the learning rules. You will repeat the class model.

이상과 같이 본 발명에 의한 음향모델 적응 장치 및 방법은 예시된 도면을 참조로 설명하였으나, 본 명세서에 개시된 실시예와 도면에 의해 본 발명은 한정되지 않고, 기술사상이 보호되는 범위 이내에서 응용될 수 있다.
As described above, the apparatus and method for adapting an acoustic model according to the present invention have been described with reference to the illustrated drawings. However, the present invention is not limited by the embodiments and drawings disclosed herein, and may be applied within the scope of the technical idea. Can be.

10: 제어부 20: 입력부
30: 출력부 40: 저장부
41: 기본 음향모델 저장부 42: 기본 반모델 저장부
43: 적응 데이터 저장부 44: 적응 음향모델 저장부
45: 적응 반모델 저장부 50: 적응 데이터 수집부
60: 적응 모델 생성부 70: 오류 패턴 검출부
80: 손실함수 계산부 90: 모델 파라미터 조정부
10: control unit 20: input unit
30: output unit 40: storage unit
41: basic acoustic model storage 42: basic half-model storage
43: adaptive data storage 44: adaptive acoustic model storage
45: adaptive half-model storage 50: adaptive data collection
60: adaptive model generation unit 70: error pattern detection unit
80: loss function calculation unit 90: model parameter adjustment unit

Claims (1)

음성인식 시스템을 적용하고자 하는 환경에 대응하는 소정의 적응 데이터를 수집하는 적응 데이터 수집부;
상기 소정의 적응 데이터를 적어도 하나의 음향모델과 상기 음향모델에 대응하는 반모델(anti-model)에 적용하여 적응 음향모델 및 적응 반모델을 생성하는 적응 모델 생성부;
상기 적응 데이터를 적용한 상기 적응 음향모델 및 상기 적응 반모델로부터 오류패턴을 검출하는 오류 패턴 검출부;
상기 오류 패턴을 상기 음성인식 시스템을 적용하고자 하는 환경에서 기 정의된 손실함수에 적용하여 상기 오류 패턴에 대한 손실률을 계산하는 손실함수 계산부; 및
상기 손실률이 기 설정된 기준치(α)를 초과하는 경우, 상기 적응 음향모델 및 상기 적응 반모델의 모델 파라미터 값을 조정하는 모델 파라미터 조정부;를 포함하고,
상기 손실함수 계산부는, 조정된 상기 모델 파라미터 값이 적용된 적응 음향모델 및 적응 반모델을 적용하여 손실률을 재계산하는 것을 특징으로 하는 음향모델 적응 장치.
An adaptation data collector configured to collect predetermined adaptation data corresponding to an environment to which the speech recognition system is to be applied;
An adaptive model generator for generating an adaptive acoustic model and an adaptive half model by applying the predetermined adaptation data to at least one acoustic model and an anti-model corresponding to the acoustic model;
An error pattern detector detecting an error pattern from the adaptive acoustic model and the adaptive half model to which the adaptive data is applied;
A loss function calculator for calculating a loss rate for the error pattern by applying the error pattern to a predefined loss function in an environment to which the speech recognition system is to be applied; And
And a model parameter adjusting unit configured to adjust model parameter values of the adaptive acoustic model and the adaptive half model when the loss rate exceeds a preset reference value α.
And the loss function calculator recalculates a loss rate by applying an adaptive acoustic model and an adaptive half model to which the adjusted model parameter values are applied.
KR1020100114085A 2010-11-16 2010-11-16 Apparatus for adapting acoustic model and method thereof KR20120052778A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100114085A KR20120052778A (en) 2010-11-16 2010-11-16 Apparatus for adapting acoustic model and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100114085A KR20120052778A (en) 2010-11-16 2010-11-16 Apparatus for adapting acoustic model and method thereof

Publications (1)

Publication Number Publication Date
KR20120052778A true KR20120052778A (en) 2012-05-24

Family

ID=46269285

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100114085A KR20120052778A (en) 2010-11-16 2010-11-16 Apparatus for adapting acoustic model and method thereof

Country Status (1)

Country Link
KR (1) KR20120052778A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190010135A (en) * 2017-07-21 2019-01-30 주식회사 마인드셋 Apparatus and method for composing music using artificial intelligence
US10460232B2 (en) 2014-12-03 2019-10-29 Samsung Electronics Co., Ltd. Method and apparatus for classifying data, and method and apparatus for segmenting region of interest (ROI)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10460232B2 (en) 2014-12-03 2019-10-29 Samsung Electronics Co., Ltd. Method and apparatus for classifying data, and method and apparatus for segmenting region of interest (ROI)
KR20190010135A (en) * 2017-07-21 2019-01-30 주식회사 마인드셋 Apparatus and method for composing music using artificial intelligence

Similar Documents

Publication Publication Date Title
US11887582B2 (en) Training and testing utterance-based frameworks
TWI466101B (en) Method and system for speech recognition
US8930196B2 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
US8762144B2 (en) Method and apparatus for voice activity detection
CN111667818B (en) Method and device for training wake-up model
KR101616054B1 (en) Apparatus for detecting voice and method thereof
JP5842056B2 (en) Noise estimation device, noise estimation method, noise estimation program, and recording medium
CN106710599A (en) Particular sound source detection method and particular sound source detection system based on deep neural network
KR20120054845A (en) Speech recognition method for robot
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
CN110189746A (en) A kind of method for recognizing speech applied to earth-space communication
JPWO2010128560A1 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
EP4102500A1 (en) System and method for robust wakeword detection in presence of noise in new unseen environments without additional data
Li et al. Bridging mixture density networks with meta-learning for automatic speaker identification
WO2022134781A1 (en) Prolonged speech detection method, apparatus and device, and storage medium
CN104901807A (en) Vocal print password method available for low-end chip
Brucal et al. Female voice recognition using artificial neural networks and MATLAB voicebox toolbox
KR20120052778A (en) Apparatus for adapting acoustic model and method thereof
CN113077812A (en) Speech signal generation model training method, echo cancellation method, device and equipment
Paul et al. Automated speech recognition of isolated words using neural networks
CN117275525A (en) Cough sound detection and extraction method
KR101791907B1 (en) Acoustic processing apparatus and method based on position information
KR101229108B1 (en) Apparatus for utterance verification based on word specific confidence threshold
Mosiński et al. AE-Flow: AutoEncoder Normalizing Flow
JPH01255000A (en) Apparatus and method for selectively adding noise to template to be used in voice recognition system

Legal Events

Date Code Title Description
SUBM Surrender of laid-open application requested