KR20140066640A - Apparatus and method for constructing multi-languges acoustic model and computer readable recording medium storing for a program for performing the method - Google Patents

Apparatus and method for constructing multi-languges acoustic model and computer readable recording medium storing for a program for performing the method Download PDF

Info

Publication number
KR20140066640A
KR20140066640A KR1020130114397A KR20130114397A KR20140066640A KR 20140066640 A KR20140066640 A KR 20140066640A KR 1020130114397 A KR1020130114397 A KR 1020130114397A KR 20130114397 A KR20130114397 A KR 20130114397A KR 20140066640 A KR20140066640 A KR 20140066640A
Authority
KR
South Korea
Prior art keywords
language
training
parameter
common
acoustic model
Prior art date
Application number
KR1020130114397A
Other languages
Korean (ko)
Inventor
김남훈
모트리쎄크 페트르
엔. 가르너 필립
임성 드비드
이재원
조정미
Original Assignee
삼성전자주식회사
아이디아프 리서치 인스티튜트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 아이디아프 리서치 인스티튜트 filed Critical 삼성전자주식회사
Priority to EP20130193872 priority Critical patent/EP2736042A1/en
Priority to US14/087,490 priority patent/US10460043B2/en
Priority to CN201310603916.1A priority patent/CN103839545A/en
Publication of KR20140066640A publication Critical patent/KR20140066640A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Abstract

Provided are a device for building a multi-language acoustic model, a method for building the multi-language acoustic model, and a computer-readable medium in which a program for executing the method is recorded. The method for building the multi-language acoustic model classifies input features into a language common part and a language individual part, acquires tandem features by applying the divided language common part and language individual part to a neural network-based training, divides parameters of an acoustic model for the acquired tandem features into language common parameters and language individual parameters, adopts the language common parameters using data of a training language, adopts the language individual parameters using data of a target language, and builds an acoustic model for the target language using the adopted language common parameters and language individual parameters.

Description

다국어 음향 모델 구축 장치 및 이의 다국어 음향 모델 구축 방법, 그리고 그 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능 매체{Apparatus and Method for constructing multi-languges acoustic model and computer readable recording medium storing for a program for performing the method}TECHNICAL FIELD [0001] The present invention relates to a multi-lingual acoustic model building apparatus, a multi-lingual acoustic model building apparatus, and a computer-readable medium storing a program for performing the method, method}

본 발명은 다국어 음향 모델 구축 방법 및 이를 적용한 다국어 음향 모델 구축 장치에 관한 발명으로, 더욱 상세하게는 다국어 및 언어의 지역적 특성에 따른 사투리 등을 반영하는 음향모델을 구축하는 다국어 음향 모델 구축 방법 및 이를 적용한 다국어 음성 모델 구축 장치에 관한 것이다.The present invention relates to a method for constructing a multi-lingual acoustic model and an apparatus for constructing the multi-lingual acoustic model using the same, and more particularly to a method for constructing an acoustic model reflecting a dialect of multi- And more particularly, to a multilingual voice model construction apparatus.

최근에 출시된 스마트 폰 및 스마트 TV 등과 같은 다양한 전자 장치에는 음성 인식 기능이 제공되고 있다. 특히, 음성 인식에 사용되는 음향 모델의 경우, 통계 기반의 기술이 사용된다. Recently, various electronic devices such as smart phones and smart TVs are provided with voice recognition function. In particular, in the case of acoustic models used for speech recognition, statistical based techniques are used.

그러나, 각 나라 또는 각 지역마다 언어적 특성이 달라 하나의 음향모델로 모든 언어에 대한 음성 인식을 수행할 수 없다. 즉, 음성 인식 기술에는 음성 인식을 위하여 인식하고자 하는 언어에 대한 음향모델이 필요하다. However, it is not possible to perform speech recognition for all languages with one acoustic model because the language characteristics are different for each country or region. That is, in the speech recognition technology, an acoustic model for a language to be recognized is required for speech recognition.

한편, 음성 인식을 위한 음향모델을 구축하기 위해서는 각 언어별로 충분한 데이터를 확보해야 한다. 비교적 많은 인구가 사용하는 영어, 중국어, 이태리어, 독일어, 스페인어 등은 비교적 충분한 데이터를 확보하기 용이하나, 비교적 소수 인구가 사용하는 언어, 접근이 제한된 언어들에 대해서는 충분한 데이터의 확보가 어려운 실정이다.On the other hand, in order to construct an acoustic model for speech recognition, sufficient data must be secured for each language. It is easy to acquire comparatively sufficient data such as English, Chinese, Italian, German, and Spanish, which is used by a relatively large number of people. However, it is difficult to obtain sufficient data for a language used by a relatively small population and languages with limited access.

이러한 문제점을 해결하기 위하여, 종래에는 HMM(Hidden Markov Model)/GMM(Gaussian Mixture Model) 기반의 적응 기술을 이용하여 다국어 및 사투리에 대한 음향모델을 확보하였다. 구체적으로, 충분한 데이터가 확보된 언어의 데이터로 시드(seed) 음향모델을 구축하고, HMM/GMM기반의 적응 기법을 이용하여 구축된 시드 음향모델을 실제 구축하고자 하는 언어의 음향모델로 적응하는 방식이다.To solve these problems, acoustic models for multi-language and dialect have been secured using adaptive technology based on HMM (Hidden Markov Model) / GMM (Gaussian Mixture Model). Specifically, a seed acoustic model is constructed from data of a language in which sufficient data is secured, and a seed acoustic model constructed using an HMM / GMM-based adaptive technique is adapted to an acoustic model of a language to be actually constructed to be.

그러나, 상술한 바와 같은 HMM/GMM 기반의 다국어 및 사투리에 대한 음향모델 구축방법은 적응 기술에 이용되는 언어들 사이에 같은 음소 단위(Phone-Level unit)를 사용해야 하는 문제점이 존재한다. 즉, 영국 영어 음향모델을 확보하기 위해 미국 영어 음향모델을 훈련 음향모델을 이용할 수 있으나, 한국어 음향모델을 이용할 수 없는 단점이 존재하였다. 또한, HMM/GMM 기반의 다국어 및 사투리에 대한 음향모델 구축방법은 음성 인식의 성능향상을 위해 음향 모델을 확보하고자 하는 타겟 언어 역시 많은 데이터 량이 필요로 하는 한계가 존재하였다.However, the method of constructing an acoustic model for multilingual and dialect based on HMM / GMM as described above has a problem that the same phoneme unit (Phone-Level unit) is used between languages used in adaptive technology. In other words, although the US English acoustic model can be used as a training acoustic model in order to secure the British English acoustic model, there is a disadvantage that the Korean acoustic model can not be used. In addition, the method of constructing an acoustic model for multilingual and dialect based on HMM / GMM has a limitation in that a target language for acquiring an acoustic model also requires a large amount of data in order to improve speech recognition performance.

본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 탠덤 피처(tandem feature)와 SGMM(Subspace Gaussian Mixture Model) 기반의 적응 방법을 이용하여 구축된 음향 모델을 이용하여 다양한 언어에 대한 음성 인식을 수행할 수 있는 다국어 음향 모델을 구축하는 다국어 음성 모델 구축 장치 및 이의 다국어 음향 모델 구축 방법, 그리고 그 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능 매체를 제공함에 있다.SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problems, and it is an object of the present invention to provide a method and apparatus for generating an acoustic model using an acoustic model built using an adaptive method based on a tandem feature and a subspace Gaussian Mixture Model (SGMM) The present invention provides a multilingual speech model construction apparatus for constructing a multilingual speech model capable of performing speech recognition on a multilingual speech model, a method for constructing the multilingual speech model, and a computer readable medium having recorded thereon a program for performing the method.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 다국어 음성 모델 구축 방법은 입력 피처(feature)를 언어 공통적 부분과 언어 특징적 부분으로 구분하고, 상기 구분된 언어 공통적 부분 및 언어 특징적 부분에 대해 신경망(neural network) 기반의 훈련에 적용하여 탠덤 피처를 획득하는 단계; 및 상기 획득된 탠덤 피처에 대한 음향 모델의 파라미터를 언어 공통적 파라미터와 언어 특징적 파라미터로 분리하고, 훈련 언어의 데이터를 이용하여 상기 언어 공통적 파라미터를 적응하며, 상기 타겟 언어의 데이터를 이용하여 상기 언어 특징적 파라미터를 적응하고, 상기 적응된 언어 공통적 파라미터 및 상기 적응된 언어 특징적 파라미터를 이용하여 상기 타겟 언어에 대한 음향모델을 구축하는 단계;를 포함한다.According to an aspect of the present invention, there is provided a method for constructing a multilingual speech model, the method comprising: dividing input features into a language common part and a language characteristic part; Applying training to a neural network based training to obtain a tandem feature; And separating the parameters of the acoustic model for the obtained tandem feature into a language common parameter and a language characteristic parameter, adapting the common language parameter using data of a training language, and using the data of the target language, And constructing an acoustic model for the target language using the adapted language common parameter and the adapted language characteristic parameter.

그리고, 상기 획득하는 단계는, 상기 타겟 언어의 입력 피처를 언어 공통적 부분과 언어 특징적 부분으로 구분하는 단계; 상기 구분된 언어 공통적 부분과 언어 특징적 부분을 상기 신경망 기반의 훈련에 적용하는 단계; 및 상기 신경망 기반의 훈련에 따라 출력된 언어 공통적 부분과 언어 특징적 부분을 병합하여 탠덤 피처를 획득하는 단계;를 포함할 수 있다.The obtaining step may include: dividing an input feature of the target language into a language common part and a language characteristic part; Applying the segmented language common portion and the language characteristic portion to the neural network based training; And merging the language common portion and the language characteristic portion output according to the training based on the neural network to obtain a tandem feature.

또한, 상기 적용하는 단계는, 상기 신경망을 이용하여 상기 언어 공통적 부분과 언어 특징적 부분에 대한 음소들의 사후 확률값을 추정하는 단계; 및 상기 음소들간의 연관성을 제거하는 단계;를 포함할 수 있다.The applying step may include estimating a posterior probability value of the phonemes for the common language part and the language characteristic part using the neural network; And removing the association between the phonemes.

그리고, 상기 추정하는 단계는, MLP(Multi Layer Perceptron)를 이용하여 상기 훈련 언어에 대한 음소들의 사후 확률값을 추정하며, 상기 제거하는 단계는, PCA(Principal Component Analysis)를 이용하여 상기 음소들간의 연관성을 제거할 수 있다.The estimating step may include estimating a posterior probability value of phonemes for the training language using MLP (Multi Layer Perceptron), and the removing step may include calculating a correlation between the phonemes using PCA (Principal Component Analysis) Can be removed.

또한, 상기 언어 공통적인 부분은 상기 훈련 언어 데이터를 이용하여 상기 신경망 기반의 훈련에 적용하며, 상기 언어 특징적인 부분은 상기 타겟 언어 데이터를 이용하여 상기 신경망기반의 훈련에 적용할 수 있다.The language common part may be applied to the neural network based training using the training language data, and the language characteristic part may be applied to the neural network based training using the target language data.

그리고, 상기 구축하는 단계는, 상기 획득된 탠덤 피처에 대해 SGMM(Subspace Gaussian Mixture Model)훈련을 수행하여 SGMM 음향모델을 구축하는 단계; 상기 SGMM 음향모델의 파라미터를 언어 공통적 파라미터와 언어 특징적 파라미터로 분리하는 단계; 상기 훈련 언어 데이터를 이용하여 상기 언어 공통적 파라미터를 적응하고, 상기 타겟 언어 데이터를 이용하여 상기 언어 특징적 파라미터를 적응하는 단계; 및 상기 훈련 언어를 이용하여 적응된 언어 공통적 파라미터와 상기 타겟 언어를 이용하여 적응된 언어 특징적 파라미터를 병합하여 상기 타겟 언어에 대한 음향모델을 구축하는 단계;를 포함할 수 있다.The building step may include constructing an SGMM acoustic model by performing a Subspace Gaussian Mixture Model (SGMM) training on the obtained tandem feature; Separating the parameters of the SGMM acoustic model into a language common parameter and a language characteristic parameter; Adapting the language common parameter using the training language data and adapting the language characteristic parameter using the target language data; And constructing an acoustic model for the target language by merging the language common parameter adapted using the training language and the language characteristic parameter adapted using the target language.

또한, 상기 적응하는 단계는, MLLR(Maximum Likelihood Linear Regression) 알고리즘 및 MAP(Maximum A Posteriori) 알고리즘 중 하나를 이용하여 적응할 수 있다.Also, the adaptation step may be adaptable using one of Maximum Likelihood Linear Regression (MLLR) and Maximum A Posteriori (MAP) algorithms.

그리고, 상기 훈련 언어의 데이터량은 상기 타겟 언어의 데이터량보다 많을 수 있다.The data amount of the training language may be larger than the data amount of the target language.

한편, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 다국어 음향 모델 구축 장치는 타겟 언어의 입력 피처(feature)를 언어 공통적 부분과 언어 특징적 부분으로 구분하고, 상기 구분된 언어 공통적 부분 및 언어 특징적 부분을 신경망(neural network) 기반의 훈련에 적용하여 탠덤 피처를 획득하는 탠덤 피처 획득부; 및 상기 획득된 탠덤 피처에 대한 음향 모델의 파라미터를 언어 공통적 파라미터와 언어 특징적 파라미터로 분리하고, 훈련 언어의 데이터를 이용하여 상기 언어 공통적 파라미터를 적응하며, 상기 타겟 언어의 데이터를 이용하여 상기 언어 특징적 파라미터를 적응하고, 상기 적응된 언어 공통적 파라미터 및 상기 적응된 언어 특징적 파라미터를 이용하여 상기 타겟 언어에 대한 음향모델을 구축하는 음향모델 훈련부;를 포함한다.According to another aspect of the present invention, there is provided an apparatus for constructing a multi-lingual acoustic model, the apparatus comprising: a speech synthesis unit configured to classify input features of a target language into a language common part and a language characteristic part; A tandem feature acquisition unit for acquiring a tandem feature by applying a language characteristic portion to training based on a neural network; And separating the parameters of the acoustic model for the obtained tandem feature into a language common parameter and a language characteristic parameter, adapting the common language parameter using data of a training language, and using the data of the target language, And an acoustic model training unit for adapting the parameters and constructing an acoustic model for the target language using the adapted language common parameter and the adapted language characteristic parameter.

그리고, 상기 탠덤 피처 획득부는, 상기 타겟 언어의 입력 피처를 언어 공통적 부분과 언어 특징적 부분으로 구분하는 분리부; 상기 구분된 언어 공통적 부분과 언어 특징적 부분을 상기 신경망 기반의 훈련에 적용하는 훈련부; 및 상기 신경망 기반의 훈련에 따라 출력된 언어 공통적 부분과 언어 특징적 부분을 병합하여 탠덤 피처를 획득하는 피처 병합부;를 포함할 수 있다.The tandem feature acquisition unit may include a separator for separating the input features of the target language into a language common portion and a language characteristic portion; A training unit for applying the divided language common portion and the language characteristic portion to the neural network-based training; And a feature merging unit for merging the language common portion and the language characteristic portion output according to the neural network-based training to obtain a tandem feature.

또한, 상기 훈련부는, 상기 신경망을 이용하여 상기 언어 공통적 부분과 언어 특징적 부분에 대한 음소들의 사후 확률값을 추정하는 추정부; 및 상기 음소들간의 연관성을 제거하는 제거부;를 포함할 수 있다.The training unit may further include: an estimating unit that estimates a posterior probability value of the phonemes for the common language part and the language characteristic part using the neural network; And removing the association between the phonemes.

그리고, 상기 추정부는, MLP(Multi Layer Perceptron)를 이용하여 상기 훈련 언어에 대한 음소들의 사후 확률값을 추정하며, 상기 제거부는, PCA(Principal Component Analysis)를 이용하여 상기 음소들간의 연관성을 제거할 수 있다.The estimator may estimate a posterior probability value of the phonemes for the training language using a MLP (Multi Layer Perceptron), and the eliminator may remove a correlation between the phonemes using PCA (Principal Component Analysis) have.

또한, 상기 언어 공통적인 부분은 상기 훈련 언어 데이터를 이용하여 상기 신경망 기반의 훈련에 적용하며, 상기 언어 특징적인 부분은 상기 타겟 언어 데이터를 이용하여 상기 신경망기반의 훈련에 적용할 수 있다.The language common part may be applied to the neural network based training using the training language data, and the language characteristic part may be applied to the neural network based training using the target language data.

그리고, 상기 음향모델 훈련부는, 상기 획득된 탠덤 피처에 대해 SGMM(Subspace Gaussian Mixture Model)훈련을 수행하여 SGMM 음향모델을 구축하는 SGMM 음향모델부; 상기 SGMM 음향모델의 파라미터를 언어 공통적 파라미터와 언어 특징적 파라미터로 분리하는 파라미터 분리부; 상기 훈련 언어 데이터를 이용하여 상기 언어 공통적 파라미터를 적응하고, 상기 타겟 언어 데이터를 이용하여 상기 언어 특징적 파라미터를 적응하는 적응부; 및 상기 훈련 언어를 이용하여 적응된 언어 공통적 파라미터와 상기 타겟 언어를 이용하여 적응된 언어 특징적 파라미터를 병합하여 상기 타겟 언어에 대한 음향모델을 구축하는 파라미터 병합부;를 포함할 수 있다.The acoustic model training unit may include an SGMM acoustic model unit configured to perform an SGMM (Subspace Gaussian Mixture Model) training on the obtained tandem feature to construct an SGMM acoustic model; A parameter separator for separating the parameters of the SGMM acoustic model into a language common parameter and a language characteristic parameter; An adaptation unit adapted to adapt the language common parameter using the training language data and adapt the language characteristic parameter using the target language data; And a parameter merge unit for constructing an acoustic model for the target language by merging the language common parameter adapted using the training language and the language characteristic parameter adapted using the target language.

또한, 상기 적응부는, MLLR(Maximum Likelihood Linear Regression) 알고리즘 및 MAP(Maximum A Posteriori) 알고리즘 중 하나를 이용하여 적응할 수 있다.Also, the adaptation unit may adapt using one of Maximum Likelihood Linear Regression (MLLR) algorithm and MAP (Maximum A Posteriori) algorithm.

그리고, 상기 훈련 언어의 데이터량은 상기 타겟 언어의 데이터량보다 많을 수 있다.The data amount of the training language may be larger than the data amount of the target language.

한편, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 다국어 음향 모델 구축 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체는 입력 피처(feature)를 언어 공통적 부분과 언어 특징적 부분으로 구분하고, 상기 구분된 언어 공통적 부분 및 언어 특징적 부분을 신경망(neural network) 기반의 훈련에 적용하여 탠덤 피처를 획득하는 단계; 및 상기 획득된 탠덤 피처에 대한 음향 모델의 파라미터를 언어 공통적 파라미터와 언어 특징적 파라미터로 분리하고, 훈련 언어의 데이터를 이용하여 상기 언어 공통적 파라미터를 적응하며, 상기 타겟 언어의 데이터를 이용하여 상기 언어 특징적 파라미터를 적응하고, 상기 적응된 언어 공통적 파라미터 및 상기 적응된 언어 특징적 파라미터를 이용하여 상기 타겟 언어에 대한 음향모델을 구축하는 단계;를 포함하는 음향 모델 구축 방법을 저장한다.According to another aspect of the present invention, there is provided a computer-readable recording medium storing a program for performing a method for constructing a multilingual acoustic model, the method comprising: dividing input features into a language common part and a language characteristic part; And applying the segmented language common and language characteristic portions to training based on a neural network to obtain a tandem feature; And separating the parameters of the acoustic model for the obtained tandem feature into a language common parameter and a language characteristic parameter, adapting the common language parameter using data of a training language, and using the data of the target language, And constructing an acoustic model for the target language using the adapted language common parameter and the adapted language characteristic parameter.

상술한 바와 같은 본 발명의 다양한 실시예에 의해, 풍부한 데이터량을 가지는 언어를 이용하여 훨씬 적은 데이터량을 가지는 타겟 언어에 대한 음향 모델을 구축함으로써, 사용자는 다국어 및 사투리에 대한 음성 인식 역시 가능해 질 수 있다. 또한, 탠덤 피처와 SGMM의 음향 모델을 함께 이용함으로써, 음성 인식 기능이 더욱 향상될 수 있다.According to various embodiments of the present invention as described above, by building an acoustic model for a target language having a much smaller amount of data using a language having a large amount of data, a user can also recognize speech in multiple languages and dialects . Further, by using the acoustic models of the tandem feature and the SGMM together, the speech recognition function can be further improved.

도 1은 본 발명의 일 실시예에 따른, 다국어 음성 인식 장치의 구성을 나타내는 블럭도,
도 2는 본 발명의 일 실시예에 따른, 탠덤 피처 획득부의 구성을 나타내는 블럭도,
도 3은 본 발명의 일 실시예에 따른, 음향모델 훈련부의 구성을 나타내는 블럭도,
도 4a 및 도 4b는 본 발명의 일 실시예에 따른, HMM/GMM 기반의 음향 모델 및 SGMM 기반의 음향 모델을 설명하기 위한 도면, 그리고,
도 5는 본 발명의 일 실시예에 따른, 다국어 음향 모델 구축 방법을 설명하기 위한 흐름도이다.
1 is a block diagram showing a configuration of a multilingual speech recognition apparatus according to an embodiment of the present invention;
2 is a block diagram showing the configuration of a tandem feature obtaining unit according to an embodiment of the present invention;
3 is a block diagram showing a configuration of an acoustic model training unit according to an embodiment of the present invention;
4A and 4B are views for explaining an HMM / GMM-based acoustic model and an SGMM-based acoustic model according to an embodiment of the present invention,
5 is a flowchart illustrating a method for constructing a multi-lingual acoustic model according to an embodiment of the present invention.

이하에서는 도면을 참조하여 본 발명에 대해 더욱 상세히 설명하도록 한다. 도 1은 본 발명의 일 실시예에 따른 다국어 음성 모델 구축 장치(100)의 구성을 나타내는 블럭도이다. 도 1에 도시된 바와 같이, 다국어 음성 인식 장치(100)는 탠덤 피처 획득부(110), 음향모델 훈련부(120), 훈련 언어 입력부(130) 및 타겟 언어 입력부(140)를 포함한다. 한편, 이하에서 설명하는 "타겟 언어"는 사용자가 인식하고자 하는 적은 데이터 량의 언어이며, "훈련 언어"는 타겟 언어를 획득하기 위해 이용되는 많은 데이터 량의 언어로서, 훈련 언어의 데이터 량이 타겟 언어의 데이터 량보다 많을 수 있다. 예를 들어, 타겟 언어는 아랍어가 될 수 있으며, 훈련 언어는 영어가 될 수 있다.Hereinafter, the present invention will be described in more detail with reference to the drawings. 1 is a block diagram showing a configuration of an apparatus 100 for constructing a multi-lingual voice model according to an embodiment of the present invention. 1, the multilingual speech recognition apparatus 100 includes a tandem feature acquisition unit 110, an acoustic model training unit 120, a training language input unit 130, and a target language input unit 140. On the other hand, the "target language" described below is a language with a small amount of data to be recognized by the user, and the "training language" is a language of a large amount of data used for acquiring a target language, Lt; / RTI > For example, the target language may be Arabic, and the training language may be English.

탠덤 피처(Tandem feature) 획득부(110)는 도 1에 도시된 바와 같이, 입력 피처(feature)를 언어 공통적 부분과 언어 특징적 부분으로 구분하고, 구분된 언어 공통적 부분 및 언어 특징적 부분을 신경망(neural network) 기반의 훈련에 적용하여 탠덤 피처를 획득한다. The tandem feature acquisition unit 110 divides an input feature into a language common portion and a language characteristic portion, as shown in FIG. 1, and divides the divided common language portion and the language characteristic portion into neural network-based training to obtain a tandem feature.

탠덤 피처 획득부(110)에 대해서는 도 2를 참조하여 상세히 설명하기로 한다. 탠덤 피처 획득부(110)는 분리부(111), 훈련부(113), 피처 병합부(115)를 포함할 수 있다. The tandem feature obtaining unit 110 will be described in detail with reference to FIG. The tandem feature obtaining unit 110 may include a separating unit 111, a training unit 113, and a feature merging unit 115.

분리부(111)는 입력 피처에 대해 언어 공통적 부분과 언어 특징적 부분을 구분할 수 있다. 이때, 언어 공통적 부분은 입력되는 언어와 상관없이 언어 공통적인 부분이며, 언어 특징적 부분은 입력되는 언어와 연관된 언어 특징적인 부분이다.The separator 111 can distinguish between the language common portion and the language characteristic portion for the input feature. In this case, the common part of the language is a common part of the language regardless of the input language, and the characteristic part of the language is a characteristic part of the language associated with the input language.

훈련부(113)는 구분된 언어 공통적 부분과 언어 특징적 부분에 대해 신경망(neural network) 기반의 훈련에 적용한다. 특히, 훈련부(113)는 훈련 언어의 데이터를 이용하여 언어 공통적 부분을 훈련할 수 있으며, 타겟 언어의 데이터를 이용하여 언어 특징적 부분을 훈련할 수 있다. 특히, 훈련부(113)는 도 2에 도시된 바와 같이, 추정부(113-1) 및 제거부(113-2)를 포함할 수 있다. 추정부(113-1)는 언어 공통적 부분에 대해 훈련 언어 입력부(130)로부터 입력된 훈련 언어의 데이터로부터 훈련 언어의 음소에 대한 사후 확률값을 추정한다. 또한, 추정부(113-1)는 언어 특징적 부분에 대해 타겟 언어 입력부(140)로부터 입력된 타겟 언어의 데이터로부터 타겟 언어의 음소에 대한 사후 확률값을 추정한다. 이때, 추정부(113-1)는 MLP(Multi Layer Perceptron)와 같은 신경망(neural network)을 이용하여 음소들의 사후 확률값을 추정할 수 있다. 제거부(113-2)는 주성분 분석(Principal Component Analysis: PCA)을 통해 음소들간의 연관성(correlation)을 제거한다. 구체적으로, PCA는 서로 연관이 있는 변수들(x1, x2, x3,…xp)이 관측되었을 때, 여러 변수들이 가지고 있는 정보들을 최대한 확보하는 적은 수의 새로운 변수들을 생성하는 것으로서, 제거부(113-2)는 PCA를 통해 서로 연관이 있는 훈련 언어의 음소들 간의 연관성을 제거하여 언어 공통적 부분 및 언어 특징적 부분에 대한 탠덤 피처를 획득할 수 있다.The training unit 113 applies neural network-based training to the divided language common parts and language characteristic parts. In particular, the training unit 113 can train the common language part using the data of the training language, and can train the language characteristic part using the data of the target language. In particular, as shown in FIG. 2, the training unit 113 may include an estimation unit 113-1 and a removal unit 113-2. The estimator 113-1 estimates a posterior probability value for the phonemes of the training language from the training language data input from the training language input unit 130 for the common language part. The estimator 113-1 estimates a posterior probability value for the phoneme of the target language from the data of the target language input from the target language input unit 140 for the language characteristic portion. At this time, the estimator 113-1 may estimate a posterior probability value of the phonemes using a neural network such as MLP (Multi Layer Perceptron). The removal unit 113-2 removes the correlation between the phonemes through Principal Component Analysis (PCA). Specifically, the PCA generates a small number of new variables that maximize the information held by the plurality of variables when the mutually related variables (x1, x2, x3, ... xp) are observed. -2) can obtain tandem features for the common language and linguistic features of the language by removing the association between the phonemes of the training languages associated with each other through the PCA.

피처 병합부(115)는 언어 공통적 부분의 탠덤 피처와 언어 특징적 부분에 대한 탠덤 피처를 병합하여 타겟 언어에 대한 탠덤 피처를 획득한다.The feature merge unit 115 merges the tandem features for the language common portion and the tandem feature for the language characteristic portion to obtain a tandem feature for the target language.

상술한 바와 같은 탠덤 피처 획득부(110)를 통해, 다국어 음향 모델 구축 장치(100)는 훈련 언어 데이터 및 타겟 언어 데이터로부터 사용자가 인식하고자 하는 타겟 언어의 탠덤 피처를 획득할 수 있게 된다.Through the tandem feature acquisition unit 110 as described above, the multilingual acoustic model construction apparatus 100 can acquire tandem features of the target language that the user desires to recognize from the training language data and the target language data.

한편, 상술한 실시예에서는 추정부(113-1)가 MLP를 이용하여 사후 확률값을 추정하는 방법은 일 실시예에 불과할 뿐, 다른 신경망을 이용하여 음소들의 사후 확률값을 추정할 수 있다. Meanwhile, in the above-described embodiment, the estimation unit 113-1 estimates the posterior probability value using the MLP is an example only, and the posterior probability value of the phonemes can be estimated using another neural network.

다시 도 1에 대해 설명하면, 음향모델 훈련부(120)는 탠덤 피처 획득부(110)를 통해 획득된 탠덤 피처를 이용하여 음향모델을 구축하고, 음향모델의 파라미터를 언어 공통적 파라미터와 언어 특징적 파라미터로 분리하며, 훈련 언어 입력부(130)를 통해 입력된 훈련 언어 데이터를 이용하여 언어 공통적 파라미터를 적응하고, 타겟 언어 입력부(140)를 통해 입력된 타겟 언어 데이터를 이용하여 언어 특징적 파라미터를 적응하며, 각각 적응된 언어 공통적 파라미터 및 언어 특징적 파라미터를 이용하여 타겟 언어를 인식하는데 이용되는 음향모델을 구축할 수 있다.1, the acoustic model training unit 120 constructs an acoustic model using the tandem feature obtained through the tandem feature acquisition unit 110, and sets the acoustic model parameters as a language common parameter and a language characteristic parameter Adapt the language common parameters using the training language data input through the training language input unit 130, adapt the language characteristic parameters using the target language data input through the target language input unit 140, An acoustic model used to recognize the target language can be constructed using the adapted language common parameters and language characteristic parameters.

특히, 음향모델 훈련부(120)에 대해서는 도 3 내지 도 4b를 참조하여 설명하기로 한다. 음향모델 훈련부(120)는 도 3에 도시된 바와 같이, SGMM 음향모델 훈련부(121), 파라미터 분리부(123), 적응부(125) 및 파라미터 병합부(127)를 포함한다.In particular, the acoustic model training unit 120 will be described with reference to Figs. 3 to 4B. The acoustic model training unit 120 includes an SGMM acoustic model training unit 121, a parameter separating unit 123, an adaptive unit 125 and a parameter merging unit 127, as shown in FIG.

SGMM 음향모델 훈련부(121)는 입력된 탠덤 피처에 대한 SGMM 기반의 음향 모델을 구축한다. SGMM 음향모델 훈련부(121)는 기존의 HMM/GMM 기반의 음향 모델이 아닌 SGMM 기반의 음향 모델을 구축할 수 있다. HMM/GMM 기반의 음향 모델 및 SGMM 기반의 음향 모델에 대해서는 도 4a 및 도 4b를 참조하여 설명하기로 한다.The SGMM acoustic model training unit 121 constructs an SGMM-based acoustic model for the input tandem feature. The SGMM acoustic model training unit 121 can construct an SGMM based acoustic model instead of the existing HMM / GMM based acoustic model. The HMM / GMM-based acoustic model and the SGMM-based acoustic model will be described with reference to FIGS. 4A and 4B.

도 4a는 종래의 HMM/GMM 기반의 음향 모델 구조를 나타내는 도식도이다. HMM은 도 4a에 도시된 바와 같이 복수의 스테이트(state)로 연결되어 있다. 각 스테이트는 음향모델 공간에서 복수의 가우시안(Gaussian)에 서로 다른 가중치를 갖는 믹스쳐(mixture)로 모델링되어 있다. 수학식 1은 HMM/GMM 기반의 음향모델에서 스테이트 확률을 나타내는 수식이다.4A is a schematic diagram illustrating a conventional HMM / GMM based acoustic model structure. The HMM is connected in a plurality of states as shown in FIG. 4A. Each state is modeled as a mixture with different weights in a plurality of Gaussian in the acoustic model space. Equation (1) is a formula representing a state probability in an HMM / GMM-based acoustic model.

Figure pat00001
Figure pat00001

이때, ω는 가우시안(Gaussian) 가중치이며, μ는 mean이며, Σ는 variance이다.Where ω is the Gaussian weight, μ is the mean, and Σ is the variance.

HMM/GMM 기반의 음향 모델은 각 스테이트가 음향모델 공간에서 직접적으로 파라미터와 연결되어 있다. 즉, 각 스테이트는 각 스테이트를 대표하는 GMM을 가지며, 대표하는 GMM을 이용하여 입력 피처(feature) 값에 대한 스테이트 확률값을 계산하게 된다. 각 스테이트의 GMM은 많은 데이터로부터 추정하게 되는 통계모델이므로, 데이터가 많을수록 신뢰성 있는 HMM/GMM 기반의 음향 모델을 추정할 수 있다. 즉, 기존에는 타겟 언어에 대해서도 많은 데이터가 필요하게 되었다.The HMM / GMM based acoustic model has its states directly connected to the parameters in the acoustic model space. That is, each state has a GMM representative of each state, and a state probability value for an input feature value is calculated using a representative GMM. Since the GMM of each state is a statistical model estimated from a large amount of data, reliable HMM / GMM-based acoustic models can be estimated as more data are available. That is, a lot of data is required for the target language.

한편, 도 4b는 본 발명의 일 실시예에 따른 SGMM 기반의 음향 모델 구조를 나타내는 도식도이다. 도 4b에 도시된 바와 같이, SGMM 기반의 음향 모델 구조는 HMM이 여러 스테이트의 연결로 구성되어 있다는 점에서 기존의 HMM/GMM 기반의 음향 모델 구조와 유사하나, GMM 파라미터 값들이 직접 스테이트와 연결되어 있지 않고, 서브-스테이트와 연결되어 스테이트와 연결된다. 수학식 2는 SGMM 기반의 음향 모델에서 스테이트 확률을 나타내는 수식이다.Meanwhile, FIG. 4B is a schematic diagram illustrating an SGMM-based acoustic model structure according to an embodiment of the present invention. As shown in FIG. 4B, the SGMM-based acoustic model structure is similar to the HMM / GMM-based acoustic model structure in that the HMM is composed of connections of various states, but the GMM parameter values are directly connected to the state And is connected to the sub-state and connected to the state. Equation (2) is an equation representing the state probability in an SGMM-based acoustic model.

Figure pat00002
Figure pat00002

이때, ω는 가우시안(Gaussian) 가중치이며, μ는 mean이며, Σ는 varianced 이며, M은 서브-스테이트 메트릭스이고, v와 w는 서브-스테이트 벡터이다. 서브-스테이트 개념을 도입함으로써, SGMM 기반의 음향 모델은 적은 량의 타겟 언어의 데이터를 이용하여 음향 모델을 생성할 수 있으며, 음소 단위가 다른 이종 간의 언어에서도 파라미터 공유가 가능해 진다.Where ω is the Gaussian weight, μ is the mean, Σ is variant, M is the sub-state matrix, and v and w are the sub-state vectors. By introducing the sub-state concept, the SGMM-based acoustic model can generate acoustic models using data in a small amount of target language, and parameters can be shared even in heterogeneous languages with different phoneme units.

파라미터 분리부(123)는 SGMM 음향모델 훈련부(132)를 통해 획득된 SGMM 음향모델의 파라미터를 언어 공통적 파라미터와 언어 특징적 파라미터로 분리한다. 이때, 파라미터 분리부(123)는 언어 공통적 파라미터로 가우시안 가중치(w), mean(μ), variance(Σ), 서브-스테이트 벡터(v)를 추출하며, 언어 특징적 파라미터로 서브-스테이트 메트릭스(M), 서브-스테이트(w)를 추출할 수 있다.The parameter separating unit 123 separates the parameters of the SGMM acoustic model obtained through the SGMM acoustic model training unit 132 into a language common parameter and a language characteristic parameter. At this time, the parameter separator 123 extracts the Gaussian weight w, mean (), variance (), and sub-state vector v as common language parameters and outputs the sub- ), And the sub-state (w).

그리고, 파라미터 분리부(123)는 분리된 언어 공통적 파라미터와 언어 특징적 파라미터를 적응부(125)로 출력할 수 있다.The parameter separating unit 123 may output the separated language common parameter and the language characteristic parameter to the adaptation unit 125. [

적응부(125)는 파라미터 분리부(123)로부터 분리되어 언어 공통적 파라미터 및 언어 특징적 파라미터를 다양한 알고리즘을 통해 적응할 수 있다. 이때, 적응부(125)는 훈련 언어 입력부(130)를 통해 입력된 훈련 언어 데이터를 이용하여 언어 공통적 파라미터를 적응할 수 있으며, 타겟 언어 입력부(140)를 통해 입력된 타겟 언어 데이터를 이용하여 언어 특징적 파라미터를 적응할 수 있다.The adaptation unit 125 can separate from the parameter separation unit 123 and adapt the language common parameter and the language characteristic parameter through various algorithms. At this time, the adaptation unit 125 may adapt the common language parameter using the training language data input through the training language input unit 130, and may use the target language data input through the target language input unit 140, Parameters can be adapted.

여기서, 적응부(125)는 MLLR(Maximum Likelihood Linear Regression) 알고리즘 및 MAP(Maximum A Posteriori) 알고리즘 중 하나를 이용하여 언어 공통적 파라미터 및 언어 특징적 파라미터로 적응할 수 있다.Here, the adaptation unit 125 may adapt to the language common parameter and the language characteristic parameter using one of a Maximum Likelihood Linear Regression (MLLR) algorithm and a Maximum A Posteriori (MAP) algorithm.

적응부(125)는 언어 공통적 파라미터 및 언어 특징적 파라미터에 대한 정보를 병합부(127)로 출력할 수 있다.The adaptation unit 125 may output the information on the language common parameter and the language characteristic parameter to the merging unit 127. [

파라미터 병합부(127)는 적응부(125)로부터 출력된 언어 공통적 파라미터와 언어 특징적 파라미터를 병합하여 타겟 언어에 대한 음향 모델을 구축할 수 있다.The parameter merging unit 127 may construct an acoustic model for the target language by merging the language common parameter and the language characteristic parameter output from the adaptation unit 125. [

상술한 바와 같은 음향모델 훈련부(120)는 풍부한 데이터량을 가지는 언어를 이용하여 훨씬 적은 데이터량을 가지는 타겟 언어에 대한 음향 모델을 구축할 수 있어, 향후 사용자가 음소 단위가 상이한 이종 언어에 대한 음성 인식을 수행할 수 있도록 한다.The acoustic model training unit 120 as described above can build an acoustic model for a target language having a much smaller amount of data using a language having a large amount of data, So that recognition can be performed.

다시 도 1에 대해 설명하면, 훈련 언어 입력부(130)는 탠덤 피처 획득부(110) 및 음향모델 훈련부(120)에 훈련 언어 데이터를 제공한다. 특히, 훈련 언어 입력부(130)는 언어 공통적인 부분에 대한 탠덤 피처를 획득하기 위하여 탠덤 피처 획득부(110)에 훈련 언어 데이터를 제공하며, 언어 공통적 파라미터를 적응하기 위하여 음향모델 훈련부(120)에 훈련 언어 데이터를 제공할 수 있다. 이때, 훈련 언어 입력부(130)가 제공하는 훈련 언어는 영어와 같이 데이터량이 많은 언어일 수 있다.1, the training language input unit 130 provides the training language data to the tandem feature obtaining unit 110 and the acoustic model training unit 120. As shown in FIG. In particular, the training language input unit 130 provides training language data to the tandem feature acquisition unit 110 to acquire a tandem feature for a common part of the language, and provides training language data to the acoustic model training unit 120 Training language data. At this time, the training language provided by the training language input unit 130 may be a language having a large amount of data such as English.

타겟 언어 입력부(140)는 탠덤 피처 획득부(110) 및 음향모델 훈련부(120)에 타겟 언어 데이터를 제공한다. 특히, 타겟 언어 입력부(140)는 언어 특징적인 부분에 대한 탠덤 피처를 획득하기 위하여 탠덤 피처 획득부(110)에 타겟 언어 데이터를 제공하며, 언어 특징적 파라미터를 적응하기 위하여 음향모델 훈련부(120)에 타겟 언어 데이터를 제공할 수 있다. 이때, 타겟 언어 입력부(140)가 제공하는 타겟 언어는 아랍어, 아프리카어 등과 같이 데이터량이 적은 언어일 수 있다.
The target language input unit 140 provides target language data to the tandem feature acquisition unit 110 and the acoustic model training unit 120. In particular, the target language input unit 140 provides target language data to the tandem feature acquisition unit 110 to obtain a tandem feature for the linguistic characteristic portion, and supplies the target language data to the acoustic model training unit 120 It is possible to provide target language data. At this time, the target language provided by the target language input unit 140 may be a language having a small amount of data such as Arabic, African, and the like.

이하에서는 도 5를 참조하여, 본 발명의 일 실시예에 따른 다국어 음향 모델 구축 장치(100)의 다국어 음향 모델 구축 방법에 해 설명하기로 한다.Hereinafter, a method for constructing a multilingual acoustic model of an apparatus 100 for constructing a multilingual acoustic model according to an embodiment of the present invention will be described with reference to FIG.

우선, 다국어 음향 모델 구축 장치(100)는 입력 피처를 언어 공통적 부분과 언어 특징적 부분으로 구분하고, 구분된 언어 공통적 부분 및 언어 특징적 부분을 신경망 기반의 훈련에 적용하여 탠덤 피처를 획득한다(S510). 이때, 언어 공통적 부분은 입력되는 언어와 무관한 요소로서, 훈련 언어 데이터를 이용하여 신경망 기반의 훈련을 적용할 수 있으며, 언어 특징적 부분은 입력되는 언어에 종속되는 요소로서, 타겟 언어 데이터를 이용하여 신경망 기반의 훈련을 적용할 수 있다. 여기서, 훈련 언어는 타겟 언어보다 많은 량의 데이터를 가지는 언어일 수 있다.First, the multi-lingual acoustic model construction apparatus 100 divides an input feature into a language common part and a language characteristic part, and applies a divided common language part and a language characteristic part to training based on a neural network to acquire a tandem feature (S510) . In this case, the common part of the language is irrelevant to the input language, and it is possible to apply the neural network-based training using the training language data. The language characteristic part is an element dependent on the input language, Neural network based training can be applied. Here, the training language may be a language having a larger amount of data than the target language.

그리고, 다국어 음향 모델 구축 장치(100)는 탠덤 피처에 대한 음향 모델의 파라미터를 언어 공통적 파라미터와 언어 특징적 파라미터로 분리하고, 훈련 언어 데이터를 이용하여 언어 공통적 파라미터를 적응하며, 타겟 언어 데이터를 이용하여 언어 특징적 파라미터를 적응하고, 적응된 언어 공통적 파라미터 및 적응된 언어 특징적 파라미터를 이용하여 타겟 언어에 대한 음향 모델을 구축한다(S520). 이때, 다국어 음향 모델 구축 장치(100)는 입력된 탠덤 피처에 대한 SGMM 기반의 음향 모델을 구축하고, SGMM 기반의 음향 모델의 파라미터를 언어 공통적 파라미터 및 언어 특징적 파라미터로 분리할 수 있다. Then, the multilingual acoustic model construction apparatus 100 separates the parameters of the acoustic model for the tandem feature into language common parameters and language characteristic parameters, adapts language common parameters using the training language data, and uses the target language data Adapt the language characteristic parameters, and build an acoustic model for the target language using the adapted language common parameters and the adapted language characteristic parameters (S520). At this time, the multilingual acoustic model construction apparatus 100 can construct an SGMM-based acoustic model for the input tandem feature, and can separate the parameters of the SGMM-based acoustic model into language common parameters and language characteristic parameters.

상술한 바와 같이, 풍부한 데이터량을 가지는 언어를 이용하여 훨씬 적은 데이터량을 가지는 타겟 언어에 대한 음향 모델을 구축함으로써, 사용자는 음소 단위가 상이한 다국어 및 사투리에 대해 음성 인식이 가능해 질 수 있다. 또한, 탠덤 피처와 SGMM의 음향 모델을 함께 이용함으로써, 음성 인식 기능이 더욱 향상될 수 있다.
As described above, by building an acoustic model for a target language having a much smaller amount of data using a language having a large amount of data, the user can be enabled to recognize speech in multiple languages and dialects with different phoneme units. Further, by using the acoustic models of the tandem feature and the SGMM together, the speech recognition function can be further improved.

한편, 상술한 다양한 실시 예에 따른 다국어 음향 모델 구축 방법은 프로그램으로 구현되어 다국어 음성 인식 장치에 제공될 수 있다. Meanwhile, the method for constructing a multilingual acoustic model according to various embodiments described above may be implemented as a program and provided to a multilingual speech recognition apparatus.

구체적으로는, 훈련 언어 데이터를 이용하여 탠덤 피처(tandem feature)를 획득하는 단계 상기 훈련 언어 데이터를 이용하여 제1 음향모델을 구축하고, 상기 제1 음향모델의 파라미터를 언어 공통적 파라미터와 언어 특징적 파라미터로 분리하며, 상기 언어 특징적 파라미터를 이용하여 타겟 언어를 적응하며, 상기 언어 공통적 파라미터 및 상기 타겟 언어에 적응된 언어 특징적 파라미터를 이용하여 제2 음향모델을 구축하는 단계; 및 상기 탠덤 피처 및 상기 제2 음향모델을 이용하여 상기 타겟 언어에 대한 음성 인식을 수행하는 단계를 포함하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다. Specifically, the method includes acquiring a tandem feature using training language data, constructing a first acoustic model using the training language data, and setting parameters of the first acoustic model as a language common parameter and a language characteristic parameter Constructing a second acoustic model using the language common parameter and the language characteristic parameters adapted to the target language, adapting the target language using the language characteristic parameter; And performing a speech recognition for the target language using the tandem feature and the second acoustic model. ≪ RTI ID = 0.0 > [0006] < / RTI >

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.A non-transitory readable medium is a medium that stores data for a short period of time, such as a register, cache, memory, etc., but semi-permanently stores data and is readable by the apparatus. In particular, the various applications or programs described above may be stored on non-volatile readable media such as CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM,

또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, but, on the contrary, It will be understood by those skilled in the art that various changes in form and detail may be made therein without departing from the spirit and scope of the present invention.

110: 음성 입력부 120: 탠덤 피처 획득부
130: 음향모델 훈련부 140: 음성 인식부
150: 출력부
110: voice input unit 120: tandem feature obtaining unit
130: Acoustic model training unit 140: Speech recognition unit
150:

Claims (17)

입력 피처(feature)를 언어 공통적 부분과 언어 특징적 부분으로 구분하고, 상기 구분된 언어 공통적 부분 및 언어 특징적 부분에 대해 신경망(neural network) 기반의 훈련에 적용하여 탠덤 피처를 획득하는 단계; 및
상기 획득된 탠덤 피처에 대한 음향 모델의 파라미터를 언어 공통적 파라미터와 언어 특징적 파라미터로 분리하고, 훈련 언어의 데이터를 이용하여 상기 언어 공통적 파라미터를 적응하며, 상기 타겟 언어의 데이터를 이용하여 상기 언어 특징적 파라미터를 적응하고, 상기 적응된 언어 공통적 파라미터 및 상기 적응된 언어 특징적 파라미터를 이용하여 상기 타겟 언어에 대한 음향모델을 구축하는 단계;를 포함하는 다국어 음성 모델 구축 방법.
Classifying the input features into a language common portion and a language characteristic portion and applying the neural network based training to the separated language common portion and language characteristic portion to obtain a tandem feature; And
Separating a parameter of an acoustic model for the obtained tandem feature into a language common parameter and a language characteristic parameter, adapting the common language parameter using data of a training language, and using the data of the target language, And constructing an acoustic model for the target language using the adapted language common parameter and the adapted language characteristic parameter.
제1항에 있어서,
상기 획득하는 단계는,
상기 타겟 언어의 입력 피처를 언어 공통적 부분과 언어 특징적 부분으로 구분하는 단계;
상기 구분된 언어 공통적 부분과 언어 특징적 부분에 대해 상기 신경망 기반의 훈련에 적용하는 단계; 및
상기 신경망 기반의 훈련에 따라 출력된 언어 공통적 부분과 언어 특징적 부분을 병합하여 탠덤 피처를 획득하는 단계;를 포함하는 다국어 음향 모델 구축 방법.
The method according to claim 1,
Wherein the acquiring comprises:
Dividing an input feature of the target language into a language common portion and a language characteristic portion;
Applying the neural network-based training to the segmented language common portion and the language characteristic portion; And
And acquiring a tandem feature by merging the language common portion and the language characteristic portion output according to the training based on the neural network.
제1항에 있어서,
상기 적용하는 단계는,
상기 신경망을 이용하여 상기 언어 공통적 부분과 언어 특징적 부분에 대한 음소들의 사후 확률값을 추정하는 단계; 및
상기 음소들간의 연관성을 제거하는 단계;를 포함하는 다국어 음향 모델 구축 방법.
The method according to claim 1,
Wherein the applying comprises:
Estimating a posterior probability value of the phonemes for the common language part and the language characteristic part using the neural network; And
And removing the association between the phonemes.
제3항에 있어서,
상기 추정하는 단계는,
MLP(Multi Layer Perceptron)를 이용하여 상기 훈련 언어에 대한 음소들의 사후 확률값을 추정하며,
상기 제거하는 단계는,
PCA(Principal Component Analysis)를 이용하여 상기 음소들간의 연관성을 제거하는 것을 특징으로 하는 다국어 음향 모델 구축 방법.
The method of claim 3,
Wherein the estimating step comprises:
Estimates a posteriori probability value of phonemes for the training language using MLP (Multi Layer Perceptron)
Wherein the removing comprises:
Wherein the association between the phonemes is eliminated using PCA (Principal Component Analysis).
제2항에 있어서,
상기 언어 공통적인 부분은 상기 훈련 언어 데이터를 이용하여 상기 신경망 기반의 훈련에 적용하며,
상기 언어 특징적인 부분은 상기 타겟 언어 데이터를 이용하여 상기 신경망기반의 훈련에 적용하는 것을 특징으로 하는 다국어 음향 모델 구축 방법.
3. The method of claim 2,
Wherein the language common portion is applied to the training based on the neural network using the training language data,
Wherein the language characteristic portion is applied to the neural network-based training using the target language data.
제1항에 있어서,
상기 구축하는 단계는,
상기 획득된 탠덤 피처에 대해 SGMM(Subspace Gaussian Mixture Model)훈련을 수행하여 SGMM 음향모델을 구축하는 단계;
상기 SGMM 음향모델의 파라미터를 언어 공통적 파라미터와 언어 특징적 파라미터로 분리하는 단계;
상기 훈련 언어 데이터를 이용하여 상기 언어 공통적 파라미터를 적응하고, 상기 타겟 언어 데이터를 이용하여 상기 언어 특징적 파라미터를 적응하는 단계; 및
상기 훈련 언어를 이용하여 적응된 언어 공통적 파라미터와 상기 타겟 언어를 이용하여 적응된 언어 특징적 파라미터를 병합하여 상기 타겟 언어에 대한 음향모델을 구축하는 단계;를 포함하는 다국어 음향 모델 구축 방법.
The method according to claim 1,
Wherein the constructing comprises:
Constructing an SGMM acoustic model by performing a Subspace Gaussian Mixture Model (SGMM) training on the obtained tandem feature;
Separating the parameters of the SGMM acoustic model into a language common parameter and a language characteristic parameter;
Adapting the language common parameter using the training language data and adapting the language characteristic parameter using the target language data; And
And constructing an acoustic model for the target language by merging the language common parameter adapted using the training language and the language characteristic parameter adapted using the target language.
제4항에 있어서,
상기 적응하는 단계는,
MLLR(Maximum Likelihood Linear Regression) 알고리즘 및 MAP(Maximum A Posteriori) 알고리즘 중 하나를 이용하여 적응하는 것을 특징으로 하는 다국어 음향 모델 구축 방법.
5. The method of claim 4,
Wherein the adapting comprises:
A maximum Likelihood Linear Regression (MLLR) algorithm, and a MAP (Maximum A Posteriori) algorithm.
제1항에 있어서,
상기 훈련 언어의 데이터량은 상기 타겟 언어의 데이터량보다 많은 것을 특징으로 하는 다국어 음향 모델 구축 방법.
The method according to claim 1,
Wherein the data amount of the training language is larger than the data amount of the target language.
타겟 언어의 입력 피처(feature)를 언어 공통적 부분과 언어 특징적 부분으로 구분하고, 상기 구분된 언어 공통적 부분 및 언어 특징적 부분에 대해 신경망(neural network) 기반의 훈련에 적용하여 탠덤 피처를 획득하는 탠덤 피처 획득부; 및
상기 획득된 탠덤 피처에 대한 음향 모델의 파라미터를 언어 공통적 파라미터와 언어 특징적 파라미터로 분리하고, 훈련 언어의 데이터를 이용하여 상기 언어 공통적 파라미터를 적응하며, 상기 타겟 언어의 데이터를 이용하여 상기 언어 특징적 파라미터를 적응하고, 상기 적응된 언어 공통적 파라미터 및 상기 적응된 언어 특징적 파라미터를 이용하여 상기 타겟 언어에 대한 음향모델을 구축하는 음향모델 훈련부;를 포함하는 다국어 음성 모델 구축 장치.
A tandem feature for obtaining a tandem feature by dividing the input features of the target language into a language common portion and a language characteristic portion and applying the neural network based training to the separated language common portion and language characteristic portion An acquisition unit; And
Separating a parameter of an acoustic model for the obtained tandem feature into a language common parameter and a language characteristic parameter, adapting the common language parameter using data of a training language, and using the data of the target language, And constructing an acoustic model for the target language by using the adapted language common parameter and the adapted language characteristic parameter.
제9항에 있어서,
상기 탠덤 피처 획득부는,
상기 타겟 언어의 입력 피처를 언어 공통적 부분과 언어 특징적 부분으로 구분하는 분리부;
상기 구분된 언어 공통적 부분과 언어 특징적 부분에 대해 상기 신경망 기반의 훈련에 적용하는 훈련부; 및
상기 신경망 기반의 훈련에 따라 출력된 언어 공통적 부분과 언어 특징적 부분을 병합하여 탠덤 피처를 획득하는 피처 병합부;를 포함하는 다국어 음향 모델 구축 장치.
10. The method of claim 9,
Wherein the tandem feature obtaining unit comprises:
A separator for separating the input features of the target language into a language common portion and a language characteristic portion;
A training unit for applying the neural network-based training to the segmented language common portion and the language characteristic portion; And
And a feature merge unit for merging a language common part and a language characteristic part output according to the training based on the neural network to obtain a tandem feature.
제10항에 있어서,
상기 훈련부는,
상기 신경망을 이용하여 상기 언어 공통적 부분과 언어 특징적 부분에 대한 음소들의 사후 확률값을 추정하는 추정부; 및
상기 음소들간의 연관성을 제거하는 제거부;를 포함하는 다국어 음향 모델 구축 장치.
11. The method of claim 10,
The training unit includes:
An estimator for estimating a posterior probability value of the phonemes for the common language part and the language characteristic part using the neural network; And
And removing the association between the phonemes.
제11항에 있어서,
상기 추정부는,
MLP(Multi Layer Perceptron)를 이용하여 상기 훈련 언어에 대한 음소들의 사후 확률값을 추정하며,
상기 제거부는,
PCA(Principal Component Analysis)를 이용하여 상기 음소들간의 연관성을 제거하는 것을 특징으로 하는 다국어 음향 모델 구축 장치.
12. The method of claim 11,
Wherein the estimating unit comprises:
Estimates a posteriori probability value of phonemes for the training language using MLP (Multi Layer Perceptron)
The removing unit
And the association between the phonemes is removed using PCA (Principal Component Analysis).
제10항에 있어서,
상기 언어 공통적인 부분은 상기 훈련 언어 데이터를 이용하여 상기 신경망 기반의 훈련에 적용하며,
상기 언어 특징적인 부분은 상기 타겟 언어 데이터를 이용하여 상기 신경망기반의 훈련에 적용하는 것을 특징으로 하는 다국어 음향 모델 구축 장치.
11. The method of claim 10,
Wherein the language common portion is applied to the training based on the neural network using the training language data,
Wherein the language characteristic portion is applied to the training based on the neural network using the target language data.
제9항에 있어서,
상기 음향모델 훈련부는,
상기 획득된 탠덤 피처에 대해 SGMM(Subspace Gaussian Mixture Model)훈련을 수행하여 SGMM 음향모델을 구축하는 SGMM 음향모델부;
상기 SGMM 음향모델의 파라미터를 언어 공통적 파라미터와 언어 특징적 파라미터로 분리하는 파라미터 분리부;
상기 훈련 언어 데이터를 이용하여 상기 언어 공통적 파라미터를 적응하고, 상기 타겟 언어 데이터를 이용하여 상기 언어 특징적 파라미터를 적응하는 적응부; 및
상기 훈련 언어를 이용하여 적응된 언어 공통적 파라미터와 상기 타겟 언어를 이용하여 적응된 언어 특징적 파라미터를 병합하여 상기 타겟 언어에 대한 음향모델을 구축하는 파라미터 병합부;를 포함하는 다국어 음향 모델 구축 장치.
10. The method of claim 9,
The acoustic model training unit includes:
An SGMM acoustic model unit configured to perform an SGMM (Subspace Gaussian Mixture Model) training on the obtained tandem feature to construct an SGMM acoustic model;
A parameter separator for separating the parameters of the SGMM acoustic model into a language common parameter and a language characteristic parameter;
An adaptation unit adapted to adapt the language common parameter using the training language data and adapt the language characteristic parameter using the target language data; And
And a parameter merging unit for merging the language common parameter adapted using the training language and the language characteristic parameter adapted using the target language to build an acoustic model for the target language.
제14항에 있어서,
상기 적응부는,
MLLR(Maximum Likelihood Linear Regression) 알고리즘 및 MAP(Maximum A Posteriori) 알고리즘 중 하나를 이용하여 적응하는 것을 특징으로 하는 다국어 음향 모델 구축 장치.
15. The method of claim 14,
Wherein the adaptation unit comprises:
A maximum Likelihood Linear Regression (MLLR) algorithm, and a MAP (Maximum A Posteriori) algorithm.
제9항에 있어서,
상기 훈련 언어의 데이터량은 상기 타겟 언어의 데이터량보다 많은 것을 특징으로 하는 다국어 음향 모델 구축 장치.
10. The method of claim 9,
Wherein the data amount of the training language is larger than the data amount of the target language.
다국어 음향 모델 구축 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체에 있어서,
상기 다국어 음향 모델 구축 방법은,
입력 피처(feature)를 언어 공통적 부분과 언어 특징적 부분으로 구분하고, 상기 구분된 언어 공통적 부분 및 언어 특징적 부분에 대해 신경망(neural network) 기반의 훈련에 적용하여 탠덤 피처를 획득하는 단계; 및
상기 획득된 탠덤 피처에 대한 음향 모델의 파라미터를 언어 공통적 파라미터와 언어 특징적 파라미터로 분리하고, 훈련 언어의 데이터를 이용하여 상기 언어 공통적 파라미터를 적응하며, 상기 타겟 언어의 데이터를 이용하여 상기 언어 특징적 파라미터를 적응하고, 상기 적응된 언어 공통적 파라미터 및 상기 적응된 언어 특징적 파라미터를 이용하여 상기 타겟 언어에 대한 음향모델을 구축하는 단계;를 포함하는 것을 특징으로 하는 기록 매체.
A computer-readable recording medium having recorded thereon a program for performing a method for constructing a multilingual acoustic model,
In the multi-lingual acoustic model building method,
Classifying the input features into a language common portion and a language characteristic portion and applying the neural network based training to the separated language common portion and language characteristic portion to obtain a tandem feature; And
Separating a parameter of an acoustic model for the obtained tandem feature into a language common parameter and a language characteristic parameter, adapting the common language parameter using data of a training language, and using the data of the target language, And constructing an acoustic model for the target language using the adapted language common parameter and the adapted language characteristic parameter.
KR1020130114397A 2012-11-23 2013-09-26 Apparatus and method for constructing multi-languges acoustic model and computer readable recording medium storing for a program for performing the method KR20140066640A (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP20130193872 EP2736042A1 (en) 2012-11-23 2013-11-21 Apparatus and method for constructing multilingual acoustic model and computer readable recording medium for storing program for performing the method
US14/087,490 US10460043B2 (en) 2012-11-23 2013-11-22 Apparatus and method for constructing multilingual acoustic model and computer readable recording medium for storing program for performing the method
CN201310603916.1A CN103839545A (en) 2012-11-23 2013-11-25 Apparatus and method for constructing multilingual acoustic model

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201261729447P 2012-11-23 2012-11-23
US61/729,447 2012-11-23

Publications (1)

Publication Number Publication Date
KR20140066640A true KR20140066640A (en) 2014-06-02

Family

ID=51123311

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130114397A KR20140066640A (en) 2012-11-23 2013-09-26 Apparatus and method for constructing multi-languges acoustic model and computer readable recording medium storing for a program for performing the method

Country Status (1)

Country Link
KR (1) KR20140066640A (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170045041A (en) * 2015-10-16 2017-04-26 삼성전자주식회사 Apparatus and method for normalizing input data of acoustic model, speech recognition apparatus
US10430440B2 (en) 2016-10-21 2019-10-01 Fujitsu Limited Apparatus program and method for data property recognition
US10445427B2 (en) 2016-10-21 2019-10-15 Fujitsu Limited Semantic parsing with knowledge-based editor for execution of operations
US10776107B2 (en) 2016-10-21 2020-09-15 Fujitsu Limited Microservice-based data processing apparatus, method, and program
US10776170B2 (en) 2016-10-21 2020-09-15 Fujitsu Limited Software service execution apparatus, system, and method
US10783193B2 (en) 2016-10-21 2020-09-22 Fujitsu Limited Program, method, and system for execution of software services
US10930268B2 (en) 2018-05-31 2021-02-23 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
US11282501B2 (en) 2018-10-19 2022-03-22 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170045041A (en) * 2015-10-16 2017-04-26 삼성전자주식회사 Apparatus and method for normalizing input data of acoustic model, speech recognition apparatus
US10430440B2 (en) 2016-10-21 2019-10-01 Fujitsu Limited Apparatus program and method for data property recognition
US10445427B2 (en) 2016-10-21 2019-10-15 Fujitsu Limited Semantic parsing with knowledge-based editor for execution of operations
US10776107B2 (en) 2016-10-21 2020-09-15 Fujitsu Limited Microservice-based data processing apparatus, method, and program
US10776170B2 (en) 2016-10-21 2020-09-15 Fujitsu Limited Software service execution apparatus, system, and method
US10783193B2 (en) 2016-10-21 2020-09-22 Fujitsu Limited Program, method, and system for execution of software services
US10930268B2 (en) 2018-05-31 2021-02-23 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
US11282501B2 (en) 2018-10-19 2022-03-22 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Similar Documents

Publication Publication Date Title
US10460043B2 (en) Apparatus and method for constructing multilingual acoustic model and computer readable recording medium for storing program for performing the method
KR20140066640A (en) Apparatus and method for constructing multi-languges acoustic model and computer readable recording medium storing for a program for performing the method
EP3469582B1 (en) Neural network-based voiceprint information extraction method and apparatus
JP6198872B2 (en) Detection of speech syllable / vowel / phoneme boundaries using auditory attention cues
CN108198547B (en) Voice endpoint detection method and device, computer equipment and storage medium
US10127927B2 (en) Emotional speech processing
KR101988222B1 (en) Apparatus and method for large vocabulary continuous speech recognition
Mariooryad et al. Compensating for speaker or lexical variabilities in speech for emotion recognition
US8935167B2 (en) Exemplar-based latent perceptual modeling for automatic speech recognition
US10832685B2 (en) Speech processing device, speech processing method, and computer program product
JP7342915B2 (en) Audio processing device, audio processing method, and program
US9595261B2 (en) Pattern recognition device, pattern recognition method, and computer program product
JP6967197B2 (en) Anomaly detection device, anomaly detection method and program
JP6556381B2 (en) Model learning apparatus and model learning method
Shivakumar et al. Simplified and supervised i-vector modeling for speaker age regression
CN109065026B (en) Recording control method and device
US20110224985A1 (en) Model adaptation device, method thereof, and program thereof
KR20200095947A (en) Electronic device and Method for controlling the electronic device thereof
Seong et al. A review of audio-visual speech recognition
US11961510B2 (en) Information processing apparatus, keyword detecting apparatus, and information processing method
Bahari et al. Gaussian mixture model weight supervector decomposition and adaptation
JP6220733B2 (en) Voice classification device, voice classification method, and program
Ahmed et al. Efficient feature extraction and classification for the development of Pashto speech recognition system
US20210397649A1 (en) Recognition apparatus, recognition method, and computer-readable recording medium
JP6235368B2 (en) Pattern recognition device, pattern recognition method and program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E601 Decision to refuse application