KR20140059545A - 다국어 공통 음소셋를 이용한 음향모델 재학습방법 및 장치 - Google Patents

다국어 공통 음소셋를 이용한 음향모델 재학습방법 및 장치 Download PDF

Info

Publication number
KR20140059545A
KR20140059545A KR1020120126111A KR20120126111A KR20140059545A KR 20140059545 A KR20140059545 A KR 20140059545A KR 1020120126111 A KR1020120126111 A KR 1020120126111A KR 20120126111 A KR20120126111 A KR 20120126111A KR 20140059545 A KR20140059545 A KR 20140059545A
Authority
KR
South Korea
Prior art keywords
language
phoneme
speech recognition
model
data
Prior art date
Application number
KR1020120126111A
Other languages
English (en)
Inventor
김동현
김상훈
김승희
김영익
이민규
왕지현
최무열
김기현
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020120126111A priority Critical patent/KR20140059545A/ko
Publication of KR20140059545A publication Critical patent/KR20140059545A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Abstract

본 발명은 다중 언어의 음성 데이터에 포함되어 있는 공통 음소(joint phone)를 이용하여 특정 언어의 부족한 음성 데이터를 보완과 동시에 음향 모델의 구조를 바꾸지 않고 재 학습시키는 방법이다. 다국어 연속음성 인식기의 음향 모델을 만들기 위해서는 각 언어의 음성 데이터가 충분히 준비 되어야 하지만, 일반적으로 많은 비용과 시간이 소요된다. 그리고 다국어간에 음향학적으로 동일하여 같은 음소 기호로 사용할 수 있는 공통 음소를 정의할 수 있다. 이를 바탕으로 부족한 용량의 언어를 학습시키기 위해 대용량의 음성 데이터를 가지는 언어에서 공통 음소를 이용하여 선택적 재 학습하는 방법을 제안한다.

Description

다국어 공통 음소셋를 이용한 음향모델 재학습방법 및 장치{Acoustic model retraining method and apparatus using multi-language joint phone set}
본 발명은 음향 모델 혹은 음성 인식 모델을 학습시키기 위한 방법 및 장치에 관한 발명이다.
음성인식 서비스가 다국어 영역으로 확대 됨에 따라, 기존의 기술은 하나의 음향 모델에 여러 언어의 음소를 모두 포함하도록 구축 및 학습되어 다국어 음성인식에 적용 가능한 형태로 개발되어 왔다. 즉, 다국어 음소 모델 (Universal Phone Model)을 정의하고 다국어 데이터를 수집하여 각 음소에 해당하는 데이터를 모두 모아 하나의 음향 모델을 만드는 multilingual 음향 모델링 또는 cross-language 음향 모델링, 언어 독립 음향모델링 기법이 배경기술이다. 그래서 종래의 기술들은 다국어 음소 모델(UPM)을 어떻게 생성하는지에 초점을 맞춰, 지식기반으로 음소 셋을 결정하는 방법과 음향학적으로 데이터 통계치를 활용하여 음소 그룹을 결정하는 방법 등이 연구되었다. 여기에는 각 언어의 음소들을 합쳐 통합 음소로 어느 정도 줄일 수 있는지, 그리고 앞뒤 콘텍스트에 의존하는 음소들을 어떻게 정의하고 얼마나 만들지가 활발히 논의되고 있다. 이런 방법들은 기본적으로 하나의 큰 음향 모델을 활용하여 다국어 음소 인식을 하려는 Language-Universal (LU) 모델링 방법이 있는데, 이것은 하나의 모델로 여러 언어 인식에 사용되기 때문에 언어 의존 모델에 가깝게 성능을 개선시키는 것을 목표로 연구되었다.
그리고 다국어 음향 모델에서 특정 목표 언어용 음향모델을 생성하기 위해 MAP나 Maximum likelihood linear regression (MLLR)과 같은 적응 기법을 적용하여 사용하는 Language-Adaptive (LA) 모델링 방법과 다국어 데이터를 가지고 모델링 할 때 목표 언어를 고려하여 최적의 가중치를 두고 학습하는 Language data Weighting (LW) 방법도 있다.
그러나 이런 연구들은 목표 언어가 수십시간 정도의 소량 데이터의 경우 목표 언어 데이터만 이용하여 학습하는 Language-Specific(LS) 방법보다 LA 방법이나 LW 방법이 효과가 있는 경우가 있지만, 수백 시간의 데이터를 이용해 목표 언어를 만드는 요즘 추세를 고려하면 Language-Specific(LS)에 대한 연구가 더욱 필요하다. 또한, Language-Universal(LU) 모델링 할 때 개별 언어가 가지는 콘텍스트 의존상황이 혼합되어 목표 언어의 음향학적 특성이 오염될 수 있다.
본 발명은 목표 언어의 데이터 크기에 상관없이 목표 언어 데이터만 이용하는 LS 방법에 다국어 공통 음소의 데이터를 추가 학습시키는 방법으로 목표 언어가 가지는 콘텍스트 의존 특성과 LS 음향모델의 구조가 변하지 않는 상태에서 부족한 데이터 통계치를 보충하도록 한다.
상기 기술적 과제를 해결하기 위하여 본 발명은 제1언어의 음성인식모델을 갱신하는 방법에 있어서, 상기 제1언어 이외의 제2언어 음성데이터를 입력받아, 미리 마련된 제1언어의 음성인식 모델을 이용하여 상기 제2언어 음성데이터로부터 제1언어의 음소조합을 획득하는 단계; 상기 제2언어 음성데이터에 대응하는 제2언어 음성인식정보 및 제1언어와 제2언어간에 발음상 서로 대응되는 음소들에 관한 정보인 공통음소정보를 입력받고, 상기 음성인식정보 및 공통음소정보를 이용하여 상기 획득된 제1언어의 음소조합을 수정하는 단계; 및 상기 수정된 제1언어의 음소조합, 상기 제2언어 음성데이터 및 상기 제2언어 음성인식 정보를 이용하여 상기 제1언어의 음성인식 모델을 갱신하는 단계를 포함하는 음성인식모델 갱신방법을 제공한다.
또한, 상기 제2언어 음성인식정보는 상기 제2언어 음성데이터에 대응하는 제2언어 음소조합 및 음소별 프레임시간 할당정보이며, 상기 제1언어의 음소조합을 수정하는 단계는 상기 공통음소 정의를 이용하여 상기 제2언어 음소조합의 공통음소에 해당하는 부분을 제1언어의 음소로 바꾸고, 상기 제2언어 음소조합의 공통음소에 해당하지 않는 부분을 상기 획득된 제1언어의 음소조합의 대응되는 부분으로 바꾸는 것으로 상기 획득된 제1언어의 음소조합을 수정하는 것을 특징으로 하는 음성인식모델 갱신방법을 제공한다.
또한, 제1언어의 음성인식 모델은 HMM(Hidden Markov Model)이고, 상기 제1언어의 음소조합을 획득하는 단계는 상기 HMM을 고려하여 상기 입력된 제2언어 음성데이터에 대한 Viterbi 디코딩을 통해 제1언어 음소조합을 획득하는 것을 특징으로 하는 음성인식모델 갱신방법을 제공한다.
또한, 상기 획득된 제1언어의 음소조합을 수정하는 단계는 상기 제2언어 음성데이터, 상기 제2언어 음성데이터에 대응하는 제2언어 단어 또는 음소 조합 전사문 및 제2언어 HMM(Hidden Markov Model)을 입력받아, 상기 HMM을 고려하여 상기 제2언어 음성데이터 및 단어 입력값으로부터 포워드-백워드 알고리즘 및 가우시안 사후확률 계산을 이용하여 제2언어 음성인식 정보인 음소열과 음소별 프레임시간 할당정보를 획득하는 단계를 더욱 포함하는 것을 특징으로 하는 음성인식모델 갱신방법을 제공한다.
또한, 상기 갱신하는 단계는 상기 수정된 제1언어의 음소조합, 상기 제2언어 음성데이터 및 상기 제2언어 음성인식 정보를 입력받아 포워드-백워드 알고리즘을 수행하여 확률값을 도출하는 단계, 상기 도출된 확률값으로부터 가우시안 사후확률값을 계산하는 단계 및 상기 계산된 가우시안 사후 확률값중에 상기 제2언어 음소별 프레임시간 할당정보를 이용하여 공통음소셋 부분에 해당하는 가우시안 사후확률값을 선택하여 MAP(Maximum a posteriori)방법으로 상기 제1언어의 음성인식 모델을 갱신하는 단계를 더욱 포함하는 것을 특징으로 하는 음성인식모델 갱신방법을 제공한다.
또한, 상기 갱신하는 단계는 상기 수정된 제1언어의 음소조합, 상기 제2언어 음성데이터 및 상기 제2언어 음성인식 정보를 입력받아 포워드-백워드 알고리즘을 수행하여 확률값을 도출하는 단계, 상기 도출된 확률값으로부터 가우시안 사후확률값을 계산하는 단계 및 상기 계산된 가우시안 사후 확률값 중에 상기 제2언어 음소별 프레임시간 할당정보를 이용하여 공통음소셋 부분에 해당하는 가우시안 사후확률값을 선택하여, 상기 제 1 언어의 음향 모델 학습과정에서 생성되는 tied state 가우시안 pool에 적용한 뒤에 모델 재학습하여 상기 제1언어의 음성인식 모델을 갱신하는 단계를 더욱 포함하는 것을 특징으로 하는 음성인식모델 갱신방법을 제공한다.
또한, 제1언어의 음성인식모델을 갱신하는 장치에 있어서, 상기 제1언어 이외의 제2언어 음성데이터를 입력받아, 미리 마련된 제1언어의 음성인식 모델을 이용하여 상기 제2언어 음성데이터로부터 제1언어의 음소조합을 획득하는 음소조합 획득부; 상기 제2언어 음성데이터에 대응하는 제2언어 음성인식정보 및 제1언어와 제2언어간에 발음상 서로 대응되는 음소들에 관한 정보인 공통음소정보를 입력받고, 상기 음성인식정보 및 공통음소정보를 이용하여 상기 획득된 제1언어의 음소조합을 수정하는 음소조합 수정부; 및 상기 수정된 제1언어의 음소조합, 상기 제2언어 음성데이터 및 상기 제2언어 음성인식 정보를 이용하여 상기 제1언어의 음성인식 모델을 갱신하는 갱신부를 포함하는 음성인식모델 갱신장치를 제공한다.
또한, 상기 제2언어 음성인식정보는 상기 제2언어 음성데이터에 대응하는 제2언어 음소조합 및 음소별 프레임시간 할당정보이며, 상기 제1언어의 음소조합 수정부는 상기 공통음소 정의를 이용하여 상기 제2언어 음소조합의 공통음소에 해당하는 부분을 제1언어의 음소로 바꾸고, 상기 제2언어 음소조합의 공통음소에 해당하지 않는 부분을 상기 획득된 제1언어의 음소조합의 대응되는 부분으로 바꾸는 것으로 상기 획득된 제1언어의 음소조합을 수정하는 것을 특징으로 하는 음성인식모델 갱신장치을 제공한다.
또한, 제1언어의 음성인식 모델은 HMM(Hidden Markov Model)이고, 상기 음소조합 획득부는 상기 HMM을 고려하여 상기 입력된 제2언어 음성데이터에 대한 Viterbi 디코딩을 통해 제1언어 음소조합을 획득하는 것을 특징으로 하는 음성인식모델 갱신장치을 제공한다.
또한, 상기 음소조합 수정부는 상기 제2언어 음성데이터, 상기 제2언어 음성데이터에 대응하는 제2언어 단어 조합 및 제2언어 HMM(Hidden Markov Model)을 입력받아, 상기 HMM을 고려하여 상기 제2언어 음성데이터 및 단어조합으로부터 포워드-백워드 알고리즘 및 가우시안 사후확률 계산을 이용하여 제2언어 음성인식 정보를 획득하는 것을 더욱 포함하는 것을 특징으로 하는 음성인식모델 갱신장치을 제공한다.
또한, 상기 갱신부는 상기 수정된 제1언어의 음소조합, 상기 제2언어 음성데이터 및 상기 제2언어 음성인식 정보를 입력받아 포워드-백워드 알고리즘을 수행하여 확률값을 도출하고, 상기 도출된 확률값으로부터 가우시안 사후확률값을 계산하며 상기 계산된 가우시안 사후 확률중에 상기 제2언어 음소별 프레임시간 할당정보를 이용하여 공통음소셋 부분에 해당하는 가우시안 사후확률값을 선택하여 MAP(Maximum a posteriori)방법으로 상기 제1언어의 음성인식 모델을 갱신하는 것을 더욱 포함하는 것을 특징으로 하는 음성인식모델 갱신장치을 제공한다.
또한, 상기 갱신부는 상기 수정된 제1언어의 음소조합, 상기 제2언어 음성데이터 및 상기 제2언어 음성인식 정보를 입력받아 포워드-백워드 알고리즘을 수행하여 확률값을 도출하고, 상기 도출된 확률값으로부터 가우시안 사후확률값을 계산하며 상기 계산된 가우시안 사후 확률값확률중에 상기 제2언어 음소별 프레임시간 할당정보를 이용하여 공통음소셋 부분에 해당하는 가우시안 사후확률값을 선택하여 상기 제 1 언어의 음향 모델 학습과정에서 생성되는 tied state 가우시안 pool에 적용한 뒤에 모델 재학습하여 상기 제1언어의 음성인식 모델을 갱신하는 것을 더욱 포함하는 것을 특징으로 하는 음성인식모델 갱신장치을 제공한다.
본 발명은 다국어에 존재하는 공통 음소를 활용하여 특정 언어의 부족한 데이터를 보충하여 음향 모델을 만들 수 있는 효과가 있다. 이 발명은 기존 학습된 음향모델의 구조를 바꾸지 않고 다른 언어에 있는 음성 데이터를 활용하여 학습하고자 하는 언어의 부족한 데이터의 통계치를 보완하기 때문에 모델이 좀더 정교해지고 여러 발성과 화자의 다양성을 포함하는 이점을 가질 수 있다. 하나의 언어에 대해 음성인식기를 개발해 놓고 다른 언어 음성인식기 개발로 확대할 때 다른 언어 음성 데이터 수집에 드는 비용과 시간을 상대적으로 줄일 수 있다. 많은 데이터를 확보하여 이미 음향 모델을 만들어 놓은 언어에 대해서도 다른 언어 사람이 발성한 같은 음소에 대한 발성 데이터를 추가 확보할 수 있어 발성과 화자의 다양성을 확대할 수 있다. 한 언어가 다른 언어와 가질 수 있는 공통 음소들을 확대하면 유사한 발음을 사용하는 언어간에는 음성 데이터 보완 효과가 크다.
도 1은 본 발명의 일 실시예에 따른 장치발명인 다국어 공통 음소셋을 이용한 음향모델 재학습장치의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 다국어 공통 음소셋을 이용한 음향모델 재학습장치의 음소조합 획득부 동작원리를 설명하는 도면이다.
도 3은 본 발명의 일 실시예에 따른 다국어 공통 음소셋을 이용한 음향모델 재학습장치의 음소조합 수정부 동작원리를 설명하는 도면이다.
도 4은 본 발명의 일 실시예에 따른 장치발명인 다국어 공통 음소셋을 이용한 음향모델 재학습장치의 갱신부 동작원리를 설명하는 도면이다.
도5는 본 발명의 일 실시예에 따른 장치발명인 다국어 공통 음소셋을 이용한 음향모델 재학습장치의 갱신부 동작원리를 설명하는 도면이다.
도 6은 본 발명의 일 실시예에 따른 장치발명인 다국어 공통 음소셋을 이용한 음향모델 재학습방법의 흐름도이다.
이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다.
이하 설명 및 첨부된 도면들에서 실질적으로 동일한 구성요소들은 각각 동일한 부호들로 나타냄으로써 중복 설명은 생략하기로 한다. 또한 본 발명을 설명함에 있어 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략하기로 한다.
본 발명은 다국어 공통 음소셋을 이용한 음향모델 재학습방법 및 장치에 관한 것으로, 도 1 내지 도 6를 참조하여 이하에서 기술된다. 그렇지만, 당업자라면, 본 발명이 이들 제한 된 실시예를 넘어 확장되기 때문에, 이들 도면과 관련하여 본 명세서에 주어진 상세한 설명이 예시를 위한 것임을 용이하게 알 것이다.
도 1은 본 발명의 일 실시예에 따른 장치발명인 다국어 공통 음소셋을 이용한 음향모델 재학습장치의 블록도이다.
도 1을 참조하면, 본 발명의 실시예에 따른 다국어 공통 음소셋을 이용한 음향모델 재학습장치(1)는 음소조합 획득부(10), 음소조합 수정부(20), 갱신부(30)를 포함한다.
상기 음소조합 획득부(10)는 제2언어 음성데이터를 입력받아, 미리 마련된 제1언어의 음성인식 모델을 이용하여 제1언어의 음소조합을 획득한다.
상기 음소조합 수정부(20)는 상기 제2언어 음성데이터에 대응하는 제2언어 음성인식정보 및 제1언어와 제2언어간에 발음상 서로 대응되는 음소들에 관한 정보인 공통음소정보를 입력받고 상기 제2언어 음성인식정보 및 공통음소정보를 이용하여 상기 획득된 제1언어의 음소조합을 수정한다.
이때, 음소조합 수정부(20)는 상기 제2언어 음성인식정보를 입력받을 수 있지만, 도1처럼 제2언어 단어조합, 제2언어 음성데이터 및 제2언어 음성인식모델을 입력받아, 상기 제2언어 음성인식정보를 획득할 수도 있다. 상기 제2언어 음성인식정보를 획득하는 방법은 후술한다.
상기 갱신부(30)는 상기 수정된 제1언어의 음소조합, 상기 제2언어 음성데이터 및 상기 제2언어 음성인식 정보를 입력받아 상기 제1언어의 음성인식 모델을 갱신한다. 상기 모델을 갱신하는 방법은 후술한다.
도 2는 본 발명의 일 실시예에 따른 다국어 공통 음소셋을 이용한 음향모델 재학습장치의 음소조합 획득부(10) 동작원리이다.
상기 음소조합 획득부내 viterbi 디코딩 모듈(100)은 제1언어의 음성인식모델과 제2언어 음성데이터를 입력받아, 제1언어 음성인식모델을 고려하여 입력받은 제2언어 음성데이터에 대한 viterbi 디코딩을 통해 제1언어 음소조합을 획득한다.
상기 제1 및 제2언어의 음성인식모델은 HMM(Hidden Markov Model)인 것이 바람직하다.
Hidden Markov Model을 줄여서 HMM으로 많이 불리며, HMM(Hidden Markov Model)은 음성인식을 위한 기본단위(음소)를 모델링하는 방법이다. 즉 음성인식 엔진으로 들어오는 음소와 음성인식 엔진내의 DB로 갖고 있는 음소를 결합해 단어와 문장을 만드는 방법으로 많이 사용되고 있고, 특히 HMM은 관측 불가능한 프로세스를 관측 가능한 다른 프로세스를 통해 추정하는 이중 확률처리 방법으로 현재 음성인식에 많이 사용되고 있다. 따라서 음성인식에서 HMM방식을 이용한다는 것은 음성인식의 최소단위(음소)를 모델링해 이를 이용해 음성인식 시스템을 구성하는 것을 말한다. 이에 따라 HMM의 장점은 다른 방법보다 인식률이 높다는 것이다.
Viterbi 디코딩 기법은 최적 상태의 시퀀스를 선택하는 문제 해결기법으로 관측 시퀀스 O = (o1, o2,..., oT) 가 주어지면, 여기에 대응하는 상태 시퀀스 q = (q1, q2,..., qT) 중에서 어떤 성향에 의해서든지 최상의 것을 선택하는 문제이다. 이것은 적절한 상태 시퀀스를 발견함으로써 모델의 은닉된 부분을 밝히는 시도가 된다. HMM의 Hidden, 즉 은닉된 부분을 밝히게 된다. 실제적 상황에서는 가능한 최상의 해를 구하기 위해서 최적 평가 함수를 도입해서 사용하게 된다. 몇 가지 합리적인 최적 평가 함수를 적용할 수 있게 되고, 이렇게 선택된 평가 함수는 잘 알려진 상태 시퀀스에 대해 의도적으로 적용하여 사용되는 시스템에 강력한 기능을 부여하게 한다. 음석인식에 있어서, 연속된 음성 데이터에 대한 최적 상태 시퀀스 발견하여 음소조합을 획득하게 된다. 본 발명에서는 제2언어 음성 데이터를 제1언어 음성인식 모델로 디코딩 한 것이므로 상대적으로 오류가 많은 것이 특징이다.
도 3은 본 발명의 일 실시예에 따른 다국어 공통 음소셋을 이용한 음향모델 재학습장치의 음소조합 수정부(20) 동작원리이다.
상기 음소조합 수정부(20)는 음성인식정보 획득모듈(200) 및 수정모듈(202)를 포함하는 것이 바람직하다.
상기 음소조합 수정부(20)는 음성인식정보 획득모듈(200) 없이 바로 제2언어 음성인식 정보를 입력하도록 하는 것도 가능하다.
상기 제2언어 음성인식정보는 상기 제2언어 음성데이터에 대응하는 제2언어 음소조합 및 음소별 프레임시간 할당정보인 것이 바람직하다.
상기 음성인식정보 획득모듈(200)은 제2언어 음성데이터, 상기 제2언어 음성데이터에 대응되는 제2언어 단어조합 및 제2언어 HMM을 입력받고, 포워드-백워드 알고리즘 및 가우시안 사후확률 계산을 통해 제2언어 음성인식정보, 즉 상기 제2언어 음성데이터에 대응하는 제2언어 음소조합 및 음소별 프레임시간 할당정보를 획득하는 것이 바람직하다. 이때 단어 조합 입력은 제2언어 발음사전(미도시)을 이용하여 음소 조합으로 변환되어 입력된다.
본 발명은 포워드-백워드 알고리즘 및 가우시안 사후확률계산으로 상기 제2언어 음성인식정보를 획득하는 예를 설시하고 있지만, 상기 방법에 한정되는 것은 아니다. Viterbi를 활용한 학습 방법으로도 포워드-백워드 알고리즘 및 가우시안 사후확률계산을 대체할 수도 있다.
포워드-백워드 알고리즘이란, 관측 시퀀스 O= O1 O2 ... OT와 HMM λ=(A,B,п) (A는 천이확률, B는 관측확률, п는 초기조건)이 있을 때, λ의 환경에서 관측시퀀스O가 발견되는 확률을 평가하는 방법 중 하나이다. 수학적 귀납법의 일종으로 시간 t에서의 확률은 시간 t-1에서의 확률을 알면, t-1에서 t까지의 모든 path만 고려하면 된다는 효과적인 확률 평가 방법이다. 또한 상기 평가된 확률을 근거로 가우시안 사후확률을 계산한다. 상기 포워드-백워드 알고리즘 및 가우시안 사후확률 계산의 경우, 당업자에게 자명하므로 상세한 설명은 생략하도록 한다.
상기 음소조합 수정부의 수정모듈(202)는 상기 음소조합 획득부(10)에서 획득된 제1언어 음소조합 및 상기 음성인식정보 획득모듈(200)에서 획득된 제2언어 음소조합, 음소별 시간할당 정보, 또한 제1언어 및 제2언어 공통음소 정보 등을 입력받는다. 상기 음소조합 수정부의 수정모듈(202)는 상기 제2언어 음소조합에서 상기 공통음소 정보를 이용하여 공통음소에 해당하는 부분을 제1언어의 음소로 바꾸고, 제2언어 음소조합에서 공통음소에 해당하지 않는 부분은 상기 획득된 제1언어의 음소조합에 대응하는 부분으로 바꾸도록 하여 최종적으로 수정된 제1언어 음소조합을 획득한다.
도 4는 본 발명의 일 실시예에 따른 장치발명인 다국어 공통 음소셋을 이용한 음향모델 재학습장치의 갱신부 동작원리이다.
도4의 갱신부(30)는 계산모듈(300)과 적응학습모듈(302)를 포함한다.
상기 갱신부(30)의 계산모듈(300)은 제1언어 HMM과 제2언어 음성데이터, 제2언어 음성인식 정보를 입력받아 포워드-백워드 알고리즘을 수행하여 확률값을 도출하고, 상기 도출한 확률값을 근거로 가우시안 사후확률값을 계산한다. 상기 적응학습모듈(302)은 계산모듈(300)에서 계산한 가우시안 사후확률값중에 상기 제2언어 음소별 프레임시간 할당정보를 이용하여 공통음소셋 부분에 해당하는 가우시안 사후확률값을 선택하여 MAP 적응 학습한다.
상기 제2언어 음성인식 정보에는 음소별 프레임시간 할당정보가 포함되어 있는데, 갱신부(30)의 적응학습모듈(300)은 상기 할당정보를 활용하여 공통음소가 포함된 가우시안 사후확률값을 선택하여 가우시안 확률 테이블에 저장하고, 상기 저장된 가우시안 사후확률값을 이용하여 제1언어 HMM을 Maximum A Posteriori(MAP) 기법으로 적응 학습한다.
상기 MAP 기법은 다음과 같이 설명된다. MAP 적응 기법은 유사도(likelihood)를 최대화 시키는 Baum의 보조함수()를 다음 수학식 1과 같이 정의한다.
Figure pat00002
t는 단위 프레임시간이며, s는 각 state의 HMM모델의 최소 표현 단위이고, g는 상기 최소단위를 구성하는 인자로 가우시안 분포를 뜻하고,
Figure pat00003
는 g 가우시안 평균벡터이고,
Figure pat00004
는 분산행렬이다.
Figure pat00005
는 가우시안 사후확률값이며,
Figure pat00006
는 유사도를 최대로 하는 평균벡터이다. 상기 수식의 prime 기호는 벡터의 트랜스포즈 기호이다.
Figure pat00007
는 기존 모델의 가중치이다.
여기서 유사도(likelihood)를 최대로 구하고자 하는 평균벡터(
Figure pat00008
)로 수식을 편미분 하게 되면 수학식 2와 같이 새로운 평균벡터를 구하는 식으로 정리할 수 있다. 이때
Figure pat00009
는 실험에 의해 결정된다.
Figure pat00010
가우시안 선택 결과 선택된 s State, g 가우시안은 가우시안 테이블에 저장한 가우시안 사후확률값(
Figure pat00011
)과 제2언어에서 관측된 데이터(
Figure pat00012
)를 이용하여 제1언어 HMM 모델을 수학식 2의 MAP기법으로 적응 학습하는데 이용된다.
도5는 본 발명의 일 실시예에 따른 장치발명인 다국어 공통 음소셋을 이용한 음향모델 재학습장치의 갱신부 블록도이다.
도5에 따른 갱신부(30)는 계산모듈(304), 분류모듈(306) 및 mixture 증가 모델링 모듈(308)을 포함한다.
상기 갱신부(30)의 계산모듈(304)은 제1언어 HMM과 제2언어 음성데이터, 제2언어 음성인식 정보를 입력받아 포워드-백워드 알고리즘 및 가우시안 사후확률을 계산하고, 상기 갱신부(30)의 분류모듈(306)은 상기 제2언어 음소별 프레임시간 할당정보를 이용하여 공통음소셋 부분에 해당하는 선택적 가우시안을 상기 제 1 언어의 학습과정에서 생성한 Tied State 가우시안 Pool에 적용하여 상기 제 1언어의 학습과정에서 생성한 Tied 트라이폰 HMM 모델을 이용하여 재학습하는데 이용한다. 제1 언어의 HMM을 만드는 과정은 제1 언어 음성데이터와 그에 대응하는 단어조합을 가지고 포워드-백워드 알고리즘과 가우시안 사후확률을 구하는 Baum-Welch 알고리즘을 수행한다. 최종 모델을 생성하는 과정으로 모노폰 모델링을 먼저 수행하고, 이것을 가지고 트라이폰 모델로 확장한 뒤, 생성된 모델의 State를 공유하는 Tied State 리스트를 생성하여, Tied 트라이폰 모델을 생성한다. 그 다음은 각 State 안에 있는 가우시안 mixture를 증가시키면서 재 학습하면 제1 언어의 HMM을 생성하게 된다.
상기 갱신부(30)의 분류모듈(306)은 상기 선택된 가우시안을 입력받은 Tied State 리스트에 따라 가우시안 Pool에 분류해 넣는다.
상기 갱신부(30)의 mixture증가 모델링 모듈(308)은 기존 모델의 가우시안 mixture 증가 학습시에 가우시안 그룹에 있는 가우시안 확률값을 함께 적용하여 모델의 Tied된 State 구조를 유지하면서 제1 언어 HMM을 추가 재 학습한다. 수학식 3은 s State, g 가우시안에 묶여진 제1 언어 데이터와 추가된 타 언어 데이터가 재 학습되어 제1 언어 모델의 평균벡터값(
Figure pat00013
)을 생성하는 식이다.
Figure pat00014
t1은 제 1 언어 프레임시간이고,
Figure pat00015
는 제 1언어의 가우시안 사후확률값,
Figure pat00016
는 제 1 언어 관측데이터이다. t2는 제2언어 프레임시간이고,
Figure pat00017
는 제2언어의 가우시안 사후확률값,
Figure pat00018
는 제2언어 관측데이터이다.
여기서 제 1 언어 관측 데이터(
Figure pat00019
)와 그에 대응하는 가우시안 사후확률값(
Figure pat00020
)이 T1 시간에 대해 수집되었고, 제 2 언어 관측 데이터(
Figure pat00021
)와 대응하는 가우시안 사후확률값(
Figure pat00022
)이 T2 시간 동안 수집되었다. 같은 방법으로 수학식 4는 제1 언어 모델의 분산값(
Figure pat00023
)을 생성하는 식이다.
Figure pat00024
상기 수식 내의 prime 기호는 벡터의 트랜스포즈 기호이다.
전개된 수학식으로 도4와 도5의 방법의 매우 유사함을 알 수 있으나, 도5의 방법은 제1언어 HMM의 가우시안 mixture 개수를 임의로 변경하여 확대할 수 있고, 도4의 방법에서 필요한 기존 모델의 가중치를 따로 정할 필요가 없다는 점에서 차이가 있다.
도 6은 본 발명의 일 실시예에 따른 장치발명인 다국어 공통 음소셋을 이용한 음향모델 재학습방법의 흐름도이다.
음향모델 재학습장치는 제2언어 음성데이터를 입력받아 미리 마련된 제1언어 음성인식모델을 이용하여, 상기 제2언어 음성데이터로부터 제1언어의 음소조합을 획득한다.(S600) 제1언어와 제2언어는 서로 다른 언어이므로 상기 제1언어의 음소조합에 오류가 많이 포함되어 있는 것이 특징이다. 상기 제1언어의 음성인식 모델은 HMM인 것이 바람직하고, 상기 획득방법은 Viterbi 디코딩 방법인 것이 바람직하다.
상기 제2언어 음성데이터에 대응하는 제2언어 음성인식정보 및 제1언어와 제2언어간에 발음상 서로 대응되는 음소들에 관한 정보인 공통음소정보를 입력받아, 상기 제2언어 음성인석 정보 및 공통음소 정보를 이용하여 상기 획득된 제1언어의 음소조합을 수정한다.(S604) 음소조합 수정부(20)는 상기 제2언어 음소조합에서 상기 공통음소 정보를 이용하여 공통음소에 해당하는 부분을 제1언어의 음소로 바꾸고, 공통음소에 해당하지 않는 부분은 상기 획득된 제1언어의 음소조합에 대응하는 부분으로 바꾸는 것이 바람직하다.
상기 제2언어 음성인식 정보는 상기 제2언어 음성테이터에 대응하는 제2언어 음소조합 및 음소별 프레임시간할당정보인 것이 바람직하며, 상기 제2언어 음성인식 정보를 입력받는 것이 아니라, 제2언어 음성데이터에 대응하는 제2언어 단어조합 및 제2언어 HMM모델을 입력받아 음소조합 수정부에서 제2언어 음성인식 정보를 획득 할 수도 있다. 상기 제2언어 음성인식 정보를 획득하는 방법은 포워드-백워드 알고리즘 및 가우시안 사후확률 계산으로 획득할 수 있다.(S602)
상기 수정된 제1언어의 음소조합, 상기 제2언어 음성데이터 및 상기 제2언어 음성인식 정보를 이용하여 상기 제1언어의 음성인식 모델을 갱신한다.(S606) 상기 갱신하는 방법은 선택적 가우시안을 이용한 MAP 기법을 이용할 수 있고, 선택적 가우시안을 tied state 가우시안 pool에 적용한 모델 재학습 방법을 이용할 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (1)

  1. 제1언어의 음성인식모델을 갱신하는 방법에 있어서,
    상기 제1언어 이외의 제2언어 음성데이터를 입력받아, 미리 마련된 제1언어의 음성인식 모델을 이용하여 상기 제2언어 음성데이터로부터 제1언어의 음소조합을 획득하는 단계;
    상기 제2언어 음성데이터에 대응하는 제2언어 음성인식정보 및 제1언어와 제2언어간에 발음상 서로 대응되는 음소들에 관한 정보인 공통음소정보를 입력받고, 상기 음성인식정보 및 공통음소정보를 이용하여 상기 획득된 제1언어의 음소조합을 수정하는 단계; 및
    상기 수정된 제1언어의 음소조합, 상기 제2언어 음성데이터 및 상기 제2언어 음성인식 정보를 이용하여 상기 제1언어의 음성인식 모델을 갱신하는 단계를 포함하는 음성인식모델 갱신방법.
KR1020120126111A 2012-11-08 2012-11-08 다국어 공통 음소셋를 이용한 음향모델 재학습방법 및 장치 KR20140059545A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120126111A KR20140059545A (ko) 2012-11-08 2012-11-08 다국어 공통 음소셋를 이용한 음향모델 재학습방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120126111A KR20140059545A (ko) 2012-11-08 2012-11-08 다국어 공통 음소셋를 이용한 음향모델 재학습방법 및 장치

Publications (1)

Publication Number Publication Date
KR20140059545A true KR20140059545A (ko) 2014-05-16

Family

ID=50889339

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120126111A KR20140059545A (ko) 2012-11-08 2012-11-08 다국어 공통 음소셋를 이용한 음향모델 재학습방법 및 장치

Country Status (1)

Country Link
KR (1) KR20140059545A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895932A (zh) * 2018-08-24 2020-03-20 中国科学院声学研究所 基于语言种类和语音内容协同分类的多语言语音识别方法
CN111653265A (zh) * 2020-04-26 2020-09-11 北京大米科技有限公司 语音合成方法、装置、存储介质和电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895932A (zh) * 2018-08-24 2020-03-20 中国科学院声学研究所 基于语言种类和语音内容协同分类的多语言语音识别方法
CN110895932B (zh) * 2018-08-24 2022-05-03 中国科学院声学研究所 基于语言种类和语音内容协同分类的多语言语音识别方法
CN111653265A (zh) * 2020-04-26 2020-09-11 北京大米科技有限公司 语音合成方法、装置、存储介质和电子设备
CN111653265B (zh) * 2020-04-26 2023-08-18 北京大米科技有限公司 语音合成方法、装置、存储介质和电子设备

Similar Documents

Publication Publication Date Title
Sudhakara et al. An Improved Goodness of Pronunciation (GoP) Measure for Pronunciation Evaluation with DNN-HMM System Considering HMM Transition Probabilities.
KR101394253B1 (ko) 음성 인식 오류 보정 장치
EP3373293A1 (en) Speech recognition method and apparatus
KR100815115B1 (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
CN102280106A (zh) 用于移动通信终端的语音网络搜索方法及其装置
JP2011180596A (ja) 音声プロセッサ、音声処理方法および音声プロセッサの学習方法
WO1996022514A9 (en) Method and apparatus for speech recognition adapted to an individual speaker
Austin et al. Speech recognition using segmental neural nets
CN108074562B (zh) 语音识别装置、语音识别方法以及存储介质
KR20080024911A (ko) 음성 인식 시스템에서의 인식 오류 수정 방법
WO2012001458A1 (en) Voice-tag method and apparatus based on confidence score
Yin et al. Modeling F0 trajectories in hierarchically structured deep neural networks
WO2000051105A1 (en) Supervised adaptation using corrective n-best decoding
CN109493846B (zh) 一种英语口音识别系统
US20160232892A1 (en) Method and apparatus of expanding speech recognition database
JPH0962291A (ja) 記述長最小基準を用いたパターン適応化方式
Xiao et al. A Initial Attempt on Task-Specific Adaptation for Deep Neural Network-based Large Vocabulary Continuous Speech Recognition.
Manjunath et al. Indian Languages ASR: A Multilingual Phone Recognition Framework with IPA Based Common Phone-set, Predicted Articulatory Features and Feature fusion.
Zhang et al. Recent progress on the discriminative region-dependent transform for speech feature extraction.
US20090157403A1 (en) Human speech recognition apparatus and method
KR20140059545A (ko) 다국어 공통 음소셋를 이용한 음향모델 재학습방법 및 장치
CN112908317B (zh) 一种针对认知障碍的语音识别系统
US9922643B2 (en) User-aided adaptation of a phonetic dictionary
WO2010109725A1 (ja) 音声処理装置、音声処理方法、及び、音声処理プログラム
JP2019078857A (ja) 音響モデルの学習方法及びコンピュータプログラム

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination