KR20090060631A - 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 - Google Patents

타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 Download PDF

Info

Publication number
KR20090060631A
KR20090060631A KR1020070127516A KR20070127516A KR20090060631A KR 20090060631 A KR20090060631 A KR 20090060631A KR 1020070127516 A KR1020070127516 A KR 1020070127516A KR 20070127516 A KR20070127516 A KR 20070127516A KR 20090060631 A KR20090060631 A KR 20090060631A
Authority
KR
South Korea
Prior art keywords
phoneme
standard
speaker
unit
pronunciation
Prior art date
Application number
KR1020070127516A
Other languages
English (en)
Other versions
KR101424193B1 (ko
Inventor
김홍국
김민아
오유리
Original Assignee
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광주과학기술원 filed Critical 광주과학기술원
Priority to KR1020070127516A priority Critical patent/KR101424193B1/ko
Publication of KR20090060631A publication Critical patent/KR20090060631A/ko
Application granted granted Critical
Publication of KR101424193B1 publication Critical patent/KR101424193B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을 위한 비직접적 데이터 기반 발음변이 모델링 시스템 및 방법이 제공되어 있다. 음성인식을 위한 모델링 시스템에 있어서, 외부에서 입력된 음성으로부터 특징벡터를 추출하는 특징추출부; 미리 구해진 음향데이터를 저장하는 음향모델 데이터베이스; 발음데이터를 저장하는 발음모델 데이터베이스; 및 상기 음향모델데이터베이스로부터 읽어들인 음향데이터와 상기 발음모델 데이터베이스로부터 읽어들인 발음데이터를 합성하여 생성된 단어열로부터 상기 특징벡터에 기초하여 음소 확률이 가장 높은 단어열을 찾는 음성 인식부를 포함한다. 따라서 원어민 화자음성에 대한 인식성능을 저하시키지 않고 타 언어권 화자음성에 대한 인식성능을 향상시킬 수 있다.
음성인식 시스템, 비직접적 데이터 기반, 발음변이 모델링

Description

타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을 위한 비직접적 데이터 기반 발음변이 모델링 시스템 및 방법{System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition}
본 발명은 연속 음성 인식을 위한 음성인식기술에 관한 것으로서, 더욱 상세하게는 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을 위한 비직접적 데이터 기반 발음변이 모델링 시스템 및 방법에 관한 것이다.
일반적으로 자연어 처리분야의 음성인식 시스템은 원어민의 음성으로 학습되기 때문에 원어민 음성에 대하여만 주로 최적화되어 있다. 그러므로 원어민에 의한 음성인식성능은 좋지만 타 언어권 화자에 의한 음성인식성능은 좋지 않다.
이러한 음성인식 시스템의 문제를 개선하기 위하여 제안되고 있는 타 언어권 화자음성에 대한 인식성능의 기술을 다음 도 10을 참조하여 설명한다.
도 10은 일반적인 연속 음성인식시스템을 개략적으로 나타내는 블록도이다. 도 10의 연속 음성인식 시스템(Contineous Voice Recognition) 크게 두 개의모듈로서 구분할 수 있는 바 특징추출모듈(11)과 음성인식모듈(12)로 나눌 수 있다. 이 연속 음성인식 시스템의 음성인식모듈(12)은 보다 구체적으로 음향모델(13), 발음모델(14), 언어모델(15)의 세 모델로 구성된다.
연속 음성인식 시스템은 음성 입력이 들어오면, 입력된 음성이 특징추출모듈(11)을 통하여 인식에 유용한 특징벡터만이 추출된다. 특징벡터는 음성인식모듈(12)에서 음향모델(13), 발음모델(14), 및 언어모델(15)을 탐색한다. 상기 음향모델(13)과 발음모델(14)은 단어단위 탐색에 이용되고, 언어모델(15)은 문장단위 탐색에 이용된다. 또 음성인식모듈(12)은 음향모델(13), 발음모델(14), 및 언어모델(15)을 탐색하여 인식한 결과를 출력한다.
여기에서 음성인식에 대한 연구를 음향모델론적 관점, 발음모델론적 관점, 언어모델론적 관점으로 고려할 수 있다.
발음모델론적 관점에서는 현재까지 제안된 여러 가지 방법 중 대표적인 두 가지 방법이 에이치. 스트릭(H. Strik)씨 등에 의해 소개되어 있다(H. Strik and C. Cucchiarinin, "Modeling pronunciation variation for ASR: A survey of the literature," Speech Comm., vol. 29, nos. 2-4, pp. 225-246, Nov. 1999, 이하 문헌1이라 한다).
문헌1을 참조하면, 발음모델은 지식기반(knowledge-based)에 의한 방법과 데이터기반(data-driven)에 의한 모델링 방법이 있는데, 지식기반에 의한 방법은 현재 활용 가능한 언어학적 지식을 이용하는 방법이고, 데이터기반에 의한 방법은 음 성 신호로부터 발음변이(pronunciation variation), 즉 대화체에서 음운축약, 음운 탈락, 전형적인 오발화, 발화 오류 등의 다양한 형태로 나타난 발음변이를 추출하여 적용하는 방법이다.
상기와 같은 대화체에서의 발음변이를 지식기반의 방법의 경우 일반적인 발음변이를 고려하므로 음소변이규칙에 따른 음소열(pronunciation sequence)들이 필요 이상으로 많이 발생하므로 복잡도(confusability)를 증가시킨다. 뿐만 아니라 지식기반의 방법은 타 언어권 화자의 경우에 맞는 음소변이규칙을 정의하기에는 많은 시간과 노력을 필요로 한다. 이러한 이유로 데이터 기반에 의한 방법을 사용하는 것이 더 효과적이다.
다음 데이터 기반의 방법을 설명하는 티.스벤덴(T. Svendsen)씨의 논문에 소개된 음성기술의 발음모델링에 관한 기술을 참조한다. (T. Svendsen, "Pronunciation modeling for speech technology," in Proc. of SPCOM, pp. 11-16, Dec. 2004, 이하 문헌2이라 한다).
문헌2를 참조하면, 문헌1에 소개된 발음모델에서 설명하는 데이터 기반의 방법은 직접적인 방법(direct data driven method)과 비직접적인 방법(indirect data-driven method))으로 나뉜다.
즉 문헌 2에서, 직접적인 데이터 기반 방법은 발음변이 추출을 위한 개별 음성 데이터들을 강제 인식하거나 음소 인식을 수행하여 발음사전의 단어들에 대한 발음변이를 직접적으로 이용한다. 그러나 직접적인 데이터 기반 방법은 발음사전의 단어들이 발음변이 개별 음성 데이터에 충분히 들어 있을 때에는 좋은 성능을 보이 지만, 그렇지 않을 경우에는 취약한 성능을 보인다.
반면에, 비직접적인 데이터 기반 방법은 발음모델링에 있어서 발음변이 추출을 위한 개별 음성 데이터들로부터 음소변이규칙을 추출하여 적용할 수 있는 발음규칙에 기반하는 학습 데이터(training data)를 사용함으로써 새로운 단어에 대한 발음변이도 생성할 수 있는 장점이 있다.
이와 같이 문헌2의 발음모델에 따르면 비직접적 데이터 기반 방법이 단어에 대한 발음변이도 생성할 수 있는 장점이 있으므로 대화체 음성에서 주로 사용되고 있다. 그러나 이러한 문헌2의 발음모델은 타 언어권 화자의 음성에 사용된 경우 타 언어권 화자음성에 대해서는 좋은 성능을 보이지만, 원어민 화자의 음성에 대해서는 복잡도의 증가로 성능이 저하하는 경우가 빈번하여 발생하고, 또 원어민 화자의 음성이 타 언어권 화자음성에 영향을 주어 결국 발음모델 전체의 성능을 저하시킨다. 즉 문헌2의 발음모델은 발음변이 생성에 유리하지만 타 언어권 화자음성과 원어민 화자음성인식 성능을 떨어뜨리는 문제점을 갖고 있다. 따라서 타 언어권 화자음성인식뿐만 아니라 원어민 화자음성인식에도 좋은 성능을 보이는 발음사전을 모델링이 요청되고 있는 실정이다.
따라서 본 발명의 목적은 상기한 타 언어권 화자음성인식뿐만 아니라 원어민 화자음성인식성능을 저하시키는 문제를 해결하기 위하여 발음사전을 이용한 발음변 이 모델링 시스템에 있어 원어민 화자음성에 대한 인식성능을 저하시키지 않으면서 타 언어권 화자음성에 대한 인식성능을 향상시키기 위해 화자음성 데이터를 이용한 비직접적 테이터 기반의 발음변이 모델링 방법을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 발음변이 모델링 시스템에 따르면,
외부에서 입력된 음성으로부터 특징벡터를 추출하는 특징추출부;
미리 구해진 음향데이터를 저장하는 음향모델 데이터베이스;
발음데이터를 저장하는 발음모델 데이터베이스; 및
상기 음향모델데이터베이스로부터 읽어들인 음향데이터와 상기 발음모델 데이터베이스로부터 읽어들인 발음데이터를 합성하여 생성된 단어열로부터 상기 특징벡터에 기초하여 음소 확률이 가장 높은 단어열을 찾는 음성 인식부를 포함한다.
또한 본 발명의 발음변이 모델링 시스템에 따른 상기 음성 인식부는 동적정렬부를 포함하며, 상기 동적정렬부는
원어민 화자개발용 음성 데이터를 인식하는 제1음소인식부와, 원어민 화자개발용 텍스트 데이터를 전사하여 제1 표준 음소열을 생성하는 제1표준음소열부와, 상기 제1음소인식부에서 인식하여 나온 제1인식음소열과 상기 제1표준음소열부에서 전사하여 생성된 제1 표준 음소열을 동적 계획법에 의해 정렬시키는 원어민동적프로그래밍부와;
타언어권 화자개발용 음성 데이터를 인식하는 제2음소인식부와, 타언어권 화 자개발용 텍스트 데이터를 전사하여 제2 표준 음소열을 생성하는 제2표준음소열부와, 상기 제2음소인식부에서 인식하여 나온 인식음소열과 상기 제2표준음소열부에서 전사하여 생성된 제2 표준 음소열을 상기 동적 계획법에 의해 정렬시키는 타언어권동적프로그래밍부를 포함한다.
또, 본 발명의 발음변이 모델링 시스템에 따른 상기 동적정렬부의 동적계획법은 상기 제1 및 제2 표준음소열 각각은 다음의 수학식
Figure 112007088587007-PAT00001
에 의해서 발음 변이 패턴을 정의한다. (여기에서 L1과 L2는 상기 제1 및 제2 표준음소열 각각의 왼쪽 음소들이고, R 1 R 2 는 상기 제1 및 제2 표준음소열 각각의 오른쪽 음소들이고, 또한 X 는 상기 제1 및 제2 표준음소열의 음소로서 음소 인식 결과 음소열의 음소인 Y 에 대응됨.)
또, 상기 동적정렬부는,
상기 원어민동적프로그래밍부에 의해 정렬된 음소열에 대응되는 변이 음소열 패턴과 상기 타언어권 동적프로그래밍부에 의해 정렬된 음소열에 대응되는 변이음소열 패턴으로부터 음소 결정 트리(phoneme decision three)를 이용해서 변이음소규칙을 생성한다.
또, 본 발명의 발음변이 모델링 시스템은 음소변이규칙을 효과적으로 추출하기 위해서 규칙 정확도(Rule Accuracy)를 통한 가지치기(pruning)를 수행하여 변이음소를 생성하고 원어민화자음소 및 타언어권 화자음소에 대한 새로운 다중 발음사전을 생성하는 표준발음사전적응부;
상기 표준발음사전적응부에서 생성된 변이 음소를 제공받는 저장하는 발음사전부; 및
상기 발음사전부에 저장된 변이음소, 상기 음향모델 데이터베이스에 저장된 저장된 음향 데이터 및 상기 언어모델 데이터베이스에 저장된 언어 정보를 결합하여 패턴을 형성하는 패턴매칭부를 더 포함한다.
또, 본 발명에 따른 음성인식을 위한 모델링 시스템을 이용한 음성인식 모델링 방법은, 원어민 화자개발용 음성 데이터를 인식하여 나온 제1인식음소열과 원어민 화자개발용 텍스트 데이터를 전사하여 생성된 제1표준음소열을 동적 계획법에 의해 원어민 화자 음소로 정렬시키는 단계;
타언어권 화자개발용 음성 데이터를 인식하여 나온 제2인식음소열과 타언어권 화자개발용 텍스트 데이터를 전사하여 생성된 제2표준음소열을 상기 동적 계획법에 의해 타언어권 화자음소로 정렬시키는 단계;
상기 동적 계획법에 의해 원어민 화자 음소로 정렬된 음소열에 대응되는 제1 변이 음소열 패턴과 상기 동적 계획법에 의해 타언어권 화자음소로 정렬된 음소열에 대응되는 제2 변이 음소열 패턴을 생성하는 단계;
상기 생성된 제1 및 제2 변이음소열패턴을 음소결정트리를 이용하여 음소변이규칙을 생성하는 단계;
상기 음소변이규칙을 효과적으로 추출하기 위하여 규칙 정확도(Rule Accuracy)를 통한 가지치기(pruning)를 수행하여 변이음소를 생성하고 원어민화자음소 및 타언어권 화자음소에 대한 다중 발음사전을 생성하는 단계; 및
상기 변이음소를 음향모델 데이터베이스에 저장된 저장된 음향 데이터 및 상기 언어모델 데이터베이스에 저장된 언어 정보를 결합하여 패턴매칭하는 단계를 포함한다.
또, 본 발명의 발음변이 모델링 방법에 따른 상기 제1 및 제2 표준음소열은 대표 음소열, 지식기반 및 직접전사모드 중 적어도 하나의 모드를 이용하여 생성한다.
또, 본 발명의 발음변이 모델링 방법에 따르면, 상기 제1 및 제2 표준음소열 각각은 다음의 수학식
Figure 112007088587007-PAT00002
에 의해서 발음 변이 패턴을 정의한다. 여기에서 L1과 L2는 상기 제1 및 제2 표준음소열 각각의 왼쪽 음소들이고, R 1 R 2 는 상기 제1 및 제2 표준음소열 각각의 오른쪽 음소들이고, 또한 X 는 상기 제1 및 제2 표준음소열의 음소로서 음소 인식 결과 음소열의 음소인 Y 에 대응된다.
따라서 또, 본 발명의 발음변이 모델링 시스템 및 방법은 타 언어권 화자음성에 대한 인식성능의 향상으로, 타 언어권 화자음성 데이터와 원어민 화자의 음성 데이터를 이용하여 비직접적 데이터 기반의 발음변이 모델링이 가능하다.
상술한 것과 같이 본 발명의 타 언어권 화자음성 데이터와 원어민 화자의 음성 데이터를 이용한 비직접적 데이터 기반의 발음변이 모델링 시스템 및 방법에 따 르면, 타 언어권 화자음성에 대한 음성인식 시스템의 성능을 향상시키면서 원어민 화자음성에 대한 음성인식 시스템의 성능의 저하를 가져 오지 않는다.
더욱이, 본 발명의 발음변이 모델링 시스템 및 방법은 데이터 기반으로 타 언어권 화자음성의 발음변이를 분석을 위한 인적 노력과 시간을 줄일 수 있고, 타 언어권 화자음성의 발음변이를 추출함으로써 타 언어권 화자에 대한 지식이 부족한 상황에서도 발음변이 추출을 가능하게 한다. 또한 본 발명은 비직접적 데이터 기반 방법으로 새로운 단어에 대한 발음변이도 생성할 수 있다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다.
도 1은 본 발명의 실시예에 따른 비직접적 데이터 기반 발음변이 모델링 시스템의 일실시예를 개략적으로 설명하는 블럭도이다.
도 1을 참조하면, 본 발명의 실시예에 따른 비직접적 데이터 기반 발음변이 모델링 방법에 있어서 연속 음성인식 시스템(100)은 크게 두 개의 부분으로 구분할 수 있는 바, 특징추출부(101)과 음성인식부(102)로 구비된다. 또한 이 음성인식 시스템(100)의 음성인식부(102)은 보다 구체적으로 단어단위탐색부(90)와 이 단어단위탐색부(90)와 상호 접속되어 해당단어를 주고받는 문장단위탐색부(95)를 구비한다.
상기 특징추출부(101)은 외부에서 입력된 음성으로부터 인식에 유용한 정보만을 추출하여 특징벡터(fv)로 변환한다. 즉 음성인식시스템(100)에 있어서 상기 특징추출부(101)는 음성 입력이 외부에서 들어오면 입력된 음성을 특징벡터(fv)로 추출한다. 특징벡터(fv)는 음성인식을 위하여 예를 들어 12차 멜-켑스트럼(MFCC), 로그에너지, 또는 이에 대한 1차, 2차 미분계수를 사용하여 음성으로부터 추출될 수 있다.
단어모델합성부(93)는 음향모델 데이터베이스(102)에 저장된 음향데이터(p1)와 발음모델 데이터베이스(103)에 저장된 발음데이터(p2)를 합성하여 단어열(ws)을 생성한다.
또 상기 음성인식부(102)의 단어단위탐색부(90)는 단어단위탐색을 위해 특징추출부(101)로부터 제공된 특징벡터(fv)와 상기 생성된 단어열(ws)을 참조한다.
문법부(97)와 의미분석부(99)는 언어모델 데이터베이스(102)에 저장된 언어데이터(p3)를 문장열(ps)를 생성한다.
그리고 상기 음성인식부(102)에 있어서 상기 문장단위탐색부(95)는 상기 단어단위탐색부(90)를 통하여 단어열(ws)를 제공받아 상기 생성된 문장열(ps)를 상기 단어단위탐색부(90)로 제공한다.
상기 단어단위탐색부(90)와 상기 문장단위탐색부(95)는 상호간에 단어열(ws)과 문장열(ps) 데이터를 교환한다.
음성인식부(102)는 특징벡터(fv)에 기초하여 상기 단어열(ws)과 문장열(ps)로부터 음소확률이 가장 높은 단어열을 비터비 알고리듬을 이용하여 찾는다. 여기에서 비터비 알고리듬(Viterbi Algorithm)이란 관찰된 음소열 중에서 가장 빈번하게 나타나는 음소열을 찾아 내는 탐색 방법을 말한다.
도 2는 비직접적 데이터 기반 발음변이 모델링 시스템에서 타 언어권 화자음성에 대한 음성인식 시스템에서 발음사전을 형성하기 위하여 발음을 모델링하는 구성을 나타내는 블록도이다.
본 발명에 따른 비직접적 데이터 기반 발음변이 모델링 시스템에서 발음사전을 형성하는 경우 요구되는 동적정렬부(200)은 원어민동적프로그래밍부(220)와, 상기 원어민동적프로그래밍부(220)에 연결된 타언어권 동적프로그래밍부(210)를 포함한다. 또한 상기 동적정렬부(200)은 동적계획법에 의해 상기 원어민동적프로그래밍부(220)와 타언어권 동적프로그래밍부(210) 각각의 음소를 정렬한다. 여기에서 동적계획법(dynamic programming algorithm)이란 어떤 화자음성의 인식율을 최적으로 달성하기 위해 각각 입력되는 표준음소열과 음소인식한 결과음소열을 정렬하는 최적 접근방법을 말한다.
상기 동적정렬부(200)는 비직접적 데이터 기반 발음변이 모델링을 위해 동적계획법에 의해 타언어권 화자음소와 원어민화자음소가 각각 인식되어 음소열로 정 렬하도록 프로그래밍한다.
상기 변이음소규칙생성기(230)는 상기 동적정렬부(200)에서 정렬된 음소열(v1,v2)을 받아 변이가 일어나는 음소열(phoneme sequence)로 패턴화하여 변이 음소열 패턴을 생성한 다음, 상기 변이 음소열 패턴으로부터 음소 결정 트리(phoneme decision three)를 이용해서 변이음소규칙을 생성한다. 즉 상기 동적정렬부(200)에서 원어민동적프로그래밍부(220)를 통하여 출력한 변이음소열(v1)과, 타언어권 동적프로그래밍부(210)를 통하여 출력된 변이음소열(v2)를 결합하여 변이 음소율 패턴을 생성한 후 상기 변이 음소율 패턴으로부터 음소 결정 트리(phoneme decision three)를 이용해서 변이음소규칙을 생성한다. 다시 말해 상기 변이음소규칙생성기(230)는 동적정렬부(200)에서 정렬된 음소열(v1,v2)에 대해서 변이가 일어나는 경우 변이음소를 기초로 하여 패턴화 한 다음 음소 결정 트리를 사용하여 변이음소규칙을 생성한다.
상기 표준발음사전적응부(240)는 음소변이규칙을 효과적으로 추출하기 위해서 규칙 정확도(Rule Accuracy)를 통한 가지치기(pruning)를 수행하여 변이음소를 생성하고 상기 원어민화자음소 및 타언어권 화자음소에 대한 새로운 다중 발음사전을 생성하여 발음사전부(254)에 적용한다.
상기 발음사전부(254)는 상기 표준발음사전적응부(240)로부터 가지치기되어 적응된 변이음소(vpd)를 입력받아 저장한다.
패턴매칭부(260)는 상기 발음사전부(254)부에 저장된 변이음소(vpd), 상기 음향모델 데이터베이스(253)에 저장된 저장된 음향 데이터 및 상기 언어모델 데이 터베이스(252)에 저장된 언어 정보를 결합하여 패턴을 형성한다.
또한 상기 동적정렬부(200)에서 원어민동적프로그래밍부(220)는 상기 음소인식부(202)에서 인식하여 나온 인식음소열(n1)과 상기 표준음소열부(204)에서 전사하여 얻은 표준음소열(n2)을 동적계획법에 의해 정렬시킨다.
또한 상기 동적정렬부(200)에서 타 언어권 동적프로그래밍부(210)는 상기 음소인식부(201)에서 인식하여 나온 인식음소열(e1)과 상기 표준음소열부(203)에서 전사하여 얻은 표준음소열(e2)을 동적계획에 의해 정렬시킨다.
더욱이 본 발명의 상기 동적정렬부(200)을 구성하는 표준음소열부(203, 204)에서 각각 인식된 표준음소열(e2, n2)은, 상기 동적정렬부(200)의 동적계획법을 사용하여 후술하는 도 4에 도시된 바와 같이, 대표 음소열 전사, 지식기반전사, 직접전사(transcrition)모드 중 어느 하나를 사용하여 표준음소열을 정렬하는 음소열로 구성하는 것이 바람직하다.
한편, 도 2에 도시된 음성인식 시스템을 사용하여 비직접적 데이터 기반 발음변이 모델링 방법을 다섯 단계로 처리할 수 있다.
첫째 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링 방법은, 상기 동적정렬부(200)에 의해 정렬되는 데, 상기 동적정렬부(200)는 먼저 원어민 화자개발용 음성 데이터를 음소인식부(202)에서 인식하여 나온 인식음소열(n1)과, 원어민 화자개발용 텍스트 데이터를 표준음소열부(204)에서 전사한 표준음소열(n2)을 원어민동적프로그래밍부(220)의 동적계획법에 의해 원어민화자음소를 정렬시킨다.
둘째 타 언어권 화자개발용 음성 테이터에 대해서도 또한 상기 동적프로그 래밍부(220)의 동적계획법에 의해 정렬시킨 방법과 마찬가지로 정렬시킨다. 즉 타언어권 화자개발용 음성 데이터를 음소인식부(201)에서 인식하여 나온 인식음소열(e1)과, 타언어권 화자개발용 텍스트 데이터를 표준음소열부(203)에서 전사한 표준음소열(e2)을 타언어권 동적프로그래밍부(210)의 동적계획법에 의해 타언어권 화자음소를 정렬시킨다.
세째 상기 원어민화자음소 동적프로그래밍부(210) 및 타언어권 화자음소 동적프로그래밍부(220)의 동적계획법에 의해 각각 정렬된 결과가 되는 정렬후 변이가 일어나는 변이음소열(v1, v2)을 변이음소 규칙생성기(230)에 입력하여서 변이음소열패턴을 획득한다.
네째 상기 변이음소열 패턴을 합하여 변이음소규칙생성기(230)에 입력시키게 되면, 상기 변이음소규칙생성기(230)는 음소결정트리를 이용하여 변이음소열패턴으로부터 음소변이규칙(Pronunciation variation rule)을 생성한다. 다시 말해 비직접적 데이터 기반의 음소변이규칙은 상기 변이음소규칙생성기(230)에서 발음변이가 일어나는 변이음소열패턴으로 음소결정트리(도 6에서 상세히 설명됨)를 이용하여 생성한다.
마지막으로 상기 변이음소규칙생성기(230)의 비직접적 데이터 기반의 음소변이규칙에 따라서 발음변이열(vp)가 생성되고, 표준발음사전적응부(240)를 거쳐 상기 원어민화자음소 및 타언어권 화자음소에 대한 새로운 다중 발음사전을 생성한다.
그후 상기 생성된 변이음소(vpd)가 발음사전부(254)에 저장되고, 상기 발음 사전부(254)에서 저장된 변이음소(vpd, 또는 d1)가 음향모델부(230) 및 언어모델부(255)로부터 각각 출력된 음향데이터(d2) 및 언어데이터(d3)와 결합하여 패턴매칭부(260)에서 패턴매칭됨으로써, 원어민 화자음성에 대한 인식성능 저하 없이 타 언어권 화자음성에 대한 인식성능을 향상시킨다.
본 발명의 타 언어권 화자에 의한 음성인식을 위하여 타 언어권 화자음성에 대한 비직접적 데이터 기반으로 발음변이 모델링하는 방법은 VLSI 칩, SoC의 IP 및 내장한 소프트웨어로 구현될 수 있다.
이제 본 발명의 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링 방법에 관하여, 1.음소인식과 정렬절차에서는 동적정렬부의 동적계획법에 의해 정렬시킨 단계를 설명하고, 2.음소결정트리를 이용한 규칙 추출 및 발음사전 적응절차에서는 음소열패턴을 획득단계, 음소패턴으로 음소결정트리를 이용하여 음소변이규칙을 생성하는 단계, 및 표준발음사전적응부에 적용하여 새로운 다중 발음사전을 생성하는 단계를 각각 자세히 설명하고, 또한, 3.상기 음소인식절차와 음소인식과 정렬절차에 따라 음성인식 시스템에 적용한 발음사전에 대한 인식성능을 비교하여 평가한다.
1.음소인식과 정렬절차
도 3은 본 발명의 비직접적 데이터 기반의 발음변이 모델링에서 사용되는 음 소리스트를 나타내는 테이블로서, 해당 로마자 발음기호에 대하여 전사하는 한글 발음기호를 나타낸다.
본 발명의 발음변이 모델링 방법에서 먼저 타 언어권 화자개발용 음성 데이터와 원어민 화자개발용 음성 데이터를 음성인식시스템(100)을 이용하여 발음모델링 하기위해 어휘 연속의 음소 리스트를 참조한다.
도 3에서 예시된 바와 같이, 예를 들면 한국어 연속 음성인식시스템를 이용하여 음소인식을 실시하는 경우, 도 2의 음성인식시스템(100)의 음소인식부(202)에서 음소인식에 사용된 음향모델의 트라이폰 모델은 10,138개이고, 사용된 음소는 9개의 단모음과 12개의 이중모음 묵음을 합한 중성모음 21개와, 초성과 종성으로 이루어진 자음 19개를 포함한 총 40개의 음소이며, 음소인식을 위해서 백오프비그램(back-off bigram) 언어모델을 사용한다. 여기서 백오프비그램 언어모델은 색인 과정에서 동일한 단어이지만 색인 대상의 두 단어 사이의 유사도를 측정하여 임계값 이상을 넘으면 같은 부류로 판단하는 모델이다.
다시 도 2를 참조하면, 본 발명에 따른 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링 방법은, 음소인식으로 얻은 결과 음소열(e1,n1)과 표준음소열(e2,n2)을 동적계획법(dynamic programming algorithm)을 이용하여 정렬하면, 대응되는 음소들은 다음의 수학식 1과 같은 음소패턴을 나타낸다.
[수학식 1]
Figure 112007088587007-PAT00003
(여기에서 L1과 L2는 표준음소열의 왼쪽 음소들, R 1 R 2 는 표준음소열(e2,n2)의 오른쪽 음소들을 나타내고, 또한 X 는 표준음소열(e2,n2)의 음소로 음소인식한 결과 음소열(v1,v2)의 음소인 Y 에 대응된다.)
다만 상기 수학식 1과 같은 음소패턴으로 나타낸 발음변이 모델링 방법으로 음소열을 획득할 경우, 자유로운 변이음소를 획득할 수 있지만 인식시스템(100) 자체의 오류가 빈번하게 발생하고, 또 변이음소에 의한 오류인지 아니면 음성인식시스템 자체 오류인지를 구분하기가 어려운 경우가 있다. 따라서 본 발명의 실시예에서는 이러한 문제들을 두 가지 방법으로 보완하였다.
첫째 보완방법은 음소인식의 인식시스템(100) 자체 오류를 줄이기 위해서 비터비 알고리듬을 이용한 탐색에서 100개의 결과를 이용한 결과, 음소 인식률이 71.5%에서 76.8%로 올랐다. 다음 보완방법으로, 인식시스템(100) 자체 오류인지 변이음소에 의한 오류인지를 분류하기 위해서 표준음소열(e2,n2)의 한 음소에 대해 이웃하는 음소들과 결과 음소열에 대응되는 음소의 이웃하는 음소들 중 절반 이상이 동일할 경우에만 음소패턴으로 사용한 결과, 음소 인식률이 크게 올랐음을 확인하였다.
도 4는 도 2에 예시된 동적정렬부에 의한 정렬을 표현하는 테이블로서, 도 3에 나타낸 바와 같은 표준음소리스트를 표준열(reference sequence)로 하여 음소인식한 결과 음소열을 동적프로그래밍에 의해 정렬시킨 예를 테이블로 보여주고 있다. 
도 4를 참조하면, 도 2에 도시된 상기 동적정렬부(200)에서 인식된 음소에 있어서는, 음소열에서 단어 내에서 일어나는 발음변이와 단어와 단어 사이에 일어나는 발음변이가 다르므로 단어와 단어 사이의 경계를 표시한다. 각 단어의 경계에 도 4에서 보는 것과 같이 @ 마크로 표시하였다.
상기 동적정렬부(200)에서 표준음소열부(204)은. 예를 들면 동적정렬부에 의한 정렬을 표현하는 것으로, 한국어 "그래서 여러 가지로 의미가 깊은 달이기 때문입니다." 에 대해서 변이하는 경우를 예로 들수 있다.
즉 표준음소열의 예로는 화자의 대표발음에 따라 표현되는 대표(canocial) 음소열, 화자의 음성이 바뀌어 표현되는 지식기반 음소열, 화자의 발음이 직접적으로 전사하는 직접작업(hand-helded)하는 음소열에 의해 얻어진 3개의 표준음소열(reference sequence)과, 이들 표준음소열에 대하여 음소인식가능하게 정렬한 대체가능한 음소열이 표현된다.
도 4에 있어서 대표 음소열은 도 3과 같이 한국어의 각 음소들을 로마자에 대응시킨 것이다. 지식기반의 음소열은 한국어 표준발음법에 의거하여 음소변동 규칙을 적용하여 생성한 음소열이다. 직접전사음소열은 사람이 직접 듣고 발음 나는 대로 전사한 음소열이다. 또 대체음소열은 발음규칙생성기(230)에서 발음되는 음성의 인식결과 대체할수 있는 대체음소열이다.
도 5는 도 4에서 예시된 동적정렬부에 의한 음소열을 기준으로 추출한 음소규칙패턴을 나타내는 테이블이다.
도 5를 참조하면 인식시스템 자체 오류에 의한 음소패턴을 제거하기 위한 방 법에 따라 상기 수학식 (1)
Figure 112007088587007-PAT00004
을 사용하여 얻은 결과 규칙패턴은, 예컨대 도 4의 정렬테이블에 기재된 한국어 "@달이기@"에 해당하는 음소패턴이 제거된다. 즉 상호 이웃하고 있는 음소의 절반이상이 상이한 경우 규칙패턴 리스트에서 하나의 규칙패턴이 제거됨을 이해할 수 있다.
예를 들면 도 5에 있어서 하나의 음소규칙패턴이 되는 d-a-l+i+g - > l 이 제거되는 것이고, 이는 음소규칙패턴의 대체발음열 전사 'Dylegi' 에 비교하는 경우 비교되는 음소열 6개 가운데 음소 'd' , 'a' , 및 'i' 가 상이하기 때문이다. 즉 이웃하는 음소의 절반 이상이 상이하면 음소인식부에서 발생하는 오류로서 판단되므로, 다음에 오는 부분에서 기재되는 음소결정트리의 구성으로 사용될 수 없음을 확인할 수 있다.
2. 음소결정트리를 이용한 규칙 추출 및 발음사전
도 6은 비직접적 데이터 기반 발음변이 모델링 방법에 의한 음소결정트리를 예시한다. 도 6의 음소결정트리를 이용하여 변이음소규칙생성기(230)에서 음소변이규칙을 추출하는데 이 음소결정트리에는 CART, CHAID, 그리고 C4.5 프로그램 방법 중 어느 하나를 사용할 수 있다. 본 발명의 실시예에서는 C4.5라는 음소결정트리 프로그램을 사용하였다.
이 C4.5 음소결정트리 프로그램은 기존의 ID3 알고리즘을 확장한 것으로 J. Ross Quinlan에 의해 만들어졌다. C4.5 음소결정트리 프로그램은 CART와 같이 이진분리를 하지 않고 가지의 수를 다양화할 수 있다. C4.5 음소결정트리 프로그램은 연속변수에 대해서는 CART와 비슷한 방법을 사용하지만 범주형에서는 다른 방법을 사용한다.
다시 말해 본 발명에서는 음소인식과 정렬절차에 의해서 도 4와 같이 동적프로그래밍을 이용한 표준음소열의 예에 따라 정렬 후 생성된 음소패턴으로 C4.5 음소결정트리를 통해 음소변이규칙을 추출하였다.
C4.5 음소결정트리의 분리기준은 통계적 클래스(statistical classifier)를 이용하며 음소 X 의 좌우 음소들로, 왼쪽 음소 두개와 오른쪽 음소 두개를 각각 분리기준으로 선택하였다.
즉, 상기 수학식 (1)
Figure 112007088587007-PAT00005
에 있어서 표준음소열 L 1, L 2, R 1, 그리고 R 2 가 분리기준이다. C4.5 음소결정트리 프로그램에 의한 결과 클래스는 수학식 (1)에서 Y 로 표시되는 결과 음소열의 대응되는 음소이다. 표준음소열 L 1, L 2, R 1, 그리고 R 2는 도 4에 도시된 정렬테이블에서 40개 음소들이 각각 사용되었다.
C4.5 음소결정트리 프로그램에 맞는 형식으로 음소결정트리를 만들고 제공되는 옵션으로 규칙을 만들면, 각 음소결정트리는 뿌리에서 각 트리의 리프까지 역추적하여 규칙을 생성한다(도 6참조).
도 6은, 예컨대 음소 'ㅋ(k)' 에 대한 음소결정트리를 생성한 예이다. C4.5 음소결정트리 프로그램을 이용한 'ㅋ(k)'에 대한 음소패턴으로 생성한 음소결정트리에서 결과 클래스의 노드는 'k'와 'g'이며 이는 분리기준 L1과 R1에 의해 결정된다.
도 6의 음소결정트리는 아래 알고리즘 표현예 1에 의해서 탐색되어 결정되는 음소결정트리로서, 표현예 1에서 보는 바와 같이, 표준음소열 L1이 'n' 또는 'jv'이거나 표준음소열 L1이 'a' 또는 'ⓐ'이고 표준음소열 R1이 'v' 또는 'U'이면, 결과 클래스의 노드는 'k'가 'g'로 바뀐다.
[표현예 1]
Figure 112007088587007-PAT00006
또 음소 'ㅋ(k)'의 음소결정트리를 C4.5 음소결정트리 프로그램에서 제공하는 옵션에 따라 규칙을 추출하면 다음과 같은 규칙을 얻을 수 있다.
Rule N :
R 1 = 'v' -> class 'g' [Rule Accuracy]
Default: class 'k'
(여기서 N은 규칙 번호이고 음소 'ㅋ(k)'에 대한 규칙에서 N=1이다.)
상기와 같은 규칙에 있어서 규칙정확도[Rule Accuracy]는 음소'ㅋ(k)'에 대한 모든 음소패턴들이 생성된 규칙에 적용되는 상대적 빈도수를 나타낸다. 음소패턴 중 생성된 규칙에 적용되는 것이 없는 경우에 디폴트(Default)가 적용된다. 음소변이규칙을 효과적으로 추출하기 위해서 규칙정확도를 통한 가지치기(pruning)를 수행하고 본 실험에서는 25%를 문턱값으로 사용하였다.
마지막으로, 도 2에 도시된 음성인식 시스템에 있어서 표준발음사전적응부(240)는 가지치기 된 규칙을 발음사전부(254)에 적용한다. 상기 발음사전부(254)는 단어와 그 단어에 대응되는 음소열로 구성되어 있다. 음소열에서 규칙을 통한 변이음소가 생성되면 발음사전부(254)에서 표준발음사전의 음소열에 변이음소의 음소열을 추가하여 새로운 발음사전을 생성한다.
예를 들어 '커지다' 라는 단어의 표준음소열이 'k v z i d a'일 때 첫 음소인 'ㅋ'가 수학식 3의 규칙에 적용되므로 음소'ㅋ'는 음소'g'로 바뀔 수 있다. 따라서 'g v z i d a'라는 발음변이음소열을 얻을 수 있고, 이를 추가하여 새로운 발음사전을 생성할 수 있다.
3. 발음사전 적응절차의 성능 평가
이제 본 발명의 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링 시스템 및 방법에 의한 발음사전 적응절차를 사용하여 타 언어권 및 원어민 화자음성인식한 인식 성능을 도 7, 8 및 9를 참조하여 평가한다.
도 7은 본 발명의 음성인식 시스템에서 발음사전을 사용하였을 때에 오인식되는 단어오인식률로서 표시되는 인식 성능의 예를 그래프로 나타낸다.
도 7 을 참조하면, 본 발명의 발음사전 적응절차규칙에 있어서 발음사전부(254)로는 3가지를 사용하였는데, 대표 음소열, 지식기반, 그리고 직접전사 한 발음사전이다. 이들 사전을 타 언어권 화자음성인식에 사용하였을 때 단어 오인식률이 각각 28.33%, 27.73%, 그리고 27.73% 이었고, 원어민 화자음성인식에 사용하였을 때는 각각 43.47%, 34.43%, 그리고 35.00% 이다.
도 7에서 설명된 바와 같이 도 2에 예시된 동적정렬부에 의한 정렬에 따르면 단어오인식률(%)은 원어민 화자 테스트 음성의 경우 대용량 연속 음성인식이므로 타 언어권 화자음성인식 보다 높은 단어오인식률을 보이지만 실제 같은 테스트 음성 데이터의 경우 타 언어권 화자음성인식의 단어오인식률이 훨씬 높게 됨을 확인할 수 있다.
도 8은 원어민 화자음성으로만 적용된 발음사전과 타 언어권 화자음성으로만 적용된 발음사전을 사용하였을 때의 인식 성능의 예를 테이블로 나타낸다.
도 8에서 타 언어권 화자 규칙에 의한 발음사전을 사용하였을 때의 타 언어권 화자 테스트 음성은 대표 음소열일 때 단어 오인식률이 22.87%, 지식기반인 경우 22.40%, 그리고 직접 전사의 경우에는 22.33%로 앞에서 언급한 기준 사전에 비해 각각 5.46%, 5.33%, 그리고 5.4%의 단어 오인식률 감소를 보였다.
반면 원어민 화자 테스트 음성의 단어 오인식률은 대표 음소열일 때 46.65%, 지식기반의 경우 36.19%, 그리고 직접 전사의 경우 34.94%로 기준 사전에 비해 그대로이거나 오히려 더 성능이 저하되는 것을 볼 수 있다. 마찬가지로 원어민 화자 규칙에 의한 발음사전을 사용하였을 때는 원어민 화자 테스트 음성에 대해서는 성능이 향상되지만 타 언어권 화자 테스트 음성에 대해서는 타 언어권 화자 규칙을 사용했을 때보다 성능이 적게 향상되는 것을 볼 수 있다.
도 8 및 도 9를 참조하면, 원어민 화자음성으로만 개발한 음소변이규칙을 사용한 경우를 '원어민 화자 규칙'이라고 하였고, 타 언어권 화자음성만으로 개발한 음소변이규칙을 사용한 경우에는 '타 언어권 화자 규칙'이라고 하였다. 또한 원어민 화자와 타 언어권 화자의 음성을 모두 사용하여 개발한 음소변이규칙을 '결합규칙' 이라고 명명하였다. 또한 각각의 표준 전사는 대표 음소열, 지식기반, 직접 전사로 나누어서 각각의 인식한 결과 단어 오인식률을 보여 준다.
도 9는 원어민 화자 규칙과 타 언어권 화자 규칙을 모두 사용한 결합규칙을 적용하였을 때에 인식 성능의 예를 보여 준다. 도 9를 참조하면, 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링 방법에서 결합규칙을 사용하여 적응한 발음사전(254)을 타 언어권 화자 테스트 음성을 인식한 결과, 단어 오인식률은 대 표 음소열을 표준 전사로 사용한 경우에 22.40%, 지식기반의 경우 23.53%, 그리고 직접 전사의 경우 22.60%로 타 언어권 화자 규칙을 적용한 경우와 비슷한 결과를 얻을 수 있었다. 또한 원어민 화자 테스트 음성을 인식한 결과도 각각 39.49%, 35.40%, 그리고 34.60% 로 원어민 화자 규칙을 적용했을 때와 거의 유사하게 나오는 것을 볼 수 있다.
따라서 본 발명의 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링 시스템 및 방법을 통해서 타 언어권 화자음성인식뿐만 아니라 원어민 화자음성인식의 성능도 향상과 비직접적 데이터 기반 방법으로 새로운 단어에 대한 발음변이도 생성할 수 있음을 확인할 수 있다.
앞서 설명한 본 발명의 상세한 설명에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자 또는 해당 기술분야에 통상의 지식을 갖는 자라면 후술될 특허청구범위에 기재된 본 발명의 사상 및 기술 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
도 1은 본 발명에 의한 연속 음성인식 시스템의 구성을 나타내는 도면.
도 2는 도 1에 예시된 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링과정을 설명하는 구성도.
도 3은 본 발명의 비직접적 데이터 기반 발음변이 모델링에서 발음사전을 모델링한 구성을 음성별로 나타내는 테이블,
도 4는 도 2에 예시된 동적정렬부에 의한 정렬한 예를 표현하는 테이블,
도 3은 본 발명에서 제안하는 타 언어권 화자의 음성 데이터와 원어민 화자의 음성 데이터를 이용한 비직접적 테이터 기반 방법의 발음변이 모델링 방법을 나타내는 도면.
도 5는 도 2에 예시된 동적정렬부에 의한 정렬표를 기준으로 추출한 음소패턴의 예를 나타내는 테이블,
도 6은 도 4의 음소패턴테이블에 기초한 음소결정을 트리구조로 나타내는 도면,
도 7은 도 2에 예시된 동적정렬부에 의한 정렬시 발음사전에서 단어 오인식율을 나타낸 그래프,
도 8은 도 2에 예시된 동적정렬부에 의한 정렬시 발음사전 적응절차규칙에 따라 테스트를 나타낸 테이블,
도 9는 도 8에 예시된 테스트에서 정렬시 발음사전 결합규칙에 따라 테스트 를 나타낸 테이블, 및
도 10은 일반적인 연속 음성인식시스템을 개략적으로 나타내는 블록도이다.
<도면의 주요 부분에 대한 부호의 설명>
90: 단어단위탐색부 93: 단어모델부
95: 문장단위탐색부 97: 문법부
99: 의미분석부 100: 음성인식 시스템
101: 특징추출부 102: 음성인식부
200 : 동적 정렬부

Claims (7)

  1. 외부에서 입력된 음성으로부터 특징벡터를 추출하는 특징추출부;
    미리 구해진 음향데이터를 저장하는 음향모델 데이터베이스;
    발음데이터를 저장하는 발음모델 데이터베이스; 및
    상기 음향모델데이터베이스로부터 읽어들인 음향데이터와 상기 발음모델 데이터베이스로부터 읽어들인 발음데이터를 합성하여 생성된 단어열로부터 상기 특징벡터에 기초하여 음소 확률이 가장 높은 단어열을 찾는 음성 인식부를 포함하는 음성인식 모델링 시스템.
  2. 제 1항에 있어서,
    상기 음성 인식부는 동적정렬부를 포함하며, 상기 동적정렬부는
    원어민 화자개발용 음성 데이터를 인식하는 제1음소인식부와, 원어민 화자개발용 텍스트 데이터를 전사하여 제1 표준 음소열을 생성하는 제1표준음소열부와, 상기 제1음소인식부에서 인식하여 나온 제1인식음소열과 상기 제1표준음소열부에서 전사하여 생성된 제1 표준 음소열을 동적 계획법에 의해 정렬시키는 원어민동적프로그래밍부와;
    타언어권 화자개발용 음성 데이터를 인식하는 제2음소인식부와, 타언어권 화자개발용 텍스트 데이터를 전사하여 제2 표준 음소열을 생성하는 제2표준음소열부와, 상기 제2음소인식부에서 인식하여 나온 인식음소열과 상기 제2표준음소열부에 서 전사하여 생성된 제2 표준 음소열을 상기 동적 계획법에 의해 정렬시키는 타언어권동적프로그래밍부를 포함하는 것을 특징으로 하는 음성인식 모델링 시스템.
  3. 제 2 항에 있어서,
    상기 동적정렬부의 동적계획법은 상기 제1 및 제2 표준음소열 각각은 다음의 수학식
    Figure 112007088587007-PAT00007
    에 의해서 발음 변이 패턴을 정의하는 것을 특징으로 하는 음성인식 모델링 시스템.
    (여기에서 L1과 L2는 상기 제1 및 제2 표준음소열 각각의 왼쪽 음소들이고, R 1 R 2 는 상기 제1 및 제2 표준음소열 각각의 오른쪽 음소들이고, 또한 X 는 상기 제1 및 제2 표준음소열의 음소로서 음소 인식 결과 음소열의 음소인 Y 에 대응됨.)
  4. 제2 항에 있어서,
    상기 동적정렬부는,
    상기 원어민동적프로그래밍부에 의해 정렬된 음소열에 대응되는 변이 음소열 패턴과 상기 타언어권 동적프로그래밍부에 의해 정렬된 음소열에 대응되는 변이음소열 패턴으로부터 음소 결정 트리(phoneme decision three)를 이용해서 변이음소규칙을 생성하는 변이음소규칙생성기;
    상기 음소변이규칙을 효과적으로 추출하기 위해서 규칙 정확도(Rule Accuracy)를 통한 가지치기(pruning)를 수행하여 변이음소를 생성하고 원어민화자음소 및 타언어권 화자음소에 대한 새로운 다중 발음사전을 생성하는 표준발음사전적응부;
    상기 표준발음사전적응부에서 생성된 변이 음소를 제공받는 저장하는 발음사전부; 및
    상기 발음사전부에 저장된 변이음소, 상기 음향모델 데이터베이스에 저장된 저장된 음향 데이터 및 상기 언어모델 데이터베이스에 저장된 언어 정보를 결합하여 패턴을 형성하는 패턴매칭부를 더 포함하는 것을 특징으로 하는 음성인식을 위한 모델링 시스템.
  5. 음성인식 모델링 방법에 있어서,
    원어민 화자개발용 음성 데이터를 인식하여 나온 제1인식음소열과 원어민 화자개발용 텍스트 데이터를 전사하여 생성된 제1표준음소열을 동적 계획법에 의해 원어민 화자 음소로 정렬시키는 단계;
    타언어권 화자개발용 음성 데이터를 인식하여 나온 제2인식음소열과 타언어권 화자개발용 텍스트 데이터를 전사하여 생성된 제2표준음소열을 상기 동적 계획법에 의해 타언어권 화자음소로 정렬시키는 단계;
    상기 동적 계획법에 의해 원어민 화자 음소로 정렬된 음소열에 대응되는 제1 변이 음소열 패턴과 상기 동적 계획법에 의해 타언어권 화자음소로 정렬된 음소열에 대응되는 제2 변이 음소열 패턴을 생성하는 단계;
    상기 생성된 제1 및 제2 변이음소열패턴을 음소결정트리를 이용하여 음소변이규칙을 생성하는 단계;
    상기 음소변이규칙을 효과적으로 추출하기 위하여 규칙 정확도(Rule Accuracy)를 통한 가지치기(pruning)를 수행하여 변이음소를 생성하고 원어민화자음소 및 타언어권 화자음소에 대한 다중 발음사전을 생성하는 단계; 및
    상기 변이음소를 음향모델 데이터베이스에 저장된 저장된 음향 데이터 및 상기 언어모델 데이터베이스에 저장된 언어 정보를 결합하여 패턴매칭하는 단계를 포함하는 것을 특징으로 하는 음성인식 모델링 방법.
  6. 제 5 항에 있어서, 상기 제1 및 제2 표준음소열은 대표 음소열, 지식기반 및 직접전사모드 중 적어도 하나의 모드를 이용하여 생성하는 것을 특징으로 하는 음성인식 모델링 방법.
  7. 제 5 항에 있어서,
    상기 제1 및 제2 표준음소열 각각은 다음의 수학식
    Figure 112007088587007-PAT00008
    에 의해서 발음 변이 패턴을 정의하는 것을 특징으로 하는 음성인식 모델링 시스템(여기에서 L1과 L2는 상기 제1 및 제2 표준음소열 각각의 왼쪽 음소들이고, R 1 R 2 는 상기 제1 및 제2 표준음소열 각각의 오른쪽 음소들이고, 또한 X 는 상기 제1 및 제2 표준음소열의 음소로서 음소 인식 결과 음소열의 음소인 Y 에 대응됨).
KR1020070127516A 2007-12-10 2007-12-10 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 KR101424193B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070127516A KR101424193B1 (ko) 2007-12-10 2007-12-10 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070127516A KR101424193B1 (ko) 2007-12-10 2007-12-10 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법

Publications (2)

Publication Number Publication Date
KR20090060631A true KR20090060631A (ko) 2009-06-15
KR101424193B1 KR101424193B1 (ko) 2014-07-28

Family

ID=40990340

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070127516A KR101424193B1 (ko) 2007-12-10 2007-12-10 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법

Country Status (1)

Country Link
KR (1) KR101424193B1 (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101250897B1 (ko) * 2009-08-14 2013-04-04 한국전자통신연구원 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
KR20160059265A (ko) * 2014-11-18 2016-05-26 에스케이텔레콤 주식회사 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
WO2016114428A1 (ko) * 2015-01-16 2016-07-21 삼성전자 주식회사 문법 모델을 이용하여 음성인식을 수행하는 방법 및 디바이스
WO2019098589A1 (ko) * 2017-11-14 2019-05-23 주식회사 시스트란인터내셔널 자동 음성인식 장치 및 방법
CN112349294A (zh) * 2020-10-22 2021-02-09 腾讯科技(深圳)有限公司 语音处理方法及装置、计算机可读介质、电子设备
KR20210101971A (ko) * 2020-02-11 2021-08-19 주식회사 케이티 음성 인식 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
CN113380273A (zh) * 2020-08-10 2021-09-10 腾擎科研创设股份有限公司 异常声音检测及判断形成原因的系统
WO2023136490A1 (ko) * 2022-01-11 2023-07-20 삼성전자 주식회사 발음에 기반한 이종 언어의 텍스트 검색 방법 및 이를 적용한 전자 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06289894A (ja) * 1993-03-31 1994-10-18 Nippon Telegr & Teleph Corp <Ntt> 日本語音声認識方法
KR100815115B1 (ko) * 2006-03-31 2008-03-20 광주과학기술원 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101250897B1 (ko) * 2009-08-14 2013-04-04 한국전자통신연구원 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
KR20160059265A (ko) * 2014-11-18 2016-05-26 에스케이텔레콤 주식회사 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
WO2016114428A1 (ko) * 2015-01-16 2016-07-21 삼성전자 주식회사 문법 모델을 이용하여 음성인식을 수행하는 방법 및 디바이스
US10403267B2 (en) 2015-01-16 2019-09-03 Samsung Electronics Co., Ltd Method and device for performing voice recognition using grammar model
US10706838B2 (en) 2015-01-16 2020-07-07 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
USRE49762E1 (en) 2015-01-16 2023-12-19 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
US10964310B2 (en) 2015-01-16 2021-03-30 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
WO2019098589A1 (ko) * 2017-11-14 2019-05-23 주식회사 시스트란인터내셔널 자동 음성인식 장치 및 방법
KR20210101971A (ko) * 2020-02-11 2021-08-19 주식회사 케이티 음성 인식 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
CN113380273A (zh) * 2020-08-10 2021-09-10 腾擎科研创设股份有限公司 异常声音检测及判断形成原因的系统
CN112349294A (zh) * 2020-10-22 2021-02-09 腾讯科技(深圳)有限公司 语音处理方法及装置、计算机可读介质、电子设备
CN112349294B (zh) * 2020-10-22 2024-05-24 腾讯科技(深圳)有限公司 语音处理方法及装置、计算机可读介质、电子设备
WO2023136490A1 (ko) * 2022-01-11 2023-07-20 삼성전자 주식회사 발음에 기반한 이종 언어의 텍스트 검색 방법 및 이를 적용한 전자 장치

Also Published As

Publication number Publication date
KR101424193B1 (ko) 2014-07-28

Similar Documents

Publication Publication Date Title
CN109410914B (zh) 一种赣方言语音和方言点识别方法
CN109255113B (zh) 智能校对系统
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP5014785B2 (ja) 表音ベース音声認識システム及び方法
Witt et al. Language learning based on non-native speech recognition.
US20100004931A1 (en) Apparatus and method for speech utterance verification
KR20090060631A (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
KR102094935B1 (ko) 음성 인식 시스템 및 방법
CN100354929C (zh) 语音处理设备、语言处理方法
CN1402851A (zh) 以自底向上方式将声调集成到汉语连续语音识别系统中的方向、装置和系统
Kumar et al. A comprehensive view of automatic speech recognition system-a systematic literature review
US8219386B2 (en) Arabic poetry meter identification system and method
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Haraty et al. CASRA+: A colloquial Arabic speech recognition application
Mehra et al. Improving word recognition in speech transcriptions by decision-level fusion of stemming and two-way phoneme pruning
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
Fu et al. A survey on Chinese speech recognition
Barman et al. State of the art review of speech recognition using genetic algorithm
Cai et al. Deep speaker embeddings with convolutional neural network on supervector for text-independent speaker recognition
Baranwal et al. Improved Mispronunciation detection system using a hybrid CTC-ATT based approach for L2 English speakers
Zhang et al. Reliable accent-specific unit generation with discriminative dynamic Gaussian mixture selection for multi-accent Chinese speech recognition
Schuller et al. Late fusion of individual engines for improved recognition of negative emotion in speech-learning vs. democratic vote
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
Garud et al. Development of hmm based automatic speech recognition system for Indian english
JPH1097293A (ja) 音声認識用単語辞書作成装置及び連続音声認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170629

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180625

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190702

Year of fee payment: 6