KR101424193B1 - System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition - Google Patents

System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition Download PDF

Info

Publication number
KR101424193B1
KR101424193B1 KR1020070127516A KR20070127516A KR101424193B1 KR 101424193 B1 KR101424193 B1 KR 101424193B1 KR 1020070127516 A KR1020070127516 A KR 1020070127516A KR 20070127516 A KR20070127516 A KR 20070127516A KR 101424193 B1 KR101424193 B1 KR 101424193B1
Authority
KR
South Korea
Prior art keywords
phoneme
standard
pronunciation
string
unit
Prior art date
Application number
KR1020070127516A
Other languages
Korean (ko)
Other versions
KR20090060631A (en
Inventor
김홍국
김민아
오유리
Original Assignee
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광주과학기술원 filed Critical 광주과학기술원
Priority to KR1020070127516A priority Critical patent/KR101424193B1/en
Publication of KR20090060631A publication Critical patent/KR20090060631A/en
Application granted granted Critical
Publication of KR101424193B1 publication Critical patent/KR101424193B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을 위한 비직접적 데이터 기반 발음변이 모델링 시스템 및 방법이 제공되어 있다. 음성인식을 위한 모델링 시스템에 있어서, 외부에서 입력된 음성으로부터 특징벡터를 추출하는 특징추출부; 미리 구해진 음향데이터를 저장하는 음향모델 데이터베이스; 발음데이터를 저장하는 발음모델 데이터베이스; 및 상기 음향모델데이터베이스로부터 읽어들인 음향데이터와 상기 발음모델 데이터베이스로부터 읽어들인 발음데이터를 합성하여 생성된 단어열로부터 상기 특징벡터에 기초하여 음소 확률이 가장 높은 단어열을 찾는 음성 인식부를 포함한다. 따라서 원어민 화자음성에 대한 인식성능을 저하시키지 않고 타 언어권 화자음성에 대한 인식성능을 향상시킬 수 있다. A non-direct data-based pronunciation variation modeling system and method for enhancing the performance of a speech recognition system for a non-native speaker voice are provided. A modeling system for speech recognition, comprising: a feature extraction unit for extracting a feature vector from an externally input speech; An acoustic model database for storing acoustic data obtained in advance; A pronunciation model database for storing pronunciation data; And a speech recognition unit for finding a word sequence having the highest phoneme probability based on the feature vector from the word sequence generated by synthesizing the sound data read from the acoustic model database and the pronunciation data read from the pronunciation model database. Therefore, it is possible to improve the recognition performance of the voice of the native speaker without reducing the recognition performance of the native speaker voice.

음성인식 시스템, 비직접적 데이터 기반, 발음변이 모델링 Speech recognition system, non-direct data base, pronunciation variation modeling

Description

타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을 위한 비직접적 데이터 기반 발음변이 모델링 시스템 및 방법{System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition}TECHNICAL FIELD The present invention relates to a non-direct data-based pronunciation variation modeling system and method for enhancing the performance of a speech recognition system for a non-native speaker voice,

본 발명은 연속 음성 인식을 위한 음성인식기술에 관한 것으로서, 더욱 상세하게는 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을 위한 비직접적 데이터 기반 발음변이 모델링 시스템 및 방법에 관한 것이다. The present invention relates to speech recognition technology for continuous speech recognition, and more particularly, to a non-direct data-based pronunciation variation modeling system and method for improving the performance of a speech recognition system for non-native speaker speech.

일반적으로 자연어 처리분야의 음성인식 시스템은 원어민의 음성으로 학습되기 때문에 원어민 음성에 대하여만 주로 최적화되어 있다. 그러므로 원어민에 의한 음성인식성능은 좋지만 타 언어권 화자에 의한 음성인식성능은 좋지 않다. In general, the speech recognition system in the natural language processing field is mainly optimized for the native speaker voice because it is learned by the native speaker's voice. Therefore, speech recognition performance by native speakers is good, but speech recognition performance by other speakers is not good.

이러한 음성인식 시스템의 문제를 개선하기 위하여 제안되고 있는 타 언어권 화자음성에 대한 인식성능의 기술을 다음 도 10을 참조하여 설명한다. A description of a recognition performance of a speech of a non-native speaker to improve the problem of the speech recognition system will be described with reference to FIG.

도 10은 일반적인 연속 음성인식시스템을 개략적으로 나타내는 블록도이다. 도 10의 연속 음성인식 시스템(Contineous Voice Recognition) 크게 두 개의모듈로서 구분할 수 있는 바 특징추출모듈(11)과 음성인식모듈(12)로 나눌 수 있다. 이 연속 음성인식 시스템의 음성인식모듈(12)은 보다 구체적으로 음향모델(13), 발음모델(14), 언어모델(15)의 세 모델로 구성된다. 10 is a block diagram schematically showing a general continuous speech recognition system. Contineous Voice Recognition System (Contineous Voice Recognition) of FIG. 10 can be roughly divided into two modules, and can be divided into a feature extraction module 11 and a voice recognition module 12. More specifically, the speech recognition module 12 of the continuous speech recognition system is composed of three models: an acoustic model 13, a pronunciation model 14, and a language model 15.

연속 음성인식 시스템은 음성 입력이 들어오면, 입력된 음성이 특징추출모듈(11)을 통하여 인식에 유용한 특징벡터만이 추출된다. 특징벡터는 음성인식모듈(12)에서 음향모델(13), 발음모델(14), 및 언어모델(15)을 탐색한다. 상기 음향모델(13)과 발음모델(14)은 단어단위 탐색에 이용되고, 언어모델(15)은 문장단위 탐색에 이용된다. 또 음성인식모듈(12)은 음향모델(13), 발음모델(14), 및 언어모델(15)을 탐색하여 인식한 결과를 출력한다.In the continuous speech recognition system, when a voice input is received, only the feature vectors useful for recognizing the input voice through the feature extraction module 11 are extracted. The feature vector searches the acoustic model 13, the pronunciation model 14, and the language model 15 in the speech recognition module 12. The acoustic model 13 and the pronunciation model 14 are used for word unit search and the language model 15 is used for sentence unit search. Further, the voice recognition module 12 searches the acoustic model 13, the pronunciation model 14, and the language model 15 and outputs the recognized result.

여기에서 음성인식에 대한 연구를 음향모델론적 관점, 발음모델론적 관점, 언어모델론적 관점으로 고려할 수 있다. Here, research on speech recognition can be considered as an acoustic modeling viewpoint, a pronunciation modeling viewpoint, and a language modeling viewpoint.

발음모델론적 관점에서는 현재까지 제안된 여러 가지 방법 중 대표적인 두 가지 방법이 에이치. 스트릭(H. Strik)씨 등에 의해 소개되어 있다(H. Strik and C. Cucchiarinin, "Modeling pronunciation variation for ASR: A survey of the literature," Speech Comm., vol. 29, nos. 2-4, pp. 225-246, Nov. 1999, 이하 문헌1이라 한다). In the pronunciation modeling viewpoint, two representative methods among the various methods proposed so far are H. H. Strik, H. Strik and C. Cucchiarinin, "Modeling pronunciation variation for ASR: A survey of the literature," Speech Comm. , Vol. 29, nos. 2-4, pp. 225-246, Nov. 1999, hereinafter referred to as Document 1).

문헌1을 참조하면, 발음모델은 지식기반(knowledge-based)에 의한 방법과 데이터기반(data-driven)에 의한 모델링 방법이 있는데, 지식기반에 의한 방법은 현재 활용 가능한 언어학적 지식을 이용하는 방법이고, 데이터기반에 의한 방법은 음 성 신호로부터 발음변이(pronunciation variation), 즉 대화체에서 음운축약, 음운 탈락, 전형적인 오발화, 발화 오류 등의 다양한 형태로 나타난 발음변이를 추출하여 적용하는 방법이다. In reference to Document 1, the pronunciation model includes a knowledge-based method and a data-driven modeling method. The knowledge-based method uses a currently available linguistic knowledge , The data-based method is a method of extracting pronunciation variation from various types of pronunciation variations such as phonological shortening, phonological elimination, typical eruption, and utterance errors from speech signals.

상기와 같은 대화체에서의 발음변이를 지식기반의 방법의 경우 일반적인 발음변이를 고려하므로 음소변이규칙에 따른 음소열(pronunciation sequence)들이 필요 이상으로 많이 발생하므로 복잡도(confusability)를 증가시킨다. 뿐만 아니라 지식기반의 방법은 타 언어권 화자의 경우에 맞는 음소변이규칙을 정의하기에는 많은 시간과 노력을 필요로 한다. 이러한 이유로 데이터 기반에 의한 방법을 사용하는 것이 더 효과적이다.In the case of the knowledge-based method, the pronunciation variation in the above-mentioned dialogue is considered in consideration of the general pronunciation variation, so that the pronunciation sequences according to the phoneme variation rule are generated more than necessary, thereby increasing the confusability. In addition, the knowledge-based method requires a lot of time and effort to define the phoneme rules that are appropriate for other speakers. For this reason, it is more effective to use the data-based method.

다음 데이터 기반의 방법을 설명하는 티.스벤덴(T. Svendsen)씨의 논문에 소개된 음성기술의 발음모델링에 관한 기술을 참조한다. (T. Svendsen, "Pronunciation modeling for speech technology," in Proc. of SPCOM, pp. 11-16, Dec. 2004, 이하 문헌2이라 한다). See the description of pronunciation modeling in speech technology introduced in T. Svendsen's paper describing the data-based method. (T. Svendsen, "Pronunciation modeling for speech technology," in Proc. Of SPCOM , pp. 11-16, Dec. 2004, hereinafter referred to as document 2).

문헌2를 참조하면, 문헌1에 소개된 발음모델에서 설명하는 데이터 기반의 방법은 직접적인 방법(direct data driven method)과 비직접적인 방법(indirect data-driven method))으로 나뉜다. Referring to Document 2, the data-based method described in the pronunciation model introduced in Document 1 is divided into a direct data driven method and an indirect data-driven method.

즉 문헌 2에서, 직접적인 데이터 기반 방법은 발음변이 추출을 위한 개별 음성 데이터들을 강제 인식하거나 음소 인식을 수행하여 발음사전의 단어들에 대한 발음변이를 직접적으로 이용한다. 그러나 직접적인 데이터 기반 방법은 발음사전의 단어들이 발음변이 개별 음성 데이터에 충분히 들어 있을 때에는 좋은 성능을 보이 지만, 그렇지 않을 경우에는 취약한 성능을 보인다. In Document 2, a direct data-based method forcibly recognizes individual speech data for pronunciation variation extraction or performs phoneme recognition to directly use pronunciation variation for words in the pronunciation dictionary. However, the direct data-based method shows good performance when the words in the pronunciation dictionary are sufficiently contained in the individual speech data of the pronunciation variation, but it shows weak performance when not.

반면에, 비직접적인 데이터 기반 방법은 발음모델링에 있어서 발음변이 추출을 위한 개별 음성 데이터들로부터 음소변이규칙을 추출하여 적용할 수 있는 발음규칙에 기반하는 학습 데이터(training data)를 사용함으로써 새로운 단어에 대한 발음변이도 생성할 수 있는 장점이 있다. On the other hand, the non-direct data-based method uses pronunciation data (training data) based on pronunciation rules that can be applied by extracting phoneme variation rules from individual speech data for pronunciation variation extraction in pronunciation modeling There is an advantage that the pronunciation variation can also be generated.

이와 같이 문헌2의 발음모델에 따르면 비직접적 데이터 기반 방법이 단어에 대한 발음변이도 생성할 수 있는 장점이 있으므로 대화체 음성에서 주로 사용되고 있다. 그러나 이러한 문헌2의 발음모델은 타 언어권 화자의 음성에 사용된 경우 타 언어권 화자음성에 대해서는 좋은 성능을 보이지만, 원어민 화자의 음성에 대해서는 복잡도의 증가로 성능이 저하하는 경우가 빈번하여 발생하고, 또 원어민 화자의 음성이 타 언어권 화자음성에 영향을 주어 결국 발음모델 전체의 성능을 저하시킨다. 즉 문헌2의 발음모델은 발음변이 생성에 유리하지만 타 언어권 화자음성과 원어민 화자음성인식 성능을 떨어뜨리는 문제점을 갖고 있다. 따라서 타 언어권 화자음성인식뿐만 아니라 원어민 화자음성인식에도 좋은 성능을 보이는 발음사전을 모델링이 요청되고 있는 실정이다. Thus, according to the pronunciation model of Document 2, the non-direct data-based method is mainly used in dialogue voice because it has an advantage of generating a pronunciation variation for a word. However, when the pronunciation model of the document 2 is used for the voice of a non-native speaker, the performance of the voice of the native speaker is good, but the performance of the native speaker is frequently deteriorated due to an increase in complexity. The voice of the native speaker influences the voice of the speaker of the other language, thereby deteriorating the performance of the entire pronunciation model. That is, the pronunciation model of Document 2 is advantageous in generating a pronunciation variation, but it has a problem of deteriorating speech recognition performance of a native speaker and a native speaker. Therefore, it is required to model a pronunciation dictionary which is good not only for the speech recognition of the non-native speaker but also for the native speaker voice recognition.

따라서 본 발명의 목적은 상기한 타 언어권 화자음성인식뿐만 아니라 원어민 화자음성인식성능을 저하시키는 문제를 해결하기 위하여 발음사전을 이용한 발음변 이 모델링 시스템에 있어 원어민 화자음성에 대한 인식성능을 저하시키지 않으면서 타 언어권 화자음성에 대한 인식성능을 향상시키기 위해 화자음성 데이터를 이용한 비직접적 테이터 기반의 발음변이 모델링 방법을 제공함에 있다. Therefore, it is an object of the present invention to provide a modeling system using a phonetic dictionary in order to solve the problem of deteriorating native speaker's speech recognition performance as well as speech recognition of a non-native speaker speaker, The present invention provides a non-direct data-based pronunciation variation modeling method using speaker speech data to improve recognition performance of a native speaker speech.

상기 목적을 달성하기 위한 본 발명의 발음변이 모델링 시스템에 따르면, According to the pronunciation variation modeling system of the present invention for achieving the above object,

외부에서 입력된 음성으로부터 특징벡터를 추출하는 특징추출부; A feature extraction unit for extracting a feature vector from an externally input speech;

미리 구해진 음향데이터를 저장하는 음향모델 데이터베이스;An acoustic model database for storing acoustic data obtained in advance;

발음데이터를 저장하는 발음모델 데이터베이스; 및A pronunciation model database for storing pronunciation data; And

상기 음향모델데이터베이스로부터 읽어들인 음향데이터와 상기 발음모델 데이터베이스로부터 읽어들인 발음데이터를 합성하여 생성된 단어열로부터 상기 특징벡터에 기초하여 음소 확률이 가장 높은 단어열을 찾는 음성 인식부를 포함한다. And a speech recognition unit for finding a word string having the highest phoneme probability based on the feature vector from a word string generated by synthesizing the sound data read from the acoustic model database and the pronunciation data read from the pronunciation model database.

또한 본 발명의 발음변이 모델링 시스템에 따른 상기 음성 인식부는 동적정렬부를 포함하며, 상기 동적정렬부는 Further, the speech recognition unit according to the pronunciation variation modeling system of the present invention includes a dynamic alignment unit,

원어민 화자개발용 음성 데이터를 인식하는 제1음소인식부와, 원어민 화자개발용 텍스트 데이터를 전사하여 제1 표준 음소열을 생성하는 제1표준음소열부와, 상기 제1음소인식부에서 인식하여 나온 제1인식음소열과 상기 제1표준음소열부에서 전사하여 생성된 제1 표준 음소열을 동적 계획법에 의해 정렬시키는 원어민동적프로그래밍부와; A first phoneme recognition unit for recognizing speech data for native speaker development, a first standard phoneme recognition unit for generating a first standard phoneme string by transferring text data for native speaker development, A native speaker dynamic programming unit for arranging the first recognized phoneme string and the first standard phoneme string generated by the transfer in the first standard phoneme string portion by dynamic programming;

타언어권 화자개발용 음성 데이터를 인식하는 제2음소인식부와, 타언어권 화 자개발용 텍스트 데이터를 전사하여 제2 표준 음소열을 생성하는 제2표준음소열부와, 상기 제2음소인식부에서 인식하여 나온 인식음소열과 상기 제2표준음소열부에서 전사하여 생성된 제2 표준 음소열을 상기 동적 계획법에 의해 정렬시키는 타언어권동적프로그래밍부를 포함한다. A second phonemic recognition unit for recognizing speech data for development of a second language speaker, a second standard phoneme recognition unit for generating a second standard phoneme string by transferring the text data for development of a second language speaker, And a second language dynamic programming unit for arranging the recognized phoneme string recognized and sent and the second standard phoneme string generated by transferring in the second standard phoneme string portion by the dynamic programming method.

또, 본 발명의 발음변이 모델링 시스템에 따른 상기 동적정렬부의 동적계획법은 상기 제1 및 제2 표준음소열 각각은 다음의 수학식

Figure 112007088587007-pat00001
에 의해서 발음 변이 패턴을 정의한다. (여기에서 L1과 L2는 상기 제1 및 제2 표준음소열 각각의 왼쪽 음소들이고, R 1 R 2 는 상기 제1 및 제2 표준음소열 각각의 오른쪽 음소들이고, 또한 X 는 상기 제1 및 제2 표준음소열의 음소로서 음소 인식 결과 음소열의 음소인 Y 에 대응됨.) Further, in the dynamic programming of the dynamic alignment unit according to the pronunciation variation modeling system of the present invention, each of the first and second standard phonemes is expressed by the following equation
Figure 112007088587007-pat00001
To define a pronunciation variation pattern. (Wherein L1 and L2 are the first and second deulyigo standard phoneme each left column phoneme, R 1 and R 2 are the first and second deulyigo each of the right phoneme standard phoneme heat, and X is the first and And corresponds to the phoneme Y of the second standard phoneme string and the phoneme of the phoneme string.

또, 상기 동적정렬부는, In addition,

상기 원어민동적프로그래밍부에 의해 정렬된 음소열에 대응되는 변이 음소열 패턴과 상기 타언어권 동적프로그래밍부에 의해 정렬된 음소열에 대응되는 변이음소열 패턴으로부터 음소 결정 트리(phoneme decision three)를 이용해서 변이음소규칙을 생성한다. And a phoneme decision tree (phoneme decision tree) is generated from the mutated phoneme string pattern corresponding to the phoneme string aligned by the native speaker dynamic programming section and the mutated phoneme string pattern corresponding to the phoneme string aligned by the non- Create a rule.

또, 본 발명의 발음변이 모델링 시스템은 음소변이규칙을 효과적으로 추출하기 위해서 규칙 정확도(Rule Accuracy)를 통한 가지치기(pruning)를 수행하여 변이음소를 생성하고 원어민화자음소 및 타언어권 화자음소에 대한 새로운 다중 발음사전을 생성하는 표준발음사전적응부; In addition, the pronunciation variation modeling system of the present invention generates a variation phoneme by performing pruning through Rule Accuracy in order to extract the phoneme variation rules effectively, and generates a new phoneme phoneme and a new A standard pronunciation dictionary adaptation unit for generating a multi-phonetic dictionary;

상기 표준발음사전적응부에서 생성된 변이 음소를 제공받는 저장하는 발음사전부; 및A pronunciation dictionary unit for storing the phonemes generated by the standard pronunciation dictionary adaptation unit; And

상기 발음사전부에 저장된 변이음소, 상기 음향모델 데이터베이스에 저장된 저장된 음향 데이터 및 상기 언어모델 데이터베이스에 저장된 언어 정보를 결합하여 패턴을 형성하는 패턴매칭부를 더 포함한다. And a pattern matching unit for forming a pattern by combining mutation phonemes stored in the pronunciation dictionary unit, stored sound data stored in the acoustic model database, and language information stored in the language model database.

또, 본 발명에 따른 음성인식을 위한 모델링 시스템을 이용한 음성인식 모델링 방법은, 원어민 화자개발용 음성 데이터를 인식하여 나온 제1인식음소열과 원어민 화자개발용 텍스트 데이터를 전사하여 생성된 제1표준음소열을 동적 계획법에 의해 원어민 화자 음소로 정렬시키는 단계; In addition, the speech recognition modeling method using the modeling system for speech recognition according to the present invention includes a first recognition phoneme string recognizing speech data for native speaker development and a first standard phoneme string generated by transferring text data for native speaker development Arranging the columns into native speaker phonemes by dynamic programming;

타언어권 화자개발용 음성 데이터를 인식하여 나온 제2인식음소열과 타언어권 화자개발용 텍스트 데이터를 전사하여 생성된 제2표준음소열을 상기 동적 계획법에 의해 타언어권 화자음소로 정렬시키는 단계; Arranging the second standard phoneme string generated by transferring the second recognized phoneme string recognizing the speech data for the second language speaker development and the text data for developing the second language speaker to the second language speaker phoneme according to the dynamic programming method;

상기 동적 계획법에 의해 원어민 화자 음소로 정렬된 음소열에 대응되는 제1 변이 음소열 패턴과 상기 동적 계획법에 의해 타언어권 화자음소로 정렬된 음소열에 대응되는 제2 변이 음소열 패턴을 생성하는 단계; Generating a first variation phoneme string pattern corresponding to a phoneme string arranged by a native speaker phoneme by the dynamic programming method and a second variation phoneme string pattern corresponding to a phoneme string aligned with a non-native speaker phoneme by the dynamic programming method;

상기 생성된 제1 및 제2 변이음소열패턴을 음소결정트리를 이용하여 음소변이규칙을 생성하는 단계; Generating a phoneme mutation rule using the generated first and second mutated phoneme string patterns using a phoneme tree;

상기 음소변이규칙을 효과적으로 추출하기 위하여 규칙 정확도(Rule Accuracy)를 통한 가지치기(pruning)를 수행하여 변이음소를 생성하고 원어민화자음소 및 타언어권 화자음소에 대한 다중 발음사전을 생성하는 단계; 및 Generating a mutation phoneme by performing pruning through Rule Accuracy to effectively extract the phoneme mutation rule and generating a multi-phonetic dictionary for a native speaker phoneme and a non-native speaker phoneme; And

상기 변이음소를 음향모델 데이터베이스에 저장된 저장된 음향 데이터 및 상기 언어모델 데이터베이스에 저장된 언어 정보를 결합하여 패턴매칭하는 단계를 포함한다. And pattern matching the variable phoneme by combining the stored sound data stored in the acoustic model database and the language information stored in the language model database.

또, 본 발명의 발음변이 모델링 방법에 따른 상기 제1 및 제2 표준음소열은 대표 음소열, 지식기반 및 직접전사모드 중 적어도 하나의 모드를 이용하여 생성한다. The first and second standard phoneme strings according to the pronunciation variation modeling method of the present invention are generated using at least one of a representative phoneme string, a knowledge base, and a direct transfer mode.

또, 본 발명의 발음변이 모델링 방법에 따르면, 상기 제1 및 제2 표준음소열 각각은 다음의 수학식Further, according to the pronunciation variation modeling method of the present invention, each of the first and second standard phoneme strings is expressed by the following equation

Figure 112007088587007-pat00002
에 의해서 발음 변이 패턴을 정의한다. 여기에서 L1과 L2는 상기 제1 및 제2 표준음소열 각각의 왼쪽 음소들이고, R 1 R 2 는 상기 제1 및 제2 표준음소열 각각의 오른쪽 음소들이고, 또한 X 는 상기 제1 및 제2 표준음소열의 음소로서 음소 인식 결과 음소열의 음소인 Y 에 대응된다.
Figure 112007088587007-pat00002
To define a pronunciation variation pattern. Here, L1 and L2 are the first and second deulyigo standard phoneme each left column phoneme, R 1 and R 2 are the first and second deulyigo each of the right phoneme standard phoneme heat, and X is the first and the 2 is a phoneme of a standard phoneme sequence, and corresponds to a phoneme Y of a phoneme string.

따라서 또, 본 발명의 발음변이 모델링 시스템 및 방법은 타 언어권 화자음성에 대한 인식성능의 향상으로, 타 언어권 화자음성 데이터와 원어민 화자의 음성 데이터를 이용하여 비직접적 데이터 기반의 발음변이 모델링이 가능하다. Therefore, the pronunciation variation modeling system and method of the present invention can improve the recognition performance of the speaker speech of the non-native speakers, and enable the non-direct data-based pronunciation variation modeling using the speaker data of the non-native speakers and the native speech data of the native speaker .

상술한 것과 같이 본 발명의 타 언어권 화자음성 데이터와 원어민 화자의 음성 데이터를 이용한 비직접적 데이터 기반의 발음변이 모델링 시스템 및 방법에 따 르면, 타 언어권 화자음성에 대한 음성인식 시스템의 성능을 향상시키면서 원어민 화자음성에 대한 음성인식 시스템의 성능의 저하를 가져 오지 않는다. As described above, according to the non-direct data-based pronunciation variation modeling system and method using the non-native speaker voice data of the present invention and the native speaker's voice data, it is possible to improve the performance of the speech recognition system for the non- The performance of the speech recognition system with respect to the speaker voice is not deteriorated.

더욱이, 본 발명의 발음변이 모델링 시스템 및 방법은 데이터 기반으로 타 언어권 화자음성의 발음변이를 분석을 위한 인적 노력과 시간을 줄일 수 있고, 타 언어권 화자음성의 발음변이를 추출함으로써 타 언어권 화자에 대한 지식이 부족한 상황에서도 발음변이 추출을 가능하게 한다. 또한 본 발명은 비직접적 데이터 기반 방법으로 새로운 단어에 대한 발음변이도 생성할 수 있다.Further, the pronunciation variation modeling system and method according to the present invention can reduce the human effort and time for analyzing the pronunciation variation of a non-native speaker voice based on data, and can extract pronunciation variation of a non- It enables extraction of pronunciation variations even in situations where knowledge is lacking. The present invention can also generate pronunciation variations for new words using a non-direct data-based method.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail. It should be understood, however, that the invention is not intended to be limited to the particular embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention. Like reference numerals are used for like elements in describing each drawing.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 실시예에 따른 비직접적 데이터 기반 발음변이 모델링 시스템의 일실시예를 개략적으로 설명하는 블럭도이다. 1 is a block diagram schematically illustrating an embodiment of a non-direct data-based pronunciation variation modeling system according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 실시예에 따른 비직접적 데이터 기반 발음변이 모델링 방법에 있어서 연속 음성인식 시스템(100)은 크게 두 개의 부분으로 구분할 수 있는 바, 특징추출부(101)과 음성인식부(102)로 구비된다. 또한 이 음성인식 시스템(100)의 음성인식부(102)은 보다 구체적으로 단어단위탐색부(90)와 이 단어단위탐색부(90)와 상호 접속되어 해당단어를 주고받는 문장단위탐색부(95)를 구비한다. Referring to FIG. 1, in a non-direct data-based pronunciation variation modeling method according to an embodiment of the present invention, the continuous speech recognition system 100 can be roughly divided into two parts, and includes a feature extraction unit 101, As shown in FIG. The speech recognition unit 102 of the speech recognition system 100 further includes a word unit search unit 90 and a sentence unit search unit 95 that is connected to the word unit search unit 90 and transmits the word .

상기 특징추출부(101)은 외부에서 입력된 음성으로부터 인식에 유용한 정보만을 추출하여 특징벡터(fv)로 변환한다. 즉 음성인식시스템(100)에 있어서 상기 특징추출부(101)는 음성 입력이 외부에서 들어오면 입력된 음성을 특징벡터(fv)로 추출한다. 특징벡터(fv)는 음성인식을 위하여 예를 들어 12차 멜-켑스트럼(MFCC), 로그에너지, 또는 이에 대한 1차, 2차 미분계수를 사용하여 음성으로부터 추출될 수 있다. The feature extraction unit 101 extracts only information that is useful for recognition from an externally input voice and converts it into a feature vector fv. That is, in the speech recognition system 100, the feature extraction unit 101 extracts the input speech as the feature vector fv when the speech input comes from the outside. The feature vector (fv) can be extracted from the speech for speech recognition, for example using a 12th order mel-cepstrum (MFCC), log energy, or a first order, second order derivative thereof.

단어모델합성부(93)는 음향모델 데이터베이스(102)에 저장된 음향데이터(p1)와 발음모델 데이터베이스(103)에 저장된 발음데이터(p2)를 합성하여 단어열(ws)을 생성한다. The word model synthesis unit 93 synthesizes the sound data p1 stored in the acoustic model database 102 and the pronunciation data p2 stored in the pronunciation model database 103 to generate a word sequence ws.

또 상기 음성인식부(102)의 단어단위탐색부(90)는 단어단위탐색을 위해 특징추출부(101)로부터 제공된 특징벡터(fv)와 상기 생성된 단어열(ws)을 참조한다. The word unit search unit 90 of the speech recognition unit 102 refers to the feature vector fv provided from the feature extraction unit 101 and the generated word sequence ws for word unit search.

문법부(97)와 의미분석부(99)는 언어모델 데이터베이스(102)에 저장된 언어데이터(p3)를 문장열(ps)를 생성한다. The grammar unit 97 and the semantic analysis unit 99 generate a sentence string ps as the language data p3 stored in the language model database 102. [

그리고 상기 음성인식부(102)에 있어서 상기 문장단위탐색부(95)는 상기 단어단위탐색부(90)를 통하여 단어열(ws)를 제공받아 상기 생성된 문장열(ps)를 상기 단어단위탐색부(90)로 제공한다. In the speech recognition unit 102, the sentence unit search unit 95 receives the word string ws through the word unit search unit 90 and outputs the generated sentence string ps to the word unit search (90).

상기 단어단위탐색부(90)와 상기 문장단위탐색부(95)는 상호간에 단어열(ws)과 문장열(ps) 데이터를 교환한다. The word unit search unit 90 and the sentence unit search unit 95 exchange word sequence ws and sentence string (ps) data with each other.

음성인식부(102)는 특징벡터(fv)에 기초하여 상기 단어열(ws)과 문장열(ps)로부터 음소확률이 가장 높은 단어열을 비터비 알고리듬을 이용하여 찾는다. 여기에서 비터비 알고리듬(Viterbi Algorithm)이란 관찰된 음소열 중에서 가장 빈번하게 나타나는 음소열을 찾아 내는 탐색 방법을 말한다. The speech recognition unit 102 searches for a word string having the highest phoneme probability from the word string ws and the sentence string ps based on the feature vector fv using the Viterbi algorithm. Here, the Viterbi Algorithm is a search method for finding the most frequently occurring phonemes among the observed phonemes.

도 2는 비직접적 데이터 기반 발음변이 모델링 시스템에서 타 언어권 화자음성에 대한 음성인식 시스템에서 발음사전을 형성하기 위하여 발음을 모델링하는 구성을 나타내는 블록도이다.FIG. 2 is a block diagram showing a configuration for modeling a pronunciation in order to form a pronunciation dictionary in a speech recognition system for a non-native speaker voice in a non-direct data-based pronunciation variation modeling system.

본 발명에 따른 비직접적 데이터 기반 발음변이 모델링 시스템에서 발음사전을 형성하는 경우 요구되는 동적정렬부(200)은 원어민동적프로그래밍부(220)와, 상기 원어민동적프로그래밍부(220)에 연결된 타언어권 동적프로그래밍부(210)를 포함한다. 또한 상기 동적정렬부(200)은 동적계획법에 의해 상기 원어민동적프로그래밍부(220)와 타언어권 동적프로그래밍부(210) 각각의 음소를 정렬한다. 여기에서 동적계획법(dynamic programming algorithm)이란 어떤 화자음성의 인식율을 최적으로 달성하기 위해 각각 입력되는 표준음소열과 음소인식한 결과음소열을 정렬하는 최적 접근방법을 말한다.The dynamic alignment unit 200 required for forming a phonetic dictionary in the non-direct data-based pronunciation variation modeling system according to the present invention includes a native speaker dynamic programming unit 220 and a dynamic speaker unit 220 connected to the native speaker dynamic programming unit 220 And a programming unit 210. The dynamic arranging unit 200 arranges the phonemes of the native speech dynamic programming unit 220 and the other language dynamic programming unit 210 by a dynamic programming method. Here, the dynamic programming algorithm refers to an optimal approach for aligning the phonemes of the input phonemes and phonemes in order to optimally achieve the recognition rate of a certain speaker.

상기 동적정렬부(200)는 비직접적 데이터 기반 발음변이 모델링을 위해 동적계획법에 의해 타언어권 화자음소와 원어민화자음소가 각각 인식되어 음소열로 정 렬하도록 프로그래밍한다. The dynamic arranging unit 200 programs the non-native speaker phonemes and the native speaker phonemes to be recognized by the dynamic programming method for modeling the non-direct data-based pronunciation variation, and to arrange them into the phoneme strings.

상기 변이음소규칙생성기(230)는 상기 동적정렬부(200)에서 정렬된 음소열(v1,v2)을 받아 변이가 일어나는 음소열(phoneme sequence)로 패턴화하여 변이 음소열 패턴을 생성한 다음, 상기 변이 음소열 패턴으로부터 음소 결정 트리(phoneme decision three)를 이용해서 변이음소규칙을 생성한다. 즉 상기 동적정렬부(200)에서 원어민동적프로그래밍부(220)를 통하여 출력한 변이음소열(v1)과, 타언어권 동적프로그래밍부(210)를 통하여 출력된 변이음소열(v2)를 결합하여 변이 음소율 패턴을 생성한 후 상기 변이 음소율 패턴으로부터 음소 결정 트리(phoneme decision three)를 이용해서 변이음소규칙을 생성한다. 다시 말해 상기 변이음소규칙생성기(230)는 동적정렬부(200)에서 정렬된 음소열(v1,v2)에 대해서 변이가 일어나는 경우 변이음소를 기초로 하여 패턴화 한 다음 음소 결정 트리를 사용하여 변이음소규칙을 생성한다. The transposed phoneme rule generator 230 receives the phonemes v1 and v2 aligned in the dynamic arrangement unit 200 and patterns the phoneme strings v1 and v2 into a phoneme sequence in which a variation occurs, A phoneme decision tree (phoneme decision tree) is used to generate a variation phoneme rule from the mutated phoneme train pattern. That is, the dynamic arrangement unit 200 combines the mutated phoneme string v1 output through the native speaker dynamic programming unit 220 and the mutated phoneme string v2 output through the other language dynamic programming unit 210, After generating the rate pattern, the phoneme rule is generated using the phoneme decision tree from the rate pattern. In other words, when the mutation is performed for the aligned phonemes (v1, v2) in the dynamic arrangement unit 200, the variation rule generator 230 patterns the variation based on the mutation phoneme, Generate phoneme rules.

상기 표준발음사전적응부(240)는 음소변이규칙을 효과적으로 추출하기 위해서 규칙 정확도(Rule Accuracy)를 통한 가지치기(pruning)를 수행하여 변이음소를 생성하고 상기 원어민화자음소 및 타언어권 화자음소에 대한 새로운 다중 발음사전을 생성하여 발음사전부(254)에 적용한다. The standard pronunciation dictionary adaptation unit 240 generates a variation phoneme by performing pruning through Rule Accuracy in order to extract a phoneme variation rule efficiently and generates a phoneme corresponding to the native speaker phoneme and the other non- A new multi-phonetic dictionary is generated and applied to the phonetic dictionary unit 254.

상기 발음사전부(254)는 상기 표준발음사전적응부(240)로부터 가지치기되어 적응된 변이음소(vpd)를 입력받아 저장한다. The pronunciation dictionary unit 254 receives the variable phonemes vpd pruned and adapted from the standard pronunciation dictionary adaptation unit 240 and stores the received phonemes vpd.

패턴매칭부(260)는 상기 발음사전부(254)부에 저장된 변이음소(vpd), 상기 음향모델 데이터베이스(253)에 저장된 저장된 음향 데이터 및 상기 언어모델 데이 터베이스(252)에 저장된 언어 정보를 결합하여 패턴을 형성한다. The pattern matching unit 260 stores the phoneme vpd stored in the pronunciation dictionary unit 254, the acoustic data stored in the acoustic model database 253, and the language information stored in the language model database 252 To form a pattern.

또한 상기 동적정렬부(200)에서 원어민동적프로그래밍부(220)는 상기 음소인식부(202)에서 인식하여 나온 인식음소열(n1)과 상기 표준음소열부(204)에서 전사하여 얻은 표준음소열(n2)을 동적계획법에 의해 정렬시킨다. In addition, the native dynamic programming unit 220 in the dynamic alignment unit 200 The recognition phoneme string n1 recognized by the phoneme recognition unit 202 and the standard phoneme string n2 obtained by transferring the standard phoneme string 204 are aligned by a dynamic programming method.

또한 상기 동적정렬부(200)에서 타 언어권 동적프로그래밍부(210)는 상기 음소인식부(201)에서 인식하여 나온 인식음소열(e1)과 상기 표준음소열부(203)에서 전사하여 얻은 표준음소열(e2)을 동적계획에 의해 정렬시킨다. In the dynamic arrangement unit 200, the dynamic language programming unit 210 of the other language is configured to include a recognition phoneme string e1 recognized by the phoneme recognition unit 201 and a standard phoneme string e1 obtained by transferring from the standard phoneme string unit 203 (e2) by dynamic planning.

더욱이 본 발명의 상기 동적정렬부(200)을 구성하는 표준음소열부(203, 204)에서 각각 인식된 표준음소열(e2, n2)은, 상기 동적정렬부(200)의 동적계획법을 사용하여 후술하는 도 4에 도시된 바와 같이, 대표 음소열 전사, 지식기반전사, 직접전사(transcrition)모드 중 어느 하나를 사용하여 표준음소열을 정렬하는 음소열로 구성하는 것이 바람직하다. The standard phoneme strings e2 and n2 recognized by the standard phonetic column units 203 and 204 constituting the dynamic arrangement unit 200 of the present invention are stored in the memory unit 200 using the dynamic programming method of the dynamic arrangement unit 200 As shown in Fig. 4, It is preferable to construct a phoneme string for arranging a standard phoneme string using any one of a representative phoneme transfer, a knowledge-based transcription, and a direct transcription mode.

한편, 도 2에 도시된 음성인식 시스템을 사용하여 비직접적 데이터 기반 발음변이 모델링 방법을 다섯 단계로 처리할 수 있다. Meanwhile, the non-direct data-based pronunciation variation modeling method can be processed in five steps using the speech recognition system shown in FIG.

첫째 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링 방법은, 상기 동적정렬부(200)에 의해 정렬되는 데, 상기 동적정렬부(200)는 먼저 원어민 화자개발용 음성 데이터를 음소인식부(202)에서 인식하여 나온 인식음소열(n1)과, 원어민 화자개발용 텍스트 데이터를 표준음소열부(204)에서 전사한 표준음소열(n2)을 원어민동적프로그래밍부(220)의 동적계획법에 의해 원어민화자음소를 정렬시킨다. First, the non-direct data-based pronunciation variation modeling method of the first speech recognition system is arranged by the dynamic sorting unit 200. The dynamic sorting unit 200 firstly outputs the speech data for native speaker development to the phoneme recognition unit 202, And the standard phoneme string n2 transferred from the standard phoneme string unit 204 by the dynamic programming of the native speaker dynamic programming unit 220 to the native speaker's phoneme string n1, .

둘째 타 언어권 화자개발용 음성 테이터에 대해서도 또한 상기 동적프로그 래밍부(220)의 동적계획법에 의해 정렬시킨 방법과 마찬가지로 정렬시킨다. 즉 타언어권 화자개발용 음성 데이터를 음소인식부(201)에서 인식하여 나온 인식음소열(e1)과, 타언어권 화자개발용 텍스트 데이터를 표준음소열부(203)에서 전사한 표준음소열(e2)을 타언어권 동적프로그래밍부(210)의 동적계획법에 의해 타언어권 화자음소를 정렬시킨다. Secondly, the voice data for the development of other language speakers is also arranged in the same manner as the method of arranging by the dynamic programming method of the dynamic programming section 220. That is, the recognition phoneme string e1 that is recognized by the phoneme recognition unit 201 and the standard phoneme string e2 that is transferred from the standard phoneme string unit 203 to the non-language speaker development text data, And arranges the phonemes of other non-native speakers according to the dynamic programming method of the dynamic language programming unit 210 of the other language.

세째 상기 원어민화자음소 동적프로그래밍부(210) 및 타언어권 화자음소 동적프로그래밍부(220)의 동적계획법에 의해 각각 정렬된 결과가 되는 정렬후 변이가 일어나는 변이음소열(v1, v2)을 변이음소 규칙생성기(230)에 입력하여서 변이음소열패턴을 획득한다. Third, the transitional phoneme strings v1 and v2, which are rearranged results obtained by the dynamic programming of the native speaker phoneme dynamic programming unit 210 and the non-native speaker phonetic dynamic programming unit 220, Generator 230 to acquire a variation phoneme pattern.

네째 상기 변이음소열 패턴을 합하여 변이음소규칙생성기(230)에 입력시키게 되면, 상기 변이음소규칙생성기(230)는 음소결정트리를 이용하여 변이음소열패턴으로부터 음소변이규칙(Pronunciation variation rule)을 생성한다. 다시 말해 비직접적 데이터 기반의 음소변이규칙은 상기 변이음소규칙생성기(230)에서 발음변이가 일어나는 변이음소열패턴으로 음소결정트리(도 6에서 상세히 설명됨)를 이용하여 생성한다.When the mutation phoneme rule generator 230 inputs the mutation phoneme string pattern to the variation rule generator 230, the variation rule generator 230 generates a pronunciation variation rule from the mutation phoneme string pattern using the phoneme decision tree do. In other words, the non-direct data-based phoneme mutation rule is generated by using the phoneme decision tree (described in detail in FIG. 6) as a mutation phoneme pattern in which the mutation phoneme rule generator 230 generates a pronunciation mutation.

마지막으로 상기 변이음소규칙생성기(230)의 비직접적 데이터 기반의 음소변이규칙에 따라서 발음변이열(vp)가 생성되고, 표준발음사전적응부(240)를 거쳐 상기 원어민화자음소 및 타언어권 화자음소에 대한 새로운 다중 발음사전을 생성한다. Lastly, a pronunciation variation string vp is generated according to the non-direct data-based phoneme mutation rule of the variation rule generator 230, and the standard pronunciation dictionary adaptation unit 240 receives the native speaker phoneme and the non- To create a new multi-phonetic dictionary.

그후 상기 생성된 변이음소(vpd)가 발음사전부(254)에 저장되고, 상기 발음 사전부(254)에서 저장된 변이음소(vpd, 또는 d1)가 음향모델부(230) 및 언어모델부(255)로부터 각각 출력된 음향데이터(d2) 및 언어데이터(d3)와 결합하여 패턴매칭부(260)에서 패턴매칭됨으로써, 원어민 화자음성에 대한 인식성능 저하 없이 타 언어권 화자음성에 대한 인식성능을 향상시킨다. The generated variation phoneme vpd is stored in the pronunciation dictionary unit 254 and the phoneme vpd or d1 stored in the pronunciation dictionary unit 254 is stored in the acoustic model unit 230 and the language model unit 255 And the speech data d2 and the language data d3 output from the speech recognition unit 260 and pattern matching unit 260 in the pattern matching unit 260 to improve recognition performance of the speech of the native speaker without degrading the recognition performance of the native speaker speech .

본 발명의 타 언어권 화자에 의한 음성인식을 위하여 타 언어권 화자음성에 대한 비직접적 데이터 기반으로 발음변이 모델링하는 방법은 VLSI 칩, SoC의 IP 및 내장한 소프트웨어로 구현될 수 있다.A method for modeling pronunciation variation based on a non-direct data base on speech of a non-native speaker for speech recognition by a non-native speaker of the present invention VLSI chip, IP of SoC, and embedded software.

이제 본 발명의 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링 방법에 관하여, 1.음소인식과 정렬절차에서는 동적정렬부의 동적계획법에 의해 정렬시킨 단계를 설명하고, 2.음소결정트리를 이용한 규칙 추출 및 발음사전 적응절차에서는 음소열패턴을 획득단계, 음소패턴으로 음소결정트리를 이용하여 음소변이규칙을 생성하는 단계, 및 표준발음사전적응부에 적용하여 새로운 다중 발음사전을 생성하는 단계를 각각 자세히 설명하고, 또한, 3.상기 음소인식절차와 음소인식과 정렬절차에 따라 음성인식 시스템에 적용한 발음사전에 대한 인식성능을 비교하여 평가한다.Now, the non-direct data-based pronunciation variation modeling method of the speech recognition system of the present invention will be described. 1. Phoneme recognition and alignment procedures are described by dynamic programming of dynamic arrangements. 2. Rule extraction using phoneme decision tree And a pronunciation dictionary adaptation procedure includes steps of acquiring a phoneme string pattern, generating a phoneme mutation rule using a phoneme tree with a phoneme pattern, and generating a new multi-phonetic dictionary by applying the phoneme mutation rule to the standard pronunciation dictionary adaptation unit 3. The recognition performance of the phonetic dictionary applied to the speech recognition system according to the phoneme recognition procedure, phoneme recognition and alignment procedure is compared and evaluated.

1.음소인식과 정렬절차1. Phoneme recognition and alignment procedure

도 3은 본 발명의 비직접적 데이터 기반의 발음변이 모델링에서 사용되는 음 소리스트를 나타내는 테이블로서, 해당 로마자 발음기호에 대하여 전사하는 한글 발음기호를 나타낸다. FIG. 3 is a table showing the sound list used in the pronunciation variation modeling of the non-direct data base of the present invention, and shows a Hangul pronunciation symbol transcribed to the Roman pronunciation symbol.

본 발명의 발음변이 모델링 방법에서 먼저 타 언어권 화자개발용 음성 데이터와 원어민 화자개발용 음성 데이터를 음성인식시스템(100)을 이용하여 발음모델링 하기위해 어휘 연속의 음소 리스트를 참조한다. In the pronunciation variation modeling method of the present invention, a phoneme list of vocabulary consecutive is referred to in order to model speech by using the speech recognition system 100 for speech data for development of a non-native speaker and speech data for native speaker development.

도 3에서 예시된 바와 같이, 예를 들면 한국어 연속 음성인식시스템를 이용하여 음소인식을 실시하는 경우, 도 2의 음성인식시스템(100)의 음소인식부(202)에서 음소인식에 사용된 음향모델의 트라이폰 모델은 10,138개이고, 사용된 음소는 9개의 단모음과 12개의 이중모음 묵음을 합한 중성모음 21개와, 초성과 종성으로 이루어진 자음 19개를 포함한 총 40개의 음소이며, 음소인식을 위해서 백오프비그램(back-off bigram) 언어모델을 사용한다. 여기서 백오프비그램 언어모델은 색인 과정에서 동일한 단어이지만 색인 대상의 두 단어 사이의 유사도를 측정하여 임계값 이상을 넘으면 같은 부류로 판단하는 모델이다.3, when the phoneme recognition is performed using, for example, a Korean continuous speech recognition system, the phoneme recognition unit 202 of the speech recognition system 100 of FIG. The triphone model is 10,138, and the phonemes used are a total of 40 phonemes including 21 neutral vowels including 9 short vowels and 12 double vowel syllables, and 19 consonants consisting of the first and last consonants. (back-off bigram) language model. Here, the BackoPavigar language model is the same word in the indexing process, but it measures the similarity between two words of the index target and judges the same class if it exceeds the threshold value.

다시 도 2를 참조하면, 본 발명에 따른 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링 방법은, 음소인식으로 얻은 결과 음소열(e1,n1)과 표준음소열(e2,n2)을 동적계획법(dynamic programming algorithm)을 이용하여 정렬하면, 대응되는 음소들은 다음의 수학식 1과 같은 음소패턴을 나타낸다.Referring to FIG. 2 again, the non-direct data-based pronunciation variation modeling method of the speech recognition system according to the present invention is a method of modeling phoneme strings (e1, n1) and standard phoneme strings (e2, dynamic programming algorithm), the corresponding phonemes represent the phoneme patterns as shown in the following Equation (1).

[수학식 1][Equation 1]

Figure 112007088587007-pat00003
Figure 112007088587007-pat00003

(여기에서 L1과 L2는 표준음소열의 왼쪽 음소들, R 1 R 2 는 표준음소열(e2,n2)의 오른쪽 음소들을 나타내고, 또한 X 는 표준음소열(e2,n2)의 음소로 음소인식한 결과 음소열(v1,v2)의 음소인 Y 에 대응된다.) (Where L1 and L2 are the left phonemes of the standard phoneme string, R 1 and R 2 are the right phonemes of the standard phoneme string (e2, n2), and X is the phoneme of the standard phoneme string (e2, n2) One result corresponds to the phoneme Y of the phoneme string v1, v2.)

다만 상기 수학식 1과 같은 음소패턴으로 나타낸 발음변이 모델링 방법으로 음소열을 획득할 경우, 자유로운 변이음소를 획득할 수 있지만 인식시스템(100) 자체의 오류가 빈번하게 발생하고, 또 변이음소에 의한 오류인지 아니면 음성인식시스템 자체 오류인지를 구분하기가 어려운 경우가 있다. 따라서 본 발명의 실시예에서는 이러한 문제들을 두 가지 방법으로 보완하였다.However, when a phoneme string is acquired by the pronunciation variation modeling method represented by the phoneme pattern shown in Equation (1), it is possible to acquire a free variation phoneme, but errors of the recognition system 100 itself are frequently generated, It may be difficult to distinguish between an error or a speech recognition system itself error. Thus, the embodiments of the present invention have solved these problems in two ways.

첫째 보완방법은 음소인식의 인식시스템(100) 자체 오류를 줄이기 위해서 비터비 알고리듬을 이용한 탐색에서 100개의 결과를 이용한 결과, 음소 인식률이 71.5%에서 76.8%로 올랐다. 다음 보완방법으로, 인식시스템(100) 자체 오류인지 변이음소에 의한 오류인지를 분류하기 위해서 표준음소열(e2,n2)의 한 음소에 대해 이웃하는 음소들과 결과 음소열에 대응되는 음소의 이웃하는 음소들 중 절반 이상이 동일할 경우에만 음소패턴으로 사용한 결과, 음소 인식률이 크게 올랐음을 확인하였다. In order to reduce the error of the recognition system 100, the first method of complementing 100 results in the search using the Viterbi algorithm, the phoneme recognition rate increased from 71.5% to 76.8%. In order to classify whether the recognition system 100 itself is an error or an error due to a mutated phoneme, a method of interpolating neighboring phonemes of a standard phoneme string (e2, n2) and a phoneme corresponding to a phoneme corresponding to a resultant phoneme string As a result of using the phoneme patterns only when more than half of the phonemes are the same, the recognition rate of phonemes is significantly increased.

도 4는 도 2에 예시된 동적정렬부에 의한 정렬을 표현하는 테이블로서, 도 3에 나타낸 바와 같은 표준음소리스트를 표준열(reference sequence)로 하여 음소인식한 결과 음소열을 동적프로그래밍에 의해 정렬시킨 예를 테이블로 보여주고 있다. FIG. 4 is a table expressing the arrangement by the dynamic arranging unit illustrated in FIG. 2, in which a phoneme sequence obtained by phoneme recognition using a standard phoneme list as shown in FIG. 3 as a reference sequence is sorted The table shows an example.

도 4를 참조하면, 도 2에 도시된 상기 동적정렬부(200)에서 인식된 음소에 있어서는, 음소열에서 단어 내에서 일어나는 발음변이와 단어와 단어 사이에 일어나는 발음변이가 다르므로 단어와 단어 사이의 경계를 표시한다. 각 단어의 경계에 도 4에서 보는 것과 같이 @ 마크로 표시하였다. Referring to FIG. 4, in the phoneme recognized by the dynamic sorting unit 200 shown in FIG. 2, since the phonetic transitions occurring in the words in the phoneme string and the phonetic transitions occurring between the words and the words are different, Quot; The boundary of each word is marked with an @ symbol as shown in FIG.

상기 동적정렬부(200)에서 표준음소열부(204)은. 예를 들면 동적정렬부에 의한 정렬을 표현하는 것으로, 한국어 "그래서 여러 가지로 의미가 깊은 달이기 때문입니다." 에 대해서 변이하는 경우를 예로 들수 있다. In the dynamic alignment unit 200, the standard phoneme string 204 includes: For example, by expressing alignment by dynamic alignment, it is because "it is a month with many different meanings." As shown in Fig.

즉 표준음소열의 예로는 화자의 대표발음에 따라 표현되는 대표(canocial) 음소열, 화자의 음성이 바뀌어 표현되는 지식기반 음소열, 화자의 발음이 직접적으로 전사하는 직접작업(hand-helded)하는 음소열에 의해 얻어진 3개의 표준음소열(reference sequence)과, 이들 표준음소열에 대하여 음소인식가능하게 정렬한 대체가능한 음소열이 표현된다.Examples of the standard phoneme sequence include a canadian phoneme sequence represented by a representative pronunciation of the speaker, a knowledge-based phoneme sequence in which the speaker's voice is changed, a hand-held phoneme in which the pronunciation of the speaker is directly transferred Three standard reference sequences obtained by the column and replaceable phoneme sequences aligned phonemically with respect to these standard phoneme strings are represented.

도 4에 있어서 대표 음소열은 도 3과 같이 한국어의 각 음소들을 로마자에 대응시킨 것이다. 지식기반의 음소열은 한국어 표준발음법에 의거하여 음소변동 규칙을 적용하여 생성한 음소열이다. 직접전사음소열은 사람이 직접 듣고 발음 나는 대로 전사한 음소열이다. 또 대체음소열은 발음규칙생성기(230)에서 발음되는 음성의 인식결과 대체할수 있는 대체음소열이다. In Fig. 4, the representative phoneme string corresponds to each phoneme in Korean as shown in Fig. 3. The knowledge base phoneme sequence is a phoneme sequence generated by applying the phoneme variation rule based on the Korean standard pronunciation method. The direct transcriptional phoneme sequence is a phoneme sequence that is pronounced by the person and is pronounced by the person. The alternative phoneme string is a substitute phoneme string that can replace the recognition result of the voice to be pronounced in the pronunciation rule generator 230.

도 5는 도 4에서 예시된 동적정렬부에 의한 음소열을 기준으로 추출한 음소규칙패턴을 나타내는 테이블이다. 5 is a table showing a phoneme rule pattern extracted based on a phoneme string by the dynamic arrangement unit illustrated in FIG.

도 5를 참조하면 인식시스템 자체 오류에 의한 음소패턴을 제거하기 위한 방 법에 따라 상기 수학식 (1)

Figure 112007088587007-pat00004
을 사용하여 얻은 결과 규칙패턴은, 예컨대 도 4의 정렬테이블에 기재된 한국어 "@달이기@"에 해당하는 음소패턴이 제거된다. 즉 상호 이웃하고 있는 음소의 절반이상이 상이한 경우 규칙패턴 리스트에서 하나의 규칙패턴이 제거됨을 이해할 수 있다. Referring to FIG. 5, according to a method for removing a phoneme pattern due to a recognition error of the recognition system,
Figure 112007088587007-pat00004
For example, the phoneme pattern corresponding to the Korean word " @ " described in the alignment table of FIG. 4 is removed. That is, when more than half of mutually neighboring phonemes are different, one rule pattern is removed from the rule pattern list.

예를 들면 도 5에 있어서 하나의 음소규칙패턴이 되는 d-a-l+i+g - > l 이 제거되는 것이고, 이는 음소규칙패턴의 대체발음열 전사 'Dylegi' 에 비교하는 경우 비교되는 음소열 6개 가운데 음소 'd' , 'a' , 및 'i' 가 상이하기 때문이다. 즉 이웃하는 음소의 절반 이상이 상이하면 음소인식부에서 발생하는 오류로서 판단되므로, 다음에 오는 부분에서 기재되는 음소결정트리의 구성으로 사용될 수 없음을 확인할 수 있다. For example, in Fig. 5, da-l + i + g -> l, which is one phoneme rule pattern, is removed. This is because the phoneme string 6 Because the phonemes 'd', 'a', and 'i' are different. That is, if the number of neighboring phonemes is different by more than half, it is determined that the phoneme recognition unit generates an error, so that it can be confirmed that the phoneme determination tree can not be used as the structure of the phoneme determination tree described in the following section.

2. 음소결정트리를 이용한 규칙 추출 및 발음사전2. Rule extraction and pronunciation dictionary using phoneme decision tree

도 6은 비직접적 데이터 기반 발음변이 모델링 방법에 의한 음소결정트리를 예시한다. 도 6의 음소결정트리를 이용하여 변이음소규칙생성기(230)에서 음소변이규칙을 추출하는데 이 음소결정트리에는 CART, CHAID, 그리고 C4.5 프로그램 방법 중 어느 하나를 사용할 수 있다. 본 발명의 실시예에서는 C4.5라는 음소결정트리 프로그램을 사용하였다. 6 illustrates a phoneme determination tree by a non-direct data-based pronunciation variation modeling method. The phoneme variation rules are extracted by the phoneme rule generator 230 using the phoneme decision tree of FIG. 6, and one of CART, CHAID, and C4.5 programming methods can be used for the phoneme decision tree. In the embodiment of the present invention, the phoneme decision tree program C4.5 is used.

이 C4.5 음소결정트리 프로그램은 기존의 ID3 알고리즘을 확장한 것으로 J. Ross Quinlan에 의해 만들어졌다. C4.5 음소결정트리 프로그램은 CART와 같이 이진분리를 하지 않고 가지의 수를 다양화할 수 있다. C4.5 음소결정트리 프로그램은 연속변수에 대해서는 CART와 비슷한 방법을 사용하지만 범주형에서는 다른 방법을 사용한다. This C4.5 phoneme tree program was developed by J. Ross Quinlan as an extension of the existing ID3 algorithm. C4.5 The phoneme tree program can vary the number of branches without binary separation like CART. C4.5 The phoneme tree program uses a method similar to CART for continuous variables, but uses a different method for categorical types.

다시 말해 본 발명에서는 음소인식과 정렬절차에 의해서 도 4와 같이 동적프로그래밍을 이용한 표준음소열의 예에 따라 정렬 후 생성된 음소패턴으로 C4.5 음소결정트리를 통해 음소변이규칙을 추출하였다. In other words, according to the present invention, the phoneme mutation rules are extracted through the C4.5 phoneme decision tree by the phoneme pattern generated after the alignment according to the example of the standard phoneme sequence using the dynamic programming by the phoneme recognition and alignment procedure as shown in FIG.

C4.5 음소결정트리의 분리기준은 통계적 클래스(statistical classifier)를 이용하며 음소 X 의 좌우 음소들로, 왼쪽 음소 두개와 오른쪽 음소 두개를 각각 분리기준으로 선택하였다. Separation based on the C4.5 phoneme decision tree was used for statistical class (statistical classifier) and selected with the left and right phonemes of the phoneme X, separating the left and right phoneme phoneme two each two items.

즉, 상기 수학식 (1)

Figure 112007088587007-pat00005
에 있어서 표준음소열 L 1, L 2, R 1, 그리고 R 2 가 분리기준이다. C4.5 음소결정트리 프로그램에 의한 결과 클래스는 수학식 (1)에서 Y 로 표시되는 결과 음소열의 대응되는 음소이다. 표준음소열 L 1, L 2, R 1, 그리고 R 2는 도 4에 도시된 정렬테이블에서 40개 음소들이 각각 사용되었다. That is, in Equation (1)
Figure 112007088587007-pat00005
The standard phoneme strings L 1 , L 2 , R 1 , and R 2 are separation criteria. The result class by the C4.5 phoneme tree program is the corresponding phoneme in the resultant phoneme string indicated by Y in Equation (1). The standard phonemes L 1 , L 2 , R 1 , and R 2 have 40 phonemes in the alignment table shown in FIG. 4, respectively.

C4.5 음소결정트리 프로그램에 맞는 형식으로 음소결정트리를 만들고 제공되는 옵션으로 규칙을 만들면, 각 음소결정트리는 뿌리에서 각 트리의 리프까지 역추적하여 규칙을 생성한다(도 6참조). C4.5 Phoneme Decision Tree If you create a phoneme decision tree in a format appropriate to your program and create rules with the options provided, each phoneme decision tree generates a rule by tracing back from the root to the leaf of each tree (see FIG. 6).

도 6은, 예컨대 음소 'ㅋ(k)' 에 대한 음소결정트리를 생성한 예이다. C4.5 음소결정트리 프로그램을 이용한 'ㅋ(k)'에 대한 음소패턴으로 생성한 음소결정트리에서 결과 클래스의 노드는 'k'와 'g'이며 이는 분리기준 L1과 R1에 의해 결정된다. FIG. 6 is an example of generating a phoneme determination tree for the phoneme 'k'. C4.5 Phoneme Decision Tree In the phoneme decision tree generated by the phoneme pattern for 'k (k)' using the program, the nodes of the result class are 'k' and 'g', which are determined by the separation criteria L 1 and R 1 do.

도 6의 음소결정트리는 아래 알고리즘 표현예 1에 의해서 탐색되어 결정되는 음소결정트리로서, 표현예 1에서 보는 바와 같이, 표준음소열 L1이 'n' 또는 'jv'이거나 표준음소열 L1이 'a' 또는 'ⓐ'이고 표준음소열 R1이 'v' 또는 'U'이면, 결과 클래스의 노드는 'k'가 'g'로 바뀐다. The phoneme decision tree of FIG. 6 is a phoneme decision tree determined and searched by the following Algorithm expression example 1, in which the standard phoneme string L 1 is 'n' or 'jv' or the standard phoneme string L 1 If 'a' or 'ⓐ' and the standard phoneme string R 1 is 'v' or 'U' then the node of the result class will be changed from 'k' to 'g'.

[표현예 1][Expression 1]

Figure 112007088587007-pat00006
Figure 112007088587007-pat00006

또 음소 'ㅋ(k)'의 음소결정트리를 C4.5 음소결정트리 프로그램에서 제공하는 옵션에 따라 규칙을 추출하면 다음과 같은 규칙을 얻을 수 있다.In addition, if the rule is extracted according to the options provided by the C4.5 phoneme tree program of the phoneme decision tree of the phoneme 'k (k)', the following rules can be obtained.

Rule N :Rule N :

R 1 = 'v' -> class 'g' [Rule Accuracy] R 1 = 'v'-> class 'g' [Rule Accuracy]

Default: class 'k'                           Default: class 'k'

(여기서 N은 규칙 번호이고 음소 'ㅋ(k)'에 대한 규칙에서 N=1이다.) (Where N is the rule number and N = 1 in the rule for phoneme 'k (k)').

상기와 같은 규칙에 있어서 규칙정확도[Rule Accuracy]는 음소'ㅋ(k)'에 대한 모든 음소패턴들이 생성된 규칙에 적용되는 상대적 빈도수를 나타낸다. 음소패턴 중 생성된 규칙에 적용되는 것이 없는 경우에 디폴트(Default)가 적용된다. 음소변이규칙을 효과적으로 추출하기 위해서 규칙정확도를 통한 가지치기(pruning)를 수행하고 본 실험에서는 25%를 문턱값으로 사용하였다. In the above rule, the rule accuracy [Rule Accuracy] represents the relative frequency applied to the rule in which all the phoneme patterns for the phoneme 'k (k)' are generated. The default is applied when there is nothing to be applied to the generated rule of the phoneme pattern. In order to effectively extract the phoneme rules, we used pruning rule accuracy and used 25% as a threshold value in this experiment.

마지막으로, 도 2에 도시된 음성인식 시스템에 있어서 표준발음사전적응부(240)는 가지치기 된 규칙을 발음사전부(254)에 적용한다. 상기 발음사전부(254)는 단어와 그 단어에 대응되는 음소열로 구성되어 있다. 음소열에서 규칙을 통한 변이음소가 생성되면 발음사전부(254)에서 표준발음사전의 음소열에 변이음소의 음소열을 추가하여 새로운 발음사전을 생성한다. Lastly, in the speech recognition system shown in FIG. 2, the standard pronunciation dictionary adaptation unit 240 applies a pruned rule to the pronunciation dictionary unit 254. The pronunciation dictionary unit 254 is composed of a word and a phoneme string corresponding to the word. When a mutation phoneme is generated through a rule in the phoneme string, a phoneme string of a mutation in the phoneme string of the standard pronunciation dictionary is added to the pronunciation dictionary portion 254 to generate a new pronunciation dictionary.

예를 들어 '커지다' 라는 단어의 표준음소열이 'k v z i d a'일 때 첫 음소인 'ㅋ'가 수학식 3의 규칙에 적용되므로 음소'ㅋ'는 음소'g'로 바뀔 수 있다. 따라서 'g v z i d a'라는 발음변이음소열을 얻을 수 있고, 이를 추가하여 새로운 발음사전을 생성할 수 있다.For example, when the standard phoneme string of 'bigger' is 'k v z i d a', the first phoneme 'k' applies to the rule of Equation 3, so that the phoneme 'k' can be changed to the phoneme 'g'. Thus, the phoneme string 'g v z i d a' can be obtained, and a new phonetic dictionary can be created by adding it.

3. 발음사전 적응절차의 성능 평가 3. Performance evaluation of pronunciation dictionary adaptation procedure

이제 본 발명의 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링 시스템 및 방법에 의한 발음사전 적응절차를 사용하여 타 언어권 및 원어민 화자음성인식한 인식 성능을 도 7, 8 및 9를 참조하여 평가한다. 7, 8, and 9, recognition performance of speech recognition in other languages and native speakers is evaluated using the pronunciation dictionary adaptation procedure by the non-direct data-based pronunciation variation modeling system and method of the speech recognition system of the present invention.

도 7은 본 발명의 음성인식 시스템에서 발음사전을 사용하였을 때에 오인식되는 단어오인식률로서 표시되는 인식 성능의 예를 그래프로 나타낸다. FIG. 7 is a graph showing an example of recognition performance displayed as a word recognition rate which is mistaken when a phonetic dictionary is used in the speech recognition system of the present invention.

도 7 을 참조하면, 본 발명의 발음사전 적응절차규칙에 있어서 발음사전부(254)로는 3가지를 사용하였는데, 대표 음소열, 지식기반, 그리고 직접전사 한 발음사전이다. 이들 사전을 타 언어권 화자음성인식에 사용하였을 때 단어 오인식률이 각각 28.33%, 27.73%, 그리고 27.73% 이었고, 원어민 화자음성인식에 사용하였을 때는 각각 43.47%, 34.43%, 그리고 35.00% 이다. Referring to FIG. 7, in the pronunciation dictionary adaptation procedure rule of the present invention, three pronunciation dictionary units 254 are used, which are a representative phoneme string, a knowledge base, and a direct pronunciation pronunciation dictionary. When these dictionaries were used for speech recognition of other speakers, word recognition rates were 28.33%, 27.73%, and 27.73%, respectively, and 43.47%, 34.43%, and 35.00% respectively when used for native speaker speech recognition.

도 7에서 설명된 바와 같이 도 2에 예시된 동적정렬부에 의한 정렬에 따르면 단어오인식률(%)은 원어민 화자 테스트 음성의 경우 대용량 연속 음성인식이므로 타 언어권 화자음성인식 보다 높은 단어오인식률을 보이지만 실제 같은 테스트 음성 데이터의 경우 타 언어권 화자음성인식의 단어오인식률이 훨씬 높게 됨을 확인할 수 있다. As described in FIG. 7, according to the arrangement by the dynamic arranging unit illustrated in FIG. 2, the word recognition rate (%) is higher than that of the other speaker speech recognition because it is a large capacity continuous speech recognition in the case of native speaker test speech In the case of actual test voice data, it is confirmed that the word recognition rate of the voice recognition of the other speaker is much higher.

도 8은 원어민 화자음성으로만 적용된 발음사전과 타 언어권 화자음성으로만 적용된 발음사전을 사용하였을 때의 인식 성능의 예를 테이블로 나타낸다. FIG. 8 is a table showing examples of recognition performance when a phonetic dictionary applied only to a native speaker voice and a phonetic dictionary applied only to a non-native speaker voice are used.

도 8에서 타 언어권 화자 규칙에 의한 발음사전을 사용하였을 때의 타 언어권 화자 테스트 음성은 대표 음소열일 때 단어 오인식률이 22.87%, 지식기반인 경우 22.40%, 그리고 직접 전사의 경우에는 22.33%로 앞에서 언급한 기준 사전에 비해 각각 5.46%, 5.33%, 그리고 5.4%의 단어 오인식률 감소를 보였다. In FIG. 8, when a phonetic dictionary according to a non-native speaker rule is used, the speech recognition rate of the non-native speaker test voice is 22.87% for the representative phoneme string, 22.40% for the knowledge base, and 22.33% 5.46%, 5.33%, and 5.4%, respectively, compared to the reference dictionary mentioned above.

반면 원어민 화자 테스트 음성의 단어 오인식률은 대표 음소열일 때 46.65%, 지식기반의 경우 36.19%, 그리고 직접 전사의 경우 34.94%로 기준 사전에 비해 그대로이거나 오히려 더 성능이 저하되는 것을 볼 수 있다. 마찬가지로 원어민 화자 규칙에 의한 발음사전을 사용하였을 때는 원어민 화자 테스트 음성에 대해서는 성능이 향상되지만 타 언어권 화자 테스트 음성에 대해서는 타 언어권 화자 규칙을 사용했을 때보다 성능이 적게 향상되는 것을 볼 수 있다. On the other hand, the word recognition rate of the native speaker test voice is 46.65% at the representative phoneme, 36.19% at the knowledge base, and 34.94% at the direct phonetic level. Likewise, when the pronunciation dictionary according to the native speaker rule is used, the performance of the native speaker test voice improves, but the performance of the other language speaker test voice improves less than that of the other language speaker rules.

도 8 및 도 9를 참조하면, 원어민 화자음성으로만 개발한 음소변이규칙을 사용한 경우를 '원어민 화자 규칙'이라고 하였고, 타 언어권 화자음성만으로 개발한 음소변이규칙을 사용한 경우에는 '타 언어권 화자 규칙'이라고 하였다. 또한 원어민 화자와 타 언어권 화자의 음성을 모두 사용하여 개발한 음소변이규칙을 '결합규칙' 이라고 명명하였다. 또한 각각의 표준 전사는 대표 음소열, 지식기반, 직접 전사로 나누어서 각각의 인식한 결과 단어 오인식률을 보여 준다.8 and 9, when the phoneme mutation rule developed only for the native speaker voice is used, it is referred to as a 'native speaker rule', and in the case of using the phoneme mutation rule developed only by the voice of a non-native speaker, "He said. In addition, the phoneme mutation rule developed using both the native speaker and the voice of another linguistically speaking speaker is called a 'binding rule'. In addition, each standard transcription is divided into a representative phoneme sequence, a knowledge base, and a direct transcription.

도 9는 원어민 화자 규칙과 타 언어권 화자 규칙을 모두 사용한 결합규칙을 적용하였을 때에 인식 성능의 예를 보여 준다. 도 9를 참조하면, 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링 방법에서 결합규칙을 사용하여 적응한 발음사전(254)을 타 언어권 화자 테스트 음성을 인식한 결과, 단어 오인식률은 대 표 음소열을 표준 전사로 사용한 경우에 22.40%, 지식기반의 경우 23.53%, 그리고 직접 전사의 경우 22.60%로 타 언어권 화자 규칙을 적용한 경우와 비슷한 결과를 얻을 수 있었다. 또한 원어민 화자 테스트 음성을 인식한 결과도 각각 39.49%, 35.40%, 그리고 34.60% 로 원어민 화자 규칙을 적용했을 때와 거의 유사하게 나오는 것을 볼 수 있다. FIG. 9 shows an example of recognition performance when a combination rule using both native speaker rules and non-native speaker rules is applied. Referring to FIG. 9, in the non-direct data-based pronunciation variation modeling method of the speech recognition system, recognition results of the speech dictionary test speech 254 adapted to the non-native speaker test speech using the combination rule, 22.40% for standard transcription, 23.53% for knowledge base, and 22.60% for direct transcription. In addition, the results of recognizing the native speaker test voice are 39.49%, 35.40%, and 34.60%, respectively, which are similar to those when the native speaker rules are applied.

따라서 본 발명의 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링 시스템 및 방법을 통해서 타 언어권 화자음성인식뿐만 아니라 원어민 화자음성인식의 성능도 향상과 비직접적 데이터 기반 방법으로 새로운 단어에 대한 발음변이도 생성할 수 있음을 확인할 수 있다. Therefore, through the non-direct data-based pronunciation variation modeling system and method of the speech recognition system of the present invention, it is possible to improve the performance of the native speaker speech recognition as well as the non-native speaker speech recognition, .

앞서 설명한 본 발명의 상세한 설명에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자 또는 해당 기술분야에 통상의 지식을 갖는 자라면 후술될 특허청구범위에 기재된 본 발명의 사상 및 기술 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.While the present invention has been described in connection with what is presently considered to be practical exemplary embodiments, it is to be understood that the invention is not limited to the disclosed embodiments, but, on the contrary, It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims.

도 1은 본 발명에 의한 연속 음성인식 시스템의 구성을 나타내는 도면.BRIEF DESCRIPTION OF THE DRAWINGS Fig. 1 is a diagram showing a configuration of a continuous speech recognition system according to the present invention. Fig.

도 2는 도 1에 예시된 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링과정을 설명하는 구성도.FIG. 2 is a diagram illustrating a non-direct data-based pronunciation variation modeling process of the speech recognition system illustrated in FIG. 1;

도 3은 본 발명의 비직접적 데이터 기반 발음변이 모델링에서 발음사전을 모델링한 구성을 음성별로 나타내는 테이블, FIG. 3 is a table showing voice-by-voice configuration of the pronunciation dictionary modeling in non-direct data-based pronunciation variation modeling of the present invention,

도 4는 도 2에 예시된 동적정렬부에 의한 정렬한 예를 표현하는 테이블,FIG. 4 is a table representing an example of alignment by the dynamic alignment unit illustrated in FIG. 2,

도 3은 본 발명에서 제안하는 타 언어권 화자의 음성 데이터와 원어민 화자의 음성 데이터를 이용한 비직접적 테이터 기반 방법의 발음변이 모델링 방법을 나타내는 도면.3 is a diagram illustrating a pronunciation variation modeling method of a non-direct data-based method using voice data of a non-native speaker and voice data of a native speaker suggested in the present invention.

도 5는 도 2에 예시된 동적정렬부에 의한 정렬표를 기준으로 추출한 음소패턴의 예를 나타내는 테이블, FIG. 5 is a table showing examples of phoneme patterns extracted based on the alignment table by the dynamic alignment unit illustrated in FIG. 2,

도 6은 도 4의 음소패턴테이블에 기초한 음소결정을 트리구조로 나타내는 도면, FIG. 6 is a diagram showing a phoneme determination based on the phoneme pattern table of FIG. 4 in a tree structure;

도 7은 도 2에 예시된 동적정렬부에 의한 정렬시 발음사전에서 단어 오인식율을 나타낸 그래프, FIG. 7 is a graph showing the word recognition rate in the pronunciation dictionary when sorting by the dynamic sorting unit illustrated in FIG. 2,

도 8은 도 2에 예시된 동적정렬부에 의한 정렬시 발음사전 적응절차규칙에 따라 테스트를 나타낸 테이블, FIG. 8 is a table showing a test according to the pronunciation pre-adaptation procedure rule at the time of sorting by the dynamic arranging unit illustrated in FIG. 2;

도 9는 도 8에 예시된 테스트에서 정렬시 발음사전 결합규칙에 따라 테스트 를 나타낸 테이블, 및 FIG. 9 is a table showing the tests according to the pronunciation pre-combination rule at the time of sorting in the test illustrated in FIG. 8; and

도 10은 일반적인 연속 음성인식시스템을 개략적으로 나타내는 블록도이다. 10 is a block diagram schematically showing a general continuous speech recognition system.

<도면의 주요 부분에 대한 부호의 설명>Description of the Related Art

90: 단어단위탐색부 93: 단어모델부90: word unit search unit 93: word model unit

95: 문장단위탐색부 97: 문법부95: sentence unit search unit 97: grammar unit

99: 의미분석부 100: 음성인식 시스템99: Semantic analysis unit 100: Speech recognition system

101: 특징추출부 102: 음성인식부101: Feature extraction unit 102: Voice recognition unit

200 : 동적 정렬부200: dynamic alignment unit

Claims (7)

외부에서 입력된 음성으로부터 특징벡터를 추출하는 특징추출부; A feature extraction unit for extracting a feature vector from an externally input speech; 미리 구해진 음향데이터를 저장하는 음향모델 데이터베이스;An acoustic model database for storing acoustic data obtained in advance; 발음데이터를 저장하는 발음모델 데이터베이스; 및A pronunciation model database for storing pronunciation data; And 상기 음향모델데이터베이스로부터 읽어들인 음향데이터와 상기 발음모델 데이터베이스로부터 읽어들인 발음데이터를 합성하여 생성된 단어열로부터 상기 특징벡터에 기초하여 음소 확률이 가장 높은 단어열을 찾는 음성 인식부를 포함하되,And a speech recognition unit for finding a word string having the highest phoneme probability based on the feature vector from a word string generated by synthesizing sound data read from the acoustic model database and pronunciation data read from the pronunciation model database, 상기 발음모델 데이터베이스는 원어민 및 타언어권 화자개발용 데이터로부터 비직접적으로 음소변이규칙을 생성하고, 상기 음소변이규칙을 이용하여 생성한 다중 발음사전을 적용하여 생성되는 것을 특징으로 하는 음성인식 모델링 시스템. Wherein the pronunciation model database is generated by generating a phoneme mutation rule non-directly from data for native speaker and non-native speaker development, and applying a multi-phonetic dictionary generated using the phoneme mutation rule. 제 1항에 있어서, The method according to claim 1, 상기 음성 인식부는 동적정렬부를 포함하며, 상기 동적정렬부는 Wherein the speech recognition unit includes a dynamic alignment unit, 원어민 화자개발용 음성 데이터를 인식하는 제1음소인식부와, 원어민 화자개발용 텍스트 데이터를 전사하여 제1 표준 음소열을 생성하는 제1표준음소열부와, 상기 제1음소인식부에서 인식하여 나온 제1인식음소열과 상기 제1표준음소열부에서 전사하여 생성된 제1 표준 음소열을 동적 계획법에 의해 정렬시키는 원어민동적프로그래밍부와; A first phoneme recognition unit for recognizing speech data for native speaker development, a first standard phoneme recognition unit for generating a first standard phoneme string by transferring text data for native speaker development, A native speaker dynamic programming unit for arranging the first recognized phoneme string and the first standard phoneme string generated by the transfer in the first standard phoneme string portion by dynamic programming; 타언어권 화자개발용 음성 데이터를 인식하는 제2음소인식부와, 타언어권 화자개발용 텍스트 데이터를 전사하여 제2 표준 음소열을 생성하는 제2표준음소열부와, 상기 제2음소인식부에서 인식하여 나온 인식음소열과 상기 제2표준음소열부에 서 전사하여 생성된 제2 표준 음소열을 상기 동적 계획법에 의해 정렬시키는 타언어권동적프로그래밍부를 포함하는 것을 특징으로 하는 음성인식 모델링 시스템. A second phonemic recognition unit for recognizing speech data for speech recognition for another language speaker development, a second standard phonemic recognition unit for generating a second standard phoneme string by transferring the text data for developing another speaker's language, And a second language dynamic programming unit for arranging, by the dynamic programming method, the recognized phoneme string derived from the first standard phoneme string part and the second standard phoneme string generated by transferring from the second standard phoneme string part. 제 2 항에 있어서,3. The method of claim 2, 상기 동적정렬부의 동적계획법은 상기 제1 및 제2 표준음소열 각각은 다음의 수학식Wherein the first and second standard phonemes in the dynamic arrangement scheme are each expressed by the following equation
Figure 112007088587007-pat00007
에 의해서 발음 변이 패턴을 정의하는 것을 특징으로 하는 음성인식 모델링 시스템.
Figure 112007088587007-pat00007
And a pronunciation variation pattern is defined by the speech recognition model.
(여기에서 L1과 L2는 상기 제1 및 제2 표준음소열 각각의 왼쪽 음소들이고, R 1 R 2 는 상기 제1 및 제2 표준음소열 각각의 오른쪽 음소들이고, 또한 X 는 상기 제1 및 제2 표준음소열의 음소로서 음소 인식 결과 음소열의 음소인 Y 에 대응됨.) (Wherein L1 and L2 are the first and second deulyigo standard phoneme each left column phoneme, R 1 and R 2 are the first and second deulyigo each of the right phoneme standard phoneme heat, and X is the first and And corresponds to the phoneme Y of the second standard phoneme string and the phoneme of the phoneme string.
제2 항에 있어서, 3. The method of claim 2, 상기 동적정렬부는, Wherein the dynamic alignment unit comprises: 상기 원어민동적프로그래밍부에 의해 정렬된 음소열에 대응되는 변이 음소열 패턴과 상기 타언어권 동적프로그래밍부에 의해 정렬된 음소열에 대응되는 변이음소열 패턴으로부터 음소 결정 트리(phoneme decision three)를 이용해서 상기 음소변이규칙을 생성하는 변이음소규칙생성기; Wherein the phoneme string is generated by using a phoneme decision tree from a mutated phoneme string pattern corresponding to a phoneme string aligned by the native speaker dynamic programming section and a mutation phoneme string pattern corresponding to a phoneme string aligned by the non- A variation phoneme rule generator for generating a variation rule; 상기 음소변이규칙을 효과적으로 추출하기 위해서 규칙 정확도(Rule Accuracy)를 통한 가지치기(pruning)를 수행하여 변이음소를 생성하고 원어민화자음소 및 타언어권 화자음소에 대한 새로운 다중 발음사전을 생성하는 표준발음사전적응부; In order to effectively extract the phoneme variation rule, pruning is performed through Rule Accuracy to generate a mutation phoneme, and a standard pronunciation dictionary for generating a new multi-phonetic dictionary for native speaker phonemes and other non- Adaptation part; 상기 표준발음사전적응부에서 생성된 변이 음소를 제공받는 저장하는 발음사전부; 및A pronunciation dictionary unit for storing the phonemes generated by the standard pronunciation dictionary adaptation unit; And 상기 발음사전부에 저장된 변이음소, 상기 음향모델 데이터베이스에 저장된 음향 데이터 및 언어모델 데이터베이스에 저장된 언어 정보를 결합하여 패턴을 형성하는 패턴매칭부를 더 포함하는 것을 특징으로 하는 음성인식을 위한 모델링 시스템. Further comprising a pattern matching unit for forming a pattern by combining mutation phonemes stored in the pronunciation dictionary unit, acoustic data stored in the acoustic model database, and language information stored in a language model database . 음성인식 모델링 방법에 있어서,In a speech recognition modeling method, 원어민 화자개발용 음성 데이터를 인식하여 나온 제1인식음소열과 원어민 화자개발용 텍스트 데이터를 전사하여 생성된 제1표준음소열을 동적 계획법에 의해 원어민 화자 음소로 정렬시키는 단계; Arranging a first standard phoneme string generated by transferring a first recognized phoneme string recognizing speech data for native speaker development and text data for native speaker development into a native speaker phoneme by a dynamic programming method; 타언어권 화자개발용 음성 데이터를 인식하여 나온 제2인식음소열과 타언어권 화자개발용 텍스트 데이터를 전사하여 생성된 제2표준음소열을 상기 동적 계획법에 의해 타언어권 화자음소로 정렬시키는 단계; Arranging the second standard phoneme string generated by transferring the second recognized phoneme string recognizing the speech data for the second language speaker development and the text data for developing the second language speaker to the second language speaker phoneme according to the dynamic programming method; 상기 동적 계획법에 의해 원어민 화자 음소로 정렬된 음소열에 대응되는 제1 변이 음소열 패턴과 상기 동적 계획법에 의해 타언어권 화자음소로 정렬된 음소열에 대응되는 제2 변이 음소열 패턴을 생성하는 단계; Generating a first variation phoneme string pattern corresponding to a phoneme string arranged by a native speaker phoneme by the dynamic programming method and a second variation phoneme string pattern corresponding to a phoneme string aligned with a non-native speaker phoneme by the dynamic programming method; 상기 생성된 제1 및 제2 변이음소열패턴을 음소결정트리를 이용하여 음소변이규칙을 생성하는 단계; Generating a phoneme mutation rule using the generated first and second mutated phoneme string patterns using a phoneme tree; 상기 음소변이규칙을 효과적으로 추출하기 위하여 규칙 정확도(Rule Accuracy)를 통한 가지치기(pruning)를 수행하여 변이음소를 생성하고 원어민화자음소 및 타언어권 화자음소에 대한 다중 발음사전을 생성하는 단계; 및 Generating a mutation phoneme by performing pruning through Rule Accuracy to effectively extract the phoneme mutation rule and generating a multi-phonetic dictionary for a native speaker phoneme and a non-native speaker phoneme; And 상기 변이음소를 음향모델 데이터베이스에 저장된 저장된 음향 데이터 및 언어모델 데이터베이스에 저장된 언어 정보를 결합하여 패턴매칭하는 단계를 포함하는 것을 특징으로 하는 음성인식 모델링 방법. And pattern matching the variable phoneme by combining stored speech data stored in an acoustic model database and language information stored in a language model database. 제 5 항에 있어서, 상기 제1 및 제2 표준음소열은 대표 음소열, 지식기반 및 직접전사모드 중 적어도 하나의 모드를 이용하여 생성하는 것을 특징으로 하는 음성인식 모델링 방법. The speech recognition modeling method of claim 5, wherein the first and second standard phoneme strings are generated using at least one of a representative phoneme string, a knowledge base, and a direct transfer mode. 제 5 항에 있어서,6. The method of claim 5, 상기 제1 및 제2 표준음소열 각각은 다음의 수학식Wherein each of the first and second standard phoneme strings is represented by the following equation
Figure 112014056149464-pat00008
에 의해서 발음 변이 패턴을 정의하는 것을 특징으로 하는 음성인식 모델링 방법(여기에서 L1과 L2는 상기 제1 및 제2 표준음소열 각각의 왼쪽 음소들이고, R 1 R 2 는 상기 제1 및 제2 표준음소열 각각의 오른쪽 음소들이고, 또한 X 는 상기 제1 및 제2 표준음소열의 음소로서 음소 인식 결과 음소열의 음소인 Y 에 대응됨).
Figure 112014056149464-pat00008
Wherein L1 and L2 are left phonemes of the first and second standard phonemes, and R 1 and R 2 are the left and right phonemes of the first and second standard phoneme strings, respectively, And X is the phoneme of the first and second standard phonemes corresponding to the phoneme Y of the phoneme string resulting from the phoneme recognition).
KR1020070127516A 2007-12-10 2007-12-10 System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition KR101424193B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070127516A KR101424193B1 (en) 2007-12-10 2007-12-10 System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070127516A KR101424193B1 (en) 2007-12-10 2007-12-10 System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition

Publications (2)

Publication Number Publication Date
KR20090060631A KR20090060631A (en) 2009-06-15
KR101424193B1 true KR101424193B1 (en) 2014-07-28

Family

ID=40990340

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070127516A KR101424193B1 (en) 2007-12-10 2007-12-10 System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition

Country Status (1)

Country Link
KR (1) KR101424193B1 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101250897B1 (en) * 2009-08-14 2013-04-04 한국전자통신연구원 Apparatus for word entry searching in a portable electronic dictionary and method thereof
KR102199246B1 (en) * 2014-11-18 2021-01-07 에스케이텔레콤 주식회사 Method And Apparatus for Learning Acoustic Model Considering Reliability Score
EP3193328B1 (en) 2015-01-16 2022-11-23 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
KR102075796B1 (en) * 2017-11-14 2020-03-02 주식회사 엘솔루 Apparatus and method for recognizing speech automatically
KR102605159B1 (en) * 2020-02-11 2023-11-23 주식회사 케이티 Server, method and computer program for providing voice recognition service
TWI751642B (en) * 2020-08-10 2022-01-01 騰擎科研創設股份有限公司 Detection system for abnormal sound detection and cause determination
CN112349294B (en) * 2020-10-22 2024-05-24 腾讯科技(深圳)有限公司 Voice processing method and device, computer readable medium and electronic equipment
WO2023136490A1 (en) * 2022-01-11 2023-07-20 삼성전자 주식회사 Text search method of heterogeneous language on basis of pronunciation, and electronic device having same applied thereto

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06289894A (en) * 1993-03-31 1994-10-18 Nippon Telegr & Teleph Corp <Ntt> Japanese speech recognizing method
KR20070098094A (en) * 2006-03-31 2007-10-05 광주과학기술원 An acoustic model adaptation method based on pronunciation variability analysis for foreign speech recognition and apparatus thereof

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06289894A (en) * 1993-03-31 1994-10-18 Nippon Telegr & Teleph Corp <Ntt> Japanese speech recognizing method
KR20070098094A (en) * 2006-03-31 2007-10-05 광주과학기술원 An acoustic model adaptation method based on pronunciation variability analysis for foreign speech recognition and apparatus thereof

Also Published As

Publication number Publication date
KR20090060631A (en) 2009-06-15

Similar Documents

Publication Publication Date Title
CN109410914B (en) Method for identifying Jiangxi dialect speech and dialect point
CN110364171B (en) Voice recognition method, voice recognition system and storage medium
KR100486733B1 (en) Method and apparatus for speech recognition using phone connection information
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
JP5014785B2 (en) Phonetic-based speech recognition system and method
KR101424193B1 (en) System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition
KR102094935B1 (en) System and method for recognizing speech
US10109274B2 (en) Generation device, recognition device, generation method, and computer program product
US9798653B1 (en) Methods, apparatus and data structure for cross-language speech adaptation
CN100354929C (en) Voice processing device and method, recording medium, and program
JP2007047412A (en) Apparatus and method for generating recognition grammar model and voice recognition apparatus
Hadwan et al. An End-to-End Transformer-Based Automatic Speech Recognition for Qur'an Reciters.
KR100669241B1 (en) System and method of synthesizing dialog-style speech using speech-act information
Kayte et al. A Marathi Hidden-Markov Model Based Speech Synthesis System
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
Mehra et al. Improving word recognition in speech transcriptions by decision-level fusion of stemming and two-way phoneme pruning
CN114999447B (en) Speech synthesis model and speech synthesis method based on confrontation generation network
Labied et al. Moroccan dialect “Darija” automatic speech recognition: a survey
JP4595415B2 (en) Voice search system, method and program
JP2974621B2 (en) Speech recognition word dictionary creation device and continuous speech recognition device
Johnson et al. Leveraging multiple sources in automatic African American English dialect detection for adults and children
Baranwal et al. Improved Mispronunciation detection system using a hybrid CTC-ATT based approach for L2 English speakers
JP4733436B2 (en) Word / semantic expression group database creation method, speech understanding method, word / semantic expression group database creation device, speech understanding device, program, and storage medium
Lecorvé et al. Adaptive statistical utterance phonetization for French
Garud et al. Development of hmm based automatic speech recognition system for Indian english

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170629

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180625

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190702

Year of fee payment: 6