KR101424193B1 - System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition - Google Patents
System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition Download PDFInfo
- Publication number
- KR101424193B1 KR101424193B1 KR1020070127516A KR20070127516A KR101424193B1 KR 101424193 B1 KR101424193 B1 KR 101424193B1 KR 1020070127516 A KR1020070127516 A KR 1020070127516A KR 20070127516 A KR20070127516 A KR 20070127516A KR 101424193 B1 KR101424193 B1 KR 101424193B1
- Authority
- KR
- South Korea
- Prior art keywords
- phoneme
- standard
- pronunciation
- string
- unit
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 13
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 3
- 230000035772 mutation Effects 0.000 claims description 30
- 238000003066 decision tree Methods 0.000 claims description 22
- 238000011161 development Methods 0.000 claims description 19
- 230000006978 adaptation Effects 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 7
- 238000013138 pruning Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000013518 transcription Methods 0.000 description 6
- 230000035897 transcription Effects 0.000 description 6
- 238000000926 separation method Methods 0.000 description 4
- 230000002542 deteriorative effect Effects 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을 위한 비직접적 데이터 기반 발음변이 모델링 시스템 및 방법이 제공되어 있다. 음성인식을 위한 모델링 시스템에 있어서, 외부에서 입력된 음성으로부터 특징벡터를 추출하는 특징추출부; 미리 구해진 음향데이터를 저장하는 음향모델 데이터베이스; 발음데이터를 저장하는 발음모델 데이터베이스; 및 상기 음향모델데이터베이스로부터 읽어들인 음향데이터와 상기 발음모델 데이터베이스로부터 읽어들인 발음데이터를 합성하여 생성된 단어열로부터 상기 특징벡터에 기초하여 음소 확률이 가장 높은 단어열을 찾는 음성 인식부를 포함한다. 따라서 원어민 화자음성에 대한 인식성능을 저하시키지 않고 타 언어권 화자음성에 대한 인식성능을 향상시킬 수 있다. A non-direct data-based pronunciation variation modeling system and method for enhancing the performance of a speech recognition system for a non-native speaker voice are provided. A modeling system for speech recognition, comprising: a feature extraction unit for extracting a feature vector from an externally input speech; An acoustic model database for storing acoustic data obtained in advance; A pronunciation model database for storing pronunciation data; And a speech recognition unit for finding a word sequence having the highest phoneme probability based on the feature vector from the word sequence generated by synthesizing the sound data read from the acoustic model database and the pronunciation data read from the pronunciation model database. Therefore, it is possible to improve the recognition performance of the voice of the native speaker without reducing the recognition performance of the native speaker voice.
음성인식 시스템, 비직접적 데이터 기반, 발음변이 모델링 Speech recognition system, non-direct data base, pronunciation variation modeling
Description
본 발명은 연속 음성 인식을 위한 음성인식기술에 관한 것으로서, 더욱 상세하게는 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을 위한 비직접적 데이터 기반 발음변이 모델링 시스템 및 방법에 관한 것이다. The present invention relates to speech recognition technology for continuous speech recognition, and more particularly, to a non-direct data-based pronunciation variation modeling system and method for improving the performance of a speech recognition system for non-native speaker speech.
일반적으로 자연어 처리분야의 음성인식 시스템은 원어민의 음성으로 학습되기 때문에 원어민 음성에 대하여만 주로 최적화되어 있다. 그러므로 원어민에 의한 음성인식성능은 좋지만 타 언어권 화자에 의한 음성인식성능은 좋지 않다. In general, the speech recognition system in the natural language processing field is mainly optimized for the native speaker voice because it is learned by the native speaker's voice. Therefore, speech recognition performance by native speakers is good, but speech recognition performance by other speakers is not good.
이러한 음성인식 시스템의 문제를 개선하기 위하여 제안되고 있는 타 언어권 화자음성에 대한 인식성능의 기술을 다음 도 10을 참조하여 설명한다. A description of a recognition performance of a speech of a non-native speaker to improve the problem of the speech recognition system will be described with reference to FIG.
도 10은 일반적인 연속 음성인식시스템을 개략적으로 나타내는 블록도이다. 도 10의 연속 음성인식 시스템(Contineous Voice Recognition) 크게 두 개의모듈로서 구분할 수 있는 바 특징추출모듈(11)과 음성인식모듈(12)로 나눌 수 있다. 이 연속 음성인식 시스템의 음성인식모듈(12)은 보다 구체적으로 음향모델(13), 발음모델(14), 언어모델(15)의 세 모델로 구성된다. 10 is a block diagram schematically showing a general continuous speech recognition system. Contineous Voice Recognition System (Contineous Voice Recognition) of FIG. 10 can be roughly divided into two modules, and can be divided into a
연속 음성인식 시스템은 음성 입력이 들어오면, 입력된 음성이 특징추출모듈(11)을 통하여 인식에 유용한 특징벡터만이 추출된다. 특징벡터는 음성인식모듈(12)에서 음향모델(13), 발음모델(14), 및 언어모델(15)을 탐색한다. 상기 음향모델(13)과 발음모델(14)은 단어단위 탐색에 이용되고, 언어모델(15)은 문장단위 탐색에 이용된다. 또 음성인식모듈(12)은 음향모델(13), 발음모델(14), 및 언어모델(15)을 탐색하여 인식한 결과를 출력한다.In the continuous speech recognition system, when a voice input is received, only the feature vectors useful for recognizing the input voice through the
여기에서 음성인식에 대한 연구를 음향모델론적 관점, 발음모델론적 관점, 언어모델론적 관점으로 고려할 수 있다. Here, research on speech recognition can be considered as an acoustic modeling viewpoint, a pronunciation modeling viewpoint, and a language modeling viewpoint.
발음모델론적 관점에서는 현재까지 제안된 여러 가지 방법 중 대표적인 두 가지 방법이 에이치. 스트릭(H. Strik)씨 등에 의해 소개되어 있다(H. Strik and C. Cucchiarinin, "Modeling pronunciation variation for ASR: A survey of the literature," Speech Comm., vol. 29, nos. 2-4, pp. 225-246, Nov. 1999, 이하 문헌1이라 한다). In the pronunciation modeling viewpoint, two representative methods among the various methods proposed so far are H. H. Strik, H. Strik and C. Cucchiarinin, "Modeling pronunciation variation for ASR: A survey of the literature," Speech Comm. , Vol. 29, nos. 2-4, pp. 225-246, Nov. 1999, hereinafter referred to as Document 1).
문헌1을 참조하면, 발음모델은 지식기반(knowledge-based)에 의한 방법과 데이터기반(data-driven)에 의한 모델링 방법이 있는데, 지식기반에 의한 방법은 현재 활용 가능한 언어학적 지식을 이용하는 방법이고, 데이터기반에 의한 방법은 음 성 신호로부터 발음변이(pronunciation variation), 즉 대화체에서 음운축약, 음운 탈락, 전형적인 오발화, 발화 오류 등의 다양한 형태로 나타난 발음변이를 추출하여 적용하는 방법이다. In reference to
상기와 같은 대화체에서의 발음변이를 지식기반의 방법의 경우 일반적인 발음변이를 고려하므로 음소변이규칙에 따른 음소열(pronunciation sequence)들이 필요 이상으로 많이 발생하므로 복잡도(confusability)를 증가시킨다. 뿐만 아니라 지식기반의 방법은 타 언어권 화자의 경우에 맞는 음소변이규칙을 정의하기에는 많은 시간과 노력을 필요로 한다. 이러한 이유로 데이터 기반에 의한 방법을 사용하는 것이 더 효과적이다.In the case of the knowledge-based method, the pronunciation variation in the above-mentioned dialogue is considered in consideration of the general pronunciation variation, so that the pronunciation sequences according to the phoneme variation rule are generated more than necessary, thereby increasing the confusability. In addition, the knowledge-based method requires a lot of time and effort to define the phoneme rules that are appropriate for other speakers. For this reason, it is more effective to use the data-based method.
다음 데이터 기반의 방법을 설명하는 티.스벤덴(T. Svendsen)씨의 논문에 소개된 음성기술의 발음모델링에 관한 기술을 참조한다. (T. Svendsen, "Pronunciation modeling for speech technology," in Proc. of SPCOM, pp. 11-16, Dec. 2004, 이하 문헌2이라 한다). See the description of pronunciation modeling in speech technology introduced in T. Svendsen's paper describing the data-based method. (T. Svendsen, "Pronunciation modeling for speech technology," in Proc. Of SPCOM , pp. 11-16, Dec. 2004, hereinafter referred to as document 2).
문헌2를 참조하면, 문헌1에 소개된 발음모델에서 설명하는 데이터 기반의 방법은 직접적인 방법(direct data driven method)과 비직접적인 방법(indirect data-driven method))으로 나뉜다. Referring to Document 2, the data-based method described in the pronunciation model introduced in
즉 문헌 2에서, 직접적인 데이터 기반 방법은 발음변이 추출을 위한 개별 음성 데이터들을 강제 인식하거나 음소 인식을 수행하여 발음사전의 단어들에 대한 발음변이를 직접적으로 이용한다. 그러나 직접적인 데이터 기반 방법은 발음사전의 단어들이 발음변이 개별 음성 데이터에 충분히 들어 있을 때에는 좋은 성능을 보이 지만, 그렇지 않을 경우에는 취약한 성능을 보인다. In Document 2, a direct data-based method forcibly recognizes individual speech data for pronunciation variation extraction or performs phoneme recognition to directly use pronunciation variation for words in the pronunciation dictionary. However, the direct data-based method shows good performance when the words in the pronunciation dictionary are sufficiently contained in the individual speech data of the pronunciation variation, but it shows weak performance when not.
반면에, 비직접적인 데이터 기반 방법은 발음모델링에 있어서 발음변이 추출을 위한 개별 음성 데이터들로부터 음소변이규칙을 추출하여 적용할 수 있는 발음규칙에 기반하는 학습 데이터(training data)를 사용함으로써 새로운 단어에 대한 발음변이도 생성할 수 있는 장점이 있다. On the other hand, the non-direct data-based method uses pronunciation data (training data) based on pronunciation rules that can be applied by extracting phoneme variation rules from individual speech data for pronunciation variation extraction in pronunciation modeling There is an advantage that the pronunciation variation can also be generated.
이와 같이 문헌2의 발음모델에 따르면 비직접적 데이터 기반 방법이 단어에 대한 발음변이도 생성할 수 있는 장점이 있으므로 대화체 음성에서 주로 사용되고 있다. 그러나 이러한 문헌2의 발음모델은 타 언어권 화자의 음성에 사용된 경우 타 언어권 화자음성에 대해서는 좋은 성능을 보이지만, 원어민 화자의 음성에 대해서는 복잡도의 증가로 성능이 저하하는 경우가 빈번하여 발생하고, 또 원어민 화자의 음성이 타 언어권 화자음성에 영향을 주어 결국 발음모델 전체의 성능을 저하시킨다. 즉 문헌2의 발음모델은 발음변이 생성에 유리하지만 타 언어권 화자음성과 원어민 화자음성인식 성능을 떨어뜨리는 문제점을 갖고 있다. 따라서 타 언어권 화자음성인식뿐만 아니라 원어민 화자음성인식에도 좋은 성능을 보이는 발음사전을 모델링이 요청되고 있는 실정이다. Thus, according to the pronunciation model of Document 2, the non-direct data-based method is mainly used in dialogue voice because it has an advantage of generating a pronunciation variation for a word. However, when the pronunciation model of the document 2 is used for the voice of a non-native speaker, the performance of the voice of the native speaker is good, but the performance of the native speaker is frequently deteriorated due to an increase in complexity. The voice of the native speaker influences the voice of the speaker of the other language, thereby deteriorating the performance of the entire pronunciation model. That is, the pronunciation model of Document 2 is advantageous in generating a pronunciation variation, but it has a problem of deteriorating speech recognition performance of a native speaker and a native speaker. Therefore, it is required to model a pronunciation dictionary which is good not only for the speech recognition of the non-native speaker but also for the native speaker voice recognition.
따라서 본 발명의 목적은 상기한 타 언어권 화자음성인식뿐만 아니라 원어민 화자음성인식성능을 저하시키는 문제를 해결하기 위하여 발음사전을 이용한 발음변 이 모델링 시스템에 있어 원어민 화자음성에 대한 인식성능을 저하시키지 않으면서 타 언어권 화자음성에 대한 인식성능을 향상시키기 위해 화자음성 데이터를 이용한 비직접적 테이터 기반의 발음변이 모델링 방법을 제공함에 있다. Therefore, it is an object of the present invention to provide a modeling system using a phonetic dictionary in order to solve the problem of deteriorating native speaker's speech recognition performance as well as speech recognition of a non-native speaker speaker, The present invention provides a non-direct data-based pronunciation variation modeling method using speaker speech data to improve recognition performance of a native speaker speech.
상기 목적을 달성하기 위한 본 발명의 발음변이 모델링 시스템에 따르면, According to the pronunciation variation modeling system of the present invention for achieving the above object,
외부에서 입력된 음성으로부터 특징벡터를 추출하는 특징추출부; A feature extraction unit for extracting a feature vector from an externally input speech;
미리 구해진 음향데이터를 저장하는 음향모델 데이터베이스;An acoustic model database for storing acoustic data obtained in advance;
발음데이터를 저장하는 발음모델 데이터베이스; 및A pronunciation model database for storing pronunciation data; And
상기 음향모델데이터베이스로부터 읽어들인 음향데이터와 상기 발음모델 데이터베이스로부터 읽어들인 발음데이터를 합성하여 생성된 단어열로부터 상기 특징벡터에 기초하여 음소 확률이 가장 높은 단어열을 찾는 음성 인식부를 포함한다. And a speech recognition unit for finding a word string having the highest phoneme probability based on the feature vector from a word string generated by synthesizing the sound data read from the acoustic model database and the pronunciation data read from the pronunciation model database.
또한 본 발명의 발음변이 모델링 시스템에 따른 상기 음성 인식부는 동적정렬부를 포함하며, 상기 동적정렬부는 Further, the speech recognition unit according to the pronunciation variation modeling system of the present invention includes a dynamic alignment unit,
원어민 화자개발용 음성 데이터를 인식하는 제1음소인식부와, 원어민 화자개발용 텍스트 데이터를 전사하여 제1 표준 음소열을 생성하는 제1표준음소열부와, 상기 제1음소인식부에서 인식하여 나온 제1인식음소열과 상기 제1표준음소열부에서 전사하여 생성된 제1 표준 음소열을 동적 계획법에 의해 정렬시키는 원어민동적프로그래밍부와; A first phoneme recognition unit for recognizing speech data for native speaker development, a first standard phoneme recognition unit for generating a first standard phoneme string by transferring text data for native speaker development, A native speaker dynamic programming unit for arranging the first recognized phoneme string and the first standard phoneme string generated by the transfer in the first standard phoneme string portion by dynamic programming;
타언어권 화자개발용 음성 데이터를 인식하는 제2음소인식부와, 타언어권 화 자개발용 텍스트 데이터를 전사하여 제2 표준 음소열을 생성하는 제2표준음소열부와, 상기 제2음소인식부에서 인식하여 나온 인식음소열과 상기 제2표준음소열부에서 전사하여 생성된 제2 표준 음소열을 상기 동적 계획법에 의해 정렬시키는 타언어권동적프로그래밍부를 포함한다. A second phonemic recognition unit for recognizing speech data for development of a second language speaker, a second standard phoneme recognition unit for generating a second standard phoneme string by transferring the text data for development of a second language speaker, And a second language dynamic programming unit for arranging the recognized phoneme string recognized and sent and the second standard phoneme string generated by transferring in the second standard phoneme string portion by the dynamic programming method.
또, 본 발명의 발음변이 모델링 시스템에 따른 상기 동적정렬부의 동적계획법은 상기 제1 및 제2 표준음소열 각각은 다음의 수학식 에 의해서 발음 변이 패턴을 정의한다. (여기에서 L1과 L2는 상기 제1 및 제2 표준음소열 각각의 왼쪽 음소들이고, R 1 과 R 2 는 상기 제1 및 제2 표준음소열 각각의 오른쪽 음소들이고, 또한 X 는 상기 제1 및 제2 표준음소열의 음소로서 음소 인식 결과 음소열의 음소인 Y 에 대응됨.) Further, in the dynamic programming of the dynamic alignment unit according to the pronunciation variation modeling system of the present invention, each of the first and second standard phonemes is expressed by the following equation To define a pronunciation variation pattern. (Wherein L1 and L2 are the first and second deulyigo standard phoneme each left column phoneme, R 1 and R 2 are the first and second deulyigo each of the right phoneme standard phoneme heat, and X is the first and And corresponds to the phoneme Y of the second standard phoneme string and the phoneme of the phoneme string.
또, 상기 동적정렬부는, In addition,
상기 원어민동적프로그래밍부에 의해 정렬된 음소열에 대응되는 변이 음소열 패턴과 상기 타언어권 동적프로그래밍부에 의해 정렬된 음소열에 대응되는 변이음소열 패턴으로부터 음소 결정 트리(phoneme decision three)를 이용해서 변이음소규칙을 생성한다. And a phoneme decision tree (phoneme decision tree) is generated from the mutated phoneme string pattern corresponding to the phoneme string aligned by the native speaker dynamic programming section and the mutated phoneme string pattern corresponding to the phoneme string aligned by the non- Create a rule.
또, 본 발명의 발음변이 모델링 시스템은 음소변이규칙을 효과적으로 추출하기 위해서 규칙 정확도(Rule Accuracy)를 통한 가지치기(pruning)를 수행하여 변이음소를 생성하고 원어민화자음소 및 타언어권 화자음소에 대한 새로운 다중 발음사전을 생성하는 표준발음사전적응부; In addition, the pronunciation variation modeling system of the present invention generates a variation phoneme by performing pruning through Rule Accuracy in order to extract the phoneme variation rules effectively, and generates a new phoneme phoneme and a new A standard pronunciation dictionary adaptation unit for generating a multi-phonetic dictionary;
상기 표준발음사전적응부에서 생성된 변이 음소를 제공받는 저장하는 발음사전부; 및A pronunciation dictionary unit for storing the phonemes generated by the standard pronunciation dictionary adaptation unit; And
상기 발음사전부에 저장된 변이음소, 상기 음향모델 데이터베이스에 저장된 저장된 음향 데이터 및 상기 언어모델 데이터베이스에 저장된 언어 정보를 결합하여 패턴을 형성하는 패턴매칭부를 더 포함한다. And a pattern matching unit for forming a pattern by combining mutation phonemes stored in the pronunciation dictionary unit, stored sound data stored in the acoustic model database, and language information stored in the language model database.
또, 본 발명에 따른 음성인식을 위한 모델링 시스템을 이용한 음성인식 모델링 방법은, 원어민 화자개발용 음성 데이터를 인식하여 나온 제1인식음소열과 원어민 화자개발용 텍스트 데이터를 전사하여 생성된 제1표준음소열을 동적 계획법에 의해 원어민 화자 음소로 정렬시키는 단계; In addition, the speech recognition modeling method using the modeling system for speech recognition according to the present invention includes a first recognition phoneme string recognizing speech data for native speaker development and a first standard phoneme string generated by transferring text data for native speaker development Arranging the columns into native speaker phonemes by dynamic programming;
타언어권 화자개발용 음성 데이터를 인식하여 나온 제2인식음소열과 타언어권 화자개발용 텍스트 데이터를 전사하여 생성된 제2표준음소열을 상기 동적 계획법에 의해 타언어권 화자음소로 정렬시키는 단계; Arranging the second standard phoneme string generated by transferring the second recognized phoneme string recognizing the speech data for the second language speaker development and the text data for developing the second language speaker to the second language speaker phoneme according to the dynamic programming method;
상기 동적 계획법에 의해 원어민 화자 음소로 정렬된 음소열에 대응되는 제1 변이 음소열 패턴과 상기 동적 계획법에 의해 타언어권 화자음소로 정렬된 음소열에 대응되는 제2 변이 음소열 패턴을 생성하는 단계; Generating a first variation phoneme string pattern corresponding to a phoneme string arranged by a native speaker phoneme by the dynamic programming method and a second variation phoneme string pattern corresponding to a phoneme string aligned with a non-native speaker phoneme by the dynamic programming method;
상기 생성된 제1 및 제2 변이음소열패턴을 음소결정트리를 이용하여 음소변이규칙을 생성하는 단계; Generating a phoneme mutation rule using the generated first and second mutated phoneme string patterns using a phoneme tree;
상기 음소변이규칙을 효과적으로 추출하기 위하여 규칙 정확도(Rule Accuracy)를 통한 가지치기(pruning)를 수행하여 변이음소를 생성하고 원어민화자음소 및 타언어권 화자음소에 대한 다중 발음사전을 생성하는 단계; 및 Generating a mutation phoneme by performing pruning through Rule Accuracy to effectively extract the phoneme mutation rule and generating a multi-phonetic dictionary for a native speaker phoneme and a non-native speaker phoneme; And
상기 변이음소를 음향모델 데이터베이스에 저장된 저장된 음향 데이터 및 상기 언어모델 데이터베이스에 저장된 언어 정보를 결합하여 패턴매칭하는 단계를 포함한다. And pattern matching the variable phoneme by combining the stored sound data stored in the acoustic model database and the language information stored in the language model database.
또, 본 발명의 발음변이 모델링 방법에 따른 상기 제1 및 제2 표준음소열은 대표 음소열, 지식기반 및 직접전사모드 중 적어도 하나의 모드를 이용하여 생성한다. The first and second standard phoneme strings according to the pronunciation variation modeling method of the present invention are generated using at least one of a representative phoneme string, a knowledge base, and a direct transfer mode.
또, 본 발명의 발음변이 모델링 방법에 따르면, 상기 제1 및 제2 표준음소열 각각은 다음의 수학식Further, according to the pronunciation variation modeling method of the present invention, each of the first and second standard phoneme strings is expressed by the following equation
에 의해서 발음 변이 패턴을 정의한다. 여기에서 L1과 L2는 상기 제1 및 제2 표준음소열 각각의 왼쪽 음소들이고, R 1 과 R 2 는 상기 제1 및 제2 표준음소열 각각의 오른쪽 음소들이고, 또한 X 는 상기 제1 및 제2 표준음소열의 음소로서 음소 인식 결과 음소열의 음소인 Y 에 대응된다. To define a pronunciation variation pattern. Here, L1 and L2 are the first and second deulyigo standard phoneme each left column phoneme, R 1 and R 2 are the first and second deulyigo each of the right phoneme standard phoneme heat, and X is the first and the 2 is a phoneme of a standard phoneme sequence, and corresponds to a phoneme Y of a phoneme string.
따라서 또, 본 발명의 발음변이 모델링 시스템 및 방법은 타 언어권 화자음성에 대한 인식성능의 향상으로, 타 언어권 화자음성 데이터와 원어민 화자의 음성 데이터를 이용하여 비직접적 데이터 기반의 발음변이 모델링이 가능하다. Therefore, the pronunciation variation modeling system and method of the present invention can improve the recognition performance of the speaker speech of the non-native speakers, and enable the non-direct data-based pronunciation variation modeling using the speaker data of the non-native speakers and the native speech data of the native speaker .
상술한 것과 같이 본 발명의 타 언어권 화자음성 데이터와 원어민 화자의 음성 데이터를 이용한 비직접적 데이터 기반의 발음변이 모델링 시스템 및 방법에 따 르면, 타 언어권 화자음성에 대한 음성인식 시스템의 성능을 향상시키면서 원어민 화자음성에 대한 음성인식 시스템의 성능의 저하를 가져 오지 않는다. As described above, according to the non-direct data-based pronunciation variation modeling system and method using the non-native speaker voice data of the present invention and the native speaker's voice data, it is possible to improve the performance of the speech recognition system for the non- The performance of the speech recognition system with respect to the speaker voice is not deteriorated.
더욱이, 본 발명의 발음변이 모델링 시스템 및 방법은 데이터 기반으로 타 언어권 화자음성의 발음변이를 분석을 위한 인적 노력과 시간을 줄일 수 있고, 타 언어권 화자음성의 발음변이를 추출함으로써 타 언어권 화자에 대한 지식이 부족한 상황에서도 발음변이 추출을 가능하게 한다. 또한 본 발명은 비직접적 데이터 기반 방법으로 새로운 단어에 대한 발음변이도 생성할 수 있다.Further, the pronunciation variation modeling system and method according to the present invention can reduce the human effort and time for analyzing the pronunciation variation of a non-native speaker voice based on data, and can extract pronunciation variation of a non- It enables extraction of pronunciation variations even in situations where knowledge is lacking. The present invention can also generate pronunciation variations for new words using a non-direct data-based method.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail. It should be understood, however, that the invention is not intended to be limited to the particular embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention. Like reference numerals are used for like elements in describing each drawing.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 실시예에 따른 비직접적 데이터 기반 발음변이 모델링 시스템의 일실시예를 개략적으로 설명하는 블럭도이다. 1 is a block diagram schematically illustrating an embodiment of a non-direct data-based pronunciation variation modeling system according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 실시예에 따른 비직접적 데이터 기반 발음변이 모델링 방법에 있어서 연속 음성인식 시스템(100)은 크게 두 개의 부분으로 구분할 수 있는 바, 특징추출부(101)과 음성인식부(102)로 구비된다. 또한 이 음성인식 시스템(100)의 음성인식부(102)은 보다 구체적으로 단어단위탐색부(90)와 이 단어단위탐색부(90)와 상호 접속되어 해당단어를 주고받는 문장단위탐색부(95)를 구비한다. Referring to FIG. 1, in a non-direct data-based pronunciation variation modeling method according to an embodiment of the present invention, the continuous speech recognition system 100 can be roughly divided into two parts, and includes a
상기 특징추출부(101)은 외부에서 입력된 음성으로부터 인식에 유용한 정보만을 추출하여 특징벡터(fv)로 변환한다. 즉 음성인식시스템(100)에 있어서 상기 특징추출부(101)는 음성 입력이 외부에서 들어오면 입력된 음성을 특징벡터(fv)로 추출한다. 특징벡터(fv)는 음성인식을 위하여 예를 들어 12차 멜-켑스트럼(MFCC), 로그에너지, 또는 이에 대한 1차, 2차 미분계수를 사용하여 음성으로부터 추출될 수 있다. The
단어모델합성부(93)는 음향모델 데이터베이스(102)에 저장된 음향데이터(p1)와 발음모델 데이터베이스(103)에 저장된 발음데이터(p2)를 합성하여 단어열(ws)을 생성한다. The word
또 상기 음성인식부(102)의 단어단위탐색부(90)는 단어단위탐색을 위해 특징추출부(101)로부터 제공된 특징벡터(fv)와 상기 생성된 단어열(ws)을 참조한다. The word
문법부(97)와 의미분석부(99)는 언어모델 데이터베이스(102)에 저장된 언어데이터(p3)를 문장열(ps)를 생성한다. The
그리고 상기 음성인식부(102)에 있어서 상기 문장단위탐색부(95)는 상기 단어단위탐색부(90)를 통하여 단어열(ws)를 제공받아 상기 생성된 문장열(ps)를 상기 단어단위탐색부(90)로 제공한다. In the
상기 단어단위탐색부(90)와 상기 문장단위탐색부(95)는 상호간에 단어열(ws)과 문장열(ps) 데이터를 교환한다. The word
음성인식부(102)는 특징벡터(fv)에 기초하여 상기 단어열(ws)과 문장열(ps)로부터 음소확률이 가장 높은 단어열을 비터비 알고리듬을 이용하여 찾는다. 여기에서 비터비 알고리듬(Viterbi Algorithm)이란 관찰된 음소열 중에서 가장 빈번하게 나타나는 음소열을 찾아 내는 탐색 방법을 말한다. The
도 2는 비직접적 데이터 기반 발음변이 모델링 시스템에서 타 언어권 화자음성에 대한 음성인식 시스템에서 발음사전을 형성하기 위하여 발음을 모델링하는 구성을 나타내는 블록도이다.FIG. 2 is a block diagram showing a configuration for modeling a pronunciation in order to form a pronunciation dictionary in a speech recognition system for a non-native speaker voice in a non-direct data-based pronunciation variation modeling system.
본 발명에 따른 비직접적 데이터 기반 발음변이 모델링 시스템에서 발음사전을 형성하는 경우 요구되는 동적정렬부(200)은 원어민동적프로그래밍부(220)와, 상기 원어민동적프로그래밍부(220)에 연결된 타언어권 동적프로그래밍부(210)를 포함한다. 또한 상기 동적정렬부(200)은 동적계획법에 의해 상기 원어민동적프로그래밍부(220)와 타언어권 동적프로그래밍부(210) 각각의 음소를 정렬한다. 여기에서 동적계획법(dynamic programming algorithm)이란 어떤 화자음성의 인식율을 최적으로 달성하기 위해 각각 입력되는 표준음소열과 음소인식한 결과음소열을 정렬하는 최적 접근방법을 말한다.The
상기 동적정렬부(200)는 비직접적 데이터 기반 발음변이 모델링을 위해 동적계획법에 의해 타언어권 화자음소와 원어민화자음소가 각각 인식되어 음소열로 정 렬하도록 프로그래밍한다. The dynamic arranging
상기 변이음소규칙생성기(230)는 상기 동적정렬부(200)에서 정렬된 음소열(v1,v2)을 받아 변이가 일어나는 음소열(phoneme sequence)로 패턴화하여 변이 음소열 패턴을 생성한 다음, 상기 변이 음소열 패턴으로부터 음소 결정 트리(phoneme decision three)를 이용해서 변이음소규칙을 생성한다. 즉 상기 동적정렬부(200)에서 원어민동적프로그래밍부(220)를 통하여 출력한 변이음소열(v1)과, 타언어권 동적프로그래밍부(210)를 통하여 출력된 변이음소열(v2)를 결합하여 변이 음소율 패턴을 생성한 후 상기 변이 음소율 패턴으로부터 음소 결정 트리(phoneme decision three)를 이용해서 변이음소규칙을 생성한다. 다시 말해 상기 변이음소규칙생성기(230)는 동적정렬부(200)에서 정렬된 음소열(v1,v2)에 대해서 변이가 일어나는 경우 변이음소를 기초로 하여 패턴화 한 다음 음소 결정 트리를 사용하여 변이음소규칙을 생성한다. The transposed
상기 표준발음사전적응부(240)는 음소변이규칙을 효과적으로 추출하기 위해서 규칙 정확도(Rule Accuracy)를 통한 가지치기(pruning)를 수행하여 변이음소를 생성하고 상기 원어민화자음소 및 타언어권 화자음소에 대한 새로운 다중 발음사전을 생성하여 발음사전부(254)에 적용한다. The standard pronunciation
상기 발음사전부(254)는 상기 표준발음사전적응부(240)로부터 가지치기되어 적응된 변이음소(vpd)를 입력받아 저장한다. The
패턴매칭부(260)는 상기 발음사전부(254)부에 저장된 변이음소(vpd), 상기 음향모델 데이터베이스(253)에 저장된 저장된 음향 데이터 및 상기 언어모델 데이 터베이스(252)에 저장된 언어 정보를 결합하여 패턴을 형성한다. The
또한 상기 동적정렬부(200)에서 원어민동적프로그래밍부(220)는 상기 음소인식부(202)에서 인식하여 나온 인식음소열(n1)과 상기 표준음소열부(204)에서 전사하여 얻은 표준음소열(n2)을 동적계획법에 의해 정렬시킨다. In addition, the native
또한 상기 동적정렬부(200)에서 타 언어권 동적프로그래밍부(210)는 상기 음소인식부(201)에서 인식하여 나온 인식음소열(e1)과 상기 표준음소열부(203)에서 전사하여 얻은 표준음소열(e2)을 동적계획에 의해 정렬시킨다. In the
더욱이 본 발명의 상기 동적정렬부(200)을 구성하는 표준음소열부(203, 204)에서 각각 인식된 표준음소열(e2, n2)은, 상기 동적정렬부(200)의 동적계획법을 사용하여 후술하는 도 4에 도시된 바와 같이, 대표 음소열 전사, 지식기반전사, 직접전사(transcrition)모드 중 어느 하나를 사용하여 표준음소열을 정렬하는 음소열로 구성하는 것이 바람직하다. The standard phoneme strings e2 and n2 recognized by the standard
한편, 도 2에 도시된 음성인식 시스템을 사용하여 비직접적 데이터 기반 발음변이 모델링 방법을 다섯 단계로 처리할 수 있다. Meanwhile, the non-direct data-based pronunciation variation modeling method can be processed in five steps using the speech recognition system shown in FIG.
첫째 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링 방법은, 상기 동적정렬부(200)에 의해 정렬되는 데, 상기 동적정렬부(200)는 먼저 원어민 화자개발용 음성 데이터를 음소인식부(202)에서 인식하여 나온 인식음소열(n1)과, 원어민 화자개발용 텍스트 데이터를 표준음소열부(204)에서 전사한 표준음소열(n2)을 원어민동적프로그래밍부(220)의 동적계획법에 의해 원어민화자음소를 정렬시킨다. First, the non-direct data-based pronunciation variation modeling method of the first speech recognition system is arranged by the
둘째 타 언어권 화자개발용 음성 테이터에 대해서도 또한 상기 동적프로그 래밍부(220)의 동적계획법에 의해 정렬시킨 방법과 마찬가지로 정렬시킨다. 즉 타언어권 화자개발용 음성 데이터를 음소인식부(201)에서 인식하여 나온 인식음소열(e1)과, 타언어권 화자개발용 텍스트 데이터를 표준음소열부(203)에서 전사한 표준음소열(e2)을 타언어권 동적프로그래밍부(210)의 동적계획법에 의해 타언어권 화자음소를 정렬시킨다. Secondly, the voice data for the development of other language speakers is also arranged in the same manner as the method of arranging by the dynamic programming method of the
세째 상기 원어민화자음소 동적프로그래밍부(210) 및 타언어권 화자음소 동적프로그래밍부(220)의 동적계획법에 의해 각각 정렬된 결과가 되는 정렬후 변이가 일어나는 변이음소열(v1, v2)을 변이음소 규칙생성기(230)에 입력하여서 변이음소열패턴을 획득한다. Third, the transitional phoneme strings v1 and v2, which are rearranged results obtained by the dynamic programming of the native speaker phoneme
네째 상기 변이음소열 패턴을 합하여 변이음소규칙생성기(230)에 입력시키게 되면, 상기 변이음소규칙생성기(230)는 음소결정트리를 이용하여 변이음소열패턴으로부터 음소변이규칙(Pronunciation variation rule)을 생성한다. 다시 말해 비직접적 데이터 기반의 음소변이규칙은 상기 변이음소규칙생성기(230)에서 발음변이가 일어나는 변이음소열패턴으로 음소결정트리(도 6에서 상세히 설명됨)를 이용하여 생성한다.When the mutation
마지막으로 상기 변이음소규칙생성기(230)의 비직접적 데이터 기반의 음소변이규칙에 따라서 발음변이열(vp)가 생성되고, 표준발음사전적응부(240)를 거쳐 상기 원어민화자음소 및 타언어권 화자음소에 대한 새로운 다중 발음사전을 생성한다. Lastly, a pronunciation variation string vp is generated according to the non-direct data-based phoneme mutation rule of the
그후 상기 생성된 변이음소(vpd)가 발음사전부(254)에 저장되고, 상기 발음 사전부(254)에서 저장된 변이음소(vpd, 또는 d1)가 음향모델부(230) 및 언어모델부(255)로부터 각각 출력된 음향데이터(d2) 및 언어데이터(d3)와 결합하여 패턴매칭부(260)에서 패턴매칭됨으로써, 원어민 화자음성에 대한 인식성능 저하 없이 타 언어권 화자음성에 대한 인식성능을 향상시킨다. The generated variation phoneme vpd is stored in the
본 발명의 타 언어권 화자에 의한 음성인식을 위하여 타 언어권 화자음성에 대한 비직접적 데이터 기반으로 발음변이 모델링하는 방법은 VLSI 칩, SoC의 IP 및 내장한 소프트웨어로 구현될 수 있다.A method for modeling pronunciation variation based on a non-direct data base on speech of a non-native speaker for speech recognition by a non-native speaker of the present invention VLSI chip, IP of SoC, and embedded software.
이제 본 발명의 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링 방법에 관하여, 1.음소인식과 정렬절차에서는 동적정렬부의 동적계획법에 의해 정렬시킨 단계를 설명하고, 2.음소결정트리를 이용한 규칙 추출 및 발음사전 적응절차에서는 음소열패턴을 획득단계, 음소패턴으로 음소결정트리를 이용하여 음소변이규칙을 생성하는 단계, 및 표준발음사전적응부에 적용하여 새로운 다중 발음사전을 생성하는 단계를 각각 자세히 설명하고, 또한, 3.상기 음소인식절차와 음소인식과 정렬절차에 따라 음성인식 시스템에 적용한 발음사전에 대한 인식성능을 비교하여 평가한다.Now, the non-direct data-based pronunciation variation modeling method of the speech recognition system of the present invention will be described. 1. Phoneme recognition and alignment procedures are described by dynamic programming of dynamic arrangements. 2. Rule extraction using phoneme decision tree And a pronunciation dictionary adaptation procedure includes steps of acquiring a phoneme string pattern, generating a phoneme mutation rule using a phoneme tree with a phoneme pattern, and generating a new multi-phonetic dictionary by applying the phoneme mutation rule to the standard pronunciation dictionary adaptation unit 3. The recognition performance of the phonetic dictionary applied to the speech recognition system according to the phoneme recognition procedure, phoneme recognition and alignment procedure is compared and evaluated.
1.음소인식과 정렬절차1. Phoneme recognition and alignment procedure
도 3은 본 발명의 비직접적 데이터 기반의 발음변이 모델링에서 사용되는 음 소리스트를 나타내는 테이블로서, 해당 로마자 발음기호에 대하여 전사하는 한글 발음기호를 나타낸다. FIG. 3 is a table showing the sound list used in the pronunciation variation modeling of the non-direct data base of the present invention, and shows a Hangul pronunciation symbol transcribed to the Roman pronunciation symbol.
본 발명의 발음변이 모델링 방법에서 먼저 타 언어권 화자개발용 음성 데이터와 원어민 화자개발용 음성 데이터를 음성인식시스템(100)을 이용하여 발음모델링 하기위해 어휘 연속의 음소 리스트를 참조한다. In the pronunciation variation modeling method of the present invention, a phoneme list of vocabulary consecutive is referred to in order to model speech by using the speech recognition system 100 for speech data for development of a non-native speaker and speech data for native speaker development.
도 3에서 예시된 바와 같이, 예를 들면 한국어 연속 음성인식시스템를 이용하여 음소인식을 실시하는 경우, 도 2의 음성인식시스템(100)의 음소인식부(202)에서 음소인식에 사용된 음향모델의 트라이폰 모델은 10,138개이고, 사용된 음소는 9개의 단모음과 12개의 이중모음 묵음을 합한 중성모음 21개와, 초성과 종성으로 이루어진 자음 19개를 포함한 총 40개의 음소이며, 음소인식을 위해서 백오프비그램(back-off bigram) 언어모델을 사용한다. 여기서 백오프비그램 언어모델은 색인 과정에서 동일한 단어이지만 색인 대상의 두 단어 사이의 유사도를 측정하여 임계값 이상을 넘으면 같은 부류로 판단하는 모델이다.3, when the phoneme recognition is performed using, for example, a Korean continuous speech recognition system, the
다시 도 2를 참조하면, 본 발명에 따른 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링 방법은, 음소인식으로 얻은 결과 음소열(e1,n1)과 표준음소열(e2,n2)을 동적계획법(dynamic programming algorithm)을 이용하여 정렬하면, 대응되는 음소들은 다음의 수학식 1과 같은 음소패턴을 나타낸다.Referring to FIG. 2 again, the non-direct data-based pronunciation variation modeling method of the speech recognition system according to the present invention is a method of modeling phoneme strings (e1, n1) and standard phoneme strings (e2, dynamic programming algorithm), the corresponding phonemes represent the phoneme patterns as shown in the following Equation (1).
[수학식 1][Equation 1]
(여기에서 L1과 L2는 표준음소열의 왼쪽 음소들, R 1 과 R 2 는 표준음소열(e2,n2)의 오른쪽 음소들을 나타내고, 또한 X 는 표준음소열(e2,n2)의 음소로 음소인식한 결과 음소열(v1,v2)의 음소인 Y 에 대응된다.) (Where L1 and L2 are the left phonemes of the standard phoneme string, R 1 and R 2 are the right phonemes of the standard phoneme string (e2, n2), and X is the phoneme of the standard phoneme string (e2, n2) One result corresponds to the phoneme Y of the phoneme string v1, v2.)
다만 상기 수학식 1과 같은 음소패턴으로 나타낸 발음변이 모델링 방법으로 음소열을 획득할 경우, 자유로운 변이음소를 획득할 수 있지만 인식시스템(100) 자체의 오류가 빈번하게 발생하고, 또 변이음소에 의한 오류인지 아니면 음성인식시스템 자체 오류인지를 구분하기가 어려운 경우가 있다. 따라서 본 발명의 실시예에서는 이러한 문제들을 두 가지 방법으로 보완하였다.However, when a phoneme string is acquired by the pronunciation variation modeling method represented by the phoneme pattern shown in Equation (1), it is possible to acquire a free variation phoneme, but errors of the recognition system 100 itself are frequently generated, It may be difficult to distinguish between an error or a speech recognition system itself error. Thus, the embodiments of the present invention have solved these problems in two ways.
첫째 보완방법은 음소인식의 인식시스템(100) 자체 오류를 줄이기 위해서 비터비 알고리듬을 이용한 탐색에서 100개의 결과를 이용한 결과, 음소 인식률이 71.5%에서 76.8%로 올랐다. 다음 보완방법으로, 인식시스템(100) 자체 오류인지 변이음소에 의한 오류인지를 분류하기 위해서 표준음소열(e2,n2)의 한 음소에 대해 이웃하는 음소들과 결과 음소열에 대응되는 음소의 이웃하는 음소들 중 절반 이상이 동일할 경우에만 음소패턴으로 사용한 결과, 음소 인식률이 크게 올랐음을 확인하였다. In order to reduce the error of the recognition system 100, the first method of complementing 100 results in the search using the Viterbi algorithm, the phoneme recognition rate increased from 71.5% to 76.8%. In order to classify whether the recognition system 100 itself is an error or an error due to a mutated phoneme, a method of interpolating neighboring phonemes of a standard phoneme string (e2, n2) and a phoneme corresponding to a phoneme corresponding to a resultant phoneme string As a result of using the phoneme patterns only when more than half of the phonemes are the same, the recognition rate of phonemes is significantly increased.
도 4는 도 2에 예시된 동적정렬부에 의한 정렬을 표현하는 테이블로서, 도 3에 나타낸 바와 같은 표준음소리스트를 표준열(reference sequence)로 하여 음소인식한 결과 음소열을 동적프로그래밍에 의해 정렬시킨 예를 테이블로 보여주고 있다. FIG. 4 is a table expressing the arrangement by the dynamic arranging unit illustrated in FIG. 2, in which a phoneme sequence obtained by phoneme recognition using a standard phoneme list as shown in FIG. 3 as a reference sequence is sorted The table shows an example.
도 4를 참조하면, 도 2에 도시된 상기 동적정렬부(200)에서 인식된 음소에 있어서는, 음소열에서 단어 내에서 일어나는 발음변이와 단어와 단어 사이에 일어나는 발음변이가 다르므로 단어와 단어 사이의 경계를 표시한다. 각 단어의 경계에 도 4에서 보는 것과 같이 @ 마크로 표시하였다. Referring to FIG. 4, in the phoneme recognized by the
상기 동적정렬부(200)에서 표준음소열부(204)은. 예를 들면 동적정렬부에 의한 정렬을 표현하는 것으로, 한국어 "그래서 여러 가지로 의미가 깊은 달이기 때문입니다." 에 대해서 변이하는 경우를 예로 들수 있다. In the
즉 표준음소열의 예로는 화자의 대표발음에 따라 표현되는 대표(canocial) 음소열, 화자의 음성이 바뀌어 표현되는 지식기반 음소열, 화자의 발음이 직접적으로 전사하는 직접작업(hand-helded)하는 음소열에 의해 얻어진 3개의 표준음소열(reference sequence)과, 이들 표준음소열에 대하여 음소인식가능하게 정렬한 대체가능한 음소열이 표현된다.Examples of the standard phoneme sequence include a canadian phoneme sequence represented by a representative pronunciation of the speaker, a knowledge-based phoneme sequence in which the speaker's voice is changed, a hand-held phoneme in which the pronunciation of the speaker is directly transferred Three standard reference sequences obtained by the column and replaceable phoneme sequences aligned phonemically with respect to these standard phoneme strings are represented.
도 4에 있어서 대표 음소열은 도 3과 같이 한국어의 각 음소들을 로마자에 대응시킨 것이다. 지식기반의 음소열은 한국어 표준발음법에 의거하여 음소변동 규칙을 적용하여 생성한 음소열이다. 직접전사음소열은 사람이 직접 듣고 발음 나는 대로 전사한 음소열이다. 또 대체음소열은 발음규칙생성기(230)에서 발음되는 음성의 인식결과 대체할수 있는 대체음소열이다. In Fig. 4, the representative phoneme string corresponds to each phoneme in Korean as shown in Fig. 3. The knowledge base phoneme sequence is a phoneme sequence generated by applying the phoneme variation rule based on the Korean standard pronunciation method. The direct transcriptional phoneme sequence is a phoneme sequence that is pronounced by the person and is pronounced by the person. The alternative phoneme string is a substitute phoneme string that can replace the recognition result of the voice to be pronounced in the
도 5는 도 4에서 예시된 동적정렬부에 의한 음소열을 기준으로 추출한 음소규칙패턴을 나타내는 테이블이다. 5 is a table showing a phoneme rule pattern extracted based on a phoneme string by the dynamic arrangement unit illustrated in FIG.
도 5를 참조하면 인식시스템 자체 오류에 의한 음소패턴을 제거하기 위한 방 법에 따라 상기 수학식 (1) 을 사용하여 얻은 결과 규칙패턴은, 예컨대 도 4의 정렬테이블에 기재된 한국어 "@달이기@"에 해당하는 음소패턴이 제거된다. 즉 상호 이웃하고 있는 음소의 절반이상이 상이한 경우 규칙패턴 리스트에서 하나의 규칙패턴이 제거됨을 이해할 수 있다. Referring to FIG. 5, according to a method for removing a phoneme pattern due to a recognition error of the recognition system, For example, the phoneme pattern corresponding to the Korean word " @ " described in the alignment table of FIG. 4 is removed. That is, when more than half of mutually neighboring phonemes are different, one rule pattern is removed from the rule pattern list.
예를 들면 도 5에 있어서 하나의 음소규칙패턴이 되는 d-a-l+i+g - > l 이 제거되는 것이고, 이는 음소규칙패턴의 대체발음열 전사 'Dylegi' 에 비교하는 경우 비교되는 음소열 6개 가운데 음소 'd' , 'a' , 및 'i' 가 상이하기 때문이다. 즉 이웃하는 음소의 절반 이상이 상이하면 음소인식부에서 발생하는 오류로서 판단되므로, 다음에 오는 부분에서 기재되는 음소결정트리의 구성으로 사용될 수 없음을 확인할 수 있다. For example, in Fig. 5, da-l + i + g -> l, which is one phoneme rule pattern, is removed. This is because the phoneme string 6 Because the phonemes 'd', 'a', and 'i' are different. That is, if the number of neighboring phonemes is different by more than half, it is determined that the phoneme recognition unit generates an error, so that it can be confirmed that the phoneme determination tree can not be used as the structure of the phoneme determination tree described in the following section.
2. 음소결정트리를 이용한 규칙 추출 및 발음사전2. Rule extraction and pronunciation dictionary using phoneme decision tree
도 6은 비직접적 데이터 기반 발음변이 모델링 방법에 의한 음소결정트리를 예시한다. 도 6의 음소결정트리를 이용하여 변이음소규칙생성기(230)에서 음소변이규칙을 추출하는데 이 음소결정트리에는 CART, CHAID, 그리고 C4.5 프로그램 방법 중 어느 하나를 사용할 수 있다. 본 발명의 실시예에서는 C4.5라는 음소결정트리 프로그램을 사용하였다. 6 illustrates a phoneme determination tree by a non-direct data-based pronunciation variation modeling method. The phoneme variation rules are extracted by the
이 C4.5 음소결정트리 프로그램은 기존의 ID3 알고리즘을 확장한 것으로 J. Ross Quinlan에 의해 만들어졌다. C4.5 음소결정트리 프로그램은 CART와 같이 이진분리를 하지 않고 가지의 수를 다양화할 수 있다. C4.5 음소결정트리 프로그램은 연속변수에 대해서는 CART와 비슷한 방법을 사용하지만 범주형에서는 다른 방법을 사용한다. This C4.5 phoneme tree program was developed by J. Ross Quinlan as an extension of the existing ID3 algorithm. C4.5 The phoneme tree program can vary the number of branches without binary separation like CART. C4.5 The phoneme tree program uses a method similar to CART for continuous variables, but uses a different method for categorical types.
다시 말해 본 발명에서는 음소인식과 정렬절차에 의해서 도 4와 같이 동적프로그래밍을 이용한 표준음소열의 예에 따라 정렬 후 생성된 음소패턴으로 C4.5 음소결정트리를 통해 음소변이규칙을 추출하였다. In other words, according to the present invention, the phoneme mutation rules are extracted through the C4.5 phoneme decision tree by the phoneme pattern generated after the alignment according to the example of the standard phoneme sequence using the dynamic programming by the phoneme recognition and alignment procedure as shown in FIG.
C4.5 음소결정트리의 분리기준은 통계적 클래스(statistical classifier)를 이용하며 음소 X 의 좌우 음소들로, 왼쪽 음소 두개와 오른쪽 음소 두개를 각각 분리기준으로 선택하였다. Separation based on the C4.5 phoneme decision tree was used for statistical class (statistical classifier) and selected with the left and right phonemes of the phoneme X, separating the left and right phoneme phoneme two each two items.
즉, 상기 수학식 (1) 에 있어서 표준음소열 L 1, L 2, R 1, 그리고 R 2 가 분리기준이다. C4.5 음소결정트리 프로그램에 의한 결과 클래스는 수학식 (1)에서 Y 로 표시되는 결과 음소열의 대응되는 음소이다. 표준음소열 L 1, L 2, R 1, 그리고 R 2는 도 4에 도시된 정렬테이블에서 40개 음소들이 각각 사용되었다. That is, in Equation (1) The standard phoneme strings L 1 , L 2 , R 1 , and R 2 are separation criteria. The result class by the C4.5 phoneme tree program is the corresponding phoneme in the resultant phoneme string indicated by Y in Equation (1). The standard phonemes L 1 , L 2 , R 1 , and R 2 have 40 phonemes in the alignment table shown in FIG. 4, respectively.
C4.5 음소결정트리 프로그램에 맞는 형식으로 음소결정트리를 만들고 제공되는 옵션으로 규칙을 만들면, 각 음소결정트리는 뿌리에서 각 트리의 리프까지 역추적하여 규칙을 생성한다(도 6참조). C4.5 Phoneme Decision Tree If you create a phoneme decision tree in a format appropriate to your program and create rules with the options provided, each phoneme decision tree generates a rule by tracing back from the root to the leaf of each tree (see FIG. 6).
도 6은, 예컨대 음소 'ㅋ(k)' 에 대한 음소결정트리를 생성한 예이다. C4.5 음소결정트리 프로그램을 이용한 'ㅋ(k)'에 대한 음소패턴으로 생성한 음소결정트리에서 결과 클래스의 노드는 'k'와 'g'이며 이는 분리기준 L1과 R1에 의해 결정된다. FIG. 6 is an example of generating a phoneme determination tree for the phoneme 'k'. C4.5 Phoneme Decision Tree In the phoneme decision tree generated by the phoneme pattern for 'k (k)' using the program, the nodes of the result class are 'k' and 'g', which are determined by the separation criteria L 1 and R 1 do.
도 6의 음소결정트리는 아래 알고리즘 표현예 1에 의해서 탐색되어 결정되는 음소결정트리로서, 표현예 1에서 보는 바와 같이, 표준음소열 L1이 'n' 또는 'jv'이거나 표준음소열 L1이 'a' 또는 'ⓐ'이고 표준음소열 R1이 'v' 또는 'U'이면, 결과 클래스의 노드는 'k'가 'g'로 바뀐다. The phoneme decision tree of FIG. 6 is a phoneme decision tree determined and searched by the following Algorithm expression example 1, in which the standard phoneme string L 1 is 'n' or 'jv' or the standard phoneme string L 1 If 'a' or 'ⓐ' and the standard phoneme string R 1 is 'v' or 'U' then the node of the result class will be changed from 'k' to 'g'.
[표현예 1][Expression 1]
또 음소 'ㅋ(k)'의 음소결정트리를 C4.5 음소결정트리 프로그램에서 제공하는 옵션에 따라 규칙을 추출하면 다음과 같은 규칙을 얻을 수 있다.In addition, if the rule is extracted according to the options provided by the C4.5 phoneme tree program of the phoneme decision tree of the phoneme 'k (k)', the following rules can be obtained.
Rule N :Rule N :
R 1 = 'v' -> class 'g' [Rule Accuracy] R 1 = 'v'-> class 'g' [Rule Accuracy]
Default: class 'k' Default: class 'k'
(여기서 N은 규칙 번호이고 음소 'ㅋ(k)'에 대한 규칙에서 N=1이다.) (Where N is the rule number and N = 1 in the rule for phoneme 'k (k)').
상기와 같은 규칙에 있어서 규칙정확도[Rule Accuracy]는 음소'ㅋ(k)'에 대한 모든 음소패턴들이 생성된 규칙에 적용되는 상대적 빈도수를 나타낸다. 음소패턴 중 생성된 규칙에 적용되는 것이 없는 경우에 디폴트(Default)가 적용된다. 음소변이규칙을 효과적으로 추출하기 위해서 규칙정확도를 통한 가지치기(pruning)를 수행하고 본 실험에서는 25%를 문턱값으로 사용하였다. In the above rule, the rule accuracy [Rule Accuracy] represents the relative frequency applied to the rule in which all the phoneme patterns for the phoneme 'k (k)' are generated. The default is applied when there is nothing to be applied to the generated rule of the phoneme pattern. In order to effectively extract the phoneme rules, we used pruning rule accuracy and used 25% as a threshold value in this experiment.
마지막으로, 도 2에 도시된 음성인식 시스템에 있어서 표준발음사전적응부(240)는 가지치기 된 규칙을 발음사전부(254)에 적용한다. 상기 발음사전부(254)는 단어와 그 단어에 대응되는 음소열로 구성되어 있다. 음소열에서 규칙을 통한 변이음소가 생성되면 발음사전부(254)에서 표준발음사전의 음소열에 변이음소의 음소열을 추가하여 새로운 발음사전을 생성한다. Lastly, in the speech recognition system shown in FIG. 2, the standard pronunciation
예를 들어 '커지다' 라는 단어의 표준음소열이 'k v z i d a'일 때 첫 음소인 'ㅋ'가 수학식 3의 규칙에 적용되므로 음소'ㅋ'는 음소'g'로 바뀔 수 있다. 따라서 'g v z i d a'라는 발음변이음소열을 얻을 수 있고, 이를 추가하여 새로운 발음사전을 생성할 수 있다.For example, when the standard phoneme string of 'bigger' is 'k v z i d a', the first phoneme 'k' applies to the rule of Equation 3, so that the phoneme 'k' can be changed to the phoneme 'g'. Thus, the phoneme string 'g v z i d a' can be obtained, and a new phonetic dictionary can be created by adding it.
3. 발음사전 적응절차의 성능 평가 3. Performance evaluation of pronunciation dictionary adaptation procedure
이제 본 발명의 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링 시스템 및 방법에 의한 발음사전 적응절차를 사용하여 타 언어권 및 원어민 화자음성인식한 인식 성능을 도 7, 8 및 9를 참조하여 평가한다. 7, 8, and 9, recognition performance of speech recognition in other languages and native speakers is evaluated using the pronunciation dictionary adaptation procedure by the non-direct data-based pronunciation variation modeling system and method of the speech recognition system of the present invention.
도 7은 본 발명의 음성인식 시스템에서 발음사전을 사용하였을 때에 오인식되는 단어오인식률로서 표시되는 인식 성능의 예를 그래프로 나타낸다. FIG. 7 is a graph showing an example of recognition performance displayed as a word recognition rate which is mistaken when a phonetic dictionary is used in the speech recognition system of the present invention.
도 7 을 참조하면, 본 발명의 발음사전 적응절차규칙에 있어서 발음사전부(254)로는 3가지를 사용하였는데, 대표 음소열, 지식기반, 그리고 직접전사 한 발음사전이다. 이들 사전을 타 언어권 화자음성인식에 사용하였을 때 단어 오인식률이 각각 28.33%, 27.73%, 그리고 27.73% 이었고, 원어민 화자음성인식에 사용하였을 때는 각각 43.47%, 34.43%, 그리고 35.00% 이다. Referring to FIG. 7, in the pronunciation dictionary adaptation procedure rule of the present invention, three
도 7에서 설명된 바와 같이 도 2에 예시된 동적정렬부에 의한 정렬에 따르면 단어오인식률(%)은 원어민 화자 테스트 음성의 경우 대용량 연속 음성인식이므로 타 언어권 화자음성인식 보다 높은 단어오인식률을 보이지만 실제 같은 테스트 음성 데이터의 경우 타 언어권 화자음성인식의 단어오인식률이 훨씬 높게 됨을 확인할 수 있다. As described in FIG. 7, according to the arrangement by the dynamic arranging unit illustrated in FIG. 2, the word recognition rate (%) is higher than that of the other speaker speech recognition because it is a large capacity continuous speech recognition in the case of native speaker test speech In the case of actual test voice data, it is confirmed that the word recognition rate of the voice recognition of the other speaker is much higher.
도 8은 원어민 화자음성으로만 적용된 발음사전과 타 언어권 화자음성으로만 적용된 발음사전을 사용하였을 때의 인식 성능의 예를 테이블로 나타낸다. FIG. 8 is a table showing examples of recognition performance when a phonetic dictionary applied only to a native speaker voice and a phonetic dictionary applied only to a non-native speaker voice are used.
도 8에서 타 언어권 화자 규칙에 의한 발음사전을 사용하였을 때의 타 언어권 화자 테스트 음성은 대표 음소열일 때 단어 오인식률이 22.87%, 지식기반인 경우 22.40%, 그리고 직접 전사의 경우에는 22.33%로 앞에서 언급한 기준 사전에 비해 각각 5.46%, 5.33%, 그리고 5.4%의 단어 오인식률 감소를 보였다. In FIG. 8, when a phonetic dictionary according to a non-native speaker rule is used, the speech recognition rate of the non-native speaker test voice is 22.87% for the representative phoneme string, 22.40% for the knowledge base, and 22.33% 5.46%, 5.33%, and 5.4%, respectively, compared to the reference dictionary mentioned above.
반면 원어민 화자 테스트 음성의 단어 오인식률은 대표 음소열일 때 46.65%, 지식기반의 경우 36.19%, 그리고 직접 전사의 경우 34.94%로 기준 사전에 비해 그대로이거나 오히려 더 성능이 저하되는 것을 볼 수 있다. 마찬가지로 원어민 화자 규칙에 의한 발음사전을 사용하였을 때는 원어민 화자 테스트 음성에 대해서는 성능이 향상되지만 타 언어권 화자 테스트 음성에 대해서는 타 언어권 화자 규칙을 사용했을 때보다 성능이 적게 향상되는 것을 볼 수 있다. On the other hand, the word recognition rate of the native speaker test voice is 46.65% at the representative phoneme, 36.19% at the knowledge base, and 34.94% at the direct phonetic level. Likewise, when the pronunciation dictionary according to the native speaker rule is used, the performance of the native speaker test voice improves, but the performance of the other language speaker test voice improves less than that of the other language speaker rules.
도 8 및 도 9를 참조하면, 원어민 화자음성으로만 개발한 음소변이규칙을 사용한 경우를 '원어민 화자 규칙'이라고 하였고, 타 언어권 화자음성만으로 개발한 음소변이규칙을 사용한 경우에는 '타 언어권 화자 규칙'이라고 하였다. 또한 원어민 화자와 타 언어권 화자의 음성을 모두 사용하여 개발한 음소변이규칙을 '결합규칙' 이라고 명명하였다. 또한 각각의 표준 전사는 대표 음소열, 지식기반, 직접 전사로 나누어서 각각의 인식한 결과 단어 오인식률을 보여 준다.8 and 9, when the phoneme mutation rule developed only for the native speaker voice is used, it is referred to as a 'native speaker rule', and in the case of using the phoneme mutation rule developed only by the voice of a non-native speaker, "He said. In addition, the phoneme mutation rule developed using both the native speaker and the voice of another linguistically speaking speaker is called a 'binding rule'. In addition, each standard transcription is divided into a representative phoneme sequence, a knowledge base, and a direct transcription.
도 9는 원어민 화자 규칙과 타 언어권 화자 규칙을 모두 사용한 결합규칙을 적용하였을 때에 인식 성능의 예를 보여 준다. 도 9를 참조하면, 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링 방법에서 결합규칙을 사용하여 적응한 발음사전(254)을 타 언어권 화자 테스트 음성을 인식한 결과, 단어 오인식률은 대 표 음소열을 표준 전사로 사용한 경우에 22.40%, 지식기반의 경우 23.53%, 그리고 직접 전사의 경우 22.60%로 타 언어권 화자 규칙을 적용한 경우와 비슷한 결과를 얻을 수 있었다. 또한 원어민 화자 테스트 음성을 인식한 결과도 각각 39.49%, 35.40%, 그리고 34.60% 로 원어민 화자 규칙을 적용했을 때와 거의 유사하게 나오는 것을 볼 수 있다. FIG. 9 shows an example of recognition performance when a combination rule using both native speaker rules and non-native speaker rules is applied. Referring to FIG. 9, in the non-direct data-based pronunciation variation modeling method of the speech recognition system, recognition results of the speech
따라서 본 발명의 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링 시스템 및 방법을 통해서 타 언어권 화자음성인식뿐만 아니라 원어민 화자음성인식의 성능도 향상과 비직접적 데이터 기반 방법으로 새로운 단어에 대한 발음변이도 생성할 수 있음을 확인할 수 있다. Therefore, through the non-direct data-based pronunciation variation modeling system and method of the speech recognition system of the present invention, it is possible to improve the performance of the native speaker speech recognition as well as the non-native speaker speech recognition, .
앞서 설명한 본 발명의 상세한 설명에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자 또는 해당 기술분야에 통상의 지식을 갖는 자라면 후술될 특허청구범위에 기재된 본 발명의 사상 및 기술 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.While the present invention has been described in connection with what is presently considered to be practical exemplary embodiments, it is to be understood that the invention is not limited to the disclosed embodiments, but, on the contrary, It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims.
도 1은 본 발명에 의한 연속 음성인식 시스템의 구성을 나타내는 도면.BRIEF DESCRIPTION OF THE DRAWINGS Fig. 1 is a diagram showing a configuration of a continuous speech recognition system according to the present invention. Fig.
도 2는 도 1에 예시된 음성인식 시스템의 비직접적 데이터 기반 발음변이 모델링과정을 설명하는 구성도.FIG. 2 is a diagram illustrating a non-direct data-based pronunciation variation modeling process of the speech recognition system illustrated in FIG. 1;
도 3은 본 발명의 비직접적 데이터 기반 발음변이 모델링에서 발음사전을 모델링한 구성을 음성별로 나타내는 테이블, FIG. 3 is a table showing voice-by-voice configuration of the pronunciation dictionary modeling in non-direct data-based pronunciation variation modeling of the present invention,
도 4는 도 2에 예시된 동적정렬부에 의한 정렬한 예를 표현하는 테이블,FIG. 4 is a table representing an example of alignment by the dynamic alignment unit illustrated in FIG. 2,
도 3은 본 발명에서 제안하는 타 언어권 화자의 음성 데이터와 원어민 화자의 음성 데이터를 이용한 비직접적 테이터 기반 방법의 발음변이 모델링 방법을 나타내는 도면.3 is a diagram illustrating a pronunciation variation modeling method of a non-direct data-based method using voice data of a non-native speaker and voice data of a native speaker suggested in the present invention.
도 5는 도 2에 예시된 동적정렬부에 의한 정렬표를 기준으로 추출한 음소패턴의 예를 나타내는 테이블, FIG. 5 is a table showing examples of phoneme patterns extracted based on the alignment table by the dynamic alignment unit illustrated in FIG. 2,
도 6은 도 4의 음소패턴테이블에 기초한 음소결정을 트리구조로 나타내는 도면, FIG. 6 is a diagram showing a phoneme determination based on the phoneme pattern table of FIG. 4 in a tree structure;
도 7은 도 2에 예시된 동적정렬부에 의한 정렬시 발음사전에서 단어 오인식율을 나타낸 그래프, FIG. 7 is a graph showing the word recognition rate in the pronunciation dictionary when sorting by the dynamic sorting unit illustrated in FIG. 2,
도 8은 도 2에 예시된 동적정렬부에 의한 정렬시 발음사전 적응절차규칙에 따라 테스트를 나타낸 테이블, FIG. 8 is a table showing a test according to the pronunciation pre-adaptation procedure rule at the time of sorting by the dynamic arranging unit illustrated in FIG. 2;
도 9는 도 8에 예시된 테스트에서 정렬시 발음사전 결합규칙에 따라 테스트 를 나타낸 테이블, 및 FIG. 9 is a table showing the tests according to the pronunciation pre-combination rule at the time of sorting in the test illustrated in FIG. 8; and
도 10은 일반적인 연속 음성인식시스템을 개략적으로 나타내는 블록도이다. 10 is a block diagram schematically showing a general continuous speech recognition system.
<도면의 주요 부분에 대한 부호의 설명>Description of the Related Art
90: 단어단위탐색부 93: 단어모델부90: word unit search unit 93: word model unit
95: 문장단위탐색부 97: 문법부95: sentence unit search unit 97: grammar unit
99: 의미분석부 100: 음성인식 시스템99: Semantic analysis unit 100: Speech recognition system
101: 특징추출부 102: 음성인식부101: Feature extraction unit 102: Voice recognition unit
200 : 동적 정렬부200: dynamic alignment unit
Claims (7)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070127516A KR101424193B1 (en) | 2007-12-10 | 2007-12-10 | System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070127516A KR101424193B1 (en) | 2007-12-10 | 2007-12-10 | System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090060631A KR20090060631A (en) | 2009-06-15 |
KR101424193B1 true KR101424193B1 (en) | 2014-07-28 |
Family
ID=40990340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070127516A KR101424193B1 (en) | 2007-12-10 | 2007-12-10 | System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101424193B1 (en) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101250897B1 (en) * | 2009-08-14 | 2013-04-04 | 한국전자통신연구원 | Apparatus for word entry searching in a portable electronic dictionary and method thereof |
KR102199246B1 (en) * | 2014-11-18 | 2021-01-07 | 에스케이텔레콤 주식회사 | Method And Apparatus for Learning Acoustic Model Considering Reliability Score |
EP3193328B1 (en) | 2015-01-16 | 2022-11-23 | Samsung Electronics Co., Ltd. | Method and device for performing voice recognition using grammar model |
KR102075796B1 (en) * | 2017-11-14 | 2020-03-02 | 주식회사 엘솔루 | Apparatus and method for recognizing speech automatically |
KR102605159B1 (en) * | 2020-02-11 | 2023-11-23 | 주식회사 케이티 | Server, method and computer program for providing voice recognition service |
TWI751642B (en) * | 2020-08-10 | 2022-01-01 | 騰擎科研創設股份有限公司 | Detection system for abnormal sound detection and cause determination |
CN112349294B (en) * | 2020-10-22 | 2024-05-24 | 腾讯科技(深圳)有限公司 | Voice processing method and device, computer readable medium and electronic equipment |
WO2023136490A1 (en) * | 2022-01-11 | 2023-07-20 | 삼성전자 주식회사 | Text search method of heterogeneous language on basis of pronunciation, and electronic device having same applied thereto |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06289894A (en) * | 1993-03-31 | 1994-10-18 | Nippon Telegr & Teleph Corp <Ntt> | Japanese speech recognizing method |
KR20070098094A (en) * | 2006-03-31 | 2007-10-05 | 광주과학기술원 | An acoustic model adaptation method based on pronunciation variability analysis for foreign speech recognition and apparatus thereof |
-
2007
- 2007-12-10 KR KR1020070127516A patent/KR101424193B1/en active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06289894A (en) * | 1993-03-31 | 1994-10-18 | Nippon Telegr & Teleph Corp <Ntt> | Japanese speech recognizing method |
KR20070098094A (en) * | 2006-03-31 | 2007-10-05 | 광주과학기술원 | An acoustic model adaptation method based on pronunciation variability analysis for foreign speech recognition and apparatus thereof |
Also Published As
Publication number | Publication date |
---|---|
KR20090060631A (en) | 2009-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109410914B (en) | Method for identifying Jiangxi dialect speech and dialect point | |
CN110364171B (en) | Voice recognition method, voice recognition system and storage medium | |
KR100486733B1 (en) | Method and apparatus for speech recognition using phone connection information | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
JP5014785B2 (en) | Phonetic-based speech recognition system and method | |
KR101424193B1 (en) | System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition | |
KR102094935B1 (en) | System and method for recognizing speech | |
US10109274B2 (en) | Generation device, recognition device, generation method, and computer program product | |
US9798653B1 (en) | Methods, apparatus and data structure for cross-language speech adaptation | |
CN100354929C (en) | Voice processing device and method, recording medium, and program | |
JP2007047412A (en) | Apparatus and method for generating recognition grammar model and voice recognition apparatus | |
Hadwan et al. | An End-to-End Transformer-Based Automatic Speech Recognition for Qur'an Reciters. | |
KR100669241B1 (en) | System and method of synthesizing dialog-style speech using speech-act information | |
Kayte et al. | A Marathi Hidden-Markov Model Based Speech Synthesis System | |
Azim et al. | Large vocabulary Arabic continuous speech recognition using tied states acoustic models | |
Mehra et al. | Improving word recognition in speech transcriptions by decision-level fusion of stemming and two-way phoneme pruning | |
CN114999447B (en) | Speech synthesis model and speech synthesis method based on confrontation generation network | |
Labied et al. | Moroccan dialect “Darija” automatic speech recognition: a survey | |
JP4595415B2 (en) | Voice search system, method and program | |
JP2974621B2 (en) | Speech recognition word dictionary creation device and continuous speech recognition device | |
Johnson et al. | Leveraging multiple sources in automatic African American English dialect detection for adults and children | |
Baranwal et al. | Improved Mispronunciation detection system using a hybrid CTC-ATT based approach for L2 English speakers | |
JP4733436B2 (en) | Word / semantic expression group database creation method, speech understanding method, word / semantic expression group database creation device, speech understanding device, program, and storage medium | |
Lecorvé et al. | Adaptive statistical utterance phonetization for French | |
Garud et al. | Development of hmm based automatic speech recognition system for Indian english |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20170629 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20180625 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20190702 Year of fee payment: 6 |