KR20160061071A - Voice recognition considering utterance variation - Google Patents

Voice recognition considering utterance variation Download PDF

Info

Publication number
KR20160061071A
KR20160061071A KR1020140163513A KR20140163513A KR20160061071A KR 20160061071 A KR20160061071 A KR 20160061071A KR 1020140163513 A KR1020140163513 A KR 1020140163513A KR 20140163513 A KR20140163513 A KR 20140163513A KR 20160061071 A KR20160061071 A KR 20160061071A
Authority
KR
South Korea
Prior art keywords
speech recognition
module
phoneme
speech
converting
Prior art date
Application number
KR1020140163513A
Other languages
Korean (ko)
Other versions
KR102167157B1 (en
Inventor
황성수
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020140163513A priority Critical patent/KR102167157B1/en
Publication of KR20160061071A publication Critical patent/KR20160061071A/en
Priority to KR1020200129151A priority patent/KR102300303B1/en
Application granted granted Critical
Publication of KR102167157B1 publication Critical patent/KR102167157B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

An embodiment of the present invention relates to a voice recognition method considering pronunciation variation. The voice recognition method includes: a voice input process of receiving a natural language voice signal from a microphone, converting the received natural language voice signal into an electrical signal, and converting the electrical signal to a digital signal in a preprocessing module; a phoneme recognition process of converting the digital signal into a phoneme string by using an acoustic model DB in a voice recognition module; a word string generation process of converting the phoneme string into words by using a language model DB and a pronunciation dictionary DB in the voice recognition module to generate a word string; and a word string output process of outputting the word string from the voice recognition module.

Description

발음 변이를 적용시킨 음성 인식 방법{VOICE RECOGNITION CONSIDERING UTTERANCE VARIATION}BACKGROUND OF THE INVENTION 1. Field of the Invention [0001] The present invention relates to a voice recognition method,

본 실시예는 발음 변이를 적용시킨 음성 인식 방법에 관한 것이다.This embodiment relates to a speech recognition method in which a pronunciation variation is applied.

음성인식은 일반적으로 임의의 단위인 토큰으로 이루어진다. 토큰은 음절, 어절(단어), 형태소, 의사 형태소 등으로 구성될 수 있으며, 토큰에 따라서 단어사전과 언어모델이 결정된다.Speech recognition generally consists of tokens, which are arbitrary units. The token can be composed of a syllable, a word (word), a morpheme, a pseudo-morpheme, and the word dictionary and language model are determined according to the token.

언어모델 학습을 위한 텍스트 데이터의 크기와 종류에 따라서 음절, 어절, 형태소, 의사 형태소 등은 각기 다른 음성 인식 성능을 보일 수 있으며 음성 인식의 성능을 높일 수 있는 토큰을 결정하는 것은 매우 중요하다. 한국어 음성인식에서는 형태소의 단위를 많이 사용하였으며 최근에는 이와 유사하지만 임의의 단위인 의사 형태소의 단위를 많이 사용한다.According to the size and type of text data for language model learning, syllables, phrases, morphemes, pseudo morphemes, etc. can show different speech recognition performance and it is very important to determine tokens that can improve speech recognition performance. In Korean speech recognition, many units of morpheme are used, and in recent years, many units of pseudo morpheme, which is an arbitrary unit, are used.

의사 형태소 토큰 분리에는 Morfessor tool이 많이 사용되고 있으며 이 방식에서는 최대우도추정(Maximum Likelihood; ML) 방식과 최소 서술 길이(Minimum Description Length; MDL) 알고리즘을 기반으로 비감독(Unsupervised) 자동 형태소 분석을 구현한다.In this method, unsupervised automatic stemming analysis is implemented based on maximum likelihood (ML) and minimum description length (MDL) algorithms. .

그러나 이는 고도 굴절어(Finnish, Turkish, Estonia)와 결합어(German, Swedish, Greek)를 위해서 고안되었기 때문에 한국어 음성 인식을 위해서 한국어의 특성을 반영하지 않아 일부 적합하지 않은 부분이 있다.However, this is not suitable for Korean speech recognition because it was devised for Finnish, Turkish, Estonia and combined words (German, Swedish, Greek).

특히 한국어에서는 앞음절에 따라 뒷음절의 발성이 달라지는 현상이 빈번하게 발생하고, 발음의 변이를 고려하지 않고 토큰을 분리할 경우에 특정 발음의 손실로 인해 음성 인식이 되지 않는 문제가 자주 발생한다.Especially in Korean, frequent occurrences of the vowel of the back syllable vary according to the syllable, and when the tokens are separated without considering the variation of the pronunciation, a problem that speech recognition is not performed due to loss of specific pronunciation frequently occurs frequently.

예컨대, '학생이 교실을' 텍스트를 '학생이 교실 을'로 토큰 분리했을 때 토큰에 대한 발음이 "학쌩이 교실 을"이 되므로, "교시를"이라는 발음이 손실되어 "교시를"이 인식이 되지 않는다.For example, if the student pronounces the classroom text as a token separation of the student into the classroom, the pronunciation of the token becomes "classroom classroom", so the pronunciation of "classroom" .

본 실시예는 음성 인식 방법에서 대상 언어의 텍스트를 최소 서술 길이(Minimum Description Length; MDL) 알고리즘을 이용하여 규칙성에 대한 정보를 찾아서 토큰을 분리하고, 최대우도추정(Maximum Likelihood; ML) 방식을 기반으로 코스트를 계산하는 기존의 방식에 더하여, 앞음절에 따라서 뒷음절의 발성이 달라지는 발음 변이 현상을 적용해서 발음 손실을 고려한 코스트 계산 방식을 사용하며, 이를 바탕으로 분리된 토큰에 의하여 발음사전과 언어모델을 구축하고 음성을 인식하는 발음 변이를 적용시킨 음성 인식 방법을 제공하는데 주된 목적이 있다.In this embodiment, in the speech recognition method, the text of a target language is searched for information on regularity using a minimum description length (MDL) algorithm, tokens are separated, and a maximum likelihood (ML) In addition to the conventional method of calculating the cost, the pronunciation calculation method that takes the pronunciation loss into consideration by applying the pronunciation variation phenomenon in which the voicing of the back syllable varies according to the preceding syllable is used. Based on this, And a speech recognition method in which a pronunciation variation which recognizes a speech is applied is provided.

본 실시예의 일 측면에 의하면, 마이크로폰에서 자연어 음성 신호를 입력 받은 후 전기 신호로 변환하고, 전처리 모듈에서 상기 전기 신호를 디지털 신호로 변환하는 음성 입력 과정; 음성 인식 모듈에서 상기 디지털 신호를 음향모델 DB를 이용하여 음소(phoneme)열로 변환하는 음소 인식 과정; 상기 음성 인식 모듈에서 상기 음소열을 발음사전 DB와 언어모델 DB를 이용하여 단어들로 변환하여 단어열을 생성하는 단어열 생성 과정; 상기 음성 인식 모듈에서 상기 단어열을 출력하는 단어열 출력 과정을 포함하는 것을 특징으로 하는 발음 변이를 적용시킨 음성 인식 방법을 제공한다.According to an aspect of the present invention, there is provided a speech input method, comprising: inputting a natural speech signal in a microphone, converting the speech signal into an electrical signal, and converting the electrical signal into a digital signal in a pre- A phoneme recognition process of converting the digital signal into a phoneme string using an acoustic model DB in a speech recognition module; A word string generating step of generating a word string by converting the phoneme string into words using a pronunciation dictionary DB and a language model DB in the speech recognition module; And a word string outputting step of outputting the word string in the speech recognition module.

또한, 본 실시예의 다른 측면에 의하면, 마이크로폰에서 자연어 음성 신호를 입력 받은 후 전기 신호로 변환하고, 전처리 모듈에서 상기 전기 신호를 디지털 신호로 변환하는 음성 입력 과정; 음성 인식 모듈에서 상기 디지털 신호를 음향모델 DB를 이용하여 음소(phoneme)열로 변환하는 음소 인식 과정; 상기 음성 인식 모듈에서 상기 음소열을 발음사전 DB와 언어모델 DB를 이용하여 단어들로 변환하여 단어열을 생성하는 단어열 생성 과정; 및 상기 음성 인식 모듈에서 상기 단어열을 출력하는 단어열 출력 과정을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.According to another aspect of the present invention, there is provided a speech input method, comprising: inputting a natural speech signal in a microphone, converting the speech signal into an electrical signal, and converting the electrical signal into a digital signal in a pre- A phoneme recognition process of converting the digital signal into a phoneme string using an acoustic model DB in a speech recognition module; A word string generating step of generating a word string by converting the phoneme string into words using a pronunciation dictionary DB and a language model DB in the speech recognition module; And a word string outputting step of outputting the word string in the speech recognition module.

또한, 본 실시예의 다른 측면에 의하면, 상기 마이크로폰에서 전기 신호로 변환되고, 상기 전처리 모듈에서 디지털 신호로 변환된 자연어 음성 신호를 후술하는 데이터베이스 모듈을 참조하여 음소열로 변환시키고, 다시 상기 데이터베이스 모듈을 참조하여 상기 음소열을 단어들로 변환하여 단어열을 생성하여 출력하는 음성 인식 모듈; 다수의 어절로 이루어진 자연어 텍스트를 입력 받아 상기 자연어 학습 과정을 거쳐서 생성된 데이터를 이용해 상기 데이터베이스를 구축하는 언어 학습 모듈; 상기 음성 인식 모듈이 자연어 음성 신호를 음소로 변환시키는데 필요한 데이터 및 상기 음성 인식 모듈이 음소열을 단어열로 변환시키는데 필요한 데이터를 저장하며, 상기 언어 학습 모듈에 의하여 업데이트되는 데이터베이스 모듈을 포함하는 것을 특징으로 하는 발음 변이를 적용시킨 음성 인식 장치를 제공한다.According to another aspect of the present invention, a natural language speech signal converted into an electrical signal by the microphone and converted into a digital signal by the preprocessing module is converted into a phoneme string by referring to a database module described later, A speech recognition module for generating a word string by converting the phoneme string into words and outputting the generated word string; A language learning module that receives a natural language text composed of a plurality of words and constructs the database using data generated through the natural language learning process; And a database module that stores data necessary for the speech recognition module to convert a natural speech signal to a phoneme and data necessary for the speech recognition module to convert a phoneme string to a word string and is updated by the language learning module And a speech recognition unit for recognizing the speech recognition unit.

이상에서 설명한 바와 같이 본 실시예에 의하면, 최소 서술 길이(Minimum Description Length; MDL)와 최대우도추정(Maximum Likelihood; ML) 방식 기반의 토큰 분리 기법에 발음의 손실 코스트를 반영하여 엔트로피 기반의 토큰 분리의 약점을 보강하여 음성인식기를 위한 토크 분리가 가능한 효과가 있다.As described above, according to the present embodiment, entropy-based token separation is performed by reflecting the loss cost of pronunciation in a minimum description length (MDL) and a maximum likelihood (ML) So that the torque can be separated for the voice recognizer.

따라서 본 실시예의 의하면, 발음의 손실을 방지하여 토크를 분리하므로 음성 인식 성능을 향상시킬 수 있는 효과가 있다.Therefore, according to the present embodiment, it is possible to improve the speech recognition performance by separating the torque by preventing loss of pronunciation.

도 1은 본 실시예에 따른 발음 변이를 적용시킨 음성 인식 장치를 개략적으로 나타낸 블록 구성도,
도 2는 본 실시예에 따른 음성 인식 모듈을 개략적으로 나타낸 도면,
도 3은 본 실시예에 따른 언어 학습 모듈을 개략적으로 나타낸 도면,
도 4는 본 실시예에 따른 데이터베이스와 그 저장 방식을 나타낸 예시도,
도 5는 본 실시예에 따른 발음 변이를 적용시킨 음성 인식 방법을 나타낸 순서도,
도 6은 본 실시예에 따른 발음 변이를 적용시킨 언어 학습 방법을 나타낸 순서도,
도 7은 본 실시예에 따른 언어 학습 방법을 설명하기 위한 예시도이다.
1 is a block diagram schematically showing a speech recognition apparatus to which a pronunciation variation according to the present embodiment is applied,
2 is a schematic view of a speech recognition module according to the present embodiment,
3 is a diagram schematically showing a language learning module according to the present embodiment,
4 is an exemplary view showing a database and its storage method according to the present embodiment,
FIG. 5 is a flowchart showing a speech recognition method applying pronunciation variation according to the present embodiment,
6 is a flowchart showing a language learning method applying pronunciation variation according to the present embodiment,
7 is an exemplary diagram for explaining a language learning method according to the present embodiment.

이하, 본 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.Hereinafter, the present embodiment will be described in detail with reference to the accompanying drawings.

도 1은 본 실시예에 따른 발음 변이를 적용시킨 음성 인식 장치를 개략적으로 나타낸 블록 구성도이다.1 is a block diagram schematically showing a speech recognition apparatus to which a pronunciation variation according to the present embodiment is applied.

도 1을 참조하면, 본 실시예에 따른 발음 변이를 적용시킨 음성 인식 장치는 음성 인식 모듈(200), 언어 학습 모듈(300) 및 데이터베이스(400) 모듈을 포함한다.Referring to FIG. 1, a speech recognition apparatus to which a pronunciation variation according to the present embodiment is applied includes a speech recognition module 200, a language learning module 300, and a database 400 module.

음성 인식 모듈(200)은 본 실시예에 따른 발음 변이를 적용시킨 음성 인식이 이루어지는 장치로서 음성 신호를 입력 받아 최종적으로 단어열을 출력한다.The speech recognition module 200 is a device for performing speech recognition using the pronunciation variation according to the present embodiment, and finally receives a speech signal and outputs a word sequence.

음성 인식 모듈(200)은 마이크로폰(10)으로 입력 받고 전처리 모듈(20)에서 디지털 신호로 변환된 음성 신호를 데이터베이스(400) 모듈을 참조하여 단어열로 변환하고 출력한다.The voice recognition module 200 receives the voice signal converted into a digital signal by the preprocessing module 20 by the microphone 10, converts the voice signal into a word string by referring to the database module 400, and outputs the word string.

데이터베이스 모듈(400)은 음성 인식 모듈(200)이 음성 인식을 할 때 참조하는 데이터베이스 장치로서 언어 학습 모듈(300)에 의하여 구축되고 갱신되어야 한다.The database module 400 is constructed and updated by the language learning module 300 as a database device that the speech recognition module 200 refers to when performing speech recognition.

언어 학습 모듈(300)은 음성 인식 모듈(200)이 음성 인식을 하기 전에 데이터베이스 모듈(400)을 구축하는 장치이다.The language learning module 300 is a device for building the database module 400 before the speech recognition module 200 performs speech recognition.

도 2는 본 실시예에 따른 음성 인식 모듈을 개략적으로 나타낸 도면이다.2 is a schematic view of a speech recognition module according to the present embodiment.

도 2를 참조하면, 음성 인식 모듈(200)은 음소인식부(210)와 음성인식부(220)를 포함한다.Referring to FIG. 2, the speech recognition module 200 includes a phoneme recognition unit 210 and a speech recognition unit 220.

음소인식부(210)는 먼저 마이크로폰(10)으로 입력 받고 전처리 모듈(20)에서 디지털 신호로 변환된 음성 신호를 의미를 구별짓는 최소의 단위인 음소(예: ㄱ, ㄹ, ㅓ, ㅕ, ㅁ)들의 집합으로 변환하는 기능을 한다.The phoneme recognition unit 210 first receives a phonetic signal input to the microphone 10 and converted into a digital signal by the preprocessing module 20 as a minimum unit for distinguishing meaning from a phoneme (e.g., a, a, b, c, ) Into a set of < / RTI >

음성인식부(220)는 인식된 음소들의 집합을 이용하여 의미를 가진 단어열로 된 문장을 구성하는 기능을 한다.The speech recognition unit 220 functions to construct a sentence having a word sequence having a meaning by using a set of recognized phonemes.

도 3은 본 실시예에 따른 언어 학습 모듈을 개략적으로 나타낸 도면이다.3 is a diagram schematically showing a language learning module according to the present embodiment.

도 3을 참조하면, 언어 학습 모듈(300)은 다시 토큰분리부(310), 음소변환부(320), 코스트계산부(330), 및 DB저장부(340)를 포함한다.Referring to FIG. 3, the language learning module 300 includes a token separator 310, a phoneme converter 320, a cost calculator 330, and a DB storage unit 340.

토큰분리부(310)는 자연어 학습용 텍스트를 입력 받아 텍스트를 다수의 어절로 이루어진 토큰으로 분리한다. 학습 자료를 최소 서술 길이 (Minimum Description Length; MDL) 알고리즘을 사용, 자연어를 형성하고 있는 단어들의 규칙성에 대한 정보를 찾아 토큰으로 분리하여 비감독(Unsupervised) 자동 형태소 분석을 하여 분리가능 세트를 가능한 경우의 수만큼 생성한다.The token separating unit 310 receives the natural language learning text and separates the text into a plurality of tokens. Using the minimum description length (MDL) algorithm, the learning data is searched for information about the regularity of the words forming the natural language, separated into tokens, and subjected to an unsupervised automatic stemming analysis to determine the separable set As shown in FIG.

음소변환부(320)는 분리가능 세트 생성과정에서 분리된 토큰들 각각을 발음 변이 법칙에 따라 실제로 발성되는 소리를 표기한 다수의 음소로 변환한다. 예컨대, '학생이 교실을' 이라는 텍스트를 음소로 변환할 때 "학쌩이 교시를"이 된다. 마찬가지로 '학생 이 교실 을'은 "학쌩 이 교실 을", '학생이 교실 을'은 "학쌩이 교실 을"로, '학생 이 교실을' 은 "학쌩 이 교시를"로 된다.The phoneme converting unit 320 converts each of the separated tokens into a plurality of phonemes representing sounds actually uttered according to the phonetic transposition rule in the process of generating the separable set. For example, when a student translates the text "classroom" into phonemes, "classroom teaches". Likewise, 'student' classroom ',' classroom classroom ',' student classroom ',' classroom classroom ',' student classroom ', and' classroom teaching '.

코스트 계산부(330)는 변환된 음소들에 대하여 발음 손실이 발생하였는지를 검사하여 발음 손실 여부를 반영한 코스트를 계산한다. 코스트를 계산할 때는 공지된 방법으로 기존 코스트(이하, 컨벤션 코스트)를 계산하고, 발음 손실 여부를 반영한 코스트를 계산한 발음 손실 코스트를 함께 계산하여 합산하는 방식을 사용한다.The cost calculation unit 330 calculates whether or not a pronunciation loss has occurred with respect to the converted phonemes and calculates a cost reflecting the pronunciation loss. When calculating the cost, a method of calculating an existing cost (hereinafter referred to as a convention cost) by a known method, and calculating and adding together the pronunciation cost costs that have calculated the cost reflecting the pronunciation loss are used.

DB 저장부(340)는 토큰분리부가 생성한 분리가능 세트 중에서 계산된 토탈 코스트가 가장 작은 분리가능 세트를 선택하여 이에 관한 정보를 데이터베이스 모듈(400)에 저장한다.The DB storage unit 340 selects the separable set having the smallest total cost calculated among the separable sets generated by the token separating unit, and stores the information on the separated set in the database module 400.

도 4는 본 실시예에 따른 데이터베이스와 그 저장 방식을 나타낸 예시도이다.4 is an exemplary view showing a database and a storage method thereof according to the present embodiment.

도 1 및 도 4를 참조하면, 데이터베이스 모듈(400)은 음성 인식 모듈(200)이 음성을 인식하기 위해 언어 학습 모듈(400)에 의하여 사전에 구축되며, 음향모델 DB(410), 발음사전 DB(420), 언어모델 DB(430), 및 텍스트 DB(440)를 포함한다.1 and 4, the database module 400 is constructed in advance by the language learning module 400 in order for the speech recognition module 200 to recognize speech, and includes an acoustic model DB 410, a pronunciation dictionary DB (420), a language model DB (430), and a text DB (440).

데이터베이스 모듈(400)에는 DB 저장부(340)에 의하여, 전술한 토큰분리부(310), 음소변환부(320) 및 코스트 계산부(330)가 생성한 토탈 코스트가 가장 작은 분리가능 세트에 관한 정보가 저장된다.The database module 400 stores the information on the separable set having the smallest total cost generated by the token separating unit 310, the phoneme converting unit 320 and the cost calculating unit 330 by the DB storing unit 340 Information is stored.

예를 들면, '교실에서'로 분리된 토큰이 가장 코스트가 작은 분리가능 세트로 선정되었다고 했을 때, 이 토큰에 대응되는 음소는 "교시레서"가 되므로 '교실에서'-"교시레서"의 쌍은 발음사전 DB(420)에 저장된다. 또한, '교실에서' 토큰에 대한 적용된 언어모델에서 필요한 정보(예컨대 이 정보는 가장 단순하게는 텍스트에서 본 단어가 출현되는 빈도일 수 있다)는 언어모델 DB(430)에 저장된다(도 4 참조).For example, if a token separated by 'in the classroom' is selected as a separable set with the lowest cost, the phoneme corresponding to this token will be a 'teaching lesson', so a pair of 'in the classroom' Is stored in the pronunciation dictionary DB (420). Also, the information required in the applied language model for the 'in the classroom' token (e.g., this information may most simply be the frequency at which words seen in the text appear) is stored in the language model DB 430 ).

음향모델 DB(410)는 전술한 음소인식부(210)가 수신된 디지털 음성 신호를 음소(phoneme)열로 변환할 때 이용되는 것으로서 미리 다수의 화자 발성 데이터를 토대로 만들어져 있으며, 음성 특징 데이터(예: 특징 벡터)와 이에 대응되는 음소가 저장되어 있다. 이는 공지된 기술로서 본 발명에서 새로 개시하는 기술이 아니므로 여기에서는 설명을 생략하기로 한다.The acoustic model DB 410 is used when the phoneme recognition unit 210 converts the received digital voice signal into a phoneme string. The acoustic model DB 410 is based on a plurality of speaker utterance data, Feature vector) and the corresponding phoneme are stored. This is not a newly disclosed technique in the present invention as a known technology, and therefore, a description thereof will be omitted here.

텍스트 DB(440)는 언어 학습 모듈(300) 자연어 학습을 위해 사용하는 다수의 어절로 이루어진 자연어 학습용 텍스트를 미리 저장하고 있는 데이터베이스로서, 본 발명에서 새로 개시하는 기술이 아니므로 여기에서는 설명을 생략하기로 한다.The text DB 440 is a database that stores in advance a text for natural language learning composed of a plurality of phrases used for natural language learning, and is not a technique newly disclosed in the present invention. .

이하, 도 5를 참조하여 본 실시예에 따른 음성 인식 방법을 상세하게 설명한다.Hereinafter, a speech recognition method according to the present embodiment will be described in detail with reference to FIG.

먼저, 마이크로폰(10)에서는 인식하고자 하는 음성 신호를 입력 받아 전기 신호로 변환되고, 전처리 모듈(20)에서 다시 디지털 신호로 변환된 음성 신호를 음성 인식 모듈(200)이 수신한다(S510).First, the microphone 10 receives the voice signal to be recognized, converts it into an electrical signal, and the voice recognition module 200 receives the voice signal converted into the digital signal again by the preprocessing module 20 (S510).

음성 인식 모듈(200) 내의 음소인식부(210)는 수신된 디지털 음성 신호를 음향모델 DB(410)를 이용하여 음소(phoneme)열로 변환하여야 한다. 따라서 먼저 디지털 음성 신호로부터 음성 특징 정보를 추출하여 음성 특징 데이터(예: 특징 벡터)를 생성(S520)한 후에, 음성 특징 데이터를 음향모델 DB(410)로부터 검색하여 이에 대응되는 음소들로 각각 변환하여 음소열을 생성한다(S530). 이를 위해 음향모델 DB(410)가 미리 다수의 화자 발성 데이터를 토대로 만들어지며, 이는 공지된 기술로서 여기에서는 설명을 생략하기로 한다.The phoneme recognition unit 210 in the speech recognition module 200 converts the received digital speech signal into a phoneme string using the acoustic model DB 410. Therefore, first, the voice feature data is extracted from the digital voice signal to generate the voice feature data (e.g., feature vector) (S520), and then the voice feature data is retrieved from the acoustic model DB 410 and converted into corresponding phonemes Thereby generating a phoneme string (S530). To this end, the acoustic model DB 410 is created based on a plurality of speaker utterance data in advance, which is a known technique and will not be described here.

다수의 음성 특징 데이터는 마찬가지로 다수의 음소열을 생성하므로, 다수의 음소열을 다시 단어열로 변환하여야 하는데, 그 과정은 다음과 같다.Since a plurality of voice feature data similarly generate a plurality of phoneme strings, a plurality of phoneme strings must be converted into word strings again.

먼저, 음소열을 임의로 분리한 다수의 토큰들로 구성된 분리가능 세트를 얻어야 한다(S540). 다음으로 이 토큰들을 발음사전 DB(420)로부터 검색하여 토큰들에 대응하는 단어를 추출해 낸다(S550). 또한 단어를 언어모델 DB(430)로부터 검색하여 단어들에 대한 정보를 추출해내야 한다(S560). 예컨대 흔하게 사용되는 언어모델에서 단어 정보로 사용되는 것으로는 통계적으로 입력된 학습용 데이터에서 단어들 사이의 관계, 또는 해당 단어가 자주 출현되는 정도를 나타낸 빈도수와 같은 파라미터가 있다(도 4의 언어모델 DB 참조). 전술한 단어들과 이에 대응되는 정보를 검색한 다음에는 이를 바탕으로 코스트, 혹은 방금 추출한 단어열이 원음이 의도한 문장과 일치할 확률을 계산해낸다(S570). 이때 코스트의 값은 낮을수록 의도된 문장과 일치할 확률이 높음을 나타내므로, 전술한 분리가능 세트들 중에서 코스트가 가장 작은 분리가능 세트를 의도된 문장으로 확정하고 이를 출력함으로써 음성 인식 과정이 종료된다(S580).First, a separable set composed of a plurality of tokens in which a phoneme string is arbitrarily separated is obtained (S540). Next, the tokens are retrieved from the pronunciation dictionary DB 420 to extract words corresponding to the tokens (S550). In addition, a word is searched from the language model DB 430 and information about words is extracted (S560). For example, in the commonly used language model, there are parameters such as the relationship between words in the statistical input data for learning, or the frequency of frequency of occurrence of the word frequently (as shown in FIG. 4, Reference). After retrieving the words and their corresponding information, the probability that the cost or the word string just extracted matches the intended sentence of the original sound is calculated (S570). At this time, since the lower the value of the cost indicates the higher the probability of matching the intended sentence, the speech recognition process is ended by confirming the separable set having the smallest cost among the above-described separable sets as the intended sentence and outputting it (S580).

위와 같은 음성 인식 과정은 전술한 과정을 위한 데이터베이스 모듈(400)이 미리 구축되어 있음을 전제로 한다. 따라서 본 실시예는 음성 인식 과정 전에 위 데이터베이스 모듈(400)을 구성하는 발음사전 DB와 언어모델 DB를 구축하는 자연어 학습 과정을 포함한다.The above speech recognition process is based on the assumption that the database module 400 for the above-described process is built in advance. Therefore, the present embodiment includes a natural language learning process for constructing a pronunciation dictionary DB and a language model DB constituting the above-described database module 400 before speech recognition.

이하, 도 6을 참조하여 본 실시예에 따른 언어 학습 방법을 상세하게 설명한다.Hereinafter, a language learning method according to the present embodiment will be described in detail with reference to FIG.

먼저, 언어 학습 모듈(300)에서 자연어 학습을 위해 텍스트 DB(440)로부터 다수의 어절로 이루어진 자연어 학습용 텍스트를 입력 받는다(S410).First, in the language learning module 300, a text for natural language learning composed of a plurality of words is input from the text DB 440 for natural language learning (S410).

토큰분리부(310)는 이 텍스트를 학습을 위한 토큰으로 분리하여야 하는데 Morfessor 프로그램은 일반적으로 많이 사용된다. 학습 자료를 최소 서술 길이 (Minimum Description Length; MDL) 알고리즘을 사용, 자연어를 형성하고 있는 단어들의 규칙성에 대한 정보를 찾아 토큰으로 분리하여 비감독(Unsupervised) 자동 형태소 분석을 하여 분리가능 세트를 가능한 경우의 수만큼 생성한다(S420).The token separator 310 separates the text into tokens for learning. Morfessor programs are generally used. Using the minimum description length (MDL) algorithm, the learning data is searched for information about the regularity of the words forming the natural language, separated into tokens, and subjected to an unsupervised automatic stemming analysis to determine the separable set (S420).

코스트 계산부(330)가 코스트를 계산할 때는 공지된 방법으로 기존 코스트(이하, 컨벤션 코스트)를 계산하고(S430), 발음 손실 여부를 반영한 코스트를 계산한 발음 손실 코스트를 함께 계산하여 합산하는 방식을 사용한다.When the cost calculation unit 330 calculates a cost, an existing cost (convention cost hereinafter) is calculated (S430) by a known method, and a pronunciation loss cost that calculates a cost reflecting the loss of pronunciation is calculated together and added use.

음소 변환부(320)는 분리가능 세트 생성과정에서 분리된 토큰들 각각을 발음 변이 법칙에 따라 실제로 발성되는 소리를 표기한 다수의 음소로 변환한다(S440). 예컨대, '학생이 교실을' 이라는 텍스트를 음소로 변환할 때 "학쌩이 교시를"이 된다. 마찬가지로 '학생 이 교실 을'은 "학쌩 이 교실 을", '학생이 교실 을'은 "학쌩이 교실 을"로, '학생 이 교실을' 은 "학쌩 이 교시를"로 된다.The phoneme converting unit 320 converts each of the tokens separated in the separable set generation process into a plurality of phonemes representing sounds actually uttered according to the phonetic transposition rule at step S440. For example, when a student translates the text "classroom" into phonemes, "classroom teaches". Likewise, 'student' classroom ',' classroom classroom ',' student classroom ',' classroom classroom ',' student classroom ', and' classroom teaching '.

그 다음, 코스트 계산부(330)는 변환된 음소들에 대하여 발음 손실이 발생하였는지를 검사하여 발음 손실 여부를 반영한 코스트를 계산한다(S450).Then, the cost calculation unit 330 checks whether or not a pronunciation loss has occurred with respect to the converted phonemes and calculates a cost reflecting the pronunciation loss (S450).

발음 손실 여부를 반영하기 위해서는, 변환된 음소를 조합하였을 때 분리되기 이전의 토큰에서 생성된 음소와 비교하여 동일한 경우 0으로 계산하고, 동일하지 않은 경우 0 이상의 값으로 계산한다. 예를 들면, '학 교'로 분리된 토큰에서 변환된 음소 "학 교"를 조합하면("학교"), 분리되기 이전의 토큰('학교')에서 생성된 음소 "학꾜"와 동일하지 않다. 따라서 이 경우에는 발음 손실 코스트가 0 이상의 값을 가지게 된다. 코스트가 0 이상의 값을 가진다는 것은 그만큼 이 토큰으로 분리될 확률이 낮다는 것을 뜻한다.In order to reflect whether or not the pronunciation is lost, the phoneme generated in the token prior to separation is calculated as 0 when the converted phoneme is combined, and is calculated as 0 when the phoneme is not the same. For example, if a phoneme "school" converted from a token separated by "school" is combined ("school"), it is not the same as the phoneme "school" . Therefore, in this case, the pronunciation loss cost has a value of zero or more. Having a cost greater than or equal to zero means that it is less likely to be separated by this token.

또한, 발음 손실 여부를 반영하기 위해서는, 변환된 음소가 이미 발음사전 DB에 생성되어 있는지를 검사하여, 생성되어 있는 경우 0 이상으로 계산하고, 생성되어 있지 않은 경우 0으로 계산한다. 예를 들자면, '교실 에서'로 분리된 토큰에서 변환된 음소 "교실"과 "에서"는 대개의 경우에는 발음사전 DB에 이미 생성되어 있을 것이다. 따라서 코스트는 0 이상이 되고, '교실에서' 로 분리된 토큰에서 변환된 음소 "교시레서"는 발음사전 DB에 생성되어 있지 않을 것이다. 따라서 이 경우에는 코스트가 0이 되어 후술하는 단계 S470에서 발음사전 DB에 등록된다.In order to reflect whether or not the pronunciation is lost, it is checked whether or not the converted phonemes are already generated in the pronunciation dictionary DB, and if they are generated, they are calculated as 0 or more. For example, the phonemes "in the classroom" and "in" converted from tokens separated by 'in the classroom' would have already been created in the pronunciation dictionary DB in most cases. Therefore, the cost becomes 0 or more, and the phoneme "grammar lesson" converted from the token separated into " in the classroom " Therefore, in this case, the cost is zero and registered in the pronunciation dictionary DB at step S470 described later.

전술한 단계 S430과 S450에서 계산한 컨벤션 코스트와 발음 손실 코스트는 다음의 수학식 1과 같이 합산되어 토탈 코스트로 계산된다(S460).The convention cost and the pronunciation loss cost calculated in the above-described steps S430 and S450 are summed up as the following Equation 1 and calculated as a total cost (S460).

Figure pat00001
Figure pat00001

마지막으로, DB 저장부(340)는 전술한 단계 S420에서 생성된 분리가능 세트 중에서 계산된 토탈 코스트가 가장 작은 분리가능 세트를 선택하여 이에 관한 정보를 데이터베이스 모듈(400)에 저장한다.Finally, the DB storage unit 340 selects the separable set having the smallest total cost calculated among the separable sets generated in the above-described step S420 and stores the information on the separated set in the database module 400.

예를 들자면, '교실에서'로 분리된 토큰이 가장 코스트가 작은 분리가능 세트로 선정되었다고 했을 때, 이 토큰에 대응되는 음소는 "교시레서"가 되므로 '교실에서'-"교시레서"의 쌍을 발음사전 DB(420)에 저장한다. 또한, '교실에서' 토큰에 대한 적용된 언어모델에서 필요한 정보(예컨대 이 정보는 가장 단순하게는 텍스트에서 본 단어가 출현되는 빈도일 수 있다)를 언어모델 DB(430)에 저장한다(도 4 참조).For example, if a token separated by 'in the classroom' is selected as a separable set with the lowest cost, the phoneme corresponding to this token will be a 'teaching lesson', so a pair of 'in the classroom' In the pronunciation dictionary DB 420. In addition, the language model DB 430 stores the necessary information (for example, this information may be the frequency at which words appearing in the text are most simply appearing) in the applied language model for the 'in the classroom' token ).

도 7은 본 실시예에 따른 언어 학습 방법을 설명하기 위한 예시도이다.7 is an exemplary diagram for explaining a language learning method according to the present embodiment.

도 7은 위의 과정과 동일하게 텍스트가 토큰으로 분리되고 발음사전 DB(420)에 등록되는 과정을 다시 한번 보여준다.FIG. 7 shows a process in which the text is divided into tokens and registered in the pronunciation dictionary DB 420 in the same manner as the above process.

도 5 및 도 6에서는 과정 S510 내지 과정 S580, 과정 S410 내지 과정 S470을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 발명의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것이다. 다시 말해, 본 발명의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 5 및 도6에 기재된 순서를 변경하여 실행하거나 과정 S510 내지 과정 S580, 과정 S410 내지 과정 S470 중 하나 이상의 과정을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 도 5 및 도 6은 시계열적인 순서로 한정되는 것은 아니다.5 and 6 illustrate that the processes S510 to S580 and S410 to S470 are sequentially executed. However, this is merely illustrative of the technical idea of the embodiment of the present invention. In other words, those skilled in the art will appreciate that the steps described in FIGS. 5 and 6 may be changed and executed without departing from the essential characteristics of an embodiment of the present invention, S580, and steps S410 to S470 may be performed in parallel, so that the embodiments are not limited to the time-series order.

본 발명의 실시예에 따른 발음 변이를 적용시킨 음성 인식 장치는 각종 기기 또는 유무선 통신망과 통신을 수행하기 위한 통신 단말기 등의 통신 장치, 프로그램을 실행하기 위한 데이터를 저장하기 위한 메모리, 프로그램을 실행하여 연산 및 제어하기 위한 마이크로프로세서 등을 구비하는 다양한 장치를 의미할 수 있다. 적어도 일 실시예에 따르면, 메모리는 램(Random Access Memory: RAM), 롬(Read Only Memory: ROM), 플래시 메모리, 광 디스크, 자기 디스크, 솔리드 스테이트 디스크(Solid State Disk: SSD) 등의 컴퓨터로 판독 가능한 기록/저장매체일 수 있다. 적어도 일 실시예에 따르면, 마이크로프로세서는 명세서에 기재된 동작과 기능을 하나 이상 선택적으로 수행하도록 프로그램될 수 있다. 적어도 일 실시예에 따르면, 마이크로프로세서는 전체 또는 부분적으로 특정한 구성의 주문형반도체(Application Specific Integrated Circuit: ASIC) 등의 하드웨어로써 구현될 수 있다.The speech recognition apparatus to which the pronunciation variation according to the embodiment of the present invention is applied includes a communication device such as a communication terminal for performing communication with various devices or wired / wireless communication networks, a memory for storing data for executing a program, And a microprocessor for calculating and controlling the operation of the apparatus. According to at least one embodiment, the memory may be a computer such as a random access memory (RAM), a read only memory (ROM), a flash memory, an optical disk, a magnetic disk, or a solid state disk Readable recording / storage medium. According to at least one embodiment, a microprocessor can be programmed to selectively perform one or more of the operations and functions described in the specification. In accordance with at least one embodiment, the microprocessor may be implemented in hardware, such as an Application Specific Integrated Circuit (ASIC), in wholly or partially of a particular configuration.

전술한 바와 같이, 도 5에 기재된 발음 변이를 적용시킨 음성 인식 방법은 프로그램으로 구현되고 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 공간질의 방법을 구현하기 위한 프로그램이 기록되고 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 또한, 본 실시예를 구현하기 위한 기능적인(Functional) 프로그램, 코드 및 코드 세그먼트들은 본 실시예가 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있을 것이다.As described above, the speech recognition method using the pronunciation variation described in Fig. 5 can be implemented by a program and recorded in a computer-readable recording medium. A program for implementing the spatial query method according to the present embodiment is recorded, and a computer-readable recording medium includes all kinds of recording devices for storing data that can be read by a computer system. Examples of such computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, etc., and also implemented in the form of a carrier wave (e.g., transmission over the Internet) . The computer readable recording medium may also be distributed over a networked computer system so that computer readable code is stored and executed in a distributed manner. In addition, functional programs, codes, and code segments for implementing the present embodiment can be easily inferred by programmers in the technical field to which the present embodiment belongs.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The foregoing description is merely illustrative of the technical idea of the present embodiment, and various modifications and changes may be made to those skilled in the art without departing from the essential characteristics of the embodiments. Therefore, the present embodiments are to be construed as illustrative rather than restrictive, and the scope of the technical idea of the present embodiment is not limited by these embodiments. The scope of protection of the present embodiment should be construed according to the following claims, and all technical ideas within the scope of equivalents thereof should be construed as being included in the scope of the present invention.

200: 음성 인식 모듈 210: 음소인식부
220: 음성인식부 300: 언어 학습 모듈
310: 토큰분리부 320: 음소변환부
330: 코스트계산부 340: DB 저장부
400: 데이터베이스 모듈 410: 음향모델 DB
420: 발음사전 DB 430: 언어모델 DB
440: 텍스트 DB
200: speech recognition module 210: phoneme recognition module
220: speech recognition unit 300: language learning module
310: token separating unit 320: phoneme converting unit
330: Cost calculation unit 340: DB storage unit
400: Database module 410: Acoustic model DB
420: pronunciation dictionary DB 430: language model DB
440: Text DB

Claims (13)

음성 인식 방법에 있어서,
마이크로폰에서 자연어 음성 신호를 입력 받은 후 전기 신호로 변환하고, 전처리 모듈에서 상기 전기 신호를 디지털 신호로 변환하는 음성 입력 과정;
음성 인식 모듈에서 상기 디지털 신호를 음향모델 DB를 이용하여 음소(phoneme)열로 변환하는 음소 인식 과정;
상기 음성 인식 모듈에서 상기 음소열을 발음사전 DB와 언어모델 DB를 이용하여 단어들로 변환하여 단어열을 생성하는 단어열 생성 과정; 및
상기 음성 인식 모듈에서 상기 단어열을 출력하는 단어열 출력 과정
을 포함하는 것을 특징으로 하는 발음 변이를 적용시킨 음성 인식 방법.
In the speech recognition method,
A speech input step of receiving a natural speech signal from a microphone and converting the natural speech signal into an electrical signal and converting the electrical signal into a digital signal in a pre-processing module;
A phoneme recognition process of converting the digital signal into a phoneme string using an acoustic model DB in a speech recognition module;
A word string generating step of generating a word string by converting the phoneme string into words using a pronunciation dictionary DB and a language model DB in the speech recognition module; And
A word sequence output process for outputting the word sequence in the speech recognition module
The speech recognition method comprising the steps of:
제 1항에 있어서,
상기 음소 인식 과정은,
상기 음성 인식 모듈에서 상기 디지털 신호로부터 음성 특징 정보를 추출하여 음성 특징 데이터를 생성하는 음성 특징 추출 과정; 및
상기 음성 인식 모듈에서 상기 음성 특징 데이터를 음향모델 DB로부터 검색하여 상기 음성 특징 데이터에 대응되는 음소들로 변환하여 상기 음소열을 생성하는 음소 결정 과정
을 포함하는 것을 특징으로 하는 발음 변이를 적용시킨 음성 인식 방법.
The method according to claim 1,
The phoneme recognition process includes:
A voice feature extraction process for extracting voice feature information from the digital signal in the voice recognition module to generate voice feature data; And
Wherein the speech recognition module retrieves the speech feature data from the acoustic model DB and converts the speech feature data into phonemes corresponding to the speech feature data to generate the phoneme string
The speech recognition method comprising the steps of:
제 1항에 있어서,
상기 단어열 생성 과정은,
상기 음성 인식 모듈에서 상기 음소열을 임의로 분리한 다수의 토큰의 집합으로 구성된 분리가능 세트를 생성 가능한 경우의 수만큼 생성하는 분리가능 세트 생성 과정;
상기 음성 인식 모듈에서 상기 토큰들을 상기 발음사전 DB로부터 검색하여 상기 발음사전 DB 내 존재하는 상기 토큰들에 대응하는 상기 단어를 추출하는 단어 검색 과정;
상기 음성 인식 모듈에서 상기 토큰들을 상기 언어모델 DB로부터 검색하여 상기 언어모델 DB 내 존재하는 상기 토큰들에 대응하는 토큰 정보를 찾는 언어모델 검색 과정;
상기 음성 인식 모듈에서 상기 단어 및 상기 토큰 정보를 이용하여 상기 분리가능 세트 각각에 대한 코스트를 계산하는 코스트 계산 과정; 및
상기 음성 인식 모듈에서 상기 분리가능 세트들 중에서 상기 코스트가 가장 작은 분리가능 세트를 상기 입력 신호에서 변환된 단어열로서 확정하는 단어열 결정 과정
을 포함하는 것을 특징으로 하는 발음 변이를 적용시킨 음성 인식 방법.
The method according to claim 1,
The word sequence generation process includes:
A separable set generation step of generating a separable set composed of a set of a plurality of tokens in which the phoneme string is arbitrarily separated from the speech recognition module by the number of cases in which they can be generated;
A word retrieval process of retrieving the tokens from the pronunciation dictionary DB in the speech recognition module and extracting the words corresponding to the tokens existing in the pronunciation dictionary DB;
A language model retrieving step of retrieving the tokens from the language model DB in the speech recognition module and finding token information corresponding to the tokens existing in the language model DB;
A cost calculation step of calculating a cost for each of the removable sets using the word and the token information in the speech recognition module; And
Wherein the speech recognition module determines a separable set having the smallest cost among the separable sets as a converted word sequence in the input signal,
The speech recognition method comprising the steps of:
제 1항에 있어서,
상기 음성 인식 과정 전에,
언어 학습 모듈에서 상기 단어열을 생성하기 위하여 참조하기 위한 상기 발음사전 DB 및 상기 언어모델 DB를 구축하는 자연어 학습 과정
을 추가로 포함하는 것을 특징으로 하는 발음 변이를 적용시킨 음성 인식 방법.
The method according to claim 1,
Before the speech recognition process,
A language learning module for constructing the pronunciation dictionary DB and the language model DB for referencing to generate the word sequence in the language learning module
And a speech recognition unit for recognizing the speech recognition unit.
제 4항에 있어서,
상기 자연어 학습 과정은,
언어 학습 모듈에서 자연어 학습을 위해 텍스트 DB로부터 다수의 어절로 이루어진 자연어 학습용 텍스트를 입력 받는 학습용 텍스트 입력 과정;
상기 언어 학습 모듈에서 상기 텍스트를 임의로 분리한 다수의 토큰의 집합으로 구성된 분리가능 세트를 생성 가능한 경우의 수만큼 생성하는 분리가능 세트 생성 과정;
상기 언어 학습 모듈에서 상기 분리가능 세트의 분리 여부를 결정하는 토탈 코스트를 계산하되, 최대우도추정(Maximum Likelihood; ML) 방식을 기반으로 계산된 컨벤션 코스트와 함께, 발음 손실을 방지하기 위하여 발음 변이 법칙을 적용해서 계산된 발음 손실 코스트를 합하여 토탈 코스트를 계산하는 토탈 코스트 계산 과정; 및
상기 언어 학습 모듈에서 상기 토탈 코스트가 가장 작은 경우의 상기 분리가능 세트를 선택하여 이에 포함되는 토큰들과 토큰 각각에 대응되는 음소의 쌍들을 발음사전 DB에 저장하고, 상기 토큰들 각각의 정보를 언어모델 DB에 저장하는 것을 특징으로 하는 DB 구축 과정
을 포함하는 것을 특징으로 하는 발음 변이를 적용시킨 음성 인식 방법.
5. The method of claim 4,
The natural language learning process includes:
A learning text input process for inputting a natural language learning text composed of a plurality of words from a text DB for natural language learning in a language learning module;
A separable set generation step of generating, by the language learning module, a number of separable sets each consisting of a set of a plurality of tokens in which the text is arbitrarily separated;
Calculating a total cost for determining whether or not to separate the detachable set from the language learning module, calculating a total cost based on a maximum likelihood (ML) A total cost calculation step of calculating a total cost by adding the pronunciation cost cost calculated by applying the total cost cost; And
The language learning module selects the separable set when the total cost is the smallest and stores pairs of phonemes corresponding to tokens and tokens included in the separable set in the pronunciation dictionary DB, And storing the DB in a model DB.
The speech recognition method comprising the steps of:
제 5항에 있어서,
상기 토탈 코스트 계산 과정은,
상기 언어 학습 모듈에서 상기 분리가능 세트 생성 과정에서 최소 서술 길이(Minimum Description Length; MDL) 알고리즘을 이용하여 규칙성에 대한 정보를 찾아서 분리한 토큰에 대하여 최대우도추정(Maximum Likelihood; ML) 방식을 기반으로 계산하는 컨벤션 코스트 계산 과정;
상기 언어 학습 모듈에서 상기 분리가능 세트 생성 과정에서 분리된 토큰들 각각을 발음 변이 법칙에 따라 실제로 발성되는 소리를 표기한 다수의 음소로 변환하는 음소 변환 과정;
상기 언어 학습 모듈에서 상기 음소 변환 과정에서 생성된 음소들에 대하여 발음 손실이 발생하였는지를 검사하여 발음 손실 여부를 반영한 코스트를 계산하는 발음 손실 코스트 계산 과정; 및
상기 언어 학습 모듈에서 상기 기존 코스트와 발음 손실 코스트의 합에 의하여 토탈 코스트를 계산하는 코스트 합산 과정
을 포함하는 것을 특징으로 하는 발음 변이를 적용시킨 음성 인식 방법.
6. The method of claim 5,
The total cost calculation process includes:
In the language learning module, the maximum likelihood (ML) method is used for the tokens in which the information on the regularity is searched and separated using the minimum description length (MDL) algorithm in the process of generating the detachable set A convention cost calculation process to calculate;
A phoneme conversion step of converting each of the tokens separated in the separable set generation process into a plurality of phonemes representing a sound actually uttered according to a pronunciation variation rule in the language learning module;
A pronunciation loss cost calculation step of calculating a cost reflecting a pronunciation loss by checking whether a pronunciation loss has occurred with respect to phonemes generated in the phoneme conversion process in the language learning module; And
A cost summing process for calculating a total cost by summing the existing cost and the pronunciation loss cost in the language learning module
The speech recognition method comprising the steps of:
제 6항에 있어서,
상기 발음 손실 코스트 계산 과정은,
상기 언어 학습 모듈에서 상기 음소들을 조합하였을 때 상기 음소로 분리되기 이전의 토큰에서 생성된 음소와 비교하여 동일한 경우 0으로 계산하고, 동일하지 않은 경우 0 이상의 값으로 계산하는 것을 특징으로 하는 발음 변이를 적용시킨 음성 인식 방법.
The method according to claim 6,
The pronunciation loss cost calculation process includes:
When the phonemes are combined in the language learning module, they are compared with phonemes generated in the token before being separated into the phoneme, and when the phonemes are not identical, they are calculated as 0 or more. The applied speech recognition method.
제 6항에 있어서,
상기 발음 손실 코스트 계산 과정은,
상기 언어 학습 모듈에서 상기 음소가 이미 발음사전 DB에 생성되어 있는지를 검사하여, 생성되어 있는 경우 0 이상으로 계산하고, 생성되어 있지 않은 경우 0으로 계산하는 것을 특징으로 하는 발음 변이를 적용시킨 음성 인식 방법.
The method according to claim 6,
The pronunciation loss cost calculation process includes:
Wherein the speech learning module checks whether the phoneme is already generated in the pronunciation dictionary DB, and if the generated phoneme is not generated, it is calculated as 0, Way.
컴퓨터 데이터 처리 기기에,
마이크로폰에서 자연어 음성 신호를 입력 받은 후 전기 신호로 변환하고, 전처리 모듈에서 상기 전기 신호를 디지털 신호로 변환하는 음성 입력 과정;
음성 인식 모듈에서 상기 디지털 신호를 음향모델 DB를 이용하여 음소(phoneme)열로 변환하는 음소 인식 과정;
상기 음성 인식 모듈에서 상기 음소열을 발음사전 DB와 언어모델 DB를 이용하여 단어들로 변환하여 단어열을 생성하는 단어열 생성 과정; 및
상기 음성 인식 모듈에서 상기 단어열을 출력하는 단어열 출력 과정
을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
In a computer data processing device,
A speech input step of receiving a natural speech signal from a microphone and converting the natural speech signal into an electrical signal and converting the electrical signal into a digital signal in a pre-processing module;
A phoneme recognition process of converting the digital signal into a phoneme string using an acoustic model DB in a speech recognition module;
A word string generating step of generating a word string by converting the phoneme string into words using a pronunciation dictionary DB and a language model DB in the speech recognition module; And
A word sequence output process for outputting the word sequence in the speech recognition module
Readable recording medium having recorded thereon a program for executing the program.
음성 인식 장치에 있어서,
상기 마이크로폰에서 전기 신호로 변환되고, 상기 전처리 모듈에서 디지털 신호로 변환된 자연어 음성 신호를 후술하는 데이터베이스 모듈을 참조하여 음소열로 변환시키고, 다시 상기 데이터베이스 모듈을 참조하여 상기 음소열을 단어들로 변환하여 단어열을 생성하여 출력하는 음성 인식 모듈;
다수의 어절로 이루어진 자연어 텍스트를 입력 받아 상기 자연어 학습 과정을 거쳐서 생성된 데이터를 이용해 상기 데이터베이스를 구축하는 언어 학습 모듈; 및
상기 음성 인식 모듈이 자연어 음성 신호를 음소로 변환시키는데 필요한 데이터 및 상기 음성 인식 모듈이 음소열을 단어열로 변환시키는데 필요한 데이터를 저장하며, 상기 언어 학습 모듈에 의하여 업데이트되는 데이터베이스 모듈
을 포함하는 것을 특징으로 하는 발음 변이를 적용시킨 음성 인식 장치.
In the speech recognition apparatus,
Converting the natural language speech signal converted into the digital signal by the pre-processing module into a phoneme string by referring to a database module described later, and converting the phoneme string into words by referring to the database module A speech recognition module for generating and outputting word strings;
A language learning module that receives a natural language text composed of a plurality of words and constructs the database using data generated through the natural language learning process; And
Wherein the speech recognition module stores data necessary for converting a natural speech signal into a phoneme and data necessary for the speech recognition module to convert a phoneme string to a word string,
And a speech recognition unit for recognizing the speech recognition unit.
제 10항에 있어서,
상기 음성 인식 모듈은,
상기 음성 신호를 상기 데이터베이스 모듈을 참조하여 음소열로 변환시키는 음소인식부; 및
상기 음소열을 상기 데이터베이스 모듈을 참조하여 단어들로 변환하여 단어열을 생성하는 음성인식부;
를 포함하는 것을 특징으로 하는 발음 변이를 적용시킨 음성 인식 장치.
11. The method of claim 10,
Wherein the speech recognition module comprises:
A phoneme recognition unit for converting the speech signal into a phoneme string by referring to the database module; And
A speech recognition unit converting the phoneme string into words by referring to the database module to generate a word string;
And a speech recognition unit for recognizing the speech recognition unit.
제 10항에 있어서,
상기 데이터베이스 모듈은,
다량의 음성 신호에서 추출하여 통계적으로 구축된 음성 특징 데이터, 및 상기 데이터에 대응하는 음소의 쌍들을 저장하고 있으며, 상기 음소인식부가 상기 음성 신호를 상기 음소로 변환할 때 참조하는 음향모델 DB;
자연어 학습을 위해서 다수의 어절로 이루어진 텍스트를 저장하고 있는 텍스트 DB;
상기 언어 학습 모듈이 학습한 단어들과, 상기 각 단어가 실제로 발성되는 소리를 표기한 음소의 쌍을 저장하고 있으며, 상기 언어 학습 모듈에 의해 구축되는 발음사전 DB; 및
상기 언어 학습 모듈이 학습한 단어들과, 상기 각 단어의 정보 데이터의 쌍을 저장하고 있으며, 상기 언어 학습 모듈에 의해 구축되는 언어모델 DB
를 포함하는 것을 특징으로 하는 발음 변이를 적용시킨 음성 인식 장치.
11. The method of claim 10,
Wherein the database module comprises:
An acoustic model DB storing pairs of speech feature data statistically constructed by extracting from a large number of speech signals and phonemes corresponding to the data, and referring to the phoneme recognition unit when the speech signal is converted into the phoneme;
A text DB storing a text composed of a plurality of words for natural language learning;
A pronunciation dictionary DB storing a pair of words learned by the language learning module and a phoneme representing a sound in which each word is actually uttered, and constructed by the language learning module; And
Wherein the language learning module stores pairs of words learned by the language learning module and information data of the respective words,
And a speech recognition unit for recognizing the speech recognition unit.
제 10항에 있어서,
상기 언어 학습 모듈은,
상기 텍스트 DB로부터 입력 받은 텍스트를 임의로 분리한 다수의 토큰의 집합으로 구성된 분리가능 세트를 생성 가능한 경우의 수만큼 생성하는 토큰분리부;
상기 토큰들 각각을 발음 변이 법칙에 따라 실제로 발성되는 소리를 표기한 다수의 음소로 변환하는 음소변환부;
상기 분리가능 세트의 분리 여부를 결정하는 토탈 코스트를 계산하는 코스트계산부; 및
상기 토탈 코스트가 가장 작은 경우의 상기 분리가능 세트를 선택하여 이에 포함되는 토큰들과 상기 토큰들 각각에 대응되는 음소의 쌍들을 발음사전 DB에 저장하고, 상기 토큰들 각각의 정보를 언어모델 DB에 저장하는 DB저장부;
를 포함하는 것을 특징으로 하는 발음 변이를 적용시킨 음성 인식 장치.
11. The method of claim 10,
Wherein the language learning module comprises:
A token separator for generating as many separable sets as possible from the set of the plurality of tokens in which the text received from the text DB is arbitrarily separated;
A phoneme converting unit converting each of the tokens into a plurality of phonemes representing a sound actually uttered according to a phonetic rule;
A cost calculation unit for calculating a total cost for determining whether the removable set is detached; And
Selecting the removable set when the total cost is the smallest and storing pairs of phonemes corresponding to the tokens and the tokens included in the phonetic dictionary DB in the pronunciation dictionary database, A DB storage unit for storing the DB;
And a speech recognition unit for recognizing the speech recognition unit.
KR1020140163513A 2014-11-21 2014-11-21 Voice recognition considering utterance variation KR102167157B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140163513A KR102167157B1 (en) 2014-11-21 2014-11-21 Voice recognition considering utterance variation
KR1020200129151A KR102300303B1 (en) 2014-11-21 2020-10-07 Voice recognition considering utterance variation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140163513A KR102167157B1 (en) 2014-11-21 2014-11-21 Voice recognition considering utterance variation

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020200129151A Division KR102300303B1 (en) 2014-11-21 2020-10-07 Voice recognition considering utterance variation

Publications (2)

Publication Number Publication Date
KR20160061071A true KR20160061071A (en) 2016-05-31
KR102167157B1 KR102167157B1 (en) 2020-10-16

Family

ID=56099038

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140163513A KR102167157B1 (en) 2014-11-21 2014-11-21 Voice recognition considering utterance variation

Country Status (1)

Country Link
KR (1) KR102167157B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112349294A (en) * 2020-10-22 2021-02-09 腾讯科技(深圳)有限公司 Voice processing method and device, computer readable medium and electronic equipment
US11107459B2 (en) 2018-03-02 2021-08-31 Samsung Electronics Co., Ltd. Electronic apparatus, controlling method and computer-readable medium

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020111676A1 (en) 2018-11-28 2020-06-04 삼성전자 주식회사 Voice recognition device and method
WO2020153736A1 (en) 2019-01-23 2020-07-30 Samsung Electronics Co., Ltd. Method and device for speech recognition
WO2020231181A1 (en) 2019-05-16 2020-11-19 Samsung Electronics Co., Ltd. Method and device for providing voice recognition service

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004021207A (en) * 2002-06-20 2004-01-22 Nippon Hoso Kyokai <Nhk> Phoneme recognizing method, phoneme recognition system and phoneme recognizing program
KR20040076035A (en) * 2003-02-24 2004-08-31 삼성전자주식회사 Method and apparatus for speech recognition using phone connection information
JP2008275731A (en) * 2007-04-26 2008-11-13 Asahi Kasei Corp Text phonetic symbol conversion dictionary creator, recognition lexical dictionary creator, and speech recognizer
JP2012068354A (en) * 2010-09-22 2012-04-05 National Institute Of Information & Communication Technology Speech recognizer, speech recognition method and program
KR20130128329A (en) * 2012-05-16 2013-11-26 광주과학기술원 Apparatus for correcting error of speech recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004021207A (en) * 2002-06-20 2004-01-22 Nippon Hoso Kyokai <Nhk> Phoneme recognizing method, phoneme recognition system and phoneme recognizing program
KR20040076035A (en) * 2003-02-24 2004-08-31 삼성전자주식회사 Method and apparatus for speech recognition using phone connection information
JP2008275731A (en) * 2007-04-26 2008-11-13 Asahi Kasei Corp Text phonetic symbol conversion dictionary creator, recognition lexical dictionary creator, and speech recognizer
JP2012068354A (en) * 2010-09-22 2012-04-05 National Institute Of Information & Communication Technology Speech recognizer, speech recognition method and program
KR20130128329A (en) * 2012-05-16 2013-11-26 광주과학기술원 Apparatus for correcting error of speech recognition

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11107459B2 (en) 2018-03-02 2021-08-31 Samsung Electronics Co., Ltd. Electronic apparatus, controlling method and computer-readable medium
CN112349294A (en) * 2020-10-22 2021-02-09 腾讯科技(深圳)有限公司 Voice processing method and device, computer readable medium and electronic equipment
CN112349294B (en) * 2020-10-22 2024-05-24 腾讯科技(深圳)有限公司 Voice processing method and device, computer readable medium and electronic equipment

Also Published As

Publication number Publication date
KR102167157B1 (en) 2020-10-16

Similar Documents

Publication Publication Date Title
KR102386854B1 (en) Apparatus and method for speech recognition based on unified model
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
EP4018437B1 (en) Optimizing a keyword spotting system
US10460034B2 (en) Intention inference system and intention inference method
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
JP7295839B2 (en) Automatic speech recognition based on syllables
CN112397056B (en) Voice evaluation method and computer storage medium
KR102167157B1 (en) Voice recognition considering utterance variation
KR101424193B1 (en) System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition
JP2020042257A (en) Voice recognition method and device
JP2019012095A (en) Phoneme recognition dictionary generation device and phoneme recognition device and their program
KR100573870B1 (en) multiple pronunciation dictionary structuring Method and System based on the pseudo-morpheme for spontaneous speech recognition and the Method for speech recognition by using the structuring system
Bharti et al. Automated speech to sign language conversion using Google API and NLP
KR20180033875A (en) Method for translating speech signal and electronic device thereof
KR102300303B1 (en) Voice recognition considering utterance variation
KR102299269B1 (en) Method and apparatus for building voice database by aligning voice and script
JP6577900B2 (en) Phoneme error acquisition device, phoneme error acquisition method, and program
Droppo et al. Context dependent phonetic string edit distance for automatic speech recognition
Coto‐Solano Computational sociophonetics using automatic speech recognition
JP2008293098A (en) Answer score information generation device and interactive processor
Wang et al. Generating TTS Based Adversarial Samples for Training Wake-Up Word Detection Systems Against Confusing Words.
Johnson et al. Leveraging multiple sources in automatic African American English dialect detection for adults and children
Nga et al. A Survey of Vietnamese Automatic Speech Recognition
JP2012255867A (en) Voice recognition device
EP3718107B1 (en) Speech signal processing and evaluation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant