WO2021162362A1 - 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치 - Google Patents

음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치 Download PDF

Info

Publication number
WO2021162362A1
WO2021162362A1 PCT/KR2021/001570 KR2021001570W WO2021162362A1 WO 2021162362 A1 WO2021162362 A1 WO 2021162362A1 KR 2021001570 W KR2021001570 W KR 2021001570W WO 2021162362 A1 WO2021162362 A1 WO 2021162362A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
phonetic symbol
text data
recognition model
sequence fragments
Prior art date
Application number
PCT/KR2021/001570
Other languages
English (en)
French (fr)
Inventor
지창진
황명진
Original Assignee
주식회사 엘솔루
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘솔루 filed Critical 주식회사 엘솔루
Priority to US17/798,801 priority Critical patent/US20230055233A1/en
Publication of WO2021162362A1 publication Critical patent/WO2021162362A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Definitions

  • the present invention relates to a method for training a speech recognition model and a speech recognition apparatus trained using the method.
  • Speech-to-text is a technology for generating text that matches an inputted voice.
  • the learning process of the voice recognition device is a process of securing voice data and text data (speech-text parallel data) corresponding to the voice data, and P2G converting text symbols (phonemes and graphes) into voice symbols (pronunciation symbols).
  • the process of securing (Phone-to-Grapheme) technology the process of converting voice-to-text symbol parallel data into voice-to-voice symbol parallel data using P2G, and training the acoustic model to generate voice symbols from voice data It goes through the process of learning a language model using large-capacity text.
  • the text symbol corresponding to the voice data is not expressed as a phonetic symbol but is usually expressed as a general character according to a standard notation, which is to secure the voice-to-speech symbol parallel data expressing the voice-to-text symbol parallel data as a voice symbol. This is because there is a problem in that it takes several times the cost and time compared to securing voice-text parallel data.
  • the problem to be solved by the present invention is a method for learning a speech recognition model without securing speech-text parallel data and speech-to-speech symbol parallel data, and speech data using the speech recognition model learned using the method To provide a speech recognition device that converts text data into text data.
  • a method for training a voice recognition model to convert voice data into text data includes: receiving the voice data; converting the voice data into one or more phonetic symbol data using the voice recognition model; generating one or more word candidates corresponding to the one or more phonetic symbol data by using the speech recognition model; determining one of word candidates as the text data corresponding to the speech data based on a context using the speech recognition model; and assigning weights to one or more rules related to generation of a word candidate determined from the text data by using the backpropagation value generated based on the text data.
  • the generating of the one or more word candidates may include generating the one or more word candidates based on a mapping between the phonetic symbol sequence fragment generated from the phonetic symbol data and the grapheme sequence fragment generated from the plain text data.
  • the generating of the one or more word candidates includes selecting one or more phonetic symbol sequence fragments in the order of the greatest number among the phonetic symbol sequence fragments generated from the phonetic symbol data, and having the largest number among the grapheme sequence fragments generated from the plain text data. It is possible to map one or more grapheme sequence fragments in many order, and generate the one or more words by using the mapping of the one or more phonetic symbol sequence fragments and the one or more grapheme sequence fragments.
  • the back propagation value may be used to give weight to a rule related to generation of phonetic symbol data based on the word candidate determined as the text data.
  • the backpropagation value may be used to assign weights to rules related to mapping of phonetic symbol sequence fragments and grapheme sequence fragments based on the word candidate determined by the text data.
  • the backpropagation value may be used to weight rules related to word candidates determined by the text data.
  • the context may include one or more of a context including a grapheme, a letter, or a morpheme, a sentence structure, a part-of-speech, and a sentence component.
  • a voice recognition apparatus for converting voice data into text data by executing a voice recognition model, comprising: an input/output unit for receiving the voice data; a memory for storing information about the speech recognition model; and a processor executing the speech recognition model to convert the speech data into the text data, wherein the speech recognition model converts the speech data into one or more phonetic symbol data using the speech recognition model, One or more word candidates corresponding to the one or more phonetic symbol data are generated using the speech recognition model, and any one of the word candidates corresponding to the speech data is selected based on the context by using the speech recognition model.
  • One or more rules related to generation of a word candidate determined from the text data may be weighted by determining the text data and using a backpropagation value generated based on the text data.
  • a speech recognition model can be trained without securing speech-to-text parallel data and speech-to-speech symbol parallel data, the time and cost required to perform speech recognition can be dramatically reduced. have.
  • FIG. 1 is a block diagram illustrating a voice recognition apparatus according to an embodiment of the present invention.
  • FIG. 2 is a block diagram conceptually illustrating a method for training a voice recognition model according to an embodiment of the present invention.
  • FIG. 3 illustrates a method of mapping a phonetic symbol sequence fragment and a grapheme sequence fragment according to an embodiment of the present invention.
  • FIG. 4 is a block diagram illustrating a function of an acoustic model according to an embodiment of the present invention.
  • FIG. 5 is a block diagram illustrating functions of a fragment creation and fragment mapping unit according to an embodiment of the present invention.
  • FIG. 6 is a block diagram illustrating a function of a P2G model according to an embodiment of the present invention.
  • FIG. 7 is a block diagram illustrating a function of a language model according to an embodiment of the present invention.
  • FIG. 8 is a flowchart illustrating a method of training a voice recognition model according to an embodiment of the present invention.
  • a method for training a voice recognition model to convert voice data into text data comprising: receiving the voice data; converting the voice data into one or more phonetic symbol data using the voice recognition model; generating one or more word candidates corresponding to the one or more phonetic symbol data by using the speech recognition model; determining one of word candidates as the text data corresponding to the speech data based on a context using the speech recognition model; and using a backpropagation value generated based on the text data, weighting one or more rules related to generation of a word candidate determined from the text data,
  • the generating of the one or more word candidates includes:
  • One or more phonetic symbol sequence fragments in the order of the largest number among the phonetic symbol sequence fragments generated from the phonetic symbol data are mapped to one or more grapheme sequence fragments in the largest number among the grapheme sequence fragments generated from the plain text data,
  • a method for learning a speech recognition model for generating the one or more words by using the mapping of the one or more phonetic symbol sequence fragments and the one or more grapheme sequence fragments is provided.
  • a voice recognition apparatus for converting voice data into text data by executing a voice recognition model, comprising: an input/output unit for receiving the voice data; a memory for storing information about the speech recognition model; and a processor that converts the voice data into the text data by executing the voice recognition model,
  • the speech recognition model is a model of the speech recognition model.
  • One or more phonetic sequence fragments in the order of the largest number among the phonetic sequence fragments generated from the phonetic symbol data are mapped to one or more grapheme sequence fragments in the order of the largest number among the grapheme sequence fragments generated from the grapheme sequence data, , a speech recognition apparatus for generating the one or more word candidates by using the mapping of the one or more phonetic symbol sequence fragments and the one or more grapheme sequence fragments.
  • FIG. 1 is a block diagram illustrating a voice recognition apparatus according to an embodiment of the present invention.
  • the voice recognition apparatus 100 may include a processor 110 , an input/output device 120 , and a memory 130 .
  • the processor 110 may control overall operations (functions) of the voice recognition apparatus 100 .
  • the processor 110 may receive one or more voice data by using the input/output device 120 .
  • the input/output device 120 may include one or more input devices and/or one or more output devices.
  • the input/output device may include an input device such as a microphone, a keyboard, a mouse, and a touch screen and/or an output device such as a display and a speaker.
  • the processor 110 may receive one or more voice data using a transceiver (not shown).
  • the memory 130 may store the voice recognition model 200 and information necessary for executing the voice recognition model 200 .
  • the processor 110 may load the voice recognition model 200 and information necessary for executing the voice recognition model 200 from the memory 130 in order to execute the voice recognition model 200 .
  • the processor 110 executes the voice recognition model 200 , converts the voice data input using the input/output unit 120 into corresponding text data, and outputs the converted result through the input/output unit 120 .
  • the voice recognition model 200 may be a model (program) that has been trained or is being trained to perform voice recognition, or may include a model (program) that has been trained or is being trained to perform voice recognition.
  • the processor 110 may transmit the converted result through a transceiver (not shown).
  • FIG. 2 is a block diagram conceptually illustrating a method for learning a speech recognition model according to an embodiment of the present invention
  • FIG. 3 is a method of mapping a phonetic symbol sequence fragment and a grapheme sequence fragment according to an embodiment of the present invention.
  • 4 is a block diagram illustrating a function of an acoustic model according to an embodiment of the present invention
  • FIG. 5 is a block diagram illustrating a function of a fragment creation and fragment mapping unit according to an embodiment of the present invention
  • FIG. 6 is It is a block diagram illustrating a function of a P2G model according to an embodiment of the present invention
  • FIG. 7 is a block diagram illustrating a function of a language model according to an embodiment of the present invention.
  • the speech recognition model 200 may include an acoustic model 210 , a fragment generation and fragment mapping unit 220 , a P2G model 230 , and a language model 240 .
  • the acoustic model 210, the fragment creation and fragment mapping unit 220, the P2G model 230, and the language model 240 shown in FIG. 2 are the voice recognition models ( 200) is conceptually divided, but is not limited thereto. According to embodiments, the acoustic model 210, the fragment generation and fragment mapping unit 220, the P2G model 230, and the language model 240 may be implemented as a series of instructions included in one program, or Each may be implemented as one program (software).
  • the acoustic model 210 and/or the P2G model 230 included in the voice recognition model 200 are trained, but the present invention is not limited thereto. That is, according to an embodiment, not the acoustic model 210 and/or the P2G model 230 are learned as a part of the voice recognition model 200 , but the voice recognition model 200 itself may be learned.
  • a model may mean a computer program composed of instructions capable of performing functions and operations according to respective names described in this specification. That is, the voice recognition model 200 may be a type of computer program (application software) executed by a processor and stored in a memory.
  • the acoustic model 210 may receive voice data and convert the input voice data into corresponding phonetic symbol data.
  • the pronunciation symbol data may refer to data indicating the pronunciation of voice data expressed in the form of a voice in the form of a symbol.
  • the acoustic model 210 may display ⁇ "b", “a”, “ ⁇ ”, It is possible to generate phonetic symbol data representing " ⁇ ", “ ⁇ ", “ ⁇ ", “b”, “ ⁇ ", and “b” ⁇ .
  • the phonetic symbol data may include one or more phonetic symbol sequences.
  • the acoustic model 210 may generate a plurality of phonetic symbol data by using the voice data. That is, since the phonetic symbol data generated by the acoustic model 210 may be inaccurate depending on the degree of learning of the acoustic model 210, the acoustic model 210 has a possibility of a correct answer as a result of converting one voice data. A plurality of phonetic symbol data may be generated.
  • the acoustic model 210 may be an artificial neural network that has already been trained or is being trained, or a model that has been learned (or is being trained) using probability, statistics, patterns, rules, probability graphs, and the like.
  • the fragment generating and fragment mapping unit 220 may generate a plurality of phonetic symbol sequence fragments from phonetic symbol data generated by the acoustic model 210 .
  • the phonetic symbol data may include one or more phonetic symbol sequences, and the phonetic symbol sequence may include phonetic symbols.
  • the fragment creation and fragment mapping unit 220 may extract one or more phonetic symbols from phonetic symbols included in each of the one or more phonetic symbol sequences to generate a fragment of the phonetic symbol sequence.
  • the number of cases in which the start and end of the fragment is selected for each phonetic symbol sequence (nH2, the number of cases in which two positions are selected, one starting position and one ending position in the phonetic symbol string of length n) can be created
  • the fragment creation and fragment mapping unit 220 may receive plain text data separate from voice data, and convert the plain text data into grapheme sequence data.
  • the fragment creation and fragment mapping unit 220 may generate a plurality of grapheme sequence fragments from the grapheme sequence data.
  • the grapheme sequence data may include one or more grapheme sequences, and the grapheme sequence may include graphemes.
  • the fragment creation and fragment mapping unit 220 may generate a fragment of a grapheme by extracting one or more graphes from graphes included in each of the one or more grapheme sequences.
  • the number of cases in which the start and end of a fragment is selected for each grapheme string (nH2, the number of cases in which two positions are selected, one starting position and one ending position in a grapheme string of length n) have.
  • the fragment creation and fragment mapping unit 220 is configured to generate phonetic symbols based on the statistics of the phonetic symbol sequence fragments included in the phonetic symbol data and composed of one or more phonetic symbols and the statistics of the grapheme sequence fragments included in the grapheme sequence data and composed of one or more grapheme. It is possible to map a column fragment and a grapheme column fragment. For example, the fragment creation and fragment mapping unit 220 compares the frequency (number) of the phonetic sequence fragments with the frequency (number) of the phonetic sequence fragments, and maps the phonetic symbol sequence fragments and the grapheme sequence fragments based on the ranking of the frequencies. can do. This is because fragments of phonetic symbol sequences found with high frequency and corresponding grapheme sequence fragments are also highly likely to be found with high frequency.
  • the fragment generation and fragment mapping unit 220 converts the largest number of phonetic sequence fragments (or one or more phonetic sequence fragments in the order of the greatest number) among the phonetic symbol sequence fragments included in the phonetic symbol data to plain text.
  • the mapping may be performed with a phoneme fragment having the largest number among phonemes included in the data (or one or more phoneme fragments in the order of the largest number).
  • the mapping between the phonetic symbol sequence fragment and the grapheme sequence fragment may not be a 1:1 mapping. Mapping of phonetic sequence fragments and grapheme sequence fragments involves extracting pairs of phonetic sequence fragments and grapheme sequence fragments that are likely to correspond to each other. 210) may be inaccurate, and the phonetic sequence frequently used in speech and the grapheme sequence frequently used in text may not exactly match. It may be a k:1 (here, k is a natural number) mapping.
  • the fragment generation and fragment mapping unit 220 divides all the phonetic symbol sequence fragments generated from phonetic symbol data into i equal parts (i is a natural number) to generate phonetic symbol sequence fragment bundles 300 . And, it may be assumed that the grapheme string fragment bundles 310 are generated by dividing all the grapheme string fragments generated from the grapheme string data into i equal parts. At this time, the fragment generation and fragment mapping unit 220 sets the phonetic sequence fragments and the grapheme sequence fragments bundles 310 from the (jm)-th bundle to the (j+m)-th bundle in the phonetic symbol sequence fragment bundles 300 . ), assuming that the grapheme sequence fragments from the (jm)th bundle to the (j+m)th bundle are pairs, a pair of the phonetic symbol sequence fragment and the grapheme sequence fragment can be extracted.
  • the P2G model 230 may be trained to generate one or more word candidates corresponding to the input phonetic symbol data.
  • the word candidate means a candidate of text data representing the voice data, which is the basis of the phonetic symbol data, in text, and only voice data (or text data corresponding to the voice data) that can be inferred from the phonetic symbol data is unique. is due to not doing it.
  • the P2G model 230 may be trained in a supervised learning method.
  • the P2G model 230 may be learned by using the mapping between the phonetic symbol sequence fragment and the grapheme sequence fragment.
  • the P2G model 230 may receive a plurality of phonetic symbol data generated by the acoustic model 210 and generate one or more word candidates corresponding to each of the plurality of phonetic symbol data.
  • the P2G model 230 may be a model learned (or being trained) using a neural network, probability, statistics, patterns, rules, probability graphs, and the like.
  • the language model 240 may determine any one of the one or more word candidates generated by the P2G model 230 as text data corresponding to the voice data. According to an embodiment, the language model 240 may determine any one of the word candidates as text data corresponding to the voice data based on the context.
  • the context may include one or more of a context such as grapheme, letters, and words, a sentence structure, a part-of-speech, and a sentence component. That is, the language model 240 may determine the most natural word candidate from among one or more word candidates as text data based on the context, sentence structure, part-of-speech, and sentence component of a grapheme, letter, or word.
  • the acoustic model 210 may display ⁇ " ⁇ ", “a”, " The phonetic symbol data corresponding to ⁇ ", “ ⁇ ” ⁇ is generated, and the P2G model 230 responds to the phonetic symbol data corresponding to ⁇ " ⁇ ", “a", "b”, “ ⁇ ” ⁇ as "a lot”. It is possible to generate word candidates including "and “only”. In this case, the language model 240 may determine “many” among candidates such as “many” and “only” as text data based on the context.
  • the word or word candidate may be understood as a part of a sentence.
  • the unit of the part of the sentence may be a grapheme.
  • the phonetic symbol data generated by the acoustic model 210 may not actually be in a form that can be inferred by a person, such as ⁇ " ⁇ ", “a”, “b”, “ ⁇ ” ⁇ . Also, in the early stage of learning, the phonetic sequence for 'a lot' of voice data will be generated erratically, such as ⁇ " ⁇ ", “a”, “b”, “ ⁇ ", “ ⁇ ” ⁇ , and the phonetic sequence Even if it comes out normally like ⁇ " ⁇ ", “a”, “b”, “ ⁇ ” ⁇ , there are cases where the word candidate is created erratically like " ⁇ ".
  • the above rule may be understood as a neural network or a probability graph.
  • the language model 240 transmits a back propagation value including information on text data determined based on the context to the acoustic model. It may transmit to the model 210 and/or the P2G model 230 . That is, when the acoustic model 210 generates a plurality of phonetic symbol data and the P2G model 230 generates a plurality of word candidates, the acoustic model 210 performs the final determined text data generation based on the backpropagation value.
  • a weight may be given to the contributed rule, and the P2G model 230 may give a weight to the rule contributing to the finally determined text data generation based on the back propagation value. Accordingly, the acoustic model 210 and the P2G model 230 may be trained to generate more accurate phonetic symbol data and word candidates using information about text data received from the language model 240 .
  • the method of training the P2G model 230 described with reference to FIG. 6 is a ranking of the frequency of appearance of phonetic symbols (columns) (fragments) extracted from voice data and a ranking of the frequency of appearances of grapheme (columns) (fragments) extracted from plain text data. is derived from the assumption that .
  • the method of verifying and strengthening the P2G model 230 and the acoustic model 210 described through FIGS. 4 and 6 is the acoustic model 210 and / or by notifying the P2G model 230, the part to be strengthened and the part to be weakened in the rules of the acoustic model 210 and/or the P2G model 230 can be identified, and as a result, the learning can be guided in the direction of improving the accuracy have.
  • FIG. 8 is a flowchart illustrating a method of training a voice recognition model according to an embodiment of the present invention.
  • the acoustic model 210 may receive voice data and convert the input voice data into one or more phonetic symbol data (S800).
  • the fragment creation and fragment mapping unit 220 may receive plain text data separate from voice data and convert the plain text data into grapheme sequence data ( S810 ).
  • the conversion to the grapheme data is performed after the conversion to the phonetic symbol data, but the present invention is not limited thereto. That is, the conversion to phonetic symbol data and the conversion to the grapheme data may not have precedence, and the conversion to the phonetic symbol data may be performed after the conversion to the grapheme data is first performed, and the two operations are performed simultaneously. may be performed.
  • the fragment generation and fragment mapping unit 220 may map the phonetic sequence fragments and the grapheme sequence fragments based on statistics of the phonetic symbol sequence fragments generated from the phonetic symbol data and the grapheme sequence fragments generated from the grapheme sequence data. (S820).
  • the P2G model 230 may receive the mapping of the phonetic sequence fragment and the grapheme sequence fragment, and generate one or more word candidates corresponding to the phonetic symbol data based on the mapping of the phonetic symbol sequence fragment and the grapheme sequence fragment ( S830).
  • the language model 240 may determine any one of the one or more word candidates as text data corresponding to the voice data based on the context ( S840 ).
  • the language model 240 may transmit a backpropagation value according to the text data to the acoustic model 210 as feedback for one or more phonetic symbol data converted by the acoustic model 210 . Also, the language model 240 may transmit a backpropagation value according to the text data to the P2G model 230 as feedback for one or more word candidates generated by the P2G model 230 .
  • the acoustic model 210 , the fragment generation and fragment mapping unit 220 , and/or the P2G model 230 give weights to the above steps ( S300 to S340 ) using the backpropagation value received from the language model 240 . By giving, more can be learned.
  • the acoustic model 210 may be further learned by weighting the neural network, rule, probability graph, etc. involved in the generation of phonetic symbol data based on the word candidate determined as the text data, using the back propagation value.
  • the fragment generation and fragment mapping unit 220 uses the back propagation value to weight the neural networks, rules, probability graphs, etc. involved in the mapping of the phonetic symbol sequence fragment and the grapheme sequence fragment based on the word candidate determined as the text data. By giving , more can be learned.
  • the P2G model 230 may be further learned by assigning weights to a neural network, a rule, a probability graph, etc. involved in generating a word candidate determined from the text data, using the back propagation value.
  • Combinations of each block in the block diagram attached to the present invention and each step in the flowchart may be performed by computer program instructions.
  • These computer program instructions may be embodied in an encoding processor of a general purpose computer, special purpose computer, or other programmable data processing equipment, such that the instructions executed by the encoding processor of the computer or other programmable data processing equipment may correspond to each block of the block diagram or
  • Each step of the flowchart creates a means for performing the functions described.
  • These computer program instructions may also be stored in a computer-usable or computer-readable memory which may direct a computer or other programmable data processing equipment to implement a function in a particular manner, and thus the computer-usable or computer-readable memory.
  • the instructions stored in the block diagram may also produce an item of manufacture containing instruction means for performing the functions described in each block in the block diagram or in each step in the flowchart.
  • the computer program instructions may also be mounted on a computer or other programmable data processing equipment, such that a series of operational steps are performed on the computer or other programmable data processing equipment to create a computer-executed process to create a computer or other programmable data processing equipment. It is also possible that instructions for performing the processing equipment provide steps for carrying out the functions described in each block of the block diagram and each step of the flowchart.
  • each block or each step may represent a module, segment, or portion of code that includes one or more executable instructions for executing the specified logical function(s). It should also be noted that in some alternative embodiments it is also possible for the functions recited in blocks or steps to occur out of order. For example, it is possible that two blocks or steps shown one after another may in fact be performed substantially simultaneously, or that the blocks or steps may sometimes be performed in the reverse order according to the corresponding function.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 일 실시 예에 따른 음성 데이터를 텍스트 데이터로 변환하도록 음성 인식 모델을 학습시키는 방법은, 상기 음성 데이터를 입력받는 단계; 상기 음성 인식 모델을 이용하여, 상기 음성 데이터를 하나 이상의 발음기호데이터로 변환하는 단계; 상기 음성 인식 모델을 이용하여, 상기 하나 이상의 발음기호 데이터에 대응되는 하나 이상의 단어 후보들을 생성하는 단계; 상기 음성 인식 모델을 이용하여, 컨텍스트에 기초하여 단어 후보들 중에서 어느 하나를 상기 음성 데이터에 대응하는 상기 텍스트 데이터로 결정하는 단계; 및 상기 텍스트 데이터에 기초하여 생성된 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보의 생성과 관련된 하나 이상의 규칙에 가중치를 부여하는 단계를 포함할 수 있다.

Description

음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
본 발명은 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치에 관한 것이다.
음성 인식(Speech-To-Text)은 입력된 음성에 맞는 텍스트를 생성하는 기술이다.
음성 인식 장치의 학습 과정은 통상적으로, 음성 데이터 및 음성 데이터에 대응되는 텍스트 데이터(음성-텍스트 병렬 데이터)를 확보하는 과정, 텍스트 기호(음소, 자소)를 음성 기호(발음 기호)로 변환하는 P2G(Phoneme-to-Grapheme) 기술을 확보하는 과정, P2G를 이용하여 음성-텍스트 기호 병렬 데이터를 음성-음성 기호 병렬 데이터로 변환하는 과정, 음성 데이터로부터 음성 기호를 생성할 수 있도록 음향 모델을 학습시키는 과정, 대용량 텍스트를 이용하여 언어모델을 학습시키는 과정 등을 거친다.
이때, 음성 데이터에 대응되는 텍스트 기호는 발음기호로 표기되지 않고 통상 표준 표기법에 따른 일반 문자로 표기되는데, 이는 상기 음성-텍스트 기호 병렬 데이터를 음성 기호로 표현한 음성-음성 기호 병렬 데이터를 확보하는 데는 음성-텍스트 병렬 데이터를 확보하는데 비해 몇 배의 비용과 시간이 드는 문제가 있기 때문이다.
하지만 일반 문자로 표기된 음성-텍스트 기호 병렬 데이터를 확보하는 데에도 시간과 비용이 많이 들어 이를 개선할 필요가 있다.
본 발명이 해결하고자 하는 과제는, 따라서, 음성-텍스트 병렬 데이터 및 음성-음성 기호 병렬 데이터를 확보하지 않고도 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 모델을 이용하여 음성 데이터를 텍스트 데이터로 변환하는 음성 인식 장치를 제공하는 것이다.
다만, 본 발명이 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시 예에 따른 음성 데이터를 텍스트 데이터로 변환하도록 음성 인식 모델을 학습시키는 방법은, 상기 음성 데이터를 입력받는 단계; 상기 음성 인식 모델을 이용하여, 상기 음성 데이터를 하나 이상의 발음기호 데이터로 변환하는 단계; 상기 음성 인식 모델을 이용하여, 상기 하나 이상의 발음기호 데이터에 대응되는 하나 이상의 단어 후보들을 생성하는 단계; 상기 음성 인식 모델을 이용하여, 컨텍스트에 기초하여 단어 후보들 중에서 어느 하나를 상기 음성 데이터에 대응하는 상기 텍스트 데이터로 결정하는 단계; 및 상기 텍스트 데이터에 기초하여 생성된 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보의 생성과 관련된 하나 이상의 규칙에 가중치를 부여하는 단계를 포함할 수 있다.
상기 하나 이상의 단어 후보들을 생성하는 단계는, 상기 발음기호 데이터로부터 생성된 발음기호열 조각과 일반 텍스트 데이터로부터 생성된 자소열 조각의 매핑에 기초하여 상기 하나 이상의 단어 후보들을 생성할 수 있다.
상기 하나 이상의 단어 후보들을 생성하는 단계는, 상기 발음기호 데이터로부터 생성된 발음기호열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 발음기호열 조각을 상기 일반 텍스트 데이터로부터 생성된 자소열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 자소열 조각과 매핑하고, 상기 하나 이상의 발음기호열 조각 및 상기 하나 이상의 자소열 조각의 매핑을 이용하여 상기 하나 이상의 단어들을 생성할 수 있다.
상기 역전파 값은 상기 텍스트 데이터로 결정된 단어 후보에 기초되는 발음기호 데이터의 생성에 관련된 규칙에 가중치를 부여하는데 이용될 수 있다.
상기 역전파 값은 상기 텍스트 데이터로 결정된 단어 후보에 기초되는 발음기호열 조각 및 자소열 조각의 매핑에 관련된 규칙에 가중치를 부여하는 데 이용될 수 있다.
상기 역전파 값은 상기 텍스트 데이터로 결정된 단어 후보에 관련된 규칙에 가중치를 부여하는 데 이용될 수 있다.
상기 컨텍스트는 자소, 글자 또는 형태소를 포함하는 문맥, 문장 구조, 품사 및 문장 성분 중에서 하나 이상을 포함할 수 있다.
본 발명의 다른 실시 예에 따른 음성 인식 모델을 실행하여 음성 데이터를 텍스트 데이터로 변환하는 음성 인식 장치는, 상기 음성 데이터를 입력받는 입출력기; 상기 음성 인식 모델에 대한 정보를 저장하는 메모리; 및 상기 음성 인식 모델을 실행하여 상기 음성 데이터를 상기 텍스트 데이터로 변환하는 프로세서를 포함하고, 상기 음성 인식 모델은, 상기 음성 인식 모델을 이용하여, 상기 음성 데이터를 하나 이상의 발음기호 데이터로 변환하고, 상기 음성 인식 모델을 이용하여, 상기 하나 이상의 발음기호 데이터에 대응되는 하나 이상의 단어 후보들을 생성하고, 상기 음성 인식 모델을 이용하여, 컨텍스트에 기초하여 단어 후보들 중에서 어느 하나를 상기 음성 데이터에 대응하는 상기 텍스트 데이터로 결정하고, 상기 텍스트 데이터에 기초하여 생성된 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보의 생성과 관련된 하나 이상의 규칙에 가중치를 부여할 수 있다.
본 발명의 실시 예에 의하면, 음성-텍스트 병렬 데이터 및 음성-음성 기호 병렬 데이터를 확보하지 않고도 음성 인식 모델을 학습시킬 수 있으므로, 음성 인식을 수행하는데 필요한 시간 및 비용을 획기적으로 줄일 수 있는 효과가 있다.
도 1은 본 발명의 일 실시 예에 따른 음성 인식 장치를 나타내는 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 음성 인식 모델을 학습시키는 방법을 개념적으로 나타낸 블록도이다.
도 3은 본 발명의 일 실시 예에 따라 발음기호열 조각과 자소열 조각을 매핑하는 방법을 나타낸다.
도 4는 본 발명의 일 실시 예에 따른 음향 모델의 기능을 나타내는 블록도이다.
도 5는 본 발명의 일 실시 예에 따른 조각 생성 및 조각 매핑부의 기능을 나타내는 블록도이다.
도 6은 본 발명의 일 실시 예에 따른 P2G 모델의 기능을 나타내는 블록도이다.
도 7은 본 발명의 일 실시 예에 따른 언어 모델의 기능을 나타내는 블록도이다.
도 8은 본 발명의 일 실시 예에 따라 음성 인식 모델을 학습시키는 방법을 나타내는 흐름도이다.
본 발명은 최선의 형태로,
음성 데이터를 텍스트 데이터로 변환하도록 음성 인식 모델을 학습시키는 방법에 있어서, 상기 음성 데이터를 입력받는 단계; 상기 음성 인식 모델을 이용하여, 상기 음성 데이터를 하나 이상의 발음기호 데이터로 변환하는 단계; 상기 음성 인식 모델을 이용하여, 상기 하나 이상의 발음기호 데이터에 대응되는 하나 이상의 단어 후보들을 생성하는 단계; 상기 음성 인식 모델을 이용하여, 컨텍스트에 기초하여 단어 후보들 중에서 어느 하나를 상기 음성 데이터에 대응하는 상기 텍스트 데이터로 결정하는 단계; 및 상기 텍스트 데이터에 기초하여 생성된 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보의 생성과 관련된 하나 이상의 규칙에 가중치를 부여하는 단계를 포함하고,
상기 하나 이상의 단어 후보들을 생성하는 단계는,
상기 발음기호 데이터로부터 생성된 발음기호열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 발음기호열 조각을 일반 텍스트 데이터로부터 생성된 자소열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 자소열 조각과 매핑하고, 상기 하나 이상의 발음기호열 조각 및 상기 하나 이상의 자소열 조각의 매핑을 이용하여 상기 하나 이상의 단어들을 생성하는 음성 인식 모델 학습 방법을 제시한다.
또한, 본 발명은 최선의 형태로,
음성 인식 모델을 실행하여 음성 데이터를 텍스트 데이터로 변환하는 음성 인식 장치에 있어서, 상기 음성 데이터를 입력받는 입출력기; 상기 음성 인식 모델에 대한 정보를 저장하는 메모리; 및 상기 음성 인식 모델을 실행하여 상기 음성 데이터를 상기 텍스트 데이터로 변환하는 프로세서를 포함하고,
상기 음성 인식 모델은,
상기 음성 인식 모델을 이용하여, 상기 음성 데이터를 하나 이상의 발음기호 데이터로 변환하고,
상기 음성 인식 모델을 이용하여, 상기 하나 이상의 발음기호 데이터에 대응되는 하나 이상의 단어 후보들을 생성하고,
상기 음성 인식 모델을 이용하여, 컨텍스트에 기초하여 단어 후보들 중에서 어느 하나를 상기 음성 데이터에 대응하는 상기 텍스트 데이터로 결정하고,
상기 텍스트 데이터에 기초하여 생성된 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보의 생성과 관련된 하나 이상의 규칙에 가중치를 부여하고,
상기 음성 데이터와는 구분되는 일반 텍스트 데이터를 하나 이상의 자소열 데이터로 변환하고,
상기 발음기호 데이터로부터 생성된 발음기호열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 발음기호열 조각을 상기 자소열 데이터로부터 생성된 자소열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 자소열 조각과 매핑하고, 상기 하나 이상의 발음기호열 조각 및 상기 하나 이상의 자소열 조각의 매핑을 이용하여 상기 하나 이상의 단어 후보들을 생성하는 음성 인식 장치를 제시한다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시 예에 따른 음성 인식 장치를 나타내는 블록도이다.
도 1을 참조하면, 음성 인식 장치(100)는 프로세서(110), 입출력기(120) 및 메모리(130)를 포함할 수 있다.
프로세서(110)는 음성 인식 장치(100)의 동작(기능)을 전반적으로 제어할 수 있다.
프로세서(110)는 입출력기(120)를 이용하여 하나 이상의 음성 데이터를 입력받을 수 있다.
입출력기(120)는 하나 이상의 입력기 및/또는 하나 이상의 출력기를 포함할 수 있다. 예컨대, 입출력기는 마이크, 키보드, 마우스, 터치 스크린 등의 입력기 및/또는 디스플레이, 스피커 등의 출력기를 포함할 수 있다.
실시 예에 따라, 프로세서(110)는 송수신기(미도시)를 이용하여 하나 이상의 음성 데이터를 수신할 수 있다.
메모리(130)는 음성 인식 모델(200) 및 음성 인식 모델(200)을 실행하는데 필요한 정보들을 저장할 수 있다.
프로세서(110)는 음성 인식 모델(200)을 실행하기 위하여 메모리(130)로부터 음성 인식 모델(200) 및 음성 인식 모델(200)을 실행하는데 필요한 정보들을 로드할 수 있다.
프로세서(110)는, 음성 인식 모델(200)을 실행하여, 입출력기(120)를 이용하여 입력된 음성 데이터를 대응하는 텍스트 데이터로 변환하고, 변환된 결과를 입출력기(120)를 통해 출력할 수 있다.
음성 인식 모델(200)은 음성 인식을 수행하기 위해 기 학습된 또는 학습 중인 모델(프로그램)이거나, 음성 인식을 수행하기 위해 기 학습된 또는 학습 중인 모델(프로그램)을 포함할 수 있다.
실시 예에 따라, 프로세서(110)는 변환된 결과를 송수신기(미도시)를 통해 전송할 수 있다.
도 2는 본 발명의 일 실시 예에 따른 음성 인식 모델을 학습시키는 방법을 개념적으로 나타낸 블록도이고, 도 3은 본 발명의 일 실시 예에 따라 발음기호열 조각과 자소열 조각을 매핑하는 방법을 나타내고, 도 4는 본 발명의 일 실시 예에 따른 음향 모델의 기능을 나타내는 블록도이고, 도 5는 본 발명의 일 실시 예에 따른 조각 생성 및 조각 매핑부의 기능을 나타내는 블록도이고, 도 6은 본 발명의 일 실시 예에 따른 P2G 모델의 기능을 나타내는 블록도이고, 도 7은 본 발명의 일 실시 예에 따른 언어 모델의 기능을 나타내는 블록도이다.
도 2를 참조하면, 음성 인식 모델(200)은 음향 모델(210), 조각 생성 및 조각 매핑부(220), P2G 모델(230) 및 언어 모델(240)을 포함할 수 있다.
도 2에 도시된 음향 모델(210), 조각 생성 및 조각 매핑부(220), P2G 모델(230) 및 언어 모델(240)은 음성 인식 모델(200)의 기능을 쉽게 설명하기 위하여 음성 인식 모델(200)의 기능을 개념적으로 나눈 것으로서, 이에 한정되지 않는다. 실시 예들에 따라, 음향 모델(210), 조각 생성 및 조각 매핑부(220), P2G 모델(230) 및 언어 모델(240)은 하나의 프로그램에 포함된 일련의 명령어들로 구현될 수 있고, 또는 각각이 하나의 프로그램(소프트웨어)으로 구현될 수도 있다.
본 명세서에서는 설명의 편의를 위해 음성 인식 모델(200)에 포함된 음향 모델(210) 및/또는 P2G 모델(230)이 학습되는 것으로 설명하였지만, 이에 한정되지 않는다. 즉, 실시 예에 따라, 음성 인식 모델(200)의 일부로서 음향 모델(210) 및/또는 P2G 모델(230)이 학습되는 것이 아니라 음성 인식 모델(200) 그 자체가 학습될 수도 있다.
또한, 본 명세서에서 모델이라 함은 본 명세서에서 설명되는 각각의 명칭에 따른 기능과 동작을 수행할 수 있는 명령어들로 구성된 컴퓨터 프로그램을 의미할 수 있다. 즉, 음성 인식 모델(200)은, 프로세서에 의해 실행되고, 메모리에 저장되는 컴퓨터 프로그램(애플리케이션 소프트웨어)의 일종일 수 있다.
도 4을 더 참조하면, 음향 모델(210)은 음성 데이터를 입력받고, 입력된 음성 데이터를 대응하는 발음기호 데이터로 변환할 수 있다. 여기서 발음기호 데이터란, 음성의 형태로 나타내어지는 음성 데이터의 발음을 기호의 형태로 나타낸 데이터를 의미할 수 있다. 예컨대, 음향 모델(210)이 "밥먹는"에 해당하는 음성 데이터를 입력받는 경우, 음향 모델(210)은 "밥먹는"의 발음에 해당하는 {"ㅂ", "ㅏ", "ㅁ", "ㅁ", "ㅓ", "ㅇ", "ㄴ", "ㅡ", "ㄴ"}을 나타내는 발음기호 데이터를 생성할 수 있다. 상기 발음기호 데이터는 하나 이상의 발음기호열을 포함할 수 있다.
실시 예에 따라, 음향 모델(210)은 음성 데이터를 이용하여 복수의 발음기호 데이터를 생성할 수 있다. 즉, 음향 모델(210)의 학습의 정도에 따라 음향 모델(210)이 생성하는 발음기호 데이터가 부정확할 수 있으므로, 음향 모델(210)은 하나의 음성 데이터를 변환한 결과로서 정답의 가능성이 있는 복수의 발음기호 데이터를 생성할 수 있다.
실시 예에 따라, 음향 모델(210)은 기 학습된 또는 학습 중인 인공 신경망일 수도 있고, 확률, 통계, 패턴, 규칙, 확률 그래프 등을 이용하여 학습된(또는 학습 중인) 모델일 수도 있다.
도 5를 더 참조하면, 조각 생성 및 조각 매핑부(220)는 음향 모델(210)에서 생성된 발음기호 데이터로부터 복수의 발음기호열 조각들을 생성할 수 있다. 발음기호 데이터는 하나 이상의 발음기호열을 포함할 수 있고, 발음기호열은 발음기호들을 포함할 수 있다. 조각 생성 및 조각 매핑부(220)는 하나 이상의 발음기호열 각각에 포함된 발음기호들에서 하나 이상의 발음기호들을 추출하여 발음기호열 조각을 생성할 수 있다. 상기 발음기호열 조각은 발음기호열마다 조각의 시작과 끝을 선택하는 경우의 수(nH2, 길이 n의 발음기호열에서 시작 위치 하나와 끝 위치 하나 총 2개의 위치를 선택하는 경우의 수)만큼 생성될 수 있다.
또한, 조각 생성 및 조각 매핑부(220)는 음성 데이터와는 별개의 일반 텍스트 데이터를 입력 받고, 일반 텍스트 데이터를 자소열 데이터로 변환할 수 있다.
조각 생성 및 조각 매핑부(220)는 자소열 데이터로부터 복수의 자소열 조각들을 생성할 수 있다. 상기 자소열 데이터는 하나 이상의 자소열을 포함할 수 있고, 자소열은 자소들을 포함할 수 있다. 조각 생성 및 조각 매핑부(220)는 하나 이상의 자소열 각각에 포함된 자소들에서 하나 이상의 자소들을 추출하여 자소열 조각을 생성할 수 있다. 상기 자소열 조각은 자소열마다 조각의 시작과 끝을 선택하는 경우의 수(nH2, 길이 n의 자소열에서 시작 위치 하나와 끝 위치 하나 총 2개의 위치를 선택하는 경우의 수)만큼 생성될 수 있다.
조각 생성 및 조각 매핑부(220)는 발음기호 데이터에 포함되고 하나 이상의 발음기호로 구성된 발음기호열 조각의 통계와 자소열 데이터에 포함되고 하나 이상의 자소로 구성된 자소열 조각의 통계에 기초하여 발음기호열 조각과 자소열 조각을 매핑할 수 있다. 예컨대, 조각 생성 및 조각 매핑부(220)는 발음기호열 조각의 빈도(개수)와 자소열 조각의 빈도(개수)를 비교하고, 빈도의 순위에 기초하여 발음기호열 조각과 자소열 조각을 매핑할 수 있다. 이는 높은 빈도로 발견되는 발음기호열 조각과 대응되는 자소열 조각 역시 높은 빈도로 발견될 가능성이 높기 때문이다.
예컨대, 조각 생성 및 조각 매핑부(220)는 발음기호 데이터에 포함된 발음기호열 조각 중에서 개수가 가장 많은 발음기호열 조각(또는 개수가 가장 많은 순으로 하나 이상의 발음기호열 조각들)을 일반 텍스트 데이터에 포함된 음소들 중에서 개수가 가장 많은 음소 조각(또는 개수가 가장 많은 순으로 하나 이상의 음소 조각들)과 매핑할 수 있다.
실시 예에 따라, 발음기호열 조각과 자소열 조각의 매핑은 1:1 매핑이 아닐 수 있다. 발음기호열 조각과 자소열 조각의 매핑은 서로 대응될 가능성이 있는 발음기호열 조각과 자소열 조각의 쌍을 추출하는데 있는데, 음성에서 자주 쓰이는 단어는 텍스트에서도 자주 쓰일 것으로 예측할 수 있지만, 음향 모델(210)이 생성한 발음기호 데이터가 부정확할 가능성이 있으며 음성에서 자주 쓰이는 발음기호열과 텍스트에서 자주 쓰이는 자소열이 정확히 일치하지 않을 수 있으므로, 발음기호열 조각과 자소열 조각의 매핑은 1:k 또는 k:1 (여기서, k는 자연수) 매핑일 수 있다.
예컨대, 도 3을 참조하면, 조각 생성 및 조각 매핑부(220)가 발음기호 데이터로부터 생성된 발음기호열 조각들 전체를 i등분(i는 자연수)하여 발음기호열 조각 묶음들(300)을 생성하고, 자소열 데이터로부터 생성된 자소열 조각들 전체를 i등분하여 자소열 조각 묶음들(310)을 생성하는 경우를 가정할 수 있다. 이때, 조각 생성 및 조각 매핑부(220)는 발음기호열 조각 묶음들(300)에서 (j-m)번째 묶음부터 (j+m)번째 묶음까지의 발음기호열 조각들과 자소열 조각 묶음들(310)에서 (j-m)번째 묶음부터 (j+m)번째 묶음까지의 자소열 조각들이 서로 쌍이라고 가정하고, 발음기호열 조각과 자소열 조각의 쌍을 추출할 수 있다.
도 6을 더 참조하면, P2G 모델(230)은 음향 모델(210)에서 생성한 발음기호 데이터가 입력되는 경우 입력되는 발음기호 데이터에 대응되는 하나 이상의 단어 후보를 생성하도록 학습될 수 있다. 여기서, 단어 후보란, 발음 기호 데이터의 기초가 된 음성 데이터를 텍스트로 나타낸 텍스트 데이터의 후보를 의미하는 것으로서, 발음기호 데이터로부터 유추할 수 있는 음성 데이터(또는 음성 데이터에 대응하는 텍스트 데이터)가 유일하지 않음에 기인한 것이다.
실시 예에 따라, P2G 모델(230)은 지도 학습(supervised learning) 방식으로 학습될 수 있다. P2G 모델(230)은 발음기호열 조각과 자소열 조각의 매핑을 이용하여 학습될 수 있다.
예컨대, 발음기호 데이터가 {"ㅁ", "ㅏ", "ㄴ", "ㅣ"}를 나타내는 경우, {"ㅁ", "ㅏ", "ㄴ", "ㅣ"}로부터 유추될 수 있는 음성 데이터(또는 텍스트 데이터)는 "많이", "마니", "만이" 등이 될 수 있으므로, 상기 단어 후보들은 "많이", "마니", "만이"를 포함할 수 있다.
P2G 모델(230)은 음향 모델(210)이 생성한 복수의 발음기호 데이터를 입력받고, 복수의 발음기호 데이터 각각에 대응되는 하나 이상의 단어 후보를 생성할 수 있다.
실시 예에 따라, P2G 모델(230)은 신경망, 확률, 통계, 패턴, 규칙, 확률 그래프 등을 이용하여 학습된(또는 학습 중인) 모델일 수 있다.
도 7을 더 참조하면, 언어 모델(240)은 P2G 모델(230)에서 생성한 하나 이상의 단어 후보들 중에서 어느 하나를 음성 데이터에 대응하는 텍스트 데이터로 결정할 수 있다. 실시 예에 따라, 언어 모델(240)은 컨텍스트에 기초하여 단어 후보들 중에서 어느 하나를 음성 데이터에 대응하는 텍스트 데이터로 결정할 수 있다. 컨텍스트는 자소, 글자, 단어 등의 문맥, 문장 구조, 품사 및 문장 성분 중에서 하나 이상을 포함할 수 있다. 즉, 언어 모델(240)은 자소, 글자, 단어 등의 문맥, 문장 구조, 품사 및 문장 성분 등에 기초하여 하나 이상의 단어 후보들 중에서 가장 자연스러운 단어 후보를 텍스트 데이터로 결정할 수 있다.
예컨대, 음향 모델(210)에 입력된 음성 데이터가 "나는 과일을 많이 먹습니다"인 경우, 음향 모델(210)은 음성 데이터에 포함된 "많이"에 대해 {"ㅁ", "ㅏ", "ㄴ", "ㅣ"}에 해당하는 발음기호 데이터를 생성하고, P2G 모델(230)은 {"ㅁ", "ㅏ", "ㄴ", "ㅣ"}에 해당하는 발음기호 데이터에 대하여 "많이" 및 "만이"를 포함하는 단어 후보들을 생성할 수 있다. 이때, 언어 모델(240)은 컨텍스트에 기초하여 "많이" 및 "만이" 등의 후보 중에서 "많이"를 텍스트 데이터로 결정할 수 있다.
상기 단어나 단어 후보는 문장의 일부분으로 바꿔 이해할 수 있다. 상기 문장의 일부분의 단위는 자소일 수 있다.
음향 모델(210)에서 생성된 발음기호 데이터가 실제로는 {"ㅁ", "ㅏ", "ㄴ", "ㅣ"}처럼 사람이 유추할 수 있는 형태가 아닐 수 있다. 또한, 학습 초기에는 음성 데이터 '많이'에 대한 발음기호열이 {"ㅓ", "ㅏ", "ㄴ", "ㅡ", "ㅣ"}와 같이 엉뚱하게 생성되는 것도 있을 것이고, 발음기호열이 {"ㅁ", "ㅏ", "ㄴ", "ㅣ"}처럼 정상적으로 나왔더라도 단어 후보가 "ㅓㅏ늬"처럼 엉뚱하게 생성되는 경우도 있다. 다만, 이런 것들은, 언어 모델(240)의 역전파 값을 이용하여, 관련된 생성(변환) 규칙에 부정적인(마이너스) 가중치가 부여되거나 또는 올바르게 생성된(변환된) 데이터에 관련된 생성(변환) 규칙에 긍정적인(플러스) 가중치가 부여됨으로써 학습에서 배제될 수 있다.
전체적으로 학습 초기에는 부적절한 결과가 생성될 수도 있지만 학습 초기에 잘못 형성된 규칙은 도태되고 새로운 올바르게 형성된 규칙이 부각됨으로써, 음향 모델(210) 및/또는 P2G 모델(230)은 더 효율적이고 부작용이 적은 방향으로 학습될 수 있다.
상기 규칙은 신경망이나 확률그래프 등으로 바꿔 이해될 수도 있다.
이를 위해, 언어 모델(240)은, 음향 모델(210) 및/또는 P2G 모델(230)을 학습시키기 위하여, 컨텍스트에 기초하여 결정된 텍스트 데이터에 대한 정보를 포함하는 역전파(back propagation) 값을 음향 모델(210) 및/또는 P2G모델(230)로 전송할 수 있다. 즉, 음향 모델(210)이 복수의 발음기호 데이터를 생성하고, P2G 모델(230)이 복수의 단어 후보들을 생성하는 경우, 음향 모델(210)은 역전파 값에 기초하여 최종 결정된 텍스트 데이터 생성에 기여한 규칙에 가중치를 부여할 수 있고, P2G 모델(230)은 역전파 값에 기초하여 최종 결정된 텍스트 데이터 생성에 기여한 규칙에 가중치를 부여할 수 있다. 따라서, 음향 모델(210) 및 P2G 모델(230)은 언어 모델(240)로부터 수신한 텍스트 데이터에 대한 정보를 이용하여 보다 정확한 발음기호 데이터 및 단어 후보를 생성하도록 훈련될 수 있다.
도 6을 통해 설명한 P2G 모델(230)을 학습시키는 방법은 음성 데이터에서 추출한 발음기호(열)(조각)의 출현 빈도의 순위와 일반 텍스트 데이터에서 추출한 자소(열)(조각)의 출현 빈도의 순위는 유사할 것이라는 가정으로부터 비롯된 것으로서, 이러한 방법을 이용할 경우, 음성 데이터에 대응되는 텍스트 데이터가 확보되지 않더라도 P2G 모델(230)을 학습시킬 학습 데이터를 확보할 수 있다.
도 4 및 도 6을 통해 설명한 P2G 모델(230) 및 음향 모델(210)을 검증하고 모델을 강화시키는 방법은 언어 모델(240)을 통해 P2G의 결과 중 잘 된 것과 잘못된 것을 음향 모델(210) 및/또는 P2G 모델(230)에게 알려줌으로써 음향 모델(210) 및/또는 P2G 모델(230)의 규칙에서 강화시킬 부분과 약화시킬 부분을 확인할 수 있고 결과적으로 정확도를 향상시키는 방향으로 학습을 인도할 수 있다.
도 8은 본 발명의 일 실시 예에 따라 음성 인식 모델을 학습시키는 방법을 나타내는 흐름도이다.
도 2 내지 도 8을 참조하면, 음향 모델(210)은 음성 데이터를 입력받고, 입력된 음성 데이터를 하나 이상의 발음기호 데이터로 변환할 수 있다(S800).
조각 생성 및 조각 매핑부(220)는 음성 데이터와는 별개의 일반 텍스트 데이터를 입력 받고, 일반 텍스트 데이터를 자소열 데이터로 변환할 수 있다(S810).
도 8에서는 설명의 편의를 위하여, 발음기호 데이터로의 변환 후에 자소열 데이터로의 변환이 실행되는 것으로 도시하였지만, 이에 한정되지 않는다. 즉, 발음기호 데이터로의 변환과 자소열 데이터로의 변환은 선후가 없을 수 있으며, 자소열 데이터로의 변환이 먼저 수행된 이후에 발음기호 데이터로의 변환이 수행될 수도 있으며, 두 동작이 동시에 수행될 수도 있다.
조각 생성 및 조각 매핑부(220)는 발음기호 데이터로부터 생성된 발음기호열 조각의 통계와 자소열 데이터로부터 생성된 자소열 조각의 통계에 기초하여 발음기호열 조각과 자소열 조각을 매핑할 수 있다(S820).
P2G 모델(230)은 발음기호열 조각과 자소열 조각의 매핑을 입력받고, 발음기호열 조각과 자소열 조각의 매핑에 기초하여 상기 발음기호 데이터에 대응되는 하나 이상의 단어 후보들을 생성할 수 있다(S830).
언어 모델(240)은 컨텍스트에 기초하여 하나 이상의 단어 후보들 중에서 어느 하나를 음성 데이터에 대응하는 텍스트 데이터로 결정할 수 있다(S840).
언어 모델(240)은, 음향 모델(210)이 변환한 하나 이상의 발음기호 데이터에 대한 피드백으로서, 상기 텍스트 데이터에 따른 역전파 값을 음향 모델(210)로 전송할 수 있다. 또한, 언어 모델(240)은 P2G 모델(230)이 생성한 하나 이상의 단어 후보들에 대한 피드백으로서, 상기 텍스트 데이터에 따른 역전파 값을 P2G 모델(230)로 전송할 수 있다.
음향 모델(210), 조각 생성 및 조각 매핑부(220) 및/또는 P2G 모델(230)은 언어 모델(240)로부터 수신한 역전파 값을 이용하여 위의 단계들(S300 내지 S340)에 가중치를 부여함으로써, 더 학습될 수 있다.
즉, 음향 모델(210)은, 상기 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보에 기초되는 발음기호 데이터의 생성에 관여한 신경망, 규칙, 확률 그래프 등에 가중치를 부여함으로써, 더 학습될 수 있다.
조각 생성 및 조각 매핑부(220)는, 상기 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보에 기초되는 발음기호열 조각 및 자소열 조각의 매핑에 관여한 신경망, 규칙, 확률 그래프 등에 가중치를 부여함으로써, 더 학습될 수 있다.
P2G 모델(230)은, 상기 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보의 생성에 관여한 신경망, 규칙, 확률 그래프 등에 가중치를 부여함으로써, 더 학습될 수 있다.
본 발명에 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방법으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (12)

  1. 음성 데이터를 텍스트 데이터로 변환하도록 음성 인식 모델을 학습시키는 방법에 있어서,
    상기 음성 데이터를 입력받는 단계;
    상기 음성 인식 모델을 이용하여, 상기 음성 데이터를 하나 이상의 발음기호 데이터로 변환하는 단계;
    상기 음성 인식 모델을 이용하여, 상기 하나 이상의 발음기호 데이터에 대응되는 하나 이상의 단어 후보들을 생성하는 단계;
    상기 음성 인식 모델을 이용하여, 컨텍스트에 기초하여 단어 후보들 중에서 어느 하나를 상기 음성 데이터에 대응하는 상기 텍스트 데이터로 결정하는 단계; 및
    상기 텍스트 데이터에 기초하여 생성된 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보의 생성과 관련된 하나 이상의 규칙에 가중치를 부여하는 단계를 포함하고,
    상기 하나 이상의 단어 후보들을 생성하는 단계는,
    상기 발음기호 데이터로부터 생성된 발음기호열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 발음기호열 조각을 일반 텍스트 데이터로부터 생성된 자소열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 자소열 조각과 매핑하고, 상기 하나 이상의 발음기호열 조각 및 상기 하나 이상의 자소열 조각의 매핑을 이용하여 상기 하나 이상의 단어들을 생성하는 음성 인식 모델 학습 방법.
  2. 제1 항에 있어서,
    상기 역전파 값은 상기 텍스트 데이터로 결정된 단어 후보에 기초되는 발음기호 데이터의 생성에 관련된 규칙에 가중치를 부여하는데 이용되는 음성 인식 모델 학습 방법.
  3. 제1 항에 있어서,
    상기 역전파 값은 상기 텍스트 데이터로 결정된 단어 후보에 기초되는 발음기호열 조각 및 자소열 조각의 매핑에 관련된 규칙에 가중치를 부여하는 데 이용되는 음성 인식 모델 학습 방법.
  4. 제1 항에 있어서,
    상기 역전파 값은 상기 텍스트 데이터로 결정된 단어 후보에 관련된 규칙에 가중치를 부여하는 데 이용되는 음성 인식 모델 합습 방법.
  5. 제1 항에 있어서,
    상기 컨텍스트는 자소, 글자 또는 형태소를 포함하는 문맥, 문장 구조, 품사 및 문장 성분 중에서 하나 이상을 포함하는 음성 인식 모델 학습 방법.
  6. 음성 인식 모델을 실행하여 음성 데이터를 텍스트 데이터로 변환하는 음성 인식 장치에 있어서,
    상기 음성 데이터를 입력받는 입출력기;
    상기 음성 인식 모델에 대한 정보를 저장하는 메모리; 및
    상기 음성 인식 모델을 실행하여 상기 음성 데이터를 상기 텍스트 데이터로 변환하는 프로세서를 포함하고,
    상기 음성 인식 모델은,
    상기 음성 인식 모델을 이용하여, 상기 음성 데이터를 하나 이상의 발음기호 데이터로 변환하고,
    상기 음성 인식 모델을 이용하여, 상기 하나 이상의 발음기호 데이터에 대응되는 하나 이상의 단어 후보들을 생성하고,
    상기 음성 인식 모델을 이용하여, 컨텍스트에 기초하여 단어 후보들 중에서 어느 하나를 상기 음성 데이터에 대응하는 상기 텍스트 데이터로 결정하고,
    상기 텍스트 데이터에 기초하여 생성된 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보의 생성과 관련된 하나 이상의 규칙에 가중치를 부여하고,
    상기 음성 데이터와는 구분되는 일반 텍스트 데이터를 하나 이상의 자소열 데이터로 변환하고,
    상기 발음기호 데이터로부터 생성된 발음기호열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 발음기호열 조각을 상기 자소열 데이터로부터 생성된 자소열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 자소열 조각과 매핑하고, 상기 하나 이상의 발음기호열 조각 및 상기 하나 이상의 자소열 조각의 매핑을 이용하여 상기 하나 이상의 단어 후보들을 생성하는 음성 인식 장치.
  7. 제6 항에 있어서,
    상기 역전파 값은 상기 텍스트 데이터로 결정된 단어 후보에 기초되는 발음기호 데이터의 생성에 관련된 규칙에 가중치를 부여하는데 이용되는 음성 인식 장치.
  8. 제6 항에 있어서,
    상기 역전파 값은 상기 텍스트 데이터로 결정된 단어 후보에 기초되는 발음기호열 조각 및 자소열 조각의 매핑에 관련된 규칙에 가중치를 부여하는 데 이용되는 음성 인식 장치.
  9. 제6 항에 있어서,
    상기 역전파 값은 상기 텍스트 데이터로 결정된 단어 후보에 관련된 규칙에 가중치를 부여하는 데 이용되는 음성 인식 장치.
  10. 제6 항에 있어서,
    상기 컨텍스트는 자소, 글자 또는 형태소를 포함하는 문맥, 문장 구조, 품사 및 문장 성분 중에서 하나 이상을 포함하는 음성 인식 장치.
  11. 컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,
    상기 컴퓨터 프로그램은,
    제1 항, 제2 항 내지 제5 항 중 어느 한 항에 따른 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함하는 컴퓨터 판독 가능한 기록매체.
  12. 컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은,
    제1 항, 제2 항 내지 제5 항 중 어느 한 항에 따른 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함하는 컴퓨터 프로그램.
PCT/KR2021/001570 2020-02-11 2021-02-05 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치 WO2021162362A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/798,801 US20230055233A1 (en) 2020-02-11 2021-02-05 Method of Training Voice Recognition Model and Voice Recognition Device Trained by Using Same Method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200016351A KR102152902B1 (ko) 2020-02-11 2020-02-11 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
KR10-2020-0016351 2020-02-11

Publications (1)

Publication Number Publication Date
WO2021162362A1 true WO2021162362A1 (ko) 2021-08-19

Family

ID=72472169

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/001570 WO2021162362A1 (ko) 2020-02-11 2021-02-05 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치

Country Status (3)

Country Link
US (1) US20230055233A1 (ko)
KR (1) KR102152902B1 (ko)
WO (1) WO2021162362A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102152902B1 (ko) * 2020-02-11 2020-09-07 주식회사 엘솔루 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
KR102478076B1 (ko) 2022-06-13 2022-12-15 주식회사 액션파워 음성 인식 오류 검출을 위해 학습 데이터를 생성하기 위한 방법
KR102478763B1 (ko) 2022-06-28 2022-12-19 (주)액션파워 자소 정보를 이용한 음성 인식 방법
CN117057321B (zh) * 2023-10-12 2024-01-05 长沙丹渥智能科技有限公司 语音转文字处理方法、模型训练方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229585A (ja) * 2001-01-31 2002-08-16 Mitsubishi Electric Corp 音声認識文章入力装置
JP2009210829A (ja) * 2008-03-04 2009-09-17 Nippon Hoso Kyokai <Nhk> 音響モデル学習装置およびプログラム
JP2011075622A (ja) * 2009-09-29 2011-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、その方法、プログラム、及び記録媒体
KR20160059265A (ko) * 2014-11-18 2016-05-26 에스케이텔레콤 주식회사 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
KR20160069329A (ko) * 2014-12-08 2016-06-16 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
KR102152902B1 (ko) * 2020-02-11 2020-09-07 주식회사 엘솔루 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229585A (ja) * 2001-01-31 2002-08-16 Mitsubishi Electric Corp 音声認識文章入力装置
JP2009210829A (ja) * 2008-03-04 2009-09-17 Nippon Hoso Kyokai <Nhk> 音響モデル学習装置およびプログラム
JP2011075622A (ja) * 2009-09-29 2011-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、その方法、プログラム、及び記録媒体
KR20160059265A (ko) * 2014-11-18 2016-05-26 에스케이텔레콤 주식회사 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
KR20160069329A (ko) * 2014-12-08 2016-06-16 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
KR102152902B1 (ko) * 2020-02-11 2020-09-07 주식회사 엘솔루 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치

Also Published As

Publication number Publication date
US20230055233A1 (en) 2023-02-23
KR102152902B1 (ko) 2020-09-07

Similar Documents

Publication Publication Date Title
WO2021162362A1 (ko) 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
WO2018151464A1 (ko) 음성 인식을 이용한 코딩시스템 및 코딩방법
WO2011074771A2 (ko) 외국어 학습 장치 및 그 제공 방법.
CN110010136B (zh) 韵律预测模型的训练和文本分析方法、装置、介质和设备
CN111489746A (zh) 一种基于bert的电网调度语音识别语言模型构建方法
WO2014142422A1 (ko) 지시 표현 처리에 기반한 대화 처리 방법 및 장치
WO2018169276A1 (ko) 언어 정보를 처리하기 위한 방법 및 그 전자 장치
JP6605105B1 (ja) 文章記号挿入装置及びその方法
CN115101042A (zh) 一种文本处理方法、装置及设备
WO2020213785A1 (ko) 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템
WO2019098589A1 (ko) 자동 음성인식 장치 및 방법
WO2015102127A1 (ko) 음성 인식 시스템 및 방법
WO2022030732A1 (ko) 텍스트 전처리 장치 및 방법
WO2022065603A1 (ko) 텍스트 기반의 음성 합성 방법 및 장치
Kashyap Syntactic decision rules for recognition of spoken words and phrases using a stochastic automaton
CN111429886B (zh) 一种语音识别方法及系统
JP6849977B2 (ja) テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
WO2022154341A1 (ko) 음성 합성 시스템의 동작방법
WO2019208858A1 (ko) 음성 인식 방법 및 이를 위한 장치
WO2024101615A1 (ko) 턴프리 대화 방법 및 장치
WO2023238975A1 (ko) 문자소-음소 변환 장치 및 방법
WO2024101975A1 (ko) 관련 지식 유무에 따라 대화모델을 운용하는 대화 방법 및 시스템
WO2022131851A1 (en) A method and systems for decoding an audio query
JPH10333699A (ja) 音声認識および音声合成装置
TWI743798B (zh) 漢語多重語音識別的方法與裝置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21753674

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21753674

Country of ref document: EP

Kind code of ref document: A1