WO2019098589A1 - 자동 음성인식 장치 및 방법 - Google Patents

자동 음성인식 장치 및 방법 Download PDF

Info

Publication number
WO2019098589A1
WO2019098589A1 PCT/KR2018/013412 KR2018013412W WO2019098589A1 WO 2019098589 A1 WO2019098589 A1 WO 2019098589A1 KR 2018013412 W KR2018013412 W KR 2018013412W WO 2019098589 A1 WO2019098589 A1 WO 2019098589A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
model
speech
pronunciation code
learned
Prior art date
Application number
PCT/KR2018/013412
Other languages
English (en)
French (fr)
Inventor
황명진
지창진
Original Assignee
주식회사 시스트란인터내셔널
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 시스트란인터내셔널 filed Critical 주식회사 시스트란인터내셔널
Priority to EP18879730.2A priority Critical patent/EP3712886A4/en
Priority to JP2020545027A priority patent/JP2021503104A/ja
Priority to CN201880073991.2A priority patent/CN111357049A/zh
Priority to US16/763,901 priority patent/US20210174789A1/en
Publication of WO2019098589A1 publication Critical patent/WO2019098589A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Definitions

  • the present invention relates to an automatic speech recognition apparatus and method, and more particularly, to an automatic speech recognition apparatus and method for extracting a non-distorted speech feature.
  • Speech To Text is a computational technique that automatically converts raw speech data into a string of characters. It is used in various fields such as broadcasting, telephone consultation, recording, interpretation, and big data analysis. It is gradually getting bigger.
  • Such automatic speech recognition may include a step of extracting and encoding a feature from a voice using an acoustic model, and a step of selecting an appropriate candidate for a context among a plurality of candidates that are symbolized using a language model.
  • the embodiment of the present invention prevents information distortion caused by learning data for speech recognition, secures high-quality performance with low-cost data, and utilizes a speech recognizer that has already been developed to provide a speech recognizer for a third language Which can be constructed at a low cost.
  • an automatic speech recognition apparatus including a memory for storing a program for converting sound data received through an interface module into a sound recording data and outputting the sound data, And a processor for executing the stored program.
  • the processor converts the received voice data into pronunciation code data based on a first model that has been learned in advance, and stores the converted pronunciation code data in the second model And converts it into transcript data.
  • the first learned model is a speech-pronounced code conversion model
  • the speech-pronunciation code conversion model can be learned based on parallel data composed of speech data and pronunciation code data.
  • the converted pronunciation code data may be composed of phoneme or sound characteristic value strings having at least one length that can be expressed in a one-dimensional structure.
  • the converted pronunciation code data may be a language-independent value.
  • the pre-learned second model is a pronunciation code-transcription conversion model, and the pronunciation code-transcription conversion model can be learned based on parallel data composed of pronunciation code data and transcription data.
  • the pre-learned second model may be a pronunciation code-transcription conversion model, and the second model may convert a pronunciation code of a sequence type into a transcription record of a sequence type at a time.
  • the first learned model is a speech-pronounced code conversion model, and the speech-pronunciation code conversion model can be generated by learning non-speech based on speech data prepared in advance.
  • the audio data prepared in advance may be configured as parallel data together with the transcript data.
  • the pre-learned second model is a pronunciation code-transcription conversion model
  • the processor converts the pronunciation data into pronunciation code data so as to correspond to the speech data included in the parallel data based on the pre-learned speech- ,
  • the previously learned pronunciation code-transcription conversion model can be learned based on the pronunciation data and the parallel data composed of the transcription data converted by the processor to correspond to the voice data.
  • the processor generates a character candidate sequence from the converted pronunciation code data using previously prepared syllable-phonetic dictionary data, and generates a character candidate sequence from the generated character candidate sequence through the second model, which is a learned language model based on the corpus data It is possible to convert the data into the recorded data.
  • an automatic speech recognition method comprising: receiving speech data; Converting the received voice data into pronunciation code data based on a first model previously learned; And converting the converted pronunciation code data into the record data based on the second model previously learned.
  • FIG. 1 is a block diagram of an automatic speech recognition apparatus according to the present invention.
  • FIG. 2 is a flowchart of an automatic speech recognition method in the automatic speech recognition apparatus according to the present invention.
  • FIG. 3 is a flowchart of an automatic speech recognition method according to the first embodiment of the present invention.
  • FIG. 4 is a flowchart of an automatic speech recognition method according to a second embodiment of the present invention.
  • FIG. 5 is a flowchart of an automatic speech recognition method according to a third embodiment of the present invention.
  • FIG. 6 is a flowchart of an automatic speech recognition method according to a fourth embodiment of the present invention.
  • FIG. 1 is a block diagram of an automatic speech recognition apparatus 100 according to the present invention.
  • An automatic speech recognition apparatus (100) includes a memory (110) and a processor (120).
  • a program for automatically recognizing voice that is, a program for converting voice data into voice data and outputting the voice data is stored.
  • the memory 110 is collectively referred to as a nonvolatile storage device and a volatile storage device which keep the stored information even when power is not supplied.
  • the memory 110 may be a compact flash (CF) card, a secure digital (SD) card, a memory stick, a solid-state drive (SSD)
  • CF compact flash
  • SD secure digital
  • SSD solid-state drive
  • a magnetic computer storage device such as a NAND flash memory, a hard disk drive (HDD) and the like, and an optical disc drive such as a CD-ROM, a DVD-ROM, etc. .
  • the processor 120 executes a program stored in the memory 110. [ The processor 120 generates the record data from the input voice data as the program is executed.
  • the automatic speech recognition apparatus may further include an interface module 130 and a communication module 140.
  • the interface module 130 includes a microphone 131 for receiving voice data of a user and a display unit 133 for outputting converted voice data.
  • the communication module 140 is a structure for transmitting and receiving data such as voice data and transcription data to a user terminal such as a smart phone, a tablet PC, a laptop, and the like.
  • a communication module may include both a wired communication module and a wireless communication module.
  • the wired communication module may be implemented by a power line communication device, a telephone line communication device, a cable home (MoCA), an Ethernet, an IEEE1294, an integrated wired home network, and an RS-485 control device.
  • the wireless communication module can be implemented with a wireless LAN (WLAN), Bluetooth, HDR WPAN, UWB, ZigBee, Impulse Radio, 60 GHz WPAN, Binary-CDMA, wireless USB technology and wireless HDMI technology.
  • the automatic speech recognition apparatus may be formed separately from the above-described user terminals, but is not necessarily limited thereto. That is, the program stored in the memory 110 of the automatic speech recognition apparatus 100 may be included in the memory of the user terminal and may be implemented in the form of an application or the like.
  • 1 may be implemented in hardware such as software or an FPGA (Field Programmable Gate Array) or ASIC (Application Specific Integrated Circuit), and may perform predetermined roles can do.
  • FPGA Field Programmable Gate Array
  • ASIC Application Specific Integrated Circuit
  • 'components' are not meant to be limited to software or hardware, and each component may be configured to reside on an addressable storage medium and configured to play one or more processors.
  • an element may comprise components such as software components, object-oriented software components, class components and task components, processes, functions, attributes, procedures, Routines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays, and variables.
  • FIG. 2 is a flowchart of an automatic speech recognition method in the automatic speech recognition apparatus 100 according to the present invention.
  • the automatic speech recognition method firstly receives voice data through the microphone 131 at step S210, and the processor 120 converts the received voice data into pronunciation code data based on the first learned model (S220).
  • the processor 120 converts the converted pronunciation code data into the record data based on the second model previously learned (S230).
  • the converted transcription data may be transmitted to the user terminal through the communication module 140 or outputted through the display unit 133 of the automatic speech recognition apparatus 100 itself.
  • first and second models are trained through a model training step using prepared advance preparation data, and voice data received through a decoding step using the trained first and second models is recorded Data.
  • FIG. 3 is a flowchart of an automatic speech recognition method according to the first embodiment of the present invention.
  • the automatic speech recognition method can use parallel data composed of voice data, pronunciation code data and voice record data as dictionary data.
  • the speech-pronunciation code conversion model which is the first model can be learned (S301).
  • the learning method of the first model can use the speech-phoneme learning part in normal speech recognition.
  • the pronunciation code of the parallel data constituted by the voice data and the pronunciation code data should be expressed as a value that can express the utterance as much as possible without expressing the stereotype of the voice according to the notation or the like. This can reduce the ambiguity in speech coding and minimize distortion during learning and decoding.
  • a related pronunciation change and inversion algorithm for example, a well-to-> umu, a umu-> well
  • a word boundary due to inter- You do not have to worry about how to deal with what you are doing.
  • the pronunciation code data to be converted may be composed of a phoneme or a sound characteristic value string having one or more lengths that can be expressed in a one-dimensional structure, without learning it by word unit. This does not require a complicated data structure (graph) necessary for conversion to a word at the time of speech-pronounced code conversion (decoding), and does not require an erroneous expression (for example, Distortion: lan-> what? I? Not?).
  • the pronunciation code data may include a value representing a tone, an intonation, a rest, etc. in addition to the pronunciation.
  • the form of the pronunciation code may be a phonetic symbol of a character form, a bundle of values composed of one or more numbers, or a bundle of one or more values in which a number and a character are mixed.
  • the pronunciation code-transcription conversion model as the second model can be learned based on parallel data composed of pronunciation code data and transcription data among the parallel data (S302).
  • training can be performed by applying a normal learning method such as HMM including DNN such as CNN and RNN, which can perform sequence-to-sequence learning.
  • HMM normal learning method
  • DNN such as CNN and RNN
  • the automatic speech recognition method includes a microphone 131 ) Or a user terminal (S310), and converts the received voice data into pronunciation code data using the voice-pronunciation code conversion model (S320).
  • the converted pronunciation code data is converted into voice record data using a pronunciation code-voice record conversion model.
  • the converted voice record data is output through the display unit 133, (S330).
  • two learning processes i.e., an acoustic model training step for learning a speech-pronounced code conversion model and a sound recording model training step for learning a pronunciation code-transcription conversion model, (sequence-to-sequence) conversion, it can be configured as an end-to-end DNN structure over two stages.
  • the result of the speech model i.e., the speech-pronunciation code conversion model
  • the speech model is a language-independent phoneme
  • the pronunciation code can be designed as general purpose not depending on a specific language. This means that even people who do not know the language can transcribe into the pronunciation code. It also means that other language data can be used when learning speech models for specific languages. Therefore, unlike the prior art, the first embodiment of the present invention can learn a language-independent (general-purpose) acoustic model using data already obtained for several languages.
  • the output of the acoustic model of the first embodiment is a non-ambiguous and accurate (non-distorted) phoneme information sequence
  • the problem of sequence-to-sequence can be solved by the development of high-quality technique based on DNN recently.
  • the problem in pronunciation code-transcription conversion is that when context information is imported only in a few words So accuracy and speed are not a problem either.
  • the use range of the context information can be easily controlled in the learning process. Also, there is an advantage that the size of the model does not increase exponentially compared with the existing language model. Therefore, it is possible to generate a natural sentence by minimizing occurrence of words which are not completely in context and context in the speech recognition process by properly applying the use range of the context information.
  • FIG. 4 is a flowchart of an automatic speech recognition method according to a second embodiment of the present invention.
  • the automatic speech recognition method according to the second embodiment of the present invention is different from the first embodiment in that parallel data composed of only voice data and transcription data is used as dictionary data.
  • the speech-phonetic transcoding model which is the first model, can be used for non-speech learning using only speech data in the parallel data (S401).
  • the learning target is a limited number of limited pronunciation codes (human speaking is limited) and learns in the same pronunciation-identical code form.
  • the clustering technique is a method in which feature values extracted from a specific voice section are compared with feature values extracted from different sections or median values of other clusters, and the process of determining the closest mathematical clusters is repeated, Repeat until it is within.
  • reinforcement learning can be conducted by learning the output (classification code) to arbitrary number, and then teaching the classification result of the feature value extracted from a specific voice section to a direction with less ambiguity (greater clarity).
  • the pronunciation code-transcription conversion model which is the second model, can be learned in the same manner as in the first embodiment using parallel data composed of pronunciation code data and transcription data (S402).
  • the parallel data composed of the pronunciation code data and the voice record data is obtained by automatically converting the voice-recorded parallel data into the voice-pronunciation code-recorded parallel data.
  • the automatic conversion at this time is possible by automatically generating a pronunciation code from a voice using a voice-pronunciation code conversion model.
  • the automatic speech recognition method After learning the first and second model speech-to-sound conversion models and the pronunciation code-to-speech conversion model, the automatic speech recognition method according to the second embodiment of the present invention receives audio data (S410) The received speech data is converted into pronunciation code data using the speech-pronunciation code conversion model (S420).
  • the converted pronunciation code data is converted into the record data using the pronunciation code-record conversion model (S430).
  • the two learning processes of the non-geographic acoustic model training step and the transcript generation model training step are respectively sequence-to-sequence conversion, It can be configured as an end-to-end DNN structure.
  • the second embodiment of the present invention is characterized in that non-geographic acoustic model training is introduced so that speech-pronounced code parallel data is not prepared in advance.
  • FIG. 5 is a flowchart of an automatic speech recognition method according to a third embodiment of the present invention.
  • speech data, syllable-phonetic dictionary data, and corpus data are required as dictionary data, and they can be independently configured without being configured as parallel data.
  • the speech-phonetic transcoding model which is the first model, can be non-speech-learned using only speech data as in the second embodiment (S501).
  • the language model which is the second model is learned and generated based on the previously prepared corpus data (S502).
  • the corpus data need not be a parallel corpus, and the language model means a model capable of generating a sentence by tracing in a character unit.
  • the automatic speech recognition method After learning the first and second models of speech-pronunciation code conversion model and language model, the automatic speech recognition method according to the third embodiment of the present invention receives voice data (S510) Into the pronunciation code data using the speech-pronunciation code conversion model (S520).
  • the generated character candidate sequence is converted into the record data through the learned language model based on the corpus data (S540).
  • a word generating step may be added between a pronunciation code-character generating step (S530) and a character candidate-recording generating step (S540) Additional available.
  • knowledge for converting pronunciation code data into pronunciation may be manually, semiautomatically or automatically constructed.
  • a pronunciation code is generated through a speech-pronunciation code conversion model constructed with large-capacity speech-recording parallel data, It is possible to search for a syllable-phoneme pair by repeating the process of finding a mathematically similar distribution statistics by comparing specific syllables of the corresponding transcriptions with pieces and parallel corpus.
  • a syllable-pronunciation pair can be found by applying the byte pair encoding to the pronunciation code string and the corpus.
  • the non-geographic acoustic model training step, the voice-to-sound code conversion step, the language model training step, the pronunciation code-character generation step and the character candidate- which is a feature that enables complete non-geometric learning.
  • the syllable-pronunciation dictionary must be configured separately.
  • a syllable-pronunciation dictionary requires a parallel corpus to be built automatically, but it can also be constructed manually without a parallel corpus. Also, since it is a syllable dictionary, its size is not as extensive as a word dictionary, and is limited.
  • FIG. 6 is a flowchart of an automatic speech recognition method according to a fourth embodiment of the present invention.
  • the automatic speech recognition method differs from the third embodiment in that syllable-phonetic dictionary data and corpus data are used as dictionary data, and parallel data composed of speech data and pronunciation code data is required have.
  • a speech-pronunciation code conversion model which is the first model can be learned based on parallel data composed of speech data and pronunciation code data (S601).
  • the language model which is the second model is learned and generated based on the corpus data prepared in advance like the third embodiment (S602).
  • the automatic speech recognition method After learning the first and second models of speech-pronunciation code conversion model and language model, the automatic speech recognition method according to the fourth embodiment of the present invention receives voice data (S610) Into the pronunciation code data using the speech-pronunciation code conversion model (S620).
  • the converted pronunciation code data is generated using the syllable-phonetic dictionary data prepared in advance (S630).
  • step S640 the generated character candidate sequence is converted into the record data through the learned language model based on the corpus data.
  • steps S210 to S640 may be further divided into additional steps, or combined in fewer steps, according to an embodiment of the present invention. Also, some of the steps may be omitted as necessary, and the order between the steps may be changed. In addition, the contents already described with respect to the automatic speech recognition apparatus 100 in FIG. 1 apply to the automatic speech recognition method in FIG.
  • the automatic speech recognition method has a one-to-one relationship with no ambiguity between the pronunciation and the pronunciation code. Therefore, it is not necessarily limited to a specific language, but there is an advantage that there is no phenomenon that the pronunciation rule changes according to the change of the language, and the assignment relation between the pronunciation and the symbol does not change.
  • the speech-pronunciation code conversion model of the present invention can be used equally in all languages without re-learning.
  • the automatic speech recognition method according to the present invention is advantageous in that it is not necessary to limit the speech data required in the speech-pronunciation code conversion learning process to a specific language.
  • the present invention improves acoustic model recognition performance by learning low-cost and large-capacity speech by learning acoustic models as in the second and third embodiments, or by constructing the acoustic models in semi-automatic and low-cost manner as in the first and fourth embodiments .
  • the automatic speech recognition method in the automatic speech recognition apparatus 100 is also embodied in the form of a recording medium including a computer program stored in a medium executed by the computer or an instruction executable by the computer .
  • Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media.
  • the computer-readable medium may include both computer storage media and communication media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • Communication media typically includes any information delivery media, including computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transport mechanism.
  • the present invention can be applied to various speech recognition technology fields, and can provide an automatic speech recognition apparatus and method. With this feature, it is possible to prevent information distortion caused by learning data for speech recognition.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명에 따른 자동 음성인식 장치는 인터페이스 모듈을 통해 수신한 음성 데이터를 녹취록 데이터로 변환하여 출력하기 위한 프로그램이 저장된 메모리 및, 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하되, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 수신한 음성 데이터를 미리 학습된 제 1 모델에 기초하여 발음코드 데이터로 변환하고, 상기 변환된 발음코드 데이터를 미리 학습된 제 2 모델에 기초하여 녹취록 데이터로 변환한다.

Description

자동 음성인식 장치 및 방법
본 발명은 자동 음성인식 장치 및 방법에 관한 것으로, 구체적으로는 왜곡되지 않은 음성 특징 추출을 위한 자동 음성인식 장치 및 방법에 관한 것이다.
자동 음성인식(Speech To Text, STT)이란 원시 음성 데이터를 그에 맞는 문자열로 자동 변환하는 전산기법으로서, 방송, 전화상담, 녹취, 통역, 빅데이터 분석 등의 다양한 분야에서 음성 데이터 분석에 대한 수요가 점차적으로 커지고 있다.
이러한 자동 음성인식은 대부분 음향 모델을 이용하여 음성에서 특징을 추출하고 기호화하는 단계와, 언어모델을 이용하여 기호화된 여러 후보 중 문맥에 맞는 적절한 후보를 선택해주는 단계로 구성될 수 있다.
한편, 원천 데이터가 음성일 경우 필요한 정보를 직접 추출하는 것이 불가능하므로 문자열로 변환하는 과정이 필수적이나, 이러한 과정이 수작업으로 이루어질 경우 많은 시간과 비용이 필요하다는 문제가 있으며, 이러한 문제를 해소하기 위해 고속의 정확한 자동 음성 인식에 대한 수요가 커지고 있는 실정이다.
사용 가능한 양질의 음성 인식기를 만들기 위해서는 음성 데이터와 그에 맞는 문자열 데이터, 즉 음성-문자열로 구성되는 병렬 데이터를 대량으로 구축해야 한다.
또한, 실제 발음과 표기가 서로 다른 경우가 많아, 관련 정보를 추가해줄 수 있는 프로그램 또는 발음-표기 변환 규칙 데이터를 구축해야 한다.
이에 따라, 국내외 주요 언어에 대해서는 여러 업체에서 음성-문자열 병렬 데이터와 발음-표기 변환 규칙 데이터를 이미 확보하고 있으며, 일정 이상의 음성 인식 품질을 확보하고 있다.
그러나 음성-문자열 병렬 데이터나 발음-표기 변환 규칙의 비완결성의 문제와, 발음-표기 변환규칙에 의해 발생하는 다양한 중의성에 따른 데이터 왜국 문제는 음성 인식 품질을 떨어뜨리는 요인으로 작용하고 있다.
또한, 신규 언어를 위한 인식기를 개발하는 경우, 음성-문자열 병렬 데이터와 발음-표기 변환 규칙을 구축하는 과정에서 많은 금전적, 시간적 비용이 발생하며, 양질의 데이터를 얻는 것 또한 쉽지 않은 실정이다.
본 발명의 실시예는 음성 인식을 위한 학습 데이터로부터 기인한 정보 왜곡을 방지하고, 저비용의 데이터로 양질의 성능을 확보하며, 이미 개발된 음성 인식기를 활용하여 제3의 언어를 위한 음성 인식기를 최소의 비용으로 구축할 수 있도록 하는 자동 음성인식 장치 및 방법을 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 자동 음성인식 장치는 인터페이스 모듈을 통해 수신한 음성 데이터를 녹취록 데이터로 변환하여 출력하기 위한 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함한다. 이때, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 수신한 음성 데이터를 미리 학습된 제 1 모델에 기초하여 발음코드 데이터로 변환하고, 상기 변환된 발음코드 데이터를 미리 학습된 제 2 모델에 기초하여 녹취록 데이터로 변환한다.
상기 미리 학습된 제 1 모델은 음성-발음코드 변환 모델이되, 상기 음성-발음코드 변환 모델은 음성 데이터 및 발음코드 데이터로 구성된 병렬 데이터에 기초하여 학습될 수 있다.
상기 변환된 발음코드 데이터는 1차원 구조로 표현 가능한 1 이상의 길이를 가지는 음소 또는 소리의 특징값 열로 구성될 수 있다.
상기 변환된 발음코드 데이터는 언어 독립적인 값으로 구성될 수 있다.
상기 미리 학습된 제 2 모델은 발음코드-녹취록 변환 모델이되, 상기 발음코드-녹취록 변환 모델은 발음코드 데이터 및 녹취록 데이터로 구성된 병렬 데이터에 기초하여 학습될 수 있다.
상기 미리 학습된 제 2 모델은 발음코드-녹취록 변환 모델이되, 상기 제 2 모델은 시퀀스(sequence) 형태의 발음코드를 시퀀스 형태의 녹취록으로 한번에 변환할 수 있다.
상기 미리 학습된 제 1 모델은 음성-발음코드 변환 모델이되, 상기 음성-발음코드 변환 모델은 미리 준비된 음성 데이터에 기초하여 비지도 학습되어 생성될 수 있다.
상기 미리 준비된 음성 데이터는 녹취록 데이터와 함께 병렬 데이터로 구성될 수 있다.
상기 미리 학습된 제 2 모델은 발음코드-녹취록 변환 모델이되, 상기 프로세서는 상기 미리 학습된 음성-발음코드 변환 모델에 기초하여 상기 병렬 데이터에 포함된 음성 데이터에 대응되도록 발음코드 데이터로 변환하고, 상기 미리 학습된 발음코드-녹취록 변환 모델은 상기 프로세서에 의해 상기 음성 데이터에 대응되도록 변환된 발음코드 데이터 및 상기 녹취록 데이터로 구성된 병렬 데이터에 기초하여 학습될 수 있다.
상기 프로세서는 미리 준비된 음절-발음사전 데이터를 이용하여 상기 변환된 발음코드 데이터로부터 글자 후보열을 생성하고, 말뭉치 데이터에 기초하여 학습된 언어 모델인 상기 제 2 모델을 통해 상기 생성된 글자 후보열로부터 상기 녹취록 데이터로 변환할 수 있다.
또한, 본 발명의 제 2 측면에 따른 자동 음성인식 방법은 음성 데이터를 수신하는 단계; 상기 수신한 음성 데이터를 미리 학습된 제 1 모델에 기초하여 발음코드 데이터로 변환하는 단계; 및 상기 변환된 발음코드 데이터를 미리 학습된 제 2 모델에 기초하여 녹취록 데이터로 변환하는 단계를 포함한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 음성 인식을 위한 학습 데이터로부터 기인한 정보 왜곡을 방지할 수 있다.
또한, 자동 음성인식기 구축시 금전적, 시간적 비용을 절감할 수 있으며, 정확도 측면에서 고품질의 자동 음성인식기의 결과물을 확보할 수 있다.
도 1은 본 발명에 따른 자동 음성인식 장치의 블록도이다.
도 2는 본 발명에 따른 자동 음성인식 장치에서의 자동 음성인식 방법의 순서도이다.
도 3은 본 발명의 제 1 실시예에 따른 자동 음성인식 방법의 순서도이다.
도 4는 본 발명의 제 2 실시예에 따른 자동 음성인식 방법의 순서도이다.
도 5는 본 발명의 제 3 실시예에 따른 자동 음성인식 방법의 순서도이다.
도 6은 본 발명의 제 4 실시예에 따른 자동 음성인식 방법의 순서도이다.
[부호의 설명]
100: 자동 음성인식 장치
110: 메모리
120: 프로세서
130: 인터페이스 모듈
131: 마이크
133: 디스플레이부
140: 통신모듈
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명에 따른 자동 음성인식 장치(100)의 블록도이다.
본 발명에 따른 자동 음성인식 장치(100)는 메모리(110) 및 프로세서(120)를 포함한다.
메모리(110)에는 음성을 자동으로 인식하기 위한 프로그램, 즉 음성 데이터를 녹취록 데이터로 변환하여 출력하기 위한 프로그램이 저장된다. 여기에서, 메모리(110)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 휘발성 저장장치를 통칭하는 것이다.
예를 들어, 메모리(110)는 콤팩트 플래시(compact flash; CF) 카드, SD(secure digital) 카드, 메모리 스틱(memory stick), 솔리드 스테이트 드라이브(solid-state drive; SSD) 및 마이크로(micro) SD 카드 등과 같은 낸드 플래시 메모리(NAND flash memory), 하드 디스크 드라이브(hard disk drive; HDD) 등과 같은 마그네틱 컴퓨터 기억 장치 및 CD-ROM, DVD-ROM 등과 같은 광학 디스크 드라이브(optical disc drive) 등을 포함할 수 있다.
프로세서(120)는 메모리(110)에 저장된 프로그램을 실행시킨다. 프로세서(120)는 프로그램을 실행시킴에 따라, 입력된 음성 데이터로부터 녹취록 데이터를 생성한다.
한편, 자동 음성인식 장치는 인터페이스 모듈(130 및 통신모듈(140)을 더 포함할 수 있다.
인터페이스 모듈(130)은 사용자의 음성 데이터를 수신하기 위한 마이크(131) 및 음성 데이터로부터 변환된 녹취록 데이터를 출력하기 위한 디스플레이부(133)를 포함한다.
통신모듈(140)은 스마트폰, 태블릿 PC, 랩탑 등과 같은 사용자 단말과 음성 데이터, 녹취록 데이터 등의 데이터를 송수신하기 위한 구성이다. 이와 같은 통신 모듈은 유선 통신 모듈 및 무선 통신 모듈을 모두 포함할 수 있다. 유선 통신 모듈은 전력선 통신 장치, 전화선 통신 장치, 케이블 홈(MoCA), 이더넷(Ethernet), IEEE1294, 통합 유선 홈 네트워크 및 RS-485 제어 장치로 구현될 수 있다. 또한, 무선 통신 모듈은 WLAN(wireless LAN), Bluetooth, HDR WPAN, UWB, ZigBee, Impulse Radio, 60GHz WPAN, Binary-CDMA, 무선 USB 기술 및 무선 HDMI 기술 등으로 구현될 수 있다.
한편, 본 발명에 따른 자동 음성인식 장치는 상술한 사용자 단말과 각각 별개로 형성될 수 있으나, 반드시 이에 한정되지 않는다. 즉, 자동 음성인식 장치(100)의 메모리(110)에 저장된 프로그램이 사용자 단말의 메모리에 포함되어 어플리케이션 등의 형태로 실시될 수도 있음은 물론이다.
이하에서는 도 2 내지 도 6을 참조하여 본 발명에 따른 자동 음성인식 장치(100)의 프로세서(120)에 의해 수행되는 각 단계에 대하여 보다 구체적으로 설명하도록 한다.
참고로, 본 발명의 실시예에 따른 도 1에 도시된 구성 요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 형태로 구현될 수 있으며, 소정의 역할들을 수행할 수 있다.
그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.
따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.
구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.
도 2는 본 발명에 따른 자동 음성인식 장치(100)에서의 자동 음성인식 방법의 순서도이다.
본 발명에 따른 자동 음성인식 방법은 먼저, 마이크(131)를 통해 음성 데이터를 수신하면(S210), 프로세서(120)는 수신한 음성 데이터를 미리 학습된 제 1 모델에 기초하여 발음코드 데이터로 변환한다(S220).
다음으로, 프로세서(120)는 변환된 발음코드 데이터를 미리 학습된 제 2 모델에 기초하여 녹취록 데이터로 변환한다(S230).
이와 같이 변환된 녹취록 데이터는 통신모듈(140)을 통해 사용자 단말로 전송되거나 자동 음성인식 장치(100) 자체의 디스플레이부(133)를 통해 출력되어 제공될 수 있다.
이러한 자동 음성인식 방법은 미리 준비된 사전 준비 데이터를 이용하여 모델 훈련 단계를 통해 제 1 및 제 2 모델을 훈련시키고, 훈련된 제 1 및 제 2 모델을 이용하여 디코딩 단계를 통해 수신한 음성 데이터를 녹취록 데이터로 변환하게 된다.
이하에서는 사전 준비 데이터와, 제 1 및 제 2 모델에 대한 각각의 구체적인 케이스를 기반으로 본 발명에 따른 자동 음성인식 방법에 대한 제 1 내지 제 4 실시예에 대해 보다 구체적으로 설명하도록 한다.
도 3은 본 발명의 제 1 실시예에 따른 자동 음성인식 방법의 순서도이다.
본 발명의 제 1 실시예에 따른 자동 음성인식 방법은 사전 데이터로 음성 데이터, 발음코드 데이터 및 녹취록 데이터로 구성된 병렬 데이터를 이용할 수 있다.
이러한 병렬 데이터 중, 음성 데이터와 발음코드 데이터로 구성된 병렬 데이터에 기초하여 제 1 모델인 음성-발음코드 변환 모델은 학습될 수 있다(S301).
이때, 본 발명의 제 1 실시예에서 상기 제1모델의 학습 방법은 통상의 음성인식에서의 음성-음소 학습 부분을 이용할 수 있다.
이때, 음성 데이터 및 발음코드 데이터로 구성된 병렬 데이터의 발음 코드는 표기법 등에 따른 음성의 이형태 표현 없이 최대한 소리 그대로를 나타낼 수 있는 값으로 표현되어 있어야 한다. 이것은 음성을 기호화할 때의 중의성을 줄여 학습과 디코딩 시의 왜곡을 최소화할 수 있다. 또한, 관련 발음변화 및 역변환 알고리즘(예를 들어, 우물 안->우무란, 우무란->우물 안)이 필요하지 않으며, 단어 간 연음 등으로 인한 단어 경계가 파괴(예를 들어, 예쁜 안무->예쁘난무 예쁘_난무?)되는 것을 어떻게 처리해야하는 지에 대하여 고려하지하지 않아도 된다.
또한 이때, 변환되는 발음코드 데이터는 단어 단위로 학습하지 않고, 1차원 구조로 표현 가능한 1 이상의 길이를 가지는 음소 또는 소리의 특징값 열로 구성될 수 있다. 이는 음성-발음코드 변환(디코딩) 시점에서, 단어로 변환할 때 필요한 복잡한 자료구조(그래프)가 필요하지 않고, 충분치 않은 문맥(통상 단어 내)에서 단어를 유추하면서 발생하는 오인식(예를 들어, 왜곡: 란->란?난?안?)도 없는 장점이 있다.
한편, 발음코드 데이터는 발음 외에 성조나 억양, 휴지 등을 표현하는 값을 포함할 수 있다.
또한, 발음코드의 형태는 문자 형태의 음성 기호일 수도 있고, 하나 이상의 숫자로 구성된 값의 묶음일 수도 있으며, 숫자와 문자가 혼재된 하나 이상의 값의 묶음으로 구성될 수도 있다.
본 발명의 제 1 실시예에서 상기 제 2 모델인 발음코드-녹취록 변환 모델은 상기 병렬 데이터 중 발음코드 데이터 및 녹취록 데이터로 구성된 병렬 데이터에 기초하여 학습할 수 있다(S302).
이때, 상기 제 2 모델을 학습하는 방법으로는 sequence-to-sequence 형태의 학습이 가능한 CNN, RNN 등의 DNN을 포함해 HMM 등 통상의 학습 방법을 적용하여 훈련시킬 수 있다.
이와 같이 제 1 및 제 2 모델인 음성-발음코드 변환 모델과 발음코드-녹취록 변환 모델이 학습되고 나면, 본 발명의 제 1 실시예에 따른 자동 음성인식 방법은 인터페이스 모듈(130)의 마이크(131)나 사용자 단말로부터 음성 데이터를 수신하고(S310), 수신한 음성 데이터를 음성-발음코드 변환 모델을 이용하여 발음코드 데이터로 변환한다(S320).
음성 데이터가 발음코드 데이터로 변환되고 나면, 다음으로 변환된 발음코드 데이터를 발음코드-녹취록 변환 모델을 이용하여 녹취록 데이터로 변환하며, 변환된 녹취록 데이터는 디스플레이부(133)를 통해 출력되거나 사용자 단말로 제공될 수 있다(S330).
이러한 제 1 실시예에 따른 자동 음성인식 방법은 음성-발음코드 변환 모델을 학습하는 음향모델 훈련 단계와, 발음코드-녹취록 변환 모델을 학습하는 녹취록 생성모델 훈련 단계의 두 학습 과정이 각각 시퀀스 투 시퀀스(sequence-to-sequence) 변환이 가능한 구조이므로, 2단계에 걸친 엔드 투 엔드(end-to-end) DNN 구조로 구성이 가능하다.
통상의 음성인식시스템과 제1실시예의 가장 큰 차이점은 음성모델(즉, 음성-발음코드 변환모델)의 결과물이 언어 독립적인 음소라는 점이다.
인간이 발성 가능한 음소는 한정되어 있다. 따라서 발음코드는 특정 언어에 종속되지 않게 범용으로 설계 가능하다. 이것은 해당 언어를 모르는 사람도 발음코드로 전사할 수 있다는 의미이다. 이것은 또한 특정 언어를 위한 음성모델 학습 시 다른 언어 데이터를 쓸 수 있다는 의미이다. 따라서, 본 발명의 제 1 실시예는 종래 기술과는 달리, 이미 확보한 몇몇 언어용 데이터를 이용해 언어 독립적(범용) 음향모델을 학습할 수 있다.
또한, 제1실시예의 음향모델의 출력은 중의성 없고 정확도 높은(왜곡되지 않은) 음소 정보열이므로, 이후 과정인 sequence-to-sequence 모델에 오염되지 않은 입력을 제공할 수 있다. sequence-to-sequence에서의 문제는 최근 DNN 기반의 고품질 기법의 개발로 인해 해소가 가능하며, 특히 발음코드-녹취록 변환에서의 문제는 자동번역처럼 문맥 정보를 문장 전체가 아닌 몇 단어 내에서만 가져오면 되므로 정확도나 속도 또한 문제되지 않는다.
또한, 제1실시예의 녹취록 변환 과정에서 시퀀스 투 시퀀스(sequence-to-sequence) 형태의 딥러닝을 적용함에 따라 문맥 정보의 사용 범위를 학습 과정에서 쉽게 조절할 수 있다. 또한, 모델의 크기가 기존의 언어모델에 비해 기하급수적으로 늘어나지 않는다는 장점이 있다. 따라서 문맥 정보의 사용 범위를 적절하게 적용하여, 음성인식 과정에서 문맥과 맥락에 전혀 맞지 않는 단어가 출현하는 것을 최소화하여 자연스러운 문장을 생성할 수 있다.
도 4는 본 발명의 제 2 실시예에 따른 자동 음성인식 방법의 순서도이다.
본 발명의 제 2 실시예에 따른 자동 음성인식 방법은 사전 데이터로 음성 데이터 및 녹취록 데이터만으로 구성된 병렬 데이터를 이용한다는 점에서 제 1 실시예와 차이가 있다.
구체적으로 제 2 실시예는 상기 병렬 데이터 중 음성 데이터만을 이용하여 제 1 모델인 음성-발음코드 변환 모델을 비지도 학습할 수 있다(S401).
이때, 음성 데이터만을 이용하여 비지도 학습을 이용하는 것이 효과적인 이유는, 학습 목표가 적은 수의 한정된 발음코드이고(인간의 발성 가능한 발음은 한정적임), 동일발음-동일코드 형태로 학습하기 때문이다.
이러한 비지도 학습 방법으로는 군집화 기법, 강화 학습 등 통상의 방법을 적용할 수 있다. 예를 들어, 군집화 기법은 특정 음성 구간에서 추출한 특징값을 다른 구간에서 추출한 특징값이나 다른 군집의 중간값과 일일이 대조하여 수학적으로 가장 가까운 것끼리 같은 군집으로 정하는 과정을 반복하여 군집의 수가 일정 수 이내가 될 때까지 반복한다. 그리고 강화 학습은 출력(분류코드)을 임의 갯수로 정한 후 특정 음성 구간에서 추출한 특징값의 분류 결과가 중의성이 적은(명확성이 큰) 방향으로 지도하여 학습할 수 있다.
한편, 본 발명의 제 2 실시예에서의 제 2 모델인 발음코드-녹취록 변환 모델은 발음코드 데이터와 녹취록 데이터로 구성된 병렬 데이터를 이용해 제 1 실시예와 같은 방법으로 학습할 수 있다(S402).
이때, 발음코드 데이터 및 녹취록 데이터로 구성된 병렬 데이터는, 음성-녹취록 병렬데이터를 음성-발음코드-녹취록 병렬데이터로 자동 변환하여 획득한다. 이때의 자동변환은 음성-발음코드 변환 모델을 이용하여 음성에서 발음코드를 자동생성함으로써 가능하다.
이와 같이 제 1 및 제 2 모델인 음성-발음코드 변환 모델과 발음코드-녹취록 변환 모델이 학습되고 나면, 본 발명의 제 2 실시예에 따른 자동 음성인식 방법은 음성 데이터를 수신하고(S410), 수신한 음성 데이터를 음성-발음코드 변환 모델을 이용하여 발음코드 데이터로 변환한다(S420).
다음으로 변환된 발음코드 데이터를 발음코드-녹취록 변환 모델을 이용하여 녹취록 데이터로 변환한다(S430).
이러한 제 2 실시예에 따른 자동 음성인식 방법은 비지도 음향모델 훈련 단계와 녹취록 생성모델 훈련 단계의 두 학습 과정이 각각 시퀀스 투 시퀀스(sequence-to-sequence) 변환이 가능한 구조이므로, 2단계에 걸친 엔드 투 엔드(end-to-end) DNN 구조로 구성이 가능하다.
이와 같이 본 발명의 제2실시예는 음성-발음코드 병렬데이터를 미리 준비하지 않아도 되도록 비지도 음향모델 훈련이 도입된 것을 특징으로 한다.
도 5는 본 발명의 제 3 실시예에 따른 자동 음성인식 방법의 순서도이다.
본 발명의 제 3 실시예에 따른 자동 음성인식 방법은 사전 데이터로 음성 데이터, 음절-발음사전 데이터 및 말뭉치 데이터가 필요하며, 각각은 병렬 데이터로 구성될 필요없이 독립적으로 구성될 수 있다.
제 3 실시예는 제 2 실시예와 같이 음성 데이터만을 이용하여 제 1 모델인 음성-발음코드 변환 모델을 비지도 학습할 수 있다(S501).
다음으로, 미리 준비된 말뭉치 데이터에 기초하여 제 2 모델인 언어 모델을 학습하여 생성한다(S502). 이때, 말뭉치 데이터는 병렬 말뭉치일 필요는 없으며, 언어 모델은 글자 단위로 추적하여 문장을 생성할 수 있는 모델을 의미한다.
이와 같이 제 1 및 제 2 모델인 음성-발음코드 변환 모델과 언어 모델이 학습되고 나면, 본 발명의 제 3 실시예에 따른 자동 음성인식 방법은 음성 데이터를 수신하고(S510), 수신한 음성 데이터를 음성-발음코드 변환 모델을 이용하여 발음코드 데이터로 변환한다(S520).
다음으로, 변환된 발음코드 데이터를 미리 준비된 음절-발음사전 데이터를 이용하여 표기 가능한 글자(음절) 후보열을 생성한다(S530).
다음으로, 말뭉치 데이터에 기초하여 학습된 언어 모델을 통해, 상기 생성된 글자 후보열을 녹취록 데이터로 변환한다(S540).
이때, 본 발명의 제 3 실시예에 따른 자동 음성인식 방법은 발음코드-글자 생성 단계(S530)와 글자후보-녹취록 생성 단계(S540) 사이에 단어 생성 단계가 추가될 수 있으며 이 경우 단어 사전을 추가적으로 이용할 수 있다.
한편, 본 발명의 제 3 실시예에 따른 자동 음성인식 방법에서 발음코드 데이터를 발음으로 변환하는 지식은 수동, 반자동 또는 자동으로 구축될 수 있다.
예를 들어, 발음코드를 발음으로 변환하는 지식을 자동으로 구축하는 경우, 대용량 음성-녹취록 병렬 데이터를 기 구축된 음성-발음코드 변환모델을 통해 발음코드를 생성하고, 생성된 발음코드열의 임의의 조각과 병렬 말뭉치로 대응되는 녹취록의 특정 음절을 비교하여 분포 통계 등이 수학적으로 유사한 것을 찾는 과정을 반복함으로써 음절-발음쌍 찾기가 가능하다.
다른 방법으로는 byte pair encoding을 발음코드열과 말뭉치에 동일하게 적용하는 것으로도 음절-발음 쌍을 찾을 수 있다.
어느 방법이든 오류가 있을 수 있으나, 대상 말뭉치를 키우면 오류는 줄어들고, 오류가 내포되었다 하더라고 낮은 확률을 가지므로 결과에 미치는 영향은 낮아진다.
이와 같은 본 발명의 제 3 실시예에 따른 자동 음성인식 방법의 경우, 비지도 음향모델 훈련 단계, 음성-발음코드 변환 단계, 언어모델 훈련 단계, 발음코드-글자 생성 단계 및 글자후보-녹취록 생성 단계의 5단계를 통해 완전 비지도 학습이 가능한 것이 특징이다.
다만 이 경우 음절-발음사전은 별도로 구성되어야 한다. 음절-발음사전을 자동으로 구축하려면 병렬 말뭉치가 필요하나, 병렬 말뭉치 없이 수작업으로 구축할 수도 있다. 또한, 음절 사전이므로 그 크기가 단어사전만큼 방대하지 않고 한정적이다.
도 6은 본 발명의 제 4 실시예에 따른 자동 음성인식 방법의 순서도이다.
본 발명의 제 4 실시예에 따른 자동 음성인식 방법은 사전 데이터로 음절-발음사전 데이터와 말뭉치 데이터와 더불어, 음성 데이터 및 발음코드 데이터로 구성된 병렬 데이터가 필요하다는 점에서 제 3 실시예와 차이가 있다.
구체적으로 제 4 실시예는 음성 데이터와 발음코드 데이터로 구성된 병렬 데이터에 기초하여 제 1 모델인 음성-발음코드 변환 모델이 학습될 수 있다(S601).
다음으로, 제 3 실시예와 같이 미리 준비된 말뭉치 데이터에 기초하여 제 2 모델인 언어 모델을 학습하여 생성한다(S602).
이와 같이 제 1 및 제 2 모델인 음성-발음코드 변환 모델과 언어 모델이 학습되고 나면, 본 발명의 제 4 실시예에 따른 자동 음성인식 방법은 음성 데이터를 수신하고(S610), 수신한 음성 데이터를 음성-발음코드 변환 모델을 이용하여 발음코드 데이터로 변환한다(S620).
다음으로, 변환된 발음코드 데이터를 미리 준비된 음절-발음사전 데이터를 이용하여 표기 가능한 글자 후보열을 생성한다(S630).
다음으로, 말뭉치 데이터에 기초하여 학습된 언어 모델을 통해, 상기 생성된 글자 후보열을 녹취록 데이터로 변환한다(S640).
상술한 설명에서, 단계 S210 내지 S640은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1에서의 자동 음성인식 장치(100)에 관하여 이미 기술된 내용은 도 2 내재 도 6의 자동 음성인식 방법에도 적용된다.
한편, 제 1 내지 제 4 실시예에 따른 자동 음성인식 방법은 발음과 발음코드 간의 중의성이 없는 일대일 관계를 가진다. 따라서, 반드시 특정 언어에만 국한되는 것은 아니고 언어가 바뀜에 따라 발음 법칙이 달라지고 발음-기호 간 대입 관계가 달라지게 되는 현상이 없다는 장점이 있다.
이에 따라, 본 발명의 음성-발음코드 변환모델은 모든 언어권에서 재학습없이 동일하게 사용할 수 있다.
또한, 상기의 특성으로 인해 본 발명에 따른 자동 음성인식 방법은 음성-발음코드 변환 학습과정에서 필요한 음성 데이터를 특정 언어로 한정하지 않아도 되는 장점이 있다.
또한, 본 발명은 제 2 및 제 3 실시예와 같이 음향 모델을 비지도 학습하거나, 제 1 및 제 4 실시예와 같이 반자동 저비용으로 구축함으로써, 저비용 및 대용량의 학습을 통한 음향모델 인식 성능을 향상시킬 수 있다는 장점이 있다.
본 발명의 일 실시예에 따른 자동 음성인식 장치(100)에서의 자동 음성인식 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.
*전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
본 발명은 다양한 음성인식 기술 분야에 적용될 수 있으며, 자동 음성인식 장치 및 방법을 제공할 수 있다. 이러한 특징으로 인해, 음성 인식을 위한 학습 데이터로부터 기인한 정보 왜곡을 방지할 수 있다.

Claims (11)

  1. 자동 음성인식 장치에 있어서,
    인터페이스 모듈을 통해 수신한 음성 데이터를 녹취록 데이터로 변환하여 출력하기 위한 프로그램이 저장된 메모리 및,
    상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하되,
    상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 수신한 음성 데이터를 미리 학습된 제 1 모델에 기초하여 발음코드 데이터로 변환하고, 상기 변환된 발음코드 데이터를 미리 학습된 제 2 모델에 기초하여 녹취록 데이터로 변환하는 것인 자동 음성인식 장치.
  2. 제 1 항에 있어서,
    상기 미리 학습된 제 1 모델은 음성-발음코드 변환 모델이되,
    상기 음성-발음코드 변환 모델은 음성 데이터 및 발음코드 데이터로 구성된 병렬 데이터에 기초하여 학습되는 것인 자동 음성인식 장치.
  3. 제 2 항에 있어서,
    상기 변환된 발음코드 데이터는 1차원 구조로 표현 가능한 1 이상의 길이를 가지는 음소 또는 소리의 특징값 열로 구성되는 것인 자동 음성인식 장치.
  4. 제 2 항에 있어서,
    상기 변환된 발음코드 데이터는 언어 독립적인 값으로 구성되는 것인 자동 음성인식 장치.
  5. 제 1 항에 있어서,
    상기 미리 학습된 제 2 모델은 발음코드-녹취록 변환 모델이되,
    상기 발음코드-녹취록 변환 모델은 발음코드 데이터 및 녹취록 데이터로 구성된 병렬 데이터에 기초하여 학습되는 것인 자동 음성인식 장치.
  6. 제 1 항에 있어서,
    상기 미리 학습된 제 2 모델은 발음코드-녹취록 변환 모델이되,
    상기 제 2 모델은 시퀀스(sequence) 형태의 발음코드를 시퀀스 형태의 녹취록으로 한번에 변환하는 자동 음성인식 장치.
  7. 제 1 항에 있어서,
    상기 미리 학습된 제 1 모델은 음성-발음코드 변환 모델이되,
    상기 음성-발음코드 변환 모델은 미리 준비된 음성 데이터에 기초하여 비지도 학습되어 생성되는 것인 자동 음성인식 장치.
  8. 제 7 항에 있어서,
    상기 미리 준비된 음성 데이터는 녹취록 데이터와 함께 병렬 데이터로 구성되는 것인 자동 음성인식 장치.
  9. 제 8 항에 있어서,
    상기 미리 학습된 제 2 모델은 발음코드-녹취록 변환 모델이되,
    상기 프로세서는 상기 미리 학습된 음성-발음코드 변환 모델에 기초하여 상기 병렬 데이터에 포함된 음성 데이터에 대응되도록 발음코드 데이터로 변환하고,
    상기 미리 학습된 발음코드-녹취록 변환 모델은 상기 프로세서에 의해 상기 음성 데이터에 대응되도록 변환된 발음코드 데이터 및 상기 녹취록 데이터로 구성된 병렬 데이터에 기초하여 학습되는 것인 자동 음성인식 장치.
  10. 제 2 항 또는 제 7 항에 있어서,
    상기 프로세서는 미리 준비된 음절-발음사전 데이터를 이용하여 상기 변환된 발음코드 데이터로부터 글자 후보열을 생성하고, 말뭉치 데이터에 기초하여 학습된 언어 모델인 상기 제 2 모델을 통해 상기 생성된 글자 후보열로부터 상기 녹취록 데이터로 변환하는 것인 자동 음성인식 장치.
  11. 자동 음성인식 방법에 있어서,
    음성 데이터를 수신하는 단계;
    상기 수신한 음성 데이터를 미리 학습된 제 1 모델에 기초하여 발음코드열로 변환하는 단계; 및
    상기 변환된 발음코드열을 미리 학습된 제 2 모델에 기초하여 녹취록 데이터로 변환하는 단계를 포함하는 자동 음성인식 방법.
PCT/KR2018/013412 2017-11-14 2018-11-06 자동 음성인식 장치 및 방법 WO2019098589A1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP18879730.2A EP3712886A4 (en) 2017-11-14 2018-11-06 DEVICE AND METHOD FOR AUTOMATIC SPEECH RECOGNITION
JP2020545027A JP2021503104A (ja) 2017-11-14 2018-11-06 自動音声認識装置及び方法
CN201880073991.2A CN111357049A (zh) 2017-11-14 2018-11-06 自动语音识别装置及方法
US16/763,901 US20210174789A1 (en) 2017-11-14 2018-11-06 Automatic speech recognition device and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0151871 2017-11-14
KR1020170151871A KR102075796B1 (ko) 2017-11-14 2017-11-14 자동 음성인식 장치 및 방법

Publications (1)

Publication Number Publication Date
WO2019098589A1 true WO2019098589A1 (ko) 2019-05-23

Family

ID=66539179

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/013412 WO2019098589A1 (ko) 2017-11-14 2018-11-06 자동 음성인식 장치 및 방법

Country Status (6)

Country Link
US (1) US20210174789A1 (ko)
EP (1) EP3712886A4 (ko)
JP (1) JP2021503104A (ko)
KR (1) KR102075796B1 (ko)
CN (1) CN111357049A (ko)
WO (1) WO2019098589A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11637923B1 (en) 2020-09-17 2023-04-25 Intrado Corporation Insight determination from aggregated call content
US11805189B1 (en) * 2020-09-17 2023-10-31 Intrado Life & Safety, Inc. Publish and subscribe call center architecture

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR930022267A (ko) * 1992-04-02 1993-11-23 드와이트 에이. 마샬 자동 음성 인식기
KR20060067107A (ko) * 2004-12-14 2006-06-19 한국전자통신연구원 조음모델을 이용한 연속음성인식 장치 및 그 방법
KR20090060631A (ko) * 2007-12-10 2009-06-15 광주과학기술원 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
KR20160080915A (ko) * 2014-12-29 2016-07-08 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR20170086233A (ko) * 2016-01-18 2017-07-26 한국전자통신연구원 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590533B2 (en) * 2004-03-10 2009-09-15 Microsoft Corporation New-word pronunciation learning using a pronunciation graph
JP4393494B2 (ja) * 2006-09-22 2010-01-06 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP5068225B2 (ja) * 2008-06-30 2012-11-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声ファイルの検索システム、方法及びプログラム
JP5161183B2 (ja) * 2009-09-29 2013-03-13 日本電信電話株式会社 音響モデル適応装置、その方法、プログラム、及び記録媒体
US9483461B2 (en) * 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
JP6284462B2 (ja) * 2014-09-22 2018-02-28 株式会社日立製作所 音声認識方法、及び音声認識装置
KR102167719B1 (ko) * 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
US9978370B2 (en) * 2015-07-31 2018-05-22 Lenovo (Singapore) Pte. Ltd. Insertion of characters in speech recognition
KR102313028B1 (ko) * 2015-10-29 2021-10-13 삼성에스디에스 주식회사 음성 인식 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR930022267A (ko) * 1992-04-02 1993-11-23 드와이트 에이. 마샬 자동 음성 인식기
KR20060067107A (ko) * 2004-12-14 2006-06-19 한국전자통신연구원 조음모델을 이용한 연속음성인식 장치 및 그 방법
KR20090060631A (ko) * 2007-12-10 2009-06-15 광주과학기술원 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
KR20160080915A (ko) * 2014-12-29 2016-07-08 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR20170086233A (ko) * 2016-01-18 2017-07-26 한국전자통신연구원 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3712886A4 *

Also Published As

Publication number Publication date
KR20190054850A (ko) 2019-05-22
CN111357049A (zh) 2020-06-30
KR102075796B1 (ko) 2020-03-02
US20210174789A1 (en) 2021-06-10
JP2021503104A (ja) 2021-02-04
EP3712886A1 (en) 2020-09-23
EP3712886A4 (en) 2021-08-18

Similar Documents

Publication Publication Date Title
JP7464621B2 (ja) 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体
CN111292720B (zh) 语音合成方法、装置、计算机可读介质及电子设备
Le et al. Deep shallow fusion for RNN-T personalization
Bérard et al. End-to-end automatic speech translation of audiobooks
US20230317055A1 (en) Method, apparatus, storage medium and electronic device for speech synthesis
Chen et al. Joint Grapheme and Phoneme Embeddings for Contextual End-to-End ASR.
CN112735373A (zh) 语音合成方法、装置、设备及存储介质
KR20060043845A (ko) 발음 그래프를 사용한 새 단어 발음 습득 개선 방법 및 시스템
WO2019139428A1 (ko) 다중 언어 텍스트-음성 합성 방법
CN112331176B (zh) 语音合成方法、装置、存储介质及电子设备
WO2021162362A1 (ko) 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
US20190096388A1 (en) Generating phonemes of loan words using two converters
CN111292719A (zh) 语音合成方法、装置、计算机可读介质及电子设备
WO2019209040A1 (en) Multi-models that understand natural language phrases
WO2020246641A1 (ko) 복수의 화자 설정이 가능한 음성 합성 방법 및 음성 합성 장치
WO2019098589A1 (ko) 자동 음성인식 장치 및 방법
WO2020054980A1 (ko) 음소기반 화자모델 적응 방법 및 장치
WO2024088262A1 (zh) 语音识别模型的数据处理系统及方法、语音识别方法
WO2022105472A1 (zh) 一种语音识别方法、装置和电子设备
Le et al. G2G: TTS-driven pronunciation learning for graphemic hybrid ASR
CN112530404A (zh) 一种语音合成方法、语音合成装置及智能设备
CN113450760A (zh) 一种文本转语音的方法、装置及电子设备
CN114283777A (zh) 语音合成的方法、装置及存储介质
CN112133285A (zh) 语音识别方法、装置、存储介质和电子设备
Lim et al. A preliminary study on wav2vec 2.0 embeddings for text-to-speech

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18879730

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020545027

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018879730

Country of ref document: EP

Effective date: 20200615