WO2019172734A2 - 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템 - Google Patents

데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템 Download PDF

Info

Publication number
WO2019172734A2
WO2019172734A2 PCT/KR2019/006508 KR2019006508W WO2019172734A2 WO 2019172734 A2 WO2019172734 A2 WO 2019172734A2 KR 2019006508 W KR2019006508 W KR 2019006508W WO 2019172734 A2 WO2019172734 A2 WO 2019172734A2
Authority
WO
WIPO (PCT)
Prior art keywords
dialect
speech
voice
data
core
Prior art date
Application number
PCT/KR2019/006508
Other languages
English (en)
French (fr)
Other versions
WO2019172734A3 (ko
Inventor
이지혜
박선영
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to US16/497,309 priority Critical patent/US11495234B2/en
Priority to PCT/KR2019/006508 priority patent/WO2019172734A2/ko
Publication of WO2019172734A2 publication Critical patent/WO2019172734A2/ko
Priority to KR1020190113608A priority patent/KR20190112682A/ko
Publication of WO2019172734A3 publication Critical patent/WO2019172734A3/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Definitions

  • the present invention relates to a data mining apparatus, a speech recognition method and a system using the same, and more particularly, to a data mining apparatus for improving the speech recognition performance and a speech recognition method and a system using the same.
  • Speech recognition is a concept that includes the recognition, interpretation, and understanding of speech that a person makes during a conversation between a person and a machine.
  • Various techniques are used for speech recognition.
  • the speech recognition process can be composed of three steps. First, characteristics of the voice spoken by a real person are extracted from the input voice. The pattern is classified by measuring similarity with the reference acoustic model based on the extracted speech feature. In the classified pattern, the features of speech are processed as language using the reference language model and recognized as the final sentence.
  • a dialect is a variant that depends on local and social factors within a language.
  • the dialect has its own system and history and is a valuable cultural heritage that shows the diversity of a language.
  • the dialect is linguistically a material that shows the variation and history of a language, and culturally, it is a material that shows the life of local people as reflected in the language. And dialect is still used by people in the region along with the standard language.
  • Prior Art 1 discloses a technique for recognizing a dialect by changing a dialect by removing a tone noise and a phoneme noise of a dialect voice when a dialect-containing voice is input.
  • prior art 2 discloses a data refining technique for refining the collected speech data of a customer in a consistent form after speech recognition, using the same to train a statistical language model, and updating the statistical language model grammar of the speech recognition engine. It is.
  • prior art 2 is suitable for generating a coherent form of a language model of a standard language, but it is difficult to apply to speech recognition including a dialect having an atypical and diverse form.
  • One object of the present invention is to solve the problem of speech recognition, including dialect, which is difficult to apply to a statistical language model according to the prior art due to the irregularities of dialect.
  • One object of the present invention is to solve the problem of the prior art, in which dialect is not distinguished from standard dialect by converting dialect into a standard language without being recognized as it is.
  • One object of the present invention is to solve the problems of the prior art, in which a human is manually transferred to voice data processing and it takes a lot of time and money.
  • Speech recognition method is characterized by being performed by a speech recognition system created to enable dialect speech recognition.
  • the speech recognition method includes selecting a speech data including dialect from the speech data, analyzing and purifying the speech data including the dialect, and an acoustic model and a language using the speech data including the purified dialect. Training the model.
  • the voice recognition method according to an embodiment of the present invention may further include collecting voice data.
  • the voice recognition system may collect voice data of users through various types of voice recognition service domains and users in regions where different types of dialects are used.
  • selecting voice data including dialect from voice data may include removing abnormal speech from the voice data, adopting dialect-containing voice data using a reliability measure of voice data, and dialect. And obtaining transcription data from the extracted voice data.
  • the analyzing and purifying speech data including dialect may include extracting a feature from the speech data including dialect, and performing similar dialect clustering on the speech data including dialect using the extracted features. Performing, extracting a core dialect from a similar dialect cluster, and standardizing the dialect corpus using the extracted core dialect.
  • the speech recognition system may extract at least one of a feature of a pronunciation string, a lexical feature, a domain feature, and a frequency feature of the dialect speech by extracting a feature from the speech data including the dialect.
  • the domain feature may include information about the type of the electronic device providing the voice recognition service to the user, the region where the electronic device is located, and the age group of the user who uses the electronic device.
  • the speech recognition system may perform similar dialect clustering to measure similarity between features through weight calculation between features according to an unsupervised learning method, and cluster dialects having a high similarity to a threshold value.
  • the speech recognition system extracts the core dialects from the similar dialect clusters, extracts the top n objects with high frequency characteristics in the cluster, and extracts the core objects by calculating feature similarities with other objects in the cluster. have.
  • the speech recognition system can verify the dialect by replacing the existing dialect with a core object dialect and measuring the similarity between the original dialect sentence and the replaced sentence by standardizing the dialect corpus.
  • a data mining apparatus corresponds to a component of a speech recognition system that enables a speech recognition system to recognize a dialect speech.
  • the data mining device includes a feature extraction module for extracting features from speech data including dialect, a deep learning module for performing similar dialect clustering on the speech data including the dialect using the extracted features, and a core in a similar dialect cluster. It may be configured to include a core dialect extraction module for extracting dialect and a corpus standardization module for standardizing the dialect corpus using the extracted core dialect.
  • the feature extraction module may extract at least one of a feature of a pronunciation string, a lexical feature, a domain feature, and a frequency feature of the dialect speech.
  • the domain feature may include information about a type of an electronic device that provides a voice recognition service to a user, an area in which the electronic device is located, and an age range of a user who uses the electronic device.
  • the deep learning module may measure similarity between features through weight calculation between features according to an unsupervised learning method, and cluster dialects having a high similarity to a threshold.
  • the core dialect extraction module may extract the top n objects having high frequency features in the cluster, and extract core objects by calculating feature similarity with other objects in the cluster.
  • the corpus standardization module may replace the existing dialect with a core object dialect and verify the similarity between the original dialect sentence and the replaced sentence.
  • voice data selection module for selecting speech data including dialect from the collected speech data
  • voice data analysis and purification module for analyzing and purifying speech data including dialect
  • It includes a model learning module for learning the acoustic model and the language model using the speech data including the purified dialect, and a speech recognition engine for recognizing speech using the learned acoustic model and the language model.
  • the voice data analysis and purification module may include a feature extraction module for extracting features from speech data including dialect, and a deep learning module for performing similar dialect clustering on the speech data including the dialect using the extracted features. It may include a core dialect extraction module for extracting a core dialect from a similar dialect cluster and a corpus standardization module for standardizing a dialect corpus using the extracted core dialect.
  • the performance of the speech recognition system for recognizing speech including dialect can be improved.
  • data purification can be performed in a semi-automatic manner.
  • corpus standardization including dialect can reduce the time required for dialect recognition.
  • 1 is a relation diagram including a voice recognition system, a voice recognition service domain, and a network connecting them to each other according to an embodiment of the present invention.
  • FIG. 2 is a schematic block diagram of a voice recognition system according to an embodiment of the present invention.
  • FIG. 3 is a schematic block diagram of a data mining apparatus according to an embodiment of the present invention.
  • FIG. 4 is a schematic block diagram of a voice recognizer according to an embodiment of the present invention.
  • FIG. 5 is a schematic flowchart of a speech recognition method performed by the apparatus for constructing a speech recognizer according to an embodiment of the present invention.
  • FIG. 6 is an exemplary diagram for explaining an embodiment of a data analysis and purification step performed by a data mining apparatus according to an embodiment of the present invention.
  • FIG. 1 is a relation diagram including a voice recognition system 100, a data mining device 200, various smart electronic devices 300, and a network 400 connecting them to each other, according to an exemplary embodiment.
  • the voice recognition system 100 provides a voice recognition service to the electronic device 300 through the corresponding voice recognition service domain.
  • the speech recognition system 100 may be configured as a separate server for each function in the process of recognizing a spoken voice of a person and answering through natural language processing.
  • Speech recognition system 100 according to an embodiment of the present invention is characterized by having a high dialect recognition performance.
  • the data mining apparatus 200 preprocesses the speech data including the dialect.
  • the voice recognition system 100 includes a data analysis and purification module 130 having a function similar to that of the data mining device 200, and the data mining device 200 is implemented independently of the module 130.
  • the various smart electronic devices 300 may be connected to the voice recognition system 100 through a corresponding domain to use a voice recognition service, for example, a mobile communication terminal 301 capable of operating a function through voice, Electronic devices such as a speaker 302, a washing machine 303, a robot cleaner 304, an air conditioner 305, and a refrigerator 306.
  • a voice recognition service for example, a mobile communication terminal 301 capable of operating a function through voice, Electronic devices such as a speaker 302, a washing machine 303, a robot cleaner 304, an air conditioner 305, and a refrigerator 306.
  • a typical voice recognition service provided through the mobile communication terminal 301 is an artificial intelligence function by an application.
  • the speaker 302 may serve as a hub for controlling an electronic device having no voice input / output function as an artificial intelligence (AI) speaker.
  • AI artificial intelligence
  • the voice input / output function is accommodated in the home appliances 303 to 306, the user can control the electronic product using the voice interface.
  • the electronic devices 300 are called smart electronic devices.
  • Network 400 may be a wired and wireless network, such as a local area network (LAN), a wide area network (WAN), the Internet, an intranet and an extranet, and a mobile network, such as It may be any suitable communication network, including cellular, 3G, 4G LTE, 5G, WiFi networks, ad hoc networks, and combinations thereof.
  • LAN local area network
  • WAN wide area network
  • a mobile network such as It may be any suitable communication network, including cellular, 3G, 4G LTE, 5G, WiFi networks, ad hoc networks, and combinations thereof.
  • Network 400 may include a connection of network elements such as hubs, bridges, routers, switches, and gateways.
  • Network 400 may include one or more connected networks, such as a multi-network environment, including a public network such as the Internet and a private network such as a secure corporate private network. Access to network 400 may be provided through one or more wired or wireless access networks.
  • the voice recognition system 100 may provide a voice recognition service, especially a dialect recognition function with improved performance, to the electronic device 300 through each corresponding domain.
  • the voice recognition system 100 may collect voice data of a user, for example, a dialect through a corresponding domain.
  • speech data including dialect collected in each domain may be used as training data for learning acoustic models and language models.
  • various information about the domain and the region information of the electronic device 200 may be a guide for collecting dialect voice data for each region.
  • the speech recognition system 100 may collect dialect speech data having characteristics distinguished by domain or region.
  • the area where the corresponding smart electronic device 300 is located may be determined through the network connection address or hardware information of the smart electronic device 300 transmitting the dialect voice data to the server of the voice recognition system 100. Therefore, the dialect voice data of each region such as Gyeonggi-do, Jeolla-do, Gyeongsang-do, Chungcheong-do, Gangwon-do, and Jeju-do may be selected and collected for each region.
  • the voice recognition system 100 according to an embodiment of the present invention will be described in detail.
  • FIG. 2 is a schematic block diagram of a voice recognition system 100 according to an embodiment of the present invention.
  • the voice recognition system 100 may be configured to include a voice recognizer configuration apparatus 101, a voice recognizer 102, and a voice database 103.
  • the speech recognizer constructing apparatus 101 selects speech data, analyzes and refines the selected speech data through data mining, trains the model using the purified speech data, and finally performs an acoustic model through a performance estimation process of the model. Train 170 and language model 190 to update their dialect recognition performance.
  • the speech recognizer configuration device 101 may be configured to include a data collection module 110, a data selection module 120, a data analysis and purification module 130, a model learning module 140, and a performance estimation module 150. have.
  • the data analysis and purification module 130 may be implemented as one independent device, that is, a data mining device according to an embodiment of the present invention.
  • the data collection module 110 may collect dialect speech data from the voice database 103.
  • the dialect of each region input through the smart electronic device 300 of FIG. 1 is classified by domain and region, collected by the data collection module 110, and stored in the voice database 103.
  • the data selection module 120 selects data from the voice database 103 stored in the voice recognition system 100 and uses information such as voice recognition results and lattice.
  • the data selection module 120 selects data out of data collected using the vocalization classifier except data that is not available for learning, for example, sounds other than voices, voices between multiplexers, and misrecognized voices.
  • the selected voice data is interpreted automatically. This is called auto transcription.
  • reliability may be measured for the automatic transcription result and data may be classified according to the reliability in order to prevent an error that may occur.
  • high reliability data and low reliability data may exist.
  • Highly reliable data may include dialect speech data. Therefore, data having low reliability may be selected from the collected data, and voice data including dialect may be selected through accent analysis. Accent analysis can remove non-verbal data, such as slang and abbreviations, from unreliable data. Transcription data is extracted from the selected dialect voice data and stored.
  • the data analysis and purification module 130 is a module that processes raw data, that is, performs data mining, to generate training data for learning an acoustic model and a language model.
  • FIG. 3 is a schematic block diagram of a data mining apparatus according to an embodiment of the present invention.
  • the data mining device 200 may be configured as an independent device to include the data analysis and purification module 130 of FIG. 2.
  • the data mining device 200 may be configured to include a feature extraction module 210, a deep learning module 220, a core dialect extraction module 230, and a corpus standardization module 240.
  • the feature extraction module 210 extracts at least one feature from among features of a pronunciation string, speech, ie, morpheme, part-of-speech, embedded features, domain features, and frequency features of speech data, particularly dialect speech data. Can be.
  • the features of the pronunciation string and the features of the vocabulary correspond to the linguistic features of the dialect.
  • Domain features correspond to non-verbal features associated with dialect speech generation. As described in FIG. 1, the dialect voice may be collected, analyzed, and purified through the voice recognition service domain. The domain characteristics are related to which electronic device 300 is provided with the voice recognition service, which region the electronic device 300 is distributed in, and how old are the users of the electronic device 300? May contain information. Therefore, voice data may be classified according to dialects used in the region through domain features.
  • the deep learning module 220 calculates weights between features, measures similarity between features, and performs clustering on dialects having similarity higher than a threshold value.
  • the core dialect extraction module 230 extracts the top n dialects with high frequency features in the cluster, and extracts the core objects through feature similarity calculation with other objects in the cluster.
  • the corpus standardization module 240 replaces the existing dialect with the core object dialect and verifies the standardization work by measuring the similarity between the original dialect sentence and the replaced sentence.
  • a variety of dialects can be derived from variations in a dialect vocabulary that has the same meaning in a region, for example, Gyeongsang-do or Jeolla-do dialects. In this case, it is necessary to classify similar dialects. Grouping similar dialects with the same meaning is called clustering.
  • the core dialects are extracted from the clustered group of various forms of dialects with the same meaning, and the core dialects are used to standardize the corpus of dialects.
  • the model learning module 140 generates the acoustic model 170 and the language model 190 and trains the generated acoustic model 170 and the language model 190 using the purified data.
  • unsupervised learning using deep learning may be performed.
  • the performance estimation module 150 may estimate the dialect recognition performance by measuring the reliability of the speech recognition result performed by the speech recognition engine 160 using the trained acoustic model 170 and the language model 190. In addition, the performance estimation module 150 compares the previous speech recognizer with a new speech recognizer whose reliability is estimated, and when it is determined that the speech recognition performance by the new acoustic model 170 and the language model 190 is improved, The acoustic model 170 and the language model of the recognizer are updated to include the newly learned matter.
  • the voice recognizer 102 in the voice recognition system 100 recognizes the input voice using the acoustic model 170, the pronunciation dictionary 180, and the language model 190 updated by the voice recognition configuration device 101. The process of doing this will be described.
  • FIG. 4 is a schematic block diagram of a voice recognizer according to an embodiment of the present invention.
  • the speech recognizer 102 may be configured to include a speech recognition engine 160, a sound module 170, a pronunciation dictionary 180, and a language model 190.
  • the spoken voice is converted into a voice signal through a microphone, and the analog voice signal is converted into a digitized voice signal through a digital sampling process.
  • Digital voice signals go through acoustic signal processing.
  • spectral analysis may be included in the acoustic signal processing.
  • the dialect voice is input through the smart electronic device 300, for example, an artificial intelligence (AI) speaker, the input voice is converted into an electrical signal, and the changed analog signal is converted into a digital electrical signal through sampling again.
  • the speech recognition engine 160 extracts a feature of speech, that is, a feature vector, from the digital electrical signal (S161).
  • the speech recognition engine 160 generates a candidate unit through the pattern classification process S162 using the acoustic model 170 and the pronunciation dictionary 180 based on the extracted feature vector, and generates a pronunciation dictionary and a language model 190. ) And finally the sentence recognized through the language processing process (S163).
  • the voice is not only very complicated depending on the person's gender, age, and the state of the pronunciation, but also because its properties change when it is pronounced alone and whenever it is pronounced in a word or sentence.
  • Feature detection that can express features is important. That is, in the feature extraction process, it is necessary to extract the information that can remove the unnecessary overlapping voice information, improve the consistency between the same voice signals and at the same time discriminate them from other voice signals. This information is called a feature vector.
  • Feature extraction is the process of extracting useful components from speech signals. Feature extraction is generally associated with information compression and dimension reduction. Since there is no ideal answer in feature extraction, the good and bad features for speech recognition are judged by the speech recognition rate.
  • the main research areas of feature extraction are feature expressions that reflect human auditory characteristics, robust features for various noise environments, speakers, and channel variations, and features that represent temporal changes.
  • Feature extraction techniques mainly used for speech recognition include Linear Predictive Coefficient, Cepstrum, Mel Frequency Cepstral Coefficient (MFCC), and Frequency Band Energy (filter bank). energy).
  • the speech recognition process is divided into an offline learning step of generating a recognition network model from voice data and language data, and an online search step of recognizing a user uttered voice.
  • the speech recognition engine 160 outputs text information from the speech signal using important prior knowledge of speech and language information.
  • a speech recognition algorithm is sometimes called a decoder in order to interpret a speech signal as a character symbol.
  • Feature vectors obtained from feature extraction are subjected to similarity measurement and recognition.
  • an acoustic model for modeling and comparing the signal characteristics of speech and a language model for modeling linguistic order relations of words or syllables corresponding to the recognition vocabulary are used.
  • the acoustic model is divided into a direct comparison method that sets a recognition object as a feature vector model and compares it with a feature vector of an input signal, and a statistical method by statistically processing the feature vector of the recognition object.
  • the direct comparison method is to set the unit of words, phonemes, etc. to be recognized as the feature vector model and compare how similar the input voice is.
  • a typical method is a vector quantization method.
  • the statistical model method is a method of constructing a unit for a recognition object into a state sequence and using a relationship between state columns.
  • Status columns can represent complex models, so most speech recognition uses this technique, except for simple word recognition.
  • the relationship between the state columns is again divided into temporal arrangements such as dynamic time warping (DTW), statistical methods such as probability values, averages, and variances, such as HMMs, and artificial neural networks.
  • DTW dynamic time warping
  • statistical methods such as probability values, averages, and variances, such as HMMs
  • HMMs and artificial neural networks.
  • the feature strings are compared and scored using the acoustic model (AM), language model (LM), and pronunciation dictionary (Pronunciation Lexicon), which are the results of the training step, and the word strings are finalized. Is determined.
  • AM acoustic model
  • LM language model
  • Pronunciation Lexicon Pronunciation Lexicon
  • the voice database 103 may be configured to include local dialect voice data collected from various smart electronic devices 300 and public voice data constructed at a national institution or research institute through a domain for providing a voice recognition service depicted in FIG. 1. Can be.
  • the voice database 103 may include big data.
  • FIG. 5 is a schematic flowchart of a speech recognition method performed by the apparatus for constructing a speech recognizer according to an embodiment of the present invention.
  • the speech recognition method S100 may include configuring a speech recognizer 102 suitable for dialect speech recognition and using a speech recognizer 102 to actually input a speech input. And recognizing the voice.
  • the step of configuring the voice recognition method (S100), and among them, the voice recognizer 102 may include updating a sound model and a language model required for dialect speech recognition as a main process. It is done.
  • Voice recognition system 100 is characterized by performing the following steps to improve dialect speech recognition performance.
  • the voice recognition system 100 collects data through the data collection module 110 (S110).
  • the speech recognition system 100 selects speech data including dialect from the speech data through the data selection module 100 (S120).
  • Step S120 includes a step of removing abnormal utterance internally (S121), measuring reliability of voice data (S122), analyzing an accent of voice data (123), and transferring voice data (S124). It can be configured to.
  • the speech recognition system 100 analyzes and refines speech data including dialect through the data analysis and purification module 130 (S130).
  • Step S130 internally extracts the features of the dialect speech (S131), clusters by similar dialects (S132), extracts the core dialects from the cluster (S133), and standardizes the dialect corpus (S134). It can be configured to include.
  • the speech recognition system 100 generates an acoustic model and a language model through the model learning module 140 and trains the acoustic model and the language model using the training data (S140).
  • the step S140 may be configured to internally generate an acoustic model and train the same (S141), extract a syllable unit frequency (S142), and train the language model (S143).
  • Pronunciation dictionaries can be used to learn acoustic models and language models. Learning improves the performance of acoustic models and language models for standard and dialect speech.
  • the speech recognition system 100 estimates the performance of the acoustic model 170 and the language model 190 learned through the performance estimation module 150 (S150).
  • step S150 a step of measuring reliability of at least one model internally (S151), a step of estimating recognition performance using reliability (S152), a step of comparing recognition performance between a plurality of models (S153) and a plurality of It may be configured to include a step (S154) of checking whether the recognition performance is improved compared to the previous model using a model having better recognition performance among the models.
  • Step S150 may be performed on the acoustic model and the language model.
  • FIG. 6 is an exemplary diagram for explaining an embodiment of a data analysis and purification step performed by a data mining apparatus according to an embodiment of the present invention.
  • a dialect sentence used for analyzing and refining voice data the first sentence "driving in windy winds", the second sentence "driving in windy winds”, and the third sentence "driving in windy winds” is selected as an example sentence.
  • the feature extraction module 210 may extract a feature, a feature of a vocabulary, a domain feature, and a frequency feature of each sentence for the first to third sentences (S131).
  • domain features domains such as air conditioners, washing machines and the like are depicted.
  • the deep learning module 220 performs similar dialect clustering in an unsupervised manner (S132). Clustering results for descriptors are described in the dialect. In the first to third sentences, “operating” and “not operating” were clustered together, and “do not operate” was not included in the same cluster.
  • the core dialect extraction module 230 extracts a dialect with a high frequency characteristic and extracts a core dialect through a similarity calculation (S133).
  • a similarity calculation selects the "operating vehicle” as the core object.
  • the corpus standardization module 240 replaces the existing dialect with the core object dialect and verifies corpus standardization by measuring the similarity between the original dialect sentence and the replaced sentence (S134).
  • the phrase "not operating” in the second sentence is replaced with "operating material" which is a core object.
  • the recognition rate may decrease and the dialect recognition speed may decrease. Therefore, through the standardization of the dialect corpus, the dialect recognition rate may be increased, and the dialect recognition speed may be increased.
  • the performance of the speech recognition system for recognizing speech including dialect may be improved.
  • data purification can be performed in a semi-automatic manner.
  • corpus standardization including dialect can reduce the time required for dialect recognition.
  • speech recognizer configuration device 101, speech recognizer configuration device, 102: speech recognizer

Abstract

데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템이 개시된다. 음성 인식 방법은, 음성 데이터에서 사투리가 포함된 음성 데이터를 선택하는 단계, 사투리가 포함된 음성 데이터를 분석 및 정제하는 단계 및 정제된 사투리가 포함된 음성 데이터를 이용하여 인공지능(artificial intelligence, AI) 알고리즘을 통해 음향모델 및 언어모델을 학습시키는 단계를 포함한다. 본 발명에 따르면, 사용자는 5G 이동통신의 eMBB, URLLC, mMTC 기술을 이용하여 향상된 사투리 음성인식의 서비스 이용이 가능하다.

Description

데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템
본 발명은 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템에 관한 것으로, 더욱 상세하게는 사투리 인식 성능 향상을 위한 데이터 마이닝 장치 및 이를 이용하는 사투리 인식 성능이 향상된 음성인식 방법 및 시스템에 관한 것이다.
음성인식이란 사람과 기계 사이의 대화 중에 사람이 내는 음성의 인식(recognition), 해석(analysis) 및 이해(understanding)를 포함하는 개념으로서, 음성인식을 위해서 다양한 기술들이 사용된다.
음성인식 과정은 크게 세 가지 단계로 구성될 수 있다. 우선 입력된 음성 중에서 실제 사람이 발성한 음성의 특징이 추출된다. 그리고 추출된 음성의 특징을 기반으로 기준 음향모델과의 유사도 측정을 통해 패턴이 분류된다. 그리고 분류된 패턴에서 기준 언어모델을 이용하여 음성의 특징들이 언어로 처리되고 최종 문장으로 인식된다.
사투리는 한 언어 내부에서 지역과 사회적 요인에 따라 달라지는 변이체를 말한다. 사투리는 독자적인 체계와 역사를 지니고 있어서 한 언어의 다양성을 보여주는 귀중한 문화 유산에 해당한다. 사투리는 언어학적으로는 한 언어의 변이와 역사를 보여주는 자료이고, 문화적으로는 언어에 투영된 지역 사람들의 삶의 모습을 나타내는 자료이다. 그리고 사투리는 지금도 표준어와 더불어 해당 지역의 사람들에 의해 사용되고 있다.
특정 언어로 발화되는 음성을 인식하는 음성인식 시스템은 해당 언어의 표준어를 기본으로 만들어지기 때문에, 방언 즉 사투리를 인식하는 능력은 현저히 떨어질 수 밖에 없다.
사투리가 포함된 음성이 입력되는 경우, 사투리 음성이 갖는 음색 노이즈 및 음소 노이즈의 제거를 통해 사투리를 표준어로 고쳐서 인식하는 기술이 선행기술 1에 개시되어 있다.
그러나, 선행기술 1에 따르면 표준어와 사투리의 음색들이 서로 구별되지 않는 경우 이를 해결할 방법이 없으며, 사투리가 포함된 음성에서 단순한 음소 노이즈 제거만으로는 사투리가 표준어가 될 수 없기 때문에 사투리 인식 능력이 현저히 떨어지는 문제점이 있다.
또한, 수집된 고객의 발화 데이터를 음성인식 후 일관성 있는 형태로 정제한 후, 이를 이용하여 통계적 언어 모델을 학습시키고, 음성인식 엔진의 통계적 언어 모델 그래머를 갱신하는 데이터 정제 기술이 선행 기술 2에 개시되어 있다.
그러나, 선행기술 2는 표준어에 관한 일관적인 형태의 언어모델 생성에는 적합하나, 비정형적이고 다양한 형태를 갖는 사투리를 포함하는 음성인식에는 적용되기 어렵다.
<선행기술문헌>
선행기술 1: 한국 등록특허공보 제10-1836430호(2018.03.02. 등록)
선행기술 2: 한국 등록특허공보 제10-1179915호(2012.08.30. 등록)
본 발명의 일 과제는, 사투리가 갖는 비정형성으로 인하여 종래 기술에 의한 통계적 언어 모델에 적용시키기 어려웠던 사투리를 포함하는 음성인식의 문제점을 해결하는 것이다.
본 발명의 일 과제는, 사투리를 그대로 인식하지 않고 표준어로 변환함으로써 사투리와 표준어를 구별하지 못했던 종래 기술의 문제점을 해결하는 것이다.
본 발명의 일 과제는, 음성 데이터 처리에 사람이 수동으로 전사하여 많은 시간과 비용이 들었던 종래 기술의 문제점을 해결하는 것이다.
또한, 사투리로 인해 음성인식이 지연되었던 종래 기술의 문제점을 해결하는 것이다.
본 발명의 목적은 이상에서 언급한 과제에 한정되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 실시 예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 알 수 있을 것이다.
본 발명의 일 실시 예에 따른 음성인식 방법은 사투리 음성인식이 가능하도록 창작된 음성인식 시스템에 의해 수행되는 것을 특징으로 한다.
구체적으로 음성인식 방법은, 음성 데이터에서 사투리가 포함된 음성 데이터를 선택하는 단계, 상기 사투리가 포함된 음성 데이터를 분석 및 정제하는 단계 및 정제된 사투리가 포함된 음성 데이터를 이용하여 음향모델 및 언어모델을 학습시키는 단계를 포함할 수 있다.
또한, 본 발명의 일 실시 예에 따른 음성인식 방법은 음성 데이터를 수집하는 단계를 더 포함할 수 있다.
또한, 음성 데이터를 수집하는 단계를 통해, 음성인식 시스템은 서로 다른 종류의 사투리가 사용되는 지역의 사용자들 및 다양한 종류의 음성인식 서비스 도메인을 통해 사용자들의 음성 데이터를 수집할 수 있다.
또한, 음성 데이터에서 사투리가 포함된 음성 데이터를 선택하는 단계는, 상기 음성 데이터에서 이상 발성을 제거하는 단계, 음성 데이터의 신뢰도 측정을 이용하여 사투리가 포함된 음성 데이터를 채택하는 단계 및 사투리가 포함된 음성 데이터로부터 전사 데이터를 얻는 단계를 포함하도록 구성될 수 있다.
또한, 사투리가 포함된 음성 데이터를 분석 및 정제하는 단계는, 사투리가 포함된 음성 데이터에서 특징(feature)을 추출하는 단계, 추출된 특징을 이용하여 사투리가 포함된 음성 데이터에 대해 유사 사투리 클러스터링을 수행하는 단계, 유사 사투리 클러스터에서 핵심 사투리를 추출하는 단계 및 추출된 상기 핵심 사투리를 이용하여 사투리 코퍼스를 표준화하는 단계를 포함하도록 구성될 수 있다.
또한, 음성인식 시스템은 사투리가 포함된 음성 데이터에서 특징을 추출하는 단계를 통해, 사투리 음성의 발음열의 특징, 어휘적인 특징, 도메인 특징 및 빈도수 특징 중에서 적어도 하나를 추출할 수 있다.
또한, 도메인 특징은, 사용자에게 음성인식 서비스를 제공하는 전자 장치의 종류, 전자 장치가 위치하는 지역 및 전자 장치를 사용하는 사용자의 연령대에 관한 정보를 포함할 수 있다.
또한, 음성인식 시스템은 유사 사투리 클러스터링을 수행하는 단계를 통해, 비지도 학습 방식에 따라 특징 간 가중치 연산을 통해 특징 간 유사도를 측정하고, 임계값 대비 높은 유사도를 갖는 사투리를 클러스터링할 수 있다.
또한, 음성인식 시스템은 유사 사투리 클러스터에서 핵심 사투리를 추출하는 단계를 통해, 클러스터 내 빈도수 특징이 높은 상위 n개의 객체를 추출하고, 클러스터 내 다른 객체들과 특징 유사도 계산을 통해 핵심 객체를 추출할 수 있다.
또한, 음성인식 시스템은 사투리 코퍼스를 표준화하는 단계를 통해, 기존의 사투리를 핵심 객체 사투리로 치환하고, 원 사투리 문장과 치환된 문장의 유사도 측정을 통해 검증할 수 있다.
본 발명의 일 실시 예에 따른 데이터 마이닝 장치는, 음성인식 시스템이 사투리 음성을 인식할 수 있도록 하는 음성인식 시스템의 구성요소에 해당한다.
데이터 마이닝 장치는 사투리가 포함된 음성 데이터에서 특징을 추출하는 특징추출 모듈, 추출된 상기 특징을 이용하여 상기 사투리가 포함된 음성 데이터에 대해 유사 사투리 클러스터링을 수행하는 딥 러닝 모듈, 유사 사투리 클러스터에서 핵심 사투리를 추출하는 핵심 사투리 추출모듈 및 추출된 상기 핵심 사투리를 이용하여 사투리 코퍼스를 표준화하는 코퍼스 표준화 모듈을 포함하도록 구성될 수 있다.
또한, 특징추출 모듈은, 사투리 음성의 발음열의 특징, 어휘적인 특징, 도메인 특징 및 빈도수 특징 중에서 적어도 하나를 추출할 수 있다.
또한, 도메인 특징은, 사용자에게 음성인식 서비스를 제공하는 전자 장치의 종류, 상기 전자 장치가 위치하는 지역 및 상기 전자 장치를 사용하는 사용자의 연령대에 관한 정보를 포함할 수 있다.
또한, 딥 러닝 모듈은, 비지도 학습 방식에 따라 특징 간 가중치 연산을 통해 특징 간 유사도를 측정하고, 임계값 대비 높은 유사도를 갖는 사투리를 클러스터링할 수 있다.
또한, 핵심 사투리 추출모듈은, 클러스터 내 빈도수 특징이 높은 상위 n개의 객체를 추출하고, 클러스터 내 다른 객체들과 특징 유사도 계산을 통해 핵심 객체를 추출할 수 있다.
또한, 코퍼스 표준화 모듈은, 기존의 사투리를 핵심 객체 사투리로 치환하고, 원 사투리 문장과 치환된 문장의 유사도 측정을 통해 검증할 수 있다.
본 발명의 일 실시 예에 따른 음성인식 시스템은, 수집된 음성 데이터에서 사투리가 포함된 음성 데이터를 선택하는 음성 데이터 선택모듈, 사투리가 포함된 음성 데이터를 분석 및 정제하는 음성 데이터 분석 및 정제모듈, 정제된 사투리가 포함된 음성 데이터를 이용하여 음향모델 및 언어모델을 학습시키는 모델 학습모듈 및 학습된 음향모델 및 언어모델을 이용하여 음성을 인식하는 음성인식 엔진을 포함한다.
여기서, 음성 데이터 분석 및 정제모듈은, 사투리가 포함된 음성 데이터에서 특징을 추출하는 특징추출 모듈, 추출된 상기 특징을 이용하여 상기 사투리가 포함된 음성 데이터에 대해 유사 사투리 클러스터링을 수행하는 딥 러닝 모듈, 유사 사투리 클러스터에서 핵심 사투리를 추출하는 핵심 사투리 추출모듈 및 추출된 상기 핵심 사투리를 이용하여 사투리 코퍼스를 표준화하는 코퍼스 표준화 모듈을 포함할 수 있다.
본 발명에 의하면, 사투리가 포함된 음성을 인식하는 음성인식 시스템의 성능이 향상될 수 있다.
또한, 표준어를 거치지 않고서도 사투리가 포함된 음성 그대로를 인식할 수 있으므로, 사투리를 사용한 자연어 처리가 가능하다.
또한, 데이터 마이닝에 인공지능을 활용함으로써 데이터 정제가 반자동의 방법으로 수행될 수 있다.
또한, 사투리를 포함하는 코퍼스 표준화를 통해 사투리 인식에 소요되는 시간을 줄일 수 있다.
도 1은 본 발명의 일 실시 예에 따른 음성인식 시스템, 음성인식 서비스 도메인 및 이들을 서로 연결하는 네트워크를 포함하는 관계도이다.
도 2는 본 발명의 일 실시 예에 따른 음성인식 시스템의 개략적인 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 데이터 마이닝 장치의 개략적인 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 음성인식기의 개략적인 블록도이다.
도 5는 본 발명의 일 실시 예에 따른 음성인식기 구성 장치에 의해 수행되는 음성인식 방법의 개략적인 흐름도이다.
도 6은 본 발명의 일 실시 예에 따른 데이터 마이닝 장치에 의해 수행되는 데이터 분석 및 정제 단계에 관한 일 실시 예의 설명을 위한 예시도이다.
이하, 첨부된 도면을 참조하여 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템에 대한 바람직한 실시 예를 상세히 설명하기로 한다.
각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 또한 본 발명의 일 실시 예들에 대해서 특정한 구조적 내지 기능적 설명들은 단지 본 발명에 따른 실시 예를 설명하기 위한 목적으로 예시된 것으로, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는 것이 바람직하다.
도 1은 본 발명의 일 실시 예에 따른 음성인식 시스템(100), 데이터 마이닝 장치(200), 각종 스마트 전자 기기(300) 및 이들을 서로 연결하는 네트워크(400)를 포함하는 관계도이다.
음성인식 시스템(100)은 해당 음성인식 서비스 도메인을 통해 전자 기기(300)에 음성인식 서비스를 제공한다. 음성인식 시스템(100)은 사람의 발화 음성을 인식하고, 자연어 처리를 통해 대답을 하는 과정에서 기능 별로 별도의 서버로 구성될 수 있다. 본 발명의 일 실시 예에 따른 음성인식 시스템(100)은 높은 사투리 인식 성능을 갖는 것을 특징으로 한다.
데이터 마이닝 장치(200)는 사투리가 포함된 음성 데이터를 전처리한다. 음성인식 시스템(100) 내에는 데이터 마이닝 장치(200)와 유사한 기능의 데이터 분석 및 정제모듈(130)이 포함되어 있고, 데이터 마이닝 장치(200)는 이 모듈(130)이 독립적으로 구현된 것이다.
각종 스마트 전자 기기(300)는 사용자가 해당 도메인을 통해 음성인식 시스템(100)에 연결하여 음성인식 서비스를 이용할 수 있는, 단말, 예를 들어 음성을 통해 기능 조작이 가능한 모바일 통신 단말(301), 스피커(302), 세탁기(303), 로봇 청소기(304), 에어 컨디셔너(305), 및 냉장고(306)와 같은 전자 장치이다.
모바일 통신 단말(301)을 통해 제공되는 대표적인 음성인식 서비스는 애플리케이션에 의한 인공지능 비서 기능이다. 스피커(302)는, 인공지능(AI) 스피커로서 음성 입출력 기능이 없는 전자 기기를 제어하는 허브 역할을 할 수 있다. 그 밖에 생활 가전 제품들(303 내지 306)에 음성 입출력 기능이 수용되어서, 사용자는 음성 인터페이스를 이용하여 전자 제품을 제어할 수 있다. 이러한 점에서 전자 기기(300)들은 스마트 전자 기기로 불린다.
네트워크(400)는 유선 및 무선 네트워크, 예를 들어 LAN(local area network), WAN(wide area network), 인터넷(internet), 인트라넷(intranet) 및 엑스트라넷(extranet), 그리고 모바일 네트워크, 예를 들어 셀룰러, 3G, 4G LTE, 5G, WiFi 네트워크, 애드혹 네트워크 및 이들의 조합을 비롯한 임의의 적절한 통신 네트워크 일 수 있다.
네트워크(400)는 허브, 브리지, 라우터, 스위치 및 게이트웨이와 같은 네트워크 요소들의 연결을 포함할 수 있다. 네트워크(400)는 인터넷과 같은 공용 네트워크 및 안전한 기업 사설 네트워크와 같은 사설 네트워크를 비롯한 하나 이상의 연결된 네트워크들, 예컨대 다중 네트워크 환경을 포함할 수 있다. 네트워크(400)에의 액세스는 하나 이상의 유선 또는 무선 액세스 네트워크들을 통해 제공될 수 있다.
본 발명의 일 실시 예에 따른 음성인식 시스템(100)은 각 해당 도메인을 통해 전자 기기(300)에 음성인식 서비스, 특히 향상된 성능의 사투리 인식기능을 제공할 수 있다.
또는 음성인식 시스템(100)은 해당 도메인을 통해 사용자의 음성, 예를 들어 사투리가 포함된 음성 데이터를 수집할 수 있다. 그리고 각 도메인에서 수집된 사투리가 포함된 음성 데이터, 즉 사투리 음성 데이터는 음향모델 및 언어모델을 학습시키는 학습용 데이터로 활용될 수 있다. 특히 해당 도메인에 관한 각종 정보 및 전자 기기(200)가 갖는 지역 정보는 사투리 음성 데이터를 지역별로 수집하는 데에 지침이 될 수 있다.
특히 음성인식 시스템(100)은 도메인 별로 또는 지역 별로 구별되는 특징을 갖는 사투리 음성 데이터를 수집할 수 있다. 사투리 음성 데이터를 음성인식 시스템(100)의 서버로 전송하는 스마트 전자 기기(300)의 네트워크 접속 주소, 또는 하드웨어 정보를 통해 해당 스마트 전자 기기(300)가 위치해 있는 지역이 파악될 수 있다. 따라서, 경기도, 전라도, 경상도, 충청도, 강원도, 및 제주도 등의 각 지역의 사투리 음성 데이터는 지역별로 선별되어 수집될 수 있다. 이하 본 발명의 일 실시 예에 따른 음성인식 시스템(100)에 대해 자세히 설명하기로 한다.
도 2는 본 발명의 일 실시 예에 따른 음성인식 시스템(100)의 개략적인 블록도이다.
도 2를 참조하면, 음성인식 시스템(100)은 음성인식기 구성 장치(101), 음성인식기(102) 및 음성 데이터베이스(103)를 포함하도록 구성될 수 있다.
음성인식기 구성 장치(101)는 음성 데이터를 선택하고, 데이터 마이닝을 통해 선택된 음성 데이터를 분석 및 정제하고, 정제된 음성 데이터를 이용하여 모델을 학습 시키고, 모델의 성능 추정 과정을 거쳐 최종적으로 음향모델(170) 및 언어모델(190)을 학습시켜, 이들의 사투리 인식 성능을 업데이트 한다. 음성인식기 구성 장치(101)는 데이터 수집모듈(110), 데이터 선택모듈(120), 데이터 분석 및 정제모듈(130), 모델 학습모듈(140) 및 성능 추정모듈(150)을 포함하도록 구성될 수 있다. 여기서, 데이터 분석 및 정제모듈(130)은 하나의 독립된 장치, 즉 본 발명의 일 실시 예에 따른 데이터 마이닝 장치로서 구현될 수 있다.
데이터 수집모듈(110)은 음성 데이터베이스(103)로부터 지역별 사투리 음성 데이터를 수집할 수 있다. 도 1의 스마트 전자 기기(300)를 통해 입력된 각 지역의 사투리는 도메인 및 지역별로 분류되어 데이터 수집모듈(110)에 의해 수집되어 음성 데이터베이스(103)에 저장된다.
데이터 선택모듈(120)은 음성인식 시스템(100)에 저장되어 있는 음성 데이터베이스(103)에서 데이터를 선택하되, 음성인식 결과 및 lattice 등의 정보를 이용한다. 데이터 선택모듈(120)은 이상발성 분류기를 이용하여 수집된 데이터 중에서 학습에 사용 불가능한 데이터, 예를 들어 음성이 아닌 소리, 다중화자 간의 음성 및 오인식된 음성을 제외하고 데이터를 선택한다.
선택된 음성 데이터는 자동으로 그 뜻이 해석된다. 이를 자동 전사(auto transcription)라고 한다. 자동 전사의 경우 발생할 수 있는 오류를 방지하기 위해 자동 전사 결과에 대해 신뢰도가 측정되고, 신뢰도에 따라 데이터가 분류될 수 있다.
이 경우 신뢰도가 높은 데이터와 신뢰도가 낮은 데이터가 존재할 수 있다. 신뢰도가 높은 데이터는 사투리 음성 데이터를 포함할 수 있다. 따라서, 수집된 데이터 중에서 신뢰도가 낮은 데이터를 선택해서, 악센트 분석을 통해 사투리를 포함하는 음성 데이터를 선택할 수 있다. 악센트 분석을 통해 신뢰도 낮은 데이터 중에서 사투리 음성이 아닌 데이터, 예를 들어 비속어, 줄임 말 등이 제거될 수 있다. 선택된 사투리 음성 데이터로부터 전사 데이터가 추출되어 저장된다.
데이터 분석 및 정제모듈(130)은 음향모델과 언어모델을 학습시키기 위한 학습용 데이터를 생성하기 위해 원시 데이터를 가공하는, 즉 데이터 마이닝을 수행하는 모듈이다.
도 3은 본 발명의 일 실시 예에 따른 데이터 마이닝 장치의 개략적인 블록도이다.
도 3을 참조하면, 본 발명의 일 실시 예에 따른 데이터 마이닝 장치(200)의 구성요소들이 묘사되어 있다. 데이터 마이닝 장치(200)는 도 2의 데이터 분석 및 정제모듈(130)을 포함하도록 독립된 장치로 구성될 수 있다.
데이터 마이닝 장치(200)는 특징추출 모듈(210), 딥 러닝 모듈(220), 핵심 사투리추출 모듈(230), 및 코퍼스 표준화 모듈(240)를 포함하도록 구성될 수 있다.
특징추출 모듈(210)은 음성 데이터, 특히 사투리 음성 데이터의 발음열의 특징(feature), 어휘, 즉 형태소, 품사, 임베딩(embedding)의 특징, 도메인의 특징 및 빈도수 특징 중에서 적어도 하나의 특징을 추출할 수 있다. 여기서, 발음열의 특징과 어휘의 특징은 사투리가 갖는 언어적인 특징에 해당한다.
도메인 특징은 사투리 음성의 생성과 관련된 언어 외적인 특징에 해당한다. 도 1에서 설명하였듯이 사투리 음성은 음성인식 서비스 도메인을 통해서 수집되고, 분석 및 정제될 수 있다. 도메인 특징은 해당 음성인식 서비스가 어떠한 전자 기기(300)를 통해서 제공되고 있는지, 전자 기기(300)느 어느 지역에 분포하고 있는지, 전자 기기(300)를 사용하는 사용자의 연령대는 어느 정도인지에 관한 정보를 포함할 수 있다. 따라서 도메인 특징을 통해 해당 지역에서 사용되는 사투리 별로 음성 데이터가 분류될 수 있다.
딥 러닝 모듈(220)은 특징 간 가중치를 연산하고, 특징 가 유사도를 측정하고, 그리고 임계 값보다 높은 유사도를 갖는 사투리에 대해 클러스터링을 수행한다.
핵심 사투리추출 모듈(230)은 클러스터 내 빈도수 특징이 높은 상위 n개 사투리를 추출하고, 클러스터 내 다른 객체들과 특징 유사도 계산을 통해 핵심 객체를 추출한다.
코퍼스 표준화 모듈(240)은 기존의 사투리를 핵심 객체 사투리로 치환하고, 원 사투리 문장과 치환된 문장의 유사도 측정을 통해 표준화 작업을 검증한다.
한 지역, 예를 들어 경상도 또는 전라도 사투리의 경우 같은 뜻을 갖는 하나의 사투리 어휘에서 변이를 통해 다양한 모양의 사투리가 파생될 수 있다. 이 경우 유사한 사투리끼리 분류할 필요가 있다. 동일한 뜻을 갖는 유사한 사투리끼리 분류하는 것을 군집화(clustering)라고 한다.
동일한 뜻을 갖는 다양한 형태의 사투리 어휘가 군집화된 집단에서 핵심 사투리가 추출되고, 핵심 사투리를 이용하여 사투리 어휘의 코퍼스를 표준화한다.
모델 학습모듈(140)은 음향모델(170)과 언어모델(190)을 생성하고, 정제된 데이터를 이용하여 생성된 음향모델(170)과 언어모델(190)을 학습시킨다. 본 발명에서는 딥 러닝(deep learning)을 이용하는 비지도 방식의 학습이 수행될 수 있다.
성능 추정모듈(150)은 학습된 음향모델(170) 및 언어모델(190)을 이용하여 음성인식 엔진(160)이 수행한 음성인식 결과의 신뢰도 측정을 통하여 사투리 인식성능을 추정할 수 있다. 그리고 성능 추정모듈(150)은 이전의 음성인식기와 신뢰도가 추정된 새로운 음성인식기를 비교하고, 새로운 음향모델(170) 및 언어모델(190)에 의한 음성 인식 성능이 개선된 것으로 판단되는 경우, 음성인식기의 음향모델(170)과 언어모델은 새롭게 학습된 사항을 포함하도록 업데이트 된다.
이하 음성인식 시스템(100) 내의 음성인식기(102)가 음성인식 구성 장치(101)에 의해 업데이트된 음향모델(170), 발음사전(180) 및 언어모델(190)을 이용하여 입력된 음성을 인식하는 과정에 대해서 설명하기로 한다.
도 4는 본 발명의 일 실시 예에 따른 음성인식기의 개략적인 블록도이다.
도 4를 참조하면, 본 발명의 일 실시 예에 따른 음성인식기(102)가 묘사되어 있다. 음성인식기(102)는 음성인식 엔진(160), 음향모듈(170), 발음사전(180) 및 언어모델(190)을 포함하도록 구성될 수 있다.
발화된 음성은 마이크를 통해 음성 신호로 변환되고, 아날로그 음성 신호는 디지털 샘플링(digital sampling) 과정을 거쳐 디지털화된 음성 신호로 변환된다. 디지털 음성 신호는 음향 신호 처리(acoustic signal processing)를 거친다. 여기서, 음향 신호 처리에 스펙트럴 분석(spectral analysis)이 포함되기도 한다.
스마트 전자 기기(300), 예를 들어 인공지능(AI) 스피커를 통해 사투리 음성이 입력되고, 입력된 음성은 전기적인 신호로 변환되고, 변화된 아날로그 신호는 다시 샘플링을 통해 디지털 전기 신호로 변환된다. 음성인식 엔진(160)은 디지털 전기 신호에서 음성의 특징, 즉 특징벡터를 추출한다(S161). 그리고 음성인식 엔진(160)은 추출된 특징벡터를 기반으로 음향모델(170) 및 발음사전(180)을 이용하여 패턴분류 과정(S162)을 통해 후보단위를 생성하고, 발음사전 및 언어모델(190)을 이용하여 언어처리 과정(S163)을 통해 최종적으로 인식된 문장을 출력한다.
같은 언어라 할지라도, 음성은 발음하는 사람의 성별, 나이, 발음 시의 상태 등에 따라 매우 복잡하게 변할 뿐 아니라 단독으로 발음될 때와 단어나 문장 내에서 발음 될 때마다 그 성질이 변하기 때문에 음성의 특징을 잘 표현할 수 있는 특징검출이 중요하다. 즉, 특징 추출 과정에서는 불필요하게 중복되는 음성정보를 없애고 동일 음성 신호들 간의 일관성을 높임과 동시에 다른 음성 신호와는 변별력을 높일 수 있는 정보를 추출해야 한다. 이러한 정보를 특징벡터라고 한다.
특징추출은 인식에 유용한 성분을 음성신호로부터 뽑아내는 과정이다. 특징추출은 일반적으로 정보의 압축, 차원 감소 과정과 관련된다. 특징추출에서는 이상적인 정답이 없기 때문에 음성인식을 위한 특징의 좋고 나쁨은 음성인식률로 판단된다. 특징추출의 주요 연구 분야는 인간의 청각특성을 반영하는 특징 표현, 다양한 잡음환경/화자/채널 변이에 강인한(robust) 특징, 시간적인 변화를 잘 표현하는 특징의 추출이다.
음성인식을 위하여 주로 사용되는 특징추출 기술로는 선형예측계수(Linear Predictive Coefficient), 켑스트럼(cepstrum), 멜프리퀀시켑스트럼(Mel Frequency Cepstral Coefficient, MFCC), 및 주파수 대역별 에너지(filter bank energy)가 있다.
음성 인식 과정은 음성 데이터와 언어 데이터로부터 인식 네트워크 모델을 생성하는 오프라인 학습 단계와 사용자가 발성한 음성을 인식하는 온라인 탐색 단계로 구분된다.
음성인식 엔지(160)은 음성과 언어 정보라는 중요한 사전 지식을 사용하여 음성 신호로부터 문자 정보를 출력한다. 이때 음성 신호를 문자 기호로 해석한다는 차원에서 음성 인식 알고리즘을 디코더(decorder)라고 부르기도 한다.
특징 추출에서 얻어진 특징벡터는 유사도 측정 및 인식과정을 거치게 된다. 유사도 측정 및 인식을 위해서는 음성의 신호적인 특성을 모델링하여 비교하는 음향모델(Acoustic Model)과 인식어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어모델(Language Model)이 사용된다.
음향모델은 다시 인식대상을 특징벡터 모델로 설정하고 이를 입력신호의 특징벡터와 비교하는 직접비교 방법과 인식대상의 특징벡터를 통계적으로 처리하여 이용하는 통계방법으로 나뉘어 진다. 직접비교 방법은 인식대상이 되는 단어, 음소 등의 단위를 특징벡터 모델로 설정하고 입력음성이 이와 얼마나 유사한가 비교하는 방법이다. 대표적인 것으로 벡터양자화(Vector Quantization) 방법이 있는데, 앞서 구한 특징벡터 또는 계수들을 기존 모델인 코드북(Codebook)과 매핑시켜 대표 값으로 부호화함으로써 이 부호 값들을 서로 비교하는 방법이다. 통계적 모델방법은 인식대상에 대한 단위를 상태 열(State Sequence)로 구성하고 상태 열간의 관계를 이용하는 방법이다. 상태 열은 복잡한 모델을 표시할 수 있어 간단한 단어인식을 제외하고는 대부분의 음성 인식이 이 기술을 이용한다. 상태 열간의 관계를 이용하는 방법은 다시 DTW(Dynamic Time Warping)과 같이 시간적 배열관계를 이용하는 방법, HMM과 같이 확률값, 평균, 그리고 분산을 비교대상으로 하는 통계적 방법, 그리고 인공신경망을 이용하는 방법이 있다.
디코딩 단계에서 학습 단계 결과인 음향 모델(Acoustic Model, AM), 언어 모델(Language Model, LM)과 발음 사전(Pronunciation Lexicon)을 이용하여 입력된 특징 벡터를 모델과 비교, 스코어링을 하여 단어 열이 최종 결정된다.
음성 데이터베이스(103)는 도 1에 묘사된 음성인식 서비스를 제공하는 도메인을 통해서 각종 스마트 전자 기기(300)로부터 수집된 지역별 사투리 음성 데이터 및 국가 기관 또는 연구소 등에서 구축된 공공 음성 데이터를 포함하도록 구성될 수 있다. 그리고 음성 데이터베이스(103)는 빅데이터(big data)를 포함할 수 있다.
이하 음성인식 시스템(100), 특히 음성인식기의 구성장치(101)에 의해 수행되는 음성인식 방법에 대해 자세히 설명하기로 한다.
도 5는 본 발명의 일 실시 예에 따른 음성인식기 구성 장치에 의해 수행되는 음성인식 방법의 개략적인 흐름도이다.
도 5를 참조하면, 본 발명의 일 실시 예에 따른 음성인식 방법(S100)은, 사투리 음성 인식에 적합한 음성인식기(102)를 구성하는 단계와 음성인식기(102)를 이용하여 실제로 음성입력에 대해 음성을 인식하는 단계를 포함하도록 구성되는 것을 특징으로 한다.
본 발명의 일 실시 예에 따른 음성인식 방법(S100), 그 중에서도 음성인식기(102)를 구성하는 단계는, 주요 과정으로 사투리 음성 인식에 필요한 음향모델 및 언어모델을 업데이트하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 일 실시 예에 따른 음성인식 시스템(100)은 사투리 음성인식 성능 향상을 위해, 다음의 단계들을 수행하는 것을 특징으로 한다.
먼저, 음성인식 시스템(100)은 데이터 수집모듈(110)을 통해 데이터를 수집한다(S110).
다음으로 음성인식 시스템(100)은 데이터 선택모듈(100)을 통해 음성 데이터에서 사투리가 포함된 음성 데이터를 선택한다(S120).
S120 단계는 내부적으로 이상발성을 제거하는 단계(S121), 음성 데이터의 신뢰도를 측정하는 단계(S122), 음성 데이터의 악센트를 분석하는 단계(123) 및 음성 데이터를 전사하는 단계(S124)를 포함하도록 구성될 수 있다.
다음으로 음성인식 시스템(100)은 데이터 분석 및 정제모듈(130)을 통해 사투리가 포함된 음성 데이터를 분석 및 정제한다(S130).
S130 단계는 내부적으로, 사투리 음성의 특징을 추출하는 단계(S131), 유사 사투리 별로 클러스터링하는 단계(S132) 및 클러스터에서 핵심 사투리를 추출하는 단계(S133) 및 사투리 코퍼스를 표준화하는 단계(S134)를 포함하도록 구성될 수 있다.
다음으로 음성인식 시스템(100)은 모델 학습모듈(140)을 통해 음향모델 및 언어모델을 생성하고, 학습용 데이터를 이용하여 음향모델 및 언어모델을 학습시킨다(S140).
S140 단계는 내부적으로 음향모델을 생성하고 이를 학습시키는 단계(S141), 음절 단위 빈도를 추출하는 단계(S142) 및 언어모델을 학습시키는 단계(S143 )를 포함하도록 구성될 수 있다. 음향모델 및 언어모델의 학습에는 발음사전이 함께 사용될 수 있다. 학습을 통해 표준어와 사투리 음성에 관한 음향모델 및 언어모델의 성능이 향상된다.
마지막으로 음성인식 시스템(100)은 성능 추정모듈(150)을 통해 학습된 음향모델(170) 및 언어모델(190)의 성능을 추정한다(S150).
S150 단계는 내부적으로 적어도 하나의 모델에 대해 신뢰도를 측정하는 단계(S151), 신뢰도를 이용하여 인식성능을 추정하는 단계(S152), 복수의 모델간의 인식성능을 비교하는 단계(S153) 및 복수의 모델 중에서 인식성능이 더 좋은 모델을 이용하여 이전의 모델과 비교하여 인식성능 개선 여부를 확인하는 단계(S154)를 포함하도록 구성될 수 있다. S150 단계는 음향모델 및 언어모델에 대해서 수행될 수 있다.
도 6은 본 발명의 일 실시 예에 따른 데이터 마이닝 장치에 의해 수행되는 데이터 분석 및 정제 단계에 관한 일 실시 예의 설명을 위한 예시도이다.
도 6을 참조하면, 본 발명의 일 실시 예에 따른 음성인식 방법을 구성하는 단계들 중에서 데이터 분석 및 정제에 관한 S210 내지 S240 단계의 예시가 묘사되어 있다. 음성 데이터의 분석 및 정제에 사용되는 사투리 문장으로, 제1 문장 "풍력 센 바람으로 운행하재이", 제2 문장 "풍력 센 바람으로 운행하지", 및 제3 문장 "풍력 센 바람으로 운행해도라"을 예시 문장으로 선정한다.
특징 추출 모듈(210)은 제1 문장 내지 제3 문장에 대해서 각 문장의 발음열에 대한 특징, 어휘의 특징, 도메인 특징 및 빈도수 특징을 추출할 수 있다(S131). 도메인 특징의 예로서 에어컨, 세탁기 등의 도메인이 묘사되어 있다.
다음으로 딥 러닝 모듈(220)은 비지도 방식의 유사 사투리 클러스터링을 수행한다(S132). 사투리 문장에서 서술어에 대한 클러스터링 결과가 묘사되어 있다. 제1 문장 내지 제3 문장에서, "운행하재이" 및 "운행하지"가 함께 군집화되었고, "운행해도라"는 같은 군집에 포함되지 않았다.
다음으로 핵심 사투리추출 모듈(230)은 빈도수 특징이 높은 사투리를 추출하고, 유사도 연산을 통해 핵심 사투리를 추출한다(S133). 제1 문장과 제2 문장의 서술어 중에서 "운행하재이"가 "운행하지"보다 빈도수 특징이 높고 나타난다. 유사도 연산을 통해 "운행하재이"가 핵심 객체로 선정된다.
다음으로 코퍼스 표준화 모듈(240)은 기존 사투리를 핵심 객체 사투리로 치환하고, 원 사투리 문장과 치환된 문장의 유사도 측정을 통해 코퍼스 표준화를 검증한다(S134). 제1 문장 내지 제3 문장에서 제2 문장의 서술어 "운행하지"가 핵심 객체인 "운행하재이"로 치환되었다.
다양한 변이에 의해 다양한 형태로 파생되는 전체 사투리 어휘를 음성인식 대상으로 한다면, 인식률이 떨어지고 사투리 인식 속도가 떨어질 수 있다. 따라서, 사투리 코퍼스의 표준화를 통해 사투리의 인식률을 높이고, 사투리 인식 속도도 높아질 수 있다.
이와 같이 본 발명의 일 실시 예에 의하면, 사투리가 포함된 음성을 인식하는 음성인식 시스템의 성능이 향상될 수 있다.
또한, 표준어를 거치지 않고서도 사투리가 포함된 음성 그대로를 인식할 수 있으므로, 사투리를 사용한 자연어 처리가 가능하다.
또한, 데이터 마이닝에 인공지능을 활용함으로써 데이터 정제가 반자동의 방법으로 수행될 수 있다.
또한, 사투리를 포함하는 코퍼스 표준화를 통해 사투리 인식에 소요되는 시간을 줄일 수 있다.
<부호의 설명>
1: 음성인식 환경, 100: 음성인식 시스템,
101, 음성인식기 구성 장치, 102: 음성인식기
103: 음성 데이터베이스, 110: 데이터 수집모듈
120: 데이터 선택모듈, 130: 데이터 분석 및 정제모듈
140: 모델 학습모듈, 150: 성능 추정모듈
160: 음성인식 엔진, 170: 음향모델
180: 발음사전, 190: 언어모델
200: 데이터 마이닝 장치, 300: 전자 기기
400: 네트워크

Claims (17)

  1. 음성인식 시스템에 의해 수행되는 사투리 음성인식 방법으로서,
    음성 데이터에서 사투리가 포함된 음성 데이터를 선택하는 단계;
    상기 사투리가 포함된 음성 데이터를 분석 및 정제하는 단계; 및
    정제된 사투리가 포함된 음성 데이터를 이용하여 음향모델 및 언어모델을 학습시키는 단계를 포함하는,
    음성인식 방법.
  2. 제 1 항에 있어서,
    상기 음성 데이터를 수집하는 단계를 더 포함하는,
    음성인식 방법.
  3. 제 2 항에 있어서,
    상기 음성 데이터를 수집하는 단계는,
    서로 다른 종류의 사투리가 사용되는 지역의 사용자들 및 다양한 종류의 음성인식 서비스 도메인을 통해 상기 사용자들의 음성 데이터를 수집하는,
    음성인식 방법.
  4. 제 1 항에 있어서,
    상기 음성 데이터에서 사투리가 포함된 음성 데이터를 선택하는 단계는,
    상기 음성 데이터에서 이상 발성을 제거하는 단계;
    상기 음성 데이터의 신뢰도 측정을 이용하여 사투리가 포함된 음성 데이터를 채택하는 단계; 및
    상기 사투리가 포함된 음성 데이터로부터 전사 데이터를 얻는 단계를 포함하는,
    음성인식 방법.
  5. 제 1 항에 있어서,
    상기 사투리가 포함된 음성 데이터를 분석 및 정제하는 단계는,
    상기 사투리가 포함된 음성 데이터에서 특징(feature)을 추출하는 단계;
    추출된 상기 특징을 이용하여 상기 사투리가 포함된 음성 데이터에 대해 유사 사투리 클러스터링을 수행하는 단계;
    유사 사투리 클러스터에서 핵심 사투리를 추출하는 단계; 및
    추출된 상기 핵심 사투리를 이용하여 사투리 코퍼스(corpus)를 표준화하는 단계를 포함하는,
    음성인식 방법.
  6. 제 5 항에 있어서,
    상기 사투리가 포함된 음성 데이터에서 특징을 추출하는 단계는,
    사투리 음성의 발음열의 특징, 어휘적인 특징, 도메인 특징 및 빈도수 특징 중에서 적어도 하나를 추출하는,
    음성인식 방법.
  7. 제 6 항에 있어서,
    상기 도메인 특징은,
    사용자에게 음성인식 서비스를 제공하는 전자 장치의 종류, 상기 전자 장치가 위치하는 지역 및 상기 전자 장치를 사용하는 사용자의 연령대에 관한 정보를 포함하는,
    음성인식 방법.
  8. 제 5 항에 있어서,
    상기 유사 사투리 클러스터링을 수행하는 단계는,
    비지도 학습 방식에 따라 특징 간 가중치 연산을 통해 특징 간 유사도를 측정하고, 임계값 대비 높은 유사도를 갖는 사투리를 클러스터링하는,
    음성인식 방법.
  9. 제 5 항에 있어서,
    상기 유사 사투리 클러스터에서 핵심 사투리를 추출하는 단계는,
    클러스터 내 빈도수 특징이 높은 상위 n개의 객체를 추출하고, 클러스터 내 다른 객체들과 특징 유사도 계산을 통해 핵심 객체를 추출하는,
    음성인식 방법.
  10. 제 5 항에 있어서,
    상기 사투리 코퍼스를 표준화하는 단계는,
    기존의 사투리를 핵심 객체 사투리로 치환하고, 원 사투리 문장과 치환된 문장의 유사도 측정을 통해 검증하는,
    음성인식 방법.
  11. 사투리가 포함된 음성 데이터를 처리하는 장치로서,
    상기 사투리가 포함된 음성 데이터에서 특징을 추출하는 특징추출 모듈;
    추출된 상기 특징을 이용하여 상기 사투리가 포함된 음성 데이터에 대해 유사 사투리 클러스터링을 수행하는 딥 러닝 모듈;
    유사 사투리 클러스터에서 핵심 사투리를 추출하는 핵심 사투리 추출모듈; 및
    추출된 상기 핵심 사투리를 이용하여 사투리 코퍼스를 표준화하는 코퍼스 표준화 모듈을 포함하는,
    데이터 마이닝 장치.
  12. 제 11 항에 있어서,
    상기 특징추출 모듈은,
    사투리 음성의 발음열의 특징, 어휘적인 특징, 도메인 특징 및 빈도수 특징 중에서 적어도 하나를 추출하는,
    데이터 마이닝 장치.
  13. 제 12 항에 있어서,
    상기 도메인 특징은,
    사용자에게 음성인식 서비스를 제공하는 전자 장치의 종류, 상기 전자 장치가 위치하는 지역 및 상기 전자 장치를 사용하는 사용자의 연령대에 관한 정보를 포함하는,
    데이터 마이닝 장치.
  14. 제 11 항에 있어서,
    상기 딥 러닝 모듈은,
    비지도 학습 방식에 따라 특징 간 가중치 연산을 통해 특징 간 유사도를 측정하고, 임계값 대비 높은 유사도를 갖는 사투리를 클러스터링하는,
    데이터 마이닝 장치.
  15. 제 11 항에 있어서,
    상기 핵심 사투리 추출모듈은,
    클러스터 내 빈도수 특징이 높은 상위 n개의 객체를 추출하고, 클러스터 내 다른 객체들과 특징 유사도 계산을 통해 핵심 객체를 추출하는,
    데이터 마이닝 장치.
  16. 제 11 항에 있어서,
    상기 코퍼스 표준화 모듈은,
    기존의 사투리를 핵심 객체 사투리로 치환하고, 원 사투리 문장과 치환된 문장의 유사도 측정을 통해 검증하는,
    데이터 마이닝 장치.
  17. 사투리 음성을 인식하는 음성인식 시스템으로서,
    음성 데이터를 수집하는 데이터 수집모듈;
    수집된 음성 데이터에서 사투리가 포함된 음성 데이터를 선택하는 음성 데이터 선택모듈;
    상기 사투리가 포함된 음성 데이터를 분석 및 정제하는 음성 데이터 분석 및 정제모듈;
    정제된 사투리가 포함된 음성 데이터를 이용하여 음향모델 및 언어모델을 학습시키는 모델 학습모듈; 및
    학습된 음향모델 및 언어모델을 이용하여 음성을 인식하는 음성인식 엔진을 포함하되,
    상기 음성 데이터 분석 및 정제모듈은,
    상기 사투리가 포함된 음성 데이터에서 특징을 추출하는 특징추출 모듈;
    추출된 상기 특징을 이용하여 상기 사투리가 포함된 음성 데이터에 대해 유사 사투리 클러스터링을 수행하는 딥 러닝 모듈;
    유사 사투리 클러스터에서 핵심 사투리를 추출하는 핵심 사투리추출 모듈; 및
    추출된 상기 핵심 사투리를 이용하여 사투리 코퍼스를 표준화하는 코퍼스 표준화 모듈을 포함하는
    음성인식 시스템.
PCT/KR2019/006508 2019-05-30 2019-05-30 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템 WO2019172734A2 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/497,309 US11495234B2 (en) 2019-05-30 2019-05-30 Data mining apparatus, method and system for speech recognition using the same
PCT/KR2019/006508 WO2019172734A2 (ko) 2019-05-30 2019-05-30 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템
KR1020190113608A KR20190112682A (ko) 2019-05-30 2019-09-16 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/006508 WO2019172734A2 (ko) 2019-05-30 2019-05-30 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템

Publications (2)

Publication Number Publication Date
WO2019172734A2 true WO2019172734A2 (ko) 2019-09-12
WO2019172734A3 WO2019172734A3 (ko) 2020-04-16

Family

ID=67847533

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/006508 WO2019172734A2 (ko) 2019-05-30 2019-05-30 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템

Country Status (3)

Country Link
US (1) US11495234B2 (ko)
KR (1) KR20190112682A (ko)
WO (1) WO2019172734A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827805A (zh) * 2019-12-09 2020-02-21 苏州思必驰信息科技有限公司 语音识别模型训练方法、语音识别方法和装置
CN110930995A (zh) * 2019-11-26 2020-03-27 中国南方电网有限责任公司 一种应用于电力行业的语音识别模型

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7338261B2 (ja) * 2019-06-21 2023-09-05 ヤマハ株式会社 音響システム
US11245791B2 (en) * 2019-10-30 2022-02-08 Marchex, Inc. Detecting robocalls using biometric voice fingerprints
KR20230047917A (ko) 2021-10-01 2023-04-10 라온피플 주식회사 음성 인식에 기초하여 영농일지를 작성하는 장치 및 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2522012A1 (en) * 2010-05-27 2012-11-14 Nuance Communications, Inc. Efficient exploitation of model complementariness by low confidence re-scoring in automatic speech recognition
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
KR101179915B1 (ko) * 2011-12-29 2012-09-06 주식회사 예스피치 통계적 언어 모델이 적용된 음성인식 시스템의 발화 데이터 정제 장치 및 방법
CN103680493A (zh) * 2013-12-19 2014-03-26 百度在线网络技术(北京)有限公司 区分地域性口音的语音数据识别方法和装置
KR102329127B1 (ko) * 2017-04-11 2021-11-22 삼성전자주식회사 방언을 표준어로 변환하는 방법 및 장치
KR102068182B1 (ko) * 2017-04-21 2020-01-20 엘지전자 주식회사 음성 인식 장치, 및 음성 인식 시스템
KR101836430B1 (ko) * 2017-08-07 2018-03-08 고현선 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
JP6934831B2 (ja) * 2018-03-28 2021-09-15 本田技研工業株式会社 対話装置及びプログラム
KR20200072021A (ko) * 2018-12-12 2020-06-22 현대자동차주식회사 음성인식시스템의 도메인 관리 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930995A (zh) * 2019-11-26 2020-03-27 中国南方电网有限责任公司 一种应用于电力行业的语音识别模型
CN110930995B (zh) * 2019-11-26 2022-02-11 中国南方电网有限责任公司 一种应用于电力行业的语音识别模型
CN110827805A (zh) * 2019-12-09 2020-02-21 苏州思必驰信息科技有限公司 语音识别模型训练方法、语音识别方法和装置
CN110827805B (zh) * 2019-12-09 2022-11-29 思必驰科技股份有限公司 语音识别模型训练方法、语音识别方法和装置

Also Published As

Publication number Publication date
WO2019172734A3 (ko) 2020-04-16
KR20190112682A (ko) 2019-10-07
US11495234B2 (en) 2022-11-08
US20220076683A1 (en) 2022-03-10

Similar Documents

Publication Publication Date Title
WO2019172734A2 (ko) 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템
US11189272B2 (en) Dialect phoneme adaptive training system and method
CN1121680C (zh) 语音识别
US11056100B2 (en) Acoustic information based language modeling system and method
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
EP0549265A2 (en) Neural network-based speech token recognition system and method
Lee et al. Automatic speech recognition for acoustical analysis and assessment of cantonese pathological voice and speech
WO2015005679A1 (ko) 음성 인식 방법, 장치 및 시스템
JPH11511567A (ja) パターン認識
KR20200007983A (ko) 지역적 특징 기반의 음성인식 방법 및 시스템
KR101068122B1 (ko) 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
CN111489754A (zh) 一种基于智能语音技术的话务数据分析方法
Verma et al. Indian language identification using k-means clustering and support vector machine (SVM)
CN115910066A (zh) 用于区域配电网的智能调度指挥与运营系统
WO2014200187A1 (ko) 모음 약화를 학습하기 위한 장치 및 그 방법
Sawakare et al. Speech recognition techniques: a review
JP2002169592A (ja) 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム
Lee et al. Gender, age, and dialect identification for speaker profiling
WO2019208859A1 (ko) 발음 사전 생성 방법 및 이를 위한 장치
WO2020096073A1 (ko) 빅 데이터를 이용한 최적의 언어 모델 생성 방법 및 이를 위한 장치
WO2020096078A1 (ko) 음성인식 서비스를 제공하기 위한 방법 및 장치
WO2020091123A1 (ko) 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치
WO2019156427A1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치, 문맥 기반 음성 모델 관리 장치 및 그 방법
Avikal et al. Estimation of age from speech using excitation source features
Juang et al. Deployable automatic speech recognition systems: Advances and challenges

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19764834

Country of ref document: EP

Kind code of ref document: A2