KR20200102308A - System and method for voice recognition using word embedding - Google Patents

System and method for voice recognition using word embedding Download PDF

Info

Publication number
KR20200102308A
KR20200102308A KR1020190020799A KR20190020799A KR20200102308A KR 20200102308 A KR20200102308 A KR 20200102308A KR 1020190020799 A KR1020190020799 A KR 1020190020799A KR 20190020799 A KR20190020799 A KR 20190020799A KR 20200102308 A KR20200102308 A KR 20200102308A
Authority
KR
South Korea
Prior art keywords
word
speech recognition
speech
words
word embedding
Prior art date
Application number
KR1020190020799A
Other languages
Korean (ko)
Inventor
김정세
김상훈
윤승
이영직
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020190020799A priority Critical patent/KR20200102308A/en
Publication of KR20200102308A publication Critical patent/KR20200102308A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

The present invention relates a voice recognition system using word embedding and a method thereof. The voice recognition system using word embedding according to the present invention comprises: a reception unit receiving a result of previous utterance recognition; a memory in which a program receiving a word of a result of previous utterance recognition as an input of word embedding, predicting a keyword for current voice recognition, and recognizing a voice for current utterance; and a processor executing the program. The processor extracts a previous utterance keyword from the result of previous utterance recognition, outputs a neighboring word weight list by using word embedding, and outputs a voice recognition result by using a language model, an acoustic model, and the neighboring word weight list.

Description

단어임베딩을 이용한 음성 인식 시스템 및 그 방법{SYSTEM AND METHOD FOR VOICE RECOGNITION USING WORD EMBEDDING}Speech recognition system using word embedding and its method {SYSTEM AND METHOD FOR VOICE RECOGNITION USING WORD EMBEDDING}

본 발명은 단어임베딩을 이용한 음성 인식 시스템 및 그 방법에 관한 것이다. The present invention relates to a speech recognition system and method using word embedding.

종래 기술에 따른 음성 인식기는 매 발화의 첫 단어를 인식하기 위한 과정의 복잡도가 높아서 인식 오류가 발생되며, 발화 중간에 인식 오류가 발생되는 경우 후속 단어에도 그 영향을 미치므로, 연이은 인식 오류가 발생되는 문제점이 있다. In the prior art speech recognizer, the complexity of the process for recognizing the first word of each utterance is high, resulting in a recognition error, and if a recognition error occurs in the middle of the utterance, it affects the subsequent words as well, resulting in successive recognition errors. There is a problem.

본 발명은 전술한 문제점을 해결하기 위하여 제안된 것으로, 음향 모델과 언어 모델에 단어임베딩 정보를 추가하여, 현재 발화에 대한 음성인식 성능을 개선하는 것이 가능한 단어임베딩을 이용한 음성 인식 시스템 및 방법을 제공하는데 그 목적이 있다. The present invention has been proposed in order to solve the above-described problem, and provides a speech recognition system and method using word embedding capable of improving speech recognition performance for the current speech by adding word embedding information to an acoustic model and a language model. It has its purpose.

본 발명에 따른 단어임베딩을 이용한 음성 인식 시스템은 이전 발화 인식 결과를 수신하는 수신부와, 이전 발화 인식 결과의 단어를 단어임베딩의 입력으로 하여, 현재 음성 인식할 키워드를 예측하고, 현재 발화에 대한 음성 인식을 수행하는 프로그램이 저장된 메모리 및 프로그램을 실행시키는 프로세서를 포함하고, 프로세서는 이전 발화 인식 결과로부터 이전 발화 키워드를 추출하고, 단어임베딩을 이용하여 주변단어 가중치리스트를 출력하고, 언어 모델, 음향 모델 및 주변단어 가중치리스트를 이용하여 음성 인식 결과를 출력하는 것을 특징으로 한다. The speech recognition system using word embedding according to the present invention predicts a keyword to be recognized for the current speech by using a receiving unit that receives a previous speech recognition result and a word of the previous speech recognition result as an input of the word embedding, and predicts a current speech recognition keyword. It includes a memory in which a program that performs recognition is stored and a processor that executes the program, and the processor extracts a previous speech keyword from the previous speech recognition result, outputs a weight list of surrounding words using word embedding, and a language model, an acoustic model And outputting a speech recognition result by using a weight list of neighboring words.

본 발명에 따른 단어임베딩을 이용한 음성 인식 방법은 이전 발화 인식 결과를 이용하여 이전 발화의 키워드를 추출하는 단계와, 이전 발화의 키워드와 단어임베딩을 이용하여 주변단어 가중치리스트를 출력하는 단계 및 주변단어 가중치리스트를 음향 모델과 언어 모델에 적용하여 음성 인식 결과를 출력하는 단계를 포함하는 것을 특징으로 한다. The speech recognition method using word embedding according to the present invention includes the steps of extracting a keyword of the previous utterance using the result of the previous utterance recognition, outputting a weight list of neighboring words using the keyword and word embedding of the previous utterance, and the neighboring words. And outputting a speech recognition result by applying the weight list to an acoustic model and a language model.

본 발명에 따른 단어임베딩을 이용한 음성 인식 시스템은 이전 발화 인식 결과로부터 이전 발화 키워드를 추출하는 키워드 추출부와, 이전 발화 키워드와 단어임베딩을 이용하여 이전 발화 키워드의 주변단어 가중치리스트를 출력하는 주변단어 추출부 및 주변단어 가중치리스트를 음향 모델과 언어 모델에 적용하여 음성인식 결과를 출력하는 음성 인식부를 포함하는 것을 특징으로 한다. The speech recognition system using word embedding according to the present invention includes a keyword extracting unit that extracts a previous speech keyword from the previous speech recognition result, and a peripheral word that outputs a weight list of neighboring words of the previous speech keyword using the previous speech keyword and word embedding. It characterized in that it comprises a speech recognition unit for outputting a speech recognition result by applying the extraction unit and the neighboring word weight list to the acoustic model and the language model.

본 발명의 실시예에 따르면, 이전 발화 인식결과의 단어를 입력으로 하여 현재 음성 인식할 내용의 키워드를 미리 예측하고, 음성인식단어를 제한하거나 가중치 부여를 통해, 발화의 첫 단어를 인식할 경우의 복잡도를 줄이고, 발화 중간의 음성 인식 오류를 줄임으로써, 음성 인식 성능을 향상시키는 효과가 있다. According to an embodiment of the present invention, in the case of recognizing the first word of the utterance by pre-predicting the keyword of the content to be currently speech recognition by inputting the word of the previous speech recognition result, and by limiting or weighting the speech recognition word. There is an effect of improving speech recognition performance by reducing the complexity and reducing speech recognition errors in the middle of a speech.

본 발명의 효과는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The effects of the present invention are not limited to those mentioned above, and other effects that are not mentioned will be clearly understood by those skilled in the art from the following description.

도 1및 도 2는 본 발명의 실시예에 따른 단어임베딩을 이용한 음성 인식 시스템을 나타내는 블록도이다.
도 3은 본 발명의 실시예에 따른 단어임베딩을 이용한 음성 인식 방법을 나타내는 순서도이다.
1 and 2 are block diagrams showing a speech recognition system using word embedding according to an embodiment of the present invention.
3 is a flow chart showing a speech recognition method using word embedding according to an embodiment of the present invention.

본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. The above-described objects and other objects, advantages, and features of the present invention, and methods of achieving them will become apparent with reference to the embodiments described below in detail together with the accompanying drawings.

그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 목적, 구성 및 효과를 용이하게 알려주기 위해 제공되는 것일 뿐으로서, 본 발명의 권리범위는 청구항의 기재에 의해 정의된다. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in a variety of different forms, and only the following embodiments are for the purpose of the invention to those of ordinary skill in the art, It is only provided to easily inform the composition and effect, and the scope of the present invention is defined by the description of the claims.

한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자가 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가됨을 배제하지 않는다.Meanwhile, terms used in the present specification are for explaining embodiments and are not intended to limit the present invention. In this specification, the singular form also includes the plural form unless specifically stated in the phrase. As used in the specification, "comprises" and/or "comprising" refers to the presence of one or more other components, steps, actions and/or elements in which the recited component, step, operation and/or element is Or does not preclude addition.

이하에서는, 당업자의 이해를 돕기 위하여 본 발명이 제안된 배경에 대하여 먼저 서술하고, 본 발명의 실시예에 대하여 서술하기로 한다. Hereinafter, in order to help those skilled in the art understand, the background to which the present invention is proposed is first described, and then an embodiment of the present invention will be described.

종래 기술에 따른 음성인식기는 음향 모델(AM, Acoustic Model)과 언어모델(LM, Language Model)을 이용하여 음성을 인식하며, 새로운 토픽이 필요할 경우, 새로운 토픽과 관련한 문서를 모아서 인터폴레이션(interpolation) 방식을 통해 언어모델을 보강하거나, 토픽 별 언어모델을 구성하여 토픽 별로 음성 인식을 수행하여 인식 결과를 출력한다. The speech recognizer according to the prior art recognizes speech using an acoustic model (AM) and a language model (LM), and when a new topic is needed, an interpolation method by collecting documents related to the new topic The language model is reinforced through the function, or a language model for each topic is configured to perform speech recognition for each topic, and the recognition result is output.

종래 기술에 따르면, 매 발화의 첫 단어를 인식하기 위해서 음성 인식용 단어리스트 전체를 인식대상으로 계산해야 하므로, 복잡도가 증가함에 따라 인식 오류가 발생하며, 인식 결과의 처음 단어와 마지막이 서로 의미가 다른 결과를 나타내기도 하는 문제점이 있다. According to the prior art, since the entire speech recognition word list must be calculated as a recognition target in order to recognize the first word of each utterance, a recognition error occurs as the complexity increases, and the first word and the end of the recognition result have mutual meaning. There is a problem that may show different results.

또한 종래 기술에 따르면, 발화 중간에 나타나는 음성 인식 오류가 그 다음 단어 및 다음다음 단어 등에 영향을 미쳐서, 연달아 틀리는 경향이 나타나는 문제점이 있다. In addition, according to the prior art, there is a problem in that a speech recognition error appearing in the middle of a speech affects the next word and the next next word, so that there is a tendency to be wrong one after another.

본 발명은 전술한 문제점을 해결하기 위하여 제안된 것으로, 음향 모델과 언어모델에 단어임베딩 정보를 추가하여, 발화의 첫 단어를 인식할 경우의 복잡도를 줄이고, 발화 중간의 음성 인식 오류를 줄여 줌으로써, 음성 인식의 성능을 향상시키는 것이 가능한 음성 인식 시스템 및 그 방법을 제안한다. The present invention has been proposed in order to solve the above-described problem, by adding word embedding information to an acoustic model and a language model, reducing the complexity of recognizing the first word of a speech, and reducing a speech recognition error in the middle of a speech, A speech recognition system and method capable of improving the performance of speech recognition are proposed.

본 발명의 실시예에 따르면, 음성 인식 시에 이전 발화에 대한 음성 인식 결과의 단어를 단어임베딩의 입력으로 하여, 현재 음성 인식할 키워드들을 미리 예측하고, 음향 모델 score와 언어 모델 score에 가중치를 더해주거나, 관련 없는 인식단어들을 제거함으로써, 현재 발화에 대한 음성 인식 성능을 개선한다. According to an embodiment of the present invention, a word of a speech recognition result for a previous utterance is used as an input of word embedding during speech recognition, and keywords to be recognized for current speech are predicted in advance, and weights are added to the acoustic model score and the language model score. By giving or removing irrelevant recognized words, speech recognition performance for the current speech is improved.

도 1및 도 2는 본 발명의 실시예에 따른 단어임베딩을 이용한 음성 인식 시스템을 나타내는 블록도이다. 1 and 2 are block diagrams showing a speech recognition system using word embedding according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 실시예에 따른 단어임베딩을 이용한 음성 인식 시스템은 이전 발화 인식 결과를 수신하는 수신부(100)와, 이전 발화 인식 결과의 단어를 단어임베딩의 입력으로 하여, 현재 음성 인식할 키워드를 예측하고, 현재 발화에 대한 음성 인식을 수행하는 프로그램이 저장된 메모리(300) 및 프로그램을 실행시키는 프로세서(200)를 포함하고, 프로세서(200)는 이전 발화 인식 결과로부터 이전 발화 키워드를 추출하고, 단어임베딩을 이용하여 주변단어 가중치리스트를 출력하고, 언어 모델, 음향 모델 및 주변단어 가중치리스트를 이용하여 음성 인식 결과를 출력한다. Referring to FIG. 1, a speech recognition system using word embedding according to an embodiment of the present invention uses a receiving unit 100 for receiving a previous speech recognition result, and a word of the previous speech recognition result as an input of the word embedding, A memory 300 in which a program for predicting a keyword to be recognized and performing speech recognition for a current speech is stored, and a processor 200 for executing the program, and the processor 200 selects the previous speech keyword from the previous speech recognition result. It extracts and outputs a weight list of surrounding words using word embedding, and outputs a speech recognition result using a language model, an acoustic model, and a weight list of surrounding words.

본 발명의 실시예에 따른 프로세서(200)는 고빈도 리스트를 이용하여, 고빈도 단어를 주변단어 가중치리스트에서 제거한다. The processor 200 according to an embodiment of the present invention removes the high frequency word from the neighboring word weight list using the high frequency list.

프로세서(200)는 주변단어 가중치리스트의 가중치 값을 고려하여, 언어 모델에 기반영된 것으로 판단되는 단어의 가중치를 언어 모델 적용 시에 제외시킨다. The processor 200 excludes the weight of the word determined to be based on the language model when applying the language model by considering the weight value of the neighboring word weight list.

프로세서(200)는 음향 모델 및 언어 모델을 이용하여 음성을 단어로 치환하여 단어들의 순서를 결정하고, 현재까지의 인식 가능한 리스트의 단어들에 가중치를 부여하고, 음성 인식 결과를 출력한다.The processor 200 determines the order of words by replacing speech with words using an acoustic model and a language model, assigns weights to words in a list that can be recognized so far, and outputs a speech recognition result.

도 2를 참조하면, 본 발명의 실시예에 따른 단어임베딩을 이용한 음성 인식 시스템은 이전 발화 인식 결과로부터 이전 발화 키워드를 추출하는 키워드 추출부(210)와, 이전 발화 키워드와 단어임베딩(230)을 이용하여 이전 발화 키워드의 주변단어 가중치리스트를 출력하는 주변단어 추출부(220) 및 주변단어 가중치리스트를 음향 모델 및 언어 모델(240)에 적용하여 음성인식 결과를 출력하는 음성 인식부(250)를 포함한다. Referring to FIG. 2, a speech recognition system using word embedding according to an embodiment of the present invention includes a keyword extraction unit 210 for extracting a previous speech keyword from a previous speech recognition result, and a previous speech keyword and word embedding 230. A peripheral word extracting unit 220 that outputs a weight list of neighboring words of the previous spoken keyword using the peripheral word extraction unit 220 and a speech recognition unit 250 that outputs a speech recognition result by applying the peripheral word weighting list to the acoustic model and language model 240. Include.

본 발명의 실시예에 따른 키워드 추출부(210)는 이전 발화의 인식 결과로부터 이전발화의 키워드를 출력하며, 형태소 품사 태깅을 거쳐 키워드로 가능한 품사들을 선정하는 것이 가능하다(예컨대, 명사와 용언만 키워드로 할 수 있음). The keyword extraction unit 210 according to an embodiment of the present invention outputs the keyword of the previous speech from the recognition result of the previous speech, and it is possible to select possible parts of speech as keywords through morpheme part of speech tagging (e.g., only nouns and verbs). You can do it with keywords).

주변단어 추출부(220)는 이전발화의 키워드를 입력 받아 단어임베딩(230)을 이용하여 키워드의 주변단어 가중치리스트를 출력한다. The peripheral word extractor 220 receives the keyword of the previous utterance and outputs a weight list of the neighboring words of the keyword by using the word embedding 230.

단어임베딩(230)은 Word2Vec을 사용하며, 코퍼스는 언어 모델에서 사용하는 Text Normalization된 텍스트 코퍼스를 사용한다. The word embedding 230 uses Word2Vec, and the corpus uses the Text Normalized text corpus used in the language model.

본 발명의 실시예에 따르면, 이전 발화의 키워드를 통해 현재 발화의 키워드를 예측하므로, 코퍼스를 단어임베딩할 때 이전 문장과 현재 문장을 하나의 라인으로 묶어서 훈련하는 것이 가능하다.According to an embodiment of the present invention, since the keyword of the current utterance is predicted based on the keyword of the previous utterance, it is possible to train the previous sentence and the current sentence in a single line when embedding the corpus.

또한, 텍스트로부터 대화의 시작과 끝을 알 수 있다면 이를 하나의 라인으로 묶어 훈련하는 것이 가능하다. In addition, if the start and end of the conversation can be known from the text, it is possible to train them by grouping them into a single line.

주변단어 추출부(220)는 이전발화 키워드의 주변단어 리스트를 출력함에 있어서, IN-OUT 기능을 이용한 정보검색 방법을 활용한다.The peripheral word extracting unit 220 utilizes an information retrieval method using an IN-OUT function in outputting a list of surrounding words of the previous spoken keyword.

인식단어 중 고빈도 단어는 어떤 키워드를 입력하더라도 주변단어 가중치 리스트에 자주 나타나는 단어이므로, 해당 가중치 리스트에서 제거되어야 한다. Among the recognized words, high frequency words appear frequently in the weight list of neighboring words no matter which keyword is input, and therefore must be removed from the weight list.

고빈도 단어는 음향 모델 및 언어 모델(240)에 이미 충분히 반영이 되어 있어 가중치를 더 줄 필요가 없는 것으로, 예컨대 한국어에서는 조사, 영어에서는 a/the 관사 같은 것이 고빈도 단어에 해당한다. The high frequency words are already sufficiently reflected in the acoustic model and the language model 240 and thus do not need to be weighted. For example, surveys in Korean and a/the articles in English correspond to high frequency words.

본 발명의 실시예에 따르면, 고빈도 리스트는 언어 모델을 훈련할 때 사용한 코퍼스에서의 단어출현 빈도를 활용할 수 있다.According to an embodiment of the present invention, the high frequency list can utilize the frequency of word appearance in the corpus used when training a language model.

주변단어 추출부(220)에서 출력된 주변단어 가중치리스트의 가중치 값은 입력된 단어들과 얼마나 가까운지 정도를 나타내는 값으로, 입력 단어와 바로 옆에 나타날 수 있는 단어들일 수록 높은 가중치를 가진다. The weight value of the peripheral word weight list output from the peripheral word extractor 220 is a value indicating how close to the input words, and the higher the weight of words that can appear next to the input word.

이러한 입력 단어의 바로 옆에 나오는 단어들은 언어 모델에 이미 반영이 되어 있으므로, 언어 모델 적용단계에서 해당 단어들의 가중치를 추가하지 않는다. Since the words immediately next to these input words are already reflected in the language model, weights of the words are not added in the language model application step.

본 발명의 실시예에 따른 주변단어 추출부(220)는 단어 리스트의 개수에 제한을 둘 수 있으며, 가중치의 값이 기설정된 값 이상인 경우만 사용할 수 있다. The peripheral word extractor 220 according to an embodiment of the present invention may place a limit on the number of word lists, and may be used only when the weight value is greater than or equal to a preset value.

단어의 원형 찾기를 통해 다양한 활용형으로 인해 제거될 수 있는 단어들을 포함하게 하고, 이는 음성 인식부(250)에 적용 시 원형 찾기를 통해서 반영되며, 다양한 숫자 또한 하나의 일관된 형태로 고정해서 사용할 수 있다.Words that can be removed due to various conjugations are included through the circular search of the word, which is reflected through the circular search when applied to the voice recognition unit 250, and various numbers can also be fixed and used in one consistent form. .

본 발명의 실시예에 따른 음성 인식부(250)는 음향 모델 및 언어 모델(240), 주변단어 추출부(220)로부터 입력 받은 주변단어 가중치를 이용하여 최적의 음성 인식 결과를 출력한다. The speech recognition unit 250 according to an embodiment of the present invention outputs an optimal speech recognition result by using the acoustic model and the language model 240 and the peripheral word weight input from the peripheral word extraction unit 220.

음성 인식부(250)는 음향 모델 및 언어 모델(240)을 이용하여 음성을 단어로 치환하고, 단어들의 순서를 결정한다. The speech recognition unit 250 replaces speech with words using the acoustic model and the language model 240 and determines the order of words.

이 때, 주변단어 가중치리스트를 적용하여 현재까지의 인식 가능한 리스트의 단어들에 가중치를 부여하고, 최종적으로 음성인식 결과를 출력한다.At this time, a weighted list of neighboring words is applied to give weights to words in the list that can be recognized up to now, and finally, a speech recognition result is output.

주변단어 가중치리스트를 적용할 때, 인식된 단어와 주변단어의 원형이 서로 같은 경우에도 가중치를 부여하도록 한다. When applying the peripheral word weight list, weights are given even when the recognized word and the circle of the peripheral word are the same.

도 3은 본 발명의 실시예에 따른 단어임베딩을 이용한 음성 인식 방법을 나타내는 순서도이다. 3 is a flow chart showing a speech recognition method using word embedding according to an embodiment of the present invention.

본 발명의 실시예에 따른 단어임베딩을 이용한 음성 인식 방법은 이전 발화 인식 결과를 이용하여 이전 발화의 키워드를 추출하는 단계(S310)와, 이전 발화의 키워드와 단어임베딩을 이용하여 주변단어 가중치리스트를 출력하는 단계(S320) 및 주변단어 가중치리스트를 음향 모델 및 언어 모델에 적용하여 음성 인식 결과를 출력하는 단계(S330)를 포함한다. The speech recognition method using word embedding according to an embodiment of the present invention includes the step of extracting a keyword of a previous speech using the result of the previous speech recognition (S310), and a weight list of neighboring words using the keyword and word embedding of the previous speech. And outputting (S320) and outputting a speech recognition result by applying the neighboring word weight list to an acoustic model and a language model (S330).

S310 단계는 이전 발화 인식 결과에 대해 형태소 품사 태깅을 거쳐 키워드로 가능한 품사를 선정한다.Step S310 selects a possible part-of-speech as a keyword through morpheme part-of-speech tagging for the previous speech recognition result.

S320 단계는 단어출현빈도를 활용하여 고빈도 단어를 주변단어 가중치리스트에서 제거한다. In step S320, the high frequency word is removed from the surrounding word weight list by using the word appearance frequency.

S330 단계는 주변단어 가중치리스트의 가중치 값을 고려하여, 언어 모델에 기반영된 단어의 가중치를 제외시키고, 주변단어 가중치리스트를 적용하여 현재까지의 인식 가능한 리스트의 단어들에 가중치를 부여한다. Step S330 considers the weight value of the surrounding word weight list, excludes the weight of the word based on the language model, and applies the surrounding word weight list to give weights to words in the list that can be recognized up to now.

한편, 본 발명의 실시예에 따른 단어임베딩을 이용한 음성 인식 방법은 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다. 컴퓨터 시스템은 적어도 하나 이상의 프로세서와, 메모리와, 사용자 입력 장치와, 데이터 통신 버스와, 사용자 출력 장치와, 저장소를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스를 통해 데이터 통신을 한다.Meanwhile, the speech recognition method using word embedding according to an embodiment of the present invention may be implemented in a computer system or recorded on a recording medium. The computer system may include at least one processor, memory, user input device, data communication bus, user output device, and storage. Each of the above-described components communicates data through a data communication bus.

컴퓨터 시스템은 네트워크에 커플링된 네트워크 인터페이스를 더 포함할 수 있다. 프로세서는 중앙처리 장치(central processing unit (CPU))이거나, 혹은 메모리 및/또는 저장소에 저장된 명령어를 처리하는 반도체 장치일 수 있다. The computer system may further include a network interface coupled to the network. The processor may be a central processing unit (CPU) or a semiconductor device that processes instructions stored in a memory and/or storage.

메모리 및 저장소는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 메모리는 ROM 및 RAM을 포함할 수 있다.The memory and storage may include various types of volatile or nonvolatile storage media. For example, the memory may include ROM and RAM.

따라서, 본 발명의 실시예에 따른 단어임베딩을 이용한 음성 인식 방법은 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 단어임베딩을 이용한 음성 인식 방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 음성 인식 방법을 수행할 수 있다.Accordingly, the speech recognition method using word embedding according to an embodiment of the present invention may be implemented in a computer-executable method. When the speech recognition method using word embedding according to an embodiment of the present invention is performed in a computer device, instructions that can be read by a computer may perform the speech recognition method according to the present invention.

한편, 상술한 본 발명에 따른 단어임베딩을 이용한 음성 인식 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.On the other hand, the speech recognition method using word embedding according to the present invention described above may be implemented as a computer-readable code on a computer-readable recording medium. The computer-readable recording medium includes all kinds of recording media in which data that can be decoded by a computer system is stored. For example, there may be read only memory (ROM), random access memory (RAM), magnetic tape, magnetic disk, flash memory, optical data storage device, and the like. In addition, the computer-readable recording medium can be distributed to a computer system connected through a computer communication network, and stored and executed as code that can be read in a distributed manner.

이제까지 본 발명의 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다. So far, we have looked at the center of the embodiments of the present invention. Those of ordinary skill in the art to which the present invention pertains will be able to understand that the present invention can be implemented in a modified form without departing from the essential characteristics of the present invention. Therefore, the disclosed embodiments should be considered from an illustrative point of view rather than a limiting point of view. The scope of the present invention is shown in the claims rather than the foregoing description, and all differences within the scope equivalent thereto should be construed as being included in the present invention.

100: 수신부 200: 프로세서
210: 키워드 추출부 220: 주변단어 추출부
230: 단어임베딩 240: 음향 모델 및 언어 모델
250: 음성 인식부 300: 메모리
100: receiver 200: processor
210: keyword extraction unit 220: peripheral word extraction unit
230: word embedding 240: acoustic model and language model
250: speech recognition unit 300: memory

Claims (15)

이전 발화 인식 결과를 수신하는 수신부;
상기 이전 발화 인식 결과의 단어를 단어임베딩의 입력으로 하여, 현재 음성 인식할 키워드를 예측하고, 현재 발화에 대한 음성 인식을 수행하는 프로그램이 저장된 메모리; 및
상기 프로그램을 실행시키는 프로세서를 포함하되,
상기 프로세서는 상기 이전 발화 인식 결과로부터 이전 발화 키워드를 추출하고, 단어임베딩을 이용하여 주변단어 가중치리스트를 출력하고, 언어 모델, 음향 모델 및 상기 가중치리스트를 이용하여 음성 인식 결과를 출력하는 것
인 단어임베딩을 이용한 음성 인식 시스템.
A receiver for receiving a result of recognizing a previous speech;
A memory storing a program for predicting a keyword to be recognized for a current speech by using the word of the previous speech recognition result as an input of the word embedding, and for performing speech recognition for the current speech; And
Including a processor for executing the program,
The processor extracts a previous speech keyword from the previous speech recognition result, outputs a weight list of surrounding words using word embedding, and outputs a speech recognition result using a language model, an acoustic model, and the weight list.
Speech recognition system using in-word embedding.
제1항에 있어서,
상기 프로세서는 고빈도 리스트를 이용하여, 고빈도 단어를 상기 주변단어 가중치리스트에서 제거하는 것
인 단어임베딩을 이용한 음성 인식 시스템.
The method of claim 1,
The processor uses a high frequency list to remove a high frequency word from the neighboring word weight list.
Speech recognition system using in-word embedding.
제1항에 있어서,
상기 프로세서는 상기 주변단어 가중치리스트의 가중치 값을 고려하여, 상기 언어 모델에 기반영된 것으로 판단되는 단어의 가중치를 상기 언어 모델 적용 시에 제외시키는 것
인 단어임베딩을 이용한 음성 인식 시스템.
The method of claim 1,
The processor excludes the weight of the word determined to be based on the language model when applying the language model by considering the weight value of the neighboring word weight list.
Speech recognition system using in-word embedding.
제1항에 있어서,
상기 프로세서는 상기 언어 모델 및 음향 모델을 이용하여 음성을 단어로 치환하고, 단어들의 순서를 결정하는 것
인 단어임베딩을 이용한 음성 인식 시스템.
The method of claim 1,
The processor replaces speech with words using the language model and acoustic model, and determines the order of words.
Speech recognition system using in-word embedding.
제4항에 있어서,
상기 프로세서는 현재까지 인식 가능한 리스트의 단어들에 가중치를 부여하고, 음성 인식 결과를 출력하는 것
인 단어임베딩을 이용한 음성 인식 시스템.
The method of claim 4,
The processor assigns weights to words in the list that can be recognized up to now, and outputs a speech recognition result.
Speech recognition system using in-word embedding.
(a) 이전 발화 인식 결과를 이용하여 이전 발화의 키워드를 추출하는 단계;
(b) 상기 이전 발화의 키워드와 단어임베딩을 이용하여 주변단어 가중치리스트를 출력하는 단계; 및
(c) 상기 주변단어 가중치리스트를 음향 모델 및 언어 모델에 적용하여 음성 인식 결과를 출력하는 단계
를 포함하는 단어임베딩을 이용한 음성 인식 방법.
(a) extracting a keyword of the previous speech using the result of recognizing the previous speech;
(b) outputting a weight list of surrounding words by using the keyword and word embedding of the previous speech; And
(c) outputting a speech recognition result by applying the neighboring word weight list to an acoustic model and a language model
Speech recognition method using word embedding comprising a.
제6항에 있어서,
상기 (a) 단계는 상기 이전 발화 인식 결과에 대해 형태소 품사 태깅을 거쳐 키워드로 가능한 품사를 선정하는 것
인 단어임베딩을 이용한 음성 인식 방법.
The method of claim 6,
The step (a) is to select a possible part-of-speech as a keyword through morpheme part-of-speech tagging on the previous speech recognition result.
Speech recognition method using in-word embedding.
제6항에 있어서,
상기 (b) 단계는 단어출현빈도를 활용하여 고빈도 단어를 상기 주변단어 가중치리스트에서 제거하는 것
인 단어임베딩을 이용한 음성 인식 방법.
The method of claim 6,
The step (b) is to remove high-frequency words from the neighboring word weight list by using the word appearance frequency.
Speech recognition method using in-word embedding.
제6항에 있어서,
상기 (c) 단계는 상기 주변단어 가중치리스트의 가중치 값을 고려하여, 상기 언어 모델에 기반영된 단어의 가중치를 제외시키는 것
인 단어임베딩을 이용한 음성 인식 방법.
The method of claim 6,
In the step (c), the weight value of the word based on the language model is excluded in consideration of the weight value of the neighboring word weight list.
Speech recognition method using in-word embedding.
제6항에 있어서,
상기 (c) 단계는 상기 주변단어 가중치리스트를 적용하여 현재까지의 인식 가능한 리스트의 단어들에 가중치를 부여하는 것
인 단어임베딩을 이용한 음성 인식 방법.
The method of claim 6,
The step (c) is to apply the weight list of neighboring words to give weights to words in the list that can be recognized up to now.
Speech recognition method using in-word embedding.
이전 발화 인식 결과로부터 이전 발화 키워드를 추출하는 키워드 추출부;
상기 이전 발화 키워드와 단어임베딩을 이용하여 상기 이전 발화 키워드의 주변단어 가중치리스트를 출력하는 주변단어 추출부; 및
상기 주변단어 가중치리스트를 음향 모델 및 언어 모델에 적용하여 음성인식 결과를 출력하는 음성 인식부
를 포함하는 단어임베딩을 이용한 음성 인식 시스템.
A keyword extraction unit for extracting a previous speech keyword from the previous speech recognition result;
A neighboring word extracting unit for outputting a weight list of neighboring words of the previous spoken keyword by using the previous spoken keyword and word embedding; And
Speech recognition unit for outputting a speech recognition result by applying the neighboring word weight list to an acoustic model and a language model
Speech recognition system using word embedding including a.
제11항에 있어서,
상기 키워드 추출부는 형태소 품사 태깅을 통해 상기 이전 발화 키워드로 가능한 품사를 선정하는 것
인 단어임베딩을 이용한 음성 인식 시스템.
The method of claim 11,
The keyword extraction unit selects a possible part of speech as the previous speech keyword through morpheme part of speech tagging
Speech recognition system using in-word embedding.
제11항에 있어서,
상기 주변단어 추출부는 상기 언어 모델의 훈련 시 사용한 코퍼스에서의 단어출현 빈도를 이용하여, 고빈도 단어를 상기 주변단어 가중치리스트에서 제거시키는 것
인 단어임베딩을 이용한 음성 인식 시스템.
The method of claim 11,
The peripheral word extraction unit removes high-frequency words from the peripheral word weight list by using the word appearance frequency in the corpus used for training the language model.
Speech recognition system using in-word embedding.
제11항에 있어서,
상기 음성 인식부는 상기 주변단어 가중치리스트의 가중치 값을 고려하여, 상기 언어 모델에 기반영된 단어의 가중치를 제외시키는 것
인 단어임베딩을 이용한 음성 인식 시스템.
The method of claim 11,
The speech recognition unit considers the weight value of the neighboring word weight list and excludes the weight of the word based on the language model.
Speech recognition system using in-word embedding.
제11항에 있어서,
상기 음성 인식부는 상기 음향 모델 및 언어 모델을 이용하여 음성을 단어로 치환하고, 단어들의 순서를 결정하며, 상기 주변단어 가중치리스트를 적용하여 현재까지의 인식 가능한 리스트의 단어들에 가중치를 부여하는 것
인 단어임베딩을 이용한 음성 인식 시스템.
The method of claim 11,
The speech recognition unit replaces speech with words using the acoustic model and language model, determines the order of words, and applies the neighboring word weight list to give weights to words in the list that can be recognized up to now.
Speech recognition system using in-word embedding.
KR1020190020799A 2019-02-21 2019-02-21 System and method for voice recognition using word embedding KR20200102308A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190020799A KR20200102308A (en) 2019-02-21 2019-02-21 System and method for voice recognition using word embedding

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190020799A KR20200102308A (en) 2019-02-21 2019-02-21 System and method for voice recognition using word embedding

Publications (1)

Publication Number Publication Date
KR20200102308A true KR20200102308A (en) 2020-08-31

Family

ID=72234127

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190020799A KR20200102308A (en) 2019-02-21 2019-02-21 System and method for voice recognition using word embedding

Country Status (1)

Country Link
KR (1) KR20200102308A (en)

Similar Documents

Publication Publication Date Title
US11664020B2 (en) Speech recognition method and apparatus
EP2700071B1 (en) Speech recognition using multiple language models
WO2017084334A1 (en) Language recognition method, apparatus and device and computer storage medium
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
US8849668B2 (en) Speech recognition apparatus and method
EP2685452A1 (en) Method of recognizing speech and electronic device thereof
CN111797632B (en) Information processing method and device and electronic equipment
CN108962233A (en) Voice dialogue processing method and system for voice dialogue platform
GB2453366A (en) Automatic speech recognition method and apparatus
US8204738B2 (en) Removing bias from features containing overlapping embedded grammars in a natural language understanding system
US11120802B2 (en) Diarization driven by the ASR based segmentation
US8108205B2 (en) Leveraging back-off grammars for authoring context-free grammars
US20070118353A1 (en) Device, method, and medium for establishing language model
CN112331229B (en) Voice detection method, device, medium and computing equipment
US20220399013A1 (en) Response method, terminal, and storage medium
CN114385800A (en) Voice conversation method and device
KR101122591B1 (en) Apparatus and method for speech recognition by keyword recognition
US10468031B2 (en) Diarization driven by meta-information identified in discussion content
CN116150333A (en) Text matching method, device, electronic equipment and readable storage medium
KR20200102308A (en) System and method for voice recognition using word embedding
CN112397053B (en) Voice recognition method and device, electronic equipment and readable storage medium
KR20200102309A (en) System and method for voice recognition using word similarity
JP5982265B2 (en) Speech recognition apparatus, speech recognition method, and program
KR100277690B1 (en) Speech Recognition Using Speech Act Information
CN111785259A (en) Information processing method and device and electronic equipment