KR100952974B1 - System and method for recognizing voice dealing with out-of-vocabulary words, and computer readable medium storing thereof - Google Patents

System and method for recognizing voice dealing with out-of-vocabulary words, and computer readable medium storing thereof Download PDF

Info

Publication number
KR100952974B1
KR100952974B1 KR1020030041956A KR20030041956A KR100952974B1 KR 100952974 B1 KR100952974 B1 KR 100952974B1 KR 1020030041956 A KR1020030041956 A KR 1020030041956A KR 20030041956 A KR20030041956 A KR 20030041956A KR 100952974 B1 KR100952974 B1 KR 100952974B1
Authority
KR
South Korea
Prior art keywords
vocabulary
unregistered
registered
voice data
dictionary
Prior art date
Application number
KR1020030041956A
Other languages
Korean (ko)
Other versions
KR20050001684A (en
Inventor
박성준
김재인
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020030041956A priority Critical patent/KR100952974B1/en
Publication of KR20050001684A publication Critical patent/KR20050001684A/en
Application granted granted Critical
Publication of KR100952974B1 publication Critical patent/KR100952974B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Abstract

본 발명은 음성 인식 시스템과 방법 및 이를 저장한 기록매체에 관한 것이다. 본 발명은 입력된 음성 데이터가 등록된 어휘가 아니면 임시 미등록어 사전에 등록하고, 소정 기간 경과 후, 상기 임시 미등록어 사전에 등록된 어휘를 검사하여 소정 조건을 만족하는 어휘를 미등록어 사전에 등록하며, 입력된 음성 데이터가 상기 미등록 어휘 사전에 등록된 어휘이면, 미등록 어휘임을 알린다. 이와 같이 하면, 사용자가 서비스 시스템에 등록되지 않은 어휘를 말하더라도 시스템이 이에 대해 유연하게 대처할 수 있도록 하며, 사용자가 입력한 어휘가 미등록 어휘임을 알려주어 사용자로 하여금 같은 실패를 반복하지 않도록 함으로써 서비스에 대한 호감도를 높일 수 있다.The present invention relates to a speech recognition system and method and a recording medium storing the same. The present invention registers a vocabulary satisfying a predetermined condition by registering a vocabulary registered in the temporary non-registered word dictionary if the input voice data is not a registered vocabulary, and after a predetermined period of time, examines the vocabulary registered in the temporary non-registered word dictionary. If the input voice data is a vocabulary registered in the unregistered vocabulary dictionary, it is notified of the unregistered vocabulary. In this way, even if a user speaks a vocabulary that is not registered in the service system, the system can flexibly deal with it and informs the service that the vocabulary input by the user is an unregistered vocabulary so that the user does not repeat the same failure. I can increase the likelihood.

음성 인식, 임시 미등록 어휘 사전, 미등록 어휘 사전Speech Recognition, Temporary Unregistered Vocabulary Dictionary, Unregistered Vocabulary Dictionary

Description

미등록어 처리를 지원하는 음성 인식 시스템과 방법 및 이를 저장한 컴퓨터 판독 가능 기록매체{SYSTEM AND METHOD FOR RECOGNIZING VOICE DEALING WITH OUT-OF-VOCABULARY WORDS, AND COMPUTER READABLE MEDIUM STORING THEREOF}SYSTEM AND METHOD FOR RECOGNIZING VOICE DEALING WITH OUT-OF-VOCABULARY WORDS, AND COMPUTER READABLE MEDIUM STORING THEREOF}

도 1은 본 발명의 실시예에 따른 음성 인식 시스템의 구성을 개략적인 나타낸 도이다.1 is a diagram schematically showing the configuration of a speech recognition system according to an embodiment of the present invention.

도 2는 본 발명의 실시예에 따른 음성 인식 시스템의 동작을 나타낸 순서도이다. 2 is a flowchart illustrating an operation of a speech recognition system according to an exemplary embodiment of the present invention.

본 발명은 음성 인식 시스템에 관한 것으로, 특히 전화망과 연결되어 사용되는 음성 인식 시스템에서 미등록 어휘를 등록하는 시스템과 방법 및 이를 저장한 컴퓨터 판독 가능 기록매체에 관한 것이다. The present invention relates to a speech recognition system, and more particularly, to a system and method for registering an unregistered vocabulary in a speech recognition system used in connection with a telephone network, and a computer readable recording medium storing the same.

전화망과 연결되는 음성 인식 시스템에서는 전화망을 통하여 입력된 사람의 음성을 텍스트로 변환하고 이를 입력으로 하여 서비스를 제공한다. 그런데, 이러한 음성 인식 시스템을 이용하는 사용자는 인식 가능한 등록 어휘를 사전에 정확히 알 수 없기 때문에, 서비스에 관계없는 어휘가 입력되는 경우가 종종 발생한다. In a voice recognition system connected with a telephone network, a voice of a person input through a telephone network is converted into text and provided as a service. However, since a user using such a speech recognition system cannot accurately recognize a recognized registered vocabulary in advance, a vocabulary irrelevant to a service often occurs.                         

이러한 경우, 시스템은 사용자에게 잘못 인식된 결과에 대한 확인 또는 재입력을 요청한다. 예를 들어 사용자가 '김길동'이라는 어휘를 입력하였을 때, 등록 어휘에 '김길동'은 등록되어 있지 않고 이와 어느 정도의 유사도를 가지는 '김일동'이라는 어휘가 등록되어 있으면 시스템은 '김길동'을 '김일동'으로 인식하게 된다. 그리고, 시스템은 사용자에게 인식 결과인 '김일동'이 입력 어휘가 맞는지를 확인한다. 또한, 등록 어휘 중 입력된 어휘와 유사도가 소정 임계치 내에 속하는 어휘가 없다면 시스템은 입력을 잡음으로 처리하고, 사용자에게 재입력을 요청하게 된다. 이처럼 시스템이 입력 어휘를 잘못 인식하거나 잡음으로 처리한 경우, 사용자가 포기할 때까지 사용자에게 재입력을 요구한다. In such a case, the system asks the user to confirm or reenter the misrecognized result. For example, when a user inputs the word 'Kim Gil-Dong', if the word 'Kim Il-Dong' is registered in the registered vocabulary and has similar degree to this, the system selects 'Kim Gil-Dong' as 'Kim Il-Dong'. 'Will be recognized. In addition, the system checks whether the input result of the recognition word 'Kim Il-dong' is correct for the user. In addition, if there is no vocabulary that has similarity with the input vocabulary among the registered vocabularies, the system treats the input as noise and requests the user to input again. If the system incorrectly recognizes or treats the input vocabulary as such, it will prompt the user for re-entry until the user gives up.

한 예로, 600개의 회사 명칭과 그 파생 어휘를 포함하여 1000개가 등록되어 있는 음성 인식 시스템의 사용 내역을 분석해 본 결과, 입력된 음성의 60%가 등록되지 않은 미등록 어휘이며, 이러한 미등록 어휘중의 87%가 등록 어휘와는 전혀 무관한 새로운 어휘들로 밝혀졌다. 또한, 미등록 어휘 중 특정한 어휘 하나가 차지하는 비율이 미등록 어휘의 33%를 차지하고 있다. 그러므로, 이러한 미등록 어휘를 정확하게 처리할 수만 있다면 서비스 성공률은 대폭 향상될 수 있다. As an example, after analyzing the usage history of 1000 registered voice recognition systems, including 600 company names and their derivatives, 60% of input voices are unregistered words. % Turns out to be new vocabulary that has nothing to do with registered vocabulary. In addition, one percent of unregistered vocabularies account for 33% of unregistered vocabularies. Therefore, if the unregistered vocabulary can be handled correctly, the service success rate can be greatly improved.

이를 위하여 종래에는 자주 입력되는 미등록 어휘를 미리 미등록 어휘 사전에 포함시켜서 미등록 어휘가 입력되면 그에 따른 결과를 리턴해주는 방식을 사용하였다. 이때, 미등록 어휘를 등록하는 방법으로서 종래에는 시스템에 저장된 모든 입력 음성 데이터를 관리자가 직접 듣고 판단한 후 미등록 어휘 사전에 추가하였다. 그런데, 이러한 방법은 저장된 입력 어휘를 모두 들어보아야 하므로 작업 시간 이 오래 걸릴 뿐만 아니라, 사람이 직접 작업을 하기 때문에 오류가 발생하는 빈도도 높다. To this end, conventionally, the unregistered vocabulary frequently input is included in the unregistered vocabulary dictionary, and when the unregistered vocabulary is input, a method of returning the result is used. At this time, as a method of registering an unregistered vocabulary, the administrator listens and judges all input voice data stored in the system and adds it to the unregistered vocabulary dictionary. However, this method requires a long time to listen to all the stored input vocabulary, and also frequently causes an error because a person works directly.

그러므로, 본 발명이 이루고자 하는 기술적 과제는 음성 인식 시스템에서 입력 어휘로부터 미등록 어휘를 자동으로 수집, 분류하여 미등록 어휘 사전에 등록시키기 위한 음성 인식 시스템과 방법 및 이를 컴퓨터 판독 가능 저장한 기록매체를 제공하는 것이다. Therefore, a technical object of the present invention is to provide a speech recognition system and method for automatically collecting and classifying an unregistered vocabulary from an input vocabulary and registering the unregistered vocabulary in a speech recognition system, and a computer-readable recording medium. will be.

이러한 과제를 해결하기 위한 본 발명의 특징에 따른 음성 인식 시스템은 입력된 음성 데이터를 인식하기 위한 음성 인식 시스템으로서,The voice recognition system according to a feature of the present invention for solving this problem is a voice recognition system for recognizing input voice data,

입력된 음성 데이터 중 등록되지 않은 미등록 어휘를 선별하여 임시로 저장하며, 소정기간 경과 후 상기 임시로 저장된 미등록 어휘 중 소정의 조건을 만족하는 미등록 어휘를 선별하여 저장하는 미등록 어휘 처리부를 포함하며,And a non-registered vocabulary processing unit for selecting and temporarily storing an unregistered vocabulary among input voice data, and selecting and storing an unregistered vocabulary satisfying a predetermined condition among the temporarily stored unregistered vocabulary after a predetermined period of time.

상기 미등록 어휘 처리부에서 선별된 미등록 어휘가 임시로 저장되는 임시 미등록 어휘 사전; 및 상기 임시 미등록 어휘 사전에 저장된 어휘 중 상기 소정의 조건을 만족하는 어휘들이 저장되는 미등록 어휘 사전을 포함하여,A temporary unregistered vocabulary dictionary in which an unregistered vocabulary selected by the unregistered vocabulary processor is temporarily stored; And an unregistered vocabulary dictionary in which vocabularies satisfying the predetermined condition among vocabularies stored in the temporary unregistered vocabulary dictionary are stored.

상기 미등록 어휘를 상기 미등록 어휘 사전에 자동으로 등록한다.The unregistered vocabulary is automatically registered in the unregistered vocabulary dictionary.

본 발명의 다른 특징에 따른 음성 인식 방법은 입력된 음성 데이터를 인식하기 위한 음성 인식 방법으로서,According to another aspect of the present invention, a speech recognition method is a speech recognition method for recognizing input speech data.

a) 입력된 음성 데이터를 인식하여 검증하는 단계; b) 상기 검증 결과 입력 된 음성 데이터가 등록된 어휘가 아니면 임시 미등록어 사전에 등록하고, 소정 기간 경과 후, 상기 임시 미등록어 사전에 등록된 어휘를 검사하여 소정 조건을 만족하는 어휘를 미등록어 사전에 등록하는 단계; 및 c) 상기 검증 결과 입력된 음성 데이터가 상기 미등록 어휘 사전에 등록된 어휘이면, 미등록 어휘임을 알리고 재입력을 요구하여 상기 a) 단계로 되돌아가며, 등록 어휘이면 상기 데이터에 부합되는 서비스를 제공하는 단계를 포함한다.a) recognizing and verifying input voice data; b) If the voice data inputted as a result of the verification is not a registered vocabulary, register in a temporary unregistered word dictionary, and after a predetermined period of time, the vocabulary satisfying a predetermined condition is examined by checking a vocabulary registered in the temporary unregistered word dictionary. Registering with; And c) if the voice data inputted as a result of the verification is a vocabulary registered in the unregistered vocabulary dictionary, notifying the unregistered vocabulary and requesting re-entry, and returning to step a), and if the vocabulary is registered vocabulary, providing a service corresponding to the data. Steps.

본 발명의 또 다른 특징에 따른 기록매체는 입력된 음성 데이터를 인식하는 기능을 수행하도록 컴퓨터에 의하여 실행 가능한 명령으로 구성된 프로그램을 유형적으로 구체화한 기록 매체로서, According to another aspect of the present invention, a recording medium is a recording medium in which a program consisting of instructions executable by a computer to perform a function of recognizing input voice data is tangibly embodied.

a) 입력된 음성 데이터를 인식하여 검증하는 기능; b) 상기 검증 결과 입력된 음성 데이터가 등록된 어휘가 아니면 임시 미등록어 사전에 등록하고, 소정 기간 경과 후, 상기 임시 미등록어 사전에 등록된 어휘를 검사하여 소정 조건을 만족하는 어휘를 미등록어 사전에 등록하는 기능; 및 c) 상기 검증 결과 입력된 음성 데이터가 상기 미등록 어휘 사전에 등록된 어휘이면, 미등록 어휘임을 알리고 재입력을 요구하며, 등록 어휘이면 상기 데이터에 부합되는 서비스를 제공하는 기능을 포함한다.a) a function of recognizing and verifying input voice data; b) If the voice data inputted as a result of the verification is not a registered vocabulary, register in a temporary non-registered word dictionary, and after a predetermined period of time, the vocabulary satisfying a predetermined condition is examined by checking a vocabulary registered in the temporary non-registered word dictionary. The ability to register with; And c) if the voice data inputted as a result of the verification is a vocabulary registered in the unregistered vocabulary dictionary, notifying of the unregistered vocabulary and requesting re-entry, and providing a service corresponding to the data if the vocabulary data is registered.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 도면에서 본 발명을 명확하게 설명하 기 위해서 설명과 관계없는 부분은 생략하였다. 명세서 전체를 통하여 유사한 부분에 대해서는 동일한 도면 부호를 붙였다. DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention. As those skilled in the art would realize, the described embodiments may be modified in various different ways, all without departing from the spirit or scope of the present invention. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention. Like parts are designated by like reference numerals throughout the specification.

먼저, 본 발명의 실시예에 따른 음성 인식 시스템에 대하여 도 1을 참고로 하여 상세하게 설명한다.First, a voice recognition system according to an embodiment of the present invention will be described in detail with reference to FIG. 1.

도 1은 본 발명의 실시예에 따른 음성 인식 시스템의 구성을 개략적인 나타낸 도이다. 1 is a diagram schematically showing the configuration of a speech recognition system according to an embodiment of the present invention.

도 1에 나타낸 바와 같이, 본 발명의 실시예에 따른 음성 인식 시스템은 전화망 인터페이스부(100), 시나리오 처리부(200), 등록 어휘 처리부(300), 미등록 어휘 처리부(400), HMM(Hidden Markov Model) 파라미터 처리부(500), 전처리부(600) 및 인식 처리부(700)를 포함한다. As shown in FIG. 1, the speech recognition system according to an exemplary embodiment of the present invention includes a telephone network interface unit 100, a scenario processor 200, a registered vocabulary processor 300, an unregistered vocabulary processor 400, and a HMM (Hidden Markov Model). ) Includes a parameter processing unit 500, a preprocessing unit 600, and a recognition processing unit 700.

전화망 인터페이스부(100)는 사용자와의 호 처리 작업을 담당하며, 시나리오 처리부(200)는 미리 정해진 시나리오에 따라 사용자로부터 입력된 음성 데이터를 등록 어휘 처리부(300)로 전송한다. The telephone network interface 100 is responsible for call processing with the user, and the scenario processing unit 200 transmits voice data input from the user to the registered vocabulary processing unit 300 according to a predetermined scenario.

등록어휘 처리부(300)는 시나리오 처리부(200)에서 전송된 음성 데이터와 등록 어휘를 비교하며, 이를 위하여 등록어휘 처리부(300)는 등록 어휘 사전(310)과 미등록 어휘 사전(320)을 포함한다. 또한, 미등록 어휘 처리부(400)는 인식 처리부(700)에서 전송된 미등록 어휘를 임시 미등록 어휘 사전(410)에 등록하고, 이를 바탕으로 미등록 어휘 사전(320)을 관리한다. The registered vocabulary processor 300 compares the registered vocabulary with the voice data transmitted from the scenario processor 200, and the registered vocabulary processor 300 includes a registered vocabulary dictionary 310 and an unregistered vocabulary dictionary 320. In addition, the unregistered vocabulary processor 400 registers the unregistered vocabulary transmitted from the recognition processor 700 to the temporary unregistered vocabulary dictionary 410, and manages the unregistered vocabulary dictionary 320 based on this.

HMM 파라미터 처리부(500)는 어휘를 구성하는 음소들이 가지는 여러 가지 확률 정보를 포함하고 있으며, 이에 따라 HMM 파라미터를 처리한다. The HMM parameter processing unit 500 includes various probability information of the phonemes constituting the vocabulary, and thus processes the HMM parameter.                     

전처리부(600)는 전화망 인터페이스부(100)를 통하여 입력되는 음성신호로부터 음성의 특징을 추출한다.The preprocessor 600 extracts the voice feature from the voice signal input through the telephone network interface 100.

인식 처리부(700)는 등록 어휘 처리부(300), HMM 파라미터 처리부(500) 및 전처리부(600)에서 전송된 데이터를 가지고 음성인식을 처리하고, 미등록 어휘를 선별하여 미등록 어휘 처리부(400)로 전송한다. The recognition processor 700 processes the speech recognition using data transmitted from the registered vocabulary processor 300, the HMM parameter processor 500, and the preprocessor 600, selects an unregistered vocabulary, and transmits the unregistered vocabulary to the unregistered vocabulary processor 400. do.

인식 처리부(700)에서의 음성인식 처리 과정을 구체적으로 살펴보면 다음과 같다.Looking at the speech recognition processing in the recognition processing unit 700 in detail as follows.

먼저, 비터비 탐색 과정을 수행하여, 음소 모델 데이터베이스로 구성된 발음사전에 등록된 단어들에 대해 전처리부(600)의 음성 특징값을 이용하여 유사도(Likelihood)가 가장 유사한 단어들을 선정한다. First, a Viterbi search process is performed to select words most similar in likelihood to the words registered in the phonetic dictionary composed of a phoneme model database using the speech feature values of the preprocessor 600.

이어서, 발화 검증 과정을 수행하여, 비터비 탐색 과정에서 선정된 단어를 이용하여 음소단위로 특징구간을 분할한 후, 반음소 모델을 이용하여 음소단위의 유사 신뢰도(Likelihood Ratio Confidence Score)를 구한다. Subsequently, a speech verification process is performed to divide a feature section by phoneme using a word selected in the Viterbi search process, and then obtain a Likelihood Ratio Confidence Score using the semitone phone model.

이러한 발화 검증 과정은 문장을 인식할 경우에도 동일하게 적용되어 문법만 추가되며, 문장단위의 검증이 이루어진다. 이때, 신뢰도는 비터비 탐색 결과의 수치와는 의미가 다르다. 즉, 비터비 탐색 결과 수치는 어떤 단어나 음소에 대한 단순한 유사도를 나타낸 것인 반면에, 신뢰도는 인식된 결과인 음소나 단어에 대해 그 외의 다른 음소나 단어로부터 그 말이 발화되었을 확률에 대한 상대값을 의미한다.This speech verification process is applied in the same way when recognizing a sentence, only the grammar is added, and the sentence unit is verified. In this case, the reliability is different from the numerical value of the Viterbi search result. That is, the Viterbi search result number represents a simple similarity to a word or phoneme, while the reliability is a relative value of the probability that the word is spoken from other phonemes or words for the recognized phoneme or word. Means.

한편, 신뢰도를 결정하기 위해서는 음소(Phone) 모델과 반음소(Anti-phone) 모델이 필요하다. 음소 모델은 어떤 음성에서 실제로 발화된 음소들을 추출하여 추출된 음소들을 훈련시켜 생성된 HMM이다. 이러한 음소 모델은 일반적인 HMM에 근거한 음성인식 시스템에서 사용되는 모델이다. 또한, 반음소 모델은 실제 발화된 음소와 아주 유사한 음소들(이를 유사음소집합(Cohort Set)이라 함)을 사용하여 훈련된 HMM을 말한다. Meanwhile, in order to determine reliability, a phone model and an anti-phone model are required. The phoneme model is an HMM created by training extracted phonemes by extracting phonemes actually spoken from a voice. The phoneme model is a model used in a speech recognition system based on a general HMM. In addition, the half-phoneme model refers to an HMM trained using phonemes that are very similar to the actual spoken phoneme (which is called a cohort set).

이렇게 음소 모델과 반음소 모델이 생성되면, 입력된 음성에 대한 신뢰도는 다음과 같이 계산된다. When the phoneme model and the half phoneme model are generated as described above, the reliability of the input voice is calculated as follows.

우선, 음소 모델을 탐색하여 가장 유사한 음소를 하나 찾아낸다. 그리고, 찾아낸 음소에 대한 반음소 모델에 대한 유사도를 계산해 낸다. 최종적인 신뢰도는 음소 모델에 대한 유사도와 반음소 모델에 대한 유사도의 차이를 구하고, 이에 소정의 특정함수를 적용시켜 신뢰도값의 범위를 조절하여 구할 수 있다.First, the phoneme model is searched to find the most similar phoneme. Then, the similarity of the semitone phone model with respect to the found phonemes is calculated. The final reliability can be obtained by calculating the difference between the similarity between the phoneme model and the similarity between the semi-phoneme model and adjusting a range of the reliability value by applying a predetermined specific function thereto.

인식 처리부(700)의 인식결과는 미등록 어휘 처리부(400)로 보내지고, 아울러 시나리오 처리부(200)를 거쳐서 전화망 인터페이스부(100)에 연결된 전화망을 통하여 발신측으로 전달된다. The recognition result of the recognition processing unit 700 is sent to the unregistered vocabulary processing unit 400, and is also transmitted to the calling party through the telephone network connected to the telephone network interface unit 100 via the scenario processing unit 200.

다음, 도 2 및 도 3을 참조하여 본 발명의 실시예에 따른 음성 인식 시스템의 동작에 대하여 자세하게 설명한다. Next, the operation of the speech recognition system according to the embodiment of the present invention will be described in detail with reference to FIGS. 2 and 3.

도 2는 본 발명의 실시예에 따른 음성 인식 시스템의 동작을 나타낸 순서도이다. 2 is a flowchart illustrating an operation of a speech recognition system according to an exemplary embodiment of the present invention.

도 2에 도시된 바와 같이, 먼저 전화망을 통하여 음성이 입력되면(S201), 전처리부(600)에서 전처리 과정을 거친 데이터를 통하여 인식 처리부(700)에서 음성 을 인식하고(S202), 인식단어를 검증하는 단계(S203)를 거친 후, 검증 결과를 시나리오 처리부(200)로 전송한다. 이때, 검증에 실패하면 시나리오 처리부(200)는 사용자에게 재입력을 요구하고(S204)한다.As shown in FIG. 2, when a voice is input through a telephone network (S201), the recognition processor 700 recognizes the voice through data that has been preprocessed by the preprocessor 600 (S202), and recognizes a word. After the verification step S203, the verification result is transmitted to the scenario processing unit 200. At this time, if the verification fails, the scenario processing unit 200 requests the user to re-input (S204).

한편, 검증이 애매한 경우 또는 검증이 성공한 경우에는 결과 확인 과정을 거쳐(S205) 확인 결과가 틀리면 재입력을 요구하고(S204), 확인 결과가 맞으면 서비스를 제공한다. 이때, 인식 처리부(700)는 전처리부(600)를 통하여 전송된 음성 데이터를, 등록 어휘 처리부(300)와 미등록 어휘 처리부(400)를 통하여 전송된 어휘들과 비교하고 유사도가 소정 임계치에 이르는 어휘가 있는지를 검색하여 검색된 어휘를 전화망으로 전송하여 사용자로 하여금 확인하도록 한다. On the other hand, if the verification is ambiguous or if the verification is successful (S205), if the verification result is wrong, re-entry is requested (S204), and if the verification result is correct, the service is provided. At this time, the recognition processing unit 700 compares the voice data transmitted through the preprocessor 600 with the vocabulary transmitted through the registered vocabulary processing unit 300 and the unregistered vocabulary processing unit 400, and the similarity reaches a predetermined threshold. It searches for the presence of the message and sends the searched word to the telephone network for the user to confirm.

예를 들어, 사용자가 '김일동'이라는 어휘를 입력했을 때 인식 처리부(700)에서 등록 어휘 사전(310)과 미등록 어휘 사전(320)을 검색하여 '홍길동'이라는 결과를 출력하였다면, 본 발명에 따른 음성 인식 시스템은 시나리오 처리부(200)를 통하여 사용자에게 "'홍길동'이라고 말씀하셨습니다. 맞으면 1번, 틀리면 2번을 눌러 주십시오"라는 안내 방송을 들려준다. 이때 사용자가 '2'번을 선택하면, 인식 처리부(700)는 사용자로부터 입력된 '김일동'이라는 어휘가 등록 어휘 사전(310)과 미등록 어휘 사전(320)에 모두 등록되어 있지 않은 어휘임을 알게 되고, 이 어휘를 미등록 어휘 처리부(400)로 전송한다. For example, when a user inputs a vocabulary of 'Kim Il-dong', the recognition processor 700 searches for a registered vocabulary dictionary 310 and an unregistered vocabulary dictionary 320 and outputs a result of 'Hong Gil-dong'. The voice recognition system tells the user through the scenario processing unit 200, "Hong Gil-dong." In this case, when the user selects '2', the recognition processor 700 recognizes that the word 'Kim Il-dong' input from the user is a vocabulary that is not registered in both the registered vocabulary dictionary 310 and the unregistered vocabulary dictionary 320. The vocabulary is transmitted to the unregistered vocabulary processing unit 400.

이때, 미등록 어휘 처리부(400)로 전송되는 어휘는 입력된 음성 데이터에 대하여 음소 인식기 또는 음절 인식기를 적용하여 얻어진 인식 결과를 사용한다. 예를 들어 '김일동'이라고 입력된 경우에 음절 인식기를 적용하였다면 '기밀똥'이라 는 결과가 나올 수 있을 것이다. 이와 같이 미등록 어휘에 대하여 우선 음소 인식기 또는 음절 인식기를 사용하는 이유는 사람이 직접 음성 데이터를 들어 보기 전까지는 '김일동'이라고 말한 것을 알 수 없기 때문이며, 임시 미등록 어휘 사전(410)에 있는 어휘를 미등록 어휘 사전(320)으로 옮기는 작업을 자동적으로 수행할 때 필요하기 때문이다.In this case, the vocabulary transmitted to the unregistered vocabulary processor 400 uses a recognition result obtained by applying a phoneme recognizer or a syllable recognizer to the input voice data. For example, if the syllable recognizer is applied when 'Kim Il-dong' is input, the result may be 'confidence poop'. The reason why the phoneme recognizer or syllable recognizer is first used for the unregistered vocabulary is that it is not known that the person said 'Kim Il-dong' until the person directly listens to the voice data. This is because it is necessary to automatically perform the task of moving to the lexicon 320.

미등록 어휘 처리부(300)는 전송된 어휘를 임시 미등록 어휘 사전(410)에 등록하고 입력된 음성 데이터도 같이 저장한다(S206). 또한, 시나리오 처리부(200)는 사용자에게 재입력을 요구(S204)하거나 서비스를 종료하도록 할 수 있다.The unregistered vocabulary processing unit 300 registers the transmitted vocabulary in the temporary unregistered vocabulary dictionary 410 and also stores the input voice data together (S206). In addition, the scenario processing unit 200 may request the user to input again (S204) or terminate the service.

만약, 인식 처리부(700)에서 등록 어휘 사전(310)과 미등록 어휘 사전(320)을 검색한 결과 미등록 어휘 사전(320)에서 '김일동'과 일치하는 어휘를 검색하였다면, 본 발명에 따른 음성 인식 시스템은 시나리오 처리부(200)를 통하여 사용자에게 "'김일동'은 등록되어 있지 않은 사람입니다. 등록되어 있는 명칭을 말씀해 주십시오"라는 안내 방송을 들려주고(S208) 재입력을 요구할 수 있다(S204). If, as a result of searching the registered vocabulary dictionary 310 and the unregistered vocabulary dictionary 320 by the recognition processing unit 700, and searches for the vocabulary matching 'Kim Il-dong' in the unregistered vocabulary dictionary 320, the speech recognition system according to the present invention Through the scenario processing unit 200, the user may be informed to the user that "Kim Il-dong is not registered. Please tell me the registered name" (S208) and request re-entry (S204).

또한, 등록 어휘 사전(310)에서 '김일동'과 일치하는 어휘를 검색하였다면, 해당 서비스를 제공한다(S209).In addition, if the vocabulary matching 'Kim Il-dong' is searched in the registered vocabulary dictionary 310, the corresponding service is provided (S209).

한편, 미등록 어휘 처리부(400)에서 임시 미등록 어휘 사전(410)에 등록된 어휘를 미등록 어휘 사전(320)에 등록한다. 이때, 임시 미등록 어휘 사전(410)에 등록된 어휘를 미등록 어휘 사전(320)에 등록하는 방법은, 시스템 관리자가 임시 미등록 어휘 사전(410)에 등록된 음성을 직접 들어보고 판단하여 미등록 어휘 사전(320)에 등록하거나, 미등록 어휘 처리부(400)가 미리 지정된 주기마다 임시 미등록 어휘 사전(410)에 등록된 모든 어휘를 미등록 어휘 사전(320)에 등록하거나, 미등록 어휘 사전(410)에 등록되는 미등록 어휘들의 입력 회수를 카운팅하여 소정 기간동안 소정 회수 이상 등록된 어휘만을 선별하여 미등록 어휘 사전(320)에 등록하도록 할 수 있다. 이와 같은 방법으로 임시 미등록 어휘 사전(410)에 있는 어휘들을 미등록 어휘 사전(320)에 등록한 후에는 임시 미등록 어휘 사전(410)을 초기화한다. 또한, 변경된 미등록 어휘 사전(320)의 내용을 인식 처리부(700)로 보내어 적용시킨다.On the other hand, the unregistered vocabulary processing unit 400 registers the vocabulary registered in the temporary unregistered vocabulary dictionary 410 in the unregistered vocabulary dictionary 320. In this case, the method of registering the vocabulary registered in the temporary unregistered vocabulary dictionary 410 with the unregistered vocabulary dictionary 320 may be determined by a system administrator directly listening to and determining the voice registered in the temporary unregistered vocabulary dictionary 410. 320 or all unregistered vocabulary processor 400 registers all the vocabulary registered in the temporary unregistered vocabulary dictionary 410 at predetermined intervals in the unregistered vocabulary dictionary 320 or is registered in the unregistered vocabulary dictionary 410. By counting the number of vocabulary inputs, only vocabularies registered more than a predetermined number of times for a predetermined period may be selected and registered in the unregistered vocabulary dictionary 320. After registering the vocabularies in the temporary unregistered vocabulary dictionary 410 in the unregistered vocabulary dictionary 320 in this manner, the temporary unregistered vocabulary dictionary 410 is initialized. In addition, the contents of the changed unregistered vocabulary dictionary 320 are sent to the recognition processor 700 for application.

한편, 위의 과정에서 음성인식에 필요한 HMM 파라미터는 HMM 파라미터 처리부(500)를 통하여 인식 처리부(700)로 전송된다. Meanwhile, in the above process, the HMM parameter required for voice recognition is transmitted to the recognition processor 700 through the HMM parameter processor 500.

또한, 본 발명의 실시예에 따른 음성 인식 처리 방법은 프로그램으로 구현되어 씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등컴퓨터로 판독할 수 있는 기록매체에 저장될 수 있다. In addition, the speech recognition processing method according to an embodiment of the present invention may be implemented as a program and stored in a computer-readable recording medium such as a CD-ROM, a RAM, a ROM, a floppy disk, a hard disk, a magneto-optical disk, and the like.

이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명은 이에 한정되는 것은 아니며, 그 외의 다양한 변경이나 변형이 가능하다. Although the preferred embodiment of the present invention has been described in detail above, the present invention is not limited thereto, and various other changes and modifications are possible.

이와 같이 본 발명에 따르면, 미등록 어휘 사전을 구비함으로써 사용자가 서비스 시스템에 등록되지 않은 어휘를 말하더라도 시스템이 이에 대해 유연하게 대처할 수 있도록 하며, 사용자가 입력한 어휘가 미등록 어휘임을 알려주어 사용자로 하여금 같은 실패를 반복하지 않도록 함으로써 서비스에 대한 호감도를 높일 수 있다. Thus, according to the present invention, by providing an unregistered vocabulary dictionary, even if the user speaks a vocabulary not registered in the service system, the system can flexibly cope with this, and informs the user that the vocabulary input by the user is an unregistered vocabulary. By not repeating the same failure, you can increase the likelihood of service.

Claims (8)

입력된 음성 데이터를 인식하기 위한 음성 인식 시스템에 있어서,In the speech recognition system for recognizing input voice data, 입력된 음성 데이터 중 등록되지 않은 미등록 어휘(이하 "제1 미등록 어휘"라 함)를 선별하여 임시로 저장하며, 소정기간 경과 후 상기 임시로 저장된 상기 제1 미등록 어휘 중 설정 횟수 이상 입력된 미등록 어휘(이하 "제2 미등록 어휘"라 함)를 선별하여 저장하는 미등록 어휘 처리부,Unregistered unregistered vocabulary (hereinafter referred to as "first unregistered vocabulary") among the input voice data is selected and temporarily stored, and after a predetermined period, an unregistered vocabulary entered more than a set number of times of the temporarily stored first unregistered vocabulary. Unregistered vocabulary processing unit for selecting and storing (hereinafter referred to as "second unregistered vocabulary"), 상기 미등록 어휘 처리부에서 선별된 상기 제1 미등록 어휘가 임시로 저장되는 임시 미등록 어휘 사전,A temporary unregistered vocabulary dictionary temporarily storing the first unregistered vocabulary selected by the unregistered vocabulary processor, 상기 미등록 어휘 처리부에서 선별된 상기 제2 미등록 어휘가 저장되는 미등록 어휘 사전,An unregistered vocabulary dictionary in which the second unregistered vocabulary selected by the unregistered vocabulary processor is stored; 등록 어휘들이 저장되어 있는 등록 어휘 사전,A registered vocabulary dictionary in which registered vocabularies are stored, 상기 입력된 음성 데이터가 상기 등록 어휘 사전이나 상기 미등록 어휘 사전에 등록되어 있는지를 파악하는 등록 어휘 처리부, A registered vocabulary processing unit for determining whether the input voice data is registered in the registered vocabulary dictionary or the unregistered vocabulary dictionary; 상기 등록 어휘 처리부와 연계하여 상기 입력된 음성 데이터에 대한 음성 인식을 수행하며, 상기 음성 데이터가 상기 제1 미등록 어휘인 경우에 상기 미등록 어휘 처리부에 제공하고, 상기 음성 데이터가 상기 등록 어휘인 경우에 상기 음성 데이터에 부합하는 서비스가 제공되게 하며, 상기 음성 데이터가 상기 제2 미등록 어휘인 경우에 음성 입력자에게 상기 제2 미등록 어휘임을 알려 재입력을 요구하는 인식 처리부를 포함하는Perform voice recognition on the input voice data in association with the registered vocabulary processing unit, and provide the voice data to the unregistered vocabulary processing unit when the voice data is the first unregistered vocabulary, and when the voice data is the registered vocabulary. And a recognition processor configured to provide a service corresponding to the voice data and to notify the voice inputter that the second unregistered vocabulary is a second unregistered vocabulary when the voice data is the second unregistered vocabulary. 음성 인식 시스템.Speech recognition system. 삭제delete 제1항에 있어서, The method of claim 1, 상기 미등록 어휘 처리부는,The unregistered vocabulary processing unit, 상기 임시 미등록 어휘 사전에 저장된 상기 제1 미등록 어휘 중 상기 미등록 어휘 사전에 저장되지 않은 미등록 어휘를 삭제하는 Deleting an unregistered vocabulary not stored in the unregistered vocabulary dictionary among the first unregistered vocabulary stored in the temporary unregistered vocabulary dictionary 음성 인식 시스템.Speech recognition system. 제1항에 있어서, The method of claim 1, 상기 입력된 음성 데이터에 대하여 음소 인식기 또는 음절 인식기를 적용하여 얻어진 인식 결과가 상기 미등록 어휘 처리부로 전송되는 A recognition result obtained by applying a phoneme recognizer or a syllable recognizer to the input voice data is transmitted to the unregistered vocabulary processor. 음성 인식 시스템.Speech recognition system. 입력된 음성 데이터를 인식하기 위한 음성 인식 방법에 있어서,In the voice recognition method for recognizing input voice data, a) 입력된 음성 데이터를 인식하여 검증하는 단계;a) recognizing and verifying input voice data; b) 상기 검증 결과 상기 입력된 음성 데이터가 등록되지 않은 미등록 어휘(이하 "제1 미등록 어휘"라 함)이면 임시 미등록어 사전에 등록하고, 소정 기간 경과 후, 상기 임시 미등록어 사전에 등록된 상기 제1 미등록 어휘 중 설정 횟수이상 입력된 미등록 어휘(이하 "제2 미등록 어휘"라 함)를 미등록어 사전에 등록하는 단계;b) if the inputted voice data is an unregistered unregistered vocabulary (hereinafter referred to as a "first unregistered vocabulary"), a temporary non-registered word dictionary is registered, and after a predetermined period of time, the registered non-registered word dictionary is registered. Registering an unregistered vocabulary (hereinafter referred to as a “second unregistered vocabulary”) input more than a predetermined number of times of the first unregistered vocabulary in the unregistered vocabulary; c) 상기 검증 결과 상기 입력된 음성 데이터가 상기 미등록 어휘 사전에 등록된 상기 제2 미등록 어휘이면, 음성 입력자에게 미등록 어휘임을 알리고 재입력을 요구하는 단계; 및c) if the inputted voice data is the second unregistered vocabulary registered in the unregistered vocabulary dictionary, informing the voice inputter that the voice data is an unregistered vocabulary and requesting re-entry; And d) 상기 검증 결과 상기 입력된 음성 데이터가 등록 어휘이면 상기 음성 데이터에 부합하는 서비스를 제공하는 단계;d) providing a service corresponding to the voice data if the input voice data is a registered vocabulary as a result of the verification; 를 포함하는 음성 인식 방법.Speech recognition method comprising a. 제5항에 있어서, The method of claim 5, 상기 a) 단계에서, In step a), 검증이 실패하면 재입력을 요구하고 재검증을 수행하는 If the verification fails, you are asked to reenter and perform a revalidation. 음성 인식 방법.Speech recognition method. 제5항에 있어서,The method of claim 5, 상기 b) 단계는, B), 상기 임시 미등록 어휘 사전에 저장된 미등록 어휘 중 상기 미등록 어휘 사전에 저장되지 않은 미등록 어휘를 삭제하는 단계Deleting an unregistered vocabulary not stored in the unregistered vocabulary dictionary among the unregistered vocabulary stored in the temporary unregistered vocabulary dictionary 를 더 포함하는 음성 인식 방법.Speech recognition method further comprising. 입력된 음성 데이터를 인식하는 기능을 수행하도록 컴퓨터에 의하여 실행 가능한 명령으로 구성된 프로그램을 유형적으로 구체화한 기록 매체에 있어서,A recording medium tangibly embodying a program composed of instructions executable by a computer to perform a function of recognizing input voice data, a) 입력된 음성 데이터를 인식하여 검증하는 기능;a) a function of recognizing and verifying input voice data; b) 상기 검증 결과 상기 입력된 음성 데이터가 등록되지 않은 미등록 어휘(이하 "제1 미등록 어휘"라 함)이면 임시 미등록어 사전에 등록하고, 소정 기간 경과 후, 상기 임시 미등록어 사전에 등록된 상기 제1 미등록 어휘 중 설정 횟수이상 입력된 미등록 어휘(이하 "제2 미등록 어휘"라 함)를 미등록어 사전에 등록하는 기능;b) if the inputted voice data is an unregistered unregistered vocabulary (hereinafter referred to as a "first unregistered vocabulary"), a temporary non-registered word dictionary is registered, and after a predetermined period of time, the registered non-registered word dictionary is registered. A function of registering an unregistered vocabulary (hereinafter referred to as a “second unregistered vocabulary”) input more than a set number of times among the first unregistered vocabularies in a non-registered dictionary; c) 상기 검증 결과 상기 입력된 음성 데이터가 상기 미등록 어휘 사전에 등록된 상기 제2 미등록 어휘이면, 음성 입력자에게 미등록 어휘임을 알리고 재입력을 요구하는 기능; 및c) a function of notifying the voice inputter of the unregistered vocabulary and requesting re-entry if the inputted voice data is the second unregistered vocabulary registered in the unregistered vocabulary dictionary; And d) 상기 검증 결과 상기 입력된 음성 데이터가 등록 어휘이면 상기 음성 데이터에 부합하는 서비스를 제공하는 기능을 포함하는 프로그램이 저장된 기록매체.d) a recording medium storing a program including a function of providing a service corresponding to the voice data if the input voice data is a registered vocabulary as a result of the verification.
KR1020030041956A 2003-06-26 2003-06-26 System and method for recognizing voice dealing with out-of-vocabulary words, and computer readable medium storing thereof KR100952974B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030041956A KR100952974B1 (en) 2003-06-26 2003-06-26 System and method for recognizing voice dealing with out-of-vocabulary words, and computer readable medium storing thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030041956A KR100952974B1 (en) 2003-06-26 2003-06-26 System and method for recognizing voice dealing with out-of-vocabulary words, and computer readable medium storing thereof

Publications (2)

Publication Number Publication Date
KR20050001684A KR20050001684A (en) 2005-01-07
KR100952974B1 true KR100952974B1 (en) 2010-04-15

Family

ID=37217316

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030041956A KR100952974B1 (en) 2003-06-26 2003-06-26 System and method for recognizing voice dealing with out-of-vocabulary words, and computer readable medium storing thereof

Country Status (1)

Country Link
KR (1) KR100952974B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9830908B2 (en) 2014-11-20 2017-11-28 Samsung Electronics Co., Ltd. Display apparatus and method for registration of user command

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100757340B1 (en) * 2006-03-30 2007-09-11 엔에이치엔(주) Method for improving performance of morpheme analyzer using automatic extraction and system for executing the method
KR102413693B1 (en) 2015-07-23 2022-06-27 삼성전자주식회사 Speech recognition apparatus and method, Model generation apparatus and method for Speech recognition apparatus
KR101983031B1 (en) * 2017-11-09 2019-05-29 주식회사 클라우봇 Language teaching method and language teaching system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000032270A (en) * 1998-11-13 2000-06-05 구자홍 Voice recognition method of voice typing system
JP2001343994A (en) * 2000-06-01 2001-12-14 Nippon Hoso Kyokai <Nhk> Voice recognition error detector and storage medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000032270A (en) * 1998-11-13 2000-06-05 구자홍 Voice recognition method of voice typing system
JP2001343994A (en) * 2000-06-01 2001-12-14 Nippon Hoso Kyokai <Nhk> Voice recognition error detector and storage medium

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9830908B2 (en) 2014-11-20 2017-11-28 Samsung Electronics Co., Ltd. Display apparatus and method for registration of user command
US10381004B2 (en) 2014-11-20 2019-08-13 Samsung Electronics Co., Ltd. Display apparatus and method for registration of user command
US10885916B2 (en) 2014-11-20 2021-01-05 Samsung Electronics Co., Ltd. Display apparatus and method for registration of user command
US11495228B2 (en) 2014-11-20 2022-11-08 Samsung Electronics Co., Ltd. Display apparatus and method for registration of user command
US11900939B2 (en) 2014-11-20 2024-02-13 Samsung Electronics Co., Ltd. Display apparatus and method for registration of user command

Also Published As

Publication number Publication date
KR20050001684A (en) 2005-01-07

Similar Documents

Publication Publication Date Title
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
JP4301102B2 (en) Audio processing apparatus, audio processing method, program, and recording medium
US7996218B2 (en) User adaptive speech recognition method and apparatus
US6185530B1 (en) Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
JP5951161B2 (en) Speech recognition apparatus and speech recognition method
JP4680714B2 (en) Speech recognition apparatus and speech recognition method
US20020111803A1 (en) Method and system for semantic speech recognition
JP2001005488A (en) Voice interactive system
US11450320B2 (en) Dialogue system, dialogue processing method and electronic apparatus
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
US20040186819A1 (en) Telephone directory information retrieval system and method
WO2002061728A1 (en) Sentense recognition device, sentense recognition method, program, and medium
US7912707B2 (en) Adapting a language model to accommodate inputs not found in a directory assistance listing
US20200193985A1 (en) Domain management method of speech recognition system
EP1887562A1 (en) Speech recognition by statistical language model using square-root smoothing
KR101424496B1 (en) Apparatus for learning Acoustic Model and computer recordable medium storing the method thereof
KR100952974B1 (en) System and method for recognizing voice dealing with out-of-vocabulary words, and computer readable medium storing thereof
KR20210130024A (en) Dialogue system and method of controlling the same
Hirschberg et al. Generalizing prosodic prediction of speech recognition errors
KR101598950B1 (en) Apparatus for evaluating pronunciation of language and recording medium for method using the same
JP2000250593A (en) Device and method for speaker recognition
KR101283271B1 (en) Apparatus for language learning and method thereof
JP4987530B2 (en) Speech recognition dictionary creation device and speech recognition device
Kawahara Generating effective confirmation and guidance using two-level confidence measures for dialogue systems
US20220005462A1 (en) Method and device for generating optimal language model using big data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment
FPAY Annual fee payment

Payment date: 20180403

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee