KR20110071742A - Apparatus for utterance verification based on word specific confidence threshold - Google Patents
Apparatus for utterance verification based on word specific confidence threshold Download PDFInfo
- Publication number
- KR20110071742A KR20110071742A KR1020090128386A KR20090128386A KR20110071742A KR 20110071742 A KR20110071742 A KR 20110071742A KR 1020090128386 A KR1020090128386 A KR 1020090128386A KR 20090128386 A KR20090128386 A KR 20090128386A KR 20110071742 A KR20110071742 A KR 20110071742A
- Authority
- KR
- South Korea
- Prior art keywords
- word
- likelihood
- phoneme
- threshold
- log
- Prior art date
Links
- 238000012795 verification Methods 0.000 title abstract description 31
- 230000000903 blocking effect Effects 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 19
- 239000000284 extract Substances 0.000 abstract description 9
- 238000009826 distribution Methods 0.000 description 30
- 238000005315 distribution function Methods 0.000 description 11
- 238000003657 Likelihood-ratio test Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
Description
본 발명은 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법에 관한 것으로, 특히 단어의 특성을 고려하여 단어별로 서로 다른 신뢰도 문턱값을 설정하여 발화 검증을 수행하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법에 관한 것이다.The present invention relates to a speech verification apparatus based on the reliability threshold for each word and a method thereof. In particular, a speech based on the reliability threshold for each word that performs speech verification by setting different reliability thresholds for each word in consideration of the characteristics of the words. A verification apparatus and a method thereof are provided.
본 발명은 지식경제부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-04, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].The present invention is derived from a study conducted as part of the IT growth engine technology development project of the Ministry of Knowledge Economy. [Task Management Number: 2006-S-036-04, Title: Development of a large capacity interactive distributed processing voice interface technology for the new growth engine industry ].
음성인식이란 기계로 하여금 인간의 일상적인 음성을 이해하고 이해된 음성에 따라 업무를 수행하는 것을 말한다.Speech recognition refers to the machine's ability to understand human everyday voices and perform tasks according to them.
음성인식(Speech recognition)의 기술은 컴퓨터와 정보통신의 발달로 인간이 직접 움직이지 않고 원거리에서도 정보를 손쉽게 얻을 수 있으며, 음성에 따라 작동하는 시스템으로 이루어진 기기들의 개발로 이어지고 있다.The technology of speech recognition has led to the development of computers and information communication devices, which make it possible to easily obtain information from a long distance without a human being moving directly and to operate a system that operates according to voice.
이러한 음성 인식 기술을 바탕으로 다양한 음성인식 응용 분야가 개발되고 있으며, 그 중에 하나는 발성과 함께 발성된 언어에 따라 원하는 정보를 안내하는 시스템에 있다.Various speech recognition applications are being developed based on the speech recognition technology, and one of them is in a system for guiding desired information according to the spoken language along with the speech.
이러한, 음성인식 시스템은 발화된 음성에 대한 인식 성능이 100%가 되지 못하기 때문에, 사용자는 오인식의 결과로 인해 불편을 겪을 수 있다.Since the speech recognition system does not have 100% of speech recognition performance, the user may experience inconvenience due to the misunderstanding.
이를 방지하기 위해 발화검증 단계를 두어 인식 신뢰도가 낮은 결과는 출력하지 않음으로써 오인식으로 인한 불편함을 줄인다.In order to prevent this, a speech verification step is provided so that the results of low recognition reliability are not output, thereby reducing inconvenience caused by misperception.
발화검증은, 음성인식시스템에서 인식된 결과의 신뢰도를 측정하여 출력을 허용할지 거부할지를 결정하는 후처리 기술이다. Speech verification is a post-processing technique that determines whether to allow or reject an output by measuring the reliability of the results recognized by the speech recognition system.
즉, 발화검증단계에서는 음성인식 결과의 신뢰도를 평가하여 신뢰도(Confidence)가 임계값(Threshold)보다 낮은 결과에 대해서는 인식결과를 거절하고, 신뢰도가 임계값 보다 높은 인식결과에 대해서는 음성인식 시스템의 출력으로 보내게 되는 것이다.That is, in the speech verification step, the reliability of the speech recognition result is evaluated, and the recognition result is rejected for the result with the confidence lower than the threshold, and the output of the speech recognition system for the recognition result with the confidence higher than the threshold is output. Will be sent to.
현재 가장 널리 사용되는 발화 검증 기술 중의 하나가 LRT(Likelihood Ratio Test)에 기반한 방식이다. One of the most widely used utterance verification techniques is based on the Likelihood Ratio Test (LRT).
LRT 기반의 발화 검증에서는 인식된 단어의 신뢰도 값을 인식된 단어와 그의 반대 개념인 반단어(Anti-word) 간의 우도비(Likelihood ratio)로 정의하고, 이 우도비가 기 설정된 신뢰도 문턱값을 넘어선 경우에는 출력을 허용하고 그렇지 않은 경우에는 거절하는 방식이다. In LRT-based speech verification, the reliability value of a recognized word is defined as the likelihood ratio between the recognized word and its opposite concept, an anti-word, and the likelihood ratio exceeds a predetermined reliability threshold. Allows output, and rejects it otherwise.
기존 LRT에 기반한 방식에서는 이 신뢰도 문턱값이 인식 단어에 무관하게 고정된 값을 사용하였다.In the conventional LRT-based scheme, this confidence threshold is fixed regardless of the recognized word.
그러나, 단어들은 서로 다른 음향학적 특성을 지니는 음소로 구성되어 있으므로, 단어가 어떤 음소로 구성되느냐에 따라 인식 결과의 우도비 혹은 신뢰도가 서로 다른 분포를 가질 수 있다. However, since words are composed of phonemes having different acoustic characteristics, the likelihood ratio or reliability of a recognition result may have different distributions depending on which phonemes are composed of words.
따라서, 단어별 특성을 고려하지 않고 일괄적으로 고정된 신뢰도 문턱값을 사용하는 기존의 방식에서는 인식된 단어에 따라 발화 검증 성능의 편차가 발생할 수가 있다. Therefore, in the conventional method of using a fixed reliability threshold collectively without considering the characteristics of each word, the speech verification performance may vary according to the recognized words.
상기한 문제를 해결하기 위하여, 본 발명은 단어 간 서로 다른 음향학적인 특성을 고려하여 단어별로 서로 다른 신뢰도 문턱값을 정의하도록 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법을 제공함에 그 목적이 있다.In order to solve the above problem, the present invention provides a speech verification apparatus and method based on the reliability threshold for each word to define different reliability thresholds for each word in consideration of the acoustic characteristics of the words between the objects There is this.
상기한 목적을 달성하기 위한 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치는, 음성신호 입력 시 인식된 단어를 분석하여, 상기 단어와 반단어에 대응하는 각각의 음소와 반음소에 대한 음소 세그먼트 정보를 추출하는 음소 세그먼트 정보 추출기, 추출된 상기 음소 및 상기 반음소에 대한 우도값(likelihood)을 계산하고, 상기 우도값으로부터 로그-우도 비율을 계산하는 우도값 계산기, 상기 음소와 상기 반음소의 로그-우도 비율에 따라 상기 인식된 단어에 대응하는 문턱값을 계산하는 문턱값 계산기, 및 상기 문턱값과 상기 우도값 계산기에 의해 산출된 로그-우도 비율을 비교하여, 그 결과에 따라 음성 인식 결과를 출력하거나 차단하는 비교기를 포함하는 것을 특징으로 한다.In order to achieve the above object, a speech verification apparatus based on a reliability threshold for each word according to the present invention analyzes a recognized word when a voice signal is input, for each phoneme and a half phoneme corresponding to the word and the half word. A phoneme segment information extractor for extracting phoneme segment information, a likelihood calculator for calculating a likelihood for the extracted phoneme and the semitone, and calculating a log-likelihood ratio from the likelihood value, the phoneme and the semitone A threshold calculator for calculating a threshold value corresponding to the recognized word according to a small log-likelihood ratio, and comparing the threshold value with a log-likelihood ratio calculated by the likelihood calculator, and performing voice recognition according to the result. It includes a comparator for outputting or blocking the result.
상기 음소와 상기 반음소의 로그-우도 비율에 대한 확률 분포값을 계산하여 각 확률 분포값에 대한 함수로 모델링하는 우도값 분포 계산기를 더 포함하는 것을 특징으로 한다.And a likelihood value distribution calculator for calculating a probability distribution value of the log-likelihood ratio of the phoneme and the half phoneme as a function of each probability distribution value.
상기 우도값 분포 계산기는, 상기 음소와 상기 반음소의 로그-우도 비율에 대한 확률 분포값을 정규분포함수로 정의하는 것을 특징으로 한다.The likelihood value distribution calculator is characterized in that the probability distribution value for the log-likelihood ratio of the phoneme and the semiphoneme is defined as a normal distribution function.
상기 문턱값 계산기는, 상기 음소와 상기 반음소에 대한 각 확률 분포값을 적용하여 상기 문턱값을 계산하는 것을 특징으로 한다.The threshold calculator calculates the threshold value by applying each probability distribution value for the phoneme and the half phoneme.
상기 문턱값 계산기는, 정인식된 단어를 거절할 때 발생하는 오류율과, 오인식된 단어를 허용 시 발생하는 오류율이 같아지는 임의의 수를 문턱값으로 정의하는 것을 특징으로 한다.The threshold calculator is characterized in that a threshold is defined as an arbitrary number at which an error rate generated when rejecting a recognized word is equal to an error rate generated when allowing a mistaken word.
상기 비교기는, 상기 인식된 단어의 로그-우도 비율이 상기 문턱값 보다 큰 경우 상기 음성인식결과의 출력을 허용하고, 그렇지 않은 경우에는 상기 음성인식결과의 출력을 차단하는 것을 특징으로 한다.The comparator allows the output of the speech recognition result when the log-likelihood ratio of the recognized word is greater than the threshold value, and blocks the output of the speech recognition result.
인식 대상 단어에 대해 다양한 사용자가 발성한 음성이 저장되는 음성 DB를 더 포함하는 것을 특징으로 한다.The apparatus may further include a voice DB in which voices spoken by various users of the target word to be recognized are stored.
입력된 음성으로부터 소정의 단어를 인식하는 단어 인식기를 더 포함하며, 상기 단어 인식기는, 상기 음성 DB를 탐색하여 상기 입력된 음성에 대응하는 단어를 추출하는 것을 특징으로 한다.The apparatus further includes a word recognizer that recognizes a predetermined word from the input voice, wherein the word recognizer extracts a word corresponding to the input voice by searching the voice DB.
한편, 상기한 목적을 달성하기 위한 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 방법은, 음성신호 입력 시 인식된 단어를 분석하여, 상기 단어와 상기 단어에 대한 반단어로부터 음소와 반음소에 대한 음소 세그먼트 정보를 추출하는 단계, 추출된 상기 음소 및 상기 반음소에 대한 우도값(likelihood)을 계산하고, 상기 우도값으로부터 로그-우도 비율을 계산하는 단계, 상기 음소와 상기 반음 소의 로그-우도 비율에 따라 상기 인식된 단어에 대응하는 문턱값을 계산하는 단계, 및 상기 문턱값과 상기 우도값 계산기에 의해 산출된 로그-우도 비율을 비교하여, 상기 인식된 단어의 로그-우도 비율이 상기 문턱값 보다 큰 경우 상기 음성인식결과의 출력을 허용하고, 그렇지 않은 경우에는 상기 음성인식결과의 출력을 차단하는 단계를 포함하는 것을 특징으로 한다.On the other hand, the speech verification method based on the reliability threshold value for each word according to the present invention for achieving the above object, by analyzing the recognized words when inputting a voice signal, the phoneme and half phonemes from the words and half words for the words Extracting phoneme segment information for, calculating a likelihood for the extracted phoneme and the half phoneme, calculating a log-likelihood ratio from the likelihood value, and the log of the phoneme and the semitone. Calculating a threshold value corresponding to the recognized word according to a likelihood ratio, and comparing the threshold value with a log-likelihood ratio calculated by the likelihood calculator, wherein the log-likelihood ratio of the recognized word is determined by the ratio. Allowing the output of the voice recognition result if the threshold value is greater than the threshold value; otherwise, outputting the voice recognition result. It is characterized by.
상기 로그-우도 비율을 계산하는 단계에서 계산된 상기 음소와 상기 반음소의 로그-우도 비율에 대한 확률 분포값을 계산하는 단계를 더 포함하는 것을 특징으로 한다.And calculating a probability distribution value for the log-likelihood ratio of the phoneme and the semi-phoneme calculated in the calculating of the log-likelihood ratio.
본 발명에 따르면, 음성인식 결과에 대한 단어 기반의 발화 검증 시스템에서 인식되는 단어별로 서로 다른 신뢰도 문턱값을 적용함으로써 안정적인 발화 검증 성능을 얻는 효과가 있다.According to the present invention, a stable speech verification performance is obtained by applying different reliability thresholds for each word recognized in a word-based speech verification system for speech recognition results.
또한, 본 발명은 은닉 마코프 모델을 사용하는 음성 인식 장치에서 LRT 기반의 발화 검증 시스템의 성능을 향상시키는 이점이 있다.In addition, the present invention has an advantage of improving the performance of the LRT-based speech verification system in a speech recognition apparatus using a hidden Markov model.
본 발명은 은닉 마코프 모델을 사용하는 음성 인식 장치에서 LRT 기반의 발화 검증 시스템의 성능을 향상시키고자 한 것으로, 본 발명에서는 단어의 특성을 고려하여 단어별로 서로 다른 신뢰도 문턱값을 설정하는 장치 및 방법을 제시하고 자 한다.The present invention aims to improve the performance of an LRT-based speech verification system in a speech recognition apparatus using a hidden Markov model. In the present invention, an apparatus and method for setting different reliability thresholds for each word in consideration of a word characteristic I would like to present.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 설명한다.Hereinafter, with reference to the accompanying drawings will be described an embodiment of the present invention.
먼저, 도 1은 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치의 구성을 설명하는데 참조되는 블록도이다.First, FIG. 1 is a block diagram referred to describe the configuration of a speech verification apparatus based on a reliability threshold for each word according to the present invention.
도 1을 참조하면, 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치는 단어 인식기(110), 음성 DB(120), 음소 세그먼트 정보 추출기(130), 음소별 우도값 계산기(140), 반음소별 우도값 계산기(150), 우도값 분포 계산기(160), 및 문턱값 계산기(170)를 포함한다.Referring to FIG. 1, an apparatus for verifying speech based on a reliability threshold for each word according to the present invention includes a
음성 DB(120)에는 인식 대상 단어에 대해 다양한 사용자들이 발성한 음성 데이터가 저장된다.The voice DB 120 stores voice data spoken by various users of the word to be recognized.
단어 인식기(110)는 음성 DB(120)로 부터 해당 단어를 인식한다.The
음소 세그먼트 정보 추출기(130)는 단어 인식기(110)에 의해 인식된 단어인 'W'를 분석하여, 해당 단어 W를 구성하는 음소들에 대한 세그먼트 정보를 추출한다. The phoneme
또한, 음소 세그먼트 정보 추출기(130)는 음성 인식기에 의해 인식된 단어 W 외에, 해당 단어 W의 반대 개념인 반단어(Anti-word) 'A'에 대한 음소 세그먼트 정보를 함께 추출한다. 이때, 반단어 'A'에 대하여 음소 세그먼트 정보 추출기(130)에 의해 추출된 음소는 해당 단어 W로부터 추출된 음소의 반대 개념이므로, 반음소(Anti-phone)라 한다.In addition to the word W recognized by the speech recognizer, the phoneme
음소별 우도값 계산기(140)는 음소 세그먼트 정보 추출기(130)에 의해 추출된 음소들에 대한 우도값(likelihood)을 계산한다.The
여기서, 우도값이라 함은, 어떤 가설 H에 대한 어떤 시행의 결과 E(Evidence)가 주어졌을 때, 만일 주어진 가설 H가 참이라면, 그에 대한 결과 E가 나올 정도는 얼마나 되는지를 나타내는 값이다.Here, the likelihood value is a value indicating how much the result E for a given hypothesis H is true, if E (Evidence) is given as a result of a trial for a hypothesis H.
이때, 음소별 우도값 계산기(140)는 앞서 계산된 음소들에 대한 우도값에 로그를 취한 후 더 하여 단어 W에 대한 로그-우도(Log-Likelihood, LLW) 값을 계산한다.At this time, the likelihood value calculator for each
한편, 반음소별 우도값 계산기(150)는 음소 세그먼트 정보 추출기(130)에 의해 추출된 반음소들에 대한 우도값(likelihood)을 계산하고, 로그를 취하여 반단어 A에 대한 로그-우도(Log-Likelihood, LLA) 값을 계산한다.Meanwhile, the
한편, 기호 '180'에서는 단어 W에 대한 로그-우도와 반단어 A에 대한 로그-우도간의 차이를 구함으로써 단어 W와 반단어 A에 대한 로그-우도비(log-likelihood ratio)를 구하게 된다.In the symbol '180', the log-likelihood ratio for the word W and the halfword A is obtained by obtaining a difference between the log-likelihood for the word W and the log-likelihood for the half word A.
은닉 마코프 모델을 사용하는 음성 인식 장치에서 LRT 기반의 발화 검증 시스템은 입력된 음성 신호에 대해 인식된 결과의 신뢰도를 측정하여 인식 결과의 출 력 여부를 결정한다. 이는, [수학식 1]과 같이 기술된다.In the speech recognition apparatus using the hidden Markov model, the LRT-based speech verification system determines the output of the recognition result by measuring the reliability of the recognized result with respect to the input speech signal. This is described as in [Equation 1].
[수학식 1]에서 WLLR(O;W)는 입력된 음성 신호 O에 대응하는 인식 결과 W에 대한 단어-레벨 로그 우도비(Word-level Log-Likelihood Ratio, WLLR)로, 인식 결과 W와 반 단어간 A간의 로그 우도비(Log-Likelihood Ratio, LLR)가 된다.In Equation 1, WLLR (O; W) is a word-level log-likelihood ratio (WLLR) for the recognition result W corresponding to the input voice signal O, and is half the recognition result W. It is the log-likelihood ratio (LLR) between words between words.
여기서, r은 인식된 결과의 출력을 허용할지 여부를 결정하는 문턱값을 의미한다.Here, r means a threshold value for determining whether to allow the output of the recognized result.
한편, 단어 W를 구성하는 음소열 (ph1, ph2, ..., phN)의 i번째 음소 phi에 대응하는 반음소는 ai가 된다. 이때, 반음소 ai를 phi의 반 음소 모델이라 한다.On the other hand, the half phoneme corresponding to the i-th phoneme ph i of the phoneme strings ph 1 , ph 2 , ..., ph N constituting the word W is a i . At this time, the half phoneme a i is called a half phoneme model of ph i .
우도값 분포 계산기(160)는 parametric 모델을 이용해 fW(x)와 fA(x)를 모델링한다. 이때, 우도값 분포 계산기(160)는 단어 W를 구성하는 음소열 (ph1, ph2, ..., phN) 중 i번째 음소 phi와, 반음소 ai에 대한 로그-우도값을 각각 독립적인 랜덤 변수 Pi와 Ai로 정의한다. 이를 식으로 나타내면 [수학식 2]와 같다.The
이때, Pi와 Ai의 분포는 정규 분포 모양을 가지므로(도 3 참조), 아래의 [수학식 3]과 같이 정규분포 함수로 모델링한다.At this time, since the distribution of P i and A i has a normal distribution shape (see FIG. 3), it is modeled as a normal distribution function as shown in Equation 3 below.
[수학식 3]에서 μ는 평균이며, σ2은 분산이다.In Equation 3, μ is an average, and σ 2 is a variance.
우도값 분포 계산기(160)는 앞서 정의된 [수학식 2] 및 [수학식 3]을 이용하여 단어 W에 대한 로그-우도값에 대한 확률분포함수 fW(x)와, 반단어 A의 로그-우도값에 대한 확률분포함수 fA(x)를 정의한다.The likelihood
단어 W와 반단어 A는 각각 음소 ph1, ph2, ..., phN과 반음소 a1, a2, ..., aN으로 구성되어 있으므로 [수학식 4]와 같이 W와 A를 구성하는 각 음소에 해당하는 랜덤 변수들인 Pi와 Ai의 합으로 표현된다.The word W and halfword A are composed of the phonemes ph 1 , ph 2 , ..., ph N and the half phonemes a 1 , a 2 , ..., a N , respectively. It is expressed as the sum of the random variables P i and A i corresponding to each phoneme constituting.
따라서, 단어 W와 반단어 A의 확률분포함수는 [수학식 5]와 같은 정규분포함수로 정의된다.Therefore, the probability distribution function of the word W and the half word A is defined as a normal distribution function such as [Equation 5].
한편, 문턱값 계산기(170)는 음성인식 결과의 출력을 허용할지, 또는 거부할지를 결정하기 위한 문턱값을 계산한다. 문턱값 계산기(170)에 의해 계산된 문턱값은 음성 인식된 단어와 그의 반단어에 대한 로그-우도값에 따라 달라지게 된다.Meanwhile, the
일반적으로 발화 검증 시스템의 성능을 측정하는 단위로는 ERR(Equal Error Rate)이 사용된다. ERR이란, 정인식된 단어를 거절할 때 발생하는 오류율인 FRR(False Rejection Rate)과, 오인식된 단어를 허용시 발생하는 오류율인 FAR(False Acceptance Rate)이 동일하도록 신뢰도 문턱값을 조정했을 때의 성능을 의미한다.In general, an equal error rate (ERR) is used as a unit for measuring the performance of a speech verification system. ERR is the performance when the reliability threshold is adjusted so that the False Rejection Rate (FRR), which is the error rate that occurs when rejecting a recognized word, and the False Acceptance Rate (FAR), which is the error rate that is generated when accepting a mistaken word, are the same. Means.
만일, 우도값 분포 계산기(160)로부터 단어 W의 로그-우도값에 대한 확률분포함수 fW(x)가 주어지면, 단어 W의 FRRW(r)은 [수학식 6]과 같이 정의할 수 있다.If the probability distribution function f W (x) for the log-likelihood value of the word W is given from the
또한, 우도값 분포 계산기(160)로부터 반단어 A의 로그-우도값에 대한 확률분포함수 fA(x)가 주어지면, 반단어 A의 FARA(r)은 [수학식 7]과 같이 정의할 수 있다.Furthermore, given the probability distribution function f A (x) for the log-likelihood value of half word A from the likelihood
따라서, 단어 W에 대한 FRRW(r)과 반단어 A에 대한 FARA(r)이 같은 오류를 가지는 EER의 경우, 최적의 신뢰도 문턱값은 [수학식 8]을 만족하는 r이 된다.Therefore, in case of an EER in which FRR W (r) for word W and FAR A (r) for half word A have the same error, an optimal reliability threshold is r satisfying [Equation 8].
즉, [수학식 5]의 단어 W와 반단어 A의 확률분포함수 fW(x)와 fA(x)를 [수학식 8]에 적용하면, 다음과 같은 [수학식 9]가 얻어진다.That is, when the probability distribution functions f W (x) and f A (x) of the word W and the half word A of [Equation 5] are applied to [Equation 8], the following [Equation 9] is obtained. .
이때, [수학식 9]를 만족하는 단어 W의 문턱값 r은 [수학식 10]과 같이 정의할 수 있다.At this time, the threshold value r of the word W satisfying [Equation 9] can be defined as shown in [Equation 10].
문턱값 계산기(170)에 의해 출력된 문턱값 r은 비교기(190)로 인가되어, WLLR에 대한 비교값이 된다.The threshold value r output by the
여기서, WLLR은 입력된 음성 신호로부터 인식된 단어 W에 대한 Word-level Log-Likelihood Ratio로, 인식된 단어 W와 반단어 A 간의 로그-우도 비율을 나타낸다.Here, WLLR is a Word-level Log-Likelihood Ratio for the word W recognized from the input speech signal, and represents the log-likelihood ratio between the recognized word W and the halfword A.
이때, 비교기(190)는 WLLR과 문턱값 r을 비교하여 WLLR>r을 만족하면, 음성인식 결과의 출력을 허용하고, 그렇지 않으면 음성인식 결과의 출력을 거절한다.At this time, the
한편, 도 2는 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치에서 음소 및 반음소에 대한 log-likelihood 확률 분포 모델링 과정을 나타낸 것이다.Meanwhile, FIG. 2 illustrates a log-likelihood probability distribution modeling process for phonemes and semitones in a speech verification apparatus based on a word-by-word reliability threshold according to the present invention.
도 2를 참조하면, 단어 인식기(110)는 먼저 음성 DB(120)로 부터 단어를 인식하고(210), 음소 세그먼트 정보 추출기(130)는 단어 인식기(110)에 의해 인식된 음소 세그먼트 정보를 추출한다(220).Referring to FIG. 2, the
이때, 음소별 우도값 계산기(140)는 음소별 로그 우도값을 추출하고(230), 우도값 분포 계산기(160)는 음소별 우도값 계산기(140)에 의해 추출된 음소별 로그 우도값을 이용하여 로그 우도값 분포 모델(Pi)을 생성한다(240).At this time, the likelihood value calculator for each
한편, 반음소별 우도값 계산기(150)는 반음소별 로그 우도값을 추출하고(250), 우도값 분포 계산기(160)는 마찬가지로, 반음소별 우도값 계산기(150)에 의해 추출된 반음소별 로그 우도값을 이용하여 로그 우도값 분포 모델(Ai)을 생성한다(260).On the other hand, the likelihood value calculator for each
이후, 우도 분포값 계산기에 의해 생성된 로드 우도값 분포 모델 Pi, Ai은 음성인식결과의 출력을 결정하는 문턱값을 계산하는데 적용된다.Then, the load likelihood value distribution model Pi, Ai generated by the likelihood distribution value calculator is applied to calculate a threshold value that determines the output of the speech recognition result.
도 3은 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치에서 확률분포함수를 구하는데 적용되는 예를 나타낸 것으로서, 특히 음소 phi와, 반음소 ai에 대한 로그-우도값의 분포도를 나타낸 것이다.Figure 3 shows an example applied to calculate the probability distribution function in the speech verification apparatus based on the reliability threshold for each word according to the present invention, in particular the distribution of log-likelihood values for the phoneme ph i and the half phoneme a i It is shown.
도 3에 도시된 바와 같이, 일반적으로 산출되는 음소 phi와, 반음소 ai에 대한 로그-우도값 Pi와 Ai의 분포는 정규 분포 모양을 가진다.As shown in FIG. 3, the distributions of phonemes ph i and log-likelihood values P i and A i for semitones a i generally have a normal distribution shape.
따라서, 우도값 분포 계산기(160)는 음소 phi와, 반음소 ai에 대한 로그-우도값 Pi와 Ai에 대한 정규분포함수를 정의하고, 문턱값 계산기(170)는 로그-우도값 Pi와 Ai에 대한 정규분포함수를 이용하여 문턱값을 계산한다.Thus, the
상기와 같이 구성되는 본 발명에 따른 본 발명의 동작 흐름을 설명한다.The operational flow of the present invention according to the present invention configured as described above will be described.
도 4는 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 방법에 대한 동작 흐름을 도시한 순서도이다.4 is a flowchart illustrating an operation flow of a speech verification method based on a reliability threshold for each word according to the present invention.
도 4에 도시된 바와 같이, 사용자로부터 음성이 입력되면(S400), 단어 인식기(110)는 단어(W)를 인식한다(S410).As shown in FIG. 4, when a voice is input from the user (S400), the
이후, 음소 세그먼트 정보 추출기(130)는 'S410' 과정에서 인식된 단어 W에 대한 음소 세그먼트 정보를 추출하고(S420), 음소별 우도값 계산기(140)는 단어 W의 각 음소별 로그 유사도 비율(LLRW)을 계산한다(S430).Then, the phoneme
한편, 반음소별 우도값 계산기(150)는 단어 W의 반단어인 A의 각 반음소별 로그 유사도 비율(LLRA)을 계산한다(S440).Meanwhile, the
이후, 우도값 분포 계산기(160)는 'S430' 과정과, 'S440' 과정에서 계산된 각 음소별 로그 유사도 비율(LLRW)과, 각 반음소별 로그 유사도 비율(LLRA)에 대한 확률 분포값 fW(x)와, fA(x)를 각각 계산한다(S450).Then, the likelihood
문턱값 계산기(170)는 'S450' 과정에서 계산된 fW(x)와, fA(x)를 이용하여 문턱값을 계산한다. 문턱값 계산기(170)는 FRRW(r)=FARA(r)을 만족하는 'r' 값을 산출하고(S460), 이때 산출된 r을 문턱값으로 정의한다(S470).The
문턱값 계산기(170)에 의해 문턱값 'r'이 정의되면, 문턱값을 비교기(190)로 전달한다.When the threshold 'r' is defined by the
이때, 비교기(190)는 음소별 우도값 계산기(140)와 반음소별 우도값 계산기(150)에 의해 계산된 단어 W의 로그 유사도 비율(WLLR)과 문턱값 r을 비교하여(S480), 단어 W의 로그 유사도 비율(WLLR)이 r 보다 큰 경우에만 음성 인식 결과에 대한 출력을 허용하도록 한다(S490).In this case, the
만일, 단어 W의 로그 유사도 비율(WLLR)이 r 이하인 경우에는 음성 인식 결과에 대한 출력을 차단하도록 한다(S500).If the log similarity ratio WLLR of the word W is less than or equal to r, the output of the speech recognition result is blocked (S500).
이후, 다른 음성이 입력되면(S510), 앞서 설명한 'S400' 내지 'S500' 과정을 반복하여 수행함으로써 음성 인식 결과에 대한 출력 여부를 확인하도록 한다.Thereafter, when another voice is input (S510), the above-described process of 'S400' to 'S500' is repeated to check whether the voice recognition result is output.
이때, 'S400' 내지 'S500' 과정을 수행하는 동안, 'S460' 과정에서 산출되는 'r' 값은 단어별로 서로 다른 값을 가지게 되므로, 단어별로 서로 다른 신뢰도 문턱값을 적용함으로써 안정적인 발화 검증 성능을 얻을 수 있는 효과를 갖는다.At this time, while performing the 'S400' to 'S500' process, the 'r' value calculated in the 'S460' process has a different value for each word, so stable speech verification performance by applying different reliability thresholds for each word Has the effect of obtaining.
이상에서와 같이 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.As described above, the speech verification apparatus and method based on the reliability threshold for each word according to the present invention are not limited to the configuration and method of the embodiments described above, but various modifications may be made to the embodiments. All or part of each of the embodiments may be configured to be selectively combined to make it possible.
도 1 은 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치의 구성을 설명하는데 참조되는 블록도이다.1 is a block diagram referred to describe the configuration of a speech verification apparatus based on a reliability threshold for each word according to the present invention.
도 2 는 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치에서 음소 및 반음소에 대한 log-likelihood 확률 분포 모델링 과정을 나타낸 것이다.2 illustrates a log-likelihood probability distribution modeling process for phonemes and semitones in the speech verification apparatus based on the reliability threshold for each word according to the present invention.
도 3 은 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치에서 확률분포함수를 구하는데 적용되는 함수를 나타낸 예시도이다.3 is an exemplary diagram illustrating a function applied to obtaining a probability distribution function in a speech verification apparatus based on a reliability threshold for each word according to the present invention.
도 4 는 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 방법에 대한 동작 흐름을 나타내는 순서도이다.4 is a flowchart illustrating an operation flow of a speech verification method based on a reliability threshold for each word according to the present invention.
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090128386A KR101229108B1 (en) | 2009-12-21 | 2009-12-21 | Apparatus for utterance verification based on word specific confidence threshold |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090128386A KR101229108B1 (en) | 2009-12-21 | 2009-12-21 | Apparatus for utterance verification based on word specific confidence threshold |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110071742A true KR20110071742A (en) | 2011-06-29 |
KR101229108B1 KR101229108B1 (en) | 2013-02-01 |
Family
ID=44402775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090128386A KR101229108B1 (en) | 2009-12-21 | 2009-12-21 | Apparatus for utterance verification based on word specific confidence threshold |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101229108B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11557286B2 (en) | 2019-08-05 | 2023-01-17 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101424496B1 (en) * | 2013-07-03 | 2014-08-01 | 에스케이텔레콤 주식회사 | Apparatus for learning Acoustic Model and computer recordable medium storing the method thereof |
KR102623272B1 (en) | 2016-10-12 | 2024-01-11 | 삼성전자주식회사 | Electronic apparatus and Method for controlling electronic apparatus thereof |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3036509B2 (en) | 1998-03-04 | 2000-04-24 | 日本電気株式会社 | Method and apparatus for determining threshold in speaker verification |
KR100449912B1 (en) * | 2002-02-20 | 2004-09-22 | 대한민국 | Apparatus and method for detecting topic in speech recognition system |
KR100819848B1 (en) * | 2005-12-08 | 2008-04-08 | 한국전자통신연구원 | Apparatus and method for speech recognition using automatic update of threshold for utterance verification |
US7890325B2 (en) | 2006-03-16 | 2011-02-15 | Microsoft Corporation | Subword unit posterior probability for measuring confidence |
-
2009
- 2009-12-21 KR KR1020090128386A patent/KR101229108B1/en not_active IP Right Cessation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11557286B2 (en) | 2019-08-05 | 2023-01-17 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
US11955119B2 (en) | 2019-08-05 | 2024-04-09 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
KR101229108B1 (en) | 2013-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107680582B (en) | Acoustic model training method, voice recognition method, device, equipment and medium | |
US8930196B2 (en) | System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands | |
CN112102815B (en) | Speech recognition method, speech recognition device, computer equipment and storage medium | |
US8532991B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
JP4568371B2 (en) | Computerized method and computer program for distinguishing between at least two event classes | |
KR100655491B1 (en) | Two stage utterance verification method and device of speech recognition system | |
US6618702B1 (en) | Method of and device for phone-based speaker recognition | |
US20090119103A1 (en) | Speaker recognition system | |
CN111640456B (en) | Method, device and equipment for detecting overlapping sound | |
CN110853628A (en) | Model training method and device, electronic equipment and storage medium | |
CN115457938A (en) | Method, device, storage medium and electronic device for identifying awakening words | |
CN113327596B (en) | Training method of voice recognition model, voice recognition method and device | |
KR101229108B1 (en) | Apparatus for utterance verification based on word specific confidence threshold | |
CN111640423B (en) | Word boundary estimation method and device and electronic equipment | |
KR101444411B1 (en) | Apparatus and method for automated processing the large speech data based on utterance verification | |
CN115547345A (en) | Voiceprint recognition model training and related recognition method, electronic device and storage medium | |
JP7291099B2 (en) | Speech recognition method and device | |
Lavania et al. | Reviewing Human-Machine Interaction through Speech Recognition approaches and Analyzing an approach for Designing an Efficient System | |
Herbig et al. | Evaluation of two approaches for speaker specific speech recognition | |
KR20020045960A (en) | Method for performance improvement of keyword detection in speech recognition | |
Gunasekara et al. | Real-time translation of discrete sinhala speech to unicode text | |
Herbig et al. | Adaptive systems for unsupervised speaker tracking and speech recognition | |
Fang et al. | New algorithms for improved speaker identification | |
KR100776730B1 (en) | Speaker-independent variable-word keyword spotting system including garbage modeling unit using gaussian mixture model and method thereof | |
Kanrar | i Vector used in Speaker Identification by Dimension Compactness |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20151228 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20161228 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |