KR101229108B1

KR101229108B1 - 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법

Info

Publication number: KR101229108B1
Application number: KR1020090128386A
Authority: KR
Inventors: 정훈; 이윤근; 박전규; 강점자; 이성주; 박기영; 전형배; 김종진; 왕지현; 정의석; 강병옥; 정호영; 박상규
Original assignee: 한국전자통신연구원
Priority date: 2009-12-21
Filing date: 2009-12-21
Publication date: 2013-02-01
Also published as: KR20110071742A

Abstract

본 발명은 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법에 관한 것으로, 음성신호 입력 시 인식된 단어를 분석하여, 상기 단어와 상기 단어에 대한 반음소를 갖는 반단어로부터 해당 단어의 음소와 반음소에 대한 음소 세그먼트 정보를 추출하는 음소 세그먼트 정보 추출기, 추출된 상기 음소 및 상기 반음소에 대한 우도값(likelihood)을 계산하고, 상기 우도값으로부터 로그-우도 비율을 계산하는 우도값 계산기, 상기 음소와 상기 반음소의 로그-우도 비율에 따라 상기 인식된 단어에 대응하는 문턱값을 계산하는 문턱값 계산기, 및 상기 문턱값과 상기 우도값 계산기에 의해 산출된 로그-우도 비율을 비교하여, 그 결과에 따라 음성 인식 결과를 출력하거나 차단하는 비교기를 포함한다. 본 발명에 따르면, 음성인식 결과에 대한 단어 기반의 발화 검증 시스템에서 인식되는 단어별로 서로 다른 신뢰도 문턱값을 적용함으로써 안정적인 발화 검증 성능을 얻는 효과가 있다.

Description

단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법{Apparatus for utterance verification based on word specific confidence threshold}

본 발명은 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법에 관한 것으로, 특히 단어의 특성을 고려하여 단어별로 서로 다른 신뢰도 문턱값을 설정하여 발화 검증을 수행하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법에 관한 것이다.

본 발명은 지식경제부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-04, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].

음성인식이란 기계로 하여금 인간의 일상적인 음성을 이해하고 이해된 음성에 따라 업무를 수행하는 것을 말한다.

음성인식(Speech recognition)의 기술은 컴퓨터와 정보통신의 발달로 인간이 직접 움직이지 않고 원거리에서도 정보를 손쉽게 얻을 수 있으며, 음성에 따라 작동하는 시스템으로 이루어진 기기들의 개발로 이어지고 있다.

이러한 음성 인식 기술을 바탕으로 다양한 음성인식 응용 분야가 개발되고 있으며, 그 중에 하나는 발성과 함께 발성된 언어에 따라 원하는 정보를 안내하는 시스템에 있다.

이러한, 음성인식 시스템은 발화된 음성에 대한 인식 성능이 100%가 되지 못하기 때문에, 사용자는 오인식의 결과로 인해 불편을 겪을 수 있다.

이를 방지하기 위해 발화검증 단계를 두어 인식 신뢰도가 낮은 결과는 출력하지 않음으로써 오인식으로 인한 불편함을 줄인다.

발화검증은, 음성인식시스템에서 인식된 결과의 신뢰도를 측정하여 출력을 허용할지 거부할지를 결정하는 후처리 기술이다.

즉, 발화검증단계에서는 음성인식 결과의 신뢰도를 평가하여 신뢰도(Confidence)가 임계값(Threshold)보다 낮은 결과에 대해서는 인식결과를 거절하고, 신뢰도가 임계값 보다 높은 인식결과에 대해서는 음성인식 시스템의 출력으로 보내게 되는 것이다.

현재 가장 널리 사용되는 발화 검증 기술 중의 하나가 LRT(Likelihood Ratio Test)에 기반한 방식이다.

LRT 기반의 발화 검증에서는 인식된 단어의 신뢰도 값을 인식된 단어와 그의 반대 개념인 반단어(Anti-word) 간의 우도비(Likelihood ratio)로 정의하고, 이 우도비가 기 설정된 신뢰도 문턱값을 넘어선 경우에는 출력을 허용하고 그렇지 않은 경우에는 거절하는 방식이다.

기존 LRT에 기반한 방식에서는 이 신뢰도 문턱값이 인식 단어에 무관하게 고정된 값을 사용하였다.

그러나, 단어들은 서로 다른 음향학적 특성을 지니는 음소로 구성되어 있으므로, 단어가 어떤 음소로 구성되느냐에 따라 인식 결과의 우도비 혹은 신뢰도가 서로 다른 분포를 가질 수 있다.

따라서, 단어별 특성을 고려하지 않고 일괄적으로 고정된 신뢰도 문턱값을 사용하는 기존의 방식에서는 인식된 단어에 따라 발화 검증 성능의 편차가 발생할 수가 있다.

상기한 문제를 해결하기 위하여, 본 발명은 단어 간 서로 다른 음향학적인 특성을 고려하여 단어별로 서로 다른 신뢰도 문턱값을 정의하도록 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법을 제공함에 그 목적이 있다.

상기한 목적을 달성하기 위한 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치는, 음성신호 입력 시 인식된 단어를 분석하여, 상기 단어와 반단어에 대응하는 각각의 음소와 반음소에 대한 음소 세그먼트 정보를 추출하는 음소 세그먼트 정보 추출기, 추출된 상기 음소 및 상기 반음소에 대한 우도값(likelihood)을 계산하고, 상기 우도값으로부터 로그-우도 비율을 계산하는 우도값 계산기, 상기 음소와 상기 반음소의 로그-우도 비율에 따라 상기 인식된 단어에 대응하는 문턱값을 계산하는 문턱값 계산기, 및 상기 문턱값과 상기 우도값 계산기에 의해 산출된 로그-우도 비율을 비교하여, 그 결과에 따라 음성 인식 결과를 출력하거나 차단하는 비교기를 포함하는 것을 특징으로 한다.

상기 음소와 상기 반음소의 로그-우도 비율에 대한 확률 분포값을 계산하여 각 확률 분포값에 대한 함수로 모델링하는 우도값 분포 계산기를 더 포함하는 것을 특징으로 한다.

상기 우도값 분포 계산기는, 상기 음소와 상기 반음소의 로그-우도 비율에 대한 확률 분포값을 정규분포함수로 정의하는 것을 특징으로 한다.

상기 문턱값 계산기는, 상기 음소와 상기 반음소에 대한 각 확률 분포값을 적용하여 상기 문턱값을 계산하는 것을 특징으로 한다.

상기 문턱값 계산기는, 정인식된 단어를 거절할 때 발생하는 오류율과, 오인식된 단어를 허용 시 발생하는 오류율이 같아지는 임의의 수를 문턱값으로 정의하는 것을 특징으로 한다.

상기 비교기는, 상기 인식된 단어의 로그-우도 비율이 상기 문턱값 보다 큰 경우 상기 음성인식결과의 출력을 허용하고, 그렇지 않은 경우에는 상기 음성인식결과의 출력을 차단하는 것을 특징으로 한다.

인식 대상 단어에 대해 다양한 사용자가 발성한 음성이 저장되는 음성 DB를 더 포함하는 것을 특징으로 한다.

입력된 음성으로부터 소정의 단어를 인식하는 단어 인식기를 더 포함하며, 상기 단어 인식기는, 상기 음성 DB를 탐색하여 상기 입력된 음성에 대응하는 단어를 추출하는 것을 특징으로 한다.

한편, 상기한 목적을 달성하기 위한 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 방법은, 음성신호 입력 시 인식된 단어를 분석하여, 상기 단어와 상기 단어에 대한 반단어로부터 음소와 반음소에 대한 음소 세그먼트 정보를 추출하는 단계, 추출된 상기 음소 및 상기 반음소에 대한 우도값(likelihood)을 계산하고, 상기 우도값으로부터 로그-우도 비율을 계산하는 단계, 상기 음소와 상기 반음 소의 로그-우도 비율에 따라 상기 인식된 단어에 대응하는 문턱값을 계산하는 단계, 및 상기 문턱값과 상기 우도값 계산기에 의해 산출된 로그-우도 비율을 비교하여, 상기 인식된 단어의 로그-우도 비율이 상기 문턱값 보다 큰 경우 상기 음성인식결과의 출력을 허용하고, 그렇지 않은 경우에는 상기 음성인식결과의 출력을 차단하는 단계를 포함하는 것을 특징으로 한다.

상기 로그-우도 비율을 계산하는 단계에서 계산된 상기 음소와 상기 반음소의 로그-우도 비율에 대한 확률 분포값을 계산하는 단계를 더 포함하는 것을 특징으로 한다.

본 발명에 따르면, 음성인식 결과에 대한 단어 기반의 발화 검증 시스템에서 인식되는 단어별로 서로 다른 신뢰도 문턱값을 적용함으로써 안정적인 발화 검증 성능을 얻는 효과가 있다.

또한, 본 발명은 은닉 마코프 모델을 사용하는 음성 인식 장치에서 LRT 기반의 발화 검증 시스템의 성능을 향상시키는 이점이 있다.

본 발명은 은닉 마코프 모델을 사용하는 음성 인식 장치에서 LRT 기반의 발화 검증 시스템의 성능을 향상시키고자 한 것으로, 본 발명에서는 단어의 특성을 고려하여 단어별로 서로 다른 신뢰도 문턱값을 설정하는 장치 및 방법을 제시하고 자 한다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 설명한다.

먼저, 도 1은 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치의 구성을 설명하는데 참조되는 블록도이다.

도 1을 참조하면, 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치는 단어 인식기(110), 음성 DB(120), 음소 세그먼트 정보 추출기(130), 음소별 우도값 계산기(140), 반음소별 우도값 계산기(150), 우도값 분포 계산기(160), 및 문턱값 계산기(170)를 포함한다.

음성 DB(120)에는 인식 대상 단어에 대해 다양한 사용자들이 발성한 음성 데이터가 저장된다.

단어 인식기(110)는 음성 DB(120)로 부터 해당 단어를 인식한다.

음소 세그먼트 정보 추출기(130)는 단어 인식기(110)에 의해 인식된 단어인 'W'를 분석하여, 해당 단어 W를 구성하는 음소들에 대한 세그먼트 정보를 추출한다.

또한, 음소 세그먼트 정보 추출기(130)는 음성 인식기에 의해 인식된 단어 W 외에, 해당 단어 W의 반대 개념인 반단어(Anti-word) 'A'에 대한 음소 세그먼트 정보를 함께 추출한다. 이때, 반단어 'A'에 대하여 음소 세그먼트 정보 추출기(130)에 의해 추출된 음소는 해당 단어 W로부터 추출된 음소의 반대 개념이므로, 반음소(Anti-phone)라 한다.

음소별 우도값 계산기(140)는 음소 세그먼트 정보 추출기(130)에 의해 추출된 음소들에 대한 우도값(likelihood)을 계산한다.

여기서, 우도값이라 함은, 어떤 가설 H에 대한 어떤 시행의 결과 E(Evidence)가 주어졌을 때, 만일 주어진 가설 H가 참이라면, 그에 대한 결과 E가 나올 정도는 얼마나 되는지를 나타내는 값이다.

이때, 음소별 우도값 계산기(140)는 앞서 계산된 음소들에 대한 우도값에 로그를 취한 후 더 하여 단어 W에 대한 로그-우도(Log-Likelihood, LL_W) 값을 계산한다.

한편, 반음소별 우도값 계산기(150)는 음소 세그먼트 정보 추출기(130)에 의해 추출된 반음소들에 대한 우도값(likelihood)을 계산하고, 로그를 취하여 반단어 A에 대한 로그-우도(Log-Likelihood, LL_A) 값을 계산한다.

한편, 기호 '180'에서는 단어 W에 대한 로그-우도와 반단어 A에 대한 로그-우도간의 차이를 구함으로써 단어 W와 반단어 A에 대한 로그-우도비(log-likelihood ratio)를 구하게 된다.

은닉 마코프 모델을 사용하는 음성 인식 장치에서 LRT 기반의 발화 검증 시스템은 입력된 음성 신호에 대해 인식된 결과의 신뢰도를 측정하여 인식 결과의 출 력 여부를 결정한다. 이는, [수학식 1]과 같이 기술된다.

[수학식 1]에서 WLLR(O;W)는 입력된 음성 신호 O에 대응하는 인식 결과 W에 대한 단어-레벨 로그 우도비(Word-level Log-Likelihood Ratio, WLLR)로, 인식 결과 W와 반 단어간 A간의 로그 우도비(Log-Likelihood Ratio, LLR)가 된다.

여기서, r은 인식된 결과의 출력을 허용할지 여부를 결정하는 문턱값을 의미한다.

한편, 단어 W를 구성하는 음소열 (ph₁, ph₂, ..., ph_N)의 i번째 음소 ph_i에 대응하는 반음소는 a_i가 된다. 이때, 반음소 a_i를 ph_i의 반 음소 모델이라 한다.

우도값 분포 계산기(160)는 parametric 모델을 이용해 f_W(x)와 f_A(x)를 모델링한다. 이때, 우도값 분포 계산기(160)는 단어 W를 구성하는 음소열 (ph₁, ph₂, ..., ph_N) 중 i번째 음소 ph_i와, 반음소 a_i에 대한 로그-우도값을 각각 독립적인 랜덤 변수 P_i와 A_i로 정의한다. 이를 식으로 나타내면 [수학식 2]와 같다.

이때, P_i와 A_i의 분포는 정규 분포 모양을 가지므로(도 3 참조), 아래의 [수학식 3]과 같이 정규분포 함수로 모델링한다.

[수학식 3]에서 μ는 평균이며, σ²은 분산이다.

우도값 분포 계산기(160)는 앞서 정의된 [수학식 2] 및 [수학식 3]을 이용하여 단어 W에 대한 로그-우도값에 대한 확률분포함수 f_W(x)와, 반단어 A의 로그-우도값에 대한 확률분포함수 f_A(x)를 정의한다.

단어 W와 반단어 A는 각각 음소 ph₁, ph₂, ..., ph_N과 반음소 a₁, a₂, ..., a_N으로 구성되어 있으므로 [수학식 4]와 같이 W와 A를 구성하는 각 음소에 해당하는 랜덤 변수들인 P_i와 A_i의 합으로 표현된다.

따라서, 단어 W와 반단어 A의 확률분포함수는 [수학식 5]와 같은 정규분포함수로 정의된다.

한편, 문턱값 계산기(170)는 음성인식 결과의 출력을 허용할지, 또는 거부할지를 결정하기 위한 문턱값을 계산한다. 문턱값 계산기(170)에 의해 계산된 문턱값은 음성 인식된 단어와 그의 반단어에 대한 로그-우도값에 따라 달라지게 된다.

일반적으로 발화 검증 시스템의 성능을 측정하는 단위로는 ERR(Equal Error Rate)이 사용된다. ERR이란, 정인식된 단어를 거절할 때 발생하는 오류율인 FRR(False Rejection Rate)과, 오인식된 단어를 허용시 발생하는 오류율인 FAR(False Acceptance Rate)이 동일하도록 신뢰도 문턱값을 조정했을 때의 성능을 의미한다.

만일, 우도값 분포 계산기(160)로부터 단어 W의 로그-우도값에 대한 확률분포함수 f_W(x)가 주어지면, 단어 W의 FRR_W(r)은 [수학식 6]과 같이 정의할 수 있다.

또한, 우도값 분포 계산기(160)로부터 반단어 A의 로그-우도값에 대한 확률분포함수 f_A(x)가 주어지면, 반단어 A의 FAR_A(r)은 [수학식 7]과 같이 정의할 수 있다.

따라서, 단어 W에 대한 FRR_W(r)과 반단어 A에 대한 FAR_A(r)이 같은 오류를 가지는 EER의 경우, 최적의 신뢰도 문턱값은 [수학식 8]을 만족하는 r이 된다.

즉, [수학식 5]의 단어 W와 반단어 A의 확률분포함수 f_W(x)와 f_A(x)를 [수학식 8]에 적용하면, 다음과 같은 [수학식 9]가 얻어진다.

이때, [수학식 9]를 만족하는 단어 W의 문턱값 r은 [수학식 10]과 같이 정의할 수 있다.

문턱값 계산기(170)에 의해 출력된 문턱값 r은 비교기(190)로 인가되어, WLLR에 대한 비교값이 된다.

여기서, WLLR은 입력된 음성 신호로부터 인식된 단어 W에 대한 Word-level Log-Likelihood Ratio로, 인식된 단어 W와 반단어 A 간의 로그-우도 비율을 나타낸다.

이때, 비교기(190)는 WLLR과 문턱값 r을 비교하여 WLLR>r을 만족하면, 음성인식 결과의 출력을 허용하고, 그렇지 않으면 음성인식 결과의 출력을 거절한다.

한편, 도 2는 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치에서 음소 및 반음소에 대한 log-likelihood 확률 분포 모델링 과정을 나타낸 것이다.

도 2를 참조하면, 단어 인식기(110)는 먼저 음성 DB(120)로 부터 단어를 인식하고(210), 음소 세그먼트 정보 추출기(130)는 단어 인식기(110)에 의해 인식된 음소 세그먼트 정보를 추출한다(220).

이때, 음소별 우도값 계산기(140)는 음소별 로그 우도값을 추출하고(230), 우도값 분포 계산기(160)는 음소별 우도값 계산기(140)에 의해 추출된 음소별 로그 우도값을 이용하여 로그 우도값 분포 모델(Pi)을 생성한다(240).

한편, 반음소별 우도값 계산기(150)는 반음소별 로그 우도값을 추출하고(250), 우도값 분포 계산기(160)는 마찬가지로, 반음소별 우도값 계산기(150)에 의해 추출된 반음소별 로그 우도값을 이용하여 로그 우도값 분포 모델(Ai)을 생성한다(260).

이후, 우도 분포값 계산기에 의해 생성된 로드 우도값 분포 모델 Pi, Ai은 음성인식결과의 출력을 결정하는 문턱값을 계산하는데 적용된다.

도 3은 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치에서 확률분포함수를 구하는데 적용되는 예를 나타낸 것으로서, 특히 음소 ph_i와, 반음소 a_i에 대한 로그-우도값의 분포도를 나타낸 것이다.

도 3에 도시된 바와 같이, 일반적으로 산출되는 음소 ph_i와, 반음소 a_i에 대한 로그-우도값 P_i와 A_i의 분포는 정규 분포 모양을 가진다.

따라서, 우도값 분포 계산기(160)는 음소 ph_i와, 반음소 a_i에 대한 로그-우도값 P_i와 A_i에 대한 정규분포함수를 정의하고, 문턱값 계산기(170)는 로그-우도값 P_i와 A_i에 대한 정규분포함수를 이용하여 문턱값을 계산한다.

상기와 같이 구성되는 본 발명에 따른 본 발명의 동작 흐름을 설명한다.

도 4는 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 방법에 대한 동작 흐름을 도시한 순서도이다.

도 4에 도시된 바와 같이, 사용자로부터 음성이 입력되면(S400), 단어 인식기(110)는 단어(W)를 인식한다(S410).

이후, 음소 세그먼트 정보 추출기(130)는 'S410' 과정에서 인식된 단어 W에 대한 음소 세그먼트 정보를 추출하고(S420), 음소별 우도값 계산기(140)는 단어 W의 각 음소별 로그 유사도 비율(LLR_W)을 계산한다(S430).

한편, 반음소별 우도값 계산기(150)는 단어 W의 반단어인 A의 각 반음소별 로그 유사도 비율(LLR_A)을 계산한다(S440).

이후, 우도값 분포 계산기(160)는 'S430' 과정과, 'S440' 과정에서 계산된 각 음소별 로그 유사도 비율(LLR_W)과, 각 반음소별 로그 유사도 비율(LLR_A)에 대한 확률 분포값 f_W(x)와, f_A(x)를 각각 계산한다(S450).

문턱값 계산기(170)는 'S450' 과정에서 계산된 f_W(x)와, f_A(x)를 이용하여 문턱값을 계산한다. 문턱값 계산기(170)는 FRR_W(r)=FAR_A(r)을 만족하는 'r' 값을 산출하고(S460), 이때 산출된 r을 문턱값으로 정의한다(S470).

문턱값 계산기(170)에 의해 문턱값 'r'이 정의되면, 문턱값을 비교기(190)로 전달한다.

이때, 비교기(190)는 음소별 우도값 계산기(140)와 반음소별 우도값 계산기(150)에 의해 계산된 단어 W의 로그 유사도 비율(WLLR)과 문턱값 r을 비교하여(S480), 단어 W의 로그 유사도 비율(WLLR)이 r 보다 큰 경우에만 음성 인식 결과에 대한 출력을 허용하도록 한다(S490).

만일, 단어 W의 로그 유사도 비율(WLLR)이 r 이하인 경우에는 음성 인식 결과에 대한 출력을 차단하도록 한다(S500).

이후, 다른 음성이 입력되면(S510), 앞서 설명한 'S400' 내지 'S500' 과정을 반복하여 수행함으로써 음성 인식 결과에 대한 출력 여부를 확인하도록 한다.

이때, 'S400' 내지 'S500' 과정을 수행하는 동안, 'S460' 과정에서 산출되는 'r' 값은 단어별로 서로 다른 값을 가지게 되므로, 단어별로 서로 다른 신뢰도 문턱값을 적용함으로써 안정적인 발화 검증 성능을 얻을 수 있는 효과를 갖는다.

이상에서와 같이 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

도 1 은 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치의 구성을 설명하는데 참조되는 블록도이다.

도 2 는 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치에서 음소 및 반음소에 대한 log-likelihood 확률 분포 모델링 과정을 나타낸 것이다.

도 3 은 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치에서 확률분포함수를 구하는데 적용되는 함수를 나타낸 예시도이다.

도 4 는 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 방법에 대한 동작 흐름을 나타내는 순서도이다.

Claims

음성신호 입력 시 인식된 단어를 분석하여, 상기 단어와 반단어에 대응하는 각각의 음소와 반음소에 대한 음소 세그먼트 정보를 추출하는 음소 세그먼트 정보 추출기;

추출된 상기 음소 및 상기 반음소에 대한 우도값(likelihood)을 계산하고, 상기 우도값으로부터 로그-우도 비율을 계산하는 우도값 계산기;

상기 음소와 상기 반음소의 로그-우도 비율에 따라 상기 인식된 단어에 대응하는 문턱값을 계산하는 문턱값 계산기; 및

상기 문턱값과 상기 우도값 계산기에 의해 산출된 로그-우도 비율을 비교하여, 그 결과에 따라 음성 인식 결과를 출력하거나 차단하는 비교기;를 포함하고,

상기 문턱값 계산기는,

정인식된 단어를 거절할 때 발생하는 오류율과, 오인식된 단어를 허용시 발생하는 오류율이 같아지는 임의의 수를 문턱값으로 정의하는 것을 특징으로 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치.
청구항 1에 있어서,

상기 음소와 상기 반음소의 로그-우도 비율에 대한 확률 분포값을 계산하여 각 확률 분포값에 대한 함수로 모델링하는 우도값 분포 계산기;를 더 포함하는 것을 특징으로 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치.
청구항 2에 있어서,

상기 우도값 분포 계산기는,

상기 음소와 상기 반음소의 로그-우도 비율에 대한 확률 분포값을 정규분포함수로 정의하는 것을 특징으로 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치.
청구항 2에 있어서,

상기 문턱값 계산기는,

상기 음소와 상기 반음소에 대한 각 확률 분포값을 적용하여 상기 문턱값을 계산하는 것을 특징으로 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치.
삭제
청구항 1에 있어서,

상기 비교기는,

상기 인식된 단어의 로그-우도 비율이 상기 문턱값 보다 큰 경우 상기 음성인식결과의 출력을 허용하고, 그렇지 않은 경우에는 상기 음성인식결과의 출력을 차단하는 것을 특징으로 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치.
청구항 1에 있어서,

특정 음성과 그에 대응하는 단어가 서로 매칭되어 저장되는 음성 DB;를 더 포함하는 것을 특징으로 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치.
청구항 7에 있어서,

입력된 음성으로부터 소정의 단어를 인식하는 단어 인식기;를 더 포함하며,

상기 단어 인식기는, 상기 음성 DB를 탐색하여 상기 입력된 음성에 대응하는 단어를 추출하는 것을 특징으로 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치.
음성신호 입력 시 인식된 단어를 분석하여, 상기 단어와 상기 단어에 대한 반음소를 갖는 반단어로부터 해당 단어의 음소와 반음소에 대한 음소 세그먼트 정보를 추출하는 단계;

추출된 상기 음소 및 상기 반음소에 대한 우도값(likelihood)을 계산하고, 상기 우도값으로부터 로그-우도 비율을 계산하는 단계;

상기 음소와 상기 반음소의 로그-우도 비율에 따라 상기 인식된 단어에 대응하는 문턱값을 계산하는 단계; 및

상기 문턱값과 상기 로그-우도 비율을 비교하여, 상기 인식된 단어의 로그-우도 비율이 상기 문턱값 보다 큰 경우 상기 인식된 단어의 출력을 허용하고, 그렇지 않은 경우에는 상기 인식된 단어의 출력을 차단하는 단계;를 포함하고,

상기 문턱값은 정인식된 단어를 거절할 때 발생하는 오류율과, 오인식된 단어를 허용시 발생하는 오류율이 같아지는 임의의 수로 정의하는 것을 특징으로 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 방법.
청구항 9에 있어서,

상기 로그-우도 비율을 계산하는 단계에서 계산된 상기 음소와 상기 반음소의 로그-우도 비율에 대한 확률 분포값을 계산하는 단계;를 더 포함하는 것을 특징으로 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 방법.