KR100930587B1

KR100930587B1 - 혼동 행렬 기반 발화 검증 방법 및 장치

Info

Publication number: KR100930587B1
Application number: KR1020070122185A
Authority: KR
Inventors: 강점자; 이윤근; 강병옥; 김갑기; 이성주; 전형배; 정호영; 조훈영; 박전규; 정훈
Original assignee: 한국전자통신연구원
Priority date: 2007-11-28
Filing date: 2007-11-28
Publication date: 2009-12-09
Also published as: KR20090055320A

Abstract

본 발명은 음성 인식 결과에 대한 오인식 가능성 여부를 검증하기 위한 발화 검증 방법 및 장치에 관한 것으로 혼동 행렬의 확률 값을 신뢰도 계산에 이용함으로써 변별력 높은 음소를 선택하여 발화 검증의 성능을 향상시키기 위한 방법 및 장치를 제공한다. 이를 위하여, 본 발명에 따른 혼동 행렬 기반 발화 검증 방법은, 문맥 종속 음소 모델을 사용하여 비터비 디코딩을 수행함으로써 입력된 음성을 인식하는 단계; 상기 음성 인식 결과인 음성 인식된 문자열에 포함된 각 음소와 미리 훈련된 문맥 독립 음소 모델에 포함된 각 음소의 우도 값을 계산하는 단계; 상기 계산된 각 음소의 우도 값 및 미리 계산된 혼동 행렬의 확률 값을 기반으로 상기 음성 인식된 문자열에 대한 신뢰도를 측정하는 단계; 및 상기 측정된 신뢰도를 기반으로 상기 음성 인식된 문자열의 수락 및 거절 여부를 결정하는 단계를 포함함으로써, 발화 검증의 성능을 향상시킬 수 있는 이점이 있다.

발화 검증, 혼동 행렬, 우도 값

Description

혼동 행렬 기반 발화 검증 방법 및 장치{THE METHOD AND APPARATUS FOR VERIFYING UTTERANCE BASED ON CONFUSION MATRIX}

본 발명은 음성 인식 기술에 속하는 것으로, 특히 음성 인식 결과에 대한 오인식 가능성 여부를 검증하기 위한 발화 검증 방법 및 장치에 관한 것이다.

본 발명은 정보통신부 및 정보통신연구진흥원의 IT원천기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-02, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].

종래 음성 인식 시스템은 사용자로부터 소정의 음성이 입력되면 인식 대상 어휘들 중 그 음성 특성이 가장 유사한 데이터를 찾아 음성 인식 결과로 결정한다. 이로 인해 인식 대상 어휘로 등록되어 있더라도 사용자로부터 입력된 음성과 특성 차이가 매우 적어 구분이 어려운 경우 잘못 인식되기도 하고, 또한 등록이 되어 있지 않은 데이터에 해당하는 음성이 입력되더라도 가장 유사한 데이터를 선택하여 음성 인식 결과로 결정함으로써 오류를 범하는 경우가 많다. 따라서, 음성 인식된 결과를 받아들일 것인지 거절할 것인지를 결정하는 발화 검증 기능이 요구된다.

발화 검증이란 음성 인식된 어떤 결과에 대해 그 인식 결과를 수락할 것인지 또는 거절할 것인지를 어떤 신뢰도 값을 사용하여 결정하는 것을 말한다. 여기서, 신뢰도 측정은 일반적으로 통계적인 가설을 검증하는 관점에서 이루어진다.

통계적 가설 검증에서는 주어진 관측치 Ｏ가 잘못 인식되었다는 대립 가설(alternative hypothesis) H₁에 대하여 관측치 Ｏ가 올바르게 인식되었다는 귀무 가설(또는 영가설, null hypothesis) H₀을 검증한다. 즉, 발화 검증 과정은 영 가설에 대한 확률과 대립 가설에 대한 확률을 비교하여 영 가설에 대한 확률이 대립 가설에 대한 확률보다 크면 이를 수락하고 작으면 거절하는 것이다.

이를 수학식으로 표현하면 <수학식 1> 과 같다.

<수학식 1>을 베이즈의 정리(Bayes' theorem)를 이용하여 다시 정의하면 <수학식 2> 및 <수학식 3> 과 같다.

<수학식 2> 및 <수학식 3>에서

는 은닉 마르코프 모델(Hidden Markov Model : HMM) λ에서 Ｏ가 관측될 확률이고,

는 λ이외의 모델

에서 Ｏ가 관측될 확률이다. 일반적으로, H₁을 모델링하기 위해서는 필러 모델(filler model) 및 반 모델(anti model) 등을 사용할 수 있고, 이와 같은 필러 모델 또는 반 모델을

로 표현한다. 본 특허에서 H₁을 모델링하기 위해 모든 문맥 독립 음소로 구성된 모노 폰 모델을 사용하며,

로 표현한다.

<수학식 2> 및 <수학식 3> 을 이용하여 λ에서 관측치 Ｏ에 대한 신뢰도를 구하기 위한 식을 정리하면 <수학식 4>와 같다.

<수학식 4>에서 볼 수 있듯이 음성 인식된 결과에 대하여 로그 유사도(Log Likelihood Ratio : LLR) 기반으로 구하여진 신뢰도를 발화 검증의 기준으로 사용하기 때문에

로 사용할 모델의 변별력에 따라 발화 검증의 성능이 좌우된다.

한편, 종래 발화 검증에 이용되는

로 사용하는 반 모델은 문맥 독립 음소 모델을 사용하여 자기 자신을 제외한 모든 모델의 집합으로 구성된 반 모델을 사용하거나, 음성 인식 실험을 통하여 유사 음소 집합을 정의하여 반 모델을 사용한다.

그러나, 상기와 같은 종래 기술을 이용하는 경우, 음성 인식된 음소가 다른 음소로 인식될 혼동 가능성을 지니고 있는지에 대한 정보가 없이 모두 일률적으로 적용되기 때문에 변별력이 떨어질 뿐만 아니라, 반 모델이 여러 음소로 구성되어 있기 때문에 실제로 어떤 음소와 유사도가 높은지 판단하기 어려워 발화 검증이 제대로 이루어지지 않는 단점이 있다. 또한, 상기와 같은 방법을 이용하여 반 모델을 구성하는 경우 발화 검증을 위한 메모리 요구량이 높아지는 단점이 있다.

따라서, 본 발명의 목적은, 혼동 행렬의 확률 값을 모노 폰 모델의 우도 값에 대한 가중치로 이용함으로써 변별력 높은 음소 모델을 선택하여 발화 검증의 성능을 향상시키기 위한 방법 및 장치를 제공하는 데 있다.

또한, 본 발명의 목적은, 혼동 행렬의 확률 값을 이용하여 현재 음소와 가장 유사한 음소를 모노 폰 모델로부터 선택함으로써 발화 검증에 필요한 메모리 요구량을 감소시키기 위한 방법 및 장치를 제공하는 데 있다.

또한, 본 발명의 다른 목적은, 하기의 설명 및 본 발명의 일실시 예에 의하여 파악될 수 있다.

이를 위하여, 본 발명에 따른 혼동 행렬 기반 발화 검증 방법은, 문맥 종속 음소 모델을 사용하여 비터비 디코딩을 수행함으로써 입력된 음성을 인식하는 단계; 상기 음성 인식 결과인 음성 인식된 문자열에 포함된 각 음소와 미리 훈련된 문맥 독립 음소 모델에 포함된 각 음소의 우도 값을 계산하는 단계; 상기 계산된 각 음소의 우도 값 및 미리 계산된 혼동 행렬의 확률 값을 기반으로 상기 음성 인식된 문자열에 대한 신뢰도를 측정하는 단계; 및 상기 측정된 신뢰도를 기반으로 상기 음성 인식된 문자열의 수락 및 거절 여부를 결정하는 단계를 포함한다.

또한, 이를 위하여 본 발명에 따른 혼동 행렬 기반 발화 검증 장치는, 문맥 종속 음소 모델을 사용하여 비터비 디코딩을 수행함으로써 입력된 음성을 인식하는 음성 인식부; 상기 음성 인식부로부터 출력되는 음성 인식된 문자열에 대한 음소열 정보 및 문맥 독립 음소 모델을 기반으로 각 음소의 우도 값을 계산하고, 상기 계산된 각 음소의 우도 값 및 미리 계산된 혼동 행렬의 확률 값을 기반으로 상기 음성 인식된 문자열에 대한 신뢰도를 측정하는 신뢰도 측정부; 및 상기 측정된 신뢰도를 기반으로 상기 음성 인식된 문자열의 수락 및 거절 여부를 결정하는 판단부를 포함한다.

상술한 바와 같이, 본 발명은, 혼동 행렬의 확률 값을 모노 폰 모델의 우도 값에 대한 가중치로 이용함으로써 변별력 높은 음소를 선택하여 발화 검증의 성능을 향상시킬 수 있는 이점이 있다.

또한, 본 발명은, 혼동 행렬의 확률 값을 이용하여 현재 음소와 가장 유사한 음소를 모노 폰 모델로부터 선택함으로써 발화 검증에 요구되는 메모리 요구량을 감소시킬 수 있는 이점이 있다.

도 1은 본 발명의 일실시 예에 따른 혼동 행렬 기반 발화 검증 장치의 블록 구성도이다. 이하, 도 1을 참조하여 본 발명의 일실시 예에 따른 혼동 행렬 기반 발화 검증 장치의 구성 및 동작에 대하여 설명하면 다음과 같다.

본 발명의 일실시 예에 따른 혼동 행렬 기반 발화 검증 장치는 전처리부(110), 음성 인식부(120), 신뢰도 측정부(130), 분류기(Support Vector Machine: SVM)(140), 판단부(150), 문맥 종속 음소 모델(160), 문맥 독립 음소 모델(170) 및 혼동 행렬(confusion matrix)(180)을 포함한다.

본 발명의 일실시 예에 따른 전처리부(110)는, 사용자로부터 음성 입력된 문자열에 포함된 잡음 구간을 제거하고, 음소의 끝점을 검출한 후, 음성이 존재하는 구간을 추출하는 끝점 검출 모듈(112) 및 상기 음성이 존재하는 구간으로부터 음성 특징 데이터를 추출하는 특징 추출 모듈(114)을 포함한다.

본 발명의 일실시 예에 따른 음성 인식부(120)는, 특징 추출 모듈(114)에서 추출된 음성 특징 데이터를 기반으로 미리 훈련된 문맥 종속 음소 모델(160)을 참조하여 비터비 탐색을 통해 음성을 인식한 후, 상기 음성 인식 결과를 신뢰도 측정부(130)로 출력한다. 상기 음성 인식 결과의 출력은 문자열 형태로 이루어질 수도 있고, 상기 문자열을 구성하는 각 음소 단위를 포함할 수 있다.

본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, 문맥 독립 음소 모델(170) 및 혼동 행렬(180)의 확률 값을 기반으로 각 음소에 대한 우도 값을 계산하여 유사도가 가장 높은 음소를 선택한다.

즉, 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, 음성 인식부(120)로부터 출력되는 정보와 문맥 독립 음소 모델(170)과 혼동 행렬 값을 사용한다. 여기서 음성 인식부(120)로부터 출력되는 정보는 문자열 또는 음소, 우도 값 및 세그먼트 정보를 포함한다.

이 때, 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, 상기 각 음소에 대하여 계산된 모노 폰 모델의 우도 값과 상기 각 음소에 대하여 미리 계산된 혼동 행렬(180)의 확률 값을 더하고 상기 더한 값 중 가장 큰 값을 선택한 후, 트라이 폰 모델의 우도 값과 상기 선택된 값을 기반으로 음성 인식된 문자열의 신뢰도를 측정할 수 있다.

위와 같은 신뢰도 계산에 있어서, 상기 모노 폰 모델 또는 반 모델의 우도 값에 상기 혼동 행렬(180)의 확률 값을 더하지 않고 곱하거나 빼는 등의 다양한 변형이 있을 수 있다.

상기 신뢰도 측정에 대하여 이하에서 좀 더 상세히 설명한다.

먼저, 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, 음성 인식된 문자열에 포함된 음소와 미리 훈련된 문맥 독립 음소 모델(170)에 포함된 음소와의 우도 값을 계산한다. 상기 우도 값은 하기의 <수학식 5>와 같이 정의될 수 있다.

즉, 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, <수학식 5>와 같이 현재 음소 i에 대하여 N개의 음소로 구성된 문맥 독립 음소 모델을 사용하여 현재 음소 i를 제외한 N-1개의 음소 모델에 대하여 프레임의 시간 길이(

)로 정규화하여 각각 우도 값을 계산한다.

이후, 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, 상기 계산된 우도 값과 혼동 행렬(180)의 확률 값을 더하는 계산을 수행한다. 상기 계산은 하기의 <수학식 6>과 같이 정의될 수 있다.

<수학식 6>은 <수학식 5>에서 계산된 우도 값과 N개의 음소에 대하여 미리 계산된 혼동 행렬의 확률 값 중 현재 음소 i를 제외한 N-1개의 혼동 행렬의 확률 값을 더한 것을 보여준다.

이후, 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, <수학식 6>과 같이 현재 음소에 대하여 계산된 모노 폰 모델의 우도 값과 혼동 행렬(180)의 확률 값을 더한 값 중 가장 큰 값을 선택한다. 이는 하기의 <수학식 7>과 같이 정의될 수 있다.

이후, 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, 음성 인식부(120) 로부터 출력된 트라이 폰 모델의 우도 값과 <수학식 7>과 같이 계산된 값을 기반으로 현재 음소에 대한 신뢰도를 (

)측정한다. 이 때, 비터비 탐색을 통하여 계산된 우도 값은 가우시안(Gaussian) 확률 분포를 취하기 때문에 로그 도메인(log domain)으로 처리한다. 이를 정리하면 하기의 <수학식 8>과 같다.

<수학식 8>은 현재 음소 i에 대한 신뢰도를 측정한 것을 보여준 예로써, 현재 음소 i에 대하여 프레임의 시간 길이(

)로 정규화한 트라이폰 모델 우도 값 및 모노폰 모델 우도 값을 사용하였다.

<수학식 8>에서 사용하는 모델은 트라이 폰 형식의 우도 값을 사용하였으나, 다이폰(diphone) 형식 또는 모노 폰 형식의 우도 값을 사용할 수도 있다.

이후, 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, <수학식 8>과 같이 계산된 시간 길이로 정규화된 음소 레벨의 신뢰도를 단어 레벨로 통합한다. 이를 정리하면 하기의 <수학식 9>와 같다.

<수학식 9>는 n개의 음소로 구성된 음성 인식된 단어에 대하여 상기 단어가 구성하고 있는 음소의 신뢰도를 합하여 단어 레벨로 통합한 신뢰도를 보여준 예이다.

이후, 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, <수학식 9>와 같이 계산된 단어 레벨의 신뢰도를 음성 인식된 단어의 음소 수로 나누어 줌으로써 상기 신뢰도를 음소 수 n으로 정규화한다. 이를 정리하면 하기의 <수학식 10>과 같다.

본 발명의 일실시 예에 따른 분류기(140)는, 신뢰도 측정부(130)에서 계산된 신뢰도 측정 값을 산술 연산, 기하 연산 및 조화 연산 등과 같은 여러개의 특징 형태로 계산하여 입력으로 사용하여, 이미 만들어진 분류기 모델과 비교하여 계산된 최종 신뢰도는 판단부(150)의 입력으로 사용되고, 판단부(150)에서 입력된 최종 신뢰도 값에 의해 수락 또는 거절을 결정한다. 본 특허가 적용되는 기술에는 분류기(140)를 포함하지 않을 수도 있다.

본 발명의 일실시 예에 따른 판단부(150)는, 신뢰도 측정부(130) 또는 분류기(140)로부터 출력되는 신뢰도를 입력받고, 상기 입력된 신뢰도에 따라 음성 인식된 단어를 수락 또는 거절할 것인지의 여부를 결정한다. 이 때, 본 발명의 일실시 예에 따른 판단부(150)는, 상기 입력된 신뢰도가 미리 설정된 임계치 이상이면 음성 인식된 단어를 수락하고, 상기 입력된 신뢰도가 미리 설정된 임계치보다 작다면 음성 인식된 단어를 거절할 수 있다.

본 발명의 일실시 예에 따른 문맥 종속 음소 모델(160)은, 대량의 데이터를 이용하여 미리 훈련된 모델로써, 음성 인식부(120)에서 음성 인식을 수행하는 데 사용된다.

본 발명의 일실시 예에 따른 문맥 독립 음소 모델(170)은, 문맥 종속 음소 모델(160)의 훈련 과정 중에 생성되며, 음성 인식된 단어에 대한 신뢰도를 계산함에 있어 혼동 행렬(180)을 기반으로 반 모델을 선택하는 데 사용된다. 또한, 본 발명의 일실시 예에 따른 문맥 독립 음소 모델(170)은 훈련 과정 중에 생성되는 문맥 독립 음소 모델(170)을 대립 가설 모델로 사용하기 때문에 유사 음소 집합을 만들기 위하여 별도로 훈련할 필요가 없다. 한편, 문맥 독립 음소 모델은 모노폰 모델이라고도 하며 본 발명의 설명에서는 이를 혼용하여 사용한다.

본 발명의 일실시 예에 따른 혼동 행렬(180)은, 대립 가설 모델의 모노 폰 모델의 우도 값에 가중치로 사용한다. 혼동 행렬이란 대량의 훈련 데이터를 이용하여 음성 인식된 결과와 정답 음소열(전사 파일)을 기준으로 동적 시간 와핑(Dynamic Time Warpping : DTW)을 사용하여 혼동 가능한 음소들을 누적하여 확률 값으로 표시한 것을 말한다. 혼동 행렬의 확률 값을 도 2를 참조하여 이하에서 설명한다.

도 2는 혼동 행렬의 확률 값을 보여주는 예시도이다.

도 2는 음소 인식 결과 중 음소 'C'에 대하여 혼동 행렬(180)의 확률 값을 구한 예이다. 외부로부터 입력된 음소 'C'는 'C'로 인식될 수도 있고 'G' 또는 'K'로 인식될 수도 있다. 도 2를 참조하면, 음소 'C'가 'C'로 인식될 확률은 0.95, 'G'로 인식될 확률은 0.05이다.

위와 같이 계산된 혼동 행렬(180)의 확률 값은 음소마다 그 값이 다르기 때문에, 이와 같은 확률 값을 이용하는 본 발명은 신뢰도 계산 시에 변별력을 높일 수 있는 이점이 있다.

도 3은 본 발명의 일실시 예에 따른 발화 검증 방법을 나타내는 흐름도이다. 이하, 도 3을 참조하여 본 발명의 일실시 예에 따른 발화 검증 방법에 대하여 설명하되, 도 1 내지 도 2를 참조하여 설명한 본 발명의 일실시 예에 따른 발화 검증 장치의 설명과 중복되는 내용은 생략한다.

단계(303)에서 본 발명의 일실시 예에 따른 끝점 검출 모듈(112)은, 단계(301)에서 음성 입력된 문자열에 포함된 잡음 구간을 제거하고, 음소의 끝점을 검출하여 음성이 존재하는 구간을 추출한다.

단계(305)에서 본 발명의 일실시 예에 따른 특징 추출 모듈(114)은, 단 계(303)에서 추출된 음성이 존재하는 구간으로부터 음성 특징 데이터를 추출한 후, 상기 추출된 음성 특징 데이터를 음성 인식부(120)로 출력한다.

단계(307)에서 본 발명의 일실시 예에 따른 음성 인식부(120)는, 단계(305)에서 추출된 음성 특징 데이터를 기반으로 문맥 종속 음소 모델(160)에 속하는 음소와의 우도 값을 계산함으로써 음성 입력된 문자열을 음성 인식한 후, 상기 음성 인식된 결과를 신뢰도 측정부(130)로 출력한다.

단계(309)에서 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, 음성 인식된 문자열에 포함된 각 음소와 문맥 독립 음소 모델(170)에 속하는 각 음소의 우도 값을 계산한 후, 단계(311)로 진행한다.

단계(311)에서 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, 단계(307)에서 계산된 트라이 폰 모델의 우도 값, 단계(309)에서 계산된 모노 폰 모델의 우도 값 및 혼동 행렬(180)의 확률 값을 기반으로 신뢰도를 계산하여 판단부(150)로 출력한다. 이 때, 신뢰도 측정부(130)는 음소 레벨의 신뢰도를 단어 레벨로 통합하여 출력할 수 있고, 각 음소가 갖는 시간 길이 및 음성 인식된 문자열에 포함된 전체 음소 수(프레임 수)로 신뢰도를 정규화한 후 출력할 수도 있다.

단계(313)에서 본 발명의 일실시 예에 따른 판단부(150)는, 단계(311)에서 계산된 신뢰도를 기반으로 음성 인식된 문자열의 수락(단계 315) 또는 거절(단계 317) 여부를 결정한다. 이 때, 판단부(150)는, 상기 계산된 신뢰도가 미리 설정된 임계치보다 크다면 상기 음성 인식된 문자열을 수락하고, 상기 계산된 신뢰도가 미리 설정된 임계치보다 작다면 상기 음성 인식된 문자열을 거절할 수 있다.

한편, 도 4에 도시하지는 않았지만, 단계(311)에서 신뢰도 측정부(130)는 산술 연산, 기하 연산 및 종합 연산 등으로 신뢰도를 계산할 수 있으며, 이러한 경우 분류기(140)에서 상기 계산된 신뢰도를 적절한 형태로 변환하여 판단부(150)로 출력할 수 있다.

상술한 본 발명의 설명에서는 구체적인 일실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시될 수 있다. 따라서, 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해져야 한다.

도 1은 본 발명의 일실시 예에 따른 혼동 행렬 기반 발화 검증 장치의 블록 구성도,

도 2는 혼동 행렬의 확률 값을 보여주는 예시도,

도 3은 본 발명의 일실시 예에 따른 혼동 행렬 기반 발화 검증 방법을 나타내는 흐름도.

Claims

문맥 종속 음소 모델을 사용하여 비터비 디코딩을 수행함으로써 입력된 음성을 인식하는 단계;

상기 음성 인식 결과인 음성 인식된 문자열에 포함된 각 음소와 미리 훈련된 문맥 독립 음소 모델에 포함된 각 음소의 우도 값을 계산하는 단계;

상기 계산된 각 음소의 우도 값 및 미리 계산된 혼동 행렬의 확률 값을 기반으로 상기 음성 인식된 문자열에 대한 신뢰도를 측정하는 단계; 및

상기 측정된 신뢰도를 기반으로 상기 음성 인식된 문자열의 수락 및 거절 여부를 결정하는 단계

를 포함하는 혼동 행렬 기반 발화 검증 방법.
제 1항에 있어서, 상기 신뢰도를 측정하는 단계는,

상기 음성 인식된 문자열에 포함된 각 음소에 대하여 계산된 우도 값과 상기 각 음소에 대하여 미리 계산된 혼동 행렬의 확률 값을 더하고 상기 더한 값 중 가장 큰 값을 선택하는 단계; 및

상기 음성 인식 결과로 출력되는 트라이 폰 모델의 우도 값과 상기 선택된 값을 기반으로 상기 음성 인식된 문자열의 신뢰도를 측정하는 단계

를 포함하는 혼동 행렬 기반 발화 검증 방법.
제 2항에 있어서, 상기 음성 인식된 문자열의 신뢰도를 측정하는 단계는,

상기 신뢰도를 하기의 수학식에 의하여 측정하는 단계

를 포함하는 혼동 행렬 기반 발화 검증 방법.

<수학식>

(
= 음성 인식된 문자열에 대한 신뢰도,

= 현재 음소 i 에 대해 프레임의 시간 길이(
)로 정규화한 트라이 폰 모델 우도 값,

= 현재 음소 i 와 N개의 음소로 구성된 문맥 독립 음소 모델 중 현재 음소 i를 제외한 N-1개의 모노 폰 모델에 대해 프레임의 시간 길이(
)로 정규화한 모노 폰 모델 우도 값,

= N개의 음소로 구성된 미리 계산된 혼동 행렬 중 현재 음소 i를 제외한 N-1개의 혼동 행렬 확률 값,

=
와
을 더한 값 중 가장 큰 값)
제 2항에 있어서, 상기 음성 인식된 문자열의 신뢰도를 측정하는 단계는,

상기 측정된 신뢰도를 음성 인식된 문자열의 음소 수로 정규화하는 단계

를 포함하는 혼동 행렬 기반 발화 검증 방법.
제 4항에 있어서, 상기 음성 인식된 문자열의 신뢰도를 측정하는 단계는,

상기 신뢰도를 하기의 수학식에 의하여 측정하는 단계

를 포함하는 혼동 행렬 기반 발화 검증 방법.

<수학식>

(
= 음성 인식된 문자열에 대한 신뢰도,

= 음성 인식된 문자열의 전체 음소 수,

= 현재 음소 i 가 갖는 프레임의 시간 길이,

= 현재 음소 i 에 대해 프레임의 시간 길이(
)로 정규화한 트라이 폰 모델 우도 값,

= 현재 음소 i 와 N개의 음소로 구성된 문맥 독립 음소 모델 중 현재 음소 i를 제외한 N-1개의 모노 폰 모델에 대해 프레임의 시간 길이(
)로 정규화한 모노 폰 모델 우도 값,

= N개의 음소로 구성된 미리 계산된 혼동 행렬 중 현재 음소 i를 제외한 N-1개의 혼동 행렬 확률 값,

=
와
을 더한 값 중 가장 큰 값)
제 1항에 있어서, 상기 음성 인식된 문자열의 수락 및 거절 여부를 결정하는 단계는,

상기 측정된 신뢰도가 미리 정해진 임계치보다 크다면 상기 음성 인식된 문 자열을 수락하는 단계

를 포함하는 혼동 행렬 기반 발화 검증 방법.
문맥 종속 음소 모델을 사용하여 비터비 디코딩을 수행함으로써 입력된 음성을 인식하는 음성 인식부;

상기 음성 인식부로부터 출력되는 음성 인식된 문자열에 대한 음소열 정보 및 문맥 독립 음소 모델을 기반으로 각 음소의 우도 값을 계산하고, 상기 계산된 각 음소의 우도 값 및 미리 계산된 혼동 행렬의 확률 값을 기반으로 상기 음성 인식된 문자열에 대한 신뢰도를 측정하는 신뢰도 측정부; 및

상기 측정된 신뢰도를 기반으로 상기 음성 인식된 문자열의 수락 및 거절 여부를 결정하는 판단부

를 포함하는 혼동 행렬 기반 발화 검증 장치.
제 7항에 있어서, 상기 신뢰도 측정부는,

상기 계산된 각 음소의 우도 값과 상기 각 음소에 대하여 미리 계산된 혼동 행렬의 확률 값을 더하고 상기 더한 값 중 가장 큰 값을 선택한 후, 상기 음성 인식부로부터 출력되는 트라이 폰 모델의 우도 값과 상기 선택된 값을 기반으로 상기 음성 인식된 문자열의 신뢰도를 측정하는

혼동 행렬 기반 발화 검증 장치.
제 8항에 있어서, 상기 신뢰도 측정부는,

상기 측정된 신뢰도를 시간으로 정규화하는

혼동 행렬 기반 발화 검증 장치.
제 9항에 있어서, 상기 신뢰도 측정부는,

상기 측정된 신뢰도를 음성 인식된 문자열의 전체 프레임 수로 정규화하는

혼동 행렬 기반 발화 검증 장치.
제 7항에 있어서, 상기 판단부는,

상기 측정된 신뢰도가 미리 정해진 임계치보다 크다면 상기 음성 인식된 문자열을 수락하는

혼동 행렬 기반 발화 검증 장치.