KR100717393B1

KR100717393B1 - 음성 인식기의 음성 인식에 대한 신뢰도 측정 방법 및 그장치

Info

Publication number: KR100717393B1
Application number: KR1020060012527A
Authority: KR
Inventors: 정재훈; 오광철
Original assignee: 삼성전자주식회사
Priority date: 2006-02-09
Filing date: 2006-02-09
Publication date: 2007-05-11
Also published as: US20070185712A1

Abstract

본 발명은 음성 인식기에서 입력된 음성 신호에 대한 상태 변화 위치와 음성 인식 결과에 따른 음소열 변화 위치를 비교하여 그 차이 및 우도비를 이용하여 음성 인식에 대한 신뢰도를 측정하는 방법 및 그 장치에 관한 것이다. 본 발명은 음성 인식기에서 음성 신호에 대한 상태 변화 위치를 검출하는 단계와, 상기 음성 신호의 음성 인식 결과에 따른 음소열의 변화 위치를 검출하는 단계 및 상기 검출된 상태 변화 위치와 상기 검출된 음소열의 변화 위치의 차이를 이용하여 상기 음성 인식에 대한 신뢰도를 계산하는 단계를 포함하는 것을 특징으로 하는 신뢰도 측정 방법을 제공한다. 본 발명에 의하면, 음성 인식기의 음성 인식 결과에 따른 음소열 변화 위치와 음성 신호의 상태 변화 위치를 비교한 결과와 우도비를 동시에 이용함으로써 더욱 높은 신뢰도 측정 성능을 보여줄 수 있다.

음성, 인식, spectrogram, 신뢰도, 계산

Description

음성 인식기의 음성 인식에 대한 신뢰도 측정 방법 및 그 장치{METHOD AND APPARATUS FOR MEASURING CONFIDENCE ABOUT SPEECH RECOGNITION IN SPEECH RECOGNIZER}

도 1은 본 발명에 따른 음성 인식기에 있어서, 상태 변화 점수 계산 장치에 대한 구성을 나타내는 도면이다.

도 2는 본 발명의 일실시예에 따른 음성 인식기의 구성을 나타내는 도면이다.

도 3은 본 발명에 따른 음성 인식기에 있어서, 키워드 모델 및 필러 모델에 의한 우도비를 이용한 신뢰도 측정의 일례를 나타내는 도면이다.

도 4는 본 발명에 따른 음성 인식기에 있어서, 입력된 음성 신호에 대한 스펙트로그램의 일례를 나타내는 도면이다.

도 5는 도 4에 도시된 것과 같은 스펙트로그램상에서 프레임간 유클리디안 거리에 따른 추정된 상태 변화 지점의 일례를 나타내는 도면이다.

도 6은 본 발명에 따른 음성 인식기의 신뢰도 측정 장치에 있어서, 상태 변화 위치와 음소열 변화 위치를 비교한 일례를 나타내는 도면이다.

도 7은 본 발명에 따른 음성 인식기에서 상태 변화 점수를 계산하는 방법의 흐름을 나타내는 도면이다.

도 8은 본 발명에 따른 음성 인식기에서 음성 인식에 대한 신뢰도를 측정하는 방법의 흐름을 나타내는 도면이다.

<도면의 주요 부분에 대한 부호의 설명>

100: 상태 변화 점수 계산 장치

110: 상태 변화 검출부

120: 음소열 변화 검출부

130: 상태 변화 점수 계산부

200: 음성 인식기

210: 특징 추출부

220: 스펙트로그램 계산부

230: 음성 인식부

231: 키워드 모델

232: 필러 모델

240: 신뢰도 측정부

241: 상태 변화 비교부

242: 우도비 계산부

243: 신뢰도 계산부

244: 결정부

본 발명은 음성 인식기의 음성 인식에 대한 신뢰도를 측정하는 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 음성 인식기에서 입력된 음성 신호에 대한 상태 변화 위치와 음성 인식 결과에 따른 음소열 변화 위치를 비교하여 그 차이 및 우도비를 이용하여 음성 인식에 대한 신뢰도를 측정하는 방법 및 그 장치에 관한 것이다.

종래 자동 음성 인식 시스템의 거짓 가설 거절 방법 및 장치의 일례로 미국등록특허 US4,896,358호는 잘못된 가정을 거절하기 위해 키워드 모델(keyword model)과 필러 모델(filler model)을 만들고, 상기 모델들에 의해 생성된 스코어를 이용하여 우도비 테스트(likelihood ratio test)를 실시한다. 하지만, 종래 자동 음성 인식 시스템의 거짓 가설 거절 방법은 필러 모델의 정확도에 영향을 많이 받고, 음향 우도(acoustic likelihood)의 평균에만 의존하기 때문에 부분적인 경로(path)에 대한 정보가 부족한 문제점이 있다.

한편, 종래 근접 실수 패턴(near-miss pattern)을 이용한 신뢰도 측정 시스템의 일례로 미국등록특허 US6,571,210호는 단어마다 근접 실수 템플릿(near-miss template)들을 만들어 두고, 인식된 근접 실수 패턴을 템플릿과 비교하여 신뢰 점수(confidence score)를 계산한다. 하지만, 종래 근접 실수 패턴을 이용한 신뢰도 측정 시스템은 단어마다 템플릿을 가지고 있어야만 가능하고, 평균적인 음향 우도 정보에 의존하는 문제점이 있다.

이와 같이, 종래 음성 인식기의 신뢰도 측정 방법은 우도(likelihood score) 가 음성 인식기의 결과값이므로 음성 인식기가 음성을 오인식하는 경우, 이 값을 이용한 신뢰도를 계산하는 방법은 신뢰성을 상실하는 문제점이 있다. 또한, 종래 음성 인식기의 신뢰도 측정 방법은 우도 값이 높게 나오더라도 웨이브(wave) 파형이나 스펙트로그램(spectrogram)에서의 음성 신호의 상태 변화를 반영하지 못하는 문제점이 있다.

따라서, 음성 신호의 상태 변화를 반영하여 음성 인식기에서의 음성 인식에 대한 신뢰도를 보다 정확하게 측정하는 방안이 절실하게 요청되어 오고 있다.

본 발명은 상기와 같은 종래기술의 문제점을 해결하기 위해 안출된 것으로서, 음성 인식기에 입력된 음성 신호에 대한 상태 변화 위치와 음성 인식 결과의 음소열 변화 위치를 비교하여 그 차이 및 우도비를 이용하여 음성 인식에 대한 신뢰도를 측정하는 방법 및 그 장치를 제공하는 것을 목적으로 한다.

상기의 목적을 이루고 종래기술의 문제점을 해결하기 위하여, 본 발명은 음성 인식기에서 음성 신호에 대한 상태 변화 위치를 검출하는 단계와, 상기 음성 신호의 음성 인식 결과에 따른 음소열의 변화 위치를 검출하는 단계 및 상기 검출된 상태 변화 위치와 상기 검출된 음소열의 변화 위치의 차이와 우도비를 이용하여 상기 음성 인식에 대한 신뢰도를 계산하는 단계를 포함하는 것을 특징으로 하는 신뢰도 측정 방법을 제공한다.

본 발명의 일측에 따르는 음성 인식기의 음성 인식에 대한 신뢰도를 측정하 는 방법은, 음성 신호에 대한 특징을 추출하는 단계와, 상기 음성 신호에 대한 스펙트로그램을 계산하는 단계와, 소정의 음성 인식 모델을 이용하여 상기 추출된 음성 신호에 대한 특징으로부터 음성을 인식하는 단계와, 상기 음성 인식 결과와 상기 계산된 스펙트로그램을 이용하여 음성 신호의 상태 변화를 비교하는 단계와, 상기 음성 인식 모델에 따라 상기 음성 인식에 대한 우도비를 계산하는 단계 및 상기 상태 변화 비교 결과와 상기 우도비를 고려하여 상기 음성 인식에 대한 신뢰도를 계산하는 단계를 포함한다.

본 발명의 다른 일측에 따르는 음성 인식기의 음성 인식에 대한 신뢰도를 측정하는 장치는, 음성 신호에 대한 상태 변화 위치를 검출하는 상태 변화 검출부와, 상기 음성 인식기에서 상기 음성 신호의 음성 인식 결과에 따른 음소열의 변화 위치를 검출하는 음소열 변화 검출부 및 상기 검출된 상태 변화 위치와 상기 검출된 음소열의 변화 위치를 비교하여 그 결과 및 우도비를 이용하여 상기 음성 인식에 대한 신뢰도를 계산하는 신뢰도 계산부를 포함한다.

본 발명의 또 다른 일측에 따르는 음성 인식기의 음성 인식에 대한 신뢰도를 측정하는 장치는, 음성 신호에 대한 특징을 추출하는 특징 추출부와, 상기 음성 신호에 대한 스펙트로그램을 계산하는 스펙트로그램 계산부와, 소정의 음성 인식 모델을 이용하여 상기 추출된 음성 신호에 대한 특징으로부터 음성을 인식하는 음성 인식부와, 상기 음성 인식 결과와 상기 계산된 스펙트로그램을 이용하여 상태 변화를 비교하는 상태 변화 비교부와, 상기 음성 인식 결과에 따른 상기 음성 인식에 대한 우도비(likelihood ratio)을 계산하는 우도비 계산부 및 상기 상태 변화 비교 결과와 상기 우도비를 고려하여 상기 음성 인식에 대한 신뢰도를 계산하는 신뢰도 계산부를 포함한다.

이하에서는 첨부된 도면들을 참조하여 본 발명의 실시예에 따른 음성 인식기의 음성 인식에 대한 신뢰도를 측정하는 방법 및 그 장치를 상세히 설명한다.

도 1은 본 발명의 일실시예에 따른 음성 인식기의 음성 인식에 대한 상태 변화 점수 계산 장치의 구성을 나타내는 도면이다.

도 1을 참조하면, 상태 변화 점수 계산 장치(100)는 상태 변화 검출부(110), 음소열 변화 검출부(120) 및 상태 변화 점수 계산부(130)를 포함한다.

상태 변화 검출부(110)는 상기 음성 인식기에 입력된 음성 신호에 대한 상태 변화 위치를 검출한다.

상태 변화 검출부(110)는 상태 변화를 검출하는 일례로서, 도 4에 도시된 것과 같은 상기 음성 신호에 대한 스펙트로그램(spectrogram) 상에서 피크(peak)와 밸리(valley)의 차이를 이용하여 상기 음성 신호에 대한 상태 변화 위치 후보를 검출할 수 있다.

상태 변화 검출부(110)는 본 발명의 일실시예에서 도 4에 도시된 것과 같은 스펙트로그램을 이용하였지만 상기 음성 신호에 대한 스펙트로그램 이외에 웨이브 파형이나 다양한 음성 특징 공간을 이용하여 상기 음성 신호에 대한 상태 변화의 위치를 검출할 수도 있다.

즉, 상태 변화 검출부(110)는 상기 음성 신호에 대한 스펙트로그램 상에서 프레임간 유클리디안 거리(euclidian distance)를 구한다. 그리고, 상태 변화 검 출부(110)는 도 5에 도시된 것과 같이 상기 스펙트로그램 상에서 프레임간 유클리디안 거리를 구한 값에 의한 그래프의 피크와 밸리간 거리가 큰 상위 N개의 위치를 상태 변화 지점으로 검색함으로써 상기 음성 신호에 대한 상태 변화 위치를 검출할 수 있다.

상태 변화 검출부(110)는 예를 들어 상기 음성 인식기에 '어머니'라는 단어가 입력된 경우, '어머니'에 대응되는 음성 신호의 스펙트로그램을 분석하고, 상기 스펙트로그램의 분석 결과에 따라 상기 음성 신호에 대한 상태 변화 위치를 검출할 수 있다.

음소열 변화 검출부(120)는 상기 음성 인식기에서 상기 입력된 음성 신호의 음성 인식 결과에 따른 음소열의 변화 위치를 검출한다. 즉, 음소열 변화 검출부(120)는 상기 음성 인식기에서 소정의 음성 인식 모델을 통해 상기 입력된 음성 신호를 인식하고, 상기 인식된 음성 신호에 대한 음소열의 변화 위치를 검출한다.

음소열 변화 검출부(120)는 예를 들어 상기 음성 인식기에 '어머니'라는 단어가 입력된 경우, 상기 소정의 음성 인식 모델을 통해 'ㅇ, ㅓ, ㅁ, ㅓ, ㄴ, ㅣ'와 같이 음소열이 인식되면, 상기 인식된 음소열의 변화 위치를 검출할 수 있다. 상기 음소열의 변화 위치는 'ㅇ, ㅓ, ㅁ, ㅓ, ㄴ, ㅣ'와 같이 상기 인식된 음소가 나타나는 지점일 수 있다.

상태 변화 점수 계산부(130)는 상기 검출된 상태 변화 위치와 상기 검출된 음소열의 변화 위치를 비교하여 상기 음성 신호에 대한 상태 변화 점수를 계산한다. 즉, 상태 변화 점수 계산부(130)는 상기 상태 변화 점수 계산 시 상기 검출된 상태 변화 위치와 상기 검출된 음소열의 변화 위치를 비교하여 소정의 기준치 이상으로 차이가 발생하는 경우, 해당 위치에 패널티 점수를 부여하고 상기 부여된 패널티 점수를 반영한다.

상태 변화 점수 계산부(130)는 예를 들어 도 6에 도시된 것과 같이 상기 스펙트로그램상에서 검출된 상태 변화 위치가 상기 검출된 음소열의 변화 위치에 대응되지 않는 경우, 패널티 점수(penalty score)를 부여하고 상기 부여된 패널티 점수에 따라 상기 상태 변화 점수를 계산할 수 있다.

이와 같이, 본 발명에 따른 신뢰도 측정 장치는 종래 단순하게 음성 인식 모델에 따라 인식된 음성 신호에 대한 우도비만 고려하는 것이 아니라 음성 신호의 상태 변화와 우도비를 동시에 고려하여 음성 인식에 대한 신뢰도를 보다 정확하게 측정할 수 있다.

도 2를 참조하면, 음성 인식기(200)는 특징 추출부(210), 스펙트로그램 계산부(220), 음성 인식부(230) 및 신뢰도 측정부(240)를 포함한다.

특징 추출부(210)는 음성 인식기(200)로 입력되는 음성 신호에 대한 특징을 추출한다.

스펙트로그램 계산부(220)는 상기 입력된 음성 신호에 대한 스펙트로그램을 계산한다. 상기 스펙트로그램은 도 4에 도시된 것과 같이 음성 신호에 대한 상태 변화 특성을 나타낼 수 있는 일례이다.

음성 인식부(230)는 소정의 음성 인식 모델을 이용하여 상기 추출된 음성 신호에 대한 특징으로부터 음성을 인식한다. 상기 음성 인식 모델은 키워드 모델(231) 및 필러 모델(232)를 포함한다. 즉, 음성 인식부(230)는 키워드 모델(231) 및 필러 모델(232)을 이용하여 상기 추출된 음성 신호에 대한 특징으로부터 음성을 인식한다.

도 3을 참조하면, 음성 인식기(200)는 예를 들어 '백승천'이라는 음성 신호가 입력된 경우, 상기 입력된 음성 신호로부터 특징을 추출한다(300). 음성 인식기(200)에서 키워드 모델(231)에 의해 음성을 인식하는 방법은 비터비 디코더(viterbi decoder)(310)를 통해 상기 추출된 음성 신호의 특성을 디코딩한 후 인식 리스트(311)에 저장된 단어 중 상기 디코딩된 음성 특성과 가장 유사한 음성인 '백승권'으로 인식한다.

한편, 음성 인식기(200)에서 필러 모델(232)에 의해 음성 인식을 수행하는 방법은 상기 추출된 음성 신호의 특징을 이용하여 모노폰 필러 네트워크(monophone filler network)(320)를 통해 상기 추출된 음성 신호의 특징을 음소별로 인식한다.

음성 인식기(200)는 키워드 모델(231)에 의해 인식된 음성 인식 결과/점수가 예를 들어 '백승권/127점'이고, 필러 모델(232)에 의해 인식된 음소열/점수가 예를 들어 'ㅂ ㅐ ㄱ ㅆ ㅡ ㅊ ㅓ ㄴ/150점'인 경우, 상기 점수 차이를 비교하여 상기 음성 인식 결과에 대해 IV(In Vocabulary)인지 또는 OOV(Out Of Vocabulary)인지를 판정한다(330). 즉, 음성 인식기(200)는 키워드 모델(231) 및 필러 모델(232)에 의해 인식된 음성 인식 결과 및 우도를 비교하고, 상기 비교 결과에 따라 상기 입력된 음성 신호가 제대로 인식되는지 여부를 판정할 수 있다.

신뢰도 측정부(240)는 상태 변화 비교부(241), 우도비 계산부(242), 신뢰도 계산부(243) 및 결정부(244)를 포함한다. 신뢰도 측정부(240)는 스펙트로그램 계산부(220)에서 계산된 스펙트로그램과 음성 인식부(230)에서 인식된 음성 신호를 이용하여 상기 인식된 음성 신호에 대한 신뢰도를 측정한다.

상태 변화 비교부(241)는 키워드 모델(231)에 의한 음성 인식 결과인 음소열의 변화 위치와 일정 범위내에서 가장 가까운 스펙트로그램의 변화 위치를 비교하고, 상기 비교 결과에 따라 상기 스펙트로그램상의 거리가 큰 상위 N개 중 음소열의 변화 위치에 대응되지 않는 경우, 패널티 점수를 부여한다.

도 6을 참조하면, 상태 변화 비교부(241)는 스펙트로그램에 의한 상태 변화 위치(t¹ _s, t² _s,tⁱ _s, t^N _s)와 인식된 결과에 의한 음소열의 변화 위치(t¹ _r, t² _r,tⁱ _r, t^N _r)를 비교하고, 상기 위치의 비교 결과에 따른 차이 정도에 따라 패널티 점수를 부여한다.

상태 변화 비교부(241)는 상기 스펙트로그램에 의한 상태 변화의 첫 번째 위 치(t¹ _s)와 상기 키워드 모델(231)에 의해 인식된 음소열의 첫 번째 변화 위치(t¹ _r)를 비교하면, 상기 첫 번째 변화 위치가 일치하므로 패널티 점수를 부여하지 않는다. 하지만, 상태 변화 비교부(241)는 상기 스펙트로그램에 의한 상태 변화의 두 번째 위치(t² _s)와 상기 키워드 모델(231)에 의해 인식된 음소열의 두 번째 변화 위치(t² _r)를 비교하면, 상기 비교 결과에 따라 두 번째 변화 위치의 차이가 소정의 기준치 이상이므로 패널티 점수를 부여한다.

우도비 계산부(242)는 상기 음성 인식 결과에 따른 상기 음성 인식에 대한 우도비(likelihood ratio)을 계산한다. 즉, 우도비 계산부(242)는 키워드 모델(231)에 의해 인식된 음성 인식 결과 및 필터 모델(232)에 의해 인식된 음성 인식 결과에 따른 상기 음성 인식에 대한 우도비를 계산한다.

신뢰도 계산부(243)는 상태 변화 비교부(241)에서 비교된 상태 비교 결과와 우도비 계산부(242)에서 계산된 우도비를 고려하여 상기 음성 인식에 대한 신뢰도를 계산한다. 즉, 신뢰도 계산부(243)는 상태 변화 비교부(241)에 의해 계산된 상태 변화 점수와 우도비 계산부(242)에서 계산된 우도비를 이용하여 하기 수학식 1과 같이 신뢰도를 계산한다.

tⁱ _r: 인식 음소열의 i번째 변화 위치

tⁱ _s: 스펙트로그램 상태의 i번째 변화 위치

N: 비교할 변화 위치의 수

PS: 패널티 점수(Penalty Score)

K: 패널티 점수를 받아야 하는 상태 변화 위치 수

f: 우도비 점수(Likelihood Ratio Score)와 상태 변화 점수(Phase Change Score)의 변환 함수

결정부(244)는 신뢰도 계산부(243)에서 계산된 신뢰도에 따라 음성 인식기(200)에서 인식된 음성을 수락(accept)할지 또는 거절(reject)할지 여부를 결정한다. 즉, 결정부(244)는 상기 계산된 신뢰도가 소정의 기준치보다 높은 경우, 음성 인식기(200)에서 인식된 음성을 수락하는 것으로 결정한다. 또한, 결정부(244)는 상기 계산된 신뢰도가 상기 소정의 기준치보다 낮은 경우, 상기 인식된 음성을 거절하도록 결정한다.

이와 같이, 본 발명에 따른 음성 인식기의 신뢰도 측정 장치는 종래 단순하게 음성 인식 모델에 따라 인식된 음성 신호에 대한 우도비만 고려하는 것이 아니라 음성 신호의 상태 변화와 우도비를 동시에 고려하여 음성 인식에 대한 신뢰도를 측정하고, 측정된 신뢰도에 따라 인식된 음성을 수락할지 또는 거절할지 여부 결정함으로써 보다 정확한 음성 인식을 수행할 수 있다.

도 7을 참조하면, 단계(710)에서 음성 인식기는 음성 신호에 대한 상태 변화 위치를 검출한다. 즉, 단계(710)에서 상기 음성 인식기는 음성 신호의 스펙트로그램, 웨이브 파형 또는 공간 특성 등과 같이 음성 신호에 대한 상태 변화 위치를 검출할 수 있다.

단계(710)에서 상기 음성 인식기는 상기 음성 신호에 대한 상태 변화 위치를 검출하는 일례로서 상기 음성 신호에 대한 스펙트로그램을 이용하는 경우, 도 4에 도시된 것과 같은 스펙트로그램상에서 프레임간의 유클리디안 거리를 구한 후 상기 구해진 거리에 따른 그래프의 피크와 밸리를 이용하여 상기 음성 신호에 대한 상태 변화 지점을 검출할 수 있다. 즉, 단계(710)에서 상기 음성 인식기는 도 5에 도시된 것과 같이 상기 피크와 밸리간 거리가 큰 상위 N개의 위치를 이용하여 상기 음성 신호에 대한 상태 변화 위치를 검출할 수 있다.

단계(720)에서 상기 음성 인식기는 상기 음성 신호에 대한 음성 인식 결과에 따른 음소열의 변화 위치를 검출한다.

단계(730)에서 상기 음성 인식기는 상기 검출된 상태 변화 위치와 상기 검출된 음소열의 변화 위치의 차이를 이용하여 상기 음성 인식에 대한 상태 변화 점수를 계산한다. 즉, 단계(730)에서 상기 음성 인식기는 상기 거리가 큰 상위 N개 중 상기 검출된 음소열의 변화 위치에 대응되지 않는 위치를 파악하고, 상기 파악된 위치에 패널티 점수를 부여하여 상기 음성 인식에 대한 상태 변화 점수를 계산한다.

이와 같이, 본 발명에 따른 음성 인식에 대한 신뢰도 측정 방법은 종래 단순하게 음성 인식 모델에 따라 인식된 음성 신호에 대한 우도비만 고려하는 것이 아니라 음성 신호에 대한 상태 변화와 우도비를 동시에 고려함으로써 음성 인식에 대한 신뢰도를 보다 정확하게 측정할 수 있다.

도 8을 참조하면, 단계(810)에서 상기 음성 인식기는 입력된 음성 신호에 대한 특징을 추출한다.

단계(820)에서 상기 음성 인식기는 상기 음성 신호에 대한 스펙트로그램을 계산한다. 즉, 단계(820)에서 상기 음성 인식기는 상기 입력된 음성 신호에 대한 상태 변화의 위치를 파악하기 위한 음성 신호의 특성 중 하나인 스펙트로그램을 계산한다. 또한, 단계(820)에서 음성 인식기는 스펙트로그램 이외에 웨이브 파형이나 상기 음성 신호에 대한 상태 변화 위치를 파악할 수 있는 특성 요소를 계산할 수도 있다.

단계(830)에서 상기 음성 인식기는 소정의 음성 인식 모델을 이용하여 상기 추출된 음성 신호에 대한 특징으로부터 음성을 인식한다. 상기 음성 인식 모델은 키워드 모델 및 필러 모델을 포함한다. 즉, 단계(830)에서 상기 음성 인식기는 상기 키워드 모델 및 필러 모델을 이용하여 상기 추출된 음성 신호에 대한 특징으로부터 상기 입력된 음성 신호에 대한 음성을 인식한다.

단계(840)에서 상기 음성 인식기는 상기 음성 인식 결과와 상기 계산된 스펙트로그램을 이용하여 상기 음성 신호의 상태 변화를 비교한다.

즉, 단계(840)에서 상기 음성 인식기는 상기 키워드 모델에 따른 음성 인식 결과인 음소열 변화 위치와 일정 범위내에서 가장 가까운 상태 변화 위치를 비교하고, 상기 비교 결과에 따라 상기 상태 변화 위치와 중 음소열의 변화 위치에 대응되지 않는 경우, 상기 상태 변화 위치에 패널티 점수를 부여한다.

단계(840)에서 상기 음성 인식기는 도 6에 도시된 것과 같이 상기 스펙트로그램에 의한 상태 변화 위치와 상기 음성 인식에 의한 음소열 변화 위치를 비교하여 그 차이가 소정의 기준치 이상인 경우, 상기 상태 변화 위치에 대해 패널티 점수를 부여할 수 있다.

단계(850)에서 상기 음성 인식기는 상기 음성 인식 모델에 따라 상기 음성 인식에 대한 우도비를 계산한다. 즉, 단계(850)에서 상기 음성 인식기는 상기 키워드 모델 및 필러 모델에 따라 상기 음성 인식에 대한 우도비를 계산한다.

단계(860)에서 상기 음성 인식기는 상기 상태 변화 비교 결과와 상기 우도비를 고려하여 상기 음성 인식에 대한 신뢰도를 계산한다.

단계(870)에서 상기 음성 인식기는 상기 계산된 신뢰도에 따라 상기 음성 인식 결과에 대한 수락(accept) 또는 거절(reject) 여부를 결정한다.

즉, 단계(870)에서 상기 음성 인식기는 상기 계산된 신뢰도가 소정의 기준치보다 높은 경우, 상기 음성 인식 결과를 수락하도록 결정할 수 있다. 또한, 단계(870)에서 상기 음성 인식기는 상기 계산된 신뢰도가 상기 소정의 기준치보다 낮은 경우, 상기 음성 인식 결과를 거절하도록 결정한다.

이와 같이, 본 발명에 따른 음성 인식기의 음성 인식에 대한 신뢰도를 측정하는 방법은 우도비와 음성 신호의 상태 변화 위치와 인식된 음소열 변화 위치를 비교한 값을 함께 사용하여 보다 정확하게 음성 인식에 대한 신뢰도를 계산하고 계산된 신뢰도에 따라 음성 인식 결과의 수락 여부를 결정함으로써 보다 명확한 음성 인식을 수행할 수 있다.

본 발명에 따른 음성 인식기의 음성 인식에 대한 신뢰도 측정 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

본 발명에 따르면, 음성 인식기의 음성 인식 결과에 따른 음소열 변화 위치와 음성 신호의 상태 변화 위치를 비교한 값과 우도비를 동시에 이용함으로써 더욱 높은 신뢰도 측정 성능을 보여줄 수 있다.

또한, 본 발명에 따르면, 정확한 신뢰도의 측정으로 인해 음성 인식기의 잘못된 응답을 최소화함으로써 음성 인식의 오류로 인한 사용자의 불편을 감소시킬 수 있다.

또한, 본 발명에 따르면, 음성 인식을 이용하는 제품에서 음성 인식으로 인한 오동작을 줄여줌으로 인해 사용자의 제품에 대한 신뢰도를 향상시킬 수 있다.

Claims

음성 인식기의 음성 인식에 대한 신뢰도를 측정하는 방법에 있어서,

음성 신호에 대한 상태 변화 위치를 검출하는 단계;

상기 음성 신호의 음성 인식 결과에 따른 음소열의 변화 위치를 검출하는 단계; 및

상기 검출된 상태 변화 위치와 상기 검출된 음소열의 변화 위치의 차이 및 우도비를 이용하여 상기 음성 인식에 대한 신뢰도를 계산하는 단계

를 포함하는 것을 특징으로 하는 신뢰도 측정 방법.
제1항에 있어서,

음성 신호에 대한 상태 변화 위치를 검출하는 상기 단계는,

상기 음성 신호에 대한 스펙트로그램, 웨이브 파형 또는 상기 음성 신호에 대한 특징으로부터 상기 음성 신호에 대한 상태 변화 위치를 검출하는 것을 특징으로 하는 신뢰도 측정 방법.
제2항에 있어서,

음성 신호에 대한 상태 변화 위치를 검출하는 상기 단계는,

상기 음성 신호에 대한 스펙트로그램상에서 프레임간 유클리디안 거리를 계산하는 단계; 및

상기 계산된 피크(peak)와 밸리(valley)를 이용하여 상기 음성 신호에 대한 상태 변화 위치를 검출하는 단계를 포함하는 것을 특징으로 하는 신뢰도 측정 방법.
제3항에 있어서,

피크와 밸리를 이용하여 상기 음성 신호에 대한 상태 변화 위치를 검출하는 상기 단계는,

상기 계산된 피크와 밸리간 거리가 큰 상위 N개의 위치를 이용하여 상기 음성 신호에 대한 상태 변화 위치를 검출하는 단계

를 포함하는 것을 특징으로 하는 신뢰도 측정 방법.
제4항에 있어서,

상기 검출된 상태 변화 위치와 상기 검출된 음소열의 변화 위치의 차이를 이용하여 상기 음성 인식에 대한 신뢰도를 계산하는 상기 단계는,

상기 거리가 큰 상위 N개 중 상기 검출된 음소열의 변화 위치에 대응되지 않는 위치를 파악하고, 파악된 위치에 패널티 점수(penalty score)를 부여하여 상기 음성 인식에 대한 신뢰도를 계산하는 것을 특징으로 하는 신뢰도 측정 방법.
제1항에 있어서,

상기 검출된 상태 변화 위치와 상기 검출된 음소열의 변화 위치의 차이 및 우도비를 이용하여 상기 음성 인식에 대한 신뢰도를 계산하는 상기 단계는,

상기 검출된 위치 차이에 따른 상태 변화 점수 및 상기 음성 인식에 대한 우도비(likelihood ratio)을 이용하여 상기 음성 인식에 대한 신뢰도를 계산하는 것을 특징으로 하는 신뢰도 측정 방법.
음성 인식기의 음성 인식에 대한 신뢰도를 측정하는 방법에 있어서,

음성 신호에 대한 특징을 추출하는 단계;

상기 음성 신호에 대한 스펙트로그램을 계산하는 단계;

소정의 음성 인식 모델을 이용하여 상기 추출된 음성 신호에 대한 특징으로부터 음성을 인식하는 단계;

상기 음성 인식 결과와 상기 계산된 스펙트로그램을 이용하여 음성 신호의 상태 변화를 비교하는 단계;

상기 음성 인식 모델에 따라 상기 음성 인식에 대한 우도비를 계산하는 단계; 및

상기 상태 변화 비교 결과와 상기 우도비를 고려하여 상기 음성 인식에 대한 신뢰도를 계산하는 단계

를 포함하는 것을 특징으로 하는 신뢰도 측정 방법.
제7항에 있어서,

상기 음성 인식 모델은,

키워드 모델(Keyword-Model) 및 필러 모델(Filler Model)을 포함하는 것을 특징으로 하는 신뢰도 측정 방법.
제8항에 있어서,

상기 음성 인식 결과와 상기 계산된 스펙트로그램을 이용하여 음성 신호의 상태 변화를 비교하는 상기 단계는,

상기 키워드 모델(Keyword-Model)에 따른 음성 인식 결과인 음소열 변화 위치와 일정 범위내에서 가장 가까운 상태 변화 위치를 비교하는 단계; 및

상기 비교 결과에 따라 상기 스펙트로그램 상의 거리가 큰 상위 N개 중 음소열의 변화 위치에 대응되지 않은 경우, 패널티 점수를 부여하는 단계를 포함하는 것을 특징으로 하는 신뢰도 측정 방법.
제8항에 있어서,

상기 계산된 신뢰도에 따라 상기 인식된 음성 신호에 대한 수락(accept) 여부를 결정하는 단계를 더 포함하는 것을 특징으로 하는 신뢰도 측정 방법.
제1항 내지 제10항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록하는 컴퓨터 판독 가능한 기록매체.
음성 인식기의 음성 인식에 대한 신뢰도를 측정하는 장치에 있어서,

음성 신호에 대한 상태 변화 위치를 검출하는 상태 변화 검출부;

상기 음성 인식기에서 상기 음성 신호의 음성 인식 결과에 따른 음소열의 변화 위치를 검출하는 음소열 변화 검출부; 및

상기 검출된 상태 변화 위치와 상기 검출된 음소열의 변화 위치를 비교한 결과와 우도비를 이용하여 상기 음성 인식에 대한 신뢰도를 계산하는 신뢰도 계산부

를 포함하는 것을 특징으로 하는 신뢰도 측정 장치.
제12항에 있어서,

상기 상태 변화 검출부는,

상기 음성 신호에 대한 스펙트로그램, 웨이브 파형 또는 상기 음성 신호의 특징으로부터 상기 음성 신호에 대한 상태 변화 위치를 검출하는 것을 특징으로 하는 신뢰도 측정 장치.
제13항에 있어서,

상기 상태 변화 검출부는,

상기 음성 신호에 대한 스펙트로그램상에서 피크와 밸리를 이용하여 상기 음성 신호에 대한 상태 변화 위치를 검출하는 것을 특징으로 하는 신뢰도 측정 장치.
제12항에 있어서,

상기 신뢰도 계산부는,

상기 스펙트로그램상에서 검출된 상태 변화 위치가 상기 검출된 음소열의 변화 위치에 대응되지 않는 경우, 패널티 점수를 부여하여 상기 신뢰도를 계산하는 것을 특징으로 하는 신뢰도 측정 장치.
음성 인식기의 음성 인식에 대한 신뢰도를 측정하는 장치에 있어서,

음성 신호에 대한 특징을 추출하는 특징 추출부;

상기 음성 신호에 대한 스펙트로그램을 계산하는 스펙트로그램 계산부;

소정의 음성 인식 모델을 이용하여 상기 추출된 음성 신호에 대한 특징으로부터 음성을 인식하는 음성 인식부;

상기 음성 인식 결과와 상기 계산된 스펙트로그램을 이용하여 상태 변화를 비교하는 상태 변화 비교부;

상기 음성 인식 결과에 따른 상기 음성 인식에 대한 우도비(likelihood ratio)을 계산하는 우도비 계산부; 및

상기 상태 변화 비교 결과와 상기 우도비를 고려하여 상기 음성 인식에 대한 신뢰도를 계산하는 신뢰도 계산부

를 포함하는 것을 특징으로 하는 신뢰도 측정 장치.
제16항에 있어서,

상기 음성 인식부는,

상기 추출된 특징으로부터 키워드 모델(Keyword-Model) 및 필러 모델(Filler Model)을 통해 상기 음성을 인식하는 것을 특징으로 하는 신뢰도 측정 장치.
제17항에 있어서,

상기 상태 변화 비교부는,

상기 키워드 모델(Keyword-Model)에 의한 음성 인식 결과인 음소열의 변화 위치와 일정 범위내에서 가장 가까운 스펙트로그램의 변화 위치를 비교하고, 상기 비교 결과에 따라 상기 스펙트로그램 상의 거리가 큰 상위 N개 중 음소열의 변화 위치에 대응되지 않는 경우, 패널티 점수를 부여하는 것을 특징으로 하는 신뢰도 측정 장치.
제16항에 있어서,

상기 계산된 신뢰도에 따라 상기 인식된 음성 신호에 대한 수락(accept) 여부를 결정하는 결정부를 더 포함하는 것을 특징으로 하는 신뢰도 측정 장치.