KR100940641B1

KR100940641B1 - 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법

Info

Publication number: KR100940641B1
Application number: KR1020070136643A
Authority: KR
Inventors: 권석봉; 김회린; 김정현
Original assignee: 한국과학기술원
Priority date: 2007-12-24
Filing date: 2007-12-24
Publication date: 2010-02-05
Also published as: KR20090068856A

Abstract

본 발명에 의한 발화검증 시스템은, 입력 음성신호로부터 음성의 특징을 표현하는 특징벡터를 추출하는 특징벡터 추출부, 추출된 특징벡터로부터 음성인식을 수행하고, 음색도 추출부로 음소레벨의 인식정보를 전달하는 음성인식부, 음소레벨의 인식정보, 반모델 및 단어음색 모델을 이용하여 음소레벨 로그우도 음색도와 음소레벨 지속시간 음색도를 구하고, 각각으로부터 단어레벨 로그우도 음색도와 단어레벨 지속시간 음색도를 추출하는 음색도 추출부 및, 음색도 추출부에서 출력된 단어레벨 로그우도 음색도와 단어레벨 지속시간 음색도를 이용하여 음성인식된 결과에 대해 수락 또는 거절을 결정하는 발화검증부를 구비한다.

Description

음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한 단어음색 모델 기반 발화검증 시스템 및 방법{Utterance verification system and method using word voiceprint models based on probabilistic distributions of phone-level log-likelihood ratio and phone duration}

본 발명은 음성인식에 대한 발화검증시 보다 정확한 신뢰도를 측정하기 위해, 음소레벨 로그우도 비율 분포와 음소 지속시간 분포 정보를 포함하는 단어음색 모델(Word Voiceprint Model)을 활용한 발화검증 시스템 및 방법에 관한 것이다.

음성인식 시스템이란 자동적 수단에 의하여 음성으로부터 언어적 의미 내용을 식별하는 것을 말하는데, 구체적으로 음성파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리를 하는 시스템이다.

그런데, 아무리 음성인식 시스템이 응용 환경에 적합하게 만들어졌다 하더라도, 실제 사용 환경에서는 다양한 잡음, 화자의 변화, 채널의 변화, 발성 방법의 변화 등 많은 변수가 존재하기 때문에 오인식 문제를 피할 수 없다. 따라서 환경의 불일치뿐만 아니라, 화자의 잘못된 발성으로 인해 발생되는 오인식 문제를 효과적으로 해결할 수 있는 기능은 지능적 음성인식 시스템을 구현함에 있어 매우 중요하 다.

발화검증(Utterance Verification)이란 음성인식 시스템에서 인식한 결과를 수락할 수 있는지 아니면 거절할 것인지를 결정하는 것을 말하며, 일반적으로 인식 결과에 대한 신뢰도를 측정(Confidence Measure)하여 판단한다. 즉, 발화된 음성을 신뢰도에 따라 인식대상어휘(In-Vocabulary)는 수락하고, 비인식대상어휘(Out-Of-Vocabulary)는 거절한다.

최근 로봇, 휴대폰, PDA, 홈오토메이션 등 많은 응용 시스템이 실제 환경에 노출되어 있고, 의도하지 않는 다양한 음성 입력을 받을 수 있는 조건에서 사용되는 경우가 많기 때문에, 좋은 성능을 가진 발화검증 시스템의 수요는 계속 증가하고 있다. 또한 핵심어 인식 시스템, 발화된 음성을 인식하고 자동적으로 재훈련 하거나, 화자에 적응된 모델을 자동으로 업데이트하는 시스템에도 적용할 수 있는 등 발화검증을 필요로 하는 응용 기술의 수요도 날로 증가하고 있다.

발화검증시 현재까지 많이 사용되고 있으며 좋은 성능을 보이고 있는 신뢰도 척도는 우도 비율 검증(Likelihood Ratio Testing)기반 신뢰도 척도와 후확률(Posterior Probability)기반 신뢰도 척도이다.

우도 비율 검증 기반 신뢰도 척도는 음성인식 시스템으로부터 얻은 음소 단위의 인식 결과에서, 먼저 음소레벨의 로그우도 비율(Phone-level log-likelihood Ratio)을 구한 다음, 단어레벨의 로그우도 비율(Word-level log-likelihood Ratio)을 구한다.

이때, 음소레벨 로그우도 비율(PLLR(ph))은 수학식 1과 같이 구할 수 있다.

여기서 τ(ph)는 인식된 음소의 프레임 수, X_ph는 인식된 음소의 입력 특징벡터열,

와

는 각각 인식된 음소에 대한 음향모델(Acoustic model)과 반모델(Anti-model)을 나타낸다.

음향모델이란 음성인식을 위해 음소별로 훈련된 특징벡터의 통계학적 모델을 나타내며, 문맥 종속형 음소(triphone) 단위의 은닉 마르코프 모델(Hidden Markov Model)이 음성인식 분야에서 음향모델로서 가장 널리 사용되고 있다. 반모델은 인식된 음향모델에 대한 우도 비율 형태의 신뢰도를 추출할 때, 인식된 음소의 음향모델과 경쟁시키기 위해 따로 훈련된 음향모델을 말한다. 즉, 인식된 문맥 종속형 음소의 기본음소(basephone) 모노음소(monophone)를 제외한 다른 모든 모노음소(monophone)로 이루어져 있는 음향모델을 반모델로서 사용할 수 있다. 예를 들면 인식된 음소가 문맥 종속형 음소인 a-b+c라고 하면, 기본 음소는 b가 되고 반모델은 b를 나타내는 음향모델을 제외한 다른 모든 모노음소 음향모델로 이루어져 있는 음향모델을 말한다.

단어레벨 로그우도 비율은 수학식 1에서 구한 음소레벨 로그우도 비율에 시그모이드(sigmoid)함수를 취한 다음, 산술, 기하, 또는 조화평균을 구한 값이다. 이렇게 산술, 기하, 또는 조화평균으로 구한 단어레벨 로그우도 비율을 인식 단어 에 대한 신뢰도로 사용할 경우 거의 성능의 차이가 없기 때문에, 세가지 방법 중 산술평균으로 구한 단어레벨 로그우도 비율을 인식단어에 대한 기본 신뢰도로 사용할 수 있다.

수학식 2는 단어레벨 로그우도 비율 중 산술평균을 구하는 식이다.

여기서 n_p(w)는 단어를 이루는 음소열의 길이를 나타내고, 시그모이드함수는 수학식 3과 같이 정의된다.

여기서, 시그모이드 함수값은 0과 1사이의 값으로서, 우도 비율이 크거나 작은 부분에서는 민감성을 약하게 하고, 신뢰도의 분별성이 필요한 부분의 우도 비율에서는 민감성을 높인다. α는 시그모이드 함수값의 증가 속도를 나타내는데 α가 크면 β 부근에서의 기울기가 가파르고, 작으면 함수값이 천천히 증가한다. β는 시그모이드 함수의 함수값 0.5를 갖는 부분으로서, 보다 정확한 신뢰도를 구하기 위해 우도 비율의 분별성이 많이 요구되는 부분으로 정하는 것이 좋다. α와 β는 발화검증 시스템이 사용되는 환경적 요인에 따라 최적의 값이 다르기 때문에, 일반적으로 사용 환경에 맞는 최적의 α와 β를 정하는 것이 바람직하다.

수학식 2에 의한 단어레벨 로그우도 비율의 산술평균을 단어에 대한 신뢰도 척도로 하여, 이것이 미리 정해진 문턱치보다 높게 되면 수락을 하고, 낮으면 거절을 하게 된다. 문턱치의 결정은 발화검증 시스템을 사용하는 응용 시스템의 요구에 따라 결정이 된다. 문턱치를 높게 정하면 오인식되는 경우가 줄어들지만 정상적으로 인식되어야 단어가 거절이 되는 경우가 증가하게 되고, 문턱치를 낮추게 되면 반대 현상이 발생한다. 따라서 일반적으로 사용되는 응용 시스템의 요구에 따라 문턱치를 정하게 된다. 즉, 오동작으로부터 심각한 문제가 발생하는 음성 명령어 인식 시스템에서는 낮은 오인식률이 요구되기 때문에 문턱치를 높게 정한다.

이상과 같이 구할 수 있는 단어레벨 로그우도 비율은 실험을 통한 결과 몇 가지 문제점을 알 수 있었다.

첫 번째, 오인식되는 단어가 인식된 단어와 유사할 경우 오인식되는 음소의 수가 정상적으로 인식되는 음소의 수보다 훨씬 적고, 오인식되는 음소의 로그우도 비율이 정상적으로 인식되는 음소들의 로그우도 비율보다 상대적으로 낮다. 따라서 평균을 구하는 과정에서 단어의 로그우도 비율이 전체적으로 문턱치보다 높게 계산되는 경우가 많아, 거절을 하지 못하고 수락을 하게 된다. 이럴 경우 오인식률(False Alarm Rate)이 증가하게 된다.

두 번째 문제는 우도 비율 검증 기반의 신뢰도 척도에서, 다른 단어에서 같은 음향모델을 가지는 인식 음소에 대해 같은 인식 음향모델과 같은 반모델(Anti-model)를 적용한다는 것이다. 따라서, 단어에 따라 다른 음소레벨 로그우도 비 율(Phone-level Log-Likelihood Ratio) 분포를 가지고 있음에도 불구하고, 공통된 음소레벨 로그우도 비율 기준이 적용되는 단점이 있다.

다른 단어에서 같은 음향모델을 갖는 음소라도, 다른 음소레벨 로그우도 비율 분포 및 다른 음소 지속시간 분포를 가지고 있다. 음성인식 시스템의 인식과정은 최대 우도(Maximum Likelihood)를 찾는 과정이다. 그런데 발화검증의 경우 음소레벨 로그우도 비율을 구하게 되는데, 인식된 음소의 음향모델에 대한 우도는 같은 음향모델을 가지더라도 단어가 다르면 인식 로그우도의 차이가 클 경우가 발생한다. 반면, 반모델에 대해서는 로그우도의 차이가 상대적으로 덜 민감하기 때문에, 음소레벨 로그우도 비율의 분포가 단어마다 다른 특징을 가지게 된다. 마찬가지로 음소 지속시간도 같은 음소라도 단어가 다르면 다른 음소 지속시간 분포를 보여준다. 따라서 단어별 음소에 대해 다른 음소레벨 로그우도 비율 분포와 다른 음소 지속시간 분포를 이용해서 적용하고, 오인식되는 음소의 로그우도 비율을 정상적으로 인식되는 음소의 로그우도 비율보다 강조할 필요가 있다.

본 발명은 상기한 점을 감안하여 발명된 것으로, 단어별 각 음소에 대한 정교한 음소레벨 로그우도 비율 및 음소 지속시간(Duration) 정보를 이용하고, 낮은 음소레벨 로그우도 비율을 더 강조하고 높은 음소레벨 로그우도 비율을 무디게 하는 방법을 사용한 단어음색 모델 기반 발화검증 시스템 및 방법을 제공하는데 목적이 있다.

상기 목적을 달성하기 위한 본 발명은, 입력 음성신호로부터 음성의 특징을 표현하는 특징벡터를 추출하는 특징벡터 추출부, 추출된 특징벡터로부터 음성인식을 수행하고, 음색도 추출부로 음소레벨의 인식정보를 전달하는 음성인식부, 음소레벨의 인식정보, 반모델 및 단어음색 모델을 이용하여 음소레벨 로그우도 음색도와 음소레벨 지속시간 음색도를 구하고, 각각으로부터 단어레벨 로그우도 음색도와 단어레벨 지속시간 음색도를 추출하는 음색도 추출부 및, 음색도 추출부에서 출력된 단어레벨 로그우도 음색도와 단어레벨 지속시간 음색도를 이용하여 음성인식된 결과에 대해 수락 또는 거절을 결정하는 발화검증부를 구비하는 발화검증 시스템을 제공한다.

이때, 음성인식부는 프레임별 비터비 탐색(time-synchronous Viterbi search)을 통해 음성인식을 수행하는 것이 바람직하다.

발화검증 시스템에서 음색도 추출부는, 음소레벨의 인식정보와 반모델을 이 용하여 음소레벨 로그우도 비율(PLLR(ph))을 구하고, 음소레벨 로그우도 비율로부터 단어음색 모델을 사용해 음소레벨 로그우도 음색도(C_VP(ph))를 추출하는 음소레벨 로그우도 음색도 추출부, 상기 음소레벨 로그우도 음색도 추출부에서 추출된 음소레벨 로그우도 음색도(C_VP(ph))의 평균을 구하여 단어레벨 로그우도 음색도(C_VP ^A(w))를 추출하는 단어레벨 로그우도 음색도 추출부, 음소레벨의 인식정보와 단어음색 모델을 이용하여 음소레벨 지속시간 음색도(C_VP ^D(ph))를 추출하는 음소레벨 지속시간 음색도 추출부, 상기 음소레벨 지속시간 음색도 추출부에서 추출된 음소레벨 지속시간 음색도(C_VP ^D(ph))의 평균을 구하여 단어레벨 지속시간 음색도(C_VP ^D(w))를 추출하는 단어레벨 지속시간 음색도 추출부를 구비한다.

이때, 음소레벨 로그우도 음색도 추출부에서 음소레벨 로그우도 비율(PLLR(ph))은 수학식

와 같이 구하되, τ(ph)는 인식된 음소의 프레임 수, X_ph는 인식된 음소의 입력 특징벡터열,

와

는 각각 인식된 음소에 대한 음향모델과 반모델을 나타내는 것이 바람직하다. 그리고, 음소레벨 로그우도 음색도 추출부에서 음소레벨 로그우도 음색도(C_VP(ph))는 수학식

와 같이 구하되,

와

는 각각 단어 w의 음소 ph에 대한 음소레벨 로그우도 비율 분포의 평균과 표준편차를 나타내고,

는 수학식

와 같이 구하되, α는 음소레벨 로그우도 비율에서 나타날 수 있는 최소값의 경계점을 나타내고, β는 음소레벨 로그우도 음색도의 변화 속도를 나타낸다. 더욱이, 단어레벨 로그우도 음색도 추출부에서 단어레벨 로그우도 음색도(C_VP ^A(w))는 수학식

과 같이 구하되, n_p(w)는 단어를 이루는 음소열의 길이를 나타내는 것이 바람직하다. 또한, 음소레벨 지속시간 음색도 추출부에서 음소레벨 지속시간 음색도(C_VP ^D(ph))는 수학식

과 같이 구하되, τ(ph)는 인식된 음소 ph의 프레임 수,

와

는 각각 단어 w의 음소 ph에 대한 음소레벨 지속시간 분포의 평균과 표준편차를 나타내고, ε은 확실히 올바르게 발성이 되었다고 보는 지속시간 범위의 크기를 나타낸다. 단어레벨 지속시간 음색도 추출부에서 단어레벨 지속시간 음색도(C_VP ^D(w))는 수학식

과 같이 구하되, n_p(w)는 단어를 이루는 음소열의 길이를 나타내는 것이 바람직하다.

발화검증 시스템에서, 발화검증부는 단어레벨 지속시간 음색도가 소정 문턱치보다 높거나 같을 경우 수락하고, 낮을 경우 거절하는 제1판단부, 제1판단부에서 수락된 경우에 대해, 단어레벨 로그우도 음색도가 소정 문턱치보다 높거나 같을 경우 수락하고, 낮을 경우 거절하는 제2판단부를 구비하는 것이 바람직하다.

발화검증 시스템은 개발음성 데이터로부터 인식된 레이블 파일을 이용하여, 음소레벨 로그우도 비율 분포와 음소레벨 지속시간 분포에 대한 정보를 포함하는 단어음색 모델을 생성하는 단어음색 모델 생성부를 더 구비하는 것이 바람직하다. 이때, 레이블 파일은 음성인식된 단어에 대한 프레임 정보와 로그우도, 음소 단위의 프레임 정보와 로그우도 및, 반모델에 대한 로그우도 정보를 포함하는 것이 바람직하다.

상기 목적을 달성하기 위한 본 발명은, (a) 입력 음성신호로부터 음성의 특징을 표현하는 특징벡터를 추출하는 단계, (b) 추출된 특징벡터로부터 음성인식을 수행하여, 음소레벨의 인식정보를 생성하는 단계, (c) 음소레벨의 인식정보, 반모 델 및 단어음색 모델을 이용하여 음소레벨 로그우도 음색도와 음소레벨 지속시간 음색도를 구하고, 각각으로부터 단어레벨 로그우도 음색도와 단어레벨 지속시간 음색도를 추출하는 단계 및, (d) 단어레벨 로그우도 음색도와 단어레벨 지속시간 음색도를 이용하여 음성인식된 결과에 대해 수락 또는 거절을 결정하는 단계를 포함하는 발화검증 방법을 제공한다.

이때, (b) 단계에 있어서, 음성인식부는 프레임별 비터비 탐색(time-synchronous Viterbi search)을 통해 음성인식을 수행하는 것이 바람직하다.

발화검증 방법에서, (c) 단계는 (c1) 음소레벨의 인식정보와 반모델을 이용하여 음소레벨 로그우도 비율(PLLR(ph))을 구하는 단계, (c2) 음소레벨 로그우도 비율로부터 단어음색 모델을 사용해 음소레벨 로그우도 음색도(C_VP(ph))를 추출하는 단계, (c3) 음소레벨 로그우도 음색도(C_VP(ph))의 평균을 구하여 단어레벨 로그우도 음색도(C_VP ^A(w))를 추출하는 단계를 포함하는 것이 바람직하다. 이때, (c1) 단계에 있어서, 음소레벨 로그우도 비율(PLLR(ph))은 수학식

와

는 각각 인식된 음소에 대한 음향모델과 반모델을 나타내는 것이 바람직하고, (c2) 단계에 있어서, 음소레벨 로그우도 음색도(C_VP(ph))는 수학식

와 같이 구하되,

와

는 수학식

와 같이 구하되, α는 음소레벨 로그우도 비율에서 나타날 수 있는 최소값의 경계점을 나타내고, β는 음소레벨 로그우도 음색도의 변화 속도를 나타낸다. (c3) 단계에 있어서, 단어레벨 로그우도 음색도(C_VP ^A(w))는 수학식

또는, 발화검증 방법에서, (c) 단계는 (c1) 음소레벨의 인식정보와 단어음색 모델을 이용하여 음소레벨 지속시간 음색도(C_VP ^D(ph))를 추출하는 단계, (c2) 음소레벨 지속시간 음색도(C_VP ^D(ph))의 평균을 구하여 단어레벨 지속시간 음색도(C_VP ^D(w))를 추출하는 단계를 포함하는 것이 바람직하다. 이때, (c1) 단계에 있어서, 음소레벨 지속시간 음색도(C_VP ^D(ph))는 수학식

과 같이 구하되, τ(ph)는 인식된 음소 ph의 프레임 수,

와

는 각각 단어 w의 음소 ph에 대한 음소레벨 지속시간 분포의 평균과 표준편차를 나타내고, ε은 확실히 올바르게 발성이 되었다고 보는 지속시간 범위의 크기를 나타낸다. (c2) 단계에 있어서, 단어레벨 지속시간 음색도(C_VP ^D(w))는 수학식

발화검증 방법에서, (d) 단계는, (d1) 단어레벨 지속시간 음색도가 소정 문턱치보다 높거나 같을 경우 수락하고, 낮을 경우 거절하는 단계, (d2) 상기 (d1) 단계에서 수락된 경우에 대해, 단어레벨 로그우도 음색도가 소정 문턱치보다 높거나 같을 경우 수락하고, 낮을 경우 거절하는 단계를 포함하는 것이 바람직하다.

발화검증 방법에서, 단어음색 모델은 개발음성 데이터로부터 인식된 레이블 파일을 이용하여 생성하며, 음소레벨 로그우도 비율 분포와 음소레벨 지속시간 분포에 대한 정보를 포함하고, 이때 레이블 파일은 음성인식된 단어에 대한 프레임 정보와 로그우도, 음소 단위의 프레임 정보와 로그우도 및, 반모델에 대한 로그우도 정보를 포함하는 것이 바람직하다.

기존의 방법에서는 단어가 다르더라도 인식된 음소가 같으면 같은 인식 음향모델과 같은 반모델을 사용하여 음소레벨 로그우도 비율을 구하였다. 이때 단어에 따라 음소레벨 로그우도 비율의 분포가 다름에도 불구하고 전체 음소들의 로그우도 비율을 평균을 취해서 신뢰도를 추출하기 때문에, 같은 문턱치를 적용하거나 유사도가 높은 단어 간의 오인식에 있어 문제점들을 보이고 있다.

본 발명은 단어에 따라 다르게 나타나는 음소레벨 로그우도 비율의 분포와 음소 지속시간의 분포를 적용함으로써, 기존의 방법보다 더 신뢰할 수 있는 신뢰도를 추출할 수 있는 장점이 있다. 또한 음소열이 짧고 유사도가 높은 단어 사이에서도 신뢰도를 보다 정확하게 구할 수 있는 장점을 보이고 있다. 또한, 낮은 음소레벨 로그우도 비율을 더 강조하고 높은 음소레벨 로그우도 비율을 무디게 하는 방법을 사용함으로써, 기존의 방식보다 음성인식 결과에 대해 더 정확한 신뢰도를 구할 수 있다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세하게 설명하기로 한다. 그러나, 이하의 실시예는 이 기술분야에서 통상적인 지식을 가진 자에게 본 발명이 충분히 이해되도록 제공되는 것으로서 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 기술되는 실시예에 한정되는 것은 아니다.

도 1은 본 발명의 바람직한 실시예에 의한 단어음색 모델을 생성하는 것을 설명하는 블록도이다.

도 1을 참조하면, 개발음성 데이터(110)가 음성인식부(120)에 입력되면, 음성인식부(120)는 개발음성 데이터로부터 음성을 인식하여 레이블 파일을 생성한다. 레이블 파일은 음성인식 시스템으로부터 얻을 수 있는 인식결과를 저장하고 있는 파일로서, 인식된 단어에 대한 프레임 정보, 로그우도 뿐만 아니라 음소 단위의 프레임 정보, 로그우도, 반모델에 대한 로그우도의 인식 결과 정보를 담고 있다. 그 외에 필요에 따라 입력 음성에 대한 다양한 인식 결과 정보를 레이블 파일에 담을 수 있다. 이러한 레이블 파일을 이용하여 단어음색 모델을 생성할 수 있다.

단어음색 모델 생성부(130)는 음성인식부(120)로부터 레이블 파일을 입력받아 단어음색 모델을 생성한다. 레이블 파일에 담겨져 있는 음소 단위의 프레임 정보로부터 음소레벨 지속시간 분포를 얻을 수 있고, 인식 음향모델의 누적 로그우도와 반모델의 누적 로그우도로부터 음소레벨 로그우도 비율 분포를 얻을 수 있다. 종래의 우도 검증 기반 신뢰도 척도들은 다른 단어라도 같은 음향모델을 가지고 있는 음소에 대해, 음소레벨 로그우도 비율이 다름에도 불구하고 신뢰도를 구하는 과정에서 평균을 구함으로써 음소레벨의 신뢰도 정보가 효과적으로 단어레벨에 적용되지 못하는 단점이 있었다. 따라서 단어별로 음소레벨의 로그우도 비율 분포 및 지속시간 분포를 활용함으로써 효과적으로 인식 단어에 대한 신뢰도를 신빙성 있게 구할 수 있게 된다. 단어음색 모델이란 인식된 단어에 대한 신뢰도를 보다 신빙성 있게 구하기 위해, 단어에 대한 특징을 담고 있는 모델을 말한다. 본 발명에서는 단어음색 모델이 음소레벨 로그우도 비율 분포와 지속시간 분포에 대한 정보를 포 함하고 있으나, 더 나아가 발화검증의 성능 향상을 위해 보다 많은 정보를 단어음색 모델에 담을 수 있음은 물론이다.

여기서 단어음색 모델을 생성하기 위해 사용되는 개발음성 데이터는 음향모델 생성에 사용되는 훈련음성 데이터와 달라야 한다. 훈련에 사용된 음성 데이터를 사용하게 되면 단어음색 모델이 훈련음성 데이터에 치우치게 되어 새로 입력되는 음성에 대해 신뢰도를 신빙성 있게 구할 수가 없기 때문이다. 그 이유는 음향모델 뿐만 아니라 반모델에 대해 높게 편중된 로그우도를 가기지 때문이다. 따라서 개발음성 데이터를 사용하여 단어음색 모델을 생성함으로써, 다른 음성 입력 환경에 대해서도 효과적으로 신뢰도를 구할 수 있게 된다.

도 2는 본 발명의 바람직한 실시예에 의한 단어음색 모델 기반 발화검증 시스템을 설명하는 블록도이고, 도 3은 본 발명의 바람직한 실시예에 의한 단어음색 모델 기반 발화검증 방법을 설명하는 흐름도이다.

도 2 및 도 3을 참조하면, 음성입력부(210)를 통해 들어온 음성은 음성인식을 위한 특징벡터 추출을 위해 특징벡터 추출부(220)로 입력된다(제310단계).

특징벡터 추출부(220)는 입력 음성신호로부터 음성의 특징을 잘 표현하고 있는 특징벡터를 추출한다(제320단계). 본 발명에서는 음성인식 분야에서 가장 널리 사용되고 있는 멜프리컨시 켑스트럼 계수(Mel-Frequency Cepstrum Coefficients)를 특징벡터로 사용한다.

추출된 특징벡터는 음성인식부(230)에서 프레임별 비터비 탐색(time- synchronous Viterbi search)을 통해 음성인식이 되고, 음색도추출부(240)로 음소레벨의 인식정보가 전달된다(제330단계). 프레임별 비터비 탐색은 음성인식 분야에서 가장 널리 사용되고 있는 탐색방법으로서, 매 프레임별로 입력되는 특징벡터로부터 인식 네트웍으로 이루어진 인식공간 안에서 최고의 우도를 갖는 최적의 패스를 찾는 과정이다. 최적의 패스가 나타내는 단어가 최종 인식 단어가 된다. 그 외 신경망(Neural Network), 스택 디코딩(Stack Decoding) 등 여러 인식 방법을 사용할 수 있다.

음색도추출부(240)에서는 반모델(260)과 단어음색 모델(270)를 사용하여, 음소레벨 로그우도 음색도 추출부(241)와 음소레벨 지속시간 음색도 추출부(243)에서 음소레벨 로그우도 음색도와 음소레벨 지속시간 음색도를 구한다. 그리고, 음소레벨 로그우도 음색도와 음소레벨 지속시간 음색도를 이용하여, 단어레벨 로그우도 음색도 추출부(242)와 단어레벨 지속시간 음색도 추출부(244)에서 단어레벨 로그우도 음색도와 단어레벨 지속시간 음색도를 추출하게 된다(제340단계). 단어음색 모델(270)은 도 1을 참조하여 설명한 것과 같이 생성된다.

먼저, 음색도추출부(240)의 음소레벨 로그우도 음색도 추출부(241)는 음성인식부(230)로부터 전달된 음소레벨의 인식정보와 반모델(260)을 이용해 음소레벨 로그우도 비율(PLLR(ph))을 수학식 1과 같이 구한다. 그리고 구해진 음소레벨 로그우도 비율로부터 단어음색 모델(270)을 사용해 음소레벨 로그우도 음색도를 수학식 4와 같이 구한다.

여기서

와

는 각각 단어 w의 음소 ph에 대한 음소레벨 로그우도 비율 분포의 평균과 표준편차를 나타낸다. 그리고

는 수학식 5와 같다.

수학식 4에서, 인식된 음소의 음소레벨 로그우도(PLLR(ph))가 단어음색 모델의 음소레벨 로그우도 비율 분포에서 나온

-

보다 클 경우 바르게 인식된 것으로 본다. 따라서 정상적으로 인식이 되었기 때문에, 오인식 정도를 나타내는 음소레벨 로그우도 음색도를 0으로 놓는다. 반대로, 만약 인식 음소의 음소레벨 로그우도(PLLR(ph))가

-

보다 작을 경우 오인식 된 것으로 간주하고, 음소레벨 로그우도 음색도를 수학식 5와 같이 구한다. 즉, 음소레벨 로그우도로부터

-

에서 0값을 가지도록 로그함수를 사용해서 구한다. 그 이유는 음소레벨 로그우도 음색도를

-

보다 클 때 정상적으로 인식된 것으로 간주하여 음소레벨 로그우도 음색도의 최대값인 0으로 정했기 때문이다. 즉 음소레벨 로그우 도(PLLR(ph))가 작을수록 잘못된 음소임이 확실해 지는 의미를 가지고 있어서, 단어레벨 로그우도 음색도를 구할 때 평균을 취하더라도 오인식된 음소의 신뢰도를 강조하여 효과적으로 거절할 수 있도록 하고 있다. 시그모이드 함수는 확실히 오인식된 음소임에도 불구하고 0으로 수렴된 값을 사용함으로써 다른 음소의 높은 신뢰도에 묻히게 되는 경우가 종종 발생하기 때문에, 수학식 5처럼 오인식에 강조를 두는 수학식을 이용한다.

수학식 5에서, α는 음소레벨 로그우도 비율에서 나타날 수 있는 최소값의 경계점을 나타낸다. 즉, 음소레벨 로그우도 비율이

보다 작을 경우 다른 음소의 로그우도 비율에 상관없이 인식된 단어는 거절이 된다. α는 1보다 큰 값을 설정한다. 유사 단어 인식에 대한 거절을 높이기 위해서는 2에 가까운 값을 설정하고, 반대일 경우에는 4로 증가시킨다. 이와 같이, α는 바람직하게는 2보다 크고 4보다 작다. 보통의 경우, α는 3을 취한다. β는 음소레벨 로그우도 음색도의 변화 속도를 나타내는 것으로서, β가 클수록 음소레벨 로그우도 음색도를 음소레벨 로그우도 비율에 민감하게 반응하도록 한다. 즉, β값이 클 경우 음소레벨 로그우도의 변별력을 높여준다. 하지만, 변별력이 너무 높을 경우, 음소 하나의 낮은 로그우도 때문에 정상적으로 인식된 단어도 거절되는 경우가 빈번히 발생하므로 β는 1을 취하는 것이 바람직하며, 다른 값을 취하더라도 0.5 ~ 2 사이에서 정하는 것이 바람직하다. 도 4는 음소레벨 로그우도 음색도를 구하기 위해 사용된 수학식 5의 함수 그래프를 보여준다.

다음으로 단어레벨 로그우도 음색도는 수학식 6과 같이 단어레벨 음색도 추출부(242)에서 수학식 4에 의해 구한 음소레벨 로그우도 음색도의 산술평균을 구함으로써 추출된다. 단어레벨 로그우도 음색도는 음소레벨 로그우도 음색도의 기하 또는 조화평균을 구함으로써 추출될 수도 있다.

여기서 n_p(w)는 단어를 이루는 음소열의 길이를 나타낸다.

다음으로, 음소레벨 지속시간 음색도와 단어레벨 지속시간 음색도를 추출하는 방법에 대해 설명한다.

음소레벨 지속시간 음색도는 음소레벨 지속시간 음색도 추출부(243)에서 수학식 7과 같이 구해진다.

여기서 τ(ph)는 인식된 음소 ph의 프레임 수를 나타내며,

와

는 각각 단어 w의 음소 ph에 대한 음소레벨 지속시간 분포의 평균과 표준편차를 나타낸다.

음소레벨 지속시간은 발성을 하는 발화 속도에 따라 어느 정도의 변동이 있지만, 일정 범위 내에서 발성이 될 경우 올바르게 발성이 된 것으로 보고 함수값 1을 취한다. 일반적으로 같은 단어를 발성할 때 각 음소의 발화 속도는 화자에 따라 조금 다르기는 하지만, 같은 단어 내에서는 일정 지속시간 범위 내에서 발성을 하게 된다. 따라서 올바르게 인식이 되었다면, 인식된 음소의 지속시간은 일정 범위 내에서 나타나고, 오인식 되는 음소는 범위를 벗어나는 지속시간을 가질 확률이 높아지게 된다. 하지만 음소레벨 지속시간 음색도는 개발음성 데이터로부터 평균과 표준편차를 구하기 때문에 개발음성 데이터에 다소 의존적일 뿐만 아니라, 로그우도 음색도에 비해 성능이 떨어지기 때문에 보조적 수단으로 사용된다.

일반적으로 너무 빨리 발성하거나 너무 천천히 발성하는 경우를 제외하면, 단어 w의 음소 ph의 지속시간은 대부분 음소레벨 지속시간의 평균에서 ±1.5

안에 들어온다. 오인식에 대한 거절률을 높이고 올바른 인식에 대한 거절률을 낮추기 위해서는 ε을 0.9로 취하는 것이 바람직하다. 값을 너무 낮추게 되면 올바른 인식에 대한 거절률이 높아지므로, ε을 0.5 이하로 하지 않는 것이 바람직하다. ε을 작게 하면 입력되는 음성의 발화속도가 어느 정도 일정하다고 가정을 하는 것이고, ε을 크게 하면 발화 속도의 가변성을 많이 인정한다는 것이다. 따라서, 사용되는 환경, 사용하는 화자들의 발화 속도를 고려하여, ε을 설정하는 것이 바람직하다.

최종적으로 단어레벨 지속시간 음색도는 단어레벨 지속시간 추출부(244)에서 다음의 수학식 8과 같이 산술평균으로 구해질 수 있다. 단어레벨 지속시간 음색도는 음소레벨 지속시간 음색도의 기하 또는 조화평균을 구함으로써 추출될 수도 있다.

다음으로, 발화검증 판단부(250)에서는 음색도추출부(240)에서 출력된 단어레벨 로그우도 음색도와 단어레벨 지속시간 음색도를 이용하여 수락 또는 거절을 판단하게 된다(제350단계). 이러한 발화검증 판단부(250)는 바람직하게는 제1판단부(251)와 제2판단부(252)로 이루어질 수 있다.

제1판단부(251)는 수학식 8에서 추출된 단어레벨 지속시간 음색도를 이용하여 일차적으로 수락 또는 거절을 판단하게 된다. 단어레벨 지속시간 음색도는 단어레벨 로그우도 음색도의 보조적 수단으로 사용된다. 간혹 오인식된 단어 중 문턱치 보다 낮은 단어레벨 지속시간 음색도를 갖더라도 단어레벨 로그우도 음색도가 정상적인 값을 갖는 경우가 발생하게 되는데, 이것은 지속시간이 지나치게 길거나 짧을 경우 오인식된 음소의 로그우도 비율이 잘못 추출될 가능성이 높기 때문이다. 즉, 단어레벨 지속시간 음색도는 본 발명에서 발화검증의 보조적 수단으로서, 일차적으로 단어레벨 지속시간 음색도로 확실히 거절되는 것을 먼저 거절하는 역할을 한다. 단어레벨 지속시간 음색도로 수락 또는 거절하는 것은 수학식 9에 따라 판단한다.

여기서 θ_D는 인식된 단어 내에서 지속시간이 정상적으로 인식된 정도의 문턱치를 나타내는 것으로서, 예를 들어 θ_D가 1일 경우 모든 음소의 지속시간이 올바를 경우에만 수락을 한다는 것을 의미하고, θ_D가 0일 경우 지속시간의 상관없이 로그우도 비율만으로 수락 또는 거절을 판단하겠다는 것을 의미하게 된다.

단어레벨 지속시간 음색도를 이용한 판단에서 수락이 되면, 제2판단부(252)는 수학식 6에서 추출된 단어레벨 로그우도 음색도를 이용하여 최종적인 판단을 하게 된다.

단어레벨 로그우도 음색도를 이용하는 제2판단부(252)는 수학식 10에서처럼 정해진 문턱치(θ) 보다 높거나 같으면 수락을 하고 문턱치(θ)보다 낮으면 거절한다. 문턱치(θ)의 결정은 발화검증을 사용하는 응용 시스템의 요구에 따라 결정이 된다. 문턱치를 높게 정하면 오인식되는 경우가 줄어들지만 정상적으로 인식되어야 할 단어가 거절되는 경우가 증가하게 되고, 문턱치를 낮추게 되면 반대의 경우가 발생한다. 따라서 일반적으로 사용되는 응용 시스템의 요구에 따라 문턱치를 정한다.

도 1은 본 발명의 바람직한 실시예에 의한 단어음색 모델을 생성하는 것을 설명하는 블록도,

도 2는 본 발명의 바람직한 실시예에 의한 단어음색 모델 기반 발화검증 시스템을 설명하는 블록도이고,

도 3은 본 발명의 바람직한 실시예에 의한 단어음색 모델 기반 발화검증 방법을 설명하는 흐름도,

도 4는 음소레벨 로그우도 음색도를 구하기 위해 사용된 수학식 5의 함수 그래프를 보여준다.

Claims

입력 음성신호로부터 음성의 특징을 표현하는 특징벡터를 추출하는 특징벡터 추출부;

추출된 특징벡터로부터 음성인식을 수행하고, 음색도 추출부로 음소레벨의 인식정보를 전달하는 음성인식부;

음소레벨의 인식정보, 반모델 및 단어음색 모델을 이용하여 음소레벨 로그우도 음색도와 음소레벨 지속시간 음색도를 구하고, 각각으로부터 단어레벨 로그우도 음색도와 단어레벨 지속시간 음색도를 추출하는 음색도 추출부 및;

음색도 추출부에서 출력된 단어레벨 로그우도 음색도와 단어레벨 지속시간 음색도를 이용하여 음성인식된 결과에 대해 수락 또는 거절을 결정하는 발화검증부를 구비하는 것을 특징으로 하는 발화검증 시스템.
제1항에 있어서, 상기 음성인식부는 프레임별 비터비 탐색(time-synchronous Viterbi search)을 통해 음성인식을 수행하는 것을 특징으로 하는 발화검증 시스템.
제1항에 있어서, 상기 음색도 추출부는,

음소레벨의 인식정보와 반모델을 이용하여 음소레벨 로그우도 비율(PLLR(ph))을 구하고, 음소레벨 로그우도 비율로부터 단어음색 모델을 사용해 음 소레벨 로그우도 음색도(C_VP(ph))를 추출하는 음소레벨 로그우도 음색도 추출부;

상기 음소레벨 로그우도 음색도 추출부에서 추출된 음소레벨 로그우도 음색도(C_VP(ph))의 평균을 구하여 단어레벨 로그우도 음색도(C_VP ^A(w))를 추출하는 단어레벨 로그우도 음색도 추출부;

음소레벨의 인식정보와 단어음색 모델을 이용하여 음소레벨 지속시간 음색도(C_VP ^D(ph))를 추출하는 음소레벨 지속시간 음색도 추출부;

상기 음소레벨 지속시간 음색도 추출부에서 추출된 음소레벨 지속시간 음색도(C_VP ^D(ph))의 평균을 구하여 단어레벨 지속시간 음색도(C_VP ^D(w))를 추출하는 단어레벨 지속시간 음색도 추출부를 구비하는 것을 특징으로 하는 발화검증 시스템.
제3항에 있어서, 상기 음소레벨 로그우도 음색도 추출부에서 음소레벨 로그우도 비율(PLLR(ph))은 수학식
와 같이 구하되, τ(ph)는 인식된 음소의 프레임 수, X_ph는 인식된 음소의 입력 특징벡터열,
와
는 각각 인식된 음소에 대한 음향모델과 반모델을 나타내는 것을 특징으로 하는 발화검증 시스템.
제3항에 있어서, 상기 음소레벨 로그우도 음색도 추출부에서 음소레벨 로그우도 음색도(C_VP(ph))는 수학식
와 같이 구하되,
와
는 각각 단어 w의 음소 ph에 대한 음소레벨 로그우도 비율 분포의 평균과 표준편차를 나타내고,
는 수학식
와 같이 구하되, α는 음소레벨 로그우도 비율에서 나타날 수 있는 최소값의 경계점을 나타내고, β는 음소레벨 로그우도 음색도의 변화 속도를 나타내는 것을 특징으로 하는 발화검증 시스템.
제3항에 있어서, 상기 단어레벨 로그우도 음색도 추출부에서 단어레벨 로그우도 음색도(C_VP ^A(w))는 수학식
과 같이 구하되, n_p(w)는 단어를 이루는 음소열의 길이를 나타내는 것을 특징으로 하는 발화검증 시스템.
제3항에 있어서, 상기 음소레벨 지속시간 음색도 추출부에서 음소레벨 지속시간 음색도(C_VP ^D(ph))는 수학식
과 같이 구하되, τ(ph)는 인식된 음소 ph의 프레임 수,
와
는 각각 단어 w의 음소 ph에 대한 음소레벨 지속시간 분포의 평균과 표준편차를 나타내고, ε은 확실히 올바르게 발성이 되었다고 보는 지속시간 범위의 크기를 나타내는 것을 특징으로 하는 발화검증 시스템.
제3항에 있어서, 상기 단어레벨 지속시간 음색도 추출부에서 단어레벨 지속시간 음색도(C_VP ^D(w))는 수학식
과 같이 구하되, n_p(w)는 단어를 이루는 음소열의 길이를 나타내는 것을 특징으로 하는 발화검증 시스템.
제1항에 있어서, 상기 발화검증부는

단어레벨 지속시간 음색도가 소정 문턱치보다 높거나 같을 경우 수락하고, 낮을 경우 거절하는 제1판단부;

제1판단부에서 수락된 경우에 대해, 단어레벨 로그우도 음색도가 소정 문턱 치보다 높거나 같을 경우 수락하고, 낮을 경우 거절하는 제2판단부를 구비하는 것을 특징으로 하는 발화검증 시스템.
제1항 내지 제9항 중 어느 한 항에 있어서,

개발음성 데이터로부터 인식된 레이블 파일을 이용하여, 음소레벨 로그우도 비율 분포와 음소레벨 지속시간 분포에 대한 정보를 포함하는 단어음색 모델을 생성하는 단어음색 모델 생성부를 더 구비하는 것을 특징으로 하는 발화검증 시스템.
제10항에 있어서, 상기 레이블 파일은 음성인식된 단어에 대한 프레임 정보와 로그우도, 음소 단위의 프레임 정보와 로그우도 및, 반모델에 대한 로그우도 정보를 포함하는 것을 특징으로 하는 발화검증 시스템.
(a) 입력 음성신호로부터 음성의 특징을 표현하는 특징벡터를 추출하는 단계;

(b) 추출된 특징벡터로부터 음성인식을 수행하여, 음소레벨의 인식정보를 생성하는 단계;

(c) 음소레벨의 인식정보, 반모델 및 단어음색 모델을 이용하여 음소레벨 로그우도 음색도와 음소레벨 지속시간 음색도를 구하고, 각각으로부터 단어레벨 로그우도 음색도와 단어레벨 지속시간 음색도를 추출하는 단계 및;

(d) 단어레벨 로그우도 음색도와 단어레벨 지속시간 음색도를 이용하여 음성 인식된 결과에 대해 수락 또는 거절을 결정하는 단계를 포함하는 것을 특징으로 하는 발화검증 방법.
제12항에 있어서, 상기 (b) 단계에 있어서,

음성인식부는 프레임별 비터비 탐색(time-synchronous Viterbi search)을 통해 음성인식을 수행하는 것을 특징으로 하는 발화검증 방법.
제12항에 있어서, 상기 (c) 단계는

(c1) 음소레벨의 인식정보와 반모델을 이용하여 음소레벨 로그우도 비율(PLLR(ph))을 구하는 단계;

(c2) 음소레벨 로그우도 비율로부터 단어음색 모델을 사용해 음소레벨 로그우도 음색도(C_VP(ph))를 추출하는 단계;

(c3) 음소레벨 로그우도 음색도(C_VP(ph))의 평균을 구하여 단어레벨 로그우도 음색도(C_VP ^A(w))를 추출하는 단계를 포함하는 것을 특징으로 하는 발화검증 방법.
제14항에 있어서, 상기 (c1) 단계에 있어서,

음소레벨 로그우도 비율(PLLR(ph))은 수학식
와 같이 구하되, τ(ph)는 인식된 음소의 프레임 수, X_ph는 인식된 음소의 입력 특징벡터열,
와
는 각각 인식된 음소에 대한 음향모델과 반모델을 나타내는 것을 특징으로 하는 발화검증 방법.
제14항에 있어서, 상기 (c2) 단계에 있어서,

음소레벨 로그우도 음색도(C_VP(ph))는 수학식
와 같이 구하되,
와
는 각각 단어 w의 음소 ph에 대한 음소레벨 로그우도 비율 분포의 평균과 표준편차를 나타내고,
는 수학식
와 같이 구하되, α는 음소레벨 로그우도 비율에서 나타날 수 있는 최소값의 경계점을 나타내고, β는 음소레벨 로그우도 음색도의 변화 속도를 나타내는 것을 특징으로 하는 발화검증 방법.
제14항에 있어서, 상기 (c3) 단계에 있어서,

단어레벨 로그우도 음색도(C_VP ^A(w))는 수학식
과 같이 구하되, n_p(w)는 단어를 이루는 음소열의 길이를 나타내는 것을 특징으로 하는 발화검증 방법.
제12항에 있어서, 상기 (c) 단계는

(c1) 음소레벨의 인식정보와 단어음색 모델을 이용하여 음소레벨 지속시간 음색도(C_VP ^D(ph))를 추출하는 단계;

(c2) 음소레벨 지속시간 음색도(C_VP ^D(ph))의 평균을 구하여 단어레벨 지속시간 음색도(C_VP ^D(w))를 추출하는 단계를 포함하는 것을 특징으로 하는 발화검증 방법.
제18항에 있어서, 상기 (c1) 단계에 있어서,

음소레벨 지속시간 음색도(C_VP ^D(ph))는 수학식
과 같이 구하되, τ(ph)는 인식된 음소 ph의 프레임 수,
와
는 각각 단어 w의 음소 ph에 대한 음소레벨 지속시간 분포의 평균과 표준편차를 나타내고, ε은 확실히 올바르게 발성이 되었다고 보는 지속시간 범위의 크기를 나타내는 것을 특징으로 하는 발화검증 방법.
제18항에 있어서, 상기 (c2) 단계에 있어서,

단어레벨 지속시간 음색도(C_VP ^D(w))는 수학식
과 같이 구하되, n_p(w)는 단어를 이루는 음소열의 길이를 나타내는 것을 특징으로 하는 발화검증 방법.
제12항에 있어서, 상기 (d) 단계는,

(d1) 단어레벨 지속시간 음색도가 소정 문턱치보다 높거나 같을 경우 수락하고, 낮을 경우 거절하는 단계;

(d2) 상기 (d1) 단계에서 수락된 경우에 대해, 단어레벨 로그우도 음색도가 소정 문턱치보다 높거나 같을 경우 수락하고, 낮을 경우 거절하는 단계를 포함하는 것을 특징으로 하는 발화검증 방법.
제12항 내지 제21항 중 어느 한 항에 있어서,

단어음색 모델은 개발음성 데이터로부터 인식된 레이블 파일을 이용하여 생성하며, 음소레벨 로그우도 비율 분포와 음소레벨 지속시간 분포에 대한 정보를 포함하는 것을 특징으로 하는 발화검증 방법.
제22항에 있어서, 상기 레이블 파일은 음성인식된 단어에 대한 프레임 정보와 로그우도, 음소 단위의 프레임 정보와 로그우도 및, 반모델에 대한 로그우도 정보를 포함하는 것을 특징으로 하는 발화검증 방법.