KR20030069378A

KR20030069378A - 음성인식시스템의 핵심어 검출을 위한 후처리방법

Info

Publication number: KR20030069378A
Application number: KR1020020008979A
Authority: KR
Inventors: 김진영; 최승호; 이경록
Original assignee: 대한민국(전남대학교총장)
Priority date: 2002-02-20
Filing date: 2002-02-20
Publication date: 2003-08-27
Also published as: KR100449912B1

Abstract

본 발명은 음성인식시스템의 핵심어 검출을 위한 후처리방법에 관한 것으로, 핵심어 검출을 위한 후처리시에 실제 음소가 다른 반음소들에 의해서 열화되는 경향을 해결하기 위해서 음소 인식부에 의해 실제 반음소를 추정하여 이를 반음소 모델로 사용함으로써, 검출된 핵심어가 실제로 발성되었다는 가정에 대한 반대가설의 변별력을 향상시켜서 오검출된 핵심어가 인정되는 것을 방지할 수 있다.

Description

음성인식시스템의 핵심어 검출을 위한 후처리방법 {Apparatus and method for detecting topic in speech recognition system}

본 발명은 음성인식시스템의 핵심어 검출을 위한 후처리방법에 관한 것으로,보다 상세하게는 검출된 핵심어의 유효성을 검증하기 위한 변별력을 향상시킬 수 있는 음성인식시스템의 핵심어 검출을 위한 후처리방법에 관한 것이다.

일반적으로, 음성인식시스템에서 핵심어 검출이란 연속적인 음성 중에서 상대적으로 판단정보를 많이 포함하는 특정단어를 인식함으로써 일을 수행하는 것을 말한다. 대학의 전화안내 서비스를 예로 들면, 사용자와 교환원간의 자연스러운 대화에서 핵심어는 목적하는 전화번호, 전화할 대상자명 또는 부서명 등이다. 전체적인 대화를 인식하지 않더라도 이러한 핵심어들만을 제대로 처리하면 전화번호 안내 요구를 무리 없이 처리할 수 있다.

음성인식시스템에서 핵심어를 검출하는 핵심어 검출장치는, 입력 음성 중 핵심어 (예컨대, "전남대")를 처리하는 핵심어 모델들과, 핵심어 이외의 나머지 부분(예컨대, "안녕하세요∼", "∼부탁합니다.")들을 처리하는 필러 모델들을 이용하여 사전(辭典; dictionary)에 정의된 핵심어의 출현여부를 검출한다.

예컨대, 입력음성인 "안녕하세요. 전남대 부탁합니다."는 핵심어인 "전남대"만이 핵심어 모델에 의해서 인식되고 나머지는 필러 모델들에 의해서 의미 없는 음소 수열로 인식된다.

이러한 핵심어 검출은 그 특성상 검출된 핵심어에 대한 검증이 필요하다. 이를 발화검증이라고 하며, 핵심어가 출현하지 않은 구간에서 핵심어를 검출하거나 핵심어를 잘못 검출하는 FA(false alarm)를 처리하는 역할을 한다.

검출된 핵심어들의 발화검증법에는 신뢰도를 이용하는 방법과 혼동 행렬(confusion matrix)을 이용하는 방법, 음소 인식기를 이용한 방법 등이 있다.이 중에서 신뢰도를 이용한 방법이 일반적으로 사용된다.

신뢰도를 이용하는 방법은 핵심어를 구성하는 음소 모델과 반음소 모델간의 유사도를 이용하여 음소 단위의 신뢰도를 계산하고, 이를 확장하여 핵심어 즉, 단어 단위 신뢰도를 정의한다. 이러한 단어 단위 신뢰도가 문턱치 이상일 경우에만 유효한 핵심어로 인정한다.

상기한 단어 단위의 신뢰도(confidence measure; "CM")는 검출된 핵심어에 대해 단어 인식부를 통해 단어 인식을 수행하여 단어단위 음소의 구간정보를 얻고 이 얻어진 단어단위 음소의 구간정보를 바탕으로 비터비(viterbi) 서치와 후향검색(back-tracking)을 통해서 최적의 음소 경계를 얻어, 이를 바탕으로 음소 모델과 반음소 모델의 유사도를 분석하여 신뢰도를 얻는다. 신뢰도(CM)를 계산하기 위해서 사용되는 수학식 1은 하기와 같다.

상기 수학식 1에서 nP_cm은 핵심어의 구성 음소의 수를 나타내고, f_cm은 신뢰도(CM)에 사용된 가중치 상수이며, cm_p는 음소단위 신뢰도이고,는 음소모델의 로그확률이며,는 반음소 모델의 로그확률이다.

상기 수학식 1에 나타나 있는 바와 같이, 음소 단위 신뢰도({cm}_{p})를 계산하기 위해서는 핵심어 구성 음소가 실제로 발성되었다는 가정에 사용되는 음소 모델과 이에 대한 반대가정으로서 사용되는 반음소 모델이 이용되며, 반음소 모델을 구성하는 데에는 해당 음소 정의 셋 중의 나머지를 사용하는 방법이 주로 사용된다.

그런데, 상기한 종래의 핵심어 검출을 위한 후처리방법은, 반음소 모델을 구성하는 데 있어서 검출된 핵심어의 구성 음소를 제외한 나머지 음소들을 반음소 모델로 정의하여 사용하기 때문에, 핵심어가 발성되지 않은 구간에서 핵심어를 잘못 검출한 경우 이를 검증할 수 있는 변별력이 약한 단점이 있었다.

즉, 핵심어가 발성되지 않은 부분에서 핵심어가 잘못 검출되었다면 실제 발성된 음소가 반음소 모델에 속하게 되는데, 실제 발성된 음소가 상대적으로 높은 확률을 가지더라도 반음소 모델을 구성하는 다른 음소들의 상대적으로 낮은 확률들에 의해 전체적인 반음소 모델의 확률이 낮게 되므로 변별력에 영향을 주지 못한다.

이에 본 발명은 상기한 바와 같은 종래기술의 문제점을 해소하기 위해 안출한 것으로, 본 발명에서는 실제 음소가 다른 반음소들에 의해서 열화되는 경향이 방지되도록 음소 인식부를 이용하여 음소 단위의 실제 반음소를 추정하여 이를 반음소 모델로 사용하여 신뢰도를 계산함으로써, 잘못 인식된 핵심어에 대한 변별력을 향상시킬 수 있는 음성인식시스템의 핵심어 검출을 위한 후처리 방법을 제공하는 데 그 목적이 있다.

도 1은 본 발명을 수행하기 위한 음성인식 시스템의 핵심어 검출장치에 대한 개략적인 블록 구성도,

도 2는 본 발명의 바람직한 실시예에 따른 음성인식 시스템의 핵심어 검출을 위한 후처리방법을 설명하기 위한 플로우챠트,

도 3은 도 1의 핵심어 검출부와 단어 인식부와 음소 인식부 및 음소 구간 추정부 간의 입출력 관계를 설명하기 위한 파형도.

<도면의 주요 부분에 대한 부호의 설명>

100: 핵심어 검출부 200: 후처리부

210: 단어 인식부 220: 음소 인식부

230: 음소 구간 추정부 240: 유사도 비교부

250: 유효성 판별부

상기 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 음성인식시스템의 핵심어 검출을 위한 후처리 방법은, 입력 음성데이터로부터 핵심어를 검출하는 스텝과, 상기 검출된 핵심어의 구간 정보와 확률값을 구하는 스텝과, 상기 검출된 핵심어 구간에 대한 정보를 분석해 단어단위의 음소들의 구간을 결정하고 각 음소들이 해당하는 구간에서의 음소 단위 확률을 계산하는 단어 인식 스텝과, 상기 검출된 핵심어 구간에 대한 정보를 분석해 음소단위의 음소들의 구간을 결정하고 각 음소들이 해당하는 구간에서의 음소 단위 확률을 계산하는 음소 인식스텝과, 상기 단어 인식스텝에서 결정된 음소들의 구간에 의해 음소 모델을 정의하고 상기 음소 인식스텝에서 결정된 음소 구간정보에 의해 반음소 모델을 정의하는 음소 구간 추정스텝과, 상기 정의된 음소 모델의 음소 경계에서의 비터비 검색 로그 확률값과 상기 정의된 반음소 모델의 음소 경계에서의 로그 확률값을 이용해 음소모델과 반음소모델의 유사도를 비교하고 이 비교결과에 따라 상기 검출된 핵심어의 유효성을 검증하는 판별스텝으로 이루어진 것을 특징으로 한다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명을 수행하기 위한 음성인식 시스템의 핵심어 검출장치에 대한 개략적인 블록 구성도로서, 동도면을 참조하면 알 수 있듯이, 본 발명을 수행하기 위한 핵심어 검출장치는, 핵심어 검출부(100)와 후처리부(200)로 구성되며, 후처리부(200)는 단어 인식부(210)와 음소 인식부(220)와 음소 구간 추정부(230)와 유사도 비교부(240)와 유효성 판별부(250)로 구성된다.

상기 핵심어 검출부(100)는 핵심어 모델 네트워크와 필러 모델 네트워크로 구성되는데, 핵심어 모델 네트워크에서는 연속적인 입력 음성에 의사 결정을 위한 핵심정보를 가지는 핵심어가 발성된 부분을 검출하고 인식을 수행하며, 필러 모델 네트워크는 연속입력 음성 중 음성구간 즉, 음성모델을 처리하고 연속입력 음성 중 음성이 아닌 부분 즉, 비음성모델을 처리하는데, 핵심어 모델 네트워크와 필러 모델 네트워크에 의해 입력음성은 필러 모델과 핵심어 모델의 수열 형태로 분석되고, 이중 후처리를 위한 정보인 핵심어의 구간 정보와 확률값이 단어 인식부(210) 및 음소 인식부(220)로 출력된다.

상기 후처리부(200) 중 단어 인식부(210)는 핵심어 검출부(100)로부터 출력된 핵심어 구간에 대한 정보를 분석해 단어단위의 음소들의 구간을 결정하고 각 음소들이 해당하는 구간에서의 음소 단위 확률을 계산하여 이에 대한 정보를 출력한다.

상기 음소 인식부(220)는 핵심어 검출부(100)에서 출력된 핵심어 구간에 대한 정보를 분석해 음소단위의 음소들의 구간을 결정하고 각 음소들이 해당하는 구간에서의 음소 단위 확률을 계산하여 이에 대한 정보를 출력한다.

상기 음소 구간 추정부(230)는 상기 단어 인식부에서 결정된 음소 구간정보에 의해 음소모델을 정의하고 상기 음소 인식부에서 결정된 음소 구간정보에 의해 반음소모델을 정의하고 단어 인식부 및 음소 인식부에 의해 결정된 음소 구간정보에 의해 음소 구간을 추정한다.

상기 유사도 비교부(240)는 음소 구간 추정부(230)를 통해 추정된 음소 구간 정보를 바탕으로 각 음소 구간에서의 음소 모델 확률값과 반음소 모델 확률값을 계산하여 음소 모델과 반음소 모델 간의 유사도를 비교할 수 있는 단어 단위 신뢰도(ACM)를 계산한다.

상기 유효성 판별부(250)는 유사도 비교부(240)에서 계산된 단어 단위 신뢰도(ACM)를 미리 설정된 문턱치와 비교하여 이를 초과하는 지의 여부에 의해 핵심어 검출부(100)에 의해 검출된 핵심어의 유효성을 판별한다.

이제 상기와 같이 구성된 하드웨어 장치를 통한 본 발명의 동작예를 첨부된 도면을 참조하여 상세히 설명하기로 한다.

먼저, 핵심어 검출부(100)로 음성데이터를 입력하면(S10), 핵심어 검출부(100)는 입력된 음성데이터에서 핵심어를 검출해 검출된 핵심어의 구간 정보와 확률값에 대한 정보를 구해 단어 인식부(210) 및 음소 인식부(220)로 출력한다(S20).

단어 인식부(210)는 핵심어 검출부(100)에서 검출된 핵심어 구간에 대해 단어 단위의 인식을 수행하는데, 이때, 단어는 내부적으로 음소들의 수열로 구성되어 있다. 단어 인식부(210)는 핵심어 검출부(100)로부터 인가되는 핵심어 구간에 대한 정보를 분석하여 단어를 구성하는 음소들의 구간을 결정하고 각 음소들에 해당하는 구간에서의 음소 단위 확률을 계산한 다음 이들 정보를 음소 구간 추정부(230)으로 인가한다.

이와 더불어, 음소 인식부(220)는 핵심어 검출부(100)에서 검출된 핵심어 구간에 대해 음소 단위의 인식을 수행하는데, 단어 인식부(210)가 검출된 단어를 구성하는 음소에 대해서만 인식을 수행하는 것에 반해, 음소 인식부(220)는 모든 음소에 대해 인식을 수행한다. 즉. 음소 인식부(220)는 실제로 발성된 음소의 수열을 추정한다.

음소 인식부(220)는 핵심어 검출부(100)로부터 인가되는 핵심어 구간에 대한 정보를 분석하여 각 음소들의 구간을 결정한 다음 각 음소들에 해당하는 구간에서의 음소 단위 확률을 계산하며, 이들 정보를 음소 구간 추정부(230)로 인가한다(S30).

상기 음소 구간 추정부(230)는 상기 단어 인식부(210)에서 결정된 음소 구간정보에 의해 음소모델을 정의하고 상기 음소 인식부(220)에서 결정된 음소 구간정보에 의해 반음소 모델을 정의하며 각 음소 구간정보를 바탕으로 음소 구간을 추정한다. 여기서, 단어 인식부(210)에서 결정된 음소 구간의 수열과 음소 인식부(220)에서 결정된 음소 구간의 수열이 다를 수 있는데, 이때, 음소 인식부(220)에서 결정된 음소 구간의 정보를 디폴트값(default value)로 정의하고 단어 인식부(210)에서 결정된 음소 구간의 정보를 상기 정의된 디폴트값으로 수정한다(S40).

예를 들어, 핵심어 검출부(100)로부터 출력된 핵심어 구간의 음성데이터 정보가 도 3의 (a)와 같고, 단어 인식부(210)로부터 결정된 음소들의 구간 정보가 도 3의 (b)와 같고, 음소 인식부(220)로부터 결정된 음소들의 구간 정보가 도 3의 (c)와 같다면, 음소 구간 추정부(230)에서는 단어 인식부(210)에서 결정된 음소들의구간 정보를 음소들의 구간 정보에 맞춰 수정하고(도 3의 (d) 참조), 음소 인식부(210)에서 결정된 음소들의 구간 정보는 디폴트값으로 정의하여 출력한다(도 3의 (e) 참조). 참고적으로, 도 3에서 각 음소의 경계는 점선으로 표시되어 있는 바, 각 음소들의 구간은 점선과 점선의 사이가 된다.

상기 유사도 비교부(240)는 음소 구간 추정부(230)를 통해 추정된 음소 구간 정보를 바탕으로 각 음소 구간에서의 음소 모델 확률값과 반음소 모델 확률값을 계산하고 계산된 음소 모델 확률값과 반음소 모델 확률값에 의해 음소모델과 반음소모델의 유사도를 비교할 수 있는 단어 단위 신뢰도(ACM)를 계산한다(S50). 여기서, 단어 단위 신뢰도(ACM; Anti-filler Confidence Measure)는 하기의 수학식 2에 의해 계산된다.

상기 수학식 2에서,는 정의된 음소 모델의 음소 경계에서의 비터비 검색 로그확률이고,는 정의된 반음소 모델의 음소 경계에서의 로그확률로서 반음소 역할을 하며, f_acm는 가중치 상수로 임의의 값이다.

상기 수학식 2를 살펴보면 알 수 있듯이, 기존의 단어 단위 신뢰도(CM)는 단어 기반 인식을 통한 음소 구간 추정을 사용하는 것에 반해, 본 발명의 단어 단위 신뢰도(ACM)는 음소 기반 인식을 통한 음소 구간 추정을 사용하는데, 도 3을 참조하면 알 수 있듯이, 본 발명에서 음소 기반 인식을 통하여 획득한 음소 구간 정보(도 3의 (b))는 기존의 단어 단위 인식을 통해 획득한 음소 구간 정보(도 3의 (c)와 비교하면 차이점이 발생하는 것을 볼 수 있다. 본 발명의 단어 단위 신뢰도(ACM)에서는 음소 구간 정보를 음소 기반 인식에서 추정된 것을 기준으로 하여 분할한다.

음소 모델의 확률은 음소 구간 추정부(230)에서 정해진 음소 경계에서 수학식 1에 도시된 기존 단어 단위 신뢰도(CM)의 비터비 확률값을 이용한다. 반음소 모델의 확률은 음소 구간 추정부(230)에서 정해진 음소 경계에서의 음소 인식부(220)의 확률값을 이용한다. 이러한 확률값을 이용하여 유사도를 비교할 수 있는 신뢰도(ACM)을 계산한다. 이를 통해서, 검출된 핵심어가 실제로 발성되었다는 가정에 대한 반대가설의 변별력을 향상시켜서 오검출된 핵심어가 인정되는 것을 방지할 수 있다.

유효성 판별부(250)는 유사도 비교부(240)에서 결정된 단어 단위 신뢰도(ACM)를 미리 설정된 문턱치와 비교하여(S60), 단어 단위 신뢰도(ACM)가 문턱치를 초과하면 핵심어 검출부(100)에서 검출된 핵심어의 유효성을 인정하고(S70), 단어 단위 신뢰도(ACM)가 문턱치 이하이면 핵심어 검출부(100)에서 검출된 핵심어의 유효성을 인정하지 않는다(S80). 참고적으로, 핵심어 검출부(100)에서 검출된 핵심어 중 유효성 판별부(250)에서 유효성이 인정되지 않은 핵심어는 폐기된다.

상기에서 본 발명은 특정 실시예를 예시하여 설명하지만 본 발명이 상기 실시예에 한정되는 것은 아니다. 당업자는 본 발명에 대한 다양한 변형, 수정을 용이하게 만들 수 있으며, 이러한 변형 또는 수정이 본 발명의 특징을 이용하는 한 본 발명의 범위에 포함된다는 것을 명심해야 한다.

상기한 바와 같이 본 발명에서 유효성 판별을 위해 계산되는 단어 단위 신뢰도(ACM)는, 검출된 핵심단어로 핵심어 모델을 한정하여 음소 구간을 추정하는 기존의 단어 단위 신뢰도(CM)와는 달리, 모든 음소 모델을 대상으로 하여 음소 단위 인식을 하여 음소 구간을 추정한다.

즉, 본 발명은 실제 음소가 다른 반음소들에 의해서 열화되는 경향을 해결하기 위해서 음소 인식부에 의해 실제 반음소를 추정하여 이를 반음소 모델로 사용함으로써, 검출된 핵심어가 실제로 발성되었다는 가정에 대한 반대가설의 변별력을 향상시켜서 오검출된 핵심어가 인정되는 것을 방지할 수 있는 효과가 있다.

Claims

입력 음성데이터로부터 핵심어를 검출하는 스텝과,

상기 검출된 핵심어의 구간 정보와 확률값을 구하는 스텝과,

상기 검출된 핵심어 구간에 대한 정보를 분석해 단어단위의 음소들의 구간을 결정하고 각 음소들이 해당하는 구간에서의 음소 단위 확률을 계산하는 단어 인식 스텝과,

상기 검출된 핵심어 구간에 대한 정보를 분석해 음소단위의 음소들의 구간을 결정하고 각 음소들이 해당하는 구간에서의 음소 단위 확률을 계산하는 음소 인식스텝과,

상기 단어 인식스텝에서 결정된 음소들의 구간에 의해 음소 모델을 정의하고 상기 음소 인식스텝에서 결정된 음소 구간정보에 의해 반음소 모델을 정의하는 음소 구간 추정스텝과,

상기 정의된 음소 모델의 음소 경계에서의 비터비 검색 로그 확률값과 상기 정의된 반음소 모델의 음소 경계에서의 로그 확률값을 이용해 음소모델과 반음소모델의 유사도를 비교하고 이 비교결과에 따라 상기 검출된 핵심어의 유효성을 검증하는 판별스텝으로 이루어진 것을 특징으로 하는 음성인식 시스템의 핵심어 검출을 위한 후처리방법.
제 1 항에 있어서, 상기 음소 구간 추정스텝은, 상기 단어 인식스텝에서 결정된 음소들의 구간과 상기 음소 인식스텝에서 결정된 음소의 구간이 서로 다를 경우에는 상기 음소 인식스텝에서 결정된 음소의 구간을 디폴트값으로 정의하고 이 정의된 디폴트값으로 상기 단어 인식스텝에서 결정된 음소들의 구간을 수정하는 것을 특징으로 하는 음성인식 시스템의 핵심어 검출을 위한 후처리방법.
제 1 항 또는 제 2 항에 있어서, 상기 판별스텝에서는,

의 수학식에 의해 구해지는 단어 단위 신뢰도(ACM)에 의해 유사도를 비교하고 상기 단어 단위 신뢰도(ACM)이 미리 설정된 문턱치를 초과하는 경우에 상기 검출된 핵심어의 유효성을 인정하는 것임을 특징으로 하는 음성인식 시스템의 핵심어 검출을 위한 후처리방법.

단, 상기 수학식에서,는 상기 정의된 음소 모델의 음소 경계에서의 비터비 검색 로그확률이고,는 상기 정의된 반음소 모델의 음소 경계에서 계산된 음소의 로그확률이며,f_acm는 가중치 상수로서 임의의 값이다.