KR100669244B1

KR100669244B1 - 음성인식 시스템에서의 ｓｖｍ 기반 멀티플 반모델을사용한 발화검증 장치 및 방법

Info

Publication number: KR100669244B1
Application number: KR1020040109129A
Authority: KR
Inventors: 강점자; 전형배; 김상훈
Original assignee: 한국전자통신연구원
Priority date: 2004-12-21
Filing date: 2004-12-21
Publication date: 2007-01-15
Also published as: KR20060070606A

Abstract

본 발명은 음성인식 시스템에서의 SVM 기반 멀티플 반모델을 사용한 발화검증 장치 및 방법에 관한 것으로, 특히 음성인식 시스템에서 발화검증을 수행함에 있어, 음성인식 모듈(13)의 처리 결과와 여러 개의 문맥독립 반음소 모델, 즉 모든 믹스처를 사용한 문맥독립 반모델, 문맥독립 적응된 반모델, 변별학습을 수행한 반모델 및 VQ기반 반모델 등을 사용하여 다수(N)개의 특징 파라미터 값을 추출하고, 이후 미리 생성된 SVM 훈련모델과 비교하여 입력값이 문턱치보다 크면 수락을 수행하는 한편, 입력값이 문턱치보다 작거나 같으면 거절을 수행하는 발화검증 모듈을 포함하여 구성된 것을 특징으로 하며, 이러한 본 발명은 입력 데이터에 대한 이질적 특성이 다르게 모델링된 여러 개의 반모델을 사용하고, 각 모델별로 신뢰도 기반 특징 파라미터를 계산하여 SVM의 입력으로 사용함으로써, 고신뢰도의 발화검증이 가능하도록 해준다는 뛰어난 효과가 있다.

음성인식 시스템, 발화검증 방식, SVM, 문맥독립 반모델,

Description

음성인식 시스템에서의 ＳＶＭ 기반 멀티플 반모델을 사용한 발화검증 장치 및 방법{UTTERANCE VERIFICATION METHOD USING MULTIPLE ANTIMODEL BASED ON SUPPORT VECTOR MACHINE IN SPEECH RECOGNITION SYSTEM}

도 1은 본 발명의 일 실시예에 따른 음성인식 시스템에서의 SVM 기반 멀티플 반모델을 사용한 발화검증 장치의 구성을 나타낸 기능 블록도,

도 2는 본 발명의 일 실시예에 따른 음성인식 시스템에서의 SVM 기반 멀티플 반모델을 사용한 발화검증 방법을 나타낸 동작 플로우챠트,

도 3은 도 2에 따른 음성인식 시스템에서의 SVM 기반 멀티플 반모델을 사용한 발화검증 방법의 성능을 나타낸 도면,

도 4는 실험에 사용한 모델별 파라미터를 보여주는 도면이다.

<도면의 주요 부분에 대한 부호의 설명>

11 : 시스템 제어모듈 12 : 전처리 모듈

13 : 음성인식 모듈 14 : 문맥종속 음소모델

15 : 발화검증 모듈

본 발명은 음성인식 시스템에서의 SVM 기반 멀티플 반모델을 사용한 발화검증 장치 및 방법에 관한 것으로, 더욱 상세하게는 음성인식 시스템에서 음성인식 결과에 대한 오인식 가능성에 대해 수락 또는 거절을 결정하는 발화검증에 있어서 고신뢰도의 발화검증이 가능한 음성인식 시스템에서의 SVM 기반 멀티플 반모델을 사용한 발화검증 장치 및 방법에 관한 것이다.

주지하다시피, 음성인식 시스템은 인식대상 어휘 중 스코어가 가장 높은 값을 갖는 어휘를 인식 결과로 출력함으로 사용자가 인식대상 어휘가 아닌 단어를 발성한 경우나, 인식대상 어휘로 등록되어 있는 단어를 발성할 때, 인식대상 어휘로 등록되어 있는 단어중 가장 높은 스코어를 갖는 단어를 출력한다. 이 때, 인식결과가 오인식 가능성을 포함하고 있기 때문에 이를 수락하거나 거절하는 것을 결정하는 것이 발화검증이다.

한편, 발화검증의 성능에 따라 사용자로 하여금 재발성이나 확인 절차를 줄일 수 있고, 인식결과에 따라 다음 동작을 행해야 하는 경우, 오동작을 미연에 방지할 수 있기 때문에 고신뢰도의 발화검증 방식이 요구된다. 여기서 신뢰도란 음성인식 결과에 대해서 얼마나 신뢰할 수 있는 것인가를 나타내는 상대적인 척도로써 신뢰도 값이 높으면 인식결과를 수락하고, 신뢰도 값이 낮으면 인식결과를 거절 하여야 한다.

하지만, 종래의 음성인식 시스템에서는 발화검증을 수행함에 있어, 은닉 마르코프 모델(HMM: Hidden Markov Model) 비터비 탐색결과의 세그멘테이션 정보를 사용하여 신뢰도 측정 기반 특징 값(N-best LLR, word duration, Antimodel LLR 등)을 구하고, 다양한 특징값에 대해 SVM(Support Vector Machine)으로 신뢰도를 통합하여 수락 또는 거절을 수행하는 발화검증 방식을 사용하였다. 이 때, 종래의 방식에서는 신뢰도 측정 기반 특징 값을 구하기 위해 여러 가지 파라미터를 사용하지만, 단일의 반모델을 사용하여 신뢰도 측정 값을 사용하였고, 따라서 구축된 단일의 반모델의 형태에 따라 발화검증의 신뢰도는 좌우하지만, 단일의 반모델이 이질적인 데이터의 특성을 반영하기 어렵기 때문에, 고신뢰도의 발화검증이 불가능한 문제점이 있었다.

따라서, 본 발명은 상기와 같은 종래의 문제점을 해결하기 위해 이루어진 것으로서, 본 발명의 목적은 음성인식 시스템에서 발화검증을 수행함에 있어, 입력 데이터에 대한 이질적 특성이 다르게 모델링된 여러 개의 반모델을 사용하고, 각 모델별로 신뢰도 기반 특징 파라미터를 계산하여 SVM의 입력으로 사용함으로써, 고신뢰도의 발화검증이 가능하도록 해주기 위한 음성인식 시스템에서의 SVM 기반 멀티플 반모델을 사용한 발화검증 장치 및 방법을 제공하는 데 있다.

상기와 같은 목적을 달성하기 위하여 본 발명 SVM 기반 멀티플 반모델을 사용한 발화검증 장치는, 사용자가 음성을 입력하면 이를 받아 전달하는 시스템 제어모듈; 상기 시스템 제어모듈로부터 음성 데이터를 입력받아 잡음 처리 및 음성구간 검출을 수행하는 전처리 모듈; 상기 전처리 모듈로부터 음성 데이터를 입력받은 후 문맥종속 음소모델을 참조하여 비터비 탐색을 통해 음성인식을 수행하는 음성인식 모듈; 및 상기 음성인식 모듈의 결과를 입력받아 수락 또는 거절을 결정하는 발화검증 모듈로 구성된 음성인식 시스템에 있어서,

상기 발화검증 모듈은, 상기 음성인식 모듈의 처리 결과와 여러 개의 문맥독립 반음소 모델을 사용하여 다수(N)개의 특징 파라미터 값을 추출하고, 이후 미리 생성된 SVM 훈련모델과 비교하여 입력값이 문턱치보다 크면 수락을 수행하는 한편, 입력값이 문턱치보다 작거나 같으면 거절을 수행함을 특징으로 한다.

또한, 본 발명 음성인식 시스템에서의 SVM 기반 멀티플 반모델을 사용한 발화검증 방법은, 상기 발화검증 모듈이 대기 상태로 존재하는 제 1 단계;

상기 발화검증 모듈이 상기 음성인식 모듈의 처리 결과인 단어 또는 음소 레벨의 라이클리후드 값과 세그멘테이션 정보가 저장되었는지의 여부를 판단하는 제 2 단계;

상기 제 2 단계에서 상기 음성인식 모듈의 처리 결과가 저장되지 않으면 상기 발화검증 모듈이 다시 상기 제 1 단계로 진행하는 한편, 저장되면 그 저장된 처리 결과값과 여러 개의 문맥독립 반소음 모델을 사용하여 발화검증에 필요한 다수 (N)개의 특징 파라미터 값을 추출하는 제 3 단계;

상기 발화검증 모듈이 그 추출된 다수(N)개의 특징 파라미터들을 SVM 훈련모델과 비교하여 입력값이 문턱값 보다 큰지의 여부를 판단하는 제 4 단계; 및

상기 제 4 단계에서 입력값이 문턱값 보다 크면, 상기 발화검증 모듈이 수락을 수행하여 시스템을 동작시키는 제 5 단계로 이루어진 것을 특징으로 한다.

이하, 본 발명의 일 실시예에 의한 음성인식 시스템에서의 SVM 기반 멀티플 반모델을 사용한 발화검증 장치 및 방법에 대하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 음성인식 시스템에서의 SVM 기반 멀티플 반모델을 사용한 발화검증 장치의 구성을 나타낸 기능 블록도이다. 먼저, 사용자(1)는 음성인식 기능이 탑재된 시스템을 사용하여 음성을 입력(2)하면, 시스템 제어모듈(11)은 이를 받아 전처리 모듈(12)로 전달한다. 그러면, 상기 전처리 모듈(12)에서는 잡음 처리 및 음성구간 검출을 위한 끝점검출과 특징추출을 수행하여 음성인식 모듈(13)로 전달하고, 상기 음성인식 모듈(13)은 문맥종속 음소모델(14)을 참조하여 비터비 탐색을 통해 음성인식을 수행하며, 그 결과를 발화검증 모듈(15)에서 수락 또는 거절할 것인지를 결정한다.

이 때, 상기 발화검증 모듈(15)은 시스템에서 제공하는 여러 개의 문맥독립 반음소 모델(16), 즉 모든 믹스처를 사용한 문맥독립 반모델(Allmixture antimodel), 문맥독립 적응된 반모델(adapted antimodel), 변별학습을 수행한 반모델(discriminative antimodel), VQ(Vector Quantization)기반 반모델(VQ based antimodel) 등을 사용하여 신뢰도 기반 특징값을 계산한다. 그런 다음, 상기 발화검증 모듈(15)은 미리 생성된 SVM(Support Vector Machine) 훈련모델(18)과 비교하여 입력값이 문턱치보다 크면 수락, 입력값이 문턱치보다 작거나 같으면 거절을 수행한다.

이 때, 상기 발화검증 모듈(15)의 결과가 거절이면 상기 시스템 제어 모듈(11)에 전달되어 사용자(1)에게 메시지와 음성을 출력하여 사용자의 재발성을 유도한다. 그렇지 않고, 상기 발화검증 모듈(15)의 결과가 수락이면 시스템을 동작시킨다(17).

그러면, 상기와 같은 구성을 가지는 장치를 이용한 본 발명의 일 실시예에 따른 음성인식 시스템에서의 SVM 기반 멀티플 반모델을 사용한 발화검증 방법에 대해 첨부된 도면을 참조하여 설명하기로 한다. 도 2는 본 발명의 일 실시예에 따른 음성인식 시스템에서의 SVM 기반 멀티플 반모델을 사용한 발화검증 방법을 나타낸 동작 플로우챠트이다.

먼저, 상기 발화검증 모듈(15)은 대기 상태로 있다가(S1), 상기 음성인식 모듈(13)의 처리 결과인 단어 또는 음소 레벨의 라이클리후드 값과 세그멘테이션 정보가 저장되면(S2) 그 저장된 처리 결과값과 여러 개의 문맥독립 반소음 모델을 사용하여 발화검증에 필요한 다수(N)개의 특징 파라미터 값을 추출한다(S3). 이 때 , 상기 여러 개의 문맥독립 반음소 모델은 모든 믹스처를 사용한 문맥독립 반모델, 문맥독립 적응된 반모델, 변별학습을 수행한 반모델 및 VQ기반 반모델 등이다.

그런후, 상기 발화검증 모듈(15)은 그 추출된 다수(N)개의 특징 파라미터들을 SVM 훈련모델과 비교하여 입력값이 문턱값 보다 큰지의 여부를 판단한다(S4). 이 때, 상기 제 4 단계(S4)에서 입력값이 문턱값 보다 크면(YES), 상기 발화검증 모듈(15)은 수락을 수행하여 시스템을 동작시킨다(S5).

반면에, 상기 제 4 단계(S4)에서 입력값이 문턱값 작거나 같으면(NO), 상기 발화검증 모듈(15)은 거절을 수행한 후 다시 상기 제 1 단계(S1)로 진행한다(S6).

도 3은 모든 믹스처를 사용한 반모델(Allmixture antimodel)과 적응 반모델(adapted antimodel)을 사용하여 추출된 특징 파라미터를 입력으로 SVM으로 추정한 발화검증의 성능을 나타낸 것이다. 이 때, 도 3에서 알 수 있는 것과 같이 발화검증의 성능을 거절율(10%)를 기준으로 할 때 각각의 반모델을 사용한 경우보다, 두개의 반모델(SVM-17feature-All-Antimodel)을 사용한 경우가 성능이 우수함을 알 수 있다.

이 때, 실험을 위해 모든 믹스처를 사용한 반모델의 생성은 훈련과정 중에 생성되는 문맥독립(Context Independent) 음소 모델로 반음소 모델을 생성함으로써 반음소 모델을 생성하기 위해 추가적인 훈련을 하지 않아도 된다. 모든 가우시안 믹스처를 사용한 반음소 모델의 생성 즉 음소 A의 반음소 모델은 A를 제외한 나머지 음소들이 갖는 가우시안 믹스처(Gaussian mixture)를 모두 사용한다. 적응 반 모델(adapted antimodel)은 MAP(Maximum a Posteriori) 방식으로 모델을 적응시킨 것이다. 실험에 사용한 모델별 파라미터는 도 4에 도시된 바와 같다. 첫번째 컬럼인 모든 가우시안 믹스처 반모델(Allmixture antimodel)은 "O"표로 표시된 입력 파라미터 10개를 사용한 것이고, 두번째 컬럼인 적응 반모델 역시 "O"표로 표시된 입력 파라미터 10개를 사용하였다. 세번째 컬럼은 위의 두가지 모델에서 구할 수 있는 입력 파라미터 17개를 사용한 것이다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.

이상에서 몇 가지 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것이 아니고 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다.

상술한 바와 같이 본 발명에 의한 음성인식 시스템에서의 SVM 기반 멀티플 반모델을 사용한 발화검증 장치 및 방법에 의하면, 음성인식 시스템에서 발화검증을 수행함에 있어, 입력 데이터에 대한 이질적 특성이 다르게 모델링된 여러 개의 반모델을 사용하고, 각 모델별로 신뢰도 기반 특징 파라미터를 계산하여 SVM의 입 력으로 사용함으로써, 고신뢰도의 발화검증이 가능하도록 해준다는 뛰어난 효과가 있다.

Claims

사용자가 음성을 입력하면 이를 받아 전달하는 시스템 제어모듈;

상기 시스템 제어모듈로부터 음성 데이터를 입력받아 잡음 처리 및 음성구간 검출을 수행하는 전처리 모듈;

상기 전처리 모듈로부터 음성 데이터를 입력받은 후 문맥종속 음소모델을 참조하여 비터비 탐색을 통해 음성인식을 수행하는 음성인식 모듈; 및

상기 음성인식 모듈의 결과를 입력받아 수락 또는 거절을 결정하는 발화검증 모듈을 포함하며,

상기 발화검증 모듈은, 상기 음성인식 모듈의 처리 결과와 여러 개의 문맥독립 반음소 모델을 사용하여 다수(N)개의 특징 파라미터 값을 추출하고, 이후 미리 생성된 SVM 훈련모델과 비교하여 입력값이 문턱치보다 크면 수락을 수행하는 한편, 입력값이 문턱치보다 작거나 같으면 거절을 수행함을 특징으로 하는 SVM 기반 멀티플 반모델을 사용한 발화검증 장치를 갖는 음성인식 시스템.
제 1항에 있어서,

상기 여러 개의 문맥독립 반음소 모델은, 모든 믹스처를 사용한 문맥독립 반모델, 문맥독립 적응된 반모델, 변별학습을 수행한 반모델 및 VQ기반 반모델을 포함하여 이루어짐을 특징으로 하는 음성인식 시스템에서의 SVM 기반 멀티플 반모델 을 사용한 발화검증 장치.
시스템 제어모듈, 전처리 모듈, 음성인식 모듈, 발화검증 모듈 및 시스템 동작모듈을 구비한 음성인식 시스템에서의 발화검증 방법에 있어서,

상기 발화검증 모듈이 대기 상태로 존재하는 제 1 단계;

상기 발화검증 모듈이 상기 음성인식 모듈의 처리 결과인 단어 또는 음소 레벨의 라이클리후드 값과 세그멘테이션 정보가 저장되었는지의 여부를 판단하는 제 2 단계;

상기 제 2 단계에서 상기 음성인식 모듈의 처리 결과가 저장되지 않으면 상기 발화검증 모듈이 다시 상기 제 1 단계로 진행하는 한편, 저장되면 그 저장된 처리 결과값과 여러 개의 문맥독립 반소음 모델을 사용하여 발화검증에 필요한 다수(N)개의 특징 파라미터 값을 추출하는 제 3 단계;

상기 발화검증 모듈이 그 추출된 다수(N)개의 특징 파라미터들을 SVM 훈련모델과 비교하여 입력값이 문턱값 보다 큰지의 여부를 판단하는 제 4 단계; 및

상기 제 4 단계에서 입력값이 문턱값 보다 크면, 상기 발화검증 모듈이 수락을 수행하여 시스템을 동작시키는 제 5 단계로 이루어진 것을 특징으로 하는 음성인식 시스템에서의 SVM 기반 멀티플 반모델을 사용한 발화검증 방법.
제 3항에 있어서,

상기 제 3 단계에서, 상기 여러 개의 문맥독립 반소음 모델은, 모든 믹스처를 사용한 문맥독립 반모델, 문맥독립 적응된 반모델, 변별학습을 수행한 반모델 및 VQ기반 반모델을 포함하여 이루어지는 것을 특징으로 하는 음성인식 시스템에서의 SVM 기반 멀티플 반모델을 사용한 발화검증 방법.
제 3항에 있어서,

상기 제 4 단계에서 입력값이 문턱값 작거나 같으면, 상기 발화검증 모듈이 거절을 수행한 후 다시 상기 제 1 단계로 진행하는 제 6 단계가 더 추가로 포함됨을 특징으로 하는 음성인식 시스템에서의 SVM 기반 멀티플 반모델을 사용한 발화검증 방법.