KR20050082249A

KR20050082249A - 도메인 기반 대화 음성인식방법 및 장치

Info

Publication number: KR20050082249A
Application number: KR1020040010659A
Authority: KR
Inventors: 최인정
Original assignee: 삼성전자주식회사
Priority date: 2004-02-18
Filing date: 2004-02-18
Publication date: 2005-08-23
Also published as: KR100612839B1; US20050182628A1

Abstract

도메인 기반 대화 음성인식방법 및 장치가 개시된다. 이 방법은 (a) 제1 언어모델을 이용하여 음성인식을 수행하고, 복수개의 1차 인식문장과 단어격자를 생성하는 단계; (b) 각 1차 인식문장에 포함된 신뢰도가 소정 문턱치 이상의 단어를 도메인 핵심어로 사용하여 복수개의 후보도메인을 선정하는 단계; (c) 상기 후보도메인에 특화된 음향모델과 제2 언어모델을 이용하여 상기 단어격자에 대하여 음성인식을 수행하고, 복수개의 2차 인식문장을 생성하는 단계; 및 (d) 상기 1차 인식문장과 상기 2차 인식문장으로부터 적어도 하나 이상의 최종 인식문장을 선택하는 단계를 포함한다. 이에 따르면, 단어 오인식으로 인한 도메인 추출 오류가 최종 인식결과를 선정하는데 미치는 영향을 최소화시킬 수 있다.

Description

도메인 기반 대화 음성인식방법 및 장치 {Method and apparatus for domain-based dialog speech recognition}

본 발명은 음성인식에 관한 것으로서, 특히 단어 오인식에 의해 야기되는 도메인 추출 오류가 최종 인식결과에 미치는 영향을 최소화할 수 있는 도메인 기반 대화 음성인식방법 및 장치에 관한 것이다.

음성인식이란 주어진 음성신호로부터 특징을 추출하고, 추출된 특징에 패턴인식 알고리즘을 적용시킨 후 화자가 어떤 음소열 또는 단어열을 발화시켜 발생된 음성신호인가를 역추적하는 것을 말한다. 최근 들어, 대화체 음성인식의 정확도를 높이기 위한 다양한 방법들이 제안되고 있는데, 그 중 하나는 한국특허번호 277690에 개시되어 있는 "화행정보를 이용한 음성인식방법"으로서, 1차 음성인식과정에서 얻어진 인식결과를 바탕으로 하여 화행을 추정한 다음, 추정된 화행에 특화된 언어모델을 이용하여 최종 인식결과를 탐색한다. 그런데 이 방법에 따르면 1차 음성인식과정에서 얻어진 인식결과에 수반되는 오류로 인하여 화행추정 오류가 발생하게 되면, 잘못된 최종 인식결과를 도출할 가능성이 높다.

다른 방법으로는 예를 들면, 날씨, 관광 등과 같은 주제(topic) 별로 다수의 도메인을 분류하고, 각 도메인에 대하여 특화된 음향모델과 언어모델을 생성한 다음, 이들을 이용하여 주어진 음성신호를 인식하는 도메인 기반 음성인식기술이 널리 사용되고 있다. 이 방법에 따르면, 음성신호가 입력되면 준비된 복수개의 도메인에 대하여 병렬적으로 음성인식을 수행하여 인식결과를 생성한 다음, 복수개의 인식결과 중 가장 신뢰도가 높은 인식결과를 최종적으로 선택한다. 이러한 경우, 도메인의 수 만큼 음성인식을 병렬적으로 수행해야 하므로 처리속도를 만족시키기 위해 대용량 서버를 필요로 한다.

이를 해결하기 위한 방법으로서, 먼저 발화문에 대하여 1차 음성인식을 수행하여 핵심어를 인식하고, 인식된 주제어에 해당하는 도메인에 대하여 2차 음성인식을 수행하는 방법이 제안되어 있다. 그런데, 1차 음성인식과정에서 오류가 생기는 경우에는, 오류를 복구할 별도의 기회가 없이 잘못 인식된 핵심어로 추출되는 도메인의 음향모델과 언어모델을 이용하여 2차 음성인식과정이 진행됨으로써 잘못된 인식결과를 도출해 내는 등, 음성인식의 정확도가 도메인 추출오류에 매우 민감한 문제점이 있다. 또한, 발화문이 적어도 두개의 도메인에 해당하는 핵심어를 포함할 경우에는 다수의 도메인 중 하나의 도메인을 식별하는 것이 어려운 단점이 있다.

본 발명이 이루고자 하는 기술적 과제는 단어 오인식에 의해 야기되는 도메인 추출 오류가 최종 인식결과에 미치는 영향을 최소화할 수 있는 도메인 기반 대화 음성인식방법 및 장치를 제공하는데 있다.

상기 기술적 과제를 달성하기 위하여 본 발명에 따른 도메인 기반 대화 음성인식방법은 (a) 제1 언어모델을 이용하여 음성인식을 수행하고, 복수개의 1차 인식문장과 단어격자를 생성하는 단계; (b) 각 1차 인식문장에 포함된 신뢰도가 소정 문턱치 이상의 단어를 도메인 핵심어로 사용하여 복수개의 후보도메인을 선정하는 단계; (c) 상기 후보도메인에 특화된 음향모델과 제2 언어모델을 이용하여 상기 단어격자에 대하여 음성인식을 수행하고, 복수개의 2차 인식문장을 생성하는 단계; 및 (d) 상기 1차 인식문장과 상기 2차 인식문장으로부터 적어도 하나 이상의 최종 인식문장을 선택하는 단계를 포함한다.

상기 기술적 과제를 달성하기 위하여 본 발명에 따른 도메인 기반 대화 음성인식장치는 입력 음성에 대하여 제1 언어모델을 이용하여 음성인식을 수행하고, 복수개의 1차 인식문장을 생성하는 제1 음성인식부; 상기 제1 음성인식부로부터 제공되는 상기 복수개의 1차 인식문장을 이용하여 복수개의 후보도메인을 선정하는 도메인 추출부; 상기 제1 음성인식부의 인식결과에 대하여 상기 도메인 추출부에서 선택된 상기 후보도메인에 특화된 음향모델과 제2 언어모델을 이용하여 음성인식을 수행하고, 복수개의 2차 인식문장을 생성하는 제2 음성인식부; 및 상기 제1 음성인식부로부터 제공되는 상기 1차 인식문장과 제2 음성인식부로부터 제공되는 상기 2차 인식문장으로부터 복수개의 최종 인식문장을 선택하는 선택부를 포함한다.

상기 방법은 바람직하게는 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로 구현할 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명하기로 한다.

도 1은 본 발명에 따른 도메인 기반 대화 음성인식장치의 일실시예의 구성을 나타낸 블럭도로서, 제1 음성인식부(110), 도메인 추출부(120), 제2 음성인식부(130) 및 선택부(140)으로 이루어진다.

도 1을 참조하면, 제1 음성인식부(110)에서는 입력된 음성신호에 대하여 특징추출, 비터비탐색 및 후처리를 통해 음성인식을 수행하고, 그 결과 1차 인식결과를 생성한다. 비터비 탐색은 전체 트레이닝 세트로부터 구축된 일반화된 복수개의 언어모델 중 스위칭된 하나의 언어모델, 음향모델 및 발음사전을 참조하여 수행된다. 일반화된 언어모델로는 전체 도메인을 커버하는 글로벌 언어모델, 시스템 발화내용에 대한 화행 기반 언어모델(speech act specific LM) 및 프롬프트 기반 언어모델(prompt specifc LM) 등을 들 수 있으나, 여기에 한정되진 않는다. 음성인식시 초기에는 글로벌 언어모델을 사용하며, 대화가 진행됨에 따라서 글로벌 언어모델을 그대로 사용하거나 대화상황에 따라서 복수개의 언어모델 중 적합한 언어모델로 스위칭된다. 스위칭 기준으로는 사용자와 시스템 간의 대화 히스토리, 시스템 발화내용에 대한 화행정보나 프롬프트 범주에 대한 정보를 들 수 있다. 이러한 정보는 사용자와 시스템간의 음성대화시스템에서 대화관리부(미도시)로부터 제1 음성인식부(110)로 피드백되어진다.

제1 음성인식부(110)에서 생성된 1차 인식결과는 비터비 탐색결과 얻어지는 단어격자(word lattice)와 후처리결과 얻어지는 상위 N개의 인식문장이다. 단어격자 뿐만 아니라 단어격자를 압축한 단어 그래프가 더 생성될 수 있다. 한편, 음성인식 결과에 대한 신뢰도 측정을 위하여 음소인식과정을 추가할 경우 음소열이 1차 인식결과에 더 포함될 수 있다. 음소인식 대신에 상대적으로 인식 정확도가 높은 음절인식이 사용될 수 있다. 1차 인식결과 중 상위 N개의 인식문장은 도메인 추출부(120)와 선택부(140)로, 단어격자 혹은 단어그래프는 도메인 추출부(120)와 제2 음성인식부(130)로, 음소열은 도메인 추출부(120)로 각각 제공된다.

도메인 추출부(120)에서는 제1 음성인식부(110)에서 생성된 1차 인식결과 중 상위 N개의 인식문장과 단어격자 및 음소인식결과를 입력으로 하여 단어레벨로 신뢰도를 산출하고, 소정 문턱치 이상의 신뢰도를 갖는 단어들 중에서 도메인 핵심어들을 선택하고, 선택된 도메인 핵심어와 도메인 지식을 근거로 후보 도메인들을 추출한다. 후보 도메인의 선정에 사용되는 도메인 분류기는 핵심어의 도메인 확률을 사용하는 간단한 통계 기반의 분류기나 SVM(Support Vector Machine) 분류기이며, 가장 높은 도메인 식별점수에서 소정의 범위 내에 식별점수가 위치하는 모든 도메인을 후보 도메인으로 결정한다.

제2 음성인식부(130)에서는 도메인 추출부(120)에서 추출되는 각 후보도메인에 대응하는 음향모델과 언어모델을 이용하여 제1 음성인식부(110)로부터 제공되는 단어격자에 대해 재차 음성인식을 수행하고, 그 결과 복수개의 인식문장을 생성한다.

선택부(140)에서는 제1 음성인식부(110)에서 음성인식결과 얻어지는 상위 N개의 인식문장과 제2 음성인식부(130)에서 음성인식결과 얻어지는 복수개의 인식문장을 입력으로 하여, 그 중 복수개의 상위 인식문장을 선택하고, 상위 인식문장 각각에 대한 단어레벨 및 문장레벨의 신뢰점수, 및 각 인식문장의 도메인 등을 최종 인식결과로서 제공한다.

도 2는 도 1에 있어서 제1 음성인식부(110)의 세부적인 구성을 보여주는 블럭도로서, 특징추출부(210), 제1 탐색부(220), 후처리부(260) 및 음소인식부(270)로 이루어진다.

도 2를 참조하면, 특징추출부(210)에서는 음성신호를 입력받아, 멜주파수 켑스트럼 계수(Mel-Frequency Cepstral Coefficient)와 같은 음성인식에 유용한 특징벡터로 변환한다.

제1 탐색부(220)에서는 특징추출부(210)로부터 특징벡터들을 입력받아, 학습과정에서 미리 구해진 제1 음향모델(230), 발음사전(240), 및 제1 언어모델(250)을 이용하여, 제1 음향모델(230)과 제1 언어모델(250)이 상기 특징벡터열과 가장 잘 정합이 되는 단어열을 찾는다. 제1 음향모델(230)은 입력된 특징벡터와 은닉마코프모델(HMM) 스테이트와의 정합 스코어를 나타내는 음향모델 스코어의 계산에 적용되며, 제1 언어모델(250)은 이웃하는 단어들 사이의 문법적 결합 스코어의 계산에 적용되어, 결과적으로 입력 특징벡터열과 가장 정합이 잘 되는 N개의 인식문장을 탐색한다. 상기 N개의 인식문장을 찾기 위해 비터비 탐색 알고리즘이나 스텍 디코더(stack decoder)가 적용될 수 있다. 제1 탐색부(220)에서의 탐색 결과, 후단에서 더 정확한 인식결과를 얻기 위한 단어격자(word lattice)가 생성된다. 이때, 제1 언어모델(250)은 사용자에 의한 초기 발화 이후 사용자와 시스템 간의 대화 히스토리, 시스템 발화내용에 대한 화행정보나 도메인 정보, 시스템 프롬프트의 범주에 대한 정보에 따라서, 복수개의 일반화된 언어모델 중 하나가 선택된다. 예를 들어, 사용자의 초기 발화에 대해서는 모든 도메인을 커버할 수 있는 글로벌 언어모델이 적용되고, 초기 발화 이후부터는 글로벌 언어모델이 계속 적용되거나 대화의 상황에 따라서 적합한 언어모델이 선택되어 적용된다.

제1 음향모델(230)은 화자독립형 음향모델 또는 현재 사용자의 음성에 적응된 화자적응형 음향모델일 수 있다. 또한, 제1 언어모델(250)은 이전의 단어들로부터 다음 단어가 나타날 확률을 예측하기 위한 것으로서, 일반적으로 바로 이전에 나온 두개의 단어로부터 다음 단어가 나타날 확률을 예측하는 트라이그램이 사용되나, 여기에 한정되지 않는다.

후처리부(260)에서는 제1 탐색부(250)에서 얻어진 단어격자를 입력받아, 제1 음향모델(230)과 제1 언어모델(250)을 적용하여 최종 인식결과를 출력한다. 이때, 후처리부(260)에서는 더 상세한 음향모델과 언어모델이 적용되는데, 더 상세한 음향모델로는 단어간 트라이폰(tri-phone) 모델이나 퀸폰(quin-phone) 모델이 사용될 수 있으며, 더 상세한 언어모델로는 트라이그램이나 언어 의존적인 규칙들이 적용될 수 있다. 최종 인식결과는 상위 스코어를 갖는 N개의 인식문장이다.

음소인식부(270)에서는 특징추출부(210)로부터 특징벡터들을 입력받아, 학습과정에서 미리 구해진 제2 음향모델(280) 및 음소 문법모델(290)을 이용하여 가장 스코어가 높은 음소열을 인식하여 출력한다. 음소인식부(270)에서도 제1 음성인식부(210)에서와 동일한 인식 알고리즘이 사용된다.

도 3은 도 1에 있어서 도메인 추출부(120)의 세부적인 구성을 보여주는 블럭도로서, 제1 검증부(310), 도메인점수 산출부(320), 도메인 데이터베이스(330) 및 후보도메인 선택부(340)로 이루어진다.

도 3을 참조하면, 제1 검증부(310)에서는 제1 음성인식부(110)로부터 제공되는 상위 N개의 각 인식문장에 포함된 단어들에 대하여 단어레벨로 신뢰도 검증을 수행한다. 신뢰도 검증은 가설 검증에서 일반적으로 적용되는 LRT(Likelihood Ratio Test)에 의한 검증 방법에 의해 수행된다. 이때 유사도 비율에서 분자항은 인식된 단어에 대한 점수를, 분모항은 인식된 단어구간에서 음소인식부(270)에서의 음소인식결과에 대한 점수 또는 제1 음성인식부(110)에서 얻어진 단어격자에서 상기 인식된 단어와 동일한 음성구간에서 혼동되는 단어에 대한 점수를 나타낸다. 이외에도 현재의 인식문장에서의 신뢰점수가 나머지 (N-1)개 인식문장의 신뢰점수로부터 계산될 수 있다. 즉, 단어레벨의 신뢰점수 계산에 음소인식 결과나 단어격자 정보, N개 인식문장에 대한 결과가 이용되며, 더 정확한 신뢰점수의 계산을 위해 세가지 정보가 함께 적용될 수 있다. 제1 검증부(310)에서는 N개의 인식문장에 포함된 인식단어들에 대해 상기의 신뢰점수 측정과정을 거쳐 소정 문턱치 이상의 신뢰점수를 갖는 단어들을 결정하여 도메인 검출부(320)로 제공한다.

도메인 점수 산출부(320)에서는 제1 검증부(310)로부터 제공되는 검증된 단어들을 입력으로 하여, 도메인 데이터베이스(330)를 참조하면서 도메인 검출에 사용될 핵심어들을 먼저 추출한 다음, 이들 각 핵심어의 각 도메인에 대한 식별점수를 산출한다. 도메인 검출에 이용되는 핵심어는 통상 복수 개이나, 사용자의 발화내용이나 제1 검증부(310)의 검증결과에 따라서 도메인 핵심어가 하나도 없는 경우도 있다. 도메인 점수 산출을 위해서는 도메인 핵심어들에 대한 도메인 유니그램(unigram) 확률값을 이용한 간단한 통계기반 도메인 검출기나 SVM(Support Vector Machine) 분류기를 사용할 수 있다.

도메인 데이터베이스(330)에는 각 핵심어를 관광이나 날씨 등과 같은 의미적 카테고리 즉, 도메인으로 범주화하여, 각 핵심어별로 도메인 확률값을 추정하거나 도메인 분류에 필요한 파라미터들을 훈련한다. 이때, 도메인 핵심어에는 조사나 어미와 같은 기능어(function word)들은 제외된다.

후보도메인 선택부(340)에서는 도메인점수 산출부(320)로부터 제공되는 도메인별 식별점수를 입력으로 하여, 가장 높은 식별점수를 갖는 도메인을 식별하고, 가장 높은 식별점수와 소정 범위 이내의 식별점수를 갖는 모든 도메인들을 후보 도메인으로 선정한다. 도메인 식별에 적용되는 핵심어들이 하나도 없는 경우에는 모든 도메인들이 후보 도메인으로 선정된다.

도 4는 도 1에 있어서 제2 음성인식부(130)의 세부적인 구성을 보여주는 블럭도로서, 제2 탐색부(410), 리스코어링부(440) 및 제2 검증부(450)로 이루어진다.

도 4를 참조하면, 제2 탐색부(410)에서는 제1 음성인식부(110)로부터 제공되는 단어격자 또는 단어그래프를 입력받아, 도메인 데이터베이스(330)에 존재하는 도메인별로 학습하여 미리 구해진 도메인별 언어모델(430)과 각 도메인에 특화된 도메인별 음향모델(420)을 이용하여, 후보 도메인별로 N개의 인식문장을 탐색한다. 제2 탐색부(410)에서는 단어격자 또는 단어그래프에 한정하여 탐색과정을 진행함으로써 제1 음성인식부(110)의 제1 탐색부(210)에 비하여 그 계산량이 현저하게 줄어들게 된다.

리스코어링부(440)에서는 제2 탐색부(410)로부터 제공되는 복수개의 인식문장들에 대하여 단어간 트라이폰 음향모델과 트라이그램 언어모델을 이용하여 리스코어링을 수행하여, 상위 스코어를 갖는 복수개의 인식문장을 생성하여 제2 검증부(450)로 제공한다.

제2 검증부(450)에서는 리스코어링부(440)로부터 제공되는 상위 스코어를 갖는 복수개의 인식문장의 단어레벨 및 문장레벨의 신뢰 점수를 산출하여 선택부(140)로 제공한다.

도 5는 본 발명에 따른 도메인 기반 대화 음성인식방법의 동작을 설명하는 흐름도이다.

도 5를 참조하면, 510 단계에서는 사용자 발화문에 대하여 특징벡터를 추출한다. 특징벡터로는 예를 들면, 프레임당 12차 멜주파수 켑스트럼계수, 12차 델타 멜주파수 켑스트럼계수, 에너지 및 델타 에너지로 이루어지는 26차 특징벡터를 사용할 수 있다.

520 단계에서는 제1 음향모델(230)과 제1 언어모델(250)을 이용하여 음성인식을 수행하고, 1차 인식결과를 생성한다. 여기서, 1차 인식결과는 스코어가 상위인 N개의 인식문장, 인식된 모든 문장의 단어격자, 및 인식된 모든 문장의 음소열 중 적어도 하나 이상을 포함한다. 각 인식문장의 점수는 해당 문장을 구성하는 단어들의 음향모델의 로그점수와 언저모델의 로그점수의 합으로부터 구해진다. 설명을 돕기 위하여, 예를 들어, 사용자 발화가 "지금 기온이 몇이지?"인 경우, 상위 N개의 인식문장에 포함될 수 있는 상위 인식문장을 "지금 기온이 몇 시지"로 가정한다.

530 단계에서는 520 단계에서 얻어지는 상위 N개의 인식문장으로부터 도메인을 선정하는데 사용되는 핵심어를 결정한다. 상위 N개의 인식문장에 포함된 단어 중에서 신뢰점수가 소정의 문턱값 이상이면서 기능어가 아닌 내용어(content word)인 어휘들이 도메인 핵심어로 결정되며, 이때 도메인 핵심어들의 도메인 유니그램 확률값 또는 SVM 점수로부터 후보도메인들이 결정된다. 예를 들면, 상위 인식문장 "지금 기온이 몇 시지"는 각 품사 단위로 어휘가 정의되어 있으며, 각 품사별 어휘 즉, "지금/nc", "기온/nc", "이/jc", "몇/m", "시/nbu", "지/ef"에 대하여 다음 표 1과 같이 단어레벨 신뢰점수가 주어진다.

품사별 어휘	신뢰점수
지금/nc	-0.20
기온/nc	0.74
이/jc	1.47
몇/m	0.48
시/nbu	0.12
지/ef	1.39

상기 표 1에서 신뢰점수가 0 이상이면서 내용어에 해당되는 기온/nc, 몇/nc, 시/nbu 등이 도메인 식별에 이용되는 도메인 핵심어에 해당되며, 520 단계에서 1차 음성인식결과로 얻어지는 나머지 상위 (N-1)개의 인식문장에 대해서도 이러한 핵심어 추출과정이 반복된다.

540 단계에서는 530 단계에서 결정된 상위 N개의 인식문장들로부터 추출된 도메인 핵심어들을 입력으로 이용하여 도메인 데이터베이스(330)로부터 복수개의 후보도메인을 추출한다. 예를 들어, 상기 예에서 결정된 도메인 핵심어 "기온/nc"는 날씨 도메인에 대한 확률값이 높고, "시/nbu"는 "날짜-시간" 도메인에 대한 확률값이 높다. 따라서, 상기 예의 경우에서는 "날씨"와 "날짜-시간" 도메인이 후보 도메인으로 선정된다.

550 단계에서는 540 단계에서 추출된 복수개의 후보도메인 각각에 특화된 음향모델과 언어모델을 이용하여 음성인식을 수행한다. 이때, 520 단계에서 얻어지는 단어격자 또는 단어격자를 압축한 단어 그래프에 대하여 음성인식이 수행된다. 상기 예에서 상위 인식문장 "지금 기온이 몇 시지"에 대하여 "날씨"에 대한 후보도메인에 특화된 언어모델과 음향모델을 적용하여 음성인식을 수행하여 2차 인식문장 즉, "지금 기온이 몇이지"를 생성하는 한편 이에 대한 스코어를 산출하고, "날짜-시간"에 대한 후보도메인에 특화된 언어모델과 음향모델을 적용하여 음성인식을 수행하여 2차 인식문장 즉 "지금 시간이 몇시지"를 생성하는 한편 이에 대한 스코어를 산출한다. 이와 같은 후보도메인에 기반한 음성인식과정은 상기 540 단계에서 추출된 모든 후보도메인에 대하여 수행된다. 이때, 후보도메인의 수는 최소 1개이며, 최대 전체 도메인의 수와 같다. 각 후보 도메인에 대해 음성인식이 수행될 때마다 해당 도메인에 특화된 언어모델로 스위칭되어 해당 하드웨어로부터 읽혀진다. 전체 도메인의 수가 적을 경우에는 모든 도메인의 언어모델이 프로그램에 적재되어 필요시마다 스위칭될 수 있다.

560 단계에서는 520 단계에서 얻어지는 상위 N개의 인식문장과 550 단계에서 얻어지는 복수개의 2차 인식문장의 스코어를 비교하여, 복수개의 최종 인식문장을 선택한다. 예로 든, 상위 인식문장 "지금 기온이 몇 시지"를 포함하는 상위 N개의 인식문장의 스코어와 "지금 기온이 몇이지"와 "지금 시간이 몇시지"를 포함하는 복수개의 도메인 기반 인식문장의 스코어를 비교하여, 가장 높은 스코어를 갖는 도메인 기반 인식문장 "지금 기온이 몇이지"를 포함하는 최종 인식문장으로 생성한다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

한편, 본 발명에 따른 음성인식방법의 성능을 평가하기 위한 모의실험을 다음과 같이 수행하였다. 사용된 음향모델 학습데이터로는 남자 249명과 여자 207명으로 구성된 총 456명이 발성한 낭독체 연속어 문장을 사용하였으며, 화자당 약 100 문장을 발성하였다. 사용된 언어모델 학습데이터로는 18개 도메인과 관련된 약 1800만 문장의 텍스트 데이터베이스를 이용하였다. 테스트 데이터로는 남자 15명과 여자 15명으로 구성된 총 30명이 발성한 3000 문장을 사용하였다. 사용된 특징벡터는 프레임당 12차 MFCC, 12차 델타 MFCC, 에너지 및 델타 에너지로 이루어지는 26차 특징벡터이다. 학습된 HMM 모델은 4,016개의 트라이폰 모델이며, 유사한 HMM 상태들은 서로 파라미터를 공유시켜 5,983개의 구별된 HMM 상태 수를 가지며, 각 HMM 상태는 음성학상 결합된 혼합모델(Phonetically-tied Mixture Model)에 기준하여 통계적인 분포가 특징지워진다. 1차 음성인식과정에서는 글로벌 언어모델을 이용하여 음성인식을 수행하였다. 비교대상은 3-레이어 계층구조의 언어모델을 사용한 방법, 유니그램 유사도에 기반하여 핵심어를 검출하는 방법, 복수의 도메인에 대하여 병렬로 음성인식을 수행하는 방법, 본 발명에 따른 음성인식방법이다. 본 발명에서는 음향모델로서 1차 음성인식과정과 2차 음성인식과정 모두 동일한 화자독립모델을 사용하였으며, 1차 음성인식과정에서는 글로벌 언어모델을 적용하고, 도메인 핵심어 선정시에 적용되는 인식결과에 대한 신뢰점수는 인식된 단어의 로그점수와 해당 단어의 음성구간에서 인식된 음소인식 로그점수의 차로 계산되며, 도메인 후보 선정시에는 도메인 핵심어의 도메인별 유니그램 확률을 이용한 도메인 식별점수가 최대 도메인 식별점수와 비교하여 소정 범위 이내에 있는 모든 도메인들을 후보로 선정하였다. 총 18개 도메인에 각각 대응하는 언어모델이 사용되었다.

먼저 도메인 검출 정확도에 대한 실험결과를 살펴보면, 평가에 사용된 텍스트로 판정한 경우 93.8%, 1차 음성인식과정에서 최상위 인식결과를 이용한 경우 88.2%, 1차 음성인식과정에서 신뢰된 결과만을 이용한 경우 90.3%, 2차 음성인식과정의 인식결과로부터 측정된 도메인 판별 정확도는 96.5%로 산출되었다. 2차 음성인식과정에서 탐색된 평균 도메인의 수는 3.9개였다. 이때 인식성능은 다음 표 2에 도시된 바와 같다.

	WER (바이그램)	WER (트라이그램)
베이스라인(글로벌 언어모델)	8.79	4.40
종래기술 1(계층적 언어모델)	7.57(+13.9)	4.08(+7.3)
종래기술 2(18개 도메인에 대한 병렬 음성인식)	5.73(+34.8)	3.70(+15.9)
본 발명	6.23(+29.1)	3.72(+15.5)

상기 표 2에서 WER은 단어 오인식률을 나타내며, () 안의 숫자는 단어 오인식률의 상대적인 개선률이다. 그리고, 성능평가에 적용된 언어모델은 각각 인접하는 두 단어와 세 단어 사이의 확률을 나타내는 바이그램과 트라이그램 언어모델이다.

상기 표 2를 살펴보면, 본 발명에 따른 음성인식방법은 글로벌 언어모델을 이용하는 방법과, 계층적 언어모델을 이용하는 방법에 비해서는 월등한 성능 향상을 보이며, 각각 특화된 언어모델을 가지고 있는 모든 도메인에 대하여 병렬적으로 음성인식을 수행하는 방법과 비교해 볼 때 대용량 서버가 필요없으면서 거의 동등한 성능을 보이며, 도메인의 수가 컴퓨터의 마이크로프로세서의 수보다 많은 경우에는 인식에 소요되는 속도가는 더 빠를 것으로 예상된다.

상술한 바와 같이 본 발명에 따르면, 제1 음성인식과정에서 대화의 상황에 적합한 언어모델을 선택적으로 적용함으로써 1차 인식결과에 대한 단어오인식률(Word Error Rate)을 줄일 수 있고, 그 결과 도메인 추출에 사용되는 정확한 핵심어를 결정할 수 있다. 또한, 제1 음성인식과정의 인식결과로서, 최상위 인식문장을 포함하는 복수개의 상위 인식문장을 생성함으로써 1차 인식결과의 오류가 후단으로 전파되는 것을 최소화할 수 있다. 또한, 각 상위 인식문장에서 결정된 핵심어에 기초하여 복수개의 후보도메인을 추출하고, 각 후보도메인에 특화된 언어모델을 이용하여 2차 음성인식을 수행하고, 1차 음성인식결과와 2차 음성인식결과로부터 최종 인식결과를 생성함으로써, 1차 음성인식과정에서의 단어 오인식으로 인한 도메인 추출 오류가 최종 인식결과를 선정하는데 미치는 영향을 최소화시킬 수 있다.

본 발명에 대해 상기 실시예를 참고하여 설명하였으나, 이는 예시적인 것에 불과하며, 본 발명에 속하는 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

도 1은 본 발명에 따른 도메인 기반 대화 음성인식장치의 일실시예의 구성을 나타낸 블럭도,

도 2는 도 1에 있어서 제1 음성인식부의 세부적인 구성을 보여주는 블럭도,

도 3은 도 1에 있어서 도메인 추출부의 세부적인 구성을 보여주는 블럭도,

도 4는 도 1에 있어서 제2 음성인식부의 세부적인 구성을 보여주는 블럭도, 및

도 5는 본 발명에 따른 도메인 기반 대화 음성인식방법의 동작을 설명하는 흐름도이다

*도면의 주요부분에 대한 부호의 설명

110 ... 제1 음성인식부 120 ... 도메인 추출부

130 ... 제2 음성인식부 140 ... 선택부

Claims

(a) 입력음성에 대하여 제1 언어모델을 이용하여 음성인식을 수행하고, 복수개의 1차 인식문장을 포함하는 1차 인식결과를 생성하는 단계;

(b) 각 1차 인식문장에 포함된 신뢰점수가 소정 문턱치 이상의 단어를 도메인 핵심어로 사용하여 복수개의 후보도메인을 선정하는 단계;

(c) 상기 각 후보도메인에 특화된 음향모델과 제2 언어모델을 이용하여 상기 (a) 단계에서의 1차 인식결과에 대하여 음성인식을 수행하고, 복수개의 2차 인식문장을 생성하는 단계; 및

(d) 상기 1차 인식문장과 상기 2차 인식문장으로부터 적어도 하나 이상의 최종 인식문장을 선택하는 단계를 포함하는 것을 특징으로 하는 도메인 기반 대화 음성인식방법.
제1 항에 있어서, 상기 제1 언어모델로서 글로벌 언어모델을 적용하는 것을 특징으로 하는 음성대화시스템에 있어서 도메인 기반 대화 음성인식방법.
제1 항에 있어서, 상기 제1 언어모델로서, 초기에는 글로벌 언어모델을 적용하고, 대화의 상황에 따라 일반화된 복수개의 언어모델 중 하나를 선택적으로 적용하는 것을 특징으로 하는 도메인 기반 대화 음성인식방법.
제1 항에 있어서, 상기 (b) 단계에서는 1차 인식문장에서 소정의 문턱치 이 상의 신뢰점수를 갖는 핵심어들을 이용하여 각 도메인에 대한 식별점수를 산출하고, 소정의 문턱치 이상의 식별점수를 갖는 도메인들을 후보 도메인으로 선정하는 것을 특징으로 하는 도메인 기반 대화 음성인식방법.
제1 항에 있어서, 상기 (b) 단계에서는 1차 인식문장에서 소정의 문턱치 이상의 신뢰점수를 갖는 핵심어가 존재하지 않는 경우 전체 도메인을 후보 도메인으로 선정하는 것을 특징으로 하는 도메인 기반 대화 음성인식방법.
제1 항에 있어서, 상기 (c) 단계에서는 상기 (a) 단계에서의 인식결과 중 단어격자와 단어그래프 중 어느 하나에 대하여 음성인식을 수행하는 것을 특징으로 하는 도메인 기반 대화 음성인식방법.
제1 항 내지 제6 항 중 어느 한 항에 기재된 방법을 실행할 수 있는 프로그램 시퀀스를 기록한 컴퓨터로 읽을 수 있는 기록매체.
입력 음성에 대하여 제1 언어모델을 이용하여 음성인식을 수행하고, 복수개의 1차 인식문장을 포함하는 인식결과를 생성하는 제1 음성인식부;

상기 제1 음성인식부로부터 제공되는 상기 복수개의 1차 인식문장을 이용하여 복수개의 후보도메인을 선정하는 도메인 추출부;

상기 제1 음성인식부의 인식결과에 대하여 상기 도메인 추출부에서 선택된 상기 후보도메인에 특화된 음향모델과 제2 언어모델을 이용하여 음성인식을 수행하고, 복수개의 2차 인식문장을 생성하는 제2 음성인식부; 및

상기 제1 음성인식부로부터 제공되는 상기 1차 인식문장과 제2 음성인식부로부터 제공되는 상기 2차 인식문장으로부터 복수개의 최종 인식문장을 선택하는 선택부를 포함하는 것을 특징으로 하는 도메인 기반 대화 음성인식장치.
제8 항에 있어서, 상기 제1 음성인식부에서는 상기 제1 언어모델로서 글로벌 언어모델을 적용하는 것을 특징으로 하는 음성대화시스템에 있어서 도메인 기반 대화 음성인식장치.
제8 항에 있어서, 상기 제1 음성인식부에서는 상기 제1 언어모델로서 초기에는 글로벌 언어모델을 적용하고, 대화의 상황에 따라 일반화된 복수개의 언어모델 중 하나를 선택적으로 적용하는 것을 특징으로 하는 도메인 기반 대화 음성인식방법.
제8 항에 있어서, 상기 도메인 추출부는

상기 제1 음성인식부로부터 제공되는 복수개의 인식문장에 대하여 단어레벨로 신뢰도에 대한 검증을 수행하고, 각 인식문장에서 소정의 문턱치 이상의 신뢰점수를 갖는 단어를 추출하는 제1 검증부;

상기 제1 검증부에서 제공되는 검증된 단어 중에서 도메인 데이터베이스를 참조하여 도메인 핵심어를 선택하고, 각 핵심어의 도메인 식별점수를 산출하여 가산함으로써 도메인별 식별점수를 산출하는 도메인점수 산출부; 및

상기 도메인점수 산출부에서 제공되는 도메인별 식별점수 중 소정의 문턱치 이상의 식별점수를 갖는 도메인을 후보도메인으로 선택하는 후보도메인 선택부를 포함하는 것을 특징으로 하는 도메인 기반 대화 음성인식장치.
제11 항에 있어서, 상기 제1 검증부는 상기 제1 음성인식부로터 제공되는 상기 복수개의 1차 인식문장, 단어격자, 단어격자를 압축한 단어 그래프 및 음소열 중 일부 혹은 전부를 이용하여, 상기 1차 인식문장의 단어레벨 신뢰도에 대한 검증을 수행하는 것을 특징으로 하는 도메인 기반 대화 음성인식장치.
제8 항에 있어서, 상기 제2 음성인식부는 상기 제1 음성인식부로부터 제공되는 단어격자 및 단어그래프 중 어느 하나에 대하여, 상기 추출된 후보도메인에 특화된 언어모델 및 이에 적응된 음향모델을 이용하여 인식한 다음, 리스코어링하여 상기 2차 인식문장을 생성하는 것을 특징으로 하는 도메인 기반 대화 음성인식장치.