KR100755677B1

KR100755677B1 - 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법

Info

Publication number: KR100755677B1
Application number: KR1020050104462A
Authority: KR
Inventors: 이재원; 최인정
Original assignee: 삼성전자주식회사
Priority date: 2005-11-02
Filing date: 2005-11-02
Publication date: 2007-09-05
Also published as: KR20070047579A; US8301450B2; US20070100618A1

Abstract

본 발명은 음성 인식 장치 및 방법에 관한 것으로서, 본 발명의 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 장치는, 사전 구축된 글로벌 언어 모델 데이터베이스와 발음 사전 데이터베이스 및 음향 모델 데이터베이스를 참조하여, 입력 음성 신호로부터 검출된 특징 벡터와 유사한 단어열을 생성하는 전방향 탐색(Forward Search)을 수행하는 전방향 탐색부; 상기 전방향 탐색의 결과 생성된 상기 단어열에 대한 정보를 이용하여 상기 단어열 내의 어휘들의 의미로부터 도출되는 주제 영역(Topic Domain)을 검출하는 주제 영역 검출부; 및 상기 검출된 주제 영역에 관하여 사전 구축된 특정 주제 영역 언어모델 데이터베이스를 참조하여 상기 입력 음성 신호에 대한 음성 인식 결과를 텍스트로 출력하는 역방향 디코딩(Backward Decoding)을 수행하는 역방향 디코딩부를 포함한다.

본 발명의 실시예에 따르면, 대화체 문장의 인식률(Accuracy)과 효율성(Efficiency)을 향상시킬 수 있는 효과가 있다.

전방향 탐색, 역방향 디코딩, 훈련 코퍼스, 언어 모델

Description

주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법{APPARATUS AND METHOD FOR DIALOGUE SPEECH RECOGNITION USING TOPIC DETECTION}

도 1은 종래 기술에 따른 일반적인 연속 음성 인식 장치의 구성을 나타내는 도면이다.

도 2는 본 발명의 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 장치의 전체 블럭 구성을 나타내는 도면이다.

도 3은 상기 도 2에 나타난 대화체 음성 인식 장치의 전체 블럭 구성 중 주제 영역 검출부의 구성을 나타내는 도면이다.

도 4는 본 발명의 실시예에 따른 대화체 음성 인식의 과정에서 전방향 탐색의 결과 생성되는 단어열의 구조를 예시한 도면이다.

도 5는 본 발명의 실시예에 따른 대화체 음성 인식 장치가 주제 영역을 검출하여 음성 인식을 하는 과정을 예시한 도면이다.

도 6은 본 발명의 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 방법의 전체 흐름도를 나타내는 도면이다.

도 7은 상기 도 6에 나타난 대화체 음성 인식 방법의 전체 흐름 중 주제 영역 검출의 흐름을 나타내는 도면이다.

*도면의 주요 부분에 대한 설명*

10: 특징 추출부 20: 탐색부

30: 후처리부 40: 음향 모델 데이터베이스

50: 발음 사전 데이터베이스 60: 언어모델 데이터베이스

110: 특징 추출부 120: 전방향 탐색부

130: 주제영역 검출부 132: 비핵심어 제거부

134: 주제 영역 거리 산출부 136: 최소거리 주제 영역 검출부

140: 역방향 디코딩부 150: 텍스트 정보 관리부

200: 훈련 코퍼스 210: 글로벌 언어 모델 데이터베이스

220: 확률 인자 데이터베이스

230: 특정 주제영역 언어모델 데이터베이스

본 발명은 음성 인식 장치 및 방법에 관한 것으로서, 더욱 상세하게는, 대화체 음성 인식에서 발화자의 대화 주제를 검출함으로써 선택된 주제 기반 언어 모델을 이용하여 대화체 음성 인식의 성능을 향상시키는, 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법에 관한 것이다.

음성 인식(Speech Recognition) 기술이란, 인간의 음성을 컴퓨터가 분석해 이를 인식 또는 이해하는 기술을 말하는데, 발음에 따라 입 모양과 혀의 위치 변화로 특정한 주파수를 갖는 인간의 음성을 이용하여 발성된 음성을 전기 신호로 변환 한 후 음성 신호의 주파수 특성을 추출해 발음을 인식하는 기술이다. 최근에는 이와 같은 음성 인식 기술이 전화 다이얼링, 장난감 제어, 어학 학습 또는 가전 기기 제어 등과 같은 다양한 분야에 응용되고 있다.

일반적으로 연속 음성 인식 장치는 도 1에 도시된 바와 같은 구성으로 이루어진다. 도 1은 일반적인 연속 음성 인식 장치의 구성을 나타내는 도면이다. 상기 도 1을 참조하면, 특징 추출부(10)에서 음성 인식 장치에 입력된 음성을 인식에 유용한 정보만을 추출한 특징 벡터로 변환시키고, 탐색부(20)에서는 학습 과정에서 미리 구해진 음향 모델 데이터베이스(40), 발음 사전 데이터베이스(50) 및 언어 모델 데이터베이스(60)를 참조하여 비터비 알고리즘을 이용하여 특징 벡터로부터 가장 확률이 높은 단어열을 찾게 된다. 여기서, 대어휘 인식을 위하여 인식 대상 어휘들은 트리(tree)를 구성하고 있으며, 탐색부(20)에서는 이러한 트리를 탐색한다. 후처리부(30)는 탐색부(20)의 탐색 결과로부터 발음 기호와 태그 등을 제거하고, 음절 단위로 모아 쓰기를 하여 최종 인식 결과인 텍스트를 제공한다.

상기와 같은 음성 인식 장치는 음성 인식을 위해서 음향 모델 데이터베이스(40), 발음 사전 데이터베이스(50) 및 언어 모델 데이터베이스(60)를 이용하고 있는데, 이 중 언어 모델 데이터베이스(60)는 학습용 텍스트 데이터베이스에 구축된 단어와 단어 간의 발생 빈도 데이터 및 그를 이용하여 연산된 바이그램(Bigram) 또는 트라이그램(Trigram)의 확률인 발생 확률 데이터로 이루어진다. 바이그램은 두 개의 단어쌍으로 이루어지는 단어열을 표현하고 트라이그램은 3 개의 단어들로 이루어진 단어열을 나타낸다.

한편, 발화자의 대화 주제의 영역이 바뀔 경우에 기존의 언어 모델은 제대로 된 성능을 발휘하지 못하기 때문에 영역이 바뀔 경우 바뀌어진 영역에 적합한 언어 모델이 새로이 구축되어 사용될 필요가 있다. 예컨대, 일기 예보 주제 영역과 여행 상담 주제 영역에서 사용하는 말은 다른 규칙과 특성을 가지는데, 일기 예보 주제 영역의 음성 인식이 목적인 낭독체 일기 예보 인식용 언어 모델을 구어체 여행 상담 대화 음성 인식을 위해 사용한다면, 전혀 도움이 되지 않고 오히려 인식 성능을 저하시킬 수 있다. 이와 같이, 어떤 특정 주제 영역(Topic Domain)에 한정되어 구축된 언어 모델은 그 주제 영역이 바뀌게 될 경우에 음성 인식 성능이 저하되는 단점이 있다.

이러한 단점을 극복하기 위해서, 한 가지 주제 영역에 한정되지 않는 다양한 주제 영역을 포괄하는 언어 모델을 구축하여 이용하게 되는데, 이러한 방식으로는 글로벌(Global)한 언어 모델 방식, 병렬적(Parallel) 언어 모델 방식 및 주제 의존(Topic Dependency) 언어 모델 방식이 있다. 글로벌 언어 모델 방식은 언어 모델을 한 가지로 구축함으로써 리소스가 적게 소요되나, 언어 모델의 혼잡성이 증가되어 인식의 정확도가 떨어진다는 문제가 있다. 병렬적 언어 모델 방식은 혼잡성이 감소하고 탐색 시간이 줄어드나, 리소스가 많이 소요되며 최적의 결과를 선택해야 하는 문제가 생기게 된다.

따라서, 언어 모델의 혼잡도를 감소시키고 탐색 시간 소요의 측면과 리소스 소요의 측면에서 유리한 주제 의존 언어모델 방식을 이용할 필요가 있는데, 주제 영역의 검출 성능과 언어 모델의 전환 성능을 향상시킴으로써 효율적인 음성 인식 이 가능한 음성 인식 장치 및 방법이 요구된다.

본 발명은 상기와 같은 문제점을 해결하기 위해 고안된 것으로서, 본 발명이 이루고자 하는 제 1 기술적 과제는, 글로벌 언어 모델을 이용한 전방향 탐색으로부터 주제 영역을 검출한 다음에 상기 주제 영역에 해당되는 특정 주제 언어 모델을 이용하여 역방향 디코딩을 수행함으로써 대화체 음성의 인식률(Accuracy)과 효율성(Efficiency)을 향상시킬 수 있는, 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법을 제공하는데 있다.

본 발명이 이루고자 하는 제 2 기술적 과제는, 상기 주제 영역 검출을 이용한 대화체 음성 인식 방법을 컴퓨터에서 실행하기 위한 프로그램 코드를 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 있다.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상술한 목적을 달성하기 위한 본 발명의 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 장치는, 사전 구축된 글로벌 언어 모델 데이터베이스와 발음 사전 데이터베이스 및 음향 모델 데이터베이스를 참조하여, 입력 음성 신호로부터 검출된 특징 벡터와 유사한 단어열을 생성하는 전방향 탐색(Forward Search)을 수행하는 전방향 탐색부; 상기 전방향 탐색의 결과 생성된 상기 단어열에 대한 정 보를 이용하여 상기 단어열 내의 어휘들의 의미로부터 도출되는 주제 영역(Topic Domain)을 검출하는 주제 영역 검출부; 및 상기 검출된 주제 영역에 관하여 사전 구축된 특정 주제 영역 언어모델 데이터베이스를 참조하여 상기 입력 음성 신호에 대한 음성 인식 결과를 텍스트로 출력하는 역방향 디코딩(Backward Decoding)을 수행하는 역방향 디코딩부를 포함한다.

또한, 상술한 목적을 달성하기 위한 본 발명의 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 방법은, (a) 사전 구축된 글로벌 언어 모델 데이터베이스와 발음 사전 데이터베이스 및 음향 모델 데이터베이스를 참조하여, 입력 음성 신호로부터 검출된 특징 벡터와 유사한 단어열을 생성하는 전방향 탐색(Forward Search)을 수행하는 단계; (b) 상기 전방향 탐색의 결과 생성된 상기 단어열에 대한 정보를 이용하여 상기 단어열 내의 어휘들의 의미로부터 도출되는 주제 영역(Topic Domain)을 검출하는 단계; 및 (c) 상기 검출된 주제 영역에 관하여 사전 구축된 특정 주제 영역 언어모델 데이터베이스를 참조하여, 상기 입력 음성 신호에 대한 음성 인식 결과를 텍스트로 출력하는 역방향 디코딩(Backward Decoding)을 수행하는 단계를 포함한다.

기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

이하, 본 발명의 바람직한 실시예들에 의하여 미리 정의된, 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법을 설명하기 위한 블럭도 또는 흐름도들을 참조하여 보다 상세히 설명한다.

상기 도 2를 참조하면, 본 발명의 실시예에 따른 대화체 음성 인식 장치는, 특징 추출부(110), 전방향 탐색부(120), 주제영역 검출부(130), 역방향 디코딩부(140) 및 텍스트 정보 관리부(150)를 포함한다. 그리고, 전방향 탐색부(120), 주제영역 검출부(130) 및 역방향 디코딩부(140)에게 각각 정보를 제공하는 데이터베이스로서 글로벌 언어 모델 데이터베이스(210), 확률 인자 데이터베이스(220) 및 특정 주제영역 언어모델 데이터베이스(230)가 존재하며, 이러한 데이터베이스는 훈련 코퍼스(200)로부터 생성된다.

특징 추출부(110)는 본 발명의 실시예에 따른 대화체 음성 인식 장치로 입력된 음성 신호로부터 음성 인식에 유용한 정보만을 가지고 있는 특징 벡터를 추출하는 역할을 한다. 이러한 음성 신호로부터의 특징 벡터 추출은 불필요하게 중복되는 음성 정보를 없애고 동일 음성 신호들 간의 일관성을 높임과 동시에 다른 음성 신호와는 변별력을 높일 수 있는 정보를 추출하는 과정이라 할 수 있다. 이러한 음성 인식을 위해서 사용되는 음성 특징 추출 방법으로는 LPC Cepstrum, PLP Cepstrum, MFCC(Mel Frequency Cepstral Coefficient), 필터 뱅크 에너지 기법 등이 있으나, 본 발명의 실시예에서는 특정한 음성 특징 추출 방법에 한정되지 않음은 당업자에게 자명할 것이다.

전방향 탐색부(120)는 상기와 같이 추출된 특징 벡터을 입력받으며, 사전 구축된 글로벌 언어 모델 데이터베이스(210)와 발음 사전 데이터베이스(미도시) 및 음향 모델 데이터베이스(미도시)를 참조하여, 상기 특징 벡터와 유사한 단어열(Word Lattice)을 생성하는 전방향 탐색(Forward Search)을 수행하는 역할을 한다. 특징 추출부(110)로부터 검출된 특징 벡터는 전방향 탐색부(120)와 역방향 디코딩부(140) 등을 통하여 음성 인식 과정을 거치게 되는데, 이러한 인식을 위해서는 음성의 신호적인 특성을 모델링하여 비교하는 음향 모델(Acoustic Model)과 인식되는 어휘에 대한 발음을 음소의 나열로 모델링하는 발음 사전 및 인식되는 어휘에 해당하는 단어나 음절 등의 언어적 순서 관계를 모델링하는 언어 모델(Language Model)의 정보를 축적해 놓는 공간이 필요하다. 전방향 탐색(Forward Search) 과정에서는 이러한 음향 모델과 발음 사전 및 언어 모델의 데이터베이스를 이용하여 입력 음성에 대해 가능한 모든 후보 어휘들로 구성된 단어열(Word Lattice)을 구성하게 된다. 이러한 단어열이 예시된 것이 도 4에 나타나 있는데, 도 4는 대화체 음성 인식의 과정에서 전방향 탐색의 결과 생성되는 단어열의 구조를 예시한 도면이다. 상기 도 4를 참조하면, 상기 단어열이라는 것은 가능한 후보 어휘들로 구성된 래티스를 의미하는데, 전방향 탐색의 결과, (Hello, Hi, Hell), (How, My, His, You), (Name, Number), (Was, Is, Will)이라는 후보 단어들이 구해짐을 알 수 있으며, 상기 래티스로 연결된 어휘는 문장 상에서 연결될 수 있음을 알 수 있다. 그리고, 상기와 같은 어휘들 중 회색이 칠해져 있는 어휘 부분(Hi, My, Number, Is)은 후술하게 될 역방향 디코딩의 과정을 수행함으로써 결정되는데, 이 과정은 역방향 디코딩 부분에서 상세히 설명한다.

주제 영역 검출부(130)는 상기 전방향 탐색의 결과 생성된 상기 단어열에 대한 정보를 이용하여 상기 단어열 내의 어휘들의 의미로부터 추론될 수 있는 발화의 토픽인 주제가 속하는 영역(Topic Domain)을 검출하는 역할을 한다. 이러한 주제 영역 검출부(130)는 세 가지 요소로 구성되어 있는데, 주제 영역 검출부(130)의 구성을 도 3을 참조하여 상세히 설명한다.

도 3은 상기 도 2에 나타난 대화체 음성 인식 장치의 전체 블럭 구성 중 주제 영역 검출부(130)의 구성을 나타내는 도면이다. 주제 영역 검출부(130)는, 비핵심어 제거부(132), 주제 영역 거리 산출부(134) 및 최소 거리 주제 영역 검출부(136)를 포함하고 있다.

비핵심어 제거부(132)는 전방향 탐색부(120)에 의한 전방향 탐색의 결과 생성된 상기 단어열을 구성하는 어휘들 중 주제 영역과 무관한 비핵심어(Stop Word)를 제거하는 역할을 한다. 즉, 전방향 탐색 결과인 단어열을 입력받아 단어열에 포함되어 있는 어휘들을 가지고 주제 영역을 결정하게 되는데, 이때 단어열에 있는 모든 어휘를 가지고 계산하는 것이 아니라, 상기 주제 영역과는 무관한 조사나 어미 등과 같은 비핵심어를 제거하고 남은 어휘들을 후술하게 될 주제 영역 거리 산출부(134)로 입력시킨다.

주제 영역 거리 산출부(134)는 상기 비핵심어가 제거된 단어열을 비핵심어 제거부(132)로부터 입력받아 상기 단어열 내의 핵심 어휘들로부터 도출될 수 있는 모든 가능한 주제 영역과의 거리를 산출하는 역할을 한다. 특히, 텍스트 정보 관리부(150)로부터 획득한 출력 텍스트에 대한 히스토리 정보 등을 피드백받고, 상기 각 주제 영역과의 거리 산출에 사용될 각종 확률 인자 데이터를 가지고 있는 확률 인자 데이터베이스(220)로부터 획득한 정보를 이용하여 상기 주제 영역 거리를 산출하게 되는데, 상기 거리를 산출하는 알고리즘은 크게 네 가지 인자로 구성되어 있는 다음의 <수학식>과 같다.

<수학식>

여기서, 좌변의 Pr(D_i|w₁ w_n)은 n 개의 단어들로부터 i 번째 주제 영역이 선택되는 확률로서 i 번째 주제 영역과의 거리를 의미한다.

우변에서의 첫번째 인자인 Pr(w_j|D_i)는 i 번째 주제 영역 D_i가 선택된 상태에서 j 번째 주제 단어 w_j 가 선택되는 확률로서 상기 단어 w_j 의 "대표성"을 의미한다. 두번째 인자인 1/DF_wj 는 상기 j 번째 단어 w_j 가 속할 수 있는 주제 영역의 개수인 주제 영역 빈도수(Domain Frequency)의 역수로서, 상기 w_j 가 몇 개의 주제 영 역에서 나타나는 것인지를 의미하는 "변별성"을 내포하고 있다. 즉, 여러 주제 영역에서 나타나는 어휘라면 주제 영역 검출에 그다지 큰 영향을 줄 수 없는 어휘이므로 변별성이 낮으며, 한 가지 주제 영역에서만 사용될 수 있는 어휘라면 해당 주제 영역을 검출하는데 큰 영향을 주게 되므로 변별성이 아주 높을 것이다. 상기 "대표성"과 "변별성"을 상징하는 두 인자는 일반적으로 정보 검색이나 토픽 분류에서 일반적으로 사용되는 값이다. 또한, 세번째 요소인 w_domain 은 발화 문맥(Context)에 대한 확률값의 가중치로서 "문맥 가중치 인자"를 의미하는데, 즉, 현재 고려하고 있는 후보 주제 영역이 바로 직전의 발화에서의 주제 영역과 같은지 다른지에 따라 확률 가중치를 부여하는 역할을 한다. 일반적으로 발화자의 대화는 연결성이 강하기 때문에 직전의 발화 주제와 동일할 경우에는 주제가 바뀌는 경우보다 더 많은 가중치를 부여해야 하며, 직전의 발화 주제와 다를 경우에는 가중치를 낮게 부여해야 한다. 마지막으로 네번째 인자인 WF_Di/n 는 상기 i 번째 주제 영역 D_i 를 지지하는 주제 단어의 개수인 주제 단어 빈도수(Word Frequency)를 반영하기 위해 도입한 "단어 빈도수 인자"로서, 현재 입력된 단어열의 어휘 중에서 얼마나 많은 어휘가 현재 후보 주제 영역에 관련된 것인지를 반영하는 인자이다. 상기 "문맥 가중치 인자"와 "단어 빈도수 인자"는 음성 인식 과정의 런타임시에 얻어지는 값인데, 특히 "문맥 가중치 인자"는 후술하게 될 텍스트 정보 관리부(150)로부터 피드백받게 된다.

상기와 같은 인자로 구성된 <수학식> 알고리즘에 의해 후보가 될 수 있는 몇 개의 주제 영역과의 각 거리를 산출하였는 바, 이제 산출된 각 거리 중에서 주제 영역으로 선택될 주제 영역과의 거리인 최소 거리를 결정해야 하는데, 이러한 역할은 최소 거리 주제 영역 검출부(136)가 담당한다. 최소 거리 주제 영역 검출부(136)는 상기 <수학식> 알고리즘에 의해 산출된 각 주제 영역과의 거리 중 최소 거리를 가지는 주제 영역을 검출하는 역할을 한다. 이러한 최소 거리를 결정하기 위해서는 몇 개의 후보 주제 영역 중에서 직전의 주제 영역과 동일한 주제 영역이 무엇이었는지를 알 필요가 있는데, 이러한 대화 주제의 히스토리 정보는 후술하게 될 텍스트 정보 관리부(150)로부터 얻게 된다.

역방향 디코딩부(140)는 상기 검출된 주제 영역에 관하여 사전에 구축된 언어 모델인 특정 주제 영역 언어모델 데이터베이스(230)를 참조하여, 상기 입력 음성 신호에 대한 음성 인식 결과를 텍스트로 출력하는 역방향 디코딩(Backward Decoding)을 수행하는 역할을 한다. 또한, 역방향 디코딩부(140)는 특정주제 영역 언어모델 데이터베이스(230)를 참조한 역방향 디코딩의 결과 상기 텍스트가 출력되지 못할 경우에는, 상기 글로벌 언어 모델 데이터베이스(210)를 참조하는 역방향 서브 디코딩(Sub-Decoding)을 더 수행하는 것이 바람직하다. 그러나, 상기 역방향 서브 디코딩을 항상 수행하는 것은 아니며, 특정 주제 영역 언어모델 데이터베이스(230)를 가지고 디코딩을 수행했는데도 텍스트 출력에 실패했을 경우를 대비하여 서브 디코딩을 수행하는 것이다. 단, 글로벌 언어 모델 데이터베이스(210)를 참조하는 역방향 서브 디코딩을 수행하기 위한 전제로서 상기 주제 영역과의 거리 산출 결과가 미리 설정된 소정 임계치의 범위 내에 있어야 할 것이다.

텍스트 정보 관리부(150)는 역방향 디코딩부(140)에 의해 출력된 텍스트의 주제 영역에 대한 정보와 상기 텍스트의 히스토리 정보를 포함하는 다양한 정보를 저장하고 관리하는 역할을 한다. 텍스트 정보 관리부(150)의 다양한 역할 중 음성 인식과 관련한 대표적 역할이 발화자의 대화에 대한 히스토리(History) 관리를 들 수 있는데, 상기 히스토리 관리란 발화자의 연속된 대화 또는 명령에 대한 관련 정보를 관리하는 것과, 이전의 사용자 발화에 대한 음성 인식 결과와 해당 주제 영역 등에 관한 정보를 관리하는 것을 의미한다. 그러므로, 주제 영역 검출부(130)가 주제 영역을 판정하는데 있어서, 현재 발화에 대한 전방향 탐색의 결과로 생성된 단어열 뿐만 아니라 텍스트 정보 관리부(150)로부터 이전 발화에 대한 히스토리 정보를 획득하여 주제 영역을 검출하는데 반영하게 된다.

한편, 본 발명의 실시예에 따른 음성 인식 장치에서는 전방향 탐색부(120), 주제 영역 검출부(130) 및 역방향 디코딩부(140)는 각종 데이터베이스를 참조하여 역할을 수행하게 되는데, 전방향 탐색부(210)는 글로벌 언어 모델 데이터베이스(210)를, 주제 영역 검출부(130)는 확률 인자 데이터베이스(220)를, 역방향 디코딩부(140)는 특정주제 영역 언어모델 데이터베이스(230)를 참조하게 된다. 여기서, 확률 인자 데이터베이스(220)를 제외한 나머지 두 데이터베이스(210, 230)는 언어 모델의 형태를 가지고 있는데, 언어 모델(Language Model)이란 음성 인식 시스템의 일종의 문법이라 할 수 있다. 대화체 연속 음성 인식 시스템이라고 해서 임의의 아무 문장을 다 인식할 수 있는 것은 아니고 어떤 정해진 문법에 맞는 문장만을 인식하므로, 언어 모델을 음성 인식 시스템의 탐색 과정에서 사용함으로써 음성 인식 시스템의 탐색 공간을 감소시킬 수 있으며, 문법에 맞는 문장에 대한 확률을 높여 주는 역할을 하므로 인식률 향상에도 기여하게 되는 것이다.

글로벌 언어 모델 데이터베이스(210)는 주제 영역과 무관하게 전체 언어에 대한 광범위한 정보를 가지고 있는 데이터베이스이며, 특정 주제 영역 언어모델 데이터베이스(230)는 주제 영역 별로 작성된 언어 모델을 의미하며, 전체에 대한 언어 모델이 아니라 특정 주제 영역에 대한 언어 모델이라는 점만 제외하면 글로벌 언어 모델 데이터베이스(210)와 동일한 구조를 갖는다. 한편, 확률 인자 데이터베이스(220)는 주제 영역 검출부(130)가 수행하는 주제 영역과의 거리 산출에 사용되는 확률값들에 대한 인자를 저장하고 있다. 상술하였듯이, 주제 영역의 검출 과정은 상기 <수학식> 알고리즘을 통해 이루어지는데, 4 가지 인자로 구성된 확률값 계산식에서 "대표성"과 "변별성"을 의미하는 첫번째 인자와 두번째 인자에 대한 값은 미리 해당 주제 영역과 관련된 코퍼스(Corpus)를 이용하여 구할 수 있는 값이다. 이때 사용되는 코퍼스가 훈련 코퍼스(Training Corpus)(200)인데, 이는 주제 영역 별로 사전에 미리 수집해 놓은 발성 가능한 대량의 텍스트에 대한 자료라고 볼 수 있다. 상기 훈련 코퍼스(200)를 이용하여 상기 "대표성"과 "변별성"에 관련된 확률값을 구하는 모델 훈련(Model Training) 과정을 거치게 되며, 상기 모델 훈련 과정을 거친 자료들은 확률 인자 데이터베이스(220)로 저장되어 관리된다. 즉, 확률 인자 데이터베이스(220)는 상기 주제 영역 별로 미리 구축된 훈련 코퍼스(Training Corpus)를 이용하여 생성되는 것이다. 한편, 다양한 주제 영역의 대화 인식을 목적으로 하는 대화체 연속 음성 인식 시스템에서, 훈련 코퍼스(200)가 충분히 확보 된 경우에는 신뢰성이 높고 강건한 언어 모델을 구축할 수 있다.

상기와 같은 본 발명의 실시예에서 사용되는 '~부'라는 용어, 즉 '~모듈' 또는 '~테이블' 등은 소프트웨어, FPGA(Field Programmable Gate Array) 또는 주문형 반도체(Application Specific Integrated Circuit, ASIC)와 같은 하드웨어 구성요소를 의미하며,부은 어떤 기능들을 수행한다. 그렇지만 모듈은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. 모듈은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 모듈은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 모듈들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 모듈들로 결합되거나 추가적인 구성요소들과 모듈들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 모듈들은 디바이스 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.

한편, 도 5는 본 발명의 실시예에 따른 대화체 음성 인식 장치가 주제 영역을 검출함으로써 대화체 연속 음성 인식을 하는 과정을 예시한 도면이다. 먼저 발화자가 "지금 기온이 몇이지?"라는 문장을 발화하게 되면, 전방향 탐색의 결과, "지금", "기온", "시간", "이", "몇", "시", "이", "지"라는 각 어휘에 대해서 어코스틱(Accaustic) 스코어가 기록된다. 그리고, 상기에서 설명한 <수학식> 알고리즘 에 의해 주제 영역의 후보를 산출하게 되는데, 여기서는 [날씨]와 [날짜-시각]의 주제 영역이 후보 주제 영역으로 선정되었음을 알 수 있다. 검출된 후보 주제 영역에 대해서 역방향 디코딩을 수행하게 되면, [날씨] 영역에 대한 디코딩 결과는 "지금 기온이 몇이지"라는 텍스트가 출력되며, [날짜-시각] 영역에 대한 디코딩 결과는 "지금 기온이 몇 시지"라는 텍스트가 출력된다. 이때 텍스트 정보 관리부(150)의 이전 주제 영역의 히스토리 정보 등을 참조할 경우 [날씨] 영역에 대한 발화 내용을 의미하는 텍스트를 출력하게 될 것이다.

이제, 본 발명의 실시예에 따른 대화체 음성 인식 방법의 시간적 흐름을 도 6과 도 7을 참조하여 설명할 것이다. 도 6은 본 발명의 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 방법의 전체 흐름도를 나타내는 도면이며, 도 7은 상기 도 6에 나타난 대화체 음성 인식 방법의 전체 흐름 중 주제 영역 검출의 흐름을 나타내는 도면이다.

상기 도 6 및 도 7을 참조하여 설명하면, 먼저 발화자가 "지금 기온이 몇이지?"와 같은 문장을 발화하게 되면, 특징 추출부(110)는 상기와 같은 음성 신호를 입력받아 특징 벡터를 검출하게 된다(S110). 전방향 탐색부(120)는 사전에 미리 구축된 글로벌 언어 모델 데이터베이스(210)와 발음 사전 데이터베이스(미도시) 및 음향 모델 데이터베이스(미도시)를 참조하여 상기 특징 벡터와 유사한 단어열을 생성하는 전방향 탐색(Forward Search)을 수행하게 된다(S120).

그리고, 주제 영역 검출부(130)는 상기 전방향 탐색의 결과 생성된 상기 단어열에 대한 정보를 이용하여 상기 단어열 내의 어휘들의 의미로부터 도출되는 주제 영역(Topic Domain)을 검출하는 단계(S130)를 수행하는데, 이 단계에 대해서는 도 7을 참조하여 상세히 설명한다. 상기 단어열을 구성하는 단어들 중 주제 영역과 무관한 비핵심어(Stop Word)가 비핵심어 제거부(132)에 의해 제거되며(S132), 주제 영역 거리 산출부(134)는 상기 비핵심어가 제거된 단어열을 입력받아 상기 단어열 내의 어휘들로부터 각 주제 영역과의 거리를 산출하게 된다(S134). 여기서, 후술하게 될 역방향 디코딩의 결과 출력된 텍스트로부터 획득한 정보와 각 주제 영역과의 거리 산출에 사용되는 확률 인자를 가지고 있는 확률 인자 데이터베이스(220)로부터 획득한 정보를 참조하여 상기 거리를 산출하는 것이 바람직하다. 한편, 상기 확률 인자 데이터베이스(220)는 상기 주제 영역 별로 미리 구축된 발성 가능한 텍스트 정보를 포함하는 훈련 코퍼스(Training Corpus)를 이용하여 생성되며, 생성된 인자들을 이용하여 상기 거리를 산출하는 알고리즘을 만들 수 있다. 즉, 4 가지의 인자로 구성된 하기의 <수학식>에 의해 상기 알고리즘이 표현될 수 있다.

<수학식>

좌변의 Pr(D_i|w₁ w_n)은 n 개의 단어들로부터 i 번째 주제 영역이 선택되는 확률로서 i 번째 주제 영역과의 거리를 의미한다. 우변에서의 첫번째 인자인 Pr(w_j|D_i)는 i 번째 주제 영역 D_i가 선택된 상태에서 j 번째 주제 단어 w_j 가 선택되 는 확률로서 상기 단어 w_j 의 "대표성"을 의미한다. 두번째 인자인 1/DF_wj 는 상기 j 번째 단어 w_j 가 속할 수 있는 주제 영역의 개수인 주제 영역 빈도수(Domain Frequency)의 역수로서, 상기 w_j 가 몇 개의 주제 영역에서 나타나는 것인지를 의미하는 "변별성"을 내포하고 있다. 또한, 세번째 요소인 w_domain 은 발화 문맥(Context)에 대한 확률값의 가중치로서 "문맥 가중치 인자"를 의미하는데, 즉, 현재 고려하고 있는 후보 주제 영역이 바로 직전의 발화에서의 주제 영역과 같은지 다른지에 따라 확률 가중치를 부여하는 역할을 한다. 마지막으로, 네번째 인자인 WF_Di/n 는 상기 i 번째 주제 영역 D_i 를 지지하는 주제 단어의 개수인 주제 단어 빈도수(Word Frequency)를 반영하는 "단어 빈도수 인자"로서, 현재 입력된 단어열의 어휘 중에서 얼마나 많은 어휘가 현재 후보 주제 영역에 관련된 것인지를 반영하는 인자이다.

상기 <수학식>에 의해 산출된 각 주제 영역들과의 거리 중 최소 거리를 가지는 주제 영역이 최소 거리 주제 영역 검출부(136)에 의해 검출되게 된다(S136).

역방향 디코딩부(140)는 상기와 같은 과정을 거쳐 검출된 주제 영역에 관하여 사전 구축된 특정 주제 영역 언어모델 데이터베이스(230)를 참조하여 상기 입력 음성 신호에 대한 음성 인식 결과를 텍스트로 출력하는 역방향 디코딩(Backward Decoding)을 수행하게 된다(S140). 상기 특정주제 영역 언어모델 데이터베이스(230)를 참조한 역방향 디코딩을 수행하였는데도 텍스트가 출력되지 못하는 경우에 는, 글로벌 언어 모델 데이터베이스(210)를 참조하는 역방향 서브 디코딩을 더 수행하게 된다(S150).

한편, 본 발명의 일 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 방법과 종래의 연속 음성 인식 장치의 성능을 비교하기 위한 <실험예>를 제시한다.

<실험예>

본 발명의 일 실시예에 따른 음성 인식 실험이 수행된 환경은 다음과 같다. 사용된 언어는 한국어이며, 대화 형식은 "커맨드 & 컨트롤(Command & Control)", "질문 & 응답", "채팅 방식"이며, Training set는 12 개 주제 영역으로 구성되어 있으며, 음성 인식 엔진은 연속 음성 인식기를 사용하였다. 그리고, 세 가지 모델을 사용하였는데, 모델 A는 글로벌 언어 모델을 이용하였으며, 모델 B는 주제 영역 검출에 의해 선정된 best-1 주제 영역의 언어 모델을 사용하였으며, 모델 C는 상기 주제 영역 검출의 결과 스코어 차이에 따라 n 개의 특정 주제 영역의 언어 모델을 사용하여 음성 인식 실험을 한 것이다.

- 실험 결과 -

상기 실험 결과의 도표를 살펴보면, 문장 인식률의 측면에서는 모델 A와 모델 B는 큰 차이가 없으나, 모델 C의 경우에는 73.12 % 의 인식률로서 타 모델보다 문장 인식률이 상당히 높아진 것을 알 수 있으며, 이러한 결과는 그래프를 통해서도 알 수 있다.

즉, 본 발명의 일실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 방법에서, 정확한 주제 영역을 검출할 경우 문장 인식률의 측면에서 상당한 개선을 거둘 수 있음을 알 수 있다.

한편, 본 발명의 실시예에 따른 음성 인식 장치의 권리 범위는 상기와 같은 방법을 컴퓨터에서 실행하기 위한 프로그램 코드를 기록한 컴퓨터로 읽을 수 있는 기록 매체에도 미침은 당업자에게 자명하다.

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 벗어나지 않는 범위 내에서 여러 가지로 치환, 변형 및 변경이 가능하므로 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구의 범위에 의하여 나타내어지며, 특허청구의 범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

본 발명의 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법은, 글로벌 언어 모델을 이용한 전방향 탐색으로부터 주제 영역을 검출한 다음에 상기 주제 영역에 해당되는 특정 주제 언어 모델을 이용하여 역방향 디코딩을 수행함으로써 대화체 문장의 인식률(Accuracy)과 효율성(Efficiency)을 향상시킬 수 있는 효과가 있다.

본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

Claims

사전 구축된 글로벌 언어 모델 데이터베이스와 발음 사전 데이터베이스 및 음향 모델 데이터베이스를 참조하여, 입력 음성 신호로부터 검출된 특징 벡터와 유사한 단어열을 생성하는 전방향 탐색(Forward Search)을 수행하는 전방향 탐색부;

상기 전방향 탐색의 결과 생성된 상기 단어열에 대한 정보를 이용하여 상기 단어열 내의 어휘들의 의미로부터 도출되는 주제 영역(Topic Domain)을 검출하는 주제 영역 검출부;

상기 검출된 주제 영역에 관하여 사전 구축된 특정 주제 영역 언어모델 데이터베이스를 참조하여 상기 입력 음성 신호에 대한 음성 인식 결과를 텍스트로 출력하는 역방향 디코딩(Backward Decoding)을 수행하는 역방향 디코딩부; 및

상기 역방향 디코딩부에 의해 출력된 텍스트의 주제 영역에 대한 정보와 상기 텍스트의 히스토리 정보를 포함하는 정보를 저장하고 관리하는 텍스트 정보 관리부를 포함하는, 주제 영역 검출을 이용한 대화체 음성 인식 장치.
삭제
제 1 항에 있어서,

상기 주제 영역 검출부는,

상기 단어열을 구성하는 단어들 중 주제 영역과 무관한 비핵심어를 제거하는 비핵심어 제거부;

상기 비핵심어가 제거된 단어열을 입력받아 상기 단어열 내의 어휘들로부터 각 주제 영역과의 거리를 산출하는 주제 영역 거리산출부; 및

상기 산출된 각 주제 영역과의 거리 중 최소 거리를 가지는 주제 영역을 검출하는 최소 거리 주제 영역 검출부를 포함하는, 주제 영역 검출을 이용한 대화체 음성 인식 장치.
제 3 항에 있어서,

상기 주제 영역 거리산출부는,

상기 텍스트 정보 관리부로부터 획득한 정보와 상기 각 주제 영역과의 거리 산출에 사용되는 확률 인자를 가지고 있는 확률 인자 데이터베이스로부터 획득한 정보를 참조하여 상기 거리를 산출하는, 주제 영역 검출을 이용한 대화체 음성 인식 장치.
제 4 항에 있어서,

상기 확률 인자 데이터베이스는,

상기 주제 영역 별로 미리 구축된 발성 가능한 텍스트 정보를 포함하는 훈련 코퍼스(Training Corpus)를 이용하여 생성되는, 주제 영역 검출을 이용한 대화체 음성 인식 장치.
제 4 항에 있어서,

상기 주제영역 거리산출부는,

상기 확률 인자로 이루어진 하기의 <수학식>

(여기서, 상기 Pr(D_i|w₁ w_n)은 n 개의 단어들로부터 i 번째 주제 영역이 선택되는 확률, Pr(w_j|D_i)는 i 번째 주제 영역 D_i가 선택된 상태에서 j 번째 주제 단어 w_j 가 선택되는 확률, DF_wj 는 상기 j 번째 주제 단어 w_j가 나타나는 주제 영역의 개수인 주제 영역 빈도수, w_domain 은 발화 문맥에 대한 가중치, 그리고, WF_Di 는 상기 i 번째 주제 영역 D_i 를 지지하는 주제 단어의 개수인 주제 단어 빈도수를 의미한다)에 의해 상기 거리를 산출하는, 주제 영역 검출을 이용한 대화체 음성 인식 장치.
제 1 항에 있어서,

상기 역방향 디코딩부는,

상기 특정주제 영역 언어모델 데이터베이스를 참조한 역방향 디코딩의 결과 상기 텍스트가 출력되지 못하는 경우에는, 상기 글로벌 언어 모델 데이터베이스를 참조하는 역방향 서브 디코딩을 더 수행하는, 주제 영역 검출을 이용한 대화체 음성 인식 장치.
(a) 사전 구축된 글로벌 언어 모델 데이터베이스와 발음 사전 데이터베이스 및 음향 모델 데이터베이스를 참조하여, 입력 음성 신호로부터 검출된 특징 벡터와 유사한 단어열을 생성하는 전방향 탐색(Forward Search)을 수행하는 단계;

(b) 상기 전방향 탐색의 결과 생성된 상기 단어열에 대한 정보를 이용하여 상기 단어열 내의 어휘들의 의미로부터 도출되는 주제 영역(Topic Domain)을 검출하는 단계; 및

(c) 상기 검출된 주제 영역에 관하여 사전 구축된 특정 주제 영역 언어모델 데이터베이스를 참조하여, 상기 입력 음성 신호에 대한 음성 인식 결과를 텍스트로 출력하는 역방향 디코딩(Backward Decoding)을 수행하는 단계; 및

(d) 상기 역방향 디코딩 수행 단계에 의해 출력된 텍스트의 주제 영역에 대한 정보와 상기 텍스트의 히스토리 정보를 포함하는 정보를 저장하고 관리하는 단계를 포함하는, 주제 영역 검출을 이용한 대화체 음성 인식 방법.
제 8 항에 있어서,

상기 (b) 단계는,

(b1) 상기 단어열을 구성하는 단어들 중 주제 영역과 무관한 비핵심어를 제거하는 단계;

(b2) 상기 비핵심어가 제거된 단어열을 입력받아 상기 단어열 내의 어휘들로부터 각 주제 영역과의 거리를 산출하는 단계; 및

(b3) 상기 산출된 각 주제 영역과의 거리 중 최소 거리를 가지는 주제 영역을 검출하는 단계를 포함하는, 주제 영역 검출을 이용한 대화체 음성 인식 방법.
제 9 항에 있어서,

상기 (b2) 단계는,

상기 역방향 디코딩 결과 출력된 텍스트로부터 획득한 정보와 상기 각 주제 영역과의 거리 산출에 사용되는 확률 인자를 가지고 있는 확률 인자 데이터베이스로부터 획득한 정보를 참조하여 상기 거리를 산출하는 단계를 포함하는, 주제 영역 검출을 이용한 대화체 음성 인식 방법.
제 10 항에 있어서,

상기 확률 인자 데이터베이스는,

상기 주제 영역 별로 미리 구축된 발성 가능한 텍스트 정보를 포함하는 훈련 코퍼스(Training Corpus)를 이용하여 생성되는, 주제 영역 검출을 이용한 대화체 음성 인식 방법.
제 10 항에 있어서,

상기 (b2) 단계는,

상기 확률 인자로 이루어진 하기의 <수학식>

(여기서, 상기 Pr(D_i|w₁ w_n)은 n 개의 단어들로부터 i 번째 주제 영역이 선택되는 확률, Pr(w_j|D_i)는 i 번째 주제 영역 D_i가 선택된 상태에서 j 번째 주제 단어 w_j 가 선택되는 확률, DF_wj 는 상기 j 번째 주제 단어 w_j 가 나타나는 주제 영역의 개수인 주제 영역 빈도수, w_domain 은 발화 문맥에 대한 가중치, 그리고, WF_Di 는 상기 i 번째 주제 영역 D_i 를 지지하는 주제 단어의 개수인 주제 단어 빈도수를 의미한다)에 의해 상기 거리를 산출하는 단계를 포함하는, 주제 영역 검출을 이용한 대화체 음성 인식 방법.
제 10 항에 있어서,

상기 (c) 단계는,

상기 특정주제 영역 언어모델 데이터베이스를 참조한 역방향 디코딩의 결과 상기 텍스트가 출력되지 못하는 경우에는, 상기 글로벌 언어 모델 데이터베이스를 참조하는 역방향 서브 디코딩을 더 수행하는 단계를 포함하는, 주제 영역 검출을 이용한 대화체 음성 인식 방법.
제 8 항 내지 제 13 항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램 코드를 기록한 컴퓨터로 읽을 수 있는 기록 매체.