KR100484493B1

KR100484493B1 - 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법

Info

Publication number: KR100484493B1
Application number: KR10-2002-0079264A
Authority: KR
Inventors: 강병옥
Original assignee: 한국전자통신연구원
Priority date: 2002-12-12
Filing date: 2002-12-12
Publication date: 2005-04-20
Also published as: KR20040051350A

Abstract

본 발명은 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및 방법에 관한 것으로서, 더 상세하게는 대화체 연속음성인식 과정에서 사용되는 발음사전이 일반적인 발음변이를 포용하도록 한 다중 발음사전의 개념을 확장하여 대화체 발화에 빈번하게 나타나는 불규칙한 발음변이 현상을 포용하도록 확장된 발음사전을 적용하여 대화체 연속 음성인식에서 인식성능을 향상시키고, 정형화된 출력패턴을 얻을 수 있도록 한 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및 방법에 관한 것이다.

즉, 본 발명은 대화체에서 나타나는 음운 축약, 음운 탈락, 전형적인 오발화, 발화 오류 등을 발음사전에 수용할 때 각각의 대표어휘에 대한 변이발음으로 처리하고; 언어모델과 어휘사전은 대표어휘만을 이용해 구성하도록 하며; 음성인식기의 탐색부에서는 각각의 변이발음의 발음열도 탐색하되 대표어휘로 언어모델을 참조하도록 하고, 인식결과를 출력하도록 함으로써, 음성인식 성능을 향상시키고, 정형화된 출력패턴을 얻을 수 있도록 한다.

Description

다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및 방법{Spontaneous continuous speech recognition system and method using mutiple pronunication dictionary}

본 발명은 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및 방법에 관한 것으로서, 더 상세하게는 대화체 연속 음성인식 과정에서 사용되는 발음사전이 일반적인 발음변이(예; 음운 축약, 음운 탈락, 전형적인 오발화, 발화 오류 등)를 포용하도록 한 다중 발음사전의 개념을 확장하여 대화체 발화에 빈번하게 나타나는 불규칙한 발음변이 현상을 포용하도록 확장된 발음사전을 적용하여 대화체 연속 음성인식에서 인식성능을 향상시키고, 정형화된 출력패턴을 얻을 수 있도록 한 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및 방법에 관한 것이다.

잘 알려진 바와 같이, 일반적인 연속 음성인식 시스템은 도 1과 같은 구성을 갖는다. 도 1을 참조하면, 일반적인 연속 음성인식 시스템에 있어서 입력된 음성은 특징추출부(101)에서 인식에 유용한 정보만을 추출한 특징벡터로 변환되고, 이러한 특징벡터로부터 탐색부(102)에서 학습과정에서 미리 구해진 음향모델 데이터베이스(104)와 발음사전 데이터베이스(105), 언어모델 데이터베이스(106)를 이용하여 가장 확률이 높은 단어열을 비터비 알고리듬을 이용하여 찾게 된다. 여기서 대어휘 인식을 위하여 인식 대상 어휘들은 트리를 구성하고 있으며, 탐색부(102)는 이러한 트리를 탐색한다. 마지막으로, 인식 결과 출력부(103)는 탐색부(102)의 출력을 이용하여 인식 결과를 제공한다.

도 2는 도 1의 발음사전 데이터 베이스(105)에 사용되는 종래기술에 의한 탐색 트리의 예시도로서, 대상 어휘를 발음에 따라 트리의 형태로 묶는 트리 기반 탐색 기술을 나타낸다. 도 2에서 (201)은 루트(Root) 노드, (202)는 일반 노드, (203)은 리프(Leaf) 노드, (204)는 단어간 천이를 각각 나타낸다.

도 2를 참조하면, 처음 시작 혹은 한 어휘가 결정된 후 탐색경로는 모두 하나의 가상적인 루트(Root) 노드(201)에 연결된 형태를 갖는다. 이후에 음성 입력이 들어오면 매 프레임마다 트리의 모든 노드에서의 확률값을 계산한 후에, 각 노드로 들어오는 천이들 중에 가장 확률이 높은 천이만을 남긴다. 탐색을 진행하여 리프(Leaf) 노드(203) 들에 도달해 어휘가 결정되면, 리프(Leaf) 노드(204)에서 루트(Root) 노드(201)로의 천이는 단어가 변경되므로 어휘간의 연결에 통계적인 형태의 언어모델 데이터베이스(105; 도 1)가 적용된다.

상기와 같이 종래기술에 의한 발음사전은 대표어에 대한 각각의 발음변이를 모두 개별적인 어휘로 처리하여, 언어모델 역시 변이발음 개개에 대해 통계를 내야 하므로 언어모델의 효율성이 떨어지게 된다. 예를들면, '어떻게' 와 '어트께'는 문장내에서 동일한 의미로서 언어모델 측면에서 동일한 통계적 특성을 갖는데도, 각각 따로 계산되게 되는 문제점을 가지고 있었다.

한편, 당업자에게 잘 알려진 내용으로서, 대화체 음성은 낭독체와 달리 자연스런 발화로 인해 간투어, 반복, 수정, 사투리 어휘 등이 많이 나타나고, 발음 변이가 심하다. 특히, 대화체에서 발음 변이는 음운축약, 음운 탈락, 전형적인 오발화, 발화 오류 등의 다양한 형태로 나타난다.

상기와 같은 대화체에서의 발음변이 요소를 모두 수용하여 언어모델을 구성할 경우 언어모델이 약화되고, 어휘 수가 증가하는 단점으로 인해 대화체 음성인식에서 인식률 하락의 원인이 될 수 있다. 또한 음성인식 결과로 나타나는 출력 패턴이 정형화 되지 않아, 음성인식 뒤에 그 결과를 사용하는 언어번역 등의 적용에 문제가 될 수 있다.

본 발명이 이루고자 하는 기술적 과제는 상기한 문제점들을 해결하기 위하여 창출된 것으로서, 대화체 연속 음성인식 과정에서 사용되는 발음사전이 일반적인 발음변이들, 예를 들면 음운 축약, 음운 탈락, 전형적인 오발화, 발화 오류 등을 포용하도록 한 다중 발음사전의 개념을 확장하여 대화체 발화에 빈번하게 나타나는 불규칙한 발음변이 현상을 포용하도록 확장된 발음사전을 적용하여 대화체 연속 음성인식에서 인식성능을 향상시키고, 정형화된 출력패턴을 얻을 수 있을 뿐만 아니라 언어모델의 효율성을 높이도록 한 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및 방법을 제공하는데 그 목적이 있다.

상기 목적을 달성하기 위하여 본 발명에 따른 다중 발음사전을 이용한 대화체 연속 음성인식 시스템은, 소정의 음향모델과 관련한 정보가 저장되어 있는 음향모델 데이터베이스와; 소정의 언어모델과 관련한 정보가 저장되어 있는 언어모델 데이터베이스와; 대표어 뿐만 아니라 대화체 음성에서 나타나는 음운 축약, 음운 탈락, 오발화, 발화 오류 등과 같은 각종 발음변이 정보를 수용한 다중 발음사전 데이터베이스와; 입력된 음성에서 인식에 유용한 정보만을 추출하여 특징벡터로 변환하는 특징추출 수단과; 상기 특징벡터를 토대로 소정의 학습과정에서 미리 구해진 상기 음향모델 데이터베이스와 다중 발음사전 데이터베이스 및 언어모델 데이터베이스를 이용하여 가장 확률이 높은 단어열을 비터비 알고리즘을 이용하여 찾는 탐색수단; 및 상기 탐색수단의 출력을 이용하여 상기 입력된 음성의 인식 결과를 제공하는 인식결과 출력수단을 포함하여 된 것을 특징으로 한다.

본 발명 대화체 연속 음성인식 시스템에 있어서, 상기 다중 발음사전 데이터베이스에 수용되는 데이터들에 있어서 그 첫 번째 열은 발음사전의 표제어이고, 그 두 번째 열은 상기 표제어에 대한 발음을 나타내고, 상기 표제어의 발음변이가 있을 경우 상기 표제어에 괄호가 붙은 형태로 대표어 뒤에 따라오도록 구성되고, 상기 언어모델 데이터베이스는 해당 어휘의 대표어만으로 구축된다.

본 발명 대화체 연속 음성인식 시스템에 있어서, 상기 탐색수단은 대상 어휘를 발음에 따라 트리의 형태로 묶는 트리기반 탐색을 이용하고, 상기 트리기반 탐색에서 다음 어휘로 천이할 때 변이발음에 대한 대표어로 상기 언어모델 데이터베이스를 참조한다.

그리고, 상기 목적을 달성하기 위한 본 발명에 따른 다중 발음사전을 이용한 대화체 연속 음성인식 방법은, 대화체 연속 음성인식을 위해 대화체 음성에서 빈번하게 나타나는 음운 축약, 음운 탈락, 오발화, 발화 오류 등과 같은 발음변이를 포용하는 다중 발음사전을 사용하는 단계; 및 입력된 음성을 인식하기 위한 트리기반 탐색에서 다음 어휘로 천이할 때 변이발음에 대한 대표어로 해당하는 대표어만으로 구축된 언어모델 데이터베이스를 사용하는 단계를 포함하여 된 것을 특징으로 한다.

본 발명 대화체 연속 음성인식 방법에 있어서, 대화체 텍스트 코퍼스에서 미리 약속된 전사방식을 통해 대표어와 발음변이를 포함하는 확장된 다중 발음사전을 구성하는 단계를 포함한다.

이하, 첨부한 도면을 참조하면서 본 발명에 따른 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및 방법의 바람직한 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어서 관련된 공지기술 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 것이다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 또한, 도면을 설명함에 있어서, 종래기술에서 사용하였던 구성부재와 동일한 작용을 하는 구성부재들에 대해서는 같은 부재번호를 사용하고 이들에 대한 상세한 설명은 생략하기로 한다.

도 3은 본 발명에 따른 다중 발음사전을 이용한 대화체 연속 음성인식 시스템의 구성도이고, 도 4 및 도 5는 각각 본 발명에 따른 다중 발음사전을 이용한 대화체 연속 음성인식 방법을 설명하기 위한 예시도이다.

도 3을 참조하면, 본 발명에 따른 연속 음성인식 시스템에 있어서, 입력된 음성은 특징추출부(301)에서 인식에 유용한 정보만을 추출한 특징벡터로 변환된다. 상기 특징추출부(301)에 의해 변환된 상기 특징벡터를 참조하여 탐색부(302)는 학습과정에서 미리 구해진 음향모델 데이터베이스(304)와, 대표어 뿐만 아니라 대화체 음성에서 나타나는 음운 축약, 음운 탈락, 오발화, 발화 오류 등과 같은 각종 발음변이 정보를 수용한 다중 발음사전 데이터베이스(305), 및 해당 어휘의 대표어만으로 구축된 언어모델 데이터베이스(306)를 이용하여 가장 확률이 높은 단어열을 비터비 알고리듬을 이용하여 찾는다. 여기서 대어휘 인식을 위하여 인식 대상 어휘들은 트리를 구성하고 있으며, 탐색부(302)는 이러한 트리를 탐색한다. 마지막으로, 인식 결과 출력부(303)는 탐색부(302)의 출력을 이용하여 인식 결과를 제공한다. 상기 다중 발음사전 데이터베이스(305)는 대화체 음성에서 나타나는 각종 발음 변이들을 수용한다는 것은 전술한 바와 같다.

도 4은 본 발명에 사용되는 확장된 다중 발음사전 데이터베이스(305)에 저장되어 사용되는 확장된 다중 발음사전의 구성 예시도이다. 도 4을 참조하면, 첫번째 열은 발음사전의 표제어이며, 두번째 열은 그 표제어에 대한 발음을 나타낸다. 표제어의 발음변이가 있을 경우 표제어에 괄호가 붙은 형태로 대표어(표제어) 뒤에 따라온다.

도 5는 본 발명에 사용되는 확장된 다중 발음사전 데이터베이스(305)에서 사용되는 탐색트리의 예시도이다. 각 노드(501)(502)(503)가 갖는 의미는 도 2와 같은 종래의 발음사전 데이터베이스(105)에서 사용되는 탐색 트리와 같으나 탐색과정에서의 본 발명과 종래기술의 차이점은 다음과 같다.

도 2와 도 5에 각각 도시된 바와 같이 종래기술과 본 발명 모두 트리내의 노드를 탐색할 때 대표어에 대한 발음변이에 대해 각각 음향모델 데이터베이스(104)(304))를 참조하면서 확률값을 계산해 나가는 면에서는 같으나, 하나의 단어가 결정된 후 다음 단어로 천이(204)(504)할 때 언어모델 데이터베이스(104)(304)를 참조하는 방식이 다르다.

즉, 종래기술에서는 각각의 리프 노드(203)에서 다음 단어로 천이(204)할 때 하나의 대표어에 대한 변이발음에 대해서 따로 언어모델 데이터베이스(105)가 적용되는데 비해, 본 발명에서는 도 5에 도시한 바와 같이 리프 노드(503)에서 다음 단어로 천이(504)할 때 각 변이발음에 대한 대표어를 가지고 언어모델 데이터베이스(305)를 참조한다. 도 5에서 부재번호 501은 루트(Root) 노드, 502는 일반 노드를 나타내는데, 이들 각각은 전술한 도 2의 루트 노드(201), 일반 노드(202)와 같음을 알 수 있다.

이상에서 설명한 바와 같이 본 발명에 따른 대화체 연속 음성인식 시스템 및 방법은, 대화체 음성에서 나타나는 발음 변이를 수용한 확장된 다중 발음사전을 이용하여 탐색과정에 적용하고, 대표 어휘로만 언어모델을 구성하여 언어모델의 효율성을 높여 인식률을 향상시키고, 결과적으로 정형화된 출력형태를 갖도록 하는 이점을 제공한다.

이상 본 발명의 바람직한 실시예에 대해 상세히 기술하였지만, 본 발명이 속하는 기술분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구 범위에 정의된 본 발명의 정신 및 범위를 벗어나지 않으면서 본 발명을 여러 가지로 변형 또는 변경하여 실시할 수 있음을 알 수 있을 것이다. 따라서 본 발명의 앞으로의 실시예들의 변경은 본 발명의 기술을 벗어날 수 없을 것이다.

도 1은 일반적인 연속 음성인식 시스템의 구성도.

도 2는 종래기술에 의한 발음사전이 사용된 탐색 트리의 예시도.

도 3은 본 발명에 따른 다중 발음사전을 이용한 대화체 연속 음성인식 시스템의 구성도.

도 4는 본 발명에 따른 확장된 다중 발음사전의 예시도.

도 5는 본 발명에 따른 확장된 다중 발음 사전이 사용된 탐색 트리의 예시도.

<도면의 주요부분에 대한 부호의 설명>

301...특징 추출부

302...탐색부

303...인식결과 출력부

304...음향모델 데이터베이스

305...다중 발음사전 데이터베이스

306...언어모델 데이터베이스

Claims

대화체 연속 음성인식 시스템에 있어서,

음향모델과 관련한 정보가 저장되어 있는 음향모델 데이터베이스;

언어모델과 관련한 정보가 저장되어 있는 언어모델 데이터베이스;

대표어 뿐만 아니라 대화체 음성에서 나타나는 음운 축약, 음운 탈락, 오발화, 발화 오류로 이루어진 각종 발음변이 정보를 수용한 다중 발음사전 데이터베이스;

입력된 음성에서 인식에 유용한 정보만을 추출하여 특징벡터로 변환하는 특징추출 수단;

상기 특징벡터를 토대로 학습과정에서 미리 구해진 상기 음향모델 데이터베이스와 다중 발음사전 데이터베이스 및 언어모델 데이터베이스를 이용하여 가장 확률이 높은 단어열을 비터비 알고리즘을 이용하여 찾는 탐색수단; 및

상기 탐색수단의 출력을 이용하여 상기 입력된 음성의 인식 결과를 제공하는 인식결과 출력수단을 포함하고,

상기 다중 발음사전 데이터베이스에 수용되는 데이터들에 있어서 그 첫 번째 열은 발음사전의 표제어이고, 그 두 번째 열은 상기 표제어에 대한 발음을 나타내고, 상기 표제어의 발음변이가 있을 경우 상기 표제어에 괄호가 붙은 형태로 대표어 뒤에 따라오도록 구성되고,

상기 언어모델 데이터베이스는 해당 어휘의 대표어만으로 구축된 것을 특징으로 하는 다중 발음사전을 이용한 대화체 연속 음성인식 시스템.
삭제
제1항에 있어서, 상기 탐색수단은 대상 어휘를 발음에 따라 트리의 형태로 묶는 트리기반 탐색을 이용하고, 상기 트리기반 탐색에서 다음 어휘로 천이할 때 변이발음에 대한 대표어로 상기 언어모델 데이터베이스를 참조하도록 된 것을 특징으로 하는 다중 발음사전을 이용한 대화체 연속 음성인식 시스템.
대화체 연속 음성인식 방법에 있어서,

대화체 연속 음성인식을 위해 대화체 음성에서 빈번하게 나타나는 음운 축약, 음운 탈락, 오발화, 발화 오류로 이루어진 발음변이를 포용하는 다중 발음사전을 사용하는 단계; 및

입력된 음성을 인식하기 위한 트리기반 탐색에서 다음 어휘로 천이할 때 변이발음에 대한 대표어로 해당하는 대표어만으로 구축된 언어모델 데이터베이스를 사용하는 단계를 포함하여 된 것을 특징으로 하는 다중 발음사전을 이용한 대화체 연속 음성인식 방법.