KR100573870B1

KR100573870B1 - 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법

Info

Publication number: KR100573870B1
Application number: KR1020030071937A
Authority: KR
Inventors: 강병옥
Original assignee: 한국전자통신연구원
Priority date: 2003-10-15
Filing date: 2003-10-15
Publication date: 2006-04-26
Also published as: KR20050036303A

Abstract

본 발명은 대화체 음성에서 빈번하게 나타나는 발음변이를 의사형태소 기반의 대표어휘에 수용하여 확장된 다중 발음사전을 구성하고 대표어휘만을 이용하여 언어모델 및 어휘사전을 구성함으로써, 대화체 연속음성인식의 성능을 향상시키고 정형화된 출력패턴을 얻을 수 있는 다중발음사전 구축 방법 및 시스템과 이를 이용한 대화체 음성인식 방법에 관한 것이다.

본 발명은 대화체 텍스트 코퍼스로부터 대표음 텍스트 코퍼스와 변이음 텍스트 코퍼스를 각각 추출하는 단계와, 대표음 및 변이음 텍스트 코퍼스 각각에 대해 의사형태소 분석 및 태깅을 수행하는 단계와, 태깅 결과를 어절별로 비교하여 의사형태소 단위의 대표음/변이음 쌍들을 추출하는 단계와, 대표음 코퍼스만의 의사형태소 태깅 결과로부터 대표음 어휘사전을 생성하는 단계와, 대표음 어휘사전과 대표음/변이음 쌍 추출 결과를 통해 다중발음사전 및 대표음 언어모델을 생성하는 단계로 이루어진다.

의사형태소, 다중 발음사전, 언어모델, 연속음성인식 시스템, 발음변이

Description

대화체 연속음성인식을 위한 의사형태소 기반 다중발음사전 구축 방법 및 그 시스템과 이를 이용한 대화체 음성인식 방법{multiple pronunciation dictionary structuring Method and System based on the pseudo-morpheme for spontaneous speech recognition and the Method for speech recognition by using the structuring system}

도 1은 일반적인 연속음성인식시스템에 대한 블록 구성도.

도 2는 종래의 의사형태소 기반 발음사전에 대한 예시도.

도 3은 본 발명에 따른 의사형태소 기반 발음사전 구축 시스템의 블록 구성도.

도 4는 본 발명에 따른 의사형태소 기반 확장 다중발음사전의 예시도.

도 5는 종래의 의사형태소 기반 발음사전에 의한 탐색 트리의 예시도.

도 6은 본 발명에 따른 의사형태소 기반 발음사전에 의한 탐색 트리의 예시도.

<도면의 주요부분에 대한 부호의 설명>

101: 특징 추출부 102: 탐색부

103: 인식결과 출력부 104: 음향모델 DB

105: 발음사전 DB 106: 언어모델 DB

301: 대표음 텍스트 추출부 302: 변이음 텍스트 추출부

303: 의사형태소 태깅부 304: 의사형태소 태깅 후처리부

305: 대표음 어휘사전 생성부

306: 어절별 텍스트 비교부

307: 대표음/변이음 쌍 추출부

308: 대표음 언어모델 생성부

309: 다중 발음사전 생성부

본 발명은 대화체 연속음성인식을 위한 다중발음사전의 구축 및 음성인식 방법에 관한 것이며, 보다 상세히는 대화체 음성에서 빈번하게 나타나는 발음변이를 의사형태소 기반의 확장된 다중 발음사전 형태로 수용하여 대화체 연속음성인식 성능을 향상시키고 정형화된 출력패턴을 얻을 수 있는 의사형태소 기반 다중발음사전 구축 방법 및 그 시스템과 이를 이용한 대화체 음성인식 방법에 관한 것이다.

일반적으로, 대화체 음성은 낭독체와 달리 자연스런 발화로 인해 간투어, 반복, 수정, 사투리 어휘 등이 많이 나타나고, 발음 변이가 심하다. 특히, 발음 변이의 경우 음운축약, 음운 탈락, 전형적인 오발화, 발화 오류 등의 다양한 형태로 나타난다.

이러한 요소를 모두 수용하여 언어모델을 구성할 경우 언어모델이 약화되고, 어휘 수가 증가하는 단점으로 인해 인식률 하락의 원인이 될 수 있다. 또한, 음성인식 결과로 나타나는 출력 패턴이 정형화되지 않아, 음성인식 뒤에 그 결과를 사용하는 언어번역 등의 적용에 문제가 될 수 있다.

따라서, 본 발명은 상술한 종래의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 대화체 음성에서 나타나는 발음변이를 수용하여 의사형태소 기반의 확장 다중 발음사전을 구축함으로써 탐색과정에서 언어모델의 효율성을 높이고 인식률을 향상시키며 정형화된 출력형태를 갖도록 하는 대화체 연속음성인식을 위한 의사형태소 기반 다중발음사전 구축 방법 및 그 시스템과 이를 이용한 대화체 음성인식 방법을 제공하는데 있다.

상기 본 발명의 목적을 달성하기 위한 대화체 연속음성인식을 위한 의사형태소 기반 다중발음사전 구축 방법은, 대화체 텍스트 코퍼스로부터 대표음 텍스트 코퍼스와 변이음 텍스트 코퍼스를 각각 추출하는 단계; 상기 추출된 대표음 및 변이음 텍스트 코퍼스 각각에 대해 의사형태소 분석 및 태깅을 수행하는 단계; 상기 태깅 결과를 어절별로 비교하여 의사형태소 단위의 대표음/변이음 쌍들을 추출하는 단계; 상기 대표음 텍스트 코퍼스의 의사형태소 태깅 결과로부터 대표음 어휘사전을 생성하는 단계; 및 상기 대표음 어휘사전과 상기 대표음/변이음 쌍 추출 결과를 이용하여 다중발음사전 DB을 생성하는 단계;로 이루어진다.

상기 다중발음사전 생성 단계는, 다중발음사전 DB의 대표음 및 그 변이음들을 하나의 대표 표제어로 표현하고 표제어에 별도의 식별태그를 추가하여 각 변이 음들을 관리하는 것이 바람직하다.

또한, 상기 본 발명의 목적을 달성하기 위한 대화체 연속음성인식을 위한 의사형태소 기반 다중발음사전 구축 시스템은, 입력 대화체 텍스트 코퍼스로부터 대표음 코퍼스를 추출하는 대표음 텍스트 추출부; 입력 대화체 텍스트 코퍼스로부터 변이음 텍스트 코퍼스를 추출하는 변이음 텍스트 코퍼스 추출부; 상기 추출된 대표음 및 변이음 텍스트 코퍼스 각각에 대해 의사형태소 분석 및 태깅을 수행하는 의사형태소 태깅부; 상기 의사형태소단위로 태깅된 대표음 텍스트 코퍼스 및 변이음 텍스트 코퍼스를 어절별로 비교하여 대표음/변이음 쌍들을 추출하는 대표음/변이음 쌍 추출부; 상기 대표음 텍스트 코퍼스의 의사형태소 분석결과로부터 대표음 어휘사전을 생성하는 대표음 어휘사전 생성부; 상기 대표음 어휘사전과 상기 대표음/변이음 쌍 추출 결과를 통해 다중발음사전 DB를 생성하는 다중발음사전 생성부; 및 상기 생성된 대표음 어휘사전 결과를 통해 대표음 언어모델 DB를 생성하는 대표음 언어모델 생성부;로 구성된다.

또한, 상기 본 발명의 목적을 달성하기 위한 의사형태소 기반 대화체 음성인식 방법은, 입력되는 대화체 음성으로부터 인식에 필요한 특징벡터를 추출하는 단계와, 음향모델, 발음사전, 및 언어모델을 참조하여 상기 추출된 특징벡터로부터 가장 확률이 높은 단어열을 의사형태소 기반으로 탐색하는 단계와, 상기 탐색 결과를 통해 텍스트 형태로 인식하는 단계로 이루어지는 의사형태소 기반 대화체 음성인식 방법에 있어서, 상기 탐색 단계는, 본 발명의 의사형태소 기반 다중발음사전 구축 방법에 따라 구축되는 발음사전 및 언어모델을 이용하여 대상 어휘를 발음에 따라 트리의 형태로 묶는 트리 기반 탐색을 수행하며, 트리내 노드들의 탐색에 의해 하나의 단어가 결정되면 그 결정 단어의 대표음에 대한 언어모델을 참조하여 어휘간 연결을 수행하는 것을 특징으로 한다.

이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.

도 1은 일반적인 연속음성인식시스템에 대한 블록 구성도이다.

도 1에 도시된 바와 같이, 연속음성인식시스템은, 일반적으로 특징 추출부(101), 탐색부(102), 및 인식결과 출력부(103)로 구성되고, 데이터베이스로서 음향모델 DB(104), 발음사전 DB(105), 언어모델 DB(106) 등을 구비한다.

상기 특징 추출부(101)는 입력되는 대화체 음성으로부터 인식에 유용한 정보만을 추출하여 특징벡터로 변환한다.

또한, 상기 탐색부(102)는 학습과정을 통해 미리 구축된 음향모델 DB(104), 발음사전 DB(105), 및 언어모델 DB(106)를 참조하면서 상기 추출된 특징벡터로부터 가장 확률이 높은 단어열을 비터비 알고리즘을 통해 찾게된다.

상기 음향모델 DB(104), 발음사전 DB(105), 및 언어모델 DB(106)는 대어휘 인식을 위해 그 인식단위는 한국어 의사형태소 단위로 구성된다. 여기에서 인식대상 어휘들은 트리를 구성하고 있으며, 상기 탐색부(102)는 이러한 트리를 탐색하게 된다.

그리고, 상기 인식결과 출력부(103)는 상기 탐색부(102)의 출력을 이용하여 그 인식결과를 제공한다.

도 2는 종래 일반적인 의사형태소 기반 발음사전 DB(105)의 구성에 대한 예시도이다.

도 2에서와 같이, 종래 발음사전 DB(105)의 구성은 각 의사형태소의 표준발음과 함께 발음변이에 해당하는 발음들이 모두 표제어로서 나타나는 것을 볼 수 있다.

한편, 일반적인 형태소와 비교하여 대화체 음성인식에서 사용되는 인식단위로서의 의사형태소에 대해 간단히 설명하면 다음과 같다.

의사형태소는 주어진 어절의 소리값을 유지하는 범위 내에서의 언어학적인 형태소를 말하며, 어떤 형태의 음소가 첨가되거나 삭제되지 않는다. 이는 의사형태소 단위로 분리된 형태소들의 단순 결합에 의해서 원래의 소리값을 찾을 수 있음을 의미한다. 즉, 의사형태소는 일반적인 형태소와 매우 유사하나, 형태소의 분리에 있어서 소리값이 유지된다는 점이 매우 다르다.

따라서, 불규칙이나 음운 현상을 처리하는데 있어서 소리값이 유지되도록 그 기준을 정한다. 의사형태소는 불규칙 및 음운 현상에 의해서 분리되는 의사형태소 외에 다른 의사형태소는 일반적인 형태소와 같다. 그러나, 불규칙 및 음운 현상에 의해서 분리되는 의사형태소는 그 음가가 연접 연산에 의해서 원형을 찾을 수 있어야 하므로 일반적인 형태소와는 다소 차이를 보인다. 예를 들면, '써서'라는 어절은 일반적인 형태소에서는 '쓰+어서'로 분리되나, 의사형태소에서는 '써/pvg(EUI)+서'로 분리된다.

한편, 도 3은 본 발명에 따른 의사형태소 기반 발음사전 구축 시스템의 블록 구성도이다.

도 3에서, 대표음 텍스트 추출부(301)는 미리 약속된 전사규칙에 의해 대화체 텍스트 코퍼스(Corpus)로부터 대표음 텍스트 코퍼스를 추출하고, 변이음 텍스트 추출부(302)는 대화체 텍스트 코퍼스로부터 변이음 텍스트 코퍼스를 추출한다.

그리고, 의사형태소 태깅부(303-1,303-2) 및 의사형태소 태깅 후처러부(304-1,304-2)는, 상기 추출된 대표음, 변이음 텍스트 코퍼스 각각에 대해 의사형태소 분석 및 태깅을 하고, 태깅 후처리를 수행한다.

이때, 변이음과 대표음 텍스트 코퍼스를 각각 처리한 결과 그 의사형태소단위로 태깅된 대표음/변이음 쌍은 어절별로 차이가 나게되는데, 어절별 텍스트 비교부(306)는 이들 쌍들을 비교 추출한다.

대표음/변이음 쌍 추출부(307)는 상기 어절별 텍스트 비교부(306)의 처리 결과를 통해 의사형태소 단위의 대표음/변이음 쌍들을 추출해 낸다.

대표음 어휘사전 생성부(305)는 대표음 텍스트만으로 추출되어 의사형태소 단위로 태깅된 코퍼스로부터 대표음의 의사형태소 단위 어휘사전을 생성한다.

다중발음사전 생성부(309)는 상기 대표음 어휘사전 생성부(305)의 결과와 상기 대표음/변이음 쌍 추출부(307)의 결과를 이용하여 도 4와 같은 의사형태소 기반 확장 다중발음사전 DB(105)를 생성한다.

또한, 대표음 언어모델 생성부(308)는 상기 대표음 어휘사전 생성부(305)의 결과를 통해 대표음 언어모델 DB(106)를 생성한다.

도 4는 본 발명에 따른 의사형태소 기반 확장 다중발음사전의 구성에 대한 예시도이다.

도 4에서, 첫번째 열은 발음사전의 표제어이며, 두번째 열은 그 표제어에 대한 발음을 나타낸다. 도 4에 예시된 바와 같이, 본 발명에 따른 다중발음사전 DB(105)는 각 변이음에 대해 하나의 대표 표제어로 표현하고, 표제어에 발음변이가 있을 경우 "(2)"와 같이 표제어에 별도의 괄호를 붙여 표시한다.

한편, 도 5는 종래의 의사형태소 기반 발음사전 DB(105)에서 사용되는 탐색 트리에 대한 예시도로서, 대상 어휘를 발음에 따라 트리의 형태로 묶는 트리 기반 탐색 기술을 나타낸다.

도 5에서, 도면부호 501은 Root 노드를, 502는 일반 노드를, 503은 Leaf 노드를, 504는 단어간 천이를 각각 나타낸다. 도 5를 참조하면, 처음 시작 또는 한 어휘가 결정된 후 탐색경로는 모두 하나의 가상적인 Root 노드(501)로부터 진행한다. 음성 입력이 들어오면, 매 프레임마다 트리의 모든 노드에서의 확률값을 계산한 후 각 노드로 들어오는 천이들 중에 가장 확률이 높은 천이만을 남긴다. 이와 같이 탐색을 진행하여 Leaf 노드(503)에 도달하면 어휘가 결정된다. 또한, Leaf 노드(503)에서 Root 노드(501)로의 천이(504)는 단어의 변경을 의미하므로 어휘간의 연결을 위해 통계적인 형태의 언어모델 DB(106)를 적용한다.

하지만, 이와 같은 종래의 발음사전은 대표어에 대한 각각의 발음변이를 모두 개별적인 어휘로 처리하기 때문에, 언어모델 역시 변이발음 개개에 대해 통계를 내야하고 그 결과 언어모델의 효율성이 떨어지게 된다. 예를 들면, "어떻게/mad"와 "어트께/mad", "세요/ef"와 "세여/ef"는 문장내에서 동일한 의미로서 언어모델 측면에서 동일한 통계적 특성을 갖음에도 불구하고 각각 따로 계산함으로 인해 그 효율성이 저하되는 문제가 있다.

도 6은 본 발명에 따른 의사형태소 기반 발음사전 DB(105)의 탐색 트리에 대한 예시도이다.

도 6에서, 도면부호 601 내지 604의 각 노드가 갖는 의미는 도 5를 통해 상기 설명한 바와 같으나 탐색과정에서의 차이점은 다음과 같다.

도 5와 도 6 모두 트리내의 노드를 탐색할 때 대표어에 대한 발음변이에 대해 각각 음향모델 DB(104)를 참조하면서 확률값을 계산해 나가는 면에서는 동일하지만, 하나의 단어가 결정된 후 다음 단어로 천이(604)함에 있어서 언어모델 DB(106)를 참조하는 방식이 다르다. 즉, 도 6의 탐색 트리에서는 각각의 Leaf 노드(603)에서 다음 단어로 천이(604)할 때, 하나의 대표어에 대한 변이발음에 대해서 따로 언어모델 DB(106)가 적용되는 것이 아니라, 각 변이발음에 대한 대표어를 가지고 언어모델 DB(106)를 참조한다.

상술한 바와 같이 본 발명에 따른 대화체 연속음성인식을 위한 의사형태소 기반 다중발음사전 구축 방법 및 그 시스템과 음성인식 방법은, 대화체 음성의 다양한 발음변이를 효과적으로 수용하는 의사형태소 기반의 확장 다중 발음사전을 구축하고 대표어휘로만 언어모델을 구성하여 탐색과정에 적용함으로써, 언어모델의 효율성 및 그 인식률을 향상시키고 결과적으로 정형화된 출력패턴을 얻을 수 있게 한다.

이상에서 설명한 것은 본 발명에 따른 대화체 연속음성인식을 위한 의사형태소 기반 다중발음사전 구축 방법 및 그 시스템과 이를 이용한 대화체 음성인식 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.

Claims

대화체 텍스트 코퍼스로부터 대표음 텍스트 코퍼스와 변이음 텍스트 코퍼스를 각각 추출하는 단계;

상기 추출된 대표음 및 변이음 텍스트 코퍼스 각각에 대해 의사형태소 분석 및 태깅을 수행하는 단계;

상기 태깅 결과를 어절별로 비교하여 의사형태소 단위의 대표음/변이음 쌍들을 추출하는 단계;

상기 대표음 텍스트 코퍼스의 의사형태소 태깅 결과로부터 대표음 어휘사전을 생성하는 단계;

상기 대표음 어휘사전과 상기 대표음/변이음 쌍 추출 결과를 이용하여 다중발음사전 DB을 생성하는 단계; 및

상기 생성된 대표음 어휘사전 결과를 통해 대표음 언어모델 DB를 생성하는 단계;로 이루어지는 것을 특징으로 하는 대화체 연속음성인식을 위한 의사형태소 기반 다중발음사전 구축 방법.
삭제
삭제
입력 대화체 텍스트 코퍼스로부터 대표음 코퍼스를 추출하는 대표음 텍스트 코퍼스 추출부;

입력 대화체 텍스트 코퍼스로부터 변이음 텍스트 코퍼스를 추출하는 변이음 텍스트 코퍼스 추출부;

상기 추출된 대표음 및 변이음 텍스트 코퍼스 각각에 대해 의사형태소 분석 및 태깅을 수행하는 의사형태소 태깅부;

상기 의사형태소단위로 태깅된 대표음 텍스트 코퍼스 및 변이음 텍스트 코퍼스를 어절별로 비교하여 대표음/변이음 쌍들을 추출하는 대표음/변이음 쌍 추출부;

상기 대표음 텍스트 코퍼스의 의사형태소 분석결과로부터 대표음 어휘사전을 생성하는 대표음 어휘사전 생성부;

상기 대표음 어휘사전과 상기 대표음/변이음 쌍 추출 결과를 통해 다중발음사전 DB를 생성하는 다중발음사전 생성부; 및

상기 생성된 대표음 어휘사전 결과를 통해 대표음 언어모델 DB를 생성하는 대표음 언어모델 생성부;로 구성되는 것을 특징으로 하는 대화체 연속음성인식을 위한 의사형태소 기반 다중발음사전 구축 시스템.
삭제
입력되는 대화체 음성으로부터 인식에 필요한 특징벡터를 추출하는 단계와, 음향모델, 발음사전, 및 언어모델을 참조하여 상기 추출된 특징벡터로부터 가장 확률이 높은 단어열을 의사형태소 기반으로 탐색하는 단계와, 상기 탐색 결과를 통해 텍스트 형태로 인식하는 단계로 이루어지는 의사형태소 기반 대화체 음성인식 방법에 있어서,

상기 탐색 단계는, 제 1항의 방법에 따라 구축되는 발음사전 및 언어모델을 이용하여 대상 어휘를 발음에 따라 트리의 형태로 묶는 트리 기반 탐색을 수행하며, 트리내 노드들의 탐색에 의해 하나의 단어가 결정되면 그 결정 단어의 대표음에 대한 언어모델을 참조하여 어휘간 연결을 수행하는 것을 특징으로 하는 의사형태소 기반 대화체 음성인식 방법.