KR20030001668A

KR20030001668A - 연속 음성인식기의 성능 개선 방법

Info

Publication number: KR20030001668A
Application number: KR1020010036476A
Authority: KR
Inventors: 김훈
Original assignee: 엘지전자 주식회사
Priority date: 2001-06-26
Filing date: 2001-06-26
Publication date: 2003-01-08
Also published as: KR100736496B1

Abstract

본 발명은 대어휘 한국어 연속 음성인식시 인식 단어간 음소 변이 네트워크를 이용하는 연속 음성인식기의 성능 개선 방법에 관한 것으로, 입력수단을 통해 음성을 입력하는 단계와, 상기 입력음성을 트라이폰 열로 구성하는 단계와, 상기 트라이폰열로부터 인접하는 단어에 따라 발음이 변화하는 모든 경우를 표현하고 있는 사전을 이용하여 음성인식을 수행하는 단계로 이루어져 전자사전 소프트웨어, 대화체 처리, 이메일 작성등 연속음성 인식이 필요한 모든 분야에 적용할 경우 인식 성능 향상 효과를 볼 수 있은 음성인식 방법을 제공하기 위한 것이다.

Description

연속 음성인식기의 성능 개선 방법 {performance improvement method of continuation voice recognition system}

본 발명은 한국어 연속 음성 인식에 관한 것으로 특히 대어휘 한국어 연속 음성인식시 인식 단어간 음소 변이 네트워크를 이용하는 연속 음성인식기의 성능 개선 방법에 관한 것이다. 본 발명은 특히 전자사전 소프트웨어, 대화체 처리, 이메일 작성등 연속음성 인식이 필요한 모든 분야에 적용할 경우 인식 성능 향상 효과를 볼 수 있은 음성인식 방법을 제공한다.

일반적으로 대어휘 한국어 연속음성을 인식하는 데는 한국어의 언어적인 특성에 의하여 몇 가지 문제가 발생하게 된다. 한국어는 문장이 어절단위로 나누어지고 용언이 다양하게 활용되는데 이것을 모두 다른 어휘로 할 경우 인식해야 할 대상 어휘의 수가 몇 배로 증가하게 된다. 따라서 대부분의 한국어 연속음성 인식 시스템은 제한된 영역의 문장만을 대상으로 하여 왔다. 이와 같이 인식영역을 제한하지 않고 인식 대상 어휘의 수를 처리 가능한 수준으로 줄이기 위해서는 의미를 가지는 최소 단위인 형태소로 어절을 세분할 필요가 있게 되는 것이다. 그런데 형태소를 인식단위로 할 경우 인식 대상 단어의 길이가 짧아져 서로간의 변별력이 떨어지고 문장내의 단어의 수가 많아져 단어간 음운 변화의 영향을 많이 받으므로 인식기의 성능이 저하하게 되는 문제점이 발생하게 된다. 따라서 이러한 단점을 보완하기 위하여 두개의 형태소 단위가 이어질 때 발생하는 발음 변이를 모두 표현함으로써 형태소 단위로 분리 되기 이전의 어절단위 발음 열과 같은 인식 효과를 얻을 수 있는 방법이 필요하게 되었다.

본 발명은 종래 기술의 이러한 문제점을 해결하기 위하여 발음 사전을 증가 시키지 않고 모든 일상적인 문장을 인식하는 데 그 목적이 있다. 본 발명의 또 다른 목적은 인접 단어간의 발음변환이 규칙에 의해 자동적으로 적용되도록 하는데 있다. 이러한 본 발명의 목적을 이루기 위한 제 1 특징에 따르면, 인식 대상 단어간 음소 변이를 반영하는 것이며, 본 발명의 제 2 특징은 인접하는 단어에 따라 발음이 변하는 모든 경우를 표현하는 데 있다. 본 발명의 제 3 특징은 모든 음소가 인접할 때 변화하는 형태가 표의 형태로 규칙화 되어 발음 사전의 작성에 이용되도록 하는데 있다. 본 발명의 다른 목적이나 특징은 이하 설명하는 바람직한 실시예에 의해서 명백히 들어날 것이다.

도1은 일반적인 연속 음성인식 시스템의 구성도

도2는 본 발명 음성인식 동작 플로우챠트

********* 도면 주요 부분에 대한 부호의 설명 ********

10 : 특징 추출부 20 : 탐색부

30 : 후 처리부 40 : 음향모델 데이터베이스

50 : 발음사전 데이터베이스 60 : 언어모델 데이터베이스

이하 본 발명의 바람직한 실시예에 대하여 설명하면 다음과 같다.

먼저 이해를 돕기위해 트라이폰에 대하여 설명하면 다음과 같다. 인식 대상인 음소는 좌우에 위치하는 음소에 크게 영향을 받으며, 이러한 영향을 고려하기 위하여 세분화한 인식단위가 트라이폰(Triphone)이다. 트라이폰은 조음화 현상을 모델링(modeling)하는 인식 단위로 큰 장점을 지니지만 일반적으로 그 갯수가 많아 충분히 학습되기 어렵다. 따라서 한정된 학습 데이타를 사용하여 트라이폰과 같은 상세한 인식단위를 학습하려면 학습성의 결여 문제가 발생하게 된다. 학습성 결여 문제를 해결하기 위하여 제안된 방법들로서 문맥 통합, 보간법, 인식단위 감축 규칙등을 사용하고 있다.

도1은 일반적인 연속 음성인식 시스템의 구성 예시도로서 그 동작을 설명하면 다음과 같다. 입력된 음성은 특징 추출부(10)에서 인식에 필요한 정보만을 추출한 특징 벡터로 변환되고, 상기 특징 벡터로 부터 탐색부(20)에서 학습과정에서 미리 구해진 음향 모델 데이터베이스(40)와 발명 사전 데이터베이스(50), 언어 모델 데이터베이스(60)를 이용하여 가장 확률이 높은 단어열을 찾게 된다. 이때 대어휘 인식을 위하여 인식 대상 어휘들은 트리를 구성하고 있으며, 탐색부(20)에서 이러한 트리를 탐색하게 된다. 그 다음으로 후처리부 (30)에서는 탐색 결과로 부터 잡음 기호등을 제거하고, 음절단위로 모아쓰기를 하여 최종 인식 결과출력하는 것이다. 이러한 연속음성인식 시스템의 본 발명의 동작 이해를 돕기 위하여 설명한 것으로, 그 구성은 본 발명에서 그대로 적용될 수 있으며, 필요에 따라 어떠한 변경도 가능하다.

본 발명의 동작을 도2 내지 도 5를 참조하여 설명하면 다음과 같다.

음성을 인식하기 위해서는 어휘를 음소의 열로 표현한 사전이 필요하다. 예를 들어 "한국" 이라는 단어를 인식할 때는 <도2>과 같이 단어를 트라이폰의 열로 구성하여 인식할 수 있다. 연속 음성인식의 경우에는 단어가 연결될 때 단어 경계에서 이웃하는 단어의 영향을 받아 음가가 변하므로 <도3>과 같이 단어의 양 끝에서도 좌우 문맥을 고려한 트라이폰을 사용해야 한다. 그런데, 단어가 연결되어 발음될 때, 단어의 경계에 잇는 음소들은 인접한 단어에 영향을 받아 다른 음소로 변하게 된다.

"한국"의 경우에 첫번째 음소 "ㅎ"은 앞에 오는 단어에 따라 생략되어 들리지 않게 되기도 하고, "칸국", "탄국", 또는 "판국"으로 발음되기도 한다. 마지막 음소인 "ㄱ"도 마찬가지로 뒤에 따라오는 음소에 따라 경음화 되거나 유성음화 되거나, 또는 "한궁말과 같이"ㅇ"으로 발음 나기도 한다. 따라서 단순히 일반적으로 사용하는 다언간 음소 모델 방법인 <도3>과 같이 단어의 양 끝 음소를 트라이폰으로 바꾸는 것 만으로는 단어간 음소 모델링이 되지 않는다.

<도3>의 경우는 트라이폰(triphone)의 센타폰(center_phone)이 이웃하는 단어에 관계 없이 고정되어 있으므로 인해 실제 발음 나는 현상을 나타내지 못한다. 즉 미국과 한국이 이어질 때 <도3> 에서는 k-h-a가 사용되는데 실제 필요한 트라이폰은 k-h-a가 아니라 k-kh-a 트라이폰이 필요하게 된다.

본 발명에서는 <도4>와 같이 그래프의 형태로 인접하는 단어에 따라 발음이 변화하는 모든 경우를 표현한다. <도4> 에서 hx,kh,th, ph는 각각 유성음화된 "ㅎ", "ㅋ", "ㅌ", "ㅍ"을 표현한다. 이러한 사전은 각 단어마다 수작업으로 작성하지 않고, 각 단어의 양 끝에 오는 음소와 인접하게 되는 음소가 주어지면 음운변환 규칙을 이용하여 자동적으로 작성되도록 한다. 즉 모든 음소가 인접할 때 변화하는 형태가 표의 형태로 규칙화 되어 발음 사전의 작성에 이용되는 것이다.

인식시에 단어의 양 끝에 있는 트라이폰 들은 문맥에 따라 다른 단어들과 연결된다. <도4>에서 트라이폰 "n-hx-a"로 표기된 노드는 음소 "n"으로 끝나는 단어 다음에 연결된다. 이렇게 모든 단어들을 서로 연결하면 음소의 노드로 이루어진 네트워크가 만들어진다. 각 노드의 링크를 따라가다 보면 형태소들이 연결되어 원래의 어절의 발음열과 같은 음소 열을 얻을 수 있게 되어 어절 단위의 인식기와 같은 효과를 얻을 수 있다. 예를 들어 "한국"이라는 단어가 "이"와 연결되면 "한구기"에 해당하는 음소열이 얻어지고, "말"과 연결되면 "한궁말"에 해당하는 음소열이 얻어지게 되는 것이다.

이상에서 살펴본 바와 같이 본 발명을 적용할 경우 단어간 음소의 변이가 반영된 네트워크를 이용하여 두개의 형태소 단위가 이어질 때 발생하는 발음 변이를 모두 표현함으로써 어절 단위의 발음 열과 같은 효과를 얻을 수 있으며,이 방법으로 형태소 단위로 단위로 어절 단위 인식기의 성능을 낼 수 있어 어휘수의 증가 없이 일상적으로 사용되는 대부분의 텍스트를 구성할 수 있는 효과가 있다.

Claims

연속 음성 인식 방법에 있어서, 입력수단을 통해 음성을 입력하는 단계와, 상기 입력음성을 트라이폰 열로 구성하는 단계와, 상기 트라이폰열로부터 인접하는 단어에 따라 발음이 변화하는 모든 경우를 표현하고 있는 사전을 이용하여 음성인식을 수행하는 단계로 이루어진 것을 특징으로 하는 연속 음성인식기의 성능 개선 방법.
제1항에 있어서, 상기 사전은 각 단어의 양 끝에 오는 음소와 인접하게 되는 음소가 주어지면 음운 변환 규칙을 이용하여 자동적으로 작성되는 것을 특징으로 하는 연속 음성인식기의 성능 개선 방법.