KR100932643B1

KR100932643B1 - 한국어 ｔｔｓ 시스템을 위한 형태소, 구문 분석 없는음소열-발음열 변환방법 및 장치

Info

Publication number: KR100932643B1
Application number: KR1020070099887A
Authority: KR
Inventors: 이진식; 이근배
Original assignee: 포항공과대학교 산학협력단
Priority date: 2007-10-04
Filing date: 2007-10-04
Publication date: 2009-12-21
Also published as: KR20090034578A

Abstract

본 발명은 한국어 TTS 시스템을 위한 발음열 생성 방법에 관한 것으로 특별히 형태소 및 구문 분석이 필요없는 자동화된 발음열 생성 규칙 추출 방법 및 음소열-발음열 변환 시스템에 관한 것이다. 본 발명은 음소열과 발음열을 정렬하는 단계; 상기 정렬된 음소열과 발음열 쌍으로부터 변환 규칙을 추출하는 단계; 및 상기 변환 규칙을 이용하여 최적의 발음열을 생성하는 단계를 포함한다.

Description

한국어 ＴＴＳ 시스템을 위한 형태소, 구문 분석 없는 음소열-발음열 변환방법 및 장치{Method of grapheme-to-phoneme conversion for Korean TTS system without a morphological and syntactic analysis and device thereof}

본 발명은 한국어 TTS 시스템을 위한 발음열 생성 방법에 관한 것으로, 보다 상세하게는 형태소 및 구문 분석이 필요없는 자동화된 발음열 생성 규칙 추출 방법 및 음소열-발음열 변환 시스템에 관한 것이다.

TTS 시스템의 합성음질을 결정하는 하나의 요소로는 정확한 발음열 생성 여부를 들 수 있는데, 종래에 기술되어 있는 한국어 발음 변환 규칙은 모든 단어 및 표현에 적용되지 않아 불규칙 발음 변화가 많으며, 발음 변환 규칙의 복잡성을 이유로 입력된 텍스트의 형태소 및 구문 분석이 불가피하다.

발음열을 생성하는 방법으로는 입력으로 예상되는 모든 단어를 사전에 저장하여 대응되는 단어를 발음열로 치환하는 방법이 있다. 이 방법은 새로운 단어가 등장할 때마다, 수시로 사전을 갱신함으로써 언어의 변화에 대처할 수 있다는 장점은 있지만, 사전의 크기에 비례하여 많은 저장공간을 필요로 하는 단점을 지니고 있다.

한편, 사전이 차지하는 저장공간의 절약을 위해, 한국어 발음 변환 규칙을 구현하여 각각을 결합한 방법도 제안되었다. 이 방법을 사용하면 불규칙 발음변화의 경우를 사전에 추가함으로써 사전의 크기를 크게 줄일 수 있는 장점은 있지만, 복잡한 한국어 발음 변환 규칙을 구현하는 것이 어려울 뿐만 아니라, 몇몇 규칙은 정교한 형태소 및 구문 분석 결과를 요하기 때문에, 분석 결과의 성능에 크게 영향을 받으며, 빠른 처리 시간을 요하는 TTS 시스템에도 적절치 않다.

그러므로 형태소 및 구문 분석이 필요없는 자동화된 발음열 생성 규칙 추출 방법 및 음소열-발음열 변환 시스템이 절실히 요구된다.

상기한 종래 기술의 제반 문제점을 해결하기 위하여, 본 발명의 목적은 형태소 및 구문 분석이 필요없는 자동화된 발음열 생성 규칙 추출 방법을 제공하는 것이다.

또한 본 발명의 목적은 상기 추출 방법을 이용하여 음소열-발음열 변환 시스템을 제공하는 것이다.

상기와 같은 목적들을 달성하기 위한 본 발명의 제 1면은 한국어 TTS 시스템을 위한 발음열 생성 방법에 있어서, 음소열과 발음열을 정렬하는 단계; 상기 음소열-발음열 쌍으로부터 변환 규칙을 추출하는 단계; 및 상기 변환 규칙을 이용하여 최적의 발음열을 생성하는 단계를 포함하는 것을 특징으로 한다.

상기와 같은 목적들을 달성하기 위한 본 발명의 제 2면은 한국어 TTS 시스템을 위한 발음열 생성 장치에 있어서, 수동으로 레이블된 음소열-발음열 쌍으로부터 규칙을 추출하여 규칙 트리를 저장하는 훈련부와 이를 이용하여 입력받은 음소열을 발음열로 변환하여 최적의 발음열을 생성하는 변환부를 포함한다.

먼저, 훈련부에서는 음소열과 발음열을 정렬하고, 정렬된 음소열-발음열 쌍으로부터 규칙을 추출하여 규칙 트리를 저장한다. 다음으로, 변환부에서는 입력된 음소열에 적용되는 규칙을 검색하고, 검색된 규칙에서 최적의 발음열을 생성하기 위한 점수 계산을 수행한다.

이하, 본 발명에 대해서 자세히 설명한다.

여기서 사용되는‘음소열’이라는 용어는 TTS 시스템에서의 사용자의 한글 입력으로 들어오는 텍스트를 음소(자음, 모음)로 쪼개어 한데 모은 것을 의미하고, ‘발음열’이라는 용어는 해당 음소에 대응되는 발음을 모은 것을 의미한다.

여기서 사용되는‘음소열-발음열 변환 규칙’은 주어진 음소열을 어떤 발음열로 변환 가능한지를 기록한 것을 의미한다. 각 규칙들은 한 음소에 대해 여러 발음으로 변환될 확률값을 지니고 있으며, 규칙의 적용을 한정 짓기 위하여 음소 주위의 문맥정보를 포함하고 있다.

‘신고(申告)[신고]하다',‘신을 신고[신꼬]’에서의 예처럼, 초성‘ㄱ’은 종성‘ㄴ’뒤에서‘ㄱ' 또는‘ㄲ’으로 발음될 수 있는데, 추출된 변환 규칙은 훈련을 위한 말뭉치에서 변환 패턴을 분석하여 만들어진다. 전자 신고(申告)의 경우는 동사 또는 명사 성격을 지니기 때문에 뒤에‘-하다',‘-를’과 같은 어미나 조사가 주로 오게 되며, 후자‘신고’의 경우 타동사 성격을 지녀 앞쪽에 조사‘-을/를’이 자주 등장한다. 이러한 패턴이 규칙 추출시 포착됨으로써 종래와 같은 정교한 형태소 및 구문 분석이 필요 없게 되었다.

여기서 사용되는‘변환 규칙 트리’는 변환 규칙들의 문맥 정보를 이용하여 규칙간의 부모-자식 관계를 정립하고 자료구조 중의 하나인 트리 형태로 규칙을 저장하는 것을 의미한다. 이는 발음열 생성 과정에서의 규칙 검색을 용이하게 만들어 주며, 검색 시간을 단축시킨다.

상술한 바와 같이, 본 발명은 음소열-발음열 변환을 형태소 및 구문 분석 없이 빠르게 할 수 있으며, 레이블된 음소열-발음열 말뭉치로부터 자동으로 변환 규칙을 추출하여 학습함으로써, 직접 규칙을 수동으로 구현하는 수고를 줄여준다.

또한, 변환규칙 트리를 사용하여, 찾고자 하는 변환규칙에 쉽고 빠르게 접근함으로써 발음 생성에 효과적으로 적용된다.

본 발명은 구현이 용이하여 실제 제품에 적용을 쉽고 빠르게 할 수 있으며, 충분한 양의 음소열-발음열 쌍이 제공될 경우 높은 성능을 보장한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 실시예를 설명한다.

도 1에는 본 발명에 부합되는 음소열-발음열 변환 시스템의 전체 구성도가 나타나 있다. 도 1에 나타난 바와 같이, 본 발명에 부합되는 음소열-발음열 변환시스템(100)은 크게 훈련부(110)와 변환부(120)로 이루어져 있다. 상기 훈련부(110)는 말뭉치의 음소열과 발음열을 정렬시키는 음소열-발음열 정렬부(111), 정렬된 음소열과 발음열로부터 규칙을 추출하는 변환규칙 추출부(112)를 포함하고, 변환부(120)는 규칙 적용부(121)를 포함한다. 변환 규칙 트리(130)는 훈련부(110)를 통해 추출된 규칙이 저장되어 변환부(120)에서 발음열 생성에 사용된다. 음소열-발음열 정렬부(111)는 주어진 음소열과 발음열이 있을 때, 어떤 음소가 어떤 발음에 대응되는지를 결정한다. 한국어의 경우 모든 음절은 초성, 중성, 종성으로 나뉠 수 있기 때문에, 각 음절이 일대일로 대응되면 각 음소도 역시 일대일로 대응될 수 있다.

도 2는‘놓았다’를 사용자가 음소열로 입력했을 때 발음열과 정렬시키는 예다. 도 2에서와 같이, 음소열의 경우 종성이 생략될 수 있고, 발음열의 경우 초성과 종성이 생략될 수 있기 때문에, 생략된 음소열 및 발음열의 위치에는 생략 기호(200)를 삽입하여 음소열과 발음열의 길이를 동일하게 맞춘다. 그러면 각각의 음소는 각각의 발음으로 일대일 대응을 시킬 수 있다. 이를 음소열-발음열 정렬 과정이라 한다.

변환 규칙 추출부(112)는 정렬된 음소열과 발음열로부터 변환 규칙을 추출하여 트리 형식으로 가공하고 변환규칙 트리(130)에 저장하는 역할을 한다.

변환 규칙은 ‘L(g)R→p(pr)’와 같은 형식을 지닌다. 여기서 L은 왼쪽 문맥, R은 오른쪽 문맥, g는 변환하고자 하는 음소, p는 g에 대응되는 발음, pr은 g가 p로 대응될 확률값을 의미한다. 즉, 변환 규칙이 의미하는 바는 음소 g가 왼쪽 문맥 L과 오른쪽 문맥 R이라는 조건이 주어졌을 때, 발음 p로 변환될 확률이 pr이라는 것이다.

도 3은 변환 규칙을 추출하는 과정을 나타낸다. 우선, 규칙 트리 초기화(310)를 통해 빈 트리를 구성한다. 음소열-발음열 정보 불러오기(320)에서 정렬된 음소열-발음열 쌍을 가져온 후, 규칙 추출(330) 단계에서 음소, 발음, 좌우 문맥을 참고하여 변환 규칙을 만든다. 이때, 상위 규칙부터 추출하기 위해 좌우 문맥의 크기를 차차 늘려가며 규칙을 추출한다.

여기서, 상위 규칙이란 좌우 문맥의 크기가 더 작은 규칙을 말한다. 문맥의 크기가 작으면 작을수록 만족시켜야할 조건이 줄어들게 되므로, 더 많은 경우에 적 용될 수 있다. 예컨대, 변환 규칙 ‘ㅡ(ㄱ)ㅎ→ε(1.0)’은 규칙 ‘ㅌㅡ(ㄱ)ㅎㅓ→ε(1.0)’에 비해 좌우 문맥의 크기가 작아서‘특허’,‘극히’,‘득하다' 등에 모두 적용 가능하지만, 후자는 오로지‘특허’에만 적용 가능한 보다 구체적인 규칙이다.

추출된 규칙은 상위 규칙이 존재(340)하는지 따져봐서 상위 규칙에서 변환될 수 있는 후보 발음이 2개 이상(350)인 경우에 저장(360)하게 된다. 규칙을 추출하는 기본적인 원리는 현재 음소열-발음열 정보에서 가장 구체적인 규칙까지 추출하되, 더 이상 규칙을 추출하지 않아도 될 때까지 반복하는 것이다.

예를 들면, ‘ㅗㄹ(ㄷ)ㅏ’에서 ‘ㄷ’은 ‘ㄷ’ 또는 ‘ㄸ’으로 발음될 수 있으나, 구체적으로 문맥을 길게 ‘ㄴㅗㄹ(ㄷ)ㅏ’로 만들면, ‘ㄷ’만으로 발음되고, 문맥을 더 길게 만들더라도 ‘ㄷ’으로 발음되기 때문에, 최종적으로 만들어지는 규칙은 ‘ㅗㄹ(ㄷ)ㅏ→ㄷ,ㄸ’와 ‘ㄴㅗㄹ(ㄷ)ㅏ→ㄷ’이 된다.

최종적으로 음소열-발음열 정보를 모두 처리(370)하게 되면, 규칙 트리를 만드는 과정이 종료된다.

훈련부(110)에서 추출된 규칙은 변환규칙트리(130)에 저장되는데 도 4는 저장된 규칙트리의 예를 보여준다. 문맥의 길이가 짧은 규칙(상위 규칙)부터 문맥의 길이가 긴 규칙(하위 규칙)까지를 상하로 연결시켜 연결 리스트(linked list)로 만듦으로써 변환부(120)에서 규칙 적용시 연관 규칙을 연속적으로 빠르게 접근할 수 있다.

변환규칙트리(130)에 저장된 변환 규칙들은 변환부(120)의 규칙 적용부(121) 에서 발음열을 생성하는데 사용된다. 주어진 사용자의 입력에 대해서 변환규칙트리(130)를 검색하며 적용가능한 모든 규칙을 찾고, 식(1)에 의해 구해진 점수가 최대가 되는 후보 발음을 최종 발음으로 결정하게 된다.

(여기서, ～p: 후보 발음, L: 왼쪽 문맥, L': L의 오른쪽이 포함되는 문맥, R: 오른쪽 문맥, R': R의 왼쪽이 포함되는 문맥, w(L',R'): L'과 R'의 문맥 길이에 따라 결정되는 가중치, pr(～p): 후보 발음이 규칙에서 나타난 확률)

‘L/R에 포함되는 문맥’이라 함은 L/R보다 길이가 짧거나 같은 문맥이다. 즉, L'/R'로 만들어진 규칙은 L/R로 만들어진 규칙 자신이거나 그것의 상위 규칙을 지칭한다. 예를 들면, L이 ‘ㅌㅡㄱㅎㅓε’라고 했을 때, L'은 오른쪽이 포함되는 문맥이므로 ‘ㅌㅡㄱㅎㅓε’, ‘ㅡㄱㅎㅓε’, ‘ㄱㅎㅓε’, ‘ㅎㅓε’, ‘ㅓε’, ‘ε’가 된다. 반대로 R'은 왼쪽이 포함되는 문맥이므로 ‘ㅌㅡㄱㅎㅓε’, ‘ㅌㅡㄱㅎㅓ’, ‘ㅌㅡㄱㅎ’, ‘ㅌㅡㄱ’, ‘ㅌㅡ’, ‘ㅌ’가 된다.

상기 식 (1)은 적용 가능한 모든 규칙들에 가중치와 후보 발음 확률을 곱한 값을 정규화함으로써, 확률이 지니는 특징처럼 항상 0과 1사이의 값을 가진다. 본 발명에서는 실험을 통해 문맥의 길이가 길어짐에 따라 가중치를 많이 주는 방식을 취하여, 일반적인 규칙(상위 규칙)보다는 구체적인 규칙(하위 규칙)에 더 무게를 두어 발음열을 생성한다.

본 발명의 실시예들은 예시의 목적을 위해 개시된 것이며, 첨부된 특허청구범위 내에서 변형될 수 있다는 것은 당업자에게 명백할 것이다.

도 1은 본 발명에 따른 음소열-발음열 변환 시스템의 구성도이다.

도 2는 본 발명에 따른 음소열-발음열 정렬 과정의 예를 나타낸다.

도 3은 본 발명에 따라 정렬된 음소열-발음열로부터 변환규칙을 추출 및 저장하는 방법을 나타내는 흐름도이다.

도 4는 본 발명에 따른 변환규칙 트리의 예를 나타낸다.

Claims

TTS 시스템을 위한 발음열 생성 방법에 있어서, 상기 방법은

음소열-발음열 쌍으로부터 변환 규칙을 추출하는 단계; 및

상기 변환 규칙을 이용하여 최적의 발음열을 생성하는 단계를 포함하는 것을 특징으로 하는 TTS 시스템을 위한 발음열 생성 방법.
제1항에 있어서 상기 TTS 시스템을 위한 발음열 생성 방법이 음소열과 발음열을 정렬하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제2항에 있어서, 상기 정렬하는 단계가 생략 기호 삽입으로 음절 내의 음소의 개수를 맞추어 일대일 대응으로 하는 것임을 특징으로 하는 TTS 시스템을 위한 발음열 생성 방법.
제1항에 있어서, 상기 변환 규칙을 추출하는 단계가

음소열-발음열 정보를 불러오는 단계;

음소열-발음열 쌍으로부터 문맥 정보를 이용하여 변환 규칙을 추출하는 단계를 포함하는 것을 특징으로 하는 TTS 시스템을 위한 발음열 생성 방법.
제4항에 있어서, 상기 변환 규칙을 추출하는 것이 좌우 문맥의 크기를 점차 늘려가며 규칙을 추출하는 단계를 특징으로 하는 TTS 시스템을 위한 발음열 생성 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 변환 규칙을 추출하는 단계가

추출된 규칙의 상위 규칙이 존재하는지 검토하는 단계;

상기 상위 규칙이 존재하는 경우 상위 규칙에서 변환될 수 있는 후보 발음이 2개 이상인지 판단하는 단계; 및

상기 후보 발음이 2개 이상인 경우 추출된 규칙을 저장하는 단계를 더 포함하는 것을 특징으로 하는 TTS 시스템을 위한 발음열 생성 방법.
제1항에 있어서, 상기 변환 규칙이‘L(g)R→p(pr)'와 같은 형식(여기서 L은 왼쪽 문맥, R은 오른쪽 문맥, g는 변환하고자 하는 음소, p는 g에 대응되는 발음, pr은 g가 p로 대응될 확률값을 의미)을 갖는 것을 특징으로 하는 TTS 시스템을 위한 발음열 생성 방법.
제6항에 있어서, 상기 추출된 규칙을 저장하는 단계는 트리에 저장되는 단계인 것을 특징으로 하는 TTS 시스템을 위한 발음열 생성 방법.
제8항에 있어서, 상기 트리는 상위 규칙으로부터 하위 규칙까지 상하로 연결 시켜 연결 리스트로 만드는 단계임을 특징으로 하는 TTS 시스템을 위한 발음열 생성 방법.
제1항에 있어서, 상기 변환 규칙을 이용하여 최적의 발음열을 생성하는 단계가 발음열 생성에 필요한 규칙을 탐색하는 단계;

상기 탐색된 규칙으로부터 식
(여기서, ～p: 후보 발음, L: 왼쪽 문맥, L': L의 오른쪽이 포함되는 문맥, R: 오른쪽 문맥, R': R의 왼쪽이 포함되는 문맥, w(L',R'): L'과 R'의 문맥 길이에 따라 결정되는 가중치, pr(～p): 후보 발음이 규칙에서 나타난 확률)에 의하여 점수를 구하는 단계; 및

상기 식에 의하여 점수를 구한 후보 발음 중 가장 높은 점수를 획득한 후보 발음을 최종 발음으로 결정하는 단계를 포함하는 것을 특징으로 하는 TTS 시스템을 위한 발음열 생성 방법.
TTS 시스템을 위한 발음열 생성 장치에 있어서, 상기 장치는

음소열-발음열 쌍으로부터 변환 규칙을 추출하는 추출부; 및

상기 변환 규칙을 이용하여 최적의 발음열을 생성하는 생성부를 수행하도록 구현되는 것을 특징으로 하는 장치.
TTS 시스템을 위한 발음열 생성 장치에 있어서, 상기 장치는

음소열-발음열 쌍으로부터 변환 규칙을 추출하는 추출부; 및

상기 변환 규칙을 이용하여 최적의 발음열을 생성하는 생성부를 수행하도록 구현되며, 상기 장치는 제6항의 방법을 구현하는 것을 특징으로 하는 장치.