KR100272688B1

KR100272688B1 - 대표 피치 패턴을 이용한 한국어 합성음 생성방법

Info

Publication number: KR100272688B1
Application number: KR1019970072138A
Authority: KR
Inventors: 김세린
Original assignee: 구자홍; 엘지전자주식회사
Priority date: 1997-12-23
Filing date: 1997-12-23
Publication date: 2000-11-15
Also published as: KR19990052630A

Abstract

본 발명은 문장의 대표 피치 패턴을 이용하여 한국어 합성음을 생성하는 방법에 관한 것이다.

본 발명의 방법은 대표 문장의 어절별로 피치 패턴을 저장하는 1단계와, 합성할 문장이 입력되면 구문 분석하여 구단위로 분리하는 2단계와, 구단위로 상기 문장 피치 패턴에의 존재여부를 판단하는 3단계와, 해당 패턴이 존재하는 경우 그 패턴을 그대로 적용하여 어절별로 억양을 생성하는 4단계와, 어절별로 생성된 억양을 합성하여 출력하는 5단계를 포함한다.

본 발명에 의하면, 문장의 대표 피치 패턴을 어절별로 미리 저장하고 이를 이용하여 입력 문장을 어절별로 억양을 생성함으로써 억양 생성의 자연도를 높일 수 있게 된다.

Description

대표 피치 패턴을 이용한 한국어 합성음 생성방법

본 발명은 한국어 음성 합성 방법에 관한 것으로, 특히 문장의 대표 피치 패턴을 이용하여 한국어 합성음을 생성하는 방법에 관한 것이다.

일반적으로, 한국어 합성음 생성 시스템은 입력된 임의의 문장을 인식하여 모두 적용 가능한 일반적인 규칙을 적용하여 인위적으로 억양을 생성하고 있다.

제1도를 참조하면, 한국어 합성음 생성 시스템은 임의의 문장을 입력하는 입력부(2)와, 입력부(2)로부터 입력된 문장을 구문 분석하여 규칙에 의한 억양을 생성하는 운율처리부(4)와, 운율처리부(7)로부터의 억양을 합성하는 합성부(14)와, 합성부(14)로부터의 합성음을 출력하는 출력부(16)를 구비한다. 여기서, 운율처리부(4)는 입력된 문장을 구문 분석하여 문장성분을 결정하는 구문분석부(6)와, 구문분석부(6)로부터의 어절별로 억양을 생성하는 억양생성부(8)와, 구문분석부(6)로부터의 어절별로 길이를 생성하는 길이 생성부(10)와, 구문분석부(6)로부터의 어절별로 띄어읽기 정도를 결정하는 띄어읽기 결정부(12)를 구성으로 한다.

제2도는 통상의 한국어-합성음 생성 방법을 단계적으로 설명하는 흐름도이다. 이하, 제1도의 한국어 합성음 생성 시스템과 결부하여 설명하기로 한다.

제1 단계에서 입력부(2)를 통해 임의의 문장이 입력되면 제2 한계에서 운율처리부(4)의 구문분석부(5)는 입력부(2)로부터의 문장을 구문 분석하여 문장성분, 예를 들면 주어, 목적어, 서술어 등을 결정한다. 제3 단계에서 억양생성부(8)는 구문분석부(7)로부터의 어절별로 규칙에 따라 억양을 생성한다. 여기서, 운율 처리부(4)의 길이 생성부(10)는 구문분석부(6)로부터의 어절별로 음길이를 생성하고, 띄어읽기 결정부(12)는 역시 구문분석부(6)로부터의 어절별로 띄어읽기 정도(Pause Level)를 결정한다. 제4 단계에서 합성부(14)는 억양생성부(8)로부터의 어절별 억양과, 길이 생성부(10)로부터의 어절별 음길이와, 띄어읽기 결정부(12)로부터의 띄어읽기 정도를 합성하여 합성음 억양을 생성한다. 이어서, 출력부(16)는 합성부(14)에서 생성된 한국어 합성음을 스피커를 통해 출력한다.

그러나, 상술한 한국어 합성음 생성 방법은 인간의 억양과 같은 자연스러움이 떨어지는 단점이 있다.

다시 말하여, 통상 합성음의 평가는 인간의 억양과의 유사 정도를 나타내는 자연도와 합성음의 또렷한 정도를 나타내는 명료도의 합으로 곁정된다. 그런데, 종래의 한국어 합성음 생성 방법은 일정한 규칙에 의해서만 억양을 생성하므로 합성음의 자연도가 떨어지게 된다. 결과적으로, 합성음의 평가도가 저하되게 된다.

따라서, 본 발명의 목적은 규칙에 의한 억양 생성의 자연도를 높일 수 있는 한국어 합성음 생성 방법을 제공하는 것이다.

본 발명의 다른 목적은 문장의 대표 피치 패턴을 어절별로 미리 저장하고 이를 이용하여 어절별로 억양을 생성할 수 있는 대표 피치 패턴을 이용한 한국어 합성음 생성 방법을 제공하는 것이다.

본 발명의 다른 목적은 해당 대표 피치 패턴을 찾을 때는 어절수와 어절별 띄어읽기 정도의 상대 값을 사용함으로써, 대표 피치 패턴의 수를 줄일 수 있는 대표 피치 패턴을 이용한 한국어 합성음 생성 방법을 제공하는 것이다.

제1도는 통상의 한국어 합성음 생성 시스템의 구성을 개략적으로 도시한 블록도.

제2도는 종래의 한국어 합성음 생성 방법을 설명한 흐름도.

제3도는 본 발명에 따른 대표 피치 패턴을 이용한 한국어 합성음 생성 방법을 설명한 흐름도.

제4도는 제3도의 데이터베이스의 문장 패턴 매핑단계를 상세히 설명한 흐름도.

제5도는 데이터베이스의 저장형태와 적용방법을 예를 들어 나타낸 도면.

* 도면의 주요부분에 대한 부호의 설명

2 : 입력부 4 : 운율처리부

6 : 구문분석부 8 : 억양생성부

10 : 길이생성부 12 : 띄어읽기 결정부

14 : 합성부 16 : 생성부

상기 목적을 달성하기 위하여, 본 발명에 따른 대표 피치 패턴을 이용한 한국어 합성음 생성 방법은 대표 문장의 어절별로 피치 패턴을 저장하는 1단계와, 합성할 문장이 입력되면 구문 분석하여 구단위로 분리하는 2단계와, 구단위로 상기 문장 피치 패턴에의 존재여부를 판단하는 3단계와, 해당 패턴이 존재하는 경우 그 패턴을 그대로 적용하여 어절별로 억양을 생성하는 4단계와, 어절별로 생성된 억양을 합성하여 출력하는 5단계를 포함한다.

상기 목적 외에 본 발명의 다른 목적 및 이점들은 첨부 도면을 참조한 본 발명의 바람직한 실시예에 대한 설명을 통하여 명백하게 드러나게 될 것이다.

이하, 본 발명의 바람직한 실시예를 제3도 내지 제5도를 참조하여 상세하게 설명하기로 한다.

제3도는 본 발명에 따른 대표 피치 패턴을 이용한 한국어 합성음 생성 방법을 설명한 흐름도이다. 제1도의 한국어 합성음 생성 시스템과 결부하여 설명하면 다음과 같다.

우선, 한국어 합성음을 생성하기 위한 대표 피치 패턴 데이터 베이스를 임의의 저장부에 기록한다. 이때, 데이터 베이스는 피치의 특성과 데이터 베이스의 크기와 다양한 문장에의 적용 등을 고려하여 저장한다. 상세히 하면, 대표 문장에서 뽑은 피치를 어절별로 저장한다. 어절별 피치 패턴은 어절의 맨 끝 음절을 제외하고는 큰 변화를 나타내지 않고, 어절의 첫째 음절의 초성에 영향을 받는 특성을 가지고 있다. 이에 따라, 어절별로 맨 끝 음절의 패턴과 그 외 음절들의 시작 피치 값과 끝 피치 값 그리고 첫 번째 음절의 초성의 종류를 저장한다. 그리고, 각 어절이 3개의 음절로 구성된 경우로부터 대표 패턴을 뽑아 저장한다. 이는 3음절의 경우가 다른 음절로 변환해도 자연스러운 결과를 얻을 수 있기 때문이다. 또한, 문장 피치 패턴 데이터베이스를 구성할 때 구단위에 포함되는 어절의 개수는 1개 내지 7개까지로 하고, 띄어읽기 정도는 4단계로 한다. 여기서, 데이터베이스 중에서 서로 유사한 패턴을 갖는 것끼리 묶음으로써, 패턴의 수를 줄이게 된다.

제1 단계에서 제1도의 입력부(2)에 합성음을 생성할 문장(Text)이 입력되면 제2 단계에서 운율 처리부(4)의 구문분석부(6)는 입력부(2)로부터의 문장을 구문 분석하여 구단위로 분리한다. 그리고, 띄어읽기 결정부(12)는 구문분석부(6)로부터의 구단위에 포함되는 각 어절에 대해 띄어읽기 정도를 결정하고 길이 생성부(10)는 구문분석부(6)로부터의 구단위에 포함되는 각 어절에 대한 음길이를 생성한다. 제12 단계에서 억양생성부(8)는 구문분석부(12)로부터의 구단위에 포함된 각어절에 대해 상기 저장된 문장 피치 패턴 데이터베이스에 존재하는지를 확인한다.

여기서, 해당 문장 피치 패턴을 찾는 방법은 첫 번째로 그 구단위에 몇 개의 어절이 존재하는지를 조사한다. 이어서, 그 구단위 안에서의 어절별 띄어읽기 정도의 상대 값을 이용한다. 이는 띄어읽기 정도와 억양이 서로 밀접한 관계에 있고 어절별로 띄어읽기 정도의 상대 값을 이용함으로써 문장성분 자체, 즉 띄어읽기 정도의 절대 값을 그대로 이용하는 것보다 문장 피치 패턴의 경우의 수를 줄일 수 있기 때문이다. 예컨대, 한 구단위가 4개의 어절로 구성되고, 두 번째 어절에서 가장 많이 띄어 읽어야 한다면 이를 문장 피치 패턴 데이터베이스에서 찾아 적용한다. 만일, 한 구단위가 8개의 어절로 구성되어 있는 경우는 데이터베이스 안에 존재하지 않으므로 일반적인 규칙에 의한 피치를 생성한다.

상기 12단계에서 문장 피치 패턴 데이터베이스에 해당 패턴이 존재하는 경우 제13 단계에서 데이터베이스로부터의 패턴을 그대로 적용하여 어절별로 억양을 생성한다.

제4도를 참조하여 상세히 하면, 데이터베이스에 존재하는 패턴을 실제로 적용할 때에는 어절별로 대응시킨다. 제131 단계에서 각 어절의 끝음절은 그대로 적용 매핑(Mapping)한다. 제132 단계에서 각 어절의 첫음절의 초성의 종류에 따라 시작 피치 값을 조절한다. 제133 단계에서 상기 끝음절을 제외한 음절들은 시작 피치 값과 끝 피치 값을 일직선으로 연결한 후 포함되는 음절수로 등분하여 매핑한다.

여기서, 첫음절의 초성의 종류는 피치 값, 즉 포인트 값(특정 상수에 대한 주파수의 비)에 따라 4가지로 분류할 수 있다. 이를 피치 값이 가장 낮은 경우부터 높아지는 순으로 나열하면 다음 표와 같다.

제5도를 참조하면, ‘그들은 예쁘다’라는 2어절로 구성된 문장으로부터 뽑은 피치 패턴의 저장형태와, 이 피치 패턴을 ‘사람들은 아름답다’라는 입력 문장에 적용하는 방법을 나타낸 것이다.

제5(a)도에 도시된 데이터베이스는 ‘그들은’이라는 한 어절에 해당하는 피치 패턴을 나타낸다. 여기서, 3은 첫음절의 초성(‘ㄱ’) 종류, 80은 ‘그들’이라는 음절들의 시작피치 값, 50은 상기 음절들의 끝 피치 값, 55 내지 95는 끝음절(‘은’)에 해당하는 피치 패턴을 나타낸다. 이 어절의 패턴을 입력문장의 ‘사람들은’이라는 어절에 적용하는 경우 초성의 종류가 3번에서 1번으로 바뀌었으므로 시작피치 값 80을 60으로 하향 조정한 후 ‘사람들’에 해당하는 3개의 음절로 등분하여 적용하고, 끝음절은 그대로 적용하여 억양을 생성한다.

제5(b)도에 도시된 데이터베이스는 ‘예쁘다’라는 어절에 해당하는 피치 패턴이다. 이 어절의 패치 패턴을 ‘아름답다’라는 어절에 적용하는 경우 초성의 종류가 같으므로 시작 피치 값(90)으로부터 끝 피치 값(80)을 ‘아름답’에 해당하는 3음절로 등분하여 적용하고, 역시 끝음절은 그대로 적용하여 억양을 생성한다.

제3도로 되돌아와서, 제15 단계에서 합성부(14)는 억양생성부(8)로부터의 어절별 억양과, 길이 생성부(10)로부터의 어절별 음길이와 띄어읽기 결정부(12)로 부터의 띄어읽기 정도를 합성하여 합성음 억양을 생성한다.

한편, 상기 12단계에서 문장 피치 패턴 데이터베이스에 해당 패턴이 존재하지 않는 경우 제14 단계에서 일반적인 규칙에 의한 억양을 어절별로 생성한다.

이어서, 출력부(16)는 합성부(14)에서 생성된 한국어 합성음을 스피커를 통해 출력한다.

이상 설명한 바와 같이, 본 발명에 따른 대표 피치 패턴을 이용한 한국어 합성음 생성 방법에 의하면, 문장의 대표 피치 패턴을 어절별로 미리 저장하고 이를 이용하여 입력 문장을 어절별로 억양을 생성함으로써 억양 생성의 자연도를 높일 수 있게 된다.

또한, 본 발명의 대표 피치 패턴을 이용한 한국어 합성음 생성 방법에 의하면, 해당 대표 피치 패턴을 찾을 때는 어절 수와 어절별 띄어읽기 정도의 상대 값을 사용함으로써 대표 피치 패턴의 수를 줄일 수 있게 된다.

나아가, 남녀 음성 합성 시 대표 패턴 데이터베이스만을 따로 만들어 놓음으로써, 한 합성기 안에서 남성과 여성의 억양의 특성을 그대로 반영할 수 있게 된다.

한편, 상술한 내용을 통해 당업자라면 본 발명의 기술사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정이 가능함을 알 수 있을 것이다. 따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허 청구의 범위에 의하여 정하여져야만 한다.

Claims

대표 문장의 피치 패턴을 이용하여 한국어 합성음을 생성하는 방법에 있어서, 상기 대표 문장의 어절별로 첫음절의 초성의 종류, 끝음절을 제외한 음절들의 시작 피치 및 끝 피치 값과 그리고 끝음절의 피치 패턴을 가지는 문장 피치 패턴을 저장하는 1단계와, 합성할 문장이 입력되면 구문 분석하여 구단위로 분리하는 2단계와, 상기 구단위로 상기 문장 피치 패턴에의 존재여부를 판단하는 3단계와, 상기 3단계에서 해당 패턴이 존재하는 경우 그 패턴에 포함되어진 상기 첫음절의 초성의 종류, 시작피치 및 끝 피치 값들 및 끝음절의 피치 패턴을 이용하여 어절별로 억양을 생성하는 4단계와, 상기 어절별로 생성된 억양을 합성하여 출력하는 5단계를 포함하는 것을 특징으로 하는 대표 피치 패턴을 이용한 한국어 합성음 생성 방법.
제1항에 있어서, 상기 초성의 종류는 상기 피치 값에 따라 4단계로 분류하는 것을 특징으로하는 대표 피치 패턴을 이용한 한국어 합성음 생성 방법.
제1항에 있어서, 상기 2단계는 상기 구단위에 포함되는 어절의 수를 7개 이하로 제한하는 것을 특징으로 하는 대표 피치 패턴을 이용한 한국어 합성음 생성 방법.
제1항에 있어서, 상기 2단계는 상기 구단위에 포함되는 어절별로 띄어읽기 정도를 결정하는 것을 특징으로 하는 대표 피치 패턴을 이용한 한국어 합성음 생성 방범.
제1항에 있어서, 상기 3단계는 구단위에 포함되는 어절 수를 조사하고, 상기 구단위에 포함되는 어절별 띄어읽기 정도의 상대 값을 이용하여 해당 문장 피치 패턴의 존재 여부를 판단하는 것을 특징으로 하는 대표 피치 패턴을 이용한 한국어 합성음 생성 방법.
제5항에 있어서, 상기 어절별 띄어읽기 정도는 4단계로 분류하는 것을 특징으로 하는 대표 피치 패턴을 이용한 한국어 합성음 생성 방법.
제1항에 있어서, 상기 4단계는 어절별로 대응하여 각 어절의 끝음절은 그대로 매핑하는 단계와, 각 어절의 첫음절의 초성의 종류에 따라 시작 피치 값을 조절하는 단계와, 상기 끝음절을 제외한 음절들은 상기 시작 피치 값과 끝 피치 값을 일직선으로 연결한 후 포함되는 음절수로 등분하여 매핑하는 단계를 반복하는 것을 특징으로 하는 대표 피치 패턴을 이용한 한국어 합성음 생성 방법.
제1항에 있어서, 상기 4단계는 상기 3단계에서 해당패턴이 존재하지 않는 경우 일반적인 규칙에 의해 어절별로 억양을 생성하는 것을 특징으로 하는 대표 피치 패턴을 이용한 한국어 합성음 생성 방법.