KR920008259B1

KR920008259B1 - 포만트의 선형전이구간 분할에 의한 한국어 합성방법

Info

Publication number: KR920008259B1
Application number: KR1019900004442A
Authority: KR
Inventors: 이윤근
Original assignee: 주식회사 금성사; 이헌조
Priority date: 1990-03-31
Filing date: 1990-03-31
Publication date: 1992-09-25
Also published as: EP0450533A2; KR910017357A; EP0450533A3; US5649058A; JPH05127697A

Abstract

내용 없음.

Description

포만트의 선형전이구간 분할에 의한 한국어 합성방법

제1도는 본 발명 포만트의 선형전이구간 분할에 의한 한국어 합성방법을 실현하기 위한 하드웨어볼록도.

제2도는 '야'에 대한 소나그래프.

제3도는 '야'에 대한 포만트 모델링.

제4도는 롬(4)의 데이타 구성도.

제5도는 본 발명의 신호흐름도.

* 도면의 주요부분에 대한 부호의 설명

1 : 피씨 1a : 키이보드

1b : 모니터 2 : 피씨인터페이스

3 : 음성합성기 4 : 롬

5 : 램 6 : 어드레스디코더

7 : 버퍼 8 : D/A변환기

9 : 증폭기 SP : 스피커

본 발명은 음성합성방법에 관한 것으로, 특히 음성 코딩에 의한 방법과 포만 트(Formant)분석에 의한 규칙합성 방법을 절충하여 음성을 합성해낼수 있도록한 포만트의 선형전이구간 분할에 의한 한국어 합성방법에 관한 것이다.

일반적으로 한국어의 음성합성방법은 크게 2가지로 분류되는데, 그 중 하나는 음성 코딩에 의한 방법으로서 이는 한국어의 모든 음소(음절 또는 반음절단위도 포하)에 대해 실제음성신호를 LPC(Linear Prodicitive) 또는 LSP(Line Spectrum pair)방법으로 분석한 다음 이를 데이타베이스에 저장하였다가 임의의 발음을 합성하고자 할때 저장되어있던 원하는 계수를 데이타 베이스로부터 추출하여 해당음성신호를 합성해내는 방법이고, 다른 하나는 한국어의 모든 음소에 대해 기본포만트 주파수 및 대역폭을 추출해내고, 음소 접합시에 발생하는 포만트의 변화를 규칙화하여 임의의 발음을 합성하고자할때 그 규칙을 프로그램에 의해 구현시켜줌으로써 해당음성신호를 합성해내는 방법이다.

그러나 상기한 전자의 음성코딩에 의한 방법을 이용하면 비교적 양호한 음질을 얻을 수 있는 반면 음성신호를 짧은 시간단위의 프레임으로 분할하여 각각의 프레임을 분석해야하므로 데이타량이 많아지며, 더구나 음성신호의 특성이 변하지 않는 구간에 대해서도 불필요한 데이타를 발생시켜 메모리용량을 증가시켜야하는 문제점이 있고, 후자의 포만트 분석에 의한 규칙합성방법은 포만트 변이를 일정규칙에 의해 처리해 주어야 하므로 그 규칙을 찾는데 많은 어려움이 수반되었다.

본 발명은 이와 같은 문제점을 해결하기 위하여 포만트 변이구간을 선형특성을 갖는 부분으로 분할하여 각부분의 포만트정보를 저장한다음 이로부터 음성데이타를 추출해내는 방법을 창안한 것으로 이를 첨부한 도면에 의하여 상세히 설명한다. 제1도는 본 발명 포만트의 선형전이구간 분할에 의한 한국어 합성방법을 실현하기위한 하드웨어 블록도로서 이에 도시한 바와 같이, 피씨(1)를 통하는 키이보드(1a)의 문자데이타를 인터페이스하는 피씨인터페이스(2)와, 상기 피씨인터페이스(2)를 통하는 문자를 ASCⅡ코드로 받아들이며 음성합성을 위해 시스템을 제어하는 음성합성기(3)와, 상기 디지탈신호처리기(3)의 프로그램을 저장하는 롬(4)과, 상기 롬(4)의 프로그램 처리 중 필요한 데이타를 저장하는 램(5)과, 상기 음성합성기(3)의 셀렉터신호를 디코딩하여 상기 롬(4) 및 램(5)에 출력하는 어드레스디코더(6)와, 상기 음성합성기(3)와 데이타버스 및 어드레스버스간의 데이타를 입출력하는 버퍼(7)와, 상기 음성합성기(3)에 의해 합성된 디지탈음성신호를 아날로그신호로 변환하는 디지탈(D)/아날로그(A) 변환기(8)와, 상기 D/A변환기(8)의 출력신호를 소정레벨로 증폭하여 스피커(SP)에 출력하는 증폭기(9)로 구성한 것으로 이와 같이 구성된 음성합성처리블록도와 '야'에 대한 소나그래프를 보인 제2도, '야'에 대한 포만트 모델링을 보인 제3도, 상기 롬(4)의 데이타구성을 보인 제4도 및 본 발명의 신호흐름도인 제5도를 참조하여 본 발명을 상세히 설명하면 다음과 같다.

먼저, 롬(4)상의 데이타베이스 구성을 살펴보면, 음성신호는 선형포만트 전이구간에 의해 분할되는데, 예를 들어 제2도는 '야'에 대한 소나그래프(Sonagraph)를 보인 것으로 이것을 제3도에서와 같이 3개의 선형 포만트 전이구간(D1-D3)으로 분할한 다음 이를 제4도에서와 같이 각 분할구간의 시작점에서의 포만트주파수(Fj)와 대역폭(B Wj), 그리고 분할길이(Li)로 구성하며, 모든 음소에 대하여 이와 같은 형태로 데이타베이스를 구성하여 상기 롬(4)에 저장한다. 이후, 피씨(1)가 키이보드(1a)로부터 한글문자를 입력하여 이를 피씨인터페이스(7)를 통해 음성합성기(3)에 ASCⅡ코드로 입력하게 되면, 그 음성합성기(3)는 상기 롬(4)에 저장된 프로그램을 수행하여 해당음성을 합성해내며, 이렇게 합성된 음성데이타는 D/A변환기를 통해 아날로그신호로 변환된다음 증폭기(9)를 통해 소정레벨로 증폭되어 스피커(SP)에 인가되므로 그 스피커(SP)로부터 입력문자에 해당되는 음성이 출력되는 것으로써 이하, 상기 음성합성기(3)는 상기 피씨 인터페이스(2)로부터 문자가 입력될때 데이타베이스인 롬(4)으로부터 그 문자에 해당되는 포만트 정보와 길이정보를 읽어오는데, 먼저 첫번째 분할과 두번째분할에 대한 정보를 읽어본다. 이어서, 피치와 에너지제어프로그램으로 적정피치와 에너지를 계산한다음 현재 합성시점(n)에서의 포만트주파수(Fj)와 대역폭(BWj)을 선형보간법( Linear Interpolation)방식에 의해 다음과 같이 계산한다.

단, 상기의 Fi. j : 분할 i의 시점에서 포만트주파수, BWI.J : 분할 i의 시점에서 포만트 대역폭, LI : 분할 i의 길이.

이렇게 계산된 포만트 정보에 따라 4개의 대역여파기를 구성하여 여기신호(E xitaition Signal)를 그 대역 여파기를 통해 순차적으로 여파하면 음성신호가 발생되며, 이후 상기의 음성신호에 에너지를 곱한 후 샘플 인덱스를 증가시킨다. 이와 같은 과정을 반복하여 한 피치(Pitch)구간에서의 합성이 완료되면 그 합성된 신호의 길이가 주어진 분할길이보다 큰가를 검사하여 크지 않으면 상기의 피치와 에너지계산 단계를 넘어가서 지금까지의 과정을 반복하고, 크면 분할 영역의 합성이 완료된것으로 판단하여 다음 분할영역의 합성을 수행하며, 이후 현재의 분할영역이 마지막 분할영역이 될때 음성합성을 완료한다.

이상에서 상세히 설명한 바와 같이, 본 발명은 음성코딩에 의한 음성합성방법과 포만트 규칙합성방법을 절충하여 음성을 합성할 수 있게함으로써 데이타베이스의 용량을 감소시킬수 있게할뿐만 아니라 포만트분석에 의한 음성합성 방법보다 양호한 음질을 생성시킬수 있고, 분석방법이 간단하여 쉽게 구현할 수 있는 이점이 있다.

Claims

음성합성기(3)가 피씨인터페이스(2)를 통하는 입력문자에 따라 롬(4)으로부터 분할영역단위로 데이타를 읽어와 피치와 에너지를 계산한다음 선형보간법 방식에 의해 포만트주파수와 대역폭을 계산하여 그 계산된 포만트 정보에 다른 필터를 구성해서 필터링하여 음성신호를 합성해내는 것을 특징으로 하는 포만트의 선형전이구간 분할에 의한 한국어 합성방법.
제1항에 있어서, 입력된 문자를 3개의 시적점에서의 포만트 주파수와 대역폭, 길이로 상기 롬(4)의 데이타베이스를 구성한 것을 특징으로 하는 포만트의 선형 전이구간 분할에 의한 한국어 합성방법.