KR0133467B1

KR0133467B1 - 한국어 음성 합성기의 벡터 양자화 방법

Info

Publication number: KR0133467B1
Application number: KR1019940012320A
Authority: KR
Inventors: 이병수
Original assignee: 구자홍; 엘지전자주식회사
Priority date: 1994-06-01
Filing date: 1994-06-01
Publication date: 1998-04-23
Also published as: KR960002132A

Abstract

본 발명은 한국어 음성 합성기의 벡터 양자화 방법에 관한 것으로, 종래에는 기본 음절 데이타 베이스의 크기를 줄이기 위하여 적응 펄스 부호 변조(ADPCM) 방식의경우 전력 스펙트럼 윤곽(PSE) 데이타가 좌우 대칭인 파형중 반쪽만으로 형성됨으로 인위적인 조작을 하여 고속 역 푸리에 변환(IFFT)할 때 불가능하게 되는 문제점이 있고, 이를 해소하기 위한 벡터 양자화 방법은 천이 구간에서의 변별적 특성을 한정된 양자화 코드에 대해 정확하게 압축 및 재생하지 않으면 합성음이 명료하지 않게 되는 문제점이 있었다. 이러한 점을 감안하여 본 발명은 전력 스펙트럼 윤곽 데이타를 천이 구간과 안정 구간에 따라 차별적으로 코드 북(codebook)과 찌그러짐 한계값을 적용함으로써 음성 데이타를 효율적으로 압축, 재생하도록 구성한 것으로, 본 발명은 한정된 코드 북 크기 또는 제한된 한계값 등을 가지고도 차별적으로 몸의 양 천이 구간과 안정 구간에 대해서 벡터양자화(VQ)를 수행함으로써 합성음의 명료도에 손상을 입히지 않고서도 음절 데이타 베이스의 크기를 줄일 수 있다.

Description

한국어 음성 합성기의 벡터 양자화 방법

제 1 도는 일반적인 한국어 음성 합성기의 구조도.

제 2 도는 제 1 도에 있어서, 음성 합성시 신호 흐름도.

제 3 도는 제 2 도에 있어서, 음성 합성시 파형도.

제 4 도는 기본 음절의 천이 구간 및 안정 구간의 예시도.

제 5 도는 VCV 패턴의 예시도.

제 6 도는 본 발명의 음성 합성을 보인 신호 흐름도.

*도면의 주요부분에 대한 부호의 설명*

1 : 단어 저장부 2 : 문장 분석부

3 : 음절 데이타 베이스 4 : 합성 데이타 발생부

5 : 음성 합성부

본 발명은 음성 합성기에 관한 것으로 특히, 한국어 전력 스펙트럼 윤곽(PSE) 합성기에서 합성 음질에 크게 영향을 미치지 않으면서 한국어 기본 음절 데이타 베이스의 크기를 효과적으로 줄이는 한국어 음성 합성기의 벡터 양자화 방법에 관한 것이다.

일반적으로 음성을 합성할 때 합성 기본 단위가 천이 구간을 포함하고 있는 안정된 모음 구간을 합성 기본 단위로 하는 전력 스펙트럼 윤곽(PSE) 합성 방법을 사용하는데, 예로 야구라는 단어를 합성할 때 '야'+'야구'+'우'가 기본 음절이 된다.

즉, 한국어의 합성에서 기본 음절의 종류는 자음(Consonant)과 모음(Vowel)(CV), 모음+자음(VC), 모음+자음+모음(VCV), 모음+자음+자음+모음(VCCV)의 4가지 패턴이 존재한다.

제 1 도는 일반적인 한국어 음성 합성기의 구조도로서 이에 도시된 바와 같이, 한국어 단어 데이타를 저장하는 단어 저장부(1)와, 문장이 입력됨에 따라 상기 단어 저장부(1)의 데이타와 비교하여 문장을 분석하는 문장 분석부(2)와, 한국어 기본 음절 데이타를 저장하는 음절 데이타 베이스(3)와, 상기 문장 분석부(2)의 출력을 입력받아 상기 음절 데이타 베이스(3)의 데이타와 비교하여 연산함에 의해 합성 데이타를 생성하는 합성 데이타 발생부(4)와, 이 합성 데이타 발생부(4)의 출력을 합성 처리하여 합성음을 발생시키는 음성 합성부(5)로 구성된다.

이와같이 구성한 종래 기술의 동작 과정을 제 2 도의 기본 음절 데이타 생성시 신호 흐름도 및 제 3 도의 음성합성에 따른 파형도를 참조하여 설명하면 다음과 같다.

종래 전력 스펙트럼 윤곽(PSE) 합성 방법을 이용하여 기본 음절을 생성하는 과정을‘아겨’를 예로 들어 설명한다.

우선, '아겨'라고 발음된 데이타가 입력되면 문장 분석부(2)는 단어 저장부(1)에 저장된 데이타와 비교함에 의해 제 3 도(가)와 같이 '아'+'ㄱ'+'ㅕ' 구간을 분리하고 그 분리된 구간에 모음 '아'와 '여'는 정해진 프레임 길이에 따라 분할하여 위상 성분을 제거시킨 후 프레임 수에 따른 몇 프레임의 전력 스펙트럼 윤곽(PSE) 데이타로 구함과 아울러 자음 'ㄱ'은 펄스 부호 변조(PCM) 데이타를 그대로 사용함에 의해 제 3 도(나)에 도시한 바와 같은 어절이 분리된 주파수 영역의 데이타를 얻게 된다.

이때, 문장 분석부(2)에서 분리된 음절 데이타를 출력하면 합성 데이타 발생부(3)는 음절 데이타 베이스(3)의 저장 데이타와 비교 연산함에 의해 합성 데이타를 발생시키는데, 상기 문장 분석부(2)에서 분리된 '아'+'아겨'+'어'의 기본 음절 데이타를 입력받은 상기 합성 데이타 발생부(4)는 각 기본 음절들은 순차적으로 각 프레임들에 대해 고속 역 푸리에 변환(IFFT)을 수행하여 시간 영역의 파형 데이타로 변환하고 이 변환된 파형 데이타를 제 3 도(다)와 같이 overlap-add방법을 사용하여 전체 음절 길이에 맞도록 기본 음절들을 적당히 연결함으로써 제 3 도(라)와 같이 선형 보간된 ‘아겨’라는 한 단어를 합성하게 된다.

이에 따라, 음성 합성부(5)가 합성 데이타 발생부(4)에서 출력된 합성 데이타를 연결하여 출력함에 따라 합성음이 발생하게 된다.

이러한 전략 스펙트럼 윤곽(PSE) 합성 방법은 시간 영역의 데이타를 그대로 사용한다고 할 수 있으므로 합성 음질이 뛰어난 반면 모든 기본 음절의 데이타를 가지고 있어야 하기 때문에 데이타 베이스의 크기가 상당히 커지게 된다.

즉, 기본 음절의 총 수는 25,000여개로서 VCCV 패턴을 제외한 CV, VC, VCV 패턴만의 데이타 베이스의 크기는 10M 바이트를 넘는다. 여기서, VCCV 패턴은 VC와 CV 패턴을 합성하여 형성하게 된다.

따라서, 이러한 PSE 합성기를 PC나 혹은 전용 하드웨어에서 적절히 사용하기 위하여는 기본 음절 데이타 베이스의 크기를 줄여야 할 필요성이 발생한다.

이때, 데이타 베이스를 줄이는 방법으로 위상 성분을 제거한 후 프레임의 전력 스펙트럼 윤곽(PSE) 데이타를 시간 영역상에서 고속 역푸리에 변환(IFFT)을 수행할 때 발생하는 좌우 대칭의 파형중 반쪽만을 적응 차분 펄스 부호 변조(ADPCM)의 방식으로 압축하여 저장하는 방법이 있다.

그러나, 이러한 적응 차분 펄스 부호 변조 방법은 전력 스펙트럼 윤곽(PSE) 데이타를 위상 잡음(phase jitter) 등을 섞은 인위적인 조작을 하여 고속 역 푸리에 변환(IFFT)할 때 불가능하게 되는 문제점이 있다.

따라서, 주파수 영역에서 고속 푸리에 변환한 전력 스펙트럼 윤곽 데이타가 있다면 상기의 적응 차분 펄스 부호 변조 방법보다 벡터 양자화(VQ)에 의한 압축 방법이 더 효과적일 것이다. 이때, 벡터 양자화(VQ)를 가능하게 하는 것은 CV, VC, VCV 패턴에서 중복되는 발음이 상당히 많기 때문에 예를 들어, '아' 데이타를 살펴보면 '아가', '아개', '아갸', ……, '어가', '오가', '우가'……등에서 계속적으로 사용되며 이러한 각 데이타에서 '아'부분을 축약하여 압축함으로서 데이타 베이스의 크기를 상당히 줄일 수 있다.

즉, 고속 푸리에 변환(FFT) 찻수가 '7'이라면 한 프레임은 65개의 숫자로 이루어지게 되며 이러한 프레임을 한 단위로 해서 VQ를 수행한다면 압축률은 훨씬 좋아질 것이다.

이때, 음성 합성에서 여러 기본 음절에 중복해서 나타나는 같은 모음이라고 하더라도 천이 구간에 존재하는 자음에 따라 자음을 중심으로 앞뒤 모음의 천이 구간의 특성이 차이가 나며 이러한 변별적인 특성들을 한정된 VQ 코드 사이즈에 대해서 정확히 압축, 재생하여야 한다.

그러나 이러한 벡터 양자화 방법에서 천이 구간에서의 변별적 특성을 한정된 양자화 코드에 대해 정확하게 압축 및 재생하지 않으면 합성음이 명확하게 재생되지 않는 문제점이 있었다.

본 발명은 이러한 종래의 문제점을 해결하기 위하여 전력 스펙트럼 윤곽 데이타를 천이 구간과 안정 구간에 따라 차별적으로 코드 북(codebook)과 찌그러짐 한계값을 적용함으로써 음성 데이타를 효율적으로 압축, 재생하는 한국어 음성 합성기의 벡터 양자화 방법을 창안한 것으로, 이를 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다.

본 발명은 상기의 목적을 달성하기 위하여 기본 음절 데이타에서 모음 및 자음을 분리하여 자음을 중심으로 모음의 앞부분 천이 구간의 모든 전력 스펙트럼 데이타를 양자화함과 아울러 자음을 중심으로 모음의 뒷부분 천이 구간의 모든 전력 스펙트럼 데이타를 양자화한 후 모든 자음에 대해 양자화가 되었는지 판별하는 단계와, 상기 단계에서 모든 자음이 양자화되었으면 모음의 안정 구간의 모든 전력 스펙트럼 데이타를 양자화하고 각 구간의 양자화된 데이타의 코드를 합산하여 새로운 코드를 산출한 후 모든 모음이 양자화되었는지 판별하는 단계와, 상기 단계에서 모든 모음이 양자화되었으면 양자화 동작을 완료하는 단계로 이루어진다.

이와같이 구성한 본 발명의 동작 및 작용 효과를 제 4 도 내지 제 6 도를 참조하여 상세히 설명하면 다음과 같다.

본 발명은 기본 음절의 VC, CV, VCV 패턴중 VCV 패턴에 대해 제 5 도의 예시도와 같은 가장 데이타량이 많은 '아' 발음이 있는 기본 음절을 예를 들어 설명한다.

먼저, V1+C+V2 패턴에서 V1이 '아'인 경우는 19(C1 갯수)*21(V2 갯수)=399개와 V2가 '아'인 경우 10(V1 갯수)*19(C1 갯수)=190개의 589가지가 있다.

이때, 기본 어절은 안정된 모음 구간중 천이 구간을 잘라낸 것이기 때문에 제 4 도에 도시한 바와 같이 자음을 중심으로 천이 구간과 모음의 양 끝을 포함하는 안정 구간으로 나눌 수 있는데, '아가'와 '아나'를 예를 들면 'ㄱ', 'ㄴ'을 중심으로 양 쪽으로 천이 구간과 바깥 쪽으로 안정 구간이 존재하게 되는 것이다.

한편, 자음도 경우에 따라서 천이 구간을 나눌 수 있는데, 제 5 도에서 '아개', '아갸'인 경우의 '아' 발음은 'ㄱ'과 연결되는 부위에서는 다른 자음과 연결되는 경우보다 유사한 패턴이 많을 것이며 '애가', '어가'에서의 '아'도 'ㄱ'과 연결되는 부위에서는 다른 자음과 연결되는 경우보다 유사한 패턴이 많을 것이다. 그리고, 양 끝의 안정된 구간에서는 둘 다 모두 어느 정도 '아'의 안정된 발음 형태를 가지므로 유사한 패턴이 많을 것이다.

따라서, 이 경우 한정된 코드 북 크기에 대해서 벡터 양자화(VQ) 대상 후보 모음인 '아'의 모든 전력 스펙트럼 윤곽 프레임을 주어진 찌그러짐 한계치에 따라 한꺼번에 벡터 양자화(VQ)를 수행하는 것이 아니라, 동일한 전체 코드 북 크기에 대해서 천이 구간과 안정 구간에 따라 차별적으로 코드 북과 비틀림 한계값을 적용하여 벡터 양자화(VQ)를 수행함으로써 보다 명료한 벡터 양자화(VQ) 코드 북을 얻을 수 있다.

이에 따라 , 벡터 양자화(VQ)를 시행할 경우 천이 구간에 대한 변별적 특성이 잘 나타나도록 함으로써 명료한 합성음을 얻을 수 있게 된다.

상기와 같은 동작을 제 6 도의 흐름도에서 설명하면 다음과 같다.

여기서, VQ 대상인 '아'의 모든 PSE 프레임 데이타의 비틀림 한계값을 '1'로 하여 한꺼번에 VQ를 수행한 결과 1000개의 코드 북을 얻었다고 가정하자.

단어 저장부(1)의 저장 데이타를 입력 문장과 비교하여 문장 분석부(2)에서 기본 음절로 분리한 데이타가 출력할 때 분리된 데이타는 자음의 양쪽에서 나타나는 모음의 천이 구간이 모음의 안정 구간보다 짧게 나타나며 이러한 천이 구간의 길이로 음절을 분리하게 된다.

여기서, 양자화 대상은 첫번째 경우 '아개', '아갸'에서 처럼 'ㄱ'앞부분에 나타나는 모음의 천이 구간이고 두번째는 '애가', '어가'에서처럼 'ㄱ'의 뒷부분에 나타나는 모음의 천이 구간이며 마지막으로 양쪽의 안정 구간으로, 첫번째와 두번째의 경우는 전체 모음의 길이의 30~40%의 길이로 가정한다.

이때, 기본 음절 데이타가 입력되어 모음과 자음에 대한 천이 구간 및 안정 구간을 선정하면 자음을 중심으로 모음의 앞부분 천이 구간의 모든 전력 스펙트럼 윤곽 데이타를 추출하여 벡터 양자화하고 자음을 중심으로 모음의 뒷부분 천이 구간의 모든 전력 스펙트럼 윤곽 데이타를 추출하여 벡터 양자화한 후 모든 자음에 대해 벡터 양자화가 수행되었는지 판별하게 된다.

즉, 첫째 경우처럼 천이 구간 사이의 자음이 'ㄱ'이라면 이 자음 'ㄱ'에 대해 앞부분과 뒷부분의 모음의 천이 구간을 추출하여 이 각각의 추출된 부분에 대해서만 벡터 양자화하는데, 제 5 도와 같은 VCV 패턴중 아가 있는 경우 19개의 전 자음에 대해서 행한다.

그리고, 자음에 대한 모음의 천이 구간의 벡터 양자화가 모두 수행되었는지 판별하여 모두 수행되지 않았으면 남은 자음에 대해 벡터 양자화를 다시 수행하고 모두 수행되었으면 남아 있는 모음의 안정 구간의 전력 스펙트럼 윤곽 데이타에 대하여 벡터 양자화를 수행하고 모음의 천이 구간 및 안정 구간에 대해 벡터 양자화가 수행되어 형성된 코드 북(codebook)을 하나로 합쳐 새로운 코드 북을 얻은 후 모든 모음에 대해 벡터 양자화가 수행되었는지 판별하게 된다.

즉, 남아있는 모든 안정 구조의 '아'모음에 대해서 한꺼번에 벡터 양자화(VQ)를 수행하고 개별적으로 수행된 코드 북을 하나로 합침으로써 새로운 코드 북을 얻게 된다.

한편, 한 자음의 천이 구간에 대해 각각 찌그러짐 한계값을 0.5로 가정한다면 한 자음의 양 쪽에 존재하는 천이 구간의 전 모음에 대한 전력 스펙트럼 윤곽(PSE) 데이타 수는 얼마되지 않으며 또한, 유사도가 높기 때문에 낮게 책정된 찌그러짐 한계값에 대해서 얼마안되는 코드 북 크기로도 한계값을 만족시킬 수 있을 것이다.

그리고, 안정 구간은 유사도가 높음으로 데이타 양이 많아 찌그러짐 한계값을 2 정도로 높여도 명료도가 저하되지 않을 것이며, 이 경우 코드 북 크기는 대폭 줄어들 것이다.

결국, 상기에 설명한 바와 같은 결과로 거의 동일한 코드 북 크기를 가지고 차별적으로 벡터 양자화(VQ)를 수행함으로써 합성음의 명료도를 높일 수 있을 것이다.

또한, CV 패턴과 VC 패턴도 상기와 같은 동작에 의해 VCV 패턴의 한 쪽에 포함시켜 모든 모음에 대하여 벡터 양자화를 수행하면 한국어 기본 음절의 데이타 베이스를 모두 벡터 양자화할 수 있다.

상기에서 상세히 설명하면 본 발명은 한정된 코드 북 크기 또는 제한된 한계값 등을 가지고도 차별적으로 모음의 양 천이 구간과 안정 구간에 대해서 벡터 양자화(VQ)를 수행함으로써 합성음의 명료도에 손상을 입히지 않고서도 음절 데이타 베이스의 크기를 줄일 수 있는 효과가 있다.

Claims

기본 음절 데이타에서 모음 및 자음을 분리하여 자음을 중심으로 양쪽에 존재하는 천이 구간과 안정 구간을 선정하는 제 1 단계와, 제 1 단계에서 선정된 모음의 천이 구간에 대하여 벡터 양자화를 수행하고 모든 모음에 대하여 벡터 양자화가 수행되었는지 판별하는 제 2 단계와, 제 2 단계에서 모든 모음에 대해 벡터 양자화가 수행되었으면 제 1 단계에서 선정된 모음의 안전 구간에 대하여 벡터 양자화를 수행하고 상기 2단계에서 벡터 양자화된 코드 북과 합쳐 새로운 코드 북을 얻은 후 모든 모음에 대하여 벡타 양자화가 수행되었는지 판별하는 제 3 단계와, 제 3 단계에서 모든 모음에 대하여 벡터 양자화가 수행되지 않았으면 상기 제 1 단계에서 제 3 단계를 반복 수행하고 모두 수행되었으면 벡터 양자화 동작을 완료하는 제 4 단계로 이루어진 것을 특징으로 하는 한국어 음성 합성기의 벡터 양자화 방법.
제 1 항에 있어서, 제 2 단계는 기본 음절의 자음을 중심으로 앞부분과 뒷부분 천이 구간에 대하여 각기 벡터 양자화를 수행하는 것을 특징으로 하는 한국어 음성 합성기의 벡터 양자화 방법.
제 1 항에 있어서, 제 3 단계는 안정 구간의 모든 모음에 대하여 전체적으로 벡터 양자화를 수행하는 것을 특징으로 하는 한국어 음성 합성기의 벡터 양자화 방법.
제 1 항에 있어서, 천이 구간에 대한 정확도는 안정 구간에 대한 정확도보다 높여서 차별적으로 벡터 양자화를 수행하는 것을 특징으로 하는 한국어 음성 합성기의 벡터 양자화 방법.