KR970003092B1

KR970003092B1 - 음성 합성 단위를 구성하는 방법 및 이에 상응하는 문장 음성 합성 방법

Info

Publication number: KR970003092B1
Application number: KR1019930015013A
Authority: KR
Inventors: 구준모
Original assignee: 주식회사 디지콤; 문준화
Priority date: 1993-07-31
Filing date: 1993-07-31
Publication date: 1997-03-14
Also published as: KR950004094A

Abstract

내용없음

Description

음성 합성 단위를 구성하는 방법 및 이에 상응하는 문장 음성 합성 방법

제1도는 일반적인 합성 시스템의 블럭도이다.

제2도는 본 발명의 따른 음성 합성 단위를 구성하는 방법을 나타낸 순서도이다.

제3도는 제2도에 도시된 재료 음성 입력 과정을 상세히 나타낸 순서도이다.

제4도는 제2도에 도시된 특징계수 산출 과정을 상세히 나타낸 순서도이다.

제5도는 음성 합성 단위 분할의 일예를 나타낸 것이다.

제6도는 제5도에서 음성 합성 단위의 끝인 경계선(B2)에 인접된 부분에서의 재료 음성을 나타내는 파형도이다.

제7도는 제204단계에서 수행되는 방법을 설명하기 위한 그래프이다.

제8도는 특징점 설정을 나타낸 그래프이다.

제9도는 제8도에서 경계선(C3)에 인접한 부분에서의 재료음성을 나타내는 파형도이다.

제10a도 및 제10b도는 음성 합성 단위의 데이타 저장 포맷들을 나타낸 도면이다.

제11도는 본 발명에 따른 문장 음성 합성 방법을 나타낸 순서도이다.

제12도는 제11도에 도시된 음조 조정 과정에 앞서 실시될 수 있는 보간 과정을 나타낸 순서도이다.

* 도면의 주요부분에 대한 부호의 설명

101 : 메모리 102 : 탐색부

103 : 합성부

본 발명은 음성 합성에 관한 것으로, 특히 무제한 음성 합성이라 불리우는 문장 음성 합성(text to speech conversion)에 있어서 음성 합성 단위를 구성하는 방법 및 이에 상응하는 음성 합성 방법에 관한 것이다.

문장 음성 합성이란 합성하고자 하는 어휘나 문장을 음성 합성 단위(예를 들면 음절, 반음절, 이중 음소, 음소등)로 분할한 후, 분할된 음성 합성 단위들을 그에 대응하은 음성 데이타 베이스에 근거하여 음성 신호로 변환되어 연속적으로 출력하는 것이다. 여기서, 상기 음성 데이타 베이스는 상기 음성 합성 단위들의 음향학적 표현 데이타가 그대로 저장되거나 또는 이를 대표할 수 있는 특징계수들만이 저장된다. 음성 합성 단위는 언어의 구조나 응용 분야에 따라서 달라지게 되며 이를 형성하는 방법은 지정된 발화자의 음성으로 부터 음성 합성 단위를 분리하여 저장하게 된다.

또한 문장이 자연스럽게 발음되도록 하기 위하여, 음성 합성 단위로 문장을 분할하기에 앞서 문장으로부터 문장의 발음과 음조에 관한 정보를 추출하며 여기서 추출된 정보는 음성 신호로 변환시 제어 변수로 사용된다.

여기서, 상기 음성 합성 단위들을 어떻게 구성하느냐에 따라 합성된 음성의 질이 결정된다. 음성 합성 단위는 또한 어떠한 음성 합성 방식을 사용하느냐에 따라 그 내용이 달라지게 된다.

일반적으로 음성을 기록하는 방식에는 파형을 저장하는 방식과, 파형의 특징만을 추출하여 저장하는 방식이 있다. 전자에는 자기 기록 매체에 흔히 사용되는 PCM, DPCM 등이 속하며, 후자에는 LPC 코딩, PARCOR 코딩등이 속한다. 파형을 저장하는 방식에서는 일반저긍로 재생된 음성의 질이 매우 양호하게 되나, 저장해야할 데이타량이 매우 방대한 문제점을 갖는다. 따라서, 파형을 그대로 저장하여 음성 합성 단위를 구성하는 방식은 합성해야할 음성 신호가 제한적인 숫자인 경우, 예를 들면 자동 응답 시스템 등에 적용된다.

한편, 파형의 특징만을 추출하여 저장하는 방식에서는 재생된 음성의 길이 음성의 종류에 따라 편차가 심하며 실질적인 음성과 거리가 먼 문제점을 가지나, 저장해야할 데이타량이 적은 잇점을 갖는다. 따라서, 일반적으로 합성해야할 음성신호가 무제한이라고 볼 수 있는 문장 음성 합성에서는 파형의 특징만을 추출하여 저장하는 방식으로 음성에 관련된 데이타 베이스를 구성하게 된다.

그러나, 이미 언급한 바와 같이, 파형의 특징만을 추출하여 저장하는 방식에서는 합성된 음성의 질이 양호하지 못한 문제점을 갖는다.

따라서, 본 발명의 목적은 저장해야할 데이타량이 적으면서도, 합성된 음성의 질이 양호하게 되는 음성 합성 단위의 구성 방법을 제공하는 것에 있다.

본 발명의 다른 목적은 상기 음성 합성 단위에 상응하는 문장 음성 합성 방법을 제공하는 것에 있다.

상기 목적을 달성하기 위하여, 본 발명은 문장 음성 합성에 있어서, 재료 음성을 프레임으로 분할하여 특징계수들을 산출하는 과정; 상기 재료 음성을 합성 단위의 음성으로 분할하는 과정; 상기 특징계수들을 근거하여 상기 합성 단위 음성이 지속되는 기간을 안정구간 및 변화구간들로 분할하는 과정; 상기 안정구간들로 분할하는 과정; 상기 안정구간에서 그에 해당되는 특징계수들을 근거하여 적어도 하나 이상의 특징점을 추출하는 과정; 및 상기 합성 단위 음성을 기록하는 것으로서, 변화구간인 경우에는 그의 파형 데이타를 기록하고, 안정구간인 경우에는 추출된 각 특징점에서의 특징계수들과 그의 지속 시간을 기록하며, 동시에 변화구간 및 안정구간임을 구별하는 플래그를 함께 기록하게 되는 과정을 구비하는 것을 특징으로 하는 음성 합성 단위를 구성하는 방법을 제공한다.

상기 다른 목적을 달성하기 위하여, 본 발명은 문장 음성 합성에 있어서, 문장으로부터 음조 데이타를 추출하는 과정; 문장을 발음 표기로 변환시키는 과정; 상기 발음 표기를 합성 단위 표기로 변환시키는 과정; 상기 합성 단위 표기에 대응되는 음성 합성 단위 데이타들을 메모리로부터 독출하는 것으로, 음성 합성 단위 데이타는 안정구간인지 변화구간인지를 나타내는 플래그와 함께 안정구간인 경우에는 파형 데이타를 포함하고 변화구간인 경우에는 특징계수들 및 지속 시간을 포함하게 되는 과정; 및 독출된 음성 합성 단위 데이타들 및 상기 음조 데이타에 근거하여 음성 신호를 합성하여 출력하는 것으로, 변화구간인 경우에는 파형 데이타에 따른 음성 신호를 출력하고, 안정구간인 경우에는 상기 특징계수들에 의하여 제어되는 선형 예측 필터를 통하여 해당 지속 시간 동안 음성 신호를 출력하게 되는 음성 합성 과정을 구비하는 것을 특징으로 하는 문장 음성 합성 방법을 제공한다.

이어서 첨부한 도면을 참조하여 본 발명에 관하여 좀 더 상세히 설명하기로 한다.

제1도는 일반적인 음성 합성 시스템의 블럭도로서, 메모리(101), 탐색부(102) 및 합성부(103)를 포함하여 구성된다. 특히 제1도에 도시된 음성 합성 시스템은 문장 음성 합성 시스템의 일부를 구성할 뿐만 아니라 그외에 다른 적용 분야에도 해당되는 음성 합성 시스템이다.

제1도에 있어서, 탐색부(102)는 합성 단위로 표시된 일련의 데이타를 입력한다. 그런 다음 입력된 합성 단위 표기들에 대응되는 데이타들을 메모리(101)를 탐색하여 그로부터 독출(read out)한다. 따라서, 탐색부(102)로부터 출력되는 데이타는 메모리에 저장되어 있던 데이타들로서, 음성 합성시 요구되는 정보들을 그안에 담고 있게 된다. 합성부(103)는 이와 같은 탐색부(102)의 출력을 입력함과 동시에 언어학적 처리부(도면에는 도시되지 않았으나 문장 음성 합성 시스템에 포함되는 것으로, 음조 정보를 추출하는 기능을 수행한다)로부터 인가되는 음조 정보를 입력한다. 그런 다음 음조 정보에 따라 음조를 제어하면서 상기 탐색부(102)의 출력에 근거하여 음성신호를 합성하여 출력한다.

제2도를 참조하면, 제201단계는 재료 음성을 입력하는 단계로서, 이를 제3도에 좀 더 상세히 나타내었다. 제3도에 나타낸 바와 같이 재료 음성은 제301단계에서 저역 통과 필터링을 수행하게 된다. 이는 지나치게 높은 주파수 성분 즉 잡음을 제거하는 기능을 수행하게 된다. 그런 다음 제302단계에서 아날로그 형태의 재료 음성은 디지탈 형태의 재료 음성으로 변환된다.

다시 제2도를 참조하면, 제202단계는 특징계수를 산출하는 단계로서, 이를 제4도에 보다 구체적으로 나타내었다. 제4도에서 제401단계는 디지탈로 변환된 재료 음성을 프레임 단위로 분할하게 된다. 그런 다음 제402단계에서 선형 예측 부호화(LPC ; Linear Predictive Coding)에 의하여 특징계수들을 산출하게 된다. 이러한 선형 예측 부호화는 선형 예측 필터에 의하여 수행되며, 산출되는 특징계수들로는 로그 면적비(log area ratio), 피치(pitch) 및 에너지등이 된다.

다시 제2도를 참조하면, 제203단계는 재료 음성을 합성 단위로 분할하게 된다. 여기서 합성 단위로는 음절, 반음절, 이중 음소, 음소 등이 될 수 있다. 예를 들면, "가다"에서{"가"}에 해당하는 부분이 음성 합성 단위일 수도 있고, {"ㄱ"+"ㅏ"의 첫부분}이 하나의 음성 합성 단위일 수도 있으며, 그 밖에 언어 특성에 따라 다양하게 음성 합성 단위를 구성할 수 있다. 제5도는 음성 합성 단위 분할의 일예를 나타낸 것이다. 제5도에서, A1 내지 A4는 특징계수들을 나타내는 것으로, 특히 A1 내지 A3는 로그 면적비들을 나타내고, A4는 피치를 나타낸다. 또한 경계선(B1)은 음성 합성 단위의 시작을 나타내고 경계선(B2)는 음성 합성 단위의 끝을 나타낸다. 제5도에 도시된 음성 합성 단위는 "가"에 해당된다.

제6도는 제5도에서 음성 합성 단위의 끝인 경계선(B2)에 인접된 부분에서의 재료 음성을 나타내는 파형으로, 제5도에서 사용한 시간축보다 확장된 시간축을 사용하고 있다.

다시 제2도을 참조하면, 제204단계는 음성 합성 단위로 분할된 재료 음성을 다시 다수의 구간으로 분할하는 단계로서, 특히 상기 제202단계에서 추출한 특징계수들에 근거하여 합성 단위의 재료 음성을 안정구간 및 변화구간으로 분할하게 된다. 여기서, 안정구간 및 변화구간으로 분할하는 방법은 에너지가 소정값 이하이고 피치가 검출되지 않는 구간 또는 상기 로그 면적비의 단위 시간당 변화량이 소정값 이상인 경우를 변화구간으로 결정하고, 그렇지 않은 구간을 안정구간으로 결정하는 것이다.

제7도는 제204단계에서 수행되는 방법을 도식적으로 나타낸 것으로, 경계선(B1)에서 경계선(P)까지는 변화구간이고, 경계선(F)로부터 경계선(B2)까지는 안정구간이 된다. 이와 같이 본 발명에서의 음성 합성 단위는 일반적으로 하나의 안정구간과 하나 또는 2개의 변화구간을 갖게 된다. 그러나 안정구간 및 변화구간을 설정하는 조건을 다르게 하거나 음성 합성 단위를 다르게 하면 그 이상의 안정구간 및 변화구간들로 구분할 수 있다.

다시 제2도를 참조하면, 제205단계는 분할된 구간이 안정구간인지 변화구간인지를 구분하는 단계로서, 안정구간인 경우에는 제206단계로 진행하고 그렇지 않은 경우에는 제208단계로 진행한다. 제206단계는 안정구간에서의 특징점은 산출하는 단계이다. 여기서 산출되는 특징점은 적어도 하나 이상이 되며, 특징점을 그 다음에 이어지는 신호들이 특징점에서와 유사한 특징계수를 가짐을 의미하게 된다. 따라서, 특징점이 되는 기준은, 먼저 안정구간의 시작절이 될 수 있다. 그 다음의 특징점은 그 이전에 설정된 특징점으로부터 음성 특징의 변화량을 누계하여 그 누계량이 소정치 이상이 되는 점으로 결정하게 된다. 제8도는 이와 같은 방법으로 설정된 특징점들을 나타낸 것으로 경계선들(C1,C2,C3,C4)에 해당되는 싯점들이 각각 변화구간에서의 특징점들이 된다. 여기서 경계선(C4)은 제7도의 경계선(B2)와 일치하게 된다. 제9도는 제8도에서 경계선(C3)에 인접된 부분에서의 재료 음성이 나타내는 파형으로서, 특징점을 전후로 해서 파형의 특징이 달라짐을 알 수 있다.

다시 제2도를 참조하면, 제207단계는 특징계수를 저장하는 단계이고, 제208단계는 파형 데이타를 저장하는 단계이다. 이를 좀 더 구체적으로 설명하면, 안정구간인 경우에는 특징점에서의 특징계수들과 그 다음 특징점까지의 기간 즉 지속 기간이 저장된다. 다만 마지막 특징점인 경우에는 지속 기간으로서 0이 저장된다. 이에 반하여 변화구간인 경우에는 변화구간이 지속되는 기간과 변화구간에 해당되는 재료 음성의 파형 데이타가 저장된다. 여기서 파형 데이타는 결국 디지탈로 변환된 음성 데이타라 볼 수 있다. 제10a도 및 제10b도는 이와 같은 데이타 저장 포맷의 일실시예를 나타낸 것으로서, 특히 제10a도는 변화구간에서의 데이타 저장 포맷을 나타내고, 제10b도는 안정구간에서의 데이타 저장 포맷을 나타낸다. 도면에서 알 수 있는 바와 같이 각 데이타 저장 포맷은 그 데이타가 변화구간에 해당되는 데이타인지 안정구간에 해당되는 데이타인지를 식별하기 위한 플래그를 포함하게된다. 특히 도면에서 플래그는 "0"인 경우에 변화구간을 나타내고 "1"인 경우에 안정구간을 나타내고 있다.

제11도를 참조하면, 제501단계는 문장을 입력하는 단계이고, 제502단계는 입력된 문장을 분석하는 단계이다. 이는 언어학적 처리부에서 수행되는 단계로서, 각 언어가 가지는 특성에 따라 문장으로부터 음조정보를 추출하게 된다.

제503단계는 문장을 발음표기로 변환시키는 단계이고, 제504단계는 발음표기를 다시 음성 합성 단위로 표기하는 단계이다. 제505단계는 제504단계에서 얻어진 음성 합성 단위들에 대응되는 데이타를 메모리를 탐색하여 그로부터 독출하는 단계이다. 여기서 메모리로부터 독출된 데이타는 문장 순서에 배열되어 있다. 그런 다음 상기 제502단계에서 얻어진 음조 정보에 따라 음조 조정을 제506단계에서 수행한다. 제507단계는 메모리로부터 독출된 데이타들의 플래그를 검사하여 그 데이타가 안정구간에 대응되는 데이타인지 아니면 변화 구간에 대응되는 데이타인지를 판별한다. 그리하여, 안정구간인 경우에는 제508단계를 진행하여 선형 예측 필터에 의하여 음성 신호를 합성하고 변화구간인 경우에는 제509단계로 진행하여 파형 데이타를 음성 신호를 변환시킨다.

제12도는 제11에 도시된 음조 조정 과정에 앞서 실시될 수 있는 보간 과정을 나타낸 순서도이다.

제12도에 있어서, 제601단계는 안정구간인지 변화구간인지를 판단하는 단계로서, 안정구간인 경우에는 제602단계로 진행하여 합성 단위 경계인지 아닌지를 판단하게 된다. 그리하여 안정구간이고 합성 단위의 경계인 경우에 한하여 제603단계로 진행하여 중간값을 결정하게 된다. 즉 다음에 이어지는 음성 합성 단위의 특징계수들을 참고하여 특징계수들의 중간값을 결정하게 된다. 제604단게는 안정구간인 경우에 수행되는 단계로서, 상기 제603단계에서 결정된 중간값 또는 저장된 특징계수 및 다음에 이어지는 특징계수들을 지속 시간에 근거하여 선형 보간을 수행하게 된다.

이상에서 설명한 바와 같이 본 발명은 음성 합성 단위를 구성하는 방법 및 그에 상응하는 문장 음성 합성방법을 제공하는 것으로, 적은 메모리를 사용하여 음성 합성 단위의 데이타 베이스를 구축할 수 있으면서도 합성 음질을 향상시킬 수 있는 효과가 있다.

Claims

문장 음성 합성에 있어서, 재료 음성을 프레임으로 분할하여 특징계수들을 산출하는 과정; 상기 재료 음성을 합성 단위의 음성으로 분할하는 과정; 상기 특징계수들을 근거하여 상기 합성 단위 음성이 지속되는 기간을 안정구간 및 변화구간들로 분할하는 과정; 상기 안정구간에서 그에 해당되는 특징계수들에 근거하여 적어도 하나 이상의 특징점에 추출하는 과정; 상기 합성 단위 음성을 기록하는 것으로서, 변화구간인 경우에는 그의 파형 데이타를 기록하고, 안정구간인 경우에는 추출된 각 특징점에서의 특징계수들과 그의 지속기간을 기록하며, 동시에 변화구간 및 안정구간임을 구별하는 플래그를 함께 기록하게 되는 과정을 구비하는 것을 특징으로 하는 음성 합성 단위를 구성하는 방법.
제1항에 있어서, 상기 특징계수를 추출하는 과정은 선형 예측 필터를 이용하여 로그 면적비(log area ratio), 피치(pitch) 및 에너지를 추출하는 것을 특징으로 하는 음성 합성 단위를 구성하는 방법.
제2항에 있어서, 상기 안정구간 및 변화구간들로 분할하는 과정은 에너지가 소정값 이하이고 피치가 검출되지 않는 구간 또는 상기 로그 면적비의 단위 시간당 변화량이 소정값 이상인 경우를 변화구간으로 결정하고, 그렇지 않은 구간을 안정구간으로 결정하는 것을 특징으로 하는 음성 합성 단위를 구성하는 방법.
문장 음성 합성에 있어서, 문장으로부터 음조 데이터를 추출하는 과정; 문장을 발음표기로 변환시키는 과정; 상기 발음 표기를 합성 단위 표기로 변환시키는 과정; 상기 합성 단위 표기에 대응되는 음성 합성 단위 데이타들을 메모리로부터 독출하는 것으로, 음성 합성 단위 데이타는 안정구간인지 변화구간인지를 나타내는 플래그와 함께 안정구간인 경우에는 파형 데이타를 포함하고 변화구간인 경우에는 특징계수들 및 지속 시간을 포함하게 되는 과정; 독출된 음성 합성 단위 데이타들 및 상기 음조 데이타에 근거하여 음성 신호를 합성하여 출력하는 것으로, 변화구간인 경우에는 파형 데이타에 따른 음성 신호를 출력하고, 안정구간인 경우에는 상기 특징계수들에 의하여 제어되는 선형 예측 필터를 통하여 해당 지속시간동안 음성 신호를 출력하게 되는 음성 합성 과정을 구비하는 것을 특징으로 하는 문장 음성 합성 방법.
제4항에 있어서, 상기 음성 합성 과정에 앞서 메모리로부터 독출된 음성 합성 단위 데이타를 보간하는 과정을 더 구비하는 것을 특징으로 하는 문장 음성 합성 방법
제5항에 있어서, 상기 보간 과정은 안정구간인질 변화구간인지를 판별하는 과정; 안정구간인 경우 합성 단위의 경계인지 아닌지를 판별하여, 합성 단위의 경계인 부분에서 중간값을 결정한 후 선형 보간하는 과정을 구비하는 것을 특징으로 하는 문장 음성 합성 방법.