KR960007128B1

KR960007128B1 - 음성합성 시스템의 논-제로 위상 복원 방법

Info

Publication number: KR960007128B1
Application number: KR1019930005176A
Authority: KR
Inventors: 이윤근
Original assignee: 엘지전자주식회사; 구자홍
Priority date: 1993-03-30
Filing date: 1993-03-30
Publication date: 1996-05-27
Also published as: KR940022369A

Abstract

내용 없음.

Description

음성합성 시스템의 논-제로 위상 복원 방법

제 1 도는 종래의 제로 위상 복원 방법에 의한 음성 대칭 파형 생성 과정을 보인 흐름도.

제 2 도는 종래의 음성 파형 합성 방법을 설명하기 위한 파형도.

제 3 도는 본 발명이 적용되는 음성 합성 시스템의 하드웨어 블럭도.

제 4 도는 본 발명의 논-제로 위상 복원 방법에 의한 음성 파형 생성 과정을 보인 흐름도.

제 5 도는 본 발명의 웨이팅 과정을 설명하기 위한 파형도.

제 6 도는 본 발명의 음성 합성 방법을 보인 흐름도.

* 도면의 주요부분에 대한 부호의 설명

1 : 중앙 처리 장치 2 : 롬

3 : 램 4 : 입력 인터페이스부

5 : 디지탈/아날로그 변환부 6 : 증폭부

7 : 스피커

본 발명은 음성 합성에 관한 것으로, 특히 위상 정보를 0이 아닌 임의의 값으로 주어 제로 위상 복원을 할 경우 파형 중심에서 나타나는 이상 피크값에 의해 음질이 저하되는 현상을 해결하고 음질을 향상시킬 수 있도록 한 음성 합성 시스템의 논-제로 위상 복원 방법에 관한 것이다.

종래 일본에서 발표된 음성 합성 시스템은 대칭 파형을 연결시켜 음성 합성을 하는 기술이다.

제 1 도는 종래의 음성 합성 시스템에서 음성 신호를 분석하여 대칭 파형을 만드는 과정을 설명한 흐름도이다.

먼저, 입력된 음성 신호로부터 스펙트럼 포락선(Spectrum Envelope)을 구한다.

본래의 음성 신호를 복원하기 위해서는 스펙트럼 포락선과 위상 정보가 있어야 하는데, 위상 정보는 추출과정이 어렵고 대칭 파형 연결 과정에서 위상 동기를 고려해야 하는 등 처리과정이 복잡한 반면, 인간의 귀는 위상 정보에 둔감하므로 위상 정보를 모두 제로(0)로 처리한다.

이와같이 위상 정보를 "0"로 만든후 음성 파형은 역고속 푸리에 변환(Inverse Fast Fourier Transform)하면 음성 파형이 코사인(cosine) 함수의 합으로만 표현되므로 대칭 파형이 얻어진다.

이때 상기 대칭 파형은 중심부에서 비정상적인 피크(Peak)가 발생되므로 이를 없애기 위해 파형 수정 작업을 하여 피크값을 임의로 변환(감소)시킨다.

그후 파형의 양쪽 끝을 0로 만드는 웨이팅(Weighting)과정을 수행하면 원하는 대칭 파형을 얻을 수 있고, 이 대칭 파형을 ADPCM(Adaptive Differential Pulas Code Modulation)하여 저장하였다가 필요한 파형을 연결하여 합성하면 음성을 만들어 낼 수 있다.

상기와 같이 대칭 파형을 연결하여 음성을 합성하는 방법을 제 2 도의 파형도에 나타내었다.

그러나 이러한 제로 위상 복원 방법에 의하면, 음성 파형이 코사인 합수의 합으로 표현되므로 대칭 파형이 얻어지고, 코사인 함수는 t=0에서 피크값을 갖는 특성이 있으므로 음성 신호에 포함되어 있던 노이즈가 본래의 랜덤 (random) 위상 특성을 잃고 t=0에서 피크 값을 나타내어 비정상적인 피크가 형성된다.

종래에는 이 피크를 없애기 위해 파형 수정 과정을 수행하였으나, 이 방법은 피크값을 임의로 감소시키는 방법으로 이 방법에 의하면 본래의 음성 신호 특성까지 잃어버리는 경우가 생기므로 합성 음성이 저하되어 울림 소리가 출력되는 문제점이 있었다.

본 발명은 상기와 같은 종래의 문제점을 해결하기 이한 것으로, 본 발명의 목적은 입력된 음성 신호로부터 음성 파형 정보를 추출할때 주파수 포락선에 위상 정보로서"0"이 아닌 임의의 값을 더해준 후 역푸리에 변환하여 노이즈의 피크로 인한 음질 저하 현상을 방지할 수 있도록 한 음성 합성 시스템의 논-제로 위상 복원 방법을 제공하는데 있다.

이하, 첨보된 제 3 도 내지 제 6 도를 참조하여 본 발명의 실시예를 상세히 설명하면 다음과 같다.

제 3 도는 본 발명의 논-제로(non-zero) 위상 복원 방법이 적용되는 음성 합성 시스템의 하드웨어 블럭도이다.

이에 도시된 바와같이, 음성 합성 시스템은 음성 합성에 관련된 시스템의 전체 동작을 제어하는 중앙 처리장치(1)와, 중앙 처리 장치(1)에서 수행할 음성 합성 프로그램과 음성 디베이스(Data base)를 저장하고 있는 롬(ROM ; 2)과, 중앙 처리 장치(1)의 어드레스 지정에 따라 처리중인 데이타를 일시 저장하고 저장된 내용을 출력하는 램(RAM ; 3)과, 입력된 문자 정보를 중앙 처리 장치(1)에 전달해 주는 입력 인터페이스부(4)와, 중앙 처리 장치(1)에서 합성되어 출력된 음성 데이타를 아날로그 신호로 변환하는 디지탈/아날로그 변환부(5)와 디지탈/아날로구 변환부(5)의 출력 신호를 스피커를 구동시킬 수 있는 레벨로 증폭하는 증폭부(6), 증폭부(6)에서 출력된 전기적인 신호를 음성으로 바꾸어 출력하는 스피커(7)로 구성되어 있다.

여기서, 본 발명의 음성 합성 알고리즘은 롬(2)에 프로그램되어 있어 중앙 처리 장치(1)가 이것을 읽어들여 수행하게 되고, 음성 디 베이스도 롬(2)에 저장되어 여기에 음성 파형들이 저장된다.

제 4 도는 본 발명의 논-제로 위상 복원 방법에 의한 음성 파형 생성 과정을 설명한 흐름도이다.

먼저, 음성 신호가 입력되면 이 신호를 분석하여 주파수 포락선을 구하고, 상기 주파수 포락선에 위상 정보로서 π/2를 가한다.

이 때 위상 정보는 반드시 π/2를 더 해줄 필요는 없으나 "0"이 아닌 임의의 값중에서 이 값이 가장 적당하다.

π/2의 위상 정보를 가한 후 음성 신호를 역 푸리에 변화하면 음성 신호가 사인(sine) 함수의 합으로만 나타나는데, 사인 함수는 코사인 함수처럼 t=0에서 피크를 갖지 않고 t-(1/4)f에서 피크를 가지므로 각각의 주파수 성분에 따라 f값이 변하여 피크가 더해지는 위치가 변하게 된다.

그러므로 종래의 제로 위상의 경우처럼 노이즈의 피크가 중심부(t=0)에 집중되어 나타나는 현상이 생기지 않는다.

음성 신호를 역 푸리에 변환한후에는 웨이팅 작업을 수행하는데, 이 작업은 제 5 도에 도시된 바와같이 음성 신호 파형에 웨이팅 함수를 곱하여 음성 파형이 양쪽끝이 점차로 줄어드는 파형을 얻게 된다.

이와같은 과정을 수행하여 얻은 모든 음소의 음성 파형들은 ADPCM 코딩되어 롬(2)의 음성 디베이스에 저장된다.

제 6 도는 본 발명에 의해 만들어진 음성 파형을 연결하여 음성을 합성하는 방법을 보인 흐름도이다.

입력 인터페이스부(4)를 통해 문자가 입력되면, 중앙 처리 장치(1)는 롬(2)의 어드레스를 지정하여 입력된 문자에 해당하는 음성 파형을 음성 디베이스로부터 읽어온다.

읽어온 음성 파형은 제 2 도에 도시된 것처럼 피치(PITCH) 주기만큼 이동시켜 더해주는데, 이때 피치 정보는 음성 디베이스에 미리 저장되어 있던 값을 읽어들여 사용하거나, 또는 중앙 처리 장치(1)에서 일정한 규칙에 따라 만들어 사용하게 된다.

음성 파형을 이동시켜 더하는 작업을 마지막 프레임까지 수행한 후, 롬(2)의 디베이스에 미리 저장된 이득을 곱하여 출력하므로서 합성된 음성신호가 얻어진다.

중앙 처리 장치(1)는 합성된 음성 파형을 디지탈/아날로그 변환부(5)에 의해 아날로그 신호로 변환하고, 증폭부(6)로 인가하여 증폭한 후 스피커(7)로 출력하게 된다.

이상에서와 같이 본 발명은 음성 파형을 생성할때 위상 정보를 0이 아닌 임의의 값으로 주므로 종래의 제로 위상 복원법에 의한 합성 음성에서 나타나는 음질 저하 현상을 없앨 수 있는 효과가 있다.

Claims

입력된 음성 신호를 분석하여 주파수 포락선을 구하는 단계와, 상기 주파수 포락선에 "0"이 아닌 임의의 값을 위상 정보로 더하는 단계와, 위상 정보가 더해진 신호를 역 푸리에 변환하는 단계와, 변환된 음성 신호 파형의 양끝을 0으로 만드는 웨이팅 단계와, 상기 단계들을 수행하여 만든 모든 음소의 음성 신호 파형을 ADPCM 코딩하여 저장하는 단계로 이루어짐을 특징으로 하는 음성 합성 시스템의 논-제로 위상 복원 방법.
제 1 항에 있어서, 상기 주파수 포락선에 π/2를 위상 정보로서 더해 주도록 한 것을 특징으로 하는 음성 합성 시스템의 논-제로 위상 복원 방법.