KR950012362B1

KR950012362B1 - 위상잡음 첨가에 의한 고음질 음성합성장치

Info

Publication number: KR950012362B1
Application number: KR1019920022910A
Authority: KR
Inventors: 이윤근
Original assignee: 엘지전자주식회사; 구자홍
Priority date: 1992-11-30
Filing date: 1992-11-30
Publication date: 1995-10-17
Also published as: KR940012237A

Abstract

내용 없음.

Description

위상잡음 첨가에 의한 고음질 음성합성장치

제1도는 종래의 파워 스펙트럼 엔벨로프를 이용한 음성합성장치의 구성도.

제2도는 여성 음성 "아"에 대한 자연음, 합성음 및 위상잡음이 첨가된 합성음 각각에 대한 스펙트럼을 나타낸 도면.

제3도는 본 발명의 위상잡음 첨가에 의한 고음질 음성합성장치의 구성도.

제4도는 본 발명의 위상잡음 첨가에 의한 고음질 음성합성방법을 설명하기 위한 플로우 챠트.

제5도는 본 발명의 주파수에 대한 위상잡음의 표준편차를 나타낸 도면.

* 도면의 주요부분에 대한 부호의 설명

31 : 인터페이스 회로 32 : 중앙처리장치

33 : 롬 34 : 잡음 발생기

35 : 램 36 : 디지탈-아나로그 변환기

37 : 증폭기 38 : 스피커

본 발명은 고음질 음성합성에 관한 것으로, 특히 합성음에 위상잡음을 첨가하여 합성음의 자연도를 향상시킬 수 있는 위상잡음 첨가에 의한 고음질 음성합성장치에 관한 것이다.

통상, 파워 스펙트럼 엔벨로프(Power Spectrum envelope)를 이용한 음성합성방법은 특정 음성의 파워 스펙트럼 엔벨로프를 저장하였다가 역고속 프리에 변환(Inverse Fast Fourier Transform)에 의해 음성을 합성하는 방법이다.

제1도는 종래의 파워 스펙트럼 엔벨로프를 이용한 음성합성장치의 구성도를 도시한 것이다.

종래의 파워 스펙트럼 엔벨로프를 이용한 음성합성장치는 입력문자에 해당하는 음성의 파워 스펙트럼 엔벨로프, 피치(Pitch) 및 에너지 정보를 저장하고 있는 데이타 베이스를 내장하고 있는 롬(11)과, 데이타 버스로부터 인가된 파워 스펙트럼 엔벨로프 정보를 프리에 변환하기 위한 고속 프리에 변환기(FFT : 12)와, 데이타 버스로부터 피치 데이타를 추출하기 위한 피치 콘트롤러(13)와, 상기 고속 프리에 변환기(12)로 부터 인가된 피치 음성정보를 피치 콘트롤러(13)에서 인가되는 피치의 주기만큼 이동시킨후 이들을 가산하기 위한 시프트 및 가산기(14)와, 상기 시프트 및 가산기(14)의 출력과 데이타 베이스로 부터 인가되는 에너지 정보를 곱하여 최종적으로 음성신호를 출력하기 위한 송수기(15)로 이루어졌다.

이와같이 구성된 종래 파워 스펙트럼 엔벨로프를 이용한 음성합성장치의 동작을 설명하면 다음과 같다.

문자가 입력되면 입력문자에 해당하는 음성의 파워 스펙트럼 엔벨로프 정보 및 피치(Pitch)와 에너지 정보를 음성 데이타 베이스로부터 추출한다.

이때, 파워 스펙트럼 엔벨로프 정보는 프레임 단위로 데이타 베이스에 저장되어 있는데, 여기서 프레임이란 음성신호를 임의의 짧은구간으로 나눈 단위로서, 음성분석의 기본단위이다.

롬(11)내의 음성 데이타 베이스로부터 추출된 제1a도와 같은 파워 스펙트럼 엔벨로프 정보는 고속 프리에 변환기(12)를 통해 제1b도와 같이 변환되어 한 피치의 음성신호가 얻어진다.

고속 프리에 변환기(12)를 통해 출력된 한 피치의 음성신호는 피치 콘트롤러(13)에서 제공된 피치 주기만큼 시프트 및 가산기(14)를 통해 가산되어 제1c도와 같이 출력된다.

이러한 과정을 프레임을 증가시켜 가며 마지막 프레임까지 수행하고, 데이타 베이스로부터 인가되는 에너지 정보와 승수기(Multipier)(15)를 통해 공급하여져서 최종적으로 원하는 음성신호가 얻어진다.

상기한 파워 스펙트럼 엔벨로프 음성합성기를 이용하여 자연음을 분석하여 보면 위상잡음이 포함되어 있음을 알 수 있다.

그러나 합성음의 경우 위상이 모두 일정하게 주어지므로 기계적인 단조로운 음성이 되는 문제점이 있었다.

제2도는 여성음성 "아"의 스펙트럼을 도시한 것으로서, (a)는 자연음의 스펙트럼을 나타낸 것이고, (b)는 위상잡음이 포함되지 않은 합성음의 스펙트럼이며, (c)는 본 발명에 따른 음성합성장치에 의한 합성음의 스펙트럼을 각각 도시한 것이다.

도면에서, 가로축은 시간을 나타내며, 세로축은 주파수를 나타내며, 화면의 전하기가 합성음의 크기를 나타낸다.

제2b도에서 보는 바와 같이 위상잡음이 첨가되지 않은 합성음은 제2a도의 자연음과는 달리 기계적인 단조로운 음성임을 알 수 있다.

따라서 본 발명의 목적은 입력된 문자의 파워 스펙트럼 엔벨로프 정보에 위상잡음을 첨가시켜 줌으로써 자연도가 향상된 합성음을 얻을 수 있는 고음질 음성합성장치를 제공함에 있다.

이와같은 본 발명의 목적을 달성하기 위한 기술적 수단은 음성 알고리즘이 프로그램화되어 있고 입력된 문자에 대한 파워 스펙트럼 엔벨로프 정보가 저장된 데이타 베이스를 내장하고 있는 롬과; 잡음을 발생하기 위한 잡음 발생기와, 상기 잡음 발생기에서 발생한 잡음에 위상잡음을 첨가하고 인터페이스회로를 통해 입력된 문자에 대한 파워 스펙트럼 엔벨로프 정보를 롬에서 읽어들여 상기 위상잡음과 함께 역 고속 프리에 변환시켜 주며, 상기 롬에서 읽어들인 피치의 주기만큼 프리에 변환된 한 피치의 음성신호를 시프트시킨 후 이들을 가산하고, 최종 프레임까지 합성된 음성정보에 롬에서 읽어들인 에너지 정보를 승수하여 위상잡음이 첨가된 음성합성신호를 출력하기 위한 중앙처리장치와; 상기 중앙처리장치가 롬내에 프로그램되어 있는 알고리즘에 따라 위상잡음의 첨가 수행시 데이타를 저장하기 위한 램과; 상기 중앙처리장치에 의해 합성된 디지탈 음성신호를 아나로그 신호로 변환시켜 증폭기 및 스피커를 순차 통해 출력될 수 있도록 증폭기에 인가하는 디지탈/아날로그 변환기로 이루어진다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면에 의거하여 상세히 설명하면 다음과 같다.

제3도는 본 발명의 위상잡음 첨가에 의한 고음질 음성합성장치의 구성도를 도시한 것이다.

본 발명의 고음질 음성합성장치는 입력된 문자를 데이타 버스를 통해 중앙처리장치(32)에 인가하기 위한 인터페이스회로(31)와; 음성합성 알고리즘이 프로그램되어 있고 입력된 문자에 대한 파워 스펙트럼 엔벨로프, 피치 및 에너지 정보가 저장된 음성 합성 데이타 베이스가 내장되어 있는 롬(33)과; 상기 롬(33)에 내장되어 있는 알고리즘에 따라 잡음 발생기(34)에서 발생된 잡음에 위상잡음을 첨가하고, 롬(33)의 데이타 베이스로부터 파워 스펙트럼 엔벨로프 정보와 위상잡음을 역 고속 프리에 변환시켜 주며 롬(33)의 데이타 베이스로부터의 피치주기만큼 프리에 변환된 한 피치의 음성신호를 이동시킨후 이들을 가산하고 가산된 음성합성신호에 롬(33)의 데이타 베이스로부터의 에너지 정보를 승수하여 음성합성신호를 출력하기 위한 중앙처리장치(32)와; 상기 중앙처리장치(32)가 롬(33)내에 프로그램되어 있는 알고리즘의 수행시 데이타를 저장하기 위한 램(35)과, 중앙처리장치(32)에 의하여 합성된 음성신호를 아나로그 신호를 바꾸어 주기 위한 디지탈-아나로그 변환기(36)와, 상기 디지탈-아날로그 변환기(36)로부터 출력된 음성에 대한 아나로그 신호를 증폭하여 주기 위한 증폭기(37)와, 증폭기(37)를 통해 증폭된 신호를 음성신호로 바꾸어 주기 위한 스피커(38)로 이루어졌다.

상기와 같이 구성된 본 발명의 위상잡음 첨가에 의한 고음질 음성합성장치의 작용 및 효과를 첨부한 도면 제4도에 의거 상세히 설명한다.

제4도는 위상잡음을 첨가하여 고음질의 음성을 합성하는 순서를 도시한 플로우 챠트이다.

먼저, 문자가 입력되면 입력된 문자의 아스크(ASC Ⅱ)값이 데이타 버스를 통해 중앙처리장치(32)로 전달된다.

중앙처리장치(32)는 상기 아스키값에 해당하는 음성을 합성하기 위한 롬(31)에 저장되어 있는 음성합성 프로그램을 수행하는데, 음성신호를 합성하는 과정을 제4도를 참조하여 상세히 설명한다.

먼저, 문자가 인터페이스회로(31)에 입력되면 중앙처리장치(32)의 입출력선택단자(I/O)가 입력선택되어 데이타 버스를 통해 중앙처리장치(32)에 입력되고, 입력문자에 해당하는 파워 스펙트럼 엔벨로프 정보를 롬(33)의 데이타 베이스로부터 읽어온다.

이때, 데이타 베이스에 저장되어 있는 각 문자에 대한 파워 스펙트럼 엔벨로프 정보는 프레임 단위로 저장되어 있으며, 상기에서 읽어들인 파워 스펙트럼 엔벨로프 정보에는 위상 정보가 첨가되어 있지 않다.

그러므로, 합성음의 자연도를 높이기 위하여 위상정보를 첨가하는데, 잡음발생기(34)로부터 발생된 잡음신호는 중앙처리장치(32)에 인가되고, 중앙처리장치(32)는 제5도에 도시된 바와 같은 표준편차를 갖도록 만든다.

이러한 잡음발생기는 랜덤 넘버 제너레이터(Random Number Generator)로서 잡음신호는 랜덤 넘버 시퀀스를 갖는다.

이때, 제5도에 도시되어 있는 위상잡음신호의 표준편차는 자연음을 분석하여 얻은 값이다.

발생된 잡음(Random Number)을 No(t), 그의 표준편차를 σ(No(t))이라 하자.

위상잡음이 제5도에 도시된 바와 같은 특성을 가지므로 각 주파수 성분에 따라 N(t)의 크기를 결정해준다.

즉, 주파수 성분 f_s에 포함될 위상잡음은 다음과 같은 식으로 표현된다.

N(t)f_of_s=A_s(f)×N_o(t)

여기서, A_s(f)는 스케일링(Scaling) 계수로서 제5도에 나타낸 바와 같이 위상잡음 N(t)f_of_s의 표준편차가 σf_of_s의 값을 갖도록 조절해준다.

즉, 상기한 바와 같이 각 주파수 성분마다 첨가될 위상잡음의 크기를 스케일링 계수로써 조절해 줌으로써 그 표준편차의 분포를 제5도와 같이 만들어 줄 수 있다.

상기와 같은 잡음신호에 위상정보를 첨가하여 위상잡음을 형성하고, 상기 롬(31)으로 부터 읽어들인 파워 스펙트럼 엔벨로프와 제5도와 같은 표준편차를 갖는 위상잡음을 역고속 프리에 변환하면 한 피치 구간의 음성정보가 얻어진다.

상기 음성 주파수 영역(Domain)에서의 표현을 파워 스펙트럼 엔벨로프와 위상정보 θ로 나타낼 수 있다.

즉, 파워 스펙트럼 엔벨로프와 위상정보 θ의 주파수 성분에 대한 정보를 프리에 변환하여주면 음성신호를 얻을 수 있는데, 이때, 위상정보θ에 상기한 과정에서 얻은 위상잡음정보를 첨가하여 프리에 변환하면 위상잡음이 첨가된 음성신호가 얻어진다.

이 위상잡음이 첨가된 신호를 피치 주기만큼 이동시킨 후 더하여 주고, 마지막 프레임까지 진행한다.

마지막 프레임까지 피치 가산동작을 수행한 후 가산된 피치정보에 롬(33)의 데이타 베이스로부터 인출한 에너지 정보를 승수하여 주면 최종적으로 얻고자 하는 위상잡음이 첨가된 합성음을 얻을 수 있게 된다.

이 위상잡음이 첨가된 합성음은 중앙처리장치(32)의 출력단자 선택시 디지탈-아나로그 변환기(36)를 통해 아나로그 신호로 변환되고, 이 아나로그 신호는 증폭기(37)를 통해 증폭된 후 스피커(38)를 통해 자연도가 향상된 음성신호로 출력된다.

상기한 바와 같이 본 발명에 따르면, 기존의 합성음에 위상잡음을 첨가하여 합성하여 줌으로써 합성음의 자연도를 향상시킬 수 있다.

Claims

음성 알고리즘이 프로그램화되어 있고, 입력된 문자에 대한 파워 스펙트럼 엔벨로프 정보, 피치 주기 정보, 에너지 정보가 저장된 데이타 베이스를 내장하고 있는 롬과; 잡음을 발생하기 위한 잡음 발생기와; 상기 잡음 발생기에서 발생한 잡음에 하기식과 같은 위상잡음(N(t)_fofs)을 첨가하고 인터페이스회로를 통해 입력된 문자에 대한 파워 스펙트럼 엔벨로프 정보를 롬에서 읽어들여 상기 위상잡음과 함께 역 고속 프리에 변환시켜 주며, 상기 롬에서 읽어들인 피치의 주기만큼 프리에 변환된 한 피치의 음성신호를 시프트시킨 후 이들을 가산하고, 최종 프레임까지 합성된 음성정보에 롬에서 읽어들인 에너지 정보를 승수하여 위상잡음이 첨가된 음성합성신호를 출력하기 위한 중앙처리장치와; 상기 중앙처리장치에 의해 합성된 디지탈 음성신호를 아나로그 신호로 변환시켜 증폭기 및 스피커를 순차 통해 출력될 수 있도록 증폭기에 인가하는 디지탈/아나로그 변환기를 포함하여 구성된 것을 특징으로 하는 위상잡음 첨가에 의한 고음질 음성합성장치.

N(t)_fofs=As(f) * No(t)

여기서, No(t)=잡음 발생기에서 발생된 잡음, As(f)=스케일링 계수.