KR950009327B1

KR950009327B1 - 음성합성기 및 음성합성 방식

Info

Publication number: KR950009327B1
Application number: KR1019920015500A
Authority: KR
Inventors: 이윤근
Original assignee: 주식회사금성사; 이헌조
Priority date: 1992-08-27
Filing date: 1992-08-27
Publication date: 1995-08-19
Also published as: KR940004526A

Abstract

내용 없음.

Description

음성합성기 및 음성합성 방식

제1도는 종래 기술에 의한 음성합성기의 블록도.

제2도는 종래 기술에 의한 음성합성기의 포맷 합성회로의 구성도.

제3도는 종래 기술에 의한 음성합성기의 엘피씨 합성회로의 구성도.

제4도는 본 발명에 의한 음성합성기의 블록도.

제5도 (a) 내지 (c)는 본 발명에 의한 음성합성기의 일부 신호의 스펙트럼 특성을 보인 파형도.

제6도는 본 발명에 의한 음성합성기의 유성음과 무성음에 따른 그로탈 펄스 및 잡음신호를 보인 파형도.

제7도는 본 발명에 의한 음성합성 동작 흐름도.

* 도면의 주요부분에 대한 부호의 설명

41 : 음성 파라메터 디베이스 42 : 사인파 테이블

43 : 팩터 곱셈부 44 : 가산기

45 : 곱셈기 46 : 글로탈 펄스 테이블

47 : 디지탈 /아날로그 변환기 48 : 증폭기

49 : 스피커

본 발명은 음성합성기에 관한 것으로, 특히 종래 음성합성기에 사용되는 고속도의 디지탈 신호처리(DSP) 칩 및 고속도 메모리를 사용하지 않고서 연산량을 줄여 피씨(개인용 컴퓨터)의 소프트웨어 또는 일반 마이컴(MICOM)을 이용하여 실시간적으로 음성합성을 할 수 있도록 한 음성합성기 및 음성합성 방식에 관한 것이다.

종래 기술에 의한 음성합성기는 제1도에 도시된 바와같이 입력 문자에 따라 유성음과 무성음을 선택하는 스위치(1)와, 상기 입력 문자에 따라 음성 파라메터(parameter)를 발생시키는 음성 파라메터 디베이스(2)와, 그 음성 파라메터 디베이스(2)의 출력신호를 입력받아 상기 스위치(1)의 유성음/무성음 선택에 따른 음성출력을 하는 합성회로(3)로 구성된다.

여기서, 종래에는 상기 음성합성회로(3)로서 디지탈신호처리기(DSP)등 전용칩을 사용하였는데, 포만트 필터(Formant Filter) 또는 LPC 디코더등을 이용하여 음성합성을 하도록 되어 있다.

이와같은 종래 기술에 의한 포맷 합성회로는, 제2도에 도시된 바와같이 동일구성으로 이루어진 3단의 필터(filter1-filter3)(11-13)로 이루어진다. 상기 제1필터(filter1)는, 입력신호(glottal pulse)에 소정팩터를 곱하는 제1곱셈기(A1)와, 출력신호를 단계적으로 지연시키는 두개의 지연기(Z^-1), (Z^-2)와, 그 지연기(Z^-1), (Z^-2)의 출력을 각각 소정팩터를 곱하는 제2, 제3곱셈기(B1), (C1)와, 상기 3개의 곱셈기(A1, B1, C1)의 출력신호를 합성하여 상기 지연기(Z^-1)에 피드백시킴과 아울러 다음단에 출력하는 가산기( AND)와로 구성된다. 제2필터는 제1필터로부터 입력을 인가받고, 각 곱셈팩터를 달리하여, 제3필터(3)는 제2필터(2)로부터 입력을 인가받고, 곱셈필터를 달리하며 최종 출력신호로 음성출력을 하도록 구성된다.

한편, 엘피씨(LPC)음성합성회로는, 제3도에 도시된 바와같이 입력신호(임펄스; Impulse)에 피드백신호를 가산하여 음성출력하는 제1가산기(21)와, 그 제1가산기(21)의 출력신호를 단계적으로 지연시키는 6개의 지연기(31-36)와, 그 지연기(31-36)의 각 출력신호를 각기 소정 곱셈팩터(-α₁∼-α₆)를 곱하는 곱셈기(41∼46)와, 그 곱셈기(41∼46)의 출력신호를 모두 합산하여 상기 제1가산기(21)에 피드백신호로 인가시키는 제2가산기(22)로 구성된다.

이와같이 구성된 종래 기술에 의한 음성합성기는, 문자 입력이 들어오면, 그 문자 정보에 해당하는 음성 파라메터(포만트 정보 또는 LPC coefficient)에 의해 필터특성 즉, 곱셈팩터(A1, B1, C1∼A3, B3, C3 또는 -α₁∼-α₆)가 결정된다. 이에따라 그 필터에 의해 유성음인 경우 그로탈 펄스(glottal pulse) 또는 임펄스(impulse), 무성음인 경우에 잡음(noise)가 필터링되면, 입력 문자에 해당되는 음성신호가 출력된다.

그런데, 제2도 및 제3도에 도시된 바와같이 음성합성회로는, 많은 곱셈과 지연 연산을 하도록 이루어져 있다.

즉, 포맷 합성회로(제2도)인 경우에는 3번의 곱셈과 2번의 지연을 3개의 필터부(11-13)에서 각각 수행해야 한다. 한편, 엘피씨(LPC) 합성회로에서는 2번의 곱셈 및 2번의 지연을 3차수에 걸쳐 수행한다.

통상적으로 음성합성시에 실시간적인 음성합성이 이루어지기 위해서는 상기와 같은 연산을 샘플링 시간(0.8msec∼1.25msec)내에 수행해야 한다. 그러므로, 상기와 같은 복잡한 연산을 실시간적으로 수행하기 위해서는 고속 디지탈신호처리기(DSP)와 메모리가 필요하게 된다.

따라서, 개인용 컴퓨터등에서 음성합성을 수행시키려면, 별도의 하드웨어가 필요하게 되고, 이와같은 하드웨어를 상기와 같이 고속 디지탈신호처리기(DSP) 및 고속메모리등을 사용하여 구성할 경우에 그 원가가 비싸진다는 문제점이 있다.

본 발명은 이와같은 문제점을 감안하여 고가인 디지탈신호처리기(DSP)를 사용하지 않고서도 사인파를 이용하여 음성합성을 실현시킴으로써, 개인용 컴퓨터등에서 저가로 음성합성을 실현할 수 있게한 음성합성기 및 음성합성 방식을 제공하기 위한 것이다.

이와같은 본 발명에 의한 음성합성기는 제4도에 도시된 바와같이 기 저장된 각 음소에 대한 포만트정보를 입력 문자에 따른 음소 포만트정보를 출력하는 음성 파라메터 베이스(41)와, 그 음성 파라메터 베이스(41)의 음소 포만트 주파수(f1-f3)를 사인(sin) 함수의 신호로 출력하는 사인파 테이블(42)과, 그 사인파 테이블(42)의 각 사인파신호와 상기 음성 파라메터 베이스(41)에서 출력되는 곱셈펙터(A1-A3)를 각기 곱하는 포맷곱셈부(43)와, 그 포맷곱셈부(43)의 각 곱셈기의 출력신호와 그로탈 계수(G; glottal coefficient)를 더하는 가산기(44)와, 유성음과 무성음에 따른 그로탈 펄스 w(t)와 잡음신호 n(t)를 선택출력시키는 글로탈 펄스 테이블(46)과, 그 글로탈 펄스 테이블(46)의 출력신호와 상기 가산기(44)의 출력신호를 곱하는 곱셈기(45)와, 그 곱셈기(45)의 출력신호를 아날로그 신호로 변환시키는 디지탈/아날로그 변환기(47)와, 그 디지탈/아날로그 변환기(47)의 출력신호를 증폭시켜 스피커(49)에 출력시키는 증폭기(48)로 구성된다.

이와같이 구성된 본 발명에 의한 음성합성기의 작용 및 효과를 설명하면 다음과 같다.

문자정보가 입력되면, 음성 파라메터 디베이스(41)에는 그 문자에 해당되는 음성 파라메터(포만트정보)를 디베이스로부터 읽어들여 출력한다.

그 음성 파라메터 디베이스(41)에서 출력된 포만트정보중 포만트 주파수(f1-f3)는 사인파 테이블(42)에 입력되어 사인 함수신호로서 출력된다.

그 사인 함수신호는 포만트곱셈부(43)에 입력되어 상기 음성 파라메터 베이스(41)에서 출력되는 곱셈팩터(A1-A3)와 각각 곱해진다. 이후, 그 포만트 곱셈부(43)에서 출력된 각 신호는 가산기(44)에서 모두 더해지는데, 이때 그 가산기(44)에서는 그로탈 계수(G)값도 함께 더해진다.

따라서, 상기 가산기(44)의 출력신호는 각 포만트 주파수에 해당하는 사인함수에 따라 임펄스 특징이 나타나며, 그로탈 계수(G)에 의해 직류성분이 포함된다. 즉, 가산기(44)의 출력신호는 제5도 (a)에 도시된 바와같은 스펙트럼 특성을 가지게 된다.

이와같이 얻어진 신호는 곱셈기(45)에서 제5도 (b)에 도시된 바와같은 스펙트럼 특성을 갖는 그로탈 펄스와 곱해진다. 이때 글로탈 펄스 테이블(46)에서는 유성음인 경우에는 제6도 (a)에 도시된 바와같은 파형의 그로탈 펄스 w(t)가 주기적으로 반복되면서 출력되고, 무성음인 경우에는 제6도 (b)에 도시된 바와같은 파형의 잡음신호 n(t)로 대체된다.

이에따라 곱셈기(45)의 출력신호는 상기 가산기(44)의 출력신호에 그로탈 펄스 w(t)를 곱한 형태로서 제5도 (c)에 도시된 바와같은 스펙트럼 특성을 갖는 신호가 출력된다.

그 곱셈기(45)의 출력파형은,

output=w(t)*[G+A1 sin(2πf₁t)+A1 sin(2πf₂t)+A1 sin(2πf₃t)]

의 주식으로 정의되며, 이에따라 포만트 주파수 f₁, f₂, f₃에서 공진 주파수 포만트를 갖는 음성신호가 얻어진다.

상기 곱셈기(45)의 출력신호는 디지탈/아날로그 변환기(47)를 거쳐 아날로그신호로 변환된후 증폭기(48)를 통해 증폭되어 스피커(49)에 음성신호로 출력된다.

이와같은 본 발명은 상기와 같이 하드웨어에 의해 실형시킬 수도 있고, 범용 마이컴에 의해 소프트웨어적으로 처리할 수도 있다. 물론 소프트웨어적으로 처리하는 경우에도 음성 파라메터 디베이스와, 글로탈 펄스 테이블은 필요하다.

따라서, 본 발명에 의한 음성합성 과정은, 제7도에 도시된 음성합성 흐름도에 도시된 바와같이 문자가 입력되면, 음성 파라메터 디베이스로부터 상기 입력된 문자에 대한 포만트 주파수(f₁∼f₃)를 읽는 단계(STEP1)를 수행하고, 그 포만트 주파수를 사인 함수로서 연산하는 단계(STEP2)를 수행한다.

그 사인 함수 연산은 sin(2πf₁t)…(단; f₁: i=1∼3)이다.

이후, 상기 음성 파라메터 디베이스로부터 상기 입력된 문자에 대한 포만트 곱셈팩터(A₁∼A₃)를 읽어 들이는 단계(STEP3)를 수행하고, 그 포만트 곱셈팩터(A₁∼A₃)와 상기 사인 함수 sin(2πf₁t)를 곱하는 단계(STEP4)를 수행한다. 그리고, 각 상기 곱셈팩터에 각 사인함수를 곱한신호를 모두 더하고, 거기에 그로탈 계수(G)를 더하는 단계(STEP5)를 수행한다.

이어서, 상기 단계(STEP5)에서 더해진 신호(S)에 글로탈 펄스 테이블로부터 읽어들인 그로탈 펄스 w(t)를 곱하여 음성출력을 하는 단계(STEP7)를 수행하게 된다. 그 음성신호는 아날로그신호로 변환되어 소정 이득으로 증폭된후, 스피커에 출력된다.

(단; 이득은 출력 이득이다.)

이상에서 설명한 바와같이 본 발명에 의한 음성합성기는, 기존의 음성합성기에 비하여 연산량을 감소시켜서 범용 마이컴 또는 개인용 컴퓨터상에서 소프트웨어에 의해 실시간 처리가 가능하게 되는 효과가 있다.

이에따라 기존에 사용되던 고가의 고속 디지탈신호 처리칩(DSP CHIP) 및 고속 메모리등을 사용하지 않아도 되고, 아울러 다수를 필요로 했던 지연소자등도 필요없게 되어 하드웨어가 간단해지고, 음성합성기의 원가절감의 효과가 있다.

Claims

기 저장된 각 음소에 대한 포만트정보중 입력 문자에 따른 음성포만트 정보를 출력하는 음성 파라메터 베이스(41)와, 그 음성 파라메터 베이스(41)의 음소포만트 주파수(f1∼f3)를 사인(sin) 함수의 신호로 출력하는 사인파 테이블(42)과, 그 사인파테이블(42)의 각 사인파신호와 상기 음성 파라메터 베이스(41)에서 출력되는 곱셈팩터(A1-A3)를 각기 곱하는 포만트곱셈부(43)와, 그 포만트곱셈부(43)의 각 곱셈기의 출력신호와 그로탈계수(Giglottal coefficient)를 더하는 가산기(44)와, 유성음과 무성음에 따른 그로탈 펄스 w(t)와 잡음신호 n(t)를 선택출력시키는 글로탈 펄수 테이블(46)과, 그 글로탈 펄스 테이블(46)의 출력신호와 상기 가산기(44)의 출력신호를 곱하는 곱셈기(45)와, 그 곱셈기(45)의 출력신호를 아날로그 신호로 변환시키는 디지탈/아날로그 변환기(47)와, 그 디지탈/아날로그 변환기(47)의 출력신호를 증폭시켜 스피커(49)에 출력시키는 증폭기(48)로 구성된 것을 특징으로 하는 음성합성기.
문자가 입력되면, 음성 파라메터 디베이스로부터 상기 입력된 문자에 대한 포맷 주파수(f1∼f3)를 읽는 단계(STEP1)와, 그 포만트 주파수를 사인 함수로서 연산하는 단계(STEP2)와, 이후 상기 음성 파라메터 디베이스로부터 상기 입려된 문자에 대한 포만트 곱셈팩터(A₁~A₃)를 읽어들이는 단계(STEP3)와, 그 포만트 곱셈팩터(A1∼A3)와 상기 사인 함수 sin(2πf₁t)를 곱하는 단계(STEP4)와, 상기 곱셈팩터에 사인 함수를 곱한 각 신호를 모두 더하고, 거기에 그로탈 계수(G)를 더하는 단계(STEP5)와, 상기 단계(STEP5)에서 더해진 신호에 글로탈 펄스 테이블로부터 읽어들인 그로탈펄스 w(t)를 곱하여 음성출력을 하는 단계(STEP7)로 이루어진 것을 특징으로 하는 음성합성기의 음성합성방식.