KR100417092B1

KR100417092B1 - 음성합성 방법

Info

Publication number: KR100417092B1
Application number: KR10-2001-0024039A
Authority: KR
Inventors: 홍광석
Original assignee: (주)디지텍; 홍광석
Priority date: 2001-05-03
Filing date: 2001-05-03
Publication date: 2004-02-11
Also published as: KR20020084765A

Abstract

본 발명은 타임 도메인 피치 동기 오버랩 부가(TD-PSOLA; Time Domain-Pitch Synchronous OverLap and Add) 음성합성 방법에 멀티레이트(Multirate) 기법을 도입시킴으로써 음성합성에서 넓은 범위의 피치 조절이 가능하도록 한 음성합성 방법에 관한 것이다. 한편, 본 발명은 타임 도메인 피치 오버랩 부가(이하, "TD-PSOLA"라 약칭한다) 방식으로 음성을 합성하기 전에 멀티레이트 기법을 적용하여 변경하고자 하는 피치로 음성 데이터의 피치를 변경한 후 TD-PSOLA 방식으로 음성을 합성하는 음성합성 방법에 관한 것이다.

이를 위한 본 발명은, 소정의 음성 데이터베이스에서 입력되는 음성 데이터를 소정의 피치단위로 분석하여 이를 각 프레임으로 생성하는 프레임 생성단계와; 소정의 피치조절 파라미터를 통해 샘플링 주파수를 변환하는 주파수 변환단계와; 상기 프레임 생성단계에서 생성된 음성 데이터의 각 프레임과, 상기 주파수 변환단계에서 변환된 샘플링 주파수를 중첩하고 더하여 합성파형을 생성하는 합성파형 생성단계;를 포함하여 된 것을 특징으로 한다.

Description

음성합성 방법{Method for synthesizing voice}

본 발명은 음성합성 방법에 관한 것으로서, 더 상세하게는 타임 도메인 피치 동기 오버랩 부가(TD-PSOLA) 음성합성 방법에 멀티레이트(Multirate) 기법을 도입시킴으로써 음성합성에서 넓은 범위의 피치 조절이 가능하도록 한 음성합성 방법에 관한 것이다.

한편, 본 발명은 타임 도메인 피치 오버랩 부가(이하, "TD-PSOLA"라 약칭한다) 방식으로 음성을 합성하기 전에 멀티레이트 기법을 적용하여 변경하고자 하는 피치로 음성 데이터의 피치를 변경한 후 TD-PSOLA 방식으로 음성을 합성하는 음성합성 방법에 관한 것이다.

또 다른 한편, 본 발명은 음성합성 방식으로 TD-PSOLA를 사용하고 음성합성 단위는 음소 단위, 트라이폰(tri-phone) 단위, 반음절 단위, 음절 단위, 단어 단위, 어절 단위 등등에서 해당하는 합성 단위를 선택하고 숫자 및 기호에 대한 전처리가 가능하고 음운 변동 처리는 표준 음운 규칙에 따라 처리하여 문서-음성 변환에 의해 무제한으로 음성합성할 수 있도록 된 음성합성 방법에 관한 것이다.

당업자에게 잘 알려진 바와 같이, 음성 합성 방식은 인간의 발성기관을 모델링하여 음성을 합성하는 조음 합성, 자연음의 포먼트와 같은 개수의 성도 공명 필터를 이용하는 포먼트 합성, LPC(Linear Prediction Coefficient) 계열의 파라미터를 이용한 합성, 미리 저장된 음성 데이터 베이스를 이용하여 합성음을 만드는 연결 합성 등이 있다.

근래까지는 상기 파라미터를 이용한 음성 합성 방식이 주류를 이루었으나 최근에는 메모리에 대한 제약이 줄고 디지털 신호 처리 기술의 발전에 힘입어 PSOLA(Pitch Synchronous Overlap and Add)와 같은 연결 합성 방식이 널리 연구되고 있다. PSOLA 방식은 대표적인 연결 합성 방식으로 시간축에서 처리하는 TD-PSOLA(Time Domain-Pitch Synchronous OverLap and Add), 주파수 축에서 처리하는 FD-PSOLA(Frequency Domain-Pitch Synchronous OverLap and Add), 그리고 선형 예측 방법을 이용한 LP-PSOLA(Linear Prediction-Pitch Synchronous OverLap and Add) 등이 있다.

상기한 PSOLA 방식들 중에서 TD-PSOLA는 시간 축 상에서 피치에 동기시킨 프레임들을 더해서 합성음을 만드는 방식으로 프레임의 첨삭과 중첩을 통해서 합성음의 피치 및 길이를 조절할 수 있는 방식이다. TD-PSOLA 방식에 있어서, 운율조절을 하기 위해서는 합성음의 파워, 시간길이 및 피치의 효율적인 제어가 필요한데, 파워의 경우 합성 파형의 진폭을 왜곡없는 범위 내에서 조절하면 가능하고, 시간길이 조절의 경우 PSOLA방식을 이용하여 연결해야할 프레임들의 개수를 조절함으로써 비교적 용이하게 조절이 가능하다. TD-PSOLA 방식에서 피치 조절은 중첩할 프레임들의 간격을 조절하는 방식으로 0.8-1.2배 정도로 제한된 범위내의 피치변경에 효과적인 것으로 알려지고 있다.

상기한 TD-PSOLA 음성합성은 피치단위로 분석된 음성 데이터베이스를 다시 중첩해서 더함으로써 합성음을 생성해 내는 방식으로 실시간 음성합성기에서 주로 채택하고 있는 합성방식인데, 이 방식은 피치 동기로 분석하므로 운율 조절이 용이하며, 시간 영역에서 겹쳐지는 부분에 대해서는 단순히 더함으로써 합성음을 생성하므로 계산량이 적어 실시간 처리가 용이하다. TD-PSOLA 방식에서 피치 조절하는 방법을 도 1에 나타내 보였다.

TD-PSOLA 방식의 경우 피치단위로 분석된 프레임을 중첩해서 더함으로써 합성음을 생성하므로 피치조절을 하기 위해서는 중첩하는 간격을 조절하면 된다. 즉, 도 1에 도시한 바와 같이 피치를 높이기 위해서는 원래 중첩하려는 간격보다 좁게 중첩하면 피치가 올라가게 되고 원래 중첩하려는 간격보다 넓게 중첩하면 피치가 내려가게 된다. TD-PSOLA 방식에서 적절한 중첩의 범위는 0.8 에서 1.2 정도이며 그 이상의 중첩률 변화시에는 부자연스러운 합성음을 얻게 된다.

상기한 TD-PSOLA 방식의 음성합성은 적은 계산량으로 비교적 명료한 합성음을 얻을 수 있으며, 중첩률을 조정함으로써 간단하게 합성음의 피치를 조절할 수 있는 장점이 있다.

그러나, TD-PSOLA 방식의 음성합성에 있어서 피치를 조정하는 방법이 단순히 중첩률을 변경하는 방식이기 때문에 0.8 에서 1.2 범위에서 벗어나는 중첩률의 변경은 부자연스러운 합성음을 생성하게 되는 문제점을 가지고 있다. 따라서, 좁은 범위의 피치 조절이 요구되는 합성기의 경우에는 TD-PSOLA 방식이 큰 문제없이 적용이 가능하겠지만 넓은 범위의 피치 조절이 요구되는 경우 단순히 중첩률만 변경해서 피치 조절하는 TD-PSOLA 방식은 그 적용이 제한적일 수밖에 없다.

즉, 상기한 TD-PSOLA 방식을 이용한 음성합성에 있어서, 피치조절의 경우 피치범위가 일정범위 이상을 벗어날 경우 명료한 합성음을 얻을 수 없는 문제점이 있었다. 결국, TD-PSOLA 방식의 음성합성에서의 피치 변경 및 조절은 제한된 범위내에서는 효과적이지만, 피치변경 범위를 넓히는데에 제한이 따르고 피치 변경이 제한 범위를 넘는 경우에는 그다지 효과적이지 못한 문제점이 있다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 창출된 것으로서, TD-PSOLA 방식의 피치 변경의 범위를 넓히기 위해서 TD-PSOLA 합성 방법에 멀티레이트(multirate) 기법을 적용하여 음성합성에서 피치 변경의 범위를 효과적으로 넓힐 수 있도록 한 음성합성에서의 피치변경 방법 및 시스템을 제공하는데 그 목적이 있다.

한편, 본 발명의 다른 목적은 TD-PSOLA 방식으로 음성을 합성하기 전에 멀티레이트 기법을 적용하여 변경하고자 하는 피치로 음성 데이터의 피치를 변경한 후 TD-PSOLA 방식으로 음성을 합성하는 음성합성 방법 및 시스템을 제공하는데 있다.

또 다른 한편, 본 발명의 또 다른 목적은 음성합성 방식은 TD-PSOLA를 사용하고 음성합성 단위는 음소 단위, 트라이폰(tri-phone) 단위, 반음절 단위, 음절 단위, 단어 단위, 어절 단위 등등에서 해당하는 합성 단위를 선택하고 숫자 및 기호에 대한 전처리가 가능하고 음운 변동 처리는 표준 음운 규칙에 따라 처리하여 문서-음성 변환에 의해 무제한으로 음성합성할 수 있도록 된 음성합성 방법 및 시스템을 제공하는데 있다.

도 1은 종래기술에 의한 음성합성 방법을 설명하기 위한 그래프도.

도 2는 본 발명에 따른 멀티레이트 기법을 적용하여 피치조절을 하는 음성합성 방법의 흐름도.

도 3a는 본 발명에 따른 다운 샘플링 과정을 설명하기 위한 개념도.

도 3b는 본 발명에 따른 업 샘플링 과정을 설명하기 위한 개념도.

도 4는 본 발명에 따른 샘플링 레이트(sampling rate) 변환 과정을 설명하기 위한 개념도.

도 5a는 다위상(polyphase) 필터를 이용한 다운 샘플링 방법을 설명하기 위한 개념도.

도 5b는 다위상 필터를 이용한 업 샘플링 방법을 설명하기 위한 개념도.

도 5c는 다단계(multistage) 필터를 이용한 다운 샘플링 방법을 설명하기 위한 개념도.

도 5d는 다단계 필터를 이용한 업 샘플링 방법을 설명하기 위한 개념도.

도 6은 본 발명 방법이 구현된 화면의 일실시예의 예시도.

상기 목적을 달성하기 위하여 본 발명에 따른 음성합성 방법은, 소정의 음성 데이터베이스에서 입력되는 음성 데이터를 소정의 피치단위로 분석하여 이를 각 프레임으로 생성하는 프레임 생성단계와; 소정의 피치조절 파라미터를 통해 샘플링 주파수를 변환하는 주파수 변환단계와; 상기 프레임 생성단계에서 생성된 음성 데이터의 각 프레임과, 상기 주파수 변환단계에서 변환된 샘플링 주파수를 중첩하고 더하여 합성파형을 생성하는 합성파형 생성단계;를 포함하여 된 점에 그 특징이 있다.

본 발명 방법의 바람직한 실시예에 있어서, 소정의 피치를 올리기 위해 다운 샘플링을 통해 상기 각 프레임의 길이를 감소시키고, 상기 피치를 내리기 위해 업 샘플링을 통해 상기 각 프레임의 길이를 늘린다.

본 발명 방법의 바람직한 실시예에 있어서, 상기 다운 샘플링에 기인하여 발생하는 얼라이어싱(aliasing)을 보상하기 위해, 상기 다운 샘플링 이전에 입력신호를 제한하는 필터를 통한 필터링이 이루어진다.

본 발명 방법의 바람직한 실시예에 있어서, 상기 업 샘플링에 기인하여 발생하는 이미지 성분을 제거하기 위해 상기 이미지 성분 제거를 위한 소정의 필터를 통한 필터링이 이루어진다.

본 발명 방법의 바람직한 실시예에 있어서, 상기 샘플링 레이트(rate) 변환의 계산량을 줄이기 위해 고속 퓨리에 변환(FFT; Fast Fourier Transform), 다위상(polyphase) 필터링 및 다단계(multistage) 필터링 중에서 적어도 어느 하나를 이용한다.

이하, 첨부한 도면을 참조하면서 본 발명에 따른 음성합성 방법의 바람직한 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어서 관련된 공지기술 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 것이다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 2는 본 발명에 따른 멀티레이트 기법을 적용하여 피치조절을 하는 음성합성 방법의 흐름도이고, 도 3a는 본 발명에 따른 다운 샘플링 과정을 설명하기 위한 개념도, 도 3b는 본 발명에 따른 업 샘플링 과정을 설명하기 위한 개념도, 도 4는 본 발명에 따른 샘플링 레이트(sampling rate) 변환 과정을 설명하기 위한 개념도이다. 도 5a는 다위상(polyphase) 필터를 이용한 다운 샘플링 방법을 설명하기 위한 개념도이고, 도 5b는 다위상 필터를 이용한 업 샘플링 방법을 설명하기 위한 개념도, 도 5c는 다단계(multistage) 필터를 이용한 다운 샘플링 방법을 설명하기 위한 개념도, 도 5d는 다단계 필터를 이용한 업 샘플링 방법을 설명하기 위한 개념도, 도 6은 본 발명 방법이 구현된 화면의 일실시예의 예시도이다.

도 2를 참조하면, 본 발명 방법은 소정의 음성 데이터베이스(10)에서 입력되는 음성 데이터를 원하는 피치단위로 분석하여 이를 각 프레임으로 생성하는 프레임 생성단계(S10)와; 원하는 피치조절 파라미터를 통해 샘플링 주파수를 변환하는 주파수 변환단계(S20)와; S10 단계에서 생성된 음성 데이터의 각 프레임과, S20 단계에서 변환된 샘플링 주파수를 중첩하고 더하여 합성파형을 생성하는 합성파형 생성단계(S30);를 포함하여 이루어진다.

한편, 본 발명 방법은 S20 단계에서의 다운 샘플링에 기인하여 발생하는 얼라이어싱(aliasing)을 보상하기 위해 S20 단계 이전에 입력신호를 제한하는 필터를 통한 필터링 단계(S12)와, S20 단계에서의 업 샘플링에 기인하여 발생하는 이미지 성분을 제거하기 위해 상기 이미지 성분 제거를 위한 소정의 필터를 통한 필터링 단계(S14)를 포함하여 구성된다.

상기와 같이 구성된 본 발명의 작용을 도 2 내지 도 6를 참조하여 설명하면 다음과 같다.

먼저, 본 발명에 따른 음성합성 방법은 TD-PSOLA 방법을 이용한 피치조절의 경우 일정범위 이상을 벗어날 경우 명료한 합성음을 얻을 수 없는 단점을 해결하기 위하여 일정범위 이상의 피치 조절이 필요한 경우 TD-PSOLA방식에 멀티 레이트 기법을 도입한다. 즉, 피치 단위로 분석된 음성 데이터베이스(10)의 각 프레임을 중첩하기 이전에 멀티레이트 기법을 이용하여 샘플링 주파수를 사전에 변화시킨 후 중첩하여 합성한다(S20). 이렇게 하면 보다 넓은 범위의 피치 조절이 가능하다.

예를 들어, 피치주파수를 2배 높이기 위해서는 각 프레임을 2 배만큼 다운(down) 샘플링한 후 중첩하여 합성하고, 반대로 피치주파수를 2배 낮추기 위해서는 2 배만큼 업(up) 샘플링하여 합성한다. 도 2에 멀티레이트 기법이 적용된 TD-PSOLA 방식의 피치조절 과정을 나타내 보였다.

도 2에 도시한 흐름도에서, 피치를 올리기 위해서는 다운 샘플링 과정을 통해 각 프레임의 길이를 감소시킨다. 상기 다운 샘플링을 통해 각 프레임의 길이를 감소시킨 후 중첩하여 이를 합성하게 되면 피치간격이 줄어들게 되므로 결국 피치는 올라간다. 상기한 다운 샘플링 과정의 시간 영역 및 주파수 영역의 관계를 공식 1과 공식 2에 각각 나타내 보였다.

시간영역: y(n) = x(Dn) <공식 1>

주파수영역: Y( e^jw )=1 over D sum from k=0 to M-1 X (e^{{j(omega-2 pi k)} over D}) <공식 2>

상기 과정을 거치면, 시간영역에서는 입력 신호의 압축 효과가 있으며 주파수영역에서는 입력신호의 대역폭이 D배만큼 확장된다. 이때 얼라이싱(aliasing)이 발생할 수 있는데, 이를 보상하기 위해 다운 샘플링을 하기 전에 입력신호를 [pi/D]로 제한해주는 필터가 필요하다(S12; 도 2). 도 3a에 다운 샘플링의 과정을 나타내 보였다.

그리고, 피치를 내리기 위해서는 업 샘플링과정을 거쳐서 프레임 길이를 늘인 후 중첩하여 합성하게 되면 피치가 올라가게 되는데, 아래 공식 3과 공식 4에 업 샘플링 과정의 시간영역 및 주파수영역의 관계를 나타내 보였다.

시간영역: y(n)=cases{x(n/L) ~~ n이 "L의 정수배일" 경우 ## 0 ~~ 나머지부분} <공식 3>

주파수영역: Y( e^jw ) = X ( e ^{j omega L} ) <공식 4>

상기 업 샘플링 과정은 입력신호 x(n)의 연속적인 값들 사이에 (L-1)개의 "0"를 삽입하는 과정이다. 이 과정을 거치면, 시간영역에서는 입력 신호의 개수가 증가하고, 주파수 영역에서는 입력 신호의 대역폭이 1/L 배로 감소하게 된다. 따라서 이미지(image) 성분이 생겨나는데, 이 이미지 성분을 제거해 주기 위해 대역폭이 pi/L 이고 게인이 L인 필터가 필요하다. 도 3b에 업 샘플링 과정을 나타내 보였다.

통상적인 샘플링 레이트(sampling rate) 변환 과정의 경우, 샘플링 레이트를 비 정수배로 변경해야 하는 경우가 자주 발생하는데, 본 발명에서는 예를 들어 샘플링 레이트를 1.5배 증가시킬 경우 3배의 업 샘플링과정과 2배의 다운 샘플링 과정을 통해 변환한다. 상기와 같이 정수배가 아닌 샘플링 레이트를 변환시킬 경우 도 4와 같이 할 수 있다.

도 4에서와 같이 본 발명은 업 샘플링을 먼저 함으로써 두 개의 필터를 하나로 대체한다. 이 경우 필터의 대역폭은 min ( pi / D , pi / L )가 되고, 게인은 L인 특성을 갖는다.

본 발명에서 샘플링 레이트를 변환하는 경우, 이미지 성분을 제거하거나 얼라이싱을 방지하기 위해 필터를 통과시키는데, 필터를 통과시킨 출력신호는 일반적으로 선형 콘볼루션(convolution)에 의해서 구한다. 입력신호 x(n)의 길이가 L이고 필터의 임펄스 응답인 h(n)의 길이가 M일 경우 출력 y(n)은 아래 공식 5와 같이 된다.

y(n) = sum from k=0 to M-1 h(k)x(n-k) <공식 5>

상기 공식 5에서 y(n)의 길이는 L+M-1이 되고 y(n)의 주파수 응답 Y(omega) 는 아래 공식 6과 같이 된다.

Y(omega) = X (omega) H (omega) <공식 6>

상기와 같이 x(n), h(n)이 피니트 듀레이션 시퀀스(finite durationsequence)일 경우 고속 퓨리에 변환(FFT; Fast Fourier Transform)을 이용하면 보다 적은 계산량에 빠른 필터링을 수행할 수 있다. x(n)의 길이가 L이고 h(n)의 길이가 M일 경우 출력 y(n)은 N-point FFT를 통해 구할 수 있는데, 이와 관련된 공식 7을 아래에 나타내 보였다.

Y(k) = Y(omega) | _{omega= 2pi k/N} ## = X( omega) H(omega) | _{omega= 2pi k/N} ~~k=0,1,2,...,N-1 # ~~ N >= L+M-1 # = X(k) H(k) <공식 7>

상기 공식 7에서, N>=L+M-1 이어야만 타임 얼라이싱 발생 없이 y(n)를 구할 수 있다. 즉, x(n)과 h(n)의 뒷부분에 0을 첨가하여 길이를 N으로 조정하여 계산한다. 이와 같이 FFT를 이용하게 되면 선형 콘볼루션에 비해 적은 계산량으로 필터링을 수행할 수 있게 되어 보다 빠른 샘플링 레이트 변환이 가능하게 된다.

본 발명의 샘플링 레이트 변환의 두번째 방법은 다위상(polyphase) 필터를 이용한 방법인데, 이 방법을 이용하면 N배의 다운 샘플링이나 업 샘플링을 할 경우 필터를 N개의 다위상 필터로 분해해서 필터링을 하면, 보다 적은 계산량으로 샘플링 레이트 변환이 된다. 도 5a 및 도 5b에 다위상 필터를 이용한 샘플링 레이트 변환의 예를 일반적인 필터링과 대비하여 나타내 보였다. 도 5a는 다위상 필터를 이용한 다운 샘플링 방법(2배)을 나타내고, 도 5b는 다위상 필터를 이용한 업 샘플링 방법(2배)을 나타낸다.

본 발명의 샘플링 레이트 변환의 세번째 방법으로는 다단계(multistage) 방법을 이용한 필터링이다. 실제적인 샘플링 레이트 변환의 경우 변환하는 비율이 1보다 매우 클 경우가 있는데, 예를 들어 130/163배의 경우 매우 많은 다위상 필터가 구성되어야 하므로 오히려 계산상 비효율적이고, 또한 필터의 대역폭이 매우 작으므로 원하는 성능의 주파수 응답을 얻기 위해서는 매우 많은 계수가 필요하게 된다. 따라서, 이 같은 경우 샘플링 레이트 변환 과정을 다단계로 나누어서 수행하는 것이 계산상 유리할 수 있는데, 이와 관련된 즉, 다단계 샘플링 레이트 변환 방법과 관련한 공식은 공식 8과 공식 9에 그리고 도면은 도 5c와 도 5d에 나타내 보였다. 도 5c는 다단계 방법을 이용한 다운 샘플링을 나타내고, 도 5d는 다단계 방법을 이용한 업 샘플링을 나타낸다.

D = prod from i=1 to J D _i <공식 8>

I = prod from i=1 to L I _i <공식 9>

도 6은 본 발명에 의한 음성합성 방법이 적용된 반음절 단위 한국어 음성 합성 시스템에 의해 구현된 화면의 일실시예이다.

도 6을 참조하면, 왼쪽의 입력창에 텍스트를 입력하고 플레이(play)를 클릭 하면, 원하는 문장의 음성이 합성되어 출력된다. 또한, 오른쪽에 있는 입력창을 이용하여 피치, 파워, 시간길이를 조절할 수 있다.

참고적으로 본 발명을 보다 더 명확하게 하기 위해 전술한 내용을 부가적으로 요약하여 정리하면 아래와 같다.

TD-PSOLA 음성합성의 경우, 합성음을 생성할 때 시간영역에서 피치단위로 분석된 음성 프레임을 피치간격을 중심으로 윈도우를 씌운 후 중첩하고 더하여 합성음을 생성하게 된다. 이때, 중첩하는 간격을 바꿈으로서 피치를 조절할 수 있다. 이러한 방식으로 피치를 조절할 경우 중첩의 범위를 0.8 에서 1.2 사이로 조절할때 비교적 명료한 합성음을 얻을 수 있으나 이보다 더 큰 범위로 피치를 조절하고자 할 경우에는 좋은 품질의 합성음을 얻기 힘들다. 이와 같은 단점을 보완하기 위해서 본 발명의 피치 조절 방법은 음성 프레임을 중첩하기 이전에 조절하고자 하는 피치 범위만큼 미리 샘플링 레이트 변환 과정을 거친 후 중첩하여 합성하게 되면 보다 넓은 범위에서 합성음의 피치를 조절할 수 있다. 본 발명에 따른 샘플링 레이트 변환 과정에서는 이미지 성분을 제거하거나 얼라이싱을 방지하기 위하여 필터를 통과시키게 되는데, 이때 많은 계산량이 필요하게 된다. 따라서, 본 발명은 효율적인 필터링을 위하여 FFT를 이용한 방법과 다위상 필터를 이용한 방법, 그리고 다단계 방법을 이용하여 계산량을 줄인다.

상술한 바와 같이 본 발명에 따른 음성합성 방법은, TD-PSOLA 방식의 피치 변경의 범위를 넓히기 위해서 TD-PDOLA 합성 방법에 멀티레이트(multirate) 기법을 적용하여 음성합성에서 피치 변경의 범위를 효과적으로 넓힐 수 있는 이점을 제공한다.

또한, 본 발명은 TD-PSOLA 방식으로 음성을 합성하기 전에 멀티레이트 기법을 적용하여 변경하고자 하는 피치로 음성 데이터의 피치를 변경한 후 TD-PSOLA 방식으로 음성을 합성함으로써 합성음의 명료도와 자연성을 향상시키는 이점을 제공한다.

그리고, 본 발명에 의하면, 음성합성 방식은 TD-PSOLA를 사용하고 음성합성 단위는 음소 단위, 트라이폰(tri-phone) 단위, 반음절 단위, 음절 단위, 단어단위, 어절 단위 등등에서 해당하는 합성 단위를 선택하고 숫자 및 기호에 대한 전처리가 가능하고 음운 변동 처리는 표준 음운 규칙에 따라 처리하여 문서-음성 변환에 의해 무제한으로 음성합성할 수 있는 이점을 제공한다.

이상 본 발명의 바람직한 실시예에 대해 상세히 기술하였지만, 본 발명이 속하는 기술분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구 범위에 정의된 본 발명의 정신 및 범위를 벗어나지 않으면서 본 발명을 여러 가지로 변형 또는 변경하여 실시할 수 있음을 알 수 있을 것이다. 따라서 본 발명의 앞으로의 실시예들의 변경은 본 발명의 기술을 벗어날 수 없을 것이다.

Claims

a) 소정의 음성 데이터베이스에서 입력되는 음성 데이터를 소정의 피치단위로 분석하여 이를 각 프레임으로 생성하는 프레임 생성단계;

b) 소정의 피치조절 파라미터를 통해 샘플링 주파수를 변환하는 주파수 변환단계;

c) 상기 프레임 생성단계에서 생성된 음성 데이터의 각 프레임과, 상기 주파수 변환단계에서 변환된 샘플링 주파수를 중첩하고 더하여 합성파형을 생성하는 합성파형 생성단계;를 포함하여 된 것을 특징으로 하는 음성합성 방법.
제 1 항에 있어서, 상기 단계 b)의 피치조절 파라미터를 통해 샘플링 주파수를 변환할 때, 피치를 올리기 위해 다운 샘플링을 통해 상기 각 프레임의 길이를 감소시키고, 상기 피치를 내리기 위해 업 샘플링을 통해 상기 각 프레임의 길이를 늘리도록 된 것을 특징으로 하는 음성합성 방법.
제 2 항에 있어서, 상기 다운 샘플링에 기인하여 발생하는 얼라이어싱(aliasing)을 보상하기 위해, 상기 다운 샘플링 이전에 입력신호를 제한하는 필터를 통한 필터링이 이루어지도록 된 것을 특징으로 하는 음성합성 방법.
제 2 항에 있어서, 상기 업 샘플링에 기인하여 발생하는 이미지 성분을 제거하기 위해 상기 이미지 성분 제거를 위한 소정의 필터를 통한 필터링이 이루어지도록 된 것을 특징으로 하는 음성합성 방법.
제 2 항 내지 제 4 항중의 어느 한 항에 있어서, 상기 다운 샘플링 및 업 샘플링을 수행할 때 샘플링 레이트(rate) 변환의 계산량을 줄이기 위해 고속 퓨리에 변환(FFT; Fast Fourier Transform), 다위상(polyphase) 필터링 및 다단계(multistage) 필터링 중에서 적어도 어느 하나를 이용하는 것을 특징으로 하는 음성합성 방법.
타임 도메인 피치 동기 오버랩 부가(TD-PSOLA) 방식과 멀티레이트 기법을 사용하는 음성합성 방법에 있어서,

소정의 피치 단위로 분석된 음성 데이터베이스의 각 프레임을 중첩하기 이전에 상기 멀티레이트 기법을 이용하여 샘플링 주파수를 사전에 변화시킨 후 중첩 합성하여 음성합성을 위한 피치 조절이 이루어지도록 된 것을 특징으로 하는 음성합성 방법.
제 6 항에 있어서, 피치주파수를 소정 배수(n배)로 높이기 위해서는 상기 각 프레임을 n배 만큼 다운(DOWN) 샘플링하고, 상기 피치주파수를 소정배수(m배)로 낮추기 위해서는 m배 만큼 업(UP) 샘플링하는 것을 특징으로 하는 음성합성 방법.