KR100294918B1

KR100294918B1 - 스펙트럼혼합여기신호의진폭모델링방법

Info

Publication number: KR100294918B1
Application number: KR1019980012630A
Authority: KR
Inventors: 김무영; 조용덕
Original assignee: 윤종용; 삼성전자 주식회사
Priority date: 1998-04-09
Filing date: 1998-04-09
Publication date: 2001-07-12
Also published as: KR19990079825A

Abstract

본 발명은 스펙트럼 혼합 여기신호의 진폭 모델링 방법을 개시한다. 이 진폭 모델링 방법은, 먼저 분석단에서 소정의 유성 확률에 따라 스펙트럼의 유성 모델 및 무성 모델중 선택적으로 스펙트럼 혼합 여기신호의 진폭을 계산하여 전송한다. 다음에, 합성단에서 전송된 진폭을 이용하여 유성음 및 무성음을 각각의 진폭으로 합성한다. 끝으로, 합성된 유성음과 무성음을 합하여 스펙트럼 혼합 여기신호를 얻는다.

Description

스펙트럼 혼합 여기신호의 진폭 모델링 방법{Magnitude modeling method for spectrally mixed excitation signal}

본 발명은 음성신호의 부호화/복호화에 관한 것으로서, 특히 스펙트럼 혼합 여기신호의 진폭 모델링 방법에 관한 것이다.

최근들어 미국, 일본 및 유럽 등지에서 음성 부호화기들의 표준화가 진행되고 있다. 표준화에 따른 음성 부호화기들은 일반적으로 음성을 스펙트럼 포락선 신호와 스펙트럼 여기신호로 나누어 표현하고, 각각을 양자화하여 얻어진 해당 비트 스트림을 전송하는 방식을 채택하고 있다.

도 1 (a)~(g)는 종래의 다중밴드 여기신호 모델링 방법을 예시적으로 설명하기 위한 파형도들이다.

다중밴드 여기신호 보코더(Miltiband Excitation Vocoder, 이하 MBE라 칭함)는 스펙트럼 여기신호를 모델링하는데 있어서 어느 하나의 하모닉에서의 스펙트럼을 유성 모델이나 무성 모델중 하나로만 표현한다. 도 1 (a)~(g)를 참조하면, MBE 모델링을 위해 먼저, 다중밴드 여기신호 보코더의 분석단에서는 음성 신호의 원 스펙트럼(도 1 (a))을 스펙트럼 포락선(도 1 (b))과, 유성 스펙트럼(도 1 (c))으로 모델링한 후에, 각 밴드의 유성/무성 정보(도 1 (d), 예컨대, 하이 레벨은 유성 정보를, 로우 레벨은 무성 정보를 나타냄)를 합성단으로 전송한다. 다음에, 합성단에서는 분석단으로부터 전송된 유성/무성 정보에 근거하여 유성 밴드에 도 1 (c)에 도시된 유성 스펙트럼 모델을 심고, 무성 밴드에 도 1 (e)에 도시된 무성 스펙트럼 모델을 심음으로써, 스펙트럼 여기신호를 합성하게 된다(도 1 (f)). 또한, 스펙트럼 여기신호에 도 1 (b)에 도시된 스펙트럼 포락선을 얹음으로써 도 1 (a)에 도시된 원 스펙트럼과 유사한 합성 스펙트럼을 구하게 된다(도 1 (g)).

전술한 바와 같이, 다중밴드 여기신호 보코더에서 유성 밴드는 유성 모델로 스펙트럼 진폭을 구하여 그것으로 유성음을 합성하고, 무성 밴드는 무성 모델로 진폭을 구하여 그것으로 무성음을 합성한다. 즉, 각 하모닉마다 유성/무성 정보에 근거하여 유성/무성 모델을 둘중 하나로만 결정하여 스펙트럼이 표현된다. 그러나, 실제로 음성은 유성음과 무성음이 소정의 비율로 혼합되어 있기 때문에, 도 1 (d)에 도시된 바와 같이 유성/무성 정보를 구분할 수 없으며, 이런 정보로는 성능이 좋은 합성 스펙트럼을 얻기 어렵다는 문제점이 있다.

본 발명이 이루고자하는 기술적 과제는, 하나의 하모닉에서의 스텍트럼을 유성 모델과 무성 모델의 혼합으로 표현함으로써 유성음과 무성음을 유사하게 혼합하는 특성을 보이면서 유성 밴드 및 무성 밴드 각각의 에너지를 유지하는, 스펙트럼 혼합 여기신호의 진폭 모델링 방법을 제공하는데 있다.

도 2는 본 발명에 의한 스펙트럼 혼합 여기신호의 진폭 모델링 방법을 설명하기 위한 플로우챠트이다.

도 3 (a) 및 (b)는 스펙트럼의 유성 모델과 무성 모델을 개념적으로 나타낸 도면들이다.

상기 과제를 이루기 위하여, 본 발명에 의한 스펙트럼 혼합 여기신호의 진폭 모델링 방법은, (a) 분석단에서 소정의 유성 확률에 따라 스펙트럼의 유성 모델 및 무성 모델중 선택적으로 스펙트럼 혼합 여기신호의 진폭을 계산하여 전송하는 단계, (b) 합성단에서 (a) 단계에서 전송된 진폭을 이용하여 유성음 및 무성음을 각각의 진폭으로 합성하는 단계 및 (c) 합성된 유성음과 무성음을 합하여 스펙트럼 혼합 여기신호를 얻는 단계를 구비한다.

이하, 본 발명에 의한 스펙트럼 혼합 여기신호의 진폭 모델링 방법 및 장치의 구성 및 동작을 첨부한 도면을 참조하여 다음과 같이 설명한다.

보다 나은 스펙트럼 여기신호 및 합성 스펙트럼을 얻기 위해서는 하나의 하모닉에서 스펙트럼을 유성 모델과 무성 모델의 혼합으로 표현하는 방법이 요구된다. 본 발명에서는 스펙트럼 혼합 여기신호 부호화기(Spectrally Mixed Excitation Vocoder)방식에 의한 여기신호 모델링 방식을 택하였다. 이 방식은 하나의 하모닉에서의 스펙트럼을 유성 모델과 무성 모델의 혼합으로 표현함으로써,종래의 다중밴드 여기신호 부호화기에 비해 더 나은 성능을 나타냈다.

도 2는 본 발명에 의한 스펙트럼 혼합 여기신호의 진폭 모델링 방법을 설명하기 위한 플로우챠트로서, 전술한 스펙트럼 혼합 여기신호 부호화기(SMX)에서의 분석단에서 스펙트럼 진폭을 구하여 합성단에서 합성하는 과정을 나타낸다.

먼저, 분석단에서 소정의 유성 확률(α)에 따라 스펙트럼의 유성 모델 및 무성 모델중 선택적으로 스펙트럼 혼합 여기신호의 진폭을 계산하여 전송한다. 구체적으로, 분석단으로 입력된 음성신호에서 소정의 유성 확률(α)을 계산한다(제200단계). 여기서, 유성 확률(α)은 음성신호에서 유성음이 포함되는 확률을 나타내며, 이 값을 구하는 방법은 공지되어 있다.

다음에, 소정의 유성 확률(α)이 미리 설정된 기준치보다 큰가를 판단한다(제202단계). 제202단계에서 기준치보다 크다면, 유성 모델로 진폭(A)을 계산한다(제204단계). 반면, 제202단계에서 기준치보다 크지 않다면, 무성 모델로 진폭(B)을 계산한다(제206단계). 여기서, 기준치는 통상 0.7로 정해진다. 즉, 유성 확률(α)이 0.7보다 크면 음성신호에 유성음이 많이 포함된 것으로 간주하여 유성 모델로 진폭을 계산하는 것이 바람직하다.

제204단계 또는 제206단계를 거쳐 선택적으로 스펙트럼 혼합 여기신호의 진폭이 계산되면, 유성 확률(α)과 함께 진폭(A) 또는 진폭(B)을 전송한다(제208단계). 여기서, 유성 확률(α)을 함께 전송하는 것은 합성단에서 전송된 진폭이 유성 모델로 계산된 진폭인지, 무성 모델로 계산된 진폭인지를 식별하기 위함이다.

다음에, 합성단에서는 전송된 진폭을 이용하여 유성음 및 무성음을 각각의진폭으로 합성한다. 구체적으로, 분석단으로부터 전송된 유성 확률(α)이 미리 설정된 기준치보다 큰가를 판단한다(제210단계). 여기서, 기준치 또한 통상 0.7로 정해진다.

제210단계에서 기준치보다 크다면, 전송된 진폭을 유성 모델로 계산된 진폭(A)으로 간주하여 유성음을 합성하고, 진폭(A)에서 진폭(B)을 계산하여 무성음을 합성한다(제212단계). 반면, 제210단계에서 기준치보다 크지 않는다면, 전송된 진폭을 무성 모델로 계산된 진폭(B)으로 간주하여 무성음을 합성하고, 진폭(B)에서 진폭(A)을 계산하여 유성음을 합성한다(제214단계).

끝으로, 제212단계 또는 제214단계를 거쳐 합성된 유성음과 무성음을 합하여 스펙트럼 혼합 여기신호를 얻는다(제216단계).

도 3 (a) 및 (b)는 스펙트럼의 유성 모델과 무성 모델을 개념적으로 나타낸 도면들로서, 도 3 (a)는 스펙트럼의 유성 모델을, 도 3 (b)는 스펙트럼의 무성 모델을 각각 나타낸다. 도시된 바와 같이, 유성 모델과 무성 모델은 상이한 진폭을 가지므로, 이러한 진폭의 특성에 따라 본 발명과 같이 각각 진폭을 계산하여 유성음과 무성음을 합성할 필요가 있다.

이하, 실제로 분석단에서 진폭(A) 또는 진폭(B)를 계산하는 방법과, 합성단에서 한 진폭(A 또는 B)으로부터 다른 진폭(B 또는 A)을 계산하는 방법을 바람직한 실시예로서 설명한다.

임의의 스펙트럼 하모닉은 유성 모델과 무성 모델로 분석이 가능하다. 소정번째 하모닉이 예컨대, a_l에서 b_l사이에 존재한다면, 도 3 (a)에서와 같이해밍(Hamming) 윈도우(w_R(n))의 스펙트럼(W_R( ))을 유성 모델로 하여 입력 스펙트럼을 분석하거나, 도 3 (b)에서와 같이 잡음 모델을 무성 모델로 하여 입력 스펙트럼을 분석할 수 있다. 이때 도 3 (a) 및 도 3 (b) 각각에서의 진폭(A)과 진폭(B)을 다음 수학식 1과 같이 나타낼 수 있다.

수학식 1에서,는 전송 피치에 의해 구해진 기본 주파수이며, 각 하모닉 밴드의 에너지(E)는 유성음이나 무성음이나 다음 수학식 2와 같이 나타낼 수 있다.

수학식 2에서, E_A는 진폭(A)을 갖는 스펙트럼의 유성 모델에 대한 에너지를, E_B는 진폭(B)을 갖는 스펙트럼의 무성 모델에 대한 에너지를 각각 나타낸다.

합성단에서 유성음과 무성음이 혼합될 때, 에너지가 유지되도록 하기 위해서, 다음 수학식 3에 의해 합성할 수 있다. 여기서, α는 유성 확률(0≤α≤1)을 나타낸다.

결과적으로, 진폭 관점에 보면진폭으로 유성음을 합성하고,진폭으로 무성음을 합성하면, 해당 밴드의 에너지가 유지된다는 것을 알 수 있다.

따라서, 분석단에서는 유성 확률(α)이 0.7보다 큰 경우에는 수학식 1에 의해 진폭(A)를 구하고, 유성 확률(α)이 0.7보다 크지 않은 경우에는 수학식 1에 의해 진폭(B)를 구하여 전송한다.

이에 대응하여, 합성단에서는 유성 확률(α)이 0.7보다 큰 경우에는 전송된 진폭을 진폭(A)으로 간주하여 유성음을 진폭(A)으로 모델링하고, 수학식 2에 의해 E_A= E_B이므로 무성음을 모델링하는데 필요한 진폭(B)을 다음 수학식 4에 의해 구할 수 있다. 즉, 진폭(A)을 이용하여 진폭(B)을 유도한다.

한편, 유성 확률(α)이 0.7보다 크지 않은 경우에는 전송된 진폭을 진폭(B)으로 간주하여 무성음을 진폭(B)으로 모델링하고, 수학식 2에 의해 E_A= E_B이므로 유성음을 모델링하는데 필요한 진폭(A)을 다음 수학식 5에 의해 구할 수 있다. 즉, 진폭(B)을 이용하여 진폭(A)을 유도한다.

이와 같은 방법으로 모델링된 진폭은 수학식 3에 의해 최종적인 합성 스펙트럼을 생성하는데 사용된다.

이상에서 설명한 바와 같이, 본 발명에 의한 스펙트럼 혼합 여기신호의 진폭 모델링 방법은, 하나의 하모닉에서의 스텍트럼을 유성 모델과 무성 모델의 혼합으로 표현함으로써 유성음과 무성음을 유사하게 혼합하는 특성을 보이면서 유성 밴드 및 무성 밴드 각각의 에너지를 유지하는 이점이 있다.

Claims

스펙트럼 혼합 여기신호의 진폭 모델링 방법에 있어서,

(a) 분석단에서 입력된 음성신호에서 계산된 소정의 유성 확률이 미리 설정된 기준치보다 크면, 스펙트럼의 유성 모델로 스펙트럼 혼합 여기신호의 진폭(A)을계산하여 상기 유성 확률과 함께 전송하는 단계;

(b) 분석단에서 상기 유성 확률이 상기 기준치보다 크지 않으면, 스펙트럼의 무성 모델로 스펙트럼의 혼합 여기신호의 진폭(B)을 계산하여 상기 유성 확률과 함께 전송하는 단계;

(c) 합성단에서 전송된 유성 확률이 상기 기준치보다 크면, 전송된 진폭을 상기 진폭(A)으로 간주하여 유성음을 합성하고, 상기 진폭(A)에서 진폭(B)를 계산하여 무성음을 합성하는 단계; 및

(d) 합성단에서 전송된 유성 확률이 상기 기준치보다 크지 않으면, 상기 전송된 진폭을 상기 진폭(B)으로 간주하여 무성음을 합성하고, 상기 진폭(B)에서 상기 진폭(A)을 계산하여 유성음을 합성하는 단계; 및

(e) 합성된 유성음과 무성음을 합하여 상기 스펙트럼 혼합 여기신호를 얻는 단계를 구비하는 것을 특징으로 하는 스펙트럼 혼합 여기신호의 진폭 모델링 방법.
제1항에 있어서, 상기 (a) 단계 및 (b) 단계에서 진폭(A)과 상기 진폭(B)은 각각 다음 수학식 1을 이용하여 계산되는 것을 특징으로 하는 스펙트럼 혼합 여기신호의 진폭 모델링 방법.

[수학식 1]
제1항에 있어서, 상기 (c) 단계에서 상기 진폭(B)는 하기의 수학식 4를 이용하여 계산되며, 상기 (d) 단계에서 상기 진폭(A)은 하기의 수학식 5를 이용하여 계산되는 것을 특징으로 하는 스펙트럼 혼합 여기신호의 진폭 모델링 방법.

[수학식 4]

[수학식 5]