KR100225687B1

KR100225687B1 - 음성 분석 및 음성 합성 방법

Info

Publication number: KR100225687B1
Application number: KR1019930700834A
Authority: KR
Inventors: 존씨. 하드위크; 임.재에스.
Original assignee: 존 씨. 하드웍; 디지탈 보이스 시스템즈 인코퍼레이티드
Priority date: 1990-09-20
Filing date: 1991-09-21
Publication date: 1999-10-15
Also published as: KR930702743A; WO1992005539A1; US5195166A; DE69131776D1; JP3467269B2; US5581656A; JPH06503896A; CA2091560C; US5226108A; CA2091560A1; AU8629891A; DE69131776T2; EP0549699A4; EP0549699B1; AU658835B2; EP0549699A1

Abstract

부분 정수 분해 피치값은 초기 피치 산정을 취하여 산정되며, 상기 부분 정수 피치값은 정수값들 사이에 중간 변수를 보간함으로써 바람직하게 산정된다. 피치 영역은 초기 피치 산정을 실행하는데 필요한 계산의 양을 감소시키기 위해 사용된다. 피치 종속 분해는 피치의 작은 값으로 사용되는 높은 분해로 초기 피치 산정을 실행하기 위해 사용된다.

Description

[발명의 명칭]

음성 분석 및 음성 합성 방법

[발명의 배경]

본 발명은 음성을 부호화하고 합성하는 방법에 관한 것이다.

관련 문헌으로는 1972년 Flanagan에 의해 발표된 Springer-Verlag, pp. 378∼386의 음성 분석, 합성 및 인식(Speech Analysis, Synthesis and Perception)(주파수에 기초한 음성 분석합성 시스템의 위상 보코더(Vocoder; 전기적 음성분석 합성 장치)에 관해 개시됨); 1986년 12월 Quatieri 등에 의해 발표된 IEEE TASSP, Vol, ASSP34, No. 6, pp.1449∼1986의 사인파 표시에 기초한 음성 변환(Speech Transformations Based on a Sinusoidal Representation)(사인파의 표시에 의한 분석 합성 기술에 관해 개시됨); 1987년 Griffin 등에 의해 발표된 Ph. D. Thesis, T.I.T., pp. 75∼77의 다대역 여자 보코더(Multiband Excitation Vocoder)(다대역 여자 분석 합성에 관해 개시됨); 1984년 9월 5∼8일 이탈리아, 플로렌스, DSP 국제 회의에서 Griffin 등에 의해 발표된 새로운 피치 검출 알고리즘(A New Pitch Detection Algorithm)(피치 개산에 관해 개시됨);1985년 3월 26∼29일 Griffin 등에 의해 발표된 FL., Tampa, Proc ICASSP 85, pp.513∼516의 새로운 모델의 음성 분석/합성 시스템(A New Moderl-Basde Speech Analysis/Synthesis Synthesis System)(또다른 피치형 기능 및 음성 측정에 관해 개시됨); 1988년 5월 Hardwick에 의해 발표된 S.M.Thesis, M.I.T의 4.8 kbps 다대역 여자 음성 코더(A 4.8 kbps Multi-Band Excitation Speech Coder)(다대역 여자 음성 모델에 기초한 4.8 kbps 음성 코더에 관해 개시됨); 1985년 3월 26∼29일 McAulay 등에 의해 발표된 FL., Tampa, Proc. ICASSP 85, pp.945∼948의 음성의 사인파 표시에 기초한 중간 비율 부호화(Mid-Rate Coding Based on a Sinusoidal Representation of Speech)(사인파 표시에 기초한 음성 부호화에 의해 개시됨); 1983년 9월 스페인, Sitges에서 Almieda 등에 의해 발표된 신호 처리 및 그 응용에 관한 1983스페인 워크숍의 가변 주파수 합성을 갖는 조파 부호화(Harmonic Coding with Variable Frequency Synthesis)(시간 영역 음성 합성에 관해 개시됨); 1984년 캘리포니아 샌디애고에서 Almieda 등에 의해 발표된 ICASSP 84, pp.289∼292의 가변 주파수 합성; 개량된 조파 부호화 구조(시간 영역 음성 합성에 관해 개시됨); 1988년 4월 뉴욕에서 McAulay 등에 의해 발표된 ICASSP 88, pp.370∼373의 사인파 변환 부호화에 대해 계산적으로 유효한 사인파 합성 및 그 응용(주파수 영역 음성 합성에 관해 개시됨); 1984년 4월 Griffin 등에 의해 발표된 IEEE TASSP, Vol. 32, No. 2, pp.236∼243의 변경된 단시간 푸리에 변환으로부터의 신호 산정 (가중 오버랩 부가 합성에 관해 개시됨)등을 예로 들 수 있다.

이들 문헌의 내용은 본원 명세서에서 참고로 결합되어 사용될 수 있다.

음성을 분석 및 합성하는 방법과 관련해서는 많은 분야에서 응용 가능하며, 그에 따라 상기 문헌들에 대해 상당한 관심이 기울여지고 있다. 음성 분석/합성 시스템(보코더)의 한 부류는 폭넓게 연구되고 있고, 실제로 하부 음성 모델을 기초하여 사용되고 있다. 상기 보코더(voclder)의 예로는 선형 예측 보코더, 동형의 보코더 및 채널 보코더를 들 수 있다. 이들 보코더에 있어서, 음성은 선형 시스템에 응답하여 무성음(unvoiced sound)에 대해 유성음(voiced sound) 또는 랜덤 잡음의 주기적인 임펄스 열에 의해 여자됨으로써, 단시간에 모델링되고 있다. 이러한 종류의 보코더에 대해, 음성은 해밍 윈도우(Hamming window)와 같은 윈도우를 사용하여 제1세그멘트 음성에 의해 분석된다. 이어서, 각 음성 세그멘트에 대해, 여자 파라미터(excitation parameter) 및 시스템 파라미터가 결정된다. 상기 여자 파라미터는 유성음/무성음 결정 및 피치 주기를 포함한다. 상기 시스템 파라미터는 스펙트럼형 엔벌로프 또는 시스템의 임펄스 응답을 포함한다. 음성을 합성하기 위하여, 상기 여자 파라미터는 유성음 영역 또는 무성음 영역내의 랜덤 잡음내에 주기적인 임펄스 열을 포함하는 여자 신호를 합성하기 위해 사용된다. 이와 같은 여자 신호는 산정된 시스템 파라미터를 사용하여 필터링된다.

상기 하부 음성 모델에 의한 보코더가 명료한 음성을 합성하는데 성공적 일지라도, 그들은 고품질 음성을 합성할 수는 없을 것이다. 그결과, 그들은 음성의 시간 변경, 음성 증대 또는 고품질 음성 부호화와 같은 응용 분야에서 폭넓게 사용 할 수 없는 문제가 있다. 합성된 음성의 불량한 품질은 피치의 부정확한 산정으로 인하여 중요한 음성 모델 파라미터이 부분이 된다.

피치 검출의 성능을 개량하기 위해 새로운 방법이 1984Griffin 및 Lim에 이해 개발되었다. 이 방법은 1988년에 Griffin과 Lim에 이해 다시 개량되었다. 이 방법은 여러 가지의 상이한 보코더에 유용한 것으로, 특히 다대역 여자(MBE; Multi Band Excitation)보코더에 유용한 것이다.

s(n)은 아날로그 음성 신호를 샘플링함으로써 얻어지는 음성 신호를 나타낸다.

샘프링 비율은 6khz ∼ 10 khz 사이의 음성 부호화 응용 영역에 대해 통상적으로 사용된다. 상기 방법은 이 방법에서 사용되는 여러 가지 파라미터의 대응하는 변화를 갖는 임의의 샘플링 비율에 대해서도 잘 동작한다. 윈도우 신호 s_ω(n)을 얻기 위하여 s(n)을 윈도우_ω(n)과 곱한다. 상기 윈도우는 해밍 윈도우(Hamming window) 또는 카이저 윈도우(Kaiser window)를 통상적으로 사용한다. 상기 윈도우 동작은s(n)의 작은 세그멘트를 골라낸다. 음성 세그멘트는 음성 프레임으로도 칭한다.

피치 검출의 목적은 세그멘트 s_ω(n)에 대응하는 피치를 산정하기 위해서 사용된다. s_ω(n)을 현재의 음성 세그멘트로서 칭하고, 현재의 음성 세그멘트에 대응하는 피치는 P_O로 나타내는데, 여기서, O은 현재의 음성 세그멘트를 칭한다. 또한 편이를 위해 P_O를 나타내기 위해 P를 사용할 것이다. 이어서 상기 윈도우를 통상적으로 20 msec 정도 만큼 슬라이드시키는 경우, 새로운 음성 프레임을 얻으며, 새로운 프레임에 대해 피치를 산정한다. 이 새로운 음성 세그멘트의 피치를 P₁으로 나타낸다. 유사한 방법으로, P_-1을 과거의 음성 세그멘트의 피치로서 칭한다. 상세한 설명에서 사용하는 표시법으로는 현재 프레임의 피치에 대응하는 P_O, 과거의 2개의 연속 음성 프레임의 피치에 대응하는 P_-2및P_-1, 장래의 음성 프레임의 피치에 대응하는 P₁및P₂가 사용된다.

신디사이저(Synthesizer)에서 s_ω(n)에 대응하는 합성 음성은(n)으로 나타낼 것이다. s_ω(n) 및(n)의 푸리에 변환은 S_ω(ω) 및(ω)로 나타낸다. 전체 피치 검출 방법은 제1도에 도시하고 있다. 피치 P는 2단계의 처리 과정을 사용하여 산정된다. 먼저로 나타낸 초기 피치 산정을 얻는다. 초기 산정은 정수값으로 제한된다. 이어서, 비정수값이 될 수 있는 최종 산정을 얻기 위해 초기 산정에 대하여 상세히 논의된다. 상기 2단계의 처리 과정은 관련된 계산의 양을 감소시킨다.

초기 피치 산정을 얻기 위해, 피치의 함수로서 피치형 함수 E(P)를 결정한다. 이 함수는 후보 피치값의 수치 비교를 위한 수단을 제공하다. 피치 트랙킹은 제2도에 도시된 바와 같이 이 피치형 함수에 사용된다. 초기 피치 산정 P는 정수값으로 제한된다. 함수 E(P)는 다음식 (1)에 의해 구해지며,

여기서, r(n)은 다음식 (2)에 의해 제공되는 자동 상관 함수이다.

식(1) 및 식(2)는 P의 정수값만으로 E(P)를 결정하기 위해 사용될 수 있으며, s(n) 및 ω(n)은 불연속 신호이다.

상기 피치형 함수 E(P)는 에러 함수로서 관찰될 수 있으며, 통상적으로 E(P)가 작도록 피치 산정을 선택하는 것이 바람직하다. E(P)를 최소화하는 P를 간단히 선택할 수는 없다. E(P)는 피치를 산정하기 위해 사용될 수 있는 피치형 함수의 일예임을 주목한다. 다른 합리적인 함수가 사용될 수도 있다.

피치 트랙킹은 연속 프레임간의 피치 변화량을 제한하기 위해 시도함으로써 피치 산정을 개량할 수 있도록 사용된다. 피치 산정이 E(P)를 엄격히 최소화하기 위해 선택되면, 상기 피치 산정은 후속 프레임 사이에서 급격히 변화될 수도 있다. 이와 같은 피치의 급격한 변화는 합성된 음성의 감손을 가져올 수 있다. 또한, 피치는 통상적으로 천천히 변화하며, 그에 따라 인접한 프레임으로부터의 피치 산정은 현재의 프레임의 피치를 산정하는데 도움을 줄 수 있다.

룩 백 트랙킹(Look-back tracking)은 과거 프레임으로부터 P의 연속 상태를 유지하기 위해 사용된다. 과거 프레임의 임의의 수가 사용될 수 있을지라도 여기서는 2개의 과거 프레임을 사용할 것이다.

및는 P_-1및 P_-2의 초기 피치 산정을 나타낸다. 현재의 프레임 처리에 있어서,및는 사전 분석으로부터 이미 이용하고 있다. E_-1(P) 및 E_-2(P)는 사전에 2개의 프레임으로부터 얻어진 방정식(1)의 함수를 나타낸다. 이어서 E_-1() 및 E-₁()는 특정값을 갖는다.

P의 연속 상태를 원함에 따라근처의 영역에 P를 고려한다. 통상적으로 사용되는 영역은 다음의 수학식(4)와 같다.

여기서, α는 상수이다.

식(4)에 주어진P의 영역내에서 최소 E(P)를 갖는 P를 선택할 수 있다.

이 P는 P^*로서 나타낸다. 다음의 판단 규칙을 사용한다.

임계치 이면,

이며, 여기서는 P의 초기 피치 산정이다. .......(5)

식 (5)이 조건이 만족되면, 현재 초기 피치 산정를 갖는다. 상기 조건을 만족하지 않으면, 룩 어헤드 트랙킹(look-ahead tracking)으로 이동한다.

룩 어헤드 트랙킹은 장래의 프레임을 갖는 P의 연속 상태를 유지하기 위해 시도된다. 비록 많은 프레임들이 바람직스럽게 사용될 수 있을지라도, 여기서는 2개의 장래의 프레임을 사용할 것이다. 현재의 프레임으로부터 E(P)를 갖는다. 또한 다음의 2개의 장래의 프레임에 대해 이 함수를 계산할 수 있다. 이들 함수는 E₁(P) 및 E₂(P) 로서 나타낸다. 이것은 2개의 장래의 프레임에 대응하는 양만큼 처리중에 지연될 수 있음을 의미한다.

인간의 음성에 대응하는 P의 모든 값을 필연적으로 커버하는 P의 적당한 영역을 고려한다. 8 khz 비율로 샘플링된 음성에 대해 각각의 피치 주기내에 다수의 음성 샘플로서 표현된 P의 양호한 영역은 22≤ P ＜ 115이다.

이 영역내의 각각의 P에 대해, 다음의 식(6)과 같이 CE(P)가 최소화되도록 P₁과 P₂를 선택한다.

P₁이 P에 근접하고, P₂가 P₁에 근접하도록 제한된다. 통상적으로 이들 근접 제한은 다음의 식 (7) 및 (8)로 나타낸다.

이 처리 과정은 제3도에 도시하고 있다. 통상 α 및 β의 값은 α= β=0.2이다

각각의 P에 대해, CE(P)를 달성하기 위해 상기 절차를 사용할 수 있다. P의 함수로서 CE(P)를 갖는다. 누적된 에러를 나타내기 위해 CE 표시법을 사용한다.

최소 CE(P)를 제공하기 위해서는 당연히 P를 선택할 것이다. 그러나, 소위 피치 배가 문제 라고 하는 문제에 접하게 된다. 상기 피치 배가 문제는 CE(P)가 작을 때 CE(2P)가 작기 때문에 발생한다. 따라서, CE(·) 함수를 엄격히 최소화하는 방법은 P의 올바른 선택을 통해 피치로서 2P를 선택할 수 있다. 상기 피치 배가 문제가 발생하면, 합성된 음성의 품질에 큰 감손이 일어난다. 상기 피치 배가 문제는 이하에 개시되는 방법을 사용함으로써 예방할 수 있다. 최소 CE(P)를 제공하기 위해 P'를 P의 값으로 가정한다. 이어서 P의 허용된 영역(통상 22≤ P ＜ 115) 내에서 P = P', P'/2, P'/3, P'/4, …를 고려한다. 만일 P'/2, P'/3, P'/4,…가 정수가 아니라면, 그들에 가장 근접한 정수를 선택한다. P', P'/2및 P'/3는 적당한 영역내에 존재한다. P의 가장 작은값, 이경우에 P'/3로 시작하면, 다음의 식(9)에 나타낸 규칙을 사용한다.

여기서는 다음의 룩 어헤드 특성으로부터 산정한다.

α₁, α₂, β₁, β₂의 통상적인 값은 α₁=0.15, α₂=50, β₁=0.75, β₂=2.0을 갖는다.

만일 P'/3이 상기 규칙에 따라 선택되지 않으면, 다음의 가장 낮은, 상기 예에서 P'/2로 진행한다. 결국에 하나가 선택되거나 혹은 P=P'에 이르게 된다. P=P'가 임의의 선택이 없이 도달하게 되면,는 P'으로 주어진다.

최종 단계는 룩 백 트랙킹(look-back tracking)(P^*)으로부터 얻어지는 산정값과를 비교한다.또는 P^*가 초기 피치 산정로서 선택되면, 이러한 결정의 결과에 의존한다. 하나의 통상의 세트의 결정 규칙은 2개의 피치 산정을 비교하기 위해 사용된다.

다른 결정 규칙은 2개의 후보 피치값을 비교하기 위해 사용될 수 있다.

전술한 초기 피치 산정 방법은 피치의 정수값을 발생시킨다. 이 방법의 블록도는 제4도에 도시하고 있다. 피치 정밀도는 높은 부분 정수 분해로 피치 산정의 분해를 증가시킨다. 통상적으로 상기 정교한 피치는 ¼ 정수 또는 ⅛ 정수 분해를 갖는다.

P 부근에의 큰 값의 작은수(통상 4내지 8)를 고려한다.

E_r(P)는 다음의 식(13)으로 주어진다.

여기서, G(ω)는 임의의 가중 함수이고,

파라미터 ω_o=2π/P는 기본 주파수이고, W_r(ω)는 피치 정밀도 윈도우의 푸리에 변환ω_r(n)이다(제1도 참조). 복합 계수 (A_M)는 식 (16)에서 ω_O의 조파에서 복합 진폭을 나타낸다. 이들 계수는 다음의 식 (16)으로 주어진다.

여기서, a_M= (m-0.5)ω_O및 b_M=(m+0.5)ω_O

의 형태는 유성음 또는 주기적인 스펙트럼에 대응하여 식 (15)로 주어진다.

다른 합리적인 에러 함수는 식 (13)의 위치에 예컨대, 다음의 식 (18)이 사용될 수 있다.

통상적으로 윈도우 함수 ω_r(n)은 초기 피치 산정 단계에서 사용되는 윈도우 함수와는 상이하다.

중요한 음성 모델 파라미터는 유성음/무성음 정보이다. 이러한 정보는 음성이 단일 기본 주파수(유성음)의 조파로 주로 구성되거나 또는 광대역잡음 형'에너지(무성음)으로 구성될지의 합성 여부를 결정한다. 선형 예측 보코더 또는 동형의 보코더와 같은 많은 이전의 보코더에 있어서, 각각의 음성 프레임은 전체가 유성음이거나 또는 전체가 무성음으로서 분류된다. MBE 보코더에 있어서, 음성 스펙트럼 S_ω(ω)는 다스의 분리된 주파수 대역으로 분할되고, 단일 유성음/무성음(V/UV) 결정은 각각의 대역에 대해 구성된다.

MBE 보코더에서 유성음/무성음 결정은 제5도에 도시한 바와 같이 주파수영역 0 ≤ω ≤π를 L 대역으로 분할함으로써 결정된다. 그 내용, 즉 Ω₀〓0, Ω₁, …, Ω_L-1, Ω_L〓π는 L 주파수 대역 사이의 경계선이다. 각각이 대역내에서, V/UV 결정은 공지된 임계치와 일부 유성음 측정값을 비교함으로서 완성된다. 하나의 통상의 유성음 측정은 다음의 식(19)로 주어진다.

여기서,는 식 (15)∼(17)로 주어진다. 다른 유성음 측정은 식(19)로 사용될 수 있다. 또다른 유성음 측정의 일예는 다음의 식(20)으로 주어진다.

식(19)에서 정의된 음성 측정은에 대응하는 i번째 주파수 대역을 통한 S_ω(ω)와간의 차이이다.은 임계치 함수에 대하여 비교된다.이 임계치 함수 보다 작으면, i번째 주파수 대역은 음성화되도록 결정된다. 그 밖이 i번째 주파수 대역은 무성음화 되도록 결정된다. 상기 임계치 함수는 피치와 각 대역의 중심 주파수에 통상적으로 의존한다.

MBE 보코더, 사인파 변환 코더 및 조파 코더를 포함한 다수의 보코더에 있어서, 합성된 음성은 단일 기본 주파수의 조파의 합만큼 전체 또는 부분적으로 발생된다. 상기 MBE 보코더에서는 합성된 음성 υ(n)의 유성음 부분을 포함한다. 상기 합성된 음성의 무성음 부분은 개별적으로 발생되어, 완전히 합성된 음성 신호를 제공하기 위해 상기 유성음 부분에 부가된다.

유성음 음성 신호를 합성하기 위하여 과거에는 2개의 상이한 방법이 사용되고 있었다. 제1방법은 사인파 발진기의 뱅크를 사용하는 시간 영역내에서 각각의 조파를 개별적으로 합성하는 방법이다. 각각의 발진기의 위상은 산정된 파라미터들 사이에 원활하게 보간되는 하위 차수 구분적 위상 다항식(low-order piecewise phase polyno

mial)으로부터 발생된다. 이 방법은 음성 품질이 매우 높다고 하는 장점이 있다. 각각의 사인파 발진기를 발생시키기 위해 다수의 많은 계산이 필요하다고 하는 단점이 있다. 이 방법의 계산 비용은 다수의 많은 조파가 합성되면 엄청나게 비싸게 될 것이다.

제2방법은 주파수 영역내에서 모든 조파를 합성할 수 있도록 유성음 신호를 합성하기 위해 사용되는 방법이고, 모든 합성된 조파를 시간 영역 내부로 동시에 변환하기 위해 고속 푸리에 변환(FFT)을 사용한다. 가중 오버랩부가 방법은 음성 프레임 사이에 FFT의 출력을 완만하게 보간하기 위해 사용된다. 이 방법은 사인파 발진기의 발생으로 수반되는 계산이 필요하지 않기 때문에 전술한 시간 영역 방법보다 더욱 효율적이다. 이 방법의 단점은 프레임 비율이 음성 부호화(20∼30ms)로 사용되는데 있으며, 그 유성음 품질은 시간 영역 방법과 비교하여 감소된다.

[발명의 개요]

본 발명의 제1특징은 초기 피치 산정을 수행하는 부분 정수 분해 피치값의 개량된 피치 산정 방법에 있다. 양호한 실시예에서, 부분 정수 분해 피치값으로 사용되는 중간 자동 상관 함수의 비정수값은 자동 상관 함수의 정수값 사이에 보관함으로써 산정된다.

본 발명의 제2특징은 초기 피치 산정을 수행하는데 필요한 계산의 양을 감소시키기 위해 피치 영역이 사용을 특징으로 한다. 허용된 피치의 영역은 복수의 피치 값과 복수의 영역으로 분할된다. 모든 영역은 적어도 하나의 피치값을 포함하고, 적어도 하나의 영역은 복수의 피치값을 포함한다. 각각의 영역에 대해 피치형 함수(또는 에러 함수)는 그 영역내에 모든 피치값을 통해 최소화되며, 최소값에 대응하는 피치값과 에러 함수의 관련값은 저장된다. 현재의 세그멘트의 피치는 룩 백 트랙킹을 사용하여 선택되고, 현재의 세그멘트에 대한 피치 선택은 상기 에러 함수를 최소화하는 값이며, 사전 세그멘트의 영역 이상이거나 또는 그 이하의 소정의 제1영역의 범위내에 존재한다. 또한, 룩 어헤드 트랙킹은 룩 백 트랙킹과 관련하여 자체적으로 사용될 수 있고, 현재의 세그멘트에 대한 피치 선택은 누적 에러 함수를 최소화하는 값이다. 상기 누적 에러 함수는 현재의 세그멘트와 추가의 세그멘트의 누적 에러의 산정을 제공하고, 장래의 세그멘트의 피치는 현재의 세그멘트의 영역 이상이거나 또는 그 이하의 소정의 제2영역의 범위 이내로 제한된다. 상기 영역은 불균일한 피치폭을 가질 수 있다(즉, 영역내의 피치의 범위는 모든 영역에 대해 동일한 크기가 아니다).

본 발명의 제3특징은 피치 종속 분해가 피치의 다른값(통상 피치의 큰값)보다 피치의 일부값(통상 피치의 작은값)으로 사용하는 높은 분해능을 갖는 초기 피치 산정의 실행에 사용되는 개량된 피치 산정 방법에 있다.

본 발명의 제4특징은 최근의 사전 세그멘트의 에너지와 관련한 현재의 세그멘트의 에너지에 따른 결정을 취함으로서 유성음/무성음 결정의 정확도를 개량하는데 있다. 만일 상대 에너지가 낮으면, 현재의 세그멘트는 무성음 결정을 지지하며, 상대 에너지가 높으면, 현재의 세그멘트는 유성음 결정을 지지하게 된다.

본 발명의 제5특징은 합성된 음성의 유성음 부분을 합성하는데 사용되는 조파를 생성하는 개량된 방법에 있다. 일부 유성음 조파(통상 저주파 조파)는 시간 영역내에서 발생하고, 나머지 유성음 조파는 주파수 영역내에서 발생한다. 이것은 주파수 영역 방법의 다수의 계산 절약을 유지하는 한편, 시간 영역 방법의 음성 품질을 유지할 수 있다.

본 발명의 제6특징은 주파수 영역에 있어서의 유성음 조파를 발생시키는 개량된 방법에 있다. 선형 주파수 스케일링은 유성음 조파의 주파수를 변경하기 위해 사용되고, 역 이산 푸리에 변환(DFT)은 주파수 조파를 시간 영역으로 전환하기 위해 사용된다. 이어서 보간 및 시간 스케일링은 선형 주파수 스케일링의 효과를 정정하기 위해 사용된다. 이 방법은 개량된 주파수 정확도의 장점을 갖는다.

본 발명의 다른 특징 및 장점은 이하의 바람직한 실시예의 상세한 설명 및 특허 청구의 범위로부터 명확히 이해될 수 있을 것이다.

[도면의 간단한 설명]

제1도 내지 제5도는 종래의 피치 산정 방법을 도시하는 도면이다.

제6도는 부분 정수 분해 피치값이 산정되는 본 발명에 따른 바람직한 실시예를 도시하는 플로우 챠트이다.

제7도는 피치 영역이 피치 산정시에 사용되는 본 발명에 따른 바람직한 실시예를 도시하는 플로우 챠트이다.

제8도는 피치 종속 분해가 피치 산정시에 사용되는 본 발명에 따른 바람직한 실시예를 도시하는 플로우 챠트이다.

제9도는 유성음/무성음 결정이 현재의 세그멘트와 최근의 세그멘트의 상대 에너지에 따라 구성되는 본 발명에 따른 바람직한 실시예를 도시하는 플로우 챠트이다.

제10째 도는 하이브리드 시간 및 주파수 영역 합성 방법이 사용되는 본 발명의 바람직한 실시예를 도시한 블록도이다.

제11도는 변경된 주파수 영역 합성이 사용되는 본 발명의 바람직한 실시예를 도시하는 블록도이다.

[본 발명의 바람직한 실시예의 설명]

종래 기술에서, 초기 피치 산정은 정수 분해에 의해 산정된다. 상기 방법의 실행은 부분 정수 분해(즉, ½ 정수의 분해)를 사용함으로써 크게 개량될 수 있다. 이것은 상기 방법의 변경을 필요로 한다. 에러 기준으로서 식 (1)에서 E(P)가 사용되면, 예컨대 비정수 P에 대한 E(P)의 계산은 n의 비정수값에 대해 식 (2)의 r(n)의 계산을 필요로 한다. 이것은 다음 식 (21)에 의해 달성될 수 있다.

식 (21)은 간단한 선형 보간식이다. 그러나, 보간이 다른 형태는 선형 보간 대신에 사용될 수 있다. 그 목적은 부분 정수 분해를 위해 초기 피치 산정을 필요로 하고, 식(1)의 E(P)의 계산을 위해 식(21)을 사용한다. 이 절차는 제6도에 도시되어 있다.

초기 피치 산정에 있어서, 종래의 기술은 P의 상이한 값(22≤ P ＜ 115)을 통상적으로 대략 100으로 고려한다. 만일 부분 정수 분해가 가능하다면, ½ 정수를 가정하여 P의 상이한 값을 186으로 고려한다. 이것은 많은 양의 계산, 특히 룩 어헤드 트랙킹에 필요하다. 계산을 감소시키기 위해 P의 허용 범위를 다수의 작은 불균일한 영역으로 분할할 수 있다. 적당한 수는 20이다. 20개의 불균일한 영역의 예는 다음과 같다.

각 영역내에서, E(P)가 최소이고, E(P)의 대응값인 P의 값을 유지한다. E(P)와 관련한 모든 다른 정보는 폐기한다. 피치 트랙킹 방법(룩 백 및 룩 어헤드)은 초기 피치 산정 ()을 결정하기 위해 이들 값을 사용한다. 상기 피치 연속성의 제한은 피치가 룩 백 트랙킹 또는 룩 어헤드 트랙킹중 하나로 고정된 다수의 영역에 의해 변화 가능하도록 변경된다.

예컨대, 피치 영역 3에서 P_-1=26이면, P는 피치 영역 2, 3또는 4내에 있도록 제한 될 수 있다. 이것은 룩 백피치 트랙킹내에서 영역 1의 허용 가능한 피치 차에 대응한다.

유사하게, 피치 영역 3에서 P=26이면, P₁는 피치 영역 1, 2, 3, 4또는 5내에 있도록 제한될 수 있다. 이것은 룩 어헤드피치 트랙킹내에서 영역 2의 허용 가능한 피치 차에 대응한다. 허용 가능한 피치 차는 룩 백 트랙킹에서 보다 룩 어헤드 트랙킹에서 서로 상이하게 나타난다. 영역 20에 대해 P의 값이 약200으로의 감소는 실행에 다소 차이가 있는 크기 순서로 룩 어헤드 피치 트랙킹동안 계산 요구를 감소시킨다. 또한 저장 요구가 감소되고, 단지 E(P) 만이 100∼200에서보다 20정도 상이한 P₁의 값으로 저장될 필요가 있다.

다수의 영역이 실질적인 감소는 계산을 감소시킬 수 있지만 성능을 저하시킬 것이다.2개의 후보 피치가 동일 영역내에서 하강하면, 예컨대 2개의 피치 사이의 선택은 낮은 E(P)에 따라 기능을 엄격하게 할 것이다. 이 경우에 피치 트랙킹의 이점은 손실될 것이다. 제7도는 초기 피치를 산정하기 위해 피치 영역을 사용하는 피치 산정 방법의 플로우 챠트를 도시하고 있다.

다대역 여자(MBE ; Multi Band Excitation) 보코더 및 선형 예측 부호화(LPC ; Linear Predictive Coding) 보코더와 같은 각종 보코더(vocoder; 전기적 음성 분석 합성 장치)에서, 산정된 피치는 고정 분해, 정수 샘플 분해 또는 ½샘플 분해를 갖는다. 기본 주파수(ω0)는 피치 P에 반비례하고, 고정 피치 분해는 큰 P 보다 작은 P에 대해 기본 주파수 분해에 대응한다. P의 함수로서 P의 분해 변화는 기본 주파수 분해의 피치 의존도의 일부를 제거함으로써 시스템 성능을 개량할 수 있다. 통상적으로 이것은 P의 큰값에서 보다 P의 작은값에 대해 높은 피치 분해를 사용함으로써 달성할 수 있다. 예컨대, 함수 E(P)는 22≤ P ＜ 60의 범위내에서 피치값에 대한 ½ 샘플 분해와 60 ≤ P ＜ 115의 범위내에서 피치값에 대한 정수 심플 분해로 평가될수 있다. 또다른 예는 22≤ P ＜40의 범위내에서 ½ 샘플 분해로 E(P)를 평가하고, 42≤ P ＜ 80 범위내에서 정수 샘플 분해로 E(P)를 평가하며, 80 ≤ P ＜ 115의 범위내에서 분해 2(즉 P의 값)로 E(P)를 평가할 수 있다. 본 발명은 E(P)가 피치 배가 문제에 가장 민감한 P의 값에 대해서만 많은 분해로 평가됨으로써 계산의 절약을 실현하는 장점을 갖는다. 제8도는 피치 종속 분해를 사용하는 피치 산정 방법의 플로우 챠트를 도시하고 있다.

피치 종속 분해의 방법은 피치 영역을 사용하는 피치 산정 방법과 결합될 수 있다. 피치 영역에 기초한 피치 트랙킹 방법은 각 영역내에서 E(P)의 최소값을 찾을 수 있을 때 정확한 분해(즉, 피치 종속)로 E(P)를 평가하기 위해 수정될 수 있다.

종래의 보코더 실행에 있어서, 각 주파수 대역에 대한 V/UV 결정은 일부 임계치로와사이의 차이의 측정을 비교함으로써 행할 수 있다. 그 임계치는 통상의 대역내에서 피치 P와 주파수의 함수이다. 그 성능은 피치 P 및 대역내에서 주파수 뿐만 아니라 신호의 에너지(제9도에 도시됨)의 함수인 임계치를 사용함으로서 크게 개선될 수 있다. 신호 에너지를 트랙킹함으로써, 최근의 사전 히스토리에 대한 현재의 프레임의 신호 에너지를 평가할 수 있다. 상대 에너지가 낮으면, 신호는 무성음으로 되어, 그 임계치는 편향 결정의 무성음을 제공하도록 조절된다. 상대 에너지가 높으면, 신호는 유성음으로 되어, 그 임계치는 편향 결정의 유성음을 제공하도록 조절된다. 상기 에너지 종속 유성음 임계치는 다음과 같이 실행된다. 에너지 측정 ξ₀는 다음의 식(22)와 같이 계산될 수 있다.

여기서는 식(14)로 한정되고, H(ω)는 주파수 종속 가중 함수이다. 각종 다른 에너지 측정은 식(22) 대신에 다음 식(23)으로 사용될 수 있다.

본 발명은 각 음성 세그멘트의 상대 밀도를 나타내는 측정을 위해 사용한다.

평균 국부 에너지, 최대 국부 에너지 및 최소 국부 에너지에 대응하는 3가지 특성은 다음의 규칙에 따라 각각의 음성 프레임을 갱신한다.

제1음성 프레임에 대해 ξ_avg, ξ_max, 및 ξ_min의 값은 임의의 양수로 초기화 된다. 상수 γ₀, γ₁, ...γ₄및 μ는 방법의 적응도를 제어한다.

특정값은 다음과 같다.

γ₀=0.067, γ₁=0.5, γ₂=0.01,γ₃=0.5, γ₄=0.025, μ=2.0

식(24), (25) 및 (26)의 함수는 단지 일예이고, 다른 함수도 가능하다. ξ₀,ξ_av

_g,ξ_min및ξ_max의 값은 다음과 같이 V/UV 임계치 함수에 영향을 주게된다. Τ(P,ω)는 피치 및 주파수 종속 임계치가 된다. 새로운 에너지 종속 임계치는 다음의 식(27)로 정의된다.

여기서, Μ(ξ₀, ξ_avg, ξ_min, ξ_max)는 다음의 식(28)로 주어진다.

상수 λ₀, λ₁, λ₂및 ξ_silence의 통상적인 값은 다음과 같다.

λ₀=0.5, λ₁=2.0, λ₂=0.0075, ξ_silence=200.0

상기 V/UV 정보는 에너지 종속 임계치와, 식 (19)에서 정의된 Di을 비교함으로써 결정된다. 만일 Di이 임계치보다 작으면, i번째 주파수 대역은 유성음이 되도록 결정된다. 그렇지 않으면 i번째 주파수 대역은 무성음이 되도록 결정된다.

식(27)에서 Τ(P,ω)는 본 발명이 특징에 영향을 주지 않고 피치 및 주파수와 다른 종속 변수를 포함하도록 변경될 수 있다. 또한, Τ(P,ω)의 피치 종속 및 주파수 종속은 본 발명의 특징에 영향을 주지 않고 가장 간단한 형태 Τ(P,ω)가 상수가 될 수 있도록 제거될 수 있다.

본 발명의 다른 특징으로, 새로운 하이브리드 유성음 음성 합성 방법은 전술한 시간 영역 방법과 주파수 영역 방법 양쪽의 장점을 결합하는데 있다. 시간 영역방법이 작은 수의 저주파 조파로 사용되고, 주파수 영역 방법이 음성 품질에 적은 손실을 갖는 나머지 조파로 사용되는 경우에 발견할 수 있다. 작은 수의 조파만이 시간 영역 방법으로 발생되기 때문에 새로운 방법은 전체 주파수 영역 방법에 의해 계산의 수가 단축될 수 있다. 하이브리드 유성음 합성 방법은 제10도에 도시하고 있다.

새로운 하이브리드 유성음 합성 방법은 다음의 방법으로 동작한다. 유성음 음성 신호 υ(n)은 다음 식(29)에 따라 합성된다.

여기서 υ₁(n)은 시간 영역 유성음 합성 방법으로 발생되는 저주파 성분이고, υ₂(n)은 주파수 영역 합성 방법으로 발생된 고주파 성분이다.

통상적으로, 저주파 성분 υ₁(n)은 다음의 식(30)으로 합성된다.

여기서, a_k(n)은 구분적 선형 다항식이고, θ_k(n)은 하위 차수 구분적 위상 다항식이다. 식(30)에서 Κ의 값은 시간 영역에서 합성되는 조파의 최대수를 제어한다. Κ의 값은 4≤Κ ≤12의 범위내에서 통상 사용한다. 나머지 고주파 유성음 조파는 주파수 영역 유성음 합성 방법을 사용하여 합성된다.

본 발명의 또다른 특징으로, McAulay 및 Quatieri의 주파수 영역 방법 보다 최상의 주파수 정확도를 가지며 보다 효과적인 새로운 주파수 영역 합성 방법을 제공하는데 있다. 새로운 방법에서 유성음 조파는 ω₀=2π/L에 따라 스케일링되는 선형 주파수로서, 여기서 L은 작은 정수(통상 L ＜ 1000)이다. 이 선형 주파수 스케일링은 주파수ω_k=k·ω₀로부터 k 번째 조파의 주파수를 변화시키는데, ω₀는 기본 주파수이고, 새로운 주파수는 2πk/L이다. 주파수 2πk/L가 L 지점 이산푸리에 변환(DFT)의 샘플 주파수에 대응하기 때문에, L 지점 반전 DFT는 매핑된 모든 조파를 시간 영역 신호으로 동시 변환되도록 사용될 수 있다. 다수의 효율적인 알고리즘은 반전 DFT를 계산하므로서 존재한다. 그 예로는 고속 푸리에 변환(FFT), 위노그래드 푸리에 변환(Winograd Fourier Transform) 및 프라임 펙터 알고리즘(Prime Factor Algorithm)을 들 수 있다. 이들 각 알고리즘은 허용 가능한 L의 값에 따라 서로 제한되어 위치한다. 예컨대, 상기 FFT는 2⁷, 3⁵, 2⁴, 3²등과 같이 합성수가 크게 되도록 L이 요구된다.

선형 주파수 스케일링에 의해은 소정의 신호υ₂(n)의 시간 스케일링된 버전이다. 따라서, υ₂(n)은 선형 보간 및의 시간 스케일링에 대응하는 식(31)∼(3

3)을 통해으로부터 복구시킬 수 있다.

여기서,

보간의 다른 형태들이 선형 보간 대신에 사용될 수도 있다. 이 처리 과정은 제11도에 도시되어 있다.

본 발명의 다른 실시예는 다음의 특허 청구 범위내에서 기술하고 있다. 특허청구의 범위에서 사용되는 에러 함수는 폭넓은 의미를 가지며, 피치형 함수를 포함한다.

Claims

음향 신호의 개별 시간 세그멘트의 피치가 산정되는 음향 신호를 처리하는 방법에 있어서, 미리선택된 허용 가능한 피치의 범위를 부분 정수 분해로 이루어진 복수의 피치값으로 분할하는 단계와, 초소한 몇 개의 상기 피치값에 대해 현재의 세그멘트에 대한 상기 피치값을 비교하는 수치 수단을 제공하는 에러 함수를 평가하는 단계와, 사전 세그멘트의 피치 산정을 소정의 제1범위 이상 또는 그 이하의 범위내에서 상기 에러 함수를 감소시키는 피치값을 현재의 세그멘트에 대한 피치 산정으로서 선택하기 위해 룩 백 트랙킹을 사용하는 단계를 포함하고, 상기 음향 신호의 세그멘트의 산정된 피치를 나타내는 피치 산정값을 결정하여 저장하는 단계와; 상기 음향 신호를 처리하기 위해 상기 피치 산정값을 사용하는 단계를 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
제1항에 있어서, 누적된 에러 함수가 현재의 세그멘트의 피치 산정의 함수로서 현재의 세그멘트 및 미래의 세그멘트이 누적 에러의 산정을 제공하며, 미래의 세그멘트의 피치 산정이 사전 세그멘트의 피치 산정이 소정의 제2범위 내에 있도록 제한되어, 상기 누적된 에러 함수를 감소시키는 피치값을 현재의 시간 세그멘트에 대한 피치 산정으로서 선택하도록 룩 어헤드 트랙킹을 사용하는 단계와; 현재 세그멘트의 피치 산정으로서 사용하기 위해 룩 백 트랙킹 또는 룩 어헤드 트랙킹 중 어느 하나를 선택하여 상기 피치 산정을 결정하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
제2항에 있어서, 현재의 세그멘트와 선택된 사전 세그멘트에 대한 룩 백 트랙킹을 위해 사용되는 에러 함수로부터 유도되는 에러의 합이 소정의 임계치 보다 작을 경우에는, 현재의 세그멘트의 피치 산정은 룩 백 트랙킹으로 선택되는 피치 산정과 동일하고; 현재의 세그멘트와 사전 선택된 세그멘트에 대한 룩 백 트랙킹을 위해 사용되는 에러 함수로부터 유도되는 에러의 합이 룩 어헤드 트랙킹을 위해 사용되는 누적 에러 함수로부터 유도되는 누적 에러보다 작을 경우에는, 현재의 세그맨트의 피치 산정은 룩 백 트랙킹으로 선택되는 피치 산정과 동일하며; 그렇지 않은 경우에는 현재의 세그멘트의 피치 산정은 룩 어헤드 트랙킹으로 선택되는 피치 산정과 동일한 것을 특징으로 하는 음향 신호 처리 방법.
제1항 또는 제2항에 있어서, 상기 룩 백 트랙킹은 상기 에러 함수를 최소화하는 피치 산정을 선택하기 위해 사용되는 것을 특징으로 하는 음향신호 처리 방법.
제1항 또는 제2항에 있어서, 상기 룩 백 트랙킹은 상기 에러 함수를 최소화하는 피치 산정을 선택하기 위해 사용되고, 상기 에러 함수는 자동 상관 함수에 의존하며, 상기 자동 상관 함수는 이 자동 상관 함수의 값들 사이에서 정수로 보간함으로써 비정수 값에 대해 산정되는 것을 특징으로 하는 음향 신호 처리 방법.
제5항에 있어서, 비정수 값에 대한 상기 자동 상관 함수는 상기 자동 상관 함수의 정수값들 사이에서 보간함으로써 산정되는 것을 특징으로 하는 음향 신호 처리 방법.
음향 신호의 개별 시간 세그멘트의 피치가 산정되는 음향 신호를 처리하는 방법에 있어서, 미리선택된 허용 가능한 피치의 범위를 부분 정수 분해로 이루어진 복수의 피치값으로 분할하는 단계와, 최소한 몇개의 상기 피치값에 대해 현재의 세그멘트에 대한 상기 피치값을 비교하는 수치 수단을 제공하는 에러 함수를 평가하는 단계와, 누적 에러 함수가 현재 세그켄트의 피치 산정이 함수와 미래 세그멘트에 대한 에러 함수의 값으로서 현재의 세그멘트 및 미래의 세그멘트의 누적 에러의 산정을 제공하며, 미래 세그멘트의 피치 산정이 사전 세그멘트의 피치 산정의 소정의 제2범위 내에 있도록 제한되어, 상기 누적 에러 함수를 감소시키는 피치그값을 현재의 시간 세그멘트에 대한 피치 산정으로서 선택하기 위해 룩 어헤드 트랙킹을 사용하는 단계를 포함하고, 상기 음향 신호의 세그멘트의 산정된 피치를 나타내는 피치 산정값을 결정하여 저장하는 단계와; 상기 음향 신호를 처리하기 위해 상기 피치 산정값을 사용하는 단계를 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
제1항 또는 제2항에 있어서, 피치 P의 에러 함수는 다음 식,

으로 나타내는데, 여기서, r(n)은 다음 식,

에 의해 제공 자동 상관 함수이며,

인 것을 특징으로 하는 음향 신호 처리 방법.
제8항에 있어서, 비정수값에 대한 자동 상관 함수 r(n)은 이 자동 함수 r(n)의 정수값들 사이에서 보간함으로써 산정하는 것을 특징으로 하는 음향 신호 처리 방법.
제9항에 있어서, 상기 보간은 다음식,

을 사용하여 실행되는 것을 특징으로 하는 음향 신호 처리 방법.
제1항, 제2항 또는 제3항중 어느 한항에 있어서, 상기 피치 산정을 정제하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
제7항에 있어서, 상기 룩 어헤드 트랙킹은 상기 누적 에러 함수를 최소화하는 피치 산정을 선택하기 위해 사용되는 것을 특징으로 하는 음향 신호 처리 방법.
제7항에 있어서, 상기 룩 어헤드 트랙킹은 상기 누적 에러 함수를 최소화하는 피치 산정을 선택하기 위해 사용되고, 상기 누적 에러 함수는 자동 상관 함수에 의존하며, 상기 자동 상관 함수는 이 자동 상관 함수의 값들 사이에서 정수로 보간함으로써 비정수 값에 대해 산정되는 것을 특징으로 하는 음향 신호 처리 방법.
음향 신호의 개별 시간 세그멘트의 피치가 산정되는 음향 신호를 처리하는 방법에 있어서, 미리선택된 허용 가능한 피치의 범위를 복수의 피치값으로 분할하는 단계와, 모든 영역이 최소한 하나의 피치값을 포함하고, 최소한 하나의 영역이 복수의 상기 피치값을 포함하며, 사전 선택된 허용 가능한 피치의 범위를 복수의 영역으로 분할하는 단계와, 최소한 몇 개의 상기 피치값에 대해 현재의 세그멘트에 대한 상기 피치값을 비교하는 수치 수단을 제공하는 에러 함수를 평가하는 단계와, 복수의 영역내에 모든 피치값에 걸친 에러 함수를 최소화하는 피치값의 최소한 몇 개의 상기 영역을 찾아내어 상기 영역내에 에러 함수의 관련값을 저장하는 단계와, 상기 에러 함수를 최소화 하고 사전 세그멘트의 피치 산정을 포함하는 영역을 소정의 제1범위 이상 또는 그 이하의 범위내에 존재하는 상기 발견된 피치 값중 하나를 현재의 세그멘트에 대한 피치 산정으로서 선택하기 위해 룩 백 트랙킹을 사용하는 단계를 포함하고, 상기 음향 신호의 세그멘트의 산정된 피치를 나타내는 피치 산정값을 결정하여 저장하는 단계와; 상기 음향 신호를 처리하기 위해 상기 피치 산정값을 사용하는 단계를 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
제14항에 있어서, 누적된 에러 함수가 현재 세그멘트의 피치 산정의 함수로서 현재의 세그멘트 및 미래의 세그멘트의 누적 에러의 산정을 제공하며, 미래의 세그멘트의 피치 산정이 사전 세그멘트의 피치 산정을 포함하는 영역을 소정의 제2범위 이상 또는 그 이하의 범위내에 있도록 제한되어, 상기 누적된 에러 함수로 감소시키는 피치 값을 산정 또는 현재의 세그멘트로서 선택하도록 룩 어헤드 트랙킹을 사용하는 단계와; 현재의 세그멘트의 피치 산정으로서 사용하기 위해 상기 피치 산정을룩 백 트랙킹 또는 룩 어헤드 트랙킹중 어느 하나를 선택하여 결정하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
제15항에 있어서, 현재의 세그멘트와 선택된 사전 세그멘트에 대한 룩 백 트랙킹을 위해 사용되는 에러 함수로부터 유도되는 에러의 합이 소정이 임계치 보다 작을 경우에는, 현재의 세그멘트의 피치 산정은 룩 백 트랙킹으로 선택되는 피치 산정과 동일하고; 현재의 세그멘트와 사전 선택된 세그멘트에 대한 룩 백 트랙킹을 위해 사용되는 에러 함수로부터 유도되는 누적 에러 보다 작을 경우에는, 현재의 세그멘트의 피치 산정은 룩 백 트랙킹으로 선택되는 피치 산정과 동일하며; 그렇지 않은 경우에는 현재의 세그멘트의 피치 산정은 룩 어헤드 트랙킹으로 선택되는 피치 산정과 동일한 것을 특징으로 하는 음향 신호 처리 방법.
제15항 또는 제16항에 있어서, 상기 제1및 제2범위는 상이한 수의 영역에 걸쳐서 연장되는 것을 특징으로 하는 음향 신호 처리 방법.
음향 신호의 개별 시간 세그멘트의 피치가 산정되는 음향 신호를 처리하는 방법에 있어서, 사전 선택된 허용 가능한 피치의 범위를 복수의 피치값으로 분할하는 단계와, 모든 영역이 최소한 하나의 피치값을 포함하고 하나의 영역이 복수의 피치값을 포함하며 사전 선택된 허용 가능한 하나의 영역이 복수의 피치값을 포함하며 사전 선택된 허용 가능한 피치의 범위를 복수의 영역으로 분할하는 단계와, 최소한 몇 개의 상기 피치값에 대해 현재의 세그멘트에 대한 상기 피치값을 비교하는 수치 수단을 제공하는 에러 함수를 평가하는 단계와, 복수의 영역내에 모든 피치값에 걸친 에러 함수를 최소화하는 피치값의 최소한 몇 개의 상기 영역을 찾는 단계와, 누적 에러 함수가 현재 세그멘트의 피치 산정의 함수로서 현재의 세그멘트 및 미래의 세그멘트의 누적 에러의 산정을 제공하며, 미래의 세그멘트의 피치 산정이 선행 세그멘트의 피치 산정을 포함하는 영역을 소정의 제2범위 이상 또는 그 이하 내에 있도록 제한되어, 상기 누적 에러 함수를 최소화하는 피치값중 하나를 현재의 세그멘트에 대한 피치 산정으로서 선택하기 위해 룩 어헤드 트랙킹을 사용하는 단계를 포함하고, 상기 음향 신호의 세그멘트의 산정된 피치를 나타내는 피치 산정값을 결정하여 저장하는 단계와; 상기 음향 신호를 처리하기 위해 상기 피치 산정값을 사용하는 단계를 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
제14항 또는 제15항에 있어서, 상기 복수의 영역내의 피치값의 수는 영역들 사이에서 변화하는 것을 특징으로 하는 음향 신호 처리 방법.
제14항 또는 제15항에 있어서, 상기 피치 산정을 정제하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
제14항 또는 제15항에 있어서, 상기 허용 가능한 피치의 범위는 부분 정수 분해를 갖는 복수의 피치값으로 분할되는 것을 특징으로 하는 음향 신호 처리 방법.
제21항에 있어서, 상기 에러 함수는 자동 상관 함수에 의존하는 것을 특징으로 하는 음향 신호 처리 방법.
제14항 또는 제15항에 있어서, 상기 허용 가능한 피치의 범위는 부분 정수 분해를 갖는 복수의 피치값으로 분할되고, 상기 누적 에러 함수는 자동 상관 함수에 의존하며, 상기 자동 상관 함수는 그 자동 상관 함수의 값들 사이에서 정수로 보간함으로써 비정수값에 대해 산정되는 것을 특징으로 하는 음향 신호 처리 방법.
제14항 또는 제15항에 있어서, 상기 허용 가능한 피치의 범위는 피치 종속 분해를 사용하는 복수의 피치값으로 분할되는 것을 특징으로 하는 음향 신호 처리 방법.
제24항에 있어서, 상기 피치값이 작은 값은 높은 분해를 갖는 것을 특징으로 하는 음향 신호 처리 방법.
제25항에 있어서, 상기 피치값의 작은 값은 부분 정수 분해를 갖는 것을 특징으로 하는 음향 신호 처리 방법.
제25항에 있어서, 상기 피치값의 큰 값은 정수 분해보다 큰 것을 특징으로 하는 음향 신호 처리 방법.
음향 신호의 개별 세그멘트의 피치가 산정되는 음향 신호를 처리하는 방법에 있어서, 최소한 몇 개의 피치값이 부분 정수 분해를 처리하며, 미리선택된 허용 가능한 피치의 범위를 피치 종속 분해를 사용하는 소정의 복수의 피치값으로 분할하는 단계와, 최소한 몇 개의 상기 피치값에 대해 현재의 세그멘트에 대한 상기 피치값을 비교하는 수치 수단을 제공하는 에러 함수를 평가하는 단계와, 상기 에러 함수를 감소시키는 피치값을 현재의 세그멘트의 산정된 피치로 선택하는 단계를 포함하고, 상기 음향 신호의 세그멘트의 산정된 피치를 나타내는 피치 산정값을 결정하여 저장하는 단계와; 상기 음향 신호를 처리하기 위해 상기 피치 산정값을 사용하는 단계를 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
음향 신호의 개별 시간 세그멘트의 피치가 산정되는 음향 신호를 처리하는 방법에 있어서, 미리선택된 허용 가능한 피치의 범위를 피치 종속 분해를 사용하는 소정의 복수의 피치값으로 분할하는 단계와, 최소한 몇 개의 상기 피치값에 대해 현재의 세그멘트에 대한 상기 피치값을 비교하는 수치 수단을 제공하는 에러 함수를 평가하는 단계와, 사전 세그멘트의 피치 산정을 소정의 제1범위 이상 또는 그 이하의 범위내에 상기 에러 함수를 감소시키는 피치값을 현재의 시간 세그멘트에 대한 피치 산정으로서 선택하도록 룩 백 트랙킹을 사용하는 단계를 포함하고, 상기 음향 신호의 세그멘트의 산정된 피치를 나타내는 피치 산정값을 결정하여 저장하는 단계와; 상기 음향 신호를 처리하기 위해 상기 피치 산정값을 사용하는 단계를 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
제29항에 있어서, 누적된 에러 함수가 현재 세그멘트의 피치 산정의 함수로서 현재의 세그멘트 및 미래의 세그멘트의 누적 에러의 산정을 제공하며, 미래의 세그멘트의 피치 산정이 사전 세그멘트의 피치 산정의 소정의 제2범위내에 있도록 제한되어, 상기 누적된 에러 함수를 감소시키는 피치값을 현재의 시간 세그멘트에 대한 피치 산정으로서 선택하도록 룩 어헤드 트랙킹을 사용하는 단계와; 현재의 세그멘트의 산정된 피치로서 사용하기 위해 룩 백 트랙킹 또는 룩 어헤드 트랙킹중 어느 하나를 선택하여 상기 피치 산정을 결정하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
제30항에 있어서, 현재의 세그멘트와 선택된 사전 세그멘트에 대한 룩 백 트랙킹을 위해 사용되는 에러 함수로부터 유도되는 에러의 합이 소정이 임계치 보다 작을 경우에는, 현재의 세그멘트의 산정된 피치는 룩 백 트랙킹으로 선택되는 피치 산정과 동일하고; 현재의 세그멘트와 사전 선택된 세그멘트에 대한 룩 백 트랙킹을 위해 사용되는 에러 함수로부터 유도되는 에러의 합이 룩 어헤드 트랙킹을 위해 사용되는 누적 에러 함수로부터 유도되는 누적 에러 보다 작을 경우에는, 현재의 세그멘트의 산정된 피치는 룩 백 트랙킹으로 선택되는 피치 산정과 동일하며; 그렇지 않은 경우에는 현재 세그멘트의 산정된 피치는 룩 어헤드 트랙킹으로 선택되는 피치 산정과 동일한 것을 특징으로 하는 음향 신호 처리 방법.
제28항에 있어서, 상기 룩 백 트랙킹은 상기 에러 함수를 최소화하는 피치값으로 선택하기 위해 사용되는 것을 특징으로 하는 음향 신호 처리 방법.
음향 신호의 개별 시간 세그멘트의 피치가 산정되는 음향 신호를 처리하는 방법에 있어서, 미리선택된 허용 가능한 피치 종속 분해를 사용하는 복수의 피치값으로 분할하는 단계와, 최소한 몇 개의 상기 피치값에 대해 현재의 세그멘트에 대한 상기 피치값을 비교하는 수치 수단을 제공하는 에러 함수를 평가하는 단계와, 누적 에러 함수가 현재 피치의 함수로서 현재의 세그멘트 및 미래의 세그멘트의 누적 에러의 산정을 제공하며, 미래 세그멘트의 피치 산정이 사전 세그멘트의 피치 산정의 소정의 제2범위내에 있도록 제한되어, 상기 누적 에러 함수를 감소시키는 피치값을 현재의 시간 세그멘트에 대한 피치 산정으로서 선택하도록 룩 어헤드 트랙킹을 사용하는 단계를 포함하고, 상기 음향 신호의 세그멘트의 산정된 피치를 나타내는 피치 산정값을 결정하여 저장하는 단계와; 상기 음향 신호를 처리하기 위해 상기 피치 산정값을 사용하는 단계를 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
제33항에 있어서, 상기 룩 어헤드 트랙킹은 상기 누적 에러 함수를 최소화하는 피치 산정을 선택하기 위해 사용되는 것을 특징으로 하는 음향 신호 처리 방법.
제28항에 있어서, 상기 피치값의 작은 값은 높은 분해를 갖는 것을 특징으로 하는 음향 신호 처리 방법.
제35항에 있어서, 상기 피치값의 작은 값은 부분 정수 분해를 갖는 것을 특징으로 하는 음향 신호 처리 방법.
제35항에 있어서, 상기 피치값의 큰값은 정수 분해보다 큰 것을 특징으로 하는 음향 신호 처리 방법.
제1항에 있어서, 상기 음향 신호 처리 방법은 음성 부호화를 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
제28항에 있어서, 모든 영역이 최소한 하나의 피치값을 포함하고 최소한 하나의 영역이 복수의 상기 피치값을 포함하며 사전 선택된 허용 가능한 피치의 범위를 복수의 영역으로 분할하는 단계와; 복수의 영역내에 모든 피치값에 걸친 에러 함수를 최소화하는 피치값의 최소한 몇 개의 영역을 찾는 단계와; 상기 복수의 영역의 하나가 선택된 피치 산정을 현재의 세그멘트의 산정된 피치로 선택하는 단계를 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
제1항 내지 제3항중 어느 한항에 있어서, 상기 음향 신호 처리 방법은 음성 부호화를 포함하고, 기본 주파수에 대해 다대역 여기 음성 모델에 따른 현재의 시간 세그멘트를 분석하는 단계를 추가로 포함하며, 상기 기본 주파수는 현재의 세그멘트에 대한 피치 산정의 함수로서 선택되는 것을 특징으로 하는 음향 신호 처리 방법.
음향 신호를 부호화하는 방법에 있어서, 상기 음향 신호를 연속 시간 구간중 한 구간을 나타내는 각각의 세그멘트로 분할하는 단계와; 상기 세그멘트의 각각을 복수의 주파수 대역으로 분할하는 단계와; 상기 세그멘트의 각각을 현재의 세그멘트로 간주하여 상기 현재의 세그멘트의 복수의 주파수 대역이 각각에 대해 유성음/무성음 결정을 행하도록 하는 단계를 포함하며, 상기 유성음/무성음 결정 단계는, 상기 주파수 대역에 대해 유성음 측정을 평가하는 단계와; 상기 유성음 측정과 임계치간의 비교에 기초하여 상기 주파수 대역에 대한 유성음/무성음 결정을 행하는 단계와; 상기 현재의 세그멘트의 에너지 측정을 결정하는 단계와; 하나 또는 그 이상의 최근의 이전 세그멘트의 신호 에너지 측정을 결정하는 단계와; 현재의 세그멘트의 에너지 측정이 상기 하나 또는 그 이상의 최근의 이전 세그멘트의 신호 에너지의 측정과 비교하는 단계와; 상기 현재의 세그멘트의 에너지 측정이 상기 하나 또는 그 이상의 최근의 이전 세그멘트의 신호 에너지 측정 보다 큰 경우에는 유성음 결정을 내리도록 임계치를 조절하는 단계를 포함한 것을 특징으로 하는 음향 신호 부호화 방법.
음향 신호를 부호화하는 방법에 있어서, 상기 음향 신호를 연속 시간 구간중 한 구간을 나타내는 각각의 세그멘트로 분할하는 단계와; 상기 세그멘트의 각각을 복수의 주파수 대역으로 분할하는 단계와; 상기 세그메트의 각각을 현재의 세그멘트로 간주하여 상기 현재의 세그멘트의 복수의 주파수 대역의 각각에 대해 유성음/무성음 결정을 행하도록 하는 단계를 포함하며, 상기 유성음/무성음 결정 단계는, 상기 주파수 대역에 대해 유성음 측정을 평가하는 단계와; 상기 유성음 측정과 임계치간의 비교에 기초하여 상기 주파수 대역에 대한 유성음/무성음 결정을 행하는 단계와; 상기 현재의 세그멘트 에너지 측정을 결정하는 단계와; 하나 또는 그 이상의 최근의 이전 세그멘트의 신호 에너지의 측정을 결정하는 단계와; 현재의 세그멘트의 에너지 측정을 상기 하나 또는 그 이상의 최근의 이전 세그멘트의 신호 에너지의 측정과 비교하는 단계와; 상기 현재의 세그멘트의 에너지 측정이 상기 하나 또는 그 이상의 최근의 이전 세그멘트의 신호 에너지의 측정치 이하일 경우에는 무성음 결정을 내리도록 임계치를 조정하는 단계를 포함하는 것을 특징으로 하는 음향 신호 부호화 방법.
제42항에 있어서, 상기 현재의 세그멘트의 에너지 측정이 상기 하나 또는 그 이상의 최근의 이전 세그멘트의 신호 에너지의 측정치 보다 큰 경우에는 유성음 결정을 내리도록 임계치를 조정하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호 부호화 방법.
제42항 또는 제43항에 있어서, 상기 현재의 세그멘트의 에너지 측정치 ξ₀는 다음 식,

으로 구해지며, 여기서, ω는 주파수이고, H(ω)는 주파수 종속 가중 함수이며, S_ω(ω)는 음향 신호의 푸리에 변환인 것을 특징으로 하는 음향 신호 부호화 방법.
제42항 또는 제43항에 있어서, 상기 유성음 측정치 Di은 다음 식,

으로 구해지며, 여기서, ω는 윈도우 함수이고, S_ω(ω)는 음향 신호의 푸리에 변환이며,는 음향 신호를 모델링하기 위해 사용된 유성음 스펙트럼이고, ω는 주파수이고, Ω₁는 주파수 대역의 경계인 것을 특징으로 하는 음향 신호 부호화 방법.
제42항 또는 제43항에 있어서, 상기 임계치 Τ_ξ(P,ω)는 다음 식,

에 따라 갱신되며, 여기서, ξ₀는 현재 세그멘트의 측정치이고, ξ_avg는 순환 방정식 ξ_avg= (1-γ₀)ξ_avg+ γ₀·ξ₀에 따라 계산된 평국 국부 에너지이며, ξ_max다음의 순환 방정식,

에 따라 계산된 최대 국부 에너지이며, ξ_min은 다음의 순환 방정식,

에 따라 계산된 최소 국부 에너지이며 Μ(ξ₀, ξ_avg, ξ_min, ξ_max)은 다음 식,

에 따라 계산되며, 여기서 P는 피치이고 λ₀, λ₁, λ₂, μ, ξ_silence, γ₀,γ₁, γ₂, γ₃, γ₄는 상수인 것을 특징으로 하는 음향 신호 부호화 방법.
음향 신호를 부호화하는 방법에 있어서, 상기 음향 신호를 연속 시간 구간중 한 구간을 나타내는 각각의 세그멘트로 분할하는 단계와; 상기 세그멘트의 각각을 현재의 세그멘트로 간주하여 상기 현재의 세그멘트의 적어도 하나의 주파수 대역에 대한 유성음/무성음 결정을 행하도록 하는 단계를 포함하며, 상기 유성음/무성음 결정 단계는, 상기 주파수 대역에 대한 유성음 측정을 평가하는 단계와; 상기 유성음 측정과 임계치간의 비교에 기초하여 상기 주파수 대역에 대해 유성음/무성음 결정을 행하는 단계와; 상기 현재의 세그멘트의 에너지 측정을 결정하는 단계와; 하나 또는 그 이상의 연속적인 후속 세그멘트의 신호 에너지의 측정을 결정하는 단계와; 현재의 세그멘트의 에너지 측정을 상기 연속적인 후속 세그멘트의 신호 에너지의 측정과 비교하는 단계와; 상기 현재의 세그멘트의 에너지 측정이 상기 후속 세그멘트의 신호 에너지의 측정치보다 큰 경우에는 유성음 결정을 내리도록 임계치를 조정하는 단계를 포함하는 것을 특징으로 하는 음향 신호 부호화 방법.
음향 신호를 부호화하는 방법에 있어서, 상기 음향 신호를 연속 시간 구간중 한 구간을 나타내는 각각의 세그멘트로 분할하는 단계와; 상기 세그멘트의 각각을 현재의 세그멘트로 간주하여 상기 현재의 세그멘트의 적어도 하나의 주파수 대역에 대한 유성음/무성음 결정을 행하도록 하는 단계를 포함하며, 상기 유성음/무성음 결정 단계는, 상기 주파수 대역에 대한 유성음 측정을 평가하는 단계와; 상기 유성음 측정과 임계치간의 비교에 기초하여 상기 주파수 대역에 대해 유성음/무성음 결정을 행하는 단계와; 상기 현재의 세그멘트의 에너지 측정을 결정하는 단계와; 하나 또는 그 이상의 연속적인 후속 세그멘트의 신호 에너지의 측정을 결정하는 단계와; 현재의 세그멘트의 에너지 측정을 상기 후속 세그멘트의 신호 에너지의 측정과 비교하는 단계와; 상기 현재의 세그멘트의 에너지 측정이 상기 후속 세그멘트의 신호 에너지의 측정치이하일 경우에는 무성음 결정을 내리도록 임계치를 조정하는 단계를 포함하는 것을 특징으로 하는 음향 신호 부호화 방법.
제96항에 있어서, 상기 현재의 세그멘트의 에너지 측정이 상기 후속 세그멘트의 신호 에너지의 측정치 보다 큰 경우에는 유성음 결정을 내리도록 임계치를 조정하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호 부호화 방법.
제48항 또는 제49항에 있어서, 상기 후속 세그멘트는 상기 현재 세그멘트를 즉각적으로 후속하는 세그멘트인 것을 특징으로 하는 음향 신호 부호화 방법.
유성음 조파로부터의 합성에 의해 생성된 유형의 음성 신호의 유성음부를 생성하기 위한 방법에 있어서, 상기 유성음 조파의 제1및 제2그룹에 대한 정보를 포함하는 복수의 유성음 조파에 대한 정보를 갖는 신호를 수신하는 단계와; 시간 영역 합성 방법을 사용하여 상기 제1그룹의 유성음 조파를 생성하는 단계와; 주파수 영역 합성 방법을 사용하여 상기 제2그룹의 유성음 조파를 생성하는 단계와; 상기 음성 신호의 유성음부를 생성하기 위해 상기 제1및 제2그룹의 유성음 조파를 결합하는 단계를 포함하는 것을 특징으로 하는 방법.
제51항에 있어서, 상기 제1그룹은 저주파 조파를 포함하는 것을 특징으로 하는 방법.
제51항 또는 제52항에 있어서, 상기 제2그룹은 고주파 조파를 포함하는 것을 특징으로 하는 방법.
제53항에 있어서, 상기 시간 영역 합성은 하위 차수 구분적 위상 다항식을 생성함으로써 실행되는 것을 특징으로 하는 방법.
제53항에 있어서, 상기 주파수 영역 합성은, 주파수 스케일링된 조파를 생성하기 위해 맵핑(여기서, L은 작은 정수)에 따라 상기 유성음 조파에 대한 정보를 선형적으로 주파수 스케일링하는 단계와; 상기 주파수 스케일링된 조파를 시간 영역으로 동시에 변환하기 위해 L-지점 역 이상 푸리에 변환(DFT)을 실행하는 단계와; 상기 제2그룹의 유성음 조파를 생성하기 위해 보간 및 시간 스케일링을 실행하는 단계를 포함하는 방법을 사용하여 실행되는 것을 특징으로 하는 방법.
제51항에 있어서, 상기 시간 영역 합성은 하위 차수 구분적 위상 다항식을 생성함으로써 실행되는 것을 특징으로 하는 방법.
유성음 조파로부터의 합성에 의해 생성된 유형의 음성 신호의 유성음부를 생성하기 위한 방법에 있어서, 복수의 유성음 조파에 대한 정보를 포함하는 신호를 수신하는 단계와; 주파수 스케일링된 조파를 생성하기 위해 맵핑(여기서, L은 작은 정수)에 따라 상기 유성음 조파에 대한 정보를 선형적으로 주파수 스케일링하는 단계와; 상기 주파수 스케일링된 조파를 시간 영역으로 동시에 변환하기 위해 L-지점 역 이산 푸리에 변환(DFT)을 실행하는 단계와; 상기 복수의 유성음 조파를 생성하기 위해 보간 및 시간 스케일링을 실행하는 단계와; 상기 음성 신호의 유성음부를 생성하기 위해 상기 유성음 조파를 결합하는 단계를 포함하는 것을 특징으로 하는 방법.
제55항에 있어서, 상기 DFT는 고속 푸리에 변환으로 계산되며, L은 복잡한 합성수인 것을 특징으로 하는 방법.
제55항에 있어서, 상기 보간은 선형 보간으로 실행되는 것을 특징으로 하는 방법.
조파로부터의 음성 신호의 일부 또는 전부를 합성하기 위한 방법에 있어서, 상기 조파의 적어도 2개의 그룹으로 구성되는 복수의 조파에 대한 정보를 포함하는 신호를 처리하는 단계와; 시간 영역 합성 방법을 사용하여 상기 신호로부터 제1그룹의 조파를 생성하는 단계와; 주파수 영역 합성 방법을 사용하여 제2그룹의 조파에 대한 정보로부터 제2신호를 생성하는 단계와; 상기 음성 신호의 일부 또는 전부를 생성하기 위해 상기 생성된 제1그룹의 조파와 상기 생성된 제2신호를 결합하는 단계를 포함하는 것을 특징으로 하는 방법.
제60항에 있어서, 상기 제1그룹은 저주파 조파를 포함하는 것을 특징으로 하는 방법.
제60항에 있어서, 상기 제2그룹은 고주파 조파를 포함하는 것을 특징으로 하는 방법.
제60항에 있어서, 상기 시간 영역 합성은 하위 차수 구분적 위상 다항식을 생성함으로써 실행되는 것을 특징으로 하는 방법.
제60항에 있어서, 상기 주파수 영역 합성은, 주파수 스케일링된 조파를 생성하기 위해 맵핑(여기서, L은 작은 정수)에 따라 상기 유성음 조파에 대한 정보를 선형적으로 주파수 스케일링하는 단계와; 상기 주파수 스케일링된 조파를 시간 영역으로 동시에 변환하기 위해 L-지점 역 이산 푸리에 변환(DFT)을 실행하는 단계와; 상기 제2신호를 생성하기 위해 보간 및 시간 스케일링을 실행하는 단계를 포함하는 방법을 사용하여 실행되는 것을 특징으로 하는 방법.
제60항 또는 제64항에 있어서, 상기 합성된 음성은 다대역 여기(MBE) 음성 코더의 유성음부인 것을 특징으로 하는 방법.
제60항 또는 제64항에 있어서, 상기 복수의 조파에 대한 상기 정보는 사인 변환 코더의 파라미터를 나타내는 것을 특징으로 하는 방법.
조파로부터의 음성 신호의 일부 또는 전부를 합성하기 위한 방법에 있어서, 상기 조파의 적어도 2개의 그룹으로 구성되는 복수의 조파에 대한 정보를 포함하는 신호를 처리하는 단계와; 시간 영역 합성 방법을 사용하여 제1그룹의 조파로부터 제1신호를 생성하는 단계와; 주파수 영역 합성 방법을 사용하여 제2그룹의 조파로부터 제2신호를 생성하는 단계와; 상기 음성 신호의 일부 또는 전부를 생성하기 위해 상기 제1신호와 상기 제2신호를 결합하는 단계를 포함하는 것을 특징으로 하는 방법.
제67항에 있어서, 상기 제1그룹은 저주파 조파를 포함하는 것을 특징으로 하는 방법.
제67항에 있어서, 상기 제2그룹은 고주파 조파를 포함하는 것을 특징으로 하는 방법.
제67항에 있어서, 상기 시간 영역 합성은 하위 차수 구분적 위상 다항식을 생성함으로써 실행되는 것을 특징으로 하는 방법.
제67항에 있어서, 상기 주파수 영역 합성은, 주파수 스케일링된 조파를 생성하기 위해 맵핑(여기서, L은 작은 정수)에 따라 상기 유성음 조파에 대한 정보를 선형적으로 주파수 스케일링하는 단계와; 상기 주파수 스케일링된 조파를 시간 영역으로 동시에 변환하기 위해 L-지점 역 이산 푸리에 변환(DFT)을 실행하는 단계와; 상기 제2신호를 생성하기 위해 보간 및 시간 스케일링을 실행하는 단계를 포함하는 방법을 사용하여 실행되는 것을 특징으로 하는 방법.
제67항 또는 제71항에 있어서, 상기 합성된 음성은 다대역 여기(MBE) 음성 코더의 유성음부인 것을 특징으로 하는 방법.
제67항 또는 제71항에 있어서, 상기 복수의 조파에 대한 상기 정보는 사인 변환 코더의 파라미터를 나타내는 것을 특징으로 하는 방법.
조파로부터의 음성 신호의 일부 또는 전부를 합성하기 위한 방법에 있어서, 복수의 조파에 대한 정보를 포함하는 신호를 처리하는 단계와; 주파수 스케일링된 조파를 생성하기 위해 맵핑(여기서, L은 작은 정수)에 따라 상기 유성음 조파에 대한 정보를 선형적으로 주파수 스케일링하는 단계와; 상기 주파수 스케일링된 조파를 시간 영역으로 동시에 변환하기 위해 L-지점 역 이산 푸리에 변환(DFT)을 실행하는 단계와; 상기 음성 신호의 일부 또는 전부를 생성하기 위해 시간 영역으로 변환된 상기 주파수 스케일링된 조파에 대한 보간 및 시간 스케일링을 실행하는 단계를 포함하는 것을 특징으로 하는 방법.
제74항에 있어서, 상기 합성된 음성은 다대역 여기(MBE) 음성 코더의 유성음부인 것을 특징으로 하는 방법.
제74항에 있어서, 상기 복수의 조파에 대한 상기 정보는 사인 변환 코더의 파라미터를 나타내는 것을 특징으로 하는 방법.
제71항에 있어서, 상기 DFT는 고속 푸리에 변환으로 계산되는 것을 특징으로 하는 방법.
제71항에 있어서, 상기 보간은 선형 보간으로 실행되는 것을 특징으로 하는 방법.