KR20040042903A

KR20040042903A - 일반화된 분석에 의한 합성 스피치 코딩 방법 및 그방법을 구현하는 코더

Info

Publication number: KR20040042903A
Application number: KR1020030080724A
Authority: KR
Inventors: 코베시발라쯔; 마살로우도미니크; 랑블랭클라우드; 가오양
Original assignee: 프랑스 텔레콤; 마인드스피드 테크놀로지 인크
Priority date: 2002-11-14
Filing date: 2003-11-14
Publication date: 2004-05-20
Also published as: ATE345565T1; CN1525439A; EP1420391B1; EP1420391A1; JP2004163959A; DE60309651D1; US20040098255A1; CA2448848A1; HK1067911A1; MXPA03010360A; BR0305195A; ES2277050T3; DE60309651T2

Abstract

향상된 EX-CELP 혹은 RCELP 인코딩 스킴이 제안된다. 이 인코딩 스킴에서, 인코더측에서 스피치 신호는 인지적으로 가중되어 타임 스케일 변경 모듈에 들어가고, 그 다음 변경된 신호는 스피치 또는 LP 단기 잔여 도메인과 같은 다른 도메인으로, 직접적으로 또는 가능하면 다른 처리, 예를 들면 단기 LP 필터링과 같은 처리와 결합된 대응하는 역필터링 동작을 사용하여 변형된다. 편이 함수가 타임 스케일 변경 절차에서 계산되어 변경된 신호 내의 각 샘플의 위치를 변경 전의 원래의 위치와 관련시킨다. 원래의 신호의 서브프레임 경계에 대응하는 변경된 신호의 샘플의 위치는 적절한 요구에 따른 역필터링을 위한 필터를 스위치하도록 평가된다. 따라서, 역필터와 변경된 신호 간의 동기화가 유지된다.

Description

일반화된 분석에 의한 합성 스피치 코딩 방법 및 그 방법을 구현하는 코더{GENERALIZED ANALYSIS-BY-SYNTHESIS SPEECH CODING METHOD, AND CODER IMPLEMENTING SUCH METHOD}

본 발명은 일반화된 분석에 의한 합성(anaysis-by-synthesis) 스피치 코딩을 사용하는 기술에 의한 코딩에 관한 것이며, 보다 구체적으로는 RCELP(Relaxed Code-Excited Linear Prediction) 으로 알려진 기술 등에 관한 것이다.

예측 코딩 개념에 입각한 큰 부류의 스피치 코딩 패러다임이 형성되어 있다. 예측 스피치 코더는 중간 내지 저비트 레이트로 통신 및 저장 시스템에 의해 광범위하게 사용되고 있다.

예측 스피치 코딩에 대한 가장 일반적이고 실용적인 접근은 선형 예측(LP; linear prediction) 스킴으로, 현재의 신호 값이 사전 전송 및 디코딩된 신호 샘플의 선형 조합에 의해 예측되는 것이다. 단기(ST; short-term) 선형 예측은, 입력 신호의 공간적 형상에 밀접하게 관련된 것으로, 초기에 스피치 코딩에 사용되었다. 장기(LT; long-term) 선형 예측은 또한 스피치 신호, 특히 음성화된 스피치 세그먼트(voiced speech segment)의 조화 구조를 포착하도록 도입되었다.

AbS(Analysis-by-Synthesis) 방법은 장기 선형 예측과 코드북 여기 검색(codebook excitation search)를 이용하여, 잔여 단기 LP를 최적으로 코딩하고 분석하는 효과적인 방법을 제공해 왔다. AbS 스킴은 CELP(Code-Excited Linear Prediction) 코더 및 SEV(Self-Excited Vocoders)를 포함하는 큰 스피치 코더 족에 대한 기본이다(A. Gercho, "Advanced in Speech and Audio Compression", Proc. of IEEE, Vol.82, No.6, pp.900-918, 1994년 6월).

"피치 예측"이라고도 하는 인코더에서의 장기 LP 분석과 디코더에서의 장기 LP 분석이 스피치 코딩 기술이 발전함에 따라 개발되었다. 초기에 단일 탭 필터로 모델링된 장기 LP는 멀티 탭 필터를 포함하는 것으로 확장되었다(R.P. Ramachandran과 P.Kabal, "Stablility and Performance Analysis of Pitch Filters in Speech Coders", IEEE Trans. on ASSP, Vol.35, No.7, pp. 937-948, 1987년 7월). 그 후, 오버 샘플링과 서브 샘플링을 보간 필터와 함께 사용하는 부분 지연(fractional delay)이 도입되었다(P. Kroon과 B.S. Atal, "Pitch Predictors with High Temporal Resolution", Proc. ICASSP Vol.2, 1990년 4월, pp. 661-664).

이들 초기의 단일 탭 필터의 확장으로서 음성화된 스피치의 성문 소스(glottal source)에 의해 형성되는 LT 리던던시 포착을 개선하도록 고안되었다. LT 매칭과 LP 여기 인코딩(excitation encoding)이 더 잘 될 수록 전반적인 성능이 더욱 향상된다. 매칭 정확도는 LT 파라미터를 자주 리프레시함으로써 또한 향상될 수 있다. 그러나, 멀티탭 LT 예측기나 LT 필터에 대한 더 높은 갱신 레이트를 위해서는 그 표현을 위한 다량의 비트의 전송이 필요하며, 이는 비트 레이트를 상당히 증가시킨다. 이러한 부담은 낮은 비트 레이트의 코더의 경우에 너무 과중하여, 다른 해결책이 필요하다.

상술한 LT 예측 방법의 몇가지 한계를 극복하기 위하여, 일반화된 분석에 의한 합성 코딩(Generalized Anaysis-by-Synthesis Coding)이 도입되었다(W.E. Kleijn 등, "Generalized Anaysis-by-Synthesis Coding and its Application to Pitch Prediction", Proc. ICASSP, Vol.1, 1992, pp.337-340). 이 스킴에서, 원신호는 인코딩되기 전에 변경되는데, 변경된 신호는 원신호와 동일하거나 동일한 것으로 인식되는 제한을 갖는다. 이 변경은 코더 파라미터, 보다 구체적으로는 피치 예측 파라미터가 특정 피치 주기 콘투어에 매칭하도록 제한된다. 피치 콘투어는 피치 예측 파라미터를 프레임 단위로 LT 예측 파라미터의 표현에 필요한 비트 레이트를 제약하는 피치 래그에 대한 저해상도 표현을 사용한다.

피치 콘투어를 매칭시키는데 수행되는 변경은 타임 스케일 변경 또는 "타임 워핑(time warping)"이라고 한다(W.E. Kleijn 등, "Interpolation of the Pitch Predictor Parameters in Analysis-by-Synthesis Speech Coders", IEEE Trans. on SAP. Vol.2 No.1, Part1, 1994년 1월, pp.42-54). 타임 스케일 변경 절차의 목적은 원신호의 주요 특징을 여기 신호에 대한 LT 예측의 특징들과 함께 배치하는 것이다.

RCELP 코더는 종래의 CELP 코더로부터 상술한 일반화된 분석에 의한 합성 개념을 피치 파라미터에 적용하는 개념을 사용함으로써 유도되는 것으로, W.E. Kleijn 등의, "The RCELP Speech-Coding Algorithm", European Trans. in Telecommunications, Vol.4 No.5, 1994년 9-10월, pp.553-582에 기재되어 있는 바와 같다.

RCELP 코더의 주요 특징은 다음과 같다. CELP 코더와 같이, 단기 LP 계수가 먼저 예측된다(일반적으로는 프레임 당 한번, 때로는 중간 리프레시를 갖는다). 프레임 길이는 변할 수 있는데, 전형적으로, 10 내지 30ms 사이이다. RCELP 코더에서, 피치 주기는 또한 강력한 피치 검출 알고리즘으로 프레임 단위로 예측될 수있다. 그러면 피치 주기 콘투어가 프레임별 피치 주기를 보간함으로써 얻어질 수 있다. 원신호는 이 피치 콘투어에 매칭하도록 변경된다. 초기의 실시 형태(미국 특허 제5,704,003호)에 있어서, 이 타임 스케일 변경 절차는 단기 LP 잔여 신호에서 수행된다. 그러나, 바람직한 해결책은 입력 신호를 인지적 가중된(perceptually weighting) 필터를 통해 필터링 함으로써 얻어진 인지적 가중된 입력 신호를 사용하는 것이며, 이는 J. Thyssen 등의 "A candidate for the ITU-T 4kbit/s Speech Coding Standaed Proc. ICASSP, Vol.2, 미국, 유타주, 솔트 레이크 시티, 2001년 5월, pp.681-684, 또는 Yang Gao 등의 "EX-CELP: A Speech Coding Paradigm", Proc. ICASSP, Vol.2, 미국 유타주 솔트 레이크 시티, 2001년 5월, pp.689-693에 기재된 바와 같다.

변경된 스피치 신호는 그 다음에 역 사전처리(pre-processing) 필터를 이용하여 역필터링에 의해 얻어지고, 이후의 코딩 동작은 종래의 CELP 코더에서 수행되는 것과 동일하다.

변경된 입력 신호는 실제로 타임 스케일 변경 전에 수행되는 필터링의 종류와 타임 스케일 변경 모듈에 다음의 CELP 인코더에 채용된 구조에 따라 계산된다는 것을 알아야 한다.

CELP 코더의 고정 코드북 검색에 사용되는 인지적 가중 필터가 A(z)/A(z/γ)의 형태이고, 여기서 A(z)는 LP 필터이고 γ는 가중 인자일 때, 단 하나의 순환(recursive) 필터링만이 목표 계산에 관여된다. 따라서 잔여 신호만이 코드북 검색에 계산된다. RCELP 코딩의 경우, 타임 스케일 변경이 이 잔여 신호에 수행되었으면 변경된 원신호를 계산할 필요는 없다. 가중 인자가 γ₁, γ₂일 때 A(z/γ₁)/A(z/γ₂) 형태의 인지적 가중 필터는 더 나은 성능과 보다 구체적으로 적응적 인지적 필터를 제공하는 것으로 알려져 있는데, 예를 들면, γ₁, γ₂가 변수일 때, 미국 특허 제5,845,244호에 개시된 바와 같다. 이러한 가중 필터가 CELP 절차에 사용될 때, 목표 평가는 2개의 순환 필터를 도입한다.

많은 CELP 구조(예컨대, R.Salami 등의 "Design and description of CS-ACELP: a toll quality 8 kb/s speech coder", IEEE Trans. on Speech and Audio Processing, Vol.6, No.2, 1998년 3월)에서, 중간 필터링 과정은 이전의 가중 에러 신호를 메모리에 공급하면서, 현재의 잔여 신호를 LP 합성 필터에 공급한다. 입력 신호는 프레임 프로세싱 마지막에 잔여 계산 및 에러 신호 갱신을 하는데 모두 관여한다.

RCELP의 경우에 있어서, 이 스킴을 단순히 구현하면 변경된 원래의 입력을 계산할 필요가 생긴다. 그러나, 변경된 입력 신호를 필요로 하지 않는 동등한 스킴이 유도될 수 있다. 이들은 타임 스케일 변경이 잔여 신호에 적용되면 변경된 잔여 신호, 혹은, 타임 스케일 변경이 가중 스피치에 적용되면 변경된 가중 입력를 이용하는데 기초한다.

실제로, 대부분의 RCELP 코더는 상기 제시된 종류의 구조를 이용하여 변경된 원신호를 실질적으로 계산하지 않는다.

공지의 RCELP 코더의 블록도가 도 1에 도시되어 있다. 선형 예측 코딩(LPC)분석 모듈(1)이 먼저 입력 오디오 신호 S를 처리하여 모듈(2)에 의해 사용되는 LPC 파라미터를 전달 함수가 F(z)인 사전처리 필터(3)의 계수를 계산하도록 제공된다. 이 필터(3)는 입력 신호 S를 수신하고 사전처리 신호 FS를 피치 분석 모듈(4)에 공급한다. 이렇게 예측된 피치 파라미터는 모듈(5)에 의해 피치 궤적을 구하도록 처리된다.

필터링된 입력 FS는 또한 타임 스케일 변경 모듈(6)에 주입되는데, 이는 모듈(5)에 의해 얻어진 피치 궤적에 기초한 변경된 필터링된 신호 MFS를 제공한다. 전달 함수 F(z)^-1을 갖는 필터(7)를 이용하는 역필터링이 변경된 필터링 신호 MFS에 공급되어 종래의 CELP 인코더(8)에 공급된 변경된 입력 신호 MS를 제공한다.

다중화기(9)에 의해 어셈블된 RCELP 코더의 디지털 출력 플로우 Φ는, 일반적으로 LPC 파라미터와 모듈(1, 4)에 의해 계산된 피치 랙에 대한 양자화 데이타, 인코더(8)에 의해 얻어진 CELP 코드북 색인, 역시 인코더(8)에 의해 얻어진 LT 예측과 관련된 이득에 대한 양자화 데이타를 포함한다.

직접적인 역필터링 함수(7)보다, 변경된 필터링된 신호의 다른 도메인으로의 전환이 수행될 수 있다. 이러한 의견은 본 명세서에서 기술된 종래의 기술과 후에 개시될 본 발명에 대해 유지된다. 예를 들어, 이러한 도메인은 잔여 도메인이 될 수 있으며, 역 사전처리 필터 F(z)^-1가 CELP 인코더의 단기 LP 필터링과 같은 다른 필터링과 함께 사용된다. 보다 직접적인 이해를 위해서, 이하에서는 변경된 입력 신호가 실질적으로 계산되는 경우, 즉, 역 사전처리 필터(7)가 명백하게 이용될 때를 고려한다.

대부분의 AbS 스피치 코딩 방법에 있어서, 스피칭 처리는 단기 LP 분석 주기에 따라 일반적으로 길이 5 내지 30ms를 갖는 스피치 프레임에서 수행된다. 한 프레임 내에서, 신호는 정지하고 있는 것으로 가정되고, 그 프레임과 관련된 파라미터들은 상수로 고정된다. 이는 F(z) 필터에 대해서도 역시 보편적으로 그러한데, 그 계수는 따라서 프레임 단위 기준으로 갱신된다. LP 분석이 한 프레임에서 한 번 이상 수행될 수 있고, 필터 F(z)도 역시 서브프레임 단위로 변할 수 있다는 것을 알아야 한다. 이는 예를 들면, LP 필터의 인트라 프레임 보간이 사용되는 경우이다.

이하에서, "블록"이라는 용어는 사전처리 필터 파라미터의 주기성 갱신에 대응하는 것으로 사용된다. 당업자라면 이러한 "블록"이 전형적으로 코덱 아키텍처에 따라 LP 분석 프레임, LP 분석 프레임의 서브프레임 등으로 구성된다는 것을 알 것이다.

선형 필터와 관련된 이득은 입력 신호의 에너지에 대한 출력 신호의 에너지의 비율로 정의된다. 명백히, 선형 필터의 고이득은 역선형 필터의 저이득에 대응하고 그 반대도 성립한다.

2개의 연속적인 블록에 대해 계산된 사전처리 필터(3)는 상당히 다른 이득을 가질 수 있는데, 원래의 스피치 S의 에너지는 두 블록 모두에서 유사하다. 필터 이득이 다르기 때문에, 두 블록에 대한 필터링된 신호 FS의 에너지도 역시 상당히 다를 것이다. 타임 스케일 변경없이 모든 고에너지의 필터링된 샘플은 저이득의역 선형 필터(7)에 의해 역 필터링될 것이며, 모든 저에너지의 필터링된 블록의 샘플은 고이득의 역 선형 필터(7)에 의해 역 필터링될 것이다. 이 경우, 변경된 신호 MS의 에너지 프로파일은 입력 스피치 S의 것을 정확히 반영한다.

그러나, 타임 스케일 변경 절차는, 블록 경계 근처에서, 복수의 샘플을 포함하는 제1 블록 부분이 제2의 인접 블록으로 편이될 수 있도록 한다. 이 제1 블록 부분의 샘플은 제2 블록에 대해 계산된 역필터에 의해 필터링될 것인데, 이는 상당히 다른 이득을 가질 수 있다. 변경된 고에너지의 필터링된 신호 MFS의 샘플이 따라서 저이득 대신 고이득을 갖는 역필터(7)에 제공되면, 급작스런 에너지 증가가 변경된 신호에서 일어난다. 청취자는 이러한 에너지 증가를 불쾌한 '클릭' 잡읍으로 인식한다.

도 2는 이 문제를 도시하는데, N은 블록 번호, g_d(N)는 블록 N에 대한 사전처리 필터(3)의 이득, g_i(N)=1/g_d(N)은 블록 N에 대한 역필터(7)의 이득이다.

본 발명의 목적은 역 사전처리 필터(명시적이거나 내재하는)와 타임 스케일 변경된 신호 간의 상술한 불일치를 피하기 위한 해결책을 제공하는 것이다.

도 1은 종래의 기술에 따른 RCELP 코더의 블록도.

도 2는 도 1을 참고로 기술된 형태의 임의의 RCELP 코더에서 직면하게 되는 "클릭 잡음"을 도시하는 타이밍도.

도 3은 도 2와 유사하게, 본 발명에 따른 RCELP 코더의 동작을 도시하는 도면.

도 4는 본 발명에 따른 RCELP 코더의 예를 도시하는 블록도.

도 5는 본 발명의 특정 실시예에 사용되는 분석 윈도우를 도시하는 타이밍도.

<도면의 주요부분에 대한 부호의 설명>

1 : LPC 분석

4 : 피치 분석

8 : CELP 인코더

본 발명은 EX-CELP 또는 RCELP 방식을 사용하는 스피치 코덱의 인코더 측에서 사용되는 것으로, 입력 신호가 타임 스케일 변경 절차에 의해 변경된다. 타임 스케일 변경은 인지적으로 가중된 버전의 입력 신호에 적용된다. 그 후에, 변경된 필터링된 신호는 다른 도메인, 예를 들면, 스피치 도메인 또는 잔여 도메인으로 대응 역필터를 사용하여, 직접적으로 혹은 간접적으로, 예컨대 다른 필터와 결합하여 전환된다.

본 발명은 타임 스케일 변경 스피치와 역필터 파라미터 업데이트의 부정렬에서 기인하는 부산물을, 상기 다른 도메인으로의 전환에 개입된 역필터의 갱신 타이밍을 조절함으로써 제거한다.

타임 스케일 변경 절차에 있어서, 타임 편이 함수는 블록 경계를 변경된 필터링된 신호 내에 위치하도록 계산하는데, 거기서 역필터 파라미터 갱신이 일어날 것이다. 타임 스케일 변경 절차는 일반적으로 이들 블록 경계를 입력되는 필터링된 신호에서 그들의 위치에 대해 편이시킨다. 타임 편이 함수는 가장 적절한 위치에서 역 사전처리 필터 파라미터의 갱신을 수행하기 위해 원신호의 블록 경계에 대응하는 변경된 필터링된 신호의 샘플의 위치를 평가한다. 필터 파라미터를 이들 위치에서 갱신함으로써, 역 필터와 타임 스케일 변경된 필터링된 신호 간의 동기성이 유지되고, 변경된 필터링된 신호가 다른 도메인으로 전환될 때 부산물들이 제거된다.

따라서 본 발명은,

- 입력 오디오 신호를 분석하여 오디오 신호의 연속 블록 중 각 하나에 대한 필터 파라미터의 각 세트를 결정하는 단계;

- 상기 입력 신호를 각 블록에 대해 정의된 인지적 가중 필터내에서 상기 결정된 필터 파라미터 세트에 의해 필터링하여 인지적 가중된 신호를 생성하는 단계;

- 피치 정보에 기초하여 인지적 가중된 신호의 타임 스케일 변경을 하여 변경된 필터링된 신호를 생성하는 단계;

- 변경된 필터링된 신호 내에 블록 경계를 위치시키는 단계; 및

- 변경된 필터링된 신호를 처리하여 코딩 파라미터를 얻는 단계

를 포함하는 스피치 코딩 방법을 제안한다.

후자의 처리는 인지적 가중 필터에 대응하는 역필터링 동작을 포함한다. 역필터링 동작은 위치한 블록 경계에서 갱신된 필터 파라미터의 연속적인 세트에 의해 정의된다.

본 방법의 실시예에서, 입력 신호를 분석하는 단계는 연속적인 신호 프레임에서 수행되는 선형 예측 분석을 포함하고, 각 프레임은 p개의 연속적인 서브프레임(p≥1)으로 만들어진다. 각각의 "블록"은 그 다음 이들 서브프레임들 중 하나를 포함한다. 블록 경계를 위치시키는 단계는 그 다음, 각 프레임에 대해, 변경된 필터링된 신호 내의 p 서브프레임의 경계를 위치시키기 위한 p+1 값의 어레이를 결정하는 단계를 포함한다.

선형 예측 분석은 바람직하게는 이 서브프레임에 중심을 둔 분석 윈도우 함수에 의해 각 p 서브프레임에 적용되는데, 입력 신호를 분석하는 단계는, 현재의 프레임에 대해, 비대칭 예견(look-ahead) 분석 윈도우 함수에 의한 예견 선형 예측 분석을 더 포함하는데, 이는 현 프레임의 최종 서브프레임에 중심을 둔 분석 윈도우 함수의 지원에 대해 먼저 확장하지 않는 지원과 이 최종 서브프레임의 중심에 대해 먼저 위치한 타임 위치에 정렬된 최고치를 갖는다. 프레임의 마지막에 미치지 못한 현재의 프레임에 대해 결정된 (p+1)번째 어레이 값에 대응하여, 역필터링동작은 예견 분석에 의해 결정되는 필터 계수의 세트에 의해 정의되는 상기 (p+1)번째 값에 의해 위치되는 블록 경계에서 유리하게 갱신된다.

본 발명의 다른 측면은 이상 간략히 설명된 방법을 구현하는 수단을 갖는 스피치 코더에 관한 것이다.

<실시예>

도 3은 도 2로부터 명백한 불일치 문제를 어떻게 해소할 수 있는지를 도시한다.

입력 신호의 프레임이나 서브프레임 길이에 관련된 일정한 길이의 역 필터링 블록 대신, 가변 길이의 역필터링이 적용된다. 역필터 F(z, N+1)가 역필터 F(z, N)를 대체하는 경계는 타임 스케일 변경 절차에 달려있다. T₀를 필터링된 신호 FS의 제1 샘플 프레임 N+1의 위치를 나타내는 것으로 하면, 타임 스케일 변경 전에, 변경된 필터링된 신호의 대응하는 샘플 위치는 도 3에서 T₁으로 표시된다. 이 위치 T₁은 타임 스케일 변경 절차의 출력으로서 제공된다. 제안된 방법에서, 역필터링 절차 동안, 역필터 F(z, N)^-1은 샘플 T₀대신 샘플 T₁에서 다음 역필터 F(z, N+1)^-1로 바뀐다. 따라서, 각 샘플은 이 샘플을 가져오는데 사용된 인지적 가중 사전처리 필터에 대응하는 필터에 의해 역필터링되고, 이는 이익 불일치의 위험을 줄인다.

왼쪽으로의 편이가 관찰되면(T₁<T₀), T₁후의 변경된 신호의 샘플들은 입력 신호의 다음 프레임에 대응하는 역필터에 의해 필터링되어야 한다. 일반적으로,LPC 분석 단계에서 수행되는 예견 분석으로 인한 이 필터의 좋은 근사는 이미 알려져 있다. 이 경우 예견 분석으로부터 나오는 이 필터를 사용하면 본 발명을 사용할 때 부가적인 지연이 개입되는 것을 피할 수 있다.

RCELP 스킴의 이러한 발전은 도 1에 예시된 바와 같은 코더에서 얻을 수 있다. 도 1에 도시된 공지의 구조와 비교할 때, 타임 스케일 변경과 역필터링 모듈(16, 17)이 다르다. 다른 요소들(1-5, 8-9)은 공지의 RCELP 코더의 것과 기본적으로 동일할 것이므로 동일한 참조번호를 갖는 것으로 표현된다.

도시한 바와 같이, 본 발명에 다른 코더는, 도 4에 도시된 바와 같이, 이하의 특징을 갖는 저비트 레이트의 협대역 스피치 코더가 될 수 있다.

- 프레임 길이는 20ms, 즉 8kHz 샘플링 레이트로 160 샘플이다.

- 각 프레임은 p=3 서브프레임(블록), 53, 53 및 54 샘플로 나뉘고, 각각 90 샘플의 예견 윈도우를 갖는다. 도 4는 LPC 분석 모듈(1)에 사용되는 다양한 분석 윈도우를 도시한다. 수직 실선은 프레임 경계이고, 수직 점선은 서브프레임 경계이다. 대칭적인 실선은 서브프레임 분석 윈도우에 대응하고, 비대칭 점선은 예견 부분에 대한 분석 윈도우를 나타낸다. 이 예견 분석 윈도우는 프레임의 제3 서브프레임에 속하는 분석 윈도우와 동일한 지지를 갖지만, 예견 영역에 중심을 둔다(즉, 그 최대값이 다음 프레임의 제1 서브프레임의 중심과 맞게 된다).

- 10 오더의 단기 LP 모델이 LPC 분석 모듈(1)에 의해 사용되어 신호의 공간적 인벨롭을 나타낸다. 대응하는 LP 필터 A(z)가 각 서브프레임에 대해 계산된다.

- 사전처리 필터(3)는일 때, F(z)=A(z/γ₁)/A(z/γ₂)의 형태의 적응적 인지적 가중 필터이고, 여기서 a_i는 양자화되지 않은 10번째 오더의 LP 필터의 계수이다. γ₁과 γ₂에 의해 제어되는 인지적 가중의 양은 신호의 공간적 형태에 따르는 것으로 적응되고, 미국 특허 제5,845,244호에 기재된 바와 같다.

신호 퇴화의 원인 중 하나로 두개의 연속하는 인지적 가중 필터의 이득의 차이가 지적돼 왔다. 그 차이가 클수록, 가청 퇴화에 대한 위험이 더 크다. 비적응적 가중 필터를 사용한 경우라도, 즉, γ₁과 γ₂값이 상수일 때도 상당량의 이득 변화가 발생하지만, 적응적 가중 필터는 두 개의 연속하는 필터 이득이 상당히 다를 확률을 증가시키는데, 이는 γ₁과 γ₂값이 매우 급격히 변하기 때문이며, 이는 한 프레임에서 다음 프레임으로 상당한 이득 변화를 유발할 것이다. 따라서 제안된 발명은 적응적 가중 필터를 사용할 경우에 특히 관심이 있다.

가중된 스피치는 계수가 a_i, γ₁과 γ₂로 정의되고 원 서브프레임 경계, 즉, 디지탈 샘플 위치 0, 53, 106, 160에서 갱신되는 인지적 필터(3)로 입력 신호 S를 필터링함으로써 얻는다. 가중된 스피치에 대해 모듈(4)에 의해 만들어진 LT 분석은 고정 음성으로서든 아니든 각 프레임의 분류를 포함한다. 고정 음성화된 프레임에 대해, 피치 궤적은 예를 들어 모듈(5)에 의해서 그 프레임의 최종 샘플과 이전 프레임의 최종 피치값에 따라 피치값의 선형 보간에 의해 계산된다. 비고정 프레임에 대해, 피치 궤적은 어떠한 일정한 피치값으로 세팅될 수 있다.

타임 스케일 변경 모듈(16)은, 필요하다면 RCELP 코더에서 흔히 그러하듯이, 한 피치 주기를 기초로 가중된 스피치의 타임 스케일 변경을 수행할 것이다. 두 주기간의 경계는 두 피치 펄스 간의 저에너지 영역에서 선택된다. 그러면 목표 신호가 주어진 피치 궤적에 따라 선행하는 가중된 스피치의 부분적 LT 필터링에 의해 주어진 주기에 대해 계산된다. 변경된 가중된 스피치는 이 목표 신호에 매칭해야 한다. 가중된 스피치의 타임 스케일 변경은 두 단계로 구성된다. 제1 단계에서, 가중된 스피치의 펄스는 목표 신호의 펄스에 일치하도록 편이된다. 최적의 편이 값은 목표 신호와 가중된 스피치 간의 정규화된 상호 관계를 최대화함으로써 결정된다. 제2 단계에서, 주어진 펄스에 선행하고, 최종 두 펄스 간의 샘플들은 가중된 스피치에서 타임 스케일 변경된다. 이러한 샘플들의 위치는 제1 단계의 편이 동작의 함수로서 비례적으로 압축되거나 확장된다. 축적된 지연은 구해진 국부 편이 값을 기초로 갱신되고, 각 서브프레임의 마지막에 저장된다.

이 타임 스케일 변경 모듈(16)의 출력은 (1) 타임 스케일 변경된 가중된 스피치 신호 MFS와 (2) P+1=4인 어레이 i0, i0[0], i0[1], i0[2], i0[3]으로 표현되는 변경된 서브프레임 경계이다. 이들 변경된 서브프레임 경계는 저장된 축적된 지연을 이용하여 계산되며, 이때 조건은 0≤i0[0]≤i0[1]≤i0[2]≤i0[3]≤160이다. 축적된 지연이 모두 0이면, 원래의 경계 위치가 변하지 않는다. 즉, i0[0]=0, i0[1]=53, i0[2]=106, i0[3]=159이다.

상기 실시예에서, 전달 함수가 F(z)^-1=A(z/γ₁)/A(z/γ₂)이고, 여기서 a_i,γ₁, γ₂는 이하의 방식으로 어레이 i0에 의해 주어진 샘플 위치에서 변경되는 역필터(17)에 의해 스피치 도메인으로의 반환이 이루어진다.

- 샘플 위치 0에서 i0[0]-1에 대해서, 이전 프레임의 제3 서브프레임의 필터 계수가 이용된다. 따라서, 제3 서브프레임의 필터는 적어도 하나 이상의 서브프레임 지속동안 저장되어야 한다.

- 샘플 위치 i0[0]에서 i0[1]-1에 대해서, 현 프레임의 제1 서브프레임의 필터 계수가 이용된다.

- 샘플 위치 i0[1]에서 i0[2]-1에 대해서, 현 프레임의 제2 서브프레임의 필터 계수가 이용된다.

- 샘플 위치 i0[2]에서 i0[3]-1에 대해서, 현 프레임의 제3 서브프레임의 필터 계수가 이용된다.

- 샘플 위치 i0[3]에서 159(i0[3]<160 이면)에 대해서, 예견 분석 윈도우에 대응하는 필터 계수가 사용된다. 따라서 모델링되는 필터는 다음 프레임의 제1 서브프레임의 필터의 좋은 근사가 되는데, 이들은 동일한 서브프레임에 중심을 둔 분석 윈도우에서 계산되기 때문이다. 이러한 근사를 사용하면 부가적인 지연을 도입할 필요를 회피하게 된다. 이와 달리, 54개의 추가 샘플이 다음 프레임의 제1 서브프레임의 LP 분석을 하는데 필요하다.

따라서, 가중된 스피치의 각 영역은 우측 필터(17)에 의해, 즉, 분석에 사용된 역필터에 의해 역필터링된다. 이는 필터 이득 불일치에 기인한 급작스런 에너지 분출을 피하게 한다(도 2와 같이).

본 발명은 타임 스케일 변경 스피치와 역필터 파라미터 업데이트의 부정렬에서 기인하는 부산물을 상기 다른 도메인으로의 전환에 개입된 역필터의 갱신 타이밍을 조절함으로써 제거한다.

Claims

입력 오디오 신호를 분석하여, 연속하는 상기 오디오 신호의 블록 중 각각에 대해 각각의 필터 파라미터의 세트를 결정하는 단계;

상기 입력 신호를 각 블록에 대해 정의된 인지적 가중 필터에서 상기 결정된 필터 파라미터의 세트에 의해 필터링하여, 인지적으로 가중된 신호를 생성하는 단계;

피치 정보에 기초하여 인지적으로 가중된 신호의 타임 스케일을 변경하여, 변경된 필터링된 신호를 생성하는 단계;

상기 변경된 필터링된 신호 내에 블록 경계를 위치시키는 단계; 및

상기 변경된 필터링된 신호를 처리하여, 코딩 파라미터를 얻는 단계

를 포함하고,

상기 처리 단계는 인지적 가중 필터에 대응하는 역필터링 동작을 포함하고, 상기 역필터링 동작은 상기 위치된 블록 경계에서 갱신된 연속적인 필터 파라미터 세트에 의해 정의되는 스피치 코딩 방법.
제1항에 있어서,

상기 인지적 가중 필터는 적응적 인지적 가중 필터인 방법.
제2항에 있어서,

상기 인지적 가중 필터는, A(z)가 상기 입력 신호를 분석하는 단계예서 예측된 선형 예측 필터의 전달함수이고, γ₁과 γ₂는 인지적 가중량을 제어하기 위한 적응적 계수일때, A(z/γ₁)/A(z/γ₂)의 형태의 전달함수를 갖는 방법.
제1항에 있어서,

상기 블록 경계를 위치시키는 단계는, 상기 인지적으로 가중된 신호의 각 블록의 샘플에 적용되는 타임 스케일 변경으로부터 나오는 지연(delay)을 축적하는 단계와, 상기 축적된 지연값을 블록 단부에 저장시켜 블록 경계를 변경된 필터링된 신호내에 위치시키는 단계를 포함하는 방법.
제1항에 있어서,

상기 입력 신호를 분석하는 단계는, 연속적인 신호 프레임에 수행되는 선형 예측 분석을 포함하고 - 각 프레임은 p가 1 이상의 정수일 때, p개의 연속적인 서브프레임으로 구성됨 - , 상기 블록 각각은 상기 서브프레임 중 하나를 포함하고, 상기 블록 경계를 위치시키는 단계는, 각 프레임에 대해, 상기 프레임의 p개의 서브프레임의 경계를 변경된 필터링된 신호 내에 위치시키기 위한 p+1개 값의 어레이를 결정하는 단계를 포함하는 방법.
제5항에 있어서,

상기 선형 예측 분석은 상기 서브프레임에 중심을 둔 분석 윈도우 함수로 각 서브프레임에 적용되고,

상기 입력 신호를 분석하는 단계는, 현재의 프레임에 대해, 현재의 프레임의 최종 서브프레임에 중심을 둔 분석 윈도우 함수의 지원에 대해 앞서 확장하지 않는 지원(support)을 갖고 상기 최종 서브프레임의 중심에 대해 앞서 위치한 타임 위치에 최대값이 배치된 비대칭 예견 분석 윈도우 함수(asymmetric look-ahead anaysis window function)에 의한 예견 선형 예측 분석을 더 포함하고,

프레임의 마지막에 미치지 못하는 현재의 프레임에 대해 결정되는 어레이의 (p+1)번째 값에 응답하여, 상기 (p+1)번째 값에 의해 위치되는 블록 경계에서 역필터링 동작이 예견 분석으로부터 결정되는 필터 상수 세트에 의해 정의되도록 갱신되는 방법.
제6항에 있어서,

상기 예견 분석 윈도우 함수는 그 최대값이 현재 프레임 뒤의 프레임의 제1 서브프레임의 중심에 배치되는 방법.
제1항에 있어서,

상기 변경된 필터링된 신호를 처리하는 단계에서 구한 코딩 파라미터는 CELP 코딩 파라미터를 포함하는 방법.
입력 오디오 신호를 분석하여 연속하는 상기 오디오 신호의 블록 중 각각에 대해 각각의 필터 파라미터의 세트를 결정하는 수단;

상기 입력 신호를 필터링하고 인지적으로 가중된 신호를 생성하기 위해, 상기 결정된 필터 파라미터의 세트에 의해 각 블록에 대해 정의되는 인지적 가중 필터;

피치 정보에 기초하여 인지적으로 가중된 신호의 타임 스케일을 변경하여 변경된 필터링된 신호를 생성하는 수단;

상기 변경된 필터링된 신호 내에 블록 경계를 위치시키는 수단; 및

상기 변경된 필터링된 신호를 처리하여 코딩 파라미터를 얻는 수단

을 포함하고,

상기 처리 수단은 인지적 가중 필터에 대응하는 역필터링 동작을 포함하고, 상기 역필터링 동작은 상기 위치된 블록 경계에서 갱신된 연속적인 필터 파라미터의 세트에 의해 정의되는 스피치 코더.
제9항에 있어서,

상기 인지적 가중 필터는 적응적 인지적 가중 필터인 스피치 코더.
제10항에 있어서,

상기 인지적 가중 필터는, A(z)가 상기 입력 신호를 분석하는 수단에 의해예측된 선형 예측 필터의 전달함수이고, γ₁과 γ₂는 인지적 가중량을 제어하기 위한 적응적 계수일때, A(z/γ₁)/A(z/γ₂)의 형태의 전달함수를 갖는 스피치 코더.
제9항에 있어서,

상기 블록 경계를 위치시키는 수단은, 상기 인지적으로 가중된 신호의 각 블록의 샘플에 적용되는 타임 스케일 변경으로부터 나오는 지연을 축적하는 수단과, 상기 축적된 지연값을 블록 단부에 저장시켜 블록 경계를 변경된 필터링된 신호내에 위치시키는 수단을 포함하는 스피치 코더.
제9항에 있어서,

상기 입력 신호를 분석하는 수단은, 연속적인 신호 프레임에 수행되는 선형 예측 분석 수단을 포함하고 - 각 프레임은 p가 1 이상의 정수일 때, p개의 연속적인 서브프레임으로 구성됨 - , 상기 블록 각각은 상기 서브프레임 중 하나를 포함하고, 상기 블록 경계를 위치시키는 수단은, 각 프레임에 대해, 상기 프레임의 p개의 서브프레임의 경계를 변경된 필터링된 신호 내에 위치시키기 위한 p+1개 값의 어레이를 결정하는 수단을 포함하는 스피치 코더.
제13항에 있어서,

상기 선형 예측 분석 수단은 상기 서브프레임에 중심을 둔 분석 윈도우 함수로 각 서브프레임을 처리하도록 구성되고,

상기 입력 신호를 분석하는 수단은, 현재의 프레임에 대해, 현재의 프레임의 최종 서브프레임에 중심을 둔 분석 윈도우 함수의 지원에 대해 앞서 확장하지 않는 지원을 갖고 상기 최종 서브프레임의 중심에 대해 앞서 위치한 타임 위치에 최대값이 배치된 비대칭 예견 분석 윈도우 함수에 의한 예견 선형 예측 분석을 더 포함하고,

상기 변경된 필터링된 신호를 처리하는 수단은 현재의 프레임의 마지막에 미치지 못하는, 현재의 프레임에 대해 결정되는 어레이의 (p+1)번째 값에 응답하여, 현재의 프레임에 대해 결정되는 어레이의 상기 (p+1)번째 값에 의해 위치되는 블록 경계에서 역필터링 동작을 갱신하여, 예견 분석으로부터 결정되는 필터 상수 세트에 의해 상기 갱신된 역필터링 동작을 정의하도록 구성되는 스피치 코더.
제14항에 있어서,

상기 예견 분석 윈도우 함수는 그 최대값이 현재 프레임 뒤의 프레임의 제1 서브프레임의 중심에 배치되는 스피치 코더.
제9항에 있어서,

상기 변경된 필터링된 신호를 처리하는 수단에 의해서 구한 코딩 파라미터는 CELP 코딩 파라미터를 포함하는 스피치 코더.