KR100204740B1

KR100204740B1 - 정보 코딩 방법

Info

Publication number: KR100204740B1
Application number: KR1019900013571A
Authority: KR
Inventors: 소함 야르
Original assignee: 엘리 웨이스 , 알 비 레비; 에이티 앤드 티 코포레이션
Priority date: 1989-09-01
Filing date: 1990-08-31
Publication date: 1999-06-15
Also published as: FI97580C; US5481642A; EP0415675A2; DE69017801T2; DE69017801D1; NO903641L; CA2021514A1; JP3062226B2; US5719992A; JPH03102921A; EP0415675B1; FI904303A0; FI97580B; CA2021514C; EP0415675A3; NO903641D0; KR910007291A; NO303475B1

Abstract

CELP 코딩에서, 확률(잡음과 유사한) 여기는 롱텀 및 숏텀 캐스케이드 결합의 올-폴(all-ploe) 선형적 합성 필터를 여기시키는데 사용된다. 이러한 방법은 음성 신호를 반전 필터링함으로써 얻어진 이상적인 여기가 가우시안 백색 잡음과 같이 간단하게 모델링될 수 있다는 관측 결과에 기초한다. 이러한 확률 여기가 그 전역적 통계 특성에 있어 이상적 여기와 유사성을 갖는다 하더라도, 합성 프로세스와는 관계가 없는 잡음 성분음 포함한다. 이러한 성분은 확률적 여기의 레벨을 적합하게 제어함으로써 이러한 효과를 감소시킨다. 제안된 제어 메카니즘은 여기 레벨이 예측기의 효율에 역 비례하는 방식으로 롱텀 예축기에 확률적 여기를 링크한다. 따라서, 음성 사운드 동안, 여기 레벨은 상당한 정도로 감쇠되며, 이 합성은 주로 숏텀 필터를 롱텀 필터의 주기적인 출력으로 여기시킴으로써 성취된다. 이로 인해, 잡음을 감소시키고, 합성된 음성의 피치 구조 및 그 인식 품질을 향상시킨다.

Description

정보 코딩 방법

제1도는 종래의 CELP 코더를 도시한 도면.

제2도는 종래의 CELP 디코더를 도시한 도면.

제3도는 본 발명의 일 실시예에서 유용하게 사용되는 임계 함수를 도시한 도면.

제4도는 피치-루프 서브시스템에 의해 전형적인 입력에 대한 코딩 효율의 중요한 측정이 어떻게 변환하는가를 도시한 도면.

제5도는 본 발명의 구성요소를 개략적으로 도시한 도면.

* 도면의 주요부분에 대한 부호의 설명

101 : 마이크로폰 105 : 필터 및 샘플러

110 : 아날로그/디지탈 변환기 115 : LPC 및 피치 예측 분석기

120 : 확률 코드 저장 장치 125 : 계측기

135 : 긴 지연 예측 필터 145 : 짧은 지연 예측 필터

155 : 인식 가중 필터 170 : 피크 픽커

본 발명은 정보의 코딩에 관한 것으로, 보다 상세하게는 몇몇 상황에서 정보, 예를 들면 확률적(stochastic) 구성요소로 표시될 수 있는 음성 정보의 효율적인 코딩에 관한 것이다.

최근 몇 년간, 코드 여기형 예측(code-excited predictive; CELP) 코딩은, 예를 들면 8Kb/s 속도의 저속 디지탈 음성 통신을 위한 탁월한 기법으로 등장하였으며, 현재 디지탈 이동 무선 전화 및 안전한 음성 통신에 있어서 코딩의 선도적인 후보로 간주되고 있다. 예를 들면, 비. 에스. 아탈(B. S Atal), 엠. 알. 슈로더(M. R. Schroeder)의 Stochastic Coding of Speech Signals at Very Low Bit Rates, Proceedings IEEE Int. Conf. Comm 1984, 5, page 48.1; Code-Excited Linear Predictive(CELP); High Quality Speech at Very Low Bit Rates, Proc. IEEE Int. ASSP., 1985, pp 9370940; 피. 크룬(P. Kroon), 이. 에프. 디프레터(E. F. Deprettere)의 A Class of Analysis-by-Synthesis Predictive Coders for High-Quality Speech Coding at Rate Between 4.8 and 16Kb/s, IEEE J. on Sel. Area in Comm. SAC-6(2), 1988, 2. pp. 353-363; 피. 크룬, 비. 에스. 아탈(B. S. Atal)의 Quantization Procedures for 4.8Kb/s CELP Coders, Proc. IEEE Int. Conf. Assp, 1987, pp. 1650-1654; 본 발명의 양수인에게 양도된 1989년 3월 17일자로 발행된 비. 아탈(B. Atal) 등의 미국 특허 제4,827,517호를 참조하길 바란다.

CELP 코더(coder)는 8Kb/s에서는 매우 양질의 음성을 제공할 수 있으나, 4.8Kb/s에서 그 성능은 일부 적용에 있어서 아직 만족스럽지 못하다. CELP 코딩 개념의 특성, 즉 선형 필터의 확률적 여기(stochastic excitation)가 또한 이 방법의 잠재적인 약점으로 작용한다. 즉, 확률적 여기는, 통상적으로, 음성 합성 과정에는 기여하지 않으며 필터에 의해 완전히 제거될 수 없는 잡음 성분을 포함한다. 따라서, 코딩된 음성이 디코딩되는 경우, 재생되는 인식된 음질을 개선하면서 CELP 코딩의 낮은 비트율(low bit rate) 특징을 유지하는 것이 바람직하다.

본 발명의 일 측면에 따르면, 음성 코딩 시스템에서 롱텀(long-term)(피치 루프) 서브시스템의 성능 인덱스(performance index)에 확률적 여기의 레벨을 결합함으로써 선형 예측 필터(linear predictive filter; LPF) 시스템에 대한 입력으로서 제공되는 이러한 확률적 여기의 레벨을 적응적으로 제한하는 것이 유용한 것으로 판명되었다. 보다 상세하게는, 여기 신호의 레벨에 대한 이득 인수(gain factor)가 확률적 여기에 의한 영향없이 LPF 코더에 의해 획득된 에러 함수로서 적응적으로 조정된다. 따라서, 피치-루프(pitch-loop) 및 필터 파라미터가 입력 신호에 대해 양호한 근사를 이루기에 충분하다면, 지정된 확률적 여기의 실제 레벨은 낮다. 피치 루프 및 LPF 파라미터가 허용가능한 레벨까지 에러를 줄이기에 불충분한 경우에는 지정된 확률적 여기의 레벨이 더 높게 된다. 이러한 동작으로 확률적 여기의 잡음 효과를 줄이고, 합성된 음성의 주기성을 향상시키며, 따라서 코더의 인식 품질을 향상시킨다.

보다 일반적인 측면에 있어서, 본 발명은, i) 분석 및 측정에 의해 명확한 판정을 (적어도 근사하게) 할 수 있는 제1파라미터 세트와, ii) 전체 시스템 또는 프로세스에(유리한 영향 뿐만 아니라) 악 영향을 줄 수도 있는 확률적 프로세스를 표시하는 제2파라미터 세트의 조합으로서 표시될 수 있는 다른 시스템 및 프로세스에 적용가능하다. 본 발명은 이후 확률적인 기여를 반영하는 구성요소의 조합에 대해 적응적인 디엠퍼시스(de-emphasis)를 제공하여, 이러한 디엠퍼시스가 프로세스 성능면으로서 전체 시스템을 개선하는 경우, 심지어 보다 바람직한 기여에 손실이 생긴다 하더라도, 바람직하지 못한 영향을 감소시키게 된다.

예시적인 실시예에 있어서, 본 발명의 코딩 시스템은 통상적인 여기 필터 모델을 채용하는 표준 코드북 여기 선형 예측(Codebook-Excited Linear Predictive; CELP) 코더에 근거한다. 이러한 시스템에 대한 간결한 설명이 이하에 개시될 것이다. 이들 공지된 시스템을 보다 완전히 이해하기 위해서, 앞서 인용된 참고 문헌을 포함하여, 입수가능한 여러 논문을 검토하는 것이 바람직할 수 있다.

제1도를 참조하면, 마이크로폰(101)에 인가되는 음성 패턴이 마이크로폰 내부에서 음성 신호로 변환된 후, 본 기술분야에 잘 알려진 바와 같이 필터 및 샘플러(105)내에서 대역 통과 필터링되고 샘플링된다. 그 결과 획득된 샘플은 아날로그/디지탈 변환기(110)에 의해 디지탈 코드로 변환되어 디지탈 코드 음성 신호 s(n)을 생성한다. 신호 s(n)은 LPC 및 피치 예측 분석기(pitch predictive analyzer)(115)에서 처리된다. 이 처리는 코딩된 샘플을 연속적인 음성 프레임 구간으로 나누는 것을 포함한다. 이러한 논의를 통해, 시간축의 원점을 전류 프레임의 초기점으로 정렬하고, 모든 처리가 시간 영역[n=0, ..., N-1](N은 프레임 크기, 즉 프레임내의 샘플수)에서 행해진다고 가정한다. 분석기(115)에 의한 처리는 각 연속 프레임내에서 신호 s(n)에 대응하는 파라미터 신호 세트를 발생하는 단계를 또한 포함한다. 제1도에서 a(1), a(2), ..., a(p)로서 도시된 파라미터 신호는 구간 음성 패턴(interval speech pattern)의 짧은 지연 상관(delay correlation) 또는 스펙트럼 관련 특징(spectral related features)을 나타내며, 파라미터 신호 β(1), β(2), β(3) 및 m은 음성 패턴의 긴 지연 상관 또는 피치 관련 특징을 나타낸다. 이러한 유형의 코더에서, 음성 신호 프레임 또는 블럭은 통상적으로 지속기간이 5ms 또는 40개 샘플이다. 이러한 블럭에 대해, 확률적 코드 저장 장치(120)는 1024개의 임의의 백색 가우시안 코드 워드 시퀀스를 포함할 수 있으며, 각 시퀀스는 일련의 40개의 난수로 이루어진다. 각 코드워드는 필터링되기 전에, 5ms 블럭에 대해 일정한 인수

에 의해 스케일러(125)내에서 스케일링된다. 음성 적응(speech adaption)은 재귀형 필터(135 및 145)내에서 행해진다.

필터(135)는 긴 메모리 지연 시간(2 내지 15msec)을 갖는 예측기를 사용하여 음성 주기성(voice periodicity)을 얻고, 필터(145)는 짧은 메모리 지연 시간(2msec 보다 짧은)을 갖는 예측기를 사용하여 합성 음성 신호내의 스펙트럼 포락선을 얻는다. 이러한 필터는 IEEE Transactions on Communications, Vol. COM-30, pp. 600-614, April 1982에 나타난 비. 에스. 아탈(B. S. Atal)의 Predictive Coding of Speech at Low Bit Rates란 명칭의 논문에 개시되어 있다. 디퍼렌서(differencer)(150)에 인가되는 원 음성 신호 s(n)와 필터(145)로부터 인가되는 합성 음성 신호

간의 차를 나타내는 에러는 선형 필터(155)에 의해 또한 처리되어, 에러가 덜 중요하게 인식되는 경우에는 이들 주파수 성분을 감쇄시키며, 에러가 중요하게 인식되는 경우에는 이들 주파수 성분을 증폭시킨다. 최소 평균 자승 종속 에러 신호 E(k) 및 대응하는 최적 배율 인수

를 생성하는 저장 장치(120)로부터의 확률적 코드 시퀀스는 저장 장치(120)내의 모두 1024개의 코드 워드 시퀀스가 처리된 후에만 피크 픽커(peak picker)(170)에 의해 선택된다.

LPC 분석기 출력 뿐만 아니라, 이들 파라미터는 최종 재생을 위한 디코더로 전송될 수 있다. 제2도에는 이러한 종래 기술의 디코더가 도시된다. 도시된 바와 같이, 여기 파라미터 K^*및 배율 인수

는 인코더에 의해 그 파라미터가 프레임 단위로 공급되는 LPC 필터에 여기 시퀀스가 제공되도록 한다. 이러한 필터링의 출력은 원하는 재생 음성을 제공한다.

본 발명을 이용하여 얻어지는 향상의 배경을 보다 잘 이해하기 위해서, 앞서 일반화된 CELP 처리가 보다 상세하게 분석될 것이다. 보다 구체적으로, s(n)은 폴-제로(pole-zero), 잡음-가중 선형 필터에 의해 필터링되어 X(z)=S(z)A(z)/A'(z)가 획득되는데, 즉 X(z)(시간 영역에서의 X(n))는 코딩 처리에 사용된 목표 신호이다. A(z)는 계수 a_ii-0, ..., M(a₀-1.0)를 갖는 현재의 프레임에 대응하는 표준 LPC 다항식이다. A;(z)는 변형된 다항식으로서, A(z)를 z 평면에서 제로를 원점으로 편이함으로써, 즉

(전형적인 값 :

=0.8)에서 계수

를 사용함으로써 얻어진다. 이러한 전치 필터링 동작(pre-filtering operation)은 코딩된 음성 스펙트럼 밸리(Valley)에서 양자화 잡음을 줄이며, 코더의 인식 성능을 향상시킨다. 이러한 전치 필터링은 비. 에스. 아탈(B. S. Atal) 등의 Predictive Coding of Speech Signals and Subjective Error Criteria. IEEE Trans. ASSP, Vol. ASSP-2, NO. 3, 1979. 6, pp. 247-254.에 개시되어 있다.

LPC 필터 A(z)는 표준 자기 상관 방식(standard autocorrelation method) LPC 분석에 의해 얻어진 모든 폴(all-pole) 필터의 양자화된 버전으로 가정한다. LPC 분석기에서 수행되는 LPC분석 및 양자화 처리는 CELP 알고리즘의 다른 부분과는 무관하다. 이에 관하여는 앞서 인용된 참조 문헌 Applications of Digital signal processing, A. V. Oppenheimer, Ed., Prentice-Hall, Englewood Cliffs, New Jersey, 1978, pp. 147-156을 참조하길 바란다.

평균 자승 에러(MSE) 감지에 있어서, 코더는 통상 목표 신호(x(n))에 가능한한 근사하는 신호 y(n)의 합성을 시도한다. 합성 알고리즘은 다음과 같은 간단한 식에 근거한다.

여기서 β 및 P는 각기 소위 피치 탭(pitch tap) 및 피치 래그(pitch lag)이고, g는 여기 이득이며, c(n)은 여기 신호이다. 이득 심볼 g는 본 발명에 따라 주어지는 적응적인 품질을 반영하기 위해 앞의 설명에서 사용된 심볼

로부터 변경된 것이다. 이들 품질에 대해서는 이후에 보다 상세히 설명될 것이다. 각각의 엔티티 β, P, g, c(n)는 사전결정된 유한 테이블로부터의 값들을 취한다. 특히, 여기 시퀀스 c(n)을 위한 테이블(여기 코드북)은 N-차원 코드벡터 세트를 보유한다.

코더의 역할은 이들 테이블로부터 엔트리를(최상은 아닐지라도) 잘 선택하여 목표 신호와 합성 신호간의 차를 최소화하는 것이다. 테이블의 크기는 코딩된 신호 y(n)를 합성하는 시스템에 이용가능한 비트수를 결정한다.

식(2) 및 (3)은 더블유. 비. 클레인(W. B. Kleijn) 등의 Improved Speech Quality and Efficient Vector Quantization in CELP, Proc. IEEE Conf. ASSP, 1988. pp 155-159.에 개시된 바와 같이(주기적인 확장을 갖는) 1차 피치 루프(1st-order pitch loop)를 나타낸다. 보다 고차의 피치 루프가 또한 사용될 수 있으나, 하나 이상의 피치 루프의 파라미터를 전송하기 위해 제한된 수의 비트를 늘리는 것은 보다 개선된 성능을 가져오지 않는 것으로 밝혀졌다. 1차 피치 루프의 사용은 본 발명의 적용에 큰 영향을 주지 않을 뿐만 아니라, 본 발명의 분석과 동작 및 계산에 있어서 복잡성을 감소시킬 수 있다. 당업자라면 특정 응용에 보다 고차의 피치 루프가 사용될 수 있음을 알 수 있을 것이다.

z(n)(z 영역에서 Z(z))으로 표시되는 실제의 출력 신호는 잡음 가중(noise-weighting) 필터의 반전값(inverse)을 사용함으로써 얻어진다. 이것은 Z(z)=R(z)(1/A(z))를 계산함으로써 간단히 얻어지며, 여기서 R(z)는 r(n)의 z영역의 대응 부분이다. 통상적으로, x(n) 및 y(n)간의 MSE 차를 최소화하는 것은 입력 s(n)과 출력 z(n)간의 MSE를 최소화하는 것을 의미하지 않는다. 그러나, 잡음 가중 필터링은 CELP 코더의 인식 성능을 상당히 증대시키는 것으로 밝혀졌다.

CELP 코딩에서 중요한 문제는 각종 코드북으로부터 양호한 파라미터 세트를 선택하는 방법이다. 전체적인 광범위한 검색(global exhaustive search)은 비록 원리적으로 가능하더라도 상당히 복잡할 수 있다. 따라서, 실제로는 다양한 차선의(sub-optimal) 방법이 사용된다. 일반적이고 합리적인 방법은 여기 파라미터 g 및 c(n)으로부터 피치 파라미터 P 및 β를 분리하여 두 그룹을 독립적으로 선택하는 것이다. 이것은 시스템의 비중복 부분(non-redundant part)(이노베이티브(innovative))으로부터 시스템의 중복(주기저인) 부분을 분리하기 때문에, 문제를 처리하기에 자연스러운(natural)방법이다. P 및 β가 먼저 발견되며, 다음에 이러한 고정된 선택에 대해, 최상의 g 및 c(n)이 발견된다. 식(1)-(3)에서와 같은 합성 규칙의 정의는 이러한 분리를 더욱 간단한 방식으로 행할 수 있게 한다. 시스템의 선형성으로 인해 식(1) 및 (2)는 다음과 같은 형태로 결합된다.

여기서, y₀(n)는 임의의 입력도 갖지 않는 필터의 초기 상태에 대한 응답이며, h(n)은 [0, ..., N-1] 범위에서의 1/A'(z)의 임펄스 응답이다. * 표시는 컨벌루션 연산을 나타낸다. 최상의 P 및 β는 다음과 같이 주어진다.

여기서, β 및 P에 대해서 테이블내의 모든 엔트리에 대해 검색이 행해진다. ∥.∥ 표시는 대응하는 시간 시퀀스의 유클리드 표준(Euclidian norm)을 나타낸다. P에 대한 값은 통상 정수 범위[20, ..., 147](7비트)내에 놓인다. β에 대한 테이블은 통상 약[0.4, ..., 1.5] 범위내에서 8개의 이산값(3비트)을 포함한다.

보다 덜 복잡한 방법으로, 먼저 β가(양자화되지 않은) 최적값을 얻도록 하고 최상의 P를 발견한 다음, 최상의 P에 대응하는 최적의 β를 양자화함으로써 P 및 β가 서로 독립적으로 발견되도록 하는 방법이 있다. 이 경우, (최상의 P에 대한) 최적화 문제는

이며, 여기서 .,. 표시는 독립 변수의 내적을 나타낸다. 최상 피치 P^*에 대한 최적 β는 다음과 같이 주어진다.

이 값은 3비트 코드북으로부터 자신의 가장 근사한 값으로 양자화되어 β를 획득한다.

일단

및 P^*가 얻어지면, 코더는,

을 획득함으로써, 그 결과의 에러 신호

에 대한 최상의 정합을 발견하려고 시도한다. 여기서, 검색은 이득 테이블 및 여기 코드북의 모든 엔트리에 대해 수행된다. 피치 루프에 대해서, g, c(n)에 대한 검색은 (양자화되지 않은) 제한되지 않은 이득을 갖는 최상의 여기에 대해 먼저 검색한 후, 그 이득을 양자화함으로써 간략화될 수 있다. 이 경우에,

이 얻어지며, g^*는 이득 테이블에서 그의 가장 근사값으로 양자화된다.

상술한 바와 같은 시스템은 CELP 코더의 기본적인 버전이다. 동일한 시스템의 수많은 다른 버전들은 종종 코딩 품질이 저하되더라도 계산의 복잡성을 감소시키는 각종 기법과 함께 논문에 제시되어 왔다. 대부분의 이들 기법은 본 발명에 잘 적용될 수 있다.

제한된 확률적 여기- 개선된 CELP:

본 발명의 제한된 확률적 여기 코드(CSEC) 시스템은 g 및 c(n)을 선택하는 단계에서 상술한 표준 CELP와는 구별된다. CSEC 시스템에서는, 이들 파라미터가 여기의 레벨을 제한하여 롱텀 서브시스템의 성능에 적응적으로 되게 하는 방식으로 선택된다. 이러한 방법 이면의 개념이 이하 개시된다.

CELP 코딩 방법은 역필터링 연산 X(z)A'(z)(1-βz^-p)로부터 얻어지는 잔류 신호가 랜덤하며, 기본적인 원 신호에 대해 어떤 잔류 정보를 가지든간에 X(z)에 대한 양호한 추정치를 재합성하는데는 중요하지 않다는 기본적인 가정에 근거한다. 즉, 잔류 신호는 합성 처리에 있어 유사한 통계적 특성(그러나 한편 전체적으로는 상이함)을 갖는 다른 신호로 대체될 수 있다. 이러한 가정은 잔류 신호가 본질적으로 백색 신호이며 가우시안(Gaussian) 프로세스로서 특징지워질 수 있다는 관측 결과에 근거를 두고 있다.

본 발명에 따르면, 덤(dumb)여기에 대해 소정의 제한을 가함으로써 인식하지 못하여 발생하는 불이익을 완화할 수 있다. 이 생각은 전체적으로 음성 신호에 관련되지 않은 노이즈와 같은 외부 신호가 도입되는 하쉬 효과(harsh effect)를 감소시키기 위한 것이다.

임의의 여기 신호는 그 내부에 양호한(good) 및 불량한(bad)성분을 모두 포함한다. 양호한 성분은 보다 허용가능한 출력쪽으로 기여하는 반면, 불량한 성분은 시스템에 잡음을 부가한다. 전술한 바와 같이, 두 성분을 분리할 수 없기 때문에, 전체 여기 신호가 불량한 성분, 즉 원하지 않는 잡음 성분에 의해 지배되므로, 이러한 여기의 사용이 제한되어야 한다는 비관적인 원리(pessimistic philosophy)를 적용한다.

식(4)에서 신호원에 관한 새로운 정보를 전달하는 y(n)의 두 성분은 피치 신호 p(n)=βr'*h(n)과 필터링된 여기 신호 e(n)=gc(n)*h(n)이다. p(n)은 신호원의 주기성을 이용하려는 시도의 결과이다. 이 중에는 부가적인 잡음 성분이 없으며, 지연 P 및 배율 인수 β를 변경함으로써 새로운 정보가 도입된다. 따라서, P(n)은 여기 잡음 성분 e(n)보다 더 잘 인식될 수 있을 것으로 예상된다. 다행스럽게도, 음성(주기적인) 영역에 있어서, p(n)이 지배적 성분이며, 이것은 CELP 방법의 달성을 위한 중요한 요인이 된다.

알. 씨. 로즈(R. C. Rose) 등의 The Self-Excited Vocoder-an Alternate Approach to Toll Quality at 4800 bps, Proc IEEE ICASSP-86, pp. 453-456(1986)에 있어서는, 확률적 여기가 완전히 제거되는 것으로 가정한다. 자기 여기형 보코더(selt-excited Vocoder)(SEV)에서, r(n)의 선행 부분은 LPC 합성 필터(즉, g=0)를 여기시키는데 사용된 유일한 신호이다. 그러나, 이 코더는 초기화 이후에 새로운 정보를 설명하는데 어떠한 혁신적 여기도 사용되지 않았으므로, 특히 천이 영역에서는 성능이 떨어지는 것으로 밝혀졌다. 이러한 문제를 인식하여, SEV의 개발자는 자기 여기에 두개의 다른 성분, 즉 기본 CELP에서와 같은 정규 확률적 여기 및 다중 펄스 LPC 코딩에서와 같은 임펄스 여기를 부가했다. 순수한(pure) SEV는 실제로 사용되지 않았다. 각각의 세 여기 성분은 전체 여기를 인식적으로 향상시키려는 시도없이 전술한 바와 같은 표준 MSE 절차에 의해 최적화되었다.

본 발명에 따르면, 잡음성 여기가 더 감소되며, 보다 심각한 재생 부담이 피치 신호 p(n)상에 가중된다. 그러나, p(n)은 특히 비음성 및 천이 영역에서 출력을 재생하는데 있어 항상 효율적이지는 않기 때문에, 여기 감소의 양은 p(n)의 효율에 의존한다. p(n)의 효율은 x(n)에 대한 근사 정도를 반영해야 하며, 각종 방법으로 정의될 수 있다. 이러한 효율의 유용한 측정은

이다. 여기서, 양 S_p는 여기의 레벨을 제어하는데 사용된다. 여기가 본질적으로 잡음 성분으로 인식된다는 것을 상기하면, 신호 대 잡음 여기 비(signal-to-noisy-excitation ratio)는

로 정의될 수 있다.

여기서 기본적인 요건은 S_e가 몇몇 단조 비감소 임계 함수(monotone-nondecreasing threshold function) T(S_p)보다 높아야 한다는 것이다. 즉,

이다.

본 발명의 예시를 위해 사용된 유용한 실험적인 함수 T(S_p)가 제3도에 도시되어 있다. 이 함수는 선형 기울기(dB 단위임)와 그에 후속하는 평형 영역으로 이루어진다. S_p가 높은 경우, 즉 p(n)이 출력을 효과적으로 재생할 수 있는 경우, S_e는 높아지고, e(n)은 출력에 거의 기여하지 못한다. S_p가 하락함에 따라, p(n)이 효율적이지 않게 되기 때문에, e(n)상의 제한이 완화되며, e(n)이 점차적으로 기여하게 된다. T(S_p)는 기울기 인수 α 및 함수의 굴절점(knee point)을 결정하는 포화 레벨 f에 의해 제어된다. 직관적으로, 굴절점의 좌표는 S_p의 동적 범위의 중심부 근방에 있게 된다. 제4도는 약 1.0 내지 10.0 dB의 동적 범위를 표시하는 S_p의 전형적인 시간 전개를 도시한다. S_p가 높은 경우, S_e는 SNR이 잡음 여기를 청취할 수 없을 정도로 24dB보다 더 높아져야 한다. 코딩된 음성을 청취하는 일부 사람들에 따르면, 이들 파라미터에 대한 예시적인 값은 α=6.0 및 f=24.0 dB이 된다.

이하 상세히 개시되겠지만, 여기를 제한하는 과정은 매우 간단하며, 시스템은 현재 프레임에 대해 S_p를 계산하고, T(.)를 사용하여 임계치를 결정하며, 식(13)의 제한 조건에 따르는 최상 여기 c(n) 및 최상 이득 g를 선택한다.

식(13)의 제한하에서, 대응하는 코드북으로부터 최상 이득 및 여기 벡터를 찾는데에 그 목적이 있다. 상기 제한하에서는 MSE를 최소화하는 것이 편리한 것으로 판명되었다.

스케일링되지 않은 여기 응답 ch(n)=c(n)*h(n)을 정의함으로써, 식(8)에서 언급된 최소화 문제는 다음과 같이 표시되며,

따라서,

이 된다. 여기서 최소화 범위는 이득 및 여기 코드북의 모든 엔트리 세트이다. 고정된 여기 c(n)에 대해 최상 이득은 식(10)에서와 같이 최적의 이득을 양자화함으로써 얻어진다는 것은 문제의 2차식으로부터 명확해진다. 즉,

따라서, 주어진 c(n)에 대해 최상 이득은 식(15)에 따라

이 된다.

검색 절차는 식(17)에서와 같은 각각의 여기 벡터에 대해 최상 이득을 얻고, 그 결과로 얻어진 왜곡을 기록하며, 가장 낮은 왜곡에 대응하는

쌍을 선택하는 것이다.

제5도는 전술한 예시적인 음성 인코딩 처리에 따라 중요한 몇몇 처리 측면을 개략적인 형태로 간략화하여 도시한 것이다. 스위치(500)는 처리의 두 상태에 대응하는 두 위치를 갖는다.

스위치(500)의 제1위치(1)는 블럭(510)에서 피치 파라미터 β 및 P에 대한 값을 결정하는 것에 대응한다. 이 결정에 대해, g=0의 값, 즉 여기 신호가 진폭 0을 갖는 것으로 가정한다. 따라서, 피치 루프가 입력 신호를 얼마나 잘 나타낼 수 있는가에 대한 측정이 취해진다. 즉, y₀(필터 1/A의 제로 메모리 잔존물(zero memony hangover) 또는 초기 상태 응답)와 βr'(n-p)의 h(n)과의 컨벌루션된 때의 기여가 식(4)에서와 같은 g=0 값인 때의 y(n)을 산출하는데 사용된다.

스위치(500)가 위치(2)에 존재하는 처리 상태 2에 있어서, j 및 g에 대한 최상 값이 블럭(520)에서 결정되며, 처리 상태 1로부터 도출된 제한이 주어진다. 여기서, 저장 장치(530)으로부터의 여기 코드는 상태 1의 오퍼랜드로서 또한 사용된다.

CSEC 코더의 주관적인 성능은 소위 A-B 비교 청취 테스트에 의해 측정된다. 이러한 주관적인 테스트에 있어서, 음성 세그먼트 세트는 코더 A 및 코더 B에 의해 처리된다. 각 문장의 두 버전이 재생되고 청취자는 자신의 판단에 따라 보다 나은 코더를 선택한다. 이들 테스트의 결과는 당 분야에 알려진 기본 CELP 코딩에 비해 전체적으로 명백한 개선이 성취되었음을 보여 준다.

동일한 형태 및 동일한 양의 코드북 검색 연산이 양 코더 모두에 필요하기 때문에, CSEC 코더의 복잡성은 CELP의 복잡성과 실질적으로 동일하다. 또한, CELP 알고리즘에 대해 제안되었던 대부분의 복잡성을 감소시키는 트릭(tricks)은 CSEC 방법과 결합될 수 있다. 따라서, CSEC 방법은 본질적으로 CELP 알고리즘에 대해 가격면에서의 개선은 성취하지 못한다.

코더에 의해 공급되는 코딩된 이득 파라미터에 대해 여기 이득이 응답해야 한다는 요건 외에는 CELP 코더내에서는 다른 어떤 변화도 요구되지 않는다.

전술한 본 발명에 대한 설명은 잘 알려진 설계의 표준 CELP 코더와는 다른 관점에서 주로 개시되었다. 따라서, 이들 최소 하드웨어 설계 선택 및 본 발명의 개선된 알고리즘을 구현하는 프로그램 이외에 어떠한 부가적인 구조도 요구되지 않는다. 마찬가지로, 본 발명에서는 어떤 특정의 프로그래밍 언어 또는 프로세서를 지칭하지는 않는다. 따라서 음성 및 관련 신호의 코딩 기술분야의 당업자라면, 본 명세서의 개시에 따라 본 발명을 구현하는데 각종 다양한 프로세서 및 언어가 사용될 수 있음을 잘 인식할 수 있을 것이다.

비록 본 발명이 음성 코딩의 관점에서 설명되었으나, 디지탈 처리의 기술분야의 당업자라면, 다른 특정 문맥에서도 본 발명의 개시내용을 적용할 수 있음을 인식할 수 있을 것이다. 따라서, 본 발명을 이용하여, 예를 들면 이미지 및 다른 형태의 정보의 코딩이 개선될 수 있다.

Claims

통신 시스템에서, 입력 신호를 인코딩하여 출력 신호 세트를 형성하는 방법에 있어서, 음향 신호를 변환하여 상기 입력 신호를 생성하는 단계와, 상기 입력 신호에 대해, 하나 이상의 롱텀(long term) 예측기 파라미터 신호를 포함하는 하나 이상의 예측기 파라미터 신호를 생성하는 단계와, 다수의 후보 신호(a plurality of candidate signals)를 생성하는 단계로서, 상기 후보 신호의 각각은 상기 예측기 파라미터 신호에 의해 특징지워지는 필터에서 코딩된 여기 신호를 필터링시킴으로써 합성되고, 상기 코딩된 여기 신호의 각각은 연관된 인덱스 신호를 가지며, 상기 코딩된 여기 신호의 각각은 상기 필터링 이전에 이득 제어 신호의 값에 따라 진폭 조정되는 상기 생성 단계와, 상기 후보 신호의 각각을 상기 입력 신호와 비교하여 이들 신호간의 유사성의 정도를 판정하는 단계와, 상기 후보 신호에 관한 상기 입력 신호 레벨의 사전정의된 제1함수가 사전 정의된 임계 함수를 초과하도록 이득 신호에 대한 값이 선택되는 제한에 따라, 상기 유사성의 정도가 극대화되도록 상기 코딩된 여기 신호 및 상기 이득 신호에 대한 값을 함께 선택하는 단계와, 상기 입력 신호의 각각에 대해, 상기 예측기 파라미터 신호, 상기 선택된 코딩 여기 신호에 대응하는 상기 인텍스 신호, 및 상기 이득 신호에 대해 선택된 값을, 상기 입력 신호를 나타내는 상기 출력 신호 세트로서 선택하는 단계를 포함하는 정보 코딩 방법.
제1항에 있어서, 상기 하나 이상의 예측기 파라미터 신호, 상기 선택된 코딩 여기 신호에 대응하는 상기 인덱스 신호, 및 상기 이득 신호에 대해 선택된 값을 디코더에 전송하는 단계를 더 포함하는 정보 코딩 방법.
제1항에 있어서, 상기 다수의 후보 신호를 생성하는 단계는 상기 코딩된 여기 신호의 각각에 대응하는 코드워드를 저장하고, 상기 필터에 인가하기 위한 상기 코드워드를 순차적으로 검색하는 단계를 포함하는 정보 코딩 방법.
제1항에 있어서, 상기 선택 단계는 상기 이득 신호에 대한 값을 0을 포함하는 범위로 제한하는 단계를 포함하는 정보 코딩 방법.
제1항에 있어서, 상기 선택 단계는 상기 하나 이상의 롱텀 예측기 파라미터로 특징지워지는 상기 필터의 출력이 상기 사전결정된 제1함수에 따라 상기 입력 신호에 근사하는 경우 상기 이득 신호에 대한 값을 실질적으로 0으로 설정하는 단계를 포함하는 정보 코딩 방법.
제1항에 있어서, 상기 하나 이상의 롱텀 예측기 파라미터 신호는 피치 예측기 파라미터 신호인 정보 코딩 방법.
제1항에 있어서, 상기 입력 신호는 값 x(n)(n=1, 2, ..., N)을 갖는 인식적으로 가중치가 부여된 음성 신호이며, 상기 후보 신호 각각은 값 e(n)(n=1, 2, ..., N)을 포함하고, 상기 사전설정된 제1함수는,

로 주어지고, 상기 임계 함수는

으로 주어지며, 여기서 T(S_p)는 상기 코딩된 여기 신호가 인가되지 않고 상기 하나 이상의 롱텀 예측기 파라미터에 의해서만 특징지워질 때, 상기 필터의 출력이 x(n)에 얼마나 근사하는지를 나타내는 측정값 S_p의 단조 비감소 함수(monotonic nondecreasing function)인 정보 코딩 방법.
제7항에 있어서, 상기 예측기 파라미터는 선형 예측 필터의 특징을 나타내며, S_p는 신호 대잡음비의 측정값으로서,

로 주어지며, y₀(n)는 여기를 갖지 않는 필터에 대한 초기 응답이며, p(n)은 입력을 갖지 않는 상기 롱텀 파라미터에 의해 특징지위지는 필터의 출력인 정보 코딩 방법.