KR101339857B1

KR101339857B1 - 계층적 코더 내에 잡음 성형을 구비한 코딩

Info

Publication number: KR101339857B1
Application number: KR1020117014240A
Authority: KR
Inventors: 발라즈스 코베시; 슈테판 라고트; 알라인 레 구야데르
Original assignee: 오렌지
Priority date: 2008-11-18
Filing date: 2009-11-17
Publication date: 2013-12-10
Also published as: CN102282611B; WO2010058117A1; FR2938688A1; EP2366177A1; JP2012509515A; US20110224995A1; CN102282611A; KR20110095387A; JP5474088B2; EP2366177B1; US8965773B2

Abstract

본 발명은 입력 신호의 현재 프레임을 위하여,
- 상기 현재 프레임의 각각의 샘플 n에 대한 스칼라 양자화 인덱스(I^B(n))를 전달하는 코어 코딩, 및
- 인핸스먼트 신호의 각각의 코딩된 샘플에 대한 스칼라 양자화(

)의 인덱스들(

)을 전달하는 적어도 하나의 인핸스먼트 코딩을 포함하는 디지털 오디오 신호의 계층적 코딩의 방법에 관한 것이다. 상기 방법은, 상기 인핸스먼트 코딩이 타겟 신호를 결정하는데 사용되는 코딩 잡음을 성형하기 위한 필터(W(z))를 획득하는 단계를 포함하고, 상기 인핸스먼트 신호의 스칼라 양자화(

(n))의 인덱스들(

)은 스칼라 양자화의 가능성 있는 값들의 세트와 상기 타겟 신호 간의 에러를 최소화하여 결정되도록 되어 있다.
본 발명에 따른 코딩 방법은 또한 코어 비트레이트 코딩에 대한 코딩 잡음의 성형을 포함할 수도 있다. 본 발명은 또한 기술된 코딩 방법을 구현하는 코더에 관한 것이다.

Description

계층적 코더 내에 잡음 성형을 구비한 코딩{ENCODING OF AN AUDIO-DIGITAL SIGNAL WITH NOISE TRANSFORMATION IN A SCALABLE ENCODER}

본 발명은 디지털 신호들의 코딩 분야에 관한 것이다.

본 발명에 따른 코딩은 특히 오디오주파수 신호들과 같은 디지털 신호들(스피치, 뮤직 등)의 전송 및/또는 저장을 위한 것이다.

본 발명은 보다 구체적으로 ADPCM("Adaptive Differential Pulse Code Modulation") 코딩 타입의 파형 코딩에 관한 것으로, 특히 스케일러블 바이너리 트레인(scalable binary train)을 갖는 양자화 인덱스(quantization index)들을 전달할 수 있도록 하는 임베디드 코드(embedded code)들을 구비한 ADPCM 타입의 코딩에 관한 것이다.

권고 ITU-T G.722 또는 ITU-T G.727로 특정되는 임베디드-코드 ADPCM 코딩/디코딩의 일반적인 원리가 도 1 및 도 2를 참조하여 설명된다.

따라서 도 1은 ADPCM 타입의 임베디드-코드 코더를 나타낸다.

이는

- 양자화된 에러 신호

(단,

은 스케일 팩터임) 및 복원 신호(reconstructed signal)

(단, n은 현재 인스턴트(current instant)임)의 앞선 샘플들을 기초로 하여 상기 신호의 예측

을 제공할 수 있도록 하는 예측 모듈(110).

- e(n)으로 나타낸 예측 에러 신호를 얻기 위하여 상기 입력 신호 x(n)로부터 그 예측

을 도출(deduct)하는 감산 모듈(120).

- B+K 비트들로 이루어지는 양자화 인덱스들

을 제공하기 위하여 상기 에러 신호 e(n)을 입력으로서 수신하는 에러 신호용 양자화 모듈(130)

. 상기 양자화 모듈

은 임베디드-코드 타입으로, 다시 말하면 B 비트들을 갖는 코어 양자화기(core quantizer) 및 상기 코어 양자화기 상에 임베디드되는 B+k(k=1,...,K) 비트들을 갖는 양자화기들을 포함한다.

ITU-T G.722 규격의 경우, 상기 양자화기들

,

(단. B=4)의 결정 레벨들과 복원 레벨들은 X. Maitre. "7 kHz audio coding within 64 kbit/s". IEEE Journal on Selected Areas in Communication, Vol.6-2, February 1988에 의한 G.722 규격을 기술하고 있는 개요 아티클의 테이블 IV 및 VI에 의해 정의된다.

양자화 모듈

의 출력에서 B+K 비트들의 양자화 인덱스

는 도 2를 참조하여 기술된 바와 같이 전송 채널(140)을 통해 디코더로 전송된다.

상기 코더는 또한

- 낮은 비트레이트 인덱스

를 제공하기 위하여 상기 인덱스

의 K 하위(low-order) 비트들을 삭제하기 위한 모듈(150);

- B 비트들에 대하여 양자화된 에러 신호

를 출력으로서 제공하기 위한 인버스 양자화 모듈(120)

;

- 하기 인스턴트를 위하여, 스케일 팩터라고도 불리우는 레벨 제어 파라미터 v(n)을 제공하도록 양자화기들과 인버스 양자화기들을 위한 적응 모듈(170)

;

- 낮은 비트레이트 복원 신호

를 제공하기 위하여 상기 양자화된 에러 신호에 상기 예측

을 가산하기 위한 가산 모듈(180);

- B 비트들에 대하여 상기 양자화된 에러 신호

및 1+

에 의해 필터링된 신호

에 기초한 상기 예측 모듈을 위한 적응 모듈(190)

을 포함한다.

도 1에 있어서, 도면 부호 155의 음영 부분은 예측부(165, 175) 및 인버스 양자화기(120)를 포함하는 낮은 비트레이트 로컬 디코더를 나타낸다는 것을 관측할 수도 있다. 따라서, 이러한 로컬 디코더는, 낮은 비트레이트 인덱스 I ^B (n) 를 기초로 하여 170에서 인버스 양자화기를 적응시키도록 그리고 상기 복원된 낮은 비트레이트 데이터를 기초로 하여 상기 예측부(165, 175)들을 적응시키도록 할 수 있다.

이 부분은 도 2를 참조하여 기술된 바와 같이 임베디드-코드 ADPCM 디코더에서 동일하게 발견된다.

도 2의 임베디드-코드 ADPCM 디코더는, 입력으로서 상기 전송 채널(140)에 기인하는 인덱스들

, 즉 바이너리 에러들에 의해 왜곡(disturb)될 수도 있는

의 한 버전을 수신하고, 상기 신호

를 얻기 위하여 샘플당 비트레이트 B 비트들의 인버스 양자화 모듈(210)

에 의하여 인버스 양자화를 실시한다. 심볼 " ' "는 전송 에러들 때문에 상기 코더에 의해 전송되는 것과 상이할 수도 있는 상기 디코더에서 수신된 값을 나타낸다.

B 비트들에 대한 출력 신호

는 상기 신호의 예측 및 B 비트들을 갖는 인버스 양자화기의 출력의 합계와 같을 것이다. 상기 디코더의 이 부분 255는 도 1의 낮은 비트레이트 로컬 디코더(155)와 동일하다.

비트레이트 인디케이터 mode 및 선택부(220)를 채택하여, 상기 디코더는 복원된 신호를 증대시킬 수 있다.

실제로 mode가 B+1 비트들이 전송된 것을 표시하는 경우, 출력은 상기 예측

및 B+1 비트들을 갖는 인버스 양자화기(230)의 출력

의 합계와 같을 것이다.

mode가 B+2 비트들이 전송된 것을 표시하는 경우, 출력은 상기 예측

및 B+2 비트들을 갖는 인버스 양자화기(240)의 출력

의 합계와 같을 것이다.

z-변환 표기법을 이용하면, 이러한 루프형 구조에 대하여 하기와 같이, 즉

B+k 비트들을 갖는 양자화 잡음

을

로 정의하여

라고 기록될 수도 있다.

ITU-T G.722 규격(이하, G.722라고 함)의 임베디드-코드 ADPCM 코딩은, [50-7000 Hz]의 최소 대역폭으로 정의되어 16 kHz로 샘플링되는 광대역에서 상기 신호들의 코딩을 실시한다. 상기 G.722 코딩은, 쿼드러처 미러 필터(quadrature mirror filter)들에 의한 신호의 분해(decomposition)에 의해 얻어지는 상기 신호의 두 부대역(sub-band) [50-4000 Hz] 및 [4000-7000 Hz] 각각의 ADPCM 코딩이다. 저대역은 6, 5 및 4 비트들에 대하여 임베디드-코드 ADPCM 코딩에 의해 코딩되는 한편, 고대역은 샘플당 2 비트들의 ADPCM 코더에 의해 코딩된다. 전체 비트레이트는 저대역을 디코딩하는데 사용되는 비트수에 따라 64, 56 또는 48 bit/s일 것이다.

이러한 코딩은 우선 ISDN(Integrated Services Digital Network)에 사용된 다음, IP 네트워크 상에서 오디오 코딩의 어플리케이션들에 사용되었다.

일례로서, 상기 G.722 규격에서는, 8 비트들이 도 3에 표현된 하기 방식으로 배분(apportion)된다.

고대역을 위한 2 비트들(I _h1 및 I _h2 )

저대역을 위한 6 비트들(

)

비트들 I _L5 및 I _L6 은 "스톨른(stolen)"될 수도 있고 또는 데이터로 교체될 수도 있으며, 저대역 인핸스먼트(enhancement) 비트들을 구성한다. 비트들

은 저대역 코어 비트들을 구성한다.

따라서, 상기 G.722 규격에 따라 양자화된 신호의 프레임이 8, 7 또는 6 비트들에 대하여 코딩된 양자화 인덱스들로 구성된다. 상기 인덱스의 전송 주파수는 8 kHz이고, 비트레이트는 64, 56 또는 48 kbit/s일 것이다.

수많은 레벨을 갖는 양자화기에 있어서, 양자화 잡음의 스펙트럼은 도 4에 도시된 바와 같이 비교적 평탄할 것이다. 상기 신호의 스펙트럼 또한 도 4에 표시되어 있다(여기서는 보이스형 신호 블럭). 이러한 스펙트럼은 큰 다이나믹 스윙(dynamic swing)을 가진다(~40dB). 저-에너지 구역들에서는, 잡음이 신호에 매우 근사하므로, 더 이상 마스킹될 필요가 없다는 것을 알 수 있다. 그리고, 이들 영역들에서, 특히 도 4의 [2000-2500 Hz] 주파수 구역에서 가청화될 수도 있다.

그러므로, 상기 코딩 잡음의 성형(shaping)이 필요하게 된다. 더욱이, 임베디드-코드 코딩에 적응된 코딩 잡음 성형이 바람직할 것이다.

임베디드 코드들을 갖는 PCM("Pulse Code Modulation") 타입의 코딩에 대한 잡음 성형 기술은 권고 ITU-T G.711.1 "Wideband embedded extension for G.711 pulse code modulation" 또는 "G.711.1: A wideband extension to ITU-T G.711". Y. Hiwasaki, S. Sasaki, H. Ohmuro, T.Mori, J. Seong, M. S. Lee, B. Kovesi, S. Ragot, J.-L. Garcia, C. Marro, L. M., J. Xu, V. Malenovsky, J. Lapierre, R. Lefebvre. EUSIPCO, Lausanne, 2008에 기재되어 있다.

따라서 상기 권고는 코어 비트레이트 코딩을 위한 코딩 잡음의 성형을 구비한 코딩을 기술하고 있다. 상기 코딩 잡음을 성형하기 위한 지각적 필터(perceptual filter)는, 인버스 코어 양자화기에 기인하는 과거 디코딩된 신호들을 기초로 하여 연산된다. 그러므로, 코어 비트레이트 로컬 디코더가 상기 잡음 성형 필터를 연산할 수 있도록 한다. 따라서, 상기 디코더에서는, 코어 비트레이트 디코딩된 신호들을 기초로 하여 이러한 잡음 성형 필터를 연산할 수 있게 된다.

인핸스먼트 비트들을 전달하는 양자화기가 상기 코더에 사용된다.

코어 바이너리 스트림과 인핸스먼트 비트들을 수신하는 디코더는 상기 코어 비트레이트 디코딩된 신호를 기초로 하여 상기 코더에서 동일한 방식으로 코딩 잡음을 성형하기 위한 필터를 연산하고, 이 필터를 상기 인핸스먼트 비트들의 인버스 양자화기로부터의 출력 신호에 적용하되, 상기 성형된 고-비트레이트 신호는 상기 필터링된 신호를 상기 디코딩된 코어 신호에 더하여 얻어진다.

따라서, 상기 잡음의 성형은 상기 코어 비트레이트 신호의 지각적 품질을 증대시킨다. 상기 인핸스먼트 비트들에 대한 품질에 있어서는 제한된 인핸스먼트를 제공한다. 실제로, 상기 코딩 잡음의 성형은 상기 인핸스먼트 비트들의 코딩에 대하여 수행되지 않고, 상기 양자화기의 입력은 상기 증대된 양자화에 대한 것과 상기 코어 양자화에 대한 것이 동일하다.

그리고, 상기 디코더는, 상기 코어 비트들 이외에도 상기 인핸스먼트 비트들이 디코딩되는 경우, 적절하게 적응된 필터링을 통하여 얻은 결과적인 스퓨리어스 컴포넌트(spurious component)를 삭제하여야만 한다.

상기 디코더에서의 필터의 추가적인 연산은 상기 디코더의 복잡성을 증가시킨다.

이러한 기술은 이미 현존하는 규격의 G.722 또는 G.727 디코더 타입의 스케일러블 디코더들에는 사용되지 않는다. 그러므로, 현존하는 규격의 스케일러블 디코더들과 호환가능하게 유지되면서 어떤 비트레이트일지라도 상기 신호들의 품질을 증대시키기 위한 요건이 존재하게 된다.

본 발명은 이러한 상황을 개선하고자 하는 것을 목적으로 한다.

이러한 목적으로, 입력 신호의 현재 프레임을 위하여,

- 상기 현재 프레임의 각각의 샘플에 대한 스칼라 양자화 인덱스를 전달하는 코어 코딩 및

- 인핸스먼트 신호의 각각의 코딩된 샘플에 대한 스칼라 양자화의 인덱스들을 전달하는 적어도 하나의 인핸스먼트 코딩을 포함하는 디지털 오디오 신호의 계층적 코딩의 방법을 제안한다. 상기 방법은 상기 인핸스먼트 코딩이 타겟 신호를 결정하는데 사용되는 코딩 잡음을 성형하기 위한 필터를 획득하는 단계를 포함하도록 되어 있고, 상기 인핸스먼트 신호의 스칼라 양자화의 인덱스들이 스칼라 양자화의 가능성 있는 값들의 세트와 상기 타겟 신호 간의 에러를 최소화함으로써 결정된다.

따라서, 보다 높은 비트레이트의 인핸스먼트 신호의 코딩 잡음의 성형이 행하여진다. 본 발명의 요지를 이루는 합성-기반 분석 기법(synthesis-based analysis scheme)은 상기 디코더에서는 어떠한 상보적 신호 처리도 수행할 필요가 없는데, 그 이유는 종래 기술의 코딩 잡음 성형 솔루션들의 경우일 수도 있기 때문이다.

그러므로, 상기 디코더에서 수신되는 신호는, 어떠한 잡음 성형 연산 뿐만 아니라 어떠한 보정항(corrective term)도 요구하지 않는 임베디드 비트레이트들 및 코어 비트레이트의 신호를 디코딩할 수 있는 스탠더드 디코더에 의해 디코딩될 수 있을 것이다.

그러므로, 상기 디코딩된 신호의 품질이 상기 디코더에서 이용가능한 어떤 비트레이트든지 간에 증대되게 된다.

이하 언급되는 각종 특정 실시예들은 독립적으로 또는 상호 조합되어 상기 한정된 방법의 단계들에 부가될 수도 있다.

따라서, 상기 타겟 신호 결정의 구현 모드는 현재 인핸스먼트 코딩 스테이지에 있어서, 상기 방법은 현재 샘플에 대한 하기 단계들, 즉

- 현재 인핸스먼트 코딩 스테이지의 복원된 신호들의 과거 샘플들 및 앞선 코딩 스테이지의 코딩을 기초로 하여 부분적으로 복원된 신호와 상기 계층적 코딩의 입력 신호를 조합하여 인핸스먼트 코딩 에러 신호를 획득하는 단계;

- 상기 타겟 신호를 획득하기 위하여 상기 인핸스먼트 코딩 에러 신호의, 획득된 잡음 성형 필터에 의해 필터링하는 단계;

- 상기 양자화 단계에 기인하는 신호 및 앞선 스테이지의 코딩에 기인하는 복원된 신호를 가산하여 상기 현재 샘플에 대한 복원된 신호를 연산하는 단계;

- 상기 양자화 단계에 기인하는 신호를 기초로 하여 상기 잡음 성형 필터의 메모리들을 적응시키는 단계를 포함하도록 되어 있다.

본 명세서에 기술되는 동작들의 형태는 복잡성이 크게 저감된 동작들에 의하여 상기 코딩 잡음의 성형을 초래한다.

특정 실시예에 있어서, 현재 샘플에 대한 에러 신호의 양자화 값 및 가능성 있는 스칼라 양자화 값들의 세트는, 상기 코어 비트레이트 양자화 인덱스들에 대하여 연산된 레벨 제어 파라미터에 의해 스케일링된, 양자화 복원 레벨들을 나타내는 값들이다.

따라서, 상기 값들은 상기 코어 코딩의 출력 레벨에 대하여 적응된다.

특정 실시예에 있어서, 인핸스먼트 스테이지 k에 대한 양자화 복원 레벨들을 나타내는 값들은, B+k 비트들을 갖는 임베디드 양자화기의 양자화의 복원 레벨들을 나타내는 값들 간의 차이로 정의되되, B는 상기 코어 코딩의 비트수를 나타내고, 상기 값들은 B+k-1 비트들을 갖는 임베디드 양자화기의 양자화 복원 레벨들을 나타내며, B+k 비트들을 갖는 상기 임베디드 양자화기의 복원 레벨들은 B+k-1 비트들을 갖는 임베디드 양자화기의 복원 레벨들을 2개로 분할하여 정의된다.

더욱이, 상기 인핸스먼트 스테이지 k에 대한 양자화 복원 레벨들을 나타내는 값들은 메모리 공간에 저장되고, 인핸스먼트 인덱스들과 상기 코어 비트레이트 양자화의 함수로서 인덱싱된다.

ROM에 직접 저장되는 인핸스먼트 양자화기의 출력 값들은, B+k-1 비트들을 갖는 양자화기의 출력 값들로부터 B+k 비트를 갖는 양자화기의 출력 값들을 감산함으로써, 각각의 샘플링 인스턴트에 대하여 재연산될 필요가 없다. 더욱이, 그들은 예컨대 앞선 스테이지의 인덱스에 의해 쉽게 인덱싱가능한 테이블에 2 x 2로 배치된다.

특정 실시예에 있어서, 스칼라 양자화의 가능성 있는 값들의 수는 샘플마다 변한다.

따라서, 코딩될 샘플들의 함수로서 인핸스먼트 비트들의 수를 적응시킬 수 있게 된다.

또다른 변형 실시예에 있어서, 상기 스칼라 양자화 인덱스들을 제공하는 상기 인핸스먼트 신호의 코딩된 샘플들의 수는 상기 입력 신호의 샘플들의 수보다 적다.

이는 예컨대 인핸스먼트 비트들의 할당된 수가 소정의 샘플들에 대하여 제로로 설정되는 경우일 수도 있다.

상기 코어 코딩의 구현의 가능성 있는 모드는 예컨대 스칼라 양자화 및 예측 필터를 이용하는 ADPCM 코딩이다.

상기 코어 코딩의 구현의 가능성 있는 또다른 모드는 예컨대 PCM 코딩이다.

상기 코어 코딩은 또한 예컨대 현재 샘플에 대한 하기 단계들, 즉

- 소정의 잡음 성형 필터에 의해 필터링된 양자화 잡음의 과거 샘플들을 기초로 하여 그리고 과거 양자화 잡음 샘플들을 기초로 하여 상기 코딩 잡음에 대한 예측 신호를 획득하는 단계;

- 양자화될 수정된 입력 신호를 획득하기 위하여 상기 코딩 잡음 예측 신호 및 상기 코어 코딩의 입력 신호를 조합하는 단계에 의한 상기 코딩 잡음의 성형을 포함할 수도 있다.

따라서, 복잡성이 보다 덜한 코딩 잡음의 성형이 상기 코어 코딩에 대하여 실시된다.

특정 실시예에 있어서, 상기 잡음 성형 필터는 ARMA 필터 또는 연속적인 ARMA 필터들로 정의된다.

따라서, 분자의 값과 분모의 값을 포함하는 이러한 타입의 웨이팅 함수(weighting function)는, 신호 스파이크(signal spike)들을 고려하는 분모의 값을 통한 그리고 이들 스파이크들을 감쇠하는 분자의 값을 통한 장점을 가지므로, 상기 양자화 잡음의 최적의 성형을 제공하게 된다. 계단식 연속 ARMA 필터들은 상기 신호 및 주기성 또는 유사-주기성(quasi-periodicity) 컴포넌트들의 스펙트럼의 엔벨로프(envelope)를 모델링하기 위한 컴포넌트들에 의하여 마스킹 필터의 보다 나은 모델링을 가능하게 한다.

특정 실시예에 있어서, 상기 잡음 성형 필터는 디커플링된 스펙트럴 슬로프(decoupled spectral slope) 및 포먼틱(formantic) 형상의 2개의 계단식 ARMA 필터링 셀들로 분해된다.

따라서, 각각의 필터는 상기 입력 신호의 스펙트럼 특성들의 함수로서 적응되므로, 각종 타입의 스펙트럴 슬로프들을 나타내는 신호들에 대하여 적합하다.

유리하게는, 상기 인핸스먼트 코딩에 의해 사용되는 잡음 성형 필터(W(z)) 또한 상기 코어 코딩에 의해 사용되므로, 구현의 복잡성을 저감시킨다.

특정 실시예에 있어서, 상기 잡음 성형 필터는 상이한 입력 신호들에 최고로 적응시키기 위하여 상기 입력 신호의 함수로서 연산된다.

변형 실시예에 있어서, 상기 잡음 성형 필터는 상기 코어 코딩에 의해 국부적으로 디코딩되는 신호를 기초로 하여 연산된다.

본 발명은 또한

- 현재 프레임의 각 샘플에 대한 스칼라 양자화 인덱스를 전달하는 코어 코딩 스테이지; 및

- 인핸스먼트 신호의 각각의 코딩된 샘플에 대한 스칼라 양자화의 인덱스들을 전달하는 적어도 하나의 인핸스먼트 코딩 스테이지를 포함하는 상기 입력 신호의 현재 프레임에 대한 디지털 오디오 신호의 계층적 코더에 관한 것이기도 하다.

상기 코더는 타겟 신호를 결정하는데 사용되는 코딩 잡음을 성형하기 위한 필터 획득용 모듈 및 상기 타겟 신호와 스칼라 양자화의 가능성 있는 값들의 세트 간의 에러를 최소화함으로써 상기 인핸스먼트 신호의 스칼라 양자화의 인덱스들을 전달하는 양자화 모듈을 상기 인핸스먼트 코딩 스테이지가 포함하도록 되어 있다.

또한, 명령(instruction)들이 프로세서에 의해 실행되는 경우, 본 발명에 따른 코딩 방법의 단계들의 구현을 위한 코드 명령들을 포함하는 컴퓨터 프로그램에 관한 것이기도 하다.

본 발명은 최종적으로 기술된 바와 같이 컴퓨터 프로그램을 저장하고 있는 프로세서에 의해 판독가능한 저장수단에 관한 것이다.

본 발명의 기타 특성 및 장점들은 제한되지 않는 예시를 통해서 그리고 첨부된 도면들을 참조하여 하기 설명을 판독함으로써 더욱 명확해질 것이다.

도 1은 앞서 기술된, 종래 기술에 따른 임베디드-코드 ADPCM 타입의 코더를 예시한 도면;
도 2는 앞서 기술된, 종래 기술에 따른 임베디드-코드 ADPCM 타입의 코더를 예시한 도면;
도 3은 앞서 기술된, 종래 기술에 따른 임베디드-코드 ADPCM 타입의 코더의 양자화 인덱스들의 예시적인 프레임을 도시한 도면;
도 4는 본 발명을 구현하지 않고 있는 코더에 존재하는 양자화 잡음의 스펙트럼에 대한 신호 블럭의 스펙트럼을 나타낸 도면;
도 5는 본 발명의 일반적인 실시예에 따른 코딩 방법 및 임베디드-코드 코더의 블럭도를 나타낸 도면;
도 6a 및 도 6b는 본 발명에 따른 인핸스먼트 코딩 방법 및 인핸스먼트 코딩 스테이지의 블럭도를 나타낸 도면;
도 7은 본 발명에 따른 코딩에 기인하는 신호의 디코딩에 적응된 디코더들의 각종 구성예들을 도시한 도면;
도 8은 본 발명에 따른 코딩 방법 및 본 발명에 따른 코더의 상세한 제1실시예의 블럭도를 나타낸 도면;
도 9는 본 발명에 따른 코더의 코어 코딩 스테이지에 대한 코딩 잡음의 예시적인 연산을 도시한 도면;
도 10은 도 9의 코딩 잡음을 연산하기 위한 상세한 함수를 도시한 도면;
도 11은 본 발명의 코딩 방법에 따른 양자화 복원 레벨들의 세트를 획득하는 일례를 도시한 도면;
도 12는 본 발명의 코딩 방법에 따른 인핸스먼트 신호의 대표예를 도시한 도면;
도 13은 본 발명에 따른 코딩에 대한 마스킹 필터의 연산의 제1실시예의 단계들을 나타내는 플로우차트를 도시한 도면;
도 14는 본 발명에 따른 코딩에 대한 마스킹 필터의 연산의 제2실시예의 단계들을 나타내는 플로우차트를 도시한 도면;
도 15는 본 발명에 따른 코딩 방법 및 본 발명에 따른 코더의 상세한 제2실시예의 블럭도를 나타내는 도면;
도 16은 본 발명에 따른 코딩 방법 및 본 발명에 따른 코더의 상세한 제3실시예의 블럭도를 나타내는 도면; 및
도 17은 본 발명에 따른 코더의 가능성 있는 실시예를 나타내는 도면이다.

이하, 명세서에 있어서, "예측"이란 용어는 과거 샘플들만을 이용하는 연산들을 기술하기 위해 시스템적으로 채택된다.

도 5를 참조하여, 이하 본 발명에 따른 임베디드-코드 코더를 설명한다. 추가적인 샘플당 한 비트를 제공하는 인핸스먼트 스테이지들에 의해 상기 코딩이 행하여진다는 점에 주목하는 것이 중요하다. 이러한 제약은 여기서는 본 발명의 프리젠테이션을 단순화하는 것에서만 유용하다. 하지만, 이하 기술되는 발명은 인핸스먼트 스테이지들이 샘플당 하나 이상의 비트를 제공하는 경우로 일반화되기 쉽다는 것은 자명하다.

이러한 코더는 예컨대 블럭 520의 출력들의 함수로서 수정된 G.711 규격화 코더와 같은 PCM("Pulse Code Modulation") 코더 또는 규격화된 G.722 또는 G.727 코더와 같은 ADPCM 코딩 타입의 B 비트들에 대한 양자화에 의한 코어 비트레이트 코딩 스테이지(500)를 포함한다.

도면 부호 510의 블럭은, 도 8, 도 15 또는 도 16을 참조하여 보다 상세하게 연속해서 기술되는, 상기 코어 코딩의 잡음의 마스킹인 상기 코딩 잡음의 성형을 갖는 이러한 코어 코딩 스테이지를 나타낸다.

제시된 것과 같은 본 발명은 또한 상기 코어 부분에 코딩 잡음의 마스킹이 행하여지지 않는 경우에 관한 것이기도 하다. 더욱이, "코어 코더"란 용어는 본 명세서에서 넓은 의미로 사용된다. 따라서, 예컨대 56 또는 64 kbit/s를 갖는 ITU-T G.722와 같은 현존하는 멀티-비트레이트 코더가 "코어 코더"로 간주될 수도 있다. 극단적으로는, 0 kbit/s를 갖는 코어 코더를 생각할 수도 있는데, 다시 말하면 상기 코딩의 제1단계로부터 본 발명의 요지를 올바르게 형성하는 인핸스먼트 코딩 기술을 적용할 수도 있다. 후자의 경우에는 상기 인핸스먼트 코딩이 코어 코딩이 된다.

잡음의 성형을 갖는, 도 5를 참조하여 본 명세서에 기술된 코어 코딩 스테이지는, 예측 신호

를 제공하기 위하여 양자화 잡음

및 필터링된 양자화 잡음

를 기초로 하여 예측 P_r(z)을 행하는 필터링 모듈(520)을 포함한다. 상기 필터링된 양자화 잡음

은 예컨대 도 9를 참조하여 연속해서 기술된 바와 같이 양자화 잡음에 대하여 상기 필터링된 잡음의 K_M 부분 예측들을 가산하여 얻어진다.

상기 코어 코딩 스테이지는 신호 x(n)을 입력으로 수신하고, 예컨대 도 1을 참조하여 기술된 ADPCM 코딩의 경우에 있어서 양자화기 v(n)의 스케일 팩터, I ^B (n)을 기초로 하여 복원된 신호 r ^B (n) , 및 양자화 인덱스 I ^B (n)를 출력으로 제공한다.

도 5에 제시된 바와 같은 코더 또한 몇 가지 인핸스먼트 코딩 스테이지들을 포함한다. 스테이지 EA1(530), 스테이지 EAk(540) 및 스테이지 EAk2(550)가 본 명세서에 제시된다.

이렇게 제시된 인핸스먼트 코딩 스테이지가 계속해서 도 6a 및 도 6b를 참조하여 상세히 설명될 것이다.

일반적으로, 각각의 인핸스먼트 코딩 스테이지 k는 입력으로 신호 x(n), 최적의 인덱스

, 앞선 인핸스먼트 스테이지들의 인덱스들 및 코어 코딩의 인덱스

의 연접(concatenation)

또는 등가적으로는 이들 인덱스들의 세트, 앞선 단계에서 복원된 신호

, 상기 마스킹 필터의 파라미터들 및 필요한 경우, 적응 코딩의 경우에 있어서의 스케일 팩터 v(n)을 구비한다.

이러한 인핸스먼트 스테이지는 출력으로서 연접 모듈(560)에서 인덱스

와 연접될 상기 코딩 스테이지에 대한 인핸스먼트 비트들을 위한 양자화 인덱스

를 제공한다. 상기 인핸스먼트 스테이지 k는 또한 출력으로서 복원 신호 r^B+k (n) 를 제공한다. 본 명세서에서 상기 인덱스 J _k (n)는 인덱스 n의 샘플마다 한 비트를 나타내지만; 일반적인 경우에 있어서, J _k (n)는 가능성 있는 양자화 값들의 수가 2보다 크다면 샘플당 수 개의 비트들을 나타낼 수도 있다는 점에 유의해야 한다.

상기 스테이지들 중 일부는, 결과적인 인덱스가 도 7에 제시되어 후속해서 기술된 바와 같은 스탠더드 디코더에 의해 디코딩될 수 있도록 인덱스

와 연접되는 전송될 비트들

에 대응한다. 그러므로, 리모트 디코더를 변경할 필요는 없고; 또한 상기 코더에서 수행되는 처리를 상기 리모트 디코더에 "통지(inform)"하기 위하여 추가적인 정보가 요구되지도 않는다.

다른 비트들

은 마스킹 및 비트레이트를 증가시켜 인핸스먼트 비트들에 대응하고, 도 7을 참조하여 기술된 추가적인 디코딩 모듈을 요구한다.

도 5의 코더는 또한 도 13 및 도 14를 참조하여 후속해서 기술된 상기 코더의 합성 필터들의 계수들 또는 상기 입력 신호를 기초로 하여, 잡음 성형 필터 또는 마스킹 필터를 연산하기 위한 모듈(580)을 포함하기도 한다. 상기 모듈(580)은 원래 신호라기 보다는 오히려 입력으로서 국부적으로 디코딩된 신호를 구비할 수도 있다는 점에 유의한다.

본 명세서에 제시된 바와 같은 인핸스먼트 코딩 스테이지들은, 상기 디코딩된 신호의 어떤 비트레이트든지 간에 그리고 상기 디코더를 수정하지 않으므로 상기 디코더에서 어떠한 가외의 복잡성없이도, 상기 디코더에서 상기 신호의 증가된 품질을 제공하는 인핸스먼트 비트들을 제공할 수 있도록 한다.

따라서, 이하 본 발명의 일 실시예에 따른 인핸스먼트 코딩 스테이지 k를 나타내는 도 5의 모듈 Eak가 도 6a를 참조하여 설명된다.

이러한 코딩 스테이지에 의해 행하여지는 인핸스먼트 코딩은 양자화 단계

를 포함하는데, 이는 상기 코딩 잡음 성형 필터를 사용하여 결정되는 타겟 신호와 가능성 있는 양자화 값들의 세트 간의 에러를 최소화하는 양자화 값 및 인덱스를 출력으로 전달한다.

여기서는, 임베디드-코드 양자화기들을 포함하는 코더들이 고려된다.

상기 스테이지 k는 인핸스먼트 비트 J_k 또는 비트들 J_k(k=1,...,G_k)의 그룹을 획득할 수 있게 한다.

이는 코딩 에러 신호

를 제공하기 위하여, 샘플 n에 대한 앞선 스테이지의 신호

및 현재 프레임의 각각의 앞선 샘플

에 대한 스테이지 k에서 합성된 신호

를 상기 입력 신호 x(n)으로부터 감산하기 위한 모듈 EAk-1을 포함한다.

도 4를 참조하여 제시된 바와 같이 스펙트럼이 평탄한 양자화 잡음을 발생시킬 쿼드러틱 에러 기준(quadratic error criterion)을 최소화하는 것이라기 보다는 오히려, 가중된 쿼드러틱 에러 기준이 상기 양자화 단계에서 최소화되어, 스펙트럴하게 성형된 잡음이 덜 가청화된다.

따라서, 상기 스테이지 k는 웨이팅 함수 W(z)에 의하여 상기 에러 신호

를 필터링하기 위한 필터링 모듈 EAk-2를 포함한다. 이러한 웨이팅 함수는 또한 상기 코어 코딩 스테이지에서 상기 잡음의 성형에 사용될 수도 있다.

본 명세서에서는 상기 잡음 성형 필터가 상기 스펙트럴 웨이팅의 인버스와 같은데, 바꿔 말하면:

이러한 성형 필터는 ARMA 타입("AutoRegressive Moving Average")이다. 그 전달 함수는 차수 N_N의 분자와 차수 N_D의 분모를 포함한다. 따라서, 블럭 EAk-1은 특히 H ^M (z)의 분모에 대응하는 필터 W(z)의 비회귀(non-recursive) 부분의 메모리들을 정의하는 역할을 한다. W(z)의 회귀 부분의 메모리들의 정의는 간결성을 위하여 도시되지 않았지만,

로부터 그리고

로부터 도출된다.

이러한 필터링 모듈은, 출력으로서 상기 타겟 신호에 대응하는 필터링된 신호

를 제공한다.

상기 스펙트럴 웨이팅의 규칙은 상기 코딩 에러의 스펙트럼을 성형하기 위한 것으로, 이는 상기 가중된 에러의 에너지를 최소화함으로써 실시된다.

양자화 모듈 EAk-3은, 양자화 출력의 가능성 있는 값들을 기초로 하여, 하기 수학식에 따라 상기 가중된 에러 기준을 최소화하는 것을 구하는 양자화 단계를 행한다.

이러한 수학식은 인핸스먼트 비트가 각각의 샘플 n에 대하여 연산되는 경우를 나타낸다. 그 후, 상기 양자화기의 두 출력 값들이 가능하다. 이어서, 양자화 단계의 가능성 있는 출력 값들이 어떻게 정의되는 지를 볼 것이다.

따라서, 이러한 모듈 EAk-3은, 앞선 스테이지의 인덱스

와 연접될 최적의 비트 J _k 의 값을 제1출력으로 그리고 상기 최적의 인덱스 J _k 에 대한 양자화기의 출력 신호인

를 제2출력으로 하여 인핸스먼트 양자화

를 실시하되, 여기서 v(n)은 상기 양자화기들의 출력 레벨을 적응시키기 위하여 상기 코어 코딩에 의해 정의된 스케일 팩터를 나타낸다.

상기 인핸스먼트 코딩 스테이지는 최종적으로 스테이지 k

에서 합성된 신호를 제공하기 위하여 상기 양자화된 에러 신호

를 앞선 스테이지에서 합성된 신호

에 가산하기 위한 모듈 EAk-4를 포함한다.

등가 방식에 있어서는,

가 인덱스

를 디코딩하여, 다시 말하면 선택적으로는 유한 정밀(finite precision)에서,

를 연산하여, 그리고 예측

을 가산하여, EAk-4에 대한 교체 시에 획득될 수도 있다. 이 경우, B 비트들, B+1,...을 갖는 양자화기들의 양자화 값들

을 메모리에 저장하는 것과 상기 인핸스먼트 양자화기의 값들

로 연산하는 것이 적합하다.

n'=n인 경우

와 같은 값을 가진 신호 e ^B ^+k (n) 는 하기 샘플링 인스턴트에 대한 하기 관계식에 따라 보충된다.

여기서,

는 또한 상기 필터의 메모리 MA("Moving Average")이다. 그러므로, 메모리에 유지될 샘플들의 수가 상기 잡음 성형 필터의 분모의 계수들의 수와 같게 된다.

그리고, 상기 필터링의 AR("Auto Regressive") 부분의 메모리는 하기 수학식에 따라 업데이트된다.

캐스케이드(cascade)에서 몇 개의 ARMA 셀들을 배치하여 필터링하는 경우에 있어서는, 도 10을 참조하여 상기 필터들의 내부 변수들이 하기와 같은 동일한 방식으로 적응된다:

상기 인덱스 n은 1 단위로 증분된다. 초기화 단계가 제1의 N_D 샘플들에 대해 수행되면,

의 연산이 상기 저장 메모리를

(이는 가장 오래된 샘플의 덮어쓰기를 수반함)에 대하여 시프트시켜 그리고 상기 값

을 자유롭게 남아 있는 슬롯(slot left free)에 삽입함으로써 행해질 것이다.

도 6a에 도시된 본 발명은 등가 변형예들을 통해 실시될 수도 있다는 점에 유의해야 한다. 실제로, 상기 복원된 신호는 이미 이용가능한 샘플들(과거 샘플들

, 앞선 스테이지들의 현재 샘플들, 필터들의 메모리들)에 의해서만 결정되는 부분 s _det (n) 및 최적화될 현재 샘플만을 의존하는 s _opt (n)이 결정될 또다른 부분으로 분해될 수도 있다. 따라서, 연산 부하를 최적화하기 위하여, 상기 입력 신호 x(n)와 복원 신호 r ^B ^+k (n) 간의 가중된 에러인

가 최소화될 에러의 연산 또한 두 부분으로 분해될 수도 있다. 제1단계에서는, 상기 입력 샘플 x(n)과 s_det(n) 간의 W(z)에 의한 가중된 차이가 연산된다(도 6a의 모듈 EAK-1 및 EAK-2). 이렇게 획득한 값

은 단 하나의 타겟 값으로 감소하는 인스턴트 n에서의 타겟 신호이고, 이는 각각의 가능성 있는 양자화 값

에 대하여 단 한 번 연산될 필요가 있다. 다음으로, 최적화 루프에서는, 가능성 있는 모든 스칼라 양자화 값들 가운데 Euclidian 거리의 관점에서 상기 타겟 값에 가장 가까운 것을 간단하게 발견할 필요가 있다.

상기 타겟 값을 연산하기 위한 또다른 변형예는 2가지 웨이팅 필터링 W(z)을 실시하는 것이다. 제1필터링은 입력 신호와 앞선 스테이지의 복원된 신호 r ^B ^+k-1 (n) 간의 차이를 웨이팅한다. 제2필터는 제로 입력을 가지지만, 이들 메모리들은

의 도움을 받아 업데이트된다. 이들 두 필터링들의 출력들 간의 차이는 동일한 타겟 신호를 제공한다.

도 6a에 기술된 본 발명의 원리는 도 6b에 일반화되어 있다. 블럭 601은 앞선 스테이지의 코딩 에러

를 제공한다. 블럭 602는 가능성 있는 모든 스칼라 양자화 값들

을 하나씩 도출하는데, 이는 블럭 603에 의하여

로부터 감산되어, 현재 스테이지의 코딩 에러

를 획득하게 된다. 이러한 에러는 상기 블럭 602를 제어하기 위하여 상기 잡음 성형 필터 W(z)에 의해 웨이팅되고(블럭 604) 최소화된다(블럭 605). 근본적으로, 상기 인핸스먼트 코딩 스테이지에 의해 국부적으로 디코딩된 값은

이다(블럭 606).

여기서는, 표기법

은 샘플당 비트레이트가 B+k 비트들인 것으로 전제한다는 점에 유의하는 것이 중요하다. 그러므로, 도 6은 샘플당 단 하나의 비트가 상기 인핸스먼트 코딩 스테이지에 의해 더해지는 경우를 처리하므로, 상기 블럭 602에서 가능성 있는 2개의 양자화 값들을 수반하게 된다. 도 6b에 기술된 인핸스먼트 코딩은 샘플당 임의 개수의 비트들 k를 생성할 수 있고; 이 경우, 상기 블럭 602에서 가능성 있는 스칼라 양자화 값들의 수는 2^k라는 점은 자명하다.

도 7을 참조하면, 이하 도 5를 참조하여 기술된 바와 같이, 본 발명에 따른 코더로부터의 출력으로서 획득한 신호를 디코딩할 수 있는 임베디드-코드 디코더들의 각종 구성들을 설명하기로 한다.

구현되는 디코딩 디바이스는, 예컨대 ISDN 네트워크(710)로부터 또는 IP 네트워크(720)로부터 기인되는 지의 여부에 따른 신호의 오리진(origin)에 그리고 신호 전송 비트레이트에 좌우된다.

비트레이트가 낮은(48, 56 또는 64 kbit/s) 전송 채널에 있어서는, 예컨대 G.722 규격화된 ADPCM 디코더 타입의 스탠더드 디코더(700)를 사용하여, 코어 비트레이트의 비트수인 k1=0, 1, 2 및 B를 갖는 B+k1 비트들의 바이너리 트레인을 디코딩하는 것이 가능할 것이다. 이러한 디코딩에 기인하는 복원된 신호

는 상기 코더에 구현된 인핸스먼트 코딩 스테이지들 때문에 증대된 품질의 혜택을 얻을 것이다.

비트레이트가 보다 높은(80, 96 kbit/s) 전송 채널에 있어서는, 바이너리 트레인

이 스탠더드 디코더(700)의 비트레이트보다 큰 비트레이트를 가지고 모드 인디케이터(mode indicator; 740)에 의해 표시된다면, 엑스트라 디코더(730)가 도 2를 참조하여 기술된 B+1 및 B+2 비트들을 갖는 인버스 양자화들을 수행하는 것 이외에도,

의 인버스 양자화를 행하여, 상기 예측 신호

에 가산될 때, 고-비트레이트의 증대된 신호

를 제공할 양자화된 에러를 제공하게 된다.

이하, 본 발명에 따른 코더의 제1실시예를 도 8을 참조하여 설명한다. 본 실시예에 있어서, 코어 비트레이트 코딩 스테이지 800은 코딩 잡음 성형을 갖는 ADPCM 타입의 코딩을 행한다.

상기 코어 코딩 스테이지는, 도 1을 참조하여 기술된 것과 같이, 상기 복원된 신호

및 코어 레이어의 낮은 비트레이트 인덱스

를 통해 양자화된 에러 신호

의 앞선 샘플들을 기초로 하여 실시되는 신호 예측

을 연산하기 위한 모듈(810)을 포함한다.

상기 입력 신호 x(n)로부터 예측

을 감산하기 위한 감산 모듈(801)이 제공되어 예측 에러 신호

를 획득하게 된다.

상기 코어 코더는 또한 필터링된 잡음

및 양자화 잡음

의 앞선 샘플들을 기초로 하여 실시된

잡음

를 예측하기 위한 모듈(802)도 포함한다.

상기 잡음 예측

을 상기 예측 에러 신호

에 가산하기 위한 가산 모듈(803) 또한

로 표시된 에러 신호를 얻기 위하여 제공되기도 한다.

코어 양자화 Q^B 모듈(820)은 양자화 인덱스들 I^B(n)을 제공하기 위하여 에러 신호 e^B(n)을 입력으로 수신한다. 최적의 양자화 인덱스 I^B(n) 및 양자화된 값

은 에러 기준

을 최소화하되, 여기서 상기 값들

은 복원된 레벨들이고, v(n)은 양자화기 적응 모듈(804)에 기인하는 스케일 팩터이다.

예컨대 상기 G.722 코더에 의하면, 상기 코어 양자화기의 복원 레벨들 Q^B는 X.Maitre. "7kHz audio coding within 64 kbit/s", IEEE Journal on Selected Areas in Communication, Vol.6-2, February 1988에 의한 아티클의 테이블 VI에 의해 정의되어 있다.

상기 양자화 모듈 Q^B에 의해 출력되는 B 비트들의 양자화 인덱스

는, 도 7을 참조하여 기술된 바와 같이 상기 전송 채널(840)을 통해 상기 디코더에 전송되기 전에, 상기 인핸스먼트 비트들

과 함께 멀티플렉싱 모듈(830)에서 다중화될 것이다.

상기 코어 코딩 스테이지는 또한 상기 양자화기의 입력과 그 출력 간의 차이인 양자화 잡음

을 연산하기 위한 모듈(805), 상기 양자화 잡음을 상기 양자화 잡음의 예측에 가산하여 필터링된 양자화 잡음

을 연산하기 위한 모듈(806) 및 상기 신호의 예측을 상기 양자화된 에러에 가산하여 복원된 신호

를 연산하기 위한 모듈(807)을 포함한다.

양자화기 Q^B 적응

모듈(804)은 하기 인스턴트 n+1에 대한 스케일 팩터라고도 불리우는 레벨 제어 파라미터 v(n)을 제공한다.

상기 예측 모듈(810)은 상기 복원된 양자화된 에러 신호

및 선택적으로는 1+P_z(z)에 의해 필터링된 상기 복원된 양자화된 에러 신호

의 샘플들을 기초로 한 적응을 위한 적응

모듈(811)을 포함한다.

후속해서 상세한 모듈(850) Calc Mask는, 입력 신호를 기초로 하거나, 또는 (코어 비트레이트에서) 상기 코어 코딩에 의해 국부적으로 디코딩된 신호를 기초로 하거나, 또는 단순화된 그래디언트 알고리듬(gradient algorithm)에 의하여 ADPCM 코딩에서 연산된 예측 필터 계수들을 기초로 하여, 상기 코어 코딩 스테이지와 인핸스먼트 코딩 스테이지들 양자 모두에 의해 사용될 수도 있는 코딩 잡음을 성형하기 위한 필터를 제공하도록 설계된다. 후자의 경우에 있어서, 상기 잡음 성형 필터는 댐핑 상수들을 더하고 디-엠퍼시스(de-emphasis) 필터를 더하여, 상기 코어 비트레이트 코딩에 사용되는 예측 필터의 계수들을 기초로 하여 획득될 수도 있다.

또한, 상기 인핸스먼트 스테이지들에서 마스킹 모듈을 단독으로 사용할 수도 있고; 이러한 대안예는 상기 코어 코딩이 샘플당 수 비트들을 사용하는 경우에 이점이 있는데, 이 경우 상기 코딩 에러는 백색 잡음(white noise)이 아니고, 신호-대-잡음비가 매우 낮으며 - 이러한 상황은 G.722 규격에서 고대역(4000-8000 Hz)의 샘플당 2 비트들을 갖는 ADPCM 코딩에서 발견되는데, 이 경우 피드백에 의한 잡음 성형은 효과적이지 않다.

도 8의 블럭들 802, 803, 805, 806에 대응하는 코어 코딩의 잡음 성형은 선택적이라는 것에 유의한다. 도 16에 제시된 본 발명은 상기 블럭들 801, 804, 807, 810, 811, 820에 대하여 저감된 ADPCM 코어 코딩에 대해서도 적용된다.

도 9는 하기 일반식을 갖는 ARMA("AutoRegressive Moving Average") 필터에 의하여 양자화 잡음의 예측

의 연산을 수행하는 모듈(802)을 보다 상세히 설명한다.

명료성을 위하여, 여기서는 z-변환 표기법이 사용된다.

오디오주파수 신호들의 단기 및 장기 특성들을 일시 및 동시에 고려할 수 있는 잡음의 성형을 획득하기 위하여, 상기 필터

는 계단식 ARMA 필터링 셀들 900, 901, 902에 의해 표현된다.

이러한 필터 캐스케이드에 기인하는 도 9의 필터링된 양자화 잡음은 하기식에 의하여 양자화 잡음

의 함수로서 주어질 것이다.

도 10은 모듈 F^k(z)(901)을 보다 상세히 보여준다. 이러한 셀 k의 출력에서의 양자화 잡음은 하기식으로 주어진다.

를 가지고 반복하면 하기가 산출된다.

즉,

잡음 예측

은 다음과 같이 주어진다.

따라서, 도 8에 의한 코어 코딩 잡음의 성형이 하기 수학식들을 통해 유효하다는 것은 쉽게 증명된다.

이에 따라,

상기 양자화 잡음은 거의 백색이므로, 감지된 코딩 잡음의 스펙트럼은 필터

에 의해 성형되므로, 덜 가청적이다.

후속해서 기술된 바와 같이, ARMA 필터링 셀은 하기 방식으로 계수들 g₁ 및 g₂를 할당하여 상기 입력 신호의 선형 예측

을 위한 인버스 필터로부터 도출될 수도 있다.

분자의 값과 분모의 값을 포함하는 이러한 타입의 웨이팅 함수는, 신호 스파이크들을 고려하는 분모의 값을 통한 그리고 이들 스파이크들을 감쇠하는 분자의 값을 통한 장점을 가지므로, 상기 양자화 잡음의 최적의 성형을 제공하게 된다. 상기 g₁ 및 g₂의 값들은 다음과 같다.

특정 값 g₁ = 0은 순수하게 오토리그레시브한 마스킹 필터를 제공하고, g₂ = 0의 것은 MA 이동 평균 필터를 제공한다.

더욱이, 높은 정확도(fidelity)의 디지털 오디오 신호들의 경우 및 보이스 신호들의 경우에 있어서는, 상기 신호의 주기성들을 나타내는 신호의 미세 구조에 기초한 약간의 성형이 상기 신호의 하모닉들 간에 감지되는 양자화 잡음을 저감시킨다. 인핸스먼트는 예컨대 200 Hz 보다 큰 피치 또는 상대적으로 높은 기본주파수를 갖는 신호들의 경우에 특히 중요하다.

장기 잡음 성형 ARMA 셀은 하기에 의해 주어진다.

도 8의 설명으로 되돌아가면, 상기 코더는 또한 몇 개의 인핸스먼트 코딩 스테이지들을 포함한다. 두 스테이지 EA1 및 EAk가 여기에 제시된다.

상기 인핸스먼트 코딩 스테이지 EAk는 인핸스먼트 비트 J_k 또는 비트들의 그룹 J_kk = 1,G_k를 획득할 수 있게 만들고, 도 6a 및 도 6b를 참조하여 기술되는 바와 같다.

이러한 코딩 스테이지는, 코딩 에러 신호

를 제공하기 위하여, 인스턴트 n에 대하여 스테이지 k-1에서 합성된 신호

및 샘플링 인스턴트들

에 대하여 스테이지 k에서의 합성된 신호

로 형성된 신호

를 상기 입력 신호 x(n)로부터 감산하기 위한 모듈 EAk-1를 포함한다.

상기 웨이팅 함수 W(z)에 의해

를 필터링하기 위한 모듈 EAk-2 또한 상기 코딩 스테이지 k에 포함된다. 이러한 웨이팅 함수는, 앞서 기술된 바와 같은 코어 코딩에 의해 주어진 마스킹 필터

의 인버스와 같다. 상기 모듈 EAk-2의 출력에서는, 필터링된 신호

가 얻어진다.

상기 인핸스먼트 코딩 스테이지 k는, 앞선 스테이지의 인덱스

와 연접될 최적의 비트 J_k의 값을 제1출력으로서 그리고 상기 최적의 인덱스 J_k에 대한 양자화기로부터의 출력 신호인

를 제2출력으로서 구비한 인핸스먼트 양자화

를 실시하는 j=0,1에 대하여 에러 기준

을 최소화하기 위한 모듈 EAk-3을 포함한다.

스테이지 k는 또한 스테이지 k에서 합성된 신호

를 제공하기 위하여 앞선 스테이지에서 합성된 신호

에 상기 양자화된 에러 신호

를 가산하기 위한 가산 모듈 EAk-4를 포함한다.

단 하나의 성형 ARMA 필터의 경우에 있어서는, 필터링된 에러 신호가 하기에 의하여 z-변환 표기법으로 주어진다.

따라서, 각각의 샘플링 인스턴트 n에 대하여, 부분 복원된 신호

는 앞선 스테이지에서 복원된 신호

및 상기 신호

의 과거 샘플들을 기초로 하여 연산된다.

이러한 신호는 상기 신호 x(n)로부터 감산되어 에러 신호

를 제공하게 된다.

상기 에러 신호는 필터링 ARMA 셀 W¹을 구비한 필터에 의해 필터링되어 하기를 제공하게 된다.

상기 웨이팅된 에러 기준은 상기 양자화기의 가능성 있는 출력들의 두 값들(또는 비트가 수 개이면 N_G 값들)에 대한 쿼드러틱 에러를 최소화하는 것에 해당한다.

이러한 최소화 단계는 최적의 인덱스 J_k 및

라고도 표시되는 최적의 인덱스에 대한 양자화된 값

을 제공한다.

상기 마스킹 필터가 수 개의 계단식 ARMA 셀들로 구성되는 경우에는, 계단식 필터링들이 행하여진다.

예를 들어, 계단식 단기 필터링 및 피치 셀에 대해서는 하기와 같을 것이다.

제1의 필터링 셀의 출력은 다음과 같을 것이다.

그리고 제2의 셀의 출력은 다음과 같다.

일단 상기 기준을 최소화하여

이 얻어지면,

로부터

를 도출하여

가 적응된 다음, 저장 메모리가 좌측으로 시프트되어, 값

이 하기 인스턴트 n+1에 대하여 가장 최근의 위치로 들어가게 된다.

상기 필터의 메모리들은 그 후에 하기에 의해 적응된다.

앞선 절차는 하기와 같은 일반적인 경우에 반복된다.

따라서, 인핸스먼트 비트들은 계단식 인핸스먼트 스테이지들에서 비트 x 비트 또는 비트 그룹 x 비트 그룹으로 얻어진다.

상기 코더의 코어 비트들과 인핸스먼트 비트들이 도 1에 제시된 바와 같이 에러 신호 e(n)을 양자화하여 직접 얻어지는 종래 기술과는 대조적으로, 본 발명에 따른 인핸스먼트 비트들은 상기 스탠더드 디코더의 출력에서의 인핸스먼트 신호가 상기 양자화 잡음의 성형에 의해 복원되는 방식으로 연산된다.

상기 코어 양자화기의 출력에서 얻어지는 인덱스 I^B(n)를 알고, B+1 비트들을 갖는 ADPCM 타입의 양자화기가 임베디드-코드 양자화기이기 때문에, B+1 비트들을 갖는 양자화기에 대해서는 단지 2개의 출력 값들이 가능하다.

B+k-1 비트들을 갖는 인핸스먼트 스테이지의 함수로서 B+k 비트들을 갖는 인핸스먼트 스테이지의 출력에 대해서도 동일한 이유가 적용된다.

도 11은 B+2 비트들에 대하여 인핸스먼트 양자화기의 출력 값들 뿐만 아니라, B=4 비트들에 대하여 B 비트들을 갖는 코어 양자화기의 첫번째 4 레벨 및 G.722 코더의 저대역의 코딩의 B+1 및 B+2 비트들을 갖는 양자화기들의 레벨들을 나타낸다.

이 도면에 예시된 바와 같이, B+1 =5 비트들을 갖는 임베디드 양자화기는 B=4 비트들을 갖는 양자화기의 두 레벨들로 분할하여 얻어진다. B+2=6 비트들을 갖는 임베디드 양자화기는 B+1=5 비트들을 갖는 양자화기의 두 레벨들로 분할하여 얻어진다.

본 발명의 일 실시예에 있어서, 인핸스먼트 스테이지 k에 대한 양자화 복원 레벨들을 나타내는 값들은 B+k 비트들을 갖는 임베디드 양자화기의 양자화의 복원 레벨들을 나타내는 값들 간의 차이에 의해 정의되되, B는 상기 코어 코딩의 비트수를 나타내고, 상기 값들은 B+k-1 비트들을 갖는 임베디드 양자화기의 양자화 복원 레벨들을 나타내며, B+k 비트들을 갖는 임베디드 양자화기의 복원 레벨들은 B+k-1 비트들을 갖는 임베디드 양자화기의 복원 레벨들을 둘로 분할하여 정의된다.

그러므로, 하기 관계식을 얻게 된다.

는 B+k 비트들을 갖는 임베디드 양자화기의 가능성 있는 복원 레벨들을 나타내고,

는 B+k-1 비트들을 갖는 임베디드 양자화기의 복원 레벨들을 나타내며,

는 스테이지 k에 대한 복원 레벨 또는 인핸스먼트 항을 나타낸다. 예를 들어, 스테이지 k=2의 출력에서의 레벨들은, 다시 말해 B+k=6에 대해서는, B+k=5 비트들에 대하여 임베디드 양자화기의 함수로서 도 11에 주어진다.

B+k 비트들을 갖는 양자화기의 가능성 있는 출력들은 하기에 의해 주어진다.

v(n)은 고정된 양자화기들의 출력 레벨을 적응시키기 위하여 상기 코어 코딩에 의해 정의된 스케일 팩터를 나타낸다.

종래 방식에 의하면, B, B+l,...,B+K 비트들을 갖는 양자화기들에 대한 양자화는, 양자화될 값 e(n)이 놓여 있는 B+k 비트들을 갖는 양자화기의 디시전 스팬(decision span)을 태깅(tagging)하여 단 한 번 수행되었다.

본 발명은 상이한 방식을 제안한다. B+k-1 비트들을 갖는 양자화기에 기인하는 양자화된 값을 알면, 상기 양자화기의 입력에서 상기 신호의 양자화

가 양자화 에러를 최소화하여 그리고 결정 임계값들을 호출하지 않고 행하여짐으로써, 하기와 같이 프로덕트

의 고정점(fixed-point) 구현에 대한 연산 잡음을 줄일 수 있게 한다는 장점이 있다.

도 4를 참조하여 제시된 바와 같이 스펙트럼이 평탄한 양자화 잡음을 발생시킬 쿼드러틱 에러 기준을 최소화하는 것이라기 보다는 오히려, 가중된 쿼드러틱 에러 기준이 최소화될 것이므로, 스펙트럴하게 성형된 잡음이 덜 가청적이다.

사용되는 스펙트럴 웨이팅 함수는 W(z)이되, 이는 상기 코어 코딩 스테이지에서 잡음 성형을 위해 사용될 수도 있다.

도 8의 설명으로 되돌아가면, 상기 복원된 코어 신호는 상기 인버스 양자화기의 출력 및 상기 예측의 합계와 같다는 것을 볼 수 있다. 바꿔 말하면,

상기 신호 예측은 상기 코어 ADPCM 코더를 기초로 하여 행하여지기 때문에, 스테이지 k에서 가능성 있는 2개의 복원된 신호들이 하기 수학식에 의하여 스테이지 k-1에서 실제로 복원된 신호의 함수로서 주어진다.

이로부터 스테이지 k에서 최소화될 에러 기준이 도출된다.

즉,

앞서 기술된 바와 같이 스펙트럼이 평탄한 양자화 잡음을 발생시킬 쿼드러틱 에러 기준을 최소화하는 것이라기 보다는 오히려, 가중된 쿼드러틱 에러 기준이 최소화될 것이므로, 상기 코어 코딩에 대해서도, 스펙트럴하게 성형된 잡음이 덜 가청적이다. 사용되는 스펙트럴 웨이팅 함수는 주어진 예시에서 상기 코어 코딩에 이미 사용된 W(z)이다 - 하지만 인핸스먼트 스테이지들에서는 상기 웨이팅 함수를 단독으로 사용하는 것이 가능하다.

도 12에 따르면, 신호

는 하기와 같이 두 신호들의 합계와 같은 것으로 정의된다.

는 n'<n에 대해서는 모든 상기 값들

의 연접을 나타내고, n'=n에 대해서는 0과 같다.

는 n'=n에 대해서는

와 같고, n'<n에 대해서는 제로와 같다.

그리고, z-변환의 도메인에서 해석하기 보다 쉬운 에러 기준이 하기 수학식에 의해 주어진다.

여기서,

는

의 z-변환이다.

를 분해하면, 하기와 같다.

예를 들어, 이러한 기준을 최소화하기 위하여, 상기 신호를 연산하여 시작한다.

단, 상기 양자화된 값을 아직 알지 못하므로

이다. 상기 앞선 스테이지의 신호 및

의 합계는 스테이지 k의 복원된 신호와 같다.

그러므로,

는 n'<n에 대해서는

와 같고 n'=n에 대해서는

와 같은 신호의 z-변환이므로 다음과 같이 된다.

프로세서 상의 구현을 위해서는, 상기 신호

가 일반적으로 명확하게 연산되지 않고, 에러 신호

가 연산되는 것이 장점을 가지는데, 이는 x(n)과

간의 차이이다.

은

및

을 기초로 하여 형성되며, 하기와 같이 필터링을 위하여 메모리에 유지될 샘플들의 수는 상기 마스킹 필터의 분모의 계수들의 수인 N_D 샘플들이다.

상기 필터링된 에러 신호

는 다음과 같을 것이다.

상기 가중된 쿼드러틱 에러 기준은 이로부터 도출된다.

상기 최적의 인덱스 J_k는 j=0,1에 대하여 상기 기준

을 최소화하는 것이므로, B+k 비트들을 갖는 스칼라 양자화기의 복원 레벨들을 기초로 하여 연산된 2개의 인핸스먼트 레벨들

을 기초로 하여 스칼라 양자화

를 실시하게 되고, 최적의 코어 인덱스 및 인덱스들

또는 등가적으로

을 알게 된다.

상기 최적의 인덱스에 대한 양자화기의 출력 값은 다음과 같다.

그리고 인스턴트 n에서 복원된 신호의 값은 하기에 의해 주어질 것이다.

상기 양자화된 출력

을 알면, 차이 신호

는 샘플링 인스턴트 n에 대하여 업데이트된다.

그리고 상기 필터의 메모리들이 업데이트된다.

상기 n의 값은 1 단위로 증분된다. 그리고,

의 연산은 극히 간단한 것으로 실현되는데:

에 대하여 저장 메모리를 좌측으로 1 슬롯만큼 시프팅하여 가장 오래된 샘플을 드롭하고, 가장 최근의 샘플

로서 삽입하는 것으로 충분하며, 상기 양자화된 값은 아직 알지 못하고 있다. 상기 메모리의 시프팅은 포인터들을 신중하게 이용하여 회피될 수도 있다.

도 13 및 도 14는 마스킹 필터 연산 모듈(850)에 의하여 구현된 마스킹 필터 연산의 구현의 두 모드들을 예시하고 있다.

도 13에 예시된 구현의 제1모드에서는, 앞선 프레임의 샘플 세그먼트

에 의해 보충되는 현재-프레임 블럭에 대응하는 신호 전류 블럭이 고려된다.

상기 마스킹 필터의 스펙트럼의 스파이크들을 강조하기 위하여, 상기 신호는 그 계수 또는 계수들이 특허 FR2742568에 기술된 바와 같은 선형 예측에 의하여 고정되거나 적응되는 필터

에 의해 상관 계수들의 E60에서의 연산 이전에 예비-처리(pre-process)된다(예비-강조 처리).

예비-강조가 사용되는 경우에는, 분석될 신호

가 인버스 필터링에 의해 연산된다.

상기 신호 블럭은 그 후에 종래 기술로부터 공지된 바와 같이, 서브-윈도우즈의 연접으로 형성된 윈도우 또는 Hanning 윈도우에 의하여 E 61에서 웨이팅된다.

상관 계수들은 그 후에 하기에 의하여 E62에서 연산된다.

예비-강조된 신호의 엔벨로프를 모델링하는 AR 필터(AutoRegressive)

의 계수들은 Levinson-Durbin 알고리듬에 의하여 E63에 주어진다.

그러므로, 필터 A(z)는 E64에서 얻어지되, 상기 필터는 입력 신호의 엔벨로프를 모델링하는 전달 함수

를 구비한다.

이러한 연산이 본 발명에 따른 코더의 2개의 필터

및

에 대하여 구현되는 경우, 성형 필터는 이에 따라 하기에 의해 주어진 E65에서 얻어진다.

상수들

,

및

는 상기 마스킹 필터의 스펙트럼을 핏팅할 수 있도록 하는데, 특히 첫번째 2개는 상기 필터의 스펙트럼의 슬로프를 조정한다.

슬로프가 필터링되는 2개의 필터들을 캐스케이딩하여 형성되는 마스킹 필터가 이렇게 얻어지고, 포먼트 필터들이 디커플링되었다. 각 필터가 입력 신호의 스펙트럴 특성들의 함수로서 적응되는 이러한 모델링이 특히 여하한의 타입의 스펙트럴 슬로프를 나타내는 신호들에 적응된다. g_N1 및 g_N2가 제로인 경우에는, 제1의 근사화로서 충분한 2개의 오토리그레시브 필터들의 캐스케이드 마스킹 필터링이 얻어진다.

복잡성이 낮은 마스킹 필터의 예시적인 두번째 구현이 도 14를 참조하여 예시된다.

여기서의 원리는 상기 입력 신호의 슬로프에 의존하는 보상 필터에 의하여 적용되는 강조약화(deaccentuation)와 함께 상기 디코딩된 신호를 복원하기 위한 ARMA 필터의 합성 필터를 직접 사용하는 것이다.

상기 마스킹 필터에 대한 식은 하기에 의해 주어진다.

G.722, G.726 및 G.727 규격들에 있어서는, ADPCM ARMA 예측부가 분모의 2 계수들을 소유한다. 이 경우, E71에서 연산된 보상 필터는 하기 형태일 것이다.

그리고, E70에 주어진 필터들 및

는 E72에 주어진 댐핑 상수 g_Z1 및 g_P1에 의해 제한된 그들의 버전으로 교체될 것이므로, 하기 형태의 잡음 성형 필터를 제공하게 된다.

을 취함으로써,

ARMA 셀로 구성되는 마스킹 필터의 단순화된 형태가 얻어진다.

마스킹 필터의 매우 단순한 또다른 형태는 약간의 댐핑에 의해 ARMA 예측부의 분모만을 취하여 얻어지는 것이다.

단, 예컨대 g_P = 0.92이다.

이러한 신호의 부분 복원을 위한 AR 필터는 복잡성을 저감시킨다.

특정 실시예에 있어서 그리고 각 샘플링 인스턴트에서 필터들을 적응시키는 것을 회피하기 위해서는, 평활 효과(smoothing effect)를 보존하기 위하여 프레임당 몇 배 또는 단일 프레임 상에서 댐핑될 필터의 계수들을 프리즈(freeze)시킬 수 있을 것이다.

상기 평활을 행하는 한 가지 방식은, 상기 양자화기의 입력에서 상기 신호 상의 다이나믹 스윙(dynamic swing)으로 또는 상기 양자화기의 출력에서 인덱스들에 대하여 직접적으로 최소 복잡성의 등가인 방식으로 갑작스런 변동(abrupt variation)들을 검출하는 것이다. 인덱스들의 2가지 갑작스런 변동들 사이에서 스펙트럴 특성들이 덜 변동하는 구역이 얻어지므로, ADPCM 계수들과 함께 마스킹을 목적으로 보다 양호하게 적응된다.

상기 양자화 잡음의 장기 성형에 대한 상기 셀들의 계수들의 연산, 즉

은 보이스 사운드들에 대한 주기적 성분을 포함하는 상기 양자화기의 입력 신호를 기초로 하여 행하여진다. 주기적 신호들, 특히 보이스 스피치 신호들에 대한 품질의 가치 있는 증대를 얻고자 한다면, 장기 잡음 성형이 중요하다는 것에 주목할 수도 있다. 이는 사실상 그 합성 모델이 여하한의 장기 예측부를 포함하지 않는 코더들에 대한 주기적 신호들의 주기성을 고려하는 유일한 방식이다.

상기 피치 주기는 예컨대 상관 계수를 최대화하여, 도 8의 양자화기 Q^B의 입력 e^B(n)에서 장기 쿼드러틱 예측 에러를 최소화함으로써 연산된다.

Pitch는 다음과 같다.

상기 마스킹 필터들을 생성하는데 사용되는 피치 예측 게인

는 하기에 의하여 주어진다.

상기 장기 마스킹 필터의 계수들은 하기에 의해 주어질 것이다.

그리고

상기 피치의 값의 연산의 복잡성을 저감시키는 방식이 ITU-T G.711.1 규격 "Wideband embedded extension for G.711 pulse code modulation"의 도 8-4에 기재되어 있다.

도 15는 본 발명에 따른 코더의 제2실시예를 제안한다.

본 실시예는 코어 코딩 스테이지 및 인핸스먼트 코딩 스테이지들 양자 모두에 대하여, 도 8을 참조하여 기술된 필터링 모듈들 대신에 예측 모듈들을 사용한다.

본 실시예에 있어서, 코어 양자화 잡음 성형을 갖는 ADPCM 타입의 코더는, 입력 신호 x(n)와 낮은 비트레이트 합성 신호 r^B(n) 간의 차이인 복원 잡음

을 예측하기 위한 예측 모듈(1505) 및 상기 예측을 상기 입력 신호 x(n)에 가산하기 위한 가산 모듈(1510)을 포함한다.

또한 상기 복원된 신호

및 낮은 비트레이트 양자화 인덱스

를 통해 양자화된 에러 신호

의 앞선 샘플들을 기초로 하여 예측을 실시하는, 도 8을 참조하여 기술된 것과 동일한 신호

에 대한 예측 모듈(810)을 포함하기도 한다. 상기 수정된 입력 신호 x(n)로부터 예측

을 감산하기 위한 감산 모듈(1520)은 예측 에러 신호를 제공한다.

상기 코어 코더는 또한 상기 양자화 잡음

의 앞선 샘플들을 기초로 하여 실시된 잡음 예측을 연산하기 위한 모듈

(1530) 및 e ^B (n)로 표시된 에러 신호를 얻기 위하여 예측 에러 신호로부터 이렇게 얻어진 예측을 감산하기 위한 감산 모듈(1540)을 포함하기도 한다.

1550에서 코어 양자화 모듈 Q^B는 쿼드러틱 에러 기준

의 최소화를 수행하되, 여기서 상기 값들

는 복원 레벨들이고, v(n)은 상기 양자화기 적응 모듈(1560)에 기인하는 스케일 팩터이다. 상기 양자화 모듈은 입력으로서 에러 신호

를 수신하여, 출력으로서 양자화 인덱스들 I^B(n) 및 양자화된 신호

를 제공하게 된다. G.722에 대한 예시에 의하면, 상기 코어 양자화기 Q^B의 복원 레벨들은 X. Maitre. "7 kHz audio coding within 64 kbit/s". IEEE Journal on Selected Areas in Communication, Vol.6-2, February 1988.에 의한 아티클의 테이블 VI에 의해 정의된다.

상기 양자화 모듈 Q_B의 출력에서 B 비트들의 양자화 인덱스 I^B(n)는, 도 7을 참조하여 기술된 바와 같이 상기 전송 채널(840)을 통해 디코더에 전송되기 전에 상기 인핸스먼트 비트들 J ₁ ,..., J _k 와 함께 830에서 멀티플렉싱될 것이다.

상기 양자화 잡음을 연산하기 위한 모듈(1570)은 상기 양자화기의 입력과 상기 양자화기의 출력 간의 차이

를 계산한다.

모듈(1580)은 상기 신호의 예측을 상기 양자화된 에러에 가산하여 복원된 신호

를 연산한다.

상기 양자화기의 적응 모듈 Q _Adapt (1560)은 하기 인스턴트에 대한 스케일 팩터라고도 불리우는 레벨 제어 파라미터 v(n)을 제공한다.

상기 예측 모듈의 적응 모듈 P _Adapt (811)은 상기 복원된 신호

의 과거 샘플들 및 상기 복원된 양자화된 에러 신호

를 기초로 하여 적응을 수행한다.

상기 인핸스먼트 스테이지 EAk는 앞선 스테이지에서 복원된 신호

를 상기 입력 신호 x(n)로부터 감산하여 신호

를 제공하기 위한 모듈 EAk-10을 포함한다.

상기 신호

의 필터링은 필터

에 의하여 필터링 모듈 EAk-11에 의해 행하여져 필터링된 신호

를 제공하게 된다.

예측 신호

를 연산하기 위한 모듈 EAk-12 또한 제공되는데, 상기 연산은

에 의해 필터링된 상기 신호의 샘플들 및 양자화된 에러 신호

의 양자화된 앞선 샘플들을 기초로 하여 행하여진다. 상기 인핸스먼트 스테이지 EA-k 또한 상기 신호

로부터 예측

을 감산하여 타겟 신호

를 제공하기 위한 감산 모듈 EA-k13을 포함한다.

상기 인핸스먼트 양자화 모듈 EAk-14

는 쿼드러틱 에러 기준을 최소화하는 단계를 수행한다.

상기 모듈은 입력으로서 신호

를 수신하고, 상기 양자화된 신호

를 제1출력으로 그리고 인덱스 J_k를 제2출력으로 제공한다.

B+k 비트들을 갖는 임베디드 양자화기의 복원된 레벨들은 B+k-1 비트들을 갖는 2개의 양자화기의 임베디드 출력 레벨들로 분할시켜 연산된다. 이들 B+k 비트들을 갖는 임베디드 양자화기의 복원된 레벨들과 B+k-1 비트들을 갖는 양자화기의 복원된 레벨들 간의 차이 값들이 연산된다. 상기 차이 값들

은 그 후에 프로세서 메모리에서 모두에 대하여 한 번 저장되고, 앞선 스테이지들의 인핸스먼트 양자화기들의 인덱스들 및 상기 코어 양자화 인덱스의 조합에 의해 인덱싱된다.

따라서 이들 차이 값들은 스테이지 k의 양자화 모듈에 의해 사용되는 딕셔너리(dictionary)를 구성하여 가능성 있는 양자화 값들을 얻게 된다.

상기 앞선 스테이지에서 복원된 신호에 선행 신호를 가산하기 위한 모듈 EAk-16 뿐만 아니라, 상기 양자화기의 출력에서의 신호

를 상기 예측

에 가산하기 위한 가산 모듈 EAk-15 또한 인핸스먼트 스테이지 k 안으로 통합되어 스테이지 k에서의 복원된 신호

를 제공하게 된다.

도 8을 참조하여 기술된 코더에 대해서도, 앞서 상세히 설명된 모듈 Calc Mask(850)는 입력 신호(도 13)을 기초로 하여 또는 도 14를 참조하여 설명된 ADPCM 합성 필터들의 계수들을 기초로 하여 상기 마스킹 필터를 제공한다.

따라서, 인핸스먼트 스테이지 k는 현재 샘플에 대한 하기 단계들, 즉

- 앞선 인핸스먼트 코딩 스테이지의 인핸스먼트 코딩에 기인하는 복원된 신호

및 상기 계층적 코딩의 입력 신호 x(n) 간의 차이를 연산하여 차이 신호

를 획득하는 단계;

- 소정의 마스킹 필터 W(z)에 의해 상기 차이 신호를 필터링하는 단계;

- 타겟 신호

를 획득하기 위하여 상기 필터링된 차이 신호

로부터 상기 예측 신호

를 감산하는 단계;

- 상기 양자화 단계에 기인하는 신호

에 상기 신호

를 가산하여

에 의해 필터링된 양자화기의 출력에서의 신호를 연산하는 단계;

- 앞선 필터링된 신호 및 앞선 인핸스먼트 코딩 스테이지의 인핸스먼트 코딩에 기인하는 복원된 신호를 가산하여 현재 샘플에 대한 복원된 신호

를 연산하는 단계.

도 15는 간단한 설명을 목적으로 단 하나의 ARMA 셀로 이루어지는 마스킹 필터에 대하여 주어진다. 캐스케이드 내의 몇 개의 ARMA 셀들에 대한 일반화는 도 9 및 도 10에서 그리고 수학식 7 내지 17에 의해 기술된 방식에 따라 이루어질 것이라는 점을 알 수 있다.

상기 마스킹 필터가

타입의 단 하나의 셀만을 포함하는 경우, 다시 말해

이면, 컨트리뷰션(contribution)

이

또는 그 이상으로부터 도출될 것이고, 상기 양자화기의 입력 신호는 하기에 의해 EAk-11 및 EAk-13을 대체하여 주어질 것이다.

캐스케이드 내의 몇 개의 셀들 AR에 대한 일반화는 도 9 및 도 10에서 그리고 수학식 7 내지 17에 의해 기술된 방식에 따라 이루어질 것이라는 점을 알 수 있다.

도 16은 본 발명의 제3실시예를 나타내는데, 이 때는 PCM 타입의 코어 코딩 스테이지를 가진다. 상기 코어 코딩 스테이지(1600)는, 필터링된 잡음

및 G.711 규격화된 PCM 양자화 잡음

의 앞선 샘플들을 기초로 하여 잡음

의 예측을 연산하는 예측 모듈 P_r(z)(1610)에 의한 코딩 잡음의 성형을 포함한다.

도 16의 블럭들 1610, 1620, 1640 및 1650에 대응하는 코어 코딩의 잡음 성형은 선택적이라는 점에 유의한다. 도 16에 제시된 바와 같은 본 발명은 상기 블럭 1630에 대하여 저감된 PCM 코어 코딩에 대해서도 적용된다.

모듈(1620)은 상기 입력 신호 x(n)에 대한 상기 예측

의 가산을 실시하여 e(n)으로 표시되는 에러 신호를 얻게 된다.

코어 양자화 모듈

(1630)은 상기 에러 신호 e(n)를 입력으로서 수신하여 양자화 인덱스들 I^B(n)를 제공하게 된다. 상기 최적의 양자화 인덱스 I^B(n) 및 양자화된 값

은 상기 에러 기준

을 최소화하는데, 여기서 상기 값들

은 G.711 PCM 양자화기의 복원 레벨들이다.

예시를 통하여, B=8에 대하여 G.711 표준의 코어 양자화기

의 복원 레벨들은 ITU-T 권고 G.711, "Pulse Code Modulation(PCM) of voice frequencies"의 A-규칙에 대한 테이블 1a 및 μ-규칙에 대한 테이블 2a에 의해 정의된다.

상기 양자화 모듈

의 출력에서 B 비트들의 양자화 인덱스 I^B(n)는, 상기 전송 채널(840)를 통해 G.711 타입의 스탠더드 디코더에 전송되기 전에 상기 인핸스먼트 비트들

과 함께 830에서 연접될 것이다.

상기 양자화 잡음을 연산하기 위한 모듈(1640)은, 상기 PCM 양자화기의 입력과 상기 양자화된 출력 간의 차이

를 계산한다.

상기 필터링된 양자화 잡음을 연산하기 위한 모듈(1650)은 상기 양자화 잡음의 예측에 대한 상기 양자화 잡음의 가산

을 행한다.

상기 인핸스먼트 코딩은, 중간 비트레이트들에 대한 복원 잡음의 최적의 성형을 유지하면서, 양자화 비트들을 연속해서 가산하여 디코딩된 신호의 품질을 증대시키는데 특징이 있다.

인핸스먼트 PCM 비트 J_k 또는 비트들의 그룹

을 얻을 수 있게 하는 스테이지 k는 블럭 EAk에 의해 기술된다.

이러한 인핸스먼트 코딩 스테이지는 도 8을 참조하여 기술된 것과 유사하다.

이는 상기 샘플들

에 대한 스테이지 k에서 합성된 신호

및 인스턴트 n에 대한 스테이지 k-1에서 합성된 신호

로 형성되는 신호 r ^B ^+k (n)로부터 상기 입력 신호 x(n)를 감산하여 코딩 에러 신호

를 제공하기 위한 감산 모듈 EAk-1을 포함한다.

이는 또한 필터링된 신호

를 제공하기 위하여 상기 마스킹 필터 H ^M (z)의 인버스와 같은 웨이팅 함수 W(z)에 의해

를 필터링하기 위한 필터링 모듈 EAk-2를 포함한다.

상기 양자화 모듈 EAk-3은, 앞선 단계의 PCM 인덱스

와 연접될 최적의 PCM 비트 J_k의 값을 제1출력으로서 그리고 상기 최적의 PCM 비트 J_k에 대한 인핸스먼트 양자화기의 출력 신호를 제2출력

으로서 하여, 인핸스먼트 양자화

를 실시하는 j = 0,1에 대하여 상기 에러 기준

의 최소화를 행한다.

앞선 단계에서 합성된 신호

에 상기 양자화된 에러 신호

를 가산하기 위한 가산 모듈 EAk-4는 단계 k에서의 합성된 신호

를 제공한다. 상기 신호

및 상기 필터의 메모리들은 도 6 및 도 8에 대해 앞서 기술된 바와 같이 적응된다.

도 8 및 도 15를 참조하여 기술된 것과 동일한 방식으로, 상기 모듈(850)은 상기 코어 코딩 및 상기 인핸스먼트 코딩 양자 모두를 위해 사용되는 마스킹 필터를 연산한다.

도 8, 도 15 또는 도 16에 제시된 계층적 코더의 다른 버전들을 고찰할 수 있다. 변형예에 있어서, 상기 인핸스먼트 코딩에서 가능성 있는 양자화 값들의 수는 코딩된 샘플마다 변한다. 상기 인핸스먼트 코딩은 코딩될 샘플들의 함수로서 가변적인 비트수를 사용한다. 인핸스먼트 비트들의 할당된 수는 고정된 또는 가변적인 할당 규칙에 따라 적응될 수도 있다. 가변적인 할당의 일례는 예컨대 ITU-T G.711.1 규격에서 저대역의 인핸스먼트 PCM 코딩에 의해 주어진다. 바람직하게는, 할당 알고리듬(가변적인 경우)이 리모트 디코더에 대해 이용가능한 정보를 이용하여야만 하므로, 추가적인 정보가 전송될 필요가 없게 되는데, 이는 예컨대 ITU-T G.711.1 규격에 있는 경우이다.

이와 유사하게, 또다른 변형예에 있어서는, 상기 인핸스먼트 코딩에서 스칼라 양자화 인덱스들 (J _k (n))을 제공하는 인핸스먼트 신호의 코딩된 샘플들의 수가 상기 입력 신호의 샘플들의 수보다 적을 수도 있다. 이러한 변형예는 인핸스먼트 비트들의 할당된 수가 소정의 샘플들에 대하여 제로로 설정되는 경우에 앞선 변형예로부터 도출된다.

이하, 본 발명에 따른 코더의 예시적인 실시예를 도 17을 참조하여 설명한다.

하드웨어의 관점에서는, 본 발명의 기술적 사상 내에서 제1, 제2 또는 제3실시예에 따라 기술된 바와 같은 코더는 통상적으로 저장 및/또는 워크 메모리를 포함하는 메모리 블럭 BM과 협력하는 프로세서 μP 뿐만 아니라, 예컨대 선행 코딩 스테이지들의 양자화 값들이나 그 밖에 양자화 복원들의 레벨들의 딕셔너리를 저장하기 위한 수단의 양식에서 상술된 버퍼 메모리 MEM 또는 도 6, 도 8, 도 15 및 도 16을 참조하여 기술된 바와 같은 코딩 방법의 구현에 필요한 여타의 데이터를 포함한다. 이러한 코더는 디지털 신호 x(n)의 연속적인 프레임들을 입력으로서 수신하고, 연접된 양자화 인덱스들 I^B ^+K를 전달한다.

상기 메모리 블럭 BM은, 명령들이 상기 코더의 프로세서 μP 에 의해 실행되는 경우 본 발명에 따른 방법의 단계들의 구현을 위한 코드 명령들 및 특히 코어 비트레이트라 하는 소정의 비트레이트를 갖는 코딩을 포함하고, 인핸스먼트 신호의 각각의 코딩된 샘플에 대한 스칼라 양자화 인덱스들을 전달하는 적어도 하나의 인핸스먼트 코딩 및 현재 프레임의 각 샘플에 대한 스칼라 양자화 인덱스를 전달하는 컴퓨터 프로그램을 포함할 수 있다. 이러한 인핸스먼트 코딩은 타겟 신호를 결정하는데 사용되는 코딩 잡음을 성형하기 위한 필터를 획득하는 단계를 포함한다. 상기 인핸스먼트 신호의 스칼라 양자화의 인덱스들은 상기 타겟 신호와 스칼라 양자화의 가능성 있는 값들의 세트 간의 에러를 최소화하여 결정된다.

보다 일반적으로는, 코더와 일체형으로 또는 일체형이 아닐 수도 있고, 선택적으로는 제거될 수도 있는 컴퓨터 또는 프로세서에 의해 판독가능한 저장수단이 본 발명에 따른 코딩 방법을 구현하는 컴퓨터 프로그램을 저장한다.

도 8, 도 15 또는 도 16은 예컨대 이러한 컴퓨터 프로그램의 알고리듬을 예시할 수 있다.

Claims

입력 신호의 현재 프레임에 대하여,
상기 현재 프레임의 각각의 샘플에 대한 스칼라 양자화 인덱스(I^B(n))를 제공하는 코어 코딩, 및
인핸스먼트 신호(
)의 각각의 코딩된 샘플에 대한 스칼라 양자화(
)의 인덱스들(
)을 제공하는 적어도 하나의 인핸스먼트 코딩을 포함하는 디지털 오디오 신호의 계층적 코딩의 방법으로서,
상기 인핸스먼트 코딩은, 타겟 신호를 결정하는데 사용되는 잡음 성형 필터(W(z))를 획득하는 단계를 포함하고, 상기 인핸스먼트 신호의 상기 스칼라 양자화(
(n))의 인덱스들(
)은 상기 현재 프레임의 각각의 샘플에 대한 가능성 있는 스칼라 양자화의 값들의 세트 중에서 상기 타겟 신호에 가장 근접한 하나의 값으로 결정되는,
디지털 오디오 신호의 계층적 코딩의 방법.
제1항에 있어서,
현재 인핸스먼트 코딩 스테이지에 대한 상기 타겟 신호의 결정은, 현재 샘플에 대한 하기 단계들, 즉
계층적 코딩의 상기 입력 신호로부터 과거 샘플들에 대한 상기 현재 인핸스먼트 코딩 스테이지의 복원된 신호 및 상기 현재 샘플에 대한 앞선 인핸스먼트 코딩 스테이지의 복원된 신호를 감산(subtracting)함으로써 인핸스먼트 코딩 에러 신호(e^B+k(n))를 획득하는 단계;
상기 타겟 신호(
)를 획득하기 위하여 상기 잡음 성형 필터(W(z))를 이용하여 상기 인핸스먼트 코딩 에러 신호를 필터링하는 단계;
결정된 상기 인덱스들에 대응하는 스칼라 양자화 단계의 출력 및 앞선 인핸스먼트 코딩 스테이지로부터의 복원된 신호(
)의 가산에 의하여 상기 현재 샘플에 대한 상기 현재 인핸스먼트 코딩 스테이지의 복원된 신호(
)를 획득하는 단계;
상기 잡음 성형 필터의 메모리들에, 결정된 상기 인덱스들에 대응하는 상기 스칼라 양자화 단계의 출력을 인가시키는 단계를 포함하는,
디지털 오디오 신호의 계층적 코딩의 방법.
제1항에 있어서,
상기 현재 샘플에 대한 에러 신호의 양자화 값 및 상기 현재 프레임의 각각의 샘플에 대한 상기 가능성 있는 스칼라 양자화 값들의 세트는, 상기 코어 코딩으로부터 제공되는 스칼라 양자화 인덱스로부터 연산된 레벨 제어 파라미터에 의해 스케일링된, 양자화 복원 레벨들을 나타내는 값들인,
디지털 오디오 신호의 계층적 코딩의 방법.
제3항에 있어서,
인핸스먼트 스테이지 k에 대한 양자화 복원 레벨들을 나타내는 값들은, B+k 비트들을 갖는 임베디드 양자화기의 양자화의 복원 레벨들을 나타내는 값들 ― B는 상기 코어 코딩의 비트수를 나타냄 ― 및 B+k-1 비트들을 갖는 임베디드 양자화기의 양자화 복원 레벨들을 나타내는 값들 간의 차이로 정의되되, 상기 B+k 비트들을 갖는 임베디드 양자화기의 복원 레벨들은 상기 B+k-1 비트들을 갖는 임베디드 양자화기의 복원 레벨들을 둘로 분할하여 정의되는,
디지털 오디오 신호의 계층적 코딩의 방법.
제4항에 있어서,
상기 인핸스먼트 스테이지 k에 대한 양자화 복원 레벨들을 나타내는 값들은 메모리 공간에 저장되고, 앞선 인핸스먼트 스테이지의 양자화 인덱스들과 상기 코어 코딩으로부터 제공된 상기 스칼라 양자화 인덱스들의 함수로서 인덱싱되는,
디지털 오디오 신호의 계층적 코딩의 방법.
제1항에 있어서,
가능성 있는 스칼라 양자화의 값들의 수는 각 샘플마다 변하는,
디지털 오디오 신호의 계층적 코딩의 방법.
제1항에 있어서,
상기 스칼라 양자화 인덱스들(
)을 제공하는 상기 인핸스먼트 신호의 코딩된 샘플들의 수는 상기 입력 신호의 샘플들의 수보다 적은,
디지털 오디오 신호의 계층적 코딩의 방법.
제1항에 있어서,
상기 코어 코딩은 스칼라 양자화 및 예측 필터를 이용하는 ADPCM 코딩인,
디지털 오디오 신호의 계층적 코딩의 방법.
제1항에 있어서,
상기 코어 코딩은 PCM 코딩인,
디지털 오디오 신호의 계층적 코딩의 방법.
제8항 또는 제9항에 있어서,
상기 코어 코딩은 나아가 현재 샘플에 대한 하기 단계들, 즉
소정의 잡음 성형 필터에 의해 필터링된 양자화 잡음의 과거 샘플들 및 과거 양자화 잡음 샘플들로부터 코딩 잡음에 대한 예측 신호(
)를 획득하는 단계;
양자화될 수정된 입력 신호를 획득하기 위하여 상기 코딩 잡음에 대한 예측 신호의 가산에 의하여 상기 코어 코딩의 상기 입력 신호를 계산하는 단계를 포함하는,
디지털 오디오 신호의 계층적 코딩의 방법.
제10항에 있어서,
상기 인핸스먼트 코딩에 의해 사용되는 상기 잡음 성형 필터(W(z))는 또한 상기 코어 코딩에 의해 사용되는,
디지털 오디오 신호의 계층적 코딩의 방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 잡음 성형 필터는 상기 입력 신호의 함수로서 획득되는,
디지털 오디오 신호의 계층적 코딩의 방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 잡음 성형 필터는 상기 코어 코딩에 의해 국부적으로 디코딩되는 신호를 기초로 하여 획득되는,
디지털 오디오 신호의 계층적 코딩의 방법.
입력 신호의 현재 프레임에 대한 디지털 오디오 신호의 계층적 코더로서,
상기 현재 프레임의 각 샘플에 대한 스칼라 양자화 인덱스(
)를 제공하는, 코어 코딩 스테이지(800, 1500, 1600); 및
인핸스먼트 신호의 각각의 코딩된 샘플에 대한 스칼라 양자화(
)의 인덱스들(
)을 제공하는 적어도 하나의 인핸스먼트 코딩 스테이지(EA-k)를 포함하고,
상기 인핸스먼트 코딩 스테이지는, 타겟 신호를 결정하는데 사용되는 잡음 성형 필터(W(z))를 획득하기 위한 모듈(850) 및 상기 현재 프레임의 각각의 샘플에 대한 가능성 있는 스칼라 양자화의 값들의 세트 중에서 상기 타겟 신호에 가장 근접한 하나의 값으로서 상기 인핸스먼트 신호의 상기 스칼라 양자화(
(n))의 인덱스들(
)을 제공하기 위한 양자화 모듈(EAk-3, EAk-4)을 포함하는,
디지털 오디오 신호의 계층적 코더.
하기 명령들이 프로세서에 의해 실행되는 경우, 제1항 내지 제9항 중 어느 한 항에 따른 코딩 방법의 단계들의 구현을 위한 프로그램 코드 명령들을 포함하는 컴퓨터 판독가능한 매체.