KR101339857B1 - 계층적 코더 내에 잡음 성형을 구비한 코딩 - Google Patents

계층적 코더 내에 잡음 성형을 구비한 코딩 Download PDF

Info

Publication number
KR101339857B1
KR101339857B1 KR1020117014240A KR20117014240A KR101339857B1 KR 101339857 B1 KR101339857 B1 KR 101339857B1 KR 1020117014240 A KR1020117014240 A KR 1020117014240A KR 20117014240 A KR20117014240 A KR 20117014240A KR 101339857 B1 KR101339857 B1 KR 101339857B1
Authority
KR
South Korea
Prior art keywords
coding
signal
enhancement
quantization
noise
Prior art date
Application number
KR1020117014240A
Other languages
English (en)
Other versions
KR20110095387A (ko
Inventor
발라즈스 코베시
슈테판 라고트
알라인 레 구야데르
Original Assignee
오렌지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오렌지 filed Critical 오렌지
Publication of KR20110095387A publication Critical patent/KR20110095387A/ko
Application granted granted Critical
Publication of KR101339857B1 publication Critical patent/KR101339857B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 입력 신호의 현재 프레임을 위하여,
- 상기 현재 프레임의 각각의 샘플 n에 대한 스칼라 양자화 인덱스(IB(n))를 전달하는 코어 코딩, 및
- 인핸스먼트 신호의 각각의 코딩된 샘플에 대한 스칼라 양자화(
Figure 112011046837284-pct00363
)의 인덱스들(
Figure 112011046837284-pct00364
)을 전달하는 적어도 하나의 인핸스먼트 코딩을 포함하는 디지털 오디오 신호의 계층적 코딩의 방법에 관한 것이다. 상기 방법은, 상기 인핸스먼트 코딩이 타겟 신호를 결정하는데 사용되는 코딩 잡음을 성형하기 위한 필터(W(z))를 획득하는 단계를 포함하고, 상기 인핸스먼트 신호의 스칼라 양자화(
Figure 112011046837284-pct00365
(n))의 인덱스들(
Figure 112011046837284-pct00366
)은 스칼라 양자화의 가능성 있는 값들의 세트와 상기 타겟 신호 간의 에러를 최소화하여 결정되도록 되어 있다.
본 발명에 따른 코딩 방법은 또한 코어 비트레이트 코딩에 대한 코딩 잡음의 성형을 포함할 수도 있다. 본 발명은 또한 기술된 코딩 방법을 구현하는 코더에 관한 것이다.

Description

계층적 코더 내에 잡음 성형을 구비한 코딩{ENCODING OF AN AUDIO-DIGITAL SIGNAL WITH NOISE TRANSFORMATION IN A SCALABLE ENCODER}
본 발명은 디지털 신호들의 코딩 분야에 관한 것이다.
본 발명에 따른 코딩은 특히 오디오주파수 신호들과 같은 디지털 신호들(스피치, 뮤직 등)의 전송 및/또는 저장을 위한 것이다.
본 발명은 보다 구체적으로 ADPCM("Adaptive Differential Pulse Code Modulation") 코딩 타입의 파형 코딩에 관한 것으로, 특히 스케일러블 바이너리 트레인(scalable binary train)을 갖는 양자화 인덱스(quantization index)들을 전달할 수 있도록 하는 임베디드 코드(embedded code)들을 구비한 ADPCM 타입의 코딩에 관한 것이다.
권고 ITU-T G.722 또는 ITU-T G.727로 특정되는 임베디드-코드 ADPCM 코딩/디코딩의 일반적인 원리가 도 1 및 도 2를 참조하여 설명된다.
따라서 도 1은 ADPCM 타입의 임베디드-코드 코더를 나타낸다.
이는
- 양자화된 에러 신호
Figure 112011046837284-pct00001
(단,
Figure 112011046837284-pct00002
은 스케일 팩터임) 및 복원 신호(reconstructed signal)
Figure 112011046837284-pct00003
(단, n은 현재 인스턴트(current instant)임)의 앞선 샘플들을 기초로 하여 상기 신호의 예측
Figure 112011046837284-pct00004
을 제공할 수 있도록 하는 예측 모듈(110).
- e(n)으로 나타낸 예측 에러 신호를 얻기 위하여 상기 입력 신호 x(n)로부터 그 예측
Figure 112011046837284-pct00005
을 도출(deduct)하는 감산 모듈(120).
- B+K 비트들로 이루어지는 양자화 인덱스들
Figure 112011046837284-pct00006
을 제공하기 위하여 상기 에러 신호 e(n)을 입력으로서 수신하는 에러 신호용 양자화 모듈(130)
Figure 112011046837284-pct00007
. 상기 양자화 모듈
Figure 112011046837284-pct00008
은 임베디드-코드 타입으로, 다시 말하면 B 비트들을 갖는 코어 양자화기(core quantizer) 및 상기 코어 양자화기 상에 임베디드되는 B+k(k=1,...,K) 비트들을 갖는 양자화기들을 포함한다.
ITU-T G.722 규격의 경우, 상기 양자화기들
Figure 112011046837284-pct00009
,
Figure 112011046837284-pct00010
,
Figure 112011046837284-pct00011
(단. B=4)의 결정 레벨들과 복원 레벨들은 X. Maitre. "7 kHz audio coding within 64 kbit/s". IEEE Journal on Selected Areas in Communication, Vol.6-2, February 1988에 의한 G.722 규격을 기술하고 있는 개요 아티클의 테이블 IV 및 VI에 의해 정의된다.
양자화 모듈
Figure 112011046837284-pct00012
의 출력에서 B+K 비트들의 양자화 인덱스
Figure 112011046837284-pct00013
는 도 2를 참조하여 기술된 바와 같이 전송 채널(140)을 통해 디코더로 전송된다.
상기 코더는 또한
- 낮은 비트레이트 인덱스
Figure 112011046837284-pct00014
를 제공하기 위하여 상기 인덱스
Figure 112011046837284-pct00015
의 K 하위(low-order) 비트들을 삭제하기 위한 모듈(150);
- B 비트들에 대하여 양자화된 에러 신호
Figure 112011046837284-pct00016
를 출력으로서 제공하기 위한 인버스 양자화 모듈(120)
Figure 112011046837284-pct00017
;
- 하기 인스턴트를 위하여, 스케일 팩터라고도 불리우는 레벨 제어 파라미터 v(n)을 제공하도록 양자화기들과 인버스 양자화기들을 위한 적응 모듈(170)
Figure 112011046837284-pct00018
;
- 낮은 비트레이트 복원 신호
Figure 112011046837284-pct00019
를 제공하기 위하여 상기 양자화된 에러 신호에 상기 예측
Figure 112011046837284-pct00020
을 가산하기 위한 가산 모듈(180);
- B 비트들에 대하여 상기 양자화된 에러 신호
Figure 112011046837284-pct00021
및 1+
Figure 112011046837284-pct00022
에 의해 필터링된 신호
Figure 112011046837284-pct00023
에 기초한 상기 예측 모듈을 위한 적응 모듈(190)
Figure 112011046837284-pct00024
을 포함한다.
도 1에 있어서, 도면 부호 155의 음영 부분은 예측부(165, 175) 및 인버스 양자화기(120)를 포함하는 낮은 비트레이트 로컬 디코더를 나타낸다는 것을 관측할 수도 있다. 따라서, 이러한 로컬 디코더는, 낮은 비트레이트 인덱스 I B (n) 를 기초로 하여 170에서 인버스 양자화기를 적응시키도록 그리고 상기 복원된 낮은 비트레이트 데이터를 기초로 하여 상기 예측부(165, 175)들을 적응시키도록 할 수 있다.
이 부분은 도 2를 참조하여 기술된 바와 같이 임베디드-코드 ADPCM 디코더에서 동일하게 발견된다.
도 2의 임베디드-코드 ADPCM 디코더는, 입력으로서 상기 전송 채널(140)에 기인하는 인덱스들
Figure 112011046837284-pct00025
, 즉 바이너리 에러들에 의해 왜곡(disturb)될 수도 있는
Figure 112011046837284-pct00026
의 한 버전을 수신하고, 상기 신호
Figure 112011046837284-pct00027
를 얻기 위하여 샘플당 비트레이트 B 비트들의 인버스 양자화 모듈(210)
Figure 112011046837284-pct00028
에 의하여 인버스 양자화를 실시한다. 심볼 " ' "는 전송 에러들 때문에 상기 코더에 의해 전송되는 것과 상이할 수도 있는 상기 디코더에서 수신된 값을 나타낸다.
B 비트들에 대한 출력 신호
Figure 112011046837284-pct00029
는 상기 신호의 예측 및 B 비트들을 갖는 인버스 양자화기의 출력의 합계와 같을 것이다. 상기 디코더의 이 부분 255는 도 1의 낮은 비트레이트 로컬 디코더(155)와 동일하다.
비트레이트 인디케이터 mode 및 선택부(220)를 채택하여, 상기 디코더는 복원된 신호를 증대시킬 수 있다.
실제로 mode가 B+1 비트들이 전송된 것을 표시하는 경우, 출력은 상기 예측
Figure 112011046837284-pct00030
및 B+1 비트들을 갖는 인버스 양자화기(230)의 출력
Figure 112011046837284-pct00031
의 합계와 같을 것이다.
mode가 B+2 비트들이 전송된 것을 표시하는 경우, 출력은 상기 예측
Figure 112011046837284-pct00032
및 B+2 비트들을 갖는 인버스 양자화기(240)의 출력
Figure 112011046837284-pct00033
의 합계와 같을 것이다.
z-변환 표기법을 이용하면, 이러한 루프형 구조에 대하여 하기와 같이, 즉
B+k 비트들을 갖는 양자화 잡음
Figure 112011046837284-pct00034
Figure 112011046837284-pct00035
로 정의하여
Figure 112011046837284-pct00036
라고 기록될 수도 있다.
ITU-T G.722 규격(이하, G.722라고 함)의 임베디드-코드 ADPCM 코딩은, [50-7000 Hz]의 최소 대역폭으로 정의되어 16 kHz로 샘플링되는 광대역에서 상기 신호들의 코딩을 실시한다. 상기 G.722 코딩은, 쿼드러처 미러 필터(quadrature mirror filter)들에 의한 신호의 분해(decomposition)에 의해 얻어지는 상기 신호의 두 부대역(sub-band) [50-4000 Hz] 및 [4000-7000 Hz] 각각의 ADPCM 코딩이다. 저대역은 6, 5 및 4 비트들에 대하여 임베디드-코드 ADPCM 코딩에 의해 코딩되는 한편, 고대역은 샘플당 2 비트들의 ADPCM 코더에 의해 코딩된다. 전체 비트레이트는 저대역을 디코딩하는데 사용되는 비트수에 따라 64, 56 또는 48 bit/s일 것이다.
이러한 코딩은 우선 ISDN(Integrated Services Digital Network)에 사용된 다음, IP 네트워크 상에서 오디오 코딩의 어플리케이션들에 사용되었다.
일례로서, 상기 G.722 규격에서는, 8 비트들이 도 3에 표현된 하기 방식으로 배분(apportion)된다.
고대역을 위한 2 비트들(I h1 I h2 )
저대역을 위한 6 비트들(
Figure 112011046837284-pct00037
Figure 112011046837284-pct00038
Figure 112011046837284-pct00039
Figure 112011046837284-pct00040
Figure 112011046837284-pct00041
Figure 112011046837284-pct00042
)
비트들 I L5 I L6 은 "스톨른(stolen)"될 수도 있고 또는 데이터로 교체될 수도 있으며, 저대역 인핸스먼트(enhancement) 비트들을 구성한다. 비트들
Figure 112011046837284-pct00043
Figure 112011046837284-pct00044
Figure 112011046837284-pct00045
Figure 112011046837284-pct00046
은 저대역 코어 비트들을 구성한다.
따라서, 상기 G.722 규격에 따라 양자화된 신호의 프레임이 8, 7 또는 6 비트들에 대하여 코딩된 양자화 인덱스들로 구성된다. 상기 인덱스의 전송 주파수는 8 kHz이고, 비트레이트는 64, 56 또는 48 kbit/s일 것이다.
수많은 레벨을 갖는 양자화기에 있어서, 양자화 잡음의 스펙트럼은 도 4에 도시된 바와 같이 비교적 평탄할 것이다. 상기 신호의 스펙트럼 또한 도 4에 표시되어 있다(여기서는 보이스형 신호 블럭). 이러한 스펙트럼은 큰 다이나믹 스윙(dynamic swing)을 가진다(~40dB). 저-에너지 구역들에서는, 잡음이 신호에 매우 근사하므로, 더 이상 마스킹될 필요가 없다는 것을 알 수 있다. 그리고, 이들 영역들에서, 특히 도 4의 [2000-2500 Hz] 주파수 구역에서 가청화될 수도 있다.
그러므로, 상기 코딩 잡음의 성형(shaping)이 필요하게 된다. 더욱이, 임베디드-코드 코딩에 적응된 코딩 잡음 성형이 바람직할 것이다.
임베디드 코드들을 갖는 PCM("Pulse Code Modulation") 타입의 코딩에 대한 잡음 성형 기술은 권고 ITU-T G.711.1 "Wideband embedded extension for G.711 pulse code modulation" 또는 "G.711.1: A wideband extension to ITU-T G.711". Y. Hiwasaki, S. Sasaki, H. Ohmuro, T.Mori, J. Seong, M. S. Lee, B. Kovesi, S. Ragot, J.-L. Garcia, C. Marro, L. M., J. Xu, V. Malenovsky, J. Lapierre, R. Lefebvre. EUSIPCO, Lausanne, 2008에 기재되어 있다.
따라서 상기 권고는 코어 비트레이트 코딩을 위한 코딩 잡음의 성형을 구비한 코딩을 기술하고 있다. 상기 코딩 잡음을 성형하기 위한 지각적 필터(perceptual filter)는, 인버스 코어 양자화기에 기인하는 과거 디코딩된 신호들을 기초로 하여 연산된다. 그러므로, 코어 비트레이트 로컬 디코더가 상기 잡음 성형 필터를 연산할 수 있도록 한다. 따라서, 상기 디코더에서는, 코어 비트레이트 디코딩된 신호들을 기초로 하여 이러한 잡음 성형 필터를 연산할 수 있게 된다.
인핸스먼트 비트들을 전달하는 양자화기가 상기 코더에 사용된다.
코어 바이너리 스트림과 인핸스먼트 비트들을 수신하는 디코더는 상기 코어 비트레이트 디코딩된 신호를 기초로 하여 상기 코더에서 동일한 방식으로 코딩 잡음을 성형하기 위한 필터를 연산하고, 이 필터를 상기 인핸스먼트 비트들의 인버스 양자화기로부터의 출력 신호에 적용하되, 상기 성형된 고-비트레이트 신호는 상기 필터링된 신호를 상기 디코딩된 코어 신호에 더하여 얻어진다.
따라서, 상기 잡음의 성형은 상기 코어 비트레이트 신호의 지각적 품질을 증대시킨다. 상기 인핸스먼트 비트들에 대한 품질에 있어서는 제한된 인핸스먼트를 제공한다. 실제로, 상기 코딩 잡음의 성형은 상기 인핸스먼트 비트들의 코딩에 대하여 수행되지 않고, 상기 양자화기의 입력은 상기 증대된 양자화에 대한 것과 상기 코어 양자화에 대한 것이 동일하다.
그리고, 상기 디코더는, 상기 코어 비트들 이외에도 상기 인핸스먼트 비트들이 디코딩되는 경우, 적절하게 적응된 필터링을 통하여 얻은 결과적인 스퓨리어스 컴포넌트(spurious component)를 삭제하여야만 한다.
상기 디코더에서의 필터의 추가적인 연산은 상기 디코더의 복잡성을 증가시킨다.
이러한 기술은 이미 현존하는 규격의 G.722 또는 G.727 디코더 타입의 스케일러블 디코더들에는 사용되지 않는다. 그러므로, 현존하는 규격의 스케일러블 디코더들과 호환가능하게 유지되면서 어떤 비트레이트일지라도 상기 신호들의 품질을 증대시키기 위한 요건이 존재하게 된다.
본 발명은 이러한 상황을 개선하고자 하는 것을 목적으로 한다.
이러한 목적으로, 입력 신호의 현재 프레임을 위하여,
- 상기 현재 프레임의 각각의 샘플에 대한 스칼라 양자화 인덱스를 전달하는 코어 코딩 및
- 인핸스먼트 신호의 각각의 코딩된 샘플에 대한 스칼라 양자화의 인덱스들을 전달하는 적어도 하나의 인핸스먼트 코딩을 포함하는 디지털 오디오 신호의 계층적 코딩의 방법을 제안한다. 상기 방법은 상기 인핸스먼트 코딩이 타겟 신호를 결정하는데 사용되는 코딩 잡음을 성형하기 위한 필터를 획득하는 단계를 포함하도록 되어 있고, 상기 인핸스먼트 신호의 스칼라 양자화의 인덱스들이 스칼라 양자화의 가능성 있는 값들의 세트와 상기 타겟 신호 간의 에러를 최소화함으로써 결정된다.
따라서, 보다 높은 비트레이트의 인핸스먼트 신호의 코딩 잡음의 성형이 행하여진다. 본 발명의 요지를 이루는 합성-기반 분석 기법(synthesis-based analysis scheme)은 상기 디코더에서는 어떠한 상보적 신호 처리도 수행할 필요가 없는데, 그 이유는 종래 기술의 코딩 잡음 성형 솔루션들의 경우일 수도 있기 때문이다.
그러므로, 상기 디코더에서 수신되는 신호는, 어떠한 잡음 성형 연산 뿐만 아니라 어떠한 보정항(corrective term)도 요구하지 않는 임베디드 비트레이트들 및 코어 비트레이트의 신호를 디코딩할 수 있는 스탠더드 디코더에 의해 디코딩될 수 있을 것이다.
그러므로, 상기 디코딩된 신호의 품질이 상기 디코더에서 이용가능한 어떤 비트레이트든지 간에 증대되게 된다.
이하 언급되는 각종 특정 실시예들은 독립적으로 또는 상호 조합되어 상기 한정된 방법의 단계들에 부가될 수도 있다.
따라서, 상기 타겟 신호 결정의 구현 모드는 현재 인핸스먼트 코딩 스테이지에 있어서, 상기 방법은 현재 샘플에 대한 하기 단계들, 즉
- 현재 인핸스먼트 코딩 스테이지의 복원된 신호들의 과거 샘플들 및 앞선 코딩 스테이지의 코딩을 기초로 하여 부분적으로 복원된 신호와 상기 계층적 코딩의 입력 신호를 조합하여 인핸스먼트 코딩 에러 신호를 획득하는 단계;
- 상기 타겟 신호를 획득하기 위하여 상기 인핸스먼트 코딩 에러 신호의, 획득된 잡음 성형 필터에 의해 필터링하는 단계;
- 상기 양자화 단계에 기인하는 신호 및 앞선 스테이지의 코딩에 기인하는 복원된 신호를 가산하여 상기 현재 샘플에 대한 복원된 신호를 연산하는 단계;
- 상기 양자화 단계에 기인하는 신호를 기초로 하여 상기 잡음 성형 필터의 메모리들을 적응시키는 단계를 포함하도록 되어 있다.
본 명세서에 기술되는 동작들의 형태는 복잡성이 크게 저감된 동작들에 의하여 상기 코딩 잡음의 성형을 초래한다.
특정 실시예에 있어서, 현재 샘플에 대한 에러 신호의 양자화 값 및 가능성 있는 스칼라 양자화 값들의 세트는, 상기 코어 비트레이트 양자화 인덱스들에 대하여 연산된 레벨 제어 파라미터에 의해 스케일링된, 양자화 복원 레벨들을 나타내는 값들이다.
따라서, 상기 값들은 상기 코어 코딩의 출력 레벨에 대하여 적응된다.
특정 실시예에 있어서, 인핸스먼트 스테이지 k에 대한 양자화 복원 레벨들을 나타내는 값들은, B+k 비트들을 갖는 임베디드 양자화기의 양자화의 복원 레벨들을 나타내는 값들 간의 차이로 정의되되, B는 상기 코어 코딩의 비트수를 나타내고, 상기 값들은 B+k-1 비트들을 갖는 임베디드 양자화기의 양자화 복원 레벨들을 나타내며, B+k 비트들을 갖는 상기 임베디드 양자화기의 복원 레벨들은 B+k-1 비트들을 갖는 임베디드 양자화기의 복원 레벨들을 2개로 분할하여 정의된다.
더욱이, 상기 인핸스먼트 스테이지 k에 대한 양자화 복원 레벨들을 나타내는 값들은 메모리 공간에 저장되고, 인핸스먼트 인덱스들과 상기 코어 비트레이트 양자화의 함수로서 인덱싱된다.
ROM에 직접 저장되는 인핸스먼트 양자화기의 출력 값들은, B+k-1 비트들을 갖는 양자화기의 출력 값들로부터 B+k 비트를 갖는 양자화기의 출력 값들을 감산함으로써, 각각의 샘플링 인스턴트에 대하여 재연산될 필요가 없다. 더욱이, 그들은 예컨대 앞선 스테이지의 인덱스에 의해 쉽게 인덱싱가능한 테이블에 2 x 2로 배치된다.
특정 실시예에 있어서, 스칼라 양자화의 가능성 있는 값들의 수는 샘플마다 변한다.
따라서, 코딩될 샘플들의 함수로서 인핸스먼트 비트들의 수를 적응시킬 수 있게 된다.
또다른 변형 실시예에 있어서, 상기 스칼라 양자화 인덱스들을 제공하는 상기 인핸스먼트 신호의 코딩된 샘플들의 수는 상기 입력 신호의 샘플들의 수보다 적다.
이는 예컨대 인핸스먼트 비트들의 할당된 수가 소정의 샘플들에 대하여 제로로 설정되는 경우일 수도 있다.
상기 코어 코딩의 구현의 가능성 있는 모드는 예컨대 스칼라 양자화 및 예측 필터를 이용하는 ADPCM 코딩이다.
상기 코어 코딩의 구현의 가능성 있는 또다른 모드는 예컨대 PCM 코딩이다.
상기 코어 코딩은 또한 예컨대 현재 샘플에 대한 하기 단계들, 즉
- 소정의 잡음 성형 필터에 의해 필터링된 양자화 잡음의 과거 샘플들을 기초로 하여 그리고 과거 양자화 잡음 샘플들을 기초로 하여 상기 코딩 잡음에 대한 예측 신호를 획득하는 단계;
- 양자화될 수정된 입력 신호를 획득하기 위하여 상기 코딩 잡음 예측 신호 및 상기 코어 코딩의 입력 신호를 조합하는 단계에 의한 상기 코딩 잡음의 성형을 포함할 수도 있다.
따라서, 복잡성이 보다 덜한 코딩 잡음의 성형이 상기 코어 코딩에 대하여 실시된다.
특정 실시예에 있어서, 상기 잡음 성형 필터는 ARMA 필터 또는 연속적인 ARMA 필터들로 정의된다.
따라서, 분자의 값과 분모의 값을 포함하는 이러한 타입의 웨이팅 함수(weighting function)는, 신호 스파이크(signal spike)들을 고려하는 분모의 값을 통한 그리고 이들 스파이크들을 감쇠하는 분자의 값을 통한 장점을 가지므로, 상기 양자화 잡음의 최적의 성형을 제공하게 된다. 계단식 연속 ARMA 필터들은 상기 신호 및 주기성 또는 유사-주기성(quasi-periodicity) 컴포넌트들의 스펙트럼의 엔벨로프(envelope)를 모델링하기 위한 컴포넌트들에 의하여 마스킹 필터의 보다 나은 모델링을 가능하게 한다.
특정 실시예에 있어서, 상기 잡음 성형 필터는 디커플링된 스펙트럴 슬로프(decoupled spectral slope) 및 포먼틱(formantic) 형상의 2개의 계단식 ARMA 필터링 셀들로 분해된다.
따라서, 각각의 필터는 상기 입력 신호의 스펙트럼 특성들의 함수로서 적응되므로, 각종 타입의 스펙트럴 슬로프들을 나타내는 신호들에 대하여 적합하다.
유리하게는, 상기 인핸스먼트 코딩에 의해 사용되는 잡음 성형 필터(W(z)) 또한 상기 코어 코딩에 의해 사용되므로, 구현의 복잡성을 저감시킨다.
특정 실시예에 있어서, 상기 잡음 성형 필터는 상이한 입력 신호들에 최고로 적응시키기 위하여 상기 입력 신호의 함수로서 연산된다.
변형 실시예에 있어서, 상기 잡음 성형 필터는 상기 코어 코딩에 의해 국부적으로 디코딩되는 신호를 기초로 하여 연산된다.
본 발명은 또한
- 현재 프레임의 각 샘플에 대한 스칼라 양자화 인덱스를 전달하는 코어 코딩 스테이지; 및
- 인핸스먼트 신호의 각각의 코딩된 샘플에 대한 스칼라 양자화의 인덱스들을 전달하는 적어도 하나의 인핸스먼트 코딩 스테이지를 포함하는 상기 입력 신호의 현재 프레임에 대한 디지털 오디오 신호의 계층적 코더에 관한 것이기도 하다.
상기 코더는 타겟 신호를 결정하는데 사용되는 코딩 잡음을 성형하기 위한 필터 획득용 모듈 및 상기 타겟 신호와 스칼라 양자화의 가능성 있는 값들의 세트 간의 에러를 최소화함으로써 상기 인핸스먼트 신호의 스칼라 양자화의 인덱스들을 전달하는 양자화 모듈을 상기 인핸스먼트 코딩 스테이지가 포함하도록 되어 있다.
또한, 명령(instruction)들이 프로세서에 의해 실행되는 경우, 본 발명에 따른 코딩 방법의 단계들의 구현을 위한 코드 명령들을 포함하는 컴퓨터 프로그램에 관한 것이기도 하다.
본 발명은 최종적으로 기술된 바와 같이 컴퓨터 프로그램을 저장하고 있는 프로세서에 의해 판독가능한 저장수단에 관한 것이다.
본 발명의 기타 특성 및 장점들은 제한되지 않는 예시를 통해서 그리고 첨부된 도면들을 참조하여 하기 설명을 판독함으로써 더욱 명확해질 것이다.
도 1은 앞서 기술된, 종래 기술에 따른 임베디드-코드 ADPCM 타입의 코더를 예시한 도면;
도 2는 앞서 기술된, 종래 기술에 따른 임베디드-코드 ADPCM 타입의 코더를 예시한 도면;
도 3은 앞서 기술된, 종래 기술에 따른 임베디드-코드 ADPCM 타입의 코더의 양자화 인덱스들의 예시적인 프레임을 도시한 도면;
도 4는 본 발명을 구현하지 않고 있는 코더에 존재하는 양자화 잡음의 스펙트럼에 대한 신호 블럭의 스펙트럼을 나타낸 도면;
도 5는 본 발명의 일반적인 실시예에 따른 코딩 방법 및 임베디드-코드 코더의 블럭도를 나타낸 도면;
도 6a 및 도 6b는 본 발명에 따른 인핸스먼트 코딩 방법 및 인핸스먼트 코딩 스테이지의 블럭도를 나타낸 도면;
도 7은 본 발명에 따른 코딩에 기인하는 신호의 디코딩에 적응된 디코더들의 각종 구성예들을 도시한 도면;
도 8은 본 발명에 따른 코딩 방법 및 본 발명에 따른 코더의 상세한 제1실시예의 블럭도를 나타낸 도면;
도 9는 본 발명에 따른 코더의 코어 코딩 스테이지에 대한 코딩 잡음의 예시적인 연산을 도시한 도면;
도 10은 도 9의 코딩 잡음을 연산하기 위한 상세한 함수를 도시한 도면;
도 11은 본 발명의 코딩 방법에 따른 양자화 복원 레벨들의 세트를 획득하는 일례를 도시한 도면;
도 12는 본 발명의 코딩 방법에 따른 인핸스먼트 신호의 대표예를 도시한 도면;
도 13은 본 발명에 따른 코딩에 대한 마스킹 필터의 연산의 제1실시예의 단계들을 나타내는 플로우차트를 도시한 도면;
도 14는 본 발명에 따른 코딩에 대한 마스킹 필터의 연산의 제2실시예의 단계들을 나타내는 플로우차트를 도시한 도면;
도 15는 본 발명에 따른 코딩 방법 및 본 발명에 따른 코더의 상세한 제2실시예의 블럭도를 나타내는 도면;
도 16은 본 발명에 따른 코딩 방법 및 본 발명에 따른 코더의 상세한 제3실시예의 블럭도를 나타내는 도면; 및
도 17은 본 발명에 따른 코더의 가능성 있는 실시예를 나타내는 도면이다.
이하, 명세서에 있어서, "예측"이란 용어는 과거 샘플들만을 이용하는 연산들을 기술하기 위해 시스템적으로 채택된다.
도 5를 참조하여, 이하 본 발명에 따른 임베디드-코드 코더를 설명한다. 추가적인 샘플당 한 비트를 제공하는 인핸스먼트 스테이지들에 의해 상기 코딩이 행하여진다는 점에 주목하는 것이 중요하다. 이러한 제약은 여기서는 본 발명의 프리젠테이션을 단순화하는 것에서만 유용하다. 하지만, 이하 기술되는 발명은 인핸스먼트 스테이지들이 샘플당 하나 이상의 비트를 제공하는 경우로 일반화되기 쉽다는 것은 자명하다.
이러한 코더는 예컨대 블럭 520의 출력들의 함수로서 수정된 G.711 규격화 코더와 같은 PCM("Pulse Code Modulation") 코더 또는 규격화된 G.722 또는 G.727 코더와 같은 ADPCM 코딩 타입의 B 비트들에 대한 양자화에 의한 코어 비트레이트 코딩 스테이지(500)를 포함한다.
도면 부호 510의 블럭은, 도 8, 도 15 또는 도 16을 참조하여 보다 상세하게 연속해서 기술되는, 상기 코어 코딩의 잡음의 마스킹인 상기 코딩 잡음의 성형을 갖는 이러한 코어 코딩 스테이지를 나타낸다.
제시된 것과 같은 본 발명은 또한 상기 코어 부분에 코딩 잡음의 마스킹이 행하여지지 않는 경우에 관한 것이기도 하다. 더욱이, "코어 코더"란 용어는 본 명세서에서 넓은 의미로 사용된다. 따라서, 예컨대 56 또는 64 kbit/s를 갖는 ITU-T G.722와 같은 현존하는 멀티-비트레이트 코더가 "코어 코더"로 간주될 수도 있다. 극단적으로는, 0 kbit/s를 갖는 코어 코더를 생각할 수도 있는데, 다시 말하면 상기 코딩의 제1단계로부터 본 발명의 요지를 올바르게 형성하는 인핸스먼트 코딩 기술을 적용할 수도 있다. 후자의 경우에는 상기 인핸스먼트 코딩이 코어 코딩이 된다.
잡음의 성형을 갖는, 도 5를 참조하여 본 명세서에 기술된 코어 코딩 스테이지는, 예측 신호
Figure 112011046837284-pct00047
를 제공하기 위하여 양자화 잡음
Figure 112011046837284-pct00048
및 필터링된 양자화 잡음
Figure 112011046837284-pct00049
를 기초로 하여 예측 Pr(z)을 행하는 필터링 모듈(520)을 포함한다. 상기 필터링된 양자화 잡음
Figure 112011046837284-pct00050
은 예컨대 도 9를 참조하여 연속해서 기술된 바와 같이 양자화 잡음에 대하여 상기 필터링된 잡음의 KM 부분 예측들을 가산하여 얻어진다.
상기 코어 코딩 스테이지는 신호 x(n)을 입력으로 수신하고, 예컨대 도 1을 참조하여 기술된 ADPCM 코딩의 경우에 있어서 양자화기 v(n)의 스케일 팩터, I B (n)을 기초로 하여 복원된 신호 r B (n) , 및 양자화 인덱스 I B (n)를 출력으로 제공한다.
도 5에 제시된 바와 같은 코더 또한 몇 가지 인핸스먼트 코딩 스테이지들을 포함한다. 스테이지 EA1(530), 스테이지 EAk(540) 및 스테이지 EAk2(550)가 본 명세서에 제시된다.
이렇게 제시된 인핸스먼트 코딩 스테이지가 계속해서 도 6a 및 도 6b를 참조하여 상세히 설명될 것이다.
일반적으로, 각각의 인핸스먼트 코딩 스테이지 k는 입력으로 신호 x(n), 최적의 인덱스
Figure 112011046837284-pct00051
, 앞선 인핸스먼트 스테이지들의 인덱스들 및 코어 코딩의 인덱스
Figure 112011046837284-pct00052
의 연접(concatenation)
Figure 112011046837284-pct00053
또는 등가적으로는 이들 인덱스들의 세트, 앞선 단계에서 복원된 신호
Figure 112011046837284-pct00054
, 상기 마스킹 필터의 파라미터들 및 필요한 경우, 적응 코딩의 경우에 있어서의 스케일 팩터 v(n)을 구비한다.
이러한 인핸스먼트 스테이지는 출력으로서 연접 모듈(560)에서 인덱스
Figure 112011046837284-pct00055
와 연접될 상기 코딩 스테이지에 대한 인핸스먼트 비트들을 위한 양자화 인덱스
Figure 112011046837284-pct00056
를 제공한다. 상기 인핸스먼트 스테이지 k는 또한 출력으로서 복원 신호 rB+k (n) 를 제공한다. 본 명세서에서 상기 인덱스 J k (n)는 인덱스 n의 샘플마다 한 비트를 나타내지만; 일반적인 경우에 있어서, J k (n)는 가능성 있는 양자화 값들의 수가 2보다 크다면 샘플당 수 개의 비트들을 나타낼 수도 있다는 점에 유의해야 한다.
상기 스테이지들 중 일부는, 결과적인 인덱스가 도 7에 제시되어 후속해서 기술된 바와 같은 스탠더드 디코더에 의해 디코딩될 수 있도록 인덱스
Figure 112011046837284-pct00057
와 연접되는 전송될 비트들
Figure 112011046837284-pct00058
에 대응한다. 그러므로, 리모트 디코더를 변경할 필요는 없고; 또한 상기 코더에서 수행되는 처리를 상기 리모트 디코더에 "통지(inform)"하기 위하여 추가적인 정보가 요구되지도 않는다.
다른 비트들
Figure 112011046837284-pct00059
은 마스킹 및 비트레이트를 증가시켜 인핸스먼트 비트들에 대응하고, 도 7을 참조하여 기술된 추가적인 디코딩 모듈을 요구한다.
도 5의 코더는 또한 도 13 및 도 14를 참조하여 후속해서 기술된 상기 코더의 합성 필터들의 계수들 또는 상기 입력 신호를 기초로 하여, 잡음 성형 필터 또는 마스킹 필터를 연산하기 위한 모듈(580)을 포함하기도 한다. 상기 모듈(580)은 원래 신호라기 보다는 오히려 입력으로서 국부적으로 디코딩된 신호를 구비할 수도 있다는 점에 유의한다.
본 명세서에 제시된 바와 같은 인핸스먼트 코딩 스테이지들은, 상기 디코딩된 신호의 어떤 비트레이트든지 간에 그리고 상기 디코더를 수정하지 않으므로 상기 디코더에서 어떠한 가외의 복잡성없이도, 상기 디코더에서 상기 신호의 증가된 품질을 제공하는 인핸스먼트 비트들을 제공할 수 있도록 한다.
따라서, 이하 본 발명의 일 실시예에 따른 인핸스먼트 코딩 스테이지 k를 나타내는 도 5의 모듈 Eak가 도 6a를 참조하여 설명된다.
이러한 코딩 스테이지에 의해 행하여지는 인핸스먼트 코딩은 양자화 단계
Figure 112011046837284-pct00060
를 포함하는데, 이는 상기 코딩 잡음 성형 필터를 사용하여 결정되는 타겟 신호와 가능성 있는 양자화 값들의 세트 간의 에러를 최소화하는 양자화 값 및 인덱스를 출력으로 전달한다.
여기서는, 임베디드-코드 양자화기들을 포함하는 코더들이 고려된다.
상기 스테이지 k는 인핸스먼트 비트 Jk 또는 비트들 Jk(k=1,...,Gk)의 그룹을 획득할 수 있게 한다.
이는 코딩 에러 신호
Figure 112011046837284-pct00061
를 제공하기 위하여, 샘플 n에 대한 앞선 스테이지의 신호
Figure 112011046837284-pct00062
및 현재 프레임의 각각의 앞선 샘플
Figure 112011046837284-pct00063
에 대한 스테이지 k에서 합성된 신호
Figure 112011046837284-pct00064
를 상기 입력 신호 x(n)으로부터 감산하기 위한 모듈 EAk-1을 포함한다.
도 4를 참조하여 제시된 바와 같이 스펙트럼이 평탄한 양자화 잡음을 발생시킬 쿼드러틱 에러 기준(quadratic error criterion)을 최소화하는 것이라기 보다는 오히려, 가중된 쿼드러틱 에러 기준이 상기 양자화 단계에서 최소화되어, 스펙트럴하게 성형된 잡음이 덜 가청화된다.
따라서, 상기 스테이지 k는 웨이팅 함수 W(z)에 의하여 상기 에러 신호
Figure 112011046837284-pct00065
를 필터링하기 위한 필터링 모듈 EAk-2를 포함한다. 이러한 웨이팅 함수는 또한 상기 코어 코딩 스테이지에서 상기 잡음의 성형에 사용될 수도 있다.
본 명세서에서는 상기 잡음 성형 필터가 상기 스펙트럴 웨이팅의 인버스와 같은데, 바꿔 말하면:
Figure 112011046837284-pct00066
이러한 성형 필터는 ARMA 타입("AutoRegressive Moving Average")이다. 그 전달 함수는 차수 NN의 분자와 차수 ND의 분모를 포함한다. 따라서, 블럭 EAk-1은 특히 H M (z)의 분모에 대응하는 필터 W(z)의 비회귀(non-recursive) 부분의 메모리들을 정의하는 역할을 한다. W(z)의 회귀 부분의 메모리들의 정의는 간결성을 위하여 도시되지 않았지만,
Figure 112011046837284-pct00067
로부터 그리고
Figure 112011046837284-pct00068
로부터 도출된다.
이러한 필터링 모듈은, 출력으로서 상기 타겟 신호에 대응하는 필터링된 신호
Figure 112011046837284-pct00069
를 제공한다.
상기 스펙트럴 웨이팅의 규칙은 상기 코딩 에러의 스펙트럼을 성형하기 위한 것으로, 이는 상기 가중된 에러의 에너지를 최소화함으로써 실시된다.
양자화 모듈 EAk-3은, 양자화 출력의 가능성 있는 값들을 기초로 하여, 하기 수학식에 따라 상기 가중된 에러 기준을 최소화하는 것을 구하는 양자화 단계를 행한다.
Figure 112011046837284-pct00070
이러한 수학식은 인핸스먼트 비트가 각각의 샘플 n에 대하여 연산되는 경우를 나타낸다. 그 후, 상기 양자화기의 두 출력 값들이 가능하다. 이어서, 양자화 단계의 가능성 있는 출력 값들이 어떻게 정의되는 지를 볼 것이다.
따라서, 이러한 모듈 EAk-3은, 앞선 스테이지의 인덱스
Figure 112011046837284-pct00071
와 연접될 최적의 비트 J k 의 값을 제1출력으로 그리고 상기 최적의 인덱스 J k 에 대한 양자화기의 출력 신호인
Figure 112011046837284-pct00072
를 제2출력으로 하여 인핸스먼트 양자화
Figure 112011046837284-pct00073
를 실시하되, 여기서 v(n)은 상기 양자화기들의 출력 레벨을 적응시키기 위하여 상기 코어 코딩에 의해 정의된 스케일 팩터를 나타낸다.
상기 인핸스먼트 코딩 스테이지는 최종적으로 스테이지 k
Figure 112011046837284-pct00074
에서 합성된 신호를 제공하기 위하여 상기 양자화된 에러 신호
Figure 112011046837284-pct00075
를 앞선 스테이지에서 합성된 신호
Figure 112011046837284-pct00076
에 가산하기 위한 모듈 EAk-4를 포함한다.
등가 방식에 있어서는,
Figure 112011046837284-pct00077
가 인덱스
Figure 112011046837284-pct00078
를 디코딩하여, 다시 말하면 선택적으로는 유한 정밀(finite precision)에서,
Figure 112011046837284-pct00079
를 연산하여, 그리고 예측
Figure 112011046837284-pct00080
을 가산하여, EAk-4에 대한 교체 시에 획득될 수도 있다. 이 경우, B 비트들, B+1,...을 갖는 양자화기들의 양자화 값들
Figure 112011046837284-pct00081
을 메모리에 저장하는 것과 상기 인핸스먼트 양자화기의 값들
Figure 112011046837284-pct00082
로 연산하는 것이 적합하다.
n'=n인 경우
Figure 112011046837284-pct00083
와 같은 값을 가진 신호 e B +k (n) 는 하기 샘플링 인스턴트에 대한 하기 관계식에 따라 보충된다.
Figure 112011046837284-pct00084
여기서,
Figure 112011046837284-pct00085
는 또한 상기 필터의 메모리 MA("Moving Average")이다. 그러므로, 메모리에 유지될 샘플들의 수가 상기 잡음 성형 필터의 분모의 계수들의 수와 같게 된다.
그리고, 상기 필터링의 AR("Auto Regressive") 부분의 메모리는 하기 수학식에 따라 업데이트된다.
Figure 112011046837284-pct00086
캐스케이드(cascade)에서 몇 개의 ARMA 셀들을 배치하여 필터링하는 경우에 있어서는, 도 10을 참조하여 상기 필터들의 내부 변수들이 하기와 같은 동일한 방식으로 적응된다:
Figure 112011046837284-pct00087
상기 인덱스 n은 1 단위로 증분된다. 초기화 단계가 제1의 ND 샘플들에 대해 수행되면,
Figure 112011046837284-pct00088
의 연산이 상기 저장 메모리를
Figure 112011046837284-pct00089
(이는 가장 오래된 샘플의 덮어쓰기를 수반함)에 대하여 시프트시켜 그리고 상기 값
Figure 112011046837284-pct00090
을 자유롭게 남아 있는 슬롯(slot left free)에 삽입함으로써 행해질 것이다.
도 6a에 도시된 본 발명은 등가 변형예들을 통해 실시될 수도 있다는 점에 유의해야 한다. 실제로, 상기 복원된 신호는 이미 이용가능한 샘플들(과거 샘플들
Figure 112011046837284-pct00091
, 앞선 스테이지들의 현재 샘플들, 필터들의 메모리들)에 의해서만 결정되는 부분 s det (n) 및 최적화될 현재 샘플만을 의존하는 s opt (n)이 결정될 또다른 부분으로 분해될 수도 있다. 따라서, 연산 부하를 최적화하기 위하여, 상기 입력 신호 x(n)와 복원 신호 r B +k (n) 간의 가중된 에러인
Figure 112011046837284-pct00092
가 최소화될 에러의 연산 또한 두 부분으로 분해될 수도 있다. 제1단계에서는, 상기 입력 샘플 x(n)과 sdet(n) 간의 W(z)에 의한 가중된 차이가 연산된다(도 6a의 모듈 EAK-1 및 EAK-2). 이렇게 획득한 값
Figure 112011046837284-pct00093
은 단 하나의 타겟 값으로 감소하는 인스턴트 n에서의 타겟 신호이고, 이는 각각의 가능성 있는 양자화 값
Figure 112011046837284-pct00094
에 대하여 단 한 번 연산될 필요가 있다. 다음으로, 최적화 루프에서는, 가능성 있는 모든 스칼라 양자화 값들 가운데 Euclidian 거리의 관점에서 상기 타겟 값에 가장 가까운 것을 간단하게 발견할 필요가 있다.
상기 타겟 값을 연산하기 위한 또다른 변형예는 2가지 웨이팅 필터링 W(z)을 실시하는 것이다. 제1필터링은 입력 신호와 앞선 스테이지의 복원된 신호 r B +k-1 (n) 간의 차이를 웨이팅한다. 제2필터는 제로 입력을 가지지만, 이들 메모리들은
Figure 112011046837284-pct00095
의 도움을 받아 업데이트된다. 이들 두 필터링들의 출력들 간의 차이는 동일한 타겟 신호를 제공한다.
도 6a에 기술된 본 발명의 원리는 도 6b에 일반화되어 있다. 블럭 601은 앞선 스테이지의 코딩 에러
Figure 112011046837284-pct00096
를 제공한다. 블럭 602는 가능성 있는 모든 스칼라 양자화 값들
Figure 112011046837284-pct00097
을 하나씩 도출하는데, 이는 블럭 603에 의하여
Figure 112011046837284-pct00098
로부터 감산되어, 현재 스테이지의 코딩 에러
Figure 112011046837284-pct00099
를 획득하게 된다. 이러한 에러는 상기 블럭 602를 제어하기 위하여 상기 잡음 성형 필터 W(z)에 의해 웨이팅되고(블럭 604) 최소화된다(블럭 605). 근본적으로, 상기 인핸스먼트 코딩 스테이지에 의해 국부적으로 디코딩된 값은
Figure 112011046837284-pct00100
이다(블럭 606).
여기서는, 표기법
Figure 112011046837284-pct00101
은 샘플당 비트레이트가 B+k 비트들인 것으로 전제한다는 점에 유의하는 것이 중요하다. 그러므로, 도 6은 샘플당 단 하나의 비트가 상기 인핸스먼트 코딩 스테이지에 의해 더해지는 경우를 처리하므로, 상기 블럭 602에서 가능성 있는 2개의 양자화 값들을 수반하게 된다. 도 6b에 기술된 인핸스먼트 코딩은 샘플당 임의 개수의 비트들 k를 생성할 수 있고; 이 경우, 상기 블럭 602에서 가능성 있는 스칼라 양자화 값들의 수는 2k라는 점은 자명하다.
도 7을 참조하면, 이하 도 5를 참조하여 기술된 바와 같이, 본 발명에 따른 코더로부터의 출력으로서 획득한 신호를 디코딩할 수 있는 임베디드-코드 디코더들의 각종 구성들을 설명하기로 한다.
구현되는 디코딩 디바이스는, 예컨대 ISDN 네트워크(710)로부터 또는 IP 네트워크(720)로부터 기인되는 지의 여부에 따른 신호의 오리진(origin)에 그리고 신호 전송 비트레이트에 좌우된다.
비트레이트가 낮은(48, 56 또는 64 kbit/s) 전송 채널에 있어서는, 예컨대 G.722 규격화된 ADPCM 디코더 타입의 스탠더드 디코더(700)를 사용하여, 코어 비트레이트의 비트수인 k1=0, 1, 2 및 B를 갖는 B+k1 비트들의 바이너리 트레인을 디코딩하는 것이 가능할 것이다. 이러한 디코딩에 기인하는 복원된 신호
Figure 112011046837284-pct00102
는 상기 코더에 구현된 인핸스먼트 코딩 스테이지들 때문에 증대된 품질의 혜택을 얻을 것이다.
비트레이트가 보다 높은(80, 96 kbit/s) 전송 채널에 있어서는, 바이너리 트레인
Figure 112011046837284-pct00103
이 스탠더드 디코더(700)의 비트레이트보다 큰 비트레이트를 가지고 모드 인디케이터(mode indicator; 740)에 의해 표시된다면, 엑스트라 디코더(730)가 도 2를 참조하여 기술된 B+1 및 B+2 비트들을 갖는 인버스 양자화들을 수행하는 것 이외에도,
Figure 112011046837284-pct00104
의 인버스 양자화를 행하여, 상기 예측 신호
Figure 112011046837284-pct00105
에 가산될 때, 고-비트레이트의 증대된 신호
Figure 112011046837284-pct00106
를 제공할 양자화된 에러를 제공하게 된다.
이하, 본 발명에 따른 코더의 제1실시예를 도 8을 참조하여 설명한다. 본 실시예에 있어서, 코어 비트레이트 코딩 스테이지 800은 코딩 잡음 성형을 갖는 ADPCM 타입의 코딩을 행한다.
상기 코어 코딩 스테이지는, 도 1을 참조하여 기술된 것과 같이, 상기 복원된 신호
Figure 112011046837284-pct00107
및 코어 레이어의 낮은 비트레이트 인덱스
Figure 112011046837284-pct00108
를 통해 양자화된 에러 신호
Figure 112011046837284-pct00109
의 앞선 샘플들을 기초로 하여 실시되는 신호 예측
Figure 112011046837284-pct00110
을 연산하기 위한 모듈(810)을 포함한다.
상기 입력 신호 x(n)로부터 예측
Figure 112011046837284-pct00111
을 감산하기 위한 감산 모듈(801)이 제공되어 예측 에러 신호
Figure 112011046837284-pct00112
를 획득하게 된다.
상기 코어 코더는 또한 필터링된 잡음
Figure 112011046837284-pct00113
및 양자화 잡음
Figure 112011046837284-pct00114
의 앞선 샘플들을 기초로 하여 실시된
Figure 112011046837284-pct00115
잡음
Figure 112011046837284-pct00116
를 예측하기 위한 모듈(802)도 포함한다.
상기 잡음 예측
Figure 112011046837284-pct00117
을 상기 예측 에러 신호
Figure 112011046837284-pct00118
에 가산하기 위한 가산 모듈(803) 또한
Figure 112011046837284-pct00119
로 표시된 에러 신호를 얻기 위하여 제공되기도 한다.
코어 양자화 QB 모듈(820)은 양자화 인덱스들 IB(n)을 제공하기 위하여 에러 신호 eB(n)을 입력으로 수신한다. 최적의 양자화 인덱스 IB(n) 및 양자화된 값
Figure 112011046837284-pct00120
은 에러 기준
Figure 112011046837284-pct00121
을 최소화하되, 여기서 상기 값들
Figure 112011046837284-pct00122
은 복원된 레벨들이고, v(n)은 양자화기 적응 모듈(804)에 기인하는 스케일 팩터이다.
예컨대 상기 G.722 코더에 의하면, 상기 코어 양자화기의 복원 레벨들 QB는 X.Maitre. "7kHz audio coding within 64 kbit/s", IEEE Journal on Selected Areas in Communication, Vol.6-2, February 1988에 의한 아티클의 테이블 VI에 의해 정의되어 있다.
상기 양자화 모듈 QB에 의해 출력되는 B 비트들의 양자화 인덱스
Figure 112011046837284-pct00123
는, 도 7을 참조하여 기술된 바와 같이 상기 전송 채널(840)을 통해 상기 디코더에 전송되기 전에, 상기 인핸스먼트 비트들
Figure 112011046837284-pct00124
과 함께 멀티플렉싱 모듈(830)에서 다중화될 것이다.
상기 코어 코딩 스테이지는 또한 상기 양자화기의 입력과 그 출력 간의 차이인 양자화 잡음
Figure 112011046837284-pct00125
을 연산하기 위한 모듈(805), 상기 양자화 잡음을 상기 양자화 잡음의 예측에 가산하여 필터링된 양자화 잡음
Figure 112011046837284-pct00126
을 연산하기 위한 모듈(806) 및 상기 신호의 예측을 상기 양자화된 에러에 가산하여 복원된 신호
Figure 112011046837284-pct00127
를 연산하기 위한 모듈(807)을 포함한다.
양자화기 QB 적응
Figure 112011046837284-pct00128
모듈(804)은 하기 인스턴트 n+1에 대한 스케일 팩터라고도 불리우는 레벨 제어 파라미터 v(n)을 제공한다.
상기 예측 모듈(810)은 상기 복원된 양자화된 에러 신호
Figure 112011046837284-pct00129
및 선택적으로는 1+Pz(z)에 의해 필터링된 상기 복원된 양자화된 에러 신호
Figure 112011046837284-pct00130
의 샘플들을 기초로 한 적응을 위한 적응
Figure 112011046837284-pct00131
모듈(811)을 포함한다.
후속해서 상세한 모듈(850) Calc Mask는, 입력 신호를 기초로 하거나, 또는 (코어 비트레이트에서) 상기 코어 코딩에 의해 국부적으로 디코딩된 신호를 기초로 하거나, 또는 단순화된 그래디언트 알고리듬(gradient algorithm)에 의하여 ADPCM 코딩에서 연산된 예측 필터 계수들을 기초로 하여, 상기 코어 코딩 스테이지와 인핸스먼트 코딩 스테이지들 양자 모두에 의해 사용될 수도 있는 코딩 잡음을 성형하기 위한 필터를 제공하도록 설계된다. 후자의 경우에 있어서, 상기 잡음 성형 필터는 댐핑 상수들을 더하고 디-엠퍼시스(de-emphasis) 필터를 더하여, 상기 코어 비트레이트 코딩에 사용되는 예측 필터의 계수들을 기초로 하여 획득될 수도 있다.
또한, 상기 인핸스먼트 스테이지들에서 마스킹 모듈을 단독으로 사용할 수도 있고; 이러한 대안예는 상기 코어 코딩이 샘플당 수 비트들을 사용하는 경우에 이점이 있는데, 이 경우 상기 코딩 에러는 백색 잡음(white noise)이 아니고, 신호-대-잡음비가 매우 낮으며 - 이러한 상황은 G.722 규격에서 고대역(4000-8000 Hz)의 샘플당 2 비트들을 갖는 ADPCM 코딩에서 발견되는데, 이 경우 피드백에 의한 잡음 성형은 효과적이지 않다.
도 8의 블럭들 802, 803, 805, 806에 대응하는 코어 코딩의 잡음 성형은 선택적이라는 것에 유의한다. 도 16에 제시된 본 발명은 상기 블럭들 801, 804, 807, 810, 811, 820에 대하여 저감된 ADPCM 코어 코딩에 대해서도 적용된다.
도 9는 하기 일반식을 갖는 ARMA("AutoRegressive Moving Average") 필터에 의하여 양자화 잡음의 예측
Figure 112011046837284-pct00132
의 연산을 수행하는 모듈(802)을 보다 상세히 설명한다.
Figure 112011046837284-pct00133
명료성을 위하여, 여기서는 z-변환 표기법이 사용된다.
오디오주파수 신호들의 단기 및 장기 특성들을 일시 및 동시에 고려할 수 있는 잡음의 성형을 획득하기 위하여, 상기 필터
Figure 112011046837284-pct00134
는 계단식 ARMA 필터링 셀들 900, 901, 902에 의해 표현된다.
Figure 112011046837284-pct00135
이러한 필터 캐스케이드에 기인하는 도 9의 필터링된 양자화 잡음은 하기식에 의하여 양자화 잡음
Figure 112011046837284-pct00136
의 함수로서 주어질 것이다.
Figure 112011046837284-pct00137
도 10은 모듈 Fk(z)(901)을 보다 상세히 보여준다. 이러한 셀 k의 출력에서의 양자화 잡음은 하기식으로 주어진다.
Figure 112011046837284-pct00138
Figure 112011046837284-pct00139
를 가지고 반복하면 하기가 산출된다.
Figure 112011046837284-pct00140
즉,
Figure 112011046837284-pct00141
잡음 예측
Figure 112011046837284-pct00142
은 다음과 같이 주어진다.
Figure 112011046837284-pct00143
따라서, 도 8에 의한 코어 코딩 잡음의 성형이 하기 수학식들을 통해 유효하다는 것은 쉽게 증명된다.
Figure 112011046837284-pct00144
Figure 112011046837284-pct00145
Figure 112011046837284-pct00146
이에 따라,
Figure 112011046837284-pct00147
Figure 112011046837284-pct00148
상기 양자화 잡음은 거의 백색이므로, 감지된 코딩 잡음의 스펙트럼은 필터
Figure 112011046837284-pct00149
에 의해 성형되므로, 덜 가청적이다.
후속해서 기술된 바와 같이, ARMA 필터링 셀은 하기 방식으로 계수들 g1 및 g2를 할당하여 상기 입력 신호의 선형 예측
Figure 112011046837284-pct00150
을 위한 인버스 필터로부터 도출될 수도 있다.
Figure 112011046837284-pct00151
분자의 값과 분모의 값을 포함하는 이러한 타입의 웨이팅 함수는, 신호 스파이크들을 고려하는 분모의 값을 통한 그리고 이들 스파이크들을 감쇠하는 분자의 값을 통한 장점을 가지므로, 상기 양자화 잡음의 최적의 성형을 제공하게 된다. 상기 g1 및 g2의 값들은 다음과 같다.
Figure 112011046837284-pct00152
특정 값 g1 = 0은 순수하게 오토리그레시브한 마스킹 필터를 제공하고, g2 = 0의 것은 MA 이동 평균 필터를 제공한다.
더욱이, 높은 정확도(fidelity)의 디지털 오디오 신호들의 경우 및 보이스 신호들의 경우에 있어서는, 상기 신호의 주기성들을 나타내는 신호의 미세 구조에 기초한 약간의 성형이 상기 신호의 하모닉들 간에 감지되는 양자화 잡음을 저감시킨다. 인핸스먼트는 예컨대 200 Hz 보다 큰 피치 또는 상대적으로 높은 기본주파수를 갖는 신호들의 경우에 특히 중요하다.
장기 잡음 성형 ARMA 셀은 하기에 의해 주어진다.
Figure 112011046837284-pct00153
도 8의 설명으로 되돌아가면, 상기 코더는 또한 몇 개의 인핸스먼트 코딩 스테이지들을 포함한다. 두 스테이지 EA1 및 EAk가 여기에 제시된다.
상기 인핸스먼트 코딩 스테이지 EAk는 인핸스먼트 비트 Jk 또는 비트들의 그룹 Jkk = 1,Gk를 획득할 수 있게 만들고, 도 6a 및 도 6b를 참조하여 기술되는 바와 같다.
이러한 코딩 스테이지는, 코딩 에러 신호
Figure 112011046837284-pct00154
를 제공하기 위하여, 인스턴트 n에 대하여 스테이지 k-1에서 합성된 신호
Figure 112011046837284-pct00155
및 샘플링 인스턴트들
Figure 112011046837284-pct00156
에 대하여 스테이지 k에서의 합성된 신호
Figure 112011046837284-pct00157
로 형성된 신호
Figure 112011046837284-pct00158
를 상기 입력 신호 x(n)로부터 감산하기 위한 모듈 EAk-1를 포함한다.
상기 웨이팅 함수 W(z)에 의해
Figure 112011046837284-pct00159
를 필터링하기 위한 모듈 EAk-2 또한 상기 코딩 스테이지 k에 포함된다. 이러한 웨이팅 함수는, 앞서 기술된 바와 같은 코어 코딩에 의해 주어진 마스킹 필터
Figure 112011046837284-pct00160
의 인버스와 같다. 상기 모듈 EAk-2의 출력에서는, 필터링된 신호
Figure 112011046837284-pct00161
가 얻어진다.
상기 인핸스먼트 코딩 스테이지 k는, 앞선 스테이지의 인덱스
Figure 112011046837284-pct00162
와 연접될 최적의 비트 Jk의 값을 제1출력으로서 그리고 상기 최적의 인덱스 Jk에 대한 양자화기로부터의 출력 신호인
Figure 112011046837284-pct00163
를 제2출력으로서 구비한 인핸스먼트 양자화
Figure 112011046837284-pct00164
를 실시하는 j=0,1에 대하여 에러 기준
Figure 112011046837284-pct00165
을 최소화하기 위한 모듈 EAk-3을 포함한다.
스테이지 k는 또한 스테이지 k에서 합성된 신호
Figure 112011046837284-pct00166
를 제공하기 위하여 앞선 스테이지에서 합성된 신호
Figure 112011046837284-pct00167
에 상기 양자화된 에러 신호
Figure 112011046837284-pct00168
를 가산하기 위한 가산 모듈 EAk-4를 포함한다.
단 하나의 성형 ARMA 필터의 경우에 있어서는, 필터링된 에러 신호가 하기에 의하여 z-변환 표기법으로 주어진다.
Figure 112011046837284-pct00169
따라서, 각각의 샘플링 인스턴트 n에 대하여, 부분 복원된 신호
Figure 112011046837284-pct00170
는 앞선 스테이지에서 복원된 신호
Figure 112011046837284-pct00171
및 상기 신호
Figure 112011046837284-pct00172
의 과거 샘플들을 기초로 하여 연산된다.
이러한 신호는 상기 신호 x(n)로부터 감산되어 에러 신호
Figure 112011046837284-pct00173
를 제공하게 된다.
상기 에러 신호는 필터링 ARMA 셀 W1을 구비한 필터에 의해 필터링되어 하기를 제공하게 된다.
Figure 112011046837284-pct00174
상기 웨이팅된 에러 기준은 상기 양자화기의 가능성 있는 출력들의 두 값들(또는 비트가 수 개이면 NG 값들)에 대한 쿼드러틱 에러를 최소화하는 것에 해당한다.
Figure 112011046837284-pct00175
이러한 최소화 단계는 최적의 인덱스 Jk
Figure 112011046837284-pct00176
라고도 표시되는 최적의 인덱스에 대한 양자화된 값
Figure 112011046837284-pct00177
을 제공한다.
상기 마스킹 필터가 수 개의 계단식 ARMA 셀들로 구성되는 경우에는, 계단식 필터링들이 행하여진다.
예를 들어, 계단식 단기 필터링 및 피치 셀에 대해서는 하기와 같을 것이다.
Figure 112011046837284-pct00178
제1의 필터링 셀의 출력은 다음과 같을 것이다.
Figure 112011046837284-pct00179
그리고 제2의 셀의 출력은 다음과 같다.
Figure 112011046837284-pct00180
일단 상기 기준을 최소화하여
Figure 112011046837284-pct00181
이 얻어지면,
Figure 112011046837284-pct00182
로부터
Figure 112011046837284-pct00183
를 도출하여
Figure 112011046837284-pct00184
가 적응된 다음, 저장 메모리가 좌측으로 시프트되어, 값
Figure 112011046837284-pct00185
이 하기 인스턴트 n+1에 대하여 가장 최근의 위치로 들어가게 된다.
상기 필터의 메모리들은 그 후에 하기에 의해 적응된다.
Figure 112011046837284-pct00186
Figure 112011046837284-pct00187
앞선 절차는 하기와 같은 일반적인 경우에 반복된다.
Figure 112011046837284-pct00188
따라서, 인핸스먼트 비트들은 계단식 인핸스먼트 스테이지들에서 비트 x 비트 또는 비트 그룹 x 비트 그룹으로 얻어진다.
상기 코더의 코어 비트들과 인핸스먼트 비트들이 도 1에 제시된 바와 같이 에러 신호 e(n)을 양자화하여 직접 얻어지는 종래 기술과는 대조적으로, 본 발명에 따른 인핸스먼트 비트들은 상기 스탠더드 디코더의 출력에서의 인핸스먼트 신호가 상기 양자화 잡음의 성형에 의해 복원되는 방식으로 연산된다.
상기 코어 양자화기의 출력에서 얻어지는 인덱스 IB(n)를 알고, B+1 비트들을 갖는 ADPCM 타입의 양자화기가 임베디드-코드 양자화기이기 때문에, B+1 비트들을 갖는 양자화기에 대해서는 단지 2개의 출력 값들이 가능하다.
B+k-1 비트들을 갖는 인핸스먼트 스테이지의 함수로서 B+k 비트들을 갖는 인핸스먼트 스테이지의 출력에 대해서도 동일한 이유가 적용된다.
도 11은 B+2 비트들에 대하여 인핸스먼트 양자화기의 출력 값들 뿐만 아니라, B=4 비트들에 대하여 B 비트들을 갖는 코어 양자화기의 첫번째 4 레벨 및 G.722 코더의 저대역의 코딩의 B+1 및 B+2 비트들을 갖는 양자화기들의 레벨들을 나타낸다.
이 도면에 예시된 바와 같이, B+1 =5 비트들을 갖는 임베디드 양자화기는 B=4 비트들을 갖는 양자화기의 두 레벨들로 분할하여 얻어진다. B+2=6 비트들을 갖는 임베디드 양자화기는 B+1=5 비트들을 갖는 양자화기의 두 레벨들로 분할하여 얻어진다.
본 발명의 일 실시예에 있어서, 인핸스먼트 스테이지 k에 대한 양자화 복원 레벨들을 나타내는 값들은 B+k 비트들을 갖는 임베디드 양자화기의 양자화의 복원 레벨들을 나타내는 값들 간의 차이에 의해 정의되되, B는 상기 코어 코딩의 비트수를 나타내고, 상기 값들은 B+k-1 비트들을 갖는 임베디드 양자화기의 양자화 복원 레벨들을 나타내며, B+k 비트들을 갖는 임베디드 양자화기의 복원 레벨들은 B+k-1 비트들을 갖는 임베디드 양자화기의 복원 레벨들을 둘로 분할하여 정의된다.
그러므로, 하기 관계식을 얻게 된다.
Figure 112011046837284-pct00189
Figure 112011046837284-pct00190
는 B+k 비트들을 갖는 임베디드 양자화기의 가능성 있는 복원 레벨들을 나타내고,
Figure 112011046837284-pct00191
는 B+k-1 비트들을 갖는 임베디드 양자화기의 복원 레벨들을 나타내며,
Figure 112011046837284-pct00192
는 스테이지 k에 대한 복원 레벨 또는 인핸스먼트 항을 나타낸다. 예를 들어, 스테이지 k=2의 출력에서의 레벨들은, 다시 말해 B+k=6에 대해서는, B+k=5 비트들에 대하여 임베디드 양자화기의 함수로서 도 11에 주어진다.
B+k 비트들을 갖는 양자화기의 가능성 있는 출력들은 하기에 의해 주어진다.
Figure 112011046837284-pct00193
v(n)은 고정된 양자화기들의 출력 레벨을 적응시키기 위하여 상기 코어 코딩에 의해 정의된 스케일 팩터를 나타낸다.
종래 방식에 의하면, B, B+l,...,B+K 비트들을 갖는 양자화기들에 대한 양자화는, 양자화될 값 e(n)이 놓여 있는 B+k 비트들을 갖는 양자화기의 디시전 스팬(decision span)을 태깅(tagging)하여 단 한 번 수행되었다.
본 발명은 상이한 방식을 제안한다. B+k-1 비트들을 갖는 양자화기에 기인하는 양자화된 값을 알면, 상기 양자화기의 입력에서 상기 신호의 양자화
Figure 112011046837284-pct00194
가 양자화 에러를 최소화하여 그리고 결정 임계값들을 호출하지 않고 행하여짐으로써, 하기와 같이 프로덕트
Figure 112011046837284-pct00195
의 고정점(fixed-point) 구현에 대한 연산 잡음을 줄일 수 있게 한다는 장점이 있다.
Figure 112011046837284-pct00196
도 4를 참조하여 제시된 바와 같이 스펙트럼이 평탄한 양자화 잡음을 발생시킬 쿼드러틱 에러 기준을 최소화하는 것이라기 보다는 오히려, 가중된 쿼드러틱 에러 기준이 최소화될 것이므로, 스펙트럴하게 성형된 잡음이 덜 가청적이다.
사용되는 스펙트럴 웨이팅 함수는 W(z)이되, 이는 상기 코어 코딩 스테이지에서 잡음 성형을 위해 사용될 수도 있다.
도 8의 설명으로 되돌아가면, 상기 복원된 코어 신호는 상기 인버스 양자화기의 출력 및 상기 예측의 합계와 같다는 것을 볼 수 있다. 바꿔 말하면,
Figure 112011046837284-pct00197
상기 신호 예측은 상기 코어 ADPCM 코더를 기초로 하여 행하여지기 때문에, 스테이지 k에서 가능성 있는 2개의 복원된 신호들이 하기 수학식에 의하여 스테이지 k-1에서 실제로 복원된 신호의 함수로서 주어진다.
Figure 112011046837284-pct00198
이로부터 스테이지 k에서 최소화될 에러 기준이 도출된다.
Figure 112011046837284-pct00199
즉,
Figure 112011046837284-pct00200
앞서 기술된 바와 같이 스펙트럼이 평탄한 양자화 잡음을 발생시킬 쿼드러틱 에러 기준을 최소화하는 것이라기 보다는 오히려, 가중된 쿼드러틱 에러 기준이 최소화될 것이므로, 상기 코어 코딩에 대해서도, 스펙트럴하게 성형된 잡음이 덜 가청적이다. 사용되는 스펙트럴 웨이팅 함수는 주어진 예시에서 상기 코어 코딩에 이미 사용된 W(z)이다 - 하지만 인핸스먼트 스테이지들에서는 상기 웨이팅 함수를 단독으로 사용하는 것이 가능하다.
도 12에 따르면, 신호
Figure 112011046837284-pct00201
는 하기와 같이 두 신호들의 합계와 같은 것으로 정의된다.
Figure 112011046837284-pct00202
는 n'<n에 대해서는 모든 상기 값들
Figure 112011046837284-pct00203
의 연접을 나타내고, n'=n에 대해서는 0과 같다.
Figure 112011046837284-pct00204
는 n'=n에 대해서는
Figure 112011046837284-pct00205
와 같고, n'<n에 대해서는 제로와 같다.
그리고, z-변환의 도메인에서 해석하기 보다 쉬운 에러 기준이 하기 수학식에 의해 주어진다.
Figure 112011046837284-pct00206
여기서,
Figure 112011046837284-pct00207
Figure 112011046837284-pct00208
의 z-변환이다.
Figure 112011046837284-pct00209
를 분해하면, 하기와 같다.
Figure 112011046837284-pct00210
예를 들어, 이러한 기준을 최소화하기 위하여, 상기 신호를 연산하여 시작한다.
Figure 112011046837284-pct00211
단, 상기 양자화된 값을 아직 알지 못하므로
Figure 112011046837284-pct00212
이다. 상기 앞선 스테이지의 신호 및
Figure 112011046837284-pct00213
의 합계는 스테이지 k의 복원된 신호와 같다.
그러므로,
Figure 112011046837284-pct00214
는 n'<n에 대해서는
Figure 112011046837284-pct00215
와 같고 n'=n에 대해서는
Figure 112011046837284-pct00216
와 같은 신호의 z-변환이므로 다음과 같이 된다.
Figure 112011046837284-pct00217
프로세서 상의 구현을 위해서는, 상기 신호
Figure 112011046837284-pct00218
가 일반적으로 명확하게 연산되지 않고, 에러 신호
Figure 112011046837284-pct00219
가 연산되는 것이 장점을 가지는데, 이는 x(n)과
Figure 112011046837284-pct00220
간의 차이이다.
Figure 112011046837284-pct00221
Figure 112011046837284-pct00222
Figure 112011046837284-pct00223
Figure 112011046837284-pct00224
을 기초로 하여 형성되며, 하기와 같이 필터링을 위하여 메모리에 유지될 샘플들의 수는 상기 마스킹 필터의 분모의 계수들의 수인 ND 샘플들이다.
상기 필터링된 에러 신호
Figure 112011046837284-pct00225
는 다음과 같을 것이다.
Figure 112011046837284-pct00226
상기 가중된 쿼드러틱 에러 기준은 이로부터 도출된다.
Figure 112011046837284-pct00227
상기 최적의 인덱스 Jk는 j=0,1에 대하여 상기 기준
Figure 112011046837284-pct00228
을 최소화하는 것이므로, B+k 비트들을 갖는 스칼라 양자화기의 복원 레벨들을 기초로 하여 연산된 2개의 인핸스먼트 레벨들
Figure 112011046837284-pct00229
을 기초로 하여 스칼라 양자화
Figure 112011046837284-pct00230
를 실시하게 되고, 최적의 코어 인덱스 및 인덱스들
Figure 112011046837284-pct00231
또는 등가적으로
Figure 112011046837284-pct00232
을 알게 된다.
상기 최적의 인덱스에 대한 양자화기의 출력 값은 다음과 같다.
Figure 112011046837284-pct00233
그리고 인스턴트 n에서 복원된 신호의 값은 하기에 의해 주어질 것이다.
Figure 112011046837284-pct00234
상기 양자화된 출력
Figure 112011046837284-pct00235
을 알면, 차이 신호
Figure 112011046837284-pct00236
는 샘플링 인스턴트 n에 대하여 업데이트된다.
Figure 112011046837284-pct00237
그리고 상기 필터의 메모리들이 업데이트된다.
상기 n의 값은 1 단위로 증분된다. 그리고,
Figure 112011046837284-pct00238
의 연산은 극히 간단한 것으로 실현되는데:
Figure 112011046837284-pct00239
에 대하여 저장 메모리를 좌측으로 1 슬롯만큼 시프팅하여 가장 오래된 샘플을 드롭하고, 가장 최근의 샘플
Figure 112011046837284-pct00240
로서 삽입하는 것으로 충분하며, 상기 양자화된 값은 아직 알지 못하고 있다. 상기 메모리의 시프팅은 포인터들을 신중하게 이용하여 회피될 수도 있다.
도 13 및 도 14는 마스킹 필터 연산 모듈(850)에 의하여 구현된 마스킹 필터 연산의 구현의 두 모드들을 예시하고 있다.
도 13에 예시된 구현의 제1모드에서는, 앞선 프레임의 샘플 세그먼트
Figure 112011046837284-pct00241
에 의해 보충되는 현재-프레임 블럭에 대응하는 신호 전류 블럭이 고려된다.
상기 마스킹 필터의 스펙트럼의 스파이크들을 강조하기 위하여, 상기 신호는 그 계수 또는 계수들이 특허 FR2742568에 기술된 바와 같은 선형 예측에 의하여 고정되거나 적응되는 필터
Figure 112011046837284-pct00242
에 의해 상관 계수들의 E60에서의 연산 이전에 예비-처리(pre-process)된다(예비-강조 처리).
예비-강조가 사용되는 경우에는, 분석될 신호
Figure 112011046837284-pct00243
가 인버스 필터링에 의해 연산된다.
Figure 112011046837284-pct00244
상기 신호 블럭은 그 후에 종래 기술로부터 공지된 바와 같이, 서브-윈도우즈의 연접으로 형성된 윈도우 또는 Hanning 윈도우에 의하여 E 61에서 웨이팅된다.
Figure 112011046837284-pct00245
상관 계수들은 그 후에 하기에 의하여 E62에서 연산된다.
Figure 112011046837284-pct00246
예비-강조된 신호의 엔벨로프를 모델링하는 AR 필터(AutoRegressive)
Figure 112011046837284-pct00247
의 계수들은 Levinson-Durbin 알고리듬에 의하여 E63에 주어진다.
그러므로, 필터 A(z)는 E64에서 얻어지되, 상기 필터는 입력 신호의 엔벨로프를 모델링하는 전달 함수
Figure 112011046837284-pct00248
를 구비한다.
이러한 연산이 본 발명에 따른 코더의 2개의 필터
Figure 112011046837284-pct00249
Figure 112011046837284-pct00250
에 대하여 구현되는 경우, 성형 필터는 이에 따라 하기에 의해 주어진 E65에서 얻어진다.
Figure 112011046837284-pct00251
상수들
Figure 112011046837284-pct00252
,
Figure 112011046837284-pct00253
,
Figure 112011046837284-pct00254
Figure 112011046837284-pct00255
는 상기 마스킹 필터의 스펙트럼을 핏팅할 수 있도록 하는데, 특히 첫번째 2개는 상기 필터의 스펙트럼의 슬로프를 조정한다.
슬로프가 필터링되는 2개의 필터들을 캐스케이딩하여 형성되는 마스킹 필터가 이렇게 얻어지고, 포먼트 필터들이 디커플링되었다. 각 필터가 입력 신호의 스펙트럴 특성들의 함수로서 적응되는 이러한 모델링이 특히 여하한의 타입의 스펙트럴 슬로프를 나타내는 신호들에 적응된다. gN1 및 gN2가 제로인 경우에는, 제1의 근사화로서 충분한 2개의 오토리그레시브 필터들의 캐스케이드 마스킹 필터링이 얻어진다.
복잡성이 낮은 마스킹 필터의 예시적인 두번째 구현이 도 14를 참조하여 예시된다.
여기서의 원리는 상기 입력 신호의 슬로프에 의존하는 보상 필터에 의하여 적용되는 강조약화(deaccentuation)와 함께 상기 디코딩된 신호를 복원하기 위한 ARMA 필터의 합성 필터를 직접 사용하는 것이다.
상기 마스킹 필터에 대한 식은 하기에 의해 주어진다.
Figure 112011046837284-pct00256
G.722, G.726 및 G.727 규격들에 있어서는, ADPCM ARMA 예측부가 분모의 2 계수들을 소유한다. 이 경우, E71에서 연산된 보상 필터는 하기 형태일 것이다.
Figure 112011046837284-pct00257
그리고, E70에 주어진 필터들
Figure 112011046837284-pct00259
는 E72에 주어진 댐핑 상수 gZ1 및 gP1에 의해 제한된 그들의 버전으로 교체될 것이므로, 하기 형태의 잡음 성형 필터를 제공하게 된다.
Figure 112011046837284-pct00260
Figure 112011046837284-pct00261
을 취함으로써,
ARMA 셀로 구성되는 마스킹 필터의 단순화된 형태가 얻어진다.
마스킹 필터의 매우 단순한 또다른 형태는 약간의 댐핑에 의해 ARMA 예측부의 분모만을 취하여 얻어지는 것이다.
Figure 112011046837284-pct00262
단, 예컨대 gP = 0.92이다.
이러한 신호의 부분 복원을 위한 AR 필터는 복잡성을 저감시킨다.
특정 실시예에 있어서 그리고 각 샘플링 인스턴트에서 필터들을 적응시키는 것을 회피하기 위해서는, 평활 효과(smoothing effect)를 보존하기 위하여 프레임당 몇 배 또는 단일 프레임 상에서 댐핑될 필터의 계수들을 프리즈(freeze)시킬 수 있을 것이다.
상기 평활을 행하는 한 가지 방식은, 상기 양자화기의 입력에서 상기 신호 상의 다이나믹 스윙(dynamic swing)으로 또는 상기 양자화기의 출력에서 인덱스들에 대하여 직접적으로 최소 복잡성의 등가인 방식으로 갑작스런 변동(abrupt variation)들을 검출하는 것이다. 인덱스들의 2가지 갑작스런 변동들 사이에서 스펙트럴 특성들이 덜 변동하는 구역이 얻어지므로, ADPCM 계수들과 함께 마스킹을 목적으로 보다 양호하게 적응된다.
상기 양자화 잡음의 장기 성형에 대한 상기 셀들의 계수들의 연산, 즉
Figure 112011046837284-pct00263
은 보이스 사운드들에 대한 주기적 성분을 포함하는 상기 양자화기의 입력 신호를 기초로 하여 행하여진다. 주기적 신호들, 특히 보이스 스피치 신호들에 대한 품질의 가치 있는 증대를 얻고자 한다면, 장기 잡음 성형이 중요하다는 것에 주목할 수도 있다. 이는 사실상 그 합성 모델이 여하한의 장기 예측부를 포함하지 않는 코더들에 대한 주기적 신호들의 주기성을 고려하는 유일한 방식이다.
상기 피치 주기는 예컨대 상관 계수를 최대화하여, 도 8의 양자화기 QB의 입력 eB(n)에서 장기 쿼드러틱 예측 에러를 최소화함으로써 연산된다.
Figure 112011046837284-pct00264
Pitch는 다음과 같다.
Figure 112011046837284-pct00265
상기 마스킹 필터들을 생성하는데 사용되는 피치 예측 게인
Figure 112011046837284-pct00266
는 하기에 의하여 주어진다.
Figure 112011046837284-pct00267
상기 장기 마스킹 필터의 계수들은 하기에 의해 주어질 것이다.
Figure 112011046837284-pct00268
그리고
Figure 112011046837284-pct00269
상기 피치의 값의 연산의 복잡성을 저감시키는 방식이 ITU-T G.711.1 규격 "Wideband embedded extension for G.711 pulse code modulation"의 도 8-4에 기재되어 있다.
도 15는 본 발명에 따른 코더의 제2실시예를 제안한다.
본 실시예는 코어 코딩 스테이지 및 인핸스먼트 코딩 스테이지들 양자 모두에 대하여, 도 8을 참조하여 기술된 필터링 모듈들 대신에 예측 모듈들을 사용한다.
본 실시예에 있어서, 코어 양자화 잡음 성형을 갖는 ADPCM 타입의 코더는, 입력 신호 x(n)와 낮은 비트레이트 합성 신호 rB(n) 간의 차이인 복원 잡음
Figure 112011046837284-pct00270
을 예측하기 위한 예측 모듈(1505) 및 상기 예측을 상기 입력 신호 x(n)에 가산하기 위한 가산 모듈(1510)을 포함한다.
또한 상기 복원된 신호
Figure 112011046837284-pct00271
및 낮은 비트레이트 양자화 인덱스
Figure 112011046837284-pct00272
를 통해 양자화된 에러 신호
Figure 112011046837284-pct00273
의 앞선 샘플들을 기초로 하여 예측을 실시하는, 도 8을 참조하여 기술된 것과 동일한 신호
Figure 112011046837284-pct00274
에 대한 예측 모듈(810)을 포함하기도 한다. 상기 수정된 입력 신호 x(n)로부터 예측
Figure 112011046837284-pct00275
을 감산하기 위한 감산 모듈(1520)은 예측 에러 신호를 제공한다.
상기 코어 코더는 또한 상기 양자화 잡음
Figure 112011046837284-pct00276
의 앞선 샘플들을 기초로 하여 실시된 잡음 예측을 연산하기 위한 모듈
Figure 112011046837284-pct00277
(1530) 및 e B (n)로 표시된 에러 신호를 얻기 위하여 예측 에러 신호로부터 이렇게 얻어진 예측을 감산하기 위한 감산 모듈(1540)을 포함하기도 한다.
1550에서 코어 양자화 모듈 QB는 쿼드러틱 에러 기준
Figure 112011046837284-pct00278
의 최소화를 수행하되, 여기서 상기 값들
Figure 112011046837284-pct00279
는 복원 레벨들이고, v(n)은 상기 양자화기 적응 모듈(1560)에 기인하는 스케일 팩터이다. 상기 양자화 모듈은 입력으로서 에러 신호
Figure 112011046837284-pct00280
를 수신하여, 출력으로서 양자화 인덱스들 IB(n) 및 양자화된 신호
Figure 112011046837284-pct00281
를 제공하게 된다. G.722에 대한 예시에 의하면, 상기 코어 양자화기 QB의 복원 레벨들은 X. Maitre. "7 kHz audio coding within 64 kbit/s". IEEE Journal on Selected Areas in Communication, Vol.6-2, February 1988.에 의한 아티클의 테이블 VI에 의해 정의된다.
상기 양자화 모듈 QB의 출력에서 B 비트들의 양자화 인덱스 IB(n)는, 도 7을 참조하여 기술된 바와 같이 상기 전송 채널(840)을 통해 디코더에 전송되기 전에 상기 인핸스먼트 비트들 J 1 ,..., J k 와 함께 830에서 멀티플렉싱될 것이다.
상기 양자화 잡음을 연산하기 위한 모듈(1570)은 상기 양자화기의 입력과 상기 양자화기의 출력 간의 차이
Figure 112011046837284-pct00282
를 계산한다.
모듈(1580)은 상기 신호의 예측을 상기 양자화된 에러에 가산하여 복원된 신호
Figure 112011046837284-pct00283
를 연산한다.
상기 양자화기의 적응 모듈 Q Adapt (1560)은 하기 인스턴트에 대한 스케일 팩터라고도 불리우는 레벨 제어 파라미터 v(n)을 제공한다.
상기 예측 모듈의 적응 모듈 P Adapt (811)은 상기 복원된 신호
Figure 112011046837284-pct00284
의 과거 샘플들 및 상기 복원된 양자화된 에러 신호
Figure 112011046837284-pct00285
를 기초로 하여 적응을 수행한다.
상기 인핸스먼트 스테이지 EAk는 앞선 스테이지에서 복원된 신호
Figure 112011046837284-pct00286
를 상기 입력 신호 x(n)로부터 감산하여 신호
Figure 112011046837284-pct00287
를 제공하기 위한 모듈 EAk-10을 포함한다.
상기 신호
Figure 112011046837284-pct00288
의 필터링은 필터
Figure 112011046837284-pct00289
에 의하여 필터링 모듈 EAk-11에 의해 행하여져 필터링된 신호
Figure 112011046837284-pct00290
를 제공하게 된다.
예측 신호
Figure 112011046837284-pct00291
를 연산하기 위한 모듈 EAk-12 또한 제공되는데, 상기 연산은
Figure 112011046837284-pct00292
에 의해 필터링된 상기 신호의 샘플들 및 양자화된 에러 신호
Figure 112011046837284-pct00293
의 양자화된 앞선 샘플들을 기초로 하여 행하여진다. 상기 인핸스먼트 스테이지 EA-k 또한 상기 신호
Figure 112011046837284-pct00294
로부터 예측
Figure 112011046837284-pct00295
을 감산하여 타겟 신호
Figure 112011046837284-pct00296
를 제공하기 위한 감산 모듈 EA-k13을 포함한다.
상기 인핸스먼트 양자화 모듈 EAk-14
Figure 112011046837284-pct00297
는 쿼드러틱 에러 기준을 최소화하는 단계를 수행한다.
Figure 112011046837284-pct00298
상기 모듈은 입력으로서 신호
Figure 112011046837284-pct00299
를 수신하고, 상기 양자화된 신호
Figure 112011046837284-pct00300
를 제1출력으로 그리고 인덱스 Jk를 제2출력으로 제공한다.
B+k 비트들을 갖는 임베디드 양자화기의 복원된 레벨들은 B+k-1 비트들을 갖는 2개의 양자화기의 임베디드 출력 레벨들로 분할시켜 연산된다. 이들 B+k 비트들을 갖는 임베디드 양자화기의 복원된 레벨들과 B+k-1 비트들을 갖는 양자화기의 복원된 레벨들 간의 차이 값들이 연산된다. 상기 차이 값들
Figure 112011046837284-pct00301
은 그 후에 프로세서 메모리에서 모두에 대하여 한 번 저장되고, 앞선 스테이지들의 인핸스먼트 양자화기들의 인덱스들 및 상기 코어 양자화 인덱스의 조합에 의해 인덱싱된다.
따라서 이들 차이 값들은 스테이지 k의 양자화 모듈에 의해 사용되는 딕셔너리(dictionary)를 구성하여 가능성 있는 양자화 값들을 얻게 된다.
상기 앞선 스테이지에서 복원된 신호에 선행 신호를 가산하기 위한 모듈 EAk-16 뿐만 아니라, 상기 양자화기의 출력에서의 신호
Figure 112011046837284-pct00302
를 상기 예측
Figure 112011046837284-pct00303
에 가산하기 위한 가산 모듈 EAk-15 또한 인핸스먼트 스테이지 k 안으로 통합되어 스테이지 k에서의 복원된 신호
Figure 112011046837284-pct00304
를 제공하게 된다.
도 8을 참조하여 기술된 코더에 대해서도, 앞서 상세히 설명된 모듈 Calc Mask(850)는 입력 신호(도 13)을 기초로 하여 또는 도 14를 참조하여 설명된 ADPCM 합성 필터들의 계수들을 기초로 하여 상기 마스킹 필터를 제공한다.
따라서, 인핸스먼트 스테이지 k는 현재 샘플에 대한 하기 단계들, 즉
- 앞선 인핸스먼트 코딩 스테이지의 인핸스먼트 코딩에 기인하는 복원된 신호
Figure 112011046837284-pct00305
및 상기 계층적 코딩의 입력 신호 x(n) 간의 차이를 연산하여 차이 신호
Figure 112011046837284-pct00306
를 획득하는 단계;
- 소정의 마스킹 필터 W(z)에 의해 상기 차이 신호를 필터링하는 단계;
- 타겟 신호
Figure 112011046837284-pct00307
를 획득하기 위하여 상기 필터링된 차이 신호
Figure 112011046837284-pct00308
로부터 상기 예측 신호
Figure 112011046837284-pct00309
를 감산하는 단계;
- 상기 양자화 단계에 기인하는 신호
Figure 112011046837284-pct00310
에 상기 신호
Figure 112011046837284-pct00311
를 가산하여
Figure 112011046837284-pct00312
에 의해 필터링된 양자화기의 출력에서의 신호를 연산하는 단계;
- 앞선 필터링된 신호 및 앞선 인핸스먼트 코딩 스테이지의 인핸스먼트 코딩에 기인하는 복원된 신호를 가산하여 현재 샘플에 대한 복원된 신호
Figure 112011046837284-pct00313
를 연산하는 단계.
도 15는 간단한 설명을 목적으로 단 하나의 ARMA 셀로 이루어지는 마스킹 필터에 대하여 주어진다. 캐스케이드 내의 몇 개의 ARMA 셀들에 대한 일반화는 도 9 및 도 10에서 그리고 수학식 7 내지 17에 의해 기술된 방식에 따라 이루어질 것이라는 점을 알 수 있다.
상기 마스킹 필터가
Figure 112011046837284-pct00314
타입의 단 하나의 셀만을 포함하는 경우, 다시 말해
Figure 112011046837284-pct00315
이면, 컨트리뷰션(contribution)
Figure 112011046837284-pct00316
Figure 112011046837284-pct00317
또는 그 이상으로부터 도출될 것이고, 상기 양자화기의 입력 신호는 하기에 의해 EAk-11 및 EAk-13을 대체하여 주어질 것이다.
Figure 112011046837284-pct00318
캐스케이드 내의 몇 개의 셀들 AR에 대한 일반화는 도 9 및 도 10에서 그리고 수학식 7 내지 17에 의해 기술된 방식에 따라 이루어질 것이라는 점을 알 수 있다.
도 16은 본 발명의 제3실시예를 나타내는데, 이 때는 PCM 타입의 코어 코딩 스테이지를 가진다. 상기 코어 코딩 스테이지(1600)는, 필터링된 잡음
Figure 112011046837284-pct00319
및 G.711 규격화된 PCM 양자화 잡음
Figure 112011046837284-pct00320
의 앞선 샘플들을 기초로 하여 잡음
Figure 112011046837284-pct00321
의 예측을 연산하는 예측 모듈 Pr(z)(1610)에 의한 코딩 잡음의 성형을 포함한다.
도 16의 블럭들 1610, 1620, 1640 및 1650에 대응하는 코어 코딩의 잡음 성형은 선택적이라는 점에 유의한다. 도 16에 제시된 바와 같은 본 발명은 상기 블럭 1630에 대하여 저감된 PCM 코어 코딩에 대해서도 적용된다.
모듈(1620)은 상기 입력 신호 x(n)에 대한 상기 예측
Figure 112011046837284-pct00322
의 가산을 실시하여 e(n)으로 표시되는 에러 신호를 얻게 된다.
코어 양자화 모듈
Figure 112011046837284-pct00323
(1630)은 상기 에러 신호 e(n)를 입력으로서 수신하여 양자화 인덱스들 IB(n)를 제공하게 된다. 상기 최적의 양자화 인덱스 IB(n) 및 양자화된 값
Figure 112011046837284-pct00324
은 상기 에러 기준
Figure 112011046837284-pct00325
을 최소화하는데, 여기서 상기 값들
Figure 112011046837284-pct00326
은 G.711 PCM 양자화기의 복원 레벨들이다.
예시를 통하여, B=8에 대하여 G.711 표준의 코어 양자화기
Figure 112011046837284-pct00327
의 복원 레벨들은 ITU-T 권고 G.711, "Pulse Code Modulation(PCM) of voice frequencies"의 A-규칙에 대한 테이블 1a 및 μ-규칙에 대한 테이블 2a에 의해 정의된다.
상기 양자화 모듈
Figure 112011046837284-pct00328
의 출력에서 B 비트들의 양자화 인덱스 IB(n)는, 상기 전송 채널(840)를 통해 G.711 타입의 스탠더드 디코더에 전송되기 전에 상기 인핸스먼트 비트들
Figure 112011046837284-pct00329
과 함께 830에서 연접될 것이다.
상기 양자화 잡음을 연산하기 위한 모듈(1640)은, 상기 PCM 양자화기의 입력과 상기 양자화된 출력 간의 차이
Figure 112011046837284-pct00330
를 계산한다.
상기 필터링된 양자화 잡음을 연산하기 위한 모듈(1650)은 상기 양자화 잡음의 예측에 대한 상기 양자화 잡음의 가산
Figure 112011046837284-pct00331
을 행한다.
상기 인핸스먼트 코딩은, 중간 비트레이트들에 대한 복원 잡음의 최적의 성형을 유지하면서, 양자화 비트들을 연속해서 가산하여 디코딩된 신호의 품질을 증대시키는데 특징이 있다.
인핸스먼트 PCM 비트 Jk 또는 비트들의 그룹
Figure 112011046837284-pct00332
을 얻을 수 있게 하는 스테이지 k는 블럭 EAk에 의해 기술된다.
이러한 인핸스먼트 코딩 스테이지는 도 8을 참조하여 기술된 것과 유사하다.
이는 상기 샘플들
Figure 112011046837284-pct00333
에 대한 스테이지 k에서 합성된 신호
Figure 112011046837284-pct00334
및 인스턴트 n에 대한 스테이지 k-1에서 합성된 신호
Figure 112011046837284-pct00335
로 형성되는 신호 r B +k (n)로부터 상기 입력 신호 x(n)를 감산하여 코딩 에러 신호
Figure 112011046837284-pct00336
를 제공하기 위한 감산 모듈 EAk-1을 포함한다.
이는 또한 필터링된 신호
Figure 112011046837284-pct00337
를 제공하기 위하여 상기 마스킹 필터 H M (z)의 인버스와 같은 웨이팅 함수 W(z)에 의해
Figure 112011046837284-pct00338
를 필터링하기 위한 필터링 모듈 EAk-2를 포함한다.
상기 양자화 모듈 EAk-3은, 앞선 단계의 PCM 인덱스
Figure 112011046837284-pct00339
와 연접될 최적의 PCM 비트 Jk의 값을 제1출력으로서 그리고 상기 최적의 PCM 비트 Jk에 대한 인핸스먼트 양자화기의 출력 신호를 제2출력
Figure 112011046837284-pct00340
으로서 하여, 인핸스먼트 양자화
Figure 112011046837284-pct00341
를 실시하는 j = 0,1에 대하여 상기 에러 기준
Figure 112011046837284-pct00342
의 최소화를 행한다.
앞선 단계에서 합성된 신호
Figure 112011046837284-pct00343
에 상기 양자화된 에러 신호
Figure 112011046837284-pct00344
를 가산하기 위한 가산 모듈 EAk-4는 단계 k에서의 합성된 신호
Figure 112011046837284-pct00345
를 제공한다. 상기 신호
Figure 112011046837284-pct00346
및 상기 필터의 메모리들은 도 6 및 도 8에 대해 앞서 기술된 바와 같이 적응된다.
도 8 및 도 15를 참조하여 기술된 것과 동일한 방식으로, 상기 모듈(850)은 상기 코어 코딩 및 상기 인핸스먼트 코딩 양자 모두를 위해 사용되는 마스킹 필터를 연산한다.
도 8, 도 15 또는 도 16에 제시된 계층적 코더의 다른 버전들을 고찰할 수 있다. 변형예에 있어서, 상기 인핸스먼트 코딩에서 가능성 있는 양자화 값들의 수는 코딩된 샘플마다 변한다. 상기 인핸스먼트 코딩은 코딩될 샘플들의 함수로서 가변적인 비트수를 사용한다. 인핸스먼트 비트들의 할당된 수는 고정된 또는 가변적인 할당 규칙에 따라 적응될 수도 있다. 가변적인 할당의 일례는 예컨대 ITU-T G.711.1 규격에서 저대역의 인핸스먼트 PCM 코딩에 의해 주어진다. 바람직하게는, 할당 알고리듬(가변적인 경우)이 리모트 디코더에 대해 이용가능한 정보를 이용하여야만 하므로, 추가적인 정보가 전송될 필요가 없게 되는데, 이는 예컨대 ITU-T G.711.1 규격에 있는 경우이다.
이와 유사하게, 또다른 변형예에 있어서는, 상기 인핸스먼트 코딩에서 스칼라 양자화 인덱스들 (J k (n))을 제공하는 인핸스먼트 신호의 코딩된 샘플들의 수가 상기 입력 신호의 샘플들의 수보다 적을 수도 있다. 이러한 변형예는 인핸스먼트 비트들의 할당된 수가 소정의 샘플들에 대하여 제로로 설정되는 경우에 앞선 변형예로부터 도출된다.
이하, 본 발명에 따른 코더의 예시적인 실시예를 도 17을 참조하여 설명한다.
하드웨어의 관점에서는, 본 발명의 기술적 사상 내에서 제1, 제2 또는 제3실시예에 따라 기술된 바와 같은 코더는 통상적으로 저장 및/또는 워크 메모리를 포함하는 메모리 블럭 BM과 협력하는 프로세서 μP 뿐만 아니라, 예컨대 선행 코딩 스테이지들의 양자화 값들이나 그 밖에 양자화 복원들의 레벨들의 딕셔너리를 저장하기 위한 수단의 양식에서 상술된 버퍼 메모리 MEM 또는 도 6, 도 8, 도 15 및 도 16을 참조하여 기술된 바와 같은 코딩 방법의 구현에 필요한 여타의 데이터를 포함한다. 이러한 코더는 디지털 신호 x(n)의 연속적인 프레임들을 입력으로서 수신하고, 연접된 양자화 인덱스들 IB +K를 전달한다.
상기 메모리 블럭 BM은, 명령들이 상기 코더의 프로세서 μP 에 의해 실행되는 경우 본 발명에 따른 방법의 단계들의 구현을 위한 코드 명령들 및 특히 코어 비트레이트라 하는 소정의 비트레이트를 갖는 코딩을 포함하고, 인핸스먼트 신호의 각각의 코딩된 샘플에 대한 스칼라 양자화 인덱스들을 전달하는 적어도 하나의 인핸스먼트 코딩 및 현재 프레임의 각 샘플에 대한 스칼라 양자화 인덱스를 전달하는 컴퓨터 프로그램을 포함할 수 있다. 이러한 인핸스먼트 코딩은 타겟 신호를 결정하는데 사용되는 코딩 잡음을 성형하기 위한 필터를 획득하는 단계를 포함한다. 상기 인핸스먼트 신호의 스칼라 양자화의 인덱스들은 상기 타겟 신호와 스칼라 양자화의 가능성 있는 값들의 세트 간의 에러를 최소화하여 결정된다.
보다 일반적으로는, 코더와 일체형으로 또는 일체형이 아닐 수도 있고, 선택적으로는 제거될 수도 있는 컴퓨터 또는 프로세서에 의해 판독가능한 저장수단이 본 발명에 따른 코딩 방법을 구현하는 컴퓨터 프로그램을 저장한다.
도 8, 도 15 또는 도 16은 예컨대 이러한 컴퓨터 프로그램의 알고리듬을 예시할 수 있다.

Claims (15)

  1. 입력 신호의 현재 프레임에 대하여,
    상기 현재 프레임의 각각의 샘플에 대한 스칼라 양자화 인덱스(IB(n))를 제공하는 코어 코딩, 및
    인핸스먼트 신호(
    Figure 112013069216743-pct00385
    )의 각각의 코딩된 샘플에 대한 스칼라 양자화(
    Figure 112013069216743-pct00386
    )의 인덱스들(
    Figure 112013069216743-pct00387
    )을 제공하는 적어도 하나의 인핸스먼트 코딩을 포함하는 디지털 오디오 신호의 계층적 코딩의 방법으로서,
    상기 인핸스먼트 코딩은, 타겟 신호를 결정하는데 사용되는 잡음 성형 필터(W(z))를 획득하는 단계를 포함하고, 상기 인핸스먼트 신호의 상기 스칼라 양자화(
    Figure 112013069216743-pct00388
    (n))의 인덱스들(
    Figure 112013069216743-pct00389
    )은 상기 현재 프레임의 각각의 샘플에 대한 가능성 있는 스칼라 양자화의 값들의 세트 중에서 상기 타겟 신호에 가장 근접한 하나의 값으로 결정되는,
    디지털 오디오 신호의 계층적 코딩의 방법.
  2. 제1항에 있어서,
    현재 인핸스먼트 코딩 스테이지에 대한 상기 타겟 신호의 결정은, 현재 샘플에 대한 하기 단계들, 즉
    계층적 코딩의 상기 입력 신호로부터 과거 샘플들에 대한 상기 현재 인핸스먼트 코딩 스테이지의 복원된 신호 및 상기 현재 샘플에 대한 앞선 인핸스먼트 코딩 스테이지의 복원된 신호를 감산(subtracting)함으로써 인핸스먼트 코딩 에러 신호(eB+k(n))를 획득하는 단계;
    상기 타겟 신호(
    Figure 112013069216743-pct00390
    )를 획득하기 위하여 상기 잡음 성형 필터(W(z))를 이용하여 상기 인핸스먼트 코딩 에러 신호를 필터링하는 단계;
    결정된 상기 인덱스들에 대응하는 스칼라 양자화 단계의 출력 및 앞선 인핸스먼트 코딩 스테이지로부터의 복원된 신호(
    Figure 112013069216743-pct00391
    )의 가산에 의하여 상기 현재 샘플에 대한 상기 현재 인핸스먼트 코딩 스테이지의 복원된 신호(
    Figure 112013069216743-pct00392
    )를 획득하는 단계;
    상기 잡음 성형 필터의 메모리들에, 결정된 상기 인덱스들에 대응하는 상기 스칼라 양자화 단계의 출력을 인가시키는 단계를 포함하는,
    디지털 오디오 신호의 계층적 코딩의 방법.
  3. 제1항에 있어서,
    상기 현재 샘플에 대한 에러 신호의 양자화 값 및 상기 현재 프레임의 각각의 샘플에 대한 상기 가능성 있는 스칼라 양자화 값들의 세트는, 상기 코어 코딩으로부터 제공되는 스칼라 양자화 인덱스로부터 연산된 레벨 제어 파라미터에 의해 스케일링된, 양자화 복원 레벨들을 나타내는 값들인,
    디지털 오디오 신호의 계층적 코딩의 방법.
  4. 제3항에 있어서,
    인핸스먼트 스테이지 k에 대한 양자화 복원 레벨들을 나타내는 값들은, B+k 비트들을 갖는 임베디드 양자화기의 양자화의 복원 레벨들을 나타내는 값들 ― B는 상기 코어 코딩의 비트수를 나타냄 ― 및 B+k-1 비트들을 갖는 임베디드 양자화기의 양자화 복원 레벨들을 나타내는 값들 간의 차이로 정의되되, 상기 B+k 비트들을 갖는 임베디드 양자화기의 복원 레벨들은 상기 B+k-1 비트들을 갖는 임베디드 양자화기의 복원 레벨들을 둘로 분할하여 정의되는,
    디지털 오디오 신호의 계층적 코딩의 방법.
  5. 제4항에 있어서,
    상기 인핸스먼트 스테이지 k에 대한 양자화 복원 레벨들을 나타내는 값들은 메모리 공간에 저장되고, 앞선 인핸스먼트 스테이지의 양자화 인덱스들과 상기 코어 코딩으로부터 제공된 상기 스칼라 양자화 인덱스들의 함수로서 인덱싱되는,
    디지털 오디오 신호의 계층적 코딩의 방법.
  6. 제1항에 있어서,
    가능성 있는 스칼라 양자화의 값들의 수는 각 샘플마다 변하는,
    디지털 오디오 신호의 계층적 코딩의 방법.
  7. 제1항에 있어서,
    상기 스칼라 양자화 인덱스들(
    Figure 112012108000477-pct00356
    )을 제공하는 상기 인핸스먼트 신호의 코딩된 샘플들의 수는 상기 입력 신호의 샘플들의 수보다 적은,
    디지털 오디오 신호의 계층적 코딩의 방법.
  8. 제1항에 있어서,
    상기 코어 코딩은 스칼라 양자화 및 예측 필터를 이용하는 ADPCM 코딩인,
    디지털 오디오 신호의 계층적 코딩의 방법.
  9. 제1항에 있어서,
    상기 코어 코딩은 PCM 코딩인,
    디지털 오디오 신호의 계층적 코딩의 방법.
  10. 제8항 또는 제9항에 있어서,
    상기 코어 코딩은 나아가 현재 샘플에 대한 하기 단계들, 즉
    소정의 잡음 성형 필터에 의해 필터링된 양자화 잡음의 과거 샘플들 및 과거 양자화 잡음 샘플들로부터 코딩 잡음에 대한 예측 신호(
    Figure 112013069216743-pct00393
    )를 획득하는 단계;
    양자화될 수정된 입력 신호를 획득하기 위하여 상기 코딩 잡음에 대한 예측 신호의 가산에 의하여 상기 코어 코딩의 상기 입력 신호를 계산하는 단계를 포함하는,
    디지털 오디오 신호의 계층적 코딩의 방법.
  11. 제10항에 있어서,
    상기 인핸스먼트 코딩에 의해 사용되는 상기 잡음 성형 필터(W(z))는 또한 상기 코어 코딩에 의해 사용되는,
    디지털 오디오 신호의 계층적 코딩의 방법.
  12. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 잡음 성형 필터는 상기 입력 신호의 함수로서 획득되는,
    디지털 오디오 신호의 계층적 코딩의 방법.
  13. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 잡음 성형 필터는 상기 코어 코딩에 의해 국부적으로 디코딩되는 신호를 기초로 하여 획득되는,
    디지털 오디오 신호의 계층적 코딩의 방법.
  14. 입력 신호의 현재 프레임에 대한 디지털 오디오 신호의 계층적 코더로서,
    상기 현재 프레임의 각 샘플에 대한 스칼라 양자화 인덱스(
    Figure 112013069216743-pct00394
    )를 제공하는, 코어 코딩 스테이지(800, 1500, 1600); 및
    인핸스먼트 신호의 각각의 코딩된 샘플에 대한 스칼라 양자화(
    Figure 112013069216743-pct00395
    )의 인덱스들(
    Figure 112013069216743-pct00396
    )을 제공하는 적어도 하나의 인핸스먼트 코딩 스테이지(EA-k)를 포함하고,
    상기 인핸스먼트 코딩 스테이지는, 타겟 신호를 결정하는데 사용되는 잡음 성형 필터(W(z))를 획득하기 위한 모듈(850) 및 상기 현재 프레임의 각각의 샘플에 대한 가능성 있는 스칼라 양자화의 값들의 세트 중에서 상기 타겟 신호에 가장 근접한 하나의 값으로서 상기 인핸스먼트 신호의 상기 스칼라 양자화(
    Figure 112013069216743-pct00397
    (n))의 인덱스들(
    Figure 112013069216743-pct00398
    )을 제공하기 위한 양자화 모듈(EAk-3, EAk-4)을 포함하는,
    디지털 오디오 신호의 계층적 코더.
  15. 하기 명령들이 프로세서에 의해 실행되는 경우, 제1항 내지 제9항 중 어느 한 항에 따른 코딩 방법의 단계들의 구현을 위한 프로그램 코드 명령들을 포함하는 컴퓨터 판독가능한 매체.
KR1020117014240A 2008-11-18 2009-11-17 계층적 코더 내에 잡음 성형을 구비한 코딩 KR101339857B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0857839A FR2938688A1 (fr) 2008-11-18 2008-11-18 Codage avec mise en forme du bruit dans un codeur hierarchique
FR0857839 2008-11-18
PCT/FR2009/052194 WO2010058117A1 (fr) 2008-11-18 2009-11-17 Codage de signal audionumerique avec mise en forme du bruit dans un codeur hierarchique

Publications (2)

Publication Number Publication Date
KR20110095387A KR20110095387A (ko) 2011-08-24
KR101339857B1 true KR101339857B1 (ko) 2013-12-10

Family

ID=40661226

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117014240A KR101339857B1 (ko) 2008-11-18 2009-11-17 계층적 코더 내에 잡음 성형을 구비한 코딩

Country Status (7)

Country Link
US (1) US8965773B2 (ko)
EP (1) EP2366177B1 (ko)
JP (1) JP5474088B2 (ko)
KR (1) KR101339857B1 (ko)
CN (1) CN102282611B (ko)
FR (1) FR2938688A1 (ko)
WO (1) WO2010058117A1 (ko)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
FR2961980A1 (fr) * 2010-06-24 2011-12-30 France Telecom Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
FR2969360A1 (fr) * 2010-12-16 2012-06-22 France Telecom Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique
FR2972875A1 (fr) * 2011-03-17 2012-09-21 France Telecom Procede et dispositif de filtrage lors d'un changement de filtre arma
JP6079230B2 (ja) * 2012-12-28 2017-02-15 株式会社Jvcケンウッド 付加情報挿入装置、付加情報挿入方法、付加情報挿入プログラム、付加情報抽出装置、付加情報抽出方法、及び付加情報抽出プログラム
BR112015017632B1 (pt) 2013-01-29 2022-06-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Aparelho e método para gerar um sinal melhorado da frequência utilizando nivelamento temporal de sub-bandas
US9723305B2 (en) 2013-03-29 2017-08-01 Qualcomm Incorporated RTP payload format designs
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9854377B2 (en) 2013-05-29 2017-12-26 Qualcomm Incorporated Interpolation for decomposed representations of a sound field
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
EP3998605A1 (en) * 2014-06-10 2022-05-18 MQA Limited Digital encapsulation of audio signals
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US10699725B2 (en) 2016-05-10 2020-06-30 Immersion Networks, Inc. Adaptive audio encoder system, method and article
US10770088B2 (en) 2016-05-10 2020-09-08 Immersion Networks, Inc. Adaptive audio decoder system, method and article
US10756755B2 (en) 2016-05-10 2020-08-25 Immersion Networks, Inc. Adaptive audio codec system, method and article
AU2017262757B2 (en) * 2016-05-10 2022-04-07 Immersion Services LLC Adaptive audio codec system, method, apparatus and medium
EP3738074A4 (en) 2018-01-08 2021-10-13 Immersion Networks, Inc. PROCESSES AND APPARATUS FOR THE PRODUCTION OF REGULAR REPRESENTATIONS OF A MOVEMENT OF ENTRY IN TIME AND SPACE
US10763885B2 (en) 2018-11-06 2020-09-01 Stmicroelectronics S.R.L. Method of error concealment, and associated device
US11380343B2 (en) 2019-09-12 2022-07-05 Immersion Networks, Inc. Systems and methods for processing high frequency audio signal
KR102491948B1 (ko) * 2021-06-04 2023-01-27 한국 천문 연구원 단일 gnss 수신기를 이용한 고위도 전리권 플라즈마 불균질 수평방향 속력 결정 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09179592A (ja) * 1995-12-21 1997-07-11 Kokusai Electric Co Ltd 可変レート音声符号化方式とその装置
WO2007093726A2 (fr) 2006-02-14 2007-08-23 France Telecom Dispositif de ponderation perceptuelle en codage/decodage audio
US20070208557A1 (en) 2006-03-03 2007-09-06 Microsoft Corporation Perceptual, scalable audio compression

Family Cites Families (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3688097A (en) * 1970-05-20 1972-08-29 Bell Telephone Labor Inc Digital attenuator for non-linear pulse code modulation signals
US4386237A (en) * 1980-12-22 1983-05-31 Intelsat NIC Processor using variable precision block quantization
DE3411962A1 (de) * 1983-03-31 1984-10-31 Sansui Electric Co., Ltd., Tokio/Tokyo Datenuebertragungseinrichtung
CA1220282A (en) * 1985-04-03 1987-04-07 Northern Telecom Limited Transmission of wideband speech signals
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
TW321810B (ko) * 1995-10-26 1997-12-01 Sony Co Ltd
FR2742568B1 (fr) 1995-12-15 1998-02-13 Catherine Quinquis Procede d'analyse par prediction lineaire d'un signal audiofrequence, et procedes de codage et de decodage d'un signal audiofrequence en comportant application
JPH10105194A (ja) * 1996-09-27 1998-04-24 Sony Corp ピッチ検出方法、音声信号符号化方法および装置
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
JPH11224099A (ja) * 1998-02-06 1999-08-17 Sony Corp 位相量子化装置及び方法
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US7423983B1 (en) * 1999-09-20 2008-09-09 Broadcom Corporation Voice and data exchange over a packet based network
US6931058B1 (en) * 2000-05-19 2005-08-16 Scientific-Atlanta, Inc. Method and apparatus for the compression and/or transport and/or decompression of a digital signal
US7161931B1 (en) * 1999-09-20 2007-01-09 Broadcom Corporation Voice and data exchange over a packet based network
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
DE60038251T2 (de) * 1999-12-13 2009-03-12 Broadcom Corp., Irvine Sprach-durchgangsvorrichtung mit sprachsynchronisierung in abwärtsrichtung
FI115329B (fi) * 2000-05-08 2005-04-15 Nokia Corp Menetelmä ja järjestely lähdesignaalin kaistanleveyden vaihtamiseksi tietoliikenneyhteydessä, jossa on valmiudet useisiin kaistanleveyksiin
SE0001727L (sv) * 2000-05-10 2001-11-11 Global Ip Sound Ab Överföring över paketförmedlade nät
WO2002045078A1 (en) * 2000-11-30 2002-06-06 Matsushita Electric Industrial Co., Ltd. Audio decoder and audio decoding method
US6614370B2 (en) * 2001-01-26 2003-09-02 Oded Gottesman Redundant compression techniques for transmitting data over degraded communication links and/or storing data on media subject to degradation
US6650762B2 (en) * 2001-05-31 2003-11-18 Southern Methodist University Types-based, lossy data embedding
SE521600C2 (sv) * 2001-12-04 2003-11-18 Global Ip Sound Ab Lågbittaktskodek
US6829579B2 (en) * 2002-01-08 2004-12-07 Dilithium Networks, Inc. Transcoding method and system between CELP-based speech codes
US7158572B2 (en) * 2002-02-14 2007-01-02 Tellabs Operations, Inc. Audio enhancement communication techniques
WO2003071522A1 (fr) * 2002-02-20 2003-08-28 Matsushita Electric Industrial Co., Ltd. Procede de production de vecteur de source sonore fixe et table de codage de source sonore fixe
KR100711989B1 (ko) * 2002-03-12 2007-05-02 노키아 코포레이션 효율적으로 개선된 스케일러블 오디오 부호화
US7330812B2 (en) * 2002-10-04 2008-02-12 National Research Council Of Canada Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel
US7408918B1 (en) * 2002-10-07 2008-08-05 Cisco Technology, Inc. Methods and apparatus for lossless compression of delay sensitive signals
US20040208169A1 (en) * 2003-04-18 2004-10-21 Reznik Yuriy A. Digital audio signal compression method and apparatus
EP1619664B1 (en) * 2003-04-30 2012-01-25 Panasonic Corporation Speech coding apparatus, speech decoding apparatus and methods thereof
DE602004004950T2 (de) * 2003-07-09 2007-10-31 Samsung Electronics Co., Ltd., Suwon Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren
EP1513137A1 (en) * 2003-08-22 2005-03-09 MicronasNIT LCC, Novi Sad Institute of Information Technologies Speech processing system and method with multi-pulse excitation
US8446947B2 (en) * 2003-10-10 2013-05-21 Agency For Science, Technology And Research Method for encoding a digital signal into a scalable bitstream; method for decoding a scalable bitstream
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7392195B2 (en) * 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
US7921007B2 (en) * 2004-08-17 2011-04-05 Koninklijke Philips Electronics N.V. Scalable audio coding
US8170879B2 (en) * 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US7949520B2 (en) * 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
KR100707174B1 (ko) * 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
CN100592389C (zh) * 2008-01-18 2010-02-24 华为技术有限公司 合成滤波器状态更新方法及装置
US8036390B2 (en) * 2005-02-01 2011-10-11 Panasonic Corporation Scalable encoding device and scalable encoding method
US8102872B2 (en) * 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
KR100707184B1 (ko) * 2005-03-10 2007-04-13 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
JPWO2007043643A1 (ja) * 2005-10-14 2009-04-16 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
CN101395661B (zh) * 2006-03-07 2013-02-06 艾利森电话股份有限公司 音频编码和解码的方法和设备
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
KR101542069B1 (ko) * 2006-05-25 2015-08-06 삼성전자주식회사 고정 코드북 검색 방법 및 장치와 그를 이용한 음성 신호의부호화/복호화 방법 및 장치
US7933770B2 (en) * 2006-07-14 2011-04-26 Siemens Audiologische Technik Gmbh Method and device for coding audio data based on vector quantisation
CN101501761B (zh) * 2006-08-15 2012-02-08 杜比实验室特许公司 无需边信息对时域噪声包络的任意整形
JP2008170488A (ja) * 2007-01-06 2008-07-24 Yamaha Corp 波形圧縮装置、波形伸長装置、プログラムおよび圧縮データの生産方法
US8199835B2 (en) * 2007-05-30 2012-06-12 International Business Machines Corporation Systems and methods for adaptive signal sampling and sample quantization for resource-constrained stream processing
JP5618826B2 (ja) * 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
PL2171713T3 (pl) * 2007-06-15 2011-08-31 France Telecom Kodowanie cyfrowych sygnałów akustycznych
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
KR101476699B1 (ko) * 2007-07-06 2014-12-26 오렌지 디지털 오디오 신호들의 계층적 코딩
KR100912826B1 (ko) * 2007-08-16 2009-08-18 한국전자통신연구원 G.711 코덱의 음질 향상을 위한 향상 계층 부호화 및복호화 장치와 그 방법
US8271273B2 (en) * 2007-10-04 2012-09-18 Huawei Technologies Co., Ltd. Adaptive approach to improve G.711 perceptual quality
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
ES2592416T3 (es) * 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
GB2466668A (en) * 2009-01-06 2010-07-07 Skype Ltd Speech filtering
GB2465047B (en) * 2009-09-03 2010-09-22 Peter Graham Craven Prediction of signals
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
FR2961980A1 (fr) * 2010-06-24 2011-12-30 France Telecom Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
US9263049B2 (en) * 2010-10-25 2016-02-16 Polycom, Inc. Artifact reduction in packet loss concealment
FR2969360A1 (fr) * 2010-12-16 2012-06-22 France Telecom Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09179592A (ja) * 1995-12-21 1997-07-11 Kokusai Electric Co Ltd 可変レート音声符号化方式とその装置
WO2007093726A2 (fr) 2006-02-14 2007-08-23 France Telecom Dispositif de ponderation perceptuelle en codage/decodage audio
US20070208557A1 (en) 2006-03-03 2007-09-06 Microsoft Corporation Perceptual, scalable audio compression

Also Published As

Publication number Publication date
CN102282611B (zh) 2013-05-08
WO2010058117A1 (fr) 2010-05-27
FR2938688A1 (fr) 2010-05-21
EP2366177A1 (fr) 2011-09-21
JP2012509515A (ja) 2012-04-19
US20110224995A1 (en) 2011-09-15
CN102282611A (zh) 2011-12-14
KR20110095387A (ko) 2011-08-24
JP5474088B2 (ja) 2014-04-16
EP2366177B1 (fr) 2015-10-21
US8965773B2 (en) 2015-02-24

Similar Documents

Publication Publication Date Title
KR101339857B1 (ko) 계층적 코더 내에 잡음 성형을 구비한 코딩
RU2696292C2 (ru) Аудиокодер и декодер
KR102304285B1 (ko) 저-지연 인코딩/디코딩을 위한 보간에 의한 오디오 신호의 리샘플링
KR101344174B1 (ko) 오디오 신호 처리 방법 및 오디오 디코더 장치
CN1957398B (zh) 在基于代数码激励线性预测/变换编码激励的音频压缩期间低频加重的方法和设备
US8260620B2 (en) Device for perceptual weighting in audio encoding/decoding
CA2862715C (en) Multi-mode audio codec and celp coding adapted therefore
US8812327B2 (en) Coding/decoding of digital audio signals
KR20090104846A (ko) 디지털 오디오 신호에 대한 향상된 코딩/디코딩
EP2255358A1 (en) Scalable speech and audio encoding using combinatorial encoding of mdct spectrum
CN107481726A (zh) 对音频信号进行重采样以用于低延迟编码/解码
KR101610765B1 (ko) 음성 신호의 부호화/복호화 방법 및 장치
CN103370740B (zh) 分级编码器中的改善阶段的改善编码
KR20090036459A (ko) 계층형 광대역 오디오 신호의 부호화 방법 및 장치
KR20170132854A (ko) 오디오 인코더 및 오디오 신호를 인코딩하는 방법
JP5451603B2 (ja) デジタルオーディオ信号の符号化
Li et al. Audio codingwith power spectral density preserving quantization

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant