KR101698371B1 - 디지털 오디오 신호들의 개선된 코딩/디코딩 - Google Patents

디지털 오디오 신호들의 개선된 코딩/디코딩 Download PDF

Info

Publication number
KR101698371B1
KR101698371B1 KR1020127003321A KR20127003321A KR101698371B1 KR 101698371 B1 KR101698371 B1 KR 101698371B1 KR 1020127003321 A KR1020127003321 A KR 1020127003321A KR 20127003321 A KR20127003321 A KR 20127003321A KR 101698371 B1 KR101698371 B1 KR 101698371B1
Authority
KR
South Korea
Prior art keywords
coding
frequency
enhancement
function
masking threshold
Prior art date
Application number
KR1020127003321A
Other languages
English (en)
Other versions
KR20120032025A (ko
Inventor
데이비드 비레트테
스테판 라고트
발라즈 코베시
피에르 베르테
Original Assignee
오렌지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오렌지 filed Critical 오렌지
Publication of KR20120032025A publication Critical patent/KR20120032025A/ko
Application granted granted Critical
Publication of KR101698371B1 publication Critical patent/KR101698371B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 여러 개의 주파수 부대역들로 디지털 오디오 주파수 입력 신호를 계층적으로 코딩하는 방법에 관한 것으로, 상기 코딩은 제 1 스루풋에 따른 상기 입력 신호의 코어 코딩 및 잔차 신호의 더 높은 스루풋의 적어도 하나의 개선 코딩을 포함하고, 상기 코어 코딩은 에너지 기준에 따른 이진 할당(506)을 사용한다. 상기 방법은 개선 코딩을 위해 다음 단계들을 포함하게 된다:
- 상기 개선 코딩에 의해 처리되는 주파수 대역들의 적어도 일부에 대한 주파수 기반 마스킹 임계치의 계산(511);
- 계산된 마스킹 임계치의 함수로써 그리고 상기 코어 코딩을 위해 할당된 비트들의 수의 함수로써 주파수 부대역마다 지각적 중요도의 결정(512);
- 결정된 지각적 중요도의 함수로써, 상기 개선 코딩에 의해 처리되는 상기 주파수 부대역들에서 비트들의 이진 할당(512); 및
- 상기 비트 할당에 따른 상기 잔차 신호의 코딩(513).
본 발명은 또한 적당한 디코딩 방법, 코더 및 디코더에 관한 것이다.

Description

디지털 오디오 신호들의 개선된 코딩/디코딩{IMPROVED CODING/DECODING OF DIGITAL AUDIO SIGNALS}
본 발명은 사운드 데이터의 처리에 관한 것이다.
이 처리는 오디오 주파수 신호들(음성, 음악 등)과 같은 디지털 신호들의 송신 및/또는 저장에 특히 적합하다.
본 발명은 보다 구체적으로는 코어 비트레이트 및 하나 이상의 개선(improvement) 계층(들)을 포함하기 때문에 소위 "계층적" 이진 스트림을 생성하는 계층적 코딩(또는 "스케일링 가능(scalable)" 코딩)에 적용된다. 48, 56 및 64 kbit/s의 G.722 표준은 비트레이트-스케일링 가능 코덱의 예시인 한편, UIT-T G.729.1 코덱 및 MPEG-4 CELP 코덱은 비트레이트와 대역폭 둘의 관점에서 스케일링 가능한 코덱들의 예시들이다.
이후, 코딩될 오디오 신호에 관한 정보가 오디오 렌디션(rendition)의 품질의 관점에서 중요성의 순으로 사용될 수 있는 방식으로 이 정보를 계층화된 서브세트들로 분할함으로써 가변적 비트레이트들을 제공하는 능력을 갖는 계층적 코딩이 설명된다. 순서를 결정하기 위해 고려되는 기준은 코딩된 오디오 신호의 품질의 최적화의(또는 오히려 더 적은 열화의) 기준이다. 계층적 코딩은 이종의 네트워크들 또는 시변 가용 비트레이트들을 나타내는 네트워크들을 통한 송신, 또는 가변 성능들을 나타내는 단말들에 예정된 송신에 특히 적합하다.
계층적(또는 "스케일링 가능") 오디오 코딩의 기본 개념은 다음과 같이 설명될 수 있다.
이진 스트림은 기본 계층 및 하나 이상의 개선 계층들을 포함한다. 기본 계층은 "코어 코덱"으로 지칭되며 최소 코딩 품질을 보장하는 고정 비트레이트 코덱에 의해 생성된다. 이 계층은 용인할 수 있는 품질 레벨을 유지하도록 디코더에 의해 수신되어야 한다. 개선 계층들은 품질을 개선하는 역할을 한다. 그러나 개선 계층들이 디코더에 의해 모두 수신되지는 않는 경우가 발생할 수도 있다.
계층적 코딩의 주요 이점은 계층적 코딩이 단순히 "이진 스트림의 절단(truncation)"에 의한 비트레이트의 적응을 가능하게 한다는 점이다. (이진 스트림의 가능한 절단들의 수라고 하는) 계층들의 수는 코딩의 입상도(granularity)를 정의한다. 이진 스트림이 (대개 2 내지 4 정도의) 극소수의 계층들을 포함한다면 "고 입상도" 코딩이라 하고, 예를 들어 이진 스트림이 1 내지 2 kbit/s 정도의 증분을 허용한다면 "미세 입상도" 코딩이라 한다.
전화 대역 그리고 확장 대역의 하나 이상의 개선 계층(들)에서 CELP 타입의 코어 코더에 의한 비트레이트- 및 대역폭-스케일링 가능 코딩의 기술들은 이후에 더 구체적으로 설명된다. 이러한 시스템들의 예가 미세 입상도를 갖는 8 내지 32 kbit/s의 표준 UIT-T G.729.1로 주어진다. G.729.1 코딩/디코딩 알고리즘이 아래에 요약된다.
* G.729.1 코더에 관한 주의들
G.729.1 코더는 UIT-T G.729 코더의 확장이다. 이는 종래의 서비스들을 위한 8 내지 32 kbit/s의 비트레이트를 갖는, 협대역(50-4000㎐)에서부터 확장 대역(50-7000㎐)에 이르는 대역의 신호를 생성하는 수정된 G.729-코어 계층형 코더를 수반한다. 이 코덱은 G.729 코덱을 사용하는 기존의 VoIP(voice over IP) 장비와 호환 가능하다.
G.729.1 코더는 도 1에 도식적으로 도시된다. 16㎑로 샘플링된 확장 대역 입력 신호(s wb )는 처음에 QMF("직각 미러 필터(Quadrature Mirror Filter)") 필터링에 의해 2개의 부대역들로 분해된다. 저역 통과 필터링(LP)(블록(100)) 및 데시메이션(decimation)(블록(101))에 의해 저대역(0-4000㎐)이 얻어지고, 고역 통과 필터링(HP)(블록(102)) 및 데시메이션(블록(103))에 의해 고대역(4000-8000㎐)이 얻어진다. 필터들(LP, HP)은 길이가 64이다.
저대역은 8 및 12 kbit/s로의 협대역 CELP 코딩(블록(105)) 전에 50㎐ 미만의 성분들을 제거하는 고역 통과 필터(블록(104))에 의해 전처리되어 신호(s LB )를 얻는다. 이러한 고역 통과 필터링은 유용한 대역이 50-7000㎐ 구간을 커버하는 것으로 정의된다는 사실을 고려한다. 협대역 CELP 코딩은 전처리 필터 없이 수정된 G.729 코딩을 첫 번째 스테이지로서 그리고 추가적인 고정 CELP 사전을 두 번째 스테이지로서 포함하는 캐스캐이드(cascade) CELP 코딩이다.
고대역은 우선 데시메이션(블록(103))과 결합된 고역 통과 필터(블록(102))로 인한 에일리어싱(aliasing)을 보상하도록 전처리(블록(106))된다. 이후, 고대역은 (원래의 신호에서 7000㎐와 8000㎐ 사이의 성분들이라고 하는) 고대역의 3000㎐와 4000㎐ 사이의 성분들을 제거하는 저역 통과 필터(블록(107))에 의해 필터링되어 신호(s HB )를 얻는다. 이후에 파라미터릭 대역 확장(블록(108))이 실행된다.
도 1에 따른 G.729.1 인코더의 중요한 특징은 다음과 같다. CELP 코더(블록(105))의 출력을 기초로 저대역의 에러 신호(d LB )가 계산되고(블록(109)), 블록(110)에서 (G.729.1 표준에서 "시간 도메인 에일리어싱 제거" 타입에 대한 TDAC의) 예측 변환 코딩이 실행된다. 도 1을 참조하면, TDAC 인코딩은 저대역 상의 에러 신호와 고대역 상의 필터링된 신호에 모두 적용된다는 점이 특히 확인된다.
추가 파라미터들이 블록(111)에 의해 상동(homologous) 디코더에 전송될 수 있으며, 이 블록(111)은 만약 존재한다면, 삭제된 프레임들을 재구성할 목적으로 "프레임 삭제 은닉"이라는 의미의 "FEC"라는 처리를 실행한다.
코딩 블록들(105, 108, 110, 111)에 의해 생성된 다양한 이진 스트림들은 마지막에 멀티플렉싱되어 멀티플렉싱 블록(112)에서 계층적 이진 트레인(train)으로서 구조화된다. 20㎳의 샘플들의 블록들(또는 프레임들)마다, 즉 프레임당 320개의 샘플들마다 코딩이 실행된다.
따라서 G.729.1 코덱은 다음을 포함하는 3개의 코딩 단계들로서 구조를 갖는다:
- 캐스캐이드 CELP 코딩,
- TDBWE("시간 도메인 대역폭 확장") 타입의 모듈(108)에 의한 파라미터릭 대역 확장, 및
- MDCT("수정된 이산 코사인 변환") 타입의 변환 이후에 적용되는 예측 TDAC 변환 코딩.
* G.729.1 디코더에 관한 주의들
도 2에서 G.729.1 디코더가 설명된다. 각각의 20㎳ 프레임을 기술하는 비트들이 블록(200)에서 디멀티플렉싱된다.
협대역 합성(0-4000㎐)을 생성하기 위해 8 및 12 kbit/s의 계층들의 이진 스트림이 CELP 디코더(블록(201))에 의해 사용된다. 14 kbit/s의 계층과 연관된 이진 스트림의 해당 부분은 대역 확장 모듈(블록(202))에 의해 디코딩된다. 14 kbit/s 이상의 비트레이트들과 연관된 이진 스트림의 해당 부분은 TDAC 모듈(블록(203))에 의해 디코딩된다. 블록들(204, 207)뿐 아니라 강화(블록(205)) 및 저대역의 후처리(블록(206))에 의해 프리-에코들 및 포스트-에코들의 처리가 실행된다. 역 에일리어싱(블록(208))을 통합하는 합성 QMF 필터들(블록들(209, 210, 211, 212, 213))의 뱅크에 의해 16㎑로 샘플링된 확장 대역 출력 신호(
Figure 112012009925484-pct00001
)가 얻어진다.
변환-코딩 계층의 설명이 아래에 상세히 설명된다.
* G.729.1 코더에서 TDAC 변환 기반 코더에 관한 주의들
G.729.1 코더에서의 TDAC 타입의 변환 코딩이 도 3에서 설명된다.
필터(W LB (z))(블록(300))는 저대역 에러 신호(d LB )에 적용되는, 이득 보상을 갖는 지각적(perceptual) 가중 필터이다. 이후, MDCT 변환들이 계산되어(블록(301, 302)) 다음을 얻는다:
- 지각적으로 필터링되는 차분 신호의 MDCT 스펙트럼(
Figure 112012009925484-pct00002
), 및
- 고대역인 원래의 신호의 MDCT 스펙트럼(S HB ).
이러한 MDCT 변환들(블록들(301, 302))은 8㎑로 샘플링된 20㎳의 신호(160개의 계수들)에 적용된다. 따라서 퓨전(fusion) 블록(303)으로부터 발생하는 스펙트럼(Y(k))은 2×160, 즉 320개의 계수들을 포함한다. 이는 다음과 같이 정의된다:
Figure 112012009925484-pct00003
이 스펙트럼은 18개의 부대역들로 분할되며, 부대역(j)에는 nb _ coef(j)로 표기된 계수들의 숫자가 할당된다. 부대역들로 나누는 것은 아래의 표 1에서 특정된다.
따라서 부대역(j)은
Figure 112012009925484-pct00004
인 계수들(Y(k))을 포함한다.
7000㎐ - 8000㎐ 주파수 대역에 대응하는 계수들(280-319)은 코딩되지 않는데; 이들은 코덱의 통과 대역이 50 - 7000㎐이기 때문에 디코더에서 0으로 설정된다는 점에 주목한다.
Figure 112012009925484-pct00005
표 1: TDAC 코딩에서 부대역들의 한계들 및 크기
다음 공식에 따라 블록(304)에서 스펙트럼 포락선 {log_rms(j)} j =0,…,17이 계산된다:
Figure 112012009925484-pct00006
여기서
Figure 112012009925484-pct00007
이다.
스펙트럼 포락선은 블록(305)에서 가변 비트레이트로 코딩된다. 이 블록(305)은 간단한 스칼라 양자화에 의해 얻어지는,
Figure 112012009925484-pct00008
(j=0, … , 17)로 표기되는 양자화된 정수값들을 발생시킨다:
Figure 112012009925484-pct00009
여기서 "round"라는 표기는 가장 가까운 정수로의 반올림을 표시하며, 다음의 제약을 갖는다:
Figure 112012009925484-pct00010
이러한 양자화된 값(rms _ index(j))은 비트 할당 블록(306)으로 전송된다.
스펙트럼 포락선 자체의 코딩은 또한 블록(305)에 의해 저대역(rms _ index(j), j = 0, … , 9)과 고대역(rms_index(j), j = 10, … , 17)에 대해 개별적으로 수행된다. 각각의 대역에서, 주어진 기준에 따라 두 가지 타입의 코딩이 선택될 수 있으며, 더 정확하게는 rms _ index(j) 값들은:
- 소위 "차분 허프만" 코딩에 의해 코딩될 수도 있고,
- 또는 본래의 이진 코딩에 의해 코딩될 수도 있다.
비트(0 또는 1)가 디코더에 전송되어 선택된 코딩의 모드를 표시한다.
각각의 부대역의 양자화를 위해 각각의 부대역에 할당되는 비트들의 수가 블록(305)으로부터 발생하는 양자화된 스펙트럼 포락선을 기초로 블록(306)에서 결정된다.
수행되는 비트 할당은 부대역마다 할당되는 비트들의 정수 개수 및 초과되지 않아야 하는 최대 비트 수의 제약을 엄수하면서 이차 에러를 최소화한다. 그 후에 부대역들의 스펙트럼 성분이 구형 벡터 양자화에 의해 코딩된다(블록(307)).
그 후, 블록들(305, 307)에 의해 생성된 다양한 이진 스트림들은 멀티플렉싱 블록(308)에서 멀티플렉싱되어 계층적 이진 트레인으로서 구조화된다.
* G.729.1 디코더에서 변환 기반 디코더에 관한 주의들
G.729.1 디코더에서 TDAC 타입의 변환 기반 디코딩의 단계가 도 4에서 설명된다.
인코더(도 3)와 대칭적인 방식으로, 디코딩된 스펙트럼 포락선(블록(401))은 비트들의 할당(블록(402))을 리트리브(retrieve)하는 것을 가능하게 한다. 포락선 디코딩(블록(401))은 블록(305)에 의해 생성된(멀티플렉싱된) 이진 트레인을 기초로 스펙트럼 포락선(rms_index(j), j = 0, … , 17)의 양자화된 값들을 재구성하고 그로부터 디코딩된 포락선을 추론한다:
rms _q(j) = 2½ rms _ index ( j )
구형 벡터 역양자화(블록(403))에 의해 부대역들 각각의 스펙트럼 성분이 리트리브된다. 충분한 "버짓(budget)"의 비트들이 없기 때문에, 미전송 부대역들은 대역 확장 블록(도 2의 블록(202))에 의해 출력되는 신호의 MDCT 변환을 기초로 외삽된다(블록(404)).
스펙트럼 포락선의 함수로써 이러한 스펙트럼의 업그레이드(블록(405)) 및 후처리(블록(406)) 이후, MDCT 스펙트럼은 2개로 분리된다(블록(407)):
- 지각적으로 필터링된, 저대역 디코딩된 차분 신호의 스펙트럼(
Figure 112012009925484-pct00011
)에 대응하는 처음 160개의 계수들, 및
- 고대역 디코딩된 원래 신호의 스펙트럼(
Figure 112012009925484-pct00012
)에 대응하는 다음 160개의 계수들.
이러한 2개의 스펙트럼들은 IMDCT(블록들(408, 410)로 표기되는 MDCT 역변환에 의해 시간(temporal) 신호들로 변환되며, 역 지각적 가중(W LB (z)-1로 표기된 필터)이 역변환으로부터 발생한 신호(
Figure 112012009925484-pct00013
)에 적용된다(블록(409)).
부대역들에 대한 비트들의 할당(도 3의 블록(306) 또는 도 4의 블록(402))은 뒤에 더 상세히 설명된다.
블록들(306, 402)은 rms _ index(j)(j = 0, … , 17) 값들을 기초로 동일한 동작을 실행한다. 따라서 이후에는 블록(306)의 동작만 설명된다.
이진 할당의 목표는 nbits _ VQ로 표기된 비트들의 특정(가변) 버짓을 부대역들 각각의 사이에 분배하는 것이다:
nbits _ VQ = 351 - nbits _ rms, 여기서 nbits _ rms는 스펙트럼 포락선의 코딩에 의해 사용된 비트들의 수이다.
할당의 결과는 nbit(j)(j=0, … , 17)로 표기되며, 전역적 제약으로서 다음에 의해 부대역들 각각에 할당되는 비트들의 정수 개수이다:
Figure 112012009925484-pct00014
G.729.1 표준에서, nbit(j)(j=0, … , 17) 값들은 더욱이 아래의 표 2에 특정된 축소 세트의 값들 중에서 nbit(j)가 선택되어야 한다는 사실에 의해 제약된다.
Figure 112012009925484-pct00015
표 2: TDAC 부대역들에 할당되는 비트들의 수의 가능한 값들.
G.729.1 표준에서의 할당은 부대역의 에너지에 관련된 부대역당 "지각적 중요도(perceptual importance)"에 좌우되며, 이는 다음과 같이 정의되는 ip(j)(j = 0 … 17)로 표기된다:
Figure 112012009925484-pct00016
여기서 offset = -2이다.
값들
Figure 112012009925484-pct00017
이므로, 이 공식은 다음 형태로 단순화된다:
Figure 112012009925484-pct00018
각각의 부대역의 지각적 중요도를 기초로, 할당 nbit(j)가 다음과 같이 계산된다:
Figure 112012009925484-pct00019
여기서
Figure 112012009925484-pct00020
는 임계치(nbits _ VQ)의 최적 근사화에 의해 다음의 전역적 제약을 충족하도록 이분법에 의해 최적화된 파라미터이다:
Figure 112012009925484-pct00021
TDAC 변환 기반 코더의 비트들(블록(306))의 할당에 대한 지각적 가중(블록(300)의 필터링)의 영향이 이제 더 상세히 설명된다.
G.729.1 표준에서, TDAC 코딩은 상기에 지시된 바와 같이, 저대역(블록(300))에서의 지각적 가중을 위해 필터(W LB (z))를 사용한다. 본질적으로, 지각적 가중 필터링은 코딩 잡음의 성형을 가능하게 한다. 이러한 필터링의 원리는 원래의 신호가 높은 에너지를 갖는 주파수들의 존들로 더 많은 잡음을 주입하는 것이 가능하다는 사실을 이용하는 것이다.
협대역 CELP 코딩에 가장 일반적으로 사용되는 지각적 가중 필터들은
Figure 112012009925484-pct00022
의 형태이며, 여기서 0≤
Figure 112012009925484-pct00023
2≤
Figure 112012009925484-pct00024
1<1이고
Figure 112012009925484-pct00025
는 선형 예측 스펙트럼(LPC: linear prediction spectrum)을 나타낸다. 따라서 CELP 코딩에서의 합성 기반 분석은 이러한 타입의 필터에 의해 지각적으로 가중되는 신호 도메인에서 이차 에러의 최소화에 이르게 된다.
그러나 스펙트럼들(
Figure 112012009925484-pct00026
,
Figure 112012009925484-pct00027
)이 접하고 있을 때 스펙트럼 연속성을 보장하기 위해(도 3의 블록(303)), 필터(W LB (z))는 다음의 형태로 정의된다:
Figure 112012009925484-pct00028
여기서
Figure 112012009925484-pct00029
이고,
Figure 112012009925484-pct00030
인수(fac)는 저대역과 고대역의 접합(4㎑)에서 1 내지 4㎑의 필터의 이득을 보장하는 것을 가능하게 한다. G.729.1 표준에 따른 TDAC 코딩에서, 코딩은 에너지 기준에만 의존한다는 점에 주목하는 것이 중요하다.
* 종래 기술의 약점들
고대역(4000-7000㎐)에 사용되는 G.729.1의 TDAC 코딩의 에너지 기준은 지각적 관점에서, 특히 음악 신호들의 코딩을 위해서는 최적이 아니다.
지각적 가중 필터는 음성 신호들에 특히 적합하다. 이는 CELP 타입의 코딩 포맷에 기반한 음성 코딩을 위한 표준들에 폭넓게 사용된다. 그러나 음악 신호에 대해서는, 입력 신호의 포르만트(formant)들에 따른 양자화 잡음의 성형에 기반한 이러한 지각적 가중은 불충분하다는 점이 명백하다. 대부분의 오디오 코더들은 주파수 마스킹 모델들 또는 동시 마스킹을 이용한 변환 코딩에 의존하는데, 이들은 (CELP형 음성 재생 모델을 사용하지 않는다는 점에서) 더 일반적이고 따라서 음악 신호들을 코딩하기에 더 적합하다.
변환 기반 코더들에서 마스킹 모델들 및 이들의 응용에 관한 더 세부항목들을 얻기 위해, 2003년 Kluver Academic Publishers에 의해 출판된, M. Bosi 및 R. Goldberg에 의한 "Introduction to digital audio coding and standards"라는 명칭의 문헌이 참조될 수 있다.
따라서 G.729.1 코딩과의 상호 운용성을 유지하면서, 더 양호한 지각적 렌디션을 위한 신호들의 코딩 품질을 개선할 필요성이 존재한다.
본 발명은 상황을 개선한다.
본 발명은 이러한 목적으로 여러 개의 주파수 부대역들로서 디지털 오디오 주파수 입력 신호를 계층적으로 코딩하기 위한 방법을 제안하며, 이러한 코딩은 제 1 비트레이트에 따른 입력 신호의 코어 코딩 및 잔차(residual) 신호의 더 높은 비트레이트의 적어도 하나의 개선 코딩을 포함하고, 상기 코어 코딩은 에너지 기준에 따른 이진 할당을 사용한다. 상기 방법은 개선 코딩을 위해 다음의 단계들을 포함하게 된다:
- 상기 개선 코딩에 의해 처리되는 주파수 대역들의 적어도 일부에 대한 주파수 마스킹 임계치의 계산;
- 계산된 마스킹 임계치의 함수로써 그리고 상기 코어 코딩을 위해 할당된 비트들의 수의 함수로써 주파수 부대역마다 지각적 중요도의 결정;
- 결정된 지각적 중요도의 함수로써, 상기 개선 코딩에 의해 처리되는 주파수 부대역들에 비트들의 이진 할당; 및
- 비트들의 할당에 따른 상기 잔차 신호의 코딩.
따라서 본 발명에 따른 코딩은 지각적 관점에서 개선 코딩 계층으로부터 코딩의 품질을 개선하는데 도움을 얻는다. 따라서 개선 계층은 개선 코딩의 주파수 대역들에서 비트들을 최적 할당하도록, 코어 코딩 스테이지에 존재하지 않는 주파수 마스킹으로부터 이득을 얻을 것이다.
이러한 동작은 기존의 표준화된 코딩과 여전히 호환성 있는 코어 코딩을 수정하지 않아서, 기존의 표준화된 코딩을 사용하는 시장에서 이미 장비와의 상호 운용성을 보장하고 있다.
이후 언급되는 다양한 특정 실시예들은 상기에 정의된 코딩 방법의 단계들에 독립적으로 또는 서로 조합하여 추가될 수 있다.
특정 실시예에서, 지각적 중요도를 결정하는 단계는:
- 상기 개선 코딩의 적어도 하나의 주파수 부대역에 대한 제 1 지각적 중요도를 상기 부대역에서의 상기 주파수 마스킹 임계치, 상기 주파수 부대역에 대한 스펙트럼 포락선의 코딩의 양자화된 값들, 및 결정된 정규화 인자의 함수로써 정의하는 제 1 단계; 및
상기 코어 코딩을 위해 할당된 비트들의 수 대 상기 부대역에서의 계수들의 수의 비를 상기 제 1 지각적 중요도로부터 차감하는 제 2 단계를 포함한다.
따라서 개선 계층에 사용될 제 1 지각적 중요도는 코어 코딩을 고려하는 것이 아니라 신호대 마스크 비만을 고려하여 지각적 중요도를 정의한다. 이러한 지각적 중요도는 변환 기반 코더 입력 신호를 기초로 결정된다.
코어 코딩은 단지 이미 할당된 샘플당 평균 비트 수를 차감함으로써 고려된다. 신호대 마스크 비에 기반한 지각적 중요도의 사용은 지각적 관점에서 최적 할당을 얻을 수 있게 할 것이다. 그러나 이러한 할당은 변환-코딩 계층의 입력 신호가 직접 코딩된 경우에 유용할 것이다. 이제, 본 발명의 프레임워크 내에서, 에너지 할당에 기반한 제 1 변환-코딩 계층은 부대역당 특정 비트 수를 할당하였다.
비트레이트를 낭비하지 않고 코어 코더의 이러한 계층의 잔차 신호를 코딩함으로써 품질을 개선하는 것이 바람직하다면, 입력 신호 대 잔차 신호의 신호대 마스크 비를 기초로 지각적 중요도를 적응시킬 필요가 있다. 이에 따라, 코어 코더에 할당된 비트들의 수를 나타내는 값이 제 1 지각적 중요도로부터 차감된다. 잔차 신호의 신호대 마스크 비를 기초로 지각적 중요도를 계산하는 것이 불가능하다는 점이 주목되어야 한다. 사실상, 이 경우 계산되는 마스킹 곡선은 실제로 인식되는 신호를 기반으로 하지 않기 때문에 실제로 어떠한 지각력도 갖지 않는다.
변형 실시예에서, 지각적 중요도는 추가로 에너지 기준에 따라 이진 할당을 하는 이전 코어 코딩 개선 코딩을 위해 할당된 비트들의 함수로써 결정된다.
G.729.1 디코더에서, 충분한 버짓의 비트들이 없기 때문에 미전송 부대역들은 대역 확장 블록(도 2의 블록(202))에 의해 출력되는 신호의 MDCT 변환을 기초로 외삽된다(블록(404)). 따라서 G.729.1 코딩의 최고 비트레이트(32 kbit/s)에서도, 특정 주파수 대역들은 그대로 외삽된다. 본 발명에 따른 개선 코딩을 적용하기 전에, 먼저 이러한 미전송 부대역들에 대한 코어 코딩의 비트레이트 없이 구성하도록 코어 코딩에 대한 제 1 개선 코딩을 요구하는 것이 가능하다. 이러한 제 1 개선 코딩은 원래의 신호를 사용하며 비트들의 할당에 대한 에너지 기준에 따라 동작한다. 발명의 일 실시예에 따르면, 이러한 제 1 개선 코딩은 부대역들 및 디코딩된 부대역(Yq(k))(뒤에 도 5에서 정의됨)에 할당되는 비트들의 수(nbit(j))를 수정한다.
따라서 본 발명에 따른 개선 코딩은 또한 코어 코딩에 할당되는 비트들 외에도, 이러한 제 1 개선 코딩 동안 할당되는 비트들을 고려한다.
유리하게, 마스킹 임계치는 부대역에 대해:
- 계산된 스펙트럼 포락선에 대한 식과,
- 상기 부대역의 중심 주파수를 수반하는 확산 함수
사이의 컨볼루션(convolution)에 의해 결정된다.
변형 실시예에서, 상기 방법은 코딩될 신호가 음색(tonal)인지 또는 비음색인지에 따라 정보의 아이템을 획득하는 단계를 더 포함하며, 상기 마스킹 임계치를 계산하는 단계 및 이러한 마스킹 임계치의 함수로써 지각적 중요도를 계산하는 단계는 신호가 비음색인 경우에만 착수된다.
따라서 코딩은 신호가 음색인지 아닌지에 적응되며, 비트들의 최적 할당을 가능하게 한다.
본 발명의 특별히 적합한 적용에서, 개선 코딩은 코어 코딩이 G.729.1 표준화된 코더 타입인 확장된 코더에서의 TDAC 타입의 개선 코딩이다.
따라서 확장 대역(50-7000㎐)에서 G.729.1 코덱의 품질이 개선된다. G.729.1 코더의 대역을 확장 대역(50-7000Hz)에서부터 초확장 대역(50-14000Hz)까지 확장하기 위해 이러한 개선이 중요하다.
본 발명은 또한 여러 개의 주파수 부대역들로서 디지털 오디오 주파수 신호를 계층적으로 디코딩하기 위한 방법에 관한 것으로, 상기 디코딩은 제 1 비트레이트에 따라 수신된 신호의 코어 디코딩 및 잔차 신호의 더 높은 비트레이트의 적어도 하나의 개선 디코딩을 포함하고, 상기 코어 디코딩은 에너지 기준에 따른 이진 할당을 사용한다. 상기 방법은 개선 디코딩을 위해 다음의 단계들을 포함하게 된다:
- 상기 개선 디코딩에 의해 처리되는 상기 주파수 부대역들의 적어도 일부에 대한 주파수 마스킹 임계치의 계산;
- 계산된 마스킹 임계치의 함수로써 그리고 상기 코어 디코딩을 위해 할당된 비트들의 수의 함수로써 주파수 부대역마다 지각적 중요도의 결정;
- 결정된 지각적 중요도의 함수로써, 상기 개선 디코딩에 의해 처리되는 주파수 부대역들에 비트들의 할당; 및
- 상기 비트들의 할당에 따른 잔차 신호의 디코딩.
코딩에 대한 것과 동일한 방식으로 동일한 이점을 가지며, 상기 지각적 중요도를 결정하는 단계는:
- 상기 개선 디코딩의 적어도 하나의 주파수 부대역에 대한 제 1 지각적 중요도를 상기 부대역에서의 상기 주파수 마스킹 임계치, 상기 주파수 부대역에 대한 스펙트럼 포락선의 디코딩의 양자화된 값들, 및 결정된 정규화 인자의 함수로써 정의하는 제 1 단계; 및
- 상기 코어 디코딩을 위해 할당된 비트들의 수 대 상기 부대역에서 가능한 계수들의 수의 비를 상기 제 1 지각적 중요도로부터 차감하는 제 2 단계를 포함한다.
본 발명은 여러 개의 주파수 부대역들로서 디지털 오디오 주파수 입력 신호의 계층적 코더에 관한 것으로, 상기 코더는 제 1 비트레이트에 따른 상기 입력 신호의 코어 코더 및 잔차 신호의 더 높은 비트레이트의 적어도 하나의 개선 코더를 포함하고, 상기 코어 코더는 에너지 기준에 따른 이진 할당을 사용한다. 상기 개선 코더는:
- 상기 개선 코더에 의해 처리되는 주파수 대역들의 적어도 일부에 대한 주파수 마스킹 임계치를 계산하기 위한 모듈;
- 계산된 마스킹 임계치의 함수로써 그리고 상기 코어 코더에 대해 할당된 비트들의 수의 함수로써 주파수 부대역마다 지각적 중요도를 결정하기 위한 모듈;
- 결정된 지각적 중요도의 함수로써, 상기 개선 코더에 의해 처리되는 상기 주파수 부대역들에 비트들을 할당하기 위한 이진 모듈; 및
- 상기 비트들의 할당에 따라 상기 잔차 신호를 코딩하기 위한 모듈을 포함한다.
본 발명은 또한 여러 개의 주파수 부대역들로서 디지털 오디오 주파수 입력 신호의 계층적 디코더에 관한 것으로, 상기 디코더는 제 1 비트레이트에 따라 수신된 신호의 코어 디코더 및 잔차 신호의 더 높은 비트레이트의 적어도 하나의 개선 디코더를 포함하고, 상기 코어 디코더는 에너지 기준에 따른 이진 할당을 사용한다. 상기 개선 디코더는:
- 상기 개선 디코더에 의해 처리되는 상기 주파수 부대역들의 적어도 일부에 대한 주파수 마스킹 임계치를 계산하기 위한 모듈;
- 계산된 마스킹 임계치의 함수로써 그리고 상기 코어 디코더에 대해 할당된 비트들의 수의 함수로써 주파수 부대역마다 지각적 중요도를 결정하기 위한 모듈;
- 결정된 지각적 중요도의 함수로써, 상기 개선 디코더에 의해 처리되는 상기 주파수 부대역들에 비트들을 할당하기 위한 모듈; 및
- 상기 비트들의 할당에 따라 잔차 신호를 디코딩하기 위한 모듈을 포함한다.
마지막으로, 본 발명은 프로세서에 의해 명령들이 실행될 때, 발명에 따른 코딩 방법의 단계들의 이행을 위한 코드 명령들을 포함하는 컴퓨터 프로그램 및 프로세서에 의해 명령들이 실행될 때, 발명에 따른 디코딩 방법의 단계들의 이행을 위한 코드 명령들을 포함하는 컴퓨터 프로그램에 관한 것이다.
발명의 다른 특징들 및 이점들은 단지 비한정적인 예시로 주어지는 다음 설명을 읽고, 그리고 첨부된 도면들을 참조로 더 정확히 명백해질 것이다.
도 1은 G.729.1 타입의 이전에 설명된 코더의 구조를 나타낸다.
도 2는 G.729.1 타입의 이전에 설명된 디코더의 구조를 나타낸다.
도 3은 G.729.1 타입의 코더에 포함된, 이전에 설명된 TDAC 코더의 구조를 나타낸다.
도 4는 G.729.1 타입의 디코더에 포함된, 이전에 설명된 것과 같은 TDAC 디코더의 구조를 나타낸다.
도 5는 발명의 일 실시예에 따른 개선 코딩을 포함하는 TDAC 코더의 구조를 나타낸다.
도 6은 발명의 일 실시예에 따른 개선 디코딩을 포함하는 TDAC 디코더의 구조를 나타낸다.
도 7은 발명의 수단 내에서 마스킹을 위한 유리한 확산 기능을 나타낸다.
도 8은 발명의 일 실시예에서 마스킹 곡선의 정규화를 나타낸다.
도 9는 발명의 일 실시예에 따른 TDAC 코더가 포함된 주파수 대역 확장 G.729.1 코더의 구조를 나타낸다.
도 10은 발명의 일 실시예에 따른 TDAC 디코더가 포함된 주파수 대역 확장 G.729.1 디코더의 구조를 나타낸다.
도 11a는 발명의 일 실시예에 따른 코더를 포함하는 단말의 예시적인 하드웨어 실시예를 나타낸다.
도 11b는 발명의 일 실시예에 따른 디코더를 포함하는 단말의 예시적인 하드웨어 실시예를 나타낸다.
본 발명의 과제들 중 하나는 특히 음악 신호들을 위한 확장 대역(50-7000㎐)에서의 G.729.1의 품질 개선이다. 여기서는 G.729.1 코딩이 50 내지 7000㎐의 유용 대역을 갖는다는 점이 상기된다. 더욱이, 음악 신호들과 같은 특정 신호들에 대한 G.729.1의 품질은 그 최고 비트레이트(32 kbit/s)에서 투명하지 않은데, 이러한 한계는 CELP+TDBWE+TDAC 계층 구조 및 32 kbit/s로 제한된 비트레이트에 기인한다.
본 발명은 G.729.1에 의해 코딩되는 대역을 초확장(super-widened) 대역(50-14000㎐)까지 확장하는 것을 특히 목표로 한 G.729.1의 스케일링 가능 확장에 대해 UIT-T에서 진행중인 표준화에 의해 동기 부여된다. 경험은 제한된 대역(예를 들어: 50-7000㎐)을 갖는 신호의 대역 확장(예를 들어: 7000-14000㎐)이 이미 품질이 양호한 제한된 대역 신호를 필요로 함을 보여주는데, 사실상 대역 확장은 이 신호에서 기존의 결함들을 강조한다. 따라서 확장 대역(50-7000㎐)에서 G.729.1의 품질을 개선할 필요성이 존재한다.
G.729.1의 품질 개선은 (32 kbit/s 외에도) 하나 이상의 추가 비트레이트 개선 계층들에 의해 달성될 수 있다. 실제로, 이러한 추가 비트레이트 개선 계층들은 대역 확장(7000-14000㎐)을 위한 그리고 확장 대역(50-7000㎐)에서 품질을 개선하기 위한 역할을 한다. 따라서 개선 계층들의 추가 비트레이트의 일부는 G.729.1 디코더에 의해 디코딩된 확장 대역 신호의 개선에 쓰일 수 있다.
본 문서에서 고려되는 계층적 코딩에서 두 가지 코어들을 구별하는 것이 가능하다는 점에 주목한다: G.729.1은 협대역 CELP 코어 코더를 갖는 한편, G.729.1의 초확장 대역(50-14000Hz)을 위한 확장은 코어로서 G.729.1을 갖는다.
이후, 코어 코딩 및 코어 비트레이트라는 용어들은 G.729.1 타입의 코딩 및 32 kbit/s의 연관 비트레이트를 의미하는 것으로 이해된다.
발명의 일 실시예에서, 우리는 개선 계층이 통합되는, 이전에 설명된 것과 같은 TDAC 코더 및 디코더에 더욱 특별히 관련된다.
도 5는 이와 같은 개선된 TDAC 코더를 설명한다.
여러 개선 계층들로서 G.729.1의 스케일링 가능 확장이 고려된다. 여기서 코어 코딩은 G.729.1 코딩이며, 이는 14 kbit/s 및 32 kbit/s까지의 비트레이트를 기초로 [50-7000㎐] 대역에 TDAC 코딩을 사용한다. 대역을 7000㎐에서 14000㎐까지 확장시키고 G.729.1의 TDAC 코딩의 미전송 부대역들을 교체하기 위해 32 내지 48 kbit/s에서 2개의 8-kbit/s 개선 계층들이 생성된다고 가정된다. 32 kbit/s에서 48 kbit/s로 진행할 수 있게 하는 이러한 8-kbit/s 개선 계층들은 여기서 설명되지 않는다.
본 발명은 비트레이트를 48 kbit/s에서 56 및 64 kbit/s로 스위칭하는, 50 내지 7000㎐ 대역에서의 TDAC 코딩의 2개의 추가 8-kbit/s 개선 계층들에 적용된다.
본 발명을 적용하는 코더는 G.729.1의 코어 비트레이트(32 kbits)에 여분의 비트레이트를 추가하는 개선 계층들을 포함한다. 이러한 개선 계층들은 확장 대역(50-7000㎐)에서 품질을 개선하고 더 높은 대역을 7000㎐에서 14000㎐로 확장하는 역할을 한다. 이후, 7000㎐에서 14000㎐로의 확장은 무시되는데, 이는 이러한 기능이 본 발명의 구현에 영향을 주지 않기 때문이다. 간소화 이유들로, 7000㎐에서부터 14000㎐까지의 대역 확장에 대응하는 모듈들은 도 5와 도 6에서 설명되지 않는다.
여기서는 도 3을 참조로 설명된 것과 같은 G.729.1의 기본 계층들에 사용된 블록들(블록들(300-307))과 동일한 블록들(블록들(500-507))이 도시된다.
여기서 발명의 일 실시예에 따른 TDAC 코더는 코어 계층(블록들(504-507))을 개선하는 개선 계층(블록들(509-513))을 포함한다.
여기서 블록(507)은 이전에 언급된 것과 같은 수정을 포함할 수 있는 G.729.1의 구형 벡터 양자화(SVQ)에 대응한다는 점에 주목한다. 따라서 이 블록(507)에서, G.729.1 코어 코딩에 대한 제 1 개선 코딩은 미전송 부대역들에 대한 비트레이트 없이 구성하도록(여기서 nbit(j) = 0) 요구된다. 이러한 수정은 원래의 신호(Y(k))를 사용하며 비트들의 할당에 대한 에너지 기준에 따라 동작한다. 그 다음, 부대역들 및 디코딩된 부대역(Yq(k))에 할당되는 비트들의 수(nbit(j))가 수정된다.
블록(506)은 도 3을 참조로 설명된 것과 같은 에너지 기준을 기초로 이진 할당을 수행한다.
따라서 코어 계층이 코딩되고 멀티플렉싱 모듈(508)로 보내진다.
코어 신호는 또한 구형 및 스케일링된 역양자화를 수행하는 블록(510)에 의해 코더에서 로컬하게 디코딩되는데, 이 코어 신호는 변환된 도메인에서 509에서 원래의 신호로부터 차감되어 잔차(residual) 신호(err(k))를 획득한다. 이 잔차 신호는 이후 블록(513)에서 48 kbit/s의 비트레이트를 기반으로 코딩된다.
블록(511)은 블록(505)에 의해 획득된 코딩된 스펙트럼 포락선(rms_q(j))을 기초로 마스킹 곡선을 계산하는데, 여기서 j = 0, … , 17은 부대역 번호이다.
부대역(j)의 마스킹 임계치(M(j))는 확산 함수(B(v))와 에너지 포락선(
Figure 112012009925484-pct00031
)과의 컨볼루션에 의해 정의된다.
제 1 실시예에서, 이러한 마스킹은 다음에 의해 신호의 고대역에 대해서만 수행된다:
Figure 112012009925484-pct00032
여기서 v k 는 바크(Bark) 단위로 부대역(k)의 중심 주파수이고,
"×" 부호는 후술하는 확산 함수와의 "곱"을 표시한다.
따라서 더 포괄적으로 말하면, 부대역(j)에 대한 마스킹 임계치(M(j)는:
- 스펙트럼 포락선에 대한 식과,
- 부대역(j)의 중심 주파수를 수반하는 확산 함수
사이의 컨볼루션에 의해 정의된다.
유리한 확산 함수는 도 7에 제시된 것이다. 이는 첫 번째 기울기는 +27㏈/Bark이고 두 번째에 대해서는 -10㏈/Bark인 삼각 함수를 수반한다. 이러한 확산 함수의 표현은 마스킹 곡선에 대한 다음의 반복적인 계산을 가능하게 한다:
Figure 112012009925484-pct00033
여기서
Figure 112012009925484-pct00034
그리고
Figure 112012009925484-pct00035
Δ1(j)와 Δ2(j)의 값들은 재계산되어 저장될 수 있다.
모듈(500)에 의해 이미 지각적으로 필터링된 저대역에서, 마스킹 임계치의 적용은 이 실시예에서 고대역으로 제한된다. 저대역 스펙트럼과 마스킹 임계치에 의해 가중된 고대역 스펙트럼 간의 스펙트럼 연속성을 보장하고 이진 할당의 바이어싱을 피하기 위해, 마스킹 임계치는 예를 들어 저대역의 마지막 부대역 상에서 자신의 값에 의해 정규화된다.
그 다음, 다음과 같이 주어지는 신호대 마스크 비를 고려함으로써 지각적 중요도 계산의 첫 번째 단계가 수행된다:
Figure 112012009925484-pct00036
따라서 지각적 중요도는 블록(511)에서 다음과 같이 정의된다:
Figure 112012009925484-pct00037
여기서 offset = -2이고 normfac은 다음 관계에 따라 계산된 정규화 인자이다:
Figure 112012009925484-pct00038
지각적 중요도(ip(j), j = 0, … , 9)는 G.729.1 표준에 정의된 것과 동일하다는 점이 주목된다. 반면에, ip(j) 항(j = 0, … , 17)의 정의는 변경된다.
상기에 정의된 지각적 중요도는 이제 다음과 같이 작성될 수 있다:
Figure 112012009925484-pct00039
여기서 log_mask(j) = log2(M(j))-normfac이다.
마스킹 임계치의 정규화의 예시가 저대역(0-4㎑)과 마스킹(4-7㎑)이 적용된 고대역과의 결합을 보여주는 도 8에 주어진다.
저대역의 마지막 부대역 상에서 자신의 값에 대해 마스킹 임계치의 정규화가 수행되는 이 실시예의 변형에서, 마스킹 임계치의 정규화는 오히려 다음과 같이 고대역의 첫 번째 부대역에서 마스킹 임계치의 값을 기초로 실행될 수 있다:
Figure 112012009925484-pct00040
또 다른 변형에서, 마스킹 임계치는 전체 주파수 대역에 대해 다음과 같이 계산될 수 있다:
Figure 112012009925484-pct00041
따라서 마스킹 임계치는 저대역의 마지막 부대역 상에서 자신의 값에 의해:
Figure 112012009925484-pct00042
또는 고대역의 첫 번째 부대역 상에서 자신의 값에 의해:
Figure 112012009925484-pct00043
마스킹 임계치를 정규화한 후 고대역에만 적용된다.
물론, 정규화 인자(normfac) 또는 마스킹 임계치(M(j))를 제공하는 이러한 관계들은 (10 이외의 다른 수를 갖는) 저대역에서와 같이 (8 이외의 다른 수를 갖는) 고대역에서 임의의 수의(전체적으로 18 이외의 다른) 부대역들로 일반화할 수 있다.
이러한 주파수 마스킹 계산을 기초로, 개선 코딩을 위해 이진 할당 블록(512)으로 제 1 지각적 중요도(ip(j))가 전달된다.
이 블록(512)은 또한 G.729.1 TDAC 코딩의 코어 계층에 대한 비트 할당 정보(nbit(j))를 수신한다.
따라서 블록(512)은 이러한 정보 아이템들을 모두 고려하는 새로운 지각적 중요도를 정의한다.
따라서 다음과 같이 제 2 지각적 중요도가 정의된다:
Figure 112012009925484-pct00044
여기서 nbit(j)는 기본 계층에 의해 주파수 대역(j)에 할당된 비트들의 수를 나타내고, nb _ coeff(j)는 이전에 설명된 표 1에 따른 대역(j)의 계수들의 수를 나타낸다.
달리 말하면, 제 1 지각적 중요도로부터 코어 코딩을 위해 할당된 비트들의 수 대 부대역에서 가능한 계수들의 수의 비를 차감함으로써 새로운 지각적 중요도가 계산된다.
이러한 새로운 지각적 중요도로, 블록(512)은 개선 계층을 코딩하도록 잔차 신호에 대한 비트들의 할당을 수행한다.
이러한 비트들의 할당은 다음과 같이 계산된다:
Figure 112012009925484-pct00045
여기서 최적화는 다음의 제약을 충족해야 한다:
Figure 112012009925484-pct00046
nbits _ VQ _ err는 개선 계층에서의 추가 비트들의 수에 대응한다(2개의 8-kbit/s 계층들에 대해 320개의 비트들).
따라서 이는 새로 계산된 지각적 중요도를 고려한다.
이후에 잔차 신호(err (k))가 이전에 계산된 것과 같이 할당된 비트들의 수(nbit _ err(j))를 이용함으로써 모듈(513)에 의해 구형 벡터 양자화로 코딩된다.
이러한 코딩된 잔차 신호는 멀티플렉싱 모듈(508)에 의해 코어 코딩 및 코딩된 포락선으로부터 발생하는 신호와 멀티플렉싱된다. 이러한 개선 코딩은 할당된 비트레이트를 확장할 뿐만 아니라 지각적 관점에서 신호의 코딩 또한 개선한다.
설명된 것과 같은 TDAC 코딩의 개선 계층은 G.729.1의 TDAC 코딩을 수정한 후 적용될 수 있다는 점이 상기된다. 32-kbit/s 내지 48-kbit/s 개선 계층들에서, G.729.1의 TDAC 코딩의 (여기서 설명되지 않은) 첫 번째 개선이 실행된다. 이러한 개선은 32 kbit/s의 가장 높은 비트레이트에서도 G.729.1의 TDAC 코어 코딩에 의해 비트레이트가 할당되지 않은 4㎑ 내지 7㎑의 부대역들에 비트들을 할당한다. 따라서 G.729.1의 TDAC 코딩의 이러한 첫 번째 개선은 4㎑ 내지 7㎑의 원래의 신호를 이용하며 발명의 코딩 방법의 마스킹 임계치를 계산하거나 지각적 중요도를 결정하는 단계들을 이행하지 않는다. 블록(507)은 이러한 개선을 통합한 이러한 수정된 TDAC 코딩에 대응하는 것으로 간주된다.
따라서 발명의 코딩 방법의 개선 계층에서는, 48 kbit/s 내지 64 kbit/s 범위의 비트레이트에서, 지각적 중요도의 결정(블록들(511, 512))은 코어 코딩 또는 기본 코딩을 위해 할당된 비트들뿐 아니라 이전 개선 코딩, 이 경우에는 40-kbit/s 비트레이트 개선 코딩을 위해 할당된 비트들 또한 고려한다.
도 5는 개선 코딩 스테이지를 갖는 TDAC 코더를 나타낼 뿐만 아니라 발명의 이전에 설명된 것과 같은 일 실시예에 따른 코딩 방법의 단계들 및 특히 다음 단계들의 설명을 제공한다:
- 개선 코딩에 의해 처리된 주파수 대역들의 적어도 일부에 대한 주파수 마스킹 임계치의 계산;
- 계산된 마스킹 임계치의 함수로써 그리고 코어 코딩을 위해 할당된 비트들의 수의 함수로써 주파수 부대역마다 지각적 중요도의 결정;
- 결정된 지각적 중요도의 함수로써, 개선 코딩에 의해 처리된 주파수 부대역들에서의 비트들의 이진 할당; 및
- 비트들의 할당에 따른 잔차 신호의 코딩.
도 6은 발명의 일 실시예에 따른 디코딩 방법의 단계들뿐만 아니라 개선 디코딩에 의한 TDAC 디코더를 설명한다.
디코더는 도 4를 참조로 G.729.1의 TDAC 디코딩에 대해 설명된 모듈들(401, 402, 403, 406, 407, 408, 409, 410)과 동일한 모듈들(601, 602, 603, 606, 607, 608, 609, 610)을 포함한다. 발명은 블록(603)으로부터 발생하는 디코딩된 MDCT 스펙트럼의 품질을 개선하기 때문에 여기서 (코딩 잡음의 성형을 목표로 한) MDCT 도메인에서의 후처리를 위한 블록(606)은 선택적이라는 점에 주목한다.
디코더의 모듈(605)은 코더의 모듈(511)에 대응하며, 스펙트럼 포락선의 양자화된 값들을 기초로 동일한 방식으로 동작한다.
이러한 모듈(605)에 의해 계산된 제 1 지각적 중요도(ip(j))를 기초로, 할당 모듈(604)은 코딩의 모듈(512)에서와 비슷한 방식으로, 코어 코딩으로부터 수신된 비트들의 할당을 고려함으로써 제 2 지각적 중요도를 결정한다.
개선 코딩을 위한 이러한 비트들의 할당은 모듈(611)이 디멀티플렉싱 모듈(600)로부터 수신된 신호를 구형 벡터 역양자화에 의해 디코딩하게 한다.
모듈(611)로부터 발생한 디코딩된 신호는 603에서 디코딩된 코어 신호와 이후 612에서 결합될 에러 신호(err (k))이다.
이후에 이러한 신호는 도 4를 참조로 설명된 G.729.1 코딩에 따라 처리되어 저대역 차분 신호(d LB ) 및 고대역 신호(S HB )를 제공한다.
또한, 모듈(511 또는 605)에 의해 수행되는 그리고 이전에 설명된 것과 같은 주파수 마스킹의 계산은 코딩될 신호(특히 이것이 음색(tonal)인지 여부)에 따라 수행될 수도 있고 아니면 수행되지 않을 수도 있는 것으로 지시된다.
사실상, 마스킹 임계치의 계산은 코딩될 신호가 음색이 아닌 경우에 특히 유리한 것으로 관측할 수 있었다.
신호가 음색이라면, 확산 함수(B(v))의 적용은 마스킹 임계치가 주파수들의 관점에서 약간 더 확산되는 톤에 매우 가까워지게 한다. 그 다음, 코딩 잡음 대 마스크의 비를 최소화하기 위한 기준은 반드시 최적인 것은 아닌 비트들의 할당을 제공한다.
따라서 이러한 할당을 개선하기 위해, 음색 신호에 대한 에너지 기준에 따라 비트들의 할당을 사용하는 것이 가능하다.
따라서 변형 실시예에서, 발명에 따른 이러한 마스킹 임계치의 함수로써 마스킹 임계치의 계산 및 지각적 중요도의 결정은 코딩될 신호가 음색이 아닌 경우에만 적용된다.
따라서 일반적으로 말하면, 코딩될 신호가 음색인지 아니면 비음색인지에 따라 (블록(505)으로부터) 정보의 아이템이 얻어지며, 마스킹 임계치의 결정 및 정규화와 함께 고대역의 지각적 가중은 신호가 비음색인 경우에만 착수된다.
G.729.1 타입의 코어 코딩에 의해, 스펙트럼 포락선의 코딩 모드(블록(505 또는 601))에 관련된 비트는 "차분 허프만" 모드 또는 "직접 자연 이진" 모드를 나타낸다. 일반적으로 음색 신호는 "직접 자연 이진" 모드에 의한 포락선 코딩을 초래하는 한편, 더 제한된 스펙트럼 동적 범위를 갖는 대부분의 비음색 신호들은 "차분 허프만" 모드에 의한 포락선 코딩을 초래하기 때문에, 이러한 모드 비트는 조성(tonality)의 검출로서 해석될 수 있다.
따라서 주파수 마스킹 또는 다른 것을 이행하기 위한 "신호의 조성의 검출"로부터 이점이 유도될 수 있다. 더 구체적으로는, 이러한 마스킹 임계치 계산은 스펙트럼 포락선이 "차분 허프만" 모드에서 코딩된 경우에 적용되며, 그 다음에 제 1 지각적 중요도가 발명의 의미 내에서 다음과 같이 정의된다:
Figure 112012009925484-pct00047
한편, 포락선이 "직접 자연 이진" 모드로 코딩되었다면, 제 1 지각적 중요도는 729.1 표준에 정의된 그대로이다:
Figure 112012009925484-pct00048
이제 G.729.1 인코더의 확장에 대한, 특히 초확장 대역에 대한 발명의 가능한 적용이 설명된다.
도 9를 참조하면, 이러한 코더가 설명된다. 제시된 것과 같은 G.729.1 코더의 초확장 대역에 대한 확장은 모듈(915)에 의해 코딩된 주파수들의 확장, [50Hz-7KHz]에서 [50Hz-14kHz]로의 스위칭에 사용된 주파수 대역 및 TDAC 코딩 모듈(블록(910))에 의한 그리고 도 5를 참조로 설명된 것과 같은 G.729.1의 기본 계층의 개선으로 구성된다.
따라서 도 9에 제시된 것과 같은 코더는 도 1에 제시된 G.729.1 코어 코딩과 동일한 모듈들 및 멀티플렉싱 모듈(912)에 확장 신호를 제공하는 대역 확장(915)을 위한 추가 모듈을 포함한다.
이 주파수 대역 확장은 전체 대역의 원래의 신호(S SWB )에 대해 계산되는 반면, 코어 코더에 대한 입력 신호는 데시메이션(블록(913)) 및 저역 통과 필터링(블록(914))에 의해 얻어진다. 이러한 블록들의 출력에서, 확장 대역 입력 신호(S WB )가 얻어진다.
TDAC 코딩 모듈(910)은 도 1에 도시된 것과 다르다. 이 모듈은 예를 들어 도 5를 참조로 설명된 것이며 코딩된 코어 신호와 발명에 따라 코딩된 개선 신호를 모두 멀티플렉싱 모듈에 제공한다.
같은 방식으로, 초확장 대역으로 확장된 G.729.1 디코더가 도 10을 참조로 설명된다. 이는 도 2를 참조로 설명된 G.729.1 디코더와 동일한 모듈들을 포함한다.
그러나 이는 디멀티플렉싱 모듈(1000)로부터 대역 확장 신호를 수신하는 대역 확장을 위한 추가 모듈(1014)을 포함한다.
이는 또한 초확장 대역 출력 신호(
Figure 112012009925484-pct00049
)를 획득할 수 있게 하는 합성 필터들(블록들(1015, 1016))의 뱅크를 포함한다.
TDAC 디코딩 모듈(1003)은 또한 도 2를 참조로 설명된 TDAC 디코딩 모듈과 다르다. 이 모듈은 예를 들어 도 6을 참조로 설명 및 예시된 것이다. 이는 따라서 디멀티플렉싱 모듈로부터 코어 신호와 개선 신호를 모두 수신한다.
이전에 제시된 바람직한 실시예에서, 발명은 G.729.1 코덱에서 TDAC 코딩의 품질을 개선하는데 사용된다. 당연히 발명은 이진 할당에 의한 다른 타입들의 변환 코딩 및 G.729.1 이외의 다른 코어 코덱들의 스케일링 가능한 확장에 적용된다.
이제 도 5와 도 6을 참조로 설명된 것과 같은 코더 및 디코더의 예시적인 하드웨어 실시예가 도 11a 및 도 11b를 참조로 설명된다.
따라서 도 11a는 도 5에서 설명된 것과 같은 코더 또는 코더를 포함하는 단말을 나타낸다. 이는 저장 및/또는 작업 메모리(MEM)를 포함하는 메모리 블록(BM)과 협력하는 프로세서(PROC)를 포함한다.
이 단말은 저대역 신호(d LB ) 및 고대역 신호(S HB ) 또는 임의의 타입의 코딩될 디지털 신호들을 수신할 수 있는 입력 모듈을 포함한다. 이러한 신호들은 다른 코딩 스테이지로부터 또는 통신 네트워크로부터, 디지털 콘텐츠 저장 메모리로부터 발생할 수 있다.
메모리 블록(BM)은 명령들이 프로세서(PROC)에 의해 실행될 때 발명의 의미 내에서 코딩 방법의 단계들, 특히 다음의 단계들의 구현을 위한 코드 명령들을 포함하는 컴퓨터 프로그램을 유리하게 포함할 수 있다:
- 개선 코딩에 의해 처리되는 주파수 부대역들의 적어도 일부에 대한 주파수 마스킹 임계치의 계산;
- 계산된 마스킹 임계치의 함수로써 그리고 코어 코딩을 위해 할당된 비트들의 수의 함수로써 주파수 부대역마다 지각적 중요도의 결정;
- 결정된 지각적 중요도의 함수로써, 개선 코딩에 의해 처리된 주파수 부대역들에 비트들의 할당; 및
- 비트들의 할당에 따른 잔차 신호의 코딩.
통상적으로, 도 5의 설명은 이러한 컴퓨터 프로그램의 알고리즘의 단계들을 이용한다. 컴퓨터 프로그램은 또한 단말 또는 코더의 판독기에 의해 판독 가능한 메모리 매체 상에 저장될 수도 있거나 코더의 메모리 공간에 다운로드 가능할 수도 있다.
단말은 입력 신호들의 코딩으로부터 발생하는 멀티플렉싱된 스트림을 전송할 수 있는 출력 모듈을 포함한다.
같은 방식으로, 도 11b는 도 6을 참조로 설명된 것과 같은 디코더를 포함하는 예시적인 디코더 또는 단말을 나타낸다.
이러한 단말은 저장 및/또는 작업 메모리(MEM)를 포함하는 메모리 블록(BM)과 협력하는 프로세서(PROC)를 포함한다.
단말은 저장 모듈로부터, 예를 들어 통신 네트워크로부터 발생하는 멀티플렉싱된 스트림을 수신할 수 있는 입력 모듈을 포함한다.
메모리 블록은 코드 명령들이 프로세서(PROC)에 의해 실행될 때 발명의 의미 내에서 디코딩 방법의 단계들, 특히 다음의 단계들의 구현을 위한 이러한 명령들을 포함하는 컴퓨터 프로그램을 유리하게 포함할 수 있다:
- 개선 디코딩에 의해 처리되는 주파수 부대역들의 적어도 일부에 대한 주파수 마스킹 임계치의 계산;
- 계산된 마스킹 임계치의 함수로써 그리고 코어 디코딩을 위해 할당된 비트들의 수의 함수로써 주파수 부대역마다 지각적 중요도의 결정;
- 결정된 지각적 중요도의 함수로써, 개선 디코딩에 의해 처리된 주파수 부대역들에 비트들의 할당; 및
- 비트들의 할당에 따른 잔차 신호의 디코딩.
통상적으로, 도 6의 설명은 이러한 컴퓨터 프로그램의 알고리즘의 단계들을 이용한다. 컴퓨터 프로그램은 또한 단말의 판독기에 의해 판독 가능한 메모리 매체 상에 저장될 수도 있거나 단말의 메모리 공간에 다운로드 가능할 수도 있다.
단말은 다른 코딩 스테이지를 위해 또는 콘텐츠 재구성을 위해 디코딩된 신호들(d LB , S HB )을 전송할 수 있는 출력 모듈을 포함한다.
아주 명백하게, 이러한 단말은 발명에 따른 코더 및 디코더를 모두 포함할 수 있다.

Claims (12)

  1. 여러 개의 주파수 부대역들로서 디지털 오디오 주파수 입력 신호를 계층적으로 코딩하기 위한 방법으로서,
    제 1 비트레이트에 따른 저 주파수 대역에서의 상기 입력 신호의 코어 코딩 ― 상기 코어 코딩은 에너지 기준에 따른 제 1 이진 할당(allocation)을 사용함 ―; 및
    고 주파수 대역에서의 잔여 신호의 더 높은 비트레이트의 적어도 하나의 개선 코딩을 포함하고,
    상기 개선 코딩은:
    상기 개선 코딩에 의해 처리되는 주파수 대역들의 적어도 일부에 대한 주파수 마스킹 임계치를 계산하는 단계 ― 상기 마스킹 임계치는 상기 저 주파수 대역의 마지막 부대역 또는 상기 고 주파수 대역의 첫번째 부대역 중 적어도 하나에서 상기 마스킹 임계치의 값에 의해 정규화됨 ―;
    계산된 상기 마스킹 임계치의 함수로써 그리고 상기 코어 코딩을 위해 할당된 비트들의 수의 함수로써 상기 고 주파수 대역의 주파수 부대역(sub-band)마다 지각적 중요도(perceptual importance)를 결정하는 단계;
    결정된 상기 지각적 중요도의 함수로써, 상기 개선 코딩에 의해 처리되는 상기 고 주파수 대역의 상기 주파수 부대역들에서의 비트들을 제 2 이진 할당하는 단계; 및
    상기 비트들의 제 2 이진 할당에 따라 상기 잔여 신호를 코딩하는 단계를 포함하는,
    계층적으로 코딩하기 위한 방법.
  2. 제 1 항에 있어서,
    상기 지각적 중요도를 결정하는 단계는,
    상기 개선 코딩의 적어도 하나의 주파수 부대역에 대한 제 1 지각적 중요도를 상기 부대역에서의 상기 주파수 마스킹 임계치의 함수, 상기 주파수 부대역에 대한 스펙트럼 포락선(envelope)의 코딩의 양자화된 값들의 함수, 및 결정된 정규화 인자의 함수로써 정의하는 제 1 단계; 및
    상기 코어 코딩을 위해 할당된 비트들의 수에 대한 상기 부대역에서의 계수들의 수의 비를 상기 제 1 지각적 중요도로부터 차감하는 제 2 단계를 포함하는,
    계층적으로 코딩하기 위한 방법.
  3. 제 1 항에 있어서,
    상기 지각적 중요도는 추가로 에너지 기준에 따라 이진 할당을 가지는 이전 코딩 스테이지(stage)들에 대해 할당된 비트들의 함수로써 결정되는,
    계층적으로 코딩하기 위한 방법.
  4. 제 1 항에 있어서,
    상기 마스킹 임계치는 부대역에 대해,
    계산된 스펙트럼 포락선에 대한 식, 및
    상기 부대역의 중심 주파수를 수반하는 확산 함수 간의 컨볼루션(convolution)에 의해 결정되는,
    계층적으로 코딩하기 위한 방법.
  5. 제 1 항에 있어서,
    상기 방법은 코딩될 신호가 음색(tonal)인지 또는 비음색(non-tonal)인지에 따라 정보의 아이템을 획득하는 단계를 더 포함하며,
    상기 마스킹 임계치를 계산하는 단계 및 상기 마스킹 임계치의 함수로써 상기 지각적 중요도를 결정하는 단계는 상기 신호가 비음색인 경우에만 착수되는,
    계층적으로 코딩하기 위한 방법.
  6. 제 1 항에 있어서,
    상기 개선 코딩은,
    코어 코딩이 G.729.1 표준화된 코더 타입인 확장된 코더에서의 시간 도메인 에일리어싱 제거(Time Domain Aliasing Cancellation; TDAC) 타입의 개선 코딩을 포함하는,
    계층적으로 코딩하기 위한 방법.
  7. 여러 개의 주파수 부대역들로서 디지털 오디오 주파수 신호를 계층적으로 디코딩하기 위한 방법으로서,
    저 주파수 대역에서의 제 1 비트레이트에 따라 수신된 신호의 코어 디코딩 ― 상기 코어 디코딩은 에너지 기준에 따른 제 1 이진 할당을 사용함 ―; 및
    고 주파수 대역에서의 잔여 신호의 더 높은 비트레이트의 적어도 하나의 개선 디코딩을 포함하고,
    상기 개선 디코딩은:
    상기 개선 디코딩에 의해 처리되는 상기 주파수 부대역들의 적어도 일부에 대한 주파수 마스킹 임계치를 계산하는 단계 ― 상기 마스킹 임계치는 상기 저 주파수 대역의 마지막 부대역 또는 상기 고 주파수 대역의 첫번째 부대역 중 적어도 하나에서 상기 마스킹 임계치의 값에 의해 정규화됨 ―;
    계산된 상기 마스킹 임계치의 함수로써 그리고 상기 코어 디코딩을 위해 할당된 비트들의 수의 함수로써 상기 고 주파수 대역의 주파수 부대역마다 지각적 중요도를 결정하는 단계;
    결정된 상기 지각적 중요도의 함수로써, 상기 개선 디코딩에 의해 처리되는 상기 고 주파수 대역의 상기 주파수 부대역들에서의 비트들을 제 2 할당하는 단계; 및
    상기 비트들의 제 2 할당에 따라 상기 잔여 신호를 디코딩하는 단계를 포함하는,
    계층적으로 디코딩하기 위한 방법.
  8. 제 7 항에 있어서,
    상기 지각적 중요도를 결정하는 단계는,
    상기 개선 디코딩의 적어도 하나의 주파수 부대역에 대한 제 1 지각적 중요도를 상기 부대역에서의 상기 주파수 마스킹 임계치의 함수, 상기 주파수 부대역에 대한 스펙트럼 포락선의 디코딩의 양자화된 값들의 함수, 및 결정된 정규화 인자의 함수로써 정의하는 제 1 단계; 및
    상기 코어 디코딩을 위해 할당된 비트들의 수 대 상기 부대역에서 가능한 계수들의 수의 비를 상기 제 1 지각적 중요도로부터 차감하는 제 2 단계를 포함하는,
    계층적으로 디코딩하기 위한 방법.
  9. 여러 개의 주파수 부대역들로서 디지털 오디오 주파수 입력 신호의 계층적 코더로서,
    코드 명령들을 저장하는 메모리;
    상기 코드 명령들에 의해 구동하도록 구성되는 프로세서;
    저 주파수 대역에서의 제 1 비트레이트에 따른 상기 입력 신호의 코어 코더― 상기 코어 코더는 에너지 기준에 따른 제 1 이진 할당을 사용함 ―; 및
    고 주파수 대역에서 잔여 신호의 더 높은 비트레이트의 적어도 하나의 개선 코더를 포함하고,
    상기 개선 코더는,
    상기 개선 코더에 의해 처리되는 상기 주파수 대역들의 적어도 일부에 대한 주파수 마스킹 임계치를 계산하도록 구성되는 모듈 ― 상기 마스킹 임계치는 상기 저 주파수 대역의 마지막 부대역 또는 상기 고 주파수 대역의 첫번째 부대역 중 적어도 하나에서 상기 마스킹 임계치의 값에 의해 정규화됨 ―;
    계산된 상기 마스킹 임계치의 함수로써 그리고 상기 코어 코더에 대해 할당된 비트들의 수의 함수로써 상기 고 주파수 대역의 주파수 부대역마다 지각적 중요도를 결정하도록 구성되는 모듈;
    결정된 상기 지각적 중요도의 함수로써, 상기 개선 코더에 의해 처리되는 상기 고 주파수 대역의 상기 주파수 부대역들에 비트들의 제 2 이진 할당을 적용하도록 구성되는 모듈; 및
    상기 비트들의 제 2 이진 할당에 따라 상기 잔여 신호를 코딩하도록 구성되는 모듈을 포함하는,
    계층적 코더.
  10. 여러 개의 주파수 부대역들로서 디지털 오디오 주파수 신호의 계층적 디코더로서,
    코드 명령들을 저장하는 메모리;
    상기 코드 명령들에 의해 구동하도록 구성되는 프로세서;
    저 주파수 대역에서의 제 1 비트레이트에 따라 수신된 신호의 코어 디코더 ― 상기 코어 디코더는 에너지 기준에 따른 제 1 이진 할당을 사용함 ―; 및
    고 주파수 대역에서 잔여 신호의 더 높은 비트레이트의 적어도 하나의 개선 디코더를 포함하고,
    상기 개선 디코더는,
    상기 개선 디코더에 의해 처리되는 상기 주파수 부대역들의 적어도 일부에 대한 주파수 마스킹 임계치를 계산하도록 구성되는 모듈 ― 상기 마스킹 임계치는 상기 저 주파수 대역의 마지막 부대역 또는 상기 고 주파수 대역의 첫번째 부대역 중 적어도 하나에서 상기 마스킹 임계치의 값에 의해 정규화됨 ―;
    계산된 상기 마스킹 임계치의 함수로써 그리고 상기 코어 디코더에 대해 할당된 비트들의 수의 함수로써 상기 고 주파수 대역의 주파수 부대역마다 지각적 중요도를 결정하도록 구성되는 모듈;
    결정된 상기 지각적 중요도의 함수로써, 상기 개선 디코더에 의해 처리되는 상기 고 주파수 대역의 상기 주파수 부대역들에 비트의 제 2 할당을 수행하도록 구성되는 모듈; 및
    상기 비트들의 제 2 할당에 따라 상기 잔여 신호를 디코딩하도록 구성되는 모듈을 포함하는,
    계층적 디코더.
  11. 컴퓨터 프로그램이 저장되고, 프로세서에 의해 실행될 때 여러 개의 주파수 부대역들로서 디지털 오디오 주파수 입력 신호의 계층적 코딩 방법을 구현하기 위한 코드 명령들을 포함하는 컴퓨터 판독가능 저장매체로서,
    상기 방법은,
    저 주파수 대역에서 제 1 비트레이트에 따른 상기 입력 신호의 코어 코딩 ― 상기 코어 코딩은 에너지 기준에 따른 제 1 이진 할당을 사용함 ―; 및
    고 주파수 대역에서 잔여 신호의 더 높은 비트레이트의 적어도 하나의 개선 코딩을 포함하고,
    상기 개선 코딩은,
    상기 개선 코딩에 의해 처리되는 상기 주파수 대역들의 적어도 일부에 대한 주파수 마스킹 임계치를 계산하는 단계 ― 상기 마스킹 임계치는 상기 저 주파수 대역의 마지막 부대역 또는 상기 고 주파수 대역의 첫번째 부대역 중 적어도 하나에서 상기 마스킹 임계치의 값에 의해 정규화됨 ―;
    계산된 상기 마스킹 임계치의 함수로써 그리고 상기 코어 코딩을 위해 할당된 비트들의 수의 함수로써 상기 고 주파수 대역의 주파수 부대역마다 지각적 중요도를 결정하는 단계;
    결정된 상기 지각적 중요도의 함수로써, 상기 개선 코딩에 의해 처리되는 상기 고 주파수 대역의 상기 주파수 부대역들에 비트들을 제 2 이진 할당하는 단계; 및
    상기 비트들의 제 2 이진 할당에 따라 상기 잔여 신호를 코딩하는 단계를 포함하는,
    컴퓨터 판독가능 저장매체.
  12. 프로세서에 의해 실행될 때 여러 개의 주파수 부대역들로서 디지털 오디오 주파수 신호의 계층적 디코딩 방법을 구현하기 위한 코드 명령들을 포함하는 컴퓨터 프로그램을 포함하는 컴퓨터 판독가능 저장매체로서,
    상기 방법은,
    저 주파수 대역에서 제 1 비트레이트에 따라 수신되는 신호의 코어 디코딩 ― 상기 코어 디코딩은 에너지 기준에 따른 제 1 이진 할당을 사용함 ―; 및
    고 주파수 대역에서 잔여 신호의 더 높은 비트레이트의 적어도 하나의 개선 디코딩을 포함하고,
    상기 개선 디코딩은,
    상기 개선 디코딩에 의해 처리되는 상기 주파수 부대역들의 적어도 일부에 대한 주파수 마스킹 임계치를 계산하는 단계 ― 상기 마스킹 임계치는 상기 저 주파수 대역의 마지막 부대역 또는 상기 고 주파수 대역의 첫번째 부대역 중 적어도 하나에서 상기 마스킹 임계치의 값에 의해 정규화됨 ―;
    계산된 상기 마스킹 임계치의 함수로써 그리고 상기 코어 디코딩을 위해 할당된 비트들의 수의 함수로써 상기 고 주파수 대역의 주파수 부대역마다 지각적 중요도를 결정하는 단계;
    결정된 상기 지각적 중요도의 함수로써, 상기 개선 디코딩에 의해 처리되는 상기 고 주파수 대역의 상기 주파수 부대역들에 비트들을 제 2 할당하는 단계; 및
    상기 비트들의 제 2 할당에 따라 상기 잔여 신호를 디코딩하는 단계를 포함하는,
    컴퓨터 판독가능 저장매체.
KR1020127003321A 2009-07-07 2010-06-25 디지털 오디오 신호들의 개선된 코딩/디코딩 KR101698371B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0954682 2009-07-07
FR0954682A FR2947944A1 (fr) 2009-07-07 2009-07-07 Codage/decodage perfectionne de signaux audionumeriques
PCT/FR2010/051307 WO2011004097A1 (fr) 2009-07-07 2010-06-25 Codage/décodage perfectionne de signaux audionumériques

Publications (2)

Publication Number Publication Date
KR20120032025A KR20120032025A (ko) 2012-04-04
KR101698371B1 true KR101698371B1 (ko) 2017-01-26

Family

ID=41531514

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127003321A KR101698371B1 (ko) 2009-07-07 2010-06-25 디지털 오디오 신호들의 개선된 코딩/디코딩

Country Status (7)

Country Link
US (1) US8812327B2 (ko)
EP (1) EP2452336B1 (ko)
KR (1) KR101698371B1 (ko)
CN (1) CN102576536B (ko)
CA (1) CA2766864C (ko)
FR (1) FR2947944A1 (ko)
WO (1) WO2011004097A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2525355B1 (en) * 2010-01-14 2017-11-01 Panasonic Intellectual Property Corporation of America Audio encoding apparatus and audio encoding method
FR3003683A1 (fr) * 2013-03-25 2014-09-26 France Telecom Mixage optimise de flux audio codes selon un codage par sous-bandes
FR3003682A1 (fr) * 2013-03-25 2014-09-26 France Telecom Mixage partiel optimise de flux audio codes selon un codage par sous-bandes
CN104282312B (zh) 2013-07-01 2018-02-23 华为技术有限公司 信号编码和解码方法以及设备
US10424305B2 (en) * 2014-12-09 2019-09-24 Dolby International Ab MDCT-domain error concealment
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
MX2020002972A (es) * 2017-09-20 2020-07-22 Voiceage Corp Metodo y dispositivo para asignar un presupuesto de bits entre subtramas en un codec celp.
CN114708874A (zh) * 2018-05-31 2022-07-05 华为技术有限公司 立体声信号的编码方法和装置
EP3751567B1 (en) * 2019-06-10 2022-01-26 Axis AB A method, a computer program, an encoder and a monitoring device
CN111246469B (zh) * 2020-03-05 2020-10-16 北京花兰德科技咨询服务有限公司 人工智能保密通信系统及通信方法
CN111294367B (zh) * 2020-05-14 2020-09-01 腾讯科技(深圳)有限公司 音频信号后处理方法和装置、存储介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008100385A2 (en) * 2007-02-14 2008-08-21 Mindspeed Technologies, Inc. Embedded silence and background noise compression

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5495552A (en) * 1992-04-20 1996-02-27 Mitsubishi Denki Kabushiki Kaisha Methods of efficiently recording an audio signal in semiconductor memory
JPH07160297A (ja) * 1993-12-10 1995-06-23 Nec Corp 音声パラメータ符号化方式
DE19743662A1 (de) * 1997-10-02 1999-04-08 Bosch Gmbh Robert Verfahren und Vorrichtung zur Erzeugung eines bitratenskalierbaren Audio-Datenstroms
FI109393B (fi) * 2000-07-14 2002-07-15 Nokia Corp Menetelmä mediavirran enkoodaamiseksi skaalautuvasti, skaalautuva enkooderi ja päätelaite
DE60214599T2 (de) * 2002-03-12 2007-09-13 Nokia Corp. Skalierbare audiokodierung
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
FR2849727B1 (fr) * 2003-01-08 2005-03-18 France Telecom Procede de codage et de decodage audio a debit variable
DE602004004950T2 (de) * 2003-07-09 2007-10-31 Samsung Electronics Co., Ltd., Suwon Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren
KR100561869B1 (ko) * 2004-03-10 2006-03-17 삼성전자주식회사 무손실 오디오 부호화/복호화 방법 및 장치
US7272567B2 (en) * 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
CN101263554B (zh) * 2005-07-22 2011-12-28 法国电信公司 在比特率分级和带宽分级的音频解码中的比特率切换方法
KR100827458B1 (ko) * 2006-07-21 2008-05-06 엘지전자 주식회사 오디오 부호화 방법
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
US20100292986A1 (en) * 2007-03-16 2010-11-18 Nokia Corporation encoder
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
JP5383676B2 (ja) * 2008-05-30 2014-01-08 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008100385A2 (en) * 2007-02-14 2008-08-21 Mindspeed Technologies, Inc. Embedded silence and background noise compression

Also Published As

Publication number Publication date
CN102576536B (zh) 2013-09-04
EP2452336B1 (fr) 2013-11-27
US20120185255A1 (en) 2012-07-19
CA2766864A1 (fr) 2011-01-13
US8812327B2 (en) 2014-08-19
CA2766864C (fr) 2015-10-27
EP2452336A1 (fr) 2012-05-16
CN102576536A (zh) 2012-07-11
WO2011004097A1 (fr) 2011-01-13
KR20120032025A (ko) 2012-04-04
FR2947944A1 (fr) 2011-01-14

Similar Documents

Publication Publication Date Title
KR101698371B1 (ko) 디지털 오디오 신호들의 개선된 코딩/디코딩
KR101425944B1 (ko) 디지털 오디오 신호에 대한 향상된 코딩/디코딩
US8965775B2 (en) Allocation of bits in an enhancement coding/decoding for improving a hierarchical coding/decoding of digital audio signals
US8260620B2 (en) Device for perceptual weighting in audio encoding/decoding
KR101161866B1 (ko) 오디오 코딩 장치 및 그 방법
US8452588B2 (en) Encoding device, decoding device, and method thereof
JP6980871B2 (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
US20080140393A1 (en) Speech coding apparatus and method
US10770078B2 (en) Adaptive gain-shape rate sharing
US20100280830A1 (en) Decoder

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 4