KR20090104846A - 디지털 오디오 신호에 대한 향상된 코딩/디코딩 - Google Patents

디지털 오디오 신호에 대한 향상된 코딩/디코딩 Download PDF

Info

Publication number
KR20090104846A
KR20090104846A KR1020097016113A KR20097016113A KR20090104846A KR 20090104846 A KR20090104846 A KR 20090104846A KR 1020097016113 A KR1020097016113 A KR 1020097016113A KR 20097016113 A KR20097016113 A KR 20097016113A KR 20090104846 A KR20090104846 A KR 20090104846A
Authority
KR
South Korea
Prior art keywords
subband
coding
signal
subbands
masking
Prior art date
Application number
KR1020097016113A
Other languages
English (en)
Other versions
KR101425944B1 (ko
Inventor
스테파네 라고트
싸이릴 구이라움
Original Assignee
프랑스 뗄레콤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프랑스 뗄레콤 filed Critical 프랑스 뗄레콤
Publication of KR20090104846A publication Critical patent/KR20090104846A/ko
Application granted granted Critical
Publication of KR101425944B1 publication Critical patent/KR101425944B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은, 이웃하는 적어도 하나의 제 1 서브밴드와 제 2 서브밴드가 변환 코딩되는(601, 602), 몇 개의 서브 밴드에 신호를 코딩/디코딩 하는 방법에 관한 것이다. 본 발명에 따른 방법은, 변환 도메인에서 인지 가중을 적어도 제 2 서브밴드에 적용하기 위한 것으로, 상기 제 2 서브밴드에 적용될 적어도 하나의 주파수 마스킹 문턱값(606)를 결정하고, 제 1 및 제 2 서브밴드 사이의 스펙트럼 연속성을 제공하기 위해 상기 마스킹 문턱값을 정규화한다. 본 발명에서는, 표준 G.729.1에 따른 계층적 인코더의 TDAC 변환 코딩에서 고주파 대역에 인지 가중을 적용할 수 있다.

Description

디지털 오디오 신호에 대한 향상된 코딩/디코딩{IMPROVED CODING/DECODING OF DIGITAL AUDIO SIGNAL}
본 발명은 소리 데이터 처리에 관한 것이다.
이러한 처리는 특히 오디오 주파수 신호(대사, 음악 등)와 같은 디지털 신호의 전송 및/또는 저장에 적합하다.
오디오 주파수 신호를 디지털 형태로 코딩하기 위한 다양한 기술이 있는데, 가장 일반적인 기술로는:
- 펄스 부호 변조(PCM: Pulse Code Modulation)와 적응 차분 펄스 부호 변조(ADPCM: Adaptive Differential PCM)의 파면 인코딩 방법
- 부호 여기 선형 예측(CELP: Code Excited Linear Prediction) 부호화와 같은 분석-합성 파라미터 인코딩 방법 및
- 서브밴드 인지 코딩 또는 전송 코딩 등이 있다.
이러한 기술은 입력 신호를 순차적으로, 즉 샘플 대 샘플(PCM 또는 ADPCM) 또는 "프레임"이라 불리는 샘플들의 블록(CELP와 전송 코딩)으로 처리한다.
요약하면, 음성 신호와 같은 소리 신호는 짧은 창(예를 들어 10-20ms 샘플들)을 통해 평가되는 파라미터를 이용하여 최근 것(예를 들어 8kHz의 8-12 샘플들) 으로부터 예측될 수 있다. 음성 기관 전달 함수(예를 들어 발음하는 자음에 대해서)를 나타내는, 이러한 짧은 구간(숏텀: short-term) 예측 파라미터는 선형 예측 코딩(LPC: Linear Prediction Coding)에 의해 얻어진다. 긴 구간(롱텀: long-term) 상관 관계도 역시 성대의 진동으로부터 오는 발음된 소리(예를 들어 모음에 대해서)의 주기성을 결정하는 데 사용된다. 이는, 말하는 사람에 따라 60Hz(낮은 목소리)부터 600Hz(높은 목소리)까지 전형적으로 변하는 음성 신호의 기본 주파수를 결정하는 데 관여한다. 긴 구간 예측(LTP: Long Term Prediction) 분석은 긴 구간 예측자의 LTP 파라미터, 특히 기본 주파수의 역수로 가끔 "피치 주기(Pitch Period)"를 결정하는 데 사용된다. 피치 주기에서 샘플의 수는 Fe/Fo(또는 정수 부분만)로 정의되는데, Fe는 샘플링 레이트이고 F0는 기본 주파수이다.
피치 주기를 포함하는 롱텀 예측 LTP 파라미터는 발음되는 목소리 신호의 기본 진동을 나타내고, 숏텀 예측 LPC 파라미터는 이 신호의 스펙트럴 엔빌로프(spectral evelope)를 나타낸다.
어떤 코더(coder)에서, 음성 코딩으로부터 나오는 이러한 LPC와 LTP 파라미터 집합은 하나 이상의 원격 통신망을 통해 상응하는 디코더에 블록으로 전송되어 원래 음성이 복원될 수 있다.
표준 음성 코딩에서, 코더는 고정 비트 레이트의 비트스트림을 생성하는데, 이러한 비트레이트 고정은 구현과 코더와 디코더의 사용을 쉽게 한다. 이러한 시스템의 예로 UIT-T G.711 64 kbit/s 코딩 표준, UIT-T G.729 8 kbit/s 코딩 표준 또는 GSM-EFR 12.2 kbit/s 코딩이 있다.
어떤 어플리케이션(이동 전화 통신 또는 IP(Internet Protocol)를 통한 음성과 같은)에서, 가변 레이트 비트스트림을 생성하는 것이 바람직한데, 비트레이트는 사전에 정의된 범위 내에서 그 값을 취한다. "멀티레이트"라 불리는 이러한 코딩 기법은 고정 비트레이트 코딩 기법보다 더 유연하다고 알려진다.
몇가지 멀티레이트 코딩 기법은 다음과 같이 구분될 수 있다.
- 특히 3GPP AMR-NB, 3GPP AMR-WB, or 3GPP2 VMR- WB 코더에서 사용되는 소오스- 및/또는 채널-제어 멀티 모드 코딩
- 코어 비트레이트와 하나 이상의 보강 레이어로 구성되어 "계층적(hierarchical)" 비트스트림이라 불리는 계층적 또는 스케일러블(scalable) 코딩(G.722 at 48, 56 and 64 kbit/s에 따른 표준 코딩은 전형적으로 비트레이트 스케일러블하고, UIT-T G.729.1 and MPEG-4 CELP 코딩은 비트레이트와 밴드폭이 스케일러블함)
- "A multiple description speech coder based on AMR-WB for mobile ad hoc networks", H. Dong, A. Gersho, J.D. Gibson, V. Cuperman, ICASSP, p. 277-280, vol. l (May 2004)에 기재된, 다중 기술(multiple-description) 코딩.
코딩되어야 할 오디오 신호와 관련된 정보를 계층적으로 정렬된 부분 집합(sub-sets)에 분배함으로써, 이러한 정보가 오디오 재생 능력과 관련하여 중요도 순서로 사용될 수 있도록 하는, 가변하는 비트레이트를 제공하는 능력을 갖는, 계층적 코딩에 대해서 아래에서 자세히 설명한다. 이러한 순서를 결정하는 데 고려되는 기준은 부호화되는 오디오 신호의 품질의 최적화(또는 오히려 최소의 열화)이 다. 계층적 코딩은 특히 이종의 망 또는 시간에 따라 변하는 비트레이트를 이용할 수 있는 이종의 망에서의 전송에 적합하고, 또한 다양한 능력을 갖는 단말로의 전송에 적합하다.
계층적(또는 스케일러블) 오디오 코딩의 기본 개념은 다음과 같이 설명될 수 있다.
비트스트림은 기본 레이어(basic layer)와 하나 이상의 보강 레이어로 구성된다. 기본 레이어는 부호화의 최소의 품질을 보증하는 "코어 코덱(core codec)"으로 분류되는 (고정된) 낮은 비트레이트 코덱에 의해 생성된다. 이 레이어는 품질을 수용할 수 있는 수준으로 유지하기 위해 디코더에 의해 수신되어야 한다. 보강 레이어는 품질을 향상시키는 데 기여하는데, 디코더가 모두를 수신하지 못하는 경우가 발생할 수 있다.
계층적 코딩의 주요 장점은 단순히 "비트스트림 절단(bitstream truncation)"으로 비트레이트의 적응이 허용되는 점이다. 레이어의 개수(즉 비트스트림의 절단이 가능한 개수)가 부호화의 거친 정도(granularity)를 정의한다. 거친 정도가 높다("high granularity")는 표현은 비트스트림이 적은(2-4차) 레이어로 구성될 때 사용되고, "fine granularity" 부호화는 예를 들어 1-2 kbit/s 정도의 피치를 허용한다.
전화 통신 대역에서 CELP 타입 코어와 광대역에서 하나 이상의 보강 레이어를 갖는 비트레이트 및 대역폭 스케일러블 코딩 기술을 아래에서 더욱 상세하게 설명한다. 이러한 시스템의 예가 UIT-T G.729.1 8-32 kbit/s fine granularity 표준 에 주어진다. G.729.1 코딩/디코딩 알고리즘이 아래에서 요약된다.
* G.729.1 코더에 대해서
G.729.1 코더는 UIT-T G.729 코더가 연장된 것으로, 수정된 G.729 계층적 코어 코더로, 음성 서비스에 대해서 8-32 kbit/s 비트 레이트에서 협대역(50-4000 Hz)에서 광대역(50-7000 Hz)까지 확장한 신호를 생성한다. 이 코덱은 현존하는 IP 장비(대부분 표준 G.729에 따라 마련된)를 통한 음성과 호환된다. G.729.1은 2006년 5월에 결국 승인된다.
G.729.1 코더가 도 1에 도시되어 있다. 16kHZ로 샘플되는 광대역 입력 신호 S wb 가 먼저 쿼드래쳐 미러 필터링(QMF: Quadrature Mirror Filtering)에 의해 2개의 서브밴드로 분리된다. 저주파 대역(0-4000 Hz)은 저주파 통과 필터링(LP)(100)과 데시메이션(decimation)(101)에 의해 얻어지고, 고주파 대역(4000-8000 Hz)은 고주파 통과 필터링(HP)(102)과 데시메이션(103)에 의해 얻어진다. LP와 HP 필터는 길이가 64비트이다.
저주파 대역은, 8과 12 kbit/s에서 협대역 CELP 코딩(105)에 앞서 50 Hz 이하의 요소를 제거하는 고주파 통과 필터(104)에 의해 전처리되는데, 이 고주파 통과 필터링을 거치는 것은 유용한 대역이 50-7000 Hz 범위를 포함한다고 정의되는 사실을 고려했기 때문이다. 협대역 CELP 코딩은, 제 1 단계로 전처리 필터가 없는 수정된 G.729 코딩과 제 2 단계로 추가적인 고정 CELP 딕셔너리(dictionary)로 구성되는 CELP 직렬 코딩이다.
고주파 대역은 먼저 고주파 통과 필터(102)와 데시메이션(103)의 조합에 의해 발생하는 위신호(앨리어싱)(aliasing)를 보상하기 위해 전처리(106)된다. 고주파 대역은, 신호 S HB 를 얻기 위해, 3000-4000 Hz(원래 7000-8000 Hz의 신호의 요소)의 고주파 대역 요소를 제거하기 위한 저주파 통과 필터(107)에 의해 처리되고, 이후 대역 확장(108) 처리된다.
도 1에 따른 G.729.1 인코더의 주요 특징은 다음과 같다. 저주파 대역 에러 신호 d LB 는 CELP 코더(105)의 출력을 기초로 계산되고(109), 예측 변환 코딩(예를 들어 표준 G.729.1에서 시간 영역 앨리어싱 제거(TDAC: Time Domain Aliasing Cancellation) 타입)이 110 블록에서 실행된다. 도 1을 참조로, 특히 TDAC 인코딩이 조주파 대역 에러 신호와 고주파 대역 필터링된 신호 모두에 적용되는 점을 볼 수 있다.
추가적인 파라미터가 111 블록에 의해 대응되는 디코더에 전송될 수 있는데, 111 블록은 삭제된 프레임을 복원할 수 있도록 프레임 삭제 은폐(FEC: Frame Erasure Concealment)라 불리는 처리를 수행한다.
코딩 블록 105, 108, 110 및 111에 의해 생성된 다른 비트스트림은 다중화 블록 112에서 다중화되어 계층적 비트 스트림으로 조립된다. 이러한 코딩은 20 ms의 샘플의 블록들(또는 프레임), 즉 프레임 당 320 샘플들 단위로 실행된다.
G.729.1 코덱은 다음과 같은 3가지 단계의 코딩 구조를 갖는다.
- CELP 직렬 코딩
- 시간 영역 대역폭 확장(TDBWE: time domain bandwidth extension) 타입의 모듈 108에 의한 대역폭 파라미터의 확장 및
- 수정된 이산 코사인 변환(MDCT: modified discrete cosine transform) 타입의 변환 이후에 적용되는 TDAC 예측 변환 코딩.
* G.729.1 디코더에 대해서
표준 G.729.1에 따른 디코더는 도 2에 도시되어 있는데, 20 ms의 각 프레임을 나타내는 비트는 블록 20에서 역다중화된다.
8과 12 kbit/s 레이어의 비트스트림은 CELP 디코더(201)에 의해 사용되어 협대역 합성(0-4000 Hz) 신호를 생성한다. 14 kbit/s 레이어와 관련된 비트스트림의 일부는 대역폭 확장 모듈(202)에 의해 디코딩된다. 14 kbit/s보다 높은 비트레이트와 관련된 비트스트림의 일부는 TDAC 모듈(203)에 의해 디코딩된다. 에코 전후처리는 보강(205)과 저주파 대역(206)의 후처리 뿐만 아니라 블록 204와 207에 의해 수행된다.
16 kHz로 샘플되는 광대역 출력 신호
Figure 112009046991114-PCT00001
는 앨리어싱 제거(208)를 통합하는 QMF 합성 필터뱅크(209, 210, 211, 212 및 213)를 이용하여 얻어진다.
The description of the transform coding layer is detailed hereafter.
변환 코딩 레이어에 대한 자세한 설명이 이어진다.
* G.729.1 코더에서 TDAC 변환 코더에 대해서
G.729.1 코더에서 TDAC 타입 변환 코딩이 도 3에 도시되어 있다.
필터 W LB (z)(300)는, 게인 보상과 함께, 저주파 대역 에러 신호 d LB 에 적용되는 인지 가중 필터(perceptual weighting filter)이다. MDCT 변환은 다음을 얻기 위해 301과 302에서 계산된다.
- 인지 필터된 차이 신호의 MDCT 스펙트럼 D w LB
- 원래 고주파 대역 신호의 MDCT 스펙트럼 S HB.
이러한 MDCT 변환(301, 302)은 8 kHz로 샘플되는 신호의 20 ms(160 계수)에 적용된다. 결합 블록 303으로부터 나오는 스펙트럼 Y(k)는 2 x 160, 즉 320개의 계수로 구성되고, 다음과 같이 정의 된다.
[Y(0)Y(1)···Y(319)]=[D w LB (0)D w LB (1)···D w LB (159)S HB (0)S HB (1)···S HB (159)]
이러한 스펙트럼은 18개의 서브밴드로 나뉘고, 서브밴드 j는 nb_coef(j)로 표시되는 다수의 계수가 할당된다. 서브밴드로의 분리는 다음의 표 1에 정의되어 있다.
따라서, 서브밴드 j는 계수 Y(k)(sb_bound(j) <= k < sb_bound(j+1))로 구성된다.
J sb_bound(j) nb_coef(j)
0 0 16
1 16 16
2 32 16
3 48 16
4 64 16
5 80 16
6 96 16
7 112 16
8 128 16
9 144 16
10 160 16
11 176 16
12 192 16
13 108 16
14 224 16
15 240 16
16 256 16
17 272 8
18 280 -
스펙트럴 엔빌로프 {log_rms(j)} j =0,…, 17은 블록 304에서 다음 식에 따라 계산된다.
Figure 112009046991114-PCT00002
,여기서ε rms =2-24.
스펙트럴 엔빌로프는 블록 305에서 가변 비트레이트로 부호화된다. 블록 305는 다음과 같은 단순한 스칼라 양자화에 의해 얻어지는, rms_index(j) (j=0...,17)로 표시되는 양자화된 정수값을 만든다.
rms_index(j) = round(2 log_rms(j)), 여기서 "round"는 가장 가까운 정수로 반올림되고, -11 <= rms_index(j) <=+20와 같은 제약이 주어진다.
이와 같이 양자화된 값 rms_index(j)는 비트 할당 블록 306에 전달된다.
스펙트럴 엔빌로프 자체의 코딩은 블록 305에 의해 수행되는데, 저주파 대역 rms_index(j) (j=0,...,9)과 고주파 대역 rms_index(j) (j=0,...,9)에 대해서 분리하여 수행된다. 각 대역에서, 주어진 기준 및, 좀더 정확히, rms_index(j) 값에 따라 2가지 종류의 코딩이 선택될 수 있다.
- "차등 Huffman 코딩"이라 불리는 코딩에 의해 인코딩 될 수 있는가
- 또는 자연 바이너리 코딩(natural binary coding)에 의해 인코딩 될 수 있는가.
선택된 코딩 모드를 가리키기 위해 0 또는 1의 비트가 디코더에 전송된다.
양자화를 위해 각 서브밴드에 할당된 비트들은, 블록 305에서 나오는 양자화된 스펙트럼 엔빌로프를 기초로, 블록 306에서 결정된다. 비트 할당이 수행되어 근 평균 제곱 편차(RMSD: root mean square deviation)를 최소화하고 각 서브밴드에 할당되는 비트의 전체 개수 및 초과하지 않을 최대 비트 개수에 제약이 있을 것을 기대한다. 서브밴드의 스펙트럴 컨텐트는 구 벡터 양자화(spherical vector quantization)(307)에 의해 인코딩 된다.
블록 305와 307에 의해 생성된 다른 비트스트림은 다중화 블록 308에 의해 다중화되고 계층적 비트스트림으로 조립된다.
* G.729.1 디코더에서 변환 디코더에 대해서
G.729.1 디코더에서 TDAC 타입 변환 디코딩의 단계는 도 4에 도시되어 있다.
도 3의 인코더와 유사하게, 디코딩되는 스펙트럴 엔빌로프(401)는 비트 할당(402)을 복원하는 것을 가능하게 한다. 엔빌로프 디코딩(401)은, 블록 305에 의해 생성된 다중화된 비트스트림을 기초로, 스펙트럴 엔빌로프 rms_index(j) (j=0,...,17)의 양자화된 값을 복원하고 디코딩되는 엔빌로프를 추론한다.
Rms_q(j) = 21/2 rms_index ( j )
각 서브밴드의 스펙트럴 컨텐트는 역 구 벡터 양자화(403)에 의해 복원된다. "비트 버짓(bit budget)"이 불충분하여 전송되지 않은 서브밴드는 밴드 확장(도 2의 블록 200)의 출력 신호의 MDCT 변환을 기초로 외삽(404)된다.
스펙트럴 엔빌로프와 관련된 스펙트럼의 레벨 조절(405)와 후처리(406) 이후에, MDCT 스펙트럼은 블록 407에서 둘로 나뉜다.
- 인지 필터링되고 저주파 대역 디코딩된 차이 신호의 스펙트럼
Figure 112009046991114-PCT00003
에 해당하는 첫 160 계수
- 원래 고주파 대역 디코딩된 신호의 스펙트럼 S HB 에 해당하는 다음 160 계수.
이러한 두 스펙트럼은 IMDCT로 표시되는 역 MDCT 변환(408, 410)에 의해 시간 신호로 변환되고, W LB (z)-1로 표시되는 역 인지 가중 필터(409)가 상기 역 변환의 결과인 신호
Figure 112009046991114-PCT00004
에 적용된다.
서브밴드에 비트가 할당되는 것(도 3의 블록 306 또는 도 4의 블록 402)이 다음에 구체적으로 설명된다.
블록 306과 402는 rms_index(j) (j=0,...,17) 값을 기초로 동일한 동작을 수행한다. 따라서, 블록 306의 기능만을 설명해도 충분할 것으로 보인다.
바이너리 할당의 목적은 각 서브밴드 사이에 nbits_VQ라 표시되는 정해진(가변의) 비트 버짓을 분배하는 것으로, nbits_VQ = 351 - nbit_rmsnbit_rms은 스펙트럴 엔빌로프의 코딩에 사용되는 비트의 개수이다.
할당의 결과로, nbit(j) (j=0,...,17)로 표시되는 비트의 전체 개수가 나오는데, 각 서브밴드에 할당되고 전체적인 제약으로 다음 사항을 갖는다.
Figure 112009046991114-PCT00005
표준 G.729.1에서, nbit(j) (j=0,...,17)은, nbit(j)는 아래 표 2에 지정된 제한된 값의 집합으로부터 선택되어야 하는 점에 의해 더 제한이 된다.
서브밴드j 크기 nb_coef(j) 허용되는 값의 집합(비트 개수)
8 R8 = {0,7,10,12,13,14,15,16}
16 R16 = {0,9,14,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32}
표준 G.729.1에서 할당은, ip(j) (j=0..17)라 불리고 다음과 같이 정의되는 서브밴드 에너지에 연결되는 서브밴드당 "인지 중요도(perceptual importance)"에 달려 있다.
Figure 112009046991114-PCT00006
, 여기서 offset = -2.
Rms_q(j) = 2 1/2rms_index ( j )이기 때문에, 이 식은 다음과 같이 단순화게 표현될 수 있다.
Figure 112009046991114-PCT00007
.
각 서브밴드의 인지 중요도를 기초로, nbit(j) 할당은 다음과 같이 계산될 수 있다.
Figure 112009046991114-PCT00008
, 여기서 λ opt 는 이분법(dichotomy)에 의해 최적화된 파라이터이다.
TDAC 변환 코더의 비트 할당(306)에서 인지 가중 필터링(300)의 발생에 대해서 더욱 상세히 설명된다.
표준 G.729.1에서, TDAC 코딩은 앞서 설명한 것과 같이 저주파 대역에서 인지 가중 필터 W LB (z)(300)를 사용한다. 실제로, 인지 가중 필터링은 코딩 노이즈를 구체화하는 것을 가능하게 한다. 이 필터링의 원리는 원래 신호가 강한 에너지를 갖는 주파수 대역에 더 많은 노이즈를 끼워 넣는 것을 가능하게 하는 점을 이용하는 것이다.
협대역 CELP 코딩에서 가장 널리 사용되는 인지 가중 필터는
Figure 112009046991114-PCT00009
(0 < γ2 < γ1< 1)의 형태로,
Figure 112009046991114-PCT00010
는 선형 예측 스펙트럼(LPC)을 나타낸다. 따라서, CELP 코딩 분석-합성의 효과는 이 형태의 필터에 의해 인지 가중된 신호 영역에서 근 평균 제곱 편차(RMSD)를 최소화하는 것이다.
하지만, 스펙트럼 D w LB S HB 가 인접할 때(도 3의 블록 303) 스펙트럼이 연속하는 것을 보장하기 위하여, 필터 W LB (z)는 다음 형태로 정의되는데,
Figure 112009046991114-PCT00011
, γ1 = 0.96, γ1 = 0.6이고,
Figure 112009046991114-PCT00012
이다.
팩터 fac는 저주파와 고주파 밴드(4 kHz)의 연결점에 1-4 kHz의 필터 게인이 제공되도록 한다. 표준 G.729.1에 따른 TDAC 코딩에서 코딩은 에너지 기준에만 의존하는 것을 주목해야 한다.
* 종래 기술의 문제점
표준 G.729.1에서, 인코더 TDAC는 다음을 함께 처리한다.
- 원래 저주파 대역과,
Figure 112009046991114-PCT00013
형태의 필터에 의해 인지 필터되고 게인 보상(스펙트럼이 연속되도록 보장하는)된 CELP 합성 사이의 신호 차이
- 원래 고주파 대역 신호를 포함하는 고주파 신호.
저주파 대역(밴드) 신호는 50 Hz-4 kHz에 해당하고, 고주파 대역 신호는 4-7 kHz에 해당한다.
RMSD 기준에 따라 MDCT 영역에서 이 두 신호가 함께 코딩된다. 따라서, 고주파 대역은 에너지 기준에 따라 코딩되는데, 이는 "인지" 관점에서 최적이 아닐 수 있다.
더욱 일반적으로, 몇 가지 대역에서 코딩이 고려될 수 있는데, 인지 가중 필터가 시간 영역에서 적어도 하나의 밴드의 신호에 적용되고 서브밴드의 집합이 변환 코딩에 의해 공동으로 코딩된다. 인지 가중을 주파수 영역에 적용하고자 할 때 서브밴드 사이의 스펙트럼의 연속성과 균질성 문제가 제기된다.
본 발명의 목적은 이러한 상황을 개선하는 데 있다.
이러한 목적으로, 여러 서브밴드의 신호를 코딩하는 방법, 즉 인접하는 적어도 제1 서브밴드와 제 2 서브밴드를 변환 코딩하는 방법이 제공된다.
발명의 관점에서, 변환되는 영역에서 인지 가중치를 적어도 제 2 서브밴드에 적용하기 위하여, 본 발명은 다음 단계를 포함하여 구성된다.
- 제 2 서브밴드에 적용될 적어도 하나의 주파수 차단 문턱값(마스킹 문턱값: masking threshold)을 결정하고,
- 제 1 및 제 2 서브밴드 사이 스펙트럼의 연속성을 보장하기 위하여 마스킹 문턱값을 정규화한다.
이에 본 발명은, 마스킹 문턱값을 이용하여, 주파수 대역의 일부분에만(적어도 앞서 언급한 "제 2 서브밴드"에) 주파수 인지 가중치를 계산하고 적어도 하나의 다른 주파수 대역(적어도 앞서 언급한 "제 1 서브밴드")과 스펙트럼 연속성을 보장하고 이 2 주파수 밴드를 포함하는 스펙트럼에 대한 마스킹 문턱값을 표준화(정규화)하는 것을 제안한다.
각 서브밴드에 할당될 비트의 개수가 스펙트럴 엔빌로프를 기초로 결정되는 본 발명의 제 1 실시예에서, 제 2 서브밴드에 대한 비트 할당은, 적어도 제 2 서브밴드에 적용되는, 정규화된 마스킹 커브 계산의 함수로 결정된다.
제 1 실시예에서, 에너지 기준만을 기초로 비트를 할당하는 대신에, 인지 기준에 따라 가중 많은 비트를 요구하는 서브밴드에 비트를 할당하는 것이 가능하게 할 수 있다. 그리고, 인지 기준에 따라 특별히 서브밴드 사이의 비트의 분배를 최적화함으로써 오디오 품질을 향상시킬 수 있도록, 오디오 밴드 부분을 마스킹함으로써 주파수 인지 가중치가 적용될 수 있다.
본 발명의 제 2 실시예에서, 제 2 서브밴드에서 변환된 신호는, 제 2 서브밴드에 대해 정규화된 마스킹 문턱값의 제곱 근(square root)에 비례하는 요소에 의해 가중된다.
제 2 실시예에서, 정규화된 마스킹 문턱값은 제 1 실시예에서와 같이 서브밴드의 비트 할당에 사용되지 않고, 적어도 변환된 영역에서 제 2 서브밴드의 신호를 직접 가중하는데 유리하게 사용될 수 있다.
본 발명은, 제 1 서브밴드가 저주파 주파수 대역에 포함되고 제 2 서브밴드가 대역 확장에 의해 7000 Hz 또는 그 이상(전형적으로 14 kHz까지)의 고주파 대역에 포함되는, 표준 G.729.1에 따른 전체 코더에서 TDAC 타입 변환 코딩에 유용하게 적용될 수 있고 이에 한정되지 않는다..본 발명은 고주파 대역에 대해서 인지 가중을 하고 저주파 대역과 스펙트럼 연속성을 보장하는 것으로 적용될 수 있다.
계층적인 구조를 갖는 이런 종류의 전체 코더에서, 변환 코딩은 전체 계층 코더의 상위 레이어에서 발생하는 것을 알 수 있는데, 다음과 같은 경우 유리하다.
- 제 1 서브밴드는 계층 코더의 핵심 코딩으로부터 나오는 신호로 구성되고,
- 제 2 서브밴드는 원래 신호로 구성된다.
표준 G.729.1 코더에서, 핵심 코딩으로부터 나오는 신호는 인지적으로 가중될 수 있고, 스펙트럴 대역 전체가 결국 인지적으로 가중될 수 있다는 것이 발명을 구현할 때 유리한 점이다.
표준 G.729.1 코더에서, 핵심 코딩으로부터 나오는 신호는 원래 신호와 원래 신호의 합성 사이의 차이("신호 차이(signal difference)" 또는 "에러 신호(error signal)"로 불림)를 나타내는 신호가 될 수 있다. 아래 설명될 도 12를 참고로, 발명을 구현하기 위하여 이용할 수 있는 원래 신호를 절대적으로 갖고 있을 필요가 없는 점이 장점이 된다.
본 발명은, 앞서 설명한 코딩 방법과 유사하게, 이웃하는 적어도 하나의 제 1 및 제 2 서브밴드가 변환 디코딩되는 디코딩 방법과도 관련된다. 적어도 제 2 서브밴드에 변환된 영역(domain)의 인지 가중을 적용하기 위해서, 디코딩 방법은 다음 과정으로 이루어진다.
- 디코딩되는 스펙트럴 엔빌로프를 기초로 제 2 서브밴드에 적용될 적어도 하나의 주파수 마스킹 문턱값을 결정하는 것; 및
- 제 1과 제 2 서브밴드 사이의 스펙트럼 연속성을 보장하기 위하여 마스킹 문턱값을 정규화하는 것.
디코딩 방법의 제 1 실시예는, 앞서 설명한 인코딩의 제 1 실시예와 비슷하게, 디코딩에 비트를 할당하는 것과 관련되는데, 각 서브밴드에 할당되는 비트의 개수는 스펙트럴 엔빌로프의 디코딩을 기코로 결정된다. 본 발명의 실시예에 따라, 제 2 서브밴드에 대한 비트의 할당은, 적어도 제 2 서브밴드에 적용되는, 정규화된 마스킹 커브 계산의 함수로 결정된다.
본 발명의 관점에서 디코딩 방법의 제 2 실시예는 정규화되는 마스킹 문턱값의 제곱 근에 의해서 제 2 서브밴드의 변환된 신호를 가중하는 것으로 구성되는데, 이 실시예에 대해서는 도 10b를 참고로 상세히 설명한다.
본 발명의 특징 및 장점은 실시예를 통해 주어지는 상세한 설명과 이미 설명된 도 1 내지 4를 포함하여 첨부되는 도면을 통해 명백해진다.
도 1은 G.729.1 코더를 도시한 것이고,
도 2는 표준 G.729.1에 따른 디코더를 도시한 것이고,
도 3은 G.729.1 코더에서 TDAC 타입 변환 코딩을 도시한 것이고,
도 4는 G.729.1 디코더에서 TDAC 타입 변환 디코딩의 단계를 도시한 것이고,
도 5는 마스킹을 위한 스프레드 함수(spread function)를 도시한 것이고,
도 6은, 도 3과 비교하여, 본 발명의 첫 번째 실시예에 따라 비트 할당을 위해 마스킹 커브 계산 606을 이용하는 TDAC 인코딩 구조를 도시한 것이고,
도 7은, 도 4와 비교하여, 본 발며의 첫 번째 실시예에 따라, 마스킹 커브 계산 702를 이용하는, 도 6과 유사한 TDAC 디코딩 구조를 도시한 것이고,
도 8은 샘플링 주파수가 16 kHz이고 마스킹이4-7 kHz 고주파대역에 적용되는 첫 번째 실시예에서 마스킹 커브의 정규화를 도시한 것이고,
도 9A는, 본 발명의 두 번째 실시예에서, 4-7 kHz 고주파의 신호를 직접 가중하고 정규화된 마스킹 문턱값을 코딩하는 , 수정된 TDAC 인코딩의 구조를 도시한 것이고,
도 9b는, 도 9A의 두 번째 실시예의 변형으로, 스펙트럴 엔빌로프를 코딩하는 TDAC 인코딩의 구조를 도시한 것이고,
도 10a는, 본 발명의 두 번째 실시예에 따라, 도 9A와 유사한 TDAC 디코딩 구조를 도시한 것이고,
도 10b는, 본 발명의 두 번째 실시예에 따라, 디코딩에서 마스킹 문턱값을 계산하는, 도 9b와 유사한 TDAC 디코딩 구조를 도시한 것이고,
도 11은, 샘플링 주파수가 32 kHz이고 4-14 kHz의 초광대역에 마스킹이 적용되는, 본 발명의 두 번째 실시예에서 초광대역에서 마스킹 커브의 정규화를 도시한 것이고,
도 12는, 차이 신호 DLB(실선)와 원래 신호 SLB(점선)에 대해서, CELP 코딩 결과의 스펙트럼 파워를 도시한 것이다.
본 발명에 대한 상세한 설명이 이어지는데, 본 발명은 도 1 내지 4를 참조로 설명된 표준 G.729.1에 따른 인코더와 디코더에 한정되지 않는다.
본 발명의 원리에 대한 이해를 돕기 위해, 주파수 마스킹과 인지 필터링에서 게인 보상의 개념에 대해서 먼저 설명한다.
본 발명은 "동시 마스킹(simultaneous masking)" 또는 "주파수 마스 킹(frequency masking)"으로 알려진 마스킹 효과를 이용하여 변환 코더에서 수행되는 인지 가중의 성능 향상을 가져온다.
이러한 특성은 "차폐음(masking sound)"이라고 하는 소리가 있을 때 듣는 문턱값의 변화에 대응한다. 이러한 효과는, 거리 밖에서 주위 소음에 대항해서 대화를 계속하려 할 때, 예를 들어 차량의 소음이 사람의 목소리를 가릴 때, 전형적으로 관찰되는데, 위하는 경우에 한 시도가 있을 때
오디오 코덱에서 마스킹을 이용하는 예는 Mahieux et al.의 문서에서 볼 수 있다. "High-quality audio transform coding at 64 kbps", Y. Mahieux, J.P. Petit, IEEE Transactions on Communications, Volume 42, no.11, Pages: 3010 - 3019 (November 1994).
이 문서에서, 스펙트럼의 각 라인에 대해서 대강의 마스킹 문턱값이 계산되었다. 이 문턱값은 들을 수 있다고 가정되는 문제의 라인보다 위에 있다. 마스킹 문턱값은 소리(사인파 또는 필터된 화이트 노이즈)의 마크킹 효과를 모델링한 스프레드 함수 B(v)에 대한 신호 스펙트럼과 다른 신호(사인파 또는 필터된 화이트 노이즈)에 의한 컨볼루션(convolution)을 기초로 계산된다.
스프레드 함수의 예가 도 5에 도시되어 있다. 이 함수는 주파수 도메인에 정의되어 있는데, 단위는 "Bark"이다. 주파수 눈금(scale)은 귀의 주파수 민감도를 나타낸다. Hertz단위의 주파수 f의 Bark 단위로 표시되는 주파수 v로의 변환은 다음 관계식에 의해 근사화될 수 있다.
Figure 112009046991114-PCT00014
이 문서에서, 마스킹 문턱값의 계산은 라인이 아닌 서브밴드에 대해서 실행된다. 이와 같이 얻어지는 문턱값은 각 서브밴드의 인지 가중에 사용된다. 비트 할당은, RDMS의 최소화가 아닌 "마스크 대비 코딩 노이즈(coding noise to mask)" 비를 최소하는 것에 의해 수행되는데, 마스킹 문터값 이하고 들리지 않도록 코딩 노이즈를 형성하는 것을 목표로 한다.
물론, 다른 마스킹 모델이 제안되고 있다. 전형적으로, 스프레드 함수는 라인의 크기 함수 및/또는 마스킹 라인의 주파수가 될 수 있다. "피크(peaks)"의 검출도 구현될 수 있다.
표준 G.729.1에 따른 코딩이 최적이 되지 못하는 특징을 줄이기 위하여 Mahieux et al.의 문서에서 기술된 것과 비슷한 방식으로 비트 할당에서 주파수 마스킹 기법의 통합을 고려하는 것을 지적하는 것이 적절하다. 하지만, 저주파 대역과 고주파 대역, 두 신호의 다른 성질에 의해 이 문서에 있는 전 대역 마스킹 기법의 직접 적용은 어렵다. 한편, 저주파 대역 신호가 원래 신호와 동질하지 않기 때문에 MDCT 도메인에서 전 대역 마스킹 문턱값이 제대로 계산될 수 없다. 반면에, 전체 주파수 대역에 마스킹 문턱값을 적용하면 ?(z/?l)/?(z/?2) 타입의 필터에 의해 이미 가중된 저주파 대역의 신호가 다시 가중되는 결과가 되기 때문에, 추가적인 문턱값 가중은 저주파 대역 신호에 대해서는 불필요하다.
이하에서 설명되는 본 발명은, 표준 G.729.1에 따른 인코더의 TDAC 인코딩 성능을 향상시킬 수 있도록 하는데, 고주파 대역(4-7 kHz)에 인지 가중을 적용함으로써, 저주파 대역과 고주파 대역 두 대역의 만족스러운 결합 코딩을 위해 저주파와 고주파 대역 사이에 스펙트럼 연속성을 보장하도록 한다.
본 발명의 구현에 의해 성능이 향상된, 표준 G.729.1에 따른 인코더 및/또는 디코더에서, 아래 설명되는 예는 TDAC 코더와 디코더만이 수정된다.
유용한 대역인 50 Hz ~ 7kHz를 갖는 입력 신호는 16 kHz로 샘플링된다. 실제로, 표준 G.729.1에서와 같이, 코더는 최고 비트레이트 32 kHz로 동작하고, 디코더는 하나 이상의 보강 레이어(2 kbit/s 스텝의12-32 kbit/s) 뿐만 아니라 8 kHz의 핵심을 수신할 수 있다. 도 1과 2에 도시한 대로 코딩과 디코딩은 같은 구조를 갖는다. 도 6과 7에 도시된 바와 같이 블록 110과 203만이 수정된다.
도 6을 참고로 설명되는 첫 번째 실시예에서, 수정된 TDAC 코더는, RMSD 뒤의 비트 할당(306)이 마스킹 커브 계산과 수정된 비트 할당(블록 606과 607)로 교체된 것을 제외하고는, 도 3의 것과 동일한데, 본 발명은 마스킹 커브 계산(606)과 비트 할당에서의 이용(607)을 골격으로 한다.
비슷하게, 첫 번째 실시예에 따른 수정된 TDAC 디코더는 도 7에 도시되어 있다. 이 디코더는 도 4의 것과 동일한데, RMSD 다음의 비트 할당(402)가 마스킹 커브 계산과 수정된 비트 할당(블록 702와 703)으로 교체된 것만 다르다. 수정된 TDAC 코더와 대칭 형태로, 본 발명은 블록 702와 703과 관련된다.
rms_index(j) (j=0,...,17) 값을 기초로 블록 606과 702가 같은 동작을 수행한다. 비슷하게, log_ mask(j)와 rms_index(j) (j=0,...,17) 값을 기초로 블록 607과 703이 동일한 동작을 수행한다
따라서, 블록 606과 607의 동작만이 이하에서는 설명된다.
블록 606은 양자화된 스펙트럴 엔빌로프 rms_q(j) (j=0,...,17, j는 서브밴드의 개수)를 기초로 마스킹 커브를 계산한다.
서브밴드 j의 마스킹 문턱값 M(j)는 에너지 엔빌로프
Figure 112009046991114-PCT00015
와 스프레드 함수 B(v)의 컨볼루션에 의해 정의된다. 인코더 G.729.1에서 TDAC 코딩의 실시예에서, 이러한 마스킹은 신호의 고주파 대역에 대해서만 다음과 같이 수행되는데,
Figure 112009046991114-PCT00016
, v k 는 서브밴드 k의 중심 주파수로서 Bark로 표현되고, "×"는 다음에 설명되는 스프레드 함수와의 곱을 나타낸다.
좀더 일반적인 용어로, 서브밴드 j에 대한 마스킹 문턱값 M(j)은 다음의 컨볼루션으로 정의된다.
- 스펙트럴 엔빌로프
- 서브밴드 j의 중심 주파수를 포함하는 스프레드 함수.
유리한 스프레드 함수가 도 5에 도시되어 있다. 이는 삼각 함수로, 첫 번째 기울기는 27dB/Bark이고 두 번째 기울기는 -10dB/Bark이다. 이 스프레드 함수는 마스킹 커브를 다음과 같이 반복 계산하도록 한다.
Figure 112009046991114-PCT00017
,
여기서,
Figure 112009046991114-PCT00018
, j =11,..,17
Figure 112009046991114-PCT00019
, j=10,..,16이고,
Figure 112009046991114-PCT00020
,
Figure 112009046991114-PCT00021
.
Δ1(j)와 Δ2(j) 값은 미리 계산되어 저장될 수 있다.
G.729.1 인코더와 같은 계층적인 코더에서 비트 할당을 위한 본 발명의 첫 번째 실시예를 다음에 설명한다.
비트 할당의 기준은 다음과 같은 신호-마스크 비율을 기초로 한다.
Figure 112009046991114-PCT00022
저주파 대역은 이미 인지 필터링되었기 때문에, 마스킹 문턱값은 고주파 대역에 제한되어 적용된다. 저주파 대역 스펙트럼과 마스킹 문턱값에 의해 가중되는 고주파 대역 스펙트럼 사이의 스펙트럼 연속성을 보장하기 위하여 또한 비트 할당의 편중을 피하기 위하여, 마스킹 문턱값은 저주파 대역의 마지막 서브밴드의 값에 의해 정규화된다.
인지 중요도는 다음과 같이 정의되는데,
Figure 112009046991114-PCT00023
여기서 offset = -2이고, normfac는 다음 관계식에 따라 계산되는 정규화 요소이다.
Figure 112009046991114-PCT00024
인지 중요도 ip(j) (j=0,...,9)는 표준 G.729.1에 정의된 것과 동일하고, 반면에 ip(j) (j= 10,...,17)의 정의는 바뀌었다.
위와 같이 다시 정의된 인지 중요도는 다음과 같은데,
Figure 112009046991114-PCT00025
여기서, log_mask(j) = log2 (M (j))-normfac이다.
인지 중요도의 계산의 괄호에서 두 번째 라인은, 계층적 코더의 상위 레이어로서 변환 코딩에서 비트 할당에 대해서 첫 번째 실시예에 따른 발명의 구현을 표현한 것이다.
마스킹 문턱값의 정규화의 예가 도 8에 도시되어 있는데, 4-7 kHz의 마스킹이 저주파 대역(0-4 kHz)에 적용되는 고주파 대역의 연결을 보여준다.
블록 607과 703은 비트 할당 계산을 수행하는데,
Figure 112009046991114-PCT00026
, 여기서 ? opt 는 표준 G.729.1에서와 같이 이분법(dichotomy)에 의해 얻어진다.
종래 기술인 블록 307과 402와 비교하여 유일한 차이점은 고주파 대역의 서브밴드에 대해 인지 중요도 ip(j)에 대한 정의이다.
저주파 대역의 마지막 서브밴드의 값과 관련하여 마스킹 문턱값의 정규화가 수행되는 실시예의 변형에서, 고주파 대역의 첫 서브밴드에 마스킹 문턱값의 값을 기초로 마스킹 문턱값의 정규화가 수행될 수 있는데, 다음과 같다.
Figure 112009046991114-PCT00027
또 다른 변형으로, 마스킹 문턱값은 주파수 대역의 전체에 걸쳐 다음과 같이 계산될 수 있다.
Figure 112009046991114-PCT00028
마스킹 문턱값은 저주파 대역의 마지막 서브밴드의 값에 의한 다음과 같은 마스킹 문턱값의 정규화 후에
Figure 112009046991114-PCT00029
또는 고주파 대역의 첫 서브밴드의 값에 의해 다음과 같은 마스킹 문턱값의 정규화 후에
Figure 112009046991114-PCT00030
마스킹 문턱값이 고주파 대역에만 적용된다.
물론, 정규화 요소 normfac 또는 마스킹 문턱값 M(j)을 주는 이러한 관계식은 고주파 대역(8이 아닌 다른 수)과 저주파 대역(10이 아닌 다른 수) 모두의 어느 서브밴드(전체가 18이 아닌)에도 일반화될 수 있다.
일반적인 용어로, 저주파 대역과 고주파 대역 사이에 에너지 연속성이 추구되는데, 이를 위해 원래 신호 자체가 아닌 인지적으로 가중된 저주파 대역 차이 신호 d W LB 를 이용한다. 실제로, 도 12에 도시한 바와 같이, 저주파 대역의 마지막(전형적으로 2700 Hz 이후)의 차이 신호(실선)에 대한 CELP 코딩은 원래 신호 자체(점선)에 매우 근접한 에너지 레벨이 된다. G.729.1 코딩에서와 같이 인지적으로 가중된 신호 차이만이 저주파 대역에서 이용될 수 있기 때문에, 이러한 지식은 고주파 대역 마스킹 정규화 요소를 정하는데 이용될 수 있다.
두 번째 실시예에서, 정규화된 마스킹 문턱값은, 첫 번째 실시예에서와 같이, 인지 중요도의 정의에서 에너지의 가중에 이용되지 않고, TDAC 코딩 전의 고주파 대역 신호를 직접 가중하는 데 이용된다.
두 번째 실시예는 도 9a(인코딩)와 도 10a(디코딩)에 도시되어 있다 특히 실행되는 디코딩에 대해서 본 발명과 관련되는 두 번째 실시예의 변형은, 도 9b(인 코딩)와 도 10b(디코딩)에 도시되어 있다.
도 9a와 9b에서, 블록 903에서 나오는 스펙트럼 Y(k)는 18 서브밴드로 나뉘고 스펙트럴 엔빌로프가 앞서 설명한 대로 계산된다(904).
반면, 마스킹 문턱값은 양자화되지 않은 스펙트럴 엔빌로프를 기초로 계산된다(도 9a에서 905와 도 9b에서 906b).
도 9a 실시예에서, 마스킹 문턱값 M(j)에 의해 가중하는 것을 나타내는 정보가 스펙트럴 엔빌로프의 코딩보다 직접 인코딩된다. 실제로, 이 실시예에서, 스케일 팩터 sf(j)는 j = 10부터 j = 17까지만 코딩된다.
실제로, 스케일 팩터는 다음과 같이 주어지는데:
- 저주파 대역에 대해서, sf(j) = 1 (j = 0,· · ·,9),
- 고주파 대역에 대해서, 정규화된 마스킹 문턱값 M(j)의 제곱 근에 의해, 즉
Figure 112009046991114-PCT00031
(j = 10,...,17).
따라서, j= 0,...,9에 대해서는 스케일 팩터를 반드시 코딩할 필요는 없고, 스케일 팩터는 j=10,...,17에 대해서만 코딩된다.
도 9a를 참조하여, j = 10,· · ·,17에 대한 스케일 팩터 sf(j)에 대응하는 정보는, G.729.1 인코더(도 3의 305)에서 사용되는 것과 같은 타입의 엔빌로프 코딩 기법에 의해 인코딩될 수 있는데, 예를 들어 고주파 대역 부분에 대해 차등 Huffman 코딩이 따르는 스케일 양자화에 의해 인코딩될 수 있다.
스펙트럼 Y(k)는, "gain-shape" 타입의 코딩 전에, 디코딩된 스케일 팩터 sf_q(j) (j = 0,· · ·,17 에 의해 분리되는데(907), 이러한 코딩은 다음의 Ragot and al.의 문서에 설명되듯이 RMSD를 이용하여 대수적인 양자화에 의해 수행된다.
"Low-complexity multi-rate lattice vector quantization with application to wideband TCX speech coding at 32 kbit/s", S. Ragot, B. Bessette, and R. Lefebvre, Proceedings ICASSP - Montreal (Canada), Pages: 501-504, vol.1 (2004).
이 gain-shape 타입의 양자화 방법은 특히 표준 3GPP AMR-WB+에서 구현된다.
대응되는 디코더가 도 10a에 도시되어 있다. 스케일 팩터 sf_q(j) (j = 0,…,17)는 블록 1001에서 디코딩된다. 블록 1002는 앞서 언급한 Ragot et al.의 문서에 기재된 대로 구현된다.
빠진 서브밴드의 외삽(도 10a에서 1003)은 G.729.1 디코더(도 4에서 404)와 동일한 원리를 따른다. 따라서, 디코딩된 서브밴드가 영으로만 되어 있으면, 대역 확장에 의해 디코딩되는 스펙트럼은 이 서브밴드를 대체한다.
블록 1004도 도 4의 405와 유사한 기능을 수행한다. 하지만, 스케일 팩터 sf_q(j) (j = 0,· · ·,17)가 디코딩된 스펙트럴 엔빌로프 rms_q(j) (j = 0,· · ·,17) 대신 사용된다.
두 번째 실시예는 앞서 언급한 Ragot et al. 문서의 바람직한 환경으로 제시된 표준 3GPP-AMR-WB+에 따른 구현에서 특히 유리한 것으로 드러난다.
두 번째 실시예의 변형에서, 도 9b와 10b(도 9a와 9b, 및 도 10a와 10b)에 도시한 바와 같이, 코딩된 정보는 에너지 엔빌로프(도 9a와 10a에서와 같이 마스킹 문턱값 자체보다는)로 남아 있다.
코딩할 때, 마스킹 문턱값은 코딩된 스펙트럴 엔빌로프(905b)를 기초로 계산되고 정규화된다(도 9b의 906b). 디코딩할 때, 마스킹 문턱값은 디코딩된 스펙트럴 엔빌로프(1001b)를 기초로 계산되고 정규화되고(도 10b의 1011b), 엔빌로프의 디코딩은 양자화된 값 rms_q(j)을 기초로 레벨 조정(도 10b의 1010b)을 수행할 수 있게 한다.
따라서, 영으로 디코딩된 서브밴드의 경우, 변형으로, 외삽을 수행하고 정확히 디코딩된 신호 레벨을 유지하는 것이 가능하다.
일반적인 용어로, 두 번째와 같이 첫 번째 실시예에서, 마스킹 문턱값은 각 서브밴드, 적어도 고주파 대역의 서브밴드에 대해서는 계산되고, 이 마스킹 문턱값이 문제의 서브밴드 사이의 스펙트럼 연속성을 보장하기 위해 정규화된다.
본 발명의 의미에서 주파수 마스킹의 계산은 코딩되는 신호(특히 음성이거나 아니거나)에 따라 실행될 수도 있고 아닐 수도 있다.
사실 앞에 설명한 첫 번째와 두 번째 실시예에서 마스킹 문턱값의 계산은 코딩될 신호가 음성이 아닐 때 특히 유리하다.
신호가 음성이면, 스프레드 함수 B(v)을 적용하면 조금 넓은 주파수 스프레드를 갖는 음성에 매우 근접한 마스킹 문턱값이 나온다. 코딩 노이즈 대비 마스크 비율을 최소화하는 할당 기준은 평범한 비트 할당을 낳는다. 두 번째 실시예에 다른 고주파 신호의 직접 가중에도 똑같이 적용된다. 따라서, 음성 신호에 대해서는 에너지 기준에 따른 비트 할당을 이용하는 것이 바람직하다. 바람직하게는, 본 발 명은 코딩될 신호가 음성이 아닐 때에만 적용된다.
일반적인 용어로, 인코딩될 신호가 음성이냐 아니냐에 따라 정보가 얻어지고(305로부터), 마스킹 문턱값과 정규화의 결정과 함께, 고주파 대역의 인지 가중은 신호가 음성이 아닐 때에만 수행된다.
이러한 내용을 구현하는 것이 표준 G.729.1에 따른 인코더에서 설명된다. 스펙트럴 엔빌로프의 코딩 모드와 관련된 비트(특히 도 3의 305)는 "차등 Huffman" 모드 또는 "직접 자연 바이너리(direct natural binary)" 모드인가를 가리킨다. 이 모드 비트는 음성의 감지로서 해석될 수 있는데, 일반적으로 음성 신호는 "direct natural binary"에 의한 엔빌로프 코딩으로 이끌고, 더 제한된 스펙트럴 다이나믹을 갖는 비음성 신호 대부분은 "차등 Huffman" 모드에 의한 엔빌로프 코등으로 이끌기 때문이다.
따라서, 본 발명을 구현하기 위해서는 "신호 음성 검출"을 할 때 얻어지는 이익이 있다. 특히, 스펙트럴 엔빌로프가 "차등 Huffman" 모드로 인코딩되고 인지 중요도가 다음과 같이 정의되는 경우에 본 발명이 적용될 수 있다.
Figure 112009046991114-PCT00032
반면에, 엔빌로프가 "direct natural binary" 모드로 인코딩되면, 인지 중요도는 표준 G.729.1에 정의된 대로 다음과 같이 유지된다.
Figure 112009046991114-PCT00033
두 번째 실시예에서, 도 9a의 모듈 904는 스펙트럴 엔빌로프를 계산함으로써 신호가 음성인지 아닌지 결정할 수 있고 따라서 블록 905가 긍정적으로 바이패스된다. 비슷하게, 도 9b에 설명된 실시예에 대해서, 모듈 904가 신호가 음성인지 아닌지를 결정할 수 있고 블록 907을 긍정적으로 바이패스하게 할 수 있다.
본 발명을 G.729.1 인코더의 확장에 적용할 수 있는 것에 대해서, 특히 초광대역에서 다음과 같이 설명한다.
도 11은 초광대역 코딩의 경우에 마스킹 커브(도 8에 설명됨)의 정규화를 일반화하고 있다. 이 실시예에서, 신호는 유용한 대역 50 Hz에 대해서 32 kHz(16 kHz 대신) 주파수로 샘플링된다. 마스킹 커브 log2[M(j)]는 적어도 7-14 kHz 범위의 서브밴드에 대해서 정의된다.
실제로, 50Hz - 14 kHz 대역을 포함하는 스펙트럼은 서브밴드에 의해 코딩되고 각 서브밴드에의 비트 할당은 G.729.1 인코더에서와 같이 스펙트럴 엔빌로프를 기초로 구현된다. 이 경우, 부분 마스킹 문턱값이 앞서 설명한 대로 계산될 수 있다.
도 11에 도시한 바와 같이, 마스킹 문턱값의 정규화는 고주파 대역이 표준 G.729.1보다 많은 서브 밴드를 포함하거나 또는 넓은 주파수 대를 다루는 경우에 일반화될 수 있다.
도 11을 참고로, 50 Hz와 4 kHz 사이의 저주파 대역에 대해서, 제 1 변환 T1이 시간 가중 차이 신호에 적용된다. 제 2 변환 T2는 4 - 7 kHz 사이의 첫 번째 고주파 대역의 신호에 적용되고, 제 2 변환 T3은 7 - 14 kHz 사이의 두 번째로 높은 대역의 신호에 적용된다.
본 발명은 16 kHz로 샘플링되는 신호에만 한정되지 않는다. 이의 구현은, 더 높은 주파수로 샘플링되는 신호에 대해서 특히 유리한데, 앞서 설명한 대로 더 이상 16 kHz로 샘플링되지 않고 32 kHz로 샘플링되는 신호에 표준 G.729.1에 따른 인코더를 확장하는 것과 같은 경우이다. TDAC 코딩이 이러한 주파수 대역(현재의 50 Hz ? 7 kHz 대신 50 Hz - 14 kHz)에 일반화되면, 본 발명에 의한 이익이 실제로 얻어질 수 있다.
실제로, 4-14 kHz 주파수 범위에서, RMSD 기준의 한계는 터무니없게 되고 비트 할당이 최적에 준하는 수준으로 남기 위해서는, 본 발명의 의미 내에서 주파수 마스킹을 이용한 인지 가중이 매우 유용하다.
본 발명은, 대역 사이의 스펙트럼 연속성을 보장하면서, 특히 확장된 고주파 대역(4-14 kHz)의 인지 가중을 적용함으로써, TDAC 코딩을 개선하는 것과도 관련되는데, 이러한 기준은 14 kHz까지 확장된 제 1 저주파 대역과 제 2 고주파 대역의 합동 코딩에 중요하다.
저주파 대역이 항상 인지 가중되는 실시예가 설명되었다. 이 실시예는 본 발명의 구현에 더 이상 필요하지 않다. 변형으로, 제 1 주파수 대역에서 핵심 코더를 갖는 계층적 코더가 구현되고, 제 2 주파수 대역의 변환된 신호와 함께 코딩 될 수 있도록, 제 1 주파수 대역에서 인지 가중 없이, 이 핵심 코더와 관련된 에러 신호가 직접 변환된다. 예로서, 원래 신호는 16 kHz로 샘플링되고 QMF 타입의 적당한 필터뱅크에 의해 0 - 4000 Hz와 4000 - 8000 Hz의 두 주파수 대역으로 나뉜다. 이러한 실시예에서, 코더는 전형적으로 표준 G.711에 따른 코더(PCM 압축을 갖는)가 될 수 있다. 변환 코딩이 다음에 대해서 수행된다.
- 제 1 주파수 대역(0-4000 Hz)에서 원래 신호와 G.711 합성 사이의 차이 신호
- 제 2 주파수 대역(4000-8000 Hz)에서 본 발명에 따라 주파수 도메인에서 인지 가중된 원래 신호
본 실시예에서, 낮은 대역에서 인지 가중은 본 발명의 적용을 위해 필요하지 않다.
다른 변형에서, 원래 신호는 32 kHz로 샘플링되고, QMF 타입의 적당한 필터뱅크에 의해 0 - 8000 Hz와 8000 - 16000 Hz의 두 주파수 대역으로 나뉜다. 이러한 실시예에서, 코더는 표준 G.722에 따른 코더(두 서브밴드에서 ADPCM 압축)가 될 수 있고, 변환 코딩이 다음에 대해서 수행된다.
- 제 1 주파수 대역(0-8000 Hz)에서 원래 신호와 G.722 합성 사이의 차이 신호
- 제 2 주파수 대역(8000-16000 Hz)으로 제한된 주파수 도메인에서 본 발명에 따라 인지 가중된 원래 신호.
마지막으로, 본 발명은 통신 단말의 코더의 메모리에 저장되거나 상기 코더의 독출과 함께 동작하도록 하는 저장 매체에 저장되는 제 1 소프트웨어 프로그램과 관련된다. 상기 제 1 프로그램은 앞서 정의된 코딩 방법을 구현하기 위한 명령 어로 구성되고, 이러한 명령어는 상기 코더의 처리기에 의해 실행된다.
본 발명은 또한 상기 제 1 소프트웨어 프로그램을 저장하는 적어도 하나의 메모리로 구성되는 코더와 관련된다.
도 6, 9a 및 9b는 상기 제 1 소프트웨어 프로그램의 동작 흐름도를 구성하고, 다른 실시예 또는 변형예에 따른 코더의 구성을 나타낼 수 있다.
본 발명은 통신 단말의 디코더의 메모리에 저장되거나 상기 디코더의 독출과 함께 동작하도록 하는 저장 매체에 저장되는 제 2 소프트웨어 프로그램과 관련된다. 상기 제 2 프로그램은 앞서 정의된 디코딩 방법을 구현하기 위한 명령어로 구성되고, 이러한 명령어는 상기 디코더의 처리기에 의해 실행된다.
본 발명은 또한 상기 제 2 소프트웨어 프로그램을 저장하는 적어도 하나의 메모리로 구성되는 디코더와 관련된다.
도 7, 10a 및 10b는 상기 제 2 소프트웨어 프로그램의 동작 흐름도를 구성하고, 다른 실시예 또는 변형예에 따른 디코더의 구성을 나타낼 수 있다.

Claims (19)

  1. 이웃하는 적어도 하나의 제 1 서브밴드와 제 2 서브밴드가 변환 코딩되는(601, 602; 901, 902), 몇 개의 서브 밴드에 신호를 코딩하는 방법에 있어서,
    변환 도메인에서 적어도 상기 제 2 서브밴드에 인지 가중을 적용하기 위한 방법으로,
    상기 제 2 서브밴드에 적용될 적어도 하나의 주파수 마스킹 문턱값(606; 905; 906b)을 결정하는 단계 및
    상기 제 1 및 제 2 서브밴드 사이의 스펙트럼 연속성을 확보하기 위해 상기 마스킹 문턱값을 정규화하는 단계를 포함하여 이루어지는 방법.
  2. 제 1항에 있어서, 각 서브밴드에 할당될 비트의 개수가 스펙트럴 엔빌로프를 기초로 결정되고, 상기 제 2 서브밴드에 대한 비트 할당(607)은 적어도 상기 제 2 서브밴드에 적용된, 정규화된 마스킹 커브 계산(606)의 함수로 결정되는 것을 특징으로 하는 방법.
  3. 제 2항에 있어서, 코딩이 둘보다 많은 서브밴드에 대해 수행되고, 상기 제 1 서브밴드는 제 1 스펙트럴 밴드에 포함되고 상기 제 2 서브밴드는 제 2 스펙트럴 밴드에 포함되고, 인덱스가 j인 각 서브밴드 nbit(j)의 비트 개수는 다음 관계식을 기초로 계산되는 인지 중요도 ip(j)에 따라 주어지는데,
    - j가 제 1 밴드 내의 서브밴드 인덱스이면,
    Figure 112009046991114-PCT00034
    ,
    - j가 제 2 밴드 내의 서브밴드 인덱스이고
    Figure 112009046991114-PCT00035
    이면,
    Figure 112009046991114-PCT00036
    이고, 여기서
    - rms_index(j)는 서브밴드 j에 대해서 엔빌로프의 코딩으로부터 유래하는 양자화된 값이고,
    - M(j)는 인덱스 j인 서브밴드에 대한 마스킹 인덱스이고,
    - normfac은 상기 제 1 서브밴드와 제 2 서브밴드 사이의 스펙트럼 연속성을 보장하기 위해 결정되는 정규화 요소인 것을 특징으로 하는 방법.
  4. 제 1항에 있어서, 상기 제 2 서브밴드에서 변환된 신호는, 상기 제 2 서브밴드에 대한 정규화된 마스킹 문턱값의 제곱 근에 비례하는 요소에 의해 가중되는(905) 것을 특징으로 하는 방법.
  5. 제 4항에 있어서, 상기 코딩은 2보다 많은 서브밴드에 대해 수행되고, 상기 제 1 서브밴드는 제 1 스펙트럼 밴드에 포함되고 상기 제 2 서브밴드는 제 2 스펙트럼 밴드에 포함되고, 가중 값
    Figure 112009046991114-PCT00037
    가 코딩되는데(906), M(j)는 상기 제 2 스펙트럼 밴드에 속하는, 인덱스 j의 서브밴드에 대한 정규화된 마스킹 문턱값인 것 을 특징으로 하는 방법.
  6. 제 1항 내지 제 5항 중 어느 한 항에 있어서, 상기 변환 코딩은 계층적 코더의 상위 레이어(110)에서 발생하고,
    - 상기 제 1 서브밴드는 상기 계층적 코더의 핵심 코딩(105)으로부터 나온 신호 d W LB 로 구성되고,
    - 상기 제 2 서브밴드는 원래 신호 S HB 로 구성되는 것을 특징으로 하는 방법.
  7. 제 6항에 있어서, 상기 핵심 코딩으로부터 나온 신호 d W LB 는 인지적으로 가중되는(600; 900) 것을 특징으로 하는 방법.
  8. 제 6항 또는 제 7항에 있어서, 상기 핵심 코딩으로부터 나온 신호 d W LB 는 원래 신호와 원래 신호의 합성 사이의 차이를 나타내는 신호인 것을 특징으로 하는 방법.
  9. 제 6항 내지 제 8항 중 어느 한 항에 있어서, 상기 변환 코딩은 표준 G.729.1에 따르는 모든 코더에서 TDAC 유형이고, 상기 제 1 서브밴드는 저주파 밴 드(T1)에 포함되고, 상기 제 2 서브밴드는 고주파 밴드에 포함되는 것을 특징으로 하는 방법.
  10. 제 9항에 있어서, 상기 고주파 밴드는 적어도 7000 Hz(T2)까지 확장하는 것을 특징으로 하는 방법.
  11. 제 1항 내지 제 10항 중 어느 한 항에 있어서, 스펙트럴 엔빌로프가 계산되고(604; 904), 서브밴드에 대한 마스킹 문턱값은 스펙트럴 엔빌로프의 식과 해당 서브밴드의 중심 주파수를 포함하는 스프레드 함수 사이의 컨볼류션에 의해 정의되는 것을 특징으로 하는 방법.
  12. 제 1항 내지 제 10항 중 어느 한 항에 있어서, 코딩될 신호가 음성인지 아닌지에 대한 정보(305)가 얻어지고, 상기 신호가 음성이 아닌 경우에만, 상기 마스킹 문턱값과 정규화와 함께 상기 제 2 서브밴드의 인지 가중이 수행되는 것을 특징으로 하는 방법.
  13. 이웃하는 적어도 하나의 제 1 서브밴드와 제 2 서브밴드가 변환 디코딩되는 (709, 711; 1007, 1009), 몇 개의 서브 밴드 내의 신호를 디코딩하는 방법에 있어서,
    변환 도메인에서 적어도 상기 제 2 서브밴드에 인지 가중을 적용하기 위한 방법으로,
    디코딩되는 스펙트럴 엔빌로프를 기초로 상기 제 2 서브밴드에 적용될 적어도 하나의 주파수 마스킹 문턱값(702; 1001; 1011b)을 결정하는 단계 및
    상기 제 1 및 제 2 서브밴드 사이의 스펙트럼 연속성을 확보하기 위해 상기 마스킹 문턱값을 정규화하는 단계를 포함하여 이루어지는 방법.
  14. 제 13항에 있어서, 각 서브밴드에 할당될 비트(703)의 개수가 스펙트럴 엔빌로프의 디코딩(701)을 기초로 결정되고, 상기 제 2 서브밴드에 대한 비트 할당(703)은 적어도 상기 제 2 서브밴드에 적용된, 정규화된 마스킹 커브 계산(702)에 따라 결정되는 것을 특징으로 하는 방법.
  15. 제 13항에 있어서, 상기 제 2 서브밴드에서 변환된 신호는 상기 제2 서브밴드에 대한 정규화된 마스킹 문턱값의 제곱 근에 비례하는 요소에 의해 가중되는(1004) 것을 특징으로 하는 방법.
  16. 제 1항 내지 제 12항에 따른 코딩 방법의 구현을 위한 명령어로 구성되고, 상기 명령어는 코더의 처리기에 의해 실행되고, 통신 단말의 코더의 메모리에 저장되거나 상기 코더의 독출과 함께 동작하도록 하는 저장 매체에 저장되는 소프트웨어 프로그램.
  17. 제 16항에 따른 소프트웨어 프로그램을 저장하는 적어도 하나의 메모리를 포함하여 구성되는 코더.
  18. 제 13항 내지 제 15항에 따른 디코딩 방법의 구현을 위한 명령어로 구성되고, 상기 명령어는 디코더의 처리기에 의해 실행되고, 통신 단말의 디코더의 메모리에 저장되거나 상기 디코더의 독출과 함께 동작하도록 하는 저장 매체에 저장되는 소프트웨어 프로그램.
  19. 제 18항에 따른 소프트웨어 프로그램을 저장하는 적어도 하나의 메모리를 포함하여 구성되는 디코더.
KR1020097016113A 2007-02-02 2008-01-30 디지털 오디오 신호에 대한 향상된 코딩/디코딩 KR101425944B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0700747 2007-02-02
FR0700747A FR2912249A1 (fr) 2007-02-02 2007-02-02 Codage/decodage perfectionnes de signaux audionumeriques.
PCT/FR2008/050150 WO2008104663A1 (fr) 2007-02-02 2008-01-30 Codage/decodage perfectionnes de signaux audionumeriques

Publications (2)

Publication Number Publication Date
KR20090104846A true KR20090104846A (ko) 2009-10-06
KR101425944B1 KR101425944B1 (ko) 2014-08-06

Family

ID=38477199

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097016113A KR101425944B1 (ko) 2007-02-02 2008-01-30 디지털 오디오 신호에 대한 향상된 코딩/디코딩

Country Status (10)

Country Link
US (1) US8543389B2 (ko)
EP (1) EP2115741B1 (ko)
JP (1) JP5357055B2 (ko)
KR (1) KR101425944B1 (ko)
CN (1) CN101622661B (ko)
AT (1) ATE473504T1 (ko)
DE (1) DE602008001718D1 (ko)
ES (1) ES2347850T3 (ko)
FR (1) FR2912249A1 (ko)
WO (1) WO2008104663A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102189733B1 (ko) * 2019-06-12 2020-12-11 주식회사 에이치알지 대동물의 섭취량을 측정하는 전자 장치 및 그 동작 방법

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101041895B1 (ko) * 2006-08-15 2011-06-16 브로드콤 코포레이션 패킷 손실 후 디코딩된 오디오 신호의 시간 워핑
WO2010003544A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft Zur Förderung Der Angewandtern Forschung E.V. An apparatus and a method for generating bandwidth extension output data
PL2304723T3 (pl) * 2008-07-11 2013-03-29 Fraunhofer Ges Forschung Urządzenie i sposób dekodowania zakodowanego sygnału audio
WO2010028297A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
WO2010028301A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Spectrum harmonic/noise sharpness control
WO2010028292A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive frequency prediction
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
WO2010031003A1 (en) 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
US8805694B2 (en) * 2009-02-16 2014-08-12 Electronics And Telecommunications Research Institute Method and apparatus for encoding and decoding audio signal using adaptive sinusoidal coding
FR2947944A1 (fr) * 2009-07-07 2011-01-14 France Telecom Codage/decodage perfectionne de signaux audionumeriques
BR112012007803B1 (pt) * 2009-10-08 2022-03-15 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de sinal de áudio multimodal, codificador de sinal de áudio multimodal e métodos usando uma configuração de ruído com base em codificação de previsão linear
CN102598123B (zh) * 2009-10-23 2015-07-22 松下电器(美国)知识产权公司 编码装置、解码装置及其方法
EP2555188B1 (en) * 2010-03-31 2014-05-14 Fujitsu Limited Bandwidth extension apparatuses and methods
US9443534B2 (en) 2010-04-14 2016-09-13 Huawei Technologies Co., Ltd. Bandwidth extension system and approach
JP5714002B2 (ja) * 2010-04-19 2015-05-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置、符号化方法及び復号方法
US8600737B2 (en) 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
CA2958360C (en) 2010-07-02 2017-11-14 Dolby International Ab Audio decoder
US9236063B2 (en) 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
US9208792B2 (en) * 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
CN106409305B (zh) * 2010-12-29 2019-12-10 三星电子株式会社 用于针对高频带宽扩展进行编码/解码的设备和方法
WO2012144128A1 (ja) * 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
CN103548080B (zh) * 2012-05-11 2017-03-08 松下电器产业株式会社 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法
CA3054712C (en) 2013-01-08 2020-06-09 Lars Villemoes Model based prediction in a critically sampled filterbank
IL294836A (en) * 2013-04-05 2022-09-01 Dolby Int Ab Audio encoder and decoder
CN104217727B (zh) 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
US10580417B2 (en) * 2013-10-22 2020-03-03 Industry-Academic Cooperation Foundation, Yonsei University Method and apparatus for binaural rendering audio signal using variable order filtering in frequency domain
KR101498113B1 (ko) * 2013-10-23 2015-03-04 광주과학기술원 사운드 신호의 대역폭 확장 장치 및 방법
SG10201808274UA (en) 2014-03-24 2018-10-30 Samsung Electronics Co Ltd High-band encoding method and device, and high-band decoding method and device
CN110875048B (zh) * 2014-05-01 2023-06-09 日本电信电话株式会社 编码装置、及其方法、记录介质
CN107077855B (zh) 2014-07-28 2020-09-22 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
WO2017033113A1 (en) 2015-08-21 2017-03-02 Acerta Pharma B.V. Therapeutic combinations of a mek inhibitor and a btk inhibitor
US10628165B2 (en) * 2017-08-17 2020-04-21 Agora Lab, Inc. Gain control for multiple description coding
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2024034389A1 (ja) * 2022-08-09 2024-02-15 ソニーグループ株式会社 信号処理装置、信号処理方法、およびプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0695700A (ja) * 1992-09-09 1994-04-08 Toshiba Corp 音声符号化方法及びその装置
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
US5632003A (en) * 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
US5625743A (en) * 1994-10-07 1997-04-29 Motorola, Inc. Determining a masking level for a subband in a subband audio encoder
US5790759A (en) * 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
EP0764939B1 (en) * 1995-09-19 2002-05-02 AT&T Corp. Synthesis of speech signals in the absence of coded parameters
JP4373006B2 (ja) * 1998-05-27 2009-11-25 マイクロソフト コーポレーション スケーラブル音声コーダとデコーダ
JP3515903B2 (ja) * 1998-06-16 2004-04-05 松下電器産業株式会社 オーディオ符号化のための動的ビット割り当て方法及び装置
US6363338B1 (en) * 1999-04-12 2002-03-26 Dolby Laboratories Licensing Corporation Quantization in perceptual audio coders with compensation for synthesis filter noise spreading
JP2003280697A (ja) * 2002-03-22 2003-10-02 Sanyo Electric Co Ltd 音声圧縮方法および音声圧縮装置
CN100346392C (zh) * 2002-04-26 2007-10-31 松下电器产业株式会社 编码设备、解码设备、编码方法和解码方法
FR2850781B1 (fr) * 2003-01-30 2005-05-06 Jean Luc Crebouw Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage du bruit, la creation d'effets speciaux et dispositif pour la mise en oeuvre dudit procede
US7333930B2 (en) * 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
US7983904B2 (en) * 2004-11-05 2011-07-19 Panasonic Corporation Scalable decoding apparatus and scalable encoding apparatus
US7562021B2 (en) * 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102189733B1 (ko) * 2019-06-12 2020-12-11 주식회사 에이치알지 대동물의 섭취량을 측정하는 전자 장치 및 그 동작 방법

Also Published As

Publication number Publication date
KR101425944B1 (ko) 2014-08-06
CN101622661A (zh) 2010-01-06
FR2912249A1 (fr) 2008-08-08
WO2008104663A1 (fr) 2008-09-04
EP2115741A1 (fr) 2009-11-11
CN101622661B (zh) 2012-05-23
JP2010518422A (ja) 2010-05-27
US8543389B2 (en) 2013-09-24
JP5357055B2 (ja) 2013-12-04
ATE473504T1 (de) 2010-07-15
US20100121646A1 (en) 2010-05-13
DE602008001718D1 (de) 2010-08-19
EP2115741B1 (fr) 2010-07-07
ES2347850T3 (es) 2010-11-04

Similar Documents

Publication Publication Date Title
KR101425944B1 (ko) 디지털 오디오 신호에 대한 향상된 코딩/디코딩
US10885926B2 (en) Classification between time-domain coding and frequency domain coding for high bit rates
US10249313B2 (en) Adaptive bandwidth extension and apparatus for the same
JP5117407B2 (ja) オーディオ符号化/復号化で知覚的に重み付けするための装置
US8532983B2 (en) Adaptive frequency prediction for encoding or decoding an audio signal
US8775169B2 (en) Adding second enhancement layer to CELP based core layer
JP5161069B2 (ja) 広帯域音声符号化のためのシステム、方法、及び装置
US8965775B2 (en) Allocation of bits in an enhancement coding/decoding for improving a hierarchical coding/decoding of digital audio signals
Valin et al. A high-quality speech and audio codec with less than 10-ms delay
US8812327B2 (en) Coding/decoding of digital audio signals
WO2010028301A1 (en) Spectrum harmonic/noise sharpness control
US20100268531A1 (en) Method and device for DTX decision

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20170710

Year of fee payment: 4