KR20230066547A - 오디오 양자화기, 오디오 역양자화기 및 관련 방법들 - Google Patents

오디오 양자화기, 오디오 역양자화기 및 관련 방법들 Download PDF

Info

Publication number
KR20230066547A
KR20230066547A KR1020237004446A KR20237004446A KR20230066547A KR 20230066547 A KR20230066547 A KR 20230066547A KR 1020237004446 A KR1020237004446 A KR 1020237004446A KR 20237004446 A KR20237004446 A KR 20237004446A KR 20230066547 A KR20230066547 A KR 20230066547A
Authority
KR
South Korea
Prior art keywords
scale parameters
stage
scale
quantizer
audio
Prior art date
Application number
KR1020237004446A
Other languages
English (en)
Inventor
임마누엘 라벨리
고란 마르코비치
젠 프레데릭 키에네
프란츠 루이텔후버
스테판 돌라
엘레니 포토풀루
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20230066547A publication Critical patent/KR20230066547A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

복수의 오디오 정보 항목들을 양자화하기 위한 오디오 양자화기는, 제1 스테이지 벡터 양자화 결과 및 제1 스테이지 벡터 양자화 결과에 대응하는 복수의 중간 양자화된 항목들을 결정하기 위해 복수의 오디오 정보 항목들을 양자화하기 위한 제1 스테이지 벡터 양자화기(141, 143); 복수의 중간 양자화된 항목들 및 복수의 오디오 정보 항목들로부터 복수의 잔여 항목들을 계산하기 위한 잔여 항목 결정기(142); 및 제2 스테이지 벡터 양자화 결과를 획득하기 위해 복수의 잔여 항목들을 양자화하기 위한 제2 스테이지 벡터 양자화기(145)를 포함하며, 제1 스테이지 벡터 양자화 결과 및 제2 스테이지 벡터 양자화 결과는 복수의 오디오 정보 항목들의 양자화된 표현이다.

Description

오디오 양자화기, 오디오 역양자화기 및 관련 방법들
규격 및 바람직한 실시예들
본 발명은 오디오 신호 프로세싱에 관한 것이며, 예를 들어, 예컨대 IVAS의 MDCT-스테레오 프로세싱에 적용될 수 있다.
더욱이, 본 발명은 스테레오 스펙트럼 잡음 형상화 파라미터(Stereo Spectral Noise Shaping Parameter)들의 공동 코딩(Joint Coding)에 적용될 수 있다.
스펙트럼 잡음 형상화는, 양자화 잡음이 사람의 귀에 의해 최소로 인지되고, 그에 따라 디코딩된 출력 신호의 인지 품질이 최대화될 수 있도록 주파수 도메인에서 양자화 잡음을 형상화한다.
스펙트럼 잡음 형상화는 가장 최신의 변환-기반 오디오 코덱들에서 사용되는 기법이다.
고급 오디오 코딩(Advanced Audio Coding; AAC)
이러한 접근법 [1] [2]에서, MDCT 스펙트럼은 다수의 불균일 스케일 인자(scale factor) 대역들로 분할된다. 예를 들어, 48 kHz에서, MDCT는 1024개의 계수들을 갖고, 49개의 스케일 인자 대역들로 분할된다. 각각의 대역에서, 스케일 인자는 그 대역의 MDCT 계수들을 스케일링하는 데 사용된다. 이어서, 일정한 스텝(step) 사이즈를 갖는 스칼라 양자화기가 스케일링된 MDCT 계수들을 양자화하기 위해 이용된다. 디코더-측에서, 역 스케일링이 각각의 대역에서 수행되어, 스칼라 양자화기에 의해 도입된 양자화 잡음을 형상화한다.
49개의 스케일 인자들은 사이드-정보(side-information)로서 비트스트림으로 인코딩된다. 그것은 일반적으로, 비교적 많은 수의 스케일 인자들 및 요구되는 높은 정밀도로 인해, 스케일 인자들을 인코딩하기 위해 상당히 많은 수의 비트들을 요구한다. 이것은 낮은 비트레이트에서 그리고/또는 낮은 지연에서 문제가 될 수 있다.
MDCT-기반 TCX
MPEG-D USAC [3] 및 3GPP EVS [4] 표준들에서 사용되는 변환-기반 오디오 코덱인 MDCT-기반 TCX에서, 최근의 ACELP-기반 스피치(speech) 코덱들(예를 들어, AMR-WB)에서 사용되는 것과 유사한 지각 필터인 LPC-기반 지각 필터들의 도움으로 스펙트럼 잡음 형상화가 수행된다.
이러한 접근법에서, 16개의 선형 예측 계수(LPC)들의 세트가 미리 강조된 입력 신호에 대해 먼저 추정된다. 이어서, LPC들이 가중되고, 양자화된다. 이어서, 가중되고 양자화된 LPC들의 주파수 응답은 균일하게 이격된 64개의 대역들에서 계산된다. 이어서, MDCT 계수들은 계산된 주파수 응답을 사용하여 각각의 대역에서 스케일링된다. 이어서, 스케일링된 MDCT 계수들은 전역 이득(global gain)에 의해 제어되는 스텝 사이즈를 갖는 스칼라 양자화기를 사용하여 양자화된다. 디코더에서, 역 스케일링이 모든 64개의 대역들에서 수행되어, 스칼라 양자화기에 의해 도입된 양자화 잡음을 형상화한다.
이러한 접근법은 AAC 접근법에 비해 명확한 장점을 가지며: 그것은 (AAC에서의 49개의 파라미터들과는 대조적으로) 사이드-정보로서 16(LPC) + 1(전역-이득)개의 파라미터들만의 인코딩을 요구한다. 게다가, LSF 표현과 벡터 양자화기를 이용함으로써 작은 수의 비트들로 16개의 LPC들이 효율적으로 인코딩될 수 있다. 결과적으로, MDCT-기반 TCX의 접근법은 AAC 접근법보다 더 적은 사이드-정보 비트들을 요구하며, 이는 낮은 비트레이트 및/또는 낮은 지연에서 상당한 차이를 만들 수 있다.
개선된 MDCT-기반 TCX(심리음향적(Psychoacoustic) LPC)
개선된 MDCT-기반 TCX 시스템이 [5]에 공개되어 있다. 이러한 새로운 접근법에서, (LPC들을 추정하기 위한) 자기상관은 시간 도메인에서 더 이상 수행되지 않지만, 그것은 대신 MDCT 계수 에너지들의 역 변환을 사용하여 MDCT 도메인에서 계산된다. 이것은 MDCT 계수들을 64개의 불균일 대역들로 간단히 그룹화하고 각각의 대역의 에너지를 계산함으로써 불균일 주파수 스케일을 사용하는 것을 허용한다. 그것은 또한 자기상관을 계산하는 데 요구되는 복잡성을 감소시킨다.
새로운 스펙트럼 잡음 형상화(SNS)
[6]에 설명되고 낮은 복잡성 통신 코덱(LC3/LC3plus)에서 구현된 바와 같은 스펙트럼 잡음 형상화를 위한 개선된 기법에서, 실질적인 품질 손실이 없는 낮은 비트레이트는, 인코더-측 상에서 더 많은 수의 스케일 인자들로 스케일링함으로써 그리고 인코더-측 상의 스케일 파라미터들을 16개의 스케일 파라미터들(SNS 파라미터들)의 제2 세트로 다운샘플링함으로써 획득될 수 있다. 따라서, 한편으로는 낮은 비트레이트 사이드 정보, 및 그럼에도 불구하고 다른 한편으로는 미세 스케일링으로 인한 오디오 신호 스펙트럼의 고품질 스펙트럼 프로세싱이 획득된다.
스테레오 선형 예측(SLP)
[7]에 설명된 논문에서, 프레임-간 예측을 고려할 뿐만 아니라 하나의 채널로부터 다른 채널로의 예측을 고려함으로써 선형 예측 계수들의 세트가 계산된다. 이어서, 계산된 계수들의 2차원 세트는 단일 채널 LP와 유사한 기법들을 사용하여 양자화 및 인코딩되지만, 논문의 맥락에서 잔여물의 양자화를 고려하지 않는다. 그러나, 설명된 구현은 높은 지연 및 상당한 복잡성을 수반하며, 따라서, 그것은 낮은 지연을 요구하는 실시간 애플리케이션에, 예를 들어 통신 시스템들에 다소 적합하지 않을 수 있다.
[8]에 설명된 MDCT-기반 시스템과 같은 스테레오 시스템에서, 주파수 도메인 잡음-형상화를 사용하여 스펙트럼들을 "화이트닝된 도메인(whitened domain)"으로 스케일링하기 위해 이산 LR 채널 신호들의 프리프로세싱(preprocessing)이 수행된다. 이어서, 화이트닝된 스펙트럼들을 최적의 방식으로 양자화 및 코딩하기 위해 공동 스테레오 프로세싱이 수행된다.
이전에 설명된 스펙트럼 잡음 형상화 기법들에 대한 스케일링 파라미터들은 각각의 채널에 대해 독립적으로 양자화 인코딩된다. 이것은 비트스트림을 통해 디코더로 전송될 필요가 있는 사이드 정보의 2배의 비트레이트를 초래한다.
[5] 미국등록특허 US 9,595,262 B2 (2017. 03. 14.) "LINEAR PREDICTION BASED CODING SCHEME USING SPECTRAL DOMAIN NOISE SHAPNG" G. Markovic, G. Fuchs, N. Rettelbach, C. Helmrich und B. Schubert [6] 국제공개특허 WO 2019091904 A1 (2018. 11. 05.) "Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters" E. Ravelli, M. Schnell, C. Benndorf, M. Lutzky und M. Dietz [8] 국제공개특허 PCT/EP2017/051177 (2017. 01. 20) "APPARATUS AND METHOD FOR MDCT M/S STEREO WITH GLOBAL ILD WITH IMPROVED MID/SIDE DECISION" G. Markovic, E. Ravelli, M. Schnell, S. Dohla, W. Jaegars, M. Dietz, C. Heimrich, E. Fotopoulou, M. Multrus, S. Bayer, G. Fuchs und J. Herre
ISO/IEC 11172-3, Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s - Part 3: Audio, 1993. ISO/IEC 13818-7, Information technology - Generic coding of moving pictures and associated audio information - Part 7: Advanced Audio Coding (AAC), 2003. ISO/IEC 23003-3; Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding. 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description. A. Biswas, Advances Advances in Perceptual Stereo Audio Coding Using LinearPrediction Techniques, Eindhoven: Technical University of Eindhoven, 2017.
개선된 또는 더 효율적인 코딩/디코딩 개념을 제공하는 것이 본 발명의 목적이다.
이러한 목적은 청구항 제1항의 오디오 양자화기, 청구항 제16항의 오디오 역양자화기, 청구항 제31항의 양자화 방법, 청구항 제32항의 역양자화 방법, 또는 청구항 제33항의 컴퓨터 프로그램에 의해 달성된다.
본 발명은 L, R 신호들 또는 일반적으로는 다중-채널 신호의 2개 이상의 채널들이 상관되는 경우들에 대해 비트레이트 절약들이 획득될 수 있다는 발견에 기초한다. 그러한 경우, 둘 모두의 채널들에 대한 추출된 파라미터들은 다소 유사하다. 따라서, 파라미터의 공동 양자화 인코딩이 적용되며, 이는 비트레이트의 상당한 절약을 초래한다. 이러한 비트레이트의 절약은 여러가지 상이한 방향들에서 사용될 수 있다. 하나의 방향은 스테레오 또는 다중채널 신호의 전체 지각 품질이 개선되도록 코어 신호의 코딩 시에, 저장된 비트레이트를 소비하는 것일 수 있다. 다른 방향은 코어 신호의 코딩, 및 그에 따른 전체 지각 품질이 개선되는 것이 아니라 동일한 품질로 유지되는 경우 더 낮은 전체 비트레이트에 도달하는 것이다.
바람직한 실시예에서, 제1 양상에 따르면, 오디오 인코더는 다중-채널 오디오 신호의 제1 채널에 대한 스케일 파라미터들의 제1 세트에 대해 그리고 다중-채널 오디오 신호의 제2 채널에 대한 스케일 파라미터들의 제2 세트에 대해 공동으로 인코딩된 스케일 파라미터들의 제1 그룹 및 공동으로 인코딩된 스케일 파라미터들의 제2 그룹을 계산하기 위한 스케일 파라미터 계산기를 포함한다. 오디오 인코더는 부가적으로, 스케일 파라미터들의 제1 세트를 제1 채널에 적용하고 스케일 파라미터들의 제2 세트를 다중-채널 오디오 신호의 제2 채널에 적용하기 위한 신호 프로세서를 포함한다. 신호 프로세서는 부가적으로, 스케일 파라미터들의 제1 및 제2 세트들의 적용에 의해 각각 획득된 제1 및 제2 채널 데이터로부터 다중-채널 오디오 데이터를 도출한다. 오디오 인코더는 부가적으로, 인코딩된 다중-채널 오디오 신호를 획득하기 위해 다중-채널 오디오 데이터 및 공동으로 인코딩된 스케일 파라미터들의 제1 그룹에 관한 정보 및 공동으로 인코딩된 스케일 파라미터들의 제2 그룹에 관한 정보를 사용하기 위한 인코딩된 신호 형성기를 갖는다.
바람직하게, 스케일 파라미터 계산기는 다중-채널 오디오 신호의 각각의 프레임 또는 서브-프레임에 대해, 스케일 파라미터들을 공동으로 인코딩하는 것이 수행될지 또는 스케일 파라미터들을 별개로 인코딩하는 것이 수행될지의 결정이 행해지도록 적응적으로 이루어진다. 추가적인 실시예에서, 이러한 결정은 고려 중인 다중-채널 오디오 신호의 채널들 사이의 유사성 분석에 기초한다. 특히, 공동으로 인코딩된 스케일 파라미터들의 제1 그룹 및 제2 그룹으로부터 공동으로 인코딩된 파라미터들의 에너지, 및 특히 스케일 파라미터들의 하나의 세트의 에너지를 계산함으로써 유사성 분석이 행해진다. 특히, 스케일 파라미터 계산기는 제1 그룹을 대응하는 제1 및 제2 스케일 파라미터들 사이의 합으로서 계산하고, 제2 그룹을 제1 및 제2 대응하는 스케일 파라미터들 사이의 차이로서 계산한다. 특히, 제2 그룹 및 바람직하게는 차이를 표현하는 스케일 파라미터들은, 스케일 파라미터들을 공동으로 인코딩하는 것이 수행될지 또는 스케일 파라미터들을 별개로 인코딩하는 것이 수행될지를 결정하기 위해 유사성 척도의 결정을 위하여 사용된다. 이러한 상황은 스테레오 또는 다중-채널 플래그(flag)를 통해 시그널링될 수 있다.
더욱이, 2-스테이지 양자화 프로세스로 스케일 파라미터들을 구체적으로 양자화하는 것이 바람직하다. 제1 스테이지 벡터 양자화기는, 제1 스테이지 벡터 양자화 결과를 결정하고 제1 스테이지 벡터 양자화 결과에 대응하는 복수의 중간 양자화기 항목들을 결정하기 위해 복수의 스케일 파라미터들 또는 일반적으로는 오디오 정보 항목들을 양자화한다. 더욱이, 양자화기는 복수의 중간 양자화된 항목들 및 복수의 오디오 정보 항목들로부터 복수의 잔여 항목들을 계산하기 위한 잔여 항목 결정기를 포함한다. 더욱이, 제2 스테이지 벡터 양자화 결과를 획득하기 위해 복수의 잔여 항목들을 양자화하기 위한 제2 스테이지 벡터 양자화기가 제공되며, 여기서 제1 스테이지 벡터 양자화 결과 및 제2 스테이지 벡터 양자화 결과는 함께, 일 실시예에서 스케일 파라미터들인 복수의 오디오 정보 항목들의 양자화된 표현을 표현한다. 특히, 오디오 정보 항목들은 공동으로 인코딩된 스케일 파라미터들 또는 별개로 인코딩된 스케일 파라미터들 중 어느 하나일 수 있다. 더욱이, 다른 오디오 정보 항목들은 벡터 양자화에 유용한 임의의 오디오 정보 항목들일 수 있다. 특히, 특정 오디오 정보 항목들로서의 스케일 파라미터들 또는 스케일 인자들 외에도, 벡터-양자화에 유용한 다른 오디오 정보 항목들은 MDCT 또는 FFT 라인들과 같은 스펙트럼 값들이다. 벡터 양자화될 수 있는 더 추가적인 오디오 정보 항목들은 시간 도메인 오디오 값들, 예컨대 오디오 샘플링 값들 또는 시간 도메인 오디오 샘플들의 그룹들 또는 스펙트럼 도메인 주파수 라인들의 그룹들 또는 LPC 데이터 또는 다른 엔벨로프(envelope) 데이터(그것은 스펙트럼 또는 시간 엔벨로프 데이터 표현임)이다.
바람직한 구현에서, 잔여 항목 결정기는 각각의 잔여 항목에 대해, 스케일 파라미터와 같은 대응하는 오디오 정보 항목들과 양자화된 스케일 파라미터 또는 스케일 인자와 같은 대응하는 중간 양자화된 항목 사이의 차이를 계산한다. 더욱이, 잔여 항목 결정기는, 복수의 잔여 항목들이 대응하는 차이보다 크도록 각각의 잔여 항목에 대해, 대응하는 오디오 정보 항목과 대응하는 중간 양자화된 항목 사이의 차이를 증폭 또는 가중하거나, 또는 잔여 항목들을 획득하기 위해 증폭된 항목들 사이의 차이를 계산하기 전에 복수의 오디오 정보 항목들 및/또는 복수의 중간 양자화된 항목들을 증폭 또는 가중하도록 이루어진다. 이러한 절차에 의해, 양자화 에러의 유용한 제어가 이루어질 수 있다. 특히, 상이한 스케일 파라미터들과 같은 오디오 정보 항목들의 제2 그룹이 매우 작을 때, 이것의 통상적인 경우로서, 공동 양자화가 결정되도록 제1 및 제2 채널들이 서로 상관될 때, 잔여 항목들은 통상적으로 매우 작다. 따라서, 잔여 항목들이 증폭될 때, 양자화의 결과는 이러한 증폭이 수행되지 않았던 경우과 비교하여 0으로 양자화되지 않은 더 많은 값들을 포함할 것이다. 따라서, 인코더 또는 양자화 측 상에서의 증폭이 유용할 수 있다.
이것은 특히, 다른 바람직한 실시예에서와 같이, 차이 스케일 파라미터들과 같은 스케일 파라미터들의 공동으로 인코딩된 제2 그룹의 양자화가 수행되는 경우이다. 이들 사이드(side) 스케일 파라미터들이 어쨌든 작다는 사실로 인해, 증폭 없이 상이한 스케일 파라미터들 대부분이 어쨌든 0으로 양자화되는 상황이 발생할 수 있다. 따라서, 스테레오 인상(impression)의 손실 및 그에 따른 심리음향적 품질의 손실을 초래할 수 있는 이러한 상황을 피하기 위해, 사이드 스케일 파라미터들이 소량만 0으로 양자화되거나 또는 거의 전혀 0으로 양자화되지 않도록 증폭이 수행된다. 물론 이것은 비트레이트의 절약들을 감소시킨다. 그러나, 이러한 사실로 인해, 양자화된 잔여 데이터 항목들은 어쨌든 작을 뿐이며, 즉 작은 값들을 표현하는 양자화 인덱스들을 초래하고, 비트레이트 증가는 너무 높지 않은데, 그 이유는 작은 값들에 대한 양자화 인덱스들이 더 높은 값들에 대한 양자화 인덱스들보다 더 효율적으로 인코딩되기 때문이다. 이는 심지어, 더 높은 양자화 인덱스들보다 비트레이트에 관해 작은 양자화 인덱스들을 훨씬 더 선호하는 엔트로피 코딩 동작을 부가적으로 수행함으로써 향상될 수 있다.
다른 바람직한 실시예에서, 제1스테이지 벡터 양자화기는 특정한 코드북을 갖는 벡터 양자화기이고, 제2 스테이지 벡터 양자화기는 양자화 인덱스로서 코드북 번호, 기본 코드북의 벡터 인덱스 및 보로노이(Voronoi) 인덱스를 초래하는 대수적(algebraic) 벡터 양자화기이다. 바람직하게, 벡터 양자화기 및 대수적 벡터 양자화기 둘 모두는 둘 모두의 양자화기들이 동일한 분할 레벨 절차를 갖는 분할 레벨 벡터 양자화를 수행하도록 이루어진다. 더욱이, 제1 및 제2 스테이지 벡터 양자화기들은, 제1 스테이지 벡터 양자화기 결과의 비트들의 수 및 그에 따른 정밀도가 제2 스테이지 벡터 양자화기 결과의 비트들의 수 또는 정밀도보다 크거나 또는 제1 스테이지 벡터 양자화기 결과의 비트들의 수 및 그에 따른 정밀도가 제2 스테이지 벡터 양자화기 결과의 비트들의 수 또는 정밀도와 상이한 그러한 방식으로 이루어진다. 다른 실시예들에서, 제1 스테이지 벡터 양자화기는 고정된 비트레이트를 갖고, 제2 스테이지 벡터 양자화기는 가변 비트레이트를 갖는다. 따라서, 일반적으로 제1 스테이지 및 제2 스테이지 벡터 양자화기들의 특성들은 서로 상이하다.
제1 양상에 따르면, 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더의 바람직한 실시예에서, 오디오 디코더는 공동으로 인코딩된 스케일 파라미터들에 관한 정보를 디코딩하기 위한 스케일 파라미터 디코더를 포함한다. 부가적으로, 오디오 디코더는 신호 프로세서를 가지며, 여기서 스케일 파라미터 디코더는 스케일 파라미터들의 제1 세트에 대한 스케일 파라미터들 및 스케일 파라미터들의 제2 세트에 대한 스케일 파라미터들(이들은 이어서, 신호 프로세서에 의해 사용됨)을 획득하기 위해 상이한 결합 규칙들을 사용하여 제1 그룹의 공동으로 인코딩된 스케일 파라미터와 제2 그룹의 공동으로 인코딩된 스케일 파라미터를 결합하도록 이루어진다.
본 발명의 추가적인 양상에 따르면, 제1 스테이지 벡터 역양자화기, 제2 스테이지 벡터 역양자화기, 및 역양자화된 복수의 오디오 정보 항목들을 획득하기 위해 제1 스테이지 벡터 역양자화기에 의해 획득된 복수의 중간 양자화기 정보 항목과 제2 스테이지 벡터 역양자화기로부터 획득된 복수의 잔여 항목들을 결합하기 위한 결합기를 포함하는 오디오 역양자화기가 제공된다.
공동 스케일 파라미터 코딩의 제1 양상은 2 스테이지 벡터 양자화에 관련된 제2 양상과 결합될 수 있다. 반면에, 2 스테이지 벡터 양자화의 양상은 좌측 채널 및 우측 채널에 대한 스케일 파라미터들과 같이 별개로 인코딩된 스케일 파라미터들에 적용될 수 있거나 또는 다른 종류의 오디오 정보 항목으로서 중간-스케일 파라미터들에 적용될 수 있다. 따라서, 2-스테이지 벡터 양자화의 제2 양상은 제1 양상과 독립적으로 또는 제1 양상과 함께 적용될 수 있다.
후속하여, 본 발명의 바람직한 실시예들이 요약된다.
변환-기반(MDCT) 코딩이 사용되는 스테레오 시스템에서, 인코더 측에서 주파수-도메인 잡음 형상화를 수행하기 위해 도입 섹션에서 설명된 기법들 중 임의의 기법으로부터 추출된 스케일링 파라미터들은 사이드-정보로서 비트스트림에 포함되도록 양자화 및 코딩될 필요가 있다. 이어서, 디코더 측에서, 스케일링 파라미터들은, 최소로 인지되는 방식으로 양자화 잡음을 형상화하기 위해 각각의 채널의 스펙트럼을 스케일링하도록 디코딩 및 사용된다.
2개의 채널들, 즉 좌측 및 우측의 스펙트럼 잡음 형상화 파라미터들의 독립적인 코딩이 적용될 수 있다.
스펙트럼 잡음 형상화 스케일링 파라미터들은 2개의 채널들 사이의 상관 정도에 의존하여 독립적으로 또는 공동으로 적응적으로 코딩된다. 요약하면:
● 스케일링 파라미터들의 중간/사이드 표현이 계산된다.
● 사이드 파라미터들의 에너지가 계산된다.
● 2개의 신호들 사이의 상관 정도를 표시하는 에너지에 의존하여, 파라미터들이 다음과 같이 코딩된다:
독립적으로: 현재의 접근법과 같이, 각각의 채널에 대해, 예를 들어 2-스테이지 벡터 양자화(VQ)를 사용함
공동으로:
○ 중간 벡터는, 예를 들어 2-스테이지 벡터 양자화를 사용하여 인코딩된다. 사이드 벡터는, 예를 들어, 제1 스테이지 VQ 출력이 0의 양자화된 값들을 포함한다고 가정하고 제2 스테이지 양자화, 예를 들어 대수적 벡터 양자화기(AVQ)만을 적용함으로써, 더 개략적인(coarser) 양자화 방식을 사용하여 인코딩된다.
○ 양자화된 사이드 벡터가 0인지 여부를 시그널링하기 위해 하나의 부가적인 비트가 사용된다.
● 2개의 채널들이 공동으로 코딩되는지 또는 독립적으로 코딩되는지를 시그널링하기 위한 부가적인 하나의 비트가 디코더에 전송된다.
도 24에서, MDCT-스테레오 기반 인코더 구현은 [8]에 상세히 설명된 바와 같이 도시되어 있다. [8]에 설명된 스테레오 시스템의 필수 부분은 스테레오 프로세싱이 "화이트닝된" 스펙트럼들 상에서 수행된다는 것이다. 따라서, 각각의 채널은 프리-프로세싱을 경험하며, 여기서 각각의 프레임에 대해, 윈도우잉 이후, 시간 도메인 블록은 MDCT-도메인으로 변환되고, 이어서 시간적 잡음 형상화(Temporal Noise Shaping; TNS)가 신호 특성들에 의존하여 스펙트럼 잡음 형상화(SNS) 전에 또는 그 이후 적응적으로 적용된다. 스펙트럼 잡음 형상화 이후, 화이트닝된 스펙트럼 계수들을 효율적인 방식으로 양자화 및 코딩하기 위해 공동 스테레오 프로세싱, 즉 적응형 대역별 M-S, L/R 결정이 수행된다. 다음 단계로서, 스테레오 지능형 갭 충전(Intelligent Gap Filling; IGF) 분석이 행해지고, 개개의 정보 비트들이 비트스트림에 기입된다. 마지막으로, 프로세싱된 계수들이 양자화 및 코딩된다. 도 1에서와 유사한 참조 번호들이 추가되었다. 스케일링 인자들의 계산 및 프로세싱은 도 24의 2개의 TNS 블록들 사이의 블록 SNS에서 발생한다. 블록 윈도우는 윈도우잉 동작을 예시한다. 블록 MCLT는 수정된 복소 랩 변환(modified complex lapped transform)을 나타낸다. 블록 MDCT는 수정된 이산 코사인 변환을 나타낸다. 블록 전력 스펙트럼은 전력 스펙트럼의 계산을 나타낸다. 블록 블록 스위칭 결정은 윈도우잉을 위해 사용될 블록 길이들을 결정하기 위한 입력 신호의 분석을 나타낸다. 블록 TNS는 시간적 잡음 형상화를 나타내며, 이러한 특징은 블록 SNS에서의 스펙트럼의 스케일링 전에 또는 그 이후 수행된다.
[7]에 설명된 MDCT-스테레오 코덱 구현에서, 인코딩 측에서, 주파수 도메인 잡음-형상화를 사용하여 스펙트럼들을 "화이트닝된 도메인"으로 스케일링하기 위해 이산 L-R 채널들의 프리프로세싱이 수행된다. 이어서, 화이트닝된 스펙트럼들을 최적의 방식으로 양자화 및 코딩하기 위해 공동 스테레오 프로세싱이 수행된다.
디코더 측에서, 도 25에 묘사되고 [8]에 설명된 바와 같이, 인코딩된 신호가 디코딩되고, 역양자화 및 역 스테레오 프로세싱이 수행된다. 이어서, 각각의 채널의 스펙트럼은 비트스트림으로부터 리트리브(retrieve)된 스펙트럼 잡음 형상화 파라미터들에 의해 "디-화이트닝(de-whiten)"된다. 도 1에서와 유사한 참조 번호들이 추가되었다. 스케일 인자들의 디코딩 및 프로세싱은 도 25의 블록들(220)에서 발생한다. 도면에서 표시된 블록들은 도 24의 인코더 내의 블록에 관련되며, 통상적으로, 대응하는 역 연산들을 수행한다. 블록 "윈도우 및 OLA"는 시간 도메인 출력 신호들 L 및 R을 획득하기 위해 합성 윈도우잉 연산과 후속 중첩 및 가산 연산을 수행한다.
[8]의 시스템에 적용된 주파수-도메인 잡음 형상화(FDNS)는 본 명세서에서 [6]에 설명된 바와 같이 SNS로 대체된다. SNS의 프로세싱 경로의 블록도는 인코더와 디코더에 대해 각각 도 1 및 도 2의 블록도들에 도시되어 있다.
바람직하게, 품질의 실질적인 손실 없이 낮은 비트레이트는 인코더-측 상에서 더 많은 수의 스케일 인자들로 스케일링함으로써 그리고 인코더-측 상에서 스케일 파라미터들을 스케일 파라미터들 또는 스케일 인자들의 제2 세트로 다운샘플링함으로써 획득될 수 있으며, 여기서, 이어서 인코딩되고 출력 인터페이스를 통해 송신되거나 저장되는 제2 세트 내의 스케일 파라미터들은 스케일 파라미터들의 제1 수보다 적다. 따라서, 한편으로는 미세한 스케일링과 다른 한편으로는 낮은 비트레이트가 인코더-측 상에서 획득된다.
디코더-측 상에서, 송신된 작은 수의 스케일 인자들은 스케일 인자들의 제1 세트를 획득하기 위해 스케일 인자 디코더에 의해 디코딩되며, 여기서 제1 세트 내의 스케일 인자들 또는 스케일 파라미터들의 수는 제2 세트의 스케일 인자들 또는 스케일 파라미터들의 수보다 크고, 이어서 다시 한번, 더 많은 수의 스케일 파라미터들을 사용하는 미세한 스케일링이 미세-스케일링된 스펙트럼 표현을 획득하기 위해 스펙트럼 프로세서 내의 디코더-측 상에서 수행된다.
따라서, 한편으로는 낮은 비트레이트, 및 그럼에도 불구하고 다른 한편으로는 오디오 신호 스펙트럼의 고품질 스펙트럼 프로세싱이 획득된다.
바람직한 실시예들에서 행해지는 바와 같은 스펙트럼 잡음 형상화는 매우 낮은 비트레이트만을 사용하여 구현된다. 따라서, 이러한 스펙트럼 잡음 형상화는 낮은 비트레이트 변환-기반 오디오 코덱에서도 필수적인 도구일 수 있다. 스펙트럼 잡음 형상화는, 양자화 잡음이 사람의 귀에 의해 최소로 인지되고, 그에 따라 디코딩된 출력 신호의 인지 품질이 최대화될 수 있도록 주파수 도메인에서 양자화 잡음을 형상화한다.
바람직한 실시예들은 스펙트럼 표현의 에너지들과 같은 진폭-관련 척도들로부터 계산된 스펙트럼 파라미터들에 의존한다. 특히, 대역별 에너지들 또는 일반적으로는 대역별 진폭-관련 척도들은 스케일 파라미터들에 대한 기초로서 계산되며, 여기서 대역별 진폭-관련 척도들을 계산할 시에 사용되는 대역폭들은 가능한 한 인간의 청각 특성에 접근하기 위해 더 낮은 대역으로부터 더 높은 대역으로 증가한다. 바람직하게, 대역들로의 스펙트럼 표현의 분할은 바크 스케일(Bark scale)에 따라 행해진다.
추가적인 실시예들에서, 선형-도메인 스케일 파라미터들이 계산되고, 특히, 많은 수의 스케일 파라미터들로 스케일 파라미터들의 제1 세트에 대해 계산되며, 이러한 많은 수의 스케일 파라미터들은 로그형 도메인으로 변환된다. 로그형 도메인은 일반적으로, 작은 값들이 확장되고 높은 값들이 압축되는 도메인이다. 이어서, 스케일 파라미터들의 다운샘플링 또는 데시메이션(decimation) 동작은 밑이 10인 로그 도메인 또는 밑이 2인 로그 도메인일 수 있는 로그형 도메인에서 행해지며, 여기서 후자가 구현 목적들을 위해 바람직하다. 이어서, 스케일 인자들의 제2 세트가 로그형 도메인에서 계산되고, 바람직하게는 스케일 인자들의 제2 세트의 벡터 양자화가 수행되며, 여기서 스케일 인자들은 로그형 도메인에 있다. 따라서, 벡터 양자화의 결과는 로그형 도메인 스케일 파라미터들을 표시한다. 스케일 인자들 또는 스케일 파라미터들의 제2 세트는, 예를 들어 제1 세트의 스케일 인자들 수의 절반, 또는 심지어 1/3 또는 훨씬 더 바람직하게는 1/4의 스케일 인자들의 수를 갖는다. 이어서, 스케일 파라미터들의 제2 세트 내의 양자화된 작은 수의 스케일 파라미터들은 비트스트림으로 전달되고, 이어서, 인코더-측으로부터 디코더-측으로 송신되거나 또는 이들 파라미터들을 사용하여 또한 프로세싱되었던 양자화된 스펙트럼과 함께, 인코딩된 오디오 신호로서 저장되며, 여기서 이러한 프로세싱은 부가적으로, 전역 이득을 사용하는 양자화를 수반한다. 그러나, 바람직하게, 인코더는 이들 양자화된 로그형 도메인의 제2 스케일 인자들로부터 다시 한번 선형 도메인 스케일 인자들의 세트(이는 스케일 인자들의 제3 세트임)를 도출하며, 스케일 인자들의 제3 세트 내의 스케일 인자들의 수는 제2 수보다 크고, 바람직하게는 심지어, 제1 스케일 인자들의 제1 세트 내의 스케일 인자들의 제1 수와 동일하다. 이어서, 인코더-측 상에서, 이들 보간된 스케일 인자들은 스펙트럼 표현을 프로세싱하기 위해 사용되며, 여기서 프로세싱된 스펙트럼 표현은 마지막으로 양자화되고, 어떤 방식으로든, 예컨대 허프만(Huffman)-인코딩, 산술 인코딩 또는 벡터-양자화-기반 인코딩 등에 의해 엔트로피-인코딩된다.
스펙트럼 표현의 인코딩된 표현과 함께 적은 수의 스펙트럼 파라미터들을 갖는 인코딩된 신호를 수신하는 디코더에서, 적은 수의 스케일 파라미터들은, 즉 스케일 파라미터들의 제1 세트를 획득하기 위해 많은 수의 스케일 파라미터들로 보간되며, 여기서 스케일 인자들 또는 스케일 파라미터들의 제2 세트의 스케일 인자들의 스케일 파라미터들의 수는 제1 세트, 즉 스케일 인자/파라미터 디코더에 의해 계산된 바와 같은 세트의 스케일 파라미터들의 수보다 작다. 이어서, 인코딩된 오디오 신호를 디코딩하기 위한 장치 내에 위치된 스펙트럼 프로세서는 스케일링된 스펙트럼 표현을 획득하기 위해 스케일 파라미터들의 이러한 제1 세트를 사용하여, 디코딩된 스펙트럼 표현을 프로세싱한다. 이어서, 스케일링된 스펙트럼 표현을 변환하기 위한 변환기는, 바람직하게는 시간 도메인에 있는 디코딩된 오디오 신호를 마지막으로 획득하도록 동작한다.
추가적인 실시예들은 아래에 기재된 부가적인 장점들을 초래한다. 바람직한 실시예들에서, [6] 또는 [8] 또는 [1]에서 사용된 스케일 인자들과 유사한 16개의 스케일링 파라미터들의 도움으로 스펙트럼 잡음 형상화가 수행된다. 이들 파라미터들은, 64개의 불균일 대역들(종래 기술 3의 64개의 불균일 대역들과 유사함)에서 MDCT 스펙트럼의 에너지를 계산함으로써, 이어서 64개의 에너지들에 일부 프로세싱(평활화, 사전-강조(pre-emphasis), 잡음-플로어(noise-floor), 로그 변환)을 적용함으로써, 이어서 마지막으로 정규화 및 스케일링되는 16개의 파라미터들을 획득하기 위해 64개의 프로세싱된 에너지들을 4배로 다운샘플링함으로써 인코더에서 획득된다. 이어서, 이들 16개의 파라미터들은 벡터 양자화를 사용하여(종래 기술 2/3에서 사용된 것과 유사한 벡터 양자화를 사용하여) 양자화된다. 이어서, 양자화된 파라미터들은 64개의 보간된 스케일링 파라미터들을 획득하기 위해 보간된다. 이어서, 이들 64개의 스케일링 파라미터들은 64개의 불균일 대역들에서 MDCT 스펙트럼을 직접 형상화하는 데 사용된다. 종래 기술 2 및 3과 유사하게, 이어서, 스케일링된 MDCT 계수들은 전역 이득에 의해 제어되는 스텝 사이즈를 갖는 스칼라 양자화기를 사용하여 양자화된다.
추가적인 실시예에서, 사이드 스케일 파라미터들에 바람직하게 관련된 제2 그룹과 같은 2개의 그룹들 중 하나에 대한 공동으로 인코딩된 스케일 파라미터들에 관한 정보는 양자화 인덱스들 또는 다른 양자화 비트들이 아니라, 제2 그룹에 대한 스케일 파라미터들이 오디오 신호의 일부 또는 프레임에 대해 모두 0이라는 것을 표시하는 플래그 또는 단일 비트와 같은 정보만을 포함한다. 이러한 정보는 분석에 의해 또는 다른 수단에 의해 인코더에 의해 결정되며, 예컨대 오디오 신호의 시간 부분 또는 프레임에 대한 제로 스케일 파라미터들을 생성함으로써 이러한 정보에 기초하여 스케일 파라미터들의 제2 그룹을 합성하기 위해 디코더에 의해 사용되거나, 또는 공동으로 인코딩된 스케일 파라미터들의 제1 그룹만을 사용하여 스케일 파라미터들의 제1 및 제2 세트를 계산하기 위해 디코더에 의해 사용된다.
추가적인 실시예에서, 공동으로 인코딩된 스케일 파라미터들의 제2 그룹은, 바람직하게는 가변 레이트 양자화기 스테이지인 2 스테이지 양자화기의 제2 양자화 스테이지만을 사용하여 양자화된다. 이러한 경우, 제1 스테이지가 모두 0인 양자화된 값들을 초래하므로, 제2 스테이지만이 유효하다고 가정된다. 더 추가적인 실시예에서, 바람직하게는 고정된 레이트 양자화 스테이지인 2 스테이지 양자화기의 제1 양자화 스테이지만이 적용되고, 제2 스테이지는 오디오 신호의 시간 부분 또는 프레임에 대해 전혀 사용되지 않는다. 이러한 경우는 모든 잔여 항목들이 0이거나 제2 양자화 스테이지의 가장 작은 또는 제1 양자화 스텝 사이즈보다 작다고 가정되는 상황에 대응한다.
본 발명에 따르면, 종래의 기술보다 더 적은 수의 비트들로 LPC들을 효율적으로 인코딩하여, 개선되거나 더 효율적인 코딩/디코딩 개념을 제공할 수 있다.
본 발명의 바람직한 실시예들은 첨부한 도면들에 관해 후속하여 논의된다.
도 1은 제1 양상에 따른 디코더를 예시한다.
도 2는 제1 양상에 따른 인코더를 예시한다.
도 3a는 제1 양상에 따른 다른 인코더를 예시한다.
도 3b는 제1 양상에 따른 인코더의 다른 구현을 예시한다.
도 4a는 제1 양상에 따른 디코더의 추가적인 실시예를 예시한다.
도 4b는 디코더의 다른 실시예를 예시한다.
도 5는 인코더의 추가적인 실시예를 예시한다.
도 6은 인코더의 추가적인 실시예를 예시한다.
도 7a는 제1 또는 제2 양상에 따른 벡터 양자화기의 바람직한 구현을 예시한다.
도 7b는 제1 또는 제2 양상에 따른 추가적인 양자화기를 예시한다.
도 8a는 본 발명의 제1 양상에 따른 디코더를 예시한다.
도 8b는 본 발명의 제1 양상에 따른 인코더를 예시한다.
도 9a는 본 발명의 제2 양상에 따른 인코더를 예시한다.
도 9b는 본 발명의 제2 양상에 따른 디코더를 예시한다.
도 10은 제1 또는 제2 양상에 따른 디코더의 바람직한 구현을 예시한다.
도 11은 오디오 신호를 인코딩하기 위한 장치의 블록도이다.
도 12는 도 1의 스케일 인자 계산기의 바람직한 구현의 개략적인 표현이다.
도 13은 도 1의 다운샘플러의 바람직한 구현의 개략적인 표현이다.
도 14는 도 4의 스케일 인자 인코더의 개략적인 표현이다.
도 15는 도 1의 스펙트럼 프로세서의 개략적인 예시이다.
도 16은 스펙트럼 잡음 형상화(SNS)을 구현하는 한편으로는 인코더 및 다른 한편으로는 디코더의 일반적인 표현을 예시한다.
도 17은 시간적 잡음 형상화(TNS)가 스펙트럼 잡음 형상화(SNS)와 함께 구현되는 한편으로는 인코더-측 및 다른 한편으로는 디코더-측의 더 상세한 표현을 예시한다.
도 18은 인코딩된 오디오 신호를 디코딩하기 위한 장치의 블록도를 예시한다.
도 19는 도 8의 스케일 인자 디코더, 스펙트럼 프로세서 및 스펙트럼 디코더의 세부사항들을 예시하는 개략적인 예시를 예시한다.
도 20은 64개의 대역들로의 스펙트럼의 세분을 예시한다.
도 21은 한편으로는 다운샘플링 동작 및 다른 한편으로는 보간 동작의 개략적인 예시를 예시한다.
도 22a는 중첩 프레임들을 갖는 시간-도메인 오디오 신호를 예시한다.
도 22b는 도 1의 변환기의 구현을 예시한다.
도 22c는 도 8의 변환기의 개략적인 예시를 예시한다.
도 23은 상이한 본 발명의 절차들을 비교하는 히스토그램을 예시한다.
도 24는 인코더의 일 실시예를 예시한다.
도 25는 디코더의 일 실시예를 예시한다.
도 8은 2개 이상의 오디오 채널들에 대한 데이터를 포함하는 다중-채널 오디오 데이터 및 공동으로 인코딩된 스케일 파라미터들에 관한 정보를 포함하는 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더를 예시한다. 디코더는 단일 항목으로서 도 8a에 예시된 스케일 파라미터 디코더(220) 및 신호 프로세서(210, 212, 213)를 포함한다. 스케일 파라미터 디코더(220)는 스케일 파라미터들의 공동으로 인코딩된 제1 그룹 및 제2 그룹에 관한 정보를 수신하며, 여기서 바람직하게, 스케일 파라미터들의 제1 그룹은 중간 스케일 파라미터들이고, 스케일 파라미터들의 제2 그룹은 사이드 스케일 파라미터들이다. 바람직하게, 신호 프로세서는 다중-채널 오디오 데이터의 제1 채널 표현 및 다중-채널 오디오 데이터의 제2 채널 표현을 수신하고, 다중-채널 오디오 데이터로부터 도출된 제1 채널 표현에 스케일 파라미터들의 제1 세트를 적용하고, 다중-채널 오디오 데이터로부터 도출된 제2 채널 표현에 스케일 파라미터들의 제2 세트를 적용하여, 도 8a의 블록(210, 212, 213)의 출력에서, 디코딩된 오디오 신호의 제1 채널 및 제2 채널을 획득한다. 바람직하게, 공동으로 인코딩된 스케일 파라미터들은 중간-스케일 파라미터들과 같은 공동으로 인코딩된 스케일 파라미터들의 제1 그룹에 관한 정보 및 사이드 스케일 파라미터들과 같은 공동으로 인코딩된 스케일 파라미터들의 제2 그룹에 관한 정보를 포함한다. 더욱이, 스케일 파라미터 디코더(220)는, 스케일 파라미터들의 제1 세트의 스케일 파라미터를 획득하기 위해 제1 결합 규칙을 사용하여 제1 그룹의 공동으로 인코딩된 스케일 파라미터와 제2 그룹의 공동으로 인코딩된 스케일 파라미터를 결합하고, 스케일 파라미터들의 제2 세트의 스케일 파라미터를 획득하기 위해 제1 결합 규칙과 상이한 제2 결합 규칙을 사용하여 제1 및 제2 그룹들의 동일한 공동으로 인코딩된 스케일 파라미터들 둘 모두를 결합하도록 이루어진다. 따라서, 스케일 파라미터 디코더(220)는 2개의 상이한 결합 규칙들을 적용한다.
바람직한 실시예에서, 2개의 상이한 결합 규칙들은 한편으로는 더하기 또는 가산 결합 규칙이고, 다른 한편으로는 감산 또는 차이 결합 규칙이다. 그러나, 다른 실시예들에서, 제1 결합 규칙은 곱셈 결합 규칙일 수 있고, 제2 결합 규칙은 몫 또는 나눗셈 결합 규칙일 수 있다. 따라서, 결합 규칙들의 다른 모든 쌍들은 제1 그룹 및 제2 그룹의 대응하는 스케일 파라미터들 또는 스케일 파라미터들의 제1 세트 및 제2 세트의 표현에 또한 의존하여 유용하다.
도 8b는 2개 이상의 채널들을 포함하는 다중-채널 오디오 신호를 인코딩하기 위한 대응하는 오디오 인코더를 예시한다. 오디오 인코더는 스케일 파라미터 계산기(140), 신호 프로세서(120) 및 인코딩된 신호 형성기(1480, 1500)를 포함한다. 스케일 파라미터 계산기(140)는 다중-채널 오디오 신호의 제1 채널에 대한 스케일 파라미터들의 제1 세트로부터 그리고 다중-채널 오디오 신호의 제2 채널에 대한 스케일 파라미터들의 제2 세트로부터 공동으로 인코딩된 스케일 파라미터들의 제1 그룹 및 공동으로 인코딩된 스케일 파라미터들의 제2 그룹을 계산하도록 이루어진다. 부가적으로, 신호 프로세서는 인코딩된 다중-채널 오디오 데이터를 도출하기 위해, 스케일 파라미터들의 제1 세트를 다중-채널 오디오 신호의 제1 채널에 적용하고 스케일 파라미터들의 제2 세트를 다중-채널 오디오 신호의 제2 채널에 적용하도록 이루어진다. 다중-채널 오디오 데이터는 스케일링된 제1 및 제2 채널들로부터 도출되고, 다중-채널 오디오 데이터는 공동으로 인코딩된 스케일 파라미터들의 제1 및 제2 그룹에 관한 정보와 함께, 인코딩된 신호 형성기(1480, 1500)에 의해 사용되어, 도 8b의 블록(1500)의 출력에서, 인코딩된 다중-채널 오디오 신호를 획득한다.
도 1은 도 8a의 디코더의 추가적인 구현을 예시한다. 특히, 비트스트림은, 통상적으로 스케일링 또는 화이트닝된 채널들의 지능형 갭 충전 절차들(IGF 절차들) 및 역 스테레오 프로세싱과 함께 엔트로피 디코딩 및 역 양자화를 수행하는 신호 프로세서(210)에 입력된다. 블록(210)의 출력은 다중-채널 신호의 스케일링되거나 화이트닝 디코딩된 좌측 및 우측 또는 일반적으로는 여러 개의 디코딩된 채널들이다. 비트스트림은 별개의 인코딩의 경우 좌측 및 우측에 대한 스케일 파라미터들에 대한 사이드 정보 비트들 및 도 1의 M, S 스케일 파라미터들로 예시된 스케일링된 공동으로 인코딩된 스케일 파라미터들에 대한 사이드 정보 비트들을 포함한다. 이러한 데이터는 스케일 파라미터 또는 스케일 인자 디코더(220)로 도입되고, 이들은 그의 출력에서 디코딩된 좌측 스케일 인자들 및 디코딩된 우측 스케일 인자들을 생성하며, 이어서, 이들 인자들은 스펙트럼 형상화 블록(212, 230)에 적용되어, 좌측 및 우측에 대한 바람직한 MDCT 스펙트럼을 마지막으로 획득하고, 이어서, 그 MDCT 스펙트럼은 특정한 역 MDCT 연산을 사용하여 시간 도메인으로 변환될 수 있다.
대응하는 인코더-측 구현이 도 2에서 주어진다. 도 2는 스펙트럼 형상화기(120a)에 입력되는 좌측 및 우측 채널을 갖는 MDCT 스펙트럼으로부터 시작하며, 스펙트럼 형상화기(120a)의 출력은, 예를 들어 스테레오 프로세싱, 인코더 측 상에서의 지능형 갭 충전 동작들 및 대응하는 양자화 및 (엔트로피) 코딩 동작들을 수행하는 프로세서(120b)에 입력된다. 따라서, 블록들(120a, 120b)은 함께 도 8b의 신호 프로세서(120)를 표현한다. 더욱이, 블록 계산 SNS(스펙트럼 잡음 형상화) 스케일 인자들(120b)에서 수행되는 스케일 인자들의 계산의 목적을 위해, MDST 스펙트럼이 또한 제공되며, MDCT 스펙트럼과 함께 MDST 스펙트럼이 전력 스펙트럼 계산기(110a)에 포워딩된다. 대안적으로, 전력 스펙트럼 계산기(110a)는 MDCT 또는 MDST 스펙트럼 절차 없이 입력 신호에 대해 직접 동작할 수 있다. 다른 방식은, 예를 들어 MDCT 및 MDST 동작보다는 DFT 동작으로부터 전력 스펙트럼을 계산하는 것일 것이다. 더욱이, 스케일 인자들은 스케일 인자들의 블록 양자화 인코딩으로서 도 2에 예시된 스케일 파라미터 계산기(140)에 의해 계산된다. 특히, 블록(140)은 제1 및 제2 채널 사이의 유사성에 의존하여, 좌측 및 우측에 대한 별개의 인코딩된 스케일 인자들 또는 M 및 S에 대한 공동으로 인코딩된 스케일 인자들 중 어느 하나를 출력한다. 이것은 블록(140)의 우측에 있는 도 2에 예시되어 있다. 따라서, 이러한 구현에서, 블록(110b)은 좌측 및 우측에 대한 스케일 인자들을 계산하고, 블록(140)은 이어서, 별개의 인코딩, 즉 좌측 및 우측 스케일 인자들에 대한 인코딩이 공동으로 인코딩된 스케일 인자들, 즉 한편으로는 가산 및 다른 한편으로는 감산과 같은 2개의 상이한 결합 규칙들에 의해 별개의 스케일 인자들로부터 도출된 M 및 S 스케일 인자들의 인코딩보다 더 좋은지 또는 더 나쁜지를 결정한다.
블록(140)의 결과는 블록(120b)의 결과와 함께 도 2에 의해 예시된 출력 비트스트림으로 도입되는 L, R 또는 M, S에 대한 사이드 정보 비트들이다.
도 3a는 도 2 또는 도 8b의 인코더의 바람직한 구현을 예시한다. 제1 채널은 제1 채널에 대한, 즉 채널 L에 대한 별개의 스케일 파라미터들을 결정하는 블록(1100a)으로 입력된다. 부가적으로, 제2 채널은 제2 채널에 대한, 즉 R에 대한 별개의 스케일 파라미터들을 결정하는 블록(1100b)으로 입력된다. 이어서, 좌측 채널에 대한 스케일 파라미터들 및 우측 채널에 대한 스케일 파라미터들은 제1 채널에 대한 다운샘플러(130a) 및 제2 채널에 대한 다운샘플러(130b)에 의해 대응하여 다운샘플링된다. 결과들은 좌측 채널에 대한 다운샘플링된 파라미터들(DL) 및 우측 채널에 대한 다운샘플링된 파라미터들(DR)이다.
이어서, 데이터 DL 및 DR 둘 모두는 공동 스케일 파라미터 결정기(1200)로 입력된다. 공동 스케일 파라미터 결정기(1200)는 중간 또는 M 스케일 파라미터들과 같은 공동으로 인코딩된 스케일 파라미터들의 제1 그룹 및 사이드 또는 S 스케일 파라미터들과 같은 공동으로 인코딩된 스케일 파라미터들의 제2 그룹을 생성한다. 그룹들 둘 모두는, 이어서 최종 엔트로피 인코더(140c)에 있는 양자화된 값들을 획득하고, 공동으로 인코딩된 스케일 파라미터들에 관한 정보를 획득하기 위해 인코딩되기 위해 대응하는 벡터 양자화기들(140a, 140b)에 입력된다.
엔트로피 인코더(140c)는 1차원 또는 1차원 이상의 허프만 코드 테이블들로 산술적 엔트로피 인코딩 알고리즘 또는 엔트로피 인코딩 알고리즘을 수행하도록 구현될 수 있다.
인코더의 또 다른 구현이 도 3b에 예시되며, 여기서 다운샘플링은 도 3a의 130a, 130b에 예시된 바와 같이 별개의 스케일 파라미터들로, 예컨대 좌측 및 우측에 대해 수행되지 않는다. 대신에, 공동 스케일 파라미터 결정 및 대응하는 다운샘플러들(130a, 130b)에 의한 후속 다운샘플링의 동작들의 순서가 변경된다. 도 3a의 구현이 사용되는지 또는 도 3b의 구현이 사용되는지는 특정한 구현에 의존하며, 여기서 도 3a의 구현이 바람직한데, 그 이유는 공동 스케일 파라미터 결정(1200)이 다운샘플링된 스케일 파라미터들에 대해 이미 수행되고, 즉 스케일 파라미터 계산기(140)에 의해 수행된 2개의 상이한 결합 규칙들이 통상적으로, 도 3b의 경우와 비교하여 더 적은 수의 입력들에 대해 수행되기 때문이다.
도 4a는 2개 이상의 오디오 채널들에 대한 데이터를 포함하는 다중-채널 오디오 데이터 및 공동으로 인코딩된 스케일 파라미터들에 관한 정보를 갖는 인코딩된 오디오 신호를 디코딩하기 위한 디코더의 구현을 예시한다. 그러나, 도 4a의 디코더는 신호 프로세서의 일부만, 및 특히 대응하는 채널 스케일러들(212a, 212b)만이 도 4a에 예시되어 있으므로 도 8a의 전체 디코더의 일부일 뿐이다. 스케일 파라미터 디코더(220)에 관해, 이러한 엘리먼트는 도 3a의 대응하는 블록(140c)에 의해 수행되는 절차를 반전시키는 엔트로피 디코더(2200)를 포함한다. 더욱이, 엔트로피 디코더는 양자화된 M 스케일 파라미터들 및 양자화된 S 스케일 파라미터들과 같은 양자화된 공동으로 인코딩된 스케일 파라미터들을 출력한다. 스케일 파라미터들의 대응하는 그룹들은 M 및 S에 대한 역양자화된 값들을 획득하기 위해 역양자화기들(2202 및 2204)로 입력된다. 이어서, 이들 역양자화된 값들은 좌측 및 우측에 대한 스케일 파라미터들, 즉 별개의 스케일 파라미터들을 출력하는 별개의 스케일 파라미터 결정기(2206)로 입력된다. 이들 대응하는 스케일 파라미터들은 좌측에 대한 보간된 스케일 파라미터들(IL) 및 우측에 대한 보간된 스케일 파라미터들(IR)을 획득하기 위해 보간기(222a, 222b)로 입력된다. 이들 데이터 둘 모두는 각각 채널 스케일러(212a, 212b)로 입력된다. 부가적으로, 채널 스케일러들은, 예를 들어 도 1의 블록(210)에 의해 수행되는 전체 절차에 후속하여 제1 채널 표현을 대응하여 수신한다. 대응하여, 채널 스케일러(212b)는 또한 도 1의 블록(210)에 의한 출력으로서 그의 대응하는 제2 채널 표현을 획득한다. 이어서, 최종 채널 스케일링 또는 그것이 도 1에서 지칭된 바와 같은 "스펙트럼 형상화"는 도 1에서 "MDCT 스펙트럼"으로 예시된 좌측 및 우측에 대한 형상화된 스펙트럼 채널을 획득하기 위해 발생한다. 이어서, 240a, 240b에 예시된 각각의 채널에 대한 최종 주파수 도메인-시간 도메인 변환이 시간 도메인 표현에서 다중-채널 오디오 신호의 디코딩된 제1 채널 및 디코딩된 제2 채널을 마지막으로 획득하기 위해 수행될 수 있다.
특히, 도 4a의 좌측 부분에 예시된 스케일 파라미터 디코더(220)는 도 1에 도시된 바와 같이 또는 도 4a에 집합적으로 도시된 바와 같이 오디오 디코더 내에 포함될 수 있지만, 또한, 스케일 파라미터 인코더(140)의 출력에서 로컬 스케일 파라미터 디코더(220)를 명시적으로 도시하는 도 5에 관해 도시될 바와 같이 인코더 내에 로컬 디코더로서 포함될 수 있다.
도 4b는, 도 4a에 관해, 별개의 스케일 파라미터들을 결정하기 위한 보간 및 스케일 파라미터 결정의 순서가 교환되는 추가적인 구현을 예시한다. 특히, 보간은 도 4b의 보간기들(222a, 222b)을 사용하여, 공동으로 인코딩된 스케일 파라미터들 M 및 S로 발생하고, IM 및 IS와 같은 보간된 공동으로 인코딩된 스케일 파라미터들은 별개의 스케일 파라미터 결정기(2206)로 입력된다. 이어서, 블록(2206)의 출력은 업샘플링된 스케일 파라미터들, 즉 예를 들어, 도 21에 예시된 64개 대역들 각각에 대한 스케일 파라미터들이다.
도 5는 도 8b, 도 2 또는 도 3a, 도 3b의 인코더의 추가적인 바람직한 구현을 예시한다. 제1 채널 및 제2 채널은 둘 모두 도 5의 100a, 100b와 같은 선택적인 시간 도메인-주파수 도메인 변환기로 도입된다. 블록들(100a, 100b)에 의해 출력된 스펙트럼 표현은 좌측 및 우측 채널에 대한 스펙트럼 표현을 개별적으로 스케일링하는 채널 스케일러(120a)로 입력된다. 따라서, 채널 스케일러(120a)는 도 2의 120a에 예시된 스펙트럼 형상화 동작을 수행한다. 채널 스케일러의 출력은 도 5의 채널 프로세서(120b)로 입력되고, 블록(120b)의 프로세싱된 채널 출력은 인코딩된 오디오 신호를 획득하기 위해 인코딩된 신호 형성기(1480, 1500)로 입력된다.
더욱이, 별개로 또는 공동으로 인코딩된 스케일 파라미터들의 결정의 목적을 위해, 시간 도메인에서 직접 제1 채널 및 제2 채널을 입력으로서 수신하는 유사성 계산기(1400)가 제공된다. 대안적으로, 유사성 계산기는 시간 도메인-주파수 도메인 변환기들(100a, 100b)의 출력, 즉 스펙트럼 표현에서 제1 채널 및 제2 채널을 수신할 수 있다.
2개의 채널들 사이의 유사성이 공동으로 인코딩된 스케일 파라미터들의 제2 그룹에 기초하여, 즉 사이드 스케일 파라미터들에 기초하여 계산된다는 것이 도 6에 관해 서술될 것이지만, 이러한 유사성이 또한 공동으로 인코딩된 스케일 파라미터들의 명시적인 계산 없이 직접 시간 도메인 또는 스펙트럼 도메인 채널들에 기초하여 계산될 수 있다는 것을 유의해야 한다. 대안적으로, 유사성은 또한, 공동으로 인코딩된 스케일 파라미터들의 제1 그룹에 기초하여, 즉 중간-스케일 파라미터들에 기초하여 결정될 수 있다. 특히, 사이드 스케일 파라미터들의 에너지가 임계치보다 낮을 때, 이어서 공동 인코딩이 수행될 수 있다고 결정된다. 유사하게, 예를 들어, 프레임 내의 중간-스케일 파라미터들의 에너지가 또한 측정될 수 있으며, 중간-스케일 파라미터들의 에너지가 다른 임계치보다 클 때 공동 인코딩에 대한 결정이 행해질 수 있다. 따라서, 제1 채널과 제2 채널 사이의 유사성을 결정하기 위한 많은 상이한 방식들이 스케일 파라미터들의 공동 코딩 또는 스케일 파라미터들의 별개의 코딩을 결정하기 위해 구현될 수 있다. 그럼에도 불구하고, 스케일 파라미터들의 공동 또는 별개의 코딩에 대한 결정이 채널들에 대한 공동 스테레오 코딩의 결정, 즉 2개의 채널들이 중간/사이드 표현을 사용하여 공동으로 코딩되는지 또는 L, R 표현에서 별개로 코딩되는지의 결정과 반드시 동일할 필요가 없다는 것이 언급되어야 한다. 도 2의 블록(120b)에서 수행되는 임의의 종류의 스테레오 프로세싱의 결정이 중간 및 사이드에 대한 스케일 인자들을 사용하여 스펙트럼의 스케일링 또는 형상화 이후 및 그에 후속하여 행해지므로, 스케일 파라미터들의 공동 인코딩의 결정은 실제 채널들에 대한 스테레오 프로세싱의 결정과 독립적으로 행해진다. 특히, 도 2에 예시된 바와 같이, 블록(140)은 공동 코딩을 결정할 수 있다. 따라서, 블록(140)을 가리키는 도 2의 화살표에 의해 예시된 바와 같이, M 및 S에 대한 스케일 인자들이 이러한 블록 내에서 발생할 수 있다. 이어서, 도 5의 인코더 내의 로컬 스케일 파라미터 디코더(220)의 애플리케이션의 경우, 좌측에 대한 스케일 파라미터들 및 우측에 대한 스케일 파라미터들인 것이 그럼에도 불구하고, 중간 및 사이드에 대한 인코딩된 및 디코딩된 스케일 파라미터들로부터 도출되더라도, 실제로 사용된 스케일 파라미터들은 스펙트럼을 형상화한다.
도 5에 관해, 모드 결정기(1402)가 제공된다. 모드 결정기(1402)는 유사성 계산기(1400)의 출력을 수신하고, 채널들이 충분히 유사하지 않을 때 스케일 파라미터들의 별개의 코딩을 결정한다. 그러나, 채널들이 유사하다고 결정될 때, 이어서 스케일 파라미터들의 공동 코딩이 블록(1402)에 의해 결정되고, 스케일 파라미터들의 별개의 또는 변경 공동 코딩이 적용되는지 여부의 정보는 블록(1402)으로부터 인코딩된 신호 형성기(1480, 1500)에 제공되는 도 5에 예시된 대응하는 사이드 정보 또는 플래그(1403)에 의해 시그널링된다. 더욱이, 인코더는 제1 채널에 대한 스케일 파라미터들 및 제2 채널에 대한 스케일 파라미터들을 수신하고 모드 결정기(1402)에 의해 제어되는 바와 같이 스케일 파라미터들을 별개로 또는 공동으로 인코딩하는 스케일 파라미터 인코더(140)를 포함한다. 일 실시예에서, 스케일 파라미터 인코더(140)는, 채널 스케일러(120a)가 대응하는 제1 및 제2 채널 스케일 파라미터들로 스케일링을 수행하도록 파선들에 의해 표시된 바와 같이 제1 및 제2 채널에 대한 스케일 파라미터들을 출력할 수 있다. 그러나, 역양자화된 스케일 파라미터들이 인코더에서의 채널 스케일링을 위해 적용되도록 채널 스케일링이 로컬적으로 인코딩 및 디코딩된 스케일 파라미터들로 발생하도록 인코더 내에 로컬 스케일 파라미터 디코더(220)를 적용하는 것이 바람직하다. 이것은, 적어도 채널 스케일링 또는 스펙트럼 형상화를 위해, 사용된 스케일 파라미터들에 관해 인코더 및 디코더의 채널 스케일러 내에서 정확히 동일한 상황이 발생한다는 장점을 갖는다.
도 6은 오디오 인코더에 관한 본 발명의 추가적인 바람직한 실시예를 예시한다. 예를 들어, MDCT 알고리즘을 적용하는 시간 도메인-주파수 도메인 변환기일 수 있는 MDCT 스펙트럼 계산기(100)가 제공된다. 더욱이, 도 2에 예시된 바와 같이 전력 스펙트럼 계산기(110a)가 제공된다. 별개의 스케일 파라미터들은 대응하는 계산기(1100), 및 공동으로 인코딩된 스케일 파라미터들을 계산하려는 목적을 위해서는 가산 블록(1200a) 및 감산 블록(1200b)에 의해 계산된다. 이어서, 유사성을 결정하려는 목적을 위해, 사이드 파라미터들, 즉 공동으로 인코딩된 스케일 파라미터들의 제2 그룹을 이용하여 프레임당 에너지 계산이 수행된다. 블록(1406)에서, 임계치와의 비교가 수행되며, 도 5의 프레임에 대한 모드 결정기(1402)와 유사한 이러한 블록은 대응하는 프레임에 대한 모드 플래그 또는 스테레오 플래그를 출력한다. 부가적으로, 현재 프레임에서 별개의 또는 공동 코딩을 수행하는 제어가능 인코더에 정보가 주어진다. 이를 위해, 제어가능 인코더(140)는 블록(1100)에 의해 계산된 스케일 파라미터들, 즉 별개의 스케일 파라미터들을 수신하고, 부가적으로, 공동으로 인코딩된 스케일 파라미터들, 즉 블록(1200a 및 1200b)에 의해 결정된 공동으로 인코딩된 스케일 파라미터들을 수신한다.
블록(140)은 바람직하게, 프레임의 모든 사이드 파라미터들이 0으로 양자화된다고 블록(140)이 결정할 때, 프레임에 대해 제로 플래그를 생성한다. 이러한 결과는, 제1 및 제2 채널이 서로 매우 가깝고 채널들 사이의 차이, 그에 따른 스케일 인자들 사이의 차이들이, 블록(140)에 포함된 양자화기에 의해 적용되는 가장 낮은 양자화 임계치보다 이들 차이들이 작도록 이루어질 때 발생할 것이다. 블록(140)은 대응하는 프레임에 대해, 공동으로 인코딩되거나 별개로 인코딩된 스케일 파라미터들에 관한 정보를 출력한다.
도 9a는 복수의 오디오 정보 항목들을 양자화하기 위한 오디오 양자화기를 예시한다. 오디오 양자화기는 제1 스테이지 벡터 양자화 결과(146)를 결정하기 위해 스케일 인자들 또는 스케일 파라미터들 또는 스펙트럼 값들 등과 같은 복수의 오디오 정보 항목들을 양자화하기 위한 제1 스테이지 벡터 양자화기(141, 143)를 포함한다. 부가적으로, 블록(141, 143)은 제1 스테이지 벡터 양자화 결과에 대응하는 복수의 중간 양자화된 항목들을 생성한다. 중간 양자화된 항목들은, 예를 들어 제1 스테이지 결과와 관련된 값들이다. 제1 스테이지 결과가, 예를 들어 16개의 특정한(양자화된) 값들을 갖는 특정한 코드북을 식별할 때, 이어서, 중간 양자화된 항목들은 제1 스테이지 결과(146)인 코드북 벡터 인덱스와 관련된 16개의 값들이다. 제1 스테이지 벡터 양자화기(141, 143)로의 입력에서의 중간 양자화된 항목들 및 오디오 정보 항목들은 복수의 중간 양자화된 항목들 및 복수의 오디오 정보 항목들로부터 복수의 잔여 항목들을 계산하기 위해 잔여 항목 결정기로 입력된다. 이것은, 예를 들어 원래의(original) 항목과 양자화된 항목 사이의 각각의 항목에 대한 차이를 계산함으로써 행해진다. 잔여 항목들은 제2 스테이지 벡터 양자화 결과를 획득하도록 복수의 잔여 항목들을 양자화하기 위해 제2 스테이지 벡터 양자화기(145)로 입력된다. 이어서, 블록(141, 143)의 출력에서의 제1 스테이지 벡터 양자화 결과 및 블록(145)의 출력에서의 제2 스테이지 결과는, 바람직한 실시예에서는 양자화될 뿐만 아니라 부가적으로 엔트로피 인코딩되는 양자화된 오디오 정보 항목들을 출력하는 선택적인 인코딩된 신호 형성기(1480, 1500)에 의해 인코딩된 복수의 오디오 정보 항목들의 양자화된 표현을 함께 표현한다.
대응하는 오디오 역양자화기가 도 9b에 예시된다. 오디오 역양자화기는 복수의 중간 양자화된 오디오 정보 항목들을 획득하기 위해, 양자화된 복수의 오디오 정보 항목들에 포함된 제1 스테이지 양자화 결과를 역양자화하기 위한 제1 스테이지 벡터 역양자화기(2220)를 포함한다. 더욱이, 제2 스테이지 벡터 역양자화기(2260)가 제공되며, 복수의 잔여 항목들을 획득하기 위해, 양자화된 복수의 오디오 정보 항목들에 포함된 제2 스테이지 벡터 양자화 결과를 역양자화하도록 이루어진다. 블록(2220)으로부터의 중간 항목들 및 블록(2260)으로부터의 잔여 항목들 둘 모두는 역양자화된 복수의 오디오 정보 항목들을 획득하기 위해 복수의 중간 양자화된 오디오 항목들 및 복수의 잔여 항목들을 결합하기 위하여 결합기(2240)에 의해 결합된다. 특히, 블록(2220)의 출력에서의 중간 양자화된 항목들은, 예컨대 L 및 R에 대한 별개로 인코딩된 스케일 파라미터들 또는, 예를 들어 M에 대한 공동으로 인코딩된 스케일 파라미터들의 제1 그룹이고, 잔여 항목들은 공동으로 인코딩된 사이드 스케일 파라미터들, 예를 들어, 즉 공동으로 인코딩된 스케일 파라미터들의 제2 그룹을 표현할 수 있다.
도 7a는 도 9a의 제1 스테이지 벡터 양자화기(141, 143)의 바람직한 구현을 예시한다. 단계(701)에서, 제1 양자화 인덱스를 획득하기 위해 스케일 파라미터들의 제1 서브세트의 벡터 양자화가 수행된다. 단계(702)에서, 제2 양자화 인덱스를 획득하기 위해 스케일 파라미터들의 제2 서브세트의 벡터 양자화가 수행된다. 더욱이, 구현에 의존하여, 선택적 인덱스인 제3 양자화 인덱스를 획득하기 위해 블록(703)에 예시된 바와 같이 스케일 파라미터들의 제3 서브세트의 벡터 양자화가 수행된다. 도 7a의 절차는 분할 레벨 양자화가 존재할 때 적용된다. 예시적으로, 오디오 입력 신호는 도 21에 예시된 64개의 대역들로 분리된다. 이들 64개의 대역들은 16개의 대역들/스케일 인자들로 다운샘플링되어, 전체 대역이 16개의 스케일 인자들에 의해 커버된다. 이들 16개의 스케일 인자들은 도 7a에 예시된 분할-레벨 모드에서 제1 스테이지 벡터 양자화기(141, 143)에 의해 양자화된다. 원래의 64개의 스케일 인자들을 다운샘플링함으로써 획득된 도 21의 16개의 스케일 인자들 중 처음 8개의 스케일 인자들은 단계(701)에 의해 벡터-양자화되며, 따라서 스케일 파라미터들의 제1 서브세트를 표현한다. 8개의 상위 대역들에 대한 나머지 8개의 스케일 파라미터들은 단계(702)에서 벡터-양자화된 스케일 파라미터들의 제2 서브세트를 표현한다. 구현에 의존하여, 스케일 파라미터들 또는 오디오 정보 항목들의 전체 세트의 분리가 반드시 정확히 2개의 서브세트들에서 행해질 필요는 없지만, 3개의 서브세트들 또는 훨씬 더 많은 서브세트들에서 또한 행해질 수 있다.
얼마나 많은 분할들이 수행되는지와 독립적으로, 각각의 레벨에 대한 인덱스들은 제1 스테이지 결과를 함께 표현한다. 도 14에 관해 논의된 바와 같이, 이들 인덱스들은 단일의 제1 스테이지 인덱스를 갖도록 도 14의 인덱스 결합기를 통해 결합될 수 있다. 대안적으로, 제1 스테이지 결과는 제1 인덱스, 제2 인덱스 및 잠재적인 제3 인덱스, 및 결합되지는 않지만 그들 그대로 엔트로피 인코딩되는 아마도 훨씬 더 많은 인덱스들로 이루어질 수 있다.
제1 스테이지 결과를 형성하는 대응 인덱스들에 부가하여, 단계(701, 702, 703)는 또한, 프레임에 대한 잔여 스케일 파라미터들을 계산하려는 목적을 위해 블록(704)에서 사용되는 중간 스케일 파라미터들을 제공한다. 따라서, 예를 들어 도 9a의 블록(142)에 의해 수행되는 단계(705)는 잔여 스케일 파라미터들을 초래하며, 그 잔여 스케일 파라미터들은 이어서, 제2 스테이지 결과를 생성하기 위해 단계(705)에 의해 수행되는 (대수적) 벡터 양자화에 의해 프로세싱된다. 따라서, 제1 스테이지 결과 및 제2 스테이지 결과는 별개의 스케일 파라미터들 L, 별개의 스케일 파라미터들 R, 및 공동 스케일 파라미터들 M의 제1 그룹에 대해 생성된다. 그러나, 도 7b에 예시된 바와 같이, 공동으로 코딩된 스케일 파라미터들 또는 사이드 스케일 파라미터들의 제2 그룹의 (대수적) 벡터 양자화는, 바람직한 구현에서 단계(705)와 동일한 단계(706)에 의해서만 수행되고, 도 9a의 블록(142)에 의해 다시 수행된다.
추가적인 실시예에서, 사이드 스케일 파라미터들에 바람직하게 관련된 제2 그룹과 같은 2개의 그룹들 중 하나에 대한 공동으로 인코딩된 스케일 파라미터들에 관한 정보는 양자화 인덱스들 또는 다른 양자화 비트들이 아니라, 제2 그룹에 대한 스케일 파라미터들이 오디오 신호의 일부 또는 프레임에 대해 모두 0이거나 모두 작은 값과 같은 특정한 값에 있다는 것을 표시하는 플래그 또는 단일 비트와 같은 정보만을 포함한다. 이러한 정보는 분석에 의해 또는 다른 수단에 의해 인코더에 의해 결정되며, 예컨대 오디오 신호의 시간 부분 또는 프레임에 대한 제로 스케일 파라미터들을 생성함으로써 또는 특정한 값의 스케일 파라미터들을 생성함으로써 또는, 작은 랜덤 스케일 파라미터들(이들 모두는, 예를 들어 가장 작은 또는 제1 양자화 스테이지보다 작음)을 생성함으로써 이러한 정보에 기초하여 스케일 파라미터들의 제2 그룹을 합성하기 위해 디코더에 의해 사용되거나, 또는 공동으로 인코딩된 스케일 파라미터들의 제1 그룹만을 사용하여 스케일 파라미터들의 제1 및 제2 세트를 계산하기 위해 디코더에 의해 사용된다. 따라서, 도 7a의 스테이지(705)를 수행하는 대신에, 공동으로 인코딩된 스케일 파라미터들의 제2 그룹에 대한 모든 제로 플래그만이 제2 스테이지 결과로서 기입된다. 블록(704)에서의 계산은 이러한 경우 또한 생략될 수 있고, 모든 제로 플래그가 활성화 및 송신될 것인지 여부를 결정하기 위한 결정기로 대체될 수 있다. 이러한 결정기는 전체 S 파라미터들의 코딩의 스킵을 표시하는 사용자 입력 또는 비트레이트 정보에 의해 제어될 수 있거나 또는 잔여 항목들의 분석을 실제로 수행할 수 있다. 따라서, 모두 0 비트를 갖는 프레임에 대해, 스케일 파라미터 디코더는 어떠한 결합도 수행하지 않지만, 예컨대 제1 그룹의 인코딩된 스케일 파라미터들을 2로 나눔으로써 또는 다른 미리 결정된 값을 사용하여 가중함으로써, 공동으로 인코딩된 스케일 파라미터들의 제1 그룹만을 사용하여 스케일 파라미터들의 제2 세트를 계산한다.
추가적인 실시예에서, 공동으로 인코딩된 스케일 파라미터들의 제2 그룹은, 바람직하게는 가변 레이트 양자화기 스테이지인 2 스테이지 양자화기의 제2 양자화 스테이지만을 사용하여 양자화된다. 이러한 경우, 제1 스테이지가 모두 0인 양자화된 값들을 초래하므로, 제2 스테이지만이 유효하다고 가정된다. 이러한 경우는 도 7b에 예시된다.
더 추가적인 실시예에서, 바람직하게는 고정된 레이트 양자화 스테이지인 도 7a의 701, 702, 703과 같은 2 스테이지 양자화기의 제1 양자화 스테이지만이 적용되고, 제2 스테이지(705)는 오디오 신호의 시간 부분 또는 프레임에 대해 전혀 사용되지 않는다. 이러한 경우는 모든 잔여 항목들이 0이거나 제2 양자화 스테이지의 가장 작은 또는 제1 양자화 스텝 사이즈보다 작다고 가정되는 상황에 대응한다. 이어서, 도 7b에서, 항목(706)은 도 7a의 항목들(701, 702, 703)에 대응할 것이고 항목(704)은 또한 생략될 수 있으며, 제1 스테이지 양자화만이 사용되거나 사용되지 않는다고 결정하기 위한 결정기로 대체될 수 있다. 이러한 결정기는 사용자 입력 또는 비트레이트 정보에 의해 제어될 수 있거나 또는 잔여 항목들의 분석을 실제로 수행하여, 단일 스테이지에 의해서만 양자화되는 공동으로 인코딩 스케일 파라미터들의 제2 그룹의 정확도가 충분할만큼 잔여 항목들이 충분히 작다고 결정할 수 있다.
도 14에 부가적으로 예시된 본 발명의 바람직한 구현에서, 대수적 벡터 양자화기(145)는 분할 레벨 계산을 부가적으로 수행하고, 바람직하게는 벡터 양자화기에 의해 수행되는 것과 동일한 분할 레벨 동작을 수행한다. 따라서, 잔여 값들의 서브세트들은 대역 번호에 관해 스케일 파라미터들의 서브세트에 대응한다. 2개의 분할 레벨들을 갖는 경우, 즉 도 21의 처음 8개의 다운샘플링된 대역들의 경우, 대수적 벡터 양자화기(145)는 제1 레벨 결과를 생성한다. 더욱이, 대수적 벡터 양자화기(145)는 상위 8개의 다운샘플링된 스케일 인자들 또는 스케일 파라미터들 또는 일반적으로는 오디오 정보 항목들에 대한 제2 레벨 결과를 생성한다.
바람직하게, 대수적 벡터 양자화기(145)는 참조문헌 (4)로서 언급된 ETSI TS 126 445 V13.2.0 (2016-08)의 섹션 5.2.3.1.6.9에서 정의된 대수적 벡터 양자화기로서 구현되며, 여기서 대응하는 분할 다중-레이트 격자 벡터 양자화의 결과는 각각의 8개의 항목들에 대한 코드북 번호, 기본 코드북 내의 벡터 인덱스 및 8-차원 보로노이 인덱스이다. 그러나, 단일 코드북만을 갖는 경우, 코드북 번호가 회피될 수 있으며, 기본 코드북 내의 벡터 인덱스 및 대응하는 n-차원 보로노이 인덱스만으로 충분하다. 따라서, 대수적 벡터 양자화 결과에 대한 각각의 레벨에 대한 항목 a, 항목 b 및 항목 c 또는 단지 항목 b와 항목 c인 이들 항목들은 제2 스테이지 양자화 결과를 표현한다.
후속하여, 본 발명의 제1 또는 제2 양상에 따른 또는 둘 모두의 양상들에 따른, 도 7a, 7b의 인코딩 또는 도 14의 인코딩과 매칭하는 대응하는 디코딩 동작을 예시하는 도 10에 대한 참조가 행해진다.
도 10의 단계(2221)에서, 양자화된 중간 스케일 인자들, 즉 공동으로 인코딩된 스케일 인자들의 제2 그룹이 리트리브된다. 이것은 스테레오 모드 플래그 또는 도 5의 항목(1403)이 참 값(true value)을 표시할 때 행해진다. 이어서, 도 14의 인코더에 의해, 그리고 특히 도 14에 관해 설명되거나 도 7a에 관해 설명된 대수적 벡터 양자화기(145)에 의해 행해지는 절차들을 다시 행하기 위해 제1 스테이지 디코딩(2223) 및 제2 스테이지 디코딩(2261)이 수행된다. 단계(2225)에서, 사이드 스케일 인자들이 모두 0이라고 가정된다. 단계(2261)에서, 프레임에 대한 0이 아닌 양자화된 스케일 인자들이 실제로 오는지 여부가 0 플래그 값에 의해 체크된다. 0 플래그 값이 프레임에 대해 0이 아닌 사이드 스케일 인자들이 존재한다는 것을 표시하는 경우, 이어서, 양자화된 사이드 스케일 인자들은 제2 스테이지 디코딩(2261)을 사용하여 또는 도 7b의 블록(706)만을 수행하여 리트리브 및 디코딩된다. 블록(2207)에서, 공동으로 인코딩된 스케일 파라미터들은 별개로 인코딩된 스케일 파라미터들로 다시 변환되어, 이어서, 양자화된 좌측 및 우측 스케일 파라미터들을 출력하고, 이어서 그 양자화된 좌측 및 우측 스케일 파라미터들은 디코더에서 스펙트럼의 역 스케일링을 위해 사용될 수 있다.
스테레오 모드 플래그 값이 0의 값을 표시할 때 또는 별개의 코딩이 프레임 내에서 사용되었다고 결정될 때, 이어서, 제1 스테이지 디코딩(2223) 및 제2 스테이지 디코딩(2261)만이 좌측 및 우측 스케일 인자들에 대해 수행되며, 좌측 및 우측 스케일 인자들이 이미 별개로 인코딩된 표현에 있으므로, 블록(2207)과 같은 어떠한 변환도 요구되지 않는다. 인코더 측에서의 스테레오 프로세싱 이전 및 디코더 측에서의 역 스테레오 프로세싱 이후 스펙트럼을 스케일링하기 위해 필요한 SNS 스케일 인자들을 효율적으로 코딩 및 디코딩하는 프로세스는 코멘트들과 함께 예시적인 의사 코드로서 본 발명의 바람직한 구현을 나타내도록 아래에서 설명된다.
Figure pct00001
Figure pct00002
임의의 종류의 양자화, 예를 들어 균일한 또는 불균일한 스칼라 양자화 및 엔트로피 또는 산술 코딩이 파라미터들을 표현하는 데 사용될 수 있다. 설명된 구현에서, 알고리즘 설명에서 알 수 있는 바와 같이, 2-스테이지 벡터 양자화 방식이 구현된다:
제1 스테이지: 2개가 각각 5 비트들로 분할되며(각각 8차원), 따라서 10 비트들로 코딩됨.
제2 스테이지: 대수적 벡터 양자화(AVQ), 잔여물의 스케일링을 이용한 다시 2-분할, 여기서 코드북 인덱스들은 엔트로피 코딩되고, 따라서 가변 비트레이트를 사용함
매우 상관된 채널들의 사이드 신호가 작은 것으로 간주될 수 있으므로, 예를 들어, 감소된-스케일을 사용하여, 대응하는 SNS 파라미터들을 표현하는 데 제2 스테이지 AVQ만으로 충분하다. 이들 신호들에 대해 제1 스테이지 VQ를 스킵함으로써, SNS 파라미터들의 코딩을 위한 상당한 복잡성 및 비트 절약이 달성될 수 있다.
구현된 양자화의 각각의 스테이지의 의사 코드 설명이 아래에서 주어진다. 각각의 분할에 대해 5 비트들을 사용하는 2-분할 벡터 양자화를 이용하는 제1 스테이지:
Figure pct00003
Figure pct00004
제2 스테이지 대수적 벡터 양자화:
Figure pct00005
코딩 프로세스로부터 출력된 인덱스들은 마지막으로 비트스트림으로 패킹(pack)되고 디코더에 전송된다.
제2 스테이지에 대해 위에서 개시된 AVQ 절차는 MDCT-기반 TCX 챕터의 참조한 EVS는 높은-레이트 LPC임(하위조항 5.3.3.2.1.3)에 서술된 바와 같이 바람직하게 구현된다. 구체적으로, 사용된 제2-스테이지 대수적 벡터 양자화기에 대해, 5.3.3.2.1.3.4의 대수적 벡터 양자화기가 언급되어 있고, 개량(refinement)을 양자화하기 위해 사용되는 대수적 VQ는 하위조항 5.2.3.1.6.9에 설명되어 있다. 일 실시예에서, 본 발명은 각각의 인덱스에 대해, 기본 코드북 인덱스에 대한 코드워드들의 세트 및 보로노이 인덱스에 대한 코드워드들의 세트를 가지며, 이러한 모든 것은 엔트로피 코딩되고 따라서 가변 비트 레이트를 갖는다. 따라서, 각각의 서브-대역 j에서의 AVQ의 파라미터들은 코드북 번호, 기본 코드북 내의 벡터 인덱스 및 n-차원(예컨대, 8차원) 보로노이 인덱스로 이루어진다.
스케일 인자들의 디코딩
디코더 끝에서, 인덱스들은 비트스트림으로부터 추출되며, 스케일 인자들의 양자화된 값들을 디코딩 및 도출하는 데 사용된다. 절차의 의사 코드 예가 아래에서 주어진다.
2-스테이지 디코딩의 절차는 아래의 의사코드에서 상세히 설명된다.
Figure pct00006
2-스테이지 디코딩의 절차는 아래의 의사코드에서 상세히 설명된다.
Figure pct00007
제1 스테이지로부터 리트리브된 양자화된 SNS 스케일 인자들은 제2 스테이지에서 잔여물을 디코딩함으로써 개량된다. 절차는 아래의 의사코드에서 주어진다:
Figure pct00008
인코더 측 상의 잔여물의 스케일링 또는 증폭/가중 및 디코더 측 상의 스케일링 또는 감쇠/가중에 관해, 가중 인자들은 각각의 값 또는 분할에 대해 별개로 계산되지 않지만, (예를 들어, 복잡성을 피하기 위한 근사로서의) 단일 가중치 또는 작은 수의 상이한 가중치가 모든 파라미터들을 스케일링하는 데 사용된다. 이러한 스케일링은, 예를 들어 개략적인 양자화(0으로의 더 많은 양자화들) 비트레이트 절약들과 양자화 정밀도(개개의 스펙트럼 왜곡을 가짐)의 트레이드-오프를 결정하는 인자이며, 인코더에서 미리 결정될 수 있어서, 이러한 미리 결정된 값은 디코더에 송신될 필요가 없지만, 송신 비트들을 절약하기 위해 디코더에서 고정으로 세팅되거나 초기화될 수 있다. 따라서, 잔여물의 더 높은 스케일링이 더 많은 비트들을 요구하지만 최소의 스펙트럼 왜곡을 가질 것인 반면, 스케일을 감소시키는 것은 부가적인 비트들을 절약할 것이며, 스펙트럼 왜곡이 수용가능 범위로 유지되면, 이는 부가적인 비트레이트 절약의 수단으로서 기능할 수 있다.
바람직한 실시예들의 장점들
● 2개의 채널들이 상관되고 SNS 파라미터들이 공동으로 코딩될 때 상당한 비트 절약들.
이전의 섹션에서 설명된 시스템에서 달성된 프레임 절약당 비트들의 일 예가 아래에 나타난다:
○ 독립적: 평균 88.1 비트들
새롭게-독립적: 평균 72.0 비트들
새로운-공동: 평균 52.1 비트들
여기서,
○ "독립적"은 2 스테이지 VQ를 이용하여 독립적으로만 2개의 채널들을 코딩하는 FDNS에 대해 SNS [6]을 사용하여 [8]에 설명된 MDCT 스테레오 구현이다.
■ 제1 스테이지: 8-비트 트레이닝된 코드북(16 차원)
■ 제2 스테이지: 4의 인자로 스케일링된 잔여물의 AVQ(가변 비트레이트)
○ "새로운-독립적"은 본 발명의 이전에 설명된 실시예를 지칭하며, 여기서 2개의 채널들의 상관은 충분히 높지 않고, 위에서 설명된 바와 같이 새로운 VQ 2-스테이지 접근법을 사용하여 그들은 별개로 코딩되고, 잔여물은 2.5의 감소된 인자로 스케일링된다.
○ "새로운-공동"은 공동으로 코딩된 경우(또한 위에서 설명됨)를 지칭하며, 여기서 다시 제2 스테이지에서, 잔여물이 2.5의 감소된 인자로 스케일링된다.
● 제안된 방법의 다른 장점은 계산 복잡도 절약들이다. [6]에 나타낸 바와 같이, 새로운 SNS는 LPC들을 추정하는 데 필요한 자기상관 계산들로 인해 [5]에 설명된 LPC-기반 FDNS로부터의 계산 복잡도의 관점들에서 더 최적이다. 따라서, 개선된 LPC-기반 FDNS [5]를 사용하는 [8]로부터의 MDCT-기반 스테레오 시스템의 계산 복잡도를 새로운 SNS [6]이 LPC-기반 접근법을 대체하는 구현과 비교할 때, 32 kHz 샘플링 레이트에서 대략 6 WMOPS의 절약들이 존재한다.
부가적으로, 제1 스테이지에 대해 VQ를 이용한 그리고 제2 스테이지에 대해 감소된 스케일을 갖는 AVQ를 이용한 새로운 2-스테이지 양자화는 계산 복잡도의 일부 추가적인 감소를 달성한다. 이전의 섹션에서 설명된 실시예의 경우, 계산 복잡도는 수용가능 스펙트럼 왜곡의 트레이드-오프로 32 kHz 샘플링 레이트에서 대략 1 WMOPS만큼 추가로 감소된다.
바람직한 실시예들 또는 양상들의 요약
1. 파라미터들의 중간/사이드 표현이 계산되고, 중간이 양자화 및 엔트로피 코딩을 사용하여 코딩되고, 사이드가 더 개략적인 양자화 방식을 사용하여 코딩되는 스펙트럼 잡음 형상화 파라미터들의 공동 코딩.
2. 채널 상관 또는 코히런스(coherence)에 기초하여, 잡음 형상화 파라미터들이 독립적으로 코딩되어야 하는지 또는 공동으로 코딩되어야 하는지를 적응적으로 결정함.
3. 파라미터들이 독립적으로 코딩되었는지 또는 공동으로 코딩되었는지를 결정하기 위해 전송된 시그널링 비트.
4. MDCT 스테레오 구현에 기초한 애플리케이션들:
● 사이드 계수들이 0인 비트들을 이용한 시그널링
● SNS가 사용됨
● 전력 스펙트럼이 SNS를 계산하기 위해 사용됨
● 5 비트들을 이용한 2개의 분할들이 제1 스테이지에서 사용됨.
● 제2 스테이지 AVQ의 잔여물의 스케일링을 조정하는 것은 제2 스테이지 양자화를 위한 비트들의 수를 추가로 감소시킬 수 있음.
도 23은 현재의 종래 기술 구현(위에서 "독립적"으로서 설명됨), 본 발명의 제2 양상에 따른 새로운 독립적 구현에 따른, 그리고 본 발명의 제1 양상에 따른 새로운 공동 구현에 대해 둘 모두의 채널들에 대한 비트들의 수의 비교를 예시한다. 도 23은, 수직 축이 발생 빈도를 표현하고 수평 축이 둘 모두의 채널들에 대한 파라미터들을 코딩하기 위한 비트들의 총 수의 빈(bin)들을 예시하는 히스토그램을 예시한다.
후속하여, 각각의 오디오 채널에 대한 스케일 인자들의 계산에 특정 강조가 주어지고, 도 3a, 도 3b에 관해 예시된 바와 같이, 공동으로 인코딩된 스케일 파라미터들의 계산 전에 또는 그에 후속하여 적용되는 스케일 파라미터들의 다운샘플링 및 업샘플링의 특정 적용에 특정 강조가 부가적으로 주어지는 추가적인 바람직한 실시예들이 예시된다.
도 11은 오디오 신호(160)를 인코딩하기 위한 장치를 예시한다. 오디오 신호(160)는 바람직하게, 시간-도메인에서 이용가능하지만, 예측-도메인 또는 임의의 다른 도메인과 같은 오디오 신호의 다른 표현들이 또한 원칙적으로 유용할 것이다. 장치는 변환기(100), 스케일 인자 계산기(110), 스펙트럼 프로세서(120), 다운샘플러(130), 스케일 인자 인코더(140) 및 출력 인터페이스(150)를 포함한다. 변환기(100)는 오디오 신호(160)를 스펙트럼 표현으로 변환하도록 이루어진다. 스케일 인자 계산기(110)는 스펙트럼 표현으로부터 스케일 파라미터들 또는 스케일 인자들의 제1 세트를 계산하도록 이루어진다. 다른 채널이 블록(120)에서 수신되고, 다른 채널들로부터의 스케일 파라미터들이 블록(140)에 의해 수신된다.
명세서 전반에 걸쳐, 용어 "스케일 인자" 또는 "스케일 파라미터"는 동일한 파라미터 또는 값, 즉 일부 프로세싱에 후속하여, 일부 종류의 스펙트럼 값들을 가중하기 위해 사용되는 값 또는 파라미터를 지칭하기 위해 사용된다. 이러한 가중은 선형 도메인에서 수행될 때, 실제로 스케일링 인자를 이용한 곱셈 연산이다. 그러나, 가중이 로그 도메인에서 수행될 때, 이어서 스케일 인자를 이용한 가중 연산이 실제 가산 또는 감산 연산에 의해 행해진다. 따라서, 본 출원의 관점들에서, 스케일링은 곱셈 또는 나눗셈을 의미할 뿐만 아니라, 특정한 도메인에 의존하여, 가산 또는 감산을 의미하거나, 또는 일반적으로는, 스펙트럼 값이, 예를 들어 스케일 인자 또는 스케일 파라미터를 사용하여 가중 또는 수정되게 하는 각각의 연산을 의미한다.
다운샘플러(130)는 스케일 파라미터들의 제2 세트를 획득하기 위해 스케일 파라미터들의 제1 세트를 다운샘플링하도록 이루어지며, 여기서 스케일 파라미터들의 제2 세트 내의 스케일 파라미터들의 제2 수는 스케일 파라미터들의 제1 세트 내의 스케일 파라미터들의 제1 수보다 작다. 이것은 또한, 제2 수가 제1 수보다 작다는 것을 나타내는 도 11의 박스에 서술되어 있다. 도 11에 예시된 바와 같이, 스케일 인자 인코더는 스케일 인자들의 제2 세트의 인코딩된 표현을 생성하도록 이루어지고, 이러한 인코딩된 표현은 출력 인터페이스(150)에 포워딩된다. 스케일 인자들의 제2 세트가 스케일 인자들의 제1 세트보다 더 작은 수의 스케일 인자들을 갖는다는 사실로 인해, 스케일 인자들의 제2 세트의 인코딩된 표현을 송신 또는 저장하기 위한 비트레이트는, 다운샘플러(130)에서 수행된 스케일 인자들의 다운샘플링이 수행되지 않았을 상황과 비교하여 더 낮다.
더욱이, 스펙트럼 프로세서(120)는 스케일 파라미터의 제3 세트, 스케일 파라미터를 사용하여 도 11의 변환기(100)에 의해 출력된 스펙트럼 표현을 프로세싱하도록 이루어지며, 스케일 파라미터들 또는 스케일 인자들의 제3 세트는 스케일 인자들의 제2 수보다 큰 스케일 인자들의 제3 수를 갖고, 스펙트럼 프로세서(120)는 스펙트럼 프로세싱의 목적을 위해, 라인(171)을 통해 블록(110)으로부터 이미 이용가능한 바와 같은 스케일 인자들의 제1 세트를 사용하도록 이루어진다. 대안적으로, 스펙트럼 프로세서(120)는 라인(172)에 의해 예시된 바와 같이 스케일 인자들의 제3 세트의 계산을 위해 다운샘플러(130)에 의해 출력으로서 스케일 인자들의 제2 세트를 사용하도록 이루어진다. 추가적인 구현에서, 스펙트럼 프로세서(120)는 도 11의 라인(173)에 의해 예시된 바와 같이 스케일 인자들의 제3 세트를 계산하려는 목적을 위해 스케일 인자/파라미터 인코더(140)에 의해 출력된 인코딩된 표현을 사용한다. 바람직하게, 스펙트럼 프로세서(120)는 스케일 인자들의 제1 세트를 사용하지 않지만, 다운샘플러에 의해 계산된 바와 같은 스케일 인자들의 제2 세트를 사용하거나, 또는 훨씬 더 바람직하게는 인코딩된 표현, 또는 일반적으로는 스케일 인자들의 양자화된 제2 세트를 사용하며, 이어서, 보간 동작으로 인해 더 많은 수의 스케일 파라미터들을 갖는 스케일 파라미터들의 제3 세트를 획득하기 위해 스케일 파라미터들의 양자화된 제2 세트를 보간하도록 보간 동작을 수행한다.
따라서, 블록(140)에 의해 출력되는 스케일 인자들의 제2 세트의 인코딩된 표현은, 바람직하게 사용되는 스케일 파라미터 코드북에 대한 코드북 인덱스 또는 대응하는 코드북 인덱스들의 세트 중 어느 하나를 포함한다. 다른 실시예들에서, 인코딩된 표현은, 코드북 인덱스 또는 코드북 인덱스들의 세트 또는 일반적으로는 인코딩된 표현이 디코더-측 벡터 디코더 또는 임의의 다른 디코더로 입력될 때 획득되는 양자화된 스케일 인자들의 양자화된 스케일 파라미터들을 포함한다.
바람직하게, 스펙트럼 프로세서(120)는 디코더-측에서 또한 이용가능한 스케일 인자들의 동일한 세트를 사용하고, 즉 스케일 인자들의 제3 세트를 마지막으로 획득하기 위해 보간 동작과 함께, 스케일 파라미터들의 양자화된 제2 세트를 사용한다.
바람직한 실시예에서, 스케일 인자들의 제3 세트 내의 스케일 인자들의 제3 수는 스케일 인자들의 제1 수와 동일하다. 그러나, 더 작은 수의 스케일 인자들이 또한 유용하다. 예시적으로, 예를 들어, 본 발명은 블록(110)에서 64개의 스케일 인자들을 도출할 수 있고, 본 발명은 이어서, 송신을 위해 64개의 스케일 인자들을 16개의 스케일 인자들로 다운샘플링할 수 있다. 이어서, 본 발명은 반드시 64개의 스케일 인자들로가 아니라 스펙트럼 프로세서(120)에서 32개의 스케일 인자들로 보간을 수행할 수 있다. 대안적으로, 본 발명은, 인코딩된 출력 신호(170)에서 송신된 스케일 인자들의 수가 블록(110)에서 계산되거나 도 11의 블록(120)에서 계산 및 사용된 스케일 인자들의 수보다 작은 한, 경우에 따라 64개 초과의 스케일 인자들과 같은 훨씬 더 많은 수로 보간을 수행할 수 있다.
바람직하게, 스케일 인자 계산기(110)는 도 12에 예시된 여러가지 동작들을 수행하도록 이루어진다. 이들 동작들은 대역당 진폭-관련 척도의 계산(111)을 지창하며, 여기서 하나의 채널에 대한 스펙트럼 표현이 블록(111)으로 입력된다. 다른 채널에 대한 계산이 유사한 방식으로 발생할 것이다. 대역당 바람직한 진폭-관련 척도는 대역당 에너지이지만, 다른 진폭-관련 척도들, 예를 들어 대역당 진폭들의 크기들의 합산 또는 에너지에 대응하는 제곱된 진폭들의 합산이 또한 사용될 수 있다. 그러나, 대역당 에너지를 계산하기 위해 사용되는 2의 거듭제곱 외에도, 신호의 라우드니스(loudness)를 반영할 3의 거듭제곱과 같은 다른 거듭제곱들이 또한 사용될 수 있으며, 심지어 1.5 또는 2.5의 거듭제곱들과 같은 정수들과는 상이한 거듭제곱들이 대역당 진폭-관련 척도들을 계산하기 위해 또한 사용될 수 있다. 심지어 1.0 미만의 거듭제곱들은, 그러한 거듭제곱들에 의해 프로세싱된 값이 값들이 양의 값이라는 것을 보장하게 되는 한 사용될 수 있다.
스케일 인자 계산기에 의해 수행되는 추가적인 동작은 대역-간 평활화(inter-band smoothing)(112)일 수 있다. 이러한 대역-간 평활화는 바람직하게, 단계(111)에 의해 획득된 바와 같은 진폭-관련 척도들의 벡터에서 나타날 수 있는 가능한 불안정성들을 평활화하는 데 사용된다. 본 발명이 이러한 평활화를 수행하지 않을 것이라면, 이들 불안정성들은, 특히 에너지가 0에 가까운 스펙트럼 값들에서 115에 예시된 바와 같이 나중에 로그-도메인으로 변환될 때 증폭될 것이다. 그러나, 다른 실시예들에서, 대역-간 평활화가 수행되지 않는다.
스케일 인자 계산기(110)에 의해 수행되는 추가적인 바람직한 동작은 사전-강조 동작(113)이다. 이러한 사전-강조 동작은 종래 기술에 관해 이전에 논의된 바와 같이, MDCT-기반 TCX 프로세싱의 LPC-기반 지각 필터에서 사용되는 사전-강조 동작과 유사한 목적을 갖는다. 이러한 절차는 저주파수들에서 형상화된 스펙트럼의 진폭을 증가시키며, 이는 저주파수들에서 감소된 양자화 잡음을 초래한다.
그러나, 구현에 의존하여, 다른 특정 동작들과 같이 사전-강조 동작이 반드시 수행될 필요는 없다.
추가적인 선택적 프로세싱 동작은 잡음-플로어 가산 프로세싱(114)이다. 이러한 절차는, 밸리(valley)들에서 양자화 잡음의 증가의 대가로 피크(peak)들에서 양자화 잡음을 감소시키는 간접 효과를 갖는 밸리들에서 형상화된 스펙트럼의 진폭 증폭을 제한함으로써, 예를 들어 글로켄슈필(Glockenspiel)과 같은 매우 높은 스펙트럼 역학을 포함하는 신호들의 품질을 개선시키며, 여기서 통상적으로, 높은 볼륨 톤에 비교적 주파수가 가까운 매우 낮은 볼륨 톤이 전혀 인지가능하지 않고, 즉 완전히 마스킹되거나 사람의 청각 메커니즘에 의해 개략적으로만 인지되어서, 이러한 스펙트럼 기여가 매우 개략적으로 양자화될 수 있게 한다는 것을 표시하는 절대적 청취 임계치, 사전-마스킹, 사후-마스킹 또는 일반적인 마스킹 임계치와 같은 사람의 귀의 마스킹 속성들로 인해 양자화 잡음은 어쨌든 인지가능하지 않다.
그러나, 잡음-플로어 가산 동작(114)은 반드시 수행될 필요는 없다.
더욱이, 블록(115)은 로그형 도메인 변환을 표시한다. 바람직하게, 도 12의 블록들(111, 112, 113, 114) 중 하나의 블록의 출력의 변환이 로그형 도메인에서 수행된다. 로그형 도메인은 0에 가까운 값들이 확장되고 높은 값들이 압축되는 도메인이다. 바람직하게, 로그 도메인은 밑이 2인 도메인이지만, 다른 로그 도메인들이 또한 사용될 수 있다. 그러나, 밑이 2인 로그 도메인은 고정-소수점 신호 프로세서 상에서의 구현에 더 좋다.
스케일 인자 계산기(110)의 출력은 스케일 인자들의 제1 세트이다.
도 12에 예시된 바와 같이, 블록들(112 내지 115) 각각은 브리지(bridge)될 수 있으며, 즉 블록(111)의 출력은, 예를 들어 이미 스케일 인자들의 제1 세트일 수 있다. 그러나, 모든 프로세싱 동작들 및, 특히 로그형 도메인 변환이 바람직하다. 따라서, 본 발명은 심지어, 예를 들어 단계들(112 내지 114)의 절차들 없이 단계들(111 및 115)만을 수행함으로써 스케일 인자 계산기를 구현할 수 있다. 블록(115)의 출력에서, (L과 같은) 채널에 대한 스케일 파라미터들의 세트가 획득되고, (R과 같은) 다른 채널에 대한 스케일 파라미터들의 세트가 또한 유사한 계산에 의해 획득될 수 있다.
따라서, 스케일 인자 계산기는 여러 개의 블록들을 연결시키는 입력/출력 라인들에 의해 표시된 바와 같이 도 12에 예시된 절차들 중 하나 또는 2개 이상을 수행하도록 이루어진다.
도 13은 단일 채널에 대한 도 11의 다운샘플러(130)의 바람직한 구현을 다시 예시한다. 다른 채널의 데이터가 유사한 방식으로 계산된다. 바람직하게, 저역-통과 필터링 또는 일반적으로는, 특정한 윈도우 w(k)를 갖는 필터링이 단계(131)에서 수행되고, 이어서, 필터링 결과의 다운샘플링/데시메이션 동작이 수행된다. 저역-통과 필터링(131) 및 바람직한 실시예들에서는 다운샘플링/데시메이션 동작(132)이 둘 모두 산술 연산들이라는 사실로 인해, 필터링(131) 및 다운샘플링(132)은 나중에 서술될 바와 같이, 단일 동작 내에서 수행될 수 있다. 바람직하게, 다운샘플링/데시메이션 동작은 스케일 파라미터들의 제1 세트의 스케일 파라미터들의 개별 그룹들 사이의 중첩이 수행되는 그러한 방식으로 수행된다. 바람직하게, 2개의 데시메이션된 계산된 파라미터들 사이의 필터링 동작에서의 하나의 스케일 인자의 중첩이 수행된다. 따라서, 단계(131)는 데시메이션 전에 스케일 파라미터들의 벡터에 대해 저역-통과 필터를 수행한다. 이러한 저역-통과 필터는 심리음향적 모델들에서 사용되는 확산 함수와 유사한 효과를 갖는다. 그것은 피크들 주위의 양자화 잡음의 증가의 대가로 피크들에서의 양자화 잡음을 감소시키며, 여기서 그것은 피크들에서의 양자화 잡음에 관해 적어도 더 높은 정도로 어쨌든 지각적으로 마스킹된다.
더욱이, 다운샘플러는 부가적으로 평균 값 제거(133) 및 부가적인 스케일링 단계(134)를 수행한다. 그러나, 저역-통과 필터링 동작(131), 평균값 제거 단계(133) 및 스케일링 단계(134)는 단지 선택적 단계들일 뿐이다. 따라서, 도 13에 예시되거나 도 11에 예시된 다운샘플러는 단계(132)만을 수행하거나 또는 단계(132) 또는 단계들(131, 133 및 134) 중 하나의 단계와 같은 도 13에 예시된 2개의 단계들을 수행하도록 구현될 수 있다. 대안적으로, 다운샘플러는 다운샘플링/데시메이션 동작(132)이 수행되는 한, 도 13에 예시된 4개의 단계들 중 모든 4개의 단계들 또는 3개의 단계들만을 수행할 수 있다.
도 13에 서술된 바와 같이, 다운샘플러에 의해 수행되는 도 13의 오디오 동작들은 더 좋은 결과들을 획득하기 위해 로그형 도메인에서 수행된다.
도 15는 스펙트럼 프로세서의 바람직한 구현을 예시한다. 도 11의 인코더 내에 포함된 스펙트럼 프로세서(120)는, 각각의 채널에 대한 또는 대안적으로는 공동으로 인코딩된 스케일 파라미터들의 그룹에 대한 스케일 파라미터들의 양자화된 제2 세트를 수신하고, 채널에 대한 또는 공동으로 인코딩된 스케일 파라미터들의 그룹에 대한 스케일 파라미터들의 제3 세트를 출력하는 보간기(121)를 포함하며, 여기서 제3 수는 제2 수보다 크고, 바람직하게는 제1 수와 동일하다. 더욱이, 스펙트럼 프로세서는 선형 도메인 변환기(120)를 포함한다. 이어서, 한편으로는 선형 스케일 파라미터들을 사용하여 그리고 다른 한편으로는 변환기(100)에 의해 획득되는 스펙트럼 표현을 사용하여 블록(123)에서 스펙트럼 형상화가 수행된다. 바람직하게, 후속 시간적 잡음 형상화 동작, 즉 주파수에 대한 예측이 블록(124)의 출력에서 스펙트럼 잔여 값들을 획득하기 위해 수행되는 반면, TNS 사이드 정보는 화살표(129)에 의해 표시된 바와 같이 출력 인터페이스에 포워딩된다.
마지막으로, 스펙트럼 프로세서(125, 120b)는 전체 스펙트럼 표현에 대한, 즉 전체 프레임에 대한 단일 전역 이득을 수신하도록 이루어진 스칼라 양자화기/인코더, 및 스테레오 프로세싱 기능 및 IGF 프로세싱 기능 등 중 적어도 하나를 갖는다. 바람직하게, 특정한 비트레이트 고려사항들에 의존하여 전역 이득이 도출된다. 따라서, 전역 이득은 블록(125, 120b)에 의해 생성된 스펙트럼 표현의 인코딩된 표현이 비트레이트 요건, 품질 요건 또는 둘 모두와 같은 특정한 요건들을 충족하도록 세팅된다. 전역 이득은 반복적으로 계산될 수 있거나 또는 경우에 따라 피드 포워드 척도에서 계산될 수 있다. 일반적으로, 전역 이득은 양자화기와 함께 사용되며, 높은 전역 이득은 통상적으로 더 개략적인 양자화를 초래하고, 여기서 낮은 전역 이득은 더 미세한 양자화를 초래한다. 따라서, 다시 말하면, 고정된 양자화기가 획득될 때, 높은 전역 이득은 더 높은 양자화 스텝 사이즈를 초래하는 반면, 낮은 전역 이득은 더 작은 양자화 스텝 사이즈를 초래한다. 그러나, 예를 들어 더 높은 값들이 더 작은 값들보다 더 압축되도록 높은 값들에 대한 일부 종류의 압축 기능, 즉 일부 종류의 비선형 압축 기능을 갖는 양자화기와 같은 전역 이득 기능과 함께 다른 양자화기들이 또한 사용될 수 있다. 로그 도메인에서의 가산에 대응하는 선형 도메인에서의 양자화 전에 전역 이득이 값들에 곱해질 때, 전역 이득과 양자화 조잡도(coarseness) 사이의 위의 의존성이 유효하다. 그러나, 전역 이득이 선형 도메인에서는 나누기에 의해 또는 로그 도메인에서는 감산에 의해 적용되면, 의존성은 종속성은 반대(the other way round)이다. "전역 이득"이 역의 값을 표현할 때에도 마찬가지이다.
후속하여, 도 11 내지 도 15에 관해 설명된 개별 절차들의 바람직한 구현들이 주어진다.
바람직한 실시예들의 상세한 단계별 설명
인코더:
● 단계 1: 대역당 에너지(111)
대역당 에너지들 EB(n)는 다음과 같이 계산되며:
Figure pct00009
이때, X(k)는 MDCT 계수들이고, NB=64는 대역들의 수이고, Ind(n)은 대역 인덱스들이다. 대역들은 불균일하며, 지각적으로-관련된 바크 스케일을 따른다(저주파들에서는 더 작고, 고주파수들에서는 더 큼).
● 단계 2: 평활화(112)
대역당 에너지 EB(b)는 다음을 사용하여 평활화된다:
Figure pct00010
유의: 이러한 단계는 벡터 EB(b)에서 나타날 수 있는 가능한 불안정성들을 평활화하는 데 주로 사용된다. 평활화되지 않으면, 이들 불안정성들은, 특히 에너지가 0에 가까운 밸리들에서 로그-도메인으로 변환될 때 증폭된다(단계 5 참조).
● 단계 3: 사전-강조(113)
이어서, 대역당 평활화된 에너지 ES(b)가 다음을 사용하여 사전-강조되며:
Figure pct00011
이때, gtilt는 사전-강조 틸트(tilt)를 제어하고, 샘플링 주파수에 의존한다. 그것은, 예를 들어 16 kHz에서는 18이고, 48 kHz에서는 30이다. 이러한 단계에서 사용되는 사전-강조는 종래 기술 2의 LPC-기반 지각 필터에서 사용되는 사전-강조와 동일한 목적을 갖고, 그것은 저주파들에서, 형상화된 스펙트럼의 진폭을 증가시키며, 이는 저주파수들에서, 감소된 양자화 잡음을 초래한다.
● 단계 4: 잡음 플로어(114)
-40 dB의 잡음 플로어가 다음을 사용하여 EP(b)에 추가되며:
Figure pct00012
이때, 잡음 플로어는 다음에 의해 계산된다:
Figure pct00013
이러한 단계는, 양자화 잡음이 어쨌든 지각가능하지 않은 밸리들에서의 양자화 잡음의 증가의 대가로 피크들에서 양자화 잡음을 감소시키는 간접적인 효과를 갖는, 밸리들에서 형상화된 스펙트럼의 진폭 증폭을 제한함으로써, 예를 들어 글로켄슈필과 같은 매우 높은 스펙트럼 역학을 포함하는 신호들의 품질을 개선시킨다.
● 단계 5: 로그(115)
이어서, 로그 도메인으로의 변환은 다음을 사용하여 수행된다:
Figure pct00014
● 단계 6: 다운샘플링(131, 132)
이어서, 벡터 EL(b)는 다음을 사용하여 4배로 다운샘플링되며:
Figure pct00015
이때, 다음과 같다:
Figure pct00016
이러한 단계는 데시메이션 전에 벡터 EL(b)에 대해 저역-통과 필터(w(k))를 적용한다. 이러한 저역-통과 필터는 심리음향적 모델들에서 사용되는 확산 함수와 유사한 효과를 가지며: 그것은 양자화 잡음이 어쨌든 지각적으로 마스킹되는 피크들 주위에서의 양자화 잡음의 증가의 대가로 피크들에서 양자화 잡음을 감소시킨다.
● 단계 7: 평균 제거 및 스케일링(133, 134)
마지막 스케일 인자들은 평균 제거 및 0.85배만큼 스케일링 이후 획득된다:
Figure pct00017
코덱이 부가적인 전역-이득을 가지므로, 어떠한 정보 손실 없이 평균이 제거될 수 있다. 평균을 제거하는 것은 또한 더 효율적인 벡터 양자화를 허용한다.
0.85의 스케일링은 잡음 형상화 곡선의 진폭을 약간 압축한다. 그것은 단계 6에서 언급된 확산 함수와 유사한 지각 효과: 피크들에서의 감소된 양자화 잡음 및 밸리들에서의 증가된 양자화 잡음을 갖는다.
● 단계 8: 양자화(141, 142)
스케일 인자들은, 이어서 비트스트림으로 패킹되고 디코더에 전송되는 인덱스들을 생성하는 벡터 양자화 및 양자화된 스케일 인자들 scfQ(n)을 사용하여 양자화된다.
● 단계 9: 보간(121, 122)
양자화된 스케일 인자들 scfQ(n)은 다음을 사용하여 보간되고:
Figure pct00018
다음을 사용하여 다시 선형 도메인으로 변환된다:
Figure pct00019
보간은 매끄러운 잡음 형상화 곡선을 얻고, 따라서 인접한 대역들 사이의 임의의 큰 진폭 점프들을 방지하는 데 사용된다.
● 단계 10: 스펙트럼 형상화(123)
SNS 스케일 인자들 gSNS(b)는 다음과 같은 형상화된 스펙트럼 Xs(k)를 생성하기 위해 각각의 대역에 대해 별개로 MDCT 주파수 라인들 상에 적용된다:
Figure pct00020
도 18은 인코딩된 스펙트럼 표현에 관한 정보 및 (별개로 또는 공동으로 인코딩된) 스케일 파라미터들의 제2 세트의 인코딩된 표현에 관한 정보를 포함하는 인코딩된 오디오 신호(250)(L, R 또는 M, S로서 인코딩된 스테레오 신호)를 디코딩하기 위한 장치의 바람직한 구현을 예시한다. 디코더는 입력 인터페이스(200), 스펙트럼 디코더(210)(예를 들어, IGF 프로세싱 또는 역 스테레오 프로세싱 또는 역양자화 프로세싱을 수행함), 스케일 인자/파라미터 디코더(220), (예를 들어, R, L에 대한) 스펙트럼 프로세서(230) 및 (예를 들어, R, L에 대한) 변환기(240)를 포함한다. 입력 인터페이스(200)는, 인코딩된 오디오 신호(250)를 수신하고, 스펙트럼 디코더(210)에 포워딩되는 인코딩된 스펙트럼 표현을 추출하고, 스케일 인자 디코더(220)에 포워딩되는 스케일 인자들의 제2 세트의 인코딩된 표현을 추출하도록 이루어진다. 더욱이, 스펙트럼 디코더(210)는 스펙트럼 프로세서(230)에 포워딩되는 디코딩된 스펙트럼 표현을 획득하기 위해, 인코딩된 스펙트럼 표현을 디코딩하도록 이루어진다. 스케일 인자 디코더(220)는 스펙트럼 프로세서(230)에 포워딩되는 스케일 파라미터들의 제1 세트를 획득하기 위해 스케일 파라미터들의 인코딩된 제2 세트를 디코딩하도록 이루어진다. 스케일 인자들의 제1 세트는 제2 세트 내의 스케일 인자들 또는 스케일 파라미터들의 수보다 큰 스케일 인자들 또는 스케일 파라미터들의 수를 갖는다. 스펙트럼 프로세서(230)는 스케일링된 스펙트럼 표현을 획득하기 위해 스케일 파라미터들의 제1 세트를 사용하여, 디코딩된 스펙트럼 표현을 프로세싱하도록 이루어진다. 이어서, 스케일링된 스펙트럼 표현은 2개 초과의 채널들에 대한 스테레오 신호 또는 다중채널 신호인 디코딩된 오디오 신호(260)를 마지막으로 획득하기 위해 변환기(240)에 의해 변환된다.
바람직하게, 스케일 인자 디코더(220)는, 블록들(141 또는 142) 및 특히, 도 15의 블록들(121, 122)과 관련하여 논의된 바와 같은 스케일 인자들 또는 스케일 파라미터들의 제3 세트의 계산에 관련된 도 11의 스펙트럼 프로세서(120)에 관해 논의되었던 것과 실질적으로 동일한 방식으로 동작하도록 이루어진다. 특히, 스케일 인자 디코더는 단계 9에 관해 이전에 논의되었던 바와 같이, 보간 및 다시 선형 도메인으로의 변환을 위해 실질적으로 동일한 절차를 수행하도록 이루어진다. 따라서, 도 19에 예시된 바와 같이, 스케일 인자 디코더(220)는 인코딩된 스케일 파라미터 표현을 표현하는 프레임당 하나 이상의 인덱스들에 디코더 코드북(221)을 적용하도록 이루어진다. 이어서, 도 15의 블록(121)에 관해 논의되었던 것과 실질적으로 동일한 보간인 보간이 블록(222)에서 수행된다. 이어서, 도 15에 관해 논의되었던 것과 실질적으로 동일한 선형 도메인 변환기(122)인 선형 도메인 변환기(223)가 사용된다. 그러나, 다른 구현들에서, 블록들(221, 222, 223)은 인코더-측 상의 대응하는 블록들에 관해 논의되었던 것과 상이하게 동작할 수 있다.
더욱이, 도 18 또는 도 19에 예시된 스펙트럼 디코더(210)는, 인코딩된 스펙트럼을 입력으로서 수신하고, 인코딩된 형태로, 인코딩된 오디오 신호 내에서 인코더 측으로부터 디코더 측으로 부가적으로 송신되는 전역 이득을 사용하여 바람직하게 역양자화되는 역양자화된 스펙트럼을 출력하는 역양자화기/디코더 블록을 포함한다. 블록(210)은 또한, IGF 프로세싱 또는 역 스테레오 프로세싱, 예컨대 MS 디코딩을 수행할 수 있다. 역양자화기/디코더(210)는, 예를 들어 일부 종류의 코드들을 입력으로서 수신하고, 스펙트럼 값들을 표현하는 양자화 인덱스들을 출력하는 산술 또는 허프만 디코더 기능을 포함할 수 있다. 이어서, 이들 양자화 인덱스들은 전역 이득과 함께 역양자화기로 입력되고, 출력은, 이어서 TNS 디코더 프로세싱 블록(211)에서 주파수에 대한 역 예측과 같은 TNS 프로세싱을 겪을 수 있는역양자화된 스펙트럼 값들이지만, 이는 선택적이다. 특히, TNS 디코더 프로세싱 블록은 부가적으로, 라인(129)에 의해 표시된 바와 같이 도 15의 블록(124)에 의해 생성되었던 TNS 사이드 정보를 수신한다. TNS 디코더 프로세싱 단계(211)의 출력은 별개의 스케일 인자들을 사용하여 별개로 각각의 채널에 대해 동작하는 스펙트럼 형상화 블록(212)으로 입력되며, 여기서 스케일 인자 디코더에 의해 계산된 바와 같은 스케일 인자들의 제1 세트는 경우에 따라 TNS 프로세싱될 수 있거나 TNS 프로세싱될 수 없는 디코딩된 스펙트럼 표현에 적용되고, 출력은, 도 18의 변환기(240)로 이어서 입력되는 각각의 채널에 대한 스케일링된 스펙트럼 표현이다.
디코더의 바람직한 실시예들의 추가적인 절차들이 후속하여 논의된다.
디코더:
● 단계 1: 양자화(221)
인코더 단계 8에서 생성된 벡터 양자화기 인덱스들은 비트스트림으로부터 판독되고, 양자화된 스케일 인자들 scfQ(n)을 디코딩하는 데 사용된다.
● 단계 2: 보간(222, 223)
인코더 단계 9와 동일하다.
● 단계 3: 스펙트럼 형상화(212)
SNS 스케일 인자들 gSNS(b)는 다음의 코드에 의해 서술되는 바와 같이, 디코딩된 스펙트럼
Figure pct00021
를 생성하기 위해 각각의 대역에 대해 별개로, 양자화된 MDCT 주파수 라인들 상에 적용된다:
Figure pct00022
도 16 및 도 17은, 도 16이 TNS 프로세싱이 없는 구현을 표현하는 반면, 도 17이 TNS 프로세싱을 포함하는 구현을 예시하는 일반적인 인코더/디코더 셋업을 예시한다. 도 16 및 도 17에 예시된 유사한 기능들은 동일한 참조 번호들이 표시될 때 다른 도면들의 유사한 기능들에 대응한다. 특히, 도 16에 예시된 바와 같이, 입력 신호(160), 예를 들어 스테레오 신호 또는 다중채널 신호는 변환 스테이지(110)로 입력되고, 후속하여 스펙트럼 프로세싱(120)이 수행된다. 특히, 스펙트럼 프로세싱은 참조 번호들(123, 110, 130, 140)에 의해 표시된 SNS 인코더에 의해 반영되며, 그 참조 번호들은 블록 SNS 인코더가 이들 참조 번호들에 의해 표시된 기능들을 구현한다는 것을 표시한다. SNS 인코더 블록에 후속하여, 양자화 인코딩 동작(120b, 125)이 수행되고, 인코딩된 신호는 도 16의 180에서 표시된 바와 같이 비트스트림으로 입력된다. 이어서, 비트스트림(180)은 디코더-측에서 발생하고, 참조 번호(210)에 의해 예시된 역 양자화 및 디코딩에 후속하여, 도 18의 블록들(210, 220, 230)에 의해 예시된 SNS 디코더 동작이 수행되어, 결국, 역 변환(240)에 후속하여, 디코딩된 출력 신호(260)가 획득된다.
도 17은 도 16과 유사한 표현을 예시하지만, 바람직하게는 인코더-측 상에서 SNS 프로세싱에 후속하여 TNS 프로세싱이 수행되고, 대응하여, 디코더-측 상의 프로세싱 시퀀스에 관해 SNS 프로세싱(212) 전에 TNS 프로세싱(211)이 수행된다는 것이 표시된다.
바람직하게, 스펙트럼 잡음 형상화(SNS)와 양자화/코딩 사이의 부가적인 도구 TNS(아래의 블록도 참조)가 사용된다. TNS(시간적 잡음 형상화)는 또한 양자화 잡음을 형상화하지만, (SNS의 주파수-도메인 형상화와는 대조적으로) 시간-도메인 형상화를 또한 행한다. TNS는 급격한 어택(sharp attack)들을 포함하는 신호들에 그리고 스피치 신호들에 유용하다.
TNS는 일반적으로 변환과 SNS 사이에 (예를 들어, AAC에서) 적용된다. 그러나, 바람직하게, 형상화된 스펙트럼 상에 TNS를 적용하는 것이 바람직하다. 이것은 낮은 비트레이트들에서 코덱을 동작시킬 때 TNS 디코더에 의해 생성되었던 일부 아티팩트(artifact)들을 피한다.
도 20은 인코더-측 상에서 블록(100)에 의해 획득된 바와 같은 스펙트럼 계수들 또는 스펙트럼 라인들의 대역들로의 바람직한 세분을 예시한다. 특히, 더 낮은 대역들이 더 높은 대역들보다 더 작은 수의 스펙트럼 라인들을 갖는다는 것이 표시된다.
특히, 도 20의 x-축은 대역들의 인덱스에 대응하고, 64개의 대역들의 바람직한 실시예를 예시하며, y-축은 하나의 프레임 내의 320개의 스펙트럼 계수들을 예시하는 스펙트럼 라인들의 인덱스에 대응한다. 특히, 도 20은 32 kHz의 샘플링 주파수가 존재하는 초광대역(super wide band; SWB) 경우의 상황을 예시적으로 예시한다.
광대역의 경우에 대해, 개별 대역들에 관한 상황은, 하나의 프레임이 160개의 스펙트럼 라인들을 초래하고 샘플링 주파수가 16 kHz여서, 둘 모두의 경우들에 대해, 하나의 프레임이 10 밀리초의 시간 길이를 갖게 하도록 이루어진다.
도 21은 도 11의 다운샘플러(130)에서 수행되는 바람직한 다운샘플링 또는 도 18의 스케일 인자 디코더(220)에서 수행되는 바와 같은 또는 도 19의 블록(222)에 예시된 바와 같은 대응하는 업샘플링 또는 보간에 관한 더 많은 세부사항들을 예시한다.
x-축을 따라, 대역들 0 내지 63에 대한 인덱스가 주어진다. 특히, 0으로부터 63까지 진행하는 64개의 대역들이 존재한다.
scfQ(i)에 대응하는 16개의 다운샘플 포인트들은 수직 라인들(1100)로 예시된다. 특히, 도 21은 다운샘플링된 포인트(1100)를 마지막으로 획득하기 위해 스케일 파라미터들의 특정한 그룹화가 어떻게 수행되는지를 예시한다. 예시적으로, 4개의 대역들의 제1 블록은 (0, 1, 2, 3)으로 이루어지고, 이러한 제1 블록의 중간 포인트는 x-축을 따라 인덱스 1.5에서 항목(1100)에 의해 표시된 1.5에 있다.
대응하여, 4개의 대역들의 제2 블록은 (4, 5, 6, 7)이고, 제2 블록의 중간 포인트는 5.5이다.
윈도우들(1110)은 이전에 설명된 단계 6 다운샘플링에 관해 논의된 윈도우들 w(k)에 대응한다. 이들 윈도우들이 다운샘플링된 포인트들에 중심설정되고, 이전에 논의된 바와 같이 각각의 측에 대한 하나의 블록의 중첩이 존재한다는 것을 알 수 있다.
도 19의 보간 단계(222)는 16개의 다운샘플링된 포인트들로부터 64개의 대역들을 복구한다. 이것은 특정한 라인(1120) 주위의 1100에서 표시된 2개의 다운샘플링된 포인트들의 함수로서 라인들(1120) 중 임의의 라인의 위치를 계산함으로써 도 21에서 보여진다. 다음의 예는 이를 예시한다.
제2 대역의 위치는 그 주위의 2개의 수직 라인들의 함수로서 계산된다(1.5 및 5.5): 2=1.5+1/8x(5.5-1.5).
대응하여, 제3 대역의 위치는 그 주위의 2개의 수직 라인들(1100)의 함수로서 계산된다(1.5 및 5.5): 3=1.5+3/8x(5.5-1.5).
처음 2개의 대역들 및 마지막 2개의 대역들에 대해 특정한 절차가 수행된다. 이들 대역들의 경우, 0으로부터 63까지 진행하는 범위 외부에 있는 수직 라인들(1100)에 대응하는 값들 또는 수직 라인들이 존재하지 않기 때문에, 보간이 수행될 수 없다. 따라서, 이러한 문제를 해결하기 위해, 단계 9에 관해 설명된 바와 같이 외삽이 수행되며: 한편으로는 2개의 대역들 0, 1 및 다른 한편으로는 62 및 63에 대해 이전에 서술된 바와 같은 보간이 수행된다.
후속하여, 한편으로는 도 11의 변환기(100) 및 다른 한편으로는 도 18의 변환기(240)의 바람직한 구현이 논의된다.
특히, 도 22a는 변환기(100) 내의 인코더-측 상에서 수행되는 프레이밍을 표시하기 위한 스케줄을 예시한다. 도 22b는 인코더-측 상의 도 11의 변환기(100)의 바람직한 구현을 예시하고, 도 22c는 디코더-측 상의 변환기(240)의 바람직한 구현을 예시한다.
인코더-측 상의 변환기(100)는 50% 중첩과 같은 중첩 프레임들로 프레이밍을 수행하도록 바람직하게 구현되어, 프레임 2는 프레임 1과 중첩되고, 프레임 3은 프레임 2 및 프레임 4와 중첩된다. 그러나, 다른 중첩들 또는 비-중첩 프로세싱이 또한 수행될 수 있지만, MDCT 알고리즘과 함께 50% 중첩을 수행하는 것이 바람직하다. 이를 위해, 변환기(100)는, 변환기(100)에 후속하는 블록들에 대한 도 11의 입력으로서 스펙트럼 표현들의 시퀀스에 대응하는 프레임들의 시퀀스를 획득하기 위하여 FFT 프로세싱, MDCT 프로세싱 또는 임의의 다른 종류의 시간-스펙트럼 변환 프로세싱을 수행하기 위해 분석 윈도우(101) 및 후속하여-연결된 스펙트럼 변환기(102)를 포함한다.
대응하여, 스케일링된 스펙트럼 표현(들)이 도 18의 변환기(240)로 입력된다. 특히, 변환기는 역 FFT 동작, 역 MDCT 동작 또는 대응하는 스펙트럼-시간 변환 동작을 구현하는 시간-변환기(241)를 포함한다. 출력은 합성 윈도우(242)로 삽입되고, 합성 윈도우(242)의 출력은 디코딩된 오디오 신호를 마지막으로 획득하기 위해 중첩-가산 동작을 수행하도록 중첩-가산 프로세서(243)로 입력된다. 특히, 블록(243)의 중첩-가산 프로세싱은, 예를 들어 도 22a의 항목(1200)에 의해 표시된 바와 같이 프레임 3과 프레임 4 사이의 중첩에 대한 오디오 샘플링 값들이 획득되도록, 예를 들어 프레임 3의 제2 반부(half) 및 프레임 4의 제1 반부의 대응하는 샘플들 사이에서 샘플별 가산을 수행한다. 디코딩된 오디오 출력 신호의 나머지 오디오 샘플링 값들을 획득하기 위해 샘플별 방식의 유사한 중첩-가산 동작들이 수행된다.
이전에 논의된 바와 같은 모든 대안들 또는 양상들 및 다음의 청구항들 내의 독립 청구항들에 의해 정의된 바와 같은 모든 양상들이 개별적으로, 즉 고려된 대안, 오브젝트 또는 독립 청구항 이외의 임의의 다른 대안 또는 오브젝트 없이 사용될 수 있다는 것이 본 명세서에서 언급되어야 한다. 그러나, 다른 실시예들에서, 대안들 또는 양상들 또는 독립 청구항들 중 2개 이상은 서로 조합될 수 있고, 다른 실시예들에서, 모든 양상들, 또는 대안들 및 모든 독립 청구항들이 서로 조합될 수 있다.
더 많은 양상들이 위에서 설명되지만, 첨부된 청구항들은 2개의 상이한 양상들, 즉 오디오 디코더, 오디오 인코더, 및 다중-채널 오디오 신호의 채널들에 대한 스케일 파라미터들의 공동 코딩을 사용하는 관련 방법들, 또는 오디오 양자화기, 오디오 역양자화기, 또는 관련 방법들을 표시한다. 이들 2개의 양상들은 경우에 따라 조합되거나 별개로 사용될 수 있으며, 이들 양상들에 따른 발명들은 위에서 설명된 특정 애플리케이션들과 상이한 오디오 프로세싱의 다른 애플리케이션에 적용가능하다.
더욱이, 제1 양상을 예시하는 부가적인 도 3a, 도 3b, 도 4a, 도 4b, 도 5, 도 6, 도 8a, 도 8b 및 제2 양상을 예시하는 도 9a, 도 9b 및 제1 양상 내에 적용된 바와 같은 제2 양상을 예시하는 도 7a, 도 7b에 대한 참조가 이루어진다.
본 발명의 인코딩된 신호는, 디지털 저장 매체 또는 비-일시적인 저장 매체 상에 저장될 수 있거나, 무선 송신 매체와 같은 송신 매체 또는 인터넷과 같은 유선 송신 매체 상에서 송신될 수 있다.
일부 양상들이 장치의 맥락에서 설명되었지만, 이들 양상들이 또한 대응하는 방법의 설명을 표현한다는 것은 명확하며, 여기서, 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한, 대응하는 장치의 대응하는 블록 또는 항목 또는 특징부의 설명을 표현한다.
특정한 구현 요건들에 의존하여, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은, 각각의 방법이 수행되도록 프로그래밍가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는), 전자적으로 판독가능한 제어 신호들이 저장된 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있다.
본 발명에 따른 일부 실시예들은, 본 명세서에 설명된 방법들 중 하나가 수행되도록, 프로그래밍가능한 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는, 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때 방법들 중 하나를 수행하기 위해 동작된다. 프로그램 코드는, 예를 들어, 머신 판독가능 캐리어 상에 저장될 수 있다.
다른 실시예들은, 머신 판독가능 캐리어 또는 비-일시적인 저장 매체 상에 저장되는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
따라서, 다시 말하면, 본 발명의 방법의 일 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법들의 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램(데이터 캐리어 상에 레코딩되어 있음)을 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독가능 매체)이다.
따라서, 본 발명의 방법의 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 표현하는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는, 예를 들어, 데이터 통신 연결을 통해, 예를 들어, 인터넷을 통해 전달되도록 이루어질 수 있다.
추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하도록 이루어지거나 적응되는 프로세싱 수단, 예를 들어, 컴퓨터, 또는 프로그래밍가능 로직 디바이스를 포함한다.
추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시예들에서, 프로그래밍가능 로직 디바이스(예를 들어, 필드 프로그래밍가능 게이트 어레이)는, 본 명세서에 설명된 방법들의 기능들 중 일부 또는 모두를 수행하기 위해 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍가능 게이트 어레이는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.
위에서 설명된 실시예들은 단지, 본 발명의 원리들에 대해 예시적일 뿐이다. 본 명세서에 설명된 배열들 및 세부사항들의 수정들 및 변경들이 당업자들에게는 명백할 것이라는 것이 이해된다. 따라서, 본 명세서의 실시예들의 설명 및 해설에 의해 제시된 특정한 세부사항들이 아니라 임박한 특허 청구항들의 범위에 의해서만 제한되는 것이 의도이다.
후속하여, 추가적인 실시예들/예들이 요약된다:
1. 2개 이상의 오디오 채널들에 대한 데이터를 포함하는 다중-채널 오디오 데이터 및 공동으로 인코딩된 스케일 파라미터들에 관한 정보를 포함하는 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더로서,
디코딩된 오디오 신호의 제1 채널에 대한 스케일 파라미터들의 제1 세트 및 디코딩된 오디오 신호의 제2 채널에 대한 스케일 파라미터들의 제2 세트를 획득하기 위해 공동으로 인코딩된 스케일 파라미터들에 관한 정보를 디코딩하기 위한 스케일 파라미터 디코더(220); 및
디코딩된 오디오 신호의 제1 채널 및 제2 채널을 획득하기 위해 다중-채널 오디오 데이터로부터 도출된 제1 채널 표현에 스케일 파라미터들의 제1 세트를 적용하고 다중-채널 오디오 데이터로부터 도출된 제2 채널 표현에 스케일 파라미터들의 제2 세트를 적용하기 위한 신호 프로세서(210, 212, 230)를 포함하며,
공동으로 인코딩된 스케일 파라미터들은 공동으로 인코딩된 스케일 파라미터들의 제1 그룹에 관한 정보 및 공동으로 인코딩된 스케일 파라미터들의 제2 그룹에 관한 정보를 포함하고,
스케일 파라미터 디코더(220)는, 스케일 파라미터들의 제1 세트의 스케일 파라미터를 획득하기 위해 제1 결합 규칙을 사용하여 그리고 스케일 파라미터들의 제2 세트의 스케일 파라미터를 획득하기 위해 제1 결합 규칙과 상이한 제2 결합 규칙을 사용하여 제1 그룹의 공동으로 인코딩된 스케일 파라미터와 제2 그룹의 공동으로 인코딩된 스케일 파라미터를 결합하도록 이루어진다.
2. 실시예 1의 오디오 디코더에 있어서, 공동으로 인코딩된 스케일 파라미터들의 제1 그룹은 중간 스케일 파라미터들을 포함하고, 공동으로 인코딩된 스케일 파라미터들의 제2 그룹은 사이드 스케일 파라미터들을 포함하고, 스케일 파라미터 디코더(220)는 제1 결합 규칙에서는 가산을 사용하고 제2 결합 규칙에서는 감산을 사용하도록 이루어진다.
3. 실시예 1 또는 실시예 2의 오디오 디코더에 있어서, 인코딩된 오디오 신호는 일련의 프레임들로 조직화되며, 제1 프레임은 다중-채널 오디오 데이터 및 공동으로 인코딩된 스케일 파라미터들에 관한 정보를 포함하고, 제2 프레임은 별개로 인코딩된 스케일 파라미터 정보를 포함하고,
스케일 파라미터 디코더(220)는, 제2 프레임이 별개로 인코딩된 스케일 파라미터 정보를 포함하는 것을 검출하고, 그리고 스케일 파라미터들의 제1 세트 및 스케일 파라미터들의 제2 세트를 계산하도록 이루어진다.
4. 실시예 3의 오디오 디코더에 있어서, 제1 프레임 및 제2 프레임 각각은, 제1 상태에서, 제1 프레임이 공동으로 인코딩된 스케일 파라미터들에 관한 정보를 포함하고, 제2 상태에서, 제2 프레임이 별개로 인코딩된 스케일 파라미터 정보를 포함한다는 것을 표시하는 상태 사이드 정보를 포함하고,
스케일 파라미터 디코더(220)는, 제2 프레임의 상태 사이드 정보를 판독하고, 판독된 상태 사이드 정보에 기초하여, 제2 프레임이 별개로 인코딩된 스케일 파라미터 정보를 포함하는 것을 검출하거나, 또는 제1 프레임의 상태 사이드 정보를 판독하고, 그리고 판독된 상태 사이드 정보를 사용하여, 제1 프레임이 공동으로 인코딩된 스케일 파라미터들을 포함하는 것을 검출하도록 이루어진다.
5. 실시예 1 내지 실시예 4 중 어느 하나의 실시예의 오디오 디코더에 있어서,
신호 프로세서(210, 212, 230)는 제1 채널 표현 및 제2 채널 표현을 도출하기 위해 다중-채널 오디오 데이터를 디코딩하도록 이루어지고, 제1 채널 표현 및 제2 채널 표현은 스펙트럼 샘플링 값들을 갖는 스펙트럼 도메인 표현들이고,
신호 프로세서(210, 212, 230)는 제1 채널의 형상화된 스펙트럼 표현 및 제2 채널의 형상화된 스펙트럼 표현을 획득하기 위해 제1 세트 및 제2 세트의 각각의 스케일 파라미터를 대응하는 복수의 스펙트럼 샘플링 값들에 적용하도록 이루어진다.
6. 실시예 5의 오디오 디코더에 있어서, 신호 프로세서(210, 212, 230)는 디코딩된 오디오 신호의 제1 채널의 시간 도메인 표현 및 제2 채널의 시간 도메인 표현을 획득하기 위해 제1 채널의 형상화된 스펙트럼 표현 및 제2 채널의 형상화된 스펙트럼 표현을 시간 도메인으로 변환하도록 이루어진다.
7. 실시예 1 내지 실시예 6 중 어느 하나의 실시예의 오디오 디코더에 있어서, 제1 채널 표현은 대역들의 제1 수를 포함하고, 스케일 파라미터들의 제1 세트는 스케일 파라미터들의 제2 수를 포함하고, 제2 수는 제1 수보다 작고,
신호 프로세서(210, 212, 230)는 대역들의 제1 수보다 크거나 그와 같은 수의 보간된 스케일 파라미터들을 획득하기 위해 스케일 파라미터들의 제2 수를 보간하도록 이루어지고, 신호 프로세서(210, 212, 230)는 보간된 스케일 파라미터들을 사용하여 제1 채널 표현을 스케일링하도록 이루어지거나,
또는
제1 채널 표현은 대역들의 제1 수를 포함하고, 공동으로 인코딩된 스케일 파라미터들의 제1 그룹에 관한 정보는 공동으로 인코딩된 스케일 파라미터들의 제2 수를 포함하고, 제2 수는 제1 수보다 작고,
스케일 파라미터 디코더(220)는 대역들의 제1 수보다 크거나 그와 동일한 수의 보간된 공동으로 인코딩된 스케일 파라미터들을 획득하기 위해 공동으로 인코딩된 스케일 파라미터들의 제2 수를 보간하도록 이루어지고,
스케일 파라미터 디코더(220)는 스케일 파라미터들의 제1 세트 및 스케일 파라미터들의 제2 세트를 결정하기 위해 보간된 공동으로 인코딩된 스케일 파라미터들을 프로세싱하도록 이루어진다.
8. 실시예 1 내지 실시예 7 중 어느 하나의 실시예의 오디오 디코더에 있어서, 인코딩된 오디오 신호는 프레임들의 시퀀스로 조직화되고, 공동으로 인코딩된 스케일 파라미터들의 제2 그룹에 관한 정보는 특정한 프레임에 제로 사이드 정보를 포함하고, 스케일 파라미터 디코더(220)는 공동으로 인코딩된 스케일 파라미터들의 제2 그룹이 특정한 프레임에 대해 모두 0이라고 결정하기 위해 제로 사이드 정보를 검출하도록 이루어지고,
스케일 파라미터 디코더(220)는 공동으로 인코딩된 스케일 파라미터들의 제1 그룹으로부터만 스케일 파라미터들의 제1 세트 및 스케일 파라미터들의 제2 세트의 스케일 파라미터들을 도출하거나 또는 제1 그룹의 공동으로 인코딩 스케일 파라미터와 제2 그룹의 공동으로 인코딩된 스케일 파라미터를 결합할 시에, 0 값들 또는 잡음 임계치보다 작은 값들로 세팅되도록 이루어진다.
9. 실시예 1 내지 실시예 5 중 어느 하나의 실시예의 오디오 디코더에 있어서,
스케일 파라미터 디코더(220)는,
제1 역양자화 모드를 사용하여 공동으로 인코딩된 스케일 파라미터들의 제1 그룹에 관한 정보를 역양자화하고, 그리고
제2 역양자화 모드를 사용하여 공동으로 인코딩된 스케일 파라미터들의 제2 그룹에 관한 정보를 역양자화하도록 이루어지고, 제2 역양자화 모드는 제1 역양자화 모드와 상이하다.
10. 실시예 9의 오디오 디코더에 있어서, 스케일 파라미터 디코더(220)는 제1 역양자화 모드보다 낮거나 높은 연관된 양자화 정밀도를 갖는 제2 역양자화 모드를 사용하도록 이루어진다.
11. 실시예 9 또는 실시예 10의 오디오 디코더에 있어서, 스케일 파라미터 디코더(220)는 제1 역양자화 모드로서, 제1 역양자화 스테이지(2220) 및 제2 역양자화 스테이지(2260) 및 결합기(2240)를 사용하고 - 결합기(2240)는 제1 역양자화 스테이지(2220)의 결과 및 제2 역양자화 스테이지(2260)의 결과를 입력으로서 수신함 -, 그리고
공동으로 인코딩된 스케일 파라미터들의 제2 그룹에 관한 정보를 입력으로서 수신하는 제1 역양자화 모드의 제2 역양자화 스테이지(2220)를 제2 역양자화 모드로서 사용하도록 이루어진다.
12. 실시예 11의 오디오 디코더에 있어서, 제1 역양자화 스테이지(2220)는 벡터 역양자화 스테이지이고, 제2 역양자화 단계(2260)는 대수적 벡터 역양자화 스테이지이거나, 또는 제1 역양자화 스테이지(2220)는 고정된 레이트 역양자화 스테이지이고, 제2 역양자화 스테이지(2260)는 가변 레이트 역양자화 스테이지이다.
13. 실시예 11 또는 실시예 12의 오디오 디코더에 있어서, 공동으로 인코딩된 스케일 파라미터들의 제1 그룹에 관한 정보는 인코딩된 오디오 신호의 프레임에 대해 2개 이상의 인덱스들을 포함하고, 공동으로 인코딩된 스케일 파라미터들의 제2 그룹에 관한 정보는 단일 인덱스 또는 더 낮은 수의 인덱스들 또는 제1 그룹에서와 동일한 수의 인덱스들을 포함하고,
스케일 파라미터 디코더(220)는, 제1 역양자화 스테이지(2220)에서, 예를 들어 2개 이상의 인덱스들의 각각의 인덱스에 대해 제1 그룹의 중간의 공동으로 인코딩된 스케일 파라미터들을 결정하도록 이루어지고, 스케일 파라미터 디코더(220)는, 제2 역양자화 스테이지(2260)에서, 예를 들어 공동으로 인코딩된 스케일 파라미터들의 제1 그룹에 관한 정보의 단일 또는 더 낮은 또는 동일한 수의 인덱스들로부터 잔여의 공동으로 인코딩된 스케일 파라미터들을 계산하고, 그리고 결합기(2240)에 의해, 제1 그룹의 중간의 공동으로 인코딩된 스케일 파라미터들 및 제1 그룹의 잔여의 공동으로 인코딩된 스케일 파라미터들로부터 공동으로 인코딩된 스케일 파라미터들의 제1 그룹을 계산하도록 이루어진다.
14. 실시예 11 내지 실시예 13 중 어느 하나의 실시예의 오디오 디코더에 있어서, 제1 역양자화 스테이지(2220)는 제1 수의 엔트리들을 갖는 제1 코드북에 대한 인덱스를 사용하는 것 또는 제1 정밀도를 표현하는 인덱스를 사용하는 것을 포함하고, 제2 역양자화 스테이지(2260)는 제2 수의 엔트리들을 갖는 제2 코드북에 대한 인덱스를 사용하는 것 또는 제2 정밀도를 표현하는 인덱스를 사용하는 것을 포함하고, 제2 수는 제1 수보다 작거나 높거나 또는 제2 정밀도는 제1 정밀도보다 낮거나 높다.
15. 실시예 1 내지 실시예 14 중 어느 하나의 실시예의 오디오 디코더에 있어서, 공동으로 인코딩된 스케일 파라미터들의 제2 그룹에 관한 정보는 공동으로 인코딩된 스케일 파라미터들의 제2 그룹이 모두 0이거나 인코딩된 오디오 신호의 프레임에 대한 특정 값에 있다는 것을 표시하고, 스케일 파라미터 디코더(220)는 제1 규칙 또는 제2 규칙을 사용하여 결합할 시에, 0이거나 또는 특정한 값에 있거나 또는 합성된 공동으로 인코딩된 스케일 파라미터인 공동으로 인코딩된 스케일 파라미터를 사용하도록 이루어지거나, 또는
모두 0 또는 특정한 값 정보를 포함하는 프레임에 대해, 스케일 파라미터 디코더(220)는 결합 동작 없이 공동으로 인코딩된 스케일 파라미터들의 제1 그룹만을 사용하여 스케일 파라미터들의 제2 세트를 결정하도록 이루어진다.
16. 실시예 9 또는 실시예 10의 오디오 디코더에 있어서, 스케일 파라미터 디코더(220)는 제1 역양자화 모드로서, 제1 역양자화 스테이지(2220) 및 제2 역양자화 스테이지(2260) 및 결합기(2240)를 사용하고 - 결합기(2240)는 제1 역양자화 스테이지(2220)의 결과 및 제2 역양자화 스테이지(2260)의 결과를 입력으로서 수신함 -, 그리고 제2 역양자화 스모크(smoke)로서 제1 역양자화 모드의 제1 역양자화 스테이지(2220)를 사용하도록 이루어진다.
17. 2개 이상의 채널들을 포함하는 다중-채널 오디오 신호를 인코딩하기 위한 오디오 인코더로서,
다중-채널 오디오 신호의 제1 채널에 대한 스케일 파라미터들의 제1 세트로부터 그리고 다중-채널 오디오 신호의 제2 채널에 대한 스케일 파라미터들의 제2 세트로부터 공동으로 인코딩된 스케일 파라미터들의 제1 그룹 및 공동으로 인코딩된 스케일 파라미터들의 제2 그룹을 계산하기 위한 스케일 파라미터 계산기(140);
스케일 파라미터들의 제1 세트를 다중-채널 오디오 신호의 제1 채널에 적용하고, 스케일 파라미터들의 제2 세트를 다중-채널 오디오 신호의 제2 채널에 적용하고, 다중-채널 오디오 데이터를 도출하기 위한 신호 프로세서(120); 및
인코딩된 다중-채널 오디오 신호를 획득하기 위해 다중-채널 오디오 데이터 및 공동으로 인코딩된 스케일 파라미터들의 제1 그룹에 관한 정보 및 공동으로 인코딩된 스케일 파라미터들의 제2 그룹에 관한 정보를 사용하기 위한 인코딩된 신호 형성기(1480, 1500)를 포함한다.
18. 실시예 17의 오디오 인코더에 있어서, 신호 프로세서(120)는 적용 시에,
공동으로 인코딩된 스케일 파라미터들의 제1 그룹에 관한 정보 및 공동으로 인코딩된 스케일 파라미터들의 제2 그룹에 관한 정보를 획득하기 위해 공동으로 인코딩된 스케일 파라미터들의 제1 그룹 및 공동으로 인코딩된 스케일 파라미터들의 제2 그룹을 인코딩하고,
스케일 파라미터들의 로컬적으로 디코딩된 제1 세트 및 스케일 파라미터들의 로컬적으로 디코딩된 제2 세트를 획득하기 위해 공동으로 인코딩된 스케일 파라미터들의 제1 및 제2 그룹들에 관한 정보를 로컬적으로 디코딩하고, 그리고
스케일 파라미터들의 로컬적으로 디코딩된 제1 세트를 사용하여 제1 채널을 스케일링하고 스케일 파라미터들의 로컬적으로 디코딩된 제2 세트를 사용하여 제2 채널을 스케일링하도록 이루어지거나,
또는
신호 프로세서(120)는 적용 시에,
공동으로 인코딩된 스케일 파라미터들의 양자화된 제1 그룹 및 공동으로 인코딩된 스케일 파라미터들의 양자화된 제2 그룹을 획득하기 위해 공동으로 인코딩된 스케일 파라미터들의 제1 그룹 및 공동으로 인코딩된 스케일 파라미터들의 제2 그룹을 양자화하고,
스케일 파라미터들의 로컬적으로 디코딩된 제1 세트 및 스케일 파라미터들의 로컬적으로 디코딩된 제2 세트를 획득하기 위해 공동으로 인코딩된 스케일 파라미터들의 양자화된 제1 및 제2 그룹들을 로컬적으로 디코딩하고, 그리고
스케일 파라미터들의 로컬적으로 디코딩된 제1 세트를 사용하여 제1 채널을 스케일링하고 스케일 파라미터들의 로컬적으로 디코딩된 제2 세트를 사용하여 제2 채널을 스케일링하도록 이루어진다.
19. 실시예 17 또는 실시예 18의 오디오 인코더에 있어서,
스케일 파라미터 계산기(140)는, 공동으로 인코딩된 스케일 파라미터의 제1 그룹의 공동으로 인코딩된 스케일 파라미터를 획득하기 위해 제1 결합 규칙을 사용하여 그리고 공동으로 인코딩된 스케일 파라미터의 제2 그룹의 공동으로 인코딩된 스케일 파라미터를 획득하기 위해 제1 결합 규칙과 상이한 제2 결합 규칙을 사용하여 스케일 파라미터들의 제1 세트의 스케일 파라미터와 스케일 파라미터들의 제2 세트의 스케일 파라미터를 결합하도록 이루어진다.
20. 실시예 19의 오디오 인코더에 있어서, 공동으로 인코딩된 스케일 파라미터들의 제1 그룹은 중간 스케일 파라미터들을 포함하고, 공동으로 인코딩된 스케일 파라미터들의 제2 그룹은 사이드 스케일 파라미터들을 포함하고, 스케일 파라미터 계산기(140)는 제1 결합 규칙에서는 가산을 사용하고 제2 결합 규칙에서는 감산을 사용하도록 이루어진다.
21. 실시예 17 내지 실시예 20 중 어느 하나의 실시예의 오디오 인코더에 있어서, 스케일 파라미터 계산기는 다중-채널 오디오 신호의 프레임들의 시퀀스를 프로세싱하도록 이루어지고,
스케일 파라미터 계산기(140)는,
프레임들의 시퀀스의 제1 프레임에 대해 공동으로 인코딩된 스케일 파라미터들의 제1 및 제2 그룹들을 계산하고, 그리고
프레임들의 시퀀스의 제2 프레임을 분석하여, 제2 프레임에 대한 별개의 코딩 모드를 결정하도록 이루어지고,
인코딩된 신호 형성기(1480, 1500)는 제2 프레임에 대한 별개의 인코딩 모드 또는 제1 프레임에 대한 공동 인코딩 모드를 표시하는 상태 부가 정보 및 제2 프레임에 대한 별개로 인코딩된 스케일 파라미터들의 제1 세트 및 제2 세트에 관한 정보를 인코딩된 오디오 신호로 도입하도록 이루어진다.
22. 실시예 17 내지 실시예 21 중 어느 하나의 실시예의 오디오 인코더에 있어서, 스케일 파라미터 계산기(140)는,
제1 채널에 대한 스케일 파라미터들의 제1 세트 및 제2 채널에 대한 스케일 파라미터들의 제2 세트를 계산하고,
다운샘플링된 제1 세트 및 다운샘플링된 제2 세트를 획득하기 위해 스케일 파라미터들의 제1 및 제2 세트들을 다운샘플링하고; 그리고
제1 그룹의 공동으로 인코딩된 스케일 파라미터 및 제2 그룹의 공동으로 인코딩된 스케일 파라미터를 획득하기 위해 상이한 결합 규칙들을 사용하여, 다운샘플링된 제1 세트 및 다운샘플링된 제2 세트로부터의 스케일 파라미터를 결합하도록 이루어지거나,
또는
스케일 파라미터 계산기(140)는,
제1 채널에 대한 스케일 파라미터들의 제1 세트 및 제2 채널에 대한 스케일 파라미터들의 제2 세트를 계산하고,
제1 그룹의 공동으로 인코딩된 스케일 파라미터 및 제2 그룹의 공동으로 인코딩된 스케일 파라미터를 획득하기 위해 상이한 결합 규칙들을 사용하여, 제1 세트로부터의 스케일 파라미터와 제2 세트로부터의 스케일 파라미터를 결합하고, 그리고
공동으로 인코딩된 스케일 파라미터들의 다운샘플링된 제1 그룹을 획득하기 위해 공동으로 인코딩된 스케일 파라미터들의 제1 그룹을 다운샘플링하고, 그리고 공동으로 인코딩된 스케일 파라미터들의 다운샘플링된 제2 그룹을 획득하기 위해 공동으로 인코딩된 스케일 파라미터들의 제2 그룹을 다운샘플링하도록 이루어지고,
다운샘플링된 제1 그룹 및 다운샘플링된 제2 그룹은 공동으로 인코딩된 스케일 파라미터들의 제1 그룹에 관한 정보 및 공동으로 인코딩된 스케일 파라미터들의 제2 그룹에 관한 정보를 표현한다.
23. 실시예 21 또는 실시예 22의 오디오 인코더에 있어서,
스케일 파라미터 계산기(140)는 제2 프레임에서 제1 채널 및 제2 채널의 유사성를 계산하고, 그리고 계산된 유사성이 임계치와의 제1 관계에 있는 경우 별개의 인코딩 모드를 결정하거나 또는 계산된 유사성이 임계치와의 상이한 제2 관계에 있는 경우 공동 인코딩 모드를 결정하도록 이루어진다.
24. 실시예 23의 오디오 인코더에 있어서, 스케일 파라미터 계산기(140)는,
제2 프레임에 대해, 각각의 대역에 대한 제1 세트의 스케일 파라미터와 제2 세트의 스케일 파라미터 사이의 차이를 계산하고,
제2 프레임의 프로세싱된 차이들을 획득하기 위해 음의 부호들이 제거되도록 제2 프레임의 각각의 차이를 프로세싱하고,
유사성 척도를 획득하기 위해 프로세싱된 차이들을 결합하고,
유사성 척도를 임계치와 비교하고, 그리고
유사성 척도가 임계치보다 클 때 별개의 코딩 모드의 선호를 결정하거나 또는 유사성 척도가 임계치보다 낮을 때 공동 코딩 모드의 선호를 결정하도록 이루어진다.
25. 실시예 17 내지 실시예 24 중 어느 하나의 실시예의 오디오 인코더에 있어서, 신호 프로세서(120)는,
제1 스테이지 결과로서 하나 이상의 제1 양자화 인덱스들을 획득하고 공동으로 인코딩된 스케일 파라미터들의 중간의 제1 그룹을 획득하기 위해 제1 스테이지 양자화 함수(141, 143)를 사용하여 공동으로 인코딩된 스케일 파라미터들의 제1 그룹을 양자화하고,
공동으로 인코딩된 스케일 파라미터들의 제1 그룹 및 공동으로 인코딩된 스케일 파라미터들의 중간의 제1 그룹으로부터 공동으로 인코딩된 스케일 파라미터들의 잔여의 제1 그룹을 계산(142)하고, 그리고
제2 스테이지 결과로서 하나 이상의 양자화 인덱스들을 획득하기 위해 제2 스테이지 양자화 함수(145)를 사용하여 공동으로 인코딩된 스케일 파라미터들의 잔여의 제1 그룹을 양자화하도록 이루어진다.
26. 실시예 17 내지 실시예 25 중 어느 하나의 실시예의 오디오 인코더에 있어서,
신호 프로세서(120)는 단일 스테이지 결과로서 하나 이상의 양자화 인덱스들을 획득하기 위해 단일 스테이지 양자화 함수를 사용하여 공동으로 인코딩된 스케일 파라미터들의 제2 그룹을 양자화하도록 이루어지거나, 또는
신호 프로세서(120)는 적어도 제1 스테이지 양자화 함수 및 제2 스테이지 양자화 함수를 사용하여 공동으로 인코딩된 스케일 파라미터들의 제1 그룹을 양자화하도록 이루어지고, 신호 프로세서(120)는 단일 스테이지 양자화 함수를 사용하여 공동으로 인코딩된 스케일 파라미터들의 제2 그룹을 양자화하도록 이루어지고, 단일 스테이지 양자화 함수는 제1 스테이지 양자화 함수 및 제2 스테이지 양자화 함수로부터 선택된다.
27. 실시예 21 내지 실시예 26 중 어느 하나의 실시예의 오디오 인코더에 있어서, 스케일 파라미터 계산기(140)는,
제1 스테이지 결과로서 하나 이상의 제1 양자화 인덱스들을 획득하고 스케일 파라미터들의 중간의 제1 세트를 획득하기 위해 제1 스테이지 양자화 함수(141, 143)를 사용하여 스케일 파라미터들의 제1 세트를 양자화하고,
스케일 파라미터들의 제1 세트 및 스케일 파라미터들의 중간의 제1 세트로부터 스케일 파라미터들의 잔여의 제1 세트를 계산(142)하고, 그리고
제2 스테이지 결과로서 하나 이상의 양자화 인덱스들을 획득하기 위해 제2 스테이지 양자화 함수(145)를 사용하여 스케일 파라미터들의 잔여의 제1 세트를 양자화하도록 이루어거나,
또는
스케일 파라미터 계산기(140)는,
제1 스테이지 결과로서 하나 이상의 제1 양자화 인덱스들을 획득하고 스케일 파라미터들의 중간의 제2 세트를 획득하기 위해 제1 스테이지 양자화 함수(141, 143)를 사용하여 스케일 파라미터들의 제2 세트를 양자화하고,
스케일 파라미터들의 제2 세트 및 스케일 파라미터들의 중간의 제2 세트로부터 스케일 파라미터들의 잔여의 제2 세트를 계산(142)하고, 그리고
제2 스테이지 결과로서 하나 이상의 양자화 인덱스들을 획득하기 위해 제2 스테이지 양자화 함수(145)를 사용하여 스케일 파라미터들의 잔여의 제2 세트를 양자화하도록 이루어진다.
28. 실시예 25 또는 실시예 27의 오디오 인코더에 있어서,
제2 스테이지 양자화 함수(145)는 벡터 양자화를 수행하기 전에 공동으로 인코딩된 스케일링 파라미터들의 잔여의 제1 그룹 또는 스케일 파라미터들의 잔여의 제1 또는 제2 세트를 증가시키기 위해 1보다 작은 증폭 또는 가중 값을 사용하고, 벡터 양자화는 증가된 잔여 값들을 사용하여 수행되고, 그리고/또는
예시적으로, 가중 또는 증폭 값은 스케일링 파라미터를 가중 또는 증폭 값으로 나누는 데 사용되고, 가중 값은 바람직하게는 0.1 내지 0.9, 또는 더 바람직하게는 0.2 내지 0.6, 또는 더욱 더 바람직하게는 0.25 내지 0.4이고, 그리고/또는
공동으로 인코딩된 스케일링 파라미터들의 잔여의 제1 그룹 또는 스케일 파라미터들의 잔여의 제1 또는 제2 세트의 모든 스케일링 파라미터들에 대해 동일한 증폭 값이 사용된다.
29. 실시예 25 내지 실시예 28 중 어느 하나의 실시예의 오디오 인코더에 있어서,
제1 스테이지 양자화 함수(141, 143)는 하나 이상의 양자화 인덱스들의 제1 사이즈에 대응하는 제1 수의 엔트리들을 갖는 적어도 하나의 코드북을 포함하고,
제2 스테이지 양자화 함수(145) 또는 단일 스테이지 양자화 함수는 하나 이상의 양자화 인덱스들의 제2 사이즈에 대응하는 제2 수의 엔트리들을 갖는 적어도 하나의 코드북을 포함하고, 그리고
제1 수는 제2 수보다 크거나 작거나 또는 제1 사이즈는 제2 사이즈보다 크거나 작거나, 또는
제1 스테이지 양자화 함수(141, 143)는 고정된 레이트 양자화 함수이고, 제2 스테이지 양자화 함수(145)는 가변 레이트 양자화 함수이다.
30. 실시예 15 내지 실시예 29 중 어느 하나의 실시예의 오디오 인코더에 있어서, 스케일 파라미터 계산기(140)는,
제1 채널에 대한 제1 MDCT 표현 및 제2 채널에 대한 제2 MDCT 표현을 수신하고,
제1 채널에 대한 제1 MDST 표현 및 제2 채널에 대한 제2 MDST 표현을 수신하고,
제1 MDCT 표현 및 제1 MDST 표현으로부터 제1 채널에 대한 제1 전력 스펙트럼 및 제2 MDCT 표현 및 제2 MDST 표현으로부터 제2 채널에 대한 제2 전력 스펙트럼을 계산하고, 그리고
제1 전력 스펙트럼으로부터 제1 채널에 대한 스케일 파라미터들의 제1 세트를 계산하고 그리고 제2 전력 스펙트럼으로부터 제2 채널에 대한 스케일 파라미터들의 제2 세트를 계산하도록 이루어진다.
31. 실시예 30의 오디오 인코더에 있어서,
신호 프로세서(120)는 스케일 파라미터들의 제1 세트로부터 도출된 정보를 사용하여 제1 MDCT 표현을 스케일링하고, 그리고 스케일 파라미터들의 제2 세트로부터 도출된 정보를 사용하여 제2 MDCT 표현을 스케일링하도록 이루어진다.
32. 실시예 17 내지 실시예 31 중 어느 하나의 실시예의 오디오 인코더에 있어서,
신호 프로세서(120)는 다중-채널 오디오 신호의 다중-채널 프로세싱된 표현을 도출하기 위해 공동 다중-채널 프로세싱을 사용하여, 스케일링된 제1 채널 표현 및 스케일링된 제2 채널 표현을 추가로 프로세싱하고, 선택적으로, 스펙트럼 대역 복제 프로세싱 또는 지능형 갭 충전 프로세싱 또는 대역폭 향상 프로세싱을 사용하여 추가로 프로세싱하고, 그리고 다중-채널 오디오 데이터를 획득하기 위해 다중-채널 오디오 신호의 채널들의 표현을 양자화 및 인코딩하도록 이루어진다.
33. 실시예 17 내지 실시예 34 중 어느 하나의 실시예의 오디오 인코더에 있어서, 다중-채널 오디오 신호의 프레임에 대해, 프레임의 모든 공동으로 인코딩된 스케일 파라미터들에 대해 동일한 값 또는 0 값을 표시하는 모두 0 또는 모든 특정한 값 정보로서 공동으로 인코딩된 스케일 파라미터들의 제2 그룹에 관한 정보를 결정하도록 이루어지고, 인코딩된 신호 형성기(1480, 1500)는 인코딩된 다중-채널 오디오 신호를 획득하기 위해 모두 0 또는 모든 특정한 값 정보를 사용하도록 이루어진다.
34. 실시예 17 내지 실시예 34 중 어느 하나의 실시예의 오디오 인코더에 있어서, 스케일 파라미터 계산기(140)는,
제1 프레임에 대해 공동으로 인코딩된 스케일 파라미터들의 제1 그룹 및 공동으로 인코딩된 스케일 파라미터들의 제2 그룹을 계산하고,
제2 프레임에 대해 공동으로 인코딩된 스케일 파라미터들의 제1 그룹을 계산하도록 이루어지고,
제2 프레임에서, 공동으로 인코딩된 스케일 파라미터들은 계산 또는 인코딩되지 않고,
인코딩된 신호 형성기(1480, 1500)는, 제2 프레임에서, 제2 그룹의 임의의 공동으로 인코딩된 스케일 파라미터들이 인코딩된 다중채널 오디오 신호에 포함되지 않는다는 것을 표시하는 공동으로 인코딩된 스케일 파라미터들의 제2 그룹에 관한 정보로서 플래그를 사용하도록 이루어진다.
35. 2개 이상의 오디오 채널들에 대한 데이터를 포함하는 다중-채널 오디오 데이터 및 공동으로 인코딩된 스케일 파라미터들에 관한 정보를 포함하는 인코딩된 오디오 신호를 디코딩하기 위한 방법으로서,
디코딩된 오디오 신호의 제1 채널에 대한 스케일 파라미터들의 제1 세트 및 디코딩된 오디오 신호의 제2 채널에 대한 스케일 파라미터들의 제2 세트를 획득하기 위해 공동으로 인코딩된 스케일 파라미터들에 관한 정보를 디코딩하는 단계; 및
디코딩된 오디오 신호의 제1 채널 및 제2 채널을 획득하기 위해 다중-채널 오디오 데이터로부터 도출된 제1 채널 표현에 스케일 파라미터들의 제1 세트를 적용하고 다중-채널 오디오 데이터로부터 도출된 제2 채널 표현에 스케일 파라미터들의 제2 세트를 적용하는 단계를 포함하고,
공동으로 인코딩된 스케일 파라미터들은 공동으로 인코딩된 스케일 파라미터들의 제1 그룹에 관한 정보 및 공동으로 인코딩된 스케일 파라미터들의 제2 그룹에 관한 정보를 포함하고,
디코딩하는 단계는, 스케일 파라미터들의 제1 세트의 스케일 파라미터를 획득하기 위해 제1 결합 규칙을 사용하여 그리고 스케일 파라미터들의 제2 세트의 스케일 파라미터를 획득하기 위해 제1 결합 규칙과 상이한 제2 결합 규칙을 사용하여 제1 그룹의 공동으로 인코딩된 스케일 파라미터와 제2 그룹의 공동으로 인코딩된 스케일 파라미터를 결합하는 단계를 포함한다.
36. 2개 이상의 채널들을 포함하는 다중-채널 오디오 신호를 인코딩하는 방법으로서,
다중-채널 오디오 신호의 제1 채널에 대한 스케일 파라미터들의 제1 세트로부터 그리고 다중-채널 오디오 신호의 제2 채널에 대한 스케일 파라미터들의 제2 세트로부터 공동으로 인코딩된 스케일 파라미터들의 제1 그룹 및 공동으로 인코딩된 스케일 파라미터들의 제2 그룹을 계산하는 단계;
스케일 파라미터들의 제1 세트를 다중-채널 오디오 신호의 제1 채널에 적용하고, 스케일 파라미터들의 제2 세트를 다중-채널 오디오 신호의 제2 채널에 적용하고, 다중-채널 오디오 데이터를 도출하는 단계; 및
인코딩된 다중-채널 오디오 신호를 획득하기 위해 다중-채널 오디오 데이터 및 공동으로 인코딩된 스케일 파라미터들의 제1 그룹에 관한 정보 및 공동으로 인코딩된 스케일 파라미터들의 제2 그룹에 관한 정보를 사용하는 단계를 포함한다.
37. 컴퓨터 또는 프로세서 상에서 실행될 때, 실시예 31 또는 실시예 32의 방법을 수행하기 위한, 컴퓨터 프로그램.

Claims (33)

  1. 복수의 오디오 정보 항목들을 양자화하기 위한 오디오 양자화기로서,
    제1 스테이지 벡터 양자화 결과 및 상기 제1 스테이지 벡터 양자화 결과에 대응하는 복수의 중간 양자화된 항목들을 결정하기 위해 상기 복수의 오디오 정보 항목들을 양자화하기 위한 제1 스테이지 벡터 양자화기(141, 143);
    상기 복수의 중간 양자화된 항목들 및 상기 복수의 오디오 정보 항목들로부터 복수의 잔여 항목(residual item)들을 계산하기 위한 잔여 항목 결정기(142); 및
    제2 스테이지 벡터 양자화 결과를 획득하기 위해 상기 복수의 잔여 항목들을 양자화하기 위한 제2 스테이지 벡터 양자화기(145)를 포함하며,
    상기 제1 스테이지 벡터 양자화 결과 및 상기 제2 스테이지 벡터 양자화 결과는 상기 복수의 오디오 정보 항목들의 양자화된 표현인, 오디오 양자화기.
  2. 제1항에 있어서,
    상기 잔여 항목 결정기(142)는 각각의 잔여 항목에 대해, 대응하는 오디오 정보 항목과 대응하는 중간 양자화된 항목 사이의 차이를 계산하도록 이루어지는, 오디오 양자화기.
  3. 제1항에 있어서,
    상기 잔여 항목 결정기는, 상기 복수의 잔여 항목들이 대응하는 차이들보다 크도록 각각의 잔여 항목에 대해, 대응하는 오디오 정보 항목과 대응하는 중간 양자화된 항목 사이의 차이를 증폭 또는 가중하거나, 또는 상기 잔여 항목들을 획득하기 위해, 증폭된 항목들 사이의 차이를 계산하기 전에 상기 복수의 오디오 정보 항목들 및/또는 상기 복수의 중간 양자화된 항목들을 증폭 또는 가중하도록 이루어지는, 오디오 양자화기.
  4. 제1항에 있어서,
    상기 잔여 항목 결정기(142)는 상기 복수의 중간 양자화된 항목들과 상기 오디오 정보 항목들 사이의 대응하는 차이들을 1보다 작은 미리 결정된 인자로 나누거나, 또는 상기 복수의 중간 양자화된 항목들과 상기 오디오 정보 항목들 사이의 대응하는 차이들을 1보다 큰 미리 결정된 인자와 곱하도록 이루어지는, 오디오 양자화기.
  5. 제1항에 있어서,
    상기 제1 스테이지 벡터 양자화기(141, 143)는 제1 양자화 정밀도로 양자화를 수행하도록 이루어지고, 상기 제2 스테이지 벡터 양자화기(145)는 제2 양자화 정밀도로 양자화를 수행하도록 이루어지고, 상기 제2 양자화 정밀도는 제1 양자화 정밀도보다 낮거나 높거나, 또는
    상기 제1 스테이지 벡터 양자화기(141, 143)는 고정된 레이트 양자화를 수행하도록 이루어지고, 상기 제2 스테이지 벡터 양자화기(145)는 가변 레이트 양자화를 수행하도록 이루어지는, 오디오 양자화기.
  6. 제1항에 있어서,
    상기 제1 스테이지 벡터 양자화기(141, 143)는 제1 수의 엔트리들을 갖는 제1 스테이지 코드북을 사용하도록 이루어지고, 상기 제2 스테이지 벡터 양자화기(145)는 제2 수의 엔트리들을 갖는 제2 스테이지 코드북을 사용하도록 이루어지며, 상기 제2 수의 엔트리들은 상기 제1 수의 엔트리들보다 작거나 높은, 오디오 양자화기.
  7. 제1항에 있어서,
    상기 오디오 정보 항목들은, 시간 도메인에서 오디오 신호의 시간 도메인 오디오 샘플들을 스케일링하기 위해 사용가능하거나 또는 스펙트럼 도메인에서 오디오 신호의 스펙트럼 도메인 오디오 샘플들을 스케일링하기 위해 사용가능한 오디오 신호의 프레임에 대한 스케일 파라미터들이고, 각각의 스케일 파라미터는 적어도 2개의 시간 도메인 또는 스펙트럼 도메인 오디오 샘플들을 스케일링하기 위해 사용가능하고, 상기 프레임은 제1 수의 스케일 파라미터들을 포함하며,
    상기 제1 스테이지 벡터 양자화기(141, 143)는 스케일 파라미터들의 2개 이상의 세트들로의 상기 제1 수의 스케일 파라미터들의 분할을 수행하도록 이루어지고, 상기 제1 스테이지 벡터 양자화기(141, 143)는 상기 제1 양자화 결과를 표현하는 복수의 양자화 인덱스들을 획득하기 위해 스케일 파라미터들의 각각의 세트에 대한 양자화 인덱스를 결정하도록 이루어지는, 오디오 양자화기.
  8. 제7항에 있어서,
    상기 제1 스테이지 벡터 양자화기(141, 143)는 상기 제1 양자화 결과로서 단일 인덱스를 획득하기 위해 제1 세트에 대한 제1 양자화 인덱스와 제2 세트에 대한 제2 양자화 인덱스를 결합하도록 이루어지는, 오디오 양자화기.
  9. 제8항에 있어서,
    상기 제1 스테이지 벡터 양자화기(141, 143)는 상기 제1 인덱스 및 상기 제2 인덱스 중 하나를 상기 제1 인덱스 및 상기 제2 인덱스의 비트들의 수에 대응하는 수와 곱하고, 곱해진 인덱스와 곱해지지 않은 인덱스를 가산하여, 상기 단일 인덱스를 획득하도록 이루어지는, 오디오 양자화기.
  10. 제1항에 있어서,
    상기 제2 스테이지 벡터 양자화기(145)는 대수적(algebraic) 벡터 양자화기이며, 각각의 인덱스는 기본 코드북 인덱스 및 보로노이 확장 인덱스(Voronoi extension index)를 포함하는, 오디오 양자화기.
  11. 제1항에 있어서,
    상기 제1 스테이지 벡터 양자화기(141, 143)는 상기 복수의 오디오 정보 항목들의 제1 분할을 수행하도록 이루어지고,
    상기 제2 스테이지 벡터 양자화기(145)는 상기 복수의 잔여 항목들의 제2 분할을 수행하도록 이루어지며,
    상기 제1 분할은 오디오 정보 항목들의 제1 수의 서브세트들을 초래하고, 상기 제2 분할은 잔여 항목들의 제2 수의 서브세트들을 초래하고, 상기 서브세트들의 제1 수는 상기 서브세트들의 제2 수와 동일한, 오디오 양자화기.
  12. 제1항에 있어서,
    상기 제1 벡터 양자화기는 제1 코드북 검색으로부터 비트들의 제1 수를 갖는 제1 인덱스를 출력하도록 이루어지고,
    상기 제2 벡터 양자화기는 제2 코드북 검색을 위해, 비트들의 제2 수를 갖는 제2 인덱스를 출력하도록 이루어지며,
    상기 비트들의 제2 수는 상기 비트들의 제1 수보다 작거나 높은, 오디오 양자화기.
  13. 제12항에 있어서,
    상기 비트들의 제1 수는 4 내지 7의 비트들의 수이고, 상기 비트들의 제2 수는 3 내지 6의 비트들의 수인, 오디오 양자화기.
  14. 제1항에 있어서,
    상기 오디오 정보 항목들은 다중채널 오디오 신호의 제1 프레임에 대해, 상기 다중채널 오디오 신호의 제1 채널에 대한 제1 복수의 스케일 파라미터들, 및 상기 다중채널 오디오 신호의 제2 채널에 대한 제2 복수의 스케일 파라미터들을 포함하고,
    상기 오디오 양자화기는 상기 제1 스테이지 벡터 양자화기 및 상기 제2 스테이지 벡터 양자화기를 제1 복수의 및 제2 복수의 제1 프레임에 적용하도록 이루어지고,
    상기 오디오 정보 항목들은 상기 다중채널 오디오 신호의 제2 프레임에 대해, 제3 복수의 중간 스케일 파라미터들 및 제4 복수의 사이드(side) 스케일 파라미터들을 포함하며,
    상기 오디오 양자화기는 상기 제1 스테이지 벡터 양자화기 및 상기 제2 스테이지 벡터 양자화기를 상기 제3 복수의 중간 스케일 파라미터들에 적용하고, 제2 벡터 양자화기 스테이지를 상기 제4 복수의 사이드 스케일 파라미터들에 적용하고, 상기 제1 스테이지 벡터 양자화기(141, 143)를 상기 제4 복수의 사이드 스케일 파라미터들에 적용하지 않도록 이루어지는, 오디오 양자화기.
  15. 제14항에 있어서,
    상기 잔여 항목 결정기(142)는 상기 제2 프레임에 대해 상기 제4 복수의 사이드 스케일 파라미터들을 증폭 또는 가중하도록 이루어지고, 상기 제2 스테이지 벡터 양자화기(145)는 상기 다중채널 오디오 신호의 제2 프레임에 대한 증폭된 또는 가중된 사이드 스케일 파라미터들을 프로세싱하도록 이루어지는, 오디오 양자화기.
  16. 양자화된 복수의 오디오 정보 항목들을 역양자화하기 위한 오디오 역양자화기로서,
    복수의 중간 양자화된 오디오 정보 항목들을 획득하기 위해 상기 양자화된 복수의 오디오 정보 항목들에 포함된 제1 스테이지 벡터 양자화 결과를 역양자화하기 위한 제1 스테이지 벡터 역양자화기(2220);
    복수의 잔여 항목들을 획득하기 위해 상기 양자화된 복수의 오디오 정보 항목들에 포함된 제2 스테이지 벡터 양자화 결과를 역양자화하기 위한 제2 스테이지 벡터 역양자화기(2260); 및
    역양자화된 복수의 오디오 정보 항목들을 획득하기 위해 상기 복수의 중간 양자화된 정보 항목들과 상기 복수의 잔여 항목들을 결합하기 위한 결합기(2240)를 포함하는, 오디오 역양자화기.
  17. 제16항에 있어서,
    상기 결합기(2240)는 각각의 역양자화된 정보 항목에 대해, 대응하는 중간 양자화된 오디오 정보 항목과 대응하는 잔여 항목 사이의 합을 계산하도록 이루어지는, 오디오 역양자화기.
  18. 제16항에 있어서,
    상기 결합기(2240)는 상기 복수의 잔여 항목들을 감쇠시키거나 또는 가중하여, 감쇠를 수행하기 전에, 감쇠된 잔여 항목들이 대응하는 잔여 항목들보다 적도록 이루어지고,
    상기 결합기(2240)는 상기 감쇠된 잔여 항목들을 상기 대응하는 중간 양자화된 오디오 정보 항목들에 추가하도록 이루어지거나, 또는
    상기 결합기(2240)는 결합을 수행하기 전에 상기 복수의 잔여 항목들 또는 공동으로(jointly) 인코딩된 스케일링 파라미터들을 감쇠시키기 위해 1보다 작은 감쇠 또는 가중 값을 사용하도록 이루어지고, 상기 결합은 감쇠된 잔여 값들을 사용하여 수행되고, 그리고/또는
    예시적으로, 상기 가중 또는 감쇠 값은 스케일링 파라미터를 가중 또는 증폭 값과 곱하는 데 사용되고, 상기 가중 값은 바람직하게는 0.1 내지 0.9, 또는 더 바람직하게는 0.2 내지 0.6, 또는 더욱 더 바람직하게는 0.25 내지 0.4이고, 그리고/또는
    상기 복수의 잔여 항목들의 모든 스케일링 파라미터들 또는 임의의 공동으로 인코딩된 스케일링 파라미터들에 대해 동일한 감쇠 또는 가중 값이 사용되는, 오디오 역양자화기.
  19. 제18항에 있어서,
    상기 결합기(2240)는 대응하는 잔여 항목을 1보다 작은 가중 인자와 곱하거나, 또는 대응하는 잔여 항목을 1보다 큰 가중 인자로 나누도록 이루어지는, 오디오 역양자화기.
  20. 제16항에 있어서,
    상기 제1 스테이지 역양자화기는 제1 정밀도로 역양자화를 수행하도록 이루어지고,
    상기 제2 스테이지 역양자화기는 제2 정밀도로 역양자화를 수행하도록 이루어지며,
    상기 제2 정밀도는 상기 제1 정밀도보다 낮거나 높은, 오디오 역양자화기.
  21. 제16항에 있어서,
    상기 제1 스테이지 역양자화기는 제1 수의 엔트리들을 갖는 제1 스테이지 코드북을 사용하도록 이루어지고, 상기 제2 스테이지 역양자화기는 제2 수의 엔트리들을 갖는 제2 스테이지 코드북을 사용하도록 이루어지고, 상기 제2 수의 엔트리들은 상기 제1 수의 엔트리들보다 작거나 높거나, 또는
    상기 제1 스테이지 역양자화기는 제1 코드북 리트리벌(retrieval)을 위해 비트들의 제1 수를 갖는 제1 인덱스를 수신하도록 이루어지고,
    상기 제2 스테이지 벡터 역양자화기(2260)는 제2 코드북 리트리벌을 위해 비트들의 제2 수를 갖는 제2 인덱스를 수신하도록 이루어지고, 상기 비트들의 제2 수는 상기 비트들의 제1 수보다 작거나 높거나, 또는 예시적으로, 비트들의 제2 수는 3 내지 6의 비트들의 수인, 오디오 역양자화기.
  22. 제16항에 있어서,
    상기 역양자화된 복수의 오디오 정보 항목들은, 시간 도메인에서 오디오 신호의 시간 도메인 오디오 샘플들을 스케일링하기 위해 사용가능하거나 또는 스펙트럼 도메인에서 오디오 신호의 스펙트럼 도메인 오디오 샘플들을 스케일링하기 위해 사용가능한 오디오 신호의 프레임에 대한 스케일 파라미터들이고, 각각의 스케일 파라미터는 적어도 2개의 시간 도메인 또는 스펙트럼 도메인 오디오 샘플들을 스케일링하기 위해 사용가능하고, 상기 프레임은 제1 수의 스케일 파라미터들을 포함하고,
    상기 제1 스테이지 역양자화기는 상기 제1 스테이지 벡터 양자화 결과에 대한 2개 이상의 결과 인덱스들로부터 스케일 파라미터들의 제1 세트 및 제2 세트를 결정하도록 이루어지며,
    상기 제1 스테이지 벡터 역양자화기(2220) 또는 상기 결합기(2240)는 제1 수의 중간 양자화된 스케일 파라미터들을 획득하기 위해 상기 스케일 파라미터들의 제1 세트와 상기 스케일 파라미터들의 제2 세트를 벡터로 합치도록(put together) 이루어지는, 오디오 역양자화기.
  23. 제22항에 있어서,
    상기 제1 스테이지 벡터 역양자화기(2220)는 제1 스테이지 역양자화 결과로서 단일의 결합된 인덱스를 리트리브(retrieve)하고, 상기 단일의 결합된 인덱스를 프로세싱하여, 상기 2개 이상의 결과 인덱스들을 획득하도록 이루어지는, 오디오 역양자화기.
  24. 제23항에 있어서,
    상기 제1 스테이지 역양자화기는 나눗셈으로부터 나머지를 결정함으로써 제1 결과 인덱스를 리트리브하고, 상기 나눗셈으로부터 정수 결과를 결정함으로써 제2 결과 인덱스를 리트리브하도록 이루어지는, 오디오 역양자화기.
  25. 제16항에 있어서,
    상기 제2 스테이지 벡터 역양자화기(2260)는 대수적 벡터 역양자화기이며, 각각의 인덱스는 기본 코드북 인덱스 및 보로노이 확장 인덱스를 포함하는, 오디오 역양자화기.
  26. 제16항에 있어서,
    상기 제1 스테이지 벡터 역양자화기(2220) 또는 상기 결합기(2240)는 양자화 분할로부터의 스케일 파라미터들의 제1 세트와 스케일 파라미터들의 제2 세트를 오디오 신호의 프레임으로 합치도록 이루어지고,
    상기 제2 스테이지 벡터 역양자화기(2260)는 잔여 파라미터들의 분할로부터의 잔여 파라미터들의 제1 세트와 잔여 파라미터들의 제2 세트를 합치도록 이루어지며,
    상기 제1 벡터 역양자화기에 의해 어드레싱된 분할들의 수와 상기 제2 스테이지 벡터 역양자화기(2260)에 의해 어드레싱된 분할들의 다른 수는 동일한, 오디오 역양자화기.
  27. 제16항에 있어서,
    상기 제1 스테이지 벡터 역양자화기(2220)는 상기 복수의 중간 양자화된 오디오 정보 항목들을 생성하기 위해 비트들의 제1 수를 갖는 제1 인덱스를 사용하도록 이루어지고,
    상기 제2 스테이지 벡터 역양자화기(2260)는 상기 복수의 잔여 항목들을 획득하기 위해 비트들의 제2 수를 갖는 제2 인덱스를 인덱스로 사용하도록 이루어지며,
    상기 비트들의 제2 수는 상기 비트들의 제1 수보다 작거나 높은, 오디오 역양자화기.
  28. 제27항에 있어서,
    상기 비트들의 제1 수는 4 내지 7이고, 상기 비트들의 제2 수는 3 내지 6인, 오디오 역양자화기.
  29. 제16항에 있어서,
    상기 양자화된 복수의 오디오 정보 항목들은 다중-채널 오디오 신호의 제1 프레임에 대해, 상기 다중-채널 오디오 신호의 제1 채널에 대한 제1 복수의 스케일 파라미터들, 및 상기 다중-채널 오디오 신호의 제2 채널에 대한 제2 복수의 스케일 파라미터들을 포함하고,
    상기 오디오 역양자화기는 상기 제1 스테이지 벡터 역양자화기(2220) 및 상기 제2 스테이지 벡터 역양자화기(2260)를 제1 복수의 및 제2 복수의 제1 프레임에 적용하도록 이루어지고,
    상기 양자화된 복수의 오디오 정보 항목들은 상기 다중-채널 오디오 신호의 제2 프레임에 대해, 제3 복수의 중간 스케일 파라미터들 및 제4 복수의 사이드 스케일 파라미터들을 포함하며,
    상기 오디오 역양자화기는 상기 제1 스테이지 벡터 역양자화기(2220) 및 상기 제2 스테이지 벡터 역양자화기(2260)를 상기 제3 복수의 중간 스케일 파라미터들에 적용하고, 상기 제2 스테이지 벡터 역양자화기(2260)를 상기 제4 복수의 사이드 스케일 파라미터들에 적용하고, 상기 제1 스테이지 벡터 역양자화기(2220)를 상기 제4 복수의 사이드 스케일 파라미터들에 적용하지 않도록 이루어지는, 오디오 역양자화기.
  30. 제29항에 있어서,
    상기 결합기(2240)는 상기 제4 복수의 사이드 스케일 파라미터들을 추가로 사용하거나 추가로 프로세싱하기 전에 상기 제2 프레임에 대해 상기 제4 복수의 사이드 스케일 파라미터들을 감쇠시키도록 이루어지는, 오디오 역양자화기.
  31. 복수의 오디오 정보 항목들을 양자화하는 방법으로서,
    제1 스테이지 벡터 양자화 결과 및 상기 제1 스테이지 벡터 양자화 결과에 대응하는 복수의 중간 양자화된 항목들을 결정하기 위해 상기 복수의 오디오 정보 항목들을 제1 스테이지 벡터 양자화하는 단계;
    상기 복수의 중간 양자화된 항목들 및 상기 복수의 오디오 정보 항목들로부터 복수의 잔여 항목들을 계산하는 단계; 및
    제2 스테이지 벡터 양자화 결과를 획득하기 위해 상기 복수의 잔여 항목들을 제2 스테이지 벡터 양자화하는 단계를 포함하며,
    상기 제1 스테이지 벡터 양자화 결과 및 상기 제2 스테이지 벡터 양자화 결과는 상기 복수의 오디오 정보 항목들의 양자화된 표현인, 복수의 오디오 정보 항목들을 양자화하는 방법.
  32. 양자화된 복수의 오디오 정보 항목들을 역양자화하는 방법으로서,
    복수의 중간 양자화된 오디오 정보 항목들을 획득하기 위해 상기 양자화된 복수의 오디오 정보 항목들에 포함된 제1 스테이지 벡터 양자화 결과를 제1 스테이지 벡터 역양자화하는 단계;
    복수의 잔여 항목들을 획득하기 위해 상기 양자화된 복수의 오디오 정보 항목들에 포함된 제2 스테이지 벡터 양자화 결과를 제2 스테이지 벡터 역양자화하는 단계; 및
    역양자화된 복수의 오디오 정보 항목들을 획득하기 위해 상기 복수의 중간 양자화된 정보 항목들과 상기 복수의 잔여 항목들을 결합하는 단계를 포함하는, 양자화된 복수의 오디오 정보 항목들을 역양자화하는 방법.
  33. 컴퓨터 또는 프로세서 상에서 실행될 때, 제31항의 방법 또는 제32항의 방법을 수행하기 위한, 컴퓨터 프로그램.
KR1020237004446A 2020-07-07 2021-07-05 오디오 양자화기, 오디오 역양자화기 및 관련 방법들 KR20230066547A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20184555 2020-07-07
EP20184555.9 2020-07-07
PCT/EP2021/068527 WO2022008454A1 (en) 2020-07-07 2021-07-05 Audio quantizer and audio dequantizer and related methods

Publications (1)

Publication Number Publication Date
KR20230066547A true KR20230066547A (ko) 2023-05-16

Family

ID=71661617

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020237004231A KR20230043876A (ko) 2020-07-07 2021-07-05 다중 채널 오디오 신호의 채널에 대한 스케일 파라미터의 공동 코딩을 사용하는 오디오 디코더, 오디오 인코더 및 관련 방법
KR1020237004446A KR20230066547A (ko) 2020-07-07 2021-07-05 오디오 양자화기, 오디오 역양자화기 및 관련 방법들

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020237004231A KR20230043876A (ko) 2020-07-07 2021-07-05 다중 채널 오디오 신호의 채널에 대한 스케일 파라미터의 공동 코딩을 사용하는 오디오 디코더, 오디오 인코더 및 관련 방법

Country Status (12)

Country Link
US (2) US20230133513A1 (ko)
EP (2) EP4179529A1 (ko)
JP (2) JP2023532809A (ko)
KR (2) KR20230043876A (ko)
CN (2) CN116114016A (ko)
AU (2) AU2021306852B2 (ko)
BR (2) BR112022026703A2 (ko)
CA (2) CA3184522A1 (ko)
MX (2) MX2023000340A (ko)
TW (1) TWI793666B (ko)
WO (2) WO2022008454A1 (ko)
ZA (2) ZA202213859B (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2623516A (en) * 2022-10-17 2024-04-24 Nokia Technologies Oy Parametric spatial audio encoding

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5966688A (en) * 1997-10-28 1999-10-12 Hughes Electronics Corporation Speech mode based multi-stage vector quantizer
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
JP5625126B2 (ja) 2011-02-14 2014-11-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム
WO2019091573A1 (en) * 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
[5] 미국등록특허 US 9,595,262 B2 (2017. 03. 14.) "LINEAR PREDICTION BASED CODING SCHEME USING SPECTRAL DOMAIN NOISE SHAPNG" G. Markovic, G. Fuchs, N. Rettelbach, C. Helmrich und B. Schubert
[6] 국제공개특허 WO 2019091904 A1 (2018. 11. 05.) "Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters" E. Ravelli, M. Schnell, C. Benndorf, M. Lutzky und M. Dietz
[8] 국제공개특허 PCT/EP2017/051177 (2017. 01. 20) "APPARATUS AND METHOD FOR MDCT M/S STEREO WITH GLOBAL ILD WITH IMPROVED MID/SIDE DECISION" G. Markovic, E. Ravelli, M. Schnell, S. Dohla, W. Jaegars, M. Dietz, C. Heimrich, E. Fotopoulou, M. Multrus, S. Bayer, G. Fuchs und J. Herre
3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.
A. Biswas, Advances Advances in Perceptual Stereo Audio Coding Using LinearPrediction Techniques, Eindhoven: Technical University of Eindhoven, 2017.
ISO/IEC 11172-3, Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s - Part 3: Audio, 1993.
ISO/IEC 13818-7, Information technology - Generic coding of moving pictures and associated audio information - Part 7: Advanced Audio Coding (AAC), 2003.
ISO/IEC 23003-3; Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding.

Also Published As

Publication number Publication date
WO2022008448A1 (en) 2022-01-13
ZA202213859B (en) 2023-10-25
TWI793666B (zh) 2023-02-21
CN116114016A (zh) 2023-05-12
MX2023000340A (es) 2023-02-09
BR112023000223A2 (pt) 2023-01-31
BR112022026703A2 (pt) 2023-01-24
CN115843378A (zh) 2023-03-24
AU2021306852B2 (en) 2024-05-23
CA3184222A1 (en) 2022-01-13
US20230197090A1 (en) 2023-06-22
AU2021303726A1 (en) 2023-02-09
TW202211208A (zh) 2022-03-16
WO2022008454A1 (en) 2022-01-13
JP2023532808A (ja) 2023-07-31
TW202209303A (zh) 2022-03-01
EP4179529A1 (en) 2023-05-17
CA3184522A1 (en) 2022-01-13
JP2023532809A (ja) 2023-07-31
EP4179531A1 (en) 2023-05-17
MX2023000341A (es) 2023-03-14
AU2021306852A1 (en) 2023-02-02
KR20230043876A (ko) 2023-03-31
US20230133513A1 (en) 2023-05-04
ZA202300267B (en) 2024-01-31

Similar Documents

Publication Publication Date Title
JP7073491B2 (ja) スケールパラメータのダウンサンプリングまたは補間を使用してオーディオ信号をエンコードおよびデコードするための装置および方法
CN110998721B (zh) 用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置
JP2010508550A (ja) スペクトル値の後処理用装置と方法及びオーディオ信号のエンコーダとデコーダ
US20230197090A1 (en) Audio quantizer and audio dequantizer and related methods
CN111344784B (zh) 控制编码器和/或解码器中的带宽
RU2807462C1 (ru) Устройство квантования аудиоданных, устройство деквантования аудиоданных и соответствующие способы
RU2809981C1 (ru) Аудиодекодер, аудиокодер и связанные способы с использованием объединенного кодирования параметров масштабирования для каналов многоканального аудиосигнала