KR20210076134A - 서브밴드 병합 및 시간 도메인 에일리어싱 감소를 사용하는 적응형 비-균일 시간/주파수 타일링을 갖는 지각 오디오 코딩 - Google Patents

서브밴드 병합 및 시간 도메인 에일리어싱 감소를 사용하는 적응형 비-균일 시간/주파수 타일링을 갖는 지각 오디오 코딩 Download PDF

Info

Publication number
KR20210076134A
KR20210076134A KR1020217015408A KR20217015408A KR20210076134A KR 20210076134 A KR20210076134 A KR 20210076134A KR 1020217015408 A KR1020217015408 A KR 1020217015408A KR 20217015408 A KR20217015408 A KR 20217015408A KR 20210076134 A KR20210076134 A KR 20210076134A
Authority
KR
South Korea
Prior art keywords
samples
subband
audio signal
bins
wrapped
Prior art date
Application number
KR1020217015408A
Other languages
English (en)
Other versions
KR102630922B1 (ko
Inventor
닐스 베르너
번트 이틀러
세스차 디쉬
Original Assignee
프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 filed Critical 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Publication of KR20210076134A publication Critical patent/KR20210076134A/ko
Application granted granted Critical
Publication of KR102630922B1 publication Critical patent/KR102630922B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

실시예들은, 오디오 신호를 처리하여 오디오 신호의 서브밴드 표현을 획득하기 위한 오디오 프로세서를 제공한다. 오디오 프로세서는 오디오 신호의 샘플들의 제1 블록에 기초하여 서브밴드 샘플들의 세트를 획득하고, 오디오 신호의 샘플들의 제2 블록에 기초하여 서브밴드 샘플들의 대응하는 세트를 획득하기 위해, 오디오 신호의 샘플들의 적어도 2개의 부분적으로 중첩되는 블록들에 대해 캐스케이드식 랩핑된 임계 샘플링 변환을 수행하도록 구성된, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지를 포함한다. 게다가, 오디오 프로세서는 오디오 신호의 에일리어싱 감소된 서브밴드 표현을 획득하기 위해, 서브밴드 샘플들의 2개의 대응하는 세트들의 가중 결합을 수행하도록 구성된 시간 도메인 에일리어싱 감소 스테이지 - 2개의 대응하는 세트들 중 하나는, 오디오 신호의 샘플들의 제1 블록에 기초하여 획득된 서브밴드 샘플들의 세트이고, 2개의 대응하는 세트들 중 하나는, 오디오 신호의 샘플들의 제2 블록에 기초하여 획득된 서브밴드 샘플들의 세트임 - 를 포함한다. 따라서, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지는, 적어도 2개의 윈도우 함수들을 사용하여 샘플들의 제1 블록에 기초하여 획득된 빈들의 세트를 세그먼트하고, 샘플들의 제1 블록에 대응하는 세그먼트된 빈들의 세트에 기초하여 적어도 2개의 세그먼트된 빈들의 세트들을 획득하도록 구성되고, 여기서 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지는, 적어도 2개의 윈도우 함수들을 사용하여 샘플들의 제2 블록에 기초하여 획득된 빈들의 세트를 세그먼트하고, 샘플들의 제2 블록에 대응하는 세그먼트된 빈들의 세트에 기초하여 적어도 2개의 세그먼트된 빈들의 세트들 획득하도록 구성되고, 그리고 여기서 빈들의 세트들은 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지의 제2 랩핑된 임계 샘플링 변환 스테이지를 사용하여 처리되며, 여기서 제2 랩핑된 임계 샘플링 변환 스테이지는 적어도 하나의 빈들의 세트가 동일한 프레임 길이를 갖는 랩핑된 임계 샘플링 변환을 수행하도록 구성된다.

Description

서브밴드 병합 및 시간 도메인 에일리어싱 감소를 사용하는 적응형 비-균일 시간/주파수 타일링을 갖는 지각 오디오 코딩
실시예들은 오디오 신호를 처리하여 오디오 신호의 서브밴드 표현(subband representation)을 획득하기 위한 오디오 프로세서/방법에 관한 것이다. 추가 실시예들은 오디오 신호의 서브밴드 표현을 처리하여 오디오 신호를 획득하기 위한 오디오 프로세서/방법에 관한 것이다. 일부 실시예들은 서브밴드 병합(subband merging) 및 시간 도메인 에일리어싱 감소(time domain aliasing reduction)를 사용하는 적응형 비-균일 시간/주파수 타일링(adaptive non-uniform time/frequency tiling)을 갖는 지각 오디오 코딩(perceptual audio coding)에 관한 것이다. 일부 실시예들은 비-균일 필터 뱅크(non-uniform filter bank)의 많은 파라미터들의 컨트롤 및 다중 채널 동작(multichannel operation)으로의 필터 뱅크(filter bank)의 확장(extension)을 지원하는 방법에 관한 것이다.
지각 코딩(perceptual coiding)에서, 엔트로피(entropy) 및 비트레이트(bitrate)는 일반적으로 중복되고(reduntant) 지각적으로 관련 없는 정보를 폐기(discard)함으로써 감소된다. 이것은 필터 뱅크 및 양자화(quantization)를 사용하여 달성된다. 이 필터 뱅크, 양자화기(quantizer) 및 사이코어쿠스틱 모델(psychoacoustic model)은 양자화 노이즈(quantization noise)를 형성(shape)하는 데 함께 사용되고 따라서 전체 시스템의 코딩 효율성(coding efficiency) 및 지각 품질(perceptual quaility)을 극대화하기 위해, 가능한 마스킹 임계 값(masking threshold)에 근접(close)하도록 한다[2].
합성(synthesis)하는 동안 양자화 노이즈는 필터 뱅크의 임펄스 및 주파수 응답의 스펙트럼 및 시간적 형태(temporal shape)에 따라 시간 및 주파수에서 형성된다. 따라서, 양자화 노이즈 형태를 미세하게 컨트롤하기 위해, 시간 및 주파수 모두에서 임펄스 응답 압축(compact)을 가진 필터 뱅크를 사용하는 것이 바람직하다.
이러한 속성들을 가지고 가장 일반적으로 사용되는 필터 뱅크는 모든 대역(band)에서 균일한 시간-주파수-분해능(time-frequency-resolution)을 갖는 필터 뱅크 인 변형 이산 코사인 변환 (MDCT, modified discrete cosine transform)이다.
그러나, 인간의 청각 시스템은 비균일한 시간/주파수 분해능(time/frequency resolution)을 나타내고(exhibit)[3], 상이한 주파수에 따라 달라진 마스킹 임계 값 형태들을 초래한다.
따라서, 본 발명의 목적은 가청 아티팩트(audible artifact)를 낮게 유지하면서 양자화 잡음의 양(amount)을 증가시킬 수 있는 비-균일 필터 뱅크를 작동시키기 위한 개념을 제공하는 것이다.
이 목적은 독립항들에 의해 해결된다.
실시예들은, 오디오 신호를 처리하여 오디오 신호의 서브밴드 표현(subband representation)을 획득하기 위한 오디오 프로세서를 제공한다. 오디오 프로세서는 오디오 신호의 샘플들의 제1 블록에 기초하여 서브밴드 샘플들의 세트(set of subband samples)를 획득하고, 오디오 신호의 샘플들의 제2 블록에 기초하여 서브밴드 샘플들의 대응하는 세트(corresponding set of subband samples)를 획득하기 위해, 오디오 신호의 샘플들의 적어도 2개의 부분적으로 중첩(overlap)되는 블록들에 대해 캐스케이드식 랩핑된 임계 샘플링 변환(cascaded lapped critically sampled transform)을 수행하도록 구성된, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(cascaded lapped critically sampled transform stage)를 포함한다. 게다가, 오디오 프로세서는 오디오 신호의 에일리어싱 감소된 서브밴드 표현(aliasing reduced subband representation)을 획득하기 위해, 서브밴드 샘플들의 2개의 대응하는 세트들의 가중 결합(weighted combination)을 수행하도록 구성된 시간 도메인 에일리어싱 감소 스테이지(time domain aliasing reduction stage time domain aliasing reduction stage) - 2개의 대응하는 세트들 중 하나는, 오디오 신호의 샘플들의 제1 블록에 기초하여 획득된 서브밴드 샘플들의 세트이고, 2개의 대응하는 세트들 중 하나는, 오디오 신호의 샘플들의 제2 블록에 기초하여 획득된 서브밴드 샘플들의 세트임 - 를 포함한다. 따라서, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지는, 적어도 2개의 윈도우 함수(window function)들을 사용하여 샘플들의 제1 블록에 기초하여 획득된 빈(bin)들의 세트를 세그먼트(segment)하고, 샘플들의 제1 블록에 대응하는 세그먼트된 빈들의 세트에 기초하여 적어도 2개의 세그먼트된 빈들의 세트들을 획득하도록 구성되고, 여기서 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지는, 적어도 2개의 윈도우 함수들을 사용하여 샘플들의 제2 블록에 기초하여 획득된 빈들의 세트를 세그먼트(segment)하고, 샘플들의 제2 블록에 대응하는 세그먼트된 빈들의 세트에 기초하여 적어도 2개의 세그먼트된 빈들의 세트들(예: 적어도 2개의 병합 인자 밴드들(mergefactor band))(예: 계수(coefficient) 128 각각)을 획득하도록 구성되고, 그리고 여기서 빈들의 세트들(set of bins)은, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지의 제2 랩핑된 임계 샘플링 변환 스테이지를 사용하여 처리(예: 병합)되며, 여기서 제2 랩핑된 임계 샘플링 변환 스테이지는, 적어도 하나(예: 각각)의 빈들의 세트가 동일한 프레임 길이(framelength)(예: 병합 인자)를 갖는 랩핑된 임계 샘플링 변환을 수행하도록 구성된다.
실시예들에서, 제2 랩핑된 임계 변환 스테이지는 샘플들의 제1 블록에 대응하는 세그먼트된 빈들의 세트에 기초하여 획득된 적어도 2개의 빈들의 세트들 중 제1 세트(예: 계수128)의 N1,1 서브-세트들에 대해 N1,1 랩핑된 임계 샘플 변환들을 수행하도록 구성되고, 여기서 N1,1 랩핑된 임계 샘플 변환들은 동일한 프레임 길이(예: 병합 인자)를 포함하고, 여기서 N1,1는 2보다 크거나 같은 자연수이다.
실시예들에서, 제2 랩핑된 임계 변환 스테이지는 샘플들의 제2 블록에 대응하는 세그먼트된 빈들의 세트에 기초하여 획득된 적어도 2개의 빈들의 세트들(128_2,1;128_2,2) 중 제1 세트(예: 계수 128)의 N1,2 서브-세트(예: 동일한 길이)들에 대해 N1,2 랩핑된 임계 샘플 변환들을 수행하도록 구성되고, 여기서 N2,1랩핑된 임계 샘플 변환들은 동일한 프레임 길이를(예: 병합 인자) 포함하고, 여기서 N2,1는 2보다 크거나 같은 자연수이다.
실시예들에서, 오디오 프로세서는 각각의 빈들의 또는 각각의 대응하는 빈들의 세트들에 대한 프레임 길이(예: 병합 인자)를 개별적으로 선택하도록 구성된다.
예를 들어, 프로세서는 각각의 세트에 대해 병합 인자를 선택할 수 있고, 이에 의해, 예를 들어, 개선되거나 가능한 가장 높은 코딩 효율성을 달성할 수 있다.
실시예들에서, 오디오 프로세서는 샘플들의 각각의 블록에 대한 프레임 길이(예: 병합 인자)를 개별적으로 선택하도록 구성된다.
예를 들어, 프로세서는 각각의 블록에 대해 병합 인자를 선택할 수 있고, 이에 의해, 예를 들어, 개선되거나 가능한 가장 높은 코딩 효율을 달성할 수 있다.
실시예들에서, 오디오 프로세서는 2개의 후속(subsequent) 블록들에 대해 동일한 프레임 길이(예: 병합 인자)가 사용되는 경우, 시간 도메인 에일리어싱 감소 스테이지를 활성화하거나 활성화된 상태를 유지하도록 구성되고/거나, 여기서 오디오 프로세서(100)는, 2개의 후속 블록들에 대해 상이한 프레임 길이가 사용되는 경우, 시간 도메인 에일리어싱 감소 스테이지를 비활성화하거나, 비활성화된 상태를 유지하도록 구성될 수 있다.
예를 들어, TDAR(time domain aliasing reduction, 시간 도메인 에일리어싱 감소)로 인하여, 블록들 사이에 종속성이 있다. 병합 인자가 유지된다면, TDAR은 가능하다. 두개의 후속 블록의 병합 인자가 다르다면, TDAR은 비활성화된다. 따라서(선택적으로), 프로세서는 병합 인자들을 적용(adapt)하기 위한 공통/공동 최적화(common/joint optimization)를 수행하도록 구성될 수 있다. 예를 들어, 서브 밴드 샘플(병합 인자 대역) 세트당 격자-그리드(trellis-grid per set).
실시예들에서, 프로세서는 병합 인자들을 적용하기 위한 공통/공동 최적화를 수행하도록 구성된다(예: 서브 밴드 샘플(병합 인자 대역) 세트당 격자-그리드).
실시예들에서, 적어도 2개의 윈도우 함수들은 동일한 윈도우 폭(window width)을 포함한다(예: 스펙트럼을 동일한 크기(예: 계수 128 각각)의 적어도 2개(예: 8개)의 병합인자-대역으로 분할하기 위해).
실시예들에서, 적어도 2개의 윈도우 함수들은 상이한 윈도우 폭을 포함한다(예: 스펙트럼을 적어도 2개의 상이한 크기의 병합인자-대역으로 나누기 위해).
실시예들에서, 적어도 2개의 윈도우 함수들은 실직적으로 사각 윈도우(rectangular window)들을 포함한다.
실시예들에서, 적어도 2개의 윈도우 함수들에 기초하여 획득된 빈들의 세트들은, 제2 랩핑된 임계 샘플링 변환 스테이지를 사용하여 처리(예: 병합)되고, 제2 랩핑된 임계 샘플링 변환 스테이지는 적어도 2개의 윈도우 함수들에 기초하여 획득된 빈들의 세트들 중 적어도 하나가 동일한 프레임 길이(예: 병합 인자)를 갖는 적어도 2개의 랩핑된 임계 샘플링 변환들을 수행하도록 구성된다.
실시예들에서, 오디오 프로세서는 공동 채널 코딩(joint channel coding)을 수행하도록 구성된다.
실시예들에서, 오디오 프로세서는 공동 채널 처리(as joint channel processing)로서 M/S 또는 MCT(multi-channel coding tool, 다-채널 코딩 툴)를 수행하도록 구성된다.
실시예들에서, 오디오 프로세서는 적어도 2개의 세그먼트된 빈들의 세트들(segmented sets of bins) 각각에 대해 개별적으로 공동 채널 처리를 활성화 또는 비활성화하도록 구성된다(예: 각각의 병합인자-대역에 공동 채널 처리를 개별적으로 활성화 또는 비활성화하기 위해; 예: 캐스케이드 랩핑된 임계 샘플링 변환 스테이지의 제1 랩핑 임계 샘플링 변환 스테이지와 제2 랩핑 임계 샘플링 변환 스테이지 사이).
실시예들에서, 오디오 프로세서는 오디오 신호의 인코딩된 에일리어싱 감소된 서브밴드 표현으로부터 비트 스트림(bitstream)을 형성하도록 구성되고, 여기서 오디오 프로세서(100)는, 비트 스트림에서 대응하는 빈들의 세트들의 적어도 하나의 프레임 길이(예: 병합 인자)를 시그널링하는 적어도 하나의 MF(mergefactor, 병합 인자) 파라미터를 포함하는 비트 스트림을 제공하도록 구성된다.
실시예들에서, 오디오 프로세서는 적어도 하나의 MF 파라미터를 엔트로피 인코딩(entropy encode)하도록 구성된다.
실시예들에서, 오디오 프로세서는 비트 스트림에서 대응하는 빈들의 세트들의 프레임 길이(예: 병합 인자)를 시그널링하는 MF 파라미터의 서브세트(subset)만을 포함하는 비트 스트림을 제공하도록 구성된다.
실시예들에서, 오디오 프로세서는 각각의 대응하는 빈들의 세트들에 대한 TDAR 파라미터를 포함하는 비트 스트림을 제공하도록 구성된다.
실시예들에서, 오디오 프로세서는 MF 및 TDAR 파라미터들의 공동 엔트로피 코딩(joint entropy coding)을 수행하도록 구성된다.
실시예들에서, 오디오 프로세서는 하나의 MF 파라미터로부터 TDAR 파라미터가 유도될 수 있(derivable)도록 적어도 하나의 MF 파라미터를 포함하는 비트 스트림을 제공하도록 구성된다(예: 수신기(receiver) 또는 디코더 사이트에서).
예를 들어, 오디오 프로세서에 의해 제공되는 비트 스트림에 TDAR 파라미터를 포함하는 대신에, 서술된 TDAR 파라미터는 적어도 하나의 MF 파라미터로부터 유도될 수 있다. 예를 들어, 2 개의 후속 프레임에서 동일한 MF 파라미터는 TDAR가 활성 상태임을 나타낼(indicate) 수 있고, 여기서 토우(tow) 후속 프레임에서 다른 MF 파라미터는 TDAR가 비활성 상태임을 나타낼 수 있다.
실시예들에서, 오디오 프로세서는 서브밴드 샘플(병합인자 대역)들의 세트 당 격자-그리드를 사용하도록 구성된다.
추가 실시예들은 오디오 인코더를 제공하고, 여기서 오디어 인코더는 앞서 기술한 실시예들중 하나에 따른 오디어 프로세서를 포함하고, 여기서 오디오 인코더는 오디오 신호의 인코딩된 에일리어싱 감소된 서브밴드 표현을 획득하기 위해, 오디오 신호의 에일리어싱 감소 서브밴드 표현을 인코딩하도록 구성된 인코더를 포함하고, 그리고 여기서 오디오 인코더는 오디오 신호의 인코딩된 에일리어싱 감소된 서브밴드 표현으로부터 비트 스트림을 형성하도록 구성된 비트 스트림 형성기(bitstream former)를 포함한다.
추가 실시예들은 오디오 신호의 서브밴드 표현을 처리하여 오디오 신호를 획득하기 위한 오디오 프로세서를 제공한다. 오디오 프로세서는 에일리어싱된 서브밴드 표현을 획득하기 위해, 오디오 신호의 2개의 대응하는 에일리어싱 감소된 서브밴드 표현들의 가중 결합을 수행하도록 구성된 역 시간 도메인 에일리어싱 감소 스테이지 - 여기서 에일리어싱된 서브밴드 표현은, 서브밴드 샘플들의 세트임 - 를 포함한다. 게다가 오디오 프로세서는 오디오 신호의 샘플들의 블록과 연관된 샘플들의 세트를 획득하기 위해, 서브밴드 샘플들의 세트에 캐스케이드식 역 랩핑된 임계 샘플링 변환(cascaded inverse lapped critically sampled transform)을 수행하도록 구성된 캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지(cascaded inverse lapped critically sampled transform stage)를 포함한다. 따라서, 캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지는 오디오 신호의 주어진 서브밴드와 연관된 빈들의 세트를 획득하기 위해, 서브밴드 샘플들의 세트에 역 랩핑된 임계 샘플링 변환을 수행하도록 구성된 제1 역 랩핑된 임계 샘플링 변환 스테이지(first inverse lapped critically sampled transform stage)를 포함하고, 여기서 제1 역 랩핑된 임계 샘플링 변환 스테이지는 서브밴드 샘플들의 세트가 동일한 프레임 길이(예: 병합 인자)를 갖는 역 랩핑된 임계 샘플링 변환 스테이지를 수행하도록 구성된다.
실시예들에서, 제1 역 랩핑된 임계 샘플링 변환 스테이지는, 서브밴드 샘플들의 세트의 N1,1 서브-세트들에 대해 N1,1 역 랩핑된 임계 샘플링 변환을 수행하도록 구성되고, 여기서 N1,1 랩핑된 임계 샘플 변환들은, 동일한 프레임 길이(예: 병합 인자)를 포함하고, 여기서 N1,1는 2보다 크거나 같은 자연수이다.
추가 실시예들은 오디오 디코더를 제공하고, 여기서 오디오 디코더는 인코딩된 에일리어싱 감소된 서브밴드 표현을 획득하기 위해, 비트 스트림을 파싱(parsing)하도록 구성된 비트스트림 파서(bitstream parser)를 포함하고, 여기서 오디오 디코더는 오디오 신호의 에일리어싱 감소된 서브밴드 표현을 획득하기 위해, 인코딩된 에일리어싱 감소된 서브밴드 표현을 디코딩하도록 구성된 디코더를 포함하고, 그리고 여기서 오디오 디코더는 앞에서 기술한 실시예들중 하나에 따른 오디오 프로세서를 포함한다.
추가 실시예들은 오디오 신호를 처리하여 오디오 신호의 서브밴드 표현을 획득하기 위한 방법을 제공한다. 방법은 오디오 신호의 샘플들의 제1 블록에 기초하여 서브밴드 샘플들의 세트를 획득하고 오디오 신호의 샘플들의 제2 블록에 기초하여 서브밴드 샘플들의 대응하는 세트를 획득하기 위해, 오디오 신호의 샘플들의 적어도 2개의 부분적으로 중첩하는 블록들(partially overlapping blocks)에 대해 캐스케이드식 랩핑된 임계 샘플링 변환을 수행하는 동작을 포함한다. 게다가, 방법은 오디오 신호의 에일리어싱 감소된 서브밴드 표현을 획득하기 위해, 서브밴드 샘플들의 2개의 대응하는 세트들의 가중 결합을 수행하는 동작 - 2개의 대응하는 세트들 중 하나는, 오디오 신호의 샘플들의 제1 블록에 기초하여 획득된 서브밴드 샘플들의 세트이고, 2개의 대응하는 세트들 중 하나는, 오디오 신호의 샘플들의 제2 블록에 기초하여 획득된 서브밴드 샘플들의 세트임 - 을 포함한다. 따라서, 캐스케이드식 랩핑된 임계 샘플링 변환을 수행하는 동작은, 적어도 2개의 윈도우 함수들을 사용하여 샘플들의 제1 블록에 기초하여 획득된 빈들의 세트를 세그먼트하는 동작, 및 샘플들의 제1 블록에 대응하는 세그먼트된 빈들의 세트에 기초하여 적어도 2개의 세그먼트된 빈(예: 적어도 2개의 병합 인자 대역들)들의 세트들을 획득하는 동작을 포함하고, 여기서 캐스케이드식 랩핑된 임계 샘플링 변환을 수행하는 동작은 적어도 2개의 윈도우 함수들을 사용하여 샘플들의 제2 블록에 기초하여 획득된 빈들의 세트를 세그먼트하는 동작, 및 샘플들의 제2 블록에 대응하는 세그먼트된 빈(예: 적어도 2개의 병합 인자 대역들)들의 세트에 기초하여 적어도 2개의 세그먼트된 빈들의 세트들을 획득하는 동작을 포함하고, 그리고 여기서 빈들의 세트들은 캐스케이드식 랩핑된 임계 샘플링 변환의 제2 랩핑된 임계 샘플링 변환 스테이지를 사용하여 처리(예: 병합)되고, 여기서 제2 랩핑된 임계 샘플링 변환은 적어도 하나(예: 각각)의 빈들의 세트가 동일한 프레임 길이(예: 병합 인자)를 갖는 랩핑된 임계 샘플링 변환을 수행하는 동작을 포함한다.
추가 실시예들은 오디오 신호의 서브밴드 표현을 처리하여 오디오 신호를 획득하기 위한 방법을 제공한다. 방법은 에일리어싱된 서브밴드 표현을 획득하기 위해, 오디오 신호의 2개의 대응하는 에일리어싱 감소된 서브밴드 표현들의 가중 결합을 수행하는 동작 - 여기서 에일리어싱된 서브밴드 표현은, 서브밴드 샘플들의 세트임 - 을 포함한다. 게다가, 방법은 오디오 신호의 샘플들의 블록과 연관된 샘플들의 세트를 획득하기 위해, 서브밴드 샘플들의 세트에 캐스케이드식 역 랩핑된 임계 샘플링 변환을 수행하는 동작을 포함하고, 여기서 캐스케이드식 역 랩핑된 임계 샘플링 변환을 수행하는 동작은, 오디오 신호의 주어진 서브밴드와 연관된 빈들의 세트를 획득하기 위해, 서브밴드 샘플들의 세트에 제1 역 랩핑된 임계 샘플링 변환을 수행하는 동작을 포함하고, 여기서 제1 역 랩핑된 임계 샘플링 변환을 수행하는 동작은, 서브밴드 샘플들의 세트가 동일한 프레임 길이(예: 병합 인자)를 갖는 역 랩핑된 임계 샘플링 변환을 수행하는 동작을 포함한다.
실시예들은 고주파 및 저주파 모두에서 마스킹 임계 값을 더 가깝게 따르는 것을 가능하게 함으로써, 가청 아티팩트의 도입 없이, 더 많은 양자화 노이즈의 도입을 허용하는 압축된 임펄스 응답들을 가진 비-균일 필터 뱅크를 제공하고, 따라서 균일 필터 뱅크보다 낮은 비트 레이트를 허용한다.
실시예들에서, 병합 인자 대역들로의 분할(division)이 수행된다. 따라서, 완전히 다른 병합 레이아웃(layout)이 가능하다. 그러나 높은 유연성(flexibility) 때문에, 전체 시스템을 최적화(optimize)하는 것은 매우 어렵다. 따라서, 실시예들에서, 스펙트럼은 동일한 병합 인자(MF)가 항상 사용되는 병합인자-대역 (MFB, mergefactor-band)으로 분할된다(아래 섹션 2.1.1 비교). 모든 병합인자-대역들이 이러한 방식으로 독립적으로 컨트롤 수 있기 때문에 병합인자-대역의 가장자리에서 중첩되지 않는 사각 윈도우들은 사용될 수 있다(도 17 비교).
실시예들에서, 공동 채널 처리(M/S 또는 다중-채널 코딩 도구(MCT) [12])가 수행된다. 일반적으로 M/S 또는 MCT는 서브 밴드 병합 및 TDAR과 같이 사용할 수도 있다. 미드 채널 및 사이드 채널은 프레임마다 상이한 MF 파라미터들 및 TDAR 파라미터들을 독립적으로 사용할 수 있다.
실시예들에서, M/S 또는 MCT는 병합인자-대역마다 개별적으로 스위치 온/오프된다. 조인트 스테레오의 확장(extension of joint stereo)은 첫 번째 MDCT와 두 번째 병합-MDCT 사이에서 밴드 방식(band-wise manner)으로 조인트 스테레오(joint stereo)를 스위치 온/오프하는 것이다. 이것은 MS/MCT의 주파수 선택적 활성화를 가능하게 한다(예: MFB 마다). 그러나, TDAR은 동일한 조인트 스테레오 구성(joint stereo configuration)을 가진 두 프레임 사이에서만 가능하다(예: L/R 및 M/S 사이에는 TDAR 없음).
실시예들에서, 병합 인자-결정(mergefactor-decision)을 위해 윈도우-스위칭 결정자(window-switching decider)는 기존 방법들로부터 사용된다. 기존 방법들에는, 긴/짧은 윈도우들에 대한 결정자 컨트롤들이 있다. 일부 상황에서, 이러한 결정자들은 MF에도 사용될 수 있다.
실시예들에서, 병합 인자는 비트 스트림에서 시그널링된다(엔트로피-코딩 및 몇몇 MF 파라미터의 상호 처리를 포함하여). 일반적으로, 현재 프레임의 MF에 시그널링하기 위해서, 우리는 비트 스트림 내에 몇몇 비트를 필요로 한다. 이러한 비트들은 또한 엔트로피-코딩될 수 있다. 게다가, 비트들은 또한 서로간에 코딩될 수 있다. 백그라운드: 2,8,1,2,16,32와 같은 다양한 MF들은 4,4,8,8,16,16과 같은 더욱 균일한 MF들보다 추측하건데 가능성이 낮다. 이러한 상관 관계(correlation)는 데이터를 저장하는 데 사용될 수 있다(예: 차동 코딩(differential coding)에 의해).
실시예들에서, 더 적은 병합 인자들이 전송되고, 여기서 누락된 병합 인자들은 이웃들로부터 유도/보간(derived/interpolated)될 수 있다. MF들이 실제로 이전 섹션들에서처럼 실제로 균일해야 한다면, 모든 MF들은 몇몇의 MF들로부터 또한 보간될 수 있다.
실시예들에서, TDAR 파라미터들은 MF 파라미터들로부터 유도된다. TDAR은 MFB 당 1 비트로 전송될 수 있다. 대안으로, TDAR 비트는 또한 MF 비트들로부터 유도될 수 있다(두 개의 연속적인 프레임에서 동일한 MF 파라미터=TDAR 온(on)). 그렇다면, 우리는 TDAR에 대하여 어떠한 부가 정보도 필요로 하지 않는다.
실시예들에서, MF 파라미터들 및 TDAR 파라미터들의 상호 엔트로피-코딩(mutual entropy-coding)이 수행된다. MF 값과 TDAR 값은 상호 방식(mutual manner)으로 엔트로피-코딩될 수 있다. 이 경우, 8 MFB 및 6 MF일 때, 우리는
Figure pct00001
가 아닌
Figure pct00002
비트를 필요로 한다.
실시예들에서, 병합인자-대역들은 비-균일 방식으로 분할된다. 단순화를 위해, 아래의 설명에서는 균일한 MFB들이 가정된다. 그러나, 이들은 또한 비-균일해질 수 있다. 실현 가능한 분할은 추측하건데 스케일 인자-밴드(SFB, scalefactor-band)와 동일할 것이다. 그리고, SFB당 하나의 스케일 인자 및 하나의 병합 인자가 전송될 것이다.
실시예들에서, 병합 인자들의 격자-기반 최적화가 수행된다. 오디오 코딩을 위해 격자 그리드를 사용하는 것은 이미 최첨단(state-of-the-art)이다[7]. 그러나, 전통적인 시스템은 하나의 격자만을 사용할 수 있다; 반면에, 실시예들에 따르면, 하나의 격자가 MFB 마다 사용될 수 있다.
추가 실시예들은 오디오 신호를 처리하여 오디오 신호의 서브 밴드 표현을 획득하기 위한 오디오 프로세서를 제공한다. 오디오 프로세서는 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(cascaded lapped critically sampled transform stage) 및 시간 도메인 에일리어싱 감소 스테이지(time domain aliasing reduction stage)를 포함한다. 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지는 오디오 신호의 샘플들의 제1 블록에 기초하여 서브밴드 샘플들의 세트를 획득하고, 오디오 신호의 샘플들의 제2 블록에 기초하여 서브밴드 샘플들의 대응하는 세트를 획득하기 위해, 오디오 신호(102)의 샘플들의 적어도 2개의 부분적으로 중첩(overlap)되는 블록들에 대해 캐스케이드식 랩핑된 임계 샘플링 변환(cascaded lapped critically sampled transform)을 수행하도록 구성된다. 시간 도메인 에일리어싱 감소 스테이지는 오디오 신호의 에일리어싱 감소된 서브밴드 표현(aliasing reduced subband representation)(112_1)을 획득하기 위해, 서브밴드 샘플들의 2개의 대응하는 세트들(110_1,1;110_1,2)의 가중 결합(weighted combination)을 수행하도록 구성된다 - 2개의 대응하는 세트들 중 하나는, 오디오 신호(102)의 샘플들의 제1 블록(108_1)에 기초하여 획득된 서브밴드 샘플들의 세트이고, 2개의 대응하는 세트들 중 하나는, 오디오 신호(102)의 샘플들의 제2 블록(108_2)에 기초하여 획득된 서브밴드 샘플들의 세트임 -.
추가 실시예들은 오디오 신호의 서브밴드 표현을 처리하여 오디오 신호를 획득하기 위한 오디오 프로세서를 제공한다. 오디오 프로세서는 역 시간 도메인 에일리어싱 감소 스테이지(inverse time domain aliasing reduction stage) 및 캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지(cascaded inverse lapped critically sampled transform stage)를 포함한다. 역 시간 도메인 에일리어싱 감소 스테이지는 에일리어싱된 서브밴드 표현(aliased subband representation)을 획득하기 위해, 오디오 신호의 2개의 대응하는 에일리어싱 감소된 서브밴드 표현(부분적으로 중첩된 샘플들의 상이한 블록들)들의 가중(및 시프트(shift)) 결합을 수행하도록 구성된다 - 여기서 에일리어싱된 서브밴드 표현은, 서브밴드 샘플들의 세트임 -. 캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지는 오디오 신호(102)의 샘플들의 블록과 연관된 샘플들의 세트를 획득하기 위해, 서브밴드 샘플들의 세트에 캐스케이드식 역 랩핑된 임계 샘플링 변환(cascaded inverse lapped critically sampled transform)을 수행하도록 구성된다.
본 발명의 개념에 따르면, 추가적인 후-처리 스테이지가 랩핑된 임계 샘플링 변환(예: MDCT) 파이프라인에 추가된다. 이 후-처리 스테이지는, 주파수 축을 따른 또 다른 랩핑된 임계 샘플링 변환(예: MDCT) 및 각 서브 밴드 시간 축을 따른 시간 도메인 에일리어싱 감소(time domain aliasing reduction)를 포함한다. 이것은 임펄스 응답의 개선된 시간적 압축(temporal compactness)과 함께 랩핑된 임계 샘플링 변환(예: MDCT) 스펙트로그램에서 임의의(arbitrary) 주파수 스케일을 추출(extract)하는 동시에 추가적인 중복성(redundancy)을 도입하지 않고 랩핑된 임계 샘플링 변환 프레임 지연을 줄일 수 있다.
추가적인 실시예들은 오디오 신호를 처리하여 오디오 신호의 서브밴드 표현을 획득하기 위한 위한 방법을 제공한다. 이 방법은,
오디오 신호의 샘플들의 제1 블록에 기초하여 서브밴드 샘플들의 세트를 획득하기 위해, 그리고 오디오 신호의 샘플들의 제2 블록에 기초하여 서브밴드 샘플들의 대응하는 세트를 획득하기 위해, 오디오 신호의 샘플들의 적어도 2개의 부분적으로 중첩하는 블록들에 캐스케이드식 랩핑된 임계 샘플링 변환을 수행하는 것; 및
오디오 신호의 에일리어싱 감소된 서브밴드 표현을 획득하기 위해, 서브밴드 샘플들의 2개의 대응하는 세트들의 가중 결합을 수행하는 것 - 2개의 대응하는 세트들 중 하나는, 오디오 신호의 샘플들의 제1 블록에 기초하여 획득된 서브밴드 샘플들의 세트이고, 2개의 대응하는 세트들 중 하나는, 오디오 신호의 샘플들의 제2 블록에 기초하여 획득된 서브밴드 샘플들의 세트임 - 을 포함한다.
추가적인 실시예들은 오디오 신호의 서브밴드 표현을 처리하여 오디오 신호를 획득하기 위한 방법을 제공한다. 방법은,
에일리어싱된 서브밴드 표현을 획득하기 위해, 오디오 신호의 2개의 대응하는 에일리어싱 감소된 서브밴드 표현들(부분적으로 중첩된 샘플들의 상이한 블록들)의 가중(및 시프트) 결합을 수행하는 것 - 여기서 에일리어싱된 서브밴드 표현은 서브밴드 샘플들의 세트임 -; 및
오디오 신호의 샘플들의 블록과 연관된 샘플들의 세트를 획득하기 위해, 서브밴드 샘플들의 세트에 캐스케이드식 역 랩핑된 임계 샘플링 변환을 수행하는 것을 포함한다.
유리한 구현들은 종속항들에서 구현된다.
이어서, 오디오 신호를 처리하여 오디오 신호의 서브밴드 표현을 획득하기 위한 오디오 프로세서의 유리한 구현들이 설명된다.
실시예들에서, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지는 캐스케이드식 MDCT(MDCT = modified discrete cosine transform, 변형 이산 코사인 변환), MDST(MDST = modified discrete sine transform, 변형 이산 사인 변환) 또는 MLT(MLT = modulated lapped transform, 변조 랩핑 변환) 스테이지일 수 있다.
실시예들에서, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지는 오디오 신호의 샘플들의 적어도 2개의 부분적으로 중첩하는 블록들 중 샘플들의 제1 블록에 대한 빈들의 제1 세트 및 샘플들의 제2 블록에 대한 빈들(랩핑된 임계 샘플링 계수들)의 제2 세트를 획득하기 위해, 샘플들의 제1 블록 및 샘플들의 제2 블록에 랩핑된 임계 샘플링 변환들을 수행하도록 구성된 제1 랩핑된 임계 샘플링 변환 스테이지를 포함할 수 있다.
제1 랩핑된 임계 샘플링 변환 스테이지는 제1 MDCT, MDST 또는 MLT 스테이지일 수 있다.
캐스케이드식 랩핑된 임계 샘플링 변환 스테이지는 빈들의 제1 세트에 대한 서브밴드 샘플들의 세트 및 빈들의 제2 세트에 대한 서브밴드 샘플들의 세트를 획득하기 위해, 빈들의 제1 세트의 세그먼트(적절한 서브세트)에 랩핑된 임계 샘플링 변환을 수행하고, 그리고 빈들의 제2 세트의 세그먼트(적절한 서브세트)에 랩핑된 임계 샘플링 변환을 수행하도록 구성된 제2 랩핑된 임계 샘플링 변환 스테이지를 더 포함할 수 있고, 각각의 세그먼트는 오디오 신호의 서브밴드과 연관된다.
제2 랩핑된 임계 샘플링 변환 스테이지는 제2 MDCT, MDST 또는 MLT 스테이지일 수 있다.
따라서, 제1 랩핑된 임계 샘플링 변환 스테이지 및 제2 랩핑된 임계 샘플링 변환 스테이지는 동일한 타입, 즉 MDCT 스테이지, MDST 스테이지 또는 MLT 스테이지들 중 하나일 수 있다.
실시예들에서, 제2 랩핑된 임계 샘플링 변환 스테이지는 빈들의 제1 세트에 대한 서브밴드 샘플들의 적어도 2개의 세트들 및 빈들의 제2 세트에 대한 서브밴드 샘플들의 적어도 2개의 세트들을 획득하기 위해, 빈들의 제1 세트의 적어도 2개의 부분적으로 중첩하는 세그먼트들(적절한 서브세트들)에 랩핑된 임계 샘플링 변환들을 수행하고 그리고 빈들의 제2 세트의 적어도 2개의 부분적으로 중첩하는 세그먼트들(적절한 서브세트들)에 랩핑된 임계 샘플링 변환들을 수행하도록 구성될 수 있으며, 각각의 세그먼트는 오디오 신호의 서브밴드과 연관된다.
따라서, 제1 세트의 서브밴드 샘플들은 빈들의 제1 세트의 제1 세그먼트에 기초한 제1 랩핑된 임계 샘플링 변환의 결과일 수 있고, 여기서 제2 세트의 서브밴드 샘플들은 빈들의 제1 세트의 제2 세그먼트에 기초한 제2 랩핑된 임계 샘플링 변환의 결과일 수 있고, 여기서 제3 세트의 서브밴드 샘플들은 빈들의 제2 세트의 제1 세그먼트에 기초한 제3 랩핑된 임계 샘플링 변환의 결과일 수 있고, 여기서, 제4 세트의 서브밴드 샘플들은 빈들의 제2 세트의 제2 세그먼트에 기초한 제4 랩핑된 임계 샘플링 변환의 결과일 수 있다. 시간 도메인 에일리어싱 감소 스테이지는 오디오 신호의 제1 에일리어싱 감소된 서브밴드 표현을 획득하기 위해 제1 세트의 서브밴드 샘플들과 제3 세트의 서브밴드 샘플들의 가중 결합을 수행하고, 그리고 오디오 신호의 제2 에일리어싱 감소된 서브밴드 표현을 획득하기 위해 제2 세트의 서브밴드 샘플들과 제4 세트의 서브밴드 샘플들의 가중 결합을 수행하도록 구성될 수 있다.
실시예들에서, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지는 적어도 2개의 윈도우 함수들을 사용하여 샘플들의 제1 블록에 기초하여 획득된 빈들의 세트를 세그먼트하고, 그리고 샘플들의 제1 블록에 대응하는 빈들의 세그먼트된 세트에 기초하여 서브밴드 샘플들의 적어도 2개의 세트들을 획득하도록 구성될 수 있고, 여기서 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지는 적어도 2개의 윈도우 함수들을 사용하여 샘플들의 제2 블록에 기초하여 획득된 빈들의 세트를 세그먼트하고, 그리고 샘플들의 제2 블록에 대응하는 빈들의 세그먼트된 세트에 기초하여 서브밴드 샘플들의 적어도 2개의 세트들을 획득하도록 구성될 수 있고, 여기서 적어도 2개의 윈도우 함수들은 상이한 윈도우 폭을 포함한다.
실시예들에서, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지는 적어도 2개의 윈도우 함수들을 사용하여 샘플들의 제1 블록에 기초하여 획득된 빈들의 세트를 세그먼트하고, 그리고 샘플들의 제1 블록에 대응하는 빈들의 세그먼트된 세트에 기초하여 서브밴드 샘플들의 적어도 2개의 세트들을 획득하도록 구성될 수 있고, 여기서 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지는 적어도 2개의 윈도우 함수들을 사용하여 샘플들의 제2 블록에 기초하여 획득된 빈들의 세트를 세그먼트하고, 그리고 샘플들의 제2 블록에 대응하는 빈들의 세그먼트된 세트에 기초하여 서브밴드 샘플들의 적어도 2개의 세트들을 획득하도록 구성될 수 있고, 여기서 인접한 세트들의 서브밴드 샘플들에 대응하는 윈도우 함수들의 기울기는 대칭이다.
실시예들에서, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지는 제1 윈도우 함수를 사용하여 오디오 신호의 샘플들을 샘플들의 제1 블록 및 샘플들의 제2 블록으로 세그먼트하도록 구성될 수 있으며, 여기서 랩핑된 임계 샘플링 변환 스테이지는 대응하는 서브밴드 샘플들을 획득하기 위해, 제2 윈도우 함수를 사용하여 샘플들의 제1 블록에 기초하여 획득된 빈들의 세트 및 샘플들의 제2 블록에 기초하여 획득된 빈들의 세트를 세그먼트하도록 구성될 수 있고, 여기서 제1 윈도우 함수와 제2 윈도우 함수는 상이한 윈도우 폭을 포함한다.
실시예들에서, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지는 제1 윈도우 함수를 사용하여 오디오 신호의 샘플들을 샘플들의 제1 블록 및 샘플들의 제2 블록으로 세그먼트하도록 구성될 수 있으며, 여기서 랩핑된 임계 샘플링 변환 스테이지는 대응하는 서브밴드 샘플들을 획득하기 위해, 제2 윈도우 함수를 사용하여 샘플들의 제1 블록에 기초하여 획득된 빈들의 세트 및 샘플들의 제2 블록에 기초하여 획득된 빈들의 세트를 세그먼트하도록 구성될 수 있고, 여기서 제1 윈도우 함수의 윈도우 폭과 제2 윈도우 함수의 윈도우 폭은 서로 상이하고, 여기서 제1 윈도우 함수의 윈도우 폭과 제2 윈도우 함수의 윈도우 폭은 2의 거듭제곱과는 다른 인수만큼 서로 다르다.
이후에, 오디오 신호의 서브밴드 신호를 처리하여 오디오 신호를 획득하기 위한 오디오 프로세서의 유리한 구현들이 설명된다.
실시예들에서, 캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지는 캐스케이드식 MDCT(MDCT = modified discrete cosine transform, 변형 이산 코사인 변환), MDST(MDST = modified discrete sine transform, 변형 이산 사인 변환) 또는 MLT(MLT = modulated lapped transform, 변조 랩핑 변환) 스테이지일 수 있다.
실시예들에서, 캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지는 오디오 신호의 주어진 서브밴드와 연관된 빈들의 세트를 획득하기 위해, 서브밴드 샘플들의 세트에 역 랩핑된 임계 샘플링 변환을 수행하도록 구성된 제1 역 랩핑된 임계 샘플링 변환 스테이지를 포함할 수 있다.
제1 역 랩핑된 임계 샘플링 변환 스테이지는 제1 역 MDCT, 역 MDST 또는 역 MLT 스테이지일 수 있다.
실시예들에서, 캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지는 오디오 신호의 샘플들의 블록과 연관된 빈들의 세트를 획득하기 위해, 오디오 신호의 복수의 서브밴드들과 연관된 빈들의 세트의 연결을 수행하도록 구성된 제1 중첩 및 가산 스테이지를 포함할 수 있으며, 이러한 연결은 오디오 신호의 주어진 서브밴드와 연관된 빈들의 세트 및 오디오 신호의 다른 서브밴드와 연관된 빈들의 세트의 가중 결합을 포함한다.
실시예들에서, 캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지는 오디오 신호의 샘플들의 블록과 연관된 샘플들의 세트를 획득하기 위해, 오디오 신호의 샘플들의 블록과 연관된 빈들의 세트에 역 랩핑된 임계 샘플링 변환을 수행하도록 구성된 제2 역 랩핑된 임계 샘플링 변환 스테이지를 포함할 수 있다.
제2 역 랩핑된 임계 샘플링 변환 스테이지는 제2 역 MDCT, 역 MDST 또는 역 MLT 스테이지일 수 있다.
따라서, 제1 역 랩핑된 임계 샘플링 변환 스테이지와 제2 역 랩핑된 임계 샘플링 변환 스테이지는 동일한 타입, 즉 역 MDCT 스테이지, 역 MDST 스테이지 또는 역 MLT 스테이지들 중 하나일 수 있다.
실시예들에서, 캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지(cascaded inverse lapped critically sampled transform stage)는 제2 중첩 및 가산 스테이지(second overlap and add stage)를 포함할 수 있다. 2 중첩 및 가산 스테이지는, 오디오 신호를 획득하기 위해, 오디오 신호의 샘플들의 블록과 연관된 샘플들의 세트와 오디오 신호의 샘플들의 다른 블록과 연관된 다른 샘플들의 세트를 중첩 및 가산하도록 구성된다. 상기 샘플들의 블록과 상기 오디오 신호의 샘플들의 다른 블록은 부분적으로 중첩된다.
첨부된 도면을 참조하여 본 발명의 실시예들은 여기에서 설명된다.
도 1은 일 실시예에 따라, 오디오 신호를 처리하여 오디오 신호의 서브밴드 표현을 획득하기 위한 오디오 프로세서의 개략적인 블록도를 도시한다;
도 2는 추가 실시예에 따라, 오디오 신호를 처리하여 오디오 신호의 서브밴드 표현을 획득하기 위한 오디오 프로세서의 개략적인 블록도를 도시한다;
도 3은 추가 실시예에 따라, 오디오 신호를 처리하여 오디오 신호의 서브밴드 표현을 획득하기 위한 오디오 프로세서의 개략적인 블록도를 도시한다;
도 4는 일 실시예에 따라, 오디오 신호의 서브밴드 표현을 처리하여 오디오 신호를 획득하기 위한 오디오 프로세서의 개략적인 블록도를 도시한다;
도 5는 추가 실시예에 따라, 오디오 신호의 서브밴드 표현을 처리하여 오디오 신호를 획득하기 위한 오디오 프로세서의 개략적인 블록도를 도시한다;
도 6은 추가 실시예에 따라, 오디오 신호의 서브밴드 표현을 처리하여 오디오 신호를 획득하기 위한 오디오 프로세서의 개략적인 블록도를 도시한다;
도 7은 서브밴드 샘플들(상단 그래프) 및 시간 및 주파수에 따른 이들의 샘플들의 확산(하단 그래프)의 일례를 도표들로 도시한다;
도 8은 몇 몇의 상이한 변환들에 의해 획득된 스펙트럼 및 시간적 불확실성을 도표로 도시한다;
도 9는 서브밴드 병합(subband merging)에 의해 생성된 2개의 예시적인 임펄스 응답들(impulse responses)에 대해, TDAR, 간단한 MDCT 짧은 블록들(simple MDCT shortblocks) 및 하다마드 행렬 서브밴드 병합(Hadamard matrix subband merging)을 한 경우와의 비교를 도표들로 도시한다;
도 10은 일 실시예에 따라, 오디오 신호를 처리하여 오디오 신호의 서브밴드 표현을 획득하기 위한 방법의 흐름도를 도시한다;
도 11은 일 실시예에 따라, 오디오 신호의 서브밴드 표현을 처리하여 오디오 신호를 획득하기 위한 방법의 흐름도를 도시한다;
도 12는 일 실시예에 따른 오디오 인코더의 개략적인 블록도를 도시한다;
도 13은 일 실시예에 따른 오디오 디코더의 개략적인 블록도를 도시한다;
도 14는 일 실시예에 따른 오디오 분석기의 개략적인 블록도를 도시한다;
도 15는 본 발명의 일 실시예에 따라 도 2및 도 3에 도시된 오디오 프로세서의 제2 랩핑된 임계 샘플링 변환 스테이지의 랩핑된 임계 샘플링 변환 서브-스테이지의 개략적인 블록도를 도시한다;
도 16은 본 발명의 일 실시예에 따라 도 5및 도 6에 도시된 오디오 프로세서의 제1 랩핑된 임계 샘플링 변환 스테이지의 랩핑된 임계 샘플링 변환 서브-스테이지의 개략적인 블록도를 도시한다;
도 17은 본 발명의 일 실시 예에 따라, 빈들의 세트들을 획득하기 위해, 빈들의 세트를 세그먼트하는데 사용되는 윈도우 함수들을 도표로 도시한다;
도 18은 코더에 의해 선택된 병합 인자(MF) 및 시간 도메인 에일리어싱 감소(TDAR)의 분포를 도표들로 도시한다;
도 19는 39 개의 테스트 항목들에 대하여 상이한 왜곡 파라미터 q에 대한 두 시스템의 평균 비트 레이트를 도표들로 도시한다;
도 20은 품질 설정 및 그들의 왜곡 파라미터 q 및 결과 평균 비트 레이트를 표로 나열한다.
도 21은 상이한 테스트 항목들을 표로 나열한다;
도 22는 약한 손상(MQ) 품질 설정 및 중간 손상(LQ) 품질 설정 시의 윈도우 스위칭 필터 뱅크(WS)와 서브밴드 병합 필터 뱅크(SM) 사이의 쌍별 MUSHRA 스코어 차이에 대한 Shapiro-Wilk 테스트의 결과들을 표로 나열한다;
도 23은 약한 손상(MQ) 품질 설정 및 중간 손상(LQ) 품질 설정 시 윈도우 스위칭 필터 뱅크(WS)와 서브밴드 병합 필터 뱅크(SM) 사이의 MUSHRA 스코어 차이의 분포 및 커널 밀도 추정을 도표들로 도시한다;
도 24는 약한 손상(MQ) 품질 설정 및 중간 손상(LQ) 품질 설정 시 윈도우 스위칭 필터 뱅크(WS)와 서브밴드 병합 필터 뱅크(SM)를 비교한 MUSHRA 스코어의 중간, 표준 편차(SD), 및 Wilcoxon 부호-순위 테스트 결과들을 나열한다;
도 25는 약한 손상(slightly impaired)(MQ) 품질 설정(quality settings) 및 중간 손상(moderately impaired)(LQ) 품질 설정 시, 개별 항목 별 윈도우 스위칭 필터 뱅크(window switching filterbank) 및 서브밴드 병합 필터 뱅크(subband merging filterbank)에 대한 MUSHRA 스코어 차이의 중간(mean) 및 95 % 신뢰 구간(confidence intervals)을 도표들로 도시한다;
도 26은 일 실시예에 따라, 오디오 신호를 처리하여 오디오 신호의 서브밴드 표현을 획득하기 위한 방법의 흐름도를 도시한다; 및
도 27은 일 실시예에 따라, 오디오 신호의 서브밴드 표현을 처리하여 오디오 신호를 획득하기 위한 방법의 흐름도를 도시한다.
동일한 또는 대등한 엘리먼트들 또는 동일한 또는 대등한 기능을 갖는 엘리먼트들은 다음 설명에서 동일한 또는 대등한 참조 번호들로 표시된다.
다음 설명에서, 본 발명의 실시예들의 더욱 철저한 설명을 제공하기 위해 복수의 세부사항들이 제시된다. 그러나 본 발명의 실시예들은 이러한 특정 세부사항들 없이 실시될 수도 있음이 해당 기술분야에서 통상의 지식을 가진 자에게 명백할 것이다. 다른 경우들에는, 본 발명의 실시예들을 모호하게 하는 것을 피하기 위해, 잘-알려진 구조들 및 디바이스들은 상세하기보다는 블록도 형태로 도시된다. 추가로, 구체적으로 달리 언급되지 않는 한, 이하 설명되는 서로 다른 실시예들의 특징들이 서로 결합될 수도 있다.
먼저, 섹션 1에서는, 시간 및 주파수 모두에서 압축된 임펄스(impulse) 응답들을 달성할 수 있는 캐스케이드식 2개의 MDCT(modified discrete cosine transform, 변형 이산 코사인 변환) 및 시간 도메인 에일리어싱 감소(TDAR, time domain aliasing reduction)를 기초로 하는 비균일 직교 필터 뱅크(nonuniform orthogonal filterbank)가 설명된다[1]. 이후에, 섹션 2에서는, 오디오 코더 시나리오에서 이러한 비-균일 필터 뱅크의 지각(perceptual) 품질이 평가되며, 그리고 어드밴스드 오디오 코딩(advanced audio coding, AAC)과 같이 현재 코더들에게 사용되는 윈도우 스위칭가능한 균일 필터 뱅크의 성능과 비교될 것이다[2].
1. 캐스케이드식 2개의 MDCT 및 시간 도메인 에일리어싱 감소(TDAR, time domain aliasing reduction)를 기초로 하는 비균일 직교 필터 뱅크
도 1은 일 실시예에 따라, 오디오 신호를 처리하여 오디오 신호(102)의 서브밴드 표현을 획득하기 위해 구성된 오디오 프로세서(100)의 개략적인 블록도를 보여준다. 오디오 프로세서(100)는 캐스케이드식 랩핑된 임계 샘플링 변환(LCST: lapped critically sampled transform) 스테이지(104) 및 시간 도메인 에일리어싱 감소(TDAR: time domain aliasing reduction) 스테이지(106)를 포함한다.
캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104)는 오디오 신호(102)의 샘플들(적어도 2개의 중첩하는 블록들(108_1, 108_2)의 샘플들 중)의 제1 블록(108_1)에 기초하여 서브밴드 샘플들의 세트(110_1,1)를 획득하고, 그리고 오디오 신호(102)의 제2 블록(108_2)의 샘플들(적어도 2개의 중첩하는 블록들(108_1, 108_2)의 샘플들 중)에 기초하여 서브밴드 샘플들의 대응하는 세트(110_2,1)를 획득하기 위해, 오디오 신호(102)의 샘플들의 적어도 2개의 부분적으로 중첩하는 블록들(108_1, 108_2)에 캐스케이드식 랩핑된 임계 샘플링 변환을 수행하도록 구성된다.
시간 도메인 에일리어싱 감소 스테이지(104)는 오디오 신호(102)의 에일리어싱 감소된 서브밴드 표현(112_1)을 획득하기 위해, 오디오 신호(102)의 샘플들의 제1 블록(108_1)에 기초하여 획득된 서브밴드 샘플들의 세트 및 오디오 신호의 샘플들의 제2 블록(108_2)에 기초하여 획득된 서브밴드 샘플들의 세트인 서브밴드 샘플들(즉, 동일한 서브밴드에 대응하는 서브밴드 샘플들)의 2개의 대응하는 서브밴드 샘플들의 세트들(110_1,1 및 110_2,1)의 가중 결합을 수행하도록 구성된다.
실시예들에서, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104)는 적어도 2개의 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지들, 또는 다시 말해서, 캐스케이드 방식으로 연결된 2개의 랩핑된 임계 샘플링 변환 스테이지들을 포함할 수 있다.
캐스케이드식 랩핑된 임계 샘플링 변환 스테이지는 캐스케이드식 MDCT(MDCT = modified discrete cosine transform, 변형 이산 코사인 변환) 스테이지일 수 있다. 캐스케이드식 MDCT 스테이지는 적어도 2개의 MDCT 스테이지들을 포함할 수 있다.
당연히, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지는 또한 적어도 2개의 MDST 또는 MLT 스테이지들을 각각 포함하는 캐스케이드식 MDST(MDST = modified discrete sine transform, 변형 이산 사인 변환) 또는 MLT(MLT = modulated lap transform, 변조 랩핑 변환) 스테이지일 수 있다.
서브밴드 샘플들의 2개의 대응하는 세트들(110_1,1 및 110_2,1)은 동일한 서브밴드(즉, 주파수 대역)에 대응하는 서브밴드 샘플들일 수 있다.
도 2는 추가 실시예에 따라, 오디오 신호를 처리하여 오디오 신호(102)의 서브밴드 표현을 획득하기 위해 구성된 오디오 프로세서(100)의 개략적인 블록도를 보여준다.
도 2에 도시된 것처럼, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104)는 샘플들의 제1 블록(108_1)에 대한 (M개의) 빈들(LCST 계수들)(
Figure pct00003
, 0≤k≤M-1)의 제1 세트(124_1) 및 샘플들의 제2 블록(108_2)에 대한 (M개의) 빈들(LCST 계수들)(
Figure pct00004
, 0≤k≤M-1)의 제2 세트(124_2)를 획득하기 위해, 오디오 신호(102)의 샘플들의 적어도 2개의 부분적으로 중첩하는 블록들(108_1, 108_2) 중 (2M개의) 샘플들(
Figure pct00005
, 0≤n≤2M-1)의 제1 블록(108_1) 및 (2M개의) 샘플들(
Figure pct00006
, 0≤n≤2M-1)의 제2 블록(108_2)에 랩핑된 임계 샘플링 변환들을 수행하도록 구성된 제1 랩핑된 임계 샘플링 변환 스테이지(120)를 포함할 수 있다.
캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104)는 빈들의 제1 세트(124_1)에 대한 서브밴드 샘플들(
Figure pct00007
]의 세트(110_1,1) 및 빈들의 2 세트(124_2)에 대한 서브밴드 샘플들(\
Figure pct00008
)의 세트(110_2,1)를 획득하기 위해, 빈들의 제1 세트(124_1)의 세그먼트(128_1,1)(적절한 서브세트)(
Figure pct00009
)에 랩핑된 임계 샘플링 변환을 수행하고 그리고 빈들의 제2 세트(124_2)의 세그먼트(128_2,1)(적절한 서브세트)(
Figure pct00010
)에 랩핑된 임계 샘플링 변환을 수행하도록 구성된 제2 랩핑된 임계 샘플링 변환 스테이지(126)를 포함할 수 있으며, 각각의 세그먼트는 오디오 신호(102)의 서브밴드와 연관된다.
도 3은 추가 실시예에 따라, 오디오 신호를 처리하여 오디오 신호(102)의 서브밴드 표현을 획득하기 위해 구성된 오디오 프로세서(100)의 개략적인 블록도를 보여준다. 즉, 도 3은 분석 필터 뱅크(analysis filter bank)의 다이어그램을 보여준다. 따라서, 적절한 윈도우 함수들은 가정된다. 단순성의 이유들로 도 3에서는 (단지) 서브밴드 프레임의 처음 절반(y[m], 0 <=m < N/2)의 처리(즉, 식(6)의 첫 번째 라인만)가 표시되는 것을 관찰한다.
도 3에 도시된 것처럼, 제1 랩핑된 임계 샘플링 변환 스테이지(120)는 샘플들의 제1 블록(108_1)에 대한 (M개의) 빈들(LCST 계수들)(
Figure pct00011
, 0≤k≤M-1)의 제1 세트(124_1)를 획득하기 위해, (2M개의) 샘플들(
Figure pct00012
, 0≤n≤2M-1)의 제1 블록(108_1)에 제1 랩핑된 임계 샘플링 변환(122_1)(예: MDCT i-1)을 수행하고, 그리고 샘플들의 제2 블록(108_2)에 대한 (M개의) 빈들(LCST 계수들)(
Figure pct00013
, 0≤k≤M-1)의 제2 세트(124_2)를 획득하기 위해, (2M개의) 샘플들(
Figure pct00014
, 0≤n≤2M-1)의 제2 블록(108_2)에 제2 랩핑된 임계 샘플링 변환(122_2)(예: MDCT i)을 수행하도록 구성될 수 있다.
상세하게는, 제2 랩핑된 임계 샘플링 변환 스테이지(126)는 빈들의 제1 세트(124_1)에 대한 서브밴드 샘플들(
Figure pct00015
)의 적어도 2개의 세트들(110_1,1 및 110_1,2) 및 빈들의 제2 세트(124_2)에 대한 서브밴드 샘플들(
Figure pct00016
)의 적어도 2개의 세트들(110_2,1 및 110_2,2)을 획득하기 위해, 빈들의 제1 세트(124_1)의 적어도 2개의 부분적으로 중첩하는 세그먼트들(128_1,1 및 128_1,2)(적절한 서브세트들)(
Figure pct00017
)에 랩핑된 임계 샘플링 변환들을 수행하고 그리고 빈들의 제2 세트의 적어도 2개의 부분적으로 중첩하는 세그먼트들(128_2,1 및 128_2,2)(적절한 서브세트들)(
Figure pct00018
)에 랩핑된 임계 샘플링 변환들을 수행하도록 구성될 수 있으며, 각각의 세그먼트는 오디오 신호의 서브밴드와 연관된다.
예를 들어, 제1 세트(110_1,1)의 서브밴드 샘플들은 빈들의 제1 세트(124_1)의 제1 세그먼트(132_1,1)에 기초한 제1 랩핑된 임계 샘플링 변환(132_1,1)의 결과일 수 있고, 제2 세트(110_1,2)의 서브밴드 샘플들은 빈들의 제1 세트(124_1)의 제2 세그먼트(128_1,2)에 기초한 제2 랩핑된 임계 샘플링(132_1,2) 변환의 결과일 수 있 있고, 제3 세트(110_2,1)의 서브밴드 샘플들은 빈들의 제2 세트(124_2)의 제1 세그먼트(128_2,1)에 기초한 제3 랩핑된 임계 샘플링 변환(132_2,1)의 결과일 수 있고, 제4 세트(110_2,2)의 서브밴드 샘플들은 빈들의 제2 세트(124_2)의 제2 세그먼트(128_2,2)에 기초한 제4 랩핑된 임계 샘플링 변환(132_2,2)의 결과일 수 있다.
따라서, 시간 도메인 에일리어싱 감소 스테이지(106)는 오디오 신호의 제1 에일리어싱 감소된 서브밴드 표현(112_1)(
Figure pct00019
)을 획득하기 위해 서브밴드 샘플들의 제1 세트(110_1,1)와 서브밴드 샘플들의 제3 세트(110_2,1)의 가중 결합을 수행하도록 구성될 수 있고, 도메인 에일리어싱 감소 스테이지(106)는 오디오 신호의 제2 에일리어싱 감소된 서브밴드 표현(112_2)(
Figure pct00020
)을 획득하기 위해 서브밴드 샘플들의 제2 세트(110_1,2)와 서브밴드 샘플들의 제4 세트(110_2,2)의 가중 결합을 수행하도록 구성될 수 있다.
도 4는 일 실시예에 따라, 오디오 신호의 서브밴드 표현을 처리하여 오디오 신호를 획득하기 위한 오디오 프로세서(200)의 개략적인 블록도를 보여준다. 오디오 프로세서(200)는 역 시간 도메인 에일리어싱 감소(TDAR) 스테이지(202) 및 캐스케이드식 역 랩핑된 임계 샘플링 변환(LCST) 스테이지(204)를 포함한다.
역 시간 도메인 에일리어싱 감소 스테이지(202)는 에일리어싱된 서브밴드 표현(110_1)(
Figure pct00021
)을 획득하기 위해, 오디오 신호(102)의 2개의 대응하는 에일리어싱 감소된 서브밴드 표현들(112_1, 112_2)(
Figure pct00022
,
Figure pct00023
)의 가중(및 시프트) 결합을 수행하도록 구성되며, 에일리어싱된 서브밴드 표현은 서브밴드 샘플들의 세트(110_1)이다.
캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지(204)는 오디오 신호(102)의 샘플들의 블록(108_1)과 연관된 샘플들의 세트를 획득하기 위해, 서브밴드 샘플들의 세트(110_1)에 캐스케이드식 역 랩핑된 임계 샘플링 변환을 수행하도록 구성된다.
도 5는 추가 실시예에 따라, 오디오 신호의 서브밴드 표현을 처리하여 오디오 신호(102)를 획득하기 위한 오디오 프로세서(200)의 개략적인 블록도를 보여준다. 캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지(204)는 제1 역 랩핑된 임계 샘플링 변환(LCST) 스테이지(208) 및 제1 중첩 및 가산 스테이지(210)를 포함할 수 있다.
제1 역 랩핑된 임계 샘플링 변환 스테이지(208)는 오디오 신호(
Figure pct00024
)의 주어진 서브밴드와 연관된 빈들의 세트(128_1,1)를 획득하기 위해, 서브밴드 샘플들의 세트(110_1,1)에 역 랩핑된 임계 샘플링 변환을 수행하도록 구성될 수 있다.
제1 중첩 및 가산 스테이지(210)는 오디오 신호(102)의 샘플들의 블록(108_1)과 연관된 빈들의 세트(124_1)를 획득하기 위해, 오디오 신호의 복수의 서브밴드들과 연관된 빈들의 세트들의 연결을 수행하도록 구성될 수 있으며, 이러한 연결은 오디오 신호(102)의 주어진 서브밴드(v)와 연관된 빈들(
Figure pct00025
)의 세트(128_1,1)와 오디오 신호(102)의 다른 서브밴드(v-1)와 연관된 빈들(
Figure pct00026
)의 세트(128_1,2)의 가중 결합을 포함한다.
도 5에 도시된 것처럼, 캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지(204)는 오디오 신호(102)의 샘플들의 블록(108_1)과 연관된 샘플들의 세트(206_1,1)를 획득하기 위해, 오디오 신호(102)의 샘플들의 블록(108_1)과 연관된 빈들의 세트(124_1)에 역 랩핑된 임계 샘플링 변환을 수행하도록 구성된 제2 역 랩핑된 임계 샘플링 변환(LCST) 스테이지(212)를 포함할 수 있다.
게다가, 캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지(204)는 오디오 신호(102)를 획득하기 위해, 오디오 신호(102)의 샘플들의 블록(108_1)과 연관된 샘플들의 세트(206_1,1)와 오디오 신호의 샘플들의 다른 블록(108_2)과 연관된 샘플들의 다른 세트(206_2,1)를 중첩 및 가산하도록 구성된 제2 중첩 및 가산 스테이지(214)를 포함할 수 있으며, 오디오 신호(102)의 샘플들의 블록(108_1)과 샘플들의 다른 블록(108_2)은 부분적으로 중첩한다.
도 6은 추가 실시예에 따라, 오디오 신호의 서브밴드 표현을 처리하여 오디오 신호(102)를 획득하기 위한 오디오 프로세서(200)의 개략적인 블록도를 보여준다. 달리 말해, 도 6은 합성 필터 뱅크(syhthesis filter bank)의 다이어그램을 보여준다. 따라서, 적절한 윈도우 함수들은 가정된다. 단순성의 이유들로 도 6에서는 (단지) 서브밴드 프레임의 처음 절반(y[m], 0 <=m < N/2)의 처리(즉, 식(6)의 첫 번째 라인만)가 표시되는 것을 관찰한다.
이전에 설명된 것처럼, 오디오 프로세서(200)는, 역 시간 도메인 에일리어싱 감소 스테이지(inverse time domain aliasing reduction stage)(202) 및 역 캐스케이드식 랩핑된 임계 샘플링 스테이지(an inverse cascades lapped critically sampled stage)(204)를 포함한다. 역 캐스케이드식 랩핑된 임계 샘플링 스테이지(204)는, 제1 역 랩핑된 임계 샘플링 스테이지(first inverse lapped critically sampled stage)(208) 및 제2 역 랩핑된 임계 샘플링 스테이지(second inverse lapped critically sampled stage)(212)를 포함한다.
역 시간 도메인 감소 스테이지(104)는 제1 에일리어싱된 서브밴드 표현(110_1,1)(
Figure pct00027
)을 획득하기 위해 제1 에일리어싱 감소된 서브밴드 표현과 제2 에일리어싱 감소된 서브밴드 표현(
Figure pct00028
,
Figure pct00029
)의 제1 가중 및 시프트 결합(220_1)을 수행하도록 - 에일리어싱된 서브밴드 표현은 서브밴드 샘플들의 세트임 -, 그리고 제2 에일리어싱된 서브밴드 표현을(110_2,1)(
Figure pct00030
)을 획득하기 위해 제3 에일리어싱 감소된 서브밴드 표현과 제4 에일리어싱 감소된 서브밴드 표현(
Figure pct00031
,
Figure pct00032
)의 제2 가중 및 시프트 결합(220_2)을 수행하도록 구성되며, 에일리어싱된 서브밴드 표현은 서브밴드 샘플들의 세트이다.
제1 역 랩핑된 임계 샘플링 변환 스테이지(208)는 오디오 신호(
Figure pct00033
)의 주어진 서브밴드와 연관된 빈들의 세트(128_1,1)를 획득하기 위해 서브밴드 샘플들(110_1,1)(
Figure pct00034
)의 제1 세트에 제1 역 랩핑된 임계 샘플링 변환(222_1)을 수행하고, 그리고 오디오 신호(
Figure pct00035
)의 주어진 서브밴드와 연관된 빈들의 세트(128_2,1)를 획득하기 위해 서브밴드 샘플들(110_2,1)(
Figure pct00036
)의 제2 세트에 제2 역 랩핑된 임계 샘플링 변환(222_2)을 수행하도록 구성된다.
제2 역 랩핑된 임계 샘플링 변환 스테이지(212)는 샘플들의 블록(108_2)을 획득하기 위해, 제1 역 랩핑된 임계 샘플링 변환 스테이지(208)에 의해 제공된 빈들(128_1,1 및 128_21)의 세트들을 중첩 및 가산함으로써 획득된 빈들의 중첩 및 가산된 세트에 역 랩핑된 임계 샘플링 변환을 수행하도록 구성된다.
이후에, 도 1 내지 도 6에 도시된 오디오 프로세서들의 실시예들은 설명되는데, 여기서 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104)는 MDCT 스테이지고, 즉 제1 랩핑된 임계 샘플링 변환 스테이지(120) 및 제2 랩핑된 임계 샘플링 변환 스테이지(126)는 MDCT 스테이지들이고, 그리고 역 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(204)는 역 캐스케이드식 MDCT 스테이지이고, 즉 제1 역 랩핑된 임계 샘플링 변환 스테이지(120) 및 제2 역 랩핑된 임계 샘플링 변환 스테이지(126)는 역 MDCT 스테이지들이라고 예시적으로 가정된다. 당연히, 다음 설명은 또한 캐스케이드식 MDST 또는 MLT 스테이지 또는 역 캐스케이드식 MDST 또는 MLT 스테이지와 같은 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104) 및 역 랩핑된 임계 샘플링 변환 스테이지(204)의 다른 실시예들에도 적용 가능하다.
따라서 설명된 실시예들은 제한된 길이의 MDCT 스펙트럼들의 시퀀스에 대해 작동할 수 있고 서브밴드 병합 동작으로서 MDCT 및 시간 도메인 에일리어싱 감소(TDAR)를 사용할 수 있다. 결과적인 비-균일 필터 뱅크는 랩핑되고, 직교하며, 서브밴드 폭들(k=2n, n ∈ N)을 허용한다. TDAR로 인해, 시간상 그리고 스펙트럼상 모두 더 압축적인 서브밴드 임펄스 응답이 달성될 수 있다.
이어서, 필터 뱅크의 실시예들이 설명된다.
필터 뱅크 구현은 일반적인 랩핑 MDCT 변환 방식들을 기반으로 직접 구축한다: 중첩 및 윈도우 처리를 이용한 원래의 변환은 변경되지 않는다.
보편성을 잃지 않으면서, 다음 표기법은 직교 MDCT 변환들을 가정하는데, 예를 들어 여기서 분석 및 합성 윈도우들은 동일하다.
Figure pct00037
(1)
Figure pct00038
(2)
여기서
Figure pct00039
는 MDCT 변환 커널이며,
Figure pct00040
는 적절한 분석 윈도우이다.
Figure pct00041
(3)
이 변환(
Figure pct00042
)의 출력은 개개의 폭들(Nν)의 υ 서브밴드들로 세그먼트되고 MDCT를 사용하여 다시 변환된다. 이는 시간 및 스펙트럼 방향 모두에서 중첩하는 필터 뱅크를 야기한다.
본 명세서에서 보다 간단한 표기를 위해, 모든 서브밴드들에 대한 하나의 공통 병합 인자(N)가 사용되지만, 원하는 시간-주파수 분해능(time-frequency resolution)을 구현하는 데 임의의 유효(valid) MDCT 윈도우 스위칭/시퀀싱이 사용될 수 있다. 분해능 설계에 대한 추가 사항은 아래와 같다.
Figure pct00043
(4)
Figure pct00044
(5)
여기서
Figure pct00045
는 적절한 분석 윈도우이고 일반적으로
Figure pct00046
과 크기가 다르고 윈도우 타입이 다를 수 있다. 실시예들이 주파수 도메인에서 윈도우를 적용하기 때문에, 윈도우의 시간 및 주파수 선택성(time- and frequency-selectivity)이 바뀐다는 것은 주목할 가치가 있다.
적절한 경계 처리를 위해, N/2의 추가 오프셋이 식(4)에 도입될 수 있고, 경계들에서 사각 시작/정지 윈도우(rectangular start/stop window)의 절반들과 결합될 수 있다. 또한, 보다 간단한 표기를 위해 여기서 이 오프셋은 고려되지 않았다.
출력(
Figure pct00047
)은 대응하는 대역폭들(
Figure pct00048
) 및 그 대역폭에 비례하는 시간 분해능을 갖는 계수들의 개개의 길이들(Nν)의 ν 벡터들의 리스트이다.
원래의 MDCT 변환으로부터의 에일리어싱을 포함하며, 결과적으로 열악한 시간적 압축성을 보여준다. 이 에일리어싱을 보완하기 위해 TDAR이 가능해질 수 있다.
TDAR에 사용된 샘플들은 현재 및 이전 MDCT 프레임(i, i-1)에서 2개의 인접한 서브밴드 샘플 블록들(ν)로부터 추출(take)된다. 결과는 이전 프레임의 두 번째 절반과 제2 프레임의 첫 번째 절반에서 감소된 에일리어싱이다.
Figure pct00049
(6)
Figure pct00050
인 경우는
Figure pct00051
(7)
TDAR 계수들
Figure pct00052
,
Figure pct00053
,
Figure pct00054
, 및
Figure pct00055
은 잔여 에일리어싱(residual aliasing)을 최소화하도록 설계될 수 있다. 합성 윈도우(
Figure pct00056
)에 기반한 간단한 추정 방법이 아래에서 소개될 것이다.
또한, A가 비특이(nonsingular)하다면, 연산(6) 및 연산(8)은 쌍직교(biorthogonal) 시스템에 대응한다는 점에 주목한다. 추가로,
Figure pct00057
Figure pct00058
의 경우, 예를 들어 두 MDCT들 모두 직교하고, 행렬A가 직교한다면, 전체 파이프라인이 직교 변환을 구성한다.
역변환을 계산하기 위해, 제1 역 TDAR이 수행되고,
Figure pct00059
(8)
이어서, 식(5)에서 생성된 에일리어싱을 제거하기 위해 역 MDCT 및 시간 도메인 에일리어싱 제거(TDAC: time domain aliasing cancellation) (여기서는 주파수 축을 따라 에일리어싱 제거가 수행되더라도)가 수행되어야 한다.
Figure pct00060
(9)
Figure pct00061
(10)
Figure pct00062
(11)
마지막으로, 식(2)에서의 초기 MDCT가 반전되고 다시 TDAC가 수행된다:
Figure pct00063
(12)
Figure pct00064
(13)
Figure pct00065
(14)
이어서, 시간-주파수 분해능 설계 한계들이 설명된다. 임의의 원하는 시간-주파수 분해능이 가능하지만, 도치성(invertibility)을 보장하기 위해 결과적인 윈도우 함수들을 설계하기 위한 몇 가지 제약들이 고수되어야 한다. 특히, 2개의 인접한 서브밴드들의 기울기들은 식(6)이 Princen Bradley 조건을 충족하도록 대칭일 수 있다[J. Princen, A. Johnson, and A. Bradley, "Subband/transform coding using filter bank designs based on time domain aliasing cancellation," in Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP '87, Apr 1987, vol. 12, pp. 2161-2164]. 원래 프리-에코 효과(pre-echo effect)들을 없애기 위해 설계된, [B. Edler, "Codierung von Audiosignalen mituberlappender Transformation und adaptiven Fensterfunktionen," Frequenz, vol. 43, pp. 252-256, Sept. 1989]에서 소개된 윈도우 스위칭 방식이 여기에 적용될 수 있다. [Olivier Derrien, Thibaud Necciari, and Peter Balazs, "A quasi-orthogonal, invertible, and perceptually relevant time-frequency transform for audio coding," in EUSIPCO, Nice, France, Aug. 2015.]를 참조한다.
두 번째로, 모든 두 번째 MDCT 변환 길이들의 합은 제공된 MDCT 계수들의 전체 길이에 합산되어야 한다. 대역들은 원하는 계수들에서 0들을 갖는 단위 단계 윈도우를 사용하여 변환되지 않도록 선택될 수 있다. 그러나, 인접한 윈도우들의 대칭 특성들은 처리되어야 한다 [B. Edler, "Codierung von Audiosignalen mitberlappender Transformation und adaptiven Fensterfunktionen," Frequenz, vol. 43, pp. 252-256, Sept. 1989.]. 결과적인 변환은 이러한 대역들에서 0들을 산출할 것이므로 원래의 계수들이 직접 사용될 수 있다.
가능한 시간-주파수 분해능으로 대부분의 최신 오디오 코더들의 스케일 인자 대역들이 직접 사용될 수 있다.
이어서, 시간 도메인 에일리어싱 감소(TDAR) 계수 계산이 설명된다.
앞서 언급된 시간 분해능에 따라, 각각의 서브밴드 샘플은 M/Nν의 원본 샘플들, 또는 원본 샘플 중 하나의 크기의 간격(Nν)배에 대응한다.
더욱이, 각각의 서브밴드 샘플에서의 에일리어싱 양은 해당 서브밴드 샘플이 나타내고 있는 간격에서의 에일리어싱 양에 좌우된다. 에일리어싱이 분석 윈도우 로 가중되면, 각각의 서브밴드 샘플 간격에서 합성 윈도우의 대략적인 값을 사용하는
Figure pct00066
는 TDAR 계수에 대해 양호한 제1 추정치인 것으로 가정된다.
실험들은 2개의 매우 간단한 계수 계산 방식들이 시간 및 스펙트럼 압축성(temporal and spectral compactness) 모두가 개선된 양호한 초기 값들을 가능하게 한다는 것을 보여주었다. 두 방법들 모두 2Nν길이의 가설 합성 윈도우(hypothetical synthesis window)
Figure pct00067
을 기반으로 한다.
1) Sine 또는 Kaiser Bessel Derived와 같은 파라메트릭 윈도우들에 대해, 동일한 타입의 간단하고 보다 짧은 윈도우가 정의될 수 있다.
2) 닫힌 표현이 없는 파라메트릭 및 표로 만들어진 윈도우들 모두에 대해, 윈도우는 동일한 크기의 2Nν개의 섹션들로 간단히 절단될 수 있어, 각각의 섹션의 평균값을 사용하여 계수들이 획득될 수 있게 한다:
Figure pct00068
(15)
MDCT 경계 조건들 및 에일리어싱 미러링을 고려하면, 이는 TDAR 계수들을 산출하고:
Figure pct00069
(16)
Figure pct00070
(17)
Figure pct00071
(18)
Figure pct00072
(19)
또는 직교 변환의 경우:
Figure pct00073
(20)
Figure pct00074
(21)
어떤 계수 근사화 솔루션이 선택되었더라도, A가 비특이라면, 전체 필터 뱅크의 완벽한 재구성이 유지(preserve)된다. 다른 차선(suboptimal)의 계수 선택은 역 필터 뱅크에 의해 합성된 신호
Figure pct00075
에서가 아니라 서브밴드 신호
Figure pct00076
에서의 잔여 에일리어싱의 양에만 영향을 미칠 것이다.
도 7은 서브밴드 샘플들(상단 그래프) 및 시간 및 주파수에 대한 이들의 샘플들의 확산(하단 그래프)의 일례를 도표들로 보여준다. 주석이 달린 샘플은 더 넓은 대역폭을 갖지만, 하단 샘플들보다 더 짧은 시간 확산을 갖는다. 분석 윈도우들(하단 그래프)은 원래 시간 샘플당 하나의 계수의 전체 분해능을 갖는다. 따라서 TDAR 계수들은 각각의 서브밴드 샘플들의 시간 도메인(m=256 : : : 384)에 대해 근사화(점으로 주석 표시)되어야 한다.
이어서, (시뮬레이션) 결과들이 설명된다.
도 8은 [Frederic Bimbot, Ewen Camberlein, and Pierrick Philippe, "Adaptive filter banks using fixed size mdct and subband merging for audio coding-comparison with the mpeg aac filter banks," in Audio Engineering Society Convention 121, Oct 2006.]에 도시된 것처럼, 여러 서로 다른 변환들에 의해 획득된 스펙트럼 및 시간적 불확실성(temporal uncertainty)을 보여준다.
하다마드-행렬 기반 변환(Hadamard-matrix based transform)들은 상당히 제한적인 시간-주파수 타협 능력(tradeoff capability)들을 제공한다는 점이 확인될 수 있다. 병합 크기들이 커짐에 따라, 추가 시간 분해능은 스펙트럼 불확실성에서 불균형하게(disproportionally) 높은 비용이 든다.
다시 말해, 도 8은 서로 다른 변환들의 스펙트럼 및 시간 에너지 압축의 비교를 보여준다. 일렬로 늘어선 라벨들은 MDCT에 대한 프레임 길이들, Heisenberg 분할에 대한 분할 인자(split factor)들 및 다른 모든 것들에 대한 병합 인자들을 나타낸다.
그러나 TDAR과의 서브밴드 병합은 보통의 균일한MDCT와 평행하게, 시간적 불확실성과 스펙트럼 불확실성 사이에서 선형적인 타협점을 가지고 있다. 이 둘의 결과는 일정하지만 보통의 균일한 MDCT보다 약간 더 높다. 이 분석을 위해, Sine 분석 윈도우 및 Kaiser Bessel Derived 서브밴드 병합 윈도우는 가장 압축적인 결과들을 보여주었고 그에 따라 선택되었다.
그러나 병합 인자(Nν=2)에 대해 TDAR을 사용하는 것은 시간적 및 스펙트럼 압축성을 모두 감소시키는 것으로 보인다. 이것은 섹션 II-B에서 소개된 계수 계산 방식이 너무 단순하고 가파른 윈도우 함수 기울기들에 대한 값들을 적절히 근사하지 못한 결과라고 본다. 수치 최적화 방식(numeric optimization scheme)은 후속 공보(follow-up publication)에서 제시될 것이다.
이러한 압축성 값들은 [Athanasios Papoulis, Signal analysis, Electrical and electronic engineering series. McGraw-Hill, New York, San Francisco, Paris, 1977.]에서 정의된 임펄스 응답(
Figure pct00077
)의 무게 중심(cog: center of gravity)과 제곱 유효 길이(squared effective length)(
Figure pct00078
)를 사용하여 계산되었다.
Figure pct00079
(22)
Figure pct00080
(23)
각각의 개별 필터 뱅크의 모든 임펄스 응답들의 평균값들이 도시된다.
도 9는, O.A. Niamut and R. Heusdens, "Flexible frequency decompositions for cosine-modulated filter banks," in Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP '03). 2003 IEEE International Conference on, April 2003, vol. 5, pp. V-449-52 vol.5에서 제안된. 서브밴드 병합(subband merging)에 의해 생성된 2개의 예시적인 임펄스 응답들(impulse responses)에 대해, TDAR, 간단한 MDCT 짧은 블록들(simple MDCT shortblocks) 및 하다마드 행렬 서브밴드 병합(Hadamard matrix subband merging)을 한 경우와의 비교를 도시한다;
하다마드 행렬 병합 변환의 불완전한 시간적 압축성이 명확하게 드러난다. 또한, 서브밴드 내의 에일리어싱 아티팩트들의 대부분이 TDAR에 의해 상당히 감소되는 것이 명확하게 확인될 수 있다.
다시 말해, 도 9는, [O.A. Niamut and R. Heusdens, "Subband merging in cosine-modulated filter banks," Signal Processing Letters, IEEE, vol. 10, no. 4, pp. 111-114, April 2003.]에서 제안된 방법인 TDAR을 사용하는 방법, TDAR 없이 여기에 제안된 방법을 사용하고, 그리고 256개의 샘플들의 더 짧은 MDCT 프레임 길이를 사용하여, 1024개의 원래의 빈들(bins) 중 8개를 포함하는 병합된 서브밴드 필터(merged subband filter)의 예시적인 임펄스 응답들(impulse responses)을 도시한다.
도 10은 오디오 신호를 처리하여 오디오 신호의 서브밴드 표현을 획득하기 위한 방법(300)의 흐름도를 보여준다. 이 방법(300)은 오디오 신호의 샘플들의 제1 블록에 기초하여 서브밴드 샘플들의 세트를 획득하기 위해, 그리고 오디오 신호의 샘플들의 제2 블록에 기초하여 서브밴드 샘플들의 대응하는 세트를 획득하기 위해, 오디오 신호의 샘플들의 적어도 2개의 부분적으로 중첩하는 블록들에 캐스케이드식 랩핑된 임계 샘플링 변환을 수행하는 동작(302)을 포함한다. 또한, 이 방법(300)은 오디오 신호의 에일리어싱 감소된 서브밴드 표현을 획득하기 위해, 서브밴드 샘플들의 2개의 대응하는 세트들의 가중 결합을 수행하는 동작(304) - 2개의 대응하는 세트들 중 하나는, 오디오 신호의 샘플들의 제1 블록에 기초하여 획득된 서브밴드 샘플들의 세트이고, 2개의 대응하는 세트들 중 하나는, 오디오 신호의 샘플들의 제2 블록에 기초하여 획득된 서브밴드 샘플들의 세트임 - 을 포함한다.
도 11은 오디오 신호의 서브밴드 표현을 처리하여 오디오 신호를 획득하기 위한 방법(400)의 흐름도를 보여준다. 이 방법(400)은 에일리어싱된 서브밴드 표현을 획득하기 위해, 오디오 신호의(부분적으로 중첩하는 샘플들의 서로 다른 블록들의) 2개의 대응하는 에일리어싱 감소된 서브밴드 표현들의 가중(및 시프트) 결합을 수행하는 동작(402)을 포함하며, 여기서 에일리어싱된 서브밴드 표현은 서브밴드 샘플들의 세트이다. 또한, 이 방법(400)은 오디오 신호의 샘플들의 블록과 연관된 샘플들의 세트를 획득하기 위해, 서브밴드 샘플들의 세트에 캐스케이드식 역 랩핑된 임계 샘플링 변환을 수행하는 동작(404)을 포함한다.
도 12는 일 실시예에 따른 오디오 인코더(150)의 개략적인 블록도를 보여준다. 오디오 인코더(150)는 앞서 설명된 것과 같은 오디오 프로세서(100), 오디오 신호의 인코딩된 에일리어싱 감소된 서브밴드 표현을 획득하기 위해 오디오 신호의 에일리어싱 감소된 서브밴드 표현을 인코딩하도록 구성된 인코더(152), 및 오디오 신호의 인코딩된 에일리어싱 감소된 서브밴드 표현으로부터 비트 스트림(156)을 형성하도록 구성된 비트스트림 형성기(154)를 포함한다.
도 13은 일 실시예에 따른 오디오 디코더(250)의 개략적인 블록도를 보여준다. 오디오 디코더(250)는 인코딩된 에일리어싱 감소된 서브밴드 표현을 획득하기 위해 비트스트림(154)을 파싱하도록 구성된 비트스트림 파서(252), 오디오 신호의 에일리어싱 감소된 서브밴드 표현을 획득하기 위해, 인코딩된 에일리어싱 감소된 서브밴드 표현을 디코딩하도록 구성된 디코더(254), 및 앞서 설명된 것과 같은 오디오 프로세서(200)를 포함한다.
도 14는 일 실시예에 따른 오디오 분석기(180)의 개략적인 블록도를 보여준다. 오디오 분석기(180)는 앞서 설명된 것과 같은 오디오 프로세서(100), 오디오 신호를 기술하는 정보를 제공하기 위해 에일리어싱 감소된 서브밴드 표현을 분석하도록 구성된 정보 추출기(information extractor)(182)를 포함한다.
실시예들은 비-균일 직교 변형 이산 코사인 변환(MDCT) 필터 뱅크들의 서브밴드들에서 시간 도메인 에일리어싱 감소(TDAR)를 제공한다.
실시예들은 널리 사용되는 MDCT 변환 파이프라인에 추가 후-처리 스테이지를 추가하는데, 스테이지 자체는 주파수 축을 따른 또 다른 랩핑 MDCT 변환만을 그리고 각각의 서브밴드 시간 축을 따른 시간 도메인 에일리어싱 감소(TDAR)를 포함하여, 추가적인 중복성을 도입하지 않고 단 하나의 MDCT 프레임 지연을 도입하면서, 임펄스 응답의 개선된 시간적 압축성을 갖는 MDCT 스펙트로그램으로부터 임의의 주파수 스케일들을 추출할 수 있게 한다.
2. 서브밴드 병합 및 시간 도메인 에일리어싱 감소를 사용하는 적응형 비-균일 시간/주파수 타일링을 갖는 지각 오디오 코딩
도 15는 본 발명의 일 실시예에 따라 도 2및 도 3에 도시된 오디오 프로세서의 제2 랩핑된 임계 샘플링 변환 스테이지의 랩핑된 임계 샘플링 변환 서브-스테이지(132_1,1, 132_1,2, 132_2,1 및 132_2,2)의 개략적인 블록도를 보여준다.
따라서, 랩핑된 임계 샘플링 변환 서브 스테이지(132_1,1, 132_1,2, 132_2,1 및 132_2,2) 중 적어도 하나는 대응하는 빈들의 세트(128_1,1, 128_1,2, 128_2,1 및 128_2,2 )에 대해 동일한 프레임 길이(예: 병합 인자)를 갖는 랩핑된 임계 샘플링 변환을 수행하도록 구성될 수 있다.
실시예들에서, 제1 랩핑된 임계 변환 서브-스테이지(132_1,1)는 샘플들의 제1 블록(108_1)에 대응하는 세그먼트된 빈들의 세트(124_1)에 기초하여 획득된 빈들의 제1 세트(128_1,1)의 동일한 길이의 N1,1서브-세트들에 대해 N1,1랩핑된 임계 샘플링 변환을 수행하도록 구성될 수 있고, 여기서 N1,1랩핑된 임계 샘플 변환들은 동일한 프레임 길이(예: 병합 인자)를 포함하고, 여기서 N1,1는 2보다 크거나 같은 자연수이다.
예를 들어, 빈들의 제1 세트(128_1,1)가 128 개의 빈들(또는 계수들)을 포함한다고 가정하면, 제1 랩핑된 임계 변환 서브-스테이지(132_1,1)는, 예를 들어, N1,1=2인 각각 64 개의 빈들의 서브-세트들에(즉, 128 개의 빈을 N1,1로 나눈 값), N1,1= 2 인 랩핑된 임계 샘플링 변환을 수행하도록 구성될 수 있고, 여기서 N1,1=2인 랩핑된 임계 샘플링 변환들은, 예를 들어, 64개의 동일한 프레임 길이(예: 병합 인자)를 포함한다. 자연스럽게, 제1 랩핑된 임계 변환 서브-스테이지(132_1,1)는 또한 예를 들어, N1,1=4(또는 8)인 각각 32 (또는 16)개의 빈들의 서브-세트들에(즉, 128 개의 빈을 N1,1로 나눈 값), N1,1=4(또는 8)인 랩핑된 임계 샘플링 변환을 수행하도록 구성될 수 있고, 여기서 N1,1=4(또는 8)인 랩핑된 임계 샘플링 변환들은, 예를 들어, 32(또는 16)개의 동일한 프레임 길이(예: 병합 인자)를 포함한다.
실시예들에서, 제2 랩핑된 임계 변환 서브-스테이지(132_1,2)는 샘플들의 제1 블록(108_1)에 대응하는 세그먼트된 빈들의 세트(124_1)에 기초하여 획득된 빈들의 제2 세트(128_1,2)의 동일한 길이의 N1,2 서브-세트들에 대해 N1,2 랩핑된 임계 샘플링 변환을 수행하도록 구성될 수 있고, 여기서 N1,2 랩핑된 임계 샘플 변환들은 동일한 프레임 길이(예: 병합 인자)를 포함하고, 여기서 N1,2는 2보다 크거나 같은 자연수이다.
예를 들어, 빈들의 제2 세트(128_1,2)가 128 개의 빈들(또는 계수들)을 포함한다고 가정하면, 제2 랩핑된 임계 변환 서브-스테이지(132_1,2)는, 예를 들어, N1,2=2인 각각 64 개의 빈들의 서브-세트들에(즉, 128 개의 빈을 N1,2로 나눈 값), N1,2= 2 인 랩핑된 임계 샘플링 변환을 수행하도록 구성될 수 있고, 여기서 N1,2=2인 랩핑된 임계 샘플링 변환들은, 예를 들어, 64개의 동일한 프레임 길이(예: 병합 인자)를 포함한다. 자연스럽게, 제2 랩핑된 임계 변환 서브-스테이지(132_1,2)는 또한 예를 들어, N1,2=4(또는 8)인 각각 32 (또는 16)개의 빈들의 서브-세트들에(즉, 128 개의 빈을 N1,2로 나눈 값), N1,2=4(또는 8)인 랩핑된 임계 샘플링 변환을 수행하도록 구성될 수 있고, 여기서 N1,2=4(또는 8)인 랩핑된 임계 샘플링 변환들은, 예를 들어, 32(또는 16)개의 동일한 프레임 길이(예: 병합 인자)를 포함한다.
실시예들에서, 제3 랩핑된 임계 변환 서브-스테이지(132_2,1)는 샘플들의 제2 블록(108_2)에 대응하는 세그먼트된 빈들의 세트(124_2)에 기초하여 획득된 빈들의 제3 세트(128_2,1)의 동일한 길이의 N2,1 서브-세트들에 대해 N2,1 랩핑된 임계 샘플링 변환을 수행하도록 구성될 수 있고, 여기서 N2,1 랩핑된 임계 샘플 변환들은 동일한 프레임 길이(예: 병합 인자)를 포함하고, 여기서 N2,1는 2보다 크거나 같은 자연수이다.
예를 들어, 빈들의 제3 세트(128_2,1)가 128 개의 빈들(또는 계수들)을 포함한다고 가정하면, 제3 랩핑된 임계 변환 서브-스테이지(132_2,1)는, 예를 들어, N2,1=2인 각각 64 개의 빈들의 서브-세트들에(즉, 128 개의 빈을 N2,1로 나눈 값), N2,1= 2 인 랩핑된 임계 샘플링 변환을 수행하도록 구성될 수 있고, 여기서 N2,1=2인 랩핑된 임계 샘플링 변환들은, 예를 들어, 64개의 동일한 프레임 길이(예: 병합 인자)를 포함한다. 자연스럽게, 제3 랩핑된 임계 변환 서브-스테이지(132_2,1)는 또한 예를 들어, N2,1=4(또는 8)인 각각 32 (또는 16)개의 빈들의 서브-세트들에(즉, 128 개의 빈을 N2,1로 나눈 값), N2,1=4(또는 8)인 랩핑된 임계 샘플링 변환을 수행하도록 구성될 수 있고, 여기서 N2,1=4(또는 8)인 랩핑된 임계 샘플링 변환들은, 예를 들어, 32(또는 16)개의 동일한 프레임 길이(예: 병합 인자)를 포함한다.
실시예들에서, 제4 랩핑된 임계 변환 서브-스테이지(132_2,2)는 샘플들의 제2 블록(108_2)에 대응하는 세그먼트된 빈들의 세트(124_2)에 기초하여 획득된 빈들의 제4 세트(128_2,2)의 동일한 길이의 N2,2 서브-세트들에 대해 N2,2 랩핑된 임계 샘플링 변환을 수행하도록 구성될 수 있고, 여기서 N2,2 랩핑된 임계 샘플 변환들은 동일한 프레임 길이(예: 병합 인자)를 포함하고, 여기서 N2,2는 2보다 크거나 같은 자연수이다.
예를 들어, 빈들의 제4 세트(128_2,2)가 128 개의 빈들(또는 계수들)을 포함한다고 가정하면, 제4 랩핑된 임계 변환 서브-스테이지(132_2,2)는, 예를 들어, N2,2=2인 각각 64 개의 빈들의 서브-세트들에(즉, 128 개의 빈을 N2,2로 나눈 값), N2,2= 2 인 랩핑된 임계 샘플링 변환을 수행하도록 구성될 수 있고, 여기서 N2,2=2인 랩핑된 임계 샘플링 변환들은, 예를 들어, 64개의 동일한 프레임 길이(예: 병합 인자)를 포함한다. 자연스럽게, 제4 랩핑된 임계 변환 서브-스테이지(132_2,2)는 또한 예를 들어, N2,2=4(또는 8)인 각각 32 (또는 16)개의 빈들의 서브-세트들에(즉, 128 개의 빈을 N2,2로 나눈 값), N2,2=4(또는 8)인 랩핑된 임계 샘플링 변환을 수행하도록 구성될 수 있고, 여기서 N2,2=4(또는 8)인 랩핑된 임계 샘플링 변환들은, 예를 들어, 32(또는 16)개의 동일한 프레임 길이(예: 병합 인자)를 포함한다.
실시예들에서, 빈들의 제1 세트(128_1,1) 및 빈들의 제2 세트(128_1,2)는 동일하거나 상이한 길이(즉, 빈들의 수)를 포함할 수 있다.
실시예뜰에서, N1,1 및 N1,2는 동일하거나 상이한 자연수일 수 있다.
실시예들에서, 빈들의 제3 세트(128_2,1) 및 빈들의 제4 세트(128_2,2)는 동일하거나 상이한 길이(즉, 빈들의 수)를 포함할 수 있다.
실시예들에서, N2,1 및 N2,2는 동일하거나 상이한 자연수일 수 있다.
실시예들에서, TDAR이 허가(enable)되면, 빈들의 제1 세트(128_1,1) 및 빈들의 제3 세트(128_2,1)는 동일한 길이(즉, 동일한 수의 빈들)를 포함할 수 있다. 또한, N1,1 및 N1,2는 동일한 자연수일 수 있다. 유사하게, 빈들의 제2 세트(128_1,2) 및 빈들의 제4 세트(128_2,2)는 동일한 길이(즉, 동일한 수의 빈들)를 포함할 수 있다. 또한, N2,1 및 N2,2는 동일한 자연수일 수 있다.
실시예들에서, TDAR이 불허(disable)되면, 빈들의 제1 세트(128_1,1) 및 빈들의 제3 세트(128_2,1)는 상이한 길이(즉, 상이한 수의 빈들)를 포함할 수 있고. 또한 N1,1 및 N1,2는 상이한 자연수일 수 있다. 유사하게, 빈들의 제2 세트(128_1,2) 및 빈들의 제4 세트(128_2,2)는 상이한 길이(즉, 상이한 수의 빈들)를 포함할 수 있다. 또한, N2,1 및 N2,2는 상이한 자연수일 수 있다.
도 16은 본 발명의 일 실시예에 따라 도 5및 도 6에 도시된 오디오 프로세서의 제1 랩핑된 임계 샘플링 변환 스테이지의 랩핑된 임계 샘플링 변환 서브-스테이지의 개략적인 블록도를 보여준다.
따라서, 적어도 하나의 역 랩핑된 임계 샘플링 변환 서브-스테이지(222_1 및 222_2)들은 대응하는 빈들의 세트(128_1,1 및 128_1,2)를 획득하기 위해 서브밴드 샘플들의 대응하는 세트(110_1,1 및 110_1,)에 대해 동일한 프레임 길이(예: 병합 인자)를 갖는 역 랩핑된 임계 샘플링 변환을 수행하도록 구성될 수 있다.
실시예들에서, 제1 역 랩핑된 임계 변환 서브-스테이지(222_1)는 서브밴드 샘플의 제1 세트(110_1)의 동일한 길이의 N1,1 서브-세트들에 대해 N1,1 역 랩핑된 임계 샘플링 변환을 수행하도록 구성될 수 있고, 여기서 N1,1랩핑된 임계 샘플 변환들은 동일한 프레임 길이(예: 병합 인자)를 포함하고, 여기서 N1,1는 2보다 크거나 같은 자연수이다.
실시예들에서, 제2 역 랩핑된 임계 변환 서브-스테이지(222_2)는, 서브밴드 샘플의 제2 세트(110_1) 중 동일한 길이의 N1,2 서브-세트들에 대해 N1,2 역 랩핑된 임계 샘플링 변환을 수행하도록 구성될 수 있다. 여기서 N1,2랩핑된 임계 샘플 변환들은 동일한 프레임 길이(예: 병합 인자(mergefactor))를 포함하고, 여기서 N1,2는 2보다 크거나 같은 자연수이다.
이어서, 비-균일 필터 뱅크의 실시예들이 설명된다. 나아가, 오디오 코더 시나리오에서 이러한 비-균일 필터 뱅크의 지각 품질이 평가되며, 그리고 어드밴스드 오디오 코딩(advanced audio coding, AAC)과 같이 현재 코더들에게 사용되는 윈도우 스위칭 가능한 균일 필터 뱅크의 성능과 비교될 것이다[2].
2.1 코딩 시스템(coding system)
평가 시스템(evaluation system)은 분석 필터 뱅크(analysis filterbank), 사이코어쿠스틱 모델(psychoacoustic model)[4], 양자화기, 지각 엔트로피 추정(perceptual entropy estimation)[5] 및 합성 필터 뱅크(synthesis filterbank)와 함께 간단한 지각 코더(perceptual coder)를 모델링한다. 두 경쟁적인 시스템 내에서, 필터 뱅크는, 윈도우-스위칭[6](WS) 가능한 균일 MDCT(uniform MDCT with window-switching[6] (WS))이거나 서브밴드-병합 및 TDAR[1] (SM) 가능한 비균일 MDCT(nonuniform MDCT with subband-merging and TDAR[1] (SM))이었다.
관련된 필터 뱅크 파라미터(균일 MDCT(uniform MDCT)에 대한 윈도우-스위칭 경계들(window-switching boundaries) 또는 비-균일 MDCT(non-uniform MDCT)에 대한 병합 인자들 및 TDAR 경계들(mergefactors and TDAR boundaries))는 나머지 전체 엔트로피를 최소화하기 위해 적응적으로 및 최적으로 선택되었다.
추가적인 후-처리 단계 또는 코딩-툴들은 사용될 수 없다.
2.1.1 필터 뱅크 파라미터터들(Filterbank parameters)
윈도우 스위칭 필터 뱅크는 일반적인 AAC 프레임 길이들로 MDCT를 사용할 수 있다: 1024 개 샘플들의 긴 프레임 또는 128 개 샘플들의 8 개의 짧은 프레임 및 이들 사이의 적절한 전환 윈도우들. 코사인 윈도우는 사용될 수 있다. 서브밴드 병합 필터 뱅크(120)는 초기 MDCT의 프레임 길이(예: 1024)를 사용할 수 있고, 그런 다음 스펙트럼을 각각 128 개의 계수의 8 개의 병합 인자 대역들(예: 128_1,1, 128_1,2 등)로 나눌 수 있다. 그런 다음 각 병합 인자 대역은 병합 인자라고 불리는 프레임 길이 N∈ {1,2,4,8,16,32}에 대한 MDCT와 병합될 수 있다. 시스템 설계에 따라, 분석 도중에 병합 인자의 최적화된 선택은 아직 알려지지 않았으며 각 병합인자-대역은 인접한 병합 인자를 알지 못한다. 따라서 병합 인자- 대역 가장자리의 윈도우들은 항상 비대칭(symmetric)이며, 그리고 가능한 가장 가파른(steep) 인접 병합 요소를 수용(accomodate)할 수 있을만큼 가파르도록 선택될 수 있다(도 17 참조).
구체적으로, 도 17은 빈들의 세트들(또는 세그먼트들)(128_1,1, 128_1,2)을 획득하기 위해 빈들의 세트(124_1)를 세그먼트하는 데 사용되는 다이어그램 윈도우 함수들을 보여준다. 다시 말해서, 도 16은 4 개의 병합인자-대역들에서 윈도우 선택의 예를 보여준다. 가파른 병합인자-대역 가장자리 윈도우들은 검은 색으로 강조 표시된다.
이 설계 선택은 필터 뱅크의 전반적인 유연성(flexibility)을 제한하며 그리고 이러한 비대칭 윈도우들 대해 이상적이지 않은(less-than-ideal) 시간적 리플(temporal ripple)들을 도입하지만[1], 그러나 각 병합인자-대역에 대한 병합 인자를 효율적이고 독립적으로 최적화하는 방법을 제공한다.
코사인 윈도우는 변환 윈도우(transform window)로 사용될 수 있으며, 그리고 임의로 선택한
Figure pct00081
= 5.1의 Kaiser-Bessel- derived 윈도우(Kaiser-Bessel-derived window)는 병합 윈도우(merge window)로 선택될 수 있다.
마지막으로, 양자화 스텝사이즈(quantization stepsize)들은 상수 인자 q에 의해 지각 모델로부터 추정된 마스킹 임계 값(masking threshold)을 곱하여(multiplicatively) 낮추거나 높이는 실제 값 왜곡 파라미터(real valued distortion parameter) q를 이용하여 컨트롤될 수 있다. 양자화 이후에, 지각 엔트로피 추정(perceptual entropy estimator)기는 이론적인 비트 레이트 r을 계산하는데, 이는 자연히 q에 종속된다. q = 1.0의 경우, 사이코어쿠스틱 모델은 가청 아티팩트 없이 투명한 코딩(transparent coding)을 예측하고, 더 큰 값인 q> 1.0의 경우, 양자화 스텝사이즈가 증가하고 비트 레이트 r이 감소하며, 그리고 프로세스의 인식 품질이(perceived quality) 저하(deteriorate)될 것으로 예상된다.
2.1.2 파라미터 최적화
최적의 파라미터 튜닝을 수행하기 위해 가능한 모든 파라미터 조합을 사용하여 각 신호를 변환 및 양자화하였고, 각 파라미터에 대한 각 프레임의 지각 엔트로피가 추정되었다. 모든 출력 계수(output coefficient)들 중에서, 전체 지각 엔트로피를 최소화하는 파라미터의 최적의 조합들이 계산되었고, 그 다음 이 파라미터들을 이용하여 출력 신호가 합성되었다.
최적의 필터 뱅크 파라미터를 찾기 위해 각 프레임의 각 병합 인자 대역 (128 개 계수의 병합-타일(merge-tile))이 양자화되고 엔트로피가 계산되었다. 그런 다음 하나의 병합인자-대역의 모든 병합-타일의 모든 파라미터의 그래프는 격자를 형성하고, 여기서 각 전환 확률(transition probability)의 가중치는 다음 병합 타일의 엔트로피와 동일하게 설정된다[7].
앞에서 언급한 바와 같이, 모든 파라미터의 조합들 및 전환들이 합성 도중에 완벽한 재구성을 허용하는 것은 아니다. 예를 들어, 긴 프레임에서 짧은 프레임으로 스위칭할 때, 비대칭 시작 윈도우(asymmetric start window)는 그 사이에 사용되어야 한다. 비-균일 필터 뱅크에서 TDAR를 사용하는 경우에도 유사한 규칙이 적용된다[1]. 이러한 부적법한 파라미터 전환을 방지하기 위해, 격자의 전환 확률에 모든 적법(legal) 및 부적법(illegal) 전환을 인코딩한 마스크가 곱해졌다(즉, 적법 전환에 대해 1, 부적법 전환에 대해 1).
이후에, 격자를 통한 최소-가중치 경로(minimum-weight path)는 동적 프로그래밍(dynamic programming)을 사용하여 계산되었고, 완벽한 재구성을 보장하는 각 개별 병합인자 대역에서 전반적으로 최적의 파라미터 경로가 초래되었다.
이 접근 방식은 다중 인코딩 패스(multiple encoding pass), 매우 큰 미리보기(lookahead)를 요구하고, 따라서 실제 온-라인 코더에는 적합하지 않지만, 그러나 두 방법 모두 항상 가능한 최대 효율로 수행되도록 보장한다. 온라인 인코딩의 경우 지연 제약 조건(latency constraints) 하에서 이러한 격자 다이어그램을 디코딩하는 방법들이 존재한다[8].
두 시스템 모두 필요한 부가 정보의 단순하고 압축되지 않은 전송을 가정했다. 윈도우 스위칭의 경우, 길고 짧은 블록들을 시그널하기 위해 각 프레임에 1 비트가 사용되었다
Figure pct00082
. 서브 밴드 병합의 경우 병합 인자 및 TDAR 플래그를 시그널하기 위해 프레임 당 29 비트가 사용되었다(각 6개의 병합 인자들이 있는 8개의 병합인자-대역들 및 2개의 TDAR 값,
Figure pct00083
). 스케일 인자들 또는 마스킹 임계 값들은 디코더 측에서 알려졌다.
2.2 일반적인 관찰
단순히 인코딩/디코딩 프로세스를 실행하면, 다음 속성을 관찰할 수 있다.
15kHz ~ 24kHz 범위의 가장 높은 2 ~ 3 개의 병합인자-대역에서, 코더는 거의 항상 병합 인자 1을 선택하여 병합을 비활성화하였다. 중간 부분(midsection), 병합인자-대역들 2-5 또는 3kHz-15kHz 사이의 주파수 범위에서 코더는 주로 병합 인자 1 또는 32를 선택하였다. 0kHz ~ 3kHz 범위의 더 낮은 병합인자-대역에서, 코더는 대부분 병합 인자 1 및 2를 선택하였다. 병합 인자 4, 8, 및 16은 거의 선택되지 않았다. 도 18을 참조하라.
구체적으로, 도 18은 코더에 의해 선택된 병합 인자(MF) 및 시간 도메인 에일리어싱 감소(TDAR)의 분포를 도표들로 보여준다.
이 관찰은 청각 시스템에 대한 기본 가정들과 일치한다: 조용할 때(in quiet) 매우 높은 임계 값을 갖는 고주파수로 인해, 거의 모든 것이 사실상 0으로 양자화되어, 병합 인자의 선택이 무의미해(irrelevant)진다. 중간-범위 주파수에서 청각 시스템은 높은 시간 해상도를 가지며, 더 낮은 주파수에서는 인간의 귀가 더 높은 주파수 해상도를 갖는다.
둘째로, 선택된 왜곡 파라미터(distortion parameter) q에 대해, 서브밴드 병합 필터 뱅크의 대응하는 비트 레이트가 윈도우 스위칭 필터 뱅크의 비트 레이트보다 낮다는 것을 알 수 있다. 도 19를 참조하면, 평균적으로 비-균일 시스템은 신호들을 코딩하는 데 샘플 당 5-13 % 더 적은 비트가 필요했다.
구체적으로, 도 19는 39 개의 테스트 항목들에 대하여 상이한 왜곡 파라미터 q에 대한 두 시스템의 평균 비트 레이트를 도표들로 보여준다;
2.3 듣기 테스트 설정
도 20의 표 1을 참조하면, 상이한 양자화기 스텝사이즈 계수에 대한 세 가지 상이한 품질 설정 및 그에 따른 평균 비트 레이트가 고려되었다: 투명(transparent)(HQ), 약한 손상(slightly impaired)(MQ) 및 보통 손상(moderately impaired)(LQ).
구체적으로 도 20의 표 1은 품질 설정 및 그들의 왜곡 파라미터 q 및 결과 평균 비트 레이트를 나열한다.
지각 모델(perceptual model)의 설계에 따라, HQ의 경우 가청 아티팩트들이 예상되지 않았다[4]. 그리고 실제로, 소-규모 ABC/HR(ITU-R BS.1116-3)[9] 청취 테스트 도중에, 전문 청취자들은 어느 하나의 방법(either method)과 기준 신호 간의 중요한 차이를 식별(discern)할 수 없었다. 이러한 청취 테스트를 실행(conduct)하더라도 의미 있는 결과가 나오지 않을 것이므로, 나머지 두 가지 품질 설정 MQ 및 LQ에 대해서는 이 테스트를 스킵(skip)하였다.
MQ 및 LQ의 경우, 출력 비트 레이트가 서브밴드 병합 필터 뱅크의 비트 레이트와 일치하도록 윈도우 스위칭 필터 뱅크 시스템의 왜곡 파라미터 q가 선택되었고, 이는 서브밴드 병합 필터 뱅크에 대한 왜곡 파라미터 q가 윈도우 스위칭 필터 뱅크에 대한 것보다 낮다는 것을 의미한다. 따라서 비-균일 필터 뱅크의 경우 윈도우 스위칭 필터 뱅크와 동일한 비트 레이트를 허용하면서 더 높은 인지 품질이 달성될 수 있다. 이를 테스트하기 위해, 숨겨진 참조(hidden reference) 및 앵커 방법(anchor method)(MUSHRA, ITU-R BS.1534-3)[10]과 함께 다중-자극 테스트(multi-stimulus test)를 사용하는 청취 테스트가 실행되었다.
2.4 테스트 신호 코퍼스(test signal corpus)
이 평가를 위한 테스트 신호들은 오디오 코더 개발 및 튜닝에 일반적으로 사용되는 테스트 세트로부터 가져왔다. 이것은 남성 및 여성의 음성, 및 조화로운 소리 및 타악기 소리를 모두 포함(contain)하는 여러 음악 녹음들을 포함(contain)했다. 모든 조건은 ITU-R BS.1770-4 [11]를 사용하여 음량(loudness) 표준화되었다. 도 21의 표 2를 참조해라. 구체적으로, 도 21의 표 2는 상이한 테스트 항목들을 나열했다.
2.5 듣기 테스트 결과
총 N = 16의 전문가 청취자들이 테스트에 참여했다.
첫째로, 정규성에 대한 두 방법 간의 MUSHRA 스코어의 쌍별 차이들을 테스트하기 위해 Shapiro-Wilk 테스트가 사용되었다. 도 22의 표 3 및 도 23의 도 4를 참조하면, LQ와 MQ의 경우, 차이는 상당히 비-정규적(non-normal)이었다.
도 22의 표 3은 약한 손상(MQ) 품질 설정 및 중간 손상(LQ) 품질 설정 시의 윈도우 스위칭 필터 뱅크(WS)와 서브밴드 병합 필터 뱅크(SM) 사이의 쌍별 MUSHRA 스코어 차이에 대한 Shapiro-Wilk 테스트의 결과들을 나열한다. W는 W- 통계량(W-statistic)을 나타내고, p는 p- 값을 나타낸다.
따라서, 모든 조건에서 파라미터의 쌍 t-테스트(parametric paired t-test) 대신 온-파라미터 Wilcoxon 부호-순위 테스트(on-parametric Wilcoxon signed-rank test)가 사용되었다. 모든 테스트들의 요약은 도 24의 표 4에서 확인될 수 있다.
구체적으로, 도 24의 표 4는 약한 손상(MQ) 품질 설정 및 중간 손상(LQ) 품질 설정 시 윈도우 스위칭 필터 뱅크(WS)와 서브밴드 병합 필터 뱅크(SM)를 비교한 MUSHRA 스코어의 중간, 표준 편차(SD), 및 Wilcoxon 부호-순위 테스트 결과들을 나열한다. W는 sW-통계량(sW-statistic)을 나타내고, p는 p- 값을 나타낸다.
MQ에서 두 시스템의 지각 품질을 비교하기 위해 Wilcoxon 부호-순위 테스트가 실행되었다. p = .000인 윈도우 스위칭 필터 뱅크 및 서브밴드 병합 필터 뱅크에 대한 MUSHRA 스코어에는 상당한 차이가 있었다.
둘째로, LQ 품질 설정에서 두 시스템의 지각 품질을 비교하기 위해 Wilcoxon 부호-순위 테스트가 실행되었다. p = .000인 윈도우 스위칭 필터 뱅크 및 서브밴드 병합 필터 뱅크에 대한 MUSHRA 스코어에는 상당한 차이가 있었다.
도 25는 약한 손상(slightly impaired)(MQ) 품질 설정(quality settings) 및 중간 손상(moderately impaired)(LQ) 품질 설정 시, 개별 항목 별 윈도우 스위칭 필터 뱅크(window switching filterbank) 및 서브밴드 병합 필터 뱅크(subband merging filterbank)에 대한 MUSHRA 스코어 차이의 중간(mean) 및 95 % 신뢰 구간(confidence intervals)을 도표들로 도시한다. 양의 값들은 윈도우 스위칭보다 서브밴드 병합을 선호한다.
2.6 추가 실시예들
실시예들은 간단한 오디오 코더에서 MDCT 분석/합성 및 TDAR 기반의 비-균일 직교 필터 뱅크를 사용하는 방법을 제공한다. 앞에서, 위의 코딩 효율성은 균일 윈도우 스위칭 MDCT 필터 뱅크와 비교되었다. 평균적으로 비-균일한 경우 테스트 신호들을 코딩하는 데 샘플 당 5 ~ 13 % 더 적은 비트가 필요했다. 이 추가적인 코딩 효율성은 동일한 출력 비트 레이트에서 코더의 인지 품질을 향상시키기 위해 사용될 수 있다.
위에서 설명된 테스트에서, MUSHRA 청취 테스트 및 후속 통계 분석(subsequent statistical analysis)을 사용하여 6-7 MUSHRA 포인트의 향상된 지각 품질이 확인되었다. 지각 품질의 차이는 통계적으로 유의미한 것으로 밝혀졌다.
도 26은 본 발명의 일 실시예에 따라, 오디오 신호를 처리하여 오디오 신호의 서브 밴드 표현을 획득하기 위한 방법(500)의 흐름도를 보여준다. 방법(500)은 오디오 신호의 샘플들의 제1 블록에 기초하여 서브밴드 샘플들의 세트를 획득하고 오디오 신호의 샘플들의 제2 블록에 기초하여 서브밴드 샘플들의 대응하는 세트를 획득하기 위해, 오디오 신호의 샘플들의 적어도 2개의 부분적으로 중첩하는 블록들(partially overlapping blocks)에 대해 캐스케이드식 랩핑된 임계 샘플링 변환을 수행하는 동작(502)을 포함한다. 방법(500)은 오디오 신호의 에일리어싱 감소된 서브밴드 표현을 획득하기 위해, 서브밴드 샘플들의 2개의 대응하는 세트들의 가중 결합을 수행하는 동작(504) - 2개의 대응하는 세트들 중 하나는, 오디오 신호의 샘플들의 제1 블록에 기초하여 획득된 서브밴드 샘플들의 세트이고, 2개의 대응하는 세트들 중 하나는, 오디오 신호의 샘플들의 제2 블록에 기초하여 획득된 서브밴드 샘플들의 세트임 - 을 더 포함한다. 여기서, 캐스케이드식 랩핑된 임계 샘플링 변환을 수행하는 동작은 적어도 2개의 윈도우 함수들을 사용하여 샘플들의 제1 블록에 기초하여 획득된 빈들의 세트를 세그먼트하는 동작, 및 샘플들의 제1 블록에 대응하는 세그먼트된 빈들의 세트에 기초하여 적어도 2개의 세그먼트된 빈들의 세트들을 획득하는 동작을 포함하고, 여기서 캐스케이드식 랩핑된 임계 샘플링 변환을 수행하는 동작은 적어도 2개의 윈도우 함수들을 사용하여 샘플들의 제2 블록에 기초하여 획득된 빈들의 세트를 세그먼트하는 동작, 및 샘플들의 제2 블록에 대응하는 세그먼트된 빈들의 세트에 기초하여 적어도 2개의 세그먼트된 빈들의 세트들을 획득하는 동작을 포함하고, 그리고 여기서 빈들의 세트들은 캐스케이드식 랩핑된 임계 샘플링 변환의 제2 랩핑된 임계 샘플링 변환 스테이지를 사용하여 처리되고, 여기서 제2 랩핑된 임계 샘플링 변환은 적어도 하나의 빈들의 세트가 동일한 프레임 길이(예: 병합 인자)를 갖는 랩핑된 임계 샘플링 변환을 수행하는 동작을 포함한다.
도 27은 일 실시예에 따라, 오디오 신호의 서브밴드 표현을 처리하여 오디오 신호를 획득하기 위한 방법(600)의 흐름도를 보여준다. 방법(600)은 에일리어싱된 서브밴드 표현을 획득하기 위해, 오디오 신호의 2개의 대응하는 에일리어싱 감소된 서브밴드 표현들의 가중 결합을 수행하는 동작(602) - 여기서 에일리어싱된 서브밴드 표현은, 서브밴드 샘플들의 세트임 - 을 포함한다. 게다가, 방법(600)은 오디오 신호의 샘플들의 블록과 연관된 샘플들의 세트를 획득하기 위해, 서브밴드 샘플들의 세트에 캐스케이드식 역 랩핑된 임계 샘플링 변환을 수행하는 동작(604)을 포함하고, 여기서 캐스케이드식 역 랩핑된 임계 샘플링 변환을 수행하는 동작은, 오디오 신호의 주어진 서브밴드와 연관된 빈들의 세트를 획득하기 위해, 서브밴드 샘플들의 세트에 제1 역 랩핑된 임계 샘플링 변환을 수행하는 동작을 포함하고, 여기서 제1 역 랩핑된 임계 샘플링 변환을 수행하는 동작은, 서브밴드 샘플들의 세트가 동일한 프레임 길이를 갖는 역 랩핑된 임계 샘플링 변환을 수행하는 동작을 포함한다.
이어서, 추가 실시예들이 설명된다. 따라서, 이하의 실예들은 이전의 실시 예과 결합될 수 있다.
실시예 1: 오디오 신호(102)를 처리하여 오디오 신호(102)의 서브밴드 표현을 획득하기 위한 오디오 프로세서(100)에 있어서, 오디오 신호(102)의 샘플들의 제1 블록(108_1)에 기초하여 서브밴드 샘플들의 세트(110_1,1)를 획득하고, 오디오 신호(102)의 샘플들의 제2 블록(108_2)에 기초하여 서브밴드 샘플들의 대응하는 세트(110_2,1)를 획득하기 위해, 오디오 신호(102)의 샘플들의 적어도 2개의 부분적으로 중첩하는 블록들(108_1;108_2)에 캐스케이드식 랩핑된 임계 샘플링 변환을 수행하도록 구성된, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104); 및 오디오 신호(102)의 에일리어싱 감소된 서브밴드 표현(112_1)을 획득하기 위해, 오디오 신호(102)의 샘플들의 제1 블록(108_1)에 기초하여 획득된 서브밴드 샘플들의 세트 및 오디오 신호의 샘플들의 제2 블록(108_2)에 기초하여 획득된 서브밴드 샘플들의 세트인 서브밴드 샘플들의 2개의 대응하는 세트들(110_1,1;110_1,2)의 가중 결합을 수행하도록 구성된 시간 도메인 에일리어싱 감소 스테이지(106)를 포함하는, 오디오 프로세서(100).
실시예 2: 실시예 1에 따른 오디오 프로세서(100)에 있어서, 여기서 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104)는, 오디오 신호(102)의 샘플들의 적어도 2개의 부분적으로 중첩하는 블록들(108_1;108_2) 중 샘플들의 제1 블록(108_1)에 대한 빈들의 제1 세트(124_1) 및 샘플들의 제2 블록(108_2)에 대한 빈들의 제2 세트(124_2)를 획득하기 위해, 샘플들의 제1 블록(108_1) 및 샘플들의 제2 블록(108_2)에 랩핑된 임계 샘플링 변환들을 수행하도록 구성된 제1 랩핑된 임계 샘플링 변환 스테이지(120)를 포함하는, 오디오 프로세서(100).
실시예 3: 실시예 2에 따른 오디오 프로세서(100)에 있어서, 여기서 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104)는, 빈들의 제1 세트에 대한 서브밴드 샘플들의 세트(110_1,1) 및 빈들의 제2 세트에 대한 서브밴드 샘플들의 세트(110_2,1)를 획득하기 위해, 빈들의 제1 세트(124_1)의 세그먼트(128_1,1)에 랩핑된 임계 샘플링 변환을 수행하고, 그리고 빈들의 제2 세트(124_2)의 세그먼트(128_2,1)에 랩핑된 임계 샘플링 변환을 수행하도록 구성된 제2 랩핑된 임계 샘플링 변환 스테이지(126)를 더 포함하고, 각각의 세그먼트는 오디오 신호(102)의 서브밴드와 연관되는, 오디오 프로세서(100).
실시예 4: 실시예 3에 따른 오디오 프로세서(100)에 있어서, 여기서 서브밴드 샘플들의 제1 세트(110_1,1)는 빈들의 제1 세트(124_1)의 제1 세그먼트(128_1,1)에 기초한 제1 랩핑된 임계 샘플링 변환(132_1,1)의 결과이고, 여기서 서브밴드 샘플들의 제2 세트(110_1,2)는 빈들의 제1 세트(124_1)의 제2 세그먼트(128_1,2)에 기초한 제2 랩핑된 임계 샘플링 변환(132_1,2)의 결과이며, 여기서 서브밴드 샘플들의 제3 세트(110_2,1)는 빈들의 제2 세트(128_2,1)의 제1 세그먼트(128_2,1)에 기초한 제3 랩핑된 임계 샘플링 변환(132_2,1)의 결과이고, 여기서 서브밴드 샘플들의 제4 세트(110_2,2)는 빈들의 제2 세트(128_2,1)의 제2 세그먼트(128_2,2)에 기초한 제4 랩핑된 임계 샘플링 변환(132_2,2)의 결과이며; 그리고 여기서 시간 도메인 에일리어싱 감소 스테이지(106)는 오디오 신호의 제1 에일리어싱 감소된 서브밴드 표현(112_1)을 획득하기 위해 서브밴드 샘플들의 제1 세트(110_1,1)와 서브밴드 샘플들의 제3 세트(110_2,1)의 가중 결합을 수행하도록 구성되고, 여기서 시간 도메인 에일리어싱 감소 스테이지(106)는 오디오 신호의 제2 에일리어싱 감소된 서브밴드 표현(112_2)을 획득하기 위해 서브밴드 샘플들의 제2 세트(110_1,2)와 서브밴드 샘플들의 제4 세트(110_2,2)의 가중 결합을 수행하도록 구성되는, 오디오 프로세서(100).
실시예 5: 실시예 1내지 4 중 어느 하나에 따른 오디오 프로세서(100)에 있어서, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104)는 적어도 2개의 윈도우 함수들을 사용하여 샘플들의 제1 블록(108_1)에 기초하여 획득된 빈들의 세트(124_1)를 세그먼트하고, 그리고 샘플들의 제1 블록(108_1)에 대응하는 세그먼트된 빈들의 세트에 기초하여 적어도 2개의 세그먼트된 세트들(128_1,1;128_1,2)의 서브밴드 샘플들을 획득하도록 구성되고; 여기서 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104)는 적어도 2개의 윈도우 함수들을 사용하여 샘플들의 제2 블록(108_2)에 기초하여 획득된 빈들의 세트(124_2)를 세그먼트하고, 그리고 샘플들의 제2 블록(108_2)에 대응하는 세그먼트된 빈들의 세트에 기초하여 적어도 2개의 세그먼트된 세트들(128_2,1;128_2,2)의 서브밴드 샘플들을 획득하도록 구성되고; 그리고 여기서 적어도 2개의 윈도우 함수들은 상이한 윈도우 폭을 포함하는, 오디오 프로세서(100).
실시예 6: 실시예 1 내지 5 중 어느 하나에 따른 오디오 프로세서(100)에 있어서, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104)는 적어도 2개의 윈도우 함수들을 사용하여 샘플들의 제1 블록(108_1)에 기초하여 획득된 빈들의 세트(124_1)를 세그먼트하고, 그리고 샘플들의 제1 블록(108_1)에 대응하는 세그먼트된 빈들의 세트에 기초하여 적어도 2개의 세그먼트된 세트들(128_1,1;128_1,2)의 서브밴드 샘플들을 획득하도록 구성되고; 여기서 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104)는 적어도 2개의 윈도우 함수들을 사용하여 샘플들의 제2 블록(108_2)에 기초하여 획득된 빈들의 세트(124_2)를 세그먼트하고, 그리고 샘플들의 제2 블록(108_2)에 대응하는 세그먼트된 빈들의 세트에 기초하여 적어도 2개의 세그먼트된 세트들(128_2,1;128_2,2)의 서브밴드 샘플들을 획득하도록 구성되고; 그리고 여기서 인접한 세트들의 서브밴드 샘플들에 대응하는 윈도우 함수들의 기울기는 대칭인, 오디오 프로세서(100)
실시예 7: 실시예 1 내지 6 중 어느 하나에 따른 오디오 프로세서(100)에 있어서, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104)는 제1 윈도우 함수를 사용하여 오디오 신호의 샘플들을 샘플들의 제1 블록(108_1) 및 샘플들의 제2 블록(108_2)으로 세그먼트하도록 구성될 수 있으며, 여기서 랩핑된 임계 샘플링 변환 스테이지(104)는 대응하는 서브밴드 샘플들을 획득하기 위해, 제2 윈도우 함수를 사용하여 샘플들의 제1 블록(108_1)에 기초하여 획득된 빈들의 세트(124_1) 및 샘플들의 제2 블록(108_2)에 기초하여 획득된 빈들의 세트(124_2)를 세그먼트하도록 구성되고; 그리고 여기서 제1 윈도우 함수와 제2 윈도우 함수는 상이한 윈도우 폭을 포함하는, 오디오 프로세서(100).
실시예 8: 실시예 1 내지 6 중 어느 하나에 따른 오디오 프로세서(100)에 있어서, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104)는 제1 윈도우 함수를 사용하여 오디오 신호의 샘플들을 샘플들의 제1 블록(108_1) 및 샘플들의 제2 블록(108_2)으로 세그먼트하도록 구성될 수 있으며, 여기서 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104)는 대응하는 서브밴드 샘플들을 획득하기 위해, 제2 윈도우 함수를 사용하여 샘플들의 제1 블록(108_1)에 기초하여 획득된 빈들의 세트(124_1) 및 샘플들의 제2 블록(108_2)에 기초하여 획득된 빈들의 세트(124_2)를 세그먼트하도록 구성되고; 그리고 여기서 제1 윈도우 함수의 윈도우 폭과 제2 윈도우 함수의 윈도우 폭은 서로 상이하고, 여기서 제1 윈도우 함수의 윈도우 폭과 제2 윈도우 함수의 윈도우 폭은 2의 거듭제곱과는 다른 인수만큼 서로 다른, 오디오 프로세서(100).
실시예 9: 실시예 1 내지 8 중 어느 하나에 따른 오디오 프로세서(100)에 있어서, 여기서 시간 도메인 에일리어싱 감소 스테이지(106)는 다음 식에 따라 서브밴드 샘플들의 2개의 대응하는 세트들의 가중 결합을 수행하도록 구성되고,
Figure pct00084
Figure pct00085
인 경우
Figure pct00086
이고,
오디오 신호의 에일리어싱 감소된 서브밴드 표현을 획득하기 위해, 여기서 yv,i(m)은 오디오 신호의 제1 에일리어싱 감소된 서브밴드 표현이고, yv,i-1(N-1-m)은 오디오 신호의 제2 에일리어싱 감소된 서브밴드 표현이고,
Figure pct00087
v,i(m)은 오디오 신호의 샘플들의 제2 블록에 기초한 서브밴드 샘플들의 세트이고,
Figure pct00088
v,i-1(N-1-m)은 오디오 신호의 샘플들의 제1 블록에 기초한 서브밴드 샘플들의 세트이며, av(m)은 …, bv(m) 은 …, cv(m) 은 … 그리고 dv(m) 은 …인, 오디오 프로세서(100).
실시예 10: 오디오 신호의 서브밴드 표현을 처리하여 오디오 신호(102)를 획득하기 위한 오디오 프로세서(200)로서, 에일리어싱된 서브밴드 표현을 획득하기 위해, 오디오 신호(102)의 2개의 대응하는 에일리어싱 감소된 서브밴드 표현들의 가중 결합을 수행하도록 구성된 역 시간 도메인 에일리어싱 감소 스테이지(202) - 여기서 에일리어싱된 서브밴드 표현은 서브밴드 샘플들의 세트(110_1,1)임 -; 및 오디오 신호(102)의 샘플들의 블록과 연관된 샘플들의 세트(206_1,1)를 획득하기 위해, 서브밴드 샘플들의 세트(110_1,1)에 캐스케이드식 역 랩핑된 임계 샘플링 변환을 수행하도록 구성된 캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지(204)를 포함하는, 오디오 프로세서(200).
실시예 11: 실시예 10에 따른 오디오 프로세서(200)에 있어서, 여기서 캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지(204)는 오디오 신호의 주어진 서브밴드와 연관된 빈들의 세트(128_1,1)를 획득하기 위해, 서브밴드 샘플들의 세트(110_1,1)에 역 랩핑된 임계 샘플링 변환을 수행하도록 구성된 제1 역 랩핑된 임계 샘플링 변환 스테이지(208); 및 오디오 신호(102)의 샘플들의 블록과 연관된 빈들의 세트(124_1)를 획득하기 위해, 오디오 신호의 복수의 서브밴드들과 연관된 빈들의 세트의 연결을 수행하도록 구성된 제1 중첩 및 가산 스테이지(210)를 포함하며, 이러한 연결은 오디오 신호(102)의 주어진 서브밴드와 연관된 빈들의 세트(128_1,1) 및 오디오 신호(102)의 다른 서브밴드와 연관된 빈들의 세트(128_1,2)의 가중 결합을 포함하는, 오디오 프로세서(200).
실시예 12: 실시예 11에 따른 오디오 프로세서(200)에 있어서, 여기서 캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지(204)는 오디오 신호(102)의 샘플들의 블록과 연관된 샘플들의 세트를 획득하기 위해, 오디오 신호(102)의 샘플들의 블록과 연관된 빈들의 세트(124_1)에 역 랩핑된 임계 샘플링 변환을 수행하도록 구성된 제2 역 랩핑된 임계 샘플링 변환 스테이지(212)를 포함하는, 오디오 프로세서(200).
실시예 13: 실시예 12에 따른 오디오 프로세서(200)에 있어서, 여기서 캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지(204)는 오디오 신호(102)를 획득하기 위해, 오디오 신호(102)의 샘플들의 블록과 연관된 샘플들의 세트(206_1,1)와 오디오 신호(102)의 샘플들의 다른 블록과 연관된 다른 샘플들의 세트(206_2,1)를 중첩 및 가산하도록 구성된 제2 중첩 및 가산 스테이지(214)를 포함하고, 오디오 신호(102)의 샘플들의 블록과 샘플들의 다른 블록은 부분적으로 중첩하는, 프로세서(200).
실시예 14: 실시예 10 내지 13 중 어느 하나에 따른 오디오 프로세서(200)에 있어서, 여기서 역 시간 도메인 에일리어싱 감소 스테이지(202)는 다음 식에 기초하여 오디오 신호(102)의 2개의 대응하는 에일리어싱 감소된 서브밴드 표현들의 가중 결합을 수행하도록 구성되고,
Figure pct00089
Figure pct00090
인 경우
Figure pct00091
이고,
에일리어싱된 서브밴드 표현을 획득하기 위해, 여기서 yv,i(m)은 오디오 신호의 제1 에일리어싱 감소된 서브밴드 표현이고, yv,i-1(N-1-m)은 오디오 신호의 제2 에일리어싱 감소된 서브밴드 표현이고,
Figure pct00092
v,i(m)은 오디오 신호의 샘플들의 제2 블록에 기초한 서브밴드 샘플들의 세트이고,
Figure pct00093
v,i-1(N-1-m)은 오디오 신호의 샘플들의 제1 블록에 기초한 서브밴드 샘플들의 세트이며, av(m)은 …, bv(m) 은 …, cv(m) 은 … 그리고 dv(m) 은 …인, 오디오 프로세서(200).
실시예 15: 오디오 인코더에 있어서, 실시예 1 내지 9 중 어느 하나에 따른 오디오 프로세서(100); 오디오 신호의 인코딩된 에일리어싱 감소된 서브밴드 표현을 획득하기 위해 오디오 신호의 에일리어싱 감소된 서브밴드 표현을 인코딩하도록 구성되는 인코더; 및 오디오 신호의 인코딩된 에일리어싱 감소된 서브밴드 표현으로부터 비트 스트림을 형성하도록 구성된 비트스트림 형성기를 포함하는, 오디오 인코더.
실시예 16: 오디오 디코더에 있어서, 인코딩된 에일리어싱 감소된 서브밴드 표현을 획득하기 위해 비트 스트림을 파싱하도록 구성된 비트스트림 파서; 오디오 신호의 에일리어싱 감소된 서브밴드 표현을 획득하 위해, 인코딩된 에일리어싱 감소된 서브밴드 표현을 디코딩하도록 구성된 디코더; 및 실시예 10 내지 14 중 어느 하나에 따른 오디오 프로세서(200)를 포함하는, 오디오 디코더.
실시예 17: 오디오 분석기에 있어서, 실시예 1 내지 9 중 어느 하나에 따른 오디오 프로세서(100); 및 오디오 신호를 기술하는 정보를 제공하기 위해 에일리어싱 감소된 서브밴드 표현을 분석하도록 구성된 정보 추출기를 포함하는, 오디오 분석기.
실시예 18: 오디오 신호를 처리하여 오디오 신호의 서브밴드 표현을 획득하기 위한 위한 방법(300)에 있어서, 오디오 신호의 샘플들의 제1 블록에 기초하여 서브밴드 샘플들의 세트를 획득하기 위해, 그리고 오디오 신호의 샘플들의 제2 블록에 기초하여 서브밴드 샘플들의 대응하는 세트를 획득하기 위해, 오디오 신호의 샘플들의 적어도 2개의 부분적으로 중첩하는 블록들에 캐스케이드식 랩핑된 임계 샘플링 변환을 수행하는 것(302); 및 오디오 신호의 에일리어싱 감소된 서브밴드 표현을 획득하기 위해, 서브밴드 샘플들의 2개의 대응하는 세트들의 가중 결합을 수행하는 것(304)을 - 2개의 대응하는 세트들 중 하나는, 오디오 신호의 샘플들의 제1 블록에 기초하여 획득된 서브밴드 샘플들의 세트이고, 2개의 대응하는 세트들 중 하나는, 오디오 신호의 샘플들의 제2 블록에 기초하여 획득된 서브밴드 샘플들의 세트임 - 포함하는, 방법(300).
실시예 19: 오디오 신호의 서브밴드 표현을 처리하여 오디오 신호를 획득하기 위한 방법(400)에 있어서, 에일리어싱된 서브밴드 표현을 획득하기 위해, 오디오 신호의 2개의 대응하는 에일리어싱 감소된 서브밴드 표현들의 가중 결합을 수행하는 것(402) - 여기서 에일리어싱된 서브밴드 표현은 서브밴드 샘플들의 세트임 -;및 오디오 신호의 샘플들의 블록과 연관된 샘플들의 세트를 획득하기 위해, 서브밴드 샘플들의 세트에 캐스케이드식 역 랩핑된 임계 샘플링 변환을 수행하는 것(404)을 포함하는, 방법(400).
실시예 20: 컴퓨터 프로그램에 있어서, 실시예 18 및 19중 어느 하나에 따른 방법을 수생하기 위한 컴퓨터 프로그램.
비록 일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타내며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다는 점이 명백하다. 비슷하게, 방법 단계와 관련하여 설명한 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다. 방법 단계들의 일부 또는 전부가 예를 들어, 마이크로프로세서(microprocessor), 프로그래밍 가능한 컴퓨터(programmable computer) 또는 전자 회로(electronic curcuit)와 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수도 있다. 일부 실시예들에서, 가장 중요한 방법, 단계들 중 하나 이상이 이러한 장치에 의해 실행될 수 있다.
특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능 컴퓨터 시스템(programmable computer system)과 협력하는(cooperate)(또는 협력할 수 있는) 전자적으로 판독 가능 제어 신호들(electronically readable control signal)이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서 디지털 저장 매체는 컴퓨터 판독 가능(computer readable)할 수도 있다.
본 발명에 따른 일부 실시예들은 본 명세서에서 설명된 방법들 중 하나가 수행되도록, 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능 제어 신호들을 갖는 데이터 캐리어(data carrier)를 포함한다.
일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 방법들 중 하나를 수행하기 위해 작동하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 기계 판독 가능 캐리어(machine readable carrier) 상에 저장될 수 있다.
다른 실시예들은 기계 판독 가능 캐리어 상에 저장된, 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
다시 말해, 본 발명의 방법의 한 실시예는, 따라서, 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
본 발명의 방법들의 추가 실시예는, 따라서, 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하여 그 위에 기록된 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다. 데이터 캐리어(data carrier), 디지털 저장 매체(digital storage medium) 또는 레코딩된 매체(recorded medium)는 통상적으로 유형적(tangible)이고 그리고/또는 비-일시적(non-transitory)이다.
본 발명의 방법의 추가 실시예는, 따라서, 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림(data stream)또는 시퀀스(sequence)이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시예는 처리 수단, 예를 들어 본 명세서에서 설명된 방법들 중 하나를 수행하도록 구성 또는 적응된 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.
추가 실시예는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 추가 실시예는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 전송하도록(예: 전자적으로 또는 광학적으로) 구성된 장치 또는 시스템을 포함한다. 수신기는, 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수도 있다. 장치 또는 시스템은, 예를 들어, 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수도 있다.
일부 실시예들에서, 프로그래밍 가능 로직 디바이스(예: 필드 프로그래밍 가능 게이트 어레이(field programmable gate array))는 본 명세서에서 설명된 방법들의 기능들 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.
본 명세서에서 설명한 장치는 하드웨어 장치를 사용하여, 또는 컴퓨터를 사용하여, 또는 하드웨어 장치와 컴퓨터의 결합을 사용하여 구현될 수도 있다.
본 명세서에서 설명된 장치 또는 본 명세서에서 설명된 장치의 임의의 컴포넌트들은 적어도 부분적으로는 하드웨어로 그리고/또는 소프트웨어로 구현될 수 있다.
본 명세서에서 설명한 방법들은 하드웨어 장치를 사용하여, 또는 컴퓨터를 사용하여, 또는 하드웨어 장치와 컴퓨터의 결합을 사용하여 수행될 수도 있다.
본 명세서에서 설명한 방법들 또는 본 명세서에서 설명한 장치의 임의의 컴포넌트들은 적어도 부분적으로는 하드웨어에 의해 및/또는 소프트웨어에 의해 수행될 수 있다.
앞서 설명된 실시예들은 단지 본 발명의 원리들에 대한 예시일 뿐이다. 본 명세서에서 설명한 배열들 및 세부사항들의 수정들 및 변형들이 다른 당업자들에게 명백할 것이라고 이해된다. 따라서, 본 명세서의 실시예들의 묘사 및 설명에 의해 제시된 특정 세부사항들이 아닌, 첨부된 특허청구범위에 의해서만 한정되는 것을 취지로 한다.

Claims (27)

  1. 오디오 신호(102)를 처리하여 상기 오디오 신호(102)의 서브밴드 표현을 획득하기 위한 오디오 프로세서(100)에 있어서,
    상기 오디오 신호(102)의 샘플들의 제1 블록(108_1)에 기초하여 서브밴드 샘플들의 세트(110_1,1)를 획득하고, 상기 오디오 신호(102)의 샘플들의 제2 블록(108_2)에 기초하여 서브밴드 샘플들의 대응하는 세트(110_2,1)를 획득하기 위해, 상기 오디오 신호(102)의 샘플들의 적어도 2개의 부분적으로 중첩되는 블록들(108_1; 108_2)에 대해 캐스케이드식 랩핑된 임계 샘플링 변환을 수행하도록 구성된, 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104); 및
    상기 오디오 신호(102)의 에일리어싱 감소된 서브밴드 표현(112_1)을 획득하기 위해, 서브밴드 샘플들의 2개의 대응하는 세트들(110_1,1;110_1,2)의 가중 결합을 수행하도록 구성된 시간 도메인 에일리어싱 감소 스테이지(106) - 상기 2개의 대응하는 세트들 중 하나는, 상기 오디오 신호(102)의 샘플들의 상기 제1 블록(108_1)에 기초하여 획득된 서브밴드 샘플들의 세트이고, 상기 2개의 대응하는 세트들 중 하나는, 상기 오디오 신호(102)의 샘플들의 상기 제2 블록(108_2)에 기초하여 획득된 서브밴드 샘플들의 세트임 -
    를 포함하고;
    상기 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104)는,
    적어도 2개의 윈도우 함수들을 사용하여 샘플들의 상기 제1 블록(108_1)에 기초하여 획득된 빈들의 세트(124_1)를 세그먼트하고,
    샘플들의 상기 제1 블록(108_1)에 대응하는 상기 세그먼트된 빈들의 세트에 기초하여 적어도 2개의 세그먼트된 빈들의 세트들(128_1,1;128_1,2)을 획득하도록
    구성되고;
    상기 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지(104)는,
    적어도 2개의 윈도우 함수들을 사용하여 샘플들의 상기 제2 블록(108_2)에 기초하여 획득된 빈들의 세트(124_2)를 세그먼트하고,
    샘플들의 상기 제2 블록(108_2)에 대응하는 상기 세그먼트된 빈들의 세트에 기초하여 적어도 2개의 빈들의 세트들(128_2,1;128_2,2)을 획득하도록
    구성되고; 및
    상기 빈들의 세트들(128_1,1; 128_1,2; 128_2,1; 128_2,2)은,
    상기 캐스케이드식 랩핑된 임계 샘플링 변환 스테이지의 제2 랩핑된 임계 샘플링 변환 스테이지를 사용하여 처리되며,
    상기 제2 랩핑된 임계 샘플링 변환 스테이지는, 적어도 하나의 빈들의 세트가 동일한 프레임 길이를 갖는 랩핑된 임계 샘플링 변환을 수행하도록 구성되는,
    오디오 프로세서(100).
  2. 제1항에 있어서,
    상기 제2 랩핑된 임계 변환 스테이지(126)는,
    샘플들의 상기 제1 블록(108_1)에 대응하는 상기 세그먼트된 빈들의 세트에 기초하여 획득된 상기 적어도 2개의 빈들의 세트들(128_1,1;128_1,2) 중 제1 세트(128_1,1)의 N1,1 서브-세트들에 대해 N1,1 랩핑된 임계 샘플 변환들을 수행하도록 구성되고,
    상기 N1,1 랩핑된 임계 샘플 변환들은 동일한 프레임 길이를 포함하고,
    N1,1는 2보다 크거나 같은 자연수이고,
    상기 제2 랩핑된 임계 변환 스테이지(126)는,
    샘플들의 상기 제2 블록(108_2)에 대응하는 상기 세그먼트된 빈들의 세트에 기초하여 획득된 상기 적어도 2개의 빈들의 세트들(128_2,1;128_2,2) 중 대응하는 제1 세트(128_1,2)의 N1,2 서브-세트들에 대해 N1,2 랩핑된 임계 샘플 변환들을 수행하도록 구성되고,
    상기 N2,1랩핑된 임계 샘플 변환들은 동일한 프레임 길이를 포함하고,
    N2,1는 2보다 크거나 같은 자연수인,
    오디오 프로세서(100).
  3. 제1항 및 제2항 중 어느 한 항에 있어서,
    상기 오디오 프로세서(100)는,
    각각의 빈들의 세트(128_1,1, 128_1,2, 128_2,1, 128_2,2) 또는 각각의 상기 대응하는 빈들의 세트들(128_1,1 및 128_2,1; 128_1,2 및 128_2,2)에 대한 프레임 길이를 개별적으로 선택하도록 구성되는,
    오디오 프로세서(100).
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 오디오 프로세서(100)는,
    샘플들의 각각의 블록(108_1, 108_2)에 대한 프레임 길이를 개별적으로 선택하도록 구성되는,
    오디오 프로세서(100).
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 오디오 프로세서(100)는,
    2개의 후속 블록들(108_1, 108_2)에 대해 동일한 프레임 길이가 사용되는 경우, 상기 시간 도메인 에일리어싱 감소 스테이지를 활성화하거나 활성화된 상태를 유지하도록 구성되고/거나,
    상기 오디오 프로세서(100)는,
    2개의 후속 블록들(108_1, 108_2)에 대해 상이한 프레임 길이가 사용되는 경우, 상기 시간 도메인 에일리어싱 감소 스테이지를 비활성화하거나, 비활성화된 상태를 유지하도록 구성되는,
    오디오 프로세서(100).
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 오디오 프로세서(100)는,
    병합 인자들을 적용하기 위한 공통/공동 최적화를 수행하도록 구성되는,
    오디오 프로세서(100).
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 적어도 2개의 윈도우 함수들은,
    동일한 윈도우 폭을 포함하는,
    오디오 프로세서(100).
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 적어도 2개의 윈도우 함수들은,
    상이한 윈도우 폭을 포함하는,
    오디오 프로세서(100).
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 적어도 2개의 윈도우 함수들은,
    실질적으로 사각 윈도우들을 포함하는,
    오디오 프로세서(100).
  10. 제7항 내지 제9항 중 어느 한 항에 있어서,
    상기 적어도 2개의 윈도우 함수들에 기초하여 획득된 상기 빈들의 세트들은,
    상기 제2 랩핑된 임계 샘플링 변환 스테이지를 사용하여 처리되고,
    상기 제2 랩핑된 임계 샘플링 변환 스테이지는,
    상기 적어도 2개의 윈도우 함수들에 기초하여 획득된 상기 빈들의 세트들 중 적어도 하나가 동일한 프레임 길이를 갖는 적어도 2개의 랩핑된 임계 샘플링 변환들을 수행하도록 구성되는,
    오디오 프로세서(100).
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 오디오 프로세서(100)는,
    공동 채널 코딩을 수행하도록 구성되는,
    오디오 프로세서(100).
  12. 제11항에 있어서,
    상기 오디오 프로세서(100)는,
    공동 채널 처리로서 M/S 또는 MCT를 수행하도록 구성되는,
    오디오 프로세서(100).
  13. 제11항 내지 제12항 중 어느 한 항에 있어서,
    상기 오디오 프로세서(100)는,
    상기 적어도 2개의 세그먼트된 빈들의 세트(128_1,1;128_1,2)들 각각에 대해 개별적으로 공동 채널 처리를 활성화 또는 비활성화하도록 구성되는,
    오디오 프로세서(100).
  14. 제1항 내지 제13항 중 어느 한 항에 있어서,
    상기 오디오 프로세서(100)는,
    상기 오디오 신호의 인코딩된 에일리어싱 감소된 서브밴드 표현(112_1, 112_2)으로부터 비트 스트림을 형성하도록 구성되고,
    상기 오디오 프로세서(100)는,
    상기 비트 스트림에서 상기 대응하는 빈들의 세트들(128_1,1 및 128_2,1; 128_1,2 및 128_2,2)의 적어도 하나의 프레임 길이를 시그널링하는 적어도 하나의 MF 파라미터를 포함하는 상기 비트 스트림을 제공하도록 구성되는,
    오디오 프로세서(100).
  15. 제14항에 있어서,
    상기 오디오 프로세서(100)는,
    상기 적어도 하나의 MF 파라미터를 엔트로피 인코딩하도록 구성되는,
    오디오 프로세서(100).
  16. 제14항에 있어서,
    상기 오디오 프로세서(100)는,
    상기 비트 스트림에서 상기 대응하는 빈들의 세트들(128_1,1 및 128_2,1; 128_1,2 및 128_2,2)의 프레임 길이를 시그널링하는 상기 MF 파라미터의 서브세트만을 포함하는 상기 비트 스트림을 제공하도록 구성되는,
    오디오 프로세서(100).
  17. 제14 항 내지 제16항 중 어느 한 항에 있어서,
    상기 오디오 프로세서는,
    각각의 대응하는 빈들의 세트들(128_1,1 및 128_2,1; 128_1,2 및 128_2,2)에 대한 TDAR 파라미터를 포함하는 상기 비트 스트림을 제공하도록 구성되는,
    오디오 프로세서(100).
  18. 제17항에 있어서,
    상기 오디오 프로세서(100)는,
    상기 MF 및 TDAR 파라미터들의 공동 엔트로피 코딩을 수행하도록 구성되는,
    오디오 프로세서(100).
  19. 제14항 내지 제16항 중 어느 한 항에 있어서,
    상기 오디오 프로세서(100)는,
    상기 적어도 하나의 MF 파라미터로부터 TDAR 파라미터가 유도될 수 있도록 상기 적어도 하나의 MF 파라미터를 포함하는 상기 비트 스트림을 제공하도록 구성되는,
    오디오 프로세서(100).
  20. 제1항 내지 제19항 중 어느 한 항에 있어서,
    상기 오디오 프로세서(100)는,
    서브밴드 샘플들의 세트 당 격자-그리드를 사용하도록 구성되는,
    오디오 프로세서(100).
  21. 제1항 내지 제20항 중 어느 한 항의 오디오 프로세서(100);
    상기 오디오 신호의 인코딩된 에일리어싱 감소된 서브밴드 표현을 획득하기 위해, 상기 오디오 신호의 에일리어싱 감소 서브밴드 표현을 인코딩하도록 구성된 인코더; 및
    상기 오디오 신호의 상기 인코딩된 에일리어싱 감소된 서브밴드 표현으로부터 비트 스트림을 형성하도록 구성된 비트 스트림 형성기
    를 포함하는, 오디오 인코더.
  22. 오디오 신호의 서브밴드 표현을 처리하여 상기 오디오 신호(102)를 획득하기 위한 오디오 프로세서(200)에 있어서,
    에일리어싱된 서브밴드 표현을 획득하기 위해, 상기 오디오 신호(102)의 2개의 대응하는 에일리어싱 감소된 서브밴드 표현들의 가중 결합을 수행하도록 구성된 역 시간 도메인 에일리어싱 감소 스테이지(202) - 상기 에일리어싱된 서브밴드 표현은, 서브밴드 샘플들의 세트(110_1,1)임 -; 및
    상기 오디오 신호(102)의 샘플들의 블록과 연관된 샘플들의 세트(206_1,1)를 획득하기 위해, 서브밴드 샘플들의 상기 세트(110_1,1)에 캐스케이드식 역 랩핑된 임계 샘플링 변환을 수행하도록 구성된 캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지(204)
    를 포함하고;
    상기 캐스케이드식 역 랩핑된 임계 샘플링 변환 스테이지(204)는,
    상기 오디오 신호(102)의 주어진 서브밴드와 연관된 빈들의 세트(128_1,1)를 획득하기 위해, 서브밴드 샘플들의 상기 세트(110_1,1)에 역 랩핑된 임계 샘플링 변환을 수행하도록 구성된 제1 역 랩핑된 임계 샘플링 변환 스테이지(208)
    를 포함하고,
    상기 제1 역 랩핑된 임계 샘플링 변환 스테이지(208)는,
    서브밴드 샘플들의 상기 세트(110_1,1)가 동일한 프레임 길이를 갖는 역 랩핑된 임계 샘플링 변환 스테이지를 수행하도록 구성된,
    오디오 프로세서(200).
  23. 제22항에 있어서,
    상기 제1 역 랩핑된 임계 샘플링 변환 스테이지(208)는,
    서브밴드 샘플들의 상기 세트(110_1,1)의 N1,1 서브-세트들에 대해 N1,1 역 랩핑된 임계 샘플링 변환을 수행하도록 구성되고,
    상기 N1,1 랩핑된 임계 샘플 변환들은, 동일한 프레임 길이를 포함하며,
    N1,1는 2보다 크거나 같은 자연수인,
    오디오 프로세서(200).
  24. 오디오 디코더에 있어서,
    상기 인코딩된 에일리어싱 감소된 서브밴드 표현을 획득하기 위해, 비트 스트림을 파싱하도록 구성된 비트스트림 파서;
    상기 오디오 신호의 에일리어싱 감소된 서브밴드 표현을 획득하기 위해, 상기 인코딩된 에일리어싱 감소된 서브밴드 표현을 디코딩하도록 구성된 디코더; 및
    제22항 내지 제23항 중 어느 한 항의 오디오 프로세서(200);
    를 포함하는 오디오 디코더.
  25. 오디오 신호(102)를 처리하여 상기 오디오 신호(102)의 서브밴드 표현을 획득하기 위한 방법에 있어서,
    상기 오디오 신호(102)의 샘플들의 제1 블록(108_1)에 기초하여 서브밴드 샘플들의 세트(110_1,1)를 획득하고 상기 오디오 신호(102)의 샘플들의 제2 블록(108_2)에 기초하여 서브밴드 샘플들의 대응하는 세트(110_2,1)를 획득하기 위해, 상기 오디오 신호(102)의 샘플들의 적어도 2개의 부분적으로 중첩하는 블록들(108_1; 108_2)에 대해 캐스케이드식 랩핑된 임계 샘플링 변환을 수행하는 동작; 및
    상기 오디오 신호(102)의 에일리어싱 감소된 서브밴드 표현(112_1)을 획득하기 위해, 서브밴드 샘플들의 2개의 대응하는 세트들(110_1,1;110_1,2)의 가중 결합을 수행하는 동작 - 상기 2개의 대응하는 세트들 중 하나는, 상기 오디오 신호(102)의 샘플들의 상기 제1 블록(108_1)에 기초하여 획득된 서브밴드 샘플들의 세트이고, 상기 2개의 대응하는 세트들 중 하나는, 상기 오디오 신호(102)의 샘플들의 상기 제2 블록(108_2)에 기초하여 획득된 서브밴드 샘플들의 세트임 -
    을 포함하고,
    상기 캐스케이드식 랩핑된 임계 샘플링 변환을 수행하는 동작은,
    적어도 2개의 윈도우 함수들을 사용하여 샘플들의 상기 제1 블록(108_1)에 기초하여 획득된 빈들의 세트(124_1)를 세그먼트하는 동작, 및
    샘플들의 상기 제1 블록(108_1)에 대응하는 상기 세그먼트된 빈들의 세트에 기초하여 적어도 2개의 세그먼트된 빈들의 세트들(128_1,1;128_1,2)을 획득하는 동작
    을 포함하고;
    상기 캐스케이드식 랩핑된 임계 샘플링 변환을 수행하는 동작은,
    적어도 2개의 윈도우 함수들을 사용하여 샘플들의 상기 제2 블록(108_2)에 기초하여 획득된 빈들의 세트(124_2)를 세그먼트하는 동작, 및
    샘플들의 상기 제2 블록(108_2)에 대응하는 상기 세그먼트된 빈들의 세트에 기초하여 적어도 2개의 세그먼트된 빈들의 세트들(128_2,1;128_2,2)을 획득하는 동작
    을 포함하고, 및
    상기 빈들의 세트들(128_1,1; 128_1,2; 128_2,1; 128_2,2)은,
    상기 캐스케이드식 랩핑된 임계 샘플링 변환의 제2 랩핑된 임계 샘플링 변환 스테이지를 사용하여 처리되고,
    상기 제2 랩핑된 임계 샘플링 변환은,
    적어도 하나의 빈들의 세트가 동일한 프레임 길이를 갖는 랩핑된 임계 샘플링 변환을 수행하는 동작
    을 포함하는 방법.
  26. 오디오 신호의 서브밴드 표현을 처리하여 상기 오디오 신호(102)를 획득하기 위한 방법에 있어서,
    에일리어싱된 서브밴드 표현을 획득하기 위해, 상기 오디오 신호(102)의 2개의 대응하는 에일리어싱 감소된 서브밴드 표현들의 가중 결합을 수행하는 동작 - 상기 에일리어싱된 서브밴드 표현은, 서브밴드 샘플들의 세트(110_1,1)임 -; 및
    상기 오디오 신호(102)의 샘플들의 블록과 연관된 샘플들의 세트(206_1,1)를 획득하기 위해, 서브밴드 샘플들의 상기 세트(110_1,1)에 캐스케이드식 역 랩핑된 임계 샘플링 변환을 수행하는 동작
    을 포함하고,
    상기 캐스케이드식 역 랩핑된 임계 샘플링 변환을 수행하는 동작은,
    상기 오디오 신호(102)의 주어진 서브밴드와 연관된 빈들의 세트(128_1,1)를 획득하기 위해, 서브밴드 샘플들의 상기 세트(110_1,1)에 제1 역 랩핑된 임계 샘플링 변환을 수행하는 동작
    을 포함하고,
    상기 제1 역 랩핑된 임계 샘플링 변환을 수행하는 동작은,
    서브밴드 샘플들의 상기 세트(110_1,1)가 동일한 프레임 길이를 갖는 역 랩핑된 임계 샘플링 변환을 수행하는 동작
    을 포함하는 방법.
  27. 제25항 내지 제26항 중 어느 한 항의 방법을 수행하기 위한, 컴퓨터 프로그램.
KR1020217015408A 2018-10-26 2019-10-16 서브밴드 병합 및 시간 도메인 에일리어싱 감소를 사용하는 적응형 비-균일 시간/주파수 타일링을 갖는 지각 오디오 코딩 KR102630922B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP18202927 2018-10-26
EP18202927.2 2018-10-26
EP19169635.0 2019-04-16
EP19169635.0A EP3644313A1 (en) 2018-10-26 2019-04-16 Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and time domain aliasing reduction
PCT/EP2019/078112 WO2020083727A1 (en) 2018-10-26 2019-10-16 Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and the time domain aliasing reduction

Publications (2)

Publication Number Publication Date
KR20210076134A true KR20210076134A (ko) 2021-06-23
KR102630922B1 KR102630922B1 (ko) 2024-01-30

Family

ID=64316263

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217015408A KR102630922B1 (ko) 2018-10-26 2019-10-16 서브밴드 병합 및 시간 도메인 에일리어싱 감소를 사용하는 적응형 비-균일 시간/주파수 타일링을 갖는 지각 오디오 코딩

Country Status (9)

Country Link
US (1) US11688408B2 (ko)
EP (2) EP3644313A1 (ko)
JP (1) JP7279160B2 (ko)
KR (1) KR102630922B1 (ko)
CN (1) CN113330515B (ko)
BR (1) BR112021007516A2 (ko)
CA (1) CA3118121C (ko)
MX (1) MX2021004636A (ko)
WO (1) WO2020083727A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3786948A1 (en) * 2019-08-28 2021-03-03 Fraunhofer Gesellschaft zur Förderung der Angewand Time-varying time-frequency tilings using non-uniform orthogonal filterbanks based on mdct analysis/synthesis and tdar

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018019909A1 (en) * 2016-07-29 2018-02-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5687243A (en) * 1995-09-29 1997-11-11 Motorola, Inc. Noise suppression apparatus and method
US7516064B2 (en) 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US7548727B2 (en) * 2005-10-26 2009-06-16 Broadcom Corporation Method and system for an efficient implementation of the Bluetooth® subband codec (SBC)
KR100647336B1 (ko) 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP2144171B1 (en) * 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
ES2401487T3 (es) * 2008-07-11 2013-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para la codificación/decodificación de una señal de audio utilizando un esquema de conmutación de generación de señal ajena
GB2473267A (en) 2009-09-07 2011-03-09 Nokia Corp Processing audio signals to reduce noise
WO2011085483A1 (en) * 2010-01-13 2011-07-21 Voiceage Corporation Forward time-domain aliasing cancellation using linear-predictive filtering
US8886523B2 (en) 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
WO2012110478A1 (en) * 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Information signal representation using lapped transform
US10020930B2 (en) * 2016-11-04 2018-07-10 Commissariat A L'energie Atomique Et Aux Energies Alternatives Method of non-uniform wavelet bandpass sampling
EP3786948A1 (en) * 2019-08-28 2021-03-03 Fraunhofer Gesellschaft zur Förderung der Angewand Time-varying time-frequency tilings using non-uniform orthogonal filterbanks based on mdct analysis/synthesis and tdar

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018019909A1 (en) * 2016-07-29 2018-02-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ETSI TS 126 445 V12.0.0, EVS Codec Detailed Algorithmic Description, 2014.11. *
Jeremie Lecomte, et al. Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding. Audio Engineering Society Convention 126. Audio Engineering Society, 2009.05.10.* *

Also Published As

Publication number Publication date
US20210233544A1 (en) 2021-07-29
BR112021007516A2 (pt) 2021-07-27
EP3871215A1 (en) 2021-09-01
CA3118121C (en) 2023-10-03
EP3871215B1 (en) 2023-09-13
JP2022505789A (ja) 2022-01-14
JP7279160B2 (ja) 2023-05-22
EP3644313A1 (en) 2020-04-29
KR102630922B1 (ko) 2024-01-30
US11688408B2 (en) 2023-06-27
CA3118121A1 (en) 2020-04-30
WO2020083727A1 (en) 2020-04-30
CN113330515A (zh) 2021-08-31
EP3871215C0 (en) 2023-09-13
MX2021004636A (es) 2021-05-28
CN113330515B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
EP2186088B1 (en) Low-complexity spectral analysis/synthesis using selectable time resolution
EP1533789A1 (en) Sound encoding apparatus and sound encoding method
JP4296753B2 (ja) 音響信号符号化方法及び装置、音響信号復号方法及び装置、並びにプログラム及び記録媒体
CN104995680A (zh) 使用高级频谱延拓降低量化噪声的压扩装置和方法
KR20190034314A (ko) 스펙트럼 분석에 이어 부분 합성을 사용하는 불균등 필터 뱅크들에 대한 시간 도메인 에일리어싱 감소
KR102630922B1 (ko) 서브밴드 병합 및 시간 도메인 에일리어싱 감소를 사용하는 적응형 비-균일 시간/주파수 타일링을 갖는 지각 오디오 코딩
KR100952065B1 (ko) 부호화 방법 및 장치, 및 복호 방법 및 장치
US20220165283A1 (en) Time-varying time-frequency tilings using non-uniform orthogonal filterbanks based on mdct analysis/synthesis and tdar
RU2777615C1 (ru) Перцепционное кодирование аудио с адаптивным неравномерным расположением частотно-временными плитками с использованием субполосного объединения и уменьшения наложения спектров во временной области
RU2791664C1 (ru) Варьирующиеся во времени расположения частотно-временными плитками с использованием неравномерных ортогональных гребенок фильтров на основе mdct-анализа/синтеза и tdar
US8977546B2 (en) Encoding device, decoding device and method for both
Kokes et al. A wideband speech codec based on nonlinear approximation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant