KR20120018324A - 저 복잡도의 스펙트럼 대역 복제 (sbr) 필터뱅크 - Google Patents

저 복잡도의 스펙트럼 대역 복제 (sbr) 필터뱅크 Download PDF

Info

Publication number
KR20120018324A
KR20120018324A KR1020117027093A KR20117027093A KR20120018324A KR 20120018324 A KR20120018324 A KR 20120018324A KR 1020117027093 A KR1020117027093 A KR 1020117027093A KR 20117027093 A KR20117027093 A KR 20117027093A KR 20120018324 A KR20120018324 A KR 20120018324A
Authority
KR
South Korea
Prior art keywords
group
coefficients
samples
domain
filterbank
Prior art date
Application number
KR1020117027093A
Other languages
English (en)
Other versions
KR101286329B1 (ko
Inventor
라비 키란 치부쿨라
유리 레즈닉
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20120018324A publication Critical patent/KR20120018324A/ko
Application granted granted Critical
Publication of KR101286329B1 publication Critical patent/KR101286329B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/0223Computation saving measures; Accelerating measures
    • H03H17/0227Measures concerning the coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/0211Frequency selective networks using specific transformation algorithms, e.g. WALSH functions, Fermat transforms, Mersenne transforms, polynomial transforms, Hilbert transforms
    • H03H17/0213Frequency domain filters using Fourier transforms
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/0248Filters characterised by a particular frequency response or filtering method
    • H03H17/0264Filter sets with mutual related characteristics
    • H03H17/0266Filter banks
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/0248Filters characterised by a particular frequency response or filtering method
    • H03H17/0264Filter sets with mutual related characteristics
    • H03H17/0272Quadrature mirror filters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H2218/00Indexing scheme relating to details of digital filters
    • H03H2218/04In-phase and quadrature [I/Q] signals

Abstract

입력 오디오 신호를 복수의 N개 시간-도메인 입력 샘플들로서 획득함으로써 복소수 분석 필터뱅크가 구현된다. 시간-도메인 입력 샘플들의 페어-와이즈 가산 및 감산을 수행하여 중간 샘플들의 제 1 그룹 및 제 2 그룹을 획득하고, 각각의 그룹은 N/2개 중간 샘플들을 갖는다. 제 2 그룹에서의 홀수-인덱싱된 중간 샘플들의 부호들이 인버팅된다. 중간 샘플들의 제 1 그룹에 제 1 변환을 적용하여 주파수 도메인에서의 출력 계수들의 제 1 그룹을 획득한다. 중간 샘플들의 제 2 그룹에 제 2 변환을 적용하여 주파수 도메인에서의 출력 계수들의 제 2 중간 그룹을 획득한다. 그 후에, 출력 계수들의 제 2 중간 그룹에서의 계수들의 순서를 반전시켜 출력 계수들의 제 2 그룹을 획득한다. 출력 계수들의 제 1 그룹 및 제 2 그룹은 오디오 신호의 주파수 도메인 표현으로서 저장 및/또는 송신될 수도 있다.

Description

저 복잡도의 스펙트럼 대역 복제 (SBR) 필터뱅크{LOW COMPLEXITY SPECTRAL BAND REPLICATION (SBR) FILTERBANKS}
35 U.S.C.§119 하의 우선권 주장
본 특허 출원은, 2009년 4월 14일 출원되고, 본 출원의 양수인에게 양도되며 참조로 여기에 명백하게 포함되는, "Fast SBR filterbanks for AAC-ELD, HE-AAC, and USAC" 라는 명칭의 미국 가출원 제 61/169,132 호에 대한 우선권을 주장한다.
분야
아래의 설명은 일반적으로, 인코더 및 디코더에 관한 것으로, 특히, HE-AAC (High-Efficiency Advance Audio Coding) 및 ELD (Enhanced Low-Delay), SAOC (Spatial Audio) 및 USAC (Unified Speech and Audio) 코덱들과 같은 MPEG 계열의 오디오 코덱들에 대한 계산 효율적인 필터뱅크 구조에 관한 것이다.
오디오 코딩의 하나의 목적은, 원래의 사운드 품질을 가능한 한 많이 유지하면서 오디오 신호를 원하는 제한 정보량으로 압축시키는 것이다. 인코딩 프로세스에서는, 시간 도메인에서의 입력 오디오 신호가 주파수 도메인 오디오 신호로 변환되고, 대응하는 디코딩 프로세스는, 주파수 도메인 오디오 신호를 시간 도메인에서의 출력 오디오 신호로 변환함으로써 이러한 동작을 역행한다.
오디오 코덱들은 인간 청각계의 심리음향 특성들을 모델링하는 것에 기초할 수도 있다. 예를 들어, 오디오 신호는 몇몇 주파수 대역들로 나누어질 수도 있고, 인간의 귀의 마스킹 속성들은 심리음향적 리던던시들을 제거하는데 이용될 수도 있다. 따라서, 오디오 코덱들은 일반적으로 압축을 위한 변환 코딩 기법들에 의존한다. 오디오 코덱들은 통상적으로 임의의 일반적 오디오 소재를 낮은 비트 레이트로 코딩하기에 적합하다. 오디오 코덱들이 양호한 주파수 선택도를 위해 긴 프레임 길이 상에서 동작하고 또한 일반적으로 직교 필터뱅크들을 이용하기 때문에, 그 오디오 코덱들의 왕복 알고리즘 지연이 높아서, 오디오 코덱들이 전이중 통신에 부적합하게 된다. 그러나, 고품질, 낮은 비트 레이트, 전이중 오디오 통신 애플리케이션들 (이를테면, 오디오 및 비디오 회의) 에 대한 필요성이 증가하고 있다.
MPEG 은, 전이중 통신에 대해 충분히 낮은 코덱 지연을 유지하면서 코딩 효율을 향상시키려고 시도한 MPEG-4 AAC-ELD (Advance Audio Coding-Enhanced Low Delay) 라고 지칭되는 저지연 오디오 코덱을 표준화하였다. AAC 는 고품질 디지털 오디오를 표현하는데 필요한 데이터량을 상당히 감소시키기 위한 2가지 주요 코딩 전략을 활용하는 광역 오디오 코딩 알고리즘이다. 먼저, 지각적으로 관련이 없는 신호 성분이 폐기되고, 둘째로, 코딩된 오디오 신호에서의 리던던시들이 제거된다.
SBR (Spectral Band Replication) 을 이용함으로써 코딩 효율이 증가된다. 도입되는 지연을 최소화하기 위해, 분석 및 합성 SBR 필터뱅크들의 저지연 버전이 이용된다. 종종, 이들 오디오 코덱들은 프로세싱 능력 및 배터리 수명이 제한되는 모바일 플랫폼들 상에서 동작할 수도 있다. 따라서, 오디오 코덱의 계산 집약적인 연산들을 위한 고속 알고리즘들에 대한 필요성이 존재한다. 통상적으로, 필터뱅크들 및 변환들은 상당한 부분의 계산 복잡도를 부여한다. AAC-ELD 에서 이용되는 저지연 SBR (low-delay SBR; LD-SBR) 필터뱅크들의 경우, 대응하는 매트릭스 승산 연산이 최대의 계산 집약적 부분들 중 하나일 수도 있다.
따라서, 계산 효율적 필터뱅크는 오디오 코덱들에서의 계산 복잡도 및/또는 지연을 감소시킬 필요가 있다.
일부 실시형태들의 기본적인 이해를 제공하기 위해 하나 이상의 실시형태들의 단순한 요약이 아래에 제시된다. 이러한 요약은 모든 예상된 실시형태들의 광범위한 개요가 아니며, 모든 실시형태들의 중요하거나 불가결한 엘리먼트를 식별하거나 임의의 또는 모든 실시형태들의 범위를 나타내도록 의도되지 않는다. 이후에 제시되는 더욱 상세한 설명에 대한 서두로서 단순화된 형태로 하나 이상의 실시형태들의 일부 개념을 제시하는 것이 유일한 목적이다.
인코딩 방법 및/또는 디바이스가 변환 값들을 계산하기 위해 제공된다. 오디오 신호를 표현하는 시간-도메인 입력 값들이 수신된다. 예를 들어, 이산 코사인 변환 (Discrete Cosine Transform; DCT) 을 이용하여, 시간-도메인 입력 값들이 주파수-도메인 (예를 들어, 실수 및 허수 성분들) 출력 값들로 변환될 수도 있다.
디코딩 방법 및/또는 디바이스가 변환 값들을 계산하기 위해 제공된다. 오디오 신호를 표현하는 스펙트럼 계수들이 수신된다. 예를 들어, 역 이산 코사인 변환 (Inverse Discrete Cosine Transform; IDCT) 을 이용하여, 스펙트럼 계수들이 시간-도메인 출력 값들로 변환될 수도 있다.
부분적으로, 이산 코사인 변환들은 그들의 변환 매트릭스들의 인수 분해에 의해 매우 효율적인 계산을 허용하기 때문에, 실제로 중요하다. 따라서, 일반적인 N×N 매트릭스에 의한 N-포인트 벡터의 승산이 O(N2)개의 승산 및 가산을 필요로 하면, 적절히 인수 분해된 DCT 매트릭스에 의한 벡터의 곱의 계산은 통상적으로 O(N log N)개의 승산 및/또는 가산만을 필요로 한다.
실제로, 타입 II 의 이산 코사인 변화 및 타입 IV 의 DCT 는 가장 통상적으로 사용 또는 구현된다. 타입 IV 의 DCT 는 본의 아닌 부가적인 이점, 즉, 순변환 또는 역변환 모두에 대해 동일한 변환 매트릭스를 갖는다는 이점을 갖는다. DCT-II 및/또는 DCT-IV 이 편리하지만, 실제로는, 기저 함수들이 DCT-II 또는 DCT-IV 의 기저 함수들을 정확하게 따르지 않는 필터뱅크들을 구현할 필요가 종종 있다. 이것은, 예를 들어, AAC-ELD 또는 HE-AAC, 또는 SAOC 코덱의 SBR 필터뱅크들에서의 것들과 같은 저지연 필터뱅크들의 설계에서 발생한다. 그 결과, DCT-II 또는 DCT-IV 변환들을 이용함으로써 다양한 코덱들에 대한 SBR 필터뱅크들의 클래스를 계산하는 것을 허용하는 기법이 여기에 개시된다. 이러한 계산은 SBR 필터뱅크들의 복잡도를 상당히 감소시킨다.
복소수 분석 필터뱅크와 같은 필터뱅크를 구현하기 위한 방법 및/또는 장치가 제공된다. 입력 오디오 신호가 복수의 N개 시간-도메인 입력 샘플들로서 획득된다. 그 후에, 시간-도메인 입력 샘플들의 페어-와이즈 가산 및 감산을 수행하여 중간 샘플들의 제 1 그룹 및 제 2 그룹을 획득하고, 각각의 그룹은 N/2개 중간 샘플들을 갖는다. 출력 계수들의 제 1 그룹은 실수 계수들로 이루어질 수도 있고, 출력 계수들의 제 2 그룹은 허수 계수들로 이루어질 수도 있다. 그 후에, 제 2 그룹에서의 홀수-인덱싱된 중간 샘플들의 부호들이 인버팅된다. 중간 샘플들의 제 1 그룹에 제 1 변환을 적용하여 주파수 도메인에서의 출력 계수들의 제 1 그룹을 획득한다. 중간 샘플들의 제 2 그룹에 제 2 변환을 적용하여 주파수 도메인에서의 출력 계수들의 제 2 중간 그룹을 획득한다. 제 1 변환 및 제 2 변환은 중간 샘플들의 제 1 그룹 및 제 2 그룹을 변환하도록 동시에 동작할 수도 있다. 제 1 변환 및 제 2 변환은 모두 DCT (Discrete Cosine Transform) 타입 IV 변환들이다. 분석 필터뱅크는 분자에 (2n ± x) 의 인수를 갖는 식에 의해 표현될 수도 있고, 여기서 x 는 홀수이다. 출력 계수들의 제 2 중간 그룹에서의 계수들의 순서를 반전시켜 출력 계수들의 제 2 그룹을 획득한다. 이용된 시간-도메인 입력 샘플들은 실수 도메인에서의 샘플들일 수도 있지만, 주파수 도메인은 복소수 도메인일 수도 있다. 다양한 구현에서, 필터뱅크는, 예를 들어, 분석 직교 미러 필터뱅크 (Analysis Quadrature Mirror Filterbank), 오디오 인코더 및/또는 디코더의 일부 및/또는 SBR (Spectral Band Replication) 인코더 및/또는 디코더의 일부일 수도 있다. 오디오 인코더 및/또는 디코더는 MPEG AAC-ELD (Advance Audio Coding Enhanced Low Delay) 표준, MPEG HE-AAC (High Efficiency AAC) 표준, MPEG SAOC (Spatial Audio Coding), 및 MPEG USAC (Unified Speech and Audio Coding) 표준 중 적어도 하나를 구현할 수도 있다.
복소수 합성 필터뱅크와 같은 필터뱅크를 구현하기 위한 방법 및/또는 장치가 제공된다. 주파수 도메인에서의 오디오 신호에 대해 복수의 N개 입력 계수들을 획득할 수도 있고, N/2개 입력 계수들의 제 1 그룹은 실수 성분들이고 N/2개 입력 계수들의 제 2 그룹은 허수 성분들이며, 제 2 그룹에서의 홀수-인덱싱된 샘플들의 부호가 제 2 그룹에서의 짝수 인덱싱된 계수들에 대해 인버팅된다. 입력 계수들의 제 1 그룹은 실수 계수들로 이루어질 수도 있고, 입력 계수들의 제 2 그룹은 허수 계수들로 이루어질 수도 있다. 입력 계수들의 제 1 그룹에 제 1 역변환을 적용하여 시간-도메인에서의 출력 샘플들의 제 1 중간 그룹을 획득할 수도 있다. 입력 계수들의 제 2 그룹에 제 2 역변환을 적용하여 시간-도메인에서의 출력 샘플들의 제 2 중간 그룹을 획득할 수도 있다. 제 1 역변환 및 제 2 역변환은 입력 계수들의 제 1 그룹 및 제 2 그룹을 변환하도록 동시에 동작할 수도 있다. 제 1 역변환 및 제 2 역변환은 모두 IDCT (Inverse Discrete Cosine Transform) 타입 IV 변환들이다. 그 필터뱅크는 분자에 (2n ± x) 의 인수를 갖는 식에 의해 표현될 수도 있고, 여기서 x 는 홀수이다. 입력 계수들의 제 1 중간 그룹으로부터 입력 계수들의 제 2 중간 그룹의 페어-와이즈 감산을 수행하여 복수의 N개 시간-도메인 출력 샘플들을 획득할 수도 있다. 주파수 도메인은 복소수 도메인일 수도 있지만, 시간-도메인 샘플들은 실수 도메인에서의 샘플들이다. 다양한 구현에서, 그 필터뱅크는, 예를 들어, 합성 직교 미러 필터뱅크 (Synthesis Quadrature Mirror Filterbank), 오디오 인코더의 일부, 및/또는 SBR (Spectral Band Replication) 디코더의 일부일 수도 있다. 오디오 디코더는 MPEG-4 AAC-ELD (Advance Audio Coding-Low Delay) 표준, MPEG-4 AAC-ELD (Enhanced Low Delay) 표준, 및 MPEG-4 MPEG-4 HE(High Efficiency)-AAC 표준 중 적어도 하나를 구현할 수도 있다.
실수 분석 필터뱅크와 같은 필터뱅크를 구현하기 위한 방법 및/또는 장치가 제공된다. 입력 오디오 신호를 복수의 N개 시간-도메인 입력 샘플들로서 획득한다. 시간-도메인 입력 샘플들의 페어-와이즈 가산 및 감산을 수행하여 N/2개 중간 샘플들의 그룹을 획득할 수도 있다. N/2개 중간 샘플들의 그룹에 변환을 적용하여 주파수 도메인에서의 N/2개 출력 계수들을 획득할 수도 있다. 시간-도메인 입력 샘플들 및 주파수 도메인 계수들은 모두 실수들일 수도 있다. 변환은 DCT (Discrete Cosine Transform) 타입 IV 변환일 수도 있다. 그 필터뱅크는 분자에 (2n ± x) 의 인수를 갖는 식에 의해 표현될 수도 있고, 여기서 x 는 홀수이다. 그 필터뱅크는, 예를 들어, 분석 직교 미러 필터뱅크 (Analysis Quadrature Mirror Filterbank), 오디오 인코더 및/또는 디코더의 일부, 및/또는 SBR (Spectral Band Replication) 인코더 및/또는 디코더의 일부일 수도 있다. 오디오 인코더 및/또는 디코더는 MPEG AAC-ELD (Advance Audio Coding Enhanced Low Delay) 표준, MPEG HE-AAC (High Efficiency AAC) 표준, MPEG SAOC (Spatial Audio Coding), 및 MPEG USAC (Unified Speech and Audio Coding) 표준 중 적어도 하나를 구현할 수도 있다.
실수 합성 필터뱅크와 같은 필터뱅크를 구현하기 위한 방법 및/또는 장치가 제공된다. 주파수 도메인에서의 오디오 신호에 대해 복수의 N/2개 입력 계수들을 획득한다. N/2개 입력 계수들의 그룹에 역변환을 적용하여 시간-도메인에서의 N개 출력 샘플들의 중간 그룹을 획득한다. N개 입력 계수들의 중간 그룹 상에서 계수들의 복제, 부호 인버전 (inversion), 및 재순서화를 수행하여 복수의 N개 시간-도메인 출력 샘플들을 획득할 수도 있다. 입력 계수들 및 시간-도메인 출력 샘플들은 모두 실수들 (즉, 실수 도메인) 일 수도 있다. 역변환은 DCT (Discrete Cosine Transform) 타입 IV 변환이다. 그 필터뱅크는 분자에 (2n ± x) 의 인수를 갖는 식에 의해 표현되고, 여기서 x 는 홀수이다. 다양한 구현에서, 그 필터뱅크는, 예를 들어, 합성 직교 미러 필터뱅크 (Synthesis Quadrature Mirror Filterbank), 오디오 디코더의 일부, 및/또는 SBR (Spectral Band Replication) 디코더의 일부일 수도 있다. 오디오 디코더는 MPEG AAC-ELD (Advance Audio Coding Enhanced Low Delay) 표준, MPEG HE-AAC (High Efficiency AAC) 표준, MPEG SAOC (Spatial Audio Coding), 및 MPEG USAC (Unified Speech and Audio Coding) 표준 중 적어도 하나를 구현한다.
동일한 참조부호가 전체적으로 대응하게 식별하는 도면과 함께 취해질 때 아래에 설명된 상세한 설명으로부터 다양한 특징, 본질, 및 이점들이 명백해질 수도 있다.
도 1 은 무선 네트워크를 통한 통신을 위해 구성된 모바일 디바이스의 일 예를 예시한 블록도이다.
도 2 는 효율적인 분석 필터뱅크를 포함할 수도 있는 AAC-ELD 인코더의 일 예를 예시한 블록도이다.
도 3 은 효율적인 분석 필터뱅크 및/또는 효율적인 합성 필터뱅크를 포함할 수도 있는 AAC-ELD 디코더의 일 예를 예시한 블록도이다.
도 4 는 효율적인 복소수 분석 필터뱅크의 일 예를 예시한 것이다.
도 5 는 하나의 예에 따른 분석 필터뱅크를 구현한 일 방법을 예시한 것이다.
도 6 은 하나의 예에 따른 분석 필터뱅크를 구현한 함수 컴포넌트들을 예시한 블록도이다.
도 7 은 효율적인 복소수 합성 필터뱅크의 일 예를 예시한 것이다.
도 8 은 하나의 예에 따른 합성 필터뱅크를 구현한 일 방법을 예시한 것이다.
도 9 는 하나의 예에 따른 합성 필터뱅크를 구현한 함수 컴포넌트들을 예시한 블록도이다.
도 10 은 효율적인 실수-도메인 분석 필터뱅크의 일 예를 예시한 것이다.
도 11 은 하나의 예에 따른 분석 필터뱅크를 구현한 일 방법을 예시한 것이다.
도 12 는 하나의 예에 따른 분석 필터뱅크를 구현한 함수 컴포넌트들을 예시한 블록도이다.
도 13 은 효율적인 실수-도메인 합성 필터뱅크의 일 예를 예시한 것이다.
도 14 는 하나의 예에 따른 합성 필터뱅크를 구현한 일 방법을 예시한 것이다.
도 15 는 하나의 예에 따른 합성 필터뱅크를 구현한 함수 컴포넌트들을 예시한 블록도이다.
이하, 동일한 참조번호가 동일한 엘리먼트를 전체적으로 참조하기 위해 사용되는 도면을 참조하여 다양한 실시형태들을 기술한다. 아래의 설명에서, 설명목적으로, 하나 이상의 실시형태들의 완전한 이해를 제공하기 위해 다수의 특정한 상세가 설명된다. 그러나, 이러한 실시형태(들) 가 이들 특정한 상세없이 실시될 수도 있다는 것이 명백할 수도 있다. 다른 경우에, 널리 공지되어 있는 구조 및 디바이스는 하나 이상의 실시형태들을 기술하는 것을 용이하게 하기 위해 블록도의 형태로 도시된다.
오디오 코덱을 가진 예시적인 모바일 디바이스
도 1 은 무선 네트워크를 통한 통신을 위해 구성된 모바일 디바이스의 일 예를 예시한 블록도이다. 모바일 디바이스 (102) 는 오디오 코덱 (106) 및 무선 통신 트랜시버 (108) 에 커플링된 프로세싱 회로 (104) 를 포함할 수도 있다. 무선 통신 트랜시버 (108) 는 모바일 디바이스가 안테나 (110) 를 통해 공중 경유로 통신을 송신 및/또는 수신하는 것을 허용한다. 오디오 코덱 (106) 은 입력 오디오 신호들 (114) 을 수신하기 위한 오디오 입력 디바이스 (112) (예를 들어, 마이크로폰) 및 오디오 신호들 (118) 을 출력하기 위한 오디오 출력 디바이스 (116) (예를 들어, 하나 이상의 스피커들) 에 커플링될 수도 있다.
다양한 예에서, 오디오 코덱 (106) 은 시간-도메인 입력 오디오 신호를 수신하도록 구성된 인코더 (120) 를 포함할 수도 있고, 시간-도메인 입력 오디오 신호를 주파수-도메인 출력 신호로 변환함으로써 그 시간-도메인 입력 오디오 신호를 효율적으로 인코딩할 수도 있다. 그 후에, 주파수-도메인 출력 신호가 모바일 디바이스에 의해 저장될 수도 있고, 오디오 출력 디바이스 (116) 를 통해 모바일 디바이스에 의해 재생될 수도 있고/있거나 무선 통신 트랜시버 (108) 를 통해 송신될 수도 있다. 부가적으로, 오디오 코덱 (106) 은 또한, 주파수-도메인 오디오 신호를 재구성된 시간-도메인 오디오 신호로 변환함으로써 그 주파수-도메인 오디오 신호를 디코딩하도록 구성된 디코더 (122) 를 포함할 수도 있다. 그 후에, 재구성된 시간-도메인 오디오 신호가 오디오 출력 디바이스 (116) 를 통해 모바일 디바이스에 의해 재생될 수도 있다. 다양한 예에서, 오디오 코덱 (106) 은 그 중에서도, MPEG AAC-ELD (Enhanced Low Delay) 표준 및/또는 MPEG HE(High Efficiency)-AAC 표준에 따라 동작하도록 구성될 수도 있다.
하나의 특징에 의하면, 오디오 코덱 (106) 은 인코더 및/또는 디코더의 효율적인 구현을 포함할 수도 있다.
예시적인 인코더 구조
도 2 는 효율적인 분석 필터뱅크를 포함할 수도 있는 AAC-ELD 인코더의 일 예를 예시한 블록도이다. AAC-ELD 인코더 (202) 는 입력 오디오 신호 (204) 를 수신할 수도 있다. 다운 샘플러 (206) 는 입력 오디오 신호 (204) 를 다운샘플링하여 그것의 샘플링 레이트를 감소시킬 수도 있다. 다운샘플링된 입력 오디오 신호 (204) 는 오디오 신호를 압축하는 AAC-ELD 코어 인코더 (208) 로 전달된 후에, 비트스트림 포맷터 (210) 에 의해 비트 스트림으로 포맷팅되어, 인코딩된 오디오 비트스트림 (212) 을 생성한다.
AAC 인코더 (208) 이외에도, 인코더 (202) 는 또한 저지연 (low-delay; LD) SBR (Spectral Band Replication) 인코더 (214) 를 포함할 수도 있다. 스펙트럼 대역 복제는 오디오 또는 음성 코덱들을 특히, 낮은 비트 레이트로 개선시키는데 이용될 수도 있고, 주파수 도메인에서의 고조파 리던던시에 기초한다. SBR 은 임의의 오디오 압축 코덱과 결합될 수 있다: 코덱 자체는 스펙트럼의 하위 및 중간 주파수들을 송신하지만, SBR 은 디코더에서 그 하위 및 중간 주파수들로부터 상승 고조파들을 트랜스포즈함으로써 더 높은 주파수 컨텐츠를 복제한다. 고주파수 스펙트럼 포락선의 재구성을 위한 일부 유도 정보가 인코더 (202) 에 의해 보조 정보로서 송신된다. SBR 은 앨리어싱 효과를 회피하기 위해 복소수값 도메인에서 동작할 수도 있어서, 상당한 시간 지연을 초래할 수도 있다.
SBR 인코더 (214) 는 분석 QMF (Quadrature Mirror Filterbank; 216) 및 포락선 계산기 (218) 를 포함할 수도 있다. 결국, 분석 QMF 뱅크 (216) 는 윈도우 함수 (220) 및 분석 QMF (AQMF) 함수 (222) 를 구현할 수도 있다. 애플리케이션 및 그것의 허용된 전력 사용에 따라, AAC-ELD 인코더는 SBR 인코더 (214) 에게 복소수값 도메인 또는 실수값 도메인에서 동작하도록 지시할 수도 있다. 양쪽 모두의 경우, 대응하는 실수 또는 복소수-도메인 분석 필터뱅크가 AQMF 함수 (222) 에 의해 구현될 수도 있다.
예시적인 디코더 구조
도 3 은 효율적인 분석 필터뱅크 및/또는 효율적인 합성 필터뱅크를 포함할 수도 있는 AAC-ELD 디코더의 일 예를 예시한 블록도이다. AAC-ELD 디코더 (302) 는 인코딩된 오디오 비트스트림 (304) 을 수신할 수도 있다. 그 후에, 엔트로피 디코더 (306), 역 양자화기 (308), 및 개선된 저지연 코어 디코더 (310) 가 인코딩된 오디오 비트스트림 (304) 을 프로세싱하여 출력 오디오 신호 (314) 를 재구성할 수도 있다. 출력 오디오 신호 (314) 를 재구성하는 것의 일부로서, 저지연 SBR 디코더 (312) 는 개선된 저지연 코어 디코더 (310) 로부터의 결과적인 신호를 프로세싱할 수도 있다.
SBR 디코더 (312) 는 분석 QMF (Quadrature Mirror Filterbank; 316), 고주파수 생성기 (318), 고주파수 조정기 (320), 및 합성 QMF 뱅크 (322) 를 포함할 수도 있다. 결국, 분석 QMF 뱅크 (116) 는 윈도우 함수 (324) 및 분석 QMF (AQMF) 함수 (326) 를 구현할 수도 있다. 복소수값 도메인 또는 실수값 도메인에서 동작하는 SBR 디코더 (312) 와 연관된 시간 지연을 해결하기 위해, 효율적인 분석 필터뱅크가 AQMF 함수 (326) 에 의해 구현될 수도 있다. 결국, 합성 QMF 뱅크 (322) 는 합성 QMF (SQMF) 함수 (328) 및 윈도우 함수 (330) 를 구현할 수도 있다. 디코더의 복잡도에 따라, SBR 디코더 (312) 는 복소수값 도메인 또는 실수값 도메인에서 동작할 수도 있다. 대응하는 실수 또는 복소수 도메인 합성 필터뱅크는 SQMF 함수 (328) 에 의해 구현될 수도 있다. 또한, 복잡도 또는 애플리케이션 요건들로 인해 공칭 주파수 대역의 절반만을 합성하는 것이 적절한 경우, 디코더는 SQMF 함수 (328) 에 의해 다운샘플링된 합성 필터뱅크를 구현할 수도 있다.
저지연 SBR 필터뱅크들
AAC-ELD 에서 정의된 2가지 타입의 저지연 SBR 필터뱅크들이 존재한다:
● 복소수 저지연 필터뱅크 (CLDFB), 및
● 실수 (또는 저복잡도) 저지연 필터뱅크.
여기서, 복소수 저지연 필터뱅크는 임의의 소정의 비트레이트에서 최상의 가능한 오디오 품질을 요구하는 애플리케이션들의 용도로 의도되지만, 저복잡도 저지연 필터뱅크는 수용가능한 결과들 (즉, 품질/레이트의 측면에서) 을 여전히 산출하는 저복잡도 버전인 것으로 의도된다.
SBR 복소수 저지연 필터뱅크 (CLDFB) 연산들은 아래와 같이 정의된다 (정규화 인수들은 무시함):
복소수 분석 QMF:
Figure pct00001
(식 1)
복소수 합성 QMF:
Figure pct00002
(식 2)
복소수 다운샘플링된 합성 QMF:
Figure pct00003
(식 3)
여기서,
Figure pct00004
이고,
Figure pct00005
이다.
AAC-ELD 에서의 실수 분석 및 합성 필터뱅크들이 또한 아래와 같이 정의된다:
실수 분석 QMF:
Figure pct00006
(식 4)
실수 합성 QMF:
Figure pct00007
(식 5)
실수 다운샘플링된 합성 QMF:
Figure pct00008
(식 6)
사이즈 N 의 DCT-IV 변환이 아래와 같이 정의된다:
Figure pct00009
(식 7)
하나의 양태에 의하면, 식 1 내지 식 6 의 필터뱅크들의 필수적 매트릭스-벡터 곱 연산들이 식 7 로 되도록 식 1 내지 식 6 의 필터뱅크들이 인수 분해된다.
복소수 분석 QMF 에 대한 매핑
식 1 의 복소수 분석 QMF 의 식 7 의 DCT-IV 변환으로의 매핑에 있어서, 식 1 은:
Figure pct00010
(식 8)
과 같이 표현될 수도 있다.
p = n - 48 인 것으로 한다. 그 후에, X(k) 는 아래와 같이 나누어질 수도 있다:
Figure pct00011
(식 9)
합계에서 이제 n = p + 64 인 것으로 한다. 그 후에:
Figure pct00012
(식 10)
여기서, x'(n) 은 2개의 성분들로서 정의될 수도 있다:
Figure pct00013
(식 11)
그 후에, X(k) 는:
Figure pct00014
(식 12)
로서 표현될 수도 있다.
다음에, X(k) 는:
Figure pct00015
(식 13)
으로서 더 나누어질 수도 있다.
다음에, n 은 두번째 합계에서 63 - n 으로 대체될 수도 있어,
Figure pct00016
(식 14)
를 산출한다.
부가적으로, x1(n) 및 x2(n) 은:
Figure pct00017
(식 15)
로서 정의될 수도 있고,
이는 식 11 에 의해:
Figure pct00018
(식 16)
인 것을 의미한다.
결과적인 식 14 에 x1(n) 및 x2(n) 을 삽입함으로써, X(k) 이:
Figure pct00019
(식 17)
로서 정의될 수도 있다.
식 17 에서의 첫번째 합계가 32-포인트 이산 코사인 변환 타입 IV (Discrete Cosine Transform type IV; DCT-IV) 이고 식 17 의 두번째 합계가 32-포인트 이산 사인 변환 타입 IV (Discrete Sine Transform type IV; DST-IV) 인 것에 주목한다.
또한, DST-IV 는 입력 부호 변화 및 출력 순열에 의해 DCT-IV 로 매핑될 수 있다. 다시 말해, 식 17 의 2개의 성분들은 X1(n) 및 X2(n) 으로서 아래와 같이:
Figure pct00020
(식 18)
로서 표현될 수도 있고,
여기서, X2(n) 은 컨버팅된 DST-IV 성분이다.
그 후에, X(k) 가:
Figure pct00021
(식 19)
와 같이 표현될 수도 있고,
여기서, 양쪽 부분들의 계산은 식 7 의 형태로 단지 DCT-IV 변환이다.
복소수 합성 QMF 에 대한 매핑
식 2 의 복소수 합성 QMF 의 식 7 의 DCT-IV 변환으로의 매핑에서, 식 2 는:
Figure pct00022
(식 20)
으로서 표현될 수도 있다.
Figure pct00023
를:
Figure pct00024
(식 21)
로서 표현하는 것으로 한다.
그 후에:
Figure pct00025
(식 22)
이다.
Figure pct00026
의 실수 및 허수 성분들이
Figure pct00027
Figure pct00028
으로서:
Figure pct00029
(식 23)
표현될 수도 있다:
Figure pct00030
은:
Figure pct00031
(식 24)
로서 표현될 수도 있다.
다음에,
Figure pct00032
이 나누어지고:
Figure pct00033
(식 25)
로서 표현될 수도 있다.
그래서, n = 0, ..., 95 의 경우:
Figure pct00034
(식 26)
이다.
그리고 n = 96, ..., 127 의 경우:
Figure pct00035
(식 27)
이다.
이제, n = 0, ..., 31 의 경우,
Figure pct00036
Figure pct00037
을,
Figure pct00038
(식 28)
Figure pct00039
(식 29)
인 것으로 고려한다.
식 28 및 식 29 의 상기 2개의 결과들로부터,
n = 0, ..., 31 의 경우,
Figure pct00040
(식 30)
인 것에 주목한다.
n = 32, ..., 63 의 경우,
Figure pct00041
(식 31)
을 또한 갖는다.
식 30 및 식 31 의 2개의 결과들로부터,
Figure pct00042
이 n = 0, ..., 63 의 경우에 대해서만 계산될 수도 있다는 것이 이제 분명하다. 나머지 값들이:
n = 0, ..., 31 의 경우,
Figure pct00043
(식 32)
n = 32, ..., 63 의 경우,
Figure pct00044
(식 33)
의 관계식들로부터 획득될 수 있다.
또한, n = 0, ..., 63 에 대한
Figure pct00045
이 64-포인트 DCT-IV 변환인 것에 주목한다.
이들 모든 관찰결과들을 조합함으로써,
Figure pct00046
을 계산하기 위한 아래의 알고리즘:
Figure pct00047
(식 34)
Figure pct00048
(식 35)
Figure pct00049
(식 36)
이 획득된다.
유사한 인수 분해가
Figure pct00050
에 대해 수행될 수 있다. 이것은 이전에 행했던 바와 같이 식 7 의 DCT-IV 변환으로 매핑할 수 있는 64-포인트 DST-IV 변환을 야기할 것이다. 결과적인 알고리즘은 아래와 같이:
Figure pct00051
(식 37)
Figure pct00052
(식 38)
Figure pct00053
(식 39)
이다.
식 24 (
Figure pct00054
) 를 재호출하고 상기 식들을 이용하여,
Figure pct00055
이 복소수 합성 QMF 에 대해 계산될 수도 있다.
복소수 다운샘플링된 합성 QMF 에 대한 매핑
식 3 으로부터 식 7 의 형태로의 복소수 다운샘플링된 합성 QMF 에 대한 유도는 분석 QMF 및 합성 QMF 에 대해 나타낸 유도들과 유사하다.
Figure pct00056
(식 40)
인 것으로 한다.
또한,
n = 0, ..., 63 의 경우,
Figure pct00057
(식 41)
인 것으로 한다.
그 후에:
Figure pct00058
(식 42)
Figure pct00059
(식 43)
Figure pct00060
(식 44)
이고,
Figure pct00061
(식 45)
Figure pct00062
(식 46)
Figure pct00063
(식 47)
이다.
실수 분석 QMF 에 대한 매핑
식 4 로부터 식 7 의 형태로의 실수 분석 QMF 에 대한 유도는 상술된 복소수 분석 QMF 에 대해 나타낸 유도들과 유사하다. 실수 분석 QMF 에 대한 결과적인 필터뱅크 식은:
(식 48)
로서 주어지고,
여기서:
Figure pct00065
(식 49)
이다.
실수 합성 QMF 에 대한 매핑
식 5 로부터 식 7 의 형태로의 실수 합성 QMF 에 대한 유도는 상술된 복소수 합성 QMF 에 대해 나타낸 유도들과 유사하다. 실수 합성 QMF 에 대한 결과적인 필터뱅크 식은:
Figure pct00066
(식 50)
Figure pct00067
(식 51)
Figure pct00068
(식 52)
로서 주어진다.
실수 다운샘플링된 합성 QMF 에 대한 매핑
식 6 로부터 식 7 의 형태로의 실수 다운샘플링된 합성 QMF 에 대한 유도는 상술된 복소수 다운샘플링된 합성 QMF 에 대해 나타낸 유도들과 유사하다. 실수 다운샘플링된 합성 QMF 에 대한 결과적인 필터뱅크 식은:
Figure pct00069
(식 53)
Figure pct00070
(식 54)
Figure pct00071
(식 55)
로서 주어진다.
상술된 모든 예에서, 필터뱅크 계산은 사이즈 N = 32, 또는 N = 64 의 DCT-IV 변환의 계산으로 효율적으로 감소된다.
복소수 분석 필터뱅크의 예시적인 인수 분해
식 1, 식 2, 식 3, 식 4, 식 5, 및 식 6 의 필터뱅크들은 홀수 단계화 또는 인덱싱되고, 이는 SBR 식의 분자가 (2n ± x) 인수를 포함하며, 여기서 x 가 홀수라는 것을 의미하는 것에 주목한다. 상기 예들에서, 식 1 및 식 4 는 (2n - 95) 를 포함하고, 식 2 및 식 5 는 (2n - 63) 을 포함하며, 식 3 및 식 6 은 (2n - 31) 을 포함한다. 실제로, 인코더들/디코더들에서 이들 필터뱅크들을 구현하는 것은, 지연을 초래하고 더 많은 프로세싱 리소스들을 필요로 하는 그 필터뱅크들의 복잡도로 인해 어렵다.
따라서, 하나의 특징은 이들 SBR 알고리즘들 (예를 들어, 식 1, 식 2, 식 3, 식 4, 식 5, 및/또는 식 6) 을 변환하여, 그 SBR 알고리즘들이 코어 DCT-IV 변환 (예를 들어, 식 7) 에 기초하여 표현될 수 있도록 한다. 즉, 효율적인 DCT-IV 변환에 기초한 SBR 알고리즘들을 구현함으로써, SBR 알고리즘은 더 효율적으로 실행될 수 있다 (예를 들어, 더 적은 프로세싱 리소스들을 필요로 하거나 더 신속하게 수행될 수 있다).
도 4 는 효율적인 복소수 분석 필터뱅크의 일 예를 예시한 것이다. 입력 오디오 신호는 복수의 시간-도메인 입력 샘플들 (406) (즉, N-포인트 샘플들) 로 샘플링된다. 시간-도메인 입력 샘플들 (예를 들어, 값들) 의 페어-와이즈 가산 및 감산 (407) 이 이용되어 중간 샘플들의 제 1 그룹 (409) 및 제 2 그룹 (411) 을 산출하고, 각각의 그룹은 N/2개 중간 샘플들을 갖는다. 제 2 그룹 (411) 에서의 중간 샘플들의 경우, 홀수-인덱싱된 샘플들의 부호가 인버팅된다 (예를 들어, (-1)n 으로 승산되고, 여기서, n 은, 예를 들어, 0 과
Figure pct00072
사이에 있을 수도 있다). 제 1 DCT-IV 변환 (402) 이 중간 샘플들의 제 1 그룹 (409) 에 적용되어 주파수-도메인에서의 출력 계수들의 제 1 그룹 (408) 을 획득한다. 제 2 DCT-IV 변환 (404) 이 중간 값들의 제 2 그룹 (411) 에 적용되어 주파수-도메인에서의 출력 계수들의 제 2 중간 그룹 (415) 을 획득한다. 출력 계수들의 제 2 중간 그룹 (415) 의 순서를 반전시켜 출력 계수들의 제 2 그룹 (410) 을 획득한다. 따라서, 시간-도메인 신호 입력 샘플들 (406) 이 주파수 도메인 (즉, 복소수 도메인 스펙트럼) 으로 컨버팅된다. 여기서, 출력 계수들의 결과적인 제 1 그룹 (408) 은 실수부를 표현하고, 출력 계수들의 제 2 그룹 (410) 은 허수부를 표현한다.
도 5 는 하나의 예에 따른 분석 필터뱅크를 구현한 일 방법을 예시한 것이다. 입력 오디오 신호는 복수의 N개 시간-도메인 입력 샘플들로서 획득될 수도 있다 (도면부호 502). 시간-도메인 입력 샘플들의 페어-와이즈 가산 및 감산을 수행하여 중간 샘플들의 제 1 그룹 및 제 2 그룹을 획득할 수도 있고, 각각의 그룹은 N/2개 중간 샘플들을 갖는다 (도면부호 504). 출력 계수들의 제 1 그룹은 실수 계수들로 이루어질 수도 있고, 출력 계수들의 제 2 그룹은 허수 계수들로 이루어진다. 그 후에, 제 2 그룹에서의 홀수-인덱싱된 중간 샘플들의 부호들이 인버팅된다 (도면부호 506). 제 1 변환이 중간 샘플들의 제 1 그룹에 적용되어 주파수 도메인에서의 출력 계수들의 제 1 그룹을 획득할 수도 있다 (도면부호 508). 제 2 변환이 중간 샘플들의 제 2 그룹에 적용되어 주파수 도메인에서의 출력 계수들의 제 2 중간 그룹을 획득할 수도 있다 (도면부호 510). 제 1 변환 및 제 2 변환은 모두 DCT (Discrete Cosine Transform) 타입 IV 변환들일 수도 있다. 제 1 변환 및 제 2 변환은 중간 샘플들의 제 1 그룹 및 제 2 그룹을 변환하도록 동시에 동작할 수도 있다. 출력 계수들의 제 2 중간 그룹에서의 계수들의 순서를 반전시켜 출력 계수들의 제 2 그룹을 획득할 수도 있다 (도면부호 512). 이용된 시간-도메인 입력 샘플들은 실수 도메인에서의 샘플들일 수도 있지만, 주파수 도메인은 복소수 도메인이다.
다양한 구현에서, 필터뱅크는, 분석 직교 미러 필터뱅크 (Analysis Quadrature Mirror Filterbank), 오디오 인코더의 일부, SBR (Spectral Band Replication) 인코더/디코더의 일부, 및/또는 오디오 디코더의 일부일 수도 있다. 오디오 인코더/디코더는 MPEG AAC-ELD (Advance Audio Coding Enhanced Low Delay) 표준, MPEG HE-AAC (High Efficiency AAC) 표준, MPEG SAOC (Spatial Audio Coding), 및 MPEG USAC (Unified Speech and Audio Coding) 표준 중 적어도 하나를 구현할 수도 있다.
도 6 은 하나의 예에 따른 분석 필터뱅크를 구현한 함수 컴포넌트들을 예시한 블록도이다. 필터뱅크 디바이스는 입력 오디오 신호 (601) 를 복수의 N개 시간-도메인 입력 샘플들로서 획득하도록 구성된 인터페이스 (604) 를 포함할 수도 있다. 그 후에, 프리-변환 회로 (pre-transform circuit; 606) 는, (a) 시간-도메인 입력 샘플들의 페어-와이즈 가산 및 감산을 수행하여 중간 샘플들의 제 1 그룹 및 제 2 그룹을 획득하고, 각각의 그룹은 N/2개 중간 샘플들을 가지며; (b) 제 2 그룹에서의 홀수-인덱싱된 중간 샘플들의 부호들을 인버팅한다. 그 후에, 제 1 변환 회로 (608) 는 중간 샘플들의 제 1 그룹에 제 1 변환을 적용하여 주파수 도메인에서의 출력 계수들의 제 1 그룹 (614) 을 획득할 수도 있다. 그 후에, 제 2 변환 회로 (610) 는 중간 샘플들의 제 2 그룹에 제 2 변환을 적용하여 주파수 도메인에서의 출력 계수들의 제 2 중간 그룹을 획득할 수도 있다. 그 후에, 포스트-변환 회로 (post-transform circuit; 612) 는 출력 계수들의 제 2 중간 그룹에서의 계수들의 순서를 반전시켜 출력 계수들의 제 2 그룹 (616) 을 획득할 수도 있다.
복소수 합성 필터뱅크의 예시적인 인수 분해
도 7 은 효율적인 복소수 합성 필터뱅크의 일 예를 예시한 것이다. 주파수 도메인 (예를 들어, 복소수 도메인) 에서의 입력 계수들이 획득되고, 여기서, 입력 계수들의 제 1 그룹 (706) 은 실수 성분들이고, 입력 계수들의 제 2 그룹 (708) 은 허수 성분들이다. 입력 계수들의 제 2 그룹 (708) 의 경우, 홀수-인덱싱된 샘플들의 부호가, 짝수 인덱싱된 계수들에 대해 인버팅된다 (예를 들어, (-1)n 으로 승산되고, 여기서, n 은, 예를 들어, 0 과
Figure pct00073
사이에 있을 수도 있다). 제 1 역 DCT-IV 변환 (702) 이 입력 계수들의 제 1 그룹 (706) 에 적용되어 주파수-도메인에서의 출력 샘플들의 제 1 중간 그룹 (707) 을 획득한다. 제 2 역 DCT-IV 변환 (704) 이 입력 계수들의 제 2 그룹 (708) 에 적용되어 시간-도메인에서의 출력 샘플들의 제 2 중간 그룹 (709) 을 획득한다. 그 후에, 제 1 중간 그룹 (707) 으로부터 제 2 중간 그룹 (709) 의 페어-와이즈 감산이 수행되어 시간-도메인 출력 샘플들 (710) (예를 들어, 값들) 을 획득한다.
도 8 은 하나의 예에 따른 합성 필터뱅크를 구현한 일 방법을 예시한 것이다. 주파수 도메인에서의 오디오 신호에 대해 복수의 N개 입력 계수들이 획득될 수 있고, 여기서, N/2개 입력 계수들의 제 1 그룹은 실수 성분들이고 N/2개 입력 계수들의 제 2 그룹은 허수 성분들이며, 제 2 그룹에서의 홀수-인덱싱된 샘플들의 부호는 제 2 그룹에서의 짝수 인덱싱된 계수들에 대해 인버팅된다 (도면부호 802). 입력 계수들의 제 1 그룹은 실수 계수들로 이루어질 수도 있고, 입력 계수들의 제 2 그룹은 허수 계수들로 이루어진다. 주파수 도메인은 복소수 도메인일 수도 있지만, 시간-도메인 샘플들은 실수 도메인에서의 샘플들이다. 그 후에, 제 1 역변환이 입력 계수들의 제 1 그룹에 적용되어 시간-도메인에서의 출력 샘플들의 제 1 중간 그룹을 획득할 수도 있다 (도면부호 804). 또한, 제 2 역변환이 입력 계수들의 제 2 그룹에 적용되어 시간-도메인에서의 출력 샘플들의 제 2 중간 그룹을 획득할 수도 있다 (도면부호 806). 제 1 역변환 및 제 2 역변환은 입력 계수들의 제 1 그룹 및 제 2 그룹을 변환하도록 동시에 동작할 수도 있다. 제 1 변환 및 제 2 변환은 IDCT (Inverse Discrete Cosine Transform) 타입 IV 변환들일 수도 있다. 입력 계수들의 제 1 중간 그룹으로부터 입력 계수들의 제 2 중간 그룹의 페어-와이즈 감산을 수행하여 복수의 N개 시간-도메인 출력 샘플들을 획득할 수도 있다 (도면부호 808).
다양한 구현에서, 필터뱅크는, 합성 직교 미러 필터뱅크, 오디오 디코더의 일부, 및/또는 SBR (Spectral Band Replication) 디코더의 일부일 수도 있다. 오디오 디코더는 MPEG-4 AAC-ELD (Advance Audio Coding-Low Delay) 표준, MPEG-4 AAC-ELD (Enhanced Low Delay) 표준, 및 MPEG-4 MPEG-4 HE(High Efficiency)-AAC 표준 중 적어도 하나를 구현한다.
도 9 는 하나의 예에 따른 합성 필터뱅크를 구현한 함수 컴포넌트들을 예시한 블록도이다. 합성 필터뱅크 (902) 는 주파수 도메인에서의 오디오 신호에 대한 복수의 N개 입력 계수들을 획득하도록 구성된 인터페이스를 포함할 수도 있고, 여기서, N/2개 입력 계수들의 제 1 그룹 (914) 은 실수 성분들이고 N/2개 입력 계수들의 제 2 그룹 (916) 은 허수 성분들이다. 프리-프로세싱 회로 (912) 는 제 2 그룹에서의 짝수 인덱싱된 계수들에 대해 제 2 그룹에서의 홀수-인덱싱된 샘플들의 부호를 반전시키도록 구성될 수도 있다. 제 1 변환 회로 (908) 는 입력 계수들의 제 1 그룹에 제 1 역변환을 적용하여 시간-도메인에서의 출력 샘플들의 제 1 중간 그룹을 획득하도록 구성될 수도 있다. 제 2 변환 회로 (910) 는 입력 계수들의 제 2 그룹에 제 2 역변환을 적용하여 시간-도메인에서의 출력 샘플들의 제 2 중간 그룹을 획득하도록 구성될 수도 있다. 포스트-변환 회로 (906) 는 입력 계수들의 제 1 중간 그룹으로부터 입력 계수들의 제 2 중간 그룹의 페어-와이즈 감산을 수행하여 복수의 N개 시간-도메인 출력 샘플들 (901) 을 획득하도록 구성될 수도 있다.
실수 분석 필터뱅크의 예시적인 인수 분해
식 48 의 실수 분석 필터뱅크는 홀수 단계화 또는 인덱싱되고, 이는 SBR 식의 분자가 (2n ± x) 인수를 포함하며, 여기서 x 가 홀수라는 것을 의미하는 것에 주목한다. 상기 예들에서, 식 48 은 (2n + 1) 을 포함한다. 실제로, 인코더들/디코더들에서 이들 필터뱅크들을 구현하는 것은, 지연을 초래하고 더 많은 프로세싱 리소스들을 필요로 하는 그 필터뱅크들의 복잡도로 인해 어렵다.
따라서, 하나의 특징은 이들 SBR 알고리즘들 (예를 들어, 식 48) 을 변환하여, 그 SBR 알고리즘들이 코어 DCT-IV 변환 (예를 들어, 식 7) 에 기초하여 표현될 수 있도록 한다. 즉, 효율적인 DCT-IV 변환에 기초한 SBR 알고리즘들을 구현함으로써, SBR 알고리즘은 더 효율적으로 실행될 수 있다 (예를 들어, 더 적은 프로세싱 리소스들을 필요로 하거나 더 신속하게 수행될 수 있다).
도 10 은 효율적인 실수-도메인 분석 필터뱅크의 일 예를 예시한 것이다. 입력 오디오 신호는 복수의 시간-도메인 입력 샘플들 (1006) (즉, N-포인트 샘플들) 로 샘플링된다. 시간-도메인 입력 샘플들 (예를 들어, 값들) 의 페어-와이즈 가산 및 감산 (1007) 이 이용되어 N/2개 중간 샘플들에 대한 그룹 (1007) 을 획득한다. 제 1 DCT-IV 변환 (1002) 이 N/2개 중간 샘플들의 그룹 (1007) 에 적용되어 주파수-도메인에서의 출력 계수들의 그룹 (1008) 을 획득한다. 여기서, 출력 계수들의 결과적인 그룹 (1008) 은 실수 성분들을 표현한다.
도 11 은 하나의 예에 따른 분석 필터뱅크를 구현한 일 방법을 예시한 것이다. 입력 오디오 신호가 복수의 N개 시간-도메인 입력 샘플들로서 획득될 수도 있다 (도면부호 1102). 시간-도메인 입력 샘플들의 페어-와이즈 가산 및 감산을 수행하여 N/2개 중간 샘플들의 그룹을 획득할 수도 있다 (도면부호 1104). 그 후에, N/2개 중간 샘플들의 그룹에 변환이 적용되어 주파수 도메인에서의 N/2개 출력 계수들을 획득할 수도 있다 (도면부호 1106). 시간-도메인 입력 샘플들 및 주파수 도메인 계수들은 실수일 수도 있다. 변환은 DCT (Discrete Cosine Transform) 타입 IV 변환일 수도 있다.
다양한 구현에서, 필터뱅크는, 분석 직교 미러 필터뱅크, 오디오 인코더의 일부, SBR (Spectral Band Replication) 인코더/디코더의 일부, 및/또는 오디오 디코더의 일부일 수도 있다. 오디오 인코더/디코더는 MPEG AAC-ELD (Advance Audio Coding Enhanced Low Delay) 표준, MPEG HE-AAC (High Efficiency AAC) 표준, MPEG SAOC (Spatial Audio Coding), 및 MPEG USAC (Unified Speech and Audio Coding) 표준 중 적어도 하나를 구현할 수도 있다.
도 12 는 하나의 예에 따른 분석 필터뱅크를 구현한 함수 컴포넌트들을 예시한 블록도이다. 필터뱅크 디바이스 (1202) 는 입력 오디오 신호 (1214) 를 복수의 N개 시간-도메인 입력 샘플들로서 획득하도록 구성된 인터페이스를 포함할 수도 있다. 프리-변환 회로 (1212) 는 시간-도메인 입력 샘플들 (1214) 의 페어-와이즈 가산 및 감산을 수행하여 N/2개 중간 샘플들의 그룹을 획득하도록 구성될 수도 있다. 변환 회로 (1208) 는 N/2개 중간 샘플들의 그룹에 변환을 적용하여 주파수 도메인에서의 N/2개 출력 계수들 (1201) 을 획득하도록 구성될 수도 있다.
실수 합성 필터뱅크의 예시적인 인수 분해
식 50 의 실수 합성 필터뱅크는 홀수 단계화 또는 인덱싱되고, 이는 SBR 식의 분자가 (2n ± x) 인수를 포함하며, 여기서 x 가 홀수라는 것을 의미하는 것에 주목한다. 상기 예들에서, 식 50 은 (2n + 1) 을 포함한다. 실제로, 디코더들에서 이들 필터뱅크들을 구현하는 것은, 지연을 초래하고/초래하거나 더 많은 프로세싱 리소스들을 필요로 하는 그 필터뱅크들의 복잡도로 인해 어렵다.
따라서, 하나의 특징은 이들 SBR 알고리즘들 (예를 들어, 식 50) 을 변환하여, 그 SBR 알고리즘들이 코어 DCT-IV 변환 (예를 들어, 식 7) 에 기초하여 표현될 수 있도록 한다. 즉, 효율적인 DCT-IV 변환에 기초한 SBR 알고리즘들을 구현함으로써, SBR 알고리즘은 더 효율적으로 실행될 수 있다 (예를 들어, 더 적은 프로세싱 리소스들을 필요로 하거나 더 신속하게 수행될 수 있다).
도 13 은 효율적인 실수-도메인 합성 필터뱅크의 일 예를 예시한 것이다. 주파수 도메인에서의 오디오 신호에 대해 복수의 N/2개 입력 계수들 (1306) 이 획득된다. 역변환 (1302) 이 N/2개 입력 계수들의 그룹에 적용되어 시간-도메인에서의 N개 출력 샘플들의 중간 그룹 (1307) 을 획득한다. 계수들의 복제, 부호 인버전, 및 재순서화가 N개 입력 계수들의 중간 그룹 (1307) 으로부터 수행되어 복수의 N개 시간-도메인 출력 샘플들 (1310) 을 획득할 수도 있다.
도 14 는 하나의 예에 따른 합성 필터뱅크를 구현한 일 방법을 예시한 것이다. 주파수 도메인에서의 오디오 신호에 대한 복수의 N/2개 입력 계수들을 획득할 수도 있다 (도면부호 1402). 역변환이 N/2개 입력 계수들의 그룹에 적용되어 시간-도메인에서의 N개 출력 샘플들의 중간 그룹을 획득할 수도 있다 (도면부호 1404). N개 입력 계수들의 중간 그룹으로부터 계수들의 복제, 부호 인버전, 및 재순서화를 수행하여 복수의 N개 시간-도메인 출력 샘플들을 획득할 수도 있다 (도면부호 1406).
다양한 구현에서, 필터뱅크는, 합성 직교 미러 필터뱅크, 오디오 디코더의 일부, SBR (Spectral Band Replication) 디코더의 일부일 수도 있다. 오디오 디코더는 MPEG AAC-ELD (Advance Audio Coding Enhanced Low Delay) 표준, MPEG HE-AAC (High Efficiency AAC) 표준, MPEG SAOC (Spatial Audio Coding), 및 MPEG USAC (Unified Speech and Audio Coding) 표준 중 적어도 하나를 구현할 수도 있다.
도 15 는 하나의 예에 따른 합성 필터뱅크를 구현한 함수 컴포넌트들을 예시한 블록도이다. 필터뱅크 디바이스 (1502) 는 주파수 도메인에서의 오디오 신호에 대한 복수의 N/2개 입력 계수들 (1514) 을 획득하도록 구성된 인터페이스를 포함할 수도 있다. 변환 회로 (1512) 는 역변환을 N/2개 입력 계수들의 그룹 (1514) 에 적용하여 시간-도메인에서의 N개 출력 샘플들의 중간 그룹을 획득하도록 구성될 수도 있다. 포스트-변환 회로 (1508) 는 N개 입력 계수들의 중간 그룹으로부터 계수들의 복제, 부호 인버전, 및 재순서화를 수행하여 복수의 N개 시간-도메인 출력 샘플들 (1501) 을 획득하도록 구성될 수도 있다.
HE - AAC USAC 에서의 SBR 필터뱅크들에 대한 고속 알고리즘들
HE-AAC, HE-AAC v2, 및 USAC 는 여기에 상술된 구조들과 유사한 SBR 필터뱅크 구조들을 이용한다. 아마도 가장 중요한 차이점은 그들의 위상 시프트가 (AAC-ELD 경우에서의 홀수에 반대되는 것으로서) 짝수로 표현된다는 것이다. 예를 들어, HE-AAC 에서의 실수 분석 필터뱅크들은 아래와 같이:
Figure pct00074
로 정의된다 (이것은, ELD-AAC 에서의 95 대신에, 48 에 의한 n 의 시프트를 이용한다).
정보 및 신호는 임의의 다양한 다른 기술 및 기법을 이용하여 표현될 수도 있다. 예를 들어, 상기 설명 전반적으로 참조될 수도 있는 데이터, 명령, 커맨드, 정보, 신호 등은, 전압, 전류, 전자기파, 자계 또는 자기 입자, 광학계 또는 광학 입자, 또는 이들의 임의의 조합에 의해 표현될 수도 있다.
여기에 기술된 다양한 예시적인 논리 블록, 모듈 및 회로 및 알고리즘 단계는 전자 하드웨어, 소프트웨어, 또는 양자의 조합으로서 구현되거나 수행될 수도 있다. 하드웨어와 소프트웨어의 이러한 상호교환가능성을 명백하게 예시하기 위해, 다양한 예시적인 컴포넌트, 블록, 모듈, 회로, 및 단계를 그들의 기능에 관하여 일반적으로 상술하였다. 이러한 기능이 하드웨어 또는 소프트웨어로서 구현되는지는, 전체 시스템에 부과된 설계 제약 및 특정한 애플리케이션에 의존한다. 구성이 플로우차트, 흐름도, 구조도, 또는 블록도로서 도시되는 프로세스로서 기술될 수도 있다는 것에 주목한다. 플로우차트가 순차적 프로세스로서 동작을 기술할 수도 있지만, 다수의 동작은 병렬로 또는 동시에 수행될 수 있다. 또한, 동작의 순서가 재배열될 수도 있다. 프로세스는 그것의 동작이 완료될 때 종료된다. 프로세스는 방법, 함수, 절차, 서브루틴, 서브프로그램 등에 대응할 수도 있다. 프로세스가 함수에 대응할 때, 그것의 종료는 호출 함수 또는 메인 함수로의 함수의 복귀에 대응한다.
하드웨어에서 구현될 때, 다양한 예는, 범용 프로세서, 디지털 신호 프로세서 (DSP), 응용 주문형 집적 회로 (ASIC), 필드 프로그래머블 게이트 어레이 신호 (FPGA) 또는 다른 프로그래머블 로직 디바이스, 개별 게이트 또는 트랜지스터 로직, 개별 하드웨어 컴포넌트 또는 여기에 기술한 기능을 수행하도록 설계된 이들의 임의의 조합을 이용할 수도 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안적으로는, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로 제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한, 연산 디바이스의 조합, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서, DSP 코어와 결합한 하나 이상의 마이크로프로세서, 또는 임의의 다른 이러한 구성으로서 구현될 수도 있다.
소프트웨어에서 구현될 때, 다양한 예들이 펌웨어, 미들웨어 또는 마이크로코드를 이용할 수도 있다. 필요한 작업을 수행하기 위한 프로그램 코드 또는 코드 세그먼트는 저장 매체 또는 다른 저장부(들) 와 같은 컴퓨터 판독가능 매체에 저장될 수도 있다. 프로세서는 필요한 작업을 수행할 수도 있다. 코드 세그먼트는 절차, 함수, 서브프로그램, 프로그램, 루틴, 서브루틴, 모듈, 소프트웨어 패키지, 클래스, 또는 명령들, 데이터 구조들 또는 프로그램 스테이트먼트들의 임의의 조합을 나타낼 수도 있다. 코드 세그먼트는 정보, 데이터, 독립변수, 파라미터, 또는 메모리 컨텐츠를 전달하고/하거나 수신함으로써 다른 코드 세그먼트 또는 하드웨어 회로에 커플링될 수도 있다. 정보, 독립변수, 파라미터, 데이터 등은, 메모리 공유, 메시지 전달, 토큰 전달, 네트워크 송신 등을 포함하는 임의의 적절한 수단을 통해 전달, 전송, 또는 송신될 수도 있다.
본 출원에서 사용되는 바와 같이, 용어 "컴포넌트", "모듈", "시스템" 등은, 컴퓨터-관련 엔터티, 하드웨어, 펌웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어, 또는 실행중의 소프트웨어를 칭하도록 의도된다. 예를 들어, 컴포넌트는 프로세서상에서 구동하는 프로세스, 프로세서, 오브젝트, 실행가능, 실행의 스레드, 프로그램, 및/또는 컴퓨터일 수도 있지만, 이에 제한되지 않는다. 예시로서, 연산 디바이스상에서 구동하는 애플리케이션 및 연산 디바이스 모두는 컴포넌트일 수 있다. 하나 이상의 컴포넌트가 프로세스 및/또는 실행의 스레드내에 상주할 수도 있고, 컴포넌트는 하나의 컴퓨터상에 로컬화될 수도 있고/있거나 2개 이상의 컴퓨터 사이에 분포될 수도 있다. 또한, 이들 컴포넌트는 다양한 데이터 구조가 저장되어 있는 다양한 컴퓨터 판독가능 매체로부터 실행할 수 있다. 컴포넌트는 하나 이상의 데이터 패킷을 갖는 신호 (예를 들어, 로컬 시스템, 분포 시스템에서 다른 컴포넌트와 상호작용하고/하거나 인터넷과 같은 네트워크를 통해 신호에 의해 다른 시스템과 상호작용하는 일 컴포넌트로부터의 데이터) 에 따르는 것과 같이 로컬 및/또는 원격 프로세스를 통해 통신할 수도 있다.
여기에서의 하나 이상의 예에서, 기술된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어에서 구현되면, 기능들은 컴퓨터 판독가능 매체 상에 하나 이상의 명령들 또는 코드로서 저장되거나 송신될 수도 있다. 컴퓨터 판독가능 매체는, 일 위치로부터 다른 위치로의 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함하는 통신 매체 및 컴퓨터 저장 매체 양자를 포함한다. 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수도 있다. 제한하지 않는 예로서, 이러한 컴퓨터 판독가능 매체는, RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 저장부, 자기 디스크 저장부 또는 다른 자기 저장 디바이스, 또는 원하는 프로그램 코드를 명령 또는 데이터 구조의 형태로 반송하거나 저장하기 위해 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 문맥이 컴퓨터 판독가능 매체를 적절하게 지칭한다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 트위스트 페어, 디지털 가입자 라인 (DSL), 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 송신되면, 동축 케이블, 광섬유 케이블, 트위스트 페어, DSL, 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술은 매체의 정의에 포함된다. 여기에 사용되는 바와 같이, disk 및 disc (디스크) 는 컴팩트 디스크 (CD), 레이저 디스크, 광디스크, DVD (digital versatile disc), 플로피 디스크 및 블루 레이 디스크를 포함하고, 여기서 disk 는 일반적으로 데이터를 자기적으로 재생하는 반면에, disc 는 데이터를 레이저로 광학적으로 재생한다. 또한, 상기의 조합이 컴퓨터 판독가능 매체의 범위 내에 포함된다. 소프트웨어는 단일 명령 또는 다수의 명령을 포함할 수도 있으며, 여러 상이한 코드 세그먼트 상에, 상이한 프로그램 중에, 그리고 다중 저장 매체에 걸쳐 분포될 수도 있다. 예시적인 저장 매체가 프로세서에 커플링될 수도 있어서, 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기록할 수 있다. 대안적으로는, 저장 매체는 프로세서와 일체형일 수도 있다.
여기에 개시된 방법은, 기술된 방법을 달성하기 위한 하나 이상의 단계 또는 동작을 포함한다. 방법 단계 및/또는 동작은, 청구범위의 범주로부터 벗어나지 않고 서로 교환가능할 수도 있다. 다시 말해, 단계 또는 동작의 특정한 순서가 기술되는 실시형태의 적절한 동작을 위해 요구되지 않으면, 특정한 단계 및/또는 동작의 순서 및/또는 사용은 청구범위의 범주를 벗어나지 않고 변경될 수도 있다.
도면들에 예시된 컴포넌트, 단계, 및/또는 함수 중 하나 이상은, 단일의 컴포넌트, 단계, 또는 함수로 재배열되고/되거나 결합될 수도 있거나 여러 컴포넌트, 단계, 또는 함수에 포함될 수도 있다. 추가의 엘리먼트들, 컴포넌트들, 단계들, 및/또는 함수들이 또한 부가될 수도 있다. 도면들에 예시된 장치, 디바이스, 및/또는 컴포넌트는, 다른 도면들에 기술된 방법, 특징, 또는 단계 중 하나 이상을 수행하도록 구성되거나 적응될 수도 있다. 여기에 기술된 알고리즘은, 예를 들어, 소프트웨어 및/또는 임베디드 하드웨어에서 효율적으로 구현될 수도 있다.
상술한 구성은 단지 예들이며 청구범위를 제한하는 것으로서 해석되지 않아야 한다. 이 구성의 설명은 예시적인 것으로 의도되며, 청구범위의 범주를 제한하지 않는다. 이와 같이, 본 교시는 다른 타입의 장치에 쉽게 적용될 수 있으며, 다수의 대안물, 변형물, 및 변경물이 당업자에게 명백할 것이다.

Claims (104)

  1. 입력 오디오 신호를 복수의 N개 시간-도메인 입력 샘플들로서 획득하는 단계;
    상기 시간-도메인 입력 샘플들의 페어-와이즈 (pair-wise) 가산 및 감산을 수행하여 중간 샘플들의 제 1 그룹 및 제 2 그룹을 획득하는 단계로서, 각각의 그룹은 N/2개 중간 샘플들을 갖는, 상기 중간 샘플들의 제 1 그룹 및 제 2 그룹을 획득하는 단계;
    상기 제 2 그룹에서의 홀수-인덱싱된 중간 샘플들의 부호들을 인버팅하는 단계;
    상기 중간 샘플들의 제 1 그룹에 제 1 변환을 적용하여 주파수 도메인에서의 출력 계수들의 제 1 그룹을 획득하는 단계;
    상기 중간 샘플들의 제 2 그룹에 제 2 변환을 적용하여 주파수 도메인에서의 출력 계수들의 제 2 중간 그룹을 획득하는 단계; 및
    상기 출력 계수들의 제 2 중간 그룹에서의 계수들의 순서를 반전시켜 출력 계수들의 제 2 그룹을 획득하는 단계를 포함하는, 필터뱅크의 구현 방법.
  2. 제 1 항에 있어서,
    이용된 상기 시간-도메인 입력 샘플들은 실수 도메인에서의 샘플들이지만, 상기 주파수 도메인은 복소수 도메인인, 필터뱅크의 구현 방법.
  3. 제 1 항에 있어서,
    상기 출력 계수들의 제 1 그룹은 실수 계수들로 이루어지고, 상기 출력 계수들의 제 2 그룹은 허수 계수들로 이루어지는, 필터뱅크의 구현 방법.
  4. 제 1 항에 있어서,
    상기 제 1 변환 및 상기 제 2 변환은 모두 DCT (Discrete Cosine Transform) 타입 IV 변환들이고,
    상기 필터뱅크는 분자에 (2n ± x) 의 인수를 갖는 식에 의해 표현되고, 여기서 x 는 홀수인, 필터뱅크의 구현 방법.
  5. 제 1 항에 있어서,
    상기 제 1 변환 및 상기 제 2 변환은 상기 중간 샘플들의 제 1 그룹 및 제 2 그룹을 변환하도록 동시에 동작하는, 필터뱅크의 구현 방법.
  6. 제 1 항에 있어서,
    상기 필터뱅크는 분석 직교 미러 필터뱅크 (Analysis Quadrature Mirror Filterbank) 인, 필터뱅크의 구현 방법.
  7. 제 1 항에 있어서,
    상기 필터뱅크는 오디오 인코더의 일부인, 필터뱅크의 구현 방법.
  8. 제 7 항에 있어서,
    상기 오디오 인코더는 MPEG AAC-ELD (Advance Audio Coding Enhanced Low Delay) 표준, MPEG HE-AAC (High Efficiency AAC) 표준, MPEG SAOC (Spatial Audio Coding), 및 MPEG USAC (Unified Speech and Audio Coding) 표준 중 적어도 하나를 구현하는, 필터뱅크의 구현 방법.
  9. 제 1 항에 있어서,
    상기 필터뱅크는 SBR (Spectral Band Replication) 인코더의 일부인, 필터뱅크의 구현 방법.
  10. 제 1 항에 있어서,
    상기 필터뱅크는 오디오 디코더의 일부인, 필터뱅크의 구현 방법.
  11. 제 10 항에 있어서,
    상기 오디오 디코더는 MPEG AAC-ELD (Advance Audio Coding Enhanced Low Delay) 표준, MPEG HE-AAC (High Efficiency AAC) 표준, MPEG SAOC (Spatial Audio Coding), 및 MPEG USAC (Unified Speech and Audio Coding) 표준 중 적어도 하나를 구현하는, 필터뱅크의 구현 방법.
  12. 제 1 항에 있어서,
    상기 필터뱅크는 SBR (Spectral Band Replication) 디코더의 일부인, 필터뱅크의 구현 방법.
  13. 입력 오디오 신호를 복수의 N개 시간-도메인 입력 샘플들로서 획득하도록 구성된 인터페이스;
    상기 시간-도메인 입력 샘플들의 페어-와이즈 가산 및 감산을 수행하여 중간 샘플들의 제 1 그룹 및 제 2 그룹을 획득하고, 각각의 그룹은 N/2개 중간 샘플들을 가지며, 상기 제 2 그룹에서의 홀수-인덱싱된 중간 샘플들의 부호들을 인버팅하도록 구성된 프리-변환 (pre-transform) 회로;
    상기 중간 샘플들의 제 1 그룹에 제 1 변환을 적용하여 주파수 도메인에서의 출력 계수들의 제 1 그룹을 획득하도록 구성된 제 1 변환 회로;
    상기 중간 샘플들의 제 2 그룹에 제 2 변환을 적용하여 주파수 도메인에서의 출력 계수들의 제 2 중간 그룹을 획득하도록 구성된 제 2 변환 회로; 및
    상기 출력 계수들의 제 2 중간 그룹에서의 계수들의 순서를 반전시켜 출력 계수들의 제 2 그룹을 획득하도록 구성된 포스트-변환 (post-transform) 회로를 포함하는, 필터뱅크 디바이스.
  14. 제 13 항에 있어서,
    이용된 상기 시간-도메인 입력 샘플들은 실수 도메인에서의 샘플들이지만, 상기 주파수 도메인은 복소수 도메인인, 필터뱅크 디바이스.
  15. 제 13 항에 있어서,
    상기 출력 계수들의 제 1 그룹은 실수 계수들로 이루어지고, 상기 출력 계수들의 제 2 그룹은 허수 계수들로 이루어지는, 필터뱅크 디바이스.
  16. 제 13 항에 있어서,
    상기 제 1 변환 및 상기 제 2 변환은 모두 DCT (Discrete Cosine Transform) 타입 IV 변환들이고,
    상기 필터뱅크는 분자에 (2n ± x) 의 인수를 갖는 식에 의해 표현되고, 여기서 x 는 홀수인, 필터뱅크 디바이스.
  17. 제 13 항에 있어서,
    상기 제 1 변환 및 상기 제 2 변환은 상기 중간 샘플들의 제 1 그룹 및 제 2 그룹을 변환하도록 동시에 동작하는, 필터뱅크 디바이스.
  18. 제 13 항에 있어서,
    상기 필터뱅크 디바이스는 분석 직교 미러 필터뱅크 (Analysis Quadrature Mirror Filterbank) 인, 필터뱅크 디바이스.
  19. 제 13 항에 있어서,
    상기 필터뱅크는 오디오 인코더의 일부인, 필터뱅크 디바이스.
  20. 제 19 항에 있어서,
    상기 오디오 인코더는 MPEG AAC-ELD (Advance Audio Coding Enhanced Low Delay) 표준, MPEG HE-AAC (High Efficiency AAC) 표준, MPEG SAOC (Spatial Audio Coding), 및 MPEG USAC (Unified Speech and Audio Coding) 표준 중 적어도 하나를 구현하는, 필터뱅크 디바이스.
  21. 제 13 항에 있어서,
    상기 필터뱅크는 SBR (Spectral Band Replication) 인코더의 일부인, 필터뱅크 디바이스.
  22. 제 13 항에 있어서,
    상기 필터뱅크는 오디오 디코더의 일부인, 필터뱅크 디바이스.
  23. 제 22 항에 있어서,
    상기 오디오 디코더는 MPEG AAC-ELD (Advance Audio Coding Enhanced Low Delay) 표준, MPEG HE-AAC (High Efficiency AAC) 표준, MPEG SAOC (Spatial Audio Coding), 및 MPEG USAC (Unified Speech and Audio Coding) 표준 중 적어도 하나를 구현하는, 필터뱅크 디바이스.
  24. 제 13 항에 있어서,
    상기 필터뱅크는 SBR (Spectral Band Replication) 디코더의 일부인, 필터뱅크 디바이스.
  25. 입력 오디오 신호를 복수의 N개 시간-도메인 입력 샘플들로서 획득하는 수단;
    상기 시간-도메인 입력 샘플들의 페어-와이즈 가산 및 감산을 수행하여 중간 샘플들의 제 1 그룹 및 제 2 그룹을 획득하는 수단으로서, 각각의 그룹은 N/2개 중간 샘플들을 갖는, 상기 중간 샘플들의 제 1 그룹 및 제 2 그룹을 획득하는 수단;
    상기 제 2 그룹에서의 홀수-인덱싱된 중간 샘플들의 부호들을 인버팅하는 수단;
    상기 중간 샘플들의 제 1 그룹에 제 1 변환을 적용하여 주파수 도메인에서의 출력 계수들의 제 1 그룹을 획득하는 수단;
    상기 중간 샘플들의 제 2 그룹에 제 2 변환을 적용하여 주파수 도메인에서의 출력 계수들의 제 2 중간 그룹을 획득하는 수단; 및
    상기 출력 계수들의 제 2 중간 그룹에서의 계수들의 순서를 반전시켜 출력 계수들의 제 2 그룹을 획득하는 수단을 포함하는, 필터뱅크 디바이스.
  26. 제 25 항에 있어서,
    상기 필터뱅크는 오디오 인코더의 일부인, 필터뱅크 디바이스.
  27. 제 26 항에 있어서,
    상기 오디오 인코더는 MPEG AAC-ELD (Advance Audio Coding Enhanced Low Delay) 표준, MPEG HE-AAC (High Efficiency AAC) 표준, MPEG SAOC (Spatial Audio Coding), 및 MPEG USAC (Unified Speech and Audio Coding) 표준 중 적어도 하나를 구현하는, 필터뱅크 디바이스.
  28. 제 25 항에 있어서,
    상기 필터뱅크는 SBR (Spectral Band Replication) 인코더의 일부인, 필터뱅크 디바이스.
  29. 제 25 항에 있어서,
    상기 필터뱅크는 오디오 디코더의 일부인, 필터뱅크 디바이스.
  30. 필터뱅크를 구현하도록 동작하는 명령들을 포함하는 머신 판독가능 매체로서,
    상기 필터뱅크는, 하나 이상의 프로세서들에 의해 실행될 때, 상기 프로세서들로 하여금:
    입력 오디오 신호를 복수의 N개 시간-도메인 입력 샘플들로서 획득하게 하고;
    상기 시간-도메인 입력 샘플들의 페어-와이즈 가산 및 감산을 수행하여 중간 샘플들의 제 1 그룹 및 제 2 그룹을 획득하게 하는 것으로서, 각각의 그룹은 N/2개 중간 샘플들을 갖는, 상기 중간 샘플들의 제 1 그룹 및 제 2 그룹을 획득하게 하고;
    상기 제 2 그룹에서의 홀수-인덱싱된 중간 샘플들의 부호들을 인버팅하게 하고;
    상기 중간 샘플들의 제 1 그룹에 제 1 변환을 적용하여 주파수 도메인에서의 출력 계수들의 제 1 그룹을 획득하게 하고;
    상기 중간 샘플들의 제 2 그룹에 제 2 변환을 적용하여 주파수 도메인에서의 출력 계수들의 제 2 중간 그룹을 획득하게 하며;
    상기 출력 계수들의 제 2 중간 그룹에서의 계수들의 순서를 반전시켜 출력 계수들의 제 2 그룹을 획득하게 하는, 머신 판독가능 매체.
  31. 제 30 항에 있어서,
    이용된 상기 시간-도메인 입력 샘플들은 실수 도메인에서의 샘플들이지만, 상기 주파수 도메인은 복소수 도메인인, 머신 판독가능 매체.
  32. 제 30 항에 있어서,
    상기 출력 계수들의 제 1 그룹은 실수 계수들로 이루어지고, 상기 출력 계수들의 제 2 그룹은 허수 계수들로 이루어지는, 머신 판독가능 매체.
  33. 주파수 도메인에서의 오디오 신호에 대한 복수의 N개 입력 계수들을 획득하는 단계로서, N/2개 입력 계수들의 제 1 그룹은 실수 성분들이고 N/2개 입력 계수들의 제 2 그룹은 허수 성분들이며, 상기 제 2 그룹에서의 홀수-인덱싱된 샘플들의 부호가 상기 제 2 그룹에서의 짝수 인덱싱된 계수들에 대해 인버팅되는, 상기 복수의 N개 입력 계수들을 획득하는 단계;
    상기 입력 계수들의 제 1 그룹에 제 1 역변환을 적용하여 시간-도메인에서의 출력 샘플들의 제 1 중간 그룹을 획득하는 단계;
    상기 입력 계수들의 제 2 그룹에 제 2 역변환을 적용하여 시간-도메인에서의 출력 샘플들의 제 2 중간 그룹을 획득하는 단계; 및
    상기 입력 계수들의 제 1 중간 그룹으로부터 상기 입력 계수들의 제 2 중간 그룹의 페어-와이즈 감산을 수행하여 복수의 N개 시간-도메인 출력 샘플들을 획득하는 단계를 포함하는, 필터뱅크의 구현 방법.
  34. 제 33 항에 있어서,
    상기 입력 계수들의 제 1 그룹은 실수 계수들로 이루어지고, 상기 입력 계수들의 제 2 그룹은 허수 계수들로 이루어지는, 필터뱅크의 구현 방법.
  35. 제 33 항에 있어서,
    상기 주파수 도메인은 복소수 도메인이지만, 상기 시간-도메인 출력 샘플들은 실수 도메인에서의 샘플들인, 필터뱅크의 구현 방법.
  36. 제 33 항에 있어서,
    상기 제 1 역변환 및 상기 제 2 역변환은 모두 IDCT (Inverse Discrete Cosine Transform) 타입 IV 변환들이고,
    상기 필터뱅크는 분자에 (2n ± x) 의 인수를 갖는 식에 의해 표현되고, 여기서 x 는 홀수인, 필터뱅크의 구현 방법.
  37. 제 33 항에 있어서,
    상기 제 1 역변환 및 상기 제 2 역변환은 상기 입력 계수들의 제 1 그룹 및 제 2 그룹을 변환하도록 동시에 동작하는, 필터뱅크의 구현 방법.
  38. 제 33 항에 있어서,
    상기 필터뱅크는 합성 직교 미러 필터뱅크 (Synthesis Quadrature Mirror Filterbank) 인, 필터뱅크의 구현 방법.
  39. 제 33 항에 있어서,
    상기 필터뱅크는 오디오 디코더의 일부인, 필터뱅크의 구현 방법.
  40. 제 39 항에 있어서,
    상기 오디오 디코더는 MPEG-4 AAC-ELD (Advance Audio Coding-Low Delay) 표준, MPEG-4 AAC-ELD (Enhanced Low Delay) 표준, 및 MPEG-4 MPEG-4 HE(High Efficiency)-AAC 표준 중 적어도 하나를 구현하는, 필터뱅크의 구현 방법.
  41. 제 33 항에 있어서,
    상기 필터뱅크는 SBR (Spectral Band Replication) 디코더의 일부인, 필터뱅크의 구현 방법.
  42. 주파수 도메인에서의 오디오 신호에 대한 복수의 N개 입력 계수들을 획득하도록 구성된 인터페이스로서, N/2개 입력 계수들의 제 1 그룹은 실수 성분들이고 N/2개 입력 계수들의 제 2 그룹은 허수 성분들인, 상기 인터페이스;
    상기 제 2 그룹에서의 홀수-인덱싱된 샘플들의 부호가 상기 제 2 그룹에서의 짝수 인덱싱된 계수들에 대해 인버팅되도록 구성된 프리-프로세싱 (pre-processing) 회로;
    상기 입력 계수들의 제 1 그룹에 제 1 역변환을 적용하여 시간-도메인에서의 출력 샘플들의 제 1 중간 그룹을 획득하도록 구성된 제 1 변환 회로;
    상기 입력 계수들의 제 2 그룹에 제 2 역변환을 적용하여 시간-도메인에서의 출력 샘플들의 제 2 중간 그룹을 획득하도록 구성된 제 2 변환 회로; 및
    상기 입력 계수들의 제 1 중간 그룹으로부터 상기 입력 계수들의 제 2 중간 그룹의 페어-와이즈 감산을 수행하여 복수의 N개 시간-도메인 출력 샘플들을 획득하도록 구성된 포스트-변환 (post-transform) 회로를 포함하는, 필터뱅크 디바이스.
  43. 제 42 항에 있어서,
    상기 입력 계수들의 제 1 그룹은 실수 계수들로 이루어지고, 상기 입력 계수들의 제 2 그룹은 허수 계수들로 이루어지는, 필터뱅크 디바이스.
  44. 제 42 항에 있어서,
    상기 주파수 도메인은 복소수 도메인이지만, 상기 시간-도메인 출력 샘플들은 실수 도메인에서의 샘플들인, 필터뱅크 디바이스.
  45. 제 42 항에 있어서,
    상기 제 1 역변환 및 상기 제 2 역변환은 모두 IDCT (Inverse Discrete Cosine Transform) 타입 IV 변환들이고,
    상기 필터뱅크는 분자에 (2n ± x) 의 인수를 갖는 식에 의해 표현되고, 여기서 x 는 홀수인, 필터뱅크 디바이스.
  46. 제 42 항에 있어서,
    상기 제 1 역변환 및 상기 제 2 역변환은 상기 입력 계수들의 제 1 그룹 및 제 2 그룹을 변환하도록 동시에 동작하는, 필터뱅크 디바이스.
  47. 제 42 항에 있어서,
    상기 필터뱅크는 합성 직교 미러 필터뱅크 (Synthesis Quadrature Mirror Filterbank) 인, 필터뱅크 디바이스.
  48. 제 42 항에 있어서,
    상기 필터뱅크는 오디오 디코더의 일부인, 필터뱅크 디바이스.
  49. 제 48 항에 있어서,
    상기 오디오 디코더는 MPEG-4 AAC-ELD (Advance Audio Coding-Low Delay) 표준, MPEG-4 AAC-ELD (Enhanced Low Delay) 표준, 및 MPEG-4 MPEG-4 HE(High Efficiency)-AAC 표준 중 적어도 하나를 구현하는, 필터뱅크 디바이스.
  50. 제 42 항에 있어서,
    상기 필터뱅크는 SBR (Spectral Band Replication) 디코더의 일부인, 필터뱅크 디바이스.
  51. 주파수 도메인에서의 오디오 신호에 대한 복수의 N개 입력 계수들을 획득하는 수단으로서, N/2개 입력 계수들의 제 1 그룹은 실수 성분들이고 N/2개 입력 계수들의 제 2 그룹은 허수 성분들이며, 상기 제 2 그룹에서의 홀수-인덱싱된 샘플들의 부호가 상기 제 2 그룹에서의 짝수 인덱싱된 계수들에 대해 인버팅되는, 상기 복수의 N개 입력 계수들을 획득하는 수단;
    상기 입력 계수들의 제 1 그룹에 제 1 역변환을 적용하여 시간-도메인에서의 출력 샘플들의 제 1 중간 그룹을 획득하는 수단;
    상기 입력 계수들의 제 2 그룹에 제 2 역변환을 적용하여 시간-도메인에서의 출력 샘플들의 제 2 중간 그룹을 획득하는 수단; 및
    상기 입력 계수들의 제 1 중간 그룹으로부터 상기 입력 계수들의 제 2 중간 그룹의 페어-와이즈 감산을 수행하여 복수의 N개 시간-도메인 출력 샘플들을 획득하는 수단을 포함하는, 필터뱅크 디바이스.
  52. 제 51 항에 있어서,
    상기 필터뱅크는 합성 직교 미러 필터뱅크 (Synthesis Quadrature Mirror Filterbank) 인, 필터뱅크 디바이스.
  53. 제 51 항에 있어서,
    상기 필터뱅크는 오디오 디코더의 일부인, 필터뱅크 디바이스.
  54. 제 53 항에 있어서,
    상기 오디오 디코더는 MPEG-4 AAC-ELD (Advance Audio Coding-Low Delay) 표준, MPEG-4 AAC-ELD (Enhanced Low Delay) 표준, 및 MPEG-4 MPEG-4 HE(High Efficiency)-AAC 표준 중 적어도 하나를 구현하는, 필터뱅크 디바이스.
  55. 제 51 항에 있어서,
    상기 필터뱅크는 SBR (Spectral Band Replication) 디코더의 일부인, 필터뱅크 디바이스.
  56. 필터뱅크를 구현하도록 동작하는 명령들을 포함하는 머신 판독가능 매체로서,
    상기 필터뱅크는, 하나 이상의 프로세서들에 의해 실행될 때, 상기 프로세서들로 하여금:
    입력 오디오 신호를 복수의 N개 시간-도메인 입력 샘플들로서 획득하게 하고;
    상기 시간-도메인 입력 샘플들의 페어-와이즈 가산 및 감산을 수행하여 중간 샘플들의 제 1 그룹 및 제 2 그룹을 획득하게 하는 것으로서, 각각의 그룹은 N/2개 중간 샘플들을 갖는, 상기 중간 샘플들의 제 1 그룹 및 제 2 그룹을 획득하게 하고;
    상기 제 2 그룹에서의 홀수-인덱싱된 중간 샘플들의 부호들을 인버팅하게 하고;
    상기 중간 샘플들의 제 1 그룹에 제 1 변환을 적용하여 주파수 도메인에서의 출력 계수들의 제 1 그룹을 획득하게 하고;
    상기 중간 샘플들의 제 2 그룹에 제 2 변환을 적용하여 주파수 도메인에서의 출력 계수들의 제 2 중간 그룹을 획득하게 하며;
    상기 출력 계수들의 제 2 중간 그룹에서의 계수들의 순서를 반전시켜 출력 계수들의 제 2 그룹을 획득하게 하는, 머신 판독가능 매체.
  57. 제 56 항에 있어서,
    상기 입력 계수들의 제 1 그룹은 실수 계수들로 이루어지고, 상기 입력 계수들의 제 2 그룹은 허수 계수들로 이루어지는, 머신 판독가능 매체.
  58. 제 56 항에 있어서,
    상기 주파수 도메인은 복소수 도메인이지만, 상기 시간-도메인 샘플들은 실수 도메인에서의 샘플들인, 머신 판독가능 매체.
  59. 입력 오디오 신호를 복수의 N개 시간-도메인 입력 샘플들로서 획득하는 단계;
    상기 시간-도메인 입력 샘플들의 페어-와이즈 가산 및 감산을 수행하여 N/2개 중간 샘플들의 그룹을 획득하는 단계; 및
    상기 N/2개 중간 샘플들의 그룹에 변환을 적용하여 주파수 도메인에서의 N/2개 출력 계수들을 획득하는 단계를 포함하는, 필터뱅크의 구현 방법.
  60. 제 59 항에 있어서,
    상기 시간-도메인 입력 샘플들 및 주파수 도메인 계수들은 모두 실수들인, 필터뱅크의 구현 방법.
  61. 제 59 항에 있어서,
    상기 변환은 DCT (Discrete Cosine Transform) 타입 IV 변환이고,
    상기 필터뱅크는 분자에 (2n ± x) 의 인수를 갖는 식에 의해 표현되고, 여기서 x 는 홀수인, 필터뱅크의 구현 방법.
  62. 제 59 항에 있어서,
    상기 필터뱅크는 분석 직교 미러 필터뱅크 (Analysis Quadrature Mirror Filterbank) 인, 필터뱅크의 구현 방법.
  63. 제 59 항에 있어서,
    상기 필터뱅크는 오디오 인코더의 일부인, 필터뱅크의 구현 방법.
  64. 제 63 항에 있어서,
    상기 오디오 인코더는 MPEG AAC-ELD (Advance Audio Coding Enhanced Low Delay) 표준, MPEG HE-AAC (High Efficiency AAC) 표준, MPEG SAOC (Spatial Audio Coding), 및 MPEG USAC (Unified Speech and Audio Coding) 표준 중 적어도 하나를 구현하는, 필터뱅크의 구현 방법.
  65. 제 59 항에 있어서,
    상기 필터뱅크는 SBR (Spectral Band Replication) 인코더의 일부인, 필터뱅크의 구현 방법.
  66. 제 59 항에 있어서,
    상기 필터뱅크는 오디오 디코더의 일부인, 필터뱅크의 구현 방법.
  67. 제 65 항에 있어서,
    상기 오디오 디코더는 MPEG AAC-ELD (Advance Audio Coding Enhanced Low Delay) 표준, MPEG HE-AAC (High Efficiency AAC) 표준, MPEG SAOC (Spatial Audio Coding), 및 MPEG USAC (Unified Speech and Audio Coding) 표준 중 적어도 하나를 구현하는, 필터뱅크의 구현 방법.
  68. 제 59 항에 있어서,
    상기 필터뱅크는 SBR (Spectral Band Replication) 디코더의 일부인, 필터뱅크의 구현 방법.
  69. 입력 오디오 신호를 복수의 N개 시간-도메인 입력 샘플들로서 획득하도록 구성된 인터페이스;
    상기 시간-도메인 입력 샘플들의 페어-와이즈 가산 및 감산을 수행하여 N/2개 중간 샘플들의 그룹을 획득하도록 구성된 프리-변환 (pre-transform) 회로; 및
    상기 N/2개 중간 샘플들의 그룹에 변환을 적용하여 주파수 도메인에서의 N/2개 출력 계수들을 획득하도록 구성된 변환 회로를 포함하는, 필터뱅크 디바이스.
  70. 제 69 항에 있어서,
    상기 시간-도메인 입력 샘플들 및 주파수 도메인 계수들은 모두 실수들인, 필터뱅크 디바이스.
  71. 제 69 항에 있어서,
    상기 변환은 DCT (Discrete Cosine Transform) 타입 IV 변환인, 필터뱅크 디바이스.
  72. 제 69 항에 있어서,
    상기 필터뱅크는 분석 직교 미러 필터뱅크 (Analysis Quadrature Mirror Filterbank) 인, 필터뱅크 디바이스.
  73. 제 69 항에 있어서,
    상기 필터뱅크는 오디오 인코더의 일부인, 필터뱅크 디바이스.
  74. 제 73 항에 있어서,
    상기 오디오 인코더는 MPEG AAC-ELD (Advance Audio Coding Enhanced Low Delay) 표준, MPEG HE-AAC (High Efficiency AAC) 표준, MPEG SAOC (Spatial Audio Coding), 및 MPEG USAC (Unified Speech and Audio Coding) 표준 중 적어도 하나를 구현하는, 필터뱅크 디바이스.
  75. 제 69 항에 있어서,
    상기 필터뱅크는 SBR (Spectral Band Replication) 인코더의 일부인, 필터뱅크 디바이스.
  76. 제 69 항에 있어서,
    상기 필터뱅크는 오디오 디코더의 일부인, 필터뱅크 디바이스.
  77. 제 76 항에 있어서,
    상기 오디오 디코더는 MPEG AAC-ELD (Advance Audio Coding Enhanced Low Delay) 표준, MPEG HE-AAC (High Efficiency AAC) 표준, MPEG SAOC (Spatial Audio Coding), 및 MPEG USAC (Unified Speech and Audio Coding) 표준 중 적어도 하나를 구현하는, 필터뱅크 디바이스.
  78. 제 69 항에 있어서,
    상기 필터뱅크는 SBR (Spectral Band Replication) 디코더의 일부인, 필터뱅크 디바이스.
  79. 입력 오디오 신호를 복수의 N개 시간-도메인 입력 샘플들로서 획득하는 수단;
    상기 시간-도메인 입력 샘플들의 페어-와이즈 가산 및 감산을 수행하여 N/2개 중간 샘플들의 그룹을 획득하는 수단; 및
    상기 N/2개 중간 샘플들의 그룹에 변환을 적용하여 주파수 도메인에서의 N/2개 출력 계수들을 획득하는 수단을 포함하는, 필터뱅크 디바이스.
  80. 제 79 항에 있어서,
    상기 필터뱅크는 분석 직교 미러 필터뱅크 (Analysis Quadrature Mirror Filterbank) 인, 필터뱅크 디바이스.
  81. 제 79 항에 있어서,
    상기 필터뱅크는 오디오 인코더의 일부인, 필터뱅크 디바이스.
  82. 제 79 항에 있어서,
    상기 필터뱅크는 SBR (Spectral Band Replication) 인코더의 일부인, 필터뱅크 디바이스.
  83. 제 79 항에 있어서,
    상기 필터뱅크는 오디오 디코더의 일부인, 필터뱅크 디바이스.
  84. 필터뱅크를 구현하도록 동작하는 명령들을 포함하는 머신 판독가능 매체로서,
    상기 필터뱅크는, 하나 이상의 프로세서들에 의해 실행될 때, 상기 프로세서들로 하여금:
    입력 오디오 신호를 복수의 N개 시간-도메인 입력 샘플들로서 획득하게 하고;
    상기 시간-도메인 입력 샘플들의 페어-와이즈 가산 및 감산을 수행하여 N/2개 중간 샘플들의 그룹을 획득하게 하며;
    상기 N/2개 중간 샘플들의 그룹에 변환을 적용하여 주파수 도메인에서의 N/2개 출력 계수들을 획득하게 하는, 머신 판독가능 매체.
  85. 제 84 항에 있어서,
    상기 시간-도메인 입력 샘플들 및 주파수 도메인 계수들은 모두 실수들인, 머신 판독가능 매체.
  86. 제 84 항에 있어서,
    상기 변환은 DCT (Discrete Cosine Transform) 타입 IV 변환인, 머신 판독가능 매체.
  87. 주파수 도메인에서의 오디오 신호에 대한 복수의 N/2개 입력 계수들을 획득하는 단계;
    상기 N/2개 입력 계수들의 그룹에 역변환을 적용하여 시간-도메인에서의 N개 출력 샘플들의 중간 그룹을 획득하는 단계; 및
    N개 입력 계수들의 중간 그룹으로부터의 계수들의 복제, 부호 인버전, 및 재순서화를 수행하여 복수의 N개 시간-도메인 출력 샘플들을 획득하는 단계를 포함하는, 필터뱅크의 구현 방법.
  88. 제 87 항에 있어서,
    상기 입력 계수들 및 상기 시간-도메인 출력 샘플들은 모두 실수들인, 필터뱅크의 구현 방법.
  89. 제 87 항에 있어서,
    상기 역변환은 DCT (Discrete Cosine Transform) 타입 IV 변환이고,
    상기 필터뱅크는 분자에 (2n ± x) 의 인수를 갖는 식에 의해 표현되고, 여기서 x 는 홀수인, 필터뱅크의 구현 방법.
  90. 제 87 항에 있어서,
    상기 필터뱅크는 합성 직교 미러 필터뱅크 (Synthesis Quadrature Mirror Filterbank) 인, 필터뱅크의 구현 방법.
  91. 제 87 항에 있어서,
    상기 필터뱅크는 오디오 디코더의 일부인, 필터뱅크의 구현 방법.
  92. 제 91 항에 있어서,
    상기 오디오 디코더는 MPEG AAC-ELD (Advance Audio Coding Enhanced Low Delay) 표준, MPEG HE-AAC (High Efficiency AAC) 표준, MPEG SAOC (Spatial Audio Coding), 및 MPEG USAC (Unified Speech and Audio Coding) 표준 중 적어도 하나를 구현하는, 필터뱅크의 구현 방법.
  93. 제 87 항에 있어서,
    상기 필터뱅크는 SBR (Spectral Band Replication) 디코더의 일부인, 필터뱅크의 구현 방법.
  94. 주파수 도메인에서의 오디오 신호에 대한 복수의 N/2개 입력 계수들을 획득하도록 구성된 인터페이스;
    상기 N/2개 입력 계수들의 그룹에 역변환을 적용하여 시간-도메인에서의 N개 출력 샘플들의 중간 그룹을 획득하도록 구성된 변환 회로; 및
    N개 입력 계수들의 중간 그룹으로부터의 계수들의 복제, 부호 인버전, 및 재순서화를 수행하여 복수의 N개 시간-도메인 출력 샘플들을 획득하도록 구성된 포스트-변환 (post-transform) 회로를 포함하는, 필터뱅크 디바이스.
  95. 제 94 항에 있어서,
    상기 입력 계수들 및 상기 시간-도메인 출력 샘플들은 모두 실수들인, 필터뱅크 디바이스.
  96. 제 94 항에 있어서,
    상기 역변환은 DCT (Discrete Cosine Transform) 타입 IV 변환이고,
    상기 필터뱅크는 분자에 (2n ± x) 의 인수를 갖는 식에 의해 표현되고, 여기서 x 는 홀수인, 필터뱅크 디바이스.
  97. 제 94 항에 있어서,
    상기 필터뱅크 디바이스는 합성 직교 미러 필터뱅크 (Synthesis Quadrature Mirror Filterbank) 인, 필터뱅크 디바이스.
  98. 제 94 항에 있어서,
    상기 필터뱅크 디바이스는 오디오 디코더의 일부인, 필터뱅크 디바이스.
  99. 제 98 항에 있어서,
    상기 오디오 디코더는 MPEG AAC-ELD (Advance Audio Coding Enhanced Low Delay) 표준, MPEG HE-AAC (High Efficiency AAC) 표준, MPEG SAOC (Spatial Audio Coding), 및 MPEG USAC (Unified Speech and Audio Coding) 표준 중 적어도 하나를 구현하는, 필터뱅크 디바이스.
  100. 제 94 항에 있어서,
    상기 필터뱅크 디바이스는 SBR (Spectral Band Replication) 디코더의 일부인, 필터뱅크 디바이스.
  101. 주파수 도메인에서의 오디오 신호에 대한 복수의 N/2개 입력 계수들을 획득하는 수단;
    상기 N/2개 입력 계수들의 그룹에 역변환을 적용하여 시간-도메인에서의 N개 출력 샘플들의 중간 그룹을 획득하는 수단; 및
    N개 입력 계수들의 중간 그룹으로부터의 계수들의 복제, 부호 인버전, 및 재순서화를 수행하여 복수의 N개 시간-도메인 출력 샘플들을 획득하는 수단을 포함하는, 필터뱅크 디바이스.
  102. 제 101 항에 있어서,
    상기 입력 계수들 및 상기 시간-도메인 출력 샘플들은 모두 실수들인, 필터뱅크 디바이스.
  103. 필터뱅크를 구현하도록 동작하는 명령들을 포함하는 머신 판독가능 매체로서,
    상기 필터뱅크는, 하나 이상의 프로세서들에 의해 실행될 때, 상기 프로세서들로 하여금:
    주파수 도메인에서의 오디오 신호에 대한 복수의 N/2개 입력 계수들을 획득하게 하고;
    상기 N/2개 입력 계수들의 그룹에 역변환을 적용하여 시간-도메인에서의 N개 출력 샘플들의 중간 그룹을 획득하게 하며;
    N개 입력 계수들의 중간 그룹으로부터의 계수들의 복제, 부호 인버전, 및 재순서화를 수행하여 복수의 N개 시간-도메인 출력 샘플들을 획득하게 하는, 머신 판독가능 매체.
  104. 제 103 항에 있어서,
    상기 입력 계수들 및 상기 시간-도메인 출력 샘플들은 모두 실수들인, 머신 판독가능 매체.
KR1020117027093A 2009-04-14 2010-04-14 저 복잡도의 스펙트럼 대역 복제 (sbr) 필터뱅크 KR101286329B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US16913209P 2009-04-14 2009-04-14
US61/169,132 2009-04-14
US12/759,248 US8392200B2 (en) 2009-04-14 2010-04-13 Low complexity spectral band replication (SBR) filterbanks
US12/759,248 2010-04-13
PCT/US2010/031089 WO2010120924A1 (en) 2009-04-14 2010-04-14 Low complexity spectral band replication (sbr) filterbanks

Publications (2)

Publication Number Publication Date
KR20120018324A true KR20120018324A (ko) 2012-03-02
KR101286329B1 KR101286329B1 (ko) 2013-07-15

Family

ID=42935075

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117027093A KR101286329B1 (ko) 2009-04-14 2010-04-14 저 복잡도의 스펙트럼 대역 복제 (sbr) 필터뱅크

Country Status (7)

Country Link
US (1) US8392200B2 (ko)
EP (1) EP2419901A1 (ko)
JP (1) JP5559304B2 (ko)
KR (1) KR101286329B1 (ko)
CN (1) CN102388418B (ko)
TW (1) TW201118861A (ko)
WO (1) WO2010120924A1 (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
TWI484473B (zh) * 2009-10-30 2015-05-11 Dolby Int Ab 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統
CN102884570B (zh) 2010-04-09 2015-06-17 杜比国际公司 基于mdct的复数预测立体声编码
JP5850216B2 (ja) * 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
MY156027A (en) 2010-08-12 2015-12-31 Fraunhofer Ges Forschung Resampling output signals of qmf based audio codecs
CN102568481B (zh) * 2010-12-21 2014-11-26 富士通株式会社 用于实现aqmf处理的方法、和用于实现sqmf处理的方法
JP6155274B2 (ja) * 2011-11-11 2017-06-28 ドルビー・インターナショナル・アーベー 過剰サンプリングされたsbrを使ったアップサンプリング
BR112015017632B1 (pt) 2013-01-29 2022-06-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Aparelho e método para gerar um sinal melhorado da frequência utilizando nivelamento temporal de sub-bandas
JP6094322B2 (ja) * 2013-03-28 2017-03-15 富士通株式会社 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置
KR20230042410A (ko) 2013-12-27 2023-03-28 소니그룹주식회사 복호화 장치 및 방법, 및 프로그램
TWI758146B (zh) * 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
CN104732979A (zh) * 2015-03-24 2015-06-24 无锡天脉聚源传媒科技有限公司 一种音频数据的处理方法及装置
CN104735512A (zh) * 2015-03-24 2015-06-24 无锡天脉聚源传媒科技有限公司 一种同步音频数据的方法、设备及系统
CA2985019C (en) * 2016-02-17 2022-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
GB2561594A (en) * 2017-04-20 2018-10-24 Nokia Technologies Oy Spatially extending in the elevation domain by spectral extension
CN113870884B (zh) * 2021-12-01 2022-03-08 全时云商务服务股份有限公司 单麦克风噪声抑制方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0101175D0 (sv) 2001-04-02 2001-04-02 Coding Technologies Sweden Ab Aliasing reduction using complex-exponential-modulated filterbanks
WO2005073959A1 (en) * 2004-01-28 2005-08-11 Koninklijke Philips Electronics N.V. Audio signal decoding using complex-valued data
WO2006048814A1 (en) * 2004-11-02 2006-05-11 Koninklijke Philips Electronics N.V. Encoding and decoding of audio signals using complex-valued filter banks
PT2109098T (pt) 2006-10-25 2020-12-18 Fraunhofer Ges Forschung Aparelho e método para gerar amostras de áudio de domínio de tempo
US8015368B2 (en) 2007-04-20 2011-09-06 Siport, Inc. Processor extensions for accelerating spectral band replication
WO2008146263A2 (en) 2007-05-19 2008-12-04 Roy Rosser Bistable electrowetting light valve
US20090099844A1 (en) * 2007-10-16 2009-04-16 Qualcomm Incorporated Efficient implementation of analysis and synthesis filterbanks for mpeg aac and mpeg aac eld encoders/decoders

Also Published As

Publication number Publication date
EP2419901A1 (en) 2012-02-22
CN102388418B (zh) 2013-09-25
WO2010120924A1 (en) 2010-10-21
KR101286329B1 (ko) 2013-07-15
JP5559304B2 (ja) 2014-07-23
US20100262427A1 (en) 2010-10-14
TW201118861A (en) 2011-06-01
JP2012524301A (ja) 2012-10-11
CN102388418A (zh) 2012-03-21
US8392200B2 (en) 2013-03-05

Similar Documents

Publication Publication Date Title
KR101286329B1 (ko) 저 복잡도의 스펙트럼 대역 복제 (sbr) 필터뱅크
JP5269908B2 (ja) 5点dct−ii、dct−iv、およびdst−ivの計算のための高速アルゴリズム、ならびにアーキテクチャ
JP4939424B2 (ja) 複素値のフィルタ・バンクを用いたオーディオ信号の符号化及び復号化
JP4887307B2 (ja) ニアトランスペアレントまたはトランスペアレントなマルチチャネルエンコーダ/デコーダ構成
RU2691231C2 (ru) Декодер для декодирования кодированного аудиосигнала и кодер для кодирования аудиосигнала
KR101329514B1 (ko) 효율적인 방식으로 변환 값들을 계산하기 위한 방법 및 장치
SG184815A1 (en) Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
JP2004531151A (ja) 時間離散オーディオサンプル値を処理する方法と装置
Britanak et al. Cosine-/Sine-Modulated Filter Banks
KR101137745B1 (ko) 분석 및 합성 필터뱅크를 제공하기 위한 방법, 디바이스, 회로 및 머신-판독가능 매체
JP6094322B2 (ja) 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置
JP2014194633A (ja) 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置
Cho et al. Implementation of an object audio system based on MPEG-4 audio lossless coding on DSP
Amutha et al. Low power fpga solution for dab audio decoder
TWI470622B (zh) 用於低頻效應頻道降低複雜度之轉換
Huang Lossless audio coding for MPEG-4

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160629

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180628

Year of fee payment: 6