KR101162462B1

KR101162462B1 - 믹서 및 그를 포함하여 구성되는 회의 시스템

Info

Publication number: KR101162462B1
Application number: KR1020117007018A
Authority: KR
Inventors: 베른하트 그릴; 마쿠스 쉐넬; 랄프 가이거; 제랄드 슐러
Original assignee: 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우.
Priority date: 2006-10-18
Filing date: 2007-08-29
Publication date: 2012-07-04
Also published as: EP2884490B1; MY153289A; PT2884490T; JP5520994B2; PL2113910T3; CN102243873B; CN102243875B; AU2007312696B2; EP2113911B1; HK1138423A1; IL226224A; USRE45339E1; ATE554480T1; JP2014059570A; IL197757A; EP2113910B1; JP2013228740A; USRE45277E1; NO342445B1; CN102243873A

Abstract

각각 다수의 정렬된 입력 샘플을 포함하는 복수의 시간영역 입력 프레임을 필터링하기 위한 분석 필터뱅크의 일실시예는 각각 복수의 윈도우된 샘플을 포함하는 복수의 윈도우된 프레임을 생성하고, 2로 나누어진 입력 프레임의 정렬된 입력 샘플들의 수보다 적은 샘플 어드밴스 값을 이용하여 중첩 방식으로 복수의 입력 프레임을 처리하도록 구성되는 윈도워와 다수의 출력 값을 각각 포함하고 각각 윈도우된 프레임의 스펙트럼 표현에 해당하는 복수의 출력 프레임을 제공하도록 구성된 시간/주파수 변환기를 포함하여 구성된다.

Description

믹서 및 그를 포함하여 구성되는 회의 시스템{A MIXER AND A CONFERENCING SYSTEM COMPRISING THE SAME}

본 발명은 예를 들어 최신의 오디오 인코딩(encoding), 오디오 디코딩(decoding) 또는 다른 오디오 전송 관련 응용 영역에서 구현될 수 있는 분석 필터뱅크(analysis filterbank), 합성 필터뱅크(systhesis filterbank) 및 앞서 언급된 필터뱅크들 중 어느 것을 포함하는 시스템에 관한 것이다. 또한 본 발명은 믹서(mixer)와 회의 시스템(conferencing system)에 관한 것이다.

최신 디지털 오디오 프로세싱은 일반적으로 각 오디오 데이터의 저장 또는 직접 전송과 비교하여 저장 공간, 전송 대역폭, 비트전송율의 측면에서 상당한 감축을 가능하게 하는 코딩 기술에 기초한다. 이것은 예를 들어 디코딩된 오디오 데이터를 청취자에게 제공하기 전에 송신측에서 오디오 데이터를 인코딩하고 수신측에서 인코딩된 데이터를 디코딩함으로써 수행될 수 있다.

이와 같은 디지털 오디오 프로세싱 시스템은 특히 다른 응용에 적합한 질을 얻을 수 있는 구현의 효율성의 측면과, 각각 오디오 데이터와 인코딩된 오디오 데이터를 인코딩 및 디코딩하는 동안에 야기되는 딜레이의 측면에서 일반적으로 표준화된 오디오 데이터 스트림, 비트전송율, 계산 복잡성(computational complexity)을 위한 일반적인 저장 공간을 포함하는 넓은 범위의 파라미터들과 관련하여 수행될 수 있다. 즉, 디지털 오디오 시스템은 오디오 데이터의 저장(예를 들면 고 음질 음악의 청취경험을 위하여)과, 매우 낮은 질의 전송으로부터 고성능 전송의 범위의 많은 다른 응용영역에서 적용될 수 있다.

그러나 대다수의 경우에는, 비트 레이트, 계산 복잡성, 음질 및 딜레이와 같은 다른 파라미터들과 관련하여 절충안이 필요하다. 예를 들어, 낮은 딜레이를 포함하는 디지털 오디오 시스템은 유사한 질적 수준에서 높은 딜레이를 갖는 오디오 시스템과 비교되는 전송 대역폭의 높은 비트 전송율이 요구될 수 있다.

다수의 정렬된 입력 샘플을 각각 포함하는 복수의 시간 영역 입력 프레임을 필터링하기 위한 분석 필터뱅크(Analysis Filterbank)의 일실시예는, 복수의 윈도우된(windowed) 샘플을 각각 포함하는 복수의 윈도우된 프레임을 생성하도록 하고, 2로 나뉜 입력 프레임의 정렬된 입력 샘플들의 수보다 적은 샘플 어드밴스(sample advance)값을 이용하여 중첩 방식(overlapping manner)으로 상기 복수의 입력 프레임을 처리하도록 구성되는 윈도워(windower)와, 다수의 출력 값을 포함하고, 윈도우된 프레임의 스펙트럼 표현인 출력 프레임을 제공하도록 구성되는 시간/주파수 변환기(converter)를 포함한다.

다수의 정렬된 입력 값들을 각각 포함하는 복수의 입력 프레임을 필터링 하기 위한 합성 필터뱅크의 일실시예는, 복수의 정렬된 출력 샘플을 각각 포함하고, 각각 하나의 입력 프레임의 시간 표현에 해당하는 복수의 출력 프레임을 제공하도록 구성되는 주파수/시간 변환기와, 복수의 윈도우된 프레임들을 발생시키도록 구성되는 윈도워를 포함한다. 각 윈도우된 프레임은 복수의 윈도우된 샘플을 포함한다. 상기 윈도워는 나아가 상기 윈도워는 샘플 어드밴스 값에 기초하여 중첩 방식에 의한 처리를 위한 복수의 윈도우된 샘플을 제공하도록 구성된다. 그리고 상기 합성 필터뱅크의 실시예는 또한 시작 섹션과 나머지 섹션을 포함하는 합산 프레임을 제공하도록 구성되는 중첩/합산기(overlap/adder)를 포함하여 구성되고, 여기서 하나의 합산 프레임은 하나의 합산 프레임의 나머지 섹션의 하나의 합산 샘플을 위하여 적어도 세 개의 윈도우된 프레임들로부터의 적어도 세 개의 윈도우된 샘플을 더하고 시작 섹션의 하나의 합산 샘플을 위하여 적어도 두 개의 다른 윈도우된 프레임으로부터의 적어도 두 개의 윈도우된 샘플들을 더함으로써 복수의 합산 샘플을 포함한다. 상기 나머지 섹션 내의 합산 샘플들을 얻기 위하여 더하는 윈도우된 샘플들의 수는 상기 시작 섹션 내의 합산 샘플을 얻기 위하여 더하는 윈도우된 샘플의 수와 비교하여 적어도 한 샘플 더 높다. 또는, 상기 윈도워는 상기 다수의 윈도우된 프레임의 각 윈도우된 프레임을 위하여 상기 정렬된 출력 샘플의 순서에 따라 적어도 가장 앞선 출력 값을 무시하거나, 대응하는 윈도우된 샘플을 기설정된 값 또는 적어도 기설정된 범위 내의 값으로 설정하도록 구성된다. 상기 중첩/합산기(230)는 적어도 세 개의 다른 윈도우된 프레임으로부터의 적어도 세 개의 윈도우된 샘플에 기초한 합산 프레임의 상기 나머지 섹션 내의 합산 샘플과, 적어도 두 개의 다른 윈도우된 프레임으로부터의 적어도 두 개의 윈도우된 샘플들에 기초한 상기 시작 섹션 내의 합산 샘플들을 제공하도록 구성된다.

M은 양의 정수, k는 프레임 색인을 나타내는 정수일 때, 각각 M 개의 정렬된 입력 값 y_k(0),...,y_k(M-1)을 포함하는 복수의 입력 프레임을 필터링 하기 위한 합성 필터뱅크의 일실시예는, 상기 입력 값 y_k(0),...,y_k(M-1)에 기초하여 2M 개의 정렬된 출력 샘플 x_k(0),...,x_k(2M-1)을 각각 포함하는 복수의 출력 프레임을 제공하도록 구성되는 역 타입 IV 이산 코사인 변환(Inverse Type-IV Discrete Cosine Transform) 주파수/시간 변환기와, 다음 등식에 기초하여 복수의 윈도우된 샘플 z_k(0),...,z_k(2M-1)을 각각 포함하는 복수의 윈도우된 프레임을 발생시키도록 구성되는 윈도워와,

일 때

여기서 n은 샘플 색인을 나타내는 정수이고, w(n)은 상기 샘플 색인 n에 대응하는 실수를 이용한 윈도우 함수 계수이고, 다음 등식에 기초하여 복수의 매개(intermediate) 샘플 m_k(0),...,m_k(M-1)을 포함하는 하나의 매개 프레임을 제공하도록 구성되는 중첩/합산기,

일 때

, 그리고 다음 등식에 기초하는 복수의 합산 샘플 out_k(0),...,out_k(M-1)를 포함하는 하나의 합산 프레임을 제공하는 리프터(lifter)를 포함하여 구성되고,

일 때,

그리고

일 때,

,

여기서 l(0),...,l(M-1)은 실수를 이용한 리프팅(lifting) 계수이다.

복수의 시간영역 입력 프레임들을 필터링하기 위한 분석 필터뱅크를 포함하는 인코더의 실시예에서, 각 입력 프레임은 다수의 정렬된 입력 샘플을 포함하고, 상기 분석 필터뱅크는, 복수의 윈도우된 샘플을 각각 포함하는 복수의 윈도우된 프레임을 생성하도록 하고, 2로 나뉜 입력 프레임의 정렬된 입력 샘플들의 수보다 적은 샘플 어드밴스 값을 이용하여 중첩 방식으로 상기 복수의 입력 프레임을 처리하도록 구성되는 윈도워와, 다수의 출력 값을 포함하는 출력 프레임을 제공하도록 구성되는 시간/주파수 변환기를 포함하여 구성되는데, 여기서 각 출력 프레임은 윈도우된 프레임의 스펙트럼 표현이 된다.

복수의 입력 프레임을 필터링 하기 위한 합성 필터뱅크를 포함하는 디코더의 일실시예에서, 입력 프레임은 다수의 정렬된 입력 값을 포함하고, 상기 합성 필터뱅크는, 복수의 정렬된 출력 샘플을 각각 포함하고, 각각 하나의 입력 프레임의 시간 표현에 해당하는 복수의 출력 프레임을 제공하도록 구성되는 주파수/시간 변환기와, 복수의 윈도우된 샘플을 각각 포함하는 복수의 윈도우된 프레임들을 발생시키도록 구성되고, 샘플 어드밴스 값에 기초하여 중첩 방식에 의한 처리를 위한 복수의 윈도우된 샘플을 제공하도록 구성되는 윈도워, 시작 섹션과 나머지 섹션을 포함하는 합산 프레임을 제공하도록 구성되는 중첩/합산기(overlap/adder)를 포함하여 구성되고, 여기서 하나의 합산 프레임은 하나의 합산 프레임의 나머지 섹션의 하나의 합산 샘플을 위하여 적어도 세 개의 윈도우된 프레임들로부터의 적어도 세 개의 윈도우된 샘플을 더하고 시작 섹션의 하나의 합산 샘플을 위하여 적어도 두 개의 다른 윈도우된 프레임으로부터의 적어도 두 개의 윈도우된 샘플들을 더함으로써 복수의 합산 샘플을 포함하고, 상기 나머지 섹션 내의 합산 샘플들을 얻기 위하여 더하는 윈도우된 샘플들의 수가 상기 시작 섹션 내의 합산 샘플을 얻기 위하여 더하는 윈도우된 샘플의 수와 비교하여 적어도 한 샘플 더 높고,

또는 상기 윈도워는 상기 다수의 윈도우된 프레임의 각 윈도우된 프레임을 위하여 상기 정렬된 출력 샘플의 순서에 따라 적어도 가장 앞선 출력 값을 무시하거나, 대응하는 윈도우된 샘플을 기설정된 값 또는 적어도 기설정된 범위 내의 값으로 설정하도록 구성되고; 상기 중첩/합산기는 적어도 세 개의 다른 윈도우된 프레임으로부터의 적어도 세 개의 윈도우된 샘플에 기초한 합산 프레임의 상기 나머지 섹션 내의 합산 샘플과, 적어도 두 개의 다른 윈도우된 프레임으로부터의 적어도 두 개의 윈도우된 샘플들에 기초한 상기 시작 섹션 내의 합산 샘플들을 제공하도록 구성된다.

복수의 입력 프레임을 필터링하기 위한 합성 필터뱅크를 포함하는 디코더의 다른 실시예에서는, 각 입력 프레임은 M 개의 정렬된 입력 값 y_k(0),...,y_k(M-1)을 포함하고, 이때 상기 M은 양의 정수, k는 프레임 색인을 나타내는 정수이며, 상기 합성 필터뱅크는, 상기 입력 값 y_k(0),...,y_k(M-1)에 기초하여 2M 개의 정렬된 출력 샘플 x_k(0),...,x_k(2M-1)을 각각 포함하는 복수의 출력 프레임을 제공하도록 구성되는 역 타입-IV 이산 코사인 변환 주파수/시간 변환기와, 다음 등식에 기초하여 복수의 윈도우된 샘플 z_k(0),...,z_k(2M-1)을 각각 포함하는 복수의 윈도우된 프레임을 발생시키도록 구성되는 윈도워와,

일 때

여기서 n은 샘플 색인을 나타내는 정수이고, w(n)은 상기 샘플 색인 n에 대응하는 실수를 이용한 윈도우 함수 계수, 다음 등식에 기초하여 복수의 매개(intermediate) 샘플 m_k(0),...,m_k(M-1)을 포함하는 하나의 매개 프레임을 제공하도록 구성되는 중첩/합산기,

일 때

,

그리고 다음 등식에 기초하는 복수의 합산 샘플 out_k(0),...,out_k(M-1)를 포함하는 하나의 합산 프레임을 제공하는 리프터(lifter)를 포함하여 구성되고,

일 때,

그리고

일 때,

,

복수의 입력 프레임을 혼합하기 위한 믹서(Mixer)의 일실시예에서, 각 입력 프레임은 대응되는 시간영역 프레임의 스펙트럼 표현이고, 복수의 입력 프레임의 각 입력 프레임은 다른 소스(source)로부터 제공되며, 복수의 입력 프레임을 엔트로피 디코딩하도록 구성되는 엔트로피 디코더와, 주파수 영역에서 엔트로피 디코딩된 복수의 입력 프레임을 스케일링하고, 주파수 영역에서 엔트로피 디코딩된 입력 프레임에 각각 대응되는 복수의 스케일링된(scaled) 프레임을 얻도록 구성되는 스케일러(scaler)와, 주파수 영역에서 합산 프레임을 생성하도록 주파수 영역에서 스케일링된 프레임을 합산하도록 구성되는 합산기(adder)와, 혼합된(mixed) 프레임을 얻기 위해 합산 프레임을 엔트로피 인코딩하도록 구성되는 엔트로피 인코더를 포함하여 구성된다.

복수의 입력 프레임을 혼합하는 믹서를 포함하여 구성되는 회의 시스템의 일실시예에서, 각 입력 프레임은 대응되는 시간영역 프레임의 스펙트럼 표현이고, 복수의 입력 프레임의 각 입력 프레임은 다른 소스로부터 제공되며, 상기 믹서는, 복수의 입력 프레임을 엔트로피 디코딩하도록 구성되는 엔트로피 디코더와, 주파수 영역에서 엔트로피 디코딩된 복수의 입력 프레임을 스케일링하고, 주파수 영역에서 엔트로피 디코딩된 입력 프레임에 각각 대응되는 복수의 스케일링된 프레임을 얻도록 구성되는 스케일러와, 주파수 영역에서 합산 프레임을 생성하도록 주파수 영역에서 스케일링된 프레임을 합산하도록 구성되는 합산기, 그리고 혼합된 프레임을 얻기 위해 합산 프레임을 엔트로피 인코딩하도록 구성되는 엔트로피 인코더를 포함하여 구성된다.

이하에서는 본 발명의 실시예들은 첨부된 도면을 참조하여 설명된다.
도 1은 분석 필터뱅크의 블럭도;
도 2는 분석 필터뱅크의 일실시예에 의하여 처리되는 입력 프레임의 개략도;
도 3은 합성 필터뱅크의 일실시예의 블럭도;
도 4는 합성 필터뱅크의 일실시예에 의하여 처리되는 구조(framework) 내의 출력 프레임들의 개략도;
도 5는 분석 필터뱅크 및 합성 필터뱅크의 일실시예의 분석 윈도우 함수와 합성 윈도우 함수의 개략도;
도 6은 사인 윈도우 함수와 비교된 분석 윈도우 함수와 합성 윈도우 함수의 비교도;
도 7은 다른 윈도우 함수들의 비교도;
도 8은 도 7에 보인 세 개의 다른 윈도우 함수들의 프리에코(pre-echo) 특성의 비교도;
도 9는 인간의 귀의 일반적인 일시적(temporal) 마스킹(masking) 현상의 개략도;
도 10은 사인(sine) 윈도우와 저딜레이(low delay) 윈도우의 주파수 반응의 비교도;
도 11은 사인 윈도우와 저중첩(low overlap) 윈도우의 주파수 반응의 비교도;
도 12는 인코더의 일실시예를 보인 도면;
도 13은 디코더의 일실시예를 보인 도면;
도 14a는 인코더와 디코더를 포함하는 시스템을 보인 도면;
도 14b는 도 14a에 보인 시스템 내에 포함되는 딜레이를 위한 다른 소스(source)를 보인 도면;
도 15는 딜레이들을 비교한 테이블;
도 16은 믹서의 일실시예를 포함하는 회의 시스템의 일실시예를 보인 도면;
도 17은 서버 또는 미디어 제어 유닛으로서의 회의 시스템의 다른 실시예를 보인 도면;
도 18은 미디어 제어 유닛의 블럭도;
도 19는 효율적 구현으로서의 합성 필터뱅크의 일실시예를 보인 도면;
도 20은 합성 필터뱅크 또는 분석 필터뱅크(AAC-ELD 코덱(codec))의 일실시예의 계산적 효율성의 평가를 포함하는 테이블;
도 21은 AAC-LD 코덱의 계산적 효율성의 평가를 포함하는 테이블;
도 22는 AAC_LD 코덱의 계산적 복잡성의 평가를 포함하는 테이블;
도 23a 및 도 23b는 세 개의 다른 코덱을 위한 RAM과 ROM의 메모리 효율성의 평가 비교를 포함하는 테이블;
도 24는 MUSHRA 테스트를 위하여 사용된 코덱의 리스트를 포함하는 테이블.

도 1 내지 24는 분석 필터뱅크, 합성 필터뱅크, 인코더, 디코더, 믹서, 회의 시스템의 다른 실시예들과 본 발명의 다른 실시예들의 함수적 특성과 특징을 묘사하는 블럭도와 다른 도면들이다. 그러나 합성 필터뱅크의 일실시예를 설명하기 전에, 도 1 및 2를 참조하여 분석 필터뱅크의 실시예와 분석 필터뱅크의 실시예에 의하여 처리되는 입력 프레임의 개요가 보다 상세하게 설명될 것이다.

도 1은 윈도워(110)와 시간/주파수 변환기(120)를 포함하는 분석 필터뱅크(100)의 제1실시예를 보이고 있다. 보다 정확하게 하기 위하여, 상기 윈도워(110)는 복수의 시간영역 입력 프레임들을 수신하도록 구성되고, 이때 각 입력 프레임은 입력(110i)에서 다수의 정렬된 입력 샘플들을 포함한다. 상기 윈도워(110)는 나아가 상기 윈도워(110)의 출력(110o)에서 상기 윈도워에 의해 제공되는 복수의 윈도우된 프레임을 발생시키도록 한다. 각 윈도우된 프레임은 복수의 윈도우된 샘플을 포함하고, 상기 윈도워(110)는 또한 도 2에서 보다 상세하게 설명되는 바와 같이, 샘플 어드밴스 값을 이용하여 중첩 방식으로 복수의 윈도우된 프레임을 처리하도록 구성된다.

시간/주파수 변환기(120)는 상기 윈도워(110)에 의하여 상기 윈도우된 프레임을 출력으로서 수신 가능하고, 다수의 출력 값을 포함하는 출력 프레임을 제공하여, 출력 프레임이 윈도우된 프레임의 스펙트럼 표현이 되도록 구성된다.

분석 필터뱅크(110)의 일실시예의 함수적 특성 및 특징을 도시하고 설명하기 위하여, 도 2는 5 개의 입력 프레임(130-(k-3), 130-(k-2), 130-(k-1), 130-k 및130-(k+1))의 개략도를 도 2의 아래부분의 화살표(140)으로 지시된 바와 같이 시간 함수로 나타내고 있다.

아래에서는, 분석 필터뱅크(100)의 일실시예의 작용이 도 2의 파선으로 나타낸 바에 의하여 입력 프레임(130-k)을 참조하여 보다 상세하게 설명될 것이다. 이와 같은 입력 프레임(130-k)을 기준으로 입력 프레임(130(k+1))은 미래 입력 프레임이고, 세 개의 입력 프레임(130-(k-1), 130-(k-2) 및 130-(k-3))은 과거 입력 프레임이다. 다시 말해, k는 프레임 색인을 나타내는 정수로서, 프레임 색인이 클수록, 각 입력 프레임은 더 나중이 되어 "미래에" 위치한다. 따라서 k보다 더 작은 입력 프레임을 갖는 입력 프레임은 "과거에" 위치한다.

각 입력 프레임(130)은 적어도 두 개의 동일한 길이를 갖는 서브섹션(subsection)(150)을 포함한다. 보다 정확히 하기 위하여, 도 2에 도시된 개략도에 도시된 분석 필터뱅크(100)의 일실시예의 경우는 상기 입력 프레임(130-k) 뿐 아니라 다른 입력 프레임들(130)도 입력 샘플들을 기준으로 볼 때 동일한 길이의 서브섹션들(150-2, 150-3, 150-3 및 150-4)을 포함하는 것으로 가정하였다. 이와 같은 상기 입력 프레임(130)의 서브섹션들(150) 각각은 M 개의 입력 샘플들을 포함하고, 이때 M은 양의 정수이다. 그리고 상기 입력 프레임(130)은 또한 M 개의 입력 샘플들을 포함할 수 있는 첫 번째 서브섹션(150-1)을 포함한다. 이 경우, 상기 첫 번째 서브섹션(150-1)은 추후 보다 상세하게 설명되는 바와 같이, 입력 샘플들 또는 다른 값들을 포함할 수 있는 입력 프레임(130)의 최초섹션(160)을 포함할 수 있다. 그러나 분석 필터뱅크의 실시예의 구체적인 구현에 따라서는, 상기 첫 번째 서브섹션(150-1)은 최초섹션(160)을 포함할 필요가 전혀 없다. 다시 말해, 상기 첫 번째 서브섹션(150-1)은 원칙적으로 다른 서브섹션들(150-2, 150-3, 150-4)와 비교하여 더 낮은 수의 입력 샘플을 포함할 수 있다. 이 경우의 예는 추후 다시 설명될 것이다.

선택적으로, 상기 첫 번째 서브섹션(150-1)와는 별개로, 다른 서브섹션들(150-2, 150-3, 150-4)이 일반적으로 같은 수의 입력 샘플들 M 개를 포함하는데, M은 소위 샘플 어드밴스 값(170)과 동일하다. 여기서 샘플 어드밴스 값(170)은 두 개의 연속된 입력 프레임(130)이 서로 시간에 대하여 이동되도록 하는 입력 샘플의 수를 나타낸다. 다시 말하면, 도 1 및 2에 도시된 바와 같은 분석 필터뱅크(100)의 일실시예의 경우, 화살표(170)에 의해 표시된 것과 같이 상기 샘플 어드밴스 값 M이 서브섹션들(150-2, 150-3, 150-4)dml 길이와 같기 때문에, 상기 입력 프레임들(130)은 중첩 방식으로 윈도워(110)에 의해 생성되고 처리된다. 또한 상기 샘플 어드밴스 값 M(화살표170)은 서브섹션들(150-2 내지 150-4)의 길이와도 동일하다.

입력 프레임(130-k 및 130-(k+1))은 따라서, 입력 샘플들의 상당한 수를 기준으로 볼 때, 그들이 두 입력 프레임(130)의 개별적인 서브섹션들(150)에 대하여 이동될 때 두 입력 프레임이 이 입력 샘플들을 포함한다는 의미에서 동일하다. 보다 정확하게는, 상기 입력 프레임(130-k)의 세 번째 서브섹션(150-3)은 입력 프레임(130-(k+1))의 네 번째 서브섹션(150-4)와 동일하다. 따라서 상기 입력 프레임(130-k)의 두 번째 서브섹션(150-2)는 입력 프레임(130-(k+1)의 세 번째 세브섹션(150-3)과 같다.

또 다른 말로는, 프레임 색인 k와 (k+1)에 대응하는 두 입력 프레임(130-k, 130-(k+1))은 색인 (k+1)의 입력 프레임을 기준으로 샘플들이 이동되는 사실과는 별개로, 도 2에 도시된 실시예의 경우 두 서브섹션들(150)을 기준으로는 서로 동일하다.

위에서 언급된 두 입력 프레임(130-k, 130-(k+1))은 나아가 상기 입력 프레임(130-k)의 첫 번째 서브섹션(150-1)로부터 적어도 하나의 샘플을 공유한다. 더 정확히는, 도 2에 도시된 실시예의 경우, 입력 프레임(130-k)의 첫 번째 서브섹션(150-1) 내의 최초 섹션(160)의 일부가 아닌 모든 입력 샘플들은 입력 프레임(130-(k+1))의 두 번째 서브섹션(150-2)의 일부에 나타난다. 그러나, 상기 입력 프레임(130-k)의 최초섹션(160)에 대응하는 두 번째 서브섹션(150-2)의 입력 샘플들은 분석 필터뱅크의 실시예의 구체적인 구현에 따라, 각 입력 프레임(130)의 최초섹션(160)의 입력 값 또는 입력 샘플들에 근거할 수도 있고 아닐 수도 있다.

최초섹션(160)이 존재하는 경우, 첫 번째 섹션(150-1) 내의 입력 프레임의 수가 다른 서브섹션들(150-2 내지 150-4) 내의 입력 샘플들의 수와 동일하게 되는데, 비록 추후 설명될 이 두가지 "극단적" 경우 사이에서 다른 케이스들 또한 가능하지만, 원칙적으로 두 가지 다른 경우가 고려된다.

만약 상기 최초섹션(160) 내의 입력 샘플들이 시간 영역의 오디오 신호를 표현한다는 의미에서, 최초섹션(160)이 "의미있는" 인코딩된 입력 샘플들을 포함하는 경우, 이 입력 샘플들은 다음의 입력 프레임 130-(k+1)의 서브섹션(150-2)의 일부가 될 것이다. 그러나 이 경우 이와 같은 옵션은 추가적인 딜레이를 야기할 수 있기 때문에, 분석 필터뱅크의 실시예의 많은 응용에서, 최적의 구현은 아니다.

그러나 최초섹션(160)이 "의미있는" 입력 샘플을 포함하지 않는 경우, 입력 샘플들은 이 경우에는 또한 입력 값으로 불릴 수 있고, 상기 최초섹션(160)의 대응하는 입력 값들은 예를 들어 알고리즘 연산, 한정 또는 상기 분석 필터뱅크의 실시예의 상기 윈도워(110)의 상기 입력(110i)으로 연결되는 유닛이나 모듈에 의한 다른 고정 등에 의하여 제공될 수 있는 무작위(random) 값들, 기설정된, 고정된, 적응적인(adaptable) 또는 프로그래밍 가능한 값을 포함할 수 있다. 그러나 이 경우, 이 모듈은 일반적으로, 입력 프레임(130-(k+1))으로써, 그 두 번째 서브섹션(150-2)에 앞의 입력 프레임의 상기 최초섹션(160)에 대응되는 영역 내에 대응하는 오디오 신호에 대응되는 "의미있는" 입력 샘플들을 포함하는 입력 프레임을 제공하여야 한다. 또한 상기 윈도워(110)의 상기 입력(110i)에 연결되는 상기 유닛이나 모듈은 일반적으로 상기 입력 프레임(130-(k+1)의 상기 첫 번째 서브섹션(150-1)의 구조 내에 오디오 신호에 대응하는 의미있는 입력 샘플을 제공할 것이 요구된다.

다시 말해, 이 경우, 프레임 색인 k에 대응하는 입력 프레임(130-k)는 충분한 입력 샘플들이 모인 후에 분석 필터뱅크(100)의 실시예에 제공된다. 그리하여 이 입력 프레임의 서브섹션(150-1)은 이 입력 샘플들로 채워진다. 상기 첫번째 서브 섹션(150-1)의 나머지, 즉 상기 최초섹션(160)은 그 후 입력 샘플들 또는 무작위 값 또는 기설정된, 고정된, 적응적인 또는 프로그래밍 가능한 값들이나 이들의 다른 조합 등의 다른 값을 포함할 수 있는 입력 값들로 채워진다. 원칙적으로, 이 것은 "의미있는" 입력 샘플들과 함께 상기 입력 프레임(130-k)의 최초섹션(160)이 제공되는 일반적인 샘플링 주파수와 비교하여 매우 높은 속도로 이루어질 수 있기 때문에, 몇 kHz에서 몇 백 kHz에 이르는 일반적인 샘플링 주파수에 의해 제공되는 정도의 상당한 시간을 요구하지 않는다.

그러나, 상기 유닛 도는 모듈은 이 입력 샘플들을 프레임 색인 k+1에 대응하는 다음 입력 프레임(130-(k+1))으로 통합하기 위하여 상기 오디오 신호에 기초하여 입력 샘플들을 모으는 것을 지속한다. 다시 말해, 비록 상기 유닛이나 모듈이 첫 번째 서브섹션(150-1)을 기준으로 이 입력 프레임의 첫 번째 서브섹션(150-1)을 완전히 채우기 충분한 입력 샘플들을 상기 입력 프레임(150-1)에 제공하기 위한 충분한 입력 샘플을 모으는 것을 완료하지 못하였더라도, 상기 분석 필터뱅크(100)의 실시예로 가능한한 충분한 입력 샘플들이 사용되도록 이 입력 프레임을 제공하여, 상기 첫 번째 서브섹션(150-1)이 상기 최초섹션(160) 없이 입력샘플들로 채워질 수 있도록 한다.

다음 입력 샘플들은 충분한 입력 샘플들이 모일 때까지, 다음 입력 프레임 (130-(k+1))의 두 번째 서브섹션(150-2)의 나머지 입력 샘플들을 채우는데 사용됨으로써, 이 프레임의 상기 최초섹션(160)이 시작될 때까지 이 다음 입력 프레임의 상기 제1 서브섹션(150-1)이 채워질 수 있다. 그 다음에는, 다시, 상기 최초섹션(160)이 무작위 수들이나 다른 "의미없는" 입력 샘플들 또는 입력 값들로 채워질 것이다.

결론적으로, (비록) 도 2에 도시된 실시예에서 상기 서브섹션(150-2 내지 150-4)의 길이와 동일한 상기 샘플 어드밴스 값(170)이 도 2에 나타나 있고, 상기 샘플 어드밴스 값(170)을 표현하는 에러(error)는 도 2에 상기 입력 프레임(130-k)의 상기 최초섹션(160)의 시작으로부터 그 다음 입력 프레임(130-(k+1))의 상기 최초섹션(160)의 시작까지 도시되어 있다.

다른 결론으로서, 지난 두 경우에서 상기 최초섹션(160)에 대응하는 오디오 신호 내의 이벤트(event)에 대응하는 입력 샘플은 개별적인 입력 프레임(130-k) 내가 아니라 그 다음 입력 프레임(130-(k+1)) 내의 제2 서브섹션(150-2)의 구조 내에 제공될 것이다.

즉, 상기 최초섹션(160)에 대응하는 입력 샘플들이 상기 개별적인 입력 프레임(130-k)의 일부가 아니라 그 다음 입력 프레임(130-(k+1))에 영향을 주기 때문에, 분석 필터뱅크(100)의 많은 실시예들은 감소된 딜레이를 갖는 출력 프레임을 제공할 수 있다. 다시 말해, 분석 필터뱅크의 일실시예는 상기 첫 번째 서브섹션(150-1)이 다른 서브섹션(150-2 내지 150-4)와 같은 수의 입력 샘플들을 포함하는 것이 요구되지 않기 때문에, 많은 응용 및 구현 내에서 더 앞선 입력 프레임에 기초하여 출력 프레임을 제공한다는 이점을 제공한다. 그러나 "없어진(missing) 섹션" 내에 포함되는 정보들은 각 입력 프레임(130)의 두 번째 서브섹션(150-2)의 구조 내에 다음 입력 프레임(130)에 포함된다.

그러나 이미 설명한 바와 같이 어떤 입력 프레임(130)도 상기 최초섹션(160)을 포함하지 않는 경우도 존재할 수 있다. 이 경우 입력 프레임(130) 각각의 길이는 더이상 상기 샘플 어드밴스 값(170) 또는 상기 서브섹션(150-2 내지 150-4)의 길이의 정수배가 아니다. 더 정확하게는, 이 경우 각 입력 프레임(130)의 각 길이는 상기 윈도워(110)에 각 입력 프레임을 제공하는 상기 모듈이나 유닛이 모두 채워지기 전까지만 첫 번째 서브섹션(150-1)에 제공하는 입력 샘플의 수에 의하여 샘플 어드밴스 값에 대응하는 정수배와 다르게 된다. 즉, 입력 프레임(130)의 전체 길이는 첫 번째 서브섹션(150-1)의 길이와 다른 서브섹션들(150-2 내지 150-4)의 길이 사이의 차이에 의하여 각 정수의 샘플 어드밴스 값과 서로 다르다.

그러나 이미 설명한 지난 두 경우에, 예를 들어, 샘플러(sampler), 샘플-홀드 스테이지(sample and hold stage), 샘플-홀더(sample and holder) 또는 양자화기(quantizer)를 포함할 수 있는 상기 모듈 또는 유닛은 대응하는 입력 프레임(130)을 기설정된 입력 샘플 수보다 적게 제공하기 시작할 수 있고, 따라서 각 입력 프레임(130)은 완성된 첫 번째 서브섹션(150-1)이 대응하는 입력 샘플들에 의하여 채워진 경우와 비교하여 더 적은 딜레이로 분석 필터뱅크(100)의 실시예로 제공될 수 있다.

이미 설명된 것과 같이 상기 윈도워(110)의 상기 입력(110i)으로 연결될 수 있는 위와 같은 유닛 또는 모듈들은 예를 들어, 샘플러 및/또는 아날로그/디지털 변환기(A/D converter)와 같은 양자화기를 포함할 수 있다. 그러나 구체적인 구현예에 따라, 그와 같은 모듈이나 유닛은 상기 오디오 신호에 대응되는 입력 샘플들을 저장하기 위한 메모리나 레지스터 등을 더 포함할 수도 있다.

또한, 이와 같은 유닛이나 모듈은 샘플 어드밴스 값 M에기초하여 중첩 방식으로 각 입력 프레임을 제공할 수 있다. 즉, 하나의 입력 프레임은 각 프레임 또는 블록 당 모인 샘플의 수와 비교하여 그의 두 배보다 많은 수의 입력 샘플들을 포함할 수 있다. 상기 모듈 또는 유닛은 많은 실시예들에서 두 개의 연속적으로 생성된 입력 프레임들이 상기 샘플 어드밴스 값에 의해 시간에 대하여 이동된 복수의 샘플들에 기초하도록 적용될 수 있다. 이 경우, 두 연속적으로 생성된 입력 프레임 중 더 나중의 입력 프레임은 가장 앞선 출력 샘플로서, 적어도 하나의 새로운 출력 샘플에 기초한다. 그리고 위에서 언급된 복수의 샘플들은 두 입력 프레임 중 더 앞선 입력 프레임 내의 샘플 어드밴스 값에 의해 나중에 이동된다.

비록 지금까지 분석 필터뱅크(100)의 일실시예가 첫번째 서브섹션(150)이 다른 서브섹션들의 입력 샘플 수와 같은 수의 입력 샘플을 포함하지 않아도 되는 4 개의 서브섹션(150)을 포함하는 각 입력 프레임(130)을 기준으로 하여 설명되었으나, 도 2에 도시된 경우와 같은 4 개의 서브섹션이 있어야 하는 것은 아니다. 더 정확하게는, 입력 프레임(130)은 원칙적으로 상기 샘플 어드밴스 값 M(화살표 170)의 크기에 두 배보다 큰 임의의 수의 입력 샘플들을 포함할 수 있다. 그리고 여기서 만약 존재한다면, 상기 최초섹션(160)의 입력 값의 수는, 이 수에 포함되어야 한다. 왜냐하면 프레임을 이용하는 시스템에 기초한 실시예들의 구현을 고려하는 것이 도움이 될 수 있다. 여기서 각 프레임은 상기 샘플 어드밴스 값과 동일한 수의 샘플들을 포함한다. 다시 말해, 프레임 기반의 시스템의 경우 3 개와 같거나 큰 수의 샘플 어드밴스 값 M(화살표 170)과 동일한 길이를 각각 갖는 어떤 수의 서브섹션들도 분석 필터뱅크(100)의 실시예의 구조 내에 사용될 수 있다.

도 1에 도시된 바와 같은 분석 필터뱅크(100)의 일실시예에 의한 상기 윈도워(110)는 이미 설명한 바와 같이 중첩 방식으로 상기 샘플 어드밴스 값 M(화살표 170)에 근거한 대응되는 입력 프레임(130)들에 기초하여 복수의 윈도우된 프레임을 생성하도록 구성된다. 더 분명하게는, 윈도워(110)의 구체적인 구현에 따라서는 상기 윈도워(110)는 인간의 귀의 청취 특성을 모델로 하여 로그 의존성(logarithmic dependence)을 포함하는 계량 함수에 기초하여 윈도우된 프레임을 생성하도록 구성된다. 그러나 인간의 귀의 음향 심리학적(psycho-acoustic) 특성의 계량 함수 모델링과 같은 다른 계량 함수들도 이용될 수 있다. 그러나 상기 분석 필터뱅크의 실시예에서 구현되는 상기 윈도워 함수가 사용됨으로써 각 입력 프레임의 입력 샘플들이 실수를 이용한 샘플-특정 윈도우 계수를 포함하는 실수를 이용한 윈도워 함수에 의해 곱하여질 수 있도록 할 수도 있다.

이와 같은 구현예가 도 2에 도시되어 있다. 보다 정확하게는, 도 2에는 가능한 윈도우 함수 또는 도 1에 도시된 바와 같이 윈도워(110)가 대응하는 입력 프레임(130)에 기초하여 상기 윈도우된 프레임을 생성함에 의하는 윈도우잉 함수(180)의 개략적인 대강의 표현을 보여준다. 분석 필터뱅크(100)의 구체적인 구현에 따라서는, 상기 윈도워(110)는 또한 다른 방식으로 시간/주파수 변환기(120)로 윈도우된 프레임을 제공한다.

상기 입력 프레임(130)의 각각에 기초하여, 상기 윈도워(110)는 복수의 윈도우된 샘플을 각각 포함하는 윈도우 프레임을 생성하도록 구성된다. 보다 정확히는, 상기 윈도워(110)는 다른 방식으로 구성될 수도 있다. 입력 프레임(130)의 길이에 따라, 그리고 상기 시간/주파수 제공자(120)로 제공될 윈도우된 프레임의 길이에 따라 상기 윈도워(110)가 상기 윈도우된 프레임을 생성하도록 하는 몇 가지 가능성들이 실현될 수 있다.

만약, 예를 들어, 입력 프레임(130)이 최초섹션(160)을 포함하고, 그에 따라 도 2에 도시된 실시예의 경우에서 각각의 상기 입력 프레임(130)의 첫 번째 서브섹션(150-1)이 다른 서브섹션(150-2 내지 150-4)와 동일한 수의 입력 값들 또는 입력 샘플들을 포함한다면, 상기 윈도워(110)는 예를 들어 상기 윈도우된 프레임들 또한 상기 입력 프레임(130)이 입력 값의 입력 샘플을 포함하는 것과 같은 수의 윈도우된 샘플들을 포함한다. 이 경우, 상기 입력 프레임(130)의 구조에 의하여 이미 설명한 바와 같이 상기 최초섹션(160)에서 상기 입력 프레임(130)의 입력 값들과 별개로 상기 입력 프레임의 모든 입력 샘플들이 상기 윈도워(110)에 의하여 이미 설명된 바와 같은 윈도우잉 함수 또는 윈도우 함수에 기초하여 처리된다. 상기 상기 최초섹션(160)의 입력값은 이 경우 기설정된 값 또는 적어도 기설정된 범위 내의 값으로 설정된다.

상기 기설정된 값은 예를 들어 어떤 분석 필터뱅크(100)의 실시예에서는 그 값이 0(영)이 될 수 있다. 반면에 다른 실시예들에서는 다른 값들이 바람직할 수도 있다. 예를 들어, 원칙적으로 상기 입력 프레임(130)의 상기 최초섹션(160)에 대한 어떤 값이라도 그것이 대응하는 값이 상기 오디오 신호의 견지에서 중요성을 갖지 않음을 나타내는 경우 사용될 수 있다. 예를 들어 기설정된 값은 상기 오디오 신호의 입력 샘플들의 전형적인 범위를 넘어서는 값이 될 수 있다. 예를 들어, 상기 입력 프레임(130)의 상기 최초섹션(160)에 대응하는 윈도우된 프레임의 섹션 내의 윈도우된 샘플들은 이 값들이 더 처리될 신호들에 해당하지 않음을 나타내는 입력 오디오 신호의 최대 진폭의 두 배 또는 그 이상의 값으로 설정될 수 있다. 다른 값들은 예를 들어 실행-특정 절대 값의 음수값들 또한 사용될 수 있다.

나아가 분석 필터뱅크(100)의 실시예들에서 입력 프레임(130)의 상기 최초섹션(160)에 대응하는 윈도우된 프레임들의 윈도우된 샘플들은 기설정된 범위 내의 하나 또는 그 이상의 값으로 설정될 수 있다. 원칙적으로 이와 같은 설정된 범위는 예를 들어 결과가 청각적으로 구별할 수 없거나 청취 체감이 심각하게 방해받지 않도록, 음향 체감(audio experience)의 견지에서 의미없는 정도의 작은 값의 범위가 될 수 있다. 이 경우, 상기 기설정된 범위는 예를 들어 기설정된, 프로그래밍 가능한, 적응적인 또는 고정된 최대 경계값(threshold)과 동일하거나 작은 절대값을 갖는 값들의 세트로서 표현될 수 있다. 이와 같은 경계값은 예를 들어 10^s 또는 2^s와 같이, 10의 거듭제곱 또는 2의 거듭제곱으로 표현될 수 있다. 이때 s는 구체적 구현에 따라 달라질 수 있는 정수 값이 된다.

그러나 원칙적으로 상기 기설정된 범위는 또한 어떤 의미있는 값들보다 큰 값들을 포함할 수 있다. 보다 정확하게는, 상기 기설정된 범위는 프로그래밍 가능한, 기설정된 또는 고정된 최소 경계값과 같거나 큰 절대값을 포함하는 값들을 포함할 수 있다. 이와 같은 최소 경계값은 원칙적으로 2^s또는 10^s와 같이 2의 거듭제곱 또는 10의 거듭제곱으로 표현될 수 있다. 이때 s는 또한 분석 필터뱅크의 실시예의 구체적인 구현에 따라 달라질 수 있는 정수이다.

디지털 구현의 경우에, 상기 기설정된 범위는 예를 들어 작은 값들을 포함하는 기설정된 범위의 경우 최소 중요 비트(least significant bit) 또는 복수의 최소 중요 비트를 설정하거나 설정하지 않음으로써 표현될 수 있다. 상기 기설정된 범위가 큰 값들을 포함하는 경우, 이미 설명된 기설정된 범위와 같이 최대 중요 비트(most significant bit) 또는 복수의 최대 중요 비트를 설정하거나 설정하지 않음으로서 표현될 수 있다. 그러나 상기 기설정된 범위 뿐 아니라 상기 기설정된 값은 또한 예를 들어 이들을 인수와 곱함으로써 위에서 설명된 값들과 경계값들에 기초하여 생성될 수 있는 다른 값들을 포함할 수도 있다.

분석 필터뱅크(100)의 실시예의 구체적인 구현에 따라서는, 상기 윈도워(110)는 또한 상기 출력(110o)에 제공되는 윈도우된 프레임들이 상기 입력 프레임(130)의 상기 최초섹션(160)의 입력 프레임들에 대응하는 윈도우된 샘플들을 포함하지 않도록 적용될 수도 있다. 이 경우, 상기 윈도우된 프레임의 길이와 상기 입력 프레임(130)에 대응되는 길이는 예를 들어 상기 최초섹션(160)의 길이 만큼 다를 수 있다. 다시 말해, 이 경우 상기 윈도워(110)는 이미 설명된 바와 같이 시간을 기준으로 상기 입력 샘플들의 순서에 따라 적어도 가장 마지막 입력 샘플을 무시하도록 구성되거나 적용될 수 있다. 다시 말하면, 분석 필터뱅크(100)의 어떤 실시예들에서는, 상기 윈도워(110)는 입력 프레임(130)의 상기 최초섹션(160)의 하나 이상 또는 심지어 모든 입력 값들 또는 입력 샘플들이 무시된다. 이 경우, 상기 윈도우된 프레임의 길이는 상기 입력 프레임(130)의 길이와 상기 입력 프레임(130)의 상기 최초섹션(160)의 길이 사이의 차이와 동일하다.

다른 선택으로서, 상기 입력 프레임(130) 각각은 이미 설명된 바와 같이 최초섹션(160)을 전혀 포함하지 않을 수도 있다. 이 경우 상기 첫 번째 서브섹션(150-1)은 각 서브섹션(150)의 길이 또는 입력 샘플들의 수로 볼 때 다른 서브섹션들(105-2 내지 150-4)과 다르다. 이 경우 상기 윈도우된 프레임은 상기 입력 프레임(130)의 상기 첫 번째 서브섹션(150-1)에 대응되는 상기 윈도우된 프레임의 유사한 첫 번째 서브섹션이 상기 입력 프레임(130)의 상기 서브섹션들(150)에 대응하는 다른 서브섹션들과 동일한 수의 윈도우된 샘플들 또는 윈도우된 값들을 포함하도록 윈도우된 샘플들 또는 윈도우된 값들을 포함한다. 이 경우 상기 합산된 윈도우된 샘플들 또는 윈도우된 값들은 이미 설명한 바와 같이, 기설정된 값 또는 적어도 기설정된 범위 내의 값으로 설정될 수 있다.

게다가 상기 윈도워(110)는 분석 필터뱅크(100)의 실시예들에서, 상기 입력 프레임(130)과 결과로서 생성된 윈도우된 프레임은 모두 동일한 수의 값들 또는 샘플들을 포함하고, 이때 상기 입력 프레임(130)과 결과로서 생성된 윈도우된 프레임은 모두 상기 최초섹션(160) 또는 상기 최초섹션(160)에 대응되는 샘플들을 포함하지 않도록 구성될 수도 있다. 이 경우 상기 입력 프레임(130)의 상기 첫 번째 서브 섹션(150-1) 뿐 아니라 상기 윈도우된 프레임의 대응하는 서브 섹션은 상기 입력 프레임(130)의 다른 섹션들(150-2 내지 150-4)와 상기 윈도우된 프레임의 대응되는 서브섹션들에 비교하여 더 적은 값들 또는 샘플들을 포함한다.

원칙적으로 상기 윈도우된 프레임은 최초섹션(160)을 포함하는 입력 프레임(130)의 길이 또는 최초섹션(160)을 포함하지 않는 입력 프레임(130)의 길이에 대응해야만 하는 것은 아님을 알아야 한다. 원칙적으로 상기 윈도워(110)는 또한 상기 윈도우된 프레임이 입력 프레임(130)의 상기 최초섹션(160)의 값들에 대응하는 하나 이상의 값들 또는 샘플들을 포함하도록 적용될 수 있다.

이와 같은 배경에서, 분석 필터뱅크(100)의 어떤 실시예들에서는, 상기 최초섹션(160)이 입력 프레임(130)의 입력 값 또는 입력 샘플들의 연결된 서브세트(subset)에 대응하는 샘플 색인 n의 연결된 서브세트를 표현하거나 또는 적어도 포함하는 것을 알아야 한다. 따라서 응용 가능하다면, 대응하는 최초 섹션을 포함하는 윈도우된 프레임은 상기 윈도우된 프레임의 출발(starting) 섹션 또는 시작(start) 섹션으로도 불릴 수 있는 상기 윈도우된 프레임의 각 최초 섹션에 대응하는 윈도우된 샘플들의 동일한 색인 n의 연결된 서브세트를 포함한다. 상기 최초섹션 또는 출발 섹션을 제외한 상기 윈도우된 프레임의 나머지는 때로 나머지 섹션으로 언급되었다.

이미 위에서 나타낸 바와 같이, 상기 윈도워(110)는 분석 필터뱅크(100)의 실시예들 내에서, 만약 조금이라도 존재한다면, 예를 들어 대응되는 입력 샘플들에 기초한 로그 연산에 근거하여 상기 윈도우된 샘플들을 생성한다는 견지에서, 음향심리학적 모델들을 통합할 수 있는 윈도우 함수에 기초하여, 상기 입력 프레임(130)의 상기 최초섹션(160)에 대응하지 않는 윈도우된 프레임의 윈도우된 값들의 윈도우된 샘플들을 생성하도록 적용될 수 있다. 그러나 상기 윈도워(110)는 또한 분석 필터뱅크(100)의 다른 실시예들에서, 각 윈도우된 샘플들이 대응하는 입력 샘플을 정의 세트(definition set)에 정의된 윈도우 함수의 샘플-특정 윈도우된 계수들과 곱함으로써 생성되도록 적용될 수도 있다.

분석 필터뱅크(100)의 많은 실시예들에서, 상기 대응되는 윈도워(110)는 예를 들어, 윈도우 계수들에 의해 설명되는 상기 윈도우 함수가 상기 정의 세트의 중점을 기준으로 상기 정의 세트에 대해 비대칭이 되도록 적용된다. 나아가, 분석 필터뱅크(100)의 많은 실시예들에서, 상기 윈도우 함수의 상기 윈도우 계수들은 상기 중점을 기준으로 상기 정의 세트의 첫번째 절반에서 상기 윈도우 함수의 모든 윈도우 계수들의 최대 절대값의 10%, 20%, 30% 또는 50% 보다 큰 절대값을 포함할 수 있다. 이때 상기 윈도우 함수는 상기 중점을 기준으로 상기 정의 세트의 두 번째 절반에서 상기 윈도우 계수들의 최대 절대값의 위에서 언급된 백분율 보다 큰 절대값을 갖는 윈도우 계수를 더 적게 포함한다. 이와 같은 윈도우 함수는 윈도우 함수(180)과 같이 도 2에 도시된 각 입력 프레임(130)의 문맥에서 개략적으로 보여진다. 윈도우 함수들의 더 많은 예들이 스펙트럼 및 다른 특성들의 간략한 논의와 도면들에 도시되고 설명된 바와 같은 윈도우 함수를 실행하는 분석 필터뱅크 뿐 아니라 합성필터 뱅크의 몇 가지 실시예들에 의해 제공되는 기회가 도 5 내지 11에서 설명될 것이다.

윈도워(110)와는 별개로, 분석 필터뱅크(100)의 일실시예는 또한 상기 윈도워(110)로부터 윈도우된 프레임들을 제공받는 시간/주파수 변환기(120)을 포함한다. 상기 시간/주파수 변환기(120)는 각 윈도우된 프레임들에 대하여 하나의 또는 복수의 출력 프레임을 순차적으로 생성하여 출력 프레임이 대으되는 윈도우된 프레임의 스펙트럼 표현이 되도록 적용된다. 추후 보다 상세히 설명될 바와 같이, 상기 시간/주파수 변환기(120)는 상기 출력 프레임이 입력 프레임의 입력 샘플들의 수 또는 윈도우된 프레임의 윈도우된 샘플들의 수의 절반과 비교하여 그 절반 보다 적은 수의 출력 값들을 포함한다.

또한, 상기 시간/주파수 변환기(120)는 그것이 이산 코사인 변환 및/또는 이산 사인 변환에 기초하여, 출력 프레임의 출력 샘플들의 수가 입력 프레임의 입력 샘플들의 수의 절반보다 적도록 구현될 수 있다. 그러나 분석 필터뱅크(100)의 가능한 실시예들의 더 많은 구현 세부사항들이 짧게 요약될 것이다.

분석 필터뱅크의 몇 가지 실시예들에서, 시간/주파수 변환기(120)는 그것이 입력 프레임(130)의 상기 첫 번째 서브섹션(150-1)의 상기 출발 섹션이 아닌 하나의 출발 섹션(150-2, 150-3, 150-4)의 입력 샘플들의 수와 동일하거나, 또는 상기 샘플 어드밴스 값(170)과 동일한 수의 출력 샘플들을 출력하도록 구성된다. 다시 말하면, 분석 필터뱅크(100)의 많은 실시예들에서 상기 출력 샘플들의 수는 상기 입력 프레임(130)의 위에서 설명한 서브섹션(150)의 길이의 샘플 어드밴스 값을 표현하는 정수 M과 같다. 샘플 어드밴스 값 또는 M의 일반적인 값은 많은 실시예들에서 480 또는 512가 된다. 그러나 또한 다른 정수들 M, 예를 들어 M = 360도 분석 필터뱅크의 실시예들에서 쉽게 사용될 수 있음을 알아야 한다.

또한 분석 필터뱅크의 몇 가지 실시예들에서, 입력 프레임(130)의 상기 최초섹션(160) 또는 다른 서브섹션들(150-2, 150-3, 150-4)과 입력 프레임(130)의 첫 번째 서브섹션(150-1)의 샘플들의 수 사이의 차이는 M/4와 같다. 즉, M=480인 분석 필터뱅크(100)의 실시예에서 상기 최초섹션(160)의 길이 또는 상기 차이는 120(=M/4) 샘플들과 같고, M=512인 분석 필터뱅크(100)의 몇 실시예들에서는, 상기 최초섹션(160)의 길이 또는 상기 차이는 128(=M/4)와 같다. 그러나 또한 이 경우들에서 서로 다른 길이는 구현될 수 있고, 분석 필터뱅크(100)의 실시예에의 견지에서 한계를 나타내지 않을 수 있다.

또한 이미 나타낸 바와 같이, 상기 시간/주파수 변환기(120)가 예를 들어 이산 코사인 변환 또는 이산 사인 변환에 기초할 수 있기 때문에, 분석 필터뱅크의 실시예들은 때로 또한 수정 이산 코사인 변환(Modified Discrete Cosine Transform, MDCT) 변화기의 입력 프레임의 길이를 표현하는 파라미터 N=2M의 견지에서 논의되고 설명된다. 분석 필터뱅크(100)의 앞서 설명한 실시예들에서 파라미터 N은 따라서 960(M=480) 및 1024(M=512)이 된다.

추후 보다 상세하게 설명되는 바와 같이 분석 필터뱅크(100)의 실시예들은 장점으로서 오디오의 질을 전혀 또는 심각하게 감소시키지 않고 처리하면서 디지털 오디오의 저 딜레이를 제공할 수 있다. 즉, 분석 필터뱅크의 실시예는 예를 들어 (오디오) 코덱(codec=coder/decoder 또는 coding/decoding)의 구조 내에서 저 딜레이를 제공하면서, 많은 사용가능한 코덱들과 비교하여 적어도 필적하는 주파수 반응과 향상된 프리에코 특성을 갖는 향상된 저 딜레이 코딩 모드의 구현 기회를 제공한다. 또한 추후 회의 시스템의 실시예들을 배경으로 보다 상세하게 설명되는 바와 같이, 모든 종류의 신호를 위하여 단지 하나의 윈도우 함수만으로도 분석 필터뱅크의 몇 가지 실시예들과 분석 필터뱅크(100)의 실시예를 포함하는 시스템의 실시예에서 위에 언급된 이점을 성취하는 것이 가능하다.

강조하기 위하여, 분석 필터뱅크(100)의 실시예들의 입력 프레임은 도 2에 도시된 바와 같이 4 개의 서브섹션(150-1 내지 150-4)를 포함하여야 하는 것은 아니다. 이는 단지 간략한 설명을 위해 선택된 하나의 가능성을 보여준다. 따라서 상기 윈도워는 또한 상기 윈도우된 프레임들이 4 개의 대응되는 서브섹션들을 포함하도록 적용되어야만 하는 것은 아니고, 또는 상기 시간/주파수 변환기(120)가 4 개의 서브섹션을 포함하는 윈도우된 프레임에 기초하여 출력 프레임을 제공하는 것이 가능하도록 적용되어야만 하는 것도 아니다. 이는 도 2의 배경에서 간단하고 분명한 방식으로 분석 필터뱅크(100)의 몇 가지 실시예를 설명하는 것이 가능하도록 단순히 선택된 것이다. 그러나, 상기 최초섹션(160)과 상기 입력 프레임(130) 내에서의 그것의 존재에 관한 다른 선택들의 문맥에서 설명되는 것처럼, 상기 입력 프레임(130)의 길이의 견지에서, 상기 입력 프레임의 문맥 상에서 설명한 것은 상기 윈도우된 프레임의 길이에 대한 것으로 이입될 수도 있다.

아래에서는, 저 딜레이 에러 내성 향상 오디오 코덱(error resilient advanced audio codec low delay, ER AAC-LD) 구현방식의 견지에서, 분석 필터뱅크의 실시예의 가능한 구현예가, 상기 ER AAC-LD의 분석 필터뱅크가 때로 저 딜레이(분석 필터뱅크)로 불려지는 분석 필터뱅크(100)의 실시예에 도달하도록 적용하기 위한 변경에 대하여 설명될 것이다. 즉, 딜레이의 충분한 감소 또는 저 딜레이를 얻기 위하여, ER AAC-LD의 경우의 표준 인코더에 가해지는 몇 가지 변경이 아래에 정의되는 바와 같이 유용할 수 있다.

이 경우, 분석 필터뱅크(100)의 실시예의 상기 윈도워(110)는 아래의 등식 또는 표현에 기초하는 윈도우된 샘플들 z_in을 생성하도록 구성된다.

, (1)

여기서 i는 윈도우된 프레임 및/또는 입력 프레임의 프레임 색인 또는 블록 색인을 나타내는 정수이고, n은 -N과 N-1 사이의 범위의 샘플 색인을 나타내는 정수이다.

즉, 상기 출력 프레임(130)의 구조 내의 최초 시퀀스(sequence)(160)을 포함하는 실시예들에서, 상기 윈도우잉은 샘플 색인 n=-N,...,N-1을 위한 위의 표현 또는 등식을 수행함에 의한 통과(pass)에 까지 확대된다. 여기서 w(n)은 도 5를 참조하여 보다 상세하게 설명되는 바와 같은 윈도우 함수에 대응하는 윈도우 계수이다. 분석 필터뱅크(100)의 실시예의 문맥에서, 합성 윈도우 함수 w는 윈도우 함수 w(N-1-n)의 인수를 비교함으로써 볼 수 있는 바와 같이 순서를 역으로 전도시킴으로써 분석 윈도우 함수로 사용된다. 합성 필터뱅크의 일실시예를 위한 윈도우 함수는 도 3 및 4에서 개략된 바와 같이, 거울대칭된(mirrored) 버전(version)을 얻기 위하여 거울대칭(mirroring)(예를 들어 상기 정의 세트의 중점을 기준으로)에 의하여 분석 윈도우 함수에 기초하여 구성되거나 생성될 수 있다. 즉, 도 5는 저 딜레이 윈도우 함수들의 도면을 보이고 있다. 여기서 상기 분석 윈도우는 상기 합성 윈도우의 단순한 시간-반전 복제(replica)이다. 이와 같은 배경에서, x'_i _,n은 블록 색인 i와 샘플 색인 n에 대응되는 입력 샘플 또는 입력 값을 표현함을 알아야 한다.

다시 말해, 사인 윈도우에 기초한 1024 또는 960의 값의 윈도우 길이 N에 근거하는 이미 설명한 바와 같은 ER AAC-LD 구현(예를 들어, 코덱의 형태에서)과 비교하여, 상기 분석 필터뱅크(100)의 실시예의 상기 윈도우(110) 내에 포함되는 저 딜레이 윈도우의 상기 윈도우 길이는 상기 윈도우잉을 과거로 연장함에 의하여 2N(=4M)이 된다.

도 5 내지 11에 의하여 보다 상세하게 설명되는 바와 같이, 상기 윈도우 계수 w(n)(n=0,...,2N-1일 때)는 N=960일 때와 N=1024인 몇 실시예들에서 각각 부록(annex)의 테이블 1에 주어진 관계와 부록의 테이블 3에 주어진 관계에 따른다. 나아가, 상기 윈도우 계수들은 N=960인 경우와 N=1024인 몇 실시예들에서 각각 부록의 테이블 2와 부록의 테이블 4에 주어진 값들을 포함할 수 잇다.

상기 시간/주파수 변환기(120)의 기준에서, 상기 ER AAC-LD 코덱의 구조에서 구현되는 바와 같이, 코어(core) MDCT 알고리즘 (MDCT=Modified Discrete Cosine Transform)은 대부분 변경되지 않지만 이미 설명된 바와 같이 더 긴 윈도우를 포함하여 n은 이제 0에서 N-로 진행되는 대신에, -N에서 N-1로 진행된다. 출력 프레임의 스펙트럼 계수 또는 출력 값 X_i _,k는 다음의 등식 또는 표현에 의하여 생성된다.

일 때,

, (2)

이때 z_i _,n은 이미 설명된 바와 같이 샘플 색인 n과 블록 색인 i에 대응하는 시간/주파수 컨버터(120)의 윈도우된 프레임의 윈도우된 샘플 또는 윈도우된 입력 시퀀스이다. 또한, k는 스펙트럼 계수 색인을 나타내는 정수이고, N은 출력 프레임의 출력 값들의 수의 두 배, 또는 이미 설명한 바와 같이, 상기 ER AAC-LD 코덱에서 구현되는 윈도우 스퀀스 값에 기초한 하나의 변환 윈도우의 윈도우 길이를 나타내는 정수이다. 정수 n₀는 아래에 주어지는 바와 같은 오프셋(offset) 값이다.

.

도 2를 참조하여 설명된 바와 같이 입력 프레임(130)의 구체적인 길이에 따라서, 상기 시간/주파수 변환기는 상기 입력 프레임(130)의 상기 최초 섹션(160)에 대응하는 윈도우된 샘플을 포함하는 윈도우된 프레임에 기초하여 구현될 수 있다. 즉, M=480 또는 N=960인 경우 상기 등식은 길이 1920의 윈도우된 샘플들을 포함하는 윈도우된 프레임에 근거한다. 상기 윈도우된 프레임들이 상기 입력 프레임(130)의 상기 최초섹션(160)에 대응하는 윈도우된 샘플들을 그 내부에 포함하지 않는 분석 필터뱅크(100)의 실시예의 경우, 상기 윈도우된 프레임은 M=480인 경우 길이 1800의 윈도우된 샘플을 포함한다. 이 경우, 위에 주어진 상기 등식이 수행된다. 상기 윈도워(100)의 경우에, 이는 예를 들어 이미 설명한 바와 같이 상기 윈도우된 프레임의 다른 서브섹션들과 비교하여 상기 첫 번째 서브섹션 내에서 없어진 윈도우된 샘플들이 M/4=N/8인 경우, -N,...,7n/8-1을 진행하는 샘플 색인 n을 도출할 수 있다. 따라서 시간/주파수 변환기(120)의 경우, 위에 주어진 등식은 상기 최초섹션 또는 상기 윈도우된 샘플들의 시작 섹션의 윈도우된 샘플들을 통합하지 않도록 합계(summatiln) 색인들을 변경함으로써 쉽게 적용될 수 있다. 물론 상기 입력 프레임(130)의 상기 최초섹션(160)의 다른 길이의 경우, 또는 상기 윈도우된 프레임의 상기 첫 번째 서브섹션과 다른 서브섹션들의 길이 사이의 차이의 경우, 이미 설명된 바와 같이, 또 다른 적절한 변경이 용이하게 얻어질 수 있다.

다시 말해, 분석 필터뱅크(100)의 실시예의 구체적인 구현에 따라서, 위의 표현과 등식들에 의하여 나타낸 모든 연산들이 수행되는 것이 반드시 필요한 것은 아니다. 분석 필터뱅크의 다른 실시예들은 원칙적으로 더 높은 계산 효율성을 이끄는 보다 감소된 수의 연산의 실행을 포함할 수도 있다. 합성 필터뱅크의 경우의 예는 도 19를 참조하여 설명될 것이다.

특히, 합성 필터뱅크의 실시예의 문맥에서 설명되는 바와 같이, 분석 필터뱅크(100)는 위에 언급된 ER AAC-LD 코덱으로부터 도출되는 소위 저 딜레이 증대된 에러 내성 향상 오디오 코덱(error resilient advanced audio codec enhanced low delay, ER AAC-ELD)의 구조 내에서 수행될 수 있다. 설명된 바와 같이, 상기 ER AAC-ELD 코덱의 분석 필터뱅크는 분석 필터뱅크(100)의 실시예와 같이 저 딜리에 필터뱅크를 채용하기 위하여 분석 필터뱅크(100)의 실시예에 도달하도록 변경된다. 앞으로 더 상세하게 설명되는 바와 같이 분석 필터뱅크(100)의 실시예 및/또는 추후 보다 상세하게 설명될 합성 필터뱅크의 실시예를 포함하는 상기 ER AAC-ELD 코덱은 인코딩/디코딩 회로의 매우 낮은 딜레이를 요구하는 응용분야로 일반적인 저 비트전송율 오디오 코딩을 제공한다. 예들은 분석 필터뱅크, 합성 필터뱅크, 디코더 및 인코더, 믹서 그리고 회의 시스템의 실시예와 같은 서로 다른 실시예들이 통합될 수 있는, 예를 들어 전 양방향(full-duplex) 실시간 통신의 분야로부터 나온다.

본 발명의 다른 실시예들을 보다 상세하게 설명하기에 앞서, 동일하거나 유사한 기능적 특성을 갖는 객체, 구조 및 구성은 동일한 참조 부호로 표시됨을 알아야 한다. 만약 명백한 언급이 없는 경우, 유사하거나 동일한 기능적 특성 및 특징을 갖는 객체, 구조 및 구성에 대한 설명은 서로에 대해서 대체될 수 있다. 나아가, 아래에서, 특정 객체, 구조 또는 구성의 특징이나 특성이 논의되지 않았다면, 하나의 실시예에서 또는 하나의 도면에 도시된 구조에서 서로 동일하거나 유사한 객체, 구조 및 구성을 위한 개괄 참조 부호들이 사용될 것이다. 하나의 예로, 입력 프레임(130)의 설명에서, 개괄 참조 부호들이 이미 통합되었다. 도 2에서의 입력 프레임과 관련된 설명들에서, 만약 특정 입력 프레임이 언급되었다면, 그 입력 프레임의 특정 참조 부호, 예를 들어 130-k가 사용된다. 반면에 모든 입력 프레임 또는 다른 것들과 특별히 구분되지 않은 하나의 입력 프레임이 언급되는 경우, 상기 개괄 참조 부호 130이 사용되었다. 개괄 참조 부호를 사용함으로써 본 발명의 실시예의 보다 간략하고 명확한 설명이 가능해진다.

나아가 본 응용 분야의 구조 내에서 제2구성요소에 연결되는 제1구성요소는 직접 연결되거나 또는 다른 회로소자 또는 다른 구성요소를 통하여 상기 제2구성요소에 연결될 수 있다. 다시 말해, 본 응용분야의 구조에서 서로 가까이 연결되는 두 구성요소는 서로 직접 연결되거나 또는 다른 회로소자 또는 다른 구성요소를 통해 연결되는 두 개의 양자택일적인 구성을 포함한다.

도 3은 각각 수 개의 정렬된 입력 값을 포함하는 복수의 입력 프레임을 필터링하기 위한 합성 필터뱅크(200)의 일실시예를 보여준다. 상기 합성 필터뱅크(200)의 실시예는 직렬로 연결되는 주파수/시간 변환기(210), 윈도워(220) 그리고 중찹/합산기(230)을 포함한다.

상기 합성 필터뱅크(200)의 실시예에 제공되는 복수의 입력 프레임은 상기 주파수/시간 변환기(210)에 의해 우선 처리될 것이다. 상기 입력 프레임들을 기초로 복수의 출력 프레임을 생성하여, 각 출력 프레임이 대응하는 입력 프레임의 시간 표현이 되도록 하는 것이 가능하다. 즉, 상기 주파수/시간 변환기(210)는 각각의 입력 프레임을 주파수 영역으로부터 시간 영역으로 천이시카는 것이 가능하다.

그 후 상기 주파수/시간 변환기(210)에 연결되는 상기 윈도워(220)는 상기 주파수/시간 변환기(210)에 의해 제공된 바와 같은 각 출력 프레임을 처리하여, 이 출력 프레임에 기초한 윈도우된 프레임을 생성하는 것이 가능하다. 합성 필터뱅크(200)의 몇 가지 실시예들에서 상기 윈도워(220)는 상기 출력 프레임 각각의 출력 샘플들의 각각을 처리하여 상기 윈도우된 프레임을 생성하는 것이 가능하고, 여기서 각 윈도우된 프레임은 복수의 윈도우된 샘플들을 포함한다.

합성 필터뱅크(200)의 실시예의 구체적인 구현에 따라서는, 상기 윈도워(220)는 계량 함수에 기초하여 출력 샘플들을 계량 함으로써 출력 프레임에 기초한 윈도우된 프레임을 생성할 수 있다. 도 1의 윈도워(110)에 대한 문맥에서 설명된 바와 같이, 상기 계량 함수는 오디오 신호의 세기의 로그 의존성과 같이 예를 들어 인간의 귀의 청취 능력 또는 특성들이 통합된 음향심리학 모델에 기초할 수 있다.

추가적으로 또한 택일적어로, 상기 윈도워(220)는 또한 출력 프레임의 각 출력 샘플을 윈도우의 샘플-특정 값, 윈도우잉 함수, 또는 윈도우 함수와 곱하여 출력 프레임에 기초한 윈도우된 프레임을 생성할 수 있다. 이 값들은 또한 윈도우 게수 또는 윈도우잉 계술로 불릴 수 있다. 즉 상기 윈도워(220)는 합성 필터뱅크(200)의 적어도 몇 가지 실시예들에서 실수를 이용한 윈도우 계수를 정의 세트의 성분들의 각 세트로 귀착시키는 윈도우 함수와 이들을 곱하여 윈도우된 프레임의 상기 윈도우된 샘플들을 생성하도록 적용될 수 있다.

이와 같은 윈도우 함수들의 예는 도 5 내지 11을 참조하여 보다 상세하게 논의될 것이다. 나아가, 순서에 따라 정의 세트 자체의 성분들이 될 필요가 없는 이러한 윈도우 함수들은 정의 세트의 중점을 기준으로 비대칭 또는 무균형적(non-symmetric)이 될 수 있다.

또한 상기 윈도워(220)는 도 4를 참조하여 보다 상세하게 설명되는 바와 같이, 상기 중첩/합산기(230)에 의해 샘플 어드밴스 값에 기초하여 중첩 방식으로 더 처리하기 위한 복수의 윈도우된 샘플들을 생성한다. 즉, 상기 윈도우된 프레임 각각은 상기 윈도워(220)의 출력에 연결되는 상기 중첩/합산기(230)에 의해 제공되는 합산 샘플들의 수와 비교하여 그 두 배 보다 많은 수의 윈도우된 샘플들을 포함한다. 결론적으로, 상기 중첩/합산기는 합성 필터뱅크(200)의 실시예에서 상기 합산 샘플들의 적어도 일부를 위하여 적어도 세 개의 다른 윈도우된 프레임들로부터의 적어도 세 개의 윈도우된 샘플들을 합산함으로써 중첩 방식으로 합산 샘플을 생성할 수 있다.

상기 윈도워(220)에 연결되는 상기 중첩/합산기(230)는 그 후 각각의 새로 수신된 윈도우된 프레임을 위하여 합산 프레임을 생성 또는 공급하는 것이 가능하다. 그러나, 이미 설명한 바와 같이 상기 중첩/합산기(230)는 하나의 합산 프레임을 생성하기 위하여 중첩 방식으로 상기 윈도우된 프레임을 처리한다.

도 4를 참조하여 보다 상세하게 설명되는 바와 같이 각 합산 프레임은 시작 섹션과 나머지 섹션을 포함하고, 나아가 합산 프레임의 상기 나머지 섹션 내의 하나의 합산 샘플을 위하여 세 개의 서로 다른 윈도우된 프레임들로부터의 적어도 세 개의 윈도우된 샘플들을 더하고, 상기 시작 섹션의 하나의 합산 샘플을 위하여 적어도 두 개의 서로 다른 윈도우된 프레임들로부터의 적어도 두 개의 윈도우된 샘플들을 더함으로써 복수의 합산 샘플을 포함한다. 구현에 따라, 상기 나머지 섹션 내의 합산 샘플을 얻기 위하여 더하는 윈도우된 샘플의 수는 상기 시작 섹션의 합산 샘플을 얻기 위하여 더하는 윈도우된 샘플들의 수와 비교하여 적어도 한 샘플 더 높을 수 있다.

택일적으로 또는 부가적으로 합성 필터뱅크(200)의 실시에의 구체적인 구현에 따라서, 상기 윈도워(220)는 복수의 윈도우된 프레임의 각각의 윈도우된 프레임을 위하여 상기 정렬된 출력 샘플들의 순서에 따라 가장 앞선 출력 값을 무시하거나, 대응되는 윈도우된 샘플을 기설정된 값으로 설정하거나, 또는 적어도 기설정된 범위 내의 값으로 설정하도록 구성될 수도 있다. 또한 상기 중첩/합산기(230)는 이 경우, 도 4에 도시된 바에 따라 설명되는 바와 같이, 세 개의 서로 다른 윈도우된 프레임으로부터의 적어도 세 개의 윈도우된 샘플들에 기초하여 합산 프레임의 상기 나머지 섹션 내의 상기 합산 샘플을 제공할 수 있고, 적어도 두 개의 서로 다른 윈도우된 프레임으로부터의 적어도 두 개의 윈도우된 샘플들에 기초하여 상기 시작 섹션 내의 합산 샘플을 제공할 수 있다.

도 4는 따라서 식별되는 프레임 색인 k, k-1, k-2, k-3, 및 k+1에 대응하는 5 개의 출력 프레임들(240)의 개략적인 표현을 나타내고 있다. 도 2에 도시된 개략적인 표현과 유사하게, 도 4에 보인 상기 5 개의 출력 프레임(250)은 화살표 250에 의해 표시된 바와 같이 시간에 대한 그들의 순서에 따라 배열된다. 출력 프레임(240-k)를 참조하면, 상기 출력 프레임들(240-(k-1), 240-(k-2), 240-(k-3))은 과거의 출력 프레임들(240)을 지시한다. 따라서 상기 출력 프레임(240-(k+1))은 출력 프레임(240-k)을 기준으로 다음의 또는 미래의 출력 프레임이 된다.

도 2의 상기 입력 프레임(130)의 문맥에서 이미 논의된 바와 같이, 도 4에 도시된 출력 프레임(240)도 도 4에 도시된 실시예에서, 각각 4 개의 서브세트트(260-1, 260-2, 260-3 및 260-4)를 포함한다. 합성 필터뱅크(200)의 실시예의 구체적인 구현에 따라, 각 출력 프레임(240)의 첫 번째 서브섹션(260-1)은 상기 입력 프레임(130)의 최초 섹션(160)에 대한 설명에서 도 2의 구조에서 이미 논의된 바와 같이 최초섹션(270)을 포함할 수도 있고, 포함하지 않을 수도 있다. 결과적으로, 상기 첫 번째 서브섹션(260-1)은 도 4에 도시된 실시예에서 다른 서브섹션들(260-2 내지 260-4)와 비교할 때 더 짧을 수도 있다. 다른 서브섹션들(260-2, 260-3 및 260-4)은 그러나, 위에서 언급된 샘플 어드밴스 값 M과 동일한 수의 출력 샘플을 각각 포함한다.

도 3의 문맥에서 설명된 바와 같이, 상기 주파수/시간 변환기(210)는 도 3에 도시된 실시예에서 상기 주파수/시간 변환기(210)가 복수의 출력 프레임을 생성하는 것의 기초로서 복수의 입력 프레임을 제공받는다. 합성 필터뱅크(200)의 몇 가지 실시예에서 입력 프레임 각각의 길이는 양의 정수인 샘플 어드밴스 값 M과 동일하다. 상기 주파수/시간 변환기(210)에 의해 생성되는 출력 프레임은 그러나, 입력 프레임의 입력 값의 수의 적어도 두 배보다 많은 값을 포함한다. 보다 정확하게는, 도 4에 도시된 상황과 같은 실시예에서 상기 출력 프레임(240)은 도시된 상황에 대한 실시예에서 각각 M 개의 입력 값을 포함하는, 입력 값의 수와 비교하여 적어도 3 배 이상의 수의 출력 샘플들을 포함한다. 결과적으로 상기 출력 프레임은 서브섹션들(260)로 나누어질 수 있고, 상기 출력 프레임(240)의 서브섹션들(260)(선택적으로, 이미 설명된 바와 같이, 상기 첫 번째 세브섹션(260-1)은 제외하고) 각각은 M 개의 출력 샘플을 포함할 수 있다. 또한 상기 최초섹션(270)은 어떤 실시예들에서는 M/4 개의 샘플들을 포함할 수 있다. 즉, M=480 또는 M=512인 경우, 상기 최초섹션(270)은, 만약 적어도 존재한다면, 120개 또는 128개의 샘플들이나 값들을 포함할 수 있다.

또 다른 말로는, 전에 상기 분석 필터뱅크(100)의 실시예의 문맥에서 설명된 바와 같이, 상기 샘플 어드밴스 값 M은 또한 상기 출력 프레임(240)의 서브섹션들(260-1, 260-3, 260-4)dml 길이와 동일하다. 합성 필터뱅크(200)의 실시예의 구체적인 구현에 따라서는, 상기 출력 프레임(240)의 상기 첫 번째 서브섹션(260-1)도 M 개의 출력 샘플들을 포함할 수도 있다. 그러나 만약 상기 출력 프레임(240)의 상기 최초섹션(270)이 존재하지 않는 경우, 상기 출력 프레임(240) 각각의 상기 첫 번째 서브섹션(260-1)은 상기 출력 프레임(240)의 상기 나머지 서브섹션들(260-2 내지 260-4)보다 더 짧다.

이미 언급된 바와 같이, 상기 주파수/시간 변환기(210)는 복수의 출력 프레임들(240)을 상기 윈도워(220)에 제공한다. 이때 각각의 출력 프레임은 상기 샘플 어드밴스 값 M의 두 배보다 큰 수의 출력 샘플들을 포함한다. 상기 윈도워(220)는 그 다음, 상기 주파수/시간 변환기(210)에 의해 제공되는 바에 따라 현재의 출력 프레임(240)에 기초하여 윈도우된 프레임을 생성할 수 있다. 보다 명시적으로는, 출력 프레임(240)에 대응하는 윈도우된 프레임 각각은 이미 언급된 바와 같이 상기 계량 함수에 기초하여 생성된다. 도 4에 도시된 바와 같은 상황에 기초한 실시예에서, 상기 계량 함수는 상기 출력 프레임(240)의 각각에 대하여 도식적으로 보여지는 윈도우 함수(280)에 순차적으로 근거한다. 이와 같은 배경에서, 상기 윈도우 함수(280)는, 만약 존재한다면, 상기 출력 프레임(240)의 상기 최초 섹션(270) 내의 출력 샘플들을 위한 어떤 기여(contribution)도 하지 않는다.

그러나, 결과적으로 분석 필터뱅크(200)의 다른 실시예들의 구체적이 구현에 따라, 다른 경우들도 다시 고려되어야 한다. 상기 주파수/시간 변환기(210)에 따라 상기 윈도워(220)는 상당히 다르게 적용되거나 구성될 수 있다.

만약 예를 들어, 한편으로는 상기 출력 프레임(240)의 상기 최초섹션(270)이 존재하여, 상기 출력 프레임(240)의 첫 번째 서브섹션(260-1)이 M 개의 출력 샘플을 포함한다면, 상기 윈도워(220)는 그것이 동일한 수의 윈도우된 샘플을 포함하는 출력 프레임들에 기초하여 윈도우된 프레임을 생성할 수도, 그렇지 않을 수도 있도록 적용될 수 있다. 즉, 상기 윈도워(220)는 그것이 예를 들어 대응하는 윈도우된 샘플을 기설정된 값(예를 들어, 0, 가능한 최대 신호 진폭 등)으로 설정하거나 또는 도 1과 2의 문맥에서 이미 설명된 바와 같이 적어도 기설정된 범위 내의 하나의 값으로 설정하여 구현될 수 있는 상기 최초섹션(270)을 포함하는 윈도우된 프레임들을 생성하도록 구현될 수 있다.

이 경우, 상기 출력 프레임(240) 뿐 아니라 상기 출력 프레임(240)에 기초하는 윈도우된 프레임은 모두 동일한 수의 샘플들이나 값들을 포함할 수 있다. 그러나 상기 윈도우된 프레임의 상기 최초섹션(270) 내의 윈도우된 샘플들은 상기 출력 프레임(240)의 대응하는 출력 샘플들에 반드시 종속하는 것은 아니다. 그러나 상기 윈도우된 프레임의 상기 첫 번째 서브섹션(260-1)은 샘플들에 대해서는 상기 주파수/시간 변환기(210)에 의해 제공되는 바와 같은 출력 프레임(240)에 기초한 상기 최초섹션(270) 내에는 있지 않다.

요컨데, 만약 출력 프레임(240)의 상기 최초섹션(270)에 적어도 하나의 출력 샘플이 존재한다면, 도 1과 2에 도시된 분석 필터뱅크의 실시예에 의해 설명된 바와 같이, 대응되는 윈도우된 샘플은 기설정된 값 또는 기설정된 범위 내의 값으로 설정될 수 있다. 상기 최초섹션(270)이 하나 이상의 윈도우된 샘플을 포함하는 경우, 상기 최초섹션(270)의 이와 같은 다른 윈도우된 샘플들 또는 값들에 대해서도 위와 같다.

나아가, 상기 윈도워(220)는 상기 윈도우된 샘플들이 최초섹션(270)을 전혀 포함하지 않도록 적용될 수도 있다. 합성 필터뱅크(200)의 이와 같은 실시예의 경우, 상기 윈도워(220)는 상기 출력 프레임(240)의 상기 최초섹션(270) 내의 상기 출력 프레임(240)의 상기 출력 샘플들을 무시하도록 구성될 수 있다.

이와 같은 경우들 중 어떤 경우에도, 이와 같은 실시예의 구체적인 구현에 따라서, 윈도우된 프레임의 상기 첫 번째 서브섹션(260-1)은 상기 최초섹션(270)을 포함할 수도, 포함하지 않을 수도 있다. 만약 상기 윈도우된 프레임의 최초섹션이 존재한다면, 이 섹션의 상기 윈도우된 샘플 또는 값은 각 출력 프레임의 대응하는 출력 샘플들에 전혀 종속되지 않아도 된다.

반면에 만약 상기 출력 프레임(240)이 상기 최초섹션(270)을 포함하지 않는다면, 상기 윈도워(220)는 상기 최초섹션(270)을 포함하거나 포함하지 않는 출력 프레임(240)에 기초하여 윈도우된 프레임을 생성하도록 구성될 수도 있다. 만약 상기 첫 번째 서브섹션(260-1)의 출력 샘플의 수가 상기 샘플 어드밴스 값 M에 비하여 작은 경우, 상기 윈도워(220)는 합성 필터뱅크(200)의 어떤 실시예들에서, 상기 윈도우된 프레임의 상기 최초섹션(270)의 상기 "없어진 출력 샘플들"에 대응하는 상기 윈도우된 샘플들을 기설정된 값 또는 기설정된 범위 내의 적어도 하나의 값으로 설정되도록 할 수 있다. 다시 말해, 상기 윈도워(220)는 이 경우, 상기 윈도우된 프레임을 기설정된 값이나, 기설정된 범위 내의 적어도 하나의 값으로 채움으로써 결과로 생성된 윈도우된 프레임이 상기 샘플 어드밴스 값 M, 입력 프레임의 크기 또는 합산 프레임의 길이의 정수배가 되는 수의 윈도우된 샘플을 포함하도록 할 수 있다.

그러나, 구현될 수 있는 다른 선택으로서, 상기 출력 프레임(240)과 상기 윈도우된 프레임은 모두 최초섹션(270)을 전혀 포함하지 않을 수도 있다. 이 경우, 상기 윈도워(220)는 상기 윈도우된 프레임을 얻기 위하여 상기 출력 프레임의 상기 출력 샘플들의 적어도 일부를 간단히 계량하도록 구성될 수도 있다. 추가적으로 또는 택일적으로, 상기 윈도워(220)는 윈도우 함수(280) 또는 그와 같은 것을 채용할 수도 있다.

도 1과 2에 도시된 분석 필터뱅크(100)의 실시예들에서 이미 설명된 바와 같이, 상기 출력 프레임(240)의 상기 최초섹션(270)은 이 값들이 가장 작은 샘플 색인을 갖는 "최신의" 샘플에 대응한다는 의미에서, 상기 출력 프레임(240)의 가장 앞선 샘플들에 대응한다. 즉, 상기 출력 프레임(240)의 모든 출력 샘플들을 고려하건데, 이 샘플들은 상기 출력 프레임(240)의 다른 출력 샘플들에 비교하여, 상기 중첩/가중기(230)에 의하여 제공됨에 따라 대응되는 합산 샘플을 재생할 때 경과할 시간이 가장 작은 샘플들을 나타낸다. 즉, 상기 출력 프레임(240)의 내부와 상기 출력 프레임의 각 서브섹션들(260)의 내부에서, 상기 최신의 출력 샘플들이 상기 각 출력 프레임(240) 또는 서브섹션(260) 내에서 왼쪽 위치에 대응한다. 다시 말해, 화살표(250)에 의해 지시되는 바와 같은 시간은 출력 프레임(240)의 시퀀스에 대응되고, 상기 출력 프레임(240)의 각 내부의 출력 샘플들의 시퀀스에는 대응되지 않는다.

그러나, 상기 중첩/합산기(230)에 의한 상기 윈도우된 프레임의 처리에 대한 보다 상세한 설명에 앞서, 상기 합성 필터뱅크(200)의 많은 실시예에서, 상기 주파수/시간 변환기(210) 및/또는 상기 윈도워(220)는 상기 출력 프레임(240) 또는 상기 윈도우된 프레임의 상기 최초섹션(270)이 완전히 존재하거나 또는 전혀 존재하지 않도록 적용될 수 있다. 첫 번째 경우에는, 상기 첫 번째 서브섹션(260-1)의 출력 또는 윈도우된 샘플들의 수는 출력 프레임의 출력 샘플들의 수인 M과 같다. 그러나, 상기 주파수/시간 변환기(210)와 상기 윈도워(220) 둘 중 하나 또는 둘 모두가 상기 최초섹션(270)이 존재하도록 구성될 수 있는 합성 필터뱅크(200)의 실시예들이 또한 구현가능하다. 하지만 상기 첫 번째 서브섹션(260-1) 내의 샘플들의 수는 여전히 주파수/시간 변환기(210)의 출력 프레임 내의 출력 샘플들의 수보다 작다. 게다가, 많은 실시예들에서, 비록 물론 그 대응되는 값들 또는 샘플들의 오직 하나 또는 일부만이 사용될 수 있더라도, 어떤 프레임들의 모든 샘플들 또는 값들이 그렇게 취급될 수 있음을 알아야 한다.

상기 윈도워(220)에 연결되는 상기 중첩/합산기(230)는 도 4의 아래에 도시된 바와 같이 시작 섹션(300)과 나머지 섹션(310)을 포함하는 합산 프레임(290)을 제공할 수 있다. 합성 필터뱅크(200)의 실시예의 구체적인 구현에 따라 상기 중첩/합산기(230)는 상기 시작 섹션 내의 상기 합산 샘플 내에 포함되는 합산 샘플이 적어도 다른 두 개의 윈도우된 프레임의 적어도 두 개의 윈도우된 샘플을 더함으로써 얻어질 수 있도록 구현된다. 보다 정확하게는, 도 4에 보여진 실시예가 각각의 출력 프레임(240)과 그 대응하는 윈도우된 프레임의 경우에 세 개 또는 네 개의 서브섹션(260-1 내지 260-4)에 기초하는 것처럼, 상기 시작 섹션(300)의 합산 샘플들은 화살표(320)에 의해 지시되는 바와 같이, 각각 적어도 세 개 또는 네 개의 서로 다른 윈도우된 프레임으로부터의 세 개 또는 네 개의 윈도우된 샘플 또는 값들에 기초한다. 도 4에서 사용된 실시예의 경우 세 개 또는 네 개 중 몇 개의 윈도우된 샘플이 사용될 것인지 여부는 대응하는 출력 프레임(240-k)에 근거하는 상기 윈도우된 프레임의 상기 최초섹션(270)의 견지에서 실시예의 구체적인 구현에 달려있다.

아래에서는 도 4를 참조하여 도 4에 도시된 출력 프레임들(240)이 각각의 출력 프레임(240)에 기초하여 상기 윈도워(220)에 의해 제공되는 윈도우된 프레임인 것으로 생각될 수 있다. 이는 상기 윈도우된 프레임은 도 4에 도시된 상황에서 적어도 상기 최초섹션(270) 외부의 상기 출력 프레임(240)의 상기 출력 샘플들을 상기 윈도우 함수(280)에 의해 도출된 값과 곱함으로써 얻어지기 때문이다. 그러므로, 아래에서는 상기 중첩/합산기(230)에 대하여, 상기 참조 부호(240)은 윈도우된 프레임을 위한 것으로도 사용될 수 있다.

존재하는 최초섹션(270) 내의 윈도우된 샘플들이 기설정된 값 또는 기설정된 범위 내의 값으로 설정되도록 적용되는 윈도워(220)의 경우, 만약 상기 기설정된 값 또는 기설정된 범위가 상기 윈도우된 프레임(240-k)(출력 프레임(240-k)에 대응하는)의 상기 최초섹션(270)으로부터의 윈도우된 샘플을 더하는 것이 결과에 중대한 방해나 변경이 되지 않는다면, 상기 최초섹션(270)의 상기 윈도우된 샘플 또는 윈도우된 값은 상기 윈도우된 프레임(240-(k-1))(출력 프레임(240-(k-1))에 대응하는)의 두 번째 서브섹션과, 상기 윈도우된 프레임(240-(k-2))(출력 프레임(240-(k-2))에 대응하는)의 세 번째 서브섹션, 그리고 상기 윈도우된 프레임(240-(k-3))(출력 프레임(240-(k-3))에 대응하는)의 네 번째 서브섹션으로부터의 나머지 세 개의 합산 샘플들을 더하는데 사용될 수 있다.

상기 윈도워(220)가 최초섹션(270)이 윈도우된 프레임에 존재하지 않도록 적용되는 경우, 상기 시작 섹션(300)의 대응되는 합산 샘플은 적어도 두 개의 윈도우된 프레임으로부터의 적어도 두 개의 윈도우된 샘플들을 더함으로써 정상적으로 얻어진다. 그러나, 도 4에 도시된 실시예가 각각 4 개의 서브섹션(260)을 포함하는 윈도우된 프레임을 기초로 하기 때문에 이 경우, 상기 합산된 프레임(290)의 상기 시작섹션 내의 합산된 샘플은 이미 언급한 바와 같이 윈도우된 프레임(240-(k-1), 240-(k-2), 240-(k-3))으로부터의 세 개의 윈도우된 샘플들을 더함으로써 얻어진다.

예를 들어, 이 경우는 출력 프레임의 대응되는 출력 샘플들이 상기 윈도워(220)에 의해 무시되도록 적용된 상기 윈도워(220)에 의해 야기될 수 있다. 또한 만약 상기 기설정된 값 또는 상기 기설정된 범위가 상기 합산 샘플의 방해를 야기할 값을 포함하는 경우, 상기 중첩/합산기(230)는 상기 합산 샘플을 얻도록 각각의 윈도우된 샘플들을 더하는 것에 있어서 상기 대응되는 윈도우된 샘플이 고려되지 않도록 구성될 수 있다. 이 경우, 대응되는 윈도우된 샘플들은 상기 시작 섹션(300) 내의 상기 합산 샘플을 얻는데 사용되지 않을 것이기 때문에, 상기 최초섹션(270)의 윈도우된 샘플은 또한 상기 중첩/합산기에 의하여 무시되도록 고려될 수도 있다.

상기 나머지 섹션(310) 내의 합산 샘플들의 견지에서, 도 4의 화살표(330)에 의해 지시되는 바와 같이 상기 중첩/합산기(230)은 적어도 세 개의 윈도우된 프레임(240)(세 개의 다른 출력 프레임(240)에 대응하는)으로부터의 적어도 세 개의 윈도우된 샘플들을 더하도록 적용된다. 다시 말해, 도 4에 도시된 실시예에서 윈도우된 프레임(240)이 4 개의 서브섹션(260)을 포함한다는 사실 때문에, 상기 나머지 섹션(310)의 합산 샘플은 상기 중첩/합산기(230)에 의해 4 개의 서로 다른 윈도우된 프레임(240)으로부터의 4 개의 윈도우된 샘플들을 더하여 생성될 것이다. 보다 정확하게는 상기 합산 프레임(290)의 상기 나머지 섹션(310) 내의 하나의 합산 샘플은 상기 중첩/합산기(230)에 의해 상기 윈도우된 프레임(240-k)의 상기 첫 번째 서브섹션(260-1), 상기 윈도우된 프레임(240-(k-1))의 상기 두 번째 서브섹션(260-2), 상기 윈도우된 프레임(240-(k-1))의 상기 세 번째 서브섹션(260-3), 그리고 상기 윈도우된 프레임(240-(k-3))의 상기 네 번째 서브섹션(260-4)으로부터의 대응되는 윈도우된 샘플들을 더함으로써 얻어진다.

설명된 바와 같은 중첩/합산기의 결과로서, 상기 합산 프레임(290)은 M=N/2 개의 합산 샘플을 포함한다. 즉, 상기 샘플 어드밴스 값 M은 상기 합산 프레임(290)의 길이와 같다. 또한 적어도 합성 필터뱅크(200)의 몇 가지 실시예들의 견지에서, 이미 언급된 바와 같이 입력 프레임의 길이 또한 상기 샘플 어드밴스 값 M과 같다.

도 4에 도시된 실시예에서, 적어도 세 개 또는 네 개의 윈도우된 샘플들이 각각 상기 합산 프레임의 시작 섹션(300)과 나머지 섹션(310)의 합산 샘플들을 얻기 위해 사용된다는 사실은 오직 간단한 설명을 위해서 선택된 것이다. 도 4에 도시된 실시예에서, 출력/윈도우된 프레임(240) 각각은 4 개의 출발 섹션(260-1 내지 260-4)를 포함한다. 그러나, 원칙적으로 출력 또는 윈도우된 프레임이 합산 프레임(290)의 합산 샘플들의 수의 두 배보다 단지 하나 많은 윈도우된 샘플들을 포함하는 합성 필터뱅크의 실시예도 쉽게 구현될 수 있다. 다시 말해, 합성 필터뱅크(200)의 실시예는 각 윈도우된 프레임이 오직 2M+1 개의 윈도우된 샘플들을 포함하도록 적용될 수 있다.

분석 필터뱅크(100)의 실시예의 문맥에서 설명된 바와 같이 합성 필터뱅크(200)의 실시예는 또한 ER AAC-LD 코덱(코덱=코더+디코더)의 변경에 의하여 ER AAC-ELD 코덱의 구조 내에서 통합될 수도 있다. 따라서, 합성 필터뱅크(200)의 실시예는 저 비트전송율 및 저 딜레이 오디오 코딩/디코딩 시스템을 정의하기 위한 AAC-LD 코덱의 배경에서 사용될 수 있다. 예를 들어, 합성 필터뱅크의 실시예는 선택적인 SBR(Spectral Bank Replication) 도구(tool)와 함께 상기 ER AAC-ELD 코덱을 위한 디코더 내에 포함될 수 있다. 그러나 충분한 저 딜레이를 얻기 위하여, ER AAC-LD 코덱과 비교하여 합성 필터뱅크(200)의 실시예의 구현에 도달하기 위한 수단에 대한 몇 가지 변경을 권할 만하다.

위에 언급한 코덱의 합성 필터뱅크는 저(합성) 필터뱅크의 실시예를 적용하기 위하여 변경될 수 있다. 여기서 코어 IMDCT(Inverse Modified Discrete Cosine Transform) 알고리즘은 주파수/시간 변환기(210)의 관점에서 거의 변하지 않고 남을 수 있다. 그러나 IMDCT 주파수/시간 변환기와 비교하여, 상기 주파수/시간 변환기(210)는 상기 샘플 색인 n이 N-1까지 보다는 2N-1까지 진행하고 있도록 더 긴 윈도우 함수와 함께 구현될 수 있다.

보다 정확하게는, 상기 주파수/시간 변환기(210)는 그것이 아래의 표현에 기초한 출력 값 x_i _,n을 제공하도록 구성될 수 있도록 구현될 수 있다.

일 때,

,

여기서 n은 이미 언급한 바와 같이, 샘플 색인을 나타내는 정수이고, i는 윈도우 색인을 나타내는 정수이며, k는 스펙트럼 계수 색인이고, N은 정수 N이 합산 프레임(290)의 합산 샘플의 수의 두 배가 되도록 하는 ER AAC-LD 코덱 실행의 파라미터 윈도우 시퀀스에 기초한 윈도우 길이에 해당한다. 또한 n₀는 아래와 같이 주어지는 오프셋 값이다.

,

여기서 spec[i][k]는 입력 프레임의 상기 스펙트럼 계수 색인 k와 윈도우 색인 i에 대응하는 입력 값이다. 합성 필터뱅크(200)의 몇 가지 실시예들에서 상기 파라미터 N은 960 또는 1024이다. 그러나, 원칙적으로 파라미터 N은 또한 다른 어떤 값이 될 수도 있다. 즉, 합성 필터뱅크(200)의 다른 실시예는 파라미터 N=360 또는 다른 값에 기초하여 동작할 수도 있다.

상기 윈도워(220)와 상기 중첩/합산기(230)는 또한 ER AAC-LD 코덱의 구조 내의 윈도우잉 및 중첩/합산 수단과 비교하여 개조될 수도 있다. 보다 정확하게는, 위에 언급된 코덱과 비교하여, 윈도우 함수의 길이 N이 과거에서 더 중첩되고 미래에서 덜 중첩되는 길이 2N의 윈도우 함수에 의해 대체된다. 다음의 도 5 내지 11의 문맥에서 설명되는 바와 같이, 합성 필터뱅크(200)의 실시예에서 M/4=N/8 개의 값 또는 윈도우 계수들을 포함하는 윈도우 함수들은 실제로 0으로 설정될 수 있다. 결과적으로, 이와 같은 윈도우 계수들은 각 프레임의 최초섹션들(160, 270)에 대응한다. 이미 설명된 바와 같이 이 섹션은 전혀 구현될 필요가 없다. 가능한 대안으로서, 대응되는 모듈(예를 들어, 상기 윈도워(110, 220))은 값 0과 곱하는 것이 필요하지 않도록 구성될 수 있다. 먼저 설명된 것처럼 실시예들의 오직 두 개의 가능한 구현과 관련된 차이들을 언급하기 위하여 상기 윈도우된 샘플은 0으로 설정되거나 또는 무시될 수 있다.

따라서 이와 같은 저 딜레이 윈도우 함수를 포함하는 합성 필터뱅크의 그와 같은 실시예의 경우, 상기 윈도워(220)에 의해 수행되는 윈도우잉은 다음 식을 따라 구현될 수 있다.

,

여기서 윈도우 계수 w(n)을 갖는 윈도우 함수는 2N 개의 윈도우 계수의 길이를 갖는다. 따라서 샘플 색인은 N=0으로부터 N=2N-2까지 진행된다. 여기서 다른 윈도우 함수의 윈도우 계수의 값들과 관계는 합성 필터뱅크의 서로 다른 실시예들을 위하여 부록의 테이블 1 내지 4에 포함된다.

또한 상기 중첩/합산기(230)은 나아가 아래의 표현 또는 등식에 기초하여, 또는 따라서 구현될 수 있다.

일 때,

,

여기서 전에 주어진 표현들과 등식들은 합성 필터뱅크(200)의 실시예의 구체적인 구현에 따라 다소 바뀔 수 있다. 즉, 구체적인 구현에 따라서, 특히 윈도우 프레임이 반드시 최초섹션을 포함하여야 하는 것은 아니라는 견지에서, 예를 들어, 최초섹션이 존재하지 않거나 또는 중요하지 않은 윈도우된 샘플들(예를 들어 0 값의 샘플들)을 포함하는 경우, 위에 주어진 등식들 또는 표현들은 상기 최초섹션의 윈도우된 샘플들을 제외하기 위하여 더하는 색인들의 경계의 측면에서 변경된다. 즉, 분석 필터뱅크(100) 또는 합성 필터뱅크(200)의 실시예의 적어도 하나를 구현함으로써 ER AAC-LD 코덱은 선택적으로 적절한 SBR 도구와 함께, 예를 들어 저 비트전송율 및/또는 저 딜레이 오디오 코딩 및 디코딩 시스템을 얻기 위하여 사용될 수 있는 ER AAC-ELD 코덱을 얻기 위하여 실행될 수 있다. 인코더와 디코더의 개관이 각각 도 12와 13의 구조 내에 주어질 것이다.

이미 여러번 나타낸 바와 같이, 분석 필터뱅크(100)와 합성 필터뱅크(200)의 두 실시예들은 분석/합성 필터뱅크(100, 200)의 구조 내에서 뿐 아니라 인코더와 디코더의 실시예의 구조 내에서 저 딜레이 윈도우 함수를 구현함으로써, 향상된 저 딜레이 코딩 모드를 가능하게 하는 이점을 제공한다. 도 5 내지 11의 문맥에서 보다 상세하게 설명되는 윈도우 함수들 중 하나를 포함할 수 있는 분석 필터뱅크 또는 합성 필터뱅크의 실시예를 수행함으로써, 저 딜레이 윈도우 함수를 포함하는 필터뱅크의 실시예의 구체적인 구현에 따라 몇 가지 장점을 얻을 수 있다. 도 2의 문맥을 참조하여, 필터뱅크의 실시예의 수행은 모든 최신식 코덱에서 사용되는 직교(orthogonal) 윈도우에 기초한 코덱과 비교하여 딜레이를 야기할 수도 있다. 예를 들어, 파라미터 N=960에 기초한 시스템의 경우, 48kHz의 샘플링 주파수에서 20ms의 딜레이와 같은 960 샘플들로부터 동일한 샘플링 주파수에서 15ms의 딜레이와 동일한 700샘플로의 딜레이 감소가 현실화될 수 있다. 또한, 앞으로 보여지는 바와 같이 합성 필터뱅크 및/또는 분석 필터뱅크의 실시예의 주파수 반응은 사인 함수를 이용한 필터뱅크와 매우 유사하다. 소위 저 중첩 윈도우를 채용한 필터뱅크와 비교에 있어서, 상기 주파수 반응이 더 낫다. 또한 상기 프리 에코 특성은 저 중첩 윈도우와 유사하여 합성 필터뱅크 및/또는 분석 필터뱅크의 실시예는 필터뱅크들의 실시예의 구체적인 구현에 따라 저 딜레이와 질(quality) 사이의 우수한 교환조건(trade-off)을 보일 수 있다. 예를 들어 회의 시스템의 실시예의 구조 내에 채용될 수 있는 다른 장점으로서 오직 하나의 윈도우 함수가 모든 종류의 신호를 처리하는데 사용될 수 있다는 장점이 있다.

도 5는 예를 들어 분석 필터뱅크(100)의 실시예의 경우와, 합성 필터뱅크(200)의 실시예의 경우에서 윈도워(110, 220)의 구조 내에 채용될 수 있는 가능한 윈도우 함수의 그래픽 표현을 보여준다. 보다 분명하게는, 도 5에 도시된 윈도우 함수는 위쪽 그래프의 분석 필터뱅크의 실시예의 경우 출력 샘플들의 수 또는 M=480 대역의 분석 윈도우 함수에 대응한다. 도 5의 아래쪽 그래프는 합성 필터뱅크의 실시예를 위한 대응하는 합성 윈도우 함수를 보여준다. 도 5에 도시된 두 윈도우 함수들이 합산 프레임(합성 필터뱅크)과 출력 프레임(분석 필터뱅크)의 샘플들 또는 M=480 대역에 대응하기 때문에, 상기 도 5에 도시된 윈도우 함수들은 색인 n=0,...,1919을 각각 갖는 1920 개의 값들의 정의 세트를 포함한다.

또한, 중점이 색인 N=959와 N=960 사이에 놓여지기 때문에, 이 경우 상기 정의 세트 자체의 일부가 아닌 정의 세트의 중점을 기준으로, 도 5의 두 그래프가 명확하게 보여주는 것처럼, 두 윈도우 함수들은, 모든 윈도우 계수들의 최대 절대값의 10%, 20%, 30% 또는 50% 보다 큰 윈도우 계수의 절대값을 갖는 위에 언급된 중점에 대한 정의 세트의 하나의 절반 내에 현저히 높은 수의 윈도우 계수들을 포함한다. 도 5의 위쪽 그래프의 분석 윈도우 함수의 경우, 정의 세트의 각 절반은 색인 N=960,... 1919를 포함하는 정의 세트이고, 도 5의 아래쪽 그래프의 합성 윈도우 함수의 경우, 중점에 대한 정의 세트의 각 절반은 색인 N=0,..., 959를 포함한다. 결과적으로, 상기 중점을 기준으로, 분석 윈도우 함수와 합성 윈도우 함수 모두는 매우 비대칭적이다.

합성 필터뱅크의 실시예의 윈도워(220)의 경우와 함께 상기 분석 필터뱅크의 실시예의 상기 윈도워(110) 모두의 문맥에서 이미 보여진 바와 같이, 상기 분석 윈도우 함수와 상기 합성 윈도우 함수는 색인을 기준으로 서로 역의 관계이다.

도 5의 두 그래프에 보여진 윈도우 함수에 대한 중요한 양상은 위쪽 그래프에 보여진 분석 윈도우의 경우 마지막 120 개의 윈도우잉 계수들과 도 5의 아래쪽 그래프의 합성 윈도우 함수의 경우 첫 번째 120 개의 윈도우 계수들은 적절한 정확성 내에서 0과 같다고 간주할 수 있는 절대값을 포함하거나 0으로 설정된다. 즉, 두 윈도우 함수들의 위에 언급된 120 개의 윈도우잉 계수들은 따라서 각 샘플들과 상기 120 개의 윈도우 계수들을 곱함으로써 적절한 수의 샘플들이 기설정된 범위 내의 적어도 하나의 값으로 설정되도록 야기하도록 고려될 수 있다. 다시 말해, 분석 필터뱅크(100) 또는 합성 필터뱅크(200)의 실시예의 구체적인 구현에 따라, 상기 120 개의 0 값을 갖는 윈도우된 계수들은 이미 설명한 바와 같이, 만약 응용 가능하다면 분석 필터뱅크와 합성 필터뱅크의 실시예들에서 윈도우된 프레임들의 상기 최초섹션(160, 270)을 생성하게 될 것이다. 그러나, 상기 최초섹션(160, 270)이 존재하지 않더라도, 120 개의 0의 값을 갖는 윈도우 계수들은,

적절한 프레임들의 최초섹션(160, 270)이 전혀 존재하지 않는 경우에도, 다른 프레임들을 다루거나 처리하기 위하여, 분석 필터뱅크(100)와 합성 필터뱅크(200)의 실시예에서 상기 윈도워(110), 상기 시간/주파수 변환기(120), 상기 윈도워(220) 그리고 상기 중첩/합산기(230)에 의해 해석될 수 있다.

M=480(N=960)인 경우, 120 개의 0의 값을 갖는 윈도우된 계수들을 포함하는 도 5에 도시된 분석 윈도우 함수 또는 합성 윈도우 함수를 실행함으로써, 분석 필터뱅크(100)와 합성 필터뱅크(200)의 적절한 실시예가 실행될 수 있다. 이 실시예에서는 대응하는 프레임의 상기 최초섹션(160, 270)이 M/4 개의 샘플들을 포함하거나, 보다 일반적인 용어로는, 대응하는 첫 번째 서브섹션(150-1, 260-1)이 다른 서브섹션들보다 M/4 개 적은 값 또는 샘플들을 포함한다.

위에서 언급된 것처럼, 도 5의 위쪽 그래프에 도시된 분석 윈도우 함수와 도 5의 아래쪽 그래프에 도시된 합성 윈도우 함수는 분석 필터뱅크와 합성 필터뱅크 둘 모두를 위한 저 딜레이 윈도우 함수를 표현한다. 나아가, 도 5에 도시된 바와 같은 분석 윈도우 함수와 합성 윈도우 함수는 두 윈도우 함수를 정의하는 정의 세트의 위에 언급된 중점을 기준으로 서로에 대한 거울 대칭된(mirrored) 버전이다.

많은 경우 분석 필터뱅크 또는 합성 필터뱅크의 실시예의 채용 및/또는 상기 저 딜레이 윈도우의 사용은, 복잡성 분석에서 추후 설명되는 바와 같이, 계산 복잡성에서의 눈에 띄는 증가와 필요기억량(storage requirements)에서의 단지 근소한 증가도 얻어내지 못함을 유념해야 한다.

단지 단순화를 위하여 거기에 놓여진 도 5의 윈도우 함수는 부록의 테이블 2에 주어진 값들을 포함한다. 그러나, 분명히, 파라미터 M=480에서 동작하는 합성 필터뱅크 또는 분석 필터뱅크의 실시예에서 반드시 부록의 테이블 2에 주어진 정확한 값들을 포함해야 하는 것은 아니다. 자연적으로 분석 필터뱅크 또는 합성 필터뱅크의 실시예의 구체적인 구현은, M=480인 경우 적용되는 적절한 윈도우 함수의 구조에서 변화하는 윈도우 계수를 쉽게 채용할 수 있고, 따라서, 많은 경우에서 윈도우 계수의 채용은 상기 부록의 테이블 1에 주어진 관계를 만족하게 된다.

나아가, 이어서 소개될 필터 계수, 윈도우 계수 뿐 아니라 리프팅 계수들을 포함하는 많은 실시예에서, 주어진 도면들은 주어진 바와 같이 정확하게 수행되어야 하는 것은 아니다. 즉 분석 필터뱅크 뿐 아니라 합성 필터뱅크의 다른 실시예들과 본 발명에 관련된 실시예들에서는 또한 그 변화가 소수점 아래 세 번째 자리내이거나, 네 번째, 다섯 번째 자리 등과 같이 더 높은 자리 내인 한, 아래에 부록에 주어진 계수들과는 다른 리프팅 계수와 같은 다른 계수들과, 필터 계수, 윈도우 계수들인 다른 윈도우 함수들이 실행될 수도 있다.

도 5의 아래에 있는 합성 윈도우 함수에 대해서, 위에서 언급한 것처럼 첫 번째 M/4=120 개의 윈도우 계수들은 0으로 설정된다. 그 후에, 대략 색인 350까지, 상기 윈도우 함수는 가파르게 상승한 후 대략 색인 600까지 보다 완만한 경사로 상승한다. 이와 같은 배경에서, 상기 윈도우 함수는 대략 색인 480(=M) 주변에서 1(unity)보다 크거나 또는 하나보다 크게 된다. 그 후의 색인 600에서 대략 샘플 1100까지, 상기 윈도우 함수는 그 최대값으로부터 다시 0.1 보다 적은 레벨로 하강한다. 상기 정의 세트의 나머지에 걸쳐, 상기 윈도우 함수는 0 값 주변에서 다소의 진동을 포함한다.

도 6은 도 5에 도시된 윈도우 함수의 비교를 보여주는데, 도 6의 위쪽 그래프에서는 분석 윈도우 함수의 경우를, 도 6의 아래쪽 그래플에서는 합성 윈도우 함수의 경우를 도시한다. 또한 두 그래프들은 또한 점선으로, 예를 들어 위에서 언급한 ER AAC 코덱 AAC-LC 및 AAC-LD 에서 채용되는 소위 사인(sine) 윈도우 함수를 포함한다. 도 6의 두 그래프에서 보여지는 바와 같이 상기 사인 윈도우와 상기 저 딜레이 윈도우 함수의 직접 비교는 도 5를 참조하여 설명된 바와 같은 시간 윈도우의 다른 시간 오브젝트들을 보여준다. 상기 사인 함수가 오직 960 개의 샘플에 걸쳐서 정의된다는 사실과는 별개로, 분석 필터뱅크의 실시예의 경우(위쪽 그래프)와 합성 필터뱅크의 경우(아래쪽 그래프)에서 보여지는 두 윈도우 함수들 사이의 가장 현저한 차이는 상기 사인 윈도우 프레임 함수가 단축된 정의 세트의 그것의 각 중점에 대하여 대칭이고, 정의 세트의 첫 번째 120개의 성분들 중에서 (대부분) 0보다 큰 윈도우 계수들을 포함한다는 것이다. 이와는 다르게, 이미 설명한 것 처럼 상기 저 딜레이 윈도우는 120 개의 (이상적인) 0 값의 윈도우된 계수들을 포함하고, 상기 사인 함수의 정의 세트와 비교하여 연장된 정의 세트의 각 중점을 기준으로 상당히 비대칭이다.

두 윈도우들 모두 대략 1의 값과 480(=M)의 샘플 색인을 대략 얻는 반면에, 상기 저 딜레이 윈도우가 상기 사인 윈도우에 비하여 구별되는 다른 차이점들도 있는데, 이는 상기 저 딜레이 윈도우 함수는 1 보다 커진 후 대략 120 개의 샘플이 지나 샘플 색인 대략 600(=M+M/4; M=480)에서 최대값에 도달하는 반면에, 상기 대칭의 사인 함수는 최대값에 도달한 후 대칭적으로 0으로 감소한다. 다시 말해, 예를 들어 첫 번째 프레임에서 0과 곱하여짐으로써 다루어질 샘플들이, 이와 같은 경우 M=480의 샘플 어드밴스 값과 중첩 모드의 실행에 기인하여 1 보다 큰 값과 다음 프레임에서 곱하여질 것이다.

예를 들어 분석 필터뱅크 또는 합성 필터뱅크(200)의 다른 실시예들에서 채용될 수 있는 다른 저 딜레이 윈도우들에 대한 다른 설명이 주어지고, 도 5와 6에 보인 윈도우 함수로 얻을 수 있는 딜레이 감소의 개념이 M/4=120 개의 0의 값을 갖는 또는 충분히 낮은 값들을 갖는 파라미터 M=480, N=960을 참조하여 설명될 것이다. 도 6의 위쪽 그래프에 보인 분석 윈도우에서 미래의 입력 값들(샘플 색인 1800 내지 1920)을 액세스하는 부분은 120개의 샘플만큼 감소한다. 그에 상응하여, 도 6의 아래쪽 그래프의 합성 윈도우에서 합성 필터뱅크의 경우 대응하는 딜레이를 요구하는 과거 출력 샘플들과의 중첩은 또 다른 120개 샘플만큼 감소한다. 즉, 합성 윈도우의 경우, 분석 윈도우의 경우에서의 120 개의 샘플의 감소와 함께 중첩/합산 동작의 완료 또는 중첩/합산의 종료를 위하여 필요한 과거 출력 샘플들과의 중첩은 분석 필터뱅크와 합성 필터뱅크의 두 실시예를 모두 포함하는 시스템의 경우 240 개의 샘플들 전체에 걸친 딜레이 감소의 결과를 보일 것이다.

그러나 연장된 중첩은 적어도 샘플링 주파수의 크기에서 추가적인 딜레이를 야기함 없이 쉽게 저장될 수 있는 과거로부터의 더해지는 값들만을 포함하기 때문에 어떤 부가적인 딜레이도 야기하지 않는다. 도 5와 6에서 보이는 저 딜레이 윈도우와 전통적인 사인 윈도우의 세트의 시간의 비교는 이를 보여준다.

도 7은 세 개의 그래프에 세 개의 다른 윈도우 함수들을 보여준다. 보다 정확하게는 도 7의 위쪽 그래프는 위에 언급한 사인 윈도우를 보이고, 가운데 그래프는 소위 저 중첩 윈도우를 보이며, 아래쪽 그래프는 저 딜레이 그래프를 보여진다. 그러나 도 7에 보인 세 개의 윈도우는 하나의 샘플 어드밴스 값 또는 파라미터 M=512(N=2M=1024)에 대응한다. 다시, 도 7의 위쪽 두 개의 그래프에서 상기 사인 윈도우 뿐 아니라 상기 저 중첩 윈도우는 도 7의 아래쪽 그래프에 도시된 저 딜레이 윈도우 함수와 비교하여 1024 개의 샘플 색인을 포함하는 제한된 또는 단축된 정의 세트로 정의된다.

도 7에서 사인 윈도우, 저 중첩 윈도우 그리고 저 딜레이 윈도우의 윈도우 형태의 도면은 상기 사인 윈도우와 상기 저 딜레이 윈도우의 견지에서 이미 설명된 바와 대체로 동일한 특성을 포함한다. 보다 상세히는, 상기 사인 윈도우(도 7의 위쪽 그래프)는 색인 511과 512 사이에 놓인 정의 세트의 대략 중점에 대하여 대칭이다. 상기 사인 함수는 대략 값 M=512에서 최대값을 갖고, 상기 최대값으로부터 다시 0으로 정의 세트의 경계를 향해 감소한다.

도 7의 아래쪽 그래프에 도시된 저 딜레이 윈도우의 경우, 이와 같은 저 딜레이 윈도우는 상기 샘플 어드밴스 값 M의 1/4에 해당하는 128 개의 0 값을 갖는 윈도우 계수들을 포함한다. 또한 상기 저 딜레이 윈도우는 샘플색인 M에서 대략 1의 값을 갖고, 상기 윈도우 계수의 최대값은 증가하는 색인의 견지에서 1 보다 커진 후 대략 128 개의 샘플 색인 n이 지난 후에(색인 640 주변에서) 얻어진다. 또한 상기 윈도우 함수의 도면의 다른 특징들에 대하여 도 7의 아래쪽 그래프에서 M=512를 위한 윈도우 함수는 더 긴 정의 세트에 기인한 선택적인 이동(shift)과는 별개로 도 5와 6에 도시된 M=480을 위한 저 딜레이 윈도우와 크게 다르지 않다. 도 7의 아래쪽 그래프에 보인 상기 저 딜레이 윈도우는 부록의 테이블 4에 주어진 값들을 포함한다.

그러나 이미 설명한 것처럼 합성 필터뱅크 또는 분석 필터뱅크의 실시예를 위하여 반드시 상기 윈도우 함수를 테이블 4에 주어진 정확한 값으로 구현해야만 하는 것은 아니다. 다시 말해, 윈도우 게수는 그것들이 부록의 테이블 3에 주어진 관계를 유지하는 한 테이블 4에 주어진 값과 달라도 된다. 또한 본 발명의 실시예에서는, 변동이 소수점 아래 세 째 자리 내이거나, 또는 네 번째, 다섯 번째 자리 등 더 높은 자리인 한에서, 이미 설명한 것처럼 상기 윈도우 계수에 대한 변동이 쉽게 수행될 수 있다.

도 7의 가운데 그래프에서, 상기 저 중첩 윈도우는 지금까지 설명되지 않았다. 이미 언급한 것처럼 상기 저 딜레이 윈도우는 또한 1024 개의 성분을 포함하는 정의 세트를 포함한다. 또한 상기 저 중첩 윈도우는 또한 상기 저 중첩 윈도우가 사라지는 연결된 서브세트를 정의 세트의 시작 지점과 정의 세트의 종료 지점에 포함한다. 그러나, 상기 저 중첩 윈도우가 사라지는 이와 같은 연결된 서브세트 이후에는 각각 오직 100개가 약간 넘는 샘플 색인을 포함하는 가파른 증가 또는 하강이 따른다. 또한 대칭적인 저 중첩 윈도우는 몇 가지 실시예들에서 채용된 것과 같은 윈도우 함수들과 비교하여 더 적은 저지대역(stop-band) 감쇠를 포함할 수 있고 1 이상의 값을 포함하지 않는다.

다시 말해, 상기 저 중첩 윈도우는 상기 저 딜레이 윈도우와 같은 샘플 어드밴스 값을 가지면서도 현저히 낮은 정의 세트를 포함하며, 1 이상의 값을 갖지 않는다. 또한 상기 사인 윈도우와 상기 저 중첩 윈도우는 그들의 각 정의 세트의 중점에 대하여 직교하거나 대칭인 반면, 상기 저 딜레이 윈도우는 그 정의 세트의 중점에 걸쳐 설명된 방식으로 비대칭이다.

상기 저 중첩 윈도우는 과도현상의 프리에코 아티팩트(artifact)를제거하기 위하여 소개되었다. 낮은 중첩은 도 8에 도시된 것처럼, 신호 공격(attack) 전에 양자화 노이즈의 퍼짐을 방지한다. 그러나 새로운 저 딜레이 윈도우는 동일한 특성을 갖지만 도 10과 11에 도시된 주파수 반응들을 비교함으로써 명백해지는 바와 같이 더 좋은 주파수 반응을 제공한다. 따라서 상기 저 딜레이 윈도우는 두 전통적인 AAC-LD 윈도우들, 즉 상기 사인 윈도우와 상기 저 중첩 윈도우를 대체 가능하고 따라서 동적인 윈도우 형태 적용이 더 이상 수행되지 않아도 된다.

도 8은 도 7에 도시된 동일한 윈도우 함수들을 위하여 동일한 순서의 그래프들에, 상기 저 딜레이 윈도우와 저 중첩 윈도우 또는 상기 사인 윈도우의 서로 다른 윈도우 형태를 위하여 퍼져있는 양자화 노이즈의 예를 보여준다. 도 8의 아래쪽 그래프에 도시된 저 딜레이 윈도우의 프리에코 특성은 도 8의 가운데 그래프에 도시된 저 중첩 윈도우 특성와 유사한 반면에, 도 8의 위쪽 그래프에 도시된 사인 윈도우의 프리에코 특성은 첫 번째 128 개(M=512)의 샘플들에의 상당한 기여를 포함한다.

즉, 합성 필터뱅크 또는 분석 필터뱅크의 실시예에 저 딜레이 윈도우를 채용하는 것은 향상된 프리에코 특성에 관한 장점을 보인다. 분석 윈도우의 경우, 미래의 입력 값에 액세스하여 딜레이가 요구되게 하는 경로는, 480/512 개의 샘플들의 샘플 어드밴스 값 또는 블록 길이의 경우에, 바람직하게는 120/128 개의 샘플들에 의하여 또는 하나 이상의 샘플에 의하여 감소된다. 따라서 그것은 MDCT(Modified Discrete Cosine Transform)과 비교하여 딜레이를 감소시킨다. 동시에 그것은 120/128 개의 샘플들에 있을 수 있는 신호 내의 가능한 공격이 오직 한 블록 또는 한 프레임 다음에 나타날 수 있기 때문에 프리에코 특성을 향상시킨다. 이와 대응하여, 합성 윈도우에서, 대응하는 딜레이를 요구하는 중첩/합산 동작을 종료하기 위한 과거 출력 샘플들과의 중첩은 240/256 개의 샘플들의 전체에 걸친 딜레이 감소를 야기하는 다른 120/128 개의 샘플들만큼 감소된다. 이는 또한, 그 120/128 개의 샘플들이 가능한 부착(attach) 이전에, 과거로의 노이즈 확산에 기여하기 때문에 향상된 프리에코 특성을 야기한다. 이와 같은 수단들 전체로, 프리에코는 한 블록 또는 프레임 이후에 가능하게 나타나고, 합성측으로부터의 프리에코 결과만 보면 120/128 샘플 짧아졌다.

도 5 내지 7에서 설명된 바와 같은 저 딜레이 윈도우를 채용함으로써 얻을 수 있는 이와 같은 감소는, 합성 필터뱅크 또는 분석 필터뱅크의 실시예의 구체적인 구현에 따라, 인간의 청취 특성을 고려할 때, 특히 마스킹(masking)의 관점에서 특히 유용할 수 있다. 이를 나타내기 위해 도 9는 인간의 귀의 마스킹 특성을 개략적으로 도시하고 있다. 보다 정확하게는, 도 9는 특정 주파수를 갖는 소리나 톤(tone)이 대략 200ms의 시간동안 존재할 때, 시간 함수로서 인간의 귀의 청취 경계 레벨의 개략적인 표현을 보여준다.

그러나, 상기 언급한 소리나 톤이 존재하기 직전에, 도 9에 화살표(350)으로 나타낸 것처럼, 프리마스킹(pre-masking)이 대략 20ms의 짧은 시간 동안 존재하고, 따라서 때로 동시(simultaneous) 마스킹으로 불리는 톤이나 소리의 존재 동안에 마스킹이 없는 것과 마스킹 사이의 부드러운 천이를 가능하게 한다. 돈이나 소리가 존재하는 시간 동안에 마스킹은 온(On)되어 있다. 그러나 도 9에 화살표(360)에 의해 나타낸 것처럼 톤이나 소리가 사라지면, 마스킹은 즉시 없어지지 않고, 포스트마스킹(post-masking)이라고 때때로 불리는 대략 150ms의 시간 동안에 마스킹이 천천히 감소한다.

즉, 도 9는 소리나 톤이 존재하기 전후의 프리마스킹의 위상 뿐 아니라 포스트마스킹의 위상을 포함하는 인간의 청취의 일반적인 일시적 마스킹 특성을 보여준다. 분석 필터뱅크(100) 및/또는 합성 필터뱅크(200)의 실시예에서 저 딜레이 윈도우의 통합에 의한 프리에코 특성의 감소에 기인하여, 청취 가능한 왜곡(distortion)은 많은 경우 현저하게 제한될 것이다. 왜냐하면 청취가능한 프리에코는 적어도 몇 정도까지는 도 9에 도시된 바와 같은 인간의 귀의 일시적인 마스킹 효과의 프리마스킹 기간으로 사라지기 때문이다.

또한 부록의 테이블 1 내지 4의 관계와 값들에 대하여 상세하게 설명된 도 5 내지 7에 도시된 것과 같은 저 딜레이 윈도우 함수를 채용하는 것은, 사인 윈도우의 주파수 반응과 유사한 주파수 반응을 제공한다. 이를 나타내기 위하여, 도 10은 사인 윈도우(파선)과 저 딜레이 윈도우(실선)의 예 사이의 주파수 반응의 비교를 도시하고 있다. 도 10의 위에 언급된 두 윈도우의 두 주파수 반응을 비교함으로써 볼 수 있는 것처럼, 저 딜레이 윈도우는 주파수 선택특성(frequency selectivity)의 관점에서 사인 윈도우와 필적한다. 상기 저 딜레이 윈도우의 주파수 반응은 상기 사인 윈도우의 주파수 반응과 유사하거나 필적하고, 도 11에서 보여진 주파수 반응 비교에서와 같이 상기 저 중첩 윈도우의 주파수 반응에 비하여 월등하다.

보다 분명하게 하기 위해, 도 11은 사인 윈도우(파선)와 저 중첩 윈도우(실선) 사이의 주파수 반응의 비교를 보인다. 볼 수 있는 바와 같이, 상기 저 중첩 윈도우의 주파수 반응의 실선은 사인 윈도우의 대응하는 주파수 반응보다 현저히 크다. 도 10에 보인 두 주파수 반응의 비교에 의해 알 수 있는 것처럼, 상기 저 딜레이 윈도우와 상기 사인 윈도우가 서로 필적하는 주파수 반응을 보이기 때문에 상기 저 중첩 윈도우와 상기 저 딜레이 윈도우 사이의 비교 또한 둘 모두 사인 윈도우의 주파수 반응을 보여주고, 주파수 축과 세기(intensity) 축(db)에 대한 동일한 단위를 포함하는 도 10과 11에 도시된 도면에서와 같이 용이하게 그려질 수 있다. 따라서, 합성 필터뱅크의 실시예 뿐 아니라 분석 필터뱅크의 실시예에서 쉽게 구현될 수 있는 사인 윈도우가 저 중첩 윈도우와 비교하여 현저히 나은 주파수 반응을 제공한다는 결론에 쉽게 도달할 수 있다.

*도 8에 도시된 프리에코 특성의 비교에서 보이는 바와 같이, 상기 저 딜레이 윈도우는 프리에코 특성에 대하여 상당한 이점을 제공하고, 한편 상기 저 딜레이 윈도우의 프리에코 특성이 상기 저 중첩 윈도우의 그것과 필적하고, 상기 저 딜레이 윈도우가 위에 언급한 두 윈도우들 사이의 탁월한 교환조건(trade-off)을 보인다.

결론적으로, 분석 필터뱅크의 실시예 뿐 아니라 합성 필터뱅크의 실시예 및 다른 관련 실시예들의 구조에서 구현가능한 상기 저 딜레이 윈도우는, 이와 같은 교환조건에 기인하여, 동일한 윈도우 함수가 과도 신호 뿐 아니라 음신호(tonal signal)를 위하여 사용될 수 있다. 그에 따라 다른 블록 길이 또는 다른 윈도우들 사이의 스위칭이 필요하지 않게 된다. 즉, 분석 필터뱅크, 합성 필터뱅크의 실시예와, 관련된 실시예들은, 다른 블록 사이즈나 블록 길이, 다른 윈도우 수나 다른 윈도우 형태와 같은 사용상의 파라미터들의 서로 다른 세트들 사이의 스위칭을 요구하지 않는 인코더, 디코더 및 다른 시스템들의 제작 가능성을 제공한다. 즉, 상기 저 딜레이 윈도우를 갖는 분석 필터뱅크 또는 합성 필터뱅크의 실시예를 채용함으로써, 인코더, 디코더 및 관련 시스템들의 실시예의 구조가 현저하게 단순화될 수 있다. 부가적인 기회로서, 다른 파라미터 세트 사이의 스위칭이 필요하지 않다는 사실에 기인하여, 서로 다른 소스(source)로부터의 신호들이 아래의 섹션들에서 설명되는 바와 같이 추가적인 딜레이를 요구하는 시간 영역 대신에 주파수 영역에서 처리될 수 있다.

또 다른 말로는, 합성 필터뱅크 또는 분석 필터뱅크의 실시예의 채용은 몇 가지 실시예들에서 낮은 계산 복잡성의 이점으로부터의 이익을 얻는 가능성을 제공한다. 예를 들어 사인 윈도우와 MDCT를 비교함에 있어서 더 낮은 딜레이를 보상하기 위하여, 추가적인 딜레이 없이 더 긴 중첩이 도입되었다. 먼저 요약된 바와 같은 주파수 선택 특성에 의한 이익들과 중첩된 양의 두 배를 갖는 대응되는 사인 윈도우의 길이의 약 두 배의 윈도우와, 더 긴 중첩에도 불구하고, 메모리 성분과 블록 길이 곱셈의 가능한 증가하는 크기에 기인하여 단지 작은 추가적인 복잡성과 함께 실시예가 구현될 수 있다. 그러나 이와 같은 구현의 더 세부적인 사항들은 도 19 내지 24의 문맥에서 설명될 것이다.

도 12는 인코더(400)의 실시예의 개략적인 블럭도를 보여준다. 상기 인코더(400)는 출력 프레임에 기초하여 복수의 인코딩된 프레임들을 출력하도록 구성되고 상기 분석 필터뱅크(100)에 의하여 제공되는 복수의 출력 프레임을 인코딩하도록 구성되는 선택적 구성요소로서의 엔트로피 인코더(410)와 분석 필터뱅크(100)의 실시예를 포함한다. 예를 들어, 상기 엔트로피 인코더(410)는 산술적인 코딩 기술(arithmetic coding-scheme)과 같은 엔트로피 효율적인(entrophy-efficient) 코딩 기술을 사용하는 다른 엔트로피 인코더 또는 허프만(Huffman) 인코더로 구현될 수 있다.

인코더(400)의 실시예의 구조 내에서 분석 필터뱅크(100)의 실시예를 채용함에 의하여, 상기 인코더는 2N 또는 2N-1보다 적은 복원되는(reconstructional) 딜레이를 갖는 동안 N 개의 대역수의 출력을 제공한다. 또한 원칙적이로 인코더(400)의 실시예는 2N 개의 샘플보다 많은 유한한 임펄스(impulse) 반응을 제공한다. 즉, 인코더(400)의 실시예는 딜레이 효율적인 방식으로 (오디오)데이터를 처리할 수 있는 인코더를 나타낸다.

도 12에 도시된 바와 같은 인코더(400)의 실시예의 구체적인 구현에 따라, 이와 같은 실시예는, 상기 분석 필터뱅크(100)의 실시예에 제공되는 입력 프레임을 전처리하기 위하여 또는 각 프레임들을 엔트로피 인코딩하기 전에 출력 프레임을 처리하기 위하여 양자화기, 필터 또는 다른 구성요소를 더 포함할 수도 있다. 하나의 예로, 추가적인 양자화기는 구체적인 구현과 응용 분야에 따라, 데이터를 양자화하거나 데이터를 재양자화하기 위하여 인코더(400)의 실시예의 상기 분석 필터뱅크(100) 앞에 제공될 수 있다. 상기 분석 필터뱅크 뒤에서 처리하기 위한 하나의 예로서, 출력 프레임의 축면에서 균등화(equalization) 또는 다른 이득 조정이 수행될 수도 있다.

도 13은 엔트로피 디코더(460) 뿐 아니라 이미 설명한 바와 같은 합성 필터뱅크(200)의 실시예를 포함하는 디코더(450)의 실시예를 보이고 있다. 상기 디코더(450)의 실시예의 상기 엔트로피 디코더(460)는 예를 들어 인코더(400)의 실시예에 의하여 제공될 수 있는 복수의 인코딩된 프레임을 디코딩하도록 구성될 수 있는 선택적인 구성요소를 나타낸다. 따라서 상기 엔트로피 디코더(460)는 가까이에서 상기 디코더(450)의 응용을 위하여 적당한 엔트로피 인코딩/디코딩 기술에 기초하는 다른 엔트로피 디코더 또는 허프만 또는 연산적(algorithmic) 디코더가 될 수 있다. 또한 상기 엔트로피 디코더(460)는 상기 디코더(450)의 출력에서 또는 상기 합성 필터뱅크(200)의 출력에서 복수의 합산 프레임을 순차적으로 제공하는 합성 필터뱅크(200)로 복수의 입력 프레임을 제공하도록 구성될 수 있다.

그러나 구체적인 구현에 따라, 상기 디코더(450)는 또한 역양자화기(dequantizer) 또는 이득 조정자와 같은 다른 구성요소와 같은 추가적인 구성요소를 포함할 수 있다. 보다 분명하게는, 상기 엔트로피 디코더(460)와 상기 합성 필터뱅크 사이에, 오디오 데이터가 상기 합성 필터뱅크(200)에 의하여 시간 영역으로 변환되기 전에 주파수 영역에서 이득의 조정 또는 균등화를 수행하기 위한 선택적 구성요소로서 이득 조정자가 구현될 수 있다. 따라서, 상기 디코더(450)의 외부 구성요소로, 선택적으로 재양자화된 합산 프레임을 제공하기에 앞서 합산 프레임을 재양자화하는 기회를 제공하기 위하여 상기 디코더(450) 내부의 상기 합성 필터뱅크(200) 이후에 추가적인 양자화기가 구현될 수도 있다.

도 12에 도시된 인코더(400)의 실시예와 도 13에 도시된 디코더(450)의 실시예는 오디오 인코딩/디코딩 뿐 아니라 오디오 처리의 다양한 분야에 응용될 수 있다. 상기 인코더(400)와 디코더(450)의 이와 같은 실시예들은 예를 들어 높은 질의 통신의 영역에 채용될 수 있다.

인코더 또는 코더의 실시예 뿐 아니라 디코더의 실시예 둘 다, 다른 윈도우들의 스위칭이나 블록 길이의 스위칭과 같은 파라미터의 변화를 수행하지 않고 상기 실시예들을 수행하는 기회를 제공한다. 즉, 다른 코더와 디코더들과 비교하여, 합성 필터뱅크, 분석 필터뱅크 및 관련 실시예들의 형태에서 본 발명의 실시예는 분명히 다른 윈도우 함수들 및/또는 다른 블록 길이를 수행할 것을 요구하지 않는다.

초기에 정의된 MPEG-4 오디오의 버전 2에서, 저 딜레이 AAC 코더(AAC-LD)는, 예를 들어 음악 신호에 대한 나쁜 성능, 음성 자료, 단일 스피커로의 포커싱과 같은 일반적인 음성코더(speech coder)가 갖는 한계들에 지배되지 않는 전대역폭 고질의 통신 코더로서 시간 경과에 따라 증가하도록 적응된다. 이와 같은 특별한 코더는, 산업계의 요구에 때문에 예를 들어 저 딜레이 AAC 프로파일(profile)의 창안을 촉발한 다른 통신 응용분야에서 비디오/원격회의를 위하여 널리 사용된다. 그럼에도 불구하고 그 코더의 코딩 효율의 개선은, 본 발명의 몇 가지 실시예들이 제공할 수 있는 기여에 대한 주제이며, 사용자 커뮤니티에 대한 많은 이익을 갖는다.

현재, 상기 MPEG-4 ER AAC-LD 코덱은 각 채널당 64 kbit/s 내지 48 kbit/s의 비트 전송율 범위에서 좋은 오디오 품질을 제공한다. 코더의 코딩 효율을 증가시키기 위하여 증명된 스펙트럼 대역 응답 (proven spectral band replication(SBR))도구를 사용하는 음성코더와 경쟁하는 것은 좋은 선택이다. 그러나 이와 같은 주제에 대한 기존의 제안은 표준화 코스에서 따라지지 않았다.

원격통신 응용을 제공하는 것과 같은 많은 응용예들을 위하여 중요한 저 코덱 딜레이를 잃지 않기 위하여, 추가적인 방법들이 수행될 수 있다. 많은 경우, 각 코더들의 발전을 위한 필요조건으로서, 이와 같은 코더가 20ms와 같이 낮은 연산적 딜레이를 제공할 수 있도록 하는 것으로 제한된다. 다행히도, 이와 같은 목적을 달성하기 위하여 현존하는 표준에 단지 작은 변경만 적용되어야 한다. 특히, 오직 두 개의 단순한 변경만이 필요한 것으로 판명되는데, 그 중 하나는 이 문헌에 이다. 상기 AAC-LD 코더 필터뱅크의 저 딜레이 필터뱅크(100, 200)의 실시예로의 대체는 많은 응용에서 상당한 딜레이 증가를 완화한다. 상기 SBR 도구에 다소의 변경을 수반하는 것은 도 12에 도시된 바와 같은 인코더(400)의 실시예와 같은 코더로 이를 도입함으로써 부가된 딜레이를 감소시킨다.

결과적으로, 저 딜레이 필터뱅크의 실시예를 포함하는 향상된 AAC-ELD 코더 또는 AAC-EL 디코더는 평면 AAC-LD 코더의 그것과 필적할만한 딜레이를 보여주지만, 구체적인 구현에 따라서는 같은 레벨의 질로 상당한 비트전송율의 양을 절약할 수 있다. 보다 정확하게는 AAC-ELD 코더는 AAC-LD 코더와 비교하여 같은 레벨의 품질에서 비트전송율을 25%까지, 또는 심지어 33%Rkwl 절약할 수 있다.

합성 필터뱅크 또는 분석 필터뱅크의 실시예들은, 구체적인 구현이나 으용 표준에 따라 채널당 24 kbit/s 까지 내려간 동작 범위의 확장이 가능한 소위 향상된 저 딜레이 AAC 코덱(AAC-ELD)에서 구현가능하다. 다시 말해, 본 발명의 실시예는 선택적으로 추가적인 코딩 도구를 사용하여 AAC-LD 기술의 확장으로서 코딩의 구조 내에서 구현가능하다. 이와 같은 선택적 코딩 도구는 인코더의 실시예 뿐 아니라 디코더의 실시예 둘 모두의 구조 내에서 통합되거나 또는 추가적으로 채용될 수 있는 스펙트럼 대역 반응(SBR) 도구이다. 특히 저 비트전송율 코딩의 영역에서, SBR은 주파수 스펙트럼의 낮은 부분을 위한 샘플링 주파수가 원래의 샘플러(sampler)의 샘플링 주파수의 오직 절반으로 인코딩되는 듀얼(dual) 전송율(rate) 코더의 구현을 가능하게 하므로, 매력적인 향상이다. 동시에 SBR은 상기 낮은 부분에 기초하여 더 높은 스펙트럼 범위의 주파수들을 인코딩하는 것이 가능하고, 그에 따라 전체적인 샘플링 주파수는 원칙적으로 인수 2에 의하여 감소된다.

즉, 절약된 딜레이는 상기 듀얼 코어(core) 코더의 감소된 샘플링 주파수에 기인하여 절약된 딜레이의 인수 2에 의한 시스템의 전체 딜레이를 원칙적으로 감소시키기 때문에, SBR 도구를 채용하는 것은 특히 매력적이고 유익한 딜레이 최적화된 구성요소의 구현을 만든다.

따라서 AAC-LD와 SBR의 간단한 조합은 그러나 추후 보다 상세하게 설명되는 바와 같이 60ms의 전체적인 연산적 딜레이를 야기한다. 그리하여 대체로 양방향 통신을 위한 시스템 딜레이가 50ms를 넘어서는 안되므로, 이와 같은 조합은 통신 응용분야에 부적합한 코덱을 결과로 하게 된다.

분석 필터뱅크 및/또는 합성 필터뱅크의 실시예를 채용함으로써, 그에 따른 MDCT 필터뱅크의 이 특정한 저 딜레이 필터뱅크로의 대체는 이미 설명된 바와 같은 듀얼 비율 코더의 구현에 의하여 야기되는 딜레이 증가를 완화할 수 있다. 이미 언급한 실시예들을 채용함으로써 AAC-ELD 코더는, 오디오 질의 레벨을 유지하면서 보통의 AAC-LD 코더와 비교하여 25%에서 33%까지 전송율을 절약하고, 양방향 통신을 위하여 용인할 수 있는 범위 내의 딜레이를 보여준다.

따라서 합성 필터뱅크, 분석 필터뱅크 및 다른 관련 실시예들의 견지에서, 본 응용은, 적어도 본 발명의 실시예의 일부의 견지에서 성취가능한 코더 성능의 향상과 함께 가능한 기술적 변경을 설명한다. 이와 같은 저 딜레이 필터뱅크는 구체적인 구현에 따라 완벽한 복원 가능성을 제공하는 동시에, MDCT 또는 IMDCT를 채용하는 대신에 복수의 중첩과 함께 이미 설명한 바와 같은 다른 윈도우 함수를 이용함으로써 실질적인 딜레이 감소를 얻을 수 있다. 이와 같은 저 딜레이 필터뱅크의 실시예는 필터 길이의 감소 없이 복원 딜레이의 감소를 가능하게 하지만, 여전히 몇몇 실시예에서는 어떤 상황 아래에서 완벽한 복원 특성을 유지할 수 있다.

결과적으로 필터뱅크는 전통적인 MDCT와 동일한 코사인 변조 함수를 갖지만, 일반화된 또는 저 복원 딜레이와 함께 무대칭 또는 비대칭이 될 수 있는 더 긴 윈도우 함수를 가질 수 있다. 이미 설명한 것처럼, 새로운 저 딜레이 윈도우를 채용하는 새로운 저 딜레이 필터뱅크의 이와 같은 실시예는 M=480 개 샘플의 프레임 사이즈의 경우, MDCT 딜레이를 960 개의 샘플로부터 720 개의 샘플로 감소시킬 수 있다. 일반적으로 필터뱅크의 실시예는 이미 설명된 바와 같은 적절한 구성요소를 적용함으로써 또는 M/4 개의 0의 값을 갖는 윈도우 계수들을 구현함으로써 2M 내지(2M-M/2)의 딜레이를 줄일 수 있다. 따라서 대응되는 프레임들의 첫 번째 서브섹션들(150-1, 260-1)은 다른 서브섹션들보다 M/4 개 적은 샘플들을 포함한다. 이와 같은 저 딜레이 윈도우 함수들의 예는 도 5 내지 7의 문맥에서 보여졌다. 여기서 도 6과 7은 전통적인 사인 윈도우에 대한 비교도 포함하고 있다. 그러나 분석 윈도우는 이미 설명된 바와 같이 합성 윈도우의 단순한 시간-반전 복제임을 알아야 한다.

아래에서, 저 딜레 및 저 비트전송율 오디오 코딩 시스템을 얻기 위한 AAC-LD 코더와 SBR 도구의 조합의 기술적인 설명이 주어진다. 듀얼 비율 시스템은 앞서 설명된 것처럼 단일 비율 시스템과 비교하여 더 높은 코딩 이득을 성취하도록 사용된다. 듀얼 비율 시스템을 채용함으로써 더 적은 주파수 대역을 갖는 가능한한 보다 에너지 효율적인 인코딩이 상기 코더에 의하여 제공되는 프레임으로부터의 중복된(redundant) 정보를 삭제하여 다소의 비트의 감소를 야기하는 대응되는 코더에 의해 제공될 수 있다. 보다 정확하게는, 이미 설명된 저 딜레이 필터의 실시예는 통신 응용분야를 위해 용인할 수 있는 정도의 전체 딜레이에 도달하기 위한 AAC-LD 코어 코더의 구조 내에서 이용된다. 즉, 다시 말해, 아래에서는 딜레이가 AAC-LD 코어 및 AAC-ELD 코어 코더의 견지에서 설명될 것이다.

합성 필터뱅크 또는 분석 필터뱅크의 실시예의 채용에 의하여 딜레이 감소가 개조된 MDCT 윈도우/필터뱅크를 구현함으로써 얻어질 수 있다. 실질적인 딜레이 감소는 저 딜레이 필터뱅크를 얻기 위하여 MDCT 및 IMDCT를 연장하기 위하여 복수 중첩방식으로 미리 언급되고 설명된 다른 윈도우 함수를 사용함으로써 얻어진다. 저 딜레이 필터뱅크의 기술은 복수 중첩과 함께 비직교(non-orthogonal) 윈도우를 사용하는 것을 허용한다. 이와 같은 방식에서, 상기 윈도우 길이보다 적은 딜레이를 얻을 수 있게 된다. 따라서 좋은 주파수 선택 특성을 야기하는 긴 임펄스 반응과 함께 저 딜레이를 얻을 수 있다.

M=480 개의 샘플의 프레임 사이즈르 위한 저 딜레이 윈도우는 위에서 설명한 바와 같이 MDCT 딜레이를 960개의 샘플들로부터 720개의 샘플들로 감소시킨다.

요컨대, MPEG-4 ER AAC-LD 코덱과 대조적으로 디코더(450)의 실시예와 인코더의 실시예는 특정 조건 하에서 매우 작은 비트 범위에서 좋은 음질을 제공할 수 있다. 위에 설명한 ER AAC-LD 코덱이 채널당 64 kb/sec 내지 48 kb/sec의 비트 범위로 좋은 음질을 제공하는 반면에, 상기 인코더(40) 및 상기 디코더(450)의 실시예들은 본 문헌에서 설명되는 바와 같이 채널당 약 32 kb/sec의 낮은 비트전송율에서 동일한 음질을 제공할 수 있다. 나아가 인코더와 디코더의 실시예는 단지 최소의 변경만을 이용하여 현존하는 기술에서 구현할 수 있는 양방향 통신 시스템을 위하여 사용되기에 충분히 작은 연산적 딜레이를 갖는다. 특히 인코더(400)와 디코더(450)의 형식으로의 본 발명의 실시예는 본 발명의 실시예에 도달하는 저 딜레이 동작을 위해 필요한 최소의 수의 적절한 응용을 현존하는 MPEG-4 오디오 기술에 조합하여 이를 얻을 수 있다. 특히, MPEG-4 ER AAC 저 딜레이 코더는 설명된 변경을 고려하여 인코더(400)와 디코더(450)의 실시예들을 구현하기 위하여 MPEG-4 스펙트럼 대역 반응(SBR) 도구와 조합될 수 있다. 연산적인 딜레이의 결과적 증가는, 분석 필터뱅크 또는 합성 필터뱅크의 실시예와 저 딜레이 코어 코더 필터뱅크의 실시예의 사용과, 본 응용에서 설명되지 않는 SBR 도구의 적은 변경에 의하여 완화된다. 구체적인 구현에 따라서, 이와 같은 향상된 AAC-LD 코더는 양 방향 통신 응용분야를 위한 충분한 저 딜레이를 유지하면서, 평면 AAC-LD 코더와 비교하여 같은 레벨의 품질에서 비트전송율의 33% 까지의 절감을 얻을 수 있다.

도 14를 참조하여 더 상세한 딜레이 분석을 제공하기 이전에, SBR 도구를 포함하는 코딩 시스템이 설명된다. 즉, 이 섹션에서는 도 14adp 도시된 코딩 시스템(500)의 모든 구성요소가 전체 시스템 딜레이에 대한 그들의 공헌에 대한 측면에서 분석된다. 도 14a는 완성된 시스템의 상세한 개요도를 나타내고 도 14b에서는 딜레이의 소스에 대해서 강조된다.

도 14a에 도시된 시스템은 듀얼 비율 코더에 의해 듀얼 비율 접근 방식으로 동작하는 MDCT 시간/주파수 변환기를 순차적으로 포함하는 인코더(500)를 포함한다. 또한 상기 인코더(500)는 또한 SBR 도구의 일부인 QMF-분석 필터뱅크(520)를 포함한다. MDCT 시간/주파수 변환기(510)와 상기 QMF-분석 필터뱅크(QMF=Quardrature Mirror Filter, 직교(위상) 거울 필터)는 그들의 입력과 그들의 출력을 기준으로 둘 모두 함께 연결된다. 다시 말해, MDCT 시간/주파수 변환기(510)와 상기 QMF-분석 필터뱅크(520)는 서로 동일한 입력 데이터를 제공받는다. 그러나 상기 MDCT 변환기(510)가 저 대역 정보를 제공하는 동안에, 상기 QMF-분석 필터뱅크(520)는 SBR 데이터를 제공한다. 두 데이터는 하나의 비트스트림으로 혼합되어 디코더(530)로 제공된다.

상기 디코더(530)는 딜레이어(delayer)(550)를통해 상기 디코더의 출력으로 제공되는 시간 영역 신호를, 적어도 저 대역 부분을 기준으로, 얻기 위한 비트스트림을 디코딩할 수 있는 IMDCT 주파수/시간 변환기(540)를 포함한다. 나아가, 상기 IMDCT 변환기(540)의 출력은 상기 디코더(530)의 SBR 도구 의 일부인 다른 QMF-분석 필터뱅크(560)으로 연결된다. 나아가, 상기 SBR 도구는 상기 인코더(500)의 상기 QMF-분석 필터뱅크(520)의 SBR 데이터에 기초하여 더 높은 주파수 구성을 생성할 수 있고, 상기 QMF-분석 필터뱅크(560)의 출력으로 연결되는 HF 생성자(570)를 포함한다. 상기 HF 생성자(570)의 출력은

상기 딜레이된 저대역 신호들이 상기 디코더(530)의 상기 SBR 도구에 의해 제공되는 고대역 신호들과 함께 혼합되는 시간 영역으로 QMF-영역 내의 신호들을 다시 변환하는 QMF-합성 필터뱅크(580)에 연결된다. 그 결과에 의한 데이터는 그 후디코더(530)의 출력 데이터로서 제공된다.

도 14a와 비교하여, 도 14b는 도 14a에 도시된 시스템의 딜레이 소스를 강조한다. 보다 정확하게는, 상기 인코더(500)와 상기 디코더(530)의 구체적인 구현에 따라, 도 14b는 SBR 도구를 포함하는 MPEG-4 ER AAC-LD 시스템의 딜레이 소스를 도시한다. 이와 같은 오디오 시스템의 적절한 코더는 512 또는 480 개의 샘플들의 프레임 사이즈와 함께 시간/주파수/시간 변환 또는 전환을 위한 MDCT/IMDCT 필터뱅크를 사용한다. 따라서 구체적인 구현에 따라, 복원 딜레이 결과는 1024개 또는 960 개의 샘플이 된다. MPEG-4 ER AAC-LD 코덱을 듀얼 비율 모드에서 SBR과 함께 조합하여 사용하는 경우, 딜레이 값은 샘플링 비율 변환에 기인하여 두 배가 된다.

보다 상세한 전체 딜레이 분석 및 필요조건은 SBR 도구와 조합된 AAC-LD 코덱의 경우, 48kHz의 샘플링 비율과 480 개 샘플의 코어 코더 프레임 크기에서 16ms의 전체 연산적 딜레이가 야기된다는 것을 보여준다. 도 15는 480 개의 샘플의 코어 코더 프레임 크기와 48kHz의 샘플링 비율을 가정하여 다른 구성요소에 의해 생성되는 딜레이의 개요를 제공하는 테이블을 포함한다. 여기서 상기 코어 코더는 듀얼 비율 접근 방식에 의하여 24kHz의 샘플링 비율에서 효율적으로 운영된다.

도 15의 딜레이 소스의 개요도는 SBR 도구와 함께 제공되는 AAC-LD 코덱의 경우, 원격 통신 응용에 이용될 수 있는 것보다 실질적으로 더 높은 16ms의 전체적인 연산적 딜레이가 결과로서 산출된다. 이와 같은 평가는 상기 SBR 중첩 구성요소와 상기 QMF 구성요소, 상기 MDCT/IMDCT 듀얼 비율 구성요소로부터 딜레이 기여를 포함하는 SBR 도구와 AAC-LD 코더의 표준적인 조합을 포함한다.

그러나 전에 설명된 실시예를 채용함으로써 그리고 전에 설명된 개조를 이용하여, 상기 QMF 구성요소와 상기 듀얼 비율 모드(ELD MDCT +IMDCT)에서 상기 저 딜레이 필터뱅크의 실시예로부터의 딜레이 기여를 포함하는 단지 42ms의 전체 딜레이가 얻어진다.

상기 AAC 코어 코더의 구조 내의 몇개의 딜레이 소스들에 대해서 뿐 아니라 상기 SBR 모듈에 대해서, 상기 AAC-LD 코어의 연산적 딜레이는, M이 상기 코어 코더의 기본 프레임 길이를 나타낼 때, 2M 개의 샘플들로 묘사될 수 있다. 대조적으로 상기 저 딜레이 필터뱅크는 적절한 윈도우 함수의 구조 내에서 다른 값들 또는 0의 값들의 적절한 수를 도입함으로써 또는 최초섹션(160, 270)의 도입에 기인하여 M/2개 만큼의 샘플의 수를 감소시킨다. AAC코어를 상기 SBR 도구와의 조합하여 사용하는 경우, 딜레이는 듀얼 비율 시스템의 샘플링 비율 변환에 기인하여 두 배가 된다.

전형적인 SBR 디코더의 구조 내에서 도 15 내의 테이블에 주어진 값들을 분명하게 하기 위하여 두 딜레이 소스들이 식별될 수 있다. 반면에 상기 QMF 구성요소는 640개의 샘플의 필터뱅크 복원 딜레일르 포함한다. 그러나 64-1=63 개의 샘플의 프레이밍(framing) 딜레이는 이미 상기 코어 코더 자체에 의하여 도입되었으므로, 577 개의 샘플들의 도 15의 테이블 내에 주어진 딜레이된 값을 얻기 위하여 빼질 수 있다.

반면에, 상기 SBR HF 복원은 변화하는 시간 눈금(grid)에 기인하여 6 개의 QMF 슬롯(slot)의 표준 SBR 도구와 함께 추가적인 딜레이를 야기한다. 따라서 상기 딜레이는 표준 SBR에서 64 개의 샘플의 6배인 384개의 샘플이 된다.

진보된 SBR 도구를 구현함과 함께 필터뱅크의 실시예를 구현함에 따라 60ms의 전체 딜레이를 갖는 SBR 도구와 AAC-LD 코더의 직접적인 조합을 수행하지 않음으로써 18ms의 딜레이 감소가 얻어질 수 있고, 42ms의 전체 딜레이가 얻어질 수 있게 된다. 위에 언급된 바와 같이, 이와 같은 특징은 M=480개의 샘플들에 의한 프레임 길이와 48kHz의 샘플링 비율에 기초한다. 즉, 위에서 언급된 예에서 M=480 개 샘플의 소위 프레이밍 딜레이와는 별개로, 딜레이 최적화의 측면에서 두번째 중요한 양상에 해당하는 중첩 딜레이는 저 딜레이 오디오 코딩 시스템 및 저 비트전송율을 얻기 위하여 합성 필터뱅크 또는 분석 필터뱅크의 실시예를 도입함으로써 상당히 감소될 수 있다.

본 발명의 실시예는 회의 시스템 및 다른 양방향 통신 시스템 등의 다양한 응용분야에서 수행될 수 있다. 대략 1997년의 도입 시기에는, 상기 AAC-LD 코더의 고안을 이끄는 저 딜레이 일반 오디오 코딩 기술을 위하여 설정된 딜레이된 필요조건들은, M=480의 프레임 크기와 48kHz의 샘플 비율에서 운영될 때, 상기 AAC-LD에 의해 만족되는 20ms의 연산적 딜레이를 얻고자 하였다.이와 대조적으로 원격 회의와 같이 이 코덱에 대한 많은 실제적인 응용은 32kHz의 샘플링 비율을 채용하여 30ms의 딜레이로 동작한다. 유사하게, IP-기반의 통신의 증대되는 중요성에 의하여 최신 ITU 원격통신 코덱의 딜레이 조건은 대략 40ms의 딜레이를 허용한다. 이에 따라 저 딜레이 필터뱅크의 실시예를 포함하는 AAC=ELD 또는 향상된 AAC-LD 코더에 의하여 얻어지는 전체 딜레이는 일반적인 원격통신 코더의 딜레이 범위 내에 완전히 포함되도록 동작될 수 있다.

도 16은 복수의 입력 프레임을 혼합하기 위한 믹서(mixer)(600)의 실시예의 블록도를 도시한다. 여기서 각 입력 프레임은 다른 소스로부터 제공되는 대응하는 시간 영역 프레임의 스펙트럼 표현이 된다. Dp를 들어 상기 믹서(600)를 위한 각각의 입력 프레임은 다른 적절한 시스템 또는 구성요소 또는 인코더(400)의 실시예에 의하여 제공될 수 있다. 도 16에서 상기 믹서(600)는 세 개의 서로 다른 소스로부터 입력 프레임을 수신하기에 적절함을 알아야 한다. 그러나 이는 어떤 제한도 나타내지 않는다. 보다 명확하게는, 원칙적으로 믹서(600)의 실시예는 임의의 수의 입력 프레임을 수신하고 처리하도록 구성되거나 적용될 수 있는데, 여기서 각 입력 프레임은 다른 인코더(400)와 같은 다른 소스에 의하여 제공된다.

도 16에 도시된 믹서(600)의 실시예는 다른 소스들에 의해 제공된 복수의 입력 프레임을 엔트로피 디코딩할 수 있는 엔트로피 디코더(610)를 포함한다. 구체적인 구현에 따라, 상기 엔트로피 디코더(610)는 Huffman(허프만) 엔트로피 디코더로서, 또는 소위 Arithmetic Coding(산술적 코딩), Unary Coding(단항 코딩), Elias Gamma Coding(엘리어스 감마 코딩), Fibonacci Coding(피보나치 코딩), Golomb Coding(골롬 코딩) 또는 Rice Coding(라이스 코딩)과 같은 다른 디코딩 알고리즘을 채용하는 엔트로피 디코더로 구현될 수 있다. 엔트로피 디코딩된 입력 프레임은 구후 인간의 귀의 소리세기 특성과 같은 응용-특정된 환경에 적용하기 위하여 상기 엔트로피 디코딩된 입력 프레임을 역양자화할 수 있는 선택적인 역양자화기(620)으로 제공된다. 상기 엔트로피 디코딩되고 선택적으로 역양자화된 입력 프레임은 그후 주파수 영역에서 다수의 엔트로피 프레임을 스케일링(scaling)할 수 있는 스케일러(630)으로 제공된다. 믹서(600)의 실시예의 구체적인 구현에 따라 상기 스케일러(630)는 예를 들어, 1/P의 상수 인수를 각각의 값에 곱하여 선택적으로 양자화되고 엔트로피 디코딩된 입력 프레임 각각을 스케일링할 수 있다. 여기서 P는 다른 소스들 또는 엔코더(400)의 수를 나타내는 정수이다.

다시 말해, 상기 스케일러(630)는 이 경우, 클리핑(clipping)과 같은 청취가능한 왜곡을 방지하기 위하여 또는 범람(overflow)이나 다른 연산적 에러를 방지하기 위하여 대응하는 신호들이 너무 많아지는 것을 방지하기 위해 그들을 다운(down) 스케일링하는 엔트로피 디코더(610) 또는 역양자화기(620)에 의하여 제공되는 프레임들을 다운 스케일링할 수 있다. 하나 또는 그 이상의 스펙트럼 주파수 대역에 의존하여, 예를 들어 입력 프레임의 각각의 에너지를 평가함으로써, 에너지 절약 방식으로 제공되는 프레임을 스케일링할 수 있는 스케일러와 같은, 스케일러(630)의 다른 실시예도 실행 가능하다. 이와 같은 경우에서, 이와 같은 스펙트럼 주파수 대역 각각 내에서 주파수 영역에서의 대응되는 값들은 상수 성분과 곱하여 질 수 있고, 그에 따라 모든 주파수 범위에 대한 전체 에너지가 같아진다. 추가적으로 또는 택일적으로 상기 스케일러(630)는 입력 프레임 각각의 전체 에너지가 상수가 되거나 또는 모든 다른 소스의 모든 입력 프레임에 대하여 각 스펙트럼 하위그룹(subgroup)의 에너지가 서로 동일해지도록 적용될 수 있다.

상기 스케일러(630)는 그 후 주파수 영역에서 또한 합산 프레임을 생성하기 위하여 주파수 영역에서 스케일링된 프레임으로 또한 불리는 스케일러에 의하여 제공되는 프레임들을 합산할 수 있는 합산기(640)에 연결된다. 이는 예를 들어 상기 스케일러(630)에 의해 제공되는 모든 스케일링된 프레임으로부터 동일한 샘플 색인에 대응하는 모든 값들을 합산함으로써 얻어질 수 있다.

상기 합산기(640)는 상기 스케일러(630)에 의해 제공되는 모든 소스의 정보들을 포함하는 합산 프레임을 얻기 위하여 주파수 영역에서 상기 스케일러(630)에 의해 제공되는 프레임들을 합산할 수 있다. 또한 다른 선택적인 구성요소로서, 상기 믹서(600)의 실시예는 또한 상기 합산기(640)의 합산 프레임들이 제공될 수 있는 양자화기(650)를 포함할 수 있다. 응용-특정 필요조건에 따라, 상기 선택적인 양자화기(650)는 예를 들어 몇 가지 조건을 만족하기 위한 합산 프레임을 적용하기 위하여 사용될 수 있다. 예를 들어 상기 양자화기(650)는 상기 역양자화기(620)의 박자(tact)가 반전되도록 적용될 수 있다. 즉, 만약 예를 들어 스펙트럼 특성이 상기 역양자화기(620)에 의하여 제거되거나 바뀌어진 상기 믹서로 제공되는 바와 같은 입력 프레임을 기초로 한다면, 상기 양자화기(650)는 그 후 이와 같은 특별한 필요조건을 합산 프레임에 제공하도록 적용될 수 있다. 하나의 예로, 상기 양자화기(650)는 예를 들어 인간의 귀의 특성을 수용하도록 적용될 수 있다.

다른 구성요소로서, 상기 믹서(600)의 실시예는 또한 예를 들어 상기 인코더(450)의 실시예를 포함할 수 있는 하나 또는 그 이상의 리시버(receiver)로 혼합된 프레임을 제공하고 선택적으로 양자화되는 합산 프레임을 엔트로피 인코딩할 수 있는 엔트로피 인코더(660)를 포함할 수 있다. 다시 한번, 상기 엔트로피 인코더(660)는 허프만 알고리즘 또는 다른 위에 언급된 알고리즘에 기초하여 합산 프레임을 엔트로피 인코딩하도록 적용된다.

분석 필터뱅크, 합성 필터뱅크의 실시예들 또는 다른 관련된 실시예들을 인코더 및 디코더의 구조 내에 채용함으로써, 주파수 영역에서 신호를 혼합할 수 있는 믹서가 완성되고 구현될 수 있다. 즉, 이미 설명된 향상된 저 딜레이 AAC 코덱의 하나의 실시예를 수행함으로써, 음성 통신을 위한 현재 기술 수준의 코덱에서 구현되는 가능한 파라미터 스위칭을 수용할 수 있도록 시간 영역으로 각 입력 프레임들을 변환하지 않고도 주파수 영역에서 복수의 입력 프레임을 직접 혼합할 수 있는 믹서가 구현될 수 있다. 분석 필터뱅크와 합성 필터뱅크의 실시예들에서 설명된 바와 같이 이 실시예들은 다른 윈도우들 사이의 스위칭 또는 블록 길이의 스위칭과 같은 파라미터 스위칭 없이 동작 가능하다.

도 17은 예를 들어 서버의 구조에서 구현될 수 있는 MCU(Media Control Unit, 미디어 제어 유닛)의 형식에서 회의 시스템(700)의 실시예를 보인다. 상기 회의 시스템(700) 또는 MCU(700)는 도 17에는 두 개가 도시된 복수의 비트스트림을 포함한다. 도 17에서 "믹서"로 이름 붙여진 연합된 유닛(630, 640) 뿐 아니라 연합된 엔트로피 디코더와 역양자화기(610, 620)가 구비된다. 나아가 상기 연합된 유닛(630, 640)의 출력은 혼합된 프레임으로서 출력되는 비트스트림을 제공하는 엔트로피 인코더(660)와 양자화기(650)를 포함하는 연합된 유닛으로 제공된다.

즉, 도 17은 입력되는 비트스트림 뿐 아니라 출력 되는 비트스트림은 인코더 측에서 저 딜레이 윈도우를 사용하여 생성되기 때문에, 주파수 영역에서 복수의 입력되는 비트 스트림을 혼합할 수 있는 회의 시스템(700)의 실시예를 보여준다. 반면에 출력되는 비트스트림은 디코더 측에서 동일한 저 딜레이 윈도우에 기초하여 처리하고자 하고, 처리될 수 있다. 다시 말하면, 도 17에 도시된 상기 MCU(700)는 하나의 범용 저 딜레이 윈도우의 사용에만 기초한다.

믹서(600)의 실시예 뿐 아니라 회의 시스템(700)의 실시예들은 따라서 분석 필터뱅크, 합성 필터뱅크의 실시예 및 다른 관련 실시예의 형식에서 본 발명의 실시예의 구조 내에 적용되기 적합하다. 보다 정확하게는, 오직 하나의 윈도우와 함께 저 딜레이 코덱의 실시예의 기술적인 으용이 주파수 영역에서의 혼합을 허용한다. 예를 들어 둘 이상의 참여자 또는 소스를 포함하는 (원격)회의 시나리오에서, 몇 가지 코덱의 신호들을 수신하고, 그것들을 하나의 신호로 혼합하며, 나아가 결과로서 인코딩된 신호를 전송하는 것이 종종 바람직하다. 본 발명의 실시예를 상기 인코더와 디코더 측에 채용함으로써 회의시스템(700) 및 믹서(600)의 몇 가지 실시예에서, 구현 방법은 입력되는 신호를 디코딩하고, 디코딩된 신호를 시간 영역에서 혼합하며, 혼합된 신호를 다시 주파수 영역에서 재인코딩하는 직접적인 방식과 비교하여 보다 단순화될 수 있다.

MCU 형태의 이와 같은 직접적인 믹서의 구현이 도 18에 회의 시스템(750)으로서 도시된다. 상기 회의 시스템(750)은 또한 입력되는 비트 스트림의 엔트로피 디코딩과 역 양자화가 가능하고, 주파수 영역에서 동작되는 입력되는 비트스트림 각각을 위하여 연합된 모듈(750)을 포함한다. 그러나 도 18에 도시된 회의 시스템(750)에서 상기 모듈(760)은 각각 IMDCT 변환기(77)로 연결되고, 상기 모듈(760)들 중 하나는 사인 윈도우 작용 모드에서 작동한다. 그리고 다른 하나는 저 중첩 윈도우 작용 모드에서 동작한다. 즉, 두 개의 IMDCT 변환기(770)는, 입력되는 비트스트림이 각 신호를 인코딩 하기 위하여 오디오 신호에 의존하는 저 중첩 윈도우와 사인 윈도우 둘 모두를 사용하는 인코더에 기초하기 때문에, 회의 시스템(750)의 경우에 필요한 시간영역으로 입력되는 비트스트림을 주파수 영역으로부터 변환한다.

상기 회의 시스템(750)은 시간 영역에서 주파수 영역으로 신호를 변환하는 MDCT 변환기(790)로 혼합된 시간 영역 신호를 제공하고, 두 개의 IMDCT 변환기(770)로부터 두 입력되는 신호를 시간 영역에서 혼합하는 믹서(780)를 더 포함한다.

상기 MDCT(790)에 의해 제공되는 바와 같은 주파수 영역의 혼합된 신호는 그 후 출력되는 비트스트림을 형성하기 위하여 신호를 엔트로피 인코딩하고 양자화할 수 있는 연합된 모듈(795)로 제공된다.

그러나, 회의 시스템(750)에 따른 접근은 두 가지 단점을 갖는다. 상기 두 개의 IMDCT 변환기(770)와 상기 MDCT(790)에 의해 이루어진 완전한 디코딩과 인코딩에 기인하여 높은 계산적 비용이 상기 회의 시스템(750)을 실행하기 위해 지불된다. 게다가, 디코딩과 인코딩의 도입에 의하여, 특정 조건 하에서 높은 추가적 딜레이가 생긴다.

본 발명의 실시예가 디코더와 인코더의 위치에 채용됨으로써 또는 보다 정확하게는 새로운 저 딜레이 윈도우가 구현됨으로써, 이들 단범은 몇 가지 실시예의 경우 구체적인 구현에 따라 극복되거나 제거될 수 있다. 이는 도 17에서 회의시스템(700)의 문맥에서 설명된 바와 같이 주파수 영역에서 혼합을 수행함으로써 얻어질 수 있다. 결론적으로 도 17에 도시된 회의 시스템(700)의 실시예는, 신호를 주파수 영역에서 시간 영역으로, 그리고 다시 거꾸로 변환하기 위하여 신호들을 인코딩 또는 디코딩 하기 위한 회의 시스템(750)의 구조 내에서 수행되어야만 하는 필터뱅크 및/또는 변형을 포함하지 않는다. 다시 말해, 다른 윈도우 형태의 경우 비트스트림 혼합은 상기 MDCT/IMDCT 변환기(770, 790)에 의한 하나의 추가적 블록의 부가적인 비용을 초래한다.

결론적으로, 상기 믹서(600)의 몇 실시예와 상기 회의 시스템(700)의 몇 실시예들에서, 부가적인 이점으로서, 부가적인 딜레이에 대한 한계와 낮은 계산적 비용이 가능해질 수 있어서, 몇 가지 경우, 심지어 추가적인 딜레이가 없는 경우도 달성될 수 있다. 도 19는 저 딜레이 필터뱅크의 효율적인 구현의 실시예를 보여준다. 보다 명확하게 하기 위해 도 19의 구조 내에서 계산 복잡성과 다른 응용 관련 양상을 논의하기에 앞서, 예를 들어, 디코더의 실시예에서 구현될 수 있는 합성 필터뱅크(800)의 실시예가 보다 상세하게 설명될 것이다. 따라서 저 딜레이 분석 필터뱅크(800)의 실시예는 상기 합성 필터뱅크 또는 인코더의 실시예의 반전을 나타낸다.

상기 합성 필터뱅크(800)는 중첩/합산기와 윈도워를 포함하는 연합된 모듈(820)로 복수의 출력 프레임을 제공하는 것이 가능한 역 타입-IV 이산 코사인 변환 주파수/시간 변환기(810)를 포함한다. 보다 분명하게는, 상기 시간/주파수 변환기(810)는 M 개의 정렬된 입력 값 y_k(0),...,y_k(M-1)을 포함하는 입력 프레임을 제공하는 역 타입-IV 이산 코사인 변환 변환기이다. 여기서 M은 양의 정수이고, k는 프레임 색인을 나타내는 정수이다. 상기 시간/주파수 변환기(810)는 입력 값들에 기초하는 2M 개의 정렬된 출력 샘플들 x_k(0),...,x_k(2M-1)을 포함하고, 앞서 언급된 중첩/합산기와 윈도워를 순차적으로 포함하는 모듈(820)로 이 출력 샘플들을 제공한다.

상기 모듈(820)의 윈도워는 복수의 윈도우된 프레임을 생성할 수 있다. 여기서 각 윈도우된 프레임은 아래 등식 또는 표현에 기초하는 복수의 윈도우된 샘플들 z_k(0),...,z_k(2M-1)를 포함한다.

일 때,

,

여기서 n은 샘플 색인을 나타내는 정수이고, w(n)은 샘플 색인 n에 대응하는실수를 이용한 윈도우 함수 계수이다. 또한 모듈(820)에 제공되는 중첩/합산기는 아래 등식 또는 표현에 기초하는 복수의 매개(intermediate) 샘플 m_k(0),...,m_k(M-1)을 포함하는 매개 프레임 내에 그것들을 제공하거나 생성한다.

일 때,

.

합성 필터뱅크(800)의 실시예는 또한 아래의 등식 또는 표현에 기초하는 복수의 합산 샘플 out_k(0),...,out_k(M-1)를 포함하는 합산 프레임을 생성하는 리프터(850)를 더 포함한다.

일 때,

,

*그리고

일 때,

,

여기서, l(M-1-n),...,l(M-1)은 실수를 이용한 리프팅 계수이다. 도 19에서 저 딜레이 필터뱅크(800)의 계산적으로 효율적인 실행의 실시예는 상기 리프터(830)의 구조 내에서, 이미 언급된 계산을 도출하는 복수의 합산기(850) 뿐 아니라 복수의 연합된 지연기(delayer)와 곱셈기(multiplier)(840)를 포함한다. 합성 필터뱅크(800)의 실시예의 구체적인 구현에 따라, 상기 윈도우 계수 또는 윈도우 함수 계수 w(n)은 각 입력 프레임 당 M=512 개의 입력 값을 갖는 실시예의 경우, 부록의 테이블 5에 주어진 관계를 따른다. 부록의 테이블 9는 각 입력 프레임당 M=480 개의 입력 값을 갖는 경우에서 윈도우잉 계수 w(n)이 따르는 관계들의 세트를 포함한다. 또한 테이블 6과 10은 각각 M=512이고 M=480인 실시예를 위한 리프팅 계수 l(n)의 관계를 포함한다. 그러나 합성 필터뱅크(800)의 몇 실시예들에서, 상기 윈도우 계수 w(n)는 각각 입력 프레임 당 M=512, M=480 개의 입력 값인 경우를 위한 테이블 7과 11에 주어진 값을 포함한다. 따라서 부록의 테이블 8과 12는 각각 입력 프레임 당 입력 샘플 수가 M=512 및 M=480인 실시예를 위한 리프팅 계수 l(n)을 위한 값들을 포함한다.

즉, 저 딜레이 필터뱅크(800)의 실시예는 일반적인 MDCT 변환기로 충분히 구현할 수 있다. 이와 같은 실시예의 일반적인 구조는 도 19에 도시되어 있다. 역 DCT-IV와 역 윈도우잉-중첩/합산은 실시예의 구체적인 구현에 따라 위에 언급된 윈도우잉 계수를 채용하여 전통적인 윈도우와 동일한 방식으로 수행될 수 있다. 상기합성 필터뱅크(200)의 실시예의 구조에서의 윈도우잉 계수의 경우에서와 같이, 또한 이 경우에도, M/4 윈도우 계수들은 원칙적으로 다른 연산에 쓰이지 않는 0 값의 윈도우된 계수가 된다. 리프터(830)의 구조 내에서 볼 수 있는 바와 같이, 과거로 연장된 중첩을 위해서 오직 M 개의 추가적인 곱셈-합산 연산이 요구된다. 이와 같은 추가적인 연산은 때로 "0-딜레이 매트릭스들"로 불리기도 한다. 때로 이들 연산은 또한 "리프팅 단계"로 알려지기도 한다.

도 19에 도시된 효율적인 구현예는 어떤 조건 하에서는, 합성 필터뱅크(200)의 직접적인 구현으로서 보다 효율적이 될 수 있다. 보다 정확하게는, 구체적인 구현에 따라, 이와 같은 보다 효율적인 구현은, M 개의 연산을 위한 직접적인 구현의 경우에 그것이 수행되는 것이 보다 권할만하기 때문에, M 개의 연산을 절약하는 결과를 가져올 수 있다. 이는 도 19에 도시된 실시예는 원칙적으로 리프터(830)의 구조 내에서 M 개의 연산, 상기 모듈(820)의 구조 내에서 2M 개의 연산을 필요로 하기 때문이다.

저 딜레이 필터뱅크의 실시예의 복잡성에 대한 평가의 견지에서, 특히 계산 복잡성의 견지에서, 도 20은 각 입력 프레임 당 M=512 개의 입력 샘플이 포함되는 경우, 도 19에 따른 합성 필터뱅크(800)의 실시예의 구현의 실시예의 산술적 복잡성을 보여주는 테이블을 포함한다. 정확하게는, 도 20의 테이블은 저 딜레이 윈도우 함수의 경우에서 윈도우잉과 함께 (변경된)IMDCT 변환기의 경우의 결과적인 전체 연산의 수의 추정치를 포함한다. 전체 연산 수는 9600이다.

이와 비교하여, 도 21은 AAC-LD 코덱과 같은 코덱의 전체 연산 수를 제공하는 파라미터 M=512에 대한 사인 함수에 기초한 윈도우잉에 필요한 복잡성과 함께 IMDCT의 산술적 폭잡성의 테이블을 포함한다. 보다 정확하게는, 사인 함수를 위한 윈도우잉과 함께 이 IMDCT 변환기의 산술적 복잡성은 도 19에 도시된 합성 필터뱅크(800)의 실시예의 경우 결과적인 전체 연산 수로서 동일한 순서의 중요성을 갖는 9216 개의 연산이 된다.

다른 비교로서, 도 22는 낮은 복잡성을 갖는 향상된 오디오 코덱으로서 알려진 AAC-LC 코덱을 위한 테이블을 포함한다. AAC-LC(M=1024)를 위한 윈도우잉 중첩 연산을 포함하는 이와 같은 IMDCT 변환기의 산술적 복잡성은 19968이다.

이러한 특징들의 비교는, 요컨대, 향상된 저 딜레이 필터뱅크의 실시예를 포함하는 코어 코더의 복잡성이 본질적으로 일반적인 MDCT-IMDCT 필터뱅크를 사용하는 코어 코더와 필적한다는 것을 보여준다. 나아가 연산 수는 대략적으로 예기하면 AAC-LC 코덱의 연산 수의 반이 된다.

도 23은 두 테이블을 포함한다. 여기서 도 23a는 다른 코덱들의 메모리 요구량의 비교를 포함한다. 도 23b는 ROM 요구량에 대한 동일한 추정치를 포함한다. 보다 정확하게는, 도 23a와 23b 각각은 위에서 언급된 코덱들 AAC-LD, AAC-ELD 및 AAC-LD를 위하여 RAM 메모리 요구량(도 23a)의 견지에서 프레임 길이, 작업 버퍼(working buffer) 및 상태 버퍼(state buffer)에 대한 정보와, ROM 메모리 요구량(도 23b)의 견지에서, 프레임 길이, 윈도우 계수들의 수, 그리고 총계에 관한 정보를 포함한다. 도 23a와 도 23b에서 이미 설명된 바와 같이, 약칭 AAC, ELD는 합성 필터뱅크, 분석 필터뱅크, 인코더, 디코더에 대한 실시예와 다른 실시예들을 지시한다. 요컨데, 사인 윈도우를 갖는 IMDCT와 비교하여, 저 딜레이 필터뱅크의 실시예의 도 19에 따른 이미 설명된 효율적인 구현은 길이 M의 추가적인 상태 메모리와 M 개의 추가적인 계수, 리프팅 계수 l(0),...,l(M-1)ff 필요로 한다. 따라서 AAC-LD의 프레임 길이가 AAC-LC의 프레임 길이의 반이므로 결과적인 메모리 요구량은 AAC-LC의 그것의 범위 내이다.

메모리 요구량의 견지에서, 도 23a와 23b에 도시된 테이블들은, 따라서 세 개의 위에 언급된 코덱들을 위한 RAM과 ROM 요구량과 비교된다. 저 딜레이 필터뱅크를 위한 메모리 증가는 단지 적당한 정도임을 알 수 있다. 전체 메모리 요구량은 AAC-LC 코덱 또는 그 수단과 비교하여 여전히 낮다.

도 24는 성능 평가의 구조 내에서 사용되는 MUSHRA 테스트를 위해 사용되는 코덱의 리스트를 포함한다. 도 24의 테이블 내에서, 약어 AOT는 Audio Object Type(오디오 오브젝트 타입)을 나타낸다. 여기서 39로 설정될 수도 있는 표제어 "X"는 오디오 오브젝트 타입 ER AAC ELD를 나타낸다. 즉, 상기 AOT, X 또는 AOT 39는 합성 필터뱅크 또는 분석 필터뱅크의 실시예를 식별시킨다. 약어 AOT는 이 문맥에서 "오디오 오브젝트 타입"을 의미한다.

MUSHRA 테스트의 구조 내에서, 이미 설명된 코더의 상부에 저 딜레이 필터뱅크가 구비되는 실시예를 사용하는 영양은 리스트 내의 모든 조합을 위하여 청취 테스트를 수행함으로써 시험된다. 보다 명확하게는, 이와 같은 테스트 결과는 아래의 결론을 가능하게 한다. 각 채널당 32 kbit/s의 AAC-ELD 디코더는 32 kb/s의 원래의 AAC-L 디코더보다 상당히 나은 성능을 보인다. 또한 각 채널당 32 kbit/s의 AAC-ELD 디코더는 각 채널당 48 kb/s인 원래의 AAC-LD 디코더와는 통계적으로 구분하기 어려운 성능을 나타낸다. 하나의 검사 항목이 되는 코더로서, AAC-LD와 저 딜레이 필터뱅크를 하나로 묶은 것은 모두 48 kb/s로 동작하는 원래의 AAC-LD 코더와 통계적으로 구별하기 어려운 성능을 보인다. 이는 저 딜레이 필터뱅크의 적합성을 확인시켜준다.

따라서 코덱 내의 딜레이의 상상한 절약이 얻어짐과 동시에 전체 코더 성능도 필적하게 유지된다. 또한 코더 압축 성능을 계속 유지하는 것이 가능하다.

위에서 설명된 것처럼, AAC ELD 코덱과 같은 본 발명의 실시예의 응용 또는 응용 시나리오들은 높은 충실도를 갖는 다음 세대의 비디오 원격회의와 VoIP(Voice over IP, 음성패킷망) 응용을 보증한다. 이는 경쟁적인 비트전송율과 높은 질적 레벨에서 멀티미디어 연출이나 음성 또는 음악과 같은 임의의 오디오 신호의 전송을 포함한다. 본 발명의 실시예(AAC-ELD)의 저 연산적 딜레이는 이와 같은 코덱을 모든 종류의 통신 및 응용을 위한 최상의 선택으로 만든다.

또한 본 문헌은 스펙트럼 대역 반응(SBR) 도구와 선택적으로 연합되는 향상된 AAC-ELD 디코더를 설명한다. 딜레이와 관련된 증가를 억제하기 위하여, 실제의 실황되는 구현의 견지에서 작은 변경이 코어 코더 모듈과 SBR 도구 내에서 필요하게 된다. 위에 언급된 기술에 기초한 결과적인 향상된 저 딜레이 오디오 디코딩 성능은 MPEG-4 오디오 표준에 의하여 현재 제공되는 것과 비교하여 상당히 향상된다. 코어 코딩 기술의 복잡성은, 그러나 실질적으로 동일하게 남는다.

또한 저 딜레이 분석 윈도우 또는 저 딜레이 합성 필터를 포함하는 분석 필터뱅크 또는 합성 필터뱅크를 포함한다. 또한 저 딜레이 분석 필터링 단계 또는 저 딜레이 합성 필터링 단계를 갖는 신호 분석 방법 또는 신호 합성 방법의 실시예가 포함된다. 저 딜레이 분석 필터 또는 저 딜레이 합성 필터의 실시예도 또한 설명된다. 또한 컴퓨터에서 운영될 때 위의 방법의 하나를 수행하는 프로그램 코드를 포함하는 컴퓨터 프로그램이 개시된다. 본 발명의 실시예는 또한 저 딜레이 분석 필터를 포함하는 인코더 또는 저 딜레이 합성 필터를 포함하는 디코더, 또는 대응되는 방법의 하나를 포함한다.

본 발명의 방법의 실시예의 특정 구현상의 필요조건들에 따라, 본 발명의 방법의 실시예는 하드웨어 또는 소프트웨어 상에서 구현될 수 있다. 이와 같은 구현은 프로그래밍 가능한 컴퓨터 또는 프로세서와 협력하여 본 발명의 방법의 실시예가 수행되도록 하는 디지털 저장 매체, 특히 그 위에 저장된 전기적으로 독출가능한 제어 신호들을 포함하는 디스크, CD, 또는 DVD를 사용하여 수행될 수 있다. 일반적으로, 본 발명의 실시예는 따라서 기계적으로 독출가능한 캐리어(carrier)에 저장되는 프로그램 코드를 갖는 컴퓨터 프로그램 제품이며, 이때 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 또는 프로세서에서 운영될 때 본 발명의 방법의 실시예를 수행하도록 동작된다. 즉, 본 발명의 방법의 실시예는 따라서 컴퓨터 프로그램이 컴퓨터나 프로세서에서 운영될 때 본 발명의 방법의 실시예 중 적어도 하나를 수행하는 프로그램 코드를 포함하는 컴퓨터 프로그램이 된다. 이에 따라 프로세서는 CPUs(Contral Processing Unit), ASICs(Application Specific Integrated Circuits) 또는 다른 집적회로(IC) 들을 포함한다.

본 발명이 특정 실시예에 참조하여 도시되고 설명되었지만, 형태 및 세부사항에서 다양한 다른 변경이 본 발명의 사상이나 범위를 벗어나지 않고 이루어질 수 있다는 것을 당업자는 이해할 것이다. 다양한 변경들이 여기에 개시되고 하기의 청구범위에 의해 파악되는 광의의 컨셉으로부터 벗어나지 않고 다른 실시예들에 적응되도록 이루어질 수 있다는 것을 유념한다.

부록( Annex )

테이블 1 (윈도우 계수 w(n); N = 960)

테이블 2 (윈도우 계수 w(n); N = 960)

_

테이블 3 (윈도우 계수 w(n); N = 1024)

테이블 4 (윈도우 계수 w(n); N = 1024)

테이블 5 (윈도우 계수 w(n); M = 512)

테이블 6 (리프팅 계수 l(n); M = 512)

테이블 7 (윈도우 계수 w(n); M = 512)

테이블 8 (리프팅 계수 l(n); M = 512)

테이블 9 (윈도우 계수 w(n); M = 480)

테이블 10 (리프팅 계수 l(n); M = 480)

테이블 11 (윈도우 계수 w(n); M = 480)

테이블 12 (리프팅 계수 l(n); M = 480)

Claims

복수의 입력 프레임을 혼합하기 위한 믹서(Mixer)에 있어서,
각 입력 프레임은 대응되는 시간영역 프레임의 스펙트럼 표현이고, 복수의 입력 프레임의 각 입력 프레임은 다른 소스(source)로부터 제공되며,
복수의 입력 프레임을 엔트로피 디코딩하도록 구성되는 엔트로피 디코더와;
주파수 영역에서 엔트로피 디코딩된 복수의 입력 프레임을 스케일링(scaling)하고, 주파수 영역에서 엔트로피 디코딩된 입력 프레임에 각각 대응되는 복수의 스케일링된(scaled) 프레임을 얻도록 구성되는 스케일러(scaler)와;
주파수 영역에서 합산 프레임을 생성하도록 주파수 영역에서 스케일링된 프레임을 합산하도록 구성되는 합산기(adder); 그리고
혼합된(mixed) 프레임을 얻기 위해 합산 프레임을 엔트로피 인코딩하도록 구성되는 엔트로피 인코더를 포함하여 구성되며,
상기 믹서는 복수의 입력 프레임에 기초하여 혼합된 프레임을 생성하도록 구성되고, 여기서 복수의 입력 프레임의 각 입력 프레임은, 다수의 정렬된 입력 샘플을 각각 포함하는 복수의 시간영역 입력 프레임을 필터링하고 복수의 윈도우된 샘플을 각각 포함하는 복수의 윈도우된 프레임을 생성하도록 구성되며 2로 나누어진 입력 프레임의 정렬된 입력 샘플의 수보다 적은 샘플 어드밴스 값을 이용하여 중첩 방식으로 복수의 입력 프레임을 처리하도록 구성되는 윈도워와; 윈도우된 프레임의 스펙트럼 표현이고 다수의 출력 값을 포함하는 출력 프레임을 제공하도록 구성되는 시간/주파수 변환기를 포함하는 합성 필터뱅크를 포함하는 인코더에 의해 생성됨을 특징으로 하는 믹서.
제1항에 있어서,
상기 믹서는, 상기 엔트로피 디코딩된 입력 프레임을 역양자화(dequantizing)하고 상기 엔트로피 디코딩된 입력 프레임을 역양자화된 형태로 상기 스케일러로 제공하도록 구성되는 역양자화기(dequantizer)를 더 포함하여 구성됨을 특징으로 하는 믹서.
제1항에 있어서,
상기 믹서는, 상기 합산 프레임을 양자화(quantizing)하고 상기 합산 프레임을 양자화된 형태로 상기 엔트로피 인코더로 제공하도록 구성되는 양자화기(quantizer)를 더 포함하여 구성됨을 특징으로 하는 믹서.
제1항에 있어서,
상기 스케일러는 1/P에 의해 복수의 입력 프레임의 각 입력 값을 곱함으로써 역양자화된 입력 프레임을 스케일링하도록 구성되고, 여기서 P는 서로 다른 소스의 수를 나타내는 정수임을 특징으로 하는 믹서.
제1항에 있어서,
상기 스케일러는 에너지 절약 방식(energy-conserving manner)으로 입력 프레임의 입력 값을 스케일링함으로써 엔트로피 디코딩된 입력 프레임을 스케일링하도록 구성됨을 특징으로 하는 믹서.
제1항에 있어서,
상기 믹서는 복수의 입력 프레임에 기초하여 혼합된 프레임을 제공하도록 구성되고, 복수의 입력 프레임의 각 입력 프레임은 동일한 합성 윈도우 함수에 기초하여 생성됨을 특징으로 하는 믹서.
삭제
제1항에 있어서,
상기 믹서는 복수의 입력 프레임을 처리하고, 각 채널 당 36 kbit/s 보다 적은 비트전송율(bitrate)에 기초하여 상기 혼합된 프레임을 제공하도록 구성됨을 특징으로 하는 믹서.
제1항에 따른 믹서를 포함하여 구성되는 회의 시스템(conferencing system).