KR102243688B1

KR102243688B1 - 인터리브된 파형 코딩을 위한 오디오 인코더 및 디코더

Info

Publication number: KR102243688B1
Application number: KR1020207030234A
Authority: KR
Inventors: 크리스토퍼 쿄어링; 로빈 데싱; 하랄트 문트; 하이코 푸른하겐; 칼 요나스 뢰덴
Original assignee: 돌비 인터네셔널 에이비
Priority date: 2013-04-05
Filing date: 2014-04-04
Publication date: 2021-04-27
Also published as: JP2021113975A; RU2015147173A; RU2665228C1; KR102170665B1; US11875805B2; KR102694669B1; KR20160075806A; JP2019168712A; CN110265047B; JP7317882B2; JP2018101160A; JP6026704B2; EP3742440A1; US20170018279A1; WO2014161995A1; KR20220137791A; KR20200123490A; BR112015025022B1; HK1217054A1; EP2981959A1

Abstract

오디오 신호들의 디코딩 및 인코딩을 위한 방법들 및 장치들이 제공된다. 특히, 디코딩을 위한 방법은 하나의 크로스-오버 주파수 위의 주파수 범위의 서브세트에 대응하는 스펙트럼 콘텐트를 갖는 파형-코딩된 신호를 수신하는 단계를 포함한다. 상기 파형-코딩된 신호는 상기 크로스-오버 주파수 위의 상기 오디오 신호의 파라메트릭 고 주파수 재구성으로 인터리빙된다. 이러한 방법에서, 사이 오디오 신호의 고 주파수 대역들의 개선된 재구성이 달성된다.

Description

인터리브된 파형 코딩을 위한 오디오 인코더 및 디코더{AUDIO ENCODER AND DECODER FOR INTERLEAVED WAVEFORM CODING}

본 명세서에 개시된 발명은 일반적으로 오디오 인코딩 및 디코딩에 관한 것이다. 특히, 본 발명은 오디오 신호들의 고 주파수 재구성을 실행하도록 적응된 오디오 인코더 및 오디오 디코더에 관한 것이다.

오디오 코딩 시스템들은 오디오 코딩을 위해, 순수(pure) 파형 코딩, 파라메트릭 공간 코딩, 및 스펙트럼 대역 복제(SBR: Spectral Band Replication) 알고리즘을 포함하는 고 주파수 재구성 알고리즘들과 같은, 서로 다른 방법론들을 사용한다. MPEG-4 표준은 오디오 신호들의 SBR 및 파형 코딩을 결합한다. 보다 정확하게는, 인코더는 크로스-오버 주파수(cross-over frequency)까지 스펙트럼 대역들에 대해 오디오 신호를 파형 코딩(waveform coding)하고, 상기 크로스-오버 주파수 위의 스펙트럼 대역들을 SBR 인코딩을 사용하여 인코딩한다. 상기 오디오 신호의 파형-코딩된 부분은 이후 상기 SBR 인코딩 동안 결정된 SBR 파라미터들과 함께 디코더로 전송된다. 상기 오디오 신호의 파형-코딩된 부분 및 상기 SBR 파라미터들에 기초하여, 상기 디코더는 이후, 브린커 등의 리뷰 페이퍼(코딩 표준 MPEG-4 오디오 보정 1 및 2의 개관: HE-AAC, SSC, 및 HE-AAC v2, EURASIP Journal on Audio, Speech, and Music Processing, Volume 2009, Article ID 468971)에 기술된 바와 같이 상기 크로스-오버 주파수 위의 상기 스펙트럼 대역들에서 상기 오디오 신호들을 재구성한다.

이러한 접근이 갖는 한 가지 문제는 강한 토널 성분들(strong tonal components), 즉 강한 고조파 구성요소들, 또는 상기 SBR 알고리즘에 의해 정확하게 재구성되지 않는 높은 스펙트럼 대역들의 어떠한 구성요소가 출력에서 누락될 수 있다는 것이다.

이를 위해, 상기 SBR 알고리즘은 누락된(missing) 고조파 검출 절차를 실행한다. SBR 고 주파수 재구성에 의해 제대로 재생되지 않을 토널(tonal) 성분들이 인코더 측에서 식별된다. 이들 강한 토널 성분들의 주파수 위치의 정보가 디코더로 전송되고, 누락된 토널 성분들이 위치된 스펙트럼 대역들내의 스펙트럼 콘텐츠가 상기 디코더에서 발생된 정현파들(sinusoids)로 대체된다.

상기 SBR 알고리즘에서 제공되는 누락 고조파 검출의 이점은, 다소 간략화된, 단지 토널 성분의 주파수 위치 및 그 진폭 레벨만이 상기 디코더로 전송될 필요가 있으므로, 매우 낮은 비트레이트 솔루션이라는 것이다.

상기 SBR 알고리즘의 누락 고조파 검출의 단점은 매우 거친 모델(very rough model)이라는 것이다. 또 다른 단점은, 전송 레이트가 낮을 때, 즉 초 당 전송될 수 있는 비트들의 수가 적을 때, 그 결과로서 스펙트럼 대역들이 넓어져, 큰 주파수 범위가 정현파로 대체된다는 것이다.

상기 SBR 알고리즘의 또 다른 단점은 오디오 신호에서 발생하는 트랜션트(transient)들을 제거하려 한다는 것이다. 일반적으로, SBR 재구성된 오디오 신호에는 트랜션트의 프리-에코 및 포스트-에코가 있을 것이다. 따라서, 개선의 여지가 있다.

본원 청구범위(또는 그 보정)에 기재된 바와 같은 구성을 개시한다.

도 1은 예시적인 실시예들에 따른 디코더의 구성을 도시한 도면.
도 2는 예시적인 실시예들에 따른 디코더의 구성을 도시한 도면.
도 3은 예시적인 실시예들에 따른 디코딩 방법의 흐름도.
도 4는 예시적인 실시예들에 따른 디코더의 구성을 도시한 도면.
도 5는 예시적인 실시예들에 따른 인코더의 구성을 도시한 도면.
도 6는 예시적인 실시예들에 따른 인코딩 방법의 흐름도.
도 7는 예시적인 실시예들에 따른 시그널링 스킴의 개략도.
도 8은 예시적인 실시예들에 따른 인터리빙 스테이지의 개략도.

다음에는, 예시적인 실시예들이 첨부된 도면들을 참조하여 보다 상세히 기술될 것이다.

모든 도면들은 도식적으로 나타냈으며, 일반적으로 본 개시를 상세히 설명하기 위하여 필요한 부분들만을 나타내었고, 다른 부분들은 생략되거나 단지 시사되었을 수 있다. 그렇지 않다고 명시하지 않는 한, 동일한 참조 번호들은 다른 도면들에서도 동일한 부분들로서 참조된다.

본 발명의 상세한 설명

상기한 점에 비추어, 고 주파수 대역들에서 트랜션트들 및 토널 성분들의 개선된 재구성을 제공하는 인코더, 디코더 및 관련 방법들을 제공하는 것을 목적으로 한다.

개요-디코더

첫 번째 관점에 따라, 예시적인 실시예들은 디코딩 방법, 디코딩 디바이스, 및 디코딩을 위한 컴퓨터 프로그램 제품을 제안한다. 제안된 방법, 디바이스, 및 컴퓨터 프로그램 제품은 일반적으로 동일한 특징 및 이점들을 갖는다.

예시적인 실시예들에 따라, 오디오 프로세싱 시스템에서의 디코딩 방법이 제공되며, 상기 디코딩 방법은: 제 1 크로스-오버 주파수까지 스펙트럼 콘텐트를 갖는 제 1 파형-코딩된 신호를 수신하는 단계; 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브세트에 대응하는 스펙트럼 콘텐트를 갖는 제 2 파형-코딩된 신호를 수신하는 단계; 고 주파수 재구성 파라미터들을 수신하는 단계; 상기 제 1 크로스-오버 주파수 위의 스펙트럼 콘텐트를 갖는 주파수 확장된 신호를 발생하도록 상기 제 1 파형-코딩된 신호 및 상기 고 주파수 재구성 파라미터들을 사용하여 고 주파수 재구성을 실행하는 단계; 및 상기 고 주파수 확장된 신호에 상기 제 2 파형-코딩된 신호를 인터리빙하는 단계를 구비한다.

본 명세서에서 사용되는 바로서, 파형-코딩된 신호는 상기 파형 표현의 직접적인 양자화에 의해 코딩된 신호로서 해석되어야 하며; 대부분 상기 입력 파형 신호의 주파수 변환의 라인들의 양자화를 선호한다. 이러한 것은, 상기 신호가 신호 속성의 일반 모델(generic model)의 변형으로 표현되는 파라메트릭 코딩과는 대조적이다.

상기 코딩 방법은 따라서 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브세트에서 파형-코딩된 신호를 사용하고, 상기 신호를 상기 고 주파수 재구성된 신호와 인터리빙하는 것을 제안한다. 이러한 방법에서, 일반적으로 파라메트릭 고 주파수 재구성 알고리즘들에 의해 만족스럽게 재구성되지 않는 트랜션트들 또는 토널 성분들과 같은, 상기 제 1 크로스-오버 주파수 위의 주파수 대역에서 신호의 중요한 부분들이 파형-코딩될 수 있다. 결과적으로, 상기 제 1 크로스-오버 주파수 위의 주파수 대역에서 이들 신호의 중요한 부분들의 재구성이 개선된다.

예시적인 실시예들에 따라, 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브세트는 드문(sparse) 서브세트가 된다. 실례로, 상기 서브세트는 복수의 분리된 주파수 구간들(a plurality of isolated frequency intervals)을 구비한다. 이러한 것은 상기 제 2 파형-코딩된 신호를 코딩하기 위한 비트들의 수가 적다는 점에서 유리하다. 여전히, 복수의 분리된 주파수 구간들을 가짐으로써, 오디오 신호의 토널 성분들, 예컨대 단일 코조파들은 상기 제 2 파형-코딩된 신호에 의해 만족스럽게 캡쳐될 수 있다. 결과적으로, 고 주파수 대역들에 대한 토널 성분들의 재구성의 개선이 낮은 비트 코스트로 달성된다.

본 명세서에서 사용되는 바로서, 누락 고조파(missing harmonics) 또는 단일 고조파는 스펙트럼의 어떠한 임의적인 강력한 토널 부분(strong tonal part)을 의미한다. 특히, 누락 고조파 또는 단일 고조파는 배열음(harmonic series)의 고조파에 제한되지 않는다.

예시적인 실시예들에 따라, 제 2 파형-코딩된 신호가 재구성될 오디오 신호에서 트랜션트를 나타낼 수 있다. 트랜션트는 일반적으로, 예를 들면 5 내지 10 밀리초 정도의 시간 범위인, 48kHz의 샘플링 레이트에서 대략 백 개의 시간 샘플들과 같은, 짧은 시간 범위로 제한되지만, 넓은 주파수 범위를 가질 수도 있다. 트랜션트를 캡쳐하기 위해, 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브세트는 따라서 상기 제 1 크로스-오버 주파수와 상기 제 2 크로스-오버 주파수 사이에서 확장하는 주파수 구간을 구비할 수 있다. 이러한 것은 트랜션트의 개선된 재구성이 달성될 수 있다는 점에서 유익하다.

예시적인 실시예들에 따라, 제 2 크로스-오버 주파수는 시간의 함수로서 변화한다. 예를 들면, 상기 제 2 크로스-오버 주파수는 오디오 프로세싱 시스템에 의해 설정된 시간 프레임 내에서 변화할 수 있다. 이러한 방법에 있어서, 상기 트랜션트의 짧은 시간 범위가 고려될 수 있다.

예시적인 실시예들에 따라, 고 주파수 재구성을 실행하는 단계는 스펙트럼 대역 복제 SBR을 실행하는 단계를 구비한다. 고 주파수 재구성은 일반적으로, 예를 들면 64 서브-대역들의 의사 QMF(pseudo Quadrature Mirror Filters) 영역과 같은, 주파수 영역에서 실행된다.

예시적인 실시예들에 따라, 상기 주파수 확장된 신호에 상기 제 2 파형-코딩된 신호를 인터리빙하는 단계는 예를 들면 QMF 영역과 같은 주파수 영역에서 실행된다. 일반적으로 두 신호들의 시간- 및 주파수-특성들에 대해 실행의 용이성 및 보다 나은 제어를 위해, 상기 인터리빙은 고 주파수 재구성과 동일한 주파수 영역에서 실행된다.

예시적인 실시예들에 따라, 수신된 바와 같은 상기 제 1 및 제 2 파형-코딩된 신호는 동일한 MDCT(Modified Discrete Cosine Transform)를 사용하여 수신된다.

예시적인 실시예들에 따라, 디코딩 방법은 상기 주파수 확장된 신호의 스펙트럼 엔벨로프(spectral envelope)를 조정하기 위해 상기 고 주파수 재구성 파라미터들에 따라 상기 주파수 확장된 신호의 스펙트럼 콘텐트를 조정하는 단계를 구비한다.

예시적인 실시예들에 따라, 상기 인터리빙은 상기 제 2 파형-코딩된 신호를 상기 주파수 확장된 신호에 부가하는 단계를 구비할 수 있다. 이러한 것은, 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브세트가 복수의 분리된 주파수 구간들을 구비할 때와 같이, 상기 제 2 파형-코딩된 신호가 토널 성분들을 나타내는 경우 바람직한 옵션이 된다. 상기 제 2 파형-코딩된 신호를 상기 주파수 확장된 신호에 부가하는 것은 SBR로 공지된 바와 같은 고조파의 파라메트릭 부가를 모방하며, SBR 카피-업 신호가, 적절한 레벨에서 혼합함으로써 단일 토널 성분으로 대체되도록 넓은 주파수 범위들을 피하기 위해 사용될 수 있게 한다.

예시적인 실시예들에 따라, 상기 인터리빙은 상기 제 2 파형-코딩된 신호의 스펙트럼 콘텐트에 대응하는 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브세트에서 상기 주파수 확장된 신호의 스펙트럼 콘텐트를 상기 제 2 파형-코딩된 신호의 스펙트럼 콘텐트로 대체하는 단계를 구비한다. 이러한 것은 상기 제 2 파형-코딩된 신호가 트랜션트를 나타낼 때, 예를 들면 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브세트가 따라서 상기 제 1 크로스-오버 주파수와 상기 제 2 크로스-오버 주파수 사이에서 확장하는 주파수 구간을 구비할 때, 적절한 옵션이 된다. 상기 대체는 일반적으로 상기 제 2 파형-코딩된 신호에 의해 커버되는 시간 범위 동안 실행될 뿐이다. 이러한 방법에서, 가능한 최소의 것이 대체될 수 있으며, 상기 주파수 확장된 신호에 존재하는 일시적이고 잠재적인 시간 스미어(smear)를 대체하기에 여전히 충분하고, 상기 인터리빙은 따라서 상기 SBR 엔벨로프 시간-그리드에 의해 특정된 시간-세그먼트에 제한되지 않는다.

예시적인 실시예들에 따라, 상기 제 1 및 제 2 파형-코딩된 신호는 별개의 신호들이 될 수 있으며, 이는 이들이 개별적으로 코딩되었다는 것을 의미한다. 대안적으로, 상기 제 1 파형-코딩된 신호 및 상기 제 2 파형-코딩된 신호는 공통의, 공동으로 코딩된 신호의 제 1 및 제 2 신호 부분들을 형성한다. 후자의 대안이 실행 관점에서는 더욱 매력적이다.

예시적인 실시예들에 따라, 디코딩 방법은 상기 제 2 파형-코딩된 신호가 이용가능한 상기 제 1 크로스-오버 주파수 위의 하나 이상의 주파수 범위들 및 하나 이상의 시간 범위들과 관련한 데이터를 구비하는 제어 신호를 수신하는 단계를 구비할 수 있으며, 여기서 상기 주파수 확장된 신호에 상기 제 2 파형-코딩된 신호를 인터리빙하는 단계는 상기 제어 신호에 기초하게 된다. 이러한 것은 인터리빙을 제어하는 효과적인 방법을 제공한다는 점에서 유익하다.

예시적인 실시예들에 따라, 상기 제어 신호는 상기 제 2 파형-코딩된 신호가 상기 주파수 확장된 신호와 인터리빙하는 데 이용가능한 상기 제 1 크로스-오버 주파수 위의 하나 이상의 주파수 범위들을 나타내는 제 2 벡터 및 상기 제 2 파형-코딩된 신호가 상기 주파수 확장된 신호와 인터리빙하는 데 이용가능한 하나 이상의 시간 범위들을 나타내는 제 3 벡터를 구비한다. 이러한 것은 상기 제어 신호를 실행하는 편리한 방법이다.

예시적인 실시예들에 따라, 상기 제어 신호는 상기 고 주파수 재구성 파라미터들에 기초하여 파라미터에 의해 재구성될 상기 제 1 크로스-오버 주파수 위의 하나 이상의 주파수 범위들을 나타내는 제 1 벡터를 구비한다. 이러한 방법에서, 상기 주파수 확장된 신호는 어떤 주파수 대역들에 대해 상기 제 2 파형-코딩된 신호보다 우선하여 제공될 수 있다.

예시적인 실시예들에 따라, 상기 제 1 관점의 어떠한 디코딩 방법에 대해서도 실행하기 위한 지시들(instructions)을 갖는 컴퓨터 판독가능한 매체를 구비하는 컴퓨터 프로그램 제품이 또한 제공된다.

예시적인 실시예들에 따라, 오디오 프로세싱 시스템을 위한 디코더가 제공되며, 상기 디코더는: 제 1 크로스-오버 주파수까지 스펙트럼 콘텐트를 갖는 제 1 파형-코딩된 신호, 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브세트에 대응하는 스펙트럼 콘텐트를 갖는 제 2 파형-코딩된 신호, 및 고 주파수 재구성 파라미터들을 수신하도록 구성된 수신 스테이지; 상기 제 1 크로스-오버 주파수 위의 스펙트럼 콘텐트를 갖는 주파수 확장된 신호를 발생하기 위해 상기 수신 스테이지로부터 상기 제 1 파형-코딩된 신호 및 상기 고 주파수 재구성 파라미터들을 수신하고, 상기 제 1 파형-코딩된 신호 및 상기 고 주파수 재구성 파라미터들을 사용하여 고 주파수 재구성을 실행하도록 구성된 고 주파수 재구성 스테이지; 및 상기 고 주파수 재구성 스테이지로부터 상기 주파수 확장된 신호를 수신하고 상기 수신 스테이지로부터 상기 제 2 파형-코딩된 신호를 수신하고, 상기 주파수 확장된 신호에 상기 제 2 파형-코딩된 신호를 인터리빙하도록 구성된 인터리빙 스테이지를 구비한다.

예시적인 실시예에 따라, 상기 디코더는 본 명세서에 기재된 어떠한 디코딩 방법도 실행하도록 구성될 수 있다.

개요-인코더

두 번째 관점에 따라, 예시적인 실시예들은 인코딩을 위한 인코딩 방법, 인코딩 디바이스, 및 인코딩을 위한 컴퓨터 프로그램 제품을 제안한다. 제안된 방법, 디바이스, 및 컴퓨터 프로그램 제품은 일반적으로 동일한 특징 및 이점들을 갖는다.

상기한 디코더의 개요에 제시된 바와 같은 특징들 및 구성들과 관련한 이점들은 일반적으로 상기 인코더에 대한 대응하는 특징들 및 구성들에 대해 유효하게 될 것이다.

예시적인 실시예들에 따라, 오디오 프로세싱 시스템에서의 인코딩 방법이 제공되며, 상기 인코딩 방법은: 인코딩될 오디오 신호를 수신하는 단계; 상기 수신된 오디오 신호에 기초하여 제 1 크로스-오버 주파수 위의 상기 수신된 오디오 신호의 고 주파수 재구성을 가능하게 하는 고 주파수 재구성 파라미터들을 산출하는 단계; 상기 수신된 오디오 신호에 기초하여, 상기 수신된 오디오 신호의 스펙트럼 콘텐트가 파형-코딩되고 이어서 디코더에서 상기 오디오 신호의 고 주파수 재구성으로 인터리빙될 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브세트를 식별하는 단계; 제 1 크로스-오버 주파수까지 스펙트럼 대역들에 대해 상기 수신된 오디오 신호를 파형-코딩함으로써 제 1 파형-코딩된 신호를 발생하는 단계; 및 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 상기 식별된 서브세트에 대응하는 스펙트럼 대역들에 대해 상기 수신된 오디오 신호를 파형-코딩함으로써 제 2 파형-코딩된 신호를 발생시키는 단계를 구비한다.

예시적인 실시예들에 따라, 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브세트는 복수의 분리된 주파수 구간들을 구비할 수 있다.

예시적인 실시예들에 따라, 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브세트는 상기 제 1 크로스-오버 수파수와 제 2 크로스-오버 주파수 사이에서 확장하는 주파수 구간을 구비할 수 있다.

예시적인 실시예들에 따라, 제 2 크로스-오버 주파수는 시간의 함수로서 변화한다.

예시적인 실시예들에 따라, 상기 고 주파수 재구성 파라미터들은 스펙트럼 대역 복제(SBR) 인코딩을 사용하여 산출된다.

예시적인 실시예들에 따라, 상기 인코딩 방법은 디코더에서 상기 제 2 파형-코딩된 신호에 대한 상기 수신된 오디오 신호의 고 주파수 재구성의 부가를 보상하기 위해 상기 고 주파수 재구성 파라미터들에 구비된 스펙트럼 엔벨로프 레벨들을 조정하는 단계를 더 구비할 수 있다. 상기 제 2 파형-코딩된 신호가 상기 디코더에서 고 주파수 재구성된 신호에 부가됨에 따라, 결합된 신호의 스펙트럼 엔벨로프 레벨들은 상기 고 주파수 재구성된 신호의 스펙트럼 엔벨로프 레벨들과 상이하게 된다. 상기 스펙트럼 엔벨로프 레벨들에서의 이러한 변경은 상기 인코더에서 처리될 수 있게되어, 상기 디코더에서 상기 결합된 신호는 타겟 스펙트럼 엔벨로프를 얻게 될 수 있다. 상기 인코더 측상에서의 상기 조정을 실행함으로써, 상기 디코더 측상에서 요구되는 정보(intelligence)가 감소될 수 있거나 또는 다르게 놓여질 수 있고; 어떻게 상기 상태를 조절할지에 대한 상기 디코더에서의 특정 룰(rule)들을 규정하기 위한 요구가 상기 인코더로부터 상기 디코더로의 특정 시그널링에 의해 제거될 수 있다. 이러한 것은 잠재적으로 폭넓게 효율적으로 사용될 디코더들을 갱신해야할 필요성 없이 상기 인코더의 향후의 최적화에 의해 상기 시스템의 향후의 최적화를 가능하게 한다.

예시적인 실시예들에 따라, 상기 고 주파수 재구성 파리미터들을 조정하는 단계는: 상기 제 2 파형-코딩된 신호의 에너지를 측정하는 단계; 및 상기 제 2 파형-코딩된 신호의 스펙트럼 콘텐츠에 대응하는 스펙트럼 대역들에 대한 스펙트럼 엔벨로프 레벨들로부터 상기 제 2 파형-코딩된 신호의 상기 측정된 에너지를 감산함으로써 상기 고 주파수 재구성된 신호의 스펙트럼 엔벨로프를 제어하도록 의도된 대로, 상기 스펙트럼 엔벨로프 레벨들을 조정하는 단계를 구비할 수 있다.

예시적인 실시예들에 따라, 상기 제 2 관점의 어떠한 인코딩 방법에 대해서도 실행하기 위한 지시들을 갖는 컴퓨터 판독가능한 매체를 구비하는 컴퓨터 프로그램 제품이 또한 제공된다.

예시적인 실시예들에 따라, 오디오 프로세싱 시스템을 위한 인코더가 제공되며, 상기 인코더는: 인코딩될 오디오 신호를 수신하도록 구성된 수신 스테이지; 상기 수신 스테이지로부터 오디오 신호를 수신하고, 상기 수신된 오디오 신호에 기초하여 상기 제 1 크로스-오버 주파수 위의 상기 수신된 오디오 신호의 고 주파수 재구성을 가능하게 하는 고 주파수 재구성 파라미터들을 산출하도록 구성된 고 주파수 인코딩 스테이지; 상기 수신된 오디오 신호에 기초하여, 상기 수신된 오디오 신호의 스펙트럼 콘텐트가 파형-코딩되고 이어서 디코더에서 상기 오디오 신호의 고 주파수 재구성으로 인터리빙될 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브세트를 식별하도록 구성된 인터리브 코딩 검출 스테이지; 및 상기 수신 스테이지로부터 상기 오디오 신호를 수신하고, 제 1 크로스-오버 주파수까지 스펙트럼 대역들에 대해 상기 수신된 오디오 신호를 파형-코딩함으로써 제 1 파형-코딩된 신호를 발생하고, 상기 인터리브 코딩 검출 스테이지로부터 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 상기 식별된 서브세트를 수신하고, 상기 주파수 범위의 상기 수신된 식별된 서브세트에 대응하는 스펙트럼 대역들에 대해 상기 수신된 오디오 신호를 파형-코딩함으로써 제 2 파형-코딩된 신호를 발생하도록 구성된 파형 인코딩 스테이지를 구비한다.

예시적인 실시예들에 따라, 상기 인코더는 상기 고 주파수 인코딩 스테이지로부터 고 주파수 재구성 파리미터들을 수신하고 상기 인터리브 코딩 검출 스테이지로부터 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 상기 식별된 서브세트를 수신하고, 상기 디코더에서 상기 제 2 파형-코딩된 신호에 의한 상기 수신된 오디오 신호의 고 주파수 재구성의 후속하는 인터리빙을 보상하기 위해 상기 수신된 데이터에 기초하여 상기 고 주파수 재구성 파라미터들을 조정하도록 구성된 엔벨로프 조정 스테이지를 더 구비할 수 있다.

예시적인 실시예들에 따라, 상기 디코더는 본 명세서에 개시된 어떠한 디코딩 방법들에 대해서도 실행하도록 구성될 수 있다.

III. 예시적 실시예들 - 디코더

도 1은 디코더(100)의 예시적인 실시예를 도시한다. 상기 디코더는 수신 스테이지(110), 고 주파수 재구성 스테이지(120), 및 인터리빙 스테이지(130)를 구비한다.

상기 디코더(100)의 동작은 이제 디코더(200)를 도시하는 도 2의 예시적인 실시예와 도 3의 흐름도를 참조하여 더욱 상세하게 설명될 것이다. 상기 디코더(200)의 목적은 재구성될 오디오 신호의 고 주파수 대역들에서 강력한 토널 성분들이 있는 경우 고 주파수들에 대한 개선된 신호 재구성을 제공하려는 것이다. 수신 스테이지(110)는 단계 D02에서 제 1 파형-코딩된 신호(201)를 수신한다. 상기 제 1 파형-코딩된 신호(201)는 제 1 크로스-오버 주파수 f_c까지 스펙트럼 콘텐트를 갖는다. 즉, 상기 제 1 파형-코딩된 신호(201)는 상기 제 1 크로스-오버 주파수 f_c 아래의 주파수 범위로 제한된 낮은 대역 신호가 된다.

상기 수신 스테이지(110)는 단계 D04에서 제 2 파형-코딩된 신호(202)를 수신한다. 상기 제 2 파형-코딩된 신호(202)는 제 1 크로스-오버 주파수 f_c 위의 주파수 범위의 서브세트에 대응하는 스펙트럼 콘텐트를 갖는다. 도 2에 도시된 도식적 예에서, 상기 제 2 파형-코딩된 신호(202)는 복수의 분리된 주파수 구간들(202a 및 202b)에 대응하는 스펙트럼 콘텐트를 갖는다. 상기 제 2 파형-코딩된 신호(202)는 따라서 복수의 대역-제한된 신호들로 구성되도록 보여질 수 있고, 각각의 대역-제한된 신호는 상기 분리된 주파수 구간들(202a 및 202b) 중 하나에 대응한다. 도 2에서는, 단지 두 개의 주파수 구간들(202a 및 202b)이 도시된다. 일반적으로, 상기 제 2 파형-코딩된 신호의 스펙트럼 콘텐트는 변화하는 폭의 어떠한 수의 주파수 구간들에도 대응할 수 있다.

상기 수신 스테이지(110)는 상기 제 1 및 상기 제 2 파형-코딩된 신호(201 및 202)를 두 개의 별개의 신호들로서 수신할 수 있다. 대안적으로, 상기 제 1 및 상기 제 2 파형-코딩된 신호(201 및 202)는 상기 수신 스테이지(110)에 의해 수신된 공통 신호의 제 1 및 제 2 신호 부분들을 형성할 수 있다. 다시 말해서, 상기 제 1 및 상기 제 2 파형-코딩된 신호들은 예를 들면 동일한 MDCT 변환을 사용하여 공동으로 코딩될 수 있다.

일반적으로, 상기 수신 스테이지(110)에 의해 수신되는, 상기 제 1 파형-코딩된 신호(201) 및 상기 제 2 파형-코딩된 신호(202)는 MDCT 변환과 같은 오버랩핑 윈도윙된 변환(overlapping windowed transform)을 사용하여 코딩된다. 상기 수신 스테이지는 상기 제 1 및 상기 제 2 파형-코딩된 신호들(201 및 202)을 시간 도메인으로 변환하도록 구성된 파형 디코딩 스테이지(240)를 구비할 수 있다. 파형 디코딩 스테이지(240)는 일반적으로 상기 제 1 및 상기 제 2 파형-코딩된 신호(201 및 202)의 역 DMCT 변환을 실행하도록 구성된 MDCT 필터 뱅크를 구비한다.

상기 수신 스테이지(110)는 또한 단계 D06에서 다음에서 설명될 바와 같이 고 주파수 재구성 스테이지(120)에 의해 사용되는 고 주파수 재구성 파라미터들을 수신한다.

상기 수신 스테이지(110)에 의해 수신된 상기 제 1 파형-코딩된 신호(201) 및 상기 제 2 파형-코딩된 신호(202)는 이후 상기 고 주파수 재구성 스테이지(120)로 입력된다. 상기 고 주파수 재구성 스테이지(120)는 일반적으로 주파수 도메인, 바람직하게는 QMF 도메인에서 신호들에 대해 동작한다. 상기 고 주파수 재구성 스테이지(120)에 입력되기 전에, 상기 제 1 파형-코딩된 신호(201)는 따라서 QMF 분석 스테이지(250)에 의해 상기 주파수 도메인, 바람직하게는 상기 QMF 도메인으로 바람직하게 변환된다. 상기 QMF 분석 스테이지(250)는 일반적으로 상기 제 1 파형-코딩된 신호(201)의 QMF 변환을 실행하도록 구성된 QMF 필터 뱅크를 구비한다.

상기 제 1 파형-코딩된 신호(201) 및 상기 고 주파수 재구성 파라미터들에 기초하여, 상기 고 주파수 재구성 스테이지(120)는 단계 D08에서 상기 제 1 파형-코딩된 신호(201)를 상기 제 1 크로스-오버 주파수 f_c 위의 주파수들로 확장한다. 더욱이, 상기 고 주파수 재구성 스테이지(120)는 상기 제 1 크로스-오버 주파수 f_c 위의 스펙트럼 콘텐트를 갖는 주파수 확장된 신호(203)를 발생시킨다. 상기 주파수 확장된 신호(203)는 따라서 높은-대역 신호가 된다.

상기 고 주파수 재구성 스테이지(120)는 고 주파수 재구성을 실행하기 위한 어떠한 공지된 알고리즘에 따라 동작할 수 있다. 특히, 상기 고 주파수 재구성 스테이지(120)는 블린커 등에 의한 "An overview of the Coding Standard MPEG-4 Audio Amendments 1 and 2(HE-AAC, SSC, 및 HE-AAC v2, EURASIP Journal on Audio, Speech, and Music Processing, Volume 2009, Article ID 468971)"로 리뷰 페이퍼에 개시된 바와 같은 SBR을 실행하도록 구성될 수 있다. 그와 같이, 상기 고 주파수 재구성 스테이지는 복수의 단계들에서 상기 주파수 확장된 신호(203)를 발생시키도록 구성된 복수의 서브-스테이지들을 구비할 수 있다. 예를 들면, 상기 고 주파수 재구성 스테이지(120)는 고 주파수 발생 스테이지(221), 파라메트릭 고 주파수 구성요소 부가 스테이지(222), 및 엔벨로프 조정 스테이지(223)를 구비할 수 있다.

간략하면, 상기 고 주파수 재구성 스테이지(221)는 제 1 서브-단계 D08a에서 상기 주파수 확장된 신호(203)를 발생시키기 위해 상기 제 1 파형-코딩된 신호(201)를 상기 크로스-오버 수파수 f_c 위의 주파수 범위까지 확장한다. 상기 발생은, 상기 제 1 파형-코딩된 신호(201)의 서브-대역 부분들을 선택하고, 상기 고 주파수 재구성 파라미터들에 의해 가이드된 특정 룰들에 따라서 상기 제 1 파형-코딩된 신호(201)의 상기 선택된 서브-대역 부분들을 상기 제 1 크로스-오버 주파수 f_c 위의 주파수 범위의 선택된 서브-대역 부분들로 미러(mirror) 또는 카피(copy)함으로써 실행된다.

상기 고 주파수 재구성 파라미터들은 또한 누락 고조파를 상기 주파수 확장된 신호(203)에 부가하기 위한 누락 고조파 파라미터들을 구비한다. 상술한 바와 같이, 누락 고조파는 상기 스펙트럼의 어떠한 임의의 강력한 토널 부분으로서 해석된다. 예를 들면, 누락 고조파 파라미터들은 누락 고조파의 주파수 및 진폭과 관련한 파라미터들을 구비할 수 있다. 상기 누락 고조파 파라미터들에 기초하여, 상기 파라메트릭 고 주파수 구성요소 부가 스테이지(222)는 서브-단계 D08b에서 정현파 구성요소들을 발생시키고, 상기 정현파 구성요소들을 상기 주파수 확장된 신호(203)에 부가한다.

상기 고 주파수 재구성 파라미터는 또한 상기 주파수 확장된 신호(203)의 타겟 에너지 레벨들을 기술하는 스펙트럼 엔벨로프 파라미터들을 구비할 수 있다. 상기 스펙트럼 엔벨로프 파라미터들에 기초하여, 상기 엔벨로프 조정 스테이지(223)는 서브-단계 D08c에서 상기 주파수 확장된 신호(203)의 스펙트럼 콘텐트, 즉 상기 주파수 확장된 신호(203)의 스펙트럼 계수들 조정할 수 있으며, 상기 주파수 확장된 신호(203)의 에너지 레벨들은 상기 스펙트럼 엔벨로프 파라미터들에 의해 기술된 타겟 에너지 레벨들에 대응한다.

상기 고 주파수 재구성 스테이지(120)로부터의 상기 주파수 확장된 신호(203) 및 상기 수신 스테이지(110)로부터의 제 2 파형-코딩된 신호는 이후 상기 인터리빙 스테이지(130)로 입력된다. 상기 인터리빙 스테이지(130)는 일반적으로 상기 고 주파수 재구성 스테이지(120)에서와 동일한 주파수 도메인, 바람직하게는 QMF 도메인에서 동작한다. 따라서, 상기 제 2 파형-코딩된 신호(202)는 일반적으로 상기 QMF 분석 스테이지(250)를 통해 상기 인터리빙 스테이지로 입력된다. 또한 상기 제 2 파형-코딩된 신호(202)는 대체로 상기 고 주파수 재구성 스테이지(120)에서 상기 고 주파수 재구성을 실행하는데 걸리는 시간을 보상하기 위해 지연 스테이지(260)에 의해 지연된다. 이러한 방법에 있어서, 상기 제 2 파형-코딩된 신호(202) 및 상기 주파수 확장된 신호(203)는, 상기 인터리빙 스테이지(130)가 동일한 시간 프레임에 대응하는 신호들에 대해 동작하도록 정열될 것이다.

상기 인터리빙 스테이지(130)는 이후 단계 D10에서 인터리빙된 신호(204)를 발생시키기위해 상기 제 2 파형-코딩된 신호(202)를 상기 주파수 확장된 신호(203)와 인터리빙, 즉 결합한다. 상기 제 2 파형-코딩된 신호(202)를 상기 주파수 확장된 신호(203)와 인터리빙하는데 상이한 처리 방법이 사용될 수 있다.

한 예시적인 실시예에 따라, 상기 인터리빙 스테이지(130)는 상기 주파수 확장된 신호(203) 및 상기 제 2 파형-코딩된 신호(202)를 합함으로써 상기 주파수 확장된 신호(203)에 상기 제 2 파형-코딩된 신호(202)를 인터리빙한다. 상기 제 2 파형-코딩된 신호(202)의 스펙트럼 콘텐츠는 상기 제 2 파형-코딩된 신호(202)의 스펙트럼 콘텐츠에 대응하는 주파수 범위의 서브세트에 상기 주파수 확장된 신호(203)의 스펙트럼 콘텐츠를 오버랩핑한다. 상기 주파수 확장된 신호(203) 및 상기 제 2 파형-코딩된 신호(202)를 합함으로써, 상기 인터리빙된 신호(204)는 그에 따라 오버랩핑 주파수들에 대해 상기 제 2 파형-코딩된 신호(202)의 스펙트럼 콘텐츠는 물론 상기 주파수 확장된 신호(203)의 스펙트럼 콘텐츠를 구비한다. 상기 합의 결과로서, 상기 인터리빙된 신호(204)의 스펙트럼 엔벨로프 레벨들은 상기 오버랩핑 주파수들에 대해 증가한다. 바람직하게, 이후 개시될 바와 같이, 상기 합으로 인한 스펙트럼 엔벨로프 레벨들의 증가는, 상기 고 주파수 재구성 파라미터들에 구비되는 에너지 엔벨로프 레벨들을 결정할 때, 상기 인코더 측상에서 처리된다. 예를 들면, 상기 오버랩핑 주파수들에 대한 스펙트럼 엔벨로프 레벨들은 상기 디코더 측상에서의 인터리빙으로 인한 스펙트럼 엔벨로프 레벨들에서의 증가에 대응하는 양만큼 상기 인코더 측상에서 감소될 수 있다.

대안적으로, 합으로 인한 스펙트럼 엔벨로프 레벨들에서의 증가는 상기 디코더 측상에서 처리될 수도 있다. 예를 들면, 상기 제 2 파형-코딩된 신호(202)의 에너지를 측정하고, 상기 측정된 에너지를 상기 스펙트럼 엔벨로프 파라미터들에 의해 기술된 타겟 에너지 레벨들에 비교하고, 상기 인터리빙된 신호(204)에 대한 상기 스펙트럼 엔벨로프 레벨들이 상기 타겟 에너지 레벨들과 동일하도록 상기 확장된 주파수 신호(203)를 조정하는 에너지 측정 스테이지가 있을 수 있다.

또 다른 예시적인 실시예에 따라, 상기 인터리빙 스테이지(130)는, 상기 주파수 확장된 신호(203) 및 상기 제 2 파형-코딩된 신호(202)가 오버랩핑되는 주파수들에 대해 상기 주파수 확장된 신호(203)의 스펙트럼 콘텐츠를 상기 제 2 파형-코딩된 신호(202)의 스펙트럼 콘텐츠로 대체함으로써, 상기 주파수 확장된 신호(203)에 상기 제 2 파형-코딩된 신호(202)를 인터리빙한다. 상기 주파수 확장된 신호(203)가 상기 제 2 파형-코딩된 신호(202)로 대체되는 예시적인 실시예들에 있어서, 상기 주파수 확장된 신호(203) 및 상기 제 2 파형-코딩된 신호(202)의 인터리빙을 보상하기 위해 상기 스펙트럼 엔벨로프 레벨들을 조정할 필요는 없다.

상기 고 주파수 재구성 스테이지(120)는 상기 제 1 파형-코딩된 신호(201)를 인코딩하는데 사용됐던 언더라잉 코어 인코더의 샘플링 레이트와 동일한 샘플링 레이트로 바람직하게 동작한다. 이러한 방법에서, 동일한 MDCT와 같은, 동일한 오버랩핑 윈도윙된 변환이 상기 제 1 파형-코딩된 신호(201)를 코딩하는데 사용됐던 것과 같이 상기 제 2 파형-코딩된 신호(202)를 코딩하는데 사용될 수 있다.

상기 인터리빙 스테이지(130)는 또한 상기 수신 스테이지로부터, 바람직하게는 상기 파형 디코딩 스테이지(240), 상기 QMF 분석 스테이지(250), 및 상기 지연 스테이지(260)를 통해, 상기 제 1 파형-코딩된 신호(201)를 수신하고, 상기 제 1 크로스-오버 주파수보다 위는 물론 아래의 주파수들에 대한 스펙트럼 콘텐트를 갖는 결합된 신호(205)를 발생하기 위해 상기 인터리빙된 신호(204)를 상기 제 1 파형-코딩된 신호(201)와 결합하도록 구성될 수 있다.

상기 인터리빙 스테이지(130)로부터의 출력 신호, 즉 상기 인터리빙된 신호(204) 또는 상기 결합된 신호(205)는 이어서 QMF 합성 스테이지(270)에 의해 시간 도메인으로 다시 변환될 수 있다.

바람직하게, 상기 QMF 분석 스테이지(250) 및 상기 QMF 합성 스테이지(270)는 동일한 수의 서브-대역들을 가지며, 이는 상기 QMF 분석 스테이지(250)로 입력되는 신호의 샘플링 레이트가 상기 QMF 합성 스테이지(270)의 출력이 되는 신호의 샘플링 레이트와 동일하다는 것을 의미한다. 결과적으로, 상기 제 1 및 제 2 파형-코딩된 신호들을 파형-코딩하는데 사용됐던 (MDCT를 사용한) 파형-코더는 상기 출력 신호와 동일한 샘플링 레이트에서 동작할 수 있다. 그에 따라, 상기 제 1 및 제 2 파형-코딩된 신호는 동일한 MDCT 변환을 사용함으로써 효과적으로 그리고 구성적으로 용이하게 코딩될 수 있다. 이러한 것은, 상기 파형 코더의 샘플링 레이트가 일반적으로 상기 출력 신호의 샘플링 레이트의 절반으로 제한되고, 후속하는 고 주파수 재구성 모듈이 업-샘플링 및 고 주파수 재구성을 행하게 되는 종래 기술과는 대비되는 것이다. 이러한 것은 전체 출력 주파수 범위를 커버링하는 주파수들을 파형 코딩하는 능력을 제한한다.

도 4는 디코더(400)의 예시적인 실시예를 도시한다. 상기 디코더(400)는 재구성될 입력 오디오 신호에 트랜션트들이 있는 경우에 고 주파수들에 대한 개선된 신호 재구성을 제공하도록 의도된다. 도 4의 예와 도 2의 예 사이의 주요한 차이는 스펙트럼 콘텐트의 형성 및 제 2 파형-코딩된 신호의 기속기간이 된다.

도 4는 시간 프레임의 복수의 후속하는 시간 부분들 동안 디코더(400)의 동작을 도시하며; 여기서는 세 개의 후속하는 시간 부분들이 도시된다. 시간 프레임은 예를 들면 2048 시간 샘플들에 대응할 수 있다. 특히, 제 1 시간 부분 동안, 수신 스테이지(110)는 제 1 크로스-오버 주파수 f_c1까지의 스펙트럼 콘텐트를 갖는 제 1 파형-코딩된 신호(401a)를 수신한다. 상기 제 1 시간 부분 동안에는 제 2 파형-코딩된 신호는 수신되지 않는다.

제 2 시간 부분 동안, 상기 수신 스테이지(110)는 상기 제 1 크로스-오버 주파수 f_c1까지의 스펙트럼 콘텐트를 갖는 제 1 파형-코딩된 신호(401b) 및 제 1 크로스-오버 주파수 f_c1 위의 주파수 범위의 서브세트에 대응하는 스펙트럼 콘텐트를 갖는 제 2 파형-코딩된 신호(402b)를 수신한다. 도 4에 도시된 예에 있어서, 상기 제 2 파형-코딩된 신호(402b)는 상기 제 1 크로스-오버 주파수 f_c1와 제 2 크로스-오버 주파수 f_c2 사이에서 확장하는 주파수 구간에 대응하는 스펙트럼 콘텐트를 갖는다. 상기 제 2 파형-코딩된 신호(402b)는 그에 따라 상기 제 1 크로스-오버 주파수 f_c1와 상기 제 2 크로스-오버 주파수 f_c2 사이의 주파수 대역으로 제한되는 대역-제한 신호가 된다.

제 3 시간 부분 동안, 상기 수신 스테이지(110)는 상기 제 1 크로스-오버 주파수 f_c1까지의 스펙트럼 콘텐트를 갖는 제 1 파형-코딩된 신호(401c)를 갖는다. 상기 제 3 시간 부분 동안에는 제 2 파형-코딩된 신호는 수신되지 않는다.

도시된 상기 제 1 및 상기 제 3 시간 부분들 동안, 제 2 파형-코딩된 신호들은 없다. 이러한 시간 부분들 동안, 상기 디코더는 통상의 SBR 디코더와 같이 고 주파수 재구성을 실행하도록 구성된 통상의 디코더에 따라 동작할 것이다. 상기 고 주파수 재구성 스테이지(120)는 상기 제 1 파형-코딩된 신호들(401a 및 401c)에 기초하여 주파수 확장된 신호들(403a 및 403c)을 각각 발생시킬 것이다. 하지만, 제 2 파형-코딩된 신호들이 없으므로, 상기 인터리빙 스테이지(130)에 의한 인터리빙은 실행되지 않을 것이다.

도시된 제 2 시간 부분 동안에는 제 2 파형-코딩된 신호(402b)가 있게 된다. 상기 제 2 시간 부분 동안, 상기 디코더(400)는 도 2와 관련하여 기술된 바와 동일한 방식으로 동작할 것이다. 특히, 고 주파수 재구성 스테이지(120)는 주파수 확장된 신호(403b)을 발생시키도록 상기 제 1 파형-코딩된 신호 및 상기 고 주파수 재구성 파라미터들에 기초하여 고 주파수 재구성을 실행한다. 상기 주파수 확장된 신호(403b)는 이어서 인터리빙 스테이지(130)로 입력되며, 여기서 상기 주파수 확장된 신호는 상기 제 2 파형-코딩된 신호(402b)와 인터리빙되어 인터리빙된 신호(404b)로 된다. 도 2의 예시적 실시예와 관련하여 기술된 바와 같이, 상기 인터리빙은 합(adding) 및 대체(replacing) 처리 방법을 사용함으로써 실행될 수 있다.

상기한 예에서, 상기 제 1 및 상기 제 3 시간 부분들 동안 제 2 파형-코딩된 신호는 존재하지 않는다. 이들 시간 부분들 동안, 상기 제 2 크로스-오버 주파수는 상기 제 1 크로스-오버 주파수와 동일하며, 인터리빙은 실행되지 않는다. 상기 제 2 시간 프레임 동안, 상기 제 2 크로스-오버 주파수는 상기 제 1 크로스-오버 주파수보다 크며, 인터리빙이 실행된다. 일반적으로, 상기 제 2 크로스-오버 주파수는 그에 따라 시간의 함수로 변화할 수 있다. 특히, 상기 제 2 크로스-오버 주파수는 시간 프레임 내에서 변화할 수 있다. 인터리빙은, 상기 제 2 크로스-오버 주파수가 상기 제 1 크로스-오버 주파수보다 크고, 상기 디코더에 의해 표현된 최대 주파수보다 작을 때 실행될 것이다. 상기 제 2 크로스-오버 주파수가 상기 최대 주파수와 동일한 경우는 순수 파형 코딩에 대응하고, 고 주파수 재구성은 필요치않게 된다.

도 2 및 도 4와 관련하여 기술된 실시예들은 결합될 수 있다는 것을 주지해야 한다. 도 7은 주파수 도메인, 바람직하게는 QMF 도메인과 관련하여 규정된 시간 주파수 매트릭스(700)를 도시하며, 여기서 인터리빙은 인터리빙 스테이지(130)에 의해 실행된다. 상기 도시된 시간 주파수 매트릭스(700)는 디코딩될 오디오 신호의 한 프레임에 대응한다. 도시된 매트릭스(700)는 16개의 시간 슬롯들로 분할되고, 복수의 주파수 서브-대역들은 상기 제 1 크로스-오버 주파수 f_c1로부터 시작한다. 또한 제 8 시간 슬롯 아래의 시간 범위를 커버하는 제 1 시간 범위 T₁, 또한 상기 제 8 시간 슬롯을 커버하는 제 2 시간 범위 T₂, 및 상기 제 8 시간 슬롯 위의 시간 슬롯들을 커버하는 시간 범위 T₃이 도시된다. SBR 데이터의 부분으로서 상이한 스펙트럼 엔벨로프들이 상기 상이한 시간 범위들 T₁ 내지 T₃과 관련될 수 있다.

본 예에 있어서, 주파수 대역들(710 및 720)에서의 두 개의 강력한 토널 구성요소들이 인코더 측상의 오디오 신호에서 식별된다. 상기 주파수 대역들(710 및 720)은 예를 들면 SBR 엔벨로프 대역들과 동일한 대역폭이 될 수 있는데, 즉 동일한 주파수 해상도가 상기 스펙트럼 엔벨로프를 표현하는데 사용된다. 대역들(710 및 720)에서의 이들 토널 성분들은 전체 시간 프레임에 대응하는 시간 범위를 갖지며, 즉 상기 토널 성분들의 시간 범위는 시간 범위들 T₁ 내지 T₃을 포함한다. 인코더 측상에서, 상기 제 1 시간 범위 T₁ 동안 710 및 720의 상기 토널 성분들을 파형-코딩하는 것이 결정되며, 상기 토널 성분(710a 및 720)이 상기 제 1 시간 범위 T₁ 동안 대시 기호로 도시된다. 또한, 인코더 측상에서, 상기 제 2 및 제 3 시간 범위들 T₂ 및 T₃ 동안 도 2의 파라메트릭 고 주파수 구성요소 스테이지(222)와 관련하여 설명된 바와 같은 정현파을 포함함으로써 상기 제 1 토널 성분(710)이 디코더에서 파라미터로 재구성되는 것이 결정된다. 이러한 것은 상기 제 3 시간 범위 T₃ (및 상기 제 2 시간 범위 T₂) 동안 상기 제 1 토널 성분(710b)의 사각형 패턴으로 도시된다. 상기 제 2 및 제 3 시간 범위들 T₂ 및 T₃ 동안, 상기 제 2 토널 성분(720)은 여전히 파형-코딩된다. 또한 본 실시예에서, 상기 제 1 및 제 2 토널 성분들은 합(addition)에 의해 상기 고 주파수 재구성된 오디오 신호와 인터리빙될 것이며, 따라서 상기 인코더는 전송된 스펙트럼 엔벨로프, 그에 따라 상기 SBR 엔벨로프를 조정한다.

추가로, 트랜션트(730)가 상기 인코더 측상에서 오디오 신호에서 식별된다. 상기 트랜션트(730)는 상기 제 2 시간 범위 T₂에 대응하는 지속 시간을 가지며, 상기 제 1 크로스-오버 주파수 f_c1과 제 2 크로스-오버 주파수 f_c2 사이의 주파수 구간에 대응한다. 인코더 측상에서, 상기 트랜션트의 위치에 대응하는 오디오 신호의 시간-주파수 부분을 파형-코딩하는 것이 결정된다. 본 실시예에서, 상기 파형-코딩된 트랜션트의 인터리빙은 대체(replacement)에 의해 행해진다. 시그널링 스킴(signalling scheme)은 상기 디코더에 이러한 정보를 시그널링하도록 셋업된다. 상기 시그널링 스킴은, 어느 시간 범위들 및/또는 상기 제 1 크로스-오버 주파수 f_c1 위의 어느 주파수 범위들에서 제 2 파형-코딩된 신호가 유용하다는 것과 관련한 정보를 구비한다. 상기 시그널링 스킴은 또한 인터리빙이 어떻게 실행될 것인지, 즉 상기 인터리빙이 합(adding)에 의하는지 또는 대체(replacement)에 의하는 것인지에 관한 룰(rule)들과 관련될 수 있다. 상기 시그널링 스킴은 또한 하기에 설명될 바와 같이 상이한 신호들의 합(adding) 또는 대체의 우선순위의 순서를 규정하는 룰들과 관련될 수 있다.

상기 시그널링 스킴은, 각각의 주파수 서브-대역에 대해 정현파가 파라미터로 추가되어야하는지 또는 그렇지 않은지를 나타내는, "추가 정현파"로 라벨링된, 제 1 벡터(740)를 포함한다. 도 7에서, 상기 제 2 및 제 3 시간 범위들 T₂ 및 T₃에서 상기 제 1 토널 성분(710b)의 추가는 상기 제 1 벡터(740)의 대응하는 서브-대역에 대해 "1"로 표기된다. 상기 제 1 벡터(740)를 포함하는 시그널링은 종래 기술에 공지되어 있다. 정현파의 시작을 허용할 때를 위한 종래 기술 디코더에서의 규정된 룰들이 있다. 상기 룰은, 새로운 정현파가 검출되면, 즉 상기 제 1 벡터(740)의 "추가 정현파" 시그널링이 특정 서브대역 동안 한 프레임에서 제로로부터 다음 프레임 1로 진행하면, 그때, 상기 정현파가 트랜션트에서 개시하는 상기 프레임에서의 트랜션트 이벤트가 있지 않는 한, 상기 정현파는 상기 프레임의 시작에서 개시된다. 도시된 예에서는, 상기 주파수 대역(710)에 대해 정현파에 의한 파라메터에 의한 재구성이 트랜션트 이벤트(730) 이후에만 개시되어야하는 이유를 설명하는 상기 프레임에서의 트랜션트 이벤트(730)가 존재한다.

상기 시그널링 스킴은 또한 "파형 코딩"으로 라벨링된, 제 2 벡터(750)를 포함한다. 상기 제 2 벡터(750)는 각각의 주파수 서브-대역에 대해 파형-코딩된 신호가 상기 오디오 신호의 고 주파수 재구성으로 인터리빙하는데 유용한지를 나타낸다. 도 7에서, 상기 제 1 및 상기 제 2 토널 성분(710 및 720)에 대한 파형-코딩된 신호의 유용성이 상기 제 2 벡터(750)의 대응하는 서브-대역에 대해 "1"로 표기된다. 본 예에 있어서, 상기 제 2 벡터(750) 내의 파형-코딩된 데이터의 유용성의 표기는 또한 상기 인터리빙이 추가(addition)에 의해 실행될 것이라는 표기이다. 하지만, 다른 실시예에 있어서는, 상기 제 2 벡터(750) 내의 파형-코딩된 데이터의 유용성의 표기는 상기 인터리빙이 대체(replacement)의 방법에 의해 실행될 것이라는 표기가 될 수도 있다.

상기 시그널링 스킴은 또한 "파형 코딩"으로 라벨링된 제 3 벡터(760)를 포함한다. 상기 제 3 벡터(760)는 각각의 시간 슬롯에 대해 파형-코딩된 신호가 상기 오디오 신호의 고 주파수 재구성으로 인터리빙하는데 대한 유용한지를 나타낸다. 도 7에서, 상기 트랜션트(730)에 대해 파형-코딩된 신호의 유용성은 상기 제 3 벡터(760)의 대응하는 시간 슬롯에 대해 "1"로 표기된다. 본 예에서, 상기 제 3 벡터(760)에서 파형-코딩된 데이터의 유용성의 표기는 또한 상기 인터리빙이 대체의 방법에 의해 실행될 것이라는 표기이다. 하지만, 다른 실시예에 있어서는, 상기 제 3 벡터(750) 내의 파형-코딩된 데이터의 유용성의 표기는 상기 인터리빙이 추가의 방법에 방법에 의해 실행될 것이라는 표기가 될 수도 있다.

상기 제 1, 상기 제 2 및 상기 제 3 벡터(740, 750, 760)를 어떻게 구현할지에 대한 많은 대안들이 존재한다. 일부 실시예들에서, 상기 벡터들(740, 750, 760)은 그들의 표기를 제공하기 위해 논리 0 또는 논리 1을 제공하는 2진 벡터들이 된다. 일부 다른 실시예들에서, 상기 벡터들(740, 750, 760)은 상이한 형태를 취할 수도 있다. 예를 들면, 상기 벡터에서 "0"과 같은 제 1 값은 특정 주파수 대역 또는 시간 슬롯에 대해 파형-코딩된 데이터가 유용하지 않다는 것을 나타낼 수 있다. 상기 벡터에서 "1"과 같은 제 2 값은 상기 특정 주파수 대역 또는 시간 슬롯에 대해 합의 방법에 의해 인터리빙이 실행될 것이라는 것을 나타낼 수 있다. 상기 벡터에서 "2"과 같은 제 3 값은 상기 특정 주파수 대역 또는 시간 슬롯에 대해 대체의 방법에 의해 인터리빙이 실행될 것이라는 것을 나타낼 수 있다.

상기한 예시적인 시그널링 스킴은 또한 충돌(conflict)의 경우에 적용될 수 있는 우선순위의 순서와 관련될 수 있다. 예로서, 대체의 방법에 의한 트랜션트의 인터리빙을 나타내는 상기 제 3 벡터(760)가 상기 제 1 및 제 2 벡터들(740 및 750)보다 우선할 수 있다. 또한, 상기 1 벡터(740)가 상기 제 2 벡터(750)보다 우선할 수 있다. 벡터들(740, 750, 760) 간의 어떠한 우선순위의 순서도 규정될 수 있다는 것이 이해되어야 한다.

도 8a는 도 1의 인터리빙 스테이지(130)를 보다 상세히 도시한다. 상기 인터리빙 스테이지(130)는 시그널링 디코딩 구성요소(1301), 결정 로직 구성요소(1302) 및 인터리빙 구성요소(1303)를 구비할 수 있다. 상술한 바와 같이, 상기 인터리빙 스테이지(130)는 제 2 파형-코딩된 신호(802) 및 주파수 확장된 신호(803)를 수신한다. 상기 인터리빙 스테이지(130)는 또한 제어 신호(805)를 수신할 수 있다. 상기 시그널링 디코딩 구성요소(1301)는 도 7과 관련하여 기술된 시그널링 스킴의 제 1 벡터(740), 제 2 벡터(750) 및 제 3 벡터(760)에 대응하는 세 개의 부분들로 상기 제어 신호(805)를 디코딩한다. 이들은 상기 결정 로직 구성요소(1302)로 보내지며, 로직(logic)에 기초하여 상기 QMF 프레임에 대해 시간/주파수 매트릭스(870)를 생성하고, 이는 상기 제 2 파형-코딩된 신호(802) 및 상기 주파수 확장된 신호(803)의 어느 것이 어느 시간/주파수 타일에 대해 사용하는지를 나타낸다. 상기 시간/주파수 매트릭스(870)는 상기 인터리빙 구성요소(1303)로 전송되고, 상기 제 2 파형-코딩된 신호(802)를 상기 주파수 확장된 신호(803)와 인터리빙할 때 사용된다.

상기 결정 로직 구성요소(1302)는 도 8b에 더욱 상세히 도시된다. 상기 결정 로직 구성요소(1302)는 시간/주파수 매트릭스 발생 구성요소(13021) 및 우선순위선정 구성요소(13022)를 구비할 수 있다. 상기 시간/주파수 발생 구성요소(13021)는 현재의 QMF 프레임에 대응하는 시간/주파수 타일들을 갖는 시간/주파수 매트릭스(870)를 발생한다. 상기 시간/주파수 발생 구성요소(13021)는 상기 시간/주파수 매트릭스에 대한 상기 제 1 벡터(740), 상기 제 2 벡터(750) 및 상기 제 3 벡터(760)로부터의 정보를 포함한다. 예를 들면, 도 7에 도시된 바와 같이, 어떤 주파수에 대해 상기 제 2 벡터(750)에서 "1" (또는 더욱 일반적으로는 제로와는 다른 어떤 수)이 있다면, 상기 어떤 주파수에 대응하는 시간/주파수 타일들은 상기 시간/주파수 매트릭스(870)에서 "1"(또는 더욱 일반적으로는 상기 벡터(750)에 존재하는 수)로 설정되며, 이는 상기 제 2 파형-코딩된 신호(802)와의 인터리빙이 그 시간/주파수 타일들에 대해 실행될 것이라는 것을 나타낸다. 유사하게, 어떤 시간 슬롯에 대해 상기 제 3 벡터(760)에서 "1" (또는 더욱 일반적으로는 제로와는 다른 어떤 수)이 있다면, 상기 어떤 시간 슬롯에 대응하는 시간/주파수 타일들은 상기 시간/주파수 매트릭스(870)에서 "1"(또는 더욱 일반적으로는 제로와는 다른 어떤 수)로 설정되며, 이는 상기 제 2 파형-코딩된 신호(802)와의 인터리빙이 그 시간/주파수 타일들에 대해 실행될 것이라는 것을 나타낸다. 유사하게, 어떤 주파수에 대해 상기 제 1 벡터(740)에서 "1"이 있다면, 상기 어떤 주파수에 대응하는 시간/주파수 타일들은 상기 시간/주파수 매트릭스(870)에서 "1"로 설정되며, 이는 상기 출력 신호(804)가 상기 주파수 확장된 신호(803)에 기초하게 된다는 것을 나타내며, 여기서 상기 어떤 주파수는 예를 들면 정현파 신호를 포함함으로써 파라미터로 재구성된다.

일부 시간/주파수 타일들에 대해, 상기 1 벡터(740), 상기 제 2 벡터(750) 및 상기 제 3 벡터(760) 사이에 충돌이 있을 것이며, 이는 상기 벡터들(740-760) 중 하나 이상이 상기 시간/주파수 매트릭스(870)의 동일한 시간/주파수 타일에 대해 "1"과 같은 제로와는 다른 수를 나타낸다는 것을 의미한다. 그러한 상황에서, 상기 우선순위선정 구성요소(13022)는 상기 시간/주파수 매트릭스(870)에서의 충돌들을 제거하기 위해 상기 벡터들로부터의 정보에 대해 어떻게 우선순위를 정할지 결정하는게 필요하다. 더 정확하게는, 상기 우선순위선정 구성요소(13022)는 상기 출력 신호(804)가 상기 주파수 확장된 신호(803)에 기초하는지(그에 따라 상기 제 1 벡터(740)에 대한 우선순위를 제공), 주파수 방향에서의 상기 제 2 파형-코딩된 신호(802)의 인터리빙에 의한 것이지(그에 따라 상기 제 2 벡터(750)에 대한 우선순위를 제공) 또는 시간 방향에서의 상기 제 2 파형-코딩된 신호(802)의 인터리빙에 의한 것인지(그에 따라 상기 제 3 벡터(750)에 대한 우선순위를 제공)를 결정한다.

이러한 목적을 위해, 상기 우선순위선정 구성요소(13022)는 상기 벡터들(740-760)의 우선순위의 순서에 관련한 사전 규정된 룰들을 구비한다. 상기 우선순위선정 구성요소(13022)는 상기 인터리빙이 어떻게 실행될 것인지, 즉 상기 인터리빙이 합에 의하거나 또는 대체에 의해 실행될 것인지에 관련한 미리 규정된 룰들을 구비할 수 있다.

바람직하게 이들 룰들은 다음과 같다:

·상기 시간 방향에서의 인터리빙, 즉 상기 제 3 벡터(760)에 의해 규정된 바와 같은 인터리빙이 가장 높은 우선순위로 주어진다. 상기 시간 방향에서의 인터리빙은 바람직하게 상기 제 3 벡터(760)에 의해 규정된 그 시간/주파수 타일들에서 상기 주파수 확장된 신호(803)를 대체함으로써 실행될 수 있다. 상기 제 3 벡터(760)의 시간 해상도는 상기 QMF 프레임의 시간 슬롯에 대응한다. 만일 상기 QMF 프레임이 2048 시간-도메인 샘플들에 대응한다면, 시간 슬롯은 일반적으로 128 시간-도메인 샘플들에 대응할 수 있다.

·주파수들의 파라메트릭 재구성, 즉, 상기 제 1 벡터(740)에 의해 규정된 바와 같은 상기 주파수 확장된 신호(803)의 사용이 두 번째로 높은 우선순위로 주어진다. 상기 제 1 벡터(740)의 주파수 해상도는 SBR 엔벨로프 대역과 같은 상기 QMF 프레임의 주파수 해상도이다. 상기 제 1 벡터(740)의 시그널링 및 해석과 관련한 종래 기술의 룰들은 유효하게 유지된다.

·상기 주파수 방향에서의 인터리빙, 즉 상기 제 2 벡터(750)에 의해 규정된 바와 같은 인터리빙이 가장 하위의 우선순위로 주어진다. 상기 주파수 방향에서의 인터리빙은 상기 제 2 벡터(750)에 의해 규정된 그 시간/주파수 타일들에서 상기 주파수 확장된 신호(803)를 추가함으로써 실행된다. 상기 제 2 벡터(750)의 주파수 해상도는 SBR 엔벨로프 대역과 같은 상기 QMF 프레임의 주파수 해상도에 대응한다.

III. 예시적 실시예 - 인코더

도 5는 오디오 프로세싱 시스템에서 사용하기에 적합한 인코더(500)의 예시적인 실시예를 도시한다. 상기 인코더(500)는 수신 스테이지(510), 파형 인코딩 스테이지(520), 고 주파수 인코딩 스테이지(530), 인터리브 코딩 검출 스테이지(540), 및 전송 스테이지(550)를 구비한다. 상기 고 주파수 인코딩 스테이지(530)는 고 주파수 재구성 파라미터 산출 스테이지(530a) 및 고 주파수 재구성 파라미터 조정 스테이지(530b)를 구비할 수 있다.

상기 인코더(500)의 동작은 도 5 및 도 6의 흐름도를 참조하여 하기에 설명된다. 단계 E02에서, 상기 수신 스테이지(510)는 인코딩될 오디오 신호를 수신한다.

상기 수신된 오디오 신호는 상기 고 주파수 인코딩 스테이지(530)에 입력된다. 상기 수신된 오디오 신호에 기초하여, 상기 고 주파수 인코딩 스테이지(530), 특히 상기 고 주파수 재구성 파라미터 산출 스테이지(530a)는 단계 E04에서 제 1 크로스-오버 주파수 f_c 위의 상기 수신된 오디오 신호의 고 주파수 재구성을 가능하게 하는 고 주파수 재구성 파라미터들을 산출한다. 상기 고 주파수 재구성 파라미터 산출 스테이지(530a)는 SBR 인코딩과 같은 상기 고 주파수 재구성 파라미터들을 산출하기 위한 어떠한 공지된 기술도 사용할 수 있다. 상기 고 주파수 인코딩 스테이지(530)는 일반적으로 QMF 도메인에서 동작한다. 따라서, 상기 고 주파수 재구성 파라미터들을 산출하기 전에, 상기 고 주파수 인코딩 스테이지(530)는 상기 수신된 오디오 신호의 QMF 분석을 실행할 수 있다. 결과적으로, 상기 고 주파수 재구성 파라미터들은 QMF 도메인과 관련하여 규정된다.

상기 산출된 고 주파수 재구성 파라미터들은 고 주파수 재구성과 관련한 복수의 파라미터들을 구비할 수 있다. 예를 들면, 상기 고 주파수 재구성 파라미터들은 상기 제 1 크로스-오버 주파수 f_c 아래의 주파수 범위의 서브-대역 부분들로부터 상기 제 1 크로스-오버 주파수 f_c 위의 주파수 범위의 서브-대역 부분들까지 상기 오디오 신호를 어떻게 미러(mirror) 또는 카피(copy)하는지에 관한 파라미터들을 구비할 수 있다. 그러한 파라미터들은 때때로 패치 구조(patch strcture)를 기술하는 파라미터들로서 참조된다.

상기 고 주파수 재구성 파라미터들은 또한 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브-대역 부분들의 타겟 에너지 레벨들을 기술하는 스펙트럼 엔벨로프 파라미터들을 구비할 수 있다.

상기 고 주파수 재구성 파라미터들은 또한 상기 패치 구조를 기술하는 파라미터들을 사용하여 상기 제 1 크로스-오버 주파수 위의 주파수 범위에서 상기 오디오 신호가 재구성되는 경우 누락하게(missing) 될 강력한 토널 성분들 또는 고조파를 나타내는 누락 고조파 파라미터들을 구비할 수 있다.

상기 인터리브 코딩 검출 스테이지(540)는 이후 단계 E06에서 상기 수신된 오디오 신호의 스펙트럼 콘텐트가 파형-코딩될 상기 제 1 크로스-오버 주파수 f_c 위의 주파수 범위의 서브세트를 식별한다. 다시 말해서, 상기 인터리브 코딩 검출 스테이지(540)의 역할은 고 주파수 재구성이 바람직한 결과를 제공하지 않게 되는 상기 제 1 크로스-오버 주파수 위의 주파수들을 식별한다.

상기 인터리브 코딩 검출 스테이지(540)는 상기 제 1 크로스-오버 주파수 f_c 위의 주파수 범위의 관련 서브세트를 식별하기 위한 상이한 처리방법을 취할 수 있다. 예를 들면, 상기 인터리브 코딩 검출 스테이지(540)는 상기 고 주파수 재구성에 의해 용이하게 재구성되지 않을 강력한 토널 성분들을 식별할 수 있다. 강력한 토널 성분들의 식별은 예를 들면 주파수의 함수로서 상기 오디오 신호의 에너지를 결정하고 강력한 토널 성분들을 구비하는 것으로서 높은 에너지를 갖는 주파수들을 식별함으로써 상기 수신된 오디오 신호에 기초할 수 있다. 또한, 상기 식별은, 상기 수신된 오디오 신호가 상기 디코더에서 어떻게 재구성될지에 대한 지식에 기초할 수 있다. 특히, 그러한 식별은, 상기 수신된 오디오 신호의 토낼러티 정도(tonality measure)와 상기 제 1 크로스-오버 주파수 위의 주파수 대역들에 대한 상기 수신된 오디오 신호의 재구성의 토낼러티 정도의 비가 되는 토낼러티 쿼터(tonality quotas)에 기초할 수 있다. 높은 토낼러티 쿼터는 상기 오디오 신호가 상기 토낼러티 쿼터에 대응하는 주파수에 대해 용이하게 재구성되지 않을 것이라는 것을 나타낸다.

상기 인터리브 코딩 검출 스테이지(540)는 또한 상기 고 주파수 재구성에 의해 용이하게 재구성되지 않을 상기 수신된 오디오 신호 내의 트랜션트를 검출할 수 있다. 그러한 식별은 상기 수신된 오디오 신호의 시간-주파수 분석의 결과가 될 수 있다. 예를 들면, 트랜션트가 발생하는 시간-주파수 구간이 상기 수신된 오디오 신호의 스펙트로그램으로부터 검출될 수 있다. 그러한 시간-주파수 구간은 일반적으로 상기 수신된 오디오 신호의 시간 프레임보다 짧은 시간 범위를 갖는다. 대응하는 주파수 범위는 일반적으로 제 2 크로스-오버 주파수로 확장하는 주파수 구간에 대응한다. 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브세트는 따라서 상기 제 1 크로스-오버 주파수로부터 상기 제 2 크로스-오버 주파수까지 확장하는 간격으로서 상기 인터리브 코딩 검출 스테이지(540)에 의해 식별될 수 있다.

상기 인터리브 코딩 검출 스테이지(540)는 또한 상기 고 주파수 재구성 파라미터 산출 스테이지(530a)로부터 고 주파수 재구성 파라미터들을 수신할 수 있다. 상기 고 주파수 재구성 파라미터들로부터의 누락 고조파 파라미터들에 기초하여, 상기 인터리브 코딩 검출 스테이지(540)는 누락 고조파의 주파수들을 식별하고, 상기 제 1 크로스-오버 주파수 f_c 위의 주파수 범위의 상기 식별된 서브세트에 상기 누락 고조파의 주파수들의 적어도 일부를 포함하도록 결정할 수 있다. 그러한 처리 방법은 파라메트릭 모델의 제한들 내에서 정확하게 모델링될 수 없는 상기 오디오 신호내의 강력한 토널 성분이 있는 경우 바람직할 수 있다.

상기 수신된 오디오 신호는 또한 상기 파형 인코딩 스테이지(520)에 입력된다. 상기 파형 인코딩 스테이지(520)는 단계 E08에서 상기 수신된 오디오 신호의 파형 인코딩을 실행한다. 특히, 상기 파형 인코딩 스테이지(520)는 상기 제 1 크로스-오버 주파수 f_c까지 스펙트럼 대역들에 대해 오디오 신호를 파형-코딩함으로써 제 1 파형-코딩된 신호를 발생한다. 또한, 상기 파형 인코딩 스테이지(520)는 상기 인터리브 코딩 검출 스테이지(540)로부터 상기 식별된 서브세트를 수신한다. 상기 파형 인코딩 스테이지(520)는 이후 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 상기 식별된 서브세트에 대응하는 스펙트럼 대역들에 대해 상기 수신된 오디오 신호를 파형-코딩함으로써 제 2 파형-코딩된 신호를 발생한다. 상기 제 2 파형-코딩된 신호는 따라서 상기 제 1 크로스-오버 주파수 f_c 이상의 주파수 범위의 상기 식별된 서브세트에 대응하는 스펙트럼 콘텐트를 갖게 될 것이다.

예시적인 실시예들에 따라, 상기 파형 인코딩 스테이지(520)는 먼저 모든 스펙트럼 대역들에 대해 상기 수신된 오디오 신호를 파형-코딩하고, 이후 상기 제 1 크로스-오버 주파수 f_c 이상의 주파수들의 상기 식별된 서브세트에 대응하는 주파수들에 대해 상기 파형-코딩된 신호의 스펙트럼 콘텐트를 제거함으로써 상기 제 1 및 상기 제 2 파형-코딩된 신호들을 발생시킬 수 있다.

상기 파형 인코딩 스테이지는 예를 들면 MDCT 필터 뱅크와 같이 오버랩핑 윈도윙된 변환 필터 뱅크를 사용하여 파형 코딩을 실행할 수 있다. 그러한 오버랩핑 윈도윙된 변환 필터 뱅크들은 어떤 시간적 길이를 갖는 윈도우들을 사용하며, 하나의 시간 프레임에서 변환된 신호의 값들이 이전의 및 다음의 시간 프레임에서 상기 신호의 값들에 의해 영향받게 되도록 한다. 이러한 사실의 효과를 감소하기 위하여, 어떤 양의 시간적 오버-코딩을 실행하는 것이 유익할 수 있으며, 이는 상기 파형-코딩 스테이지(520)가 상기 수신된 오디오 신호의 현재 시간 프레임뿐만 아니라 상기 수신된 오디오 신호의 이전의 및 다음의 시간 프레임을 파형-코딩한다는 것을 의미한다. 유사하게, 또한 상기 고 주파수 인코딩 스테이지(530)는 상기 수신된 오디오 신호의 현재 시간 프레임뿐만 아니라 상기 수신된 오디오 신호의 이전의 및 다음의 시간 프레임을 인코딩할 수 있다. 이러한 방법에서, 상기 오디오 신호의 고 주파수 재구성과 상기 제 2 파형-코딩된 신호 사이에서의 개선된 크로스-페이드(cross-fade)가 상기 QMF 도메인에서 달성될 수 있다. 또한, 이러한 것은 스펙트럼 엔벨로프 데이터 보더들의 조정에 대한 필요성을 줄이게 된다.

상기 제 1 및 제 2 파형-코딩된 신호들은 별개의 신호들이 될 수 있다는 것을 주의해야한다. 하지만, 바람직하게 이들은 공통 신호의 제 1 및 제 2 파형-코딩된 신호 부분들을 형성한다. 그렇다면, 이들은 단일 MDCT 변환을 상기 수신된 오디오 신호에 적용하는 것과 같이 상기 수신된 오디오 신호상에서 단일의 파형-인코딩 동작을 실행함으로써 발생될 수 있다.

상기 고 주파수 인코딩 스테이지(530), 특히 상기 고 주파수 재구성 파라미터 조정 스테이지(530b)는 또한 상기 제 1 크로스-오버 주파수 f_c 위의 주파수 범위의 상기 식별된 서브세트를 수신할 수 있다. 상기 수신된 데이터에 기초하여 상기 고 주파수 재구성 파라미터 조정 스테이지(530b)는 단계 E10에서 상기 고 주파수 재구성 파라미터들을 조정할 수 있다. 특히, 상기 고 주파수 재구성 파라미터 조정 스테이지(530b)는 상기 식별된 서브세트에 구비된 스펙트럼 대역들에 대응하는 고 주파수 재구성 파라미터들을 조정할 수 있다.

예를 들면, 상기 고 주파수 재구성 파라미터 조정 스테이지(530b)는 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브-대역 부분들의 타겟 에너지 레벨들을 기술하는 스펙트럼 엔벨로프 파라미터들을 조정할 수 있다. 이러한 것은, 이후 제 2 파형-코딩된 신호의 에너지가 고 주파수 재구성의 에너지에 부가될 것이므로, 상기 제 2 파형-코딩된 신호가 디코더에서 상기 오디오 신호의 고 주파수 재구성에 부가될 것인지와 특히 관련한다. 그러한 부가(addition)를 보상하기 위해서, 상기 고 주파수 재구성 파라미터 조정 스테이지(530b)는 상기 제 1 크로스-오버 주파수 f_c 위의 주파수 범위의 식별된 서브세트에 대응하는 스펙트럼 대역들에 대한 타겟 에너지 레벨들로부터 상기 제 2 파형-코딩된 신호의 측정된 에너지를 감함으로써 상기 에너지 엔벨로프 파라미터들을 조정할 수 있다. 이러한 방법에서, 총 신호 에너지는, 상기 제 2 파형-코딩된 신호 및 상기 고 주파수 재구성이 상기 디코더에서 합해질(added) 때 보존될 수 있다. 상기 제 2 파형-코딩된 신호의 에너지는 예를 들면 상기 인터리브 코딩 검출 스테이지(540)에 의해 측정될 수 있다.

상기 고 주파수 재구성 파라미터 조정 스테이지(530b)는 또한 누락 고조파 파라미터들을 조정할 수 있다. 특히, 상기 누락 고조파 파라미터들에 의해 표시되는 누락 고조파를 구비하는 서브-대역이 상기 제 1 크로스-오버 주파수 f_c 위의 주파수 범위의 식별된 서브세트의 일부라면, 그 서브-대역은 상기 파형 인코딩 스테이지(520)에 의해 파형 코딩될 것이다. 따라서, 상기 고 주파수 재구성 파라미터 조정 스테이지(530b)는, 그러한 누락 고조파가 상기 디코더 측에서 파라미터로 재구성될 필요는 없으므로, 상기 누락 고조파 파라미터들로부터 그러한 누락 고조파를 제거할 수 있다.

이후 상기 전송 스테이지(550)는 상기 파형 인코딩 스테이지(520)로부터 제 1 및 제 2 파형 코딩된 신호를 수신하고, 상기 고 주파수 인코딩 스테이지(530)로부터 고 주파수 재구성 파라미터들을 수신한다. 상기 전송 스테이지(550)는 상기 수신된 데이터를 디코더로 전송하기 위한 비트 스트림으로 포맷한다.

상기 인터리브 코딩 검출 스테이지(540)는 또한 상기 비트 스트림에 포함하기 위한 정보를 상기 전송 스테이지(550)로 시그널링할 수 있다. 특히, 상기 인터리브 코딩 검출 스테이지(540)는, 인터리빙의 실행이 신호들의 합(addition)에 의한 것인지 또는 상기 신호들 중 하나가 다른 것으로 대체되는 것에 의한 것인지, 및 어떤 주파수 범위에 대해 그리고 어떤 시간 간격에 대해 상기 파형 코딩된 신호들이 인터리빙되어야 하는지와 같이, 상기 제 2 파형-코딩된 신호가 상기 오디오 신호의 고 주파수 재구성으로 어떻게 인터리빙될 것인지를 시그널링한다. 예를 들면, 상기 시그널링은 도 7을 참조하여 기술된 시그널링 스킴을 사용하여 실행될 수 있다.

등가물, 확장, 대체물 및 기타

본 개시의 추가적인 실시예들은 상기한 명세서를 학습한 후라면 당 기술분야에 숙련된 사람들에게는 명백할 것이다. 비록 본 명세서 및 도면들이 실시예들 및 예들을 개시하고는 있지만, 이러한 개시는 이들 특정 예들에 제한되지 않는다. 다양한 수정과 변경들이 첨부된 청구범위에 의해 정의된 본 개시의 범위를 벗어나지 않고서 이루어질 수 있다. 청구범위에 나타나있는 어떠한 참조 부호들도 그 범위를 제한하는 것으로 이해되어서는 안 된다.

부가적으로, 개시된 실시예들에 대한 변형들은 도면들, 개시된 내용 및 첨부된 청구범위를 학습하여, 본 개시를 실천함으로써 당업자에 의해 이해될 수 있으며 그 결과가 얻어질 수 있다. 청구범위에 있어서, 용어 "구비하다"는 다른 요소들 또는 단계들을 배제하지 않으며, 복수의 표현이 아닌 것도 복수를 배제하지 않는다. 임의의 측정치들이 상호 상이한 종속 청구항들에서 인용되는 단순한 사실은 이들 측정된 것들의 조합이 유익하게 사용될 수 없다는 것을 나타내는 것은 아니다.

본 명세서에서 개시된 시스템들 및 방법들은 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로 구현될 수 있다. 하드웨어 구현에 있어서, 상기한 설명에서 참조되는 기능 유닛들 간의 작업의 분할은 물리적 유닛들로의 분할에 반드시 대응하는 것은 아니며; 대조적으로, 하나의 물리적 성분은 복수의 기능들을 가질 수 있고, 하나의 작업은 몇몇의 물리적 성분들이 협력하여 실행될 수 있다. 임의의 성분들 또는 모든 성분들은 디지털 신호 프로세서 또는 마이크로프로세서에 의해 실행되는 소프트웨어로서 구현될 수 있으며, 하드웨어로서 또는 어플리케이션 특정의 집적 회로로서 구현될 수 있다. 그러한 소프트웨어는, 컴퓨터 저장 매체(또는 비-일시적 매체) 및 통신 매체(또는 일시적 매체)를 구비할 수 있는, 컴퓨터 판독가능 매체 상에 분포될 수 있다. 당 기술분야에 숙련된 사람에게 공지된 바와 같이, 용어 "컴퓨터 저장 매체"는, 컴퓨터 판독 가능한 지시들, 데이터 구조들, 프로그램 모듈들 또는 다른 데이터와 같은 정보 저장을 위한 어떠한 방법 또는 기술로 구현될 수 있는 휘발성과 비휘발성, 제거와 제거 불가능한 양쪽 모두의 매체를 포함한다. 컴퓨터 저장 매체는, 이에 제한되지는 않지만, RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다기능 디스크(DVD) 또는 다른 광학 디스크 저장장치, 자기 카세트, 자기 테입, 자기 디스크 저장장치 또는 다른 자기 저장 디바이스, 또는 원하는 정보를 저장할 수 있으며 컴퓨터에 의해 액세스될 수 있는 어떠한 다른 매체도 포함한다. 또한, 통신 매체는 통상 컴퓨터 판독가능한 지시들, 데이터 구조들, 프로그램 모듈들 또는 반송파 또는 다른 전달 메카니즘과 같은 변조된 데이터 신호 내의 다른 데이터를 포함하며, 어떠한 정보 전달 매체도 포함한다는 것은 당업자에게는 널리 알려진 것이다.

100: 디코더
110: 수신 스테이지
120: 고 주파수 재구성 스테이지
130: 인터리빙 스테이지

Claims

오디오 프로세싱 시스템에서 오디오 신호를 디코딩하는 방법에 있어서,
제 1 크로스-오버 주파수까지 스펙트럼 콘텐트를 갖는 제 1 파형-코딩된 신호를 수신하는 단계;
상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브세트에 대응하는 스펙트럼 콘텐트를 가지는 제 2 파형-코딩된 신호를 수신하는 단계;
상기 제 2 파형-코딩된 신호가 이용가능한, 하나 이상의 시간 범위들 또는 상기 제 1 크로스-오버 주파수 위의 하나 이상의 주파수 범위들에 관한 데이터를 포함하는 제어 신호를 수신하는 단계;
고 주파수 재구성 파라미터들을 수신하는 단계;
상기 제 1 크로스-오버 주파수 위의 스펙트럼 콘텐트를 가지는 주파수 확장된 신호를 생성하기 위해, 상기 제 1 파형-코딩된 신호 및 상기 고 주파수 재구성 파라미터들의 적어도 일부를 이용하여 고 주파수 재구성을 수행하는 단계; 및
상기 제어 신호에 기초하여 상기 주파수 확장된 신호에 상기 제 2 파형-코딩된 신호를 인터리빙하는 단계;를 포함하는 방법.
제 1 항에 있어서,
상기 제 2 파형-코딩된 신호의 스펙트럼 콘텐트는 시변(time-variable) 상한(upper bound)을 가지는, 디코딩 방법.
제 1 항에 있어서,
상기 주파수 확장된 신호, 상기 제 2 파형-코딩된 신호 및 상기 제 1 파형-코딩된 신호를 결합하여 모든 대역 오디오 신호를 형성하는 단계를 더 포함하는 디코딩 방법.
제 1 항에 있어서,
상기 고 주파수 재구성을 수행하는 단계는, 낮은 주파수 대역을 더 높은 주파수 대역으로 카피하는 단계;를 포함하는, 디코딩 방법.
제 1 항에 있어서, 상기 고 주파수 재구성을 수행하는 단계는 주파수 도메인에서 수행되는, 디코딩 방법.
제 1 항에 있어서, 상기 주파수 확장된 신호를 상기 제 2 파형-코딩된 신호를 인터리빙하는 단계는 주파수 도메인에서 수행되는, 디코딩 방법.
제 5 항에 있어서, 상기 주파수 도메인은 QMF(Quadrature Mirror Filters) 도메인인, 디코딩 방법.
제 1 항에 있어서,
상기 수신된 제 1 및 제 2 파형-코딩된 신호는 동일한 MDCT 변환을 사용하여 코딩되는, 디코딩 방법.
제 1 항에 있어서,
상기 주파수 확장된 신호의 상기 스펙트럼 엔벨로프(spectral envelope)를 조정하기 위하여, 상기 고 주파수 재구성 파라미터들에 따라 상기 주파수 확장된 신호의 스펙트럼 콘텐트를 조정하는 단계;를 더 포함하는, 디코딩 방법.
제 1 항에 있어서, 상기 인터리빙 단계는,
상기 제 2 파형-코딩된 신호를 상기 주파수 확장된 신호에 부가하는 단계;를 포함하는, 디코딩 방법.
제 1 항에 있어서, 상기 인터리빙 단계는,
상기 제 2 파형-코딩된 신호의 스펙트럼 콘텐트에 대응하는 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브세트에서 상기 제 2 파형-코딩된 신호의 스펙트럼 콘텐트로 상기 주파수 확장된 신호의 스펙트럼 콘텐트를 대체하는 단계;를 포함하는, 디코딩 방법.
제 1 항에 있어서, 상기 제 1 파형-코딩된 신호 및 상기 제 2 파형-코딩된 신호는 공통 신호의 제 1 및 제 2 신호 부분들을 형성하는, 디코딩 방법.
제 1 항에 있어서, 상기 제어 신호는,
상기 제 2 파형-코딩된 신호가 상기 주파수 확장된 신호와 인터리빙하는데 이용가능한 상기 제 1 크로스-오버 주파수 위의 하나 이상의 주파수 범위들을 나타내는 제 2 벡터 및 상기 제 2 파형-코딩된 신호가 상기 주파수 확장된 신호와 인터리빙하는데 이용가능한 하나 이상의 시간 범위들을 나타내는 제 3 벡터 중 적어도 하나를 포함하는, 디코딩 방법
제 1 항에 있어서, 상기 제어 신호는,
상기 고 주파수 재구성 파라미터들에 기초하여 파라미터로 재구성될 상기 제 1 크로스-오버 주파수 위의 하나 이상의 주파수 범위들을 나타내는 제 1 벡터를 포함하는, 디코딩 방법.
제 1 항의 방법을 실행하기 위한 지시들을 갖는 컴퓨터 프로그램을 기록한 비-일시적 컴퓨터 판독가능한 기록 매체.
인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더에 있어서:
제 1 크로스-오버 주파수까지 스펙트럼 콘텐트를 갖는 제 1 파형-코딩된 신호, 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브세트에 대응하는 스펙트럼 콘텐트를 가지는 제 2 파형-코딩된 신호, 시간 범위들 또는 상기 제 2 파형-코딩된 신호가 이용가능한 상기 제 1 크로스-오버 주파수 위의 하나 이상의 주파수 범위들에 관한 데이터를 포함하는 제어 신호 및 고 주파수 재구성 파라미터들을 수신하는 입력 인터페이스;
상기 입력 인터페이스로부터 상기 제 1 파형-코딩된 신호 및 상기 고 주파수 재구성 파라미터들을 수신하고, 상기 제 1 크로스-오버 주파수 위의 스펙트럼 콘텐트를 가지는 주파수 확장된 신호를 생성하기 위해, 상기 제 1 파형-코딩된 신호 및 상기 고 주파수 재구성 파라미터들의 적어도 일부를 이용하여 고 주파수 재구성을 수행하는 고 주파수 재구성기; 및
상기 고 주파수 재구성기로부터 상기 주파수 확장된 신호를, 상기 입력 인터페이스로부터 상기 제 2 파형-코딩된 신호를 수신하고, 상기 제어 신호에 기초하여 상기 주파수 확장된 신호에 상기 제 2 파형-코딩된 신호를 인터리빙하는 인터리버;를 포함하는 오디오 디코더.
오디오 프로세싱 시스템에서의 인코딩 방법에 있어서:
인코딩될 오디오 신호를 수신하는 단계;
상기 수신된 오디오 신호에 기초하여, 제 1 크로스-오버 주파수 위의 상기 수신된 오디오 신호의 고 주파수 재구성을 가능하게 하는 고 주파수 재구성 파라미터들을 계산하는 단계;
상기 수신된 오디오 신호에 기초하여, 상기 수신된 오디오 신호의 스펙트럼 콘텐트가 파형-코딩되고, 이어서 디코더에서 상기 오디오 신호의 고 주파수 재구성으로 인터리빙될, 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브세트를 식별하는 단계; 및
상기 제 1 크로스-오버 주파수까지의 스펙트럼 대역들에 대하여 상기 수신된 오디오 신호를 파형-코딩함으로써 제 1 파형-코딩된 신호를 생성하고, 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 상기 식별된 서브세트에 대응하는 스펙트럼 대역들에 대하여 상기 수신된 오디오 신호를 파형-코딩함으로써 제 2 파형-코딩된 신호를 생성하고, 하나 이상의 시간 범위 또는 상기 제 2 파형-코딩된 신호가 이용가능한 상기 제 1 크로스-오버 주파수 위의 하나 이상의 주파수 범위들과 관한 데이터를 포함하는 제어 신호를 생성하는 단계;를 포함하는 인코딩 방법.
제 17 항에 있어서,
상기 제 2 파형-코딩된 신호의 스펙트럼 콘텐트는 시변(time-variable) 상한(upper bound)을 가지는, 디코딩 방법.
제 17 항에 있어서, 상기 고 주파수 재구성 파라미터들은,
스펙트럼 대역 복제(Spectral Band Replication, SBR) 인코딩을 이용하여 계산되는, 인코딩 방법.
제 17 항에 있어서, 상기 제 1 크로스-오버 주파수 위의 주파수 범위의 서브세트는,
상기 제 1 파형-코딩된 신호의 스펙트럼 콘텐트와 근접하지 않은, 분리된 주파수 구간을 포함하는, 인코딩 방법.