KR101685860B1

KR101685860B1 - 공간 오디오 객체 코딩에 있어서 신호 종속적인 줌 변환을 위한 인코더, 디코더 및 방법들

Info

Publication number: KR101685860B1
Application number: KR1020157011739A
Authority: KR
Inventors: 사스카 디쉬; 조우니 폴러스; 베른드 에들러; 올리버 헬머스; 위르겐 헤레; 써스튼 캐스트너
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2012-10-05
Filing date: 2013-10-02
Publication date: 2016-12-12
Also published as: RU2625939C2; JP2015535959A; US20150279377A1; HK1213361A1; EP2717262A1; TWI541795B; US20150221314A1; CA2886999C; BR112015007649B1; RU2015116645A; BR112015007650A2; MX350691B; TW201423729A; EP2904611B1; CA2887028A1; JP6185592B2; WO2014053548A1; CN105190747A; RU2015116287A; US9734833B2

Abstract

다운믹스(downmix) 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위한 디코더가 제공된다. 상기 다운믹스 신호는 하나 이상의 오디오 객체 신호들을 인코딩한다. 상기 디코더는, 하나 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초하여 활성 표시를 활성 상태로 설정하기 위한 제어 유닛(181)을 포함한다. 더불어, 상기 디코더는, 복수의 제 1 서브대역 채널들을 포함하는 제 1 변환된 다운믹스를 획득하기 위하여 상기 다운믹스 신호를 변환하기 위한 제 1 분석 모듈(182)을 포함한다. 더불어, 상기 디코더는, 활성 표시가 활성 상태로 설정되는 경우, 복수의 제 1 서브대역 채널들을 획득하기 위하여 제 1 서브대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 다운믹스를 생성하기 위한 제 2 분석 모듈(183)을 포함하며, 여기서 상기 제 2 변환된 다운믹스는 제 2 분석 모듈에 의해 변환되지 않은 제 1 서브대역 채널들 및 제 2 서브대역 채널들을 포함한다. 나아가, 상기 디코더는 언-믹싱(un-mixing) 유닛(184)을 포함하는데, 상기 언-믹싱 유닛(184)은, 활성 표시가 활성 상태로 설정되는 경우 오디오 출력 신호를 획득하기 위하여 하나 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 제 2 변환된 다운믹스를 언-믹싱하도록 구성되고, 그리고 상기 활성 표시가 상기 활성 상태로 설정되지 않는 경우 오디오 출력 신호를 획득하기 위하여 하나 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 제 1 변환된 다운믹스를 언-믹싱하도록 구성된다. 추가적으로, 인코더가 제공된다.

Description

공간 오디오 객체 코딩에 있어서 신호 종속적인 줌 변환을 위한 인코더, 디코더 및 방법들{ENCODER, DECODER AND METHODS FOR SIGNAL―DEPENDENT ZOOM―TRANSFORM IN SPATIAL AUDIO OBJECT CODING}

본 발명은 오디오 신호 인코딩, 오디오 신호 디코딩 및 오디오 신호 프로세싱에 관한 것으로, 보다 구체적으로 공간-오디오-객체-코딩(SAOC:Spatial-Audio-Object-Coding)에 있어서 시간/주파수 분해능(resolution)의 기존 호환성이 있는(backward compatible) 동적인 적응을 위한 인코더, 디코더 및 방법들에 관한 것이다.

현대의 디지털 오디오 시스템들에서, 수신기 측 상에서 전송된 컨텐츠의 오디오-객체 관련 수정들을 허용하는 것이 대세이다. 이러한 수정들은, 오디오 신호의 선택된 부분들에 대한 게인(gain) 수정들 및/또는 공간적으로 분산된 스피커들을 통한 멀티-채널 플레이백의 경우의 전용 오디오 객체들의 공간적인 재-포지셔닝을 포함한다. 이는 상이한 스피커들로 오디오 컨텐츠의 상이한 부분들을 개별적으로 전달함으로써 달성될 수도 있다.

다시 말하면, 오디오 프로세싱, 오디오 전송, 및 오디오 저장 분야에 있어서, 청각적 인상(hearing impression)을 향상시키기 위하여 오디오 컨텐츠들 또는 이들의 부분들을 개별적으로 랜더링도록 멀티-채널 플레이백의 확장된 가능성들을 이용하기 위한 수요 또는 객체-지향 오디오 컨텐츠 플레이백에 대한 사용자 인터랙션을 가능케하기 위한 수요가 증가하고 있다. 이에 의해서, 멀티-채널 오디오 컨텐츠의 사용은 사용자에 대한 상당한 개선을 야기한다. 예를 들어, 3차원 청각적 인상이 획득될 수 있으며, 이는 엔터테인먼트 애플리케이션들에서의 개선된 사용자 만족감을 야기한다. 그러나, 멀티-채널 오디오 컨텐츠는 또한, 예를 들어, 전화 회의 애플리케이션들과 같은 전문적인 환경들에서도 유용하며, 이는 대화자의 명료성(intelligibility)이 멀티-채널 오디오 플레이백을 사용함으로써 향상될 수 있기 때문이다. 다른 가능성 있는 애플리케이션은, 상이한 악기들 또는 보컬 부분과 같은 상이한 파트들(또한 "오디오 객체"로 명명됨) 또는 트랙들의 공간 위치 및/또는 플레이백 레벨을 개별적으로 조절하기 위한 뮤지컬 작품을 청취자에게 제공하는 것이다. 사용자는, 뮤지컬 작품, 교육 목적, 가라오케(karaoke), 리허설 등으로부터 하나 이상의 부분(들)을 용이하게 편곡하기 위하여, 개인의 기호에 따른 이유로 이러한 조절을 수행할 수 있다.

모든 디지털 멀티-채널 또는 멀티-객체 오디오 컨텐츠(예컨대, 펄스 코드 변조(PCM) 데이터의 포맷 또는 압축 오디오 포맷들)의 간단한 이산(discrete) 전송은 매우 높은 비트레이트를 요구한다. 하지만, 비트레이트 효율적 방식으로 오디오 데이터를 전송하고 저장하는 것 또한 요구된다. 따라서, 멀티-채널/멀티-객체 애플리케이션들에 의해 야기되는 과도한 리소스 부하를 피하기 위하여 오디오 품질과 비트레이트 요구사항들 간의 합리적인 트레이드오프를 수락할 필요가 존재한다.

최근에, 오디오 코딩의 분야에서, 멀티-채널/멀티-객체 오디오 신호들의 비트레이트-효율적인 전송/저장에 대한 파라메트릭(parametric) 기법들이 예를 들어, MPEG(Moving Picture Experts Group) 등에 의하여 도입되었다. 일례로는 채널 지향 접근[MPS, BCC]으로서의 MPEG 서라운드(Surround)(MPS), 또는 객체 지향 접근[JSC, SAOC, SAOC1, SAOC2]으로서의 MPEG 공간 오디오 객체 코딩(Spatial Audio Object Coding)(SAOC)가 있다. 다른 객체-지향 접근은 "인폼드 소스 분할(informed source separation)"[ISS1,ISS2, ISS3, ISS4, ISS5, ISS6] 로서 명명된다. 이러한 기법들은 요구되는 출력 오디오 신(scene) 또는 요구되는 오디오 소스 객체를 채널들/객체들의 다운믹스 및 상기 오디오 신에서의 오디오 소스 객체들 및/또는 전송된/저장된 오디오 신을 설명하는 추가적인 부가 정보에 기초하여 재구성하는 것을 목적으로 하고 있다.

이러한 시스템들에서 채널/객체 관련 부가 정보의 추정 및 적용은 시간-주파수 선택적인 방식으로 행해진다. 따라서, 이러한 시스템들은 이산 푸리에 변환(DFT:Discrete Fourier Transform), 단시간 푸리에 변환(STFT:Short Time Fourier Transform), 또는 직교 미러 필터(QMF:Quadrature Mirror Filter)와 유사한 필터 뱅크들 등을 채용한다. 이러한 시스템들의 기본적인 원리는 MPEG SAOC의 예시를 사용하여 도 3에서 묘사된다.

STFT의 경우, 시간적 차원이 시간-블록 넘버에 의해 표현되며 그리고 스펙트럼 차원이 스펙트럼 계수(빈(bin)) 넘버에 의해 캡쳐된다. QMF의 경우, 시간적 차원이 시간-슬롯 넘버에 의해 표현되며 그리고 공간적 차원은 서브-대역 넘버에 의해 캡쳐된다. QMF의 스펙트럼 분해능이 제 2 필터 단계의 후속적인 적용에 의하여 개선되는 경우, 전체 필터 뱅크는 하이브리드 QMF로 명명되고 그리고 정밀한 분해능 서브-대역들은 하이브리드 서브-대역들로 명명된다.

상기 언급된 바와 같이, SAOC에서 일반적인 프로세싱은 시간-주파수 선택적 방식으로 수행되며 그리고 도 3에서 묘사되는 바와 같이 각각의 주파수 대역 내에 있는 것으로 설명될 수 있다.

- N개의 입력 오디오 객체 신호들(s₁ ... s_N)은 엘리먼트들(d_1,1 ... d_N,P)로 구성된 다운믹스 매트릭스를 사용하여 인코더 프로세싱의 일부로서 P개의 채널들(x₁ ... x_P)로 믹스 다운(mix down)된다. 나아가, 인코더는 입력 오디오 객체들의 특성(characteristic)들을 기술하는 부가 정보 추출한다(부가-정보 추정기(SIE:Side Information Estimator) 모듈). MPEG SAOC에 대하여, 서로에 대한 객체 전력들의 관계(relation)들은 이러한 부가 정보의 가장 기본적인 형태이다.

- 다운믹스 신호(들) 및 부가 정보는 전송되고/저장된다. 이를 위하여, 다운믹스 오디오 신호(들)는 예를 들어, 공지의 지각적인 오디오 코더들(예컨대, MPEG-1/2 Layer II 또는 III(aka .mp3), MPEG-2/4 Advanced Audio Coding(AAC) 등)을 사용하여 압축될 수도 있다.

- 수신기 측에서, 디코더는 개념적으로, 전송된 부가 정보를 사용하여 (디코딩된) 다운믹스 신호들로부터 오리지널 객체 신호들을 복구하도록 시도한다("객체 분할(object separation)"). 이러한 근사화된(approximated) 객체 신호들(s^₁ ... s^_N)은 그리고나서 도 3에서의 계수들(r_1,1 ... r_N,M)에 의해 설명되는 렌더링 매트릭스를 사용하여 M개의 오디오 출력 채널들(y^₁ ... y^_M)에 의해 표현되는 타겟 신(target scene)으로 믹싱된다. 바람직한 타겟 신은, 극단적인 경우에서, 혼합물 중 오직 하나의 소스 신호에 대한 렌더링(소스 분할 시나리오)일 수도 있거나 또는 전송되는 객체들로 구성된 임의의 다른 임의적인 음향 신(acoustic scene)일 수도 있다. 예를 들어, 출력물은 단일 채널, 2-채널 스테레오 또는 5.1 멀티 채널 타겟 신일 수 있다.

시간-주파수 기반 시스템들은 정적인 시간 및 주파수 분해능을 갖는 시간-주파수(t/f) 변환을 활용할 수도 있다. 특정한 고정된 시간 및 주파수 분해능 그리드(grid)를 선택하는 것은 일반적으로 시간과 주파수 분해능 간의 트래이드 오프(trade off)를 수반한다.

고정된 시간/주파수 분해능의 영향은 오디오 신호 혼합물에서의 전형적인 객체 신호들의 예시로 입증될 수 있다. 예를 들어, 토널 사운드(tonal sound)들의 스펙트럼들은 기본 주파수 및 몇몇의 오버톤(overtone)들을 갖는 화성적으로(harmonically) 관련된 구조를 나타낸다. 이러한 신호들의 에너지는 특정 주파수 영역들에서 집중된다. 이러한 신호들에 대하여, 활용되는 시간/주파수 표현에 대한 고주파수 분해능은 협대역 토널(tonal) 스펙트럼 영역들을 신호 혼합물로부터 분리하는데 있어서 이점이 있다. 반대로, 드럼 소리와 같은 트랜션트(transient) 신호들은 별개의 시간적 구조를 종종 가질 수 있다: 실질적인 에너지는 짧은 시간 기간들 동안에만 표현되고 그리고 광대역의 주파수들에 걸쳐서 확산된다. 이러한 신호들에 대하여, 활용되는 시간/주파수 표현의 높은 시간 분해능은 신호 혼합물로부터 트랜션트 신호 부분을 분리시키는 것에 장점이 있다.

현재의 오디오 객체 코딩 기법들은 SAOC 프로세싱의 시간-주파수 선택성에서의 한정된 다양성만을 제공한다. 예를 들어, MPEG SAOC [SAOC] [SAOC1] [SAOC2]는, 하이브리드 직교 미러 필터 뱅크(Hybrid QMF:Quadrature Mirror Filter Bank) 및 파라메트릭 대역들로의 이의 후속적인 그룹핑의 사용에 의해 획득될 수 있는 시간-주파수 분해능으로 한정된다. 그러므로, 표준 SAOC([SAOC]에서 표준화되는 MPEG SAOC)에서의 객체 복구(object restoration)는 종종 하이브리드-QMF의 비조밀한(coarse) 주파수 분해능을 겪을 수 있으며, 이는 다른 객체들로부터의 가청 변조된 크로스톡(audible modulated crosstalk)으로 이어진다(예를 들어, 스피치에서의 더블-토크 잡음(double-talk artifact)들 또는 음악에서의 청각적 거친 잡음(auditory roughness artifacts)들).

바이노럴 큐 코딩(Binaural Cue Coding) [BCC] 및 오디오 소스들의 파라메트릭 조인트 코딩(Parametric Joint Coding of Audio Sources) [JSC]와 같은 오디오 객체 코딩 기법들은 또한 하나의 고정된 분해능 필터 뱅크의 사용으로 한정된다. 고정된 분해능 필터 뱅크 또는 변환에 대한 실제적인 선택은 항상 코딩 기법의 스펙트럼 특성 및 시간적 특성 간의 최적화와 관련하여 사전정의된 트래이드 오프를 수반한다.

인폼드 소스 분할(ISS)의 분야에서, 예컨대, 고급 오디오 코딩(Advanced Audio Coding(AAC)) [AAC]과 같은 지각적인 오디오 코딩 기법들로부터 잘 알려진 바와 같이, 시간 주파수 변환 길이를 신호의 특성들 [ISS7]로 동적으로 적용시키는 것이 제안되어 왔다.

본 발명의 목적은 오디오 객체 코딩에 대한 개선된 컨셉들을 제공하기 위함이다. 본 발명의 목적은 청구항 제1항에 따른 디코더에 의해, 청구항 제7항에 따른 인코더에 의해, 청구항 제13항에 따른 디코딩 방법에 의해, 청구항 제14항에 따른 인코딩 방법에 의해, 그리고 청구항 제15항에 따른 컴퓨터 프로그램에 의해 해결된다.

기존의 SAOC와는 달리, 실시예들은 기존 호환성이 있는 방식으로 시간-주파수 분해능을 신호에 동적으로 적용시켜, 이하의 기재들을 달성할 수 있다.

- [SAOC]에서 표준화되는 표준 SAOC 인코더(MPEG SAOC)로부터 기원되는 SAOC 파라미터 비트 스트림들은 표준 디코더를 통하여 획득되는 것과 비슷한 인지 품질(perceptual quality)을 갖는 개선된 디코더에 의해여 계속해서 디코딩될 수 있다.

- 개선된 SAOC 파라미터 비트 스트림들은 개선된 디코더를 통하여 최적의 품질로 디코딩될 수 있다.

- 표준 및 개선된 SAOC 파라미터 비트 스트림들은, 예를 들어, 멀티-포인트 제어 유닛(MCU:Multi point Control Unit) 시나리오에서, 표준형으로 또는 개선된 디코더를 통하여 디코딩될 수 있는 하나의 공통 비트 스트림으로 믹싱될 수 있다.

상기 언급된 특성들에 대하여, 신규한 개선된 SAOC 데이터의 디코딩을 지원하기 위하여 그리고 동시에 기존의 표준 SAOC 데이터의 기존 호환성있는 맵핑을 지원하기 위하여, 시간-주파수 분해능에서 동적으로 적용되는 공통 필터 뱅크/변환 표현을 제공하는 것이 유용하다. 이러한 공통 표현을 고려해볼 때 개선된 SAOC 데이터 및 표준 SAOC 데이터를 합치는 것이 가능하다.

개선된 SAOC 인지 품질은, 입력 오디오 객체의 특정한 특성들에 대하여 오디오 객체 큐들을 합성하기 위해 사용되거나 또는 추정하기 위해 사용되는 변환 또는 필터 뱅크의 시간-주파수 분해능을 동적으로 적용시킴으로써 획득될 수 있다. 예를 들어, 오디오 객체가 특정한 시간 기간 동안에 준정적(quasi static)인 경우, 파라미터 추정 및 합성은 비조밀한(coarse) 시간 분해능 및 조밀한(fine) 주파수 분해능에 대해 바람직하게 수행된다. 오디오 객체가 특정 시간 기간 동안에 트랜션트들 또는 비-정적들을 포함하는 경우, 파라미터 추정 및 합성은 조밀한 시간 분해능 및 비-조밀한 주파수 분해능을 사용하여 바람직하게 수행된다. 이에 따라서, 필터 뱅크 또는 변환의 동적인 적응은 이하의 내용들을 허용한다:

- 객체 간 크로스토크(inter-object crosstalk)를 피하기 위하여 준-정적인 신호들의 스펙트럼 분할에서의 고주파수 선택성, 및

- 사전(pre) 및 사후(post) 에코(echo)들을 최소화하기 위하여 객체 온셋(onset)들 또는 트랜션트 이벤트들에 대한 높은 시간적 정확성

객체 신호 특성들을 기술하는 부가 정보에 기초하는 진보한 기존 호환가능성 신호 적응적 변환에 의해 제공되는 시간-주파수 그리드로 표준 SAOC 데이터를 맵핑시킴으로서 획득될 수 있다.

하나의 공통 변환을 사용하여 표준 및 개선된 SAOC 데이터 모두를 디코딩할 수 있는 것은 표준 및 신규한 개선된 SAOC 데이터의 믹싱을 포함하는 애플리케이션들에 대한 직접적인 기존 호환성을 가능케한다.

복수의 시간-도메인 다운믹스 샘플들을 포함하는 다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위한 디코더가 제공된다. 상기 다운믹스 신호는 둘 이상의 오디오 객체 신호들을 인코딩한다.

디코더는 복수의 분석 윈도우(analysis window)들을 결정하거나 또는 윈도우-시퀀스 생성기를 포함하며, 여기서 상기 분석 윈도우들 각각은 다운믹스 신호의 복수의 시간-도메인 다운믹스를 포함한다. 복수의 분석 윈도우들 중 각각의 분석 윈도우는 분석 윈도우의 시간-도메인 다운믹스 샘플들의 수를 표시하는 윈도우 길이(window length)를 갖는다. 윈도우-시퀀스 생성기는 복수의 분석 윈도우들을 결정하도록 구성되어, 분석 윈도우들 각각의 윈도우 길이가 둘 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초하게된다.

더불어, 디코더는, 변환된 다운믹스를 획득하기 위하여, 복수의 분석 윈도우들 중 각각의 분석 윈도우의 복수의 시간-도메인 다운믹스 샘플들을 분석 윈도우의 윈도우 길이에 기초하여 시간 도메인으로부터 시간-주파수 도메인으로 변환하기 위한 t/f분석 모듈을 포함한다.

나아가, 디코더는, 오디오 출력 신호를 획득하기 위하여 둘 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 상기 변환된 다운믹스를 언-믹싱(un-mixing)하기 위한 언-믹싱 유닛을 포함한다.

일 실시예에 따라서, 윈도우-시퀀스 생성기는 복수의 분석 윈도우들을 결정하도록 구성될 수 있어서, 다운믹스 신호에 의해 인코딩되는 둘 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 변경을 표시하는 트랜션트가, 복수의 분석 윈도우들 중 제 1 분석 윈도우 및 복수의 분석 윈도우들 중 제 2 분석 윈도우에 의해 포함되며, 여기서 상기 제 1 분석 윈도우의 중심(center) c_k는 c_k=t-l_b에 따라 트랜션트의 위치 t에 의해 정의되며, 그리고 제 1 분석 윈도우의 중심 c_k+1은 c_k+1=t+l_a에 따라 트랜션트의 위치 t에 의해 정의되며, 여기서 l_a 및 l_b는 숫자들이다.

일 실시예에서, 윈도우-시퀀스 생성기는 복수의 분석 윈도우들을 결정하도록 구성될 수 있어서, 다운믹스 신호에 의해 인코딩되는 둘 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 변경을 표시하는 트랜션트가 복수의 분석 윈도우들 중 제 1 분석 윈도우에 의해 포함되며, 여기서 제 1 분석 윈도우의 중심 c_k은 c_k=t에 따라서 트랜션트의 위치 t에 의해 정의되며, 여기서 제 2 분석 윈도우의 중심 c_k-1은 c_k-1 =t-l_b에 따라 트랜션트의 위치 t에 의해 정의되며, 그리고 복수의 분석 윈도우들 중 제 3 분석 윈도우의 중심 c_k+1은 c_k+1=t+l_a에 따라 트랜션트의 위치 t에 의해 정의되며, 여기서 l_a 및 l_b는 숫자들이다.

일 실시예에 따라서, 윈도우-시퀀스 생성기는 복수의 분석 윈도우들을 결정하도록 구성될 수 있어서, 복수의 분석 윈도우들 각각은 시간-도메인 신호 샘플들의 제 1 넘버 또는 시간-도메인 신호 샘플들의 제 2 넘버를 포함하며, 여기서 시간-도메인 신호 샘플들의 제 2 넘버는 시간-도메인 신호 샘플들의 제 1 넘버보다 크며, 그리고 여기서 복수의 분석 윈도우들의 분석 윈도우들 각각은 상기 분석 윈도우가 트랜션트를 포함하는 경우 시간-도메인 신호 샘플들의 제 1 숫자를 포함하며, 여기서 상기 트랜션트는 다운믹스 신호에 의해 인코딩되는 둘 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 변경을 표시한다.

일 실시예에서, t/f 분석 모듈은 QMF 필터 뱅크 및 나이퀴스트(Nyquist) 필터 뱅크를 사용함으로써 시간-도메인으로부터 시간-주파수 도메인으로 분석 윈도우들 각각에 대한 시간-도메인 다운믹스 샘플들을 변환하도록 구성될 수 있으며, 여기서 t/f 분석 유닛(135)은 상기 분석 윈도우의 윈도우 길이에 기초하여 분석 윈도우들 각각에 대한 복수의 시간-도메인 신호 샘플들을 변환하도록 구성된다.

더불어, 둘 이상의 입력 오디오 객체 신호들을 인코딩하기 위한 인코더가 제공된다. 둘 이상의 입력 오디오 객체 신호들 각각은 복수의 시간-도메인 신호 샘플들을 포함한다. 상기 인코더는 복수의 분석 윈도우들을 결정하기 위한 윈도우-시퀀스 유닛을 포함한다. 분석 윈도우들 각각은 입력 오디오 객체 신호들 중 하나에 대한 복수의 시간-도메인 신호 샘플들을 포함하며, 여기서 분석 윈도우들 각각은 상기 분석 윈도우의 시간-도메인 신호 샘플들의 수를 표시하는 윈도우 길이를 갖는다. 상기 윈도우-시퀀스 유닛은 복수의 분석 윈도우들을 결정하도록 구성되어, 분석 윈도우들 각각의 윈도우 길이가 둘 이상의 입력 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초하게 된다.

나아가, 인코더는, 변환된 신호 샘플들을 획득하기 위하여 시간-도메인으로부터 시간-주파수 도메인으로 분석 윈도우들 각각에 대한 시간-도메인 신호 샘플들을 변환하기 위한 t/f분석 유닛을 포함한다. 상기 t/f 분석 유닛은 분석 윈도우의 윈도우 길이에 기초하여 분석 윈도우들 각각에 대한 복수의 시간-도메인 신호 샘플들을 변환하도록 구성될 수 있다.

추가적으로, 상기 인코더는 변환된 신호 샘플들에 기초하여 파라메트릭 부가 정보를 결정하기 위한 PSI-추정 유닛을 포함한다.

일 실시예에서, 인코더는, 둘 이상의 입력 오디오 객체 신호들 중 복수의 객체 레벨 차이들을 결정하도록 구성되고 그리고 둘 이상의 입력 오디오 객체 신호들 중 적어도 하나의 신호 변경을 표시하는 트랜션트를 상기 분석 윈도우가 포함하는지 여부를 분석 위도우들 각각에 대하여 결정하기 위하여 객체 레벨 차이들 중 첫번째 것과 객체 레벨 차이들 중 두번째 것에 대한 차이가 임계값보다 큰지 여부를 결정하도록 구성되는 트랜션트-검출 유닛을 더 포함할 수 있다.

일 실시예에 따라서, 트랜션트-검출 유닛은 객체 레벨 차이들 중 첫번째 것과 객체 레벨 차이들 중 두번째 것 간의 차이가 임계값보다 큰지 여부를 결정하기 위하여 검출 함수 d(n)를 사용하도록 구성될 수 있으며, 여기서 검출 함수 d(n)은 다음과 같이 정의된다:

여기서, n은 인덱스를 표시하며, i는 제 1 객체를 표시하며, j는 제 2 객체를 표시하며, b는 파라메트릭 대역을 표시한다. OLD는 예를 들어, 객체 레벨 차이를 표시할 수 있다.

일 실시예에서, 윈도우-시퀀스 유닛은 복수의 분석 윈도우들을 결정하도록 구성될 수 있어서, 둘 이상의 입력 오디오 객체 신호들 중 적어도 하나에 대한 신호 변경을 표시하는 트랜션트가 복수의 분석 윈도우들 중 제 1 분석 윈도우 및 복수의 분석 윈도우들 중 제 2 분석 윈도우에 의해 포함되며, 여기서 제 1 분석 윈도우의 중심 c_k는 c_k=t-l_b에 따라 트랜션트의 위치 t에 의해 정의되며, 제 1 분석 윈도우의 중심 c_k+1은 c_k+1=t+l_a에 따라 트랜션트의 위치 t에 의해 정의되며, 여기서 l_a 및 l_b는 숫자들이다.

일 실시예에서, 윈도우 시퀀스 유닛은 복수의 분석 윈도우들을 결정하도록 구성될 수 있어서, 복수의 분석 윈도우들 각각은 시간-도메인 신호 샘플들의 제 1 넘버 또는 시간-도메인 신호 샘플들의 제 2 넘버를 포함하게되며, 여기서 시간-도메인 신호 샘플들의 제 2 넘버는 시간-도메인 신호 샘플들의 제 1 넘버보다 크며, 그리고 여기서 복수의 분석 윈도우들의 분석 윈도우들 각각은, 상기 분석 윈도우가 둘 이상의 입력 오디오 객체 신호들 중 적어도 하나에 대한 신호 변경을 표시하는 트랜션트를 포함하는 경우 시간-도메인 신호 샘플들의 제 1 넘버를 포함한다.

일 실시예에 따라서, t/f 분석 유닛은 QMF 필터 뱅크 및 나이퀴스트 필터 뱅크를 사용함으로써 시간-도메인으로부터 시간-주파수 도메인으로 분석 윈도우들 각각에 대한 시간-도메인 신호 샘플들을 변환하도록 구성될 수 있으며, 여기서 t/f 분석 유닛은 상기 분석 윈도우의 윈도우 길이에 기초하여 분석 윈도우들 각각에 대한 복수의 시간-도메인 신호 샘플들을 변환하도록 구성될 수 있다.

더불어, 복수의 시간-도메인 다운믹스 샘플들을 포함하는 다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위한 디코더가 제공된다. 상기 다운믹스 신호는 둘 이상의 오디오 객체 신호들을 인코딩한다. 디코더는 복수의 서브대역 샘플들을 포함하는 복수의 서브대역들을 획득하기 위하여 복수의 시간-도메인 다운믹스 샘플들을 변환하기 위한 제 1 분석 서브모듈을 포함한다. 나아가, 상기 디코더는 복수의 분석 윈도우들을 결정하기 위한 윈도우-시퀀스 생성기를 포함하며, 여기서 분석 윈도우들 각각은 복수의 서브대역들 중 하나에 대한 복수의 서브대역 샘플들을 포함하며, 여기서 복수의 분석 윈도우들 각각의 분석 윈도우는 상기 분석 윈도우의 서브대역 샘플들의 수를 표시하는 윈도우 길이를 가지며, 여기서 윈도우-시퀀스 생성기는 복수의 분석 윈도우들을 결정하도록 구성되어, 상기 분석 윈도우들 각각에 대한 윈도우 길이가 둘 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초하게 된다. 나아가, 상기 디코더는 변환된 다운믹스를 획득하기 위하여 상기 분석 윈도우의 윈도우 길이에 기초하여 복수의 분석 윈도우들 중 각각의 분석 윈도우에 대한 복수의 서브대역 샘플들을 변환하기 위한 제 2 분석 모듈을 포함한다. 추가적으로, 상기 디코더는 오디오 출력 신호를 획득하기 위하여 둘 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 상기 변환된 다운믹스를 언-믹싱하기 위한 언-믹싱 유닛을 포함한다.

나아가, 둘 이상의 객체 신호들을 인코딩하기 위한 인코더가 제공된다. 둘 이상의 입력 오디오 객체 신호들 각각은 복수의 시간-도메인 신호 샘플들을 포함한다. 상기 인코더는 복수의 서브대역 샘플들을 포함하는 복수의 서브대역들을 획득하기 위하여 복수의 시간-도메인 신호 샘플들을 변환하기 위한 제 1 분석 서브모듈을 포함한다. 나아가, 상기 인코더는 복수의 분석 윈도우들을 결정하기 위한 윈도우-시퀀스 유닛을 포함하며, 여기서 상기 분석 윈도우들 각각은 복수의 서브대역들 중 하나에 대한 복수의 서브대역 샘플들을 포함하며, 여기서 분석 윈도우들 각각은 분석 윈도우의 서브대역 샘플들의 수를 표시하는 윈도우 길이를 가지며, 여기서 윈도우-시퀀스 유닛은 복수의 분석 윈도우들을 결정하도록 구성되어, 분석 윈도우들 각각에 대한 윈도우 길이가 둘 이상의 입력 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초하게 된다.

더불어, 상기 인코더는 변환된 신호 샘플들을 획득하기 위하여 분석 윈도우의 윈도우 길이에 기초하여 복수의 분석 윈도우들 중 각각의 분석 윈도우의 복수의 서브대역 샘플들을 변환하기 위한 제 2 분석 모듈을 포함한다. 나아가, 상기 인코더는 변환된 신호 샘플들에 기초하여 파라메트릭 부가 정보를 결정하기 위한 PSI-추정 유닛을 포함한다.

게다가, 다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위한 디코더가 제공된다. 상기 다운믹스 신호는 하나 이상의 오디오 객체 신호들을 인코딩한다. 상기 디코더는 하나 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초하여 활성 표시를 활성 상태로 설정하기 위한 제어 유닛을 포함한다. 나아가, 상기 디코더는 복수의 제 1 서브대역 채널들을 포함하는 제 1 변환된 다운믹스를 획득하기 위하여 상기 다운믹스 신호를 변환하기 위한 제 1 분석 모듈을 포함한다. 추가적으로, 상기 디코더는, 상기 활성 표시가 상기 활성 상태로 설정되는 경우, 복수의 제 2 서브대역 채널들을 획득하기 위하여 제 1 서브대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 다운믹스를 생성하기 위한 제 2 분석 모듈을 포함하며, 여기서 제 2 변환된 다운믹스는 제 2 서브대역 채널들 및 상기 제 2 분석 모듈에 의해 변환되지 않은 제 1 서브대역 채널들을 포함한다. 나아가, 상기 디코더는 언-믹싱 유닛을 포함하는데, 여기서 상기 언-믹싱 유닛은 상기 활성 표시가 상기 활성 상태로 설정되는 경우, 오디오 출력 신호를 획득하기 위하여 상기 하나 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 상기 제 2 변환된 다운믹스를 언믹스하고 그리고 상기 활성 표시가 상기 활성 상태로 설정되지 않은 경우, 상기 오디오 출력 신호를 획득하기 위하여 하나 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 제 1 변환된 다운믹스를 언믹스하도록 구성된다.

추가적으로, 입력 오디오 객체 신호를 인코딩하기 위한 인코더가 제공된다. 상기 인코더는 입력 오디오 객체 신호의 신호 특성에 기초하여 활성 표시를 활성 상태로 설정하기 위한 제어 유닛을 포함한다. 나아가, 상기 인코더는 제 1 변환된 오디오 객체 신호를 획득하기 위하여 입력 오디오 객체 신호를 변환하기 위한 제 1 분석 모듈을 포함하며, 여기서 상기 제 1 변환된 오디오 객체 신호는 복수의 제 1 서브대역 채널들을 포함한다. 또한, 상기 인코더는, 상기 활성 표시가 상기 활성 상태로 설정되는 경우, 복수의 제 2 서브대역 채널들을 획득하기 위하여 복수의 제 1 서브대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 오디오 객체 신호를 생성하기 위한 제 2 분석 모듈을 포함하며, 여기서 상기 제 2 변환된 오디오 객체 신호는 상기 제 2 분석 모듈에 의해 변환되지 않은 제 1 서브대역 채널들 및 제 2 서브대역 채널들을 포함한다. 또한, 상기 인코더는 PSI-추정 유닛을 포함하며, 여기서 상기 PSI-추정 유닛은, 활성 표시가 활성 상태로 설정되는 경우 제 2 변환된 오디오 객체 신호에 기초하여 파라메트릭 부가 정보를 결정하고, 그리고 상기 활성 표시가 상기 활성 상태로 설정되지 않은 경우 제 1 변환된 오디오 객체 신호에 기초하여 파라메트릭 부가 정보를 결정하도록 구성된다.

추가적으로, 복수의 시간-도메인 다운믹스 샘플들을 포함하는 다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위한 디코딩 방법이 제공된다. 상기 방법은:

- 복수의 분석 윈도우들을 결정하는 단계 ― 여기서, 분석 윈도우들 각각은 다운믹스 신호의 복수의 시간-도메인 다운믹스 샘플들을 포함하며, 여기서 복수의 분석 윈도우들 각각의 분석 윈도우는 상기 분석 윈도우의 시간-도메인 다운믹스 샘플들의 수를 표시하는 윈도우 길이를 가지며, 여기서 상기 복수의 분석 윈도우를 결정하는 단계는 상기 분석 윈도우들 각각에 대한 윈도우 길이가 둘 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초하도록 수행됨 ―,

- 변환된 다운믹스를 획득하기 위하여, 분석 윈도우의 윈도우 길이에 기초하여 시간-도메인으로부터 시간-주파수 도메인으로 복수의 분석 윈도우들의 각각의 분석 윈도우에 대한 복수의 시간-도메인 다운믹스 샘플들을 변환하는 단계, 및

- 오디오 출력 신호를 획득하기 위하여 둘 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 상기 변환된 다운믹스를 언-믹싱하는 단계,

를 포함한다.

추가적으로, 둘 이상의 입력 오디오 객체 신호들을 인코딩하기 위한 방법이 제공되는데, 여기서 상기 둘 이상의 입력 오디오 객체 신호들 각각은 복수의 시간-도메인 신호 샘플들을 포함한다. 상기 방법은:

- 복수의 서브대역 샘플들을 포함하는 복수의 서브대역들을 획득하기 위하여 복수의 시간-도메인 신호 샘플들을 변환하는 단계,

- 복수의 분석 윈도우들을 결정하는 단계 ― 여기서 상기 분석 윈도우들 각각은 복수의 서브대역들 중 하나에 대한 복수의 서브대역 샘플들을 포함하며, 상기 분석 윈도우들 각각은 분석 윈도우의 서브대역 샘플들의 개수를 표시하는 윈도우 길이를 가지며, 상기 복수의 분석 윈도우들을 결정하는 단계는, 분석 윈도우들 각각에 대한 윈도우 길이가 둘 이상의 입력 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초하게되도록 수행됨 ―,

- 변환된 신호 샘플들을 획득하기 위하여 분석 윈도우의 윈도우 길이에 기초하여 복수의 분석 윈도우들 중 각각의 분석 윈도우에 대한 복수의 서브대역 샘플들을 변환하는 단계, 및

- 변환된 신호 샘플들에 기초하여 파라메트릭 부가 정보를 결정하는 단계,

를 포함한다.

나아가, 다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성함으로써 디코딩하기 위한 방법이 제공되는데, 여기서 상기 다운믹스 신호는 둘 이상의 오디오 객체 신호들을 인코딩한다. 상기 방법은:

- 둘 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초하여 활성 표시를 활성 상태로 설정하는 단계,

- 복수의 제 1 서브대역 채널들을 포함하는 제 1 변환된 다운믹스를 획득하기 위하여 다운믹스 신호를 변환하는 단계,

- 활성 표시가 활성 상태로 설정되는 경우 복수의 제 2 서브대역 채널들을 획득하기 위하여 제 1 서브대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 다운믹스를 생성하는 단계 ― 상기 제 2 변환된 다운믹스는 제 2 분석 모듈에 의해 변환되지 않은 제 1 서브대역 채널들 및 제 2 서브대역 채널들을 포함함 ―, 및

- 상기 활성 표시가 활성 상태로 설정되는 경우, 오디오 출력 신호를 획득하기 위하여 둘 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 제 2 변환된 다운믹스를 언-믹싱하는 단계, 및 상기 활성 표시가 활성 상태로 설정되지 않는 경우, 오디오 출력 신호를 획득하기 위하여 둘 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 제 1 변환된 다운믹스를 언-믹싱하는 단계,

를 포함한다.

추가적으로, 둘 이상의 입력 오디오 객체 신호들을 인코딩하기 위한 방법이 제공된다. 상기 방법은:

- 둘 이상의 입력 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초하여 활성 표시를 활성 상태로 설정하는 단계.

- 입력 오디오 객체 신호의 제 1 변환된 오디오 객체 신호를 획득하기 위하여 입력 오디오 객체 신호들 각각을 변환하는 단계 ― 상기 제 1 변환된 오디오 객체 신호는 복수의 제 1 서브대역 채널들을 포함함 ―,

- 활성 표시가 활성 상태로 설정되는 경우, 복수의 제 2 서브대역 채널들을 획득하기 위하여 입력 오디오 객체 신호의 제 1 변환된 오디오 객체 신호의 제 1 서브대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 오디오 객체 신호를 상기 입력 오디오 객체 신호들 각각에 대해서 생성하는 단계 ― 상기 제 2 변환된 다운믹스는 제 2 분석 모듈에 의해 변환되지 않은 제 1 서브대역 채널들 및 제 2 서브대역 채널들을 포함함 ―, 및

- 상기 활성 표시가 활성 상태로 설정되는 경우, 입력 오디오 객체 신호들 각각에 대한 제 2 변환된 오디오 객체 신호에 기초하여 파라메트릭 부가 정보를 결정하는 단계, 및 상기 활성 표시가 활성 상태로 설정되지 않는 경우, 입력 오디오 객체 신호들 각각에 대한 제 1 변환된 오디오 객체 신호에 기초하여 파라메트릭 부가 정보를 결정하는 단계,

를 포함한다.

더불어, 컴퓨터 또는 신호 프로세서에 의해 실행되는 경우 전술된 방법들 중 하나의 방법을 구현하기 위한 컴퓨터 프로그램이 제공된다.

바람직한 실시예들은 종속항들에서 제공될 것이다.

이하에서, 본 발명의 실시예들이 도면들을 참조하여 보다 자세하게 설명된다.
도 1a는 일 실시예에 따른 디코더를 도시한다.
도 1b는 다른 실시예에 따른 디코더를 도시한다.
도 1c는 또 다른 실시예에 따른 디코더를 도시한다.
도 2a는 일 실시예에 따라 입력 오디오 객체 신호들을 인코딩하기 위한 인코더를 도시한다.
도 2b는 다른 실시예에 따라 입력 오디오 객체 신호들을 인코딩하기 위한 인코더를 도시한다.
도 2c는 또 다른 실시예에 따라 입력 오디오 객체 신호들을 인코딩하기 위한 인코더를 도시한다.
도 3은 SAOC 시스템의 개념적인 개괄에 대한 개략적인 블록 다이어그램을 도시한다.
도 4는 단일-채널 오디오 신호의 시간-스펙트럼 표현에 대한 개략적이고 예시적인 다이어그램을 도시한다.
도 5는 SAOC 인코더 내의 부가 정보에 대한 시간-주파수 선택적인 계산에 대한 개략적인 블록 다이어그램을 도시한다.
도 6은 디코딩 표준 SAOC 비트 스트림들을 도시하는 일 실시예에 따라 개선된 SAOC 디코더의 블록 다이어그램을 나타낸다.
도 7은 일 실시예에 따른 디코더의 블록 다이어그램을 나타낸다.
도 8은 인코더의 파라메트릭 경로를 구현하는 특정 실시예에 따라 인코더의 블록 다이어그램을 도시한다.
도 9는 트랜션트에서의 윈도우 크로스-오버 포인트를 수용하기 위한 일반 윈도우잉 시퀀스의 적응(adaptation)을 도시한다.
도 10은 일 실시예에 따라 트랜션트 격리 블록 스위칭 기법(transient isolation block switching scheme)을 도시한다.
도 11은 일 실시예에 따라 트랜션트 및 결과적인 AAC-유사(like) 윈도우잉 시퀀스를 갖는 신호를 도시한다.
도 12는 확장된 QMF 하이브리드 필터링을 도시한다.
도 13은 짧은(short) 윈도우들이 변환을 위하여 사용되는 일례를 도시한다.
도 14는 도 13의 예시에서보다 긴 윈도우들이 변환을 위하여 사용되는 일례를 도시한다.
도 15는 고주파수 분해능 및 낮은 시간 분해능이 달성되는 일례를 도시한다.
도 16은 높은 시간 분해능 및 저주파수 분해능이 달성되는 일례를 도시한다.
도 17은 중간 시간 분해능 및 중간 주파수 분해능이 달성되는 제 1 예시를 도시한다.
도 18은 중간 시간 분해능 및 중간 주파수 분해능이 달성되는 제 2 예시를 도시한다.

본 발명의 실시예들을 기술하기 전에, SAOC 시스템들에 대한 추가적인 최신 배경기술이 제시된다.

도 3은 SAOC 인코더(10) 및 SAOC 디코더(12)의 일반적인 배치를 나타낸다. 상기 SAOC 인코더(10)는 입력으로서 N개의 객체들(즉, 오디오 신호들 S₁ 내지 S_N)을 수신한다. 특히, 인코더(10)는 오디오 신호들 S₁ 내지 S_N을 수신하고 이들을 다운믹스 신호(18)로 다운믹싱하는 다운믹서(16)를 포함한다. 대안적으로, 다운믹스는 외부에서("아티스틱 다운믹스(artistic downmix)") 제공될 수도 있으며, 그리고 시스템은 계산된 다운믹스와 제공된 다운믹스가 매칭되게 하기 위하여 추가적인 부가 정보를 추정한다. 도 3에서, 다운믹스 신호는 P-채널 신호인 것으로 도시된다. 따라서, 임의의 모노(P=1), 스테레오(P=2) 또는 멀티-채널(P>2) 다운믹스 신호 구성이 도출가능하다.

스테레오 다운믹스의 경우에서, 다운믹스 신호의 채널들(18)은 L() 및 R()로 표시되며, 모노 다운믹스의 경우에서, 다운믹스 신호의 채널(18)은 간단히 L()로 표시된다. SAOC 디코더(12)로 하여금 개별적인 객체들 S₁ 내지 S_N을 복구하게 하기 위하여, 부가-정보 추정기(17)는 SAOC-파라미터들을 포함하는 부가 정보를 SAOC 디코더(12)로 제공한다. 예를 들어, 스테레오 다운믹스의 경우에서, SAOC 파라미터들은, 객체 레벨 차이(OLD:Object Level Differences), 객체간 코릴레이션(IOC:inter-object correlation)(객체간 크로스 코릴레이션 파라미터들), 다운믹스 게인 값들(DMG) 및 다운믹스 채널 레벨 차이(DCLD:Downmix Channel Level Differences)를 포함한다. 다운믹스 신호(18)와 함께 SAOC-파라미터들을 포함하는 부가 정보(20)는 SAOC 디코더(12)에 의해 수신되는 SAOC 출력 데이터 스트림을 형성한다.

SAOC 디코더(12)는, 다운믹스 신호(18)뿐만 아니라 부가 정보(20) 또한 수신하는 업-믹서를 포함하여, SAOC 디코더(12)로 입력되는 렌더링 정보(26)에 의해 규정되는 렌더링을 통하여 임의의 사용자-선택된 세트의 채널들 y^₁ 내지 y^_M로 오디오 신호들 S^₁ 내지 S^_N을 복구 및 렌더링할 수 있다.

오디오 신호 S₁ 내지 S_N은 시간 또는 스펙트럼 도메인과 같은 임의의 코딩 도메인에서 인코더(10)로 입력될 수 있다. 오디오 신호들 S₁ 내지 S_N이 PCM 코딩된 것과 같은 시간 도메인에서 인코더(10)로 공급되는 경우, 인코더(10)는, 스펙트럼 도메인으로 신호들을 전달하기 위하여 하이브리드 QMF 뱅크와 같은 필터 뱅크를 사용할 수 있으며, 여기서 오디오 신호들은 특정한 필터 뱅크 분해능에서 상이한 스펙트럼 부분들과 연관된 몇몇의 서브-대역들에서 표현된다. 오디오 신호들 S₁ 내지 S_N이 인코더(10)에 의해 예상되는 표현으로 이미 이루어진 경우, 이는 스펙트럼 분해(decomposition)를 수행할 필요가 없다.

도 4는 상술된 스펙트럼 도메인에서의 오디오 신호를 나타낸다. 도시되는 바와 같이, 오디오 신호는 복수의 서브-대역 신호들로서 표현된다. 각각의 서브-대역 신호 30₁ 내지 30_K는 작은 박스들(32)에 의해 표시되는 서브-대역 값들의 시간 시퀀스로 구성된다. 도시되는 바와 같이, 서브-대역 신호들 30₁ 내지 30_K의 서브-대역 값들(32)은 시간적으로 서로 동기화되어, 연속적인 필터 뱅크 시간 슬롯들 각각(34)에 대하여, 각각의 서브-대역 30₁ 내지 30_K가 정확히 하나의 서브-대역 값(32)을 포함하게 될 수 있다. 주파수 축(36)에서 도시되는 바와 같이, 서브-대역 신호들 30₁ 내지 30_K은 상이한 주파수 영역들과 연관되고 그리고 시간 축(38)에 의해 도시되는 바와 같이, 필터 뱅크 시간 슬롯들(34)은 시간적으로 연속적으로 배열된다.

상기 언급된 바와 같이, 도 3의 부가 정보 추출기(17)는 입력 오디오 신호들 S₁ 내지 S_N으로부터 SAOC-파라미터들을 계산한다. 현재 구현되는 SAOC 표준에 따르면, 인코더(10)는, 부가 정보(20) 내의 디코더 측으로 시그널링되는 특정한 양만큼, 필터 뱅크 시간 슬롯들(34) 및 서브-대역 분해에 의해 결정되는 오리지널 시간/주파수 분해능에 비하여 감소될 수 있는 시간/주파수 분해능에서 이러한 계산을 수행한다. 연속적인 필터 뱅크 시간 슬롯들(34)의 그룹들은 SAOC 프레임(41)을 형성할 수 있다. 또한, SAOC 프레임(41) 내의 다수의 파라미터 대역들은 부가 정보(2) 내에서 전달된다. 따라서, 시간/주파수 도메인은 점선들(42)에 의해 도 4에서 예시되는 시간/주파수 타일들로 분할된다. 도 4에서, 파라미터 대역들은 다양한 표시된 SAOC 프레임들(41)에서 동일한 방식으로 분포되어, 시간/주파수 타일들의 규칙적인 배열이 획득된다. 일반적으로, 파라미터 대역들은, 각각의 SAOC 프레임들(41)에서의 스펙트럼 분해능에 대한 상이한 니즈(needs)들에 기초하여, 하나의 SAOC 프레임(41)으로부터 후속적인 SAOC 프레임으로 변화될 수 있다. 더불어, SAOC 프레임(41)의 길이 또한 변화될 수 있다. 결과로, 시간/주파수 타일들의 배열은 불규칙적일 수도 있다. 그럼에도 불구하고, 특정한 SAOC 프레임(41) 내의 시간/주파수 타일들은 일반적으로 동일한 듀레이션을 가지며 시간 방향으로 정렬된다(즉, SAOC 프레임(41)에서의 모든 t/f 타일들은 주어진 SAOC 프레임(41)의 시작점에서 시작하고 상기 SAOC 프레임(41)의 종료점에서 종료된다.

도 3에서 표시되는 부가 정보 추출기(17)는 이하의 공식에 따라 SAOC 파라미터들을 계산한다. 특히, 부가 정보 추출기(17)는 아래와 같이 각각의 객체 i에 대하여 객체 레벨 차이들을 계산한다.

여기서 합(sum)들 및 인덱스들 n 및 k는 각각 모든 시간 인덱스들(34) 및 모든 스펙트럼 인덱스들(30)을 고려하며, 이들은 SAOC 프레임(또는 프로세싱 시간 슬롯)에 대한 인덱스들 l 및 파라미터 대역에 대한 m에 의해 참조되는 특정한 시간/주파수 타일(42)에 속한다. 이에 따라, 오디오 신호 또는 객체 i의 모든 서브-대역 값들의 에너지들은, 모든 객체들 또는 오디오 신호들 중에서의 상기 타일에 대한 가장 높은 에너지 값으로 합산되고 정규화된다. x_i ^n,k*는 x_i ^n,k의 공액 복소수를 표시한다.

추가적으로, SAOC 부가 정보 추출기(17)는 상이한 입력 객체들 s₁ 내지 S_N의 쌍들에 대한 대응하는 시간/주파수 타일들의 유사성 측정치를 계산할 수 있다. SAOC 부가 정보 추출기(17)가 입력 객체들 S₁ 내지 S_N의 모든 쌍들 간의 유사성 측정치를 계산할 수 있다고 하여도, 부가 정보 추출기(17)는 또한 상기 유사성 측정치들의 시그널링을 억제할 수 있거나 또는 오디오 객체들 S₁ 내지 S_N에 대한 유사성 측정치들의 계산을 제한할 수 있으며, 여기서 상기 오디오 객체들 S₁ 내지 S_N은 공통 스테레오 채널의 좌 채널 또는 우 채널을 형성한다. 임의의 경우에서, 유사성 측정치는 객체간 크로스-코릴레이션 파라미터

로 지칭된다. 상기 계산은 다음과 같다:

여기서 인덱스들 n 및 k는 특정 시간/주파수 타일(42)에 속하는 모든 서브-대역 값들을 고려하고, i 및 j는 오디오 객체들 S₁ 내지 S_N의 특정 쌍을 표시하며, 그리고 Re{}는 복소변수(complex argument)의 허수 부분을 제거하는 연산을 표시한다.

도 3의 다운믹서(16)는 각각의 객체들 S₁ 내지 S_N으로 적용되는 게인 인자들의 사용에 의하여 객체들 S₁ 내지 S_N을 다운믹싱한다. 즉, 게인 인자 d_i는 객체 i로 적용되어 모든 가중화된 객체들 S₁ 내지 S_N은 모노 다운믹스 신호를 획득하기 위하여 합산되며, 이는 도 3에서 P=1인 경우에서 예시적으로 설명된다. 2-채널 다운믹스 신호의 다른 예시적인 경우에서는 P=2인 경우로 도 3에서 표시되는데, 게인 인자 d_l,i는 객체 i로 적용되어 모든 이러한 게인 증폭된 객체들은 좌(left) 다운믹스 채널 LO를 획득하기 위하여 합산되고, 그리고 게인 인자들 d_2,i는 객체 i로 적용되어 게인-증폭된 객체들은 우(right) 다운믹스 채널 RO를 획득하기 위하여 합산된다. 이에 대한 아날로그적 프로세싱은 멀티-채널 다운믹스(P>2)의 경우에서 적용될 것이다.

다운믹스 규정(prescription)은 다운믹스 게인들(DMG_i)에 의하여, 스테레오 다운믹스 신호의 경우, 다운믹스 채널 레벨 차이들(DCLD_i)에 의하여, 디코더 측으로 시그널링된다.

다운믹스 게인들은 이하에 따라 계산된다:

(모노 다운믹스)

(스테레오 다운믹스)

여기서 ε는 10^-9와 같은 작은 수이다.

DCLD들에 대하여 이하의 공식이 적용된다:

정규(normal) 모드에서, 다운믹서(16)는 각각 모노 다운믹스에 대하여 이하에 따라 다운믹스 신호를 생성하며,

스테레오 다운믹스에 대하여 이하에 따라 다운믹스 신호를 생성한다.

따라서, 상기 언급된 공식에서, 파라미터들 OLD 및 IOC는 오디오 신호들의 함수이며, 파라미터들 DMG 및 DCLD는 d의 함수이다. 이러한 방식에 의하여, d는 시간 및 주파수 측에서 변화될 수 있다.

따라서, 정규 모드에서, 다운믹서(16)는 모든 객체들 S₁ 내지 S_N을 어떠한 선호도를 부여하지 않고(즉, 모든 객체들 S₁ 내지 S_N을 동일하게 처리(handling)) 믹싱한다.

디코더 측에서, 업믹서는 즉, 2-채널 다운믹스의 경우에서, 하나의 계산 단계에서 매트릭스 R(특정 문헌에서는 종종 A로 지칭됨)에 의해 표현되는 "렌더링 정보"(26)의 구현 및 다운믹스 절차의 반전을 수행한다.

여기서 매트릭스 E는 파라미터들 OLD 및 IOC에 대한 함수이며, 매트릭스 D는 이하와 같이 다운믹싱 계수들을 포함한다:

매트릭스 E는 오디오 객체들 S₁ 내지 S_N의 추정된 공분산 매트릭스이다. 현재의 SAOC 구현들에서, 추정된 공분산 매트릭스 E의 계산은 SAOC 파라미터들(즉, 각각 (l,m))의 스펙트럼/시간적 분해능에서 전형적으로 수행되어, 추정된 공분산 매트릭스는 E^l,m으로 쓰여질 수 있다. 상기 추정된 공분산 매트릭스 E^l,m은 N*N의 크기를 가지며 이의 계수들은 다음과 같이 정의된다:

따라서, 매트릭스 El,m은,

이며, 이는 이의 대각을 따라 객체 레벨 차이들(즉, i=j에 대하여

)을 가지는데, 이는 i=j에 대하여

이고,

이기 때문이다. 자신의 대각의 외부에서 상기 추정된 공분산 매트릭스 E는 객체간 크로스 코릴레이션 추정치

에 따라 가중화된, 객체들 i 및 j 각각의 객체 레벨 차이들의 기하학적 수단을 표현하는 메트릭스 계수들을 갖는다.

도 5는 SAOC 인코더(10)의 일부로서 부가-정보 추정기(Side Information Estimator:SIE)의 예시에 대한 하나의 가능한 구현 원리를 나타낸다. 상기 SAOC 인코더(10)는 믹서(16) 및 부가-정보 추정기(SIE)(17)를 포함한다. 상기 SIE는 개념적으로, 2개의 모듈들로 구성되는데, 제 1 모듈(45)은 각각의 신호의 짧은-시간기반 t/f-표현(예를 들어, STFT 또는 QMF)을 계산한다. 상기 계산된 단(short)-시간 t/f-표현은 t/f-선택적 부가-정보 추저어 모듈(t/f-SIE)인 제 2 모듈(46)로 공급된다. 상기 t/f-SIE 모듈(46)은 각각의 t/f-타일에 대한 부가 정보를 계산한다. 현재의 SAOC 구현들에서, 시간/주파수 변환은 모든 객체들 S₁ 내지 S_N에 대하여 고정되고 동일하다. 추가적으로, 상기 SAOC 파라미터들은 모든 오디오 객체들에 대하여 동일한 SAOC 프레임들을 통하여 결정되고 그리고 모든 객체들 S1 내지 SN에 대하여 동일한 시간/주파수 분해능을 가지기 때문에, 몇몇의 경우들에서의 정밀한 시간 분해능 또는 다른 경우들의 정밀한 스펙트럼 분해능에 대한 객체-특정 니즈들을 제거할 수 있다.

이하에서, 본 발명의 실시예들이 설명된다.

도 1a는 일 실시예에 따라 복수의 시간-도메인 다운믹스 샘플들을 포함하는 다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위한 디코더를 도시한다. 상기 다운믹스 신호는 둘 이상의 오디오 객체 신호들을 인코딩한다.

상기 디코더는, (예컨대, 파라메트릭 부가 정보, 예컨대, 객체 레벨 차이들에 기초하여) 복수의 분석 윈도우들을 결정하기 위한 윈도우-시퀀스 생성기(134)를 포함하는데, 여기서 분석 윈도우들 각각은 다운믹스 신호의 복수의 시간-도메인 다운믹스 샘플들을 포함한다. 복수의 분석 윈도우들 각각의 분석 윈도우는 상기 분석 윈도우의 시간-도메인 다운믹스 샘플들의 수를 표시하는 윈도우 길이를 포함한다. 윈도우-시퀀스 생성기(134)는 복수의 분석 윈도우들을 결정하도록 구성되어, 분석 윈도우들 각각에 대한 윈도우 길이가 둘 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초하게 된다. 예를 들어, 윈도우 길이는 상기 분석 윈도우가, 상기 다운믹스 신호에 의해 인코딩되는 둘 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 변경을 표시하는 트랜션트를 포함하는지 여부에 기초할 수 있다.

복수의 분석 윈도우들을 결정하기 위하여, 상기 윈도우-시퀀스 생성기(134)는, 예를 들어, 분석 윈도우들의 윈도우 길이를 결정하기 위하여, 둘 이상의 오디오 객체 신호들에 관련된 예컨대 전송된 객체 레벨 차이들과 같은 파라메트릭 부가 정보를 분석할 수 있어서, 분석 윈도우들 각각에 대한 윈도우 길이가 둘 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초하게 된다. 또는, 예를 들어, 복수의 분석 윈도우들을 결정하기 위하여, 윈도우-시퀀스 생성기(134)는 윈도우 형상들 또는 분석 윈도우들 그 자체를 분석할 수 있으며, 여기서 윈도우 형상들 또는 분석 윈도우들은, 예를 들어, 인코더로부터 디코더로 비트스트림으로 전송될 수 있으며, 그리고 여기서 분석 윈도우들 각각에 대한 윈도우 길이는 둘 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초한다.

나아가, 디코더는, 변환된 다운믹스를 획득하기 위하여, 분석 윈도우의 윈도우 길이에 기초하여 시간-도메인으로부터 시간-주파수 도메인으로 복수의 분석 윈도우들의 각각의 분석 윈도우의 복수의 시간-도메인 다운믹스 샘플들을 변환하기 위한 t/f-분석 모듈(135)을 포함한다.

추가적으로, 상기 디코더는, 오디오 출력 신호를 획득하기 위하여 둘 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 상기 변환된 다운믹스를 언-믹싱하기 위한 언-믹싱 유닛(136)을 포함한다.

이하의 실시예들은 특별한 윈도우 시퀀스 구성 메커니즘을 사용한다. 프로토타입 윈도우 함수 f(n,N_w)는 윈도우 길이 N_w에 대하여 인덱스 0≤n≤N_w-1에 대해 정의된다. 단일 윈도우 w_k(n)을 설계하는데 있어서, 3개의 제어 포인트들이 필요하며, 즉 이전의, 현재 그리고 다음의 윈도우의 중심들(c_k-1, c_k 및 c_k+1)이 필요하다.

이들을 사용하여, 윈도우잉 함수가 다음과 같이 정의된다:

실제 윈도우 위치는

인

이다(

는 다음(next) 정수 업(up)에 대한 인수를 라운딩(rounding)하는 연산을 표시하며,

는 대응하여 다음 정수 다운(down)에 대한 인수를 라운딩하는 연산을 표시한다). 상기 도시들에서 사용되는 프로토타입 윈도우 함수는 사인파 모양의 윈도우로 다음과 같이 정의되지만 다른 형태들 또한 사용될 수 있다.

트랜션트 위치 t는 3개의 윈도우들에 대한 중심들 c_k-1=t-l_b, c_k=t, 및 c_k+1=t+l_a을 정의하는데, 여기서 숫자들 l_b 및 l_a는 트랜션트 이전 및 이후의 바람직한 윈도우 범위를 정의한다.

도 9에 관하여 이후에 설명될 바와 같이, 윈도우-시퀀스 생성기(134)는, 예를 들어, 복수의 분석 윈도우들을 결정하도록 구성될 수 있어서, 트랜션트가 복수의 분석 윈도우들 중 제 1 분석 윈도우에 의해 그리고 복수의 분석 윈도우들 중 제 2 윈도우에 의해 포함되게 되며, 여기서 제 1 분석 윈도우의 중심 c_k는 c_k=t-l_b에 따른 트랜션트의 위치 t에 의해 정의되고, 그리고 제 1 분석 윈도우의 중심 c_k+1은 c_k+1=t+l_a에 따른 트랜션트의 위치 t에 의해 정의되며, 여기서 l_a 및 l_b는 숫자들이다.

도 10과 관련하여 이후에 설명될 바와 같이, 윈도우-시퀀스 생성기(134)는, 예를 들어, 복수의 분석 윈도우들을 결정하도록 구성될 수 있어서, 트랜션트가 복수의 분석 윈도우들 중 제 1 분석 윈도우에 의해 포함되게 되며, 여기서 제 1 분석 윈도우의 중심 c_k는 c_k=t에 따른 트랜션트의 위치 t에 의해 정의되며, 복수의 분석 윈도우들 중 제 2 분석 윈도우의 중심 c_k-1은 c_k-1=t-l_b에 따른 트랜션트의 위치 t에 의해 정의되며, 그리고 복수의 분석 윈도우들 중 제 3 분석 윈도우의 중심 c_k+1은 c_k+1=t+l_a에 따른 트랜션트의 위치 t에 의해 정의되며, 여기서 l_a 및 l_b는 숫자들이다.

도 11과 관련하여 이후에 설명될 바와 같이, 윈도우-시퀀스 생성기(134)는, 예를 들어, 복수의 분석 윈도우들을 결정하도록 구성될 수 있어서, 복수의 분석 윈도우들 각각은 시간-도메인 신호 샘플들의 제 1 수 또는 시간-도메인 신호 샘플들의 제 2 수를 포함하게되며, 여기서 상기 시간-도메인 신호 샘플들의 제 2 수는 시간-도메인 신호 샘플들의 제 1 수보다 크며, 그리고 상기 복수의 분석 윈도우들의 분석 윈도우들 각각은 상기 분석 윈도우가 트랜션트를 포함하는 경우 시간-도메인 신호 샘플들의 제 1 수를 포함한다.

일 실시예에서, t/f-분석 모듈(135)은, 나이퀴스트 필터 뱅크 및 QMF 필터 뱅크를 사용함으로써 시간-도메인으로부터 시간-주파수 도메인으로 분석 윈도우들 각각에 대한 시간-도메인 다운믹스 샘플들을 변환하도록 구성되며, 여기서 t/f-분석 유닛(135)은 분석 윈도우의 윈도우 길이에 기초하여 분석 윈도우들 각각에 대한 복수의 시간-도메인 신호 샘플들을 변환하도록 구성된다.

도 2a는 둘 이상의 입력 오디오 객체 신호들을 인코딩하기 위한 인코더를 도시한다. 둘 이상의 입력 오디오 객체 신호들 각각은 복수의 시간-도메인 신호 샘플들을 포함한다.

상기 인코더는 복수의 분석 윈도우들을 결정하기 위한 윈도우-시퀀스 유닛(102)을 포함한다. 분석 윈도우들 각각은 입력 오디오 객체 신호들 중 하나에 대한 복수의 시간-도메인 신호 샘플들을 포함하며, 여기서 분석 윈도우들 각각은 분석 윈도우의 시간-도메인 신호 샘플들의 수를 표시하는 윈도우 길이를 가진다. 윈도우 시퀀스 유닛(102)은 복수의 분석 윈도우들을 결정하도록 구성되어, 상기 분석 윈도우들 각각에 대한 윈도우 길이는 둘 이상의 입력 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초한다. 예를 들어, 윈도우 길이는, 둘 이상의 입력 오디오 객체 신호들 중 적어도 하나에 대한 신호 변경을 표시하는 트랜션트를 분석 윈도우가 포함하는지 여부에 기초할 수 있다.

나아가, 인코더는 변환된 신호 샘플들을 획득하기 위하여 시간-도메인으로부터 시간-주파수 도메인으로 분석 윈도우들 각각에 대한 시간-도메인 신호 샘플들을 변환하기 위한 t/f 분석 유닛(103)을 포함한다. t/f 분석 유닛(103)은 분석 윈도우의 윈도우 길이에 기초하여 분석 윈도우들 각각에 대한 복수의 시간-도메인 신호 샘플들을 변환하도록 구성될 수 있다.

추가적으로, 인코더는 변환된 신호 샘플들에 기초하여 파라메트릭 부가 정보를 결정하기 위한 PSI 추정 유닛(104)을 포함한다.

일 실시예에서, 상기 인코더는, 예를 들어, 둘 이상의 입력 오디오 객체 신호들의 복수의 객체 레벨 차이들을 결정하도록 구성되며, 그리고 객체 레벨 차이들 중 첫번째 것과 객체 레벨 차이들 중 두번째 것 간의 차이가 임계값보다 큰지 여부를 결정하고, 분석 윈도우들 각각에 대하여 둘 이상의 입력 오디오 객체 신호들 중 적어도 하나에 대한 신호 변경을 표시하는 트랜션트를 분석 윈도우가 포함하는지 여부를 결정하도록 구성된다.

일 실시예에 따라서, 트랜션트-검출 유닛(101)은 객체 레벨 차이들 중 첫번째 것과 객체 레벨 차이들 중 두번째 것 간의 차이가 임계값보다 큰지 여부를 결정하기 위하여 검출 함수 d(n)을 사용하도록 구성되며, 여기서 상기 검출 함수 d(n)은 이하와 같이 정의된다:

여기서, n은 시간 인덱스를 표시하며, i는 제 1 객체를 표시하며, j는 제 2 객체를 표시하며, b는 파라메트릭 대역을 표시한다. OLD는, 예를 들어, 객체 레벨 차이를 표시할 수 있다.

도 9와 관련되어 후술될 바와 같이, 윈도우-시퀀스 유닛(102)은, 예를 들어, 복수의 분석 윈도우들을 결정하도록 구성될 수 있어서, 둘 이상의 입력 오디오 객체 신호들 중 적어도 하나에 대한 신호 변경을 표시하는 트랜션트가, 복수의 분석 윈도우들 중 제 1 분석 윈도우에 의해 그리고 복수의 분석 윈도우들 중 제 2 분석 윈도우에 의해 포함되게 되며, 여기서 제 1 분석 윈도우의 중심 c_k는 c_k=t-l_b에 따른 트랜션트의 위치 t에 의해 정의되며, 그리고 제 1 분석 윈도우의 중심 c_k+1은 c_k+1=t+l_a에 따른 트랜션트의 위치 t에 의해 정의되며, l_a 및 l_b는 숫자들이다.

도 10과 관련되어 후술될 바와 같이, 윈도우-시퀀스 유닛(102)은, 예를 들어, 복수의 분석 윈도우들을 결정하도록 구성될 수 있어서, 둘 이상의 입력 오디오 객체 신호들 중 적어도 하나에 대한 신호 변경을 표시하는 트랜션트가 복수의 분석 윈도우들 중 제 1 분석 윈도우에 의해 포함되게 되며, 여기서 제 1 분석 윈도우의 중심 c_k는 c_k=t에 따른 트랜션트의 위치 t에 의해 정의되며, 그리고 복수의 분석 윈도우들 중 제 2 분석 윈도우의 중심 c_k-1은 c_k-1=t-l_b에 따른 트랜션트의 위치 t에 의해 정의되며, 그리고 복수의 분석 윈도우들 중 제 3 분석 윈도우의 중심 c_k+1은 c_k+1=t+l_a에 따른 트랜션트의 위치 t에 의해 정의되며, 여기서 la 및 lb는 숫자들이다.

도 11과 관련되어 후술될 바와 같이, 윈도우-시퀀스 유닛(102)은, 예를 들어, 복수의 분석 윈도우들을 결정하도록 구성될 수 있어서, 복수의 분석 윈도우들 각각은 시간-도메인 신호 샘플들의 제 1 수 또는 시간-도메인 신호 샘플들의 제 2 수를 포함하게되며, 여기서 시간-도메인 신호 샘플들의 제 2 수는 시간-도메인 신호 샘플들의 제 1 수보다 크며, 그리고 여기서 복수의 분석 윈도우들의 분석 윈도우들 각각은, 둘 이상의 입력 오디오 객체 신호들 중 적어도 하나에 대한 신호 변경을 표시하는 트랜션트를 상기 분석 윈도우가 포함하는 경우, 시간-도메인 신호 샘플들의 제 1 수를 포함한다.

일 실시예에 따라서, t/f-분석 유닛(103)은 나이퀴스트 필터 뱅크 및 QMF 필터 뱅크를 사용함으로써 시간-도메인으로부터 시간-주파수 도메인으로 분석 윈도우들 각각에 대한 시간-도메인 신호 샘플들을 변환하도록 구성되며, 여기서 t/f-분석 유닛(103)은 분석 윈도우의 윈도우 길이에 기초하여 분석 윈도우들 각각에 대한 복수의 시간-도메인 신호 샘플들을 변환하도록 구성된다.

이하에서는, 실시예들에 따라 이전기종과 호환성있는 적응형 필터 뱅크들을 사용하는 개선된 SAOC가 설명된다.

먼저, 개선된 SAOC 디코더에 의한 표준 SAOC 비트 스트림들의 디코딩이 설명된다.

개선된 SAOC 디코더는, 양호한 품질로 표준 SAOC 인코더들로부터의 비트 스트리ㅋ들을 디코딩할 수 있도록 설계된다. 상기 디코딩은 마라메트릭 재구성(reconstruction)만으로 한정되지는 않으며 가능한 잔여(residual) 스트림들은 무시된다.

도 6은 디코딩 표준 SAOC 비트 스트림들을 나타내는 일 실시예에 따라 개선된 SAOC 디코더의 블록 다이어그램을 도시한다. 볼드(bold) 검정색 기능 블록들(132, 133, 134, 135)은 진보한 프로세싱을 표시한다. 파라메트릭 부가 정보(PSI)는, 디코더에서 개별적인 객체들로부터 다운믹스 신호(DMX 오디오)를 형성하기 위하여 사용되는 다운믹스 매트릭스(D), 객체 레벨 차이들(OLD), 및 객체간 코릴레이션(IOC)의 세트들로 구성된다. 각각의 파라미터 세트는 파라미터들이 연관되는 시간 영역을 정의하는 파라미터 경계영역(border)과 연관된다. 표준 SAOC에서, 근본적인 시간/주파수-표현의 주파수 빈들은 파라메트릭 대역들로 그룹화된다. 대역들의 간격은 사람의 청각 시스템에서의 핵심 대역들과 유사하다. 이러한 동작들 모두는 모델링에 대한 부정확성들에 대한 비용과 함께 바람직한 부가 정보의 양을 줄여줄 수 있다.

SAOC에서 설명되는 바와 같이, OLD들 및 IOC들은 언-믹싱 매트릭스 G=ED ^T J를 계산하도록 사용되며, 여기서 E의 엘리먼트들은

이며, 이는 객체 크로스-코릴레이션 매트릭스를 근사화하며, i 및 j는 객체 인덱스들이며,

및

는 D의 전치(transpose)이다. 언-믹싱-매트릭스 계산기(131)는 이에 따라 언-믹스 매트릭스를 계산하도록 구성될 수 있다.

언-믹싱 매트릭스는 그리고나서, 표준 SAOC에 따라서, 시간 보간자(temporal interpolator)(132)에 의해 파라미터 프레임에 걸쳐서 이전 프레임의 언-믹싱 매트릭스로부터, 추정된 값들이 도달하는 파라미터 경계영역(border)까지 선형적으로 보간된다. 이는 각각의 시간/주파수-분석 윈도우 및 파라메트릭 대역에 대한 언-믹싱 매트릭스들을 야기한다.

언-믹싱 매트릭스들의 파라메트릭 대역 주파수 분해능은, 윈도우-주파수-분해능 적응 유닛(133)에 의해 이러한 분석 윈도우에서의 시간-주파수 표현의 분해능으로 확대된다. 시간-프레임에서의 파라메트릭 대역 b에 대하여 상기 보간된 언-믹싱 매트릭스는 G(b)로 정의되며, 동일한 언-믹싱 계수들이 상기 파라메트릭 대역 내부의 모든 주파수 빈들을 위하여 사용된다.

윈도우-시퀀스 생성기(134)는 입력 다운믹스 오디오 신호를 분석하기 위하여 적절한 윈도우잉 시퀀스를 결정하기 위하여 PSI로부터의 파라미터 설정 범위 정보를 사용하도록 구성된다. PSI에서 파라미터 설정 경계영역이 존재하는 경우 주요한 요구사항(main requirement)은 연속적인 분석 윈도우들 간의 크로스-오버 지점(cross-over point)가 이와 매칭되어야 한다는 것이다. 상기 윈도우잉은 또한 (상기 언급된 바와 같이, 언-믹싱 데이터 확대에서 사용되는) 각각의 윈도우 내의 데이터에 대한 주파수 분해능을 결정한다.

윈도우잉된 데이터는 그리고나서, t/f-분석 모듈(135)에 의하여, 예를 들어, 이산 푸리에 변환(DFT:Discrete Fourier Transform), 복합 수정된 이산 코사인 변환(CMDCT:Complex Modified Discrete Cosine Transform), 또는 이상 적츨된 이산 푸리에 변환(ODFT:Oddly stacked Discrete Fourier Transform)과 같은 적절한 시간-주파수 변환을 사용하여 주파수 도메인 표현으로 변환된다.

최종적으로, 언-믹싱 유닛(136)은 파라메트릭 재구성들 Y를 획득하기 위하여 다운믹스 신호 X의 스펙트럼 표현에 대하여 프레임-별주파수-별 빈 언-믹싱 매트릭스들(per-frame per-frequency bin un-mixing matrices)을 적용한다. 출력 채널 j는 다운믹스 채널들의 선형 조합이다.

이러한 프로세스를 통하여 획득될 수 있는 품질은, 표준 SAOC 디코더를 통하여 획득되는 결과로부터 개념적으로 구별되지 않게 될 수 있다.

상기 텍스트가 개별적인 객체들의 재구성을 기재하고 있지만, 표준 SAOC에서, 렌더링은 언-믹싱 매트릭스에 포함된다는 점(즉, 이는 파라메트릭 보간(parametric interpolation)에 포함됨)이 주목되어야 한다. 선형 연산으로서, 연산들의 순서는 중요하지 않지만 차이점에 대해서는 가치가 없다.

이하에서는, 개선된 SAOC 디코더에 의한 개선된 SAOC 비트 스트림들의 디코딩이 설명된다.

개선된 SAOC 디코더의 주요 기능은 디코딩 표준 SAOC 비트 스트림들과 관련하여 이미 상술되었다. 본 섹션은 PSI에서 도입된 개선된 SAOC 개선사항들이 양호한 인지 품질을 획득하기 위하여 어떻게 사용될 수 있는지에 대하여 기술할 것이다.

도 7은 주파수 분해능 개선사항들에 대한 디코딩을 나타내는 일 실시예에 따른 디코더의 주요 기능적인 블록들을 도시한다. 볼드 검정색 기능 블록들(132, 133, 134, 135)은 진보한 프로세싱을 표시한다.

먼저, 값-확장-오버-대역(value-expand-over-band) 유닛(141)은 각각의 파라메트릭 대역에 대한 OLD 및 IOC 값들을 상기 개선사항들에서 사용되는 주파수 분해능으로(예컨대, 1024 빈(bin)들로) 적응시킨다. 이는 파라메트릭 대역에 대응하는 주파수 빈들에 걸쳐 상기 값을 복제함으로써 수행된다. 이는 새로운 OLD들(

) 및 새로운 IOC들(

)을 야기한다.

는 주파수 빈들 f의 파라메트릭 대역들 b로의 할당을 정의하는 커널(kernal) 매트릭스이며, 아래와 같다:

이와 병렬적으로, 델타-함수-복구 유닛(142)은 확장된 OLD 및 IOC와 동일한 사이즈의 델타 함수

를 획득하기 위하여 코릴레이션 인자 파라미터화(correlation factor parameterization)를 반전시킨다.

그리고나서, 델타-적용 유닛(143)은 확장된 OLD-값들에 대하여 델타를 적용하고 그리고 획득된 고분해능(fine resolution) OLD-값들은

에 의해 획득된다.

특정 실시예에서, 언-믹싱 매트릭스들의 계산은, 디코딩 표준 SAOC 비트 스트림:

,

및

과 마찬가지로 예를 들어, 언-믹싱-매트릭스 계산기(131)에 의해 수행될 수 있다. 요구되는 경우, 렌더링 매트릭스가 언-믹싱 매트릭스 G(f)로 곱해질 수 있다. 시간 보간자(132)에 의한 시간 보간은 표준 SAOC에 따라 후속된다.

각각의 윈도우에서의 주파수 분해능이 명목적인 고주파수 분해능으로부터 상이(일반적으로 낮은)할 수 있기 때문에, 윈도우-주파수-분해능-적응 유닛(133)은 언-믹싱 매트릭스들을 적용시키는 것을 허용하기 위하여 오디오로부터 스펙트럼 데이터의 분해능과 매칭되도록 언-믹싱 매트릭스들을 적응시킬 필요가 있다. 이는, 예를 들어, 정확한 분해능에 대한 주파수 축을 통하여 계수들을 재샘플링(resampling)함으로써 이루어질 수 있다. 또는 상기 분해능들이 정수의 배수들인 경우, 낮은 분해능

에서의 하나의 주파수 빈과 대응되는 인덱스들을 고-분해능 데이터로부터 단순히 평균화시킬 수 있다.

비트 스트림으로부터의 윈도우잉 시퀀스 정보는, 인코더에서 사용되는 것에 대한 완전한 보상적인 시간-주파수 분석(fully complementary time-frequency analysis)을 획득하기 위하여 사용될 수 있으며, 또는 윈도우잉 시퀀스는 표준 SAOC 비트 스트림 디코딩에서 수행되는 것 처럼, 파라미터 경계영역들에 기초하여 구성될 수 있다. 이를 위하여, 윈도우-시퀀스 생성기(134)가 사용될 수 있다.

다운믹스 오디오의 시간-주파수 분석은 그리고나서 주어진 윈도우들을 사용하여 t/f-분석 모듈(135)에 의해 수행된다.

최종적으로, 시간적으로 보간되고 주파수적으로(가능한 경우) 적응되는 언-믹싱 매트릭스들은 입력 오디오의 시간-주파수 표현 상에서 언-믹싱 유닛(136)에 의해 적용되며, 출력 채널 j는 입력 채널들의 선형 조합으로서 획득될 수 있다.

이하에서는, 기존 호환성있는 개선된 SAOC 인코딩이 설명된다.

현재, 기존 호환성 부가 정보 부분 및 추가적인 개선사항들을 포함하는 비트스트림을 생성하는 개선된 SAOC 인코더가 설명된다. 기존의 표준 SAOC 디코더들은 PSI의 기존 호환성 부분을 디코딩하고 그리고 객체들의 재구성들을 생성할 수 있다. 개선된 SAOC 디코더에 의해 사용되는 추가된 정보는 대부분의 경우에서의 재구성들의 인지 품질을 개선시킨다. 추가적으로, 개선된 SAOC 디코더가 제한된 리소스들 상에서 실행되는 경우, 개선사항들은 무시될 수 있으며 기본 품질 재구성이 여전히 획득된다. 표준 SAOC 디코더들 및 표준 SAOC 호환가능 PSI만을 사용하는 개선된 SAOC 디코더들로부터의 재구성들은 상이하지만, 개념적으로 매우 유사하도록 판단된다(차이점은, 개선된 SAOC 디코더를 통한 디코딩 표준 SAOC 비트 스트림들의 경우와 같은 유사한 특징(nature)에 대한 것이다).

도 8은 상기 설명된 인코더의 파라메트릭 경로를 구현하는 특정 실시예에 따른 인코더의 블록 다이어그램을 도시한다. 볼드 검정 기능 블록들(102, 103)은 진보한 프로세싱을 표시한다. 특히, 도 8은 보다 유능한(capable) 디코더들에 대한 개선사항들을 통하여 이전 호환성 있는 비트 스트림을 생성하는 2-스테이지(two-stage) 인코딩의 블록 다이어그램을 도시한다.

먼저, 신호는 분석 프레임들로 서브분할되며, 분석 프레임들은 주파수-도메인으로 변환된다. 다수의 분석 프레임들은 예컨대 MPEG SAOC에서 분석 프레임들이 공통인 16 및 32의 길이들을 사용하는 고정-길이 파라미터 프레임으로 그룹화된다. 신호 특성들은 파라미터 프레임 동안에 준-정적(quasi-stationary)이며 파라미터들의 하나의 세트만을 통하여 특성화될 수 있다고 가정된다. 신호 특성들이 파라미터 프레임 내에서 변경되는 경우, 모델링 에러를 겪을 수 있으며, 이는 준-정적의 가정이 다시 수행되는 부분들로 긴 파라미터 프레임을 서브-분할하는데 있어서 이로울 것이다. 이러한 목적을 위하여, 트랜션트 검출이 요구된다.

트랜션트들은 모든 입력 객체들로부터 개별적으로 트랜션트-검출 유닛(101)에 의해 검출될 수 있으며, 그리고 객체들 중 오직 하나에서만 트랜션트 이벤트가 발생되는 경우 이러한 위치는 글로벌 트랜션트 위치로 선언된다. 트랜션트 위치에 대한 정보는 적절한 윈도우잉 시퀀스를 구성하기 위하여 사용된다. 상기 구성은 예를 들어, 이하의 로직에 기초할 수 있다.

- 디폴트(default) 윈도우 길이(즉, 디폴트 신호 변환 블록의 길이(예컨대, 2048 샘플들))를 설정

- 50 프로 오버랩되는 4개의 디폴트 윈도우들에 대응하는 파라미터 프레임 길이(예컨대, 4096 샘플들)를 설정. 파라미터 프레임들은 다수의 윈도우들을 함께 그룹화하며, 신호 기술자(descriptor)들의 단일 세트는 각각의 윈도우에 대한 개별적인 기술자들을 갖는것을 대신하여 전체 블록에 대하여 사용된다. 이는 PSI의 양을 감소시킬 수 있다.

- 트랜션트가 검출되지 않는 경우, 디폴트 윈도우들 및 완전한 파라미터 프레임 길이를 사용한다.

- 트랜션트가 검출되는 경우, 트랜션트의 위치에서의 양호한 시간 분해능을 제공하기 위하여 윈도우잉을 적응시킨다.

윈도우잉 시퀀스가 구성중인 경우, 이를 담당하는 윈도우-시퀀스 유닛(102)은 하나 이상의 분석 윈도우들로부터 파라미터 서브-프레임들을 또한 생성한다. 각각의 서브세트는 엔티티(entity)로서 분석되며, PSI-파라미터들의 오직 하나의 세트가 각각의 서브-블록에 대하여 전송된다. 표준 SAOC 호환가능한 PSI를 제공하기 위하여, 정의된 파라미터 블록 길이는 메인 파라미터 블록 길이로서 사용되며, 그리고 블록 내의 가능한 위치된 트랜션트들은 파라미터 서브세트들을 정의한다.

구성된 윈도우 시퀀스는, t/f-분석 유닛(103)에 의해 수행되는 입력 오디오 신호들의 시간-주파수 분석을 위해 출력되며, 그리고 PSI의 개선된 SAOC 개선사항 부분에서 전송된다.

각각의 분석 윈도우의 스펙트럼 데이터는 이전(예컨대, MPEG) 호환성있는 SAOC 부분에 대한 PSI를 추정하기 위하여 PSI-추정 유닛(104)에 의해 사용된다. 이는 MPEG SAOC의 파라메트릭 대역들로 스펙트럼 빈들을 그룹화함으로써 그리고 대역들에서의 IOC들, OLD들 및 절대 객체들 에너지들(NRG:absolute objects energies)을 추정함으로써 수행된다. MPEG SAOC의 표기법을 대략적으로 따르는 경우, 파라미터화 타일(parameterization tile)에서의 2개의 객체 스펙트럼들의 정규화된 결과물(product)(

및

)은 다음과 같이 정의된다:

여기서, 상기 매트릭스

는, Fn 으로부터 (파라미터 프레임의 N개의 프레임들의) 프레임 n에서의 t/f-표현 빈(bin)들을 파라메트릭 B 대역들로 맵핑하는 것을 다음과 같이 정의한다.

S ^*는 S의 공액 복소수이다. 스펙트럼 분해능은 단일 파라메트릭 블록 내의 프레임들 사이에서 변화할 수 있어서, 맵핑 매트릭스는 데이터를 공통 분해능 기반으로 컨버팅한다. 파라미터화 타일에서의 최대 객체 에너지(maximum object energy)는, 최대 객체 에너지

가 되도록 정의된다. 이러한 값을 가짐으로써, OLD들은 정규화된 객체 에너지들이 되도록 다음과 같이 정의된다.

그리고 최종적으로 IOC는 다음과 같이 크로스-전력(cross-power)들로부터 획득될 수 있다:

이는 비트 스트림의 표준 SAOC 호환가능 부분들에 대한 추정을 산출한다.

비조밀-전력-스펙트럼-재구성(coarse-power-spectrum-reconstruction) 유닛(105)은 파라미터 분석 블록에서의 스펙트럼 포락(envelope)의 개략적인(rough) 추정을 재구성하기 위하여 NRG들 및 OLD들을 사용하도록 구성된다. 상기 포락은 상기 블록에서 사용되는 가장 높은 주파수 분해능으로 구성된다.

각각의 분석 윈도우의 오리지널 스펙트럼은 상기 윈도우에서의 전력 스펙트럼을 계산하기 위한 전력-스펙트럼-추정 유닛(106)에 의해 사용된다.

획득된 전력 스펙트럼들은 주파수-분해능-적응 유닛(107)에 의해 공통 고주파수 분해능 표현으로 변환된다. 이는, 예를 들어, 전력 스펙트럼 값들을 보간함으로써, 수행될 수 있다. 그리고나서, 중간 전력 스펙트럼 프로파일(mean power spectral profile)이 파라미터 블록 내의 스펙트럼들을 평균화시킴으로써 계산된다. 이는 파라메트릭 대역 집성(parametric band aggregation)을 생략하는 OLD-추정과 대략적으로 대응된다. 획득된 스펙트럼 프로파일은 정밀한-분해능 OLD로서 고려된다.

델타-추정 유닛(108)은, 예를 들어 개략적인 전력 스펙트럼 재구성에 의해 정밀한-분해능 OLD를 분할함으로써, 수정 인자(correction factor) "델타"를 추정하도록 구성된다. 그 결과로서, 이는 개략적인 스펙트럼들의 경우 정밀한-분해능 OLD를 근사화시키기 위해 사용될 수 있는 (곱셈(multiplicative)) 수정 인자를 각각의 주파수 빈에 대하여 제공한다.

최종적으로, 델타-모델링 유닛(109)은 효율적인 전송 방식으로 상기 추정된 수정 인자를 모델링하도록 구성된다.

효율적으로, 비트 스트림에 대한 개선된 SAOC 수정들은 "델타"를 전송하기 위한 파라미터들 및 윈도우잉 시퀀스 정보로 구성된다.

이하에서는, 트랜션트 검출이 기재된다.

신호 특성들이 준-정적인 경우, (부가 정보의 양과 관련하여) 코딩 게인(coding gain)은 파라미터블록들로 몇몇의 시간 프레임들을 결합시킴으로써 획득될 수 있다. 예를 들어, 표준 SAOC에서, 종종 사용되는 값들은 파라미터 블록 별로 16 및 32 QMF 프레임들이다. 이들은 각각 1024 및 2048에 대응된다. 파라미터 블록의 길이는 고정 값 보다 먼저 설정될 수 있다. 이에 의한 하나의 직접적인 효과는, 코덱 지연(codec delay)이다(인코더는 전체 프레임에 대하여 이를 인코딩할 수 있도록 해야만 한다). 긴 파라메트릭 블록들을 사용하는 경우, 근본적으로 준-정적 가정이 위반되는 경우, 신호 특성들에서의 상당한 변경들을 검출하는데 있어서 장점이 될 것이다. 상당한 변경에 대한 위치를 발견한 이후에, 시간-도메인 신호는 거기서 분할될 수 있으며 부분들은 준-정적 가정을 보다 양호하게 다시 수행할 수 있다.

여기서, SAOC와 관련하여 사용될 수 있는 신규한 트랜션트 검출 방법이 설명된다. 페단틱(pedantic)하게 보여지는 것 처럼, 이는 트랜션트들을 위한 것은 아니지만, 예를 들어, 사운드 오프셋(sound offset)에 의해 트리거링될 수 있는 신호 파라미터화들에서의 변경들에 대신한다.

입력 신호는 짧고, 오버랩되는 프레임들로 분할되며, 상기 프레임들은 예를 들어, 이산 푸리에 변환(DFT)를 통하여 주파수-도메인으로 변환된다. 복소 스펙트럼(complex spectrum)은, 자신들의 공액 복소수들과 값들을 곱합으로써(즉, 이들의 절대 값들의 제곱) 전력 스펙트럼으로 변환된다. 그리고나서 표준 SAOC에서 사용되는 것과 유사한 파라메트릭 대역 그룹화가 사요되며, 각각의 객체에서의 각각의 시간 프레임에서의 각각의 파라메트릭 대역의 에너지가 계산된다. 상기 연산들은 다음과 같이 간단히 표현된다:

여기서 S _i(f,n)은 시간-프레임 n에서의 객체 i의 복소 스펙트럼이다. 상기 합산은 대역 b에서의 주파수 빈들 f에 걸쳐 실행된다. 데이터로부터 잡음 효과를 제거하기 위하여, 값들은 1차(first-order) IIR-필터를 통하여 로우-패스(low-pasee) 필터링된다:

여기서

는 예컨대

인, 필터 피드백 계수이다.

SAOC의 주요 파라미터화는 객체 레벨 차이(OLD)들이다. 제안된 검출 방법은 OLD들이 변경될 시점을 검출하도록 시도된다. 따라서, 모든 객체 쌍들은

를 통하여 검사된다. 모든 고유 객체 쌍들에서의 변경들은 이하에 의한 검출 함수로 합산된다:

획득된 값들은 소(small) 레벨 도출들을 필터링하기 위하여 임계값 T와 비교되며, 그리고 연속적인 검출들 간의 최소 거리 L이 시행된다(enforced). 따라서, 상기 검출 함수는 다음과 같다:

이하에서는, 개선된 SAOC 주파수 분해능이 설명된다.

표준 SAOC-분석으로부터 획득되는 주파수 분해능은 표준 SAOC에서 28의 최대 값을 가지는, 파라메트릭 대역들의 수로 한정되지는 않는다. 이들은 최저(lowest) 대역들 상의 하이브리드 필터링 스테이지에 의해 후속되는 64-대역 QMF-분석으로 구성되는 하이브리드 필터 뱅크로부터 획득되고, 이는 최대 4개의 복소 대역들로 이들을 추가적으로 분할한다. 획득된 주파수 대역들은 인간의 청각 시스템의 핵심 대역 분해능을 모방하는 파라메트릭 대역들로 그룹화된다. 상기 그룹화는 요구되는 부가 정보 데이터 레이트를 감소시킬 수 있다.

기존의 시스템은 합리적으로 낮은 데이터 레이트에서의 합리적인 분리(separation) 품질을 생성한다. 주요 문제점은 음색 사운드들의 명확한 분리에 대한 불충분한 주파수 분해능이다. 이는 객체의 음색 컴포넌트들 주변의 다른 객체들의 "헤일로(halo)"로서 보여진다. 개념적으로 이는 보코더(vocoder)-유사 잡음(artefact) 또는 거침(roughness)으로서 관찰된다. 이러한 헤일로의 악영향은 파라메트릭 주파수 분해능을 증가시킴으로써 줄어들 수 있다. 512 대역들(44.1kHz 샘플링 레이트 에서의) 이상의 분해능은 테스트 신호들에서의 개념적으로 양호한 분리를 가져온다는 점이 주목되었다. 이러한 분해능은 기존의 시스템의 하이브리드 필터링 스테이지를 확장시킴으로써 획득될 수 있지만, 하이브리드 필터들은 높은 계산 비용을 초래하는 높은 수준의 충분한 분리가 요구될 것이다.

요구되는 주파수 분해능을 획득하기 위한 간단한 방식은 DFT-기반 시간-주파수 변환을 사용하는 것이다. 이들은 고속 푸리에 변환(FFT) 알고리즘을 통하여 효율적으로 구현될 수 있다. 일반적인 DFT 대신에, CMDCT 또는 ODFT가 대안들로서 고려된다. 이러한 2개의 후자들은 특별하다(odd)는 점이며, 획득된 스펙트럼은 완전한(pure) 포지티브(positive) 및 네거티브(negative) 주파수들을 포함한다는 점이다. DFT와 비교하였을 대, 주파수 빈들은 0.5 빈-폭(width)만큼 시프팅된다. DFT에서, 빈들 중 하나의 빈은 0 Hz에서 중심을 가지며 다른 하나는 나이퀴스트 주파수에서 중심을 갖는다. ODFT와 CMDCT 간의 차이는, CMDCT가 위상 스펙트럼에 영향을 미치는 추가적인 변조후 동작(post-modulation operation)을 포함한다는 점이다. 이로부터의 장점은, 결과적인 복소 스펙트럼이, 수정된 이산 코사인 변환(MDCT) 및 수정된 이산 사인 변환(MDST)으로 구성된다는 점이다.

길이 N의 DFT-기반 변환은 N 값들을 갖는 복소 스펙트럼을 생성한다. 변환된 시퀀스가 실수(real-valued)인 경우, 이러한 값들 중 오직 N/2가 완벽한 재구성을 위해 요구되며; 다른 N/2 값들은 간단한 조작을 통하여 주어진 것들로부터 획득될 수 있다. 분석은 일반적으로, 신호로부터 N개의 시간-도메인 샘플들의 프레임을 획득하고, 값들에 대하여 윈도우잉 함수를 적용시키고, 그리고 윈도우잉된 데이터에 대한 실제 변환를 계산하는 것으로 동작된다. 연속적인 블록들은 시간적으로 50프로 오버랩되며 그리고 윈도우잉 함수들은, 연속적인 윈도우들의 스퀘어(square)들이 유나이티(unity)로 합산되도록 설계된다. 이는, 윈도우잉 함수가 상기 데이터에 대하여 두번 적용되며(시간-도메인 신호에 대한 분석에 대해서 한번 및 오버랩-추가(overlap-add) 이전에 그리고 합성 변환(synthesis transform) 이후에 두번), 신호 수정들이 없는 분석-플러스-합성 체인(analysis-plus-synthesis)은 손실이 없게(lossless)되는 것을 보장한다.

연속적인 프레임들과 2048 샘플들의 프레임 길이 간의 50프로 오버랩의 경우, 효과적인 시간 분해능은 1024 샘플들(44.1kHz 샘플링 레이트에서 23.2 ms에 대응하는) 1024 샘플들이다. 이는 2개의 이유들로 충분하지 않는데, 첫째로 표준 SAOC 인코더에 의해 생성되는 비트 스트림들을 디코딩하는 것이 바람직하며, 둘째로 필요한 경우 정교한 시간 분해능을 갖는 개선된 SAOC 인코더에서의 신호들의 분석 때문이다.

SAOC에서, 다수의 블록들을 파라미터 프레임들로 그룹화하는 것이 가능하다. 신호 특성들은 단일 파라미터 셋을 통하여 특성화될 이들에 대한 파라미터에 대하여 유사하게 된다는 것이 가정된다. 표준 SAOC에서 보통 접해지는 파라미터 프레임 길이들은 16 또는 32 QMF-프레임(표준에 의해 길이들은 최대 72까지 허용됨)이다. 유사한 그룹화가, 고주파수 분해능을 통한 필터 뱅크를 사용하는 경우 수행될 수 있다. 신호 특성들이 파라미터 프레임 동안에 변화되지 않는 경우, 그룹화는 품질 저하들이 없는 코딩 효율성을 제공한다. 하지만, 신호 특성들이 파라미터 프레임 내에서 변화되는 경우, 그룹화는 에러들을 유발한다. 표준 SAOC는 디폴트 그룹화 길이를 정의하는 것을 허용(이는 준-정적 신호들을 통하여 사용됨)하지만, 파라미터 서브-블록들을 정의하는 것을 또한 허용한다. 서브-블록들은 디폴트 길이보다 짧은 그룹화들을 정의하며, 파라미터화는 각각의 서브-블록에 대하여 개별적으로 수행된다. QMF-뱅크의 시간적인 분해능 때문에, 결과적인 시간적 분해능은 64 시간-도메인 샘플들이되며, 이는 고주파수 분해능을 갖는 고정된 필터 뱅크를 사용하여 획득가능한 분해능 보다 매우 정밀한 분해능이 된다. 이러한 요구사항은 개선된 SAOC 디코더에 영향을 미친다.

긴(large) 변환 길이를 갖는 필터 뱅크를 사용하는 것은 양호한 주파수 분해능을 제공하지만, 시간적 분해능은 동시에 저하된다(소위 불확실 원리). 신호 특성들이 단일 분석 프레임 내에서 변화되는 경우, 낮은 시간적 분해능은 합성 출력에서의 블러링(blurring)을 야기할 수 있다. 그러므로, 고려가능한 신호 변경들의 위치들에서 서브-프레임 시간 분해능을 획득하는 것이 바람직할 것이다. 서브-프레임 시간 분해능은 낮은 주파수 분해능으로 본질적으로 향하지만, 신호 변경 동안에 시간 분해능이 정확하게 캡쳐되는 보다 중요한 양상인 것으로 가정된다. 이러한 서브-프레임 시간 분해능 요구사항은 주로 개선된 SAOC 인코더에(및 후속적으로 디코더에도)영향을 미친다.

동일한 해결 원리가 이하의 두개의 경우 모두에서 사용될 수 있다: 신호가 준-정적(트랜션트들이 검출되지 않음)인 경우에서 그리고 파라미터 경계영역들이 존재하지 않는 경우에서, 긴 파라미터 프레임들을 사용할 때. 2개의 조건들 중 하나가 만족되지 않는 경우, 블록 길이 스위칭 기법을 사용한다. 이러한 조건에 대한 예외는 파라미터 경계영역들에 대해 이루어질 수 있으며, 이는 분할되지 않은 프레임 그룹들 사이에서 존재하며 그리고 두개의 긴 윈도우들 사이에서의 크로스-오버-지점(cross-over point)과 일치한다(표준 SAOC 비트 스트림을 디코딩하는 동안). 이러한 경우 신호 특성이 높은 분해능 필터 뱅크에 대하여 충분하게 정적이 된다고 가정된다. 파라미터 경계영역들이 시그널링되는 경우(비트 스트림 또는 트랜션트 검출기로부터), 프레이밍(framing)은 짧은(smaller) 프레임-길이를 사용하기 위하 조정되며, 이에 따라 시간 분해능이 국지적으로 개선된다.

제 1 두개의 실시예들은 동일한 근본적인 윈도우 시퀀스 구성 매커니즘을 사용한다. 프로토타입 윈도우 함수

는 윈도우 길이 N에 대하여 인덱스

으로 정의된다. 단일 윈도우 f(n,N)을 설계하는데 있어서, 3개의 제어 지점들이 필요하며, 즉, 이전, 현재 및 다음 윈도우 중심들 c_k-1, c_k 및 c_k+1이 필요하다.

이들을 사용하여, 윈도우 함수는 다음과 같이 정의된다:

실제 윈도우 위치는

인

이다. 예시된 것에서 사용되는 프로토타입 윈도우 함수는 사인형 윈도우이며 이하와 같이 정의된다:

하지만 다른 형식들 또한 사용될 수 있다.

이하에서는, 일 실시예에 따른 트랜션트에서의 크로스-오버가 설명된다.

도 9는 "트랜션트에서의 크로스-오버" 블록 스위칭의 원리에 대하여 도시한다. 특히, 도 9는 트랜션트에서의 윈도우 크로스-오버 포인트를 수용하기 위한 정규 윈도우잉 시퀀스의 적응을 도시한다. 라인 111은 시간-도메인 신호 샘플들을 나타내며, 수직 라인 112는 검출된 트랜션트의 위치 t(또는 비트 스트림부터의 파라미터 경계영역)을 도시하며, 그리고 라인들 113은 윈도우잉 함수들 및 이들의 시간적 범위들을 도시한다. 이러한 방식은 윈도우 경사(steepness)를 정의하여, 트랜션트 주위의 2개의 윈도우들 w_k 및 w_k+1 간의 오버랩의 양을 결정하는 것을 필요로 한다. 오버랩 길이가 작은 값으로 설정되는 경우, 윈도우들은 트랜션트와 인접한 이들의 최대 포인트들을 가지며 트랜션트를 크로싱하는 섹션들은 빠르게 감쇠된다(decay). 오버랩 길이들은 또한 트랜션트 이전 및 이후에 상이하게될 수 있다. 이러한 접근에서, 트랜션트 주위의 2개의 윈도우들 또는 프레임들은 그 길이가 조정될 것이다. 트랜션트의 위치는 주위 윈도우들의 중심들을

및

가 되도록 정의하며, 여기서 l_b 및 l_a는 각각 트랜션트 이전 및 이후의 오버랩 길이이다. 이러한 정의를 통하여, 상기의 식이 사용될 수 있다.

이하에서는, 일 실시예에 따른 트랜션트 격리가 설명된다.

도 10은 일 실시예에 따른 트랜션트 격리 블록 스위칭 방식의 원리를 도시한다. 짧은 윈도우 w_k는트랜션트의 중심에 있으며, 2개의 이웃하는 윈도우들 w_k-1 및 w_k+1은 상기 짧은 윈도우를 보완하도록 조정된다. 효과적으로, 이웃하는 윈도우들은 트랜션트 위치로 한정되며 따라서 이전의 윈도우는 오직 트랜션트 이전의 신호만을 포함하며, 그리고 후속하는 윈도우는 오직 트랜션트 이후의 신호만을 포함한다. 이러한 접근에서, 트랜션트는 3개의 윈도우들의 중심들

,

및

을 정의하고, 여기서 l_b 및 l_a는 트랜션트 이전 및 이후의 요구되는 윈도우 범위를 정의한다. 이러한 정의를 통하여, 상기 식이 사용될 수 있다.

이하에서는, 일 양상에 따른 AAC-유사 프레이밍이 설명된다.

2개의 사전(eariler) 윈도우잉 방식들의 자유도(degree of fredom)들은 항상 필요하지는 않을 수 있다. 상이한 트랜션트 프로세싱은 또한 개념적인 오디오 코딩의 분야에서 사용된다. 여기서의 목적은 소위 사전-에코(pre-echo)들을 야기하는 트랜션트의 시간적 전개(spreading)을 감소시기키 위한 것이다. MEPG-2/4 AAC [AAC]에서, 2개의 기본 윈도우 길이들이 사용된다: (2048 샘플 길이를 갖는) LONG 및 (256 샘플 길이를 갖는) SHORT. 이러한 두가지 이외에도 2개의 천이 윈도우들(transition windows)이 LONG으로부터 SHORT으로 그리고 그 반대로의 천이를 야기하도록 정의된다. 추가적인 제한으로서, SHORT-윈도우들은 8개의 윈도우들의 그룹들에서 발생되는 것이 요구된다. 이러한 방식으로 윈도우 그룹들 및 윈도우들 간의 스트라이드(stride)는 1024 샘플들의 상수에 있다.

SAOC 시스템이 객체 신호들, 다운믹스 또는 잔여 객체들(object residuals)에 대한 AAC-기반 코드를 사용하는 경우, 코덱과 쉽게 동기화될 수 있는 프레이밍 기법을 갖는 것이 바람직할 것이다. 이러한 이유로, AAC-윈도우들에 기반한 블록 스위칭 기법이 설명된다.

도 11은 AAC-유사 블록 스위칭 예시를 도시한다. 특히, 도 11은 결과 AAC-유사 윈도우잉 시퀀스 및 트랜션트를 갖는 동일한 신호를 도시한다. 트랜션트의 시간 위치가 8 SHORT-윈도우들로 커버된다는 점을 볼 수 있으며, 이는 LONG-윈도우들로부터 그리고 이들로 천이 윈도우들에 의해 둘러싸여진다. 상기 도시로부터, 트랜션트는 단일 윈도우에서의 중심에 위치하지 않거나 2개의 윈도우 사이의 크로스-오버 지점에 위치하지 않는다는 점이 보여진다. 이는 윈도우 위치들이 그리드(grid)로 고정되지만 이러한 그리드는 동일한 시간에서의 일정한(constant) 스트라이드를 보장하기 때문이다. 결과 시간 라운딩 에러(resulting temporal rounding error)는 LONG-윈도우들만을 사용함에 따라 야기되는 에러들과 비교할 때 개념적으로 무관하도록 충분히 작다는 것이 가정된다.

상기 윈도우들은 이하와 같이 정의된다:

- LONG 윈도우:

인

.

- SHORT 윈도우:

인

.

- LONG으로부터 SHORT들로의 천이 윈도우

- SHORT들로부터 LONG으로의 천이 윈도우

이하에서는, 실시예들에 따른 다양한 구현들이 설명된다.

블록 스위칭 기법과 무관하게, 다른 설계 선택은 실제 t/f-변환의 길이이다. 주요한 목적이 분석 프레임들에 걸쳐 후속하는 주파수-도메인 연산들이 단순하게 되도록 하는 것이라면, 일정한(constant) 변환 길이가 사용될 수 있다. 상기 길이는 예를 들어 가장 길게 허용되는 프레임의 길이에 대응하는 대략적인 큰 값으로 설정된다. 시간-도메인 프레임이 이러한 값보다 짧은 경우, 이는 총(full) 길이로 제로-패딩(zero-pedding)된다. 상기 제로 패딩 이후에 스펙트럼이 큰 수의 빈들을 가지고 있다고 하더라도, 실제 정보의 양은 보다 짧은 변환에 비하여 증가되지 않는다는 점이 주목된다. 이러한 경우, 커널 매트릭스

는 모든 값들 n에 대하여 동일한 차원들을 갖는다.

다른 대안은 제로-패딩 없이 윈도우잉된 프레임을 변환하는 것이다. 이는 일정한(constant) 변환 길이를 갖는 것보다 적은 계산 복잡성을 갖는다. 하지만, 연속적인 프레임들 사이에서의 상이한 주파수 분해능들이 커널 매트릭스들

를 고려할 필요가 있다.

이하에서는, 일 실시예에 따른 확장된 하이브리드 필터링이 설명된다.

높은 주파수 분해능을 획득하기 위한 다른 가능성은 정교한 분해능을 위하여 표준 SAOC에서 사용되는 하이브리드 필터 뱅크를 수정하게될 것이다. 표준 SAOC에서, 64-QMF-대역들 중 가장 작은 3개는, 대역 컨텐츠를 추가적으로 서브-분할하여 나이퀴스트-필터 뱅크를 통하여 통과된다.

도 12는 확장된 QMF 하이브리드 필터링을 도시한다. 나이퀴스트 필터들은 각각의 QMF-대역에 대하여 개별적으로 반복되며, 그리고 출력들은 단일 고-분해능 스펙트럼에 대하여 결합된다. 특히, 도 12는 DFT-기반 접근과 맞먹는 주파수 분해능을 어떻게 획득하는지에 대하여 도시하며 이는 각각의 QMF-대역을 예를 들어, 16개의 서브-대역들로 서브-분할하는 것을 요구할 것이다(32개의 서브-대역들로의 복소(complex) 필터링을 요구함). 이러한 접근의 단점은 요구되는 필터 프로토타입들이 대역들의 협소함으로 인하여 길다는 점이다. 이는 소정의 프로세싱 지연을 야기하며 계산 복잡성을 증대시킨다.

대안적인 방식은 효율적인 필터 뱅크들/변환들(예컨대, "줌(zoom)" DFT, 이산 코사인 변환 등)에 의하여 나이퀴스트 필터들의 세트를 대체시킴으로써 확장된 하이브리드 필터링을 구현하는 것이다 추가적으로, 결과 고-분해능 스펙트럼 계수들에 포함되는 에일리어싱(aliasing)(이는 제 1 필터 스테이지(여기서는 QMF)의 누설 효과들에 의해 야기됨)은 공지의 MPEG-1/2 계층 3 하이브리드 필터 뱅크[FB][MPEG-1]과 유사한 고-주파수 스펙트럼 계수들을 에일리어싱 소거 사후(post)-프로세싱에 의해 실질적으로 감소될 수 있다.

도 1는 대응하는 실시예에 따라 복수의 시간-도메인 다운믹스 샘플들을 갖는 다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위한 디코더를 도시한다. 다운믹스 신호는 둘 이상의 오디오 객체 신호들을 인코딩한다.

디코더는 복수의 서브대역 샘플들을 포함하는 복수의 서브대역들을 획득하기 위하여 복수의 시간-도메인 다운믹스 샘플들을 변환하기 위한 제 1 분석 서브모듈(161)을 포함한다.

나아가, 디코더는 복수의 분석 윈도우들을 정의하기 위한 윈도우-시퀀스 생성기(162)를 포함하며, 여기서 상기 분석 윈도우들 각각은 복수의 서브대역들 중 하나에 대한 복수의 서브대역 샘플들을 포함하며, 여기서 복수의 분석 윈도우들의 각각의 분석 윈도우는 상기 분석 윈도우의 서브대역 샘플들의 수를 표시하는 윈도우 길이를 갖는다. 윈도우-시퀀스 생성기(162)는 예를 들어 파라메트릭 부가 정보에 기초하여 복수의 분석 윈도우들을 결정하도록 구성되어, 분석 윈도우들 각각에 대한 윈도우 길이는 둘 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 의존하게된다.

추가적으로, 디코더는 변환된 다운믹스를 획득하기 위하여 분석 윈도우의 윈도우 길이에 기초하여 복수의 분석 윈도우들의 각각의 분석 윈도우의 복수의 서브대역 샘플들을 변환하기 위한 제 2 분석 모듈(163)을 포함한다.

추가적으로, 디코더는 오디오 출력 신호를 획득하기 위하여 둘 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 상기 변환된 다운믹스를 언-믹싱하기 위한 언-믹싱 유닛(164)을 포함한다.

다시 말하면: 상기 변환된 2개의 단계(phase)들로 수행된다. 첫번째 변환 단계에서, 각각 복수의 서브대역 샘플들을 포함하는 복수의 서브대역들이 생성된다. 그리고나서, 두번째 변환 단계에서, 추가적인 변환이 수행된다. 그 중에서도, 두번째 단계에서 사용되는 분석 윈도우들은 결과적인 변환된 다운믹스에 대한 주파수 분해능 및 시간 분해능을 결정한다.

도 13은 짧은 윈도우들이 변환을 위하여 사용되는 일례를 도시한다. 짧은 윈도우들을 사용하는 것은 낮은 주파수 분해능을 초래하지만, 높은 시간 분해능을 갖는다. 짧은 윈도우들을 사용하는 것은, 예를 들어, 트랜션트가 인코딩된 오디오 객체 신호들(u_i,j는 서브대역 샘플들을 표시하며, 그리고 v_s,r은 시간-주파수 도메인에서의 변환된 다운믹스의 샘플들을 표시함)에서 존재하는 경우 적절할 수 있다.

도 14는 도 13에서의 예시보다 긴 윈도우들이 상기 변환을 위하여 사용되는 일례를 도시한다. 긴 윈도우들을 사용하는 것은 높은 주파수 분해능을 초래하지만, 낮은 시간 분해능을 갖는다. 긴 윈도우들을 사용하는 것은, 예를 들어, 트랜션트가 상기 인코딩된 오디오 객체 신호들에서 존재하지 않는 경우 적절할 수 있다(다시, u_i,j는 서브대역 샘플들을 표시하며, 그리고 v_s,r은 시간-주파수 도메인에서의 변환된 다운믹스의 샘플들을 표시함).

도 2b는 일 실시예에 따라 둘 이상의 입력 오디오 객체 신호들을 인코딩하기 위한 대응되는 인코더를 도시한다. 둘 이상의 입력 오디오 객체 신호들 각각은 복수의 시간-도메인 신호 샘플들을 갖는다.

인코더는 복수의 서브대역 샘플들을 포함하는 복수의 서브대역들을 획득하기 위하여 복수의 시간-도메인 신호 샘플들을 변환하기 위한 제 1 분석 서브모듈(171)을 포함한다.

나아가, 인코더는 복수의 분석 윈도우들을 결정하기 위한 윈도우-시퀀스 유닛(172)을 포함하며, 여기서 분석 윈도우들 각각은 복수의 서브대역들 중 하나에 대한 복수의 서브대역 샘플들을 포함하며, 여기서 분석 윈도우들 각각은 분석 윈도우의 서브대역 샘플들의 수를 표시하는 윈도우 길이를 가지며, 여기서 윈도우-시퀀스 유닛(172)은 복수의 분석 윈도우들을 결정하도록 구성되어, 분석 윈도우들 각각에 대한 윈도우 길이가 둘 이상의 입력 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 종속되게 한다. 예를 들어, (선택적인) 트랜션트-검출 유닛(175)은 트랜션트가 입력 오디오 객체 신호들 중 하나에 존재하는지 여부에 대한 정보를 윈도우-시퀀스 유닛(172)으로 제공할 수 있다.

게다가, 인코더는, 변환된 신호 샘플들을 획득하기 위하여 분석 윈도우의 윈도우 길이에 기초하여 복수의 분석 윈도우들 중 각각의 분석 윈도우의 복수의 서브대역 샘플들을 변환하기 위한 제 2 분석 모듈(173)을 포함한다.

나아가, 인코더는 변환된 신호 샘플들에 기초하여 파라메트릭 부가 정보를 결정하기 위한 PSI-추정 유닛(174)을 포함한다.

다른 실시예들에 따라서, 2개의 단계들에서 분석을 수행하기 위한 2개의 분석 모듈들이 제시될 수 있지만, 상기 제 2 모듈은 신호 특성에 기초하여 스위치 온 및 오프될 수 있다.

예를 들어, 높은 주파수 분해능이 요구되고 낮은 시간 분해능이 용인되는 경우, 제 2 분석 모듈은 스위치 온 될 수 있다.

반대로, 높은 시간 분해능이 요구되고 낮은 주파수 분해능이 용인되는 경우, 제 2 분석 모듈은 스위치 오프될 수 있다.

도 1c는 이러한 일 실시예에 따라서 다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위한 디코더를 도시한다. 상기 다운믹스 신호는 하나 이상의 오디오 객체 신호들을 인코딩한다.

상기 디코더는 하나 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초하여 활성 표시를 활성 상태로 설정하기 위한 제어 유닛(181)을 포함한다.

더불어, 상기 디코더는 복수의 제 1 서브대역 채널들을 포함하는 제 1 변환된 다운믹스를 획득하기 위하여 다운믹스 신호를 변환하기 위한 제 1 분석 모듈(182)을 포함한다.

추가적으로, 상기 디코더는, 활성 표시가 활성 상태로 설정되는 경우, 복수의 제 2 서브대역 채널들을 획득하기 위하여 제 1 서브대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 다운믹스를 생성하기 위한 제 2 분석 모듈(183)을 포함하며, 여기서 제 2 변환된 다운믹스는 제 2 분석 모듈에 의해 변환되지 않은 제 1 서브대역 채널들, 및 제 2 서브대역 채널들을 포함한다.

나아가, 상기 디코더는, 언-믹싱 유닛(184)을 포함하며, 여기서 상기 언-믹싱 유닛(184)은, 활성 표시가 활성 상태로 설정되는 경우, 오디오 출력 신호를 획득하기 위하여 하나 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 제 2 변환된 다운믹스를 언-믹싱하도록 구성되고, 그리고 활성 표시가 활성 상태로 설정되지 않는 경우, 오디오 출력 신호를 획득하기 위하여 하나 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 제 1 변환된 다운믹스를 언-믹싱하도록 구성된다.

도 15는 높은 주파수 분해능이 요구되고 그리고 낮은 시간 분해능이 용인되는 일례를 도시한다. 결과적으로, 제어 유닛(181)은 활성 표시를 활성 상태로 설정함으로써(예를 들어, 불린(boolean) 변수 "activation_indication"을 "activation_indication = true"로 설정함으로써) 제 2 분석 모듈을 스위치 온 시킨다. 다운믹스 신호는 제 1 변환된 다운믹스를 획득하기 위하여 제 1 분석 모듈(182)(도 15에서 도시되지 않음)에 의해 변환된다. 도 15의 예시에서, 변환된 다운믹스는, 예를 들어, 32 또는 64개의 서브대역들을 가질 수 있다. 그리고나서, 제 1 변환된 다운믹스는 제 2 변환된 다운믹스를 획득하기 위하여 제 2 분석 모듈(183)(도 15에서 도시되지 않음)에 의해 변환된다. 도 15의 예시에서, 변환된 다운믹스는 9개의 서브대역들을 갖는다. 보다 실제적인 적용 시나리오들에서, 변환된 다운믹스는, 예를 들어, 512, 1024, 또는 2048개의 서브대역들을 가질 수 있다. 언-믹싱 유닛(184)은 그리고나서 오디오 출력 신호를 획득하기 위하여 제 2 변환된 다운믹스를 언-믹싱할 것이다.

예를 들어, 언-믹싱 유닛(184)은 제어 유닛(181)으로부터 활성 표시를 수신할 수 있다. 또는, 예를 들어, 언-믹싱 유닛(184)이 제 2 분석 모듈(183)로부터 제 2 변환된 다운믹스를 수신할때마다, 언-믹싱 유닛(184)은, 제 2 변환된 다운믹스가 언-믹싱되어야 한다고 결론지으며; 언-믹싱 유닛(184)이 제 2 분석 모듈(183)로부터 제 2 변환된 다운믹스를 수신하지 않을때마다, 언-믹싱 유닛(184)은, 제 1 변환된 다운믹스가 언-믹싱되어야 한다고 결론짓는다.

도 16은 높은 시간 분해능이 요구되고 낮은 주파수 분해능이 용인되는 예시를 도시한다. 결과적으로, 제어 유닛(181)은 활성 표시를 활성 상태와는 상이한 상태로 설정함으로써(예컨대, 불린(boolean) 변수 "activation_indication"을 "activation_indication = false"로 설정함으로써) 제 2 분석 모듈을 스위치 오프 시킨다. 다운믹스 신호는 제 1 변환된 다운믹스를 획득하기 위하여 제 1 분석 모듈(182)(도 16에서 도시되지 않음)에 의해 변환된다. 그리고나서, 도 15와는 달리, 제 1 변환된 다운믹스는 제 2 분석 모듈(183)에 의하여 한번더 변환되지는 않는다. 대신에, 언-믹싱 유닛(184)은 오디오 출력 신호를 획득하기 위하여 제 1 변환된 다운믹스를 언-믹싱할 것이다.

일 실시예에 따라서, 제어 유닛(181)은 하나 이상의 오디오 객체 신호들 중 적어도 하나가 하나 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 변경을 표시하는 트랜션트를 포함하는지 여부에 기초하여 활성 표시를 활성 상태로 설정하도록 구성된다.

다른 실시예에서, 서브대역 변환 표시는 제 1 서브대역 채널들 각각으로 할당된다. 제어 유닛(181)은 하나 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초하여 서브대역-변환 상태로 상기 제 1 서브대역 채널들 각각에 대한 서브대역 변환 표시를 설정하도록 구성된다. 더불어, 제 2 분석 모듈(183)은, 복수의 제 2 서브대역 채널들을 획득하기 위하여 제 1 서브대역 채널들 각각을 변환하도록 구성되며, 이들의 서브대역 변환 표시는 서브대역-변환 상태로 설정되며, 그리고 상기 제 2 분석 모듈(183)은 제 2 서브대역 채널들 각각을 변환하지 않도록 구성되며, 이들의 서브대역 변환 표시는 서브대역-변환 상태로 설정되지 않는다.

도 17은, 제어 유닛(181)(도 17에서 도시되지 않음)이 제 2 서브대역의 서브대역 변환 표시를 서브대역-변환 상태로 설정(예컨대, 불린 변수 "subband_transform_indication_2"를 "subband_trasform_indication_2 = true"로 설정)한 일례를 도시한다. 따라서, 제 2 분석 모듈(183)(도 17에서 도시되지 않음)은 3개의 새로운 "정밀-분해능" 서브대역들을 획득하기 위하여 제 2 서브대역을 변환한다. 도 17의 예시에서, 제어 유닛(181)은 제 1 및 제 3 서브대역의 서브대역 변환 표시를 서브대역-변환 상태로 설정하지 않았다 (예를 들어, 이는 제어 유닛(181)에 의하여 불린 변수들 "subband_transform_indication_1" 및 "subband_transform_indication_3"을 "subband_transform_indication_1 = false" 및 "subband_transform_indication_3 = false"로 설정함으로써 표시될 수 있다). 따라서, 제 2 변환 모듈(183)은 제 1 및 제 3 서브대역을 변환하지 않는다. 대신에, 제 1 서브대역 및 제 3 서브대역은 제 2 변환된 다운믹스의 서브대역들로서 사용된다.

도 18은, 제어 유닛(181)(도 18에서 도시되지 않음)이 제 1 및 제 2 서브대역을 서브대역-변환 상태로 설정(예컨대, 불린 변수 "subband_transform_indication_1"을 "subband_transform_indication_1 = true"으로 설정하고 그리고 불린 변수 "subband_transform_indication_2"를 "subband_transform_indication_2 = true"로 설정)한 일례를 도시한다. 따라서, 제 2 분석 모듈(183)(도 18에서 도시되지 않음)은 6개의 새로운 "정밀-분해능" 서브대역들을 획득하기 위하여 제 1 및 제 2 서브대역을 변환한다. 도 18의 예시에서, 제어 유닛(181)은 제 3 서브대역의 서브대역 변환 표시를 서브대역 변환 상태로 설정하지 않았다 (예를 들어, 이는, "subband_transform_indication_3"을 "subband_transform_indication_2 = false"로 설정함으로써 표시될 수 있다). 따라서, 제 2 분석 모듈(183)은 제 3 서브대역을 변환하지 않는다. 대신에, 제 3 서브대역은 제 2 변환된 다운믹스의 서브대역으로서 사용된다.

일 실시예에 따라서, 제 1 분석 모듈(182)은 QMF를 사용함으로써 복수의 제 1 서브대역 채널들을 포함하는 제 1 변환된 다운믹스를 획득하기 위하여 다운믹스 신호를 변환하도록 구성된다.

일 실시예에서, 제 1 분석 모듈(182)은, 제 1 분석 윈도우 길이에 기초하여 다운믹스 신호를 변환하도록 구성되며, 여기서, 상기 제 1 분석 윈도우 길이는 신호 특성에 종속적이며, 그리고/또는 제 2 분석 모듈(183)은, 활성 표시가 활성 상태로 설정되는 경우, 제 2 분석 윈도우 길이에 기초하여 제 1 서브대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 다운믹스를 생성하도록 구성되며, 여기서, 제 2 분석 윈도우 길이는 상기 신호 특성에 종속적이다. 이러한 실시예는, 제 2 분석 모듈(183)을 스위치 온 및 스위치 오프시키도록 그리고 분석 윈도우의 길이를 설정하도록 달성된다.

일 실시예에서, 디코더는 다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하도록 구성되며, 여기서 다운믹스 신호는 둘 이상의 오디오 객체 신호들을 인코딩한다. 제어 유닛(181)은 둘 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초하여 활성 표시를 활성 상태로 설정하도록 구성된다. 추가적으로, 언-믹싱 유닛(184)은, 활성 표시가 활성 상태로 설정되는 경우, 오디오 출력 신호를 획득하기 위하여 하나 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 제 2 변환된 다운믹스를 언-믹싱하도록 구성되며, 그리고 활성 표시가 활성 상태로 설정되지 않는 경우, 오디오 출력 신호를 획득하기 위하여 둘 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 제 1 변환된 다운믹스를 언-믹싱하도록 구성된다.

도 2c는 일 실시예에 따라 입력 오디오 객체 신호를 인코딩하기 위한 인코더를 도시한다.

상기 인코더는 입력 오디오 객체 신호의 신호 특성에 기초하여 활성 표시를 활성 상태로 설정하기 위한 제어 유닛(191)을 포함한다.

추가적으로, 상기 인코더는 제 1 변환된 오디오 객체 신호를 획득하기 위하여 입력 오디오 객체 신호를 변환하기 위한 제 1 분석 모듈(192)을 포함하며, 여기서 제 1 변환된 오디오 객체 신호는 복수의 제 1 서브대역 채널들을 포함한다.

추가적으로, 상기 인코더는 활성 표시가 활성 상태로 설정되는 경우 복수의 제 2 서브대역 채널들을 획득하기 위하여 복수의 제 1 서브대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 오디오 객체 신호를 생성하기 위한 제 2 분석 모듈(193)을 포함하며, 여기서 제 2 변환된 오디오 객체 신호는 제 2 분석 모듈에 의해 변환되지 않은 제 1 서브대역 채널들, 및 제 2 서브대역 채널들을 포함한다.

또한, 상기 인코더는 PSI-추정 유닛(194)을 포함하며, 여기서 상기 PSI-추정 유닛(194)은, 활성 표시가 활성 상태로 설정되는 경우 제 2 변환된 오디오 객체 신호에 기초하여 파라메트릭 부가 정보를 결정하도록 구성되며, 그리고 활성 표시가 활성 상태로 설정되지 않는 경우 제 1 변환된 오디오 객체 신호에 기초하여 파라메트릭 부가 정보를 결정하도록 구성된다.

일 실시예에 따라서, 제어 유닛(191)은 입력 오디오 객체 신호의 신호 변경을 표시하는 트랜션트를 입력 오디오 객체 신호가 포함하는지 여부에 기초하여 활성 표시를 활성 상태로 설정하도록 구성된다.

다른 실시예에서, 서브대역 변환 표시는 제 1 서브대역 채널들 각각으로 할당된다. 제어 유닛(191)은 입력 오디오 객체 신호의 신호 특성에 기초하여 제 1 서브대역 채널들 각각에 대한 서브대역 변환 표시를 서브대역-변환 상태로 설정하도록 구성된다. 제 2 분석 모듈(193)은, 복수의 제 2 변환 채널들을 획득하기 위하여 제 1 서브대역 채널들 각각을 변환하도록 구성되며, 이들의 서브대역 변환 표시는 서브대역-변환 상태로 설정되며, 그리고 제 2 분석 모듈(193)은 제 2 서브대역 채널들 각각을 변환하지 않도록 구성되며, 이들의 서브대역 변환 표시는 서브대역-변환 상태로 설정되지 않는다.

일 실시예에 따라서, 제 1 분석 모듈(192)은 QMF를 사용함으로써 입력 오디오 객체 신호들 각각을 변환하도록 구성된다.

다른 실시예에서, 제 1 분석 모듈(192)은 제 1 분석 윈도우 길이에 기초하여 입력 오디오 객체 신호를 변환하도록 구성되며, 여기서 제 1 분석 윈도우 길이는 신호 특성에 종속적이며, 그리고/또는 제 2 분석 모듈(193)은, 활성 표시가 활성 상태로 설정되는 경우, 제 2 분석 윈도우 길이에 기초하여 복수의 제 1 서브대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 오디오 객체 신호를 생성하도록 구성되며, 여기서 상기 제 2 분석 윈도우 길이는 신호 특성에 종속적이다.

다른 실시예에 따라서, 인코더는 입력 오디오 객체 신호 및 적어도 하나의 추가적인 입력 오디오 객체 신호를 인코딩하도록 구성된다. 제어 유닛(191)은 입력 오디오 객체 신호의 신호 특성에 기초하여 그리고 적어도 하나의 추가적인 입력 오디오 객체 신호의 신호 특성에 기초하여 활성 표시를 활성 상태로 설정하도록 구성된다. 제 1 분석 모듈(192)은 적어도 하나의 추가적인 제 1 변환된 오디오 객체 신호를 획득하기 위하여 적어도 하나의 추가적인 입력 오디오 객체 신호를 변환하도록 구성되며, 여기서 적어도 하나의 추가적인 제 1 변환된 오디오 객체 신호 각각은 복수의 제 1 서브대역 채널들을 포함한다. 제 2 분석 모듈(193)은, 활성 표시가 활성 상태로 설정되는 경우, 복수의 추가적인 제 2 서브대역 채널들을 획득하기 위하여 적어도 하나의 추가적인 제 1 변환된 오디오 객체 신호들 중 적어도 하나에 대한 복수의 제 1 서브대역 채널들 중 적어도 하나를 변환하도록 구성된다. 추가적으로, PSI-추정 유닛(194)은 활성 표시가 활성 상태로 설정되는 경우, 복수의 추가적인 제 2 서브대역 채널들에 기초하여 파라메트릭 부가 정보를 결정하도록 구성된다.

진보한 방법 및 장치는 고정된 필터 뱅크 또는 시간-주파수 변환을 사용하는 기존의 SAOC 프로세싱의 전술한 단점들을 완화시킨다. 양호한 주관적 오디오 품질은 SAOC 내의 오디오 객체들을 분석하고 합성하도록 사용되는 필터 뱅크들 또는 변환들의 시간/주파수 분해능을 동적으로 적응시킴으로써 획득될 수 있다. 동시에, 시간적 정확성의 부족으로 야기되는 사전(pre) 그리고 사후(post) 에코들과 유사한 잡음들 및 불충분한 스펙트럼 정확성으로 야기되는 청각적 거침(roughness) 및 더블 토크와 유사한 잡음들은 동일한 SAOC 시스템 내에서 최소화될 수 있다. 가장 중요하게, 진보한 적응형 변환을 구비한 개선된 SAOC 시스템은 표준 SAOC와의 이전 호환성을 보유하며, 이는 표준 SAOC와 맞먹는 양호한 인지 품질을 여전히 제공할 수 있다.

실시예들은, 상술된 바와 같이 오디오 인코딩 방법, 오디오 인코더 또는 관련 컴퓨터 프로그램을 제공한다. 더불어, 실시예들은 상술된 바와 같이 오디오 디코더 또는 오디오 디코딩 방법 또는 관련 컴퓨터 프로그램을 제공한다. 추가적으로, 실시예들은 인코딩된 오디오 신호 또는 상술된 바와 같이 인코딩된 오디오 신호가 저장된 저장 매체를 제공한다.

비록 몇몇의 양상들이 장치의 관점으로 기술되었다고 하더라도, 이러한 양상들 또한 대응하는 방법의 설명으로 표현될 수 있다는 점은 명확하며, 이러한 방법에서 블록 또는 디바이스는 방법 단계의 특징 또는 방법 단계와 대응된다. 비슷하게, 방법 단계들의 관점에서 설명된 양상들 또한 대응되는 블록 또는 아이템 또는 대응되는 장치의 특징에 대한 설명을 표현한다.

진보한 분해 신호(decomposed signal)는 디지털 저장 매체 상에 저장될 수 있거나 또는 무선 전송 매체 또는 인터넷과 같은 유선 전송 매체와 같은 전송 매체를 통하여 전송될 수 있다.

특정한 구현 요구사항들에 기초하여, 본 발명의 실시예들은 하드웨어에서 또는 소프트웨어에서 구현될 수 있다. 상기 구현은, 전자적으로 판독가능한 제어 신호들을 저장하는 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM, 또는 FLASH 메모리와 같은 디지털 저장 매체를 사용하여 수행될 수 있으며, 이는 각각의 방법이 수행될 수 있도록 프로그래밍가능한 컴퓨터 시스템과 협력한다(또는 협력할 수 있다).

본 발명에 따른 몇몇의 실시예들은, 여기에서 설명된 방법들 중 하나의 방법이 수행될 수 있도록, 프로그래밍가능한 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 비-일시적(non-transitory) 데이터 캐리어(carrier)를 포함한다.

일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 물건(product)으로 구현될 수 있으며, 상기 프로그램 코드는 컴퓨터 프로그램 물건이 컴퓨터 상에서 실행되는 경우 방법들 중 하나의 방법을 수행하도록 동작된다. 상기 프로그램 코드는 예를 들어, 기계(machine) 판독가능 캐리어 상에 저장될 수도 있다.

다른 실시예들은, 기계 판독가능 캐리어 상에 저장되고 여기에서 설명된 방법들 중 하나의 방법을 수행하기 위한 컴퓨터 프로그램을 포함한다.

다시 말하면, 본 방법 발명의 방법에 대한 일 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행되는 경우 여기서 설명된 방법들 중 하나의 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

본 방법 발명의 추가적인 실시예는, 여기에서 설명된 방법들 중 하나의 방법을 수행하기 위한 컴퓨터 프로그램을 포함하고 상기 컴퓨터 프로그램이 저장되는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터-판독가능 매체)이다.

본 방법 발명의 추가적인 실시예는, 여기에서 설명된 방법들 중 하나의 방법을 수행하기 위한 컴퓨터 프로그램을 표현하는 신호들의 시퀀스 또는 데이터 스트림이다. 상기 신호들의 시퀀스 또는 데이터 스트림은 예를 들어, 인터넷과 같은 데이터 통신 접속을 통하여 전달되도록 구성될 수도 있다.

추가적인 실시예는, 예를 들어, 여기에서 설명되는 방법들 중 하나의 방법을 수행하도록 구성되거나 적응되는 프로그래밍가능한 로직 디바이스 또는 컴퓨터와 같은 프로세싱 수단을 포함한다.

추가적인 실시예는 여기에서 설명되는 방법들 중 하나의 방법을 수행하기 위한 컴퓨터 프로그램이 인스톨되는 컴퓨터를 포함한다.

몇몇의 실시예들에서, 프로그래밍가능한 로직 디바이스(예를 들어, 필드 프로그래밍가능한 게이트 어레이)는 여기에서 설명되는 방법들의 일부 또는 전부의 기능들을 수행하도록 사용될 수 있다. 몇몇의 실시예들에서, 필드 프로그래밍가능한 게이트 어레이는 여기에서 설명되는 방법들 중 하나의 방법을 수행하기 위하여 마이크로프로세서와 협력할 수도 있다. 일반적으로, 상기 방법들은 임의의 하드웨어 장치에 의해 바람직하게 수행된다.

상기 설명된 실시예들은 본 발명의 원리들에 대한 예시일뿐이다. 여기에서 설명되는 세부사항들 및 배치들에 대한 수정 및 변경은 당업자에게 명백할 것이라는 점이 이해된다. 따라서, 이는 특허 청구범위의 범위에 의해서만 한정되고 그리고 여기에서의 실시예들의 설명 및 예시에 의한 방식으로 제시되는 구체적인 세부사항들에 의해 한정되지는 않는다.

[참조문헌]

[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.

[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources," 120th AES Convention, Paris, 2006.

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April, 2007.

[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) ?The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam, 2008.

[SAOC] ISO/IEC, "MPEG audio technologies ?Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010.

[AAC] Bosi, Marina; Brandenburg, Karlheinz; Quackenbush, Schuyler; Fielder, Louis; Akagiri, Kenzo; Fuchs, Hendrik; Dietz, Martin, "ISO/IEC MPEG-2 Advanced Audio Coding," J. Audio Eng. Soc, vol 45, no 10, pp. 789-814, 1997.

[ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding," IEEE ICASSP, 2010.

[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor," IEEE Transactions on Audio, Speech and Language Processing, 2010.

[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding," Signal Processing Journal, 2011.

[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation," IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.

[ISS5] Shuhua Zhang and Laurent Girin: "An Informed Source Separation System for Speech Signals," INTERSPEECH, 2011.

[ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures," AES 42nd International Conference: Semantic Audio, 2011.

[ISS7] Andrew Nesbit, Emmanuel Vincent, and Mark D. Plumbley: "Benchmarking flexible adaptive time-frequency transforms for underdetermined audio source separation," IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 37-40, 2009.

[FB] B. Edler, "Aliasing reduction in subbands of cascaded filterbanks with decimation", Electronic Letters, vol. 28, No. 12, pp. 1104-1106, June 1992.

[MPEG-1] ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC 11172, Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s,1993.

Claims

다운믹스(downmix) 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위한 디코더로서, 상기 다운믹스 신호는 하나 이상의 오디오 객체(object) 신호들을 인코딩하며, 상기 디코더는,
상기 하나 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성(property)에 기초하여 활성 표시(activation indication)를 활성 상태(activation state)로 설정하기 위한 제어 유닛(181);
복수의 제 1 서브대역 채널들을 포함하는 제 1 변환된 다운믹스를 획득하기 위하여 상기 다운믹스 신호를 변환하기 위한 제 1 분석 모듈(182);
상기 활성 표시가 상기 활성 상태로 설정되는 경우, 복수의 제 2 서브대역 채널들을 획득하기 위하여 제 1 서브대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 다운믹스를 생성하기 위한 제 2 분석 모듈(183) ― 상기 제 2 변환된 다운믹스는 상기 제 2 분석 모듈에 의해 변환되지 않은 제 1 서브대역 채널들 및 상기 제 2 서브대역 채널들을 포함함 ―; 및
언믹싱(un-mixing) 유닛(184);
을 포함하며,
상기 언믹싱 유닛(184)은, 상기 활성 표시가 상기 활성 상태로 설정되는 경우, 상기 오디오 출력 신호를 획득하기 위하여 상기 하나 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보(parametric side information)에 기초하여 상기 제 2 변환된 다운믹스를 언믹싱하도록 구성되고, 그리고 상기 활성 표시가 상기 활성 상태로 설정되지 않은 경우, 상기 오디오 출력 신호를 획득하기 위하여 상기 파라메트릭 부가 정보에 기초하여 상기 제 1 변환된 다운믹스를 언믹싱하도록 구성되고,
상기 제어 유닛(181)은 상기 하나 이상의 오디오 객체 신호들 중 적어도 하나가 상기 하나 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 변경을 표시하는 트랜션트(transient)를 포함하는지 여부에 기초하여 상기 활성 표시를 상기 활성 상태로 설정하도록 구성되는,
디코더.
제 1 항에 있어서,
서브대역 변환 표시(subband transform indication)는 상기 제 1 서브대역 채널들 각각으로 할당되며,
상기 제어 유닛(181)은 상기 하나 이상의 오디오 객체 신호들 중 적어도 하나의 신호 특성에 기초하여 상기 제 1 서브대역 채널들 각각에 대한 서브대역 변환 표시를 서브대역 변환 상태(subband-transform state)로 설정하도록 구성되며, 그리고
상기 제 2 분석 모듈(183)은, 복수의 제 2 서브대역 채널들을 획득하기 위하여, 그리고 서브대역 변환 표시가 상기 서브대역 변환 상태로 설정되지 않은 상기 제 2 서브대역 채널들 각각을 변환하지 않기 위하여, 상기 서브대역 변환 표시가 서브대역 변환 상태로 설정된 상기 제 1 서브대역 채널들 각각을 변환하도록 구성되는,
디코더.
제 1 항에 있어서,
상기 제 1 분석 모듈(182)은 직교 미러 필터(quadrature mirror filter)를 사용함으로써 복수의 제 1 서브대역 채널들을 포함하는 상기 제 1 변환된 다운믹스를 획득하기 위하여 상기 다운믹스 신호를 변환하도록 구성되는,
디코더.
제 1 항에 있어서,
상기 제 1 분석 모듈(182)은 제 1 분석 윈도우 길이(window length)에 기초하여 상기 다운믹스 신호를 변환하도록 구성되며, 여기서 상기 제 1 분석 윈도우 길이는 상기 신호 특성에 기초하며, 또는
상기 제 2 분석 모듈(183)은, 상기 활성 표시가 상기 활성 상태로 설정되는 경우, 제 2 분석 윈도우 길이에 기초하여 상기 제 1 서브대역 채널들 중 적어도 하나를 변환함으로써 상기 제 2 변환된 다운믹스를 생성하도록 구성되며, 여기서 상기 제 2 분석 윈도우 길이는 상기 신호 특성에 기초하는,
디코더.
제 1 항에 있어서,
상기 디코더는 상기 다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 상기 오디오 출력 신호를 생성하도록 구성되며, 여기서 상기 다운믹스 신호는 둘 이상의 오디오 객체 신호들을 인코딩하며,
상기 제어 유닛(181)은 상기 둘 이상의 오디오 객체 신호들 중 적어도 하나의 신호 특성에 기초하여 상기 활성 표시를 상기 활성 상태로 설정하도록 구성되며, 그리고
상기 언믹싱 유닛(184)은, 상기 활성 표시가 상기 활성 상태로 설정되는 경우, 상기 오디오 출력 신호를 획득하기 위하여 상기 하나 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 상기 제 2 변환된 다운믹스를 언믹싱하도록 구성되며, 그리고 상기 활성 표시가 상기 활성 상태로 설정되지 않는 경우, 상기 오디오 출력 신호를 획득하기 위하여 상기 둘 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 상기 제 1 변환된 다운믹스를 언믹싱하도록 구성되는,
디코더.
입력 오디오 객체 신호를 인코딩하기 위한 인코더로서,
상기 입력 오디오 객체 신호의 신호 특성에 기초하여 활성 표시를 활성 상태로 설정하기 위한 제어 유닛(191);
제 1 변환된 오디오 객체 신호를 획득하기 위하여 상기 입력 오디오 신호를 변환하기 위한 제 1 분석 모듈(192) ― 여기서, 상기 제 1 변환된 오디오 객체 신호는 복수의 제 1 서브대역 채널들을 포함함―;
상기 활성표시가 상기 활성 상태로 설정되는 경우, 복수의 제 2 서브대역 채널들을 획득하기 위하여 상기 복수의 제 1 서브대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 오디오 객체 신호를 생성하기 위한 제 2 분석 모듈(193) ― 상기 제 2 변환된 오디오 객체 신호는 상기 제 2 분석 모듈에 의해 변환되지 않은 제 1 서브대역 채널들 및 상기 제 2 서브대역 채널들을 포함함 ―; 및
PSI 추정 유닛(194);
을 포함하며,
상기 PSI 추정 유닛(194)은, 상기 활성 표시가 상기 활성 상태로 설정되는 경우, 상기 제 2 변환된 오디오 객체 신호에 기초하여 파라메트릭 부가 정보를 결정하도록 구성되며, 그리고 상기 활성 표시가 상기 활성 상태로 설정되는 않은 경우, 상기 제 1 변환된 오디오 객체 신호에 기초하여 상기 파라메트릭 부가 정보를 결정하도록 구성되고,
상기 제어 유닛(191)은, 상기 입력 오디오 객체 신호가 상기 입력 오디오 객체 신호의 신호 변경을 표시하는 트랜션트(transient)를 포함하는지 여부에 기초하여 상기 활성 표시를 상기 활성 상태로 설정하도록 구성되는,
인코더.
제 6 항에 있어서,
서브대역 변환 표시(subband transform indication)은 상기 제 1 서브대역 채널들 각각으로 할당되며,
상기 제어 유닛(191)은 상기 입력 오디오 객체 신호의 신호 특성에 기초하여 상기 제 1 서브대역 채널들 각각의 서브대역 변환 표시를 서브대역 변환 상태(subband transform state)로 설정하도록 구성되며, 그리고
상기 제 2 분석 모듈(193)은, 상기 복수의 제 2 서브대역 채널들을 획득하기 위하여, 서브대역 변환 표시가 상기 서브대역 변환 상태로 설정된 제 1 서브대역 채널들 각각을 변환하도록 구성되며, 그리고 서브대역 변환 표시가 상기 서브대역 변환 상태로 설정되지 않은 제 2 서브대역 채널들 각각을 변환하지 않도록 구성되는,
인코더.
제 6 항에 있어서,
상기 제 1 분석 모듈(192)은 직교 미러 필터(quadrature mirror filter)를 사용함으로써 상기 입력 오디오 객체 신호들 각각을 변환하도록 구성되는,
인코더.
제 6 항에 있어서,
상기 제 1 분석 모듈(192)은 제 1 분석 윈도우 길이에 기초하여 상기 입력 오디오 객체 신호를 변환하도록 구성되며, 여기서 상기 제 1 분석 윈도우 길이는 상기 신호 특성에 기초하며, 또는
상기 제 2 분석 모듈(193)은, 상기 활성 표시가 상기 활성 상태로 설정되는 경우, 상기 복수의 제 1 서브대역 채널들 중 적어도 하나를 제 2 분석 윈도우 길이에 기초하여 변환함으로써 상기 제 2 변환된 오디오 객체 신호를 생성하도록 구성되며, 여기서 상기 제 2 분석 윈도우 길이는 상기 신호 특성에 기초하는,
인코더.
제 6 항에 있어서,
상기 인코더는 상기 입력 오디오 객체 신호 및 적어도 하나의 추가 입력 오디오 객체 신호를 인코딩하도록 구성되며,
상기 제어 유닛(191)은, 상기 입력 오디오 객체 신호의 신호 특성에 기초하여 그리고 상기 적어도 하나의 추가 입력 오디오 객체 신호의 신호 특성에 기초하여 상기 활성 표시를 상기 활성 상태로 설정하도록 구성되며,
상기 제 1 분석 모듈(192)은 적어도 하나의 추가적인 제 1 변환된 오디오 객체 신호를 획득하기 위하여 적어도 하나의 추가 입력 오디오 객체 신호를 변환하도록 구성되며, 여기서 상기 적어도 하나의 추가적인 제 1 변환된 오디오 객체 신호 각각은 복수의 제 1 서브대역 채널들을 포함하며,
상기 제 2 분석 모듈(193)은, 상기 활성 표시가 상기 활성 상태로 설정되는 경우, 복수의 추가적인 제 2 서브대역 채널들을 획득하기 위하여 상기 적어도 하나의 추가적인 제 1 변환된 오디오 객체 신호들 중 적어도 하나에 대한 복수의 제 1 서브대역 채널들 중 적어도 하나를 변환하도록 구성되며, 그리고
PSI-추정 유닛(194)은 상기 활성 표시가 상기 활성 상태로 설정되는 경우, 복수의 추가적인 제 2 서브대역 채널들에 기초하여 파라메트릭 부가 정보를 결정하도록 구성되는,
인코더.
다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성함으로서 디코딩하기 위한 방법으로서, 상기 다운믹스 신호는 둘 이상의 오디오 객체 신호들을 인코딩하며, 상기 방법은:
상기 둘 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초하여 활성 표시를 활성 상태로 설정하는 단계;
복수의 제 1 서브대역 채널들을 포함하는 제 1 변환된 다운믹스를 획득하기 위하여 상기 다운믹스 신호를 변환하는 단계;
상기 활성 표시가 상기 활성 상태로 설정되는 경우, 복수의 제 2 서브대역 채널들을 획득하기 위하여 상기 제 1 서브대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 다운믹스를 생성하는 단계 ― 상기 제 2 변환된 다운믹스는 제 2 분석 모듈에 의해 변환되지 않은 제 1 서브대역 채널들 및 상기 제 2 서브대역 채널들을 포함함 ―; 및
상기 활성 표시가 상기 활성 상태로 설정되는 경우, 상기 오디오 출력 신호를 획득하기 위하여 상기 둘 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 상기 제 2 변환된 다운믹스를 언믹싱하고, 그리고 상기 활성 표시가 상기 활성 상태로 설정되지 않은 경우, 상기 오디오 출력 신호를 획득하기 위하여 상기 둘 이상의 오디오 객체 신호들에 대한 파라메트릭 부가 정보에 기초하여 상기 제 1 변환된 다운믹스를 언믹싱하는 단계;
를 포함하고,
상기 하나 이상의 오디오 객체 신호들 중 적어도 하나가 상기 하나 이상의 오디오 객체 신호들 중 적어도 하나에 대한 신호 변경을 표시하는 트랜션트(transient)를 포함하는지 여부에 기초하여 상기 활성 표시가 상기 활성 상태로 설정되는,
방법.
둘 이상의 입력 오디오 객체 신호들을 인코딩하기 위한 방법으로서,
상기 둘 이상의 입력 오디오 객체 신호들 중 적어도 하나에 대한 신호 특성에 기초하여 활성 표시를 활성 상태로 설정하는 단계;
상기 입력 오디오 객체 신호의 제 1 변환된 오디오 객체 신호를 획득하기 위하여 상기 입력 오디오 객체 신호들 각각을 변환하는 단계 ― 상기 제 1 변환된 오디오 객체 신호는 복수의 제 1 서브대역 채널들을 포함함 ―;
상기 활성 표시가 상기 활성 상태로 설정되는 경우, 복수의 제 2 서브대역 채널들을 획득하기 위하여 상기 입력 오디오 객체 신호의 제 1 변환된 오디오 객체 신호의 제 1 서브대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 오디오 객체 신호를 상기 입력 오디오 객체 신호들 각각에 대하여 생성하는 단계 ― 상기 제 2 변환된 다운믹스는 제 2 분석 모듈에 의해 변환되지 않은 제 1 서브대역 채널들 및 상기 제 2 서브대역 채널들을 포함함 ―; 및
상기 활성 표시가 상기 활성 상태로 설정된 경우, 상기 입력 오디오 객체 신호들 각각에 대한 제 2 변환된 오디오 객체 신호에 기초하여 파라메트릭 부가 정보를 결정하고, 그리고 상기 활성 표시가 상기 활성 상태로 설정되지 않은 경우 상기 입력 오디오 객체 신호들 각각에 대한 제 1 변환된 오디오 객체 신호에 기초하여 상기 파라메트릭 부가 정보를 결정하는 단계;
를 포함하고,
상기 입력 오디오 객체 신호가 상기 입력 오디오 객체 신호의 신호 변경을 표시하는 트랜션트(transient)를 포함하는지 여부에 기초하여 상기 활성 표시가 상기 활성 상태로 설정되는,
방법.
컴퓨터 또는 신호 프로세서 상에서 실행될 때 제 11 항 또는 제 12 항에 따른 방법을 구현하기 위한 컴퓨터 프로그램을 기록하는 비-일시적 컴퓨터 판독가능한 기록 매체.
삭제
삭제