KR101689489B1

KR101689489B1 - 공간 오디오 객체 코딩에서 시간/주파수 분해능의 하위 호환 가능한 동적 적응을 위한 인코더, 디코더 및 방법들

Info

Publication number: KR101689489B1
Application number: KR1020157011782A
Authority: KR
Inventors: 사스카 디쉬; 조우니 폴러스; 베른드 에들러; 올리버 헬머스; 위르겐 헤레; 써스튼 캐스트너
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2012-10-05
Filing date: 2013-10-02
Publication date: 2016-12-23
Also published as: RU2625939C2; JP2015535959A; US20150279377A1; HK1213361A1; EP2717262A1; TWI541795B; US20150221314A1; CA2886999C; BR112015007649B1; RU2015116645A; BR112015007650A2; MX350691B; TW201423729A; EP2904611B1; CA2887028A1; JP6185592B2; WO2014053548A1; CN105190747A; RU2015116287A; US9734833B2

Abstract

복수의 시간 도메인 다운믹스 샘플들을 포함하는 다운믹스 신호로부터 하나 또는 그보다 많은 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위한 디코더가 제공된다. 다운믹스 신호는 2개 또는 그보다 많은 오디오 객체 신호들을 인코딩한다. 디코더는 복수의 분석 윈도우들을 결정하기 위한 윈도우 시퀀스 생성기(134)를 포함하며, 여기서 분석 윈도우들 각각은 다운믹스 신호의 복수의 시간 도메인 다운믹스 샘플들을 포함한다. 복수의 분석 윈도우들의 각각의 분석 윈도우는 해당 분석 윈도우의 시간 도메인 다운믹스 샘플들의 수를 표시하는 윈도우 길이를 갖는다. 윈도우 시퀀스 생성기(134)는 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 특성에 좌우되게 복수의 분석 윈도우들을 결정하도록 구성된다. 더욱이, 디코더는 변환된 다운믹스를 얻기 위해, 복수의 분석 윈도우들의 각각의 분석 윈도우의 복수의 시간 도메인 다운믹스 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 시간 도메인에서 시간-주파수 도메인으로 변환하기 위한 t/f 분석 모듈(135)을 포함한다. 더욱이, 디코더는 오디오 출력 신호를 얻기 위해, 변환된 다운믹스를 2개 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로 언믹싱하기 위한 언믹싱 유닛(136)을 포함한다. 더욱이, 인코더가 제공된다.

Description

공간 오디오 객체 코딩에서 시간/주파수 분해능의 하위 호환 가능한 동적 적응을 위한 인코더, 디코더 및 방법들{Encoder, Decoder and Methods for Backward Compatible Dynamic Adaption of Time/Frequency Resolution in Spatial-Audio-Object-Coding}

본 발명은 오디오 신호 인코딩, 오디오 신호 디코딩 및 오디오 신호 처리에 관한 것으로, 특히 공간 오디오 객체 코딩(SAOC: spatial-audio-object-coding)에서 시간/주파수 분해능의 하위 호환 가능한 동적 적응을 위한 인코더, 디코더 및 방법들에 관한 것이다.

최신 디지털 오디오 시스템들에서는, 수신기 측에서의 전송된 콘텐츠의 오디오 객체 관련 수정들을 허용하는 것이 주요한 추세이다. 이러한 수정들은 공간적으로 분산된 스피커들을 통한 다채널 재생의 경우에 전용 오디오 객체들의 공간 재-포지셔닝 및/또는 오디오 신호의 선택된 부분들의 이득 수정들을 포함한다. 이는 오디오 콘텐츠의 서로 다른 부분들을 서로 다른 스피커들에 개별적으로 전달함으로써 달성될 수 있다.

즉, 오디오 처리, 오디오 송신 및 오디오 저장 기술에서는, 객체 지향 오디오 콘텐츠 재생에 대한 사용자 상호 작용을 가능하게 하고자 하는 증가하는 요구, 그리고 또한 청취 감상을 향상시키기 위해 오디오 콘텐츠 또는 그 부분들을 개별적으로 렌더링하는데 다채널 재생의 확장된 가능성들을 이용하기 위한 요구가 존재한다. 이것에 의해, 다채널 오디오 콘텐츠의 사용은 사용자에게 상당한 개선들을 가져온다. 예를 들어, 3차원 청취 감상이 얻어질 수 있는데, 이는 엔터테인먼트 애플리케이션들에 개선된 사용자 만족을 가져온다. 그러나 다채널 오디오 재생을 이용함으로써 화자 명료도가 개선될 수 있기 때문에, 다채널 오디오 콘텐츠는 또한 전문적인 환경들에도, 예를 들어 전화 회의 애플리케이션들에도 유용하다. ("오디오 객체들"로도 또한 지칭되는) 서로 다른 부분들 또는 트랙들, 예컨대 보컬 부분 또는 서로 다른 악기들의 재생 레벨 및/또는 공간적 위치를 개별적으로 조정하도록 다른 가능한 애플리케이션이 음악 작품의 청취자에게 제공될 것이다. 사용자는 음악 작품으로부터의 하나 또는 그보다 많은 부분(들)을 더 쉽게 편곡하기 위해, 교육 목적, 가라오케, 리허설 등, 개인적 취향의 이유들로 이러한 조정을 수행할 수 있다.

예를 들어, 펄스 코드 변조(PCM: pulse code modulation) 데이터 또는 심지어 압축된 오디오 포맷들의 형태로의 모든 디지털 다채널 또는 다중 객체 오디오 콘텐츠의 간단한 개별 송신은 매우 높은 비트 레이트들을 요구한다. 그러나 오디오 데이터를 비트 레이트 효율적인 방식으로 전송 및 저장하는 것이 또한 바람직하다. 따라서 다채널/다중 객체 애플리케이션들에 의해 야기되는 과도한 자원 로드를 피하기 위해 오디오 품질과 비트 레이트 요건들 사이의 적정한 트레이드오프를 받아들일 용의가 있다.

최근에, 오디오 코딩 분야에서는, 예를 들어, 동화상 전문가 그룹(MPEG: Moving Picture Experts Group) 등에 의해 다채널/다중 객체 오디오 신호들의 비트 레이트 효율적인 송신/저장을 위한 파라메트릭 기술들이 소개되었다. 일례는 채널 지향 접근 방식 [MPS, BCC]로서 MPEG 서라운드(MPS: MPEG Surround), 또는 객체 지향 접근 방식 [JSC, SAOC, SAOC1, SAOC2]로서 MPEG 공간 오디오 객체 코딩(SAOC)이다. 다른 객체 지향 접근 방식은 "인폼드 소스 분리(informed source separation)" [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]으로 지칭된다. 이러한 기술들은 채널들/객체들의 다운믹스 및 전송된/저장된 오디오 장면 및/또는 오디오 장면 내의 오디오 소스 객체들을 설명하는 추가 사이드 정보를 기초로 원하는 출력 오디오 장면 또는 원하는 오디오 소스 객체를 재구성하는 것을 목표로 한다.

이러한 시스템들에서 채널/객체 관련 사이드 정보의 추정 및 적용은 시간-주파수 선택적 방식으로 이루어진다. 따라서 이러한 시스템들은 시간-주파수 변환들, 예컨대 이산 푸리에 변환(DFT: Discrete Fourier Transform), 단시간 푸리에 변환(STFT: Short Time Fourier Transfor) 또는 직각 대칭 필터(QMF: Quadrature Mirror Filter) 뱅크들과 같은 필터 뱅크들 등을 이용한다. 이러한 시스템들의 기본 원리는 MPEG SAOC의 예를 사용하여 도 3에 도시된다.

STFT의 경우, 시간 차원은 시간-블록 번호로 표현되고, 스펙트럼 차원은 스펙트럼 계수("빈") 번호로 표현된다. QMF의 경우, 시간 차원은 시간 슬롯 번호로 표현되고, 스펙트럼 차원은 부대역 번호로 캡처된다. 제 2 필터 스테이지의 다음 적용에 의해 QMF의 스펙트럼 분해능이 개선된다면, 전체 필터 뱅크가 하이브리드 QMF로 지칭되고, 미세 분해능 부대역들은 하이브리드 부대역들로 지칭된다.

이미 앞서 언급한 바와 같이, SAOC에서는 일반적인 처리가 시간-주파수 선택적인 방식으로 실행되고, 도 3에 도시된 바와 같이 각각의 주파수 대역 내에서 아래와 같이 기술될 수 있다:

- 엘리먼트들(d _1,1 … d _N,P )로 구성된 다운믹스 행렬을 사용한 인코더 처리의 일부로서 N개의 입력 오디오 객체 신호들(s ₁ … s _N )이 P개의 채널들(x ₁ … x _P )로 다운믹스된다. 또한, 인코더는 입력 오디오 객체들의 특징들을 기술하는 사이드 정보를 추출한다(사이드 정보 추정기(SIE: side-information-estimator) 모듈). MPEG SAOC의 경우, 서로에 관한 객체 전력들의 관계들이 이러한 사이드 정보의 가장 기본적인 형태이다.

- 다운믹스 신호(들) 및 사이드 정보가 전송/저장된다. 이를 위해, 다운믹스 오디오 신호(들)는 예를 들어, MPEG-1/2 계층 II 또는 III (.mp3로도 알려짐), MPEG-2/4 고급 오디오 코딩(AAC: Advanced Audio Coding) 등과 같은 잘 알려진 지각적 오디오 코더들을 사용하여 압축될 수 있다.

- 수신 단에서, 디코더는 개념적으로, 전송된 사이드 정보를 사용하여 (디코딩된) 다운믹스 신호들로부터 원본 객체 신호들("객체 분리")을 복구하려고 시도한다. 이러한 근사화된 객체 신호들(

)은 다음에, 도 3에서 계수들(r ₁ _,1 … r _N _,M )로 기술된 렌더링 행렬을 사용하여 M개의 오디오 출력 채널들(

)로 표현된 타깃 장면으로 믹스된다. 원하는 타깃 장면은 극단적인 경우에는, 혼합물 중 단 하나의 소스 신호의 렌더링(소스 분리 시나리오)일 수도 있지만, 또한 전송되는 객체들로 구성된 다른 어떤 임의의 청각 장면일 수도 있다. 예를 들어, 출력은 단일 채널, 2-채널 스테레오 또는 5.1 다채널 타깃 장면일 수 있다.

시간-주파수 기반 시스템들은 정적 시간 및 주파수 분해능에 의한 시간-주파수(t/f) 변환을 이용할 수 있다. 어떤 일정한 t/f 분해능 그리드를 선택하는 것은 일반적으로 시간과 주파수 분해능 간의 트레이드오프를 수반한다.

일정한 t/f 분해능의 효과는 오디오 신호 혼합물에서 일반적인 객체 신호들의 예에 관해 입증될 수 있다. 예를 들어, 음색 사운드들의 스펙트럼들은 기본 주파수 및 여러 개의 배음들을 갖는 화성적으로 관련된 구조를 나타낸다. 이러한 신호들의 에너지는 특정 주파수 영역들에 집중된다. 이러한 신호들의 경우, 이용되는 t/f 표현의 높은 주파수 분해능이 신호 혼합물로부터 협대역 음색 스펙트럼 영역들을 분리하는데 유리하다. 반면, 드럼 사운드들과 같은 트랜션트(transient) 신호들은 흔히 뚜렷한 시간 구조를 갖는데, 상당한 에너지가 짧은 기간들의 시간 동안에만 존재하고 넓은 범위의 주파수들에 걸쳐 확산된다. 이러한 신호들의 경우, 이용되는 t/f 표현의 높은 시간 분해능이 신호 혼합물로부터 트랜션트 신호 부분을 분리하는데 유리하다.

현재 오디오 객체 코딩 방식들은 SAOC 처리의 시간-주파수 선택성에 있어 제한적 가변성만을 제공한다. 예컨대, MPEG SAOC [SAOC] [SAOC1] [SAOC2]는 소위 하이브리드 직각 대칭 필터 뱅크(하이브리드 QMF) 및 이것의 파라메트릭 대역들로의 이후의 그룹화의 사용에 의해 얻어질 수 있는 시간-주파수 분해능으로 제한된다. 따라서 표준 SAOC([SAOC]로 표준화된 MPEG SAOC)에서의 객체 복구는 흔히 다른 오디오 객체들로부터의 청음 가능하게 변조된 누화(예를 들어, 대화에서 동시 통화 인공물들 또는 음악에서 청각적 조도(roughness) 인공물들)로 이어지는 하이브리드 QMF의 대략적 주파수 분해능을 겪는다.

입체 음향 큐 코딩 [BCC(Binaural Cue Coding)] 및 오디오 소스들의 파라메트릭 조인트 코딩 [JSC]과 같은 오디오 객체 코딩 방식들은 또한 하나의 일정 분해능 필터 뱅크의 사용으로 제한된다. 일정 분해능 필터 뱅크 또는 변환의 실제 선택은 항상 코딩 방식의 시간 특성과 스펙트럼 특성 간의 최적성 면에서 미리 정해진 트레이드오프를 수반한다.

인폼드 소스 분리(ISS) 분야에서, 시간 주파수 변환 길이를 지각적 오디오 코딩 방식들, 예를 들어 고급 오디오 코딩(AAC)[AAC]으로부터 잘 알려진 바와 같은 신호의 특성들[ISS7]로 동적으로 적응시키는 것이 제안되었다.

본 발명의 과제는 오디오 객체 코딩에 개선된 개념들을 제공하는 것이다. 본 발명의 과제는 제 1 항에 따른 디코더에 의해, 제 5 항에 따른 디코더에 의해, 제 6 항에 따른 인코더에 의해, 제 12 항에 따른 인코더에 의해, 제 13 항에 따른 디코딩하기 위한 방법에 의해, 제 14 항에 따른 인코딩하기 위한 방법에 의해, 제 15 항에 따른 디코딩하기 위한 방법에 의해, 제 16 항에 따른 인코딩하기 위한 방법에 의해 그리고 제 17 항에 따른 컴퓨터 프로그램에 의해 해결된다.

최신 기술의 SAOC와는 대조적으로,

- 표준 SAOC 인코더([SAOC]로 표준화된 MPEG SAOC)로부터 발생한 SAOC 파라미터 비트 스트림들이 여전히 강화된 디코더에 의해 표준 디코더로 얻어진 것과 비슷한 지각 품질로 디코딩될 수 있고,

- 강화된 SAOC 파라미터 비트 스트림들이 강화된 디코더에 의해 최적의 품질로 디코딩될 수 있고,

- 표준 및 강화된 SAOC 파라미터 비트 스트림들이 예를 들어, 다중 포인트 제어 유닛(MCU: multi-point control unit) 시나리오에서, 표준 또는 강화된 디코더로 디코딩될 수 있는 하나의 공통 비트 스트림으로 혼합될 수 있도록,

하위 호환성 있는 방식으로 시간-주파수 분해능을 신호로 동적으로 적응시키도록 실시예들이 제공된다.

위에 언급한 특성들에 대해, 신규한 강화된 SAOC 데이터의 디코딩, 그리고 동시에, 종래의 표준 SAOC 데이터의 하위 호환 가능 맵핑을 지원하도록 시간-주파수 분해능이 동적으로 적응될 수 있는 공통 필터 뱅크/변환 표현을 제공하는 것이 유용하다. 이러한 공통 표현이 주어지면, 강화된 SAOC 데이터와 표준 SAOC 데이터의 병합이 가능하다.

오디오 객체 큐들을 추정하는데 이용되거나 이들을 입력 오디오 객체의 특정한 특성들로 합성하는데 사용되는 필터 뱅크 또는 변환의 시간-주파수 분해능을 동적으로 적응시킴으로써 강화된 SAOC 지각 품질이 얻어질 수 있다. 예컨대, 오디오 객체가 특정 시간 기간 동안 반-정적이라면, 대략적 시간 분해능 및 미세 주파수 분해능에 대해 파라미터 추정 및 합성이 유리하게 수행된다. 오디오 객체가 특정 시간 기간 동안 트랜션트들 또는 비-고정들을 포함한다면, 미세 시간 분해능 및 대략적 주파수 분해능을 사용하여 파라미터 추정 및 합성이 유리하게 이루어진다. 이로써, 필터 뱅크 또는 변환의 동적 적응은 다음을 감안한다:

- 객체 간 누화를 피하기 위해 반-정적 신호들의 스펙트럼 분리에서의 고주파 선택성, 그리고

- 프리 및 포스트 에코들을 최소화하기 위해 객체 시작들 또는 트랜션트 이벤트들에 대한 높은 시간 정확도.

동시에, 표준 SAOC 데이터를 객체 신호 특징들을 기술하는 사이드 정보에 의존하는 본 발명의 하위 호환 가능 신호 적응성 변환에 의해 제공되는 시간-주파수 그리드에 맵핑함으로써 종래의 SAOC 품질이 얻어질 수 있다.

하나의 공통 변환을 이용하여 표준 및 강화된 SAOC 데이터 모두를 디코딩할 수 있는 것은 표준 및 신규한 강화된 SAOC 데이터의 믹싱을 포괄하는 애플리케이션들에 대한 직접적인 하위 호환성을 가능하게 한다.

복수의 시간 도메인 다운믹스 샘플들을 포함하는 다운믹스 신호로부터 하나 또는 그보다 많은 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위한 디코더가 제공된다. 다운믹스 신호는 2개 또는 그보다 많은 오디오 객체 신호들을 인코딩한다.

디코더는 복수의 분석 윈도우들을 결정하기 위한 윈도우 시퀀스 생성기를 포함하며, 여기서 분석 윈도우들 각각은 다운믹스 신호의 복수의 시간 도메인 다운믹스 샘플들을 포함한다. 복수의 분석 윈도우들의 각각의 분석 윈도우는 해당 분석 윈도우의 시간 도메인 다운믹스 샘플들의 수를 표시하는 윈도우 길이를 갖는다. 윈도우 시퀀스 생성기는 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 특성에 좌우되게 복수의 분석 윈도우들을 결정하도록 구성된다.

더욱이, 디코더는 변환된 다운믹스를 얻기 위해, 복수의 분석 윈도우들의 각각의 분석 윈도우의 복수의 시간 도메인 다운믹스 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 시간 도메인에서 시간-주파수 도메인으로 변환하기 위한 t/f 분석 모듈을 포함한다.

더욱이, 디코더는 오디오 출력 신호를 얻기 위해, 변환된 다운믹스를 2개 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로 언믹싱하기 위한 언믹싱 유닛을 포함한다.

한 실시예에 따르면, 윈도우 시퀀스 생성기는 다운믹스 신호에 의해 인코딩되는 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 변화를 나타내는 트랜션트가 복수의 분석 윈도우들 중 제 1 분석 윈도우에 의해 그리고 복수의 분석 윈도우들 중 제 2 분석 윈도우들에 의해 구성되게 복수의 분석 윈도우들을 결정하도록 구성될 수 있으며, 여기서 제 1 분석 윈도우의 중심 c _k 는 c _k = t - l _b 에 따라 트랜션트의 위치(t)에 의해 정의되고, 제 1 분석 윈도우의 중심 c _k ₊ ₁은 c _k = t + l _a 에 따라 트랜션트의 위치(t)에 의해 정의되며, l _a 와 l _b 는 개수들이다.

한 실시예에서, 윈도우 시퀀스 생성기는 다운믹스 신호에 의해 인코딩되는 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 변화를 나타내는 트랜션트가 복수의 분석 윈도우들 중 제 1 분석 윈도우로 구성되게 복수의 분석 윈도우들을 결정하도록 구성될 수 있으며, 여기서 제 1 분석 윈도우의 중심 c _k 는 c _k = t에 따라 트랜션트의 위치(t)에 의해 정의되고, 복수의 분석 윈도우들 중 제 2 분석 윈도우의 중심 c _k _-1은 c _k = t - l _b 에 따라 트랜션트의 위치(t)에 의해 정의되며, 복수의 분석 윈도우들 중 제 3 분석 윈도우의 중심 c _k ₊₁은 c _k = t + l _b 에 따라 트랜션트의 위치(t)에 의해 정의되고, l _a 와 l _b 는 개수들이다.

한 실시예에 따르면, 윈도우 시퀀스 생성기는 복수의 분석 윈도우들 각각이 제 1 개수의 시간 도메인 신호 샘플들 또는 제 2 개수의 시간 도메인 신호 샘플들을 포함하게 복수의 분석 윈도우들을 결정하도록 구성될 수 있으며, 여기서 제 2 개수의 시간 도메인 신호 샘플들은 제 1 개수의 시간 도메인 신호 샘플들보다 더 많고, 복수의 분석 윈도우들의 분석 윈도우들 각각은 해당 분석 윈도우가 다운믹스 신호에 의해 인코딩되는 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 변화를 나타내는 트랜션트를 포함할 때 제 1 개수의 시간 도메인 신호 샘플들을 포함한다.

한 실시예에서, t/f 분석 모듈은 QMF 필터 뱅크 및 나이퀴스트 필터 뱅크를 이용함으로써 분석 윈도우들 각각의 분석 윈도우의 시간 도메인 다운믹스 샘플들을 시간 도메인에서 시간-주파수 도메인으로 변환하도록 구성될 수 있으며, 여기서 t/f 분석 유닛(135)은 분석 윈도우들의 각각의 분석 윈도우의 복수의 시간 도메인 신호 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 변환하도록 구성된다.

더욱이, 2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 인코더가 제공된다. 2개 또는 그보다 많은 입력 오디오 객체 신호들 각각은 복수의 시간 도메인 신호 샘플들을 포함한다. 인코더는 복수의 분석 윈도우들을 결정하기 위한 윈도우 시퀀스 유닛을 포함한다. 분석 윈도우들 각각은 입력 오디오 객체 신호들 중 하나의 입력 오디오 객체 신호의 복수의 시간 도메인 신호 샘플들을 포함하고, 여기서 분석 윈도우들 각각은 해당 분석 윈도우의 시간 도메인 신호 샘플들의 수를 표시하는 윈도우 길이를 갖는다. 윈도우 시퀀스 유닛은 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 특성에 좌우되게 복수의 분석 윈도우들을 결정하도록 구성된다.

더욱이, 인코더는 변환된 신호 샘플들을 얻기 위해, 분석 윈도우들의 각각의 분석 윈도우의 시간 도메인 신호 샘플들을 시간 도메인에서 시간-주파수 도메인으로 변환하기 위한 t/f 분석 유닛을 포함한다. t/f 분석 유닛은 분석 윈도우들의 각각의 분석 윈도우의 복수의 시간 도메인 신호 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 변환하도록 구성된다.

더욱이, 인코더는 변환된 신호 샘플들에 따라 파라메트릭 사이드 정보를 결정하기 위한 PSI 추정 유닛을 포함한다.

한 실시예에서, 인코더는 2개 또는 그보다 많은 입력 오디오 객체 신호들의 복수의 객체 레벨 차이들을 결정하도록 구성되고, 객체 레벨 차이들 중 제 1 객체 레벨 차이와 객체 레벨 차이들 중 제 2 객체 레벨 차이 간의 차가 임계값보다 더 큰지 여부를 결정하여, 분석 윈도우들 각각에 대해, 해당 분석 윈도우가 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 변화를 나타내는 트랜션트를 포함하는지 여부를 결정하도록 구성되는 트랜션트 검출 유닛을 더 포함할 수도 있다.

한 실시예에 따르면, 트랜션트 검출 유닛은 객체 레벨 차이들 중 제 1 객체 레벨 차이와 객체 레벨 차이들 중 제 2 객체 레벨 차이 간의 차가 임계값보다 더 큰지 여부를 결정하기 위해 검출 함수 d(n)을 이용하도록 구성될 수 있으며, 여기서 검출 함수 d(n)은 다음과 같이 정의되고:

여기서 n은 인덱스를 나타내고, 여기서 i는 제 1 객체를 나타내고, j는 제 2 객체를 나타내고, b는 파라메트릭 대역을 나타낸다. OLD는 예를 들어, 객체 레벨 차이를 나타낼 수 있다.

한 실시예에서, 윈도우 시퀀스 유닛은 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 변화를 나타내는 트랜션트가 복수의 분석 윈도우들 중 제 1 분석 윈도우로 그리고 복수의 분석 윈도우들 중 제 2 분석 윈도우로 구성되게 복수의 분석 윈도우들을 결정하도록 구성될 수 있으며, 여기서 제 1 분석 윈도우의 중심 c _k 는 c _k = t - l _b 에 따라 트랜션트의 위치(t)에 의해 정의되고, 제 1 분석 윈도우의 중심 c _k ₊ ₁은 c _k = t + l _a 에 따라 트랜션트의 위치(t)에 의해 정의되며, l _a 와 l _b 는 개수들이다.

한 실시예에 따르면, 윈도우 시퀀스 유닛은 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 변화를 나타내는 트랜션트가 복수의 분석 윈도우들 중 제 1 분석 윈도우에 의해 구성되게 복수의 분석 윈도우들을 결정하도록 구성될 수 있으며, 여기서 제 1 분석 윈도우의 중심 c _k 는 c _k = t에 따라 트랜션트의 위치(t)에 의해 정의되고, 복수의 분석 윈도우들 중 제 2 분석 윈도우의 중심 c _k _-1은 c _k = t - l _b 에 따라 트랜션트의 위치(t)에 의해 정의되며, 복수의 분석 윈도우들 중 제 3 분석 윈도우의 중심 c _k ₊₁은 c _k = t + l _b 에 따라 트랜션트의 위치(t)에 의해 정의되고, l _a 와 l _b 는 개수들이다.

한 실시예에서, 윈도우 시퀀스 유닛은 복수의 분석 윈도우들 각각이 제 1 개수의 시간 도메인 신호 샘플들 또는 제 2 개수의 시간 도메인 신호 샘플들을 포함하게 복수의 분석 윈도우들을 결정하도록 구성될 수 있으며, 여기서 제 2 개수의 시간 도메인 신호 샘플들은 제 1 개수의 시간 도메인 신호 샘플들보다 더 많고, 복수의 분석 윈도우들의 분석 윈도우들 각각은 해당 분석 윈도우가 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 변화를 나타내는 트랜션트를 포함할 때 제 1 개수의 시간 도메인 신호 샘플들을 포함한다.

한 실시예에 따르면, t/f 분석 유닛은 QMF 필터 뱅크 및 나이퀴스트 필터 뱅크를 이용함으로써 분석 윈도우들 각각의 분석 윈도우의 시간 도메인 신호 샘플들을 시간 도메인에서 시간-주파수 도메인으로 변환하도록 구성될 수 있으며, 여기서 t/f 분석 유닛은 분석 윈도우들의 각각의 분석 윈도우의 복수의 시간 도메인 신호 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 변환하도록 구성될 수 있다.

더욱이, 복수의 시간 도메인 다운믹스 샘플들을 포함하는 다운믹스 신호로부터 하나 또는 그보다 많은 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위한 디코더가 제공된다. 다운믹스 신호는 2개 또는 그보다 많은 오디오 객체 신호들을 인코딩한다. 디코더는 복수의 부대역 샘플들을 포함하는 복수의 부대역들을 얻기 위해 복수의 시간 도메인 다운믹스 샘플들을 변환하기 위한 제 1 분석 하위 모듈을 포함한다. 더욱이, 디코더는 복수의 분석 윈도우들을 결정하기 위한 윈도우 시퀀스 생성기를 포함하며, 여기서 분석 윈도우들 각각은 복수의 부대역들 중 하나의 부대역의 복수의 부대역 샘플들을 포함하고, 복수의 분석 윈도우들의 각각의 분석 윈도우는 해당 분석 윈도우의 부대역 샘플들의 수를 표시하는 윈도우 길이를 갖고, 윈도우 시퀀스 생성기는 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 특성에 좌우되게 복수의 분석 윈도우들을 결정하도록 구성된다. 더욱이, 디코더는 변환된 다운믹스를 얻기 위해, 복수의 분석 윈도우들의 각각의 분석 윈도우의 복수의 부대역 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 변환하기 위한 제 2 분석 모듈을 포함한다. 더욱이, 디코더는 오디오 출력 신호를 얻기 위해, 변환된 다운믹스를 2개 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로 언믹싱하기 위한 언믹싱 유닛을 포함한다.

더욱이, 2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 인코더가 제공된다. 2개 또는 그보다 많은 입력 오디오 객체 신호들 각각은 복수의 시간 도메인 신호 샘플들을 포함한다. 인코더는 복수의 부대역 샘플들을 포함하는 복수의 부대역들을 얻도록 복수의 시간 도메인 신호 샘플들을 변환하기 위한 제 1 분석 하위 모듈을 포함한다. 더욱이, 인코더는 복수의 분석 윈도우들을 결정하기 위한 윈도우 시퀀스 유닛을 포함하며, 여기서 분석 윈도우들 각각은 복수의 부대역들 중 하나의 부대역의 복수의 부대역 샘플들을 포함하고, 분석 윈도우들 각각은 해당 분석 윈도우의 부대역 샘플들의 수를 표시하는 윈도우 길이를 갖고, 윈도우 시퀀스 유닛은 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 특성에 좌우되게 복수의 분석 윈도우들을 결정하도록 구성된다. 더욱이, 인코더는 변환된 신호 샘플들을 얻기 위해, 복수의 분석 윈도우들의 각각의 분석 윈도우의 복수의 부대역 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 변환하기 위한 제 2 분석 모듈을 포함한다. 더욱이, 인코더는 변환된 신호 샘플들에 따라 파라메트릭 사이드 정보를 결정하기 위한 PSI 추정 유닛을 포함한다.

더욱이, 다운믹스 신호로부터 하나 또는 그보다 많은 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위한 디코더가 제공된다. 다운믹스 신호는 하나 또는 그보다 많은 오디오 객체 신호들을 인코딩한다. 디코더는 하나 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 특성에 따라 활성화 표시를 활성화 상태로 설정하기 위한 제어 유닛을 포함한다. 더욱이, 디코더는 복수의 제 1 부대역 채널들을 포함하는 제 1 변환된 다운믹스를 얻도록 다운믹스 신호를 변환하기 위한 제 1 분석 모듈을 포함한다. 더욱이, 디코더는 활성화 표시가 활성화 상태로 설정될 때, 복수의 제 2 부대역 채널들을 얻도록 제 1 부대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 다운믹스를 생성하기 위한 제 2 분석 모듈을 포함하며, 여기서 제 2 변환된 다운믹스는 제 2 분석 모듈에 의해 변환되지 않은 제 1 부대역 채널들 및 제 2 부대역 채널들을 포함한다. 더욱이, 디코더는 언믹싱 유닛을 포함하며, 여기서 언믹싱 유닛은 활성화 표시가 활성화 상태로 설정될 때, 하나 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로, 제 2 변환된 다운믹스를 언믹싱하여 오디오 출력 신호를 얻고, 활성화 표시가 활성화 상태로 설정되지 않을 때, 하나 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로, 제 1 변환된 다운믹스를 언믹싱하여 오디오 출력 신호를 얻도록 구성된다.

더욱이, 입력 오디오 객체 신호를 인코딩하기 위한 인코더가 제공된다. 인코더는 입력 오디오 객체 신호의 신호 특성에 따라 활성화 표시를 활성화 상태로 설정하기 위한 제어 유닛을 포함한다. 더욱이, 인코더는 제 1 변환된 오디오 객체 신호를 얻도록 입력 오디오 객체 신호를 변환하기 위한 제 1 분석 모듈을 포함하며, 여기서 제 1 변환된 오디오 객체 신호는 복수의 제 1 부대역 채널들을 포함한다. 더욱이, 인코더는 활성화 표시가 활성화 상태로 설정될 때, 복수의 제 2 부대역 채널들을 얻도록 제 1 부대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 오디오 객체 신호를 생성하기 위한 제 2 분석 모듈을 포함하며, 여기서 제 2 변환된 오디오 객체 신호는 제 2 분석 모듈에 의해 변환되지 않은 제 1 부대역 채널들 및 제 2 부대역 채널들을 포함한다. 더욱이, 인코더는 PSI 추정 유닛을 포함하며, 여기서 PSI 추정 유닛은 활성화 표시가 활성화 상태로 설정될 때는, 제 2 변환된 오디오 객체 신호를 기초로 파라메트릭 사이드 정보를 결정하고, 활성화 표시가 활성화 상태로 설정되지 않을 때는, 제 1 변환된 오디오 객체 신호를 기초로 파라메트릭 사이드 정보를 결정하도록 구성된다.

더욱이, 복수의 시간 도메인 다운믹스 샘플들을 포함하는 다운믹스 신호로부터 하나 또는 그보다 많은 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위해 디코딩하기 위한 방법이 제공된다. 다운믹스 신호는 2개 또는 그보다 많은 오디오 객체 신호들을 인코딩한다. 이 방법은:

- 복수의 분석 윈도우들을 결정하는 단계 ― 분석 윈도우들 각각은 다운믹스 신호의 복수의 시간 도메인 다운믹스 샘플들을 포함하고, 복수의 분석 윈도우들의 각각의 분석 윈도우는 해당 분석 윈도우의 시간 도메인 다운믹스 샘플들의 수를 표시하는 윈도우 길이를 갖고, 복수의 분석 윈도우들을 결정하는 단계는 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 특성에 좌우되도록 수행됨 ―,

- 변환된 다운믹스를 얻기 위해, 복수의 분석 윈도우들의 각각의 분석 윈도우의 복수의 시간 도메인 다운믹스 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 시간 도메인에서 시간-주파수 도메인으로 변환하는 단계, 및

- 오디오 출력 신호를 얻기 위해, 변환된 다운믹스를 2개 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로 언믹싱하는 단계를 포함한다.

더욱이, 2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 방법이 제공된다. 2개 또는 그보다 많은 입력 오디오 객체 신호들 각각은 복수의 시간 도메인 신호 샘플들을 포함한다. 이 방법은:

- 복수의 분석 윈도우들을 결정하는 단계 ― 분석 윈도우들 각각은 입력 오디오 객체 신호들 중 하나의 입력 오디오 객체 신호의 복수의 시간 도메인 신호 샘플들을 포함하고, 분석 윈도우들 각각은 해당 분석 윈도우의 시간 도메인 신호 샘플들의 수를 표시하는 윈도우 길이를 갖고, 복수의 분석 윈도우들을 결정하는 단계는 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 특성에 좌우되도록 수행됨 ―,

- 변환된 신호 샘플들을 얻기 위해, 분석 윈도우들의 각각의 분석 윈도우의 시간 도메인 신호 샘플들을 시간 도메인에서 시간-주파수 도메인으로 변환하는 단계 ― 분석 윈도우들의 각각의 분석 윈도우의 복수의 시간 도메인 신호 샘플들을 변환하는 단계는 해당 분석 윈도우의 윈도우 길이에 좌우됨 ―, 그리고

- 상기 변환된 신호 샘플들에 따라 파라메트릭 사이드 정보를 결정하는 단계를 포함한다.

더욱이, 복수의 시간 도메인 다운믹스 샘플들을 포함하며 2개 또는 그보다 많은 오디오 객체 신호들을 인코딩하는 다운믹스 신호로부터 하나 또는 그보다 많은 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성함으로써 디코딩하기 위한 방법이 제공된다. 이 방법은:

- 복수의 부대역 샘플들을 포함하는 복수의 부대역들을 얻기 위해 복수의 시간 도메인 다운믹스 샘플들을 변환하는 단계,

- 복수의 분석 윈도우들을 결정하는 단계 ― 분석 윈도우들 각각은 복수의 부대역들 중 하나의 부대역의 복수의 부대역 샘플들을 포함하고, 복수의 분석 윈도우들의 각각의 분석 윈도우는 해당 분석 윈도우의 부대역 샘플들의 수를 표시하는 윈도우 길이를 갖고, 복수의 분석 윈도우들을 결정하는 단계는 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 특성에 좌우되도록 수행됨 ―,

- 변환된 다운믹스를 얻기 위해, 복수의 분석 윈도우들의 각각의 분석 윈도우의 복수의 부대역 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 변환하는 단계, 및

- 상기 오디오 출력 신호를 얻기 위해, 변환된 다운믹스를 2개 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로 언믹싱하는 단계를 포함한다.

더욱이, 복수의 시간 도메인 신호 샘플들을 각각이 포함하는 2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 방법이 제공된다. 이 방법은:

- 복수의 부대역 샘플들을 포함하는 복수의 부대역들을 얻도록 복수의 시간 도메인 신호 샘플들을 변환하는 단계,

- 복수의 분석 윈도우들을 결정하는 단계 ― 분석 윈도우들 각각은 복수의 부대역들 중 하나의 부대역의 복수의 부대역 샘플들을 포함하고, 분석 윈도우들 각각은 해당 분석 윈도우의 부대역 샘플들의 수를 표시하는 윈도우 길이를 갖고, 복수의 분석 윈도우들을 결정하는 단계는 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 특성에 좌우되도록 수행됨 ―,

- 변환된 신호 샘플들을 얻기 위해, 복수의 분석 윈도우들의 각각의 분석 윈도우의 복수의 부대역 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 변환하는 단계, 및

더욱이, 다운믹스 신호로부터 하나 또는 그보다 많은 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성함으로써 디코딩하기 위한 방법이 제공되며, 여기서 다운믹스 신호는 2개 또는 그보다 많은 오디오 객체 신호들을 인코딩한다. 이 방법은:

- 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 특성에 따라 활성화 표시를 활성화 상태로 설정하는 단계,

- 복수의 제 1 부대역 채널들을 포함하는 제 1 변환된 다운믹스를 얻도록 다운믹스 신호를 변환하는 단계,

- 활성화 표시가 활성화 상태로 설정될 때, 복수의 제 2 부대역 채널들을 얻도록 제 1 부대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 다운믹스를 생성하는 단계 ― 제 2 변환된 다운믹스는 제 2 분석 모듈에 의해 변환되지 않은 제 1 부대역 채널들 및 제 2 부대역 채널들을 포함함 ―, 그리고

- 활성화 표시가 활성화 상태로 설정될 때는, 2개 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로 제 2 변환된 다운믹스를 언믹싱하여 오디오 출력 신호를 얻고, 활성화 표시가 활성화 상태로 설정되지 않을 때는, 2개 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로 제 1 변환된 다운믹스를 언믹싱하여 오디오 출력 신호를 얻는 단계를 포함한다.

더욱이, 2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 방법이 제공된다. 이 방법은:

- 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 특성에 따라 활성화 표시를 활성화 상태로 설정하는 단계,

- 해당 입력 오디오 객체 신호의 제 1 변환된 오디오 객체 신호를 얻도록 입력 오디오 객체 신호들 각각을 변환하는 단계 ― 상기 제 1 변환된 오디오 객체 신호는 복수의 제 1 부대역 채널들을 포함함 ―,

- 입력 오디오 객체 신호들 각각에 대해, 활성화 표시가 활성화 상태로 설정될 때, 복수의 제 2 부대역 채널들을 얻도록 해당 입력 오디오 객체 신호의 제 1 변환된 오디오 객체 신호의 제 1 부대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 오디오 객체 신호를 생성하는 단계 ― 상기 제 2 변환된 다운믹스는 제 2 분석 모듈에 의해 변환되지 않은 상기 제 1 부대역 채널들 및 상기 제 2 부대역 채널들을 포함함 ―, 그리고

- 활성화 표시가 활성화 상태로 설정될 때는, 입력 오디오 객체 신호들의 각각의 입력 오디오 객체 신호의 제 2 변환된 오디오 객체 신호를 기초로 파라메트릭 사이드 정보를 결정하고, 활성화 표시가 활성화 상태로 설정되지 않을 때는, 입력 오디오 객체 신호들의 각각의 입력 오디오 객체 신호의 제 1 변환된 오디오 객체 신호를 기초로 파라메트릭 사이드 정보를 결정하는 단계를 포함한다.

더욱이, 컴퓨터 또는 신호 프로세서 상에서 실행될 때 위에서 설명한 방법들 중 하나를 구현하기 위한 컴퓨터 프로그램이 제공된다.

선호되는 실시예들이 종속항들에 제공될 것이다.

다음에, 도면들을 참조로 본 발명의 실시예들이 더 상세히 설명된다.
도 1a는 한 실시예에 따른 디코더를 나타낸다.
도 1b는 다른 실시예에 따른 디코더를 나타낸다.
도 1c는 추가 실시예에 따른 디코더를 나타낸다.
도 2a는 한 실시예에 따라 입력 오디오 객체 신호들을 인코딩하기 위한 인코더를 나타낸다.
도 2b는 다른 실시예에 따라 입력 오디오 객체 신호들을 인코딩하기 위한 인코더를 나타낸다.
도 2c는 추가 실시예에 따라 입력 오디오 객체 신호들을 인코딩하기 위한 인코더를 나타낸다.
도 3은 SAOC 시스템의 개념적 개요의 개략적인 블록도를 보여준다.
도 4는 단일 채널 오디오 신호의 시간-스펙트럼 표현의 개략적이고 예시적인 도면을 보여준다.
도 5는 SAOC 인코더 내에서 사이드 정보의 시간-주파수 선택적 계산의 개략적 블록도를 보여준다.
도 6은 표준 SAOC 비트 스트림들의 디코딩을 설명하는 한 실시예에 따른 강화된 SAOC 디코더의 블록도를 도시한다.
도 7은 한 실시예에 따른 디코더의 블록도를 도시한다.
도 8은 인코더의 파라메트릭 경로를 구현하는 특정 실시예에 따른 인코더의 블록도를 나타낸다.
도 9는 트랜션트에서의 윈도우 크로스오버 포인트를 수용하기 위한 정상 윈도잉 시퀀스의 적응을 나타낸다.
도 10은 한 실시예에 따른 트랜션트 분리 블록 스위칭 방식을 나타낸다.
도 11은 한 실시예에 따른 트랜션트 및 결과적인 AAC형 윈도잉 시퀀스로 신호를 나타낸다.
도 12는 확장된 QMF 하이브리드 필터링을 나타낸다.
도 13은 변환을 위해 짧은 윈도우들이 사용되는 예를 나타낸다.
도 14는 도 13의 예에서보다 더 긴 윈도우들이 변환을 위해 사용되는 예를 나타낸다.
도 15는 높은 주파수 분해능 및 낮은 시간 분해능이 실현되는 예를 나타낸다.
도 16은 높은 시간 분해능 및 낮은 주파수 분해능이 실현되는 예를 나타낸다.
도 17은 중간 시간 분해능 및 중간 주파수 분해능이 실현되는 제 1 예를 나타낸다.
도 18은 중간 시간 분해능 및 중간 주파수 분해능이 실현되는 제 1 예를 나타낸다.

본 발명의 실시예들을 설명하기 전에, 최신 기술의 SAOC 시스템들에 대한 더 많은 배경이 제공된다.

도 3은 SAOC 인코더(10) 및 SAOC 디코더(12)의 일반적인 어레인지먼트를 보여준다. SAOC 인코더(10)는 입력으로서 N개의 객체들, 즉 오디오 신호들(s ₁ - s _N )을 수신한다. 특히, 인코더(10)는 오디오 신호들(s ₁ - s _N )을 수신하여 다운믹스 신호(18)와 같이 다운믹스하는 다운믹서(16)를 포함한다. 대안으로, 다운믹스는 외부적으로 제공될 수도 있으며("정교한(artistic) 다운믹스", 시스템이 추가 사이드 정보를 추정하여, 제공된 다운믹스를 계산된 다운믹스와 매칭시킨다. 도 3에서, 다운믹스 신호는 P-채널 신호로 도시된다. 따라서 임의의 모노(P=1), 스테레오(P=2) 또는 다채널 (P>2) 다운믹스 신호 구성이 가능하다.

스테레오 다운믹스의 경우, 다운믹스 신호(18)의 채널들은 L0과 R0으로 표기되고, 모노 다운믹스의 경우에 이는 단순히 L0으로 표기된다. SAOC 디코더(12)가 개별 객체들(s ₁ - s _N )을 복구할 수 있게 하기 위해, 사이드 정보 추정기(17)가 SAOC 디코더(12)에 SAOC 파라미터들을 포함하는 사이드 정보를 제공한다. 예를 들어, 스테레오 다운믹스의 경우, SAOC 파라미터들은 객체 레벨 차이들(OLD: object level differences), 객체 간 상관들(IOC: inter-object correlations)(객체 간 상호 상관 파라미터들), 다운믹스 이득 값들(DMG: downmix gain values) 및 다운믹스 채널 레벨 차이들(DCLD: downmix channel level differences)을 포함한다. 다운믹스 신호(18)와 함께, SAOC 파라미터들을 포함하는 사이드 정보(20)가 SAOC 디코더(12)에 의해 수신되는 SAOC 출력 데이터 스트림을 형성한다.

SAOC 디코더(12)는 오디오 신호들(

₁ ,

_N )을 복구하여 임의의 사용자 선택 세트의 채널들(

₁ -

_M )로 렌더링하기 위해 사이드 정보(20)뿐만 아니라 다운믹스 신호(18)도 수신하는 업믹서를 포함하는데, 렌더링은 SAOC 디코더(12)에 입력된 렌더링 정보(26)에 의해 규정된다.

오디오 신호들(s ₁ - s _N )은 임의의 코딩 도메인에서, 예컨대 시간 또는 스펙트럼 도메인에서 인코더(10)에 입력될 수 있다. 오디오 신호들(s ₁ - s _N )이 시간 도메인에서 인코더(10)에 입력되는 경우, 예컨대 PCM 코딩되는 경우, 인코더(10)는 오디오 신호들이 특정 필터 뱅크 분해능에서, 서로 다른 스펙트럼 부분들과 연관된 여러 부대역들로 표현되는 스펙트럼 도메인으로 신호들을 전환하기 위해 하이브리드 QMF 뱅크와 같은 필터 뱅크를 사용할 수 있다. 오디오 신호들(s ₁ - s _N )이 이미 인코더(10)에 의해 예상된 표현이라면, 이는 스펙트럼 분해를 수행할 필요가 없다.

도 4는 방금 언급한 스펙트럼 도메인에서의 오디오 신호를 보여준다. 확인될 수 있는 바와 같이, 오디오 신호는 복수의 부대역 신호들로 표현된다. 각각의 부대역 신호(30₁ - 30_K)는 작은 박스들(32)로 표시된 부대역 값들의 시간 시퀀스로 구성된다. 확인될 수 있는 바와 같이, 부대역 신호들(30₁ - 30_K)의 부대역 값들(32)은 연속한 필터 뱅크 시간 슬롯들(34) 각각에 대해, 각각의 부대역(30₁ - 30_K)이 정확히 하나의 부대역 값(32)을 포함하도록 서로 시간 동기화된다. 주파수 축(36)으로 예시된 바와 같이, 부대역 신호들(30₁ - 30_K)은 서로 다른 주파수 영역들과 연관되고, 시간 축(38)으로 예시된 바와 같이, 필터 뱅크 시간 슬롯들(34)은 연속하게 시간 정렬된다.

앞서 기술한 바와 같이, 도 3의 사이드 정보 추출기(17)가 입력 오디오 신호들(s ₁ - s _N )로부터 SAOC 파라미터들을 계산한다. 현재 구현된 SAOC 표준에 따르면, 인코더(10)는 필터 뱅크 시간 슬롯들(34) 및 특정 양만큼의 부대역 분해에 의해 결정되는 것과 같이 원래의 시간/주파수 분해능에 대해 감소될 수 있는 시간/주파수 분해능에서 이러한 계산을 수행하며, 이러한 특정 양은 사이드 정보(20) 내에서 디코더 측으로 시그널링된다. 연속한 필터 뱅크 시간 슬롯들(34)의 그룹들은 SAOC 프레임(41)을 형성할 수 있다. 또한, SAOC 프레임(41) 내에서의 파라메트릭 대역들의 수는 사이드 정보(20) 내에서 전달된다. 그러므로 시간/주파수 도메인은 도 4에서 점선들(42)로 예시된 시간/주파수 타일들로 분할된다. 도 4에서 파라메트릭 대역들은 시간/주파수 타일들의 규칙적인 배열이 얻어지도록 다양한 도시된 SAOC 프레임들(41)에서 동일한 방식으로 분배된다. 그러나 일반적으로, 파라메트릭 대역들은 각각의 SAOC 프레임들(41)에서의 스펙트럼 분해능에 대해 서로 다른 요구들에 따라, SAOC 프레임(41)마다 달라질 수 있다. 더욱이, SAOC 프레임들(41)의 길이 역시 달라질 수 있다. 결과적으로, 시간/주파수 타일들의 배열은 불규칙적일 수도 있다. 그럼에도, 특정 SAOC 프레임(41) 내의 시간/주파수 타일들은 일반적으로 동일한 듀레이션을 갖고, 시간 방향으로 정렬되는데, 즉 상기 SAOC 프레임(41)은 주어진 SAOC 프레임(41)의 시작에서 시작되고 상기 SAOC 프레임(41)의 끝에서 끝난다.

도 3에 도시된 사이드 정보 추출기(17)는 다음 공식들에 따라 SAOC 파라미터들을 계산한다. 특히, 사이드 정보 추출기(17)는 각각의 객체(i)에 대해 다음과 같이 객체 레벨 차이들을 계산하며,

여기서 합들과 인덱스들(n, k)은 각각, SAOC 프레임(또는 처리 시간 슬롯)에 대해 인덱스(l) 그리고 파라메트릭 대역에 대해 인덱스(m)로 참조된 특정 시간/주파수 타일(42)에 속하는 모든 시간 인덱스들(34) 및 모든 스펙트럼 인덱스들(30)을 거친다. 이로써, 오디오 신호 또는 객체(i)의 모든 부대역 값들(x _i )의 에너지들이 합산되어 모든 객체들 또는 오디오 신호들 중 해당 타일의 가장 높은 에너지 값으로 정규화된다.

는

의 복소 공액을 나타낸다.

또한, SAOC 사이드 정보 추출기(17)는 서로 다른 입력 객체들(s ₁ - s _N )의 쌍들의 대응하는 시간/주파수 타일들의 유사성 측정치를 계산할 수 있다. SAOC 사이드 정보 추출기(17)가 입력 객체들(s ₁ - s _N )의 모든 쌍들 사이의 유사성 측정치를 계산할 수 있지만, 사이드 정보 추출기(17)는 또한 유사성 측정치들의 시그널링을 억제하거나 유사성 측정치들의 계산을 공통 스테레오 채널의 왼쪽 채널 또는 오른쪽 채널을 형성하는 오디오 객체들(s ₁ - s _N )로 제한할 수 있다. 어떤 경우든, 유사성 측정치는 객체 간 상호 상관 파라미터

으로 지칭된다. 계산은 다음과 같으며

이득 인덱스들(n, k)은 특정 시간/주파수 타일(42)에 속하는 모든 부대역 값들을 거치며, i와 j는 오디오 객체들(s ₁ - s _N )의 특정 쌍을 나타내고, 복소 인수의 허수 부분을 폐기하는 동작을 나타낸다.

도 3의 다운믹서(16)는 각각의 객체(s ₁ - s _N )에 적용되는 이득 계수들의 사용에 의해 객체들(s ₁ - s _N )을 다운믹스한다. 즉, 이득 계수(d _i )는 객체(i)에 적용되고, 다음에 이와 같이 가중된 모든 객체들(s ₁ - s _N )이 합산되어 모노 다운믹스 신호를 얻으며, 이는 P=1인 경우로 도 3에 예시된다. P=2인 경우로 도 3에 도시된 2-채널 다운믹스 신호의 다른 예시적인 경우에는, 이득 계수(d ₁ , _i )가 객체(i)에 적용되고, 다음에 왼쪽 다운믹스 채널(L0)을 얻기 위해 이러한 모든 이득 증폭된 객체들이 합산되고, 이득 계수들(d ₂ , _i )이 객체(i)에 적용되고, 다음에 오른쪽 다운믹스 채널(R0)을 얻기 위해 이와 같이 이득 증폭된 객체들이 합산된다. 위와 비슷한 처리가 다채널 다운믹스(P>2)의 경우에 적용될 것이다.

이러한 다운믹스 방안은 다운믹스 이득들(DMG _i ) 그리고 스테레오 다운믹스 신호의 경우에는, 다운믹스 채널 레벨 차이들(DCLD _i )에 의해 디코더 측에 시그널링된다.

다운믹스 이득들은 아래에 따라 계산되며:

, (모노 다운믹스),

, (스테레오 다운믹스),

여기서 ε은 10^-9과 같은 작은 수이다.

DCLD들의 경우, 다음의 공식이 적용된다:

정상 모드에서, 다운믹서(16)는 아래에 따라 다운믹스 신호를 생성하는데:

모노 다운믹스에 대해서는,

또는 스테레오 다운믹스에 대해서는 각각,

.

따라서 앞서 언급한 공식들에서, 파라미터들(OLD, IOC)은 오디오 신호들의 함수이고, 파라미터들(DMG, DCLD)은 d의 함수이다. 그런데 d는 시간 및 주파수가 달라질 수도 있다는 점이 주목된다.

따라서 정상 모드에서, 다운믹서(16)는 모든 객체들(s ₁ - s _N )을 어떠한 선호도들도 없이, 즉 모든 객체들(s ₁ - s _N )을 동일하게 취급하여 믹싱한다.

디코더 측에서, 업믹서는 하나의 계산 단계에서, 즉 2-채널 다운믹스의 경우에 다음과 같이 (문헌에서는 간혹 A로도 또한 지칭되는) 행렬 R로 표현되는 "렌더링 정보"(26)의 구현과 다운믹스 프로시저의 역을 수행하며,

여기서 행렬 E는 파라미터들(OLD, IOC)의 함수이고, 행렬 D는 아래와 같은 다운믹싱 계수들을 포함한다:

.

행렬 E는 오디오 객체들(s ₁ - s _N )의 추정된 공분산 행렬이다. 현재 SAOC 구현들에서, 추정된 공분산 행렬 E의 계산은 일반적으로 SAOC 파라미터들의 스펙트럼/시간 분해능으로, 즉 각각의 (l, m)에 대해 수행되어, 추정된 공분산 행렬은 E ^l ^,m 로 기재될 수 있다. 추정된 공분산 행렬 E ^l ^,m 은 N × N 크기이며, 그 계수들은 아래와 같이 정의된다:

따라서 아래와 같은 행렬 E ^l ^,m 은

그 대각선을 따라 객체 레벨 차이들, 즉 i=j에 대해

을 갖는데, 이는 i=j에 대해

그리고

이기 때문이다. 그 대각선 밖에서는, 추정된 공분산 행렬 E가 객체 간 상호 상관 측정치

으로 가중된 객체들(i, j) 각각의 객체 레벨 차이들의 기하 평균을 나타내는 행렬 계수들을 갖는다.

도 5는 SAOC 인코더(10)의 일부로서 사이드 정보 추정기(SIE)에 대한 구현의 하나의 가능한 원리를 나타낸다. SAOC 인코더(10)는 믹서(16) 및 사이드 정보 추정기(SIE)(17)를 포함한다. SIE는 개념적으로 2개의 모듈들로 구성되는데, 하나의 모듈(45)은 각각의 신호의 단시간 기반 t/f 표현(예를 들어, STFT 또는 QMF)을 계산하기 위한 것이다. 계산된 단시간 t/f 표현이 제 2 모듈(46)인 t/f 선택적 사이드 정보 추정 모듈(t/f-SIE)에 공급된다. t/f-SIE 모듈(46)은 각각의 t/f-타일에 대한 사이드 정보를 계산한다. 현재 SAOC 구현들에서, 시간/주파수 변환은 모든 오디오 객체들(s ₁ - s _N )에 대해 일정하며 동일하다. 더욱이, SAOC 파라미터들은 모든 오디오 객체들에 대해 동일하고 모든 오디오 객체들(s ₁ - s _N )에 대해 동일한 시간/주파수 분해능을 갖는 SAOC 프레임들에 걸쳐 결정되어, 어떤 경우들에는 미세 시간 분해능 또는 다른 경우들에는 미세 스펙트럼 분해능에 대한 객체 특정 요구들을 무시한다.

다음에, 본 발명의 실시예들이 설명된다.

도 1a는 복수의 시간 도메인 다운믹스 샘플들을 포함하는 다운믹스 신호로부터 하나 또는 그보다 많은 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위한 한 실시예에 따른 디코더를 나타낸다. 다운믹스 신호는 2개 또는 그보다 많은 오디오 객체 신호들을 인코딩한다.

디코더는 (예를 들어, 파라메트릭 사이드 정보, 예를 들어 객체 레벨 차이들을 기초로) 복수의 분석 윈도우들을 결정하기 위한 윈도우 시퀀스 생성기(134)를 포함하며, 여기서 분석 윈도우들 각각은 다운믹스 신호의 복수의 시간 도메인 다운믹스 샘플들을 포함한다. 복수의 분석 윈도우들의 각각의 분석 윈도우는 해당 분석 윈도우의 시간 도메인 다운믹스 샘플들의 수를 표시하는 윈도우 길이를 갖는다. 윈도우 시퀀스 생성기(134)는 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 특성에 좌우되게 복수의 분석 윈도우들을 결정하도록 구성된다. 예를 들어, 윈도우 길이는 해당 분석 윈도우가 다운믹스 신호에 의해 인코딩되는 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 변화를 나타내는 트랜션트를 포함하는지 여부에 좌우될 수 있다.

복수의 분석 윈도우들을 결정하기 위해, 윈도우 시퀀스 생성기(134)는 예를 들어, 파라메트릭 사이드 정보, 예를 들어 2개 또는 그보다 많은 오디오 객체 신호들에 관해 전송된 객체 레벨 차이들을 분석하여, 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 특성에 좌우되도록 분석 윈도우들의 윈도우 길이를 결정할 수 있다. 혹은, 예를 들어, 복수의 분석 윈도우들을 결정하기 위해, 윈도우 시퀀스 생성기(134)가 윈도우 형상들 또는 분석 윈도우들 그 자체를 분석할 수도 있으며, 여기서 윈도우 형상들 또는 분석 윈도우들은 예를 들어, 비트 스트림으로 인코더에서 디코더로 전송될 수 있으며, 여기서 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이는 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 특성에 좌우된다.

더욱이, 디코더는 변환된 다운믹스를 얻기 위해, 복수의 분석 윈도우들의 각각의 분석 윈도우의 복수의 시간 도메인 다운믹스 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 시간 도메인에서 시간-주파수 도메인으로 변환하기 위한 t/f 분석 모듈(135)을 포함한다.

더욱이, 디코더는 오디오 출력 신호를 얻기 위해, 변환된 다운믹스를 2개 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로 언믹싱하기 위한 언믹싱 유닛(136)을 포함한다.

다음 실시예들은 특별한 윈도우 시퀀스 구성 메커니즘을 사용한다. 윈도우 길이(N _w )에 대한 인덱스(0 ≤ n ≤ N _w - 1)에 대해 프로토타입 윈도우 함수 f(n, N _w )가 정의된다. 단일 윈도우 w _k(n)을 설계하면, 3개의 제어 포인트들, 즉 이전, 현재 및 다음 윈도우의 중심들인 c _k _-1, c _k 그리고 c _k ₊₁이 요구된다.

이들을 사용하면, 윈도잉 함수가 다음과 같이 정의된다:

다음에, 실제 윈도우 위치는

인데,

이다(

는 인수를 다음 정수로 반올림하는 연산을 나타내고,

는 이에 대응하여 인수를 다음 정수로 반내림하는 연산을 나타낸다). 예시들에 사용되는 프로토타입 윈도우 함수는 아래와 같이 정의된 사인 곡선 윈도우이지만,

,

다른 형태들도 또한 사용될 수 있다. 트랜션트 위치(t)는 3개의 윈도우들에 대한 중심들 c _k _-1 = t - l _b , c _k = t 그리고 c _k ₊₁ = t + l _a 를 정의하며, 여기서 l _b 와 l _a 의 수들은 트랜션트 전과 후의 원하는 윈도우 범위를 정의한다.

도 9에 관해 나중에 설명하는 바와 같이, 윈도우 시퀀스 생성기(134)는 예를 들어, 트랜션트가 복수의 분석 윈도우들의 제 1 분석 윈도우로 그리고 복수의 분석 윈도우들의 제 2 분석 윈도우로 구성되게 복수의 분석 윈도우들을 결정하도록 구성될 수 있으며, 여기서 제 1 분석 윈도우의 중심 c _k 는 c _k = t - l _b 에 따라 트랜션트의 위치(t)에 의해 정의되고, 제 1 분석 윈도우의 중심 c _k ₊ ₁은 c _k = t + l _a 에 따라 트랜션트의 위치(t)에 의해 정의되며, l _a 와 l _b 는 개수들이다.

도 10에 관해 나중에 설명하는 바와 같이, 윈도우 시퀀스 생성기(134)는 예를 들어, 트랜션트가 복수의 분석 윈도우들의 제 1 분석 윈도우로 구성되게 복수의 분석 윈도우들을 결정하도록 구성될 수 있으며, 여기서 제 1 분석 윈도우의 중심 c _k 는 c _k = t에 따라 트랜션트의 위치(t)에 의해 정의되고, 복수의 분석 윈도우들 중 제 2 분석 윈도우의 중심 c _k _-1은 c _k = t - l _b 에 따라 트랜션트의 위치(t)에 의해 정의되며, 여기서 복수의 분석 윈도우들 중 제 3 분석 윈도우의 중심 c _k ₊₁은 c _k = t + l _b 에 따라 트랜션트의 위치(t)에 의해 정의되고, l _a 와 l _b 는 개수들이다.

도 11에 관해 나중에 설명하는 바와 같이, 윈도우 시퀀스 생성기(134)는 예를 들어, 복수의 분석 윈도우들 각각이 제 1 개수의 시간 도메인 신호 샘플들 또는 제 2 개수의 시간 도메인 신호 샘플들을 포함하게 복수의 분석 윈도우들을 결정하도록 구성될 수 있으며, 여기서 제 2 개수의 시간 도메인 신호 샘플들은 제 1 개수의 시간 도메인 신호 샘플들보다 더 많고, 복수의 분석 윈도우들의 분석 윈도우들 각각은 해당 분석 윈도우가 트랜션트를 포함할 때 제 1 개수의 시간 도메인 신호 샘플들을 포함한다.

한 실시예에서, t/f 분석 모듈(135)은 QMF 필터 뱅크 및 나이퀴스트 필터 뱅크를 이용함으로써 분석 윈도우들 각각의 분석 윈도우의 시간 도메인 다운믹스 샘플들을 시간 도메인에서 시간-주파수 도메인으로 변환하도록 구성되며, 여기서 t/f 분석 유닛(135)은 분석 윈도우들의 각각의 분석 윈도우의 복수의 시간 도메인 신호 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 변환하도록 구성된다.

도 2a는 2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 인코더를 나타낸다. 2개 또는 그보다 많은 입력 오디오 객체 신호들 각각은 복수의 시간 도메인 신호 샘플들을 포함한다.

인코더는 복수의 분석 윈도우들을 결정하기 위한 윈도우 시퀀스 유닛(102)을 포함한다. 분석 윈도우들 각각은 입력 오디오 객체 신호들 중 하나의 입력 오디오 객체 신호의 복수의 시간 도메인 신호 샘플들을 포함하고, 여기서 분석 윈도우들 각각은 해당 분석 윈도우의 시간 도메인 신호 샘플들의 수를 표시하는 윈도우 길이를 갖는다. 윈도우 시퀀스 유닛(102)은 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 특성에 좌우되게 복수의 분석 윈도우들을 결정하도록 구성된다. 예를 들어, 윈도우 길이는 해당 분석 윈도우가 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 변화를 나타내는 트랜션트를 포함하는지 여부에 좌우될 수 있다.

더욱이, 인코더는 변환된 신호 샘플들을 얻기 위해, 분석 윈도우들의 각각의 분석 윈도우의 시간 도메인 신호 샘플들을 시간 도메인에서 시간-주파수 도메인으로 변환하기 위한 t/f 분석 유닛(103)을 포함한다. t/f 분석 유닛(103)은 분석 윈도우들의 각각의 분석 윈도우의 복수의 시간 도메인 신호 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 변환하도록 구성될 수 있다.

더욱이, 인코더는 변환된 신호 샘플들에 따라 파라메트릭 사이드 정보를 결정하기 위한 PSI 추정 유닛(104)을 포함한다.

한 실시예에서, 인코더는 예를 들어, 2개 또는 그보다 많은 입력 오디오 객체 신호들의 복수의 객체 레벨 차이들을 결정하도록 구성되고, 객체 레벨 차이들 중 제 1 객체 레벨 차이와 객체 레벨 차이들 중 제 2 객체 레벨 차이 간의 차가 임계값보다 더 큰지 여부를 결정하여, 분석 윈도우들 각각에 대해, 해당 분석 윈도우가 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 변화를 나타내는 트랜션트를 포함하는지 여부를 결정하도록 구성되는 트랜션트 검출 유닛(101)을 더 포함할 수 있다.

한 실시예에 따르면, 트랜션트 검출 유닛(101)은 객체 레벨 차이들 중 제 1 객체 레벨 차이와 객체 레벨 차이들 중 제 2 객체 레벨 차이 간의 차가 임계값보다 더 큰지 여부를 결정하기 위해 검출 함수 d(n)을 이용하도록 구성되며, 여기서 검출 함수 d(n)은 다음과 같이 정의되고:

여기서 n은 시간 인덱스를 나타내고, i는 제 1 객체를 나타내고, j는 제 2 객체를 나타내고, b는 파라메트릭 대역을 나타낸다. OLD는 예를 들어, 객체 레벨 차이를 나타낼 수 있다.

도 9에 관해 나중에 설명하는 바와 같이, 윈도우 시퀀스 유닛(102)은 예를 들어, 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 변화를 나타내는 트랜션트가 복수의 분석 윈도우들 중 제 1 분석 윈도우로 그리고 복수의 분석 윈도우들 중 제 2 분석 윈도우로 구성되게 복수의 분석 윈도우들을 결정하도록 구성될 수 있으며, 여기서 제 1 분석 윈도우의 중심 c _k 는 c _k = t - l _b 에 따라 트랜션트의 위치(t)에 의해 정의되고, 제 1 분석 윈도우의 중심 c _k ₊ ₁은 c _k = t + l _a 에 따라 트랜션트의 위치(t)에 의해 정의되며, l _a 와 l _b 는 개수들이다.

도 10에 관해 나중에 설명하는 바와 같이, 윈도우 시퀀스 유닛(102)은 예를 들어, 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 변화를 나타내는 트랜션트가 복수의 분석 윈도우들 중 제 1 분석 윈도우에 의해 구성되게 복수의 분석 윈도우들을 결정하도록 구성될 수 있으며, 여기서 제 1 분석 윈도우의 중심 c _k 는 c _k = t에 따라 트랜션트의 위치(t)에 의해 정의되고, 여기서 복수의 분석 윈도우들 중 제 2 분석 윈도우의 중심 c _k _-1은 c _k = t - l _b 에 따라 트랜션트의 위치(t)에 의해 정의되며, 여기서 복수의 분석 윈도우들 중 제 3 분석 윈도우의 중심 c _k ₊₁은 c _k = t + l _b 에 따라 트랜션트의 위치(t)에 의해 정의되고, l _a 와 l _b 는 개수들이다.

도 11에 관해 나중에 설명하는 바와 같이, 윈도우 시퀀스 유닛(102)은 예를 들어, 복수의 분석 윈도우들 각각이 제 1 개수의 시간 도메인 신호 샘플들 또는 제 2 개수의 시간 도메인 신호 샘플들을 포함하게 복수의 분석 윈도우들을 결정하도록 구성될 수 있으며, 여기서 제 2 개수의 시간 도메인 신호 샘플들은 제 1 개수의 시간 도메인 신호 샘플들보다 더 많고, 여기서 복수의 분석 윈도우들의 분석 윈도우들 각각은 해당 분석 윈도우가 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 변화를 나타내는 트랜션트를 포함할 때 제 1 개수의 시간 도메인 신호 샘플들을 포함한다.

한 실시예에 따르면, t/f 분석 유닛(103)은 QMF 필터 뱅크 및 나이퀴스트 필터 뱅크를 이용함으로써 분석 윈도우들 각각의 분석 윈도우의 시간 도메인 신호 샘플들을 시간 도메인에서 시간-주파수 도메인으로 변환하도록 구성되며, 여기서 t/f 분석 유닛(103)은 분석 윈도우들의 각각의 분석 윈도우의 복수의 시간 도메인 신호 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 변환하도록 구성된다.

다음에, 실시예들에 따라 하위 호환 가능 적응성 필터 뱅크들을 사용하는 강화된 SAOC가 설명된다.

먼저, 강화된 SAOC 디코더에 의한 표준 SAOC 비트 스트림들의 디코딩이 설명된다.

강화된 SAOC 디코더는 양호한 품질로 표준 SAOC 인코더들로부터의 비트 스트림들을 디코딩할 수 있도록 설계된다. 디코딩은 파라메트릭 재구성만으로 제한되고, 가능한 잔여 스트림들은 무시된다.

도 6은 표준 SAOC 비트 스트림들의 디코딩을 설명하는 한 실시예에 따른 강화된 SAOC 디코더의 블록도를 도시한다. 굵은 검은색 기능 블록들(132, 133, 134, 135)은 본 발명의 처리를 나타낸다. 파라메트릭 사이드 정보(PSI: parametric side information)는 객체 레벨 차이들(OLD), 객체 간 상관들(IOC), 및 디코더에서 개별 객체들로부터 다운믹스 신호(DMX 오디오)를 생성하는데 사용되는 다운믹스 행렬의 세트들로 구성된다. 각각의 파라미터 세트는 파라미터들이 연관되는 시간 영역을 정의하는 파라미터 경계와 연관된다. 표준 SAOC에서, 기본 시간/주파수 표현의 주파수 빈들은 파라메트릭 대역들로 그룹화된다. 대역들의 간격은 인간 청각 시스템의 임계 대역들의 간격과 유사하다. 더욱이, 다수의 t/f 표현 프레임들이 파라미터 프레임으로 그룹화될 수 있다. 이러한 동작들 모두 모델링 부정확도들의 희생으로, 요구되는 사이드 정보량의 감소를 제공한다.

SAOC 표준에서 설명되는 바와 같이, OLD들 및 IOC들은 언믹싱 행렬 G = ED ^T J를 계산하는데 사용되며, 여기서 E의 엘리먼트들은 객체 상호 상관 행렬을 근사화하는

이며, i와 j는 객체 인덱스들이며,

이고, D ^T 는 D의 전치(transpose)이다. 언믹싱 행렬 계산기(131)는 그에 따라 언믹싱 행렬을 계산하도록 구성될 수 있다.

다음에, 언믹싱 행렬은 표준 SAOC에 따라, 추정된 값들이 도달하게 되는 파라미터 경계까지 파라미터 프레임에 걸친 이전 프레임의 언믹싱 행렬로부터 시간 보간기(132)에 의해 선형적으로 보간된다. 이는 언믹싱 행렬들이 되는 결과를 보여준다.

언믹싱 행렬들의 파라메트릭 대역 주파수 분해능은 시간-주파수 표현의 분해능으로 확대된다. 파라메트릭 대역(b)에 대해 보간된 언믹싱 행렬이 G(b)로 정의되면, 해당 파라메트릭 대역 내의 모든 주파수 빈들에 동일한 언믹싱 계수들이 사용된다.

윈도우 시퀀스 생성기(134)는 PSI로부터의 파라미터 세트 범위 정보를 사용하여 입력 다운믹스 오디오 신호를 분석하기에 적절한 윈도잉 시퀀스를 결정하도록 구성된다. 주 요건은 PSI에 파라미터 세트 경계가 있을 때, 연속한 분석 윈도우들 사이의 크로스오버 포인트가 매칭해야 한다는 점이다. 윈도잉은 또한 (언믹싱 데이터 확장에 사용되는) 각각의 윈도우 내에서의 데이터의 주파수 분해능을 결정한다.

다음에, 윈도잉된 데이터는 적절한 시간-주파수 변환, 예를 들어 이산 푸리에 변환(DFT), 복소 변형 이산 코사인 변환(CMDCT: Complex Modified Discrete Cosine Transform) 또는 이상 적층 이산 푸리에 변환(ODFT: Oddly stacked Discrete Fourier Transform)을 이용하여, t/f 분석 모듈(135)에 의해 주파수 도메인 표현으로 변환된다.

마지막으로, 언믹싱 유닛(136)은 다운믹스 신호(X)의 스펙트럼 표현에 프레임별 주파수별 빈 언믹싱 행렬들을 적용하여 파라메트릭 재구성들(Y)을 얻는다. 출력 채널(j)은 다운믹스 채널들의 선형 결합

이다.

이러한 프로세스로 얻어질 수 있는 품질은 대부분의 목적들을 위해, 표준 SAOC 디코더로 얻어진 결과와 지각적으로 구별하기 어렵다.

상기 본문은 개별 객체들의 재구성을 설명하지만, 표준 SAOC에서는 언믹싱 행렬에 렌더링이 포함되는데, 즉 파라메트릭 보간에 렌더링이 포함된다는 점이 주목되어야 한다. 선형 동작으로서, 동작들의 순서는 문제가 안 되지만, 차이는 언급할 가치가 있다.

다음에, 강화된 SAOC 디코더에 의한 강화된 SAOC 비트 스트림들의 디코딩이 설명된다.

강화된 SAOC 디코더의 주요 기능은 표준 SAOC 비트 스트림들의 디코딩에서 이미 더 먼저 설명되었다. 이 섹션은 PSI에 도입된 강화된 SAOC 향상들이 더 양호한 지각 품질을 얻기 위해 어떻게 사용될 수 있는지를 상술할 것이다.

도 7은 주파수 분해능 향상들의 디코딩을 설명하는 한 실시예에 따른 디코더의 주요 기능 블록들을 도시한다. 굵은 검은색 기능 블록들(132, 133, 134, 135)은 본 발명의 처리를 나타낸다.

먼저, 대역에 걸친 값 확장 유닛(141)이 각각의 파라메트릭 대역에 대한 OLD 및 IOC 값들을 향상들에 사용되는 주파수 분해능에, 예를 들어 1024개의 빈들에 적응시킨다. 이는 파라메트릭 대역에 대응하는 주파수 빈들에 걸쳐 값들을 복제함으로써 이루어진다. 이는 새로운 OLD들인

및 IOC들인

를 결과로 제시한다.

는 아래에 의해 파라메트릭 대역들로의 주파수 빈들의 할당을 정의하는 커널 행렬이다:

이와 유사하게, 델타 함수 복원 유닛(142)은 수정 인자 파라미터화를 반전하여, 확장된 OLD 및 IOC와 동일한 크기의 델타 함수

를 얻는다.

다음에, 델타 적용 유닛(143)이 확장된 OLD 값들에 델타를 적용하고,

에 의해 얻어진 미세 분해능 OLD 값들이 얻어진다.

특정 실시예에서, 언믹싱 행렬들의 계산은 예를 들어, 표준 SAOC 비트 스트림

의 디코딩에 관해 언믹싱 행렬 계산기(131)에 의해 이루어질 수 있는데,

그리고

이다. 요구된다면, 렌더링 행렬이 언믹싱 행렬

에 곱해질 수 있다. 시간 보간기(132)에 의한 시간 보간은 표준 SAOC에 따른다.

각각의 윈도우에서의 주파수 분해능은 공칭의 높은 주파수 분해능과는 서로 다를(보통 더 낮을) 수 있기 때문에, 윈도우 주파수 분해능 적응 유닛(133)은 오디오로부터의 스펙트럼 데이터의 분해능과 매칭하여 그의 적용을 가능하게 하도록 언믹싱 행렬들을 적응시킬 필요가 있다. 이는 예를 들어, 주파수 축에 걸친 계수들을 정확한 분해능으로 다시 샘플링함으로써 이루어질 수 있다. 또는 분해능들이 정수배들이라면, 고 분해능 데이터로부터 더 저 분해능에서 하나의 주파수 빈에 대응하는 인덱스들을 단순히 평균하여,

가 된다.

비트 스트림으로부터의 윈도잉 시퀀스 정보가 인코더에서 사용되는 것에 대한 완전한 상호 보완적 시간-주파수 분석을 얻는데 사용될 수 있고, 또는 윈도잉 시퀀스가 표준 SAOC에서의 비트 스트림 디코딩에서 이루어진 것과 같이 파라미터 경계들을 기초로 구성될 수 있다. 이를 위해, 윈도우 시퀀스 생성기(134)가 이용될 수 있다.

다음에, 주어진 윈도우들을 사용하여 t/f 분석 모듈(135)에 의해 다운믹스 오디오의 시간-주파수 분석이 수행된다.

마지막으로, 시간적으로 보간된 그리고 스펙트럼적으로(가능하게는) 적응된 언믹싱 행렬들이 언믹싱 유닛(136)에 의해 입력 오디오의 시간-주파수 표현에 적용되고, 입력 채널들의 선형 결합

로서 출력 채널(j)이 얻어질 수 있다.

다음에, 하위 호환 가능한 강화된 SAOC 인코딩이 설명된다.

이제, 하위 호환 가능한 사이드 정보 부분 및 추가 향상들을 포함하는 비트 스트림을 생성하는 강화된 SAOC 인코더가 설명된다. 기존 표준 SAOC 디코더들은 PSI의 하위 호환 가능한 부분을 디코딩하여 객체들의 재구성들을 생성할 수 있다. 강화된 SAOC 디코더에 의해 사용되는 추가된 정보는 대부분의 경우들에 재구성들의 지각 품질을 개선한다. 추가로, 강화된 SAOC 디코더가 한정된 자원들 상에서 실행되고 있다면, 향상들은 무시될 수 있고, 여전히 기본 품질 재구성이 얻어진다. 표준 SAOC 호환 가능 PSI만을 사용하는 표준 SAOC 및 강화된 SAOC 디코더들로부터의 재구성들은 서로 다르지만, 지각적으로 매우 비슷하다고 판단된다는 점이 주목되어야 한다(차이는 강화된 SAOC 디코더에 의한 표준 SAOC 비트 스트림들의 디코딩에서와 특성이 비슷하다).

도 8은 앞서 설명한 인코더의 파라메트릭 경로를 구현하는 특정 실시예에 따른 인코더의 블록도를 나타낸다. 굵은 검은색 기능 블록들(102, 103)은 본 발명의 처리를 나타낸다. 특히, 도 8은 더 유능한 디코더들에 대한 향상들에 의해 하위 호환 가능 비트 스트림을 생성하는 2-스테이지 인코딩의 블록도를 나타낸다.

먼저, 신호가 분석 프레임들로 세분되며, 이들은 이후에 주파수 도메인으로 변환된다. 예를 들어, MPEG SAOC에서는 공통인 16 및 32개의 분석 프레임들의 길이들을 사용하여 다수의 분석 프레임들 고정 길이 파라미터 프레임으로 그룹화된다. 신호 특성들은 파라미터 프레임 동안 계속 준-고정적이며, 따라서 단 한 세트의 파라미터들로 특성화될 수 있다고 가정된다. 파라미터 프레임 내에서 신호 특징들이 변한다면, 모델링 에러를 겪게 되고, 이는 더 긴 파라미터 프레임을 준-고정의 가정이 또 달성되는 부분들로 세분하는데 유리할 것이다. 이를 위해, 트랜션트 검출이 요구된다.

트랜션트들은 모든 입력 객체들로부터 개별적으로 트랜션트 검출 유닛(101)에 의해 검출될 수 있으며, 객체들 중 단 하나에 트랜션트 이벤트가 있을 때 그 위치가 글로벌 트랜션트 위치로 선언된다. 트랜션트 위치들의 정보가 적절한 윈도잉 시퀀스를 구성하는데 사용된다. 구성은 예를 들어, 다음의 로직을 기초로 할 수 있다:

- 디폴트 윈도우 길이, 즉 디폴트 신호 변환 블록의 길이, 예를 들어 2048개의 샘플들을 설정한다.

- 50%가 겹치는 4개의 디폴트 윈도우들에 대응하는 파라미터 프레임 길이, 예를 들어 4096개의 샘플들을 설정한다. 파라미터 프레임들은 다수의 윈도우들을 함께 그룹화하고, 각각의 윈도우에 대해 개별적으로 디스크립터들을 갖는 대신에 단일 세트의 신호 디스크립터들이 전체 블록에 사용된다. 이는 PSI의 양의 감소를 가능하게 한다.

- 어떠한 트랜션트도 검출되지 않았다면, 디폴트 윈도우들 및 전체 파라미터 프레임 길이를 사용한다.

- 트랜션트가 검출된다면, 트랜션트의 위치에서 더 양호한 시간 분해능을 제공하도록 윈도잉을 적응시킨다.

윈도잉 시퀀스를 구성하는 동안, 이를 담당하는 윈도우 시퀀스 유닛(102)은 또한 하나 또는 그보다 많은 분석 윈도우들로부터 파라미터 서브프레임들을 생성한다. 각각의 서브세트가 엔티티로서 분석되고, 단 한 세트의 PSI 파라미터들이 각각의 서브블록에 대해 전송된다. 표준 SAOC 호환 가능 PSI를 제공하기 위해, 정해진 파라미터 블록 길이가 메인 파라미터 블록 길이로서 사용되고, 그 블록 내의 가능한 로케이팅된 트랜션트들이 파라미터 서브세트들을 정의한다.

구성된 윈도우 시퀀스가 t/f 분석 유닛(103)에 의해 수행되는 입력 오디오 신호들의 시간-주파수 분석을 위해 출력되고, PSI의 강화된 SAOC 향상 부분에서 전송된다.

각각의 분석 윈도우의 스펙트럼 데이터가 PSI 추정 유닛(104)에 의해 하위 호환성 있는(예를 들어, MPEG) SAOC 부분에 대한 PSI를 추정하는데 사용된다. 이는 스펙트럼 빈들을 MPEG SAOC의 파라메트릭 대역들로 그룹화하고 대역들에서 IOC들, OLD들 및 절대 객체 에너지들(NRG)을 추정함으로써 이루어진다. MPEG SAOC의 느슨한 표기법에 따라, 파라미터화 타일에서 2개의 객체 스펙트럼들

과

의 정규화된 곱이 아래와 같이 정의되며:

여기서 행렬

은 아래에 의해 (이 파라미터 프레임에서는 N개의 프레임들 중) 프레임 n에서의 F _n t/f 표현 빈들로부터 파라메트릭 B 대역들로의 맵핑을 정의하며,

S ^* 은 S의 복소 공액이다. 스펙트럼 분해능은 단일 파라메트릭 블록 내 프레임들 사이에 달라질 수 있으므로, 맵핑 행렬은 데이터를 공통 분해능 단위로 변환한다. 이 파라미터화 타일에서의 최대 객체 에너지는 최대 객체 에너지

로 정의된다. 이 값을 가지면, OLD들은 아래와 같이 정규화된 객체 에너지들로 정의된다:

그리고 마지막으로 아래와 같이 상호 전력들로부터 IOC이 얻어질 수 있다:

이는 비트 스트림의 표준 SAOC 호환 가능 부분들의 추정의 결론을 내린다.

대략적 전력 스펙트럼 재구성 유닛(105)은 파라미터 분석 블록에서 스펙트럼 포락선의 개략적 추정치를 재구성하기 위해 OLD들 및 NRG들을 사용하도록 구성된다. 포락선은 해당 블록에 사용된 가장 높은 주파수 분해능으로 구성된다.

각각의 분석 윈도우의 원래의 스펙트럼은 전력 스펙트럼 추정 유닛(106)에 의해 해당 윈도우에서 전력 스펙트럼을 계산하는데 사용된다.

얻어진 전력 스펙트럼들은 주파수 분해능 적응 유닛(107)에 의해 공통의 높은 주파수 분해능 표현으로 변환된다. 이는 예를 들어, 전력 스펙트럼 값들을 보간함으로써 이루어질 수 있다. 다음에, 파라미터 블록 내에서 스펙트럼들의 평균을 구함으로써 평균 전력 스펙트럼 프로파일이 계산된다. 이는 파라메트릭 대역 집성을 생략한 OLD 추정에 대략적으로 대응한다. 얻어진 스펙트럼 프로파일은 미세 분해능 OLD로 여겨진다.

델타 추정 유닛(108)은 예를 들어, 미세 분해능 OLD를 대략적 전력 스펙트럼 재구성으로 나눔으로써 수정 인자 "델타"를 추정하도록 구성된다. 그 결과, 이는 대략적 스펙트럼들이 주어진 미세 분해능 OLD를 근사화하는데 사용될 수 있는 (곱셈) 수정 인자를 각각의 주파수 빈에 제공한다.

마지막으로, 델타 모델링 유닛(109)은 추정된 수정 인자를 송신에 효율적인 방식으로 모델링하도록 구성된다.

효과적으로, 비트 스트림에 대한 강화된 SAOC 수정들은 윈도잉 시퀀스 정보 및 "델타"를 전송하기 위한 파라미터들로 구성된다.

다음에, 트랜션트 검출이 설명된다.

신호 특징들이 계속 준-고정적인 경우, 여러 시간 프레임들을 파라미터 블록들로 결합함으로써 (사이드 정보의 양에 관한) 코딩 이득이 얻어질 수 있다. 예를 들어, 표준 SAOC에서, 흔히 사용되는 값들은 하나의 파라미터 블록당 16개 및 32개의 QMF 프레임들이다. 이들은 각각 1024개 및 2048개의 샘플들에 대응한다. 파라미터 블록의 길이는 고정 값으로 미리 설정될 수 있다. 이것이 갖는 한 가지 직접적인 효과는 코덱 지연이다(인코더는 프레임을 인코딩할 수 있도록 전체 프레임을 가져야 한다). 긴 파라메트릭 블록들을 사용할 때, 본질적으로는 준-고정 가정이 위배되는 경우, 신호 특징들의 상당한 변화들을 검출하는 것이 유리할 것이다. 상당한 변화의 위치를 찾은 후, 거기서 시간 도메인 신호가 분할될 수 있으며, 부분들은 또 준-고정 가정을 더 잘 이행할 수 있다.

여기서, SAOC와 함께 사용될 신규한 트랜션트 검출 방법이 설명된다. 지나치게 원칙적으로 보자면, 이는 트랜션트들을 검출하는 것을 목표로 하지는 않지만, 예를 들어, 사운드 오프셋에 의해서도 또한 트리거될 수 있는 신호 파라미터화들의 변화들을 대신한다.

입력 신호는 짧은 중첩하는 프레임들로 분할되며, 프레임들은 예를 들어, 이산 푸리에 변환(DFT)에 의해 주파수 도메인으로 변환된다. 복소 스펙트럼은 값들을 이들의 복소 공액들과 곱함(즉, 이들의 절대값들을 제곱함)으로써 전력 스펙트럼으로 변환된다. 그 다음, 표준 SAOC에서 사용된 것과 비슷한 파라메트릭 대역 그룹화가 사용되고, 각각의 객체에서 각각의 시간 프레임에서의 각각의 파라메트릭 대역의 에너지가 계산된다. 동작들은 요약하면 다음과 같으며,

여기서

는 시간 프레임(n)에서 객체(i)의 복소 스펙트럼이다. 대역(b)에서 주파수 빈들(f)에 걸쳐 합이 실행된다. 데이터로부터의 어떤 잡음 영향을 제거하기 위해, 값들은 다음과 같이 1차 IIR 필터로 저역 필터링되며:

여기서

은 필드 피드백 계수이고, 예를 들어

이다.

SAOC에서의 주요 파라미터화는 객체 레벨 차이들(OLD들)이다. 제안된 검출 방법은 OLD들이 언제 변화하게 될지를 검출하려는 시도를 한다. 따라서 모든 객체 쌍들이

으로 검사된다. 모든 고유 객체 쌍들의 변화들은 아래 식에 의해 검출 함수로 합산된다:

얻어진 값들이 임계치(T)와 비교되어 작은 레벨의 편차들을 필터링하고, 연속한 검출들 사이의 최소 거리가 강요된다. 따라서 검출 함수는 다음과 같다:

다음에, 강화된 SAOC 주파수 분해능이 설명된다.

표준 SAOC 분석으로부터 얻어진 주파수 분해능이 파라메트릭 대역들의 수로 제한되는데, 표준 SAOC에서는 28의 최대 값을 갖는다. 이들은 최저 대역들에 대한 하이브리드 필터링 스테이지가 이어져 이들을 최대 4개의 복소 부대역들로 추가 분할하는 64-대역 QMF 분석으로 구성된 하이브리드 필터 뱅크로부터 얻어진다. 얻어진 주파수 대역들은 인간 청각 시스템의 임계 대역 분해능을 모방하는 파라메트릭 대역들로 그룹화된다. 그룹화는 필요한 사이드 정보 데이터 레이트의 감소를 가능하게 한다.

기존 시스템은 적정하게 낮은 데이터 레이트가 주어지면, 적정한 분리 품질을 야기한다. 주요한 문제점은 음색 사운드들의 깨끗한 분리에는 불충분한 주파수 분해능이다. 이는 객체의 음색 컴포넌트들을 둘러싸는 다른 객체들의 "무리"로서 표시된다. 지각적으로 이는 조도 또는 보코더형 인공물로서 관찰된다. 이러한 무리의 악영향은 파라메트릭 주파수 분해능을 증가시킴으로써 감소될 수 있다. (44.1㎑ 샘플링 레이트에서) 512개의 대역들과 같은 또는 그보다 고 분해능은 테스트 신호들에서 지각적으로 양호한 분리를 산출한다는 점이 주목되었다. 이 분해능은 기존 시스템의 하이브리드 필터링 스테이지를 확장함으로써 얻어질 수 있지만, 하이브리드 필터들은 높은 계산 비용으로 이어지는 충분한 분리를 위해서는 꽤 높은 차수를 필요로 할 것이다.

요구되는 주파수 분해능을 얻는 간단한 방법은 DFT 기반 시간-주파수 변환을 이용하는 것이다. 이들은 고속 푸리에 변환(FFT: Fast Fourier Transform) 알고리즘을 통해 효과적으로 구현될 수 있다. 정상 DFT 대신, CMDCT 또는 ODFT가 대안들로서 고려된다. 차이점은, CMDCT와 ODFT는 한쪽(odd)이며, 얻어진 스펙트럼은 순수하게 양의 그리고 음의 주파수들을 포함한다. DFT와 비교하여, 주파수 빈들은 0.5 빈-폭만큼 시프트된다. DFT에서, 빈들 중 하나는 0㎐에 중심을 두고 다른 하나는 나이퀴스트 주파수에 중심을 둔다. ODFT와 CMDCT의 차이는 CMDCT가 위상 스펙트럼에 영향을 주는 추가적인 변조 후 동작을 포함한다는 점이다. 이것으로부터의 이익은 결과적인 복소 스펙트럼이 변형 이산 코사인 변환(MDCT) 및 변형 이산 사인 변환(MDST: Modified Discrete Sine Transform)으로 구성된다는 점이다.

길이(N)의 DFT 기반 변환은 N개의 값들로 복소 스펙트럼을 생성한다. 변환된 시퀀스가 실수 값이 되는 경우, 완벽한 재구성을 위해 이러한 값들 중 N/2만이 요구되며, 간단한 조작들로 주어진 것들로부터 다른 N/2개의 값들이 얻어질 수 있다. 분석은 신호로부터의 시간 도메인 샘플들 중 N개의 프레임을 택하여, 값들에 윈도잉 함수를 적용한 다음, 윈도잉된 데이터에 대한 실제 변환을 계산하는데 정상적으로 동작한다. 연속한 블록들은 시간상 50% 중첩하며, 윈도잉 함수들은 연속한 윈도우들의 제곱들이 1(unity)로 합산되도록 설계된다. 이는 윈도잉 함수가 데이터에 2회 적용될 때(한 번은 시간 도메인 신호를 분석하고, 두 번째에는 합성 변환 이후 중첩 가산 전에), 신호 수정들 없이 분석 + 합성 체인이 무손실이 됨을 보장한다.

연속한 프레임들 사이의 50% 중첩 및 2048개의 샘플들의 프레임 길이가 주어지면, 유효 시간 분해능은 (44.1㎑ 샘플링 레이트에서 23.2㎳에 대응하는) 1024개의 샘플들이다. 이는 두 가지 이유들로 충분히 작지 않은데, 첫째, 표준 SAOC 인코더에 의해 생성된 비트 스트림들을 디코딩하는 것이 바람직할 것이고, 둘째, 필요하다면, 더 미세한 시간 분해능으로 강화된 SAOC 인코더에서 신호들을 분석하는 것이 바람직할 것이다.

SAOC에서는, 다수의 블록들을 파라미터 프레임들로 그룹화하는 것이 가능하다. 신호 특성들은 이것이 단일 파라미터 세트로 특성화되도록 파라미터 프레임에 걸쳐 충분히 비슷하게 유지된다고 가정된다. 표준 SAOC에서 정상적으로 접하게 되는 파라미터 프레임 길이들은 16개 또는 32개의 QMF-프레임들이다(최대 72의 길이들이 표준으로 허용됨). 높은 주파수 분해능을 갖는 필터 뱅크를 사용할 때 비슷한 그룹화가 이루어질 수 있다. 신호 특성들이 파라미터 프레임 동안 변하지 않는 경우, 그룹화는 품질 저하들 없이 코딩 효율을 제공한다. 그러나 파라미터 프레임 내에서 신호 특성들이 변화하면, 그룹화는 에러들을 유도한다. 표준 SAOC는 준-고정 신호들에 사용되는 디폴트 그룹화 길이의 정의를 가능하게 하지만, 또한 파라미터 서브블록들의 정의도 가능하게 한다. 서브블록들은 디폴트 길이보다 짧은 그룹화들을 정의하며, 각각의 서브블록에 대해 개별적으로 파라미터화가 이루어진다. 기본 QMF-뱅크의 시간 분해능 때문에, 결과적인 시간 분해능은 64개의 시간 도메인 샘플들이며, 이는 높은 주파수 분해능을 갖는 고정 필터 뱅크를 사용하여 얻어질 수 있는 분해능보다 훨씬 더 미세하다. 이 요건은 강화된 SAOC 디코더에 영향을 준다.

큰 변환 길이를 갖는 필터 뱅크의 사용은 양호한 주파수 분해능을 제공하지반, 동시에 시간 분해능이 저하된다(소위 불확실성 원리). 단일 분석 프레임 내에서 신호 특성들이 변화한다면, 낮은 시간 분해능이 합성 출력에 블러링을 야기할 수 있다. 따라서 상당한 신호 변화들의 위치들에서 서브프레임 시간 분해능을 얻는 것이 유리할 것이다. 서브프레임 시간 분해능은 본래, 더 낮은 주파수 분해능으로 이어지지만, 신호 변화 동안 시간 분해능이 정확히 포착되는 것이 더 중요한 양상이라고 가정된다. 이러한 서브프레임 시간 분해능 요건은 주로 강화된 SAOC 인코더에(그리고 그에 따라 디코더에 또한) 영향을 준다.

두 경우들 모두에 동일한 해법 원리가 사용될 수 있는데: 신호가 준-고정적인(어떠한 트랜션트들도 검출되지 않는) 경우 그리고 파라미터 경계들이 없는 경우에 긴 분석 프레임들을 사용할 수 있다. 두 가지 조건들 중 어느 것이라도 실패하면, 블록 길이 스위칭 방식을 이용한다. 분할되지 않은 프레임 그룹들 사이에 존재하며 (표준 SAOC 비트 스트림을 디코딩하는 동안) 2개의 긴 윈도우들 사이의 크로스오버 포인트와 일치하는 파라미터 경계들에 대해 이러한 조건에 대한 예외가 이루어질 수 있다. 이러한 경우들에 신호 특성들은 고 분해능 필터 뱅크에 대해 충분히 그대로 고정적이라고 가정된다. 파라미터 경계가 (비트 스트림 또는 트랜션트 검출기로부터) 시그널링될 때, 더 작은 프레임 길이를 사용하도록 프레이밍이 조정되어, 시간 분해능을 국소적으로 개선한다.

처음 2개의 실시예들은 동일한 기본 윈도우 시퀀스 구성 메커니즘을 사용한다. 윈도우 길이(N)에 대한 인덱스 0 ≤ n ≤ N-1에 대해 프로토타입 윈도우 함수 f(n, N)가 정의된다. 단일 윈도우 w _k (n)을 설계하면, 3개의 제어 포인트들, 즉 이전, 현재 및 다음 윈도우의 중심들인 c _k _-1, c _k 그리고 c _k ₊₁이 요구된다.

이들을 사용하면, 윈도잉 함수가 다음과 같이 정의된다:

다음에, 실제 윈도우 위치는

인데,

이다. 예시들에 사용되는 프로토타입 윈도우 함수는 아래와 같이 정의된 사인 곡선 윈도우이지만,

,

다른 형태들도 또한 사용될 수 있다.

다음에, 한 실시예에 따른 트랜션트에서의 크로스오버가 설명된다.

도 9는 "트랜션트에서의 크로스오버" 블록 스위칭 방식의 원리의 예시이다. 특히, 도 9는 트랜션트에서의 윈도우 크로스오버 포인트를 수용하기 위한 정상 도잉 시퀀스의 적응을 나타낸다. 라인(111)은 시간 도메인 신호 샘플들을 나타내고, 수직 라인(112)은 검출된 트랜션트(또는 비트 스트림으로부터의 파라미터 경계)의 위치(t)를 나타내고, 라인들(113)은 윈도잉 함수들 및 이들의 시간 범위들을 나타낸다. 이 방식은 트랜션트 주변에서 2개의 윈도우들(w _k , w _k ₊₁ ) 사이의 중첩량을 결정하여, 윈도우 준도(steepness)를 정의할 것을 요구한다. 중첩 길이가 작은 값으로 설정되면, 윈도우들은 트랜션트에 가까운 이들의 최대 포인트들 및 트랜션트 소멸을 빠르게 가로지르는 섹션들을 갖는다. 중첩 길이들은 또한 트랜션트 전과 후에 서로 다를 수 있다. 이 접근 방식에서, 트랜션트를 둘러싸는 2개의 윈도우들 또는 프레임들은 길이가 조정될 것이다. 트랜션트의 위치는 c _k = t - l _b 와 c _k ₊₁ = t + l _a 로 주변 윈도우들의 중심들을 정의하며, 여기서 l _b 와 l _a 는 각각 트랜션트 전과 후의 중첩 길이이다. 이들이 정의되면, 상기 식이 사용될 수 있다.

다음에, 한 실시예에 따른 트랜션트 분리가 설명된다.

도 10은 한 실시예에 따른 트랜션트 분리 블록 스위칭 방식의 원리를 나타낸다. 짧은 윈도우(w _k )는 트랜션트에 중심을 두고, 2개의 이웃하는 윈도우들(w _k _-1, w _k ₊₁)은 짧은 윈도우를 보완하도록 조정된다. 효과적으로, 이웃하는 윈도우들은 트랜션트 위치가 제한되므로, 이전 윈도우는 트랜션트 전의 신호만을 포함하고, 다음 윈도우는 트랜션트 이후 신호만을 포함한다. 이러한 접근 방식에서, 트랜션트는 3개의 윈도우들에 대한 중심들 c _k _-1 = t - l _b , c _k = t 그리고 c _k ₊₁ = t + l _a 를 정의하며, 여기서 l _b 와 l _a 는 트랜션트 전과 후의 원하는 윈도우 범위를 정의한다. 이들이 정의되면, 상기 식이 사용될 수 있다.

다음에, 한 실시예에 따른 AAC형 프레이밍이 설명된다.

2개의 더 이른 윈도잉 방식들의 자유도들이 항상 요구되는 것은 아닐 수도 있다. 지각적 오디오 코딩 분야에서는 다양한 트랜션트 처리가 또한 이용된다. 여기서는 소위 프리 에코들을 야기할 트랜션트의 시간 확산을 줄이는 것이 목표이다. MPEG-2/4 AAC [AAC]에서, 2개의 기본 윈도우 길이들: (2048-샘플 길이를 갖는) LONG과 (256-샘플 길이를 갖는) SHORT가 사용된다. 이러한 두 가지 외에도, 또한 LONG에서 SHORT로 그리고 그 반대로의 전이를 가능하게 하는 2개의 전이 윈도우들이 정의된다. 추가 제약으로서, SHORT 윈도우들은 8개의 윈도우들의 그룹들로 발생하도록 요구된다. 이런 식으로, 윈도우들과 윈도우 그룹들 간의 스트라이드(stride)는 1024개 샘플들의 일정 값으로 유지된다.

SAOC 시스템이 객체 신호들, 다운믹스 또는 객체 나머지들에 AAC 기반 코덱을 이용한다면, 코덱과 쉽게 동기화될 수 있는 프레이밍 방식을 갖는 것이 유리할 것이다. 이런 이유로, AAC-윈도우들을 기반으로 한 블록 스위칭 방식이 설명된다.

도 11은 AAC형 블록 스위칭 예를 도시한다. 특히, 도 11은 트랜션트 및 결과적인 AAC형 윈도잉 시퀀스를 갖는 동일한 신호를 나타낸다. 시간 트랜션트의 위치는 8개의 SHORT 윈도우들로 커버되며, 이들은 LONG 윈도우들로부터의 그리고 LONG 윈도우들로의 전이 윈도우들로 둘러싸인다고 확인될 수 있다. 예시로부터, 트랜션트 자체가 단일 윈도우에도 2개의 윈도우들 간의 크로스오버 포인트에도 중심을 두지 않는다고 확인될 수 있다. 이는, 윈도우 위치들이 그리드로 고정되지만, 이 그리드는 동시에 일정한 스트라이드를 보장하기 때문이다. 결과적인 시간 라운딩 에러는 LONG 윈도우들만을 사용함으로써 야기되는 에러들과 비교하여 지각적으로 무관하기에 충분히 작다고 추정된다.

윈도우들은 다음과 같이 정의된다:

- LONG 윈도우:

, 여기서 N _LONG = 2048.

- SHORT 윈도우:

, 여기서 N _SHORT = 256.

- LONG에서 SHORT들로의 전이 윈도우:

- SHORT들에서 LONG으로의 전이 윈도우:

다음에, 실시예들에 따른 구현 변형들이 설명된다.

블록 스위칭 방식과 무관하게, 다른 설계 선택은 실제 t/f-변환의 길이이다. 주요 타깃이 분석 프레임들에 걸쳐 다음 주파수 도메인 동작들을 단순히 유지하는 것이라면, 일정한 변환 길이가 사용될 수 있다. 길이는 예를 들어, 허용되는 가장 긴 프레임의 길이에 대응하는 적절한 큰 값으로 설정된다. 시간 도메인 프레임이 이 값보다 더 짧다면, 이는 전체 길이로 제로-패딩된다. 제로-패딩 이후에 스펙트럼이 훨씬 더 많은 수의 빈들을 갖는다 하더라도, 실제 정보의 양은 더 짧은 변환에 비해 증가되지 않는다는 점이 주목되어야 한다. 이 경우, 커널 행렬들

은 n의 모든 값들에 대해 동일한 차원들을 갖는다.

다른 대안은 제로-패딩 없이 윈도잉된 프레임을 변환하는 것이다. 이는 일정한 변환 길이에서보다 더 작은 계산 복잡도를 갖는다. 그러나 연속한 프레임들 사이에 주파수 분해능들을 다르게 하는 것은 커널 행렬들

이 고려될 필요가 있다.

다음에, 한 실시예에 따른 확장된 하이브리드 필터링이 설명된다.

더 높은 주파수 분해능을 얻기 위한 다른 가능성은 더 미세한 분해능을 위해 표준 SAOC에서 사용되는 하이브리드 필터 뱅크를 변형하는 것이다. 표준 SAOC에서, 64개의 QMF 대역들 중 가장 낮은 3개만이 나이퀴스트 필터 뱅크에 통과되어, 대역 콘텐츠를 더 세분한다.

도 12는 확장된 QMF 하이브리드 필터링을 나타낸다. 나이퀴스트 필터들이 각각의 QMF 대역에 대해 개별적으로 반복되고, 단일 고 분해능 스펙트럼에 대해 출력들이 결합된다. 특히, 도 12는 각각의 QMF 대역을, 예를 들어 16개의 부대역들로 세분할 것을 요구할(32개의 부대역들로의 복소 필터링을 요구하는) DFT 기반 접근 방식과 비슷한 주파수 분해능을 어떻게 얻는지를 설명한다. 이러한 접근 방식의 약점은 대역들의 협소성으로 인해, 요구되는 필터 프로토타입들이 길다는 점이다. 이는 얼마간의 처리 지연을 야기하며, 계산 복잡도를 증가시킨다.

대안적인 방법은 나이퀴스트 필터들의 세트들을 효과적인 필터 뱅크들/변환들(예를 들어, "줌" DFT, 이산 코사인 변환 등)로 대체함으로써 확장된 하이브리드 필터링을 구현하는 것이다. 더욱이, 제 1 필터 스테이지(여기서는 QMF)의 누설 효과들로 인해 야기된 결과적인 고 분해능 스펙트럼 계수들에 포함된 에일리어싱은, 잘 알려진 MPEG-1/2 계층 3 하이브리드 필터 뱅크 [FB][MPEG-1]과 비슷한 고 분해능 스펙트럼 계수들의 처리 후 에일리어싱 제거에 의해 상당히 감소될 수 있다.

도 1b는 대응하는 실시예에 따라 복수의 시간 도메인 다운믹스 샘플들을 포함하는 다운믹스 신호로부터 하나 또는 그보다 많은 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위한 디코더를 나타낸다. 다운믹스 신호는 2개 또는 그보다 많은 오디오 객체 신호들을 인코딩한다.

디코더는 복수의 부대역 샘플들을 포함하는 복수의 부대역들을 얻기 위해 복수의 시간 도메인 다운믹스 샘플들을 변환하기 위한 제 1 분석 하위 모듈(161)을 포함한다.

더욱이, 디코더는 복수의 분석 윈도우들을 결정하기 위한 윈도우 시퀀스 생성기(162)를 포함하며, 여기서 분석 윈도우들 각각은 복수의 부대역들 중 하나의 부대역의 복수의 부대역 샘플들을 포함하고, 복수의 분석 윈도우들의 각각의 분석 윈도우는 해당 분석 윈도우의 부대역 샘플들의 수를 표시하는 윈도우 길이를 갖는다. 윈도우 시퀀스 생성기(162)는 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 특성에 좌우되게, 예를 들어 파라메트릭 사이드 정보를 기초로 복수의 분석 윈도우들을 결정하도록 구성된다.

더욱이, 디코더는 변환된 다운믹스를 얻기 위해, 복수의 분석 윈도우들의 각각의 분석 윈도우의 복수의 부대역 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 변환하기 위한 제 2 분석 모듈(163)을 포함한다.

더욱이, 디코더는 오디오 출력 신호를 얻기 위해, 변환된 다운믹스를 2개 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로 언믹싱하기 위한 언믹싱 유닛(164)을 포함한다.

즉, 변환은 2개의 단계들로 수행된다. 제 1 변환 단계에서, 복수의 부대역 샘플들을 각각이 포함하는 복수의 부대역들이 생성된다. 다음에, 제 2 단계에서, 추가 변환이 수행된다. 그 중에서도, 제 2 단계에 사용되는 분석 윈도우들은 결과적인 변환된 다운믹스의 시간 분해능 및 주파수 분해능을 결정한다.

도 13은 변환을 위해 짧은 윈도우들이 사용되는 예를 나타낸다. 짧은 윈도우들의 사용은 낮은 주파수 분해능으로, 그러나 높은 시간 분해능으로 이어진다. 짧은 윈도우들을 이용하는 것은 예를 들어, 인코딩된 오디오 객체 신호들에 트랜션트가 존재하는 경우에 적절할 수 있다(u _i _,j 는 부대역 샘플들을 나타내고, v _s _,r 은 시간-주파수 도메인에서 변환된 다운믹스의 샘플들을 나타낸다.)

도 14는 도 13의 예에서보다 더 긴 윈도우들이 변환을 위해 사용되는 예를 나타낸다. 긴 윈도우들의 사용은 높은 주파수 분해능으로, 그러나 낮은 시간 분해능으로 이어진다. 긴 윈도우들을 이용하는 것은 예를 들어, 인코딩된 오디오 객체 신호들에 트랜션트가 존재하지 않는 경우에 적절할 수 있다. (또, u _i _,j 는 부대역 샘플들을 나타내고, v _s _,r 은 시간-주파수 도메인에서 변환된 다운믹스의 샘플들을 나타낸다.)

도 2b는 한 실시예에 따라 대응하는 2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 인코더를 나타낸다. 2개 또는 그보다 많은 입력 오디오 객체 신호들 각각은 복수의 시간 도메인 신호 샘플들을 포함한다.

인코더는 복수의 부대역 샘플들을 포함하는 복수의 부대역들을 얻도록 복수의 시간 도메인 신호 샘플들을 변환하기 위한 제 1 분석 하위 모듈(171)을 포함한다.

더욱이, 인코더는 복수의 분석 윈도우들을 결정하기 위한 윈도우 시퀀스 유닛(172)을 포함하며, 여기서 분석 윈도우들 각각은 복수의 부대역들 중 하나의 부대역의 복수의 부대역 샘플들을 포함하고, 분석 윈도우들 각각은 해당 분석 윈도우의 부대역 샘플들의 수를 표시하는 윈도우 길이를 갖고, 윈도우 시퀀스 유닛(172)은 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 특성에 좌우되게 복수의 분석 윈도우들을 결정하도록 구성된다. 예를 들어, (선택적) 트랜션트 검출 유닛(175)은 입력 오디오 객체 신호들 중 하나에 트랜션트가 존재하는지 여부에 관한 정보를 윈도우 시퀀스 유닛(172)에 제공할 수 있다.

더욱이, 인코더는 변환된 신호 샘플들을 얻기 위해, 복수의 분석 윈도우들의 각각의 분석 윈도우의 복수의 부대역 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 변환하기 위한 제 2 분석 모듈(173)을 포함한다.

더욱이, 인코더는 변환된 신호 샘플들에 따라 파라메트릭 사이드 정보를 결정하기 위한 PSI 추정 유닛(174)을 포함한다.

다른 실시예들에 따르면, 2개의 단계들에서 분석을 수행하기 위한 2개의 분석 모듈들이 존재할 수 있지만, 제 2 모듈은 신호 특성에 따라 온오프 전환될 수 있다.

예를 들어, 높은 주파수 분해능이 요구되고 낮은 시간 분해능이 받아들여질 수 있다면, 제 2 분석 모듈은 온으로 전환된다.

반면, 높은 시간 분해능이 요구되고 낮은 주파수 분해능이 받아들여진다면, 제 2 분석 모듈은 오프 전환된다.

도 1c는 이러한 실시예에 따라 다운믹스 신호로부터 하나 또는 그보다 많은 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위한 디코더를 나타낸다. 다운믹스 신호는 하나 또는 그보다 많은 오디오 객체 신호들을 인코딩한다.

디코더는 하나 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 특성에 따라 활성화 표시를 활성화 상태로 설정하기 위한 제어 유닛(181)을 포함한다.

더욱이, 디코더는 복수의 제 1 부대역 채널들을 포함하는 제 1 변환된 다운믹스를 얻도록 다운믹스 신호를 변환하기 위한 제 1 분석 모듈(182)을 포함한다.

더욱이, 디코더는 활성화 표시가 활성화 상태로 설정될 때, 복수의 제 2 부대역 채널들을 얻도록 제 1 부대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 다운믹스를 생성하기 위한 제 2 분석 모듈(183)을 포함하며, 여기서 제 2 변환된 다운믹스는 제 2 분석 모듈에 의해 변환되지 않은 제 1 부대역 채널들 및 제 2 부대역 채널들을 포함한다.

더욱이, 디코더는 언믹싱 유닛(184)을 포함하며, 여기서 언믹싱 유닛(184)은 활성화 표시가 활성화 상태로 설정될 때, 하나 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로, 제 2 변환된 다운믹스를 언믹싱하여 오디오 출력 신호를 얻고, 활성화 표시가 활성화 상태로 설정되지 않을 때, 하나 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로, 제 1 변환된 다운믹스를 언믹싱하여 오디오 출력 신호를 얻도록 구성된다.

도 15는 높은 주파수 분해능이 요구되며 낮은 시간 분해능이 받아들여질 수 있는 예를 나타낸다. 그에 따라, 제어 유닛(181)은 활성화 표시를 활성화 상태로 설정함으로써(예를 들어, 불(boolean) 변수 "activation_indication"을 "activation_indication = true"로 설정함으로써) 제 2 분석 모듈을 온으로 전환한다. 다운믹스 신호는 (도 15에 도시되지 않은) 제 1 분석 모듈(182)에 의해 변환되어 제 1 변환된 다운믹스를 얻는다. 도 15의 예에서, 변환된 다운믹스는 3개의 부대역들을 갖는다. 더 현실적인 애플리케이션 시나리오들에서, 예를 들어, 변환된 다운믹스는 예를 들어, 32개 또는 64개의 부대역들을 가질 수 있다. 다음에, 제 1 변환된 다운믹스는 (도 15에 도시되지 않은) 제 2 분석 모듈(183)에 의해 변환되어 제 2 변환된 다운믹스를 얻는다. 도 15의 예에서, 변환된 다운믹스는 9개의 부대역들을 갖는다. 더 현실적인 애플리케이션 시나리오들에서, 예를 들어, 변환된 다운믹스는 예를 들어, 512개, 1024개 또는 2048개의 부대역들을 가질 수 있다. 다음에, 언믹싱 유닛(184)은 제 2 변환된 다운믹스를 언믹싱하여 오디오 출력 신호를 얻을 것이다.

예를 들어, 언믹싱 유닛(184)은 제어 유닛(181)으로부터 활성화 표시를 수신할 수 있다. 혹은, 예를 들어, 언믹싱 유닛(184)이 제 2 분석 모듈(183)로부터 제 2 변환된 다운믹스를 수신할 때마다, 언믹싱 유닛(184)은 제 2 변환된 다운믹스가 언믹싱되어야 한다고 결론을 내리고, 언믹싱 유닛(184)이 제 2 분석 모듈(183)로부터 제 2 변환된 다운믹스를 수신하지 않을 때마다, 언믹싱 유닛(184)은 제 1 변환된 다운믹스가 언믹싱되어야 한다고 결론을 내린다.

도 16은 높은 시간 분해능이 요구되며 낮은 주파수 분해능이 받아들여질 수 있는 예를 나타낸다. 그에 따라, 제어 유닛(181)은 활성화 표시를 활성화 상태와는 다른 상태로 설정함으로써(예를 들어, 불 변수 "activation_indication"을 "activation_indication = false"로 설정함으로써) 제 2 분석 모듈을 오프 전환한다. 다운믹스 신호는 (도 16에 도시되지 않은) 제 1 분석 모듈(182)에 의해 변환되어 제 1 변환된 다운믹스를 얻는다. 다음에, 도 15와는 달리, 제 1 변환된 다운믹스는 제 2 분석 모듈(183)에 의해 한번 더 변환되지 않는다. 대신, 언믹싱 유닛(184)은 제 2 변환된 다운믹스를 언믹싱하여 오디오 출력 신호를 얻을 것이다.

한 실시예에 따르면, 제어 유닛(181)은 하나 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호가 하나 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 변화를 나타내는 트랜션트를 포함하는지 여부에 따라 활성화 표시를 활성화 상태로 설정하도록 구성된다.

다른 실시예에서, 부대역 변환 표시가 제 1 부대역 채널들 각각에 할당된다. 제어 유닛(181)은 하나 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 특성에 따라 제 1 부대역 채널들 각각의 채널의 부대역 변환 표시를 부대역 변환 상태로 설정하도록 구성된다. 더욱이, 제 2 분석 모듈(183)은 부대역 변환 표시가 부대역 변환 상태로 설정된 제 1 부대역 채널들 각각을 변환하여 복수의 제 2 부대역 채널들을 얻고, 부대역 변환 표시가 부대역 변환 상태로 설정되지 않은 제 2 부대역 채널들 각각은 변환하지 않도록 구성된다.

도 17은 (도 17에 도시되지 않은) 제어 유닛(181)이 (예를 들어, 불 변수 "subband_transform_indication_2"를 "subband_transform_indication_2 = true"로 설정함으로써) 제 2 부대역의 부대역 변환 표시를 부대역 변환 상태로 설정한 예를 나타낸다. 따라서 (도 17에 도시되지 않은) 제 2 분석 모듈(183)은 제 2 부대역을 변환하여 3개의 새로운 "미세 분해능" 부대역들을 얻는다. 도 17의 예에서, 제어 유닛(181)은 (예를 들어, 불 변수들 "subband_transform_indication_1"과 "subband_transform_indication_3"을 "subband_transform_indication_1 = false"와 "subband_transform_indication_3 = false"로 설정함으로써) 제 1 및 제 3 부대역의 부대역 변환 표시를 부대역 변환 상태로 설정하지 않았다. 따라서 제 2 분석 모듈(183)은 제 1 및 제 3 부대역을 변환하지 않는다. 대신, 제 1 부대역과 제 3 부대역 자체가 제 2 변환된 다운믹스의 부대역들로서 사용된다.

도 18은 (도 18에 도시되지 않은) 제어 유닛(181)이 (예를 들어, 불 변수 "subband_transform_indication_1"을 "subband_transform_indication_1 = true"로 설정함으로써 그리고 예를 들어, 불 변수 "subband_transform_indication_2"를 "subband_transform_indication_2 = true"로 설정함으로써) 제 1 및 제 2 부대역의 부대역 변환 표시를 부대역 변환 상태로 설정한 예를 나타낸다. 따라서 (도 18에 도시되지 않은) 제 2 분석 모듈(183)은 제 1 및 제 2 부대역을 변환하여 6개의 새로운 "미세 분해능" 부대역들을 얻는다. 도 18의 예에서, 제어 유닛(181)은 제 3 부대역의 부대역 변환 표시를 부대역 변환 상태로 설정하지 않았다(예를 들어, 이는 불 변수 "subband_transform_indication_3"을 "subband_transform_indication_3 = false"로 설정함으로써 제어 유닛(181)에 의해 표시될 수 있다). 따라서 제 2 분석 모듈(183)은 제 3 부대역을 변환하지 않는다. 대신, 제 3 부대역 자체가 제 2 변환된 다운믹스의 부대역으로서 사용된다.

한 실시예에 따르면, 제 1 분석 모듈(182)은 직각 대칭 필터(QMF)를 이용함으로써 다운믹스 신호를 변환하여 제 1 변환된 복수의 제 1 부대역 채널들을 포함하는 다운믹스를 얻도록 구성된다.

한 실시예에서, 제 1 분석 모듈(182)은 제 1 분석 윈도우 길이에 따라 다운믹스 신호를 변환하도록 구성되며, 여기서 제 1 분석 윈도우 길이는 상기 신호 특성에 좌우되고, 그리고/또는 제 2 분석 모듈(183)은 활성화 표시가 활성화 상태로 설정될 때, 제 2 분석 윈도우 길이에 따라 제 1 부대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 다운믹스를 생성하도록 구성되고, 여기서 제 2 분석 윈도우 길이는 상기 신호 특성에 좌우된다. 이러한 실시예는 제 2 분석 모듈(183)을 온오프 전환하도록, 그리고 분석 윈도우의 길이를 설정하도록 구현된다.

한 실시예에서, 디코더는 다운믹스 신호로부터 하나 또는 그보다 많은 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하도록 구성되며, 여기서 다운믹스 신호는 2개 또는 그보다 많은 오디오 객체 신호들을 인코딩한다. 제어 유닛(181)은 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 특성에 따라 활성화 표시를 활성화 상태로 설정하도록 구성된다. 더욱이, 언믹싱 유닛(184)은 활성화 표시가 활성화 상태로 설정될 때, 하나 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로, 제 2 변환된 다운믹스를 언믹싱하여 오디오 출력 신호를 얻고, 활성화 표시가 활성화 상태로 설정되지 않을 때, 2개 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로 제 1 변환된 다운믹스를 언믹싱하여 오디오 출력 신호를 얻도록 구성된다.

도 2c는 한 실시예에 따라 입력 오디오 객체 신호를 인코딩하기 위한 인코더를 나타낸다.

인코더는 입력 오디오 객체 신호의 신호 특성에 따라 활성화 표시를 활성화 상태로 설정하기 위한 제어 유닛(191)을 포함한다.

더욱이, 인코더는 제 1 변환된 오디오 객체 신호를 얻도록 입력 오디오 객체 신호를 변환하기 위한 제 1 분석 모듈(192)을 포함하며, 여기서 제 1 변환된 오디오 객체 신호는 복수의 제 1 부대역 채널들을 포함한다.

더욱이, 인코더는 활성화 표시가 활성화 상태로 설정될 때, 복수의 제 2 부대역 채널들을 얻도록 제 1 부대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 오디오 객체 신호를 생성하기 위한 제 2 분석 모듈(193)을 포함하며, 여기서 제 2 변환된 오디오 객체 신호는 제 2 분석 모듈에 의해 변환되지 않은 제 1 부대역 채널들 및 제 2 부대역 채널들을 포함한다.

더욱이, 인코더는 PSI 추정 유닛(194)을 포함하며, 여기서 PSI 추정 유닛(194)은 활성화 표시가 활성화 상태로 설정될 때는, 제 2 변환된 오디오 객체 신호를 기초로 파라메트릭 사이드 정보를 결정하고, 활성화 표시가 활성화 상태로 설정되지 않을 때는, 제 1 변환된 오디오 객체 신호를 기초로 파라메트릭 사이드 정보를 결정하도록 구성된다.

한 실시예에 따르면, 제어 유닛(191)은 입력 오디오 객체 신호의 신호 변화를 나타내는 트랜션트를 포함하는지 여부에 따라 활성화 표시를 활성화 상태로 설정하도록 구성된다.

다른 실시예에서, 부대역 변환 표시가 제 1 부대역 채널들 각각에 할당된다. 제어 유닛(191)은 입력 오디오 객체 신호의 신호 특성에 따라 제 1 부대역 채널들 각각의 채널의 부대역 변환 표시를 부대역 변환 상태로 설정하도록 구성된다. 제 2 분석 모듈(193)은 부대역 변환 표시가 부대역 변환 상태로 설정된 제 1 부대역 채널들 각각을 변환하여 복수의 제 2 부대역 채널들을 얻고, 부대역 변환 표시가 부대역 변환 상태로 설정되지 않은 제 2 부대역 채널들 각각은 변환하지 않도록 구성된다.

한 실시예에 따르면, 제 1 분석 모듈(192)은 직각 대칭 필터를 이용함으로써 입력 오디오 객체 신호들 각각을 변환하도록 구성된다.

다른 실시예에서, 제 1 분석 모듈(192)은 제 1 분석 윈도우 길이에 따라 입력 오디오 객체 신호를 변환하도록 구성되며, 여기서 제 1 분석 윈도우 길이는 상기 신호 특성에 좌우되고, 그리고/또는 제 2 분석 모듈(193)은 활성화 표시가 활성화 상태로 설정될 때, 제 2 분석 윈도우 길이에 따라 복수의 제 1 부대역 채널들 중 적어도 하나를 변환함으로써 제 2 변환된 오디오 객체 신호를 생성하도록 구성되며, 여기서 제 2 분석 윈도우 길이는 상기 신호 특성에 좌우된다.

다른 실시예에 따른, 인코더는 입력 오디오 객체 신호 및 적어도 하나의 추가 입력 오디오 객체 신호를 인코딩하도록 구성된다. 제어 유닛(191)은 입력 오디오 객체 신호의 신호 특성에 따라 그리고 적어도 하나의 추가 입력 오디오 객체 신호의 신호 특성에 따라 활성화 표시를 활성화 상태로 설정하도록 구성된다. 제 1 분석 모듈(192)은 적어도 하나의 추가 입력 오디오 객체 신호를 변환하여 적어도 하나의 추가 제 1 변환된 오디오 객체 신호를 얻도록 구성되며, 여기서 적어도 하나의 추가 제 1 변환된 오디오 객체 신호 각각은 복수의 제 1 부대역 채널들을 포함한다. 제 2 분석 모듈(193)은 활성화 표시가 활성화 상태로 설정될 때, 적어도 하나의 추가 제 1 변환된 오디오 객체 신호들 중 적어도 하나의 제 1 변환된 오디오 객체 신호의 복수의 제 1 부대역 채널들 중 적어도 하나의 제 1 부대역 채널을 변환하여 복수의 추가 제 2 부대역 채널들을 얻도록 구성된다. 더욱이, PSI 추정 유닛(194)은 활성화 표시가 활성화 상태로 설정될 때 복수의 추가 제 2 부대역 채널들을 기초로 파라메트릭 사이드 정보를 결정하도록 구성된다.

본 발명의 방법 및 장치는 고정 필터 뱅크 또는 시간-주파수 변환을 사용하는 최신 SAOC 처리의 앞서 언급한 결점들을 완화한다. SAOC 내에서 오디오 객체들을 분석 및 합성하는데 이용되는 변환들 또는 필터 뱅크들의 시간/주파수 분해능을 동적으로 적응시킴으로써 더 양호한 주관적 오디오 품질이 얻어질 수 있다. 동시에, 시간 정확도의 부재로 야기된 프리 및 포스트 에코들과 같은 인공물들 및 불충분한 스펙트럼 정확도로 야기된 청각적 조도 및 이중 통화와 같은 인공물들이 동일한 SAOC 시스템 내에서 최소화될 수 있다. 더 중요하게는, 본 발명의 적응성 변환이 구비된 강화된 SAOC 시스템은 여전히 표준 SAOC와 비슷한 양호한 지각 품질을 제공하면서 표준 SAOC와의 하위 호환성을 유지한다.

실시예들은 위에서 설명한 바와 같이 오디오 인코더 또는 오디오 인코딩 방법 또는 관련 컴퓨터 프로그램을 제공한다. 더욱이, 실시예들은 위에서 설명한 바와 같이 오디오 인코더 또는 오디오 디코딩 방법 또는 관련 컴퓨터 프로그램을 제공한다. 더욱이, 실시예들은 위에서 설명한 바와 같이 인코딩된 오디오 신호 또는 인코딩된 오디오 신호를 저장한 저장 매체를 제공한다.

일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타내며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다는 점이 명백하다. 비슷하게, 방법 단계와 관련하여 설명한 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다.

본 발명의 분해된 신호는 디지털 저장 매체 상에 저장될 수 있고 또는 송신 매체, 예컨대 무선 송신 매체 또는 유선 송신 매체, 예컨대 인터넷을 통해 전송될 수 있다.

특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다.

본 발명에 따른 일부 실시예들은 본 명세서에서 설명한 방법들 중 하나가 수행되도록, 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능 제어 신호들을 갖는 비-일시적 데이터 반송파를 포함한다.

일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 물건이 컴퓨터 상에서 실행될 때, 방법들 중 하나를 수행하기 위해 작동하는 프로그램 코드를 갖는 컴퓨터 프로그램 물건으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 기계 판독 가능 반송파 상에 저장될 수 있다.

다른 실시예들은 기계 판독 가능 반송파 상에 저장된, 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

즉, 본 발명의 방법의 한 실시예는 이에 따라, 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서 본 발명의 방법의 추가 실시예들은 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하여 그 위에 기록된 데이터 반송파(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다.

따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.

추가 실시예는 처리 수단, 예를 들어 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성 또는 적응된 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.

추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

일부 실시예들에서, 프로그래밍 가능 로직 디바이스(예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 본 명세서에서 설명한 방법들의 기능들 중 일부 또는 전부를 수행하는데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.

위에서 설명한 실시예들은 단지 본 발명의 원리들에 대한 예시일 뿐이다. 본 명세서에서 설명한 어레인지먼트들 및 세부사항들의 수정들 및 변형들이 다른 당업자들에게 명백할 것이라고 이해된다. 따라서 이는 본 명세서의 실시예들의 묘사 및 설명에 의해 제시된 특정 세부사항들로가 아닌, 바로 다음의 특허청구범위로만 한정되는 것을 취지로 한다.

참조들

[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.

[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006.

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April, 2007.

[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam, 2008.

[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010.

[AAC] Bosi, Marina; Brandenburg, Karlheinz; Quackenbush, Schuyler; Fielder, Louis; Akagiri, Kenzo; Fuchs, Hendrik; Dietz, Martin, "ISO/IEC MPEG-2 Advanced Audio Coding", J. Audio Eng. Soc, vol 45, no 10, pp. 789-814, 1997.

[ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010.

[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010.

[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011.

[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.

[ISS5] Shuhua Zhang and Laurent Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011.

[ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011.

[ISS7] Andrew Nesbit, Emmanuel Vincent, and Mark D. Plumbley: "Benchmarking flexible adaptive time-frequency transforms for underdetermined audio source separation", IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 37-40, 2009.

[FB] B. Edler, "Aliasing reduction in subbands of cascaded filterbanks with decimation", Electronic Letters, vol. 28, No. 12, pp. 1104-1106, June 1992.

[MPEG-1] ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC 11172, Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s,1993.

Claims

복수의 시간 도메인 다운믹스 샘플들을 포함하며 2개 또는 그보다 많은 오디오 객체 신호들을 인코딩하는 다운믹스 신호로부터 하나 또는 그보다 많은 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위한 디코더로서,
복수의 분석 윈도우들을 결정하기 위한 윈도우 시퀀스 생성기(134) ― 상기 분석 윈도우들 각각은 상기 다운믹스 신호의 복수의 시간 도메인 다운믹스 샘플들을 포함하고, 상기 복수의 분석 윈도우들의 각각의 분석 윈도우는 해당 분석 윈도우의 시간 도메인 다운믹스 샘플들의 수를 표시하는 윈도우 길이를 갖고, 상기 윈도우 시퀀스 생성기(134)는 상기 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 상기 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 특성에 좌우되게 상기 복수의 분석 윈도우들을 결정하도록 구성됨 ―,
변환된 다운믹스를 얻기 위해, 상기 복수의 분석 윈도우들의 각각의 분석 윈도우의 복수의 시간 도메인 다운믹스 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 시간 도메인에서 스펙트럼 도메인으로 변환하기 위한 t/f 분석 모듈(135), 및
상기 오디오 출력 신호를 얻기 위해, 상기 변환된 다운믹스를 상기 2개 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로 언믹싱하기 위한 언믹싱 유닛(136)을 포함하는,
오디오 출력 신호를 생성하기 위한 디코더.
제 1 항에 있어서,
상기 윈도우 시퀀스 생성기(134)는 상기 다운믹스 신호에 의해 인코딩되는 상기 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 변화를 나타내는 트랜션트(transient)가 상기 복수의 분석 윈도우들 중 제 1 분석 윈도우에 의해 그리고 상기 복수의 분석 윈도우들 중 제 2 분석 윈도우들에 의해 구성되게 상기 복수의 분석 윈도우들을 결정하도록 구성되며,
상기 제 1 분석 윈도우의 중심 c _k 는 c _k = t - l _b 에 따라 상기 트랜션트의 위치(t)에 의해 정의되고,
상기 제 1 분석 윈도우의 중심 c _k ₊ ₁은 c _k = t + l _a 에 따라 상기 트랜션트의 위치(t)에 의해 정의되며,
l _a 와 l _b 는 개수들인,
오디오 출력 신호를 생성하기 위한 디코더.
제 1 항에 있어서,
상기 윈도우 시퀀스 생성기(134)는 상기 다운믹스 신호에 의해 인코딩되는 상기 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 변화를 나타내는 트랜션트가 상기 복수의 분석 윈도우들 중 제 1 분석 윈도우에 의해 구성되게 상기 복수의 분석 윈도우들을 결정하도록 구성되며,
상기 제 1 분석 윈도우의 중심 c _k 는 c _k = t에 따라 상기 트랜션트의 위치(t)에 의해 정의되고,
상기 복수의 분석 윈도우들 중 제 2 분석 윈도우의 중심 c _k _-1은 c _k = t - l _b 에 따라 상기 트랜션트의 위치(t)에 의해 정의되며,
상기 복수의 분석 윈도우들 중 제 3 분석 윈도우의 중심 c _k ₊₁은 c _k = t + l _b 에 따라 상기 트랜션트의 위치(t)에 의해 정의되고,
l _a 와 l _b 는 개수들인,
오디오 출력 신호를 생성하기 위한 디코더.
제 1 항에 있어서,
상기 윈도우 시퀀스 생성기(134)는 복수의 분석 윈도우들 각각이 제 1 개수의 시간 도메인 신호 샘플들 또는 제 2 개수의 시간 도메인 신호 샘플들을 포함하게 상기 복수의 분석 윈도우들을 결정하도록 구성되며,
상기 제 2 개수의 시간 도메인 신호 샘플들은 상기 제 1 개수의 시간 도메인 신호 샘플들보다 더 많고,
상기 복수의 분석 윈도우들의 분석 윈도우들 각각은 해당 분석 윈도우가 상기 다운믹스 신호에 의해 인코딩되는 상기 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 변화를 나타내는 트랜션트를 포함할 때 상기 제 1 개수의 시간 도메인 신호 샘플들을 포함하는,
오디오 출력 신호를 생성하기 위한 디코더.
복수의 시간 도메인 다운믹스 샘플들을 포함하며 2개 또는 그보다 많은 오디오 객체 신호들을 인코딩하는 다운믹스 신호로부터 하나 또는 그보다 많은 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위한 디코더로서,
복수의 부대역 샘플들을 포함하는 복수의 부대역들을 얻기 위해 상기 복수의 시간 도메인 다운믹스 샘플들을 변환하기 위한 제 1 분석 하위 모듈(161),
복수의 분석 윈도우들을 결정하기 위한 윈도우 시퀀스 생성기(162) ― 상기 분석 윈도우들 각각은 상기 복수의 부대역들 중 하나의 부대역의 복수의 부대역 샘플들을 포함하고, 상기 복수의 분석 윈도우들의 각각의 분석 윈도우는 해당 분석 윈도우의 부대역 샘플들의 수를 표시하는 윈도우 길이를 갖고, 상기 윈도우 시퀀스 생성기(162)는 상기 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 상기 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 특성에 좌우되게 상기 복수의 분석 윈도우들을 결정하도록 구성됨 ―,
변환된 다운믹스를 얻기 위해, 상기 복수의 분석 윈도우들의 각각의 분석 윈도우의 복수의 부대역 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 변환하기 위한 제 2 분석 모듈(163), 및
상기 오디오 출력 신호를 얻기 위해, 상기 변환된 다운믹스를 상기 2개 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로 언믹싱하기 위한 언믹싱 유닛(164)을 포함하는,
오디오 출력 신호를 생성하기 위한 디코더.
복수의 시간 도메인 신호 샘플들을 각각이 포함하는 2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 인코더로서,
복수의 분석 윈도우들을 결정하기 위한 윈도우 시퀀스 유닛(102) ― 상기 분석 윈도우들 각각은 상기 입력 오디오 객체 신호들 중 하나의 입력 오디오 객체 신호의 복수의 시간 도메인 신호 샘플들을 포함하고, 상기 분석 윈도우들 각각은 해당 분석 윈도우의 시간 도메인 신호 샘플들의 수를 표시하는 윈도우 길이를 갖고, 상기 윈도우 시퀀스 유닛(102)은 상기 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 상기 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 특성에 좌우되게 상기 복수의 분석 윈도우들을 결정하도록 구성됨 ―,
변환된 신호 샘플들을 얻기 위해, 상기 분석 윈도우들의 각각의 분석 윈도우의 시간 도메인 신호 샘플들을 시간 도메인에서 스펙트럼 도메인으로 변환하기 위한 t/f 분석 유닛(103) ― 상기 t/f 분석 유닛(103)은 상기 분석 윈도우들의 각각의 분석 윈도우의 복수의 시간 도메인 신호 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 변환하도록 구성됨 ―, 및
상기 변환된 신호 샘플들에 따라 파라메트릭 사이드 정보를 결정하기 위한 PSI 추정 유닛(104)을 포함하는,
2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 인코더.
제 6 항에 있어서,
상기 인코더는, 상기 2개 또는 그보다 많은 입력 오디오 객체 신호들의 복수의 객체 레벨 차이들을 결정하도록 구성되고, 상기 객체 레벨 차이들 중 제 1 객체 레벨 차이와 객체 레벨 차이들 중 제 2 객체 레벨 차이 간의 차가 임계값보다 더 큰지 여부를 결정하여, 상기 분석 윈도우들 각각에 대해, 해당 분석 윈도우가 상기 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 변화를 나타내는 트랜션트를 포함하는지 여부를 결정하도록 구성되는 트랜션트 검출 유닛(101)을 더 포함하는,
2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 인코더.
제 7 항에 있어서,
상기 트랜션트 검출 유닛(101)은 상기 객체 레벨 차이들 중 제 1 객체 레벨 차이와 상기 객체 레벨 차이들 중 제 2 객체 레벨 차이 간의 차가 상기 임계값보다 더 큰지 여부를 결정하기 위해 검출 함수 d(n)을 이용하도록 구성되며,
상기 검출 함수 d(n)은 다음과 같이 정의되고:

n은 인덱스를 나타내고,
i는 제 1 객체를 나타내고,
j는 제 2 객체를 나타내고,
b는 파라메트릭 대역을 나타내는,
2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 인코더.
제 6 항 내지 제 8 항 중 어느 한 항에 있어서,
상기 윈도우 시퀀스 유닛(102)은 상기 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 변화를 나타내는 트랜션트가 상기 복수의 분석 윈도우들 중 제 1 분석 윈도우로 그리고 상기 복수의 분석 윈도우들 중 제 2 분석 윈도우로 구성되게 상기 복수의 분석 윈도우들을 결정하도록 구성되며,
상기 제 1 분석 윈도우의 중심 c _k 는 c _k = t - l _b 에 따라 상기 트랜션트의 위치(t)에 의해 정의되고,
상기 제 1 분석 윈도우의 중심 c _k ₊ ₁은 c _k = t + l _a 에 따라 상기 트랜션트의 위치(t)에 의해 정의되며,
l _a 와 l _b 는 개수들인,
2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 인코더.
제 6 항 내지 제 8 항 중 어느 한 항에 있어서,
상기 윈도우 시퀀스 유닛(102)은 상기 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 변화를 나타내는 트랜션트가 상기 복수의 분석 윈도우들 중 제 1 분석 윈도우에 의해 구성되게 상기 복수의 분석 윈도우들을 결정하도록 구성되며,
상기 제 1 분석 윈도우의 중심 c _k 는 c _k = t에 따라 상기 트랜션트의 위치(t)에 의해 정의되고,
상기 복수의 분석 윈도우들 중 제 2 분석 윈도우의 중심 c _k _-1은 c _k = t - l _b 에 따라 상기 트랜션트의 위치(t)에 의해 정의되며,
상기 복수의 분석 윈도우들 중 제 3 분석 윈도우의 중심 c _k ₊₁은 c _k = t + l _b 에 따라 상기 트랜션트의 위치(t)에 의해 정의되고,
l _a 와 l _b 는 개수들인,
2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 인코더.
제 6 항 내지 제 8 항 중 어느 한 항에 있어서,
상기 윈도우 시퀀스 유닛(102)은 복수의 분석 윈도우들 각각이 제 1 개수의 시간 도메인 신호 샘플들 또는 제 2 개수의 시간 도메인 신호 샘플들을 포함하게 상기 복수의 분석 윈도우들을 결정하도록 구성되며,
상기 제 2 개수의 시간 도메인 신호 샘플들은 상기 제 1 개수의 시간 도메인 신호 샘플들보다 더 많고,
상기 복수의 분석 윈도우들의 분석 윈도우들 각각은 해당 분석 윈도우가 상기 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 변화를 나타내는 트랜션트를 포함할 때 상기 제 1 개수의 시간 도메인 신호 샘플들을 포함하는,
2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 인코더.
복수의 시간 도메인 신호 샘플들을 각각이 포함하는 2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 인코더로서,
복수의 부대역 샘플들을 포함하는 복수의 부대역들을 얻도록 상기 복수의 시간 도메인 신호 샘플들을 변환하기 위한 제 1 분석 하위 모듈(171),
복수의 분석 윈도우들을 결정하기 위한 윈도우 시퀀스 유닛(172) ― 상기 분석 윈도우들 각각은 상기 복수의 부대역들 중 하나의 부대역의 복수의 부대역 샘플들을 포함하고, 상기 분석 윈도우들 각각은 해당 분석 윈도우의 부대역 샘플들의 수를 표시하는 윈도우 길이를 갖고, 상기 윈도우 시퀀스 유닛(172)은 상기 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 상기 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 특성에 좌우되게 상기 복수의 분석 윈도우들을 결정하도록 구성됨 ―,
변환된 신호 샘플들을 얻기 위해, 상기 복수의 분석 윈도우들의 각각의 분석 윈도우의 복수의 부대역 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 변환하기 위한 제 2 분석 모듈(173), 및
상기 변환된 신호 샘플들에 따라 파라메트릭 사이드 정보를 결정하기 위한 PSI 추정 유닛(174)을 포함하는,
2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 인코더.
복수의 시간 도메인 다운믹스 샘플들을 포함하며 2개 또는 그보다 많은 오디오 객체 신호들을 인코딩하는 다운믹스 신호로부터 하나 또는 그보다 많은 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성하기 위해 디코딩하기 위한 방법으로서,
복수의 분석 윈도우들을 결정하는 단계 ― 상기 분석 윈도우들 각각은 상기 다운믹스 신호의 복수의 시간 도메인 다운믹스 샘플들을 포함하고, 상기 복수의 분석 윈도우들의 각각의 분석 윈도우는 해당 분석 윈도우의 시간 도메인 다운믹스 샘플들의 수를 표시하는 윈도우 길이를 갖고, 상기 복수의 분석 윈도우들을 결정하는 단계는 상기 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 상기 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 특성에 좌우되도록 수행됨 ―,
변환된 다운믹스를 얻기 위해, 상기 복수의 분석 윈도우들의 각각의 분석 윈도우의 복수의 시간 도메인 다운믹스 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 시간 도메인에서 스펙트럼 도메인으로 변환하는 단계, 및
상기 오디오 출력 신호를 얻기 위해, 상기 변환된 다운믹스를 상기 2개 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로 언믹싱하는 단계를 포함하는,
오디오 출력 신호를 생성하기 위해 디코딩하기 위한 방법.
복수의 시간 도메인 신호 샘플들을 각각이 포함하는 2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 방법으로서,
복수의 분석 윈도우들을 결정하는 단계 ― 상기 분석 윈도우들 각각은 상기 입력 오디오 객체 신호들 중 하나의 입력 오디오 객체 신호의 복수의 시간 도메인 신호 샘플들을 포함하고, 상기 분석 윈도우들 각각은 해당 분석 윈도우의 시간 도메인 신호 샘플들의 수를 표시하는 윈도우 길이를 갖고, 상기 복수의 분석 윈도우들을 결정하는 단계는 상기 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 상기 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 특성에 좌우되도록 수행됨 ―,
변환된 신호 샘플들을 얻기 위해, 상기 분석 윈도우들의 각각의 분석 윈도우의 시간 도메인 신호 샘플들을 시간 도메인에서 스펙트럼 도메인으로 변환하는 단계 ― 상기 분석 윈도우들의 각각의 분석 윈도우의 복수의 시간 도메인 신호 샘플들을 변환하는 단계는 해당 분석 윈도우의 윈도우 길이에 좌우됨 ―,
상기 변환된 신호 샘플들에 따라 파라메트릭 사이드 정보를 결정하는 단계를 포함하는,
2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 방법.
복수의 시간 도메인 다운믹스 샘플들을 포함하며 2개 또는 그보다 많은 오디오 객체 신호들을 인코딩하는 다운믹스 신호로부터 하나 또는 그보다 많은 오디오 출력 채널들을 포함하는 오디오 출력 신호를 생성함으로써 디코딩하기 위한 방법으로서,
복수의 부대역 샘플들을 포함하는 복수의 부대역들을 얻기 위해 상기 복수의 시간 도메인 다운믹스 샘플들을 변환하는 단계,
복수의 분석 윈도우들을 결정하는 단계 ― 상기 분석 윈도우들 각각은 상기 복수의 부대역들 중 하나의 부대역의 복수의 부대역 샘플들을 포함하고, 상기 복수의 분석 윈도우들의 각각의 분석 윈도우는 해당 분석 윈도우의 부대역 샘플들의 수를 표시하는 윈도우 길이를 갖고, 상기 복수의 분석 윈도우들을 결정하는 단계는 상기 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 상기 2개 또는 그보다 많은 오디오 객체 신호들 중 적어도 하나의 오디오 객체 신호의 신호 특성에 좌우되도록 수행됨 ―,
변환된 다운믹스를 얻기 위해, 상기 복수의 분석 윈도우들의 각각의 분석 윈도우의 복수의 부대역 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 변환하는 단계, 및
상기 오디오 출력 신호를 얻기 위해, 상기 변환된 다운믹스를 상기 2개 또는 그보다 많은 오디오 객체 신호들에 대한 파라메트릭 사이드 정보를 기초로 언믹싱하는 단계를 포함하는,
오디오 출력 신호를 생성함으로써 디코딩하기 위한 방법.
복수의 시간 도메인 신호 샘플들을 각각이 포함하는 2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 방법으로서,
복수의 부대역 샘플들을 포함하는 복수의 부대역들을 얻도록 상기 복수의 시간 도메인 신호 샘플들을 변환하는 단계,
복수의 분석 윈도우들을 결정하는 단계 ― 상기 분석 윈도우들 각각은 상기 복수의 부대역들 중 하나의 부대역의 복수의 부대역 샘플들을 포함하고, 상기 분석 윈도우들 각각은 해당 분석 윈도우의 부대역 샘플들의 수를 표시하는 윈도우 길이를 갖고, 상기 복수의 분석 윈도우들을 결정하는 단계는 상기 분석 윈도우들의 각각의 분석 윈도우의 윈도우 길이가 상기 2개 또는 그보다 많은 입력 오디오 객체 신호들 중 적어도 하나의 입력 오디오 객체 신호의 신호 특성에 좌우되도록 수행됨 ―,
변환된 신호 샘플들을 얻기 위해, 상기 복수의 분석 윈도우들의 각각의 분석 윈도우의 복수의 부대역 샘플들을 해당 분석 윈도우의 윈도우 길이에 따라 변환하는 단계, 및
상기 변환된 신호 샘플들에 따라 파라메트릭 사이드 정보를 결정하는 단계를 포함하는,
2개 또는 그보다 많은 입력 오디오 객체 신호들을 인코딩하기 위한 방법.
컴퓨터 또는 신호 프로세서 상에서 실행될 때 제 13 항 내지 제 16 항의 방법들 중 하나를 구현하기 위한 컴퓨터 프로그램을 포함하는 컴퓨터 판독가능 매체.