KR20220017400A

KR20220017400A - 출력 다운믹스 표현을 생성하기 위한 장치, 방법 또는 컴퓨터 프로그램

Info

Publication number: KR20220017400A
Application number: KR1020217038105A
Authority: KR
Inventors: 프란츠 루텔후버; 엘레니 포토풀루; 마르쿠스 멀티러스
Original assignee: 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우.
Priority date: 2019-04-23
Filing date: 2020-04-22
Publication date: 2022-02-11
Also published as: TWI797445B; CA3137446A1; JP2023164971A; BR112021021274A2; SG11202111413TA; CN113853805A; WO2020216459A1; MX2021012883A; JP2022529731A; US20220036911A1; AU2020262159A1; EP3959899A1; AU2020262159B2; TW202103144A; ZA202109418B; JP7348304B2; WO2020216797A1

Abstract

입력 다운믹스 표현으로부터 출력 다운믹스 표현을 생성― 입력 다운믹스 표현의 적어도 일부분은 제 1 다운믹싱 스킴에 따름 ―하기 위한 장치는, 적어도 하나의 업믹싱된 부분을 취득하기 위해 제1 다운믹싱 스킴에 대응하는 업믹싱 스킴을 사용하여 입력 다운믹스 표현의 적어도 일부분을 업믹싱하기 위한 업믹서(200), 및 제1 다운믹싱 스킴과는 다른 제2 다운믹싱 스킴에 따라 적어도 하나의 업믹싱된 부분을 다운믹싱하기 위한 다운믹서(300)를 포함한다.

Description

출력 다운믹스 표현을 생성하기 위한 장치, 방법 또는 컴퓨터 프로그램

본 발명은 다중 채널 처리에 관한 것으로, 특히, 모노 출력의 가능성을 제공하는 다중 채널 처리에 관한 것이다.

스테레오 인코딩된 비트스트림은 일반적으로 스테레오 시스템에서 재생되도록 디코딩되지만, 스테레오 비트스트림을 수신할 수 있는 모든 장치가 항상 스테레오 신호를 출력할 수 있는 것은 아니다. 가능한 시나리오는 모노 스피커만 있는 휴대폰에서 스테레오 신호를 재생하는 경우이다. 최신 3GPP IVAS 표준에 의해 지원되는 다중 채널 이동 통신 시나리오가 출현함에 따라, 가능한 한 효율적으로 추가적인 지연 및 복잡성 면에서 자유로우면서도 단순한 수동 다운믹스로 달성할 수 있는 것 이상의 가능한 최상의 지각 품질을 제공하는 스테레오-모노 다운믹스가 필요하다.

스테레오 신호를 모노 신호로 변환하는 방법에는 여러 가지가 있다. 이를 수행하는 가장 직접적인 방법은 다음 식과 같이 좌측 및 우측 채널을 가산하고 그 결과를 스케일링함으로써 중간 신호를 생성하는 시간 도메인에서의 수동 다운믹스(참조 문헌 [1])를 이용하는 것이다:

더욱 더 정교한 (즉, 능동) 시간 도메인 기반의 다운믹싱 방법은 신호의 전체 에너지를 보존하기 위한 에너지 스케일링(참조 문헌 [2] 및 [3]), 상쇄 효과를 피하기 위한 위상 정렬(참조 문헌 [4]) 및 일관성 억제에 의한 빗형 필터 효과의 방지(참조 문헌 [5])를 포함한다.

다른 방법은 다수의 스펙트럼 대역에 대한 별도의 가중 인자를 계산함으로써 주파수 종속적 방식으로 에너지 보정을 수행하는 것이다. 예를 들어, 이것은 MPEG-H 포맷 컨버터(참조 문헌 [6])의 일부로서 수행되며, 여기서는 채널들의 추가적인 사전 위상 정렬과 함께 신호들의 하이브리드 QMF 부대역 표현에 대하여 다운믹스가 수행된다. 참조 문헌 [7]에서, 유사한 대역별 다운믹스(위상 및 시간 정렬을 모두 포함함)가 DFT 도메인에서 가중 및 믹싱이 적용된 파라메트릭 저-비트레이트 모드 DFT 스테레오에 이미 사용되었다.

순전한 수동 다운믹스에는 예컨대 아이템에 따라 품질을 심각하게 저하시킬 수 있는 위상 상쇄 효과 또는 일반적인 에너지 손실과 같은 특정한 단점이 있다는 것이 잘 알려져 있기 때문에, 스테레오 신호를 디코딩한 후 시간 도메인에서의 수동 스테레오-모노 다운믹스의 해법은 이상적이지 않다.

순전히 시간 도메인 기반인 다른 능동 다운믹싱 방법은 수동 다운믹스의 일부 문제를 완화시키지만 주파수 종속적 가중의 결여로 인해 여전히 차선책이다.

지연 및 복잡성의 측면에서 IVAS(Immersive Voice and Audio Services)와 같은 이동 통신 코덱에 대한 암묵적 제약에 의해, 대역별 다운믹스를 적용하기 위한 MPEG-H 포맷 컨버터와 같은 전용 후처리 단계를 갖는 것도 옵션이 될 수 없으며, 이는 주파수 도메인으로의 필수적인 변환 및 역변환이 필연적으로 복잡성 및 지연을 모두 증가시킬 것이기 때문이다.

디코더에서 스테레오 신호를 복원하기 위해 파라미터 기반 잔차 예측만을 사용하고 참조 문헌 [7]에서 설명된 바와 같은 능동 다운믹스에 의해 중간 신호가 생성되는 참조 문헌 [8]에서 설명된 바와 같은 DFT 기반 스테레오 시스템에서는, 충분히 양호한 모노 신호를 디코더에서 이용할 수 있다. 그러나, 신호의 스펙트럼 부분이 M/S 변환에 의해 생성된 스테레오 복원을 위한 코딩된 잔차 신호에 의존하는 경우, 스테레오 업믹스 전에 이용 가능한 모노 신호는 더 이상 적합하지 않다. 이 경우, 모노 신호는 일부가 수동 다운믹스와 동일한 M/S 변환으로부터의 중간 신호(잔차 코딩 부분) 및 부분적으로 능동 다운믹스(잔차 예측 부분)로 스펙트럼으로 구성된다. 서로 다른 두 가지 다운믹싱 방법의 이러한 혼합은 신호의 아티팩트 및 에너지 불균형으로 이어진다.

본 발명의 목적은 다중 채널 디코딩에 대한 출력 다운믹스 표현을 생성하기 위한 개선된 개념을 제공하는 것이다.

이 목적은 청구항 1의 출력 다운믹스 표현을 생성하기 위한 장치, 청구항 20의 다중 채널 디코더, 청구항 25의 출력 다운믹스 표현을 생성하는 방법, 청구항 28의 다중 채널 디코딩 방법 또는 청구항 29의 관련 컴퓨터 프로그램에 의해 달성된다.

입력 다운믹스 표현으로부터 출력 다운믹스 표현을 생성― 입력 다운믹스 표현의 적어도 일부분은 제1 다운믹싱 스킴에 따름 ―하기 위한 장치는, 적어도 하나의 업믹싱된 부분을 취득하기 위해 제1 다운믹싱 스킴에 대응하는 업믹싱 스킴을 사용하여 입력 다운믹스 표현의 적어도 일부분을 업믹싱하기 위한 업믹서를 포함한다. 또한, 장치는 제1 다운믹싱 스킴과는 다른 제2 다운믹싱 스킴에 따라 적어도 하나의 업믹싱된 부분을 다운믹싱하기 위한 다운믹서를 포함한다.

다른 실시형태에 있어서, 입력 다운믹스 표현의 일부분은 다운믹싱 스킴에 따르고, 추가적으로, 입력 다운믹스 표현의 제2 부분은 제1 다운믹싱 스킴과는 다른 제2 다운믹싱 스킴에 따른다. 이 실시형태에 있어서, 다운믹서는 제1 다운믹싱된 부분을 취득하기 위해 제2 다운믹싱 스킴에 따라 또는 다운믹싱 스킴 및 제2 다운믹싱 스킴과는 다른 제3 다운믹싱 스킴에 따라 업믹스 부분을 다운믹싱하도록 구성된다. 이제, 다운믹싱된 부분과 관련된 상황은 제1 다운믹싱된 부분과 제2 부분이 관련되어 있다는 것이고, 말하자면, 동일한 다운믹싱 스킴 도메인에서, 제1 다운믹싱된 부분과 제2 다운믹싱된 부분 또는 제2 다운믹싱된 부분으로부터 도출된 다운믹싱된 부분이 제1 부분에 대한 출력 표현 및 제2 부분에 대한 출력 표현을 포함하는 출력 다운믹스 표현을 취득하기 위해 결합기에 의해 결합될 수 있다는 것이며, 여기서 제1 부분에 대한 출력 표현 및 제2 부분에 대한 출력 표현은 동일한 다운믹싱 스킴에 기초하여, 즉, 하나의 동일한 다운믹싱 도메인에 위치되어 서로 "조화(harmonized)"된다.

추가적인 실시형태에 있어서, 전체 대역폭 또는 입력 다운믹스 표현의 단지 일부분은 파라미터 및 잔차 신호에 의존하는 또는 파라미터 없이 잔차 신호에만 의존하는 다운믹싱 스킴에 기초한다. 이러한 맥락에서, 입력 다운믹스 표현은 코어 신호, 잔차 신호 또는 잔차 신호와 파라미터를 포함한다. 이 신호는 부가 정보를 사용하여, 즉, 파라미터와 잔차 신호를 사용하여 또는 잔차 신호만을 사용하여 업믹싱된다. 업믹스는 잔차 신호를 포함하는 모든 이용 가능한 정보를 포함하고, 다운믹스는 제1 다운믹싱 스킴과는 다른, 즉, 에너지 계산을 다루기 위한 측정치를 갖는 능동 다운믹스인 제2 다운믹싱 스킴으로 수행되며, 다시 말해, 잔차 신호를 생성하지 않으며, 바람직하게는, 잔차 신호 및 어떠한 파라미터도 생성하지 않는 다운믹싱 스킴으로 수행된다. 이러한 다운믹스는 양호하고 쾌적한 고품질 오디오 모노 렌더링 가능성을 제공하지만, 업믹싱 및 후속 다운믹싱 없이 사용되는 입력 다운믹스 표현의 코어 신호는 유리하게 잔차 신호 및 파라미터를 고려하지 않고 렌더링되는 경우 어떠한 쾌적한 고품질 오디오 재생을 제공하지 않는다.

이 실시형태에 따르면, 출력 다운믹스 표현을 생성하기 위한 장치는 잔차형 다운믹싱 스킴의 비-잔차형 다운믹싱 스킴으로의 변환을 수행한다. 이 변환은 전체 대역에서 수행될 수 있거나, 또는 부분 대역에서 수행될 수도 있다. 통상적으로, 바람직한 실시형태들에 있어서, 다중 채널 인코딩된 신호의 저대역은 코어 신호, 잔차 신호 및 바람직하게는 파라미터를 포함한다. 그러나, 고대역에서는 낮은 비트 레이트에 대하여 보다 낮은 정밀도가 제공되므로, 이러한 고대역에서는 잔차 데이터 또는 파라미터와 같은 어떠한 추가적인 부가 정보 없이 능동 다운믹스이면 충분하다. 이러한 맥락에서, 잔차 다운믹스 도메인에 있는 저대역이 비-잔차 다운믹스 도메인으로 변환되고, 그 결과는 이미 "정확한(correct)" 비-잔차 다운믹스 도메인에 있는 고대역과 결합된다.

추가적인 실시형태에 있어서, 제1 부분이 제1 다운믹스 도메인으로부터 제2 부분이 위치된 동일한 다운믹스 도메인으로 변환될 필요는 없다. 대신에, 추가적인 실시형태들에 있어서, 제1 부분이 제1 다운믹스 도메인에 있고 입력 표현의 제2 부분이 제2 다운믹스 도메인에 있는 경우, 이들 부분은 모두 제1 다운믹싱 스킴에 대응하는 제1 업믹싱 스킴에 따라 제1 부분을 업믹싱함으로써 다른 제3 다운믹스 도메인으로 변환된다. 추가적으로, 제2 부분은 제2 다운믹싱 스킴에 대응하는 제2 업믹싱 스킴에 따라 업믹싱되고, 두 업믹스는 바람직하게는 임의의 잔차 또는 파라메트릭 데이터가 없는 능동 다운믹스에 의해 제1 및 제2 다운믹싱 스킴과는 다른 제3 다운믹싱 스킴으로 다운믹싱된다.

추가적인 실시형태들에 있어서, 2 개보다 많은 부분, 특히, 스펙트럼 부분들 또는 스펙트럼 대역들이 상이한 다운믹스 표현들에서 이용 가능할 수 있다. 본 발명에 의해, 바람직하게는 업믹싱 및 후속 다운믹싱이 스펙트럼 도메인에서 수행되는 경우, 개별 대역에 대한 개별 처리는 하나의 스펙트럼 대역으로부터 다른 스펙트럼 대역까지 간섭 없이 수행될 수 있다. 다운믹서의 출력에서는, 모든 대역이 동일한 "다운믹스(downmix)" 도메인에 있으므로 모노 출력 다운믹스 표현에 대한 스펙트럼이 존재하고, 이는 합성 뱅크, 역 이산 푸리에 변환, 역 MDCT 도메인 또는 임의의 다른 그러한 변환과 같이 스펙트럼-시간 컨버터에 의한 시간 도메인 표현으로 변환될 수 있다. 개별 대역들의 결합 및 시간 도메인으로의 변환은 이러한 합성 필터 뱅크를 통해 구현될 수 있다. 특히, 실제 변환 전에, 즉, 스펙트럼 도메인에서 결합이 수행되었는지의 여부는 관련이 없다. 이러한 상황에서는, 스펙트럼-시간 변환 전에, 즉, 합성 필터 뱅크로의 입력에서 결합이 발생하고, 단일의 시간 도메인 신호를 취득하기 위해 단일의 변환만이 수행된다. 그러나, 등가의 구현예는, 각각의 이러한 개별 변환의 시간 도메인 출력이 시간 도메인 표현을 특정 대역폭에서 표현하도록 결합기가 각 대역에 대하여 스펙트럼-시간 변환을 개별적으로 수행하고, 임계적으로 샘플링된 변환들이 구현되었을 때 개별 시간 도메인 출력들이 바람직하게는 일종의 업샘플링에 후속하여 샘플 단위로 결합되는 구현으로 된다.

추가적인 구현예에 있어서, 본 발명은 2 개의 상이한 모드, 즉, "정상(normal)" 모드로서의 다중 채널 출력 모드에서 동작 가능하고, 모노 출력 모드인 "예외(exceptional)" 모드와 같은 제2 모드에서도 동작 가능한 다중 채널 디코더 내에 적용된다. 이 모노 출력 모드는, 다중 채널 디코더가 단일의 스피커를 갖는 휴대폰과 같은 모노 스피커 출력 기능만을 갖는 장치 내에서 구현되는 경우 또는 장치가 다중채널 또는 스테레오 출력 모드에 대한 가능성을 기본적으로 갖고 있더라도 배터리 전력을 절약하거나 처리 리소스를 절약하기 위해 모노 출력 모드만이 제공되는 일종의 절전 모드에 있는 장치에서 구현되는 경우에 특히 유용하다.

이러한 구현예에 있어서, 다중 채널 디코더는 디코딩된 코어 신호에 대한 제1 시간-스펙트럼 변환 및 디코더 잔차 신호에 대한 제2 시간-스펙트럼 변환 기능을 포함한다. 서로 다른 2 개의 다운믹스 도메인에 있는 서로 다른 2 개의 스펙트럼 부분에 대하여 스펙트럼 도메인에서 서로 다른 2 개의 업믹싱 기능이 제공되고, 상응하는 좌측 채널 스펙트럼 라인들은 합성 필터뱅크 또는 IDFT 블록과 같은 결합기에 의해 결합되고, 다른 채널 스펙트럼 라인들은 추가적인 또는 제2 합성 필터뱅크 또는 IDFT(역 이산 푸리에 변환) 블록에 의해 결합된다.

이러한 다중 채널 디코더를 향상시키기 위해, 바람직하게는 능동 다운믹서로서 구현되는 제1 다운믹싱 스킴과는 다른 제2 다운믹싱 스킴에 따라 적어도 하나의 업믹싱된 부분을 다운믹싱하기 위한 다운믹서가 제공된다. 추가적으로, 실시형태에 있어서, 2 개의 스위치 및 컨트롤러도 제공된다. 컨트롤러는 고대역 부분에 대한 업믹서를 바이패스하도록 제1 스위치를 제어하고, 제2 스위치는 다운믹서에 업믹서의 출력을 공급하도록 구현된다. 이러한 모노 출력 모드에서는, 처리 전력을 절약하기 위해 제2 결합기 또는 합성 필터뱅크가 비활성화되고 고대역에 대한 업믹서도 비활성화된다. 그러나, 스테레오 출력 모드에서는, 좌측 스테레오 출력 신호와 우측 출력 신호를 취득하기 위해 제1 스위치가 고대역에 대한 업믹스를 공급하고 제2 스위치가 (능동) 다운믹서를 바이패스하며 두 출력 합성 필터뱅크가 모두 활성화된다.

모노 출력이 DFT 도메인과 같은 스펙트럼 도메인에서 계산되므로, 모노 출력의 생성은 스테레오 출력의 생성에 비해 어떠한 추가적인 지연을 발생시키지 않는데, 이는 스테레오 처리 모드에 비해 어떠한 추가적인 시간-주파수 변환이 필요하지 않기 때문이다. 대신에, 2 개의 스테레오 모드 합성 필터뱅크 중 하나는 모노 모드에도 사용된다. 또한, 통상적으로 모노 출력에 비해 향상된 오디오 경험을 제공하는 스테레오 출력과 비교하여, 모노 처리 모드는 복잡성, 특히 처리 리소스를 절약하므로, 배터리 전원식 모바일 장치에 특히 유용한 저전력 모드에서 배터리 전원을 절약한다. 이는, 스테레오 모드에서 일반적으로 요구되는 고대역 업믹서가 비활성화될 수 있고, 추가적으로, 스테레오 출력 모드에 또한 필요한 제2 출력 필터뱅크도 비활성화될 수 있기 때문이다. 대신에, 스펙트럼 도메인에서 완전히 동작하는 낮은 복잡성 및 저지연 능동 다운믹스 블록만이 스테레오 모드에 비해 추가적인 처리 블록으로서 필요해진다. 그러나, 이 능동 다운믹스 블록에 필요한 추가적인 처리 리소스는 고대역 업믹서 및 제2 합성 필터뱅크 또는 IDFT 블록을 비활성화함으로써 절약되는 처리 리소스보다 현저히 적다.

실시형태들은 스테레오 신호의 다운믹스에 의해 생성된 모노 입력 신호로부터 조화된 모노 출력 신호를 생성하는 것을 목표로 하며, 여기서 다운믹스는 스테레오 신호의 적어도 2 개의 서로 다른 스펙트럼 영역에 대하여 상이한 방법(예컨대, 능동 및 수동)으로 수행된다. 조화는 하나의 다운믹스 방법을 조화된 신호에 대한 바람직한 방법으로서 선택하고 상이한 방법들을 통해 다운믹싱된 모든 스펙트럼 부분을 바람직한 방법으로 변환함으로써 달성된다. 이는 각각의 스펙트럼 영역에서 LR 표현을 다시 얻기 위해 업믹스에 필요한 모든 부가 파라미터를 사용하여 이들 스펙트럼 부분을 먼저 업믹싱함으로써 달성된다. 바람직한 다운믹스 방법에 필요한 모든 필수 파라미터를 다시 사용하여, 바람직한 방법을 스테레오 표현에 적용함으로써 스펙트럼 부분들이 모노 표현으로 변환된다. 추가적인 지연 및 복잡성 없이 균일하지 않은 다운믹스 문제를 방지하는 조화된 모노 출력 신호가 생성된다.

이어서, 첨부 도면과 관련하여 바람직한 실시형태들이 논의된다:

도 1은 실시형태에서 출력 다운믹스 표현을 생성하기 위한 장치를 예시하고;
도 2는 다운믹싱 스킴이 잔차 신호에 또는 잔차 신호 및 파라미터에 기초하는 추가적인 실시형태에서 출력 다운믹스 표현을 생성하기 위한 장치를 예시하고;
도 3은 입력 다운믹스 표현의 스펙트럼 부분들과 같은 상이한 부분들에 대하여 상이한 다운믹싱 스킴들이 수행되는 추가적인 실시형태를 예시하고;
도 4는 입력 다운믹스 표현에 대한 상이한 스펙트럼 부분들에서의 상이한 다운믹싱 스킴들의 사용 및 제1 다운믹싱 스킴이 잔차 데이터에 기초하고 제2 다운믹싱 스킴이 능동 다운믹싱 스킴 또는 잔차 또는 파라메트릭 데이터가 없는 다운믹싱 스킴인 절차를 예시하는 추가적인 실시형태를 예시하고;
도 5는 실시형태에서 제1 다운믹싱 스킴에 대응하는 업믹싱 스킴의 바람직한 구현예를 예시하고;
도 6은 스테레오 출력 모드에서 동작하는 다중 채널 디코더를 예시하고;
도 7은 다중 채널 출력 모드 또는 모노 출력 모드 사이에서 전환 가능한 실시형태에 따른 다중 채널 인코더를 예시하고;
도 8a는 제2 다운믹싱 스킴에 대한 바람직한 구현예를 예시하고;
도 8b는 제2 다운믹싱 스킴의 추가적인 실시형태를 예시하고;
도 9는 입력 다운믹스 표현을 제1 다운믹싱 스킴에서 제1 부분으로서 표시되는 입력 다운믹스 표현의 부분으로 및 가중치를 갖는 다운믹싱 스킴에 의존하는 입력 다운믹싱 표현의 제2 부분으로 분리하는 것을 예시한다.

도 1은 입력 다운믹스 표현으로부터 출력 다운믹스 표현을 생성하기 위한 장치를 예시하고, 여기서 입력 다운믹스 표현의 적어도 일부분은 제1 다운믹싱 스킴에 따른다. 장치는 블록(200)의 출력에서 적어도 하나의 업믹싱된 부분을 취득하기 위해 제1 다운믹싱 스킴에 대응하는 업믹싱 스킴을 사용하여 입력 다운믹스 표현의 적어도 일부분을 업믹싱하기 위한 업믹서(200)를 포함한다. 장치는 제1 다운믹싱 스킴과는 다른 제2 다운믹싱 스킴에 따라 적어도 하나의 업믹싱된 부분을 다운믹싱하기 위한 다운믹서(300)를 더 포함한다. 바람직하게는, 다운믹서(300)의 출력이 모노 출력을 생성하기 위한 출력 스테이지(500)로 포워딩된다. 출력 스테이지는, 예를 들어, 출력 다운믹스 표현을 렌더링 장치로 출력하기 위한 출력 인터페이스이거나, 또는 출력 스테이지(500)는 실제로 출력 다운믹스 표현을 모노 재생 신호로서 렌더링하기 위한 렌더링 장치를 포함한다.

도 1에 예시된 장치는 제1 "다운믹스 도메인(downmix domain)"에서의 다운믹스 표현으로부터 다른 제2 다운믹스 도메인으로의 변환을 제공한다. 다른 도면들에 예시되는 바와 같이, 변환은, 예를 들어, 도 9에서 예시적으로 주어진 가장 낮은 3 개의 대역 b₁, b₂ 및 b₃에 대하여 예시된 제1 부분과 같이 스펙트럼의 제한된 부분에 대해서만 유효할 수 있다. 대안으로서, 장치는 전체 대역, 즉, 도 9에 예시적으로 예시된 모든 대역 b₁ 내지 b₆에 대하여 하나의 다운믹스 도메인으로부터 다른 다운믹스 도메인으로의 변환을 수행할 수도 있다. 부분은 스펙트럼 부분과 같은 신호의 임의의 부분, 시간 블록 또는 프레임과 같은 시간 부분, 또는 신호의 임의의 다른 부분일 수 있다.

도 2는 제1 다운믹싱 스킴이 잔차 신호에만 의존하거나 또는 잔차 신호 및 파라메트릭 정보에 의존하는 실시형태를 예시한다. 도 2는 입력 인터페이스가 인코딩된 코어 신호 및 인코딩된 부가 정보 부분을 포함하는 인코딩된 다중 채널 신호를 수신하는 입력 인터페이스(10)를 포함한다. 코어 신호는 코어 디코더(20)에 의해 디코딩되어 부가 정보 없이 입력 다운믹스 표현을 제공한다. 추가적으로, 인코딩된 다중 채널 신호로부터의 부가 정보 부분은 입력 인터페이스 내의 부가 정보 디코더(30)에 의해 제공 및 처리되며, 부가 정보 디코더(30)는 도 2에서 210으로 표시된 바와 같이 잔차 신호를 또는 잔차 신호 및 파라미터를 제공한다. 데이터, 즉, 디코딩된 코어 신호에 대응하는 입력 다운믹스 및 잔차 데이터는 모두 업믹서(200)에 입력되고, 업믹서(200)는 제1 채널 및 제2 채널을 갖는 업믹스 신호를 생성하며, 제1 채널 및 제2 채널 데이터는 고품질 오디오 데이터이고, 고품질 오디오 데이터는 코어 신호 및 일종의 수동 업믹스에 의해 생성될 뿐만 아니라 잔차 데이터를 사용하여 또는 잔차 데이터 및 파라미터를 사용하여, 즉, 인코딩된 다중 채널 신호로부터 이용 가능한 모든 데이터를 사용하여 추가적으로 생성된다. 업믹서(200)의 출력은, 예를 들어, 능동 다운믹스를 사용하여, 또는 일반적으로, 잔차 신호를 생성하지 않는 또는 임의의 파라미터를 생성하지 않지만 에너지 보상된, 즉, 예를 들어, 도 2의 코어 디코더(20)에 의해 생성되는 코어 신호를 갖는 경우에서처럼 수동 다운믹스만이 수행될 때 일반적으로 심각한 문제인 에너지 변동을 겪지 않는 다운믹스 또는 모노 신호를 생성하는 다운믹싱 스킴을 사용하여 다운믹서(300)에 의해 다운믹싱된다. 다운믹서(300)의 출력은, 예를 들어, 모노 신호를 렌더링하기 위한 렌더러로, 또는, 예를 들어, 도 1에 예시된 출력 스테이지(500)로 포워딩된다.

도 3은, 도 9를 다시 참조하면, 잔차 데이터를 갖는 다운믹싱 스킴과 같은 제1 다운믹싱 스킴에서 제1 부분이 이용 가능하고, 예를 들어, 임의의 잔차 없이 제2 다운믹싱 스킴에서 이용 가능한, 즉, 예를 들어, 수동 다운믹스가 적용될 경우 발생할 수 있는 임의의 변동을 방지하기 위해 에너지 고려 사항에 기초하여 도출된 다운믹스 가중치를 사용하여 능동 다운믹스에 의해 생성된 제2 스펙트럼 부분이 있는 추가적인 실시형태를 예시한다.

다운믹스 표현의 제1 부분은 제1 다운믹싱 스킴에 대응하여 업믹싱하는 업믹서(200)에 입력되고, 제1 부분은, 도 1 또는 도 2와 관련하여 논의된 바와 같이, 이제 제2 다운믹싱 스킴에서 다운믹스를 수행하는 다운믹서(300)로 포워딩된다. 도 3에 예시된 제2 부분은, 예를 들어, 제2 다운믹싱 스킴에서의 것일 수 있지만, 또한, 업믹서(200)에 입력되는 부분의 다운믹싱 스킴 또는 다운믹서(300)에 의해 출력되는 제2 다운믹싱 스킴으로부터 제3의, 즉 임의의 다른 다운믹싱 스킴에서의 것일 수도 있다. 제2 부분 및 다운믹서(300)의 출력에 대하여 다운믹싱 도메인이 동일한 경우, 임의의 제2 부분 프로세서(600)는 필요하지 않다. 대신에, 제2 부분은 이제 그들의 다운믹싱 스킴과 관련하여 조화된 제1 및 제2 부분을 결합하기 위해 결합기(400)로 포워딩될 수 있다. 그러나, 제2 부분이 다운믹싱 도메인에 있는 경우, 즉, 다운믹서(300)의 출력이 이용 가능한 다운믹싱 스킴과는 다른 기본 다운믹싱 스킴을 갖는 경우, 제2 부분 프로세서(600)가 제공된다. 일반적으로, 제2 부분 프로세서(600)는 또한 제3 다운믹싱 스킴에 있는 제2 부분을 업믹싱하기 위한 업믹서를 포함하고, 제2 부분 프로세서(600)는 업믹싱 표현을 동일한 다운믹싱 도메인으로, 즉, 다운믹서(300)로부터 이용 가능한 동일한 다운믹싱 스킴을 사용하여 다운믹싱하기 위한 다운믹서를 추가적으로 포함한다. 제2 부분 프로세서(600)는 결합기(400)에 입력된 데이터의 완전한 조화가 취득되도록 업믹서(200) 및 후속하여 연결된 다운믹서(300)를 사용하여 구현될 수 있다. 결합기(400)는, 바람직하게는 필터뱅크, IDFT, IMDCT 등과 같은 스펙트럼-시간 컨버터에 의해 시간 도메인으로 변환된 모노 출력 다운믹스 표현의 스펙트럼 표현을 출력한다. 대안으로서, 결합기(400)는 개별 입력들을 개별 시간 도메인 신호들에 결합하도록 구성되고, 시간 도메인 신호들은 시간 도메인 모노 출력 다운믹스 표현을 취득하기 위해 시간 도메인에서 결합된다.

도 4는 도 4에 예시된 DFT 블록과 같은 제1 시간-스펙트럼 컨버터(100) 및 도 4의 제2 DFT 블록과 같은 제2 시간-스펙트럼 컨버터(120)를 포함할 수 있는 입력 인터페이스를 포함한다. 제1 블록(100)은, 예를 들어, 도 2의 코어 디코더(20)에 의해 출력되는 디코딩된 코어 신호를 스펙트럼 표현으로 변환하도록 구성된다. 또한, 제2 시간-스펙트럼 컨버터(120)는, 예를 들어, 도 2의 부가 정보 디코더(30)에 의해 출력되는 디코딩된 잔차 신호를 210a에 예시된 스펙트럼 표현으로 변환하도록 구성된다. 또한, 라인(210b)은, 예를 들어, 마찬가지로 도 2의 부가 정보 디코더(30)에 의해 출력되는 부가 이득과 같이 선택적으로 제공된 추가적인 파라메트릭 데이터를 예시한다. 도 4의 업믹서(200)는 저대역에 대하여, 즉, 예시적으로 도 9의 처음 3 개의 대역 b₁, b₂, b₃에 대하여 업믹싱된 좌측 채널 및 업믹싱된 우측 채널을 생성한다. 또한, 블록(200)의 출력에서의 저대역 업믹스는 다운믹서(300)에 입력되어, 바람직하게는 도 9의 예시적으로 예시된 3 개의 대역 b₁, b₂, b₃에 대한 저대역 표현이 제공되도록 능동 다운믹스를 수행한다. 이 저대역 다운믹스는 이제 DFT 블록(100)에 의해 이미 생성된 고대역 다운믹스와 동일한 도메인에 있다. 고대역에 대한 블록(100)의 출력은, 도 9의 실시예에서, 대역 b₄, b₅, b₆에 대한 다운믹스 표현에 대응할 것이다. 이제, 도 4에서 IDFT(400)로서 예시된, 결합기(400)로의 입력에서, 다운믹스의 저대역 표현 및 고대역 표현은 동일한 "다운믹스 도메인"에 있고, 동일한 다운믹싱 스킴으로 생성되었다. 이제, 조화된 다운믹스 표현의 저대역 및 고대역은 결합되고, 바람직하게는 시간 도메인으로 변환되어 블록(400)의 출력에서 모노 출력 신호를 제공할 수 있다.

참조 문헌 [8]에서 설명된 바와 같은 주로 파라메트릭 스테레오 스킴은 단일의 다운믹싱된 채널만을 전송하고 부가 파라미터를 통해 스테레오 이미지를 재현한다는 아이디어를 기반으로 구축되었다. 인코더 측에서의 이러한 다운믹스는 DFT 도메인에서 두 채널에 대한 가중치를 동적으로 계산함으로써 능동적인 방식으로 수행된다(참조 문헌 [7]). 이들 가중치는 두 채널의 각각의 에너지와 이들의 상호 상관관계를 사용하여 대역별로 계산된다. 다운믹스에 의해 보존되어야 하는 목표 에너지는 위상 회전된 중간 채널의 에너지와 같다:

여기서, L 및 R은 좌측 및 우측 채널을 나타낸다. 이 목표 에너지에 기초하여 채널들에 대한 가중치가 다음과 같이 대역(b)마다 계산될 수 있다:

및

은 다음과 같이 각각의 대역(b)에 대하여 계산되고,

은 다음과 같이 계산되고,

은 복소 점곱의 절대값으로서 계산되고,

이때,

및

이고,

여기서, i는 스펙트럼 대역(b) 내부의 빈(bin) 번호를 지정한다.

다운믹스된 스펙트럼은 좌측 및 우측 채널의 가중된 스펙트럼 빈들을 가산함으로써 각각의 대역에 대하여 취득된다:

및

이러한 시스템에서의 모든 스테레오 처리가 전적으로 파라미터에 의존하고, 설명된 능동 다운믹스가 전체 스펙트럼에서 수행되는 경우, 수동 다운믹스의 문제를 방지함으로써 주어진 품질 요건을 충족한 모노 신호는 코어 디코딩 이후에 이미 이용 가능하다. 이는, 대부분의 경우, 모든 디코더 스테레오 처리를 스킵하고 DFT 도메인으로 이동하지 않고 신호를 출력하는 것으로 충분하다는 것을 의미한다.

그러나, 더 높은 비트레이트의 경우 이러한 종류의 시스템은 더 낮은 스펙트럼 대역에 대한 잔차 신호의 코딩도 지원한다. 잔차 신호는 이러한 가장 낮은 대역의 MS 변환의 부가 신호로 볼 수 있는 반면, 코어 신호는 상보적 중간 신호, 기본적으로 좌측 및 우측의 수동 다운믹스이다. 부가 신호를 가능한 한 작게 유지하기 위해, 대역별로 계산된 부가 이득을 사용하여 채널 사이의 양이간 레벨 차이(interaural level difference)(ILD)의 보상이 부가 신호에 적용된다.

다운믹스된 중간 채널은 잔차 코딩 스펙트럼 내부의 모든 스펙트럼 빈(i)에 대하여 인코더 측에서 다음과 같이 계산되고,

한편, 상보적 부가 채널은 다음과 같이 계산된다:

잔차 신호는 좌측과 우측 사이의 ILD로 인해 예측된 부분을 감산함으로써 취득된다:

이때, 현재의 스펙트럼 대역(b)의 부가 이득(g_b)은 다음과 같이 주어진다:

코어 코더로 들어가는 전-대역 신호는 하위 대역의 수동 다운믹스와 모든 상위 대역의 능동 다운믹스가 혼합된 것이다. 청취 테스트에 따르면 이러한 혼합 신호를 재생할 때 지각 문제가 있는 것으로 나타났다. 따라서, 서로 다른 신호 부분을 조화시키는 방법이 필요하다.

도 5는 대역별 부가 이득 지수(

)에 의해 예시된 파라메트릭 데이터 및 잔차 데이터(res_i)에 의존하는 업믹싱 스킴의 표현을 예시한다. i는 스펙트럼 값을 나타내고, b는 특정 대역을 나타낸다. 도 5는 각각의 대역(b_i)이 여러 스펙트럼 라인을 갖는 상황을 예시하며, 이는 도 9에도 예시되어 있다. 특히, 스펙트럼 값(L_i)을 계산하기 위해, 중간 신호 스펙트럼 값, 즉, 도 4의 코어 디코더(20)의 출력 또는 DFT 블록(100)의 출력의 인덱스(i)를 갖는 상응하는 스펙트럼 값이 사용된다. 더욱이, 라인(210b)에 의해 도 4에 예시된 바와 같이, 스펙트럼 값(i)이 위치된 상응하는 대역에 대한 상응하는 파라미터(

)가 필요하고, 인덱스(i)를 갖는 특정 값에 대하여 그리고 각각의 대역(b)에 대하여 블록(120)에 의해 생성되고 라인(210a)에 예시된 바와 같은 잔차 스펙트럼 값도 필요하다.

이로써, 잔차 코딩에 의한 저대역 신호의 L-R 표현이 다음과 같이 다시 얻어진다:

및

후속하여, 능동 다운믹스가 위에서 설명한 대로 적용되고, 업믹싱된 디코딩된 스펙트럼 L 및 R로부터 가중치만이 계산된다. 저대역은 이미 능동 다운믹싱된 고대역과 결합되어 IDFT를 통해 시간 도메인으로 다시 돌아오는 조화된 신호를 생성하다.

도 6은 스테레오 출력을 위한 다중 채널 디코더의 구현예를 예시한다. 다중 채널 디코더는 동일한 참조 번호로 표시된 도 4의 요소들을 포함한다. 추가적으로, 스테레오 다중 채널 디코더는 고대역 다운믹스, 즉, 제2 부분을, 예를 들어 다중 채널 디코더의 하나의 구현예로서 스테레오 출력을 위한 좌측 채널 및 우측 채널을 포함하는 제2 업믹스 표현으로 업믹싱하기 위한 제2 업믹서(220)를 포함한다. 3 개 이상의 출력 채널과 같이, 2 개 초과의 출력 채널이 있는 다중 채널 디코더의 다른 구현예의 경우, 업믹서(200) 뿐만 아니라 업믹서(220)는 좌측 채널 및 우측 채널만이 아니라 상응하는 더 많은 수의 출력 채널을 생성할 것이다.

또한, 도 6에는 다중채널 디코더, 즉, 예시된 스테레오 디코더에 대하여 제2 결합기(420)가 예시되어 있다. 출력이 2 개를 초과하는 경우, 제3 출력 채널에 대하여 추가의 결합기가 있고, 제4 출력 채널에 대하여 또 다른 결합기가 있는 식이다. 그러나, 도 6과 대조적으로, 도 4의 다운믹서(300)는 다중 채널 출력에 대해서는 필요하지 않다.

도 7은 모노 모드 또는 스테레오/다중 채널 출력 모드 사이에서 컨트롤러(700)의 작동에 의해 전환 가능한 전환 가능 다중 채널 디코더의 바람직한 구현예를 예시한다. 또한, 도 6과 대조적으로, 다중 채널 디코더는 도 4 또는 다른 도면들과 관련하여 이미 설명된 다운믹서(300)를 추가적으로 포함한다. 또한, 전환 가능한 구현예에 있어서, 한 가지 옵션은 2 개의 개별 스위치(S1, S2)를 제공하는 것이다. 그러나, 도 7의 하단에 예시된 전환 기능은 결합된 스위치 또는 심지어 2 개 초과의 스위치와 같은 다른 전환 수단에 의해 구현될 수도 있다. 일반적으로, 스위치 1은 모노 출력 모드에서 동작하도록 구성되어, "업믹스 하이(upmix high)"로도 표시된 제2 업믹서(220)가 바이패스된다. 또한, 제2 스위치(S2)는 도 7에서 "업믹스 로우(upmix low)"로 표시된 업믹서(200)의 출력을 능동 다운믹서(300)에 공급하도록 제2 제어 신호(CTRL₂)에 의해 구성된다. 또한, 모노 출력 모드에서는, 단일의 모노 출력 신호의 생성을 위해 단일의 결합기(400)만이 필요하기 때문에, 도 6과 관련하여 설명된 업믹스 하이 블록(220)이 비활성화되고, 추가적으로, "IDFT_R"로 표시된 제2 결합기(420)도 비활성화된다.

이와는 대조적으로, 스테레오 출력 모드 또는 일반적으로 다중 채널 출력 모드에서는, 제1 시간-주파수 컨버터(100)의 출력이 도 7에서 "업믹스 하이(upmix high)"로 표시된 제2 업믹서(220)에 공급되도록, 컨트롤러(700)가 제어 신호(CTRL₁)를 통해 제1 스위치를 활성화하도록 구성된다. 스위치(S1)의 작동에 의해, 제2 결합기(220)가 활성화된다. 또한, 컨트롤러(700)는 블록(200)의 출력이 능동 다운믹서(300)로 입력되지 않고 다운믹서(300)가 바이패스되게 제2 스위치(S2)(720)를 제어하도록 구성된다. 블록(200)의 출력의 좌측 채널 (저대역) 부분은 결합기(400)에 대한 저대역 부분으로 포워딩되고, 블록(200)의 출력에서 우측 채널 저대역 부분은 도 7에 예시된 바와 같이 제2 결합기(420)의 저대역 입력으로 포워딩된다. 또한, 스테레오/다중 채널 출력 모드에서는, 다운믹서(300)가 비활성화된다.

도 8a는 능동 다운믹스를 수행하기 위해 다운믹서(300)에서 사용되는 실시형태에 대한 흐름도를 예시한다. 단계(800)에서, 목표 에너지에 기초하여 가중치(w_R 및 w_L)가 계산된다. 이는 각각의 대역에 대하여 우측 채널에 대한 가중치(w_R)와 좌측 채널에 대한 가중치(w_L)가 취득되도록 대역별로 수행된다.

블록(820)에서, 가중치는 고려 중인 신호의 전체 대역폭에 걸쳐 또는 스펙트럼 빈마다의 상응하는 부분에서만 업믹싱된 신호에 적용된다. 이를 위해, 블록(820)은 스펙트럼 도메인 (복소) 신호 또는 빈 또는 스펙트럼 값을 수신한다. 가중치의 적용, 특히, 다운믹스를 취득하기 위한 가중된 값들의 가산에 후속하여, 시간 도메인으로의 변환(840)이 수행된다. 블록(820)에서 일부 또는 전체 대역이 처리되는지의 여부에 따라, 시간 도메인으로의 변환은 임의의 다른 부분 없이 발생하거나, 또는, 특히, 예를 들어 도 3 및 도 4와 관련하여 예시 및 논의된 바와 같이 조화된 다운믹스의 맥락에서 다른 부분과 함께 발생한다.

도 8b는 도 8a의 블록(800)에서 수행되는 기능들의 바람직한 구현예를 예시한다. 특히, 각각의 대역에 대한 가중치(w_R 및 w_L)의 계산을 위해, L에 대한 진폭 관련 측정치가 대역에 대하여 계산된다. 이를 위해, 좌측 채널에 대한 개별 스펙트럼 라인, 즉, 도 1 내지 도 7 중 어느 하나의 도면의 블록(200)에 의해 출력되는 좌측 채널에 대한 개별 스펙트럼 라인이 입력된다. 블록(804)에서, 동일한 대역(b)에서 제2 채널 또는 우측 채널에 대하여 동일한 절차가 수행된다. 또한, 블록(806)에서, 대역(b)에서 L 및 R의 선형 결합에 대하여 다른 진폭 관련 측정치가 계산된다. 블록(806)에서는, 다시 한번, 제1 채널(L)의 스펙트럼 값, 제2 채널(R)에 대한 스펙트럼 값이 고려 중인 대역에 대하여 필요해진다. 블록(808)에서, 좌측 채널과 우측 채널 사이, 또는, 일반적으로 상응하는 대역(b)의 제1 채널과 제2 채널 사이에서 상호 상관관계 측정치가 계산된다. 이를 위해, 다시 한번, 상응하는 대역에 대하여 제1 채널 및 제2 채널에 대한 인덱스 e에서의 스펙트럼 값들이 필요해진다.

예시된 바와 같이, 진폭 관련 측정치는 대역 내의 스펙트럼 값들의 제곱 크기에 대한 제곱근일 수 있다. 이는

로서 예시된다. 다른 진폭 관련 측정치는, 예를 들어, 제곱근 없이, 또는 0과 1을 제외한 0과 1 사이의 지수와 같이 1/2과는 다른 지수를 갖는, 대역 내의 스펙트럼 라인들의 크기들에 대한 합일 수 있다. 또한, 진폭 관련 측정치는, 지수가 2와는 다른, 스펙트럼 라인들의 거듭제곱 크기들에 대한 합을 나타낼 수도 있다. 예를 들어, 지수 3을 사용하는 것은 음향심리 용어의 음량에 해당한다. 그러나, 1보다 큰 다른 지수들도 유용하다.

블록(804)에서 계산된 진폭 관련 측정치 또는 블록(806)에서 계산된 진폭 관련 측정치에 대해서도 마찬가지이다.

또한, 블록(808)에서 계산된 상호 상관관계 측정치와 관련하여, 앞서 예시된 상응하는 수학식도 내적의 제곱 및 제곱근의 계산에 의존한다. 그러나, 음량 도메인에 대응하는 3과 같은 지수 또는 1보다 큰 지수와 같이, 2와는 다른 내적들에 대한 다른 지수들이 또한 사용될 수 있다. 동시에, 제곱근을 대신하여, 1/3, 또는 일반적으로 0과 1 사이의 임의의 지수와 같이, 1/2이 아닌 다른 지수들이 사용될 수 있다.

또한, 블록(810)은 3 개의 진폭 관련 측정치 및 상호 상관관계 측정치에 기초하여 w_R 및 w_L의 계산을 나타낸다. 목표 에너지가 다운믹스에 의해 보존되고 위상 회전된 중간 채널의 에너지와 동일한 것으로 나타나 있지만, w_R 및 w_L의 계산이나 실제 다운믹스 신호의 계산에 대해서는, 이러한 회전 각도를 가진 회전이 실제로 수행될 필요가 없다. 대신에, 회전 각도(φ)를 갖는 실제 회전이 수행되지 않을 때 필요한 유일한 것은 상응하는 대역(b)에서 L과 R 사이의 상호 상관관계 측정치를 계산하는 것이다. 앞서 설명된 실시형태에 있어서는, 위상 회전된 중간 채널의 에너지가 목표 에너지로서 사용되는 것으로 나타나 있지만, 임의의 다른 목표 에너지가 사용될 수 있거나 또는 어떠한 위상 회전도 전혀 수행되지 않아야 한다. 다른 목표 에너지와 관련하여, 이러한 목표 에너지는 다운믹서(300)에 의해 생성된 다운믹스 신호의 에너지가, 예를 들어, 도 4의 블록(100)에 입력된 디코딩된 코어 신호의 기본이 되는 수동 다운믹스의 에너지보다 동일한 신호에 대하여 적게 변동하게 하는 에너지이다.

도 9는, 입력 다운믹스 표현과 관련하여, 잔차 데이터가 있는 다운믹스로서 제공된 저대역의 제1 부분을 나타내는 한편, 입력 다운믹스 표현과 관련하여, 도 8a, 도 8b와 관련하여 이전에 논의된 바와 같이 가중치를 갖고 생성된 다운믹스에 의해 제공된 제2 부분을 나타내는 스펙트럼의 일반적인 표현을 예시한다. 도 9가 제1 부분에 대한 3 개의 대역 및 제2 부분에 대한 3 개의 대역인, 6 개의 대역만을 예시하고 있고, 또한, 도 9가 하위 대역에서부터 상위 대역까지 증가하는 특정 대역폭들을 예시하고 있지만, 특정 숫자, 특정 대역폭, 및 스펙트럼을 제1 부분과 제2 부분으로 분리하는 것은 단지 예시일 뿐이다. 실제 시나리오에서는, 훨씬 더 많은 수의 대역이 있을 것이고, 추가적으로, 잔차 신호를 추가로 갖는 제1 부분은 대역(b)의 수의 50% 미만이 될 것이다.

바람직하게는, 도 4, 도 6 및 도 7의 시간-스펙트럼 컨버터(100, 120) 및 결합기(400, 420)는 바람직하게는 FFT 또는 IFFT 알고리즘을 구현하는 DFT 또는 IDFT 블록으로 구현된다. 블록(100, 120)에 입력된 연속적인 디코딩된 신호의 처리를 위해, 중첩 블록들이 형성되고, 분석 필터링되고, 스펙트럼 도메인으로 변환되고, 처리되고, 결합기(400, 420)에서 50% 중첩으로 다시 한번 합성 필터링되고 결합되는 블록별 처리가 수행된다. 합성 측에서 50% 중첩의 결합은 통상적으로 한 블록에서 다른 블록으로 크로스 페이딩이 있는 중첩 가산 동작에 의해 수행되며, 여기서, 바람직하게는 크로스 페이딩 가중치가 이미 분석/합성 창에 포함되어 있다. 그러나, 그렇지 않을 경우, 실제 크로스 페이딩은, 예를 들어, 도 7 또는 도 6의 블록(400) 또는 블록(420)의 출력에서 수행되어, 모노 출력 신호의 또는 좌측 출력 신호 또는 우측 출력 신호의 각각의 시간 도메인 출력 샘플이 2 개의 서로 다른 블록의 2 개의 값을 가산하여 생성된다. 50% 초과 중첩의 경우, 3 개의 블록 또는 상응하는 더 많은 블록들 사이의 중첩이 수행될 수도 있다.

대안으로서, 한편으로는 시간-스펙트럼 변환 및 다른 한편으로는 스펙트럼-시간 변환이, 예를 들어, 수정 이산 코사인 변환으로 수행될 때, 중첩 처리가 마찬가지로 사용된다. 스펙트럼-시간 변환 측면에서, 중첩-가산 처리가 수행되어, 다시 한번 각각의 출력 시간 도메인 샘플이 2 개(또는 그 이상)의 서로 다른 IMDCT 블록으로부터의 상응하는 시간 도메인 샘플들을 합산함으로써 취득된다.

바람직하게는, 도 4, 도 6 및 도 7에 예시된 바와 같이 스펙트럼 도메인에서 다운믹싱 스킴들의 조화가 완전히 수행된다. 도 7에 예시된 바와 같이, 모노에서 스테레오로 또는 스테레오에서 모노로 전환할 때에는 추가적인 시간-스펙트럼 변환 또는 스펙트럼-시간 변환은 필요하지 않다. 모노 출력 모드에 대한 다운믹서(300)에 의해 또는 스테레오 출력 모드에 대한 제2 업믹서(220)(upmix high)에 의해 스펙트럼 도메인의 데이터 조작만이 수행되어야 한다. 처리의 전체 지연은 모노 또는 스테레오 출력에 대해 동일하며, 이는 또한 임의의 후속 처리 동작 또는 선행 처리 동작이 모노 또는 스테레오 출력 신호가 있는지의 여부를 인식할 필요가 없기 때문에 상당한 이점이다.

바람직한 실시형태들은 전용 후처리 단계를 초래하게 되는 훨씬 더 높은 복잡성 및 추가적인 지연 없이 참조 문헌 [8]에 설명된 바와 같이 시스템의 디코딩된 코어 신호에서의 상이한 스펙트럼 대역들에서 상이한 다운믹스 방법을 갖는 것으로부터 유래하는 아티팩트 및 스펙트럼 음량 불균형을 제거한다.

실시형태들은, 일 양태에 있어서, 신호의 모든 스펙트럼 또는 시간 부분을 조화시키기 위해, 하나의 또는 하나 초과의 다운믹스 방법을 사용하여 다운믹싱된 모노 신호의 하나(또는 그 이상)의 스펙트럼 또는 시간 부분의 디코더에서의 업믹스 및 후속 다운믹스를 제공한다.

본 발명은, 일 양태에 있어서, 디코더 측에서의 스테레오-모노 다운믹스의 조화를 제공한다.

실시형태에 있어서, 출력 다운믹스는 출력 표현에 포함되는 다운믹스를 수신하고 출력 표현의 이 다운믹스를 디지털-아날로그 컨버터로 공급하는 재생 장치에 대한 것이고, 아날로그 다운믹스 신호는 재생 장치에 포함되는 하나 이상의 확성기에 의해 렌더링된다. 재생 장치는 휴대폰, 태블릿, 디지털 시계, 블루투스 스피커 등과 같은 모노 장치일 수 있다.

이전에 논의된 바와 같은 모든 대안 또는 양태와 하기의 청구범위의 독립 청구항에 의해 정의되는 바와 같은 모든 양태가 개별적으로, 즉, 고려된 대안, 대상 또는 독립 청구항 이외의 다른 대안 또는 대상 없이 사용될 수 있다는 것을 여기에서 언급한다. 그러나, 다른 실시형태들에 있어서는, 대안들 또는 양태들 또는 독립 청구항들 중 둘 이상이 서로 결합될 수 있고, 또한 다른 실시형태들에 있어서는, 모든 양태들, 또는 대안들과 모든 독립 청구항들이 서로 결합될 수 있다.

일부 양태들은 장치의 맥락에서 설명되었지만, 이들 양태는 상응하는 방법의 설명을 또한 나타내며, 여기서 블록 또는 장치가 방법 단계 또는 방법 단계의 특징에 대응한다는 것은 명백하다. 유사하게, 방법 단계의 맥락에서 설명된 양태들은 상응하는 장치의 상응하는 블록 또는 항목 또는 특징의 설명을 또한 나타낸다.

특정한 구현 요건에 따라, 본 발명의 실시형태들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은, 각각의 방법이 수행되도록 프로그램 가능 컴퓨터 시스템과 협력하는, 전자적으로 판독 가능한 제어 신호가 저장되어 있는, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리와 같은 디지털 저장 매체를 사용하여 수행될 수 있다.

본 발명에 따른 일부 실시형태는 본 명세서에서 설명된 방법들 중 하나가 수행되도록 프로그램 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시형태들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때 방법들 중 하나를 수행하기 위해 동작한다. 프로그램 코드는, 예를 들어 기계 판독 가능 캐리어에 저장될 수 있다.

다른 실시형태들은 기계 판독 가능 캐리어 또는 비일시적 저장 매체에 저장되는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

다시 말해서, 그러므로, 본 발명의 방법 실시형태는 컴퓨터 프로그램이 컴퓨터에서 실행될 때 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서, 본 발명의 방법들의 추가 실시형태는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 기록되어 있는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다.

따라서, 본 발명의 방법의 추가 실시형태는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호 시퀀스이다. 예를 들어, 데이터 스트림 또는 신호 시퀀스는 데이터 통신 연결을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.

추가 실시형태는 본 명세서에서 설명된 방법들 중 하나를 수행하도록 구성 또는 적응되는 처리 수단, 예를 들어 컴퓨터, 또는 프로그램 가능 논리 장치를 포함한다.

추가 실시형태는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

일부 실시형태에 있어서, 프로그램 가능 논리 장치(예를 들어, 필드 프로그램 가능 게이트 어레이)는 본 명세서에서 설명된 방법들의 기능들 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시형태에 있어서, 필드 프로그램 가능 게이트 어레이는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 임의의 하드웨어 장치에 의해 수행되는 것이 바람직하다.

전술한 실시형태들은 본 발명의 원리를 예시하기 위한 것일 뿐이다. 본 명세서에서 설명된 배치구조 및 세부 내용의 수정 및 변형이 당업자에게 명백할 것임을 이해해야 한다. 따라서, 본 명세서에서 실시형태들의 기술 및 설명을 통해 제시되는 특정 세부 내용에 의해서가 아니라 하기의 특허 청구항들의 범위에 의해서만 제한되는 것을 의도한다.

참조문헌

[1] ITU-R BS.775-2, Multichannel Stereophonic Sound System With And Without Accompanying Picture, 07/2006.

[2] F. Baumgarte, C. Faller und P. Kroon, "Audio Coder Enhancement using Scalable Binaural Cue Coding with Equalized Mixing," in 116th Convention of the AES, Berlin, 2004.

[3] G. Stoll, J. Groh, M. Link, J. Deigmoeller, B. Runow, M. Keil, R. Stoll, M. Stoll und C. Stoll, "Method for Generating a Downward-Compatible Sound Format". USA Patent US 2012/0 014 526, 2012.

[4] M. Kim, E. Oh und H. Shim, "Stereo audio coding improved by phase parameters," in 129th Convention of the AES, San Francisco, 2010.

[5] A. Adami, E. Habets und J. Herre, "Down-mixing using coherence suppression," in IEEE International Conference on Acoustics, Speech and Signal Processing, Florence, 2014.

[6] ISO/IEC 23008-3:, Information technology ― High efficiency coding and media delivery in heterogeneous environments ― Part 3: 3D audio, 2019.

[7] S. Bayer, C. Borss, J. Buethe, S. Disch, B. Edler, G. Fuchs, F. Ghido und M. Multrus, "DOWNMIXER AND METHOD FOR DOWNMIXING AT LEAST TWO CHANNELS AND MULTICHANNEL ENCODER AND MULTICHANNEL DECODER". Patent WO18086946, 17 05 2018.

[8] S. Bayer, M. Dietz, S. Doehla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli und M. Schnell, "APPARATUS AND METHOD FOR ESTIMATING AN INTER-CHANNEL TIME DIFFERENCE". Patent WO17125563, 27 07 2017.

Claims

입력 다운믹스 표현으로부터 출력 다운믹스 표현을 생성― 상기 입력 다운믹스 표현의 적어도 일부분은 제1 다운믹싱 스킴에 따름 ―하기 위한 장치로서,
적어도 하나의 업믹싱된 부분을 취득하기 위해 상기 제1 다운믹싱 스킴에 대응하는 업믹싱 스킴을 사용하여 상기 입력 다운믹스 표현의 적어도 상기 일부분을 업믹싱하기 위한 업믹서(200), 및
상기 입력 다운믹스 표현의 적어도 상기 일부분에 대한 상기 출력 다운믹스 표현을 나타내는 제1 다운믹싱된 부분을 취득하기 위해 상기 제1 다운믹싱 스킴과는 다른 제2 다운믹싱 스킴에 따라 상기 적어도 하나의 업믹싱된 부분을 다운믹싱하기 위한 다운믹서(300)를 포함하는
장치.
제1항에 있어서,
상기 입력 다운믹스 표현의 상기 일부분만이 상기 제1 다운믹싱 스킴에 따르고, 상기 입력 다운믹스 표현의 제2 부분은 상기 제2 다운믹싱 스킴에 따르며,
상기 다운믹서(300)는 상기 제1 다운믹싱된 부분을 취득하기 위해 상기 제2 다운믹싱 스킴에 따라 상기 적어도 하나의 업믹싱된 부분을 다운믹싱하도록 구성되고,
상기 입력 다운믹스 표현의 상기 일부분만에 대한 제1 출력 표현 및 상기 입력 다운믹스 표현의 상기 제2 부분에 대한 제2 출력 표현을 포함하는 상기 출력 다운믹스 표현을 취득하기 위해 상기 제1 다운믹싱된 부분과 상기 입력 다운믹스 표현의 상기 제2 부분 또는 상기 입력 다운믹스 표현의 상기 제2 부분으로부터 도출된 다운믹싱된 부분을 결합하는 결합기(400)를 더 포함― 상기 입력 다운믹스 표현의 상기 일부분만에 대한 상기 제1 출력 표현 및 상기 입력 다운믹스 표현의 상기 제2 부분에 대한 상기 제2 출력 표현은 동일한 다운믹싱 스킴에 기초함 ―하는
장치.
제1항 또는 제2항에 있어서,
상기 입력 다운믹스 표현의 적어도 상기 일부분이 또는 상기 입력 다운믹스 표현의 상기 일부분만이 제1 주파수 대역이고, 상기 제1 다운믹싱 스킴은 잔차 신호에 의존하는 다운믹싱 스킴이며,
상기 업믹서(200)는 상기 잔차 신호를 사용하여 업믹스를 수행하도록 구성되는
장치.
제1항, 제2항 또는 제3항에 있어서,
상기 제2 다운믹싱 스킴은 완전 파라메트릭 스킴이고, 상기 다운믹서(300)는 상기 제2 다운믹싱 스킴을 적용하도록 구성되는
장치.
제2항, 제3항 또는 제4항에 있어서,
상기 입력 다운믹스 표현의 상기 제2 부분은 제2 주파수 대역이고, 상기 결합기(400)는 상기 출력 다운믹스 표현을 취득하기 위해 상기 제1 다운믹싱된 부분과 상기 입력 다운믹스 표현의 상기 제2 부분을 결합하도록 구성되는
장치.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 입력 다운믹스 표현의 적어도 상기 일부분에 대한 또는 상기 입력 다운믹스 표현의 상기 일부분만에 대한 디코딩된 코어 신호 및 상기 입력 다운믹스 표현의 적어도 상기 일부분에 대한 또는 상기 입력 다운믹스 표현의 상기 일부분만에 대한 디코딩된 잔차 신호를 생성하기 위한 오디오 디코더(10)를 더 포함하고,
상기 업믹서(200)는, 상기 업믹싱 스킴에서, 상기 입력 다운믹스 표현의 적어도 상기 일부분에 대한 또는 상기 입력 다운믹스 표현의 상기 일부분만에 대한 상기 디코딩된 코어 신호 및 상기 입력 다운믹스 표현의 적어도 상기 일부분에 대한 또는 상기 입력 다운믹스 표현의 상기 일부분만에 대한 상기 디코딩된 잔차 신호를 사용하도록 구성되고,
상기 다운믹서(300)는 상기 입력 다운믹스 표현보다 많은 채널을 포함하는 상기 적어도 하나의 업믹싱된 부분을 수신하도록 구성되는
장치.
제6항에 있어서,
상기 입력 다운믹스 표현의 상기 제2 부분은 상기 제2 다운믹싱 스킴에 따르고, 상기 오디오 디코더(10)는 상기 입력 다운믹스 표현의 상기 제2 부분에 대한 디코딩된 코어 신호 및 상기 입력 다운믹스 표현의 적어도 상기 일부분에 대한 또는 상기 입력 다운믹스 표현의 상기 일부분만에 대한 디코딩된 잔차 신호를 생성하도록 구성되며, 상기 결합기(400)는 상기 제1 다운믹싱된 부분과 상기 입력 다운믹스 표현의 상기 제2 부분에 대한 상기 디코딩된 코어 신호를 결합하도록 구성되는
장치.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 입력 다운믹스 표현의 적어도 상기 일부분의 또는 상기 입력 다운믹스 표현의 상기 일부분만의 시간 도메인 입력 다운믹스 표현을 스펙트럼 도메인으로 변환하기 위한 시간-스펙트럼 컨버터(100); 및 상기 출력 다운믹스 표현을 취득하기 위해 출력 신호를 시간 도메인으로 변환하기 위한 스펙트럼-시간 컨버터(400)를 더 포함― 상기 시간-스펙트럼 컨버터(100) 또는 상기 스펙트럼-시간 컨버터(400)는 중첩 및 가산 처리를 수행하거나 또는 앞선 시간 블록에서 나중 시간 블록까지 교차 처리를 수행하도록 구성됨 ―하거나, 또는
상기 출력 다운믹스 표현을 렌더링 장치에 출력하기 위한 출력 인터페이스(500)를 더 포함하거나 또는 상기 출력 다운믹스 표현을 모노 재생 신호로서 렌더링하기 위한 렌더링 장치를 더 포함하거나, 또는
상기 다운믹서(300)는, 상기 제2 다운믹싱 스킴으로서, 능동 다운믹싱 스킴, 에너지 보존 다운믹싱 스킴, 또는 상기 다운믹스 신호의 목표 에너지가 제1 채널 및 제2 채널로부터 도출된 중간 채널의 에너지에 대하여 미리 정해진 비율인 다운믹싱 스킴을 적용하도록 구성되고, 상기 제1 채널 및 상기 제2 채널 중 적어도 하나는 함께 가산되기 전에 위상 회전되어 상기 입력 다운믹스 표현을 형성하는
장치.
제8항에 있어서,
상기 입력 다운믹스 표현의 상기 제2 부분은 상기 제2 다운믹싱 스킴에 따르고, 상기 시간-스펙트럼 컨버터(100)는 상기 입력 다운믹스 표현의 상기 제2 부분의 시간 도메인 입력 다운믹스 표현을 상기 스펙트럼 도메인으로 변환하도록 구성되고,
상기 미리 정해진 비율은 제1 원래 채널의 에너지 및 제2 원래 채널의 에너지 중 더 높은 에너지와 관련된 3 dB의 균등 또는 편차 범위를 나타내는
장치.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 입력 다운믹스 표현의 적어도 상기 일부분은 잔차 신호에 또는 잔차 신호 및 파라메트릭 정보에 의존하는 상기 제1 다운믹싱 스킴에 따르고,
상기 업믹서(200)는 상기 적어도 하나의 업믹싱된 부분을 취득하기 위해, 제각기 상기 제1 다운믹싱 스킴에 대응하는 상기 업믹싱 스킴을 사용하여 그리고 상기 잔차 신호를 또는 상기 잔차 신호 및 상기 파라메트릭 정보를 사용하여 상기 입력 다운믹스 표현의 적어도 상기 일부분의 상기 입력 다운믹스 표현을 업믹싱하도록 구성되고,
상기 다운믹서(300)는 상기 제1 다운믹싱 스킴과는 다른 상기 제2 다운믹싱 스킴에 따라 상기 적어도 하나의 업믹싱된 부분을 다운믹싱하도록 구성되고, 상기 제2 다운믹싱 스킴은 적어도 하나의 다운믹싱된 부분을 포함하는 상기 출력 다운믹스 표현을 취득하기 위한 능동 다운믹싱 스킴 또는 완전 파라메트릭 다운믹싱 스킴인
장치.
제10항에 있어서,
상기 출력 다운믹스 표현을 렌더링 장치에 출력하기 위한 출력 인터페이스(500)를 더 포함하거나 또는 상기 출력 다운믹스 표현을 모노 재생 신호로서 렌더링하기 위한 렌더링 장치를 더 포함하는
장치.
제10항 또는 제11항에 있어서,
상기 다운믹서(300)는, 상기 능동 다운믹싱 스킴으로서, 에너지 보존 다운믹싱 스킴, 또는 상기 다운믹스 신호의 목표 에너지가 제1 채널 및 제2 채널로부터 도출된 중간 채널의 에너지에 대하여 미리 정해진 비율인 다운믹싱 스킴을 적용하도록 구성되고, 상기 제1 채널 및 상기 제2 채널 중 적어도 하나는 함께 가산되기 전에 위상 회전되는
장치.
제10항, 제11항, 또는 제12항에 있어서,
상기 입력 다운믹스 표현의 적어도 상기 일부분은 상기 입력 다운믹스 표현의 전체 대역폭을 포함하는
장치.
제1항 내지 제13항 중 어느 한 항에 있어서,
상기 다운믹서(300)는 상기 제2 다운믹싱 스킴을 수행하도록 구성되고, 상기 제2 다운믹싱 스킴은,
상기 적어도 하나의 업믹싱된 부분의 스펙트럼 대역에 대하여 제1 채널에 대한 제1 가중치 및 제2 채널에 대한 제2 가중치를 계산(800)― 상기 스펙트럼 대역은 복수의 스펙트럼 라인을 포함함 ―하는 것, 및
상기 스펙트럼 대역에서 다운믹싱된 스펙트럼 라인들을 취득하기 위해 상기 제1 가중치를 상기 제1 채널의 상기 스펙트럼 대역의 스펙트럼 라인들에 적용하며 상기 제2 가중치를 상기 제2 채널의 상기 스펙트럼 대역의 스펙트럼 라인들에 적용(820)하고, 제1 가중된 라인들과 제2 가중된 라인들을 가산하는 것을 포함하고,
상기 장치는 상기 출력 다운믹스 표현의 시간 도메인 샘플들을 취득하기 위해 상기 다운믹싱된 스펙트럼 라인들을 시간 도메인으로 변환(840)하도록 구성되는
장치.
제14항에 있어서,
상기 제1 가중치 및 상기 제2 가중치의 계산은 상기 제1 채널 및 상기 제2 채널의 에너지와 목표 에너지를 사용하여 대역별로 수행되는
장치.
제15항에 있어서,
상기 목표 에너지는 위상 회전된 중간 채널의 에너지와 같거나, 또는 상기 제1 채널의 에너지, 상기 제2 채널의 에너지 및 상기 제1 채널과 상기 제2 채널 사이의 상관관계 값으로부터 도출되는 것을 특징으로 하는
장치.
제14항 내지 제16항 중 어느 한 항에 있어서,
스펙트럼 대역에 대하여 상기 제1 가중치 및 상기 제2 가중치를 계산하는 것은,
상기 스펙트럼 대역에서 상기 제1 채널에 대한 진폭 관련 측정치를 계산(802)하는 것,
상기 스펙트럼 대역에서 상기 제2 채널에 대한 진폭 관련 측정치를 계산(804)하는 것,
상기 스펙트럼 대역에서 상기 제1 채널과 상기 제2 채널의 선형 결합에 대한 진폭 관련 측정치를 계산(806)하는 것,
상기 스펙트럼 대역에서 상기 제1 채널과 상기 제2 채널 사이의 상호 상관관계 측정치를 계산(808)하는 것, 및
상기 제1 채널에 대한 진폭 관련 측정치, 상기 제2 채널에 대한 진폭 관련 측정치, 상기 선형 결합에 대한 진폭 관련 측정치 및 상기 상호 상관관계 측정치를 사용하여 상기 제1 가중치 및 상기 제2 가중치를 계산(810)하는 것을 포함하는
장치.
제1항 내지 제17항 중 어느 한 항에 있어서,
상기 업믹서(200)는 상기 업믹싱 스킴을 수행하도록 구성되고, 상기 업믹싱 스킴은,
상기 스펙트럼 대역에 대한 예측 파라미터 및 상기 스펙트럼 대역에 대한 잔차 신호 라인들 및 제1 계산 규칙을 사용하여 상기 입력 다운믹스 표현의 적어도 상기 일부분의 또는 상기 입력 다운믹스 표현의 상기 일부분만의 스펙트럼 대역의 스펙트럼 라인들로부터 상기 입력 다운믹스 표현의 적어도 상기 일부분의 또는 상기 입력 다운믹스 표현의 상기 일부분만의 상기 스펙트럼 대역에 대한 제1 채널 스펙트럼 라인들을 계산하는 것, 및
상기 스펙트럼 대역에 대한 상기 예측 파라미터 및 상기 스펙트럼 대역에 대한 상기 잔차 신호 라인들 및 제2 계산 규칙을 사용하여 상기 입력 다운믹스 표현의 적어도 상기 일부분의 또는 상기 입력 다운믹스 표현의 상기 일부분만의 상기 스펙트럼 대역의 스펙트럼 라인들로부터 상기 입력 다운믹스 표현의 적어도 상기 일부분의 또는 상기 입력 다운믹스 표현의 상기 일부분만의 상기 스펙트럼 대역에 대한 제2 채널 스펙트럼 라인들을 계산하는 것을 포함하고,
상기 제1 계산 규칙은 상기 제2 계산 규칙과는 다른
장치.
제18항에 있어서,
상기 제1 계산 규칙은 가산 및 감산 중 하나를 포함하고, 상기 제2 계산 규칙은 상기 가산 및 상기 감산 중 다른 하나를 포함하는
장치.
다중 채널 디코더로서,
입력 다운믹스 표현 및 상기 입력 다운믹스 표현의 적어도 제2 부분에 대한 파라메트릭 데이터를 제공하기 위한 입력 인터페이스(100, 120), 및
제1항 내지 제19항 중 어느 한 항에 기재된 장치를 포함하고,
상기 다중 채널 디코더는, 상기 적어도 하나의 업믹싱된 부분을 취득하기 위해 상기 제1 다운믹싱 스킴에 대응하는 상기 업믹싱 스킴에 따라 상기 입력 다운믹스 표현의 적어도 상기 일부분에 대한 또는 상기 입력 다운믹스 표현의 상기 일부분만에 대한 상기 입력 다운믹스 표현을 상기 업믹서(200)로 업믹싱하고/하거나, 업믹싱된 제2 부분을 취득하기 위해 상기 제2 다운믹싱 스킴에 대응하는 제2 업믹싱 스킴을 사용하여 상기 제2 부분에 대한 상기 입력 다운믹스 표현 및 상기 파라메트릭 데이터를 업믹싱(220)하도록 구성되고,
결합기(400, 420)는 다중 채널 출력 신호를 취득하기 위해 상기 적어도 하나의 업믹싱된 부분과 상기 업믹싱된 제2 부분을 결합하도록 구성되는
다중 채널 디코더.
제20항에 있어서,
상기 입력 인터페이스(100, 120)는,
상기 입력 다운믹스 표현의 적어도 상기 일부분의 또는 상기 입력 다운믹스 표현의 상기 일부분만의 제1 스펙트럼 표현 및 상기 입력 다운믹스 표현의 제2 부분의 제2 스펙트럼 표현을 변환― 상기 입력 다운믹스 표현의 상기 제2 부분은 상기 제1 스펙트럼 표현의 상기 입력 다운믹스 표현의 적어도 상기 일부분의 또는 상기 입력 다운믹스 표현의 상기 일부분만의 주파수보다 높은 주파수에 대한 스펙트럼 값을 포함함 ―하기 위한 제1 시간-스펙트럼 컨버터(100),
상기 입력 다운믹스 표현의 적어도 상기 일부분에 대한 또는 상기 입력 다운믹스 표현의 상기 일부분만에 대한 잔차 신호의 스펙트럼 표현을 생성하기 위한 제2 시간-스펙트럼 컨버터(120)를 포함하고,
상기 업믹서(200)는 상기 스펙트럼 도메인에서 상기 적어도 하나의 업믹싱된 부분을 취득하기 위해 상기 잔차 신호의 스펙트럼 표현을 사용하여 상기 제1 스펙트럼 표현을 업믹싱하도록 구성되고,
상기 다운믹서(300)는 상기 스펙트럼 도메인에서 상기 제1 다운믹싱된 부분을 취득하기 위해 상기 적어도 하나의 업믹싱된 부분을 다운믹싱하도록 구성되고,
상기 결합기(400)는 상기 출력 다운믹스 표현을 취득하기 위해 상기 제1 다운믹싱된 부분과 상기 입력 다운믹스 표현의 상기 제2 부분의 상기 스펙트럼 표현을 결합하고 상기 시간 도메인으로 변환하기 위한 스펙트럼-시간 컨버터를 포함하는
다중 채널 디코더.
제20항 또는 제21항에 있어서,
상기 업믹싱된 제2 부분을 취득하기 위해 상기 입력 다운믹스 표현의 상기 제2 부분을 업믹싱하기 위한 제2 업믹서(220)를 더 포함하고,
다중 채널 출력 모드에서, 상기 결합기(400)는 다중 채널 출력의 제1 채널을 취득하기 위해 상기 적어도 하나의 업믹싱된 부분의 제1 채널과 상기 업믹싱된 제2 부분의 제1 채널을 결합하고 시간 도메인으로 변환하도록 구성되고,
상기 다중 채널 디코더는, 상기 다중 채널 출력 모드에서, 상기 다중 채널 출력의 제2 채널을 취득하기 위해 상기 적어도 하나의 업믹싱된 부분의 제2 채널과 상기 업믹싱된 제2 부분의 제2 채널을 결합하고 상기 시간 도메인으로 변환하도록 구성되는 제2 결합기(420)를 더 포함하는
다중 채널 디코더.
제21항에 있어서,
상기 업믹싱된 제2 부분을 취득하기 위해 상기 입력 다운믹스 표현의 상기 제2 부분을 업믹싱하기 위한 제2 업믹서(220)를 더 포함하고,
다중 채널 출력 모드에서, 상기 결합기(400)는 다중 채널 출력의 제1 채널을 취득하기 위해 상기 적어도 하나의 업믹싱된 부분의 제1 채널과 상기 업믹싱된 제2 부분의 제1 채널을 결합하고 시간 도메인으로 변환하도록 구성되고,
상기 다중 채널 디코더는, 상기 다중 채널 출력 모드에서, 상기 다중 채널 출력의 제2 채널을 취득하기 위해 상기 적어도 하나의 업믹싱된 부분의 제2 채널 및 상기 업믹싱된 제2 부분의 제2 채널을 결합하고 상기 시간 도메인으로 변환하도록 구성되는 제2 결합기(420),
상기 제1 시간-스펙트럼 컨버터(100)와 상기 제2 업믹서(220) 사이에 연결되는 스위치(710), 및
컨트롤러(700)를 더 포함하고, 상기 컨트롤러(700)는, 모노 출력 모드에서, 상기 스위치(710)를 제어하여 상기 제1 시간-스펙트럼 컨버터(100)의 출력을 상기 결합기(400)에 연결하거나 또는 상기 제2 업믹서(220)를 바이패스하고 상기 업믹서(200)의 출력을 상기 다운믹서(300)의 입력에 연결하도록 구성되거나, 또는 상기 다중 채널 출력 모드에서, 상기 스위치(710)를 제어하여 상기 제1 시간-스펙트럼 컨버터(100)의 출력을 상기 제2 업믹서(220)의 입력에 연결하도록 구성되는
다중 채널 디코더.
제22항 또는 제23항에 있어서,
상기 업믹서(200)와 상기 다운믹서(300) 사이에 연결되는 제2 스위치(720), 및
컨트롤러(700)를 더 포함하고, 상기 컨트롤러(700)는, 상기 모노 출력 모드에서, 상기 제2 스위치(720)를 제어하여 상기 업믹서(200)의 출력을 상기 다운믹서(300)의 입력에 연결하도록 구성되고, 상기 다중 채널 출력 모드에서, 상기 제2 스위치(720)를 제어하여 상기 업믹서(200)의 출력을 상기 제2 결합기(420)의 입력에 연결하거나 또는 상기 다운믹서(300)를 바이패스하도록 구성되는
다중 채널 디코더.
입력 다운믹스 표현으로부터 출력 다운믹스 표현을 생성― 상기 입력 다운믹스 표현의 적어도 일부분은 제1 다운믹싱 스킴에 따름 ―하기 위한 방법으로서,
적어도 하나의 업믹싱된 부분을 취득하기 위해 상기 제1 다운믹싱 스킴에 대응하는 업믹싱 스킴을 사용하여 상기 입력 다운믹스 표현의 적어도 상기 일부분의 상기 입력 다운믹스 표현을 업믹싱하는 단계, 및
상기 입력 다운믹스 표현의 적어도 상기 일부분에 대한 상기 출력 다운믹스 표현을 나타내는 제1 다운믹싱된 부분을 취득하기 위해 상기 제1 다운믹싱 스킴과는 다른 제2 다운믹싱 스킴에 따라 상기 적어도 하나의 업믹싱된 부분을 다운믹싱하는 단계를 포함하는
방법.
제25항에 있어서,
상기 입력 다운믹스 표현의 제2 부분은 제2 다운믹싱 스킴에 따르고,
상기 다운믹싱하는 단계는 상기 제1 다운믹싱된 부분을 취득하기 위해 상기 제2 다운믹싱 스킴에 따라 상기 적어도 하나의 업믹싱된 부분을 다운믹싱하는 단계를 포함하고,
상기 방법은, 상기 출력 다운믹스 표현을 취득하기 위해 상기 제1 다운믹싱된 부분과 상기 제2 부분 또는 상기 제2 부분으로부터 도출된 다운믹싱된 부분을 결합― 상기 입력 다운믹스 표현의 적어도 상기 일부분에 대한 상기 출력 다운믹스 표현 및 상기 제2 부분에 대한 상기 출력 표현은 동일한 다운믹싱 스킴에 기초함 ―하는 단계를 더 포함하는
방법.
제25항 또는 제26항에 있어서,
상기 입력 다운믹스 표현의 적어도 상기 일부분은 잔차 신호에 또는 잔차 신호 및 파라메트릭 정보에 의존하는 상기 제1 다운믹싱 스킴에 따르고,
상기 업믹싱하는 단계는 상기 적어도 하나의 업믹싱된 부분을 취득하기 위해, 제각기 상기 제1 다운믹싱 스킴에 대응하는 업믹싱 스킴을 사용하여 그리고 상기 잔차 신호를 또는 상기 잔차 신호 및 상기 파라메트릭 정보를 사용하여 상기 입력 다운믹스 표현의 적어도 상기 일부분의 상기 입력 다운믹스 표현을 업믹싱하는 단계를 포함하고,
상기 다운믹싱하는 단계는 상기 제1 다운믹싱 스킴과는 다른 상기 제2 다운믹싱 스킴에 따라 상기 적어도 하나의 업믹싱된 부분을 다운믹싱― 상기 제2 다운믹싱 스킴은 상기 입력 다운믹스 표현의 적어도 상기 일부분에 대한 상기 출력 다운믹스 표현을 취득하기 위한 능동 다운믹싱 스킴 또는 완전 파라메트릭 다운믹싱 스킴임 ―하는 단계를 포함하는
방법.
다중 채널 디코딩 방법으로서,
입력 다운믹스 표현 및 상기 입력 다운믹스 표현의 적어도 제2 부분에 대한 파라메트릭 데이터를 제공하는 단계,
제25항 내지 제27항 중 어느 한 항에 기재된 방법을 포함하고,
상기 다중 채널 디코딩 방법은, 상기 적어도 하나의 업믹싱된 부분을 취득하기 위해 상기 제1 다운믹싱 스킴에 대응하는 상기 업믹싱 스킴에 따라 상기 입력 다운믹스 표현의 적어도 상기 일부분에 대한 또는 상기 입력 다운믹스 표현의 상기 일부분만에 대한 상기 입력 다운믹스 표현을 업믹싱하고/하거나, 업믹싱된 제2 부분을 취득하기 위해 상기 제2 다운믹싱 스킴에 대응하는 제2 업믹싱 스킴을 사용하여 상기 입력 다운믹스 표현의 상기 제2 부분 및 상기 파라메트릭 데이터를 업믹싱하는 단계, 및
다중 채널 출력 신호를 취득하기 위해 상기 적어도 하나의 업믹싱된 부분과 상기 업믹싱된 제2 부분을 결합하는 단계를 또한 포함하는
다중 채널 디코딩 방법.
컴퓨터 또는 프로세서에서 실행될 때, 제25항 내지 제28항 중 어느 한 항에 기재된 방법을 수행하기 위한 컴퓨터 프로그램.
입력 다운믹스 표현으로부터 출력 다운믹스 표현을 생성― 상기 입력 다운믹스 표현의 제1 부분은 제1 다운믹싱 스킴에 따르고 상기 입력 다운믹스 표현의 제2 부분은 제2 다운믹싱 스킴에 따름 ―하기 위한 장치로서,
제1 업믹싱된 부분을 취득하기 위해 상기 제1 다운믹싱 스킴에 대응하는 제1 업믹싱 스킴을 사용하여 상기 입력 다운믹스 표현의 상기 제1 부분을 업믹싱하고, 제2 업믹싱된 부분을 취득하기 위해 상기 제2 다운믹싱 스킴에 대응하는 제2 업믹싱 스킴을 사용하여 상기 입력 다운믹스 표현의 상기 제2 부분을 업믹싱하기 위한 업믹서(200), 및
상기 출력 다운믹스 표현을 취득하기 위해 상기 제1 다운믹싱 스킴 및 상기 제2 다운믹싱 스킴과는 다른 제3 다운믹싱 스킴에 따라 상기 제1 업믹싱된 부분 및 상기 제2 업믹싱된 부분을 다운믹싱하기 위한 다운믹서(300)― 상기 입력 다운믹스 표현의 상기 제1 부분에 대한 출력 표현 및 상기 입력 다운믹스 표현의 상기 제2 부분에 대한 출력 표현은 상기 입력 다운믹스 표현의 동일한 다운믹싱 스킴에 기초함 ―를 포함하는
장치.