WO2014168439A1

WO2014168439A1 - 다채널 신호를 위한 인코더 및 인코딩 방법, 다채널 신호를 위한 디코더 및 디코딩 방법

Info

Publication number: WO2014168439A1
Application number: PCT/KR2014/003126
Authority: WO
Inventors: 백승권; 이태진; 성종모; 서정일; 강경옥; 장대영; 김진웅
Original assignee: 한국전자통신연구원
Priority date: 2013-04-10
Filing date: 2014-04-10
Publication date: 2014-10-16

Abstract

다채널 신호를 위한 인코더 및 인코딩 방법, 다채널 신호를 위한 디코더 및 디코딩 방법이 개시된다. 연속적으로 다운믹스 또는 업믹싱을 통해 다채널 신호를 효율적으로 처리할 수 있다.

Description

다채널 신호를 위한 인코더 및 인코딩 방법, 다채널 신호를 위한 디코더 및 디코딩 방법

이하의 실시예들은 다채널 신호를 위한 인코더 및 인코딩 방법, 다채널 신호를 위한 디코더 및 디코딩 방법에 관한 것으로, 구체적으로는 복수의 채널 신호로 구성된 다채널 신호를 효율적으로 처리하기 위한 코덱에 관한 것이다.

MPEG Surround(MPS)는 5.1 채널, 7.1채널 등 다채널 신호를 코딩하기 위한 오디오 코덱으로, 높은 압축률로서 다채널 신호를 압축하여 전송할 수 있는 인코딩 및 디코딩 기술을 의미한다. MPS는 인코딩 및 디코딩 과정에서 하위 호환이라는 제약 사항을 가진다. 그래서, MPS를 통해 압축된 후 디코더로 전송되는 비트스트림은 이전의 오디오 코덱을 이용하더라도 모노 또는 스테레오 방식으로 재생이 가능하여야 하는 제약 사항을 만족하여야 한다.

따라서, 다채널 신호를 구성하는 입력 채널의 수가 증가하더라도, 디코더로 전송되는 비트스트림은 인코딩된 모노 신호 또는 스테레오 신호를 포함하여야 한다. 그리고, 디코더는 비트스트림을 통해 전송된 모노 신호 또는 스테레오 신호가 업믹싱될 수 있도록 부가 정보를 추가로 수신할 수 있다. 디코더는 부가 정보를 이용하여 모노 신호 또는 스테레오 신호로부터 다채널 신호를 복원할 수 있다.

결국, MPS 방식으로 압축된 오디오는 모노 또는 스테레오 방식을 나타내므로 하위 호환성에 따라 MPS 디코더가 아닌 일반 오디오 코덱으로도 재생이 가능하였다.

최근 들어, AV 장치에서 초고품질의 오디오를 처리할 것이 요구되고 있다. 그래서, 초고품질의 오디오를 압축하여 전송하는 새로운 기술이 요구되고 있다. 초고품질의 오디오는 하위 호환성 보다는 원래 오디오가 가지는 음질 및 음장을 충실히 표현하는 것이 보다 중요한 요구 사항이 되고 있다. 예를 들어, 22.2 채널의 오디오는 초고품질의 오디오 음장 재현을 위한 것으로, MPS와 같이 하위 호환성을 제공하면서 압축 및 전송되기 보다는, 원래 오디오가 가지고 있는 음질 및 음장 효과를 디코더에서도 그대로 표현할 수 있는 고품질의 다채널 신호의 코딩 기술이 필요하다.

MPS는 기본적으로 5.1 채널의 오디오를 처리하면서도 하위 호환성을 제공하는 오디오 코딩 기술이다. 따라서, MPS는 다채널 신호를 다운믹싱한 후 이를 분석하여 모노 신호 또는 스테레오 신호로 표현되어야 한다. 분석 과정에서 획득되는 부가 정보는 공간큐(spatial cue)이며, 디코더는 공간큐를 이용하여 모노 신호 또는 스테레오 신호를 업믹싱하여 원래의 다채널 신호를 복원할 수 있다.

이 때, 디코더는 업믹싱을 수행할 때 원래의 다채널 신호가 표현했던 음장을 재현하기 위하여 비상관성 신호 (decorrelated audio signal)를 생성한다. 그러면, 디코더는 비상관성 신호를 이용하여 다채널 신호의 음장 효과를 재현할 수 있다. 비상관성 신호는 원래의 다채널 신호가 가지는 음장의 넓이(width) 혹은 깊이(depth)를 재현하기 위해 필요하다. 비상관성 신호는 인코더로부터 전송된 모노 또는 스테레오 형태의 다운믹싱 신호에 필터링(filtering)연산을 적용함으로써 생성될 수 있다.

이하에서는, 디코더가 MPS 업믹싱을 이용하여 5.1 채널의 오디오를 복원하는 과정을 나타낸다. 이하의 수학식 1은 업믹싱 매트릭스를 나타낸다.

상기 수학식 1에서, 업믹싱 매트릭스는 인코더로부터 전송된 공간큐에 기초하여 생성될 수 있다. 업믹싱 매트릭스의 입력은 다채널 신호인 {L, R, Ls, Rs, C}로부터 만들어진 모노 형태의 다운믹싱 신호

및 다운믹싱 신호에 대해 비상관성을 가지는

신호들을 포함한다. 즉, 원래의 다채널 신호 {Lsynth, Rsynth, LSsynth, RSsynth}는 수학식 1의 업믹싱 매트릭스를 다운믹싱 신호

와 비상관성 신호

에 적용함으로써 복원될 수 있다.

여기서, MPS를 통해 원래의 다채널 신호의 음장 효과를 재현하는 경우 문제가 발생할 수 있다. 구체적으로, 앞서 설명하였듯이, 디코더는 다채널 신호의 음장 효과를 재현하기 위해 비상관성 신호를 이용한다. 하지만, 비상관성 신호는 인위적으로 모노 형태의 다운믹싱 신호

로부터 생성되기 때문에, 다채널 신호의 음장 효과를 위해서 비상관성 신호에 대한 의존도가 높아질수록 복원되는 다채널 신호의 음질은 열화될 수 있다.

특히, MPS 방식에 따라 다채널 신호를 복원하는 경우, 복수의 비상관성 신호가 이용되어야 한다. 인코더로부터 전송된 다운믹싱 신호가 모노 형태인 경우, 다운믹싱 신호로부터 원래의 다채널 신호가 가지는 음장을 표현하기 위해서는 복수의 비상관성 신호가 이용될 수 밖에 없다. 그래서, 모노 형태의 다운믹싱을 통해 원래의 다채널 신호를 복원하는 경우, 압축 효율 및 일정 수준 이상의 음장 재현은 가능하지만 음질의 열화는 발생되는 문제가 발생될 수 있다.

결론적으로, 기존의 MPS 방식을 이용하면 초고품질의 다채널 신호를 복원하는 할 때 한계가 존재한다. 이러한 한계를 극복하기 위해 인코더에서 잔차 신호를 디코더에 전송함으로써, 잔차 신호를 비상관성 신호를 대체할 수도 있다. 그러나, 잔차 신호를 전송하는 것은 원래의 채널 신호를 전송하는 것과 비교하여 압축 효율 측면에서 비효율적이다.

본 발명은 MPS의 기본 개념을 고려하되 고품질의 다채널 신호를 복원하기 위해 최소한의 비상관성 신호를 이용하는 코딩 방식을 제공한다.

본 발명은 4개의 채널 신호를 효율적으로 처리할 수 있는 코딩 방식을 제공한다.

본 발명의 일실시예에 따른 다채널 신호의 인코딩 방법은 TTO(Two-To-One) 방식의 제1 다운믹싱부 및 제2 다운믹싱부를 이용하여 4개의 채널 신호를 다운믹싱함으로써 제1 채널 신호와 제2 채널 신호를 출력하는 단계; 상기 제1 채널 신호와 제2 채널 신호를 TTO 방식의 제3 다운믹싱부를 이용하여 다운믹싱함으로써 제3 채널 신호를 출력하는 단계; 및 상기 제3 채널 신호를 인코딩하여 비트스트림을 생성하는 단계를 포함할 수 있다.

상기 다채널 신호의 인코딩 방법에서 상기 제1 채널 신호와 제2 채널 신호를 출력하는 단계는, 상기 4개의 채널 신호를 구성하는 채널 신호의 쌍을 병렬적으로 배치된 TTO 방식의 제1 다운믹싱부와 제2 다운믹싱부를 이용하여 다운믹싱함으로써 제1 채널 신호와 제2 채널 신호를 출력할 수 있다.

상기 다채널 신호의 인코딩 방법에서 상기 비트스트림을 생성하는 단계는, 상기 제3 채널 신호의 고주파수 대역을 제거하여 저주파수 대역에 대응하는 코어 대역을 추출하는 단계; 및 상기 제3 채널 신호의 코어 대역을 인코딩하는 단계를 포함할 수 있다.

본 발명의 다른 실시예에 따른 다채널 신호의 인코딩 방법은 TTO(Two-To-One) 방식의 제1 다운믹싱부를 이용하여 2개의 채널 신호를 다운믹싱함으로써 제1 채널 신호를 생성하는 단계; TTO 방식의 제2 다운믹싱부를 이용하여 2개의 채널 신호를 다운믹싱함으로써 제2 채널 신호를 생성하는 단계; 및 상기 제1 채널 신호와 제2 채널 신호를 스테레오 인코딩하는 단계를 포함할 수 있다.

상기 다채널 신호의 인코딩 방법에서, 상기 제1 다운믹싱부에서 다운믹싱되는 2개의 채널 신호 중 하나의 채널 신호와 상기 제2 다운믹싱부에서 다운믹싱되는 2개의 채널 신호 중 하나의 채널 신호는 스와핑된 채널 신호일 수 있다.

상기 다채널 신호의 인코딩 방법에서, 상기 제1 채널 신호 및 제2 채널 신호 중 어느 하나는, 스와핑된 채널 신호일 수 있다.

상기 다채널 신호의 인코딩 방법에서, 상기 제1 다운믹싱부가 다운믹싱하는 2개의 채널 신호 중 하나의 채널 신호는 제1 스테레오 SBR부에서 생성되고, 다른 하나의 채널 신호는 제2 스테레오 SBR부에서 생성되며, 상기 제2 다운믹싱부가 다운믹싱하는 2개의 채널 신호 중 하나의 채널 신호는 제1 스테레오 SBR부에서 생성되고, 다른 하나의 채널 신호는 제2 스테레오 SBR부에서 생성될 수 있다.

본 발명의 일실시예에 따른 다채널 신호의 디코딩 방법은 비트스트림을 디코딩하여 제1 채널 신호를 추출하는 단계; OTT(One-To-Two) 방식의 제1 업믹싱부를 이용하여 상기 제1 채널 신호를 업믹싱함으로써 제2 채널 신호와 제3 채널 신호를 출력하는 단계; OTT 방식의 제2 업믹싱부를 이용하여 상기 제2 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계; 및 OTT 방식의 제3 업믹싱부를 이용하여 상기 제3 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계를 포함할 수 있다.

상기 다채널 신호의 디코딩 방법에서 상기 제2 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계는, 상기 제2 채널 신호에 대응하는 비상관성 신호를 이용하여 상기 제2 채널 신호를 업믹싱하고, 상기 제3 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계는, 상기 제3 채널 신호에 대응하는 비상관성 신호를 이용하여 상기 제3 채널 신호를 업믹싱할 수 있다.

상기 다채널 신호의 디코딩 방법에서 상기 OTT 방식의 제2 업믹싱부와 상기 OTT 방식의 제3 업믹싱부는, 병렬적으로 배치되어 독립적으로 업믹싱을 수행할 수 있다.

상기 다채널 신호의 디코딩 방법에서 상기 비트스트림을 디코딩하여 제1 채널 신호를 추출하는 단계는, 상기 비트스트림을 디코딩하여 저주파수 대역에 대응하는 코어 대역의 제1 채널 신호를 복원하는 단계; 및 상기 제1 채널 신호의 코어 대역을 확장하여 제1 채널 신호의 고주파수 대역을 복원할 수 있다.

본 발명의 다른 실시예에 따른 다채널 신호의 디코딩 방법은 비트스트림을 디코딩하여 모노 신호를 복원하는 단계; 모노 신호를 OTT 방식으로 업믹싱함으로써 스테레오 신호를 출력하는 단계; 및 상기 스테레오 신호를 구성하는 제1 채널 신호와 제2 채널 신호를 각각 병렬적인 OTT 방식으로 업믹싱함으로써 4개의 채널 신호를 출력하는 단계를 포함할 수 있다.

상기 다채널 신호의 디코딩 방법에서 상기 4개의 채널 신호를 출력하는 단계는, 상기 제1 채널 신호 및 상기 제1 채널 신호에 대응하는 비상관성 신호를 이용하여 OTT 방식으로 업믹싱하고, 상기 제2 채널 신호 및 상기 제2 채널 신호에 대응하는 비상관성 신호를 이용하여 OTT 방식으로 업믹싱함으로써 4개의 채널 신호를 출력할 수 있다.

본 발명의 또 다른 실시예에 따른 다채널 신호의 디코딩 방법은 스테레오 디코딩부를 이용하여 채널 쌍 요소를 디코딩함으로써 제1 다운믹스 신호와 제2 다운믹스 신호를 출력하는 단계; 제1 업믹싱부를 이용하여 제1 다운믹스 신호를 업믹싱함으로써 제1 업믹스 신호 및 제2 업믹스 신호를 출력하는 단계; 및 제2 업믹싱부를 이용하여 스와핑된 제2 다운믹스 신호를 업믹싱함으로써 제3 업믹스 신호 및 제4 업믹스 신호를 출력하는 단계를 포함할 수 있다.

상기 다채널 신호의 디코딩 방법은 제1 대역 확장부를 이용하여 제1 업믹스 신호 및 스와핑된 제3 업믹스 신호의 고주파수 대역을 복원하는 단계; 및 제2 대역 확장부를 이용하여 스와핑된 제2 업믹스 신호 및 제4 업믹스 신호의 고주파수 대역을 복원하는 단계를 더 포함할 수 있다.

본 발명의 또 다른 실시예에 따른 다채널 신호의 디코딩 방법은 제1 스테레오 디코딩부를 이용하여 제1 채널 쌍 요소를 디코딩함으로써 제1 다운믹스 신호와 제2 다운믹스 신호를 출력하는 단계; 제2 스테레오 디코딩부를 이용하여 제2 채널 쌍 요소를 디코딩함으로써 제1 잔차 신호와 제2 잔차 신호를 출력하는 단계; 제1 업믹싱부를 이용하여 제1 다운믹스 신호 및 스와핑된 제1 잔차 신호를 업믹싱함으로써 제1 업믹스 신호 및 제2 업믹스 신호를 출력하는 단계; 및 제2 업믹싱부를 이용하여 스와핑된 제2 다운믹스 신호와 제2 잔차 신호를 업믹싱함으로써 제3 업믹스 신호 및 제4 업믹스 신호를 출력하는 단계를 포함할 수 있다.

본 발명의 일실시예에 따른 다채널 신호의 인코더는 4개의 채널 신호 중 2개의 채널 신호의 쌍을 TTO 방식으로 다운믹싱하여 제1 채널 신호를 출력하는 제1 다운믹싱부; 상기 4개의 채널 신호 중 나머지 2개의 채널 신호의 쌍을 TTO 방식으로 다운믹싱하여 제2 채널 신호를 출력하는 제2 다운믹싱부; 상기 제1 채널 신호와 제2 채널 신호를 TTO 방식으로 다운믹싱하여 제3 채널 신호를 출력하는 제3 다운믹싱부; 및 상기 제3 채널 신호를 인코딩하여 비트스트림을 생성하는 인코딩부를 포함할 수 있다.

본 발명의 다른 실시예에 따른 다채널 신호의 디코더는 비트스트림을 디코딩하여 제1 채널 신호를 추출하는 디코딩부; 상기 제1 채널 신호를 OTT(One-To-Two) 방식으로 업믹싱함으로써 제2 채널 신호와 제3 채널 신호를 출력하는 제1 업믹싱부; 상기 제2 채널 신호를 OTT 방식으로 업믹싱함으로써 2개의 채널 신호를 출력하는 제2 업믹싱부; 및 상기 제3 채널 신호를 OTT 방식으로 업믹싱함으로써 2개의 채널 신호를 출력하는 제3 업믹싱부를 포함할 수 있다.

본 발명의 또 다른 실시예에 따른 다채널 신호의 디코더는 비트스트림을 디코딩하여 모노 신호를 복원하는 디코딩부; 모노 신호를 OTT 방식으로 업믹싱함으로써 스테레오 신호를 출력하는 제1 업믹싱부; 및 상기 스테레오 신호를 구성하는 제1 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 제2 업믹싱부; 및 상기 스테레오 신호를 구성하는 제2 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 제3 업믹싱부를 포함하고, 상기 제2 업믹싱부와 제3 업믹싱부는, 병렬적으로 배치되어 OTT 방식으로 제1 채널 신호와 제2 채널 신호를 업믹싱함으로써 4개의 채널 신호를 출력할 수 있다.

본 발명의 또 다른 실시예에 따른 다채널 신호의 디코더는 채널 쌍 요소를 디코딩함으로써 제1 다운믹스 신호와 제2 다운믹스 신호를 출력하는 스테레오 디코딩부; 제1 다운믹스 신호를 업믹싱함으로써 제1 업믹스 신호 및 제2 업믹스 신호를 출력하는 제1 업믹싱부; 및 스와핑된 제2 다운믹스 신호를 업믹싱함으로써 제3 업믹스 신호 및 제4 업믹스 신호를 출력하는 제2 업믹싱부를 포함할 수 있다.

본 발명의 일실시예에 의하면, MPS의 기본 개념을 고려하되 고품질의 다채널 신호를 복원하기 위해 최소한의 비상관성 신호를 이용하는 코딩 방식을 제공할 수 있다.

본 발명의 일실시예에 의하면, 4개의 채널 신호를 효율적으로 처리할 수 있다.

도 1은 일실시예에 따른 3D 오디오 인코더를 도시한 도면이다.

도 2는 일실시예에 따른 3D 오디오 디코더를 도시한 도면이다.

도 3은 일실시예에 따른 USAC 3D 인코더와 USAC 3D 디코더를 도시한 도면이다.

도 4는 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제1 도면이다.

도 5는 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제2 도면이다.

도 6은 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제3 도면이다.

도 7은 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제4 도면이다.

도 8은 일실시예에 따른 도 3의 제2 디코딩부의 세부 구성을 도시한 제1 도면이다.

도 9는 일실시예에 따른 도 3의 제2 디코딩부의 세부 구성을 도시한 제2 도면이다.

도 10은 일실시예에 따른 도 3의 제2 디코딩부의 세부 구성을 도시한 제3 도면이다.

도 11은 일실시예에 따른 도 3을 구현한 예시를 도시한 도면이다.

도 12는 일실시예에 따른 도 11을 간략하게 표현한 도면이다.

도 13은 일실시예에 따른 도 12의 제2 인코딩부와 제1 디코딩부의 세부 구성을 도시한 도면이다.

도 14는 일실시예에 따른 도 11의 제1 인코딩부와 제2 인코딩부를 결합하고, 제1 디코딩부와 제2 디코딩부를 결합한 결과를 도시한 도면이다.

도 15는 일실시예에 따른 도 14를 간략하게 표현한 도면이다.

도 16은 일실시예에 따른 도 1의 3D 오디오 인코더의 USAC 3D 인코더가 QCE 모드에 따라 동작하는 예시를 도시한 도면이다.

도 17은 일실시예에 따라 2개의 CPE를 이용하여 QCE 모드로 동작하는 도 1의 3D 오디오 인코더의 USAC 3D 인코더를 도시한 도면이다.

도 18은 일실시예에 따라 2개의 CPE를 이용하여 QCE 모드로 동작하는 도 1의 3D 오디오 디코더의 USAC 3D 디코더를 도시한 도면이다.

도 19는 일실시예에 따른 도 18을 간략하게 표현한 도면이다.

도 20은 일실시예에 따른 도 19의 일부 구성을 수정한 도면이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

이하에서, 모노 신호는 1개의 채널 신호를 의미하고, 스테레오 신호는 2개의 채널 신호를 의미한다. 그러면, 스테레오 신호는 2개의 모노 신호로 구성될 수 있다. 또한, N개의 채널 신호는 M개의 채널 신호보다 채널 개수가 많은 것을 의미한다.

도 1을 참고하면, 3D 오디오 인코더는 복수의 채널들(channels)과 복수의 객체들(objects)을 처리하여 오디오 비트스트림을 생성할 수 있다. 3D 오디오 인코더에서 프리 렌더러(prerenderer)/믹서(mixer)(101)는 복수의 객체들을 복수의 채널들의 레이아웃에 따라 프리 렌더링한 후 USAC(Unified Speech Audio Coding) 3D 인코더(104)에 전달할 수 있다.

즉, 프리 렌더러/믹서(101)는 입력된 복수의 객체들을 복수의 채널들에 매칭시킴으로써 렌더링할 수 있다. 이 때, 프리 렌더러/믹서(101)는 객체 메타데이터(OAM: associated object metadata)를 이용하여 각각의 채널에 대한 객체들의 가중치를 결정할 수 있다. 또한, 프리 렌더러/믹서(101)는 입력된 복수의 객체들을 다운믹싱하여 USAC 3D 인코더(104)에 전달할 수 있다. 그리고, 프리 렌더러/믹서(101)는 입력된 복수의 객체들을 SAOC (Spatial Audio Object Coding) 3D 인코더(103)에 전달할 수 있다.

OAM 인코더(102)는 객체 메타데이터를 인코딩한 후 USAC 3D 인코더(104)에 전달할 수 있다.

SAOC 3D 인코더(103)는 입력된 복수의 객체들을 렌더링하여 복수의 객체들의 개수보다 작은 개수의 SAOC 전송 채널과 부가 정보인 공간 파라미터(OLD, IOC, DMG 등)를 생성할 수 있다.

USAC 3D 인코더(104)는 입력된 객체들과 채널들을 USAC 채널 요소(channel element)인 CPEs(USAC Channel Pair Element), SPEs(Single Pair Element) 및 LFEs(Low Frequency Enhancement)로 어떻게 매핑할 것인지를 설명하는 매핑 정보를 생성할 수 있다.

USAC 3D 인코더(104)는 복수의 채널들, 채널 레이아웃에 따라 프리렌더링된 객체와 다운믹싱된 객체, 압축된 객체 메타데이터, SAOC 부가 정보 및 SAOC 전송 채널 중 적어도 하나를 인코딩한 후 비트스트림을 생성할 수 있다.

이하의 실시예들에 대해서는 USAC 3D 인코더(104)에 기초하여 설명하기로 한다.

3D 오디오 디코더는 3D 오디오 인코더에 포함된 USAC 3D 인코더(104)가 생성한 비트스트림을 수신할 수 있다. 3D 오디오 디코더에 포함된 USAC 3D 디코더(201)는 비트스트림으로부터 복수의 채널들, 프리엔더링된 객체, 다운믹싱된 객체, 압축된 객체 메타데이터, SAOC 부가 정보, SAOC 전송 채널을 추출할 수 있다.

객체 렌더러(202)는 객체 메타데이터를 이용하여 다운믹싱된 객체를 재생 포맷에 따라 렌더링할 수 있다. 그러면, 각각의 객체는 객체 메타데이터에 따라 재생 포맷인 출력 채널에 렌더링될 수 있다.

OAM 디코더(203)는 압축된 객체 메타데이터를 복원할 수 있다.

SAOC 3D 디코더(204)는 SAOC 전송 채널, SAOC 부가 정보 및 객체 메타데이터를 이용하여 렌더링된 객체를 생성할 수 있다. 이 때, SAOC 3D 디코더(204)는 SAOC 전송 채널에 대응하는 객체를 업믹싱하여 객체의 개수를 증가시킬 수 있다.

믹서(205)는 USAC 3D 디코더(201)에서 전달된 복수의 채널들, 프리 렌더링된 객체들, 객체 렌더러(202)에 의해 렌더링된 객체들, SAOC 3D 디코더(204)에 의해 렌더링된 객체를 믹싱하여 복수의 채널 신호들을 출력할 수 있다. 그런 후, 믹서(205)는 출력된 채널 신호들을 바이노럴 렌더러(206)와 포맷 변환기(207)에 전달할 수 있다.

출력된 채널 신호는 직접적으로 라우드스피커에 피딩되어 재생될 수 있다. 이 경우, 채널 신호의 채널 개수와 라우드스피커가 지원하는 채널 개수가 동일하여야 한다. 그리고, 출력된 채널 신호는 바이노럴 렌더러(206)에 의해 헤드폰 신호로 렌더링될 수 있다. 또한, 출력된 채널 신호의 채널 개수와 라우드스피커가 지원하는 채널 개수가 다른 경우, 포맷 변환기(207)는 라우드스피커의 채널 레이아웃에 따라 채널 신호를 렌더링할 수 있다. 즉, 포맷 변환기(207)는 채널 신호의 포맷을 라우드스피커의 포맷으로 변환할 수 있다.

이하의 실시예들에 대해서는 USAC 3D 디코더(201)에 기초하여 설명하기로 한다.

도 3을 참고하면, USAC 3D 인코더는 제1 인코딩부(301)와 제2 인코딩부(302)를 모두 포함할 수 있다. 또는, USAC 3D 인코더는 제2 인코딩부(302)를 포함할 수 있다. 유사하게, USAC 3D 디코더는 제1 디코딩부(303)와 제2 디코딩부(304)를 포함할 수 있다. 또는, USAC 3D 디코더는 제1 디코딩부(303)를 포함할 수 있다.

제1 인코딩부(301)에 N개의 채널 신호가 입력될 수 있다. 그런 후, 제1 인코딩부(301)는 N개의 채널 신호에 대해 다운믹싱하여 M개의 채널 신호를 출력할 수 있다. 이 때, N은 M보다 큰 값을 가질 수 있다. 일례로, N이 짝수인 경우, M은 N/2일 수 있다. 그리고, N이 홀수인 경우, M은 (N-1)/2+1일 수 있다. 이를 정리하면, 수학식 2과 같이 표현될 수 있다.

제2 인코딩부(302)는 M개의 채널 신호를 인코딩하여 비트스트림을 생성할 수 있다. 일례로, 제2 인코딩부(302)는 M개의 채널 신호를 인코딩할 수 있으며, 일반적인 오디오 코더가 활용될 수 있다. 예를 들어, 제2 인코딩부(302)가 Extended HE-AAC인 USAC 코더인 경우, 제2 인코딩부(302)는 24개의 채널 신호를 인코딩하여 전송할 수 있다.

다만, 제2 인코딩부(302)를 이용하여 N개의 채널 신호를 인코딩하는 경우, 제1 인코딩부(301)와 제2 인코딩부(302)를 모두 이용하여 N개의 채널 신호를 인코딩하는 것보다 상대적으로 많은 비트가 요구되며, 음질 열화도 발생될 수 있다.

한편, 제1 디코딩부(303)는 제2 인코딩부(302)가 생성한 비트스트림을 디코딩하여 M개의 채널 신호를 출력할 수 있다. 그러면, 제2 디코딩부(304)는 M개의 채널 신호를 업믹싱하여 N개의 채널 신호의 출력할 수 있다. 제2 디코딩부(302)는 M개의 채널 신호를 디코딩하여 비트스트림을 생성할 수 있다. 일례로, 제2 디코딩부(304)는 M개의 채널 신호를 디코딩할 수 있으며, 일반적인 오디오 코더가 활용될 수 있다. 예를 들어, 제2 디코딩부(304)가 Extended HE-AAC인 USAC 코더인 경우, 제2 디코딩부(302)는 24개의 채널 신호를 디코딩할 수 있다.

제1 인코딩부(301)는 복수의 다운믹싱부(401)를 포함할 수 있다. 이 때, 제1 인코딩부(301)에 입력된 N개의 채널 신호들은 2개씩 짝으로 구성된 후 다운믹싱부(401)에 입력될 수 있다. 그래서, 다운믹싱부(401)는 TTO(Two-To-Two) 구조를 나타낼 수 있다. 다운믹싱부(401)는 입력된 2개의 채널 신호로부터 공간큐인 CLD(Channel Level Difference), ICC(Inter Channel Correlation/Coherence), IPD(Inter Channel Phase Difference) 또는 OPD(Overall Phase Difference)를 추출하고, 2개의 채널 신호를 1개의 채널 신호로 다운믹싱하여 출력할 수 있다.

제1 인코딩부(301)에 포함된 복수의 다운믹싱부(401)는 병렬 구조를 나타낼 수 있다. 예를 들어, 제1 인코딩부(301)에 N개의 채널 신호가 입력되고, N이 짝수인 경우, 제1 인코딩부(301)에 포함되는 TTO 구조의 다운믹싱부(401)는 N/2개가 필요할 수 있다.

앞서 설명한 도 4는 제1 인코딩부(301)에 N개의 채널 신호가 입력되고, N이 짝수인 경우에 제1 인코딩부(301)의 세부 구성을 나타낸다. 그리고, 도 5는 제1 인코딩부(301)에 N개의 채널 신호가 입력되고 N이 홀수인 경우에, 제1 인코딩부(301)의 세부 구성을 나타낸다.

도 5를 참고하면, 제1 인코딩부(301)는 복수의 다운믹싱부(501)를 포함할 수 있다. 이 때, 제1 인코딩부(301)는 (N-1)/2개의 다운믹싱부(501)를 포함할 수 있다. 그리고, 나머지 1개의 채널 신호를 처리하기 위해, 제1 인코딩부(301)는 지연부(502)를 포함할 수 있다.

이 때, 제1 인코딩부(301)에 입력된 N개의 채널 신호들은 2개씩 짝으로 구성된 후 다운믹싱부(501)에 입력될 수 있다. 그래서, 다운믹싱부(501)는 TTO 구조를 나타낼 수 있다. 다운믹싱부(501)는 입력된 2개의 채널 신호로부터 공간큐인 CLD, ICC, IPD 또는 OPD를 추출하고, 2개의 채널 신호를 1개의 채널 신호로 다운믹싱하여 출력할 수 있다.

그리고, 지연부(502)에 적용되는 지연값은 다운믹싱부(501)에 적용되는 지연값과 동일할 수 있다. 만약, 제1 인코딩부(301)의 출력 신호인 M개의 채널 신호가 PCM 신호인 경우, 지연값은 다음 수학식 3에 따라 결정될 수 있다.

여기서, Enc_Delay는 다운믹싱부(501)와 지연부(502)에 적용되는 지연값을 나타낸다. 그리고, Delay1(QMF Analysis)는 MPS의 64 밴드에 대해 QMF 분석시에 발생하는 지연값을 나타내며, 288일 수 있다. 그리고, Delay2(Hybrid QMF Analysis)은 13 탭(tap)의 필터를 사용하는 Hybrid QMF 분석시에 발생하는 지연값을 나타내며, 6*64=384일 수 있다. 여기서, 64가 적용되는 이유는 64 밴드에 대해 QMF 분석이 수행되고 난 후에 Hybrid QMF 분석이 수행되기 때문이다.

만약, 제1 인코딩부(301)의 출력 신호인 M개의 채널 신호가 QMF 신호인 경우, 지연값은 수학식 4에 따라 결정될 수 있다.

도 6은 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제3 도면이다. 그리고, 도 7은 일실시예에 따른 도 3의 제1 인코딩부의 세부 구성을 도시한 제4 도면이다.

만약, N개의 채널 신호가 N'개의 채널 신호와 K개의 채널 신호로 구성된다고 가정한다. 이 때, N'개의 채널 신호는 제1 인코딩부(301)에 입력되고, K개의 채널 신호는 제1 인코딩부(301)에 입력되지 않는다고 가정한다.

이 경우 수학식 5에 의해 제2 인코딩부(301)에 입력되는 M개의 채널 신호에 적용되는 M이 결정될 수 있다.

이 때, 도 6은 N'가 짝수인 경우에 제1 인코딩부(301)의 구조를 나타내고, 도 7은 N'가 홀수인 경우에 제1 인코딩부(301)의 구조를 나타낸다.

도 6에 의하면, N'가 짝수인 경우, N'개의 채널 신호는 복수의 다운믹싱부(601)에 입력되고, K개의 채널 신호는 복수의 지연부(602)에 입력될 수 있다. 여기서, N'개의 채널 신호는 N'/2개의 TTO 구조를 나타내는 다운믹싱부(601)에 입력되고, K개의 채널 신호는 K개의 지연부(602)를 포함할 수 있다.

그리고, 도 7에 의하면, N'가 홀수인 경우, N'개의 채널 신호는 복수의 다운믹싱부(701)와 1개의 지연부(702)에 입력될 수 있다. 그리고, K개의 채널 신호는 복수의 지연부(702)에 입력될 수 있다. 여기서, N'개의 채널 신호는 N'/2개의 TTO 구조를 나타내는 다운믹싱부(701)와 1개의 지연부(702)에 입력될 수 있다. 그리고, K개의 채널 신호는 K개의 지연부(702)에 입력될 수 있다.

도 8을 참고하면, 제2 디코딩부(304)는 제1 디코딩부(303)로부터 전달된 M개의 채널 신호를 업믹싱하여 N개의 채널 신호를 출력할 수 있다. 이 때, 제2 디코딩부(304)는 도 3의 제2 인코딩부(301)로부터 전송된 공간큐를 이용하여 M개의 채널 신호를 업믹싱할 수 있다.

일례로, N개의 채널 신호에서 N이 짝수인 경우, 제2 디코딩부(304)는 복수의 비상관부(801)와 업믹싱부(802)를 포함할 수 있다. 그리고, N개의 채널 신호에서 N이 홀수인 경우, 제2 디코딩부(304)는 복수의 비상관부(801), 업믹싱부(802) 및 지연부(803)를 포함할 수 있다. 즉, N개의 채널 신호에서 N이 짝수인 경우, 도 8에서 도시된 바와 달리 지연부(803)가 불필요할 수 있다.

이 때, 비상관부(801)에서 비상관성 신호를 생성하는 과정에서 추가적인 지연이 발생할 수 있기 때문에, 지연부(803)의 지연값은 인코더에서 적용된 지연값과 다를 수 있다. 도 8은 제2 디코딩부(304)의 출력이 N개의 채널 신호이고, N이 홀수인 경우를 나타낸다.

제2 디코딩부(304)에서 출력된 N개의 채널 신호가 PCM 신호인 경우, 지연부(803)의 지연값은 하기 수학식 6에 따라 결정될 수 있다.

여기서, Dec_Delay는 지연부(803)의 지연값을 나타낸다. 그리고, Delay1은 QMF 분석에 따라 발생되는 지연값, Delay2는 하이브리드 QMF 분석에 따라 발생되는 지연값, Delay3은 QMF 합성에 따라 발생되는 지연값을 나타낸다. 그리고, Delay4는 비상관부(801)에서 비상관성 필터를 적용함에 따라 발생되는 지연값을 나타낸다.

그리고, 제2 디코딩부(304)에서 출력된 N개의 채널 신호가 QMF 신호인 경우, 지연부(803)의 지연값은 하기 수학식 7에 따라 결정될 수 있다.

먼저 복수의 비상관부(801)들 각각은 제2 디코딩부(304)에 입력된 M개의 채널 신호로부터 비상관성 신호를 생성할 수 있다. 복수의 비상관부(801)들 각각에서 생성된 비상관성 신호는 업믹싱부(802)에 입력될 수 있다.

이 때, MPS에서 비상관성 신호를 생성하는 것과 달리, 복수의 비상관부(801)는 M개의 채널 신호를 이용하여 비상관성 신호를 생성할 수 있다. 즉, 인코더에서 전달된 M개의 채널 신호를 비상관성 신호를 생성할 때 이용하는 경우, 다채널 신호의 음장을 재현할 때 음질 열화가 발생되지 않을 수 있다.

이하에서는, 제2 디코딩부(304)에 포함된 업믹싱부(802)의 동작에 대해 설명하기로 한다. 제2 디코딩부(304)에 입력되는 M개의 채널 신호는

로 정의될 수 있다. 그리고, M개의 채널 신호를 이용하여 생성되는 M개의 비상관성 신호는

로 정의될 수 있다. 또한, 제2 디코딩부(304)를 통해 출력되는 N개의 채널 신호는

로 정의될 수 있다.

그러면, 제2 디코딩부(304)는 하기 수학식 8에 따라 N개의 채널 신호를 출력할 수 있다.

여기서, M(n)은 n개의 샘플 시간에서 M개의 채널 신호에 대해 업믹싱을 수행하기 위한 행렬을 의미한다. 이 때, M(n)은 하기 수학식 9로 정의될 수 있다.

수학식 9에서

은 2x2 영행렬이며,

는 2x2 행렬로서 하기 수학식 10과 같이 정의될 수 있다.

여기서,

의 구성요소인

은 인코더로부터 전송된 공간큐로부터 도출될 수 있다. 인코더로부터 실제로 전송되는 공간큐는 프레임 단위인 b 인덱스마다 결정될 수 있으며, 샘플 단위로 적용되는

은 서로 이웃한 프레임간의 보간(interpolation)에 의해 결정될 수 있다.

은 MPS 방법에 따라 하기 수학식 11에 의해 결정될 수 있다.

수학식 11에서,

은 CLD로부터 도출될 수 있다. 그리고,

와

는 CLD와 ICC로부터 도출될 수 있다. 수학식 11은 MPS에 정의된 공간큐의 처리 방식에 따라 도출될 수 있다.

그리고 수학식 8에서, 연산자

는 벡터들의 각 요소들을 인터레이스(interlace)하여 새로운 백터 열을 생성하기 위한 연산자를 나타낸다. 수학식 8에서

은 하기 수학식 12에 따라 결정될 수 있다.

이러한 과정을 통해 수학식 8은 하기 수학식 13로 표현될 수 있다.

수학식 13에서, 입력 신호와 출력 신호의 처리 과정을 분명하게 나타내기 위해 { }가 사용되었다. 수학식 12에 의해서 M개의 채널 신호와 비상관성 신호는 서로 짝을 이루어서, 업믹싱 행렬인 수학식 13의 입력이 될 수 있다. 즉, 수학식 13에 의하면, M개의 채널 신호마다 비상관성 신호를 적용함으로써 업믹싱 과정에서의 음질의 왜곡이 최소화될 수 있고, 음장 효과도 최대한 원래 신호에 가깝게 생성될 수 있다.

위에서 설명한 수학식 13는 하기 수학식 14으로도 표현될 수 있다.

도 9를 참고하면, 제2 디코딩부(304)는 제1 디코딩부(303)로부터 전달된 M개의 채널 신호를 디코딩하여 N개의 채널 신호를 출력할 수 있다. 인코더에 입력된 N개의 채널 신호가 N'개의 채널 신호와 K개의 채널 신호로 구성되는 경우, 제2 디코딩부(304)도 인코더에서 처리한 결과를 반영하여 처리할 수 있다.

예를 들어서, 제2 디코딩부(304)에 입력되는 M개의 채널 신호가 수학식 5를 만족한다고 가정하면, 도 9와 같이 제2 디코딩부(304)는 복수의 지연부(903)들을 포함할 수 있다.

이 때, 수학식 5를 만족하는 M개의 채널 신호에 대해 N'가 홀수인 경우, 제2 디코딩부(304)는 도 9와 같은 구조를 가질 수 있다. 만약, 수학식 5를 만족하는 M개의 채널 신호에 대해 N'가 짝수인 경우, 도 9의 제2 디코딩부(304)에서 업믹싱부(902) 아래에 위치한 1개의 지연부(903)가 제외될 수 있다.

도 10을 참고하면, 제2 디코딩부(304)는 제1 디코딩부(303)로부터 전달된 M개의 채널 신호를 디코딩하여 N개의 채널 신호를 출력할 수 있다. 이 때, 도 10에 도시된 제2 디코딩부(304)에서 업믹싱부(1002)는 OTT(One-To-Two) 구조를 나타내는 복수의 신호 처리부(1003)들을 포함할 수 있다.

이 때, 복수의 신호 처리부(1003)들 각각은 M개의 채널 신호들 중 하나의 채널 신호와 비상관부(1001)에서 생성한 비상관성 신호를 이용하여 2개의 채널 신호를 생성할 수 있다. 업믹싱부(1002)에서 병렬 구조로 배치된 복수의 신호 처리부(1003)들은 N-1개의 채널 신호를 생성할 수 있다.

만약에, N이 짝수인 경우, 제2 디코딩부(304)에서 지연부(1004)는 제외될 수 있다. 그러면, 업믹싱부(1002)에서 병렬 구조로 배치된 복수의 신호 처리부(1003)들은 N개의 채널 신호를 생성할 수 있다.

신호 처리부(1003)는 수학식 14에 따라 업믹싱할 수 있다. 그리고, 모든 신호 처리부(1003)에서 수행되는 업믹싱 과정은 수학식 13와 같은 하나의 업믹싱 행렬로 표현될 수 있다.

도 11을 참고하면, 제1 인코딩부(301)는 TTO 구조의 복수의 다운믹싱부(1101)와 복수의 지연부(1102)를 포함할 수 있다. 그리고, 제2 인코딩부(302)는 복수의 USAC 인코더(1103)들을 포함할 수 있다. 한편, 제1 디코딩부(303)는 복수의 USAC 디코더(1106)를 포함할 수 있고, 제2 디코딩부(304)는 OTT 구조의 복수의 업믹싱부(304)와 복수의 지연부(1108)를 포함할 수 있다.

도 11을 참고하면, 제1 인코딩부(301)는 N개의 채널 신호를 이용하여 M개의 채널 신호를 출력할 수 있다. 이 때, M개의 채널 신호는 제2 인코딩부(302)에 입력될 수 있다. 이 때, M개의 채널 신호들 중에서 TTO 구조의 다운믹싱부(1101)를 거친 채널 신호의 쌍들은 제2 인코딩부(302)에 포함된 USAC 인코더(1103)에서 스테레오 형태로 인코딩될 수 있다.

그리고, M개의 채널 신호들 중에서 TTO 구조의 다운믹싱부(1101)를 거치지 않고 지연부(1102)를 거친 채널 신호는 USAC 인코더(1103)에서 모노 형태 또는 스테레오 형태로 인코딩될 수 있다. 다시 말해서, M개의 채널 신호들 중 지연부(1102)를 거친 1개의 채널 신호는 USAC 인코더(1103)에서 모노 형태로 인코딩될 수 있다. 그리고, M개의 채널 신호들 중 2개의 지연부(1102)를 거친 2개의 채널 신호는 USAC 인코더(1103)에서 스테레오 형태로 인코딩될 수 있다.

M개의 채널 신호는 제2 인코딩부(302)에서 인코딩되어 복수의 비트스트림들로 생성될 수 있다. 그리고, 복수의 비트스트림들은 다중화부(1104)를 통해 하나의 비트스트림으로 재포맷될 수 있다.

다중화부(1104)에서 생성된 비트스트림은 역다중화부(1104)에 전달되며, 역다중화부(1105)는 비트스트림을 제1 디코딩부(303)에 포함된 USAC 디코더(303)에 대응되는 복수의 비트스트림들로 역다중화할 수 있다.

역다중화된 복수의 비트스트림들은 제1 디코딩부(303)에 포함된 USAC 디코더(1106)에 각각 입력될 수 있다. 그리고, USAC 디코더(303)는 제2 인코딩부(302)에 포함된 USAC 인코더(1103)가 인코딩한 방식에 따라 디코딩할 수 있다. 그러면, 제1 디코딩부(303)는 복수의 비트스트림으로부터 M개의 채널 신호를 출력할 수 있다.

이후, 제2 디코딩부(304)는 M개의 채널 신호를 이용하여 N개의 채널 신호를 출력할 수 있다. 이 때, 제2 디코딩부(304)는 OTT 구조의 업믹싱부(1107)를 이용하여 입력된 M개의 채널 신호의 일부를 업믹싱할 수 있다. 구체적으로, M개의 채널 신호 중 하나의 채널 신호는 업믹싱부(1107)에 입력되고, 업믹싱부(1107)는 하나의 채널 신호와 비상관성 신호를 이용하여 2개의 채널 신호를 생성할 수 있다. 일례로, 업믹싱부(1107)는 수학식 14를 이용하여 2개의 채널 신호를 생성할 수 있다.

한편, 복수의 업믹싱부(1107)들 각각이 수학식 14에 대응하는 업믹싱 행렬을 이용하여 M번만큼 업믹싱을 수행함으로써, 제2 디코딩부(304)는 M개의 채널 신호를 생성할 수 있다. 그래서, 수학식 13는 수학식 14에 따른 업믹싱을 M번만큼 수행하여야 도출되는 것이므로, 수학식 13의 M은 제2 디코딩부(304)에 포함된 업믹싱부(1107)의 개수와 동일할 수 있다.

그리고, N개의 채널 신호들 중 제1 인코딩부(301)에서 TTO 구조의 다운믹싱부(1101)가 아닌 지연부(1102)에서 처리된 K개의 채널 신호들은 제2 디코딩부(304)에서 OTT 구조의 업믹싱부(1107)가 아닌 지연부(1108)에서 처리될 수 있다.

도 12는 일실시예에 따른 도 11을 간략하게 표현한 도면이다.

도 12를 참고하면, N개의 채널 신호는 2개씩 쌍을 이루어 제1 인코딩부(301)에 포함된 다운믹싱부(1201)에 입력될 수 있다. 다운믹싱부(1201)는 TTO 구조를 가지며, 2개의 채널 신호를 다운믹싱하여 1개의 채널 신호를 출력할 수 있다. 제1 인코딩부(301)는 병렬적으로 배치된 복수의 다운믹싱부(1201)를 이용하여 N개의 채널 신호로부터 M개의 채널 신호를 출력할 수 있다.

그러면, 제2 인코딩부(302)에 포함된 스테레오 타입의 USAC 인코더(1202)는 2개의 다운믹싱부(1201)에서 출력된 2개의 채널 신호를 인코딩하여 비트스트림을 생성할 수 있다.

그리고, 제1 디코딩부(303)에 포함된 스테레오 타입의 USAC 디코더(1203)는 비트스트림으로부터 M개의 채널 신호를 구성하는 2개의 채널 신호들을 출력할 수 있다. 출력된 2개의 채널 신호들은 각각 제2 디코딩부(304)에 포함된 OTT 구조를 나타내는 2개의 업믹싱부(1204)에 입력될 수 있다. 그러면, 업믹싱부(1204)는 1개의 채널 신호와 비상관성 신호를 이용하여 N개의 채널 신호를 구성하는 2개의 채널 신호들을 출력할 수 있다.

도 13에서 제2 인코딩부(302)에 포함된 USAC 인코더(1302)는 TTO 구조의 다운믹싱부(1303), SBR(Spectral Band Replication)부(1304) 및 코어 인코딩부(1305)를 포함할 수 있다.

제1 인코딩부(301)에 포함된 TTO 구조의 다운믹싱부(1301)는 N개의 채널 신호들 중 2개의 채널 신호들을 다운믹싱하여 M개의 채널 신호를 구성하는 1개의 채널 신호를 출력할 수 있다.

그러면, 제1 인코딩부(301)에 포함된 2개의 다운믹싱부(1301)에서 출력되는 2개의 채널 신호들은 USAC 인코더(1302)에 포함된 TTO 구조의 다운믹싱부(1303)에 입력될 수 있다. 다운믹싱부(1303)는 입력된 2개의 채널 신호들을 다운믹싱하여 1개의 채널 신호인 모노 신호를 생성할 수 있다.

다운믹싱부(1303)에서 생성된 모노 신호의 고주파수 대역에 대한 파라미터 인코딩을 위해 SBR부(1304)는 모노 신호에서 고주파수 대역을 제외하고 저주파수 대역만 추출할 수 있다. 그러면, 코어 인코딩부(1305)는 코어 대역에 해당하는 저주파수 대역의 모노 신호를 인코딩하여 비트스트림을 생성할 수 있다.

결론적으로, 본 발명의 일실시예에 의하면, N개의 채널 신호로부터 비트스트림을 생성하기 위해 TTO 형태의 다운믹싱 과정이 연속적으로 수행될 수 있다. 다시 말해서, TTO 구조의 다운믹싱부(1301)는 N개의 채널 신호들 중 스테레오 형태의 2개의 채널 신호를 다운믹싱할 수 있다. 그리고, 2개의 다운믹싱부(1301) 각각에서 출력된 채널 신호는 M개의 채널 신호의 일부로서, TTO 구조의 다운믹싱부(1303)에 입력될 수 있다. 즉, N개의 채널 신호들 중 4개의 채널 신호는 연속적으로 TTO 형태의 다운믹싱을 통해 1개의 채널 신호로 출력될 수 있다.

그리고, 제2 인코딩부(302)에서 생성된 비트스트림은 제1 디코딩부(302)의 USAC 디코더(1306)에 입력될 수 있다. 도 13에서 제2 인코딩부(302)에 포함된 USAC 디코더(1306)는 코어 디코딩부(1307), SBR부(1308), OTT 구조의 업믹싱부(1309)를 포함할 수 있다.

코어 디코딩부(1307)는 비트스트림을 이용하여 저주파수 대역에 대응하는 코어 대역의 모노 신호를 출력할 수 있다. 그러면, SBR부(1308)는 모노 신호의 저주파수 대역을 복사하여 고주파수 대역을 복원할 수 있다. 업믹싱부(1309)는 SBR부(1308)에서 출력된 모노 신호를 업믹싱하여 M개의 채널 신호를 구성하는 스테레오 신호를 생성할 수 있다.

그러면, 제2 디코딩부(304)에 포함된 OTT 구조의 업믹싱부(1310)는 제1 디코딩부(302)에서 생성한 스테레오 신호에 포함된 모노 신호를 업믹싱하여 스테레오 신호를 생성할 수 있다.

결론적으로, 본 발명의 일실시예에 의하면, 비트스트림으로부터 N개의 채널 신호를 생성하기 위해 OTT 형태의 업믹싱 과정이 연속적으로 수행될 수 있다. 다시 말해서, OTT 구조의 업믹싱부(1309)는 모노 신호를 업믹싱하여 스테레오 신호를 생성할 수 있다. 그리고, 업믹싱부(1309)의 출력 신호인 스테레오 신호를 구성하는 2개의 모노 신호는 OTT 구조의 업믹싱부(1310)에 입력될 수 있다. OTT 구조의 업믹싱부(1301)는 입력된 모노 신호를 업믹싱하여 스테레오 신호를 출력할 수 있다. 즉, 모노 신호를 연속적으로 OTT 형태의 업믹싱을 통해 4개의 채널 신호를 생성할 수 있다.

도 11의 제1 인코딩부와 제2 인코딩부가 결합되어 도 14에 도시된 바와 같이 하나의 인코딩부(1401)로 구현될 수 있다. 그리고, 도 11의 제1 디코딩부와 제2 디코딩부가 결합되어 도 14에 도시된 바와 같이 하나의 디코딩부(1402)로 구현된 결과를 나타낸다.

도 14의 인코딩부(1401)는 TTO 구조의 다운믹싱부(1405), SBR부(1406) 및 코어 인코딩부(1407)를 포함하는 USAC 인코더에 TTO 구조의 다운믹싱부(1404)를 추가로 포함하는 인코딩부(1403)를 포함할 수 있다. 이 때, 인코딩부(1401)는 병렬 구조로 배치된 복수의 인코딩부(1403)를 포함할 수 있다. 또는, 인코딩부(1403)는 TTO 구조의 다운믹싱부(1404)를 포함하는 USAC 인코더에 대응될 수 있다.

즉, 본 발명의 일실시예에 따르면, 인코딩부(1403)는 N개의 채널 신호들 중 4개의 채널 신호에 TTO 형태의 다운믹싱을 연속적으로 적용함으로써 모노 신호를 생성할 수 있다.

동일한 방식으로, 도 14의 디코딩부(1402)는 코어 디코딩부(1411), SBR부(1412) 및 OTT 구조의 업믹싱부(1413)를 포함하는 USAC 디코더에 OTT 구조의 업믹싱부(1404)를 추가로 포함하는 디코딩부(1410)를 포함할 수 있다. 이 때, 디코딩부(1402)는 병렬 구조로 배치된 복수의 디코딩부(1410)를 포함할 수 있다. 또는, 디코딩부(1410)는 OTT 구조의 업믹싱부(1404)를 포함하는 USAC 디코더에 대응될 수 있다.

즉, 본 발명의 일실시예에 따르면, 디코딩부(1410)는 모노 신호에 OTT 형태의 업믹싱을 연속적으로 적용함으로써 N개의 채널 신호들 중 4개의 채널 신호를 생성할 수 있다.

도 15는 일실시예에 따른 도 14를 간략하게 표현한 도면이다.

도 15에서 인코딩부(1501)는 도 14의 인코딩부(1403)에 대응될 수 있다. 여기서, 인코딩부(1501)는 수정된 USAC 인코더에 대응될 수 있다. 즉, 수정된 USAC 인코더는 TTO 구조의 다운믹싱부(1504), SBR부(1505) 및 코어 인코딩부(1506)를 포함하는 원래의 USAC 인코더에 TTO 구조의 다운믹싱부(1503)를 추가적으로 포함함으로써 구현될 수 있다.

그리고, 도 15에서 디코딩부(1502)는 도 14의 디코딩부(1410)에 대응될 수 있다. 여기서, 디코딩부(1502)는 수정된 USAC 디코더에 대응될 수 있다. 즉, 수정된 USAC 디코더는 코어 디코딩부(1507), SBR부(1508) 및 OTT 구조의 업믹싱부(1509)를 포함하는 원래의 USAC 디코더에 OTT 구조의 업믹싱부(1510)를 추가적으로 포함함으로써 구현될 수 있다.

QCE(Quadruple Channel Element) 모드는 USAC 3D 인코더가 4개의 채널 신호를 이용하여 2개의 CPE(Channel Prediction Element)를 생성하도록 하는 동작 모드를 의미할 수 있다. qceIndex라는 플래그를 통해 USAC 3D 인코더는 QCE 모드로 동작할 지 여부를 판단할 수 있다.

도 16을 참고하면, 스테레오 툴(tool)에 기초한 MPEG Surround인 MPS 2-1-2부(1601)은 수직 채널 쌍(Vertical Channel Pair)을 구성하는 Left Upper Channel과 Left Lower Channel을 결합할 수 있다. 구체적으로, MPS 2-1-2부(1601)은 Left Upper Channel과 Left Lower Channel을 다운믹싱하여 Downmix L을 생성할 수 있다. 만약에, MPS 2-1-2(1601)대신 Unified Stereo부(1601)가 사용되는 경우, Unified Stereo부(1601)는 Left Upper Channel과 Left Lower Channel을 다운믹싱하여 Downmix L 및 Residual L을 생성할 수 있다

동일하게, MPS 2-1-2부(1602)은 수직 채널 쌍을 구성하는 Right Upper Channel과 Right Lower Channel을 결합할 수 있다. 구체적으로, MPS 2-1-2부(1602)은 Right Upper Channel과 Right Lower Channel을 다운믹싱하여 Downmix R을 생성할 수 있다. 만약에, MPS 2-1-2부(1602)대신 Unified Stereo부(1602)가 사용되는 경우, Unified Stereo부(1602)는 Right Upper Channel과 Right Lower Channel을 다운믹싱하여 Downmix R 및 Residual R을 생성할 수 있다

그러면, Joint Stereo Encoding부(1605)는 Complex Stereo Prediction의 확률을 이용하여 Downmix L과 Downmix R을 결합할 수 있다. 동일한 방식으로, Joint Stereo Encoding부(1606)는 Complex Stereo Prediction의 확률을 이용하여 Residual L과 Residual R을 결합할 수 있다.

Stereo SBR부(1603)는 수평 채널 쌍(horizontal channel pair)을 구성하는 Left Upper Channel과 Right Upper Channel에 SBR을 적용할 수 있다. 마찬가지로, Stereo SBR부(1604)는 수평 채널 쌍을 구성하는 Left Lower Channel과 Right Lower Channel에 SBR을 적용할 수 있다.

도 16의 USAC 3D 인코더는 4개의 채널 신호인 Left Upper Channel, Right Upper Channel, Left Lower Channel 및 Right Lower Channel를 QCE 모드를 통해 인코딩할 수 있다. 구체적으로, 도 16의 USAC 3D 인코더는 Stereo SBR부(1603) 또는 Stereo SBR부(1605)를 적용하기 이전이나 이후에 제1 요소(element)의 제2 채널과 제2 요소의 제1 채널을 스와핑(swapping)함으로써 QCE 모드에 따라 인코딩할 수 있다.

또는, 도 16의 USAC 3D 인코더는 MPS 2-1-2부(1601)와 Joint Stereo Encoding부(1605)를 적용하기 이전이나 이후 또는 MPS 2-1-2부(1602)와 Joint Stereo Encoding부(1605)를 적용하기 이전이나 이후에 제1 요소(element)의 제2 채널과 제2 요소의 제1 채널을 스와핑(swapping)함으로써 QCE 모드에 따라 인코딩할 수 있다.

도 17은 도 16에서 설명한 사항을 도식화한 것이다. USAC 3D 인코더에 채널 신호 Ch_in_L_1, Ch_in_L_2, Ch_in_R_1 및 Ch_in_R_2가 입력된다고 가정한다. 도 17을 참고하면, 채널 신호 Ch_in_L_2는 스와핑되어 Stereo SBR부(1702)에 입력되고, 채널 신호 Ch_in_R_1는 스와핑되어 Stereo SBR부(1701)에 입력될 수 있다.

그러면, Stereo SBR부(1701)는 sbr_out_L_1와 sbr_out_R_1를 출력하고, Stereo SBR부(1702)는 sbr_out_L_2와 sbr_out_R_2를 출력할 수 있다. 그러면서, Stereo SBR부(1701)는 SBR Payload를 Bitstream Encoding부(1707)에 전달하고, Stereo SBR부(1702)는 SBR Payload를 Bitstream Encoding부(1708)에 전달할 수 있다.

그리고, Stereo SBR부(1702)에서 출력된 sbr_out_L_2는 스와핑되어 MPS 2-1-2부(1703)에 입력될 수 있다. 또한, Stereo SBR부(1701)에서 출력된 sbr_out_L_1는 MPS 2-1-2부(1703)에 입력될 수 있다. 한편, Stereo SBR부(1701)에서 출력된 sbr_out_R_1는 스와핑되어 MPS 2-1-2부(1704)에 입력될 수 있다. 또한, Stereo SBR부(1702)에서 출력된 sbr_out_R_2는 MPS 2-1-2부(1704)에 입력될 수 있다. 그리고, MPS 2-1-2부(1703)는 MPS Payload를 Bitstream Encoding부(1707)에 전달하고, MPS 2-1-2부(1704)는 MPS Payload를 Bitstream Encoding부(1708)에 전달할 수 있다. 도 17에서 MPS 2-1-2부(1703)는 Unified Stereo부(1703)로 대체되고, MPS 2-1-2부(1704)는 Unified Stereo부(1704)로 대체될 수 있다.

그리고, MPS 2-1-2부(1703)에서 출력된 mps_dmx_L은 Joint Stereo Encoding부(1705)에 입력될 수 있다. 한편, MPS 2-1-2부(1703)가 Unified Stereo부(1703)로 대체된 경우, Unified Stereo부(1703)에서 출력된 mps_dmx_L은 Joint Stereo Encoding부(1705)에 입력되고, mps_res_L은 스와핑되어 Joint Stereo Encoding부(1706)에 입력될 수 있다.

또한, MPS 2-1-2부(1704)에서 출력된 mps_dmx_R은 스와핑되어 Joint Stereo Encoding부(1705)에 입력될 수 있다. 한편, MPS 2-1-2부(1703)가 Unified Stereo부(1703)로 대체된 경우, Unified Stereo부(1703)에서 출력된 mps_dmx_R은 스와핑되어 Joint Stereo Encoding부(1705)에 입력되고, mps_res_R은 Joint Stereo Encoding부(1706)에 입력될 수 있다. 그리고, Joint Stereo Encoding부(1705)는 CplxPred Payload를 Bitstream Encoding부(1707)에 전달하고, Joint Stereo Encoding부(1706)는 CplxPred Payload를 Bitstream Encoding부(1708)에 전달할 수 있다.

MPS 2-1-2부(1703)와 MPS 2-1-2부(1704)는 TTO(Two-To-One) 구조를 통해 스테레오 신호를 다운믹싱하여 모노 신호를 출력할 수 있다.

Bitstream Encoding부(1707)는 Joint Stereo Encoding부(1705)에서 출력된 스테레오 신호를 인코딩하여 CPE1에 대응하는 비트스트림을 생성할 수 있다. 마찬가지로, Bitstream Encoding부(1708)는 Joint Stereo Encoding부(1706)에서 출력된 스테레오 신호를 인코딩하여 CPE2에 대응하는 비트스트림을 생성할 수 있다.

도 18에서 표현되고 있는 채널 신호들은 표 1과 같이 정의될 수 있다.

도 17에서 생성된 CPE1에 대응하는 비트스트림은 Bitstream Decoding부(1801)에 입력되고, CPE2에 대응하는 비트스트림은 Bitstream Decoding부(1802)에 입력된다고 가정한다.

QCE(Quadruple Channel Element) 모드는 USAC 3D 디코더가 2개의 연속적인 CPE(Channel Prediction Element)를 이용하여 4개의 채널 신호를 생성하도록 하는 동작 모드를 의미할 수 있다. 구체적으로, QCE 모드는 USAC 3D 디코더가 수평적으로(horizontally) 또는 수직적으로(vertically) 배분된 4개의 채널 신호를 보다 효율적으로 Joint Coding할 수 있도록 한다.

일례로, QCE는 2개의 연속적인 CPE(Channel Pair Element)로 구성되며, 수평적으로 Joint Stereo Coding를 결합하고, 수직적으로 MPEG Surround 기반의 스테레오 툴을 결합함으로써 생성될 수 있다. 그리고, QCE는 USAC 3D 디코더에 포함된 툴(Tool)들 간에 채널 신호를 스와핑함으로써 생성될 수 있다.

USAC 3D 디코더는 UsacChannelPairElementConfig()에 포함된 qceIndex라는 플래그를 통해 QCE 모드로 동작할 지 여부를 판단할 수 있다.

표 2에 표시된 qceIndex에 따라 USAC 3D 디코더가 다르게 동작할 수 있다.

그러면, Bitstream Decoding부(1801)는 비트스트림에 포함된 CplxPred Payload를 Joint Stereo Decoding부(1803)에 전달하고, SBR Payload를 MPS 2-1-2부(1805)에 전달하며, SBR payload를 Stereo SBR부(1807)에 전달할 수 있다. 그리고, Bitstream Decoding부(1801)는 비트스트림으로부터 스테레오 신호를 추출하여 Joint Stereo Decoding부(1803)에 전달할 수 있다.

마찬가지로, Bitstream Decoding부(1802)는 비트스트림에 포함된 CplxPred Payload를 Joint Stereo Decoding부(1804)에 전달하고, SBR Payload를 MPS 2-1-2부(1806)에 전달하며, SBR payload를 Stereo SBR부(1808)에 전달할 수 있다. 그리고, Bitstream Decoding부(1802)는 비트스트림으로부터 스테레오 신호를 추출할 수 있다.

Joint Stereo Decoding부(1803)는 스테레오 신호를 이용하여 cplx_out_dmx_L과 cplx_out_dmx_R을 생성할 수 있다. 그리고, Joint Stereo Decoding부(1804)는 스테레오 신호를 이용하여 cplx_out_res_L과 cplx_out_res_R을 생성할 수 있다.

Joint Stereo Decoding부(1803)와 Joint Stereo Decoding부(1804)는 Complex Stereo Prediction의 확률을 이용하여 MDCT 도메인에서 Joint Stereo에 따라 디코딩할 수 있다. Complex Stereo Prediction은 레벨 또는 위상 차이를 가지는 2개의 채널 신호 쌍을 효율적으로 코딩하기 위한 툴이다. 왼쪽 채널과 오른쪽 채널은 하기 수학식 15에 도시된 행렬에 따라 재구성될 수 있다.

여기서, a는 복소화(complex-valued)된 파라미터를 의미하고,

는 다운믹싱된 채널 신호인

의 MDCT에 대응하는 MDST를 의미한다. res는 Complex Stereo Prediction을 통해 도출된 잔차 신호를 의미한다.

Joint Stereo Decoding부(1803)로부터 생성된 cplx_out_dmx_L은 MPS 2-1-2부(1805)에 입력될 수 있다. 그리고, Joint Stereo Decoding부(1803)로부터 생성된 cplx_out_dmx_R은 스와핑되어 MPS 2-1-2부(1806)에 입력될 수 있다.

MPS 2-1-2부(1805)와 MPS 2-1-2부(1806)는 스테레오 기반의 MPEG Surround에 관한 것으로, 잔차 신호를 이용하지 않고 모노 신호와 비상관성 신호를 이용하여 QMF 도메인에서 스테레오 신호를 출력할 수 있다. Unified Stereo부(1805)와 Unified Stereo부(1806)는 스테레오 기반의 MPEG Surround에 모노 신호와 잔차 신호를 이용하여 QMF 도메인에서 스테레오 신호를 출력할 수 있다.

MPS 2-1-2부(1805)와 MPS 2-1-2부(1806)는 OTT(One-To-Two) 구조를 통해 모노 신호를 업믹싱하여 2개의 채널 신호로 구성된 스테레오 신호를 출력할 수 있다.

한편, MPS 2-1-2부(1805)가 Unified Stereo부(1805)로 대체되는 경우, Joint Stereo Decoding부(1803)로부터 생성된 cplx_out_dmx_L은 Unified Stereo부(1805)에 입력되고, Joint Stereo Decoding부(1804)로부터 생성된 cplx_out_res_L은 스와핑되어 Unified Stereo부(1805)에 입력될 수 있다.

동일한 방식으로, 한편, MPS 2-1-2부(1806)가 Unified Stereo부(1806)로 대체되는 경우, Joint Stereo Decoding부(1803)로부터 생성된 cplx_out_dmx_R은 스와핑되어 Unified Stereo부(1806)에 입력되고, Joint Stereo Decoding부(1804)로부터 생성된 cplx_out_res_R은 Unified Stereo부(1806)에 입력될 수 있다. Joint Stereo Decoding부(1803)와 Joint Stereo Decoding부(1804)는 코어 디코딩을 통해 저주파수 대역에 대응하는 코어 대역의 다운믹싱 신호를 출력할 수 있다.

즉, MPEG Surround 방식에 따라 디코딩되기 전에 제1 요소의 제2 채널에 대응하는 cplx_out_dmx_R과 제2 요소의 제1 채널에 대응하는 cplx_out_res_L은 스와핑될 수 있다.

그리고, MPS 2-1-2부(1805) 또는 Unified Stereo부(1805)에서 출력된 mps_out_L_1은 Stereo SBR부(1807)에 입력되고, MPS 2-1-2부(1806) 또는 Unified Stereo부(1806)에서 출력된 mps_out_R_1은 스와핑되어 Stereo SBR부(1807)에 입력될 수 있다. 마찬가지로, MPS 2-1-2부(1805) 또는 Unified Stereo부(1805)에서 출력된 mps_out_L_2은 스와핑되어 Stereo SBR부(1808)에 입력되고, MPS 2-1-2부(1806) 또는 Unified Stereo부(1806)에서 출력된 mps_out_R_2는 Stereo SBR부(1808)에 입력될 수 있다.

그런 후에, Stereo SBR(1807)은 mps_out_L_1과 mps_out_R_1을 이용하여 sbr_out_L_1과 sbr_out_R_1을 출력할 수 있다. 그리고, Stereo SBR(1808)은 mps_out_L_2과 mps_out_R_2을 이용하여 sbr_out_L_2과 sbr_out_R_2을 출력할 수 있다. 여기서, sbr_out_R_1과 mps_out_L_2는 스와핑되어 다른 구성 요소에 입력될 수 있다.

도 19는 일실시예에 따른 도 18을 간략하게 표현한 도면이다.

도 18에서 Stereo Decoding부(1804)가 cplx_out_res_L과 cplx_out_res_R을 생성하지 않고, Stereo SBR부(1807)와 Stereo SBR부(1808)가 사용되지 않는 경우, 도 18은 도 19와 같이 간략화될 수 있다. 여기서, Stereo Decoding부(1804)가 cplx_out_res_L과 cplx_out_res_R을 생성하지 않는 경우는 USAC 3D 인코더인 도 17에서 Unified Stereo부(1703)와 Unified Stereo부(1704)가 아닌 MPS 2-1-2부(1703)와 MPS 2-1-2부(1704)가 사용된 것을 의미한다. 그리고, 도 18에서 Stereo SBR부(1807)와 Stereo SBR부(1808)는 디코딩 모드에 따라 enable 또는 disable될 수 있다.

그러면, Bitstream Decoding부(1901)는 비트스트림으로부터 스테레오 신호를 생성할 수 있다. Joint Stereo Decoding부(1902)는 스테레오 신호를 이용하여 cplx_out_dmx_L과 cplx_out_dmx_R를 출력할 수 있다. 그러면, cplx_out_dmx_L은 MPS 2-1-2부(1903)에 입력되고, cplx_out_dmx_R는 스와핑되어 MPS 2-1-2부(1904)에 입력될 수 있다. MPS 2-1-2부(1903)는 cplx_out_dmx_L를 업믹싱하여 스테레오 신호인 mps_out_L_1과 mps_out_L_2를 생성할 수 있다. 한편, MPS 2-1-2부(1903)는 cplx_out_dmx_R을 업믹싱하여 스테레오 신호인 mps_out_R_1과 mps_out_R_2를 생성할 수 있다.

도 20은 도 19와 달리 Joint Stereo Decoding부(1902)가 MPS 2-1-2부(2002)로 대체된 것을 도시한다. 실제로 비트스트림의 비트레이트가 미리 설정된 비트레이트보다 높은 경우, USAC 3D 디코더는 도 19와 같이 동작할 수 있다. 하지만, 비트스트림의 비트레이트가 미리 설정된 비트레이트보다 낮은 경우, USAC 3D 디코더는 도 20과 같이 동작할 수 있다.

도 18에서 설명한 바와 같이, MPS 2-1-2부(2002), MPS 2-1-2부(2003) 및 MPS 2-1-2부(2004)는 OTT(One-To-Two) 구조로서 입력된 모노 신호를 업믹싱하여 2개의 채널 신호로 구성된 스테레오 신호를 출력할 수 있다.

그러면, 도 20의 경우, MPS 2-1-2부(2002) 및 MPS 2-1-2부(2003)의 동작은 도 14 및 도 15에서 도시된 바와 같이 OTT 형태의 업믹싱 과정이 연속적으로 수행되는 것에 대응될 수 있다. 마찬가지로, MPS 2-1-2부(2002) 및 MPS 2-1-2부(2004)의 동작도 OTT 형태의 업믹싱 과정이 연속적으로 수행되는 것에 대응될 수 있다.

결론적으로, 도 18에서 비트스트림의 비트레이트가 미리 설정된 비트레이트보다 낮고 잔차 신호가 생성되지 않으며, Stereo SBR이 Disable되는 경우, QPE 모드로 동작하는 도 18의 USAC 3D 디코더는 도 13 내지 도 15에서 설명된 바와 같이 OTT 형태의 업믹싱 과정을 연속적으로 수행하는 것과 동일한 결과를 도출할 수 있다. 다시 말해서, QPE 모드로 동작하는 도 18의 USAC 3D 디코더는 모노 신호에 OTT 형태의 업믹싱을 연속적으로 적용함으로써 최종적으로 생성하고자 하는 N개의 채널 신호들 중 4개의 채널 신호(mps_out_L_1, mps_out_L_2, mps_out_R_1 및 mps_out_R_2)를 생성할 수 있다.

본 발명의 또 다른 실시예에 따른 다채널 신호의 디코더는 채널 쌍 요소를 디코딩함으로써 제1 다운믹싱 신호와 제2 다운믹싱 신호를 출력하는 스테레오 디코딩부; 제1 다운믹싱 신호를 업믹싱함으로써 제1 업믹스 신호 및 제2 업믹스 신호를 출력하는 제1 업믹싱부; 및 스와핑된 제2 다운믹싱 신호를 업믹싱함으로써 제3 업믹스 신호 및 제4 업믹스 신호를 출력하는 제2 업믹싱부를 포함할 수 있다.

그리고, 본 발명의 일실시예들은 다음과 같은 구성을 포함할 수 있다.

일실시예에 따른 다채널 신호의 인코딩 방법은 N 개의 채널 신호를 인코딩하여 M 개의 채널 신호와 부가 정보를 생성하는 단계; 및 상기 M 개의 채널 신호를 인코딩하여 비트스트림을 출력하는 단계를 포함할 수 있다.

상기 다채널 신호의 인코딩 방법에 있어서, 상기 N이 짝수인 경우, 상기 M은 N/2일 수 있다.

상기 다채널 신호의 인코딩 방법에 있어서, 상기 N 개의 채널 신호를 인코딩하여 M 개의 채널 신호와 부가 정보를 생성하는 단계는, N 개의 채널 신호를 2개의 채널 신호들로 그룹화하는 단계; 및 그룹화된 2개의 채널 신호들을 각각 1개의 채널 신호로 다운믹싱하여 상기 M 개의 채널 신호를 출력하는 단계를 포함할 수 있다.

상기 다채널 신호의 인코딩 방법에 있어서, 상기 부가 정보는, N개의 채널 신호를 다운믹싱함으로써 생성되는 공간큐를 포함할 수 있다.

상기 다채널 신호의 인코딩 방법에 있어서, 상기 N이 홀수인 경우, 상기 M은 (N-1)/2+1일 수 있다.

상기 다채널 신호의 인코딩 방법에 있어서, 상기 N 개의 채널 신호를 인코딩하여 M 개의 채널 신호와 부가 정보를 생성하는 단계는, N 개의 채널 신호를 2개의 채널 신호들로 그룹화하는 단계; 그룹화된 2개의 채널 신호들을 각각 1개의 채널 신호로 다운믹싱하여 (N-1)/2 채널의 채널 신호를 출력하는 단계; 및 N 개의 채널 신호 중 그룹화되지 않은 채널 신호를 지연시키는 단계를 포함할 수 있다.

상기 다채널 신호의 인코딩 방법에 있어서, 그룹화되지 않은 채널 신호를 지연시키는 단계는; 그룹화된 2개의 채널 신호들을 각각 1개의 채널 신호로 다운믹싱하여 (N-1)/2 채널의 채널 신호를 출력할 때 발생된 지연 시간을 고려하여 그룹화되지 않은 채널 신호를 지연시킬 수 있다.

상기 다채널 신호의 인코딩 방법에 있어서, 상기 N이 N'+K이고 N'이 짝수인 경우, 상기 M은 N'/2+K일 수 있다.

상기 다채널 신호의 인코딩 방법에 있어서, N' 개의 채널 신호를 2개의 채널 신호들로 그룹화하는 단계; 그룹화된 2개의 채널 신호들을 다운믹싱하여 N'/2 채널의 채널 신호를 출력하는 단계; 그룹화되지 않은 K 개의 채널 신호를 지연시키는 단계를 포함할 수 있다.

상기 다채널 신호의 인코딩 방법에 있어서, 상기 N이 N'+K이고 N'이 홀수인 경우, 상기 M은 M은 (N'-1)/2+1+K일 수 있다.

상기 다채널 신호의 인코딩 방법에 있어서, N' 개의 채널 신호를 2개의 채널 신호들로 그룹화하는 단계; 그룹화된 2개의 채널 신호들을 다운믹싱하여 (N'-1)/2 채널의 채널 신호를 출력하는 단계; 그룹화되지 않은 채널 신호와 K 개의 채널 신호를 지연시키는 단계를 포함할 수 있다.

일실시예에 따른 다채널 신호의 디코딩 방법은 비트스트림에서 M 개의 채널 신호와 부가 정보를 디코딩하는 단계; 상기 M 개의 채널 신호와 부가 정보를 이용하여 N 개의 채널 신호를 출력하는 단계를 포함할 수 있다.

상기 다채널 신호의 디코딩 방법에 있어서, 상기 N이 짝수인 경우, 상기 N은 M*2일 수 있다.

상기 다채널 신호의 디코딩 방법에 있어서, 상기 N개의 채널 신호를 출력하는 단계는 상기 M 개의 채널 신호를 이용하여 M 개의 비상관성 신호를 생성하는 단계; 및 상기 부가 정보, M 개의 채널 신호 및 상기 M 개의 비상관성 신호를 업믹싱하여 N 개의 채널 신호를 출력하는 단계를 포함할 수 있다.

상기 다채널 신호의 디코딩 방법에 있어서, 상기 N이 홀수인 경우, 상기 N은 (M-1)*2+1일 수 있다.

상기 N개의 채널 신호를 출력하는 단계는, 상기 M 개의 채널 신호 중 1개의 채널 신호를 지연시키는 단계; 상기 M 개의 채널 신호 중 지연되지 않은 (M-1) 개의 채널 신호를 이용하여 (M-1) 개의 비상관성 신호를 생성하는 단계; 및 부가 정보로 상기 (M-1) 개의 채널 신호와 상기 (M-1) 개의 비상관성 신호를 업믹싱하여 (M-1)*2 개의 채널 신호를 출력하는 단계를 포함할 수 있다.

상기 M 개의 채널 신호와 부가 정보를 디코딩하는 단계는, 상기 N이 N'+K인 경우, 디코딩한 M 개의 채널 신호를 K 개의 채널 신호들과 나머지 채널 신호들로 그룹화할 수 있다.

일실시예에 따른 다채널 신호의 인코더는 다채널 신호의 인코딩 방법은 N 개의 채널 신호를 인코딩하여 M 개의 채널 신호와 부가 정보를 생성하는 제1 인코딩부 및 상기 M 개의 채널 신호를 인코딩하여 비트스트림을 출력하는 제2 인코딩부를 포함할 수 있다.

일실시예에 따른 다채널 신호의 디코더는 비트스트림에서 M 개의 채널 신호와 부가 정보를 디코딩하는 제1 디코딩부; 상기 M 개의 채널 신호와 부가 정보를 이용하여 N 개의 채널 신호를 출력하는 제2 디코딩부를 포함할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

TTO(Two-To-One) 방식의 제1 다운믹싱부 및 제2 다운믹싱부를 이용하여 4개의 채널 신호를 다운믹싱함으로써 제1 채널 신호와 제2 채널 신호를 출력하는 단계;

상기 제1 채널 신호와 제2 채널 신호를 TTO 방식의 제3 다운믹싱부를 이용하여 다운믹싱함으로써 제3 채널 신호를 출력하는 단계; 및

상기 제3 채널 신호를 인코딩하여 비트스트림을 생성하는 단계

를 포함하는 다채널 신호의 인코딩 방법.
제1항에 있어서,

상기 제1 채널 신호와 제2 채널 신호를 출력하는 단계는,

상기 4개의 채널 신호를 구성하는 채널 신호의 쌍을 병렬적으로 배치된 TTO 방식의 제1 다운믹싱부와 제2 다운믹싱부를 이용하여 다운믹싱함으로써 제1 채널 신호와 제2 채널 신호를 출력하는 다채널 신호의 인코딩 방법.
제1항에 있어서,

상기 비트스트림을 생성하는 단계는,

상기 제3 채널 신호의 고주파수 대역을 제거하여 저주파수 대역에 대응하는 코어 대역을 추출하는 단계; 및

상기 제3 채널 신호의 코어 대역을 인코딩하는 단계

를 포함하는 다채널 신호의 인코딩 방법.
TTO(Two-To-One) 방식의 제1 다운믹싱부를 이용하여 2개의 채널 신호를 다운믹싱함으로써 제1 채널 신호를 생성하는 단계;

TTO 방식의 제2 다운믹싱부를 이용하여 2개의 채널 신호를 다운믹싱함으로써 제2 채널 신호를 생성하는 단계; 및

상기 제1 채널 신호와 제2 채널 신호를 스테레오 인코딩하는 단계

를 포함하는 다채널 신호의 인코딩 방법.
제4항에 있어서,

상기 제1 다운믹싱부에서 다운믹싱되는 2개의 채널 신호 중 하나의 채널 신호와 상기 제2 다운믹싱부에서 다운믹싱되는 2개의 채널 신호 중 하나의 채널 신호는 스와핑된 채널 신호인 다채널 신호의 인코딩 방법.
제4항에 있어서,

상기 제1 채널 신호 및 제2 채널 신호 중 어느 하나는, 스와핑된 채널 신호인 다채널 신호의 인코딩 방법.
제4항에 있어서,

상기 제1 다운믹싱부가 다운믹싱하는 2개의 채널 신호 중 하나의 채널 신호는 제1 스테레오 SBR부에서 생성되고, 다른 하나의 채널 신호는 제2 스테레오 SBR부에서 생성되며,

상기 제2 다운믹싱부가 다운믹싱하는 2개의 채널 신호 중 하나의 채널 신호는 제1 스테레오 SBR부에서 생성되고, 다른 하나의 채널 신호는 제2 스테레오 SBR부에서 생성되는 다채널 신호의 인코딩 방법.
비트스트림을 디코딩하여 제1 채널 신호를 추출하는 단계;

OTT(One-To-Two) 방식의 제1 업믹싱부를 이용하여 상기 제1 채널 신호를 업믹싱함으로써 제2 채널 신호와 제3 채널 신호를 출력하는 단계;

OTT 방식의 제2 업믹싱부를 이용하여 상기 제2 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계; 및

OTT 방식의 제3 업믹싱부를 이용하여 상기 제3 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계

를 포함하는 다채널 신호의 디코딩 방법.
제8항에 있어서,

상기 제2 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계는,

상기 제2 채널 신호에 대응하는 비상관성 신호를 이용하여 상기 제2 채널 신호를 업믹싱하고,

상기 제3 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 단계는,

상기 제3 채널 신호에 대응하는 비상관성 신호를 이용하여 상기 제3 채널 신호를 업믹싱하는 다채널 신호의 디코딩 방법.
제9항에 있어서,

상기 OTT 방식의 제2 업믹싱부와 상기 OTT 방식의 제3 업믹싱부는, 병렬적으로 배치되어 독립적으로 업믹싱을 수행하는 다채널 신호의 디코딩 방법.
제9항에 있어서,

상기 비트스트림을 디코딩하여 제1 채널 신호를 추출하는 단계는,

상기 비트스트림을 디코딩하여 저주파수 대역에 대응하는 코어 대역의 제1 채널 신호를 복원하는 단계; 및

상기 제1 채널 신호의 코어 대역을 확장하여 제1 채널 신호의 고주파수 대역을 복원하는 단계

를 포함하는 다채널 신호의 디코딩 방법.
비트스트림을 디코딩하여 모노 신호를 복원하는 단계;

모노 신호를 OTT 방식으로 업믹싱함으로써 스테레오 신호를 출력하는 단계; 및

상기 스테레오 신호를 구성하는 제1 채널 신호와 제2 채널 신호를 각각 병렬적인 OTT 방식으로 업믹싱함으로써 4개의 채널 신호를 출력하는 단계

를 포함하는 다채널 신호의 디코딩 방법.
제12항에 있어서,

상기 4개의 채널 신호를 출력하는 단계는,

상기 제1 채널 신호 및 상기 제1 채널 신호에 대응하는 비상관성 신호를 이용하여 OTT 방식으로 업믹싱하고, 상기 제2 채널 신호 및 상기 제2 채널 신호에 대응하는 비상관성 신호를 이용하여 OTT 방식으로 업믹싱함으로써 4개의 채널 신호를 출력하는 다채널 신호의 디코딩 방법.
스테레오 디코딩부를 이용하여 채널 쌍 요소를 디코딩함으로써 제1 다운믹스 신호와 제2 다운믹스 신호를 출력하는 단계;

제1 업믹싱부를 이용하여 제1 다운믹스 신호를 업믹싱함으로써 제1 업믹스 신호 및 제2 업믹스 신호를 출력하는 단계;

제2 업믹싱부를 이용하여 스와핑된 제2 다운믹스 신호를 업믹싱함으로써 제3 업믹스 신호 및 제4 업믹스 신호를 출력하는 단계

를 포함하는 다채널 신호의 디코딩 방법.
제14항에 있어서,

제1 대역 확장부를 이용하여 제1 업믹스 신호 및 스와핑된 제3 업믹스 신호의 고주파수 대역을 복원하는 단계; 및

제2 대역 확장부를 이용하여 스와핑된 제2 업믹스 신호 및 제4 업믹스 신호의 고주파수 대역을 복원하는 단계

를 더 포함하는 다채널 신호의 디코딩 방법.
제1 스테레오 디코딩부를 이용하여 제1 채널 쌍 요소를 디코딩함으로써 제1 다운믹스 신호와 제2 다운믹스 신호를 출력하는 단계;

제2 스테레오 디코딩부를 이용하여 제2 채널 쌍 요소를 디코딩함으로써 제1 잔차 신호와 제2 잔차 신호를 출력하는 단계;

제1 업믹싱부를 이용하여 제1 다운믹스 신호 및 스와핑된 제1 잔차 신호를 업믹싱함으로써 제1 업믹스 신호 및 제2 업믹스 신호를 출력하는 단계; 및

제2 업믹싱부를 이용하여 스와핑된 제2 다운믹스 신호와 제2 잔차 신호를 업믹싱함으로써 제3 업믹스 신호 및 제4 업믹스 신호를 출력하는 단계

를 포함하는 다채널 신호의 디코딩 방법.
4개의 채널 신호 중 2개의 채널 신호의 쌍을 TTO 방식으로 다운믹싱하여 제1 채널 신호를 출력하는 제1 다운믹싱부;

상기 4개의 채널 신호 중 나머지 2개의 채널 신호의 쌍을 TTO 방식으로 다운믹싱하여 제2 채널 신호를 출력하는 제2 다운믹싱부;

상기 제1 채널 신호와 제2 채널 신호를 TTO 방식으로 다운믹싱하여 제3 채널 신호를 출력하는 제3 다운믹싱부; 및

상기 제3 채널 신호를 인코딩하여 비트스트림을 생성하는 인코딩부

를 포함하는 다채널 신호의 인코더.
비트스트림을 디코딩하여 제1 채널 신호를 추출하는 디코딩부;

상기 제1 채널 신호를 OTT(One-To-Two) 방식으로 업믹싱함으로써 제2 채널 신호와 제3 채널 신호를 출력하는 제1 업믹싱부

상기 제2 채널 신호를 OTT 방식으로 업믹싱함으로써 2개의 채널 신호를 출력하는 제2 업믹싱부; 및

상기 제3 채널 신호를 OTT 방식으로 업믹싱함으로써 2개의 채널 신호를 출력하는 제3 업믹싱부

를 포함하는 다채널 신호의 디코더.
비트스트림을 디코딩하여 모노 신호를 복원하는 디코딩부;

모노 신호를 OTT 방식으로 업믹싱함으로써 스테레오 신호를 출력하는 제1 업믹싱부; 및

상기 스테레오 신호를 구성하는 제1 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 제2 업믹싱부;

상기 스테레오 신호를 구성하는 제2 채널 신호를 업믹싱함으로써 2개의 채널 신호를 출력하는 제3 업믹싱부

를 포함하고,

상기 제2 업믹싱부와 제3 업믹싱부는,

병렬적으로 배치되어 OTT 방식으로 제1 채널 신호와 제2 채널 신호를 업믹싱함으로써 4개의 채널 신호를 출력하는 다채널 신호의 디코더.
채널 쌍 요소를 디코딩함으로써 제1 다운믹스 신호와 제2 다운믹스 신호를 출력하는 스테레오 디코딩부;

제1 다운믹스 신호를 업믹싱함으로써 제1 업믹스 신호 및 제2 업믹스 신호를 출력하는 제1 업믹싱부; 및

스와핑된 제2 다운믹스 신호를 업믹싱함으로써 제3 업믹스 신호 및 제4 업믹스 신호를 출력하는 제2 업믹싱부

를 포함하는 다채널 신호의 디코더.