KR20150040997A

KR20150040997A - 멀티채널 다운믹스/업믹스 케이스들에 대해 매개변수 개념을 이용한 멀티-인스턴스 공간-오디오-오브젝트-코딩을 위한 디코더 및 방법

Info

Publication number: KR20150040997A
Application number: KR1020157005399A
Authority: KR
Inventors: 토르스텐 카스트너; 위르겐 헤레; 레온 테렌티브; 올리버 헬무트
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2012-08-03
Filing date: 2013-08-05
Publication date: 2015-04-15
Also published as: US10176812B2; BR112015002367A2; CN104756186A; AU2013298462B2; AU2013298462A1; KR101660004B1; CA2880891A1; JP2015527611A; MX351687B; ES2654792T3; JP6141978B2; CA2880891C; RU2604337C2; EP2880653B1; MX2015001514A; RU2015107245A; WO2014020181A1; EP2880653A1; US20150149187A1; BR112015002367B1

Abstract

다운믹스 신호들이 세개 이상의 오디오 오브젝트 신호들을 인코딩하는, 세개 이상의 다운믹스 채널들을 포함하는 다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 발생시키는 디코더가 제공된다. 상기 디코더는 부가 정보를 수신하기 위한 그리고 세개 이상의 다운믹스 채널들을 수신하기 위한 입력 채널 라우터(110) 및 상기 하나 이상의 오디오 출력 채널들을 얻기 위해 적어도 두개의 처리된 채널들을 발생시키기 위한 적어도 두개의 채널 처리 유닛들(121, 122)을 포함한다. 상기 입력 채널 라우터(110)는, 적어도 두개의 채널 처리 유닛들이 세개 이상의 다운믹스 채널들 중 하나 이상을 수신하도록, 그리고 적어도 두개의 채널 처리 유닛들(121, 122)이 세개 이상의 다운믹스 채널들의 전체 숫자보다 적게 수신하도록, 적어도 두개의 채널 처리 유닛 (121, 122) 중 적어도 하나에 세개 이상의 다운믹스 채널들 중 적어도 두개를 각각 입력하도록 구성된다. 적어도 두개의 채널 처리 유닛들(121, 122)의 각 채널 처리 유닛은 상기 부가 정보에 기반하여 그리고 상기 입력 채널 라우터 (110)으로부터 상기 채널 처리 유닛에 의해 수신되는 세개 이상의 다운믹스 채널들의 적어도 두개 중 하나 이상에 기반하여 적어도 두개의 처리 채널들 중 하나 이상을 발생시키도록 구성된다.

Description

멀티채널 다운믹스/업믹스 케이스들에 대해 매개변수 개념을 이용한 멀티-인스턴스 공간-오디오-오브젝트-코딩을 위한 디코더 및 방법{DECODER AND METHOD FOR MULTI-INSTANCE SPATIAL-AUDIO-OBJECT-CODING EMPLOYING A PARAMETRIC CONCEPT FOR MULTICHANNEL DOWNMIX/UPMIX CASES}

본 발명은 멀티채널 다운믹스/업믹스 케이스들에 대한 매개변수 개념을 이용한 멀티-인스턴스 공간-오디오-오브젝트-코딩(M-SAOC)를 위한 디코더 및 방법에 관련된다.

현대 디지털 오디오 시스템들에서, 리시버(receiver) 측면에서 전송되는 컨텐츠의 오디오-오브젝트 관련 변형을 허용하는 것이 주요한 트렌드이다. 이러한 변형은 공간적으로 배치된 스피커들을 통해 멀티-채널 재생의 경우에 전용 오디오 오브젝트들(dedicated audio objects)의 공간적 재배치 및/또는 오디오 신호의 선택적 부분의 이득 변형을 포함한다. 이는 상이한 스피커들에 대한 오디오 컨텐츠의 상이한 부분들을 개별적으로 전달하는 것에 의해 달성될 수 있다.

다른 말로, 오디오 프로세싱, 오디오 전송, 및 오디오 저장기술에서, 오브젝트-지향 오디오 컨텐츠 재생에서의 유저 상호작용을 허용하는 증가된 요구가 있었고 또한 청취 인상을 향상시키기 위해 거기에 부분들 또는 오디오 컨텐츠들을 개별적으로 수정하기 위해 멀티-채널 재생의 확장된 가능성들을 활용하는 요구가 있다. 이에 의해, 멀티-채널 오디오 컨텐츠의 활용은 사용자(유저)들에게 상당한 향상을 가져온다. 예를 들어, 삼차원 청취 인상이 얻어질 수 있고, 이는 엔터테인먼트 응용에서 향상된 사용자 만족감을 가져온다. 그러나, 멀티-채널 오디오 컨텐츠는, 멀티-채널 오디오 재생을 이용하여 화자(talker) 이해도(intelligibility)가 향상될 수 있기 때문에, 예를 들어, 텔레폰 컨퍼런스 응용에서 전문적인 환경에서도 유용하다. 또다른 가능한 응용은 ("오디오 오브젝트들"이라는 용어처럼) 상이한 파트들 또는 트랙들, 보컬 파트 또는 상이한 인스트루먼트들처럼, 공간적 위치 및/또는 재생 레벨을 개별적으로 적용하기 위한 음악적 조각(musical piece)의 청취자들에게 제공하기 위한 것이다. 사용자는, 교육적 목적, 가라오케, 리허설, 등등을 위해, 음악적 조각으로부터 하나 이상의 부분(들)을 더 쉽게 기록하기 위해, 개인적 취향의 이유를 위한 그런 조정을 수행할 수 있다.

예를 들어, 펄스 코드 변조 (PCM) 데이터 또는 더 압축된 오디오 포맷들의 형태로, 멀티-오브젝트 오디오 컨텐츠 또는 모든 디지털 멀티-채널의 간단한 개별 전송은 아주 높은 비트레이트(bitrates)를 요구한다. 그러나, 비트레이트에서 오디오 데이터를 효율적인 방법으로 전송하고 저장하는 것이 더 바람직하다. 그래서, 하나는 멀티-채널/멀티-오브젝트 응용들에 의해 야기되는 과도한 리소스 로드를 피하기 위해 비트레이트 및 오디오 품질 요구 사이에서 합리적인 균형을 유지하는 것(tradeoff)을 기꺼이 수용할 것이다.

매개변수 오디오 오브젝트 코딩 설계들은 두개의 다운믹스 채널들의 최대치에 현재 제한된다. 그것들은 멀티-채널 믹스쳐들로 어느정도 확장되어 적용될 수 있고, 예를 들어 오직 두개의 선택된 다운믹스 채널들에 대해서이다. 유연한 이러한 코딩 설계들은, 예를 들어, 스포츠 방송 환경에서 스포츠 해설의 변화하는 오디오 레벨에 있어서, 그/그녀 자신의 선호도가 상당히 제한되는 오디오 장면을 조정하는 것을 유저에게 제공한다.

게다가, 현재 오디오 오브젝트 코딩 설계들은 인코더 측면에서 믹싱 처리에서 제한된 다양성만을 제공한다. 상기 믹싱 처리는 오디오 오브젝트들의 시간-변환 믹싱에 제한되며; 그리고 주파수-변화 믹싱은 불가능하다.

그래서 오디오 오브젝트 코딩을 위한 향상된 개념들이 제공된다면 이는 굉장히 바람직할 것이다.

현재 발명의 목표는 오디오 오브젝트 코딩을 위한 향상된 개념들을 제공하는 것이다. 본 발명의 목표는 청구항 1에 따른 디코더, 청구항 16에 따른 방법 및 청구항 17에 따른 컴퓨터 프로그램에 의해 해결된다.

믹싱 처리에서 더 큰 유연성은 신호 오브젝트 특성들의 최적 이용을 허용한다. 다운믹스는 인식 품질에 관한 디코더 측면에서의 매개변수 분리를 위해 최적화되는 것이 생성될 수 있다.

실시예들은 다운믹스/업믹스 채널들의 임의의 숫자에 SAOC 설계의 매개변수 부분을 확장한다. 발명의 방법은 오디오 오브젝트들의 완전히 유연한 믹싱을 더 허용한다.

도 1은 하나의 실시예에 따른 오디오 출력 신호를 발생시키는 디코더이다.
도 2는 MPEG SAOC 의 예를 이용한 그러한 시스템의 원리를 설명하는 SAOC 시스템 개요이다.
도 3은 하나의 실시예에 따라 멀티-채널 신호 믹스쳐를 매개변수적으로 디코딩하기 위해 다중 SAOC 모노 및 스테레오 디코더들/트랜스코더 인스턴스들을 병렬로 결합하는 원리를 보여주는 개요도를 설명한다.
도 4는 하나의 실시예에 따라 멀티-채널 신호 믹스쳐를 처리하기 위한 순차 SAOC 모노 및 스테레오 디코더들/트랜스코더 구조의 원리를 나타내는 개요도를 설명한다.

최근에, 오디오 코딩의 분야에서, 멀티-채널/멀티-오브젝트 오디오 신호들의 비트레이트-효율 전송/저장에 대한 매개변수 테크닉들이 예를 들어, 무빙 픽쳐 전문가 그룹(MPEG) 및 다른 것들에 의해 도입되었다. 하나의 예는 채널 지향 접근 (channel oriented approach) [MPS, BCC]처럼 MPEG 서라운드 (MPS) 이고, 또는 오브젝트 지향 접근 [JSC, SAOC, SAOC1, SAOC2] 처럼 MPEG 공간적 오디오 오브젝트 코딩 (SAOC)이다. 또다른 오브젝트 지향 접근은 "알려진 소스 변환" [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6] 으로 명칭된다. 이러한 테크닉들은 오디오 신의 오디오 소스 오브젝트들 및/또는 전송된/저장된 오디오 신을 설명하는 추가적인 사이드(부가) 정보 및 채널들/오브젝트들의 다운믹스에 기초하여 요구되는 오디오 소스 오브젝트 또는 요구되는 출력 오디오 신을 복원하는 것을 목적으로 한다.

그러한 시스템에서 채널/오브젝트 관련 부가 정보의 추정 및 응용은 시간-주파수 선택 방법으로 수행된다. 그래서, 그러한 시스템은 개별 푸리에 변환(DFT), 단기 푸리에 변환 (STFT) 또는 쿼드라쳐 미러 필터 (QMF) 등등 같은 필터 뱅크처럼 시간-주파수 변환을 이용한다. 그러한 시스템들의 기본적인 원리는, MPEG SAOC의 예를 이용하여, 도 2에서 설명된다.

STFT의 케이스에서, 시간적 크기는 시간-블록 숫자에 의해 표현되고 공간적 크기는 스펙트럼 계수 ("빈(bin)") 에 의해 점유된다(captured). QMF의 케이스에서, 시간적 크기는 시간-슬롯 숫자(time-slot number)에 의해 표현되고 스펙트럼 크기는 부-대역(서브-밴드, sub-band) 숫자에 의해 점유된다. QMF의 스펙트럼 해상도는 두번째 필터 스테이지의 다음 응용에 의해 향상되며, 전체 필터 뱅크는 하이브리드 QMF로 명칭되고 고해상도 부-대역들은 하이브리드 부-대역들로 명칭된다. 이미 위에서 언급된 것처럼, SAOC에서 일반 프로세싱은 시간-주파수 선택 방법으로 수행되며 도 2에서 설명되는 것처럼, 각 주파수 대역 내에서 다음처럼 설명될 수 있다.

- N 입력 오디오 오브젝트 신호들 s ₁ ... s _N 는 P 채널들 x ₁ ... x _P 에 구성요소 d ₁ _{,1 ...} d _N _,P .로 구성되는 다운믹스 매트릭스를 이용하여 인코더 프로세싱의 부분으로 믹스 다운된다. 게다가, 상기 인코더는 입력 오디오 오브젝트들의 특성을 설명하는 부가 정보를 추출한다(부가-정보-추정기(SIE) 모듈, side-information-estimator (SIE) module) MPEG SAOC에 대해, 오브젝트 파워들(powers) w.r.t. 서로의 관계는 부가 정보처럼 가장 기본적인 형태이다.

- 다운믹스 신호(들) 및 부가 정보는 전송되고/저장된다. 이러한 이유로, 다운믹스 오디오 신호(들)은, 예를 들어, MPEG-1/2 Layer II 또는 III (mp3로 알려짐), MPEG-2/4 Advanced Audio Coding (AAC) 처럼 잘 알려진 개념 오디오 코더들을 이용하여 압축될 수 있다.

- 수신단에서, 디코더는 전송된 부가 정보를 이용하여 (디코딩된) 다운믹스 신호들로부터 원래 오브젝트 신호들 ("오브젝트 분리")을 복원하도록 개념적으로 시도한다. 이러한 근사된 오브젝트 신호들 s ₁ ... s _N 는 도 2에서 계수들 r ₁ _,1 ... r _N,M 에 의해 표현되는 렌더링 매트릭스를 이용하여 M 오디오 출력 채널들 y ₁ ... y _M 에 의해 표현되는 타겟 신(target scene)에 믹싱된다. 요구되는 타겟 신은, 극단적인 경우에, 믹스쳐를 넘어 오직 하나의 소스 신호를 렌더링하는 것일 수 있지만, 또한 전송되는 오브젝트들로 구성되는 어떠한 다른 임의의 어쿠스틱 신(acoustic scene)일 수도 있다. 예를 들어, 출력은 단일-채널, 2-채널 스테레오 또는 5.1 멀티-채널 타겟 신(scene) 일 수 있다.

이용가능 대역폭/저장소를 증가시키는 것 및 오디오 코딩 분야에서의 계속적인 향상은 멀티-채널 오디오 재생의 선택을 꾸준히 증가시키는 것으로부터 유저가 선택하는 것을 가능하게 한다. 멀티-채널 5.1 오디오 포맷들은 이미 DVD 및 블루레이 재생에서 기준이다. 심지어 더 많은 오디오 전송 채널들을 갖는 MPEG-H 3D 오디오와 같은 새로운 오디오 포트들조차 나타났고, 이는 상당히 에워싸는 듯한 오디오 경험을 엔드-유저들에게 제공할 것이다.

다운믹스 신호들이 세개 이상의 오디오 오브젝트 신호들을 인코딩하는, 세개 이상의 다운믹스 채널들을 포함하는 다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 발생시키는 디코더가 제공된다.

상기 디코더는 부가 정보를 수신하기 위해 그리고 세개 이상의 다운믹스 채널들을 수신하기 위한 입력 채널 라우터, 및 하나 이상의 오디오 출력 채널들을 얻기 위해 적어도 두개의 처리된 채널들을 발생시키기 위한 적어도 두개의 채널 처리 유닛들을 포함한다.

적어도 두개의 채널 처리 유닛들 각각이 세개 이상의 다운믹스 채널들 중 하나 이상을 수신하도록, 그리고 상기 적어도 두개의 채널 처리 유닛들 각각이 세개 이상의 다운믹스 채널들의 전체 숫자보다 적게 수신하도록, 입력 채널 라우터는 세개 이상의 다운믹스 채널들 중 적어도 두개 각각을 적어도 두개의 채널 처리 유닛들 중 적어도 하나에 입력하도록 구성된다.

적어도 두개의 채널 처리 유닛들 중 각 채널 처리 유닛은 입력 채널 라우터로부터 상기 채널 처리 유닛에 의해 수신되는 세개 이상의 다운믹스 채널들의 적어도 두개 중 하나 이상에 기반하여 그리고 상기 부가 정보에 기반하여 적어도 두개의 처리된 채널들 중 하나 이상을 발생시키도록 구성된다.

실시예에 따라, 입력 채널 라우터는 세개 이상의 다운믹스 채널들의 적어도 두개 각각을 적어도 두개의 채널 처리 유닛들 중 정확히 하나에 입력하도록 구성될 수 있다.

실시예에서, 세개 이상의 다운믹스 채널들이 적어도 두개의 채널 처리된 유닛들 중 하나 이상에 의해 수신되도록, 입력 채널 라우터는 세개 이상의 다운믹스 채널들 각각을 적어도 두개의 채널 처리 유닛들 중 적어도 하나에 입력하도록 구성될 수 있다.

실시예에 따라, 적어도 두개의 채널 처리 유닛들 각각은 세개 이상의 다운믹스 채널들의 적어도 하나로부터 독립적인 적어도 두개의 처리된 채널들 중 하나 이상을 발생시키도록 구성될 수 있다.

실시예에서, 적어도 두개의 채널 처리 유닛들 각각은 모노 처리 유닛 또는 스테레오 처리 유닛 중 하나일 수 있고, 상기 모노 처리 유닛은 세개 이상의 다운믹스 채널들 중 정확히 하나를 수신하도록 구성될 수 있고 상기 부가 정보에 기반하여 그리고 상기 세개 이상의 다운믹스 채널들 중 정확히 하나에 기반하여 상기 적어도 두개의 처리된 채널들 중 정확히 하나 또는 정확히 두개를 발생시키도록 구성되며, 상기 스테레오 처리 유닛은 상기 세개 이상의 다운믹스 채널들 중 정확히 두개를 수신하도록 구성될 수 있고 상기 부가 정보에 기반하여 그리고 상기 세개 이상의 다운믹스 채널들 중 정확히 두개에 기반하여 상기 적어도 두개의 처리된 채널들 중 정확히 하나 또는 정확히 두개를 발생시키도록 구성된다.

적어도 두개의 채널 처리 유닛들 중 적어도 하나는 세개 이상의 다운믹스 채널들 중 정확히 하나를 수신하도록 구성될 수 있고 상기 부가 정보에 기반하여 그리고 상기 세개 이상의 다운믹스 채널들 중 정확히 하나에 기반하여 상기 적어도 두개의 처리된 채널들 중 정확히 두개를 발생시키도록 구성된다.

실시예에 따라서, 적어도 두개의 채널 처리 유닛들 중 적어도 하나는 세개 이상의 다운믹스 채널들 중 정확히 두개를 수신하도록 구성될 수 있고 상기 부가 정보에 기반하여 상기 세개 이상의 다운믹스 채널들 중 정확히 두개에 기반하여 상기 적어도 두개의 처리된 채널들 중 정확히 하나를 발생시키도록 구성된다.

실시예에서, 입력 채널 라우터는 네개 이상의 다운믹스 채널들을 수신하도록 구성될 수 있고, 그리고 적어도 두개의 채널 처리 유닛들 중 적어도 하나는 네개 이상의 다운믹스 채널들 중 적어도 세개를 수신하도록 구성될 수 있고 상기 부가 정보에 기반하여 그리고 상기 네개 이상의 다운믹스 채널들 중 적어도 세개에 기반하여 상기 처리된 채널들 중 적어도 세개를 발생시키도록 구성될 수 있다.

실시예에 따라서, 적어도 두개의 채널 처리 유닛들 중 적어도 하나는 네개 이상의 다운믹스 채널들 중 정확히 세개를 수신하도록 구성될 수 있고 상기 부가 정보에 기반하여 그리고 상기 네개 이상의 당누믹스 채널들 중 정확히 세개에 기반하여 상기 처리된 채널들 중 정확히 세개를 발생시키도록 구성될 수 있다.

실시예에서, 입력 채널 라우터는 여섯개 이상의 다운믹스 채널들을 수신하도록 구성될 수 있고, 여기서 적어도 두개의 채널 처리 유닛들 중 적어도 하나는 여섯개 이상의 다운믹스 채널들 중 정확히 다섯개를 수신하도록 구성될 수 있고 상기 부가 정보에 기반하여 그리고 상기 여섯개 이상의 다운믹스 채널들 중 정확히 다섯개에 기반하여 상기 처리된 채널들 중 정확히 다섯개를 발생시키도록 구성된다.

실시예에서, 상기 세개 이상의 다운믹스 채널들 중 적어도 하나는 상기 적어도 두개의 채널 처리 유닛들 중 어느 것에 의해서도 수신되지 않도록, 입력 채널 라우터는 세개 이상의 다운믹스 채널들 중 적어도 하나를 적어도 두개의 채널 처리 유닛들 중 어느 것에 대해서도 입력하지 않도록 구성된다.

하나의 실시예에 따라, 디코더는 하나 이상의 오디오 출력 채널들을 얻기 위해 적어도 두개의 처리된 채널들을 결합하기 위해 출력 채널 라우터를 더 포함할 수 있다.

하나의 실시예에서, 상기 디코더는 렌더러를 더 포함할 수 있고, 상기 렌더러는 렌더링 정보를 수신하도록 구성될 수 있고, 상기 렌더러는 상기 렌더링 정보에 기반하여 그리고 상기 적어도 두개의 처리된 채널들에 기반하여 하나 이상의 오디오 출력 채널들을 발생시키도록 구성된다.

하나의 실시예에 따라, 적어도 두개의 채널 처리 유닛들은 적어도 두개의 처리된 채널들을 병렬(in parallel)로 발생시키도록 구성될 수 있다.

하나의 실시예에 따라, 적어도 두개의 채널 처리 유닛들의 제1채널 처리 유닛은 적어도 두개의 처리된 채널들 중 첫번째 처리된 채널을 적어도 두개의 채널 처리 유닛들 중 두번째 채널 처리 유닛에 입력하도록 구성될 수 있다. 상기 제2처리 유닛은 첫번째 처리된 채널에 기반하여 상기 적어도 두개의 처리된 채널들 중 두번째 처리된 채널을 발생시키도록 구성될 수 있다.

게다가, 세개 이상의 다운믹스 채널들을 포함하여 다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 발생시키는 방법이 제공된다. 다운믹스 신호는 세개 이상의 오디오 오브젝트 신호들을 인코딩한다. 상기 방법은 :

- 입력 채널 라우터에 의해 부가 정보를 수신하기 위해 상기 세개 이상의 다운믹스 채널들을 수신하는 단계;

- 상기 세개 이상의 다운믹스 채널들 중 적어도 두개 각각을 상기 적어도 두개의 채널 처리 유닛들 중 적어도 하나에 입력하는 단계; 및

- 상기 하나 이상의 오디오 출력 채널들을 얻기 위해 상기 적어도 두개의 채널 처리 유닛들에 의해 적어도 두개의 처리된 채널들을 발생시키는 단계;를 포함하며,

상기 적어도 두개의 채널 처리 유닛들 각각이 상기 세개 이상의 다운믹스 채널들 중 하나 이상을 수신하도록, 그리고 상기 적어도 두개의 채널 처리 유닛들 각각이 상기 세개 이상의 다운믹스 채널들의 전체 숫자보다 적게 수신하도록, 상기 세개 이상의 다운믹스 채널들 중 적어도 두개 각각을 상기 적어도 두개의 채널 처리 유닛들 중 적어도 하나에 입력하는 단계가 상기 입력 채널 라우터에 의해 수행된다.

상기 적어도 두개의 처리된 채널들을 발생시키는 단계는,상기 입력 채널 라우터로부터 상기 채널 처리 유닛에 의해 수신되는 세개 이상의 다운믹스 채널들의 적어도 두개 중 하나 이상에 기반하여 그리고 상기 부가 정보에 기반하여 상기 적어도 두개의 채널 처리 유닛들의 각 채널 처리 유닛에 의해 상기 적어도 두개의 처리된 채널들 중 하나 이상을 발생시키는 것에 의해 수행된다.

게다가, 컴퓨터 또는 신호 프로세서에서 실행될 때 상기-설명된 방법을 실행하기 위한 컴퓨터 프로그램이 제공된다. 다음에서, 본 발명의 실시예들이 도면을 참조하여 더 자세히 설명된다 :

본 발명의 실시예를 설명하기 전에, 최신 SAOC 시스템에 대한 더 많은 배경지식이 제공된다.

도 2는 SAOC 인코더 (10) 및 SAOC 디코더 (12)의 일반적인 배치를 보여준다. SAOC 인코더(10)는 입력 N 오브젝트들로, 즉 오디오 신호들 s ₁ 에서 s _N 를 수신한다. 특히, 인코더(10)는 다운믹스 신호(18)에 동일한 다운믹스들 및 오디오 신호들 s ₁ 에서 s _N 를 수신하는 다운믹서(16)를 포함한다. 대안적으로, 다운믹스는 외부적으로 제공될 수 있고 (아티스틱 다운믹스, artistic downmix) 상기 시스템은 상기 제공된 다운믹스를 계산된 다운믹스에 매칭시키도록 추가적인 부가 정보를 측정한다.

스테레오 다운믹스의 경우에, 다운믹스 신호(18)의 채널들은 표시된 L0 및 R0이며, 모노 다운믹스의 경우에 동일한 것들은 L0로 간단히 표시된다. 개별 오브젝트들 s ₁ 에서 s _N 를 복원하도록 SAOC 디코더(12)를 가능하게 하기 위해서, 부가-정보 측정자(side-information estimator, 17)는 SAOC-매개변수들을 포함하는 부가 정보를 갖는 SAOC 디코더 (12)를 제공한다. 예를 들어, 스테레오 다운믹스의 경우에, SAOC 매개변수들은 오브젝트 레벨 차이들 (OLD), 상호-오브젝트 관계들 (IOC) (상호-오브젝트 교차 연관 매개변수들), 다운믹스 이득 값들 (DMG) 및 다운믹스 채널 베레 차이들 (DCLD)를 포함한다. 다운믹스 신호(18)을 따라, SAOC-매개변수들을 포함하여, 부가 정보(20)는 SAOC 디코더(12)에 의해 수신되는 SAOC 출력 데이터 스트림을 형서한다.

SAOC 디코더(12)는 SAOC 디코더(12)에 입력되는 정보(26)을 렌더링하는 것에 의해 기술되는 렌더링과 함께 채널들

에서

의 어떠한 유저-선택 집합 상에 오디오 신호들

및

을 복원하고 렌더링하기 위해 부가 정보(20) 뿐만 아니라 다운믹스 신호(18)을 수신하는 업-믹서를 포함한다.

오디오 신호들 s ₁ 에서 s _N 는 시간 또는 스펙트럼 영역에서처럼, 어떠한 코딩 영역에서 인코더(10)에 입력될 수 있다. 오디오 신호들 s ₁ 에서 s _N 이 시간 영역에서 인코더(10)에 입력되는 경우에, 인코더(10)는 하이브리드 QMF 뱅크처럼, 필터 뱅크를 이용할 수 있고, 스펙트럼 영역에 신호들을 전송하기 위해, 오디오 신호들은, 특정 필터 뱅크 해상도에서, 상이한 스펙트럼 부분과 관련된 몇몇 부-대역들로 표현된다. 오디오 신호들 s ₁ 에서 s _N 이 이미 인코더(10)에 의해 예상되는 표현이라면, 동일한 것들이 스펙트럼 분해를 수행할 필요는 없다.

도 1은 실시예에 따라 세개 이상의 다운믹스 채널들을 포함하는 다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 발생시키는 디코더를 도시한다. 다운믹스 신호는 세개 이상의 오디오 오브젝트 신호들을 인코딩한다.

디코더는 하나 이상의 오디오 출력 채널들을 얻기 위해 적어도 두개의 처리된 채널들을 발생시키기 위한 적어도 두개의 채널 처리 유닛들 (121, 122) 및 부가 정보 SI를 수신하기 위한 그리고 세개 이상의 다운믹스 채널들 DMX1, DMX2, DMX3 를 수신하기 위한 입력 채널 라우터(110)을 포함한다.

적어도 두개의 채널 처리 유닛들(121, 122) 각각이 세개 이상의 다운믹스 채널들 중 하나 이상을 수신하도록, 그리고 적어도 두개의 채널 처리 유닛들(121, 122) 각각이 세개 이상의 다운믹스 채널들 DMX1, DMX2 DMX3의 전체 숫자보다 적게 수신하도록, 입력 채널 라우터(110)는 적어도 두개의 채널 처리 유닛들(121, 122) 중 적어도 하나에 세개 이상의 다운믹스 채널들 DMX1, DMX2 DMX3 중 적어도 두개 각각을 입력하도록 구성된다.

특히, 도 1의 실시예에서, 세개의 다운믹스 채널들 DMX1, DMX2, DMX3 각각은 정확히 하나의 채널 처리 유닛에 입력된다. 그러나, 다른 실시예들에서, 입력 채널 라우터(110)에 의해 수신된 세개 이상의 다운믹스 채널들 중 전체가 처리 유닛에 입력되는 것이 아닐 수 있다. 그러나, 어떠한 경우에, 세개 이상의 다운믹스 채널들의 적어도 두개의 다운믹스 채널들 각각은 채널 처리 유닛들 중 적어도 하나에 입력될 것이다.

적어도 두개의 채널 처리 유닛들(121, 122)의 각 채널 처리 유닛은, 입력 채널 라우터(110)으로부터, 상기 채널 처리 유닛(121, 122)에 의해 수신되는 세개 이상의 다운믹스 채널들 (DMX1, DMX2, DMX3)의 적어도 두개 중 하나 이상에 기반하여 그리고 상기 부가 정보 SI 에 기반하여 적어도 두개의 처리된 채널들 중 하나 이상을 발생시키도록 구성된다.

도 1의 예에서, 채널 처리 유닛(121)은 두개의 처리된 채널들 (PCH1, PCH2)를 발생시키기 위한 두개의 다운믹스 채널들 (DMX1, DMX2)를 수신한다. 그래서, 처리 유닛(121)은 스테레오-to-스테레오 처리 유닛으로 고려될 수 있다.

게다가, 도 1의 예에서, 채널 처리 유닛(122)은 두개의 처리된 채널들 (PCH3, PCH4)를 발생시키기 위한 다운믹스 채널 DMX3를 수신한다.

도 1의 예에서, 처리된 채널들 PCH1, PCH2, PCH3, PCH4 은 디코더에 의해 발생되는 오디오 출력 채널들이다. 그러나, 다른 실시예들에서, 오디오 출력 채널들은, 예를 들어, 렌더링 정보를 이용하여, 처리된 채널들에 기반해서 발생된다.

다운믹스 채널들로부터 처리된 채널들을 발생시키는 것은 부가 정보를 이용하여 수행된다. 부가 정보는 예를 들어 세개 이상의 다운믹스 채널들을 얻기 위해 오디오 오브젝트들이 어떻게 다운믹스 되었는지를 나타내는 다운믹스 정보를 포함할 수 있다. 게다가, 부가 정보는 크기 N x N의 공분산(covariance) 매트릭스 상의 정보도 포함할 수 있고, 이는 이러한 N 오디오 오브젝트들의 OLD 및 IOC 매개변수를, 인코딩된, N 오디오 오브젝트들 또는 N 오디오 오브젝트 신호들에 대해 표시할 수 있다.

적어도 두개의 처리 유닛들(121, 122)의 채널 처리 유닛은, 예를 들어, 모노 to 모노 "x-1-1" 처리 모드를 실행하는 모노-to-모노 처리 유닛일 수 있다. 또는, 적어도 두개의 처리 유닛들(121, 122)의 채널 처리 유닛은, 예를 들어, 모노 to 스테레오 "x-1-2" 처리 모드를 실행하도록 구성될 수 있다. 또는, 적어도 두개의 처리 유닛들(121, 122)의 채널 처리 유닛은, 예를 들어, 스테레오 to 모노 "x-2-1" 처리 모드를 실행하도록 구성될 수 있다. 또는, 적어도 두개의 처리 유닛들(121, 122)의 채널 처리 유닛은, 예를 들어, 스테레오 to 스테레오 "x-2-2" 처리 모드를 실행하는 스테레오-to-스테레오 처리 유닛일 수 있다.

모노 to 모노 "x-1-1" 처리 모드, 모노 to 스테레오 "x-1-2" 처리 모드, 스테레오 to 모노 "x-2-1" 처리 모드 및 스테레오 to 스테레오 "x-2-2" 처리 모드는, SAOC 기준의 디코딩 모드들처럼, SAOC 기준 ([SAOC] 참조)에서 설명된다.

특히, 예를 들어 : ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010, in particular, see, chapter "SAOC Processing"을 참조하며, 더 자세하게는 "디코딩 모드들(Decoding modes)" 서브챕터를 참조하라.

상기 적어도 두개의 채널 처리 유닛들(121, 122) 각각은 스테레오 처리 유닛 또는 모노 처리 유닛 중 하나일 수 있고, 여기서 상기 모노 처리 유닛은 세개 이상의 다운믹스 채널들 중 정확히 하나를 수신하도록 구성되고 상기 부가 정보에 기반하여 그리고 상기 세개 이상의 다운믹스 채널들 중 정확히 하나에 기반하여 적어도 두개의 처리된 채널들 중 정확히 하나 또는 정확히 두개를 발생시키도록 구성되며, 여기서 상기 스테레오 처리 유닛은 세개 이상의 다운믹스 채널들 중 정확히 두개를 수신하도록 구성되며 그리고 상기 부가 정보에 기반하여 그리고 세개 이상의 다운믹스 채널들 중 정확히 두개에 기반하여 상기 적어도 두개의 처리된 채널들 중 정확히 하나 또는 정확히 두개를 발생시키도록 구성된다.

적어도 두개의 채널 처리 유닛들(121, 122) 중 적어도 하나는 세개 이상의 다운믹스 채널들 중 정확히 하나를 수신하도록 구성될 수 있고 상기 부가 정보에 기반하여 그리고 세개 이상의 다운믹스 채널들 중 정확히 하나에 기반하여 적어도 두개의 처리된 채널들 중 정확히 두개를 발생시키도록 구성된다.

하나의 실시예에 따라, 적어도 두개의 채널 처리 유닛들(121, 122) 중 적어도 하나는 세개 이상의 다운믹스 채널들 중 정확히 두개를 수신하도록 구성될 수 있고 상기 부가 정보에 기반하여 그리고 상기 세개 이상의 다운믹스 채널들 중 정확히 두개에 기반하여 상기 적어도 두개의 처리된 채널들 중 정확히 하나를 발생시키도록 구성된다.

적어도 두개의 처리 유닛들(121, 122)의 채널 처리 유닛은, 예를 들어, 모노 다운믹스 채널로부터 다섯개의 처리된 채널들을 발생시키기 위한 모노 다운믹스 ("x-1-5") 처리 모드를 실행할 수 있다. 또는, 적어도 두개의 처리 유닛들(121, 122)의 채널 처리 유닛은, 예를 들어, 두개의 다운믹스 채널들로부터 다섯개의 처리된 채널들을 발생시키기 위한 스테레오 다운믹스 ("x-2-5") 처리 모드를 실행할 수 있다.

모노 다운믹스 ("x-1-5") 처리 모드 및 스테레오 다운믹스 ("x-2-5") 처리 모드는 SAOC 기준의 트랜스코딩(transcoding) 처럼, SAOC 기준 ([SAOC] 참조)에서 설명된다.

특히, 예를 들어 : ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010를 참조하며, 특히, 챕터 "SAOC 처리", 더 구체적으로는, 서브챕터 "트랜스코딩 모드들"을 참조하라.

그러나, 몇몇 실시예들에서, 채널 처리 유닛들(121, 122)의 하나, 몇몇 또는 전체는 다르게 구성될 수도 있다.

하나의 실시예에서, 입력 채널 라우터(110)는 네개 또는 그 이상의 다운믹스 채널들을 수신하도록 구성될 수 있고, 적어도 두개의 채널 처리 유닛들(121, 122) 중 적어도 하나는 네개 또는 그 이상의 다운믹스 채널들 중 적어도 세개를 수신하도록 구성될 수 있으며 부가 정보에 기반하여 그리고 네개 이상의 다운믹스 채널들 중 적어도 세개에 기반하여 처리된 채널들 중 적어도 세개를 발생시키도록 구성될 수도 있다.

하나의 실시예에 따라, 적어도 두개의 채널 처리 유닛들(121, 122) 중 적어도 하나는 네개 이상의 다운믹스 채널들 중 정확히 세개를 수신하도록 구성될 수 있고 부가 정보에 기반하여 그리고 네개 이상의 다운믹스 채널들 중 정확히 세개에 기반하여 처리된 채널들 중 정확히 세개를 발생시키도록 구성될 수 있다.

하나의 실시예에서, 입력 채널 라우터(110)는 여섯개 이상의 다운믹스 채널들을 수신하도록 구성될 수 있고, 여기서 적어도 두개의 채널 처리 유닛들(121, 122)의 적어도 하나는 여섯개 이상의 다운믹스 채널들 중 정확히 다섯개를 수신하도록 구성될 수 있고 부가 정보에 기반하여 그리고 여섯 개 이상의 다운믹스 채널들 중 정확히 다섯개에 기반하여 처리된 채널들 중 정확히 다섯개를 발생시키도록 구성된다.

하나의 실시예에 따라, 입력 채널 라우터는 세개 이상의 다운믹스 채널들 중 적어도 두개 각각을 적어도 두개의 채널 처리 유닛들(121, 122) 중 정확히 하나에 입력하도록 구성될 수 있다. 그래서, 다운믹스 채널들 DMX1, DMX2, DMX3 중 아무것도 채널 처리 유닛들(121, 122) 중 두개 이상에 입력되지 않을 수 있고, 이는 예를 들어, 도1의 예에서처럼이다. 그러나, 다른 실시예들에서, 다운믹스 채널들 중 하나 이상은 하나 이상의 채널 처리 유닛에 입력될 수도 있다.

하나의 실시예에서, 세개 이상의 다운믹스 채널들 각각이 적어도 두개의 채널 처리 유닛(121, 122) 중 하나 이상에 의해 수신되도록, 입력 채널 라우터(110)는 상기 적어도 두개의 채널 처리 유닛들(121, 122) 중 적어도 하나에 세개 이상의 다운믹스 채널들 각각을 입력하도록 구성될 수 있다. 그러나, 다른 실시예들에서, 세개 이상의 다운믹스 채널들 중 적어도 하나가 적어도 두개의 채널 처리 유닛들 중 어느 것에 의해서도 수신되지 않도록, 입력 채널 라우터(110)는 세개 이상의 다운믹스 채널들 중 적어도 하나를 상기 적어도 두개의 채널 처리 유닛들(121, 122) 중 어느것에도 입력하지 않도록 구성된다.

하나의 실시예에 따라, 적어도 두개의 채널 처리 유닛들(121, 122) 각각은 세개 이상의 다운믹스 채널들 중 적어도 하나로부터 독립적인 적어도 두개의 처리된 채널들 중 하나 이상을 발생시키도록 구성될 수 있다. 다른 말로, 채널 처리 유닛 중 아무것도, 도 1에서 도시되는 것처럼, 다운믹스 채널들 DMX1, DMX2, DMX3 전체를 수신하지 않는다.

실시예들에 따라, 멀티채널 다운믹스 처리 기능은 다중 SAOC 디코더들/트랜스코더 인스턴스들 (또는 그들의 부분들)의 응용에 의해 (순차로 또는/및 병렬로) 실현될 수 있다.

도 3은 실시예에 따라 멀티-채널 신호 믹스쳐를 매개변수적으로 디코딩하기 위해 다중 SAOC 모노 및 스테레오 디코더들/트랜스코더 인스턴스들을 병렬로 결합하는 원리를 보여주는 개요도를 설명한다.

특히, 도 3에서, 다중 SAOC 모노 및 스테레오 디코더/트랜스코더 인스턴스들이 멀티-채널 다운믹스를 처리하기 위해 병렬로 구동된다.

예를 들어, 도 3의 채널 처리 유닛들(121, 122, 123, 124, 125, 126)은 적어도 두개의 처리된 채널들을 병렬로 발생시키도록 구성될 수 있다. 예를 들어, 적어도 두개의 채널 처리 유닛들 중 어느 다른 채널 처리 유닛이 적어도 두개의 처리된 채널들 중 또다른 하나를 발생시키는 것을 종료하기 전에, 채널 처리 유닛들(121, 122, 123, 124, 125, 126)은 적어도 두개의 채널 처리 유닛들 각각이 적어도 두개의 처리된 채널들 중 하나를 발생시키는 것을 시작하도록 적어도 두개의 처리된 채널들을 병렬로 발생시키도록 구성될 수 있다.

도 3의 입력 채널 라우터(110)는 몇몇 디코더들/트랜스코더들(decoders/transcoders)에 입력 채널들을 라우팅(route)한다. 디코더들/트랜스코더들은 가시적인 명확성을 위해 도 3에서 설명되는 것처럼, 모노 또는 스테레오 신호들만에 제한되는 것은 아니며 입력 채널의 어떠한 임의적 숫자와 함께 유도될 수 있다는 것을 알아야 한다.

도 3의 실시예에 따라, 디코더는 하나 이상의 오디오 출력 채널들을 얻기 위해 적어도 두개의 처리된 채널들을 결합시키기 위한 출력 채널 라우터(130)을 더 포함한다. 디코더들/트랜스코더들로부터 처리된 (처리된) 신호들은 출력 채널 라우터(130)에 입력된다. 출력 채널 라우터(130)는 몇몇 입력 스트림들을 결합하고 렌더러(renderer, 140)에 오디오 오브젝트 신호들의 최종 추정(final estimation)을 산출한다.

도 3에서 도시되는 실시예에서, 상기 디코더는 렌더러(140)를 더 포함한다. 렌더러(140)는 렌더링 정보를 수신하도록 구성되고, 여기서 렌더러는 렌더링 정보에 기반하여 그리고 적어도 두개의 처리된 채널들에 기반하여 하나 이상의 오디오 출력 채널들을 발생시키도록 구성된다.

매개변수 처리는 관심있는 다운믹스 채널들에만 적용될 필요가 있다는 것을 주의해야 한다. 계산적 복잡성을 그래서 감소될 수 있다. 그것들이 필요하지 않다면 다운믹스 신호들은 상기 처리로부터 완전히 우회(bypassed)될 수 있다(예를 들어, 서라운드 채널들은 오직 프론트 신(front scene) 만이 곱해지는 경우 우회될 수 있다). 그러한 실시예들에서, 입력 채널 라우터(110)에 의해 수신되는 세개 이상의 다운믹스 채널들 중 전체가 채널 처리 유닛에 입력되는 것은 아니고, 이러한 수신된 다운믹스 채널들의 부분집합만 입력된다.어떠한 경우에는, 그러나, 세개 이상의 수신된 다운믹스 채널들 중 적어도 두개의 다운믹스 채널들이 채널 처리 유닛들에 제공된다.

도 4는 실시예에 따라 멀티-채널 신호 믹스쳐를 처리하도록 순차(cascaded) SAOC 모노 및 스테레오 디코더들/트랜스코더 구조의 원리를 도시하는 개요도를 설명한다.

도 4에 의해 도시되는 그러한 실시예에 따라, 적어도 두개의 채널 처리 유닛들 중 제1채널 처리 유닛(121)은 적어도 두개의 처리된 채널들 중 첫번째 처리된 채널 PCH11을 적어도 두개의 채널 처리 유닛들 중 제2채널 처리 유닛(126)에 입력하도록 구성될 수 있다. 상기 제2처리 유닛(126)은 첫번째 처리된 채널 PCH11에 기반하여 상기 적어도 두개의 처리된 채널들 중 두번째로 처리된 채널 PCH22를 발새시키도록 구성될 수 있다.

몇몇 디코더들/트랜스코더들의 결합은 고정될 수 있고 우선순위가 주어질 수도 있지만, 유동적으로 적응된다.

이 접근은 멀티채널 다운믹스 시스템들을 다루는 완전한 SAOC 백워드(backward) 호환 확장 방법을 표현한다.

본 발명의 실시예들은 다운믹스/업믹스 채널들의 임의적 숫자에 적용될 수 있다. 어떠한 현재 및 장래의 오디오 포맷들과 결합될 수 있다.

발명 방법의 유연성은 계산적 복잡성을 감소시키기 위해 교체되지 않은 채널들의 우회를 허용하며, 비트스트림 페이로드(bitstream payload) / 감소된 데이터량을 감소시킨다.

몇몇 실시예들은 오디오 인코더, 인코딩을 위한 방법 또는 컴퓨터 프로그램에 관계된다. 게다가 몇몇 실시예들은 상기 설명된 것처럼 디코딩을 위한 컴퓨터 프로그램 또는 오디오 디코더, 방법에 관계된다. 게다가, 몇몇 실시예들은 인코딩된 신호에 관계된다.

비록 몇몇 관점들이 장치의 관점에서 설명되었지만, 이러한 관점들은 또한 대응하는 방법의 묘사도 나타낸다는 것이 명백하며, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 문맥에서 설명된 관점들은 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징의 설명 또한 나타낸다.

방법의 분해된 신호는 디지털 저장 장치에 저장될 수 있고 또는 인터넷처럼 유선 전송 매체 또는 무선 전송 매체처럼 전송 매체에서 전송될 수 있다.

특정한 실행의 요구들에 의존하여, 이 발명의 실시 예들은 하드웨어 또는 소프트웨어에서 실행될 수 있다. 실행들은 전자적으로 읽을 수 있는 컨트롤 신호들을 그곳에 저장하고 있는 디지털 저장매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리,를 이용하여 수행될 수 있고 그것은, 각 방법이 수행되는, 프로그래밍 가능한 컴퓨터 시스템과 연동한다(또는 연동할 수 있다).

본 발명에 따른 몇몇 실시 예들은 전자적 판독 가능한 컨트롤 신호들을 갖는 비-일시적 데이터 캐리어를 포함하며, 그것은 여기서 설명된 방법 중 하나가 수행되는 프로그래밍 가능한 컴퓨터 시스템과 연동 가능하다.

일반적으로 본 발명의 실시 예들은 프로그램 코드로 컴퓨터 프로그램 결과물에서 실행될 수 있으며, 상기 프로그램 코드는 컴퓨터 프로그램 결과물이 컴퓨터에서 수행될 때 상기 방법 중 하나를 수행하도록 작동되는 것이다. 프로그램 코드는 예시적으로 기계 판독가능 캐리어에 저장될 수도 있다.

다른 실시 예들은 여기에 설명되고, 기계 판독가능 캐리어에 저장된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

다른 말로, 발명의 방법의 실시 예는, 컴퓨터 프로그램이 컴퓨터에서 운영될 때 여기서 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

발명의 방법의 추가 실시 예는, 거기에 저장된, 여기서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어이다.(또는 디지털 저장 매체, 또는 컴퓨터 판독가능 매체).

발명의 방법의 또 다른 실시 예는, 여기서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 순서 또는 데이터 스트림이다. 데이터 스트림 또는 신호들의 순서는, 예를 들어 인터넷 같은 데이터 통신 연결을 통해 전송되기 위해 예시적으로 구성될 수 있다.

또다른 실시 예는 여기서 설명된 방법 중 하나를 수행하기 위해 구성되거나 적응되기 위하여 프로세싱 수단, 예를 들어 컴퓨터 또는 프로그래밍 가능한 논리 장치를 포함한다.

또다른 실시 예는 여기서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 그 자체에 설치된 컴퓨터를 포함한다.

몇몇 실시 예에서, 프로그래밍 가능한 논리 장치(예를 들어 필드 프로그래밍 가능한 게이트 어레이)는 여기서 설명된 방법 중 모든 기능 또는 몇몇을 수행하도록 사용될 수 있다. 몇몇 실시 예에서, 필드 프로그래밍 가능한 게이트 어레이는 여기서 설명된 방법 중 하나를 수행하기 위해 마이크로 프로세서와 연동될 수 있다. 일반적으로, 상기 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해서도 수행된다.

상기 설명된 실시 예들은 단지 본 발명의 원리를 위해 예시적일 뿐이다. 본 상기 배열의 변형, 변화, 그리고 여기서 설명된 자세한 내용들을 기술분야의 다른 숙련자에게 명백하다고 이해되어야 한다. 그것의 의도는, 따라서, 여기의 실시 예의 설명 또는 묘사의 방법에 의해 표현된 특정 세부사항들에 의해 제한되는 것이 아닌 오직 목전의 특허 청구항의 범위에 의해서만 제한된다는 것이다.

[참고문헌(References)]

[MPS] ISO/IEC 23003-1:2007, MPEG-D (MPEG audio technologies), Part 1: MPEG Surround, 2007.

[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications,," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003

[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007

[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008

[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

[ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010

[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010

[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011

[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011

[ISS5] Shuhua Zhang and Laurent Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011

[ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011

Claims

세개 이상의 다운믹스 채널들을 포함하는 다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 발생시키기 위한 디코더에 있어서, 상기 다운믹스 신호는 세개 이상의 오디오 오브젝트 신호들을 인코딩하며, 상기 디코더는 :
부가 정보를 수신하기 위한 그리고 세개 이상의 다운믹스 채널들을 수신하기 위한 입력 채널 라우터(110); 및
상기 하나 이상의 오디오 출력 채널들을 얻기 위해 적어도 두개의 처리된 채널들을 발생시키기 위한 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126);을 포함하며,
상기 입력 채널 라우터(110)는, 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126)이 세개 이상의 다운믹스 채널들 중 하나 이상을 수신하도록, 그리고 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126)이 세개 이상의 다운믹스 채널들의 전체 숫자보다 적게 수신하도록, 적어도 두개의 채널 처리 유닛 (121, 122, 123, 124, 125, 126) 중 적어도 하나에 세개 이상의 다운믹스 채널들 중 적어도 두개를 각각 입력하도록 구성되며,
적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126)의 각 채널 처리 유닛은 상기 부가 정보에 기반하여 그리고 상기 입력 채널 라우터 (110)으로부터 상기 채널 처리 유닛에 의해 수신되는 세개 이상의 다운믹스 채널들의 적어도 두개 중 하나 이상에 기반하여 적어도 두개의 처리 채널들 중 하나 이상을 발생시키도록 구성되는, 세개 이상의 다운믹스 채널들을 포함하는 다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 발생시키기 위한 디코더.
제1항에 있어서,
상기 입력 채널 라우터(110)는 상기 세개 이상의 다운믹스 채널들 중 적어도 두개 각각을 적어도 두개의 채널 처리 유닛들 (121, 122, 123, 124, 125, 126) 중 정확히 하나에 입력하도록 구성되는, 디코더.
제1항 또는 제2항에 있어서,
상기 입력 채널 라우터(110)는, 세 개 이상의 다운믹스 채널들 각각이 적어도 두개의 채널 처리 유닛들 중 하나 이상에 의해 수신되도록, 세개 이상의 다운믹스 채널들 각각을 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126) 중 적어도 하나에 입력하도록 구성되는, 디코더.
제1항 또는 제2항에 있어서,
상기 입력 채널 라우터(110)는, 상기 세개 이상의 다운믹스 채널들 중 적어도 하나가 상기 적어도 두개의 채널 처리 유닛들 중 어느 것에 의해 수신되지 않도록, 상기 세개 이상의 다운믹스 채널들 중 적어도 하나를 상기 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126) 중 어느 것에도 입력하지 않도록 구성되는, 디코더.
상기 선행 청구항들 중 어느 한 항에 있어서,
상기 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126) 각각은 상기 세개 이상의 다운믹스 채널들 중 적어도 하나로부터 독립적인 상기 적어도 두개의 처리된 채널들 중 하나 이상을 발생시키도록 구성되는, 디코더.
상기 선행 청구항들 중 어느 한 항에 있어서,
상기 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126) 각각은 모노 처리 유닛 또는 스테레오 처리 유닛 중 하나이며,
상기 모노 처리 유닛은 상기 세개 이상의 다운믹스 채널들 중 정확히 하나를 수신하도록 구성되고 상기 세개 이상의 다운믹스 채널들 중 정확히 하나에 기반하여 그리고 상기 부가 정보에 기반하여 상기 적어도 두개의 처리된 채널들 중 정확히 하나 또는 정확히 두개를 발생시키도록 구성되며, 그리고
상기 스테레오 처리 유닛은 상기 세개 이상의 다운믹스 채널들 중 정확히 두개를 수신하도록 구성되고 상기 세개 이상의 다운믹스 채널들 중 정확히 두개에 기반하여 그리고 상기 부가 정보에 기반하여 상기 적어도 두개의 처리된 채널들 중 정확히 하나 또는 정확히 두개를 발생시키도록 구성되는, 디코더.
상기 선행 청구항들 중 어느 한 항에 있어서,
상기 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126) 중 적어도 하나는 상기 세개 이상의 다운믹스 채널들 중 정확히 하나를 수신하도록 구성되고 상기 부가 정보에 기반하여 그리고 상기 세개 이상의 다운믹스 채널들 중 정확히 하나에 기반하여 적어도 두개의 처리된 채널들 중 정확히 두개를 발생시키도록 구성되는, 디코더.
상기 선행 청구항들 중 어느 한 항에 있어서,
상기 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126) 중 적어도 하나는 상기 세개 이상의 다운믹스 채널들 중 정확히 두개를 수신하도록 구성되며 상기 부가 정보에 기반하여 그리고 상기 세개 이상의 다운믹스 채널들 중 정확히 두개에 기반하여 상기 적어도 두개의 처리된 채널들 중 정확히 하나를 발생시키도록 구성되는, 디코더.
상기 선행 청구항들 중 어느 한 항에 있어서,
상기 입력 채널 라우터(110)는 네개 이상의 다운믹스 채널들을 수신하도록 구성되며, 그리고
상기 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126) 중 적어도 하나는 상기 네개 이상의 다운믹스 채널들 중 적어도 세개를 수신하도록 구성되며 상기 부가 정보에 기반하여 그리고 상기 네개 이상의 다운믹스 채널들 중 적어도 세개에 기반하여 상기 처리된 채널들 중 적어도 세개를 발생시키도록 구성되는, 디코더.
제9항에 있어서,
상기 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126) 중 적어도 하나는 상기 네개 이상의 다운믹스 채널들 중 정확히 세개를 수신하도록 구성되며 상기 부가 정보에 기반하여 그리고 상기 네개 이상의 다운믹스 채널들 중 정확히 세개에 기반하여 상기 처리된 채널들 중 정확히 세개를 발생시키도록 구성되는, 디코더.
제9항 또는 제10항에 있어서,
상기 입력 채널 라우터(110)는 여섯개 이상의 다운믹스 채널들을 수신하도록 구성되며, 그리고
상기 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126) 중 적어도 하나는 상기 여섯개 이상의 다운믹스 채널들 중 정확히 다섯개를 수신하도록 구성되고 상기 부가 정보에 기반하여 그리고 상기 여섯개 이상의 다운믹스 채널들 중 정확히 다섯개에 기반하여 상기 처리된 채널들 중 정확히 다섯개를 발생시키도록 구성되는, 디코더.
상기 선행 청구항들 중 어느 한 항에 있어서,
상기 디코더는 상기 하나 이상의 오디오 출력 채널들을 획득하기 위해 상기 적어도 두개의 처리된 채널들을 결합하기 위한 출력 채널 라우터(130)를 더 포함하는, 디코더.
상기 선행 청구항들 중 어느 한 항에 있어서,
상기 디코더는 렌더러(140)를 더 포함하며, 상기 렌더러(140)는 렌더링 정보를 수신하도록 구성되며, 상기 렌더러(140)는 상기 렌더링 정보에 기반하여 그리고 상기 적어도 두개의 처리된 채널들에 기반하여 상기 하나 이상의 오디오 출력 채널들을 발생시키도록 구성되는, 디코더.
상기 선행 청구항들 중 어느 한 항에 있어서,
상기 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126)은 상기 적어도 두개의 처리 채널들을 병렬로 발생시키도록 구성되는, 디코더.
상기 선행 청구항들 중 어느 한 항에 있어서,
상기 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126)의 제1채널 처리 유닛은 상기 적어도 두개의 처리된 채널들의 첫번째 처리된 채널을 상기 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126)의 제2채널 처리 유닛에 입력하도록 구성되며, 그리고
상기 제2처리 유닛은 상기 첫번째로 처리된 채널에 기반하여 상기 적어도 두개의 처리된 채널들의 두번째 처리된 채널을 발생시키도록 구성되는, 디코더.
세개 이상의 다운믹스 채널들을 포함하는 다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 발생시키는 방법에 있어서, 상기 다운믹스 신호는 세개 이상의 오디오 오브젝트 신호들을 인코딩하며, 상기 방법은 :
입력 채널 라우터(110)에 의해 부가 정보를 수신하기 위해 상기 세개 이상의 다운믹스 채널들을 수신하는 단계;
상기 세개 이상의 다운믹스 채널들 중 적어도 두개 각각을 상기 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126) 중 적어도 하나에 입력하는 단계; 및
상기 하나 이상의 오디오 출력 채널들을 얻기 위해 상기 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126)에 의해 적어도 두개의 처리된 채널들을 발생시키는 단계;를 포함하며,
상기 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126) 각각이 상기 세개 이상의 다운믹스 채널들 중 하나 이상을 수신하도록, 그리고 상기 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126) 각각이 상기 세개 이상의 다운믹스 채널들의 전체 숫자보다 적게 수신하도록, 상기 세개 이상의 다운믹스 채널들 중 적어도 두개 각각을 상기 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126) 중 적어도 하나에 입력하는 단계는 상기 입력 채널 라우터(110)에 의해 수행되며,
상기 적어도 두개의 처리된 채널들을 발생시키는 단계는,상기 입력 채널 라우터(110)로부터 상기 채널 처리 유닛에 의해 수신되는 세개 이상의 다운믹스 채널들의 적어도 두개 중 하나 이상에 기반하여 그리고 상기 부가 정보에 기반하여 상기 적어도 두개의 채널 처리 유닛들(121, 122, 123, 124, 125, 126)의 각 채널 처리 유닛에 의해 상기 적어도 두개의 처리된 채널들 중 하나 이상을 발생시키는 것에 의해 수행되는, 세개 이상의 다운믹스 채널들을 포함하는 다운믹스 신호로부터 하나 이상의 오디오 출력 채널들을 포함하는 오디오 출력 신호를 발생시키는 방법.
컴퓨터 또는 신호 프로세서 상에서 수행될 때 제16항의 방법을 수행하기 위한 컴퓨터 프로그램.