KR101837686B1

KR101837686B1 - 공간적 오디오 객체 코딩에 오디오 정보를 적응시키기 위한 장치 및 방법

Info

Publication number: KR101837686B1
Application number: KR1020177002803A
Authority: KR
Inventors: 써스튼 캐스트너; 위르겐 헤레; 레옹 테렌티브; 올리버 헬머스; 조우니 폴러스; 팔코 리더부쉬
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2012-08-10
Filing date: 2013-06-28
Publication date: 2018-03-12
Also published as: JP2015525905A; KR20170016997A; US20150154968A1; AU2013301864A1; CA2880412A1; AU2013301864B2; RU2609097C2; RU2015104055A; WO2014023477A1; KR102033985B1; JP6141980B2; CN104704557A; US10497375B2; ES2595220T3; CA2880412C; MX350687B; EP2883226B1; EP2883226A1; CN104704557B; BR112015002794B1

Abstract

적응된 오디오 정보를 획득하기 위해 하나 이상의 오디오 객체를 인코딩하는 입력 오디오 정보를 적응시키기 위한 장치가 제공된다. 입력 오디오 정보는 둘 이상의 입력 오디오 다운믹스 채널을 포함하고, 입력 파라메트릭 보조 정보를 더 포함한다. 적응된 오디오 정보는 하나 이상의 적응된 오디오 다운믹스 채널을 포함하고, 적응된 파라메트릭 보조 정보를 더 포함한다. 장치는 적응 정보에 따라 하나 이상의 적응된 오디오 다운믹스 채널을 획득하기 위해 둘 이상의 입력 오디오 다운믹스 채널을 적응시키기 위한 다운믹스 신호 수정자(110)를 포함한다. 더욱이, 장치는 적응 정보에 따라 적응된 파라메트릭 보조 정보를 획득하기 위해 입력 파라메트릭 보조 정보를 적응시키기 위한 파라메트릭 보조 정보 적응기(120)를 포함한다.

Description

공간적 오디오 객체 코딩에 오디오 정보를 적응시키기 위한 장치 및 방법{APPARATUS AND METHODS FOR ADAPTING AUDIO INFORMATION IN SPATIAL AUDIO OBJECT CODING}

본 발명은 오디오 신호 디코딩 및 오디오 신호 처리에 관한 것으로서, 특히, 공간적 오디오 객체 코딩(SAOC)에 오디오 정보를 적응시키기 위한 디코더 및 방법에 관한 것이다.

현대의 디지털 오디오 시스템에서는, 수신기 측에 송신된 콘텐츠의 오디오 객체와 관련된 수정을 허용하는 것이 주 추세(major trend)이다. 이러한 수정은 공간적으로 분포된 스피커를 통해 멀티채널 재생의 경우에 전용 오디오 객체의 오디오 신호 및/또는 공간적 재위치 설정의 선택된 부분의 이득 수정을 포함한다. 이것은 오디오 콘텐츠의 서로 다른 부분을 서로 다른 스피커로 개별적으로 전달함으로써 달성될 수 있다.

다시 말하면, 오디오 처리, 오디오 전송, 및 오디오 저장 기술에서는, 객체 지향 오디오 콘텐츠 재생 시에 사용자 상호 작용을 허용하는 욕구의 증가와, 또한 청각 인상(hearing impression)을 개선하기 위해 오디오 콘텐츠 및 이의 부분을 개별적으로 렌더링하도록 멀티채널 재생의 확장 가능성을 이용하는 요구가 있다. 이것에 의해, 멀티채널 오디오 콘텐츠의 사용은 사용자에게 상당한 개선을 가져온다. 예를 들면, 엔터테인먼트 애플리케이션에서 사용자의 만족의 개선을 가져오는 3차원 청각 인상이 획득될 수 있다. 그러나 통화자 명료도(talker intelligibility)가 멀티채널 오디오 재생을 사용함으로써 개선될 수 있기 때문에, 멀티채널 오디오 콘텐츠는 또한 전문적인 환경, 예를 들어, 전화 회의 애플리케이션에서 유용하다. 다른 가능한 애플리케이션은 보컬 부분(vocal part) 또는 서로 다른 악기와 같이 (또한 "오디오 객체"로 지칭되는) 서로 다른 부분 또는 트랙의 재생 레벨 및/또는 공간적 위치를 개별적으로 조정하기 위해 악곡의 청취자에게 제공하는 것이다. 사용자는 악곡, 교육 목적, 노래방, 리허설 등으로부터 하나 이상의 부분을 더욱 쉽게 편곡(transcribing)하기 위해 개인 취향의 이유로 이러한 조정을 수행할 수 있다.

예를 들어, 펄스 코드 변조(PCM) 데이터 또는 심지어 압축된 오디오 포맷의 형태로 모든 디지털 멀티 채널 또는 다중 객체 오디오 콘텐츠의 간단한 불연속 전송은 매우 높은 비트레이트를 요구한다. 그러나 또한, 비트레이트 효율적인 방식으로 오디오 데이터를 전송하고 저장하는 것이 바람직하다. 따라서, 멀티채널/다중 객체 애플리케이션에 의해 유발된 과도한 자원 부하를 피하기 위해 오디오 품질과 비트레이트 요건 사이의 합리적인 절충을 기꺼이 받아들일 것이다.

최근에, 오디오 코딩의 분야에서, 멀티채널/다중 객체 오디오 신호의 비트레이트 효율적인 전송/저장을 위한 파라메트릭 기술은, 예를 들어, 동화상 전문가 그룹(Moving Picture Experts Group)(MPEG) 및 다른 것에 의해 도입되었다. 일례는 채널 지향 접근 방식[MPS, BCC]으로서 MPEG 서라운드(MPS), 또는 객체 지향 접근 방식[JSC, SAOC, SAOC1, SAOC2]으로서 MPEG 공간 오디오 객체 코딩(SAOC)이다. 다른 객체 지향 접근 방식은 "정보에 근거한 소스 분리(informed source separation)"[ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]로 지칭된다. 이러한 기술은 전송/저장된 오디오 장면 및/또는 오디오 장면 내의 오디오 소스 객체를 나타내는 부가적인 보조(side) 정보 및 채널/객체의 다운믹스에 기초하여 원하는 출력 오디오 장면 또는 원하는 오디오 소스 객체를 재구성하는 것을 목표로 한다.

이러한 시스템에서 채널/객체 관련 보조 정보의 추정 및 적용은 시간-주파수 선택적 방식으로 행해진다. 따라서, 이러한 시스템은 DFT(Discrete Fourier Transform), STFT(Short Time Fourier Transform) 또는 QMF(Quadrature Mirror Filter) 뱅크와 같은 필터 뱅크 등과 같은 시간-주파수 변환을 채용한다. 이러한 시스템의 기본 원리는 MPEG SAOC의 예를 이용하여 도 2에 도시되어 있다.

STFT의 경우에, 시간적 차원은 타임-블록 수로 나타내고, 스펙트럼 차원은 스펙트럼 계수("빈(bin)") 번호에 의해 포착된다. QMF의 경우에, 시간적 차원은 타임-슬롯 수로 나타내고, 스펙트럼 차원은 서브밴드 수에 의해 포착된다. QMF의 스펙트럼 해상도가 제 2 필터단의 후속 적용에 의해 개선되는 경우, 전체 필터 뱅크는 하이브리드 QMF이라 하고, 미세 해상도 서브밴드는 하이브리드 서브밴드라 한다.

이미 상술한 바와 같이, SAOC에서, 도 2에 도시된 바와 같이, 일반적인 처리는 시간-주파수 선택적 방식으로 수행되고, 각 주파수 대역 내에서 다음과 같이 설명될 수 있다:

- N 입력 오디오 객체 신호 S₁ ... S_N는 요소 d_1, ₁ ... d_N,P로 이루어진 다운믹스 매트릭스를 이용하여 인코더 처리의 일부로서 P 채널 x₁ ... x_P로 다운믹스된다. 게다가, 인코더는 입력 오디오 객체(보조 정보 추정기(SIE) 모듈)의 특성을 설명하는 보조 정보를 추출한다. MPEG SAOC에 대해, 객체 능력 w.r.t의 관계는 서로 이러한 보조 정보의 가장 기본적인 형태이다.

- 다운믹스 신호 및 보조 정보는 전송되고 저장된다. 이를 위해, 다운믹스 오디오 신호는, 예를 들어, MPEG-1/2 Layer II 또는 III(일명 mp3), MPEG-2/4 Advanced Audio Coding(AAC) 등과 같이 잘 알려진 지각적 오디오 코더를 이용하여 압축될 수 있다.

- 수신 단에서, 디코더는 송신된 보조 정보를 사용하여 (디코딩된) 다운믹스 신호로부터 원래의 객체 신호("객체 분리")를 복원하기 위해 개념적으로 시도한다. 그 후에, 이러한 근사적(approximated) 객체 신호

는 도 2에서 계수 r1,1 ... rN,M로 나타낸 렌더링 매트릭스를 사용하여 M 오디오 출력 채널

로 나타낸 타겟 장면으로 혼합된다. 원하는 타겟 장면은 극단적인 경우에 혼합물(소스 분리 시나리오)에서 하나의 소스 신호만을 렌더링할 수 있을 뿐만 아니라, 송신된 객체로 이루어진 어떤 다른 임의의 청각 장면도 렌더링할 수 있다. 예를 들면, 출력은 단일 채널, 2 채널 스테레오 또는 5.1 멀티채널 타겟 장면일 수 있다.

도 6은 오디오 인코딩/디코딩 방식의 원리를 개략적으로 도시한 것이다. 특히, 도 6은 오디오 인코딩/디코딩 체인(chain)의 원리 설명이다.

인코딩 측에서, 오디오 신호는 (전형적으로 지각 효과를 이용하는) 오디오 코딩 방식에 의해 압축되고, 파라메트릭 보조 정보(Parametric Side Information)(PSI)는 계산된다(인코더(601) 참조). 코딩된 오디오 신호 및 PSI로 이루어진 생성된 비트스트림은 도 6에서 "A", "B" 등으로 표시된 다양한 디코더 인스턴스(620, 621, 622)에 의해 디코딩될 수 있는 디코더 측으로 저장(또는 송신)된다. 이러한 디코더 인스턴스는 서로 다를 수 있다(예를 들어, 표준 사양, 응용 또는 구현 제한 등의 서로 다른 복잡성 수준)[SAOC, SAOC1, SAOC2].

최신 코딩 방식은 효율적인 방식으로 PSI를 특정 타겟 응용 시나리오 또는 플랫폼에 적응시킬 수 없다. 이것은 디코더 측에서 (필요 이상으로) 높은 계산 복잡도로 이어질 수 있거나 호환성 문제를 생성시킬 수 있다.

본 발명의 목적은 오디오 객체 코딩을 위한 개선된 개념을 제공하는 것이다.

본 발명의 목적은 제 1 항에 따른 디코더, 제 14 항에 따라 인코딩하기 위한 방법 및 제 15 항에 따른 컴퓨터 프로그램에 의해 해결된다.

적응된 오디오 정보를 획득하기 위해 하나 이상의 오디오 객체를 인코딩하는 입력 오디오 정보를 적응시키기 위한 장치가 제공된다. 입력 오디오 정보는 둘 이상의 입력 오디오 다운믹스 채널을 포함하고, 입력 파라메트릭 보조 정보를 더 포함한다. 적응된 오디오 정보는 하나 이상의 적응된 오디오 다운믹스 채널을 포함하고, 적응된 파라메트릭 보조 정보를 더 포함한다.

장치는 적응 정보에 따라 하나 이상의 적응된 오디오 다운믹스 채널을 획득하기 위해 둘 이상의 입력 오디오 다운믹스 채널을 적응시키기 위한 다운믹스 신호 수정자(modifier)를 포함한다.

더욱이, 장치는 적응 정보에 따라 적응된 파라메트릭 보조 정보를 획득하기 위해 입력 파라메트릭 보조 정보를 적응시키기 위한 파라메트릭 보조 정보 적응기를 포함한다.

실시예에 따르면, 다운믹스 신호 수정자는 하나 이상의 적응된 오디오 다운믹스 채널의 수가 둘 이상의 입력 오디오 다운믹스 채널의 수보다 작도록 적응 정보에 따라 둘 이상의 입력 오디오 다운믹스 채널을 적응시키기 위해 구성될 수 있다.

실시예에서, 적응 정보는 디코더 인스턴스에 의존할 수 있다. 다운믹스 신호 수정자는 디코더 인스턴스에 따라 둘 이상의 입력 오디오 다운믹스 채널을 적응시키도록 구성될 수 있다. 여기에서와 다음에서는, 용어 "디코더" 및 "디코더 인스턴스"는 동일한 의미를 갖는다.

실시예에 따르면, 디코더 인스턴스는 많아야 다운믹스 채널의 최대 수를 디코딩할 수 있다. 적응 정보는 상기 다운믹스 채널의 최대 수에 의존할 수 있다. 더욱이, 다운믹스 신호 수정자는 하나 이상의 적응된 오디오 다운믹스 채널을 획득하기 위해 적응 정보에 따라 둘 이상의 입력 오디오 다운믹스 채널을 적응시킴으로써, 하나 이상의 적응된 다운믹스 채널의 수가 상기 다운믹스 채널의 최대 수와 동일하도록 구성될 수 있다.

실시예에 따르면, 적응 정보는 적응 매트릭스

를 포함할 수 있다.

실시예에서, 다운믹스 신호 수정자는, 적응 매트릭스

에 따라, 하나 이상의 적응된 오디오 다운믹스 채널

을 획득하기 위해 둘 이상의 입력 오디오 다운믹스 채널

을 적응시키도록 구성될 수 있다.

실시예에 따르면, 다운믹스 신호 수정자는, 적응 매트릭스

에 따라, 아래 식을 적용함으로써 하나 이상의 적응된 오디오 다운믹스 채널

을 획득하기 위해 둘 이상의 입력 오디오 다운믹스 채널

을 적응시키도록 구성될 수 있다:

실시예에서, 파라메트릭 보조 정보 적응기는, 적응 매트릭스

에 따라, 적응된 파라메트릭 보조 정보

를 획득하기 위해 입력 파라메트릭 보조 정보

를 적응시키도록 구성될 수 있다.

실시예에 따르면, 파라메트릭 보조 정보 적응기는, 적응 매트릭스

에 따라, 아래 식을 적용함으로써 적응된 파라메트릭 보조 정보

를 획득하기 위해 입력 파라메트릭 보조 정보

를 적응시키도록 구성될 수 있다.

실시예에서, 입력 파라메트릭 보조 정보

는 초기 다운믹스 매트릭스

를 하나 이상의 오디오 객체(S)에 적용함으로써 둘 이상의 입력 오디오 다운믹스 채널

이 획득되도록 초기 다운믹스 매트릭스를 나타낼 수 있다. 파라메트릭 보조 정보 적응기는, 적응된 다운믹스 매트릭스

를 하나 이상의 오디오 객체(S)에 적용함으로써 하나 이상의 적응된 오디오 다운믹스 채널

이 획득되도록 적응된 다운믹스 매트릭스

를 적응된 파라메트릭 보조 정보로서 결정하도록 구성될 수 있다.

더욱이, 실시예에 따르면, 하나 이상의 오디오 객체를 인코딩하는 입력 오디오 정보로부터 하나 이상의 오디오 채널을 생성하기 위한 장치가 제공된다.

하나 이상의 오디오 채널을 생성하기 위한 장치는 적응된 오디오 정보를 획득하기 위해 입력 오디오 정보를 적응시키기 위한 상술한 실시예 중 하나에 따른 장치를 포함하며, 입력 오디오 정보는 둘 이상의 입력 오디오 다운믹스 채널을 포함하고, 입력 파라메트릭 보조 정보를 더 포함하며, 적응된 오디오 정보는 하나 이상의 적응된 오디오 다운믹스 채널을 포함하고, 적응된 파라메트릭 보조 정보를 더 포함한다.

더욱이, 하나 이상의 오디오 채널을 생성하기 위한 장치는, 적응된 파라메트릭 보조 정보에 따라, 하나 이상의 오디오 채널을 획득하기 위해 하나 이상의 적응된 오디오 다운믹스 채널을 디코딩하기 위한 디코더 인스턴스를 포함한다.

실시예에 따르면, 입력 오디오 정보를 적응시키기 위한 장치의 파라메트릭 보조 정보 적응기는 입력 파라메트릭 보조 정보를 포함하는 입력 비트 스트림을 수신하도록 구성될 수 있다. 입력 오디오 정보를 적응시키기 위한 장치의 파라메트릭 보조 정보 적응기는 적응된 파라메트릭 보조 정보를 획득하여, 적응된 파라메트릭 보조 정보를 디코더 인스턴스로 공급하기 위해 입력 파라메트릭 보조 정보를 적응시키도록 구성될 수 있다. 디코더 인스턴스는 적응된 파라메트릭 보조 정보에 따라 하나 이상의 적응된 오디오 다운믹스 채널을 디코딩하도록 구성될 수 있다.

실시예에서, 입력 오디오 정보를 적응시키기 위한 장치의 파라메트릭 보조 정보 적응기는 입력 파라메트릭 보조 정보를 포함하는 입력 비트 스트림을 수신하도록 구성될 수 있다. 입력 오디오 정보를 적응시키기 위한 장치의 파라메트릭 보조 정보 적응기는 수정된 비트 스트림을 획득하기 위해 입력 비트 스트림 내의 입력 파라메트릭 보조 정보를 적응된 파라메트릭 보조 정보로 대체하도록 구성될 수 있다. 입력 오디오 정보를 적응시키기 위한 장치의 파라메트릭 보조 정보 적응기는 수정된 비트 스트림을 디코더 인스턴스로 공급하도록 구성될 수 있다. 더욱이, 디코더 인스턴스는 수정된 비트 스트림에 따라 하나 이상의 적응된 오디오 다운믹스 채널을 디코딩하도록 구성될 수 있다.

더욱이, 적응된 오디오 정보를 획득하기 위해 하나 이상의 오디오 객체를 인코딩하는 입력 오디오 정보를 적응시키기 위한 방법이 제공된다. 입력 오디오 정보는 둘 이상의 입력 오디오 다운믹스 채널을 포함하고, 입력 파라메트릭 보조 정보를 더 포함한다. 적응된 오디오 정보는 하나 이상의 적응된 오디오 다운믹스 채널을 포함하고, 적응된 파라메트릭 보조 정보를 더 포함한다. 방법은

적응 정보에 따라, 하나 이상의 적응된 오디오 다운믹스 채널을 획득하기 위해 둘 이상의 입력 오디오 다운믹스 채널을 적응시키는 단계와,

적응 정보에 따라, 적응된 파라메트릭 보조 정보를 획득하기 위해 입력 파라메트릭 보조 정보를 적응시키는 단계를 포함한다.

더욱이, 컴퓨터 또는 신호 프로세서 상에서 실행되는 경우에 상술한 방법을 구현하기 위한 컴퓨터 프로그램이 제공된다.

바람직한 실시예는 종속항에 제공될 것이다.

본 발명에 의하면, 적응된 오디오 정보를 획득하기 위해 하나 이상의 오디오 객체를 인코딩하는 입력 오디오 정보를 적응시키기 위한 개선된 장치가 제공될 수 있다.

도 1은 일 실시예에 따라 적응된 오디오 정보를 획득하기 위해 하나 이상의 오디오 객체를 인코딩하는 입력 오디오 정보를 적응시키기 위한 장치를 도시한 것이다.
도 2는 다른 실시예에 따라 적응된 오디오 정보를 획득하기 위해 하나 이상의 오디오 객체를 인코딩하는 입력 오디오 정보를 적응시키기 위한 장치를 도시한 것이다.
도 3은 SAOC 시스템의 개념적 개요의 개략적인 블록도를 도시한 것이다.
도 4는 단일 채널 오디오 신호의 시간적-스펙트럼 표현(temporal-spectral representation)의 개략적인 예시도를 도시한 것이다.
도 5는 SAOC 인코더 내의 보조 정보의 시간-주파수 선택적 계산의 개략적인 블록도를 도시한 것이다.
도 6은 오디오 인코딩/디코딩 방식의 원리를 개략적으로 도시한 것이다.
도 7은 일 실시예에 따라 하나 이상의 오디오 객체를 인코딩하는 입력 오디오 정보로부터 하나 이상의 오디오 채널을 생성하기 위한 장치를 도시한 것이다.
도 8은 일 실시예에 따른 인코딩/디코딩 방식 내의 공동(joint) PSIA 애플리케이션을 도시한 것이다.
도 9는 일 실시예에 따른 인코딩/디코딩 방식 내의 분리(disjoint) PSIA 애플리케이션을 도시한 것이다.

본 발명의 실시예를 설명하기 전에, 최신 SAOC 시스템에 대한 더 많은 배경이 제공된다.

도 3은 SAOC 인코더(10) 및 SAOC 디코더(12)의 일반적인 배치를 도시한다. SAOC 인코더(10)는 입력 N 객체, 즉 오디오 신호 S₁ 내지 S_N를 수신한다. 특히, 인코더(10)는 오디오 신호 S₁ 내지 S_N를 수신하여 다운믹스 신호(18)로 다운믹스하는 다운믹서(16)를 포함한다. 대안적으로, 다운믹스는 외부에 제공될 수 있고("아티스틱 다운믹스(artistic downmix)"), 시스템은 제공된 다운믹스를 계산된 다운믹스와 일치시키기 위해 추가적인 보조 정보를 추정한다. 도 3에서, 다운믹스 신호는 P 채널 신호인 것으로 도시된다. 따라서, 임의의 모노(P=1), 스테레오(P=2) 또는 멀티 채널(P>2) 다운믹스 신호 구성이 가능하다.

스테레오 다운믹스의 경우에, 다운믹스 신호(18)의 채널은 L0 및 R0로 표시되고, 모노 다운믹스의 경우에, 다운믹스 신호(18)의 채널은 단순히 L0로 표시된다. SAOC 디코더(12)가 개개의 객체 S₁ 내지 S_N를 복구할 수 있도록 하기 위해, 보조 정보 추정기(17)는 SAOC 파라미터를 포함하는 보조 정보를 SAOC 디코더(12)에 제공한다. 예를 들면, 스테레오 다운믹스의 경우에, SAOC 파라미터는 객체 레벨차(OLD), 객체 간 상관 관계(IOC)(객체 간 교차 상관 파라미터), 다운믹스 이득 값(DMG) 및 채널 레벨차(DCLD)를 포함한다. 다운믹스 신호(18)와 함께 SAOC 파라미터를 포함하는 보조 정보(20)는 SAOC 디코더(12)에 의해 수신되는 SAOC 출력 데이터 스트림을 형성한다.

SAOC 디코더(12)는 오디오 신호

내지

를 복구하여 채널

내지

의 임의의 사용자 선택 세트로 렌더링하기 위해 다운믹스 신호(18)뿐만 아니라 보조 정보(20)를 수신하는 업 믹서를 포함하며, 이러한 렌더링은 정보(26)의 입력을 SAOC 디코더(12)로 렌더링함으로써 미리 정해진다.

오디오 신호 S₁ 내지 S_N은 시간 또는 스펙트럼 도메인과 같은 임의의 코딩 도메인 내의 인코더(10)로 입력될 수 있다. 오디오 신호 S₁ 내지 S_N가 코딩된 PCM과 같이 시간 도메인 내의 인코더(10)에 공급되는 경우에, 인코더(10)는 신호를 스펙트럼 도메인으로 전송하기 위해 하이브리드 QMF 뱅크와 같은 필터 뱅크를 사용할 수 있으며, 오디오 신호는 특정 필터 뱅크 해상도에서 상이한 스펙트럼 부분과 관련된 여러 개의 서브대역으로 표현된다. 오디오 신호(S₁ 내지 S_N)가 인코더(10)에 의해 예상되는 표현에 이미 있다면, 이는 스펙트럼 분해를 수행할 필요가 없다.

도 4는 상술한 스펙트럼 도메인의 오디오 신호를 도시한다. 알 수 있는 바와 같이, 오디오 신호는 복수의 서브대역 신호로서 표현된다. 각각의 서브대역 신호(30₁ 내지 30_K)는 작은 박스로 표시된 서브대역 값의 시간적 시퀀스로 구성된다. 알 수 있는 바와 같이, 서브대역 신호(30₁ 내지 30_K)의 서브대역 값(32)은, 연속 필터 뱅크의 시간 슬롯(34)의 각각에 대해, 각각의 서브대역 신호(30₁ 내지 30_K)가 정확히 하나의 서브대역 값(32)을 포함하도록 시간적으로 서로 동기화된다. 주파수 축(36)에 의해 도시된 바와 같이, 서브대역 신호(30₁ 내지 30_K)는 서로 다른 주파수 영역과 관련되고, 시간 축(38)에 의해 도시된 바와 같이, 필터 뱅크의 시간 슬롯(34)은 시간적으로 연속 배치된다.

상술한 바와 같이, 도 3의 보조 정보 추출기(17)는 입력 오디오 신호(S₁ 내지 S_N)로부터 SAOC 파라미터를 계산한다. 현재 구현된 SAOC 표준에 따르면, 인코더(10)는 이러한 계산을 시간/주파수 해상도로 수행하며, 이러한 시간/주파수 해상도는 필터 뱅크 시간 슬롯(34)에 의해 결정된 바와 같은 원래의 시간/주파수 해상도와 서브대역 분해에 대해 일정량만큼 감소될 수 있으며, 이러한 일정량은 보조 정보(20) 내에서 디코더 측으로 신호 전송된다. 연속 필터 뱅크의 시간 슬롯(34)의 그룹은 SAOC 프레임(41)을 형성할 수 있다. 또한 SAOC 프레임(41) 내의 파라미터 대역의 수는 보조 정보(20) 내에 전달된다. 따라서, 시간/주파수 도메인은 도 4에서 점선(42)에 의해 예시된 시간/주파수 타일(tile)로 분할된다. 도 4에서, 시간/주파수 타일의 정규 배치가 획득되도록 파라미터 대역은 다양한 도시된 SAOC 프레임(41)에서 동일한 방식으로 분포된다. 그러나, 일반적으로, 각각의 SAOC 프레임(41) 내의 스펙트럼 해상도에 대한 다양한 필요에 따라 파라미터 대역은 하나의 SAOC 프레임(41)에서 다음의 SAOC 프레임까지 달라질 수 있다. 더욱이, SAOC 프레임(41)의 길이는 또한 달라질 수 있다. 결과적으로, 시간/주파수 타일의 배치는 불규칙할 수 있다. 그럼에도 불구하고, 특정 SAOC 프레임(41) 내의 시간/주파수 타일은 일반적으로 동일한 지속 기간을 가지고, 시간 방향으로 정렬되며, 즉, 상기 SAOC 프레임(41) 내의 모든 시간/주파수 타일은 주어진 SAOC 프레임(41)의 시작에서 개시하고, 상기 SAOC 프레임(41)의 끝에서 종료한다.

도 3에 도시된 보조 정보 추출기(17)는 다음 식에 따라 SAOC 파라미터를 계산한다. 특히, 보조 정보 추출기(17)는 다음과 같이 각각의 객체 i에 대한 객체 레벨차를 계산하며,

합계 및 지수 n 및 k는 각각 SAOC 프레임(또는 처리 시간 슬롯)에 대한 지수 l 및 파라미터 대역에 대한 지수 m에 의해 참조되는 특정한 시간/주파수 타일(42)에 속하는 모든 시간 지수(34) 및 모든 스펙트럼 지수(30)를 거친다(go through). 이에 의해, 오디오 신호 또는 객체 i의 서브대역 값 x_i의 에너지는 합산되어, 모든 객체 또는 오디오 신호 중 타일의 가장 높은 에너지 값으로 정규화된다.

는

의 공액 복소수를 나타낸다.

또한, SAOC 보조 정보 추출기(17)는 서로 다른 입력 객체(S₁ 내지 S_N)의 쌍의 대응하는 시간/주파수 타일의 유사성 척도(similarity measure)를 계산할 수 있다. SAOC 보조 정보 추출기(17)가 입력 객체(S₁ 내지 S_N)의 모든 쌍 사이의 유사성 척도를 계산할 수 있지만, 보조 정보 추출기(17)는 또한 유사성 척도의 시그널링을 억제하거나 일반적인 스테레오 채널의 왼쪽 또는 오른쪽 채널을 형성하는 오디오 객체(S₁ 내지 S_N)로 유사성 척도의 계산을 제한할 수 있다. 어떤 경우에, 유사성 척도는 객체 간 교차 상관 파라미터라고 한다. 이러한 계산은 다음과 같다:

다시 지수 n 및 k는 특정한 시간/주파수 타일(42)에 속하는 모든 서브대역 값을 거치고, i 및 j는 오디오 객체(S₁ 내지 S_N)의 특정 쌍을 나타내며, Re{}는 복소 인수의 허수 부분을 버리는 연산을 나타낸다.

도 3의 다운믹서(16)는 각각의 객체(S₁ 내지 S_N)에 적용되는 이득 계수를 이용하여 객체(S₁ 내지 S_N)를 다운믹스한다. 즉, 이득 계수 d_i는 객체 i에 적용된 후, 따라서 가중된 모든 객체(S₁ 내지 S_N)는 P=1일 경우에 도 3에서 예시되는 모노 다운믹스 신호를 획득하기 위해 합산된다. P=2일 경우에 도 3에서 도시된 2채널 다운믹스 신호의 다른 예시적인 경우에, 이득 계수 d_1,i는 객체 i에 적용된 후, 이러한 모든 이득 증폭된 객체는 왼쪽 다운믹스 채널 L0를 획득하기 위해 합산되고, 이득 계수 d_2,i는 객체 i에 적용된 후, 따라서 이득 증폭된 객체는 오른쪽 다운믹스 채널 R0를 획득하기 위해 합산된다. 위와 유사한 처리는 멀티채널 다운믹스(P>2)의 경우에 적용될 수 있다.

이러한 다운믹스 처방(prescription)은 다운믹스 이득 DMG_i 및 스테레오 다운믹스 신호의 경우에는 다운믹스 채널 레벨차 DCLD_i에 의해 디코더 측에 시그널링된다.

다운믹스 이득은 다음 식에 따라 계산된다:

, (모노 다운믹스)

, (스테레오 다운믹스),

여기서

은 10^-9와 같은 작은 수이다.

DCLD의 경우, 다음과 같은 식이 적용한다:

정상 모드에서, 다운믹서(16)는 다음 식에 따라 다운믹스 신호를 생성한다:

모노 다운믹스의 경우, 또는

각각 스테레오 다운믹스의 경우.

따라서, 상술한 식에서, 파라미터 OLD 및 IOC는 오디오 신호의 함수이고, 파라미터 DMG 및 DCLD는 d의 함수이다. 이러한 방식에 의해, d는 시간 및 주파수에서 변화할 수 있다는 것이 주목된다.

따라서, 정상 모드에서, 다운믹서(16)는 우선권을 갖지 않은 모든 객체(S₁ 내지 S_N)를 믹스하며, 즉 모든 객체(S₁ 내지 S_N)를 동등하게 처리한다.

디코더 측에서, 업믹서는 하나의 계산 단계에서, 즉 2채널 다운믹스의 경우에 매트릭스 R(문헌에서는 때때로 또한 A라고 함)의 의해 표현되는 "렌더링 정보"(26)의 구현 및 다운믹스 절차의 반전을 수행한다:

여기서, 매트릭스 E는 파라미터 OLD 및 IOC의 함수이고, 매트릭스 D는 다음과 같은 다운믹스 계수를 포함한다:

매트릭스 E는 오디오 객체(S₁ 내지 S_N)의 추정된 공분산 매트릭스이다. 현재 SAOC 구현에서, 추정된 공분산 매트릭스 E의 계산은 일반적으로 추정된 공분산 매트릭스가 E^l,m으로 기록될 수 있도록 SAOC 파라미터의 스펙트럼/시간 해상도에서, 즉, 각(l,m)에 대해 수행된다. 추정된 공분산 매트릭스 E^l,m는 다음과 같이 정의되는 계수를 가진 크기 N x N의 매트릭스이다.

따라서, 다음의 것을 가진 매트릭스 E^l,m는

i=j에 대해

및

이므로 대각선을 따라 객체 레벨차, 즉 i=j에 대해

를 갖는다. 이의 대각선 외부에서, 추정된 공분산 매트릭스 E는 각각 객체 간 교차 상관 척도

로 가중되는 객체 i 및 j의 객체 레벨차의 기하학적 평균을 나타내는 매트릭스 계수를 갖는다.

도 5는 SAOC 인코더(10)의 부분으로서 보조 정보 추정기(SIE)의 예에 대한 구현의 하나의 가능한 원리를 표시한다. SAOC 인코더(10)는 믹서(16) 및 보조 정보 추정기(SIE)(17)를 포함한다. SIE는 개념적으로 두 모듈로 개념적으로 구성된다. 즉 하나의 모듈(45)은 각 신호의 단시간 기반 시간/주파수(t/f) 표현(예를 들어, STFT 또는 QMF)을 계산하기 위한 것이다. 계산된 단시간 t/f 표현은 제 2 모듈(46), t/f 선택적 보조 정보 추정 모듈(t/f-SIE)로 공급된다. t/f-SIE 모듈(46)은 각각의 t/f-타일에 대한 보조 정보를 계산한다. 현재 SAOC 구현에서, 시간/주파수 변환은 고정되어 모든 오디오 객체(S₁ 내지 S_N)에 대해 동일하다. 더욱이, SAOC 파라미터는 모든 오디오 객체에 대해 동일한 SAOC 프레임을 통해 결정되고, 모든 오디오 객체(S₁ 내지 S_N)에 대해 동일한 시간/주파수 해상도를 가지며, 따라서 어떤 경우에는 미세한 시간 해상도 또는 다른 경우에는 미세한 스펙트럼 해상도에 대한 객체 특정 요구를 무시한다.

다음에는, 본 발명의 실시예가 설명된다.

도 1은 일 실시예에 따라 적응된 오디오 정보를 획득하기 위해 하나 이상의 오디오 객체를 인코딩하는 입력 오디오 정보를 적응시키기 위한 장치를 도시한 것이다.

입력 오디오 정보는 둘 이상의 입력 오디오 다운믹스 채널을 포함하고, 입력 파라메트릭 보조 정보를 더 포함한다. 적응된 오디오 정보는 하나 이상의 적응된 오디오 다운믹스 채널을 포함하고, 적응된 파라메트릭 보조 정보를 더 포함한다.

장치는 적응 정보에 따라 하나 이상의 적응된 오디오 다운믹스 채널을 획득하기 위해 둘 이상의 입력 오디오 다운믹스 채널을 적응시기키 위한 다운믹스 신호 수정자(DSM)(110)를 포함한다.

더욱이, 장치는 적응 정보에 따라 적응된 파라메트릭 보조 정보를 획득하기 위해 입력 파라메트릭 보조 정보를 적응시기키 위한 파라메트릭 보조 정보 적응기(PSIA)(120)를 포함한다.

도 2는 다른 실시예에 따라 적응된 오디오 정보를 획득하기 위해 하나 이상의 오디오 객체를 인코딩하는 입력 오디오 정보를 적응시키기 위한 장치를 도시한 것이다.

실시예에서, 적응 정보는 디코더 인스턴스에 의존할 수 있고, 다운믹스 신호 수정자(110)는 디코더 인스턴스에 따라 둘 이상의 입력 오디오 다운믹스 채널을 적응시키도록 구성될 수 있다.

예를 들면, 도 2의 다운믹스 신호 수정자(110)는 다운믹스를 특정 디코더 인스턴스의 능력에 적응시킨다.

실시예에 따르면, 다운믹스 신호 수정자(110)는 적응 정보에 따라 둘 이상의 입력 오디오 다운믹스 채널을 적응시킴으로써, 하나 이상의 적응된 오디오 다운믹스 채널의 수가 둘 이상의 입력 오디오 다운믹스 채널의 수보다 작도록 구성될 수 있다.

예를 들면, 도 2의 실시예에서, 다운믹스 신호 수정자(110)는 전송/다운믹스 채널의 수를 감소시킨다.

예를 들면, 22.2 입력 오디오 다운믹스 채널(=24 입력 오디오 다운믹스 채널)은 7.1 적응된 오디오 다운믹스 채널(= 8 적응된 오디오 다운믹스 채널)로 감소될 수 있다.

또는, 예를 들면, 5.1 입력 오디오 다운믹스 채널(=6 입력 오디오 다운믹스 채널)은 2.0 적응된 오디오 다운믹스 채널(= 2 적응된 오디오 다운믹스 채널)로 감소된다.

또는, 예를 들면, 2 입력 오디오 다운믹스 채널은 1 적응된 오디오 다운믹스 채널로 감소된다.

입력 오디오 다운믹스 채널 및 적응된 오디오 다운믹스 채널의 다양한 다른 조합이 가능하다.

실시예에 따르면, 디코더 인스턴스는 많아야 다운믹스 채널의 최대 수를 디코딩할 수 있다. 적응 정보는 상기 다운믹스 채널의 최대 수에 의존할 수 있다. 더욱이, 다운믹스 신호 수정자(110)는 하나 이상의 적응된 오디오 다운믹스 채널을 획득하기 위해 적응 정보에 따라 둘 이상의 입력 오디오 다운믹스 채널을 적응시킴으로써, 하나 이상의 적응된 다운믹스 채널의 수가 상기 다운믹스 채널의 최대 수와 동일하도록 구성될 수 있다.

예를 들면, 도 2의 다운믹스 신호 수정자(110)는 특정 디코더 인스턴스의 최대 지원된 출력 채널 구성에 대응하는 오디오 신호로 다운믹스를 변환한다.

실시예에 따르면, 적응 정보는 예를 들어 적응 매트릭스

를 포함할 수 있다.

파라메트릭 보조 정보 적응기(120)는 예를 들어 디코더에 대한 계산 복잡도를 감소시키고, 디코더 출력 오디오 품질에 부정적인 영향을 생성시키지 않고 대응하는 데이터 비트스트림 크기/비트율을 감소시키기 위해 수정된 다운믹스에 대응하도록 PSI를 적응시킨다.

예를 들면, PSIA(120)는 초기 다운믹스 매트릭스를 나타내는 정보를 디코더의 특정 사양에 대응하도록 (DSM 수정을 설명하는) 생성된 다운믹스를 나타내는 업데이트된 정보로 대체하는 대응하는 PSI 비트스트림을 수정한다.

예를 들면, SAOC 인코더는 입력 오디오 객체 신호 S에 대한 인코더 다운믹스 매트릭스

의 적용으로부터 생성된 스테레오 다운믹스 신호

를 제공한다:

실시예에 따르면, 다운믹스 신호 수정자(110)는 적응 매트릭스

에 따라 하나 이상의 적응된 오디오 다운믹스 채널

을 획득하기 위해 둘 이상의 입력 오디오 다운믹스 채널

을 적응시키도록 구성될 수 있다. 실시예에서, 이것은 예를 들어 식

을 적용함으로써 실현된다.

예를 들면, 실시예에서, 특정 SAOC 디코더 인스턴스는 모노 다운믹스(예를 들어, SAOC Low Delay profile/Level 1)만을 지원하는 것이 추정된다. 이 경우에, DSM(110)은 다음과 같이 미리 정의된 다운믹스 매트릭스

를 이용하여 스테레오 다운믹스

를 모노 신호

로 변환한다.

실시예에 따르면, 파라메트릭 보조 정보 적응기(120)는 적응 매트릭스

에 따라, 적응된 파라메트릭 보조 정보

를 획득하기 위해 입력 파라메트릭 보조 정보

를 적응시키도록 구성될 수 있다. 실시예에서, 이것은 예를 들어 아래 식을 적용함으로써 실현될 수 있다:

예를 들면, 실시예에 따르면, PSIA(120)는 대응하는 PSI 비트스트림을 분석하고, 다운믹스 매트릭스

를 나타내는 정보를 추출하여, 이러한 데이터를 새로운 다운믹스 매트릭스

를 나타내는 업데이트된 정보로 대체한다:

따라서, 실시예에 따르면, 입력 파라메트릭 보조 정보

는 초기 다운믹스 매트릭스

이 획득되도록 적응된 다운믹스 매트릭스

실시예에서, PSIA는 수정된 새로운 비트스트림을 포맷하거나 이러한 파라미터를 디코더로 직접 전달한다.

PSIA에 의해 수행되는 이러한 인코딩 및 디코딩 프로세스는 또한 서로 다른 다운믹스 매트릭스 표현 포맷(예를 들어 극 좌표계 대 직교 좌표계)의 변환을 포함할 수 있다.

PSIA의 이러한 설명된 기능은 잠재적인 호환성 문제를 해결하여, 대응하는 비트스트림의 크기를 줄일 수 있다.

도 7은 일 실시예에 따라 하나 이상의 오디오 객체를 인코딩하는 입력 오디오 정보로부터 하나 이상의 오디오 채널을 생성하기 위한 장치(700)를 도시한 것이다.

하나 이상의 오디오 채널을 생성하기 위한 장치(700)는 적응된 오디오 정보를 획득하기 위해 입력 오디오 정보를 적응시키기 위해 상술한 실시예 중 하나에 따른 장치(710)를 포함한다. 입력 오디오 정보는 둘 이상의 입력 오디오 다운믹스 채널을 포함하고, 입력 파라메트릭 보조 정보를 더 포함한다. 적응된 오디오 정보는 하나 이상의 적응된 오디오 다운믹스 채널을 포함하고, 적응된 파라메트릭 보조 정보를 더 포함한다.

입력 오디오 정보를 적응시키기 위해 상술한 실시예 중 하나에 따른 장치(710)는 다운믹스 신호 수정자(110) 및 파라메트릭 보조 정보를 적응기(120)를 포함한다.

더욱이, 하나 이상의 오디오 채널을 생성하기 위한 장치(700)는 적응 파라메트릭 보조 정보에 따라 하나 이상의 오디오 채널을 획득하도록 하나 이상의 적응된 오디오 다운믹스 채널을 디코딩하기 위한 디코더 인스턴스(720)를 포함한다.

실시예에 따르면, 입력 오디오 정보를 적응시키기 위한 장치(710)의 파라메트릭 보조 정보 적응기(120)는 입력 파라메트릭 보조 정보를 포함하는 입력 비트 스트림을 수신하도록 구성될 수 있다. 입력 오디오 정보를 적응시키기 위한 장치(710)의 파라메트릭 보조 정보 적응기(120)는 적응된 파라메트릭 보조 정보를 획득하여, 적응된 파라메트릭 보조 정보를 디코더 인스턴스(720)로 공급하기 위해 입력 파라메트릭 보조 정보를 적응시키도록 구성될 수 있다. 디코더 인스턴스(720)는 적응된 파라메트릭 보조 정보에 따라 하나 이상의 적응된 오디오 다운믹스 채널을 디코딩하도록 구성될 수 있다.

다른 실시예에서, 입력 오디오 정보를 적응시키기 위한 장치(710)의 파라메트릭 보조 정보 적응기(120)는 입력 파라메트릭 보조 정보를 포함하는 입력 비트 스트림을 수신하도록 구성될 수 있다. 입력 오디오 정보를 적응시키기 위한 장치(710)의 파라메트릭 보조 정보 적응기(120)는 수정된 비트 스트림을 획득하기 위해 입력 비트 스트림 내의 입력 파라메트릭 보조 정보를 적응된 파라메트릭 보조 정보로 대체하도록 구성될 수 있다. 입력 오디오 정보를 적응시키기 위한 장치(710)의 파라메트릭 보조 정보 적응기(120)는 수정된 비트 스트림을 디코더 인스턴스(720)로 공급하도록 구성될 수 있다. 더욱이, 디코더 인스턴스(720)는 수정된 비트 스트림에 따라 하나 이상의 적응된 오디오 다운믹스 채널을 디코딩하도록 구성될 수 있다.

도 8 및 도 9는 입력 오디오 정보를 디코딩 처리 체인에 적응시키기 위한 장치를 통합하는 2가지 가능성을 도시한다.

도 8은 일 실시예에 따른 인코딩/디코딩 방식 내의 공동 PSIA 애플리케이션을 도시한다.

도 8은 하나 이상의 오디오 객체를 인코딩하는 입력 오디오 정보로부터 하나 이상의 오디오 채널을 생성하기 위한 복수의 장치(800, 801, 802)를 도시하며, 하나 이상의 오디오 채널을 생성하기 위한 장치(800)는 입력 오디오 정보 및 디코더 인스턴스(820)를 적응시키기 위한 장치(810)를 포함하고, 하나 이상의 오디오 채널을 생성하기 위한 장치(801)는 입력 오디오 정보 및 디코더 인스턴스(821)를 적응시키기 위한 장치(811)를 포함하며, 하나 이상의 오디오 채널을 생성하기 위한 장치(802)는 입력 오디오 정보 및 디코더 인스턴스(822)를 적응시키기 위한 장치(812)를 포함한다. 예를 들면, 하나 이상의 오디오 채널을 생성하고, 입력 오디오 정보 및 디코더 인스턴스(820)를 적응시키기 위한 장치(810)를 포함하기 위한 장치(800)는 단일 하드웨어 유닛(800)으로서 실현될 필요는 없지만, 대신에 유선에 의해 접속되거나 무선으로 접속되는 2개의 별도의 유닛(810, 820)에 의해 실현될 수 있다는 것이 주목되어야 한다.

입력 오디오 정보를 적응시키기 위한 장치의 공동(통합) 구현은 디코딩을 위한 계산 복잡도를 감소시키기 위해 실현될 수 있다(도 8 참조). 게다가, 이것은 입력 오디오 정보 및 디코더를 적응시키기 위한 장치 사이의 비양자화(비코딩)된 인터페이스를 구현한다. 이것은 특히 전력 소비를 감소시키기 위한 모바일 애플리케이션 장치에 관련될 수 있다.

도 9는 일 실시예에 따른 인코딩/디코딩 방식 내의 분리 PSIA 애플리케이션을 도시한다.

특히, 도 9는 하나 이상의 오디오 객체를 인코딩하는 입력 오디오 정보로부터 하나 이상의 오디오 채널을 생성하기 위한 복수의 장치(900, 901, 902)를 도시하며, 하나 이상의 오디오 채널을 생성하기 위한 장치(900)는 입력 오디오 정보 및 디코더 인스턴스(920)를 적응시키기 위한 장치(910)를 포함하고, 하나 이상의 오디오 채널을 생성하기 위한 장치(901)는 입력 오디오 정보 및 디코더 인스턴스(921)를 적응시키기 위한 장치(911)를 포함하며, 하나 이상의 오디오 채널을 생성하기 위한 장치(902)는 입력 오디오 정보 및 디코더 인스턴스(922)를 적응시키기 위한 장치(912)를 포함한다. 예를 들면, 하나 이상의 오디오 채널을 생성하고, 입력 오디오 정보 및 디코더 인스턴스(920)를 적응시키기 위한 장치(910)를 포함하기 위한 장치(900)는 단일 하드웨어 유닛(800)으로서 실현될 필요는 없지만, 대신에 유선에 의해 접속되거나 무선으로 접속되는 2개의 별도의 유닛(810, 820)에 의해 실현될 수 있다는 것이 주목되어야 한다.

입력 오디오 정보를 적응시키기 위한 장치의 분리(별도) 구현은 대응하는 데이터 비트스트림 크기/비트율을 감소시키기 위해 실현될 수 있다(도 9 참조). 이것은 특히 저장 및 전송 용량을 제한하는 모바일 애플리케이션 장치 및 좁은 데이터 전환 채널을 가진 MCU(Multi-point Control Unit) 시스템에 관련될 수 있다.

일부 양태가 장치와 관련하여 설명되었지만, 이러한 양태는 또한 대응하는 방법의 설명을 나타내며, 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 대응한다는 것이 분명하다. 유사하게, 방법 단계와 관련하여 설명된 양태는 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징에 대한 설명을 나타낸다.

본 발명의 분해된 신호(decomposed signal)는 디지털 저장 매체 상에 저장될 수 있거나 인터넷과 같은 유선 전송 매체 또는 무선 전송 매체와 같은 전송 매체 상에 전송될 수 있다.

어떤 구현 요구 사항에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 이러한 구현은 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 이용하여 수행될 수 있으며, 이러한 매체는 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능한 제어 신호를 저장한다.

본 발명에 따른 일부 실시예는 본 명세서에서 설명된 방법 중 하나가 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능한 제어 신호를 갖는 비일시적(non-transitory) 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시예는 프로그램 코드를 가진 컴퓨터 프로그램 제품으로 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때 방법 중 하나를 수행하기 위해 동작한다. 프로그램 코드는 예를 들어 기계 판독 가능한 캐리어 상에 저장될 수 있다.

다른 실시예는 본 명세서에서 설명되고, 기계 판독 가능 캐리어 상에 저장된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

그래서, 다시 말하면, 본 발명의 방법의 실시예는 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 본 명세서에 설명된 방법 중 하나를 수행하기 위해 프로그램 코드를 갖는 컴퓨터 프로그램이다.

그래서, 본 발명의 방법의 추가의 실시예는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능한 매체)이며, 이러한 데이터 캐리어는 기록되고, 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

그래서, 본 발명의 방법의 추가의 실시예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 예를 들어 데이터 통신 접속, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.

추가의 실시예는 본 명세서에서 설명된 방법 중 하나를 수행하도록 구성되거나 적응되는 처리 수단, 예를 들어 컴퓨터 또는 프로그램 가능한 논리 장치를 포함한다.

추가의 실시예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 설치한 컴퓨터를 포함한다.

일부 실시예에서, 프로그램 가능한 논리 장치(예를 들어 필드 프로그램 가능한 게이트 어레이)는 본 명세서에서 설명된 방법의 기능의 일부 또는 모두를 수행하기 위해 이용될 수 있다. 일부 실시예에서, 필드 프로그램 가능한 게이트 어레이는 본 명세서에서 설명된 방법 중 하나를 수행하기 위해 마이크로 프로세서와 협력할 수 있다. 일반적으로, 이러한 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.

상술한 실시예는 단지 본 발명의 원리에 대한 예시이다. 본 명세서에서 설명된 배치의 수정 및 변형은 당업자에게는 자명할 것으로 이해된다. 따라서, 본 명세서에서 실시예의 설명에 의해 제시된 특정 상세 사항에 의해서가 아니라 첨부된 청구 범위에 의해서만 제한되는 것으로 의도된다.

참고자료

[MPS] ISO/IEC 23003-1:2007, MPEG-D (MPEG audio technologies), Part 1: MPEG Surround, 2007.

[BCC] C. Faller and F. Baumgarte, “Binaural Cue Coding - Part II: Schemes and applications,” IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003

[JSC] C. Faller, “Parametric Joint-Coding of Audio Sources”, 120th AES Convention, Paris, 2006

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007

[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008

[SAOC] ISO/IEC, “MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC),” ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

[ISS1] M. Parvaix and L. Girin: “Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding”, IEEE ICASSP, 2010

[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: “A watermarking-based method for informed source separation of audio signals with a single sensor”, IEEE Transactions on Audio, Speech and Language Processing, 2010

[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: “Informed source separation through spectrogram coding and data embedding”, Signal Processing Journal, 2011

[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: “Informed source separation: source coding meets source separation”, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011

[ISS5] Shuhua Zhang and Laurent Girin: “An Informed Source Separation System for Speech Signals”, INTERSPEECH, 2011

[ISS6] L. Girin and J. Pinel: “Informed Audio Source Separation from Compressed Linear Stereo Mixtures”, AES 42nd International Conference: Semantic Audio, 2011

Claims

적응된 오디오 정보를 획득하기 위해 하나 이상의 오디오 객체를 인코딩하는 입력 오디오 정보를 적응시키기 위한 장치로서, 상기 입력 오디오 정보는 둘 이상의 입력 오디오 다운믹스 채널을 포함하고, 입력 파라메트릭 보조 정보(input parametric side information)를 더 포함하며, 적응된 오디오 정보는 하나 이상의 적응된 오디오 다운믹스 채널을 포함하고, 적응된 파라메트릭 보조 정보를 더 포함하며, 상기 장치는:
적응 정보에 따라 상기 하나 이상의 적응된 오디오 다운믹스 채널을 획득하기 위해 상기 둘 이상의 입력 오디오 다운믹스 채널을 적응시키기 위한 다운믹스 신호 수정자(110)(downmix signal modifier), 및
상기 적응 정보에 따라 상기 적응된 파라메트릭 보조 정보를 획득하기 위해 상기 입력 파라메트릭 보조 정보를 적응시키기 위한 파라메트릭 보조 정보 적응기(120)(parametric side information adapter)를 포함하고,
상기 적응 정보는 적응 매트릭스
를 포함하고,
상기 다운믹스 신호 수정자(110)는, 상기 적응 매트릭스
에 따라, 상기 하나 이상의 적응된 오디오 다운믹스 채널
을 획득하기 위해 상기 둘 이상의 입력 오디오 다운믹스 채널
을 적응시키도록 구성되고,
상기 파라메트릭 보조 정보 적응기(120)는, 상기 적응 매트릭스
에 따라, 상기 적응된 파라메트릭 보조 정보
를 획득하기 위해 상기 입력 파라메트릭 보조 정보
를 적응시키도록 구성되고,
상기 장치는 하드웨어 장치를 사용하여, 또는 컴퓨터를 사용하여, 또는 하드웨어 장치 및 컴퓨터의 결합을 사용하여 구현되는,
입력 오디오 정보를 적응시키기 위한 장치.
제 1 항에 있어서,
상기 입력 파라메트릭 보조 정보
는 초기 다운믹스 매트릭스
를 상기 하나 이상의 오디오 객체(S)에 적용함으로써 상기 둘 이상의 입력 오디오 다운믹스 채널
이 획득되도록 초기 다운믹스 매트릭스
를 나타내고,
상기 파라메트릭 보조 정보 적응기(120)는 적응된 다운믹스 매트릭스
를 상기 하나 이상의 오디오 객체(S)에 적용함으로써 상기 하나 이상의 적응된 오디오 다운믹스 채널
이 획득되도록 적응된 다운믹스 매트릭스
를 상기 적응된 파라메트릭 보조 정보로서 판단하도록 구성되는 입력 오디오 정보를 적응시키기 위한 장치.
제 1 항에 있어서,
상기 다운믹스 신호 수정자(110)는 상기 하나 이상의 적응된 오디오 다운믹스 채널의 수가 상기 둘 이상의 입력 오디오 다운믹스 채널의 수보다 작도록 상기 적응 정보에 따라 상기 둘 이상의 입력 오디오 다운믹스 채널을 적응시키기 위해 구성되는 입력 오디오 정보를 적응시키기 위한 장치.
제 1 항에 있어서,
상기 적응 정보는 디코더 인스턴스에 의존하고, 상기 다운믹스 신호 수정자(110)는 상기 디코더 인스턴스에 따라 상기 둘 이상의 입력 오디오 다운믹스 채널을 적응시키도록 구성되는 입력 오디오 정보를 적응시키기 위한 장치.
제 4 항에 있어서,
상기 디코더 인스턴스는 많아야 다운믹스 채널의 최대 수를 디코딩할 수 있고,
상기 적응 정보는 상기 다운믹스 채널의 상기 최대 수에 의존하며,
상기 다운믹스 신호 수정자(110)는 상기 하나 이상의 적응된 오디오 다운믹스 채널을 획득하기 위해 상기 적응 정보에 따라 상기 둘 이상의 입력 오디오 다운믹스 채널을 적응시킴으로써, 상기 하나 이상의 적응된 다운믹스 채널의 수가 상기 다운믹스 채널의 최대 수와 동일하도록 구성되는 입력 오디오 정보를 적응시키기 위한 장치.
제 1 항에 있어서,
상기 다운믹스 신호 수정자(110)는, 상기 적응 매트릭스
에 따라, 식
을 적용함으로써 상기 하나 이상의 적응된 오디오 다운믹스 채널
을 획득하기 위해 상기 둘 이상의 입력 오디오 다운믹스 채널
을 적응시키도록 구성되는 입력 오디오 정보를 적응시키기 위한 장치.
제 1 항에 있어서,
상기 파라메트릭 보조 정보 적응기(120)는, 적응 매트릭스
에 따라, 식
을 적용함으로써 적응된 파라메트릭 보조 정보
를 획득하기 위해 입력 파라메트릭 보조 정보
를 적응시키도록 구성되는 입력 오디오 정보를 적응시키기 위한 장치.
하나 이상의 오디오 객체를 인코딩하는 입력 오디오 정보로부터 하나 이상의 오디오 채널을 생성하기 위한 장치(700; 800, 801, 802; 900, 901, 902)로서, 상기 장치는:
적응된 오디오 정보를 획득하기 위해 상기 입력 오디오 정보를 적응시키기 위한 제 1 항 내지 제 6 항 중 어느 한 항에 따른 장치(710; 810, 811, 812; 910, 911, 912) ― 상기 입력 오디오 정보는 둘 이상의 입력 오디오 다운믹스 채널을 포함하고, 입력 파라메트릭 보조 정보를 더 포함하며, 상기 적응된 오디오 정보는 하나 이상의 적응된 오디오 다운믹스 채널을 포함하고, 적응된 파라메트릭 보조 정보를 더 포함함 ― , 및
상기 적응된 파라메트릭 보조 정보에 따라 상기 하나 이상의 오디오 채널을 획득하기 위해 상기 하나 이상의 적응된 오디오 다운믹스 채널을 디코딩하기 위한 디코더 인스턴스(720; 820, 821, 822; 920, 921, 922)를 포함하는, 오디오 채널을 생성하기 위한 장치.
제 8 항에 있어서,
제 1 항 내지 제 7 항 중 어느 한 항에 따른 장치(710; 810, 811, 812; 910, 911, 912)의 상기 파라메트릭 보조 정보 적응기(120)는 상기 입력 파라메트릭 보조 정보를 포함하는 입력 비트 스트림을 수신하도록 구성되고,
제 1 항 내지 제 7 항 중 어느 한 항에 따른 장치(710; 810, 811, 812; 910, 911, 912)의 상기 파라메트릭 보조 정보 적응기(120)는 상기 적응된 파라메트릭 보조 정보를 획득하기 위해 상기 입력 파라메트릭 보조 정보를 적응시키도록 구성되면서, 상기 적응된 파라메트릭 보조 정보를 상기 디코더 인스턴스(720; 820, 821, 822)로 공급하도록 구성되고,
상기 디코더 인스턴스(720; 820, 821, 822)는 상기 적응된 파라메트릭 보조 정보에 따라 상기 하나 이상의 적응된 오디오 다운믹스 채널을 디코딩하도록 구성되는, 오디오 채널을 생성하기 위한 장치.
제 8 항에 있어서,
제 1 항 내지 제 7 항 중 어느 한 항에 따른 장치(710; 910, 911, 912)의 상기 파라메트릭 보조 정보 적응기(120)는 상기 입력 파라메트릭 보조 정보를 포함하는 입력 비트 스트림을 수신하도록 구성되고,
제 1 항 내지 제 7 항 중 어느 한 항에 따른 장치(710; 910, 911, 912)의 상기 파라메트릭 보조 정보 적응기(120)는 수정된 비트 스트림을 획득하기 위해 상기 입력 비트 스트림 내의 상기 입력 파라메트릭 보조 정보를 상기 적응된 파라메트릭 보조 정보로 대체하도록 구성되고,
제 1 항 내지 제 7 항 중 어느 한 항에 따른 장치(710; 910, 911, 912)의 상기 파라메트릭 보조 정보 적응기(120)는 상기 수정된 비트 스트림을 상기 디코더 인스턴스(720; 920, 921, 922)로 공급하도록 구성되며,
상기 디코더 인스턴스(720; 920, 921, 922)는 상기 수정된 비트 스트림에 따라 상기 하나 이상의 적응된 오디오 다운믹스 채널을 디코딩하도록 구성되는, 오디오 채널을 생성하기 위한 장치.
적응된 오디오 정보를 획득하기 위해 하나 이상의 오디오 객체를 인코딩하는 입력 오디오 정보를 적응시키기 위한 방법으로서, 상기 입력 오디오 정보는 둘 이상의 입력 오디오 다운믹스 채널을 포함하고, 입력 파라메트릭 보조 정보를 더 포함하며, 상기 적응된 오디오 정보는 하나 이상의 적응된 오디오 다운믹스 채널을 포함하고, 적응된 파라메트릭 보조 정보를 더 포함하며, 상기 방법은:
적응 정보에 따라 상기 하나 이상의 적응된 오디오 다운믹스 채널을 획득하기 위해 상기 둘 이상의 입력 오디오 다운믹스 채널을 적응시키는 단계, 및
상기 적응 정보에 따라 상기 적응된 파라메트릭 보조 정보를 획득하기 위해 상기 입력 파라메트릭 보조 정보를 적응시키는 단계를 포함하고,
상기 적응 정보는 적응 매트릭스
를 포함하고,
상기 둘 이상의 입력 오디오 다운믹스 채널을 적응시키는 단계는, 상기 적응 매트릭스
에 따라, 상기 하나 이상의 적응된 오디오 다운믹스 채널
을 획득하기 위해 상기 둘 이상의 입력 오디오 다운믹스 채널
을 적응시키는 단계를 포함하고,
상기 입력 파라메트릭 보조 정보를 적응시키는 단계는, 상기 적응 매트릭스
에 따라, 상기 적응된 파라메트릭 보조 정보
를 획득하기 위해 상기 입력 파라메트릭 보조 정보
를 적응시키는 단계를 포함하고,
상기 방법은 하드웨어 장치를 사용하여, 또는 컴퓨터를 사용하여, 또는 하드웨어 장치 및 컴퓨터의 결합을 사용하여 구현되는,
입력 오디오 정보의 적응 방법.
제 11 항에 있어서,
상기 입력 파라메트릭 보조 정보
는 초기 다운믹스 매트릭스
를 상기 하나 이상의 오디오 객체(S)에 적용함으로써 상기 둘 이상의 입력 오디오 다운믹스 채널
이 획득되도록 초기 다운믹스 매트릭스
를 나타내고,
상기 입력 파라메트릭 보조 정보를 적응시키는 단계는, 적응된 다운믹스 매트릭스
를 상기 하나 이상의 오디오 객체(S)에 적용함으로써 상기 하나 이상의 적응된 오디오 다운믹스 채널
이 획득되도록 적응된 다운믹스 매트릭스
를 상기 적응된 파라메트릭 보조 정보로서 판단하는 단계를 포함하는,
입력 오디오 정보의 적응 방법.
컴퓨터 또는 신호 프로세서에 의해 실행되는 경우에 제 11 항 또는 제 12 항의 방법을 구현하기 위한 컴퓨터 프로그램을 포함하는 컴퓨터 판독가능한 매체.