KR101418661B1

KR101418661B1 - 다운믹스 시그널 표현에 기초한 업믹스 시그널 표현을 제공하기 위한 장치, 멀티채널 오디오 시그널을 표현하는 비트스트림을 제공하기 위한 장치, 왜곡 제어 시그널링을 이용하는 방법들, 컴퓨터 프로그램 및 비트 스트림

Info

Publication number: KR101418661B1
Application number: KR1020127012989A
Authority: KR
Inventors: 요나스 엥데가르트; 하이코 푸른하겐; 위르겐 헤레; 레온 테렌티브; 코넬리아 폴흐; 올리버 헬무쓰
Original assignee: 돌비 인터네셔널 에이비; 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2009-10-20
Filing date: 2010-10-19
Publication date: 2014-07-14
Also published as: CN102640213B; HK1175580A1; MX2012004621A; EP2491551B1; TWI431611B; MY153337A; RU2012118789A; AU2010309867B2; TW201131552A; US9060236B2; US20120243690A1; AU2010309867A1; RU2577199C2; CA2778239C; JP2013511053A; EP2491551A1; PL2491551T3; CN102640213A; KR20120082462A; AR078701A1

Abstract

오디오 컨텐트의 비트스트림 표현에 포함된 다운믹스 시그널 표현및 객체 관련 파라메트릭 정보에 기초하고, 렌더링 정보에 의존하여 업믹스 시그널 표현을 제공하는 장치는 렌더링 파라미터들의 부적절한 선택에 의해 발생된 가청 왜곡량을 회피하거나 제한하기 위해 왜곡 제어 기법을 사용하여 업믹스 파라미터들을 조정하도록 구성된 왜곡 제한기를포함한다. 왜곡 제한기는오디오컨텐트의비트스트림표현에포함된왜곡제한제어파라미터를 획득하고, 왜곡 제한 제어 파라미터에 의존하여 왜곡 제어 기법을 조정하도록 구성된다.

Description

다운믹스 시그널 표현에 기초한 업믹스 시그널 표현을 제공하기 위한 장치, 멀티채널 오디오 시그널을 표현하는 비트스트림을 제공하기 위한 장치, 왜곡 제어 시그널링을 이용하는 방법들, 컴퓨터 프로그램 및 비트 스트림{APPARATUS FOR PROVIDING AN UPMIX SIGNAL REPRESENTATION ON THE BASIS OF A DOWNMIX SIGNAL REPRESENTATION, APPARATUS FOR PROVIDING A BITSTREAM REPRESENTING A MULTICHANNEL AUDIO SIGNAL, METHODS, COMPUTER PROGRAM AND BITSTREAM USING A DISTORTION CONTROL SIGNALING}

본 발명에 따른 실시예는 오디오 컨텐트의 비트스트림 표현에 포함된 다운믹스 시그널 표현 및 객체 관련 파라메트릭 정보와 렌더링 정보에 기초하여 업믹스 시그널 표현을 제공하기 위한 장치에 관한 것이다.

본 발명에 따른 다른 실시예는 멀티-채널 오디오 시그널을 표현하는 비트스트림을 제공하기 위한 장치에 관한 것이다.

본 발명에 따른 다른 실시예는 오디오 컨텐트의 비트스트림 표현에 포함된 다운믹스 시그널 표현 및 객체 관련 파라메트릭 정보와 렌더링 정보에 기초하여 업믹스 시그널 표현을 제공하기 위한 방법에 관한 것이다.

본 발명에 따른 다른 실시예는 멀티-채널 오디오 시그널을 표현하는 비트스트림을 제공하기 위한 방법에 관한 것이다.

본 발명에 따른 다른 실시예는 상술한 방법들 중 하나를 구현하는 컴퓨터 프로그램에 관한 것이다.

본 발명에 따른 다른 실시예는 멀티-채널 오디오 시그널을 표현하는 비트스트림에 관한 것이다.

종래 기술의 오디오 처리, 오디오 전송 및 오디오 저장에 있어서, 히어링 임프레션(hearing impression)을 개선하기 위하여 멀티-채널 컨텐트들을 다루는 요구가 증가하고 있다. 멀티-채널 오디오 컨텐트의 사용은 사용자에게 상당한 개선을 제공한다. 예를 들어, 3-차원의 히어링 임프레션을 획득할 수 있는데, 이는 엔터테인먼트 응용들(entertainment applications)에 있어 향상된 사용자 만족을 제공한다. 그러나, 멀티-채널 오디오 컨텐트들은 예를 들어, 전화로 회의하는 응용들에 있어 전문적인 분야에 이용될 수도 있는데, 이유는 멀티-채널 오디오 재생을 이용하여 화자의 이해도(speaker intelligibility)가 개선될 수 있기 때문이다.

그러나, 멀티-채널 응용들로 야기되는 과도한 리소스 부하를 피하기 위하여, 오디오 품질과 비트레이트 요건들(bitrate requirements) 간의 양호한 절충(tradeoff)을 이루는 것이 또한 바람직하다.

최근에, 다양한 오디오 객체들을 포함하는 오디오 신들(audio scenes)의 비트레이트-효율적인 전송 및/또는 저장을 위한 파라메트릭 기술들이 제안되었다. 예를 들어, 바이노럴 큐 코딩(Binaural Cue Coding)(Type I)(예를 들어, 참고 문헌 [BCC] 참조), 조인트 소스 코딩(Joint Source Coding)(예를 들어, 참고문헌 [JSC] 참조), 및 MPEG 공간 오디오 객체 코딩(SAOC)(Spatial Audio Object Coding)(예를 들어, 참고 문헌들 [SAOC1], [SAOC2] 및 미공개된 참고 문헌 [SAOC] 참조).

이들 기술들은 파형 매칭(waveform match)보다는 요구된 출력 오디오 신을 지각적으로 재구성(perceptually reconstructing)하기 위한 것이다.

도 8은 그와 같은 시스템(여기서, MPEG SAOC)의 시스템 개요를 도시한다. 도 8에 도시된 MPEG SAOC 시스템(800)은 SAOC 인코더(810) 및 SAOC 디코더(820)를 포함한다. SAOC 인코더(810)는, 예를 들어, 시간-도메인 시그널들 또는 시간-주파수-도메인 시그널들(예를 들어, 푸리에 변환(Fourier-type transform)의 변환 계수들의 세트 형태 또는 QMF 서브밴드 시그널들의 형태로)로서 표현될 수 있는 복수의 객체 시그널들(x₁ 내지 x_N)을 수신한다. 일반적으로, SAOC 인코더(810)는 객체 시그널들(x₁ 내지 x_N)과 연관된 다운믹스 계수들(d₁ 내지 d_N)을 또한, 수신한다. 다운믹스 계수들의 분리된 세트들은 다운믹스 시그널의 각각의 채널에 이용될 수 있다. 일반적으로, SAOC 인코더(810)는 연관된 다운믹스 계수들(d₁ 내지 d_N)에 따라 객체 시그널들(x₁ 내지 x_N)을 결합함으로써 다운믹스 시그널의 채널을 획득하도록 구성된다. 일반적으로, 다운믹스 채널들은 객체 시그널들(x₁ 내지 x_N)보다 적다. SAOC 디코더(820)의 사이드(side)에서 객체 시그널들의 분리(분리 처리)를 고려(적어도 대략)하기 위하여, SAOC 인코더(810)는 하나 이상의 다운믹스 시그널들(다운믹스 채널들로서 지칭)(812) 및 사이드 정보(814) 둘 다를 제공한다. 사이드 정보(814)는 디코더-사이드 객체 특정 처리(decoder-sided object-specific processing)를 고려하기 위해 객체 시그널들(x₁ 내지 x_N)의 특성들을 기술한다.

SAOC 디코더(820)는 하나 이상의 다운믹스 시그널들(812) 및 사이드 정보(814) 둘 다를 수신하도록 구성된다. 또한, 일반적으로, SAOC 디코더(820)는 요구된 렌더링 설정을 기술하는 사용자 상호작용 정보 및/또는 사용자 제어 정보(822)를 수신하도록 구성된다. 예를 들어, 사용자 상호작용 정보/사용자 제어 정보(822)는 스피커 설정(speaker setup)과 객체 시그널들(x₁ 내지 x_N)을 제공하는 객체들의 요구된 공간 배치를 기술할 수 있다.

SAOC 디코더(820)는 예를 들어, 복수의 디코딩된 업믹스 채널 시그널들(

내지

)을 제공하도록 구성된다. 업믹스 채널 시그널들은, 예를 들어, 멀티-스피커 렌더링 장치의 개별 스피커들과 연관될 수 있다. SAOC 디코더(820)는, 예를 들어, 하나 이상의 다운믹스 시그널들(812) 및 사이드 정보(814)에 기초하여 객체 시그널들(x₁ 내지 x_N)을, 적어도 대략, 재구성하도록 구성된 객체 분리기(820a)를 포함할 수 있고, 이에 의해, 재구성된 객체 시그널들(820b)을 획득한다. 그러나 재구성된 객체 시그널들(820b)은 원래의 객체 시그널들(x₁ 내지 x_N)로부터 다소 벗어날 수 있는데, 그 이유는, 예를 들어, 사이드 정보(814)는 비트레이트(bitrate)의 제약으로 인하여 완전한 재구성에 상당히 부족하기 때문이다. SAOC 디코더(820)는 재구성된 객체 시그널들(820b) 및 사용자 상호작용 정보/사용자 제어 정보(822)를 수신하고, 이에 기초하여, 업믹스 채널 시그널들(

내지

)을 제공하도록 구성될 수 있는 믹서(820c)를 더 포함할 수 있다. 믹서(820c)는 업믹스 채널 시그널들(

내지

)에 대한 개별 재구성된 객체 시그널들(820b)의 기여를 결정하기 위해 사용자 상호작용 정보 /사용자 제어 정보(822)를 사용하도록 구성될 수 있다. 사용자 상호작용 정보/사용자 제어 정보(822)는, 예를 들어, 업믹스 채널 시그널들(

내지

)에 대한 개별 재구성된 객체 시그널들(822)의 기여를 결정하는 렌더링 파라미터들(또한, 렌더링 계수들로서 지칭)을 포함할 수 있다.

그러나, 많은 실시예들에 있어서, 도 8에서 객체 분리기(820a)에 의해 나타내는 객체 분리와 도 8에서 믹서(820c)에 의해 나타내는 믹싱은 단일 단계에서 수행된다는 것을 주목해야 한다. 이를 위해, 업믹스 채널 시그널들(

내지

)에 하나 이상의 다운믹스 시그널들(812)의 직접 매핑을 기술하는 전체 파라미터들이 계산될 수 있다. 이들 파라미터들은 사이드 정보 및 사용자 상호작용 정보/사용자 제어 정보(822)에 기초하여 계산될 수 있다.

도 9A 내지 도 9C를 참조하여, 다운믹스 시그널 표현 및 객체-관련 사이드 정보에 기초하여 업믹스 시그널 표현을 획득하기 위한 다른 장치를 설명한다. 도 9A는 SAOC 디코더(920)를 포함하는 MPEG SAOC 시스템(900)의 도식적인 블록 다이어그램을 도시한다. SAOC 디코더(920)는 객체 디코더(922) 및 믹서/렌더러(926)를 분리된 기능 블록들로서 포함한다. 객체 디코더(922)는 다운믹스 시그널 표현(예를 들어, 시간 도메인 또는 시간-주파수-도메인에 표현된 하나 이상의 다운믹스 시그널들의 형태로) 및 객체-관련 사이드 정보(예를 들어, 객체 메타 데이터의 형태로)에 의존하여 복수의 재구성된 객체 시그널들(924)을 제공한다. 믹서/렌더러(926)는 복수의 N 객체들과 연관된 재구성된 객체 시그널들(924)을 수신하고, 이에 기초하여 하나 이상의 업믹스 채널 시그널들(928)을 제공한다. SAOC 디코더(920)에 있어서, 객체 시그널들(924)의 추출은, 믹싱/렌더링 기능으로부터 객체 디코딩 기능의 분리를 감안하지만 상대적으로 높은 계산 복잡성을 가져오는 믹싱/렌더링으로부터 분리하여 실행된다.

지금, 도 9B를 참조하여, SAOC 디코더(950)를 포함하는 다른 MPEG SAOC 시스템(930)을 간단히 설명한다. SAOC 디코더(950)는 다운믹스 시그널 표현(예를 들어, 하나 이상의 다운믹스 시그널들의 형태로) 및 객체-관련 사이드 정보(예를 들어, 객체 메타 데이터의 형태로)에 의존하여 복수의 업믹스 채널 시그널들(958)을 제공한다. SAOC 디코더(950) 객체 디코딩 및 믹싱/렌더링의 분리 없이 조인트 믹싱 프로세스(joint mixing process)에서 업믹스 채널 시그널들(958)을 획득하도록 구성된 결합된 객체 디코더 및 믹서/렌더러를 포함하고, 여기서, 상기 조인트 업믹스 프로세스에 대한 파라미터들은 객체-관련 사이드 정보 및 렌더링 정보 둘 모두에 의존한다. 조인트 믹싱 프로세스는 또한, 객체-관련 사이드 정보의 일부로 간주되는 다운믹스 정보에 의존한다.

상기 내용을 요약하면, 업믹스 채널 시그널들(928, 958)의 제공은 하나의 단계 프로세스 또는 두 개의 단계 프로세스에서 수행될 수 있다.

지금, 도 9C를 참조하여, MPEG SAOC 시스템(960)을 설명한다. SAOC 시스템(960)은 SAOC 디코더 대신에 SAOC 투 MPEG 서라운드 트랜스코더(980)를 포함한다.

SAOC 투 MPEG 서라운드 트랜스코더는 객체-관련 사이드 정보(예를 들어, 객체 메타 데이터의 형태로) 및, 선택적으로, 하나 이상의 다운믹스 시그널들에 관한 정보 및 렌더링 정보를 수신하도록 구성된 사이드 정보 트랜스코더(982)를 포함한다. 또한, 사이드 정보 트랜스코더는 수신된 데이터에 기초하여 MPEG 서라운드 사이드 정보(예를 들어, MPEG 서라운드 비트스트림의 형태로)를 제공하도록 구성된다. 따라서, 사이드 정보 트랜스코더(982)는, 렌더링 정보 및, 선택적으로 하나 이상의 다운믹스 시그널들의 컨텐트에 관한 정보를 고려하여, 객체 인코더로부터 수신된 객체-관련 (파라메트릭) 사이드 정보를 채널-관련(파라메트릭) 사이드 정보로 변환하도록 구성된다.

선택적으로, SAOC 투 MPEG 서라운드 트랜스코더(980)는, 매니퓰레이팅(manipulating)된 다운믹스 시그널 표현(988)을 획득하기 위해, 예를 들어 다운믹스 시그널 표현으로 기술되는 하나 이상의 다운믹스 시그널들을 매니퓰레이팅 하도록 구성될 수 있다. 그러나, 다운믹스 시그널 매니퓰레이터(manipulator)(986)는 생략될 수 있으며, 이때, SAOC 투 MPEG 서라운드 트랜스코더(980)의 출력 다운믹스 시그널 표현(988)은 SAOC 투 MPEG 서라운드 트랜스코더의 다운믹스 시그널 표현과 동일하다. 예를 들어, 다운믹스 시그널 매니퓰레이터(986)는 채널-관련 MPEG 서라운드 사이드 정보(984)가 일부 렌더링 컨스텔레이션들(constellations)에서의 경우가 될 수 있는 SAOC 투 MPEG 서라운드 트랜스코더(980)의 입력 다운믹스 시그널 표현에 기초하여 요구된 히어링 임프레션(hearing impression)의 제공을 허용하지 않는 경우에 이용될 수 있다.

따라서, SAOC 투 MPEG 서라운드 트랜스코더(980)는 다운믹스 시그널 표현(988) 및 MPEG 서라운드 비트스트림(984)을 제공하여, SAOC 투 MPEG 서라운드 트랜스코더(980)에 입력된 렌더링 정보에 따라 오디오 객체들을 표현하는 복수의 업믹스 채널 시그널들은 MPEG 서라운드 비트스트림(984) 및 다운믹스 시그널 표현(988)을 수신하는 MPEG 서라운드 디코더를 이용하여 생성될 수 있다.

상기 내용을 요약하면, SAOC-인코딩된 오디오 시그널들을 디코딩하기 위한 다른 개념들이 이용될 수 있다. 어떤 경우들에는 다운믹스 시그널 표현 및 객체-관련 파라메트릭 사이드 정보에 의존하여 업믹스 채널 시그널들(예를 들어, 업믹스 채널 시그널들(928, 958))을 제공하는 SAOC 디코더가 이용된다. 이러한 개념에 대한 예들은 도 9A 및 도 9B에서 볼 수 있다. 대안으로, SAOC-인코딩된 오디오 정보는 요구된 업믹스 채널 시그널들을 제공하기 위해 MPEG 서라운드 디코더에 의해 이용될 수 있는 다운믹스 시그널 표현(예를 들어, 다운믹스 시그널 표현(988)) 및 채널-관련사이드 정보(예를 들어, 채널-관련 MPEG 서라운드 비트스트림(984))를 획득하도록 트랜스코딩 될 수 있다.

MPEG SAOC 시스템(800)에 있어서, 그 시스템의 시스템 개요가 도 8에 제공되어 있으며, 일반적인 처리는 주파수 선택 방식으로 실행되며, 다음과 같은 각각의 주파수 밴드 내에서 설명될 수 있다.

● N 입력 오디오 객체 시그널들(x₁ 내지 x_N)은 SAOC 인코더 처리의 일부로서 다운믹싱 된다. 모노 다운믹스에 대해서, 다운믹스 계수들은 d₁ 내지 d_N으로 표시된다. 또한, SAOC 인코더(810)는 입력 오디오 객체들의 특성들을 기술하는 사이드 정보(814)를 추출한다. MPEG SAOC의 경우, 객체 전력들의 관계는 사이드 정보의 가장 기본적인 형태이다.

● 다운믹스 시그널(또는, 시그널들)(812) 및 사이드 정보(814)는 전송 및/또는 저장된다. 이를 위해, 다운믹스 오디오 시그널은 MPEG-1 레이어 II 또는 III(또한, ".mp3"으로서 공지됨), MPEG 고효율 오디오 코딩(AAC), 또는 어떤 다른 오디오 코더와 같은 이미 공지된 지각 오디오 코더들을 이용하여 압축될 수 있다.

● 수신 엔드(end)에서, SAOC 디코더(820)는 전송된 사이드 정보(814) (및, 당연히, 하나 이상의 다운믹스 시그널들(812))을 이용하여 원래의 객체 시그널("객체 분리")을 복원하도록 개념적으로 시도한다. 이후에, 이들 근사치로 계산된 객체 시그널들(또한, 재구성된 객체 시그널들(820b)로서 지칭)은 렌더링 매트릭스를 이용하여 M 오디오 출력 채널들(예를 들어, 업믹스 채널 시그널들(

내지

)에 의해 표현될 수 있음)에 의해 표현된 타겟 신(target scene)에 혼합된다. 모노 출력의 경우, 렌더링 매트릭스 계수들은 r₁ 내지 r_N으로 주어진다.

● 사실상, 객체 시그널들의 분리는 거의 실행되지 않는다(심지어는 결코 실행되지 않는다). 그 이유는, 분리 단계(객체 분리기(820a)에 의해 표시) 및 믹싱 단계(믹서(820c)에 의해 표시) 모두가 계산의 복잡성으로 막대한 감소를 자주 야기하는 단일 트랜스코딩 단계에 결합되기 때문이다.

이러한 기법은 전송 비트레이트(N (일반적으로, 이산) 객체 오디오 시그널들 플러스 선택적인 렌더링 정보 또는 이산 시스템 대신에, 약간의 다운믹스 채널들 플러스 약간의 사이드 정보를 전송하는 것만이 필요)와, 계산 복잡성(처리의 복잡성은 오디오 객체들의 수보다는 출력 채널들의 수에 주로 관계) 두 가지 측면에서 굉장히 효율적임이 확인되었다. 수신 엔드에서 사용자의 다른 장점들은 그 사용자 선택(모노, 스테레오, 서라운드, 가상 핸드폰 재생 등)의 렌더링 설정 및, 사용자 상호작용성의 기능: 렌더링 매트릭스를 자유롭게 선택하는 것을 포함하고, 이에 의해, 출력 신은 사용자의 의지, 개인 선호도 또는 다른 기준에 따라 상호 작용으로 설정 및 변경될 수 있다. 예를 들어, 하나의 공간 영역에서 하나의 그룹으로부터 화자들을 찾아서 다른 나머지 화자들과의 차별을 최대로 할 수 있다. 이러한 상호 작용성은 디코더 사용자 인터페이스를 제공하여 성취된다.

각각 전송된 사운드 객체에 대해서, 그 관련된 레벨 및 렌더링의 (모노 렌더링에 대해) 공간 위치는 조정될 수 있다. 이는 사용자가 연관된 그래픽 사용자 인터페이스(GUI) 슬라이더들(예를 들어: 객체 레벨 = +5dB, 객체 위치= -30deg)의 위치를 변경할 때 실시간으로 발생할 수 있다.

그러나, 업믹스 시그널 표현(예를 들어, 업믹스 채널 시그널들(

내지

))의 제공을 위해 파라미터들의 디코더-사이드 선택은 약간의 경우에 가청 저하(audible degradations)를 초래하는 것이 확인되었다.

이는 다운믹스/분리/믹스-기반 파라메트릭 접근법으로 인하여, 오디오 출력의 주관적인 품질이 렌더링 파라미터 설정들에 의존한다는 것이 확인되었다. 이는 관련된 객체 레벨의 변경들이 공간 렌더링 위치("(리-패닝(re-panning)")의 변경보다 더 많이 최종 오디오 품질에 영향을 주는 것이 확인되었다. 관련된 레벨 파라미터들에 대한 지나친 설정들(예를 들어, +20dB)은 심지어 기대할 수 없는 출력 품질로 이어진다.

이는 단순히 상기 기법의 기저를 이루는 지각 가정들 중 일부를 위반하는 결과이지만, 이는 상용 제품에 있어 사용자 인터페이스에 대한 설정들에 의존하는 저질의 사운드 및 아티팩트(artifacts)를 산출하는 것에 대해 여전히 허용될 수 없는 것이다.

명칭이 "왜곡 회피 오디오 시그널 처리를 위한 방법들, 장치 및 컴퓨터 프로그램들" 인 미국 특허 출원 제 61/173,456 호와, 명칭이 "다운믹스 시그널 표현에 기초하여 업믹스 시그널 표현의 제공을 위한 하나 이상의 조정된 파라미터를 제공하기 위한 장치, 오디오 시그널 디코더, 오디오 트랜스코더, 오디오 시그널 인코더, 오디오 비트스트림, 객체 관련 파라메트릭 정보를 이용하는 방법 및 컴퓨터 프로그램" (본 명세서에서는 “왜곡 제어의 예”로서 지칭)인 국제 특허 출원 제 PCT/EP2010/055717 호는 SAOC 시스템에서 객체 이득 변경으로부터 왜곡을 저감하기 위한 프로세스를 개시하고 있다. 이들 문서들은 왜곡 제어 및 왜곡 감소에 대한 다른 개념들을 개시하고 있으며, 이들 개념들은 본 발명에 따른 실시예의 범위에서 또는 조합으로 적용될 수 있다.

상술한 내용의 관점에서, 본 발명의 목적은 다운믹스 시그널 표현에 기초하여 업믹스 시그널 표현을 제공할 때 왜곡량의 개선된 감소 또는 방지할 수 있는 개념을 제공하기 위한 것이다.

본 발명에 따른 실시예는 오디오 컨텐트의 비트스트림 표현에 포함된 다운믹스 시그널 표현 및 객체 관련 파라메트릭 정보에 기초하고, 렌더링 정보에 의존하는 업믹스 시그널 표현을 제공하기 위한 장치를 제공한다. 본 장치는 렌더링 파라미터들(예를 들어, 사용자 지정 렌더링 매트릭스의 입력들)의 부적절한 선택에 의해 발생된 가청 왜곡량을 회피하거나 제한하기 위해 왜곡 제어 기법을 사용하여 업믹스 파라미터들(예를 들어, 렌더링 매트릭스의 이득 인자들 또는 입력들)을 조정하도록 구성된 왜곡 제한기를 포함한다. 상기 왜곡 제한기는 오디오 컨텐트의 비트스트림 표현에 포함된 왜곡 제한 제어 파라미터를 획득하고, 왜곡 제한 제어 파라미터에 의존하여 왜곡 제어 기법을 조정하도록 구성된다.

본 발명에 따른 상기 실시예는, 오디오 인코더(예를 들어, 멀티-채널 오디오 시그널을 표현하는 비트스트림을 제공하기 위한 장치)에 의해 제공된 제어 정보(예를 들어, 왜곡 제한 제어 파라미터)를 이용하여 오디오 디코더(예를 들어, 업믹스 시그널 표현을 제공하기 위한 장치)의 사이드에 적용된 왜곡 제어 기법의 제어를 감안하기 때문에, 오디오 컨텐트의 비트스트림 표현에 포함된 왜곡 제한 제어 파라미터에 의존하여 왜곡 제어 기법을 조정함으로써 상당한 장점들을 성취할 수 있는 주요 사상에 기초한다. 따라서, 오디오 시그널 인코더는 디코더-사이드 왜곡 제어 기법을 제어할 기회를 갖고, 또한, 렌더링 파라미터들의 조정에 대해서 디코더의 사용자에 많거나 적은 자유를 넘겨줄 수 있는 가능성을 인코더에 제공한다. 따라서, 다운믹스 시그널 표현에 의해 표현된 오디오 시그널 객체들에 대한 보다 나은 지식을 일반적으로 포함하는 오디오 시그널 인코더는 오디오 객체 시그널들의 그 지식을 이용하여 왜곡 제어 기법을 적절히 조정하는데 기여할 수 있다. 이는 업믹스 시그널 표현을 제공할 때 개선된 결과들을 고려한다. 또한, 오디오 시그널 인코더는 다운믹스 시그널 표현에 의해 표현된 오디오 객체를 제공하는 컨텐트 제공기의 요구 조건들에 따른 적당한 왜곡 제한 제어 파라미터를 제공할 수 있으며, 렌더링 파라미터들의 부적당한 설정에 의해 업믹스 시그널 표현의 과도한 저하는 오디오 시그널 인코더, 예를 들어, 컨텐트 제공기의 요구 조건들에 따라, 오디오 시그널 인코더의 사이드로부터 방지될 수 있다.

요약하면, 많은 장점들이 얻어질 수 있는데, 예를 들어, 디코더 사이드에서 적용되는 왜곡 제어 기법의 하나 이상의 파라미터들을 조정하기 위해 오디오 컨텐트의 비트스트림 표현으로부터 디코더 사이드에서 추출된 왜곡 제한 제어 파라미터를 평가하는 본 발명의 접근법에 의해 획득될 수 있다.

바람직한 실시예에 있어서, 업믹스 시그널 표현을 제공하기 위한 장치는 입력 인터페이스로부터 요구된 렌더링 매트릭스를 수신하도록 구성될 수 있다. 이 경우, 왜곡 제한기는 요구된 렌더링 매트릭스 및 하나 이상의 왜곡 제한 제어 파라미터들에 의존하여 변형된 렌더링 매트릭스를 획득하도록 구성될 수 있다. 업믹스 시그널 표현을 제공하기 위한 장치는 변형된 렌더링 매트릭스에 의존하여 업믹스 시그널 표현을 제공하도록 구성된다. 따라서, 오디오 컨텐트의 비트스트림 표현으로부터 오디오 시그널 디코더(예를 들어, 업믹스 시그널 표현을 제공하기 위한 장치)에 의해 추출된 왜곡 제한 제어 파라미터는 업믹스 시그널 표현 내의 과도한 가청 왜곡량을 회피하는 변형된 렌더링 매트릭스를 제공하기 위해 사용될 수 있다. 가청 왜곡량의 감소는 심지어 입력 인터페이스(예를 들어, 사용자에 의해)를 통해 요구된 렌더링 매트릭스 입력이 부적절(및, 믹스 시그널 표현에 상당한 가청 왜곡량을 일으키게 됨)한 경우에도 성취될 수 있다. 따라서, 왜곡 제한 제어 파라미터는 왜곡 제한기에 의해 평가되어, 입력 인터페이스로부터 요구된 렌더링 매트릭스에 의존하여 변형된 렌더링 매트릭스가 어떻게 획득되는지를 결정할 수 있으며, 이에 의해 어느 정도의 제어를 오디오 시그널 인코더에 제공한다.

바람직한 실시예에 있어서, 왜곡 제한기는 오디오 컨텐트의 비트스트림 표현에 포함되고, 렌더링 매트릭스 구성요소들(또한, 입력들로서 지칭)의 최소 및 최대값들을 기술하는 하나 이상의 렌더링 매트릭스 제한 값들을 획득하도록 구성된다. 이 경우, 왜곡 제한기는 요구된 렌더링 매트릭스에 의존하여 변형된 렌더링 매트릭스를 획득할 때 하나 이상의 렌더링 매트릭스 제한 값들에 따라 변형된 렌더링 매트릭스의 하나 이상의 입력들을 제한하도록 더 구성된다. 따라서, 렌더링 매트릭스 제한 값들을 포함하는 왜곡 제한 제어 파라미터들은 오디오 컨텐트의 비트스트림 표현을 제공하는 오디오 시그널 인코더에 의해 바람직하지 않은 것으로 확인되는 과도한 렌더링 설정들을 회피하는데 이용될 수 있다. 따라서, 렌더링 파라미터들의 부적절한 설정에 의해 발생되는 가청 왜곡량이 회피될 수 있거나 적어도 제한될 수 있다.

바람직한 실시예에 있어서, 왜곡 제한기는 요구된 렌더링 매트릭스, 기준 렌더링 매트릭스 및 하나 이상의 왜곡 제한 제어 파라미터들에 의존하여 변형된 렌더링 매트릭스를 획득하도록 구성된다. 기준 렌더링 매트릭스의 사용은 특별한 장점들을 얻는데, 그 이유는 기준 렌더링 매트릭스가 충분히 양호하거나 심지어 최적의 품질의 업믹스 시그널 표현을 제공하는 렌더링 설정을 지정할 수 있기 때문이다. 따라서, 상기 기준 렌더링 매트릭스에 대하여 렌더링 파라미터들의 허용 가능한 변경들은 변형된 렌더링 파라미터들이 있어야 하는 효율적인 사양의 범위들을 고려한 왜곡 제한 제어 파라미터들에 의해 정의될 수 있다.

바람직한 실시예에 있어서, 왜곡 제한기는 왜곡 제한 제어 파라미터들로 기술된 하나 이상의 렌더링 매트릭스 제한 값들에 따라 기준 렌더링 매트릭스에 관련(또는, 기준 렌더링 매트릭스의 입력들에 관련)된 변형된 렌더링 매트릭스의 하나 이상의 입력들을 제한하도록 구성된다. 따라서, 렌더링 매트릭스의 제한은 기준 렌더링 매트릭스에 따라 효율적으로 실행될 수 있다.

또한, 하나 이상의 왜곡 제한 제어 파라미터들은 기준 렌더링 매트릭스가 어떻게 획득되는지를 결정할 수 있다. 예를 들어, 하나 이상의 왜곡 제한 제어 파라미터들은 기준 렌더링 매트릭스의 입력들을 도출하기 위한 필터 시간 상수를 지정할 수 있다. 그러나, 기준 렌더링 매트릭스가 어떻게 획득되는지를 기술하는 다른 구성 정보가 하나 이상의 왜곡 제한 제어 파라미터들에 의해 정의될 수도 있다.

바람직한 실시예에 있어서, 왜곡 제한기는 요구된 (예를 들어, 사용자 지정) 렌더링 매트릭스에 의존하여 변형된 렌더링 매트릭스를 획득하기 위해 객체-개별 왜곡 제한 제어 파라미터들을 적용하도록 구성된다. 따라서, 오디오 컨텐트의 비트스트림 표현을 제공하는 오디오 시그널 인코더로 이미 공지된 오디오 객체 시그널들의 차이들은 오디오 컨텐트의 비트스트림 표현에 의해 추출된 객체-개별 왜곡 제한 제어 파라미터들을 활용함으로써 왜곡 제어 기법으로 고려될 수 있다.

바람직한 실시예에 있어서, 업믹스 시그널을 제공하기 위한 장치는 변형된 이득 인자들에 의존하여 업믹스 시그널 표현을 제공하기 위해 하나 이상의 변형된 이득 인자들을 다운믹스 시그널 표현의 오디오 샘플들에 적용하거나, 다운믹스 시그널에 의해 기술된 오디오 객체들과 연관된 객체-관련 사이드 정보에 적용하도록 구성된다. 이 경우에, 왜곡 제한기는 하나 이상의 요구된 이득 인자들 및 하나 이상의 왜곡 제한 제어 파라미터들에 의존하여 하나 이상의 변형된 이득 인자들을 획득하도록 구성된다. 따라서, 오디오 컨텐트의 비트스트림 표현으로부터 추출된 왜곡 제한 제어 파라미터들은 오디오 컨텐트의 비트스트림 표현을 제공하는 오디오 시그널 인코더로부터 이득 인자들의 (적당한) 선택의 제어를 고려하는 이득 인자들의 적당한 조정에 이용된다.

바람직한 실시예에 있어서, 왜곡 제한기는 시간 상수를 갖는 스무딩 필터를 이용하여 이득 인자를 제한하기 위해 기준 레벨을 도출하도록 구성된다. 이 경우에, 왜곡 제한기는 특정 파라미터를 제한하기 위한 기준 레벨을 사용하도록 구성된다. 또한, 왜곡 제한기는 오디오 컨텐트의 비트스트림 표현에 포함된 시간 상수 파라미터(예를 들어, 오디오 컨텐트의 비트스트림 표현으로부터 시간 상수 파라미터를 추출함으로써)를 획득하고, 시간 상수 파라미터에 의존하여 스무딩 필터 시간 상수를 조정하도록 구성될 수 있다. 따라서, 오디오 시그널 디코더(업믹스 시그널 표현을 제공하기 위한 장치)보다 나은 오디오 객체 시그널들의 일시적인 특성들을 알고 있는 오디오 시그널 인코더는 오디오 시그널 디코더에 의해 응용을 위한 오디오 컨텐트의 비트스트림 표현에서 기준 레벨의 의미 있는 도출을 고려하는 적절한 시간 상수 파라미터를 포함할 수 있다. 그러므로, 오디오 시그널 인코더에 알려진 오디오 시그널의 특정한 특성들은 왜곡 제어 기법에 의해 활용될 수 있다.

바람직한 실시예에 있어서, 파라미터 제한기는 오디오 컨텐트의 비트스트림 표현에 포함된 왜곡 제어 활성화 파라미터를 획득하고, 왜곡 제어 활성화 파라미터에 의존하여 왜곡 제어 기법을 인에이블 또는 디스에이블 하도록 구성된다. 따라서, 오디오 컨텐트의 비트스트림 표현을 제공하는 오디오 시그널 인코더는 왜곡 제어 기법의 활성화를 실행할 수 있거나, 왜곡 제어 기법을 비활성화할 수 있다. 따라서, 오디오 컨텐트의 비트스트림 표현을 제공하는 오디오 시그널 인코더는 적절한 왜곡 제어 기법이 컨텐트 제공기 또는 오디오 인코더의 평가에 따라 중요한 오디오 컨텐트들에 대한 사용자 불만을 피하는데 도움이 되는 오디오 시그널 디코더에 의해 적용되도록 선택적으로 실행할 수 있다. 이 경우에, 오디오 시그널 인코더는 렌더링 파라미터들의 설정에 대해 적절한 제한을 제공할 수 있다. 반면에, 오디오 디코더는, 렌더링 파라미터들의 설정에 관련하여 최대 유연성을 사용자에 제공하기 위해, 그와 같은 최대 유연성이 왜곡 제어 기법의 응용보다 더 양호한 사용자 만족을 제공하는 오디오 컨텐트들에 대해 왜곡 제어 기법을 선택적으로 디스에이블 할 수 있다.

바람직한 실시예에 있어서, 파라미터 제한기는 오디오 컨텐트의 비트스트림 표현에 포함된 프리셋 렌더링 매트릭스 활성화 파라미터를 획득하도록 구성된다. 이 경우에, 파라미터 제한기는 프리셋 렌더링 매트릭스 활성화 파라미터의 활성화 상태에 따라 다운믹스 시그널 표현에 기초하여 업믹스 시그널 표현을 제공하기 위해 사용자 지정 렌더링 매트릭스 정보보다 오디오 컨텐트의 비트스트림 표현에 포함된 프리셋 렌더링 매트릭스 정보가 사용되도록 실행하도록 구성된다. 따라서, 오디오 시그널 디코더는 업믹스 시그널 표현이 사용자에 의한 것보다는 오디오 시그널 인코더에 의해 정의된 렌더링 매트릭스 정보를 이용하여 획득되는 일부의 상황들에서 성취될 수 있다. 따라서, 오디오 시그널 인코더는 비트스트림에 프리셋 렌더링 매트릭스 정보를 포함하고, 프리셋 렌더링 매트릭스 정보가 오디오 시그널 디코더에 의해 이용되어야 함을 나타내는 프리셋 렌더링 매트릭스 활성화 파라미터(또는, 플래그)를 활성화할 수 있는 기회를 가진다. 따라서, 오디오 시그널 디코더는 프리셋 렌더링 매트릭스 정보에 따라 렌더링 매트릭스의 적절한 설정에 의해 제공될 수 있는 오디오 컨텐트의 예술적인 가치가 사용자에 명백히 되도록 보장할 수 있다. 따라서, 렌더링 파라미터들의 적절한 설정만으로 양호한 히어링 임프레션을 제공하는 경우들에서 발생할 수 있는 사용자의 불만이 회피될 수 있다.

바람직한 실시예에 있어서, 파라미터 제한기는 오디오 컨텐트의 비트스트림 표현에 포함되는 심리 음향적 왜곡 제한 파라미터를 획득하도록 구성될 수 있다. 이 경우에, 왜곡 제한기는 심리 음향적 왜곡 모델에 의존하여 하나 이상의 업믹스 파라미터들 조정하도록 구성되어, 다운믹스 시그널 표현으로부터 업믹스 시그널 표현의 도출에 의해 야기되는 왜곡들의 측정(예를 들어, 평가가 될 수 있음)이 제한된다. 이 경우에, 왜곡 제한기는 심리 음향적 왜곡 모델(예를 들어, 심리 음향적 왜곡 모델의 출력 값에 의존하여 하나 이상의 업믹스 파라미터들을 어떻게 조정하는지를 기술하는 파라미터)에 의존하여 하나 이상의 업믹스 파라미터들을 조정하기 위해 이용되는 하나 이상의 파라미터들, 또는 심리 음향적 왜곡 제한 파라미터에 의존하여 심리 음향적 왜곡 모델의 하나 이상의 파라미터들을 설정하도록 구성된다. 따라서, 업믹스 파라미터들(예를 들어 렌더링 파라미터들)의 적절한 제한을 위한 심리 음향적 왜곡 모델의 이용은 업믹스 시그널 표현의 상당한 왜곡의 회피에 기여할 가능성을 다시 부여하는 오디오 인코더의 사이드로부터 제어될 수 있다.

바람직한 실시예에 있어서, 왜곡 제한기는 시간 변화 왜곡 제어 기법을 획득하기 위해 각 오디오 프레임마다 업데이트된 왜곡 제한 제어 파라미터를 획득하도록 구성된다. 이러한 개념은 오디오 컨텐트의 비트스트림 표현 내에 하나 이상의 왜곡 제한 제어 파라미터들을 제공하는 오디오 시그널 인코더의 제어 하에 왜곡 제어 기법이 동적으로 지정될 수 있는 장점을 제공하여, 엄격하거나 여유 있는 왜곡 제어 기법이 오디오 인코더에 의해 선택될 수 있다. 이러한 방식으로, 오디오 시그널 인코더는, 오디오 컨텐트의 덜 중요한 통로들에 오디오 컨텐트의 비트스트림 표현 내의 적절한 왜곡 제한 제어 파라미터들을 제공하여 왜곡 제어 기법을 유연하게 조정함으로써 최대 가능 유연성을 사용자에게 제공할 수 있고, 덜 중요한 오디오 프레임들에 적절한 왜곡 제한 제어 파라미터들을 제공하여 왜곡 제어 기법을 엄격하게 조정함으로써 적은 유연성을 사용자에게 제공할 수 있다. 따라서, 사용자의 유연성과 히어링 임프레션 간의 양호한 절충은 여기서 설명하는 오디오 디코더의 사용에 의해 오디오 인코더의 사이드로부터 영향을 받을 수 있는 적절한 제어에 의해 성취될 수 있다.

바람직한 실시예에 있어서, 왜곡 제한기는 오디오 컨텐트의 비트스트림 표현의 구성 일부 내의 동적 업데이트 플래그(dynamic update flag)를 평가하도록 구성된다. 이 경우에, 왜곡 제한기는, 오디오 컨텐트의 비트스트림 표현 동적 업데이트 플래그가 비활성인 경우, 왜곡 제한 제어 파라미터를 획득하기 위해 오디오 컨텐트의 비트스트림 표현의 구성 일부를 평가하고, 동적 업데이트 플래그가 활성인 경우, 왜곡 제한 제어 파라미터의 업데이트들을 반복적으로 획득하기 위해 오디오 컨텐트의 비트스트림 표현의 프레임 부분들을 평가하도록 구성된다. 따라서, 오디오 디코더는 하나 이상의 왜곡 제한 제어 파라미터들이 오디오 프레임들의 각 시퀀스마다 전송되는 정적인 모드(예를 들어, 시퀀스에 따라 단일 공통 구성 부분이 연관됨)와 하나 이상의 왜곡 제한 제어 파라미터들이 자주 또는 심지어 각 오디오 프레임마다 전송되는 동적 동작 모드 사이를 전환될 수 있다. 이는 왜곡 제한 제어 파라미터들의 일시적 변화가 불필요한 경우 왜곡 제한 제어 파라미터들의 낮은 비트레이트를 획득하고, 예를 들어, 오디오 객체 시그널들의 특성들로 인하여, 일시적인 변화가 바람직한 경우, 왜곡 제한 제어 파라미터들의 양호한 일시적인 해상도를 획득하기 위해, 왜곡 제한 제어 파라미터들의 전송의 적응을 고려한다.

바람직한 실시예에 있어서, 왜곡 제한기는 오디오 컨텐트의 프레임 일부에 왜곡 제한 제어 파라미터의 존재를 나타내는 플래그에 의존하여 왜곡 제한 제어 파라미터를 선택적으로 업데이트 하도록 구성되어, 왜곡 제한 제어 파라미터들에 대한 업데이트 간격들(예를 들어, 오디오 프레임들에 관해서 측정)이 오디오 컨텐트의 비트스트림 표현에 의해 동적으로 결정된다. 따라서, 다양한 오디오 프레임들을 포함하는 오디오 정보의 단일 피스에서, 왜곡 제한 제어 파라미터들의 업데이트는 오디오 객체 시그널들의 일시적으로 불규칙적인 변화에 잘 적응될 수 있는 불규칙적인 경우 또는 시간(예를 들어, 오디오 프레임들 간에 일정하지 않은 수를 갖는)에 실행될 수 있다.

본 발명에 다른 실시예는 멀티-채널 오디오 시그널의 비트스트림 표현을 제공하기 위한 장치를 제공한다. 본 장치는 복수의 오디오 객체 시그널들에 기초하여 다운믹스 시그널을 제공하도록 구성된 다운믹서를 포함한다. 또한, 본 장치는, 오디오 객체 시그널들 및 다운믹스 파라미터들의 특성들을 기술하는 객체-관련 파라메트릭 사이드 정보를 제공하고, 업믹스 시그널 표현을 제공하기 위한 장치의 사이드에서 왜곡 제어 기법의 응용을 제어하기 위한 하나 이상의 왜곡 제한 제어 파라미터들을 제공하도록 구성된 사이드 정보 제공기를 포함한다. 또한, 비트스트림을 제공하기 위한 장치는 다운믹스 시그널의 표현, 객체-관련 파라메트릭 사이드 정보 및 하나 이상의 왜곡 제한 제어 파라미터들을 포함하는 비트스트림을 제공하도록 구성된 비트스트림 포매터를 포함한다.

멀티-채널 오디오 시그널을 표현하는 비트스트림으로 제공하는 상기 장치는 업믹스 시그널 표현을 제공하기 위한 상술한 장치에 의해 이용될 수 있는 오디오 컨텐트의 비트스트림 표현의 제공을 위해 매우 적합하다. 비트스트림을 제공하기 위한 장치는 비트스트림에 왜곡 제한 제어 파라미터들의 포함을 고려하여, 디코더-사이드 왜곡 제어 기법은 인코더 사이드에서 정의된 소망에 따라 조정될 수 있다.

다른 상세 및 장점들은 업믹스 시그널 표현을 제공하기 위한 장치에 대해 상술한 설명을 참조한다.

본 발명에 따른 다른 실시예는 오디오 컨텐트의 비트스트림 표현에 포함된 다운믹스 시그널 표현 및 객체 관련 파라메트릭 정보에 기초하고, 렌더링 정보에 의존하여 업믹스 시그널 표현을 제공하기 위한 방법을 제공한다.

본 발명에 따른 다른 실시예는 멀티-채널 오디오 시그널을 표현하는 비트스트림을 제공하기 위한 방법을 제공한다.

본 발명에 따른 다른 실시예는 상기 방법들 중 한 방법을 실행하기 위한 컴퓨터 프로그램을 제공한다.

본 방법들 및 컴퓨터 프로그램은 상술한 장치들과 같은 주요 사상에 기초한다.

본 발명에 따른 다른 실시예는 멀티-채널 오디오 시그널을 표현하는 비트스트림을 생성한다. 비트스트림은 복수의 오디오 객체들의 오디오 시그널들과 오디오 객체들의 특성들을 기술하는 객체-관련 파라메트릭 사이드 정보를 결합하는 다운믹스 시그널의 표현을 포함한다. 또한, 비트스트림은 업믹스 시그널 표현을 제공하기 위한 장치의 사이드에서 왜곡 제어 기법의 적용을 제어하기 위한 하나 이상의 왜곡 제한 제어 파라미터들을 포함한다. 상기 비트스트림은 멀티-채널 오디오 시그널을 표현하는 비트스트림을 제공하기 위한 상술한 장치에 의해 일반적으로 제공되며, 업믹스 시그널 표현을 제공하기 위한 상술한 장치에 의해 일반적으로 평가될 수 있다. 비트스트림은 왜곡 제어 기법의 효율적인 조정을 고려한다.

본 발명은 다운믹스 시그널 표현에 기초하여 업믹스 시그널 표현을 제공할 때 왜곡량을 감소 또는 방지할 수 있다.

도 1은 본 발명의 실시예에 따라 업믹스 시그널 표현을 제공하기 위한 장치의 개략적인 블록 다이어그램을 도시한다.
도 2는 본 발명의 다른 실시예에 따라 업믹스 시그널 표현을 제공하기 위한 장치의 개략적인 블록 다이어그램을 도시한다.
도 3은 본 발명의 다른 실시예에 따라 업믹스 시그널 표현을 제공하기 위한 장치의 개략적인 블록 다이어그램을 도시한다.
도 4는 본 발명의 비트스트림 시그널링에 의한 SAOC 왜곡 제어의 개략적인 블록 다이어그램을 도시한다.
도 5는 본 발명의 실시예에 따라 멀티-채널 오디오 시그널을 표현하는 비트스트림을 제공하기 위한 장치의 개략적인 블록 다이어그램을 도시한다.
도 6은 본 발명의 실시예에 따라 멀티채널 오디오 시그널을 표현하는 비트스트림의 개략적인 표현을 도시한다.
도 7은 SAOC 왜곡 제어를 위한 예의 개략적인 블록 다이어그램을 도시한다.
도 8은 기준 MPEG SAOC 시스템의 개략적인 블록 다이어그램을 도시한다.
도 9a는 분리된 디코더 및 믹서를 이용하는 기준 SAOC 시스템의 개략적인 블록 다이어그램을 도시한다.
도 9b는 집적된 디코더 및 믹서 믹서를 이용하는 기준 SAOC 시스템의 개략적인 블록 다이어그램을 도시한다.
도 9c는 SAOC-투-MPEG 트랜스코더를 이용하는 기준 SAOC 시스템의 개략적인 블록 다이어그램을 도시한다.

본 발명에 따른 실시예들은 첨부된 도면을 참조하여 설명한다.

1. 도 1에 따라, 업믹스 시그널 표현을 제공하기 위한 장치

도 1은 다운믹스 시그널 표현(110) 및 객체 관련 파라메트릭 정보(112)(파라메트릭 사이드 정보로서 고려될 수 있음)에 기초하여 업믹스 시그널 표현(120)을 제공하기 위한 장치의 개략적인 블록 다이어그램을 도시한다. 다운믹스 시그널 표현(110) 및 객체 관련 파라메트릭 정보(112) 둘 다는 오디오 컨텐트의 비트스트림 표현에 포함될 수 있다. 장치(100)는, 예를 들어, 사용자 인터페이스를 사용하여 입력될 수 있는 렌더링 정보(114)에 의존하여 업믹스 시그널 표현을 제공하도록 구성될 수 있다. 장치(100)는 오디오 컨텐트의 비트스트림 표현에 또한 일반적으로 포함될 수 있는 하나 이상의 왜곡 제한 제어 파라미터들(116)을 수신할 수 있다.

장치(100)는 조정된 업믹스 파라미터들(132)을 고려하여 다운믹스 시그널 표현(110) 및 객체 관련 파라메트릭 정보(112)에 의존하여 업믹스 시그널 표현(120)을 제공하도록 구성되는 시그널 프로세서(130)를 포함한다. 장치(100)는 렌더링 정보(114)의 렌더링 파라미터들의 부적절한 선택에 의해 발생된 가청 왜곡량을 회피하거나 제한하기 위해 왜곡 제어 기법(142)을 사용하여 조정된 업믹스 파라미터들(132)을 획득하도록 구성된 왜곡 제한기(140)를 포함한다. 왜곡 제한기(140)는 오디오 컨텐트의 비트스트림 표현에 포함된 하나 이상의 왜곡 제한 제어 파라미터들(116)을 획득하고, 하나 이상의 왜곡 제한 제어 파라미터들(116)에 의존하여 왜곡 제어 기법을 조정하도록 구성된다.

다음은 장치(100)의 기능을 더욱 상세히 설명한다. 시그널 프로세서(130)는 업믹스 시그널 표현(120)을 제공한다. 이를 위해, 다운믹스 시그널 표현(110) 및 객체 관련 파라메트릭 정보(112)가 고려된다. 또한, 예를 들어, 사용자 인터페이스를 통해 사용자에 의해 제공되는 렌더링 정보(114)에 따라 업믹스 시그널 표현(120)을 제공하기 위한 시도가 많은 경우들(그러나, 반드시 모든 경우는 아님)에서 이루어진다. 그러나, 렌더링 정보(114)가 왜곡 제어 기법을 사용하지 않고 이용된다면, 예를 들어, 과도한 렌더링 설정들이 사용자에 의해 선택되면, 이는 때로 업믹스 시그널 표현(120)의 가청 왜곡량으로 이어질 것이다. 과도한 가청 왜곡량을 회피하기 위하여, 조정된 업믹스 파라미터들(132)(렌더링 파라미터들 또는 다른 업믹스 파라미터들이 될 수 있음)은 렌더링 정보(114)에 기초하고 왜곡 제어 기법(142)을 사용하는 왜곡 제한기(140)에 의해 제공된다.

왜곡 제어 기법(142)은, 예를 들어 선형, 피스식(piece-wise) 선형 또는 비선형 맵핑을 포함할 수 있는 조정 가능한 맵핑을 이용하여 렌더링 정보(114)로부터 조정된 업믹스 파라미터들(132)을 도출하도록 채택된다. 왜곡 제어 기법(142)은 왜곡 제한기(140)에 의해 하나 이상의 왜곡 제어 기법 조정 파라미터들에 의존하여 조정될 수 있다. 이를 위해, 왜곡 제한기(140)는, 오디오 컨텐트의 비트스트림 표현에 포함되고 도 1에 도시되지 않은 비트스트림 파서(parser)(도시되어 있지 않지만, 일부 실시예들에서 장치(100)의 일부가 될 수 있음)를 이용하여 오디오 컨텐트의 비트스트림 표현으로부터 바람직하게 추출될 수 있는 하나 이상의 왜곡 제한 제어 파라미터들(116)을 고려할 수 있다. 왜곡 제어 기법(142)(또는, 왜곡 제어 기법을 정의하는 맵핑 규칙)은 일부 실시예들에서 렌더링 정보(114)에 의존하여 조정된 업믹스 파라미터들(132)을 획득하기 위해 다운믹스 시그널 표현(110)의 정보 및/또는 객체 관련 파라메트릭 정보(112)를 고려할 수 있다. 왜곡 제어 기법을 조정하기 위해 바람직하게 이용되는 왜곡 제어 기법 조정 파라미터는, 예를 들어, 제한 파라미터들, 선형 결합 파라미터들, 또는 렌더링 정보(114)의 맵핑을 정의하는 다른 기능적인 파라미터들을 조정된 업믹스 파라미터들(132)에 포함할 수 있다.

요약하면, 왜곡 제한기(140)는, 렌더링 정보(114)가 적절한 방법으로 선택되어 왜곡 제어 기법(142)의 적용 없이 업믹스 시그널 표현(120)의 과도한 왜곡을 결과로서 나타낼 때도, 믹스 시그널 표현(120)의 과도한 가청 왜곡을 회피하도록 조정된 업믹스 파라미터들(132)을 제공한다. 따라서, 왜곡 제어 기법(142)을 사용 및 조정하는 왜곡 제한기는 히어링 임프레션을 개선하는데 도움이 된다. 오디오 컨텐트의 비트스트림 표현에 포함된 하나 이상의 왜곡 제한 제어 파라미터들(116)에 의존하는 왜곡 제어 기법(142)의 조정을 실행함으로써, 왜곡들의 감소의 제어는 오디오 컨텐트의 비트스트림 표현을 제공하는 오디오 시그널 인코더의 사이드로부터 실행될 수 있다.

2. 도 2에 따라, 업믹스 시그널 표현을 제공하기 위한 장치

다음은, 오디오 컨텐트의 비트스트림 표현에 포함된 다운믹스 시그널 표현 및 객체 관련 파라메트릭 정보에 기초하고 렌더링 정보에 의존하여 업믹스 시그널 표현을 제공하기 위한 장치(200)에 대해서, 이와 같은 장치(200)의 개략적인 블록 다이어그램을 도시하는 도 2를 참조하여 설명한다.

여기서, 도 2에서 장치(200)에 의해 수신된 정보와 장치(200)에 의해 제공된 정보는 장치(100)에 의해 수신 및 제공된 정보와 유사하며, 이에 의해, 동일한 참조 번호들은 동일한 정보를 나타내는 것으로 사용된다는 것을 주목해야 한다. 또한, 장치(200)의 일부의 수단들은 장치(100)의 수단들과 동일하며, 이에 의해 동일한 참조 번호들은 동일하거나 상당하는 수단들에 대한 전체 설명에 걸쳐 사용된다.

장치(200)는 다운믹스 시그널 표현(110), 객체 관련 파라메트릭 정보(112), 렌더링 정보(114), 및 하나 이상의 왜곡 제한 제어 파라미터들(116)을 수신하도록 구성된다. 또한, 장치(200)는 예를 들어, 시그널 프로세서(130)를 이용하여 업믹스 시그널 표현(120)을 제공하도록 구성된다.

장치(200)는 왜곡 제어 기법(242)을 이용하는 왜곡 제한기(240)를 포함한다. 왜곡 제어 기법(242)은 왜곡 계산기/추정기(242a) 및 렌더링 정보 변경기(242b)를 포함한다. 왜곡 계산기/추정기(242a)는, 예를 들어, 다운믹스 시그널 표현(110)의 적어도 일부 및 객체 관련 파라메트릭 정보(112)의 적어도 일부, 및 렌더링 정보(114)를 수신하도록 구성된다. 왜곡 계산기/추정기(242a)는 객체 관련 파라메트릭 정보(112)를 고려하여, 다운믹스 시그널 표현(110)에 렌더링 정보(114)를 적용함으로써 업믹스 시그널 표현(120)에 도입되는 왜곡의 측정을 계산 및 추정하도록 구성된다. 렌더링 정보 변경기(242b)는 왜곡 계산기/추정기(242a)에 의해 제공된 계산 및 추정된 왜곡 정보를 고려하여, 렌더링 정보(114)에 기초한 조정된 렌더링 파라미터들(132)을 제공하도록 구성되어, 이에 의해, 조정된 렌더링 파라미터들(132)은 업믹스 시그널 표현(120)을 획득하기 위해 시그널 프로세서(130)에 의해 적용될 때 원래의 렌더링 파라미터들(114)에 비해서 감소된 왜곡의 결과를 나타낸다.

그러나, 렌더링 정보 변경기(242b)는 왜곡 제한 제어 파라미터(116)에 의존하여 왜곡 제한기(240)에 제공되고 조정된 렌더링 파라미터들(132)의 제공에 영향을 주는 왜곡 제어 기법 조정 파라미터를 고려할 수 있다.

예를 들어, 왜곡 제어 기법 조정 파라미터(왜곡 제한 제어 파라미터(116)에 기초하여 획득되거나, 심지어 왜곡 제한 제어 파라미터(116)와 동일)는, 예를 들어, 왜곡 측정이 왜곡 계산기/추정기(242a)에 의해 계산 또는 추정되는 정도를 정의할 수 있다. 예를 들어, 상기 왜곡 제어 기법 조정 파라미터는 계산 또는 추정된 왜곡 값을 획득하기 위해 다른 왜곡들이 절대적으로 또는 서로에 대해서 가중되는 정도를 정의할 수 있다. 대안적으로, 또는 부가적으로, 왜곡 제어 기법 조정 파라미터는 왜곡 계산기/추정기(242a)에 의해 획득한 왜곡 측정이 렌더링 정보(114)에 기초하여 조정된 렌더링 파라미터들(132)의 제공에 영향을 주는 정도를 결정할 수 있다.

일부 실시예들에 있어서, 왜곡 계산기/추정기(242a) 및 렌더링 정보 변경기(242b)는 또한 결합될 수 있으며, 이에 의해, 조정된 렌더링 파라미터들(132)은 조정된 렌더링 파라미터들(132)이 업믹스 시그널 표현(120)의 왜곡의 확실한 (제한된) 정도를 제공할 수 있도록 제공되며, 여기서, 업믹스 시그널 표현(120)의 왜곡의 정도는 왜곡 제어 기법 조정 파라미터에 의해 영향을 받을 수 있다(또는, 조정될 수 있다).

3. 도 3에 따라, 업믹스 시그널 표현을 제공하기 위한 장치

다음은, 오디오 컨텐트의 비트스트림 표현에 포함된 다운믹스 시그널 표현(110) 및 객체 관련 파라메트릭 정보(112)에 기초하고 렌더링 정보(114)에 의존하여 업믹스 시그널 표현(120)을 제공하기 위한 장치(300)에 대해서, 도 3을 참조하여 설명한다. 여기서, 동일한 참조 번호들은 본 명세서의 실시예들의 설명에 있어 동일하거나 상당하는 정보, 수단들 및 기능들을 나타냄을 주목해야 한다.

장치(300)는 왜곡 제어 기법(342)을 사용하고, 렌더링 정보(114)에 의존하고 또한 왜곡 제한 제어 파라미터(116)에 의존하여 조정된 업믹스 파라미터들(132)을 제공하도록 구성된 왜곡 제한기(340)를 포함한다.

왜곡 제어 기법(342)은 조정된 렌더링 파라미터들(132)을 획득하기 위해 렌더링 정보(114)의 값들의 수치 범위를 제한하도록 구성된 렌더링 정보 제한기(342a)를 포함한다. 렌더링 정보(114)의 값들의 제한은, 왜곡 제한 제어 파라미터(116)에 의존하여 왜곡 제한기(340)에 의해 획득되거나, 심지어 왜곡 제한 제어 파라미터(116)와 동일한 왜곡 제어 기법 조정 파라미터에 의존하여 실행될 수 있다. 왜곡 제어 기법(342)은 객체 관련 파라메트릭 정보(112)에 의존하고, 또한, 반드시 의존하지는 않지만, 왜곡 제한 제어 파라미터(116)에 동일하거나, 그로부터 도출된 왜곡 제어 기법 조정 파라미터에 의존하여 제한 기준 값을 제공하도록 구성된 기준 값 계산기(342b)를 선택적으로 포함할 수 있다. 따라서, 렌더링 정보 제한기(342)는 조정된 렌더링 파라미터들(132)을 획득하는 프로세서에서 렌더링 정보의 값들의 수치 범위를 제한할 때 기준 값 계산기(342b)에 의해 제공되는 제한 기준 값을 선택적으로 고려할 수 있다.

따라서, 왜곡 제한기(340)는 사용자 지정 렌더링 정보가 될 수 있는 렌더링 정보(114)의 값들로부터 조정된 렌더링 파라미터들(132)을 도출하도록 렌더링 정보(114)의 값들의 수치 범위의 조정 가능한 제한을 실행할 수 있다. 조정가능한 제한은 하나 이상의 왜곡 제한 제어 파라미터들(116)에 의존하여 조정될 수 있으며, 여기서, 왜곡 제한 제어 파라미터들(116)은 조정가능한 제한의 하나 이상의 다른 파라미터들(예를 들어, 최소값, 최대값, 기준 값으로부터 허용 가능한 편차, 기준 값 계산 모드 등)을 결정할 수 있다.

4. 도 4에 따라, 본 발명의 비트스트림 시그널링에 의한 SAOC 왜곡 제어

4.1 아키덱쳐 개요

다음은, SAOC 왜곡 제어 시스템(400)의 개략적인 블록 다이어그램을 도시하는 도 4를 참조하여 본 발명의 비트스트림 시그널링에 의한 SAOC 왜곡 제어의 개념을 설명한다.

SAOC 왜곡 제어 시스템(400)은 SAOC 인코더(410) 및 SAOC 디코더/트랜스코더(420)를 포함한다.

SAOC 인코더(410)는 복수의 오디오 객체 시그널들(412a 내지 412N)을 수신하고 이를 기초하여 다운믹스 시그널(414)을 제공하도록 구성된다. 다운믹스 시그널(414)은, 예를 들어, 다운믹스 시그널 표현(110)에 상당하며, 1-채널 시그널 또는, 예를 들어, 2-채널 시그널과 같은 멀티-채널 시그널이 될 수 있다. 또한, SAOC 인코더(410)는 예를 들어, SAOC 파라미터들을 포함하는 객체 관련 파라메트릭 정보(416)를 제공하도록 구성된다. SAOC 파라미터들은, 예를 들어 오디오 객체 시그널들(412a 내지 412N)의 특성들을 기술할 수 있다. 예를 들어, SAOC 파라미터들은 오디오 객체 시그널들(412a 내지 412N)에 의해 표현된 오디오 객체들의 객체 레벨 차이들(OLDs)을 기술할 수 있다. 또한, SAOC 파라미터들은 오디오 객체 시그널들(412a 내지 412N)에 의해 표현되는 오디오 객체들의 객체간 상관(IOC)을 기술할 수 있다. 또한, SAOC 파라미터들은 오디오 객체 시그널들(412a 내지 412N)을 선형으로 결합함으로써 다운믹스 시그널(414)을 도출하도록 실행되는 다운믹스를 특성화할 수 있다. 예를 들어, SAOC 파라미터들은 다운믹스 이득(DMG) 및 다운믹스 채널 레벨 차이들(DCLD)을 기술할 수 있다. SAOC 파라미터들(416)은 예를 들어 객체 관련 파라메트릭 정보(112)에 상당할 수 있다.

SAOC 디코더(410)는 하나 이상의 왜곡 제한 제어 파라미터들로서 고려될 수 있고, 왜곡 제한 제어 파라미터들(116)에 상당할 수 있는 하나 이상의 왜곡 제한기 파라미터들(418)을 또한 제공할 수 있다.

다운믹스 시그널 표현(414), SAOC 파라미터들(416) 및 왜곡 제한기 파라미터들(418)은 SAOC 인코더(410)로부터 SAOC 디코더 및/또는 SAOC 트랜스코더(420)로 전송된다.

일반적으로, 다운믹스 시그널 표현(414)(바람직하게는, 인코딩된 형태), SAOC 파라미터들(416)(일반적으로, 인코딩된 형태) 및 왜곡 제한기 파라미터들(418)(일반적으로, 인코딩된 형태) 모두는 오디오 컨텐트의 비트스트림 표현에 포함된다. 즉, SAOC 인코더(410)는 파라미터들(414, 416, 418)을 포함하는 비트스트림을 제공한다.

SAOC 디코더 또는 SAOC 트랜스코더 또는 SAOC 디코더/트랜스코더(420)는 다운믹스 시그널 표현(414), SAOC 파라미터들(416), 및 하나 이상의 왜곡 제한기 파라미터들(418)을 수신한다. SAOC 디코더/트랜스코더(420)는, 예를 들어, 도 8에 따른 SAOC 디코더(820), 도 9a에 따른 SAOC 디코더(920), 도 9b에 따른 집적된 디코더 및 믹서(950), 또는 도 9c에 따른 SAOC-투-MPEG 서라운드 트랜스코더(980)의 기능을 실행할 수 있다.

그러나, 상기 SAOC 디코더들 또는 트랜스코더들과 함께, SAOC 디코더/트랜스코더(420)는 하나 이상의 왜곡 제한기 파라미터들(418)을 수신 및 평가하도록 구성된 왜곡 제한기(422)를 포함한다. 또한, SAOC 디코더/트랜스코더(420)는 예를 들어, 요구된 렌더링 파라미터들의 사용자의 선택을 나타내는 상호 작용/제어 정보(424)를 또한 수신하도록 구성될 수 있다. 따라서, SAOC 디코더/트랜스코더(420)는 업믹스 시그널 표현, 예를 들어, 복수의 디코딩된 오디오 시그널 채널들(428a 내지 428M)의 형태를 제공하도록 구성된다.

SAOC 디코더/트랜스코더(420)는 다운믹스 시그널(414)로부터 업믹스 시그널 표현(428a 내지 428M)을 도출하기 위해 이득 인자들 또는 렌더링 파라미터들을 적용하도록 구성된다. 예를 들어, SAOC 디코더/트랜스코더(420)는, 다운믹스 시그널 표현으로부터 오디오 채널 시그널들(428a 내지 428M)을 도출하기 위해 복수의 상응하는 이득 값들(예를 들어, 이득 값들의 매트릭스)로 다운믹스 시그널 (414)(1-채널 다운믹스 시그널 또는 2-채널 다운믹스 시그널이 될 수 있음)을 표현하는 시그널 성분들을 증가시키도록 구성될 수 있다. 예를 들어, 다운믹스 시그널 표현(414)의 두 개 이상의 채널들의 선형 결합은 오디오 채널 시그널들(428a 내지 428M) 중 하나의 표현을 획득하도록 구성될 수 있다. 대안적으로 또는, 부가적으로, 렌더링 파라미터들의 세트는 오디오 채널 시그널들(428a 내지 428M)에 하나 이상의 다운믹스 시그널들(414)의 표현을 맵핑하도록 적용될 수 있다. 이 경우에, 렌더링 파라미터들은 오디오 채널 시그널들(428a 내지 428M)에 하나 이상의 다운믹스 시그널들(414)의 표현을 맵핑하기 위한 매핑 규칙을 계산하기 위해 이용될 수 있다. 예를 들어, 렌더링 파라미터들은 그와 같은 맵핑 규칙을 구별할 때 선형 인자들로서 역할을 할 수 있다. 그러나, 렌더링 파라미터들의 다른 적용도 일부 실시예에서 가능하게 될 수 있다.

4.2 왜곡 제한 기술들

다음은, 왜곡의 제한을 위한 일부 기술들에 대해서 설명하며, 이는 SAOC 디코더/트랜스코더(420)와, SAOC 디코더들 또는 트랜스코더들(100, 200, 300)에도 적용될 수 있다.

왜곡 제한은 SAOC 디코더/트랜스코더 시스템에서 파라미터들의 일부의 값 범위를 제한함으로써 성취될 수 있다. 여기서, 파라미터들은 시스템 오디오 샘플들을 직접 표현하지는 않지만 SAOC에서 수학적 기법에 의해 출력 오디오 샘플들에 영향을 주는 시스템에서 계수들, 이득 인자들, 또는 매트릭스 구성요소들을 지칭한다.

특별한 관심은 트랜스코딩 파라미터들(즉, 트랜스코딩 매트릭스의 개별 구성요소들)에 대한 제한을 적용시킬 수 있는 것이다. 이는, 트랜스코딩 매트릭스가 객체들의 수와 함께 증가하지 않기 때문에, 계산에 있어 효율적이다. 트랜스코딩 매트릭스는 업믹스 시그널 표현의 오디오 채널 시그널들로 다운믹스 시그널 표현의 오디오 채널 시그널들의 맵핑을 기술할 수 있다.

예를 들어, 도 2 및 도 7에 도시된 SAOC 디코더/트랜스코더의 왜곡 제한기는 하나 이상의 이득 제한 상수들에 기초한 파라미터 범위의 그 제한을 실행한다. 제한될 파라미터들은 오디오 샘플들에 적용될 이득 인자들이 될 수 있다. 이때, 하나 이상의 이득 제한 상수들은 이득 레벨 범위로서 데시벨로 표시될 수 있다. 예를 들어, q = 10 dB의 이득 제한 상수는 다음 식에 따라 파라미터 p의 범위를 제한하는데 이용될 수 있다.

여기서, p’는 새로 제한된 파라미터(p를 대체하기 위해)로서 정의된다. 여기서, 두 개의 p, p’, r 및 q는 대수(데시벨) 값들로서 표시된다.

여기서, 값(p’)은 예를 들어, 조정된 업믹스 파라미터들(132)을 나타내고, 값들(p)은 렌더링 정보에 의존하여 획득될 수 있음을 주목해야 한다. 값들(p’)의 범위의 제한은 예를 들어, 왜곡 제어 기법에 의해 실행될 수 있고, 왜곡 제한기(140)는 왜곡 제한 제어 파라미터(116)에 의존하여 파라미터(q)(고려된 왜곡 제어 기법 조정 파라미터가 될 수 있음)를 조정할 수 있다. p’를 획득하기 위한 상기 규칙은 왜곡 제어 기법 조정 파라미터(q)에 의존하여 조정된 조정 가능한 왜곡 제어 기법으로서 고려될 수 있다.

보다 향상된 접근법은 이득 제한 상수를 허용하는 것이며, q는 파라미터에 대한 다른 기준 레벨로부터 최대 허용된 편차를 정의한다. 이러한 기준 레벨은 예를 들어, 파라미터 시퀀스(예를 들어, SAOC 프레임마다 한번 또는 여러 번 업데이트될 때)의 스무딩/필터링/평균된 버전(시간 축선을 따라 스무딩/필터링/평균)으로부터 도출될 수 있다. 이때, 제한은 다음 식에 따라 정의될 수 있다.

여기서, p"는 새로운 보다 향상된 제한된 파라미터(p를 대체하기 위해)로서 정의되고, r은 p의 파라미터 시퀀스의 스무딩/필터링/평균된 버전 시간 축선을 따라 스무딩/필터링/평균)으로서 정의된다. 여기서, 두 개의 p, p", r 및 q 대수(데시벨) 값들로서 표시된다.

예를 들어, 값(p")은 하나 이상의 조정된 파라미터들(132)(예를 들어, 조정된 트랜스코딩 파라미터들 또는 조정된 렌더링 파라미터들)을 나타낼 수 있다. 값(p)은 예를 들어, 렌더링 정보(114)에 의존하여 획득될 수 있고, 선택적으로, 예를 들어, 다운믹스 시그널 표현(110)으로부터의 정보 또는, 객체 관련 파라메트릭 정보(112)로부터의 정보와 같은 다른 정보에 따라 획득될 수 있다.

p"를 획득하기 위해 p의 값들의 제한은 왜곡 제어 기법에 의해 실행될 수 있고, 파라미터(q)는 왜곡 제한 제어 파라미터(116)에 의존하여 왜곡 제한기(140)에 의해 조정될 수 있다. 부가적으로, p의 값을 스무딩하여 r을 획득하기 위해 이용된 스무딩/필터링/평균하는 시간 상수는 하나 이상의 왜곡 제한 제어 파라미터들에 의존하여 왜곡 제한기(140)에 의해 조정될 수도 있다.

다른 제한 방법은 렌더링 매트릭스에 대해서만 동작한다. 렌더링 매트릭스는 SAOC 디코더/트랜스코더에 대한 입력 인터페이스(또는, 입력량)이다. 이런 이유로, 이 방법은 SAOC 디코더/트랜스코더 시스템 내에서 어떠한 변경도 필요하지 않다.

간단한 제한 방법은 렌더링 매트릭스 구성요소들의 범위(최소 및 최대값들을 설정)를 제한한다.

대안의 제한 방법은 렌더링 매트릭스 기준에 관련된 렌더링 매트릭스 구성요소들의 변경들을 제한한다. 렌더링 매트릭스 기준은, 예를 들어, 출력으로서 변경되지 않은 다운믹스를 결과로서 나타내는 렌더링 매트릭스가 될 수 있다. 예를 들어, 제한 파라미터, q = 10 dB은 렌더링 매트릭스 구성요소들이 ±10 dB 이상(즉, 인자 10^(-10/20) 이상, 인자 10^(10/20) 이하)의 어떤 기준 값(또는, 개별 기준 값들로부터 벗어나는 것을 방지할 수 있다.

렌더링 매트릭스의 파라미터들(매트릭스 구성요소들)에 대한 범위는 개별 객체들에 따라 쉽게 달라질 수 있는데, 그 이유는 그 파라미터들이 렌더링 매트릭스에서 잘 분리되기 때문이다. 예를 들어, 다음의 제한된 범위들이 허용될 수 있다.

- 드럼 객체: ±3 dB

- 베이스-객체: ±10 dB

- 멜로트론 객체: ±6 dB

- 기타l -객체: ±3dB

- 기타2-객체: ±3dB

- 보컬-객체: ±0 dB

- 플루트-객체: ±12 dB

다시 말해서, 개별 렌더링 파라미터들에 대한 조정 범위는 개별적으로, 즉, 객체-개별 방식으로 조정(설정)될 수 있다. 객체-개별 변경 오디오 컨텐트의 비트스트림 표현에 포함되고, 비트스트림 파서에 의해 상기 오디오 컨텐트의 비트스트림 표현으로부터 추출되는 복수의 왜곡 제한 제어 파라미터들(116)로부터 획득될 수 있다. 따라서, 오디오 인코더는 객체- 개별 조정 범위들에 관한 정보를 오디오 디코더(예를 들어, 장치(100, 200, 300, 420))로 효율적으로 진행시킬 수 있다. 객체-개별 조정 범위들의 인코더-사이드 제공은, 객체 형태들이 인코더의 사이드에서 양호한 정밀도를 갖는 것으로 공지되어 있으며, 이에 의해, 인코더는 허용된 조정 범위들에 대한 신뢰성 있는 정보를 제공하기에 가장 적합하다는 사실로 인하여, 특별한 장점들을 제공한다.

다음은, 본 발명의 유연한 제한 접근법에 대해서 더 상세히 설명한다.

종래의 개념의 제한들을 극복하기 위하여, 본 발명은 각각의 상황들에서 최적으로 실행하기 위해 왜곡 제어 기법을 가이드 하는 데이터를 사용하는 것을 제안한다. 이 데이터(즉, 왜곡 제어 기법을 조정하기 위한 데이터, 예를 들어, 왜곡 제한 제어 파라미터들)는 SAOC 인코더 사이드에서 설정될 수 있고, SAOC 디코더/트랜스코더에서 왜곡 제어 기법을 위해 후에 사용될 수 있도록 SAOC 비트스트림에 전달된다. 이는 도 4(및 도 1 내지 도 3에서도 알 수 있음)에 예시되어 있다.

전달된 데이터(도 4에 "왜곡 제한기 파라미터들"로 표시 및, 도 1 내지 도 3에서 왜곡 제한 제어 파라미터들(116)로서 표시)는 다음에 관한 정보를 포함한다.

- 파라미터 제한 값들:

o 예를 들어, 상술한 예들에서 설명된 이득 제한 상수(q);

o 예를 들어, 렌더링 매트릭스 구성요소들의 제한 범위 또는 제한 범위들(예를 들어, 최소 및 최대값들);

o 예를 들어, 렌더링 매트릭스 기준에 관련된 렌더링 매트릭스 구성요소들의 제한 범위 또는 제한 범위들(예를 들어, 변경 안 된 다운믹스를 출력으로서 나타나는 렌더링 매트릭스);

o 예를 들어, 파라미터들의 스무딩/필터링/평균된 버전으로부터 (제한될) 파라미터의 기준 레벨을 도출하는데 이용되는 스무딩 필터에 대한 시간 상수;

- 특별한 제한 경우들:

o 변경들을 허용하지 않음(SAOC의 렌더링 기능을 임시로 디스에이블);

o 렌더링 매트릭스 프리셋들(비트스트림으로부터 판독)만을 허용;

o 어떠한 제한도 없음(임시 디스에이블 SAOC의 왜곡 제한기를 임시로 디스에이블);

o 일부의 왜곡 제어에서 설명한 심리 음향적(심리 음향적) 왜곡 측정 모델로부터 파라미터들을 제한하는 임의 왜곡 제어.

요약하면, 하나 이상의 이득 인자들 또는, 하나 이상의 렌더링 매트릭스 구성요소들의 수치 범위를 제한하기 위해 이용되는 이득 제한 상수(q)는 SAOC 비트스트림으로부터 추출될 수 있다.

대안적으로, 또는 부가적으로, 렌더링 매트릭스 구성요소의 범위를 제한하거나, 렌더링 매트릭스 구성요소들(예를 들어, 객체-개별 방식으로)의 범위들을 제한하는 하나 이상의 파라미터들은 SAOC 비트스트림으로부터 추출될 수 있다.

대안적으로, 또는 부가적으로, 렌더링 매트릭스 기준에 관련된 렌더링 매트릭스 구성요소의 범위를 제한하거나, 렌더링 매트릭스 기준에 관련된 렌더링 매트릭스 구성요소들의 범위들을 제한하는 하나 이상의 파라미터들은 비트스트림으로부터 추출될 수 있다.

대안적으로, 또는 부가적으로, 제한될 파라미터의 기준 레벨을 도출하기 위해 이용된 스무딩 필터에 대한 시간 상수는 SAOC 비트스트림으로부터 추출될 수 있다.

일부의 경우들에 있어서, 비트스트림은 SAOC 렌더링 기능이 디스에이블 되어야 하는 것을 나타내는 파라미터 또는 플래그를 포함한다.

대안적으로, 또는 부가적으로, SAOC 비트스트림은, 사용자 인터페이스를 통해 입력된 사용자-제공된 렌더링 매트릭스보다, SAOC 비트스트림에 의해 기술된 프리셋 렌더링 매트릭스 또는, 비트스트림에 의해 기술된 복수의 프리셋 렌더링 매트릭스들 중 하나가 렌더링 업믹스 시그널 표현에 이용되어야 하는 것을 나타내는 파라미터 또는 플래그를 포함할 수 있다. 따라서, 오디오 디코더/트랜스코더가 비트스트림 파라미터 또는 비트스트림 플래그에 기초하여 상기 상태를 확인하면, 사용자-정의된 렌더링 매트릭스를 설정하는 사용자의 자유는 오디오 디코더/트랜스코더에 의해 일시적으로 디스에이블 될 수 있다.

대안으로, 또는 부가적으로, SAOC 비트스트림은 SAOC 왜곡 제한기가 왜곡 제한들이 없게 되도록 일시적으로 디스에이블 되어야 하는 것을 나타내는 플래그 또는 파라미터들을 포함할 수 있다.

대안으로, 또는 부가적으로, SAOC 비트스트림은 심리 음향적 왜곡 측정 모델에 기초하여 왜곡 제한을 조정하기 위한 파라미터를 포함할 수 있다. 따라서, 왜곡 제한기는 SAOC 비트스트림으로부터 추출된 파라미터에 의존하여 심리적 음향적 왜곡 모델에 기초한 왜곡 제어 기법을 제어할 수 있다. 예를 들어, 왜곡 제한기는 SAOC 비트스트림으로부터 추출된 왜곡 제한 제어 파라미터에 의존하여 PTC/EP 2010/055717 (및 US 61/173,456)에 기술된 왜곡 제한 기법들 중 하나를 조정할 수 있다.

4.3 유연한 제한 접근법의 장점들

상기 상세히 기술한 SAOC 왜곡 제어 기법 데이터의 본 발명의 시그널링은 종래의 왜곡 제어 접근법들의 모든 제한들을 잠재적으로 해결할 수 있다.

종래의 왜곡 제어 접근법에서는 유연성의 결여로 인해 존재하는 제한들은 본 발명에 따른 실시예들에서 극복할 수 있음을 주목해야 한다. 본 발명의 실시예들을 이용하여 극복될 수 있는 그들 제한들 중 일부는 다음과 같다.

- 종래의 왜곡 제어에서 왜곡 제어 파라미터들은 모든 상황에 대해 최적이 되도록 채택되지 않았다.

최적(오디오 품질/서비스 관점에서의 품질로부터)인 왜곡 제어 파라미터들을 선택하는 것은 다음 예에 자주 의존하는 것이 확인되었다.

o 컨텐트 형태: 음성, 음악(락/클래식), 뮤비 오디오 트랙, 등.

o 저레벨 시그널 특성들: 천이들, 고조파 대 노이즈 구조, 스펙트럼 슬로프, 동적 미세-구조(고속/저속 일시적인 전력 엔벨로프), 등.

o SAOC 특성들: 다운믹스 내에 존재하는 제어 레이블 객체들의 수, 시간/주파수/다운믹스-채널 내의 객체 분리/오버랩의 정도, 등.

o 시스템 특성들: 다운믹스 코덱 형태(mp3, AAC, PCM, 등) 및 비트레이트(다운믹스 내의 전체 오디오 품질 및 왜곡을 나타냄), 다운믹스 내의 파라메트릭 코딩된 파트들의 존재(예를 들어, HE-AAC에 포함된 것과 같은 SBR, 참고문헌들 [SBR1], [SBR2] 참조 또는, 참고 문헌[PS]에 기재된 것과 같은 파라메트릭 스테레오), 채널 구성(모노, 스테레오, 멀티채널), 오디오 대역폭, 샘플링 레이트, 등.

- 왜곡 제어 파라미터들은 원래의 오디오 객체들이 SAOC 디코더 사이드에서 정상적으로 이용될 수 없기 때문에 부정확하다.

원래의 (이산) 오디오 객체들은 깨끗하고/왜곡되지 않으며 다운믹스로부터 매개변수로 분해되지 않기 때문에, 왜곡 제어 파라미터들을 추출하는 것은 원래의 (이산) 오디오 객체들의 분석으로부터 유익하다는 것이 확인되었다. 이들 원래의 객체들은 SAOC 디코더 사이드에서 정상적으로 이용될 수 없다.

종래의 오디오 인코더는 디코더-사이드 품질을 보장할 수 있는 가능성이 없다.

일부 SAOC 응용들에 있어서, 인코더 사이드로부터 최소 품질 레벨을 설정하는 것이 바람직하다는 것이 확인되었다. 이때, 상기 최소 품질 레벨은 디코더 사이드에서 사용자 상호 작용(렌더링 매트릭스 및 재생 구성의 선택)과 관계없이 성취되는 것이 바람직하다는 것을 확인하였다. 일부 왜곡 제어는 SAOC 디코더 사이드에 설정된 상수 품질 레벨을 목표로 하지만, 예를 들어, 아티스트 일관성(artist integrity), 서비스 제공기의 명성/프로파일(reputation/profile), 사용자 숙련의 예상(이용의 용이성에 대한 사용자 인터페이스 기능의 레벨)으로 인하여, 다른 서비스들(예를 들어 전화 회의, 고품질 음악 다운로드, 방송 응용들)에 대해 다른 품질 레벨을 갖는 것이 바람직할 수 있다.

SAOC 왜곡 제어 기법 데이터(예를 들어, 오디오 인코더로부터 비트스트림을 통해 오디오 디코더까지)의 본 발명의 시그널링은 이전에 설명한 모든 제한들을 잠재적으로 해결할 수 있다. 예를 들어, SAOC 디코더는 예를 들어, 전화 회의, 대화 제어 응용들(오디오 북들(books) 또는 방송에서), 뮤직-리믹스("뮤직 2.0") 응용들에서, 다른 왜곡 제한 설정들(예를 들어, 왜곡 제한 제어 파라미터(116) 또는 왜곡 제한기 파라미터들(418)에 의해 설명된 다른 품질/기능-제한 설정들)을 사용할 수 있다.

본 발명은 왜곡 제어 프로세스를 가이드하기 위해 비트스트림의 시그널링을 이용하여 추가적 향상된 성능 및 기능을 모두 제공한다.

5. 참고문헌 예

다음은, 본 발명의 모든 장점들을 제공하지 못하는 SAOC 왜곡 제어에 대한 참고 예에 대해서 도 7을 참조하여 설명한다. 도 7에 따른 시스템(700)은 SAOC 인코더(710) 및 SAOC 디코더/트랜스코더(720)를 포함한다. SAOC 인코더(710)는 복수의 오디오 객체 시그널들(712a 내지 712N)을 수신하고, 이에 기초하여, 다운믹스 시그널(714) 및 SAOC 파라미터들(718)을 제공한다. SAOC 디코더/트랜스코더(720)는 SAOC 인코더(710)로부터 다운믹스 시그널(714)(1 -채널 시그널 또는 멀티-채널 시그널이 될 수 있음) 및 SAOC 파라미터들(718)을 수신한다. SAOC 디코더/트랜스코더(720)는 이들을 기초하여 복수의 오디오 시그널 채널들(728a 내지 728M)을 제공한다. 이를 위해, SAOC 디코더/트랜스코더(720)는 왜곡 제한기(722)를 이용할 수 있으며, 예를 들어, 사용자 인터페이스로부터 수신되는 상호 작용 정보 또는 제어 정보(724)를 고려할 수 있다.

그러나, 도 7에 따른 시스템(700)은 일반적으로 약간의 경우들에서 가청 왜곡량을 야기한다.

6. 도 5에 따라, 멀티-채널 오디오 시그널을 표현하는 비트스트림을 제공하기 위한 장치

다음은, 장치(500)와 같은 개략적인 블록 다이어그램을 도시한 도 5를 참조하여 멀티채널 오디오 시그널의 비트스트림 표현을 제공하기 위한 장치를 설명한다.

장치(500)는 복수의 오디오 객체 시그널들(510a 내지 510N)을 수신하도록 구성된다. 또한, 장치(500)는 멀티-채널 오디오 시그널을 나타내는 비트스트림(520)을 제공하도록 구성된다.

장치(500)는 복수의 오디오 객체 시그널들(510a 내지 510N)에 기초하여 다운믹스 시그널(532)을 제공하도록 구성된 다운 믹서(530)를 포함한다. 장치(500)는, 다운 믹서(530)에 의해 적용된 다운믹스 파라미터들 및 오디오 객체 시그널들(510a 내지 510N)의 특성들을 기술하는 객체-관련 파라메트릭 사이드 정보(542)를 제공하도록 구성된 사이드 정보 제공기(540)를 또한 포함한다. 사이드 정보 제공기는 업믹스 시그널 표현을 제공하기 위한 장치의 사이드에서 왜곡 제어 기법의 응용을 제어하기 위한 하나 이상의 왜곡 제한 제어 파라미터들(544)을 또한 제공하도록 구성된다. 장치(500)는 다운믹스 시그널(532)의 표현, 객체-관련 파라메트릭 사이드 정보(542) 및 하나 이상의 왜곡 제한 제어 파라미터들(544)을 포함하는 비트스트림(520)을 제공하도록 구성된 비트스트림 포매터(550)를 또한 포함한다.

따라서, 장치(500))는 장치(100, 200, 300) 내의 왜곡 제어 기법(142, 242, 342) 및 장치(420) 내의 왜곡 제한기(422)를 조정하는데 필요한 정보를 포함하는 비트스트림(520)을 제공한다.

사이드 정보 제공기(540)는 오디오 객체 시그널들(510a 내지 510N)의 오디오 객체 특성들에 의존하여 왜곡 제한 제어 파라미터(544)를 제공하도록 구성될 수 있다. 예를 들어, 사이드 정보 제공기는 오디오 객체 시그널들(510a 내지 510N)에 기초하여 획득되거나, 사이드 정보 (예를 들어, 사용자 인터페이스를 통한 입력)를 이용하여 제공된 컨텐트 형태 정보에 의존하여 왜곡 제한 제어 파라미터(544)를 제공할 수 있다.

대안으로, 또는 부가적으로, 사이드 정보 제공기(540)는 예를 들어, 하나 이상의 오디오 객체 시그널들(510a 내지 51ON)의 천이에 관한 정보, 고조파 대 노이즈 구조에 관한 정보, 스펙트럼 슬로프에 관한 정보, 동적 미세 구조에 관한 정보, 등의 저레벨 특성들에 의존하여 왜곡 제한 제어 파라미터들을 제공할 수 있다.

대안으로, 또는 부가적으로, 사이드 정보 제공기(540)는 다운믹스 시그널(532)에 존재하는 제어 라벨 객체들의 수와 같은 SAOC 특성들에 의존하거나, 다운믹스 내의 파라메트릭 코딩된 파트들에 의존하거나, 채널 구성에 의존하거나, 오디오 대역폭에 의존하거나, 또는 샘플링 레이트에 의존하여 왜곡 제한 제어 파라미터들을 제공할 수 있다.

사이드 정보 제공기(540)는 왜곡 제한 제어 파라미터들(544)을 제공하기 위해 원래의 ("이산") 오디오 객체들(또는, 오디오 객체 시그널들(510a 내지 510N))의 분석으로부터 유용할 수 있다. 사이드 정보 제공기(540)는 예를 들어, 비트스트림(520)에 의해 표현된 오디오 시그널의 렌더링의 최대 품질 레벨을 가변 설정을 위해 왜곡 제한 제어 파라미터들을 조정할 수 있다.

요약하면, 멀티채널 오디오 시그널의 비트스트림 표현을 제공하기 위한 장치(500)는 비트스트림(520)이 하나 이상의 왜곡 제한 제어 파라미터들(544)을 포함하여 렌더링 품질의 조정을 결과적으로 고려할 수 있는 비트스트림(520)을 제공할 수 있다. 이를 위해, 오디오 객체 시그널들(510a 내지 510N)의 특성들이 고려될 수 있으며, 부가적인 사이드 정보 또는 사용자 인터페이스로부터의 사용자 입력은 왜곡 제한 제어 파라미터들(544)의 설정이 고려될 수도 있다.

7. 비트스트림

다음은, 멀티-채널 오디오 시그널을 표현하는 비트스트림(600)을 설명한다.

비트스트림(600)은 다운믹스 시그널 표현(110, 414)에 상응할 수 있는 다운믹스 시그널(예를 들어, 다운믹스 시그널(532))의 표현(610)을 포함한다. 비트스트림(600)은 SAOC 사이드 정보가 될 수 있는 객체-관련 파라메트릭 사이드 정보(620) 또한 포함한다. 객체-관련 파라미터 사이드 정보(620)는, 예를 들어, 객체 레벨 차이 정보(622), 객체간-상관 정보(624), 다운믹스 이득 정보(626) 및 다운믹스 채널 레벨 차이 정보(628)를 포함할 수 있으며, 이 사이드 정보는 공간 오디오 객체 코딩(SAOC)의 분야에 이미 공지되어 있다. 비트스트림(600)은 상기 설명한 하나 이상의 왜곡 제한 제어 파라미터들(630)을 또한 포함한다.

본 발명의 왜곡 제어 기법 데이터(즉, 왜곡 제한 제어 파라미터들(630, 116, 418))는 최소 데이터-레이트 오버헤드에 대해 SAOC 비트스트림(예를 들어, "SAOCSpecificConfig()"으로 지정된 SAOC 비트스트림의 SAOC 특정 구성 부분에서)의 헤더에 전달될 수 있음을 주목해야 한다. 그러나, 본 발명의 왜곡 제어 기법 데이터는 시간 변화 시그널링(예를 들어, 시그널 적응 제어)을 인에이블하기 위해 또한 페이로드 데이터(예를 들어, 일반적으로 소위 "SAOC프레임()"로 불리는 SAOC 프레임 데이터)에 전달될 수 있다.

일반적으로, 반드시는 아니지만, 왜곡 제어 기법 데이터를 배치하기 위한 양호한 위치는 확장 메커니즘을 사용하여 SAOC 비트스트림에 배치될 수 있으며, 약간의 실시예에 있어서, 왜곡 제어 기법 데이터(또는, 왜곡 제어 기법 데이터의 적어도 일부)는 헤더 및 페이로드 경우에 있어 소위 "SAOCExtensionConfig()" 및 "SAOCExtensionFrame()" 로 각각 불리는 구문 섹션들에 부가될 수 있다.

즉, 일부 실시예들에 있어서, 왜곡 제어 기법 데이터는 오디오 피스(piece)당 한 번 비트스트림에 일반적으로 포함된 SAOC 헤더에 포함될 수 있다. 대안으로, 또는 부가적으로, 왜곡 제어 기법 데이터는 SAOC 비트스트림의 프레임 데이터에 포함될 수 있다. 따라서, 왜곡 제어 기법 데이터는 각 오디오 프레임마다 전송될 수 있다. SAOC 구성을 포함할 수 있는 SAOC 헤더 내의 플래그는 두 해법들(오직 헤더 내의 왜곡 제어 기법 데이터 또는, 오디오 프레임 데이터 내의 왜곡 제어 기법 데이터) 중 어느 것이 적용되는지를 나타낼 수 있다.

또한, 일부 실시예들에 있어서, 왜곡 제어 기법 데이터는 오디오 프레임들의 일부에만 포함될 수 있으며, 여기서는 오디오 프레임들 중 왜곡 제어 기법 데이터를 포함하는 파라미터 또는 플래그를 이용하여 시그널링 될 수 있다. 따라서, SAOC 왜곡 제어 기법 데이터는 오디오(단일 SAOC 구성 부분이 연관된 오디오)의 단일 피스 내에 불규칙한 시간 간격들로 전송될 수 있다.

8. 대안의 구현

일부의 관점들이 장치의 맥락에서 설명되었지만, 이들 관점들은 상응하는 방법의 설명을 또한 나타낼 수 있고, 여기서, 블록 또는 디바이스는 방법 단계 또는 방법 단계의 기능에 상응하는 것은 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 관점들은 또한 상응하는 블록 또는 항목 또는 상응하는 장치의 특징의 설명을 나타낸다. 방법 단계들의 일부 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해 (또는 사용하여) 실행될 수 있다. 일부 실시예들에 있어서, 일부 하나 이상의 가장 중요한 방법 단계들은 그와 같은 장치에 의해 실행될 수 있다.

본 발명의 인코딩된 오디오 신호는 디지털 저장 매체에 저장될 수 있거나, 인터넷과 같은 무선 전송 매체 또는 유선 전송 매체와 같은 전송 매체에 전송될 수 있다.

어떤 구현 요구들에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 그러한 구현은, 전기적으로 판독 가능한 제어 신호가 저장되어, 각각의 방법을 실행하는 프로그램 가능한 컴퓨터 시스템과 협력하는 (또는 협력할 수 있는) 플로피 디스크, DVD, 블루-레이(Blue-Ray), CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리와 같은 디지털 저장 매체를 사용하여 실행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터 판독 가능하게 될 수 있다.

본 발명에 따른 일부 실시예들은 본 명세서에 기재된 방법들 중 하나가 실행되는 것과 같은 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전기적으로 판독 가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시예들은 프로그램 코드를 포함하는 컴퓨터 프로그램으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때 방법들 중 하나를 실행하도록 작동된다. 이러한 프로그램 코드는 예를 들어 기계 판독 가능한 캐리어에 저장될 수 있다.

다른 실시예들은 본 명세서에 기재된 방법들을 실행하며 기계 판독 가능한 캐리어에 저장된 컴퓨터 프로그램을 포함한다.

즉, 따라서, 본 발명의 방법의 실시예는 컴퓨터 프로그램이 컴퓨터상에서 실행될 때 본 명세서에 기재된 방법들 중 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서, 본 발명의 방법들의 다른 실시예는 본 명세서에 기재된 방법들 중 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능한 매체)이다. 이러한 데이터 캐리어, 디지털 저장 매체 또는 기록된 매체는 전형적으로 유형(tangible) 및/또는 비-전이형(non- transitionary)이다.

따라서, 본 발명의 방법의 다른 실시예는 본 명세서에 기재된 방법들 중 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 시퀀스 또는 데이터 스트림이다. 이러한 신호들의 시퀀스 또는 데이터 스트림은 예를 들어 인터넷을 통해 데이터 통신 연결을 통해 전송되도록 예로서 구성될 수 있다.

다른 실시예는 본 명세서에 기재된 방법들 중 하나를 실행하도록 구성 또는 적응된 컴퓨터 또는 프로그램 가능한 로직 디바이스와 같은 처리 수단을 포함한다.

다른 실시예는 본 명세서에 기재된 방법들 중 하나를 실행하기 위한 컴퓨터 프로그램들이 설치된 컴퓨터를 포함한다.

일부 실시예들에 있어서, 프로그램 로직 디바이스(예를 들어, 필드 프로그램 가능한 게이트 어레이(field programmable gate array)는 본 명세서에 기재된 방법들의 일부 또는 모든 기능들을 실행하는데 사용될 수 있다. 일부 실시예들에 있어서, 필드 프로그램 가능한 게이트 어레이는 본 명세서 기재된 방법들 중 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해 바람직하게 실행된다.

상술한 실시예들은 본 발명의 원리를 단지 예시한 것뿐이다. 본 명세서에 기재된 상세 및 장치들의 변경 및 수정안들이 본 기술 분야에 숙련된 사람들에게 명백하게 될 것임을 알 수 있다. 따라서, 이어지는 특허 청구 범위뿐만 아니라 본 명세서 내의 실시예들의 설명 및 기재에 의해 제공된 구체적인 상세도 제한하려는 의도가 아니다.

9. 결론

상술한 내용을 요약하면, 본 발명에 따른 실시예는 MPEG 공간 오디오 객체 코딩 SAOC에서 왜곡 제어 시그널링을 생성한다.

본 발명에 따른 실시예들은 왜곡 프로세스를 가이드하기 위해 비트스트림 내에 시그널링을 이용하여 보다 향상된 성능 및 기능 모두를 제공한다.

본 발명에 따른 양호한 실시예는 상술한 것과 같은 오디오 시그널을 인코딩 또는 디코딩하기 위한 방법들, 장치, 또는 컴퓨터 프로그램들을 포함한다.

본 발명에 따른 다른 실시예는 상술한 것과 같이 생성되거나, 상술한 것과 같은 디코더 또는 디코딩 방법에 의해 이용된 것과 같은 인코딩된 시그널을 포함한다.

10. 참고 문헌들

[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding-PartII : Schemes and applications", IEEE Trans, on Speech and Audio Proc, vol. 11, no.6, Nov.2003.

[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris,2006,Preprint 6752.

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC-Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.

[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 7377.

[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)", ISO/IEC JTC1/SC29/WG1 1 (MPEG) FCD 23003-2

[SBR1] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG1 1 (MPEG) FCD 23003-2.

[SBR2] M. Dietz, L. Liljeryd, K. Kjoerling, and O. Kunz, "Spectral band replication, a novel approach in audio coding", in AES 112^th Convention, Munich, Germany, May 2002, Preprint 5553.

[PS] "Low Complexity Parametric Stereo Coding in MPEG-4", Heiko Pumhagen, Proc. Digital Audio Effects Workshop (DAFx), pp. 163-168, Naples, IT, Oct. 2004.

110, 414: 다운믹스 시그널 표현
112; 416: 객체 관련 파라메트릭 정보
114; 424: 렌더링 정보
120; 428a-428M: 업믹스 시그널 표현
100; 200; 300; 400: 업믹스 시그널 표현 제공 장치

Claims

오디오 컨텐트의 비트스트림 표현에 포함된 다운믹스 시그널 표현(110, 414) 및 객체 관련 파라메트릭 정보(112; 416)에 기초하고, 렌더링 정보(114; 424)에 의존하여 업믹스 시그널 표현(120; 428a-428M)을 제공하는 장치(100; 200; 300; 400)에 있어서,
렌더링 파라미터들(114; 424)의 부적절한 선택에 의해 발생된 가청 왜곡량을 회피하거나 제한하기 위해 왜곡 제어 기법(142)을 사용하여 업믹스 파라미터들을 조정하도록 구성된 왜곡 제한기(140; 240; 340; 422)를 포함하되,
상기 왜곡 제한기는 오디오 컨텐트의 비트 스트림 표현에 포함된 왜곡 제한 제어 파라미터(116; 418; q)를 획득하고, 왜곡 제한 제어 파라미터에 의존하여 왜곡 제어 기법을 조정하고,
상기 왜곡 제한기는 상기 오디오 컨텐트의 비트스트림 표현의 구성 부분 내의 동적 업데이트 플래그(dynamic update flag)를 평가하도록 구성되고,
상기 왜곡 제한기는 상기 동적 업데이트 플래그가 비활성인 경우 상기 왜곡 제한 제어 파라미터를 획득하기 위해 상기 오디오 컨텐트의 비트스트림 표현의 구성 부분을 평가하고, 상기 동적 업데이트 플래그가 활성인 경우 상기 왜곡 제한 제어 파라미터의 업데이트들을 반복적으로 획득하기 위해 상기 오디오 컨텐트의 비트스트림 표현의 프레임 부분을 평가하도록 구성되는, 업믹스 시그널 표현을 제공하는 장치(100; 200; 300; 400).
제1 항에 있어서,
업믹스 시그널 표현을 제공하는 상기 장치는, 요구된 렌더링 매트릭스 정보(114; 424)를 입력 인터페이스로부터 수신하도록 구성되고;
상기 왜곡 제한기(140; 240; 340; 422)는 요구된 렌더링 매트릭스 정보에 의존하여 변형된 렌더링 매트릭스 정보(132; p', p") 및 적어도 하나의 왜곡 제한 제어 파라미터들(116; 418; q)을 획득하도록 구성되며;
상기 업믹스 시그널 표현을 제공하는 장치는 상기 변형된 렌더링 매트릭스 정보에 의존하여 업믹스 시그널 표현(120; 428a-428M)을 제공하도록 구성된, 업믹스 시그널 표현을 제공하는 장치(100; 200; 300; 400).
제2 항에 있어서,
상기 왜곡 제한기는 오디오 컨텐트의 비트 스트림 표현에 포함되고 렌더링 매트릭스 구성요소들의 최소 및 최대 값들을 기술하는 적어도 하나의 렌더링 매트릭스 제한 값들(r, q) 획득하고, 요구된 렌더링 매트릭스 정보에 의존하여 변형된 렌더링 매트릭스 정보를 획득할 때 적어도 하나의 렌더링 매트릭스 제한 값들(r, q)에 따라 변형된 렌더링 매트릭스 정보(132; p', p")의 적어도 하나의 입력들을 제한하도록 구성되는, 업믹스 시그널 표현을 제공하는 장치(100; 200; 300; 400).
제2항에 있어서,
상기 왜곡 제한기는 요구된 렌더링 매트릭스 정보(114; 424), 기준 렌더링 매트릭스 정보(r) 및 상기 적어도 하나의 왜곡 제한 제어 파라미터들(q)에 의존하여 변형된 렌더링 매트릭스 정보(132; p', p")를 획득하도록 구성되는, 업믹스 시그널 표현을 제공하는 장치(100; 200; 300; 400).
제4 항에 있어서,
상기 왜곡 제한기는 상기 적어도 하나의 렌더링 매트릭스 제한 값들(q)에 따라 기준 렌더링 매트릭스 정보(r)에 관련된 변형된 렌더링 매트릭스(132)의 적어도 하나의 입력들(p', p")을 제한하도록 구성되는, 업믹스 시그널 표현을 제공하는 장치(100; 200; 300; 400).
제2 항에 있어서,
상기 왜곡 제한기는, 상기 요구된 렌더링 매트릭스 정보에 의존하여 상기 변형된 렌더링 매트릭스 정보를 획득하기 위해, 객체-개별 왜곡-제한 제어 파라미터들(q)을 적용하도록 구성되는, 업믹스 시그널 표현을 제공하는 장치(100; 200; 300; 400).
제1 항에 있어서,
업믹스 시그널 표현을 제공하는 상기 장치는, 이득 인자들에 의존하여 업믹스 시그널 표현(120; 428a-428M)을 제공하기 위해, 다운믹스 시그널 표현(110, 414)의 오디오 샘플들 또는 상기 다운믹스 시그널에 의해 기술된 오디오 객체들과 관련된 객체-관련 사이드 정보에 적어도 하나의 변형된 이득 인자들(p', p")을 적용하도록 구성되고,
상기 왜곡 제한기는 적어도 하나의 요구된 이득 인자들(p) 및 적어도 하나의 왜곡 제한 제어 파라미터들(116; 418; q)에 의존하여 적어도 하나의 변형된 이득 인자들(p', p")을 획득하도록 구성되는, 업믹스 시그널 표현을 제공하는 장치(100; 200; 300; 400).
제1 항에 있어서,
상기 왜곡 제한기는 시간 상수를 가지는 스무딩 필터를 사용하여 이득 인자를 제한하기 위해 기준 레벨(r)을 도출하도록 구성되고,
상기 왜곡 제한기는 주어진 인자를 제한하기 위한 기준 레벨(r)을 사용하다록 구성되며,
상기 왜곡 제한기는 상기 오디오 컨텐트의 비트스트림 표현에 포함된 시간 상수 파라미터를 획득하고, 상기 시간 상수 파라미터에 의존하여 스무딩 필터 시간 상수를 조정하도록 구성되는, 업믹스 시그널 표현을 제공하는 장치(100; 200; 300; 400).
제1 항에 있어서,
상기 왜곡 제한기는 오디오 컨텐트의 비트스트림 표현에 포함되는 왜곡 제어 활성화 파라미터를 획득하고, 상기 왜곡 제어 활성화 파라미터에 의존하여 왜곡 제어 기법을 인에이블 또는 디스에이블 하도록 구성되는, 업믹스 시그널 표현을 제공하는 장치(100; 200; 300; 400).
제1 항에 있어서,
상기 왜곡 제한기는 상기 오디오 컨텐트의 비트스트림 표현에 포함되는 프리셋 렌더링 매트릭스 활성화 파라미터를 획득하도록 구성되고,
상기 왜곡 제한기는, 상기 프리셋 렌더링 매트릭스 활성화 파라미터의 활성화 상태에 따라, 사용자 지정 렌더링 매트릭스 정보가 아닌, 상기 오디오 컨텐트의 비트스트림 표현에 포함된 프리셋 렌더링 매트릭스 정보가 상기 다운믹스 시그널 표현에 기초하여 상기 업믹스 시그널 표현을 제공하기 위해 사용되도록 실행하는, 업믹스 시그널 표현을 제공하는 장치(100; 200; 300; 400).
제1 항에 있어서,
상기 왜곡 제한기는 상기 오디오 컨텐트의 비트스트림 표현에 포함된 심리음향 왜곡 제한 파라미터를 획득하도록 구성되고,
상기 왜곡 제한기는 다운믹스 시그널 표현으로부터 업믹스 시그널 표현의 도출에 의해 발생하는 왜곡들의 측정이 제한되도록 심리음향 왜곡 모델에 의존하여 적어도 하나의 업믹스 파라미터들을 조정하도록 구성되며,
상기 왜곡 제한기는 상기 심리음향 왜곡 모델에 의존하여 적어도 하나의 업믹스 파라미터들을 조정하기 위해 사용되는 적어도 하나의 파라미터들을, 또는 상기 심리음향 왜곡 제한 파라미터에 기초하여 상기 심리음향 왜곡 모델의 적어도 하나의 파라미터들을 설정하도록 구성되는, 업믹스 시그널 표현을 제공하는 장치(100; 200; 300; 400).
제1 항에 있어서,
상기 왜곡 제한기는 시간-변화 왜곡 제한 기법을 획득하기 위해 각 오디오 프레임마다 한번 업데이트된 왜곡 제한 제어 파라미터를 획득하도록 구성되는, 업믹스 시그널 표현을 제공하는 장치(100; 200; 300; 400).
제1항에 있어서,
상기 왜곡 제한기는, 상기 왜곡 제한 제어 파라미터를 위한 업데이트 간격들이 상기 오디오 컨텐트의 비트스트림에 의해 동적으로 결정되도록, 상기 오디오 컨텐트의 비트스트림 표현의 프레임 부분내 왜곡 제한 제어 파라미터의 존재를 나타내는 플래그에 의존하여 상기 왜곡 제한 제어 파라미터을 선택적으로 업데이트하도록 구성되는, 업믹스 시그널 표현을 제공하는 장치(100; 200; 300; 400).
멀티-채널 오디오 시그널을 표현하는 비트스트림(520)을 제공하기 위한 장치(500)에 있어서,
복수의 오디오 객체 시그널들(510a-510N)에 기초하여 다운믹스 시그널(532)를 제공하도록 구성된 다운믹서(530);
오디오 객체 시그널들(510a-510N) 및 다운믹스 파라미터들의 특성들을 기술하는 객체-관련 파라메트릭 사이드 정보(542)를 제공하도록 구성되고, 업믹스 시그널 표현을 제공하기 위한 장치(100; 200; 300; 400)의 사이드에서 왜곡 제어 기법의 응용을 제어하기 위한 적어도 하나의 왜곡 제한 제어 파라미터들(544)을 제공하도록 구성된 사이드 정보 제공기(540); 및
상기 다운믹스 시그널(532)의 표현, 상기 객체-관련 파라메트릭 사이드 정보(542) 및 상기 적어도 하나의 왜곡 제한 제어 파라미터들(544)를 포함하는 비트스트림(520)을 제공하도록 구성된 비트스트림 포매터(formatter)(550)를 포함하되,
상기 장치는 비트스트림의 구성 부분이 동적 업데이트 플래그(dynamic update flag)를 포함하도록, 그리고
동적 업데이트 플래그가 비활성인 경우 비트스트림의 구성 부분이 왜곡 제한 제어 파라미터를 포함하도록, 그리고 동적 업데이트 플래그가 활성인 경우 비트스트림의 프레임 부분이 왜곡 제한 제어 파라미터의 반복된 업데이트들을 포함하도록 비트스트림을 제공하는, 멀티-채널 오디오 시그널을 표현하는 비트스트림(520)을 제공하기 위한 장치(500).
오디오 컨텐트의 비트스트림 표현에 포함된 다운믹스 시그널 표현 및 객체-관련 파라메트릭 정보에 기초하고, 렌더링 정보에 의존하여 업믹스 시그널 표현을 제공하는 방법에 있어서,
렌더링 파라미터들의 부적절한 선택에 의해 발생된 가청 왜곡량을 회피하거나 제한하기 위해 왜곡 제어 기법을 사용하여 업믹스 파라미터들을 조정하는 단계를 포함하고,
상기 오디오 컨텐트의 비트스트림 표현에 포함된 왜곡 제한 제어 파라미터가 획득되고, 상기 왜곡 제어 기법은 상기 왜곡 제한 제어 파라미터에 의존하여 조정되고,
상기 오디오 컨텐트의 비트스트림 표현의 구성 부분 내의 동적 업데이트 플래그(dynamic update flag)가 평가되고,
상기 동적 업데이트 플래그가 비활성인 경우 상기 왜곡 제한 제어 파라미터를 획득하기 위해 상기 오디오 컨텐트의 상기 비트스트림 표현의 구성 부분이 평가되고, 상기 동적 업데이트 플래그가 활성인 경우 상기 왜곡 제한 제어 파라미터의 업데이트들을 반복적으로 획득하기 위해 상기 오디오 컨텐트의 비트스트림 표현의 프레임 부분이 평가되도록 구성되는 업믹스 시그널 표현을 제공하는 방법.
멀티-채널 오디오 시그널을 표현하는 비트스트림을 제공하기 위한 방법에 있어서,
복수의 오디오 객체 시그널들에 기초하여 다운믹스 시그널을 도출하는 단계;
오디오 객체 시그널들 및 다운믹스 파라미터들의 특성들을 기술하는 객체-관련 파라메트릭 사이드 정보를 제공하는 단계;
업믹스 시그널 표현을 제공하기 위한 장치에서 왜곡 제어 기법의 적용을 제어하기 위한 적어도 하나의 왜곡 제한 제어 파라미터들을 제공하는 단계; 및
상기 다운믹스 시그널의 표현, 상기 객체-관련 파라메트릭 사이드 정보 및 상기 적어도 하나의 왜곡 제한 제어 파라미터들을 포함하는 비트스트림을 제공하는 단계를 포함하되,
상기 비트스트림의 구성 부분이 동적 업데이트 플래그(dynamic update flag)를 포함하도록, 및
상기 동적 업데이트 플래그가 비활성인 경우, 비트스트림의 구성 부분이 왜곡 제한 제어 파라미터를 포함하도록, 및
상기 동적 업데이트 플래그가 활성인 경우, 비트스트림의 프레임 부분이 왜곡 제한 제어 파라미터의 반복되는 업데이트들을 포함하도록, 상기 비트스트림이 제공되는 멀티-채널 오디오 시그널을 표현하는 비트스트림을 제공하기 위한 방법.
제15항에 따른 방법을 수행하기 위한 컴퓨터 프로그램을 기록한, 컴퓨터로 판독 가능한 저장 매체.
멀티-채널 오디오 시그널을 표현하는 비트스트림에 있어서,
복수의 오디오 객체들의 오디오 신호를 결합하는 다운믹스 시그널의 표현;
오디오 객체들의 특성을 기술하는 오브젝트 관련 파라메트릭 사이드 정보; 및
업믹스 시그널 표현을 제공하기 위한 장치에서 왜곡 제어 기법의 적용을 제어하기 위한 적어도 하나의 왜곡 제한 제어 파라미터들을 포함하되,
상기 비트스트림의 구성 부분은 동적 업데이트 플래그(dynamic update flag)를 포함하고, 및
상기 동적 업데이트 플래그가 비활성인 경우 상기 비트스트림의 구성 부분은 왜곡 제한 제어 파라미터를 포함하고, 및
상기 동적 업데이트 플래그가 활성인 경우 비트스트림의 프레임 부분은 왜곡 제한 제어 파라미터의 반복적인 업데이트들을 포함하는, 멀티 채널 오디오 시그널을 포함하는 비트스트림을 기록한, 컴퓨터로 판독 가능한 저장 매체.
삭제