KR20150113016A

KR20150113016A - 신호 혼합 조작에 대한 숨겨진 객체를 이용하는 공간 오디오 객체 코딩 장치 및 방법

Info

Publication number: KR20150113016A
Application number: KR1020157022002A
Authority: KR
Inventors: 토르스텐 카스트너; 위르겐 헤레; 팔코 리더부슈; 코넬리아 팔히
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2013-01-22
Filing date: 2014-01-20
Publication date: 2015-10-07
Also published as: BR112015017094B8; US20150348559A1; CA2898801C; TR201815374T4; RU2015135593A; EP2948946A1; CN105122355A; BR112015017094B1; CA2898801A1; JP2016508617A; MX2015009170A; BR112015017094A2; WO2014114599A1; MX348811B; ES2691546T3; CN105122355B; RU2635244C2; KR101756190B1; EP2757559A1; US10482888B2

Abstract

인코딩된 신호를 획득하기 위해 하나 이상의 오디오 객체를 인코딩 하는 장치가 개시된다. 장치는 하나 이상의 처리되지 않은 다운믹스 신호를 획득하기 위해 하나 이상의 오디오 객체들을 다운믹싱 하는 다운믹서(110)을 포함한다. 또한, 장치는 하나 이상의 처리된 다운믹스 신호들을 획득하기 위한 처리되지 않은 하나 이상의 다운믹스 신호들을 처리하는 처리모듈(120)을 포함한다. 또한, 장치는 하나 이상의 부가 신호들을 연산하는 신호 연산기(130)를 포함하고, 상기 신호 연산기(130)는 하나 이상의 처리된 다운믹스 신호와 하나 이상의 처리되지 않은 다운믹스 신호 사이의 차이에 기반한 하나 이상의 부가 신호들 각각을 계산하도록 구성된다. 또한 장치는 하나 이상의 오디오 객체들에 대한 매개변수 오디오 객체 정보 또는 부가 신호에 대한 부가 매개변수 정보를 생성하는 객체 정보 생성기(140)를 포함한다. 또한, 장치는 인코딩 된 신호 출력에 대한 출력 인터페이스(150)를 포함하고, 인코딩된 신호는 하나 이상의 오디오 객체에 대한 매개변수 오디오 객체 정보 또는 하나 이상의 부가 신호에 대한 부가 매개변수 정보를 포함한다. 또한, 디코딩에 대해 상응하는 장치가 제공된다.

Description

신호 혼합 조작에 대한 숨겨진 객체를 이용하는 공간 오디오 객체 코딩 장치 및 방법{APPARATUS AND METHOD FOR SPATIAL AUDIO OBJECT CODING EMPLOYING HIDDEN OBJECTS FOR SIGNAL MIXTURE MANIPULATION}

본 발명은 오디오 신호 처리에 관련되고, 특히, 단일 혼합 조작에 대한 숨겨진 객체를 이용하는 공간 오디오 객체 코딩에 대한 디코더, 인코더, 시스템, 방법 및 컴퓨터 프로그램에 관한 것이다.

오디오 신호 처리는 점점 더 중요해 지고 있다. 최근 비트 레이트의- 효율적인 전송 및/또는 다중 오디오 객체(multiple audio objects)를 포함하는 오디오 장면의 저장에 대한 매개변수 기술이 오디오 코딩[BCC, JSC, SAOC, SAOC1, SAOC2] 분야에서 제안되었고, 더불어, 알려진 소스 분리 분야[ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]에서도 제안되었다. 이러한 기술은 오디오 장면에서의 전송된 및/또는 저장된 오디오 장면 및/또는 오디오 장면 객체를 표현하는 부가적인 측면의 정보를 기반으로 바람직한 출력 오디오 장면 또는 바람직한 오디오 출력객체의 재건(reconstructing)을 목적으로 한다.

도 11은 최신 기술에 따른 MPEG SAOC(MPEG = Moving Picture Experts Group; SAOC = Spatial Audio Object Coding )의 예를 나타내는 시스템을 도시한다. 특히, 도 11은 MPEG SAOC시스템 개요를 나타낸다.

최신 기술에 따라, 일반적인 처리는 선택적인 주파수 방법에서 종종 수행되고, 예컨대, 각 주파수 밴드 내에서 아래와 같이 설명될 수 있도록 한다.:

N 개의 입력 오디오 객체 신호 s₁... s_N 는 최신 기술에 따른 SAOC인코더 910의 믹서 912 처리의 일부분인 P 개의 채널 x₁ ... x_P로 다운 믹스된다. 다운믹스 행렬은 구성요소 d₁,₁ , ... , d_N,P를 포함하여 구성 될 수 있다. 또한, SAOC 인코더 910의 부가 정보 추정기(side information estimator) 914는 입력 오디오 객체의 특성을 나타내는 부가 정보를 추출한다. MPEG SAOC에 있어서, 상호간의 객체 파워 관계는 이러한 부가 정보의 기본적인 형태이다.

그 후, 다운믹스 신호(들) 및 부가 정보는 전송 및/도는 저장될 수 있다. 이를 위해, 다운 믹스 오디오 신호가 인코딩 되고, 예컨대, 최첨단 인지 오디오 코더 (920)에 의해 압축된다. MPEG-1 레이어로 II 또는 III (또한 MP3라고도 함) 오디오 코더 또는 MPEG 고급 오디오 코딩 (AAC) 오디오 코더와 같은 인지 오디오 코더(920)에 의해 압축된다.

수신단에서, 인코딩 된 신호는 처음에는, 예컨대 이러한 MPEG-1 레이어 II 또는 III 오디오 디코더, MPEG 고급 오디오 코딩 (AAC) 오디오 디코더 등의 최첨단 지각 오디오 디코더 (940)에 의해 디코딩 될 수 있다.

그리고, 최신 기술에 따른 SAOC 디코더 950는 개념적으로 , 예컨대 전달된 부가 정보를 이용하는 (디코딩 된) 다운믹스 신호로부터, “객체 분리”를 수행함으로써 원래 객체 신호를 복원을 시도한다. 이때 예컨대 전달된 부가 정보는 전술한 바와 같이 SAOC인코더(910)의 부가 정보 추정기914에 의해 생성될 수 있다. 객체 분리를 수행함으로써 원래 객체 신호를 복원하려는 목적을 위해, SAOC 디코더 950은 객체 분리기(952) 예컨대 가상 객체 분리기를 포함한다.

객체 분리기(952)는 그리고 근사화된 객체 신호

를 SAOC 디코더 950의 렌더러(954)로 공급할 수 있다. 상기 렌더러(954)는 그리고 예컨대 렌더링 행렬을 이용함으로써, M 개의 오디오 출력 채널

에 의해 표시되는 타겟 장면으로의 근사화된 객체 신호

를 믹스한다(mixes). 도 11의 계수 r_1, ₁ ... r_N,M 는 예컨대 렌더링 행렬의 계수 일부를 나타낼 수 있다. 바람직한 타겟 장면은, 특별한 경우, 혼합(소스 분리 시나리오) 중 오직 하나의 소스 신호 렌더링이 될 수 있고 뿐만 아니라 임의의 다른 대안적인 음향 장면 일 수 있다.

하지만, 최신 기술에 따른 처리는 몇 가지 문제점을 갖는다:

최신 기술에 따른 시스템은 오직 오디오 소스 신호 처리만으로 제한된다. 인코더 및 디코더 에서의 신호처리는, 더 이상의 신호 처리가 혼합 신호 또는 원래 소스 객체 신호(original source object signals)에 적용되지 않는다는 가정 하에서 수행된다. 이러한 시스템 성능은 만일 이러한 가정이 유지되지 않는 경우 감소한다. 이 가정을 위배하는 두드러진 예는 다운믹스 신호의 효율적인 전달에 대한 저장된 및/또는 전송된 데이터의 양을 감소 시키기 위한 처리 체인에서의 오디오 코더의 사용이다. 신호 압축은 인지적으로 다운 믹스 신호를 변경한다. 이는 디코딩 시스템에서의 객체 분리 성능을 감소시키는 효과를 가지고, 따라서 [ISS5, ISS6] 뿐만 아니라 렌더링 된 타겟 장면의 인지 품질도 감소한다.

본 발명의 목적은, 제1항에 따른 장치에 의해, 제 9항에 따른 장치에 의해, 제 16항에 따른 시스템에 의해, 제17항에 따른 방법에 의해, 제18항에 따른 방법에 의해 그리고 제19항에 따른 컴퓨터 프로그램에 의해 해결된다.

인코딩된 신호를 획득하기 위한 하나 이상의 오디오 객체 인코딩 장치가 제공된다. 장치는 하나 이상의 처리되지 않은 다운믹스 신호들을 획득하기 위한 하나 이상의 오디오 객체 다운 믹싱을 위한 다운믹서를 포함한다. 또한, 장치는 하나 이상의 처리된 다운믹스 신호를 획득하기 위해 하나 이상의 처리되지 않은 다운믹스 신호 처리를 위한 처리 모듈을 포함한다. 또한, 장치는 하나 이상의 부가 신호 연산을 위한 신호 연산기를 포함하고, 상기 신호 연산기는 처리된 다운믹스 신호와 처리되지 않은 다운믹스 신호 사이의 차이에 기반한 하나 이상의 부가 신호 각각을 연산하도록 구성된다. 또한, 장치는 하나 이상의 오디오 객체에 대한 매개변수 오디오 객체 정보와 부가 신호에 대한 보가 매개변수 정보를 생성하기 위한 객체 정보 생성기를 포함한다. 또한, 장치는 인코딩된 신호 출력을 위한 출력 인터페이스를 포함하고, 인코딩된 신호는 하나 이상의 오디오 객체에 대한 매개변수 오디오 객체 정보 및 하나 이상의 부가 신호에 대한 부가 매개변수 정보를 포함한다.

실시예에 있어서, 처리 모듈은 하나 이상의 처리된 다운믹스 신호를 획득하기 위해 하나 이상의 처리되지 않은 다운믹스 신호를 인코딩 함으로써 하나 이상의 처리되지 않은 다운믹스 신호를 처리하도록 구성된다.

실시예에 있어서, 신호 연산기는 디코딩 유닛과 결합기를 포함한다. 디코딩 유닛은 하나 이상의 디코딩 된 신호를 획득하기 위한 하나 이상의 처리되지 않은 다운믹스 신호를 디코딩 하도록 구성된다. 또한, 결합기는 디코딩 된 신호와 다운믹스 신호 사이의 다른 신호를 생성함으로써 하나 이상의 부가 신호 각각을 생성하도록 구성된다.

실시예에 따라, 하나 이상의 처리되지 않은 다운믹스 신호 각각은 복수개의 첫 번째 신호 샘플들을 포함하고, 각 첫 번째 신호 샘플은 복수개의 포인트-인-타임의 하나에 할당된다.

하나 이상의 디코딩 된 신호 각각은 복수개의 두 번째 신호 샘플을 포함하고, 두 번째 신호 샘플 각각은 복수개의 포인트-인-타임의의 하나로 지정된다. 신호 연산기는 또한 디코딩 된 신호와 처리되지 않은 다운믹스 신호를 시간-정렬 하도록 구성되는 시간 정렬 유닛을 포함한다. 이에 따라서 상기 처리되지 않은 다운믹스 신호의 첫 번째 신호 샘플 중 하나는 상기 디코딩 된 신호의 두 번째 신호 샘플 중 하나로 할당되고, 상기 처리되지 않은 다운믹스 신호의 상기 첫 번째 신호 샘플 및 상기 디코딩된 신호의 상기 두 번째 신호 샘플은 복수개의 포인트-인-타임의 동일한 포인트-인-타임(of points-in-time)으로 할당된다.

실시예에 있어서, 처리 모듈은 하나 이상의 처리되지 않은 다운믹스 신호를 획득하기 위해 적어도 처리되지 않은 다운믹스 신호에 오디오 효과를 적용함으로써 하나 이상의 처리되지 않은 다운믹스 신호를 처리하도록 구성한다.

실시예에 따라, 오디오 객체 에너지 값은 오디오 객체로 할당 될 수 있고, 부가 에너지 값은 하나 이상의 부가 신호로 할당될 수 있다. 오디오 정보 생성기는 참조 에너지 값을 결정하도록 구성되고, 이에 따라 참조 에너지 값은 하나 이상의 오디오 객체의 오디오 객체 에너지 값 보다 크거나 또는 같다. 그리고 이에 따라 참조 에너지 값은 하나 이상의 부가 신호 각각의 부가 에너지 값 보다 크거나 또는 같다. 또한, 객체 정보 생성기는 하나 이상의 오디오 객체의 각 오디오 객체에 대한 오디오 객체 레벨 차이를 결정함으로써 매개변수 오디오 객체 정보를 결정하도록 구성된다. 이에 따라 상기 오디오 객체 레벨 차이는 참조 에너지 값으로의 상기 오디오의 오디오 객체 에너지 값의 비율을 나타내거나 또는 이에 따라 상기 오디오 객체 레벨 차이는 상기 오디오 객체의 참조 에너지 값 및 오디오 객체 에너지 값 사이의 차이를 나타낸다. 또한, 객체 정보 생성기는 하나 이상의 부가 신호의 각 부가 신호에 대한 부가 객체 레벨 차이를 결정함으로써 부가 객체 정보를 결정하도록 구성된다. 이에 따라 상기 부가 객체 레벨 차이는 참조 에너지 값으로의 상기 부가 신호의 부가 에너지 값의 비율을 나타내거나 또는 이에 따라 상기 부가 객체 레벨 차이는 상기 부가 신호의 참조 에너지 값과 부가 에너지 사이의 차이를 나타낸다.

실시예에 있어서, 처리 모듈은 음향 효과 모듈 및 인코딩 모듈을 포함한다. 음향 효과 모듈은 하나 이상의 음향적으로 조정된 다운믹스 신호를 획득하기 위해 적어도 처리되지 않은 다운 믹스 신호를 적용하도록 구성된다. 또한, 인코딩 모듈은 하나 이상의 처리된 신호를 획득하기 위해 음향적으로 조정된 하나 이상의 신호를 인코딩 하도록 구성된다.

또한, 인코딩된 신호를 디코딩하는 장치가 제공되고, 상기 인코딩 신호는 하나 이상의 오디오 객체, 및 부가 매개변수 정보를 포함한다. 장치는 하나 이상의 처리된 다운믹스 신호에 대한 그리고 인코딩된 신호 수신에 대한 인터페이스를 포함하고, 상기 부가 매개변수 정보는 하나 이상의 처리된 다운믹스 신호를 획득하기 위해 하나 이상의 처리되지 않은 다운믹스 신호에서 수행된 처리를 반영한다. 또한, 장치는 하나 이상의 처리된 다운믹스 신호, 매개변수 오디오 객체 정보, 부가 매개변수 정보 및 오디오 장면에서 하나 이상의 오디오 객체의 위치를 나타내는 렌더링 정보에 기반한 복수개의 공간 오디오 신호를 포함하는 오디오 장면 생성에 대한 오디오 장면 생성기를 포함하고, 상기 오디오 장면 생성기는 오디오 장면에서 부가 매개변수 정보에 의해 표현되는 출력신호를 감쇄 또는 제거하도록 구성된다.

실시예에 따라, 부가 매개변수 정보는 하나 이상의 부가 신호에 의존하고, 상기 부가 신호는 하나 도는 이상의 처리된 다운믹스 신호와 처리되지 않은 다운믹스 신호 사이의 차이를 나타내고, 상기 하나 이상의 처리되지 않은 다운믹스 신호는 하나 이상의 오디오 객체의 다운믹스를 나타내고, 상기 다운믹스 신호는 하나 이상의 처리되지 않은 다운믹스 신호 처리를 야기한다.

실시예에 있어서, 오디오 장면 생성기는 오디오 객체 생성기 및 렌더러를 포함한다. 오디오 객체 생성기는 하나 이상의 처리된 다운믹스 신호, 매개변수 오디오 객체 정보 및 부가 매개변수 정보를 기반으로 하나 이상의 오디오 객체를 생성하도록 구성된다. 렌더러는 하나 이상의 오디오 객체, 매개변수 오디오 객체 정보 및 렌더링 정보에 기반한 오디오 장면의 복수개의 공간 오디오 신호를 생성하도록 구성된다.

실시예에 있어서, 렌더러는 하나 이상의 객체, 부가 매개변수 정보, 및 렌더링 정보에 기반한 오디오 장면의 복수개의 공간 오디오 신호를 생성하도록 구성되고, 상기 렌더러는 렌더링 정보에 의해 포함되는 하나 이상의 렌더링 계수에 의존하는 오디오 장면에서의 부가 매개변수 정보에 의해 표현되는 출력 신호를 감쇄 또는 제거하도록 구성된다.

실시예에 있어서, 장치는 부가 매개변수 정보가 오디오 장면에서 감쇄되거나 제거됨으로써 표현되는 출력 신호의 경우 스티어링에 대한 하나 이상의 렌더링 계수를 설정하기 위한 사용자 인터페이스를 더 포함한다.

실시예에 따라, 오디오 장면 생성기는 하나 이상의 처리된 다운믹스 신호, 매개변수 오디오 객체 정보, 부가 매개변수 정보, 및 오디오 장면에서 하나 이상의 오디오 객체의 위치를 나타내는 렌더링 정보에 기반한 복수개의 공간 오디오 신호를 포함하는 오디오 장면을 생성하도록 구성되고, 상기 오디오 장면 생성기는 오디오 장면을 생성하기 위한 하나 이상의 오디오 객체를 생성하지 않도록 구성된다.

실시예에 있어서, 장치는 또한 하나 이상의 디코딩 된 신호를 획득하기 위해 하나 이상의 처리된 다운믹스 신호를 디코딩을 위한 오디오 디코더를 포함하고, 상기 오디오 장면 생성기는 하나 이상의 디코딩 된 신호, 매개변수 오디오 객체 정보, 부가 매개변수 정보 및 렌더링 정보에 기반한 복수개의 공간 오디오 신호를 포함하는 오디오 장면을 생성하도록 구성된다.

또 다른 실시예에 있어서, 오디오 장면 생성기는 수식을 이용함으로써 오디오 장면을 생성하도록 구성된다.

= G'X '

G'= E'D' ^T (D'E'D' ^T ) ^-1 , 및

상기

는 오디오 장면을 나타내는 첫 번째 행렬이고, 상기

는 복수개의 공간 오디오 신호를 나타내는 복수개의 행(rows)을 포함하고, 상기 R'는 렌더링 정보를 나타내는 두 번째 행렬이고, 상기

는 세 번째 행렬이고, 상기 X'는 하나 이상의 처리된 다운믹스 신호를 나타내는 네 번째 행렬이고, 상기G'는 다섯 번째 행렬이고, 상기 D'는 여섯 번째 행렬이고, 다운믹스 행렬이고, 상기 E' 는 복수개의 일곱 번째 행렬 계수를 함하는 일곱 번째 행렬이고, 상기 일곱 번째 행렬 개수는 수식

에 의해 정의된다:

상기 E'_i,j는 행 i 와 열 j 에서 일곱 번째 행렬 계수 중 하나이고, 행 인덱스는 i이고 열 인덱스 j이다. 상기 IOC'_i,j 는 교차 연관 값을 나타내고, 상기OLD_i' 는 첫 번째 에너지 값을 나타내고 상기 OLD_j'는 두 번째 에너지 값을 나타낸다.

또한, 시스템이 제공된다. 시스템은 전술한 실시 예 중 하나에 따른 인코딩을 위한 장치를 포함하고, 전술한 실시 예 중 하나에 따른 디코딩을 위한 장치를 포함한다. 인코딩을 위한 장치는 디코딩 장치로 하나 이상의 처리된 다운믹스 신호와 인코딩된 신호를 제공하도록 구성되고, 인코딩된 신호는 하나 이상의 부가 신호에 대한 하나 이상의 오디오 객체 및 부가 매개변수 정보에 대한 매개변수 오디오 객체 정보를 포함한다. 디코딩 장치는 매개변수 오디오 객체 정보, 부가 매개변수 정보 및 오디오 장면에서 하나 이상의 객체의 위치를 나타내는 렌더링 정보를 기반으로 복수개의 오디오 공간 신호를 포함하는 오디오 장면을 생성하도록 구성된다.

또한, 인코딩된 신호를 획득하니 위한 하나 이상의 오디오 객체를 인코딩 하는 방법이 제공된다. 방법은

- 하나 이상의 처리되지 않은 다운믹스 신호를 획득하기 위한 하나 이상의 오디오 객체를 다운믹싱하는 단계;

- 하나 이상의 처리된 다운믹스 신호를 획득하기 위해 하나 이상의 처리되지 않은 다운믹스 신호를 처리하는 단계;

- 처리된 다운믹스 신호와 처리되지 않은 다운믹스 신호 사이의 차이를 기반으로 하나 이상의 부가 신호 각각을 연산 함으로써 하나 이상의 부가 신호를 연산하는 단계;

- 하나 이상의 부가 신호에 대한 하나 이상의 오디오 객체 및 부가 매개변수 정보에 대한 매개변수 오디오 객체 정보를 생성하는 단계;및

- 인코딩된 신호를 출력하는 단계를 포함하고, 인코딩된 신호는 하나 이상의 부가 신호에 대한 하나 이상의 객체 및 부가 매개변수 정보를 포함한다.

또한, 인코딩 된 신호를 디코딩 하는 방법에 있어서, 인코딩된 신호는 하나 이상의 오디오 객체 상의 매개변수 오디오 객체 정보를 포함하고, 부가 매개변수 정보가 제공된다. 이 방법은:

-하나 이상의 처리된 다운믹스 신호를 수신하는 단계;를 포함하고, 인코딩 된 신호의 수신을 위해, 상기 부가 매개변수 정보는 하나 이상의 처리된 다운믹스 신호를 획득하기 위한 하나 이상의 처리되지 않은 다운믹스 신호에서 수행되는 처리를 반영한다.

-하나 이상의 처리된 다운믹스 신호들, 매개변수 오디오 객체 정보, 부가 매개변수 정보 및 오디오 장면에서의 하나 또는 이상의 오디오 객체의 위치를 나타내는 렌더링 정보에 기반한 복수개의 오디오 신호를 포함하는 오디오 장면을 생성하는 과정; 및

-오디오 장면에서 부가 매개변수 정보에 의해 표현되는 출력 신호를 감쇄 또는 제거하는 과정을 포함한다.

또한, 컴퓨터 나 신호 프로세서에서 실행되는 상술 한 방법 중 하나를 구현하기 위한 컴퓨터 프로그램이 제공된다.

실시예에 따라, 매개변수 객체 코딩의 개념은 부가 숨김 객체로서 소스 객체 또는 혼합 신호의 대안/조작을 제공에 의해 향상/확장된다. 부가 정보 처리에서 숨겨진 객체를 포함하고, (가상 )객체 분리에서는 렌더링 된 음향 장면의 향상된 인지적인 품질을 야기한다. 숨겨진 객체는 예컨대 다운믹스 신호로 적용되는 인지적 오디오 코더로 부터의 코딩 에러와 같은 신호들을 인공적으로 묘사 할 수 있지만, 그러나 예컨대 또한 잔향, 다운 믹스 신호로 적용되는 다른 비 선형 처리의 묘사가 될 수 있다.

이러한 숨겨진 객체의 특성 때문에, 그것들은 주로 디코딩 측면에서 렌더링 되는 것은 아니다. 하지만 (가상) 객체 분리 처리를 개선하고, 따라서 렌더링 된 음향 장면의 인지 품질을 향상하도록 사용된다. 이는 제로(“음소거”)의 재생 레벨로 숨겨진 객체(들)을 렌더링 함으로써 달성된다. 이러한 방식으로, 디코더 에서의 렌더링 과정은 숨겨진 객체(들)에 의해 표현되는 원치 않는 구성요소를 억제하는 경향과 같이 자동적으로 제어되고, 따라서 렌더링 된 장면/신호의 주관적인 품질을 향상시킨다.

실시예에 따라, 인코딩 모듈은 인지 오디오 인코더(perceptual audio encoder)가 될 수 있다:

그것들은 완전한 디코더-호환 방법에서 숨겨진 객체 정보를 포함함으로써 오디오 품질에서의 향상을 제공할 수 있기 때문에, 제공되는 개념은 특히 장점이다. 이는 출력 신호 품질에서 표현된 개선이 ISO/MPEG상에서 표준화된 존재하는/구축된(예컨대 SAOC) 디코더 변화를 위한 임의의 요구 없이 획득될 수 있음을 의미하고, 표준 SAOC 사양(specification)을 위한 적합성 위반 없이 변화될 수 없음을 의미한다.(또는 시간이 소요되고 소모적인 과정의 표준을 재 발행한다.)

이하에서, “숨겨진 객체”에 대해 설명한다. 이는 일부 실시 예에서, 부가 매개변수 정보는, 예컨대, 하나 이상의 숨겨진 물체를 나타낼 수 있음에 유의한다.

이하에서, 본 발명의 실시 예들은 도면에서 더욱 상세히 설명된다 :

신호 혼합 조작에 대한 숨겨진 객체를 이용하는 효율적인 공간 오디오 객체 코딩 장치 및 방법을 제공한다.

도 1은 실시 예에 따라 인코딩 된 신호를 얻기 위해 하나 이상의 오디오 객체들을 인코딩 하기 위한 장치를 나타낸다.
도 2는 다른 실시 예에 따른 부호화 된 신호를 얻기 위해 하나 이상의 오디오 객체들을 인코딩 하기 위한 장치를 나타낸다.
도 3은 다른 실시 예에 따른 부호화 된 신호를 얻기 위해 하나 이상의 오디오 객체들을 인코딩 하기 위한 장치를 나타낸다.
도 4는 다른 실시 예에 따른 인코딩된 신호를 얻기 위해 하나 이상의 오디오 객체들을 인코딩 하기 위한 장치를 나타낸다.
도 5는 실시 예에 따른 인코딩 장치의 처리 모듈 (120)을 나타낸다.
도 6은 실시 예에 따른 인코딩 된 신호를 디코딩 하기 위한 장치를 나타낸다.
도 7은 다른 실시 예에 따른 인코딩 된 신호를 디코딩 하기 위한 장치를 나타낸다.
도 8은 다른 실시 예에 따른 인코딩 된 신호를 디코딩 하기 위한 장치를 나타낸다.
도 9는 다른 실시 예에 따른 부호화 된 신호를 디코딩 하기 위한 장치를 나타낸다.
도 10은 실시예에 따른 시스템을 나타낸다.
도 11은 MPEG SAOC의 예를 나타내는 종래 기술에 따른 시스템을 나타낸다.

도 1은 실시예에 따른 인코딩 된 신호를 획득하기 위한 하나 이상의 오디오 객체 인코딩 장치를 나타낸다.

장치는 하나 이상의 처리되지 않은 다운믹스 신호를 획득하기 위한 하나 이상의 오디오 객체를 다운믹싱하는 다운믹서(110)을 포함한다. 이러한 목적을 위해, 도 1의 다운믹서(downmixer)는 하나 이상의 오디오 객체를 수신하고, 그들을 예컨대 하나 이상의 처리되지 않은 다운믹스 신호를 획득하기 위한 다운 믹스 행렬 적용에 의해 다운믹싱 한다.

또한, 장치는 하나 이상의 처리된 다운 믹스 신호를 획득하기 위한 하나 이상의 다운믹스 신호 처리를 위한 처리 모듈(120)을 포함한다. 처리 모듈은 하나 이상의 처리되지 않은 신호들을 다운믹서로부터 수신하고, 하나 이상의 처리된 신호를 획득하게 위해 그것들을 처리한다.

예컨대, 처리모듈(120)은 예컨대 인지 인코더(perceptual encoder)인 인코딩 모듈이 될 수 있고, 하나 이상의 처리되지 않은 다운믹스 신호들을 획득하기 위해 하나 이상의 처리되지 않은 다운믹스 신호 인코딩에 의해 하나 이상의 처리되지 않은 다운믹스 신호들을 처리하도록 구성될 수 있다. 처리 모듈 (120)은, 예컨대, 지각 오디오 인코더, 예를 들어, MPEG-1 레이어 II 또는 III (MP3도라고도 함) 또는 오디오 코더 또는 MPEG 고급 오디오 코딩 (AAC) 오디오 코더 등이 될 수 있다.

또는 예컨대, 처리모듈120는 오디오 효과 모듈(audio effect module)이 될 수 있고, 하나 이상의 처리된 다운믹스 신호를 획득하기 위한 적어도 하나 이상의 처리되지 않은 다운믹스 신호를 적용함으로써 하나 이상의 처리되지 않은 다운믹스 신호를 처리하도록 구성될 수 있다.

또한, 장치는 하나 이상의 부가 신호를 연산하는 신호 연산기(130)를 포함한다. 신호 연산기(130)는 처리된 다운믹스 신호들과 처리되지 않은 다운믹스 신호를 사이의 차이에 기반한 하나 이상의 부가 신호들을 각각 연산하도록 구성된다.

신호 연산기(130)는,예컨대, 하나 이상의 부가 신호를 생성하기 위해 처리된 다운믹스 신호들과 하나 이상의 처리되지 않은 다운믹스 신호들 사이의 차이 신호를 연산한다.

하지만, 다른 실시예에 있어서, 신호 연산기(130)은 대신 다른 신호를 결정할 수 있고, 상기 처리된 다운믹스 신호들과 상기 처리되지 않은 다운믹스 신호들 사이의 다른 임의의 다른 종류의 차이를 부가 신호를 생성하기 위해 결정할 수 있다. 신호 연산기(130)는 그리고 두 신호들 사이의 결정된 차이를 기반으로 부가 신호를 연산 할 수 있다.

또한, 장치는 부가 신호에 대한 하나 이상의 오디오 객체 및 부가 매개변수 정보를 위한 매개변수 오디오 객체 정보를 생성하기 위한 객체 정보 생성기(140)를 포함한다.

예컨대, 매개변수 오디오 객체 정보를 결정하고, 추가적인 매개변수 정보의 객체 레벨 차이가 결정될 수 있다. 예컨대, 오디오 객체 에너지 값은 오디오 객체 각각에 할당될 수 있고, 부가 에너지 값은 부가 신호 각각에 할당될 수 있다.

객체 정보 생성기(140)는 참조 에너지 값을 결정하기 위해 구성될 수 있고, 이에 따라 참조 에너지 값은 하나 이상의 오디오 객체의 각 오디오 객체 에너지 값보다 크거나 또는 같고, 이에 따라 참조 에너지 값은 하나 이상의 부가 신호의 각각의 부가 에너지 값보다 크거나 또는 같다.

또한, 객체 정보 생성기(140)는 하나 이상의 오디오 객체 각각에 대한 오디오 레벨 차이 결정에 의한 매개변수 오디오 객체 정보를 결정하도록 구성될 수 있다. 이에 따라 상기 오디오 객체 레벨 차이는 참조 에너지 값으로의 상기 오디오 객체의 오디오 객체 에너지 값 비율을 나타내거나 또는 이에 따라 상기 오디오 객체 레벨 차이는 상기 오디오 객체의 참조 에너지 값과 오디오 객체 에너지 값 사이의 차이를 나타낸다.

또한, 객체 정보 생성기(140)는 하나 이상의 부가 신호 각각에 대한 부가 객체 레벨 차이 결정에 의해 부가 객체 정보를 결정하도록 구성될 수 있다. 이에 따라 상기 부가 객체 레벨 차이는 참조 에너지 값으로의 상기 부가 신호의 부가 에너지 값 비율을 나타내거나, 또는 이에 따라 상기 부가 객체 레벨 차이는 상기 부가 신호의 참조 에너지 값 및 부가 에너지 값 사이의 차이를 나타낸다.

예컨대 오디오 객체 각각의 오디오 객체 에너지 값은 부가정보로서 객체 정보 생성기(140)로 전달될 수 있다. 부가 신호 각각의 에너지 값은 또한 부가 정보로서 객체 정보 생성기(140)으로 전달 될 수 있다. 또한 다른 실시예에서, 객체 정보 생성기(140)는 자신 스스로 부가 신호 각각의 에너지 값을 , 예컨대 부가 신호들의 하나의 샘플 값 각각을 제곱함으로써, 적절한 결과를 획득하기 위해 상기 샘플 값을 합산 함으로써 연산 할 수 있고, 상기 부가 신호의 에너지 값을 획득하기 위해 적절한 결과의 제곱근(square root)값을 연산 할 수 있다. 객체 정보 생성기(140)는 그리고, 예컨대, 참조 에너지 값으로서 모든 오디오 객체의 최대 에너지 값과 부가 신호들을 결정할 수 있다.

그리고, 객체 정보 생성기(140)는 예컨대, 부가 객체 레벨 차이로서 부가 신호와 참조 에너지 값의 부가 에너지 값 비율을 결정할 수 있다. 예컨대, 만약 부가 에너지 값이 3.0이고 참조 에너지 값이 3.0인 경우 부가 객체 레벨 차이는 0.5일 수 있다. 선택적으로, 객체 정보 생성기140는 예컨대 부가 객체 레벨 차이로서 참조 에너지 값과 부가 신호의 부가 에너지 값의 차이를 결정할 수 있다. 예컨대, 만일 부가 에너지 값이 7.0이고, 참조 에너지 값이 10.0 이면, 부가 객체 레벨 차이는 3.0이다. 차이를 결정함으로써 부가 객체 레벨 차이를 연산하는 것은, 특히 에너지 값이 각 알고리즘 스케일에 대해 표현되는 경우 적절하다.

다른 실시예에 있어서, 매개변수 정보는 또한 공간 오디오 객체 및/또는 숨겨진 객체 사이의 객체 간 일관성(Inter-Object Coherence)상의 정보를 포함한다.또한, 장치는 인코딩된 신호를 출력하는 출력 인터페이스 150을 포함한다. 인코딩된 신호는 하나 이상의 객체에 대한 매개변수 오디오 객체 정보 및 하나 이상의 부가 신호에 대한 부가 매개변수 정보를 포함한다. 이를 위하여, 일부 실시 예에서, 출력 인터페이스 (150)는 인코딩된 신호가 하나 이상의 오디오 객체에 대한 매개변수 오디오 객체와 하나 이상의 부가 신호에 대한 부가 매개변수 정보를 포함하는 것과 같이 인코딩된 신호를 생성하도록 구성될 수 있다. 또는, 다른 실시예에서, 객체 정보 생성기(140)는 인코딩된 신호가 하나 이상의 오디오 객체에 대한 매개변수 오디오 객체 정보와 하나 이상의 부가 신호들에 대한 부가 매개변수 정보를 포함하는 것과 같이 인코딩된 신호를 이미 생성하도록 구성될 수 있고, 출력 인터페이스(150)으로 인코딩된 신호를 전달한다.

도 2는 다른 실시예에 따른 인코딩된 신호를 획득하기 위한 하나 이상의 오디오 객체 인코딩 장치를 나타낸다. 도 2의 실시예에서, 처리 모듈120은 하나 이상의 처리된 다운믹스 신호를 획득하기 위해 하나 이상의 처리되지 않은 다운믹스 신호를 인코딩 함으로써 하나 이상의 처리되지 않은 다운믹스 신호들을 처리하도록 구성된다. 도 2의 신호 연산기 130는 디코딩 유닛(240)과 결합기 250을 포함한다. 디코딩 유닛(240)은 하나 이상의 디코딩 된 신호들을 획득하기 위해 하나 이상의 처리된 다운믹스 신호들을 디코딩 하도록 구성된다. 또한, 결합기250은 디코딩 된 신호와 처리되지 않은 다운믹스 신호 사이의 신호 차이를 생성함으로써 하나 이상의 부가 신호 각각을 생성하도록 구성된다.

실시 예들은 공간 오디오 객체가 다운믹스 된 후, 다운믹스 신호 결과가 후속 처리 모듈에 의해 수정(비 의도적으로 또는 의도적으로)될 수 있다는 발견에 기반한다. 예컨대, 숨겨진 객체와 같이 숨겨진 객체 부가 정보로서 다운믹스 신호들의 변형 정보를 인코딩 하는 부가정보 생성기를 제공함으로써, 이러한 효과는 공간 오디오 객체를 재건할 때(특히, 다운믹스 신호의 변형이 의도적이지 않을 때) 제거될 수 있거나, 또는 재건된 공간 오디오 객체로부터 오디오 채널을 생성할 때, 다운믹스 신호들의 (의도적인) 변형 각도/ 양 정도를 결정 할 수 있다.

도 2의 실시예에서, 디코딩 유닛(240)은 인코더 측면에서 이미 하나 이상의 디코딩 된 신호를 생성한다. 이에 따라 하나 이상의 디코딩 된 신호들은 처리 모듈120에 의해 수행되는 인코딩에 의해 야기되는 차이를 결정하기 위해 하나 이상의 처리되지 않은 다운믹스 신호들과 비교 될 수 있다.

도 3은 부가 실시예에 따른 인코딩된 신호를 획득하기 위한 하나 도는 이상의 오디오 객체에 대한 장치를 나타낸다. 하나 이상의 처리되지 않은 다운믹스 신호들 각각은 복수개의 첫 번째 신호 샘플을 포함할 수 있고, 첫 번째 신호 샘플 각각은 복수의 포인트-인-타임의 하나에 할당된다. 하나 이상의 디코딩 된 신호들 각각은 복수의 두 번째 신호 샘플들을 포함할 수 있고, 두 번째 신호 샘플들 각각은 복수의 포인트-인-타임의 하나에 할당된다.

도 3의 실시 예는 신호 연산기가 디코딩 된 신호와 처리되지 않은 다운믹스 신호를 시간 정렬 하도록 구성하는 시간 정렬 유닛 345를 더 포함하는 관점에서 도 2의 실시 예와 다르다. 이에 따라 상기 처리되지 않은 다운 믹스 신호의 첫 번째 신호 샘플들의 하나는 상기 디코딩 된 신호의 두 번째 신호 샘플의 하나로 할당된다. 상기 처리되지 않은 다운 믹스 신호의 상기 첫 번째 신호 샘플과 상기 디코딩 된 신호의 상기 두 번째 신호 샘플은 복수의 포인트-인 타임의 동일한 포인트-인-타임으로 할당된다.

다시 말해, 처리모듈120에 의한 처리 및 디코딩 유닛(240)에 의한 디코딩 때문에 시간이 걸린다. 처리되지 않은 다운믹스 신호들과 디코딩 된 다운믹스 신호들은 그것들을 비교하기 위해, 그리고 그것들 사이의 차이를 각각, 결정하기 위해 시간에서 정렬되어야 한다.

도 4는 다른 실시예에 따른 인코딩 된 신호를 획득하기 위한 하나 이상의 오디오 객체에 대한 장치를 나타낸다. 특히, 도 4는 부가 매개변수에 의한 하나 이상의 부가 신호들(예컨대 하나 이상의 에러 신호들)을 매개변수화 하는 부가 매개변수 정보를 생성함으로써 하나 이상의 오디오 객체를 인코딩 하는 장치를 나타낸다. 이러한 부가 매개변수는 “숨겨진 객체(hidden objects)”로 지칭 될 수 있고, 디코더 측면에 있어서, 그들은 사용자들에게 숨겨질 수 있다.

도 4의 장치는 믹서(110)(다운믹서), 처리모듈(120) 신호 연산기(130) 및 객체 정보 생성기(140)(부가 정보 추정기로 또한 지칭 될 수 있음)으로서의 오디오 인코더를 포함한다. 신호 연산기(130)는 점선(dashed lines)에 의해 표시되고, 디코딩 유닛(240)(“오디오 디코더”), 시간 정렬 유닛(345) 및 결합기(250)를 포함한다.

도 4의 실시예에 있어서, 결합기 250은 예컨대 적어도 하나의 차이에서 예컨대 적어도 하나의 다른 신호, 적어도 하나의 (시간-정렬된) 다운믹스 신호들의 하나와 적어도 하나의 (시간-정렬된) 인코딩된 신호들의 하나 사이의, 적어도 하나의 다른 신호 차이를 형성할 수 있다. 믹서(110)와 부가 정보 추정기(260)는 SAOC인코더 모듈에 의해 포함될 수 있다.

인지 오디오 코덱들은 코딩 잡음 신호에 의해 나타내질 수 있는 다운믹스 신호의 신호 변경들을 생산한다. 이러한 코딩 잡음 신호는 디코딩 측면[ISS5, ISS6]에서 유연한 렌더링 성능을 사용할 때 인지 가능한 신호 저하를 야기할 수 있다. 코딩 잡음은 디코딩 측면에서 렌더링 되도록 의도되지 않는 숨겨진 객체로서 묘사될 수 있다. 이는 “실제” 소스 객체 신호들과 유사하게 매개 변수화 될 수 있다.

보다 구체적으로, 이는 예컨대, 이하와 같이 수행된다.

-다운믹스 신호들은 적어도 하나의 디코딩 된 신호(인코딩은 예컨대 처리모듈(120)에 의해 수행될 수 있고; 디코딩은 예컨대 디코딩 유닛(240)에 의해 수행 될 수 있음)를 획득하기 위해 오디오 코덱에 의해 인코딩/디코딩 된다(또는 다른 알고리즘에 의해 처리됨)

-디코딩 된(시간-정렬된) 다운믹스 신호들은 그리고 (원래) 다운믹스 신호들 하나 이상의 코딩(처리)에러(잡음)신호들 q₁... q_P을 나타내는 하나 이상의 다른 신호들(결합 신호들)이 야기하는,x₁ ... x_P로부터 추출된다

-에러 신호들 q₁ ... q_P(다른 신호들)과 매개변수 (디폴트에 의해 설정되는) d_q,1 ... d_q _,Р를 믹싱하는 에러 신호는 부가(숨겨진) 잡음 객체의 매개변수 정보에서 야기되는 SAOC인코더의 부가 정보 추정기(140)(객체 분석 부분)으로 제공된다. MPEG SAOC에 대한, 서로에 대한 각각의 객체 파워 관계(숨겨진 그리고 오디오 소스 객체)는 부가 정보와 같은 가장 기본적인 형태로 연산된다. 부가적으로 숨겨진 잡음 객체는 숨겨진 객체 부가 정보를 나타낸다.

-부가 잡음 객체의 매개변수 정보는 실제 객체로부터의 SAOC인코더에 의해 생성되는 SAOC 부가 정보로 추가된다. (SAOC 부가 정보는 오디오 객체 부가 정보로서 고려 될 수 있다. 오디오 객체 부가 정보와 같이, 예컨대 둘 또는 이상의 공간 오디오 객체에 기반한 둘 또는 이상의 공간 오디오 객체의 특성을 묘사한다.)

도 5는 실시예에 따른 인코딩 장치의 처리모듈(120)을 나타낸다. 처리모듈(120)은 음향 효과 모듈(122)과 인코딩 모듈(121)을 포함한다. 음향효과 모듈(122)는 하나 이상의 음향적으로 조정된 다운믹스 신호들을 획득하기 위해 적어도 처리되지 않은 다운믹스 신호상의 음향 효과를 적용하도록 구성된다. 또한, 인코딩 모듈(121)은 하나 이상의 처리된 신호들을 획득하기 위해 하나 이상의 음향적으로 조정된 다운믹스 신호들을 인코딩 하도록 구성된다.

신호 포인트 A와 C는 객체 정보 생성기(140)으로 공급될 수 있다. 따라서, 객체 정보 생성기는 음향 효과 모듈122 및 처리되지 않은 다운믹스 신호상의 인코딩 모듈(121)의 효과를 결정할 수 있고 이러한 효과를 나타내는 부가 매개변수 정보에 따라 생성할 수 있다.

선택적으로, 포인트 B에서의 신호는 또한 객체 정보 생성기(140)로 공급될 수 있다. 이로 인해, 객체 정보 생성기(140)는 A와 B에서의 신호를 고려함으로써 처리되지 않은 다운믹스 신호상의 음향 효과 모듈(122)의 개별적인 효과를 결정할 수 있다. 이는 예컨대, A에서의 신호들 및 B에서의 신호들 사이의 차이를 형성함으로써 구현될 수 있다.

또한, 이로 인해, 객체 정보 생성기(140)는 B 및 C에서의 신호들을 고려함으로써 인코딩 모듈(121)의 개별적인 효과를 결정할 수 있다. 이는 예컨대 포인트 C에서의 디코딩 신호들에 의해 그리고 이러한 디코딩 된 신호들과 B에서의 신호들 사이의 차이 신호들을 결정함으로써 구현될 수 있다.

도 6은 실시예에 따른 인코딩된 신호를 디코딩하는 장치를 나타낸다. 인코딩된 신호는 하나 이상의 오디오 객체 및 부가 매개변수 정보 상의 매개변수 오디오 객체 정보를 포함한다.

장치는 하나 이상의 처리된 다운믹스 신호들을 수신하기 위한, 그리고 인코딩된 신호를 수신하기 위한 인터페이스(210)을 포함한다. 부가 매개변수 정보는 하나 이상의 처리된 다운믹스 신호를 획득하기 위해 하나 이상의 처리되지 않은 다운믹스 신호들이 수행되는 처리를 반영한다.

또한, 장치는 하나 이상의 처리된 다운믹스 신호들, 매개변수 오디오 객체 정보, 부가 매개변수 정보, 및 렌더링 정보에 기반한 복수의 공간 오디오 신호들을 포함하는 오디오 장면을 생성하는 오디오 장면 생성기(220)를 포함하고, 렌더링 정보는 오디오 장면에서 하나 이상의 오디오 객체의 위치를 나타낸다. 오디오 장면 생성기220는 오디오 장면에서 부가 매개변수 정보에 의해 나타내어 지는 출력 신호를 감쇄 또는 제거하도록 구성된다.

예컨대, 공간 오디오 객체 코딩에 관해, 이는 당해 분야에 널리 알려져 있고, 하나 이상의 오디오 객체의 위치 방법은 하나 이상의 오디오 객체가 하나 이상의 처리된 다운믹스 신호 및 매개변수 오디오 객체 정보에 의해 인코딩 될 때 렌더링 정보에 기반하여 수행 될 수 있다.

하지만, 이러한 실시예에 따라, 인터페이스는 또한 하나 이상의 처리된 다운믹스 신호를 획득하기 위해 하나 이상의 다운믹스 신호가 수행되는 처리를 반영하는 부가 매개변수 정보를 수신하도록 구성된다. 따라서, 부가 매개변수 정보는 예컨대 도 1에 따른 인코딩 장치에 의해 수행되는 처리를 반영한다.

따라서, 특별한 실시예에서, 부가 매개변수 정보는 하나 이상의 부가 신호에 의존 할 수 있다. 상기 부가 신호들은 처리된 다운믹스 신호들과 처리되지 않은 다운믹스 신호들 사이의 차이를 나타낸다. 상기 하나 이상의 처리되지 않은 다운믹스 신호들은 하나 이상의 오디오 객체의 다운믹스를 나타낸다. 그리고 상기 하나 이상의 처리된 다운믹스 신호는 하나 이상의 처리되지 않은 다운믹스 신호의 처리로부터 기인한다.

최신 기술의 디코더는, 처리된 다운믹스 신호를 수신하고, 도 1에 따라 인코딩 장치에 의해 생성된 인코딩된 신호는 인코딩된 신호에 의해 포함된 부가 매개변수 정보를 사용하지 않는다. 단지 처리된 다운믹스 신호, 인코딩된 신호의 매개변수 오디오 객체 정보 및 렌더링 정보 사용으로, 대신 그것들은 오디오 장면을 생성한다.

도 6의 실시예에 따른 디코딩 장치는 그러나, 인코딩 된 신호의 부가 매개변수 정보를 사용한다. 이는 도 1에 따른 인코딩 장치의 처리모듈120에 의해 수행되는 처리를 실행 취소하거나 또는 부분적으로 실행 취소 하는 디코딩 장치를 허용한다.

부가 매개변수 정보는 예컨대, 도 1의 처리되지 않은 다운믹스 신호와 도 1의 처리된 다운믹스 신호 사이의 차이 신호를 나타낸다. 이러한 차이 신호는 오디오 장면의 출력 신호로서 고려 될 수 있다. 예컨대, 처리된 다운믹스 신호 각각은 처리되지 않은 다운믹스 신호의 하나와 다른 신호의 결합으로서 간주 될 수 있다.

오디오 장면 생성기220는 그리고 예컨대 오디오 장면에서 이러한 출력 신호를 감쇄 또는 제거하도록 구성된다. 이에 따라 오직 처리되지 않은 다운믹스 신호가 다시 재생되거나, 또는 이에 따라 처리되지 않은 다운믹스 신호가 다시 재생되고, 다른 신호가 오직 부분적으로 예컨대 렌더링 정보에 의존해서 다시 재생된다.

도 7은 다른 실시예에 따른 인코딩된 신호를 디코딩하는 장치를 나타낸다. 오디오 장면 생성기(220)는 오디오 객체 생성기(610) 및 렌더러(620)를 포함한다.

오디오 객체 생성기는 하나 이상의 처리된 다운믹스 신호들, 매개변수 오디오 객체 정보와 부가 매개변수 정보에 기반한 하나 이상의 오디오 객체를 생성하도록 구성된다.

렌더러(620)는 하나 이상의 오디오 객체, 매개변수 오디오 객체 정보 및 렌더링 정보에 기반한 오디오 장면의 복수개의 공간 오디오 신호를 생성하도록 구성된다.

실시예에 따라, 렌더러 620은 예컨대 하나 이상의 오디오 객체, 부가 매개변수 정보 및 렌더링 정보에 기반한 오디오 장면의 복수개의 공간 오디오 신호를 생성하도록 구성된다. 상기 렌더러620는 렌더링 정보에 의해 포함되는 하나 이상의 계수에 의존하는 오디오 장면에서의 부가 매개변수 정보에 의해 표현되는 출력 신호를 감쇄 또는 제거하도록 구성된다.

도 8은 부가 실시예에 따른 인코딩된 신호를 디코딩하는 장치를 나타낸다. 도 8에서 장치는 또한 부가 매개변수 정보가 오디오 장면에서 감쇄 또는 제가 되는 것에 의해 출력 신호가 표현되는 경우 스티어링에 대한 하나 이상의 렌더링 계수를 설정하는 사용자 인터페이스 710을 포함한다. 예컨대, 사용자 인터페이스는 부가 매개변수 정보가 부분적으로 억제되는 것에 의해 표현되는 출력 신호를 0.5로 나타내는 렌더링 계수의 하나를 사용자가 설정 가능하게 한다. 또는 예컨대, 사용자 인터페이스가 부가 매개변수 정보가 완전히 억압되는 것에 의해 표현되는 출력 신호를 0으로 나타내는 렌더링 계수의 하나를 사용자가 설정 가능하도록 한다. 또는 예컨대, 사용자 인터페이스는 부가 매개변수 정보가 전혀 억압되지 않는 것에 의해 표현되는 출력 신호를 1로 나타내는 렌더링 계수의 하나를 사용자가 설정 가능하도록 한다.

다른 실시예에 있어서, 오디오 장면 생성기220는 하나 이상의 처리된 다운믹스 신호, 오디오 장면에서 하나 이상의 오디오 객체의 위치를 나타내는 매개변수 오디오 객체 정보, 부가 매개변수 정보 및 렌더링 정보에 기반한 복수개의 공간 오디오 신호를 포함하는 오디오 장면을 생성하도록 구성될 수 있고, 상기 오디오 장면은 오디오 장면을 생성하기 위한 하나 이상의 오디오 객체를 생성하지 않도록 구성될 수 있다.

도 9는 다른 실시예에 따른 인코딩 된 신호를 디코딩하는 장치를 나타낸다.도 9의 실시예에서, 장치는 또한 하나 이상의 디코딩 된 신호를 획득하기 위한 하나 이상의 처리된 다운믹스 신호들(“인코딩 된 다운믹스”로 지칭됨)을 디코딩하는 오디오 디코더(510)를 포함하고, 상기 오디오 장면 생성기는 하나 이상의 디코딩 된 신호들, 매개변수 오디오 객체 정보, 부가 매개변수 정보 및 렌더링 정보에 기반한 복수의 공간 오디오 신호들을 포함하는 오디오 장면을 생성하도록 구성된다.

도 9의 장치에서, 장치는 또한 하나 이상의 다운믹스 신호를 디코딩하는 오디오 디코더(510)를 포함하고, 이는 디코더(510)으로 인터페이스(도면 미도시)로부터 공급된다. 디코딩 된 신호의 결과는 그리고 오디오 장면 생성기 (220)의 오디오 객체 생성기(도 9에서 가상 객체 분리기520로서 언급됨) 제공되고, 이는 도 9의 SAOC 디코더 실시예이다. 오디오 장면 생성기(220)는 렌더러(530)을 더 포함한다.

특히, 도 9는 실시예에 따른 숨겨진 객체 억압 디코딩/렌더링에 대응하는 SAOC를 나타낸다.

도 9에서, 부가적인 추가 정보는, 예컨대 도4의 인코더가 디코딩 측면에서 예컨대, 코딩 잡음을 억제하기 위해, 도 9의 디코더에 의해, 사용될 수 있고, 따라서 렌더링 된 음향 장면의 인지 품질이 개선된다는 것이다. 보다 구체적으로, 이는 이하에서 수행될 수 있다.

1)부가적으로 숨겨진 객체 정보는 (가상) 객체 분리 처리에서 부가 객체로서 통합된다. 코딩 에러는 “규칙적인 ” 오디오 소스 객체로서 동일한 방법으로 다루어진다. 부가 객체는 부가 매개변수 정보의 부분으로서 나타내어 질 수 있다.

2) N 오디오 객체 각각은 N-1 간섭 소스 신호와 코딩 에러 신호 q1 ... qP 를 억제함으로써 혼합물로부터 분리된다. 이것은 단지 정규 (숨겨지지 않은) 오디오 (소스) 객체들이 이 과정에서 고려되는 경우와 비교하여, 오디오 객체 신호의 개선 된 추정을 초래한다. 코딩 에러의 추정은 동일한 방법으로 추정될 수 있음을 알아둔다.

3) 바람직한 오디오 장면(또한 “음향 타겟 장면”으로 지칭되는)은 개선된 오디오 소스 추정들의 렌더링에 의해, 렌더링 계수에 따른 평가된 오디오 객체 신호 곱에 의해 생성된다. 임의의 부가적으로 연산되어 측정된 코딩에러 신호들은 렌더링 과정에서 생략된다.

실제로, MPEG-D SAOC과 같은 시스템에서 두 번째 그리고 세 번째 과정은 단일 효율적인 트랜스코딩 과정(single efficient transcoding process.)에서 바람직하게 수행될 수 있다.

다른 실시예에서, 숨겨진 오디오 객체 개념은 또한 실행 취소 되거나 또는 인코더 측면에서 단일 혼합을 위해 적용되는 디코더 측면에서의 특정 오디오 효과를 제어하는데 이용될 수 있다. 다운믹스 채널에 적용된 임의의 효과는 디코더에서 객체 분리 과정의 저하를 야기할 수 있다. 이러한 효과를 제거하는 것 예컨대, 디코딩 측면상의 다운믹스 신호로부터의 적용된 오디오 효과의 실행취소, 는 분리 단계의 성능을 향상시키고 따라서 렌더링 음향 정면의 인지 품질을 향상시킨다. 연산의 더 많은 연속적인 유형을 위해, 렌더링 된 오디오 출력에서 나타나는 효과의 양은 SAОC디코더에서의 숨겨진 객체의 렌더링 레벨 제어에 의해 제어될 수 있다. 제로 레벨로의 숨겨진 객체(부가 매개변수 정보에 의해 나타내어지는) 렌더링은 렌더링 된 출력 신호에서 적용되는 효과의 대부분의 전체 억압에서 기인한다. 낮은 레벨로의 숨겨진 객체 렌더링은 렌더링 된 출력 신호에서 적용된 효과의 낮은 레벨에서 기인한다.

예로서, 다운믹스 채널로의 잔향기(reverberator)의 적용은 숨겨진(효과들) 객체로서 잔향의 매개 변수화된 버전 전달에 의해, 그리고 숨겨진(효과들) 객체에 대한 제로 레벨 잔향으로의 렌더링 디코딩에 의해 실행 취소 될 수 있다.

보다 구체적으로, 이는 아래와 같이 수행 될 수 있다.

인코더 측면에서, 오디오 효과(예컨대, 잔향기)는 변형된 다운믹스 신호 x’1 ... x’P.에서 기인되는 다운믹스 신호 x₁... x_P로 적용된다.

처리된 그리도 시간-정렬된 다운믹스 신호들 x'₁ ... x'_P은 처리되지 않은(원래의) 다운믹스 신호들 x₁... x_P로부터 추출되고, 잔향 신호들 q₁ ... q_P (효과신호들, effect signals)을 야기한다.

효과 신호들 q₁ ... q_P 및 효과 신호 믹싱 매개변수 d_q,1 ... d_q,P는부가(숨겨진)효과 객체의 매개변수 정보에서 기인하는 SAOC인코더의 객체 분석 부분으로 제공된다.

효과 신호의 매개변수화 된 표현은 전달된/저장된 강화 부가정보에서 기인한 SAOC부가 정보 추정기에 의해 생성되는 부가정보로 부가적인 숨겨진(효과) 객체 정보로서 유도되거나 추가된다.

디코더 측면에서, 숨겨진 객체 정보는 (가상) 객체 분리 처리에서 부가적인 객체로서 통합된다. 숨겨진 객체(효과신호)는 “정규적인” 오디오 소스 객체와 동일한 방법으로 다루어진다.

N 오디오 객체 각각은 N-1 간섭 소스 신호와 효과 신호 q₁... q_P 를 억제하여 혼합으로부터 분리된다. 이것은 단지 정규 (숨겨진) 오디오 소스 객체들이 이 단계에서 고려되는 경우에 비해 원래 오디오 객체 신호의 개선된 추정을 초래한다.추가적으로, 잔향 신호의 측정은 동일한 방법에서 연산 될 수 있다.

바람직한 음향 타겟 장면은 렌더링 계수에 따른 측정된 오디오 신호들의 곱에의해 향상된 오디오 소스 측정 에 의해, 의해 생성된다. 숨겨진 객체(잔향신호)는 거의 완전하게 억압될 수 있거나(제로 레벨로 잔향 신호를 렌더링 함으로써) 또는 바람직한 경우, 숨겨진(효과) 객체에 따른 렌더링 레벨을 설정함으로써 특정 레벨에 적용될 수 있다.

다른 실시예에서, 오디오 객체 생성기(520)는 렌더러(530)으로 숨겨진 객체 상의 정보를 전달할 수 있다.

따라서, 실시예에서와 같이 오디오 생성기(520)는 두 가지 목적을 위해 숨겨진 객체 부가 정보를 이용한다.

한편, 오디오 객체 생성기 520는 원래 공간 오디오 객체들

재건을 위한 숨겨진 객체 부가 정보를 이용한다. 그리고 이러한 원래 공간 오디오 객체들

은 예컨대 오디오 효과 모듈에 의해 인코더 측면으로 수행된 다운믹스 신호들 x₁,..., x_p의 변형을 반영하지 않는다.

다른 한편, 오디오 객체 생성기(520)는 숨겨진 객체 부가 정보를 전달하고, 부가정보는 렌더러 530으로의 다운믹스 신호들 x₁,..., x_p 의 인코더-측면(예컨대 의도적인) 변형에 대한 정보, 예컨대, 오디오 객체 렌더러 인 숨겨진 객체

는 숨겨진 객체 측면 정보로서 수신할 수 있는 것을 포함한다. 그리고 렌더러(530)는 수신 된 숨겨진 객체 가 사운드 장면에서 렌더링 되는지 여부를 제어 할 수 있다.렌더러(530)은 또한 오디오 효과의 렌더링 레벨에 의존하는 하나 이상의 오디오 채널에서의 오디오 효과의 양을 제어하도록 구성될 수 있다.

예컨대, 렌더러 530은 오디오 영향의 렌더링 레벨을 제공하는 제어정보를 수신할 수 있다. 예컨대, 렌더러 530은 하나 이상의 결합 신호의 렌더링 레벨이 구성 가능한 것과 같은 양을 제어하도록 구성할 수 있다. 렌더링 레벨은 렌더러 530이 렌더링 하는 신호의 조합 정보를 나타낼 수 있다. 예컨대, 다른 신호들은 숨겨진 부가 정보에 의해 나타내어지는 인코더 측면에서 적용되는 음향 효과를 나타낸다. 예컨대, 0의 렌더링 레벨은 조합 신호들이 완전히 억제되는 것을 나타낼 수 있는반면 1의 렌더링 레벨은 조합 신호들이 전혀 억제되지 않는 것을 나타낼 수 있다.

0 < s < 1의 렌더링 레벨은 조합 신호들이 부분적으로 억제되는 것을 나타낸다.

이하에서, SAOC의 예에 대한 숨겨진 객체 처리가 설명된다. 숨겨진 객체에 대한 정보가 추가 매개변수 정보로 간주 될 수도 있음에 유의해야 한다.

먼저 용어 및 정의를 설명한다.

S 원래 오디오 객체 신호들(N 행)의 행렬 N(앞서 전술한 오디오 객체들 을 나타냄)

측정된 원래 오디오 객체 신호들(N 행)의 행렬 N

X 처리되지 않은 다운믹스 채널들의 행렬 P(P 행)(앞서 전술된 다운믹스 신호들을 나타냄)

X' 처리된 다운믹스 채널들(P 행)의 행렬 P(P 행)(앞서 전술된 처리된 신 호들을 나타냄)

Y 렌더링된 출력 채널들의 행렬 M (M행); 원래 소스 신호들을 사용

렌더링된 출력 채널들 의 행렬 M (M행); 추정된 소스 신호들을 사용

D 크기 P의 N배 다운믹스 행렬

G 크기 N의 P배 소스 추정 행렬

OLD _i 소스 객체의 에너지(공간 오디오 객체의 하나) s_i, i= I , ... N;

SAOC에서 정의된 것과 같이 계산

IOC _i,j 소스 객체(공간 오디오 객체의 하나) s_i,와 s_j , i, ,j= I , ... N ;SAOC에서 정의된 것과 같이 계산

R 크기 M 의 N배 렌더링 행렬

숨겨진 객체 부가 정보( 일종의 부가 매개변수 정보)가 없는SAOC 내의 객체 소스 s_1, …, .s_N의 추정은 예컨대 숨겨진 객체의 고려 없이, 아래와 같이 수행될 수 있다.

= GX '= ED ^T ( DED ^T ) ^-1 X'

이는 X 가 X'와 같은 경우에 대해서만 최소 제곱 에러 센스에서 원래 소스(공간 오디오 객체) s1, …, sN의 최적 추정을 산출한다.

만일 X'≠X이면, 예컨대 다운믹스 또는 잔향의 코딩/압축이 다운믹스에 적용되기 때문에, 추정이 원래 소스의 최적 가능 추정을 산출하지 않는다.

바람직한 타겟 장면은 아래와 같이 연산 될 수 있다.

이제, 숨겨진 객체 부가 정보를 사용한 추정(부가 매개변수 정보의 일종), 예컨대 실시예에 따른 숨겨진 객체로서의 다운믹스 변경 고려상의 객체 소스의 추정 s₁, …, s_N이 고려된다.

만일 신호 변경들(코딩, 잔향효과)이 분리 과정에서 고려되는 경우, 원래 소스의 개선된 추정 s₁, …, s_N 이 수행될 수 있다.

SAOC내에서, 이러한 변경들은 그것의 가장 간단한 형태에서, 다운믹스에서 부가적으로 숨겨진 객체로서 해석될 수 있고, 그리고 소스 추정 과정에서 고려될 수 있다.

숨겨진 객체 부가 정보를 이용한 연산,예컨대 P신호 채널로 구성된 하나의 숨겨진 객체의 예는 이제 고려된다. 이러한 목적을 위해, 몇몇 부가적인 용어와 정의들이 소개된다.

G' (N+P)크기 P배의 소스 추정 행렬; 원래 소스들과 숨겨진 객체들을 고려

OLD' _i 원래 소스들의 에너지와 숨겨진 객체 si, i = l, ... (N+P); SAOC 에서 정의된 대로 연산,

IOC' _i,j 모든 객체들(원래 소스와 숨겨진 객체) si, 및 sj, i , j=1 , ... (N+P) 사이의 교차 연관 ; SAOC 에서 정의된 대로 연산.

유의: 원래 소스와 숨겨진 객체 사이의 교차-연관은 대부분의 경우 0으로 가정될 수 있고, 연산 되지 않을 수 있다.

D' 크기 M의 (N+P)배의 다운믹스 행렬, 원래 소스와 숨겨진 객체의 믹싱 계수들을 표현하고, 이는 숨겨진 객체들(예컨대 정보와 연관된 다운 믹스)에 대한 디폴트에 대해 1임

추정된 원래 오디오 객체 및 숨겨진 신호들의 크기 (N+P) 행렬

R' 크기 M의 ( N+P)배 렌더링 행렬

원래 신호들의 개선된 추정 s1 .. sN은 다음과 같이 연산 될 수 있다.

이는 원래 소스 객체들 s₁... s_N 의 개선된 추정을 산출한다.

디폴트 처리와는 달리, 숨겨진 객체로부터의 단일 부분들은 원래 소스들의 추정들에서 억압된다. 이는 또한 숨겨진 객체의 추정 또한 산출하는 것에 유의한다.

그리고 바람직한 타겟 장면은 아래에서와 같이 연산된다.

응용 시나리오에 의존한다;

- 숨겨진 객체들은 0으로의 R'에서의 렌더링 계수에 따른 설정에 의해 렌더링으로부터 생략될 수 있다. (이는 코딩 다운믹스 신호로부터의 억압 코딩 잡음에 대한 디폴트 시나리오이다. )

- 0과 동일하지 않은 레벨로 렌더링 됨

예컨대, 낮은 레벨로 숨겨진 객체의 렌더링은 렌더링 된 출력 신호에서 숨겨진 객체(예컨대 )의 낮은 레벨에서 기인한다.

도 10은 실시예에 따른 시스템을 나타낸다. 시스템은 전술한 실시예의 하나에 따른 하나 또는 이상의 오디오 객체810 인코딩을 위한 장치를 포함하고 전술한 실시예의 하나에 따른 인코딩된 신호 820을 디코딩하는 장치를 포함한다.

인코딩을 위한 장치(810)는 하나 또는 이상의 처리된 다운믹스 신호들과 인코딩된 신호들을 디코딩을 위한 장치(820)로 제공하도록 구성되고, 인코딩된 신호는 하나 또는 이상의 오디오 객체에 대한 매개변수 오디오 객체 정보와 하나 또는 이상의 부가 신호에 대한 부가 매개변수 정보를 포함한다. 디코딩 장치 820는 매개변수 오디오 객체 정보, 부가 매개변수 정보, 및 오디오 장면에서의 하나 이상의 위치를 나타내는 렌더링 정보에 기반한 복수개의 공간 오디오 신호를 포함하는 오디오 장면을 생성하도록 구성된다.

몇몇 양태는 장치의 맥락에서 설명되었지만, 이들 양태는 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 기능에 대응하는 방법의 설명을 나타내는 것이 분명하다. 유사하게, 방법 단계들의 문맥으로 설명 양태는 해당 장치의 대응하는 블록 또는 항목 또는 기능에 대한 설명을 나타낸다.

본 발명에 따른 분해된 신호는 디지털 저장 매체에 저장될 수 있거나 또는 무선 전송 매체 또는 인터넷 등의 유선 전송 매체 전송 상에 전송 될 수 있다.

특정 구현 요구 사항에 따라, 본 발명의 실시 예들은 하드웨어 또는 소프트웨어로 구현 될 수 있다.구현은 협력하는, 전자적으로 판독 가능한 제어 신호가 저장을 갖는, 예를 들면, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 디지털 저장 매체를 이용하여 수행 될 수 있다 ( 또는 각각의 방법이 수행되도록 프로그래머블 컴퓨터 시스템)와 협력 할 수 있다.

본 발명에 따른 일부 실시 예는 본원에 기재된 방법 중 하나가 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력 할 수 있는 전자적으로 판독 가능한 제어 신호를 갖는 비 일시적인 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시 예는 프로그램 코드를 가진 컴퓨터 프로그램 제품, 컴퓨터 프로그램 제품이 컴퓨터상에서 실행될 때 방법 중 하나를 수행하기 위한 프로그램 코드 인 동작으로 구현 될 수 있다.프로그램 코드는, 예를 들면 머신 판독 가능 매체 상에 저장 될 수 있다.

다른 실시 예는 기계 판독 가능 캐리어 상에 저장된 본 명세서에 기술 된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

즉, 본 발명의 방법의 실시 예는, 따라서, 컴퓨터 프로그램이 컴퓨터상에서 실행될 때, 여기에 설명 된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

본 발명의 방법의 또 다른 실시 예에 따라서, 데이터 캐리어 (또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)를 포함하는 이, 본원에 기재된 방법 중 하나를 수행하기 위한, 컴퓨터 프로그램을 기록한 것이다.

본 발명의 방법의 또 다른 실시 예에 따라서, 인, 데이터 스트림 또는 본원에 기재된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 시퀀스.데이터 스트림 또는 신호 서열은 예를 들어 인터넷을 통해, 예를 들어, 데이터 통신 접속을 통해 전송하도록 구성 될 수 있다.

또 다른 실시 예는, 예를 들면, 컴퓨터, 또는 프로그래머블 로직 디바이스로 구성되거나 본원에 기술 된 방법 중 하나를 수행하도록 구성된 처리 수단을 포함한다.

또 다른 실시 예는 컴퓨터가 여기에 설명 된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 설치를 포함한다.

일부 실시 예에서, (예컨대 필드 프로그래머블 게이트 어레이) 프로그래머블 논리 디바이스는 여기에 설명 된 방법의 기능의 일부 또는 전부를 수행하기 위해 사용될 수 있다. 일부 실시 예에서, 필드 프로그래머블 게이트 어레이는 본원에 기재된 방법 중 하나를 수행하기 위해 마이크로 프로세서와 협력 할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.

상술 한 실시 예들은 본 발명의 원리에 대한 예시에 불과하다. 이는 본원에 기재된 변형 및 배치의 변형 및 상세 다른 당업자에게 명백 할 것이라는 점을 알 수 있다. 따라서, 단지 임박한 특허 청구 범위에 의해서만 아니라 본원의 실시 예에 대한 설명 및 설명에 의해 제시된 특정 세부 사항에 의해 제한되는 의도이다.

참고문헌(References)

[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003

[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK, AES Conference, Cambridge, UK, April 2007

[SAOC2] J. Engdegaгd, B. Resch, C. Falch, O. Helmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008

[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTCI/SC29/WG1 I (MPEG) International Standard 23003-2.

[ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Souгce Index Embedding", IEEE ICASSP, 2010

[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010

[ISS3] A. Liutkus and J. Pine! and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011

[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation', IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011

[ISS5] Shuhua Zhang and Laurent Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011

[ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011

110: 다운믹서 120: 처리모듈
130: 단일 연산기 140:객체정보생성기
150: 출력인터페이스

Claims

오디오 객체 상의 매개변수 오디오 객체 정보((parametric audio object information), 및 부가적인 매개변수 정보를 포함하는 인코딩 된 신호를 디코딩하는 장치에 있어서,

처리된 다운 믹스 신호들을 수신하는 인터페이스(210)를 포함하고, 인코딩된 신호 수신에 대해, 상기 부가적인 매개 변수 정보는 다운믹스 신호를 획득하기 위해 처리 되지 않은 다운 믹스 신호 상에서 수행되는 처리를 반영하고,
처리된 다운믹스 신호, 매개변수 오디오 객체 정보, 부가적인 매개변수 정보, 및 오디오 장면에서 오디오 객체의 위치(placement)를 나타내는 정보 랜더링(rendering)에 기초한 복수개의 공간 오디오를 포함하는 오디오 장면을 생성하는 오디오 장면 생성기(220)를 포함하고, 상기 오디오 장면 생성기(220)는 오디오 장면에서 부가적인 매개변수 정보에 의해 표현되는 출력을 감쇄 또는 제거하도록 구성된 인코딩 된 신호를 디코딩하는 장치.
제1항에 있어서, 상기 부가적인 매개변수 정보는
하나 또는 하나 이상의 부가적인 신호에 의존하고, 상기 부가적인 신호는 하나 또는 하나 이상의 처리된 다운믹스 신호와 하나 또는 하나 이상의 처리되지 않은 다운 믹스 신호의 사이의 차이를 나타내고, 상기 하나 이상의 처리되지 않은 다운믹스 신호는 하나 이상의 오디오 객체의 다운믹스를 나타내고, 상기 하나 이상의 처리된 다운믹스 신호는 하나 이상의 처리되지 않은 다운 믹스 신호의 처리로부터 야기되는 것을 특징으로 하는 장치.
제1항 또는 제2항에 있어서, 상기 장치는
상기 오디오 장면 생성기(220)는 오디오 객체 생성기(520;610)과 렌더러(530; 620)를 포함하고,
상기 오디오 객체 생성기(520; 610)는 하나 이상의 오디오 객체를 하나 이상의 처리된 다운믹스 신호, 매개변수 오디오 객체 정보 및 부가적인 매개변수 정보를 기반으로 생성하도록 구성되고, 상기 렌더러(530; 620)는 하나 이상의 오디오 객체 , 오디오 장면의 복수개의 공간 오디오 신호, 매개변수 오디오 객체 정보 및 렌더링 정보를 기반으로 오디오 장면의 복수개의 공간 오디오 신호를 생성하도록 구성되는 것을 특징으로 하는 장치.
제3항에 있어서,
상기 렌더러(530; 620)는 하나 이상의 오디오 객체, 부가적인 매개변수 정보, 및 렌더링 정보에 기반한 오디오 장면의 복수개의 공간 오디오 신호들을 생성하도록 구성되고, 상기 렌더러 (530; 620)는 렌더링 정보에 의해 포함되는 하나 이상의 렌더링 계수(coefficients)에 의존하는 오디오 장면에서의 부가적인 매개변수 정보에 의해 표현되는 출력 신호를 감쇠하거나 또는 제거하도록 구성되는 것을 특징으로 하는 장치.
제4항에 있어서, 상기 장치는 부가적인 매개변수 정보가 오디오 장면에서 감쇄하거나 또는 제거되는 것에 의해 출력 신호가 표현되는 경우, 스티어링(steering)에 대한 하나 이상의 렌더링 계수(coefficients)를 설정하기 위해 사용자 인터페이스를 더 포함하는 것을 특징으로 하는 장치.
제1항 또는 제2항에 있어서, 상기 오디오 장면 생성기(220)는 하나 이상의 처리된 다운믹스 신호, 매개변수 오디오 객체 정보, 부가적인 매개변수 정보, 및 오디오 장면에서 하나 이상의 오디오 객체의 위치(placement)를 나타내는 렌더링 정보에 기반한 복수개의 공간 오디오 신호를 포함하는 오디오 장면을 생성하도록 구성되고, 상기 오디오 장면 생성기(220)는 오디오 장면을 생성하기 위해 하나 이상의 오디오 객체를 생성하지 않도록 구성되는 것을 특징으로 하는 장치.
이전 항 중 한 항에 있어서,
상기 장치는 또한 하나 이상의 디코딩 된 신호를 획득하기 위한 하나 이상의 처리된 다운믹스 신호를 디코딩하는 오디오 디코더(510)를 포함하고,
상기 오디오 장면 생성기(220)는 하나 이상의 디코딩 된 신호, 매개변수 오디오 객체 정보, 부가적인 매개변수 정보 및 렌더링 정보에 기반한 복수개의 공간 오디오 신호들을 포함하는 오디오 장면을 생성하도록 구성되는 것을 특징으로 하는 장치.
이전 항 중 한 항에 있어서, 상기 오디오 장면 생성기(220)는 수식을 사용함으로써 오디오 장면을 생성하도록 구성되고,
상기 수식은

= G'X '
G' = E'D' ^T (D'E'D' ^T ) ^-1
상기
는 오디오 장면을 나타내는 첫 번째 행렬이고, 상기
는 복수개의 공간 오디오 신호들을 나타내는 복수개의 행(rows)을 포함하고,
상기 R'는 렌더링 정보를 나타내는 두 번째 행렬이고,
상기
는 세 번째 행렬이고,
상기 X'는 하나 이상의 처리된 다운믹스 신호들을 나타내는 네 번째 행렬이고,
상기 G'는 다섯 번째 행렬이고,
상기 D'는 여섯 번째 행렬,다운믹스 행렬이고, 그리고,
상기 E'는 복수개의 일곱 번째 행렬 계수들(coefficients)을 포함하는 일곱 번째 행렬이고, 상기 일곱 번째 행렬 계수는
수식
에 의해 정의되고,
상기 E' _i,j 는 행i와 열 j에서, i가 행 인덱스 이고 j가 열 인덱스인, 일곱 번째 행렬 계수들 중 하나이고,
상기 IOC' _i,j 는 교차 연관 값(cross correlation value)을 나타내고,
상기 OLD' _i 는 제1연관 에너지 값(first related energy value)을 나타내고, 상기 OLD _j '는 제2 연관 에너지 값(second related energy value)을 나타내는 것을 특징으로 하는 장치.
인코딩 된 신호를 획득하기 위한 하나 이상의 오디오 객체 인코딩 장치에 있어서, 상기 장치는
하나 이상의 처리되지 않은 다운믹스 신호를 획득하기 위한 하나 이상의 오디오 객체를 다운믹싱(downmixing)하는 다운믹서(110)
하나 이상의 처리된 다운 믹싱 신호를 획득하기 위한 하나 이상의 처리되지 않은 다운믹스 신호들을 처리하는 처리 모듈(120),
하나 이상의 부가적인 신호들을 연산하는 신호 연산기(130) 를 포함하고, 상기 신호 연산기(130)는 하나 이상의 처리된 다운믹스 신호와 하나 이상의 처리되지 않은 다운믹스 신호 사이의 차이에 기반한 하나 이상의 추가적인 신호들 각각을 연산하도록 구성되고,
하나 이상의 오디오 객체에 대한 매개변수 오디오 객체 정보 및 하나 이상의 추가적인 신호들에 대한 추가적인 매개변수 정보를 생성하는 객체 정보 생성기(140);
인코딩 된 신호에 대한 출력 인터페이스(150)를 포함하고, 인코딩된 신호는 하나 이상의 오디오 객체에 대한 매개변수 오디오 객체 정보 및 하나 이상의 추가적인 신호들에 대한 추가적인 매개변수 정보를 포함하는 장치.
제9항에 있어서, 상기 처리 모듈(120)은 하나 이상의 처리된 다운 믹스 신호를 획득하기 위해 하나 이상의 처리되지 않은 신호를 인코딩 함으로써, 하나 이상의 처리되지 않은 신호들을 처리하도록 구성되는 것을 특징으로 하는 장치.
제10항에 있어서,
상기 신호 연산기(130)는 디코딩 유닛(240)과 결합기(250)를 포함하고,
상기 디코딩 유닛은 디코딩된 신호들을 획득하기 위해 하나 이상의 처리된 다운믹스 신호를 디코딩 하도록 구성되고,
상기 결합기(250)는 하나 또는 하나 이상의 디코딩된 신호와 하나 또는 하나 이상의 처리되지 않은 다운 믹스 신호 사이의 차이를 생성함으로써 하나 이상의 추가 신호들 각각을 생성하도록 구성되는 것을 특징으로 하는 장치.
제11항에 있어서,
상기 하나 이상의 처리되지 않은 다운 믹스 신호 각각은 복수개의 첫 번째 신호 샘플들을 포함하고, 신호 샘플들 각각은 복수개의 포인트 -인 -타임(points-in-time) 중 하나에 할당되고,
상기 하나 이상의 디코딩 된 신호는 복수개의 두 번째 신호 샘플들을 포함하고, 두 번째 신호 샘플들 각각은 복수개의 포인트 -인 ?타임(points-in-time) 중 하나에 할당되고,
상기 신호 연산기(130)는 또한 하나 또는 하나 이상의 디코딩 된 신호 및 하나 또는 하나 이상의 처리되지 않은 다운 믹스 신호들을 시간-정렬 하도록 구성되는 시간 정렬 유닛(345) 을 포함하고 이로 인해 상기 처리되지 않은 다운 믹스 신호의 첫 번째 신호 샘플 중 하나는 상기 디코딩 된 신호의 두 번째 신호 샘플 중 하나에 할당 되고, 상기 디코딩된 신호의 상기 두 번째 신호 샘플은 복수개의 포인트-인-타임(point-in-time)의 동일한 포인트 인 타임(point-in-time)으로 할당되는 것을 특징으로 하는 장치.
제9항에 있어서, 상기 처리 모듈(120)은 하나 이상의 처리된 다운 믹스 신호를 획득하기 위해 적어도 하나 또는 하나 이상의 처리되지 않은 다운믹스 신호에서 오디오 효과를 적용함으로써, 하나 이상의 처리되지 않은 다운믹스 신호를 처리하도록 구성되는 것을 특징으로 하는 장치
제9항 내지 13항 중 어느 한 항에 있어서,
상기 오디오 객체 에너지 값은 하나 또는 하나 이상의 오디오 객체 각각에 할당되고,
상기 부가적인 에너지 값은 하나 또는 하나 이상의 부가적인 신호 각각에 할당되고,
상기 객체 정보 생성기(140)는 참조 에너지 값을 결정하도록 구성되고, 따라서 참조 에너지 값은 하나 이상의 오디오 객체 각각의 오디오 객체 에너지 값보다 크거나 동일하고, 따라서 참조 에너지 값은 하나 이상의 부가적인 신호 각각의 값 보다 크거나 동일하고,
상기 객체 정보 생성기(140)는 하나 이상의 오디오 객체 각각에 대한 오디오 객체 레벨 차이 결정에 의해 매개변수 오디오 객체 정보를 결정하도록 구성되고, 이에 따라 상기 오디오 객체 레벨 차이는 참조 에너지 값을 위한 상기 오디오 객체의 오디오 객체 에너지 비율을 나타내거나, 또는 이에 따라 상기 오디오 객체 레벨 차이는 상기 오디오 객체의 참조 에너지 값 및 오디오 에너지 값 사이의 차이를 나타내고, 그리고
상기 객체 정보 생성기(140)는 하나 이상의 부가 신호들의 각 부가 신호들에 대한 부가적인 객체 레벨 차이를 결정함으로써, 부가적인 객체 정보를 결정하도록 구성되고, 이에 따라 상기 부가 객체 레벨 차이는 참조 에너지 값을 위한 상기 부가 신호의 부가 에너지 값 비율을 나타내는 것을 특징으로 하는 장치.
제9항 내지 14항 중 어느 한 항에 있어서,
상기 처리 모듈(120)은 음향 효과 모듈(122) 및 인코딩 모듈(121)을 포함하고,
상기 음향 효과 모듈(122)는 하나 이상의 음향적으로 조정된 다운믹스 신호를 획득하기 위해 적어도 하나 또는 하나 이상의 처리되지 않은 다운 믹스 신호들에 음향 효과를 적용하도록 구성되고,
상기 인코딩 모듈(121)은 하나 이상의 처리되지 않은 다운 믹스 신호를 획득하기 위해 하나 이상의 음향적으로 조정된 다운 믹스 신호를 인코딩 하는 것을 특징으로 하는 장치.
시스템은
제9항 내지 15항 중 하나의 항에 따른 장치(810), 및
제1항 내지 8항중 하나의 항에 따른 장치(820)를 포함하고,
제9항 내지 15항 중 어느 한 항에 따른 상기 장치(810)는 하나 이상의 처리되지 않은 다운믹스 신호와 인코딩된 신호를 제1항 내지 8항 중 하나의 항에 따른 장치(820)로 제공하도록 구성되고, 인코딩된 신호는 하나 이상의 오디오 객체에 대한 매개변수 오디오 객체 정보 및 하나 이상의 부가 신호에 대한 부가 매개변수 신호를 포함하고,
제1항 내지 8항 중 한 항에 따른 상기 장치(820)는 매개변수 오디오 객체 정보, 부가 매개변수 정보 및 오디오 장면에서 하나 이상의 오디오 객체의 위치를 나타내는 렌더링 정보를 기반으로 복수개의 공간 오디오 신호를 포함하는 오디오 장면을 생성하도록 구성되는 것을 특징으로 하는 시스템.
인코딩 된 신호의 디코딩 방법으로서, 인코딩된 신호는 하나 이상의 오디오 객체 상의 매개변수 오디오 객체 정보, 및 부가 매개변수 정보를 포함하고, 상기 방법은
하나 이상의 처리된 다운 믹스 신호를 수신하는 단계 및, 인코딩 된 신호를 수신하는 단계를 포함하고,
상기 부가 매개변수 정보는 하나 이상의 처리된 다운믹스 신호를 획득하기 위한 하나 이상의 처리되지 않은 다운믹스 신호 상에서 수행된 처리를 반영하고,
하나 이상의 처리된 다운믹스 신호, 매개변수 오디오 객체 정보, 부가 매개변수 정보, 및 오디오 장면에서 하나 이상의 오디오 객체의 위치를 나타내는 렌더링 정보에 기반한 복수개의 공간 오디오 신호를 포함하는 오디오 장면을 생성하는 단계; 및
오디오 장면에서 부가 매개변수 정보에 의해 표시되는 출력 신호를 감쇄하거나 제거하는 단계;를 포함하는 방법.
인코딩된 신호를 획득하기 위해 하나 이상의 오디오 객체 인코딩 방법에 있어서, 상기 방법은 :
하나 이상의 처리되지 않은 다운믹스 신호를 획득하기 위한 하나 이상의 오디오 객체를 다운 믹싱하는 단계;
하나 이상의 처리된 다운 믹스 신호를 획득하기 위해 하나 이상의 처리되지 않은 다운믹스 신호를 처리하는 단계;
하나 또는 하나 이상의 처리된 다운믹스 신호와 하나 또는 하나 이상의 처리되지 않은 다운 믹스 신호 사이의 차이에 기반한 하나 이상의 부가 신호 각각을 연산함으로써 하나 또는 하나 이상의 부가 신호를 연산하는 단계;
하나 이상의 오디오 객체에 대한 매개변수 오디오 객체 정보와 하나 이상의 부가 신호에 대한 부가 매개변수 정보를 생성하는 단계; 및
인코딩된 신호를 출력하는 단계;를 포함하고, 인코딩된 신호는 하나 이상의 오디오 객체에 대한 매개변수 오디오 객체 정보 및 하나 이상의 부가 신호에 대한 부가 매개변수 정보를 포함하는 방법.
컴퓨터 또는 신호 프로세서에서 실행될 때 제17항 또는 제18항의 방법을 구현하기 위한 컴퓨터 프로그램.