KR20230165855A

KR20230165855A - 공간 오디오 객체 분리

Info

Publication number: KR20230165855A
Application number: KR1020237038429A
Authority: KR
Inventors: 미코-빌 라이티넨; 앤시 사카리 라모
Original assignee: 노키아 테크놀로지스 오와이
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2023-12-05
Also published as: CN117083881A; EP4320876A1; WO2022214730A1

Abstract

공간 오디오 인코딩 장치가 개시되며, 이는, 오디오 프레임의 복수의 오디오 객체(1281)로부터 분리할 오디오 객체를 결정하고(306), 복수의 오디오 객체로부터 분리할 오디오 객체를 분리하여(308), 분리된 오디오 객체(126) 및 적어도 하나의 나머지 오디오 객체(124)를 제공하며, 분리된 오디오 객체를 오디오 객체 인코더로 인코딩하고, 적어도 하나의 나머지 오디오 객체를 다른 입력 오디오 포맷과 함께 인코딩하도록 구성된다.

Description

공간 오디오 객체 분리

본 출원은 오디오 객체를 인코딩하기 위한 장치 및 방법에 관한 것이다.

파라미터적 공간 오디오 처리는 파라미터의 세트를 사용해서 소리의 공간적 측면이 설명되는 오디오 신호 처리의 분야이다. 예를 들어, 마이크 어레이로부터의 파라미터적 공간 오디오를 캡처하는 경우, 마이크 어레이 신호로부터 주파수 대역 내의 소리 방향과, 주파수 대역에서의 캡처된 소리의 방향성(directional) 부분과 비방향성(non-directional) 부분 사이의 비율과 같은 파라미터의 세트를 추정하는 것이 전형적이고 효과적인 선택이다. 이러한 파라미터는 마이크 어레이의 위치에서 캡처된 소리의 지각적(perceptual) 공간적 속성을 잘 묘사하는 것으로 알려져 있다. 따라서, 이러한 파라미터는 공간적 소리를 합성하는 데 사용될 수 있으며, 바이노럴 방식(binaurally) 헤드폰에, 스피커에 또는 앰비소닉스(Ambisonics)와 같은 다른 포맷에 사용할 수 있다.

따라서 주파수 대역에서의 방향 및 직접 에너지 대 총 에너지 비율(direct-to-total energy ratio)은 공간 오디오 캡처에 특히 효과적인 파라미터이다.

주파수 대역에서의 방향 파라미터 및 주파수 대역에서의 에너지 비율 파라미터(소리의 방향성을 나타냄)로 이루어진 파라미터 세트는, 오디오 코덱을 위한 공간 메타데이터(서라운드 가간섭성, 확산 가간섭성, 방향의 수, 거리 등과 같은 다른 파라미터를 또한 포함할 수 있음)로서 또한 활용될 수 있다. 예를 들어, 이들 파라미터는 마이크 어레이에서 캡처된 오디오 신호로부터 추정될 수 있고, 예를 들어 공간적 메타데이터와 함께 전달되는 마이크 어레이 신호로부터 스테레오 신호가 생성될 수 있다. 스테레오 신호는, 예를 들어, AAC 인코더로 인코딩될 수 있고, 모노 신호는 EVS 인코더로 인코딩될 수 있다. 디코더는 오디오 신호를 PCM 신호로 디코딩하고, 주파수 대역에서의 소리를 (공간적 메타데이터를 사용하여) 처리해서 공간적 출력, 예를 들어 바이노럴 출력(binaural output)을 획득한다.

전술한 솔루션은 (예를 들어, 모바일 전화, VR 카메라, 독립형 마이크 어레이에서) 마이크 어레이로부터 캡처된 공간적 소리를 인코딩하는 데 특히 적합하다. 그러나, 이러한 인코더는, 마이크 어레이에서 캡처된 신호가 아닌 또한 다른 입력 타입, 예를 들어, 스피커 신호, 오디오 객체 신호, 또는 앰비소닉 신호(Ambisonic signal)를 갖는 것이 바람직할 수 있다.

공간적 메타데이터 추출을 위해 1차 앰비소닉스(First-Order Ambisonics) 입력을 분석하는 것은 방향성 오디오 코딩(Directional Audio Coding: DirAC) 및 조화 평면파 전개(Harmonic planewave expansion: Harpex)와 관련된 과학 문헌에 상세히 문서로 개시되어 있다. 이는 FOA 신호(더 정확하게는, 그것의 변형인 B 포맷 신호(B-format signal))를 직접 제공하는 마이크 어레이가 존재하고 따라서 이러한 입력을 분석하는 것이 이 분야에서의 연구의 초점이었기 때문이다. 또한, 다방향 공간 메타데이터 추출에 대한 고차 앰비소닉스(higher-order Ambisonics, HOA) 입력의 분석은, 고차 지향성 오디오 코딩(HO-DirAC)과 관련된 과학 문헌에도 문서로 개시되어 있다.

인코더에 대한 추가 입력은 또한 다중 채널 스피커 입력, 예컨대 5.1 또는 7.1 채널 서라운드 입력 및 오디오 객체이다.

위의 과정은, 시간-주파수 도메인에서 다중 채널 분석을 통해 방위각, 고도 등의 방향성 파라미터, 및 공간적 메타데이터와 같은 에너지 비율을 획득하는 것을 포함할 수 있다. 반면, 개별 오디오 객체의 방향성 메타데이터는 별도의 처리 체인으로 처리될 수 있다. 그러나 이들 두 가지 타입의 메타데이터를 처리할 때 발생할 수 있는 시너지 효과는, 메타데이터를 별도로 처리하는 경우에는 효율적으로 달성될 수 없다.

제1 측면에 따라서, 공간 오디오 신호 인코딩 방법이 제공되며, 이는 오디오 프레임의 복수의 오디오 객체로부터 분리할 오디오 객체를 결정하는 단계와, 복수의 오디오 객체로부터 분리할 상기 오디오 객체를 분리하여, 분리된 오디오 객체 및 적어도 하나의 나머지 오디오 객체를 제공하는 단계와, 분리된 오디오 객체를 오디오 객체 인코더로 인코딩하는 단계와, 적어도 하나의 나머지 오디오 객체를 다른 입력 오디오 포맷과 함께 인코딩하는 단계를 포함한다.

복수의 오디오 객체의 각각의 오디오 객체는 오디오 객체 신호 및 오디오 객체 메타데이터를 포함할 수 있고, 오디오 프레임의 복수의 오디오 객체로부터 분리할 오디오 객체를 결정하는 단계는, 오디오 프레임에 걸친 복수의 오디오 객체 신호 각각의 에너지를 결정하는 단계와, 오디오 프레임에 걸친 다른 입력 오디오 포맷의 적어도 하나의 오디오 신호의 에너지를 결정하는 단계와, 복수의 오디오 객체 신호의 에너지로부터 가장 큰 에너지를 선택함으로써 가장 큰(loudest) 에너지를 결정하는 단계와, 에너지 비율 인자를 결정하는 단계와, 에너지 비율 인자에 따라서 오디오 프레임에 대한 임계값을 결정하는 단계와, 가장 큰 에너지 대 오디오 프레임에 걸쳐서 계산된 이전 오디오 프레임에 대해서 분리된 오디오 객체의 에너지의 비율을 결정하는 단계와, 가장 큰 에너지 대 오디오 프레임에 걸쳐서 계산된 이전 오디오 프레임에 대해서 분리된 오디오 객체의 에너지의 비율을, 임계값과 비교하는 단계와, 비교에 따라서, 오디오 프레임에 대해서, 가장 큰 에너지에 대응하는 오디오 객체를 분리할 오디오 객체로서 식별하거나 혹은 이전 오디오 프레임에 대해서 분리된 오디오 객체를 분리할 오디오 객체로서 식별하는 단계를 포함할 수 있다.

에너지 비율 인자를 결정하는 단계는: 오디오 프레임에 걸친 복수의 오디오 객체 신호 각각의 에너지, 이전 오디오 프레임에 걸친 복수의 오디오 객체 신호 각각의 에너지, 오디오 프레임에 걸친 다른 오디오 입력 포맷의 적어도 하나의 오디오 신호의 에너지 및 이전 오디오 프레임에 걸친 다른 오디오 입력 포맷의 적어도 하나의 오디오 신호의 에너지를 합산해서 총 에너지를 결정하는 단계와, 총 에너지에 대한, 가장 큰 에너지, 이전 오디오 프레임으로부터의 가장 큰 에너지, 오디오 프레임에 걸쳐서 계산된 이전 오디오 프레임에 대한 분리된 오디오 객체의 에너지 및 오디오 프레임에 걸쳐 계산된 이전 오디오 프레임에 대한 분리된 오디오 객체의 에너지의 합 에너지의 비율을 결정하는 단계를 포함할 수 있다.

오디오 프레임의 복수의 오디오 객체로부터 분리할 오디오 객체를 결정하는 단계는, 이전 오디오 프레임에 대한 분리된 오디오 객체로부터 오디오 프레임에 대한 분리된 오디오 객체로의 변경이 수행되는 트랜지션의 방식을 결정하는 단계를 포함할 수 있다.

트랜지션의 방식을 결정하는 단계는, 에너지 비율 인자를 임계값에 대해 비교하는 단계와, 에너지 비율 인자가 임계값 미만인 경우, 이전 오디오 프레임에 대한 분리된 오디오 객체로부터 오디오 프레임에 대한 분리된 오디오 객체로의 트랜지션의 방식이 하드 트랜지션을 사용해서 수행되는 것으로 결정하는 단계와, 에너지 비율 인자가 임계값 이상인 경우, 이전 오디오 프레임에 대한 분리된 오디오 객체로부터 오디오 프레임에 대한 분리된 오디오 객체로의 트랜지션의 방식이 페이드 아웃 페이드 인 트랜지션을 사용해서 수행되는 것으로 결정하는 단계를 포함할 수 있다.

복수의 오디오 객체로부터 분리할 오디오 객체를 분리하여, 분리된 오디오 객체 및 적어도 하나의 나머지 오디오 객체를 제공하는 단계는, 적어도 하나의 나머지 오디오 객체에 대해, 결정된 분리할 오디오 객체의 오디오 객체 신호를 0으로 설정하는 단계와, 오디오 프레임에 대한 분리된 오디오 객체의 메타데이터를, 결정된 분리할 오디오 객체의 메타데이터로 설정하는 단계와, 오디오 프레임에 대한 분리된 오디오 객체의 오디오 객체 신호를, 결정된 분리할 오디오 객체의 오디오 객체 신호로 설정하는 단계와, 적어도 하나의 나머지 오디오 객체의 오디오 객체 신호를, 분리하는 것으로 결정되지 않은 오디오 객체의 오디오 객체 신호로 설정하는 단계와, 적어도 하나의 나머지 오디오 객체의 메타데이터를, 분리하는 것으로 결정되지 않은 오디오 객체의 메타데이터로 설정하는 단계를 포함할 수 있다.

이전 오디오 프레임에 대한 분리된 오디오 객체로부터 오디오 프레임에 대한 분리된 오디오 객체로의 트랜지션은 하드 트랜지션을 이용하여 수행될 수 있다.

복수의 오디오 객체로부터 분리할 오디오 객체를 분리하여, 분리된 오디오 객체 및 적어도 하나의 나머지 오디오 객체를 제공하는 단계는, 복수의 오디오 객체로부터 분리할 오디오 객체를 분리하여 적어도 하나의 후속 오디오 프레임에 대한 분리된 오디오 객체 및 적어도 하나의 후속 오디오 프레임에 대한 복수의 나머지 오디오 객체를 제공하는 단계를 포함할 수 있고, 적어도 하나의 후속 오디오 프레임은 오디오 프레임에 후속하는 것이며, 이 방법은, 오디오 프레임에 대한 분리된 오디오 객체의 오디오 객체 신호를, 페이드 아웃 윈도우 함수에 의해 승산된 이전 오디오 프레임에 대한 분리된 오디오 객체의 오디오 객체 신호로 설정하는 단계와, 적어도 하나의 후속 오디오 프레임에 대한 분리된 오디오 객체의 오디오 객체 신호를, 페이드 인 윈도우 함수에 의해 승산된 분리할 오디오 객체의 적어도 하나의 후속 오디오 프레임의 오디오 객체 신호로 설정하는 단계와, 오디오 프레임에 대한 적어도 하나의 나머지 오디오 객체 내의 이전 오디오 프레임에 대한 분리된 오디오 객체에 대응하는 오디오 객체 신호를, 페이드 인 윈도우 함수에 의해 승산된 이전 오디오로부터 분리된 오디오 객체의 오디오 프레임에 대한 오디오 객체 신호로 설정하는 단계와, 적어도 하나의 후속 오디오 프레임에 대한 적어도 하나의 나머지 오디오 객체 내의 오디오 프레임에 대한 분리된 오디오 객체에 대응하는 오디오 객체 신호를, 페이드 아웃 윈도우 함수에 의해 승산된 분리할 오디오 객체의 오디오 객체 신호로 설정하는 단계를 더 포함할 수 있다.

이 방법은, 오디오 프레임에 대한 적어도 하나의 나머지 오디오 객체의 메타데이터를, 오디오 프레임에 대한 분리하는 것으로 결정되지 않은 오디오 객체의 메타데이터로 설정하는 단계와, 적어도 하나의 후속 오디오 프레임에 대한 적어도 하나의 나머지 오디오 객체의 메타데이터를, 적어도 하나의 후속 오디오 프레임에 대한 분리하는 것으로 결정되지 않은 오디오 객체의 메타데이터로 설정하는 단계와, 오디오 프레임에 대한 분리된 오디오 객체의 메타데이터를 오디오 프레임에 대한 분리할 오디오 객체의 메타데이터로 설정하는 단계와, 적어도 하나의 후속 오디오 프레임에 대한 분리된 오디오 객체의 메타데이터를, 적어도 하나의 후속 오디오 프레임에 대한 분리할 오디오 객체의 메타데이터로 설정하는 단계를 더 포함할 수 있다.

이전 오디오 프레임에 대한 분리된 오디오 객체로부터 오디오 프레임에 대한 분리된 오디오 객체로의 트랜지션의 방식이 페이드 인 페이드 아웃 트랜지션을 이용하여 수행될 수 있다.

페이드 아웃 윈도우 함수는 Hann 윈도우 함수의 후반부이고, 페이드 인 윈도우 함수는 Hann 윈도우 함수의 후반부를 뺀 것일 수 있다.

오디오 프레임에 걸친 복수의 오디오 객체 신호 각각의 에너지를 결정하는 것은, 이전 오디오 프레임으로부터 대응하는 오디오 객체 신호의 에너지를 이용하여 복수의 오디오 객체 신호 각각의 에너지를 평활화하는 것을 포함할 수 있고, 오디오 프레임에 걸친 복수의 오디오 객체 신호의 에너지를 결정하는 것은 이전 오디오 프레임으로부터의 복수의 오디오 신호 각각에 대한 대응하는 에너지를 이용하여 복수의 오디오 신호 각각의 에너지를 평활화하는 것을 포함한다.

다른 입력 오디오 포맷은, 적어도 하나의 오디오 신호 및 입력 오디오 포맷 메타데이터 세트와, 적어도 두 개의 오디오 신호 중 적어도 하나를 포함할 수 있다.

제2 양태에 따라서 공간 오디오 신호 인코딩 장치가 제공되며, 이는 오디오 프레임의 복수의 오디오 객체로부터 분리할 오디오 객체를 결정하는 수단과, 복수의 오디오 객체로부터 분리할 오디오 객체를 분리하여, 분리된 오디오 객체 및 적어도 하나의 나머지 오디오 객체를 제공하는 수단과, 분리된 오디오 객체를 오디오 객체 인코더로 인코딩하는 수단과, 적어도 하나의 나머지 오디오 객체를 다른 입력 오디오 포맷과 함께 인코딩하는 수단을 포함한다.

복수의 오디오 객체의 각각의 오디오 객체는 오디오 객체 신호 및 오디오 객체 메타데이터를 포함하고, 오디오 프레임의 복수의 오디오 객체로부터 분리할 오디오 객체를 결정하는 수단은, 오디오 프레임에 걸친 복수의 오디오 객체 신호 각각의 에너지를 결정하는 수단과, 오디오 프레임에 걸친 다른 입력 오디오 포맷의 적어도 하나의 오디오 신호의 에너지를 결정하는 수단과, 복수의 오디오 객체 신호의 에너지로부터 가장 큰 에너지를 선택함으로써 가장 큰 에너지를 결정하는 수단과, 에너지 비율 인자를 결정하는 수단과, 에너지 비율 인자에 따라서 오디오 프레임에 대한 임계값을 결정하는 수단과, 가장 큰 에너지 대 오디오 프레임에 걸쳐서 계산된 이전 오디오 프레임에 대해서 분리된 오디오 객체의 에너지의 비율을 결정하는 수단과, 가장 큰 에너지 대 오디오 프레임에 걸쳐서 계산된 이전 오디오 프레임에 대해서 분리된 오디오 객체의 에너지의 비율을 임계값과 비교하는 수단과, 비교에 따라서, 오디오 프레임에 대해서, 가장 큰 에너지에 대응하는 오디오 객체를 분리할 오디오 객체로서 식별하거나 혹은 이전 오디오 프레임에 대해서 분리된 오디오 객체를 분리할 오디오 객체로서 식별하는 수단을 포함할 수 있다.

에너지 비율 인자를 결정하는 수단은: 오디오 프레임에 걸친 복수의 오디오 객체 신호 각각의 에너지, 이전 오디오 프레임에 걸친 복수의 오디오 객체 신호 각각의 에너지, 오디오 프레임에 걸친 다른 오디오 입력 포맷의 적어도 하나의 오디오 신호의 에너지 및 이전 오디오 프레임에 걸친 다른 오디오 입력 포맷의 적어도 하나의 오디오 신호의 에너지를 합산해서 총 에너지를 결정하는 수단과, 총 에너지에 대한, 가장 큰 에너지, 이전 오디오 프레임으로부터의 가장 큰 에너지, 오디오 프레임에 걸쳐서 계산된 이전 오디오 프레임에 대한 분리된 오디오 객체의 에너지 및 오디오 프레임에 걸쳐 계산된 이전 오디오 프레임에 대한 분리된 오디오 객체의 에너지의 합 에너지의 비율을 결정하는 수단을 포함할 수 있다.

오디오 프레임의 복수의 오디오 객체로부터 오디오 객체를 결정하는 수단은, 이전 오디오 프레임에 대한 분리된 오디오 객체로부터 오디오 프레임에 대한 분리된 오디오 객체로의 변경이 수행되는 트랜지션의 방식을 결정하는 수단을 포함할 수 있다.

트랜지션의 방식을 결정하는 수단은, 에너지 비율 인자를 임계값에 대해 비교하는 수단과, 에너지 비율 인자가 임계값 미만인 경우, 이전 오디오 프레임에 대한 분리된 오디오 객체로부터 오디오 프레임에 대한 분리된 오디오 객체로의 트랜지션의 방식이 하드 트랜지션을 사용해서 수행되는 것으로 결정하는 수단과, 에너지 비율 인자가 임계값 이상인 경우, 이전 오디오 프레임에 대한 분리된 오디오 객체로부터 오디오 프레임에 대한 분리된 오디오 객체로의 트랜지션의 방식이 페이드 아웃 페이드 인 트랜지션을 사용해서 수행되는 것으로 결정하는 수단을 포함할 수 있다.

복수의 오디오 객체로부터 분리할 오디오 객체를 분리하여, 분리된 오디오 객체 및 적어도 하나의 나머지 오디오 객체를 제공하는 수단은, 적어도 하나의 나머지 오디오 객체에 대해, 결정된 분리할 오디오 객체의 오디오 객체 신호를 0으로 설정하는 수단과, 오디오 프레임에 대한 분리된 오디오 객체의 메타데이터를 결정된 분리할 오디오 객체의 메타데이터로 설정하는 수단과, 오디오 프레임에 대한 분리된 오디오 객체의 오디오 객체 신호를 결정된 분리할 오디오 객체의 오디오 객체 신호로 설정하는 수단과, 적어도 하나의 나머지 오디오 객체의 오디오 객체 신호를 분리하는 것으로 결정되지 않은 오디오 객체의 오디오 객체 신호로 설정하는 수단과, 적어도 하나의 나머지 오디오 객체의 메타데이터를, 분리하는 것으로 결정되지 않은 오디오 객체의 메타데이터로 설정하는 수단을 포함할 수 있다. 이전 오디오 프레임에 대한 분리된 오디오 객체로부터 오디오 프레임에 대한 분리된 오디오 객체로의 트랜지션은 하드 트랜지션을 이용하여 수행될 수 있다.

복수의 오디오 객체로부터 분리할 오디오 객체를 분리하여, 분리된 오디오 객체 및 적어도 하나의 나머지 오디오 객체를 제공하는 수단은, 복수의 오디오 객체로부터 분리할 오디오 객체를 분리하여 적어도 하나의 후속 오디오 프레임에 대한 분리된 오디오 객체 및 적어도 하나의 후속 오디오 프레임에 대한 복수의 나머지 오디오 객체를 제공하는 수단을 포함하고, 적어도 하나의 후속 오디오 프레임은 오디오 프레임을 후속할 수 있으며, 장치는, 오디오 프레임에 대한 분리된 오디오 객체의 오디오 객체 신호를, 페이드 아웃 윈도우 함수에 의해 승산된 이전 오디오 프레임에 대한 분리된 오디오 객체의 오디오 객체 신호로 설정하는 수단과, 적어도 하나의 후속 오디오 프레임에 대한 분리된 오디오 객체의 오디오 객체 신호를, 페이드 인 윈도우 함수에 의해 승산된 분리할 오디오 객체의 적어도 하나의 후속 오디오 프레임의 오디오 객체 신호로 설정하는 수단과, 오디오 프레임에 대한 적어도 하나의 나머지 오디오 객체 내의 이전 오디오 프레임에 대한 분리된 오디오 객체에 대응하는 오디오 객체 신호를, 페이드 인 윈도우 함수에 의해 승산된 이전 오디오로부터 분리된 오디오 객체의 오디오 프레임에 대한 오디오 객체 신호로 설정하는 수단과, 적어도 하나의 후속 오디오 프레임에 대한 적어도 하나의 나머지 오디오 객체 내의 오디오 프레임에 대한 분리된 오디오 객체에 대응하는 오디오 객체 신호를, 페이드 아웃 윈도우 함수에 의해 승산된 분리할 오디오 객체의 오디오 객체 신호로 설정하는 수단을 더 포함할 수 있다.

이 장치는 오디오 프레임에 대한 적어도 하나의 나머지 오디오 객체의 메타데이터를 오디오 프레임에 대한 분리하는 것으로 결정되지 않은 오디오 객체의 메타데이터로 설정하는 수단과, 적어도 하나의 후속 오디오 프레임에 대한 적어도 하나의 나머지 오디오 객체의 메타데이터를, 적어도 하나의 후속 오디오 프레임에 대한 분리하는 것으로 결정되지 않은 오디오 객체의 메타데이터로 설정하는 수단과, 오디오 프레임에 대한 분리된 오디오 객체의 메타데이터를 오디오 프레임에 대한 분리할 오디오 객체의 메타데이터로 설정하는 수단과, 적어도 하나의 후속 오디오 프레임에 대한 분리된 오디오 객체의 메타데이터를, 적어도 하나의 후속 오디오 프레임에 대한 분리할 오디오 객체의 메타데이터로 설정하는 수단을 더 포함할 수 있다.

이전 오디오 프레임에 대한 분리된 오디오 객체로부터 오디오 프레임에 대한 분리된 오디오 객체로의 트랜지션은 페이드 인 페이드 아웃 트랜지션을 이용하여 수행될 수 있다.

제3 양태에 따라서, 적어도 하나의 프로세서 및 컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리를 포함하는 공간 오디오 인코딩 장치가 제공되며, 적어도 하나의 프로세서 및 컴퓨터 프로그램 코드는 오디오 프레임의 복수의 오디오 객체로부터 분리할 오디오 객체를 결정하고, 복수의 오디오 객체로부터 분리할 오디오 객체를 분리하여, 분리된 오디오 객체 및 적어도 하나의 나머지 오디오 객체를 제공하며, 분리된 오디오 객체를 오디오 객체 인코더로 인코딩하고, 적어도 하나의 나머지 오디오 객체를 다른 입력 오디오 포맷과 함께 인코딩하도록 구성된다. 매체에 저장된 컴퓨터 프로그램 제품은 장치로 하여금, 본원에서 설명한 방법을 수행하게 할 수 있다.

전자 장치는 본원에서 설명하는 장치를 포함할 수 있다.

칩셋은 본원에서 설명하는 장치를 포함할 수 있다.

본 출원의 실시예는 해당 기술과 관련된 문제를 해결하는 것을 목표로 한다.

본 출원을 더욱 이해할 수 있도록, 이하 예를 들어 다음과 같은 첨부된 도면을 참조한다:
도 1은 몇몇 실시예를 구현하기에 적합한 장치의 시스템을 개략적으로 도시한다.
도 2는 몇몇 실시예에 따른 분석 프로세서를 개략적으로 도시한다.
도 3은 몇몇 실시예를 구현하기에 적합한 오디오 객체 분리기 장치를 개략적으로 도시한다.
도 4는 도시된 장치를 구현하기에 적합한 예시적인 디바이스를 개략적으로 도시한다.

이하, 효과적인 공간 분석 유도 메타데이터 파라미터의 제공에 적합한 장치 및 가능한 메커니즘을 보다 상세히 설명한다. 이하의 논의에서는, 다중 채널 마이크 구현과 관련하여 다중 채널 시스템을 논의한다. 그러나, 위에서 설명한 바와 같이, 입력 포맷은 다중 채널 스피커, 앰비소닉(FOA/HOA) 등과 같은 임의의 적절한 입력 포맷일 수 있다. 일부 실시예에서 채널 위치는 마이크의 위치를 기반으로 하거나, 가상의 위치 또는 방향이라는 것을 이해할 수 있다. 또한, 예시적인 시스템의 출력은 다중 채널 스피커 배열이다. 그러나, 출력은 스피커 이외의 수단을 통해 사용자에게 제공될 수도 있음을 이해할 수 있다. 또한, 다중 채널 스피커 신호는 2 이상의 재생 장치 오디오 신호로 일반화될 수 있다. 이러한 시스템은 현재, 몰입형 음성 및 오디오 서비스(IVAS: Immersive Voice and Audio Service)로서 3GPP 표준화 기구에 의해 표준화되어 있다. IVAS는 기존 모바일(셀룰러) 및 향후 모바일(셀룰러)과 고정 회선 네트워크를 통해 몰입형 음성 및 오디오 서비스를 용이하게 하기 위해 기존 3GPP 향상된 음성 서비스(EVS: Enhanced Voice Service) 코덱을 확장하도록 했다. IVAS의 응용예는 3GPP 4세대(4G) 및 5세대(5G) 네트워크를 통해 몰입형 음성 및 오디오 서비스를 제공하는 것일 수 있다. 나아가, EVS에 대한 확장인 IVAS 코덱은 오디오 및 스피치 콘텐츠(speech content)가 인코딩되어 재생을 위해 파일에 저장되는 저장 및 전달 애플리케이션에 사용될 수 있다. IVAS는 오디오 및 스피치 신호의 샘플을 코딩하는 기능을 가진 다른 오디오 및 음성 코딩 기술과 함께 사용될 수도 있다는 것을 이해할 것이다.

MASA(Metadata-Assisted Spatial audio)는 IVAS에 대해 제안된 입력 포맷 중 하나이다. MASA 입력 포맷은 대응하는 공간 메타데이터와 함께 다수의 오디오 신호(예를 들어, 1 또는 2)를 포함할 수 있다. MASA 입력 스트림은, 예를 들어 모바일 장치에 장착될 수 있는 마이크 어레이와 함께 공간 오디오 캡처를 사용하여 캡처될 수 있다. 캡처된 마이크 신호로부터 공간 오디오 파라미터가 추정될 수 있다.

MASA 공간 메타데이터는 고려된 각각의 시간-주파수(TF) 블록 또는 타일, 바꾸어 말하면 시간/주파수 서브 대역에 대해, 적어도 구형 방향(고도, 방위각), 결과적인 방향의 적어도 하나의 에너지 비율, 확산 가간섭성 및 서라운드 가간섭성으로 구성될 수 있다. 전체적으로, IVAS는 각각의 시간-주파수(TF) 타일에 대해 다양한 유형의 메타데이터 파라미터를 가질 수 있다. MASA에 대한 공간 메타데이터를 구성하는 공간 오디오 파라미터의 유형은 아래 표 1에 나와 있다.

필드	비트	설명
방향 인덱스	16	시간-주파수 파라미터 간격에서 사운드가 도달하는 방향. 약 1도 정확도의 구형 표현. 값 범위: "약 1° 정확도로 모든 방향을 커버"
직접 에너지 대총 에너지 비율	8	방향 인덱스(즉, 시간-주파수 서브프레임)에 대한 에너지 비율. 방향 에너지 / 총 에너지로 계산됨. 값 범위: [0.0, 1.0]
확산 코히런스	8	포인트 소스로 재생하거나 방향을 중심으로 일관되게 재생될 방향을 정의. 값 범위: [0.0, 1.0]
확산 에너지 대 총 에너지 비율	8	서라운딩 방향에 대한 무지향성 사운드의 에너지 비율 무지향성 사운드의 에너지 / 총 에너지로 계산 값 범위: [0.0, 1.0] (파라미터는 제공된 방향의 수와 무관)
서라운드 코히런스	8	서라운딩 방향에 대한 무지향성 사운드의 코히런스 값 범위: [0.0, 1.0] (파라미터는 제공된 방향의 수와 무관)
나머지 에너지 대 총 에너지 비율	8	에너지 비율의 합이 1이라는 요구 사항을 충족하기 위한 나머지(가령, 마이크 노이즈) 사운드 에너지의 에너지 비율이 1임. 나머지 사운드의 에너지/총 에너지로서 계산됨. 값 범위: [0.0, 1.0] (파라미터는 제공된 방향의 수와 무관)
거리	8	로그 스케일에서 미터 단위의 방향 인덱스(즉, 시간-주파수 서브프레임)에서 발생하는 사운드의 거리. 값 범위: 예: 0 내지 100m. (주로 향후 확장을 위한 기능(예: 6DoF 오디오))

이 데이터는 디코더에서 공간 신호를 재구성할 수 있도록 인코더에 의해 인코딩 및 전송(또는 저장)될 수 있다.후속해서 MASA 오디오 신호로서 인코딩되는 다중 채널 입력 신호에 더하여, 다양한 음원을 나타내는 오디오 객체를 인코딩하기 위해 인코딩 시스템이 필요할 수도 있다. 각각의 오디오 객체에는, 메타데이터의 형태이든 다른 메커니즘의 형태이든, 물리적 공간 내에서의 오디오 객체의 위치를 나타내는 방위각 및 고도 값 형태의 방향 데이터가 수반될 수 있다. 일반적으로, 오디오 객체는 오디오 프레임당 하나의 방향 파라미터 값을 가질 수 있다.

이하에서 논의되는 개념은 IVAS 시스템과 같은 공간 오디오 코딩 시스템으로의 다중 입력의 인코딩을 개선하는 것이다. 이러한 시스템은 상술한 바와 같은 다중 채널 오디오 신호 스트림 및 오디오 객체의 별개의 입력 스트림과 함께 제공되지만, 입력 오디오 신호의 다른 조합이 사용될 수도 있을 것으로 예상된다. 이하에서 논의되는 개념을 요약한 실시예는, 다양한 상이한 입력 오디오 스트림들 사이의 유사성이 전반적인 코딩 효율을 향상시키는데 이용될 수 있다는 전제에서 계속될 수 있다. 이를 달성하기 위해, 오디오 객체 스트림이, (오디오 신호들 사이의 시너지 효과를 이용하기 위해) 다른 입력 오디오 신호와 함께 인코딩될 수 있는 오디오 객체과 전용 오디오 객체 인코딩 코딩 기술을 사용해서 인코딩되는 오디오 객체로 분리될 수 있게 하는 기능적 메카니즘을 구비하는 것이 바람직할 수 있다. 이를 위해, 분리된 오디오 객체의 인코딩을 MASA 오디오 신호 스트림과 같은 다른 오디오 입력 스트림과 결합시킴으로써 인코딩의 효율성이 달성될 수 있다.

이에 관해, 도 1은 본 출원의 실시예를 구현하기 위한 예시적인 장치 및 시스템을 도시한다. 시스템은 '분석' 부분으로 도시되어 있다. '분석' 부분은 다중 채널 신호를 수신하는 것부터 메타데이터 및 다운믹스 신호를 인코딩하는 것까지의 부분이다.

시스템 '분석' 부분에 입력되는 것은 다중 채널 신호(102)이다. 이하의 예시에서, 마이크 채널 신호 입력이 설명되지만, 다른 실시예에서는 임의의 적절한 입력(또는 합성 멀티 채널) 포맷이 구현될 수도 있다. 예를 들어, 몇몇 실시예에서, 공간 분석기 및 공간 분석은 인코더 외부에서 구현될 수도 있다. 예를 들어, 몇몇 실시예에서, 오디오 신호와 연관된 공간(MASA) 메타데이터는 별개의 비트-스트림으로서 인코더에 제공될 수도 있다. 몇몇 실시예에서, 공간(MASA) 메타데이터는 공간(방향) 인덱스 값의 세트로서 제공될 수도 있다.

추가적으로, 도 1은 또한 분석 부분 및 복수의 객체를 포함하는 오디오 객체 스트림에 대한 추가 입력으로서의 다수의 오디오 객체(128)를 도시한다. 상술한 바와 같이, 이들 다수의 오디오 객체(또는 오디오 객체 스트림)(128)은 물리적 공간 내의 다양한 음원을 나타낼 수 있다. 각각의 오디오 객체는, 오디오 프레임에 기초해서 물리적 공간 내에서 오디오 객체의 위치를 나타내는 방향 데이터(방위각 및 고도 값의 형태로)를 포함하는 오디오 객체 신호 및 수반되는 메타데이터에 의해 특징지어질 수 있다.

멀티 채널 신호(102)는 전송 신호 생성기(103) 및 분석 프로세서(105)로 전달된다.

몇몇 실시예에서, 전송 신호 생성기(103)는 다중 채널 신호를 수신해서 결정된 수의 채널을 포함하는 적절한 전송 신호를 생성하고, 전송 신호(104)(MASA 전송 오디오 신호)를 출력하도록 구성된다. 예를 들어, 전송 신호 생성기(103)는 다중 채널 신호의 2-오디오 채널 다운믹스를 생성하도록 구성될 수 있다. 결정된 채널의 수는 임의의 적절한 채널의 수일 수 있다. 몇몇 실시예에서, 전송 신호 생성기는, 예를 들어 빔포밍 기술에 의해, 결정된 채널 개수의 입력 오디오 신호를 선택하거나 결합하고, 이들을 전송 신호로서 출력하도록 구성된다.

몇몇 실시예에서, 전송 신호 생성기(103)는 선택적인 것으로, 다중 채널 신호는 이 예에서의 전송 신호와 동일한 방식으로 처리되지 않은 상태로 인코더(107)로 전달된다.

몇몇 실시예에서, 분석 프로세서(105)는 또한 다중 채널 신호를 수신하고, 이 신호를 분석해서 다중 채널 신호와 연관된, 따라서 전송 신호(104)와 연관된 메타데이터(106)를 생성하도록 구성된다. 분석 프로세서(105)는, 각각의 시간-주파수 분석 구간에, 방향 파라미터(108), 에너지 비율 파라미터(110) 및 가간섭성 파라미터(112)(및 몇몇 실시예에서는 확산 파라미터)를 포함할 수 있는 메타데이터를 생성하도록 구성될 수 있다. 방향, 에너지 비율 및 가간섭성 파라미터는 몇몇 실시예에서 MASA 공간 오디오 파라미터(또는 MASA 메타데이터)로 간주될 수 있다. 바꾸어 말하면, 공간 음향 파라미터는 다중 채널 신호(또는 일반적으로 두 개 이상의 오디오 신호)에 의해 생성/캡처된 음장을 특성화하는 것을 목표로 하는 파라미터로 구성된다.

몇몇 실시예에서, 생성되는 파라미터는 주파수 대역마다 상이할 수 있다. 따라서, 예를 들어 대역 X에서는 모든 파라미터가 생성되어 전송되는 반면, 대역 Y에서는 파라미터 중 하나만 생성되어 전송되고, 더욱이 대역 Z에서는 파라미터가 생성되어 전송되지 않는다. 이것의 실제적인 예는, 가장 높은 대역과 같은 일부 주파수 대역의 경우, 일부 파라미터가 지각(perceptual)상의 이유로 필요하지 않은 것이다. MASA 전송 신호(104) 및 MASA 메타데이터(106)는 인코더(107)로 전달될 수 있다.

오디오 객체(128)는 처리를 위해 오디오 객체 분리기(122)로 전달될 수 있다. 다른 실시예에서, 오디오 객체 분리기(122)는 인코더(107)의 기능 내에 위치될 수 있다.

실시예에서, 오디오 객체 분리기(122)는 어떤 객체가 인코딩을 위해 다른 오디오 신호(예컨대, MASA 오디오 신호 스트림(104, 106))와 결합될 수 있는지, 및 어떤 오디오 객체가 오디오 객체 특정 인코딩으로서 인코딩될지를 결정하기 위해서, 입력 오디오 객체 스트림(128)을 분석하는 기능을 수행한다. 이에 관해, 도 3은 실시예에 따른 오디오 객체 분리기(122)를 보다 상세하게 나타낸다.

오디오 객체 분리기(122)는 MASA 전송 신호(102) 및 오디오 객체(128)를 수신할 수 있다. 도 3에서, 오디오 객체(128)는 오디오 객체 신호(1281) 및 오디오 객체 메타데이터(1282)로서 도시되어 있다.

오디오 객체 메타데이터(1282)는 적어도 오디오 객체 스트림 내의 각각의 오디오 객체에 대한 방향 파라미터를 포함할 수 있다. 오디오 객체 스트림(128)은 복수의 오디오 객체를 포함한다.

MASA 오디오 전송 신호(104) 및 오디오 객체 신호(1281)는 에너지 추정기(301)에 의해 수신될 수 있다.

실시예에서, 에너지 추정기(301)는 자신에게 제시된 각각의 오디오 신호 채널에 대한 오디오 프레임 기초 상의 에너지를 추정하도록 배치될 수 있다. 바꾸어 말하면, 에너지 추정기(301)는 각각의 MASA 전송 채널 신호 및 각각의 오디오 객체 채널 신호의 에너지를 추정하도록 구성될 수 있다. 일반적으로, 각각의 오디오 채널 신호 i에 대한 오디오 프레임 n의 에너지 E_t는 다음과 같이 표현될 수 있다.

여기서 t=0 내지 T-1은 오디오 프레임 n의 샘플이다.

에너지 추정기(301)의 출력, 채널 에너지(311)(채널 에너지는 MASA 전송 오디오 신호의 각각의 채널에 대한 에너지 및 오디오 객체 신호의 각각의 채널에 대한 에너지)는 시간적 평활기(302)로 전달될 수 있다.

실시예에서, 시간적 평활기(302)는 수신한 채널 에너지(311)에 (시간에 따라) 평활화 기능을 제공하도록 구성될 수 있다. 평활화 동작은 각각의 채널 에너지 신호 E_i에 대해 다음과 같이 표현될 수 있다.

여기서 는 오디오 프레임 n 및 오디오 채널 신호 i에 대한 평활 채널 에너지 신호이고, a는 평활화 계수며, a에 대한 일반적인 값은 0.8 영역의 값을 취할 수 있다.

몇몇 실시예에서, 위의 평활화 단계는 생략될 수 있다. 따라서, 이들 실시예에서, 후속 처리 단계에서 사용될 수 있는 것은 평활화된 오디오 채널 에너지 신호 가 아닌 오디오 채널 에너지 신호 E_i(n)이다.

그 후, 평활화된 오디오 채널 에너지 신호 (312)는 가장 큰(loudest) 선택기(303)로 전달될 수 있다. 가장 큰 선택기(303)는 오디오 프레임(n)에 대한 평활화된 오디오 채널 에너지 신호의 가장 큰 값을 갖는 오디오 객체를 선택하도록 배열될 수 있다. 즉, 모든 오디오 객체로부터 가장 큰 오디오 개체를 선택하도록 가장 큰 선택기를 구성할 수 있다. 가장 큰 평활화된 오디오 채널 신호(오디오 프레임 n에 대한)를 가진 오디오 객체는 명칭(moniker) i_loudest(n)(가장 큰 오디오 객체 인덱스(313))로 표시될 수 있다.

실시예에서, 가장 큰 오디오 객체 인덱스(313) i_loudest(n)는 오디오 객체 선택기(306) 및 비율 컴퓨터(304) 둘 다에 전달될 수 있다.

실시예에서, 비율 컴퓨터(304)는 또한 이전 오디오 프레임 i_seiected(n-1)(이전 선택된 오디오 객체 인덱스(317))으로부터 채널 에너지 E_i(n)(311) 및 선택된 오디오 객체 인덱스를 수신하도록 배치될 수 있다. 이전 선택된 오디오 객체 인덱스(317)는 이전 오디오 프레임(n-1)에 대한 오디오 객체 선택기(306)에 의해 결정된 오디오 객체 인덱스이다.

비율 컴퓨터(304)는 현재 오디오 프레임(n) 및 이전 오디오 프레임(n-1) 내의 총 채널 에너지에 대한 이전에 선택된 오디오 객체 및 가장 큰 오디오 객체의 에너지의 비율을 계산하도록 구성될 수 있다. 비율 컴퓨터(304)의 기술적 효과는, 선택되지 않은 오디오 객체와 MASA 오디오 신호의 조합이 이전에 선택된 오디오 객체 인덱스 i_seiected(n-1)(371)와 현재 오디오 프레임에 대한 가장 큰 객체 인덱스 i_loudest(n)(313) 사이의 트랜지션에 미칠 수 있는 마스킹 효과의 척도를 제공하는 메트릭으로서 정량화될 수 있다. 이 정보는 이후에 현재 오디오 프레임 n에 대해 분리된 오디오 객체(들)의 선택을 가이드하는 데 사용될 수 있다. 오디오 프레임 n에 대한 에너지 비율 메트릭 ξ(n)는 일부 실시예에서 다음과 같이 표현될 수 있다.

여기서 이전 오디오 프레임에 대해 계산된 이전 프레임에 대해 선택된 오디오 객체 신호의 에너지 E_{iselected(n-1)}(n-1) 및 현재 오디오 프레임에 대해 계산된 이전 프레임에 대한 선택된 오디오 객체 신호의 에너지 E_{iloudest(n-1)}(n)는 현재 오디오 프레임에 대해 선택된 가장 큰 오디오 객체의 에너지 E_iloudest(n)(현재 오디오 프레임에 대해 계산됨)이고, E_iloudest(n-1)는 현재 오디오 프레임에 대해 선택된(이전 오디오 프레임에 대해 계산된) 가장 큰 오디오 객체의 에너지이다. 항 은 이전 오디오 프레임으로부터의 MASA 및 모든 오디오 객체 신호의 에너지와 현재 오디오 프레임으로부터의 MASA 및 모든 오디오 객체 신호의 에너지의 합을 나타내며, M은 MASA 오디오 신호 및 오디오 객체 신호의 총 개수이다.

비율 컴퓨터(304)로부터의 출력, 에너지 비율 메트릭 ξ(n)(315)은 임계값 결정기(307)로 전달될 수 있다.

실시예에서, 임계값 결정기(307)는 적응적 임계값을 계산하도록 구성될 수 있으며, 그 기능은 오디오 객체 선택 과정을 연속적으로 가이드하는 것이다. 이를 달성하기 위해, 임계값 결정기(307)의 기능은, 에너지 비율 메트릭 ξ(n)(315)이 낮으면, 총 에너지가 MASA 오디오 신호에 의해 지배(dominated)된다는 것을 나타내는 원리를 따를 수 있다. 이러한 상황에서, 분리된 오디오 객체(또는 선택된 오디오 객체 인덱스)를 한 프레임으로부터 다음 프레임으로 변경한 결과 발생할 수 있는 모든 아티팩트는 적절하게 마스크된다고 가정할 수 있다. 이 경우, 오디오 객체의 에너지 레벨을 조금만 변경해도 현재 오디오 프레임의 새롭게 선택된 분리된 오디오 객체가 변경될 수 있도록, 임계값이 낮아야 한다. 그러나, 에너지 비율 메트릭(315)의 값이 높으면, 현재 가장 큰 오디오 객체가 전체 오디오 에너지를 지배할 것이라고 가정할 수 있다. 이는 전체 오디오 장면 내의 다른 오디오 신호(MASA 및 나머지 (분리되지 않은) 오디오 객체)는, 선택한 분리된 오디오 객체의 변경으로 인해 발생할 수 있는 아티팩트를 마스크하지 않는다는 것을 의미한다. 이 경우, 분리된 오디오 객체를 스위치하는 것은 바람직하지 않다. 이를 위해, 이전 프레임으로부터 선택된 분리된 오디오 객체가 현재 오디오 프레임에 대한 다른 오디오 객체로 스위치되어야 하는지 여부를 결정하기 위해, 다음과 같은 적응적 임계값 방정식이 사용될 수 있다. 현재 프레임에 대한 변경 임계값(선택된 분리된 오디오 객체를 변경할지 여부를 결정하기 위한) τ_change(n)(316)은 다음과 같이 주어질 수 있다.

여기서 a 및 b는 상수로의 예를 들어, a = 9 및 b = 1의 값을 갖는다. 이 특정 예에서, a 및 b에 대한 위의 값은 데시벨로 표시된다.

일단 변경 임계값(316)이 임계값 결정기(306)에 의해 계산되면, 추가 처리를 위해 오디오 객체 선택기(306)로 전달될 수 있다. 추가적으로, 오디오 객체 선택기(306)는 또한 가장 큰 오디오 객체 인덱스(313) 및 평활화된 채널 에너지 신호(312)를 수신하도록 구성될 수 있다. 오디오 객체 선택기(306)는 가장 큰 오디오 객체 인덱스 i_loudest(n)(313)를 사용해서 가장 큰 오디오 객체의 평활화된 에너지를 결정하도록 구성될 수 있고, 이는 오디오 프레임 n에 대해 E'_loudest(n)(n)로 표현될 수 있다. 오디오 객체 선택기(306)는 또한 이전 오디오 프레임으로부터 선택된 분리된 오디오 객체의 인덱스를 이용하여, 이전 오디오 프레임 n-1으로부터 선택된 분리된 오디오 객체의 평활화된 에너지를 계산할 수 있다. 이들 두 에너지는 현재 오디오 프레임에 대한 가장 큰 오디오 객체의 에너지 i_loudest(n)와 이전 프레임의 선택된 분리된 오디오 객체의 에너지 i_selected(n-1)의 비율로 표현될 수 있다. 바꾸어 말하면, 계산된 비율 r(n)은 다음과 같이 데시벨로 표현될 수 있다.

오디오 객체 선택기(306)는 계산된 비율 r(n)을 변경 임계값 τ_change(n)과 함께 사용해서 (현재 오디오 프레임에 대한) 분리된 오디오 객체가 이전 프레임의 선택된 분리된 오디오 객체 i_selected(n-1)로 남아 있는지 또는 분리된 오디오 객체가 가장 큰 오디오 객체 i_loudest(n)로 스위치되었어야 했는지 여부를 결정할 수 있고, 이로써 현재 오디오 프레임에 대해 선택된 분리된 오디오 객체가 된다. 실시예에서, 이러한 결정 단계는 다음과 같은 로직에 따라 수행될 수 있다.

r(n)>τ_change(n)인 경우, i_selected(n-1)=i_loudest(n)이다.

r(n)≤τ_change(n)인 경우, i_selected(n)=i_selected(n-1)이다.

현재 오디오 프레임(n)에 대한 선택된 분리된 오디오 객체 인덱스 i_seiected(n)(318)는 오디오 객체 선택기(306)의 출력이다.

실시예에서, 변경 방법 결정기(305)는, 오디오 객체 선택기(306)가 현재 오디오 프레임에 대해 선택된 분리된 오디오 객체에 변화가 있어야 한다고 결정하는 경우에, 선택된 분리된 오디오 객체가 하나의 프레임에서 다른 프레임으로 전환되는 방식을 결정하도록 배치될 수 있다.

변경 방법 결정기(305)는 에너지 비율 메트릭 ξ(n)(315)의 도움으로 분리된 오디오 객체의 스위치가 수행되는 방식을 결정할 수 있다. 예를 들어, 에너지 비율 메트릭 ξ(n)(315)이 낮으면, 다른 오디오 채널 신호는 선택된 분리된 오디오 객체에 대해 변경 사항을 마스크한다는 것을 의미한다. 이 경우, 오디오 프레임에 대해 선택한 분리된 오디오 객체를 변경하는 데 하드 스위치가 사용될 수 있다. 대안적으로, 에너지 비율 메트릭 ξ(n)(315)이 높으면, 선택된 오디오 객체의 스위칭 동안 채널 마스킹이 없다는 것(혹은 매우 적다는 것)을 의미할 것이다. 이러한 상황에서는 선택된 분리된 오디오 객체의 변경에 대해 보다 점진적인 방식을 사용하는 것이 더 바람직할 수 있다. 페이드 아웃 및 페이드 인(fading out and fading in) 방식, 즉 바꾸어 말하면 "fadeoutfadein"선택과 같은.

이러한 판정 단계는 에너지 비율 메트릭 ξ(n)((315)를 고정 임계값 τ_change과 비교해서 행해질 수 있다. 예를 들어, 이 결정은 다음과 같이 표현될 수 있다.

ξ(n)<τ_change인 경우, ζ(n)= hardswitch

ξ(n)≥τ_change인 경우, ζ(n)= fadeoutfadein

여기서 ζ(n)는 선택한 선택 방법인 변경 방법 식별자를 나타낸다. 실험 결과, 0.25 범위 내의 임계값 τ_change이 값이 바람직한 결과를 내는 것으로 나타났다.

변경 방법 결정기(307)로부터의 출력, 즉 변경 방법 식별자 ζ(n)(319)는 오디오 객체 분리기(308)에 대한 입력으로서 사용될 수 있다.

오디오 객체 분리기(308)는 선택된 분리된 오디오 객체 인덱스i_selected(n)(318)에 의해 표시된 선택된 분리된 오디오 객체를 오디오 객체 스트림으로부터 제거하도록 배치될 수 있다. 이를 위해, 오디오 객체 분리기는 도 3에 도시된 오디오 객체 스트림을 수신하도록 구성될 수 있는데, 이는 오디오 객체 스트림(128)의 오디오 객체에 대한 개별 오디오 객체 신호의 집합(각각의 오디오 객체마다 하나씩)(1281) 및 개별 오디오 객체 메타데이터 세트의 집합(각각의 오디오 객체마다 하나씩)(1282)을 포함하는 것으로 구성될 수 있다. 바꾸어 말하면, 각각의 오디오 객체는 오디오 객체 신호(또는 오디오 신호) 및 오디오 객체 메타데이터 세트를 포함한다. 오디오 객체 분리기(308)는 변경 방법 식별자(319) 및 선택된 개별 오디오 객체 인덱스(318)를 사용해서, 오디오 객체 스트림(128)으로부터 선택된 오디오 객체를 분리할 수 있다. 결과적으로, 이것은 나머지 오디오 객체 신호(1241) 및 오디오 객체 메타데이터 스트림(1242)을 포함하는 나머지 오디오 객체 스트림(124)을 생성할 수 있다. 바꾸어 말하면, 선택된 분리된 오디오 객체 신호 및 메타데이터 세트가 스트림(128)으로부터 제거되었을 때 오디오 객체 신호 및 메타데이터 세트가 남는다. 오디오 객체 분리기(308)는 또한 오디오 프레임(n)에 대한 분리된 오디오 객체 스트림(126)을 생성하도록 배치될 수 있다. 즉, 분리된 오디오 객체의 오디오 객체 신호(1261)와 분리된 오디오 객체의 메타데이터 세트(1262)이다.

제1 예에서, 오디오 객체 메타데이터 세트는 오디오 객체 i 및 프레임 n에 대한 방위각 θ_i(n) 및 고도 φ_i(n)를 포함할 수 있다.

실시예에서, 오디오 객체 분리기(308)는 다수의 동작 모드를 가질 수 있으며, 이는 변경 방법 식별자ζ(n)(319), 선택된 분리된 오디오 객체 인덱스 i_selected(n)(318) 및 이전 오디오 프레임(n-1)에 대한 선택된 분리된 오디오 객체 인덱스 i_selected(n-1)(317)와 같은 다양한 파라미터에 의존할 수 있다.

하나의 동작 시나리오로, 선택된 분리된 오디오 객체 인덱스 i_selected(n)(318) 및 이전 오디오 프레임 n-1에 대해 선택된 분리된 오디오 객체 인덱스 i_selected(n-1)(317)는 동일할 수 있으며, 바꾸어 말하면, 이전 오디오 프레임 n-1으로부터 현재 오디오 프레임 n으로 트랜지션할 때 분리된 오디오 객체는 스위치되지 않는다.

이 경우, 프레임 n에 대한 선택된 분리된 오디오 객체 신호 s_sep(t)는 이전 프레임의 선택된 분리된 오디오 객체 신호와 동일하게 유지된다. 다음과 같이 업데이트될 수 있다.

i_selected(n) = i_selected(n-1)인 경우에,

s_sep(n)(t) = s_iselected(t)이고, t = 0 내지 T-1임.

여기서 s(t)는, t = 0 에서 T-1까지 실행되는 오디오 프레임 n에 대한 오디오 객체 신호의 샘플이다.

이에 대응해서, 선택된 분리된 오디오 객체 메타데이터 세트, 예를 들어 방위각 및 고도각 θ, φ에 대해 업데이트 절차가 수행될 수 있다.

나머지 오디오 객체와 관련하여, 이들은 오디오 객체 i = i_selected를 제외한 모든 오디오 객체에 대해서, 각각의 오디오 객체 i에 대해 간단히 업데이트될 수 있다.

여기서 s_rem(t)은 오디오 객체 i에 대해 t=0 내지 T-1까지 실행되는 오디오 프레임 n에 대한 나머지 오디오 객체 신호의 샘플이다. 이것은 선택된 오디오 객체 (i = i_selected)를 제외한 각각의 오디오 객체 i에 대해 반복된다. 나머지 오디오 객체의 집합 내에서, 선택된 분리된 오디오 객체 신호에 대응하는 오디오 신호가 0으로 설정될 수 있다.

, t는 0 내지 T-1임.

다른 동작 시나리오로, 선택된 분리된 오디오 객체 인덱스 i_selected(n)(318) 및 이전 오디오 프레임 n-1에 대해 선택된 분리된 오디오 객체 인덱스 i_selected(n-1)(317)는 동일할 수 없으며, 바꾸어 말하면, 이전 오디오 프레임 n-1으로부터 현재 오디오 프레임 n으로 트랜지션할 때 분리된 오디오 객체는 스위치되어야 한다. 추가적으로, 변경 방법 식별자 ζ(n)(319)는 스위치가 하드 스위치임을 나타낼 수 있으며, 즉 ζ(n)=하드 스위치이다.

이 경우, 프레임 n에 대한 선택된 분리된 오디오 객체 신호 s_sep(t)는 선택된 분리된 오디오 객체 인덱스 i_selected(n)에 대응하는 오디오 객체 신호로 설정될 수 있다.

i_selected(n)≠_selected(n-1)인 경우에, 프레임 n에 대한 s_step(t)는

s_step(t)=S_iselected(n)(t)로 업데이트될 수 있고, t는 0 내지 T-1이다.

이에 따라 프레임 n에 대한 분리된 오디오 객체 메타데이터 세트는 다음과 같이 업데이트될 수 있다.

위와 같이, 나머지 오디오 객체와 관련하여, 이들은 오디오 객체 i= i_selected를 제외한 모든 오디오 객체에 대해서, 각각의 오디오 객체 i에 대해 간단히 업데이트될 수 있다.

여기서 s_rem(t)은 오디오 객체 i에 대해 t=0 내지 T-1까지 실행되는 오디오 프레임 n에 대한 나머지 오디오 객체 신호의 샘플이다. 이것은 선택된 오디오 객체를 제외한 각각의 오디오 객체 i에 대해 반복된다. 위와 같이, 나머지 오디오 객체의 집합 내에서, 선택된 분리된 오디오 객체 신호에 대응하는 오디오 신호가 또한 0으로 설정될 수 있다.

, t는 0 내지 T-1임.

나머지 오디오 객체 메타데이터 세트는 다음과 같이 업데이트될 수 있다.

오디오 객체 i= i_selected(n)를 제외한 모든 오디오 객체 i에 대한 것이다.

또 다른 동작 시나리오로, 선택된 분리된 오디오 객체 인덱스 i_selected(n)(318) 및 이전 오디오 프레임 n-1에 대해 선택된 분리된 오디오 객체 인덱스 i_selected(n-1)(317)는 위와 동일할 수 없으며, 바꾸어 말하면, 이전 오디오 프레임 n-1으로부터 현재 오디오 프레임 n으로 트랜지션할 때 분리된 오디오 객체는 스위치되어야 한다. 그러나, 이 경우, 변경 방법 식별자 ζ(n)(319)는 스위치가 선택된 분리된 오디오 객체의 전환에 대한 페이드 아웃 및 페이드 인 스위치일 수 있음을, 즉 ζ(n)= fadeoutfadein임을 나타낼 수 있다.

이러한 특정 동작 시나리오에서, 오디오 객체 분리기(308)는 이전에 선택된 분리된 오디오 객체를 분리된 오디오 객체 신호 S_sep(t)로부터 초기에 페이드 아웃하고, 또한 이전에 선택된 오디오 객체를 나머지 오디오 객체 신호의 집합 s_rem,i(t)으로 다시 페이드 인하도록 배치될 수 있다. 이는 오디오 객체 신호 s(t)의 잠재적인 불연속성을 피할 수 있는 장점이 있다. 또한, 페이드 아웃 및 페이드 인 프로세스는 오디오 객체 메타데이터의 보간을 수행할 필요가 없다는 추가적인 이점이 있다.

실시예에서, 이전 오디오 프레임 n-1으로부터 선택된 분리된 오디오 객체 신호는, 오디오 프레임의 길이에 걸쳐서 분리된 오디오 객체 신호 s_sep(t)의 샘플에 경사 윈도우 함수 w_fadeout를 적용함으로써, 분리된 오디오 객체 신호 s_sep(t)로부터 페이드 아웃될 수 있다. 예를 들어, 현재 프레임 n에 대한 분리된 오디오 객체 신호는 다음과 같이 주어질 수 있다.

, t는 0 내지 T-1임.

시간 샘플 0 내지 T-1은 길이가 T인 현재 오디오 프레임 n의 샘플이다. 여기서, S_{iselected(n-1)}(t)는 이전 오디오 시간 프레임 n-1으로부터 선택된 분리된 오디오 객체 신호이다.

실시예에서, 분리된 오디오 객체 신호의 샘플에 적용되는 페이드 아웃 윈도우의 형상은, 다음에 주어진 바와 같이, Hann 윈도우 함수의 후반부의 형태를 취할 수 있다.

오디오 객체 메타데이터의 관점에서, 현재 오디오 프레임 n에 대한 분리된 오디오 객체 메타데이터는 위와 동일한 절차를 따르고 다음과 같이 설정될 수 있다.

상술한 바와 같이, 이전 프레임 S_{iselected(n-1)}에 대해 선택된 분리된 오디오 객체 신호는 현재 오디오 프레임 n, s_rem,i(t)에 대한 나머지 오디오 객체 신호의 집합에 페이드 인(또는 페이즈 인(phased in))될 수 있다. 실시예에서, 이는, 현재 프레임 n의 길이에 대해서, 이전 프레임 S_{iselected(n-1)}에 대해 선택된 분리된 오디오 객체 신호의 샘플에 대해 페이드 인 윈도우 기능을 적용함으로써 수행될 수 있다. 나머지 오디오 객체 신호에 대한 이러한 페이드 인 처리는 다음과 같이 표현될 수 있다.

, t는 0 내지 T-1임.

실시예에서, 분리된 오디오 객체 신호의 샘플에 적용되는 페이드 인 윈도우의 형상은, 다음에 주어진 바와 같이, Hann 윈도우 함수의 후반부의 반전 형태를 취할 수 있다.

위와 같이 다른 나머지 나머지 오디오 객체 신호는 이에 따라서, 이전 오디오 프레임으로부터의 동일한 오디오 객체 신호가 되도록 업데이트되며,

(t는 0 내지 T-1임)

이고, 오디오 객체 i= i_selected(n-1)를 제외한 모든 오디오 객체 i에 대한 것이다.

마찬가지로, 나머지 오디오 객체에 대한 오디오 객체 메타데이터 세트도 유사한 방식으로 업데이트될 수 있다.

다음 오디오 프레임 동안, 현재 선택된 분리된 오디오 객체 신호 S_iselected(n)(t)는 오디오 프레임의 과정 동안 나머지 오디오 객체 신호 s_rem,i(t)로부터 페이드 아웃(또는 페이즈 아웃)된다. 또한, 오디오 프레임 동안, 현재 선택된 분리된 오디오 객체 신호는 분리된 오디오 객체 신호 s_sep(t)로 페이드 인될 수 있다.

실시예에서, 다음 오디오 프레임 동안에 나머지 오디오 객체 신호의 집합으로부터 현재 선택된 분리된 오디오 객체 신호를 제거하는 것은 다음과 같이 표현될 수 있다.

, t는 0 내지 T-1임

다른 나머지 오디오 객체 신호는 이전 오디오 프레임으로부터의 오디오 객체 신호를 단순히 유지함으로써 업데이트될 수 있다. 즉,

, t는 0 내지 T-1임

오디오 객체 i = i_selected(n)를 제외한 모든 오디오 객체 i에 대한 것이다.

현재 선택된 분리된 오디오 객체 신호의 페이드 인이 분리된 오디오 객체 신호 s_sep(t)로 페이드 인되는 것은 다음과 같이 표현될 수 있다.

, t는 0 내지 T-1임

또한, 다음에 대한 나머지 오디오 객체 신호.

이 "다음" 오디오 프레임 n+1에 대한 분리된 오디오 객체 메타데이터 세트의 관점에서, 선택된 분리된 오디오 객체 메타데이터 세트(인덱스 또는 식별자)는 동일하게 유지되며, 즉 i_selected(n)이다. 그러나, 오디오 객체 메타데이터 세트의 값은 다음 오디오 프레임 n+1에 대해서 선택된 분리된 오디오 객체 i_selected(n)에 대한 메타데이터의 값을 갖도록 업데이트될 수 있다. 이는 다음과 같이 표현될 수 있다.

유사하게, "다음" 오디오 프레임 n+1에 대한 나머지 오디오 객체 메타데이터 세트의 집합은 동일한 오디오 객체 멤버를 가짐으로써 유지될 수 있고, 즉 모든 오디오 객체 인덱스 i는 이전 프레임과 동일하게 이 프레임을 유지함으로써 유지될 수 있다. 그러나 오디오 객체 메타데이터 세트의 값은 다음 오디오 프레임의 값으로 업데이트된다. 이는 오디오 객체 i= i_selected(n)를 제외한 모든 오디오 객체 i에 대해 다음과 같이 표현될 수 있다.

상술한 바와 같이, 오디오 객체 분리기(122)로부터의 출력은 124개의 나머지 오디오 객체 신호(1241) 및 오디오 객체 메타데이터 스트림(1242)을 포함하는 나머지 오디오 객체를 포함할 수 있다. 출력은 분리된 오디오 객체의 오디오 전송 신호(오디오 객체 신호)(1261) 및 분리된 오디오 객체의 메타데이터 세트(1262)를 포함하는 분리된 오디오 객체(126)를 더 포함할 수 있다.

도 1로 돌아가서, 분리된 오디오 객체(126)는 인코더(107) 내의 전용 오디오 객체 인코더(121)로 전달될 수 있다. 오디오 객체 인코더(121)는 구체적으로 오디오 객체를 인코딩하도록 배치될 수 있다. 오디오 객체 인코더(121)로부터의 출력은 인코딩된 분리된 오디오 객체(117)일 수 있다.

한편, 나머지 오디오 객체 스트림(124)은 (인코더(107) 내에서) 결합된 인코더 코어(109)로 전달될 수 있으며, 이로써 나머지 오디오 객체 스트림은 MASA 전송 오디오 신호(104) 및 메타데이터(106)와 함께 인코딩될 수 있다.

결합된 인코더 코어(109)는, MASA 전송 오디오(예를 들어, 다운믹스) 신호(104) 및 나머지 오디오 객체 신호(1241)를 수신해서, 인코딩된 전송 오디오 신호(115)로서 이들 오디오 신호의 적절한 인코딩을 생성하도록 구성될 수 있다. 결합된 인코더 코어(109)는 또한, MASA 메타데이터(106) 및 나머지 오디오 객체 메타데이터(1241)를 수신하고, 인코딩된 메타데이터(116)로서 정보의 인코딩된 형태 또는 압축된 형태를 출력하도록 구성될 수 있는 공간 파라미터 세트 인코더를 포함할 수 있다.

실시예에서, 결합된 인코더 코어(109)는, MASA 전송 오디오(예를 들어, 다운믹스) 신호(104) 및 나머지 오디오 객체 신호(1241)를 수신할 수 있다. 결합된 인코더 코어(109) 내에서, 예를 들어 스테레오로의 다운믹싱함으로써 객체 전송 오디오 신호가 생성될 수 있다. 이후, 이들 객체 전송 오디오 신호는 MASA 전송 오디오 신호와 함께 믹스되어서, 인코딩을 위해, 결합된 전송 오디오 신호 세트(예를 들어, 스테레오 신호)가 된다. 결합된 전송 오디오 신호의 인코딩은 인코더에 의해 수행될 수 있으며, 그 예에는 3GPP 강화된 음성 서비스(Enhanced Voice Service) 코덱 또는 MPEG 향상된 오디오 코텍(Advanced Audio Codec)을 포함할 수 있다.

인코더(107)는 몇몇 실시예에서 컴퓨터 또는 이동 장치일 수도 있고(메모리 및 적어도 하나의 프로세서에 저장된 적절한 소프트웨어를 실행하는), 또는 대안적으로 예를 들어 FPGA 또는 ASIC를 이용하는 특정 디바이스일 수도 있다. 이 인코딩은 임의의 적절한 방식을 사용해서 구현될 수 있다. 몇몇 실시예에서, 도 1에 점선으로 도시된 바와 같이, 인코더(107)는 전송 혹은 저장 이전에 인코딩된 결합된 메타데이터, 인코딩된 결합된 오디오 전송 신호, 인코딩된 분리된 오디오 객체 메타데이터, 인코딩된 분리된 오디오 객체 신호를 인터리브하거나, 단일 데이터 스트림으로 멀티플렉스하거나 또는 임베드할 수 있다. 이 멀티플렉싱은 임의의 적절한 방식을 사용해서 구현될 수 있다.

따라서 요약하면 먼저 시스템(분석 부분)은 다중 채널 오디오 신호를 수신하도록 구성된다.

이후, 시스템(분석 부분)은 적절한 전송 오디오 신호(예를 들어, 일부 오디오 신호 채널을 선택 또는 다운믹스함으로써)와 공간 오디오 파라미터를 메타데이터로서 생성하도록 구성된다.

이후, 시스템은 전송 신호 및 메타데이터를 저장/전송하기 위해 인코딩하도록 구성된다.

이후에, 시스템은 인코딩된 전송 및 메타데이터를 저장/전송할 수 있다.

도 1에서, 분석 부분(분석 프로세서(105), 전송 신호 생성기(103) 및 오디오 객체 분리기(122))은 인코더(107)에 결합되는 것으로 도시되어 있다. 그러나, 일부 실시예는 분석 부분이 인코더(107)와 상이한 장치 상에 존재할 수 있도록 이들 2개의 각각의 처리 엔티티를 그렇게 긴밀하게 결합하지 않을 수도 있다는 것을 이해해야 한다. 결과적으로, 인코더(107)를 포함하는 디바이스에는, 캡쳐 및 분석의 프로세스로부터 독립적으로 처리 및 인코딩을 위한 전송 신호 및 메타데이터 스트림이 제공될 수 있다.

도 2와 관련하여, 멀티채널 입력 신호의 처리를 위한 예시적인 분석 프로세서(105)가 더 상세하게 도시되어 있다. 도 2는 MASA 메타데이터 및 MASA 전송 오디오 신호를 생성하기 위한 처리 및 분석을 제공하는 맥락에서 도시된 것이다.

몇몇 실시예에서, 분석 프로세서(105)는 시간-주파수 도메인 변환기(201)를 포함한다.

몇몇 실시예에서, 시간-주파수 도메인 변환기(201)는 다중 채널 신호(102)를 수신하고, 입력 시간 도메인 신호를 적절한 시간-주파수 신호로 변환하기 위해 STFT(Short Time Fourier Transform)와 같은 주파수 도메인 변환에 적절한 시간을 적용하도록 구성된다. 이들 시간-주파수 신호는 공간 분석기(203)로 전달될 수 있다.

따라서, 예를 들어, 시간-주파수 신호(202)는 시간-주파수 도메인 표현에서

S(b,n,i)

로 표현될 수 있으며, 여기서 b는 주파수 빈 인덱스이고, n은 시간-주파수 블록(프레임) 인덱스이고, i는 채널 인덱스이다. 다른 표현식에서, n은 원래의 시간 도메인 신호보다 더 낮은 샘플링 레이트를 갖는 시간 인덱스로서 간주될 수 있다. 이러한 주파수 빈은 서브 대역으로 그룹화되어서, 하나 이상의 빈을 대역 인덱스 k=0,..., K-1의 서브 대역으로 그룹화할 수 있다. 각각의 서브 대역 k는 가장 낮은 빈 b_k,low와 가장 높은 빈 b_k,high를 가지며, 서브 대역은 b_k,low으로부터 b_k,high까지의 모든 빈을 포함한다. 서브 대역의 폭은 임의의 적절한 분포를 근사화할 수 있다. 예를 들어, ERB(Equivalent Rectangular Bandwidth) 척도 또는 Bark 척도가 있다.

따라서 시간 주파수(TF) 타일(n,k)(또는 블록)은 프레임 n의 서브프레임 내의 특정 하위 대역 k이다.

공간 오디오 파라미터를 표현하는 데 필요한 비트의 수는 적어도 부분적으로 TF(시간-주파수) 타일 해상도(즉, TF 서브프레임 또는 타일의 수)에 의존할 수 있다는 것을 알 수 있다. 예를 들어, "MASA" 입력 다중 채널 오디오 신호에 대하여, 20ms 오디오 프레임은 조각당 5ms의 4개의 시간-도메인 서브프레임으로 분할될 수 있고, 각각의 시간-도메인 서브프레임은 바크(Bark) 스케일에 따라서, 그 근사치에 따라서, 또는 임의의 다른 적절한 분할에 따라서 주파수 영역에서 분할된 최대 24개까지의 주파수 서브대역을 가질 수 있다. 이 특정 예에서, 오디오 프레임은 96개의 TF 서브프레임/타일, 바꾸어 말하면 24개의 주파수 서브대역을 갖는 4개의 시간-도메인 서브프레임으로 분할될 수 있다. 따라서, 오디오 프레임에 대한 공간 오디오 파라미터를 나타내는 데 필요한 비트 수는 TF 타일 해상도에 따라 달라질 수 있다. 예를 들어, 각각의 TF 타일이 위의 표 1의 분포에 따라 인코딩되는 경우, 각각의 TF 타일에는 음원 방향당 64 비트가 필요하다. TF 타일당 음원 방향이 2개인 경우, 두 방향의 전체를 인코딩하기 위해서는 2x64비트가 필요하다. 음원이라는 용어를 사용하는 것이, TF 타일에서 전파되는 소리의 주요 방향(dominant directions)을 나타낼 수 있다는 점에 주의한다.

실시예에서, 분석 프로세서(105)는 공간 분석기(203)를 포함할 수 있다. 공간 분석기(203)는 시간-주파수 신호(202)를 수신하도록 구성될 수 있고, 이러한 신호에 기초하여 방향 파라미터(108)를 추정할 수 있다. 방향 파라미터는 임의의 오디오 기반 '방향' 결정에 기초하여 결정될 수 있다.

예를 들어, 몇몇 실시예에서, 공간 분석기(203)는 2개 이상의 신호 입력로 음원의 방향을 추정하도록 구성된다.

따라서, 공간 분석기(203)는 방위각 φ_MAXA(k, n) 및 고도 θ_MASA(k, n)로 표시된 오디오 신호의 프레임 내에서 각각의 주파수 대역 및 시간-주파수 블록에 대해 적어도 하나의 방위각 및 고도를 제공하도록 구성될 수 있다. 시간 서브 프레임에 대한 방향 파라미터(108)는 인코딩 및 양자화를 위해 MASA 공간 파라미터 세트(메타데이터) 세트 인코더(111)로 전달될 수 있다.

공간 분석기(203)는 또한 에너지 비율 파라미터(110)를 결정하도록 구성될 수 있다. 에너지 비율은, 한 방향으로부터 도달하는 것으로 간주될 수 있는 오디오 신호의 에너지를 결정하는 것으로 간주될 수 있다. 직접 에너지 대 총 에너지 비율 r_MASA(k,n)은 예를 들어, 방향 추정치의 안정성 측정을 사용하거나, 혹은 임의의 상관 측정, 또는 비율 파라미터를 획득하기 위한 임의의 다른 적절한 방법을 사용하여 추정될 수 있다. 각각의 직접 에너지 대 총 에너지 비율은 특정 공간 방향에 대응하며, 총 에너지에 비한 특정 공간 방향으로부터 오는 에너지의 양을 나타낸다. 이 값은 각각의 시간-주파수 타일에 대해 개별적으로 표시될 수도 있다. 공간 방향 파라미터 및 직접 에너지 대 총 에너지 비율은, 각각의 시간-주파수 타일의 총 에너지 중 얼만큼이 특정 방향으로부터 오는지를 나타낸다. 일반적으로, 공간 방향 파라미터는 DOA(Direction of Arrival)로도 생각할 수 있다.

일반적으로, 다중 채널 캡쳐된 마이크 어레이 신호에 대한 직접 에너지 대 총 에너지 비율 파라미터는 대역 k에서의 마이크 쌍 사이의 정규화된 상호 상관 파라미터 cor'(k, n)에 기초하여 추정될 수 있고, 교차-상관 파라미터의 값은 -1과 1 사이에 있다. 직접 에너지 대 총 에너지 비율 파라미터 r(k, n)는 정규화된 교차 상관 파라미터를 확산 필드 정규화된 상호 상관 파라미터 cor'_D(k, n)와 비교함으로써 결정될 수 있으며,와 같다. 직접 에너지 대 총 에너지 비율은 PCT 공개 WO2017/005978에 개시되어 있으며, 이는 본원에 참조로서 포함된다.

다중 채널 입력 오디오 신호의 경우, 직접 에너지 대 총 에너지 비율 파라미터 r_MASA(k, n) 비율은 인코딩 및 양자화를 위해 MASA 공간 파라미터 세트(메타데이터) 세트 인코더(111)로 전달될 수 있다.

공간 분석기(203)는 또한 다수의 가간섭성 파라미터(112)(다중 채널 신호(102)에 대하여)를 결정하도록 구성될 수 있으며, 이는 서라운딩 가간섭성 (γ_MASA(k,n)) 및 확산 가간섭성(ζ_MASA(k,n))을 포함할 수 있으며, 이들은 모두 시간 주파수 도메인에서 분석된다.

공간 분석기(203)는 결정된 가간섭성 파라미터 및 확산 가간섭성 파라미터(ζ_MASA) 및 서라운딩 가간섭성 파라미터(γ_MASA)를 인코딩 및 양자화를 위한 MASA 공간 파라미터 세트(메타데이터) 세트 인코더(111)로 출력하도록 구성될 수 있다.

따라서 각각의 TF 타일에 대해, 각각의 음원 방향과 연관된 MASA 공간 오디오 파라미터의 집합이 있다. 이 경우 각각의 TF 타일은 음원 방향별로 다음과 같은 오디오 공간 파라미터를 가질 수 있다; 방위각 φ_MAXA(k, n) 및 고도 θ_MASA(k, n)로 표시된 방위각 및 고도, 확산 가간섭성 파라미터(γ_MASA(k, n)) 및 직접 에너지 대 총 에너지 비율 파라미터 r_MASA(k, n). 나아가, 각각의 TF 타일은 음원 방향 별로 할당되지 않는 서라운드 가간섭성 (ζ_MASA(k,n))을 가질 수도 있다.

분석 프로세서(105)에 의해 수행되는 처리와 유사한 방식으로, 결합된 인코더 코어(109) 내의 오디오 객체 분석기 및 오디오 객체 인코더(121) 내의 오디오 객체 분석기는 이들의 각각의 입력 오디오 객체 스트림을 분석하여 각각

S_obj(b, n, i)

로 표시될 수 있는 오디오 객체 시간 주파수 도메인 신호를 생성할 수 있다.

여기서, b는 주파수 빈 인덱스이고, n은 시간-주파수 블록(TF 타일)(프레임) 인덱스이고, i는 채널 인덱스이다. 오디오 객체 시간 주파수 도메인 신호의 해상도는 대응하는 MASA 시간 주파수 도메인 신호와 동일할 수 있으며, 따라서 두 세트의 신호는 시간 및 주파수 해상도의 관점에서 정렬될 수 있다. 예를 들어, 오디오 객체 시간 주파수 영역 신호 S_obj(b, n, i)는 TF 타일 기반으로 동일한 시간 분해능을 가질 수 있고, 주파수 빈 b은 MASA 시간 주파수 영역 신호에 대해 배치된 것과 동일한 서브 대역 k의 패턴으로 그룹화될 수 있다. 바꾸어 말하면, 오디오 객체 시간 주파수 영역 신호의 각각의 서브 대역 k은 가장 낮은 빈 b_k,low 및 가장 높은 빈 b_k,high를 가질 수 있으며, 서브 대역 k는 b_k,low부터 b_k,high까지의 모든 빈을 포함한다.

오디오 객체 시간 주파수 도메인 신호는 오디오 객체 신호(1281)(도 3)로 명명될 수도 있고, MASA 시간 주파수 도메인 신호는 도 1에서 MASA 전송 오디오 신호(104)로 명명될 수도 있다.

도 4와 관련하여, 분석 또는 합성 디바이스로서 사용될 수 있는 예시적인 전자 디바이스가 도시되어 있다. 이 디바이스는 임의의 적절한 전자 디바이스 또는 장치일 수 있다. 예를 들어, 몇몇 실시예에서, 디바이스(1400)는 모바일 디바이스, 사용자 장비, 태블릿 컴퓨터, 컴퓨터, 오디오 재생 장치 등이다.

몇몇 실시예에서, 디바이스(1400)는 적어도 하나의 프로세서 또는 중앙 처리 유닛(1407)을 포함한다. 프로세서(1407)는 본원에 기술된 것과 같은 방법과 같은 다양한 프로그램 코드를 실행하도록 구성될 수 있다.

몇몇 실시예에서, 디바이스(1400)는 메모리(1411)를 포함한다. 몇몇 실시예에서, 적어도 하나의 프로세서(1407)는 메모리(1411)에 결합된다. 메모리(1411)는 임의의 적합한 저장 수단일 수 있다. 몇몇 실시예에서, 메모리(1411)는 프로세서(1407)에서 구현 가능한 프로그램 코드를 저장하기 위한 프로그램 코드 섹션을 포함한다 또한, 몇몇 실시예에서 메모리(1411)는 데이터(예를 들어 본원에 기술된 실시예에 따라 처리되었거나 처리될 데이터)를 저장하기 위한 저장 데이터 섹션을 더 포함할 수 있다. 프로그램 코드 섹션 내에 저장된 구현된 프로그램 코드 및 저장된 데이터 섹션 내에 저장된 데이터는 메모리-프로세서 결합을 통해 필요할 때마다 프로세서(1407)에 의해 취득될 수 있다.

몇몇 실시예에서 디바이스(1400)는 사용자 인터페이스(1405)를 포함한다. 사용자 인터페이스(1405)는 몇몇 실시예에서 프로세서(1407)에 결합될 수 있다. 몇몇 실시예에서 프로세서(1407)는 사용자 인터페이스(1405)의 동작을 제어하고 사용자 인터페이스(1405)로부터 입력을 수신할 수 있다. 몇몇 실시예에서, 사용자 인터페이스(1405)는 사용자가 예를 들어 키패드를 통해 디바이스(1400)에 커맨드를 입력하게 할 수 있다. 몇몇 실시예에서 사용자 인터페이스(1405)는 사용자가 디바이스(1400)로부터 정보를 획득하게 할 수 있다. 예를 들어, 사용자 인터페이스(1405)는 디바이스(1400)로부터의 정보를 사용자에게 디스플레이하도록 구성된 디스플레이를 포함할 수 있다. 사용자 인터페이스(1405)는 몇몇 실시예에서 정보가 디바이스(1400)에 입력될 수 있게 하고 추가로 디바이스(1400)의 사용자에게 정보를 디스플레이할 수 있는 터치 스크린 또는 터치 인터페이스를 포함할 수 있다. 몇몇 실시예에서 사용자 인터페이스(1405)는 본원에 설명된 바와 같이 위치 결정기와 통신하기 위한 사용자 인터페이스일 수 있다.

몇몇 실시예에서 디바이스(1400)는 입력/출력 포트(1409)를 포함한다. 몇몇 실시예에서 입력/출력 포트(1409)는 송수신기를 포함한다. 이러한 실시예에서 송수신기는 프로세서(1407)에 결합될 수 있고, 예를 들어 무선 통신 네트워크를 통해 다른 장치 또는 전자 디바이스와 통신할 수 있도록 구성될 수 있다. 송수신기 또는 임의의 적합한 송수신기 또는 송신기 및/또는 수신기 수단은 몇몇 실시예에서 와이어 또는 유선 결합을 통해 다른 전자 디바이스 또는 장치와 통신하도록 구성될 수 있다.

송수신기는 임의의 적절한 알려진 통신 프로토콜에 의해 추가 장치와 통신할 수 있다. 예를 들어 몇몇 실시예에서 송수신기는 적절한 UMTS(universal mobile telecommunications system) 프로토콜, 예를 들어 IEEE 802.X와 같은 무선 근거리 통신망(wireless local area network, WLAN) 프로토콜, Bluetooth와 같은 적절한 단거리 무선 주파수 통신 프로토콜, 또는 적외선 데이터 통신 경로(infrared data communication pathway, IRDA)를 사용할 수 있다.

송수신기 입력/출력 포트(1409)는 적절한 코드를 실행하는 프로세서(1407)를 사용하여 본원에 기술된 바와 같이 신호를 수신하고 몇몇 실시예에서 파라미터를 결정하도록 구성될 수 있다. 또한, 디바이스는 합성 디바이스로 전송될 적절한 다운믹스 신호 및 파라미터 출력을 생성할 수 있다.

몇몇 실시예에서 디바이스(1400)는 합성 디바이스의 적어도 일부로서 채용될 수 있다. 이와 같이 입력/출력 포트(1409)는 다운믹스 신호 및 몇몇 실시예에서 본원에 기술된 캡처 디바이스 또는 프로세싱 디바이스에서 결정된 파라미터를 수신하고 적절한 코드를 실행하는 프로세서(1407)를 사용하여 적절한 오디오 신호 포맷 출력을 생성하도록 구성될 수 있다.

입력/출력 포트(1409)는 예를 들어 다중 채널 스피커 시스템 및/또는 헤드폰 등에 대한 임의의 적합한 오디오 출력에 결합될 수 있다.

일반적으로, 본 발명의 다양한 실시예는 하드웨어 또는 특수 목적 회로, 소프트웨어, 로직 또는 이들의 조합으로 구현될 수 있다. 예를 들어, 일부 양태는 하드웨어로 구현될 수 있는 반면, 다른 양태는 컨트롤러, 마이크로프로세서 또는 다른 컴퓨팅 디바이스에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수 있지만, 본 발명은 이에 제한되지 않는다. 본 발명의 다양한 양태가 블록도, 흐름도 또는 일부 다른 도식적 표현을 사용하여 예시 및 설명될 수 있지만, 본원에 설명된 이러한 블록, 장치, 시스템, 기술 또는 방법은 비제한적인 예, 하드웨어, 소프트웨어, 펌웨어, 특수 목적 회로 또는 로직, 범용 하드웨어 또는 컨트롤러 또는 기타 컴퓨팅 디바이스, 또는 이들의 일부 조합으로 구현될 수 있다.

본 발명의 실시예는 프로세서 엔티티와 같은 모바일 디바이스의 데이터 프로세서에 의해 실행 가능한 컴퓨터 소프트웨어에 의해, 또는 하드웨어에 의해, 또는 소프트웨어와 하드웨어의 조합에 의해 구현될 수 있다. 또한 이와 관련하여 도면에서와 같은 논리 흐름의 임의의 블록은 프로그램 단계, 또는 상호 연결된 논리 회로, 블록 및 기능, 또는 프로그램 단계와 논리 회로, 블록 및 기능의 조합을 나타낼 수 있음에 유의해야 한다. 소프트웨어는 메모리 칩 또는 프로세서 내에 구현된 메모리 블록과 같은 물리적 매체, 하드 디스크 또는 플로피 디스크와 같은 자기 매체, 예를 들어 DVD 및 이들의 데이터 변형인 CD와 같은 광학 매체 상에 저장될 수 있다.

메모리는 로컬 기술 환경에 적합한 임의의 유형일 수 있으며, 반도체 기반 메모리 디바이스, 자기 메모리 디바이스 및 시스템, 광학 메모리 디바이스 및 시스템, 고정 메모리 및 착탈식 메모리와 같은 임의의 적합한 데이터 저장 기술을 사용하여 구현될 수 있다. 데이터 프로세서는 로컬 기술 환경에 적합한 모든 유형일 수 있으며, 범용 컴퓨터, 특수 목적 컴퓨터, 마이크로프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 게이트 레벨 회로 및 비제한적 예로서 멀티 코어 프로세서 아키텍처에 기반한 프로세서중 하나 이상을 포함할 수 있다.

본 발명의 실시예는 집적 회로 모듈과 같은 다양한 컴포넌트에서 실시될 수 있다. 집적 회로의 설계는 대체로 고도로 자동화된 프로세스이다. 복잡하고 강력한 소프트웨어 도구를 사용하여 로직 레벨 설계를 반도체 기판에 식각 및 형성하도록 준비가 된 반도체 회로 설계로 변환할 수 있다.

프로그램은 미리 저장된 설계 모듈의 라이브러리뿐만 아니라 잘 확립된 설계 규칙을 사용하여 도체를 라우팅하고 반도체 칩에서 컴포넌트를 배치할 수 있다. 반도체 회로에 대한 설계가 완료되면 결과 설계는 표준화된 전자 포맷으로 반도체 제조 시설 또는 제조를 위한 "팹(fab)"으로 전송될 수 있다.

전술한 설명은 본 발명의 예시적인 실시예의 완전하고 유익한 설명을 예시적이고 비제한적인 예로서 제공하였다. 그러나, 첨부된 도면 및 첨부된 청구범위와 함께 읽을 때, 전술한 설명의 관점에서 관련 기술 분야의 숙련자에게 다양한 수정 및 적응이 명백해질 수 있다. 그러나, 본 발명의 가르침에 대한 그러한 모든 유사한 변형은 여전히 첨부된 청구범위에 정의된 바와 같이 본 발명의 범위 내에 속할 것이다.

Claims

공간 오디오 신호 인코딩 방법으로서,
오디오 프레임의 복수의 오디오 객체로부터 분리할 오디오 객체를 결정하는 단계와,
상기 복수의 오디오 객체로부터 분리할 상기 오디오 객체를 분리하여, 분리된 오디오 객체 및 적어도 하나의 나머지 오디오 객체를 제공하는 단계와,
상기 분리된 오디오 객체를 오디오 객체 인코더로 인코딩하는 단계와,
상기 적어도 하나의 나머지 오디오 객체를 다른 입력 오디오 포맷과 함께 인코딩하는 단계
를 포함하는 공간 오디오 신호 인코딩 방법.
제1항에 있어서,
상기 복수의 오디오 객체의 각각의 오디오 객체는 오디오 객체 신호 및 오디오 객체 메타데이터를 포함하고, 상기 오디오 프레임의 상기 복수의 오디오 객체로부터 분리할 오디오 객체를 결정하는 단계는,
상기 오디오 프레임에 걸친 상기 복수의 오디오 객체 신호 각각의 에너지를 결정하는 단계와,
상기 오디오 프레임에 걸친 상기 다른 입력 오디오 포맷의 적어도 하나의 오디오 신호의 에너지를 결정하는 단계와,
상기 복수의 오디오 객체 신호의 상기 에너지로부터 가장 큰 에너지를 선택함으로써 가장 큰 에너지를 결정하는 단계와,
에너지 비율 인자를 결정하는 단계와,
상기 에너지 비율 인자에 따라서 상기 오디오 프레임에 대한 임계값을 결정하는 단계와,
상기 가장 큰 에너지 대 상기 오디오 프레임에 걸쳐서 계산된 이전 오디오 프레임에 대해서 분리된 오디오 객체의 에너지의 비율을 결정하는 단계와,
상기 가장 큰 에너지 대 상기 오디오 프레임에 걸쳐서 계산된 이전 오디오 프레임에 대해서 상기 분리된 오디오 객체의 상기 에너지의 비율을, 상기 임계값과 비교하는 단계와,
상기 비교에 따라서, 상기 오디오 프레임에 대해서, 상기 가장 큰 에너지에 대응하는 상기 오디오 객체를 상기 분리할 상기 오디오 객체로서 식별하거나 혹은 상기 이전 오디오 프레임에 대해서 상기 분리된 오디오 객체를 상기 분리할 오디오 객체로서 식별하는 단계
를 포함하는,
공간 오디오 신호 인코딩 방법.
제2항에 있어서,
상기 에너지 비율 인자를 결정하는 단계는:
상기 오디오 프레임에 걸친 상기 복수의 오디오 객체 신호 각각의 상기 에너지, 상기 이전 오디오 프레임에 걸친 복수의 오디오 객체 신호 각각의 에너지, 상기 오디오 프레임에 걸친 상기 다른 오디오 입력 포맷의 상기 적어도 하나의 오디오 신호의 에너지 및 상기 이전 오디오 프레임에 걸친 상기 다른 오디오 입력 포맷의 상기 적어도 하나의 오디오 신호의 에너지를 합산해서 총 에너지를 결정하는 단계와,
상기 총 에너지에 대한, 상기 가장 큰 에너지, 상기 이전 오디오 프레임으로부터의 가장 큰 에너지, 상기 오디오 프레임에 걸쳐서 계산된 상기 이전 오디오 프레임에 대한 상기 분리된 오디오 객체의 에너지 및 상기 오디오 프레임에 걸쳐 계산된 상기 이전 오디오 프레임에 대한 상기 분리된 오디오 객체의 에너지의 합 에너지의 비율을 결정하는 단계
를 포함하는,
공간 오디오 신호 인코딩 방법.
제2항 또는 제3항에 있어서,
상기 오디오 프레임의 상기 복수의 오디오 객체로부터 상기 분리할 오디오 객체를 결정하는 단계는, 상기 이전 오디오 프레임에 대한 분리된 오디오 객체로부터 상기 오디오 프레임에 대한 상기 분리된 오디오 객체로의 변경이 수행되는 트랜지션의 방식을 결정하는 단계를 포함하는,
공간 오디오 신호 인코딩 방법.
제4항에 있어서,
상기 트랜지션의 방식을 결정하는 단계는,
상기 에너지 비율 인자를 임계값에 대해 비교하는 단계와,
상기 에너지 비율 인자가 상기 임계값 미만인 경우, 상기 이전 오디오 프레임에 대한 상기 분리된 오디오 객체로부터 상기 오디오 프레임에 대한 분리된 오디오 객체로의 트랜지션의 방식이 하드 트랜지션을 사용해서 수행되는 것으로 결정하는 단계와,
상기 에너지 비율 인자가 상기 임계값 이상인 경우, 상기 이전 오디오 프레임에 대한 상기 분리된 오디오 객체로부터 상기 오디오 프레임에 대한 분리된 오디오 객체로의 트랜지션의 방식이 페이드 아웃 페이드 인 트랜지션을 사용해서 수행되는 것으로 결정하는 단계
를 포함하는,
공간 오디오 신호 인코딩 방법.
제2항 내지 제5항 중 어느 한 항에 있어서,
상기 복수의 오디오 객체로부터 분리할 상기 오디오 객체를 분리하여, 상기 분리된 오디오 객체 및 적어도 하나의 나머지 오디오 객체를 제공하는 단계는,
상기 적어도 하나의 나머지 오디오 객체에 대해, 상기 결정된 분리할 오디오 객체의 상기 오디오 객체 신호를 0으로 설정하는 단계와,
상기 오디오 프레임에 대한 상기 분리된 오디오 객체의 메타데이터를, 상기 결정된 분리할 오디오 객체의 메타데이터로 설정하는 단계와,
상기 오디오 프레임에 대한 상기 분리된 오디오 객체의 오디오 객체 신호를, 상기 결정된 분리할 오디오 객체의 상기 오디오 객체 신호로 설정하는 단계와,
상기 적어도 하나의 나머지 오디오 객체의 오디오 객체 신호를, 분리하는 것으로 결정되지 않은 오디오 객체의 상기 오디오 객체 신호로 설정하는 단계와,
상기 적어도 하나의 나머지 오디오 객체의 메타데이터를, 분리하는 것으로 결정되지 않은 오디오 객체의 상기 메타데이터로 설정하는 단계
를 포함하는,
공간 오디오 신호 인코딩 방법.
제6항에 있어서,
상기 이전 오디오 프레임에 대한 상기 분리된 오디오 객체로부터 상기 오디오 프레임에 대한 분리된 오디오 객체로의 상기 트랜지션의 상기 방식은 하드 트랜지션을 이용하여 수행되는,
공간 오디오 신호 인코딩 방법.
제2항 내지 제7항 중 어느 한 항에 있어서,
상기 복수의 오디오 객체로부터 분리할 상기 오디오 객체를 분리하여, 상기 분리된 오디오 객체 및 적어도 하나의 나머지 오디오 객체를 제공하는 단계는, 상기 복수의 오디오 객체로부터 분리할 오디오 객체를 분리하여 적어도 하나의 후속 오디오 프레임에 대한 상기 분리된 오디오 객체 및 상기 적어도 하나의 후속 오디오 프레임에 대한 복수의 나머지 오디오 객체를 제공하는 단계를 포함하고, 상기 적어도 하나의 후속 오디오 프레임은 상기 오디오 프레임에 후속하는 것이며, 상기 방법은,
상기 오디오 프레임에 대한 상기 분리된 오디오 객체의 상기 오디오 객체 신호를, 페이드 아웃 윈도우 함수에 의해 승산된 상기 이전 오디오 프레임에 대한 상기 분리된 오디오 객체의 상기 오디오 객체 신호로 설정하는 단계와,
상기 적어도 하나의 후속 오디오 프레임에 대한 상기 분리된 오디오 객체의 오디오 객체 신호를, 페이드 인 윈도우 함수에 의해 승산된 상기 분리할 오디오 객체의 상기 적어도 하나의 후속 오디오 프레임의 상기 오디오 객체 신호로 설정하는 단계와,
상기 오디오 프레임에 대한 상기 적어도 하나의 나머지 오디오 객체 내의 상기 이전 오디오 프레임에 대한 상기 분리된 오디오 객체에 대응하는 오디오 객체 신호를, 페이드 인 윈도우 함수에 의해 승산된 상기 이전 오디오로부터 상기 분리된 오디오 객체의 상기 오디오 프레임에 대한 상기 오디오 객체 신호로 설정하는 단계와,
상기 적어도 하나의 후속 오디오 프레임에 대한 상기 적어도 하나의 나머지 오디오 객체 내의 상기 오디오 프레임에 대한 상기 분리된 오디오 객체에 대응하는 오디오 객체 신호를, 페이드 아웃 윈도우 함수에 의해 승산된 상기 분리할 오디오 객체의 상기 오디오 객체 신호로 설정하는 단계
를 더 포함하는,
공간 오디오 신호 인코딩 방법.
제8항에 있어서,
상기 오디오 프레임에 대한 적어도 하나의 나머지 오디오 객체의 메타데이터를, 상기 오디오 프레임에 대한 분리하는 것으로 결정되지 않은 오디오 객체의 메타데이터로 설정하는 단계와,
상기 적어도 하나의 후속 오디오 프레임에 대한 상기 적어도 하나의 나머지 오디오 객체의 메타데이터를, 상기 적어도 하나의 후속 오디오 프레임에 대한 분리하는 것으로 결정되지 않은 오디오 객체의 상기 메타데이터로 설정하는 단계와,
상기 오디오 프레임에 대한 상기 분리된 오디오 객체의 메타데이터를, 상기 오디오 프레임에 대한 상기 분리할 오디오 객체의 메타데이터로 설정하는 단계와,
상기 적어도 하나의 후속 오디오 프레임에 대한 상기 분리된 오디오 객체의 메타데이터를, 상기 적어도 하나의 후속 오디오 프레임에 대한 분리할 오디오 객체의 메타데이터로 설정하는 단계
를 더 포함하는 공간 오디오 신호 인코딩 방법.
제8항 또는 제9항에 있어서,
상기 이전 오디오 프레임에 대한 상기 분리된 오디오 객체로부터 상기 오디오 프레임에 대한 분리된 오디오 객체로의 상기 트랜지션의 방식이 페이드 인 페이드 아웃 트랜지션을 이용하여 수행되는,
공간 오디오 신호 인코딩 방법.
제8항 내지 제10항 중 어느 한 항에 있어서,
상기 페이드 아웃 윈도우 함수는 Hann 윈도우 함수의 후반부이고, 상기 페이드 인 윈도우 함수는 상기 Hann 윈도우 함수의 후반부를 뺀 것인,
공간 오디오 신호 인코딩 방법.
제2항 내지 제11항 중 어느 한 항에 있어서,
오디오 프레임에 걸친 상기 복수의 오디오 객체 신호 각각의 상기 에너지를 결정하는 것은, 이전 오디오 프레임으로부터 대응하는 오디오 객체 신호의 에너지를 이용하여 상기 복수의 오디오 객체 신호 각각의 상기 에너지를 평활화하는 것을 포함하고, 상기 오디오 프레임에 걸친 상기 복수의 오디오 객체 신호의 상기 에너지를 결정하는 것은 상기 이전 오디오 프레임으로부터의 상기 복수의 오디오 신호 각각에 대한 대응하는 에너지를 이용하여 상기 복수의 오디오 신호 각각의 에너지를 평활화하는 것을 포함하는,
공간 오디오 신호 인코딩 방법.
제1항 내지 제12항 중 어느 한 항에 있어서,
상기 다른 입력 오디오 포맷은,
적어도 하나의 오디오 신호 및 입력 오디오 포맷 메타데이터 세트와,
적어도 두 개의 오디오 신호
중 적어도 하나를 포함하는,
공간 오디오 신호 인코딩 방법.
공간 오디오 신호 인코딩 장치로서,
오디오 프레임의 복수의 오디오 객체로부터 분리할 오디오 객체를 결정하는 수단과,
상기 복수의 오디오 객체로부터 분리할 상기 오디오 객체를 분리하여, 분리된 오디오 객체 및 적어도 하나의 나머지 오디오 객체를 제공하는 수단과,
상기 분리된 오디오 객체를 오디오 객체 인코더로 인코딩하는 수단과,
상기 적어도 하나의 나머지 오디오 객체를 다른 입력 오디오 포맷과 함께 인코딩하는 수단
을 포함하는 공간 오디오 신호 인코딩 장치.
제14항에 있어서,
상기 복수의 오디오 객체의 각각의 오디오 객체는 오디오 객체 신호 및 오디오 객체 메타데이터를 포함하고, 상기 오디오 프레임의 상기 복수의 오디오 객체로부터 분리할 오디오 객체를 결정하는 수단은,
상기 오디오 프레임에 걸친 상기 복수의 오디오 객체 신호 각각의 에너지를 결정하는 수단과,
상기 오디오 프레임에 걸친 상기 다른 입력 오디오 포맷의 적어도 하나의 오디오 신호의 에너지를 결정하는 수단과,
상기 복수의 오디오 객체 신호의 상기 에너지로부터 가장 큰 에너지를 선택함으로써 가장 큰 에너지를 결정하는 수단과,
에너지 비율 인자를 결정하는 수단과,
상기 에너지 비율 인자에 따라서 상기 오디오 프레임에 대한 임계값을 결정하는 수단과,
상기 가장 큰 에너지 대 상기 오디오 프레임에 걸쳐서 계산된 이전 오디오 프레임에 대해서 분리된 오디오 객체의 에너지의 비율을 결정하는 수단과,
상기 가장 큰 에너지 대 상기 오디오 프레임에 걸쳐서 계산된 상기 이전 오디오 프레임에 대해서 상기 분리된 오디오 객체의 상기 에너지의 비율을 상기 임계값과 비교하는 수단과,
상기 비교에 따라서, 상기 오디오 프레임에 대해서, 상기 가장 큰 에너지에 대응하는 상기 오디오 객체를 상기 분리할 상기 오디오 객체로서 식별하거나 혹은 상기 이전 오디오 프레임에 대해서 상기 분리된 오디오 객체를 상기 분리할 오디오 객체로서 식별하는 수단
을 포함하는,
공간 오디오 신호 인코딩 장치.
제15항에 있어서,
상기 에너지 비율 인자를 결정하는 수단은:
상기 오디오 프레임에 걸친 상기 복수의 오디오 객체 신호 각각의 상기 에너지, 상기 이전 오디오 프레임에 걸친 복수의 오디오 객체 신호 각각의 에너지, 상기 오디오 프레임에 걸친 상기 다른 오디오 입력 포맷의 상기 적어도 하나의 오디오 신호의 에너지 및 상기 이전 오디오 프레임에 걸친 상기 다른 오디오 입력 포맷의 상기 적어도 하나의 오디오 신호의 에너지를 합산해서 총 에너지를 결정하는 수단과,
상기 총 에너지에 대한, 상기 가장 큰 에너지, 상기 이전 오디오 프레임으로부터의 가장 큰 에너지, 상기 오디오 프레임에 걸쳐서 계산된 상기 이전 오디오 프레임에 대한 상기 분리된 오디오 객체의 에너지 및 상기 오디오 프레임에 걸쳐서 계산된 상기 이전 오디오 프레임에 대한 상기 분리된 오디오 객체의 에너지의 합 에너지의 비율을 결정하는 수단
을 포함하는,
공간 오디오 신호 인코딩 장치.
제15항 또는 제16항에 있어서,
상기 오디오 프레임의 상기 복수의 오디오 객체로부터 상기 분리할 오디오 객체를 결정하는 수단은, 상기 이전 오디오 프레임에 대한 분리된 오디오 객체로부터 상기 오디오 프레임에 대한 상기 분리된 오디오 객체로의 변경이 수행되는 트랜지션의 방식을 결정하는 수단을 포함하는,
공간 오디오 신호 인코딩 장치.
제17항에 있어서,
상기 트랜지션의 방식을 결정하는 수단은,
상기 에너지 비율 인자를 임계값에 대해 비교하는 수단과,
상기 에너지 비율 인자가 상기 임계값 미만인 경우, 상기 이전 오디오 프레임에 대한 상기 분리된 오디오 객체로부터 상기 오디오 프레임에 대한 분리된 오디오 객체로의 트랜지션의 방식이 하드 트랜지션을 사용해서 수행되는 것으로 결정하는 수단과,
상기 에너지 비율 인자가 상기 임계값 이상인 경우, 상기 이전 오디오 프레임에 대한 상기 분리된 오디오 객체로부터 상기 오디오 프레임에 대한 분리된 오디오 객체로의 트랜지션의 방식이 페이드 아웃 페이드 인 트랜지션을 사용해서 수행되는 것으로 결정하는 수단
을 포함하는,
공간 오디오 신호 인코딩 장치.
제15항 내지 제18항 중 어느 한 항에 있어서,
상기 복수의 오디오 객체로부터 분리할 상기 오디오 객체를 분리하여, 상기 분리된 오디오 객체 및 적어도 하나의 나머지 오디오 객체를 제공하는 수단은,
상기 적어도 하나의 나머지 오디오 객체에 대해, 상기 결정된 분리할 오디오 객체의 상기 오디오 객체 신호를 0으로 설정하는 수단과,
상기 오디오 프레임에 대한 상기 분리된 오디오 객체의 메타데이터를, 상기 결정된 분리할 오디오 객체의 메타데이터로 설정하는 수단과,
상기 오디오 프레임에 대한 상기 분리된 오디오 객체의 오디오 객체 신호를, 상기 결정된 분리할 오디오 객체의 상기 오디오 객체 신호로 설정하는 수단과,
상기 적어도 하나의 나머지 오디오 객체의 오디오 객체 신호를, 분리하는 것으로 결정되지 않은 오디오 객체의 상기 오디오 객체 신호로 설정하는 수단과,
상기 적어도 하나의 나머지 오디오 객체의 메타데이터를, 분리하는 것으로 결정되지 않은 오디오 객체의 상기 메타데이터로 설정하는 수단
을 포함하는,
공간 오디오 신호 인코딩 장치.
제17항에 있어서,
상기 이전 오디오 프레임에 대한 상기 분리된 오디오 객체로부터 상기 오디오 프레임에 대한 분리된 오디오 객체로의 상기 트랜지션의 방식은 하드 트랜지션을 이용하여 수행되는,
공간 오디오 신호 인코딩 장치.
제15항 내지 제20항 중 어느 한 항에 있어서,
상기 복수의 오디오 객체로부터 분리할 상기 오디오 객체를 분리하여, 상기 분리된 오디오 객체 및 적어도 하나의 나머지 오디오 객체를 제공하는 수단은, 상기 복수의 오디오 객체로부터 분리할 오디오 객체를 분리하여 상기 적어도 하나의 후속 오디오 프레임에 대한 상기 분리된 오디오 객체 및 상기 적어도 하나의 후속 오디오 프레임에 대한 복수의 나머지 오디오 객체를 제공하는 수단을 포함하고, 상기 적어도 하나의 후속 오디오 프레임은 상기 오디오 프레임에 후속하는 것이며, 상기 장치는,
상기 오디오 프레임에 대한 상기 분리된 오디오 객체의 상기 오디오 객체 신호를, 페이드 아웃 윈도우 함수에 의해 승산된 상기 이전 오디오 프레임에 대한 상기 분리된 오디오 객체의 상기 오디오 객체 신호로 설정하는 수단과,
상기 적어도 하나의 후속 오디오 프레임에 대한 상기 분리된 오디오 객체의 오디오 객체 신호를, 페이드 인 윈도우 함수에 의해 승산된 상기 분리할 오디오 객체의 상기 적어도 하나의 후속 오디오 프레임의 상기 오디오 객체 신호로 설정하는 수단과,
상기 오디오 프레임에 대한 상기 적어도 하나의 나머지 오디오 객체 내의 상기 이전 오디오 프레임에 대한 상기 분리된 오디오 객체에 대응하는 오디오 객체 신호를, 페이드 인 윈도우 함수에 의해 승산된 상기 이전 오디오로부터 상기 분리된 오디오 객체의 상기 오디오 프레임에 대한 상기 오디오 객체 신호로 설정하는 수단과,
상기 적어도 하나의 후속 오디오 프레임에 대한 상기 적어도 하나의 나머지 오디오 객체 내의 상기 오디오 프레임에 대한 상기 분리된 오디오 객체에 대응하는 오디오 객체 신호를, 페이드 아웃 윈도우 함수에 의해 승산된 상기 분리할 오디오 객체의 상기 오디오 객체 신호로 설정하는 수단
을 더 포함하는,
공간 오디오 신호 인코딩 장치.
제21항에 있어서,
상기 오디오 프레임에 대한 적어도 하나의 나머지 오디오 객체의 메타데이터를, 상기 오디오 프레임에 대한 분리하는 것으로 결정되지 않은 오디오 객체의 상기 메타데이터로 설정하는 수단과,
상기 적어도 하나의 후속 오디오 프레임에 대한 상기 적어도 하나의 나머지 오디오 객체의 메타데이터를, 상기 적어도 하나의 후속 오디오 프레임에 대한 분리하는 것으로 결정되지 않은 오디오 객체의 상기 메타데이터로 설정하는 수단과,
상기 오디오 프레임에 대한 상기 분리된 오디오 객체의 메타데이터를, 상기 오디오 프레임에 대한 상기 분리할 상기 오디오 객체의 메타데이터로 설정하는 수단과,
상기 적어도 하나의 후속 오디오 프레임에 대한 상기 분리된 오디오 객체의 메타데이터를, 상기 적어도 하나의 후속 오디오 프레임에 대한 분리할 오디오 객체의 메타데이터로 설정하는 수단
을 더 포함하는 공간 오디오 신호 인코딩 장치.
제21항 또는 제22항에 있어서,
상기 이전 오디오 프레임에 대한 상기 분리된 오디오 객체로부터 상기 오디오 프레임에 대한 분리된 오디오 객체로의 상기 트랜지션의 상기 방식은 페이드 인 페이드 아웃 트랜지션을 이용하여 수행되는,
공간 오디오 신호 인코딩 장치.
제21항 내지 제23항 중 어느 한 항에 있어서,
상기 페이드 아웃 윈도우 함수는 Hann 윈도우 함수의 후반부이고, 상기 페이드 인 윈도우 함수는 상기 Hann 윈도우 함수의 후반부를 뺀 것인,
공간 오디오 신호 인코딩 장치.
제15항 내지 제24항 중 어느 한 항에 있어서,
오디오 프레임에 걸친 상기 복수의 오디오 객체 신호 각각의 상기 에너지를 결정하는 것은, 이전 오디오 프레임으로부터 대응하는 오디오 객체 신호의 에너지를 이용하여 상기 복수의 오디오 객체 신호 각각의 상기 에너지를 평활화하는 것을 포함하고, 상기 오디오 프레임에 걸친 상기 복수의 오디오 객체 신호의 상기 에너지를 결정하는 것은 상기 이전 오디오 프레임으로부터의 상기 복수의 오디오 신호 각각에 대한 대응하는 에너지를 이용하여 상기 복수의 오디오 신호 각각의 에너지를 평활화하는 것을 포함하는,
공간 오디오 신호 인코딩 장치.
제14항 내지 제25항 중 어느 한 항에 있어서,
상기 다른 입력 오디오 포맷은,
적어도 하나의 오디오 신호 및 입력 오디오 포맷 메타데이터 세트와,
적어도 두 개의 오디오 신호
중 적어도 하나를 포함하는,
공간 오디오 신호 인코딩 장치.