WO2017126895A1

WO2017126895A1 - 오디오 신호 처리 장치 및 처리 방법

Info

Publication number: WO2017126895A1
Application number: PCT/KR2017/000633
Authority: WO
Inventors: 서정훈; 이태규; 오현오
Original assignee: 지오디오랩 인코포레이티드
Priority date: 2016-01-19
Filing date: 2017-01-19
Publication date: 2017-07-27
Also published as: US20180324542A1; US10419867B2

Abstract

본 발명은 오디오 신호 처리 장치 및 처리 방법에 관한 것으로서, 더욱 구체적으로 고차 앰비소닉 신호를 효율적으로 렌더링하기 위한 장치 및 방법에 관한 것이다. 이를 위해 본 발명은, 입력 오디오 신호를 적어도 하나의 오브젝트 신호에 대응하는 제1 콤포넌트와 잔여 신호에 대응하는 제2 콤포넌트로 분리하고, 상기 제1 콤포넌트에 대응하는 위치 벡터 정보를 상기 입력 오디오 신호로부터 추출하는 전처리부; 상기 위치 벡터 정보를 이용하여 상기 제1 콤포넌트에 오브젝트 기반의 제1 렌더링을 수행하는 제1 렌더링부; 및 상기 제2 콤포넌트에 채널 기반의 제2 렌더링을 수행하는 제2 렌더링부; 를 포함하는 오디오 신호 처리 장치 및 이를 이용한 오디오 신호 처리 방법을 제공한다.

Description

오디오 신호 처리 장치 및 처리 방법

본 발명은 오디오 신호 처리 장치 및 처리 방법에 관한 것으로서, 더욱 구체적으로 고차 앰비소닉 신호를 효율적으로 렌더링하기 위한 장치 및 방법에 관한 것이다.

3D 오디오란 기존의 서라운드 오디오에서 제공하는 수평면(2D) 상의 사운드 장면에 높이 방향에 해당하는 또 다른 축을 제공함으로써, 3차원 공간상에서 임장감 있는 사운드를 제공하기 위한 일련의 신호 처리, 전송, 부호화 및 재생기술 등을 통칭한다. 특히, 3D 오디오를 제공하기 위해서는 종래보다 많은 수의 스피커를 사용하거나 혹은 적은 수의 스피커를 사용하더라도 스피커가 존재하지 않는 가상의 위치에서 음상이 맺히도록 하는 렌더링 기술이 요구된다.

3D 오디오는 초고해상도 TV(UHDTV)에 대응되는 오디오 솔루션이 될 것이며, 다양한 분야 및 디바이스에서 사용될 것으로 예상된다. 3D 오디오에 제공되는 음원의 형태로는 채널 기반의 신호와 오브젝트 기반의 신호가 존재할 수 있다. 이 뿐만 아니라, 채널 기반의 신호와 오브젝트 기반의 신호가 혼합된 형태의 음원이 존재할 수 있으며, 이를 통해 유저로 하여금 새로운 형태의 청취 경험을 제공할 수 있다.

한편, 장면 기반의 몰입형(immersive) 사운드를 제공하기 위한 기술로서 고차 앰비소닉(Higher Order Ambisonics, HOA)이 이용될 수 있다. HOA는 전체 오디오 장면을 콤팩트하게 최적의 상태로 재현함으로 고품질의 3차원 입체 사운드를 제공할 수 있다. 임장감 있는 사운드의 제공이 중요한 가상 현실(VR)에서는 HOA 기술이 유용하게 사용될 수 있다. 그러나 HOA는 전체 오디오 장면을 재현하는 성능은 우수한 반면에, 오디오 장면 내에서 개별 사운드 오브젝트의 위치를 정확하게 표현하는 성능은 떨어지는 단점이 존재한다.

본 발명은 더욱 실감나는 몰입형 사운드를 제공하기 위해 HOA 신호의 렌더링 성능을 향상시키기 위한 목적을 가지고 있다.

또한, 본 발명은 오디오 신호에 대한 바이노럴 렌더링을 효율적으로 수행하기 위한 목적을 가지고 있다.

또한, 본 발명은 가상 현실 콘텐츠의 오디오 신호에 대한 몰입형 바이노럴 렌더링을 구현하기 위한 목적을 가지고 있다.

상기와 같은 과제를 해결하기 위해, 본 발명은 다음과 같은 오디오 신호 처리 장치 및 오디오 신호 처리 방법을 제공한다.

먼저 본 발명의 실시예에 따르면, 오디오 신호 처리 장치로서, 입력 오디오 신호를 적어도 하나의 오브젝트 신호에 대응하는 제1 콤포넌트와 잔여 신호에 대응하는 제2 콤포넌트로 분리하고, 상기 제1 콤포넌트에 대응하는 위치 벡터 정보를 상기 입력 오디오 신호로부터 추출하는 전처리부; 상기 위치 벡터 정보를 이용하여 상기 제1 콤포넌트에 오브젝트 기반의 제1 렌더링을 수행하는 제1 렌더링부; 및 상기 제2 콤포넌트에 채널 기반의 제2 렌더링을 수행하는 제2 렌더링부; 를 포함하는 오디오 신호 처리 장치가 제공된다.

또한 본 발명의 실시예에 따르면, 오디오 신호 처리 방법으로서, 입력 오디오 신호를 적어도 하나의 오브젝트 신호에 대응하는 제1 콤포넌트와 잔여 신호에 대응하는 제2 콤포넌트로 분리하는 단계; 상기 제1 콤포넌트에 대응하는 위치 벡터 정보를 상기 입력 오디오 신호로부터 추출하는 단계; 상기 위치 정보 벡터를 이용하여 상기 제1 콤포넌트에 오브젝트 기반의 제1 렌더링을 수행하는 단계; 및 상기 제2 콤포넌트에 채널 기반의 제2 렌더링을 수행하는 단계; 를 포함하는 오디오 신호 처리 방법이 제공된다.

상기 입력 오디오 신호는 HOA(Higher Order Ambisonics) 계수들을 포함하며, 상기 전처리부는 상기 HOA 계수들을 복수의 오디오 신호들을 나타내는 제1 행렬과, 상기 복수의 오디오 신호들 각각의 위치 벡터 정보를 나타내는 제2 행렬로 분해하고, 상기 제1 렌더링부는 상기 제1 콤포넌트에 대응하는 상기 제2 행렬의 위치 벡터 정보를 이용하여 오브젝트 기반의 렌더링을 수행한다.

상기 제1 콤포넌트는 상기 제1 행렬이 나타내는 복수의 오디오 신호들 중 높은 레벨 순서의 기 설정된 개수의 오디오 신호들로부터 추출된다.

상기 제1 콤포넌트는 상기 제1 행렬이 나타내는 복수의 오디오 신호들 중 기 설정된 임계값 이상의 레벨을 갖는 오디오 신호들로부터 추출된다.

상기 제1 콤포넌트는 상기 HOA 계수들 중 기 설정된 저 차수의 계수들로부터 추출된다.

상기 전처리부는 SVD(Singular Value Decomposition)를 이용하여 상기 HOA 계수들의 행렬 분해를 수행한다.

상기 제1 렌더링은 오브젝트 기반의 바이노럴 렌더링이며, 상기 제1 렌더링부는 상기 제1 콤포넌트에 대응하는 위치 벡터 정보에 기초한 HRTF(Head Related Transfer Function)를 이용하여 상기 제1 렌더링을 수행한다.

상기 제2 렌더링은 채널 기반의 바이노럴 렌더링이며, 상기 제2 렌더링부는 상기 제2 콤포넌트를 적어도 하나의 가상 채널로 매핑하고, 매핑된 가상 채널에 기초한 HRTF를 이용하여 상기 제2 렌더링을 수행한다.

상기 제1 렌더링부는 상기 입력 오디오 신호에 대응하는 비디오 신호로부터 획득된 적어도 하나의 오브젝트의 공간적 정보를 참조하여 상기 제1 렌더링을 수행한다.

상기 제1 렌더링부는 상기 제1 콤포넌트에 관계된 적어도 하나의 파라메터를 상기 비디오 신호로부터 획득된 공간적 정보에 기초하여 보정하고, 보정된 파라메터를 이용하여 상기 제1 콤포넌트에 대한 오브젝트 기반의 렌더링을 수행한다.

본 발명의 실시예에 따르면, 낮은 연산량으로 고품질의 바이노럴 사운드를 제공할 수 있다.

또한 본 발명의 실시예에 따르면, 바이노럴 렌더링 시 발생할 수 있는 음성 정위의 열화 및 음질 저하를 방지할 수 있다.

또한 본 발명의 실시예에 따르면, 낮은 연산량으로 공간감, 음상 정위 성능이 향상된 HOA 신호의 렌더링을 구현할 수 있다.

도 1은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치를 나타내는 블록도.

도 2는 본 발명의 실시예에 따른 바이노럴 렌더러를 나타내는 블록도이다.

도 3은 구형 마이크 어레이를 통해 녹음된 신호로부터 바이노럴 신호가 획득되는 과정을 나타낸다.

도 4는 바이노럴 마이크 어레이를 통해 녹음된 신호로부터 바이노럴 신호가 획득되는 과정을 나타낸다.

도 5는 바이노럴 마이크 어레이를 통해 녹음된 사운드 씬을 이용하여 바이노럴 신호를 생성하는 구체적인 실시예를 나타낸다.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도, 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가진 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.

명세서 전체에서, 어떤 구성이 다른 구성과 “연결”되어 있다고 할 때, 이는 “직접적으로 연결”되어 있는 경우뿐 아니라, 그 중간에 다른 구성요소를 사이에 두고 “전기적으로 연결”되어 있는 경우도 포함한다. 또한 어떤 구성이 특정 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 이에 더하여, 특정 임계값을 기준으로 “이상” 또는 “이하”라는 한정 사항은 실시예에 따라 각각 “초과” 또는 “미만”으로 적절하게 대체될 수 있다.

도 1은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치를 나타낸 블록도이다. 도 1을 참조하면, 오디오 신호 처리 장치(10)는 바이노럴 렌더러(100), 바이노럴 파라메터 컨트롤러(200) 및 퍼스널라이저(300)를 포함할 수 있다.

먼저, 바이노럴 렌더러(100)는 입력 오디오 신호를 수신하고, 이에 대한 바이노럴 렌더링을 수행하여 2채널 출력 오디오 신호 L, R을 생성한다. 바이노럴 렌더러(100)의 입력 오디오 신호는 라우드스피커 채널 신호, 오브젝트 신호, 앰비소닉(ambisonic) 신호 중 적어도 하나를 포함할 수 있다. 일 실시예에 따르면, 바이노럴 렌더러(100)가 별도의 디코더를 포함할 경우, 바이노럴 렌더러(100)의 입력 신호는 상기 오디오 신호의 부호화된 비트스트림이 될 수 있다.

바이노럴 렌더러(100)의 출력 오디오 신호는 바이노럴 신호이다. 바이노럴 신호는 각 입력 오디오 신호가 3차원상에 위치한 가상의 음원에 의해 표현되도록 하는 2채널의 오디오 신호이다. 바이노럴 렌더링은 바이노럴 파라메터 컨트롤러(200)로부터 제공된 바이노럴 파라메터를 기초로 수행되며, 시간 도메인 또는 주파수 도메인 상에서 수행될 수 있다. 이와 같이, 바이노럴 렌더러(100)는 다양한 타입의 입력 신호에 대한 바이노럴 렌더링을 수행하여 3D 오디오 헤드폰 신호(즉, 3D 오디오 2채널 신호)를 생성한다.

일 실시예에 따르면, 바이노럴 렌더러(100)의 출력 오디오 신호에 대한 포스트 프로세싱이 추가로 수행될 수 있다. 포스트 프로세싱에는 크로스톡 제거, DRC(Dynamic Range Control), 음량 정규화, 피크 제한 등이 포함될 수 있다. 또한, 포스트 프로세싱은 바이노럴 렌더러(100)의 출력 오디오 신호에 대한 주파수/시간 도메인 변환을 포함할 수 있다. 오디오 신호 처리 장치(10)는 포스트 프로세싱을 수행하는 별도의 포스트 프로세싱부를 포함할 수 있으며, 다른 실시예에 따르면 포스트 프로세싱부는 바이노럴 렌더러(100)에 포함될 수도 있다.

바이노럴 파라메터 컨트롤러(200)는 바이노럴 렌더링을 위한 바이노럴 파라메터를 생성하여 이를 바이노럴 렌더러(100)에 전달한다. 이때, 전달되는 바이노럴 파라메터에는 동측(ipsilateral) 전달 함수 및 대측(contralateral) 전달 함수를 포함한다. 이때, 전달 함수는 HRTF(Head Related Transfer Function), ITF(Interaural Transfer Function), MITF(Modified ITF), BRTF(Binaural Room Transfer Function), RIR(Room Impulse Response), BRIR(Binaural Room Impulse Response), HRIR(Head Related Impulse Response) 및 이의 변형 및 편집 된 데이터 중 적어도 하나를 포함할 수 있으며, 본 발명은 이에 한정되지 않는다.

본 발명의 일 실시예에 따르면, 바이노럴 파라메터 컨트롤러(200)는 데이터베이스(미도시)로부터 상기 전달 함수를 획득할 수 있다. 본 발명의 다른 실시예에 따르면, 바이노럴 파라메터 컨트롤러(200)는 개인화된(personalized) 전달 함수를 퍼스널라이저(300)로부터 수신할 수 있다. 본 발명에서는 전달함수는 IR(Impulse Response)을 고속 푸리에 변환(fast Fourier transform) 한 것으로 전제하나, 본 발명에서 변환의 방법은 이에 한정되지 않는다. 즉 본 발명의 실시예에 따르면, 변환 방법은 QMF(quadrature mirror Filter), 이산 코사인 변환(Discrete Cosine Transform, DCT), 이산 사인 변환(Discrete Sine Transform, DST), Wavelet 등을 포함한다.

본 발명의 일 실시예에 따르면, 바이노럴 파라메터 컨트롤러(200)는 퍼스널라이저(300)로부터 획득된 개인화된 정보에 기초하여 바이노럴 파라메터를 생성할 수 있다. 퍼스널라이저(300)는 유저에 따라 서로 다른 바이노럴 파라메터를 적용하기 위한 부가 정보를 획득하고, 획득된 부가 정보에 기초하여 결정된 바이노럴 전달 함수를 제공한다. 예를 들어, 퍼스널라이저(300)는 유저의 신체적 특징 정보에 기초하여, 해당 유저를 위한 바이노럴 전달 함수(이를테면, 개인화된 HRTF)를 데이터베이스로부터 선택할 수 있다. 이때, 신체적 특징 정보는 귓바퀴의 모양 및 크기, 외이도의 형태, 두개골의 크기 및 유형, 체형, 체중 등의 정보를 포함할 수 있다.

퍼스널라이저(300)는 결정된 바이노럴 전달 함수를 바이노럴 렌더러(100) 및/또는 바이노럴 파라메터 컨트롤러(200)에 제공한다. 일 실시예에 따르면, 바이노럴 렌더러(100)는 퍼스널라이저(300)에서 제공된 바이노럴 전달 함수를 이용하여 입력 오디오 신호에 대한 바이노럴 렌더링을 수행할 수 있다. 다른 실시예에 따르면, 바이노럴 파라메터 컨트롤러(200)는 퍼스널라이저(300)에서 제공된 바이노럴 전달 함수를 이용하여 바이노럴 파라메터를 생성하고, 생성된 바이노럴 파라메터를 바이노럴 렌더러(100)에 전달할 수 있다. 바이노럴 렌더러(100)는 바이노럴 파라메터 컨트롤러(200)로부터 획득된 바이노럴 파라메터에 기초하여 입력 오디오 신호에 대한 바이노럴 렌더링을 수행한다.

본 발명의 실시예에 따르면, 바이노럴 렌더러(100)의 입력 오디오 신호는 포맷 컨버터(50)에서의 변환 과정을 통해 획득될 수 있다. 포맷 컨버터(50)는 적어도 하나의 마이크를 통해 녹음된 입력 신호를 오브젝트 신호, 앰비소닉 신호 등으로 변환한다. 일 실시예에 따르면, 상기 포맷 컨버터(50)의 입력 신호는 마이크 어레이 신호일 수 있다. 포맷 컨버터(50)는 마이크 어레이를 구성하는 마이크들의 배열 정보, 개수 정보, 위치 정보, 주파수 특성 정보, 빔 패턴 정보 중 적어도 하나를 포함하는 녹음 정보를 획득하고, 획득된 녹음 정보에 기초하여 입력 신호의 변환을 수행한다. 일 실시예에 따르면, 포맷 컨버터(50)는 음원의 위치 정보를 추가적으로 획득하고, 이를 이용하여 입력 신호의 변환을 수행할 수 있다.

포맷 컨버터(50)는 이하의 설명과 같이 다양한 형태의 포맷 변환을 수행할 수 있다. 설명의 편의를 위해, 본 발명의 실시예에 따른 각각의 포맷 신호를 다음과 같이 정의한다. A-포맷 신호는 마이크(또는, 마이크 어레이)에서 녹음된 원 신호(raw signal)를 가리킨다. 상기 녹음된 원 신호는 게인이나 딜레이가 수정되지 않은 신호일 수 있다. B-포맷 신호는 앰비소닉 신호를 가리킨다. 본 발명의 실시예에서 앰비소닉 신호는 FOA(First Order Ambisonics) 신호 또는 HOA(Higher Order Ambisonics) 신호를 나타낸다.

A2B 변환은 A-포맷 신호에서 B-포맷 신호로의 변환을 가리킨다. 본 발명의 실시예에 따르면, 포맷 컨버터(50)는 마이크 어레이 신호를 앰비소닉 신호로 변환할 수 있다. 구면 좌표계 상에서 마이크 어레이의 각 마이크의 위치는 좌표계 중심으로부터의 거리, 방위각(또는, 수평각) θ 및 고도각(또는, 수직각) Φ로 표현될 수 있다. 구면 좌표계에서의 각 마이크의 좌표값을 통해 구면 조화함수의 기저가 획득될 수 있다. 마이크 어레이 신호는 구면 조화함수의 각 기저에 기초하여 구면 조화함수 도메인으로 사상(projection)된다.

예를 들어, 마이크 어레이 신호는 구형 마이크 어레이를 통해 녹음될 수 있다. 구면 좌표계의 중심을 마이크 어레이의 중심과 일치시키면, 마이크 어레이의 중심으로부터 각 마이크까지의 거리는 모두 일정하므로 각 마이크의 위치는 방위각과 고도각만으로 표현될 수 있다. 더욱 구체적으로, 마이크 어레이에서 q번째 마이크의 위치를 (θ_q, Φ_q)라고 할 때, 해당 마이크를 통해 녹음된 신호 S_q는 구면 조화함수 도메인에서 다음과 수식과 같이 표현될 수 있다.

여기서, Y는 구면 조화함수의 기저함수, B는 해당 기저함수에 대응하는 앰비소닉 계수들을 가리킨다. 본 발명의 실시예에서 앰비소닉 신호(또는, HOA 신호)는 상기 앰비소닉 계수들(또는, HOA 계수들)을 가리키는 용어로 사용될 수 있다. k는 파수(wave number)를 가리키며, R은 구형 마이크 어레이의 반지름을 가리킨다. W_m(kR)은 m번째 차수(order)의 앰비소닉 계수를 위한 라디안 필터를 가리킨다. σ는 해당 기저함수의 degree를 가리키며, +1 또는 -1의 값을 갖는다.

마이크 어레이의 마이크 개수가 L개일 경우, 최대 M차의 앰비소닉 신호가 획득될 수 있다. 여기서 M=floor(sqrt(L))-1을 만족한다. 또한, M차 앰비소닉 신호는 총 K=(M+1)²개의 앰비소닉 채널 신호들로 구성된다. 상기 수학식 1을 이산 행렬식으로 나타내면 아래 수학식 2와 같이 표현될 수 있다. 이때, 수학식 2의 각 변수의 정의는 수학식 3과 같다.

여기서, T는 Q×K 사이즈의 변환 행렬, b는 K 길이의 열벡터, s는 Q 길이의 열벡터이다. Q는 마이크 어레이를 구성하고 있는 마이크의 전체 개수이며, 상기 수학식의 1의 q는 1≤q≤Q를 만족한다. 또한, K는 M차 앰비소닉 신호를 구성하는 앰비소닉 채널 신호들의 총 개수이며, K=(M+1)²을 만족한다. M은 앰비소닉 신호의 최고 차수를 가리키며, 수학식 1 및 수학식 3의 m은 0≤m≤M을 만족한다.

따라서, 앰비소닉 신호 b는 T의 의사 역행렬(pseudo inverse matrix)을 이용하여 아래 수학식 4와 같이 산출될 수 있다. 다만, 행렬 T가 정방 행렬일 경우, T^-1은 의사 역행렬이 아니라 역행렬일 수 있다.

앰비소닉 신호는 채널 신호 및/또는 오브젝트 신호로 변환되어 출력될 수 있다. 이에 대한 구체적인 실시예는 후술하도록 한다. 일 실시예에 따르면, 변환된 신호가 출력되는 라우드스피커 레이아웃의 거리가 초기 설정 거리와 다를 경우, 상기 변환된 신호에 거리 렌더링이 추가적으로 적용될 수 있다. 이를 통해, 평면파 재생을 가정하고 생성된 HOA 신호가 라우드스피커 거리의 변화로 인해 저 주파수 대역에서 구면파로 재생되어 부스팅 되는 현상을 제어할 수 있다.

<빔포밍된 신호를 채널 신호 또는 오브젝트 신호로 변환>

마이크 어레이의 각 마이크의 게인 및/또는 딜레이를 조정하면 특정 방향에 존재하는 음원의 신호가 빔포밍되어 수신될 수 있다. AV(audio visual) 콘텐츠의 경우 음원의 방향은 비디오 내의 특정 오브젝트의 위치 정보에 매칭될 수 있다. 일 실시예에 따르면, 특정 방향의 음원의 신호는 빔포밍되어 녹음될 수 있으며, 녹음된 신호는 동일 방향의 라우드스피커로 출력될 수 있다. 즉, 최종 재생 단의 라우드스피커 레이아웃을 고려하여 적어도 일부의 신호가 스티어링되어 녹음될 수 있으며, 이와 같이 녹음된 신호는 별도의 포스트 프로세싱 없이 특정 라우드스피커의 출력 신호로 사용될 수 있다. 만약 마이크 어레이의 빔포밍 방향과 최종 재생 단의 라우드스피커의 방향이 일치하지 않는 경우, 상기 녹음된 신호는 CPP(Constant Power Panning), VBAP(Vector-Based Amplitude Panning) 등의 포스트 프로세싱이 적용된 후 스피커로 출력될 수 있다.

<A-포맷 신호를 오브젝트 신호로 변환>

A-포맷 신호들의 선형 조합을 이용하면 포스트 프로세싱 단계에서 가상적인 스티어링이 수행될 수 있다. 이때, 선형 조합은 PCA(Principal Component Analysis), NMF(Non-negative Matrix Factorization) 및 DNN(Deep Neural Network) 중 적어도 하나를 포함한다. 각 마이크로부터 획득된 신호는 시간-주파수 도메인에서 분석된 후 가상 적응 스티어링이 적용되어, 녹음된 사운드 필드에 대응하는 사운드 오브젝트로 변환될 수 있다.

한편, 도 1은 본 발명의 오디오 신호 처리 장치(10)의 구성을 나타낸 일 실시예이며, 본 발명은 이에 한정되지 않는다. 이를테면, 본 발명의 오디오 신호 처리 장치(10)는 도 1에 도시된 구성 이외에 추가적인 구성을 더 포함할 수 있다. 또한, 도 1에 도시된 일부 구성 이를테면, 퍼스널라이저(300) 등은 오디오 신호 처리 장치(10)에서 생략될 수도 있다. 또한, 포맷 컨버터(50)는 오디오 신호 처리 장치(10)의 일부 구성으로 포함될 수 있다.

도 2는 본 발명의 실시예에 따른 바이노럴 렌더러를 나타내는 블록도이다. 도 2를 참조하면, 바이노럴 렌더러(100)는 도메인 스위처(110), 전처리부(120), 제1 바이노럴 렌더링부(130), 제2 바이노럴 렌더링부(140) 및 믹서 & 콤바이너(150)를 포함할 수 있다. 본 발명의 실시예에서 오디오 신호 처리 장치란 도 2의 바이노럴 렌더러(100)를 가리킬 수 있다. 그러나 본 발명의 실시예에서 넓은 의미로의 오디오 신호 처리 장치는 바이노럴 렌더러(100)를 포함하는 도 1의 오디오 신호 처리 장치(10)를 가리킬 수 있다.

전술한 바와 같이, 바이노럴 렌더러(100)는 입력 오디오 신호를 수신하고, 이에 대한 바이노럴 렌더링을 수행하여 2채널 출력 오디오 신호 L, R을 생성한다. 바이노럴 렌더러(100)의 입력 오디오 신호는 라우드스피커 채널 신호, 오브젝트 신호, 앰비소닉 신호 중 적어도 하나를 포함할 수 있다. 본 발명의 실시예에 따르면, HOA 신호가 바이노럴 렌더러(100)의 입력 오디오 신호로서 수신될 수 있다.

도메인 스위처(110)는 바이노럴 렌더러(100)의 입력 오디오 신호에 대한 도메인 변환을 수행한다. 도메인 변환은 고속 푸리에 변환, 역 고속 푸리에 변환, 이산 코사인 변환, 역 이산 코사인 변환, QMF 분석, QMF 합성 중 적어도 하나를 포함할 수 있으며, 본 발명은 이에 한정되지 않는다. 일 실시예에 따르면, 도메인 스위처(110)의 입력 신호는 시간 도메인 오디오 신호가 될 수 있으며, 도메인 스위처(110)의 출력 신호는 주파수 도메인 또는 QMF 도메인의 서브밴드 오디오 신호가 될 수 있다. 그러나 본 발명은 이에 한정되지 않는다. 예를 들어, 바이노럴 렌더러(100)의 입력 오디오 신호는 시간 도메인 오디오 신호로 한정되지 않으며, 입력 오디오 신호의 종류에 따라 도메인 스위처(110)는 바이노럴 렌더러(100)에서 생략될 수도 있다. 또한, 도메인 스위처(110)의 출력 신호는 서브밴드 오디오 신호로 한정되지 않으며, 오디오 신호의 종류에 따라 서로 다른 도메인 신호가 출력될 수 있다. 본 발명의 추가적인 실시예에 따르면, 하나의 신호가 복수의 서로 다른 도메인 신호로 변환될 수도 있다.

전처리부(120)는 본 발명의 실시예에 따른 오디오 신호의 렌더링을 위한 전처리를 수행한다. 본 발명의 실시예에 따르면, 오디오 신호 처리 장치는 다양한 형태의 전처리 및/또는 렌더링을 수행할 수 있다. 예를 들면, 오디오 신호 처리 장치는 적어도 하나의 오브젝트 신호를 채널 신호로 렌더링할 수 있다. 또한, 오디오 신호 처리 장치는 채널 신호 또는 앰비소닉 신호(예를 들어, HOA 계수들)를 제1 콤포넌트와 제2 콤포넌트로 분리할 수 있다. 일 실시예에 따르면, 제1 콤포넌트는 적어도 하나의 사운드 오브젝트에 대응하는 오디오 신호(즉, 오브젝트 신호)를 나타낸다. 제1 콤포넌트는 기 설정된 기준에 따라 원본 신호로부터 추출된다. 이에 대한 구체적인 실시예는 후술하도록 한다. 또한, 제2 콤포넌트는 원본 신호에서 제1 콤포넌트가 추출된 후의 잔여 콤포넌트이다. 제2 콤포넌트는 앰비언트 신호를 나타낼 수 있으며, 백그라운드 신호로도 지칭될 수 있다. 또한, 본 발명의 실시예에 따르면 오디오 신호 처리 장치는 앰비소닉 신호(예를 들어, HOA 계수들)의 전부 또는 일부를 채널 신호로 렌더링할 수 있다. 이를 위해, 전처리부(120)는 오디오 신호의 변환, 분해(decomposition), 일부 콤포넌트의 추출 등 다양한 형태의 전처리를 수행할 수 있다. 오디오 신호의 전처리를 위해, 별도의 메타데이터가 사용될 수 있다.

입력 오디오 신호에 대한 전처리가 수행되면, 해당 오디오 신호에 대한 커스터마이징(customizing)이 가능하다. 예를 들어, HOA 신호가 오브젝트 신호와 앰비언트 신호로 분리된 경우, 유저는 특정 오브젝트 신호에 1보다 큰 게인 또는 1보다 작은 게인을 곱함으로 오브젝트 신호의 레벨을 높이거나 낮출 수 있다. 입력 오디오 신호를 X, 변환 행렬을 T라고 하면, 변환된 오디오 신호를 Y는 다음과 같은 수식으로 표현될 수 있다.

본 발명의 실시예에 따르면, 변환 행렬 T는 오디오 신호 변환 과정에서 비용으로 정의된 팩터에 기초하여 결정될 수 있다. 예를 들어, 변환된 오디오 신호 Y의 엔트로피가 비용으로 정의된 경우, 변환 행렬 T는 상기 엔트로피를 최소화하는 행렬로 결정될 수 있다. 이때, 변환된 오디오 신호 Y는 압축, 전송, 저장에 유리한 신호가 될 수 있다. 또한, 변환된 오디오 신호 Y의 엘리먼트들 간의 상호 상관도가 비용으로 정의된 경우, 변환 행렬 T는 상기 상호 상관도를 최소화하는 행렬로 결정될 수 있다. 이때, 변환된 오디오 신호 Y는 엘리먼트들 간의 직교성이 높아지게 되며, 각 엘리먼트의 특성을 추출하거나 특정 엘리먼트에 별도의 처리를 수행하기가 용이해 진다.

전처리부(120)에 의해 전처리가 수행된 오디오 신호는 바이노럴 렌더링부에 의해 바이노럴 렌더링이 수행된다. 바이노럴 렌더링부는 전달된 바이노럴 파라메터에 기초하여 오디오 신호의 바이노럴 렌더링을 수행한다. 바이노럴 파라메터는 동측 전달 함수 및 대측 전달 함수를 포함한다. 전달 함수는 HRTF, ITF, MITF, BRTF, RIR, BRIR, HRIR 및 이의 변형 및 편집 된 데이터 중 적어도 하나를 포함할 수 있음은 도 1의 실시예에서 전술한 바와 같다.

본 발명의 실시예에 따르면, 바이노럴 렌더러(100)는 서로 다른 형태의 렌더링을 수행하는 복수의 바이노럴 렌더링부(130, 140)를 포함할 수 있다. 입력 오디오 신호가 전처리부(120)에서 제1 콤포넌트와 제2 콤포넌트로 분리될 경우, 분리된 제1 콤포넌트는 제1 바이노럴 렌더링부(130)에서 처리되고, 분리된 제2 콤포넌트는 제2 바이노럴 렌더링부(140)에서 처리될 수 있다. 일 실시예에 따르면, 제1 바이노럴 렌더링부(130)는 오브젝트 기반의 바이노럴 렌더링을 수행할 수 있다. 제1 바이노럴 렌더링부(130)는 입력된 오브젝트 신호를 해당 오브젝트의 위치에 대응하는 전달 함수를 이용하여 필터링한다. 또한, 제2 바이노럴 렌더링부(140)는 채널 기반의 바이노럴 렌더링을 수행할 수 있다. 제2 바이노럴 렌더링부(140)는 입력된 채널 신호를 해당 채널의 위치에 대응하는 전달 함수를 이용하여 필터링한다. 이에 대한 구체적인 실시예는 후술하도록 한다.

믹서&콤바이너(160)는 제1 바이노럴 렌더링부(130)에서 렌더링된 신호와 제2 바이노럴 렌더링부(140)에서 렌더링된 신호를 결합하여 출력 오디오 신호를 생성한다. 바이노럴 렌더링이 QMF 도메인에서 수행된 경우, 바이노럴 렌더러(100)는 믹서&콤바이너에서(160)에서 결합된 신호를 QMF 합성하여 시간 도메인의 출력 오디오 신호를 생성할 수 있다.

도 2에 도시된 바이노럴 렌더러(100)는 본 발명의 일 실시예에 따른 블록도로서, 분리하여 표시한 블록들은 디바이스의 엘리먼트들을 논리적으로 구별하여 도시한 것이다. 따라서 상술한 디바이스의 엘리먼트들은 디바이스의 설계에 따라 하나의 칩으로 또는 복수의 칩으로 장착될 수 있다. 예를 들어, 제1 바이노럴 렌더링부(130) 및 제2 바이노럴 렌더링부(140)는 하나의 칩으로 통합되어 구현될 수도 있으며, 별도의 칩으로 구현될 수도 있다.

한편, 도 1 및 도 2를 참조로 오디오 신호의 바이노럴 렌더링 방법을 설명하였지만, 본 발명은 라우드스피커 출력을 위한 오디오 신호의 렌더링 방법으로도 확장될 수 있다. 이때, 도 1의 바이노럴 렌더러(100) 및 바이노럴 파라메터 컨트롤러(200)는 각각 렌더링 장치 및 파라메터 컨트롤러로 대체되고, 도 2의 제1 바이노럴 렌더링부(130) 및 제2 바이노럴 렌더링부(140)는 각각 제1 렌더링부 및 제2 렌더링부로 대체될 수 있다.

즉, 본 발명의 실시예에 따르면, 오디오 신호의 렌더링 장치는 서로 다른 형태의 렌더링을 수행하는 제1 렌더링부 및 제2 렌더링부를 포함할 수 있다. 제1 렌더링부는 입력 오디오 신호로부터 분리된 제1 콤포넌트에 제1 렌더링을 수행하고, 제2 렌더링부는 입력 오디오 신호로부터 분리된 제2 콤포넌트에 제2 렌더링을 수행한다. 일 실시예에 따르면, 제1 렌더링은 오브젝트 기반의 렌더링이고 제2 렌더링은 채널 기반의 렌더링일 수 있다. 이하의 명세서에서, 오디오 신호의 전처리 및 바이노럴 렌더링 방법의 다양한 실시예들을 설명하지만, 본 발명은 라우드스피커 출력을 위한 오디오 신호의 렌더링 방법에도 적용될 수 있다.

O2C 변환은 오브젝트 신호에서 채널 신호로의 변환을 가리키며, O2B 변환은 오브젝트 신호에서 B-포맷 신호로의 변환을 가리킨다. 오브젝트 신호는 기 설정된 라우드스피커 레이아웃을 갖는 채널 신호들로 분배될 수 있다. 더욱 구체적으로, 오브젝트 신호는 해당 오브젝트의 위치에 근접한 라우드스피커들의 채널 신호에 게인을 반영하여 분배될 수 있다. 일 실시예에 따르면, VBAP(Vector Based Amplitude Panning)이 사용될 수 있다.

C2O 변환은 채널 신호에서 오브젝트 신호로의 변환을 가리키며, B2O 변환은 B-포맷 신호에서 오브젝트 신호로의 변환을 가리킨다. 채널 신호 또는 B-포맷 신호를 오브젝트 신호로 변환하기 위해 블라인드 음원 분리(blind source separation) 기법이 사용될 수 있다. 블라인드 음원 분리 기법에는 PCA(Principal Component Analysis), NMF(Non-negative Matrix Factorization), DNN(Deep Neural Network) 등이 포함된다. 전술한 바와 같이, 채널 신호 또는 B-포맷 신호는 제1 콤포넌트와 제2 콤포넌트로 분리될 수 있다. 제1 콤포넌트는 적어도 하나의 사운드 오브젝트에 대응하는 오브젝트 신호일 수 있다. 또한, 제2 콤포넌트는 원본 신호에서 제1 콤포넌트가 추출된 후의 잔여 콤포넌트일 수 있다.

본 발명의 실시예에 따르면, HOA 계수들은 제1 콤포넌트와 제2 콤포넌트로 분리될 수 있다. 오디오 신호 처리 장치는 분리된 제1 콤포넌트와 제2 콤포넌트에 서로 다른 렌더링을 수행한다. 먼저, HOA 계수들 행렬 H의 행렬 분해(decomposition)를 수행하면 아래 수학식 6과 같이 U, S, V 행렬들로 표현될 수 있다.

여기서, U는 유니타리(unitary) 행렬, S는 음이 아닌 대각선 행렬, V는 유니타리 행렬이다. O는 HOA 계수들 행렬 H(즉, 앰비소닉 신호)의 최고 차수를 나타낸다. U와 S의 열 벡터의 곱 us_i는 i번째 오브젝트 신호를 나타내며, V의 열벡터 v_i는 i번째 오브젝트 신호의 위치(즉, 공간적 특성) 정보를 나타낸다. 즉, HOA 계수들 행렬 H는 복수의 오디오 신호들을 나타내는 제1 행렬 US와, 복수의 오디오 신호들 각각의 위치 벡터 정보를 나타내는 제2 행렬 V로 분해될 수 있다.

HOA 계수들의 행렬 분해는 HOA 계수들의 행렬 차원 축소 또는 행렬 인수분해를 의미한다. 본 발명의 실시예에 따르면, HOA 계수들의 행렬 분해는 SVD(Singular Value Decomposition)를 이용하여 수행될 수 있다. 다만 본 발명은 이에 한정되지 않으며, 입력 신호의 형태에 따라 PCA, NMF 또는 DNN을 이용한 행렬 분해가 수행될 수 있다. 오디오 신호 처리 장치의 전처리부는 이와 같이 HOA 계수들 행렬 H의 행렬 분해를 수행한다. 본 발명의 실시예에 따르면, 전처리부는 분해된 행렬 V로부터 HOA 계수들의 제1 콤포넌트에 대응하는 위치 벡터 정보를 추출할 수 있다. 오디오 신호 처리 장치는 추출된 위치 벡터 정보를 이용하여 HOA 계수들의 제1 콤포넌트에 대한 오브젝트 기반의 렌더링을 수행한다.

오디오 신호 처리 장치는 다양한 실시예에 따라 HOA 계수들을 제1 콤포넌트와 제2 콤포넌트로 분리할 수 있다. 상기 수학식 6에서 us_i의 크기가 일정 수준 이상 큰 경우 해당 신호는 v_i에 위치한 개별 사운드 오브젝트의 오디오 신호로 간주될 수 있다. 그러나, us_i의 크기가 일정 수준 미만으로 작은 경우 해당 신호는 앰비언트 신호로 간주될 수 있다.

본 발명의 일 실시예에 따르면, 제1 콤포넌트는 제1 행렬 US가 나타내는 복수의 오디오 신호들 중에서 높은 레벨 순서의 기 설정된 개수 N_f의 오디오 신호들로부터 추출될 수 있다. 일 실시예에 따르면, 행렬 분해가 수행된 후의 U, S, V 행렬들에서 오디오 신호 us_i 및 위치 벡터 정보 v_i는 해당 오디오 신호의 레벨 순으로 정렬될 수 있다. 이때, 제1 콤포넌트는 수학식 6에서와 같이 i=1부터 i=N_f까지의 오디오 신호들로부터 추출될 수 있다. HOA 계수들의 최고 차수가 O일 때 해당 앰비소닉 신호는 총 (O+1)²개의 앰비소닉 채널 신호들로 구성된다. N_f는 앰비소닉 채널 신호들의 총 개수 (O+1)²보다 작거나 같은 값으로 설정된다. 바람직하게는, N_f는 (O+1)²보다 작은 값으로 설정될 수 있다. 본 발명의 실시예에 따르면, N_f는 복잡도-퀄리티 제어 정보에 기초하여 조정될 수 있다.

오디오 신호 처리 장치는 앰비소닉 채널들의 총 개수보다 적은 수의 오디오 신호에 대해 오브젝트 기반의 렌더링을 수행함으로 효율적인 연산을 수행할 수 있다.

본 발명의 다른 실시예에 따르면, 제1 콤포넌트는 제1 행렬 US가 나타내는 복수의 오디오 신호들 중에서 기 설정된 임계값 이상의 레벨을 갖는 오디오 신호들로부터 추출될 수 있다. 상기 임계값에 따라 제1 콤포넌트로 추출되는 오디오 신호들의 개수는 가변할 수 있다.

오디오 신호 처리 장치는 제1 콤포넌트로 추출된 신호 us_i를 해당 신호에 대응하는 위치 벡터 v_i를 이용하여 오브젝트 기반의 렌더링을 수행한다. 본 발명의 실시예에 따르면, 제1 콤포넌트에 대한 오브젝트 기반의 바이노럴 렌더링이 수행될 수 있다. 이때, 오디오 신호 처리 장치의 제1 렌더링부(즉, 제1 바이노럴 렌더링부)는 위치 벡터 v_i에 기초한 HRTF를 이용하여 오디오 신호 us_i의 바이노럴 렌더링을 수행할 수 있다.

본 발명의 또 다른 실시예에 따르면, 제1 콤포넌트는 입력 HOA 계수들 중 기 설정된 저 차수의 계수들로부터 추출될 수 있다. 예를 들어, 입력 HOA 계수들의 최고 차수가 4차일 때, 제1 콤포넌트는 0차 및 1차 HOA 계수들로부터 추출될 수 있다. 저 차수의 HOA 계수들은 도미넌트(dominant) 사운드 오브젝트의 신호를 반영할 수 있기 때문이다. 오디오 신호 처리 장치는 저 차수의 HOA 계수들을 이에 대응하는 위치 벡터 v_i를 이용하여 오브젝트 기반의 렌더링을 수행한다.

한편, 제2 콤포넌트는 입력 HOA 계수들에서 제1 콤포넌트가 추출된 후의 잔여 신호를 가리킨다. 제2 콤포넌트는 앰비언트 신호를 나타낼 수 있으며, 백그라운드(B.G.) 신호로도 지칭될 수 있다. 오디오 신호 처리 장치는 제2 콤포넌트에 채널 기반의 렌더링을 수행한다. 더욱 구체적으로, 오디오 신호 처리 장치의 제2 렌더링부는 제2 콤포넌트를 적어도 하나의 가상 채널로 매핑하고, 매핑된 가상 채널(들)의 신호로 출력한다. 본 발명의 실시예에 따르면, 제2 콤포넌트에 대한 채널 기반의 바이노럴 렌더링이 수행될 수 있다. 이때, 오디오 신호 처리 장치의 제2 렌더링부(즉, 제2 바이노럴 렌더링부)는 제2 콤포넌트를 적어도 하나의 가상 채널로 매핑하고, 매핑된 가상 채널에 기초한 HRTF를 이용하여 제2 콤포넌트의 바이노럴 렌더링을 수행할 수 있다. HOA 계수들에 대한 채널 기반 렌더링의 구체적인 실시예는 후술하도록 한다.

본 발명의 추가적인 실시예에 따르면, 오디오 신호 처리 장치는 효율적인 연산을 위해 제2 콤포넌트의 일부 신호에 대해서만 채널 기반의 렌더링을 수행할 수 있다. 더욱 구체적으로, 오디오 신호 처지 장치의 제2 렌더링부(또는, 제2 바이노럴 렌더링부)는 제2 콤포넌트 중 기 설정된 차수 이하의 계수들에 대해서만 채널 기반의 렌더링을 수행할 수 있다. 예를 들어, 입력 HOA 계수들의 최고 차수가 4차일 때, 3차 이하의 계수들에 대해서만 채널 기반의 렌더링이 수행될 수 있다. 오디오 신호 처리 장치는 입력 HOA 계수들 중 기 설정된 차수를 초과하는(예를 들면, 4차) 계수들에 대해서는 렌더링을 수행하지 않을 수 있다.

이와 같이, 본 발명의 실시예에 따른 오디오 신호 처리 장치는 입력 오디오 신호에 대한 복합 렌더링을 수행할 수 있다. 오디오 신호 처리 장치의 전처리부는 입력 오디오 신호를 적어도 하나의 오브젝트 신호에 대응하는 제1 콤포넌트와 잔여 신호에 대응하는 제2 콤포넌트로 분리한다. 또한, 전처리부는 입력 오디오 신호를 복수의 오디오 신호들을 나타내는 제1 행렬 US와, 복수의 오디오 신호들 각각의 위치 벡터 정보를 나타내는 제2 행렬 V로 분해한다. 전처리부는 분리된 제1 콤포넌트에 대응하는 위치 벡터 정보를 제2 행렬 V로부터 추출할 수 있다. 오디오 신호 처리 장치의 제1 렌더링부(또는, 제1 바이노럴 렌더링부)는 제1 콤포넌트에 대응하는 제2 행렬 V의 위치 벡터 정보 v_i를 이용하여 제1 콤포넌트에 오브젝트 기반의 렌더링을 수행한다. 또한, 오디오 신호 처리 장치의 제2 렌더링부(또는, 제2 바이노럴 렌더링부)는 제2 콤포넌트에 채널 기반의 렌더링을 수행한다.

인위적으로 합성된 오디오 신호의 경우, 신호의 특성(예를 들면, 원본 신호의 알려진 스펙트럼 정보) 등을 이용하여 청자를 중심으로 한 음원의 상대적인 위치가 쉽게 획득될 수 있다. 따라서, HOA 신호로부터 개별 사운드 오브젝트가 쉽게 추출될 수 있다. 본 발명의 일 실시예에 따르면, 개별 사운드 오브젝트의 위치는 미리 지정된 공간 정보 및/또는 비디오 정보 등의 메타데이터를 이용하여 정의될 수 있다. 한편 마이크를 통해 녹음된 오디오 신호의 경우, NMF, DNN 등을 이용하여 행렬 V가 추정될 수 있다. 이때, 전처리부는 비디오 정보 등의 별도의 메타데이터를 이용하여 행렬 V를 보다 정확하게 추정할 수 있다.

전술한 바와 같이, 오디오 신호 처리 장치는 메타데이터를 이용하여 오디오 신호의 변환을 수행할 수 있다. 이때, 메타데이터는 비디오 신호와 같은 비 오디오 신호의 정보를 포함한다. 예를 들어, 360 비디오가 녹화된 경우 해당 비디오 신호로부터 특정 오브젝트의 위치 정보가 획득될 수 있다. 전처리부는 비디오 신호로부터 획득된 위치 정보에 기초하여 수학식 5의 변환 행렬 T를 결정할 수 있다. 변환 행렬 T는 특정 오브젝트의 위치에 따라 근사화된 수식으로 결정될 수 있다. 또한, 오디오 신호 처리 장치는 근사화된 수식을 메모리에 미리 로드 한 후 사용함으로 전처리를 위한 연산량을 줄일 수 있다.

비디오 정보를 이용하여 오브젝트 기반의 렌더링을 수행하는 구체적인 실시예는 다음과 같다. 본 발명의 실시예에 따르면, 입력 HOA 신호에 대응하는 비디오 신호의 정보를 참조하여 입력 HOA 신호로부터 오브젝트 신호를 추출될 수 있다. 먼저, 오디오 신호 처리 장치는 비디오 신호의 공간 좌표계와 HOA 신호의 공간 좌표계를 매칭시킨다. 예를 들어, 360 비디오 신호의 방위각 0도 및 고도각 0도는 HOA 신호의 방위각 0도 및 고도각 0도와 매칭될 수 있다. 또한, 360 비디오 신호와 HOA 신호의 지오-로케이션(geo-location)이 매칭될 수 있다. 이와 같은 매칭이 수행된 이후, 360 비디오 신호와 HOA 신호는 요우(yaw), 피치(pitch), 롤(role) 등의 회전 정보를 공유할 수 있다.

본 발명의 실시예에 따르면, 비디오 신호로부터 하나 이상의 CDVO(Candidate Dominant Visual Object)가 추출될 수 있다. 또한, HOA 신호로부터 하나 이상의 CDAO(Candidate Dominant Audio Object)가 추출될 수 있다. 오디오 신호 처리 장치는 CDVO와 CDAO를 상호 참조하여 DVO(Dominant Visual Object) 및 DAO(Dominant Audio Object)를 결정한다. CDVO와 CDAO가 추출되는 과정에서 후보 오브젝트들의 모호성이 확률값으로 산출될 수 있다. 오디오 신호 처리 장치는 각각의 모호성 확률값을 비교하고 이용하는 반복적인 과정을 통해 DVO와 DAO를 결정할 수 있다.

일 실시예에 따르면, CDVO와 CDAO는 1:1로 대응하지 않을 수 있다. 예를 들면, 바람 소리와 같이 비주얼 오브젝트가 없는 오디오 오브젝트가 존재할 수 있다. 또한, 나무, 태양 등과 같이 소리가 없는 비주얼 오브젝트가 존재할 수도 있다. 본 발명의 실시예에 따르면, 비주얼 오브젝트와 오디오 오브젝트가 매칭된 도미넌트 오브젝트를 DAVO(Dominant Audio-Visual Object)라고 지칭한다. 오디오 신호 처리 장치는 CDVO와 CDAO를 상호 참조하여 DAVO를 결정할 수 있다.

오디오 신호 처리 장치는 비디오 신호로부터 획득된 적어도 하나의 오브젝트의 공간적 정보를 참조하여 오브젝트 기반의 렌더링을 수행할 수 있다. 오브젝트의 공간적 정보는 오브젝트의 위치 정보, 오브젝트의 사이즈(또는, 부피) 정보를 포함한다. 이때, 적어도 하나의 오브젝트의 공간적 정보는 CDVO, DVO 또는 DAVO 중 어느 하나로부터 획득될 수 있다. 더욱 구체적으로, 오디오 신호 처리 장치의 제1 렌더링부는 제1 콤포넌트에 관계된 적어도 하나의 파라메터를 비디오 신호로부터 획득된 공간적 정보에 기초하여 보정할 수 있다. 제1 렌더링부는 상기 보정된 파라메터를 이용하여 제1 콤포넌트에 대한 오브젝트 기반의 렌더링을 수행한다.

더욱 구체적으로, 오디오 신호 처리 장치는 CDVO의 궤적 정보 및/또는 CDAO의 궤적 정보를 참고하여 움직이는 오브젝트의 위치 정보를 정확히 획득할 수 있다. CDVO의 궤적 정보는 비디오 신호의 이전 프레임에서의 오브젝트의 위치 정보를 참조하여 획득될 수 있다. 또한, CDVO의 사이즈(또는, 부피) 정보를 참고하여 CDAO의 사이즈 정보가 결정되거나 보정될 수 있다. 오디오 신호 처리 장치는 오디오 오브젝트의 사이즈 정보에 기초하여 렌더링을 수행할 수 있다. 예를 들어, 오디오 오브젝트의 사이즈 정보에 기초하여 해당 오브젝트에 대한 빔 폭 등의 HOA 파라메터가 변경될 수 있다. 또한, 오디오 오브젝트의 사이즈 정보에 기초하여 해당 오브젝트의 사이즈를 반영하는 바이노럴 렌더링이 수행될 수 있다. 오브젝트의 사이즈를 반영하는 바이노럴 렌더링은 청각적 폭의 제어를 통해 수행될 수 있다. 청각적 폭의 제어 방법으로는 서로 다른 복수개의 위치에 대응하는 바이노럴 렌더링을 수행하는 방법, 디코릴레이터를 이용하여 청각적 폭을 제어하는 방법 등이 있다.

이와 같이, 오디오 신호 처리 장치는 비디오 신호로부터 획득된 오브젝트의 공간적 정보를 참조함으로, 오브젝트 기반의 렌더링의 성능을 향상시킬 수 있다. 즉, 입력 오디오 신호에서 오브젝트 신호에 대응하는 제1 콤포넌트의 추출 성능이 향상될 수 있다.

B2C 변환은 B-포맷 신호에서 채널 신호로의 변환을 가리킨다. 앰비소닉 신호의 행렬 변환을 통해 라우드스피커 채널 신호가 획득될 수 있다. 앰비소닉 신호를 b, 라우드스피커 채널 신호를 l이라고 할 때, B2C 변환은 아래 수식과 7과 같이 표현될 수 있다.

디코딩 행렬(즉, B2C 변환 행렬) D는 라우드스피커 채널을 구면 조화함수 도메인으로 변환하는 행렬 C의 의사 역행렬 또는 역행렬이며, 아래 수학식 8과 같이 표현될 수 있다. 여기서, N은 라우드스피커 채널(또는, 가상 채널)의 개수를 나타내며, 나머지 변수들의 정의는 수학식 1 내지 수학식 3에서 설명된 바와 같다.

본 발명의 실시예에 따르면, B2C 변환은 입력 앰비소닉 신호의 일부에 대해서만 수행될 수 있다. 전술한 바와 같이, 앰비소닉 신호(즉, HOA 계수들)는 제1 콤포넌트와 제2 콤포넌트로 분리될 수 있다. 이때, 제2 콤포넌트에는 채널 기반의 렌더링이 수행될 수 있다. 입력 앰비소닉 신호를 b_original, 제1 콤포넌트를 b_Nf라고 하면, 제2 콤포넌트 b_residual은 수학식 9와 같이 획득될 수 있다.

여기서 제2 콤포넌트 b_residual은 입력 앰비소닉 신호 b_original에서 제1 콤포넌트 b_Nf가 추출된 후의 잔여 신호를 나타내며, 이 역시 앰비소닉 신호이다. 수학식 7 및 수학식 8과 동일한 방법으로, 제2 콤포넌트 b_residual의 채널 기반 렌더링은 아래 수학식 9와 같이 수행될 수 있다.

여기서, D는 수학식 8에서 정의된 바와 같다.

즉, 오디오 신호 처리 장치의 제2 렌더링부는 제2 콤포넌트 b_residual을 N개의 가상 채널들로 매핑하고, 매핑된 가상 채널들의 신호로 출력할 수 있다. N개의 가상 채널들의 위치는 (r₁, θ₁, Φ₁), … , (r_N, θ_N, Φ_N)일 수 있다. 다만, 앰비소닉 신호를 가상 채널 신호로 변환할 때, 기준점에서 각각의 가상 채널까지의 거리가 모두 동일하다고 가정할 경우 N개의 가상 채널들의 위치는 (θ₁, Φ₁), … , (θ_N, Φ_N)으로 표현될 수 있다. 본 발명의 실시예에 따르면, 제2 콤포넌트에 대한 채널 기반의 바이노럴 렌더링이 수행될 수 있다. 이때, 오디오 신호 처리 장치의 제2 렌더링부(즉, 제2 바이노럴 렌더링부)는 제2 콤포넌트를 N개의 가상 채널들로 매핑하고, 매핑된 가상 채널들에 기초한 HRTF를 이용하여 제2 콤포넌트의 바이노럴 렌더링을 수행할 수 있다.

본 발명의 추가적인 실시예에 따르면, 오디오 신호 처리 장치는 입력 오디오 신호의 B2C 변환과 회전 변환을 함께 수행할 수 있다. 개별 채널의 위치를 방위각 θ 및 고도각 Φ로 표현할 경우, 해당 위치를 단위 구 위로 사상시키면 아래 수학식 11과 같이 표현될 수 있다.

x-축을 중심으로 한 회전값을 α, y-축을 중심으로 한 회전값을 β, z-축을 중심으로 한 회전값을 γ라고 할 때, 회전 변환 이후의 개별 채널의 위치는 아래 수학식 12와 같이 표현될 수 있다.

오디오 신호 처리 장치는 상기 수식을 통해 회전 변환 이후의 개별 채널의 조정된 위치 (θ', Φ')를 획득하고, 조정된 위치 (θ', Φ')에 기초하여 B2C 변환 행렬 D를 결정할 수 있다.

<희소 행렬 기반의 바이노럴 렌더링>

입력 오디오 신호의 바이노럴 렌더링은 특정 가상 채널의 위치에 대응하는 BRIR 필터를 이용한 필터링을 통해 수행될 수 있다. 전술한 실시예들에서와 같이 전처리부에서 입력 오디오 신호의 변환이 수행되는 경우, 수학식 5에서와 같이 입력 오디오 신호는 X, 변환 행렬은 T, 변환된 오디오 신호는 Y로 표현될 수 있다. 변환된 오디오 신호 Y에 대응하는 BRIR 필터(즉, BRIR 행렬)를 H_Y라고 할 때, Y의 바이노럴 렌더링된 신호 B_Y는 아래 수학식 13과 같이 표현될 수 있다.

여기서, conv(X, Y)는 X와 Y의 콘볼루션 연산을 의미한다. 한편, 변환된 오디오 신호 Y에서 입력 오디오 신호 X로의 역 변환 행렬을 D라고 할 때, 다음 수학식 14를 만족할 수 있다.

행렬 D는 변환 행렬 T의 의사 역행렬(또는, 역행렬)로 획득될 수 있다. 입력 오디오 신호 X에 대응하는 BRIR 필터를 H_X라고 할 때, X의 바이노럴 렌더링된 신호 B_X는 아래 수학식 15와 같이 표현될 수 있다.

상기 수학식 13 및 수학식 15에서 변환 행렬 T 및 역 변환 행렬 D는 오디오 신호의 변환 형태에 따라 결정될 수 있다. 채널 신호와 오브젝트 신호간의 변환인 경우, 행렬 T 및 행렬 D는 VBAP에 기초하여 결정될 수 있다. 앰비언트 신호와 채널 신호간의 변환인 경우, 행렬 T 및 행렬 D는 전술한 B2C 변환 행렬에 기초하여 결정될 수 있다. 또한, 오디오 신호 X와 오디오 신호 Y가 각각 서로 다른 라우드스피커 레이아웃을 갖는 채널 신호인 경우, 행렬 T 및 행렬 D는 유연한 렌더링 기법을 기초로 결정되거나 CDVO를 참조하여 결정될 수 있다.

만약 행렬 T 또는 행렬 D가 희소 행렬인 경우, H_YT 또는 H_XD 또한 희소 행렬일 수 있다. 본 발명의 실시예에 따르면, 오디오 신호 처리 장치는 행렬 T와 행렬 D의 희소성을 분석하고, 높은 희소성을 가진 행렬을 이용하여 바이노럴 렌더링을 수행할 수 있다. 즉, 행렬 T가 더 높은 희소성을 가진 경우, 오디오 신호 처리 장치는 변환된 오디오 신호 Y의 바이노럴 렌더링을 수행할 수 있다. 그러나 행렬 D가 더 높은 희소성을 가진 경우, 오디오 신호 처리 장치는 입력 오디오 신호 X의 바이노럴 렌더링을 수행할 수 있다.

행렬 T와 행렬 D가 실시간으로 변화하는 경우, 오디오 신호 처리 장치는 오디오 신호 Y의 바이노럴 렌더링과 오디오 신호 X의 바이노럴 렌더링을 스위칭할 수 있다. 이때, 갑작스러운 스위칭을 방지하기 위해 오디오 신호 처리 장치는 페이드-인/페이드-아웃 윈도우를 사용하거나 스무딩(smoothing) 팩터를 적용하여 스위칭을 수행할 수 있다.

도 3은 구형 마이크 어레이를 통해 녹음된 신호로부터 바이노럴 신호가 획득되는 과정을 나타낸다. 포맷 컨버터(50)는 전술한 A2B 변환 과정을 통해 마이크 어레이 신호(즉, A-포맷 신호)를 앰비소닉 신호(즉, B-포맷 신호)로 변환할 수 있다. 오디오 신호 처리 장치는 전술한 다양한 실시예들 또는 이들의 조합으로 앰비소닉 신호에 대한 바이노럴 렌더링을 수행할 수 있다.

본 발명의 제1 실시예에 따른 바이노럴 렌더러(100A)는 B2C 변환 및 C2P 변환을 이용하여 앰비소닉 신호에 대한 바이노럴 렌더링을 수행한다. C2P 변환은 채널 신호에서 바이노럴 신호로의 변환을 가리킨다. 바이노럴 렌더러 100A는 청자의 머리의 움직임을 반영하는 헤드 트래킹 정보를 수신하고, 이를 기초로 B-포맷 신호의 회전 변환을 위한 행렬 곱셈을 수행할 수 있다. 전술한 바와 같이, 바이노럴 렌더러 100A는 회전 변환 정보에 기초하여 B2C 변환 행렬을 결정할 수 있다. B-포맷 신호는 B2C 변환 행렬을 이용하여 가상 채널 신호 또는 실제 라우드스피커 채널 신호로 변환된다. 그 다음으로, 채널 신호는 C2P 변환을 통해 최종 바이노럴 신호로 변환된다.

한편, 본 발명의 제2 실시예에 따른 바이노럴 렌더러(100B)는 B2P 변환을 이용하여 앰비소닉 신호에 대한 바이노럴 렌더링을 수행할 수 있다. B2P 변환은 B-포맷 신호에서 바이노럴 신호로의 직접적인 변환을 가리킨다. 즉, 바이노럴 렌더러 100B는 B-포맷 신호를 채널 신호로 변환하는 과정을 거치지 않고, 바이노럴 신호로 곧바로 변환한다.

도 4는 바이노럴 마이크 어레이를 통해 녹음된 신호로부터 바이노럴 신호가 획득되는 과정을 나타낸다. 바이노럴 마이크 어레이(30)는 수평면 상에 존재하는 2N개의 마이크(32)들로 구성될 수 있다. 일 실시예에 따르면, 바이노럴 마이크 어레이(30)의 각 마이크(32)는 외이의 형태를 묘사한 귓바퀴 모형과 함께 배치될 수 있다. 따라서, 바이노럴 마이크 어레이(30)의 각 마이크(32)는 음향 신호를 HRTF가 적용된 신호로 녹음할 수 있다. 귓바퀴 모형을 거쳐서 녹음된 신호는 귓바퀴의 구조에 의한 음파의 반사, 산란 등에 의해 필터링이 수행된다. 바이노럴 마이크 어레이(30)가 2N개의 마이크(32)들로 구성된 경우, N-포인트(즉, N개의 방향)의 사운드 씬이 녹음될 수 있다. N이 4인 경우, 바이노럴 마이크 어레이(30)는 방위각 90도 간격으로 4개의 사운드 씬을 녹음할 수 있다.

바이노럴 렌더러(100)는 바이노럴 마이크 어레이(30)로부터 수신된 사운드 씬 정보를 이용하여 바이노럴 신호를 생성한다. 이때, 바이노럴 렌더러(100)는 헤드 트래킹 정보를 이용하여 인터랙티브 바이노럴 렌더링(즉, 360 렌더링)을 수행할 수 있다. 그러나 입력된 사운드 씬 정보가 N-포인트로 한정되므로, 그 사이의 방위각들에 대응하는 사운드 씬을 렌더링하기 위해서는 2N개의 마이크 입력 신호를 이용한 보간이 필요하다. 또한, 수평면에 대응되는 사운드 씬 정보만 입력으로 수신되므로, 특정 고도각에 대응하는 오디오 신호의 렌더링을 수행하기 위해서는 별도의 외삽이 수행되어야 한다.

도 5는 바이노럴 마이크 어레이를 통해 녹음된 사운드 씬을 이용하여 바이노럴 신호를 생성하는 구체적인 실시예를 나타낸다. 본 발명의 실시예에 따르면, 바이노럴 렌더러(100)는 입력 사운드 씬의 방위각 보간 및 고도각 외삽을 통해 바이노럴 신호를 생성할 수 있다.

먼저, 바이노럴 렌더러(100)는 방위각 정보에 기초하여 입력 사운드 씬의 방위각 보간을 수행할 수 있다. 일 실시예에 따르면, 바이노럴 렌더러(100)는 입력 사운드 씬을 가장 가까운 2개의 포인트의 신호로 파워 패닝할 수 있다. 더욱 구체적으로, 바이노럴 레더러(100)는 청자의 머리 방향 정보를 획득하고, 머리 방향 정보에 대응하는 제1 포인트와 제2 포인트를 결정한다. 다음으로, 바이노럴 렌더러(100)는 청자의 머리 방향을 제1 포인트와 제2 포인트의 평면에 사상하고, 사상된 위치로부터 제1 포인트 및 제2 포인트까지의 각각의 거리를 이용하여 보간 계수를 결정할 수 있다. 바이노럴 렌더러(100)는 결정된 보간 계수를 이용하여 방위각 보간을 수행한다. 이와 같은 방위각 보간을 통해서 파워 패닝된 출력 신호 Pz_L 및 Pz_R이 생성될 수 있다.

다음으로, 바이노럴 렌더러(100)는 고도각 정보에 기초하여 고도각 외삽을 추가적으로 수행할 수 있다. 바이노럴 렌더러(100)는 방위각 보간이 수행된 신호 Pz_L 및 Pz_R에 고도각 e에 대응하는 파라메터를 이용한 필터링을 수행하여 고도각 e가 반영된 출력 신호 Pze_L 및 Pze_R을 생성할 수 있다. 일 실시예에 따르면, 고도각 e에 대응하는 파라메터는 고도각 e에 대응하는 노치 및 피크 값을 포함할 수 있다.

상술한 본 발명의 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.

하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.

펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리는 프로세서의 내부 또는 외부에 위치할 수 있으며, 이미 공지된 다양한 수단에 의해 프로세서와 데이터를 주고 받을 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아는 것으로 해석해야 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

오디오 신호 처리 장치로서,

입력 오디오 신호를 적어도 하나의 오브젝트 신호에 대응하는 제1 콤포넌트와 잔여 신호에 대응하는 제2 콤포넌트로 분리하고, 상기 제1 콤포넌트에 대응하는 위치 벡터 정보를 상기 입력 오디오 신호로부터 추출하는 전처리부;

상기 위치 벡터 정보를 이용하여 상기 제1 콤포넌트에 오브젝트 기반의 제1 렌더링을 수행하는 제1 렌더링부; 및

상기 제2 콤포넌트에 채널 기반의 제2 렌더링을 수행하는 제2 렌더링부;

를 포함하는 오디오 신호 처리 장치.
제1 항에 있어서,

상기 입력 오디오 신호는 HOA(Higher Order Ambisonics) 계수들을 포함하며,

상기 전처리부는 상기 HOA 계수들을 복수의 오디오 신호들을 나타내는 제1 행렬과, 상기 복수의 오디오 신호들 각각의 위치 벡터 정보를 나타내는 제2 행렬로 분해하고,

상기 제1 렌더링부는 상기 제1 콤포넌트에 대응하는 상기 제2 행렬의 위치 벡터 정보를 이용하여 오브젝트 기반의 렌더링을 수행하는 오디오 신호 처리 장치.
제2 항에 있어서,

상기 제1 콤포넌트는 상기 제1 행렬이 나타내는 복수의 오디오 신호들 중 높은 레벨 순서의 기 설정된 개수의 오디오 신호들로부터 추출되는 오디오 신호 처리 장치.
제2 항에 있어서,

상기 제1 콤포넌트는 상기 제1 행렬이 나타내는 복수의 오디오 신호들 중 기 설정된 임계값 이상의 레벨을 갖는 오디오 신호들로부터 추출되는 오디오 신호 처리 장치.
제2 항에 있어서,

상기 제1 콤포넌트는 상기 HOA 계수들 중 기 설정된 저 차수의 계수들로부터 추출되는 오디오 신호 처리 장치.
제2 항에 있어서,

상기 전처리부는 SVD(Singular Value Decomposition)를 이용하여 상기 HOA 계수들의 행렬 분해를 수행하는 오디오 신호 처리 장치.
제1 항에 있어서,

상기 제1 렌더링은 오브젝트 기반의 바이노럴 렌더링이며,

상기 제1 렌더링부는 상기 제1 콤포넌트에 대응하는 위치 벡터 정보에 기초한 HRTF(Head Related Transfer Function)를 이용하여 상기 제1 렌더링을 수행하는 오디오 신호 처리 장치.
제1 항에 있어서,

상기 제2 렌더링은 채널 기반의 바이노럴 렌더링이며,

상기 제2 렌더링부는 상기 제2 콤포넌트를 적어도 하나의 가상 채널로 매핑하고, 매핑된 가상 채널에 기초한 HRTF를 이용하여 상기 제2 렌더링을 수행하는 오디오 신호 처리 장치.
제1 항에 있어서,

상기 제1 렌더링부는 상기 입력 오디오 신호에 대응하는 비디오 신호로부터 획득된 적어도 하나의 오브젝트의 공간적 정보를 참조하여 상기 제1 렌더링을 수행하는 오디오 신호 처리 장치.
제9 항에 있어서,

상기 제1 렌더링부는 상기 제1 콤포넌트에 관계된 적어도 하나의 파라메터를 상기 비디오 신호로부터 획득된 공간적 정보에 기초하여 보정하고, 보정된 파라메터를 이용하여 상기 제1 콤포넌트에 대한 오브젝트 기반의 렌더링을 수행하는 오디오 신호 처리 장치.
오디오 신호 처리 방법으로서,

입력 오디오 신호를 적어도 하나의 오브젝트 신호에 대응하는 제1 콤포넌트와 잔여 신호에 대응하는 제2 콤포넌트로 분리하는 단계;

상기 제1 콤포넌트에 대응하는 위치 벡터 정보를 상기 입력 오디오 신호로부터 추출하는 단계;

상기 위치 정보 벡터를 이용하여 상기 제1 콤포넌트에 오브젝트 기반의 제1 렌더링을 수행하는 단계; 및

상기 제2 콤포넌트에 채널 기반의 제2 렌더링을 수행하는 단계;

를 포함하는 오디오 신호 처리 방법.
제11 항에 있어서,

상기 입력 오디오 신호는 HOA(Higher Order Ambisonics) 계수들을 포함하며,

상기 오디오 신호 처리 방법은,

상기 HOA 계수들을 복수의 오디오 신호들을 나타내는 제1 행렬과, 상기 복수의 오디오 신호들 각각의 위치 벡터 정보를 나타내는 제2 행렬로 분해하는 단계; 및

상기 제1 콤포넌트에 대응하는 상기 제2 행렬의 위치 벡터 정보를 이용하여 오브젝트 기반의 렌더링을 수행하는 단계;

를 더 포함하는 오디오 신호 처리 방법.
제12 항에 있어서,

상기 제1 콤포넌트는 상기 제1 행렬이 나타내는 복수의 오디오 신호들 중 높은 레벨 순서의 기 설정된 개수의 오디오 신호들로부터 추출되는 오디오 신호 처리 방법.
제12 항에 있어서,

상기 제1 콤포넌트는 상기 제1 행렬이 나타내는 복수의 오디오 신호들 중 기 설정된 임계값 이상의 레벨을 갖는 오디오 신호들로부터 추출되는 오디오 신호 처리 방법.
제12 항에 있어서,

상기 제1 콤포넌트는 상기 HOA 계수들 중 기 설정된 저 차수의 계수들로부터 추출되는 오디오 신호 처리 방법.
제12 항에 있어서,

SVD(Singular Value Decomposition)를 이용하여 상기 HOA 계수들의 행렬 분해가 수행되는 오디오 신호 처리 방법.
제11 항에 있어서,

상기 제1 렌더링은 오브젝트 기반의 바이노럴 렌더링이며,

상기 제1 렌더링은 상기 제1 콤포넌트에 대응하는 위치 벡터 정보에 기초한 HRTF(Head Related Transfer Function)를 이용하여 수행되는 오디오 신호 처리 방법.
제11 항에 있어서,

상기 제2 렌더링은 채널 기반의 바이노럴 렌더링이며,

상기 제2 렌더링은 수행하는 단계는,

상기 제2 콤포넌트를 적어도 하나의 가상 채널로 매핑하고, 매핑된 가상 채널에 기초한 HRTF를 이용하여 수행되는 오디오 신호 처리 방법.
제11 항에 있어서,

상기 제1 렌더링은 상기 입력 오디오 신호에 대응하는 비디오 신호로부터 획득된 적어도 하나의 오브젝트의 공간적 정보를 참조하여 수행되는 오디오 신호 처리 방법.
제19 항에 있어서,

상기 제1 렌더링을 수행하는 단계는,

상기 제1 콤포넌트에 관계된 적어도 하나의 파라메터를 상기 비디오 신호로부터 획득된 공간적 정보에 기초하여 보정하는 단계; 및

보정된 파라메터를 이용하여 상기 제1 콤포넌트에 대한 오브젝트 기반의 렌더링을 수행하는 단계;

를 포함하는 오디오 신호 처리 방법.