WO2018056780A1

WO2018056780A1 - 바이노럴 오디오 신호 처리 방법 및 장치

Info

Publication number: WO2018056780A1
Application number: PCT/KR2017/010564
Authority: WO
Inventors: 전상배; 이태규; 오현오
Original assignee: 지오디오랩 인코포레이티드
Priority date: 2016-09-23
Filing date: 2017-09-25
Publication date: 2018-03-29
Also published as: US20180091917A1; US10356545B2; JP2019533404A

Abstract

오디오 신호를 렌더링하는 오디오 신호 처리 장치가 개시된다. 오디오 신호 처리 장치는 오디오 신호를 포함하는 오디오 파일을 수신하는 수신부; 상기 오디오 파일의 제1 트랙에 포함된 제1 오디오 신호 성분과 제2 트랙에 포함된 제2 오디오 신호 성분을 동시에 렌더링하는 프로세서; 및 상기 렌더링된 제1 오디오 신호 성분과 상기 렌더링된 제2 오디오 신호 성분을 출력하는 출력부를 포함한다.

Description

바이노럴 오디오 신호 처리 방법 및 장치

본 발명은 오디오 신호 처리 방법 및 장치에 관한 것이다. 구체적으로 본 발명은 바이노럴 오디오 신호 처리 방법 및 장치에 관한 것이다.

3D 오디오란 기존의 서라운드 오디오에서 제공하는 수평면(2D) 상의 사운드 장면에 높이 방향에 해당하는 또 다른 축을 제공함으로써, 3차원 공간상에서 임장감 있는 사운드를 제공하기 위한 일련의 신호 처리, 전송, 부호화 및 재생기술 등을 통칭한다. 특히, 3D 오디오를 제공하기 위해서는 종래보다 많은 수의 스피커를 사용하거나 혹은 적은 수의 스피커를 사용하더라도 스피커가 존재하지 않는 가상의 위치에서 음상이 맺히도록 하는 렌더링 기술이 요구된다.

3D 오디오는 초고해상도 TV(UHDTV)에 대응되는 오디오 솔루션이 될 것으로 예상되며, 고품질 인포테인먼트 공간으로 진화하고 있는 차량에서의 사운드를 비롯하여 그밖에 극장 사운드, 개인용 3DTV, 태블릿, 무선 통신 단말 및 클라우드 게임 등 다양한 분야에서 응용될 것으로 예상된다.

한편, 3D 오디오에 제공되는 음원의 형태로는 채널 기반의 신호와 오브젝트 기반의 신호가 존재할 수 있다. 이 뿐만 아니라, 채널 기반의 신호와 오브젝트 기반의 신호가 혼합된 형태의 음원이 존재할 수 있으며, 이를 통해 유저로 하여금 새로운 형태의 컨텐츠 경험을 제공할 수 있다.

바이노럴 렌더링은 이러한 3D 오디오를 사람의 양귀에 전달되는 신호로 모델링하는 것이다. 사용자는 헤드폰이나 이어폰 등을 통한 바이노럴 렌더링된 2 채널 오디오 출력 신호를 통해서도 입체감을 느낄 수 있다. 바이노럴 렌더링의 구체적인 원리는 다음과 같다. 사람은 언제나 두 귀를 통해 소리를 듣고, 소리를 통해서 음원 위치와 방향을 인식한다. 따라서 3D 오디오를 사람의 두 귀에 전달되는 오디오 신호 형태로 모델링할 수 있다면, 많은 수의 스피커 없이 2 채널 오디오 출력을 통해서도 3D 오디오의 입체감을 재현할 수 있다.

본 발명의 일 실시 예는 오디오 신호를 프로세싱하는 오디오 신호 처리 방법 및 장치를 제공하는 것을 목적으로 한다.

구체적으로 본 발명의 일 실시 예는 바이노럴 오디오 신호를 처리하는 오디오 신호 처리 방법 및 장치를 제공하는 것을 목적으로 한다.

구체적으로 본 발명의 일 실시 예는 메타데이터를 이용하여 바이노럴 오디오 신호를 처리하는 오디오 신호 처리 방법 및 장치를 제공하는 것을 목적으로 한다.

구체적으로 본 발명의 일 실시 예는 오디오 신호의 채널 수보다 더 작은 수의 채널 수를 지원하는 오디오 파일 포맷을 사용하는 오디오 신호 처리 방법 및 장치를 제공하는 것을 목적으로 한다.

본 발명의 실시 예에 따라 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 오디오 신호를 포함하는 오디오 파일을 수신하는 수신부; 상기 오디오 파일의 제1 트랙에 포함된 제1 오디오 신호 성분과 제2 트랙에 포함된 제2 오디오 신호 성분을 동시에 렌더링하는 프로세서; 및 상기 렌더링된 제1 오디오 신호 성분과 상기 렌더링된 제2 오디오 신호 성분을 출력하는 출력부를 포함한다.

상기 제1 트랙과 상기 제2 트랙 각각이 지원하는 오디오 신호의 채널 수가 상기 오디오 신호의 채널 수의 합보다 작을 수 있다.

상기 제1 트랙은 상기 오디오 파일의 복수의 트랙 중 미리 지정된 위치의 트랙일 수 있다.

상기 제1 오디오 신호 성분은 오디오 신호가 시뮬레이션하는 음상의 위치를 표현하기 위한 메타데이터 없이 렌더링 될 수 있는 오디오 신호 성분일 수 있다.

상기 제1 오디오 신호 성분은 바이노럴 렌더링을 위한 메타데이터 없이 렌더링 될 수 있는 오디오 신호 성분일 수 있다.

상기 제1 트랙은 메타데이터를 포함할 수 있다. 이때, 상기 프로세서는 상기 메타데이터를 기초로 오디오 신호 성분을 포함하는 상기 오디오 파일의 트랙을 판단할 수 있다.

상기 프로세서는 상기 메타데이터를 기초로 상기 제1 오디오 신호 성분과 상기 제2 오디오 신호 성분을 렌더링할 수 있다.

상기 프로세서는 상기 오디오 파일의 복수의 트랙이 상기 오디오 신호의 오디오 신호 성분을 포함하는지 미리 지정된 트랙 순서로 확인할 수 있다.

상기 프로세서는 상기 오디오 신호 처리 장치의 능력에 따라 상기 오디오 파일의 복수의 트랙에 포함된 복수의 오디오 신호 성분 중 상기 제1 오디오 신호 성분과 상기 제2 오디오 신호 성분을 선택하할 수 있다.

본 발명의 실시 예에 따라 오디오 신호 전달을 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 오디오 신호를 수신하는 수신부; 상기 오디오 신호의 제1 오디오 신호 성분을 제1 트랙에 포함하고, 상기 오디오 신호의 제2 오디오 신호 성분을 제2 트랙에 포함하는 오디오 파일을 생성하는 프로세서; 및 상기 오디오 파일을 출력하는 출력부를 포함할 수 있다.

상기 프로세서는 상기 제1 트랙에 메타데이터를 삽입하고, 상기 메타데이터는 상기 오디오 파일의 복수의 트랙 중 어느 트랙이 상기 오디오 신호의 오디오 신호 성분을 포함하는지 나타낼 수 있다.

상기 프로세서는 상기 오디오 신호의 복수의 오디오 신호 성분을 상기 오디오 파일의 복수의 트랙에 지정된 순서대로 삽입할 수 있다.

본 발명의 실시 예에 따라 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 오디오 신호를 수신하는 수신부; 상기 오디오 신호에 대한 메타데이터를 기초로 상기 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하여 상기 오디오 신호를 렌더링할지 결정하고, 상기 결정에 따라 상기 오디오 신호를 렌더링하는 프로세서; 및 상기 렌더링된 오디오 신호를 출력하는 출력부를 포함할 수 있다.

상기 메타데이터는 상기 메타데이터가 지시하는 시간 구간에 해당하는 사운드 레벨을 나타내는 사운드 레벨 정보를 포함할 수 있다. 이때, 상기 프로세서는 상기 사운드 레벨 정보를 기초로 상기 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하여 상기 오디오 신호를 렌더링할지 결정할 수 있다.

상기 프로세서는 제1 시간 구간에 해당하는 오디오 신호의 사운드 레벨과 제2 시간 구간에 해당하는 오디오 신호의 사운드 레벨의 차이를 비교하여, 상기 제2 시간 구간에 해당하는 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하여 상기 제2 시간 구간에 해당하는 오디오 신호를 렌더링할지 결정 할 수 있다. 이때, 상기 제1 시간 구간은 상기 제2 시간 구간보다 앞서 시간일 수 있다.

상기 프로세서는 상기 사운드 레벨 정보가 나타내는 사운드 레벨이 미리 지정된 값보다 작은지를 기초로 상기 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하여 상기 오디오 신호를 렌더링할지 결정할 수 있다.

상기 메타데이터는 바이노럴 렌더링 적용 강도를 나타내는 바이노럴 효과 세기 정보를 포함할 수 있다. 상기 프로세서는 상기 바이노럴 효과 세기 정보를 기초로 상기 오디오 신호에 대한 바이노럴 렌더링 적용 강도를 결정하고, 상기 결정된 바이노럴 렌더링 적용 강도로 상기 오디오 신호를 바이노럴 렌더링할 수 있다.

상기 프로세서는 상기 결정된 바이노럴 렌더링 적용 강도에 따라 바이노럴 렌더링을 위한 HRTF(Head Related Transfer Function) 또는 BRIR(Binaural Rendering Impulse Response)의 적용 강도를 변경할 수 있다.

상기 바이노럴 효과 세기 정보는 상기 오디오 신호의 성분 별로 바이노럴 렌더링 강도를 지시할 수 있다.

상기 바이노럴 효과 세기 정보는 프레임 단위로 바이노럴 렌더링 강도를 지시할 수 있다.

상기 메타데이터는 청자의 움직임을 반영하여 상기 오디오 신호를 렌더링할지를 나타내는 움직임 적용 여부 정보를 포함할 수 있다. 이때, 상기 프로세서는 상기 움직임 적용 여부 정보를 기초로 상기 청자의 움직임을 반영하여 상기 오디오 신호를 렌더링할지 결정할 수 있다.

상기 프로세서는 상기 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하여 렌더링할지가 변경되는지에 따라 페이드 인/페이드 아웃을 적용하여 상기 오디오 신호를 렌더링할 수 있다.

상기 메타데이터는 청자에 따라 설정될 수 있는 파라미터인 개인화 파라미터의 적용의 허용 여부를 나타내는 개인화 파라미터 적용 정보를 포함할 수 있다. 이때, 상기 프로세서는 상기 개인화 파라미터 적용 정보에 따라 개인화 파라미터를 적용하지 않고 상기 오디오 신호를 렌더링할 수 있다.

본 발명의 실시 예에 따라 오디오 신호 전달을 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 상기 오디오 신호를 수신하는 수신부; 상기 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하기 위한 정보를 포함하는, 상기 오디오 신호에 대한 메타데이터를 생성하는 프로세서; 및 상기 메타데이터를 출력하는 출력부를 포함할 수 있다.

상기 프로세서는 상기 메타데이터가 지시하는 시간 구간에 해당하는 사운드 레벨을 상기 메타데이터에 삽할 수 있다. 이때, 상기 사운드 레벨은 상기 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하여 상기 오디오 신호를 렌더링할지 결정하는데 사용될 수 있다.

상기 프로세서는 상기 오디오 신호에 적용되는 바이노럴 렌더링 강도를 나타내는 바이노럴 효과 세기 정보를 상기 메타데이터에 삽입할 수 있다.

상기 바이노럴 효과 세기 정보는 바이노럴 렌더링을 위한 HRTF(Head Related Transfer Function) 또는 BRIR(Binaural Rendering Impulse Response)의 적용 강도를 변경하는데 사용될 수 있다.

상기 바이노럴 효과 세기 정보는 상기 오디오 신호의 오디오 신호 성분 별로 바이노럴 렌더링 강도를 지시할 수 있다.

상기 바이노럴 효과 세기 정보는 프레임 단위로 바이노럴 렌더링 적용 강도를 지시할 수 있다.

상기 프로세서는 청자의 움직임을 반영하여 상기 오디오 신호를 렌더링할지 나타내는 움직임 적용 여부 정보를 상기 메타데이터에 삽입할 수 있다. 상기 청자의 움직임은 상기 청자의 머리 움직임을 포함할 수 있다.

본 발명의 실시 예에 따라 오디오 신호를 렌더링하는 오디오 신호 처리 장치의 동작 방법은 오디오 신호를 수신하는 단계; 상기 오디오 신호에 대한 메타데이터를 기초로 상기 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하여 상기 오디오 신호를 렌더링하는 단계; 및 상기 렌더링된 오디오 신호를 출력하는 단계를 포함할 수 있다.

본 발명의 일 실시 예는 복수의 오디오 신호를 프로세싱하는 오디오 신호 처리 방법 및 장치를 제공한다.

구체적으로 본 발명의 일 실시 예는 앰비소닉 신호로 표현될 수 있는 오디오 신호를 처리하는 오디오 신호 처리 방법 및 장치를 제공한다.

도 1은 본 발명의 일 실시 예에 따라 오디오 신호를 렌더링하는 오디오 신호 처리 장치를 보여주는 블록도이다.

도 2는 본 발명의 실시 예에 따라 오디오 신호를 렌더링하는 오디오 신호 처리 장치가 앰비소닉 신호와 오브젝트 신호를 함께 프로세싱하는 동작을 보여주는 블록도이다.

도 3은 본 발명의 실시 예에 따라 바이노럴 렌더링 적용 정도를 나타내는 메타데이터의 신택스(syntax)를 보여준다.

도 4는 본 발명의 실시 예에 따라 오디오 신호가 렌더링되는 장치의 특성에 따라 렌더링 조건을 조정하기 위한 메타데이터의 신택스(syntax)를 보여준다.

도 5는 본 발명의 실시 예에 따른 부가 정보의 분류를 보여준다.

도 6은 본 발명의 실시 예에 따른 헤더 파라미터의 구조를 보여준다.

도 7은 본 발명의 실시 예에 따른 GAO_HDR의 구체적인 포맷을 보여준다.

도 8은 본 발명의 실시 예에 따른 메타데이터 파라미터의 구조를 보여준다.

도 9는 본 발명의 일 실시 예에 따라 오디오 신호를 렌더링하는 오디오 신호 처리 장치가 오디오 신호와 별도로 메타데이터를 획득하는 동작을 보여준다.

도 10은 본 발명의 일 실시 예에 따라 오디오 신호를 렌더링하는 오디오 신호 처리 장치가 오디오 신호와 함께 메타데이터를 획득하는 동작을 보여준다.

도 11은 본 발명의 일 실시 예에 따라 오디오 신호를 렌더링하는 오디오 신호 처리 장치가 오디오 신호와 메타데이터를 링크하는 링크 정보를 함께 획득하는 동작을 보여준다.

도 12 내지 도 13은 본 발명의 일 실시 예에 따라 오디오 신호를 렌더링하는 오디오 신호 처리 장치가 오디오 비트스트림을 기초로 메타데이터를 획득하는 동작을 보여준다.

도 14는 본 발명의 일 실시 예에 따라 오디오 신호를 렌더링하는 오디오 신호 처리 장치가 전송 스트리밍을 통해 오디오 신호를 수신할 때, 오디오 신호 처리 장기가 메타데이터를 획득하는 방법을 보여준다.

도 15 내지 도 16은 본 발명의 실시 예에 따른 AAC 파일의 신택스를 보여준다.

도 17은 본 발명의 실시 예에 따라 오디오 신호가 포함하는 채널 수의 합보다 작은 수의 채널을 지원하는 오디오 파일 포맷을 이용하는 오디오 신호 처리 방법을 보여준다.

도 18은 본 발명의 일 실시 예에 따라 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치를 보여주는 블락도이다.

도 19는 본 발명의 일 실시 예에 따라 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치의 동작 방법을 보여주는 순서도이다.

도 20은 본 발명의 일 실시 예에 따라 오디오 신호를 렌더링하는 오디오 신호 처리 장치의 동작 방법을 보여주는 순서도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 출원은 대한민국 특허 출원 제10-2016-0122515호(2016.09.23) 및 제10-2017-0018515호(2017.02.10)를 기초로 하는 우선권을 주장하며, 우선권의 기초가 되는 상기 각 출원들에 서술된 실시 예 및 기재 사항은 본 출원의 상세한 설명에 포함되는 것으로 한다.

본 발명의 일 실시 예에 따라 오디오 신호를 렌더링하는 오디오 신호 처리 장치(100)는 수신부(10), 프로세서(30) 및 출력부(70)를 포함한다.

수신부(10)는 입력 오디오 신호를 수신한다. 이때, 입력 오디오 신호는 음향 수집장치가 수신한 음향이 변환된 것일 수 있다. 음향 수집 장치는 마이크일 수 있다. 또한, 음향 수집 장치는 복수의 마이크를 포함하는 마이크 어레이일 수 있다.

프로세서(30)는 수신부(10)가 수신한 입력 오디오 신호를 프로세싱한다. 구체적으로 프로세서(30)는 포맷 컨버터, 렌더러, 포스트 프로세싱부를 포함할 수 있다. 포맷 컨버터는 입력 오디오 신호의 포맷을 다른 포맷으로 변환한다. 구체적으로 포맷 컨버터는 오브젝트 신호를 앰비소닉 신호로 변환할 수 있다. 이때, 앰비소닉 신호는 마이크 어레이를 통해 녹음된 신호일 수도 있다. 또한 앰비소닉 신호는 마이크 어레이를 통해 녹음한 신호를 구면 조화 함수(spherical harmonics)의 기저에 대한 계수 (coefficient)로 변환한 신호일 수도 있다. 또한, 포맷 컨버터는 앰비소닉 신호를 오브젝트 신호로 변환할 수 있다. 구체적으로 포맷 컨버터는 앰비소닉 신호의 차수를 변경할 수 있다. 예컨대, 포맷 컨버터는 HoA(Higher Order Ambisonics) 신호를 FoA(First Order Ambisonics) 신호로 변경할 수 있다. 또한, 포맷 컨버터는 입력 오디오 신호에 관련된 위치 정보를 획득하고, 획득한 위치 정보를 기초로 입력 오디오 신호의 포맷을 변환할 수 있다. 이때, 위치 정보는 오디오 신호에 해당하는 음향을 수집한 마이크 어레이에 대한 정보일 수 있다. 구체적으로 마이크 어레에 대한 정보는 마이크 어레이를 구성하는 마이크들의 배열 정보, 개수 정보, 위치 정보, 주파수 특성 정보, 빔 패턴 정보 중 적어도 하나를 포함할 수 있다. 또한, 입력 오디오 신호에 관련된 위치 정보는 음원의 위치를 나타내는 정보를 포함할 수 있다.

렌더러는 입력 오디오 신호를 렌더링한다. 구체적으로 렌더러는 포맷이 변환된 입력 오디오 신호를 렌더링할 수 있다. 이때, 입력 오디오 신호는 라우드스피커 채널 신호, 오브젝트 신호 및 앰비소닉 신호 중 적어도 어느 하나를 포함할 수 있다. 구체적인 실시 예에서 렌더러는 오디오 신호의 포맷이 나타내는 정보를 이용해 입력 오디오 신호가 3차원상에 위치한 가상의 사운드 오브젝트에 의해 표현되도록 하는 오디오 신호로 렌더링할 수 있다. 예컨대, 렌더러는 입력 오디오 신호를 복수의 스피커에 매칭하여 렌더링할 수 있다. 또한, 렌더러는 입력 오디오 신호를 바이노럴 렌더링할 수 있다.

또한, 렌더러는 오브젝트 신호와 앰비소닉 신호의 시간을 동기화하는 시간 동기화부(Time Synchonizer)를 포함할 수 있다.

또한, 렌더러는 앰비소닉 신호의 6자유도(6 Degrees Of Freedom, 6DOF)를 제어하는 6DOF 제어부를 포함할 수 있다. 이때, 6DOF 제어부는 앰비소닉 신호의 특정 방향 성분의 크기를 변경하는 방향 변경부를 포함할 수 있다. 구체적으로 6DOF 제어부는 오디오 신호가 시뮬레이션하는 가상의 공간에서 청자의 위치에 따라 앰비소닉 신호의 특정 방향 성분의 크기를 변경할 수 있다. 방향 변경부는 앰비소닉 신호의 특정 방향 성분의 크기를 변경하기 위한 행렬을 생성하는 방향 변경 행렬 생성부(Directional Modification Matrix Generator)를 포함할 수 있다. 또한, 6DOF 제어부는 앰비소닉 신호를 채널 신호로 변환하는 변환부를 포함하고, 6DOF 제어부는 채널 신호에 대응하는 가상의 스피커와 오디오 신호의 청자 사이의 상대적 위치를 연산하는 상대적 위치 연산부를 포함할 수 있다.

출력부(70)는 렌더링된 오디오 신호를 출력한다. 구체적으로 출력부(70)는 2개 이상의 라우드 스피커를 통해 오디오 신호를 출력할 수 있다. 또 다른 구체적인 실시 예에서 출력부(70)는 2채널 스테레오 헤드폰을 통해 오디오 신호를 출력할 수 있다.

오디오 신호 처리 장치(100)는 앰비소닉 신호와 오브젝트 신호를 함께 처리할 수 있다. 이때, 오디오 신호 처리 장치(100)의 구체적인 동작에 대해서는 도 2를 통해 설명한다.

앞서 언급한 앰비소닉(Ambisonics)은 오디오 신호 처리 장치가 음장에 대한 정보를 획득하고, 획득한 정보를 이용하여 소리를 재현하는 방법 중 하나이다. 구체적으로 앰비소닉은 오디오 신호 처리 장치가 다음과 같이 오디오 신호를 프로세싱하는 것을 나타낼 수 있다.

이상적인 앰비소닉 신호 프로세싱을 위해 오디오 신호 처리 장치는 공간상의 한 점에 입사하는 모든 방향의 음향으로부터 음원에 대한 정보를 획득해야 한다. 그러나 마이크의 크기를 줄이는데는 한계가 있으므로, 오디오 신호 처리 장치는 구의 표면에서 수집된 음향으로부터 무한히 작은 점으로 입사하는 신호를 연산하여 음원에 대한 정보를 획득하고, 획득한 정보를 사용할 수 있다. 구체적으로 구면 좌표계 상에서 마이크 어레이의 각 마이크의 위치는 좌표계 중심으로부터의 거리, 방위각(또는, 수평각) 및 고도각(또는, 수직각)으로 표현될 수 있다. 오디오 신호 처리 장치는 구면 좌표계에서의 각 마이크의 좌표값을 통해 구면 조화함수의 기저를 획득할 수 있다. 이때, 오디오 신호 처리 장치는 구면 조화함수의 각 기저를 기초로 마이크 어레이 신호를 구면 조화함수 도메인으로 프로젝션(projection)할 수 있다.

예를 들어, 마이크 어레이 신호는 구형 마이크 어레이를 통해 녹음될 수 있다. 구면 좌표계의 중심을 마이크 어레이의 중심과 일치시키면, 마이크 어레이의 중심으로부터 각 마이크까지의 거리는 모두 일정하다. 따라서 각 마이크의 위치는 방위각(Θ)과 고도각(Φ)만으로 표현될 수 있다. 마이크 어레이에서 q번째 마이크의 위치를 (θq, Φq)라고 할 때, 해당 마이크를 통해 녹음된 신호(p_a)는 구면 조화함수 도메인에서 다음과 수식과 같이 표현될 수 있다.

p_a는 마이크를 통해 녹음된 신호를 나타낸다. (θq, Φq)는 q번째 마이크의 방위각과 고도각을 나타낸다. Y는 방위각과 고도각을 인자로 갖는 구면조화함수를 나타낸다. m은 각각 구면조화함수의 차수(order)를 나타내고, n은 디그리(degree)를 나타낸다. B는 구면조화함수에 대응하는 앰비소닉 계수를 나타낸다. 본 명세서에서 앰비소닉 계수는 앰비소닉 신호로 지칭될 수 있다. 구체적으로 앰비소닉 신호는 FoA 신호 및 HoA 신호 중 어느 하나를 나타낼 수 있다.

이때, 오디오 신호 처리 장치는 구면조화함수의 유사 인버스 행렬(pseudo inverse matrix)를 이용해 앰비소닉 신호를 획득할 수 있다. 구체적으로 오디오 신호 처리 장치는 다음의 수학식을 사용해 앰비소닉 신호를 획득할 수 있다.

p_a는 앞서 설명한 바와 같이 마이크를 통해 녹음된 신호를 나타내고, B는 구면조화함수에 대응하는 앰비소닉 계수를 나타낸다. pinv(Y)는 Y의 유사 인버스(pseudo inverse) 행렬을 나타낸다.

앞서 언급한 오브젝트 신호는 하나의 사운드 오브젝트에 대응하는 오디오 신호를 나타낸다. 구체적으로 오브젝트 신호는 특정 사운드 오브젝트에 근접한 음향 수집 장치에서 획득된 신호일 수 있다. 오브젝트 신호는 특정 지점에서 수집 가능한 모든 음향을 공간상에 표현하는 앰비소닉 신호와 달리 어느 하나의 사운드 오브젝트가 출력하는 소리가 특정 지점에 전달되는 것을 표현하기 위해 사용된다. 오디오 신호 처리 장치는 오브젝트 신호에 대응하는 사운드 오브젝트의 위치를 이용해 오브젝트 신호를 앰비소닉 신호의 포맷으로 나타낼 수 있다. 이때, 오디오 신호 처리 장치는 사운드 오브젝트에 해당하는 음향을 수집하는 마이크에 설치된 외부 센서와 위치 측정의 기준점에 설치된 외부 센서를 사용해 사운드 오브젝트의 위치를 측정할 수 있다. 또 다른 구체적인 실시 예에서 오디오 신호 처리 장치는 마이크로 수집된 오디오 신호를 분석하여 사운드 오브젝트의 위치를 추정할 수 있다. 구체적으로 오디오 신호 처리 장치는 다음의 수식을 사용해 오브젝트 신호를 앰비소닉 신호로 나타낼 수 있다.

Θs와 Φs 각각은 오브젝트에 대응하는 사운드 오브젝트의 위치를 나타내는 방위각과 고도각을 나타낸다. Y는 방위각과 고도각을 인자로 갖는 구면조화함수를 나타낸다. B^Snm은 오브젝트 신호가 변환된 앰비소닉 신호를 나타낸다.

따라서 오디오 신호 처리 장치가 오브젝트 신호와 앰비소닉 신호를 동시에 프로세싱할 때, 오디오 신호 처리 장치는 다음 중 적어도 어느 하나의 방법을 사용할 수 있다. 구체적으로 오디오 신호 처리 장치는 오브젝트 신호와 앰비소닉 신호를 별도로 출력할 수 있다. 또한, 오디오 신호 처리 장치는 오브젝트 신호를 앰비소닉 신호 포맷으로 변환하여 앰비소닉 신호 포맷으로 변환된 오브젝트 신호와 앰비소닉 신호를 출력할 수 있다. 이때, 앰비소닉 신호 포맷으로 변환된 오브젝트 신호와 앰비소닉 신호는 HoA 신호일 수 있다. 또한, 앰비소닉 신호 포맷으로 변환된 오브젝트 신호와 앰비소닉 신호는 FoA 신호일 수 있다. 또 다른 구체적인 실시 예에서, 오디오 신호 처리 장치는 오브젝트 신호 없이 앰비소닉 신호만을 출력할 수 있다. 이때, 앰비소닉 신호는 FoA 신호일 수 있다. 앰비소닉 신호는 공간상의 한 지점에서 수집된 모든 음향을 포함하는 것으로 가정하기 때문에, 앰비소닉 신호는 오브젝트 신호에 해당하는 신호 성분을 포함하고 있는 것으로 가정할 수 있다. 따라서 오디오 신호 처리 장치는 위 실시 예와 같이 오브젝트 신호를 별도로 프로세싱하지 않고 앰비소닉 신호만을 프로세싱하여도 오브젝트 신호에 해당하는 사운드 오브젝트를 재현할 수 있다.

구체적인 실시 예에서, 오디오 신호 처리 장치는 앰비소닉 신호와 오브젝트 신호를 도 2의 실시 예와 같이 처리할 수 있다. 앰비소닉 변환부(31)는 앰비언트 음향을 앰비소닉 신호로 변경한다. 포맷 컨버터(33)는 오브젝트 신호와 앰비소닉 신호의 포맷을 변경한다. 이때, 포맷 컨버터(33)는 오브젝트 신호를 앰비소닉 신호의 포맷으로 변환할 수 있다. 구체적으로 포맷 컨버터(33)는 오브젝트 신호를 HoA 신호로 변환할 수 있다. 또한, 포맷 컨버터(33)는 오브젝트 신호를 FoA 신호로 변환할 수 있다. 또한, 포맷 컨버터(33)는 HoA 신호를 FoA 신호로 변환할 수 있다. 포스트 프로세서(35)는 포맷이 변환된 오디오 신호를 포스트 프로세싱한다. 렌더러(37)는 포스트 프로세싱된 오디오 신호를 렌더링한다. 이때, 렌더러(37)는 바이노럴 렌더러일 수 있다. 따라서 렌더러(37)는 포스트 프로세싱된 오디오 신호를 바이노럴 렌더링할 수 있다.

오디오 신호 처리 장치는 오디오 신호를 렌더링하여 가상의 공간에 위치하는 음원을 시뮬레이션할 수 있다. 이때, 오디오 신호 처리 장치는 오디오 신호를 렌더링하기 위한 정보가 필요하다. 오디오 신호를 렌더링하기 위한 정보는 메타데이터 형태로 전달될 수 있고, 오디오 신호 처리 장치는 메타데이터를 기초로 오디오 신호를 렌더링할 수 있다. 특히, 메타데이터는 컨텐츠 제작자가 의도한 렌더링 방법에 대한 정보 및 렌더링 환경에 대한 정보를 포함할 수 있다. 이에 따라 오디오 신호 처리 장치는 컨텐츠 제작자의 의도를 반영하여 오디오 신호를 렌더링할 수 있다. 메타데이터 종류 및 포맷에 대해 도 3 내지 도 16을 통해 설명한다.

메타데이터는 오디오 신호를 렌더링할 때 청자의 머리 움직임을 반영하여 오디오 신호를 렌더링할지 나타내는 머리 움직임 적용 정보를 포함할 수 있다. 이때, 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 메타데이터로부터 머리 움직임 적용 정보를 획득할 수 있다. 오디오 신호 처리 장치는 머리 움직임 적용 정보를 기초로 청자의 머리 움직임을 반영하여 오브젝트 신호를 렌더링할지 결정할 수 있다. 또한, 머리 움직임은 머리 회전(head rotation)을 나타낼 수 있다. 오디오 신호 처리 장치는 머리 움직임 적용 정보에 따라 청자의 머리 움직임을 반영하지않고 오브젝트 신호를 렌더링할 수 있다. 또한, 오디오 신호 처리 장치는 머리 움직임 적용 정보에 따라 청자의 머리 움직임을 반영하여 오브젝트 신호를 렌더링할 수 있다. 청자의 머리에 붙은 벌과 같이, 청자의 머리 움직임에 따라 함께 움직이는 오브젝트가 있을 수 있다. 청자의 머리가 회전하는 경우에도 청자와 사이의 상대적 위치는 변화되지 않거나 매우 작게 변화될 수 있다. 따라서 오디오 신호 처리 장치는 청자의 머리 움직임을 반영하지않고 해당 오브젝트를 시뮬레이션하는 오디오 신호를 렌더링할 수 있다. 이러한 실시 예를 통해 오디오 신호 처리 장치의 연산량을 줄일 수 있다.

또한, 메타데이터는 바이노럴 렌더링 적용 강도를 나타내는 바이노럴 효과 세기 정보를 포함할 수 있다. 이때, 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 메타데이터로부터 바이노럴 효과 세기를 획득할 수 있다. 또한, 오디오 신호 처리 장치는 바이노럴 효과 세기 정보를 기초로 오브젝트 신호에 바이노럴 렌더링을 적용 강도(level)를 결정할 수 있다. 구체적으로 오디오 신호 처리 장치는 바이노럴 효과 세기 정보를 기초로 오디오 신호에 바이노럴 렌더링을 적용할지 결정할 수 있다. 앞서 설명한 것과 같이 오디오 신호 처리 장치가 오디오 신호를 바이노럴 렌더링할 경우, 오디오 신호 처리 장치는 3차원 공간에 오디오 신호가 표현하는 음상이 위치한 것처럼 시뮬레이션할 수 있다. 다만 바이노럴 렌더링은 HRTF(Head Related Transfer Function) 또는 BRIR(Binaural Room Impulse Response)과 같은 전달함수를 사용하므로 바이노럴 렌더링에 의해 오디오 신호의 음색이 변형될 수 있다. 또한, 오디오 신호가 표현하는 음상의 종류에 따라 공간감보다는 음색이 더 중요할 수 있다. 따라서 오디오 신호가 포함하는 컨텐츠의 제작자는 바이노럴 효과 세기 정보를 설정하여 오디오 신호의 바이노럴 렌더링 적용 정도를 결정할 수 있다. 구체적으로 바이노럴 효과 세기 정보는 바이노럴 렌더링이 적용되지 않음을 나타낼 수 있다. 이때, 오디오 신호 처리 장치는 바이노럴 효과 세기 정보에 따라 오디오 신호를 바이노럴 렌더링을 사용하지 않고 렌더링할 수 있다. 또한, 바이노럴 효과 세기 정보는 바이노럴 렌더링이 적용될 때 바이노럴 렌더링을 위한 HRTF 또는 BRIR의 적용 강도를 나타낼 수 있다.

구체적으로 바이노럴 효과 세기 정보는 양자화된 레벨로 구분될 수 있다. 또 다른 구체적인 실시 예에서 바이노럴 효과 세기 정보는 Mild, Normal 및 Strong과 같이 3단계로 구분될 수 있다. 또한, 바이노럴 효과 세기 정보는 도 3(a)의 실시 예와 같이 5 단계로 구분될 수 있다. 또 다른 구체적인 실시 예에서 바이노럴 효과 세기 정보는 0과 1사이의 연속적인 실수 중 어느 하나의 값으로 표현될 수 있다.

오디오 신호를 렌더링하는 오디오 신호 처리 장치는 바이노럴 효과 세기 정보를 오디오 신호가 포함하는 오디오 트랙별로 적용할 수 있다. 또한, 오디오 신호 처리 장치는 바이노럴 효과 세기 정보를 오디오 신호가 포함하는 오디오 소스별로 적용할 수 있다. 또한, 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 바이노럴 효과 세기 정보를 신호 특성별로 적용할 수 있다. 또한, 오디오 신호 처리 장치는 바이노럴 효과 세기 정보를 오디오 신호가 포함하는 오브젝트별로 적용할 수 있다. 또한, 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 바이노럴 효과 세기 정보를 각 오디오 트랙의 시간 구간별로 적용될 수 있다. 이때, 시간 구간은 오디오 신호의 프레임일 수 있다. 구체적으로 메타데이터는 도 3(b)의 실시 예와 같이 바이노럴 효과 세기 정보를 트랙별, 프레임별로 구분할 수 있다.

또한, 메타데이터는 바이노럴 효과 세기 정보 적용이 강제되는지를 나타내는 바이노럴 효과 세기 강제 여부 정보를 포함할 수 있다. 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 메타데이터로부터 바이노럴 효과 세기 강제 여부 정보를 획득하고, 바이노럴 효과 세기 강제 여부 정보에 따라 바이노럴 효과 세기 정보를 선택적으로 적용할 수 있다. 또한, 오디오 신호 처리 장치는 바이노럴 효과 세기 강제 여부 정보에 따라 바이노럴 효과 세기 정보를 강제적으로 적용할 수 있다. 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 바이노럴 효과 세기 강제 여부 정보를 오디오 신호가 포함하는 오디오 트랙별로 적용할 수 있다. 또한, 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 바이노럴 효과 세기 강제 여부 정보를 오디오 신호가 포함하는 오디오 소스별로 적용할 수 있다. 또한, 오디오 신호 처리 장치는 바이노럴 효과 세기 강제 여부 정보를 신호 특성별로 적용할 수 있다. 또한, 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 바이노럴 효과 세기 강제 여부 정보를 오디오 신호가 포함하는 오브젝트별로 적용할 수 있다. 또한, 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 바이노럴 효과 세기 강제 여부 정보를 각 오디오 트랙의 시간 구간별로 적용할 수 있다. 구체적인 실시 예에서 바이노럴 효과 세기 강제 여부 정보의 구체적인 형식은 도 3(c)와 같을 수 있다.

오디오 신호를 렌더링하는 오디오 신호 처리 장치는 바이노럴 효과 세기 정보를 사용하여 바이노럴 렌더링뿐만 아니라 다른 입체 음향을 적용 여부를 결정할 수 있다. 구체적으로 오디오 신호 처리 장치는 바이노럴 효과 세기 정보에 따라 바이노럴 효과 세기 정보가 지시하는 오디오 신호를 해당 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하지 않고 렌더링할 수 있다. 이러한 실시 예들을 통해 오디오 신호를 렌더링하는 오디오 신호 처리 장치의 연산 효율이 높아질 수 있다. 또한, 이러한 실시 예들을 통해 오디오 신호가 포함하는 컨텐츠의 제작작 의도한 컨텐츠 경험이 청자에게 정교하게 전달될 수 있다.

동일한 오디오 신호라도 다양한 장치를 통해 렌더링될 수 있다. 특히, 다양한 영상 표시 장치를 통해 컨텐츠가 소비됨에 따라 오디오 신호의 렌더링 환경도 다양해지고 있다. 예컨대, 동일한 오디오 신호가 헤드마운트 디스플레(head mounted display, HMD)이 형태의 VR기기로 렌더링될 수 있고, 핸드폰이나 TV로도 렌더링될 수 있다. 따라서 동일한 오디오 신호라도 오디오 신호가 렌더링되는 장치에 따라 다르게 렌더링될 필요가 있다. 이에 대해서는 도 4를 통해 설명한다.

메타데이터는 해당 메타데이터가 생성될 때 기준이되는 오디오 신호 처리 장치의 특성을 나타내는 레퍼런스 장치 특성 파라미터를 포함할 수 있다. 구체적으로 레퍼런스 장치 특성 파라미터는 오디오 신호가 포함하는 컨텐츠의 제작자가 오디오 신호를 렌더링할 것으로 의도한 오디오 신호 처리 장치의 특성을 나타낼 수 있다.

오디오 신호 레퍼런스 장치 특성 파라미터는 오디오 신호가 렌더링되는 영상 표시 장치의 특성을 포함할 수 있다. 구체적으로 레퍼런스 장치 특성 파라미터는 영상 표시 장치의 스크린 특성을 포함할 수 있다. 구체적으로 스크린 특성은 스크린 타입, 스크린의 해상도, 스크린 사이즈 및 스크린의 화면 비율 중 적어도 어느 하나를 포함할 수 있다. 스크린 타입은 TV, PC의 모니터, 핸드폰 및 HMD 중 적어도 어느 하나를 포함할 수 있다. 또한, 스크린 타입은 스크린의 해상도와 조합되어 구분될 수 있다. 예컨대, 장치 특성 파라미터는 HD를 지원하는 HMD와 UHD를 지원하는 HMD를 구별하여 나타낼 수 있다. 스크린의 화면 비율은 1:1, 4:3, 15:9 및 16:9 중 적어도 어느 하나를 포함할 수 있다. 또한, 레퍼런스 장치 특성 파라미터는 구체적인 모델 명을 포함할 수 있다.

또한, 레퍼런스 장치 특성 파라미터는 청자와 영상 표시 장치 사이의 위치 관계를 포함할 수 있다. 청자와 영상 표시 장치 사이의 위치 관계는 청자와 영상 표시 장치의 스크린 사이의 거리를 포함할 수 있다. 또한, 청자와 영상 표시 장치 사이의 위치 관계는 청자가 영상 표시 장치를 바라보는 시청 각도를 포함할 수 있다. 청자와 영상 표시 장치의 스크린 사이의 거리는 오디오 컨텐츠 제작시 제작 환경에 따라 달라질 수 있다. 또한, 장치 특성 파라미터는 시청 각도를 90도 이하, 90도 내지 110도, 110도 내지 130도, 130도 이상과 같이 구별하여 나타낼 수 있다.

또한, 레퍼런스 장치 특성 파라미터는 오디오 신호 출력 특성을 포함할 수 있다. 오디오 신호 출력 특성은 라우드니스 레벨, 출력 장치의 타입 및 출력에 사용되는 EQ 중 적어도 어느 하나를 포함할 수 있다. 레퍼런스 장치 특성 파라미터는 라우드니스 레벨을 SPL(Sound Pressure Level) 값으로 나타낼 수 있다. 구체적으로 레퍼런스 장치 특성 파라미터는 메타데이터가 의도하는 라우드니스 레벨의 범위를 나타낼 수 있다. 또 다른 구체적인 실시 예에서 레퍼런스 장치 특성 파라미터는 메타데이터가 의도하는 라우드니스 레벨 값을 나타낼 수 있다. 출력 장치 타입은 헤드폰 및 스피커 중 적어도 어느 하나를 포함할 수 있다. 또한, 출력 장치 타입은 헤드폰, 스피커의 출력 특성에 따라 세분화될 수 있다. 또한, 출력에 사용되는 EQ는 창작가 컨텐츠를 제작할 때 사용한 EQ일 수 있다. 구체적으로 레퍼런스 장치 특성 파라미터는 도 4와 같은 신택스를 가질 수 있다.

오디오 신호 처리 장치는 레퍼런스 장치 특성 파라미터와 오디오 신호 처리 장치의 특성 차이를 기초로 오디오 신호를 렌더링할 수 있다. 구체적인 실시 예에서 오디오 신호 처리 장치는 레퍼런스 장치 특성 파라미터가 나타내는 청자와 영상 출력 장치의 스크린 사이의 거리와 실제 장치 특성 파라미터가 나타내는 청자와 영상 출력 장치의 스크린 사이의 거리의 차이를 기초로 오디오 신호의 크기를 조정할 수 있다. 또 다른 구체적인 실시 예에서 오디오 신호 처리 장치는 레퍼런스 장치 특성 파라미터가 나타내는 시청 각도와 실제 장치 특성 파라미터가 나타내는 시청 각도 차이를 기초로 메타데이터가 나타태는 음상의 위치를 보정하여 오디오 신호를 렌더링할 수 있다. 또 다른 구체적인 실시 예에서 오디오 신호 처리 장치는 레퍼런스 장치 특성 파라미터가 나타내는 라우드니스 레벨을 기초로 오디오 신호 처리 장치의 출력 레벨을 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 레퍼런스 장치 특성 파라미터가 나타내는 라우드니스 레벨로 오디오 신호 처리 장치의 출력 레벨을 조정할 수 있다. 또한, 오디오 신호 처리 장치는 레퍼런스 장치 특성 파라미터가 나타내는 라우드니스 레벨을 사용자에게 표시할 수 있다. 또한, 오디오 신호 처리 장치는 레퍼런스 장치 특성 파라미터가 나타내는 라우드니스 레벨과 이퀄 라우드니스 곡선(Equal Loudness Contour)을 기초로 오디오 신호 처리 장치의 출력 레벨을 조정할 수 있다.

오디오 신호 처리 장치는 복수의 레퍼런스 장치 특성 파라미터 셋 중 어느 하나를 선택하여, 선택한 레퍼런스 장치 특성 파라미터 셋에 해당하는 메타데이터를 이용하여 오디오 신호를 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 오디오 신호 처리 장치 특성을 기초로 복수의 레퍼런스 장치 특성 파라미터 셋 중 어느 하나를 선택할 수 있다. 이때, 레퍼런스 장치 특성 파라미터 셋은 앞서 설명한 장치 특성 파라미터 중 적어도 어느 하나를 포함할 수 있다. 또한, 오디오 신호 처리 장치는 복수의 레퍼런스 장치 특성 파라미터 셋과 복수의 레퍼런스 장치 특성 파라미터 셋 각각에 해당하는 메타데이터를 포함하는 메타데이터 셋을 수신할 수 있다. 이때, 메타데이터 셋은 레퍼런스 장치 특성 파라미터 셋의 개수를 나타내는 스크린 최적 정보 개수(numScreenOptimizedInfo)를 포함할 수 있다. 스크린 최적 정보 개수는 5비트로 표시될 수 있으며, 최대 32개를 나타낼 수 있다.

오디오 신호 처리 장치는 개인화(personalization) 파라미터를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 개인화 파라미터는 청자에 따라 설정될 수 있는 파라미터를 나타낼 수 있다. 구체적으로 개인화 파라미터는 HRTF, 신체 정보 및 3D 모델 중 적어도 어느 하나를 포함할 수 있다. 개인화 파라미터는 오디오 신호 렌더링에 영향을 끼치게된다. 따라서 청자가 설정한 개인화 파라미터가 적용되는 경우, 오디오 신호가 포함하는 컨텐츠의 제작자가 의도가 렌더링된 오디오에 반영되지 않을 수 있다. 결과적으로 오디오 신호가 컨텐츠를 통해 전달하고자 하는 컨텐츠 경험이 전달되지 않을 수 있다. 따라서 메타데이터는 개인화 파라미터 적용 여부를 나타내는 개인화 적용 여부 정보를 포함할 수 있다. 오디오 신호 처리 장치는 개인화 적용 여부 정보를 기초로 개인화 파라미터를 적용하여 오디오 신호를 바이노럴 렌더링할지 결정할 수 있다. 개인화 적용 여부 정보가 개인화 파라미터가 적용이 허용되지 않음을 나타내는 경우, 오디오 신호 처리 장치는 개인화 파라미터를 적용하지 않고 오디오 신호를 바이노럴 렌더링할 수 있다.

오디오 신호가 포함하는 컨텐츠의 제작자는 메타데이터를 사용해 오디오 신호 처리 장치의 연산량을 최적화를 유도할 수 있다. 구체적으로 메타데이터는 오디오 신호의 사운드 레벨을 나타내는 사운드 레벨 정보를 포함할 수 있다. 오디오 신호 처리 장치는 사운드 레벨 정보를 기초로 오디오 신호를 해당 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하지 않고 렌더링할 수 있다. 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하지 않고 렌더링하는 것은 바이노럴 렌더딩을 적용하지 않고 오디오 신호를 렌더링하는 것을 포함할 수 있다.

예컨대, 메타데이터는 사운드 레벨이 0임을 나타내는 뮤트 정보를 포함할 수 있다. 이때, 오디오 신호 처리 장치는 뮤트 정보를 기초로 오디오 신호를 해당 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하지 않고 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 뮤트 정보가 사운드 레벨이 0임을 나타내는 오디오 신호를 해당 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하지 않고 렌더링할 수 있다.

또 다른 구체적인 실시 예에서 오디오 신호 처리 장치는 사운드 레벨이 일정 크기 이하인 오디오 신호를 해당 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하지 않고 렌더링할 수 있다.

또 다른 구체적인 실시 예에서 오디오 신호 처리 장치는 제1 시간 구간에 해당하는 오디오 신호의 사운드 레벨과 제2 시간 구간에 해당하는 오디오 신호의 사운드 레벨을 기초로, 제2 시간 구간에 해당하는 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하지 않고 제2 시간 구간에 해당하는 오디오 신호를 렌더링할 수 있다. 이때, 제1 시간 구간은 제2 시간 구간 이전에 위치한 시간 구간이다. 또한, 제1 시간 구간과 제2 시간 구간은 연속한 시간 구간일 수 있다. 구체적으로 오디오 신호 처리 장치는 제1 시간 구간에 해당하는 오디오 신호의 사운드 레벨과 제2 시간 구간에 해당하는 오디오 신호의 사운드 레벨의 차이를 비교하여, 제2 시간 구간에 해당하는 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하지 않고 제2 시간 구간에 해당하는 오디오 신호를 렌더링할 수 있다. 예컨대, 제1 시간 구간에 해당하는 오디오 신호의 사운드 레벨과 제2 시간 구간에 해당하는 오디오 신호의 사운드 레벨의 차이가 지정된 값 이상인 경우, 오디오 신호 처리 장치는 제2 시간 구간에 해당하는 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하지 않고 제2 시간 구간에 해당하는 오디오 신호를 렌더링할 수 있다. 청자가 큰 소리 뒤에 상대적으로 작은 소리를 듣는 경우, 청자는 시간 마스킹 이펙트(temporal masking effect)에 따라 상대적으로 작은 소리를 잘 인지하지 못할 수 있다. 청자가 큰 소리 뒤에 상대적으로 작은 소리를 듣는 경우, 청자는 공간 마스킹 이펙트(spatial masking effect)에 따라 상대적으로 작은 소리를 내는 음원의 위치를 잘 인지하지 못할 수 있다. 따라서 상대적으로 큰 소리 뒤에 들려오는 작은 소리에 입체 음향 재현을 위한 렌더링을 적용해도 청자에게 미치는 영향이 미미할 수 있다. 그러므로 오디오 신호 처리 장치는 연산 효율을 높이기 위해 큰 소리 뒤에 들여오는 작은 소리에 입체 음향 재현을 위한 렌더링을 적용하지 않을 수 있다.

구체적인 실시 예에서 메타데이터는 사운드 레벨을 오디오 트랙, 오디오 소스, 오브젝트, 및 시간 구간 중 적어도 어느 하나로 구분하여 나타낼 수 있다. 앞서 설명한 시간 구간은 오디오 신호의 프레임일 수 있다. 또한, 앞서 설명한 실시 예들에서 오디오 신호 처리 장치는 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하여 렌더링할지가 변경되는지에 따라 페이드 인/페이드 아웃을 적용하여 오디오 신호를 렌더링할 수 있다. 오디오 신호 처리 장치는 이러한 실시 예를 통해 선택적으로 입체 음향 렌더링을 적용함에 따라 렌더링되는 음향이 자연스럽지 못하게 들리는 것을 방지할 수 있다.

또한, 메타데이터는 오디오 신호가 시뮬레이션 음상의 위치에 대한 청자의 움직임을 반영하여 오디오 신호를 렌더링할지 나타내는 움직임 적용 여부 정보를 포함할 수 있다. 오디오 신호 처리 장치는 메타데이터로부터 움직임 적용 여부 정보를 획득할 수 있다. 오디오 신호 처리 장치는 움직임 적용 여부 정보를 기초로 청자의 움직임을 반영하여 오브젝트 신호를 렌더링할지 결정할 수 있다. 구체적으로 메타데이터는 청자의 머리 움직임을 반영하여 오디오 신호를 렌더링할지 나타내는 헤드 트랙킹 적용 여부 정보를 포함할 수 있다. 이때, 오디오 신호 처리 장치는 메타데이터로부터 헤드 트랙킹 적용 여부 정보를 획득할 수 있다. 오디오 신호 처리 장치는 헤드 트랙킹 적용 여부 정보를 기초로 청자의 머리 움직임을 반영하여 오브젝트 신호를 렌더링할지 결정할 수 있다. 오디오 신호 처리 장치는 헤드 트랙킹 적용 여부 정보를 기초로 청자의 머리 움직임을 반영하지않고 오브젝트 신호를 렌더링할 수 있다. 청자의 머리에 붙은 벌과 같이, 청자의 머리 움직임에 따라 함께 움직이는 오브젝트의 경우 오브젝트의 상대적 위치 변화가 일어나지 않거나 매우 적은 변화만 일어날 수 있다. 따라서 오디오 신호 처리 장치는 이러한 오브젝트를 나타내는 오디오 신호에 대해 청자의 머리 움직임을 반영하지하고 해당 오브젝트를 시뮬레이션하는 오디오 신호를 렌더링할 수 있다.

오디오 신호 처리 장치는 앞서 설명한 실시 예들에 따른 메타데이터를 사용하여 연산 효율을 최적화할 수 있다.

도 5 내지 도 8을 통해 메타데이터의 구체적인 구조와 포맷을 설명한다.

부가 정보는 메타데이터를 포함할 수 있다. 부가 정보는 부가 정보가 시그널링하는 오디오 신호의 시간 구간의 상대적인 길이에 따라 구분될 수 있다. 구체적으로 부가 정보는 부가 정보가 시그널링하는 오디오 신호의 시간 구간의 상대적인 길이에 따라 헤더 파라미터와 메타데이터 파라미터로 구분될 수 있다. 헤더 파라미터는 오디오 신호를 렌더링할 때 자주 변경될 가능성이 적은 파라미터를 포함할 수 있다. 헤더 파라미터가 포함하는 파라미터는 오디오 신호가 포함하는 컨텐츠가 종료되거나 렌더링 구성(configuration)이 변경되기 전까지 동일하게 유지되는 정보일 수 있다. 예컨대, 헤더 파라미터는 앰비소닉 신호의 차수를 포함할 수 있다. 메타데이터 파라미터는 오디오 신호를 렌더링할 때 자주 변경될 가능성이 높은 파라미터를 포함할 수 있다. 예컨대, 메타데이터 파라미터는 오디오 신호가 시뮬레이션하는 오브젝트의 위치에 관한 정보를 포함할 수 있다. 구체적으로 오브젝트의 위치에 관한 정보는 방위각(azimuth), 고도각(elevation), 거리(distance) 중 적어도 어느 하나일 수 있다.

또한, 부가 정보의 타입은 오디오 신호 렌더링을 위한 정보를 포함하는 엘리멘트 파라미터와 오디오 신호 자체에 관한 정보 이외의 정보를 포함하는 제너럴 파라미터로 구분될 수 있다. 구체적으로 제너럴 파라미터는 오디오 신호 자체에 관한 정보를 포함할 수 있다.

헤더 파라미터의 구체적인 구조 및 포맷에 대해서는 도 6 내지 도 7을 통해 설명한다.

헤더 파라미터는 오디오 신호가 포함하는 구성 성분(component)의 타입 별로 정보를 포함할 수 있다. 구체적으로 헤더 파라미터는 전체 오디오 신호, 앰비소닉 신호, 오브젝트 신호 및 채널 신호 별로 정보를 포함할 수 있다. 구체적으로 전체 오디오 신호를 나타내는 헤더 파라미터는 GAO_HDR이라 지칭될 수 있다.

GAO_HDR은 오디오 신호의 샘플링 레이트에 관한 정보를 포함할 수 있다. 오디오 신호 처리 장치는 샘플링 레이트에 관한 정보를 기준으로 HRTF(Head Related Transfer Function) 또는 BRIR(Binaural Room Impulse Response)에 기반한 필터 계수를 산출할 수 있다. 오디오 신호 처리 장치는 오디오 신호를 바이노럴 렌더링할 때, 샘플링 레이트에 해당하는 필터 계수가 존재하지 않는 경우, 오디오 신호 처리 장치는 오디오 신호를 리샘플림(resampling)하여 필터 계수를 산정할 수 있다. 오디오 신호가 WAV 파일이나 AAC 파일과 같이 샘플링 레이트에 관한 정보를 포함하는 경우, GAO_HDR은 샘플링 레이트에 관한 정보를 포함하지 않을 수 있다.

또한, GAO_HDR은 엘리멘트 메타데이터가 나타내는 프레임 별 길이를 나타내는 정보를 포함할 수 있다. 프레임 별 길이는 음질, 바이노럴 렌더링 알고리즘, 메모리, 연산량 등 여러가지 제약 조건을 기준으로 설정될 수 있다. 프레임 별 길이는 포스트 프로덕션(post-production) 또는 인코딩할 때 설정될 수 있다. 제작자는 프레임 별 길이를 통해 오디오 신호가 바이노럴 렌더링될 때 시간 별(time resolution) 밀도를 조절할 수 있다.

또한, GAO_HDR은 오디오 신호가 포함하는 구성 성분의 타입에 따른 구성 성분의 개수를 포함할 수 있다. 구체적으로 GAO_HDR은 오디오 신호가 포함하는 앰비소닉 신호의 개수, 채널 신호의 개수, 오브젝 오디오 신호의 개수 각각을 포함할 수 있다.

GAO_HDR은 다음의 표가 포함하는 정보 중 적어도 어느 하나를 포함할 수 있다. 이때, GEN은 제너럴 파라미터를 나타내고, ELE은 엘리멘트 파라미터를 나타낸다.

GAO_HDR이 나타내는 구성 성분의 타입에 따른 구성 성분의 개수가 1개 이상인 경우, 각 구성 성분에 해당하는 헤더 파라미터가 GAO_HDR과 함께 오디오 신호 처리 장치에 전달될 수 있다. 구체적으로 구성 성분의 타입에 따른 구성 성분의 개수가 1개 이상인 경우, GAO_HDR은 각 구성 성분에 해당하는 헤더 파라미터를 포함할 수 있다. 구체적으로 구성 성분의 타입에 따른 구성 성분의 개수가 1개 이상인 경우, GAO_HDR은 각 구성 성분에 해당하는 헤더 파라미터를 연결하는 링크 정보를 포함할 수 있다.

앰비소닉 신호를 나타내는 헤더 파라미터는 GAO_HOA_HDR이라 지칭될 수 있다. GAO_HOA_HDR는 앰비소닉 신호를 렌더링할 때 사용할 스피커 레이아웃에 관한 정보를 포함할 수 있다. 앞서 설명한 바와 같이 오디오 신호 처리 장치는 앰비소닉 신호를 채널 신호로 변환하고, 변환한 앰비소닉 신호를 바이노럴 렌더링될 수 있다. 이때, 오디오 신호 처리 장치는 스피커 레이아웃에 관한 정보를 기초로 앰비소닉 신호를 채널 신호로 변환할 수 있다. 스피커 레이아웃에 관한 정보는 CICP(Code Independent Coding Point) 인덱스일 수 있다. 스피커 레이아웃에 관한 정보에 의해 스피커 레이아웃이 결정되지 않는 경우, 별도의 파일을 통해 스피커 레이아웃에 관한 정보가 오디오 신호 처리 장치에 전달될 수 있다. 스피커 레이아웃 상에 스피커 수가 줄어들면 바이노럴 렌더링이 필요한 음원의 개수도 줄어든다. 따라서 스피커 레이아웃에 따라 바이노럴 렌더링에 필요한 연산량이 조정될 수 있다.

GAO_HOA_HDR은 오디오 신호 처리 장치가 해당 앰비소닉 신호를 바이노럴 렌더링할 때 사용할 바이노럴 렌더링 모드에 관한 정보를 포함할 수 있다. 오디오 신호 처리 장치는 바이노럴 렌더링 모드를 기초로 해당 앰비소닉 신호를 바이노럴 렌더링할 수 있다. 이때, 바이노럴 렌더링 모드는 채널 렌더링 후 사용자의 머리 움직임을 적용하는 렌더링 모드와 사용자의 머리 움직임을 적용한 후 채널 렌더링을 적용하는 모드 중 어느 하나를 나타낼 수 있다. 이때, 머리 움직임은 머리 회전(head rotation)을 나타낼 수 있다. 구체적으로 오디오 신호 처리장치는 제1 앰비소닉 신호에 머리 움직임에 해당하는 회전 매트릭스를 적용하여 제2 앰비소닉 신호를 생성하고, 제2 앰비소닉 신호를 채널 렌더링할 수 있다. 오디오 신호 처리 장치는 이러한 렌더링 모드를 통해 앰비소닉 신호의 음색이 유지할 수 있다. 또한, 오디오 신호 처리 장치는 제1 앰비소닉 신호를 채널 신호로 변환하고, 머리 움직임에 따라 제1 채널 신호의 스피커 레이아웃을 변경한 후 채널 신호를 바이노럴 렌더링할 수 있다. 오디오 신호 처리 장치는 이러한 렌더링 모드를 통해 앰비소닉 신호가 시뮬레이션하는 음상의 위치를 정교하게 표현할 수 있다. GAO_HOA_HDR가 바이노럴 렌더링 모드에 관한 정보를 포함하는 경우, 제작자는 컨텐츠 특성에 따라 바이노럴 렌더링 모드를 선택할 수 있다. 예컨대, 제작자는 자동차 소리와 같이 광대역의 노이즈와 같은 음향은 앰비소닉 신호를 채널 렌더링한 후 채널 렌더링된 앰비소닉 신호에 머리 움직임을 적용할 수 있다. 자동차 소리의 위치보다는 음색이 중요하기 때문이다. 또한, 대화 소리와 같이 음상의 위치가 중요한 경우, 제작자는 앰비소닉 신호에 머리 움직임을 적용한 후 머리 움직임이 적용된 앰비소닉 신호를 채널 렌더링할 수 있다.

GAO_HOA_HDR는 앰비소닉 신호가 시뮬레이션하는 음상의 위치가 시간 변화에 따라 회전되는지를 나타내는 정보를 포함할 수 있다. 오디오 신호가 시뮬레이션하는 음상의 위치가 시간 변화에 따라 회전되는지를 나타내는 정보는 플래그 형태로 표시될 수 있다. 오디오 신호가 시뮬레이션하는 음상의 위치가 시간 변화에 따라 회전지 않는 경우, 오디오 신호 처리 장치는 최초 획득한 앰비소닉 신호가 시뮬레이션하는 음상의 위치 회전에 대한 정보를 계속 사용할 수 있다.

GAO_HOA_HDR는 앰비소닉 신호가 포함하는 컨텐츠의 언어를 나타내는 정보를 포함할 수 있다. 오디오 신호 처리 장치는 오디오 신호가 포함하는 컨텐츠의 언어를 나타내는 정보를 기초로 앰비소닉 신호를 선태적으로 렌더링할 수 있다.

구체적으로 GAO_HOA_HDR은 다음의 표가 포함하는 정보 중 적어도 어느 하나를 포함할 수 있다.

채널 신호를 나타내는 헤더 파라미터러는 GAO_CHN_HDR이라 지칭될 수 있다. GAO_CHN_HDR은 채널 신호의 스피커 레이아웃에 대한 정보를 나타내는 정보를 포함할 수 있다.

GAO_CHN_HDR은 GAO_HOA_HDR이 포함하는 정보를 적어도 어느 하나 포함할 수 있다. 구체적으로 GAO_CHN_HDR은 다음의 표가 포함하는 정보 중 적어도 어느 하나를 포함할 수 있다.

채널 신호를 나타내는 헤더 파라미터러는 GAO_OBJ_HDR이라 지칭될 수 있다. GAO_OBJ_HDR은 GAO_HOA_HDR이 포함하는 정보를 적어도 어느 하나 포함할 수 있다. 구체적으로 GAO_OBJ_HDR은 다음의 표가 포함하는 정보 중 적어도 어느 하나를 포함할 수 있다.

메타데이터 파라미터의 구체적인 구조 및 포맷에 대해서는 도 8을 통해 설명한다.

메타데이터 파라미터는 오디오 신호가 포함하는 구성 성분의 타입 별로 정보를 포함할 수 있다. 구체적으로 메타데이터 파라미터는 전체 오디오 신호, 앰비소닉 신호, 오브젝트 신호 및 채널 신호 별로 정보를 포함할 수 있다. 이때, 전체 오디오 신호를 나타내는 메타데이터 파라미터는 GAO_META라 지칭될 수 있다.

GAO_META가 나타내는 구성 성분의 타입에 따른 구성 성분의 개수가 1개 이상인 경우, 각 구성 성분에 해당하는 메타데이터 파라미터가 GAO_META와 함께 오디오 신호 처리 장치에 전달될 수 있다. 구체적으로 구성 성분의 타입에 따른 구성 성분의 개수가 1개 이상인 경우, GAO_META는 각 구성 성분에 해당하는 메타데이터 파라미터를 포함할 수 있다. 구체적으로 구성 성분의 타입에 따른 구성 성분의 개수가 1개 이상인 경우, GAO_META는 각 구성 성분에 해당하는 메타데이터 파라미터를 연결하는 링크 정보를 포함할 수 있다.

오브젝트 신호를 나타내는 메타데이터 파라미터는 GAO_META_ OBJ라 지칭될 수 있다. GAO_META_OBJ는 앞서 설명한 헤드 트랙킹 적용 여부 정보를 포함할 수 있다. 이때, 오디오 신호 처리 장치는 GAO_META_OBJ로부터 헤드 트랙킹 적용 여부 정보를 렌더링할지 나타내는 정보를 획득할 수 있다. 오디오 신호 처리 장치는 헤드 트랙킹 적용 여부 정보를 기초로 청자의 머리 움직임을 반영하여 오브젝트 신호를 렌더링할지 결정할 수 있다.

GAO_META_OBJ는 앞서 설명한 바이노럴 효과 세기 정보를 포함할 수 있다. 이때, 오디오 신호 처리 장치는 GAO_META_OBJ로부터 바이노럴 효과 세기 정보를 나타내는 정보를 획득할 수 있다. 또한, 오디오 신호 처리 장치는 바이노럴 효과 세기 정보를 기초로 오브젝트 신호에 적용할 바이노럴 렌더링 적용 강도를 결정할 수 있다. 구체적으로 오디오 신호 처리 장치는 바이노럴 효과 세기 정보를 기초로 오브젝트 신호를 바이노럴 렌더링할지 결정할 수 있다.

GAO_META_OBJ는 앞서 설명한 사운드 레벨 정보를 포함할 수 있다. 이때, 오디오 신호 처리 장치는 GAO_META_OBJ로부터 사운드 레벨 정보를 획득할 수 있다. 또한, 오디오 신호 처리 장치는 사운드 레벨 정보를 기초로 오브젝트 신호가 시뮬레이션하는 음상의 위치를 반영하여 렌더링할지 결정할 수 있다. 구체적으로 오디오 신호 처리 장치는 사운드 레벨 정보를 기초로 오브젝트 신호를 바이노럴 렌더링할지 결정할 수 있다.

구체적으로 GAO_META_OBJ는 다음의 표에 나타난 정보 중 적어도 어느 하나를 포함할 수 있다.

GAO_META_CHN과 GAO_META_HOA는 앞서 설명한 바이노럴 효과 세기 정보를 포함할 수 있다. 이때, 오디오 신호 처리 장치는 GAO_META_CHN 또는 GAO_META_HOA로부터 바이노럴 효과 세기 정보를 나타내는 정보를 획득할 수 있다. 또한, 오디오 신호 처리 장치는 바이노럴 효과 세기 정보를 기초로 채널 신호에 적용할 바이노럴 렌더링 적용 강도를 결정할 수 있다. 구체적으로 오디오 신호 처리 장치는 바이노럴 효과 세기 정보를 기초로 채널 신호를 바이노럴 렌더링할지 결정할 수 있다. 또한, 오디오 신호 처리 장치는 바이노럴 효과 세기 정보를 기초로 앰비소닉 신호에 적용할 바이노럴 렌더링 적용 강도를 결정할 수 있다. 구체적으로 오디오 신호 처리 장치는 바이노럴 효과 세기 정보를 기초로 앰비소닉 신호를 바이노럴 렌더링할지 결정할 수 있다.

GAO_META_CHN과 GAO_META_HOA는 앞서 설명한 사운드 레벨 정보를 포함할 수 있다. 이때, 오디오 신호 처리 장치는 GAO_META_CHN 또는 GAO_META_HOA로부터 사운드 레벨 정보를 획득할 수 있다. 또한, 오디오 신호 처리 장치는 사운드 레벨 정보를 기초로 채널 신호가 시뮬레이션하는 음상의 위치를 반영하여 렌더링할지 결정할 수 있다. 구체적으로 오디오 신호 처리 장치는 사운드 레벨 정보를 기초로 채널 신호를 바이노럴 렌더링할지 결정할 수 있다. 또한, 오디오 신호 처리 장치는 사운드 레벨 정보를 기초로 앰비소닉 신호가 시뮬레이션하는 음상의 위치를 반영하여 렌더링할지 결정할 수 있다. 구체적으로 오디오 신호 처리 장치는 사운드 레벨 정보를 기초로 앰비소닉 신호를 바이노럴 렌더링할지 결정할 수 있다.

GAO_META_CHN과 GAO_META_OBJ는 동일한 종류의 파라미터를 포함할 수 있다. 또한, 구체적인 실시 예에 따라 GAO_META_CHN과 GAO_META_OBJ는 서로 다른 종류의 파라미터를 포함할 수 있다. 구체적으로 GAO_META_CHN과 GAO_META_OBJ는 다음의 표에 나타난 정보 중 적어도 어느 하나를 포함할 수 있다.

오디오 신호는 파일 형태로 오디오 신호 처리 장치에게 전달될 수 있다. 또한, 오디오 신호는 스트리밍을 통해 오디오 신호 처리 장치에게 전달될 수 있다. 또한, 오디오 신호는 방송 신호를 통해 오디오 신호 처리 장치에게 전달될 수 있다. 오디오 신호의 전달 형태에 따라 메타데이터의 전달 방법도 달라질 수 있다. 이에 대해서는 도 9 내지 도 12를 통해 설명한다.

도 9는 본 발명의 일 실시 예에 따른 오디오 신호 처리 장치가 오디오 신호와 별도로 메타데이터를 획득하는 동작을 보여준다.

오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 오디오 신호를 인코딩한 오디오 비트스트림과 별도로 메타데이터를 오디오 신호 처리 장치에 전달할 수 있다. 따라서 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 메타데이터를 오디오 신호와 별도로 획득할 수 있다. 구체적으로 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 메타데이터를 오디오 신호와 다른 전송 파일 또는 다른 전송 스트림으로부터 획득할 수 있다. 구체적인 실시 예에서 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 전송 스트림 또는 전송 파일을 제1 링크를 통해 수신하고, 메타데이터를 제2 링크를 통해 수신할 수 있다. 이때, 전송 파일 또는 전송 스트림은 오디오 신호를 인코딩한 오디오 비트스트림을 포함하거나 오디오 신호를 인코딩한 오디오 비트스트림과 비디오 신호를 인코딩한 비디오 비트스트림을 모두 포함할 수 있다.

도 9의 실시 예는 오디오 신호 처리 장치를 포함하는 영상 신호 처리 장치를 보여준다. 영상 신호 처리 장치는 제1 링크(URL1)를 통해 오디오 신호와 비디오 신호를 포함하는 전송 스트림(transport stream)을 수신한다. 영상 신호 처리 장치는 제2 링크(ULR2)로부터 메타데이터(metadata)를 수신한다. 영상 신호 처리 장치는 전송 스트림(transport stream)을 디먹싱하여 오디오 비트스트림(A)과 비디오 비트스트림(V)을 추출한다. 오디오 신호 처리 장치의 디코더(Audio Decoder)는 오디오 비트스트림(A)을 디코드하여 오디오 신호(audio signal)를 획득한다. 오디오 신호 처리 장치의 오디오 렌더러(Audio Renderer)는 오디오 신호(audio signal)와 메타데이터(metadata)를 수신한다. 이때, 오디오 신호 처리 장치의 렌더러(Audio Renderer)는 메타데이터 인더페이스(Metadata Interface)를 사용하여 메타데이터(metadata)를 수신할 수 있다. 또한, 오디오 신호 처리 장치의 렌더러(Audio Renderer)는 메타데이터(metadata)를 기초로 오디오 신호(audio singnal)를 렌더링한다. 오디오 렌더러는 메타데이터를 처리하는 모듈(G-format)과 오디오 신호를 처리하는 모듈(G-core)을 포함할 수 있다. 또한, 오디오 렌더러(Audio Renderer)는 영상 신호 처리 장치 사용자의 머리 움직임을 기초로 오디오 신호(audio signal)를 렌더링할 수 있다. 영상 신호 처리 장치는 렌더링된 오디오와 렌더링된 비디오를 함께 출력한다. 또한, 비디오 렌더러는 비디오 신호(video signal)를 렌더링한다. 이때, 비디오 렌더러는 영상 신호 처리 장치 사용자의 머리 움직임을 기초로 비디오 신호(video signal)를 렌더링할 수 있다. 또한, 영상 신호 처리 장치는 제어부(Controller)를 사용해 사용자 입력을 수신할 수 있다. 또한, 제어부(Controller)는 디먹스(Demux)와 메타데이터 인터페이스(Metadata Interface)의 동작을 제어할 수 있다. 도 9의 실시 예에서 실선으로 표신된 부분은 도 9의 실시 예에 따른 오디오 신호 처리 장치가 포함하는 모듈을 보여준다. 또한, 점선으로 표시된 부분은 영상 신호 처리 장치가 포함하는 모듈로 생략되거나 대체 가능하다.

오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 오디오 신호를 인코딩한 오디오 비트스트림과 함께 메타데이터를 전달할 수 있다. 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 메타데이터를 오디오 신호와 함께 획득할 수 있다. 구체적으로 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 동일한 전송 파일 또는 전송 스트림으로부터 메타데이터와 오디오 신호를 함께 획득할 수 있다. 이때, 전송 파일 또는 전송 스트림은 오디오 신호를 인코딩한 오디오 비트스트림과 메타데이터를 포함하거나, 오디오 신호를 인코딩한 오디오 비트스트림, 비디오 신호를 인코딩한 비디오 비트스트림 및 메타데이터를 모두 포함할 수 있다. 예컨대, 전송 파일의 사용자 데이터 필드는 메타데이터를 포함할 수 있다. 구체적으로 전송 파일이 mp4인 경우, mp4의 사용자 데이터 필드인 UTDA는 메타데이터를 포함할 수 있다. 또 다른 구체적인 실시 예에서 전송 파일이 mp4인 경우, mp4의 개별 박스(box) 또는 엘리멘트가 메타데이터를 포함할 수 있다.

도 10의 실시 예는 오디오 신호 처리 장치를 포함하는 영상 신호 처리 장치를 보여준다. 영상 신호 처리 장치는 제1 링크(URL1)를 통해 오디오 신호, 비디오 신호, 메타데이터를 포함하는 전송 스트림(transport stream)을 수신한다. 영상 신호 처리 장치는 전송 스트림을 파싱하여 메타데이터(metadata)를 추출한다. 이때, 영상 신호 처리 장치는 파서(Parser)를 사용하여 전송 스트림을 파싱할 수 있다. 영상 신호 처리 장치는 전송 스트림(transport stream)을 디먹싱하여 오디오 신호(audio signal)와 비디오 신호(video signal)를 추출한다. 오디오 신호 처리 장치의 디코더(Audio Decoder)는 디먹스된 오디오 신호(A)를 디코드한다. 오디오 신호 처리 장치의 오디오 렌더러(Audio Renderer)는 디코드된 오디오 신호(decoded audio signal)와 메타데이터(metadata)를 수신한다. 이때, 오디오 신호 처리 장치의 렌더러(Audio Renderer)는 메타데이터 인더페이스(Metadata Interface)를 사용하여 메타데이터(metadata)를 수신할 수 있다. 또한, 오디오 신호 처리 장치의 렌더러(Audio Renderer)는 메타데이터(Metadata)를 기초로 디코드된 오디오 신호(decoded audio singnal)를 렌더링한다. 오디오 신호 처리 장치와 영상 신호 처리 장치의 다른 동작은 도 9를 통해 설명한 실시 예와 동일할 수 있다.

오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 전송 스트림 또는 전송 파일을 통해 메타데이터를 링크하는 링크 정보를 전송할 수 있다. 따라서 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 전송 스트림 또는 전송 파일로부터 메타데이터를 링크하는 링크 정보를 획득하고, 링크 정보를 사용해 메타데이터를 획득할 수 있다. 이때, 전송 파일 또는 전송 스트림은 오디오 신호를 인코딩한 비트스트림을 포함하거나, 오디오 신호를 인코딩한 비트스트림과 비디오 신호를 인코딩한 비트스트림을 모두 포함할 수 있다. 예컨대, 전송 파일의 사용자 데이터 필드가 메타데이터를 링크하는 링크 정보를 포함할 수 있다. 전송 파일이 mp4인 경우, mp4의 사용자 데이터 필드인 UTDA는 메타데이터를 링크하는 링크 정보를 포함할 수 있다. 또 다른 구체적인 실시 예에서 전송 파일이 mp4인 경우, mp4의 개별 박스(box) 또는 엘리멘트가 메타데이터를 링크하는 링크 정보를 포함할 수 있다. 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 링크를 정보를 사용해 획득된 메타데이터를 수신할 수 있다.

도 11의 실시 예는 오디오 신호 처리 장치를 포함하는 영상 신호 처리 장치를 보여준다. 영상 신호 처리 장치는 제1 링크(URL1)를 통해 오디오 신호, 비디오 신호, 메타데이터를 링크하는 링크 정보를 포함하는 전송 스트림(transport stream)을 수신한다. 영상 신호 처리 장치는 전송 스트림(transport stream)을 디먹싱하여 오디오 비트스트림(A), 비디오 비트스트림(V) 및 메타데이터를 링크하는 링크 정보를 추출한다. 오디오 신호 처리 장치의 디코더(Audio Decoder)는 오디오 비트스트림(A)를 디코드하여 오디오 신호를 획득한다. 오디오 신호 처리 장치의 렌더러(Audio Renderer)는 메타데이터 인더페이스(Metadata Interface)를 사용하여 링크 정보가 지시하는 제2 링크(ULR2)로부터 메타데이터(metadata)를 수신한다. 오디오 신호 처리 장치의 오디오 렌더러(Audio Renderer)는 오디오 신호(audio signal)와 메타데이터(metadata)를 수신한다. 또한, 오디오 신호 처리 장치의 렌더러(Audio Renderer)는 메타데이터(metadata)를 기초로 오디오 신호(audio singnal)를 렌더링한다. 오디오 신호 처리 장치와 영상 신호 처리 장치의 다른 동작은 도 9를 통해 설명한 실시 예와 동일할 수 있다.

오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 오디오 비트스트림에 메타데이터를 삽입할 수 있다. 따라서 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 오디오 비트스트림으로부터 메타데이터를 획득할 수 있다. 구체적으로 오디오 비트스트림의 사용자 데이터 필드는 메타데이터를 포함할 수 있다. 이에 따라 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 오디오 비트스트림으로부터 메타데이터를 파싱하는 파서를 포함할 수 있다. 또 다른 구체적인 실시 예에서 오디오 신호 처리 장치의 디코더는 오디오 비트스트림으로부터 메타데이터를 획득할 수 있다.

도 12의 실시 예에서 오디오 신호 처리 장치의 파서(Parser)는 오디오 비트스트림으로부터 메타데이터를 획득한다. 오디오 신호 처리 장치의 렌더러(Audio Renderer)는 파서(Parser)로부터 메타데이터를 수신한다. 도 13의 실시 예에서 오디오 신호 처리 장치의 디코더(Audio Decoder)는 오디오 비트스트림으로부터 메타데이터를 획득한다. 오디오 신호 처리 장치의 렌더러(Audio Renderer)는 오디오 신호 처리 장치의 디코더(Audio Decoder)로부터 메타데이터를 수신한다. 도 12 내지 도 13의 실시 예에서 오디오 신호 처리 장치와 영상 신호 처리 장치의 다른 동작은 도 9를 통해 설명한 실시 예와 동일할 수 있다.

오디오 신호 처리 장치가 스트리밍을 통해 오디오 신호를 수신하는 경우, 오디오 신호 처리 장치는 스트리밍 중간부터 오디오 신호를 수신할 수도 있다. 따라서 오디오 신호를 렌더링하기 위해 필요한 정보들은 주기적으로 전송되어야 한다. 이에 대해서 도 14 내지 도 16을 통해 설명한다.

도 14는 본 발명의 일 실시 예에 따른 오디오 신호 처리 장치가 전송 스트리밍을 통해 오디오 신호를 수신할 때, 오디오 신호 처리 장기가 메타데이터를 획득하는 방법을 보여준다.

오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 멀티미디어 스트림에 메타데이터를 주기적으로 삽입할 수 있다. 이때, 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 멀티미디어 스트림에 프레임 단위로 메타데이터를 삽입할 수 있다. 구체적인 실시 예에서 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 멀티미디어 스트림에 앞서 설명한 헤더 파라미터와 메타데이터 파라미터를 주기적으로 삽입할 수 있다. 이때, 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 멀티미디어 스트림에 헤더 파라미터를 메타데이터 파라미터보다 더 큰 주기로 삽입할 수 있다. 구체적으로 프레임에 포함된 메타데이터 파라미터의 길이가 다른 프레임에 포함된 메타데이터 파라미터의 길이보다 작은 경우, 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 해당 프레임에 헤더 파라미터를 삽입할 수 있다.

따라서 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 멀티미디어 스트림으로부터 주기적으로 메타데이터를 획득할 수 있다. 구체적으로 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 멀티미디어 스트림으로부터 프레임 단위로 메타데이터를 획득할 수 있다. 오디오 신호를 렌더링하는 오디오 신호 처리 장치가 프레임 단위로 메타데이터를 획득하는 경우, 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 메타데이터와 오디오 신호의 동기를 맞추기 위해 오디오 신호와 메타데이터를 다시 패킹(Packing)하지 않아도 된다. 또한, 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 메타데이터와 오디오 신호를 효율적으로 관리할 수 있다. 메타데이터의 구체적인 신택스에 대해서는 도 15 내지 도 16을 통해 설명한다.

도 15 내지 도 16은 본 발명의 실시 예에 따른 AAC 파일의 신택스를 보여준다. 구체적으로 도 15(a)는 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 AAC 파일이 포함하는 엘리멘트의 ID를 판단하는 신택스를 보여준다. 도 15(b)와 도 15(c)는 본 발명의 실시 예에 따른 오디오 신호 처리 장치의 데이터 스트림 엘리멘트 파싱 동작 신택스를 보여준다.

앞서 설명한 바와 같이 멀티미디어 스트림은 프레임 단위로 메타데이터를 포함할 수 있다. 구체적으로 AAC 파일이 스트밍을 통해 전송되는 경우, 도 15 내지 도 16과 같은 신택스를 가질 수 있다. 오디오 신호 처리 장치는 AAC 파일이 포함하는 엘리멘트의 ID가 데이터 스트림 엘리멘트(ID_DSE)를 나타내는지 판단한할 수 있다. AAC 파일이 포함하는 엘리멘트의 ID가 데이터 스트림 엘리멘트(ID_DSE)를 나타내는 경우, 오디오 신호 처리 장치는 데이터 스트림 엘리멘트 파싱 동작(GaoReadDSE)을 수행한다.

도 16(a)는 앞서 설명한 헤더 파라미터의 신택스를 보여준다. 도 16(b)는 앞서 설명한 메타데이터 파라미터의 신택스를 보여준다. 또한, 오디오 신호 처리 장치는 헤더 파라미터를 파싱(GaoReadDSEHDR)하고 메타데이터 파라미터를 파싱(GaoReadDSEMeta)한다.

본 발명의 실시 예를 지원하지 않는 레거시 오디오 신호 처리 장치가 디코딩/렌더링할 수 있는 채널의 수가 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 디코딩/렌더링할 수 있는 채널의 수보다 작을 수 있다. 또한, 레거시 오디오 파일 포맷 또한 오디오 신호 처리 장치가 디코딩/렌더링할 수 있는 채널 수보다 작은 채널 수의 오디오 신호만을 포함할 수 있다. 따라서 레거시 오디오 파일 포맷을 통해 본 발명의 실시 예에 따른 오디오 신호 처리 장치를 위한 오디오 신호를 전송하는 것이 어려울 수 있다. 또한, 새로운 파일 포맷을 사용하는 경우, 레거시 오디오 신호 처리 장치와의 호환성이 문제될 수 있다. 따라서 레거시 오디오 파일 포맷을 이용하는 오디오 신호 처리 방법에 대해서는 도 17을 통해 설명한다.

오디오 파일이 복수의 컨텐츠를 포함하는 경우, 오디오 파일은 복수의 트랙을 포함할 수 있다. 예컨대, 하나의 오디오 파일은 동일한 영화의 대사를 서로 다른 언어로 녹음된 복수의 트랙을 포함할 수 있다. 또한, 오디오 파일은 서로 다른 음악을 포함하는 복수의 트랙을 포함할 수 있다. 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 오디오 파일의 트랙을 이용하여 오디오 파일이 지원하는 채널 수보다 더 많은 채널을 갖는 오디오 신호를 오디오 파일로 인코딩할 수 있다.

구체적으로 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 오디오 신호의 복수의 오디오 신호 성분(component)을 오디오 파일이 포함하는 복수의 트랙에 나누어 삽입할 수 있다. 이때, 복수의 신호 성분은 오브젝트 신호, 채널 신호 및 앰비소닉 신호 중 적어도 어느 하나일 수 있다. 또한, 오디오 파일의 각 트랙은 복수의 신호 성분의 채널 수의 합보다 작은 수의 채널만을 지원할 수 있다. 또한, 오디오 파일의 각 트랙에 포함되는 신호 성분의 채널 수는 오디오 파일의 각 트랙이 지원하는 채널 수보다 작을 수 있다. 구체적으로 오디오 신호가 제1 신호 성분과 제2 신호 성분을 포함할 때, 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 포맷의 제1 트랙에 오디오 파일이 지원하는 채널 수를 지원하는 제1 신호 성분을 삽입하고, 오디오 파일의 제2 트랙에 제2 신호 성분을 삽입할 수 있다. 앞서 설명한 바와 같이 제1 트랙은 미리 지정된 트랙일 수 있다. 또한, 제1 신호 성분은 오디오 신호가 시뮬레이션하는 음상의 위치를 표현하기 위한 메타데이터 없이 렌더링될 수 있는 오디오 신호 성분일 수 있다. 구체적으로 제1 신호 성분은 바이노럴 렌더링을 위한 메타데이터 없이 렌더링될 수 있는 오디오 신호 성분일 수 있다. 또한, 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 미리 지정된 트랙 순서에 따라 제1 신호 성분 이외의 신호 성분을 삽입할 수 있다. 또 다른 구체적인 실시 예에서 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 제1 트랙에 메타데이터를 삽입할 수 있다. 이때, 메타데이터는 제1 신호 성분 이외의 신호 성분이 포함된 트랙을 지시할 수 있다. 또한, 메타데이터는 오디오 신호를 렌더링하는데 사용될 수 있다. 구체적으로 메타데이터는 도 3 내지 도 8을 통해 설명한 메타데이터일 수 있다.

오디오 신호를 렌더링하는 오디오 신호 처리 장치는 오디오 파일이 포함하는 복수의 트랙에 포함된 오디오 신호 성분을 동시에 렌더링할 수 있다. 이때, 복수의 오디오 신호 성분은 오브젝트 신호, 채널 신호 및 앰비소닉 신호 중 적어도 어느 하나일 수 있다. 또한, 앞서 설명한 것과 같이 오디오 파일의 각 트랙은 복수의 오디오 신호 성분의 채널 수의 합보다 작은 수의 채널을 지원할 수 있다. 구체적으로 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 오디오 파일의 제1 트랙에 포함된 제1 오디오 신호 성분과 제2 트랙에 포함된 제2 오디오 성분을 함께 렌더링할 수 있다. 이때, 제1 트랙은 앞서 설명한 바와 같이 복수의 트랙 중 미리 지정된 위치의 트랙일 수 있다. 예컨대, 제1 트랙은 오디오 파일의 복수의 트랙 중 첫 번째 트랙일 수 있다. 이때, 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 오디오 파일의 복수의 트랙이 오디오 신호 성분을 포함하는지 미리 지정된 트랙 순서로 확인할 수 있다. 또 다른 구체적인 실시 예에서 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 제1 트랙으로부터 메타데이터를 획득하고, 획득한 메타데이터를 기초로 오디오 성분을 획득할 수 있다. 구체적으로 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 획득한 메타데이터를 기초로 오디오 신호 성분을 포함하는 트랙을 판단할 수 있다. 또한, 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 제1 트랙으로부터 메타데이터를 획득하고, 메타데이터를 기초로 오디오 신호 성분을 렌더링할 수 있다. 구체적으로 메타데이터는 도 3 내지 도 8을 통해 설명한 메타데이터일 수 있다.

또한, 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 오디오 신호 처리 장치의 능력(capability)에 따라 오디오 파일이 포함하는 복수의 트랙을 선택하고, 선택한 복수의 트랙을 렌더링할 수 있다. 구체적으로 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 복수의 트랙 각각이 포함하는 오디오 성분의 특징 및 오디오 신호 처리 장치의 능력에 따라 복수의 트랙을 선택할 수 있다. 앞서 설명한 실시 예에서 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 오디오 신호 처리 장치의 능력에 따라 제1 오디오 신호 성분과 제2 오디오 신호 성분을 선택할 수 있다.

도 17의 실시 예에서, 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 도 17(a)와 같이 FOA 신호와 메타데이터를 하나의 트랙으로 인코딩한다. 도 17의 실시 예에서 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 도 17(b)의 MP4 파일이 포함하는 AAC 파일을 생성할 수 있다. 구체적으로 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 제1 앰비소닉 신호(FOA)와 메타데이터를 AAC 파일의 제1 트랙(TRK0)에 삽입한다. 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 제1 오브젝트 신호(OBJ0)와 제2 오브젝트 신호(OBJ1)를 AAC 파일의 제2 트랙(TRK1)에 삽입한다. 또한, 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 제3 오브젝트 신호(OBJ2)와 제4 오브젝트 신호(OBJ3)를 AAC 파일의 제3 트랙(TRK2)에 삽입한다. 또한, 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 제5 오브젝트 신호(OBJ4)와 제6 오브젝트 신호(OBJ5)를 AAC 파일의 제4 트랙(TRK3)에 삽입한다. 또한, 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 제7 오브젝트 신호(OBJ6)와 제8 오브젝트 신호(OBJ7)를 AAC 파일의 제5 트랙(TRK4)에 삽입한다. 또한, 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 제2 앰비소닉 신호(FOA1)를 AAC 파일의 제6 트랙(TRK5)에 삽입한다. 이때, 제2 앰비소닉 신호(FOA1)는 4개의 채널을 포함하는 1차 앰비소닉 신호이다. 또한, 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 제3 앰비소닉 신호(HOA2)를 AAC 파일의 제7 트랙(TRK6)에 삽입한다. 제3 앰비소닉 신호(HOA2) 앰비소닉 신호는 5채널을 포함하고, 제2 앰비소닉 신호(HOA1)와 제3 앰비소닉 신호(HOA2)는 2차 앰비소닉 신호를 구성한다. 또한, 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 제4 앰비소닉 신호(HOA3)를 AAC 파일의 제8 트랙(TRK7)에 삽입한다. 제4 앰비소닉 신호(HOA2) 앰비소닉 신호는 7채널을 포함하고, 제2 앰비소닉 신호(FOA1), 제3 앰비소닉 신호(HOA2) 및 제4 앰비소닉 신호(HOA3)는 3차 앰비소닉 신호를 구성한다.

도 17(c)의 실시 예에서 오디오 신호를 렌더링하는 오디오 신호 처리 장치의 디코더(Decoder)는 AAC 파일의 트랙이 포함하는 오디오 신호를 디코딩한다. 이때, 오디오 신호를 렌더링하는 오디오 신호 처리 장치의 디코더(Decoder)는 AAC 파일의 제1 트랙(TRK0)에 포함된 메타데이터(Meta)를 디코딩하지 아니한다. 앞서 설명한 바와 같이 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 메타데이터(Meta)를 기초로 오디오 신호 성분을 포함하는 AAC 파일의 트랙을 판단하여, AAC 파일의 트랙이 포함하는 오디오 신호를 디코딩할 수 있다. 도 17(d)의 실시 예에서 오디오 신호를 렌더링하는 오디오 신호 처리 장치의 렌더러(Renderer)는 AAC 파일의 트랙이 포함하는 오디오 신호 성분(OBJ/HOA/CHN Audio)을 메타데이터(OBJ/HOA/CHN Metadata)를 기초로 렌더링할 수 있다. 특히, 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 복수의 트랙을 오디오 신호 처리 장치의 능력(capability)에 따라 선택적으로 렌더링할 수 있다. 예컨대, 4개의 채널을 포함하는 신호를 렌더링할 수 있는 오디오 신호 처리 장치는 제2 앰비소닉 신호(FOA1)를 렌더링할 수 있다. 이때, 9개의 채널을 포함하는 신호를 렌더링할 수 있는 오디오 신호 처리 장치는 제2 앰비소닉 신호(FOA1)와 제3 앰비소닉 신호(HOA2)를 동시에 렌더링할 수 있다. 또한, 16개의 채널을 포함하는 신호를 렌더링할 수 있는 오디오 신호 처리 장치는 제2 앰비소닉 신호(FOA1), 제3 앰비소닉 신호(HOA2) 및 제4 앰비소닉 신호(HOA3)를 동시에 렌더링할 수 있다.

이러한 실시 예를 통해, 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 오디오 파일 포맷의 개별이 트랙이 지원하는 채널 수보다 많은 채널 수를 포함하는 오디오 신호를 렌더링할 수 있다. 또한, 서로 다른 개수의 채널 디코딩/렌더링을 지원하는 오디오 신호 처리 장치 간의 호환성을 확보할 수 있다.

본 발명의 일 실시 예에 따라 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치(300)는 수신부(310), 프로세서(330) 및 출력부(370)를 포함한다.

수신부(10)는 입력 오디오 신호를 수신한다. 이때, 오디오 신호는 음향 수집장치가 수신한 음향이 변환된 것일 수 있다. 음향 수집 장치는 마이크일 수 있다. 또한, 음향 수집 장치는 복수의 마이크를 포함하는 마이크 어레이일 수 있다.

프로세서(30)는 수신부(10)가 수신한 입력 오디오 신호를 인코딩하여 비트스트림을 생성하고 오디오 신호에 대한 메타데이터를 생성한다. 구체적으로 프로세서(30)는 포맷 컨버터 및 메타데이터 생성부를 포함할 수 있다. 포맷 컨버터는 입력 오디오 신호의 포맷을 다른 포맷으로 변환한다. 구체적으로 포맷 컨버터는 오브젝트 신호를 앰비소닉 신호로 변환할 수 있다. 이때, 앰비소닉 신호는 마이크 어레이를 통해 녹음된 신호일 수도 있다. 또한 앰비소닉 신호는 마이크 어레이를 통해 녹음한 신호를 구면 조화 함수(spherical harmonics)의 기저에 대한 계수 (coefficient)로 변환한 신호일 수도 있다. 또한, 포맷 컨버터는 앰비소닉 신호를 오브젝트 신호로 변환할 수 있다. 구체적으로 포맷 컨버터는 앰비소닉 신호의 차수를 변경할 수 있다. 예컨대, 포맷 컨버터는 HoA(Higher Order Ambisonics) 신호를 FoA(First Order Ambisonics) 신호로 변경할 수 있다. 또한, 포맷 컨버터는 입력 오디오 신호에 관련된 위치 정보를 획득하고, 획득한 위치 정보를 기초로 입력 오디오 신호의 포맷을 변환할 수 있다. 이때, 위치 정보는 오디오 신호에 해당하는 음향을 수집한 마이크 어레이에 대한 정보일 수 있다. 구체적으로 마이크 어레에 대한 정보는 마이크 어레이를 구성하는 마이크들의 배열 정보, 개수 정보, 위치 정보, 주파수 특성 정보, 빔 패턴 정보 중 적어도 하나를 포함할 수 있다. 또한, 입력 오디오 신호에 관련된 위치 정보는 음원의 위치를 나타내는 정보를 포함할 수 있다.

메타데이터 생성부는 입력 오디오 신호에 해당하는 메타데이터를 생성한다. 구체적으로 메타데이터 생성부는 입력 오디오 신호를 렌더링하는데 사용되는 메타데이터를 생성할 수 있다. 이때, 메타데이터는 도 3 내지 도 17을 통해 설명한 실시 예들에서의 메타데이터일 수 있다. 또한, 메타데이터는 도 9 내지 도 17을 통해 설명한 실시 예들에 따라 오디오 신호 처리 장치에게 전달될 수 있다.

또한, 프로세서(330)는 오디오 신호의 복수의 오디오 신호 성분(component)을 오디오 파일 포맷이 포함하는 복수의 트랙에 나누어 삽입할 수 있다. 이때, 복수의 신호 성분은 오브젝트 신호, 채널 신호 및 앰비소닉 신호 중 적어도 어느 하나일 수 있다. 구체적으로 프로세서(330)는 도 17을 통해 설명한 실시 예에서와 같이 동작할 수 있다.

출력부(370)는 비트스트림과 메타데이터를 출력한다.

도 19는 본 발명의 일 실시 예에 따라 오디오 신호를 전달하기 위해 오디오 신호 처리 장치의 동작 방법을 보여주는 순서도이다.

오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 오디오 신호를 수신한다(S1901).

오디오 신호 처리 장치는 수신한 오디오 신호를 인코딩한다(S1903). 구체적으로 오디오 신호 처리 장치는 오디오 신호에 대한 메타데이터를 생성할 수 있다. 메타데이터는 오디오 신호를 렌더링하는데 사용될 수 있다. 이때, 렌더링는 바이노럴 렌더링일 수 있다. 구체적으로 오디오 신호 처리 장치는 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하기 위한 정보를 포함하는, 오디오 신호에 대한 메타데이터를 생성할 수 있다. 오디오 신호 처리 장치는 메타데이터가 지시하는 시간 구간에 해당하는 사운드 레벨을 메타데이터에 삽입할 수 있다. 이때, 사운드 레벨은 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하여 오디오 신호를 렌더링할지 결정하는데 사용될 수 있다.

구체적으로 오디오 신호 처리 장치는 오디오 신호에 적용되는 바이노럴 렌더링 강도를 나타내는 바이노럴 효과 세기 정보를 메타데이터에 삽입할 수 있다. 이때, 바이노럴 효과 세기 정보는 HRTF 또는 BRIR의 상대적 크기를 변경하는데 사용될 수 있다. 또한, 바이노럴 효과 세기 정보는 오디오 신호의 오디오 신호 성분 별로 바이노럴 렌더링 강도를 지시할 수 있다. 또한, 바이노럴 효과 세기 정보는 프레임 단위로 바이노럴 렌더링 적용 강도를 나타낼 수 있다.

오디오 신호 처리 장치는 청자의 움직임을 반영하여 오디오 신호를 렌더링할지 나타내는 움직임 적용 여부 정보를 메타데이터에 삽입할 수 있다. 이때, 청자의 움직임은 청자의 머리 움직임을 포함할 수 있다.

오디오 신호 처리 장치는 청자에 따라 설정될 수 있는 파라미터인 개인화 파라미터의 적용의 허용 여부를 나타내는 개인화 파라미터 적용 정보를 메타데이터에 삽입할 수 있다. 이때, 개인화 파라미터 적용 정보는 개인화 파라미터 적용이 허용되지 않음을 나타낼 수 있다. 구체적인 메타데이터의 포맷은 도 3 내지 도 16을 통해 설명한 실시 들과 같을 수 있다.

또한, 오디오 신호 처리 장치는 수신한 오디오 신호의 복수의 오디오 신호 성분을 복수의 트랙에 포함하는 오디오 파일을 생성할 수 있다. 구체적으로 오디오 신호 처리 장치는 오디오 신호 제1 오디오 신호 성분을 제1 트랙에 포함하고, 오디오 신호의 제2 오디오 신호 성분을 제2 트랙에 포함하는 오디오 파일을 생성할 수 있다. 이때, 제1 트랙과 제2 트랙 각각이 지원하는 오디오 신호의 채널 수가 오디오 신호의 채널 수의 합보다 작을 수 있다. 또한, 제1 트랙은 오디오 파일의 복수의 트랙 중 미리 지정된 위치의 트랙일 수 있다. 구체적으로 제1 트랙은 첫 번째 트랙일 수 있다. 또한, 오디오 신호 인코딩 장치는 제1 트랙에 메타데이터를 삽입할 수 있다. 이때, 메타데이터는 오디오 파일의 복수의 트랙 중 어느 트랙이 오디오 신호의 오디오 신호 성분을 포함하는지 나타낼 수 있다. 또 다른 구체적인 실시 예에서 오디오 신호 처리 장치는 오디오 신호의 복수의 오디오 신호 성분을 복수의 트랙에 지정된 순서대로 삽입할 수 있다. 구체적으로 오디오 신호를 전달하기 위해 오디오 신호를 처리하는 오디오 신호 처리 장치는 도 17 내지 18을 통해 설명한 실시 예들과 같이 동작할 수 있다.

오디오 신호 처리 장치는 인코딩된 오디오 신호를 출력한다(S1905). 또한, 오디오 신호 처리 장치는 생성한 메타데이터를 출력할 수 있다. 또한, 오디오 신호 인코딩 장치는 생성한 오디오 파일을 출력할 수 있다.

오디오 신호를 렌더링하는 오디오 신호 처리 장치는 오디오 신호를 수신한다(S2001). 구체적으로 오디오 신호 처리 장치는 오디오 신호를 포함하는 오디오 파일을 수신할 수 있다.

오디오 신호 처리 장치는 수신한 오디오 신호를 렌더링한다(S2003). 오디오 신호 처리 장치는 수신한 오디오 신호를 바이노럴 렌더링할 수 있다. 또한, 오디오 신호 처리 장치는 수신한 오디오 신호에 대한 메타데이터를 기초로 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하여 오디오 신호를 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하여 오디오 신호를 렌더링할지 결정할 수 있다. 이때, 오디오 신호 처리 장치는 결정에 따라 오디오 신호를 렌더링할 수 있다.

구체적인 실시 예에서 메타데이터는 메타데이터가 지시하는 시간 구간에 해당하는 사운드 레벨을 나타내는 사운드 레벨 정보를 포함할 수 있다. 오디오 신호 처리 장치는 사운드 레벨 정보를 기초로 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하여 오디오 신호를 렌더링할지 결정할 수 있다. 예컨대, 오디오 신호 처리 장치는 제1 시간 구간에 해당하는 오디오 신호의 사운드 레벨과 제2 시간 구간에 해당하는 오디오 신호의 사운드 레벨의 차이를 비교할 수 있다. 이때, 오디오 신호 처리 장치는 비교 결과를 기초로 제2 시간 구간에 해당하는 오디오 신호를 상기 제2 시간 구간에 해당하는 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하여 상기 오디오 신호를 렌더링할지 결정할 수 있다. 이때, 제1 시간 구간은 제2 시간 구간보다 앞서 시간일 수 있다. 또한, 제1 시간 구간과 제2 시간 구간은 연속한 시간 구간일 수 있다. 또 다른 구체적인 실시 예에서 오디오 신호 처리 장치는 사운드 레벨 정보가 나타내는 사운드 레벨이 미리 지정된 값보다 작은지를 기초로 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하여 상기 오디오 신호를 렌더링할지 결정할 수 있다. 구체적으로 오디오 신호 처리 장치는 사운드 레벨 정보가 뮤트를 나타내는 경우 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하지 않고 오디오 신호를 렌더링할 수 있다.

또한, 메타데이터는 바이노럴 렌더링 적용 강도를 나타내는 바이노럴 효과 세기 정보를 포함할 수 있다. 이때, 오디오 신호 처리 장치는 바이노럴 효과 세기 정보를 기초로 상기 오디오 신호에 대한 바이노럴 렌더링 적용 강도를 결정할 수 있다. 또한, 오디오 신호 처리 장치는 결정된 바이노럴 렌더링 적용 강도로 상기 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 결정된 바이노럴 렌더링 적용 강도에 따라 바이노럴 렌더링을 위한 HRTF(Head Related Transfer Function) 또는 BRIR(Binaural Rendering Impulse Response)의 상대적 크기를 변경할 수 있다. 바이노럴 효과 세기 정보는 상기 오디오 신호의 성분 별로 바이노럴 렌더링 강도를 지시할 수 있다. 또한, 바이노럴 효과 세기 정보는 프레임 단위로 바이노럴 렌더링 강도를 지시할 수 있다.

또한, 앞서 설명한 실시 예들에서 오디오 신호 처리 장치는 오디오 신호가 시뮬레이션하는 음상의 위치를 반영하여 렌더링할지가 변경되는지에 따라 페이드 인/페이드 아웃을 적용하여 오디오 신호를 렌더링할 수 있다.

또한, 메타데이터는 청자의 움직임을 반영하여 오디오 신호를 렌더링할지를 나타내는 움직임 적용 여부 정보를 포함할 수 있다. 이때, 오디오 신호 처리 장치는 움직임 적용 여부 정보를 기초로 청자의 움직임을 반영하여 오디오 신호를 렌더링할지 결정할 수 있다. 구체적으로 오디오 신호 처리 장치는 움직임 적용 여부 정보에 따라 청자의 움직임을 반영하지 않고 오디오 신호를 렌더링할 수 있다. 이때, 청자의 움직임은 청자의 머리 움직임을 포함할 수 있다.

또한, 메타데이터는 청자에 따라 설정될 수 있는 파라미터인 개인화 파라미터 의 적용의 허용 여부를 나타내는 개인화 파라미터 적용 정보를 포함할 수 있다. 이때, 오디오 신호 처리 장치는 개인화 파라미터 적용 정보를 기초로 오디오 신호를 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 개인화 파라미터 적용 정보에 따라 개인화 파라미터를 적용하지 않고 오디오 신호를 렌더링할 수 있다. 메타데이터의 구체적인 포맷은 도 3 내지 도 16을 통해 설명한 실시 예와 같을 수 있다. 또한, 메타데이터는 도 9 내지 도 14를 통해 설명한 실시 예들에 따라 전달될 수 있다.

오디오 신호 처리 장치는 오디오 신호를 포함하는 오디오 파일의 복수의 트랙 각각에 포함된 복수의 오디오 신호 성분을 동시에 렌더링할 수 있다. 오디오 신호 처리 장치는 오디오 신호를 포함하는 오디오 파일의 제1 트랙에 포함된 제1 오디오 신호 성분과 제2 트랙에 포함된 제2 오디오 신호 성분을 동시에 렌더링할 수 있다. 이때, 제1 트랙과 제2 트랙 각각이 지원하는 오디오 신호의 채널 수가 오디오 신호의 채널 수의 합보다 작을 수 있다. 이때, 제1 트랙은 오디오 파일의 복수의 트랙 중 미리 지정된 위치의 트랙일 수 있다. 또한, 제1 트랙은 메타데이터를 포함할 수 있다. 이때, 오디오 신호 처리 장치는 메타데이터를 기초로 오디오 신호 성분을 포함하는 오디오 파일의 트랙을 판단할 수 있다. 또한, 오디오 신호 처리 장치는 메타데이터를 기초로 제1 오디오 신호 성분과 제2 오디오 신호 성분을 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 메타데이터를 기초로 제1 오디오 신호 성분과 제2 오디오 신호 성분을 바이노럴 렌더링할 수 있다. 또한, 오디오 신호 처리 장치는 오디오 파일의 복수의 트랙이 오디오 신호의 오디오 신호 성분을 포함하는지 미리 지정된 트랙 순서로 확인할 수 있다.

오디오 신호 처리 장치는 렌더링된 오디오 신호를 출력한다(S2005). 앞서 설명한 것과 같이 오디오 신호 처리 장치는 2개 이상의 라우드 스피커를 통해 렌더링된 오디오 신호를 출력할 수 있다. 또 다른 구체적인 실시 예에서 오디오 신호 처리 장치는 2채널 스테레오 헤드폰을 통해 렌더링된 오디오 신호를 출력할 수 있다.

이상에서는 본 발명을 구체적인 실시 예를 통하여 설명하였으나, 당업자라면 본 발명의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있다. 즉, 본 발명은 멀티 오디오 신호에 대한 프로세싱 실시 예에 대하여 설명하였지만, 본 발명은 오디오 신호뿐만 아니라 비디오 신호를 포함하는 다양한 멀티미디어 신호에도 동일하게 적용 및 확장 가능하다. 따라서 본 발명의 상세한 설명 및 실시 예로부터 본 발명이 속하는 기술분야에 속한 사람이 용이하게 유추할 수 있는 것은 본 발명의 권리범위에 속하는 것으로 해석된다.

Claims

오디오 신호를 렌더링하는 오디오 신호 처리 장치에서,

오디오 신호를 포함하는 오디오 파일을 수신하는 수신부;

상기 오디오 파일의 제1 트랙에 포함된 제1 오디오 신호 성분과 제2 트랙에 포함된 제2 오디오 신호 성분을 동시에 렌더링하는 프로세서; 및

상기 렌더링된 제1 오디오 신호 성분과 상기 렌더링된 제2 오디오 신호 성분을 출력하는 출력부를 포함하는

오디오 신호 처리 장치.
제1항에서

상기 제1 트랙과 상기 제2 트랙 각각이 지원하는 오디오 신호의 채널 수가 상기 오디오 신호의 채널 수의 합보다 작은

오디오 신호 처리 장치.
제2항에서

상기 제1 트랙은 상기 오디오 파일의 복수의 트랙 중 미리 지정된 위치의 트랙인

오디오 신호 처리 장치.
제3항에서,

상기 제1 오디오 신호 성분은 오디오 신호가 시뮬레이션하는 음상의 위치를 표현하기 위한 메타데이터 없이 렌더링 될 수 있는 오디오 신호 성분인

오디오 신호 처리 장치.
제4항에서,

상기 제1 오디오 신호 성분은 바이노럴 렌더링을 위한 메타데이터 없이 렌더링 될 수 있는 오디오 신호 성분인

오디오 신호 처리 장치.
제3항에서,

상기 제1 트랙은 메타데이터를 포함하고,

상기 프로세서는

상기 메타데이터를 기초로 오디오 신호 성분을 포함하는 상기 오디오 파일의 트랙을 판단하는

오디오 신호 처리 장치.
제5항에서,

상기 프로세서는

상기 메타데이터를 기초로 상기 제1 오디오 신호 성분과 상기 제2 오디오 신호 성분을 렌더링하는

오디오 신호 처리 장치.
제3항에서,

상기 프로세서는

상기 오디오 파일의 복수의 트랙이 상기 오디오 신호의 오디오 신호 성분을 포함하는지 미리 지정된 트랙 순서로 확인하는

오디오 신호 처리 장치.
제1항에서,

상기 프로세서는

상기 오디오 신호 처리 장치의 능력에 따라 상기 오디오 파일의 복수의 트랙에 포함된 복수의 오디오 신호 성분 중 상기 제1 오디오 신호 성분과 상기 제2 오디오 신호 성분을 선택하는

오디오 신호 처리 장치.
오디오 신호 전달을 위해 오디오 신호를 처리하는 오디오 신호 처리 장치에서,

오디오 신호를 수신하는 수신부;

상기 오디오 신호의 제1 오디오 신호 성분을 제1 트랙에 포함하고, 상기 오디오 신호의 제2 오디오 신호 성분을 제2 트랙에 포함하는 오디오 파일을 생성하는 프로세서; 및

상기 오디오 파일을 출력하는 출력부를 포함하는

오디오 신호 처리 장치.
제10항에서,

상기 제1 트랙과 상기 제2 트랙 각각이 지원하는 오디오 신호의 채널 수가 상기 오디오 신호의 채널 수의 합보다 작은

오디오 신호 처리 장치.
제10항에서,

상기 제1 트랙은 상기 오디오 파일의 복수의 트랙 중 미리 지정된 위치의 트랙인

오디오 신호 처리 장치.
제12항에서,

상기 제1 오디오 신호 성분은 오디오 신호가 시뮬레이션하는 음상의 위치를 표현하기 위한 메타데이터 없이 렌더링 될 수 있는 오디오 신호 성분인

오디오 신호 처리 장치.
제13항에서,

상기 제1 오디오 신호 성분은 바이노럴 렌더링을 위한 메타데이터 없이 렌더링 될 수 있는 오디오 신호 성분인

오디오 신호 처리 장치.
제12항에서,

상기 프로세서는

상기 제1 트랙에 메타데이터를 삽입하고,

상기 메타데이터는 상기 오디오 파일의 복수의 트랙 중 어느 트랙이 상기 오디오 신호의 오디오 신호 성분을 포함하는지 나타내는

오디오 신호 처리 장치.
제12항에서,

상기 프로세서는

상기 오디오 신호의 복수의 오디오 신호 성분을 상기 오디오 파일의 복수의 트랙에 지정된 순서대로 삽입하는

오디오 신호 처리 장치.