WO2019031652A1

WO2019031652A1 - 3차원 오디오 재생 방법 및 재생 장치

Info

Publication number: WO2019031652A1
Application number: PCT/KR2017/012881
Authority: WO
Inventors: 이동금; 오세진
Original assignee: 엘지전자 주식회사
Priority date: 2017-08-10
Filing date: 2017-11-14
Publication date: 2019-02-14
Also published as: US10939222B2; US20200374646A1

Abstract

본 발명은 3차원 오디오 재생 방법 및 재생 장치에 대해 개시한다. 본 발명의 3차원 오디오 재생 방법은, 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 디코딩 단계, 상기 수신된 오디오 신호에 RIR(Room Impulse Response) 데이터가 포함된 경우에는 상기 RIR데이터를 디코딩하는, RIR디코딩 단계, 상기 수신된 오디오 신호에 RIR 데이터가 포함된 경우, 사용자 머리 정보(user head info)를 활용하여 HRIR(Head-related impulse response) 데이터를 생성하는, HRIR생성 단계, 상기 디코딩된 RIR 데이터와 모델링된 HRIR 데이터를 합성하여 BRIR(Binaural Room Impulse Response) 데이터를 생성하는, BRIR합성 단계, 및 상기 생성된 BRIR 데이터를 상기 디코딩된 오디오 신호(decoded signal)에 적용하여 바이너럴 랜더링된(binaural rendered signal) 오디오 신호로 출력하는, 바이너럴 랜더링 단계를 포함하는 것을 특징으로 한다. 또한, 본 발명의 3차원 오디오 재생 방법 및 재생 장치는 3DoF뿐만 아니라 6DoF 환경을 지원하는 것을 특징으로 한다. 또한, 본 발명의 3차원 오디오 재생 방법 및 재생 장치는, BRIR 또는 RIR 데이터를 파라미터화(parameterization) 하여 제공하는 것을 특징으로 한다. 본 발명의 실시예에 따른, 3차원 오디오 재생 방법에 의해, 더욱 입체감 및 현장감 있는 3차원 오디오 신호를 제공하는 것이 가능하게 된다.

Description

3차원 오디오 재생 방법 및 재생 장치

본 발명은 3차원 오디오 재생 방법 및 재생 장치에 관한 것이다. 특히 본 발명은 3차원 오디오 재생에 활용되는 BRIR(Binaural Room Impulse Response) 또는 RIR(Room Impulse Response) 데이터를 전송하는 방법 및 BRIR/RIR 파라미터화(parameterization) 방법을 활용한 오디오 재생 방법 및 오디오 재생 장치에 관한 것이다.

최근 IT기술의 발전에 따라 다양한 스마트 기기가 개발되고 있다. 특히 이러한 스마트 기기는 다양한 효과를 가지는 오디오 출력을 기본으로 제공한다. 특히, 가상 현실(Virtual Reality) 환경 또는 3차원 오디오 환경에서, 더욱 현실감 있는 오디오 출력을 위한, 다양한 방법이 시도되고 있다. 관련하여, 새로운 오디오 코딩 국제표준 기술로 MPEG-H가 개발되고 있다. MPEG-H는, 초고해상도 대화면 디스플레이 (예, 100인치 이상)와 초다채널 오디오 시스템 (예, 10.2 채널 또는 22.2 채널 등)을 이용한 실감 몰입형(immersive) 멀티미디어 서비스를 위한 새로운 국제 표준화 프로젝트이다. 특히, 상기 MPEG-H표준화 프로젝트내에는 초다채널 오디오 시스템 구현을 위한 노력으로 “MPEG-H 3D Audio AhG (Adhoc Group)” 이름의 서브 그룹이 설립되어 활동 중이다.

MPEG-H 3D Audio부호화/복호화 기기는 멀티 채널 스피커 시스템을 이용하여 청취자에게 실감형 오디오를 제공한다. 또한, 헤드폰 환경에서는 현실감 높은 3차원 오디오 효과를 제공한다. 이러한 특징으로 인해 MPEG-H 3D Audio 디코더는 VR 오디오 표준으로 고려되고 있다.

현존하는 표준화가 완료된 3D audio 부호화/복호화 기기(예: MPEG-H 3D Audio)는 모두 디코더 혹은 수신기 자체에서 보유하고 있는 BRIR(Binaural room impulse response) 혹은 HRIR(Head-related impulse response)을 재생되는 오디오 신호에 적용하여 3차원 오디오 신호를 제공한다. 즉, 사전에 미리 보유한 데이터만을 이용하였다. 이는 사용자로 하여금 다양한 환경에서 3차원 오디오를 경험하지 못하는 경우가 발생할 수 있다. 따라서 본 발명에서는 인코더(encoder)단에서 오디오 신호를 인코딩함과 동시에 오디오 신호와 가장 적합한 BRIR 또는 RIR도 함께 인코딩하여 기존의 부호화기에서 가지고 있던 한계를 극복하여 최적의 환경에서 3차원 오디오를 경험할 수 있는 방법을 제안한다.

전술한 바와 같이, VR audio는 사용자가 소리를 들음으로써 이질감 없이 임의의 공간에 있는 것과 같은 느낌을 주는 것을 목적으로 하며, 이 때 이 목적을 이루기 위해 가장 중요하게 고려되는 요소 중 하나는 BRIR의 특성이다. 즉, 현실과 비슷한 느낌을 제공하기 위해서는 BRIR의 응답이 공간 특성을 잘 반영할 수 있어야 한다. 하지만 현재 MPEG-H 3D Audio 부호화기에서 헤드폰으로 오디오 컨텐츠(contents)를 재생할 때에는 사전에 디코더에서 저장되어 있는 BRIR을 사용한다. 또한, VR컨텐츠는 매우 다양한 환경이 고려될 수 있지만, 사전에 디코더에서 이 모든 환경에 대해서 BRIR을 취득하여 데이터베이스(DB)로 보유하는 것은 현실적으로 불가능하며, 해당 공간에 대한 기본 특징 정보들만 제공하여 디코더에서 BRIR을 모델링할 경우, 모델링된 BRIR이 해당 공간의 특성을 잘 반영했는지에 대한 검증이 필요하다. 따라서 본 발명에서는 이와 같은 문제를 보완하기 위해 BRIR 또는 RIR에 대한 특징 정보들만 잘 추출해서 직접 오디오 신호에 적용 가능한 파라미터(parameter)로 만들어서 송신할 수 있는 방법을 제안한다.

관련하여, 현존하는 3D 오디오 부호화/복호화 기기는 대부분 3자유도 (이를 ‘3DoF(Degrees of freedom)’ 로 명명한다) 까지만 지원한다. 자유도(DoF)는, 예를 들어, 임의 공간에서 머리의 움직임이 정확히 추적되면, 그 순간 사용자의 자세 또는 위치에 가장 적합한 비주얼(visual)과 사운드(sound)를 제공할 수 있게 되는 바, 이러한 움직임(motion)은 움직임이 가능한 자유도(DoF)에 따라 3자유도(3DoF) 또는 6자유도(6DoF)로 나누어 진다. 예를 들어, 3DoF는 사용자가 움직이지 않고, 고정된 위치에서 머리를 회전하는 것 같이, X,Y,Z축의 운동이 가능한 것을 의미한다. 반면, 6DoF는 상기 X,Y,Z축을 중심으로 회전하는 것에 더해서, X,Y,Z축을 따라 이동하는 것이 가능해진다는 의미이다. 따라서 3DoF로는 사용자의 위치 움직임을 반영하지 못해 더욱 현장감 있는 소리를 제공하기 어렵게 된다. 따라서 본 발명에서는 3D 오디오 부호화/복호화 기기에 공간 모델링 방법을 적용하여 6DoF 환경에서 사용자의 위치 변화에 대응하여 오디오를 랜더링(rendering)시켜주는 방법을 제안한다.

또한, 일반적으로 통신 환경에서는 대역폭의 효율을 극대화시키기 위해 비디오 신호에 비해 용량이 훨씬 더 적은 오디오 신호도 부호화시킨다. 최근 관심이 커지고 있는 VR 오디오 컨텐츠(contents)를 구현하고 경험할 수 있는 기술들이 많이 개발되고 있으나, 해당 컨텐츠를 효율적으로 부호화/복호화 할 수 있는 기기 개발은 부족한 편이다. 관련하여, 최근 3차원 오디오 효과를 제공할 수 있는 부호화/복호화 기기로는 MPEG-H 3D Audio가 개발되고 있으나, 상기 3DoF 환경인 경우에만 사용이 가능하도록 제한되어 있는 문제점이 있다.

최근 3D 오디오 부호화/복호화 기기에서는 헤드폰을 통해 3차원 오디오를 경험할 수 있도록 바이너럴 랜더러(binaural renderer)가 사용된다. 하지만 상기 바이너럴 랜더러(binaural renderer)에 입력으로 사용되는 BRIR(Binaural Room Impulse Response) 데이터는 고정된 위치에서 측정된 응답이므로 3DoF 환경에서만 유효하다. 뿐만 아니라, VR 환경을 구축하기 위해서는 매우 다양한 환경에 대한 BRIR이 필요하지만, 모든 환경에 대한 BRIR을 데이터베이스(DB)로 확보하는 것도 불가능하다. 따라서 본 발명에서는 3D 오디오 부호화/복호화 기기에 공간 정보를 제공함으로써 의도한 공간 응답을 모델링할 수 있는 기능을 추가한다. 나아가 사용자의 위치 정보도 동시에 수신함으로써 실시간으로 사용자의 위치에 맞춰서 모델링된 응답을 랜더링(rendering)하여 3D 오디오 부호화/복호화 기기를 6DoF 환경에서도 사용 가능한 오디오 재생 방법 및 재생 장치를 제안한다.

본 발명의 목적은, 3차원 오디오 재생에 필요한 BRIR/RIR 데이터를 송수신하는 방법 및 장치를 제공하는 데 있다.

또한, 본 발명의 목적은, BRIR/RIR을 이용한 3차원 오디오 재생 방법 및 정치를 제공하는 데 있다.

또한, 본 발명의 목적은, 6DoF 환경에서 3차원 오디오 신호를 재생하기 위해, BRI/RIR 데이터를 송수신하는 방법 및 장치를 제공하는 데 있다

또한, 본 발명의 목적은, 6DoF 환경에서 3차원 오디오 신호를 재생하는 MPEG-H 3D 오디오 재생 장치를 제공하는 데 있다.

본 발명의 실시예에 따른, 3차원 오디오 재생 방법은, 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 디코딩 단계, 상기 수신된 오디오 신호에 RIR(Room Impulse Response) 데이터가 포함된 경우에는 상기 RIR데이터를 디코딩하는, RIR디코딩 단계, 상기 수신된 오디오 신호에 RIR 데이터가 포함된 경우, 사용자 머리 정보(user head info)를 활용하여 HRIR(Head-related impulse response) 데이터를 생성하는, HRIR생성 단계, 상기 디코딩된 RIR 데이터와 모델링된 HRIR 데이터를 합성하여 BRIR(Binaural Room Impulse Response) 데이터를 생성하는, BRIR합성 단계, 및 상기 생성된 BRIR 데이터를 상기 디코딩된 오디오 신호(decoded signal)에 적용하여 바이너럴 랜더링된(binaural rendered signal) 오디오 신호로 출력하는, 바이너럴 랜더링 단계를 포함하는 것을 특징으로 한다.

또한, 스피커 정보(Speaker format info)를 입력 받는 단계를 더 포함하되, 상기 RIR디코딩 단계는, 상기 스피커 정보(Speaker format info)에 대응하는 RIR 데이터 부분을 선택하고, 선택된 RIR 데이터에 대해서만 디코딩하는 것을 특징으로 한다.

또한, 상기 HRIR생성 단계는 상기 사용자 머리 정보(user head info) 및 상기 스피커 정보(Speaker format info)에 대응하는 HRIR 데이터를 모델링하여 생성하는 것을 특징으로 한다.

또한, 상기 HRIR생성 단계는, HRIR 데이터베이스(DB)로부터 대응하는 HRIR 데이터를 선택하여 생성하는 것을 특징으로 한다.

또한, 상기 수신된 오디오 신호내에 포함된 6DoF(Degree of Freedom) 모드 지시 정보(is6DoFMode)를 확인하는 단계, 및 상기 정보(is6DoFMode)로부터, 6DoF가 지원되는 경우, 사용자 위치 정보(user position info) 및 스피커 정보(Speaker format info)를 획득하는 단계를 더 포함하는 것을 특징으로 한다.

또한, 상기 RIR디코딩 단계는, 상기 사용자 위치 정보(user position info) 및 스피커 정보(Speaker format info)에 대응하는RIR 데이터 부분을 선택하고, 선택된 RIR 데이터에 대해서만 디코딩하는 것을 특징으로 한다.

본 발명에 따른 또 다른 3차원 오디오 재생 방법은, 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 디코딩 단계, 상기 수신된 오디오 신호에 RIR(Room Impulse Response) 파라미터가 포함된 경우에는 상기 RIR파라미터를 디코딩하는, RIR디코딩 단계, 상기 수신된 오디오 신호에 RIR 파라미터가 포함된 경우, 사용자 머리 정보(user head info)를 활용하여 HRIR(Head-related impulse response) 데이터를 생성하는, HRIR생성 단계, 상기 생성된 HRIR 데이터를 상기 디코딩된 오디오 신호(decoded signal)에 적용하여 바이너럴 랜더링된(binaural rendered signal) 오디오 신호를 출력하는 랜더링 단계, 및 상기 바이너럴 랜더링된 오디오 신호에 상기 디코딩된 RIR파라미터를 적용하여 공간 특성에 적합한 오디오 신호로 보정하여 출력하는 합성 단계를 포함하는 것을 특징으로 한다.

또한, 상기 수신된 오디오 신호내에 포함된 3DoF(Degree of Freedom) 환경에서의 RIR 파라미터 포함 여부를 지시하는 정보(isRoomData)를 확인하는 단계, 및 상기 정보(isRoomData)로부터, 3DoF 환경에서 제공되는 RIR 파라미터 유형을 지시하는 정보(bsRoomDataFormatID)를 확인하는 단계, 및 상기 정보(bsRoomDataFormatID)에 대응하는, RIR 파라미터 신택스로서, 적어도 ‘RoomFirData()’ 신택스, ‘FdRoomRendererParam()’ 신택스 또는 ‘TdRoomRendererParam()’ 신택스 중 하나 이상을 획득하는 단계를 더 포함하는 것을 특징으로 한다.

또한, 상기 수신된 오디오 신호내에 포함된 6DoF(Degree of Freedom) 환경에서의 RIR 파라미터 포함 여부를 지시하는 정보(is6DoFRoomData)를 확인하는 단계, 상기 정보(is6DoFRoomData)로부터, 6DoF 환경에서 제공되는 RIR 파라미터 유형을 지시하는 정보(bs6DoFRoomDataFormatID)를 확인하는 단계, 및 상기 정보(bs6DoFRoomDataFormatID)에 대응하는, RIR 파라미터 신택스로서, 적어도 ‘RoomFirData6DoF()’ 신택스, ‘FdRoomRendererParam6DoF()’ 신택스 또는 ‘TdRoomRendererParam6DoF()’ 신택스 중 하나 이상을 획득하는 단계를 더 포함하는 것을 특징으로 한다.

본 발명에 따른 3차원 오디오 재생 장치는, 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 오디오 디코더, 상기 수신된 오디오 신호에 RIR(Room Impulse Response) 데이터가 포함된 경우에는 상기 RIR데이터를 디코딩하는, RIR디코더, 상기 수신된 오디오 신호에 RIR 데이터가 포함된 경우, 사용자 머리 정보(user head info)를 활용하여 HRIR(Head-related impulse response) 데이터를 생성하는, HRIR생성부, 상기 디코딩된 RIR 데이터와 모델링된 HRIR 데이터를 합성하여 BRIR(Binaural Room Impulse Response) 데이터를 생성하는, BRIR합성부, 상기 생성된 BRIR 데이터를 상기 디코딩된 오디오 신호(decoded signal)에 적용하여 바이너럴 랜더링된(binaural rendered signal) 오디오 신호로 출력하는, 바이너럴 랜더러를 포함하는 것을 특징으로 한다.

또한, 상기 RIR디코더는, 스피커 정보(Speaker format info)를 입력 받아, 상기 스피커 정보(Speaker format info)에 대응하는 RIR 데이터 부분을 선택하고, 선택된 RIR 데이터에 대해서만 디코딩하는 것을 특징으로 한다.

또한, 상기 HRIR생성부는 상기 사용자 머리 정보(user head info) 및 상기 스피커 정보(Speaker format info)에 대응하는 HRIR 데이터를 모델링하여 생성하는 HRIR 모델링부를 포함하는 것을 특징으로 한다.

또한, 상기 HRIR생성부는, HRIR 데이터베이스(DB)로부터 대응하는 HRIR 데이터를 선택하여 생성하는 HRIR 선택부를 포함하는 것을 특징으로 한다.

또한, 상기 RIR디코더는, 상기 수신된 오디오 신호내에 포함된 6DoF(Degree of Freedom) 모드 지시 정보(is6DoFMode)를 확인하고, 상기 정보(is6DoFMode)로부터, 6DoF가 지원되는 경우, 사용자 위치 정보(user position info) 및 스피커 정보(Speaker format info)를 획득하는 것을 특징으로 한다.

또한, 상기 RIR디코더는, 상기 사용자 위치 정보(user position info) 및 스피커 정보(Speaker format info)에 대응하는RIR 데이터 부분을 선택하고, 선택된 RIR 데이터에 대해서만 디코딩하는 것을 특징으로 한다.

본 발명에 따른 또 다른 3차원 오디오 재생 장치는, 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 오디오 디코더, 상기 수신된 오디오 신호에 RIR(Room Impulse Response) 파라미터가 포함된 경우에는 상기 RIR파라미터를 디코딩하는, RIR디코더, 상기 수신된 오디오 신호에 RIR 파라미터가 포함된 경우, 사용자 머리 정보(user head info)를 활용하여 HRIR(Head-related impulse response) 데이터를 생성하는 HRIR생성부, 상기 생성된 HRIR 데이터를 상기 디코딩된 오디오 신호(decoded signal)에 적용하여 바이너럴 랜더링된(binaural rendered signal) 오디오 신호를 출력하는 바이너럴 랜더러, 및 상기 바이너럴 랜더링된 오디오 신호에 상기 디코딩된 RIR파라미터를 적용하여 공간 특성에 적합한 오디오 신호로 보정하여 출력하는 합성부를 포함하는 것을 특징으로 한다.

또한, 상기 RIR디코더는, 상기 수신된 오디오 신호내에 포함된 3DoF(Degree of Freedom) 환경에서의 RIR 파라미터 포함 여부를 지시하는 정보(isRoomData)를 확인하고, 상기 정보(isRoomData)로부터, 3DoF 환경에서 제공되는 RIR 파라미터 유형을 지시하는 정보(bsRoomDataFormatID)를 확인하고, 상기 정보(bsRoomDataFormatID)에 대응하는, RIR 파라미터 신택스로서, 적어도 ‘RoomFirData()’ 신택스, ‘FdRoomRendererParam()’ 신택스 또는 ‘TdRoomRendererParam()’ 신택스 중 하나 이상을 획득하는 것을 특징으로 한다.

또한, 상기 RIR디코더는, 상기 수신된 오디오 신호내에 포함된 6DoF(Degree of Freedom) 환경에서의 RIR 파라미터 포함 여부를 지시하는 정보(is6DoFRoomData)를 확인하고, 상기 정보(is6DoFRoomData)로부터, 6DoF 환경에서 제공되는 RIR 파라미터 유형을 지시하는 정보(bs6DoFRoomDataFormatID)를 확인하고, 상기 정보(bs6DoFRoomDataFormatID)에 대응하는, RIR 파라미터 신택스로서, 적어도 ‘RoomFirData6DoF()’ 신택스, ‘FdRoomRendererParam6DoF()’ 신택스 또는 ‘TdRoomRendererParam6DoF()’ 신택스 중 하나 이상을 획득하는 것을 특징으로 한다.

[발명의 효과]

본 발명의 실시예에 따른, 3차원 오디오 재생 방법 및 장치를 통해, 다음과 같은 효과가 있다.

첫째, 오디오 인코더 및 디코더에서 BRIR/RIR을 송수신 할 수 있도록 함으로써, 다양한 BRIR/RIR을 오디오 혹은 오브젝트(object) 신호에 적용하는 것이 가능하게 된다.

둘째, 6DoF 환경에 적용하기 위해, 사용자의 위치 변화 정보를 활용함에 따라, 사용자의 위치에 따라 BRIR/RIR을 함께 변화시켜줌으로, 입체감 및 현장감 있는 오디오 신호를 제공하는 것이 가능하게 된다.

셋째. 차세대 몰입형 3차원 오디오 부호화 기술로 MPEG-H 3D Audio 구현상의 효율을 높일 수 있다. 즉, 게임 또는 가상현실(VR) 공간 등 다양한 오디오 응용 분야에서, 수시로 변화되는 오디오 오브젝트 신호에 대응하여, 자연스럽고 현실감 있는 효과를 제공하는 것이 가능하게 된다.

도1은 본 발명이 적용되는 오디오 재생 장치의 기본 구성을 도시한 것이다.

도2는 본 발명의 제1실시예에 따른, BRIR 인코딩 과정을 도시한 것이다.

도3~도4는 본 발명의 제1실시예에 따른, BRIR 디코딩 과정을 도시한 것이다.

도5는 본 발명의 제2실시예에 따른, BRIR 인코딩 과정을 도시한 것이다.

도6은 본 발명의 제2실시예에 따른, BRIR 디코딩 과정을 도시한 것이다.

도7~도8은, 본 발명에 적용되는 BRIR 파라미터 추출 과정을 예를 들어 도시한 것이다.

도9는 본 발명의 제3실시예에 따른, RIR 인코딩 과정을 도시한 것이다.

도10은 본 발명의 제3실시예에 따른, RIR 디코딩 과정을 도시한 것이다.

도11은 본 발명의 제4실시예에 따른, RIR 인코딩 과정을 도시한 것이다.

도12는 본 발명의 제4실시예에 따른, RIR 디코딩 과정을 도시한 것이다.

도13은 본 발명의 제4실시예에 적용되는, 오디오 출력 신호 합성 과정을 예를 들어 도시한 것이다.

도14는 본 발명에 적용되는 3DoF와 6DoF를 설명하기 위해 도시한 것이다.

도15는 본 발명의 제5실시예에 따른, 6DoF 환경에서 BRIR 인코딩 과정을 도시한 것이다.

도16은 본 발명의 제5실시예에 따른, 6DoF 환경에서 BRIR 디코딩 과정을 도시한 것이다.

도17은 본 발명의 제6실시예에 따른, 6DoF 환경에서 BRIR 인코딩 과정을 도시한 것이다.

도18은 본 발명의 제6실시예에 따른, 6DoF 환경에서 BRIR 디코딩 과정을 도시한 것이다.

도19는 본 발명의 제7실시예에 따른, 6DoF 환경에서 RIR 인코딩 과정을 도시한 것이다.

도20~도21은 본 발명의 제7실시예에 따른, 6DoF 환경에서 RIR 디코딩 과정을 도시한 것이다.

도22는 본 발명의 제8실시예에 따른, 6DoF 환경에서 RIR 인코딩 과정을 도시한 것이다.

도23~도24는 본 발명의 제8실시예에 따른, 6DoF 환경에서 RIR 디코딩 과정을 도시한 것이다.

도25~도48은 본 발명의 실시예에 따른, 오디오 재생 방법 및 장치에 활용되는 신택스(syntax) 구조를 설명하기 위해 도시한 것이다.

도49는 본 발명에 따른, 오디오 인코딩 방법의 흐름도를 도시한 것이다.

도50은 본 발명에 따른, 상기 도49에 대응하는 오디오 디코딩 방법의 흐름도를 도시한 것이다.

도51은 본 발명에 따른, 오디오 인코딩 방법의 다른 흐름도를 도시한 것이다.

도52는 본 발명에 따른, 상기 도51에 대응하는 오디오 디코딩 방법의 다른 흐름도를 도시한 것이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 동일하거나 유사한 구성요소에는 동일한 도면 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈", "부" 및 "수단"은 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 또한, 본 발명은 설명의 편의를 위해, 일부 용어를 국문 및 영문을 혼용하여 사용하였으나, 사용된 용어의 의미는 동일함을 밝혀두고자 한다.

전술한 바와 같이, BRIR은 임의의 공간에서 측정된 양이의 공간 응답이다. 따라서 측정된 BRIR에는 양이의 특징 정보만이 측정된 HRIR(Head-related impulse response, 또는 이를 “HRTF(Head-related Transfer Function)”라고도 한다)에 대한 응답뿐만 아니라, 공간에 대한 특징 정보도 함께 포함되어 있다. 이러한 이유로 BRIR은 HRIR과 공간의 특징 정보가 측정된 RIR(Room impulse response)가 합쳐진 응답이라고 생각될 수 있다. BRIR을 오디오 신호에 필터링하여 청취할 경우, 사용자는 재생되는 오디오 신호를 통해 BRIR이 측정된 공간에 있는 것과 같은 느낌을 경험할 수 있다. 이러한 특징 때문에 VR과 같은 분야에서 헤드폰을 이용하여 몰입형 오디오(immersive audio)를 재생 하고자 할 경우 BRIR은 가장 기본적이고 중요한 요소라고 할 수 있다.

도1은 본 발명이 적용되는 오디오 재생 장치의 기본 구성을 도시한 것이다. 도1의 오디오 재생 장치는, 오디오 디코더(11, Audio Decoder), 랜더러(12, Renderer), 바이너럴 랜더러(13, Binaural Renderer) 및 메타데이터 프로세서(14, Metadata and Interface processor)를 포함한다. 이하 본 발명의 오디오 재생 장치를 상세히 설명하면 다음과 같다.

상기 오디오 디코더(11, Audio Decoder)는, 오디오 신호 (예를 들어, 오디오 비트스트림)를 입력 받아, 디코딩된 오디오 신호(11a, decoded signal)과 메타데이터(11b, Metadata)를 생성한다. 상기 메타데이터 정보(11b)는 상기 메타데이터 프로세서(14)에 전달되고, 상기 메타데이터 프로세서(14)는, 외부에서 추가적으로 입력되는 스피커 포맷 정보(16, Speaker format info) 및 사용자 인터액션 정보(17, User interaction data)과 조합되어 최종 재생 환경을 설정하여 설정된 재생 환경 정보(14a, Playback environment information)를 상기 랜더러(12)로 출력한다.

상기 랜더러(12)는 상기 재생 환경 정보(14a)를 참조하여 사용자가 설정된 스피커(speaker) 환경에 맞도록 입력되는 디코딩된 신호(11a, decoded signal)에 적용하여 랜더링하고, 랜더링된 신호(12a, rendered signal)을 출력한다. 상기 랜더러(12)는 상기 랜더링된 신호(12a)는 출력시, 믹싱(mixing) 과정을 통해, 게인(gain) 및 지연(delay) 보정을 거쳐 출력하는 것이 가능하다. 상기 출력된 랜더링된 신호(12a)는 상기 바이너럴 랜더러(13)에서 BRIR(18)에 필터링 되어서 서라운드(surround) 2채널 바이너럴 랜더링된 신호(13a, 13b)를 출력한다.

만약, 상기 오디오 디코더(11, Audio Decoder)가 “MPEG-H 3D Audio Core Decoder” 로 구성하는 경우에는, 상기 디코딩된 오디오 신호(11a, decoded signal)는 모든 타입(type)의 신호(예를 들어, 채널(Channel) 신호, 오브젝트(object) 신호, HOA 신호)를 포함할 수 있다. 또한, 상기 메타데이터(11b)는 오브젝트 메타데이터(object metadata)로 출력할 수 있다. 또한, 상기 사용자 인터액션 정보(17)에서 오브젝트(object)의 특징을 변경하고자 할 경우, 상기 메타데이터 프로세서(14)는, 오브젝트 메타데이터 정보를 수정하게 된다. 또한, 상기 바이너럴 랜더러(13)에서 사용되는 BRIR은 디코더에서만 사용되는 정보이며, 만약 디코더에서 BRIR을 보유하지 않거나 수신하지 못할 경우 헤드폰을 이용하여 몰입형 오디오(immersive audio)를 경험할 수 없다.

관련하여, 기존 표준화된 MPEG-H 3D Audio에서는 임의의 공간에서 한 지점에 대해서 측정된 BRIR을 사용한다. 따라서 다양한 공간에 대해서 적용이 필요한 VR 분야에 MPEG-H 3D Audio를 적용하기 위해서는 BRIR의 측정과 사용 방법에 대한 추가적인 고려가 필요하다. 가장 직관적으로는 VR에서 자주 이용되는 환경에 대한 BRIR을 미리 측정하거나 제작하여 데이터베이스(DB)로 보유해서 MPEG-H 3D Audio decoder에 적용시킬 수 있다. 하지만 많은 BRIR 데이터베이스(DB)를 보유하는 것에는 한계가 있고, 또한, 보유하고 있는 BRIR DB에서 VR 컨텐츠가 녹음된 공간과 유사한 특징을 갖는 BRIR을 이용하더라도 제작자가 의도한 환경과 정확히 일치했다고 보장할 수 없다. 뿐만 아니라, 만약 VR 오디오를 6DoF 환경으로 확장시킬 경우, BRIR DB는 기하급수적으로 증가하기 때문에 매우 큰 저장 공간을 확보 해야 하는 문제점도 발생하게 된다. 따라서 본 발명에서는 제작자가 의도한 환경에 대한 BRIR 또는 RIR을 제작자가 직접 제작하거나 측정하여 송신하는 방법 및 이를 이용한 오디오 재생 방법 및 장치를 설명하고자 한다.

도2는 본 발명의 제1실시예에 따른, BRIR 인코딩 과정을 도시한 것이다. 또한, 도3~도4는 본 발명의 제1실시예에 따른, BRIR 디코딩 과정을 도시한 것이다.

도2를 참조하면, 본 발명의 제1실시예 따른, 인코딩 과정에는, 3D 오디오 인코더(21, 3D Audio Encoding) 뿐만 아니라 BRIR 인코더(22, BRIR Encoding)를 포함한다. 이를 상세히 설명하면 다음과 같다. 즉, 상기 3D 오디오 인코더(21)를 통해 입력 오디오 신호를 인코딩 포맷에 맞게 인코딩할 뿐만 아니라, 상기 BRIR 인코더(22)를 통해 별도로 입력되는 다수의 BRIR (BRIR_L1,BRIR_R1,…,BRIR_LN,BRIR_RN)에 대해서도 인코딩을 수행한다. 인코딩된 오디오 데이터 및 BRIR 데이터는 멀티플레서(23, MUX)에서 함께 팩킹(packing)되어 하나의 비트스트림으로 생성하여 송신한다.

상기 BRIR 인코더(22)로 입력되는 BRIR들은 일반적으로 정해진 규격의 스피커 포맷 환경에서 측정 혹은 제작된 BRIR들이다. 예를 들어, 22.2 스피커 채널에 대한 BRIR이 입력된다고 가정하면, N=22이다. 또한, BRIR은 양이의 특성이 반영된 응답이므로, 항상 왼쪽과 오른쪽 한 쌍으로 존재한다. 따라서 총 N*2개의 BRIR이 BRIR 인코더(22)로 입력된다. 일반적으로 유연성(flexibility)를 최대화시키기 위해서 가능한 많은 BRIR을 전송시키는 것이 유리하지만, 제한된 대역폭을 효율적으로 사용하기 위해 필요한 BRIR만을 전송시킨다. 만약 VR 컨텐츠 제작자가 오디오 신호를 5.1 채널 환경에서 제작하였다면, BRIR은 5개만 전송시킬 수 있다.

도3~도4는 본 발명의 제1실시예에 따른, BRIR 디코딩 과정을 도시한 것이다. 특히, 도3(a) 모든 BRIR을 디코딩한후 원하는 BRIR만을 선택하는 과정을, 도3(b)는 원하는 BRIR을 선택한후 선택된 BRIR만을 디코딩하는 과정을 도시한 것이다. 또한, 도4(a),(b)는 상기 도3(a),(b)에 각각 BRIR 파라미터화(parameterization) 과정을 추가한 것이다.

우선, 도3(a)를 참조하면, 본 발명의 제1실시예에 따른 디코더는 디멀티플랙서(31, DeMUX), 3D 오디오 디코더(32, 3D Audio decoding), BRIR 디코더(34, BRIR decoding), BRIR 선택부(35, BRIR selection) 및 바이너럴 랜더러(33, Binaural Rendering)를 포함한다.

상기 디멀티플랙서(31, DeMUX)는 비트스트림이 수신되면, 비트스트림내에 포함된 인코딩된 오디오 데이터와 BRIR 데이터를 분리한다. 상기 3D 오디오 디코더(32, 3D Audio decoding)는 상기 분리된 오디오 데이터를 디코딩하고, 설정된 스피커 포맷(Spk. Format Info)에 맞춰서 오디오 신호를 1차 랜더링(rendering) 하여 출력한다. 관련하여, 도3(a)에서 3D 오디오 디코더(32)에서 출력되는 오디오 신호를 굵은 실선으로 도시하였으며, 이는 2개 이상의 신호들이 포함되어 있음을 의미한다. 이하 굵은 실선의 의미는 다른 도면에서도 동일하다. 상기 BRIR 디코더(34, BRIR decoding)는, 상기 디멀티플랙서(31)를 통해 분리된, BRIR 데이터를 디코딩한다. 상기 BRIR 선택부(35, BRIR selection)는 상기 디코딩된 모든 BRIR들중 설정된 스피커 포맷(Spk. Format Info)에 맞춰서 필요한 BRIR들만 선택한다. 상기 바이너럴 랜더러(33, Binaural Rendering)는 상기 산택된 BRIR들을 상기 랜더링(rendering)된 오디오 출력 신호에 적용하여 바이너럴 랜더링된(binaural rendered) 2채널 서라운드 오디오 신호 (Out_L _,Out_R)로 출력한다.

일반적으로, 오디오를 청취할 때 스피커의 개수가 많아지면 많아질수록 사람은 더욱 현실감 높은 오디오를 경험할 수 있듯이, 바이너럴 랜더링(binaural rendering)시에도 많은 BRIR들을 이용할수록 현실감 높은 3차원 오디오를 경험할 수 있다. 관련하여, 또 다른 사용예로, 도3(a)에서 상기 BRIR 선택부(35) 없이, 디코딩된 모든 BRIR 데이터를 상기 바이너럴 랜더러(33)로 출력하는 것도 가능하다. 하지만 많은 BRIR들을 이용할수록 연산량은 증가하게 되고, 만약 상기 바이너럴 랜더러(33)에서 많은 BRIR들의 연산을 충분히 빠른 시간에 처리하지 못하면, 랜더링(rendering) 과정에서 지연(delay)이 발생하여 오히려 현장감이 떨어지는 경우가 발생할 수 도 있다. 따라서 상기 BRIR 선택부(35) 사용 여부는, 시스템 설계자에 의해 시스템 성능 및 효율을 고려하여 사용 여부를 선택하는 것이 바람직하다.

도3(b)는 본 발명의 제1실시예에 따른 또 다른 디코더를 도시한 것이다. 도3(b)를 참조하면, 상기 디멀티플랙서(31, DeMUX), 3D 오디오 디코더(32, 3D Audio decoding) 및 바이너럴 랜더러(33, Binaural Rendering)는 전술한 도3(a)와 동일하다. 단, 도3(a)에서 사용된 상기 BRIR 디코더(34, BRIR decoding) 및 상기 BRIR 선택부(35, BRIR selection)를 통합하여, BRIR 선택 디코더(36, BRIR selection & decoding)로 구성한다. 즉, 도3(b)는 사용자가 설정한 스피커 포맷 정보(Spk. Format Info)를 BRIR 선택 디코더(36)에서 수신하여 BRIR 디코딩시 필요한 BRIR만을 선택적으로 디코딩하는 것을 특징으로 한다.

도4는 본 발명의 제1실시예에 따른, 또 다른 BRIR 디코딩 과정을 도시한 것이다. 특히, 도4(a) 모든 BRIR을 디코딩한후 원하는 BRIR 만을 선택하여 파라미터화(parameterization) 하는 과정을, 도4(b)는 원하는 BRIR을 선택한후 선택된 BRIR만을 디코딩하여 파라미터화(parameterization) 하는 과정을 도시한 것이다.

우선, 도4(a)를 참조하면, 디멀티플랙서(41, DeMUX), 3D 오디오 디코더(42, 3D Audio decoding), BRIR 디코더(44, BRIR decoding), BRIR 선택부(45, BRIR selection) 및 바이너럴 랜더러(43, Binaural Rendering)를 포함하고, 상기 각각의 동작은 전술한 도3(a)의 상기 디멀티플랙서(31, DeMUX), 3D 오디오 디코더(32, 3D Audio decoding), BRIR 디코더(34, BRIR decoding), BRIR 선택부(35, BRIR selection) 및 바이너럴 랜더러(33, Binaural Rendering)와 동일하다. 단, 도4(a) 실시예는, 상기 BRIR 선택부(45)에 의해 선택된, BRIR 데이터를 연산 효율을 위해 파라미터화(parameterization) 하는 BRIR 파라미터부(46, BRIR parameterization)을 더 포함하는 것을 특징으로 한다. 따라서, 상기 바이너럴 랜더러(43)는 파라미터화(parameterization)된 BRIR 데이터를 활용함에 따라 효율적인 바이너럴 랜더링(binaural rendering)이 가능하게 된다.

즉, BRIR을 직접 오디오 신호에 필터링(filtering)하는 대신 BRIR의 특징 정보들만 추출된 파라미터(parameter)를 오디오 신호에 적용하여 바이너럴 랜더링(binaural rendering)할 경우, BRIR을 직접 필터링했을 때의 연산량과 비교하면 약 10분의 1 수준까지 절약할 수 있다. 관련하여, 상기 BRIR 파라미터화 과정은 도7 ~ 도8에서 상세히 후술하고자 한다.

도4(b)는 본 발명의 제1실시예에 따른 또 다른 디코더를 도시한 것이다. 도4(b)를 참조하면, 상기 디멀티플랙서(41, DeMUX), 3D 오디오 디코더(42, 3D Audio decoding), 바이너럴 랜더러(43, Binaural Rendering) 및 BRIR 파라미터부(46, BRIR parameterization)는 전술한 도4(a)와 동일하다. 단, 도4(a)에서 사용된 상기 BRIR 디코더(44, BRIR decoding) 및 상기 BRIR 선택부(45, BRIR selection)를 통합하여, BRIR 선택 디코더(47, BRIR selection & decoding)로 구성한다. 즉, 도4(b)는 사용자가 설정한 스피커 포맷 정보(Spk. Format Info)를 BRIR 선택 디코더(47)에서 수신하여 BRIR 디코딩시 필요한 BRIR만을 선택적으로 디코딩하는 것을 특징으로 한다.

도5는 본 발명의 제2실시예에 따른, BRIR 인코딩 과정을 도시한 것이다. 또한, 도6은 본 발명의 제2실시예에 따른, BRIR 디코딩 과정을 도시한 것이다. 즉, 전술한 BRIR 파라미터화(parameterization) 과정을 인코딩 과정에 미리 수행하는 것을 특징으로 한다.

도5를 참조하면, 본 발명의 제2실시예 따른, 인코딩 과정에는, 3D 오디오 인코더(51, 3D Audio Encoding) 뿐만 아니라 BRIR 파라미터부(52, BRIR parameterization) 및 BRIR 파라미터 인코더(53, BRIR parameter Encoding)를 포함한다. 즉, 상기 3D 오디오 인코더(51)를 통해 입력 오디오 신호를 인코딩 포맷에 맞게 인코딩할 뿐만 아니라, 상기 BRIR 파라미터부(52)로 입력되는 다수의 BRIR (BRIR₁,BRIR₂,…,BRIR_N)에 대해서 BRIR 파라미터를 추출하는 파라미터화 과정을 거치고, 상기 BRIR 파라미터 인코더(53)는 상기 파라미터화된 BRIR데이터에 대해 인코딩을 수행한다. 인코딩된 오디오 데이터 및 BRIR 파라미터 데이터는 멀티플레서(54, MUX)에서 함께 팩킹(packing)되어 하나의 비트스트림으로 생성하여 송신한다.

도6은 본 발명의 제2실시예에 따른, BRIR 디코딩 과정을 도시한 것이다. 특히, 도6(a)는 모든 BRIR파라미터를 디코딩한후 원하는 BRIR 파라미터만을 선택하는 과정을, 도6(b)는 원하는 BRIR 파라미터를 선택한후 선택된 BRIR파라미터만을 디코딩하는 과정을 각각 도시한 것이다.

우선, 도6(a)를 참조하면, 본 발명의 제2실시예에 따른 디코더는 디멀티플랙서(61, DeMUX), 3D 오디오 디코더(62, 3D Audio decoding), BRIR 파라미터 디코더(64, BRIR parameter decoding), BRIR 파라미터 선택부(65, BRIR parameter selection) 및 바이너럴 랜더러(63, Binaural Rendering)를 포함한다. 즉, 도6(a)에서 비트스트림이 입력되면 상기 디멀티플랙서(61)에서 인코딩된 오디오 데이터와 BRIR 파라미터 데이터를 분리한다 다음 오디오 데이터는 상기 3D 오디오 디코더(62)로 입력되어서 디코딩된 후, 설정된 스피커 포맷(Spk. Format Info)에 맞춰서 랜더링된 오디오 신호를 출력한다. 상기 분리된 BRIR 파라미터 데이터는 상기 BRIR 파라미터 디코더(64)에 입력되어 BRIR 파라미터들로 복원된다. 이후 상기 복원된 BRIR 파라미터들은 상기 바이너럴 랜더러(63)를 통해 오디오 신호에 직접 적용되어 바이너럴 랜더링된(binaural rendered) 2채널 오디오 신호(Out_L,Out_R)을 출력한다.

도6(b)는 본 발명의 제2실시예에 따른 또 다른 디코더를 도시한 것이다. 도6(b)를 참조하면, 상기 디멀티플랙서(61, DeMUX), 3D 오디오 디코더(62, 3D Audio decoding) 및 바이너럴 랜더러(63, Binaural Rendering)는 전술한 도6(a)와 동일하다. 단, 도6(a)에서 사용된 상기 BRIR 파라미터 디코더(64, BRIR parameter decoding) 및 BRIR 파라미터 선택부(65, BRIR parameter selection) 를 통합하여, BRIR 파라미터 선택 디코더(66, BRIR parameter selection & decoding)로 구성한다. 즉, 도6(b)는 사용자가 설정한 스피커 포맷 정보(Spk. Format Info)를 BRIR 파라미터 선택 디코더(66)에서 수신하여 BRIR 디코딩시 필요한 BRIR 파라미터만을 선택적으로 디코딩하는 것을 특징으로 한다.

도7~도8은, 본 발명에 적용되는 BRIR 파라미터 추출 과정을 예를 들어 도시한 것이다. 관련하여, 전술한 BRIR 파라미터화(parameterization) 과정은 MPEG-H 3D Audio에서 사용하던 방법을 응용하여 활용하는 것이 가능하다. MPEG-H 3D Audio에서는 시간 축에서 수행되는 “Time domain binaural rendering”과 주파수 축에서 수행되는 “Frequency domain binaural rendering” 두 종류의 방법을 사용하고 있다. 따라서 상기 “Time domain binaural rendering” 방법이 사용될 때에는 파라미터들을 시간 도메인(time domain)의 BRIR을 분석하여 추출하게 되며, “Frequency domain binaural rendering” 방법이 사용될 때에는 파라미터들을 주파수 도메인(frequency domain)의 BRIR을 분석하여 추출하게 된다. 이하 이를 각각 분리하여 설명하고자 한다.

우선, 도7은 “Time domain binaural rendering”을 위해 추출되는 파라미터들을 설명하기 위해 도시한 것으로, 예를 들어, 시간 도메인에서 추출되는 파라미터들은 ‘Propagation delay’(71), ‘Direct filter block’(73, 이하, ‘direct block’), M개의 ‘diffuse filter block’(74, 75, 이하 ‘diffuse block’), 및 Diffuse filter에 적용되는 ‘보정 gain’을 포함할 수 있다.

상기 ‘Propagation delay’(71)은 BRIR의 직접음(direct sound)이 귀에 도달되는데 까지 소요되는 시간을 의미한다. 일반적으로 모든 BRIR이 서로 다른 전달 지연(propagation delay)을 가지므로, BRIR 들 중 가장 큰 전달 지연(propagation delay)을 전체 BRIR의 대표값으로 선택한다. 상기 ‘direct block’(73)은 각BRIR에 대해서 에너지(energy)를 분석해서 추출할 수 있는데, 사용자가 에너지의 문턱값(threshold)을 설정하여 도7과 같이 ‘direct block’(73)과 ‘diffuse block’(74, 75)로 나누어서 결정할 수 있다. 각 BRIR에서 ‘direct block’(73)이 선택되면, BRIR의 나머지는 모두 ‘diffuse block’(74, 75)로 간주되는데, 다른 문턱값(threshold)을 추가적으로 적용하여 ‘diffuse block’(74, 75)을 다시 세분화하여 총 M개로 나눌 수 있다. 상기 ‘diffuse block’(74, 75)은 ‘direct block’(73)에 비해 대략적인 특징만 유지해도 무관하므로, 연산상의 효율성을 위해 모든 BRIR들의 diffuse block들을 평균내어 하나의 대표 ‘diffuse block’으로 만드는 것도 가능하다. 만약 모든 BRIR의 ‘diffuse block’들을 하나의 대표 ‘diffuse block’을 간주하면 기존의 ‘diffuse block’의 게인(gain)과 일치하지 않는 문제가 발생할 수 있으므로, 이러한 문제를 보완하기 위해 추가적으로 보정 게인을 계산하여 파라미터로 추출한다. 따라서 이와 같은 방식으로 파라미터화(parameterization) 과정을 수행하면, 상기 전술한 4가지 종류의 파라미터를 추출할 수 있다.

추출된 파라미터들은 바이너럴 랜더링시에 적용된다. 각 BRIR에서 추출된 ‘direct block’(73)들은 각 랜더링에 적용하기 위해 패스트 컨벌루션(fast convolution)을 수행하고, 연산량을 고려하여 만들어진 대표 ‘diffuse block’을 사용하기 위해서는, 상기 오디오 신호를 모노 채널(mono channel)로 다운믹스(downmix)한 다음, 상기 ‘diffuse block’과 패스트 컨벌루션(fast convolution)을 수행한다. 단, 상기 다운믹스(downmix) 과정에 사용되는 다운믹스 계수(coefficient)는 상기 파라미터로 추출된 보정 게인(gain)을 사용하는 것이 바람직하다.

도8은 “Frequency domain binaural rendering”을 위해 추출되는 파라미터들을 설명하기 위해 도시한 것으로, 예를 들어, 주파수 도메인에서 추출되는 파라미터들은, ‘Propagation time’, ‘VOFF parameters (VOFF coefficient, VOFF 필터 길이, band당 FFT size 및 block 수 표현)’, ‘SFR parameter(이는 Reverberator parameters 라고도 하며, late reverberation가 사용될 band 수, late reverberation가 사용되는 band의 중심주파수, 잔향 시간, 에너지 표현)’ 및 ‘QTDL parameters (QTDL gain, QTDL time lag)’를 포함할 수 있다.

지연시간 계산부(81, propagation time calculation)는 시간 도메인상의 BRIR ‘propagation time’을 계산한다. 상기 ‘propagation time’은 전술한 도7의 시간 도메인 파라미터화 과정에서 추출했던 ‘propagation delay’와 의미가 같다. 주파수 도메인에서도 상기 ‘Propagation time’ 파라미터를 추출하기 위해 BRIR의 에너지를 계산해서 지연 시간(propagation time)을 구한다.

필터 컨버터(82, filter converter)는 QMF 도메인 BRIR을 생성한다. 일반적으로 BRIR에는 직접음(direct), 초기 반향음(early reflection)과 후기 잔향음(late reverberation) 성분이 포함되어 있다. 각 성분들은 서로 다른 특성을 가지고 있어서 바이너럴 랜더링시 서로 다른 방법을 이용하여 처리된다. BRIR을 QMF domain으로 표현하면, 상기 바이너럴 랜더링시 각 성분에 대한 3가지 프로세싱(processing) 방법이 각각 사용되고 있는 것을 확인할 수 있다. 저주파의 QMF band에서는 VOFF(Variable order filtering in frequency domain) 프로세싱(VOFF 파라미터 사용)과 SFR(Sparse frequency reverberator) 프로세싱 (‘reverberation’ 파라미터 사용)이 동시에 사용된다. 상기 각 프로세싱 과정은 BRIR의 ‘direct & early reflection’과 ‘late reverberation’ 영역을 필터링하기 위해 사용된다.

VOFF 파라미터 생성부(83, VOFF parameter generation)는, 각 주파수 밴드(band)에 대해서 BRIR의 EDC(energy decay curve)를 분석해서 VOFF 파라미터들을 추출한다. 상기 EDC(energy decay curve)는 시간 변화에 따라서 BRIR의 에너지를 누적시켜서 계산된 정보이다. 따라서 해당 정보를 분석하면 BRIR의 초기 반향음(early reflection) 영역과 후기 잔향음(late reverberation) 영역을 구분 지을 수 있다. 상기 EDC(energy decay curve)를 통해 초기 반향음(early reflection)과 후기 잔향음(late reverberation) 영역이 정해지면, 각각을 VOFF 프로세싱 및 SFR 프로세싱 영역으로 지정하여 수행하게 된다. BRIR의 QMF domain에서 VOFF 프로세싱할 영역에 해당되는 계수(coefficient) 정보를 추출할 수 있다.

SFR 파라미터 생성부(84, SFR parameter generation)는 상기 SFR 프로세싱을 통해 후기 잔향음(late reverberation) 표현에 사용되는, 사용 밴드 수, 밴드 중심 주파수, 잔향 시간, 에너지 등을 파라미터로 추출하는 과정이다. 관련하여, 상기 SFR 프로세싱이 사용되는 영역(즉 반향 파라미터(reverberation parameter)가 사용되는 영역)에 대해서는 필터링(filtering)을 해도 잘 인지되지 못하기 때문에, 정확한 필터 계수를 추출하는 대신 후기 잔향음(late reverberation, 즉 SFR processing이 될 영역)의 EDC를 분석하여 에너지 및 잔향 시간 등과 같은 주요한 정보들만을 추출한다.

또한, QTPL(QMF domain Tapped-Delay Line) 파라미터 생성부(85, QTPL parameter gerneration)는, VOFF 및 SFR 프로세싱이 수행되지 않는 밴드(band)에 대해서 QTPL프로세싱을 수행한다. QTDL 프로세싱도 개략적 필터링(filtering) 방법중 하나이므로, 필터 계수(filter coefficient) 대신 QMF band 별로 가장 주요한 하나의 게인(gain) 성분(일반적으로 가장 큰 gain 성분)과 해당 성분의 위치 정보를 파라미터로 사용한다.

바이너럴 랜더링(Binaural rendering)시 VOFF 프로세싱이 수행되는 영역에 대해서는 VOFF 계수를 랜더링된 신호(rendered signal)에 적용하기 위해 FFT 기반의 패스트 컨벌루션(fast convolution)을 수행한다. 또한, SFR 프로세싱이 수행되는 영역은 잔향 시간 및 밴드(band)의 에너지를 참조하여 인공 반향(artificial reverberation)을 생성하고, 이를 랜더링된 신호(rendered signal)에 컨벌루션(convolution) 한다. 또한, QTDL 프로세싱이 수행되는 밴드(band)에 대해서는 추출된 게인 정보를 랜더링된 신호에 직접 적용한다. 일반적으로 QTDL은 고주파 밴드에 대해서만 수행되고, 사람은 고주파 성분을 인지하는 분해능이 떨어지므로, 고주파 QMF 밴드에 대해서는 매우 개략적으로 필터링(filtering)하는 것이 가능하다.

“Frequency domain parameterization”은 각 주파스 밴드 단위로 파라미터들이 추출된다. 전체 주파수 밴드중에서 VOFF 프로세싱과 SFR 프로세싱을 수행할 밴드를 직접 선택할 수 있기 때문에, 여기서 선택된 밴드 수에 따라 나머지 밴드에 대해서 자동적으로 QTDL 프로세싱을 수행한다. 또한, 극고주파 대역은 어떠한 처리도 하지 않도록 설정할 수 있다. 모든 밴드에 대해서 VOFF, SFR 혹은 QTDL 파라미터가 추출되기 때문에, 시간 도메인 파라미터화(parameterization) 과정에서 추출된 파라미터들에 비해서 훨씬 많은 파라미터들이 추출된다.

상기 파라미터 생성부(81, 82, 83, 84, 85)를 통해 생성된 BRIR 파라미터들은 다른 정보들과 멀티플랙서(86, MUX)에서 멀티플랙싱되어 바이너럴 랜더러를 위한 BRIR 파라미터 데이터로 활용된다.

도9는 본 발명의 제3실시예에 따른, RIR 인코딩 과정을 도시한 것이다. 또한, 도10은 본 발명의 제3실시예에 따른, RIR 디코딩 과정을 도시한 것이다.

제작자가 VR audio 컨텐츠를 제작하면서 함께 제작 혹은 측정한 BRIR을 송신단에서 오디오 신호와 비트스트림에 담아서 전송할 경우, 사용자는 수신된 오디오 신호로부터 BRIR을 필터링하여서 VR 오디오 컨텐츠를 제작자가 의도한 환경에서 경험할 수 있게 된다. 하지만 일반적으로 송신단에서 전송된 BRIR은 제작자 혹은 더미 헤드(Dummy head)등을 이용하여 측정되었을 가능성이 높으므로, 송신된 BRIR이 현재 사용자 양이의 고유 특징을 제대로 반영했다고 생각할 수 없다. 따라서 수신단에서 모든 사용자에게 적합한 BRIR이 적용될 수 있는 방법이 필요하다. 본 발명 제3 실시예는는 VR 컨텐츠를 경험하는 모든 사용자가 자신에게 최적화된 BRIR을 적용시킬 수 있도록, BRIR 대신 RIR을 인코딩하여 전송한다.

도9를 참조하면, 본 발명의 제3실시예 따른, 인코딩 과정에는, 3D 오디오 인코더(91, 3D Audio Encoding) 뿐만 아니라 RIR 인코더(92, RIR Encoding)를 포함한다. 즉, 상기 3D 오디오 인코더(91)를 통해 입력 오디오 신호를 인코딩 포맷에 맞게 인코딩할 뿐만 아니라, 상기 RIR 인코더로 다수의 RIR (RIR₁,RIR₂,…,RIR_N)에 대해서 RIR 인코딩을 수행한다. 인코딩된 오디오 데이터 및 RIR 데이터는 멀티플레서(93, MUX)에서 함께 팩킹(packing)되어 하나의 비트스트림으로 생성하여 송신한다.

관련하여, 상기 도9에서 사용되는 RIR 은 BRIR과 마찬가지로 3D Audio 부호화/복호화 기기에서 지원하는 스피커 포맷 환경에서 측정된 응답이지만, RIR에는 사용자 멍\리 특성 보다는 공간 특성만 반영되어 있다. 따라서 도9에서 입력되는 RIR의 수는 채널 개수와 같다. 예를 들어, 22.2채널 환경에서 제작된 오디오 신호가 입력되면, RIR 인코더(92, RIR encoder)에는 총 22개의 RIR이 입력된다.

도10은 본 발명의 제3실시예에 따른 RIR 디코딩 과정을 도시한 것이다. 특히, 도10(a) 모든 RIR을 디코딩한후 원하는 RIR만을 선택하는 과정을, 도10(b)는 원하는 RIR을 선택한후 선택된 RIR만을 디코딩하는 과정을 도시한 것이다.

우선, 도10(a)를 참조하면, 본 발명의 제3실시예에 따른 디코더는 디멀티플랙서(101, DeMUX), 3D 오디오 디코더(102, 3D Audio decoding), RIR 디코더(104, RIR decoding), RIR 선택부(105, RIR selection) 및 BRIR 데이터를 활용한 바이너럴 랜더러(103, Binaural Rendering)를 포함한다. 또한, 본 발명의 제3실시예에 따른 디코더는, HRIR 데이터베이스(DB) 및 사용자 머리 관련 정보(user head info.)를 입력 받아, HRIR 데이터를 생성하는 HRIR 선택부(107, HRIR selection) 및 HRIR 모델링부(108,HRIR modeling)을 포함한다. 또한, 본 발명의 제3실시예에 따른 디코더는, 상기 RIR 데이터 및 HRIR 데이터를 합성하여 상기 바이너럴 랜더러(103)에서 활용되는 BRIR 데이터를 생성하는 BRIR 합성부(106, Synthesizing)을 더 포함한다. 이를 구체적으로 설명하면 다음과 같다.

비트스트림이 입력되면 상기 디멀티플랙서(101)에서 오디오 데이터와 RIR 데이터가 분리된다. 다음, 분리된 오디오 데이터는 3D 오디오 디코더(102)로 입력되어 설정된 스피커 포맷(Spk. Format Info)에 대응하도록 랜더링된 오디오 신호로 디코딩되고, 상기 분리된 RIR data는 상기 RIR 디코더(104)로 입력되어 디코딩된다.

관련하여, 상기 HRIR 선택부(107) 및 HRIR 모델링부(108)는 컨텐츠를 이용하는 사용자의 양이 특징 정보를 반영하기 위해 디코더에서 별도로 추가한 부분이다.상기 HRIR 선택부(107) 는 사전에 다양한 사용자의 HRIR DB를 보유하고 있고, 외부에서 추가적으로 입력된 사용자의 머리 관련 정보(User head information)를 참조해서 사용자에게 가장 적합한 HRIR을 선택하여 출력하는 모듈이이다. 상기 HRIR DB는 각각의 사용자마다 방위각 0˚~ 360˚및 고도각 -90˚~90˚ 범위에서 측정되었다고 가정한다. HRIR 모델링부(108)는 상기 사용자의 머리 관련 정보 및 음원의 방향 정보(예를 들어, 스피커의 위치 정보)를 참조하여서 사용자에게 적합한 HRIR을 모델링하여 출력하는 모듈이다.

본 발명의 제3실시예에 따른 디코더에서는, 상기 HRIR 선택부(107) 및 HRIR 모델링부(108) 중 어느 하나를 선택하여 사용할 수 있다. 예를 들어, 도10(a), (b)에서, 스위치를 구비하여 ‘y’패스는 상기 HRIR 선택부(107, HRIR selection module)의 출력을, ‘n’ 패스는 상기 HRIR 모델링부(108, HRIR modeling module)의 출력을 사용하도록 설정하는 것이 가능하다. 상기 두 모듈중 하나가 선택되면, 설정된 출력 스피커 포맷에 맞는 HRIR 쌍이 출력된다. 예를 들어, 설정된 출력 스피커 포맷이 5.1채널이라고 가정하면, HRIR 선택부(107, HRIR selection module) 혹은 HRIR 모델링부(108, HRIR modeling module)는 스피커 위치에 해당되는 5쌍(HRIR₁ _{_L},HRIR₁ _{_R},…,HRIR₅ _{_L},HRIR₅ _{_R})의 HRIR을 출력한다. 상기 스피커 포맷 정보(Spk. Format Info)는 상기 RIR 선택부(105, RIR selection)에서도 참조되어 관련된 RIR들(예를 들어, 설정된 스피커 포맷 위치에서 측정된 RIR)만 출력되도록 할 수 있다. 마찬가지로, 설정된 출력 스피커 포맷이 5.1채널이라고 가정하면 총 5개의 RIR(RIR₁,RIR₂,…,RIR₅)이 출력된다. 출력된 HRIR쌍들과 RIR들은 상기 BRIR 합성부(106, Synthesizing)에서 합성되어서 BRIR이 생성된다. 상기 BRIR 합성부(106)를 통한 합성(Synthesizing) 과정에서는, 같은 스피커 위치에 대응되는 HRIR쌍과 RIR만이 사용될 수 있다. 예를 들어, 5.1채널 스피커 포맷을 참조하여 준비된 5쌍의 HRIR과 RIR은 합성시 RIR₁은 HRIR₁ _{_L}과 HRIR₁ _{_R}에만 적용되어서 BRIR쌍 BRIR₁ _{_L}과 BRIR_{1_R}을 출력하고, RIR₅는 HRIR₅ _{_L}과 HRIR₅ _{_R}에만 적용되어서 또 다른 BRIR쌍인 BRIR₅ _{_L}과 BRIR₅ _{_R}을 출력하는 것이 가능하다. 따라서 스피커 포맷이 5.1채널로 설정되었을 경우, 총 5쌍의 BRIR이 합성(Synthesizing)되어 출력된다. 출력된 다수의 BRIR쌍은 상기 바이너럴 랜더러(103, Binaural Rendering)에서 오디오 신호에 필터링되어 최종 랜더링된 오디오 신호(binaural rendered signa, Out_L/Out_R ₎을 출력한다.

도10(b)는 본 발명의 제3실시예에 따른 또 다른 디코더를 도시한 것이다. 도10(b)를 참조하면, 상기 디멀티플랙서(101, DeMUX), 3D 오디오 디코더(102, 3D Audio decoding), 바이너럴 랜더러(103, Binaural Rendering), HRIR 선택부(107, HRIR selection), HRIR 모델링부(108,HRIR modeling) 및 BRIR 합성부(106, Synthesizing)는 전술한 도10(a)와 동일하다. 단, 도10(a)에서 사용된 상기 RIR 디코더(104, RIR decoding) 및 RIR 선택부(105, RIR selection)를 통합하여, RIR 선택 디코더(109, RIR selection & decoding)로 구성한다. 즉, 도10(b)는 사용자가 설정한 스피커 포맷 정보(Spk. Format Info)를 RIR 선택 디코더(109)에서 수신하여 필요한 RIR만을 선택적으로 디코딩하는 것을 특징으로 한다.

도11은 본 발명의 제4실시예에 따른, RIR 인코딩 과정을 도시한 것이다. 또한, 도12는 본 발명의 제4실시예에 따른, RIR 디코딩 과정을 도시한 것이다. 본 발명의 제4실시예는 전술한 도10~도11(제3 실시예)에, RIR 파라미터화(parameterization) 과정을 인코딩 과정에 미리 수행하는 것을 특징으로 한다.

인코더로 입력되는 RIR들도 연산량의 효율성을 위해 RIR의 주요 특징 정보들을 파라미터로 추출해서 인코딩할 수 있다. 따라서 디코더에서 RIR들은 파라미터 형태로 복원되기 때문에 HRIR의 필터 계수(filter coefficient)들과 직접 합성(synthesizing)을 할 수 없다. 본 발명의 제4실시예에서는 RIR 파라미터들의 인코딩 및 디코딩 방법을 VR 오디오 디코딩에 적용하기 위한 방안을 제시한다.

도11을 참조하면, 본 발명의 제4실시예 따른, 인코딩 과정에는, 3D 오디오 인코더(111, 3D Audio Encoding) 뿐만 아니라 RIR 파라미터부(112, RIR parameterization) 및 RIR 파라미터 인코더(113, RIR parameter Encoding)를 포함한다. 즉, 상기 3D 오디오 인코더(111)를 통해 입력 오디오 신호를 인코딩 포맷에 맞게 인코딩할 뿐만 아니라, 상기 RIR 파라미터부(112)로 입력되는 다수의 RIR (RIR₁,RIR₂,…,RIR_N)에 대해서 RIR 파라미터를 추출하는 파라미터화 과정을 거치고, 상기 RIR 파라미터 인코더(113)는 상기 파라미터화된 RIR데이터에 대해 인코딩을 수행한다. 인코딩된 오디오 데이터 및 RIR 파라미터 데이터는 멀티플레서(114, MUX)에서 함께 팩킹(packing)되어 하나의 비트스트림으로 생성하여 송신한다. 이를 구체적으로 설명하면 다음과 같다.

도11의 RIR 파라미터화(parameterization) 과정은, 전술한 도5의 BRIR 파라미터화(parameterization) 과정과 유사하다. 즉, RIR의 응답은 BRIR처럼 ‘direct’, ‘early reflection’과 ‘late reverberation’ 성분으로 구성되어 있다. 이는 RIR 응답은 시간 도메인에서는 전술한 도7과 유사한 방식을 적용할 수 있고, 주파스 도메인(예를 들어, QMF domain)에서는 도8과 유사한 방식을 적용할 수 있다. 즉, 전술한 BRIR 파라미터화(parameterization) 과정을 RIR 파라미터들을 추출할 때 동일하게 사용해도 무방하게 된다. 따라서 도11의 상기 RIR 파라미터 생성부(112)에서도 시간 도메인 파라미터화(time domain parameterization)과 주파수 도메인 파라미터화(frequency domain parameterization) 방식을 사용하여 파라미터들을 추출할 수 있다. 추출된 파라미터들은 RIR 파라미터 인코더(113)로 입력되어 인코딩된다. 또한, RIR 파라미터를 인코딩시에도, 전술한 도5의 BRIR 파라미터를 인코딩할 때와 동일한 방식을 사용하는 것이 가능하다. 상기 인코딩된 RIR 파라미터 데이터는 상기 인코딩된 오디오 데이터와 멀티플랙싱(multiplexing)되어 비트스트림으로 전송된다.

도12는 본 발명의 제4실시예에 따른, RIR 디코딩 과정을 도시한 것이다. 특히, 도12(a)는 원하는 BRIR 파라미터를 선택한후 선택된 BRIR파라미터만을 디코딩하는 과정을, 도12(b)는 모든 BRIR파라미터를 디코딩한후 원하는 BRIR 파라미터만을 선택하는 과정을 각각 도시한 것이다.

우선, 도12(b)를 참조하면, 본 발명의 제2실시예에 따른 디코더는, 디멀티플랙서(121, DeMUX), 3D 오디오 디코더(122, 3D Audio decoding), RIR 파라미터 디코더(128, RIR parameter decoding), RIR 파라미터 선택부(129, RIR parameter selection) 및 바이너럴 랜더러(123, Binaural Rendering)를 포함한다. 또한, 본 발명의 제4실시예에 따른 디코더는, HRIR 데이터베이스(DB) 및 사용자 머리 관련 정보(user head info.)를 입력 받아, HRIR 데이터를 생성하는 HRIR 선택부(126, HRIR selection) 및 HRIR 모델링부(127,HRIR modeling)을 포함한다. 또한, 본 발명의 제4실시예에 따른 디코더는, 상기 HRIR 데이터를 활용하여 바이너럴 랜더링을 수행하되, 상기 바이너럴 랜더러(123)의 출력신호에 대해, 상기 RIR 데이터를 합성하여 최종 랜더링된 2채널 오디오 신호(Out_L,Out_R)를 출력하는 합성부(124, Synthesizing)를 더 포함한다.

도12(a)는 본 발명의 제4실시예에 따른 또 다른 디코더를 도시한 것이다. 도12(a)를 참조하면, 상기 디멀티플랙서(121, DeMUX), 3D 오디오 디코더(122, 3D Audio decoding), 바이너럴 랜더러(123, Binaural Rendering), HRIR 선택부(126, HRIR selection), HRIR 모델링부(127,HRIR modeling) 및 합성부(124, Synthesizing)는 전술한 12(b)와 동일하다. 단, 도12(a)는, 도12(b)에서 사용된 상기 RIR 파라미터 디코더(128, RIR parameter decoding) 및 RIR 파라미터 선택부(129, RIR parameter selection) 를 통합하여, RIR 파라미터 선택 디코더(125, RIR parameter selection & decoding)로 구성한다. 즉, 도12(a)는 사용자가 설정한 스피커 포맷 정보(Spk. Format Info)를 RIR 파라미터 선택 디코더(125)에서 수신하여 RIR 디코딩시 필요한 RIR 파라미터만을 선택적으로 디코딩하는 것을 특징으로 한다. 이를 구체적으로 설명하면 다음과 같다.

도12(a)에서는 VR 오디오 재생을 위한 전체 디코딩 및 랜더링 과정을 도시하였다. 디코더로 입력된 비트스트림은 상기 디멀티플랙서(121, DeMUX)에서 오디오 데이터와 RIR 파라미터 데이터로 분리한다. 상기 RIR 파라미터 데이터는 RIR 파라미터 선택 디코더(125)에서 디코딩 되어 RIR 파라미터들로 복원된다.

상기 HRIR데이터는 HRIR 선택부(126, HRIR selection) 및 HRIR 모델링부(127,HRIR modeling) 중 한 가지 방법을 이용해서 얻을 수 있다. 상기 두 모듈(126, 127)은 모두 사용자의 머리 정보 및 스피커 포맷 정보 등을 입력 정보로 참조하여 사용자에게 가장 적합한 HRIR을 제공하고 자 한다. 따라서, 스피커 포맷이 5.1채널로 선택되면 총 5쌍(HRIR₁ _{_L},HRIR₁ _{_R},…,HRIR₅ _{_L},HRIR₅ _{_R})의 HRIR이 만들어져서 제공된다. 이후, 제공된 HRIR쌍들은 3D 오디오 디코더(122)에서 스피커 포맷을 참조하여 출력된 디코딩된 오디오 신호에 적용된다. 예를 들어, 선택된 스피커 포맷이 5.1채널이라고 가정하면, 5개의 채널(channel) 신호와 1개의 우퍼(woofer) 신호가 상기 3D 오디오 디코더(122)에서 랜더링(rendering)되어 출력되는데, HRIR 쌍들은 설정된 스피커 포맷 위치에 대응하여 적용된다. 즉, 5.1채널의 출력 신호들을 순서대로 S₁,S₂,…,S₅라고 가정한다면 (우퍼 제외), HRIR₁ _{_L}과 HRIR₁ _{_R}은 S₁에만 필터링하여, SH₁ _{_L}과 SH₁ _{_R}을 출력하고, HRIR₅ _{_L}과 HRIR₅ _{_R}은 S₅에만 필터링하여 SH₅ _{_L}과 SH₅ _{_R}을 출력한다.

상기 바이너럴 랜더러(123, Binaural Rendering) 에서 출력된 신호들을 바로 헤드폰을 이용하여 재생하더라도, 3차원 오디오를 경험 할 수 있지만, 이는 사용자의 양이의 특징 정보만 반영되었기 때문에 현장감이 떨어질 수 있다. 따라서 상기 바이너럴 랜더러(123)에서 출력된 신호에 현장감을 적용하기 위해서는 RIR 응답의 특징 정보를 추출한 파라미터들을 적용할수 있다. 도12 상기 합성부(124, Synthesizing)에서 HRIR만이 필터링된 신호(SH₁ _{_L},SH₁ _{_R},…,,SH₅ _{_L},SH₅ _{_R})에 RIR 파라미터들을 적용하여 더욱 현장감이 있는 오디오 신호를 출력한다.

상기 합성부(124)의 입력으로 사용되는 RIR 파라미터들은 예를 들어, 모든 디코딩된 RIR 파라미터들을 디코딩한후 재생 스피커 포맷을 참조하여 선택하거나(도12(b), 128, 129), 또는 재생 스피커 포맷을 참조하여 우선 RIR 파라미터를 선택한후 디코딩하게 된다(도12(a), 125)된다. 상기 선택된 파라미터들은 상기 합성부(124, Synthesizing)에서 바이너럴 랜더링된 신호에 적용된다.

이하, 도13을 참조하여, 본 발명에 적용되는 상기 합성부(124)의 합성 과정을 설명한다. 우선, 상기 RIR 파라미터를 적용할 때에도 스피커 포맷 위치에 대응하여 적용시키는 것이 바람직하다. 예를 들어, 5.1채널 스피커 포맷에 의해 선택된 RIR 파라미터들을 각각 PRIR₁,PRIR₂,…,PRIR₅라고 한다면(131), PRIR₁은 SH₁ _{_L}과 SH_{1_R}에만 적용시켜 SHR₁ _{_L}과 SHR₁ _{_R}을 출력하고, PRIR₅ _{_R}는 SH₅ _{_L}과 SH₅ _{_R}에만 적용시켜 SHR₅ _{_L}과 SHR₅ _{_R}을 출력한다. 이후, SHR₁ _{_L},…,SHR₅ _{_L}더해지고(132) 게인 정규화(133, gain normalization)을 거쳐서 최종 신호 Out_L로 출력된다. 또한, SHR₁ _{_R},…,SHR₅ _{_R}이 더해지고(132) 게인 정규화(133, gain normalization)을 거쳐서 최종 신호 Out_R로 출력된다. 상기 오디오 출력 신호(Out_L,Out_R)는 사용자 고유의 머리 특징 정보가 반영되었을 뿐만 아니라, 제작자가 의도한 공간 정보도 반영되어서 사용자는 더욱 현장감 높은 3차원 오디오를 경험할 수 있게 된다.

관련하여, 전술한 본 발명의 제1실시예~제4실시예에 적용된, BRIR 및 RIR의 전송 방식은 3DoF에서만 유효한 경우이다. 즉, 사용자의 위치가 고정되었을 경우에 대해서만 3차원 오디오를 경험할 수 있다. BRIR 및 RIR을 6DoF 에서도 사용하기 위해서는, 즉, 임의의 공간상에서 자유롭게 이동하며 3차원 오디오를 경험하기 위해서는 사용자가 움직일 수 있는 범위에 대해서 모든 BRIR/RIR이 측정되어야 하며, VR 오디오 부호화/복호화 기기에서는 사용자의 위치 변화 정보를 감지하여, 사용자의 위치 변화에 따라 적합한 BRIR/RIR을 오디오 신호에 적용시켜주어야 한다. 도 14는 본 발명에 적용되는 3DoF와 6DoF를 설명하기 위해 도시한 것이다. 특히, 도14는 3DoF와 6DoF에서 사용자가 움직일 수 있는 범위를 직관적으로 도시한 것이다.

도 14는 예를 들어, 10.2 채널 스피커 환경에 대해서 도시하였다. 도14(a)는 3DoF 환경에서 사용자가 움직일 수 있는 범위를 도시한 것이다. 또한, 도14(b)는 6DoF 환경에서 사용자가 움직일 수 있는 범위를 도시한 것이다.

즉, 도14(a)에서는 사용자가 움직일 수 있는 범위가 한 위치(141)에만 고정되어 있는 반면, 도14(b)에서는 고정된 위치(141)뿐만 아니라, 멀티 채널 스피커가 둘러싸고 있는 다양한 위치(142, 점으로 표시된 모든 부분)로 어디든지 이동할 수 있음을 도시한 것이다. 따라서 VR Audio 부호화/복호화 기기가 6DoF를 지원하기 위해서는 상기 도14(b)에 예를 들어 도시된 무수히 많은 위치(142)에서 측정된 BRIR/RIR이 필요하게 된다. 관련하여, 도14(a)와 도14(b)를 참조하여, 10.2 채널 스피커 환경에서 BRIR/RIR을 측정하는 방법을 설명하면 다음과 같다.

도14에서의 작은 점들이 BRIR/RIR들이 측정된 지점으로 이해할 수 있다. 도14(b)는 측정되는 지점이 많아서 레이어(layer)별로 달리하여 측정 지점들을 구분하였다. 도14(b)에서는 BRIR/RIR의 측정 지점이 총3개의 레이어(143, 144, 145)만 도시하였지만, 이는 일예레 불과하고, 레이어와 레이어 사이에서도 측정이 이루어질 수 있다. 일반적으로 스피커들은 서브 우퍼 스피커를 제외하고는, 사용자 위치를 중심으로 모두 같은 거리에 배치된다. 따라서 사용자는 모든 스피커로부터 중심에 있다고 가정하고, 3DoF VR audio를 경험하고자 할 경우에는 도14(a)와 같이 BRIR/RIR을 한 위치(141)에서만 측정을 하는 것이 가능하다. 단, 6DoF VR audio를 경험하고자 할 경우에는 도14(b)와 같이 스피커들이 둘러싸고 있는 범위 내에서 동일 간격으로 BRIR/RIR을 측정하는 것이 필요하다. 6DoF는 3DoF와 달리 수평면뿐만 아니라, 수직면에 대해서도 BRIR/RIR을 측정해야 한다. 측정된 BRIR/RIR들이 많으면 많을수록 높은 성능을 기대할 수 있지만, BRIR/RIR 사용시의 연산량 및 저장 공간의 효율성을 고려하여 적절한 간격을 확보하는 것이 필요할 것이다.

비록 임의의 공간에 무수히 많은 위치에서 BRIR/RIR들이 제작자에 의해 측정 혹은 제작되지만, 사용자의 6DoF 재생 환경은 제작자가 BRIR/RIR을 제작했을 때의 환경과 다를 수 있다. 예를 들어, 제작자는 스피커 포맷 규격을 감안하여 사용자와 스피커간의 거리를 1m로 설정하고 BRIR/RIR을 측정한 반면에(사용자가 반경 1m 내에서만 움직인다고 가정하여 측정), 사용자는 1m 이상을 움직일 수 있는 공간에 있다고 생각할 수 있다. 여기서는 편의상 사용자가 움직일 수 있는 범위를 반경 2m 이내라고 가정한다. 따라서 제작자가 측정한 응답 환경에 비해서 사용자의 공간이 두 배 넓다. 이러한 경우를 감안하여 BRIR/RIR이 측정된 위치 정보와 사용자가 이동할 수 있는 거리 정보를 참조하여 측정된 응답 특성을 변형시킬 수 있어야 한다. 관련하여, 상기 응답 특성은 다음과 같이 두 가지 방법을 이용하여 변경시킬 수 있다. 첫 번째는 BRIR/RIR의 응답 게인(gain)을 변경시키는 방법이며, 두 번째는 BRIR/RIR의 Direct/Reverberation(D/R) 비율(ratio)를 조절하여 응답 특성을 변경시키는 방법이다.

상기 첫 번째 방법은 사용자의 재생 환경 기준으로 고려했을 때 제작자의 응답 측정 환경에 비해서 모든 측정된 응답의 거리가 최대 2배 멀어졌다고 생각할 수 있으므로, 음원의 크기는 거리 제곱에 반비례한다는 역제곱법칙(inverse square law)을 적용하여 측정된 응답 게인을 변경한다. 상기 역제곱법칙(Inverse square law)을 적용한 수식은 기본적으로 식 (1)과 같다.

[규칙 제91조에 의한 정정 18.01.2018]　

식 (1)

식 (1)에서 Gain₁과 Dist₁은 제작자에 의해 측정된 응답의 게인과 음원간의 거리를 의미하며, Gain₂와 Dist₂는 변경된 응답의 gain과 음원간의 거리를 의미한다. 따라서 식 (2)를 이용하면 변경된 응답의 게인을 구할 수 있게 된다.

[규칙 제91조에 의한 정정 18.01.2018]　

식 (2)

상기 두 번째 방법은 아래 식 (3)의 D/R ratio의 비율을 변경시키는 방법이다.

[규칙 제91조에 의한 정정 18.01.2018]　

식 (3)

상기 식(3)을 보면 D/R ratio의 분자는 ‘direct part’의 파워, 분모는 ‘early reflection part’와 ‘late reverberation part’의 파워를 의미한다. h(t)는 BRIR/RIR의 응답을, t₁은 응답이 측정되기 시작해서 ‘direct part’가 측정될 때까지 소요된 시간을 의미한다. 보통 D/R ratio는 dB 단위로 계산된다. 식에서 볼 수 있듯이, D/R ratio는 ‘direct part’의 파워 P_D와 ‘early reflection part’ 와 ‘late reverberation part’의 파워 P_R의 비율로 제어된다. 이 비율을 변경시켜줌으로써 BRIR/RIR의 특성을 변화하여 거리감을 변경시켜줄 수 있다.

상기 D/R ratio를 조절하는 방법은 거리 랜더링(distance rendering)할 때 사용되는 대표적인 방법으로도 적용할 수 있다. 만약 사용자와 음원 간의 거리를 가까워지도록 변화시키고 싶으면 응답의 ‘direct part’의 게인을 크게 조절하고, 멀어지도록 변화시키고 싶으면 ‘direct part’의 게인을 작게 조절하여 거리감을 변경시킬 수 있다. 일반적으로 거리가 두 배 멀어질 경우, D/R ratio는 6dB 감소한다. 따라서 앞에서 가정한 경우와 같이 사용자가 이동 가능한 범위가 제작자가 측정한 범위에 비해서 2배 넓을 경우, 기존의 측정된 BRIR/RIR의 응답 특성을 좀 더 먼 곳에서 측정된 것처럼 변경시키기 위해 기존에 측정된 BRIR/RIR의 ‘direct part’의 파워는 3dB 작게, 혹은 ‘early reflection’과 ‘late reverberation part’의 파워는 3dB 크게 조절해줌으로써 BRIR/RIR의 특성을 변경시킬 수 있다. 사용자가 D/R ratio를 사용하여 거리감을 변경시킬 것을 감안하여, 제작자는 모든 BRIR/RIR의 t₁ 값(응답의 시작부터 direct part가 측정되는데 걸리는 시간)을 미리 제공한다던가, 전술한 파라미터화(parameterization) 방법을 이용하여 모든 BRIR/RIR의 t₁ 정보를 추출하여 이용할 수도 있다. 이하, 본 발명에 따른, 6DoF 환경에서, BRIR/RIR을 효율적으로 사용하기 위한, 다양한 실시예를 설명하고자 한다.

도15는 본 발명의 제5실시예에 따른, 6DoF 환경에서 BRIR 인코딩 과정을 도시한 것이다. 또한, 도16은 본 발명의 제5실시예에 따른, 6DoF 환경에서 BRIR 디코딩 과정을 도시한 것이다.

도15에 도시된 전체적인 인코딩 모듈 및 과정은 전술한 도2의 3DoF환경에서의 과정과 유시하다. 우선, 3D 오디오 디코더(151, 3D Audio encoding)는 입력되는 오디오 신호를 인코딩하여 인코딩된 오디오 신호를 생성한다. 단, BRIR 인코더(152, BRIR encoding)로 입력되는 BRIR들은 한 지점(3DoF)에 대한 BRIR이 아닌 도14(b)와 같이 여러 지점(6DoF)에서 측정된 다량의 BRIR들이 입력된다. 예를 들어, 5.1채널 스피커 환경에서 총 10개 지점에 대한 BRIR이 측정되었다면, 상기 BRIR 인코더(152, BRIR encoding)으로 입력되는 BRIR은 총 100개(2x5x10, 우퍼스피커에 대한 응답 제외)가 된다. 상기 BRIR 인코더(152)로 입력되는 BRIR_Ln _{_} _di는 공간상에 설치된 임의의 스피커 포맷 환경에서 임의의 지점 di에서 n번째 스피커에 대한 왼쪽 귀에 대한 BRIR 응답을 의미한다. 3DoF와 달리 6DoF에서 encoding할 때에 추가적으로 BRIR 설정 정보(154, BRIR configuration information)이 입력되는 바, 상기 정보에는 상기 BRIR 인코더(152)로 입력되는 BRIR들의 위치 정보, 응답 특징 정보 (예를 들어, 식(3)의 t₁ 정보, 잔향시간, 등), 그리고 BRIR이 측정되었던 공간 특징 정보(예를 들어, 공간의 구조 및 크기)를 포함하고 있다. 상기 BRIR 인코더(152)에서는 3DoF 에서 인코딩했을 때와 동일한 인코딩 방법을 이용하여 인코딩할 수 있다. 이후, 모든 지점에 대한 BRIR들이 인코딩 되면 멀티플랙서(153, MUX)에서 상기 인코딩된 오디오 신호, 상기 BRIR 환경 설정 정보(154), 및 상기 인코딩된 BRIR 데이터를 함께 팩킹(packing)하여 비트스트림으로 전송하게 된다.

도16(a)는 본 발명의 제5실시예에 따른, 6DoF에서의 디코딩 과정을 도시한 것이다. 입력된 비트스트림은 디멀티플랙서(161, De-MUX)에서 상기 인코딩된 오디오 데이터, BRIR 데아터 및 BRIR 환경 설정 벙보(BRIR configuration info)를 추출한다. 상기 인코딩된 오디오 데이터는 3D 오디오 디코더(162, 3D Audio decoding)로 입력되어 설정된 스피커 포맷(Spk Format info.)을 참조하여 디코딩 및 랜더링 된다. 상기 BRIR 데이터는 BRIR 디코더(164, BRIR decoding)로 입력되어 모든 BRIR 응답들을 복원시킨다. 복원된 BRIR은 BRIR 선택 및 조정부(165, BRIR selection & adjustment)에 입력되어 재생에 필요한 BRIR들만 선택하여 출력한다. 또한, 상기 BRIR 선택 및 조정부(165)는, 외부로부터 수신된 환경 정보(예를 들어, 공간 크기 정보, 이동 가능 범위 정보 등)와 BRIR 환경 설정 정보(154)를 참조해서 사용자의 이동 가능한 공간 범위가 제작자가 BRIR을 측정한 범위와 유사한지 확인한다. 만약 사용자가 이동할 수 있는 범위와 BRIR이 측정된 범위가 다르면, 전술한 BRIR 응답 특성 변환 방법을 이용하여 측정된 BRIR의 특성을 변환시킨다. 예를 들어, 사용자가 이동할 수 있는 범위는 반경이 중심점 기준으로 2m이고, BRIR이 측정된 범위는 중심점 기준으로 1m라고 가정하면, 측정된 BRIR의 ‘direct part’ 파워는 3dB 줄이거나 ‘early reflection part’, ‘late reverberation part’ 파워를 3dB 증가시킨다. 다음, 사용자의 위치 정보(user position info)를 참조하여 가장 가까운 위치에서 측정된 지점에 대한 BRIR들을 선택해서 출력시킨다. 예를 들어, 3DoF에서 가정했던 환경처럼 설정된 스피커 포맷이 5.1채널이라고 가정하면, BRIR selection (165)에서 임의의 지점에 대해서 선택되어 출력된 BRIR(BRIR_L1,BRIR_R1,…,BRIR_L5,BRIR_R5)은 총 5쌍이 된다. 선택된 BRIR들은 바이너럴 랜더러(163, binaural rendering)에 입력되어 오디오 신호를 필터링하여 최종 바이너럴 랜더링된(binaural rendered) 2채널 오디오 출력 신호(Out_L,Out_R)을 출력한다.

도16(b) 실시예는, 상기 도16(a)의 실시예와 비교하여, BRIR 디코더(164, BRIR decoding) 및 BRIR 선택 및 조정부(165, BRIR selection& adjustment)를 통합하여, BRIR 선택 디코더부(166, BRIR selection & decoding)로 통합한 것이다. 상기 BRIR 선택 디코더부(166)는 디코딩 과정에서 설정한 스피커 포맷 정보(Spk. Format info)를 BRIR 디코딩시 미리 참조하여, 상기 바이너럴 랜더링(binaural rendering)을 하는데 필요한 BRIR만을 선택적으로 디코딩하는 것을 특징으로 한다.

도17은 본 발명의 제6실시예에 따른, 6DoF 환경에서 BRIR 인코딩 과정을 도시한 것이다. 또한, 도18은 본 발명의 제6실시예에 따른, 6DoF 환경에서 BRIR 디코딩 과정을 도시한 것이다.

도17은, 전술한 3DoF 환경의 도5 실시예를, 6DoF 환경을 고려하여 도시한 것이다. 도17에서 입력되는 모든BRIR의 정보들은 BRIR 파라미터 생성부(172, BRIR parameterization)에서 모두 파라미터로 추출되고, 추출된 파라미터들은 BRIR 파라미터 인코더(173, BRIR parameter encoding)에서 부호화하여 인코딩된다. 상기 BRIR 파라미터 인코더(173)의 동작은 전술한 도5 BRIR 파라미터 인코더(53)와 데이터량에서 차이나 뿐 실질적으로 동일한 방법으로 인코딩하는 것이 가능하다.

상기 인코딩된 BRIR 파라미터 데이터, BRIR 설정 정보(175, BRIR config. Info)와 3D 오디오 인코더(171, 3D Audio encoding)에서 인코딩된 오디오 데이터는 멀티플랙서(174, MUX)에서 팩킹(packing)되어 비트스트림으로 전송된다.

도18 (a) 및 (b)는, BRIR이 파라미터로 전송된 부분을 제외하면 상기 전술한 도16(a), (b)의 과정과 유사하다. 즉, 도18(a)는 본 발명의 제6실시예에 따른, 6DoF에서의 디코딩 과정을 도시한 것이다. 입력된 비트스트림은 디멀티플랙서(181, De-MUX)에서 상기 인코딩된 오디오 데이터, BRIR 파라미터 데이터 및 BRIR 환경 설정 벙보(BRIR configuration info)를 추출한다. 상기 인코딩된 오디오 데이터는 3D 오디오 디코더(182, 3D Audio decoding)로 입력되어 설정된 스피커 포맷(Spk Format info.)을 참조하여 디코딩 및 랜더링 된다. 상기 BRIR 파라미터 데이터는 BRIR 파라미터 디코더(184, BRIR parameter decoding)로 입력되어 모든 BRIR 파라미터들을 복원시킨다. 복원된 BRIR 파라미터는 BRIR 파라미터 선택 및 조정부(185, BRIR parameter selection & adjustment)에 입력되어 재생에 필요한 BRIR파라미터들만 선택하여 출력한다. 또한, BRIR 파라미터 선택 및 조정부(185)는 외부로부터 수신된 환경 정보(예를 들어, 공간 크기 정보, 이동 가능 범위 정보 등)와 BRIR 환경 설정 정보(175)를 참조해서 사용자의 이동 가능한 공간 범위가 제작자가 BRIR을 측정한 범위와 유사한지 확인한다. 만약 사용자가 이동할 수 있는 범위와 BRIR이 측정된 범위가 다르면, 전술한 BRIR 응답 특성 변환 방법을 이용하여 측정된 BRIR의 특성을 변환시킨다. 상기 선택된 BRIR파라미터들은 바이너럴 랜더러(183, binaural rendering)에 입력되어 상기 오디오 신호를 필터링하여 최종 바이너럴 랜더링된(binaural rendered) 2채널 오디오 출력 신호(Out_L,Out_R)을 출력한다.

도18(b)의 실시예는, 상기 도18(a)의 실시예와 비교하여, BRIR 파라미터 디코더(184, BRIR parameter decoding) 및 BRIR 파라미터 선택 및 조정부(185, BRIR parameter selection& adjustment)를 통합하여, BRIR 파라미터 선택 디코더부(186, BRIR parameter selection & decoding)로 통합한 것이다. 상기 BRIR 파라미터 선택 디코더부(186)는 디코딩 과정에서 설정한 스피커 포맷 정보(Spk. Format info)를 BRIR 디코딩시 미리 참조하여, 상기 바이너럴 랜더링(binaural rendering)을 하는데 필요한 BRIR 파라미터만을 선택적으로 디코딩 하는 것을 특징으로 한다.

도19는 본 발명의 제7실시예에 따른, 6DoF 환경에서 RIR 인코딩 과정을 도시한 것이다. 또한, 도20~도21은 본 발명의 제7실시예에 따른, 6DoF 환경에서 RIR 디코딩 과정을 도시한 것이다.

도19를 참조하면, 제작자가 의도하는 공간에서 측정 혹은 제작된 RIR들은 RIR 인코더(192, RIR encoding)에 입력되어 인코딩 된다. 6DoF를 위해 다양한 지점에서 RIR들이 측정되었지만, 한 번에 한 쌍의 BRIR이 측정되는 것과 달리 RIR은 한 번에 한 개만 측정된다. 예를 들어, 5.1채널 스피커 환경에서 총 10개 지점에 대해서 RIR이 측정되었다면, 상기 RIR 인코더(192, RIR encoding)로 입력되는 RIR은 총 50개 (1x5x10, 우퍼스피커에 대한 응답 제외)가 된다. 도19에서는 RIR 설정 정보(194, RIR configuration information)가 입력되며, 해당 정보(194)는 전술한 BRIR 설정 정보(154)와 마찬가지로 RIR들의 측정 위치 정보, 응답 특징 정보(예를 들어, 식(3)의 t₁ 정보, 잔향 시간 등), 그리고 RIR이 측정되었던 공간 특징 정보(예를 들어, 공간의 구조 및 크기 정보 등)를 포함하고 있다. 상기 RIR 설정 정보(194)는 3D 오디오 인코더(191, 3D Audio encoding)에서 인코딩된 오디오 데이터 및 상기 RIR 데이터와 함께 멀티플랙서(193, MUX)에 입력되어 팩킹(packing)된 후 비트스트림으로 전송된다.

도20의 전체적인 디코딩 과정은 3DoF 환경에 적용된 도10(a)와 유사하다. 다만 6DoF를 위해 도20 실시예는 외부로부터 사용자 위치 정보(User position information)을 수신 받는다. 입력된 비트스트림은 디멀티플랙서(201, De-MUX)에 입력되어서 오디오 데이터, RIR 데이터 및 RIR 환경 설정 정보(194)가 추출된다. 상기 추출된 오디오 데이터는 3D 오디오 디코더(202, 3D audio decoding)에서 스피커 포맷 정보(Spk. format info)를 참조하여 디코딩 및 랜더링 되어 멀티채널 신호를 출력한다. 또한, 상기 추출된 RIR 데이터는 RIR 디코더(204, RIR decoding)에 입력되어 모든 RIR 을 복원한다. 상기 복원된 RIR은 RIR 선택 및 조정부(205, RIR selection & adjustment)에 입력되어 설정된 스피커 포맷을 참조하여 스피커 위치에 해당되는 RIR을 선택하여 출력한다. 관련하여, 상기 RIR 선택 및 조정부(205)는 도16(a)의 BRIR 선택 및 조정부(165, BRIR selection & adjustment)에서 진행했던 절차와 유사하게 외부로부터 수신된 환경 정보(공간 크기 정보, 이동 가능 범위)와 RIR 환경 설정 정보(194)를 참조하여 사용자의 이동 가능한 공간 범위가 제작자가 RIR을 측정한 범위와 유사한지 확인하고, 필요할 경우, 측정된 RIR의 응답 특성을 변환시킨다. 다음, 사용자의 위치 정보(user position info)를 참조하여 가장 가까운 지점에서 측정된 RIR을 선택해서 출력시킨다. 예로, 5.1채널 환경이라고 가정한다면, RIR selection & adjustment에서 5개의 RIR(RIR₁,RIR₂,…,RIR₅)이 출력된다.

RIR에는 사용자의 양이 정보가 포함되어 있지 않으므로, 두 가지 HRIR 생성 모듈(207, 208)을 이용하여 사용자에게 적합한 HRIR쌍들을 생성한다. 일반적으로 HRIR들은 모든 방향에 대해 한번씩만 측정된다. 따라서 6DoF처럼 사용자가 임의의 공간에서 이동하면 음원 간의 거리는 달라지기 때문에 기존 HRIR 그대로 사용하면 음원이 부정확한 위치에 정위되게 된다. 이러한 문제를 해결하기 위해 모든 HRIR들을 게인 보상부(209, Gain compensation)에 입력해서 사용자와 음원간의 거리를 참조하여 HRIR의 게인을 변경시켜주는 것이 필요하다. 사용자와 음원간의 거리 정보는 상기 게인 보상부(209, Gain compensation)로 입력되는 사용자 위치 정보와 스피커 포맷 정보를 통해서 확인할 수 있다. 출력되는 HRIR쌍들은 사용자의 위치에 따라서 서로 다른 게인이 적용될 수 있다. 예를 들어, 5.1채널 스피커 포맷 환경에서 사용자가 정면을 향해 움직이면, 전방에 설치된 스피커들(Left, Center, Right)에 가까워진다는 것을 의미하므로, HRIR의 게인을 크게 조절하고, 후방에 위치한 스피커들(Left Surround, Right Surround)과는 상대적으로 멀어지기 때문에 HRIR의 게인을 작아지게 조절한다. 게인이 조절된 HRIR쌍들은 한성부(206, Synthesizing)로 입력되어, 상기 RIR 선택 및 조정부(205)에서 출력된 RIR들과 합성되어 BRIR쌍들을 출력한다. 상기 합성부(206)에서 합성과정은 같은 스피커 위치에 대응되는 HRIR쌍과 RIR만이 사용된다. 예로, 5.1 채널 스피커 포맷 환경에서는 RIR₁은 HRIR₁ _{_L}과 HRIR₁ _{_R}에만 적용되고, RIR₅는 HRIR₅ _{_L}과 HRIR₅ _{_R}에만 적용된다. 바이너럴 랜더러(203, binaural rendering)에서는 상기 디코딩된 오디오 신호를 상기 합성부(206)에서 출력된 BRIR에 필터링시켜서 바이어럴 랜더링된(binaural rendering) 2채널 오디오 출력 신호(Out_L,Out_R)를 출력하게 된다.

도21의 실시예는, 상기 도20의 실시예와 비교하여, RIR 디코더(204, RIR decoding) 및 RIR 선택 및 조정부(205, RIR selection & adjustment)를 통합하여, RIR 선택 디코더부(210, RIR selection & decoding)로 통합한 것이다. 상기 RIR 선택 디코더부(210)는 디코딩 과정에서 설정한 스피커 포맷 정보(Spk. Format info)를 RIR 디코딩시 미리 참조하여, 상기 바이너럴 랜더링(binaural rendering)을 하는데 필요한 RIR만을 선택적으로 디코딩하는 것을 특징으로 한다.

도22는 본 발명의 제8실시예에 따른, 6DoF 환경에서 RIR 인코딩 과정을 도시한 것이다. 또한, 도23~도24는 본 발명의 제8실시예에 따른, 6DoF 환경에서 RIR 디코딩 과정을 도시한 것이다.

도22는, 전술한 3DoF 환경의 도11 실시예를, 6DoF 환경을 고려하여 도시한 것이다. 도22에서 입력되는 모든RIR의 정보들은 RIR 파라미터 생성부(222, RIR parameterization)에서 모두 파라미터로 추출되고, 추출된 파라미터들은 RIR 파라미터 인코더(223, RIR parameter encoding)에서 부호화하여 인코딩된다. 상기 RIR 파라미터 인코더(223)의 동작은 전술한 도11 RIR 파라미터 인코더(113)와 데이터량에서 차이나 뿐 실질적으로 동일한 방법으로 인코딩하는 것이 가능하다.

도22를 참조하면, 입력되는 모든 RIR의 정보들은 상기 RIR 파라미터 생성부(222)에서 파라미터로 추출되어, 상기 RIR 파라미터 인코더(223)에서 인코딩된다. 상기 인코딩된 RIR 파라미터 데이터는, 3D 오디오 인코더(221, 3D Audio encoding)에서 인코딩된 오디오 데이터와 RIR 설정 정보(225, RIR configuration information)와 함께 멀티플랙서(224, MUX)로 입력되어 팩킹(packing) 된 후, 비트스트림으로 생성된다.

도23은 본 발명의 제8실시예에 따른, 전체 디코딩 과정을 도시한 것이다. 전술한 도20 실시예와 비교했을 때, RIR을 선택해서 출력하는 부분까지는 동일하다. 다만, 도23에서는 RIR 파라미터가 전송되기 때문에, RIR 대신 RIR parameter로 출력된다. 또한, 외부로부터 수신된 사용자의 재생 환경 정보(공간 크기 정보, 이동 가능 범위)와 RIR 환경 정보를 참조해서 사용자의 이동 범위가 유사한지 확인하여, 필요할 경우, 전술한 방법을 이용해서 측정된 RIR의 응답 특성을 변환시킨다. 또한, RIR 파라미터들을 수신 받으므로, 가장 주요한 파라미터들에 대해서만 변경시킨다. 일반적으로, 사용자가 임의의 음상에 가까워질수록 RIR의 ‘propagation delay’는 줄고, RIR의 ‘direct part’의 에너지는 증가한다. 따라서, 여기에서는 시간 도메인에서 RIR 파라미터를 추출할 경우, 추출된 파라미터 중 ‘Propagation delay’와 ‘direct filter block parameter’ 정보를 변경시키고, 만약 주파수 도메인에서 파라미터를 추출할 경우, 추출된 파라미터 중 ‘propagation time’과 ‘VOFF coefficient parameter’ 정보를 변경한다. 만약 사용자의 재생 환경 정보가 측정된 환경보다 클 경우(사용자의 이동 가능 범위가 RIR이 측정된 범위보다 넓을 경우), RIR의 ‘propagation time’은 길어져야 하므로, 확장된 거리에 비례해서 ‘propagation delay’(TD) 혹은 ‘propagation time’(FD) 파라미터 값을 변경시켜준다. 일반적으로, ‘direct part’의 신호는 ‘propagation delay’ 이후에 나타나는 임펄스(impulse)를 의미하며, 보통 RIR에서 가장 큰 값을 가진다. 따라서, 본 발명에서는 ‘direct filter block’(TD)과 각 주파스 밴드(frequency band)에서 추출된 VOFF 계수(coefficient)에서 가장 큰 값을 ‘direct part’ 성분으로 간주한다. 해당 파라미터에서 추출된 값을 RIR의 ‘direct part’의 게인으로 간주하여 전술한 식(2)의 D/R 비율(ratio)의 거리 변화량을 적용하여 게인값을 변경시켜주는 것이 가능하다.

HRIR데이터는 전술한 도20에서 설명한 HRIR 생성 절차와 동일하다. 즉, 두 가지 HRIR 생성 모듈(237, 238)중 한 가지 모듈을 선택한 후, 스피커의 포맷 정보를 참조하여 HRIR을 생성하면, 이를 게인 보상부(239, Gain compensation)에 입력하여 사용자와 스피커들간의 거리를 참조하여 HRIR의 게인을 조절한다. 상기 게인 조절된 HRIR들은 바이너럴 랜더러(233, Binaural rendering)에 입력되어 디코딩된 오디오 신호에 적용되어, 바이너럴 랜더링된(binaural rendered) 신호를 출력한다. 만약 5.1채널이라고 가정하면, 총 5쌍의 바이너럴 랜더링된 신호(SH₁ _{_L},SH₁ _{_R},…,SH₅ _{_L},SH₅ _{_R})가 출력된다. 전술한 도10에서 언급한 바와 같이. HRIR만 필터링된 신호에는 공간 특징 정보가 반영되지 않아 현장감이 부족한 점이 있다. 따라서 합성부(234, Synthesizing)에서 RIR 파라미터 선택 및 조정부(236, RIR parameter selection & adjustment)에서 출력된 RIR 파라미터들(예를 들어, 5.1 채널로 가정할 경우, PRIR₁,PRIR₂,…,PRIR₅)을 상기 바이너럴 랜더링된(binaural rendered) 신호에 적용하여 현장감이 부여된 신호들을 출력할 수 있게 된다. 상기 합성부(234)내 합성과정에서 RIR 파라미터들을 스피커 위치에 대응하여 상기 바이너럴 랜더링된(binaural rendered) 신호에 적용해야 한다. 예를 들어, 5.1채널로 가정할 경우, PRIR₁은 SH₁ _{_L}과 SH₁ _{_R}에만 적용해서 SHR_{1_L}과 SHR₁ _{_R}을 출력하고, PRIR₅는 SH₅ _{_L}과 SH₅ _{_R}에만 적용해서 SHR₅ _{_L}과 SHR₅ _{_R}을 출력한다. 다음, 왼쪽 채널에 대한 신호 SHR₁ _{_L},…,SHR₅ _{_L}가 모두 더해지고 게인 정규화(gain normalization)되어서 최종 신호 Out_L을 출력하고, 오른쪽 채널에 대한 신호 SHR₁ _{_R},…,SHR₅ _{_R}가 모두 더해지고 게인 정규화(gain normalization)되어서 최종 신호 Out_R을 출력한다. 관련하여, 상기 합성 과정은 전술한 도13과 동일하다.

도24의 실시예는, 상기 도23의 실시예와 비교하여, RIR 파라미터 디코더(235, RIR parameter decoding) 및 RIR 파라미터 선택 및 조정부(236, RIR parameter selection& adjustment)를 통합하여, RIR 파라미터 선택 디코더부(240, RIR parameter selection & decoding & adjustment )로 통합한 것이다. 상기 RIR 파라미터 선택 디코더부(240)는 디코딩 과정에서 설정한 스피커 포맷 정보(Spk. Format info)를 RIR 디코딩시 미리 참조하여, 상기 바이너럴 랜더링(binaural rendering)을 하는데 필요한 RIR 파라미터만을 선택적으로 디코딩 하는 것을 특징으로 한다.

도25~도48은 본 발명의 실시예에 따른, 오디오 재생 방법 및 장치에 활용되는 신택스(syntax) 구조를 설명하기 위해 도시한 것이다. 특히, 3DoF 및 6DoF에서 3D 오디어 디코더에 수신된 BRIR, BRIR 파라미터, RIR 또는 RIR 파라미터에 대한 신택스(syntax)를 도시한 것이다, 관련하여, 본 발명에 제안된 신택스는, 예를 들어, 3D 오디오 디코더의 한 종류인 ‘MPEG-H 3D Audio decoder’를 기반으로 도시하였다. 단, 본 발명의 신택스는 하나의 예시에 불과하며, 동일한 개념의 신택스 구조를 다른 3D 오디오 디코더에 변형된 형태로 적용할 수 있음은 자명하다 할 것이다.

전술한 실시예들에서 설명한 바와 같이, RIR의 파라미터들의 개념은 기본적으로 MPEG-H 3D Audio의 BRIR 파라미터들과 매우 비슷하기 때문에, 가능한 MPEG-H 3D Audio에서 선언된 BRIR 파라미터 신택스와 호환 가능하도록 도시하였다.

도25는 본 발명의 실시예를 반영하여, MPEG-H 3D Audio Decoder에 적용되는 ‘mpegh3daLocalSetupInformation()’(251) 신택스를 도시한 것이다.

is6DoFMode필드(252)는 6DoF 방식으로 사용할지 여부를 알려준다. ‘0’인 경우 기존 방식(3DoF)으로, ‘1’인 경우 6DoF 방식을 사용하는 것으로 정의할 수 있다. up_az필드는 사용자의 위치 정보가 방위각(Azimuth) 측면에서 각도 값으로 주어진다. 각도 값은 Azimuth=-180˚와 Azimuth=180˚ 사이에서 주어진다. 예를 들어, user_positionAzimuth = (up_az-128)*1.5; user_positionAzimuth = min (max(user_positionAzimuth, -180), 180);로 계산할 수 있다. up_el 필드는 사용자의 위치 정보가 고도각(Elevation) 측면에서 각도 값으로 주어진다. 각도 값은 Elevation=-90˚ 와 Elevation=90˚ 사이에서 주어진다. 예를 들어, user_positionElevation = (up_el - 32) * 3.0; user_positionElevation = min (max(user_positionElevation, -90), 90);로 계산할 수 있다. up_dist필드는 사용자의 위치 정보가 거리 측면에서 meter 값으로 주어진다. 길이 값은 Radius = 0.5m와 Radius=16m 사이에서 주어진다. 예를 들어, user_positionRadius = pow(2.0, (up_dist / 3.0)) / 2.0; user_positionRadius = min(max(user_positionRadius, 0.5), 16); 로 계산할 수 있다.

또한, bsRenderingType 필드(253)는 Rendering 타입을 정의한다 예를 들어, 스피커 랜더링(‘LoudspeakerRendering()’(254)) 또는 헤드폰을 통한 바이너럴 랜더링(‘BinauralRendering()’(255) 중 어느 하나를 지시하는 것이 가능하다.

또한, bsNumWIREoutputs 필드는 WIREoutput의 개수를 정의한다. 예를 들어, 0~65535사이에서 결정 될 수 있다. WireID 필드는 WIRE output에 대한 ID를 포함한다. hasLocalScreenSizeInformation 필드는 로컬 화면 크기(Local screen size) 정보를 사용할 수 있는지 여부를 정의하는 플래그(flag) 정보이다.

도26 및 도27은, 상기 ‘BinarualRendering()’(255) 상세 신택스를 도시한 것이다. 특히, 전술한 is6DoFMode필드(252)가 ‘1’의 값으로, 6DoF를 지시하는 경우를 도시한 것이다.

bsNumMeasuredPositions 필드는 측정 위치의 수를 의미한다. positionAzimuth 필드는 측정된 위치의 방위각을 정의한다. -180˚에서 180˚사이의 값을 1˚간격으로 가질 수 있다. 예를 들어, Azimuth = (loudspeakerAzimuth-256); Azimuth = min (max (Azimuth,-180), 180);로 정의할 수 있다. positionElevation 필드는 측정된 위치의 고도각을 정의한다. -90˚에서 90˚사이의 값을 1˚간격으로 가질 수 있다. 예를 들어, Elevation = (loudspeakerElevation-128); Elevation = min (max (Elevation,-90), 90);로 정의할 수 있다. positionDistance 필드는 측정된 위치의 정중앙(동시에 Loudspeaker들의 정중앙)에 위치한 사용자 위치(reference point)까지의 거리를 cm단위로 정의한다. 예를 들어, 1~1023 사이의 값을 가질 수 있다. bsNumLoudspeakers 필드는 재생 환경에서의 스피터(loudspeaker)의 개수를 의미한다. 또한, loudspeakerAzimuth필드는 스피커의 방위각을 정의한다. -180˚에서 180˚사이의 값을 1˚간격으로 가질 수 있다. 예를 들어, Azimuth = (loudspeakerAzimuth-256); Azimuth = min (max (Azimuth,-180), 180);로 정의할 수 있다. loudspeakerElevation 필드는 스피커의 고도각을 정의한다. -90˚에서 90˚사이의 값을 1˚간격으로 가질 수 있다. 예를 들어, Elevation = (loudspeakerElevation-128); Elevation = min (max (Elevation,-90), 90);로 정의할 수 있다.loudspeakerDistance 필드는 스피커(Loudspeaker)의 중앙에 위치한 사용자 위치(reference point)까지의 거리를 cm단위로 정의한다. 1~1023 사이의 값을 가질 수 있다. loudspeakerCalibrationGain필드는 스피커(Loudspeaker)의 캘리브레이션 게인(calibration gain)을 dB 단위로 정의한다. 즉, Gain = -32dB와 Gain =31.5dB 사이의 dB 값에 대응하는 0~127 사이의 값을 0.5dB 간격으로 가질 수 있다. 예를 들어, Gain [dB] = 0.5x(loudspeakerGain 64)로 정의할 수 있다. externalDistanceCompensation 필드는 스피커(Loudspeaker)의 보상을 디코더 출력 신호에 적용할지 여부를 정의한다. 만약 해당 플래그가 1이면, ‘loudspeakerDistance’ 및 ‘loudspeakerCalibrationGain’에 대한 시그널링은 디코더에 적용되지 않는다.

또한, is6DoFRoomData필드는, 6DoF 환경에서 공간 정보(room data) 존재 여부를 지시하는 플래그(flag) 정보이다. 만약, 6DoF 환경에서 공간 정보(room data)가 존재한다면, bs6DoFRoomDataFormatID 필드(261)는 6DoF 공간 정보의 표현 유형을 나타낸다. 예를 들어, bs6DoFRoomDataFormatID 필드(261)에 의한 공간 정보 유형은, ‘RoomFirData6DoF()’(262), ‘FdRoomRendererParam6DoF()’(263) 및 ‘TdRoomRendererParam6DoF()’(264)로 나누어 진다. 관련하여, 상기 ‘RoomFirData6DoF()’(262), ‘FdRoomRendererParam6DoF()’(263) 및 ‘TdRoomRendererParam6DoF()’(264)은 별도 신택스로 상세히 후술할 예정이다.

또한, bs6DoFBimauralDataFormatID 필드(266)는 6DoF 환경에 적용되는 BRIR 셋(set) 표현 유형을 나타낸다. 예를 들어, bs6DoFBimauralDataFormatID 필드(266)에 의한 6DoF 환경에 적용되는 BRIR 셋(set) 유형은, ‘BinauralFirData6DoF()’(267), ‘FdBinauralRendererParam6DoF()’(268) 및 ‘TdBinauralRendererParam6DoF()’(269)로 나누어 진다. 관련하여, 상기 ‘BinauralFirData6DoF()’(267), ‘FdBinauralRendererParam6DoF()’(268) 및 ‘TdBinauralRendererParam6DoF()’(269)은 별도 신택스로 상세히 후술할 예정이다.

또한, isRoomData 필드(270)는, 3DoF 환경에서의 공간 정보(room data) 존재 여부를 지시하는 플래그(flag) 정보이다. 만약, 3DoF 환경에서 공간 정보(room data)가 존재한다면, bsRoomDataFormatID 필드(271)는 3DoF 공간 정보의 표현 유형을 나타낸다. 예를 들어, bsRoomDataFormatID 필드(271)에 의한 공간 정보 유형은, ‘RoomFirData()’(272), ‘FdRoomRendererParam()’(273) 및 ‘TdRoomRendererParam()’(274)로 나누어 진다. 관련하여, 상기 ‘RoomFirData()’(272), ‘FdRoomRendererParam()’(273) 및 ‘TdRoomRendererParam()’(274)은 별도 신택스로 상세히 후술할 예정이다.

또한, bsBinauralDataFormatID 필드(276)는 3DoF 환경에서의 BRIR 셋(set)의 표현 유형을 나타낸다. 예를 들어, bsBimauralDataFormatID 필드(276)에 의한 3DoF 환경에 적용되는 BRIR 셋(set) 유형은, ‘BinauralFirData()’, ‘FdBinauralRendererParam()’ 및 ‘TdBinauralRendererParam()’로 나누어 진다. 단, 상기 3DoF 환경에서의 BRIR 셋(set)에 관련된, 상기 ‘BinauralFirData()’, ‘FdBinauralRendererParam()’ 및 ‘TdBinauralRendererParam()’ 상세 신택스는, 기존 MPEG-H 3D Audio 표준 신택스(syntax)에서 이미 정의하고 있으므로, 본 발명에서는 해당 부분의 상세한 설명은 생략하고자 한다.

도28은 상기 ‘RoomFirData6DoF()’(262) 상세 신택스를 도시한 것이다. bsNumRirCoefs_6DoF 필드는 6DoF RIR의 FIR 필터 계수의 수르 정의한다. 또한, bsFirCoefRoom_6DoF필드는 6DoF RIR의 FIR 필터 계수를 정의한다.

도29는 상기 ‘FdRoomRendererParam6DoF()’(263) 상세 신택스를 도시한 것이다. dInitRir_6DoF필드는 6DoF RIR의 Propagation time 값을 정의한다. kMaxRir_6DoF 필드는 6DoF RIR의 최대 처리 밴드를 정의한다. kConvRir_6DoF필드는 6DoF RIR 컨벌루션(convolution)에 사용된 밴드 수를 정의한다. kAnaRir_6DoF필드는 6DoF RIR의 ‘late reverberation’ 분석에 사용된 분석 밴드수를 정의한다. 또한, 상기 ‘FdRoomRendererParam6DoF()’(263) 신택스내에는, RIR 파라미터로서, ‘VoFFRirParam6DoF()’(2631),’SfrRirParam6DoF()’(2632) 및 ‘QtdlRirParam6DoF()’(2633) 신택스를 포함한다.

도30은 상기 ‘VoFFRirParam6DoF()’(2631) 상세 신택스를 도시한 것이다. nBitNFilterRir_6DoF 필드는 주파수 도메인으로 변환된 6DoF RIR에서 VOFF 분석에 사용되는 nFilter의 bit 수를 정의한다. nBitNFftRir_6DoF 필드는 주파수 도메인으로 변환된 6DoF RIR에서 VOFF 분석에 사용되는 nFft의 bit 수를 정의한다. nBitNBlkRir_6DoF필드는 주파수 도메인으로 변환된 6DoF RIR에서 VOFF 분석에 사용되는 n_block의 bit 수를 정의한다. nFilterRir_6DoF필드는 주파수 도메인으로 변환된 6DoF RIR에서 VOFF에 대한 밴드별 필터 길이를 정의한다. nFftRir_6DoF 필드는 주파수 도메인으로 변환된 6DoF RIR에서 VOFF 분석할 때, 각 밴드에 대한 FFT의 길이는 2의 제곱으로 표현되며, 이 때 nFftRir_6DoF[k]은 지수를 의미한다. 예를 들어, 2^nFftRir ^_6 ^DoF ^[k]는 VOFF에 대한 밴드 별 FFT의 길이를 의미한다. nBlkRir_6DoF필드는 주파수 도메인으로 변환된 6DoF RIR에서 VOFF에 대한 밴드별 block 수를 정의한다. VoffCoeffRirReal_6DoF필드는 주파수 도메인으로 변환된 6DoF RIR의 VOFF 계수의 실수값을 정의한다. VoffCoeffRirImag_6DoF 필드는 주파수 도메인으로 변환된 6DoF RIR의 VOFF 계수의 허수값을 정의한다.

도31은 상기 ’SfrRirParam6DoF()’(2632) 상세 신택스를 도시한 것이다.

fcAnaRir_6DoF필드는 주파수 도메인으로 변환된 6DoF RIR의 late reverberation analysis 밴드의 중심 주파수를 정의한다. rt60Rir_6DoF필드는 주파수 도메인으로 변환된 6DoF RIR의 late reverberation analysis 밴드의 잔향 시간 RT60 (단위: 초)를 정의한다. nrgLrRir_6DoF필드는 주파수 도메인으로 변환된 6DoF RIR의 late reverberation analysis 밴드에서 late reverberation 부분의 에너지를 나타내는 에너지 값 (2의 제곱)을 정의한다.

도32는 상기 ‘QtdlRirParam6DoF()’(2633) 상세 신택스를 도시한 것이다.

nBitQtdlLagRir_6DoF 필드는 주파수 도메인으로 변환된 6DoF RIR의 QTDL 밴드에서 사용된 lag의 비트 수를 정의한다. QtdlGainRirReal_6DoF 필드는 주파수 도메인으로 변환된 6DoF RIR의 QTDL 밴드에서 QTDL gain의 실수 값을 정의한다. QtdlGainRirImag_6DoF필드는 주파수 도메인으로 변환된 6DoF RIR의 QTDL 밴드에서 QTDL gain의 허수 값을 정의한다. QtdlLagRir_6DoF 필드는 주파수 도메인으로 변환된 6DoF RIR의 QTDL 밴드에서 QTDL의 지연 값 (단위: sample)을 정의한다.

도33은 전술한 상기 ‘TdRoomRendererParam()’(264) 상세 신택스를 도시한 것이다.

bsDelayRir_6DoF필드는 출력 신호에 시작 부분에 적용할 sample의 delay를 정의한다. 예를 들어, 파라미터화(Parameterization) 과정에서 제거된 RIR의 propagation delay를 보상하기 위해 사용된다. bsDirectLenRir_6DoF필드는 Parameterization된 6DoF RIR의 direct part의 샘플 크기를 정의한다. bsNbDiffuseBlocksRir_6DoF 필드는 Parameterization된 6DoF RIR의 diffuse part의 block 수를 정의한다. bsFmaxDirectRir_6DoF필드는 ‘0’과 ‘1’사이의 값으로 주어진 6DoF RIR의 Direct part의 cutoff frequency를 정의한다. ‘1’은 Nyquist frequency를 의미한다. bsFmaxDiffuseRir_6DoF필드는 0과 1 사이의 값으로 주어진 6DoF RIR의 Diffuse part의 cutoff frequency를 정의한다. ‘1’은 Nyquist frequency를 의미한다. bsWeightsRir_6DoF필드는 6DoF RIR의 diffuse part를 filtering하기 전에 입력 채널 신호에 적용하는 gain 값을 정의한다. bsFIRDirectRir_6DoF필드는 Parameterization된 6DoF RIR의 direct part의 FIR 계수를 정의한다. bsFIRDiffuseRir_6DoF필드는 Parameterization된 6DoF RIR의 diffuse part의 FIR 계수를 정의한다.

도34은 전술한 상기 ‘BinauralFirData6DoF()’(267) 상세 신택스를 도시한 것이다. bsNumCoefs_6DoF 필드는 6DoF BRIR의 FIR 필터 계수의 수를 정의한다. bsFirCoefLeft_6DoF 필드는 6DoF BRIR의 왼쪽 FIR 필터 계수를 정의한다. bsFirCoefRight_6DoF 필드는 6DoF BRIR의 오른쪽 FIR 필터 계수를 정의한다.

도35는 전술한 상기 ‘FdBinauralRendererParam6DoF()’(268) 상세 신택스를 도시한 것이다. dInit_6DoF필드는 6DoF BRIR의 Propagation time 값을 정의한다. kMax_6DoF필드는 6DoF BRIR의 최대 처리 밴드를 정의한다. kConv_6DoF필드는 6DoF BRIR convolution하는 데에 사용된 밴드 수를 정의한다. kAna_6DoF필드는 6DoF BRIR의 late reverberation 분석에 사용된 analysis band 수를 정의한다. 또한, 상기 FdBinauralRendererParam6DoF()’(268) 신택스내에는, RIR 파라미터로서, ‘VoFFBrirParam6DoF()’(2681),’SfrBrirParam6DoF()’(2682) 및 ‘QtdlBrirParam6DoF()’(2683) 신택스를 포함한다.

도36은 상기 ‘VoffBrirParam6DoF()’(2681) 상세 신택스를 도시한 것이다. nBitNFilter_6DoF 필드는 주파수 도메인으로 변환된 6DoF BRIR에서 VOFF 분석에 사용되는 nFilter의 bit 수를 정의한다. nBitNFft_6DoF 필드는 주파수 도메인으로 변환된 6DoF BRIR에서 VOFF 분석에 사용되는 nFft의 bit 수를 정의한다. nBitNBlk_6DoF 필드는 주파수 도메인으로 변환된 6DoF BRIR에서 VOFF 분석에 사용되는 n_block의 bit 수를 정의한다. nFilter_6DoF 필드는 주파수 도메인으로 변환된 6DoF BRIR에서 VOFF에 대한 밴드별 필터 길이를 정의한다. nFft_6DoF 필드는 주파수 도메인으로 변환된 6DoF BRIR에서 VOFF 분석할 때, 각 밴드에 대한 FFT의 길이는 2의 제곱으로 표현되며, 이 때 nFft_6DoF[k]은 지수를 의미한다. 예를 들어, 2^nFft ^_6 ^DoF ^[k]는 VOFF에 대한 밴드 별 FFT의 길이를 의미한다. nBlk_6DoF 필드는 주파수 도메인으로 변환된 6DoF BRIR에서 VOFF에 대한 밴드별 block 수를 정의한다. VoffCoeffLeftReal_6DoF 필드는 주파수 도메인으로 변환된 6DoF 왼쪽 BRIR의 VOFF 계수의 실수값을 의미한다. VoffCoeffLeftImag_6DoF 필드는 주파수 도메인으로 변환된 6DoF 왼쪽 BRIR의 VOFF 계수의 허수값을 정의한다. VoffCoeffRightReal_6DoF 필드는 주파수 도메인으로 변환된 6DoF 오른쪽 BRIR의 VOFF 계수의 실수값을 정의한다. VoffCoeffRightImag_6DoF 필드는 주파수 도메인으로 변환된 6DoF 오른쪽 BRIR의 VOFF 계수의 허수값을 정의한다.

도37은 상기 ‘SfrBrirParam6DoF()’(2682) 상세 신택스를 도시한 것이다. fcAna_6DoF 필드는 주파수 도메인으로 변환된 6DoF BRIR의 late reverberation analysis 밴드의 중심 주파수를 정의한다. rt60_6DoF 필드는: 주파수 도메인으로 변환된 6DoF BRIR의 late reverberation analysis 밴드의 잔향 시간 RT60 (단위: 초)을 정의한다. nrgLr_6DoF 필드는 주파수 도메인으로 변환된 6DoF BRIR의 late reverberation analysis 밴드에서 late reverberation 부분의 에너지를 나타내는 에너지 값 (2의 제곱)을 정의한다.

도38은 상기 ‘QtdlBrirParam6DoF()’(2683) 상세 신택스를 도시한 것이다. nBitQtdlLag_6DoF 필드는 주파수 도메인으로 변환된 6DoF BRIR의 QTDL 밴드에서 사용된 lag의 비트 수를 정의한다. QtdlGainLeftReal_6DoF 필드는 주파수 도메인으로 변환된 6DoF 왼쪽 BRIR의 QTDL 밴드에서 QTDL gain의 실수 값을 정의한다. QtdlGainLeftImag_6DoF 필드는 주파수 도메인으로 변환된 6DoF 왼쪽 BRIR의 QTDL 밴드에서 QTDL gain의 허수 값을 정의한다. QtdlGainRightReal_6DoF 필드는 주파수 도메인으로 변환된 6DoF 오른쪽 BRIR의 QTDL 밴드에서 QTDL gain의 실수 값을 정의한다. QtdlGainRightImag_6DoF 필드는 주파수 도메인으로 변환된 6DoF 오른쪽 BRIR의 QTDL 밴드에서 QTDL gain의 허수 값을 정의한다. QtdlLagLeft_6DoF 필드는 주파수 도메인으로 변환된 6DoF 6DoF 왼쪽 BRIR의 QTDL 밴드에서 QTDL의 지연 값 (단위: sample)을 정의한다. QtdlLagRight_6DoF 필드는 주파수 도메인으로 변환된 6DoF 6DoF 오른쪽 BRIR의 QTDL 밴드에서 QTDL의 지연 값 (단위: sample)을 정의한다.

도39는 전술한 상기 ‘TdBinauralRendererParam6DoF()’(269) 상세 신택스를 도시한 것이다. bsDelay_6DoF필드는 출력 신호에 시작 부분에 적용할 sample의 delay (Parameterization 과정에서 제거된 BRIR의 propagation delay를 보상하기 위해 사용)를 정의한다. bsDirectLen_6DoF필드는 Parameterization된 6DoF BRIR의 direct part의 샘플 크기를 정의한다. bsNbDiffuseBlocks_6DoF필드는 Parameterization된 6DoF BRIR의 diffuse part의 block 수를 정의한다. bsFmaxDirectLeft_6DoF 필드는 ‘0’과 ‘1’사이의 값으로 주어진 6DoF 왼쪽 BRIR의 Direct part의 cutoff frequency를 정의한다. 예를 들어, ‘1’은 Nyquist frequency를 의미한다. bsFmaxDirectRight_6DoF필드는 ‘0’과 ‘1’사이의 값으로 주어진 6DoF 오른쪽 BRIR의 Direct part의 cutoff frequency를 정의한다. 예를 들어, ‘1’은 Nyquist frequency를 의미한다. bsFmaxDiffuseLeft_6DoF 필드는 ‘0’과 ‘1’ 사이의 값으로 주어진 6DoF 왼쪽 BRIR의 Diffuse part의 cutoff frequency를 정의한다. 예를 들어, ‘1’은 Nyquist frequency를 의미한다. bsFmaxDiffuseRight_6DoF 필드는 ‘0’과 ‘1’ 사이의 값으로 주어진 6DoF 오른쪽 BRIR의 Diffuse part의 cutoff frequency를 정의한다. 예를 들어, ‘1’은 Nyquist frequency를 의미한다. bsWeights_6DoF필드는 6DoF BRIR의 diffuse part를 filtering하기전에 입력 채널 신호에 적용하는 gain 값을 정의한다. bsFIRDirectLeft_6DoF 필드는 Parameterization된 6DoF 왼쪽 BRIR의 direct part의 FIR 계수를 정의한다. bsFIRDirectRight_6DoF 필드는 Parameterization된 6DoF 오른쪽 BRIR의 direct part의 FIR 계수를 정의한다. bsFIRDiffuseLeft_6DoF 필드는 Parameterization된 6DoF 왼쪽 BRIR의 diffuse part의 FIR 계수를 정의한다. bsFIRDiffuseRight_6DoF 필드는 Parameterization된 6DoF 오른쪽 BRIR의 diffuse part의 FIR 계수를 정의한다.

도40은 전술한 상기 ‘RoomFirData()’(272) 상세 신택스를 도시한 것이다. bsNumRirCoefs 필드는 RIR의 FIR 필터 계수의 수를 정의한다. bsFirCoefRir 필드는 RIR의 FIR 필터 계수를 정의한다.

도41은 전술한 상기 ‘FdRoomRendererParam()’(273) 상세 신택스를 도시한 것이다. dInitRir 필드는 RIR의 Propagation time 값을 정의한다. kMaxRir필드는 RIR의 최대 처리 밴드를 정의한다. kConvRir필드는 RIR convolution하는 데에 사용된 밴드 수를 정의한다. kAnaRir 필드는 RIR의 late reverberation 분석에 사용된 analysis band 수를 정의한다. 또한, 상기 ‘FdRoomRendererParam()’(273) 신택스는 ‘VoffRirParam()’(2731), ‘SfrBrirParam()’(2732), 및 ’QtdlBrirParam()’(2733)을 포함한다.

도42는 상기 ‘VoffRirParam()’(2731) 상세 신택스를 도시한 것이다. nBitNFilterRir 필드는 주파수 도메인으로 변환된 RIR에서 VOFF 분석에 사용되는 nFilter의 bit 수를 정의한다. nBitNFftRir필드는 주파수 도메인으로 변환된 RIR에서 VOFF 분석에 사용되는 nFft의 bit 수를 정의한다. nBitNBlkRir필드는 주파수 도메인으로 변환된 RIR에서 VOFF 분석에 사용되는 n_block의 bit 수를 정의한다. nFilterRir 필드는 주파수 도메인으로 변환된 RIR에서 VOFF에 대한 밴드별 필터 길이를 정의한다. nFftRir 필드는 주파수 도메인으로 변환된 RIR에서 VOFF 분석할 때, 각 밴드에 대한 FFT의 길이는 2의 제곱으로 표현되며, 이 때 nFftRir[k]은 지수를 의미한다. 예를 들어, 2^nFftRir ^[k]는 VOFF에 대한 밴드 별 FFT의 길이를 의미한다. nBlkRir 필드는 주파수 도메인으로 변환된 RIR에서 VOFF에 대한 밴드별 block 수를 정의한다. VoffCoeffRirReal 필드는 주파수 도메인으로 변환된 RIR의 VOFF 계수의 실수값을 정의한다. VoffCoeffRirImag 필드는 주파수 도메인으로 변환된 RIR의 VOFF 계수의 허수값을 정의한다.

도43은 상기 ‘SfrBrirParam()’(2732) 상세 신택스를 도시한 것이다. fcAnaRir필드는 주파수 도메인으로 변환된 RIR의 late reverberation analysis 밴드의 중심 주파수를 정의한다. rt60Rir필드는 주파수 도메인으로 변환된 RIR의 late reverberation analysis 밴드의 잔향 시간 RT60 (단위: 초)를 정의한다. nrgLrRir 필드는 주파수 도메인으로 변환된 RIR의 late reverberation analysis 밴드에서 late reverberation 부분의 에너지를 나타내는 에너지 값 (2의 제곱)을 정의한다.

도44은 상기 ’QtdlBrirParam()’(2733) 상세 신택스를 도시한 것이다. nBitQtdlLagRir필든는 주파수 도메인으로 변환된 RIR의 QTDL 밴드에서 사용된 lag의 비트 수를 정의한다. QtdlGainRirReal 필드는 주파수 도메인으로 변환된 RIR의 QTDL 밴드에서 QTDL gain의 실수 값을 정의한다. QtdlGainRirImag 필드는 주파수 도메인으로 변환된 RIR의 QTDL 밴드에서 QTDL gain의 허수 값을 정의한다. QtdlLagRir 필드는 주파수 도메인으로 변환된 RIR의 QTDL 밴드에서 QTDL의 지연 값 (단위: sample)을 정의한다.

도45는 전술한 상기 ‘TdRoomRendererParam()’(274) 상세 신택스를 도시한 것이다. bsDelayRir 필드는 출력 신호에 시작 부분에 적용할 sample의 delay(Parameterization 과정에서 제거된 RIR의 propagation delay를 보상하기 위해 사용)를 정의한다. bsDirectLenRir필드는 Parameterization된 RIR의 direct part의 샘플 크기를 정의한다. bsNbDiffuseBlocksRir필드는 Parameterization된 RIR의 diffuse part의 block 수를 정의한다. bsFmaxDirectRir필드는 ‘0’과 ‘1’사이의 값으로 주어진 RIR의 Direct part의 cutoff frequency를 정의한다. 예를 들어, ‘1’은 Nyquist frequency를 의미한다. bsFmaxDiffuseRir필드는 ‘0’과 ‘1’ 사이의 값으로 주어진 RIR의 Diffuse part의 cutoff frequency를 정의한다.예를 들어, ‘1’은 Nyquist frequency를 의미한다. bsWeightsRir필드는 RIR의 diffuse part를 filtering하기전에 입력 채널 신호에 적용하는 gain 값을 정의한다. bsFIRDirectRir필드는 Parameterization된 RIR의 direct part의 FIR 계수를 정의한다. bsFIRDiffuseRir필드는: Parameterization된 RIR의 diffuse part의 FIR 계수를 정의한다.

도46은 전술한 상기 ‘HRIRGeneration()’(275) 상세 신택스를 도시한 것이다. bsHRIRDataFormatID필드는 HRIR의 표현 유형을 나타낸다. 상기 HRIR의 표현 유형은, ‘HRIRFIRData()’(2751) 및 ‘HRIRModeling()’(2752)를 포함한다.

도47은 상기 ‘HRIRFIRData()’(2751) 상세 신택스를 도시한 것이다. bsNumHRIRCoefs 필드는 HRIR filter의 길이를 의미한다. bsFirHRIRCoefLeft 필드는 왼쪽 귀의 HRIR filter의 계수 값을 나타낸다. bsFirHRIRCoefRight 필드는 오른쪽 귀의 HRIR filter의 계수 값을 나타낸다.

도48은 상기 ‘HRIRModeling()’(2752) 상세 신택스를 도시한 것이다. HeadRadius 필드는 머리 반지름을 의미하며, cm 단위로 나타낸다. PinnaModelIdx 필드는 Pinna model을 모델링 할 때 사용되는 계수들이 정의된 테이블(table)에 대한 인덱스(index)를 의미한다.

도49는 본 발명에 따른, 오디오 인코딩 방법의 흐름도를 도시한 것이다. 또한, 도50은 본 발명에 따른, 상기 도49에 대응하는 오디오 디코딩 방법의 흐름도를 도시한 것이다. 관련하여, 본 발명의 도49 및 도50의 흐름도는 전술한 실시예들중, BRIR(or RIR) 파라미터화 과정 없이 인코딩 및 디코딩을 수행하는 실시예들에 대해 포괄하여 기술한 것이다.

단계 S101은, 측정 혹은 모델링된 BRIR(or RIR)을 생성하는 과정이다.

단계 S102은, 상기 S101단계에서 측정 혹은 모델링된 BRIR(or RIR)을 BRIR(or RIR) 인코더에 입력하여 BRIR(or RIR) 데이터를 생성하는 과정이다.

단계 S103은, 입력 신호를 3D 오디오 인코더에 입력하여 인코딩된 오디오 신호를 생성하는 과정이다.

단계 S104는, 상기 S102 및 S103 단계에서, 각각 생성된 BRIR(or RIR) 데이터 및 인코딩된 오디오 신호를 멀티플랙싱(multiplexing)하여서 비트스트림을 생성하는 과정이다.

또한, 상기 비트스트림을 수신하여 디코딩하는 과정은 다음과 같다.

단계 S201은 수신된 비트스트림을 3D 오디오 디코더에 입력하여 디코딩된 오디오 신호와 오브젝트 메타데이터를 출력하는 과정이다.

단계 S205는 메타데이터 프로세서(Metadata and interface data processing)에서, 상기 오브젝트 메타데이터를 입력받고, 추가적으로 환경 설정 정보(Environment setup information) 및, 사용자 위치 정보(User position information)를 함께 입력받아, 재생 환경 정보를 생성하여 설정하고, 또한, 사용자 인터액션 정보(Element interaction information)를 참조하여 필요시 상기 오브젝트 메타데이터를 수정하는 과정이다.

단계 S202는 랜더러(Renderer)에서, 입력된 상기 디코딩된 오디오 신호 및 재생 환경 정보에 대응하여 랜더링(rendering)하는 과정이다. 특히, 상기 디코딩된 오디오 신호중 오브젝트 신호에 대해서는 상기 오브젝트 메타데이터를 적용하여 랜더링(rendering) 한다.

단계 S203은 랜더러(Renderer) 또는 별도 구비된 믹서(Mixer)에서 상기 랜더링된 신호(Rendered signal)가 두 가지 타입 이상일 경우, 두 타입 신호를 더 하는 과정이다. 상기 과정 외에도 단계 S203 믹싱(mixing) 과정은, 상기 랜더링된 신호(Rendered signal)에 지연(delay) 혹은 게인(gain) 등을 추가적으로 적용시에도 활용된다.

단계 S211은, BRIR(or RIR) 비트스트림을 BRIR(or RIR) 디코더에 입력하여 디코딩된 BRIR(or RIR) 데이터를 출력하는 과정이다.

단계 S212는, 환경 설정 정보(Environment setup information)를 참조하여 재생 환경에 맞는 BRIR(or RIR)을 선택하는 과정이다.

단계 S213은 6DoF 환경 지원여부를 입력 비트스트림 신택스(syntax)로부터 확인하는 과정이다.

단계 S209는, 6DoF 환경인 경우, RIR 데이터가 사용되었는 지 여부를 확인하는 과정이다.

단계 S207은, 상기 단계 S213 및 S209를 통해, 6DoF Mode에서 동작하고 RIR이 사용되었다고 판단되면(S209, ‘y’패스), 사용자 위치 정보를 참조하여 사용자 위치와 가장 근접한 위치에서 측정된 RIR을 추출하는 과정이다.

단계 S206은, 사용자 머리 관련 정보(User head information)와 환경 설정 정보(Environment setup information)를 이용하여, HRIR 모델링을 수행하고, 결과로서 HRIR 데이터를 출력하는 과정이다.

단계 S208은, 상기 모델링된 HRIR 데이터 및 상기 단계 S207에서 추출된 RIR 데이터를 합성(Synthesizing)하여 BRIR을 생성하는 과정이다.

단계 S210은, 상기 단계 S213 및 S209를 통해, 6DoF Mode에서 동작하고 RIR이 사용되지 않는다고 판단되면, 즉 BRIR이 사용된 것으로 판단되면(S209, ‘n’패스), 사용자 위치 정보를 참조하여 사용자 위치와 가장 근접한 위치에서 측정된 BRIR을 추출하는 과정이다.

단계 S214는, 상기 단계 S213을 통해, 6DoF Mode에서 동작하지 않고 RIR이 사용되었다고 판단되면(S214 ‘y’패스), 사용된 RIR을 전술한 단계 S208 (Synthesizing)에 전달하는 과정이다. 상기 단계 S208에 전달된 RIR은 전술한 단계 S206을 통해 생성된 HRIR과 함께 BRIR을 합성에 이용된다. 단, 만약 상기 단계 S213을 통해, 6DoF Mode에서 동작하지 않고 BRIR이 사용되었다고 판단되면(S214 ‘n’패스), 상기 디코딩된 BRIR을 다음 단계 S204로 전달한다. 따라서, 단계 S211에서 상기 BRIR(or RIR) 비트스트림을 디코딩한 이후, 전술한 단계 S208, S210, S214 중 어느 한 단계를 통해 최종 BRIR를 확보하게 된다.

단계 S204는, 상기 확보한 BRIR를 상기 단계 S203 출력 신호에, 필터링하여 바이너럴 랜더링된 오디오 출력 신호(Output signal)을 출력하는 과정이다.

도51은 본 발명에 따른, 오디오 인코딩 방법의 다른 흐름도를 도시한 것이다. 또한, 도52는 본 발명에 따른, 상기 도51에 대응하는 오디오 디코딩 방법의 다른 흐름도를 도시한 것이다. 관련하여, 본 발명의 도51 및 도52의 흐름도는 전술한 실시예들중, BRIR(or RIR) 파라미터화 과정을 포함하여, 인코딩 및 디코딩을 수행하는 실시예들에 대해 포괄하여 기술한 것이다.

단계 S301은 측정 혹은 모델링된 BRIR(or RIR)을 생성하는 과정이다.

단계 S302는 상기 측정 혹은 모델링된 BRIR(or RIR)을 BRIR(or RIR) 파라미터 생성부(parameterization)에 입력하여 BRIR(or RIR) 파라미터들을 추출하는 과정이다.

단계 S303은 상기 S302단계에서 추출된 BRIR(or RIR) 파라미터들을 인코딩하여 인코딩된 BRIR(or RIR) 파라미터 데이터를 생성하는 과정이다.

단계 S304은 입력 신호를 3D 오디오 인코더에 입력하여 인코딩된 오디오 신호를 생성하는 과정이다.

단계 S305는 상기 S303 및 S304 단계에서, 각각 생성된 BRIR(or RIR) 파라미터 데이터 및 인코딩된 오디오 신호를 멀티플랙싱(multiplexing)하여서 비트스트림을 생성하는 과정이다.

단계 S401은 수신된 비트스트림을 3D 오디오 디코더에 입력하여 디코딩된 오디오 신호와 오브젝트 메타데이터를 출력하는 과정이다.

단계 S406은 메타데이터 프로세서(Metadata and interface data processing)에서, 상기 오브젝트 메타데이터를 입력 받고, 추가적으로 환경 설정 정보(Environment setup information) 및 사용자 위치 정보(User position information)를 함께 입력 받아, 재생 환경 정보를 생성하여 설정하고, 또한, 사용자 인터액션 정보(Element interaction information)를 참조하여 필요시 상기 오브젝트 메타데이터를 수정하는 과정이다.

단계 S402는 랜더러(Renderer)에서, 입력된 상기 디코딩된 오디오 신호 및 재생 환경 정보에 대응하여 랜더링(rendering)하는 과정이다. 특히, 상기 디코딩된 오디오 신호중 오브젝트 신호에 대해서는 상기 오브젝트 메타데이터를 적용하여 랜더링(rendering) 한다.

단계 S403은 랜더러(Renderer) 또는 별도 구비된 믹서(Mixer)에서, 상기 랜더링된 신호(Rendered signal)가 두 가지 타입 이상일 경우, 두 타입 신호를 더 하는 과정이다. 상기 과정 외에도 단계 S403 믹싱(mixing) 과정은, 상기 랜더링된 신호(Rendered signal)에 지연(delay) 혹은 게인(gain) 등을 추가적으로 적용시에도 활용된다.

단계 S413은 BRIR(or RIR) 비트스트림을 BRIR(or RIR) 파라미터 디코더에 입력하여 디코딩된 BRIR(or RIR) 파라미터 데이터를 출력하는 과정이다.

단계 S414는 환경 설정 정보(Environment setup information)를 참조하여 재생 환경에 맞는 BRIR(or RIR) 파라미터 데이터를 선택하는 과정이다.

단계 S415은 6DoF 환경 지원여부를 입력 비트스트림 신택스(syntax)로부터 확인하는 과정이다.

단계 S411은 6DoF 환경인 경우, RIR 파라미터 데이터가 사용되었는지 여부를 확인하는 과정이다.

단계 S410은 상기 단계 S415 및 S411을 통해, 6DoF Mode에서 동작하고 RIR파라미터가 사용되었다고 판단되면(S411, ‘y’패스), 사용자 위치 정보를 참조하여 사용자 위치와 가장 근접한 위치에서 측정된 RIR파라미터를 추출하는 과정이다.

단계 S409는 사용자 머리 관련 정보(User head information)와 환경 설정 정보(Environment setup information)를 이용하여, HRIR 모델링을 수행하고, 결과로서 HRIR 데이터를 출력하는 과정이다.

단계 S412는 상기 단계 S415 및 S411을 통해, 6DoF Mode에서 동작하고 RIR이 사용되지 않는다고 판단되면, 즉 BRIR이 사용된 것으로 판단되면(S411, ‘n’패스), 사용자 위치 정보를 참조하여 사용자 위치와 가장 근접한 위치에서 측정된 BRIR파라미터를 추출하는 과정이다.

단계 S416은, 만약 상기 단계 S415를 통해, 6DoF Mode에서 동작하지 않는다고 판단되면(S415 ‘n’패스), RIR 파라미터가 사용되었는지 여부를 확인하는 과정이다.

만약, 상기 단계 S416를 통해 RIR 파라미터가 사용되었다고 판단되면(S416 ‘y’패스), 디코딩된 RIR 파라미터와 상기 단계 S409에서 생성된 HRIR 데이터를 활용하게 된다. 단, 만약 상기 단계 S416를 통해 BRIR 파라미터가 사용되었다고 판단되면(S416 ‘n’패스), 상기 디코딩된 BRIR 파라미터를 그대로 활용하게 된다. 따라서 BRIR(or RIR) 파라미터 데이터를 포함한 비트스트림을 디코딩한 이후, 전술한 단계 S409, S410, S412, S416 단계를 통해 최종 BRIR 파라미터 또는 RIR 파라미터 및 HRIR 데이터를 확보하게 된다.

단계 S404는 상기 단계 S403(mixing) 이후, RIR 파라미터 사용 여부를 확인하는 과정이다.

단계 S407은, 만약, 상기 단계 S404에서 RIR 파라미터 사용된다고 판단되면 (S404 ‘y’패스), 전술한 단계 S409를 통해 생성된 HRIR 데이터를 HRIR 바이너럴 랜더링(HRIR Binaural Rendering ) 하여 랜더링된 신호를 출력하는 과정이다.

단계 S408은, 상기 단계 S407에서 랜더링된 신호에 단계 S410에서 추출된 RIR 파라미터를 합성하여 최종 바이너럴 랜더링된(binaural rendered signal) 오디오 신호(Output signal)를 출력하는 과정이다.

단계 S405는, 만약, 상기 단계 S404에서 RIR 파라미터 사용되지 않는다면, 즉 BRIR 파라미터가 사용된다고 판단되면 (S404 ‘n’패스), 상기 단계 S412 또는 S416에서 생성된 BRIR 파라미터를 활용하여 최종 바이너럴 랜더링된(binaural rendered signal) 오디오 신호(Output signal)를 출력하는 과정이다.

본 발명의 전술한 실시예는, 3차원 오디오를 3DoF 환경 및/또는 6DoF 환경에서 재생하기 위한 다양한 오디오 재생 장치 및 방법을 제안하였다. 또한, 본 발명은 다음과 같은 오디오 재생 과정을 통해서도 구현 가능하다.

입력되는 비트스트림은 디멀티플랙서(De-Multiplexer)에서 오디오 신호와 RIR 데이터로 분리 추출된다. 3D 오디오 디코더는 상기 오디오 데이터를 디코딩하여 디코딩된 오디오 신호 오브젝트 메아데이터를 출력한다. 오브젝트 메타데이터는 메타데이터 프로세서로 입력되고, 재생 환경 정보 및 사용자 인터액션 정보들에 의해 수정된다. 이후, 오브젝트 메타데이터는 디코딩된 오디오 신호와 함께 랜더링 및 믹싱과정을 통해 설정된 재생 환경에 적합한 채널 신호(ch₁,ch₂,…,ch_N)를 출력하게 된다. 상기 디멀티플랙서에서 추출된 RIR 데이터는 RIR 디코딩 및 선택부에 입력되고, 상기 재생 환경 정보를 참조하여 필요한 RIR 들을 디코딩한다. 만약 디코더를 6DoF 환경에서 사용할 경우, 상기 RIR 디코딩 및 선택부에서는 사용자 위치 정보(User position information)도 추가적으로 참조하여 필요한 RIR들만을 디코딩 한다. 또 다른 정보로서, 사용자 머리 관련 정보(User head information)과 재생 환경 정보는 HRIR 모델링부(modeling)에 입력하여 HRIR을 모델링한다. 모델링된 HRIR을 상기 디코딩된 RIR 데이터과 함께 합성(Synthesizing)하여 BRIR을 생성하게 된다. 상기 생성된 BRIR은 바이너럴 랜더러(Binaural Render)에서 바이너럴 랜더링된 2채널 오디오 신호(Left signal, Right signal)을 출력한다. 상기 바이너럴 랜더링된 2채널 오디오 신호는 각각 디지털 아날로그 컨버터(D/A Converter)와 증폭기(Amp)를 통해서 헤드폰의 좌우 트랜듀서(Left transducer, Right transducer)로 재생된다.

전술한 본 발명 실시예들은, 3차원 오디오를 재생하는 다양한 응용분야에 적용 가능하다. 또한, 본 발명 실시예들은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 정보가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예를 들어는, HDD(Hard Dis k Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 정보 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현 되는 것도 포함한다. 또한, 상기 컴퓨터는 오디오 디코더(11, Audio Decoder), 랜더러(12, Renderer), 바이너럴 랜더러(13, Binaural Renderer) 및 메타데이터 프로세서(14, Metadata and Interface data processor)를 전체적으로 또는 일부 구성으로 포함할 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims

수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 디코딩 단계,

상기 수신된 오디오 신호에 RIR(Room Impulse Response) 데이터가 포함된 경우에는 상기 RIR데이터를 디코딩하는, RIR디코딩 단계,

상기 수신된 오디오 신호에 RIR 데이터가 포함된 경우, 사용자 머리 정보(user head info)를 활용하여 HRIR(Head-related impulse response) 데이터를 생성하는, HRIR생성 단계,

상기 디코딩된 RIR 데이터와 모델링된 HRIR 데이터를 합성하여 BRIR(Binaural Room Impulse Response) 데이터를 생성하는, BRIR합성 단계, 및

상기 생성된 BRIR 데이터를 상기 디코딩된 오디오 신호(decoded signal)에 적용하여 바이너럴 랜더링된(binaural rendered signal) 오디오 신호로 출력하는, 바이너럴 랜더링 단계를 포함하는 것을 특징으로 하는 3차원 오디오 재생 방법.
제 1항에 있어서,

스피커 정보(Speaker format info)를 입력 받는 단계를 더 포함하되,

상기 RIR디코딩 단계는, 상기 스피커 정보(Speaker format info)에 대응하는 RIR 데이터 부분을 선택하고, 선택된 RIR 데이터에 대해서만 디코딩하는 것을 특징으로 하는 3차원 오디오 재생 방법.
제 2항에 있어서,

상기 HRIR생성 단계는 상기 사용자 머리 정보(user head info) 및 상기 스피커 정보(Speaker format info)에 대응하는 HRIR 데이터를 모델링하여 생성하는 것을 특징으로 하는 3차원 오디오 재생 방법.
제 2항에 있어서,

상기 HRIR생성 단계는, HRIR 데이터베이스(DB)로부터 대응하는 HRIR 데이터를 선택하여 생성하는 것을 특징으로 하는 3차원 오디오 재생 방법.
제 1항에 있어서,

상기 수신된 오디오 신호내에 포함된 6DoF(Degree of Freedom) 모드 지시 정보(is6DoFMode)를 확인하는 단계, 및

상기 정보(is6DoFMode)로부터, 6DoF가 지원되는 경우, 사용자 위치 정보(user position info) 및 스피커 정보(Speaker format info)를 획득하는 단계를 더 포함하는 것을 특징으로 하는 3차원 오디오 재생 방법.
제 5항에 있어서,

상기 RIR디코딩 단계는, 상기 사용자 위치 정보(user position info) 및 스피커 정보(Speaker format info)에 대응하는RIR 데이터 부분을 선택하고, 선택된 RIR 데이터에 대해서만 디코딩하는 것을 특징으로 하는 3차원 오디오 재생 방법.
수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 디코딩 단계,

상기 수신된 오디오 신호에 RIR(Room Impulse Response) 파라미터가 포함된 경우에는 상기 RIR파라미터를 디코딩하는, RIR디코딩 단계,

상기 수신된 오디오 신호에 RIR 파라미터가 포함된 경우, 사용자 머리 정보(user head info)를 활용하여 HRIR(Head-related impulse response) 데이터를 생성하는, HRIR생성 단계,

상기 생성된 HRIR 데이터를 상기 디코딩된 오디오 신호(decoded signal)에 적용하여 바이너럴 랜더링된(binaural rendered signal) 오디오 신호를 출력하는 랜더링 단계, 및

상기 바이너럴 랜더링된 오디오 신호에 상기 디코딩된 RIR파라미터를 적용하여 공간 특성에 적합한 오디오 신호로 보정하여 출력하는 합성 단계를 포함하는 것을 특징으로 하는 3차원 오디오 재생 방법.
제 7항에 있어서,

상기 수신된 오디오 신호내에 포함된 3DoF(Degree of Freedom) 환경에서의 RIR 파라미터 포함 여부를 지시하는 정보(isRoomData)를 확인하는 단계,

상기 정보(isRoomData)로부터, 3DoF 환경에서 제공되는 RIR 파라미터 유형을 지시하는 정보(bsRoomDataFormatID)를 확인하는 단계, 및

상기 정보(bsRoomDataFormatID)에 대응하는, RIR 파라미터 신택스로서, 적어도 ‘RoomFirData()’ 신택스, ‘FdRoomRendererParam()’ 신택스 또는 ‘TdRoomRendererParam()’ 신택스 중 하나 이상을 획득하는 단계를 더 포함하는 것을 특징으로 하는 3차원 오디오 재생 방법.
제 7항에 있어서,

상기 수신된 오디오 신호내에 포함된 6DoF(Degree of Freedom) 환경에서의 RIR 파라미터 포함 여부를 지시하는 정보(is6DoFRoomData)를 확인하는 단계,

상기 정보(is6DoFRoomData)로부터, 6DoF 환경에서 제공되는 RIR 파라미터 유형을 지시하는 정보(bs6DoFRoomDataFormatID)를 확인하는 단계, 및

상기 정보(bs6DoFRoomDataFormatID)에 대응하는, RIR 파라미터 신택스로서, 적어도 ‘RoomFirData6DoF()’ 신택스, ‘FdRoomRendererParam6DoF()’ 신택스 또는 ‘TdRoomRendererParam6DoF()’ 신택스 중 하나 이상을 획득하는 단계를 더 포함하는 것을 특징으로 하는 3차원 오디오 재생 방법.
수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 오디오 디코더,

상기 수신된 오디오 신호에 RIR(Room Impulse Response) 데이터가 포함된 경우에는 상기 RIR데이터를 디코딩하는, RIR디코더,

상기 수신된 오디오 신호에 RIR 데이터가 포함된 경우, 사용자 머리 정보(user head info)를 활용하여 HRIR(Head-related impulse response) 데이터를 생성하는, HRIR생성부,

상기 디코딩된 RIR 데이터와 모델링된 HRIR 데이터를 합성하여 BRIR(Binaural Room Impulse Response) 데이터를 생성하는, BRIR합성부, 및

상기 생성된 BRIR 데이터를 상기 디코딩된 오디오 신호(decoded signal)에 적용하여 바이너럴 랜더링된(binaural rendered signal) 오디오 신호로 출력하는, 바이너럴 랜더러를 포함하는 것을 특징으로 하는 3차원 오디오 재생 장치.
제 10항에 있어서,

상기 RIR디코더는, 스피커 정보(Speaker format info)를 입력 받아, 상기 스피커 정보(Speaker format info)에 대응하는 RIR 데이터 부분을 선택하고, 선택된 RIR 데이터에 대해서만 디코딩하는 것을 특징으로 하는 3차원 오디오 재생 장치.
제 11항에 있어서,

상기 HRIR생성부는 상기 사용자 머리 정보(user head info) 및 상기 스피커 정보(Speaker format info)에 대응하는 HRIR 데이터를 모델링하여 생성하는 HRIR 모델링부를 포함하는 것을 특징으로 하는 3차원 오디오 재생 장치.
제 11항에 있어서,

상기 HRIR생성부는, HRIR 데이터베이스(DB)로부터 대응하는 HRIR 데이터를 선택하여 생성하는 HRIR 선택부를 포함하는 것을 특징으로 하는 3차원 오디오 재생 장치.
제 10항에 있어서,

상기 RIR디코더는, 상기 수신된 오디오 신호내에 포함된 6DoF(Degree of Freedom) 모드 지시 정보(is6DoFMode)를 확인하고, 상기 정보(is6DoFMode)로부터, 6DoF가 지원되는 경우, 사용자 위치 정보(user position info) 및 스피커 정보(Speaker format info)를 획득하는 것을 특징으로 하는 3차원 오디오 재생 장치.
제 14항에 있어서,

상기 RIR디코더는, 상기 사용자 위치 정보(user position info) 및 스피커 정보(Speaker format info)에 대응하는RIR 데이터 부분을 선택하고, 선택된 RIR 데이터에 대해서만 디코딩하는 것을 특징으로 하는 3차원 오디오 재생 장치.
수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 오디오 디코더,

상기 수신된 오디오 신호에 RIR(Room Impulse Response) 파라미터가 포함된 경우에는 상기 RIR파라미터를 디코딩하는, RIR디코더,

상기 수신된 오디오 신호에 RIR 파라미터가 포함된 경우, 사용자 머리 정보(user head info)를 활용하여 HRIR(Head-related impulse response) 데이터를 생성하는, HRIR생성부,

상기 생성된 HRIR 데이터를 상기 디코딩된 오디오 신호(decoded signal)에 적용하여 바이너럴 랜더링된(binaural rendered signal) 오디오 신호를 출력하는 바이너럴 랜더러, 및

상기 바이너럴 랜더링된 오디오 신호에 상기 디코딩된 RIR파라미터를 적용하여 공간 특성에 적합한 오디오 신호로 보정하여 출력하는 합성부를 포함하는 것을 특징으로 하는 3차원 오디오 재생 장치.
제 16항에 있어서,

상기 RIR디코더는, 상기 수신된 오디오 신호내에 포함된 3DoF(Degree of Freedom) 환경에서의 RIR 파라미터 포함 여부를 지시하는 정보(isRoomData)를 확인하고, 상기 정보(isRoomData)로부터, 3DoF 환경에서 제공되는 RIR 파라미터 유형을 지시하는 정보(bsRoomDataFormatID)를 확인하고, 상기 정보(bsRoomDataFormatID)에 대응하는, RIR 파라미터 신택스로서, 적어도 ‘RoomFirData()’ 신택스, ‘FdRoomRendererParam()’ 신택스 또는 ‘TdRoomRendererParam()’ 신택스 중 하나 이상을 획득하는 것을 특징으로 하는 3차원 오디오 재생 장치.
제 16항에 있어서,

상기 RIR디코더는, 상기 수신된 오디오 신호내에 포함된 6DoF(Degree of Freedom) 환경에서의 RIR 파라미터 포함 여부를 지시하는 정보(is6DoFRoomData)를 확인하고, 상기 정보(is6DoFRoomData)로부터, 6DoF 환경에서 제공되는 RIR 파라미터 유형을 지시하는 정보(bs6DoFRoomDataFormatID)를 확인하고, 상기 정보(bs6DoFRoomDataFormatID)에 대응하는, RIR 파라미터 신택스로서, 적어도 ‘RoomFirData6DoF()’ 신택스, ‘FdRoomRendererParam6DoF()’ 신택스 또는 ‘TdRoomRendererParam6DoF()’ 신택스 중 하나 이상을 획득하는 것을 특징으로 하는 3차원 오디오 재생 장치.