WO2019004524A1

WO2019004524A1 - 6자유도 환경에서 오디오 재생 방법 및 오디오 재생 장치

Info

Publication number: WO2019004524A1
Application number: PCT/KR2017/012875
Authority: WO
Inventors: 이동금; 오세진
Original assignee: 엘지전자 주식회사
Priority date: 2017-06-27
Filing date: 2017-11-14
Publication date: 2019-01-03
Also published as: US20200162833A1; US11089425B2

Abstract

본 발명은 6DoF 환경에서 오디오 재생 방법 및 오디오 재생 장치에 관한 것이다. 본 발명의 오디오 재생 방법은, 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 디코딩 단계, 사용자 위치 정보 (user position information)을 입력 받아, 사용자의 위치가 이전 위치에서 변경 되었는지 여부를 확인하고, 상기 사용자 위치가 변경된 경우 변경된 사용자 위치에 대응하도록 바이너럴(binaural) 랜더링 데이터를 모델링하는 모델링 단계, 및 상기 모델링된 랜더링 데이터를 이용하여, 상기 디코딩된 오디오 신호(decoded signal)을 바이너럴 랜더링(binaural rendering)하여 2채널 오디오 신호로 출력하는 랜더링 단계를 포함하는 것을 특징으로 한다. 본 발명의 실시예에 따른, 6DoF 환경에서 오디오 재생 방법 및 장치를 통해, 사용자의 위치 변화 정보를 활용함에 따라, 사용자의 위치에 따라 음원의 크기 및 깊이감도 함께 변화시켜줌으로, 입체감 및 현장감 있는 오디오 신호를 재생하는 것이 가능하게 된다.

Description

6자유도 환경에서 오디오 재생 방법 및 오디오 재생 장치

본 발명은 오디오 재생 방법 및 이를 활용한 오디오 재생 장치에 관한 것이다. 특히 본 발명은 6자유도(6DoF) 환경에서 3차원 오디오 신호를 재생하는 오디오 재생 방법 및 오디오 재생 장치에 관한 것이다.

최근 IT기술의 발전에 따라 다양한 스마트 기기가 개발되고 있다. 특히 이러한 스마트 기기는 다양한 효과를 가지는 오디오 출력을 기본으로 제공한다. 특히, 가상 현실(Virtual Reality) 환경 또는 3차원 오디오 환경에서, 더욱 현실감 있는 오디오 출력을 위한, 다양한 방법이 시도되고 있다. 관련하여, 새로운 오디오 코딩 국제표준 기술로 MPEG-H가 개발되고 있다. MPEG-H는, 초고해상도 대화면 디스플레이 (예, 100인치 이상)와 초다채널 오디오 시스템 (예, 10.2 채널 또는 22.2 채널 등)을 이용한 실감 몰입형(immersive) 멀티미디어 서비스를 위한 새로운 국제 표준화 프로젝트이다. 특히, 상기 MPEG-H표준화 프로젝트내에는 초다채널 오디오 시스템 구현을 위한 노력으로 “MPEG-H 3D Audio AhG (Adhoc Group)” 이름의 서브 그룹이 설립되어 활동 중이다.

MPEG-H 3D Audio부호화/복호화 기기는 멀티 채널 스피커 시스템을 이용하여 청취자에게 실감형 오디오를 제공한다. 또한, 헤드폰 환경에서는 현실감 높은 3차원 오디오 효과를 제공한다. 이러한 특징으로 인해 MPEG-H 3D Audio 디코더는 VR 오디오 표준으로 고려되고 있다.

3차원 오디오(3D audio)는 기본적으로 사용자에게 음원이 사용자의 머릿속이 아닌 3차원 공간에서 재생되는 것과 같은 느낌을 제공하며, 시간 변화 및 사용자가 바라보는 시점에 맞춰 정위되는 음원의 위치도 함께 변화하여 현실감 있는 소리를 전달한다.

관련하여, 현존하는 3D 오디오 부호화/복호화 기기는 대부분 3자유도 (이를 '3DoF(Degrees of freedom)' 로 명명한다) 까지만 지원한다. 자유도(DoF)는, 예를 들어, 임의 공간에서 머리의 움직임이 정확히 추적되면, 그 순간 사용자의 자세 또는 위치에 가장 적합한 비주얼(visual)과 사운드(sound)를 제공할 수 있게 되는 바, 이러한 움직임(motion)은 움직임이 가능한 자유도(DoF)에 따라 3자유도(3DoF) 또는 6자유도(6DoF)로 나누어 진다. 예를 들어, 3DoF는 사용자가 움직이지 않고, 고정된 위치에서 머리를 회전하는 것 같이, X,Y,Z축의 운동이 가능한 것을 의미한다. 반면, 6DoF는 상기 X,Y,Z축을 중심으로 회전하는 것에 더해서, X,Y,Z축을 따라 이동하는 것이 가능해진다는 의미이다. 따라서 3DoF로는 사용자의 위치 움직임을 반영하지 못해 더욱 현장감 있는 소리를 제공하기 어렵게 된다. 따라서 본 발명에서는 3D 오디오 부호화/복호화 기기에 공간 모델링 방법을 적용하여 6DoF 환경에서 사용자의 위치 변화에 대응하여 오디오를 랜더링(rendering)시켜주는 방법을 제안한다.

또한, 일반적으로 통신 환경에서는 대역폭의 효율을 극대화시키기 위해 비디오 신호에 비해 용량이 훨씬 더 적은 오디오 신호도 부호화시킨다. 최근 관심이 커지고 있는 VR 오디오 컨텐츠(contents)를 구현하고 경험할 수 있는 기술들이 많이 개발되고 있으나, 해당 컨텐츠를 효율적으로 부호화/복호화 할 수 있는 기기 개발은 부족한 편이다. 관련하여, 최근 3차원 오디오 효과를 제공할 수 있는 부호화/복호화 기기로는 MPEG-H 3D Audio가 개발되고 있으나, 상기 3DoF 환경인 경우에만 사용이 가능하도록 제한되어 있는 문제점이 있다.

최근 3D audio 부호화/복호화 기기에서는 헤드폰을 통해 3차원 오디오를 경험할 수 있도록 바이너럴 랜더러(binaural renderer)가 사용된다. 하지만 상기 바이너럴 랜더러(binaural renderer)에 입력으로 사용되는 BRIR(Binaural Room Impulse Response) 데이터는 고정된 위치에서 측정된 응답이므로 3DoF 환경에서만 유효하다. 뿐만 아니라, VR 환경을 구축하기 위해서는 매우 다양한 환경에 대한 BRIR이 필요하지만, 모든 환경에 대한 BRIR을 데이터베이스(DB)로 확보하는 것도 불가능하다. 따라서 본 발명에서는 3D 오디오 부호화/복호화 기기에 공간 정보를 제공함으로써 의도한 공간 응답을 모델링할 수 있는 기능을 추가한다. 나아가 사용자의 위치 정보도 동시에 수신함으로써 실시간으로 사용자의 위치에 맞춰서 모델링된 응답을 랜더링(rendering)하여 3D 오디오 부호화/복호화 기기를 6DoF 환경에서도 사용 가능한 오디오 재생 방법 및 재생 장치를 제안한다.

본 발명의 목적은, 6DoF 환경에서 3차원 오디오 신호를 재생하는 오디오 재생 방법 및 오디오 재생 장치를 제공하는 데 있다.

또한, 본 발명의 목적은, 6DoF 환경에서 3차원 오디오 신호를 재생하기 위해, RIR, HRIR 및 BRIR 데이터를 모델링하고, 상기 모델링된 데이터를 이용한 오디오 재생 방법 및 오디오 재생 장치를 제공하는 데 있다.

또한, 본 발명의 목적은, 6DoF 환경에서 3차원 오디오 신호를 재생하는 MPEG-H 3D 오디오 재생 장치를 제공하는 데 있다.

본 발명의 실시예에 따른, 6DoF 환경에서 오디오 재생 방법은, 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 디코딩 단계, 사용자 위치 정보 (user position information)을 입력 받아, 사용자의 위치가 이전 위치에서 변경 되었는지 여부를 확인하고, 상기 사용자 위치가 변경된 경우 변경된 사용자 위치에 대응하도록 바이너럴(binaural) 랜더링 데이터를 모델링하는 모델링 단계, 및 상기 모델링된 랜더링 데이터를 이용하여, 상기 디코딩된 오디오 신호(decoded signal)을 바이너럴 랜더링(binaural rendering)하여 2채널 오디오 신호로 출력하는 랜더링 단계를 포함하는 것을 특징으로 한다.

또한, 상기 모델링 단계는, 공간 특성 정보(room characterization info)를 더 입력 받아, RIR 데이터를 모델링하는 제1모델링 단계, 및 사용자 머리 정보(user head info)를 더 입력 받아, HRIR 데이터를 모델링하는 제2모델링 단계를 더 포함하는 것을 특징으로 한다.

또한, 상기 모델링 단계는, 상기 제2모델링된 HRIR 데이터를, 상기 변경된 사용자 위치에 근거하여 게인(gain)을 조정하는 거리 보상 단계를 더 포함하는 것을 특징으로 한다.

또한, 상기 모델링 단계는, 상기 거리 보상된 HRIR 데이터 및 상기 제1모델링된 RIR 데이터를 합성하여, 변경된 사용자 위치에 대응하는 BRIR 데이터를 생성하는 BRIR합성 단계를 더 포함하는 것을 특징으로 한다.

또한, 본 발명의 오디오 재생 방법은, 상기 사용자 위치 정보(user position information)을 입력 받아, 변경된 사용자 위치에 대응하도록 상기 메타데이터(metadata)를 조정(adjust)하는 메타데이터 프로세싱(processing) 단계를 더 포함하는 것을 특징으로 한다.

또한, 상기 메타데이터 프로세싱(processing) 단계는, 변경된 사용자 위치에 대응하도록 적어도 스피커 위치 정보(speaker layout info), 줌 영역(zoom area) 및 오디오 씬(audio scene)중 어느 하나를 조정(adjust)하는 것을 특징으로 한다.

또한, 본 발명의 오디오 재생 방법은, 상기 사용자 위치 정보(user position information)는, 사용자 위치가 변경되었음을 알려주는 인디게이터(indicator) 플래그(isUserPosChange) 정보 및 변경된 사용자 위치에 대응하는 방위각(azimuth), 고도각(elevation) 및 거리(distance) 정보 중 적어도 어느 하나를 포함하는 것을 특징으로 한다.

또한, 본 발명의 오디오 재생 방법은, 6DoF 환경 지원 여부를 지시하는 인디게이터 플래그(is6DoFMode) 정보를 더 입력 받고, 상기 인디게이터 플래그(is6DoFMode) 정보가 6DoF환경을 지원하는 경우, 상기 사용자 위치 정보(user position information)를 입력 받는 것을 특징으로 한다.

본 발명에 따른 6DoF 환경에서 오디오 재생 장치는, 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 오디오 디코더, 사용자 위치 정보 (user position information)을 입력 받아, 사용자의 위치가 이전 위치에서 변경 되었는지 여부를 확인하고, 상기 사용자 위치가 변경된 경우 변경된 사용자 위치에 대응하도록 바이너럴(binaural) 랜더링 데이터를 모델링하는 모델링부, 및 상기 모델링된 랜더링 데이터를 이용하여, 상기 디코딩된 오디오 신호(decoded signal)을 바이너럴 랜더링(binaural rendering)하여 2채널 오디오 신호로 출력하는 바이너럴 랜더러(Binaural render)를 포함하는 것을 특징으로 한다.

또한, 상기 모델링부는, 공간 특성 정보(room characterization info)를 더 입력 받아, RIR 데이터를 모델링하는 제1모델링부, 및 사용자 머리 정보(user head info)를 더 입력 받아, HRIR 데이터를 모델링하는 제2모델링부를 더 포함하는 것을 특징으로 한다.

또한, 상기 모델링부는, 상기 제2모델링된 HRIR 데이터를, 상기 변경된 사용자 위치에 근거하여 게인(gain)을 조정하는 거리 보상부를 더 포함하는 것을 특징으로 한다.

또한, 상기 모델링부는, 상기 거리 보상된 HRIR 데이터 및 상기 제1모델링된 RIR 데이터를 합성하여, 변경된 사용자 위치에 대응하는 BRIR 데이터를 생성하는 BRIR합성부를 더 포함하는 것을 특징으로 한다.

또한, 본 발명의 오디오 재생 장치는, 상기 사용자 위치 정보(user position information)을 입력 받아, 변경된 사용자 위치에 대응하도록 상기 메타데이터(metadata)를 조정(adjust)하는 메타데이터 프로세서(processor)를 더 포함하는 것을 특징으로 한다.

또한, 상기 메타데이터 프로세서는, 변경된 사용자 위치에 대응하도록 적어도 스피커 위치 정보(speaker layout info), 줌 영역(zoom area) 및 오디오 씬(audio scene)중 어느 하나를 조정(adjust)하는 것을 특징으로 한다.

또한, 본 발명의 오디오 재생 장치는,상기 사용자 위치 정보(user position information)는, 사용자 위치가 변경되었음을 알려주는 인디게이터(indicator) 플래그(isUserPosChange) 정보 및 변경된 사용자 위치에 대응하는 방위각(azimuth), 고도각(elevation) 및 거리(distance) 정보 중 적어도 어느 하나를 포함하는 것을 특징으로 한다.

또한, 본 발명의 오디오 재생 장치는, 6DoF 환경 지원 여부를 지시하는 인디게이터 플래그(is6DoFMode) 정보를 더 입력 받고, 상기 인디게이터 플래그(is6DoFMode) 정보가 6DoF환경을 지원하는 경우, 상기 사용자 위치 정보(user position information)를 입력 받는 것을 특징으로 한다.

[발명의 효과]

본 발명의 실시예에 따른, 6DoF 환경에서 오디오 재생 방법 및 장치를 통해, 다음과 같은 효과가 있다.

첫째, 6DoF 환경에 적용하기 위해, 사용자의 위치 변화 정보를 활용함에 따라, 사용자의 위치에 따라 음원의 크기 및 깊이감도 함께 변화시켜줌으로, 입체감 및 현장감 있는 오디오 신호를 제공하는 것이 가능하게 된다.

둘째, 6DoF환경에 적용되는, 공간 모델링 방법을 추가하여, 사용자로 하여금 위치를 자유롭게 이동하더라도, VR 컨텐츠를 즐길 수 있는 환경을 제공하는 것이 가능하게 된다.

셋째. 차세대 몰입형 3차원 오디오 부호화 기술로 MPEG-H 3D Audio 구현상의 효율을 높일 수 있다. 즉, 게임 또는 가상현실(VR) 공간 등 다양한 오디오 응용 분야에서, 수시로 변화되는 오디오 오브젝트 신호에 대응하여, 자연스럽고 현실감 있는 효과를 제공하는 것이 가능하게 된다.

도1은 본 발명에 따른, 오디오 재생 장치를 도시한 것이다.

도2는 본 발명에 따른, 오디오 재생 방법을 흐름도로 도시한 것이다.

도3은 본 발명의 오디오 재생 장치를 구현하는 실시예를 도시한 것이다.

도4는 본 발명의 실시예에 따른, 상기 오디오 재생 장치내 메타데이터 프로세서의 또 다른 실시예를 설명하기 위해 도시한 것이다.

도5~도12는 본 발명의 실시예에 따른, 상기 오디오 재생 장치내 랜더링 데이터 모델링 방법을 설명하기 위해 도시한 것이다.

도13~도23는 본 발명의 실시예에 따른, 오디오 재생 방법 및 장치에 활용되는 신택스(syntax) 구조를 설명하기 위해 도시한 것이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 동일하거나 유사한 구성요소에는 동일한 도면 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈", "부" 및 "수단"은 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 또한, 본 발명은 설명의 편의를 위해, 일부 용어를 국문 및 영문을 혼용하여 사용하였으나, 사용된 용어의 의미는 동일함을 밝혀두고자 한다.

도1은 본 발명에 따른, 오디오 재생 장치를 도시한 것이다. 본 발명 도1의 오디오 재생 장치는, 오디오 디코더(101, Audio Decoder), 랜더러(102, Renderer), 믹서(103, Mixer), 바이너럴 랜더러(104, Binaural Renderer), 메타데이터 프로세서(105, Metadata and Interface data processor) 및 랜더링 데이터 모델링부(106)를 포함한다. 도한, 상기 랜더링 데이터 모델링부(106)는, RIR 데이터(1061a)를 생성하기 위한 제1모델링부(1061, Environmental modeling), HRIR 데이터(1061b)를 생성하기 위한 제2 모델링부(1062, HRIR Modeling) 및 상기 RIR 데이터(1061a) 및 HRIR 데이터(1062a)를 합성하여 BRIR 데이터(1063a)를 합성하기 위한 합성부(1063, synthesizing)를 포함한다. 이하 본 발명의 오디오 재생 장치를 상세히 설명하면 다음과 같다.

우선, 상기 오디오 디코더(101)는, 오디오 신호 (예를 들어, 오디오 Bitstream)를 입력받아, 디코딩된 오디오 신호(101a, decoded signal)과 메타데이터(101b, Metadata)를 생성한다. 상기 Metadata 정보(101b)는 상기 메타데이터 프로세서(105)에 전달되고, 상기 메타데이터 프로세서(105)는, 외부에서 추가적으로 입력되는 재생 환경 정보(107, Environment setup info) 및 사용자 인터액션 정보(108, User interaction data)과 조합되어 최종 재생 환경을 설정하여 설정된 재생 환경 정보(105a, Playback environment information)를 상기 랜더러(102)로 출력한다. 관련하여, 상기 메타데이터 프로세서(105)의 상세 동작에 대해서는 후술할 도4를 참조하여 상세히 설명할 예정이다,

상기 랜더러(102)는 상기 재생 환경 정보(105a)를 참조하여 사용자가 설정된 스피커(speaker) 환경에 맞도록 입력되는 디코딩된 신호(101a, decoded signal)에 적용하여 랜더링하고, 랜더링된 신호(102a, rendered signal)을 출력한다. 상기 랜더링된 신호(102a)는 필요시 믹서(103, Mixer)단에서 게인(gain) 및 지연(delay) 보정을 거쳐서 최종 채널(channel) 신호(103a)로 출력되고, 상기 출력된 채널 신호(103a)는 상기 바이너럴 랜더러(104)에서 BRIR(1063a)에 필터링 되어서 서라운드(surround) 2채널 바이너럴 랜더링된 신호(104a, 104b)를 출력한다.

상기 BRIR(1063a)은 사용자 머리 정보(111, User head info)를 통해 모델링된 HRIR(1062a)과 사용자 위치 정보(109, User position info) 및 공간 특성 정보(110, Room characterization info)를 통해서 모델링된 RIR(1061a)이 합성되어서 생성된다. 따라서, 만약 상기 사용자 위치 정보(109, User position info)가 변경되면, 상기 제1 모델링부(1061, Environment modeling)에서 사용자의 새로운 위치를 기준으로 RIR을 다시 모델링하고, 상기 새로 모델링된 RIR에 의해 변경된 BRIR이 생성된다. 상기 변경된 BRIR은 상기 바이너럴 랜더러(104)로 입력되어 입력 오디오 신호를 최종 랜더링하여, 2채널 바이너럴 랜더링된 신호(104a, 104b)로 출력한다.

도2는 본 발명에 따른, 상기 오디오 재생 장치에서의 오디오 재생 방법을 흐름도로 도시한 것이다.

단계 S101은, 입력 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(101a, decoded signal)과 메타데이터(101b, Metadata)로 출력하는 과정이다.

단계 S102는, 입력된 디코딩된 오디오 신호(101a)을 상기 재생 환경 정보(105a)에 근거하여, 랜더링하는 과정이다. 관련하여, 특히 상기 디코딩된 오디오 신호(101a) 중 오브젝트(object) 신호에 대해서는 후술할 단계 S105를 통해 수정된 메타데이터를 적용하여 랜더링하게 된다.

단계 S103은, 선택적 과정으로서, 상기, 랜더링된 신호(102a rendered signal)에 두 가지 타입 이상일 경우, 두 타입 신호를 믹싱(mixing)하는 과정이다. 또한, 필요시 상기 랜더링된 신호(102a)에 게인(gain) 및 지연(delay) 보정을 거쳐서 최종 채널(channel) 신호를 를 출력하게 된다.

단계 S104는, 랜더링된 신호(102a) 또는 단계 S103의 출력신호를, 생성된 BRIR(1063a)에 필터링해서 서라운드 2채널 바이너럴 오디오 신호를 출력하는 과정이다.

관련하여, 상기 BRIR(1063a)를 생성하는 세부 과정을 설명하면 다음과 같다. 단계 S105는, 단계 S101로부터 상기 메타데이터(101b)를 입력받고, 또한, 환경 설정 정보(107, Environment setup information) 및 사용자 위치 정보 (109, User position information)을 입력받아, 오디오 재생 환경을 설정하여 재생 환경 정보(105a)를 출력한다, 또한, 단계 S105는, 사용자 인터액션 정보(108, User interaction data)를 참조하여서 필요시 상기 입력된 메타데이터(101b)를 수정하여 출력할 수 있다.

단계 106은, 상기 사용자 위치 정보 (109, User position information) 및 공간 특성 정보(110, Room characterization info)를 입력받아, 모델링된 RIR(1061a)을 출력한다.

단계 S107은, 만약 단계 S105에서 수신된 상기 사용자 위치 정보 (109)가 이전에 수신된 사용자 위치 정보로부터 변경 되었는 지 여부를 확인하는 과정이다. 만약, 수신된 상기 사용자 위치 정보 (109)가 이전에 수신된 사용자 위치 정보와 상이한 경우( y 패스), 새로운 수신된 사용자 위치 정보 (109)를 기반으로 상기 단계 S106에서 RIR을 다시 모델링하여 출력하게 된다.

단계 S108은, 사용자 머리 정보(111, User head info)를 입력받아 HRIR 모델링을 통해 모델링된 HRIR을 출력하는 과정이다.

단계 S109는, 상기 단계 S106에서 모델링된 RIR과 상기 단계 S108에서 모델링된 HRIR을 합성하여 BRIR을 생성하는 과정이다. 상기 생성된 BRIR 정보는 전술한 단계 S104에서 2채널 바이너럴 오디오 신호를 랜더링하기 위해 활용된다.

도3은 본 발명의 오디오 재생 장치를 구현하는 다른 실시예를 도시한 것이다. 특히, 도3은 본 발명의 실시예에 따른, MPEG-H 3D Audio 부호화기 기반의 6DoF의 3D audio를 구현하기 위한 오디오 재생 장치를 예를 들어 도시한 것이다. 본 발명 도3의 오디오 재생 장치는, 오디오 디코더(201, MPEG-H 3D Audio Core Decoder), 랜더러(202, Renderer), 바이너럴 랜더러(203, Binaural Renderer), 메타데이터 프로세서(204, Metadata and Interface data processor) 및 랜더링 데이터 모델링부(205)를 포함한다.

이하 본 발명 도3의 실시예에 따른 MPEG-H 3D Audio 재생 장치를 상세히 설명하면 다음과 같다.

상기 오디오 디코더(201)는 오디오 비트스트림을 입력 받는다. 상기 오디오 비트스트림은 MPEG-H 3D 오디오 포맷에 근거하여 송신단(미도시)에서 입력된 오디오 신호를 인코딩(encoding) 및 비트-팩킹(bit-packing)하여 생성되어 진다. 관련하여, MPEG-H 3D 오디오 비트스트림 생성시, 오디오 신호 타입은 채널 신호, 오브젝트 신호 혹은 장면 기반의 HOA(High Order Ambisonic) 신호일 수 있다. 또는 상기 오브젝트 신호와 다른 신호가 조합으로 이루어 입력될 수 있다 (예를 들어, '채널 신호+오브젝트 신호' , 'HOA 신호+오브젝트 신호' , 등). 송신단(미도시)에서 상기 과정을 통해 생성된 오디오 비트스트림은 상기 오디오 디코더(201, MPEG-H 3D Audio Core decoder)로 입력되어 디코딩된 신호(201a, Decoded signal) 를 출력하게 된다. 출력되는 디코딩된 신호(201a, Decoded signal)들은 송신단에서 입력되었던 모든 신호들이며, 송신단에서 인코딩된 신호 타입의 순서대로 디코딩된 신호(201a)로 출력된다. 만약 오디오 신호 중에 오브젝트 신호도 포함되어 있다면, 상기 디코딩된 신호(201a, Decoded signal)을 출력할 때 오브젝트 관련된 오브젝트 메타데이터(201b, Object metadata) 정보도 함께 출력된다.

다음, 상기 디코딩된 신호(201a, Decoded signal) 들은 상기 랜더러(202, Renderer)로 전달되고 함께 출력되었던 오브젝트 메타데이터(201b) 정보는 상기 메타데이터 프로세서(204)로 전달된다.

상기 메타데이터 프로세서(204)는, 상기 오브젝트 메타데이터(201b)를, 외부에서 추가적으로 입력되는 설정 가능한 정보와 조합되어 최종 출력 신호의 특성을 변경시킬 수 있다. 상기 외부에서 추가적으로 설정 가능한 정보는, 크게 재생 환경 설정 정보(206, environment setup info) 및 사용자 인터액션 정보(207, user interaction data)가 있다. 상기 재생 환경 설정 정보는 사용자가 청취하는 오디오의 재생 환경에 관한 정보로써, 예를 들어, 스피커 또는 헤드폰으로의 출력 여부를 지시하는 랜더링 타입(206a, Rendering type) 정보, 헤드 트랙킹(Head tracking) 사용 여부를 지시하는 트래킹 모드(206b, Tracking mode), 오디오 장면 변화여부를 지시하는 장면 전환 정보(206c, Scene displacement info.), 외부 연결 장치를 지시하는 정보(206d, WIRE output setup), 오디오와 연동된 비디오 로컬 화면 크기 정보(206e, Local screen size info.) 및 사용된 스피커의 위치를 지시하는 정보(206f, local speaker layout)를 포함할 수 있다.

또한, 상기 사용자 인터액션 정보(207)는, 오디오 재생 중에 사용자 의도를 부여하는 정보들로, 예를 들어, 사용자가 오브젝트 신호의 특성(위치 및 크기) 변화를 지시하는 정보로서 인터액션 모드(207a, Interaction mode)와 인터액션 데이터(207b, Interaction data info.) 및 비디오 화면 및 오브젝트 간의 연동을 지시하는 정보(207c, Zoom area info.)를 포함할 수 있다.

또한, 메타데이터 프로세서(204)는, 오브젝트 신호를 재생 중 사용자가 임의의 오브젝트의 특성 정보를 변화시키고자 할 때, 오브젝트 메타데이터(201b, object metadata)를 사용자 의도에 맞도록 해당 과정에서 수정해주어야 한다. 따라서, 상기 메타데이터 프로세서(204)는 재생 환경을 설정할 뿐만 아니라, 오브젝트 메타데이터(201b, object metadata)를 외부에서 입력된 정보들을 참조하여 변형시키는 과정도 포함하고 있다.

상기 랜더러(202)는, 상기 디코딩된 신호(201a, Decoded signal)를 외부에서 입력된 재생 환경 정보에 맞춰서 랜더링하여 출력한다. 만약 사용자의 재생 환경의 스피커가 입력 채널 신호 개수보다 적을 경우 채널 변환기(Channel converter)를 적용하여 재생 환경의 스피커 개수에 맞춰서 채널 신호를 다운믹스( downmix)시켜줄 수 있으며, 오브젝트 신호에 대해서는 오브젝트 메타데이터(object metadata) 정보를 참조하여 재생 스피커 위치에 맞도록 오브젝트 신호를 랜더링하게 된다. 또한, HOA 신호에 대해서는 입력 신호들을 선택된 스피커 환경에 맞도록 재구성시켜준다. 또한, 만약 상기 디코딩된 신호(201a, Decoded signal)가 두 가지 타입의 신호가 조합되어 있는 형태라면 믹싱(mixing) 과정에서 출력 스피커 위치에 맞도록 랜더링된 신호들을 믹싱(mixing)하여 채널 신호로 출력하는 것도 가능하다.

관련하여, 만약 상기 랜더링 타입(206a)에 의해 재생 방식이 헤드폰으로 선택되면, 재생 환경에서의 스피커 위치에서 녹음된 양이의 BRIR 들을 랜더링된 신호(202a, Rendered signal)에 필터링하고 더해서 최종 2채널 스테레오 신호(Out_L _,Out_R)를 출력한다. 관련하여, 양이의 BRIR을 랜더링된 신호(202a, Rendered signal) 에 직접 필터링 할 경우 많은 연산량이 필요하므로, BRIR 파라미터 생성부(2055, Parameterization) 과정을 통해, BRIR의 특징 정보들을 파라미터화(Parameterization)한 BRIR 파라미터 데이터(2055a, 2055b)로 추출하여 활용하는 것이 가능하다. 즉, 상기 추출된 BRIR 파라미터 데이터(2055a, 2055b)를 직접 신호에 적용함으로써 연산량 측면에서 효율성이 높이는 장점이 있다. 단, 상기 BRIR 파라미터 생성부(2055)는 실제 제품 디자인에 따라 선택적으로 적용하는 것이 가능하다.

관련하여, 도3의 상기 랜더링 데이터 모델링부(205)는, MPEG-H 3D Audio 재생 장치를 6DoF 환경에서 효과적으로 사용하기 위해 추가적으로 확장된 과정을 포함한다. 이를 상세히 설명하면 다음과 같다.

상기 랜더링 데이터 모델링부(205)는, RIR 데이터(2052a)를 생성하기 위한 제1모델링부(2052, Environmental modeling), HRIR 데이터(2051a, 2051b)를 생성하기 위한 제2 모델링부(2051, HRIR Modeling), 사용자 위치 변화에 대응하여 상기 HRIR 데이터(2051a, 2051b)를 보상하는 거리 보상부(2053, Distance compensation) 및 상기 RIR 데이터(2052a) 및 상기 거리 보상부(2053)로부터 출력되는 보상된 HRIR 데이터(2053a, 2053b)를 합성하여 BRIR 데이터(2054a, 2054b)를 합성하기 위한 합성부(2054, synthesizing)를 포함하는 것을 특징으로 한다. 한다. 또한, 전술한 바와 같이, 본 발명은 선택적으로 상기 합성된 BRIR 데이터(2054a, 2054b)를 파라미터화 하여 BRIR 파라미터 데이터(2055a, 2055b)를 출력하는 BRIR 파라미터 생성부(2055, Parameterization)를 포함할 수 있다.

관련하여, 본 발명은 6DoF 환경을 지원하기 위해서 공간 환경 정보(213, Environment information)와 사용자 위치 정보(212, User position information)를 추가적으로 수신할 뿐만 아니라, 청취자에게 가장 최적화된 입체 음향을 제공하기 위해 사용자 머리 정보(211, User head information)을 수신하여 개인화된 HRIR를 사용하는 것도 가능하게 하였다. 즉, 사용자가 임의 공간 내에서 위치를 이동하면 (예를 들어, 수신되는 사용자 위치 정보(212)의 변경 여부로부터 사용자 위치 이동여부를 확인하는 것이 가능하다), 오브젝트 메타데이터 및 스피커의 상대적인 위치도 함께 변경되므로, 도3에서와 같이 데이터 조정부 (212a, 212b, adjust relative information (adj. ref. info.))를 추가하여 사용자 위치 이동에 따라 변경되는 정보를 보상해 줄 수 있도록 하였다.

상기 제1모델링부(2052, Environmental modeling)는, RIR (Room Impulse Response)을 모델링 하는 과정이다. 예를 들어, 6DoF 환경에서는 사용자가 음원이 발생하는 공간 내에서 자유롭게 이동 가능하다. 따라서 사용자가 이동하는 위치에 따라서 사용자와 음원간의 거리도 달라지고, 이에 따라 룸 응답도 변화한다. 예를 들어, 사용자가 잔향이 많이 울리는 교회와 같은 공간 내에서 음원에 매우 가까이 있을 때에는 음원의 소리가 크게 들리지만, 음으로부터 멀리 있을 경우에는 음원의 소리가 작게 들리고 잔향이 더욱 크게 들리게 된다. 이러한 영향은 같은 공간 내에서 사용자가 위치를 움직임으로써 나타나는 현상이므로 6DoF 환경에서는 위치 변화에 따라 달라지는 특징을 반영하기 위해 사용자의 위치 정보와 룸 특성 정보를 이용하여 공간 응답을 모델링 해야 한다. 상기 제1모델링부(2052) 상세 동작은 도5~도8를 참조하여 상세히 후술하고자 한다.

상기 제2 모델링부(2051, HRIR Modeling)는 사용자의 머리 및 귀의 특징을 모델링 하는 과정이다. 사람마다 머리와 귀의 특징이 다르기 때문에, VR 컨텐츠를 위한 3차원 오디오를 효과적으로 경험하기 위해서는 사용자의 머리 및 귀 모양을 정확하게 반영하여 HRIR를 모델링하는 것이 필요하다. 상기 제2모델링부(2051) 상세 동작은 도9~도11를 참조하여 상세히 후술하고자 한다.

상기 거리 보상부(2053, Distance compensation) 는 상기 사용자 위치 정보(212)를 반영하여 상기 모델링된 HRIR 응답 (HRIR_L(2051a), HRIR_R(2051b))의 게인(gain)을 조절한다. 일반적으로 HRIR은 사용자와 음원의 거리를 항상 일정하게 유지한 상황에서 측정되거나 모델링된다. 하지만, 6DoF 환경처럼 사용자가 공간상에서 자유롭게 움직일 수 있는 공간에서는 사용자와 음원의 거리가 변화하기 때문에 HRIR 응답의 게인도 변화되어야 한다 (예, 사용자가 음원에 가까울수록 HRIR 응답 크기는 더욱 커지고, 멀어질수록 HRIR 응답 크기는 작아짐). 이러한 이유로, 양이의 HRIR 게인은 사용자의 위치에 따라 조절되어야 한다. 상기 거리 보상부(2053) 상세 동작은 도12를 참조하여 상세히 후술하고자 한다.

상기 합성부(2054, synthesizing)는 모델링된 HRIR_L(2051a), HRIR_R(2051b)과 RIR(2052a)을 합성한다. 즉, VR 환경에서 헤드폰을 이용하여 현장감 있는 오디오를 경험하기 위해서는 사용자의 머리 및 귀의 특성 정보와 공간 특성 정보가 함께 반영된 BRIR 응답이 필요하다. 따라서 모델링된 HRIR_L(2051a) 및 HRIR_R(2051b)을 각각 공간 응답 RIR(2052a)에 합성하여 BRIR_L(2054a), BRIR_R (2054b) 응답을 만든다. 상기 BRIR_L(2054a), BRIR_R (2054b) 은 직접 랜더링된 신호(202a)에 필터링하여 바이너럴 랜더링(binaural rendering)된 최종 출력 신호(Out_L과 Out_R)를 출력할 수 있으며, 또한, 전술한 바와 같이, 필요하다면 BRIR 파라미터화(2055, parameterization) 과정을 통해서 양이의 BRIR(BRIR_L과 BRIR_R)의 특징 정보를 파라미터들로 추출하여 Param_L(2055a) 및 Param_R(2055b)를 적용하여 최종 출력 신호(Out_L과 Out_R)를 출력할 수 있다.

도4는 본 발명의 다른 실시예에 따른, 상기 오디오 재생 장치내 메타데이터 프로세서(304)의 또 다른 실시예를 예를 들어 도시한 것이다. 도4의 메타데이터 프로세서(304) 구성은, 도3의 메타데이터 프로세서(204) 구성과 구현상 방식에 차이가 잇다. 예를 들어, 도3의 메타데이터 프로세서(204)는, 전술한 데이터 조정부 (212a, 212b, adjust relative information (adj. ref. info.))를 통해 조정된 신호를 입력 받지만, 도4의 메타데이터 프로세서(304)는 스스로 데이터 조정을 수행하는 점에서 상이하다.

이하, 도4의 6DoF 환경에서의 메타데이터 프로세서(304, Metadata & interface data processor)에 대해 상세히 설명하면 다음과 같다. 도4를 참조하면, 상기 메타데이터 프로세서(304)를, 재생 환경 정보를 설정하는 제1파트(3041, configuration part), 사용자가 직접 오디오 씬(audio scene)과 상호 작용하는 제2파트(3042, interaction part), 사용자의 움직임을 하드웨어가 인지하고 보상해주는 제3파트(3043, tracking part)로 구분할 수 있다.

우선, 상기 제1파트(3041, configuration part)는 음원 컨텐츠 재생 환경을 설정하는 부분으로, 랜더링 타입(Rendering type), 스피커-셋업(Local speaker setup), 스피커 위치정보(Speaker layout information), 화면 크기 정보(Local screen size information) 및 오브젝트 메타데이터(Object metadata) 정보가 사용된다. 상기 랜더링 타입(Rendering type), 스피커-셋업(Local speaker setup)은 'Setup playback environment' (30411)로 입력되어 오디오 신호를 스피커 혹은 헤드폰으로 재생할지를 결정한다. 또한, 스피커-셋업(Local speaker setup)은 스피커 포맷을 의미하며, 헤드폰으로 재생할 경우, 설정된 스피커 포맷에 해당되는 BRIR을 사용한다. 스피커 위치정보(Speaker layout information)는 각 스피커의 위치 정보를 의미한다. 스피커의 위치는 사용자가 정면을 바라보고 있는 시점과 위치를 기준으로 방위각(Azimuth), 고도각(Elevation)과 거리(Distance)로 나타낼 수 있다. 오브젝트 메타데이터(Object metadata)는 오브멕트 신호를 공간상에 랜더링 시켜주기 위한 정보로, 일정 시간 단위로 각 오브젝트에 대한 방위각(Azimuth), 고도각(Elevation) 및 게인(gain) 등의 정보를 담고 있다. 일반적으로 오브젝트 메타데이터(Object metadata)는 컨텐츠 제작자가 오디오 씬(audio scene)을 구성할 때 각각의 오브젝트 신호의 표현 방식을 고려해서 제작하며, 제작된 메타데이터는 인코딩되어 수신단으로 전달된다. 오브젝트 메타데이터(Object metadata)를 제작할 때, 각 오브젝트 신호를 씬(screen)과 연동시킬 수도 있다. 하지만 사용자가 시청하는 비디오 화면(screen)의 크기가 제작자가 메타데이터 제작 시 참조한 화면의 크기와 항상 동일하다는 보장은 없다. 따라서 임의의 오브젝트를 비디오 화면(screen)과 연동시킬 경우, 화면 크기(size) 정보도 함께 저장한다. 그리고 제작자와 사용자간에 발생하는 화면 불일치 문제를 Screen size remapping (30412)을 통해 해결할 수 있다.

화면 크기 정보(Local screen size information)는 사용자가 시청하는 화면의 크기 정보를 의미한다. 따라서 해당 정보가 수신되면, 비디오 화면과 연동되는 오브젝트 메타데이터(Object metadata) 정보들 (예를 들어, 일반적으로 오브젝트의 방위각(Azimuth), 및 고도각(Elevation) 정보)을 사용자가 시청하는 화면 크기에 맞춰서 재매핑(remapping) 시켜주므로, 제작자의 의도를 다양한 크기의 화면에 적용시킬 수 있게 된다.

상기 제2파트(3042, interaction part)에서는 인터액션 데이터(interaction data information)와 줌영역 정보(zoom area information)가 사용된다. 상기 인터액션 데이터(interaction data information)는 재생 중인 오디오 씬(audio scene)의 특징을 사용자가 직접 변경시키고자 하는 정보들로, 대표적으로 오디오 신호의 위치 변화 정보 및 크기 변화 정보들이 있다. 위치 변화 정보는 방위각(azimuth) 및 고도각(elevation)의 변화량으로 표현할 수 있으며, 크기 정보는 게인(gain)의 변화량으로 표현하는 것이 가능하다. 해당 정보들이 입력되면, 'Gain & Position interactive processing' (30421)은 상기 제1파트(3041, configuration part)의 오브젝트 메타데이터(Object metadata)의 위치 정보와 크기 정보를 인터액션 데이터(interaction data information)에 입력된 변화량만큼 변화시킨다. 게인(Gain) 정보 및 위치(position) 정보는 상기 오브젝트 신호에만 적용 가능하다. 또한, 상기 줌영역 정보(zoom area information)은 사용자가 임의의 컨텐츠 시청 중 화면의 일부를 확대하고자 할 때 이용되는 정보이며, 만약 해당 정보가 입력되면, 'Zoom area & object remapping' (30422)에서 비디오 화면과 연동되던 오브젝트 신호의 위치 정보를 줌 영역(zoom area)에 맞춰서 다시 맵핑(mapping)시킨다.

상기 제3파트(3043, Tracking part)는 크게 장면 변화 정보(Scene displacement information)과 사용자 위치 정보(212, User position information)가 사용된다. 상기 장면 변화 정보(Scene displacement information)은 머리 회전 정보를 의미하며, 일반적으로 회전정보(yaw, pitch, roll)로 나타낸다. 만약 트랙킹 모드(tracking mode)가 작동되는 환경에서 사용자가 머리를 회전하면, 회전 정보(yaw, pitch, roll)는 'Adjust audio scene direction information' (30431)로 입력되어서, 오디오 씬(audio scene)의 위치 정보를 회전량만큼 변경시킨다. 상기 사용자 위치 정보(212, User position information)는 사용자의 위치 변화 정보를 의미하며, 방위각(azimuth), 고도각(elevation) 및 거리(distance)로 나타낼 수 있다. 따라서 사용자가 위치를 움직일 경우, 'Adjust audio scene metadata information' (30432)에서 오디오 씬(audio scene)을 변화된 위치만큼 반영한다. 예를 들어, 오브젝트로 구성된 오디오 씬(audio scene)을 재생하고 있는 상황에서 사용자가 정면을 향해 움직이면, 정면에 위치한 오브젝트의 게인은 증가시켜주고, 후면에 위치한 오브젝트의 게인을 감소시켜준다. 추가적으로, 오디오 씬(audio scene)을 스피커 환경에서 재생시킬 경우, 사용자의 변화된 위치를 'Adjust speaker layout information' (30413)에서 반영해줄 수 있다. 사용자에 의해 변경된 재생환경 정보는 이후 도3의 상기 랜더러(202, renderer)로 전달된다.

도5~도12는 본 발명의 실시예에 따른, 상기 오디오 재생 장치내 모델링 방법을 설명하기 위해 도시한 것이다.

우선, 도5~도8을 참조하여, 상기 제1모델링부(2052, Environment Modeling) 동작을 상세히 설명한다. 본 발명의 3D 오디오 디코더(3D Audio decoder)를 6DoF 환경에서도 사용할 수 있도록 확장하면서 기존 3DoF 환경과 비교했을 때 나타나는 가장 큰 차이는 BRIR을 모델링 하는 부분으로 볼 수 있다. 기존 3DoF 기반의 3D 오디오 디코더에서는 헤드폰으로 음원을 재생할 때에는 사전에 만들어진 BRIR 을 음원에 직접 적용하였지만, 6DoF 환경에서는 사용자 위치가 변경될 때마다 현실감 있는 음원을 재생하기 위해 사용자 위치에 따른 BRIR을 매번 모델링해서 음원에 적용해야 한다.

예를 들어, 전술한 'MPEG-H 3D Audio decoder' (201)를 사용하며 오디오 신호 랜더링이 22.2 채널 환경 기반으로 이루어질 경우, 22채널에 대한 BRIR을 사전에 보유해서 필요할 때마다 바로 사용할 수 있지만, 6DoF 환경에서는 사용자가 임의의 공간에서 움직이며 움직인 위치에 대한 22채널의 BRIR을 새로 모델링하거나 해당위치에서 사전에 측정된 BRIR을 확보한 다음에 사용 가능하다. 따라서 상기 제1 모델링부(2052, environment modeling) 동작시 연산량을 가능한 최소화하며 BRIR을 모델링할 수 있어야 한다.

일반적으로 RIR은 도5와 같이 크게 세 종류의 응답 특성을 갖는다. 처음 r1(601)에 해당하는 응답이 직접음(direct sound)으로 음원이 공간 반사 없이 직접 사용자에게 전달되는 응답이다. r2(602)는 초기 반사음(early reflection)으로 음원이 밀폐된 공간에 한 번 혹은 두 번 반사되어서 사용자에게 전달되는 응답이다. 일반적으로 초기 반사음은 공간의 기하학적 특징에 영향을 받아 음원의 공간적 특징을 변화시키고, 청감적으로 확산감에 영향을 끼친다. 마지막으로, r3(603)은 후기 잔향음(late reverberation)으로 음원이 공간의 바닥, 천장, 벽면 등에 무수히 많이 반사된 후에 사용자에게 전달되는 응답이며, 해당 응답은 공간의 흡음이나 반사 재질에 의해 응답을 변화시키고, 청감적으로 잔향감에 영향을 준다. 일반적으로 상기 직접음(601) 및 초기 반사음(602)의 경우, 음원이 발생하는 위치 및 방향에 따라서 응답 특성이 달라지는 경향이 있지만, 후기 잔향음(603)의 경우, 공간 자체의 특성을 모델링 하기 때문에 사용자가 위치를 변화하여도 모델링된 응답의 특성은 변하지 않는다. 따라서 본 발명은 상기 제1 모델링부(2052, environment modeling) 동작시 초기 반사음(602)과 후기 잔향음(603)을 서로 독립적으로 모델링 하는 것을 제안한다. 이하 이에 대해 각각 설명하고자 한다.

사용자 위치에 따라 응답이 가변적으로 변하는 초기 반사음(602)을 모델링하기 위해 사용자 위치 정보, 음원 위치 정보 및 공간 특성 정보를 입력으로 사용할 수 있다. 사용자 위치 정보(User position information)은 전술한 바와 같이 방위각(azimuth), 고도각(elevation) 및 거리(distance)로 나타낼 수 있으며, 이를 3차원 구면 좌표계(spherical coordinate system)를 구성하는 단위로 표현할 경우 (θ, φ, γ)로 표시될 수 있다. 또한, 3차원 직교 좌표계(Cartesian coordinate system) 단위의 (x, y, z)로도 표시될 수 있다. 또한, 상기 두 개의 좌표계는 축-변환 공식을 이용하여 서로 변환이 가능함은 널리 알려진 사실이다.

일반적으로 음원은 스피커를 통해 재생되므로, 스피커-위치 정보(speaker layout information)을 참조하여 음원의 위치 정보를 나타낼 수 있다. 만약 사용한 스피커 포맷이 표준 규격의 스피커 포맷이면 표준 스피커 위치 정보를 참조하여 사용 가능하며, 사용자 정의의 스피커 포맷을 이용하였다면 사용자가 직접 스피커의 위치 정보를 입력하여 사용 가능하다. 상기 스피커-위치 정보(speaker layout information)로서 방위각(azimuth), 고도각(elevation), 거리(distance) 정보가 수신되므로, 스피커의 위치 정보를 사용자 위치 정보와 마찬가지로 구면 좌표계(spherical coordinate system) 혹은 직교 좌표계(Cartesian coordinate system) 단위로 표시할 수 있다.

공간 정보(Environment information)는 크게 공간 크기 정보 및 공간 특성 정보가 있으며, 공간 크기 정보는 공간이 직육면체라고 가정할 경우 [L, W, H](길이, 높이, 폭, 단위 (m))으로 표시할 수 있다. 공간 특성 정보는 공간을 이루는 각 면의 재질 특성으로 나타낼 수 있는데, 일반적으로 흡음 계수(Absorption coefficient, α)로 나타낼 수 있으며, 공간에 대한 잔향 시간(reverberation time)으로도 나타낼 수 있다.

도6은, 본 발명의 상기 제1모델링부(2052)를 도시한 것이다. 본 발명의 상기 제1모델링부(2052)는, 상기 초기 반사음(602)을 모델링하는 초기 반사음 모델링부(20521, Early reflection modeling), 상기 후기 잔향음(603)을 모델링하는 후기 잔향음 모델링부(20522, Late reverberation modeling) 및, 상기 모델링 결과를 가산하여 최종 RIR 데이터(2052a)를 출력하는 가산기(20523)을 포함하여 구성된다.

RIR 룸 응답을 모델링 하기 위해 수신단에서는 사용자 위치 정보(user position info)뿐만 아니라, 재생 환경과 관련된 스피커 위치 정보(speaker layout info) 및 공간 특성 정보(environment info)도 함께 수신하여 초기 반사음(602) 및 후기 잔향음(603)을 모델링하고, 이를 가상하여 최종 RIR 룸 응답을 생성한다. 이후 6DoF 환경에서 사용자의 위치가 변화하면 수신단에서는 초기 반사음 모델링부(20521, Early reflection modeling) 을 통해 변화된 사용자 위치에 대한 초기 반사음 응답만 새로 모델링하여 전체 룸 응답을 업데이트하게 된다.

도7은 상기 초기 반사음 모델링(20521)을 설명하기 위해 도시한 것이다. 초기 반사음 모델링(20521, Early reflection modeling)은 룸 응답의 초기 반사음(602)만을 모델링하는 과정이다. 사용자 위치 정보(User position information), 각 스피커 위치 정보(Speaker layout information) 및 공간 정보(Environment information([L, W, H], α))를 기반으로 해서 'Image source method' 혹은 'Ray-tracing method' 등을 이용하여 응답이 2차 혹은 3차 반사까지만 모델링 되도록 설정하여 출력할 수 있다.

도7 (a)는 임의의 밀폐된 공간에서 발생된 음원(701)이 한 번 반사되어서 전달되는 경우를 도시한 것이며, 도7 (b)는 음원(701)이 두 번 반사되어서 전달되는 경우에 대해서 도시한 것이다. 도7 (a),(b)에서 실선으로 이루어진 영역이 실제 공간(702)이며, 점선으로 이루어진 영역은 실제 공간을 대칭적으로 확장한 가상 영역(703)이다. 도7(a), (b)와 같이 실제 공간(702)에서 음원이 반사되는 경로에 따라 공간을 가상 영역(703)까지 확장하면, 결국 대칭된 가상 영역(703)에서 발생시킨 음원(704)의 직접음이라고 가정할 수 있다. 따라서 공간의 크기, 가상 공간에서 음원과 사용자의 위치와의 거리, 반사로 인해 음원의 크기 감소시키는 바닥, 천장, 벽의 재질 특성 (흡음 계수) 등의 정보를 이용하면 임의의 공간의 룸 응답을 모델링할 수 있게 된다.

도8은 상기 후기 잔향음 모델링(20522)을 설명하기 위해 도시한 것이다. 후기 잔향음 모델링(20522, Late reverberation modeling)은 룸 응답의 후기 잔향음(603)만을 모델링하는 과정이다. 공간 정보의 잔향 시간을 참조해서 피드백 지연 네트워크(feed-back delay network, FDN) 기반의 알고리즘으로 모델링 가능하다. 즉, FDN은 여러 개의 콤필터(comb filter)로 구성되어 있다. 도8에 도시된 파라미터 (g=[g ₁, g ₂,…, g _P], c=[c ₁, c ₂,…, c _P], τ=[τ ₁, τ ₂, …, τ _P], P)들은 모델링된 응답에 사용자가 의도한 특성이 잘 반영 되도록 설정해주어야 한다. 예를 들어, 파라미터 P 는 콤필터(comb filter) 개수를 의미한다. 일반적으로 콤필터의 수는 많으면 많을수록 좋은 성능을 나타내지만, 전체적인 연산량도 함께 증가되므로 주어진 환경에 맞춰서 적절하게 설정해야 한다. 파라미터τ 는 콤필터의 전체 지연(delay)를 의미하며, τ= τ ₁+τ ₂+…+τ _P 의 관계를 갖는다. 이때 τ ₁, τ ₂,…, τ _P 는 서로 배수 관계가 아닌 값들로 설정된다. 예를 들어, P = 3, τ = 0.1ms이면, τ ₁ = 0.037ms, τ ₂ = 0.05ms, τ ₃ = 0.013ms 로 설정시킬 수 있다. 파라미터 g=[g ₁, g ₂, …, g _P] 와 c=[c ₁, c ₂, …, c _P]는 1보다 작은 값으로 설정된다. FDN 구조로 후기 잔향음을 모델링 할때 사용자가 의도하는 응답 특성에 대한 최적의 파라미터값들은 수식적으로 계산할 수 없기 때문에, 일반적으로 주어진 정보(RT ₆₀, 공간 특성, 공간 크기, 등)를 기반으로 해서 사용자 임의로 설정하게 된다.

다음, 도9~도11을 참조하여, 상기 제2모델링부(2051, HRIR Modeling) 동작을 상세히 설명한다. 도9는, 전술한 상기 제2 모델링부(2051)에 적용되는 사용자의 머리 및 귀의 특징을 모델링 하는 과정을 설명하기 위해 도시한 것이다. 일반적으로, 머리 모양 모델링시는 도9 (a) 및 (b)와 같이 사용자의 머리 사이즈(901, diameter) 및 귀의 특징을 이용한다. 상기 사용자 귀의 특징을 모델링하기 위해 사용되는 정보는 도9(b)에 도시한 바와 같이, 귀를 구성하는 각 길이 값들(902, d1~d7) 및 귀의 외관을 구성하는 각도 값(903)을 포함하여 구성할 수 있다. 상기 제2모델링부(2051)에 의한 HRIR 모델링이 완료되면 왼쪽 귀와 오른쪽 귀 응답에 해당하는 전술한 도3의 HRIR_L(2051a) 및 HRIR_R(2051b)를 출력하게 된다. 관련하여, 사용자마다 귀의 특징이 다르기 때문에 3D 오디오 다코더를 통한 3차원 오디오의 효과를 극대화하기 위해 가장 이상적으로는 사용자의 HRIR을 사전에 취득한 뒤, 컨텐츠에 적용하는 것이다. 하지만 이러한 과정은 매우 많은 시간과 비용이 발생하므로 상기 제2모델링부(2051)에 의한 HRIR 모델링 혹은 HRIR 개인화(individualization)과 같은 방법을 이용하여 기존 범용화된 HRIR 사용시 발생할 수 있는 문제를 보완할 수 있게 된다. 이하, 도 10~도11을 참조하여 HRIR 모델링 및 HRIR 개인화(individualization) 방법에 대해 상세히 후술한다.

도 10은 상기 제2모델링부(2051)에 의한 HRIR 모델링의 기본 블록도를 도시한 것이다. 입력으로 스피커 위치 정보(speaker layout info) 및 사용자 머리 정보(User head info)를 이용할 수 있다. 관련하여, 상기 스피커 위치 정보(speaker layout info)는 음원 위치 정보로도 활용된다. 또한, 표준 규격 스피커 포맷에 대해서는 표준 스피커 위치 정보를 참조하여 사용 가능하며, 사용자 정의로 배치된 스피커 환경에 대해서는 사용자가 직접 스피커 위치 정보를 입력하여 사용 가능하다. 스피커의 위치 정보는 구면 좌표계(spherical coordinate system) 단위의 (θ, φ, γ) 혹은 직교 좌표계(Cartesian coordinate system) 단위의 (x, y, z)로 표시될 수 있으며, 두 개의 좌표계는 축-변환 공식을 이용하여 서로 축 변환이 가능하다. 상기 사용자 머리 정보(User head info)는 머리 크기 정보를 포함하며, 이는 사용자가 수동으로 입력하거나, 또는 헤드폰 혹은 센서 등과 연동하여 기계적으로 사용자 머리 크기를 측정하여 자동으로 입력하는 것이 가능하다.

도10의 상기 제2모델링부(2051)는, 헤드 모델링부(20511, Head modeling) 및 귀 모델링부(20512, Pinna modeling)으로 구성된다. 상기 헤드 모델링부(20511, Head modeling)은 상기 음원 위치 정보와 사용자 머리 크기 정보를 이용하여, 사람이 음원의 위치를 인지하는데 사용되는 ITD 및 ILD가 반영된 헤드 쉐도우(head shadow)에 대한 전달 함수(H_L, H_R)를 각각 나타낼 수 있다. 상기 귀 모델링부(20512, Pinna modeling)는 사용자 귀의 귓바퀴에 의한 영향을 반영한 응답을 모델링하는 과정으로, 일반적으로 사전에 정해진 다양한 상수 값들의 조합을 모델링 과정에 반영하여 사용자에게 가장 적합한 응답을 모델링할 수 있다.

도11은 HRIR 개인화(individualization) 과정을 도시한 것이다. 도11에서 굵은 실선은 사전에 취득하여 보유하고 있는 데이터베이스(DB)를 의미한다. 입력으로 음원 위치 정보(Speaker layout info.) 및 다양한 피실험자에 대한 머리 크기 정보(User head info), 양이 특징 정보를 포함하는 바이너럴 정보 DB(Binaural info DB) 및 HRIR DB와 사용자의 머리 크기 및 양이 특징 정보 DB (Head info DB)를 사용할 수 있다. 양이의 특징 정보는 왼쪽과 오른쪽 귀의 크기 및 형태 정보를 의미하며, 해당 정보를 사용자가 수동으로 입력할 수 있고, 카메라 혹은 영상 장치를 이용해 귀를 캡쳐해서 기계적으로 귀의 형태를 측정하고 분석하여 자동으로 입력되도록 할 수 있다. 만약 카메라 혹은 영상 장치를 이용하여 귀의 형태를 측정할 경우, 전술한 도9 (b)와 같이 귀의 다양한 부위의 길이를 측정하여 귀의 특징을 분석할 수 있다. 도11의 캡쳐 및 분석부(904, Capture & analyzing)에서는 카메라로 사용자의 귀를 캡쳐 해서 분석한 뒤 머리 및 양이 정보(904a, 904b)를 출력한다. 이후 HRIR선택부(905, Select HRIR)에 입력되어서 보유하고 있는 다양한 피실험자의 양이 특징 정보 DB들과 비교한다. DB 내에서 가장 유사한 특징을 갖는 임의의 피실험자가 선택되면 해당 피실험자의 HRIR를 청취자의 HRIR(905a, 905b)로 간주하여 사용하게 된다.

도12는 상기 거리 보상부(2053, Distance compensation)의 상세 동작을 설명하기 위해 도시한 것이다. 상기 거리 보상부(2053)는, 에너지 계산부(20531, Energy calculation), 에너지 보상부(20532, Energy compensation) 및 게인 변경부(20533, Gain modification)를 포함한다.

우선, 상기 에너지 계산부(20531, Energy calculation)는, 전술한 제2모델링부(2051)에 의해 모델링된 HRIR들(2051a, 2051b) (HRIR_L _{_1}, HRIR_R _{_1}, …, HRIR_L _{_N}, HRIR_R _{_N})을 입력 받아, 각 HRIR들의 에너지(NRG_L _{_1}, NRG_R _{_1}, …, NRG_L _{_N}, NRG_R _{_N})를 계산한다.

상기 에너지 보상부(20532, Energy compensation)는, 상기 계산된 에너지들 NRG_L _{_n}, NRG_R _{_n} 및 전술한 사용자 위치 정보(212)를 입력 받아, 사용자의 변경된 위치를 참조하여 상기 계산된 에너지들 NRG_L _{_n}, NRG_R _{_n} 을 보상해준다. 예를 들어, 사용자가 정면으로 움직였을 경우, 정면에서 측정된 HRIR들의 에너지는 움직인 거리에 비례하여 크게 조정해주되, 후면에서 측정된 HRIR들의 에너지는 움직인 거리에 비례하여 작게 조정해준다. 사용자의 초기 위치는 수평면상에 위치한 모든 스피커로부터 모두 동일한 거리인 정중앙에 있다고 가정하고, 사용자 및 스피커의 위치 정보는 방위각(azimuth), 고도각(elevation) 및 거리(distance)를 참조하여 나타낼 수 있다. 따라서 사용자가 위치를 변경할 경우, 각 스피커에 대한 상대적인 거리 변화량을 계산할 수 있다. 상기 에너지 보상부(20532,Energy compensation)에서 보정된 HRIR의 에너지 값들(cNRG_L _{_1}, cNRG_R _{_1}, …, cNRG_L _{_N}, cNRG_{R_N})은 상기 게인 변경부(20533, Gain modification)으로 입력되어, 모든 HRIR의 게인(gain)을 변경된 거리에 맞도록 수정하여 보정된 HRIR (cHRIR_L _{_1}, cHRIR_R _{_1}, …, cHRIR_L _{_N}, cHRIR_R _{_N})를 출력한다. 게인(Gain)의 제곱에 대한 물리량은 에너지(energy)에 대응하므로, 적합한 수학식, 예를 들어, 보정된 에너지들에 루트(root)를 취해서 각 에너지에 대응되는 HRIR (즉, 상기 에너지 보상부(20532)에서 보상된 HRIR)에 곱해줌으로써 사용자 위치 변경에 따른 HRIR의 게인(gain)을 보상해줄 수 있다.

도13~도22는 본 발명의 실시예에 따른, 오디오 재생 방법 및 장치에 활용되는 신택스(syntax) 구조를 설명하기 위해 도시한 것이다. 본 발명에서는, 6DoF를 위한 3D 오디오 디코더의 두 가지 랜더링 타입 사용예(예를 들어, 스피커 환경 또는 헤드폰 환경) 에 따른 6DoF MPEG-H 3D Audio 디코더 기반으로 설명하고자 한다.

(1) [사용예 1] 스피커 환경에서의 6DoF 3D 오디오

전술한 도3에서 랜더링 타입(206a, Rendering type)을 스피커(speaker)로 선택해서 컨텐츠를 재생하고자 할 경우, 실시간으로 상기 사용자 위치 정보(212, User position information)을 참조하여서 오디오 씬(audio scene)을 랜더링 시켜줘야 한다. 상기 사용자 위치 정보(212, User position information)는, 본 발명의 실시에에 따라, 기존 MPEG-H 3D Audio 부호화기를 6DoF 환경에서 사용하기 위해 메타데이터 프로세서(204, metadata and interface processing)에 새롭게 입력되는 정보이다. 상기 사용자 위치 정보(212)에 의해 스피커 위치 정보(206f, Local speaker layout), 인터액션 데이터(207b, Interaction data information) 및 줌 영역 정보(207c, zoom area information)가 변경될 수 있다. 상기 스피커 위치 정보(206f, Local speaker layout)는 각 스피커의 위치 및 게인 정보를 담고 있다.

상기 줌 영역 정보(207c, zoom area information)은 사용자가 시청중인 화면의 일부를 확대시킬 때 사용되는 정보인데, 시청중인 화면의 일부를 확대시키면서 화면과 연동되는 오디오 오브젝트(object)의 위치도 함께 변경된다. 따라서 사용자가 화면에 가까이 다가갈 경우, 사용자가 움직인 거리에 비례하여 오브젝트 게인을 조절시켜줄 수 있다. 사용자가 상기 인터액션 데이터(207b, Interaction data information)를 제어하는 상황에서도 사용자의 위치에 따라 게인이 변경될 수 있다. 예를 들어, 오디오 씬(audio scene)을 구성하고 있는 임의의 오브젝트 게인을 작게 조절하였지만, 사용자가 해당 오브젝트가 정위된 위치에 가까이 다가가면 사용자와 오브젝트의 상대적인 변화된 거리에 비례하여 오브젝트 게인을 크게 조절해준다.

(2) [사용예 2] 헤드폰 환경에서의 6DoF 3D 오디오

기존의 MPEG-H 3D Audio 부호화기에서는 임의의 오디오 컨텐츠를 헤드폰으로 재생할 때에는 사전에 취득된 BRIR을 필터링하여서 입체감 있는 3차원 오디오를 재현하였다. 하지만, 이러한 결과는 사용자의 위치가 고정된 상태에서만 유효할 뿐, 사용자가 위치를 변경하면 현실감이 크게 감소된다. 따라서 본 발명에서는 변화하는 사용자 위치 기준으로 BRIR을 새롭게 모델링하여 6DoF환경에서 더욱 현실감있는 오디오 컨텐츠를 제공하고자 한다. 전술한 도3에서 랜더링 타입(206a, Rendering type)을 헤드폰(headphone)으로 선택해서 컨텐츠를 6DoF 환경처럼 재생하고자 할 경우, 실시간으로 사용자 위치 정보(212, User position information)을 참조하여 BRIR을 모델링하고, 이를 오디오 컨텐츠에 적용해서 오디오 씬(audio scene)을 랜더링 시켜준다. BRIR은 전술한 제1모델링부(2052, Environment modeling) 및 제2모델링부(2051, HRIR modeling)을 통해 모델링될 수 있다.

이하, VR 오디오 컨텐츠가 6DoF 환경에서 재생되도록 “MPEG-H 3D Audio decoder”에 상기 사용자 위치 정보(212, User position information)를 추가한 신택스(syntax)에 대해 설명하고자 한다, 특히, 아래 신택스(syntax)에서 점선으로 표시한 부분은 본 발명의 실시예에 따라, 6DoF를 지원하기 위해 추가 혹은 변경된 부분을 강조하기 위해 도시한 것이다.

도13은 “MPEG-H 3D Audio Decoder”의 “mpegh3daLocalSetupInformation()” 신택스를 도시한 것이다.

is6DoFMode 필드(1301)는, 6DoF 방식으로 사용할지 여부를 알려준다. 즉, 상기 필드가 '0'인 경우 기존 방식(3DoF)으로, '1'인 경우 6DoF 방식임을 의미하는 것으로 정의할 수 있다. 상기 is6DoFMode 필드(1301)는, 6DoF을 지시하는 인디게이터 플래그(indicator flag) 정보로서, 상기 정보의 존재 여부에 따라, 후술할 6DoF 적용되는 다양한 정보 필드들이 추가로 제공되어 진다.

우선, 만약 상기 전술한 6DoF 인디게이터 플래그 정보(1301, Is6DoFMode)가 '1'을 지시하는 경우는(1301a), 다음 up_az필드(1302), up_el필드(1303) 및 up_dist 필드(1304) 정보가 추가로 제공될 수 있다.

상기 up_az필드(1302)는, 사용자의 위치 정보가 방위각 측면에서 각도 값으로 주어진 것이다. 예를 들어, 각도 값은 “Azimuth=-180˚ ~ Azimuth=180˚” 사이에서 주어지는 것으로 정의할 수 있다. 상기 up_el필드(1303)는, 사용자의 위치 정보가 고도각 측면에서 각도 값으로 주어진 것이다. 예를 들어, 각도 값은 “Elevation=-90˚ ~ Elevation=90˚” 사이에서 주어지는 것으로 정의할 수 있다. 상기 up_dist 필드(1304)는, 사용자의 위치 정보가 거리 측면에서 길이(meter) 값으로 주어진 것이다. 예들 들어, 길이 값은 “Radius = 0.5m ~ Radius=16m” 사이에서 주어지는 것으로 정의할 수 있다.

또한, bsRenderingType필드(1305)는, 랜더링 타입을 정의한다. 즉, 랜더링 타입으로 전술한 바와 같이, 두 가지 사용예로서, 스피커 환경(“Loudspeaker rendering” (1305a))에서의 랜더링 혹은 헤드폰 환경(“binaural rendering”(1305b))에서의 랜더링중 어느 하나를 지시하도록 정의할 수 있다.

또한, bsNumWIREoutputs 필드(1306)는, “WIREoutput”의 개수를 정의하며, 예를 들어, 0~65535사이에서 결정되는 것으로 정의할 수 있다. WireID필드(1307)는, 상기 “WIRE output”에 대한 식별정보(ID)를 포함한다. 또한, hasLocalScreenSizeInformation 필드(1308)는, 화면 크기 정보(Local screen size)를 사용할 수 있는지 여부를 정의하는 플래그(flag) 정보이다. 상기 플래그(1308) 정보에 의해 화면 크기 정보(Local screen size)를 사용하는 것으로 지시되면, “LocalScreenSizeInformation()”(1308a) 신택스가 추가로 구성된다.

도14는 전술한 랜더링 타입(1305, bsRenderingType)이 스피커 환경(“Loudspeaker rendering”)에서의 랜더링을 지시하는 경우에, 6DoF의 재생환경에서 스피커의 위치 정보 및 게인 정보를 “Loudspeaker rendering()”(1305a) 신택스로 도시한 것이다.

우선, bsNumLoudspeakers 필드(1401)는, 재생 환경에서의 스피커(loudspeaker)의 개수를 정의한다. 또한, hasLoudspeakerDistance필드(1402)는 상기 스피커(Loudspeaker)의 거리(distance)가 정의되었는지를 지시하는 플래그(flag) 정보이다. 또한, hasLoudspeakerCalibrationGain필드(1403)는, 스피커 켈리브레이션 게인(Calibration Gain)이 정의되었는지를 지시하는 플래그(flag) 정보이다. 또한, useTrackingMode 필드(1404)는 “mpeg3daSceneDisplacementData()” 인터페이스를 통해 전송된 장면 변화(Scene displacement) 값을 처리할지 여부를 지시하는 플래그(flag) 정보이다. 관련하여, 상기 필드들(1402, 1403, 1404)은 모두 전술한 6DoF 인디게이터 플래그 정보(1301, Is6DoFMode)가 '0'의 값을 가진 경우(1301b)에 주어지는 정보이다,

또한, hasKnownPosition 필드(1405)는. 스피커(Loudspeaker)의 위치에 대한 시그널링이 비트스트림(bitstream)에서 수행되는지 여부를 지시하는 플래그(flag) 정보이다.

만약, 상기 전술한 6DoF 인디게이터 플래그 정보(1301, Is6DoFMode) 및 상기 hasKnownPosition 필드(1405)가 모두 '1'을 지시하는 경우는(1301c), 다음 loudspeakerAzimuth 필드(1406) 및 loudspeakerElevation 필드(1407) 정보가 더 정의된다. 상기 loudspeakerAzimuth 필드(1406)는, 스피커의 방위각을 정의한다. 예를 들어, -180˚에서 180˚사이의 값을 1˚간격으로 가지는 것으로 정의할 수 있다. 예를 들어, “Azimuth = (loudspeakerAzimuth-256); Azimuth = min (max (Azimuth,-180), 180)”으로 정의할 수 있다.또한, 상기 loudspeakerElevation 필드(1407)는 스피커의 고도각을 정의한다. 예를 들어, -90˚에서 90˚사이의 값을 1˚간격으로 가지는 것으로 정의할 수 있다. 예를 들어, “Elevation = (loudspeakerElevation-128); Elevation = min (max (Elevation,-90), 90)” 로 정의할 수 있다.

또한, 만약, 상기 전술한 6DoF 인디게이터 플래그 정보(1301, Is6DoFMode) 및 상기 hasLoudspeakerDistance필드(1402)가 모두 '1'을 지시하는 경우는(1301d), 다음 loudspeakerDistance필드(1408) 정보가 더 정의된다. 상기 loudspeakerDistance필드(1408) 는 스피커의 중앙에 위치한 참조 위치(reference point, 즉, 이를 사용자 위치로 간주할 수 있다)까지의 거리를 cm단위로 정의한다. 예를 들어, 1~1023 사이의 값을 가질 수 있다.

또한, 만약, 상기 전술한 6DoF 인디게이터 플래그 정보(1301, Is6DoFMode) 및 상기 hasLoudspeakerCalibrationGain필드(1403)가 모두 '1'을 지시하는 경우는(1301e), 다음 loudspeakerCalibrationGain 필드(1409) 정보가 더 정의된다. 상기 loudspeakerCalibrationGain 필드(1409) 는 스피커 켈리브레이션 게인(Calibration Gain)을 dB 단위로 정의한다. 예를 들어, “Gain = -32dB~Gain =31.5dB” 사이의 dB 값에 대응하는 0~127 사이의 값을 0.5dB 간격으로 정의할 수 있다. 즉, “Gain [dB] = 0.5x(loudspeakerGain - 64”로 정의할 수 있다.

또한, externalDistanceCompensation 필드(1410)는, 스피커(Loudspeaker)의 보상을 디코더 출력 신호에 적용할지 여부를 정의되었는지를 지시하는 플래그(flag) 정보이다. 만약 해당 플래그(1410)가 '1'이면, 상기 loudspeakerDistance필드(1402) 및 loudspeakerCalibrationGain필드(1403)에 대한 시그널링은 디코더에 적용되지 않는다.

도15는 사용자 인터액션(User interaction)과 관련된 정보를 수신하는 신택스(syntax)를 도시한 것이다. 6DoF 환경에서도 사용자 인터액션(user interaction)이 가능하도록 하기 위해 사용자의 위치 변화 감지 정보를 추가하였다. 만약 6DoF 환경에서 사용자의 위치 변화가 감지되면, 변경된 위치를 기반으로 인터액션(interaction) 정보들이 재조정된다.

우선, 만약 상기 전술한 6DoF 인디게이터 플래그 정보(1301, Is6DoFMode)가 '1'을 지시하는 경우는(1301f), 다음 isUserPosChange 필드(1501) 정보가 추가로 제공될 수 있다. 상기 isUserPosChange 필드(1501)는 사용자의 위치 변경 여부를 알려준다. 즉, 상기 필드(1501)이 '0'인 경우 사용자의 위치 변화가 없음을 의미하고, '1'인 경우 사용자의 위치 변화가 있음을 의미하는 것으로 정의할 수 있다.

관련하여, 도15내의 ei_InteractionSignatureDataLength필드는 인터액션 시그너쳐 (Interaction signature)의 길이를 바이트(byte) 단위로 정의한 값이다. 또한, ei_InteractionSignatureDataType필드는, 상기 인터액션 시그너쳐 유형을 정의한다. 또한, ei_InteractionSignatureData 필드는 인터액션 데이터의 생성자를 정의하는 시그너쳐(signature)를 포함한다. 또한, hasLocalZoomAreaSize 필드는, 로컬 줌 크기(Local zoom size)에 대한 정보를 사용할 수 있는지 여부를 정의하는 플래그(flag) 정보이다.

참고로, “mpegh3daElementInteraction()” 신택스내 “LocalZoomAreaSize()”에서는 비디오 화면과 연동되는 오디오 오브젝트의 특징이 변경될 수 있으며, “ElementInteractionData()” 신택스에서는 사용자와 인터액션(interaction)되는 오디오 씬(audio scene)을 구성하는 오브젝트의 특징이 변경될 수 있다. 상기 “mpegh3daElementInteraction()” 신택스내에서 사용자의 위치 변화가 감지되면, “mpegh3daLocalSetupInformation()” 신택스에서 수신되는 사용자의 위치 정보를 참조하여 오브젝트의 정보를 사용자 위치 기반으로 재조정시켜주는 것이 가능하므로, 별도의 신택스가 추가적으로 필요하지 않다. 따라서 “LocalZoomAreaSize()” 및 “ElementInteractionData()” 신택스는 기존 “MPEG-H 3D Audio” 신택스를 활용하는 것으로 충분하므로, 이에 대한 자세한 설명은 생략한다.

도16은 전술한 랜더링 타입(1305, bsRenderingType)이 헤드폰 환경에서의 랜더링을 지시하는 경우에, 6DoF의 재생환경에서 헤드폰을 통한 오디오 출력 정보를 “BinauralRendering()”(1305b) 신택스로 도시한 것이다.

우선, 만약 상기 전술한 6DoF 인디게이터 플래그 정보(1301, Is6DoFMode)가 '1'을 지시하는 경우는(1301g), 다음 bsNumLoudspeakers 필드(1601), loudspeakerAzimuth 필드(1602), loudspeakerElevation 필드(1603), loudspeakerDistance필드(1604), loudspeakerCalibrationGain 필드(1605), 및 externalDistanceCompensation 필드(1606) 정보가 추가로 제공될 수 있다. 관련하여, 상기 필드들(1601~1606)의 의미는 전술한 도14의 대응하는 필드들과 동일한 의미로 정의하는 것이 가능하다.

또한, 만약 상기 전술한 6DoF 인디게이터 플래그 정보(1301, Is6DoFMode)가 '1'을 지시하는 경우는(1301g), 추가적으로 RIR 데이터를 생성하기 위한 “RIRGeneration()”(1607) 신택스 및 HRIR 데이터를 생성하기 위한 “RIRGeneration()”(1608) 신택스가 더 필요하다 이하 도17~도23을 참조하여, 상기 추가되는 RIRGeneration()”(1607) 신택스 및 “RIRGeneration()”(1608) 신택스에 대해 자세히 설명하고자 한다.

도17~도20은, RIR을 생성하는데 필요한 신택스들을 도시하였다, 우선, 도17은, RIR을 나타내는 방식으로 “RIRGeneration()”(1607) 신택스를 도시한 것이다. bsRIRDataFormatID 필드(1701)는, RIR의 표현 유형을 나타낸다. 즉, 사전에 만들어진 RIR을 이용하면, “RIRFIRData()”(1702) 신택스가 실행된다. 반면, RIR을 modeling 방법을 통해 얻을 경우 “RIRModeling()”(1703) 신택스가 실행된다.

도18은, 상기 “RIRFIRData()”(1702) 신택스를 도시한 것이다. 관련하여, bsNumRIRCoefs 필드(1801)는, RIR 필터(filter)의 길이를 의미한다. bsNumLengthPosIdx 필드(1802)는 공간상에서 가로 위치에 대한 인덱스(index)를 의미한다. 예를 들어, 0~1023m까지 1m간격으로 정의할 수 있다. bsNumWidthPosIdx 필드(1803)는 공간상에서 세로 위치에 대한 인덱스(index)를 의미한다. 예를 들어, 0~1023m까지 1m간격으로 정의할 수 있다. bsRIRFirCoef필드(1804)는, RIR 필터(filter) 계수 값을 나타낸다. 상기 RIRFIRData()”(1702)내에는 정의된 bsNumLengthPosIdx필드(1802) 와 bsNumWidthPosIdx필드(1803)는 임의의 공간에서의 위치 정보를 의미한다. RIR은 해당 인덱스가 정의된 위치에서 취득된다. 따라서 사용자의 위치 정보를 참조하여 가장 인접한 위치에서 측정된 RIR의 위치를 수신 받고, 해당 위치에 대한 RIR 데이터를 수신 받는다.

도19는 “RIRModeling()”(1703) 신택스를 도시한 것이다. 만약 RIR을 모델링 방법을 통해 얻고자 하는 경우, 공간에 대한 정보와 모델링에 필요한 파라미터들을 수신 받아서 RIR을 모델링 한다.

도19 “RIRModeling()”(1703) 신택스내의 각 필드들을 설명하면 다음과 같다. bsNumRIRCoefs 필드는, RIR 필터(filter)의 길이를 의미한다. RoomLength필드는 공간의 길이 정보로 길이(meter) 값으로 주어진다. RoomWidth 필드는 공간의 넓이 정보로 길이(meter)값으로 주어진다. RoomHeight필드는 공간의 높이 정보로 길이(meter) 값으로 주어진다. AbsorpCoeffCeil 필드는 천장 흡음률을 의미하며 흡음계수로 나타낸다. 예를 들어, 흡음계수는 0~1 사이의 값으로 주어진다. AbsorpCoeffFloor 필드는 바닥 흡음률을 의미하며 흠음계수로 나타낸다. 예를 들어, 흡음계수는 0~1 사이의 값으로 주어진다. AbsorpWallFront 필드는 앞 벽 흡음률을 의미하며 흠음계수로 나타낸다. 예를 들어, 흡음계수는 0~1 사이의 값으로 주어진다. AbsorpWallBack 필드는 뒷 벽 흡음률을 의미하며 흠음계수로 나타낸다. 예를 들어, 흡음계수는 0~1 사이의 값으로 주어진다. AbsorpWallLeft 필드는 왼쪽 벽 흡음률을 의미하며 흡음계수로 나타낸다. 예를 들어, 흡음계수는 0~1 사이의 값으로 주어진다. AbsorpWallRight 필드는 오른쪽 벽 흡음률을 의미하며 흡음계수로 나타낸다. 예를 들어, 흡음계수는 0~1 사이의 값으로 주어진다. nTapFilter 필드는 사용되는 콤필터(Comb filter)의 개수를 의미하며, 콤필터 계수로서, dly 필드는 필터 지연(Filter delay) 값을, gain_b 필드는 프리 게인(Pre gain) 값을, gain_c 필드는 포스트 게인(Post gain) 값을, A 필드는 피드백 메트릭스(Feedback matrix) 값을, b_af 필드는 흡음 필터(absorbent filter) 계수 값을 각각 나타낸다. 또한, dly_direct 필드는 다이렉트 신호에 적용되는 지연(delay) 값을, tf_b 필드는 톤 보정 필터(tone correction filter) 계수 값을 나타낸다.

또한, “RIRModeling()”(1703) 신택스내에는 초기 반향(Early reflection) 모델링 시 적용되는 “ERModeling()”(1910) 신택스를 포함한다. 도20은 상기 “ERModeling()”(1910) 신택스내에 포함된 ModelingMethod필드(2001)를 도시한 것이다. 상기 ModelingMethod필드(2001)는 임펄스 응답(Impulse Response, IR) 모델링시 사용하는 방법을 의미하며, 예를 들어, '0'인 경우 'Image source method” 방법을 사용하고, '0'이 아닌 경우 다른 방법을 사용하는 것으로 정의할 수 있다.

도21~도23은 “HRIRGeneration()”(1608) 신택스에 대해 자세히 설명하고자 한다. 우선, 도21은, HRIR을 나타내는 방식으로 “HRIRGeneration()”(1608) 신택스를 도시한 것이다.

bsHRIRDataFormatID 필드(2101)는, HRIR의 표현 유형을 나타낸다. 즉, 사전에 만들어진 HRIR을 이용하면, “HRIRFIRData()”(2102) 신택스가 실행된다. 반면, HRIR을 모델링 (modeling) 방법을 통해 얻을 경우 “HRIRModeling()”(2103) 신택스가 실행된다.

도22는 상기 “HRIRFIRData()”(2102) 신택스를 도시한 것이다. bsNumHRIRCoefs필드(2201)는 HRIR 필터(filter)의 길이를 의미한다. bsFirHRIRCoefLeft필드(2202)는 왼쪽 귀의 HRIR 필터(filter)의 계수 값을 나타낸다. bsFirHRIRCoefRight 필드(2203)는 오른쪽 귀의 HRIR filter의 계수 값을 나타낸다.

도23은 상기 “HRIRModeling()”(2103) 신택스를 도시한 것이다. bsNumHRIRCoefs필드(2301)는 HRIR 필터(filter)의 길이를 의미한다. HeadRadius 필드(2302)는 머리 반지름을 의미하며 길이(cm ) 단위로 나타낸다. PinnaModelIdx 필드(2303)는, 귓바퀴 모델(Pinna model)을 모델링 할 때 사용되는 계수들이 정의된 테이블에 대한 인덱스(index)를 의미한다.

본 발명은, 6DoF 환경에서 VR 오디오를 구현하기 위한 오디오 재생 장치 및 방법을 제안하였다. 송신단에서 전송된 비트스트림은 오디오 다코더로 입력되어 디코딩된 오디오 신호를 출력한다. 출력된 디코딩된 오디오 신호는 바이너럴 랜더러(Binaural renderer)로 입력되어 BRIR(Binaural Room Impulse Response)에 필터링 되어 좌,우 채널 신호(Out_L, Out_R)를 출력한다. BRIR은 룸 응답(Room response)과 양이의 HRIR(Head-related Impulse Response, HRTF를 시간축으로 변환한 응답)를 합성하여 계산되어 진다. 또한, 룸 응답(Room response)는 룸 특성 정보(room characteristics info.), 공간상에서 사용자의 위치 정보 및 사용자 방향 정보(User pos. info. & User direction info.)를 제공받아서 효율적으로 생성할 수 있다. 상기 HRIR은 상기 사용자 방향 정보를 참조하여 HRIR DB로부터 추출하는 것도 가능하다. 바이너럴 랜더링(Binaural rendering)을 통해 출력된 좌,우 채널 신호(Out_L, Out_R)를 헤드폰 혹은 이어폰으로 이용하여 청취하면 청취자는 음상이 마치 공간상의 임의의 위치에 정위된 것과 같은 효과를 느낄 수 있게 된다.

전술한 본 발명 실시예는, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 정보가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예를 들어는, HDD(Hard Dis k Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 정보 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현 되는 것도 포함한다. 또한, 상기 컴퓨터는 오디오 디코더(201, MPEG-H 3D Audio Core Decoder), 랜더러(202, Renderer), 바이너럴 랜더러(203, Binaural Renderer), 메타데이터 프로세서(204, Metadata and Interface data processor) 및 랜더링 데이터 모델링부(205)를 전체적으로 또는 일부 구성으로 포함할 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims

수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 디코딩 단계,

사용자 위치 정보 (user position information)을 입력 받아, 사용자의 위치가 이전 위치에서 변경 되었는지 여부를 확인하고, 상기 사용자 위치가 변경된 경우 변경된 사용자 위치에 대응하도록 바이너럴(binaural) 랜더링 데이터를 모델링하는 모델링 단계, 및

상기 모델링된 랜더링 데이터를 이용하여, 상기 디코딩된 오디오 신호(decoded signal)을 바이너럴 랜더링(binaural rendering)하여 2채널 오디오 신호로 출력하는 랜더링 단계를 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 방법.
제 1항에 있어서, 상기 모델링 단계는,

공간 특성 정보(room characterization info)를 더 입력 받아, RIR 데이터를 모델링하는 제1모델링 단계, 및

사용자 머리 정보(user head info)를 더 입력 받아, HRIR 데이터를 모델링하는 제2모델링 단계를 더 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 방법.
제 2항에 있어서, 상기 모델링 단계는,

상기 제2모델링된 HRIR 데이터를, 상기 변경된 사용자 위치에 근거하여 게인(gain)을 조정하는 거리 보상 단계를 더 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 방법.
제 3항에 있어서, 상기 모델링 단계는,

상기 거리 보상된 HRIR 데이터 및 상기 제1모델링된 RIR 데이터를 합성하여, 변경된 사용자 위치에 대응하는 BRIR 데이터를 생성하는 BRIR합성 단계를 더 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 방법.
제 1항에 있어서,

상기 사용자 위치 정보(user position information)을 입력 받아, 변경된 사용자 위치에 대응하도록 상기 메타데이터(metadata)를 조정(adjust)하는 메타데이터 프로세싱(processing) 단계를 더 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 방법.
제 5항에 있어서,

상기 메타데이터 프로세싱(processing) 단계는, 변경된 사용자 위치에 대응하도록 적어도 스피커 위치 정보(speaker layout info), 줌 영역(zoom area) 및 오디오 씬(audio scene)중 어느 하나를 조정(adjust)하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 방법.
제 1항에 있어서,

상기 사용자 위치 정보(user position information)는, 사용자 위치가 변경되었음을 알려주는 인디게이터(indicator) 플래그(isUserPosChange) 정보 및 변경된 사용자 위치에 대응하는 방위각(azimuth), 고도각(elevation) 및 거리(distance) 정보 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 방법.
제 7항에 있어서,

6DoF 환경 지원 여부를 지시하는 인디게이터 플래그(is6DoFMode) 정보를 더 입력 받고, 상기 인디게이터 플래그(is6DoFMode) 정보가 6DoF환경을 지원하는 경우, 상기 사용자 위치 정보(user position information)를 입력 받는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 방법.
수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 오디오 디코더,

사용자 위치 정보 (user position information)을 입력 받아, 사용자의 위치가 이전 위치에서 변경 되었는지 여부를 확인하고, 상기 사용자 위치가 변경된 경우 변경된 사용자 위치에 대응하도록 바이너럴(binaural) 랜더링 데이터를 모델링하는 모델링부, 및

상기 모델링된 랜더링 데이터를 이용하여, 상기 디코딩된 오디오 신호(decoded signal)을 바이너럴 랜더링(binaural rendering)하여 2채널 오디오 신호로 출력하는 바이너럴 랜더러(Binaural render)를 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 장치.
제 9항에 있어서, 상기 모델링부는,

공간 특성 정보(room characterization info)를 더 입력 받아, RIR 데이터를 모델링하는 제1모델링부, 및

사용자 머리 정보(user head info)를 더 입력 받아, HRIR 데이터를 모델링하는 제2모델링부를 더 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 장치.
제 10항에 있어서, 상기 모델링부는,

상기 제2모델링된 HRIR 데이터를, 상기 변경된 사용자 위치에 근거하여 게인(gain)을 조정하는 거리 보상부를 더 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 장치.
제 11항에 있어서, 상기 모델링부는,

상기 거리 보상된 HRIR 데이터 및 상기 제1모델링된 RIR 데이터를 합성하여, 변경된 사용자 위치에 대응하는 BRIR 데이터를 생성하는 BRIR합성부를 더 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 장치.
제 9항에 있어서,

상기 사용자 위치 정보(user position information)을 입력 받아, 변경된 사용자 위치에 대응하도록 상기 메타데이터(metadata)를 조정(adjust)하는 메타데이터 프로세서(processor)를 더 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 장치.
제 13항에 있어서,

상기 메타데이터 프로세서는, 변경된 사용자 위치에 대응하도록 적어도 스피커 위치 정보(speaker layout info), 줌 영역(zoom area) 및 오디오 씬(audio scene)중 어느 하나를 조정(adjust)하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 장치.
제 9항에 있어서,

상기 사용자 위치 정보(user position information)는, 사용자 위치가 변경되었음을 알려주는 인디게이터(indicator) 플래그(isUserPosChange) 정보 및 변경된 사용자 위치에 대응하는 방위각(azimuth), 고도각(elevation) 및 거리(distance) 정보 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 장치.
제 15항에 있어서,

6DoF 환경 지원 여부를 지시하는 인디게이터 플래그(is6DoFMode) 정보를 더 입력 받고, 상기 인디게이터 플래그(is6DoFMode) 정보가 6DoF환경을 지원하는 경우, 상기 사용자 위치 정보(user position information)를 입력 받는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 장치.