KR20240073145A - 크기를 갖는 오디오 요소를 렌더링하는 방법, 대응하는 장치 및 컴퓨터 프로그램 - Google Patents
크기를 갖는 오디오 요소를 렌더링하는 방법, 대응하는 장치 및 컴퓨터 프로그램 Download PDFInfo
- Publication number
- KR20240073145A KR20240073145A KR1020247015716A KR20247015716A KR20240073145A KR 20240073145 A KR20240073145 A KR 20240073145A KR 1020247015716 A KR1020247015716 A KR 1020247015716A KR 20247015716 A KR20247015716 A KR 20247015716A KR 20240073145 A KR20240073145 A KR 20240073145A
- Authority
- KR
- South Korea
- Prior art keywords
- representation
- virtual
- audio element
- audio
- virtual loudspeaker
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000009877 rendering Methods 0.000 title claims abstract description 62
- 238000004590 computer program Methods 0.000 title claims description 8
- ORQBXQOJMQIAOY-UHFFFAOYSA-N nobelium Chemical compound [No] ORQBXQOJMQIAOY-UHFFFAOYSA-N 0.000 claims abstract description 86
- 230000006870 function Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 11
- 230000003287 optical effect Effects 0.000 claims description 2
- 230000007704 transition Effects 0.000 description 30
- 230000005236 sound signal Effects 0.000 description 22
- 238000006243 chemical reaction Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000001914 filtration Methods 0.000 description 8
- 230000002596 correlated effect Effects 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 3
- 239000003607 modifier Substances 0.000 description 3
- -1 950 Chemical compound 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 101100259947 Homo sapiens TBATA gene Proteins 0.000 description 1
- 241000669244 Unaspis euonymi Species 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/40—Visual indication of stereophonic sound image
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
오디오 요소(102)를 렌더링하기 위한 방법(1900)이 제공된다. 방법은, 오디오 요소의 표현의 크기를 표시하는 크기 정보 및/또는 오디오 요소와 청취자 사이의 거리를 표시하는 거리 정보를 획득하는 단계(s1902)를 포함한다. 방법은 또한, 크기 정보 및/또는 거리 정보에 기반하여, 오디오 요소를 렌더링하는 데 사용할 가상 라우드스피커들의 수를 결정하는 단계(s1904)를 포함한다.
Description
본 개시내용은 가상 라우드스피커들을 구성하기 위한 방법들 및 장치에 관한 것이다.
공간적 오디오 렌더링은, 특정 포지션(들)에 위치되고 특정 크기 및 특정 형상(즉, 규모)을 갖는 물리적 소스(들)로부터 사운드가 오고 있다는 인상을 청취자에게 주기 위해 가상 현실(VR), 증강 현실(AR), 또는 혼합 현실(MR) 내에서 오디오 요소를 제시하는 데 사용되는 프로세스이다.
제시는 헤드폰들 또는 스피커들을 사용하여 이루어질 수 있다. 제시가 헤드폰들을 사용하여 이루어지는 경우, 렌더링 프로세스는 바이노럴(binaural) 렌더링으로 칭해진다. 바이노럴 렌더링은, 청취자가 사운드가 나오는 방향을 인식하는 것을 가능하게 하는 인간의 공간적 청취의 공간적 큐(cue)들을 사용한다. 공간적 큐들은 양귀-간 시간 차이(Inter-aural Time Difference)(ITD), 양귀-간 레벨 차이(Inter-aural Level Difference)(ILD), 및/또는 스펙트럼 차이를 포함할 수 있다.
공간적 오디오 렌더링의 가장 일반적인 형태는 포인트 소스들의 개념에 기반한다. 포인트 소스는 하나의 특정 포인트로부터 사운드를 발산하도록 정의된다. 그에 따라, 포인트 소스는 어떠한 규모도 갖지 않는다. 그에 따라서, 규모를 갖는 오디오 소스를 렌더링하기 위해, 상이한 방법들이 사용될 필요가 있다.
규모를 갖는 오디오 소스를 렌더링하기 위한 방법들 중 하나는, 모노 오디오 객체의 포지션 주위의 포지션들에서 모노 오디오 객체의 다수의 복제 사본들을 생성하는 것이다. 이는, 특정 크기를 갖는 공간적으로 동질적인 객체의 인지를 생성한다. 이러한 개념은, 예컨대, MPEG-H 3D 오디오 표준의 "객체 확산" 및 "객체 발산" 특징들(조항 8.4.4.7 - "Spreading" 및 조항 18.1 - "Element Metadata Preprocessing")에서, 그리고 EBU 오디오 정의 모델(ADM) 표준의 "객체 발산" 특징(EBU ADM Renderer Tech 3388, 조항 7.3.6: "Divergence")에서 사용된다.
모노 오디오 소스를 사용하는 이러한 발상은 문헌["Efficient HRTF-based Spatial Audio for Area and Volumetric Sources", IEEE Transactions on Visualization and Computer Graphics 22(4):1-1, January 2016]에서 추가로 개발되었다. 이 논문에 따르면, 오디오 객체의 면적-볼륨 기하학적 구조는 청취자 주위의 구 상에 투영될 수 있고, 사운드는 구 상의 오디오 객체의 기하학적 투영을 커버하는 모든 HR 필터들의 적분으로서 평가되는 한 쌍의 머리 관련(head-related)(HR) 필터들을 사용하여 청취자에게 렌더링될 수 있다. 구형 볼륨 소스의 경우, 이러한 적분은 분석적 해를 갖는 반면, 임의적 면적-볼륨 소스 기하학적 구조의 경우, 적분은 몬테 카를로(Monte Carlo) 광선 샘플링으로 칭해지는 것을 사용하여 구 상의 투영된 소스 표면을 샘플링함으로써 평가된다.
규모를 갖는 오디오 소스를 렌더링하기 위한 다른 방법은, 모노 오디오 신호에 부가하여 공간적 확산 성분을 렌더링하는 것이다. 공간적 확산 성분은, 원래의 모노 객체와 대조적으로, 뚜렷한 핀-포인트 위치를 갖지 않는 다소 확산된 객체의 인지를 생성한다. 이러한 개념은, 예컨대, MPEG-H 3D 오디오 표준의 "객체 확산성" 특징(조항 18.11) 및 EBU ADM "객체 확산성" 특징(EBU ADM Renderer Tech 3388, 조항 7.4: "Decorrelation Filters")에서 사용된다.
위의 2개의 방법의 조합이 또한, 예컨대, 모노 오디오 객체의 다수의 사본들의 생성을 확산 성분들의 부가와 결합하는 EBU ADM "객체 규모" 특징에서 알려져 있다. EBU ADM Renderer Tech 3388, 조항 7.3.7: "Extent Panner"를 참조한다.
그러나, 이러한 방법들은, 뚜렷한 "공간적으로 이질적"인 특성을 갖는 오디오 요소들, 즉, 그의 공간적 규모 내에서 특정 양의 공간적 소스 변동을 갖는 오디오 요소의 렌더링의 방법을 제공하지 않는다. 종종, 이러한 소스들은 다수의 소스들의 합, 예컨대, 숲의 사운드 또는 환호하는 군중의 사운드의 합으로 구성된다. 알려진 솔루션들 대부분은 "공간적으로 동질적"인(즉, 요소 내에 공간적 변동이 없음) 또는 공간적 확산 특성을 갖는 객체들만을 생성할 수 있으며, 이는, 설득력 있는 방식으로 위에 주어진 예들 중 일부를 렌더링하기에는 너무 제한될 수 있다.
이러한 이질적인 오디오 요소들을 렌더링하기 위한 다른 기법들이 존재한다. 예컨대, 오디오 요소는 다중-채널 오디오 기록에 의해 표현될 수 있고, 렌더링은 오디오 요소의 규모 및 그 요소 내의 공간적 변동을 표현하기 위해 여러 가상 라우드스피커들을 사용할 수 있다. 오디오 요소의 규모에 대응하는 포지션들에 가상 라우드스피커들을 배치함으로써, 오디오가 규모로부터 발산되는 착각이 전달될 수 있다.
많은 경우들에서, 오디오 요소의 규모는 기본 형상(예컨대, 구 또는 박스)을 사용하여 적절하게 설명될 수 있다. 그러나, 때때로 오디오 요소의 형상은 더 복잡할 수 있고, 그에 따라, 예컨대, 메쉬 구조 또는 파라미터 설명 형식을 갖는 더 상세한 형태로 설명될 필요가 있다. 이러한 경우들에서, 실시간 렌더링은, 청취 포지션에 대한 오디오 요소의 현재 포지션에 따라 오디오 요소의 규모가 어떻게 렌더링되어야 하는지를 계산할 필요가 있다.
정의된 공간적 규모를 갖는 오디오 요소를 렌더링하기 위한 하나의 기존 솔루션이 WO 2021180820에 설명되어 있으며, 이는 그 전체가 인용에 의한 본원에 포함된다. 이러한 솔루션은, 오디오 요소의 복잡한 규모를, 청취 포지션에서 볼 때의 규모의 너비 및/또는 높이를 설명하는 1차원(1D) 표현 또는 2차원(2D) 표현으로 단순화하는 방법을 수반한다. 본 개시내용에서, 단순화(즉, 1D 표현 또는 2D 표현)되는 복잡한 규모는 단순화된 규모로 지칭된다.
특정 난제들이 존재한다. 일반적으로, 가상 라우드스피커들의 수는 미리 정의된다. 이는, 실험들이, 오디오 객체의 규모 및 오디오 객체에 대한 청취자의 포지션에 따라, 오디오 객체를 최적의 방식으로 렌더링(즉, 오디오 객체를 표현하는 오디오 신호를 생성)하는 데 상이한 수의 가상 라우드스피커가 요구될 수 있다는 것을 보여주므로 문제가 될 수 있다.
예컨대, 오디오 객체를 표현하는 오디오 신호를 생성하는 데 2개 이상의 가상 라우드스피커가 사용되는 경우, 오디오 객체의 규모 및 오디오 객체에 대한 청취자의 포지션에 따라, 일부 상황들에서, 가상 라우드스피커들은 서로 너무 가까울 수 있으며, 이에 따라, 렌더링된 오디오 객체의 전체 품질을 저하시키는 두드러진 콤-필터링(comb-filtering) 효과가 발생할 수 있다.
도 5는 콤-필터링 효과가 어떻게 발생할 수 있는지를 예시한다. 도 5에 도시된 바와 같이, 2개의 상관된 오디오 소스(502 및 504)가 서로 너무 가까울 때, 오디오 소스들(502 및 504)에 의해 생성된 중첩되는 오디오에 의해 야기되는 콤-필터링 간섭이 존재할 수 있다. 다시 말해서, 다수의 오디오의 이러한 중첩 때문에, 특정 주파수들과 연관된 생성된 오디오 신호의 일부분이 감쇠 또는 증폭될 수 있으며, 그에 의해, 가청 아티팩트들이 생성된다.
예컨대, (i) 백색 잡음 소스가 청취자의 전방-중간 포지션에 배치된 가상 라우드스피커를 사용하여 렌더링되고, (ii) 동일한 백색 잡음 소스가 전방-우측 포지션으로부터 전방-좌측 포지션을 향해 이동함으로써 전방-중간 포지션을 지나가는 가상 라우드스피커를 사용하여 렌더링되는 경우, 이동하는 가상 라우드스피커가 정지상태 가상 스피커가 위치되는 전방-중간 포지션을 통과할 때, 2개의 가상 라우드스피커로부터의 오디오의 혼합이 존재할 것이며, 그에 의해, 이동하는 가상 라우드스피커가 이동함에 따라 변하는 스펙트럼 노치들이 오디오에 생성되는 것을 초래한다. 일부 시나리오들에서, 변화들은 단계적 변화들일 수 있다. 단계적 변화들은, 제한된 공간적 분해능을 갖고 머리 관련 전달 함수(HRTF) 샘플-포인트들 사이의 보간들이 없는 HRTF 데이터세트의 사용에 기인할 수 있다.
오디오 객체의 규모가 크고/거나 청취자가 오디오 객체에 가까운 경우, 오디오 객체의 모든 공간적 정보를 적절히 렌더링하기 위해 더 많은 수의 가상 라우드스피커들이 필요할 수 있다. 이는, 오디오 객체가, 높이 및 너비 차원들 둘 모두에서 공간적 정보를 제공하는 다중-채널 오디오 신호로 표현되는 경우 특히 그러하다.
반면에, 오디오 객체의 크기가 작거나 청취자와 오디오 객체 사이의 거리가 큰 경우, 오디오 객체를 표현하는 오디오 신호를 생성하기 위해 다수의 가상 라우드스피커들을 사용하는 것은 가장 효율적인 솔루션이 아닐 수 있다.
그에 따라서, 일 양상에서, 오디오 요소를 렌더링하기 위한 방법이 제공된다. 방법은, 오디오 요소의 표현의 크기를 표시하는 크기 정보 및/또는 오디오 요소와 청취자 사이의 거리를 표시하는 거리 정보를 획득하는 단계; 및 크기 정보 및/또는 거리 정보에 기반하여, 오디오 요소를 렌더링하는 데 사용할 가상 라우드스피커들의 수를 결정하는 단계를 포함한다.
다른 양상에서, 처리 회로에 의해 실행될 때 처리 회로로 하여금 위에서 설명된 실시예들 중 임의의 실시예의 방법을 수행하게 하는 명령어들을 포함하는 컴퓨터 프로그램이 제공된다.
다른 양상에서, 오디오 요소를 렌더링하기 위한 장치가 제공된다. 장치는, 오디오 요소의 표현의 크기를 표시하는 크기 정보 및/또는 오디오 요소와 청취자 사이의 거리를 표시하는 거리 정보를 획득하고; 크기 정보 및/또는 거리 정보에 기반하여, 오디오 요소를 렌더링하는 데 사용할 가상 라우드스피커들의 수를 결정하도록 구성된다.
다른 양상에서, 장치가 제공되며, 이 장치는, 메모리, 및 메모리에 결합되는 처리 회로를 포함한다. 장치는, 위에서 설명된 실시예들 중 임의의 실시예의 방법을 수행하도록 구성된다.
본 개시내용의 일부 실시예들은, 오디오 요소의 크기 및/또는 오디오 요소와 청취 포지션 사이의 거리에 기반하여 오디오 요소를 렌더링하는 데 필요한 가상 라우드스피커들의 수를 적응적으로 결정함으로써, 이질적인 오디오 요소를 렌더링하는 효율적인 방법을 제공한다. 렌더링에 사용되는 가상 라우드스피커의 수를 감소시킴으로써, 서로 너무 가까운 2개 이상의 라우드스피커의 사용에 기인하는 콤-필터링 효과들의 문제를 피할 수 있다. 또한, 가상 라우드스피커들의 수를 감소시킴으로써, 실시예들은, 규모가 거의 없거나 청취자로부터 멀리 떨어져 있는 오디오 요소를 렌더링하는 데 너무 많은 가상 라우드스피커들을 사용하는 것에 기인하는 과도한 복잡도를 피하는 것을 허용한다.
본원에 포함되고 본 명세서의 일부를 형성하는 첨부된 도면들은 다양한 실시예들을 예시한다.
도 1은 예시적인 VR 환경(100)을 도시한다.
도 2a 및 도 2b는 일부 실시예들에 따른 오디오 요소의 단순한 규모를 도시한다.
도 3a 내지 도 3c는 일부 실시예들에 따른 가상 라우드스피커들의 상이한 배열을 도시한다.
도 4는 일부 실시예들에 따른 오디오 요소의 단순화된 규모의 예를 도시한다.
도 5는 콤-필터링 효과를 예시한다.
도 6a 및 도 6b는 오디오 렌더링에 너무 많은 가상 라우드스피커들이 사용되는 시나리오 및 너무 적은 가상 라우드스피커들이 사용되는 시나리오를 도시한다.
도 7a 및 도 7b는 오디오 렌더링에 사용되는 파라미터들(즉, 방위각 각도 및 앙각 각도들)을 도시한다.
도 8a 내지 도 8c는 상이한 수 및 포지션(들)의 가상 라우드스피커들이 최적일 수 있는 상이한 시나리오들을 도시한다.
도 9a 내지 도 9d는 일부 실시예들에 따른 오디오 요소의 상이한 표현들을 도시한다.
도 10은 일부 실시예들에 따른 이득 조정의 예를 도시한다.
도 11은 일부 실시예들에 따른 오디오 요소의 표현의 전환 프로세스를 도시한다.
도 12는 일부 실시예들에 따른 오디오 요소의 표현의 전환 프로세스를 도시한다.
도 13은 일부 실시예들에 따른 예시적인 가상 라우드스피커 셋업을 도시한다.
도 14는 일부 실시예들에 따른 예시적인 가상 라우드스피커 셋업을 도시한다.
도 15a 및 도 15b는 일부 실시예들에 따른 시스템을 예시한다.
도 16은 일부 실시예들에 따른 장치의 블록도이다.
도 17은 일부 실시예들에 따른 신호 수정기를 예시한다.
도 18은 일부 실시예들에 따른 장치의 블록도이다.
도 19는 일부 실시예들에 따른 프로세스를 도시한다.
도 1은 예시적인 VR 환경(100)을 도시한다.
도 2a 및 도 2b는 일부 실시예들에 따른 오디오 요소의 단순한 규모를 도시한다.
도 3a 내지 도 3c는 일부 실시예들에 따른 가상 라우드스피커들의 상이한 배열을 도시한다.
도 4는 일부 실시예들에 따른 오디오 요소의 단순화된 규모의 예를 도시한다.
도 5는 콤-필터링 효과를 예시한다.
도 6a 및 도 6b는 오디오 렌더링에 너무 많은 가상 라우드스피커들이 사용되는 시나리오 및 너무 적은 가상 라우드스피커들이 사용되는 시나리오를 도시한다.
도 7a 및 도 7b는 오디오 렌더링에 사용되는 파라미터들(즉, 방위각 각도 및 앙각 각도들)을 도시한다.
도 8a 내지 도 8c는 상이한 수 및 포지션(들)의 가상 라우드스피커들이 최적일 수 있는 상이한 시나리오들을 도시한다.
도 9a 내지 도 9d는 일부 실시예들에 따른 오디오 요소의 상이한 표현들을 도시한다.
도 10은 일부 실시예들에 따른 이득 조정의 예를 도시한다.
도 11은 일부 실시예들에 따른 오디오 요소의 표현의 전환 프로세스를 도시한다.
도 12는 일부 실시예들에 따른 오디오 요소의 표현의 전환 프로세스를 도시한다.
도 13은 일부 실시예들에 따른 예시적인 가상 라우드스피커 셋업을 도시한다.
도 14는 일부 실시예들에 따른 예시적인 가상 라우드스피커 셋업을 도시한다.
도 15a 및 도 15b는 일부 실시예들에 따른 시스템을 예시한다.
도 16은 일부 실시예들에 따른 장치의 블록도이다.
도 17은 일부 실시예들에 따른 신호 수정기를 예시한다.
도 18은 일부 실시예들에 따른 장치의 블록도이다.
도 19는 일부 실시예들에 따른 프로세스를 도시한다.
도 1은 예시적인 VR 환경(100)을 도시한다. VR 환경(100)에서, 청취자(104)는 합창단인 오디오 요소(102) 앞에 서 있다. 합창단이 복수의 가수들을 포함하고, 그 가수들 각각이 오디오 하위-요소를 구성하고 고유한 오디오 특성을 갖기 때문에, 오디오 요소(102)는 뚜렷한 공간적으로 이질적인 특성을 갖는다. 오디오 요소(102)의 규모가 표현하기에 너무 복잡하기 때문에, 일부 실시예들에서, 오디오 요소(102)의 규모는 단순한 규모(120)로 단순화된다. 오디오 요소(102)의 단순한 규모(120)는 오디오 요소를 렌더링하는 데 사용된다. 도 1에서, 간단한 규모(120)는 오디오 요소(102)의 2D 표현이다.
도 2a 및 도 2b는 오디오 요소(102)의 상이한 유형들의 단순한 규모(120)를 도시한다. 더 구체적으로, 도 2a는 오디오 요소(102)의 1D 표현(202)을 도시하고, 도 2b는 오디오 요소(102)의 2D 표현(204)을 도시한다.
1D 표현(202) 및/또는 2D 표현(204)은 오디오 요소(102)를 렌더링하는 데 사용될 수 있다. 여기서, 인지된 공간적 규모가 단순화된 규모와 매칭하도록 다중-채널 오디오 신호가 생성되고 오디오 렌더링에 사용될 수 있다. 1D 표현(202)을 렌더링하기 위해, 가상 라우드스피커들(222, 224, 및 226)이 사용될 수 있다. 유사하게, 2D 표현(204)을 렌더링하기 위해, 가상 라우드스피커들(232, 234, 236, 및 238)이 사용될 수 있다. 가상 라우드스피커들의 포지션들 및/또는 위치들은 단지 예시 목적을 위해 도 2a 및 도 2b에 도시되어 있다.
2D 표현(204)의 너비 또는 높이가 무시가능하게 되는 경우, 오디오 요소(102)의 표현은 2D 표현(204)으로부터 1D 표현(202)으로 스위칭될 수 있다. 유사하게, 2D 표현(204)의 너비 및 높이 둘 모두가 무시가능하게 되는 경우, 오디오 요소(102)의 표현은 2D 표현(204)으로부터 포인트 소스 표현으로 스위칭될 수 있다.
도 4는 일부 실시예들에 따른 (예컨대, 오디오 요소(102)가 공간적으로 한정된 오디오 요소일 때) 오디오 요소(102)의 단순화된 2D 규모(2D 표현으로 또한 알려져 있음)의 예를 도시한다. 2D 표현은 중심 포인트(410), 좌측 측부(에지)(412), 우측 측부(414), 상단 측부(416), 및 하단 측부(418)에 의해 정의될 수 있다. 2D 표현의 코너 포인트들(402, 404, 406 및 408)은 중심 포인트(410), 및 4개의 측부(412, 414, 416, 및 418) 중 하나 이상을 사용하여 획득될 수 있다.
일부 실시예들에 따르면, 코너 포인트들은 가상 라우드스피커들을 배치하는 데 사용될 수 있다. 도 4에 도시된 2D 표현의 너비 및 높이가 무시가능하게 되는 경우, 오디오 요소(102)의 표현은 2D 표현으로부터 포인트 표현으로 전환된다. 유사하게, 도 4에 도시된 2D 표현의 너비 또는 높이가 무시가능하게 되는 경우, 오디오 요소(102)의 표현은 2D 표현으로부터 1D 표현으로 전환된다.
도 3a 내지 도 3c는 오디오 요소(102)의 2D 표현(204)을 사용하여 오디오 요소(102)를 렌더링하는 상이한 방식들을 도시한다. 도 3a 내지 도 3c에 도시된 바와 같이, 상이한 배열들의 가상 오디오 소스들(가상 라우드스피커들로 또한 알려져 있음)이 렌더링에 사용될 수 있다.
도 3a에서, 2개의 가상 라우드스피커(322 및 324)가 사용되어, 스테레오 신호로 오디오 요소(102)를 표현한다. 도 3b에서, 평면의 규모에 맞게 조정될 수 있는 영역들을 표현하는 HRTF들을 갖는 2개의 가상 라우드스피커(326 및 328)가 사용되어, 스테레오 신호로 오디오 요소(102)를 표현한다. 도 3c에서, 4개의 가상 라우드스피커(330, 332, 334, 및 338)가 사용되어, 4-채널 오디오 신호로 오디오 요소를 표현한다. 4개의 채널은 수평 및 수직 평면들 둘 모두에서의 공간적 정보를 표현할 수 있다.
본 개시내용의 일부 실시예들은, 오디오 요소(102)(오디오 객체 또는 오디오 소스로 또한 알려져 있음)의 규모 및 오디오 요소(102)에 대한 청취자(104)의 포지션에 기반하여 오디오 요소(102)를 렌더링하기 위한 가상 라우드스피커들의 수를 조정하는 솔루션을 제공한다. 더 구체적으로, 일부 실시예들에서, 청취자(104)의 시점으로부터 오디오 요소(102)를 향한(그 오디오 요소(102)에 대응하는 단순화된 규모를 향한) 방위각 각도(너비 각도로 또한 알려져 있음) 및 앙각 각도(높이 각도로 또한 알려져 있음)를 모니터링하고, (i) 오디오 신호의 현재 프레임을 렌더링하는 데 최적인 가상 라우드스피커들의 수, 및 (ii) 가상 라우드스피커들의 포지션들(예컨대, 오디오 요소(102) 상의(그 오디오 요소에 대응하는 단순화된 규모 상의) 어디에 가상 라우드스피커들을 놓을지)를 결정하기 위한 방법이 제공된다.
규모를 갖는 오디오 요소를 렌더링하는 것은, 오디오 요소를 렌더링하기 위한 오디오 신호(들)가 오디오 요소의 그럴듯한 표현을 생성하도록 오디오 요소 상에 다수의 가상 라우드스피커를 배치하는 것을 수반할 수 있다. 오디오 요소의 규모(또는 대응하는 단순화된 규모)의 정도(즉, 크기)(예컨대, 높이, 너비 등) 및 청취자와 오디오 요소 사이의 거리에 따라, 오디오 요소의 주관적으로 설득력 있는 표현을 생성하기 위해 상이한 수의 가상 라우드스피커들이 필요할 수 있다.
예컨대, 작은 규모를 갖는 오디오 요소의 경우, 생성된 오디오 신호들이 얼마간의 양의 상관을 갖는 경우 많은 수의 가상 라우드스피커들은 콤-필터링 효과를 야기할 수 있기 때문에, 더 적은 수의 가상 라우드스피커들이 선호될 수 있다. 반면에, 청취자가 큰 오디오 요소(즉, 큰 규모를 갖는 오디오 요소)에 가까울 때, 청취자 앞의 심리음향학적 구멍의 문제를 피하기 위해 더 많은 수의 가상 라우드스피커들이 필요할 수 있다.
도 6a 및 도 6b는, 오디오 요소(102)를 상이한 1D 표현들(602 및 604)로 렌더링하는 데 너무 많은 가상 라우드스피커들이 사용되는 시나리오 및 너무 적은 가상 라우드스피커들이 사용되는 시나리오를 도시한다. 도 6a 및 도 6b가 1D 표현만을 도시하고 있지만, 다른 실시예들에서, 동일한 설명이 2D/3D 표현에 적용가능하다.
도 6a에서, 오디오 요소(102)의 1D 표현(602)은 2개의 가상 라우드스피커(606 및 608)로 적절히 표현되기에는 너무 작은데, 그 이유는, 1D 표현(602)에 의해 위치들이 정의되는 2개의 가상 라우드스피커(606 및 608)가 서로 너무 가까우며, 그에 의해, 콤-필터링 효과를 야기하기 때문이다.
반면에, 도 6b에서, 오디오 요소(102)의 1D 표현(604)은 1D 표현(604)에 의해 위치들이 정의되는 2개의 가상 라우드스피커(606 및 608)만으로 적절히 표현되기에는 너무 크며, 그에 의해, 청취자(104) 앞의 바람직하지 않은 심리음향학적 구멍을 초래한다.
그에 따라서, 오디오 요소의 규모 및 오디오 요소와 청취자 사이의 거리에 기반하여, 오디오 요소를 적절히 렌더링하기 위해 상이한 수의 가상 라우드스피커들이 필요할 수 있다. 또한, 오디오 요소가 다수의 오디오 채널들에 의해 표현되는 경우에, 다수의 오디오 채널들에 의해 표시되는 모든 공간적 정보가 렌더링되도록 더 많은 수의 가상 라우드스피커들로 오디오 요소를 렌더링하는 것이 더 양호할 수 있다.
예컨대, 오디오 요소가 수직 차원의 공간적 정보를 표현하는 오디오 채널들을 갖는 경우에, 렌더링 셋업은, 가상 라우드스피커들이 수직 뿐만 아니라 수평 공간적 정보를 렌더링할 수 있도록 포지셔닝되는 것을 필요로 한다.
따라서, 오디오 요소의 그럴듯한 표현을 제공하기 위해, 오디오 요소의 규모(예컨대, 오디오 요소의 높이 및/또는 너비) 및/또는 오디오 요소에 대한 청취자의 포지션에 기반하여 오디오 렌더링 프로세스 동안 오디오 요소를 렌더링하는 데 사용할 가상 라우드스피커들의 수를 조정하는 것이 바람직하다.
오디오 요소의 규모 및/또는 오디오 요소에 대한 청취자의 포지션에 기반하여 오디오 요소를 렌더링하는 데 사용할 가상 라우드스피커의 수를 설정 또는 조정하기 위해, 도 7a 및 도 7b에 도시된 바와 같은 방위각 각도(너비 각도로 또한 알려져 있음) 및 앙각 각도들(높이 각도로 또한 알려져 있음)이 오디오 렌더링에 사용할 가상 라우드스피커의 수를 결정하는 함수에 대한 파라미터들로서 사용될 수 있다. 예컨대, 다음과 같다:
여기서, 는 i번째 오디오 프레임에서의 가상 라우드스피커들의 수이고, ai 및 ei는 각각 i번째 오디오 프레임에서의 방위각 각도 및 앙각 각도이다.
도 7a 및 도 7b는 높이 각도(704) 및 너비 각도(706)가 어떻게 정의되는지를 도시한다. 높이 각도(704)는 오디오 요소(102)의 2D 표현(702)의 높이를 표현할 수 있고, 오디오 요소(102)에 대한 청취자(104)의 포지션에 기반하여 결정될 수 있다. 예컨대, 청취자(104)가 오디오 요소(102)를 향해 이동함에 따라 또는 2D 표현(702)의 높이가 증가함에 따라, 높이 각도(704)가 증가할 수 있다. 너비 각도(706)는 2D 표현(702)의 너비를 표현할 수 있고, 오디오 요소(102)에 대한 청취자(104)의 포지션에 기반하여 결정될 수 있다. 청취자(104)가 오디오 요소(102)를 향해 이동함에 따라 또는 오디오 요소(102)의 너비가 증가함에 따라, 너비 각도(706)가 증가한다.
위에 논의된 바와 같이, 오디오 요소(102)의 그럴듯한 표현을 제공하기 위해, 모든 각각의 오디오 프레임에 대한 오디오 요소의 규모 및/또는 오디오 요소에 대한 청취자의 포지션에 기반하여 오디오 렌더링에 사용할 가상 라우드스피커들의 수를 조정하는 것이 바람직할 수 있다.
그러나, 프레임들 간에 가상 라우드스피커들의 수의 변경하는 것은 그러한 프레임들 간의 이득 안정성에 부정적인 영향을 줄 수 있다. 이러한 부정적인 영향을 극복하기 위해, 모든 가상 라우드스피커들의 전체 이득이 일정한 이득 규칙을 따를 수 있다. 다시 말해서, 가상 라우드스피커의 수가 변경되는지 여부 및/또는 어떻게 변경되는지에 관계없이, 모든 가상 라우드스피커들의 이득들의 합이 각각의 프레임에서 동일하게 유지되어야 한다.
예컨대, 1의 이득 값을 갖는 하나의 가상 라우드스피커가 프레임 #1에 존재하는 시나리오에서, 프레임 #2에서, 가상 라우드스피커들의 수가 3으로 변경되는 경우, 3개의 가상 라우드스피커의 이득들의 합은 1이어야 한다. 이러한 제로-섬(zero-sum) 개념은 다음과 같이 공식화될 수 있다:
수학식 (1)
여기서, i는 현재 프레임의 인덱스이고, 는 i번째 프레임에서의 모든 가상 라우드스피커들의 전체 이득이고, Ni는 i번째 프레임에서의 가상 라우드스피커들의 수이고, gci는 프레임 i번째에서의 각각의 가상 라우드스피커들의 이득 인자이고 이며, SGn,i는 i번째 프레임에서의 n번째 가상 라우드스피커의 이득이다.
위의 수학식은 각각의 가상 라우드스피커로 가는 신호들이 상관된다고 가정한다. 신호들이 완전히 상관되지 않은 경우, 이득들은 일정한 전력 규칙에 따라 조정될 수 있다. 다시 말해서, 이득들은 진폭보다는 에너지를 보존하는 방식으로 조정될 수 있다. 대부분의 경우들에서, 신호들은 적어도 부분적으로 상관될 것이며, 이는, 진폭을 보존하는 것이 바람직할 수 있다는 것을 의미한다.
더 정교한 솔루션은, 진폭 및 에너지 보존 규칙들 둘 모두에 따라 이득을 계산하고, 신호의 채널들 사이의 실제 상관 양에 따라 이러한 2개의 규칙 사이의 균형인 이득을 사용하는 것일 수 있다.
위에서 설명된 이득 조정 방법은 상보적인 단계일 수 있으며, 렌더러의 다른 단계들에서의 추가적인 이득 조정들의 필요성을 약화시키지 않는다.
일부 실시예들에서, 가상 라우드스피커 셋업은, 가상 라우드스피커들의 포지션들을 수평 및 높이 각도들에 적응시킴으로써 추가로 최적화될 수 있다.
여기서, 는 i번째 프레임에서의 n번째 가상 라우드스피커의 포지션이고, ai 및 ei는 각각 방위각(수평) 및 앙각(수직) 각도들이다.
도 8a 내지 도 8c는 오디오 요소(102)를 렌더링하기 위한 가상 라우드스피커(들)의 수 및 포지션(들)이 너비 각도 및 높이 각도에 기반하여 어떻게 결정될 수 있는지를 도시한다.
도 8a에서, 너비 각도(824) 및 높이 각도(822)는 작고, 그에 따라, 오디오 요소(102)의 표현(802)의 중심에 위치된 하나의 가상 라우드스피커를 사용하는 것이 오디오 요소(102)를 렌더링하는 데 최적이다. 위에서 설명된 바와 같이, 너비 각도(824) 및 높이 각도(822)는, (i) 표현(802)의 크기가 매우 작을 때, 또는 (ii) 청취자(104)가 표현(802)으로부터 매우 멀리 있을 때 작다.
도 8b에서, 청취자(104)는 오디오 요소(102)의 표현(804)에 가깝고, 여기서, 표현(804)은 작은 높이 및 큰 너비를 가짐으로써, 너비 각도(834)가 크지만 높이 각도(832)가 작은 결과를 가져온다. 이러한 시나리오에서, 가상 라우드스피커들의 최적의 수는 3개일 수 있으며, 이들은 서로 나란히 수평으로 배치될 수 있다.
도 8c는, 작은 너비를 갖지만 큰 높이를 가짐으로써 높이 각도(842)가 크지만 너비 각도(844)가 작은 결과를 가져오는 표현(806)의 예를 도시한다. 이러한 시나리오의 경우, 서로 나란히 수직으로 배치되는 2개의 가상 라우드스피커를 사용하는 것이 오디오 요소(102)를 렌더링하기 위한 최적의 셋업일 수 있다.
일부 실시예들에서, 오디오 렌더링에 사용할 가상 라우드스피커들의 수는 미리 결정된 값들(예컨대, 1, 3, 5 등)의 그룹으로부터 선택될 수 있고, 선택은 너비 각도 및 높이 각도에 의존한다.
너비 각도 및 높이 각도 둘 모두가 매우 작을 때, 예컨대 (도 9a에 도시된 시나리오와 같이) 하나 이상의 임계 값 미만일 때, 포인트 소스 표현(예컨대, 도 9a에 도시된 902)이 오디오 요소(102)의 표현으로서 사용될 수 있으며, 그에 따라, 오디오 요소(102)를 렌더링하는 데 하나의 가상 라우드스피커만이 필요하고 사용될 수 있다. 그러한 경우에, 가상 라우드스피커는 오디오 요소의 중심에 배치될 수 있다.
반면에, 너비 각도 및 높이 각도 중 하나만이 매우 작고 ― 예컨대, (도 9b 또는 9c에 도시된 시나리오와 같이) 하나 이상의 임계 값 미만임 ―, 너비 각도 및 높이 각도 중 다른 하나는 충분히 큰(예컨대, 하나 이상의 임계 값보다 큼) 경우, 1D 표현(예컨대, 도 9b 또는 도 9c에 도시된 904 또는 906)이 오디오 요소(102)의 표현으로서 사용될 수 있고, 오디오 요소(102)를 렌더링하는 데 3개의 가상 라우드스피커가 사용될 수 있다.
(도 9d에 도시된 시나리오와 같이) 너비 각도 및 높이 각도 둘 모두가 충분히 클 때, 2D 표현(예컨대, 도 9d에 도시된 908)이 오디오 요소(102)의 표현으로서 사용될 수 있고, 오디오 요소(102)를 렌더링하는 데 5개의 가상 라우드스피커가 사용될 수 있다. 그러한 시나리오에서, 5개의 가상 라우드스피커 중 하나는 2D 표현의 중심에 위치될 수 있고, 나머지 4개의 가상 라우드스피커는 2D 표현의 코너들에 위치될 수 있다.
"너무 작다" 및 "충분히 크다"라는 용어들은, 콤-필터링 효과 및 심리음향학적 구멍을 감소시키거나 방지하는 관점들에서 정의될 수 있다. 용어들은 다음과 같이 수학적으로 정의될 수 있다:
여기서 hc (i) 및 vc(i)는 i번째 프레임에서의 플래그들이고, 이들은 가상 라우드스피커들의 수를 결정하는 데 사용된다.
α = a / 2(a는 수평 각도임) 및 β = e / 2(e는 수직 각도임)이고, Chthr ∈ (0,1] 및 Cvthr ∈ (0,1]은 "너무 작은" 것으로 그리고/또는 "충분히 큰" 것으로 간주되는 수평 및 높이 각도들의 범위들을 정의하는 상수들이다.
너비 각도의 절반 또는 높이 각도의 절반이 hc (i) 및 vc(i)를 획득하는 데 사용되는 이유는, 이론적으로, 너비 각도 및 높이 각도 각각이 0 초과이지만 π 이하인 임의의 값(즉, a & e ∈ (0,π])일 수 있기 때문이다. sin(x)의 값이 x가 0도와 90도 사이에 있는 한 x의 값에 비례하므로, 너비 각도 및 높이 각도 각각을 2로 나눔으로써, α 및 β는 0도와 90도 사이의 범위 내에 있다(즉, α & β ∈ (0,π/2]).
일부 실시예들에서, i번째 프레임에서의 가상 라우드스피커들의 수는 아래와 같이 공식화될 수 있다:
또한, 일부 실시예들에서, i번째 프레임에서의 각각의 가상 라우드스피커의 포지션()은 아래와 같이 공식화될 수 있다:
(도 9a)
(도 9b)
(도 9c)
여기서, 는 가상 라우드스피커(942)의 포지션이고, 는 가상 라우드스피커(944)의 포지션이고, 는 가상 라우드스피커(946)의 포지션이고, 는 가상 라우드스피커(947)의 포지션이며, 는 가상 라우드스피커(948)의 포지션이다.
centerpoint(x,y,z)는 오디오 요소(102)의 (포인트/1D/2D) 표현(902, 904, 906, 또는 908)의 중심 포인트의 포지션이고, leftpoint(x,y,z)는 1D 표현(904)의 좌측 코너의 포지션이고, rightpoint(x,y,z)는 1D 표현(904)의 우측 코너의 포지션이고, toppoint(x,y,z)는 1D 표현(906)의 상단 코너의 포지션이며, bottompoint(x,y,z)는 1D 표현(906)의 하단 코너의 포지션이다. bottomleftpoint(x,y,z)는 2D 표현(908)의 좌측 하단 코너의 포지션이고, bottomrightpoint(x,y,z)는 2D 표현(908)의 우측 하단 코너의 포지션이고, topleftpoint(x,y,z)는 2D 표현(908)의 좌측 상단 코너의 포지션이며, toprightpoint(x,y,z)는 2D 표현(908)의 우측 상단 코너의 포지션이다.
각각의 가상 라우드스피커의 이득 조정이 위에 논의된 수학식 (1)을 사용하여 결정될 수 있다.
오디오 요소(102)의 2D 표현은 도 9b에 도시된 1D 표현(904) 및 도 9c에 도시된 1D 표현(906)을 결합함으로써 이루어질 수 있다. 그러나, 실험들은, 도 9d에 도시된 바와 같이 5개의 가상 라우드스피커 중 4개가 2D 표현의 코너들에 위치될 때 공간적 큐들이 더 양호하게 보존된다는 것을 보여주었다.
위에 논의된 바와 같이, 오디오 요소(102)를 렌더링하는 데 사용할 가상 라우드스피커들의 수 및/또는 포지션들은 오디오 요소(102)의 표현의 크기 및/또는 오디오 요소(102)와 청취자(104) 사이의 거리에 기반하여 달라질 수 있다.
그러나, 가상 라우드스피커들의 수 및/또는 포지션들의 갑작스러운 변화는 오디오 요소를 렌더링하기 위한 오디오 신호 출력에서 바람직하지 않은 아티팩트를 초래할 수 있다. 그러한 바람직하지 않은 아티팩트를 감소시키고/거나 방지하기 위해, 하나의 가상 라우드스피커 셋업(특정 수 및 특정 포지션들의 가상 라우드스피커들과 연관됨)으로부터 다른 가상 라우드스피커 셋업(상이한 수 및/또는 상이한 포지션들의 가상 라우드스피커들과 연관됨)으로의 매끄러운 전환을 제공하는 것이 바람직하다. 본 개시내용의 일부 실시예들은, 상이한 가상 라우드스피커 셋업들 사이에서의 매끄러운 전환을 달성하기 위한 방식을 제공한다.
도 9a 내지 도 9d는 일부 실시예들에 따른 오디오 요소(102)의 상이한 표현들을 도시한다. 도 9a에 도시된 표현(902)은 포인트 표현이다. 도 9b 또는 도 9c에 도시된 표현(904 또는 906)은 1D 표현이다. 도 9d에 도시된 표현(908)은 2D 표현이다.
포인트 표현(902)으로부터 1D 표현(904 또는 906)으로의 전환 및 1D 표현(904 또는 906)으로부터 2D 표현(908)으로의 전환은, 전환 방식 #1 ― 포인트 표현(902)으로부터 1D 표현(904)("1D 수평 표현")으로 그리고 이어서 2D 표현(908)으로의 전환 ―, 또는 전환 방식 #2 ― 포인트 표현(902)으로부터 1D 표현(906)("1D 수직 표현")으로 그리고 이어서 2D 표현(908)으로의 전환 ― 에 의해 달성될 수 있다.
그에 따라, 일부 실시예들에서, 오디오 요소의 표현을 스위칭하기 위한 적절한 전환 방식은, 오디오 요소(102) 및 청취자(104)와 연관된 너비 각도(예컨대, 도 7b에 도시된 706) 및 높이 각도(예컨대, 도 7a에 도시된 704)에 기반하여 2개의 전환 방식으로부터 선택될 수 있다.
예컨대, 도 1에 도시된 VR 환경(100)에서, 청취자(104)가 특정 방향으로 오디오 요소(102)에 더 가깝게 이동함에 따라, 높이 각도(704)가 변하는 레이트보다 더 빠른 레이트로 너비 각도(706)가 변하는 시나리오가 존재할 수 있고, 그에 따라, 너비 각도(706)는 높이 각도(704)가 높이 임계치를 통과하기 전에 너비 임계치를 통과할 것이다. 그러한 시나리오에서, 전환 방식 #1 ― 포인트 표현(902)으로부터 1D 수평 표현(904)을 통한 2D 표현(908)으로의 전환 ― 이 적용될 수 있다. 너비 임계치 및 높이 임계치는 동일하거나 상이할 수 있다.
반면에, 청취자(104)가 특정 방향으로 오디오 요소(102)에 더 가깝게 이동하는 경우, 너비 각도(706)가 변하는 레이트보다 빠른 레이트로 높이 각도(704)가 변하는 시나리오가 존재할 수 있고, 그에 따라, 높이 각도(704)는 너비 각도(706)가 임계치를 통과하기 전에 임계치를 통과할 것이다. 그러한 시나리오에서, 전환 방식 #2 ― 포인트 표현(902)으로부터 1D 수직 표현(906)을 통한 2D 표현(908)으로의 전환 ― 가 적용될 수 있다.
청취자(104)가 오디오 요소(102)에 더 가깝게 이동함에 따라, 높이 각도(704) 및 너비 각도(706)가 동일한 레이트로 변경되고, 그에 따라, 높이 각도(704) 및 너비 각도(706)가 실질적으로 동시에 임계치를 통과하는 드문 시나리오가 또한 존재할 수 있다. 그러한 시나리오에서, 방법들 둘 모두가 적용가능하다.
일단 전환 방식이 선택되면, 현재 높이 각도 및 현재 너비 각도가 개개의 임계치 이상인 것이 계속되는 한, 높이 각도 및 너비 각도 중 하나가 더 빠르게 변하는지에 관한 변화가 존재하는지 여부에 관계없이, 선택된 전환 방식이 계속하여 적용된다. 예컨대, 시간 t = t0에서, 너비 각도 변화의 레이트가 높이 각도 변화의 레이터보다 높기 때문에 전환 방식 #1이 선택될 수 있다. 그러나, 시간 t = t1에서, 높이 각도 변화의 레이트가 너비 각도 변화의 레이트보다 커지는 시나리오가 존재할 수 있다. 그러한 시나리오에서, 일 실시예에 따르면, 현재 높이 각도 및 현재 너비 각도가 개개의 임계치 이상인 것이 계속되는 한, 전환 방식 #1이 계속하여 적용된다.
반면에, 시간 t = t0 이후에, 오디오 요소(102)와 청취자(104) 사이의 거리가 증가되며, 이에 따라, 시간 t = t1에서, 너비 각도가 너비 각도 임계치 미만이고 높이 각도가 높이 각도 임계치 미만인 경우, 시간 t = t0에서 선택된 전환 방식은 더 이상 적용가능하지 않으며, 위에서 설명된 방법에 따라 새로운 전환 방식이 선택될 것이다.
오디오 요소(102)의 표현의 너비(예컨대, 도 9b에 도시된 950)가 오디오 요소(102)의 표현의 높이(예컨대, 도 9b에 도시된 952)보다 이상인 시나리오들에서, 오디오 요소(102) 및 청취자(104)가 서로 더 가까워짐으로써, 오디오 요소(102)와 청취자(104) 사이의 거리(예컨대, 도 9b에 도시된 920)가 감소함에 따라, 너비 각도(예컨대, 도 9b에 도시된 972)는 높이 각도(예컨대, 도 9b에 도시된 974)가 증가하는 레이트보다 빠르거나 그와 동일한 레이트로 증가하고, 그에 따라, sin(α)가 sin(β)가 증가하는 레이트보다 빠르거나 그와 동일한 레이트로 증가한다. α = 이고 β = 라는 것을 유의한다.
그러한 시나리오들에서, 오디오 요소(102)의 초기 표현이 포인트 표현(예컨대, 도 9a에 도시된 902)인 경우, 오디오 요소(102) 및 청취자(104)가 서로 더 가까워짐에 따라, 오디오 요소(102)를 렌더링하는 데 사용할 가상 라우드스피커들의 수는 하나의 가상 라우드스피커로부터 3개의 수평으로 배열된 가상 라우드스피커로 증가(즉, 포인트 표현(902)으로부터 1D 표현(904)으로 전환)할 수 있다.
더 구체적으로, 도 9a에 도시된 바와 같이, 오디오 요소(102)가 포인트 소스(902)로서 표현될 때, 표현(902)의 중심에 포지셔닝되는 하나의 가상 라우드스피커만이 오디오 요소(102)를 표현하는 데 사용될 수 있다. 반면에, 도 9b에 도시된 바와 같이, 오디오 요소(102)가 1D 표현(904)을 사용하여 표현될 때, 3개의 일렬로 배열된 가상 라우드스피커가 오디오 요소(102)를 표현하는 데 사용될 수 있다.
일부 실시예들에서, 오디오 요소(102)를 렌더링하는 데 사용할 가상 라우드스피커들의 수를 1개에서 3개로 증가시키기 위한 하나의 방식은, 포인트 표현(예컨대, 도 9a에 도시된 902)에 존재하던 가상 스피커(예컨대, 도 9a에 도시된 942)를 유지하고, 1D 표현(904)의 좌측 및 우측에 2개의 가상 라우드스피커(944 및 946)를 부가하는 것이다. 즉, = leftpoint(x,y,z)이고 = rightpoint(x,y,z)이며, 여기서, 는 새롭게 부가된 가상 스피커(944)의 포지션이고, 새롭게 부가된 가상 스피커(946)의 포지션이다. leftpoint(x,y,z)는 1D 표현(904)의 좌측 코너 포지션이고, rightpoint(x,y,z)는 1D 표현(904)의 우측 코너 포지션이다.
포인트 표현(902)으로부터 1D 수평 표현(904)으로의 매끄러운 전환을 이루기 위해, 새롭게 부가된 가상 라우드스피커들(944 및 946) 각각의 이득이 점진적으로 증가될 수 있다. 예컨대, 일부 실시예들에서, 새롭게 부가된 가상 라우드스피커들(944 및 946) 각각의 이득은 너비 각도(972)에 기반하여 결정될 수 있다. 예컨대, 및 이며, 여기서, SG2,i는 가상 라우드스피커(944)의 조정된 이득이고, SG3,i는 가상 라우드스피커(946)의 조정된 이득이다. 및 는 디폴트 이득들이며, 미리 정의될 수 있다. 일부 실시예들에서, 디폴트 이득들은 1일 수 있다. f(α)는 α ∈ [0,π/2]에 기반하여 0과 1 사이에서 달라질 수 있는 이득 조정 인자이다(즉, f(α) ∈ [0,1]). α = 라는 것을 유의한다.
일부 실시예들에서, α가 시작 임계 각도 값(αst) 미만이지만 α가 증가하는 경우에 상수 값으로부터 (예컨대, 선형적으로, 지수적으로 등으로) 증가하기 시작하는 경우, f(α)는 상수 값이도록 설정될 수 있다. α가 끝 임계 각도 값(αend)이 될 때, f(α)는 다른 상수 값이도록 설정될 수 있다. 예컨대, 다음과 같다.
αst 및 αend는 0도와 90도 사이에서 조정가능할 수 있지만, 항상 αst < αend의 조건을 충족시킬 필요가 있을 수 있다.
도 10은 f(α)가 α = 20으로부터 α = 65로 선형적으로 증가하는 이득 조정의 예이다.
다른 실시예들에서, 이득 조정 인자 f(α)는 또한 α의 삼각 함수일 수 있다. 예컨대, f(α) = k * sin(α)이며, 여기서, k는 전환의 속도를 제어하는 상수이다.
오디오 소스(102)의 표현이 포인트 소스 표현(902)으로부터 1D 수평 표현(904)으로 전환된 후에, 높이 각도(974)가 더 커지는 시나리오가 존재할 수 있다. 높이 각도(974)가 더 커짐에 따라, β(와 동일함)가 더 커짐으로써 더 유의미하게 된다. 일단 β가 충분히 유의미하게 되면, 오디오 요소(102)의 표현은 1D 수평 표현(904)으로부터 2D 표현(908)으로 추가로 전환될 수 있다.
1D 수평 표현(904)으로부터 2D 표현(908)으로의 전환은 오디오 요소(102)의 2D 표현(908)의 경계를 결정함으로써 시작될 수 있다. 2D 표현(908)의 경계를 결정한 후에, 2개의 새로운 가상 라우드스피커(947 및 948)가 2D 표현(908)의 좌측 상단 코너 및 우측 상단 코너에 부가될 수 있다.
또한, 1D 수평 표현(904)에 존재하던 2개의 가상 라우드스피커(944 및 946)는 1D 수평 표현(904)에서의 그들의 초기 포지션들로부터 2D 표현(908)의 좌측 하단 코너 및 우측 하단 코너를 향해 이동될 수 있다.
즉, 다음과 같다:
여기서, 는 새롭게 부가된 가상 라우드스피커(947)의 포지션이고, 는 새롭게 부가된 가상 라우드스피커(948)의 포지션이고, topleftpoint(x,y,z)는 2D 표현(908)의 좌측 상단 코너의 포지션이며, toprightpoint(x,y,z)는 2D 표현(908)의 우측 상단 코너의 포지션이다.
는 기존 가상 라우드스피커(944)의 포지션이고, 는 기존 가상 라우드스피커(946)의 포지션이고, bottomleftpoint(x,y,z)는 2D 표현(908)의 좌측 하단 코너의 포지션이고, leftedgepoint(x,y,z)는 2D 표현(908)의 좌측 측부의 중심 포인트이고(즉, 좌측 에지 포인트는 좌측 상단 포인트와 좌측 하단 포인트 사이의 중간 포인트임), bottomrightpoint(x,y,z)는 2D 표현(908)의 우측 하단 코너의 포지션이며, rightedgepoint(x,y,z)는 2D 표현(908)의 우측 측부의 중심 포인트이다(즉, 우측 에지 포인트는 우측 상단 포인트와 우측 하단 포인트 사이의 중간 포인트임). 여기서, sin(β) 대신에, 상이한 함수(f(β))가 사용될 수 있다. β가 시작 임계 각도 값(βst) 미만이지만 β가 증가하는 경우에 상수 값으로부터 (예컨대, 선형적으로, 지수적으로 등으로) 증가하기 시작하는 경우, f(β)는 상수 값이도록 설정될 수 있다. β가 끝 임계 각도 값(βend)이 될 때, f(β)는 다른 상수 값이도록 설정될 수 있다. 예컨대, 다음과 같다:
βst 및 βend는 0도와 90도 사이에서 조정가능할 수 있지만, 항상 βst < βend의 조건을 충족시킬 필요가 있을 수 있다.
1D 표현(904)으로부터 2D 표현(908)으로 전환할 때, 처음에, 높이 각도(974)가 실질적으로 낮을 때에는, 가상 라우드스피커(944 및 946)의 포지션은 가상 라우드스피커(942)의 포지셔닝에 대해 동일하게 유지된다. 그러나, 오디오 요소(102)의 표현의 높이가 증가함에 따라, 가상 라우드스피커(944)의 포지션은 2D 표현(908)의 좌측 하단 코너를 향해 이동한다. 유사하게, 오디오 요소(102)의 표현의 높이가 증가함에 따라, 가상 라우드스피커(946)의 포지션은 2D 표현(908)의 우측 하단 코너를 향해 이동한다.
도 11은 일부 실시예들에 따른, 포인트 소스 표현(1102)으로부터 1D 표현(1104) 및 중간 2D 표현(1106)을 통한 2D 표현(1108)으로의 전환을 도시한다. 전환을 매끄럽게 하기 위해, 위에 논의된 이득 조정 방법(포인트 표현으로부터 1D 표현으로의 전환에 사용되는 이득 조정 방법)이 여기서 사용될 수 있다. 예컨대, 1D 표현(1104)으로부터 중간 2D 표현(1106)으로의 전환의 경우, 2개의 새롭게 부가된 가상 라우드스피커(1114 및 1116)에 대한 이득 조정은 다음과 같이 높이 각도에 기반하여 결정될 수 있다:
여기서, β = 이고, g(β)는 β ∈ [0,π/2]에 기반하여 0과 0.5 사이에서 달라지는 이득 조정 인자 함수이다(g(β) ∈ [0,0.5]).
SG4,i 및 SG5,i는 각각 새롭게 부가된 가상 라우드스피커들(1114 및 1116)의 이득들이다. 및 는 미리 정의될 수 있는 디폴트 이득들이다.
이득 조정 인자 함수 g(β)는 특정 높이(앙각) 각도에서 이득 변화가 발생하게 할 수 있다. 즉, β = βst에서, g(β)는 0으로부터 (예컨대, 선형적으로, 지수적으로 등으로) 증가하기 시작하고, β = βend에서, g(β)는 0.5에 도달한다:
또한, 모든 가상 라우드스피커들의 전체 이득의 안정성을 보존하기 위해, (예컨대, 중간 2D 표현(1106)으로부터 2D 표현(1108)으로의 전환 동안) 2개의 새로운 가상 라우드스피커(1114 및 1116)의 이득들이 증가함에 따라, 1D 표현(1104) 내에 존재하던 2개의 가상 라우드스피커 ― 가상 라우드스피커들(1112 및 1118) ― 의 이득들은 다음을 사용하여 점진적으로 감쇠될 수 있다:
여기서, SG2,i 및 SG3,i는 각각 기존 가상 라우드스피커들(1112 및 1118)의 이득들이다. 및 미리 정의될 수 있는 디폴트 이득들이다.
위에 논의된 바와 같이, 이러한 이득 조정 방법은 상보적인 단계일 수 있으며, 렌더러의 다른 단계들에서의 추가적인 이득 조정들의 필요성을 약화시키지 않는다.
오디오 요소의 높이가 오디오 요소의 너비 이상(즉, 너비 < 높이 또는 너비 = 높이)인 시나리오들에서, 오디오 요소(102)의 포인트 표현(예컨대, 도 9a에 도시된 902)으로부터 2D 표현(예컨대, 도 9d에 도시된 908)으로의 전환은, 포인트 표현(예컨대, 도 9a에 도시된 902)으로부터 1D 수직 표현(예컨대, 도 9c에 도시된 906)으로 그리고 이어서 1D 수직 표현(예컨대, 도 9c에 도시된 906)으로부터 2D 표현(예컨대, 도 9d에 도시된 908)으로 전환함으로써 수행될 수 있다.
즉, 포인트 표현(902)으로부터 1D 수직 표현(906)으로의 전환의 경우, 2개의 새롭게 부가된 가상 라우드스피커(982 및 984)의 포지션은 다음과 같이 설정될 수 있다:
여기서, 는 새롭게 부가된 가상 라우드스피커(982)의 포지션이고, 는 새롭게 부가된 가상 라우드스피커(984)의 포지션이고, toppoint(x,y,z)는 2D 표현(906)의 상단 코너의 포지션이며, bottompoint(x,y,z)는 2D 표현(906)의 하단 코너의 포지션이다.
포인트 표현(902)으로부터 1D 수직 표현(906)으로의 전환을 매끄럽게 하기 위해, 새롭게 부가된 가상 라우드스피커들(982 및 984)의 이득은 점진적으로 증가할 수 있다. 가상 라우드스피커들(982 및 984)의 이러한 이득 조정은 높이(앙각) 각도에 기반하여 결정될 수 있다:
여기서, f(β)는 β ∈ [0,π/2]에 기반하여 0과 1 사이에서 달라지는 이득 조정 인자이고(f(β) ∈ [0,1]), 는 가상 라우드스피커(982)의 디폴트 이득이며, 는 가상 라우드스피커(984)의 디폴트 이득이다.
이득 조정 인자 함수 f(β)는 특정 높이(앙각) 각도에서 이득 변화가 발생하게 할 수 있다. 즉, β = βst에서, f(β)는 0으로부터 (예컨대, 선형적으로, 지수적으로 등으로) 증가하기 시작하고, β = βend에서, f(β)는 1에 도달한다:
βst 및 βend는 βst < βend의 조건에 따라 0도와 90도 사이에서 달라질 수 있다.
α가 유의미하게 됨에 따라, 1D 표현(906)으로부터 2D 표현(908)으로의 전환은, 2D 표현(908)의 좌측 상단 및 좌측 하단 코너들에 2개의 가상 라우드스피커(986 및 988)를 부가하고 2개의 이미 부가된 가상 라우드스피커(982 및 984)를 각각 2D 표현(908)의 초기 포지션들로부터 우측 상단 및 우측 하단 코너들을 향해 이동시킴으로써 발생하기 시작할 수 있다. 즉, 다음과 같다:
여기서, 는 새롭게 부가된 가상 라우드스피커(986)의 포지션이고, 는 새롭게 부가된 가상 라우드스피커(988)의 포지션이고, topleftpoint(x,y,z)는 2D 표현(908)의 좌측 상단 코너의 포지션이며, toprightpoint(x,y,z)는 2D 표현(908)의 우측 상단 코너의 포지션이다. 위에서 설명된 바와 같이, sin(α)는 예시적인 함수로서 제공된다. sin(α) 대신에, 위에서 설명된 임의의 일반 함수 f(α)가 사용될 수 있다.
는 기존 가상 라우드스피커(982)의 포지션이고, 는 기존 가상 라우드스피커(984)의 포지션이고, toprightpoint(x,y,z)는 2D 표현(908)의 우측 상단 코너의 포지션이며, bottomrightpoint(x,y,z)는 2D 표현(908)의 우측 하단 코너의 포지션이다.
도 12는 포인트 표현(1202)으로부터 2D 표현(1208)으로의 전환을 도시한다. 전환은, 포인트 표현(1202)으로부터 1D 표현(1204)으로의 전환 및 1D 표현(1204)으로부터 2D 중간 표현(1206)을 통한 2D 표현(1208)으로의 전환을 포함할 수 있다. 도 11에 도시된 실시예와 같이, 1D 표현(1204)으로부터 2D 표현(1208)으로의 전환을 매끄럽게 하기 위해, 오디오 요소(102)를 렌더링하는 데 사용되는 가상 라우드스피커들의 이득이 점진적으로 조정될 수 있다. 예컨대, 2D 표현(1208)을 생성하기 위해 새롭게 부가되는 가상 라우드스피커들(1226 및 1228) 각각의 이득은 너비 각도(a)에 의존하는 α에 기반하여 조정될 수 있다. 일부 실시예들에서, α는 와 동일할 수 있다.
일 예에서, 가상 라우드스피커들(1226 및 1228) 각각의 이득은 다음과 같이 설정될 수 있다:
여기서, g(α)는 에 기반하여 0과 0.5 사이에서 달라질 수 있는 이득 조정 인자이고(g(α) ∈ [0,0.5]), 는 가상 라우드스피커(1226)의 디폴트 이득이며, 는 가상 라우드스피커(1228)의 디폴트 이득이다.
이득 조정 인자 g(α)에 대한 예시적인 함수를 아래에 나타낸다:
위에 나타낸 바와 같이, 이득 조정 인자는 α가 하위 임계 값 αst에 도달할 때까지 0이도록 유지된다. 다시 말해서, 너비 각도가 특정 임계 각도에 도달할 때까지 이득 조정 인자는 0이도록 유지된다. 일단 너비 각도가 임계 각도에 도달하고, 그에 따라 α가 하위 임계 값(αst)에 도달하면, α가 하위 임계 값(αst)으로부터 상위 임계 값(αend)으로 증가함에 따라 g(α)는 0으로부터 0.5로 (예컨대, 선형적으로, 지수적으로 등으로) 증가하기 시작한다. 일단 α가 상위 임계 값(αend)에 도달하면, g(α)는, α가 상위 임계 값(αend)을 넘어 추가로 증가하는지 여부에 관계없이 0.5이도록 설정된다.
도 12에 도시된 바와 같이, 중간 2D 표현(1206)에서, 오디오 요소(102)를 렌더링하기 위해 5개의 가상 라우드스피커(1222, 1224, 1226, 1228, 및 1230)가 사용된다. 그러나, 가상 라우드스피커들(1226 및 1228) 각각의 이득이 나머지 가상 라우드스피커들의 이득을 조정함이 없이 증가하는 경우, 가상 라우드스피커들의 조합의 전체 이득은 비례하지 않게 증가될 수 있다.
모든 가상 라우드스피커들의 전체 이득의 안정성을 보존하기 위해, 가상 라우드스피커들(1226 및 1228)의 이득이 증가함에 따라, 기존의 2개의 가상 라우드스피커(1222 및 1224)의 이득은 다음을 사용하여 점진적으로 감쇠될 수 있다:
여기서, SG2,i는 가상 라우드스피커(1222)의 이득이고, SG3,i는 가상 라우드스피커(1224)의 이득이다. 유사하게, 는 가상 라우드스피커(1222)의 디폴트 이득이고, 는 가상 라우드스피커(1224)의 디폴트 이득이다. 디폴트 이득들은 미리 결정될 수 있다.
위에서 설명된 전환 방법들은, 포인트 표현(1202)으로부터 1D 표현(1204)으로 그리고 이어서 1D 표현(1204)으로부터 2D 표현(1208)으로의 전환을 수행하는 것으로 제한되지 않는다. 위에서 설명된 전환 방법들은 또한, 포인트 표현으로부터 1D 수평 표현으로의 전환 동안 1D 수평 표현으로부터 2D 표현으로의 전환이 시작되는 시나리오에 적용가능하다.
도 13은 일부 실시예들에 따른, 오디오 요소(102)의 표현을 스위칭하는 대안적인 방법을 도시한다. 도 13에 도시된 실시예들에서, 오디오 요소(102)의 표현은 포인트 표현(1302)으로부터 2D 표현으로 직접(즉, 1D 표현으로의 스위칭을 거치지 않고) 스위칭된다. 더 구체적으로, 도 13에 도시된 실시예들에서, 오디오 요소(102)의 표현은, 포인트 소스 표현(1302)으로부터 제1 중간 2D 표현(1304) 및 제2 중간 2D 표현(1306)을 통해 2D 표현(1308)으로 스위칭된다.
도 13에 도시된 실시예들에서, 오디오 요소(102)의 2D 표현(1308)과 같이, 포인트 표현(1302)은 5개의 가상 스피커(1322, 1324, 1326, 1328, 및 1330)가 있는 2차원이다. 가상 라우드스피커(1330)는 2D 표현(1308)의 중심에 위치될 수 있는 한편, 나머지 4개의 가상 라우드스피커는 2D 표현(1308)의 경계에 위치된다. 예컨대, 가상 라우드스피커들(1322, 1324, 1326, 및 1328)의 포지션들은 다음과 같이 정의될 수 있다:
여기서, 는 가상 라우드스피커(1322)의 포지션이고, 는 가상 라우드스피커(1324)의 포지션이고, 는 가상 라우드스피커(1326)의 포지션이며, 는 가상 라우드스피커(1328)의 포지션이다.
또한, 도 13에 도시된 바와 같이, topleftpoint(x,y,z)는 2D 표현(1308)의 좌측 상단 코너의 포지션이고, bottomleftpoint(x,y,z)는 2D 표현(1308)의 좌측 하단 코너의 포지션이고, toprightpoint(x,y,z)는 2D 표현(1308)의 우측 상단 코너의 포지션이며, bottomrightpoint(x,y,z)는 2D 표현(1308)의 우측 하단 코너의 포지션이다.
도 13에 도시된 가상 라우드스피커들의 수는 단지 예시의 목적으로 제공되며, 어떠한 방식으로든 본 개시내용의 실시예들을 제한하지 않는다.
오디오 요소(102)의 포인트 표현(1302)은, 가상 라우드스피커들(1322, 1324, 1326, 및 1328) 각각의 이득을 낮게 설정하는 한편 중심 가상 라우드스피커(1330)의 이득을 나머지 라우드스피커들의 이득에 비해 높게 설정함으로써 달성될 수 있다. 예컨대, 가상 라우드스피커들(1322, 1324, 1326, 및 1328) 각각의 이득은 영(zero)으로 설정되거나 영에 가깝게 설정될 수 있다. 중앙 가상 스피커(1330)의 이득을 높게 설정하는 한편 나머지 4개의 라우드스피커의 이득을 낮게 설정함으로써, 오디오 요소(102)는 청취자에 의해 포인트 소스로서 인지될 것이다.
포인트 표현(1302)으로부터 2D 표현(1308)으로 스위칭하기 위해, 가상 라우드스피커들의 수를 변경할 필요가 없는데, 그 이유는, 오디오 요소(102)의 포인트 소스 표현(1302)이 2D 표현(1308)을 표현하는 데 필요한 수의 가상 라우드스피커들(예컨대, 도 12에서, 가상 라우드스피커들의 수는 5임)을 포함하기 때문이다.
그에 따라, 오디오 요소(102)의 표현을 포인트 표현(1302)으로부터 2D 표현(1308)으로 스위칭하기 위해 가상 라우드스피커들 각각의 이득만이 조정될 필요가 있다. 그러나, 가상 라우드스피커들(1324, 1324, 1326, 및 1328) 각각의 이득을 갑작스럽게 증가시켜 2D 표현(1308)을 생성하는 것은, 오디오 요소(102)를 렌더링하기 위한 오디오 신호 출력에서 바람직하지 않은 아티팩트를 초래할 수 있다. 그에 따라, 포인트 소스 표현(1302)으로부터 2D 표현(1308)으로의 전환을 매끄럽게 하기 위해, 가상 라우드스피커들(1322, 1324, 1326, 및 1328) 각각의 이득은 점진적으로 증가될 수 있고, 그에 의해, 제1 및 제2 중간 표현들(1304 및 1306)을 거치게 된다.
일부 실시예들에서, 이득들을 조정하는 정도는 너비(방위각) 각도(706) 및 높이(앙각) 각도(704)에 (예컨대, 선형적으로, 지수적으로, 또는 삼각법적으로) 의존할 수 있다. 예컨대, 다음과 같다:
여기서, SG2,i는 가상 라우드스피커(1322)의 이득이고, SG3,i는 가상 라우드스피커(1324)의 이득이고, SG4,i는 가상 라우드스피커(1326)의 이득이고, SG5,i는 가상 라우드스피커(1328)의 이득이고, 는 가상 라우드스피커(1322)의 디폴트 이득이고, 는 가상 라우드스피커(1324)의 디폴트 이득이고, 는 가상 라우드스피커(1326)의 디폴트 이득이며, 는 가상 라우드스피커(1328)의 디폴트 이득이다.
위에서 설명된 바와 같이, α = 및 β = 이다. 또한, r은 전환 레이트(즉, 포인트 표현(1302)으로부터 2D 표현(1308)으로의 전환이 얼마나 빠르게 또는 느리게 발생하는지)를 제어하는 상수이다. 일 예에서, r은 0 ≤ r * sin(α) * sin(β) ≤ 1이도록 설정될 수 있다.
도 13은 포인트 표현(1302)으로부터 2D 표현(1308)으로의 전환만을 도시하고 있지만, 2D 표현(1308)으로부터 포인트 표현(1302)으로의 전환이 동일한 방법을 사용하여(즉, 가상 라우드스피커들 각각의 이득을 제어함으로써) 달성될 수 있다.
다른 대안적인 실시예에서, 포인트 표현으로부터 2D 표현으로의 전환은 도 14에 도시된 바와 같이 9개의 가상 라우드스피커(1422, 1423, 1424, 1425, 1426, 1427, 1428, 1429, 1430)를 사용하여 이루어질 수 있다. 9개의 가상 라우드스피커의 오디오 효과를 그들의 이득들을 조정하는 것을 통해 페이드-인(fade-in) 및/또는 페이드-아웃(fade-out)함으로써, 오디오 요소(102)의 표현은 포인트 소스 표현과 2D 표현 사이에서 스위칭될 수 있다. 일 예에서, 9개의 가상 라우드스피커 각각의 포지션들은 다음과 같이 수학적으로 표현될 수 있다:
여기서, 는 가상 라우드스피커(1430)의 포지션이고, 는 가상 라우드스피커(1422)의 포지션이고, 는 가상 라우드스피커(1423)의 포지션이고, 는 가상 라우드스피커(1424)의 포지션이고, 는 가상 라우드스피커(1425)의 포지션이고, 는 가상 라우드스피커(1426)의 포지션이고, 는 가상 라우드스피커(1427)의 포지션이고, 는 가상 라우드스피커(1428)의 포지션이며, 는 가상 라우드스피커(1429)의 포지션이다.
centerpoint(x,y,z)는 오디오 요소(102)의 2D 표현(1400)의 중심 포인트이고, leftedgepoint(x,y,z)는 2D 표현(1400)의 좌측 측부의 중심 포인트이고, rightedgepoint(x,y,z)는 2D 표현(1400)의 우측 측부의 중심 포인트이고, topedgepoint(x,y,z)는 2D 표현(1400)의 상단 측부의 중심 포인트이고, bottomedgepoint(x,y,z)는 2D 표현(1400)의 하단 측부의 중심 포인트이고, topleftpoint(x,y,z)는 2D 표현(1400)의 좌측 상단 코너의 포지션이고, bottomleftpoint(x,y,z)는 2D 표현(1400)의 좌측 하단 코너의 포지션이고, topleftpoint(x,y,z)는 2D 표현(1400)의 좌측 상단 코너의 포지션이며, bottomleftpoint(x,y,z)는 2D 표현(1400)의 좌측 하단 코너의 포지션이다.
도 13에 도시된 실시예들과 같이, 도 14에 도시된 실시예들에서, 오디오 요소(102)의 표현을 포인트 소스 표현으로부터 2D 표현으로 스위칭하기 위해, 가상 라우드스피커들의 수를 조정할 필요가 없다. 스위칭을 수행하기 위해 가상 라우드스피커들의 이득들만이 조정될 필요가 있다. 그러나, 가상 라우드스피커들의 이득들을 갑작스럽게 변경하는 것은 오디오 요소(102)를 렌더링하기 위한 오디오 신호 출력에서 바람직하지 않은 아티팩트를 초래할 수 있다.
그에 따라, 포인트 소스 표현으로부터 2D 표현으로의 전환을 매끄럽게 하기 위해, 가상 라우드스피커들 각각의 이득은 점진적으로 조정될 수 있고, 그에 의해, 제1 및 제2 중간 표현들(1404 및 1406)을 거치게 된다.
일부 실시예들에서, 이득들을 조정하는 정도는 방위각 각도(122) 및 앙각 각도(124)에 (예컨대, 선형적으로, 지수적으로, 또는 삼각법적으로) 의존할 수 있다. 예컨대, 다음과 같다:
여기서, SG1,i는 가상 라우드스피커(1430)의 이득이고, SG2,i는 가상 라우드스피커(1422)의 이득이고, SG3,i는 가상 라우드스피커(1423)의 이득이고, SG4,i는 가상 라우드스피커(1424)의 이득이고, SG5,i는 가상 라우드스피커(1425)의 이득이고, SG6,i는 가상 라우드스피커(1426)의 이득이고, SG7,i는 가상 라우드스피커(1427)의 이득이고, SG8,i는 가상 라우드스피커(1428)의 이득이며, SG9,i는 가상 라우드스피커(1429)의 이득이다.
유사하게, 는 가상 라우드스피커(1430)의 디폴트 이득이고, 는 가상 라우드스피커(1422)의 디폴트 이득이고, 는 가상 라우드스피커(1423)의 디폴트 이득이고, 는 가상 라우드스피커(1424)의 디폴트 이득이고, 는 가상 라우드스피커(1425)의 디폴트 이득이고, 는 가상 라우드스피커(1426)의 디폴트 이득이고, 는 가상 라우드스피커(1427)의 디폴트 이득이고, 는 가상 라우드스피커(1428)의 디폴트 이득이며, 는 가상 라우드스피커(1429)의 디폴트 이득이다. 디폴트 이득들 각각은 미리 결정될 수 있다.
d는 가상 라우드스피커들(1426-1429)을 얼마나 빠르게/느리게 페이드-인 및/또는 페이드-아웃할 것인지를 제어하는 변수일 수 있고, p는 가상 라우드스피커들(1422-1425)을 얼마나 빠르게/느리게 페이드-인 및/또는 페이드-아웃할 것인지를 제어하는 변수일 수 있다. 일부 실시예들에서, d 및 p 둘 모두는 다음과 같이 선택된다:
위의 실시예들에서, 중심 가상 라우드스피커(1430)를 둘러싸는 가상 라우드스피커들(1422-1429)의 이득은 (계수 p * sin(α) 또는 p * sin(β)를 사용함으로써) 너비 각도 또는 높이 각도가 증가함에 따라 페이드-인되고, (계수 (1 - d * sin(α) * sin(β))를 사용함으로써) 너비 각도 및 높이 각도 둘 모두가 감소함에 따라 페이드-아웃된다.
예시적인 사용 경우들
도 15a는 본원에 개시된 실시예들이 적용될 수 있는 XR 시스템(1500)을 예시한다. XR 시스템(1500)은, 스피커들(1504 및 1505)(청취자가 착용한 헤드폰들의 스피커들일 수 있음), 및 이미지들을 사용자에게 디스플레이하기 위한 디스플레이를 포함할 수 있고 일부 실시예들에서는 청취자가 착용하도록 구성되는 XR 디바이스(1510)를 포함한다. 예시된 XR 시스템(1500)에서, XR 디바이스(1510)는 디스플레이를 갖고, 사용자의 머리 상에 착용되도록 설계되며, 보통 머리-장착형 디스플레이(HMD)로 지칭된다.
도 15b에 도시된 바와 같이, XR 디바이스(1510)는, 배향 감지 유닛(1501), 포지션 감지 유닛(1502), 및 출력 오디오 신호들(예컨대, 도시된 바와 같은, 좌측 스피커에 대한 좌측 오디오 신호(1581) 및 우측 스피커에 대한 우측 오디오 신호(1582))을 생성하기 위한 오디오 렌더(1551)에 (직접 또는 간접적으로) 결합되는 처리 유닛(1503)을 포함할 수 있다.
배향 감지 유닛(1501)은 청취자의 배향의 변화를 검출하도록 구성되고, 검출된 변화에 관한 정보를 처리 유닛(1503)에 제공한다. 일부 실시예들에서, 처리 유닛(1503)은, 배향 감지 유닛(1501)에 의해 검출된 배향의 검출된 변화가 주어지면 (일부 좌표계에 관련하여) 절대 배향을 결정한다. 배향 및 포지션의 결정을 위한 상이한 시스템들, 예컨대, 등대 추적기(lighthouse tracker)들을 사용하는 시스템(라이다(lidar))이 또한 존재할 수 있다. 일 실시예에서, 배향 감지 유닛(1501)은, 검출된 배향의 변화가 주어지면 (일부 좌표계와 관련하여) 절대 배향을 결정할 수 있다. 이러한 경우에, 처리 유닛(1503)은 배향 감지 유닛(1501)으로부터의 절대 배향 데이터 및 포지션 감지 유닛(1502)으로부터의 포지션 데이터를 단순히 다중화할 수 있다. 일부 실시예들에서, 배향 감지 유닛(1101)은 하나 이상의 가속도계 및/또는 하나 이상의 자이로스코프를 포함할 수 있다.
오디오 렌더러(1551)는, 입력 오디오 신호들(1561), 청취자가 경험하고 있는 XR 장면에 관한 메타데이터(1562), 및 청취자의 위치 및 배향에 관한 정보(1563)에 기반하여 오디오 출력 신호들을 생성한다. XR 장면에 대한 메타데이터(1562)는 XR 장면에 포함된 각각의 객체 및 오디오 요소에 대한 메타데이터를 포함할 수 있고, 객체에 대한 메타데이터는 객체의 치수들에 관한 정보를 포함할 수 있다. 메타데이터(1152)는 또한 제어 정보, 이를테면, 잔향 시간 값, 잔향 레벨 값, 및/또는 흡수 파라미터를 포함할 수 있다. 오디오 렌더러(1551)는 XR 디바이스(1510)의 컴포넌트일 수 있거나 또는 XR 디바이스(1510)로부터 원격으로 있을 수 있다(예컨대, 오디오 렌더러(1551) 또는 그의 컴포넌트들은 소위 "클라우드"로 구현될 수 있음).
도 16은 XR 장면에 대한 사운드를 생성하기 위한 오디오 렌더러(1551)의 예시적인 구현을 도시한다. 오디오 렌더러(1600)는, 제어기(1601), 및 제어기(1601)로부터의 제어 정보(1610)에 기반하여 오디오 신호(들)(1251)(예컨대, 다중-채널 오디오 요소의 오디오 신호들)를 수정하기 위한 신호 수정기(1602)를 포함한다. 제어기(1601)는, 하나 이상의 파라미터를 수신하고, 수신된 파라미터들에 기반하여 오디오 신호들(1561)에 대해 수정들(예컨대, 볼륨 레벨의 증가 또는 감소)을 수행하게 수정기(1602)를 트리거링하도록 구성될 수 있다. 수신된 파라미터들은 청취자의 포지션 및/또는 배향(예컨대, 오디오 요소에 대한 방향 및 거리)에 관한 정보(1563) 및 XR 장면 내의 오디오 요소(예컨대, 규모)에 관한 메타데이터(1552)를 포함한다(일부 실시예들에서, 제어기(1601) 자체적으로 메타데이터(1562)를 생성함). 메타데이터 및 포지션/배향 정보를 사용하여, 제어기(1601)는 본원에서 설명된 바와 같이 XR 장면 내의 오디오 요소에 대한 하나 이상의 이득 인자(g)(감쇠 인자로 또한 알려져 있음)를 계산할 수 있다.
도 17은 일 실시예에 따른 신호 수정기(1602)의 예시적인 구현을 도시한다. 신호 수정기(1602)는, 지향성 믹서(1704), 이득 조정기(1406), 및 스피커 신호 생성기(1708)를 포함한다.
지향성 믹서는, 이러한 예에서는 오디오 요소(예컨대, 규모와 연관된 오디오 요소)와 연관된 한 쌍의 오디오 신호들(1701 및 1702)을 포함하는 오디오 입력(1561)을 수신하고, 오디오 입력 및 제어 정보(1791)에 기반하여 k개의 가상 라우드스피커 신호들(VS1, VS2, ..., VSk)의 세트를 생성한다. 일 실시예에서, 각각의 가상 라우드스피커에 대한 신호는, 예컨대, 오디오 입력(1561)을 포함하는 신호들의 적절한 믹싱에 의해 도출될 수 있다. 예컨대, VS1 = α × L + β × R이며, 여기서, L은 입력 오디오 신호(1701)이고, R은 입력 오디오 신호(1702)이며, α 및 β는, 예컨대, 오디오 요소에 대한 청취자의 포지션 및 VS1이 대응하는 가상 라우드스피커의 포지션에 의존하는 인자들이다.
이득 조정기(1706)는, 제어기(1601)에 의해 계산된 바와 같은 위에서 설명된 이득 인자들을 포함할 수 있는 제어 정보(1792)에 기반하여 가상 라우드스피커 신호들 중 임의의 하나 이상의 신호의 이득을 조정할 수 있다. 즉, 예컨대, 중간 스피커가 다른 스피커(예컨대, 도 4에 도시된 바와 같은 좌측 스피커(202))에 가깝게 배치될 때, 제어기(1601)는, 위에서 설명된 바와 같이 계산된 이득 인자를 이득 조정기(1406)에 제공함으로써 중간 스피커에 대한 가상 라우드스피커 신호의 이득을 조정하도록 이득 조정기(1706)를 제어할 수 있다.
가상 라우드스피커 신호들(VS1, VS2, ..., VSk)을 사용하여, 스피커 신호 생성기는 스피커들(예컨대, 헤드폰 스피커들 또는 다른 스피커들)을 구동하기 위한 출력 신호들(예컨대, 출력 신호(1581) 및 출력 신호(1582))을 생성한다. 스피커들이 헤드폰 스피커들인 일 실시예에서, 스피커 신호 생성기(1508)는 출력 신호를 생성하기 위해 종래의 바이노럴 렌더링을 수행할 수 있다. 스피커들이 헤드폰 스피커들이 아닌 실시예들에서, 스피커 신호 생성은 출력 신호들을 생성하기 위해 종래의 스피킹 패닝(speaking panning)을 수행할 수 있다.
도 18은 본원에 개시된 방법을 수행하기 위한 일부 실시예들에 따른 오디오 렌더링 장치(1800)의 블록도이다(예컨대, 오디오 렌더러(1151)는 오디오 렌더링 장치(1800)를 사용하여 구현될 수 있음). 도 18에 도시된 바와 같이, 오디오 렌더링 장치(1800)는, 하나 이상의 프로세서(P)(1855)(예컨대, 범용 마이크로프로세서 및/또는 하나 이상의 다른 프로세서, 이를테면, 주문형 집적 회로(ASIC), 필드-프로그래밍가능 게이트 어레이(FPGA)들 등)를 포함할 수 있는 처리 회로(PC)(1802) ― 이 프로세서들은 단일 하우징에 또는 단일 데이터 센터에 공통-위치되거나 또는 지리적으로 분산될 수 있음(즉, 장치(1800)는 분산형 컴퓨팅 장치일 수 있음) ―; 장치(1800)가, 네트워크 인터페이스(1848)가 (직접 또는 간접적으로) 연결되는 네트워크(110)(예컨대, 인터넷 프로토콜(IP) 네트워크)에 연결된 다른 노드들에 데이터를 송신하고 그로부터 데이터를 수신하는 것을 가능하게 하기 위한 송신기(Tx)(1845) 및 수신기(Rx)(1847)를 포함하는 적어도 하나의 네트워크 인터페이스(1848)(예컨대, 네트워크 인터페이스(1848)는 네트워크(110)에 무선으로 연결될 수 있고, 이 경우에, 네트워크 인터페이스(1848)는 안테나 배열에 연결됨); 및 하나 이상의 비-휘발성 저장 디바이스 및/또는 하나 이상의 휘발성 저장 디바이스를 포함할 수 있는 저장 유닛("데이터 저장 시스템"으로 또한 알려져 있음)(1808)을 포함할 수 있다. PC(1802)가 프로그래밍가능 프로세서를 포함하는 실시예들에서, 컴퓨터 판독가능 매체(CRM)(1842)가 제공될 수 있다. CRM(1842)은 컴퓨터 판독가능 명령어(CRI)들(1844)을 포함하는 컴퓨터 프로그램(CP)(1843)을 저장한다. CRM(1842)은, 자기 매체(예컨대, 하드 디스크), 광학 매체, 메모리 디바이스들(예컨대, 랜덤 액세스 메모리, 플래시 메모리) 등과 같은 비-일시적인 컴퓨터 판독가능 매체일 수 있다. 일부 실시예들에서, 컴퓨터 프로그램(1843)의 CRI(1844)는, PC(1802)에 의해 실행될 때 CRI가 오디오 렌더링 장치(1800)로 하여금 본원에서 설명된 단계들(예컨대, 흐름도들을 참조하여 본원에서 설명된 단계들)을 수행하게 하도록 구성된다. 다른 실시예들에서, 오디오 렌더링 장치(1800)는 코드에 대한 필요성 없이 본원에서 설명된 단계들을 수행하도록 구성될 수 있다. 즉, 예컨대, PC(1802)는 단지 하나 이상의 ASIC으로 이루어질 수 있다. 그러므로, 본원에서 설명된 실시예들의 특징들은 하드웨어 및/또는 소프트웨어로 구현될 수 있다.
도 19는 일부 실시예들에 따른, 오디오 요소(102)를 렌더링하기 위한 프로세스(1900)를 도시한다. 프로세스(1900)는 단계(s1902)로 시작될 수 있다. 단계(s1902)는, 오디오 요소의 표현의 크기를 표시하는 크기 정보 및/또는 오디오 요소와 청취자 사이의 거리를 표시하는 거리 정보를 획득하는 것을 포함한다. 단계(s1904)는, 크기 정보 및/또는 거리 정보에 기반하여, 오디오 요소를 렌더링하는 데 사용할 가상 라우드스피커들의 수를 결정하는 것을 포함한다.
일부 실시예들에서, 표현의 크기는 표현의 너비 및/또는 표현의 높이이고, 방법은, (i) 표현의 너비 및 거리와 연관된 너비 각도 값, 및/또는 (ii) 표현의 높이 및 거리와 연관된 높이 각도 값을 결정하는 단계를 포함하며, 오디오 요소를 렌더링하는 데 사용할 가상 라우드스피커들의 수는 너비 각도 값 및/또는 높이 각도 값에 기반하여 결정된다.
일부 실시예들에서, 방법은, (i) 너비 각도 값을 제1 임계 값과 비교하는 단계; 및 (ii) 높이 각도 값을 제2 임계 값과 비교하는 단계를 더 포함하며, 오디오 요소를 렌더링하는 데 사용할 가상 라우드스피커들의 수는 비교 (i) 및/또는 비교 (ii)에 기반하여 결정된다.
일부 실시예들에서, 오디오 요소를 렌더링하는 데 사용할 가상 라우드스피커들의 수는, (i) 너비 각도 값이 제1 임계 값 미만이고 (ii) 높이 각도 값이 제2 임계 값 미만인 경우 제1 값인 것으로 결정된다. 오디오 요소를 렌더링하는 데 사용할 가상 라우드스피커들의 수는, (i) 너비 각도 값이 제1 임계 값 이상이고 (ii) 높이 각도 값이 제2 임계 값 미만인 경우 제2 값인 것으로 결정된다. 오디오 요소를 렌더링하는 데 사용할 가상 라우드스피커들의 수는, (i) 너비 각도 값이 제1 임계 값 미만이고 (ii) 높이 각도 값이 제2 임계 값 이상인 경우 제2 값인 것으로 결정된다. 오디오 요소를 렌더링하는 데 사용할 가상 라우드스피커들의 수는, (i) 너비 각도 값이 제1 임계 값 이상이고 (ii) 높이 각도 값이 제2 임계 값 이상인 경우 제3 값인 것으로 결정된다.
일부 실시예들에서, 너비 각도 값은 에 기반하여 결정되거나, 또는 높이 각도 값은 에 기반하여 결정되며, 여기서, c는 상수이다. a는 청취자와 표현의 제1 측부 상의 제1 포인트 사이의 선 및 청취자와 표현의 제2 측부 상의 제2 포인트 사이의 선에 의해 형성되는 각도이다. 제1 측부는 제2 측부에 대향하며, e는 청취자와 표현의 제3 측부 상의 제3 포인트 사이의 선 및 청취자와 표현의 제4 측부 상의 제4 포인트 사이의 선에 의해 형성되는 각도이다. 제3 측부는 제4 측부에 대향한다.
일부 실시예들에서, 방법은, 가상 라우드스피커들의 포지션들을 결정하는 단계를 더 포함하며, 가상 라우드스피커들의 포지션들은 표현의 경계에 기반하여 결정된다.
일부 실시예들에서, 가상 라우드스피커들의 결정된 수는 1이고, 가상 라우드스피커의 포지션은 표현의 중심이다.
일부 실시예들에서, 가상 라우드스피커의 결정된 수는 2 초과이고, 가상 라우드스피커들은 제1 가상 라우드스피커, 제2 가상 라우드스피커, 및 제3 가상 라우드스피커를 포함한다. 제1 가상 라우드스피커의 포지션은 표현의 중심이고, 제2 가상 라우드스피커의 포지션 및 제3 가상 라우드스피커의 포지션은 제1 가상 라우드스피커의 포지션을 통과하는 선에 대해 대칭이다. 예컨대, 제1 가상 스피커의 포지션은 제2 가상 라우드스피커의 포지션과 제3 가상 라우드스피커의 포지션 사이의 중심 포인트이다.
일부 실시예들에서, 방법은, 오디오 요소와 청취자 사이의 변경된 거리를 표시하는 변경된 거리 정보를 획득하는 단계, 및 크기 정보 및 변경된 거리 정보에 기반하여, 오디오 요소를 렌더링하는 데 사용할 가상 라우드스피커들의 수를 재결정하는 단계를 더 포함한다.
일부 실시예들에서, 가상 라우드스피커들의 결정된 수는 1이고, 그 수가 결정되는 가상 라우드스피커들은 제1 가상 라우드스피커를 포함하고, 가상 라우드스피커들의 재결정된 수는 3이고, 그 수가 재결정되는 가상 라우드스피커들은 제1 가상 라우드스피커, 제2 가상 라우드스피커, 및 제3 가상 라우드스피커를 포함하며, 제2 가상 라우드스피커와 연관된 오디오 이득 및/또는 제3 가상 라우드스피커와 연관된 오디오 이득은 청취자와 제2 가상 라우드스피커의 포지션 사이의 선 및 청취자와 제3 가상 라우드스피커의 포지션 사이의 선에 의해 형성되는 각도(a 또는 e)의 함수이다.
일부 실시예들에서, 함수는 와 동일하며, 여기서, c1 및 c2 각각은 상수이다.
일부 실시예들에서, 방법은, 오디오 요소와 청취자 사이의 변경된 거리를 표시하는 변경된 거리 정보를 획득하는 단계, 및 크기 정보 및 변경된 거리 정보에 기반하여, 오디오 요소의 업데이트된 표현을 획득하고 오디오 요소의 업데이트된 표현에 사용할 업데이트된 가상 라우드스피커 수를 결정하는 단계를 더 포함한다.
일부 실시예들에서, 오디오 요소의 결정된 표현은 오디오 요소의 1차원(1D) 표현이고, 오디오 요소의 결정된 업데이트된 표현은 오디오 요소의 2차원(2D) 표현이다.
일부 실시예들에서, 오디오 요소의 1D 표현은 제1 가상 라우드스피커, 제2 가상 라우드스피커, 및 제3 가상 라우드스피커를 포함하고, 오디오 요소의 2D 표현은 제1 가상 라우드스피커, 제2 가상 라우드스피커, 및 제3 가상 라우드스피커, 제4 가상 라우드스피커, 및 제5 가상 라우드스피커를 포함하며, 방법은, (i) 제2 가상 라우드스피커를 제1 좌표로부터 오디오 요소의 업데이트된 표현의 제1 경계 좌표를 향해 이동시키는 단계, 및 (ii) 제3 가상 라우드스피커를 제2 좌표로부터 오디오 요소의 업데이트된 표현의 제2 경계 좌표를 향해 이동시키는 단계를 더 포함한다.
일부 실시예들에서, 제2 가상 라우드스피커의 현재 좌표는 (제1 좌표 × (1 - f(e)) + (제1 경계 좌표 × f(e))에 의존하고, 제3 가상 라우드스피커의 현재 좌표는 (제2 좌표 × (1 - f(e)) + (제2 경계 좌표 × f(e))에 의존하며, e는 2D 표현의 너비 또는 높이와 관련된 각도의 값이다. f(e)는 값 e의 함수이다. f(e)의 일 예는 이다.
일부 실시예들에서, 방법은, 제4 가상 라우드스피커와 연관된 오디오 이득 및/또는 제5 가상 라우드스피커와 연관된 오디오 이득을 결정하는 단계를 더 포함하며, 제4 가상 라우드스피커와 연관된 오디오 이득 및/또는 제5 가상 라우드스피커와 연관된 오디오 이득은, (i) 오디오 요소의 업데이트된 표현의 너비 및 거리와 연관된 너비 각도, 및/또는 (ii) 오디오 요소의 업데이트된 표현의 높이 및 거리와 연관된 높이 각도의 함수(f)이다.
일부 실시예들에서, 함수는 다음과 같다:
여기서, p는 (c1 × 너비 각도 또는 높이 각도)와 동일하고, pst는 하위 임계 값이고, pend는 상위 임계 값이고, c1은 상수이며, g(p)는 p가 증가함에 따라 출력 값이 증가하는 함수이다. g(p)는 0 초과이지만 0.5 이하이다.
일부 실시예들에서, 제2 가상 라우드스피커와 연관된 오디오 이득 및/또는 제3 가상 라우드스피커와 연관된 오디오 이득은 (1 - f(p))에 기반하여 설정된다.
일부 실시예들에서, 오디오 요소의 결정된 표현은 오디오 요소의 포인트 표현이고, 오디오 요소의 결정된 업데이트된 표현은 오디오 요소의 2차원(2D) 표현이다.
일부 실시예들에서, 오디오 요소의 포인트 표현은 제1 가상 라우드스피커를 포함하고, 오디오 요소의 2D 표현은 제1 가상 라우드스피커, 제2 가상 라우드스피커, 제3 가상 라우드스피커, 제4 가상 라우드스피커, 및 제5 가상 라우드스피커를 포함한다. 방법은, 이동 경로 함수를 사용하여 제2 가상 라우드스피커, 제3 가상 라우드스피커, 제4 가상 라우드스피커, 및 제5 가상 라우드스피커 중 하나 이상을 이동시키는 단계를 더 포함하며, 이동 경로 함수는, (i) 오디오 요소의 업데이트된 표현의 너비 및 거리와 연관된 너비 각도, 및 (ii) 오디오 요소의 업데이트된 표현의 높이 및 거리와 연관된 높이 각도의 함수이다.
일부 실시예들에서, 이동 경로 함수는 sin(c1 × ) × sin(c2 × )의 함수이며, 여기서, c1 및 c2 각각은 상수이다.
다양한 실시예들이 본원에서 설명되지만, 실시예들은 제한이 아니라 단지 예로서 제시되었다는 것이 이해되어야 한다. 그에 따라, 본 개시내용의 폭 및 범위는 위에서 설명된 예시적인 실시예들 중 임의의 실시예에 의해 제한되지 않아야 한다. 더욱이, 본원에서 달리 표시되거나 맥락에 의해 달리 명확히 부정되지 않는 한, 위에서 설명된 요소들의 그의 모든 가능한 변형들로의 임의의 조합이 본 개시내용에 포함된다.
부가적으로, 위에서 설명되고 도면들에 예시된 프로세스들이 일련의 단계들로서 도시되지만, 이는 오직 예시를 위해 행해졌다. 그에 따라서, 일부 단계들이 부가될 수 있고, 일부 단계들이 생략될 수 있고, 단계들의 순서가 재배열될 수 있고, 일부 단계들이 병렬로 수행될 수 있는 것으로 고려된다.
Claims (25)
- 오디오 요소(102)를 렌더링하기 위한 방법(1900)으로서,
상기 오디오 요소의 표현의 크기를 표시하는 크기 정보 및/또는 상기 오디오 요소와 청취자 사이의 거리를 표시하는 거리 정보를 획득하는 단계(s1902); 및
상기 크기 정보 및/또는 상기 거리 정보에 기반하여, 상기 오디오 요소를 렌더링하는 데 사용할 가상 라우드스피커들의 수를 결정하는 단계(s1904)
를 포함하는, 방법. - 제1항에 있어서,
상기 표현의 크기는 상기 표현의 너비 및/또는 상기 표현의 높이이고,
상기 방법은, (i) 상기 표현의 너비 및 상기 거리와 연관된 너비 각도 값, 및/또는 (ii) 상기 표현의 높이 및 상기 거리와 연관된 높이 각도 값을 결정하는 단계를 포함하며,
상기 오디오 요소를 렌더링하는 데 사용할 상기 가상 라우드스피커들의 수는 상기 너비 각도 값 및/또는 상기 높이 각도 값에 기반하여 결정되는, 방법. - 제2항에 있어서,
(i) 상기 너비 각도 값을 제1 임계 값과 비교하는 단계; 및
(ii) 상기 높이 각도 값을 제2 임계 값과 비교하는 단계
를 포함하며,
상기 오디오 요소를 렌더링하는 데 사용할 상기 가상 라우드스피커들의 수는 상기 비교 (i) 및/또는 상기 비교 (ii)에 기반하여 결정되는, 방법. - 제3항에 있어서,
상기 오디오 요소를 렌더링하는 데 상기 사용할 가상 라우드스피커들의 수는, (i) 상기 너비 각도 값이 상기 제1 임계 값 미만이고 (ii) 상기 높이 각도 값이 상기 제2 임계 값 미만인 경우 제1 값인 것으로 결정되고,
상기 오디오 요소를 렌더링하는 데 사용할 상기 가상 라우드스피커들의 수는, (i) 상기 너비 각도 값이 상기 제1 임계 값 이상이고 (ii) 상기 높이 각도 값이 상기 제2 임계 값 미만인 경우 제2 값인 것으로 결정되고,
상기 오디오 요소를 렌더링하는 데 사용할 상기 가상 라우드스피커들의 수는, (i) 상기 너비 각도 값이 상기 제1 임계 값 미만이고 (ii) 상기 높이 각도 값이 상기 제2 임계 값 이상인 경우 상기 제2 값인 것으로 결정되며,
상기 오디오 요소를 렌더링하는 데 사용할 상기 가상 라우드스피커들의 수는, (i) 상기 너비 각도 값이 상기 제1 임계 값 이상이고 (ii) 상기 높이 각도 값이 상기 제2 임계 값 이상인 경우 제3 값인 것으로 결정되는, 방법. - 제2항 내지 제4항 중 어느 한 항에 있어서,
상기 너비 각도 값은 에 기반하여 결정되거나, 또는 상기 높이 각도 값은 에 기반하여 결정되며, c는 상수이고,
a는 상기 청취자와 상기 표현의 제1 측부 상의 제1 포인트 사이의 선 및 상기 청취자와 상기 표현의 제2 측부 상의 제2 포인트 사이의 선에 의해 형성되는 각도이고,
상기 제1 측부는 상기 제2 측부에 대향하고,
e는 상기 청취자와 상기 표현의 제3 측부 상의 제3 포인트 사이의 선 및 상기 청취자와 상기 표현의 제4 측부 상의 제4 포인트 사이의 선에 의해 형성되는 각도이고,
상기 제3 측부는 상기 제4 측부에 대향하는, 방법. - 제1항 내지 제5항 중 어느 한 항에 있어서,
상기 가상 라우드스피커들의 포지션들을 결정하는 단계를 더 포함하며,
상기 가상 라우드스피커들의 포지션들은 상기 표현의 경계에 기반하여 결정되는, 방법. - 제6항에 있어서,
상기 가상 라우드스피커들의 결정된 수는 1이고,
상기 가상 라우드스피커의 포지션은 상기 표현의 중심인, 방법. - 제6항에 있어서,
상기 가상 라우드스피커의 결정된 수는 2 초과이고,
상기 가상 라우드스피커들은 제1 가상 라우드스피커, 제2 가상 라우드스피커, 및 제3 가상 라우드스피커를 포함하고,
상기 제1 가상 라우드스피커의 포지션은 상기 표현의 중심이고,
상기 제2 가상 라우드스피커의 포지션 및 상기 제3 가상 라우드스피커의 포지션은 상기 제1 가상 라우드스피커의 포지션을 통과하는 선에 대해 대칭인, 방법. - 제1항 내지 제8항 중 어느 한 항에 있어서,
상기 오디오 요소와 상기 청취자 사이의 변경된 거리를 표시하는 변경된 거리 정보를 획득하는 단계; 및
상기 크기 정보 및 상기 변경된 거리 정보에 기반하여, 상기 오디오 요소를 렌더링하는 데 사용할 가상 라우드스피커들의 수를 재결정하는 단계
를 더 포함하는, 방법. - 제9항에 있어서,
상기 가상 라우드스피커들의 결정된 수는 1이고, 상기 수가 결정되는 상기 가상 라우드스피커들은 제1 가상 라우드스피커를 포함하고,
상기 가상 라우드스피커들의 재결정된 수는 3이고, 상기 수가 재결정되는 상기 가상 라우드스피커들은 상기 제1 가상 라우드스피커, 제2 가상 라우드스피커, 및 제3 가상 라우드스피커를 포함하며,
상기 제2 가상 라우드스피커와 연관된 오디오 이득 및/또는 상기 제3 가상 라우드스피커와 연관된 오디오 이득은 상기 청취자와 상기 제2 가상 라우드스피커의 포지션 사이의 선 및 상기 청취자와 상기 제3 가상 라우드스피커의 포지션 사이의 선에 의해 형성되는 각도의 함수인, 방법. - 제1항 내지 제8항 중 어느 한 항에 있어서,
상기 오디오 요소와 상기 청취자 사이의 변경된 거리를 표시하는 변경된 거리 정보를 획득하는 단계; 및
상기 크기 정보 및 상기 변경된 거리 정보에 기반하여, 상기 오디오 요소의 업데이트된 표현을 획득하고 상기 오디오 요소의 업데이트된 표현에 사용할 업데이트된 가상 라우드스피커 수를 결정하는 단계
를 더 포함하는, 방법. - 제11항에 있어서,
상기 오디오 요소의 결정된 표현은 상기 오디오 요소의 1차원(1D) 표현이고,
상기 오디오 요소의 결정된 업데이트된 표현은 상기 오디오 요소의 2차원(2D) 표현인, 방법. - 제12항에 있어서,
상기 오디오 요소의 1D 표현은 제1 가상 라우드스피커, 제2 가상 라우드스피커, 및 제3 가상 라우드스피커를 포함하고,
상기 오디오 요소의 2D 표현은 상기 제1 가상 라우드스피커, 상기 제2 가상 라우드스피커, 상기 제3 가상 라우드스피커, 제4 가상 라우드스피커, 및 제5 가상 라우드스피커를 포함하며,
상기 방법은, (i) 상기 제2 가상 라우드스피커를 제1 좌표로부터 상기 오디오 요소의 업데이트된 표현의 제1 경계 좌표를 향해 이동시키는 단계, 및 (ii) 상기 제3 가상 라우드스피커를 제2 좌표로부터 상기 오디오 요소의 업데이트된 표현의 제2 경계 좌표를 향해 이동시키는 단계를 더 포함하는, 방법. - 제13항에 있어서,
상기 제2 가상 라우드스피커의 현재 좌표는 (상기 제1 좌표 × (1 - f(e)) + 상기 제1 경계 좌표 × f(e))에 의존하고,
상기 제3 가상 라우드스피커의 현재 좌표는 (상기 제2 좌표 × (1 - f(e)) + 상기 제2 경계 좌표 × f(e))에 의존하며,
e는 상기 2D 표현의 너비 또는 높이와 관련된 각도의 값인, 방법. - 제11항 내지 제14항 중 어느 한 항에 있어서,
상기 제4 가상 라우드스피커와 연관된 오디오 이득 및/또는 상기 제5 가상 라우드스피커와 연관된 오디오 이득을 결정하는 단계를 더 포함하며,
상기 제4 가상 라우드스피커와 연관된 오디오 이득 및/또는 상기 제5 가상 라우드스피커와 연관된 오디오 이득은, (i) 상기 오디오 요소의 업데이트된 표현의 너비 및 상기 거리와 연관된 너비 각도, 및/또는 (ii) 상기 오디오 요소의 업데이트된 표현의 높이 및 상기 거리와 연관된 높이 각도의 함수(f)인, 방법. - 제15항에 있어서, 상기 함수는,
이며,
p는 (c1 × 상기 너비 각도 또는 상기 높이 각도)와 동일하고, pst는 하위 임계 값이고, pend는 상위 임계 값이고, c1은 상수이며, g(p)는 p가 증가함에 따라 출력 값이 증가하는 함수인, 방법. - 제16항에 있어서,
g(p)는 0 초과이지만 0.5 이하인, 방법. - 제15항 내지 제17항 중 어느 한 항에 있어서,
상기 제2 가상 라우드스피커와 연관된 오디오 이득 및/또는 상기 제3 가상 라우드스피커와 연관된 오디오 이득은 (1 - f(p))에 기반하여 설정되는, 방법. - 제11항에 있어서,
상기 오디오 요소의 결정된 표현은 상기 오디오 요소의 포인트 표현이고,
상기 오디오 요소의 결정된 업데이트된 표현은 상기 오디오 요소의 2차원(2D) 표현인, 방법. - 제19항에 있어서,
상기 오디오 요소의 포인트 표현은 제1 가상 라우드스피커를 포함하고,
상기 오디오 요소의 2D 표현은 상기 제1 가상 라우드스피커, 제2 가상 라우드스피커, 제3 가상 라우드스피커, 제4 가상 라우드스피커, 및 제5 가상 라우드스피커를 포함하고,
상기 방법은, 이동 경로 함수를 사용하여 상기 제2 가상 라우드스피커, 상기 제3 가상 라우드스피커, 상기 제4 가상 라우드스피커, 및 상기 제5 가상 라우드스피커 중 하나 이상을 이동시키는 단계를 더 포함하며,
상기 이동 경로 함수는, (i) 상기 오디오 요소의 업데이트된 표현의 너비 및 상기 거리와 연관된 너비 각도, 및 (ii) 상기 오디오 요소의 업데이트된 표현의 높이 및 상기 거리와 연관된 높이 각도의 함수인, 방법. - 컴퓨터 프로그램(1843)으로서,
처리 회로(1802)에 의해 실행될 때 상기 처리 회로로 하여금 제1항 내지 제20항 중 적어도 한 항의 방법을 수행하게 하는 명령어들(1844)을 포함하는, 컴퓨터 프로그램. - 캐리어로서,
제21항의 컴퓨터 프로그램을 포함하며, 상기 캐리어는 전자 신호, 광학 신호, 라디오 신호, 및 컴퓨터 판독가능 저장 매체 중 하나인, 캐리어. - 오디오 요소를 렌더링하기 위한 장치(1800)로서,
상기 오디오 요소의 표현의 크기를 표시하는 크기 정보 및/또는 상기 오디오 요소와 청취자 사이의 거리를 표시하는 거리 정보를 획득(s1902)하고;
상기 크기 정보 및/또는 상기 거리 정보에 기반하여, 상기 오디오 요소를 렌더링하는 데 사용할 가상 라우드스피커들의 수를 결정(s1904)
하도록 구성되는, 장치. - 제23항에 있어서,
제2항 내지 제20항 중 적어도 한 항의 방법을 수행하도록 추가로 구성되는, 장치. - 장치로서,
메모리(1842); 및
상기 메모리에 결합되는 처리 회로(1802)
를 포함하며,
상기 장치는 제1항 내지 제20항 중 적어도 한 항의 방법을 수행하도록 구성되는, 장치.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163254389P | 2021-10-11 | 2021-10-11 | |
US63/254,389 | 2021-10-11 | ||
PCT/EP2022/078163 WO2023061965A2 (en) | 2021-10-11 | 2022-10-11 | Configuring virtual loudspeakers |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240073145A true KR20240073145A (ko) | 2024-05-24 |
Family
ID=84329955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020247015716A KR20240073145A (ko) | 2021-10-11 | 2022-10-11 | 크기를 갖는 오디오 요소를 렌더링하는 방법, 대응하는 장치 및 컴퓨터 프로그램 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP4416940A2 (ko) |
KR (1) | KR20240073145A (ko) |
WO (1) | WO2023061965A2 (ko) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3528284B2 (ja) * | 1994-11-18 | 2004-05-17 | ヤマハ株式会社 | 3次元サウンドシステム |
US20060120534A1 (en) * | 2002-10-15 | 2006-06-08 | Jeong-Il Seo | Method for generating and consuming 3d audio scene with extended spatiality of sound source |
JP6786834B2 (ja) * | 2016-03-23 | 2020-11-18 | ヤマハ株式会社 | 音響処理装置、プログラムおよび音響処理方法 |
KR102659722B1 (ko) * | 2018-12-19 | 2024-04-23 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 공간 확장 음원을 재생하는 장치 및 방법 또는 공간 확장 음원으로부터 비트 스트림을 생성하는 장치 및 방법 |
WO2021098957A1 (en) * | 2019-11-20 | 2021-05-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio object renderer, methods for determining loudspeaker gains and computer program using panned object loudspeaker gains and spread object loudspeaker gains |
US20230019535A1 (en) * | 2019-12-19 | 2023-01-19 | Telefonaktiebolaget Lm Ericsson (Publ) | Audio rendering of audio sources |
CN115280275A (zh) | 2020-03-13 | 2022-11-01 | 瑞典爱立信有限公司 | 具有复杂形状的音频对象的渲染 |
EP3879856A1 (en) * | 2020-03-13 | 2021-09-15 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Apparatus and method for synthesizing a spatially extended sound source using cue information items |
-
2022
- 2022-10-11 EP EP22801102.9A patent/EP4416940A2/en active Pending
- 2022-10-11 WO PCT/EP2022/078163 patent/WO2023061965A2/en active Application Filing
- 2022-10-11 KR KR1020247015716A patent/KR20240073145A/ko active Search and Examination
Also Published As
Publication number | Publication date |
---|---|
EP4416940A2 (en) | 2024-08-21 |
WO2023061965A3 (en) | 2023-06-01 |
WO2023061965A2 (en) | 2023-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5955862B2 (ja) | 没入型オーディオ・レンダリング・システム | |
US11962996B2 (en) | Audio rendering of audio sources | |
US20080273708A1 (en) | Early Reflection Method for Enhanced Externalization | |
EP4118525A1 (en) | Rendering of audio objects with a complex shape | |
US10524080B1 (en) | System to move a virtual sound away from a listener using a crosstalk canceler | |
US11221821B2 (en) | Audio scene processing | |
US20230133555A1 (en) | Method and Apparatus for Audio Transition Between Acoustic Environments | |
AU2022256751A1 (en) | Rendering of occluded audio elements | |
US20240323607A1 (en) | Loudspeaker system for arbitrary sound direction rendering | |
CN106658340B (zh) | 内容自适应的环绕声虚拟化 | |
US11417347B2 (en) | Binaural room impulse response for spatial audio reproduction | |
US20220345843A1 (en) | Audio level metering for listener position and object position | |
KR20240073145A (ko) | 크기를 갖는 오디오 요소를 렌더링하는 방법, 대응하는 장치 및 컴퓨터 프로그램 | |
US11974117B2 (en) | Information processing device and method, reproduction device and method, and program | |
US20240340606A1 (en) | Spatial rendering of audio elements having an extent | |
CN118202670A (zh) | 音频元素的渲染 | |
KR20160113036A (ko) | 3차원 사운드를 편집 및 제공하는 방법 및 장치 | |
US20240365077A1 (en) | Apparatus and method for implementing versatile audio object rendering | |
WO2024121188A1 (en) | Rendering of occluded audio elements | |
KR20230153470A (ko) | 도출된 내부 표현을 갖는 공간적으로-바운드된 오디오 엘리먼트 | |
EP4295587A1 (en) | Clustering audio objects | |
KR20160113035A (ko) | 음상 외재화에서 3차원 사운드 이미지를 재생하는 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination |