KR20230153470A - 도출된 내부 표현을 갖는 공간적으로-바운드된 오디오 엘리먼트 - Google Patents

도출된 내부 표현을 갖는 공간적으로-바운드된 오디오 엘리먼트 Download PDF

Info

Publication number
KR20230153470A
KR20230153470A KR1020237034165A KR20237034165A KR20230153470A KR 20230153470 A KR20230153470 A KR 20230153470A KR 1020237034165 A KR1020237034165 A KR 1020237034165A KR 20237034165 A KR20237034165 A KR 20237034165A KR 20230153470 A KR20230153470 A KR 20230153470A
Authority
KR
South Korea
Prior art keywords
audio
internal
representation
external
signal
Prior art date
Application number
KR1020237034165A
Other languages
English (en)
Inventor
토미 포크
브루인 베르너 데
Original Assignee
텔레폰악티에볼라겟엘엠에릭슨(펍)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텔레폰악티에볼라겟엘엠에릭슨(펍) filed Critical 텔레폰악티에볼라겟엘엠에릭슨(펍)
Publication of KR20230153470A publication Critical patent/KR20230153470A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

오디오 엘리먼트를 렌더링하기 위한 방법이 제공된다. 이 방법은 오디오 엘리먼트의 외부 표현을 얻는 것을 포함한다. 이 방법은 획득된 외부 표현에 기반해서, 오디오 엘리먼트의 내부 표현을 생성하는 것으로 더 포함한다.

Description

도출된 내부 표현을 갖는 공간적으로-바운드된 오디오 엘리먼트
본 개시는 공간적으로 바운드된 오디오 엘리먼트들의 도출된 내부 표현에 관한 것이다.
공간적인 오디오 렌더링은, 오디오가 소정의 위치(들)에서 물리적인 오디오 소스로부터 및/또는 특별한 범위(예를 들어, 오디오 소스의 사이즈 및/또는 형상)를 갖는 물리적인 오디오 소스로부터 오는 인상을 리스너(청취자)에 주기 위해서, 확장된 현실(XR; extended reality)(예를 들어, 가상 현실(VR), 증강 현실(AR), 또는 믹스된 현실(MR)) 환경 내에서 오디오를 표현(재현)하기 위해서 사용된 프로세스이다. 오디오 프리젠테이션(audio presentation)은 스피커(예를 들어, 헤드폰, 테이블탑 스피커)를 통해서 행해질 수 있다. 본 개시에 있어서, "사운드" 및 "오디오"는 상호 교환해서 사용된다.
오디오 프리젠테이션이 헤드폰을 통해서 행해지면, 오디오를 표현하기 위한 프로세스는 바이노럴 렌더링(binaural rendering)으로 불린다. 바이노럴 렌더링은 인간의 공간적인 청취의 공간적인 큐(spatial cue)를 사용해서 리스너가 사운드가 들어오고 있는 방향으로부터 오디오를 청취할 수 있게 한다. 이러한 큐에는 ITD(Inter-aural Time Difference), ILD(Inter-aural Level Difference) 및/또는 스펙트럼 차이가 포함된다.
공간적인 오디오 렌더링의 가장 공통인 형태는 포인트-소스의 개념에 기반한다. 포인트 소스는 하나의 특정 포인트로부터 오디오를 나오는하도록 규정되고, 따라서, 이는 임의의 범위를 갖지 않는다. 어떤 범위를 갖지 않은 오디오 소스를 렌더링하기 위해서, 다른 오디오 렌더링 방법이 개발되었다.
이러한 오디오 렌더링 방법 중 하나는 모노 오브젝트(mono object)의 위치의 주위의 위치에서 모노 오디오 오브젝트의 다수의 듀플리케이트(복제)를 생성하는 것이다. 이는 소정의 사이즈를 갖는 공간적으로 호모지니어스(homogenous)한 오브젝트의 지각을 생성한다. 이 개념은, 예를 들어, MPEG-H 3D 오디오 표준 [1] 및 [2]의 "오브젝트 스프레드" 및 "오브젝트 다이버전스" 형태에서, 및 EBU 오디오 규정 모델(ADM; Audio Definition Model) 표준 [4]의 "오브젝트 다이버전스" 형태에서 사용된다. 모노 오디오 오브젝트(즉, 소스)를 사용하는 이 아이디어는 "영역 및 볼륨 소스에 대한 효율적인 HRTF 기반 공간적인 오디오"[7]에서 더 개발되었는데, 여기서, 오디오 오브젝트의 영역-체적 기하 구조가 리스너 주위의 구(sphere) 상에 투사되고, 오디오는, 구 상의 오디오 오브젝트의 기하학적 투사를 커버하는 모든 HR 필터의 적분으로서 평가되는, 헤드-관련된(HR) 필터의 쌍을 사용해서 리스너에 렌더링된다. 구형 볼륨 소스의 경우, 이 적분은 분석 솔루션을 가지는 반면, 임의의 영역-체적 소스 기하 구조의 경우, 이 적분은 몬테카를로(Monte Carlo) 레이 샘플링으로 불리는 것을 사용해서 구 상에 투사된 소스 표면을 샘플링함으로써 평가된다.
또 다른 오디오 렌더링 방법은 모노 오디오 오브젝트에 추가해서 공간적으로 확산된 컴포넌트를 렌더링하는 것이며, 이는, 다소 확산 오디오 오브젝트의 지각를 생성한다(별개의 핀 포인트 위치를 갖지 않는 오리지널 모노 오디오 오브젝트와 대조적으로). 이 방법(또는 개념)은, 예를 들어. MPEG-H 3D 오디오 표준 [3]의 "오브젝트 확산도" 형태 및 EBU ADM "오브젝트 확산도" 형태 [5]에서 사용된다.
상기 2개의 방법의 조합이, 또한, 공지된다. 예를 들어, EBU ADM "오브젝트 범위" 형태 [6]은 모노 오디오 오브젝트의 다수의 카피의 생성과 확산 컴포넌트의 추가를 조합한다.
많은 경우, 오디오 엘리먼트의 범위는 기본 형상(예를 들어, 구 또는 박스)으로 충분히 잘 기술될 수 있다. 그러나, 때때로, 오디오 엘리먼트의 범위(또는 형상)는 더 복잡하고, 따라서, 더 상세한 형태(예를 들어, 메쉬 구조 또는 파라메트릭 설명 포맷)로 기술될 필요가 있다.
일부 오디오 엘리먼트는, 리스너가 오디오 엘리먼트 내측에서 이동할 수 있고 오디오 엘리먼트 내측에서 그럴듯한 오디오 표현을 청취할 수 있는 특성이다. 이들 오디오 엘리먼트의 경우, 오디오 엘리먼트의 범위는 오디오 엘리먼트의 내부와 외부 사이의 에지를 규정하는 공간적인 바운더리로서 행동한다. 이러한 오디오 엘리먼트의 예로는, (i) 숲(새 소리(사운드; sound), 나무에 바람이 부는 소리), (ii) 군중(손뼉을 치거나 환호하는 소리), 및 (3) 도시 광장의 배경 소리(교통, 새 및/또는 걷는 사람의 소리)가 있다.
리스너가 이러한 오디오 엘리먼트의 공간적인 바운더리 내에서 이동할 때, 오디오 표현은 몰입적이고 리스너를 둘러싸야 한다. 반대로, 리스너가 공간적인 바운더리 밖으로 이동함에 따라서, 오디오는 오디오 엘리먼트의 범위로부터 오는 것처럼 보여야 한다.
이러한 오디오 엘리먼트가 다수의 개별 포인트-소스로서 표현될 수 있더라도, 흔히 단일 컴파운드 오디오 신호로 이 오디오 엘리먼트를 표현하는 것이 더 효율적이다. 이러한 오디오 엘리먼트의 내부 오디오 표현의 경우, 리스너 주의의 사운드 필드가 기술되는 리스너-중심 포맷이 적합하다. 리스너 중심 포맷(Listener-centric format)은 5.1, 7.1과 같은 채널 기반 포맷 및 앰비소닉스(Ambisonics)와 같은 장면(scene) 기반 포맷을 포함하다. 전형적으로, 리스너 중심 포맷은 리스너 주위에 위치한 다수의 스피커를 사용해서 렌더링된다.
그런데, 리스너의 위치가 오디오 엘리먼트의 공간적인 바운더리 외측에 있을 때, 리스너 중심 오디오 신호를 리스너에 직접 렌더링하는 잘 규정된 방법은 없다. 이러한 경우, 사운드 소스가 더 이상 리스너를 둘러싸지 않지만, 그 대신 소정의 방향에서 어떤 거리로부터에서 오도록 렌더링되어야 하므로, 소스 중심 표현이 더 적합하다. 솔루션은 내부 표현에 대한 리스너 중심 오디오 신호를 사용해서 이로부터 소스 중심 오디오 신호를 도출하는 것인데, 이는, 그러면, 소스 중심 기술을 사용해서 렌더링될 수 있다. 이 기술은 국제 특허 출원 공보 번호 WO2020/144061 [8]에 기술되고 이들 특별한 종류의 오디오 엘리먼트에 대해서 사용되는 용어는 내부 및 외부 표현을 갖는 공간적으로 바운드된 오디오 엘리먼트이다. 이러한 오디오 엘리먼트의 외부 표현을 렌더링하는 또 다른 기술(그 범위는 임의의 형태일 수 있음)은 국제 특허 출원 공개 번호 WO2021/180820 [9]에 기술된다.
상기 설명한 바와 같이, 오디오 엘리먼트의 내부 표현이 주어지는 경우 공간적으로 바운드된 오디오 엘리먼트를 렌더링하기 위한 방법이 있다. 그런데, 오디오 엘리먼트의 내부 표현이 규정되지 않고(즉, 알려지지 않음) 오디오 엘리먼트의 외부 표현만 주어진 경우가 있다. 예를 들어, 바람과 나무에 새가 있는 숲의 사운드를 표현하는 오디오 엘리먼트는 오디오 엘리먼트의 외부 렌더링에 대해서 사용되도록 의도된 스테레오 신호로만 제공될 수 있다.
스테레오 신호(오디오 엘리먼트의 좌측 및 우측 부분을 표현함)가 오디오 엘리먼트의 외부 표현에 사용될 때 관련된 문제가 발생한다. 이러한 경우, 리스너가 오디오 엘리먼트의 측면에 위치되면, 오디오 엘리먼트의 충분한 표현을 위해서 필요한 오디오 엘리먼트의 깊이 정보는 스테레오 신호에 의해서 기술되지 않는다. 도 14(a) 및 14(b)는 이러한 문제 - 오디오 엘리먼트의 측면에 대한 리스너 위치로 외부 표현을 렌더링하는데 있어서의 문제를 도시한다. 도 14(a)에서, 리스너는 오디오 엘리먼트의 전방에 있고 좌측 및 우측 오디오 신호는 스피커 SpL 및 SpR에 대해서 직접 사용될 수 있다. 그런데, 도 14(b)에서, 리스너는 오디오 엘리먼트의 측면에 대해서 위치되고, 주어진 좌측 및 우측 오디오 신호는 관측 벡터의 방향을 따라서 이제 정렬된다. 리스닝 위치에서 지각되고 있는 것으로서 오디오 엘리먼트의 예상된 공간적인 폭을 렌더링하기 위해서, 오디오 엘리먼트의 전방 및 후방을 표현하는 신호가 필요하다.
따라서, 오디오 엘리먼트의 외부 표현만 주어되는 경우(즉, 오디오 엘리먼트의 내부 표현이 주어지지 않는 경우) 공간적으로 바운드된 오디오 엘리먼트를 렌더링하는 방법에 대한 필요가 있으므로, 리스너는 오디오 엘리먼트의 범위 내측에서 리스닝 위치로부터 그럴듯한 오디오 표현을 지각할 수 있다.
따라서, 하나의 측면에 있어서, 오디오 엘리먼트를 렌더링하기 위한 방법이 제공된다. 방법은 오디오 엘리먼트의 외부 표현을 획득하는 것 및 획득된 외부 표현에 기반해서, 오디오 엘리먼트의 내부 표현을 생성하는 것을 포함한다.
또 다른 측면에서, 디바이스의 처리 회로에 의해서 실행될 때, 디바이스가 상기된 방법을 수행하는 명령을 포함하는 컴퓨터 프로그램이 제공된다.
또 다른 측면에 있어서, 디바이스가 제공된다. 디바이스는 처리 회로 및 메모리를 포함한다. 메모리는 처리 회로에 의해서 실행 가능한 명령을 포함한다. 디바이스는 상기된 방법을 수행하도록 구성된다.
또 다른 측면에 있어서, 디바이스가 제공된다. 디바이스는 오디오 엘리먼트의 외부 표현을 획득하고 획득된 외부 표현에 기반해서 오디오 엘리먼트의 내부 표현을 생성하도록 구성된다.
본 개시의 실시예는 오디오 엘리먼트의 외부 표현으로부터 오디오 엘리먼트의 내부 표현을 도출하는 방법을 제공한다. 본 방법은 오디오 엘리먼트의 외부 표현만이 주어지는 경우 대부분 종류의 공간적으로 바운드된 오디오 엘리먼트에 대해서 적용 가능한 통합된 솔루션을 제공한다. 동일한 렌더링 원리들이, 오디오 엘리먼트들의 외부 표현들이 다른 포맷에서 특정되는 경우, 오디오 엘리먼트에 대해서 사용될 수 있다.
오디오 엘리먼트를 렌더링하기 위한 방법은 매우 효율적이고, 고품질 및 낮은 복잡성의 최상의 트레이드 오프에 대해서 손쉽게 적응될 수 있다. 내부 표현의 합성하는 부분의 방법은 누락하는 공간적인 정보를 생성하는 프로세스를 통해서 양호한 제어를 달성하는 것을 가능하게 한다.
본 개시에 통합되어 명세서의 일부를 형성하는 첨부 도면은 다양한 실시예를 도시한다.
도 1은 공간적으로 바운드된 오디오 엘리먼트의 일례를 나타낸다.
도 2는 오디오 엘리먼트의 내부 표현의 개념을 도시한다.
도 3(a)는 오디오 엘리먼트의 예시적인 외부 표현을 도시한다.
도 3(b)는 오디오 엘리먼트의 예시적인 내부 표현을 도시한다.
도 4는 가상의 라우드스피커의 예시적인 셋업을 나타낸다.
도 5는 실시예에 따른 오디오 엘리먼트의 외부 표현을 렌더링하는 방법을 도시한다.
도 6은 실시예에 따른 오디오 엘리먼트의 외부 표현을 렌더링하는 방법을 도시한다.
도 7은 실시예에 따른 렌더링 셋업을 도시한다.
도 8a 및 도 8b는 실시예에 따른 XR 시스템을 나타낸다.
도 9는 실시예에 따른 오디오 렌더러(renderer)를 나타낸다.
도 10(a)는 실시예에 따른 신호 수정기를 나타낸다.
도 10(b)는 실시예에 따른 도출기(deriver)를 나타낸다.
도 11은 실시예에 따른 오디오 엘리먼트를 렌더링하는 프로세스를 나타낸다.
도 12는 실시예에 따른 오디오 렌더러를 구현하기 위한 장치를 나타낸다.
도 13은 다른 고도 각도의 공간적인 정보가 생성될 필요가 있는 경우 어떻게 내부 표현의 다른 고도 레이어가 사용될 수 있는지를 도시한다.
도 14(a) 및 14(b)는 오디오 엘리먼트의 측면에 대한 리스너 위치로 외부 표현을 렌더링하는데 있어서의 문제를 도시한다.
1. 내부 및 외부 표현
도 1은 XR 환경(100)에서 공간적으로 바운드된 오디오 엘리먼트(102)의 일례를 나타낸다. 오디오 엘리먼트(102)는, 노래하는 사람들의 그룹이 오디오 엘리먼트(102)의 공간적인 바운더리로 규정되는 볼륨 S 내에 위치하는 합창단을 나타낸다.
오디오 엘리먼트(102)의 리스너(104)가 바운더리 S 내측의 리스닝 위치 A에 위치할 때, 리스너(104)는 합창단에 의해서 사실상 둘러싸여 있고, 따라서, 대응하는 둘러싸는 리스닝 경험은 리스너(104)에 제공되어야 한다. 이 경우, 리스너-중심 오디오 포맷은, 리스너-중심 포맷이 리스너(104)를 둘러싸는 오디오를 제시하도록 설계되므로, 오디오 엘리먼트(102)를 표현하기 위해서 적합할 수 있다. 리스너-중심 포맷에서의 오디오 엘리먼트(102)의 표현은 오디오 엘리먼트(102)의 내부 표현이 될 수 있다.
오디오 엘리먼트의 내부 표현은 리스너에 대한 오디오 경험을 생성하기 위해서 사용될 수 있는 표현인데, 여기서, 리스너는 오디오 엘리먼트의 바운더리 내에 있는 것을 지각할 것이다. 내부 표현에 대해서 사용된 데이터는 오디오 엘리먼트에 대한 오디오를 생성하기 위해서 사용될 수 있는 하나 이상의 내부 표현 오디오 신호(이하, "내부 오디오 신호")를 포함할 수 있다.
다른 한편으로, 리스너(104)가 바운더리 S 외측에 있는 리스닝 위치 B에 위치될 때, 리스너(104)는 오디오가 오디오 엘리먼트(102)의 볼륨(바운더리 S에 의해서 규정됨)으로부터 나오는 것처럼 오디오 엘리먼트(102)의 오디오를 청취하는 것을 기대할 수 있다. 오디오 엘리먼트(102)의 지각된 각도, 거리, 사이즈 및 형상은 위치 B에서 리스너(104)에 의해서 지각되는 것으로서 규정된 바운더리 S에 대응해야 한다. 이 경우, 소스-중심 오디오 포맷은, 리스너가 합창단에 의해더 더 이상 둘러싸이지 않아야 하므로, 리스너-중심 오디오 포맷보다 더 적합하게 될 수 있다. 소스-중심 포맷에서의 오디오 엘리먼트의 표현은 오디오 엘리먼트(102)의 외부 표현이 될 수 있다.
오디오 엘리먼트의 외부 표현은 리스너에 대한 오디오 경험을 생성하기 위해서 사용될 수 있는 표현인데, 여기서, 리스너는 오디오 엘리먼트의 바운더리 외측에 있는 것을 지각할 것이다. 오디오 엘리먼트의 내부 표현은 오디오 엘리먼트에 대한 오디오를 생성하기 위해서 사용될 수 있는 하나 이상의 외부 표현 오디오 신호(이하, "외부 오디오 신호")를 포함할 수 있다.
위치 B의 리스너(104)는, 또한, (오디오 엘리먼트(102)로부터 오디오를 청취함으로써) 오디오 엘리먼트(102)로부터 일부 공간적인 정보를 획득하는 것을 기대할 수 있으므로, 리스너(104)가 합창단이 단지 하나의 확산 오디오 소스라기 보다는 많은 개별 보이스들로 구성되는 것을 음향적으로 지각 할 수 있도록 한다. 이러한 경우, 오디오 엘리먼트(102)는 공간적으로 헤테로지니어스(heterogeneous) 오디오 엘리먼트에 대응할 수 있다. 오디오 엘리먼트(102)의 외부 표현을 위해서 다중-채널 포맷을 사용함으로써, 리스너(104)에는 바운더리 S의 외측의 리스닝 위치에서도 설득력 있는 공간적인 경험이 제공될 수 있다. 공간적으로 헤테로지니어스 오디오 엘리먼트의 개념 및 공간적으로 헤테로지니어스 오디오 엘리먼트를 렌더링하는 방법은, 참조로 본 개시에 통합된 국제 특허 출원 공개 번호 WO2020/144062 [10]에 기술된다.
현실적인 리스닝 경헙을 제공하기 위해서, 오디오 엘리먼트의 외부 및 내부 표현 모두가 필요하게 될 수 있다. 예를 들어, 리스너(104)는 외부 리스닝 위치 B로부터 내부 리스닝 위치 A로 리스너의 위치를 변경할 수 있다. 이 내부 리스닝 위치 A에서, 기대되는 오디오 환경은 다르게 될 것이다. 따라서, 본 개시의 일부 실시예에 있어서, 오디오 엘리먼트의 내부 표현은 오디오 엘리먼트의 외부 표현을 사용해서 도출된다. 또한, 도출된 내부 표현을 사용함으로써, 내부 및 외부 표현 모두가 렌더링될 수 있다.
공간적으로 바운드된 오디오 엘리먼트의 외부 및 내부 표현의 개념 및 오디오 엘리먼트의 내부 표현에 기반한 오디오 엘리먼트의 외부 표현을 도출하는 예시적인 방법은, 참조로 본 발명에 통합된, 국제 특허 출원 공개 번호 WO2020/144061 [8]에 기술된다.
2. 내부 표현을 도출
공간적으로 헤테로지니어스 오디오 엘리먼트는 소정 차원의 오디오 엘리먼트의 공간적인 정보를 표현하는 것을 의미하는 오디오 신호의 세트로 규정될 수 있다. 예를 들어, 스테레오 레코딩의 2개의 채널은 오디오 엘리먼트를 좌측 내지 우측 차원에서 표현하도록 사용될 수 있다. 다중 채널 레코딩과 함께, 오디오 엘리먼트는 다른 차원에서 표현될 수 있다. 예를 들어, 4-채널 레코딩은 4개의 채널이 소정의 리스닝 위치에서 지각됨에 따라서 오디오 엘리먼트의 상단-좌측, 상단-우측, 바닥-좌측 및 바닥-우측을 나타내도록 사용될 수 있다.
상기 레코딩이 다중 채널 레코딩의 예들이지만, 이들이 리스너를 둘러싸는 사운드 소스가 아니라 리스너로부터 일부 거리로부터에 있는 사운드 소스(즉, 오디오 엘리먼트)를 기술하므로, 이들은 여전히 소스 중심의 표현이다. 따라서, 상기 레코딩은 오디오 엘리먼트의 내부 표현에 대해서 적합하지 않을 수 있다. 따라서, 오디오 엘리먼트의 외부 표현으로부터 오디오 엘리먼트의 내부 표현을 도출해서 오디오 엘리먼트가 리스너-중심 표현으로 렌더링될 수 있도록 하는 것이 바람직하다.
그런데, 오디오 엘리먼트의 외부 표현은 모든 차원에서 오디오 엘리먼트의 공간적인 정보를 표현할 수 있게 되지 않을 수 있다. 예를 들어, 리스닝 위치가 오디오 엘리먼트의 바운더리 내에 있을 때, 그럴듯한 방식으로 깊이 차원으로 오디오 엘리먼트를 렌더링하는 것이 바람직하다. 그런데, 외부 표현이 스테레오 레코딩에 기반하는 오디오 엘리먼트의 경우, 깊이 정보는 규정되지 않는다. 그러므로, 깊이 차원에 대한 공간적인 정보를 제공하기 위해서, 새로운 신호가 생성될 필요가 있다. 실제 공간적인 정보는 공지되지 않으므로, 누락된 정보의 생성은 오디오 엘리먼트에 관한 일부 일반적인 상정을 사용해서 수행될 필요가 있다.
2.1 도출된 내부 표현을 위한 포맷 선택
오디오 엘리먼트의 내부 표현은 다른 리스너 중심 오디오 포맷에 기반할 수 있다. 이러한 리스너 중심 오디오 포맷의 예는 앰비소닉스(Ambisonics) 및 쿼드로포닉, 큐빅 옥토포닉(quadraphonic, cubic octophonic), 5.1, 7.1, 22.2, VBAP 포맷, 또는 DirAC 포맷과 같은 채널 기반 포맷의 큰 변형 중 어느 하나이다. 이들 리스너 중심 오디오 포맷에 있어서, 오디오 채널의 수가 오디오 엘리먼트의 바운더리 내측의 공간적 사운드 필드를 기술하기 위해서 사용된다.
리스너 중심 오디오 포맷들 중 일부는 오디오 엘리먼트의 바운더리 내측의 리스닝 위치에 대해서 모든 방향에서 오디오 엘리먼트의 공간적인 정보를 기술하는 반면, 다른 것들(예를 들어, 5.1 및 7.1)은 수평 평면 내의 오디오 엘리먼트의 공간적인 정보만을 기술한다.
일부 오디오 엘리먼트의 경우, 수직 평면 내의 오디오 엘리먼트의 공간적인 정보는 수평 평면 내의 오디오 엘리먼트의 공간적인 정보만큼 중요하지 않다. 또한, 인간의 청각 시스템은, 어떻게 공간적인 큐(예를 들어, ITD 및 ILD)가 작업하는지에 기인해서 수평 평면 내의 공간적인 정보에 비교해서 수직 평면 내의 공간적인 오디오 정보에 덜 민감하다. 그러므로, 때때로, 이는, 수평 평면만의 오디오 엘리먼트의 공간적인 정보를 기술하는 것으로 충분할 수 있다.
오디오 엘리먼트의 내부 표현의 포맷(예를 들어, 내부 표현을 위해서 사용된 오디오 신호의 타입 및/또는 수)은 오디오 엘리먼트의 주어진 외부 표현에서 사용 가능한 신호에 기반해서 선택될 수 있다. 예를 들어, 오디오 엘리먼트의 주어진 외부 표현이 2개의 채널이 좌측 내지 우측 차원에서 오디오 엘리먼트를 표현하는 스테레오 레코딩에 기반하면, 수평 평면만을 기술하는 내부 표현 포맷(예를 들어, 쿼드로포닉 포맷)이 선택될 수 있다. 다른 한편으로, 외부 표현이 수평 및 수직 공간적인 정보가 모두가 기술되는 다중 채널 포맷(예를 들어, 도 3(a) 참조)에 기반하면, 양쪽 차원에서 오디오 엘리먼트를 기술하는 내부 표현 포맷이 선택될 수 있다. 신호가 오디오 엘리먼트의 상단-좌측, 상단, 상단-우측, 좌측, 중앙, 우측, 바닥-좌측, 바닥, 바닥-우측, 또는 이들의 서브세트를 나타내는 다중-채널 포맷에서 주어지면, 다중 레이어 쿼드로포닉 포맷이 사용될 수 있다. 이러한 경우, 모든 주어진 오디오 신호는 내부 표현을 위해서 직접 재사용될 수 있고, 각각의 고도 레이어의 후방을 나타내는 오디오 신호만이 생성되는 것이 필요할 수 있다. 이는 3(a) 및 3(b)에 도시된다.
대안적으로 또는 추가적으로, 다른 팩터(들)가 내부 표현의 포맷을 선택할 때 고려될 수 있다. 예를 들어, 오디오 렌더링의 복잡성이 최소화될 필요가 있으면, 더 적은 채널을 갖는 내부 표현 포맷이 선택될 수 있다. 일부 경우, 외부 표현에서의 일부 공간적인 정보는 렌더링 복잡성을 최소화하기 위해서 내부 표현에서 무시될 수 있다. 예를 들어, 외부 표현이 오디오 엘리먼트가 수직 차원으로 표현될 수 있는 다중 채널 포맷에 기반하는 경우에도, 단순한 수평-전용 쿼드로포닉 포맷이 내부 표현의 포맷으로서 사용될 수 있다.
2.2 내부 표현에 대한 신호 생성
도 2는 오디오 엘리먼트(192)의 예시적인 내부 표현을 도시한다. 내부 표현은 쿼드로포닉 오디오 포맷에 기반한다. 내부 표현의 경우, 4개의 오디오 채널은 오디오 엘리먼트(102)의 좌측, 우측, 전방 및 후방을 나타내기 위해서 사용된다. 예시적인 내부 표현은 수평 평면 내의 오디오 엘리먼트(102)의 공간적인 정보만을 기술한다.
오디오 엘리먼트(102)의 외부 표현이 알려지고 외부 표현이 오디오 엘리먼트(102)의 좌측 및 우측을 표현하는 스테레오 신호에 기반하면, 좌측 신호 및 우측 신호를 포함하는 스테레오 신호(일명, 좌측 및 우측 외부 표현 신호)가 내부 표현 내의 오디오 엘리먼트(102)의 좌측 및 우측을 표현하는 신호(일명, 좌측 및 우측 내부 표현 신호)로서 재사용될 수 있다. 그런데, 주어진 외부 표현 내에 오디오 엘리먼트(102)의 전방 및 후방을 표현하는 신호가 없기 때문에, 이들 신호들(일명, 누락 내부 표현 신호)이 내부 표현을 위해서 생성될 필요가 있다. 따라서, 본 개시의 하나의 실시예에 있어서, 이들 신호들은 외부 표현(즉, 상기 예에서 스테레오 신호)을 위한 신호(들)에 기반해서 생성된다.
본 개시에서, 용어 "오디오 신호"는 단순화를 위해서 단순히 "신호(signal)"로 언급될 수 있다.
도 1을 다시 참조하면, 내부 표현 내의 오디오 엘리먼트(104)의 전방을 표현하는 신호(일명, 전방 내부 표현 신호)는 좌측 및 우측 외부 표현 신호의 조합(예를 들어, 합 또는 가중된 합)에 기반해서 생성될 수 있다. 하나의 실시예에 있어서, 전방 내부 표현 신호는 좌측 및 우측 외부 표현 신호의 평균이다.
내부 표현에서 오디오 엘리먼트(104)의 후방을 표현내는 신호(일명, 후방 내부 표현 신호)는 동일한 방식으로 생성될 수 있다. 그 다음, 그런데, 오디오 엘리먼트(102)는, 전방 및 후방 내부 표현이 동일하게 되므로, 전방-후방 차원에서의 공간적인 정보를 갖지 않게 된다. 이러한 경우, 오디오 엘리먼트(102)는 전방-후방 차원에서 더 코히어런트 소스 처럼 행동하게 된다.
내부 표현에서 오디오 엘리먼트(102)를 위한 전방-후방 차원에서의 일부 공간적인 정보를 제공하기 위해서, 후방 내부 표현 신호는 전방 내부 표현 신호의 상관 해제된 버전으로서 생성될 수 있다. 이러한 경우, 전방 및 후방의 내부 표현 신호가 어느 정도 상관 해제되기 때문에, 오디오 엘리먼트(102)는 전방-후방 차원에서 더 확산 소스처럼 행동하게 된다.
또 다른 실시예에 있어서, 전방 내부 표현 신호는 좌측 및 우측 외부 표현 신호의 믹스의 상관 해제된 버전으로서 생성될 수 있다. 이러한 경우, 내부 표현에서의 오디오 엘리먼트(102)는 리스너가 오디오 엘리먼트(102)의 전방에 위치할 때 더 확산하는 사운드가 된다. 그런데, 리스너가 오디오 엘리먼트(102)의 전방에 있을 때 오디오 엘리먼트(102)가 좌측 및 우측 외부 표현 신호와 유사한 사운드를 의도하면, 이는, 바람직하지 않을 수 있다. 다른 한편으로, 좌측 및 우측 외부 표현 신호들의 믹스의 상관 해제된 버전을 사용하는 것은, 리스너에 의해서 지각되는 오디오 엘리먼트(104)의 폭 및/또는 확산도를 증가시킬 수 있다. 지각된 폭 및/또는 확산도의 이러한 증가는 소정의 오디오 엘리먼트들에 대해서 바람직할 수 있다. 전방 내부 표현 신호가 좌측 및 우측 외부 표현 신호의 믹스의 상관 해제된 버전으로서 생성되는 경우, 후방 내부 표현 신호는 좌측 및 우측 외부 표현 신호의 믹스, 전방 내부 표현 오디오 신호의 상관 해제된 버전, 또는 좌측 및 우측 외부 표현 신호의 믹스의 또 다른 상관 해제된 버전으로서 생성될 수 있다.
상관 해제된 신호를 생산하는 많은 방법이 있다 - 즉, 신호의 소정의 측면이 고려되는 또 다른 신호의 상관 해제된 버전. 예를 들어, 오디오의 과도 현상, 하모닉 및 노이즈 컴포넌트의 특별한 핸들링이 있을 수 있다. 상관 해제의 프로세스는 (예를 들어, 동일한 음색, 크기 스펙트럼, 시간 엔벨로프 등을 갖는) 오리지널 신호와 상위-레벨 속성을 공유하지만, (예를 들어, 2개의 신호의 교차 상관이 0에 가깝다는 의미에서) 오리지널 신호와의 상관이 없거나 매우 낮은 정도인 신호를 생성하기 위한 것이다. 상관 해제기를 구현하기 위한 고전적인 방법은 (오리지널 신호를 지연하도록 구성될 수 있는) 매우 다양한 고정된 또는 동적인 지연 라인 구조들 중 하나를 사용하지만, 더 진보된 구현들은 최적화된 (예를 들어, FIR) 필터 구조들을 사용할 수 있다. 상관 해제에 관한 더 일반적인 정보는: https://en.wikipedia.org/wiki/Decorrelation#에서 발견될 수 있다. 상관 해제기의 더 진보된 구현의 일례는: https://www.audiolabs-erlangen.de/resources/2018-DAFx-VND에서 발견될 수 있다.
생성된 오디오 신호(들)(예를 들어, 후방 내부 오디오 신호)가 다른 신호(들)(예를 들어, 전방 내부 오디오 신호)와 너무 많은 상관을 가지면, 생성된 오디오 신호(들)가 표현하는 차원(예를 들어, 전방-후방 차원)의 공간적인 정보가 제한될 것이고, 오디오 엘리먼트를 렌더링할 때, 범위의 사이즈는 리스너에 의해서 충분히 넓게 지각되지 않을 수 있다. 상관 해제기의 레벨은 오디오 엘리먼트의 특징에 의존할 수 있다. 일부 실시예에 있어서, 상관의 양은 오디오 엘리먼트를 렌더링할 때 오디오 엘리먼트의 범위에 대응하는 지각 폭을 제공하기 위해서 50%의 임계치 미만이 될 필요가 있다.
외부 표현에서 규정되지 않은 내부 표현 내의 오디오 신호를 생성하는 프로세스는 소정의 오디오 소스에 대해서 기대되는 소정의 상정에 기반될 필요가 있다. 그런데, 이들 상정에 대한 지침으로서 외부 오디오 신호 자체의 소정의 측면을 사용하는 것이 가능하다. 예를 들어, 외부 표현 내의 다른 신호들 사이의 상관을 측정하는 것은, 내부 표현을 위해서 생성된 상관 신호들의 어떤 레벨이 외부 표현으로부터 재사용되는 다른 내부 표현 오디오 신호들과 함께 가져야 하는지에 대한 양호한 인디케이션을 제공할 수 있다. 분산, 확산도, 과도 현상의 존재 등을 측정하는 것은 누락 내부 표현 신호를 생성하는데 도움을 주는 유사한 방법으로 사용될 수 있다.
대안적으로 또는 추가적으로, 가외의 메타데이터가 오디오 엘리먼트를 표현하기 위해서 제공될 수 있다. 메타데이터는 오디오 엘리먼트의 기대된 행동을 규정할 수 있다. 이러한 메타데이터의 하나의 예는 다른 차원에서의 오디오 엘리먼트의 확산도이다 - 오디오 엘리먼트가 확산되는 값은 다른 차원(예를 들어, 우측-좌측 차원, 위-아래 차원, 전방-후방 차원 등)에서 나타나야 한다. 이러한 메타데이터의 또 다른 예는, 생성되는 하나 이상의 제공된(공지된) 외부 표현 오디오 신호(일명, 외부 오디오 신호)와 하나 이상의 내부 표현 오디오 신호(일명, 내부 오디오 신호) 사이의 상관의 희망하는 정도를 특정할 수 있는 메타데이터이다. 예를 들어, 메타데이터는 도출되는 후방 내부 오디오 신호가 제공된 좌측 외부 오디오 신호와 0.6의 상관 및 제공된 우측 외부 오디오 신호와 0.2의 상관을 가져야 하는 것을 특정할 수 있다. 또 다른 예에 있어서, 메타데이터는 어떻게 내부 표현이 외부 표현으로부터 도출되는지를 완전히 특정하는 업믹스 매트릭스를 포함할 수 있다.
수평 평면 내의 오디오 엘리먼트의 공간적인 정보만을 기술하는 내부 표현을 위한 오디오 포맷이 선택될 때, 동일한 오디오 신호가 수직 차원에서 오디오 엘리먼트의 다른 부분을 기술하기 위해서 사용될 것이므로, 오디오 엘리먼트는 수직 차원에서 코히어런트 소스같이 행동할 것이다. 따라서, 수직 차원(즉, 높이 차원)에서 오디오 엘리먼트의 표현이 오디오 엘리먼트에 대해서 중요하면, 내부 표현에 대해서 사용되는 오디오 포맷은, 예를 들어, 가외의 2개의 채널이 오디오 엘리먼트의 바닥과 상단을 표현하기 위해서 사용될 수 있는 6-채널 포맷으로 확장될 수 있다. 이들 2개의 가외의 채널은 전방 및 후방 내부 표현 신호들이 생성되는 것과 유사한 방식으로 생성될 수 있다.
도 3(a)는 오디오 엘리먼트의 예시적인 외부 표현(300)을 도시한다. 외부 표현(300)은, 9개의 다른 채널이 오디오 엘리먼트의 상단-좌측, 상단, 상단-우측, 좌측, 중앙, 우측, 바닥-좌측, 바닥, 및 바닥-우측 각각을 표현하는 9-채널 오디오 포맷에 기반한다. 더 구체적으로, 9개의 채널은 수직 평면 표현에서 오디오 엘리먼트의 9개의 다른 부분과 관련된 9개의 오디오 신호에 대응할 수 있다.
외부 표현에 의해서 주어진 오디오 엘리먼트의 상세한 공간적인 정보를 표현하기 위해서, 오디오 엘리먼트의 내부 표현은 풍부한 오디오 포맷에 기반하는 것이 필요할 수 있다. 예를 들어, 도 3(b)에 도시된 바와 같이 2개의 티어(tier) 쿼드로포닉 포맷(350)이 될 수 있다. 도 3(b)에 나타낸 바와 같이, 3개의 티어 쿼드로포닉 포맷(350)에 있어서, 각각의 3개의 다른 고도 레벨이 좌측, 우측, 전방, 후방 신호에 의해서 표현된다. 이 포맷을 사용함으로써, 외부 표현에 대해서 사용 가능한 모든 신호(즉, 오디오 엘리먼트의 상단-좌측, 상단, 상단-우측, 좌측, 중앙, 우측, 바닥-좌측, 바닥, 및 바닥-우측)는 내부 표현에 대해서 직접 재사용될 수 있다. 이러한 경우, 내부 표현을 위해서, 각각의 레벨에서 오디오 엘리먼트의 후방면을 표현하는 내부 신호 TB(top-back), CB(center-back), BB(bottom-back)만이 생성될 필요가 있다. 특히, 내부 오디오 신호로서 외부 오디오 신호를 재사용하는 것은, 내부 오디오 신호를 생성하는 것이 실시간으로 수행되는 것이면 유익할 수 있다.
대안적으로, 앰비소닉스 표현은 내부 표현에 대해서 사용될 수 있다. 원리적으로, 이것이 어느 순서의 앰비소닉 표현이 될 수 있지만, 바람직하게는, 외부 표현에 포함된 공간적인 해상도를 보존하기 위해서 적어도 제2 순서의 표현이 사용된다. 앰비소닉 포맷 신호(즉, 앰비소닉 포맷의 내부 오디오 신호)는 중간 포맷으로서 이전에 기술된 3 티어 오디오 포맷을 사용함으로써 및 앰비소닉 도메인 내의 가상의 사운드 소스로서 개별 내부 오디오 신호를 렌더링함으로써 생성될 수 있다.
일부 실시예에 있어서, 내부 오디오 신호는 실시간 렌더링이 시작되기 전에 사전-처리 단계로서 생성될 수 있다. 이것이 불가능한 경우가 있다. 예를 들어, 오디오 엘리먼트를 표현하는 오디오 신호가 렌더링이 시작하기 전에 사용 가능하지 않으면. 이는, 신호가 실시간으로 생성되는 경우, 이들이 실시간 캡처의 결과이기 때문에 또는 신호가 절차적인 오디오의 경우와 같이 실시간 프로세스에 의해서 생성되는 것이 될 수 있다.
또한, 내부 오디오 신호의 생성은, 외부 표현에서 규정되지 않은 내부 오디오 신호의 생성이 렌더링이 시작되기 전에 사용 가능하지 않은 파라미터에 의존할 때 실시간 렌더링이 시작되기 전에 사전-처리 단계로서 수행되지 않을 수 있다. 예를 들어, CPU 로드가 제한될 필요가 있을 때 더 단순한 내부 표현이 사용되도록 하는 방식으로, 내부 표현의 생성이 오디오 렌더링 디바이스의 순간적인 CPU 로드에 의존하면, 내부 오디오 신호의 생성은 렌더링이 시작되기 전에 수행되지 않을 수 있다.
또 다른 예는, 예를 들어, 오디오 엘리먼트가 리스닝 위치로부터 멀리 떨어져 있을 때 더 단순한 내부 표현이 선택되는 방식으로, 내부 표현의 생성이 리스닝 위치에 대한 오디오 엘리먼트의 상대적인 위치에 의존하는 경우이다.
3. 내부 표현을 사용하는 내부 표현 렌더링
일부 실시예들에 따르면, 내부 표현을 렌더링하기 위한 방법은 내부 표현을 위해서 선택되는 오디오 포맷의 종류에 의존할 수 있다.
3.1 채널-기반 오디오 포맷
오디오 엘리먼트의 내부 표현이 채널 기반 오디오 포맷에 기반할 때, 내부 표현을 렌더링하는 하나의 방법은 리스너에 대한 어떤 각도에 위치된 가상의 라우드스피커로 내부 표현의 각각의 채널을 표현하는 것이다. 각도는 각각의 채널이 오디오 엘리먼트의 전방 벡터에 대해서 표현하는 방향에 대응할 수 있다.
예를 들어, 전방 내부 오디오 신호는 오디오 엘리먼트의 전방 벡터와 정렬되는 방향으로부터 나오도록 렌더링될 수 있고(도 4에 나타냄), 및 좌측 내부 오디오 신호는 전방 벡터에 대해서 90도 각도에 있는 방향으로부터 나오도록 렌더링될 수 있다. 이 렌더링은, 리스너가 스피커 셋업에 의해서 둘러싸인 및 내부 오디오 신호와 가상의 라우드스피커 사이의 직접적이고 배타적인 매핑이 있는 가상의 리스닝 룸에 주로 대응한다. 이 경우, 오디오 렌더링은 리스너의 헤드 회전에 의존하지 않는다.
대안적인 실시예에서, 가상의 라우드스피커의 셋업은 오디오 엘리먼트의 배향으로부터 결합 해제되고 대신에 리스너의 헤드 회전과 같은 일부 다른 기준 방향에 의존한다. 도 4는 내부 표현의 수평 평면을 렌더링하는데 사용될 수 있는 가상의 라우드스피커의 셋업을 나타낸다. 이 경우, 각각의 가상의 라우드스피커로의 신호는 가상의 라우드스피커의 각도에 대응하는 각도에서 내부 표현의 중앙에 위치된 가상의 마이크로폰으로부터 도출될 수 있다. 예를 들어, 도 4에서, 좌측 가상의 라우드스피커로 가는 신호는 가상의 라우드스피커의 방향으로 포인팅하고 있는 가상의 마이크로폰를 사용해서 도출될 수 있다. 이 경우, 이 가상의 마이크로폰은 대부분 좌측 및 후방 신호의 믹스를 캡처한다. 이 경우, 렌더링 셋업의 가상의 라우드스피커가 오디오 엘리먼트의 방향으로 정렬되지 않으므로, 내부 표현의 신호(즉, 내부 오디오 신호)는 가상의 라우드스피커에 대한 입력 오디오 신호로서 직접 사용될 수 없다. 대신, 각각의 가상의 라우드스피커에 대한 입력 오디오 신호는 내부 오디오 신호의 방향 믹싱으로 도출될 수 있다.
방향 믹싱과 관련된 오디오 출력은 내부 표현의 소정의 방향에서 오디오를 캡처하는 방식으로 각도를 이루는 가상의 마이크로폰에 대응할 수 있다. 도 4는 좌측 가상의 라우드스피커가 도출되는 방법의 예를 나타낸다. 이 예에 있어서, 오디오가 캡처되어야 하는 방향은 좌측으로 90도이다. 따라서, 가상 마이크로폰은 관측 벡터에 관련해서 이 방향을 지향한다. 이 가상의 마이크로폰에 의해서 캡처된 신호 M1은, 하나의 실시예에 있어서, 다음과 같이 도출될 수 있다
방정식 1
M1 = max(0, cos(θ + α)*F + max(0, cos(θ + α - π/2))*L
+ max(0, cos(θ + α - π)*B + max(0, cos(θ + α - 3π/2))*R, 여기서 θ는 리스너의 헤드 방향과 오디오 엘리먼트의 전방 벡터 사이의 각도이고, α는 리스너의 헤드 방향에 관련해서 가상의 마이크로폰의 각도이다. 이 예에 있어서, 내부 표현은 수평 평면에서 오디오 엘리먼트의 공간적인 정보만을 기술하고, 따라서 각도는 수평 평면 상에 투영될 수 있다.
상기 방정식 1에 나타낸 바와 같이, 오디오 신호는 적어도 2개의 내부 오디오 신호의 조합에 기반해서 생성될 수 있다. 더 구체적으로, 오디오 신호는 적어도 2개의 내부 오디오 신호의 가중된 합에 기반해서 생성될 수 있다. 일부 실시예에 있어서, 가중된 합에 대해서 사용되는 가중치는 리스너의 배향에 기반해서 결정될 수 있다(예를 들어, 하나 이상의 센서에 의해서 획득됨). 그런데, 다른 실시예에 있어서, 가중치는 오디오 엘리먼트의 배향과 같은 일부 다른 기준 배향에 기반해서 결정될 수 있다(예를 들어, 오디오 렌더링이 리스너의 헤드 회전에 의존하지 않는 상기된 실시예들에서).
고도 차원에서 공간적인 정보를 표현하기 위해서, 업-다운 차원에서 오디오 엘리먼트를 표현하는 신호를 갖는 내부 표현을 위한 오디오 포맷을 사용하는 것이 필요하게 된다. 예를 들어, 도 3(a) 및 3(b)에 나타낸 바와 같이, 3-레이어 쿼드로포닉 오디오 포맷이 사용될 수 있다. 이 경우, 각각의 가상의 마이크로폰의 수직 각도 또한 고려될 수 있다. 이 수직 각도는 고도 레이어의 방향 믹스를 만들기 위해서 사용될 수 있으며, 여기서 각각의 레이어의 신호는 상기된 수평 방향 믹싱을 사용해서 계산된다.
고도 각도 Φ를 갖는 마이크로폰의 신호는, M = max(0, sin(φ))*STOP + cos(φ)*SMID + max(0, sin((-φ))*SBOT로 계산될 수 있고, 여기서 STOP, SMID 및 SBOT는 수평 방향 믹싱을 사용해서 계산되었던, 각각의 고도 레이어로부터의 신호이다.
도 13은 어떻게 내부 표현의 다른 고도 레이어가 다른 고도 각도의 공간적인 정보가 생성될 필요가 있을 때 사용될 수 있는지를 나타낸다. 도 13에서, 리스너의 헤드는 각도 Φ에서 위쪽으로 향한다. 리스너의 헤드 방향을 표현하는 가상의 라우드스피커에 대한 오디오 신호를 생성하기 위해서, 3개의 레이어로부터의 신호들의 방향 믹싱이 사용될 수 있다. 여기서, 방향 믹스는 상부 및 중간 고도 레이어의 믹스로 이루어진다.
3.2 앰비소닉스(Ambisonics)
앰비소닉스 포맷을 기반으로 내부 표현을 렌더링하는 경우, 앰비소닉스 렌더링에 대해서 사용 가능한 표준 방법 중 어느 것(다수의 가상의 라우드스피커의 사용에 기반한 것들 또는 구형 하모닉 도메인으로 변환된 HRTF 세트를 직접적으로 사용해서 구형 하모닉을 렌더링하는 것과 같은)이 사용될 수 있다.
4. 내부 표현을 사용하는 외부 표현 도출
오디오 엘리먼트 내측에 위치된 리스너에 확장된 오디오 엘리먼트(제공된 외부 표현만을 갖는)를 렌더링하기 위해서 사용되는 것에 추가해서, 도출된 내부 표현은 오디오 엘리먼트 외측의 리스닝 위치에서 개선된 렌더링을 가능하게 하는데 유리하게 사용될 수 있다. 전형적으로, 제공된 외부 표현(예를 들어, 스테레오 신호)은 하나의 특정 리스닝 위치("기준 위치"), 예를 들어, 오디오 엘리먼트의 전방의 중앙 위치에 대한 오디오 엘리먼트를 표현하고, 예를 들어, 오디오 엘리먼트의 측면 또는 후방에 대한 다른 외부 리스닝 위치에 대한 오디오 엘리먼트를 렌더링하는데 직접적으로 적합하지 않을 수 있다. 도출된 내부 표현은, 확장된 오디오 엘리먼트 주위의 사운드를 탐색하는데 있어서 완전한 6DoF 경험을 리스너에 제공하는 매우 유연한 렌더링 메커니즘을 제공하기 위해서 사용될 수 있다.
더 구체적으로, 외부 표현이 주어질 때에도, 일부 상황에 있어서, 주어진 외부 표현으로부터 내부 표현을 먼저 도출한 후, 도출된 내부 표현으로부터 새로운 외부 표현을 도출하는 것이 유익하게 될 수 있다. 그 이유는, 주어진 외부 표현이 전형적으로 오디오 엘리먼트의 모든 차원에서 공간적인 캐릭터를 기술하지 않기 때문이다. 대신, 주어진 외부 표현은, 전형적으로, 오디오 엘리먼트의 전방으로부터 들림에 따라서 오디오 엘리먼트만을 기술한다. 리스너가 오디오 엘리먼트의 측면, 위 또는 아래에 위치되면(내부 표현을 렌더링하는 것과 유사), 규정되지 않은 깊이 차원의 오디오 엘리먼트의 표현이 필요하게 될 수 있다.
도 5는 오디오 엘리먼트의 내부 표현에 기반해서 오디오 엘리먼트의 외부 표현을 렌더링하는 예시적인 방법을 도시한다. 여기서는 2개의 가상의 라우드스피커 SpL 및 SpR이 오디오 엘리먼트를 표현하기 위해서 사용된다. 이 예에서, 오디오 엘리먼트의 내부 표현은 내부 오디오 신호 F, B, L, 및 R을 포함한다.
도 5에서, 리스너와 오디오 엘리먼트의 공간적인 범위 사이의 관측 벡터는 가상의 라우드스피커를 위한 오디오 신호를 캡처하는 가상의 마이크로폰 MicL의 배향(즉, 각도)을 결정하기 위한 기반(basis)으로서 사용된다. 가상의 라우드스피커 SpL(리스너의 위치에서 음향적으로 지각되는 오디오 엘리먼트(602)의 좌측 측면을 표현)에 대한 오디오 신호는 내부 표현으로부터 도출될 수 있다(예를 들어, 상기 방정식 1을 사용해서).
여기서, 방정식 1에 대해서, θ는 관측 벡터와 오디오 엘리먼트의 전방 벡터 사이의 각도이고, α(도 5에서 90도)는 관측 벡터에 대한 마이크로폰 MicL의 방향이다. 도 5에서, 가상의 마이크로폰은 내부 오디오 신호 L 및 B에 의해서 표현되는 방향들 사이의 방향으로 배향되며, 따라서 2개의 내부 오디오 신호 L 및 B의 혼합을 캡처할 수 있다.
도 6은 내부 표현을 사용해서 오디오 엘리먼트의 외부 표현을 렌더링하는 또 다른 예시적인 방법을 도시한다. 도 6에서, 평면 형태의 오디오 엘리먼트의 단순화된 범위는 리스닝 위치에서 음향적으로 지각되는 오디오 엘리먼트의 공간적 범위를 표현하기 위해서 사용된다. 이 예에서, 오디오 엘리먼트의 범위의 좌측 부분을 표현하는 외부 오디오 신호를 도출하기 위해서 사용되는 각도는, 관측 벡터 대신 평면의 법선 벡터에 기반한다.
각도 θ는 평면의 법선 벡터와 오디오 엘리먼트의 전방 벡터 사이의 각도이다. 각도 θ는 외부 렌더링의 가상의 라우드스피커에 의해서 표현되어야 하는 원근을 표현하는 것으로서 간주되어야 하다. 각도 θ는 관측 벡터와 관련될 수 있지만 항상 직접 따르는 것은 아니다.
도 7은 외부 표현에 대한 렌더링 셋업의 예를 나타낸다. 3개의 가상의 스피커(SpL, SpC 및 SpR)가 도 7에 나타낸 셋업에서 사용된다. 스피커 SpC에 제공되는 오디오 신호는 오디오 엘리먼트의 중심으로부터 오는 오디오를 표현할 수 있다. 중앙으로부터 오는 오디오는 리스닝 위치에서 음향적으로 지각되는 오디오 엘리먼트의 전방 및 후방으로부터의 오디오를 포함할 수 있다.
이 경우, 다운믹스는 마이크로폰 MicF 및 MicB를 사용해서 생성될 수 있다. 또한, 오디오 엘리먼트의 정면 부분이 리스너 위치에 더 근접하므로, 가외의 거리 이득 팩터가 계산 및 사용될 수 있다. 가외의 거리 이득 팩터는 2개의 마이크로폰 신호의 믹스를 제어해서, MicF로부터의 신호가 MicB로부터의 신호보다 더 크게 되도록 할 수 있다.
일부 실시예에 있어서, 리스너의 현재 위치로부터 직접 들을 수 있는 내부 표현의 이들 컴포넌트만이 다운믹스에 포함될 수 있다. 예를 들어, 리스너가 오디오 엘리먼트의 바로 전방에 있으면, 내부 표현의 좌측, 우측 및 전방 오디오 컴포넌트만이 다운믹스에 포함될 수 있고, 후방 오디오 컴포넌트 엘리먼트(사운드가 리스너에 직접 도달하지 않을 수 있는 오디오 엘리먼트의 후방 측면을 표현하는)는 아니다. 기본적으로, 이는 오디오 엘리먼트의 범위가 음향적으로 불투명한 표면인 것을 의미하며, 이 표면으로부터 직접 사운드 에너지가 리스너의 위치에서 리스너로부터 음향적으로 차단되는 오디오 엘리먼트의 부분(들)로부터 리스너에 도달하지 않는다. 또 다른 실시예에 있어서, 다운믹스에 대한 내부 표현의 다른 컴포넌트의 기여는 오디오 엘리먼트에 대한 "음향 불투명도 팩터"(예를 들어, 광학에서의 불투명도 속성의 유사)를 특정함으로써 제어될 수 있다(예를 들어, 오디오 엘리먼트를 수반하는 메타데이터 내에 음향 불투명도 팩터를 포함함으로써 또는 렌더러에서 스위치를 설정 및 음향 불투명도에 기반해서 동작하는 스위치를 구성함으로써). 이러한 실시예들에 있어서, 음향 불투명도 팩터가 0일 때, 오디오 엘리먼트는 음향적으로 "투명"이고, 내부 표현의 모든 엘리먼트는 다운믹스에 동등하게 기여한다(상술된 바와 같이 가능한 거리 이득을 제외(예를 들어, 단락 [0095] 참조). 반대로, 음향 불투명도 팩터가 1일 때, 오디오 엘리먼트는 음향적으로 완전히 불투명하며, 따라서, 리스너에 직접 도달하는 내부 표현의 컴포넌트만(즉, 오디오 엘리먼트를 통과하지 않은)이 다운믹스에 포함된다.
5. 내부 표현에 대한 채널-기반 신호 매핑
하나의 포맷의 채널-기반 오디오 신호는, 통상의 기술자에 공지된 많은 대응하는 매핑 방법 중 어느 것을 사용해서, 앰비소닉스과 동일한 포맷 또는 다른 포맷을 또는 일부 다른 채널-기반 포맷을 사용해서 내부 표현에 매핑될 수 있다.
6. 채널-기반 내부 표현에 대한 앰비소닉스 신호 매핑
또한, 앰비소닉 신호는 통상의 기술자에 공지된 많은 대응하는 매핑 방법 중 어느 것을 사용해서 채널-기반 포맷에 기반한 오디오 엘리먼트의 내부 표현에 매핑될 수 있다.
7. 예의 사용 케이스
도 8a는 실시예가 구현될 수 있는 XR 시스템(800)을 도시한다. XR 시스템(800)은 스피커(804 및 805)(리스너가 착용한 헤드폰의 스피커가 될 수 있음)와 리스너가 착용하도록 구성된 디스플레이 디바이스(810)를 포함한다. 도 8b에 나타낸 바와 같이, XR 시스템(800)은 출력 오디오 신호(예를 들어, 나타낸 바와 같이 좌측 스피커에 대한 좌측 오디오 신호 및 우측 스피커에 대한 우측 오디오 신호)를 생성하기 위해서 오디오 렌더러(851)에 (직접적으로 또는 간접적으로) 결합된 배향 센싱 유닛(801), 위치 센싱 유닛(802), 및 처리 유닛(803)을 포함할 수 있다. 오디오 렌더러(851)는 입력 오디오 신호, 리스너가 경험하는 XR 씬에 관한 메타데이터, 리스너의 위치 및 배향에 관한 정보를 기반으로 출력 신호를 생성한다. 오디오 렌더러(851)는 디스플레이 디바이스(810)의 컴포넌트가 될 수 있거나 또는 리스너로부터 원격이 될 수 있다(예를 들어, 렌더러(851)는 "클라우드"에서 구현될 수 있다).
배향 센싱 유닛(801)은 리스너의 배향에서의 변경을 검출하고 처리 유닛(803)에 검출된 변경에 관한 정보를 제공하도록 구성된다. 일부 실시예에 있어서, 처리 유닛(803)은 배양 센싱 유닛(801)에 의해서 검출된 배향에서의 검출된 변경이 제공된 (일부 좌표계에 관련해서) 절대적인 배향을 결정한다. 또한, 배향 및 위치를 결정하기 위한 다른 시스템, 예를 들어, 등대 추적기(LIDAR)를 사용하는 시스템이 있을 수 있다. 하나의 실시예에 있어서, 배향 센싱 유닛(801)은 배향에서 검출된 변경이 제공된 (일부 좌표계에 관련해서) 절대적인 배향을 결정할 수 있다. 이 경우, 처리 유닛(803)은 배양 센싱 유닛(801)으로부터의 절대 배향 데이터 및 위치 센싱 유닛(802)으로부터의 위치 데이터를 단순히 멀티플렉스할 수 있다. 일부 실시예에 있어서, 배향 센싱 유닛(801)은 하나 이상의 가속도계 및/또는 하나 이상의 자이로스코프를 포함할 수 있다.
도 9는 XR 씬에 대한 사운드를 생성하기 위한 오디오 렌더러(851)의 구현의 예를 나타낸다. 오디오 렌더러(851)는 제어기(901)로부터의 제어 정보(910)에 기반해서 오디오 입력(861)(예를 들어, 다중 채널 오디오 신호)을 수정하기 위한 제어기(901) 및 신호 수정기(902)를 포함한다. 제어기(901)는 하나 이상의 파라미터를 수신하고, 수신된 파라미터에 기반해서 오디오 입력(861)에 대한 수정(예를 들어, 볼륨 레벨의 증가 또는 감소)을 수행하도록 수정기(902)를 트리거하도록 구성될 수 있다. 수신된 파라미터들은, (1) 리스너의 위치 및/또는 배향에 관한 정보(863)(예를 들어, 오디오 엘리먼트에 대한 방향 및 거리) 및 (2) XR 씬 내의 오디오 엘리먼트에 관한 메타데이터(862)(예를 들어, 오디오 엘리먼트(102))를 포함한다. 도 9는 제어기(901) 및 신호 수정기(902)가 2개의 다른 엔티티인 것을 나타내지만, 일부 실시예에서, 이들은 단일 엔티티가 될 수 있다.
도 10(a)는 하나의 실시예에 따른 신호 수정기(902)의 예의 구현을 나타낸다. 신호 수정기(902)는 도출기(1002), 방향 믹서(1004) 및 스피커 신호 생성기(1006)를 포함한다.
도출기(1002)는 오디오 입력(861)을 수신하는데, 이 예에 있어서, 외부 오디오 신호(1010 및 1012)의 쌍을 포함한다. 외부 오디오 신호(1010 및 1012)는 오디오 엘리먼트의 외부 표현을 위한 것이다. 외부 오디오 신호(1010 및 1012)를 사용해서, 도출기(1002)는 오디오 엘리먼트의 외부 표현으로부터 오디오 엘리먼트의 내부 표현을 도출한다. 도출기(1002)의 도출 동작은 사전-처리 단계로서 또는 실시간으로 수행될 수 있다. 더 구체적으로, 도출기(1002)는 오디오 엘리먼트의 내부 표현을 위한 내부 오디오 신호(1014)를 도출한다. 도 10에서, 내부 오디오 신호(1014)는 좌측 내부 오디오 신호(L), 우측 내부 오디오 신호(R), 전방 내부 오디오 신호(F), 및 후방 내부 오디오 신호(B)를 포함한다.
도 10(b)는 실시예에 따른 일례의 도출기(1002)를 나타낸다. 도 10(b)에 나타낸 바와 같이, 도출기(1002)는 조합기(1062) 및 상관 해제기(1064)를 포함할 수 있다. 조합기(1062)는 외부 오디오 신호(1010 및 1012)를 조합(또는 믹스)하도록 구성되어, 이에 의해서, 새로운 내부 오디오 신호(예를 들어, 전방 내부 오디오 신호 F)를 생성한다. 상관 해제기(1064)는 수신된 오디오 신호에 대한 상관 해제를 수행하도록 구성된다. 예를 들어, 도 10(b)에서, 상관 해제기(1064)는 전방 내부 오디오 신호 F에 대한 상관 해제를 수행하도록 구성되고, 이에 의해서, 후방 내부 오디오 신호 B를 생성한다. 조합(또는 믹싱) 및 상관 해제에 관한 상세한 설명은 상기 본 개시의 섹션 2에서 제공된다.
방향 믹서(1004)는 내부 오디오 신호(1014)를 수신하고, 수신된 내부 오디오 신호(1014) 및 제어 정보(910)에 기반해서 n개의 가상의 스피커 신호(M1, M2,..., Mn)의 세트(즉, 오디오 엘리먼트의 공간적 범위를 표현하는, 가상의 라우드스피커에 대한 오디오 신호)를 생성한다. 오디오 엘리먼트(102)가 3개의 가상의 스피커(SpL, SpC 및 SpR)와 관련되는 예에 있어서, n은 오디오 엘리먼트에 대해서 3이고, M1은 SpL에 대응할 수 있고, M2는 SpC에 대응할 수 있고, M3은 SpR에 대응할 수 있다. 가상의 스피커 신호를 생성하기 위해서 방향 믹서(1004)에 의해서 사용된 제어 정보(910)는, 오디오 엘리먼트에 대한 각각의 가상의 스피커의 위치, 및/또는 리스너의 위치 및/또는 배향(예를 들어, 오디오 엘리먼트에 대한 방향 및 거리)을 포함할 수 있거나, 또는 이에 기반할 수 있다. 방향 믹싱에 관한 상세한 정보는 상기 본 개시의 섹션 3.1에 기술된다. 예를 들어, 가상의 스피커 신호 M1은 본 개시의 섹션 3.1에서 개시된 방정식 1을 사용해서 생성될 수 있다.
가상의 스피커 신호(M1, M2,..., Mn)를 사용해서, 스피커 신호 생성기(1006)는 스피커(예를 들어, 헤드폰 스피커 또는 다른 스피커)를 구동하기 위한 출력 신호(예를 들어, 출력 신호(881) 및 출력 신호(882))를 생성한다. 스피커가 헤드폰 스피커인 하나의 실시예에 있어서, 스피커 신호 생성기(1006)는 출력 신호를 생성하기 위해서 통상적인 바이노럴 렌더링을 수행할 수 있다. 스피커가 헤드폰 스피커가 아닌 실시예에 있어서, 스피커 신호 생성기(1006)는 출력 신호를 생성하기 위해서 통상적인 스피커 패닝(speaker panning)을 수행할 수 있다. 방향 믹서(1004) 및 스피커 신호 생성기(1006)의 동작이 실시간으로 수행될 수 있다.
도 11은 오디오 엘리먼트를 렌더링하기 위한 프로세스(1100)를 나타낸다. 프로세스(1100)는 단계 s1102로 시작할 수 있다. 단계 s1102는 오디오 엘리먼트의 외부 표현을 획득하는 것을 포함한다. 단계 s1104는 획득된 외부 표현에 기반해서, 오디오 엘리먼트의 내부 표현을 생성하는 것을 포함한다.
일부 실시예에 있어서, 오디오 엘리먼트의 외부 표현은 오디오 엘리먼트의 리스너가 오디오 엘리먼트의 바운더리 외측에 있는 것을 지각하는 오디오 경험을 생성하기 위한 하나 이상의 외부 오디오 신호를 포함하고, 및 오디오 엘리먼트의 내부 표현은 리스너가 오디오 엘리먼트의 바운더리 내측에 있는 것을 지각하는 오디오 경험을 생성하기 위한 하나 이상의 내부 오디오 신호를 포함한다.
일부 실시예에 있어서, 오디오 엘리먼트의 외부 표현은 외부 오디오 신호를 포함하고, 오디오 엘리먼트의 내부 표현은 내부 오디오 신호를 포함하며, 여기서, 내부 오디오 신호는 외부 표현의 구성 엘리먼트가 아니다.
일부 실시예에 있어서, 오디오 엘리먼트의 외부 표현은 제1 외부 오디오 신호 및 제2 외부 오디오 신호를 포함하고, 오디오 엘리먼트의 내부 표현은 제1 내부 오디오 신호 및 제2 내부 오디오 신호를 포함하며, 제1 내부 오디오 신호는 제1 외부 오디오 신호 및 제2 외부 오디오 신호를 사용해서 생성된다.
일부 실시예에 있어서, 제1 내부 오디오 신호는 제1 및 제2 외부 오디오 신호의 평균에 기반해서 생성된다.
일부 실시예에 있어서, 제1 및 제2 외부 오디오 신호의 평균은 제1 및 제2 외부 오디오 신호의 가중된 평균이다.
일부 실시예에 있어서, 외부 오디오 신호와 내부 오디오 신호 사이의 상관의 정도는 임계치 미만이다.
일부 실시예에 있어서, 제2 내부 오디오 신호는 제1 내부 오디오 신호 또는 제1 및 제2 외부 오디오 신호의 조합된 신호에 대한 상관 해제를 수행함으로써 생성된다.
일부 실시예에 있어서, 상관 해제가 하나 이상의 주파수에서 제1 내부 오디오 신호의 위상을 변경하거나 또는 하나 이상의 주파수에서 조합된 신호의 위상을 변경하는 것을 포함한다.
일부 실시예에 있어서, 상관 해제는 제1 내부 오디오 신호를 지연시키거나 또는 조합된 신호를 지연시키는 것을 포함한다.
일부 실시예에 있어서, 상관 해제는 오디오 엘리먼트와 관련된 메타데이터에 기반해서 수행되고, 메타데이터는 하나 이상의 차원에서 오디오 엘리먼트의 확산도를 표시하는 확산도 정보를 포함한다.
일부 실시예에 있어서, 오디오 엘리먼트의 외부 표현은 외부 오디오 신호를 포함하고, 오디오 엘리먼트의 내부 표현은 내부 오디오 신호를 포함하며, 및 외부 오디오 신호와 내부 오디오 신호 사이의 상관의 정도는 임계치 미만이다.
일부 실시예에 있어서, 오디오 엘리먼트의 내부 표현은 적어도 2개의 내부 오디오 신호를 포함하고, 방법은 상기 적어도 2개의 내부 오디오 신호들을 결합하는 것을 더 포함하고, 이에 의해서, 오디오 출력 신호를 생성한다.
일부 실시예에 있어서, 방법은 오디오 엘리먼트에 대한 리스너의 오리엔테이션을 획득하는 것을 더 포함하고, 여기서, 상기 적어도 2개의 내부 오디오 신호는 획득된 리스너의 오리엔테이션에 기반해서 결합된다.
일부 실시예에 있어서, 방법은 오디오 엘리먼트의 배향을 획득하는 것을 더 포함하고, 여기서, 상기 적어도 2개의 내부 오디오 신호는 오디오 엘리먼트의 획득된 배향에 기반해서 조합된다.
일부 실시예에 있어서, 상기 적어도 2개의 내부 오디오 신호들의 조합은 상기 적어도 2개의 내부 오디오 신호들의 가중된 합이다.
일부 실시예에 있어서, 가중된 합에 대한 가중치는 획득된 리스너의 배향에 기반해서 결정된다.
일부 실시예에 있어서, 가중된 합에 대한 가중치는 오디오 엘리먼트의 획득된 배향에 기반해서 결정된다.
도 12는 본 명세서에서 개시된 방법들을 수행하기 위한, 일부 실시예에 따른, 장치(1200)의 블록도이다(예를 들어, 오디오 렌더러(851)는 장치(1200)를 사용해서 구현될 수 있다). 도 12에 도시된 바와 같이, 장치(1200)는: 그 프로세스가 단일 하우징 내에 또는 단일 데이터 센터 내에 동 위치될 수 있거나 또는 지리적으로 분산될 수 있는(즉, 장치(1200)는 분산된 컴퓨팅 장치가 될 수 있음), 하나 이상의 프로세서(P)(555)(예를 들어, 일반 목적 마이크로 프로세서 및/또는 애플리케이션 특정 집적된 회로(ASIC), 필드 프로그래머블 게이트 어레이(FPGA) 등과 같은 하나 이상의 다른 프로세서)를 포함할 수 있는 처리 회로(PC)(1202); 장치(1200)가 네트워크 인터페이스(1248)가 접속되는(직접 또는 간접적으로) 네트워크(110)(예를 들어, 인터넷 프로토콜(IP) 네트워크)에 접속된 다른 노드에 데이터를 전송 및 이로부터 데이터를 수신할 수 있는 전송기(Tx)(1245) 및 수신기(Rx)(1247)를 포함하는 적어도 하나의 네트워크 인터페이스(1248)(예를 들어, 네트워크 인터페이스(1248)는 네트워크(110)에 무선으로 접속되고, 이 경우, 네트워크 인터페이스(1248)는 또 안테나 배열에 접속됨); 및 하나 이상의 비휘발성 스토리지 디바이스 및/또는 하나 이상의 휘발성 스토리지 디바이스를 포함할 수 있는, 스토리지 유닛(일명, "데이터 스토리지 시스템")(1208)을 포함할 수 있다. PC(1202)가 프로그램 가능한 프로세서를 포함하는 실시예에 있어서, 컴퓨터 프로그램이 제품(CPP)(1241)이 제공될 수 있다. CPP(1241)는 컴퓨터 판독 가능한 명령(CRI)(1244)을 포함하는 컴퓨터 프로그램(CP)(1243)을 저장하는 컴퓨터 판독 가능한 매체(CRM)(1242)를 포함한다. CRM(1242)은, 자기 매체(예를 들어, 하드디스크), 광학 매체, 메모리 디바이스(예를 들어, 랜덤 액세스 메모리, 플래시 메모리) 등과 같은 비일시적인 컴퓨터 판독 가능한 매체일 수 있다. 일부 실시예에 있어서, 컴퓨터 프로그램(1243)의 CRI(1244)는, PC(1202)에 의해서 실행될 때, CRI가 본 개시에 기술된 단계(예를 들어, 흐름도를 참조로 본 개시에 기술된 단계)를 수행하게 하도록 구성된다. 다른 실시예에 있어서, 장치(1200)는 코드에 대한 필요 없이 본 개시에 기술된 단계를 수행하도록 구성될 수 있다. 즉, 예를 들어, PC(1202)는 하나 이상의 ASIC만으로 이루어질 수 있다. 그러므로, 본 개시에 기술된 실시예의 특징은 하드웨어 및/또는 소프트웨어로 구현될 수 있다.
다양한 실시예가 본 개시에서 상기 설명되었지만(임의의 부록에서), 이들은 제한적인 것이 아닌 예로서 제시된 것으로 이해되어야 한다. 따라서, 본 발명 개시의 폭 및 범위는 상기한 예시적인 실시예 중 임의의 것에 의해서 제한되지 않아야 한다. 더욱이, 그 모든 가능한 변형에서의 상기된 엘리먼트의 소정의 조합은 본 개시에서 다르게 표시되지 않는 한, 또는 콘텍스트에 의해서 명확하게 모순되지 않는 한 본 개시 내용에 포함된다.
또한, 상기 설명되고 도면에 도시된 프로세스가 일련의 단계로서 도시되었지만, 이는 예시를 위해서만 행해진 것이다.
따라서, 몇몇 단계들이 추가될 수 있고, 몇몇 단계들이 생략될 수 있으며, 단계들의 순서가 재배열될 수 있고, 몇몇 단계들이 병렬로 수행될 수 있다는 것이 고려된다.
참조 리스트
[1] MPEG-H 3D Audio, Clause 8.4.4.7: "Spreading"
[2] MPEG-H 3D Audio, Clause 18.1: "Element Metadata Preprocessing"
[3] MPEG-H 3D Audio, Clause 18.11: "Diffuseness Rendering"
[4] EBU ADM Renderer Tech 3388, Clause 7.3.6: "Divergence"
[5] EBU ADM Renderer Tech 3388, Clause 7.4: "Decorrelation Filters"
[6] EBU ADM Renderer Tech 3388, Clause 7.3.7: "Extent Panner"
[7] "Efficient HRTF-based Spatial Audio for Area and Volumetric Sources", IEEE Transactions on Visualization and Computer Graphics 22(4):1-1 · January 2016
[8] PCT/EP2019/086876 (WO2020/144061)
[9] PCT/EP2021/056112 (WO2021/180820)
[10] PCT/EP2019/086877 (WO2020/144062)

Claims (23)

  1. 오디오 엘리먼트를 렌더링하기 위한 방법(1100)으로서, 방법은:
    오디오 엘리먼트의 외부 표현을 획득(s1102)하는 단계; 및
    획득한 외부 표현에 기반해서, 오디오 엘리먼트의 내부 표현을 생성(s1104)하는, 단계를 포함하는, 방법.
  2. 제1항에 있어서,
    오디오 엘리먼트의 외부 표현은 오디오 엘리먼트의 리스너가 오디오 엘리먼트의 바운더리 외측에 있는 것을 지각하는 오디오 경험을 생성하기 위한 하나 이상의 외부 오디오 신호를 포함하고, 및
    오디오 엘리먼트의 내부 표현은 리스너가 오디오 엘리먼트의 바운더리 내측에 있는 것을 지각하는 오디오 경험을 생성하기 위한 하나 이상의 내부 오디오 신호를 포함하는, 방법.
  3. 제1항 또는 제2항에 있어서,
    오디오 엘리먼트의 외부 표현은 외부 오디오 신호를 포함하고, 및
    오디오 엘리먼트의 내부 표현은 내부 오디오 신호를 포함하며, 여기서,
    내부 오디오 신호는 외부 표현의 컴포넌트가 아닌, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    오디오 엘리먼트의 외부 표현은 제1 외부 오디오 신호 및 제2 외부 오디오 신호를 포함하고,
    오디오 엘리먼트의 내부 표현은 제1 내부 오디오 신호 및 제2 내부 오디오 신호를 포함하며, 및
    제1 내부 오디오 신호는 제1 외부 오디오 신호 및 제2 외부 오디오 신호를 사용해서 생성되는, 방법.
  5. 제4항에 있어서,
    제1 내부 오디오 신호는 제1 및 제2 외부 오디오 신호의 평균에 기반해서 생성되는, 방법.
  6. 제5항에 있어서,
    제1 및 제2 외부 오디오 신호의 평균이 제1 및 제2 외부 오디오 신호의 가중된 평균인, 방법.
  7. 제4항 내지 제6항 중 어느 한 항에 있어서,
    제1 내부 오디오 신호와 제2 내부 오디오 신호 사이의 상관의 정도가 임계치 미만인, 방법.
  8. 제4항 내지 제7항 중 어느 한 항에 있어서,
    제2 내부 오디오 신호는 제1 내부 오디오 신호 또는 제1 및 제2 외부 오디오 신호의 조합된 신호에 대한 상관 해제를 수행함으로써 생성되는, 방법.
  9. 제8항에 있어서,
    상관 해제가 하나 이상의 주파수에서 제1 내부 오디오 신호의 위상을 변경하거나 또는 하나 이상의 주파수에서 조합된 신호의 위상을 변경하는 단계를 포함하는, 방법.
  10. 제8항 또는 제9항에 있어서,
    상관 해제는 제1 내부 오디오 신호를 지연시키거나 또는 조합된 신호를 지연시키는 것을 포함하는, 방법.
  11. 제8항 내지 제10항 중 어느 한 항에 있어서,
    상관 해제는 오디오 엘리먼트와 관련된 메타데이터에 기반해서 수행되고, 및
    메타데이터는 하나 이상의 차원에서 오디오 엘리먼트의 확산도를 표시하는 확산도 정보를 포함하는, 방법.
  12. 제1항, 제2항 및 제4항 내지 제11항 중 어느 한 항에 있어서,
    오디오 엘리먼트의 외부 표현은 외부 오디오 신호를 포함하고,
    오디오 엘리먼트의 내부 표현은 내부 오디오 신호를 포함하며, 및
    외부 오디오 신호와 내부 오디오 신호 사이의 상관의 정도가 임계치 미만인, 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서,
    오디오 엘리먼트의 내부 표현은 적어도 2개의 내부 오디오 신호를 포함하고, 및
    방법은,
    상기 적어도 2개의 내부 오디오 신호를 조합하는 단계를 더 포함하고, 이에 의해서, 오디오 출력 신호를 생성하는, 방법.
  14. 제13항에 있어서,
    오디오 엘리먼트에 대한 리스너의 배향을 획득하는 단계를 더 포함하고, 여기서,
    상기 적어도 2개의 내부 오디오 신호는 획득된 리스너의 배향에 기반해서 조합되는, 방법.
  15. 제13항에 있어서,
    오디오 엘리먼트의 배향을 획득하는 단계를 더 포함하고, 여기서,
    상기 적어도 2개의 내부 오디오 신호는 오디오 엘리먼트의 획득된 배향에 기반해서 조합되는, 방법.
  16. 제13항 내지 제15항 중 어느 한 항에 있어서,
    상기 적어도 2개의 내부 오디오 신호의 조합은 상기 적어도 2개의 내부 오디오 신호의 가중된 합인, 방법.
  17. 제16항에 있어서,
    제14항에 의존할 때, 가중된 합에 대한 가중치는 획득된 리스너의 배향에 기반해서 결정되는, 방법.
  18. 제16항에 있어서,
    제15항에 의존할 때, 가중된 합에 대한 가중치는 오디오 엘리먼트의 획득된 배향에 기반해서 결정되는, 방법.
  19. 디바이스(1200)의 처리 회로(1202)에 의해서 실행될 때, 디바이스가 청구항 제1항 내지 제18항 중 어느 한 항의 방법을 수행하게 하는 명령(1244)을 포함하는, 컴퓨터 프로그램(1243).
  20. 청구항 제19항의 컴퓨터 프로그램을 포함하는 캐리어로서, 캐리어는 전자 신호, 광 신호, 무선 신호, 및 컴퓨터 판독 가능한 스토리지 매체 중 하나인, 캐리어.
  21. 디바이스(1200)로서, 디바이스는:
    처리 회로(1202); 및
    메모리(1244)를 포함하고, 메모리는, 처리 회로에 의해서 실행 가능한 명령(1244)을 포함하고, 이에 의해서, 디바이스가 청구항 제1항 내지 제18항 중 어느 한 항의 방법을 수행하도록 구성되는, 디바이스.
  22. 디바이스(1200)로서, 디바이스는:
    오디오 엘리먼트의 외부 표현을 획득(s1102)하고; 및
    획득한 외부 표현에 기반해서, 오디오 엘리먼트의 내부 표현을 생성(s1104)하는, 디바이스.
  23. 제22항에 있어서,
    디바이스는 청구항 제2항 내지 제18항 중 어느 한 항의 방법을 수행하도록 더 구성되는, 디바이스.
KR1020237034165A 2021-04-14 2022-04-14 도출된 내부 표현을 갖는 공간적으로-바운드된 오디오 엘리먼트 KR20230153470A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163174889P 2021-04-14 2021-04-14
US63/174,889 2021-04-14
PCT/EP2022/059973 WO2022219100A1 (en) 2021-04-14 2022-04-14 Spatially-bounded audio elements with derived interior representation

Publications (1)

Publication Number Publication Date
KR20230153470A true KR20230153470A (ko) 2023-11-06

Family

ID=81325776

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237034165A KR20230153470A (ko) 2021-04-14 2022-04-14 도출된 내부 표현을 갖는 공간적으로-바운드된 오디오 엘리먼트

Country Status (4)

Country Link
EP (1) EP4324224A1 (ko)
KR (1) KR20230153470A (ko)
AU (1) AU2022258764A1 (ko)
WO (1) WO2022219100A1 (ko)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2343347B (en) * 1998-06-20 2002-12-31 Central Research Lab Ltd A method of synthesising an audio signal
EP1552724A4 (en) * 2002-10-15 2010-10-20 Korea Electronics Telecomm METHOD FOR GENERATING AND USING A 3D AUDIOSCENCE WITH EXTENDED EFFICIENCY OF SOUND SOURCE
RU2554523C1 (ru) * 2011-07-01 2015-06-27 Долби Лабораторис Лайсэнзин Корпорейшн Система и инструментальные средства для усовершенствованной авторской разработки и представления трехмерных аудиоданных
US10425762B1 (en) * 2018-10-19 2019-09-24 Facebook Technologies, Llc Head-related impulse responses for area sound sources located in the near field
CA3199318A1 (en) * 2018-12-19 2020-06-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source
EP3909264A1 (en) 2019-01-08 2021-11-17 Telefonaktiebolaget LM Ericsson (publ) Spatially-bounded audio elements with interior and exterior representations
WO2020144062A1 (en) 2019-01-08 2020-07-16 Telefonaktiebolaget Lm Ericsson (Publ) Efficient spatially-heterogeneous audio elements for virtual reality
WO2021180820A1 (en) 2020-03-13 2021-09-16 Telefonaktiebolaget Lm Ericsson (Publ) Rendering of audio objects with a complex shape

Also Published As

Publication number Publication date
AU2022258764A1 (en) 2023-10-12
WO2022219100A1 (en) 2022-10-20
EP4324224A1 (en) 2024-02-21

Similar Documents

Publication Publication Date Title
Hacihabiboglu et al. Perceptual spatial audio recording, simulation, and rendering: An overview of spatial-audio techniques based on psychoacoustics
JP7470695B2 (ja) 仮想現実のための効率的な空間的にヘテロジーニアスなオーディオ要素
KR20180135973A (ko) 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치
CN113170271B (zh) 用于处理立体声信号的方法和装置
MXPA05004091A (es) Captura y reproduccion de sonido dinamico biauricular.
JP6360253B2 (ja) サラウンドおよび/または高さスピーカーを含む再生環境におけるオーディオ・オブジェクトのレンダリング
EP3225039B1 (en) System and method for producing head-externalized 3d audio through headphones
KR20190091825A (ko) 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법 및 이를 위한 장치
Xie Spatial sound: Principles and applications
EP4324225A1 (en) Rendering of occluded audio elements
KR20230153470A (ko) 도출된 내부 표현을 갖는 공간적으로-바운드된 오디오 엘리먼트
US20230262405A1 (en) Seamless rendering of audio elements with both interior and exterior representations
Oldfield The analysis and improvement of focused source reproduction with wave field synthesis
Pelzer et al. 3D reproduction of room auralizations by combining intensity panning, crosstalk cancellation and Ambisonics
Geluso Stereo
De Sena Analysis, design and implementation of multichannel audio systems
US11589184B1 (en) Differential spatial rendering of audio sources
Choi et al. Virtual sound rendering in a stereophonic loudspeaker setup
WO2023073081A1 (en) Rendering of audio elements
CA3233947A1 (en) Spatial rendering of audio elements having an extent
Llopis et al. Effects of the order of Ambisonics on localization for different reverberant conditions in a novel 3D acoustic virtual reality system
KR20160113036A (ko) 3차원 사운드를 편집 및 제공하는 방법 및 장치
KR20240073145A (ko) 크기를 갖는 오디오 요소를 렌더링하는 방법, 대응하는 장치 및 컴퓨터 프로그램
WO2023061965A2 (en) Configuring virtual loudspeakers
WO2024121188A1 (en) Rendering of occluded audio elements

Legal Events

Date Code Title Description
A201 Request for examination