KR20230151049A - 가상 현실 환경에서 청취 위치 사이의 로컬 전환을 처리하기 위한 방법 및 시스템 - Google Patents

가상 현실 환경에서 청취 위치 사이의 로컬 전환을 처리하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR20230151049A
KR20230151049A KR1020237035748A KR20237035748A KR20230151049A KR 20230151049 A KR20230151049 A KR 20230151049A KR 1020237035748 A KR1020237035748 A KR 1020237035748A KR 20237035748 A KR20237035748 A KR 20237035748A KR 20230151049 A KR20230151049 A KR 20230151049A
Authority
KR
South Korea
Prior art keywords
audio
destination
source
audio signal
location
Prior art date
Application number
KR1020237035748A
Other languages
English (en)
Inventor
레온 테렌티브
크리스토프 페르쉬
다니엘 피셔
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Publication of KR20230151049A publication Critical patent/KR20230151049A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

가상 현실 렌더링 환경(180)에서 오디오 신호를 렌더링하기 위한 방법(910)이 기술된다. 방법(910)은 청취자(181)의 기원 청취 위치(301) 둘레의 기원 구체(114) 상의 기원 소스 위치로부터 오디오 소스(311, 312, 313)의 기원 오디오 신호를 렌더링하는 단계(911)를 포함한다. 또한, 방법(900)은 청취자(181)가 기원 청취 위치(301)로부터 목적지 청취 위치(302)로 이동한다고 결정하는 단계(912)를 포함한다. 게다가, 방법(900)은 기원 소스 위치에 기초하여 목적지 청취 위치(302) 둘레의 목적지 구체(114) 상의 오디오 소스(311, 312, 313)의 목적지 소스 위치를 결정하는 단계(913), 및 기원 오디오 신호에 기초하여 오디오 소스(311, 312, 313)의 목적지 오디오 신호를 결정하는 단계(914)를 포함한다. 또한, 방법(900)은 목적지 청취 위치(302) 둘레의 목적지 구체(114) 상의 목적지 소스 위치로부터 오디오 소스(311, 312, 313)의 목적지 오디오 신호를 렌더링하는 단계(915)를 포함한다.

Description

가상 현실 환경에서 청취 위치 사이의 로컬 전환을 처리하기 위한 방법 및 시스템{METHOD AND SYSTEM FOR HANDLING LOCAL TRANSITIONS BETWEEN LISTENING POSITIONS IN A VIRTUAL REALITY ENVIRONMENT}
관련 출원에 대한 상호 참조
본 출원은 다음의 우선권 출원: 2017년 12월 18일자로 출원된 미국 가출원 62/599,848(참조번호: D17086USP1), 및 2017년 12월 18일자로 출원된 유럽출원 17208087.1(참조번호: D17086EP)의 우선권을 주장하며, 이들은 본원에 참조로 통합된다.
본 문서는 가상 현실(VR) 렌더링 환경에서 청각 뷰포트(auditory viewports) 및/또는 청취 위치 사이의 전환(transition)을 효율적이고 일관되게 처리하는 것에 관한 것이다.
VR(가상 현실), AR(증강 현실) 및 MR(혼합 현실) 애플리케이션은, 상이한 관점/시점 또는 청취 위치에서 즐길 수 있는 사운드 소스(sound source) 및 장면(scene)의 더욱 정교화된 음향(acoustical) 모델을 포함하도록 빠르게 발전하고 있다. 2개의 상이한 부류의 플렉서블 오디오 표현이 예를 들어 VR 애플리케이션에 이용될 수 있다: 음장(sound-field) 표현 및 객체-기반 표현. 음장 표현은 청취 위치에서 입사 파면을 인코딩하는 물리적-기반의 접근이다. 예를 들어, B-포맷 또는 HOA(Higher-Order Ambisonics)와 같은 접근은 구형 고조파 분해를 사용하여 공간 파면을 표현한다. 객체-기반 접근은, 복잡한 청각 장면을, 오디오 파형이나 오디오 신호 및 연관된 파라미터나 메타데이터를 포함하는 단일 요소의 컬렉션(collection)으로서 표현한다.
VR, AR 및 MR 애플리케이션을 즐기는 것은 사용자에 의해 상이한 청각 관점 또는 시점을 경험하는 것을 포함할 수 있다. 예를 들어, 룸-기반의 가상 현실은 6 자유도(degrees of freedom, DoF)를 사용하는 메커니즘에 기초하여 제공될 수 있다. 도 1은 병진 운동(전/후, 상/하 및 좌/우) 및 회전 운동(피치(pitch), 요(yaw) 및 롤(roll))을 나타내는 6 DoF 상호 작용의 예를 도시한다. 머리(head) 회전에 제한되는 3 DoF 구형(spherical) 비디오 경험과 달리, 6 DoF 상호 작용을 위해 생성된 컨텐츠는, 머리 회전에 더하여, 가상 환경 내에서의 항행(navigation)도 허용할 수 있다(예를 들어, 실내에서의 물리적 보행). 이것은 위치 추적기(예를 들어, 카메라 기반) 및 배향 추적기(예를 들어, 자이로스코프 및/또는 가속도계)에 기초하여 달성될 수 있다. 6 DoF 추적 기술은, 하이-엔드 모바일 VR 플랫폼(예를 들어, Google Tango) 상에서 뿐만아니라, 하이-엔드 데스크톱 VR 시스템(예를 들어, PlayStation®VR, Oculus Rift, HTC Vive) 상에서도 사용할 수 있다. 사운드 또는 오디오 소스의 방향성 및 공간 범위에 대한 사용자의 경험은 6 DoF 경험, 특히 장면을 통한 항행 및 가상 오디오 소스 부근을 항행하는 경험의 현실감에 대단히 중요하다.
이용 가능한 오디오 렌더링 시스템(MPEG-H 3D 오디오 렌더러 등)은 전형적으로 3 DoF 렌더링(즉, 청취자의 머리 운동에 의해 유발되는 오디오 장면의 회전 운동)에 제한된다. 청취자의 청취 위치 및 연관된 DoF의 병진적인 변경(translational change)은 전형적으로 그러한 렌더러에 의해서 처리될 수 없다.
본 문서는 오디오 렌더링의 맥락에서 병진 운동을 처리하기 위한 자원 효율적인 방법 및 시스템을 제공하는 기술적 문제에 관한 것이다.
일 양태에 따르면, 가상 현실 렌더링 환경에서 오디오 신호를 렌더링하는 방법이 기술된다. 방법은 청취자의 기원(origin) 청취 위치 둘레의 기원 구체(sphere) 상의 기원 소스 위치로부터 오디오 소스의 기원 오디오 신호를 렌더링하는 단계를 포함한다. 또한, 방법은 청취자가 기원 청취 위치로부터 목적지(destination) 청취 위치로 이동한다고 결정하는 단계를 포함한다. 또한, 방법은 기원 소스 위치에 기초하여 목적지 청취 위치 둘레의 목적지 구체 상의 오디오 소스의 목적지 소스 위치를 결정하는 단계를 포함한다. 목적지 구체 상에서의 오디오 소스의 목적지 소스 위치는 목적지 구체 상으로의 기원 구체 상의 기원 소스 위치의 투영(projection)에 의해 결정될 수 있다. 이 투영은, 예를 들어, 목적지 청취 위치에 대한 원근 투영(perspective projection)일 수 있다. 기원 구체와 목적지 구체는 동일한 반경을 가질 수 있다. 예를 들어, 양 구체는 렌더링의 맥락에서 단위(unit) 구체, 예를 들어 반경이 1 미터인 구체에 대응할 수 있다. 또한, 방법은 기원 오디오 신호에 기초하여 오디오 소스의 목적지 오디오 신호를 결정하는 단계를 포함한다. 방법은 목적지 청취 위치 둘레의 목적지 구체 상의 목적지 소스 위치로부터 오디오 소스의 목적지 오디오 신호를 렌더링하는 단계를 더 포함한다.
다른 양태에 따르면, 가상 현실 렌더링 환경에서 오디오 신호를 렌더링하기위한 가상 현실 오디오 렌더러가 기술된다. 오디오 렌더러는 청취자의 기원 청취 위치 둘레의 기원 구체 상의 기원 소스 위치로부터 오디오 소스의 기원 오디오 신호를 렌더링하도록 구성된다. 또한, 가상 현실 오디오 렌더러는 청취자가 기원 청취 위치로부터 목적지 청취 위치로 이동한다고 결정하도록 구성된다. 또한, 가상 현실 오디오 렌더러는 기원 소스 위치에 기초하여 목적지 청취 위치 둘레의 목적지 구체 상의 오디오 소스의 목적지 소스 위치를 결정하도록 구성된다. 또한, 가상 현실 오디오 렌더러는 기원 오디오 신호에 기초하여 오디오 소스의 목적지 오디오 신호를 결정하도록 구성된다. 가상 현실 오디오 렌더러는 목적지 청취 위치 둘레의 목적지 구체 상의 목적지 소스 위치로부터 오디오 소스의 목적지 오디오 신호를 렌더링하도록 더 구성된다.
다른 양태에 따르면, 비트스트림을 생성하기 위한 방법이 기술된다. 방법은 적어도 하나의 오디오 소스의 오디오 신호를 결정하는 단계; 렌더링 환경 내에서 적어도 하나의 오디오 소스의 위치에 관련한 위치 데이터를 결정하는 단계; 렌더링 환경 내에서 오디오의 오디오 전파 특성을 나타내는 환경 데이터를 결정하는 단계; 및 오디오 신호, 위치 데이터 및 환경 데이터를 비트스트림에 삽입하는 단계를 포함한다. 
또 다른 양태에 따르면, 오디오 인코더가 기술된다. 오디오 인코더는, 적어도 하나의 오디오 소스의 오디오 신호; 렌더링 환경 내에서 적어도 하나의 오디오 소스의 위치; 및 렌더링 환경 내에서 오디오의 오디오 전파 특성을 나타내는 환경 데이터를 나타내는 비트스트림을 생성하도록 구성된다.
또 다른 양태에 따르면, 비트스트림이 기술되며, 비트스트림은 적어도 하나의 오디오 소스의 오디오 신호; 렌더링 환경 내에서 적어도 하나의 오디오 소스의 위치; 및 렌더링 환경 내에서 오디오의 오디오 전파 특성을 나타내는 환경 데이터를 나타낸다.
또 다른 양태에 따르면, 가상 현실 렌더링 환경에서 오디오 신호를 렌더링하기 위한 가상 현실 오디오 렌더러가 기술된다. 오디오 렌더러는, 가상 현실 렌더링 환경 내에서 청취자의 청취 위치 둘레의 구체 상의 소스 위치로부터 오디오 소스의 오디오 신호를 렌더링하도록 구성된 3D 오디오 렌더러를 포함한다. 또한, 가상 현실 오디오 렌더러는 가상 현실 렌더링 환경 내에서 청취자의 새로운 청취 위치를 결정하도록 구성되는 전처리 유닛(pre-processing unit)을 포함한다. 또한, 전처리 유닛은 새로운 청취 위치 둘레의 구체에 대한 오디오 소스의 소스 위치 및 오디오 신호를 업데이트 하도록 구성된다. 3D 오디오 렌더러는 새로운 청취 위치 둘레의 구체 상의 업데이트된 소스 위치로부터 오디오 소스의 업데이트된 오디오 신호를 렌더링하도록 구성된다.
또 다른 양태에 따르면, 소프트웨어 프로그램이 기술된다. 소프트웨어 프로그램은, 프로세서 상에서 실행되도록, 그리고 프로세서 상에서 수행될 때 본 문서에 요약된 방법 단계를 수행하도록 적응될 수 있다.
또 다른 양태에 따르면, 저장 매체가 기술된다. 저장 매체는, 프로세서 상에서 실행되도록 그리고 프로세서 상에서 수행될 때 본 문서에 요약된 방법 단계들을 수행하도록 적응된 소프트웨어 프로그램을 포함할 수 있다.
또 다른 양태에 따르면, 컴퓨터 프로그램 제품이 기술된다. 컴퓨터 프로그램은 컴퓨터에서 실행될 때 본 문서에 요약된 방법 단계들을 수행하기 위한 실행 가능한 명령어를 포함할 수 있다.
본 특허출원에서 요약된 바와 같은 그 바람직한 실시형태를 포함하는 방법 및 시스템은 단독으로 사용될 수 있고, 또는 이 문서에 개시된 다른 방법 및 시스템과 조합되어 사용될 수도 있다. 또한, 본 특허출원에서 요약된 방법 및 시스템의 모든 양태는 임의로 조합될 수 있다. 특히, 청구범위의 특징은 임의의 방식으로 서로 결합될 수 있다.
이하, 첨부도면을 참조하여 본 발명을 예시적인 방식으로 설명한다.
도 1a는, 6 DoF 오디오를 제공하기 위한 예시적인 오디오 프로세싱 시스템을 나타낸다.
도 1b는, 6 DoF 오디오 및/또는 렌더링 환경 내의 예시적인 상황을 나타낸다.
도 1c는, 기원 오디오 장면으로부터 목적지 오디오 장면으로의 예시적인 전환을 나타낸다.
도 2는, 상이한 오디오 장면들 사이의 전환 중에 공간 오디오 신호를 결정하기 위한 예시적인 안(scheme)을 나타낸다.
도 3은, 예시적인 오디오 장면을 나타낸다.
도 4a는, 오디오 장면 내의 청취 위치의 변화에 응답하여 오디오 소스의 리매핑을 나타낸다.
도 4b는, 예시적인 거리 함수를 나타낸다.
도 5a는, 비-균일(non-uniform) 지향성 프로파일을 갖는 오디오 소스를 나타낸다.
도 5b는, 오디오 소스의 예시적인 지향성 함수를 나타낸다.
도 6은, 음향적으로 관련된 장애물을 갖는 예시적인 오디오 장면을 나타낸다.
도 7은, 청취자의 시야 및 주목 포커스(attention focus)를 나타낸다.
도 8은, 오디오 장면 내에서 청취 위치가 변경되는 경우의 주변 오디오(ambient audio)의 처리를 나타낸다.
도 9a는, 상이한 오디오 장면들 사이의 전환 중에 3D 오디오 신호를 렌더링하기 위한 예시적인 방법의 흐름도를 나타낸다.
도 9b는, 상이한 오디오 장면들 사이의 전환을 위한 비트스트림을 생성하기위한 예시적인 방법의 흐름도를 나타낸다.
도 9c는, 오디오 장면 내에서의 전환 중에 3D 오디오 신호를 렌더링하기 위한 예시적인 방법의 흐름도를 나타낸다.
도 9d는, 로컬(local) 전환을 위한 비트스트림을 생성하기 위한 예시적인 방법의 흐름도를 나타낸다.
위에 요약된 바와 같이, 본 문서는 3D(3차원) 오디오 환경에서 6 DoF의 효율적인 제공에 관한 것이다. 도 1a는 예시적인 오디오 프로세싱 시스템(100)의 블록도를 도시한다. 경기장과 같은 음향 환경(110)은 여러가지 서로 다른 오디오 소스(113)를 포함할 수 있다. 경기장 내의 예시적인 오디오 소스(113)는 개별 관람자, 경기장 스피커, 필드 위의 선수 등이다. 음향 환경(110)은 상이한 오디오 장면(111, 112)으로 세분될 수 있다. 예로서, 제1 오디오 장면(111)은 홈 팀 지원 블록에 대응할 수 있고 제2 오디오 장면(112)은 게스트 팀 지원 블록에 대응할 수 있다. 청취자가 오디오 환경 내에서 어디에 위치하는지에 따라, 청취자는 제1 오디오 장면(111)으로부터의 오디오 소스(113) 또는 제2 오디오 장면(112)으로부터의 오디오 소스(113)를 인식할 것이다.
오디오 환경(110)의 상이한 오디오 소스(113)는, 특히 마이크로폰 어레이를 사용하여 오디오 센서(120)를 사용하여 캡처될 수 있다. 특히, 오디오 환경(110)의 하나 이상의 오디오 장면(111, 112)은 다중 채널 오디오 신호, 하나 이상의 오디오 객체 및/또는 고차 앰비소닉(higher order ambisonic, HOA) 신호를 사용하여 기술될 수 있다. 이하에서, 오디오 소스(113)는 오디오 센서(120)에 의해 캡처된 오디오 데이터와 관련되며, 오디오 데이터는 (예를 들어 20ms의 특정 샘플링 레이트로) 시간의 함수로서 오디오 소스(113)의 위치 및 오디오 신호를 나타낸다.
MPEG-H 3D 오디오 렌더러와 같은 3D 오디오 렌더러는 전형적으로 청취자가 오디오 장면(111, 112) 내의 특정 청취 위치에 위치해 있다고 가정한다. 오디오 장면(111, 112)의 상이한 오디오 소스(113)에 대한 오디오 데이터는, 전형적으로 청취자가 이 특정 청취 위치에 위치된다는 가정 하에 제공된다. 오디오 인코더(130)는 하나 이상의 오디오 장면(111, 112)의 오디오 소스(113)의 오디오 데이터를 인코딩하도록 구성된 3D 오디오 인코더(131)를 포함할 수 있다.
또한, VR(가상 현실) 메타데이터가 제공될 수 있으며, 이는 청취자가 오디오 장면(111, 112) 내의 청취 위치를 변경하고/변경시키거나 상이한 오디오 장면(111, 112) 사이를 이동할 수 있게 한다. 인코더(130)는, VR 메타데이터를 인코딩하도록 구성된 메타데이터 인코더(132)를 포함할 수 있다. 오디오 소스(113)의 인코딩된 VR 메타데이터 및 인코딩된 오디오 데이터는 결합 유닛(133)에서 결합되어 오디오 데이터 및 VR 메타데이터를 나타내는 비트스트림(140)을 제공할 수 있다. VR 메타데이터는 예를 들어 오디오 환경(110)의 음향 특성을 기술하는 환경 데이터를 포함할 수 있다.
비트스트림(140)은 (디코딩된) 오디오 데이터 및 (디코딩된) VR 메타데이터를 제공하기 위해 디코더(150)를 사용하여 디코딩될 수 있다. 6 DoF를 허용하는 렌더링 환경(180) 내에서 오디오를 렌더링하기 위한 오디오 렌더러(160)는 전처리 유닛(161) 및 (종래의) 3D 오디오 렌더러(162)(예를 들어, MPEG-H 3D 오디오)를 포함 할 수 있다. 전처리 유닛(161)은 청취 환경(180) 내에서 청취자(181)의 청취 위치(182)를 결정하도록 구성될 수 있다. 청취 위치(182)는 청취자(181)가 위치한 오디오 장면(111)을 나타낼 수 있다. 또한, 청취 위치(182)는 오디오 장면(111) 내의 정확한 위치를 나타낼 수 있다. 전처리 유닛(161)은 (디코딩된) 오디오 데이터에 기초하여 그리고 가능하게는 (디코딩된) VR 메타데이터에 기초하여 현재 청취 위치(182)에 대한 3D 오디오 신호를 결정하도록 더 구성될 수 있다. 3D 오디오 신호는 3D 오디오 렌더러(162)를 사용하여 렌더링될 수 있다.
본 문서에 기술된 개념 및 안은 주파수-변형 방식으로 지정될 수 있으며, 글로벌하게 또는 객체/미디어-의존적 방식으로 정의될 수 있으며, 스펙트럼 또는 시간 도메인에서 직접 적용될 수 있으며 및/또는 VR 렌더러(160) 내에 하드코딩(hardcoding) 될 수 있거나 또는 대응하는 입력 인터페이스를 통해 지정될 수 있음에 유의한다.
도 1b는 렌더링 환경(180)의 예를 도시한다. 청취자(181)는 기원 오디오 장면(111) 내에 위치될 수 있다. 렌더링 목적을 위해, 오디오 소스(113, 194)는 청취자(181) 둘레의 (단일(unity)) 구체(114) 상에서 상이한 렌더링 위치에 배치되는 것으로 가정될 수 있다. 상이한 오디오 소스(113, 194)의 렌더링 위치는 (주어진 샘플링 레이트에 따라) 시간에 따라 변할 수 있다. VR 렌더링 환경(180) 내에서 상이한 상황이 발생할 수 있다: 청취자(181)는 기원 오디오 장면(111)으로부터 목적지 오디오 장면(112)으로의 글로벌(global) 전환(191)을 수행할 수 있다. 대안적으로 또는 추가적으로, 청취자(181)는 동일한 오디오 장면(111) 내에서 상이한 청취 위치(182)로의 로컬 전환(192)을 수행할 수 있다. 대안적으로 또는 추가적으로, 오디오 장면(111)은, 청취 위치(182)의 변경이 발생했을 때 고려되어야 하며 환경 데이터(193)를 사용하여 기술될 수 있는 환경적, 음향적으로 관련된 (벽과 같은) 특성을 드러낼 수 있다. 대안적으로 또는 추가적으로, 오디오 장면(111)은, 청취 위치(182)의 변경이 발생했을 때 고려되어야 하는 하나 이상의 앰비언스 오디오 소스(194)(예를 들어 배경 잡음)을 포함할 수 있다.
도 1c는, 오디오 소스(113 A1 내지 An)를 갖는 기원 오디오 장면(111)으로부터 오디오 소스(113 B1 내지 Bm)를 갖는 목적지 오디오 장면(112)으로의 글로벌 전환(191)의 일례를 나타낸다. 오디오 소스(113)는 대응하는 위치간 객체 특성(좌표, 지향성, 거리 음 감쇠 함수 등)을 특징으로 할 수 있다. 글로벌 전환(191)은 소정 전환 시간 간격 내에서(예를 들어, 5초, 1초, 또는 보다 적은 범위에서) 수행될 수 있다. 글로벌 전환(191)의 시작에서 기원 장면(111) 내의 청취 위치(182)는 "A"로 표시된다. 또한, 글로벌 전환(191)의 끝에서, 목적지 장면(112) 내의 청취 위치(182)는 "B"로 표시된다. 또한, 도 1c는 청취 위치 "B"와 청취 위치 "C" 사이의 목적지 장면(112) 내에서 로컬 전환(192)을 도시한다.
도 2는, 전환 시간 간격(t) 동안 기원 장면(111)(또는 기원 뷰포트)으로부터 목적지 장면(112)(또는 목적지 뷰포트)으로의 글로벌 전환(191)을 나타낸다. 이러한 전환(191)은 청취자(181)가 예를 들어 경기장 내에서 상이한 장면 또는 뷰포트(111, 112) 사이를 전환(switch)할 때 발생할 수 있다. 중간 시간 순간(213)에서 청취자(181)는 기원 장면(111)과 목적지 장면(112) 사이의 중간 위치에 위치될 수 있다. 중간 위치 및/또는 중간 시간 순간(213)에서 렌더링 될 3D 오디오 신호(203)는, 각 오디오 소스(113)의 사운드 전파를 고려하면서, 기원 장면(111)의 각각의 오디오 소스(113 A1 내지 An)의 기여도 및 목적지 장면(112)의 각각의 오디오 소스(113 B1 내지 Bm)의 기여도를 결정함으로써 결정될 수 있다. 그러나 이것은, (특히 오디오 소스(113)가 상대적으로 큰 수일 경우) 상대적으로 높은 연산 복잡도와 관련될 수 있다.
글로벌 전환(191)의 시작에서, 청취자(181)는 기원 청취 위치(201)에 위치될 수 있다. 전체 전환(191) 동안에, 기원 청취 위치(201)에 대해 3D 기원 오디오 신호 AG가 생성될 수 있으며, 기원 오디오 신호는 기원 장면(111)의 오디오 소스(113)에만 의존한다(목적지 장면(112)의 오디오 소스(113)에는 의존하지 않음). 또한, 청취자(181)가 글로벌 전환(191)의 끝에서 목적지 장면(112) 내의 목적지 청취 위치(202)에 도달할 것이라는 점이 글로벌 전환(191)의 시작에서 고정될 수 있다. 전체 전환(191) 동안, 목적지 청취 위치(202)에 대하여 3D 목적지 오디오 신호 BG가 생성될 수 있으며, 목적지 오디오 신호는 목적지 장면(112)의 오디오 소스(113)에만 의존한다(그리고 소스 장면(111)의 오디오 소스(113)에 의존하지 않는다).
글로벌 전환(191) 동안 중간 위치 및/또는 중간 시간 순간(213)에서 3D 중간 오디오 신호(203)를 결정하기 위해, 중간 시간 순간(213)에서의 기원 오디오 신호는 중간 시간 순간(213)에서 목적지 오디오 신호와 결합될 수 있다. 특히, 페이드-아웃 함수(211)로부터 도출된 페이드-아웃 팩터 또는 이득은 기원 오디오 신호에 적용될 수 있다. 페이드-아웃 함수(211)는, 페이드-아웃 팩터 또는 이득 "a"가 기원 장면(111)으로부터의 중간 위치의 거리가 증가함에 따라 감소하도록 하는 것일 수 있다. 또한, 페이드-인 함수(212)로부터 도출된 페이드-인 팩터 또는 이득은 목적지 오디오 신호에 적용될 수 있다. 페이드-인 함수(212)는 페이드-인 팩터 또는 이득 "b" 가 목적지 장면(112)으로부터의 중간 위치의 거리가 감소함에 따라 증가하도록 하는 것일 수 있다. 예시적인 페이드-아웃 함수(211)와 예시적인 페이드-인 함수(212)가 도 2에 도시되어 있다. 이어서, 중간 오디오 신호가 기원 오디오 신호와 목적지 오디오 신호의 가중 합에 의해 주어질 수 있으며, 가중은 페이드-아웃 이득 및 페이드-인 이득에 각각 대응한다.
따라서, 상이한 3 DoF 뷰포트(201, 202) 사이의 글로벌 전환(191)에 대해 페이드-인 함수 또는 곡선(212) 및 페이드-아웃 함수 또는 곡선(211)이 정의될 수 있다. 함수(211, 212)는 기원 오디오 장면(111) 및 목적지 오디오 장면(112)을 표현하는 3차원 오디오 신호 또는 사전 렌더링된 가상 객체에 적용될 수 있다. 이렇게 함으로써, 감소된 VR 오디오 렌더링 연산으로, 상이한 오디오 장면(111, 112) 사이의 글로벌 전환(191) 동안 일관된 오디오 경험이 제공될 수 있다.
중간 위치 xi 에서의 중간 오디오 신호(203)는 기원 오디오 신호 및 목적지 오디오 신호의 선형 보간을 사용하여 결정될 수 있다. 오디오 신호의 강도 F는 F(xi)=a*F(AG)+(1-a)*F(BG)에 의해 주어질 수 있다. 팩터 "a" 및 "b=1-a"는 기원 청취 위치(201), 목적지 청취 위치(202) 및 중간 위치에 의존하는 표준(norm) 함수 a=a( )에 의해 주어질 수 있다. 함수 대신에, 룩업 테이블 a=[1,…, 0]이 상이한 중간 위치에 대해 제공될 수 있다. 
글로벌 전환(191) 동안 추가 효과(예를 들어 도플러 효과 및/또는 잔향(reverberation))가 고려될 수 있다. 함수(211, 212)는 예를 들어 예술적 의도를 반영하도록 콘텐츠 제공자에 의해 적용될 수 있다. 함수(211, 212)에 관한 정보는 비트스트림(140) 내의 메타데이터로서 포함될 수 있다. 따라서, 인코더(130)는 페이드-인 함수(212) 및/또는 페이드-아웃 함수(211)에 관한 정보를 비트스트림(140) 내의 메타데이터로서 제공하도록 구성될 수 있다. 대안적으로 또는 부가적으로, 오디오 렌더러(160)는 오디오 렌더러(160)에 저장된 함수(211, 212)를 적용할 수도 있다.
렌더러(160)에게 글로벌 전환(191)이 기원 장면(111)으로부터 목적지 장면(112)으로 수행될 것임을 표시하도록, 청취자로부터 렌더러(160)로, 특히 VR 전처리 유닛(161)으로 플래그가 시그널링될 수 있다. 플래그는 전환 페이즈(phase) 동안 중간 오디오 신호를 생성하기 위해 본 문서에 기술된 오디오 프로세싱을 트리거할 수 있다. 플래그는 관련 정보(예를 들어, 새로운 뷰포트의 좌표 또는 청취 위치(202))를 통해 명시적으로 또는 암시적으로 시그널링될 수 있다. 플래그는 임의의 데이터 인터페이스 사이드(예를 들어, 서버/콘텐츠, 사용자/장면, 보조자(auxiliary))로부터 전송될 수 있다. 플래그와 함께, 기원 오디오 신호 AG 및 목적지 오디오 신호 BG 제공될 수 있다. 예로서, 하나 이상의 오디오 객체 또는 오디오 소스의 ID가 제공될 수 있다. 대안적으로, 기원 오디오 신호 및/또는 목적지 오디오 신호를 연산하라는 요청이 렌더러(160)에게 제공될 수 있다.
따라서, 3 DoF 렌더러(162)를 위한 전처리 유닛(161)을 포함하는 VR 렌더러(160)가 자원 효율적인 방식으로 6 DoF 기능을 가능하게 하기 위해 기술된다. 전처리 유닛(161)은 MPEG-H 3D 오디오 렌더러와 같은 표준 3 DoF 렌더러(162)의 사용을 허용한다. VR 전처리 유닛(161)은, 각각, 기원 장면(111) 및 목적지 장면(112)을 표현하는 사전 렌더링된 가상 오디오 객제 AG 및 BG를 사용함으로써, 글로벌 전환(191)을 위한 연산을 효율적으로 수행하도록 구성될 수 있다. 글로벌 전환(191) 동안 단지 2개의 사전 렌더링된 가상 객체를 사용함으로써 연산 복잡도가 감소된다. 각각의 가상 객체는 복수의 오디오 소스에 대해 복수의 오디오 신호를 포함할 수 있다. 또한, 전환(191) 동안 사전 렌더링된 가상 오디오 객제 AG 및 BG만이 비트스트림(140) 내에 제공될 수 있기 때문에, 비트레이트 요구조건이 감소될 수 있다. 게다가, 처리 지연이 감소될 수 있다.
3 DoF 기능이 글로벌 전환 궤적을 따라 모든 중간 위치에 제공될 수 있다. 이것은 페이드-아웃/페이드-인 함수(211, 212)를 사용하여 기원 오디오 객체 및 목적지 오디오 객체를 오버레이함으로써 달성될 수 있다. 또한, 추가 오디오 객체가 렌더링될 수 있고/있거나 추가 오디오 효과가 포함될 수 있다.
도 3은 동일한 오디오 장면(111) 내에서 기원 청취 위치(B)(301)로부터 목적지 청취 위치(C)(302)로의 예시적인 로컬 전환(192)을 나타낸다. 오디오 장면(111)은 상이한 오디오 소스 또는 객체(311, 312, 313)를 포함한다. 상이한 오디오 소스 또는 객체(311, 312, 313)는 상이한 지향성 프로파일(332)을 가질 수 있다. 또한, 오디오 장면(111)은 오디오 장면(111) 내에서 오디오의 전파에 영향을 미치는 환경 특성, 특히 하나 이상의 장애물을 가질 수 있다. 환경 특성은 환경 데이터(193)를 이용하여 기술될 수 있다. 또한, 청취 위치(301, 302)에 대한 오디오 객체(311)의 상대 거리(321, 322)가 알려질 수 있다.
도 4a 및 도 4b는 상이한 오디오 소스 또는 객체(311, 312, 313)의 강도에 대한 로컬 전환(192)의 효과를 처리하기 위한 안을 도시한다. 위에 요약된 바와 같이, 오디오 장면(111)의 오디오 소스(311, 312, 313)는 전형적으로 3차원 오디오 렌더러(162)에 의해 청취 위치(301) 둘레의 구체(114) 상에 위치되는 것으로 가정된다. 그러므로, 로컬 전환(192)의 시작에서, 오디오 소스(311, 312, 313)는 기원 청취 위치(301) 둘레의 기원 구체(114) 상에 배치될 수 있고, 로컬 전환(192)의 끝에서, 오디오 소스(311, 312, 313)는 목적지 청취 위치(302) 둘레의 목적지 구체(114) 상에 배치될 수 있다. 구체(114)의 반경은 청취 위치에 독립적일 수 있다. 즉, 기원 구체(114)와 목적지 구체(114)는 동일한 반경을 가질 수 있다. 예를 들어, 구체는 (예를 들어, 렌더링의 맥락에서) 단위 구체일 수 있다. 일례에서, 구체의 반경은 1 미터일 수 있다.
오디오 소스(311, 312, 313)는 기원 구체(114)로부터 목적지 구체(114)로 리매핑(예를 들어, 기하학적으로 리맵핑)될 수 있다. 이를 위해, 목적지 청취 위치(302)로부터 기원 구체(114) 상의 오디오 소스(311, 312, 313)의 소스 위치로 가는 광선(ray)이 고려될 수 있다. 오디오 소스(311, 312, 313)는 목적지 구체(114)와의 광선의 교차점에 배치될 수 있다.
목적지 구체(114) 상의 오디오 소스(311, 312, 313)의 강도 F는 전형적으로 기원 구체(114) 상의 강도와 상이하다. 강도 F는, 청취 위치(301, 302)로부터 오디오 소스(311, 312, 313)의 거리(420)의 함수로서 거리 이득(410)을 제공하는, 거리 함수(415) 또는 강도 이득 함수를 사용하여 수정될 수 있다. 거리 함수(415)는 전형적으로 제로의 거리 이득(410)이 적용되는 컷오프 거리(421)를 나타낸다. 기원 청취 위치(301)에의 오디오 소스(311)의 기원 거리(321)는 기원 이득(411)을 제공한다. 예를 들어, 기원 거리(321)는 기원 구체(114)의 반경에 대응할 수 있다. 또한, 목적지 청취 위치(302)에의 오디오 소스(311)의 목적지 거리(322)는 목적지 이득(412)을 제공한다. 예를 들어, 목적지 거리(322)는 목적지 청취 위치(302)로부터 기원 구체(114) 상의 오디오 소스(311, 312, 313)의 소스 위치까지의 거리일 수 있다. 오디오 소스(311)의 강도(F)는 기원 이득(411) 및 목적지 이득(412)을 사용하여 리스케일링 될(rescaled) 수 있으며, 이에 의해 목적지 구체(114) 상에 오디오 소스(311)의 강도(F)를 제공한다. 특히, 기원 구체(114) 상의 오디오 소스(311)의 기원 오디오 신호의 강도(F)는, 목적지 구체(114) 상에 오디오 소스(311)의 목적지 오디오 신호의 강도(F)를 제공하도록, 기원 이득(411)으로 나누어지고 목적지 이득(412)이 곱해질 수 있다.
따라서, 로컬 전환(192)에 후속하는 오디오 소스(311)의 위치는 (예를 들어, 기하학적 변환을 사용하여) 다음과 같이 결정될 수 있다: Ci=source_remap_function(Bi, C). 또한, 로컬 전환(192)에 후속하는 오디오 소스(311)의 강도는 다음과 같이 결정될 수 있다: F(Ci)=F(Bi)*distance_function(Bi, Ci, C). 그러므로, 거리 감쇠는 거리 함수(415)에 의해 제공되는 대응하는 강도 이득에 의해 모델링 될 수 있다.
도 5a 및 도 5b는 비-균일 지향성 프로파일(332)을 갖는 오디오 소스(312)를 나타낸다. 지향성 프로파일은 상이한 방향 또는 지향 각도(520)에 대한 이득값을 나타내는 지향성 이득(510)을 사용하여 정의될 수 있다. 특히, 오디오 소스(312)의 지향성 프로파일(332)은 지향 각도(520)의 함수로서 지향성 이득(510)을 나타내는 지향성 이득 함수(515)를 사용하여 정의될 수 있다(각도(520)는 0 ° 내지 360°의 범위일 수 있음). 3D 오디오 소스(312)에 대해, 지향 각도(520)는 전형적으로 방위각(azimuth angle) 및 고각(elevation angle)을 포함한 2차원 각도이다. 따라서, 지향성 이득 함수(515)는 전형적으로 2차원 지향 각도(520)의 2차원 함수이다.
오디오 소스(312)의 지향성 프로파일(332)은, (오디오 소스(312)가 기원 청취 위치(301) 둘레의 기원 구체(114) 상에 배치된 상태에서) 오디오 소스(312)와 기원 청취 위치(301) 사이의 기원 광선의 기원 지향 각도(521), 및 (오디오 소스(312)가 목적지 청취 위치(302) 둘레의 목적지 구체(114) 상에 배치된 상태에서) 오디오 소스(312)와 목적지 청취 위치(302) 사이의 목적지 광선의 목적지 지향 각도(522)를 결정함으로써 로컬 전환(192)의 맥락에서 고려될 수 있다. 오디오 소스(312)의 지향성 이득 함수(515)를 사용하면, 기원 지향성 이득(511) 및 목적지 지향성 이득(512)은 각각 기원 지향 각도(521) 및 목적지 지향 각도(522)에 대한 지향성 이득 함수(515)의 함수값으로서 결정될 수 있다(도 5b 참조). 이어서, 기원 청취 위치(301)에서 오디오 소스(312)의 강도(F)는, 목적지 청취 위치(302)에서 오디오 소스(312)의 강도(F)를 결정하도록, 기원 지향성 이득(511)으로 나누어지고 목적지 지향성 이득(512)이 곱해질 수 있다.
따라서, 사운드 소스 지향성은 지향성 이득 함수(515)에 의해 나타낸 지향성 팩터 또는 이득(510)에 의해 매개변수화 될 수 있다. 지향성 이득 함수(515)는 어떤 거리에서 오디오 소스(312)의 강도를 청취 위치(301, 302)에 관한 각도(520)의 함수로서 나타낼 수 있다. 지향성 이득(510)은 모든 방향으로 균일하게 방사되는 동일한 총 파워를 갖는 오디오 소스(312)의 동일 거리에서의 이득에 대한 비로서 정의될 수 있다. 지향성 프로파일(332)은 오디오 소스(312)의 중심에서 시작하고 오디오 소스(312)의 중심 둘레의 단위 구체 상에 분포된 포인트들에서 끝나는 벡터에 대응하는 한 세트의 이득(510)에 의해 매개변수화 될 수 있다. 오디오 소스(312)의 지향성 프로파일(332)은 사용-케이스(use-case) 시나리오 및 가용(available) 데이터(예를 들어, 3D-플라잉 케이스에 대한 균일 분포, 2D+사용-케이스에 대한 평탄화된 분포 등)에 의존할 수 있다.
목적지 청취 위치(302)에서 오디오 소스(312)의 결과적인 오디오 강도는 다음과 같이 추정될 수 있다: F(Ci)=F(Bi)*Distance_function()*Directivity_gain_function(Ci, C, Directivity_paramertization), 여기서 Directivity_gain_function은 오디오 소스(312)의 지향성 프로파일(332)에 의존적이다. Distance_function()은 오디오 소스(312)의 전환으로 인한 오디오 소스(312)의 거리(321, 322)의 변경에 의해 일어나는 수정된 강도를 고려한다.
도 6은, 상이한 청취 위치(301, 302) 사이의 로컬 전환(192)의 맥락에서 고려될 필요가 있는 예시적인 장애물(603)을 나타낸다. 특히, 오디오 소스(313)는 목적지 청취 위치(302)에서 장애물(603) 뒤에 숨겨질 수 있다. 장애물(603)은 장애물(603)의 공간 치수 및 장애물(603)에 의해 야기된 사운드의 감쇠를 나타내는 장애물 감쇠 함수와 같은 파라미터 세트를 포함하는 환경 데이터(193)에 의해 기술될 수 있다.
오디오 소스(313)는 목적지 청취 위치(302)까지 무 장애물 거리(602)(obstacle-free distance, OFD)를 나타낼 수 있다. OFD(602)는 오디오 소스(313)와 목적지 청취 위치(302) 사이의 장애물(603)을 가로지르지 않는 최단 경로의 길이를 나타낼 수 있다. 또한, 오디오 소스(313)는 목적지 청취 위치(302)까지 통과(going-through) 거리(601)(going-through distance, GHD)를 나타낼 수 있다. GHD(601)는 오디오 소스(313)와 목적지 청취 위치(302) 사이의 장애물(603)을 전형적으로 통과하는 최단 경로의 길이를 나타낼 수 있다. 장애물 감쇠 함수는 OFD(602) 및 GHD(601)의 함수일 수 있다. 또한, 장애물 감쇠 함수는 오디오 소스(313)의 강도 F(Bi)의 함수일 수 있다.
목적지 청취 위치(302)에서의 오디오 소스 Ci의 강도는 장애물(603) 둘레를 지나는 오디오 소스(313)로부터의 사운드와 장애물(603)을 통과하는 오디오 소스(313)로부터의 사운드의 조합일 수 있다.
따라서, VR 렌더러(160)에는 환경 지오메트리 및 미디어의 영향을 제어하기 위한 파라미터가 제공될 수 있다. 장애물 지오메트리/미디어 데이터(193) 또는 파라미터는 컨텐츠 제공자 및/또는 인코더(130)에 의해 제공될 수 있다. 오디오 소스(313)의 오디오 강도는 다음과 같이 추정될 수 있다: F(Ci)=F(Bi)*Distance_function(OFD)*Directivity_gain_function(OFD)+Obstacle_attenuation_function(F(Bi), OFD, GHD). 제1항(term)은 장애물(603) 둘레를 지나는 사운드의 기여에 대응한다. 제2항은 장애물(603)을 통과하는 사운드의 기여에 대응한다.
최소의 무 장애물 거리(OFD)(602)는, A*Dijkstra의 경로 찾기 알고리즘을 사용하여 결정될 수 있으며 다이렉트 사운드(direct sound) 감쇠를 제어하기 위해 사용될 수 있다. 통과 거리(GHD)(601)는 잔향 및 왜곡을 제어하기 위해 사용될 수 있다. 대안적으로 또는 추가적으로, 광선투사(raycasting) 접근법이 오디오 소스(313)의 강도에 대한 장애물(603)의 효과를 기술하기 위해 사용될 수 있다.
도 7은, 목적지 청취 위치(302)에 있는 청취자(181)의 예시적인 시야(701)를 나타낸다. 또한, 도 7은 목적지 청취 위치(302)에 있는 청취자의 예시적인 주목 포커스(702)를 나타낸다. 시야(701) 및/또는 주목 포커스(702)는, 시야(701) 및/또는 주목 포커스(702) 내에 있는 오디오 소스로부터 오는 오디오를 향상(예를 들어, 증폭)시키기 위해 사용될 수 있다. 시야(701)는, 사용자에 의해 유발되는(user-driven) 효과인 것으로 간주될 수 있으며 사용자의 시야(701)와 관련된 오디오 소스(311)에 대한 사운드 인핸서(enhancer)를 가능하게 하기 위해 사용될 수 있다. 특히, 청취자의 시야(701) 내에 있는 오디오 소스(311)와 관련된 스피치 신호의 이해 용이성을 향상시키기 위해 배경 오디오 소스로부터 주파수 타일을 제거함으로써 "칵테일 파티 효과" 시뮬레이션이 수행될 수 있다. 주목 포커스(702)는, 컨텐츠에 의해 유발되는(content-driven) 효과인 것으로 간주될 수 있으며 관심 컨텐츠 영역과 관련된 오디오 소스(311)에 대한 사운드 인핸서를 가능하게 하기 위해 사용될 수 있다(예를 들어, 오디오 소스(311)의 방향으로 주목 및/또는 이동하도록 사용자의 주목을 끎).
오디오 소스(311)의 오디오 강도는 다음과 같이 수정될 수 있다: F(Bi)=Field_of_view_function(C, F(Bi), Field_of_view_data), 여기서 Field_of_view_function은 청취자(181)의 시야(701) 내에 있는 오디오 소스(311)의 오디오 신호에 적용되는 수정을 기술한다. 또한, 청취자의 주목 포커스(702) 내에 있는 오디오 소스의 오디오 강도는 다음과 같이 수정될 수 있다: F(Bi)=Attention_focus_function(F(Bi), Attention_focus_data), 여기서 attention_focus_function은 주목 포커스(702) 내에 있는 오디오 소스(311)의 오디오 신호에 적용되는 수정을 기술한다.
기원 청취 위치(301)로부터 목적지 청취 위치(302)로의 청취자(181)의 전환을 처리하기 위해 본 문서에서 기술된 함수들은 오디오 소스(311, 312, 313)의 위치 변경에 유사한 방식으로 적용될 수 있다.
따라서, 본 문서는 임의의 청취 위치(301, 302)에서 로컬 VR 오디오 장면(111)을 나타내는 가상 오디오 객체 또는 오디오 소스(311, 312, 313)의 좌표 및/또는 오디오 강도를 연산하기 위한 효율적인 수단을 기술한다. 좌표 및/또는 강도는, 사운드 소스 거리 감쇠 곡선, 사운드 소스 배향 및 지향성, 환경 지오메트리/미디어 영향 및/또는 추가적인 오디오 신호 향상을 위한 "시야" 및 "주목 포커스" 데이터를 고려하여 결정될 수 있다. 기술된 안은 청취 위치(301, 302) 및/또는 오디오 객체/소스(311, 312, 313)의 위치가 변경되는 경우에만 연산을 수행함으로써 연산 복잡도를 현저히 감소시킬 수 있다.
또한, 본 문서는 VR 렌더러(160)에 대한 거리, 지향성, 기하 함수, 처리 및/또는 시그널링 메커니즘의 사양에 대한 개념을 기술한다. 또한, 다이렉트 사운드 감쇠를 제어하기 위한 최소의 "무 장애물 거리" 및 잔향 및 왜곡을 제어하기 위한 "통과 거리”에 대한 개념이 기술된다. 또한, 사운드 소스 지향성 매개변수화에 대한 개념이 기술된다.
도 8은, 로컬 전환(192)의 맥락에 있어서 앰비언스(ambience) 사운드 소스(801, 802, 803)의 취급을 나타낸다. 특히, 도 8은 3개의 상이한 앰비언스 사운드 소스(801, 802, 803)를 나타내며, 앰비언스 사운드는 포인트 오디오 소스(point audio source)에서 비롯될 수 있다. 포인트 오디오 소스(311)가 앰비언스 오디오 소스(801)인 것을 나타내기 위해 앰비언스 플래그가 전처리 유닛(161)에 제공될 수 있다. 청취 위치(301, 302)의 로컬 및/또는 글로벌 전환 동안의 처리는 앰비언스 플래그의 값에 의존적일 수 있다.
글로벌 전환(191)의 맥락에서, 앰비언스 사운도 소스(801)은 보통의 오디오 소스(311)처럼 처리될 수 있다. 도 8은 로컬 전환(192)을 나타낸다. 앰비언스 사운드 소스(811, 812, 813)의 위치는 기원 구체(114)로부터 목적지 구체(114)로 복사될 수 있고, 이에 의해서 목적지 청취 위치(302)에서 앰비언스 사운드 소스(811, 812, 813)의 위치를 제공한다. 또한, 환경 조건이 변하지 않으면 앰비언스 사운드 소스(801)의 강도는 변하지 않고 유지될 수 있다(F(CAi)=F(BAi)). 반면, 장애물(603)의 경우, 앰비언스 사운드 소스(803, 813)의 강도는, 예를 들어, F(CAi)=F(BAi)*Distance_functionAi(OFD)+Obstacle_attenuation_function(F(BAi), OFD, GHD)와 같은 장애물 감쇠 함수를 사용하여 결정될 수 있다.
도 9a는, 가상 현실 렌더링 환경(180)에서 오디오를 렌더링하기 위한 예시적인 방법(900)의 흐름도를 나타낸다. 방법(900)은 VR 오디오 렌더러(160)에 의해 실행될 수 있다. 방법(900)은 기원 오디오 장면(111)의 기원 오디오 소스(113)의 기원 오디오 신호를 청취자(181)의 청취 위치(201) 둘레의 구체(114) 상의 기원 소스 위치로부터 렌더링(901)하는 단계를 포함한다. 렌더링(901)은, 특히 청취자(181)의 머리의 회전 운동만을 처리하는 것에 제한될 수 있는, 3 Dof만을 처리하는 것에 제한될 수 있는 3D 오디오 렌더러(162)를 사용하여 수행될 수 있다. 특히, 3D 오디오 렌더러(162)는 청취자의 머리의 병진 운동을 처리하도록 구성되지 않을 수 있다. 3D 오디오 렌더러(162)는 MPEG-H 오디오 렌더러를 포함하거나 MPEG-H 오디오 렌더러일 수 있다.
"특정 소스 위치로부터 오디오 소스(113)의 오디오 신호를 렌더링한다"라는 표현은, 청취자(181)가 오디오 신호가 특정 소스 위치로부터 오는 것으로 인지한다는 것을 나타냄에 유의한다. 이 표현은, 오디오 신호가 실제 렌더링되는 방법에 대한 제한으로 이해되어서는 안된다. "특정 소스 위치로부터 오디오 신호를 렌더링"하기 위해, 즉, 오디오 신호가 특정 소스 위치로부터 온다는 인식을 청취자(181)에게 제공하기 위해 여러가지 상이한 렌더링 기술이 사용될 수 있다.
또한, 방법(900)은, 청취자(181)가 기원 오디오 장면(111) 내의 청취 위치(201)로부터 다른 목적지 오디오 장면(112) 내의 청취 위치(202)로 이동한다고 결정하는 단계(902)를 포함한다. 따라서, 기원 오디오 장면(111)으로부터 목적지 오디오 장면(112)으로의 글로벌 전환(191)이 검출될 수 있다. 이 맥락에서, 방법(900)은, 청취자(181)가 기원 오디오 장면(111)으로부터 목적지 오디오 장면(112)으로 이동한다는 표시를 수신하는 단계를 포함할 수 있다. 표시는 플래그를 포함하거나 플래그일 수 있다. 표시는 예를 들어 VR 오디오 렌더러(160)의 사용자 인터페이스를 통해 청취자(181)로부터 VR 오디오 렌더러(160)로 시그널링될 수 있다.
전형적으로, 기원 오디오 장면(111)과 목적지 오디오 장면(112) 각각은 서로 다른 하나 이상의 오디오 소스(113)를 포함한다. 특히, 하나 이상의 기원 오디오 소스(113)의 기원 오디오 신호가 목적지 오디오 장면(112) 내에서 들리지 않을 수 있고/있거나 하나 이상의 목적지 오디오 소스(113)의 목적지 오디오 신호가 기원 오디오 장면(111) 내에서 들리지 않을 수 있다.
방법(900)은 (새로운 목적지 오디오 장면(112)으로의 글로벌 전환(191)이 수행되었다고 결정하는 것에 응답하여) 수정된 기원 오디오 신호를 결정하기 위해 기원 오디오 신호에 페이드-아웃 이득을 적용하는 단계(903)를 포함할 수 있다. 또한, 방법(900)은 (새로운 목적지 오디오 장면(112)으로의 글로벌 전환(191)이 수행되었다고 결정하는 것에 대한 응답으로) 청취 위치(201, 202) 둘레의 구체(114) 상의 기원 소스 위치로부터 기원 오디오 소스(113)의 수정된 기원 오디오 신호를 렌더링하는 단계(904)를 포함할 수 있다.
따라서, 상이한 오디오 장면(111, 112) 사이의 글로벌 전환(191)은 기원 오디오 장면(111)의 하나 이상의 기원 오디오 소스(113)의 기원 오디오 신호를 점진적으로 페이드-아웃함으로써 수행될 수 있다. 이 결과, 상이한 오디오 장면(111, 112) 사이의 연산적으로 효율적이고 음향적으로 일관된 글로벌 전환(191)이 제공된다.
청취자(181)가 전환 시간 간격 동안 기원 오디오 장면(111)으로부터 목적지 오디오 장면(112)으로 이동한다고 결정될 수 있으며, 전환 시간 간격은 전형적으로 특정 지속시간(예를 들어, 2초, 1초, 500ms, 또는 그 미만)을 갖는다. 글로벌 전환(191)은 전환 시간 간격 내에서 점진적으로 수행될 수 있다. 특히, 글로벌 전환(191) 동안, 전환 시간 간격 내의 중간 시간 순간(213)이 (예를 들어 100ms, 50ms, 20ms 또는 그 미만의 예를 들어 특정 샘플링 레이트에 따라) 결정될 수 있다. 이어서, 페이드-아웃 이득이 전환 시간 간격 내에서 중간 시간 순간(213)의 상대 위치에 기초하여 결정될 수 있다.
특히, 글로벌 전환(191)에 대한 전환 시간 간격은 중간 시간 순간(213)의 시퀀스로 세분될 수 있다. 중간 시간 순간(213)의 시퀀스의 각각의 중간 시간 순간(213)에 대해, 하나 이상의 기원 오디오 소스의 기원 오디오 신호를 수정하기 위한 페이드-아웃 이득이 결정될 수 있다. 또한, 중간 시간 순간(213)의 시퀀스의 각각의 중간 시간 순간(213)에서, 하나 이상의 기원 오디오 소스(113)의 수정된 기원 오디오 신호가 청취 위치(201, 202) 둘레의 구체(114) 상의 기원 소스 위치로부터 렌더링될 수 있다. 이를 행함으로써, 음향적으로 일관된 글로벌 전환(191)이 연산적으로 효율적인 방식으로 수행될 수 있다.
방법(900)은, 전환 시간 간격 내에서의 상이한 중간 시간 순간(213)에서 페이드-아웃 이득을 나타내는 페이드-아웃 함수(211)를 제공하는 단계를 포함할 수 있으며, 페이드-아웃 함수(211)는 전형적으로 중간 시간 순간(213)이 진행함에 따라 페이드-아웃 이득이 감소하도록 되며, 이에 의해 목적지 오디오 장면(112)에 매끄러운(smooth) 글로벌 전환(191)을 제공한다. 특히, 페이드-아웃 함수(211)는, 기원 오디오 신호가 전환 시간 간격의 시작에서 기원 오디오 신호가 수정되지 않은 상태로 유지되고, 기원 오디오 신호가 진행하는 중간 시간 순간(213)에서 점증적으로 감쇠되고, 및/또는 기원 오디오 신호가 전환 시간 간격의 끝에서 완전히 감쇠되도록 될 수 있다.
청취 위치(201, 202) 둘레의 구체(114) 상의 기원 오디오 소스(113)의 기원 소스 위치는, 청취자(181)가 기원 오디오 장면(111)으로부터 목적지 오디오 장면(112)으로 (특히, 전체 전환 시간 간격 동안) 이동할 때 유지될 수 있다. 대안적으로 또는 추가적으로, (전체 전환 시간 간격 동안) 청취자(181)가 동일한 청취 위치(201, 202)에 있다고 가정될 수 있다. 이를 행함으로써, 오디오 장면(111, 112) 사이의 글로벌 전환(191)에 대한 연산 복잡도가 더욱 줄어들 수 있다.
방법(900)은, 목적지 오디오 장면(112)의 목적지 오디오 소스(113)의 목적지 오디오 신호를 결정하는 단계를 더 포함할 수 있다. 또한, 방법(900)은, 청취 위치(201, 202) 둘레의 구체(114) 상의 목적지 소스 위치를 결정하는 단계를 포함할 수 있다. 또한, 방법(900)은, 수정된 목적지 오디오 신호를 결정하기 위해 목적지 오디오 신호에 페이드-인 이득을 적용하는 단계를 포함할 수 있다. 이어서, 목적지 오디오 소스(113)의 수정된 목적지 오디오 신호는 청취 위치(201, 202) 둘레의 구체(114) 상의 목적지 소스 위치로부터 렌더링될 수 있다.
따라서, 기원 장면(111)의 하나 이상의 기원 오디오 소스(113)의 기원 오디오 신호의 페이딩-아웃과 유사한 방식으로, 목적지 장면(112)의 하나 이상의 목적지 오디오 소스(113)의 목적지 오디오 신호는 페이드-인 되고, 이에 의해 오디오 장면(111, 112) 사이에 매끄러운 글로벌 전환(191)을 제공한다.
위에 나타낸 바와 같이, 청취자(181)는 전환 시간 간격 동안 기원 오디오 장면(111)으로부터 목적지 오디오 장면(112)으로 이동할 수 있다. 페이드-인 이득은 전환 시간 간격 내에서 중간 시간 순간(213)의 상대 위치에 기초하여 결정될 수 있다. 특히, 글로벌 전환(191) 동안 페이드-인 이득의 시퀀스가 대응하는 중간 시간 순간(213) 시퀀스에 대해 결정될 수 있다.
페이드-인 이득은 전환 시간 간격 내에서 상이한 중간 시간 순간(213)에서의 페이드-인 이득을 나타내는 페이드-인 함수(212)를 사용하여 결정될 수 있으며, 페이드-인 함수(212)는 전형적으로 중간 시간 순간(213)이 진행함에 따라 페이드-인 이득이 증가하도록 될 수 있다. 특히, 페이드-인 함수(212)는 전환 시간 간격의 시작에서 목적지 오디오 신호가 완전히 감쇠되고, 목적지 오디오 신호가 진행하는 중간 시간 순간(213)에서 점감적으로 감쇠되고 및/또는 목적지 오디오 신호가 전환 시간 간격의 끝에서 수정되지 않은 상태로 유지되도록 될 수 있으며, 이에 의해 연산적으로 효율적인 방식으로 오디오 장면(111, 112) 사이에 매끄러운 글로벌 전환(191)을 제공한다.
원 오디오 소스(113)의 기원 소스 위치와 동일한 방식으로, 청취 위치(201, 202) 둘레의 구체(114) 상의 목적지 오디오 소스(113)의 목적지 소스 위치는, 특히 전체 전환 시간 간격 동안, 청취자(181)가 기원 오디오 장면(111)으로부터 목적지 오디오 장면(112)으로 이동할 때 유지될 수 있다. 대안적으로 또는 추가적으로, (전체 전환 시간 간격 동안) 청취자(181)가 동일한 청취 위치(201, 202)에 있다고 가정될 수 있다. 이를 행함으로써, 오디오 장면(111, 112) 사이의 글로벌 전환(191)에 대한 연산 복잡도는 더욱 줄어들 수 있다.
페이드-아웃 함수(211)와 페이드-인 함수(212)의 조합은 복수의 상이한 중간 시간 순간(213)에 대해 일정한 이득을 제공할 수 있다. 특히, 페이드-아웃 함수(211) 및 페이드-인 함수(212)는 복수의 상이한 중간 시간 순간(213)에 대해 일정한 값(예컨대 1)까지 합쳐질 수 있다. 따라서, 페이드-인 함수(212) 및 페이드-아웃 함수(211)는 상호 의존적일 수 있고, 이에 의해 글로벌 전환(191) 동안 일관된 오디오 경험을 제공할 수 있다.
페이드-아웃 함수(211) 및/또는 페이드-인 함수(212)는 기원 오디오 신호 및/또는 목적지 오디오 신호를 나타내는 비트스트림(140)으로부터 도출될 수 있다. 비트스트림(140)은 인코더(130)에 의해 VR 오디오 렌더러(160)에게 제공될 수 있다. 따라서, 글로벌 전환(191)은 콘텐츠 제공자에 의해 제어될 수 있다. 대안적으로 또는 추가적으로, 페이드-아웃 함수(211) 및/또는 페이드-인 함수(212)는, 가상 현실 렌더링 환경(180) 내에서 기원 오디오 신호 및/또는 목적지 오디오 신호를 렌더링하도록 구성된 가상 현실(VR) 오디오 렌더러(160)의 저장 유닛으로부터 도출될 수 있으며, 이에 의해 오디오 장면(111, 112) 사이의 글로벌 전환(191) 동안 신뢰할 수 있는 동작을 제공한다.
방법(900)은 청취자(181)가 기원 오디오 장면(111)으로부터 목적지 오디오 장면(112)으로 이동한다는 표시(예를 들어, 플래그 표시)를 인코더(130)로 송신하는 단계를 포함할 수 있으며, 인코더(130)는 기원 오디오 신호 및/또는 목적지 오디오 신호를 나타내는 비트스트림(140)을 생성하도록 구성될 수 있다. 표시는 인코더(130)가 비트스트림(140) 내에서 기원 오디오 장면(111)의 하나 이상의 오디오 소스(113) 및/또는 목적지 오디오 장면(112)의 하나 이상의 오디오 소스(113)에 대한 오디오 신호를 선택적으로 제공할 수 있도록 한다. 그러므로, 다가오는 글로벌 전환(191)에 대한 표시를 제공하면 비트스트림(140)에 필요한 대역폭을 감소시킬 수 있다.
위에 이미 나타낸 바와 같이, 기원 오디오 장면(111)은 복수의 기원 오디오 소스(113)를 포함할 수 있다. 따라서, 방법(900)은, 청취 위치(201, 202) 둘레의 구체(114) 상의 복수의 상이한 기원 소스 위치로부터 대응하는 복수의 기원 오디오 소스(113)의 복수의 기원 오디오 신호를 렌더링하는 단계를 포함할 수 있다. 또한, 방법(900)은, 복수의 수정된 기원 오디오 신호를 결정하도록 페이드-아웃 이득을 복수의 기원 오디오 신호에 적용하여 단계를 포함할 수 있다. 또한, 방법(900)은, 청취 위치(201, 202) 둘레의 구체(114) 상의 대응하는 복수의 기원 소스 위치로부터 기원 오디오 소스(113)의 복수의 수정된 기원 오디오 신호를 렌더링하는 단계를 포함할 수 있다.
유사한 방식으로, 방법(900)은, 목적지 오디오 장면(112)의 대응하는 복수의 목적지 오디오 소스(113)의 복수의 목적지 오디오 신호를 결정하는 단계를 포함할 수 있다. 또한, 방법(900)은, 청취 위치(201, 202) 둘레의 구체(114) 상의 복수의 목적지 소스 위치를 결정하는 단계를 포함할 수 있다. 또한, 방법(900)은, 대응하는 복수의 수정된 목적지 오디오 신호를 결정하도록 페이드-인 이득을 복수의 목적지 오디오 신호에 적용하는 단계를 포함할 수 있다. 방법(900)은, 청취 위치(201, 202) 둘레의 구체(114) 상의 대응하는 복수의 목적지 소스 위치로부터 복수의 목적지 오디오 소스(113)의 복수의 수정된 목적지 오디오 신호를 렌더링하는 단계를 더 포함한다.
대안적으로 또는 추가적으로, 글로벌 전환(191) 동안 렌더링되는 기원 오디오 신호는 복수의 기원 오디오 소스(113)의 오디오 신호의 오버레이일 수 있다. 특히, 전환 시간 간격의 시작에서, 기원 오디오 장면(111)의 (모든) 오디오 소스(113)의 오디오 신호는 결합된 기원 오디오 신호를 제공하도록 결합될 수 있다. 이 기원 오디오 신호는 페이드-아웃 이득으로 수정될 수 있다. 또한, 기원 오디오 신호는 전환 시간 간격 동안 특정 샘플링 레이트(예를 들어, 20ms)로 업데이트될 수 있다. 유사한 방식으로, 목적지 오디오 신호는 복수의 목적지 오디오 소스(113)(특히 모든 목적지 오디오 소스(113))의 오디오 신호의 조합에 대응할 수 있다. 이어서, 결합된 목적지 오디오 소스는 페이드-인 이득을 사용하여 전환 시간 간격 동안 수정될 수 있다. 기원 오디오 장면(111)과 목적지 오디오 장면(112)의 오디오 신호를 각각 조합함으로써, 연산 복잡도가 더욱 감소될 수 있다.
또한, 가상 현실 렌더링 환경(180)에서 오디오를 렌더링하기 위한 가상 현실 오디오 렌더러(160)가 기술된다. 본 문서에 요약된 바와 같이, VR 오디오 렌더러(160)는 전처리 유닛(161) 및 3D 오디오 렌더러(162)를 포함할 수 있다. 가상 현실 오디오 렌더러(160)는 청취자(181)의 청취 위치(201) 둘레의 구체(114) 상의 기원 소스 위치로부터 기원 오디오 장면(111)의 기원 오디오 소스(113)의 기원 오디오 신호를 렌더링하도록 구성된다. 또한, VR 오디오 렌더러(160)는 청취자(181)가 기원 오디오 장면(111) 내의 청취 위치(201)로부터 상이한 목적지 오디오 장면(112) 내의 청취 위치(202)로 이동한다고 결정하도록 구성된다. 또한, VR 오디오 렌더러(160)는, 수정된 기원 오디오 신호를 결정하고, 그리고 청취 위치(201, 202) 둘레의 구체(114) 상의 기원 소스 위치로부터 기원 오디오 소스(113)의 수정된 기원 오디오 신호를 렌더링하기 위해, 기원 오디오 신호에 페이드-아웃 이득을 적용하도록 구성된다.
또한, 가상 현실 렌더링 환경(180) 내에서 렌더링 될 오디오 신호를 나타내는 비트스트림(140)을 생성하도록 구성된 인코더(130)가 기술된다. 인코더(130)는 기원 오디오 장면(111)의 기원 오디오 소스(113)의 기원 오디오 신호를 결정하도록 구성될 수 있다. 또한, 인코더(130)는 기원 오디오 소스(113)의 기원 소스 위치에 관한 기원 위치 데이터를 결정하도록 구성될 수 있다. 이어서 인코더(130)는 기원 오디오 신호 및 기원 위치 데이터를 포함하는 비트스트림(140)을 생성할 수 있다.
인코더(130)는, 청취자(181)가 가상 현실 렌더링 환경(180) 내에서 기원 오디오 장면(111)으로부터 목적지 오디오 장면(112)으로 (예를 들어, VR 오디오 렌더러(160)로부터 인코더(130)를 향해 피드백 채널을 통해) 이동한다는 표시를 수신하도록 구성될 수 있다.
이어서, 인코더(130)는, (특히 그러한 표시를 수신한 것에 대해 응답해서만) 목적지 오디오 장면(112)의 목적지 오디오 소스(113)의 목적지 오디오 신호, 및 목적지 오디오 소스(113)의 목적지 소스 위치에 관한 목적지 위치 데이터를 결정할 수 있다. 또한, 인코더(130)는 목적지 오디오 신호 및 목적지 위치 데이터를 포함하는 비트스트림(140)을 생성할 수 있다. 따라서, 인코더(130)는, 목적지 오디오 장면(112)으로의 글로벌 전환(191)에 대한 표시를 수신하는 것을 조건으로 해서만 목적지 오디오 장면(112)의 하나 이상의 목적지 오디오 소스(113)의 목적지 오디오 신호를 선택적으로 제공하도록 구성될 수 있다. 이렇게 함으로써, 비트스트림(140)에 필요한 대역폭이 감소될 수 있다.
도 9b는, 가상 현실 렌더링 환경(180) 내에서 렌더링 될 오디오 신호를 나타내는 비트스트림(140)을 생성하기 위한 대응하는 방법(930)의 흐름도를 나타낸다. 방법(930)은, 기원 오디오 장면(111)의 기원 오디오 소스(113)의 기원 오디오 신호를 결정하는 단계(931)를 포함한다. 또한, 방법(930)은, 기원 오디오 소스(113)의 기원 소스 위치에 관한 기원 위치 데이터를 결정하는 단계(932)를 포함한다. 또한, 방법(930)은, 기원 오디오 신호 및 기원 위치 데이터를 포함하는 비트스트림(140)을 생성하는 단계(933)를 포함한다.
방법(930)은 청취자(181)가 가상 현실 렌더링 환경(180) 내에서 기원 오디오 장면(111)으로부터 목적지 오디오 장면(112)으로 이동한다는 표시를 수신하는 단계(934)를 포함한다. 이에 응답하여, 방법(930)은, 목적지 오디오 장면(112)의 목적지 오디오 소스(113)의 목적지 오디오 신호를 결정하는 단계(935), 및 목적지 오디오 소스(113)의 목적지 소스 위치에 관한 목적지 위치 데이터를 결정하는 단계(936)를 포함할 수 있다. 또한, 방법(930)은, 목적지 오디오 신호 및 목적지 위치 데이터를 포함하는 비트스트림(140)을 생성하는 단계(937)를 포함한다.
도 9c는, 가상 현실 렌더링 환경(180)에서 오디오 신호를 렌더링하기 위한 예시적인 방법(910)의 흐름도를 도시한다. 방법(910)은 VR 오디오 렌더러(160)에 의해 실행될 수 있다.
방법(910)은, 청취자(181)의 기원 청취 위치(301) 둘레의 기원 구체(114) 상의 기원 소스 위치로부터 오디오 소스(311, 312, 313)의 기원 오디오 신호를 렌더링하는 단계(911)를 포함한다. 렌더링하는 단계(911)는 3차원 오디오 렌더러(162)를 사용하여 수행될 수 있다. 특히, 렌더링하는 단계(911)는 기원 청취 위치(301)가 고정되어 있다는 가정 하에 수행될 수 있다. 따라서, 렌더링하는 단계(911)는 3 자유도로(특히 청취자(181)의 머리의 회전 운동으로) 제한될 수 있다.
(예를 들어, 청취자(181)의 병진 운동에 대한) 추가의 3자유도를 고려하기 위해, 방법(910)은 청취자(181)가 기원 청취 위치(301)로부터 목적지 청취 위치(302)로 이동한다고 결정하는 단계(912)를 포함할 수 있으며, 목적지 청취 위치(302)는 전형적으로 동일한 오디오 장면(111) 내에 놓인다. 따라서, 청취자(181)가 동일한 오디오 장면(111) 내에서 로컬 전환(192)을 수행하는 것으로 결정될 수 있다(912).
청취자(181)가 로컬 전환(192)을 수행한다고 결정하는 것에 응답하여, 방법(910)은, 기원 소스 위치에 기초하여 목적지 청취 위치(302) 둘레의 목적지 구체(114) 상에서 오디오 소스(311, 312, 313)의 목적지 소스 위치를 결정하는 단계(913)를 포함할 수 있다. 환언하면, 오디오 소스(311, 312, 313)의 소스 위치는 기원 청취 위치(301) 둘레의 기원 구체(114)로부터 목적지 청취 위치(302) 둘레의 목적지 구체(114)로 전환(transfer)될 수 있다. 이것은, 기원 소스 위치를 기원 구체(114)로부터 목적지 구체(114) 상으로 투영함으로써 달성될 수 있다. 예를 들어, 목적지 청취 위치(302)와 관련하여, 기원 구체 상의 기원 소스 위치의 목적지 구체 상으로의 원근 투영이 수행될 수 있다. 특히, 목적지 소스 위치는, 당해 목적지 소스 위치가 목적지 청취 위치(302)와 기원 소스 위치 사이의 광선과 목적지 구체(114)와의 교점(intersection)에 대응하도록 결정될 수 있다. 위에서, 기원 구체(114)와 목적지 구체는 동일한 반경을 가질 수 있다. 이 반경은 예를 들어 미리 결정된 반경일 수 있다. 미리 결정된 반경은 렌더링을 수행하는 렌더러의 디폴트 값일 수 있다.
또한, 방법(910)은 (청취자(181)가 로컬 전환(192)을 수행한다고 결정한 것에 대한 응답으로) 기원 오디오 신호에 기초하여 오디오 소스(311, 312, 313)의 목적지 오디오 신호를 결정하는 단계(914)를 포함할 수 있다. 특히, 목적지 오디오 신호의 강도는 기원 오디오 신호의 강도에 기초하여 결정될 수 있다. 대안적으로 또는 추가적으로, 목적지 오디오 신호의 스펙트럼 구성은 기원 오디오 신호의 스펙트럼 구성에 기초하여 결정될 수 있다. 따라서, 오디오 소스(311, 312, 313)의 오디오 신호가 목적지 청취 위치(302)로부터 어떻게 인지되는지가 결정될 수 있다(특히, 오디오 신호의 강도 및/또는 스펙트럼 구성이 결정될 수 있음).
전술한 결정하는 단계(913, 914)는, VR 오디오 렌더러(160)의 전처리 유닛(161)에 의해 수행될 수 있다. 전처리 유닛(161)은, 하나 이상의 오디오 소스(311, 312, 313)의 오디오 신호를 기원 청취 위치(301) 둘레의 기원 구체(114)로부터 목적지 청취 위치(302) 둘레의 목적지 구체(114)로 전달함으로써 청취자(181)의 병진 운동을 처리할 수 있다. 이 결과, 하나 이상의 오디오 소스(311, 312, 313)의 전달된 오디오 신호는 (3 DoF로 제한될 수 있는) 3D 오디오 렌더러(162)를 사용하여 렌더링될 수도 있다. 따라서, 방법(910)은 VR 오디오 렌더링 환경(180) 내에서 6 DoF의 효율적인 제공을 허용한다.
결과적으로, 방법(910)은, 목적지 청취 위치(302) 둘레의 목적지 구체(114) 상의 목적지 소스 위치로부터 오디오 소스(311, 312, 313)의 목적지 오디오 신호를 (예를 들어, MPEG-H 오디오 렌더러 등의 3D 오디오 렌더러를 사용하여) 렌더링하는 단계(915)를 포함할 수 있다.
목적지 오디오 신호를 결정하는 단계(914)는 기원 소스 위치와 목적지 청취 위치(302) 사이의 목적지 거리(322)를 결정하는 단계를 포함할 수 있다. 이어서, 목적지 오디오 신호(특히, 목적지 오디오 신호의 강도)는 목적지 거리(322)에 기초하여 결정(특히 스케일링 됨)될 수 있다. 특히, 목적지 오디오 신호를 결정하는 단계(914)는 기원 오디오 신호에 거리 이득(410)을 적용하는 단계를 포함할 수 있으며, 거리 이득(410)은 목적지 거리(322)에 의존한다.
오디오 신호(311, 312, 313)의 소스 위치와 청취자(181)의 청취 위치(301, 302) 사이의 거리(321, 322)의 함수로서 거리 이득(410)을 나타내는 거리 함수(415)가 제공될 수 있다. (목적지 오디오 신호를 결정하기 위해) 기원 오디오 신호에 적용되는 거리 이득(410)은 목적지 거리(322)에 대한 거리 함수(415)의 함수값에 기초하여 결정될 수 있다. 이렇게 함으로써, 효율적이고 정확한 방식으로 목적지 오디오 신호가 결정될 수 있다.
또한, 목적지 오디오 신호를 결정하는 단계(914)는, 기원 소스 위치와 기원 청취 위치(301) 사이의 기원 거리(321)를 결정하는 단계를 포함할 수 있다. 이어서, 목적지 오디오 신호는 기원 거리(321)에 기초하여 (또한) 결정될 수 있다. 특히, 기원 오디오 신호에 적용되는 거리 이득(410)은 기원 거리(321)에 대한 거리 함수(415)의 함수값에 기초하여 결정될 수 있다. 바람직한 예에서 기원 거리(321)에 대한 거리 함수(415)의 함수값 및 목적지 거리(322)에 대한 거리 함수(415)의 함수값은 목적지 오디오 신호를 결정하기 위해 기원 오디오 신호의 강도를 리스케일링 하는데 사용된다. 따라서, 오디오 장면(111) 내에서 효율적이고 정확한 로컬 전환(191)이 제공될 수 있다.
목적지 오디오 신호를 결정하는 단계(914)는 오디오 소스(311, 312, 313)의 지향성 프로파일(332)을 결정하는 것을 포함할 수 있다. 지향성 프로파일(332)은 상이한 방향으로의 기원 오디오 신호의 강도를 나타낼 수 있다. 이어서, 지향성 프로파일(332)에 기초하여 목적지 오디오 신호가 (또한) 결정될 수 있다. 지향성 프로파일(332)을 고려함으로써, 로컬 전환(192)의 음향 품질이 향상될 수 있다.
지향성 프로파일(332)은 목적지 오디오 신호를 결정하기 위해 기원 오디오 신호에 적용될 지향성 이득(510)을 나타낼 수 있다. 특히, 지향성 프로파일(332)은 지향성 이득 함수(515)를 나타낼 수 있으며, 지향성 이득 함수(515)는 지향성 이득(510)을 오디오 소스(311, 312, 313)의 소스 위치와 청취자(181)의 청취 위치(301, 302) 사이의 (가능하게는 2차원의) 지향 각도(520)의 함수로서 나타낼 수 있다.
따라서, 목적지 오디오 신호를 결정하는 단계(914)는, 목적지 소스 위치와 목적지 청취 위치(302) 사이의 목적지 각도(522)를 결정하는 단계를 포함할 수 있다. 이어서, 목적지 오디오 신호는 목적지 각도(522)에 기초하여 결정될 수 있다. 특히, 목적지 오디오 신호는 목적지 각도(522)에 대한 지향성 이득 함수(515)의 함수값에 기초하여 결정될 수 있다.
대안적으로 또는 추가적으로, 목적지 오디오 신호를 결정하는 단계(914)는, 기원 소스 위치와 기원 청취 위치(301) 사이의 기원 각도(521)를 결정하는 단계를 포함할 수 있다. 이어서, 목적지 오디오 신호는 기원 각도(521)에 기초하여 결정될 수 있다. 오디오 신호는 기원 각도(521)에 대한 지향성 이득 함수(515)의 함수값에 기초하여 결정될 수 있다. 바람직한 예에서, 목적지 오디오 신호의 강도를 결정하기 위해, 목적지 오디오 신호는 기원 각도(521) 및 목적지 각도(522)에 대한 지향성 이득 함수(515)의 함수값을 사용하여 기원 오디오 신호의 강도를 수정함으로써 결정될 수 있다.
또한, 방법(910)은, 목적지 소스 위치와 목적지 청취 위치(302) 사이의 매질의 오디오 전파 특성을 나타내는 목적지 환경 데이터(193)를 결정하는 단계를 포함할 수 있다. 목적지 환경 데이터(193)는, 목적지 소스 위치와 목적지 청취 위치(302) 사이의 직접 경로 상에 위치된 장애물(603); 장애물(603)의 공간 치수에 관한 정보; 및/또는 목적지 소스 위치와 목적지 청취 위치(302) 사이의 직접 경로 상에서 오디오 신호에 의해 발생되는 감쇠를 나타낼 수 있다. 특히, 목적지 환경 데이터(193)는 장애물(603)의 장애물 감쇠 함수를 나타낼 수 있으며, 감쇠 함수는 목적지 소스 위치와 목적지 청취 위치(302) 사이의 직접 경로 상에서 장애물(603)을 통과하는 오디오 신호에 의해 발생되는 감쇠를 나타낼 수 있다.
이어서, 목적지 오디오 신호는 목적지 환경 데이터(193)에 기초하여 결정될 수 있고, 이에 의해 VR 렌더링 환경(180) 내에서 렌더링되는 오디오의 품질을 더욱 높인다.
위에 나타낸 바와 같이, 목적지 환경 데이터(193)는 목적지 소스 위치와 목적지 청취 위치(302) 사이의 직접 경로 상의 장애물(603)을 나타낼 수 있다. 방법(910)은, 직접 경로 상의 목적지 청취 위치(302)와 목적지 소스 위치 사이의 통과 거리(601)를 결정하는 단계를 포함할 수 있다. 이어서, 목적지 오디오 신호가 통과 거리(601)에 기초하여 결정될 수 있다. 대안적으로 또는 추가적으로, 장애물(603)을 가로지르지 않는, 간접 경로 상의 목적지 청취 위치(302)와 목적지 소스 위치 사이의 무 장애물 거리(602)가 결정될 수 있다. 이어서, 목적지 오디오 신호가 무 장애물 거리(602)에 기초하여 결정될 수 있다.
특히, 목적지 오디오 신호의 간접 성분은 간접 경로를 따라 전파하는 기원 오디오 신호에 기초하여 결정될 수 있다. 또한, 목적지 오디오 신호의 직접 성분은 직접 경로를 따라 전파되는 기원 오디오 신호에 기초하여 결정될 수 있다. 이어서, 목적지 오디오 신호는 간접 성분과 직접 성분을 결합함으로써 결정될 수 있다. 이렇게 함으로써, 장애물(603)의 음향 효과는 정확하고 효율적인 방식으로 고려될 수 있다.
또한, 방법(910)은 청취자(181)의 시야(701) 및/또는 주목 포커스(702)에 관한 포커스 정보를 결정하는 단계를 포함할 수 있다. 이어서, 목적지 오디오 신호는 포커스 정보에 기초하여 결정될 수 있다. 특히, 오디오 신호의 스펙트럼 구성은 포커스 정보에 따라 적응될 수 있다. 이렇게 함으로써, 청취자(181)의 VR 경험이 더욱 향상될 수 있다.
또한, 방법(910)은, 오디오 소스(311, 312, 313)가 앰비언스 오디오 소스인 것으로 결정하는 단계를 포함할 수 있다. 이 맥락에서, 표시(예를 들어, 플래그)가 인코더(130)로부터 비트스트림(140) 내에 수신될 수 있으며, 표시는 오디오 소스(311, 312, 313)가 앰비언스 오디오 소스인 것을 나타낸다. 앰비언스 오디오 소스는 전형적으로 배경 오디오 신호를 제공한다. 앰비언스 오디오 소스의 기원 소스 위치는 목적지 소스 위치로서 유지될 수 있다. 대안적으로 또는 추가적으로, 앰비언스 오디오 소스의 기원 오디오 신호의 강도는 목적지 오디오 신호의 강도로서 유지될 수 있다. 이를 행함으로써, 앰비언스 오디오 소스는 로컬 전환(192)의 맥락에서 효율적이고 일관되게 처리될 수 있다.
위에서 언급된 양태는 복수의 오디오 소스(311, 312, 313)를 포함하는 오디오 장면(111)에 적용할 수 있다. 특히, 방법(910)은, 기원 구체(114) 상의 복수의 상이한 기원 소스 위치로부터 대응하는 복수의 오디오 소스(311, 312, 313)의 복수의 기원 오디오 신호를 렌더링하는 단계를 포함할 수 있다. 또한, 방법(910)은, 각각, 복수의 기원 소스 위치에 기초하여 목적지 구체(114) 상의 대응하는 복수의 오디오 소스(311, 312, 313)에 대한 복수의 목적지 소스 위치를 결정하는 단계를 포함할 수 있다. 또한, 방법(910)은, 각각, 복수의 기원 오디오 신호에 기초하여 대응하는 복수의 오디오 소스(311, 312, 313)의 복수의 목적지 오디오 신호를 결정하는 단계를 포함할 수 있다. 이어서, 대응하는 복수의 오디오 소스(311, 312, 313)의 복수의 목적지 오디오 신호는 목적지 청취 위치(302) 둘레의 목적지 구체(114) 상의 대응하는 복수의 목적지 소스 위치로부터 렌더링될 수 있다.
또한, 가상 현실 렌더링 환경(180)에서 오디오 신호를 렌더링하기 위한 가상 현실 오디오 렌더러(160)가 기술된다. 오디오 렌더러(160)는, (특히, VR 오디오 렌더러(160)의 3D 오디오 렌더러(162)를 사용하여) 청취자(181)의 기원 청취 위치(301) 둘레의 기원 구체(114) 상의 기원 소스 위치로부터 오디오 소스(311, 312, 313)의 기원 오디오 신호를 렌더링하도록 구성된다.
또한, VR 오디오 렌더러(160)는 청취자(181)가 기원 청취 위치(301)로부터 목적지 청취 위치(302)로 이동한다고 결정하도록 구성된다. 이에 응답하여, VR 오디오 렌더러(160)는 (예를 들어, VR 오디오 렌더러(160)의 전처리 유닛(161) 내에서) 기원 소스 위치에 기초하여 목적지 청취 위치(302) 둘레의 목적지 구체(114) 상에서 오디오 소스(311, 312, 313)의 목적지 소스 위치를 결정하고, 그리고 기원 오디오 신호에 기초하여 오디오 소스(311, 312, 313)의 목적지 오디오 신호를 결정하도록 구성될 수 있다.
또한, VR 오디오 렌더러(160)(예를 들어, 3D 오디오 렌더러(162))는 목적지 청취 위치(302) 둘레의 목적지 구체(114) 상의 목적지 소스 위치로부터 오디오 소스(311, 312, 313)의 목적지 오디오 신호를 렌더링하도록 구성될 수 있다.
따라서, 가상 현실 오디오 렌더러(160)는 오디오 소스(311, 312, 313)의 목적지 소스 위치 및 목적지 오디오 신호를 결정하도록 구성된 전처리 유닛(161)을 포함할 수 있다. 또한, VR 오디오 렌더러(160)는 오디오 소스(311, 312, 313)의 목적지 오디오 신호를 렌더링하도록 구성된 3D 오디오 렌더러(162)를 포함할 수 있다. 3D 오디오 렌더러(162)는 (렌더링 환경(180) 내에 3 DoF를 제공하기 위해) 청취자(181)의 머리의 회전 운동에 종속되는, 청취자(181)의 청취 위치(301, 302) 둘레의 (단위) 구체(114) 상의 오디오 소스(311, 312, 313)의 오디오 신호의 렌더링을 적응시키도록 구성될 수 있다. 한편, 3D 오디오 렌더러(162)는 청취자(181)의 머리의 병진 운동에 종속되는, 오디오 소스(311, 312, 313)의 오디오 신호의 렌더링을 적응시키도록 구성되지 않을 수 있다. 따라서, 3D 오디오 렌더러(162)는 3 DoF로 제한될 수 있다. 이어서, 병진적인 DoF는 전처리 유닛(161)을 사용하여 효율적인 방식으로 제공될 수 있으며, 이에 의해 6 DoF를 갖는 전체 VR 오디오 렌더러(160)를 제공한다.
또한, 비트스트림(140)을 생성하도록 구성된 오디오 인코더(130)가 기술된다. 비트스트림(140)은, 당해 비트스트림(140)이 적어도 하나의 오디오 소스(311, 312, 313)의 오디오 신호를 나타내고, 그리고 렌더링 환경(180) 내에서 적어도 하나의 오디오 소스(311, 312, 313)의 위치를 나타내도록 생성된다. 또한, 비트스트림(140)은 렌더링 환경(180) 내에서 오디오의 오디오 전파 특성에 관한 환경 데이터(193)를 나타낼 수 있다. 오디오 전파 특성에 관한 환경 데이터(193)를 시그널링함으로써, 렌더링 환경(180) 내에서 로컬 전환(192)이 정확한 방식으로 가능해질 수 있다.
또한, 적어도 하나의 오디오 소스(311, 312, 313)의 오디오 신호; 렌더링 환경(180) 내에서 적어도 하나의 오디오 소스(311, 312, 313)의 위치; 및 렌더링 환경(180) 내에서 오디오의 오디오 전파 특성을 나타내는 환경 데이터(193)를 나타내는 비트스트림(140)이 기술된다. 대안적으로 또는 추가적으로, 비트스트림(140)은 오디오 소스(311, 312, 313)가 앰비언스 오디오 소스(801)인지의 여부를 나타낼 수 있다.
도 9d는, 비트스트림(140)을 생성하기 위한 예시적인 방법(920)의 흐름도를 나타낸다. 방법(920)은 적어도 하나의 오디오 소스(311, 312, 313)의 오디오 신호를 결정하는 단계(921)를 포함한다. 또한, 방법(920)은 렌더링 환경(180) 내에서 적어도 하나의 오디오 소스(311, 312, 313)의 위치에 관한 위치 데이터를 결정하는 단계(922)를 포함한다. 또한, 방법(920)은 렌더링 환경(180) 내에서 오디오의 오디오 전파 특성을 나타내는 환경 데이터(193)를 결정하는 단계(923)를 포함할 수 있다. 방법(920)은, 오디오 신호, 위치 데이터 및 환경 데이터(193)를 비트스트림(140) 내에 삽입하는 단계(934)를 더 포함한다. 대안적으로 또는 추가적으로, 오디오 소스(311, 312, 313)가 앰비언스 오디오 소스(801)인지의 여부에 대한 표시가 비트스트림(140) 내에 삽입될 수 있다.
따라서, 본 문서에서는 가상 현실 렌더링 환경(180)에서 오디오 신호를 렌더링하기 위한 가상 현실 오디오 렌더러(160)(대응하는 방법)가 기술된다. 오디오 렌더러(160)는 가상 현실 렌더링 환경(180) 내에서 청취자(181)의 청취 위치(301, 302) 둘레의 구체(114) 상의 소스 위치로부터 오디오 소스(113, 311, 312, 313)의 오디오 신호를 렌더링하도록 구성된 3D 오디오 렌더러(162)를 포함한다. 또한, 가상 현실 오디오 렌더러(160)는 가상 현실 렌더링 환경(180) 내에서 (동일하거나 또는 상이한 오디오 장면(111, 112) 내에서) 청취자(181)의 새로운 청취 위치(301, 302)를 결정하도록 구성된 전처리 유닛(161)을 포함한다. 또한, 전처리 유닛(161)은 새로운 청취 위치(301, 302) 둘레의 구체(114)에 관해 오디오 소스(113, 311, 312, 313)의 소스 위치 및 오디오 신호를 업데이트 하도록 구성된다. 3D 오디오 렌더러(162)는 새로운 청취 위치(301, 302) 둘레의 구체(114) 상의 업데이트된 소스 위치로부터 오디오 소스(311, 312, 313)의 업데이트된 오디오 신호를 렌더링하도록 구성된다.
본 문서에 기술된 방법 및 시스템은 소프트웨어, 펌웨어 및/또는 하드웨어로서 구현될 수 있다. 특정 구성요소는 예를 들어 디지털 신호 프로세서 또는 마이크로 프로세서 상에서 실행되는 소프트웨어로서 구현될 수 있다. 다른 구성요소는 예를 들어 하드웨어 및/또는 애플리케이션 특정 집적 회로로서 구현될 수 있다. 기술된 방법 및 시스템에서 접하는 신호는 랜덤 액세스 메모리 또는 광 저장 매체와 같은 매체에 저장될 수 있다. 이들은 라디오 네트워크, 위성 네트워크, 무선 네트워크 또는 유선 네트워크, 예를 들어 인터넷과 같은 네트워크를 통해 전송될 수 있다. 본 문서에 기술된 방법 및 시스템을 이용하는 전형적인 디바이스는 오디오 신호를 저장 및/또는 렌더링하는데 사용되는, 휴대용 전자 디바이스 또는 다른 소비자 장비이다.
본 문서의 열거된 예(EE)는 다음과 같다.
EE 1)
가상 현실 렌더링 환경(180)에서 오디오 신호를 렌더링하기 위한 방법(910)으로서,
- 청취자(181)의 기원 청취 위치(301) 둘레의 기원 구체(114) 상의 기원 소스 위치로부터 오디오 소스(311, 312, 313)의 기원 오디오 신호를 렌더링하는 단계(911); 
- 상기 청취자(181)가 상기 기원 청취 위치(301)로부터 목적지 청취 위치(302)로 이동한다고 결정하는 단계(912);
- 상기 기원 소스 위치에 기초하여 상기 목적지 청취 위치(302) 둘레의 상기 목적지 구체(114) 상의 상기 오디오 소스(311, 312, 313)의 목적지 소스 위치를 결정하는 단계(913);
- 상기 기원 오디오 신호에 기초하여 상기 오디오 소스(311, 312, 313)의 목적지 오디오 신호를 결정하는 단계(914); 및
- 상기 목적지 청취 위치(302) 둘레의 상기 목적지 구체(114) 상의 상기 목적지 소스 위치로부터 상기 오디오 소스(311, 312, 313)의 상기 목적지 오디오 신호를 렌더링 하는 단계(915)
를 포함하는, 방법(910).
EE 2)
EE 1)에 있어서,
상기 방법(910)은 상기 목적지 소스 위치를 결정하기 위해 상기 기원 구체(114)로부터 상기 목적지 구체(114) 상으로 상기 기원 소스 위치를 투영하는 단계를 포함하는, 방법(910).
EE 3)
전술한 EE 중 어느 하나에 있어서,
상기 목적지 소스 위치는, 상기 목적지 소스 위치가 상기 목적지 청취 위치(302)와 상기 기원 소스 위치 사이의 광선(ray)과 상기 목적지 구체(114)와의 교점에 대응하도록 결정되는, 방법(910).
EE 4)
전술한 EE 중 어느 하나에 있어서,
상기 목적지 오디오 신호를 결정하는 단계(914)는,
- 상기 기원 소스 위치와 상기 목적지 청취 위치(302) 사이의 목적지 거리(322)를 결정하는 단계; 및
- 상기 목적지 거리(322)에 기초하여 상기 목적지 오디오 신호를 결정하는 단계(914)를 포함하는, 방법(910).
EE 5)
EE 4에 있어서,
- 상기 목적지 오디오 신호를 결정하는 단계(914)는 상기 기원 오디오 신호에 거리 이득(410)을 적용하는 단계를 포함하고; 그리고
- 상기 거리 이득(410)은 상기 목적지 거리(322)에 의존하는, 방법(910).
EE 6)
EE 5에 있어서,
상기 목적지 오디오 신호를 결정하는 단계(914)는,
- 청취자(181)의 청취 위치(301, 302)와 오디오 신호(311, 312, 313)의 소스 위치 사이의 거리(321, 322)의 함수로서 상기 거리 이득(410)을 나타내는 거리 함수(415)를 제공하는 단계; 및
- 상기 목적지 거리(322)에 대한 상기 거리 함수(415)의 함수값에 기초하여 상기 기원 오디오 신호에 적용되는 상기 거리 이득(410)을 결정하는 단계를 포함하는, 방법(910).
EE 7)
EE 4 내지 EE 6 중 어느 하나에 있어서,
상기 목적지 오디오 신호를 결정하는 단계(914)는,
- 상기 기원 소스 위치와 상기 기원 청취 위치(301) 사이의 기원 거리(321)를 결정하는 단계; 및
- 상기 기원 거리(321)에 기초하여 상기 목적지 오디오 신호를 결정하는 단계(914)를 포함하는, 방법(910).
EE 8)
EE 6을 인용하는 EE 7에 있어서,
상기 기원 오디오 신호에 적용되는 상기 거리 이득(410)은, 상기 기원 거리(321)에 대한 상기 거리 함수(415)의 함수값에 기초하여 결정되는, 방법(910).
EE 9)
전술한 EE 중 어느 하나에 있어서,
상기 목적지 오디오 신호를 결정하는 단계(914)는, 상기 기원 오디오 신호의 강도에 기초하여 상기 목적지 오디오 신호의 강도를 결정하는 단계를 포함하는, 방법(910).
EE 10)
전술한 EE 중 어느 하나에 있어서,
상기 목적지 오디오 신호를 결정하는 단계(914)는,
- 상기 오디오 소스(311, 312, 313)의 지향성 프로파일(332)을 결정하는 단계 - 상기 지향성 프로파일(332)은 상이한 방향들에서 상기 기원 오디오 신호의 강도를 나타냄 - ; 및
- 상기 지향성 프로파일(332)에 기초하여 상기 목적지 오디오 신호를 결정하는 단계(914)를 포함하는, 방법(910).
EE 11)
EE 10에 있어서,
상기 지향성 프로파일(332)은 상기 목적지 오디오 신호를 결정하기 위해 상기 기원 오디오 신호에 적용되는 지향성 이득(510)을 나타내는, 방법(910).
EE 12)
EE 10 또는 EE 11에 있어서,
- 상기 지향성 프로파일(332)은 지향성 이득 함수(515)를 나타내고; 그리고
- 상기 지향성 이득 함수(515)는, 청취자(181)의 청취 위치(301, 302)와 오디오 소스(311, 312, 313)의 소스 위치 사이의 지향 각도(520)의 함수로서 지향성 이득(510)을 나타내는, 방법(910). 
EE 13)
EE 10 내지 EE 12 중 어느 하나에 있어서,
상기 목적지 오디오 신호를 결정하는 단계(914)는,
- 상기 목적지 소스 위치와 상기 목적지 청취 위치(302) 사이의 목적지 각도(522)를 결정하는 단계; 및
- 상기 목적지 각도(522)에 기초하여 상기 목적지 오디오 신호를 결정하는 단계(914)를 포함하는, 방법(910).
EE 14)
EE 12를 인용하는 EE 13에 있어서,
상기 목적지 오디오 신호는, 상기 목적지 각도(522)에 대한 상기 지향성 이득 함수(515)의 함수값에 기초하여 결정되는, 방법(910).
EE 15)
EE 10 내지 EE 14 중 어느 하나에 있어서,
상기 목적지 오디오 신호를 결정하는 단계(914)는,
- 상기 기원 소스 위치와 상기 기원 청취 위치(301) 사이의 기원 각도(521)를 결정하는 단계; 및
- 상기 기원 각도(521)에 기초하여 상기 목적지 오디오 신호를 결정하는 단계(914)를 포함하는, 방법(910).
EE 16)
EE 12를 인용하는 EE 15에 있어서,
상기 목적지 오디오 신호는, 상기 기원 각도(521)에 대한 상기 지향성 이득 함수(515)의 함수값에 기초하여 결정되는, 방법(910).
EE 17)
EE 16에 있어서,
상기 목적지 오디오 신호를 결정하는 단계(914)는,
상기 목적지 오디오 신호의 강도를 결정하기 위해, 상기 기원 각도(521)에 대한, 그리고 상기 목적지 각도(522)에 대한 상기 지향성 이득 함수(515)의 함수값을 이용하여 상기 기원 오디오 신호의 강도를 변경하는 단계를 포함하는, 방법(910).
EE 18)
전술한 EE 중 어느 하나에 있어서,
상기 목적지 오디오 신호를 결정하는 단계(914)는,
- 상기 목적지 소스 위치와 상기 목적지 청취 위치(302) 사이의 매질의 오디오 전파 특성을 나타내는 목적지 환경 데이터(193)를 결정하는 단계; 및
- 상기 목적지 환경 데이터(193)에 기초하여 상기 목적지 오디오 신호를 결정하는 단계를 포함하는, 방법(910).
EE 19)
EE 18에 있어서,
상기 목적지 환경 데이터(193)는,
- 상기 목적지 소스 위치와 상기 목적지 청취 위치(302) 사이의 직접 경로 상에 위치되는 장애물(603); 및/또는 
- 상기 장애물(603)의 공간적 치수에 관한 정보; 및/또는 
- 상기 목적지 소스 위치와 상기 목적지 청취 위치(302) 사이의 직접 경로 상의 오디오 신호에 의해 발생하는 감쇠를 나타내는, 방법(910).
EE 20)
EE 18 또는 EE 19에 있어서,
- 목적지 환경 데이터(193)는 장애물 감쇠 함수를 나타내고, 그리고
- 상기 감쇠 함수는 상기 목적지 소스 위치와 상기 목적지 청취 위치(302) 사이의 직접 경로 상에서 장애물(603)을 통과하는 오디오 신호에 의해 발생된 감쇠를 나타내는, 방법(910).
EE 21)
EE 18 내지 EE 20 중 어느 하나에 있어서,
- 상기 목적지 환경 데이터(193)는 상기 목적지 소스 위치와 상기 목적지 청취 위치(302) 사이의 직접 경로 상의 장애물(603)을 나타내고; 
- 상기 목적지 오디오 신호를 결정하는 단계(914)는 상기 직접 경로 상의 상기 목적지 소스 위치와 상기 목적지 청취 위치(302) 사이의 통과 거리(601)를 판정하는 단계를 포함하고; 그리고
- 상기 목적지 오디오 신호는 상기 통과 거리(601)에 기초하여 결정되는, 방법(910).
EE 22)
EE 18 내지 EE 21 중 어느 하나에 있어서,
- 상기 목적지 환경 데이터(193)는 상기 목적지 소스 위치와 상기 목적지 청취 위치(302) 사이의 직접 경로 상의 장애물(603)을 나타내고; 
- 상기 목적지 오디오 신호를 결정하는 단계(914)는, 상기 장애물(603)을 가로지르지 않는, 간접 경로 상의 상기 목적지 소스 위치와 상기 목적지 청취 위치(302) 사이의 무 장애물(obstacle-free) 거리(602)를 결정하는 단계를 포함하고; 그리고
- 상기 목적지 오디오 신호는 상기 무 장애물 거리(602)에 기초하여 결정되는, 방법(910).
EE 23)
EE 21을 인용하는 EE 22에 있어서,
상기 목적지 오디오 신호를 결정하는 단계(914)는,
- 상기 간접 경로를 따라 전파되는 상기 기원 오디오 신호에 기초하여 상기 목적지 오디오 신호의 간접 성분을 결정하는 단계; 
- 상기 직접 경로를 따라 전파되는 상기 기원 오디오 신호에 기초하여 상기 목적지 오디오 신호의 직접 성분을 결정하는 단계; 및
- 상기 목적지 오디오 신호를 결정하기 위해 상기 간접 성분과 상기 직접 성분을 결합하는 단계를 포함하는, 방법(910).
EE 24)
전술한 EE 중 어느 하나에 있어서,
상기 목적지 오디오 신호를 결정하는 단계(914)는,
- 뷰(701)의 필드에 대한 포커스 정보 및/또는 상기 청취자(181)의 주목 포커스(attention focus)(702)를 결정하는 단계; 및
- 상기 포커스 정보에 기초하여 상기 목적지 오디오 신호를 결정하는 단계를 포함하는, 방법(910).
EE 25)
전술한 EE 중 어느 하나에 있어서,
- 상기 오디오 소스(311, 312, 313)가 앰비언스(ambience) 오디오 소스인지를 결정하는 단계;
- 상기 목적지 소스 위치로서, 상기 앰비언스 오디오 소스(311, 312, 313)의 상기 기원 소스 위치를 유지하는 단계; 
- 상기 목적지 오디오 신호의 강도로서, 상기 앰비언스 오디오 소스(311, 312, 313)의 상기 기원 오디오 신호의 강도를 유지하는 단계를 더 포함하는, 방법(910).
EE 26)
전술한 EE 중 어느 하나에 있어서,
상기 목적지 오디오 신호를 결정하는 단계(914)는 상기 기원 오디오 신호의 스펙트럼 구성(composition)에 기초하여 상기 목적지 오디오 신호의 스펙트럼 구성을 결정하는 단계를 포함하는, 방법(910).
EE 27)
전술한 EE 중 어느 하나에 있어서,
상기 기원 오디오 신호와 상기 목적지 오디오 신호는 3D 오디오 렌더러(162), 특히 MPEG-H 오디오 렌더러를 사용하여 렌더링되는, 방법(910).
EE 28)
전술한 EE 중 어느 하나에 있어서,
상기 방법(910)은, 
- 상기 기원 구체(114) 상의 복수의 상이한 기원 소스 위치로부터 대응하는 복수의 오디오 소스(311, 312, 313)의 복수의 기원 오디오 신호를 렌더링하는 단계; 
- 각각, 상기 복수의 기원 소스 위치에 기초하여, 상기 목적지 구체(144) 상의 상기 대응하는 복수의 오디오 소스(311, 312, 313)에 대한 복수의 목적지 소스 위치를 결정하는 단계; 
- 각각, 상기 복수의 기원 오디오 신호에 기초하여, 상기 대응하는 복수의 오디오 소스(311, 312, 313)의 복수의 목적지 오디오 신호를 결정하는 단계; 및
- 상기 목적지 청취 위치(302)의 둘레의 상기 목적지 구체(114) 상의 상기 대응하는 복수의 목적지 소스 위치로부터 상기 대응하는 복수의 오디오 소스(311, 312, 313)의 상기 복수의 목적지 오디오 신호를 렌더링하는 단계를 포함하는, 방법(910).
EE 29)
가상 현실 렌더링 환경(180)에서 오디오 신호를 렌더링하기 위한 가상 현실 오디오 렌더러(160)로서, 상기 오디오 렌더러(160)는,
- 청취자(181)의 기원 청취 위치(301) 둘레의 기원 구체(114) 상의 기원 소스 위치로부터 오디오 소스(311, 312, 313)의 기원 오디오 신호를 렌더링하고; 
- 상기 기원 청취 위치(301)로부터 목적지 청취 위치(302)로 상기 청취자(181)가 이동한다고 결정하고; 
- 상기 기원 소스 위치에 기초하여 상기 목적지 청취 위치(302) 둘레의 상기 목적지 구체(114) 상의 상기 오디오 소스(311, 312, 313)의 목적지 소스 위치를 결정하고;
- 상기 기원 오디오 신호에 기초하여 상기 오디오 소스(311, 312, 313)의 목적지 오디오 신호를 결정하고, 그리고
- 상기 목적지 청취 위치(302) 둘레의 상기 목적지 구체(114) 상의 상기 목적지 소스 위치로부터 상기 오디오 소스(311, 312, 313)의 상기 목적지 오디오 신호를 렌더링 하도록 구성된, 오디오 렌더러(160).
EE 30)
EE 29에 있어서,
상기 가상 현실 오디오 렌더러(160)는,
- 상기 오디오 소스(311, 312, 313)의 상기 목적지 오디오 신호 및 상기 목적지 소스 위치를 결정하도록 구성된 전처리 유닛(pre-processing unit)(161); 및
- 상기 오디오 소스(311, 312, 313)의 상기 목적지 오디오 신호를 렌더링하도록 구성된 3차원 오디오 렌더러(162)를 포함하는, 오디오 렌더러(160).
EE 31)
EE 30에 있어서,
상기 3차원 오디오 렌더러(162)는,
- 상기 청취자(181)의 머리의 회전 운동에 따라, 청취자(181)의 청취 위치(301, 302) 둘레의 구체(114) 상의 오디오 소스(311, 312, 313)의 오디오 신호의 렌더링을 적응시키도록 구성되고; 및/또는 
- 상기 청취자(181)의 상기 머리의 병진 운동에 따라, 상기 오디오 소스(311, 312, 313)의 상기 오디오 신호의 렌더링을 적응시키도록 구성되지 않은, 오디오 렌더러(160).
EE 32)
비트스트림(140)을 생성하도록 구성된 오디오 인코더(130)로서, 상기 비트스트림(140)은,
- 적어도 하나의 오디오 소스(311, 312, 313)의 오디오 신호; 
- 렌더링 환경(180) 내에서 상기 적어도 하나의 오디오 소스(311, 312, 313)의 위치; 및 
- 상기 렌더링 환경(180) 내에서 오디오의 오디오 전파 특성을 나타내는 환경 데이터(193)를 나타내는, 오디오 인코더(130).
EE 33)
비트스트림(140)으로서,
- 적어도 하나의 오디오 소스(311, 312, 313)의 오디오 신호; 
- 렌더링 환경(180) 내에서 상기 적어도 하나의 오디오 소스(311, 312, 313)의 위치; 및
- 상기 렌더링 환경(180) 내에서 오디오의 오디오 전파 특성을 나타내는 환경 데이터(193)를 나타내는, 비트스트림(140).
EE 34)
비트스트림(140)을 생성하기 위한 방법(920)으로서, 상기 방법(920)은,
- 적어도 하나의 오디오 소스(311, 312, 313)의 오디오 신호를 결정하는 단계(921); 
- 렌더링 환경(180) 내에서 상기 적어도 하나의 오디오 소스(311, 312, 313)의 위치와 관련한 위치 데이터를 결정하는 단계(922); 
- 상기 렌더링 환경(180) 내에서 오디오의 오디오 전파 특성을 나타내는 환경 데이터(193)를 결정하는 단계(923); 및 
- 상기 비트스트림(140) 내로 상기 오디오 신호, 상기 위치 데이터 및 상기 환경 데이터(193)를 삽입하는 단계(934)를 포함하는, 비트스트림(140)을 생성하기 위한 방법(920).
EE 35)
가상 현실 렌더링 환경(180)에서 오디오 신호를 렌더링하기 위한 가상 현실 오디오 렌더러(160)로서, 상기 오디오 렌더러(160)는,
- 상기 가상 현실 렌더링 환경(180) 내에서 청취자(181)의 청취 위치(301, 302) 둘레의 구체(114) 상의 소스 위치로부터 오디오 소스(311, 312, 313)의 오디오 신호를 렌더링하도록 구성된 3D 오디오 렌더러(162);
- 전처리 유닛(161)으로서,
- 상기 가상 현실 렌더링 환경(180) 내에서 상기 청취자(181)의 새로운 청취 위치(301, 302)를 결정하고, 그리고
- 상기 새로운 청취 위치(301, 302) 둘레의 구체(114)에 관해 상기 오디오 소스(311, 312, 313)의 상기 소스 위치 및 상기 오디오 신호를 업데이트 하도록 구성된, 상기 전처리 유닛(161)을 포함하고,
상기 3D 오디오 렌더러(162)는 상기 새로운 청취 위치(301, 302) 둘레의 상기 구체(114) 상의 상기 업데이트된 소스 위치로부터 상기 오디오 소스(311, 312, 313)의 상기 업데이트된 오디오 신호를 렌더링하도록 구성된, 가상 현실 오디오 렌더러(160).

Claims (1)

  1. 가상 현실 렌더링 환경에서 오디오 신호를 렌더링하기 위한 방법.
KR1020237035748A 2017-12-18 2018-12-18 가상 현실 환경에서 청취 위치 사이의 로컬 전환을 처리하기 위한 방법 및 시스템 KR20230151049A (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201762599848P 2017-12-18 2017-12-18
EP17208087.1 2017-12-18
EP17208087 2017-12-18
US62/599,848 2017-12-18
KR1020207020597A KR102592858B1 (ko) 2017-12-18 2018-12-18 가상 현실 환경에서 청취 위치 사이의 로컬 전환을 처리하기 위한 방법 및 시스템
PCT/EP2018/085639 WO2019121773A1 (en) 2017-12-18 2018-12-18 Method and system for handling local transitions between listening positions in a virtual reality environment

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020207020597A Division KR102592858B1 (ko) 2017-12-18 2018-12-18 가상 현실 환경에서 청취 위치 사이의 로컬 전환을 처리하기 위한 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR20230151049A true KR20230151049A (ko) 2023-10-31

Family

ID=64664311

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020237035748A KR20230151049A (ko) 2017-12-18 2018-12-18 가상 현실 환경에서 청취 위치 사이의 로컬 전환을 처리하기 위한 방법 및 시스템
KR1020207020597A KR102592858B1 (ko) 2017-12-18 2018-12-18 가상 현실 환경에서 청취 위치 사이의 로컬 전환을 처리하기 위한 방법 및 시스템

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020207020597A KR102592858B1 (ko) 2017-12-18 2018-12-18 가상 현실 환경에서 청취 위치 사이의 로컬 전환을 처리하기 위한 방법 및 시스템

Country Status (7)

Country Link
US (3) US11109178B2 (ko)
EP (2) EP3729830B1 (ko)
JP (2) JP7467340B2 (ko)
KR (2) KR20230151049A (ko)
CN (3) CN114125690A (ko)
BR (1) BR112020010819A2 (ko)
WO (1) WO2019121773A1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11356793B2 (en) * 2019-10-01 2022-06-07 Qualcomm Incorporated Controlling rendering of audio data
US20230019535A1 (en) 2019-12-19 2023-01-19 Telefonaktiebolaget Lm Ericsson (Publ) Audio rendering of audio sources
US20230132745A1 (en) * 2020-03-13 2023-05-04 Telefonaktiebolaget Lm Ericsson (Publ) Rendering of audio objects with a complex shape
JP7463796B2 (ja) 2020-03-25 2024-04-09 ヤマハ株式会社 デバイスシステム、音質制御方法および音質制御プログラム
BR112022026636A2 (pt) * 2020-07-09 2023-01-24 Ericsson Telefon Ab L M Método e nó para renderização de áudio espacial de um elemento de áudio que tem uma extensão, programa de computador, e, portadora contendo o programa de computador
GB2599359A (en) * 2020-09-23 2022-04-06 Nokia Technologies Oy Spatial audio rendering
US11750998B2 (en) 2020-09-30 2023-09-05 Qualcomm Incorporated Controlling rendering of audio data
US11750745B2 (en) 2020-11-18 2023-09-05 Kelly Properties, Llc Processing and distribution of audio signals in a multi-party conferencing environment
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications
EP4068076A1 (en) * 2021-03-29 2022-10-05 Nokia Technologies Oy Processing of audio data
US20230093585A1 (en) * 2021-09-21 2023-03-23 Facebook Technologies, Llc Audio system for spatializing virtual sound sources
EP4174637A1 (en) * 2021-10-26 2023-05-03 Koninklijke Philips N.V. Bitstream representing audio in an environment
GB2614254A (en) * 2021-12-22 2023-07-05 Nokia Technologies Oy Apparatus, methods and computer programs for generating spatial audio output

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6317127B1 (en) * 1996-10-16 2001-11-13 Hughes Electronics Corporation Multi-user real-time augmented reality system and method
US20080240448A1 (en) * 2006-10-05 2008-10-02 Telefonaktiebolaget L M Ericsson (Publ) Simulation of Acoustic Obstruction and Occlusion
GB2447096B (en) 2007-03-01 2011-10-12 Sony Comp Entertainment Europe Entertainment device and method
DE102007048973B4 (de) 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8696458B2 (en) 2008-02-15 2014-04-15 Thales Visionix, Inc. Motion tracking system and method using camera and non-camera sensors
US20100110069A1 (en) 2008-10-31 2010-05-06 Sharp Laboratories Of America, Inc. System for rendering virtual see-through scenes
US9591118B2 (en) * 2009-01-01 2017-03-07 Intel Corporation Pose to device mapping
WO2011054876A1 (en) 2009-11-04 2011-05-12 Fraunhofer-Gesellschaft Zur Förderungder Angewandten Forschung E.V. Apparatus and method for calculating driving coefficients for loudspeakers of a loudspeaker arrangement for an audio signal associated with a virtual source
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
WO2012088336A2 (en) * 2010-12-22 2012-06-28 Genaudio, Inc. Audio spatialization and environment simulation
WO2013032955A1 (en) 2011-08-26 2013-03-07 Reincloud Corporation Equipment, systems and methods for navigating through multiple reality models
EP2733964A1 (en) 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Segment-wise adjustment of spatial audio signal to different playback loudspeaker setup
US9838824B2 (en) * 2012-12-27 2017-12-05 Avaya Inc. Social media processing with three-dimensional audio
US20140320392A1 (en) 2013-01-24 2014-10-30 University Of Washington Through Its Center For Commercialization Virtual Fixtures for Improved Performance in Human/Autonomous Manipulation Tasks
CN104019885A (zh) * 2013-02-28 2014-09-03 杜比实验室特许公司 声场分析系统
US10262462B2 (en) * 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
EP2824649A1 (en) * 2013-07-12 2015-01-14 GN Store Nord A/S Audio based learning system comprising a portable terminal connected to an audio unit and plurality of zones
US9143880B2 (en) * 2013-08-23 2015-09-22 Tobii Ab Systems and methods for providing audio to a user based on gaze input
US9684369B2 (en) 2014-04-08 2017-06-20 Eon Reality, Inc. Interactive virtual reality systems and methods
EP3926589A1 (en) 2014-06-03 2021-12-22 Apple Inc. Method and system for presenting a digital information related to a real object
US9473764B2 (en) 2014-06-27 2016-10-18 Microsoft Technology Licensing, Llc Stereoscopic image display
US20160163063A1 (en) 2014-12-04 2016-06-09 Matthew Ashman Mixed-reality visualization and method
US10225676B2 (en) * 2015-02-06 2019-03-05 Dolby Laboratories Licensing Corporation Hybrid, priority-based rendering system and method for adaptive audio
CN105392102B (zh) * 2015-11-30 2017-07-25 武汉大学 用于非球面扬声器阵列的三维音频信号生成方法及系统
WO2017120681A1 (en) 2016-01-15 2017-07-20 Michael Godfrey Method and system for automatically determining a positional three dimensional output of audio information based on a user's orientation within an artificial immersive environment
EP3209036A1 (en) * 2016-02-19 2017-08-23 Thomson Licensing Method, computer readable storage medium, and apparatus for determining a target sound scene at a target position from two or more source sound scenes
CN106097000B (zh) 2016-06-02 2022-07-26 腾讯科技(深圳)有限公司 一种信息处理方法及服务器
EP3472832A4 (en) * 2016-06-17 2020-03-11 DTS, Inc. DISTANCE-BASED PANORAMIC USING NEAR / FAR FIELD RENDERING
CN106454685B (zh) * 2016-11-25 2018-03-27 武汉大学 一种声场重建方法及系统
US20180288558A1 (en) * 2017-03-31 2018-10-04 OrbViu Inc. Methods and systems for generating view adaptive spatial audio
BR112020000779A2 (pt) * 2017-07-14 2020-07-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. aparelho para gerar uma descrição de campo sonoro aprimorada, aparelho para gerar uma descrição de campo sonoro modificada a partir de uma descrição de campo sonoro e metadados com relação às informações espaciais da descrição de campo sonoro, método para gerar uma descrição de campo sonoro aprimorada, método para gerar uma descrição de campo sonoro modificada a partir de uma descrição de campo sonoro e metadados com relação às informações espaciais da descrição de campo sonoro, programa de computador e descrição de campo sonoro aprimorada.

Also Published As

Publication number Publication date
CN114125690A (zh) 2022-03-01
JP7467340B2 (ja) 2024-04-15
EP3729830A1 (en) 2020-10-28
BR112020010819A2 (pt) 2020-11-10
WO2019121773A1 (en) 2019-06-27
CN111615835B (zh) 2021-11-30
KR102592858B1 (ko) 2023-10-24
JP2024023682A (ja) 2024-02-21
US20230362575A1 (en) 2023-11-09
KR20200100729A (ko) 2020-08-26
RU2020119777A3 (ko) 2022-02-22
RU2020119777A (ru) 2021-12-16
CN114125691A (zh) 2022-03-01
US11109178B2 (en) 2021-08-31
US11743672B2 (en) 2023-08-29
US20210092546A1 (en) 2021-03-25
JP2021507558A (ja) 2021-02-22
EP3729830B1 (en) 2023-01-25
EP4203524A1 (en) 2023-06-28
US20220086588A1 (en) 2022-03-17
CN111615835A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
KR102592858B1 (ko) 가상 현실 환경에서 청취 위치 사이의 로컬 전환을 처리하기 위한 방법 및 시스템
KR102616673B1 (ko) 가상 현실 환경에서 청취 위치 사이의 글로벌 전환을 처리하기 위한 방법 및 시스템
RU2759160C2 (ru) УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ
KR101431934B1 (ko) 제 1 파라메트릭 공간 오디오 신호를 제 2 파라메트릭 공간 오디오 신호로 변환하기 위한 장치 및 방법
KR102652670B1 (ko) 다중-층 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
EP3550860B1 (en) Rendering of spatial audio content
RU2777921C2 (ru) Способ и система для обработки локальных переходов между положениями прослушивания в среде виртуальной реальности
US20240155304A1 (en) Method and system for controlling directivity of an audio source in a virtual reality environment
CN116998169A (zh) 在虚拟现实环境中控制音频源的指向性的方法和系统

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal