KR102672164B1 - Mpeg-h 3d 오디오의 3 자유도(3dof+) 확장을 위한 방법, 장치 및 시스템 - Google Patents

Mpeg-h 3d 오디오의 3 자유도(3dof+) 확장을 위한 방법, 장치 및 시스템 Download PDF

Info

Publication number
KR102672164B1
KR102672164B1 KR1020237031623A KR20237031623A KR102672164B1 KR 102672164 B1 KR102672164 B1 KR 102672164B1 KR 1020237031623 A KR1020237031623 A KR 1020237031623A KR 20237031623 A KR20237031623 A KR 20237031623A KR 102672164 B1 KR102672164 B1 KR 102672164B1
Authority
KR
South Korea
Prior art keywords
listener
audio
displacement
head
location
Prior art date
Application number
KR1020237031623A
Other languages
English (en)
Other versions
KR20230136227A (ko
Inventor
크리스토프 페르쉬
레온 테렌티브
다니엘 피셔
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Priority to KR1020247018236A priority Critical patent/KR20240096621A/ko
Publication of KR20230136227A publication Critical patent/KR20230136227A/ko
Application granted granted Critical
Publication of KR102672164B1 publication Critical patent/KR102672164B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

오디오 객체의 객체 위치를 나타내는 위치 정보를 처리하는 방법이 서술되며, 객체 위치는 오디오 객체의 렌더링을 위해 사용 가능하고, 이는: 청취자의 머리의 배향을 나타내는 청취자 배향 정보를 획득하는 것; 청취자의 머리의 변위를 나타내는 청취자 변위 정보를 획득하는 것; 위치 정보로부터 객체 위치를 결정하는 것; 객체 위치에 병진(translation)을 적용함으로써 청취자 변위 정보를 기초로 객체 위치를 수정하는 것; 및 청취자 배향 정보를 기초로 수정된 객체 위치를 더 수정하는 것을 포함한다. 오디오 객체의 객체 위치를 나타내는 위치 정보를 처리하는 대응하는 장치가 더 서술되며, 객체 위치는 오디오 객체의 렌더링을 위해 사용 가능하다.

Description

MPEG-H 3D 오디오의 3 자유도(3DOF+) 확장을 위한 방법, 장치 및 시스템{METHODS, APPARATUS AND SYSTEMS FOR THREE DEGREES OF FREEDOM (3DOF+) EXTENSION OF MPEG-H 3D AUDIO}
연관된 출원에 대한 상호 참조
본 출원은 다음 우선권 출원: 2018년 4월 9일자로 출원된 미국 가출원 62/654,915(참조 D18045USP1), 2018년 7월 9일자로 출원된 미국 가출원 62/695,446(참조 D18045USP2) 및 2019년 3월 25일자로 출원된 미국 가출원 62/823,159(참조 D18045USP3)의 우선권을 주장하며, 이들은 본원에 참조로 통합된다.
기술분야
본 개시는 오디오 객체 위치를 나타내는 위치 정보 및 청취자 머리의 위치 변위(positional displacement)를 나타내는 정보를 처리하기 위한 방법 및 장치에 관한 것이다.
ISO/IEC 23008-3 MPEG-H 3D 오디오 표준의 초판(2015년 10월 15일) 및 개정 1-4는 3 자유도(Three Degrees of Freedom, 3DoF) 환경에서 사용자의 머리의 작은 병진 움직임(translational movement)을 허용하도록 제공되지 않는다.
ISO/IEC 23008-3 MPEG-H 3D 오디오 표준의 초판(2015년 10월 15일) 및 개정 1-4는 사용자(청취자)가 머리-회전 액션을 수행하는 3DoF 환경의 가능성을 위한 기능을 제공한다. 하지만, 이러한 기능은 기껏해야 회전 장면 변위 시그널링(rotational scene displacement signaling) 및 대응하는 렌더링(rendering)만을 지원한다. 이는 오디오 장면이 3DoF 특성에 대응하는 청취자의 머리 배향의 변경 하에 공간적으로 정적으로 유지될 수 있음을 의미한다. 하지만, 현재의 MPEG-H 3D 오디오 생태계 내에서 사용자 머리의 작은 병진 움직임에 대해 고려하는(account) 가능성이 있지 않다.
따라서, 잠재적으로 사용자의 머리의 회전 움직임과 함께 사용자의 머리의 작은 병진 움직임을 고려할 수 있는 오디오 객체의 위치 정보를 처리하기 위한 방법 및 장치에 대한 필요가 있다.
본 개시는 각각의 독립 및 종속 청구항의 특징을 갖는, 위치 정보를 처리하기 위한 장치 및 시스템을 제공한다.
본 개시의 일 양상에 따라, 오디오 객체의 위치를 나타내는 위치 정보를 처리하기 위한 방법이 서술되며, 처리는 MPEG-H 3D 오디오 표준에 따른다. 객체 위치는 오디오 객체의 렌더링을 위해 사용 가능할 수 있다. 오디오 객체는 그의 위치 정보와 함께, 객체-기반 오디오 콘텐츠에 포함될 수 있다. 위치 정보는 오디오 객체에 대한 메타데이터(의 일부)일 수 있다. 오디오 콘텐츠(예를 들어, 오디오 객체와 그의 위치 정보)는 인코딩된 오디오 비트스트림으로 전달될 수 있다. 방법은 오디오 콘텐츠(예를 들어, 인코딩된 오디오 비트스트림)를 수신하는 것을 포함할 수 있다. 방법은 청취자의 머리 배향을 나타내는 청취자 배향 정보를 획득하는 것을 포함할 수 있다. 청취자는 예를 들어, 방법을 수행하는 오디오 디코더의 사용자로 지칭될 수 있다. 청취자의 머리의 배향(청취자 배향)은 명목상의(nominal) 배향에 대한 청취자의 머리의 배향일 수 있다. 방법은 청취자의 머리의 변위를 나타내는 청취자 변위 정보를 획득하는 것을 더 포함할 수 있다. 청취자의 머리의 변위는 명목상의 청취 위치에 대한 변위일 수 있다. 명목상의 청취 위치(또는 명목상의 청취자 위치)는 기본 위치(예를 들어, 미리 결정된 위치, 청취자의 머리에 대해 예상된 위치, 또는 스피커 배열의 스위트 스팟(sweet spot))일 수 있다. 청취자 배향 정보 및 청취자 변위 정보는 MPEG-H 3D 오디오 디코더 입력 인터페이스를 통해 획득될 수 있다. 청취자 배향 정보 및 청취자 변위 정보는 센서 정보를 기초로 도출될 수 있다. 배향 정보 및 위치 정보의 조합은 포즈 정보(pose information)으로 지칭될 수 있다. 방법은 위치 정보로부터 객체 위치를 결정하는 것을 더 포함할 수 있다. 예를 들어, 객체 위치는 위치 정보로부터 추출될 수 있다. 객체 위치의 결정(예를 들어, 추출)은 청취 환경에서 하나 이상의 스피커의 스피커 배열의 기하학적 구조(geometry)에 대한 정보를 더 기초로 할 수 있다. 객체 위치는 또한, 오디오 객체의 채널 위치로서 지칭될 수 있다. 방법은 객체 위치에 병진을 적용함으로써 청취자 변위 정보를 기초로 객체 위치를 수정하는 것을 더 포함할 수 있다. 객체 위치를 수정하는 것은 명목상의 청취 위치로부터 청취자의 머리의 변위에 대해 객체 위치를 조정하는 것(correcting)에 관련될 수 있다. 즉, 객체 위치를 수정하는 것은 객체 위치에 위치 변위 보상을 적용하는 것에 관련될 수 있다. 방법은 예를 들어, 수정된 객체 위치에 회전 변환(예를 들어, 청취자의 머리 또는 명목상의 청취 위치에 대한 회전)을 적용함으로써 청취자 배향 정보를 기초로 수정된 객체 위치를 더 수정하는 것을 추가로 더 포함할 수 있다. 오디오 객체를 렌더링하기 위해 수정된 객체 위치를 더 수정하는 것은 회전 오디오 장면 변위를 수반할 수 있다.
상술한 바와 같이 구성된 제안된 방법은 특히, 청취자의 머리에 가깝게 위치된 오디오 객체에 대해 특히 더욱 사실적인 청취 경험을 제공한다. 3DoF 환경에서 청취자에게 인습적으로 제공되는 3 (회전) 자유도에 추가하여 제안된 방법은 청취자의 머리의 병진 움직임을 또한, 고려할 수 있다. 이는 청취자가 상이한 각도 및 심지어 측면으로부터 가까운 오디오 객체에 접근하는 것을 가능하게 한다. 예를 들어, 청취자는 어쩌면 그의 머리를 회전시키는 것에 부가하여 그의 머리를 약간 움직임으로써, 청취자의 머리에 가까운 "모기" 오디오 객체를 상이한 각도로부터 청취할 수 있다. 결과적으로, 제안된 방법은 청취자에 대해 개선되고 더욱 사실적이며 몰입감이 있는 청취 경험을 가능하게 할 수 있다.
일부 실시예에서, 객체 위치를 수정하는 것 및 수정된 객체 위치를 더 수정하는 것은 더 수정된 객체 위치에 따라 하나 이상의 실제 또는 가상 스피커로 렌더링된 이후에, 오디오 객체가 명목상의 청취 위치로부터의 청취자의 머리의 변위 및 명목상의 배향에 대한 청취자의 머리의 배향에 관계 없이, 청취자에 의해 명목상의 청취 위치에 관련된 고정된 위치로부터 시작하는 것으로 음향 심리학적으로(psychoacoustically) 지각되도록 수행될 수 있다. 따라서, 청취자의 머리가 명목상의 청취 위치로부터 변위를 겪을 때 오디오 객체는 청취자의 머리에 대해 움직이는 것으로 지각될 수 있다. 마찬가지로, 오디오 객체는 청취자의 머리가 명목상의 배향으로부터 배향의 변경을 겪을 때, 청취자의 머리에 대해 회전하는 것으로 지각될 수 있다. 하나 이상의 스피커는 예를 들어, 헤드셋의 일부일 수 있거나, 또는 스피커 배열(예를 들어, 2.1, 5.1, 7.1 등의 스피커 배열)의 일부일 수 있다.
일부 실시예에서, 청취자 변위 정보를 기초로 객체 위치를 수정하는 것은 명목상의 청취 위치로부터 청취자의 머리의 변위 벡터의 크기에 양의 상관 관계가 있고(positively correlates) 방향에 음의 상관 관계가 있는(negatively correlates) 벡터에 의해 객체 위치를 병진시킴으로써 수행될 수 있다.
이에 따라, 가까운 오디오 객체는 청취자에 의해 그의 머리 움직임에 따라 움직일 청취자에 의해 지각됨이 보장된다. 이는 그의 오디오 객체에 대한 더욱 사실적인 청취 경험에 기여한다.
일부 실시예에서, 청취자 변위 정보는 작은 위치 변위에 의한 명목상의 청취 위치로부터의 청취자의 머리의 변위를 나타낼 수 있다. 예를 들어, 변위의 절대 값은 0.5m를 초과하지 않을 수 있다. 변위는 데카르트 좌표(예를 들어, x, y, z) 또는 구면 좌표(예를 들어, 방위각(azimuth), 고도(elevation), 반경(radius))로 표현될 수 있다.
일부 실시예에서, 청취자 변위 정보는 그의 상체 및/또는 머리를 움직이는 청취자에 의해 달성 가능한 명목상의 청취 위치로부터의 청취자의 머리의 변위를 나타낼 수 있다. 따라서, 변위는 청취자가 그의 하체를 움직이지 않으면서 달성할 수 있다. 예를 들어, 청취자가 의자에 앉아있을 때, 청취자의 머리의 변위가 달성 가능할 수 있다.
일부 실시예에서, 위치 정보는 명목상의 청취 위치로부터 오디오 객체의 거리의 표시를 포함할 수 있다. 거리(반경)는 0.5m보다 작을 수 있다. 예를 들어, 거리는 1cm보다 작을 수 있다. 대안적으로, 명목상의 청취 위치로부터 오디오 객체의 거리는 디코더에 의해 기본값으로 설정될 수 있다.
일부 실시예에서, 청취자 배향 정보는 청취자의 머리의 요(yaw), 피치(pitch) 및 롤(roll)에 대한 정보를 포함할 수 있다. 요, 피치, 롤은 청취자의 머리의 명목상의 배향(예를 들어, 기준 배향)에 대하여 주어질 수 있다.
일부 실시예에서, 청취자 변위 정보는 데카르트 좌표 또는 구면 좌표로 표현된 명목상의 청취 위치로부터 청취자의 머리 변위에 대한 정보를 포함할 수 있다. 따라서, 변위는 데카르트 좌표에 대해 x, y, z 좌표로, 그리고 구면 좌표에 대해 방위각, 고도, 반경 좌표로 표현할 수 있다.
일부 실시예에서, 방법은 웨어러블 및/또는 고정 장비에 의해 청취자의 머리의 배향을 검출하는 것을 더 포함할 수 있다. 마찬가지로, 방법은 웨어러블 및/또는 고정 장비에 의해 명목상의 청취 위치로부터 청취자의 머리의 변위를 검출하는 것을 더 포함할 수 있다. 웨어러블 장비는 예를 들어, 헤드셋 또는 증강 현실(augmented reality, AR)/가상 현실(virtual reality, VR) 헤드셋이거나, 이에 대응하거나 및/또는 이를 포함할 수 있다. 고정 장비는 예를 들어, 카메라 센서이거나, 이에 대응하거나 및/또는 이를 포함할 수 있다. 이는 청취자 머리의 변위 및/또는 배향에 대한 정확한 정보를 획득하는 것을 허용하며, 그를 통해 배향 및/또는 변위에 따라 가까운 오디오 객체의 사실적인 처리를 가능하게 한다.
일부 실시예에서, 방법은 더 수정된 객체 위치에 따라 오디오 객체를 하나 이상의 실제 또는 가상 스피커로 렌더링하는 것을 더 포함할 수 있다. 예를 들어, 오디오 객체는 헤드셋의 왼쪽 및 오른쪽 스피커로 렌더링될 수 있다.
일부 실시예에서, 렌더링은 청취자의 머리에 대한 머리 전달 함수(head-related transfer functions, HRTF)를 기초로, 청취자의 머리로부터 오디오 객체의 작은 거리에 대한 음파 폐쇄(sonic occlusion)를 고려하도록 수행될 수 있다. 그에 따라, 가까운 오디오 객체의 렌더링은 청취자에 의해 더욱 사실적으로 인식될 것이다.
일부 실시예에서, 더 수정된 객체 위치는 MPEG-H 3D 오디오 렌더러에 의해 사용되는 입력 포맷으로 조정될 수 있다. 일부 실시예에서, 렌더링은 MPEG-H 3D 오디오 렌더러를 사용하여 수행될 수 있다. 일부 실시예에서, 처리는 MPEG-H 3D 오디오 디코더를 사용하여 수행될 수 있다. 일부 실시예에서, 처리는 MPEG-H 3D 오디오 디코더의 장면 변위 유닛에 의해 수행될 수 있다. 따라서, 제안된 방법은 MPEG-H 3D 오디오 표준의 프레임워크에서 제한된 6 자유도(6DoF) 경험(즉, 3DoF+)을 구현하도록 허용한다.
본 개시의 다른 양상에 따라, 오디오 객체의 객체 위치를 나타내는 위치 정보를 처리하는 추가적인 방법이 서술된다. 객체 위치는 오디오 객체의 렌더링을 위해 사용 가능할 수 있다. 방법은 청취자의 머리의 변위를 나타내는 청취자 변위 정보를 획득하는 것을 포함할 수 있다. 방법은 위치 정보로부터 객체 위치를 결정하는 것을 더 포함할 수 있다. 방법은 객체 위치에 병진을 적용함으로써 청취자 변위 정보를 기초로 객체 위치를 수정하는 것을 추가로 더 포함할 수 있다.
상술한 바와 같이 구성된 제안된 방법은 특히, 청취자의 머리에 가깝게 위치된 오디오 객체에 대해 특히 더욱 사실적인 청취 경험을 제공한다. 청취자의 머리의 작은 병진 움직임을 고려할 수 있는, 제안된 방법은 청취자가 상이한 각도 및 심지어 측면으로부터 가까운 오디오 객체에 접근하는 것을 가능하게 한다. 결과적으로, 제안된 방법은 청취자에 대해 개선되고 더욱 사실적인 몰입감이 있는 청취 경험을 가능하게 할 수 있다.
일부 실시예에서, 청취자 변위 정보를 기초로 객체 위치를 수정하는 것은 수정된 객체 위치에 따라 하나 이상의 실제 또는 가상 스피커로 렌더링된 이후에 오디오 객체가 명목상의 청취 위치로부터 청취자의 머리의 변위에 관계없이, 청취자에 의해 명목상의 청취 위치에 대해 고정된 위치로부터 시작하는 것으로 음향 심리학적으로 지각되도록 수행될 수 있다.
일부 실시예에서, 청취자 변위 정보를 기초로 객체 위치를 수정하는 것은 명목상의 청취 위치로부터 청취자의 머리의 변위 벡터의 크기에 양의 상관 관계가 있고 방향에 음의 상관 관계가 있는 벡터에 의해 객체 위치를 병진시킴으로써 수행될 수 있다.
본 개시의 다른 양상에 따라, 오디오 객체의 객체 위치를 나타내는 위치 정보를 처리하는 추가적인 방법이 서술된다. 객체 위치는 오디오 객체의 렌더링(rendering)을 위해 사용 가능할 수 있다. 방법은 청취자의 머리의 배향을 나타내는 청취자 배향 정보를 획득하는 것을 포함할 수 있다. 방법은 위치 정보로부터 객체 위치를 결정하는 것을 더 포함할 수 있다. 방법은 예를 들어, 객체 위치에 회전 변환(예를 들어, 청취자의 머리 또는 명목상의 청취 위치에 대한 회전)을 적용함으로써 청취자 배향 정보를 기초로 객체 위치를 수정하는 것을 추가로 더 포함할 수 있다.
상술한 바와 같이 구성된 제안된 방법은 청취자에게 더욱 사실적인 청취 경험을 제공하기 위해 청취자의 머리의 배향을 고려할 수 있다.
일부 실시예에서, 청취자 배향 정보를 기초로 객체 위치를 수정하는 것은 수정된 객체 위치에 따라 하나 이상의 실제 또는 가상 스피커로 렌더링된 이후에, 오디오 객체가 명목상의 배향에 대한 청취자의 머리의 배향에 관계없이, 청취자에 의해 명목상의 청취 위치에 대해 고정된 위치로부터 시작하는 것으로 음향 심리학적으로 지각되도록 수행될 수 있다.
본 개시의 다른 양상에 따라, 오디오 객체의 객체 위치를 나타내는 위치 정보를 처리하는 장치가 서술된다. 객체 위치는 오디오 객체의 렌더링(rendering)을 위해 사용 가능할 수 있다. 장치는 프로세서 및 프로세서에 결합된 메모리를 포함할 수 있다. 프로세서는 청취자의 머리의 배향을 나타내는 청취자 배향 정보를 획득하도록 구성될(adapted) 수 있다. 프로세서는 청취자의 머리의 변위를 나타내는 청취자 변위 정보를 획득하도록 더 구성될 수 있다. 프로세서는 위치 정보로부터 객체 위치를 결정하도록 더 구성될 수 있다. 프로세서는 객체 위치에 병진을 적용함으로써 청취자 변위 정보를 기초로 객체 위치를 수정하도록 더 구성될 수 있다. 프로세서는 예를 들어, 수정된 객체 위치에 회전 변환을 적용함으로써(예를 들어, 청취자의 머리 또는 명목상의 청취 위치에 대한 회전) 청취자 배향 정보를 기초로 수정된 객체 위치를 더 수정하도록 더 구성될 수 있다.
일부 실시예에서, 프로세서는 더 수정된 객체 위치에 따라 하나 이상의 실제 또는 가상 스피커로 렌더링된 이후에, 가상 객체는 명목상의 청취 위치로부터 청취자의 위치의 변위 및 명목상의 배향에 대한 청취자의 머리의 배향에 관계 없이, 청취자에 의해 명목상의 청취 위치에 대해 고정된 위치로부터 시작하는 것으로 음향 심리학적으로 지각되도록, 객체 위치를 수정하고 수정된 객체 위치를 수정하도록 더 구성될 수 있다.
일부 실시예에서, 프로세서는 명목상의 청취 위치로부터 청취자의 머리의 변위 벡터의 크기에 양의 상관 관계가 있고 방향에 음의 상관 관계가 있는 벡터에 의해 객체 위치를 병진시킴으로써 청취자 변위 정보를 기초로 객체 위치를 수정하도록 구성될 수 있다.
일부 실시예에서, 청취자 변위 정보는 작은 위치 변위에 의한 명목상의 청취 위치로부터의 청취자의 머리의 변위를 나타낼 수 있다.
일부 실시예에서, 청취자 변위 정보는 그의 상체 및/또는 머리를 움직이는 청취자에 의해 달성 가능한 명목상의 청취 위치로부터 청취자의 머리의 변위를 나타낼 수 있다.
일부 실시예에서, 위치 정보는 명목상의 청취 위치로부터 오디오 객체의 거리의 표시를 포함할 수 있다.
일부 실시예에서, 청취자 배향 정보는 청취자의 머리의 요, 피치 및 롤에 대한 정보를 포함할 수 있다.
일부 실시예에서, 청취자 변위 정보는 데카르트 좌표 또는 구면 좌표로 표현된 명목상의 청취 위치로부터 청취자의 머리 변위에 대한 정보를 포함할 수 있다.
일부 실시예에서, 장치는 청취자의 머리의 배향을 검출하기 위한 웨어러블 및/또는 고정 장비를 더 포함할 수 있다. 일부 실시예에서, 장치는 명목상의 청취 위치로부터 청취자의 머리의 변위를 검출하기 위한 웨어러블 및/또는 고정 장비를 더 포함할 수 있다.
일부 실시예에서, 프로세서는 더 수정된 객체 위치에 따라 오디오 객체를 하나 이상의 실제 또는 가상 스피커로 렌더링하도록 더 구성될 수 있다.
일부 실시예에서, 프로세서는 청취자의 머리에 대한 HRTF를 기초로, 청취자의 머리로부터 오디오 객체의 작은 거리에 대한 음파 폐쇄를 고려하여 렌더링을 수행하도록 구성될 수 있다.
일부 실시예에서, 프로세서는 MPEG-H 3D 오디오 렌더러에 의해 사용되는 입력 포맷으로 더 수정된 객체 위치를 조정하도록 구성될 수 있다. 일부 실시예에서, 렌더링은 MPEG-H 3D 오디오 렌더러를 사용하여 수행될 수 있다. 즉, 프로세서는 MPEG-H 3D 오디오 렌더러를 구현할 수 있다. 일부 실시예에서, 프로세서는 MPEG-H 3D 오디오 디코더를 구현하도록 구성될 수 있다. 일부 실시예에서, 프로세서는 MPEG-H 3D 오디오 디코더의 장면 변위 유닛을 구현하도록 구성될 수 있다.
본 개시의 다른 양상에 따라, 오디오 객체의 객체 위치를 나타내는 위치 정보를 처리하기 위한 추가적인 장치가 서술된다. 객체 위치는 오디오 객체의 렌더링(rendering)을 위해 사용 가능할 수 있다. 장치는 프로세서 및 프로세서에 결합된 메모리를 포함할 수 있다. 프로세서는 청취자의 머리의 변위를 나타내는 청취자 변위 정보를 획득하도록 구성될 수 있다. 프로세서는 위치 정보로부터 객체 위치를 결정하도록 더 구성될 수 있다. 프로세서는 객체 위치에 병진을 적용함으로써 청취자 변위 정보를 기초로 객체 위치를 수정하도록 추가로 더 구성될 수 있다.
일부 실시예에서, 프로세서는 수정된 객체 위치에 따라 하나 이상의 실제 또는 가상 스피커로 렌더링된 이후에 오디오 객체가 명목상의 청취 위치로부터 청취자의 머리의 변위에 관계 없이, 청취자에 의해 명목상의 청취 위치에 대해 고정된 위치로부터 시작하는 것으로 음향 심리학적으로 지각되도록, 청취자 변위 정보를 기초로 객체 위치를 수정하도록 구성될 수 있다.
일부 실시예에서, 프로세서는 명목상의 청취 위치로부터 청취자의 머리의 변위 벡터의 크기에 양의 상관 관계가 있고 방향에 음의 상관 관계가 있는 벡터에 의해 객체 위치를 병진시킴으로써 청취자 변위 정보를 기초로 객체 위치를 수정하도록 구성될 수 있다.
본 개시의 다른 양상에 따라, 오디오 객체의 객체 위치를 나타내는 위치 정보를 처리하기 위한 추가적인 장치가 서술된다. 객체 위치는 오디오 객체의 렌더링을 위해 사용 가능할 수 있다. 장치는 프로세서 및 프로세서에 결합된 메모리를 포함할 수 있다. 프로세서는 청취자의 머리의 배향을 나타내는 청취자 배향 정보를 획득하도록 구성될 수 있다. 프로세서는 위치 정보로부터 객체 위치를 결정하도록 더 구성될 수 있다. 프로세서는 예를 들어, 수정된 객체 위치에 회전 변환(예를 들어, 청취자의 머리 또는 명목상의 청취 위치에 대한 회전)을 적용함으로써 청취자 배향 정보를 기초로 객체 위치를 수정하도록 추가로 더 구성될 수 있다.
일부 실시예에서, 프로세서는 수정된 객체 위치에 따라 하나 이상의 실제 또는 가상 스피커로 렌더링된 이후에 오디오 객체가 명목상의 배향에 대한 청취자의 머리의 배향에 관계없이 청취자에 의해 명목상의 청취 위치에 대해 고정된 위치로부터 시작하는 것으로 음향 심리학적으로 지각되도록, 청취자 배향 정보를 기초로 객체 위치를 수정하도록 구성될 수 있다.
또 다른 양상에 따라, 시스템이 서술된다. 시스템은 위의 양상 중 어느 것에 따른 장치, 및 청취자의 머리의 배향을 검출하고 청취자의 머리의 변위를 검출할 수 있는 웨어러블 및/또는 고정 장비를 포함할 수 있다.
방법 단계 및 장치 특징은 다수의 방식으로 상호 교환될 수 있음이 인식될 것이다. 특히, 개시된 방법의 세부사항은 통상의 기술자가 인식하는 바와 같이 방법의 일부 또는 전체 또는 단계를 실행하도록 구성된 장치로서 구현될 수 있으며, 그 역으로도 그러하다. 특히, 본 개시에 따른 장치가 위의 실시예 및 그의 변형에 따른 방법을 실현하거나 또는 실행하기 위한 장치에 관련될 수 있으며, 방법에 대한 각각의 서술이 대응하는 장치에 유사하게 적용된다는 것이 이해된다. 마찬가지로, 본 개시에 따른 방법은 위의 실시예 및 그의 변형에 따른 장치를 동작시키는 방법에 관련될 수 있으며, 장치에 관한 각각의 서술이 대응하는 방법에 유사하게 적용된다는 것이 이해된다.
본 발명은 첨부 도면을 참조로 아래에서 예시적인 방식으로 설명된다.
도 1은 MPEG-H 3D 오디오 시스템의 예시를 개략적으로 도시하고;
도 2는 본 발명에 따른 MPEG-H 3D 오디오 시스템의 예시를 개략적으로 도시하고;
도 3은 본 발명에 따른 오디오 렌더링 시스템의 예시를 개략적으로 도시하고;
도 4는 데카르트 좌표 축의 예시적인 세트 및 구면 좌표에 대한 그의 관계를 개략적으로 도시하고; 및
도 5는 본 발명에 따른 오디오 객체에 대한 위치 정보를 처리하는 방법의 예시를 개략적으로 도시하는 흐름도이다.
본원에서 사용되는, 3DoF는 통상적으로 세 개의 파라미터(예를 들어, 요, 피치, 롤)로 지정된 사용자의 머리 움직임, 특히 머리 회전을 올바르게 처리할 수 있는 시스템이다. 이러한 시스템은 종종, 가상 현실(VR)/증강 현실(AR)/혼합 현실(Mixed Reality, MR) 시스템과 같은 다양한 게이밍 시스템 또는 이러한 타입의 다른 음향 환경에서 이용 가능하다.
본원에서 사용되는 바와 같이, (예를 들어, 오디오 디코더 또는 오디오 디코더를 포함하는 재생 시스템의) 사용자는 또한, "청취자"로 지칭될 수 있다.
본원에서 사용되는 3DoF+는 3DoF 시스템에서 올바르게 처리될 수 있는 사용자의 머리 움직임에 추가하여, 작은 병진 움직임도 처리될 수 있음을 의미할 것이다.
본원에서 사용된 "작은"은 움직임이 통상적으로 0.5 미터인 임계치 미만으로 제한됨을 나타낼 것이다. 이는 움직임이 사용자의 원래 머리 위치로부터 0.5m보다 크지 않음을 의미한다. 예를 들어, 사용자의 움직임은 의자에 앉아있는 그/그녀에 의해 제한된다.
본원에 사용된 "MPEG-H 3D 오디오"는 ISO/IEC 23008-3에서 표준화된 사양 및/또는 ISO/IEC 23008-3 표준의 임의의 향후 개정, 에디션(edition) 또는 그의 다른 버전을 지칭할 것이다.
MPEG 조직에서 제공된 오디오 표준의 맥락에서 3DoF와 3DoF+ 사이의 차이(distinction)는 다음과 같이 정의할 수 있다:
- 3DoF: 사용자가 (예를 들어, 사용자 머리의) 요, 피치, 롤 움직임을 경험하는 것을 허용한다;
- 3DoF+: 사용자가 예를 들어, 의자에 앉아있는 동안 (예를 들어, 사용자 머리의) 요, 피치, 롤 움직임 및 제한된 병진 움직임을 경험하는 것을 허용한다.
제한된(작은) 머리 병진 움직임은 특정 움직임 반경으로 제한되는 움직임일 수 있다. 예를 들어, 사용자가 예를 들어, 하체의 사용 없이, 앉은 위치에 있기 때문에 움직임이 제한될 수 있다. 작은 머리 병진 움직임은 명목상의 청취 위치에 대한 사용자의 머리의 변위에 관련되거나 또는 이에 대응할 수 있다. 명목상의 청취 위치(또는 명목상의 청취자 위치)는 (예를 들어, 미리 결정된 위치, 청취자의 머리에 대한 예상 위치, 또는 스피커 배열의 스위트 스팟과 같은) 기본 위치일 수 있다.
3DoF+ 경험은 제한된 6DoF 경험에 비교 가능할 수 있으며, 병진은 제한되거나 또는 작은 머리 움직임으로 서술될 수 있다. 일 예시에서, 오디오는 또한, 가능한 음파 폐쇄를 포함하는, 사용자의 머리 위치 및 배향을 기초로 렌더링된다. 렌더링은 예를 들어, 청취자의 머리에 대한 머리 전달 함수(HRTF)를 기초로, 청취자의 머리로부터 오디오 객체의 작은 거리에 대한 음파 폐쇄를 고려하도록 수행될 수 있다.
MPEG-H 3D 오디오 표준에 의해 제시된 기능과 호환 가능한 방법, 시스템, 장치 및 다른 장치에 관련하여, 이는 3DoF+가 (예를 들어, MPEG-I의 향후 버전에서 표준화된) 전방향 미디어 포맷(Omnidirectional Media Format)의 향후 버전과 같이, MPEG 표준의 임의의 향후 버전(들), 및/또는 MPEG-H 오디오에 대한 임의의 업데이트(예를 들어, MPEG-H 3D 오디오 표준을 기초로 하는 개정 또는 더욱 새로운 표준) 또는 업데이트를 요구할 수 있는 임의의 다른 관련된 또는 지원 표준(예를 들어, 특정 타입의 메타데이터 및 SEI 메시지를 지정하는 표준)에서 가능함을 의미할 수 있다.
예를 들어, MPEG-H 3D 오디오 사양에 제시된 오디오 표준에 규범적인(normative) 오디오 렌더러는 예를 들어, 사용자가 그의 머리를 약간 옆으로 움직일 때, 오디오 장면과의 사용자 상호작용을 정확하게 고려하기 위해 오디오 장면의 렌더링을 포함하도록 확장될 수 있다.
본 발명은 3DoF+ 사용-사례를 처리할 수 있는 MPEG-H 3D 오디오를 제공하는 장점을 포함하여 다양한 기술적 장점을 제공한다. 본 발명은 3DoF+ 기능을 지원하기 위해 MPEG-H 3D 오디오 표준을 확장한다.
3DoF+ 기능을 지원하기 위해, 오디오 렌더링 시스템은 사용자/청취자의 머리의 제한된/작은 위치 변위를 고려해야 한다. 위치 변위는 초기 위치(즉, 기본 위치/명목상의 청취 위치)로부터의 상대적인 오프셋을 기초로 결정되어야 한다. 일 예시에서, 이 오프셋(예를 들어, roffset = ||P0-P1|| - 여기서, P0은 명목상의 청취 위치이고 P1은 청취자의 머리의 변위된 위치임 - 를 기초로 결정될 수 있는 반경의 오프셋)의 크기는 최대 약 0.5m이다. 다른 예시에서, 오프셋의 크기는 사용자가 의자에 앉아 있고 하체 움직임을 수행하지 않는 동안에만(하지만 그의 머리는 그의 몸에 대해 움직임) 달성 가능한 오프셋으로 제한된다. 이 (작은) 오프셋 거리는 먼 오디오 객체에 대해 매우 낮은 (지각) 레벨 및 패닝 차이(panning difference)를 초래한다. 하지만, 가까운 객체에 대해, 심지어 이러한 작은 오프셋 거리도 지각적으로 관련될 수 있다. 게다가, 청취자의 머리 움직임은 올바른 오디오 객체 로컬리제이션(localization)의 위치가 있는 곳을 지각하는 것에 대해 지각 효과를 가져올 수 있다. 이 지각 효과는 (i) 사용자의 머리 변위(예를 들어, roffset=||P0-P1||))와 오디오 객체에 대한 거리(예를 들어, r) 사이의 비율이 소리 방향을 검출하기 위해 사용자의 음향 심리학적 능력의 범위에 있는 각도를 삼각법에 의해(trigonometrically) 초래하는 한, 유의미하게 유지될 수 있다(즉, 사용자/청취자에 의해 지각적으로 주목할 만할 수 있다). 이러한 범위는 상이한 오디오 렌더러 설정, 오디오 자료 및 재생 구성에 따라 다를 수 있다. 예를 들어, 로컬리제이션 정확도 범위가 예를 들어, +/- 3°이고 청취자의 머리의 좌우 움직임 자유도가 +/- 0.25m라고 가정하면, 이는 ~5m의 객체 거리에 대응할 것이다.
청취자에게 가까운 객체(예를 들어, 사용자로부터 < 1m의 거리에 있는 객체)에 대해, 패닝 및 레벨 변경 양자 동안 상당한 지각 효과가 있으므로, 청취자의 머리 위치 변위의 적절한 처리가 3DoF+ 시나리오에 대해 중요하다.
청취자에 가까운 객체를 처리하는 것의 일 예시는 예를 들어, 오디오 객체(예를 들어, 모기)가 청취자의 얼굴에 매우 가깝게 위치되는 경우이다. VR/AR/MR 능력을 제공하는 오디오 시스템과 같은 오디오 시스템은 심지어 사용자가 작은 병진 머리 움직임을 겪고 있는 동안에도, 모든 측면 및 각도로부터 이 오디오 객체를 지각하는 것을 허용해야 한다. 예를 들어, 심지어 사용자가 그의 하체를 움직이지 않으면서 그의 머리를 움직이는 동안에도, 사용자는 객체(예를 들어, 모기)를 정확하게 지각할 수 있어야 한다.
하지만, 현재 MPEG-H 3D 오디오 사양과 호환 가능한 시스템은 이를 현재 올바르게 처리할 수 없다. 대신에, MPEG-H 3D 오디오 시스템과 호환 가능한 시스템을 사용하는 것은 "모기"가 사용자에 대해 잘못된 위치로부터 지각되는 것을 초래한다. 3DoF+ 성능을 수반하는 시나리오에서, 작은 병진 움직임은 오디오 객체의 지각에 상당한 차이를 초래해야 한다(예를 들어, 그의 머리를 왼쪽으로 움직일 때 "모기" 오디오 객체는 사용자의 머리에 대해 오른쪽으로부터 지각 등이 되어야 한다).
MPEG-H 3D 오디오 표준은 비트스트림 신택스(bitstream syntax)를 통해, 예를 들어, object_metadata()-syntax 요소(0.5m부터 시작함)를 통해 객체 거리 정보의 시그널링(signaling)을 허용하는 비트스트림 신택스를 포함한다.
신택스 요소 prodMetadataConfig()가 MPEG-H 3D 오디오 표준에 의해 제공되는 비트스트림에 도입될 수 있으며, 이는 객체 거리가 청취자에 매우 가깝다는 것을 시그널링하는 데 사용될 수 있다. 예를 들어, 신택스 prodMetadataConfig()는 사용자와 객체 사이의 거리가 특정 임계 거리보다 작다는 것을 시그널링할 수 있다(예를 들어, <1cm).
도 1도 2는 헤드폰 렌더링을 기초로 하는 본 발명을 도시한다(즉, 스피커가 청취자의 머리와 함께 움직임).
도 1은 MPEG-H 3D 오디오 시스템을 준수하는 시스템 동작(system behavior, 100)의 예시를 도시한다. 이 예시는 청취자의 머리가 시간 t0에서 위치 P0(103)에 위치되고 시간 t1> t0에서 위치 P1(104)로 움직이는 것으로 가정한다. 위치 P0 및 P1 주위의 점선 원은 허용 가능한 3DoF+ 움직임 영역(예를 들어, 반경 0.5m)을 나타낸다. 위치 A(101)는 시그널링된 객체 위치를 나타낸다(시간 t0 및 시간 t1에서, 즉 시그널링된 객체 위치는 시간이 지남에 따라 일정한 것으로 가정된다). 위치 A는 또한, 시간 t0에서 MPEG-H 3D 오디오 렌더러에 의해 렌더링된 객체 위치를 나타낸다. 위치 B(102)는 시간 t1에서 MPEG-H 3D 오디오에 의해 렌더링된 객체 위치를 나타낸다. 위치 P0 및 P1으로부터 위쪽으로 연장되는 수직선은 시간 t0 및 t1에서 청취자의 머리의 각각의 배향(예를 들어, 보는 방향)을 나타낸다. 위치 P0과 위치 P1 사이에서 사용자의 머리의 변위는 roffset=||P0-P1||(106)으로 나타날 수 있다. 청취자가 시간 t0에서 기본 위치(명목상의 청취 위치) P0(103)에 위치되면, 그/그녀는 올바른 위치 A(101)에서 오디오 객체(예를 들어, 모기)를 지각할 것이다. 사용자가 시간 t1에 위치 P1(104)로 움직일 경우, 도시된 오차 δAB(105)를 도입하는, 현재 표준화된 것으로서 MPEG-H 3D 오디오 처리가 적용되면 그/그녀는 위치 B(102)에서 오디오 객체를 지각할 것이다. 즉, 청취자의 머리 움직임에도 불구하고, 오디오 객체(예를 들어, 모기)는 청취자의 머리 바로 앞에 위치된 것으로(즉, 청취자의 머리와 실질적으로 함께 움직이는 것으로) 여전히 지각될 것이다. 특히, 도입된 오차 δAB(105)는 청취자의 머리의 배향에 관계없이 발생한다.
도 2는 본 발명에 따른 MPEG-H 3D 오디오의 시스템(200)에 대한 시스템 동작의 예시를 도시한다. 도 2에서, 청취자의 머리는 시간 t0에 위치 P0(203)에 위치되고, 시간 t1> t0에 위치 P1(204)로 움직인다. 위치 P0 및 P1 주변의 점선 원은 다시 허용 가능한 3DoF+ 움직임 영역(예를 들어, 반경 0.5m)을 나타낸다. 201에서, 위치 A = B는 시그널링된 객체 위치(시간 t0 및 시간 t1에서, 즉 시그널링된 객체 위치가 시간이 지남에 따라 일정한 것으로 가정됨)를 의미하는 것이 나타난다. 위치 A = B(201)은 또한, 시간 t0 및 시간 t1에서 MPEG-H 3D 오디오에 의해 렌더링되는 객체의 위치를 나타낸다. 위치 P0(203) 및 P1(204)로부터 위쪽으로 연장되는 수직 화살표는 시간 t0 및 시간 t1에서 청취자의 머리의 각각의 배향(예를 들어, 보는 방향)을 나타낸다. 청취자가 시간 t0에서 초기/기본 위치(명목상의 청취 위치) P0(203)에 위치되면, 그/그녀는 올바른 위치 A(201)에서 오디오 객체(예를 들어, 모기)를 지각할 것이다. 사용자가 시간 t1에서 위치 P1(203)로 움직일 경우, 그는 본 발명 하에 위치 A(201)에 유사한(예를 들어, 실질적으로 동일한) 위치 B(201)에 있는 오디오 객체를 여전히 지각할 것이다. 따라서, 본 발명은 동일한(공간적으로 고정된) 위치(예를 들어, 위치 A = B(201) 등)에서 소리를 여전히 지각하면서, 사용자의 위치가 시간이 지남에 따라 (예를 들어, 위치 P0(203)에서 위치 P1(204)로) 변경되는 것을 허용한다. 다시 말해, 오디오 객체(예를 들어, 모기)는 청취자의 머리 움직임에 따라 (예를 들어, 이와 음의 상관 관계가 있는) 청취자의 머리에 대해 움직인다. 이는 사용자가 오디오 객체(예를 들어, 모기) 주위를 움직이고 다른 각도 또는 심지어 측면으로부터 오디오 객체를 지각할 수 있게 한다. 위치 P0과 위치 P1 사이의 사용자 머리의 변위는 roffset=||P0-P1||(206)에 의해 나타날 수 있다.
도 3은 본 발명에 따른 오디오 렌더링 시스템(300)의 예시를 도시한다. 오디오 렌더링 시스템(300)은 예를 들어, MPEG-H 3D 오디오 디코더와 같은 디코더에 대응하거나 또는 이를 포함할 수 있다. 오디오 렌더링 시스템(300)은 대응하는 오디오 장면 변위 처리 인터페이스(예를 들어, MPEG-H 3D 오디오 표준에 따른 장면 변위 데이터를 위한 인터페이스)를 갖는 오디오 장면 변위 유닛(310)을 포함할 수 있다. 오디오 장면 변위 유닛(310)은 각각의 오디오 객체를 렌더링하기 위한 객체 위치(321)를 출력할 수 있다. 예를 들어, 장면 변위 유닛은 각각의 오디오 객체를 렌더링하기 위한 객체 위치 메타데이터를 출력할 수 있다.
오디오 렌더링 시스템(300)은 오디오 객체 렌더러(320)를 더 포함할 수 있다. 예를 들어, 렌더러는 하드웨어, 소프트웨어 및/또는 소프트웨어 개발 플랫폼, 서버, 저장소 및 소프트웨어와 같은 다양한 서비스를 포함하는 클라우드 컴퓨팅 - 종종, MPEG-H 3D 오디오 표준에 의해 제시된 사양과 호환 가능한 "클라우드"로 지칭됨 -을 통해 수행되는 임의의 부분적인 또는 전체 처리로 구성될 수 있다. 오디오 객체 렌더러(320)는 각각의 객체 위치에 따라 하나 이상의 (실제 또는 가상) 스피커로 오디오 객체를 렌더링할 수 있다(이들 객체 위치는 아래에서 서술되는 수정되거나 더 수정된 객체 위치일 수 있다). 오디오 객체 렌더러(320)는 오디오 객체를 헤드폰 및/또는 확성기로 렌더링할 수 있다. 즉, 오디오 객체 렌더러(320)는 주어진 재생 포맷에 따라 객체 파형을 생성할 수 있다. 이를 위해, 오디오 객체 렌더러(320)는 압축된 객체 메타데이터를 활용할 수 있다. 각 객체는 그의 객체 위치(예를 들어, 수정된 객체 위치 또는 더 수정된 객체 위치)에 따라 특정한 출력 채널로 렌더링될 수 있다. 그러므로, 객체 위치는 또한, 그의 오디오 객체의 채널 위치로 지칭될 수 있다. 오디오 객체 위치(321)는 장면 변위 유닛(310)에 의해 출력되는 객체 위치 메타데이터 또는 장면 변위 메타데이터에 포함될 수 있다.
본 발명의 처리는 MPEG-H 3D 오디오 표준을 준수할 수 있다. 이와 같이, 이는 MPEG-H 3D 오디오 디코더에 의해, 또는 더욱 구체적으로 MPEG-H 장면 변위 유닛 및/또는 MPEG-H 3D 오디오 렌더러에 의해 수행될 수 있다. 따라서, 도 3의 오디오 렌더링 시스템(300)은 MPEG-H 3D 오디오 디코더(즉, MPEG-H 3D 오디오 표준에 의해 제시된 사양을 준수하는 디코더)에 대응하거나 또는 이를 포함할 수 있다. 일 예시에서, 오디오 렌더링 시스템(300)은 프로세서 및 프로세서에 결합된 메모리를 포함하는 장치일 수 있으며, 프로세서는 MPEG-H 3D 오디오 디코더를 구현하도록 구성된다. 특히, 프로세서는 MPEG-H 장면 변위 유닛 및/또는 MPEG-H 3D 오디오 렌더러를 구현하도록 구성될 수 있다. 따라서, 프로세서는 본 개시에서 서술된 처리 단계(예를 들어, 도 5를 참조하여 아래에서 서술된 방법(500)의 단계 S510 내지 S560)를 수행하도록 구성될 수 있다. 다른 예시에서, 처리 또는 오디오 렌더링 시스템(300)은 클라우드에서 수행될 수 있다.
오디오 렌더링 시스템(300)은 청취 로케이션 데이터(301)를 획득(예를 들어, 수신)할 수 있다. 오디오 렌더링 시스템(300)은 MPEG-H 3D 오디오 디코더 입력 인터페이스를 통해 청취 로케이션 데이터(301)를 획득할 수 있다.
청취 로케이션 데이터(301)는 청취자의 머리의 배향 및/또는 위치(예를 들어, 변위)를 나타낼 수 있다. 따라서, (포즈 정보로도 지칭될 수 있는) 청취 로케이션 데이터(301)는 청취자 배향 정보 및/또는 청취자 변위 정보를 포함할 수 있다.
청취자 변위 정보는 (예를 들어, 명목상의 청취 위치로부터) 청취자의 머리의 변위를 나타낼 수 있다. 청취자 변위 정보는 도 2에 도시된 바와 같이, 명목상의 청취 위치로부터 청취자의 머리의 변위의 크기의 표시, roffset = ||P0-P1||(206)에 대응하거나 또는 이를 포함할 수 있다. 본 발명의 맥락에서, 청취자 변위 정보는 명목상의 청취 위치로부터 청취자의 머리의 작은 위치 변위를 나타낸다. 예를 들어, 변위의 절대 값은 0.5m를 초과하지 않을 수 있다. 통상적으로, 이는 청취자가 그의 상체 및/또는 머리를 움직임으로써 달성 가능한 명목상의 청취 위치로부터 청취자의 머리의 변위이다. 즉, 변위는 청취자가 그의 하체를 움직이는 것 없이 달성 가능할 수 있다. 예를 들어, 위에 나타난 바와 같이, 청취자가 의자에 앉아있을 때 청취자의 머리의 변위가 달성 가능할 수 있다. 변위는 예를 들어, 데카르트 좌표(예를 들어, x, y, z에 대해) 또는 구면 좌표(예를 들어, 방위각, 고도, 반경에 대해)와 같은 다양한 좌표 시스템으로 표현될 수 있다. 청취자의 머리의 변위를 표현하기 위한 대안적인 좌표 시스템도 가능하며, 본 개시에 의해 포함되는 것으로 이해되어야 한다.
청취자 배향 정보는 청취자의 머리의 배향(예를 들어, 청취자의 머리의 명목상의 배향/기준 배향에 대한 청취자의 머리의 배향)을 나타낼 수 있다. 예를 들어, 청취자 배향 정보는 청취자의 머리의 요, 피치 및 롤에 대한 정보를 포함할 수 있다. 여기서, 요, 피치 및 롤은 명목상의 배향에 대해 주어질 수 있다.
청취 로케이션 데이터(301)는 사용자의 병진 움직임에 관한 정보를 제공할 수 있는 수신기로부터 계속 수집될 수 있다. 예를 들어, 특정 시간 인스턴스(instance in time)에 사용되는 청취 로케이션 데이터(301)는 최근 수신기로부터 수집되었을 수 있다. 청취 로케이션 데이터는 센서 정보를 기초로 도출/수집/생성될 수 있다. 예를 들어, 청취 로케이션 데이터(301)는 적절한 센서를 갖는 웨어러블 및/또는 고정 장비에 의해 도출/수집/생성될 수 있다. 즉, 청취자의 머리의 배향은 웨어러블 및/또는 고정 장비에 의해 검출될 수 있다. 마찬가지로, (예를 들어, 명목상의 청취 위치로부터) 청취자의 머리의 변위는 웨어러블 및/또는 고정 장비에 의해 검출될 수 있다. 웨어러블 장비는 예를 들어, 헤드셋(예를 들어, AR/VR 헤드셋)이거나, 이에 대응하거나 및/또는 이를 포함할 수 있다. 고정 장비는 예를 들어, 카메라 센서이거나, 이에 대응하거나 및/또는 이를 포함할 수 있다. 고정 장비는 예를 들어, TV 세트 또는 셋톱 박스에 포함될 수 있다. 일부 실시예에서, 청취 로케이션 데이터(301)는 센서 정보를 획득(예를 들어, 수신)할 수 있는 오디오 인코더(예를 들어, MPEG-H 3D 오디오 준수 인코더)로부터 수신될 수 있다.
일 예시에서, 청취 로케이션 데이터(301)를 검출하기 위한 웨어러블 및/또는 고정 장비는 머리 위치 추정/검출 및/또는 머리 배향 추정/검출을 지원하는 추적 디바이스로 지칭될 수 있다. (예를 들어, 얼굴 인식 및 추적 "FaceTrackNoIR", "opentrack"을 기초로 하는) 컴퓨터 또는 스마트 폰 카메라를 정확하게 사용하여 사용자의 머리 움직임을 추적하는 것을 허용하는 다양한 솔루션이 있다. 또한, 수개의 헤드-마운트 디스플레이(Head-Mounted Display, HMD) 가상 현실 시스템(예를 들어, HTC VIVE, Oculus Rift)은 통합 머리 추적 기술을 갖는다. 이들 솔루션 중 임의의 것이 본 개시의 맥락에서 사용될 수 있다.
물리 세계에서 머리 변위 거리가 청취 로케이션 데이터(301)에 의해 나타난 변위에 일대일 대응하지 않아도 될 것이라는 것을 유의하는 것이 또한, 중요하다. 초현실적인 효과(예를 들어, 과도하게 증폭된 사용자 모션 시차 효과)를 달성하기 위해, 특정 애플리케이션은 상이한 센서 교정 설정을 사용하거나, 또는 실제 및 가상 공간에서의 모션 사이에 상이한 매핑을 지정할 수 있다. 그러므로, 작은 물리적 움직임이 일부 사용 사례에서 가상 현실에서 더욱 큰 변위를 초래할 것임이 예상될 수 있다. 임의의 사례에서, 물리적 세계와 가상 현실에서의 변위(즉, 청취 로케이션 데이터(301)에 의해 나타난 변위)의 크기는 양의 상관 관계가 있는 것으로 언급될 수 있다. 마찬가지로, 물리적 세계 및 가상 현실에서 변위의 방향은 양의 상관 관계가 있다.
오디오 렌더링 시스템(300)은 (객체) 위치 정보(예를 들어, 객체 위치 데이터)(302) 및 오디오 데이터(322)를 더 수신할 수 있다. 오디오 데이터(322)는 하나 이상의 오디오 객체를 포함할 수 있다. 위치 정보(302)는 오디오 데이터(322)에 대한 메타데이터의 일부일 수 있다. 위치 정보(302)는 하나 이상의 오디오 객체의 각각의 객체 위치를 나타낼 수 있다. 예를 들어, 위치 정보(302)는 사용자/청취자의 명목상의 청취 위치에 대한 각각의 오디오 객체의 거리의 표시를 포함할 수 있다. 거리(반경)는 0.5m보다 작을 수 있다. 예를 들어, 거리는 1cm보다 작을 수 있다. 위치 정보(302)가 명목상의 청취 위치로부터 주어진 오디오 객체의 거리의 표시를 포함하지 않는 경우, 오디오 렌더링 시스템은 명목상의 청취 위치로부터 이 오디오 객체의 거리를 기본값으로 설정할 수 있다(예를 들어, 1m). 위치 정보(302)는 각각의 오디오 객체의 고도 및/또는 방위각의 표시를 더 포함할 수 있다.
각 객체 위치는 그의 대응하는 오디오 객체를 렌더링하는 데 사용 가능할 수 있다. 따라서, 위치 정보(302) 및 오디오 데이터(322)는 객체 기반 오디오 콘텐츠에 포함되거나 또는 이를 형성할 수 있다. 오디오 콘텐츠(예를 들어, 오디오 객체/오디오 데이터(322)와 그의 위치 정보(302))는 인코딩된 오디오 비트스트림으로 전달될 수 있다. 예를 들어, 오디오 콘텐츠는 네트워크를 통한 송신으로부터 수신된 비트스트림의 포맷일 수 있다. 이 경우, 오디오 렌더링 시스템은 (예를 들어, 인코딩된 오디오 비트스트림으로부터) 오디오 콘텐츠를 수신하는 것으로 언급될 수 있다.
본 발명의 일 예시에서, 메타데이터 파라미터는 3DoF 및 3DoF+에 대한 하위-호환성 향상(backwards-compatible enhancement)으로 사용 사례의 처리를 조정하는 데 사용될 수 있다. 메타데이터는 청취자 배향 정보에 부가하여, 청취자 변위 정보를 포함할 수 있다. 이러한 메타데이터 파라미터는 도 2 및 도 3에 도시된 시스템뿐만 아니라, 본 발명의 임의의 다른 실시예에 의해 활용될 수 있다.
하위-호환성 향상은 규범적인 MPEG-H 3D 오디오 장면 변위 인터페이스를 기초로 사용 사례(예를 들어, 본 발명의 구현)의 처리를 조정하는 것을 허용할 수 있다. 이는 레거시(legacy) MPEG-H 3D 오디오 디코더/렌더러가 올바르지 않더라도 여전히 출력을 생성할 것이라는 것을 의미한다. 하지만, 본 발명에 따른 향상된 MPEG-H 3D 오디오 디코더/렌더러는 확장 데이터(예를 들어, 확장 메타데이터) 및 처리를 올바르게 적용할 것이며, 그러므로 올바른 방식으로 청취자에 가깝게 위치한 객체의 시나리오를 처리할 수 있다.
일 예시에서, 본 발명은 사용자의 머리의 작은 병진 움직임에 대한 데이터를 아래에서 개략적으로 서술된 것과 상이한 포맷으로 제공하는 것에 관련되며, 그에 따라 공식이 구성될 수 있다. 예를 들어, 데이터는 방위각, 고도 및 반경(구면 좌표계) 대신 x, y, z 좌표(데카르트 좌표계)와 같은 포맷으로 제공될 수 있다. 서로에 대한 이들 좌표계의 예시가 도 4에 도시된다.
일 예시에서, 본 발명은 청취자의 머리 병진 움직임을 입력하기 위한 메타데이터(예를 들어, 도 3에 도시된 청취 로케이션 데이터(301)에 포함된 청취자 변위 정보)를 제공하는 것에 관련된다. 메타데이터는 예를 들어, 장면 변위 데이터에 대한 인터페이스를 위해 사용될 수 있다. 메타데이터(예를 들어, 청취자 변위 정보)는 3DoF+ 또는 6DoF 추적을 지원하는 추적 디바이스의 전개에 의해 획득될 수 있다.
일 예시에서, 메타데이터(예를 들어, 청취자 변위 정보, 특히 청취자 머리의 변위, 또는 동등하게, 장면 변위)는 청취자 머리 변위(또는 장면 변위)의 방위각, 고도 및 반경(구면 좌표)에 관련된 다음의 세 개의 파라미터 sd_azimuth, sd_elevationsd_radius에 의해 표현될 수 있다.
이들 파라미터에 대한 신택스는 다음의 테이블에 의해 주어진다.
테이블 264b mpegh3daPositionalSceneDisplacementData()의 신택스
다른 예시에서, 메타데이터(예를 들어, 청취자 변위 정보)는 데카르트 좌표에서 다음의 세 개의 파라미터 sd_x, sd_ysd_z로 나타날 수 있으며, 이는 구면 좌표로부터 데카르트 좌표로의 데이터 처리를 감소시킬 것이다. 메타데이터는 다음의 신택스를 기초로 할 수 있다:
전술한 바와 같이, 위의 신택스 또는 신택스 그의 등가물은 x, y, z 축 주위의 회전에 관련된 정보를 시그널링할 수 있다.
본 발명의 일 예시에서, 채널 및 객체에 대한 장면 변위 각도의 처리는 사용자의 머리의 위치 변경을 고려하는 방정식을 확장함으로써 향상될 수 있다. 즉, 객체 위치의 처리는 청취자 변위 정보를 고려할 수 있다(예를 들어, 이에 적어도 부분적으로 기초할 수 있다).
오디오 객체의 객체 위치를 나타내는 위치 정보를 처리하는 방법(500)의 예시가 도 5의 흐름도에 도시된다. 이 방법은 MPEG-H 3D 오디오 디코더와 같은 디코더에 의해 수행될 수 있다. 도 3의 오디오 렌더링 시스템(300)은 이러한 디코더의 예시로서 있을 수 있다.
제1 단계(도 5에 도시되지 않음)로서, 오디오 객체 및 대응하는 위치 정보를 포함하는 오디오 콘텐츠가 예를 들어, 인코딩된 오디오의 비트스트림으로부터 수신된다. 그 후, 방법은 오디오 객체 및 위치 정보를 획득하기 위해 인코딩된 오디오 콘텐츠를 디코딩하는 것을 더 포함할 수 있다.
단계 S510에서, 청취자 배향 정보가 획득된다(예를 들어, 수신된다). 청취자 배향 정보는 청취자의 머리의 배향을 나타낼 수 있다.
단계 S520에서, 청취자 변위 정보가 획득된다(예를 들어, 수신된다). 청취자 변위 정보는 청취자의 머리의 변위를 나타낼 수 있다.
단계 S530에서, 객체 위치는 위치 정보로부터 결정된다. 예를 들어, 위치 정보로부터 (예를 들어, 방위각, 고도, 반경, 또는 x, y, z 또는 그의 등가물에 대해) 객체 위치가 추출될 수 있다. 객체 위치의 결정은 또한, 청취 환경에서 하나 이상의 (실제 또는 가상) 스피커의 스피커 배열의 기하학적 구조에 대한 정보에 적어도 부분적으로 기초할 수 있다. 반경이 그 오디오 객체에 대한 위치 정보에 포함되지 않은 경우 디코더는 반경을 기본값으로 설정할 수 있다(예를 들어, 1m). 일부 실시예에서, 기본 값은 스피커 배열의 기하학적 구조에 의존할 수 있다.
특히, 단계 S510, S520 및 S520은 임의의 순서로 수행될 수 있다.
단계 S540에서, 단계 S530에서 결정된 객체 위치는 청취자 변위 정보를 기초로 수정된다. 이는 변위 정보에 따라(예를 들어, 청취자의 머리의 변위에 따라) 객체 위치에 병진을 적용함으로써 이루어질 수 있다. 따라서, 객체 위치를 수정하는 것은 청취자의 머리의 변위(예를 들어, 명목상의 청취 위치로부터의 변위)에 대한 객체 위치를 조정하는 것에 관련된 것으로 언급될 수 있다. 특히, 청취자 변위 정보를 기초로 객체 위치를 수정하는 것은 명목상의 청취 위치로부터 청취자의 머리의 변위의 벡터의 크기에 양의 상관 관계가 있고 방향에 음의 상관 관계가 있는 벡터에 의해 객체 위치를 병진시킴으로써 수행될 수 있다. 이러한 병진의 예시는 도 2에 개략적으로 도시된다.
단계 S550에서, 단계 S540에서 획득된 수정된 객체 위치는 청취자 배향 정보를 기초로 더 수정된다. 예를 들어, 이는 청취자 배향 정보에 따라 수정된 객체 위치에 회전 변환을 적용함으로써 이루어질 수 있다. 이 회전은 예를 들어, 청취자의 머리 또는 명목상의 청취 위치에 대한 회전일 수 있다. 회전 변환은 장면 변위 알고리즘에 의해 수행될 수 있다.
위에서 언급된 바와 같이, 사용자 오프셋 보상(즉, 청취자 변위 정보를 기초로 하는 객체 위치의 수정)은 회전 변환을 적용할 때 고려된다. 예를 들어, 회전 변환을 적용하는 것은 다음을 포함할 수 있다:
- (사용자 배향, 예를 들어, 청취자 배향 정보를 기초로 하는) 회전 변환 행렬의 계산,
- 구형 좌표로부터 데카르트 좌표로의 객체 위치의 변환,
- 사용자-위치-오프셋-보상된 오디오 객체에 (즉, 수정된 객체 위치에) 회전 변환의 적용
- 회전 변환 이후에, 다시 데카르트 좌표로부터 구면 좌표로의 객체 위치의 변환.
추가적인 단계 S560(도 5에 도시되지 않음)로서, 방법(500)은 더 수정된 객체 위치에 따라 오디오 객체를 하나 이상의 실제 또는 가상 스피커로 렌더링하는 것을 포함할 수 있다. 이를 위해, 더 수정된 객체 위치는 MPEG-H 3D 오디오 렌더러(예를 들어, 전술한 오디오 객체 렌더러(320))에 의해 사용되는 입력 포맷으로 조정될 수 있다. 전술한 하나 이상의 (실제 또는 가상) 스피커는 예를 들어, 헤드셋의 일부일 수 있거나, 또는 스피커 배열(예를 들어, 2.1 스피커 배열, 5.1 스피커 배열, 7.1 스피커 배열 등)의 일부일 수 있다. 일부 실시예에서, 오디오 객체는 예를 들어, 헤드셋의 좌우 스피커로 렌더링될 수 있다.
상술한 단계 S540 및 S550의 목적은 다음과 같다. 즉, 객체 위치를 수정하는 것 및 수정된 객체 위치를 더 수정하는 것은 더 수정된 객체 위치에 따라 하나 이상의 (실제 또는 가상) 스피커에 렌더링된 이후에, 오디오 객체가 청취자에 의해 명목상의 청취 위치에 대해 고정된 위치로부터 시작하는 것으로 음향 심리학적으로 지각되도록 수행된다. 오디오 객체의 이 고정된 위치는 명목상의 청취 위치로부터 청취자의 머리의 변위에 관계 없이 및 명목상의 배향에 대한 청취자의 머리의 배향에 관계 없이 음향 심리학적으로 지각되어야 한다. 즉, 청취자의 머리가 명목상의 청취 위치로부터 변위를 겪을 때, 오디오 객체는 청취자의 머리에 대해 움직이는(병진하는) 것으로 지각될 수 있다. 마찬가지로, 오디오 객체는 청취자의 머리가 명목상의 배향으로부터 배향의 변경을 겪을 때 청취자의 머리에 대해 움직이는(회전하는) 것으로 지각될 수 있다. 따라서 청취자는 그의 머리를 움직임으로써, 상이한 각도 및 거리로부터 가까운 오디오 객체를 지각할 수 있다.
단계 S540 및 S550에서 각각 객체 위치를 수정하는 것 및 수정된 객체 위치를 더 수정하는 것은, 예를 들어, 상술한 오디오 장면 변위 유닛(310)에 의해 (회전/병진) 오디오 장면 변위의 맥락에서 수행될 수 있다.
당면한(at hand) 특정한 사용 사례에 의존하여 특정 단계가 생략될 수 있음이 유의된다. 예를 들어, 청취 로케이션 데이터(301)가 청취자 변위 정보만을 포함하는 경우(그러나 청취자 배향 정보를 포함하지 않거나, 또는 명목상의 배향으로부터 청취자의 머리의 배향의 편차가 없음을 나타내는 청취자 배향 정보만을 포함하는 경우), 단계 S550은 생략될 수 있다. 그 후, 단계 S560에서의 렌더링은 단계 S540에서 결정된 수정된 객체 위치에 따라 수행될 것이다. 마찬가지로, 청취 로케이션 데이터(301)가 청취자 배향 정보만을 포함하는 경우(그러나 청취자 변위 정보를 포함하지 않거나, 또는 명목상의 청취 위치로부터 청취자의 머리의 위치의 편차가 없음을 나타내는 청취자 변위 정보만을 포함하는 경우), 단계 S540은 생략될 수 있다. 그 후, 단계 S550은 청취자 배향 정보를 기초로 단계 S530에서 결정된 객체 위치를 수정하는 것에 관련될 것이다. 단계 S560에서의 렌더링은 단계 S550에서 결정된 수정된 객체 위치에 따라 수행될 것이다.
광범위하게 말하자면, 본 발명은 청취자에 대한 청취 로케이션 데이터(301)를 기초로, 객체 기반 오디오 콘텐츠(예를 들어, 위치 정보(302)와 오디오 데이터(322))의 일부로서 수신된 객체 위치의 위치 업데이트를 제안한다.
먼저, 객체 위치(또는 채널 위치) 가 결정된다. 이는 방법(500)의 단계 530의 맥락에서 (예를 들어, 이의 일부로서) 수행될 수 있다.
채널 기반 신호에 대해, 반경 r은 다음과 같이 결정될 수 있다:
- (채널 기반 입력 신호의 채널의) 의도된 라우드 스피커가 재생 라우드 스피커 설정에 존재하고, 재생 설정의 거리가 알려진 경우, 반경 r은 라우드 스피커 거리로 설정된다(예를 들어, cm).
- 의도된 라우드 스피커가 재생 라우드 스피커 설정에 존재하지 않지만, (예를 들어, 명목상의 청취 위치로부터) 재생 라우드 스피커의 거리가 알려진 경우, 반경 r은 최대 재생 라우드 스피커 거리로 설정된다.
- 의도된 라우드 스피커가 재생 라우드 스피커 설정에 존재하지 않고 재생 라우드 스피커 거리가 알려지지 않은 경우, 반경 r은 기본 값으로 설정된다(예를 들어, 1023cm).
객체 기반 신호에 대해, 반경 r은 다음과 같이 결정된다:
객체 거리가 알려진 경우(예를 들어, 생성 도구 및 생성 포맷으로부터 및 prodMetadataConfig()로 전달됨), 반경 r은 알려진 객체 거리로 설정된다(예를 들어, MPEG-H 3D 오디오 표준의 테이블 AMD5.7에 따라 goa_bsObjectDistance[](cm)로 시그널링된다).
테이블 AMD5.7 goa_Production_Metadata ()의 신택스
- 객체 거리가 위치 정보로부터 (예를 들어, 객체 메타데이터로부터 및 object_metadata()로 전달됨) 알려지는 경우, 반경 r은 위치 정보에서 시그널링된 객체 거리로 설정된다(예를 들어, 객체 메타데이터로 전달되는 radius [](cm)). 반경 r은 아래에 도시된 "객체 메타데이터의 스케일링(Scaling)"및 "객체 메타데이터를 제한" 섹션에 따라 시그널링될 수 있다.
객체 메타데이터의 스케일링
객체 위치를 결정하는 것의 맥락에서 선택적인 단계로서, 위치 정보로부터 결정된 객체 위치 가 스케일링될 수 있다. 이는 각 구성요소에 대한 입력 데이터의 인코더 스케일링을 반전시키기 위해 스케일링 인자를 적용하는 것을 포함할 수 있다. 이는 모든 객체에 대해 수행될 수 있다. 객체 위치의 실제 스케일링은 아래 수도코드(pseudocode)에 따라 구현할 수 있다:
descale_multidata()
{
for (o = 0; o < num_objects; o++)
azimuth[o] = azimuth[o] * 1.5;
for (o = 0; o < num_objects; o++)
elevation[o] = elevation[o] * 3.0;
for (o = 0; o < num_objects; o++)
radius[o] = pow(2.0, (radius[o] / 3.0)) / 2.0;
for (o = 0; o < num_objects; o++)
gain[o] = pow(10.0, (gain[o] - 32.0) / 40.0);
if (uniform_spread == 1)
{
for (o = 0; o < num_objects; o++)
spread[o] = spread[o] * 1.5;
}
else
{
for (o = 0; o < num_objects; o++)
spread_width[o] = spread_width[o] * 1.5;
for (o = 0; o < num_objects; o++)
spread_height[o] = spread_height[o] * 3.0;
for (o = 0; o < num_objects; o++)
spread_depth[o] = (pow(2.0, (spread_depth[o] / 3.0)) / 2.0) - 0.5;
}
for (o = 0; o < num_objects; o++)
dynamic_object_priority[o] = dynamic_object_priority[o];
}
객체 메타데이터를 제한
객체 위치를 결정하는 맥락에서 추가적인 선택적인 단계로서, 위치 정보로부터 결정된(가능한 스케일링된) 객체 위치가 제한될 수 있다. 이는 값을 유효한 범위 내로 유지하기 위해 각 구성요소에 대해 디코딩된 값에 제한을 적용하는 것을 수반할 수 있다. 이는 모든 객체에 대해 수행될 수 있다. 객체 위치의 실제 제한은 아래의 수도코드의 기능에 따라 구현될 수 있다.
limit_range()
{
minval = -180;
maxval = 180;
for (o = 0; o < num_objects; o++)
azimuth[o] = MIN(MAX(azimuth[o], minval), maxval);
minval = -90;
maxval = 90;
for (o = 0; o < num_objects; o++)
elevation[o] = MIN(MAX(elevation[o], minval), maxval);
minval = 0.5;
maxval = 16;
for (o = 0; o < num_objects; o++)
radius[o] = MIN(MAX(radius[o], minval), maxval);
minval = 0.004;
maxval = 5.957;
for (o = 0; o < num_objects; o++)
gain[o] = MIN(MAX(gain[o], minval), maxval);
if (uniform_spread == 1)
{
minval = 0;
maxval = 180;
for (o = 0; o < num_objects; o++)
spread[o] = MIN(MAX(spread[o], minval), maxval);
}
else
{
minval = 0;
maxval = 180;
for (o = 0; o < num_objects; o++)
spread_width[o] = MIN(MAX(spread_width[o], minval), maxval);
minval = 0;
maxval = 90;
for (o = 0; o < num_objects; o++)
spread_height[o] = MIN(MAX(spread_height[o], minval), maxval);
minval = 0;
maxval = 15.5;
for (o = 0; o < num_objects; o++)
spread_depth[o] = MIN(MAX(spread_depth[o], minval), maxval);
}
minval = 0;
maxval = 7;
for (o = 0; o < num_objects; o++)
dynamic_object_priority[o] = MIN(MAX(dynamic_object_priority[o], minval),
maxval);
}
그 후, 결정된(및 선택적으로, 스케일링되거나 및/또는 제한된) 객체 위치는 예를 들어, '공통 관례(common convention)'에 따른 좌표계와 같은 미리 결정된 좌표계로 변환될 수 있고, 0° 방위각은 오른쪽 귀에 있고(양수 값은 시계 반대 방향으로 진행함) 및 0° 고도는 머리의 상부이다(양수 값은 아래쪽으로 진행함). 따라서, 객체 위치 p는 '공통' 관례에 따라 위치 p'로 변환될 수 있다. 이는 다음을 갖는 객체 위치 p'를 초래한다.
반경 r은 변경되지 않음.
동시에, 청취자 변위 정보(az offset , el offset , r offset )에 의해 나타나는 청취자의 머리의 변위는 미리 결정된 좌표계로 변환될 수 있다. '공통 관례'를 사용하여, 이는 다음에 해당한다
반경 r offset 은 변경되지 않음.
특히, 객체 위치 및 청취자의 머리 변위 모두에 대해 미리 결정된 좌표계로의 변환은 단계 S530 또는 단계 S540의 맥락에서 수행될 수 있다.
실제 위치 업데이트는 방법(500)의 단계 S540의 맥락에서(예를 들어, 이의 일부로서) 수행될 수 있다. 위치 업데이트는 다음 단계를 포함할 수 있다:
제1 단계로서, 위치 p 또는 미리 결정된 좌표계로의 전송이 수행된 경우 위치 p'는 데카르트 좌표(x, y, z)로 송신된다. 다음에, 의도된 제한없이, 미리 결정된 좌표계에서의 위치 p'에 대한 프로세스가 서술될 것이다. 또한, 의도된 제한 없이, 좌표 축의 다음 배향/방향이 가정될 수 있다: x 축은 오른쪽을 가리키고(명목상의 배향에 있을 때 청취자의 머리로부터 관찰됨), y 축은 일직선으로 앞을 가리키며, z축은 일직선으로 위를 가리킨다. 동시에, 청취자 변위 정보(az' offset , el' offset , r' offset )에 의해 나타나는 청취자의 머리의 변위는 데카르트 좌표로 변환된다.
제2 단계로서, 상술한 방식으로 청취자의 머리의 변위(장면 변위)에 따라 데카르트 좌표에서 객체 위치가 시프트(shift)된다(병진된다). 이는 다음을 통해 진행될 수 있다:
위의 병진은 방법(500)의 단계 S540에서 청취자 변위 정보를 기초로 하는 객체 위치의 수정의 예시이다.
데카르트 좌표에서 시프트된 객체 위치는 구면 좌표로 변환되며 p"로 지칭될 수 있다. 시프트된 객체 위치는 p"=(az", el", r')로서 공통 관례에 따라 미리 결정된 좌표계로 표현될 수 있다.
작은 반경 파라미터 변경(즉, )을 초래하는 청취자의 머리 변위가 있을 때, 객체의 수정된 위치 p"는 p"=(az", el", r)로 재정의될 수 있다.
다른 예시에서, 상당한 반경 파라미터 변경(즉, r'>>r)을 초래할 수 있는 청취자의 머리 변위가 있을 때, 객체의 수정된 위치 p"는 또한, p"=(az", el", r) 대신에, 수정된 반경 파라미터 r'를 갖는 p"=(az", el", r')로 정의될 수도 있다.
수정된 반경 파라미터 r'의 대응하는 값은 청취자의 머리 변위 거리(즉, roffset=||P0-P1||) 및 초기 반경 파라미터(즉, r=||P0-A||)로부터 획득될 수 있다(예를 들어, 도 1 및 2 참조). 예를 들어, 수정된 반경 파라미터 r'는 다음 삼각 관계를 기초로 결정될 수 있다:
이 수정된 반경 파라미터 r'의 객체/채널 이득으로의 매핑 및 후속 오디오 렌더링을 위한 그의 애플리케이션은 사용자 움직임에 기인하여, 레벨 변경의 지각 효과를 상당히 개선할 수 있다. 반경 파라미터 r'의 이러한 수정을 허용하는 것은 "적응형 스위트 스팟(adaptive sweet-spot)"을 허용한다. 이는 MPEG 렌더링 시스템이 청취자의 현재 위치에 따라 스위트 스팟 위치를 동적으로 조정한다는 것을 의미할 것이다. 일반적으로, 수정된(또는 더 수정된) 객체 위치에 따른 오디오 객체의 렌더링은 수정된 반경 파라미터 r'에 기초할 수 있다. 특히, 오디오 객체를 렌더링하기 위한 객체/채널 이득은 수정된 반경 파라미터 r'에 기초할 수 있다(예를 들어, 이를 기초로 수정될 수 있다).
다른 예시에서, 라우드 스피커 재생 설정 및 렌더링 동안(예를 들어, 위의 단계 S560에서), 장면 변위가 비활성화될 수 있다. 하지만, 장면 변위의 선택적인 활성화가 이용 가능할 수 있다. 이는 3DoF+ 렌더러가 청취자의 현재 위치 및 배향에 따라 동적으로 조정 가능한 스위트 스팟을 생성하는 것을 가능하게 한다.
특히, 객체 위치 및 청취자의 머리의 변위를 데카르트 좌표로 변환하는 단계는 선택적이며, 청취자의 머리의 변위(장면 변위)에 따른 병진/시프트(수정)은 임의의 적합한 좌표계에서 수행될 수 있다. 즉, 위의 데카르트 좌표의 선택은 비-제한적인 예시로서 이해되어야 한다.
일부 실시예에서, (객체 위치를 수정하는 것 및/또는 수정된 객체 위치 더 수정하는 것을 포함하는) 장면 변위 처리는 비트스트림(예를 들어, useTrackingMode 요소)에서 플래그(필드, 요소, 설정된 비트)에 의해 활성화되거나 또는 비활성화될 수 있다. ISO/IEC 23008-3에서 하위 절 "17.3 로컬 라우드스피커 설정 및 렌더링을 위한 인터페이스" 및 "17.4 바이노럴 룸 임펄스 응답(binaural room impulse responses, BRIR)을 위한 인터페이스"는 장면 변위 처리를 활성화하는 요소 useTrackingMode에 대한 서술을 포함한다. 본 개시의 맥락에서, useTrackingMode 요소는 mpegh3daSceneDisplacementData() 및 mpegh3daPositionalSceneDisplacementData() 인터페이스를 통해 전송된 장면 변위 값의 처리가 발생하는지의 여부를 정의할 것이다(하위 절 17.3). 대안적으로 또는 추가적으로(하위 절 17.4), useTrackingMode 필드는 트래커 디바이스가 연결되고 바이노럴 렌더링이 특별한 머리추적 모드에서 처리되어야 하는지를 정의할 것이고, 이는 mpegh3daSceneDisplacementData() 및 mpegh3daPositionalSceneDisplacementData() 인터페이스를 통해 전송된 장면 변위 값의 처리가 발생해야 하는지를 의미한다.
본원에 서술된 방법 및 시스템은 소프트웨어, 펌웨어 및/또는 하드웨어로서 구현될 수 있다. 특정 구성요소는 예를 들어, 디지털 신호 프로세서 또는 마이크로프로세서 상에서 구동되는 소프트웨어로서 구현될 수 있다. 다른 구성요소는 예를 들어, 하드웨어 및 또는 애플리케이션 특정 집적 회로로서 구현될 수 있다. 서술된 방법 및 시스템에서 직면하는 신호는 랜덤 액세스 메모리 또는 광학 저장 매체와 같은 매체 상에 저장될 수 있다. 이는 무선 네트워크, 위성 네트워크, 무선 네트워크 또는 유선 네트워크, 예를 들어, 인터넷과 같은 네트워크를 통해 송신될 수 있다. 본원에 서술된 방법 및 시스템을 사용하는 통상적인 디바이스는 오디오 신호를 저장하거나 및/또는 렌더링하는데 사용되는 휴대용 전자 디바이스 또는 다른 소비자 장비이다.
본 문서가 MPEG 및 특히 MPEG-H 3D 오디오를 언급하지만, 본 개시는 이들 표준에 제한되는 것으로 해석되지 않아야 한다. 오히려, 통상의 기술자에 의해 이해되는 바와 같이, 본 개시는 오디오 코딩의 다른 표준에서도 유리한 애플리케이션을 발견할 수 있다.
더욱이, 본 문서는 (예를 들어, 명목상의 청취 위치로부터) 청취자의 머리의 작은 위치 변위를 자주 언급하지만, 본 개시는 작은 위치 변위에 제한되지 않고, 일반적으로 청취자의 머리의 임의의 위치 변위에 적용될 수 있다.
서술 및 도면은 단지 제안된 방법, 시스템 및 장치의 원리를 예시하는 것이라는 점이 유의되어야 한다. 통상의 기술자는 본원에 명시적으로 서술되거나 도시되지 않더라도, 본 발명의 원리를 구현하고 그의 사상 및 범주 내에 포함되는 다양한 방식을 구현할 수 있을 것이다. 나아가, 본 문서에서 개략적으로 서술된 모든 예시 및 실시예는 주로 독자가 제안된 방법의 원리를 이해하는데 도움을 주는 설명의 목적만으로 명시적으로 의도된다. 나아가, 본 발명의 원리, 양상 및 실시예뿐만 아니라 그의 특정 예시를 제공하는 본원의 모든 서술은 그 등가물을 포괄하는 것으로 의도된다.
위에 추가하여, 본 발명의 다양한 예시적인 구현 및 예시적인 실시예는 청 범위가 아닌 아래 열거된 예시적인 실시예(enumerated example embodiments, EEE)로부터 명백해질 것이다.
제1 EEE는 인코딩된 오디오 신호 비트스트림을 디코딩하는 방법에 관한 것으로, 상기 방법은: 오디오 디코딩 장치(300)에 의해, 인코딩된 오디오 신호 비트스트림(302, 322)을 수신하는 것 - 인코딩된 오디오 신호 비트스트림은 인코딩된 오디오 데이터(322) 및 적어도 하나의 객체-오디오 신호에 대응하는 메타데이터(302)를 포함함 -; 오디오 디코딩 장치(300)에 의해, 복수의 음원의 표현을 획득하기 위해 인코딩된 오디오 신호 비트스트림(302, 322)을 디코딩하는 것; 오디오 디코딩 장치(300)에 의해, 청취 로케이션 데이터(301)를 수신하는 것; 오디오 디코딩 장치(300)에 의해, 오디오 객체 위치 데이터(321)를 생성하는 것 - 오디오 객체 위치 데이터(321)는 청취 로케이션 데이터(301)를 기초로 청취 위치에 관련된 복수의 음원을 서술함 - 을 포함한다.
제2 EEE는 제1 EEE의 방법에 관한 것으로, 청취 로케이션 데이터(301)는 제1 병진 위치 데이터의 제1 세트 및 제2 병진 위치 및 배향 데이터의 제2 세트에 기초한다.
제3 EEE는 제2 EEE의 방법에 관한 것으로, 제1 병진 위치 데이터 또는 제2 병진 위치 데이터는 구면 좌표의 세트 또는 데카르트 좌표의 세트 중 적어도 하나에 기초한다.
제4 EEE는 제1 EEE의 방법에 관한 것으로, 청취 로케이션 데이터(301)는 MPEG-H 3D 오디오 디코더 입력 인터페이스를 통해 획득된다.
제5 EEE는 제1 EEE의 방법에 관한 것으로, 인코딩된 오디오 신호 비트스트림은 MPEG-H 3D 오디오 비트스트림 신택스 요소를 포함하고, MPEG-H 3D 오디오 비트스트림 신택스 요소는 인코딩된 오디오 데이터(322) 및 적어도 하나의 객체-오디오 신호에 대응하는 메타데이터(302)를 포함한다.
제6 EEE는 제1 EEE의 방법에 관한 것으로, 오디오 디코딩 장치(300)에 의해 복수의 라우드스피커로 복수의 음원을 렌더링하는 것을 더 포함하며, 렌더링 프로세스는 적어도 MPEG-H 3D 오디오 표준을 준수한다.
제7 EEE는 제1 EEE의 방법에 관한 것으로, 오디오 디코딩 장치(300)에 의해, 청취 로케이션 데이터(301)의 병진을 기초로, 적어도 하나의 객체 오디오 신호에 대응하는 위치 p(302)를 오디오 객체 위치(321)에 대응하는 제2 위치 p"로 변환하는 것을 더 포함한다.
제8 EEE는 제7 EEE의 방법에 관한 것으로, (예를 들어, 공통 관례에 따라) 미리 결정된 좌표계에서 오디오 객체 위치의 위치 p'는 다음에 기초하여 결정된다:
여기서 az는 제1 방위각 파라미터에 대응하고, el은 제1 고도 파라미터에 대응하고, r은 제1 반경 파라미터에 대응하고, 여기서 az'는 제2 방위각 파라미터에 대응하고, el'은 제2 고도 파라미터에 대응하고 r'은 제2 반경 파라미터에 대응하며, az offset 은 제3 방위각 파라미터에 대응하고, el offset 은 제3 고도 파라미터에 대응하고, az' offset 은 제4 방위각 파라미터에 대응하고, el' offset 은 제4 고도 파라미터에 대응한다.
제9 EEE는 제8 EEE의 방법에 관한 것으로, 오디오 객체 위치(302)의 시프트된 오디오 객체 위치 p"(321)는 다음을 기초로 데카르트 좌표(x, y, z)에서 결정된다:
여기서 데카르트 위치(x, y, z)는 x, y 및 z 파라미터로 구성되며, x offset 은 제1 x 축 오프셋 파라미터에 관련되고, y offset 은 제1 y 축 오프셋 파라미터에 관련되고, 그리고 z offset 은 제1 z 축 오프셋 파라미터에 관련된다.
제10 EEE는 제9 EEE의 방법에 관한 것으로, 파라미터 x offset , y offset z offset 에서 다음을 기초로 한다
제11 EEE는 제7 EEE의 방법에 관한 것으로, 방위각 파라미터 az offset 은 장면 변위 방위각 위치와 관련되며 다음을 기초로 하고:
sd_azimuth는 MPEG-H 3DA 방위각 장면 변위를 나타내는 방위각 메타데이터 파라미터이고, 고도 파라미터 el offset 은 장면 변위 고도 위치와 관련되고 다음을 기초로 하고:
sd_elevation은 MPEG-H 3DA 고도 장면 변위를 나타내는 고도 메타데이터 파라미터이고, 반경 파라미터 r offset 은 장면 변위 반경과 관련되며 다음을 기초로 하고:
sd_radius는 MPEG-H 3DA 반경 장면 변위를 나타내는 반경 메타데이터 파라미터이고, 파라미터 X 및 Y는 스칼라 변수이다.
제12 EEE는 제10 EEE의 방법에 관한 것이며, x offset 파라미터는 x 축 방향으로의 장면 변위 오프셋 위치 sd_x에 관련되고; y offset 파라미터는 y 축 방향으로의 장면 변위 오프셋 위치 sd_y와 관련되고; z offset 파라미터는 z 축 방향으로의 장면 변위 오프셋 위치 sd_z와 관련된다.
제13 EEE는 제1 EEE의 방법에 관한 것으로, 오디오 디코딩 장치에 의해 청취 로케이션 데이터(301) 및 객체-오디오 신호(102)에 관련된 제1 위치 데이터를 업데이트 속도로 보간하는 것을 더 포함한다.
제14 EEE는 제1 EEE의 방법에 관한 것으로, 오디오 디코딩 장치(300)에 의해 청취 로케이션 데이터(301)의 효율적인 엔트로피 코딩을 결정하는 것을 더 포함한다.
제15 EEE는 제1 EEE의 방법에 관한 것으로, 청취 로케이션에 관련된 위치 데이터(301)는 센서 정보를 기초로 도출된다.

Claims (9)

  1. 오디오 객체의 객체 위치를 나타내는 위치 정보를 처리하는 방법으로서, 상기 처리는 MPEG-H 3D 오디오 디코더를 사용하여 수행되고, 상기 객체 위치는 상기 오디오 객체의 렌더링을 위해 사용 가능하며, 상기 방법은:
    인코딩된 오디오를 포함하는 비트스트림을 수신하는 것;
    상기 오디오 객체 및 상기 오디오 객체에 대한 위치 정보를 상기 비트스트림으로부터 디코딩하는 것;
    청취자의 머리의 배향을 나타내는 청취자 배향 정보를 획득하는 것;
    MPEG-H 3D 오디오 디코더 입력 인터페이스를 통해, 명목상의(nominal) 청취 위치에 대한 상기 청취자의 머리의 변위를 나타내는 청취자 변위 정보를 획득하는 것;
    상기 위치 정보로부터 상기 객체 위치를 결정하는 것 - 상기 위치 정보는 상기 명목상의 청취 위치로부터 상기 오디오 객체의 거리의 표시를 포함함 - ;
    상기 객체 위치에 병진(translation)을 적용함으로써 청취자 변위 정보를 기초로 상기 객체 위치를 수정하는 것; 및
    상기 청취자 배향 정보를 기초로 상기 수정된 객체 위치를 더 수정하는 것을 포함하고,
    상기 청취자 변위 정보가 작은 위치 변위에 의한 상기 명목상의 청취 위치로부터 상기 청취자의 머리의 변위를 나타낼 때 - 상기 작은 위치 변위는 0.5 미터 이하의 절대 값을 가짐 -, 상기 오디오 객체 위치와 상기 청취자의 머리의 변위 이후의 청취 위치 사이의 거리는 상기 수정된 오디오 객체 위치와 상기 명목상의 청취 위치 사이의 거리와 동일한, 방법.
  2. 제1항에 있어서,
    상기 객체 위치를 수정하는 것 및 상기 수정된 객체 위치를 더 수정하는 것은 상기 더 수정된 객체 위치에 따라 하나 이상의 실제 또는 가상 스피커로 렌더링된 이후에, 상기 오디오 객체가 상기 명목상의 청취 위치로부터의 상기 청취자의 머리의 상기 변위 및 명목상의 배향에 대한 상기 청취자의 머리의 상기 배향에 관계 없이, 상기 청취자에 의해 상기 명목상의 청취 위치에 대해 고정된 위치로부터 시작하는 것으로 음향 심리학적으로(psychoacoustically) 지각되도록 수행되는, 방법.
  3. 제1항에 있어서,
    상기 청취자 변위 정보를 기초로 상기 객체 위치를 수정하는 것은 상기 명목상의 청취 위치로부터 상기 청취자의 머리의 동일한 변위의 상기 객체 위치를, 하지만 반대 방향으로 병진시킴으로써 수행되는, 방법.
  4. 제1항에 있어서,
    상기 청취자 변위 정보는 상체 및 머리 중 적어도 하나를 움직이는 상기 청취자에 의해 달성 가능한 상기 명목상의 청취 위치로부터 상기 청취자의 머리의 변위를 나타내는, 방법.
  5. 제1항에 있어서,
    웨어러블(wearable) 또는 고정 장비(stationary equipment)에 의해, 상기 청취자의 머리의 상기 배향을 검출하는 것을 더 포함하는, 방법.
  6. 제1항에 있어서,
    웨어러블 및/또는 고정 장비에 의해, 상기 명목상의 청취 위치로부터 상기 청취자의 머리의 변위를 검출하는 것을 더 포함하는, 방법.
  7. 제1항에 있어서, 상기 수정된 오디오 객체 위치와 변위 이후의 상기 청취 위치 사이의 상기 거리는 오디오 레벨의 수정을 위한 이득에 매핑되는, 방법.
  8. 소프트웨어가 디지털 신호 프로세서 또는 마이크로프로세서에 의해 실행될 때 상기 디지털 신호 프로세서 또는 마이크로프로세서가 제1항의 방법을 수행하게 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체.
  9. 오디오 객체의 객체 위치를 나타내는 위치 정보를 처리하는 MPEG-H 3D 오디오 디코더로서, 상기 객체 위치는 상기 오디오 객체의 렌더링을 위해 사용 가능하며, 상기 디코더는 프로세서 및 상기 프로세서에 결합된 메모리를 포함하며, 상기 프로세서는:
    인코딩된 오디오를 포함하는 비트스트림을 수신하고;
    상기 오디오 객체 및 상기 오디오 객체에 대한 위치 정보를 상기 비트스트림으로부터 디코딩하고;
    청취자의 머리의 배향을 나타내는 청취자 배향 정보를 획득하고;
    MPEG-H 3D 오디오 디코더 입력 인터페이스를 통해, 명목상의 청취 위치에 대한 상기 청취자의 머리의 변위를 나타내는 청취자 변위 정보를 획득하고;
    상기 위치 정보로부터 상기 객체 위치를 결정하고 - 상기 위치 정보는 상기 명목상의 청취 위치로부터 상기 오디오 객체의 거리의 표시를 포함함 -;
    상기 객체 위치에 병진을 적용함으로써 상기 청취자 변위 정보를 기초로 상기 객체 위치를 수정하고; 및
    상기 청취자 배향 정보를 기초로 상기 수정된 객체 위치를 더 수정하도록 구성되고,
    상기 청취자 변위 정보가 작은 위치 변위에 의한 상기 명목상의 청취 위치로부터 상기 청취자의 머리의 변위를 나타낼 때 - 상기 작은 위치 변위는 0.5 미터 이하의 절대 값을 가짐 -, 상기 오디오 객체 위치와 상기 청취자의 머리의 변위 이후의 청취 위치 사이의 거리는 상기 수정된 오디오 객체 위치와 상기 명목상의 청취 위치 사이의 거리와 동일한, 디코더.
KR1020237031623A 2018-04-09 2019-04-09 Mpeg-h 3d 오디오의 3 자유도(3dof+) 확장을 위한 방법, 장치 및 시스템 KR102672164B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020247018236A KR20240096621A (ko) 2018-04-09 2019-04-09 Mpeg-h 3d 오디오의 3 자유도(3dof+) 확장을 위한 방법, 장치 및 시스템

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US201862654915P 2018-04-09 2018-04-09
US62/654,915 2018-04-09
US201862695446P 2018-07-09 2018-07-09
US62/695,446 2018-07-09
US201962823159P 2019-03-25 2019-03-25
US62/823,159 2019-03-25
KR1020207026235A KR102580673B1 (ko) 2018-04-09 2019-04-09 Mpeg-h 3d 오디오의 3 자유도(3dof+) 확장을 위한 방법, 장치 및 시스템
PCT/EP2019/058954 WO2019197403A1 (en) 2018-04-09 2019-04-09 Methods, apparatus and systems for three degrees of freedom (3dof+) extension of mpeg-h 3d audio

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020207026235A Division KR102580673B1 (ko) 2018-04-09 2019-04-09 Mpeg-h 3d 오디오의 3 자유도(3dof+) 확장을 위한 방법, 장치 및 시스템

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020247018236A Division KR20240096621A (ko) 2018-04-09 2019-04-09 Mpeg-h 3d 오디오의 3 자유도(3dof+) 확장을 위한 방법, 장치 및 시스템

Publications (2)

Publication Number Publication Date
KR20230136227A KR20230136227A (ko) 2023-09-26
KR102672164B1 true KR102672164B1 (ko) 2024-06-05

Family

ID=66165969

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020247018236A KR20240096621A (ko) 2018-04-09 2019-04-09 Mpeg-h 3d 오디오의 3 자유도(3dof+) 확장을 위한 방법, 장치 및 시스템
KR1020237031623A KR102672164B1 (ko) 2018-04-09 2019-04-09 Mpeg-h 3d 오디오의 3 자유도(3dof+) 확장을 위한 방법, 장치 및 시스템
KR1020207026235A KR102580673B1 (ko) 2018-04-09 2019-04-09 Mpeg-h 3d 오디오의 3 자유도(3dof+) 확장을 위한 방법, 장치 및 시스템

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020247018236A KR20240096621A (ko) 2018-04-09 2019-04-09 Mpeg-h 3d 오디오의 3 자유도(3dof+) 확장을 위한 방법, 장치 및 시스템

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020207026235A KR102580673B1 (ko) 2018-04-09 2019-04-09 Mpeg-h 3d 오디오의 3 자유도(3dof+) 확장을 위한 방법, 장치 및 시스템

Country Status (15)

Country Link
US (3) US11877142B2 (ko)
EP (4) EP3777246B1 (ko)
JP (2) JP7270634B2 (ko)
KR (3) KR20240096621A (ko)
CN (6) CN113993059A (ko)
AU (1) AU2019253134A1 (ko)
BR (2) BR112020017489A2 (ko)
CA (3) CA3168579A1 (ko)
CL (5) CL2020002363A1 (ko)
ES (1) ES2924894T3 (ko)
IL (3) IL309872A (ko)
MX (1) MX2020009573A (ko)
SG (1) SG11202007408WA (ko)
UA (1) UA127896C2 (ko)
WO (1) WO2019197403A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112020017489A2 (pt) * 2018-04-09 2020-12-22 Dolby International Ab Métodos, aparelho e sistemas para extensão com três graus de liberdade (3dof+) de áudio 3d mpeg-h
JPWO2020255810A1 (ko) * 2019-06-21 2020-12-24
US11356793B2 (en) 2019-10-01 2022-06-07 Qualcomm Incorporated Controlling rendering of audio data
EP4203520A4 (en) * 2020-08-20 2024-01-24 Panasonic Intellectual Property Corporation of America INFORMATION PROCESSING METHOD, PROGRAM AND ACOUSTIC PLAYBACK DEVICE
US11750998B2 (en) 2020-09-30 2023-09-05 Qualcomm Incorporated Controlling rendering of audio data
CN112245909B (zh) * 2020-11-11 2024-03-15 网易(杭州)网络有限公司 一种游戏内对象锁定的方法及装置
CN113490136B (zh) 2020-12-08 2023-01-10 广州博冠信息科技有限公司 声音信息处理方法及装置、计算机存储介质、电子设备
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications
EP4240026A1 (en) * 2022-03-02 2023-09-06 Nokia Technologies Oy Audio rendering

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001251698A (ja) 2000-03-07 2001-09-14 Canon Inc 音響処理システム及びその制御方法並びに記憶媒体
US20180091918A1 (en) 2016-09-29 2018-03-29 Lg Electronics Inc. Method for outputting audio signal using user position information in audio decoder and apparatus for outputting audio signal using same

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2900985B2 (ja) * 1994-05-31 1999-06-02 日本ビクター株式会社 ヘッドホン再生装置
JPH0946800A (ja) * 1995-07-28 1997-02-14 Sanyo Electric Co Ltd 音像制御装置
GB2374501B (en) * 2001-01-29 2005-04-13 Hewlett Packard Co Facilitation of clear presenentation in audio user interface
GB2372923B (en) * 2001-01-29 2005-05-25 Hewlett Packard Co Audio user interface with selective audio field expansion
AUPR989802A0 (en) 2002-01-09 2002-01-31 Lake Technology Limited Interactive spatialized audiovisual system
TWI310137B (en) * 2002-04-19 2009-05-21 Microsoft Corp Methods and systems for preventing start code emulation at locations that include non-byte aligned and/or bit-shifted positions
US7398207B2 (en) 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
TW200638335A (en) 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
US7693709B2 (en) 2005-07-15 2010-04-06 Microsoft Corporation Reordering coefficients for waveform coding or decoding
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8170222B2 (en) * 2008-04-18 2012-05-01 Sony Mobile Communications Ab Augmented reality enhanced audio
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
TWI529703B (zh) 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
JP2013031145A (ja) * 2011-06-24 2013-02-07 Toshiba Corp 音響制御装置
JP2015529415A (ja) * 2012-08-16 2015-10-05 タートル ビーチ コーポレーション 多次元的パラメトリック音声のシステムおよび方法
US9826328B2 (en) * 2012-08-31 2017-11-21 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
CN107454511B (zh) 2012-08-31 2024-04-05 杜比实验室特许公司 用于使声音从观看屏幕或显示表面反射的扬声器
KR102148217B1 (ko) * 2013-04-27 2020-08-26 인텔렉추얼디스커버리 주식회사 위치기반 오디오 신호처리 방법
CN105247894B (zh) 2013-05-16 2017-11-07 皇家飞利浦有限公司 音频装置及其方法
DE102013218176A1 (de) 2013-09-11 2015-03-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zur dekorrelation von lautsprechersignalen
KR102356246B1 (ko) 2014-01-16 2022-02-08 소니그룹주식회사 음성 처리 장치 및 방법, 그리고 프로그램
US10349197B2 (en) 2014-08-13 2019-07-09 Samsung Electronics Co., Ltd. Method and device for generating and playing back audio signal
US10469947B2 (en) * 2014-10-07 2019-11-05 Nokia Technologies Oy Method and apparatus for rendering an audio source having a modified virtual position
WO2016077320A1 (en) 2014-11-11 2016-05-19 Google Inc. 3d immersive spatial audio systems and methods
US10257636B2 (en) * 2015-04-21 2019-04-09 Dolby Laboratories Licensing Corporation Spatial audio signal manipulation
KR102488354B1 (ko) 2015-06-24 2023-01-13 소니그룹주식회사 음성 처리 장치 및 방법, 그리고 기록 매체
WO2017017830A1 (ja) 2015-07-30 2017-02-02 三菱化学エンジニアリング株式会社 酸素富化マイクロナノバブルを用いた生物反応装置及びこの生物反応装置を用いた生物反応方法
EP3145220A1 (en) * 2015-09-21 2017-03-22 Dolby Laboratories Licensing Corporation Rendering virtual audio sources using loudspeaker map deformation
JP6841229B2 (ja) * 2015-12-10 2021-03-10 ソニー株式会社 音声処理装置および方法、並びにプログラム
US10979843B2 (en) * 2016-04-08 2021-04-13 Qualcomm Incorporated Spatialized audio output based on predicted position data
CN109076306B (zh) 2016-04-12 2021-04-13 皇家飞利浦有限公司 强调靠近焦距的声音源的空间音频处理
WO2017218973A1 (en) 2016-06-17 2017-12-21 Edward Stein Distance panning using near / far-field rendering
US10089063B2 (en) * 2016-08-10 2018-10-02 Qualcomm Incorporated Multimedia device for processing spatialized audio based on movement
EP3301951A1 (en) 2016-09-30 2018-04-04 Koninklijke KPN N.V. Audio object processing based on spatial listener information
EP3550860B1 (en) 2018-04-05 2021-08-18 Nokia Technologies Oy Rendering of spatial audio content
BR112020017489A2 (pt) * 2018-04-09 2020-12-22 Dolby International Ab Métodos, aparelho e sistemas para extensão com três graus de liberdade (3dof+) de áudio 3d mpeg-h

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001251698A (ja) 2000-03-07 2001-09-14 Canon Inc 音響処理システム及びその制御方法並びに記憶媒体
US20180091918A1 (en) 2016-09-29 2018-03-29 Lg Electronics Inc. Method for outputting audio signal using user position information in audio decoder and apparatus for outputting audio signal using same

Also Published As

Publication number Publication date
SG11202007408WA (en) 2020-09-29
KR20240096621A (ko) 2024-06-26
ES2924894T3 (es) 2022-10-11
EP4030784B1 (en) 2023-03-29
CA3168578A1 (en) 2019-10-17
CN113993059A (zh) 2022-01-28
KR20200140252A (ko) 2020-12-15
IL291120B1 (en) 2024-02-01
KR20230136227A (ko) 2023-09-26
US20240187813A1 (en) 2024-06-06
CN111886880A (zh) 2020-11-03
EP3777246A1 (en) 2021-02-17
EP4030785B1 (en) 2023-03-29
US11882426B2 (en) 2024-01-23
MX2020009573A (es) 2020-10-05
IL309872A (en) 2024-03-01
CL2021003589A1 (es) 2022-08-19
IL277364A (en) 2020-11-30
BR112020017489A2 (pt) 2020-12-22
EP3777246B1 (en) 2022-06-22
CN111886880B (zh) 2021-11-02
CL2021001186A1 (es) 2021-10-22
CA3168579A1 (en) 2019-10-17
IL291120B2 (en) 2024-06-01
RU2020130112A (ru) 2022-03-14
AU2019253134A1 (en) 2020-10-01
IL291120A (en) 2022-05-01
KR102580673B1 (ko) 2023-09-21
US11877142B2 (en) 2024-01-16
JP2021519012A (ja) 2021-08-05
BR112020018404A2 (pt) 2020-12-22
CL2020002363A1 (es) 2021-01-29
WO2019197403A1 (en) 2019-10-17
EP4030784A1 (en) 2022-07-20
EP4221264A1 (en) 2023-08-02
US20220272481A1 (en) 2022-08-25
JP7270634B2 (ja) 2023-05-10
IL277364B (en) 2022-04-01
UA127896C2 (uk) 2024-02-07
JP2023093680A (ja) 2023-07-04
CN113993062A (zh) 2022-01-28
CA3091183A1 (en) 2019-10-17
CN113993058A (zh) 2022-01-28
EP4030785A1 (en) 2022-07-20
CN113993061A (zh) 2022-01-28
CN113993060A (zh) 2022-01-28
CL2021001185A1 (es) 2021-10-22
CL2021003590A1 (es) 2022-08-19
US20220272480A1 (en) 2022-08-25

Similar Documents

Publication Publication Date Title
KR102672164B1 (ko) Mpeg-h 3d 오디오의 3 자유도(3dof+) 확장을 위한 방법, 장치 및 시스템
CN111466124B (zh) 用于渲染用户的视听记录的方法,处理器系统和计算机可读介质
US11089425B2 (en) Audio playback method and audio playback apparatus in six degrees of freedom environment
US11375332B2 (en) Methods, apparatus and systems for three degrees of freedom (3DoF+) extension of MPEG-H 3D audio
RU2803062C2 (ru) Способы, аппараты и системы для расширения трех степеней свободы (3dof+) mpeg-h 3d audio
CN115955622A (zh) 针对在麦克风阵列之外的位置的麦克风阵列所捕获的音频的6dof渲染

Legal Events

Date Code Title Description
A107 Divisional application of patent
E701 Decision to grant or registration of patent right