KR20240004337A - 범위를 갖는 오디오 객체를 모델링하기 위한 방법, 장치 및 시스템 - Google Patents
범위를 갖는 오디오 객체를 모델링하기 위한 방법, 장치 및 시스템 Download PDFInfo
- Publication number
- KR20240004337A KR20240004337A KR1020237036289A KR20237036289A KR20240004337A KR 20240004337 A KR20240004337 A KR 20240004337A KR 1020237036289 A KR1020237036289 A KR 1020237036289A KR 20237036289 A KR20237036289 A KR 20237036289A KR 20240004337 A KR20240004337 A KR 20240004337A
- Authority
- KR
- South Korea
- Prior art keywords
- audio object
- audio
- range
- extended audio
- extended
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 117
- 238000009877 rendering Methods 0.000 claims abstract description 75
- 230000003190 augmentative effect Effects 0.000 claims abstract description 26
- 238000004590 computer program Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 230000003362 replicative effect Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 239000000203 mixture Substances 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 4
- 230000001404 mediated effect Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
- Processing Or Creating Images (AREA)
Abstract
가상 또는 증강 현실 환경에서의 오디오 렌더링을 위해 확장 오디오 객체를 모델링하는 방법이 설명된다. 방법은 확장 오디오 객체의 기하학적 형태를 나타내는 범위 표현 및 확장 오디오 객체와 연관된 하나 이상의 제1 오디오 소스에 관한 정보를 획득하는 단계를 포함한다. 나아가, 방법은 가상 또는 증강 현실 환경에서의 사용자 위치에 기초하여 확장 오디오 객체의 기하학적 형태 상의 상대 포인트를 획득하는 단계를 포함한다. 방법은 또한, 사용자 위치 및 상대 포인트에 기초하여 범위 표현에 대한 범위 매개변수를 결정하는 단계, 및 확장 오디오 객체를 모델링하기 위해 사용자 위치에 대해 하나 이상의 제2 오디오 소스의 위치를 결정하는 단계를 포함한다. 또한, 방법은 확장 오디오 객체를 모델링하기 위해 확장 오디오 객체의 수정된 표현을 출력하는 단계를 포함한다.
Description
관련 출원에 대한 상호-참조
본 출원은 다음의 우선권 출원인: 2021년 4월 29일에 출원된 미국 가출원 제63/181,865호(참조: D21045USP1) 및 2021년 9월 22일에 출원된 미국 가출원 제63/247,156호(참조: D21045USP2) 및 2021년 9월 30일에 출원된 EP 출원 제21200055.8호(참조: D21045EP)에 대한 우선권을 주장한다.
기술분야
본 문서는 객체-기반 오디오 렌더링에 관한 것으로, 보다 구체적으로는 가상 현실(virtual reality)(VR) 환경에서 범위(extent)를 갖는 오디오 객체를 렌더링하는 것에 관한 것이다.
새로운 MPEG-I 표준은 가상 현실(VR), 증강 현실(augmented reality)(AR), 혼합 현실(mixed reality)(MR) 및/또는 확장 현실(extended reality)(XR) 애플리케이션에서 완전한 6 자유도(degree of Freedom)(6DoF)를 지원함으로써 상이한 시점 및/또는 관점 또는 청취 위치로부터의 음향 경험을 가능하게 한다. 6 DoF 상호 작용은 머리 회전 이외에, 가상 환경 내에서의 탐색(예컨대, 방 내부에서의 물리적 걷기)을 허용하기 위해 병진 움직임(전/후, 상/하, 및 좌/우)을 포함하도록 머리 회전(피치(pitch), 요(yaw) 및 롤(roll))에 제한되는 3 DoF 구면 비디오/오디오 경험을 확장한다.
VR 애플리케이션에서의 오디오 렌더링을 위해, 객체-기반 접근법이 복잡한 청각 장면을 다수의 별개의 오디오 객체로서 표현함으로써 광범위하게 이용되어 왔으며, 이들 오디오 객체 각각은 장면에서 그 객체의 장소/위치 및 궤적을 규정하는 매개변수 또는 메타데이터와 연관된다. 포인트 오디오 소스가 되는 대신에, 오디오 객체에는 그 오디오 객체로부터 획득된 청각 지각(auditory perception)을 반영하는 공간적 범위가 제공될 수 있다. 이러한 오디오 객체는 VR 구현에서 렌더링될 하나 이상의 사운드 소스를 방출할 수 있다.
6 DoF 경험을 청취자에게 자연스럽고 현실적으로 생성하기 위해, 청취자의 방향성 경험 및 사운드 또는 오디오 소스(객체)의 공간적 범위가, 6 DoF 렌더링을 위해, 특히 가상 오디오 소스 주변 및 장면을 통한 탐색의 경험을 실현하기 위해 중요하다. 6 DoF 렌더링은 청취자의 청취 위치의 보다 큰 병진 변화를 추가적으로 수반하기 때문에, 정교한 구조를 갖는 오디오 객체 범위와 끊임없이 변화하는 청취 위치 사이의 복잡한 상호 작용이 6 DoF 렌더링 구현의 곤란함으로 이어질 수 있다. 특히, 이러한 위치-객체 상호 작용을 모델링하기 위해 증가되는 수의 매개변수가 요구되고, 이는 대응하는 오디오 처리에서의 매우 높은 계산 복잡도를 야기한다.
(MPEG-H 3D 오디오 렌더러(renderer)와 같은) 이용 가능한 오디오 렌더링 시스템은 통상적으로 청취자의 청취 위치의 병진 변화를 고려하지 않는 3 DoFs의 렌더링(즉, 청취자의 머리 움직임에 의해 야기되는 오디오 장면의 회전 움직임)으로 제한된다는 것에 유의할 수 있다. 심지어 3 DoF+도 단지 청취자의 청취 위치의 작은 병진 변화를 추가할 뿐 청취자의 보다 큰 병진 움직임은 고려하지 않는다. 따라서, 청취자의 보다 큰 병진 움직임을 고려하지 못하는 기존의 기법은 6 DoF 사운드의 진정한 몰입형 렌더링(truly immersive rendering)에서 어려움에 직면할 수 있다.
따라서, 오디오 객체의 6 DoF 렌더링을 구현하기 위해 간단한 방식을 제공할 필요가 있다. 특히, 6 DoF 렌더링을 위한 상당한 사용자 움직임을 고려하여 오디오 객체의 (공간적) 범위의 모델링을 단순화하는 것이 바람직할 수 있다.
일 측면에 따르면, 가상 또는 증강 현실 환경(또는 일반적으로, 컴퓨터-매개 현실 환경)에서의 오디오 렌더링을 위해 확장 오디오 객체를 모델링하는 (예컨대, 컴퓨터-구현) 방법이 설명된다. 방법은 확장 오디오 객체의 기하학적 형태를 나타내는 범위 표현 및 확장 오디오 객체와 연관된 하나 이상의 제1 오디오 소스에 관한 정보를 획득하는 단계를 포함할 수 있다. 하나 이상의 제1 오디오 소스는, 확장 오디오 객체와 연관되는 기록된 오디오 소스로서 오디오 센서를 사용하여 캡처될 수 있다. 구체적으로, 방법은 가상 또는 증강 현실 환경에서의 사용자 위치(즉, 청취자의 청취 위치)에 기초하여 확장 오디오 객체의 기하학적 형태(예컨대, 기하학적 형태를 나타내는 범위 표현)를 사용하여 상대 포인트(relative point)를 획득하는 단계를 포함할 수 있다. 또한, 방법은 사용자 위치 및 상대 포인트에 기초하여 범위 표현에 대한 범위 매개변수를 결정하는 단계를 포함할 수 있다.
특히, 범위 매개변수는 사용자 위치에서 지각된 확장 오디오 객체의 공간적 확장을 설명할 수 있다. 따라서, 확장 오디오 객체의 이러한 공간적 확장은 사용자 위치에 따라 변동될 수 있으며, 확장 오디오 객체는 다양한 사용자 위치에 대해 적응적으로 모델링될 수 있다는 것이 이해될 수 있다. 확장 오디오 객체를 효과적으로 모델링하기 위해, 방법은 또한 사용자 위치에 대해 하나 이상의 제2 오디오 소스의 위치를 결정하는 단계를 포함할 수 있다. 이러한 하나 이상의 제2 오디오 소스는 대응하는 사용자 위치에서 확장 오디오 객체를 모델링하기 위한 가상의 재현된 오디오 소스로서 간주될 수 있다. 나아가, 방법은 확장 오디오 객체를 모델링하기 위해 확장 오디오 객체의 수정된 표현을 출력하는 단계를 포함할 수 있다. 수정된 표현은 결정된 범위 매개변수 및 하나 이상의 제2 오디오 소스의 위치를 포함한다는 것에 유의할 수 있다.
위와 같이 구성되면, 제안된 방법은 간단한 매개변수로 확장 오디오 객체를 모델링하는 것을 허용한다. 특히, 확장 오디오 객체의 공간적 범위 및 주어진 사용자 위치에 대해 계산된 제2 (가상) 오디오 소스(들)의 대응하는 위치에 대한 지식으로, 확장 오디오 객체는 주어진 사용자 위치에 대응하는 적절한 (지각) 크기를 갖도록 효과적으로 모델링될 수 있고, 상기 적절한 (지각) 크기는 확장 오디오 객체의 후속 렌더링(예컨대, 6DoF)에 적용 가능할 수 있다. 이에 의해, 오디오 객체의 형태/위치/배향 및 사용자 위치의 움직임에 관한 세부 정보가 요구되지 않을 수 있기 때문에, 오디오 렌더링의 계산 복잡도가 감소될 수 있다.
환언하면, 제안되는 방법은, 범위 모델링 인터페이스/툴에 대한 입력으로서 6DoF 데이터(예컨대, 입력 오디오 객체 소스, 사용자 위치, 객체의 범위 기하학적 구조, 객체의 범위 위치/배향 등)를 간단한 정보로 효과적으로 변환시키며, 이는 필요한 엄청난 양의 데이터를 처리하지 않고도 오디오 객체의 효율적인 6DoF 렌더링을 허용한다.
일 실시형태에서, 확장 오디오 객체의 기하학적 형태를 나타내는 범위 표현은 확장 오디오 객체의 기하학적 형태에 대응(일치)한다. 예를 들어, 상대적으로 간단한 기하학적 형태의 경우, 확장 오디오 객체의 기하학적 형태가 범위 표현으로서 사용될 수 있다.
일 실시형태에서, 범위 매개변수는 확장 오디오 객체의 위치 및/또는 배향에 추가로 기초하여 결정될 수 있다. 또한, 방법은 하나 이상의 제1 오디오 소스에 기초하여 확장 오디오 객체를 모델링하기 위한 하나 이상의 제2 오디오 소스를 결정하는 단계를 더 포함할 수 있다. 당해 실시형태에 따르면, 방법은, 사용자 위치, 상대 포인트, 및 확장 오디오 객체의 위치 및/또는 배향에 기초하여, 범위 각도를 결정하는 단계를 더 포함할 수 있다. 예를 들어, 범위 각도는 사용자 위치에서 지각된 확장 오디오 객체의 공간적 확장을 나타내는 아크 척도일 수 있다. 범위 각도는 따라서, 상대 포인트, 및 확장 오디오 객체의 위치 및/또는 배향에 의존하는 상대 아크 척도(즉, 상대 범위 각도)를 지칭할 수 있다. 이 경우에, 범위 매개변수는 (상대) 범위 각도에 기초하여 결정될 수 있다.
위와 같이 구성되면, 제안되는 방법은 상이한 사용자 위치에서 오디오 객체의 공간적 범위/지각 크기의 정확한 추정을 획득하기 위한 단순화된 방법론을 제공하며, 이로 인해 간단한 매개변수를 사용하여 오디오 객체를 모델링하는 성능을 향상시킬 수 있다.
일 실시형태에서, 하나 이상의 제2 오디오 소스의 위치를 결정하는 단계는 사용자 위치, 상대 포인트, 및 확장 오디오 객체의 기하학적 형태에 기초하여 원 아크를 결정하는 단계를 포함할 수 있다. 또한, 하나 이상의 제2 오디오 소스의 위치를 결정하는 단계는 결정된 하나 이상의 제2 오디오 소스를 원 아크 상에 위치 지정하는 단계(positioning)를 더 포함할 수 있다. 나아가, 원 아크는 사용자 위치에서의 대응하는 아크 척도로서 (상대) 범위 각도에 관한 아크를 포함할 수 있고, 범위 각도 및 사용자 위치에 기초하여 결정될 수 있다. 일 실시형태에서, 위치 지정하는 단계는 모든 제2 오디오 소스를 원 아크에 등간격으로 분포시키는 단계를 수반할 수 있다. 또한, 위치 지정하는 단계는 제2 오디오 소스 간의 상관 레벨(correlation level) 및/또는 콘텐츠 생성자의 의도에 의존할 수 있다. 환언하면, 제2 오디오 소스는, 제2 오디오 소스 간의 상관 레벨 및/또는 콘텐츠 생성자의 의도에 기초하여 결정되는 적절한 거리 간격으로 원 아크 상에 배치될 수 있다.
일 실시형태에서, 범위 매개변수는 결정된 하나 이상의 제2 오디오 소스의 수(즉, 카운트)에 추가로 기초하여 결정될 수 있다. 특히, 결정된 하나 이상의 제2 오디오 소스의 수는 사용자 위치 및/또는 상대 포인트에 독립적인, 미리 결정된 상수일 수 있다. 대안적으로, 확장 오디오 객체를 모델링하기 위해 하나 이상의 제2 오디오 소스를 결정하는 단계는, (상대) 범위 각도에 기초하여 하나 이상의 제2 오디오 소스의 수를 결정하는 단계를 포함할 수 있다. 이 경우, 하나 이상의 제2 오디오 소스의 수는 범위 각도가 증가함에 따라 증가(즉, 수는 범위 각도와 양으로(positively) 상관될 수 있음)할 수 있다. 보다 구체적으로, 확장 오디오 객체를 모델링하기 위해 하나 이상의 제2 오디오 소스를 결정하는 단계는, 하나 이상의 제1 오디오 소스를 복제하거나 하나 이상의 제1 오디오 소스의 가중 혼합을 추가하고, 복제되거나 추가된 제1 오디오 소스에 역상관 프로세스를 적용시키는 단계를 더 포함할 수 있다. 즉, 제1 오디오 소스(들)는 결정된 제2 오디오 소스의 수를 획득하기 위해 복제될 수 있거나, 또는 이들의 가중 혼합이 추가될 수 있다.
위와 같이 구성되면, 방법은, 제2 (가상) 오디오 소스를 적절하게 규정하여, 정확하고 적응 가능한 방식으로 오디오 객체를 모델링하는 것을 허용한다. 특히, 다양한 사용자 위치, 상이한 입력 소스 및 형태/위치를 갖는 오디오 객체, 및 콘텐츠 생성자의 의도에 대해 모델링이 효과적으로 수행될 수 있다.
일 실시형태에서, 범위 표현은 확장 오디오 객체의 공간적 확장을 표현하기 위한 2차원 또는 3차원 기하학적 형태를 나타낼 수 있다. 나아가, 확장 오디오 객체는 2차원 또는 3차원으로 배향될 수 있다. 또한, 사용자 위치에서 지각되는 확장 오디오 객체의 공간적 확장은 확장 오디오 객체의 지각되는 폭, 크기 및/또는 규모로서 설명될 수 있다.
확장 오디오 객체의 기하학적 형태(예컨대, 기하학적 형태를 나타내는 범위 표현)를 사용하여, 가상 또는 증강 현실 환경에서의 사용자 위치에 가장 가까운 상대 포인트가 획득될 수 있다.
특히, 상대 포인트는 사용자 위치에 가장 가까운, 확장 오디오 객체의 기하학적 형태(예컨대, 기하학적 형태를 나타내는 범위 표현) 상의 포인트일 수 있다.
본 발명자는 놀랍게도, 확장 오디오 객체를 모델링하기 위해 사용자 위치에 가장 가까운 상대 포인트를 사용하는 것이, 확장 오디오 객체에 대해 상이한 사용자 위치에 대한 오디오 레벨 감쇠의 보다 양호한 제어로 이어지고, 따라서 확장 오디오 객체의 보다 양호한 모델링으로 이어진다는 것을 발견하였다.
일 실시형태에서, 확장 오디오 객체의 기하학적 형태를 나타내는 범위 표현을 사용하여 상대 포인트를 획득하는 단계는, 기하학적 형태 상의 상대 포인트를 획득하는 단계, 또는 기하학적 형태 또는 범위 표현으로부터 떨어진 거리에서의 상대 포인트를 획득하는 단계를 포함한다. 예를 들어, 상대 포인트는 기하학적 형태 상에 위치될 수 있다. 대안적으로, 상대 포인트는 범위 표현 또는 기하학적 형태로부터 떨어진 거리에 위치될 수 있다. 예를 들어, 상대 포인트는 범위 표현 또는 기하학적 형태의 경계 또는 근원으로부터 떨어진 거리에 위치될 수 있다.
일 실시형태에서, 방법은 사용자 위치와 상대 포인트를 연결하는 제1 라인에 직교하는 투영 평면 상에 확장 오디오 객체의 정투영을 획득하는 단계를 더 포함할 수 있다. 방법은 또한 정투영 상에서, 확장 오디오 객체의 투영 크기를 식별하는 복수의 경계 포인트를 결정하는 단계를 포함할 수 있다. 이 경우에, (상대) 범위 각도는 사용자 위치 및 복수의 경계 포인트를 사용하여 결정될 수 있다. 예를 들어, 범위 각도는, 두 개의 경계 포인트를 사용자 위치와 연결하고, 각각의 경계 포인트를 사용자 위치와 연결하는 두 개의 직선 사이의 각도를 범위 각도로 결정함으로써 결정될 수 있다.
구체적으로, 복수의 경계 포인트를 결정하는 단계는 확장 오디오 객체의 수평 투영 크기에 관한 제2 라인을 획득하는 단계를 포함할 수 있다. 따라서, 복수의 경계 포인트는 제2 라인 상의 정투영의 최좌측 경계 포인트 및 최우측 경계 포인트를 포함할 수 있다. 확장 오디오 객체의 배향에 의존하여, 수평 투영 크기는 확장 오디오 객체의 최대 크기일 수 있다. 일부 실시형태에서, 확장 오디오 객체는 복잡한 기하학적 형태를 가질 수 있고, 정투영은 복잡한 기하학적 구조를 갖는 확장 오디오 객체의 단순화된 투영을 포함할 수 있다. 이 경우에, 방법은, 확장 오디오 객체의 기하학적 형태 상의 상대 포인트를 획득하기 전에, 상대 포인트를 결정하는데 사용하기 위한 확장 오디오 객체의 단순화된 기하학적 형태를 획득하는 단계를 더 포함할 수 있다.
위와 같이 구성되면, 방법은 간단한 매개변수를 사용하여 오디오 객체를 모델링하는 것에 충분한 정확도를 제공함과 함께, 다양한 기하학적 형태를 갖는 오디오 객체의 공간적 범위/지각 크기의 추정을 단순화할 수 있게 한다.
일 실시형태에서, 방법은 확장 오디오 객체의 수정된 표현에 기초하여 확장 오디오 객체를 렌더링하는 단계를 더 포함할 수 있다. 확장 오디오 객체는 하나 이상의 제2 오디오 소스의 결정된 위치 및 범위 매개변수를 사용하여 렌더링될 수 있다. 특히, 렌더링은 6DoF 오디오 렌더링을 포함할 수 있다. 방법은 렌더링을 위해 사용자 위치, 확장 오디오 객체의 위치 및/또는 배향 및 기하학적 구조를 획득하는 단계를 더 포함할 수 있다.
일 실시형태에서, 방법은 범위 매개변수를 사용하여 확장 오디오 객체의 지각되는 크기를 제어하는 단계를 더 포함할 수 있다. 따라서, 확장 오디오 객체의 지각되는 크기를 제어함으로써 확장 오디오 객체는 포인트 소스(point source) 또는 와이드 소스(wide source)로서 모델링될 수 있다. 하나 이상의 제2 오디오 소스의 위치는, 모든 제2 오디오 소스가 사용자 위치로부터 동일한 기준 거리를 갖도록 결정될 수 있다는 것에 유의할 수 있다.
위의 구성에 의해, 간단한 매개변수를 사용하여 확장 오디오 객체가 효과적으로 모델링될 수 있다. 특히, 확장 오디오 객체의 공간적 범위 및 제2 (가상) 오디오 소스(들)의 대응하는 위치가 주어진 사용자 위치에 대해 계산되어, 주어진 사용자 위치에 대응하는 오디오 객체의 적절한 (지각) 크기(즉, 사용자 위치에서 지각될 수 있는 공간적 범위 크기)의 정확한 추정을 허용한다. 오디오 객체의 형태/위치/배향 및 사용자 위치의 움직임에 관한 세부 정보가 모델링을 위해 요구되지 않을 수 있기 때문에, 오디오 객체의 후속 렌더링(예컨대, 6DoF 렌더링)을 위한 처리가 그에 상응하여 단순화될 수 있다.
환언하면, 제안되는 방법은, 입력 인터페이스 데이터로서 간단한 매개변수를 요구할 수 있는 오디오 범위 모델링을 위해 6DoF 데이터(예컨대, 입력 오디오 객체 소스, 사용자 위치, 객체의 범위 기하학적 구조, 객체의 범위 위치/배향 등)의 자동 변환을 제공하며, 이는 복잡한 데이터 처리 없이 오디오 객체의 효율적인 6DoF 렌더링을 추가로 허용한다.
다른 측면에 따르면, 가상 또는 증강 현실 환경(또는 일반적으로, 컴퓨터-매개 현실 환경(computer-mediated reality environment))에서의 오디오 렌더링을 위해 확장 오디오 객체를 모델링하기 위한 장치가 설명된다. 장치는 프로세서 및 프로세서에 커플링되고 프로세서에 대한 명령어를 저장하는 메모리를 포함할 수 있다. 프로세서는 확장 오디오 객체의 기하학적 형태를 나타내는 범위 표현 및 확장 오디오 객체와 연관된 하나 이상의 제1 오디오 소스에 관한 정보를 획득하도록 구성될 수 있다. 하나 이상의 제1 오디오 소스는, 확장 오디오 객체와 연관되는 기록된 오디오 소스로서 오디오 센서를 사용하여 캡처될 수 있다. 구체적으로, 프로세서는 가상 또는 증강 현실 환경에서의 사용자 위치에 기초하여 확장 오디오 객체의 기하학적 형태 상의 상대 포인트를 획득하도록 구성될 수 있다. 또한, 프로세서는 사용자 위치 및 상대 포인트에 기초하여 범위 표현에 대한 범위 매개변수를 결정하도록 구성될 수 있다.
특히, 범위 매개변수는 사용자 위치에서 지각된 확장 오디오 객체의 공간적 확장을 설명할 수 있다. 따라서, 확장 오디오 객체의 이러한 공간적 확장은 사용자 위치에 따라 변동될 수 있으며, 확장 오디오 객체는 다양한 사용자 위치에 대해 적응적으로 모델링될 수 있다는 것이 이해될 수 있다. 나아가, 프로세서는 확장 오디오 객체를 모델링하기 위해 사용자 위치에 대해 하나 이상의 제2 오디오 소스의 위치를 결정하도록 구성될 수 있다. 이러한 하나 이상의 제2 오디오 소스는 대응하는 사용자 위치에서 확장 오디오 객체를 모델링하기 위한 가상의 재현된 오디오 소스로서 간주될 수 있다. 또한, 프로세서는 확장 오디오 객체를 모델링하기 위해 확장 오디오 객체의 수정된 표현을 출력하도록 구성될 수 있다. 특히, 수정된 표현은 범위 매개변수 및 하나 이상의 제2 오디오 소스의 위치를 포함할 수 있다.
위와 같이 구성되면, 제안되는 장치는 범위 모델링 인터페이스/툴에 대한 입력으로서 6DoF 데이터(예컨대, 입력 오디오 객체 소스, 사용자 위치, 객체의 범위 기하학적 구조, 객체의 범위 위치/배향 등)를 간단한 정보/매개변수로 효과적으로 변환시키며, 이는 필요되는 엄청난 양의 데이터를 처리하지 않고도 오디오 객체의 효율적인 6DoF 렌더링을 허용한다.
특히, 확장 오디오 객체의 공간적 범위 및 주어진 사용자 위치에 대해 계산된 제2 (가상) 오디오 소스(들)의 대응하는 위치에 대한 지식으로, 확장 오디오 객체는 주어진 사용자 위치에 대응하는 적절한 (지각된) 크기를 갖도록 효과적으로 모델링될 수 있고, 상기 적절한 (지각된) 크기는 확장 오디오 객체의 후속 렌더링(예컨대, 6DoF)에 적용 가능할 수 있다. 이에 의해, 오디오 객체의 형태/위치/배향 및 사용자 위치의 움직임에 관한 세부 정보가 요구되지 않을 수 있기 때문에 오디오 렌더링의 계산 복잡도가 감소될 수 있다.
다른 측면에 따르면, 가상 또는 증강 현실 환경(또는 일반적으로, 컴퓨터-매개 현실 환경)에서의 오디오 렌더링을 구현하기 위한 시스템이 설명된다. 시스템은 (예컨대, 위에서 설명된 바와 같은) 상기 제안된 장치 및 범위 모델링 유닛을 포함할 수 있다. 범위 모델링 유닛은 상기 장치로부터, 위에서 설명된 바와 같은 확장 오디오 객체의 수정된 표현에 관한 정보를 수신하도록 구성될 수 있다. 추가적으로, 범위 모델링 유닛은 수정된 표현에 관한 상기 정보(예컨대, 수정된 표현에 포함되는 범위 매개변수)에 기초하여 확장 오디오 객체의 범위 크기를 추가로 제어하도록 구성될 수 있다. 일부 실시형태에서, 시스템은 사용자 가상 현실 콘솔(예컨대, 헤드셋, 컴퓨터, 모바일 폰, 또는 가상 및/또는 증강 현실 환경에서 오디오를 렌더링하기 위한 임의의 다른 오디오 렌더링 디바이스)일 수 있거나 또는 그의 일부일 수 있다. 일부 실시형태에서, 시스템은 확장 오디오 객체의 수정된 표현에 관한 상기 정보 및/또는 제어된 범위 크기를 오디오 출력으로 송신하도록 구성될 수 있다.
추가 측면에 따르면, 컴퓨터 프로그램이 설명된다. 컴퓨터 프로그램은 컴퓨팅 디바이스에 의해 실행될 때, 본 개시 전반에 걸쳐 약술된 방법 단계들을 수행하기 위한 실행 가능한 명령어를 포함할 수 있다.
다른 측면에 따르면, 컴퓨터-판독 가능 저장 매체가 설명된다. 저장 매체는, 프로세서 상에서의 실행을 위해, 그리고 프로세서 상에서 수행될 때 본 개시 전반에 걸쳐 약술된 방법 단계들을 수행하기 위해 적응되는 컴퓨터 프로그램을 저장할 수 있다.
본 특허 출원에 약술된 바와 같은 그의 바람직한 실시형태를 포함하는 방법 및 시스템은 독립형(stand-alone)으로, 또는 본 문서에 개시된 다른 방법 및 시스템과 조합하여 사용될 수 있다는 것에 유의해야 한다. 나아가, 본 특허 출원에 약술된 방법 및 시스템의 모든 측면은 임의로 조합될 수 있다. 특히, 청구범위의 특징(feature)은 임의의 방식으로 서로 조합될 수 있다.
장치 특징 및 방법 단계들이 다수의 방식으로 상호 교환될 수 있다는 것이 인식될 것이다. 특히, 통상의 기술자가 인식하는 바와 같이, 개시된 방법(들)의 세부사항은 대응하는 장치에 의해 실현될 수 있고, 그 반대 또한 마찬가지이다. 또한, 방법(들)(및, 예컨대, 그의 단계들)에 관하여 이루어진 임의의 위의 진술들은 대응하는 장치(및, 예컨대, 그의 블록, 스테이지, 유닛)에 유사하게 적용되며, 그 반대 또한 마찬가지로 적용되는 것으로 이해된다.
본 발명은 첨부 도면을 참조하여 예시적인 방식으로 아래에서 설명된다.
도 1은 본 개시의 실시형태에 따른 예시적인 범위 모델링 툴의 개념도를 예시하고;
도 2(a)는 본 개시의 실시형태에 따른, 확장 오디오 객체의 오디오 렌더링을 구현하기 위해 상이한 사용자 위치를 포함하는 예시적인 오디오 장면을 예시하고;
도 2(b)는 본 개시의 실시형태에 따른, 도 2(a)에 예시되는 바와 같은 예시적인 오디오 장면 내의 대응하는 사용자 위치에 대한 범위 레벨을 예시하고;
도 3은 본 개시의 실시형태에 따른 확장 오디오 객체의 오디오 렌더링을 구현하기 위한 예시적인 흐름도를 예시하고;
도 4는 본 개시의 실시형태에 따른 확장 오디오 객체의 오디오 렌더링을 구현하기 위한 예시적인 블록도를 예시하고;
도 5(a) 내지 도 5(c)는 본 개시의 실시형태에 따른, 방법(300)에서 행해지는 바와 같은 확장 오디오 객체의 수정된 표현을 결정하기 위한 개략도를 예시하고;
도 6은 본 개시의 실시형태에 따른, 방법(300)에서 행해지는 바와 같은 확장 오디오 객체의 수정된 표현을 결정하기 위한 다른 개략도를 예시하고;
도 7(a) 내지 도 7(b)는 범위를 갖는 객체 소스에 대한 기준 거리의 정의를 예시하고; 그리고
도 8(a) 내지 도 8(c)는 본 개시의 실시형태에 따른, 도 2에 도시되는 바와 같은 상이한 사용자 위치에 대한 확장 오디오 객체의 각각의 결과적인 수정된 표현을 예시한다.
도 1은 본 개시의 실시형태에 따른 예시적인 범위 모델링 툴의 개념도를 예시하고;
도 2(a)는 본 개시의 실시형태에 따른, 확장 오디오 객체의 오디오 렌더링을 구현하기 위해 상이한 사용자 위치를 포함하는 예시적인 오디오 장면을 예시하고;
도 2(b)는 본 개시의 실시형태에 따른, 도 2(a)에 예시되는 바와 같은 예시적인 오디오 장면 내의 대응하는 사용자 위치에 대한 범위 레벨을 예시하고;
도 3은 본 개시의 실시형태에 따른 확장 오디오 객체의 오디오 렌더링을 구현하기 위한 예시적인 흐름도를 예시하고;
도 4는 본 개시의 실시형태에 따른 확장 오디오 객체의 오디오 렌더링을 구현하기 위한 예시적인 블록도를 예시하고;
도 5(a) 내지 도 5(c)는 본 개시의 실시형태에 따른, 방법(300)에서 행해지는 바와 같은 확장 오디오 객체의 수정된 표현을 결정하기 위한 개략도를 예시하고;
도 6은 본 개시의 실시형태에 따른, 방법(300)에서 행해지는 바와 같은 확장 오디오 객체의 수정된 표현을 결정하기 위한 다른 개략도를 예시하고;
도 7(a) 내지 도 7(b)는 범위를 갖는 객체 소스에 대한 기준 거리의 정의를 예시하고; 그리고
도 8(a) 내지 도 8(c)는 본 개시의 실시형태에 따른, 도 2에 도시되는 바와 같은 상이한 사용자 위치에 대한 확장 오디오 객체의 각각의 결과적인 수정된 표현을 예시한다.
위에서 약술된 바와 같이, 본 개시는 가상 및/또는 증강 현실 환경(또는 일반적으로 컴퓨터-매개 현실 환경)에서의 오디오 렌더링을 위한, 범위(extent)를 갖는 오디오 객체의 효과적인 모델링에 관한 것이다. 도 1은 본 개시의 실시형태에 따른 예시적인 범위 모델링 툴의 개념도를 예시한다. 본원에서, 모델링될 확장 오디오 객체(extended audio object)(101)는, 기록된 오디오 소스(들)로서 (예를 들어, 마이크로폰과 같은) 오디오 센서를 사용하여 캡처될 수 있는 하나 이상의 오디오 소스(102)와 연관된다. 일반적으로, 확장 오디오 객체(101)는 기하학적 형태를 갖는, 범위를 갖는 오디오 객체로서 간주될 수 있다. 하나 이상의 오디오 소스(102)에 관한 정보 및 기하학적 형태를 나타내는 범위 표현이 제공될 수 있다. 게다가, 하나 이상의 오디오 소스(102)는, 예를 들어, 확장 오디오 객체(101)와 연관되는 하나 이상의 포인트 소스 신호를 포함할 수 있다. 범위 모델링 툴(103)은 확장 오디오 객체(101)의 형태 및 하나 이상의 오디오 소스(102)에 관한 정보에 기초하여 확장 오디오 객체(101)를 모델링할 수 있다. 예를 들어, 하나 이상의 오디오 소스(102)의 위치는 범위 표현에 포함될 수 있다. 하나 이상의 오디오 소스(102) 그 자체가 범위 표현에 포함되거나 포함되지 않을 수 있다.
범위 모델링 툴(103)은 또한 가상 및/또는 증강 현실 환경에서의 사용자 위치(예컨대, 청취자의 청취 위치)에 기초하여 확장 오디오 객체(101)를 모델링할 수 있다. 즉, 사용자 위치에 의존하여, 확장 오디오 객체(101)는 상이한 범위 크기를 갖는 오디오 소스(예컨대, 와이드 소스 또는 포인트 소스)로서 모델링될 수 있다. 이는 (본래의) 범위 표현에 기초하여, 특정 사용자 위치에 대한 확장 오디오 객체(101)의 수정된 표현을 제공함으로써 달성될 수 있다. 따라서, 확장 오디오 객체(101)는 각각의 수정된 표현을 통해 상이한 사용자 위치에서 경험/지각되는 상이한 범위 크기를 갖는 것으로서 효과적으로 모델링될 수 있다.
도 2(a)는 본 개시의 실시형태에 따른, 확장 오디오 객체의 오디오 렌더링을 구현하기 위해 상이한 사용자 위치를 포함하는 예시적인 오디오 장면을 예시한다. 일례로서, 확장 오디오 객체는 큰 파도가 있는 "해변 앞(beach front)"을 포함할 수 있다. 다른 예는 당해 기술 분야의 통상의 기술자에게 알려져 있을 수 있다. 예시적인 오디오 장면이, 가상 또는 증강 현실 환경에서의 6DoF 오디오 렌더링을 구현하기 위해 적용될 수 있다. 본 실시형태에서, 객체 범위(201)는 2차원 또는 3차원으로 배향될 수 있는, 2차원 또는 3차원 기하학적 형태를 갖는 확장 오디오 객체로서 도시된다. 객체 범위(201)와 연관된 오디오 소스(202)에 대한 정보뿐만 아니라 범위 기하학적 구조(geometry), 위치 및 배향에 관한 정보를 포함하는, 객체 범위(201)의 기하학적 형태를 나타내는 (본래의) 범위 표현이 획득된다. 오디오 소스(202)가 본원에서 2개의 포인트 소스로서 예시되지만, 임의의 수 및 다른 종류의 오디오 소스가 본 개시의 맥락에서 실현 가능할 수 있다. 위에서 언급된 바와 같이, 오디오 소스(202)는 (예를 들어, 마이크로폰과 같은) 오디오 센서를 사용하여 캡처된 기록된 오디오 소스일 수 있다. 게다가, (예를 들어, 객체 범위(201)에 대한 상대 위치일 수 있는) 사용자 위치(203a, 203b, 203c)가 또한 획득된다. 예시되는 예시적인 장면에서, 사용자(203a) 및 사용자(203b)는 객체 범위(201)의 전방에 위치되지만 객체 범위(201)로부터 상이한 거리를 갖는 반면, 사용자(203c)는 객체 범위(201)의 일 측에 위치된다. 그러나, 사용자 위치로서 임의의 다른 장소가 장면에 포함될 수도 있다.
도 2(b)는 본 개시의 실시형태에 따른, 도 2(a)에 예시되는 예시적인 오디오 장면 내의 대응하는 사용자 위치에 대한 범위 레벨을 예시한다. 본원에서, 범위 레벨(204a, 204b, 204c)은 사용자 위치(203a, 203b, 203c)에서 객체 범위(201)의 각각의 지각을 표현한다. 본 실시형태에서, 범위 레벨은 특정 사용자 위치에서 지각되는 객체 범위(확장 오디오 객체)의 공간적 확장을 설명하는 범위 매개변수를 사용하여 규정될 수 있다. 특히, 객체 범위(201)의 지각(및 따라서, 범위 매개변수)은 상대적인 사용자-대-범위 기하학적 구조 위치 및 배향(예컨대, 범위 객체의 배향 및/또는 객체 범위에 대한 사용자 위치)에 의존할 수 있다. 예를 들어, 도 2(b)에 도시되는 바와 같이, 사용자는 개별적으로 대응하는 범위 레벨(204b 및 204c)을 갖는 사용자 위치(203b 및 203c)보다 사용자 위치(203a)에서 보다 큰 범위 레벨(204a)을 경험할 수 있다. 따라서, 이러한 범위 레벨을 사용자 위치와 관련시키고, 사용자 위치의 상당한 변화(즉, 큰 병진 움직임)가 발생할 수 있는 오디오 장면을 렌더링하기 위해 확장 오디오 객체를 모델링하기 위한 범위 매개변수를 간단히 사용하는 것이 이로울 수 있다.
도 3은 본 개시의 실시형태에 따른, 확장 오디오 객체의 오디오 렌더링을 구현하기 위한 예시적인 흐름도를 예시한다. 예시되는 바와 같이, 가상 및/또는 증강 현실 환경에서의 오디오 렌더링을 위해 객체 범위(201) 또는 확장 오디오 객체(101)와 같은 확장 오디오 객체를 모델링하기 위한 방법(300)이 수행될 수 있다. 단계 301에서, 확장 오디오 객체의 기하학적 형태를 나타내는 범위 표현 및 확장 오디오 객체와 연관된 하나 이상의 제1 오디오 소스에 관한 정보가 획득된다. 단계 302에서, 확장 오디오 객체의 기하학적 형태(예컨대, 그 기하학적 형태를 나타내는 범위 표현) 상의 상대 포인트가 가상 또는 증강 현실 환경에서의 사용자 위치에 기초하여 획득(예컨대, 결정)된다. 단계 303에서, 범위 매개변수(예컨대, 확장 오디오 객체의 지각된/공간적 확장을 표현하는 범위 레벨을 나타냄)가 사용자 위치 및 상대 포인트에 기초하여 범위 표현에 대해 결정된다. 위에서 나타낸 바와 같이, 범위 매개변수는 사용자 위치에서 지각된 확장 오디오 객체의 공간적 확장을 설명할 수 있다.
단계 304에서, 확장 오디오 객체를 모델링하기 위해 사용자 위치에 대한 하나 이상의 제2 오디오 소스의 위치가 결정된다. 직접적인 기록을 통해 캡처되었을 수 있는 제1 오디오 소스(들)와 달리, 하나 이상의 제2 오디오 소스는 아래에서 상세히 설명되는 바와 같이, 예를 들어, 중복(duplication) 및/또는 오디오 처리(예를 들어, 필터링을 포함함)를 통해, 제1 오디오 소스(들)에 기초하여 결정된 가상의 재현된 오디오 소스일 수 있다. 후속적으로, 확장 오디오 객체를 모델링하기 위해 단계 305에서 확장 오디오 객체의 수정된 표현이 출력된다. 수정된 표현은 주어진 사용자 위치에 대한 하나 이상의 제2 오디오 소스의 결정된 위치 및 범위 매개변수를 포함할 수 있다는 것에 유의한다. 따라서, 확장 오디오 객체는 이러한 특정 위치에 대해 계산되는 제2 오디오 소스(들)의 대응하는 위치 및/또는 확장 오디오 객체의 공간적 범위에 대한 지식을 포함하는 간단한 매개변수로, 특정 사용자 위치에 대해 효과적으로 모델링될 수 있다.
환언하면, 제안되는 방법(300)은 범위 모델링 인터페이스/툴(예컨대, 범위 모델링 툴(103))에 대한 입력으로서 6DoF 데이터(예컨대, 입력 오디오 객체 소스, 사용자 위치, 객체의 범위 기하학적 구조, 객체의 범위 위치/배향 등)를 간단한 정보(예컨대, 수정된 표현에 포함되는 범위 매개변수 및 제2 오디오 소스의 위치)로 효과적으로 변환시키며, 상기 범위 모델링 인터페이스/툴은 일부 구현에서 레거시(legacy) 인터페이스/툴일 수 있다.
나아가, 확장 오디오 객체의 후속 렌더링이 확장 오디오 객체의 수정된 표현에 기초하여 수행될 수 있다. 이 경우, 확장 오디오 객체는 하나 이상의 제2 오디오 소스의 결정된 위치 및 범위 매개변수를 사용하여 렌더링될 수 있다. 일부 실시형태에서, 렌더링은 확장 오디오 객체의 6DoF 오디오 렌더링일 수 있다. 이 경우, 렌더링을 위해 사용자 위치 이외에 확장 오디오 객체의 위치 및/또는 배향 및 기하학적 구조가 획득될 수 있다. 따라서, 범위 매개변수는 확장 오디오 객체의 위치 및/또는 배향에 추가로 기초하여 결정될 수 있다.
도 4는 본 개시의 실시형태에 따른 확장 오디오 객체의 오디오 렌더링을 구현하기 위한 예시적인 블록도를 예시한다. 특히, 시스템(400)은 가상 및/또는 증강 현실 환경에서의 오디오 렌더링을 위해 확장 오디오 객체를 모델링하기 위한 장치를 포함한다. 본 실시형태에서, 시스템(400)은 헤드셋, 컴퓨터, 모바일 폰, 또는 가상 및/또는 증강 현실 환경에서 오디오를 렌더링하기 위한 임의의 다른 오디오 렌더링 디바이스와 같은, 사용자 가상 현실 콘솔일 수 있거나 또는 그의 일부일 수 있다.
일부 실시형태에서, 장치는, 예를 들어, 방법(300)의 모든 단계를 수행하도록 구성되는 프로세서, 및 프로세서에 커플링되고 프로세서에 대한 명령어를 저장하는 메모리를 포함하는 매개변수 변환 유닛(401)의 형태일 수 있다. 특히, 매개변수 변환 유닛(401)은, 예를 들어, 입력 오디오 객체 소스, 사용자 위치(403) 및 확장 오디오 객체(402)(예컨대, 확장 오디오 객체(101) 또는 객체 범위(201))의 범위 기하학적 구조, 위치 및/또는 배향에 관한 정보를 포함하는 6DoF 데이터와 같은 오디오 장면 데이터를 수신하도록 구성될 수 있다. 매개변수 변환 유닛(401)은 전술된 방법(300)의 단계(301 내지 305)를 수행하도록 추가로 구성될 수 있다. 따라서, 매개변수 변환 유닛(401)은 수신된 오디오 장면 데이터를, 특정 장소에서 경험된 확장 오디오 객체의 지각된/공간적 확장을 표현하는 범위 레벨을 나타내는 범위 매개변수(405) 및 제2 (가상) 오디오 소스(들)(404)에 관한 정보(예컨대, 제2 오디오 소스(들)의 신호 데이터 및 객체 위치)를 포함하는, (예컨대, 확장 오디오 객체의 수정된 표현으로서의) 단순화된 정보로 변환시킨다. 매개변수 변환 유닛(401)은, 오디오를 사용자에게 출력하기 위해 직접 또는 다른 처리 컴포넌트 중 어느 하나를 통해 (예컨대, 시스템(400) 내부 또는 외부의) 오디오 렌더링 유닛에 이 (단순화된) 정보를 전송할 수 있다(또는 대안적으로, 예컨대, 적절한 디바이스 스피커를 통해 오디오를 사용자에게 출력하는 오디오 렌더링 유닛의 일부일 수 있다). 따라서, 시스템(400)은, 오디오 렌더링 디바이스의 일부일 때, 변환된 매개변수(예컨대, 수정된 표현에 관련된 위에서 언급된 단순화된 정보)를 오디오 렌더링 디바이스의 오디오 출력으로 송신할 수 있다.
일부 실시형태에서, 매개변수 변환 유닛(401)에 의해 출력된 단순화된 정보는 후속적으로, 입력 인터페이스 데이터로서 범위 모델링 유닛(406)에 제공될 수 있다. 범위 모델링 유닛(406)(범위 모델링 툴, 예컨대, 범위 모델링 툴(103)로도 알려짐)은 단순화된 정보에 포함된 범위 매개변수에 기초하여 (예컨대, 렌더링되는) 확장 오디오 객체의 범위 크기를 제어할 수 있다. 예를 들어, 확장 오디오 객체의 지각되는 크기는 범위 매개변수를 사용하여 제어될 수 있고, 확장 오디오 객체는 상기 범위 매개변수에 의해 포인트 소스 또는 와이드 소스로서 모델링될 수 있다. 따라서, 범위 매개변수(예컨대, 범위 레벨)를 간단히 조정(tuning)함으로써, 특정 사용자 위치에 대응하는 적절한 (지각된) 크기가 확장 오디오 객체의 후속 렌더링(예컨대, 6DoF 렌더링)에 제공될 수 있다. 이는 확장 오디오 객체의 6DoF 렌더링을 구현하기 위한 단순화된 시스템을 제공한다. 그 결과, 오디오 객체의 형태/위치/배향 및 사용자 위치의 (병진) 움직임에 관한 세부 정보가 렌더링/모델링에 요구되지 않을 수 있으며, 이는 6DoF 렌더링이 (예컨대, 3DoF 렌더링에 적합한) 기존의 오디오 렌더링 기법에 의해 수행되는 것을 추가로 허용하고, 이에 의해 6DoF 오디오 렌더링의 계산 복잡도를 또한 감소시킬 수 있다.
환언하면, 6DoF 장면 데이터의 자동 변환이, 입력 인터페이스 데이터로서 간단한 매개변수를 요구할 수 있는 오디오 범위 모델링을 위해 제안된 방법(300) 및/또는 시스템(400)에 의해 제공되고, 이는 렌더링을 위해 복잡한 데이터 처리를 요구하지 않으면서 이용 가능한 기존 시스템을 사용하여 오디오 객체의 효율적인 6DoF 렌더링을 허용한다.
도 5(a) 내지 도 5(c)는 본 개시의 실시형태에 따른, 방법(300)에서 행해지는 바와 같은 확장 오디오 객체의 수정된 표현을 결정하기 위한 개략도를 예시한다. 범위 표현은 3차원으로 배향되는 확장 오디오 객체의 공간적 확장을 표현하기 위해 3차원 기하학적 형태를 나타낸다고 가정한다. 도 5에 도시되는 예시적인 실시형태에서, 범위 표현은 확장 오디오 객체의 지각되는 폭, 크기 및/또는 규모(massiveness)로서 설명될 수 있고, 주어진 사용자 위치에서 지각되는 확장 오디오 객체의 공간적 확장을 표현하는 직육면체를 나타낸다. 그러나 범위 표현은 또한, 객체 범위를 표현하기 위해 다른 입체 형상(solid shape) 또는 보다 복잡한 기하학적 구조를 나타낼 수도 있다. 3차원(3D) 기하학적 구조를 2차원(2D) 사용자 관찰 도메인으로 변환시키는 제1 스테이지의 일례가 도 5(a)에 예시된다. 이어서, 도 5(b)에 예시되는 바와 같이, 제2 스테이지는 2D 사용자 관찰 도메인에서 주어진 사용자 위치에 대한 범위 매개변수(예컨대, 범위 레벨)를 결정하고, 도 5(c)의 예에서 예시되는 바와 같이, 제3 스테이지는 1차원(1D) 뷰에 따라 하나 이상의 제2 오디오 소스의 위치를 결정한다.
도 5(a)의 예에서 알 수 있는 바와 같이, 사용자(501)는 3차원으로 배향되는 확장 오디오 객체(503)의 전방에 위치된다. 확장 오디오 객체(503)는 확장 오디오 객체(503)의 공간적 확장을 나타내는 3D 기하학적 형태로 표현된다. 예시적인 실시형태에 따르면, 사용자(501)에 가장 가까운, 확장 오디오 객체(503)의 기하학적 형태 상의 포인트(502)가 (예컨대, 상대 포인트로서) 획득(예컨대, 결정)될 수 있다. 선택적으로, 사용자 위치(501)와 포인트(502)를 연결하는 제1 라인(505)에 직교하는 투영 평면(504)이 획득(예컨대, 결정)될 수 있다. 투영 평면(504) 상에, 확장 오디오 객체(503)의 정투영(506)이 획득(예컨대, 결정)될 수 있다. 후속적으로, 확장 오디오 객체(503)의 (예컨대, 투영 상의) 수평 크기를 특징짓는 제2 라인(507)이 획득(예컨대, 결정)될 수 있다. 제2 라인(507)은 제1 라인(505)과 함께 (예컨대, 관찰 평면으로서의) 평면(508)을 형성할 수 있다. 따라서, 도 5(a)에 예시되는 제1 스테이지는 확장 오디오 객체(503)의 3D 기하학적 구조를 2D 관찰 평면(508)으로 변환시킨다.
도 5(b)의 예에서 알 수 있는 바와 같이, 복수의 경계 포인트(509, 510)가 정투영(506) 상에서 결정될 수 있다. 특히, 경계 포인트(509, 510)는 제2 라인(507) 상의 원근 투영(perspective projection)(506)의 최좌측 및 최우측 경계를 포함할 수 있다. 따라서, 복수의 경계 포인트(509, 510)는 확장 오디오 객체(503)의 투영 크기를 식별할 수 있다. 결정된 경계 포인트(509, 510) 및 사용자 위치(501)를 사용하여, (예컨대, 범위 매개변수로서의) 범위 레벨을 표현하는 범위 각도(x0)가 그에 상응하여, 예를 들어 삼각법 계산에 의해 계산될 수 있다. 즉, 범위 각도(x0)는 사용자 위치(501)와 경계 포인트(509, 510)를 각각 연결하는 두 개의 라인 사이의 각도로서 결정될 수 있다. 위에서 언급된 바와 같이, 범위 각도(x0)는 따라서, 상대 포인트, 및 확장 오디오 객체의 위치 및/또는 배향에 의존하는 상대 아크 척도(relative arc measure)(즉, 상대 범위 각도)를 지칭할 수 있다. 나아가, 원 아크(circle arc)(513)가 또한 사용자 위치(501), 상대 포인트(502), 및 확장 오디오 객체(503)의 기하학적 형태에 기초하여 결정될 수 있다. 특히, 원 아크(513)는 사용자 위치(501)에서의 대응하는 아크 척도로서 범위 각도(x0)에 관한 아크일 수 있고, 범위 각도(x0) 및 사용자 위치(501)에 기초하여 결정될 수 있다.
위에서 언급된 바와 같이, 확장 오디오 객체의 위치 및/또는 배향은 또한 범위 매개변수를 결정하는 데 사용될 수 있다. 보다 구체적으로, 사용자 위치(501), 상대 포인트(502), 및 확장 오디오 객체(503)의 위치 및/또는 배향은 범위 매개변수가 기반으로 할 수 있는 범위 각도(x0)를 결정하는 데 사용될 수 있다. 전술한 바와 같이, 범위 각도(x0)는 삼각법 연산의 사용으로 결정(예컨대, 계산)될 수 있다. 결정된 범위 레벨(예컨대, 스칼라 양으로서) 및 따라서 이 스테이지에서 획득되는 대응하는 아크가, 아래에서 설명되는 제3 스테이지에서 행해지는 바와 같이, 오디오 소스 위치 지정(positioning)을 위해 사용될 수 있다는 것이 추가로 인식될 수 있다.
범위 각도(x0) 및 대응하는 원 아크(513)를 결정한 후, 하나 이상의 제2 오디오 소스(511)가 도 5(c)의 예에서 예시되는 바와 같이, 원 아크(513) 상에 위치될 수 있다. 아크(513) 상에 위치되는 오디오 소스는 사용자(501)에 대해 동일하게 소리가 클(loud) 수 있고(예컨대, 동일하게 소리가 큰 것으로 지각될 수 있음) 동일한 기준 거리를 가질 수 있다는 것에 유의할 수 있다. 선택적으로, 제2 오디오 소스(511)의 수(카운트)가 범위 각도(x0)에 기초하여 결정될 수 있다. 예를 들어, 작은 각도에 대해 오직 하나의 제2 오디오 소스(N=1)가 적용될 수 있는 반면, 큰 각도에 대해 하나보다 많은 제2 오디오 소스(N>1)가 적용될 수 있다. 즉, 제2 오디오 소스(들)(511)의 수는 범위 각도(x0)가 증가함에 따라 증가할 수 있다. 대안적으로, 제2 오디오 소스(들)(511)의 수(N)는 사용자 위치(501) 및/또는 상대 포인트(502)에 독립적인(예컨대, 범위 각도(x0), 범위 레벨(512), 및 원 아크(513)의 길이에 독립적인), 미리 결정된 상수일 수 있다.
후속적으로, 확장 오디오 객체(503)를 모델링하기 위해, (상대) 범위 각도(x0) 및 제2 오디오 소스(들)(511)의 수(N)에 의존하여 범위 레벨(512)이 설정/결정될 수 있다. 특히, 제2 오디오 소스(들)(511)는 원 아크(513) 상에 배치/위치될 수 있다. 하나보다 많은 제2 오디오 소스(즉, N>1)의 경우에, 이들 이용 가능한 N개의 오디오 소스(511)는, 모든 제2 오디오 소스(511)가 사용자에 대해 동일하게 소리가 크거나(즉, 동일하게 소리가 큰 것으로 지각됨) 및/또는 적절한 거리 감쇠를 위해 아크(513) 상의 포인트로부터 계산되는 동일한 기준 거리(예컨대, 사용자 위치로부터 상대 포인트(502)까지의 거리)를 갖도록 원 아크(513) 상에 위치될 수 있다. 예를 들어, 제2 오디오 소스(511)는 원 아크(513) 상에 등간격으로 분포될 수 있으며, 즉, 원 아크(513) 상에 인접한 제2 오디오 소스(511)를 서로 동일한 거리로 분리하여 배치/위치될 수 있다. 2개 이상의 제2 오디오 소스가 고려되는 일부 실시형태에서, 위치 지정은, 도 5(c)의 예에서 N=2인 경우에 도시되는 바와 같이, 제2 오디오 소스(511) 간의 상관 레벨 및/또는 콘텐츠 생성자의 의도에 의존할 수 있다. 예를 들어, 인접한 제2 오디오 소스(511) 각각의 쌍은 (예컨대, 이들 본래의 기록 또는 중복, 역상관 필터링 등과 같은 (추가/인공) 처리에 따라) 상이한 역상관 레벨을 가질 수 있다. 높은(또는 보다 높은) 역상관 레벨을 갖는 한 쌍의 제2 오디오 신호(511) 사이의 거리(D2)는 낮은(또는 보다 낮은) 역상관 레벨을 갖는 한 쌍의 제2 오디오 신호(511) 사이의 거리(D1)보다 클 수 있다.
하나 이상의 제2 오디오 소스(511)는, 예를 들어, 제1 오디오 소스(들)의 수를 증가시킴으로써 (본래의) 제1 오디오 소스로부터 결정될 수 있다는 것에 추가로 유의할 수 있다. 이는 하나 이상의 제1 오디오 소스를 복제하거나 및/또는 하나 이상의 제1 오디오 소스의 가중 혼합(weighted mix)을 추가한 다음, 복제된 및/또는 추가된 제1 오디오 소스에 역상관 프로세스를 적용시킴으로써 달성될 수 있다. 예를 들어, 확장 오디오 객체에 대해 오직 하나 또는 소수(few)의 제1 오디오 소스가 기록/캡처된 경우, 제2 오디오 소스를 결정하기 위해 하나 또는 소수의 제1 오디오 소스의 복제에 의해 오디오 소스의 수가 증가될 수 있다. 대안적으로, 복수의 제1 오디오 소스의 경우에, 이들의 가중 혼합을 추가함으로써 제2 오디오 소스가 결정될 수 있다. 최종 제2 오디오 소스를 획득하기 위해 신호 역상관 프로세스의 후속 적용이 수행될 수 있다.
도 6은 본 개시의 실시형태에 따른, (예컨대, 방법(300)에서 행해지는 바와 같은) 확장 오디오 객체의 수정된 표현을 결정하기 위한 일례의 다른 개략도를 예시한다. 도 5는 확장 오디오 객체(503)의 공간적 확장을 표현하기 위해 직육면체를 예시하지만, 도 6의 예는 확장 오디오 객체(603)가 복잡한 기하학적 구조(예컨대, 차량)를 가질 수 있는 경우를 도시한다. 도 5의 실시형태와 유사하게, 사용자(601)는 3차원으로 배향되는 확장 오디오 객체(603)의 전방에 위치된다. 그러나, 이 예시적인 실시형태에서, 단계(301 및 303)를 단순화하기 위해 제안된 방법(300)의 단계(301)를 적용하기 전에 예를 들어, 타원체를 도시하는 단순화된 범위 표현(605)이 획득될 수 있다. 환언하면, 범위 객체가 복잡한 기하학적 구조를 갖는 이러한 실시형태에 대해, 방법(300)은, 확장 오디오 객체의 기하학적 형태 상의 상대 포인트를 획득하기 전에 또는 획득하기 위해, 상대 포인트를 결정하는데 사용하기 위한 확장 오디오 객체의 단순화된 기하학적 형태(단순화된 범위 기하학적 구조)(605)를 획득하는 단계를 더 포함할 수 있다. 따라서, 위에서 설명된 바와 같이, 범위 각도/레벨(604)의 후속 결정을 위해 확장 오디오 객체(603)의 단순화된 정투영(606)이 획득될 수 있다.
도 5로 돌아가면, 제2 오디오 소스(511)는 사용자 위치(501)에 대해 동일한 기준 거리를 갖도록 원 아크(513) 상에 위치될 수 있다. 기준 거리는 - 사용되는 거리 감쇠 법칙으로부터 독립적으로 - 오디오 소스 요소의 계산되는 감쇠가 최소, 예컨대, 0dB인 거리(예컨대, 사용자-소스 거리)를 명시하는 것으로 인식될 수 있다. 범위를 갖는 객체 소스에 대해, 이러한 사용자-소스 거리는, 개별적으로, 도 7(a) 및 도 7(b)의 예에서 도시되는 바와 같이, 범위의 근원(origin)(예컨대, 그의 "위치" 속성)에 대해 또는 범위 그 자체에 대해 측정될 수 있다. 도 7(a)의 예에서, 기준 거리(Dref)가 객체 범위(701a)의 원점(origin point)(702a)에 대해 규정되는 반면, 도 7(b)의 예에서, 기준 거리(Dref)는, 도 5의 예에서 상대 포인트(502)에 의해 또한 표시되는 바와 같이, 객체 범위(701b)의 가장 가까운 포인트에 대해 규정된다. 따라서, 도 7(a) 및 도 7(b)를 참조하면, 사용자 위치에 가장 가까운 상대 포인트가 파선 상에 위치될 것이다. 도 7(a)의 예에서, 상대 포인트는 객체 범위(701a)의 근원(702a)으로부터 기준 거리(Dref)에 위치된다. 도 7(b)의 예에서, 상대 포인트는 객체 범위(701b)로부터 기준 거리(Dref)에 위치된다. 도 5(b)를 참조하면, (예컨대, 사용자(501)에 가장 가까운 포인트로서의) 상대 포인트(502)가 또한 아크(513) 상에 위치되기 때문에, 아크(513) 상에 배치되는 제2 오디오 소스는 감쇠가 최소를 나타낼 수 있는 상대 포인트(502)와 동일한 기준 거리를 갖는다.
도 8(a) 내지 도 8(c)는 본 개시의 실시형태에 따른, 도 2에 도시되는 바와 같은 상이한 사용자 위치에 대한 확장 오디오 객체의 각각의 결과적인 수정된 표현의 예를 예시한다. 도 2에 예시되는 오디오 장면과 유사하게, 사용자(803a) 및 사용자(803b)는 객체 범위(801)의 전방에, 하지만 객체 범위(801)로부터 상이한 거리에 위치되는 반면, 사용자(803c)는 객체 범위(801)의 일 측에 위치된다. 사용자 위치로서 임의의 다른 장소가 장면에 포함될 수도 있다는 것이 인식될 수 있다. 따라서, 결과적인 범위 레벨(804a, 804b, 804c)은 사용자 위치(803a, 803b, 803c)에서 객체 범위(801)의 각각의 지각(예컨대, 공간적 확장)을 표현한다. 도 8의 예에서 도시되는 바와 같이, 사용자 위치(803a)에서의 결과적인 범위 레벨(804a)은 사용자 위치(803b)에서의 결과적인 범위 레벨(804b)보다 크며, 이는 또한 객체 범위(801)를 모델링하기 위해 보다 많은 수의 제2 오디오 소스(802a)가 결정(및 배치)되는 것을 허용할 수 있다. 유사하게, 사용자 위치(803b)에서의 결과적인 범위 레벨(804b)은 사용자 위치(803c)에서의 결과적인 범위 레벨(804c)보다 크며, 이는 또한 객체 범위(801)를 모델링하기 위해 보다 많은 수의 제2 오디오 소스(802b)가 결정(및 배치)되는 것을 허용할 수 있다. 이 예에서, 사용자 위치(803a)에 대한 수정된 표현은 5개의 제2 오디오 소스(802a)를 포함하고, 사용자 위치(803b)에 대한 수정된 표현은 2개의 제2 오디오 소스(802b)를 포함하고, 사용자 위치(803c)에 대한 수정된 표현은 오직 하나의 제2 오디오 소스(802c)만을 포함한다.
해석
본원에서 설명되는 시스템의 측면은 디지털 또는 디지털화된 오디오 파일을 처리하기 위한 적절한 컴퓨터-기반 사운드 처리 네트워크 환경(예컨대, 서버 또는 클라우드 환경)에서 구현될 수 있다. 적응형 오디오 시스템의 부분들은 컴퓨터 사이에서 송신된 데이터를 버퍼링하고 라우팅하는 역할을 하는 하나 이상의 라우터(도시되지 않음)를 포함하는, 임의의 원하는 수의 개별 기계를 포함하는 하나 이상의 네트워크를 포함할 수 있다. 이러한 네트워크는 다양한 상이한 네트워크 프로토콜 상에서 구축될 수 있고, 인터넷, 광역 네트워크(Wide Area Network, WAN), 근거리 네트워크(Local Area Network, LAN) 또는 이들의 임의의 조합일 수 있다.
컴포넌트, 블록, 프로세스 또는 다른 기능적 컴포넌트 중 하나 이상은 시스템의 프로세서-기반 컴퓨팅 디바이스의 실행을 제어하는 컴퓨터 프로그램을 통해 구현될 수 있다. 본원에서 개시되는 다양한 기능은, 이들 거동(behavioral), 레지스터 전달, 로직 컴포넌트, 및/또는 다른 특징의 관점에서, 다양한 기계-판독 가능 또는 컴퓨터-판독 가능 매체에 구현되는 데이터 및/또는 명령어로서, 및/또는 하드웨어, 펌웨어의 임의의 수의 조합을 사용하여 설명될 수 있다는 것에 또한 유의해야 한다. 이러한 포맷된 데이터 및/또는 명령어가 구현될 수 있는 컴퓨터-판독 가능 매체는 광학, 자기 또는 반도체 저장 매체와 같은 다양한 형태의 물리적(비-일시적), 비휘발성 저장 매체를 포함하지만, 이에 제한되지 않는다.
구체적으로, 실시형태는, 논의의 목적을 위해, 컴포넌트의 대다수가 하드웨어에서 단독으로 구현된 것처럼 예시되고 설명될 수 있는, 하드웨어, 소프트웨어 및 전자 컴포넌트 또는 모듈을 포함할 수 있다는 것이 이해되어야 한다. 그러나, 당해 기술 분야의 통상의 기술자는, 그리고 이 상세한 설명의 읽기(reading)에 기초하여, 적어도 하나의 실시형태에서, 전자-기반 측면이 마이크로프로세서 및/또는 애플리케이션 특정 집적 회로(application specific integrated circuit)("ASIC")와 같은 하나 이상의 전자 프로세서에 의해 실행 가능한 소프트웨어(예컨대, 비일시적 컴퓨터-판독 가능 매체에 저장됨)에서 구현될 수 있다는 것을 인지할 것이다. 따라서, 복수의 하드웨어 및 소프트웨어-기반 디바이스뿐만 아니라 복수의 상이한 구조적 컴포넌트가 실시형태를 구현하기 위해 활용될 수 있다는 것에 유의해야 한다. 예를 들어, 본원에서 설명되는 "콘텐츠 활성 검출기(content activity detector)"는 하나 이상의 전자 프로세서, 하나 이상의 컴퓨터-판독 가능 매체 모듈, 하나 이상의 입력/출력 인터페이스, 및 다양한 컴포넌트를 연결하는 다양한 연결(예컨대, 시스템 버스)을 포함할 수 있다.
하나 이상의 구현이 예로써 그리고 특정 실시형태의 관점에서 설명되었지만, 하나 이상의 구현은 개시된 실시형태에 제한되지 않는다는 것이 이해되어야 한다. 반대로, 당해 기술 분야의 통상의 기술자에게 명백할 바와 같은 다양한 수정 및 유사한 배열을 커버하도록 의도된다. 따라서, 첨부된 청구범위의 범주는 그러한 모든 수정 및 유사한 배열을 포괄하도록 가장 넓은 해석으로 부여되어야 한다.
또한, 본원에서 사용되는 어법(phraseology) 및 용어는 설명을 위한 것이며, 제한적인 것으로 간주되어서는 안 된다는 것이 이해되어야 한다. “포함하는(including)”, “포함하는(comprising)”, 또는 “갖는(having)” 및 이들 변형의 사용은, 그 후에 나열되는 항목 및 이의 등가물뿐만 아니라 추가적인 항목을 포괄한다는 것을 의미한다. 달리 명시 또는 제한되지 않는 한, "장착된", "연결된", "지원된", 및 "커플링된"이라는 용어 및 이들의 변형은 광범위하게 사용되며 직접적 및 간접적인 장착, 연결, 지원 및 커플링 모두를 포괄한다.
열거되는 예시적 실시형태
본 개시의 다양한 측면 및 구현이 청구범위가 아닌 다음의 열거되는 예시적 실시형태(EEE)로부터 또한 인식될 수 있다.
EEE1. 가상 또는 증강 현실 환경에서의 오디오 렌더링을 위해 확장 오디오 객체를 모델링하는 방법으로서, 상기 방법은: 확장 오디오 객체의 기하학적 형태를 나타내는 범위 표현 및 확장 오디오 객체와 연관된 하나 이상의 제1 오디오 소스에 관한 정보를 획득하는 단계; 가상 또는 증강 현실 환경에서의 사용자 위치에 기초하여 확장 오디오 객체의 기하학적 형태 상의 상대 포인트를 획득하는 단계; 사용자 위치 및 상대 포인트에 기초하여 범위 표현에 대한 범위 매개변수를 결정하는 단계 - 범위 매개변수는 사용자 위치에서 지각된 확장 오디오 객체의 공간적 확장을 설명함 -; 확장 오디오 객체를 모델링하기 위해 사용자 위치에 대해 하나 이상의 제2 오디오 소스의 위치를 결정하는 단계; 및 확장 오디오 객체를 모델링하기 위해 확장 오디오 객체의 수정된 표현을 출력하는 단계 - 수정된 표현은 범위 매개변수 및 하나 이상의 제2 오디오 소스의 위치를 포함함 - 를 포함하는, 방법.
EEE2. EEE1에 있어서, 하나 이상의 제1 오디오 소스에 기초하여 확장 오디오 객체를 모델링하기 위한 하나 이상의 제2 오디오 소스를 결정하는 단계를 더 포함하는, 방법.
EEE3. EEE1 또는 EEE2에 있어서, 범위 매개변수는 확장 오디오 객체의 위치 및/또는 배향에 추가로 기초하여 결정되는, 방법.
EEE4. EEE3에 있어서, 사용자 위치, 상대 포인트, 및 확장 오디오 객체의 위치 및/또는 배향에 기초하여 상대 범위 각도를 결정하는 단계를 더 포함하고, 범위 매개변수는 상대 범위 각도에 기초하여 결정되는, 방법.
EEE5. EEE1 내지 EEE4 중 어느 하나에 있어서, 하나 이상의 제2 오디오 소스의 위치를 결정하는 단계는, 사용자 위치, 상대 포인트 및 확장 오디오 객체의 기하학적 형태에 기초하여 원 아크를 결정하는 단계; 및 결정된 하나 이상의 제2 오디오 소스를 원 아크 상에 위치 지정하는 단계를 포함하는, 방법.
EEE6. EEE5에 있어서, 위치 지정하는 단계는 모든 제2 오디오 소스를 원 아크 상에 등간격으로 분포시키는 단계를 수반하는, 방법.
EEE7. EEE5 또는 EEE6에 있어서, 위치 지정하는 단계는 제2 오디오 소스 간의 상관 레벨 및/또는 콘텐츠 생성자 의도에 의존하는, 방법.
EEE8. EEE2 내지 EEE7 중 어느 하나에 있어서, 범위 매개변수는 결정된 하나 이상의 제2 오디오 소스의 수에 추가로 기초하여 결정되는, 방법.
EEE9. EEE8에 있어서, 결정된 하나 이상의 제2 오디오 소스의 수는 사용자 위치 및/또는 상대 포인트에 독립적인 미리 결정된 상수인, 방법.
EEE10. EEE4를 참조할 때, EEE8에 있어서, 확장 오디오 객체를 모델링하기 위해 하나 이상의 제2 오디오 소스를 결정하는 단계는, 상대 범위 각도에 기초하여 하나 이상의 제2 오디오 소스의 수를 결정하는 단계를 포함하는, 방법.
EEE11. EEE10에 있어서, 하나 이상의 제2 오디오 소스의 수는 상대 범위 각도가 증가함에 따라 증가하는, 방법.
EEE12. EEE2 내지 EEE11 중 어느 하나에 있어서, 확장 오디오 객체를 모델링하기 위해 하나 이상의 제2 오디오 소스를 결정하는 단계는, 하나 이상의 제1 오디오 소스를 복제하거나 하나 이상의 제1 오디오 소스의 가중 혼합을 추가하는 단계; 및 복제되거나 추가된 제1 오디오 소스에 역상관 프로세스를 적용시키는 단계를 더 포함하는, 방법.
EEE13. EEE1 내지 EEE12 중 어느 하나에 있어서, 범위 표현은 확장 오디오 객체의 공간적 확장을 표현하기 위한 2차원 또는 3차원 기하학적 형태를 나타내는, 방법.
EEE14. EEE1 내지 EEE13 중 어느 하나에 있어서, 확장 오디오 객체(3)는 2차원 또는 3차원으로 배향되는, 방법.
EEE15. EEE1 내지 EEE14 중 어느 하나에 있어서, 사용자 위치에서 지각되는 확장 오디오 객체의 공간적 확장은 확장 오디오 객체의 지각되는 폭, 크기 및/또는 규모로서 설명되는, 방법.
EEE16. EEE1 내지 EEE15 중 어느 하나에 있어서, 상대 포인트는 사용자 위치에 가장 가까운 확장 오디오 객체의 기하학적 형태 상의 포인트인, 방법.
EEE17. EEE4 내지 EEE16 중 어느 하나에 있어서, 사용자 위치와 상대 포인트를 연결하는 제1 라인에 직교하는 투영 평면 상에 확장 오디오 객체의 정투영을 획득하는 단계; 및 정투영 상에서, 확장 오디오 객체의 투영 크기를 식별하는 복수의 경계 포인트를 결정하는 단계를 더 포함하고, 상대 범위 각도는 사용자 위치 및 복수의 경계 포인트를 사용하여 결정되는, 방법.
EEE18. EEE17에 있어서, 복수의 경계 포인트를 결정하는 단계는 확장 오디오 객체의 수평 투영 크기에 관한 제2 라인을 획득하는 단계를 포함하고, 복수의 경계 포인트는 제2 라인 상의 정투영의 최좌측 경계 포인트 및 최우측 경계 포인트를 포함하는, 방법.
EEE19. EEE18에 있어서, 수평 투영 크기는 확장 오디오 객체의 최대 크기인, 방법.
EEE20. EEE17 내지 EEE19 중 어느 하나에 있어서, 정투영은 복잡한 기하학적 구조를 갖는 확장 오디오 객체의 단순화된 투영을 포함하는, 방법.
EEE21. EEE20에 있어서, 확장 오디오 객체의 기하학적 형태 상의 상대 포인트를 획득하는 단계 전에, 상대 포인트를 결정하는데 사용하기 위해 확장 오디오 객체의 단순화된 기하학적 형태를 획득하는 단계를 더 포함하는, 방법.
EEE22. EEE1 내지 EEE21 중 어느 하나에 있어서, 확장 오디오 객체의 수정된 표현에 기초하여 확장 오디오 객체를 렌더링하는 단계를 더 포함하고, 확장 오디오 객체는 하나 이상의 제2 오디오 소스의 결정된 위치 및 범위 매개변수를 사용하여 렌더링되는, 방법.
EEE23. EEE22에 있어서, 렌더링은 6DoF 오디오 렌더링을 포함하고, 렌더링을 위해 사용자 위치, 확장 오디오 객체의 위치 및/또는 배향 및 기하학적 구조를 획득하는 단계를 더 포함하는, 방법.
EEE24. EEE1 내지 EEE23 중 어느 하나에 있어서, 범위 매개변수를 사용하여 확장 오디오 객체의 지각되는 크기를 제어하는 단계를 더 포함하는, 방법.
EEE25. EEE24에 있어서, 확장 오디오 객체의 지각되는 크기를 제어함으로써 확장 오디오 객체는 포인트 소스 또는 와이드 소스로서 모델링되는, 방법.
EEE26. EEE1 내지 EEE25 중 어느 하나에 있어서, 하나 이상의 제2 오디오 소스의 위치는, 모든 제2 오디오 소스가 사용자 위치로부터 동일한 기준 거리를 갖도록 결정되는, 방법.
EEE27. 가상 또는 증강 현실 환경에서의 오디오 렌더링을 위해 확장 오디오 객체를 모델링하기 위한 장치로서, 상기 장치는 프로세서, 및 프로세서에 커플링되고 프로세서에 대한 명령어를 저장하는 메모리를 포함하고, 프로세서는 EEE1 내지 EEE26 중 어느 하나에 따른 방법의 모든 단계를 수행하도록 구성되는, 장치.
EEE28. 가상 또는 증강 현실 환경에서의 오디오 렌더링을 구현하기 위한 시스템으로서, 상기 시스템은: EEE27에 따른 장치; 및 상기 장치로부터, 확장 오디오 객체의 수정된 표현에 관한 정보를 수신하고, 수정된 표현에 관한 상기 정보에 기초하여 확장 오디오 객체의 범위 크기를 제어하도록 구성되는 범위 모델링 유닛을 포함하는, 시스템.
EEE29. EEE28에 있어서, 시스템은 사용자 가상 현실 콘솔이거나 또는 그의 일부인, 시스템.
EEE30. EEE28 또는 EEE29에 있어서, 시스템은 확장 오디오 객체의 수정된 표현에 관한 상기 정보 및/또는 제어된 범위 크기를 오디오 출력으로 송신하도록 구성되는, 시스템.
EEE31. 컴퓨터 프로그램으로서, 컴퓨팅 디바이스에 의해 실행될 때, 컴퓨팅 디바이스가 EEE1 내지 EEE26 중 어느 하나에 따른 방법의 모든 단계를 수행하게 하는 명령어를 포함하는, 컴퓨터 프로그램.
EEE32. EEE31에 따른 컴퓨터 프로그램을 저장하는, 컴퓨터-판독 가능 저장 매체.
Claims (31)
- 가상 또는 증강 현실 환경에서의 오디오 렌더링을 위해 확장 오디오 객체(extended audio object)를 모델링하는 컴퓨터-구현 방법으로서, 상기 방법은:
확장 오디오 객체의 기하학적 형태를 나타내는 범위 표현(extent representation) 및 상기 확장 오디오 객체와 연관된 하나 이상의 제1 오디오 소스에 관한 정보를 획득하는 단계;
상기 확장 오디오 객체의 상기 기하학적 형태를 나타내는 상기 범위 표현을 사용하여, 상기 가상 또는 증강 현실 환경에서의 사용자 위치에 가장 가까운 상대 포인트(relative point)를 획득하는 단계;
상기 사용자 위치 및 상기 상대 포인트에 기초하여 상기 범위 표현에 대한 범위 매개변수를 결정하는 단계 - 상기 범위 매개변수는 상기 사용자 위치에서 지각된 상기 확장 오디오 객체의 공간적 확장을 설명함 -;
상기 확장 오디오 객체를 모델링하기 위해 상기 사용자 위치에 대해 하나 이상의 제2 오디오 소스의 위치를 결정하는 단계; 및
상기 확장 오디오 객체를 모델링하기 위해 상기 확장 오디오 객체의 수정된 표현을 출력하는 단계 - 상기 수정된 표현은 상기 범위 매개변수 및 상기 하나 이상의 제2 오디오 소스의 상기 위치를 포함함 - 를 포함하는, 컴퓨터-구현 방법. - 제1항에 있어서, 상기 확장 오디오 객체의 상기 수정된 표현에 기초하여 상기 확장 오디오 객체를 렌더링하는 단계를 더 포함하고, 상기 확장 오디오 객체는 상기 하나 이상의 제2 오디오 소스의 상기 결정된 위치 및 상기 범위 매개변수를 사용하여 렌더링되는, 컴퓨터-구현 방법.
- 제2항에 있어서, 상기 렌더링은 6DoF 오디오 렌더링을 포함하고, 상기 렌더링을 위해 상기 사용자 위치, 상기 확장 오디오 객체의 위치 및/또는 배향 및 기하학적 구조(geometry)를 획득하는 단계를 더 포함하는, 컴퓨터-구현 방법.
- 제1항 또는 제2항에 있어서, 상기 하나 이상의 제1 오디오 소스에 기초하여 상기 확장 오디오 객체를 모델링하기 위한 상기 하나 이상의 제2 오디오 소스를 결정하는 단계를 더 포함하는, 컴퓨터-구현 방법.
- 전술한 청구항 중 어느 한 항에 있어서, 상기 범위 매개변수는 상기 확장 오디오 객체의 위치 및/또는 배향에 추가로 기초하여 결정되는, 컴퓨터-구현 방법.
- 제5항에 있어서, 상기 사용자 위치, 상기 상대 포인트, 및 상기 확장 오디오 객체의 상기 위치 및/또는 배향에 기초하여 상대 범위 각도를 결정하는 단계를 더 포함하고, 상기 범위 매개변수는 상기 상대 범위 각도에 기초하여 결정되는, 컴퓨터-구현 방법.
- 전술한 청구항 중 어느 한 항에 있어서, 상기 하나 이상의 제2 오디오 소스의 상기 위치를 결정하는 단계는:
상기 사용자 위치, 상기 상대 포인트 및 상기 확장 오디오 객체의 상기 기하학적 형태에 기초하여 원 아크(circle arc)를 결정하는 단계; 및
상기 결정된 하나 이상의 제2 오디오 소스를 상기 원 아크 상에 위치 지정(positioning)하는 단계를 포함하는, 컴퓨터-구현 방법. - 제7항에 있어서, 상기 위치 지정하는 단계는 모든 상기 제2 오디오 소스를 상기 원 아크 상에 등간격으로 분포시키는 단계를 수반하는, 컴퓨터-구현 방법.
- 제7항 또는 제8항에 있어서, 상기 위치 지정하는 단계는 상기 제2 오디오 소스 간의 상관 레벨 및/또는 콘텐츠 생성자 의도에 의존하는, 컴퓨터-구현 방법.
- 제4항에 의존하는 한, 전술한 청구항 중 어느 한 항에 있어서, 상기 범위 매개변수는 상기 결정된 하나 이상의 제2 오디오 소스의 수에 추가로 기초하여 결정되는, 컴퓨터-구현 방법.
- 제10항에 있어서, 상기 결정된 하나 이상의 제2 오디오 소스의 상기 수는 상기 사용자 위치 및/또는 상기 상대 포인트에 독립적인, 미리 결정된 상수인, 컴퓨터-구현 방법.
- 제4항에 의존할 때, 제10항에 있어서, 상기 확장 오디오 객체를 모델링하기 위해 상기 하나 이상의 제2 오디오 소스를 결정하는 단계는, 상기 상대 범위 각도에 기초하여 상기 하나 이상의 제2 오디오 소스의 상기 수를 결정하는 단계를 포함하는, 컴퓨터-구현 방법.
- 제12항에 있어서, 상기 하나 이상의 제2 오디오 소스의 상기 수는 상기 상대 범위 각도가 증가함에 따라 증가하는, 컴퓨터-구현 방법.
- 제4항에 의존하는 한, 전술한 청구항 중 어느 한 항에 있어서, 상기 확장 오디오 객체를 모델링하기 위해 상기 하나 이상의 제2 오디오 소스를 결정하는 단계는:
상기 하나 이상의 제1 오디오 소스를 복제하거나 상기 하나 이상의 제1 오디오 소스의 가중 혼합(weighted mix)을 추가하는 단계; 및
상기 복제되거나 추가된 제1 오디오 소스에 역상관 프로세스를 적용시키는 단계를 더 포함하는, 컴퓨터-구현 방법. - 전술한 청구항 중 어느 한 항에 있어서, 상기 범위 표현은 상기 확장 오디오 객체의 공간적 확장을 표현하기 위한 2차원 또는 3차원 기하학적 형태를 나타내는, 컴퓨터-구현 방법.
- 전술한 청구항 중 어느 한 항에 있어서, 상기 확장 오디오 객체(3)는 2차원 또는 3차원으로 배향되는, 컴퓨터-구현 방법.
- 전술한 청구항 중 어느 한 항에 있어서, 상기 사용자 위치에서 지각되는 상기 확장 오디오 객체의 상기 공간적 확장은 상기 확장 오디오 객체의 지각되는 폭, 크기 및/또는 규모(massiveness)로서 설명되는, 컴퓨터-구현 방법.
- 제6항에 의존하는 한, 전술한 청구항 중 어느 한 항에 있어서,
상기 사용자 위치와 상기 상대 포인트를 연결하는 제1 라인에 직교하는 투영 평면 상에 상기 확장 오디오 객체의 정투영을 획득하는 단계; 및
상기 정투영 상에서, 상기 확장 오디오 객체의 투영 크기를 식별하는 복수의 경계 포인트를 결정하는 단계를 더 포함하고,
상기 상대 범위 각도는 상기 사용자 위치 및 상기 복수의 경계 포인트를 사용하여 결정되는, 컴퓨터-구현 방법. - 제18항에 있어서, 상기 복수의 경계 포인트를 결정하는 단계는 상기 확장 오디오 객체의 수평 투영 크기에 관한 제2 라인을 획득하는 단계를 포함하고, 상기 복수의 경계 포인트는 상기 제2 라인 상의 상기 정투영의 최좌측 경계 포인트 및 최우측 경계 포인트를 포함하는, 컴퓨터-구현 방법.
- 제19항에 있어서, 상기 수평 투영 크기는 상기 확장 오디오 객체의 최대 크기인, 컴퓨터-구현 방법.
- 제18항 내지 제20항 중 어느 한 항에 있어서, 상기 정투영은 복잡한 기하학적 구조를 갖는 상기 확장 오디오 객체의 단순화된 투영을 포함하는, 컴퓨터-구현 방법.
- 전술한 청구항 중 어느 한 항에 있어서, 상기 범위 매개변수를 사용하여 상기 확장 오디오 객체의 지각되는 크기를 제어하는 단계를 더 포함하는, 컴퓨터-구현 방법.
- 제23항에 있어서, 상기 확장 오디오 객체의 상기 지각되는 크기를 제어함으로써 상기 확장 오디오 객체는 포인트 소스(point source) 또는 와이드 소스(wide source)로서 모델링되는, 컴퓨터-구현 방법.
- 전술한 청구항 중 어느 한 항에 있어서, 상기 하나 이상의 제2 오디오 소스의 상기 위치는, 모든 상기 제2 오디오 소스가 상기 사용자 위치로부터 동일한 기준 거리를 갖도록 결정되는, 컴퓨터-구현 방법.
- 전술한 청구항 중 어느 한 항에 있어서, 상기 확장 오디오 객체의 상기 기하학적 형태를 나타내는 상기 범위 표현을 사용하여 상기 상대 포인트를 획득하는 단계는, 상기 기하학적 형태 상의 상기 상대 포인트를 획득하는 단계 또는 상기 범위 표현으로부터 떨어진 거리에서의 상기 상대 포인트를 획득하는 단계를 포함하는, 컴퓨터-구현 방법.
- 가상 또는 증강 현실 환경에서의 오디오 렌더링을 위해 확장 오디오 객체를 모델링하기 위한 장치로서, 상기 장치는 프로세서, 및 상기 프로세서에 커플링되고 상기 프로세서에 대한 명령어를 저장하는 메모리를 포함하고, 상기 프로세서는 제1항 내지 제25항 중 어느 한 항에 따른 컴퓨터-구현 방법의 모든 단계를 수행하도록 구성되는, 장치.
- 가상 또는 증강 현실 환경에서의 오디오 렌더링을 구현하기 위한 시스템으로서, 상기 시스템은:
가상 또는 증강 현실 환경에서의 오디오 렌더링을 위해 확장 오디오 객체를 모델링하기 위한 장치 - 상기 장치는 프로세서, 및 상기 프로세서에 커플링되고 상기 프로세서에 대한 명령어를 저장하는 메모리를 포함하고, 상기 프로세서는 제1항 내지 제25항 중 어느 한 항에 따른 컴퓨터-구현 방법의 모든 단계를 수행하도록 구성됨 -; 및
상기 장치로부터, 상기 확장 오디오 객체의 상기 수정된 표현에 관한 정보를 수신하고, 상기 수정된 표현에 관한 상기 정보에 기초하여 상기 확장 오디오 객체의 범위 크기를 제어하도록 구성되는 범위 모델링 유닛을 포함하고,
상기 시스템은 상기 확장 오디오 객체의 상기 수정된 표현에 관한 상기 정보 및/또는 상기 제어된 범위 크기를 오디오 출력으로 송신하도록 구성되는, 시스템. - 제27항에 있어서, 상기 시스템은 사용자 가상 현실 콘솔이거나 또는 그의 일부인, 시스템.
- 제27항 또는 제28항에 있어서, 상기 시스템은 상기 확장 오디오 객체의 상기 수정된 표현에 관한 상기 정보 및/또는 상기 제어된 범위 크기를 오디오 출력으로 송신하도록 구성되는, 시스템.
- 컴퓨터 프로그램으로서, 컴퓨팅 디바이스에 의해 실행될 때, 상기 컴퓨팅 디바이스가 제1항 내지 제25항 중 어느 한 항에 따른 방법의 모든 단계를 수행하게 하는 명령어를 포함하는, 컴퓨터 프로그램.
- 컴퓨터-판독 가능 저장 매체로서, 제30항에 따른 컴퓨터 프로그램을 저장하는, 컴퓨터-판독 가능 저장 매체.
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163181865P | 2021-04-29 | 2021-04-29 | |
US63/181,865 | 2021-04-29 | ||
US202163247156P | 2021-09-22 | 2021-09-22 | |
US63/247,156 | 2021-09-22 | ||
EP21200055.8 | 2021-09-30 | ||
EP21200055 | 2021-09-30 | ||
PCT/EP2022/061331 WO2022229319A1 (en) | 2021-04-29 | 2022-04-28 | Methods, apparatus and systems for modelling audio objects with extent |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240004337A true KR20240004337A (ko) | 2024-01-11 |
Family
ID=81850720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020237036289A KR20240004337A (ko) | 2021-04-29 | 2022-04-28 | 범위를 갖는 오디오 객체를 모델링하기 위한 방법, 장치 및 시스템 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20240223987A1 (ko) |
EP (1) | EP4331241A1 (ko) |
JP (1) | JP2024519458A (ko) |
KR (1) | KR20240004337A (ko) |
BR (1) | BR112023022238A2 (ko) |
WO (1) | WO2022229319A1 (ko) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6786834B2 (ja) * | 2016-03-23 | 2020-11-18 | ヤマハ株式会社 | 音響処理装置、プログラムおよび音響処理方法 |
US10425762B1 (en) * | 2018-10-19 | 2019-09-24 | Facebook Technologies, Llc | Head-related impulse responses for area sound sources located in the near field |
CA3123982C (en) * | 2018-12-19 | 2024-03-12 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source |
-
2022
- 2022-04-28 EP EP22726089.0A patent/EP4331241A1/en active Pending
- 2022-04-28 JP JP2023564170A patent/JP2024519458A/ja active Pending
- 2022-04-28 BR BR112023022238A patent/BR112023022238A2/pt unknown
- 2022-04-28 KR KR1020237036289A patent/KR20240004337A/ko unknown
- 2022-04-28 US US18/557,590 patent/US20240223987A1/en active Pending
- 2022-04-28 WO PCT/EP2022/061331 patent/WO2022229319A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2024519458A (ja) | 2024-05-14 |
US20240223987A1 (en) | 2024-07-04 |
EP4331241A1 (en) | 2024-03-06 |
BR112023022238A2 (pt) | 2024-02-06 |
WO2022229319A1 (en) | 2022-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7367785B2 (ja) | 音声処理装置および方法、並びにプログラム | |
KR102502647B1 (ko) | 가상 현실(vr), 증강 현실(ar), 및 혼합 현실(mr) 시스템들을 위한 분산형 오디오 캡처링 기술들 | |
US9544706B1 (en) | Customized head-related transfer functions | |
EP3343349B1 (en) | An apparatus and associated methods in the field of virtual reality | |
US11516616B2 (en) | System for and method of generating an audio image | |
US20200374645A1 (en) | Augmented reality platform for navigable, immersive audio experience | |
JP2022515910A (ja) | 仮想現実のための効率的な空間的にヘテロジーニアスなオーディオ要素 | |
US10123149B2 (en) | Audio system and method | |
US20240089694A1 (en) | A Method and Apparatus for Fusion of Virtual Scene Description and Listener Space Description | |
US12114148B2 (en) | Audio scene change signaling | |
US20240022870A1 (en) | System for and method of controlling a three-dimensional audio engine | |
EP4101182A1 (en) | Augmented reality virtual audio source enhancement | |
EP3807872A1 (en) | Reverberation gain normalization | |
KR20240004337A (ko) | 범위를 갖는 오디오 객체를 모델링하기 위한 방법, 장치 및 시스템 | |
JP2005094271A (ja) | 仮想空間音響再生プログラムおよび仮想空間音響再生装置 | |
CA3044260A1 (en) | Augmented reality platform for navigable, immersive audio experience | |
US20240048936A1 (en) | A Method and Apparatus for Scene Dependent Listener Space Adaptation | |
CN117223299A (zh) | 用于对具有范围的音频对象进行建模的方法、装置和系统 | |
US20240284137A1 (en) | Location Based Audio Rendering | |
WO2023051703A1 (zh) | 一种音频渲染系统和方法 | |
JP2023159690A (ja) | 信号処理装置、信号処理装置の制御方法、及びプログラム | |
KR102725056B1 (ko) | 가상 현실(vr), 증강 현실(ar), 및 혼합 현실(mr) 시스템들을 위한 분산형 오디오 캡처링 기술들 | |
WO2023199815A1 (ja) | 音響処理方法、プログラム、及び音響処理システム | |
WO2024179939A1 (en) | Multi-directional audio diffraction modeling for voxel-based audio scene representations | |
KR20240039038A (ko) | 가상 오디오 소스 위치의 결정 |