KR102375482B1

KR102375482B1 - 오디오의 공간 프리젠테이션을 위한 장치 및 관련 방법

Info

Publication number: KR102375482B1
Application number: KR1020217002373A
Authority: KR
Inventors: 라세 라크소넨; 아르토 레티니에미; 안티 이로넨; 주시 레파넨
Original assignee: 노키아 테크놀로지스 오와이
Priority date: 2018-06-26
Filing date: 2019-06-17
Publication date: 2022-03-16
Also published as: US11477598B2; KR20210024598A; US20210258711A1; EP3588926A1; EP3588926B1; WO2020002022A1

Abstract

장치로서, 음성 오디오와 주변 오디오 및 기준점에 대한 적어도 하나의 음원의 방향과 원격 사용자의 방향을 나타내는 방향 정보를 포함하는 오디오 콘텐츠를 수신하고; 기준 위치를 수신하며; 방향 정보에 기초하여 제1 공간 오디오 효과를 갖는 주변 오디오의 프리젠테이션 및 방향 정보에 기초하여 제2 공간 오디오 효과를 갖는 음성 오디오의 프리젠테이션을 제공하고; 원격 사용자 디바이스로부터 재배치 시그널링을 수신하며; 및 음성 지각 방향과 주변 지각 방향 사이의 공간적 분리를 증대시키기 위해 재배치 시그널링에 기초하여 주변 지각 방향을 재배치하기 위한 제1 공간 오디오 효과의 수정 및/또는 재배치 시그널링에 기초하여 음성 지각 방향을 재배치하기 위한 제2 공간 오디오 효과의 수정을 사용하여 오디오 콘텐츠의 프리젠테이션을 제공하도록: 구성된 수단을 포함하는 장치.

Description

오디오의 공간 프리젠테이션을 위한 장치 및 관련 방법

본 발명은 오디오 콘텐츠의 프리젠테이션 분야, 특히 공간 오디오 원격통신 오디오와 같은 원격통신 오디오 콘텐츠의 프리젠테이션에 관한 것이다. 본 발명은 또한 관련 장치, 방법, 및 컴퓨터 프로그램에 관한 것이다.

오디오의 모노포닉 캡처(monophonic capture) 및 프리젠테이션 이상의 것을 제공하는 원격통신 또는 텔레포니(telephony) 시스템이 개발되고 있다. 이러한 텔레포니의 오디오는 공간 오디오를 포함할 수 있다. 이러한 오디오의 프리젠테이션은 원격통신이 선명하고 효과적이 되도록 보장하기 위해 신중한 고려가 필요할 수 있다.

이전에 공개된 문헌 또는 본 명세서의 배경기술의 목록 또는 논의는 반드시 그 문헌 또는 배경기술이 종래 기술의 일부라거나 통상적인 일반 지식임을 인정하는 것으로 받아들여져서는 안 된다. 본 발명의 하나 이상의 양태/예는 배경기술의 이슈들 중 하나 이상을 다루거나 다루지 않을 수 있다.

본 발명의 일 양태에서는 장치가 제공되며, 상기 장치는:

원격 사용자 디바이스의 원격 사용자의 음성을 포함하는 음성 오디오 및 원격 사용자 이외의 적어도 하나의 음원으로부터의 오디오를 포함하는 주변 오디오를 포함하는 오디오 콘텐츠 - 오디오 콘텐츠는 기준점에 대한 적어도 하나의 음원의 방향 및 위치 중 하나를 나타내고 기준점에 대한 원격 사용자의 방향 및 위치 중 하나를 나타내는 방향 정보와 연관됨 - 를 수신하고;

기준 위치를 나타내는 제1 정보를 수신하며;

적어도 하나의 음원의 오디오가 기준 위치에 대해 주변 지각 방향으로부터 유래되는 것으로 지각되도록, 방향 정보에 기초하여 제1 공간 오디오 효과를 갖는 주변 오디오의 프리젠테이션을 제공하고;

음성 오디오가 기준 위치에 대해 음성 지각 방향으로부터 유래되는 것으로 지각되도록, 방향 정보에 기초하여 제2 공간 오디오 효과를 갖는 음성 오디오의 프리젠테이션을 제공하며;

원격 사용자 디바이스로부터 재배치 시그널링 - 재배치 시그널링은 원격 사용자 디바이스로부터 수신된 오디오 콘텐츠의 프리젠테이션을 변경하기 위한 입력을 나타냄 - 을 수신하고; 및

음성 지각 방향과 주변 지각 방향 사이의 공간적 분리를 증대시키기 위해 재배치 시그널링에 기초하여 기준 위치에 대해 주변 지각 방향을 재배치하기 위한 제1 공간 오디오 효과의 수정 및 재배치 시그널링에 기초하여 기준 위치에 대해 음성 지각 방향을 재배치하기 위한 제2 공간 오디오 효과의 수정 중 적어도 하나를 사용하여 오디오 콘텐츠의 프리젠테이션을 제공하도록:

구성된 수단을 포함한다.

하나 이상의 예에서, 기준 위치는 오디오 콘텐츠가 프리젠테이션되는 사용자의 위치를 나타낸다.

하나 이상의 예에서, 재배치 시그널링은 주변 지각 방향 및 음성 지각 방향 중 적어도 하나를 어디에 재배치할지를 나타내며, 상기 수단은 상기 주변 오디오 및 상기 음성 오디오 중 적어도 하나가 재배치 시그널링에 의해 표시되는 새로운 방향으로부터 지각되도록 주변 오디오에 대한 제1 공간 오디오 효과 및 음성 오디오에 대한 제2 공간 오디오 효과 중 각각의 적어도 하나의 수정을 갖는 오디오 콘텐츠의 프리젠테이션을 제공하도록 구성된다.

하나 이상의 예에서, 상기 수단은:

프리젠테이션된 오디오 콘텐츠의 지각 위치의 재배치를 나타내는 사용자 입력을 수신하고;

사용자 입력에 의해 표시되는 바와 같이 주변 지각 방향을 재배치하기 위한 제1 공간 오디오 효과의 수정 및 사용자 입력에 의해 표시되는 바와 같이 음성 지각 방향을 재배치하기 위한 제2 공간 오디오 효과의 수정 중 하나를 갖는 오디오 콘텐츠를 프리젠테이션하도록:

구성된다.

하나 이상의 예에서, 상기 수단은 원격 사용자 디바이스에:

원격 사용자에게 프리젠테이션하기 위한 사용자 오디오 콘텐츠 - 사용자 오디오 콘텐츠는 사용자의 음성에 의해 생성된 것으로 결정된 오디오를 포함하는 사용자 음성 오디오, 및 음성 이외의 적어도 하나의 음원으로부터의 오디오를 포함하는 사용자 주변 오디오를 포함하고, 사용자 오디오 콘텐츠는 사용자 기준점에 대한 적어도 하나의 음원 쪽으로의 방향 및 위치 중 하나를 나타내고 사용자 기준점에 대한 사용자 쪽으로의 방향 및 위치 중 하나를 나타내는 방향 정보를 포함함 -; 및

적어도 부분적으로 사용자 재배치 시그널링에 의해 표시된 방향으로부터 지각되도록 사용자 음성 오디오 및 사용자 주변 오디오 중 하나 - 사용자 음성 오디오 및 사용자 주변 오디오 중 다른 하나는 사용자 오디오 콘텐츠의 방향 정보에 의해 표시된 바와 같이 프리젠테이션하기 위한 것임 - 를 프리젠테이션하도록 원격 사용자 디바이스에 지시하는 사용자 재배치 시그널링:

을 송신하도록 구성된다.

하나 이상의 예에서, 사용자 음성 오디오 및 사용자 주변 오디오 중 다른 하나의 프리젠테이션은 방향 정보를 기초로 하며 사용자 재배치 시그널링에는 독립적이다.

하나 이상의 예에서, 상기 수단은:

사전 결정된 유형의 사용자 입력을 수신하고;

사용자가 말하고 있는 것으로 결정된 시간에 사전 결정된 유형의 사용자 입력이 수신되면 상기 사용자 재배치 시그널링을 송신하고; 및

주변 지각 방향을 재배치하기 위한 제1 공간 오디오 효과의 수정 및 원격 사용자가 말하고 있는 것으로 결정된 시간에 상기 사전 결정된 유형의 사용자 입력이 수신되면 음성 지각 방향을 재배치하기 위한 제2 공간 오디오 효과의 수정 중 적어도 하나를 갖는 오디오 콘텐츠의 프리젠테이션을 제공하도록:

구성된다.

하나 이상의 예에서, 상기 재배치 시그널링은 원격 사용자의 사용자 입력을 기초로 한다.

하나 이상의 예에서, 재배치 시그널링에 기초하여 주변 지각 방향을 재배치하기 위한 제1 공간 오디오 효과의 수정 및 재배치 시그널링에 기초하여 음성 지각 방향을 재배치하기 위한 제1 공간 오디오 효과의 수정 중 하나는 기준 위치를 중심으로 주변 지각 방향 및 음성 지각 방향 중 상기 하나의 회전을 수행하는 것을 포함한다.

하나 이상의 예에서, 오디오 콘텐츠의 방향 정보는 원격 사용자 디바이스에 대해 적어도 하나의 음원 쪽으로의 방향 및 원격 사용자 쪽으로의 방향을 나타내고, 제1 공간 오디오 효과를 갖는 주변 오디오의 프리젠테이션은 방향 정보에 정의된 원격 사용자 디바이스에 대한 적어도 하나의 음원 쪽으로의 방향에 기초한 주변 지각 방향으로부터 유래되는 것으로, 기준 위치로부터 지각되도록 공간 오디오로서의 주변 오디오의 프리젠테이션을 포함하며, 제2 공간 오디오 효과를 갖는 음성 오디오의 프리젠테이션은 방향 정보에 정의된 원격 사용자 디바이스에 대한 원격 사용자 쪽으로의 방향에 기초한 음성 지각 방향으로부터 유래되는 것으로, 기준 위치로부터 지각되도록 공간 오디오로서의 음성 오디오의 프리젠테이션을 포함한다.

하나 이상의 예에서, 상기 주변 지각 방향은 방향 정보에 정의된 위치를 기초로 주변 지각 위치로부터 기준 위치로의 방향이고, 주변 지각 위치는 사용자가 주변 오디오를 주변 지각 위치로부터 유래되는 것으로 지각하도록 주변 오디오의 프리젠테이션을 위해 제1 공간 오디오 효과에 의해 사용되는 위치를 포함하며; 및

상기 음성 지각 방향은 방향 정보에 정의된 위치를 기초로 음성 지각 위치로부터 기준 위치로의 방향이고, 음성 지각 위치는 사용자가 음성 오디오를 음성 지각 위치로부터 유래되는 것으로 지각하도록 음성 오디오의 프리젠테이션을 위해 제2 공간 오디오 효과에 의해 사용되는 위치를 포함하며; 및

제1 공간 오디오 효과의 수정 및 제2 공간 오디오 효과의 수정 중 상기 하나는 재배치 시그널링에 표시된 바와 같이 상기 주변 지각 위치 및 상기 음성 지각 위치 중 각각의 하나의 병진이동에 의해 주변 지각 방향 및 음성 지각 방향 중 대응하는 하나를 재배치하는 것을 포함한다.

하나 이상의 예에서, 상기 방향 정보는 원격 사용자가 위치한 공간에 대한 적어도 하나의 음원의 위치를 나타내고 원격 사용자가 위치한 공간에 대한 원격 사용자의 위치를 나타내며;

상기 주변 지각 방향은 방향 정보에 표시된 주변 지각 위치를 포함하고 주변 지각 위치로부터 유래되는 것으로 지각되도록 주변 오디오를 프리젠테이션하기 위해 제1 공간 오디오 효과에 의해 사용되는 위치를 포함하며, 그래서 원격 사용자가 위치한 공간에서의 적어도 하나의 음원의 배치는 사용자가 위치한 공간에서 재생성되게 되고; 및

상기 음성 지각 방향은 방향 정보에 표시된 음성 지각 위치를 포함하고 음성 지각 위치로부터 유래되는 것으로 지각되도록 음성 오디오를 프리젠테이션하기 위해 제2 공간 오디오 효과에 의해 사용되는 위치를 포함하며, 그래서 원격 사용자가 위치한 공간에서의 원격 사용자의 위치는 사용자가 위치한 공간에서 재생성되게 된다.

본 발명의 일 양태에서는 장치가 제공되며, 상기 장치는:

원격 사용자 디바이스에, 원격 사용자 디바이스에 의한 프리젠테이션을 위한 사용자 오디오 콘텐츠 - 사용자 오디오 콘텐츠는 사용자의 음성의 오디오를 포함하는 사용자 음성 오디오 및 사용자 이외의 적어도 하나의 음원으로부터의 오디오를 포함하는 사용자 주변 오디오를 포함하고, 사용자 오디오 콘텐츠는 사용자 기준점에 대한 적어도 하나의 음원 쪽으로의 방향 또는 위치 및 사용자 기준점에 대한 사용자 쪽으로의 방향 또는 위치를 나타내는 방향 정보를 포함함 - 를 송신하고;

사용자 입력을 수신하며; 및

상기 사용자 입력으로부터 결정된 사용자 재배치 시그널링 - 사용자 배치 시그널링은 사용자 음성 오디오 및 사용자 주변 오디오 중 하나가 사용자 재배치 시그널링에 기초한 방향으로부터 지각되도록 원격 사용자 디바이스에 의해 프리젠테이션되어야 하고 사용자 음성 오디오 및 사용자 주변 오디오 중 다른 하나는 사용자 오디오 콘텐츠의 방향 정보에 기초하여 프리젠테이션되어야 함을 나타냄 - 을 원격 사용자 디바이스에 송신하도록:

구성된 수단을 포함한다.

하나 이상의 예에서, 상기 사용자 재배치 시그널링의 송신은 사용자가 말하고 있는 것으로 결정된 시간에 수신되는 상기 사용자 입력에 기초하여 제공된다.

추가 양태에서는 방법이 제공되며, 상기 방법은:

원격 사용자 디바이스의 원격 사용자의 음성을 포함하는 음성 오디오 및 원격 사용자 이외의 적어도 하나의 음원으로부터의 오디오를 포함하는 주변 오디오를 포함하는 오디오 콘텐츠 - 오디오 콘텐츠는 기준점에 대한 적어도 하나의 음원의 방향 및 위치 중 하나를 나타내고 기준점에 대한 원격 사용자의 방향 및 위치 중 하나를 나타내는 방향 정보와 연관됨 - 를 수신하는 단계;

기준 위치를 나타내는 제1 정보를 수신하는 단계;

적어도 하나의 음원의 오디오가 기준 위치에 대해 주변 지각 방향으로부터 유래되는 것으로 지각되도록, 방향 정보에 기초하여 제1 공간 오디오 효과를 갖는 주변 오디오의 프리젠테이션을 제공하는 단계;

음성 오디오가 기준 위치에 대해 음성 지각 방향으로부터 유래되는 것으로 지각되도록, 방향 정보에 기초하여 제2 공간 오디오 효과를 갖는 음성 오디오의 프리젠테이션을 제공하는 단계;

원격 사용자 디바이스로부터 재배치 시그널링 - 재배치 시그널링은 원격 사용자 디바이스로부터 수신된 오디오 콘텐츠의 프리젠테이션을 변경하기 위한 입력을 나타냄 - 을 수신하는 단계; 및

음성 지각 방향과 주변 지각 방향 사이의 공간적 분리를 증대시키기 위해 재배치 시그널링에 기초하여 기준 위치에 대해 주변 지각 방향을 재배치하기 위한 제1 공간 오디오 효과의 수정 및 재배치 시그널링에 기초하여 기준 위치에 대해 음성 지각 방향을 재배치하기 위한 제2 공간 오디오 효과의 수정 중 적어도 하나를 사용하여 오디오 콘텐츠의 프리젠테이션을 제공하는 단계:

를 포함한다.

추가 양태에서는 방법이 제공되며, 상기 방법은:

원격 사용자 디바이스에, 원격 사용자 디바이스에 의한 프리젠테이션을 위한 사용자 오디오 콘텐츠 - 사용자 오디오 콘텐츠는 사용자의 음성의 오디오를 포함하는 사용자 음성 오디오 및 사용자 이외의 적어도 하나의 음원으로부터의 오디오를 포함하는 사용자 주변 오디오를 포함하고, 사용자 오디오 콘텐츠는 사용자 기준점에 대한 적어도 하나의 음원 쪽으로의 방향 또는 위치 및 사용자 기준점에 대한 사용자 쪽으로의 방향 또는 위치를 나타내는 방향 정보를 포함함 - 를 송신하는 단계;

사용자 입력을 수신하는 단계; 및

상기 사용자 입력으로부터 결정된 사용자 재배치 시그널링 - 사용자 배치 시그널링은 사용자 음성 오디오 및 사용자 주변 오디오 중 하나가 사용자 재배치 시그널링에 기초한 방향으로부터 지각되도록 원격 사용자 디바이스에 의해 프리젠테이션되어야 하고 사용자 음성 오디오 및 사용자 주변 오디오 중 다른 하나는 사용자 오디오 콘텐츠의 방향 정보에 기초하여 프리젠테이션되어야 함을 나타냄 - 을 원격 사용자 디바이스에 송신하는 단계:

를 포함한다.

추가 양태에서는 컴퓨터 프로그램 코드가 저장된 컴퓨터 판독 가능 매체가 제공되며, 컴퓨터 판독 가능 매체 및 컴퓨터 프로그램 코드는 적어도 하나의 프로세서에서 실행될 때:

기준 위치를 나타내는 제1 정보를 수신하는 단계;

의 방법을 수행하도록 구성된다.

사용자 입력을 수신하는 단계; 및

의 방법을 수행하도록 구성된다.

추가의 예시적인 양태에서는,

적어도 하나의 프로세서; 및

컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리:

를 포함하는 장치가 제공되며,

적어도 하나의 메모리 및 컴퓨터 프로그램 코드는 적어도 하나의 프로세서로 상기 장치가 적어도 다음의:

기준 위치를 나타내는 제1 정보를 수신하며;

음성 지각 방향과 주변 지각 방향 사이의 공간적 분리를 증대시키기 위해 재배치 시그널링에 기초하여 기준 위치에 대해 주변 지각 방향을 재배치하기 위한 제1 공간 오디오 효과의 수정 및 재배치 시그널링에 기초하여 기준 위치에 대해 음성 지각 방향을 재배치하기 위한 제2 공간 오디오 효과의 수정 중 적어도 하나를 사용하여 오디오 콘텐츠의 프리젠테이션을 제공하게:

하도록 구성된다.

추가의 예시적인 양태에서는,

적어도 하나의 프로세서; 및

컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리:

를 포함하는 장치가 제공되며,

사용자 입력을 수신하며; 및

상기 사용자 입력으로부터 결정된 사용자 재배치 시그널링 - 사용자 배치 시그널링은 사용자 음성 오디오 및 사용자 주변 오디오 중 하나가 사용자 재배치 시그널링에 기초한 방향으로부터 지각되도록 원격 사용자 디바이스에 의해 프리젠테이션되어야 하고 사용자 음성 오디오 및 사용자 주변 오디오 중 다른 하나는 사용자 오디오 콘텐츠의 방향 정보에 기초하여 프리젠테이션되어야 함을 나타냄 - 을 원격 사용자 디바이스로 송신하게:

하도록 구성된다.

본 발명은 해당 조합에 또는 단독으로 구체적으로 기술되었는지(특허청구된 것을 포함함) 여부에 관계없이, 단독으로 또는 다양한 조합으로 하나 이상의 대응하는 양태, 예, 또는 특징을 포함한다. 논의된 기능들 중 하나 이상을 수행하기 위한 대응하는 수단 및 대응하는 기능 유닛(예를 들면, 기능 인에이블러, 스피커 셀렉터, 증폭기, 디스플레이 디바이스)도 본 발명의 범위 내에 있다.

개시된 방법들 중 하나 이상을 구현하기 위한 대응하는 컴퓨터 프로그램들도 본 발명의 범위 내에 있으며 설명된 예들 중 하나 이상에 포함된다.

상기 발명의 개요는 단지 예시적인 것으로 비한정적인 것으로 의도된다.

이제 첨부 도면을 참조하여 예로서만 설명이 주어진다.
도 1은 오디오의 프리젠테이션을 제공하기 위한 예시적인 장치를 도시한다.
도 2는 사용자와 원격 사용자 사이의 원격통신을 도시한다.
도 3은 몰입형 공간 오디오 인코더의 예시적인 블록도를 도시한다.
도 4는 원격통신 오디오 콘텐츠로서 제공하기 위한 공간 오디오 콘텐츠의 예시적인 캡처를 도시한다.
도 5는 사용자가 오디오가 유래되는 것으로 지각하는 방향을 포함하는 원격통신 오디오 콘텐츠의 프리젠테이션의 예를 도시한다.
도 6은 주변 오디오의 음원이 음성 오디오와 같은 위치에 배치된, 사용자가 오디오가 유래되는 것으로 지각하는 방향을 포함하는 원격통신 오디오 콘텐츠의 프리젠테이션의 예를 도시한다.
도 7은 재배치 시그널링의 예시적인 효과를 도시한다.
도 8은 사용자가 공간 원격통신 오디오 콘텐츠의 프리젠테이션을 지각하는 방향을 재배치하는 예를 도시한다.
도 9는 사용자에게 프리젠테이션된 오디오 또는 원격 사용자에게 프리젠테이션된 오디오의 지각 위치/방향을 재배치하기 위한 사용자 입력의 해석을 보여주는 예시적인 블록도를 도시한다.
도 10은 원격통신 오디오 콘텐츠 및 방향 정보를 캡처하기 위한 예시적인 룸을 도시한다.
도 11은 도 10의 룸 내의 오디오 소스의 예를 도시한다.
도 12는 도 10 및 도 11의 룸에서 캡처된 오디오의 프리젠테이션을 도시한다.
도 13은 음성 오디오와 주변 오디오가 같은 위치에 배치되는 예를 도시한다.
도 14는 도 13의 사시도를 도시한다.
도 15는 원격 사용자의 손목 회전의 예시적인 사용자 입력에 의해 생성된 재배치 시그널링에 기초하여 음성 오디오의 지각 위치의 병진이동 및 회전을 도시한다.
도 16은 예시적인 방법을 도시하는 플로우차트를 나타낸다.
도 17은 예시적인 방법을 도시하는 플로우차트를 나타낸다.
도 18은 컴퓨터 판독 가능 매체를 나타낸다.

오디오의 모노포닉 캡처 및 모노포닉 프리젠테이션 이상의 것을 제공하는 원격통신 또는 텔레포니 시스템이 개발되고 있다. 텔레포니 서비스에 새로운 수준의 몰입을 가능케 하는 몰입형 텔레포니 시스템이, 3GPP(3rd Generation Partnership Project: 3세대 파트너십 프로젝트) 같은 것에 의해 개발되고 있다. 몰입형 텔레포니는 사용자들 사이의 원격통신의 제공에 있어서 공간 오디오 콘텐츠의 캡처 및 공간 오디오 프리젠테이션 기법의 사용을 포함할 수 있다. 이러한 서비스는 예를 들어, 멀티 마이크로폰 공간 오디오 캡처 및 처리, 적절한 몰입형 오디오 포맷으로의 인코딩, 전송 및 디코딩, 바이노럴(binaural) 또는 라우드스피커 프리젠테이션에 의해 모바일 4G 또는 5G 네트워크를 통해 실현될 수 있다. 이러한 시스템들은 파라미터 공간 오디오와 같은 몰입형 공간 오디오 콘텐츠의 전송 및 프리젠테이션을 제공할 수 있다. 이는 원격통신 통화 참가자들 또는 사용자들로부터의 엔벨로핑 오디오 씬(enveloping audio scene)의 수신 및 원격통신 통화 참가자들 또는 사용자들로의 엔벨로핑 오디오 씬의 송신을 가능케 할 수 있다. 그래서, 예를 들어 원격 사용자가 사용자에게 전화를 걸면, 사용자는 마치 자신이 원격 사용자의 위치에 물리적으로 위치해 있는 것처럼 원격 사용자 주변의 오디오 환경을 체험할 수 있으며, 그 반대의 경우도 마찬가지이다. 사용자들 사이의 원격통신은 종래의 원격통신 네트워크, 이동 통신 네트워크, 인터넷 기반의 네트워크, P2P 기반의 네트워크, 또는 기타 네트워크 유형에 의해 제공될 수 있다.

하나 이상의 예에서, 상기 원격통신의 일부로서 제공되는 오디오 콘텐츠는 1 차 "음성(voice)" 오디오 및 2 차 "주변(ambient)" 오디오로 분류될 수 있다. 1 차 음성 오디오는 원격통신 통화를 이해하기 위한 중요한 오디오를 포함할 수 있는 한편, 2 차 오디오는 다른 음원으로부터의 소리 또는 노이즈를 포함할 수 있는 주변 오디오를 포함할 수 있다.

하나 이상의 예에서, 1 차 오디오는 (로컬 사용자로 지칭될 수 있는) 사용자와 원격통신하는 한 명 이상의 원격 사용자의 음성에 의해 생성된 것으로 결정된 오디오를 포함하는 음성 오디오를 포함할 수 있다. "음성" 1 차 오디오는 오디오 분석 기법을 사용하여 캡처 시점에 또는 재생 시점에, 또는 서버에 의해 또는 상기 원격통신에 연관된 기타 엔티티에 의해 분류될 수 있다. 2 차 오디오는 하나 이상의 예에서, 한 명 이상의 원격 사용자의 음성에 의해 생성된 것으로 결정된 오디오 이외의 오디오를 포함하는 주변 오디오를 포함할 수 있다. 그래서, 하나 이상의 예에서, 사용자의 음성을 검출하도록 구성된 제1 마이크로폰은 1 차 오디오를 제공할 수 있고, 그 외로부터의 오디오를 검출하도록 구성된 하나 이상의 다른 마이크로폰은 2 차 오디오를 제공할 수 있다. 멀티 마이크로폰 배치에 의해, 동일한 오디오가 2 개 이상의 마이크로폰에 의해 검출될 수 있으며, 따라서 주로 제1 마이크로폰에 의해 검출된 음성 오디오를 다른 마이크로폰들에 의해 검출된 오디오로부터 분리하기 위해 오디오 처리 기법이 사용될 수 있다는 것이 이해될 것이다. 예를 들어, 휴대 전화가 오디오를 캡처하는 데 사용되는 경우, 사용자의 입 근처에 있는 마이크로폰이 주로 음성 오디오를 캡처하도록 구성될 수 있고, 휴대 전화 뒷면의 마이크로폰(들)이 주변 오디오를 캡처하도록 구성될 수 있다. 하나 이상의 예에서는, 단일 마이크로폰이 사용될 수도 있고, 음성 오디오를 임의의 주변 노이즈로부터 분리하여 오디오 콘텐츠를 1 차 오디오 및 2 차 오디오로 분류하기 위해 오디오 처리 알고리즘들이 사용될 수 있으며, 이러한 알고리즘들은 본 기술분야의 통상의 기술자에게 알려져 있다.

하나 이상의 예에서, 1 차 음성 오디오는 방향 정보에 따라 하나 이상의 방향으로부터 유래되는 것으로 지각되도록 프리젠테이션을 위한 방향 정보를 포함하는 공간 오디오 콘텐츠를 포함할 수 있다. 하나 이상의 예에서, 2 차 오디오는 방향 정보에 따라 하나 이상의 방향으로부터 유래되는 것으로 지각되도록 프리젠테이션을 위한 방향 정보를 포함하는 공간 오디오 콘텐츠를 포함할 수 있다. 주변 오디오는 복수의 별개의 음원으로부터의 오디오를 포함할 수 있으며, 각 음원은 방향 정보에 인코딩되는 바와 같이 오디오의 도착 방향 또는 오디오 소스의 위치와 관련된 각각의 방향을 가질 수 있음을 이해할 것이다. 그래서, 주변 오디오의 방향 정보는 하나의 음원 쪽으로의 방향 또는 음원 배열 쪽으로의 방향들을 정의할 수 있다. 다른 예들에서, 주변 오디오는 예컨대, 앰비소닉(ambisonic) 리코딩 기법을 사용하여 주위의 오디오 소스들에 의해 생성된 오디오의 복합 3 차원 표현을 포함하는 오디오 씬(audio scene)을 정의한다.

하나 이상의 예에서, 1 차 음성 오디오는 원격통신 통화의 이해를 위해 중요할 수 있는 한편, 2 차, 주변, 오디오는 원격 사용자의 위치에서의 백그라운드 오디오로 간주될 수 있다는 것이 이해될 것이다. 2 차 오디오는 디폴트로 공간 오디오 프리젠테이션용으로 구성될 수 있다. 그래서, 2 차 오디오는 디폴트로 원격 사용자의 주변 오디오 환경을 사용자에게 복제하거나 그 반대로 이루어지게 제공되도록 구성될 수 있다.

공간 오디오 콘텐츠를 포함하는 1 차 오디오에 의해, 원격 사용자의 위치에서 오디오가 수신된 방향은 공간 오디오 프리젠테이션의 사용에 의해 오디오를 제1 사용자(또는 임의의 다른 사용자)에게 프리젠테이션할 때 재생될 수 있다. 하나 이상의 예에서, 1 차 오디오는 (예컨대, 공간 오디오 콘텐츠로부터) 모노포닉 오디오로 변환되어 원하는 방향 또는 위치로부터 지각되도록 공간 오디오 프리젠테이션을 사용하여 프리젠테이션될 수 있다.

공간 오디오는 마치 오디오의 소스가 특정 위치 또는 방향에 있는 것처럼 그 특정 위치 또는 방향으로부터 유래되는 것으로 지각되도록 사용자에게 프리젠테이션되는 오디오를 포함한다. 공간 오디오 콘텐츠는 공간 오디오로서 프리젠테이션하기 위한 오디오를 포함하며, 그에 따라 통상적으로 (예를 들면 메타데이터로 명시적으로 지정되거나 오디오가 캡처되는 방식에 내재하는) 방향 정보를 갖는 오디오를 포함하며, 그래서 그 컴포넌트 오디오가 방향 정보에 따라 하나 이상의 지점 또는 하나 이상의 방향으로부터 유래되는 것으로 지각되도록 공간 오디오 콘텐츠가 프리젠테이션될 수 있게 한다. 몰입형 오디오 원격통신 통화용으로 공간 오디오를 인코딩하여 전달하는 한 가지 방법은 사용자의 음성과 공간 분위기(spatial ambiance)를 개별적으로 인코딩하는 것이다. 예를 들어, 근거리/원거리(near-far) 스테레오, FOA(First Order Ambisonics)/HOA(Higher Order Ambisonic)(+ 오브젝트), 및 다른 공간 오디오 인코딩 스킴을 포함하여, 다양한 인코딩 포맷이 존재한다.

하나 이상의 예에서는, 비공간 오디오 콘텐츠가 공간 오디오로서 프리젠테이션될 수 있다. 그래서, "종래의" 모노포닉 또는 스테레오포닉 오디오(또는 이러한 포맷으로 변환된 오디오)는 특정 위치 또는 방향으로부터 유래되는 것으로 지각되도록 프리젠테이션하기 위해 제공될 수 있다. 본 명세서에서 설명되는 실시예들 중 하나 이상은 공간 오디오 콘텐츠 또는 비공간 오디오 콘텐츠에 기초한 공간 오디오를 프리젠테이션할 수 있다.

공간 오디오의 공간 배치(spatial positioning)는 오디오 콘텐츠에 적용되는 공간 오디오 효과에 의해 제공될 수 있다. 공간 오디오 효과는 사용자에게 프리젠테이션을 위해 오디오가 배치될 수 있는 공간 오디오 공간(증강 현실의 경우에는 현실 세계의 공간과 정렬됨)을 생성하기 위해 HRTF(head-related transfer function: 머리전달함수)를 이용하는 것과 같은 3D 오디오 효과들을 포함한다. 공간 오디오는 HRTF(head-related transfer function) 필터링 기법을 사용하여 헤드폰에 의해 프리젠테이션되거나, 라우드스피커의 경우에는 오디오 콘텐츠의 지각된 청각적 근원지를 배치하기 위해 벡터 기반의 진폭 패닝 기법(vector-base-amplitude panning techniques)을 사용하여 프리젠테이션될 수 있다. 다른 실시예들에서는 앰비소닉 오디오 프리젠테이션이 공간 오디오를 프리젠테이션하는 데 사용될 수 있다.

공간 오디오 효과는 오디오의 근원지가 공간의 특정 위치 또는 특정 방향에 있다는 지각을 생성하기 위해 사용자의 귀 각각에 대한 가청 프리젠테이션 사이의 볼륨 차이, 타이밍 차이, 및 피치 차이 중 하나 이상을 사용할 수 있다. 오디오의 지각된 근원지까지의 지각된 거리는 공간 오디오의 지각된 소스로부터의 근접성 또는 거리를 나타내기 위해 잔향(reverberation) 및 이득의 양을 제어함으로써 렌더링될 수 있다. 본 명세서에서 설명되는 공간 오디오 프리젠테이션은 그 근원지 쪽으로 지각된 방향만을 갖는 오디오의 프리젠테이션뿐만 아니라 오디오의 근원지가 예를 들면, 사용자로부터의 거리의 지각을 포함하여 지각된 위치를 갖도록 오디오의 프리젠테이션과 관련될 수 있음을 이해할 것이다.

예시적인 도 1 및 예시적인 도 2는 사용자(200)에게 및 선택적으로 원격 사용자(204)에게 오디오 콘텐츠의 프리젠테이션을 제어 또는 제공하기 위해 또는 프리젠테이션하기 위해 사용될 수 있는 장치(100)를 도시한다. 장치(100)는 원격통신 분야에 적용될 수 있으며, 따라서 다음의 예에서 오디오 콘텐츠는 원격통신 오디오 콘텐츠로 지칭된다. 하지만, 원격통신에 대한 언급은 오디오 콘텐츠가 어떻게 전달되는지에 대한 제한을 시사하지 않으며, 전통적인 전화 네트워크, 모바일 폰 또는 셀폰 기반의 네트워크, VoIP를 사용하는 인터넷과 같은 데이터 네트워크, 또는 패킷 기반이든 회선 교환이든 불문하고 임의의 텔레포니 서비스를 통해 전달될 수 있다는 것을 이해할 것이다. 장치(100)는 입력(I)과 같은, 원격통신 오디오 콘텐츠 또는 다른 장치에 의한 원격통신 오디오 콘텐츠의 수신에 관한 정보를 수신하기 위한 수단을 포함할 수 있다. 장치(100)는 예컨대, 다른 정보를 수신하기 위한 추가 입력들을 포함할 수 있다는 것을 이해할 것이다. 입력(I)은 (도 2에 도시된) 원격 사용자 디바이스(202)로부터 음성 오디오 및 주변 오디오를 포함하는 몰입형 공간 오디오 콘텐츠와 같은, 원격통신 오디오 콘텐츠를 수신할 수 있다. 하나 이상의 예에서, 장치(100)는 전통적인 전화 네트워크, 셀룰러 전화 네트워크, 또는 인터넷을 포함할 수 있는 원격통신 네트워크(203)를 통해 원격 사용자 디바이스(202)와의 원격통신을 제공하는 능력을 가질 수 있는 로컬 사용자 디바이스(201)의 일부를 포함할 수 있다. 로컬 사용자 디바이스(201) 및/또는 원격 사용자 디바이스(202)는 휴대 전화 또는 기타 통신 기기를 포함할 수 있다. 그래서, 제1 사용자(200)는 그 로컬 사용자 디바이스(201)를 통해 원격 사용자 디바이스(202)와 연관된 원격 사용자(204)와 통신할 수 있다.

다음의 설명은 주로 로컬 사용자 디바이스(201)의 일부로서 장치(100)를 설명하지만, (도시되지는 않았으나 장치(100)와 동등한) 대응하는 원격 장치가 원격 사용자 디바이스(202)의 일부로서 제공될 수 있고, 수신된 원격통신 오디오 콘텐츠 및 이에 원격인 로컬 사용자 디바이스로부터 수신된 시그널링에 기초하여 동등한 기능들을 수행할 수 있다는 것을 이해할 것이다.

장치(100)는 프로세서(108) 및 메모리(109)를 포함하거나 이에 연결될 수 있으며, 컴퓨터 프로그램 코드를 실행하도록 구성될 수 있다. 장치(100)는 하나의 프로세서(108) 및 하나의 메모리(109)만을 가질 수도 있으나, 다른 실시예들은 2 개 이상의 프로세서 및/또는 2 개 이상의 메모리(예를 들면, 동일하거나 상이한 프로세서/메모리 유형)를 이용할 수 있다는 것을 이해할 것이다. 또한, 장치(100)는 ASIC(Application Specific Integrated Circuit: 특정 용도용 집적 회로)일 수도 있다.

프로세서는 메모리에 컴퓨터 프로그램 코드의 형태로 저장된 명령어에 따라 원격통신 오디오 콘텐츠와 같은, 다른 컴포넌트들로부터 수신된 정보를 실행/처리하는 데 전용되는 범용 프로세서일 수 있다. 프로세서의 이러한 동작들에 의해 생성된 출력 시그널링은 사용자(200)에게 오디오 콘텐츠를 프리젠테이션하기 위해 스피커, 헤드폰, 증폭기, 또는 다른 오디오 프리젠테이션 기기(미도시)와 같은 추가 컴포넌트들에 후속으로 제공된다.

메모리(109)(반드시 단일 메모리 유닛일 필요는 없음)는 컴퓨터 프로그램 코드를 저장하는 컴퓨터 판독 가능 매체(이 예에서는 솔리드 스테이트 메모리이지만, 하드 드라이브, ROM, RAM, 플래시 등과 같은 다른 유형의 메모리일 수도 있음)이다. 이 컴퓨터 프로그램 코드는 프로그램 코드가 프로세서에서 실행될 때 프로세서에 의해 실행 가능한 명령어를 저장한다. 하나 이상의 예시적인 실시예에서, 메모리와 프로세서 사이의 내부 연결은 프로세서가 메모리에 저장된 컴퓨터 프로그램 코드에 액세스할 수 있도록 프로세서와 메모리 사이에 능동적 결합(active coupling)을 제공하는 것으로 이해될 수 있다.

이 예에서, 각각의 프로세서들 및 메모리들은 각각의 컴포넌트들 사이의 원격통신이 가능하도록 내부적으로 서로 전기적으로 연결되어 있다. 이 예에서, 컴포넌트들은 ASIC으로 함께 형성되도록, 즉 전자 디바이스에 설치될 수 있는 단일 칩/회로로 함께 통합되도록, 모두 서로 근접하게 배치된다. 몇몇 예에서 컴포넌트들 중 하나 이상 또는 모두는 서로 떨어져 배치될 수도 있다.

도 3은 오디오 콘텐츠를 인코딩하기 위한 원격 사용자 디바이스(202), 원격 장치, 장치(100), 또는 로컬 사용자 디바이스(201) 중 하나 이상의 일부를 형성할 수 있는 몰입형 오디오 인코더에 의한 몰입형 오디오 콘텐츠의 캡처 및 인코딩의 예시적인 블록도를 보여준다. 캡처 블록(301)은 휴대 전화, 몰입형 비디오 캡처 디바이스, 컴퓨터, 또는 스마트폰과 같은 하나 이상의 소스로부터 하나 이상의 마이크로폰에 의한 오디오의 캡처를 도시한다. 수신 블록(302)은 모노포닉으로, 앰비소닉스 오디오로, 다중 채널 또는 스트림으로와 같이 다양한 포맷으로 캡처될 수 있는 오디오의 수신을 도시하는데, 상기 오디오는 하나 이상의 예에서, 적어도 소스로부터의 오디오의 도착 방향 또는 오디오 소스의 위치를 정의할 수 있는 메타데이터와 연관될 수 있다. 인코드 블록(303)은 그 다양한 포맷으로 캡처된 오디오를 수신한다. 인코드 블록(303)은 오디오 믹싱을 제공할 수 있다. 오디오와 연관된 메타데이터는 복수의 상이한 포맷으로 캡처될 수 있다. 하나 이상의 예에서 블록(303)은 메타데이터를 표준 포맷으로 변환할 수 있다. 하나 이상의 예에서, 오디오 자체는 상이한 포맷들로 캡처 및 인코딩될 수 있으며, 블록(303)은 오디오를 표준 포맷 또는 포맷들로 트랜스코딩할 수 있다. 비트스트림 생성 블록(304)은 몰입형 오디오 인코딩 포맷으로 비트스트림의 생성을 제공한다.

공간 오디오 콘텐츠(예를 들면, 헤드 추적 바이노럴 오디오)를 렌더링할 수 있는 고품질의 공간 오디오 서비스, 애플리케이션, 및 디바이스의 확산은 그 사용의 대폭적인 증가로 이어질 가능성이 있다. 또한 역으로, 몰입형 공간 오디오 콘텐츠에 대한 관심의 증대는 시장에서 점점 더 많은 제품의 출시로 이어질 것이다.

몰입형 공간 오디오 콘텐츠는 정의상 몰입감을 갖는 것을 목표로 한다. 사용자(200) 또는 원격 사용자(204)는 그들 주위의 오디오가 원격 당사자에게 어떻게 들릴지를 고려할 때 이를 감안할 수도 있고 감안하지 않을 수도 있다. 항상 가능하거나 실용적이지 않을 수도 있다. 예를 들어, 오디오 캡처가 이루어지는 공간에는 시끄러운 개 짖는 소리와 같은 매우 주된 음원이 있을 수 있다. 사용자(200)는 어떤 때는 주된 음원에 가까이 있을 수도 있고 다른 때에는 이로부터 매우 멀리 떨어져 있을 수도 있다. 이는 예를 들어, 원격 사용자(204)가 사용자(200) 및 주된 음원을 얼마나 잘 이해할 수 있는지에 영향을 미칠 수 있는데, 이는 몰입형 공간 오디오 통화 체험에 중요할 수 있다.

원격 사용자의 관점에서, 공간 오디오 프리젠테이션은 추가 요건을 부여한다. 예를 들어, 원격 사용자는 그들 자신이 시끄러운 환경에 있을 수도 있고 또는 원격 사용자는 멀티태스킹 중일 수도 있다. 몰입형 공간 오디오 원격통신 콘텐츠의 렌더링은 신중한 고려를 필요로 한다. 특히, 사용자(200) 또는 원격 사용자(204)가 자신의 공간 내에서 다른 음원 주위를 이동할 때, 원격통신 오디오 콘텐츠가 상대방에게 프리젠테이션되는 방식은 문제가 될 수 있다.

예시적인 도 4는 이 예에서는 휴대 전화를 포함하는 그 원격 사용자 디바이스(202)를 갖는 원격 사용자(204)를 나타낸다. 원격 사용자 디바이스(202)는 로컬 사용자 디바이스(201) 및 그에 따라 사용자(200)와의 원격통신에 사용하기 위한, 원격통신 오디오 콘텐츠로 명명되는 공간 오디오 콘텐츠를 캡처하도록 구성된다.

이 예에서, 원격 사용자 디바이스(202)는 원격 사용자 디바이스(202)의 전면에 배치된 마이크폰(401)과 같은, 음성 오디오의 캡처를 위한 적어도 하나의 마이크폰을 포함한다. 따라서, 마이크로폰(401)은 원격 사용자(204)의 음성을 수신하는데 최적으로 배치된 마이크로폰일 수 있다. 또한, 원격 사용자 디바이스(202)는 원격 사용자(204)가 위치해 있는 공간(404) 내의 음원들(405, 406)로부터 오디오를 캡처하기 위해 원격 사용자 디바이스(202)의 뒷면에 배치된, 제2 마이크로폰(402) 및 제3 마이크로폰(403)과 같은, 주변 오디오를 캡처하기 위한 적어도 하나의 마이크로폰을 포함한다.

소리의 측면에서, 공간(404)은 따라서 원격 사용자(204)로부터의 음성 오디오 및 제1 음원(405)과 제2 음원(406)으로부터의 주변 오디오를 포함한다. 주변 오디오는 그래서 원격 사용자(204), 특히 원격 사용자(204)의 음성 이외의 적어도 하나의 음원으로부터의 오디오를 포함한다. 마이크로폰(401)에 의해 캡쳐되는 음성 오디오는 음원들로부터의 오디오를 포함할 수 있으며, 마찬가지로 제2 및 제3 마이크로폰(402, 403)에 의해 캡쳐되는 주변 오디오는 원격 사용자의 음성으로부터의 오디오를 포함할 수 있다. 하지만, 음성 오디오를 필터링하고 그에 따라 음원들(405, 406)로부터 오디오를 제거하기 위해 오디오 처리가 수행될 수 있다. 주변 오디오를 필터링하고 그에 따라 원격 사용자(204)의 음성으로부터 오디오를 제거하기 위해 오디오 처리가 수행될 수 있다. 원격통신 오디오 콘텐츠는 따라서 각각의 오디오 콘텐츠를 나타내는 정보를 포함하는 음성 오디오 채널 및 하나 이상의 주변 오디오 채널을 포함할 수 있다.

원격통신 오디오 콘텐츠는 기준점에 대한 적어도 하나의 음원 쪽으로의 방향 및 위치 중 하나를 나타내는 방향 정보와 연관된다. 이 예에서, 기준점은 그 앞에 유지되는 원격 사용자 디바이스를 향하는 방향으로와 같이, 원격 사용자 디바이스(202)로부터 연장되어 원격 사용자(204)로부터 멀어지는 쪽을 가리키는 방향(407)을 포함한다.

이 예 및 하나 이상의 예에서, 제1 음원(405)에 대한 방향 정보는 기준점으로부터 측정되는 이를 향하는 방향을 포함할 수 있는데, 이는 약 -45°의 각도(408)를 포함할 수 있다. 제2 음원(406)에 대한 방향 정보는 기준점(407)으로부터 측정되는 이를 향하는 방향을 포함할 수 있는데, 이는 약 +40°의 각도(409)를 포함할 수 있다. 음성 오디오와 관련된 방향 정보도 +180°와 같은 각도를 포함할 수 있다. 방향 정보는 이 2 차원의 예에서 나타낸 것과 다르게, 다른 방식으로 및 3 차원 좌표로 나타낼 수도 있다는 것을 이해할 것이다. 그래서, 하나 이상의 예에서는, 방위각과 고도 및 선택적으로 거리가 지정될 수 있다. 다른 예들에서는, 2 차원 또는 3 차원의 데카르트 좌표가 사용될 수도 있다. 소리의 근원지의 방향 또는 위치가 어떻게 기록되는지에 관계없이, 방향 정보는 공간(404) 내의 음성 오디오를 포함한 오디오 소스들의 위치들 사이의 공간적 관계를 나타낼 수 있다.

2 개의 마이크로폰(402, 403)의 사용은 음원들(405, 406) 쪽으로의 방향이 마이크로폰 각각에서 수신되는 대응하는 오디오의 타이밍 차이(timing differences)에 의해 결정될 수 있게 할 수 있다. 다른 예들에서는, 음원들(405, 406) 쪽으로의 방향 또는 위치가 오디오의 도착 각도를 결정할 수 있는 나의 지향성 마이크로폰 어레이와 같이, 다른 방식으로 결정될 수도 있다. 하나 이상의 예에서, 오디오 소스들의 위치는 하나 이상의 카메라에 의해 광학적으로 결정될 수도 있다. 하나 이상의 다른 예에서, 원격 사용자 디바이스(202)는 상이한 개수 또는 배치의 마이크로폰을 포함할 수 있다.

예시적인 도 5는 캡처된 원격통신 오디오 콘텐츠가 방향 정보에 기초하여 사용자(200)에게 공간 오디오로서 어떻게 프리젠테이션 또는 "렌더링"될 수 있는지의 예를 보여준다. 장치는 사용자(200)가 향하는 방향 및/또는 사용자(200)의 위치와 같은 기준 방향(507)을 포함할 수 있는 제1 정보를 수신하도록 구성될 수 있다. 도 5는 공간 오디오로서 프리젠테이션된 원격통신 오디오 콘텐츠를 듣고 있는 사용자(200)를 나타낸다. 일반적으로, 사용자(200)는 바이노럴 헤드폰을 사용하게 된다. 이러한 헤드폰 프리젠테이션은 대부분의 몰입형 공간 오디오 사용의 경우에 선호되는 프리젠테이션 방법으로 간주된다는 것이 일반적으로 이해된다. 하지만, 공간 오디오의 프리젠테이션 또는 사운드바에 의한 프리젠테이션을 위해 라우드스피커 배치가 사용될 수도 있다는 것을 이해할 것이다.

예시적인 도 5는 사용자(200)에게 프리젠테이션되는 청각 씬(aural scene)을 나타낸다. 공간 오디오 프리젠테이션은 오디오의 소스가 사용자(200)(청취자) 주위의 공간에 위치되어 있다는 지각을 제공한다는 것을 이해할 것이다. 공간 오디오로서의 그 프리젠테이션을 유발하는 오디오 콘텐츠에 공간 오디오 효과가 적용될 수 있으며 그래서 장치(100)가 사용 중일 때 오디오의 근원지가 청취자 또는 사용자에 대해 특정 위치 또는 방향으로부터 지각되도록 한다. 이 예에서, 원격통신 오디오 콘텐츠의 방향 정보는 음원들 및 음성 오디오 쪽으로의 방향(또는 동일하게, 오디오가 도착하는 것으로 지각되는 방향)을 참조하는 방향만 포함한다. 따라서, 하나 이상의 예에서, 원격통신 오디오 콘텐츠는 원(500)으로 나타내는 바와 같은, 사용자(200) 주위의 개념적 원(circle) 또는 구(sphere) 상에 놓인 지각 위치들로부터의 공간 오디오로서 렌더링될 수 있다. 방향 정보가 거리 정보를 포함하는 다른 예들에서, 지각 위치들은 상이한 거리에 위치된 위치들로부터 렌더링될 수 있다.

씬(scene)은 사용자(200)가 원격 사용자(204)의 음성 오디오를 지각하는 장소를 나타내는 원격 사용자(204)의 제1 표현(504)을 보여준다. 이해될 수 있다시피, 음성 오디오는 방향 정보에 표현되는 바와 같이 (제1 정보의 기준 방향(507)에 대해) +180°의 음성 지각 방향(501)으로부터 들린다. 장치(100)는 오디오 콘텐츠의 음성 오디오에 공간 오디오 효과를 적용하여 음성 지각 방향으로부터 유래되는 것으로 지각되도록 프리젠테이션되게 할 수 있다. 제2 표현(505)은 제1 음원(405)을 나타내고 제3 표현(506)은 제2 음원(406)을 나타내는데, 이들은 그 관련된 방향 정보에 정의된 것과 동일한 방향, 즉 각각 제1 주변 지각 방향(502) 및 제2 주변 지각 방향(503)으로부터 지각된다. 그래서, 장치(100)는 각각의 제1 주변 지각 방향 및 제2 주변 지각 방향으로 프리젠테이션되도록 "주변" 제1 음원 오디오 및 "주변" 제2 음원 오디오에 각각의 공간 오디오 효과를 적용할 수 있다. 이 예 및 하나 이상의 다른 예에서, 주변 지각 방향들(502 및 503) 및 음성 지각 방향(501)은 오디오가 원격 사용자 디바이스(202)에 의해 수신된 방향들에 직접 대응한다. 하지만, 다른 예들에서, 음성 오디오는 사용자(200)의 전방으로부터 지각되도록 프리젠테이션될 수도 있다.

(도 4의) 제1 음원(405)은 공간(404) 내의 원격 사용자(204)에 더 가까이 이동할 수 있다. 제1 음원(405)은 마침 짖는 소음을 내고 있는 원격 사용자의 반려견을 포함할 수 있다. 그래서, 캡처된 원격통신 오디오 콘텐츠가 사용자(200)에게 어떻게 프리젠테이션되는지를 보여주는 (도 5와 유사한) 예시적인 도 6에서, 원격 음원(405)의 제2 표현(505)은 청각 씬에서 실질적으로 공통적인 지각 위치에 있다. 2 개의 오디오 소스가 동일한 지각 방향으로부터 들리는 2 개의 상이한 오디오 소스를 이해하는 것은 인간의 뇌에 어려운 것으로 알려져 있다. 이 문제는 할당된 비트 레이트가 낮고 더 많은 코딩 아티팩트가 도입되는 통신 네트워크의 혼잡 중에는 더욱 악화될 수 있다. 제2 표현(505) 및 음성 오디오(504)의 지각 위치(및 그에 따라 원격 사용자(204) 및 제1 음원(405)의 위치)는 같은 위치에 있다고 할 수 있다. 같은 위치에 있는 것은 서로의 역치 거리 내에 있는 것 또는 역치 각 간격(threshold angular separation) 미만의 각 간격을 갖는 것을 포함할 수 있다는 것을 이해할 것이다. 장치(100)는 이를 기반으로 사용자 또는 원격 사용자 중 1 인에게 경고하기 위한 피드백을 제공하도록 구성될 수 있다.

하나 이상의 예에서는, 원격 사용자(204)로부터의 원격 사용자 입력에 기초하여 원격 사용자 디바이스(202)로부터 재배치 시그널링(repositioning signalling)이 수신될 수 있다. 재배치 시그널링은 본 명세서에서 설명되는 재배치를 개념적으로 나타내는 시그널링을 포함할 수 있다. 재배치 시그널링은 장치(100)가 방향 정보에 표시된 위치로부터 음성 오디오 또는 주변 오디오 중 하나의 지각 위치/방향을 재배치하게 하는 원격 사용자(204)로부터의 명령을 나타낼 수 있다. 재배치 시그널링은 원격통신 오디오 콘텐츠와 함께 제공될 수 있거나 "대역외"와 같이 그와 별도로 제공될 수도 있다.

예시적인 도 7은 재배치 시그널링에 작용하고 음성 오디오의 제1 표현(504)의 음성 지각 방향(501)을 재배치(700)하기 위해 음성 오디오에 적용되는 공간 오디오 효과를 수정한 장치(100)를 나타낸다. 그래서, 장치(100)는 따라서 수정된 공간 오디오 효과(들)를 사용하여 오디오 콘텐츠를 프리젠테이션할 수 있다. 따라서, 사용자(200)가 음성 오디오를 지각하게 되는 지각 방향(501)은 이제 사용자(200)가 주변 오디오의 음원들(505, 506)을 지각하게 되는 지각 방향들(502, 503)로부터 이격된다. 하나 이상의 다른 예에서는, 주변 지각 방향(502) 또는 주변 지각 방향들(502, 503) 양자 모두가 재배치될 수 있다. 예를 들어, 재배치는 마치 원(500)이 그 위의 상대적 위치들에 있는 제2 및 제3 표현(505, 506) 양자 모두를 취하여 함께 회전된 것처럼, 주변 음원들의 상대적 배치의 회전으로서 제공될 수 있다.

따라서, 요약하면, 장치(100)는 사용자(200)에게 프리젠테이션하기 위해 원격 사용자 디바이스(202)로부터 원격통신 오디오 콘텐츠를 수신하거나 원격통신 오디오 콘텐츠의 수신에 관한 정보를 수신하도록 구성될 수 있다. 원격통신 오디오 콘텐츠는 사용자(200)와 원격통신하기 위한 원격 사용자(204)의 음성에 의해 생성된 것으로 결정된 오디오를 포함하는 음성 오디오, 및 원격 사용자(204) 이외의 적어도 하나의 음원(405, 406)으로부터의 오디오를 포함하는 주변 오디오를 포함할 수 있다. 원격통신 오디오 콘텐츠는 공간 오디오 콘텐츠를 포함할 수 있으며, 따라서 이는 기준점(407)에 대한 음원들(405, 406) 쪽으로의 방향 및 위치 중 하나를 나타내고 기준점(407)에 대한 원격 사용자(204) 쪽으로의 방향 및 위치 중 하나를 나타내는 방향 정보와 연관된다.

예시적인 도 5에 도시된 바와 같이, 주변 오디오는 공간 오디오 효과를 사용하여 공간 오디오로서 프리젠테이션하기 위해 제공되며, 그래서 사용자(200)는 음원들(405, 406)의 오디오를 방향 정보에 기초하여 사용자(200)에 대해 주변 지각 방향(502, 503)으로부터 유래되는 것으로 지각하게 된다. 주변 오디오의 프리젠테이션은 장치(100)에 의해 수행될 수 있거나 또는 로컬 사용자 디바이스(201)와 같은 다른 디바이스에 의해 장치(100)의 제어하에 수행될 수 있다. 또한, 음성 오디오는 공간 오디오 효과를 사용하여 공간 오디오로서 프리젠테이션하기 위해 제공될 수 있으며, 그래서 사용자(200)는 음성 오디오를 방향 정보에 기초하여 사용자(200)에 대해 음성 지각 방향(501)으로부터 유래되는 것으로 지각하게 된다. 음성 오디오의 프리젠테이션은 장치(100) 또는 로컬 사용자 디바이스(201)와 같은 다른 디바이스에 의해 수행될 수 있다. 장치(100)는 음성 지각 방향(501) 및 주변 지각 방향(502, 503)을 결정하기 위해 사용자(200)에 대해 기준점 또는 기준 방향(507)을 사용할 수 있는데, 이는 이 예에서는 사용자(200)로부터 전방을 가리키지만 사용자(200)가 있는 룸, 로컬 사용자 디바이스(201)에 대해 정의될 수도 있고 및/또는 다른 방향을 가리킬 수도 있다는 것을 이해할 것이다.

원격 사용자 디바이스(201)로부터 수신되는 재배치 시그널링은 원격 사용자(204)에 의한 입력의 수신을 기초로 할 수 있다. 예를 들어, 원격 사용자는 공간 오디오 콘텐츠가 렌더링될 때 개(dog)의 음원(505)이 사용자(200)에게 문제를 일으킬 수 있다는 것을 인식할 수 있으며, 따라서 그들은 방향 정보에 기초한 원격통신 오디오 콘텐츠의 디폴트 렌더링으로부터의 일탈을 야기하기 위해 원격 사용자 디바이스로 하여금 재배치 시그널링을 송신하게 하는 입력을 제공할 수 있다.

장치(100)는 재배치 시그널링의 수신에 응답하여, 재배치 시그널링에 기초하여 주변 지각 방향을 재배치하기 위해 "제1" 공간 오디오 효과 및 재배치 시그널링에 기초하여 음성 지각 방향을 재배치(700)하기 위해 "제2" 공간 오디오 효과 중 하나를 수정할 수 있다. 음성 지각 방향(501)과 주변 지각 방향들(502, 503) 중 어느 하나 사이의 임의의 공간적 중복(즉, 같은 위치에 있음)을 제거하기 위해, 주변 지각 방향들(502, 503)이 재배치될 수 있거나 음성 지각 방향(501)이 재배치될 수 있다는 것을 이해할 것이다. 몇몇 예에서는, 양자 모두가 동일한 방식으로, 즉 재배치의 방향 및 크기로 재배치되지 않는 한 재배치될 수 있으며, 그렇지 않으면 사용자(200)에게는 개선이 없게 된다. 재배치하기 위한 공간 오디오 효과(들)의 상기 수정에 의해, 장치(100)는 음성 지각 방향(501)과 주변 지각 방향(들)(502) 사이의 공간적 분리의 증대를 제공한다. 이는 프리젠테이션으로부터 주변 오디오를 제거하지 않고도 음성 오디오를 이해하는 데 도움이 될 수 있다.

하나 이상의 예에서, 장치(100)는 재배치 시그널링에 기초하여 음성 지각 방향(501) 및 주변 지각 방향(들)(502, 503) 중 하나의 재배치를 제공하지만, 장치(100)는 방향 정보를 참조하는 것과 같이 재배치 시그널링과 무관하게 주변 지각 방향 및 음성 지각 방향 중 다른 하나를 계속해서 결정하도록 구성될 수 있다.

재배치 시그널링은 하나 이상의 예에서, 장치(100)에 의한 재배치가 음성 지각 방향(501)과 주변 지각 방향(들)(502) 사이의 공간적 분리를 증대시키도록, 원격 사용자 디바이스(202)로부터 수신되는 명령을 포함할 수 있다. 따라서, 장치(100)는 음성 지각 방향(501) 및 주변 지각 방향(들)(502) 중 하나를 어디로 재배치할지를 결정하도록 구성될 수 있다. 하나 이상의 예에서, 장치(100)는 음성 지각 방향(501) 및 주변 지각 방향(들)(502) 중 다른 하나와 같은 위치에 있지 않는, 음성 지각 방향(501) 및 주변 지각 방향(들)(502) 중 하나에 대한 새로운 방향을 결정하도록 구성될 수 있다.

하나 이상의 예에서, 원격 사용자(200)는 어느 지각 방향/위치로부터 자신의 음성 오디오가 사용자(200)에게 렌더링되기를 원하는지, 혹은 어느 지각 방향/위치로부터 주변 오디오가 사용자(200)에게 렌더링되기를 원하는지의 표시를 그 사용자 입력에 의해 제공할 수 있다. 그래서, 재배치 시그널링은 주변 지각 방향 및 음성 지각 방향 중 하나를 어디로 재배치할지를 나타낼 수 있다. 장치(100)는 재배치 시그널링의 수신시에, 사용자가 재배치 시그널링에 기초하여 새로운 방향(예를 들면, 도 7의 501 대 도 6의 501)으로부터 상기 오디오를 지각하도록 수정된 공간 오디오 효과를 갖는 주변 오디오 및 음성 오디오 중 하나의 프리젠테이션을 제공하도록 구성될 수 있다.

하나 이상의 예에서, 원격 사용자(204)로부터 제공되며 장치(100)에 의해 작용되는 재배치 시그널링은 예를 들면, 음성 오디오가 사용자(200)의 위치에 또는 공간 내에 음원 또는 노이즈원이 존재하는 지각 방향(501)으로 이동되게 하는 결과를 낳을 수 있다. 예시적인 도 8은 사용자(200)와 함께 룸 내에 물리적으로 위치하는 노이즈원(800)을 나타낸다. 그래서, 음성 지각 방향(501)은 잠재적으로 음성 오디오를 이해하기 어렵게 하는 노이즈원과 같은 곳에 배치되게 된다. 장치(100)는 사용자(200)로부터의 사용자 입력에 기초하여 음성 지각 방향(501)을 재배치(801)하도록 구성될 수 있다. 그래서, 사용자(200)는 이러한 효과를 제공하기 위해 재배치 시그널링을 사용하여 원격 사용자(204)뿐만 아니라 오디오 콘텐츠(음성 및/또는 주변)를 지각하는 지각 방향을 제어할 수 있다.

요약하면, 하나 이상의 예에서, 장치(100)는 사용자(200)로부터 그 프리젠테이션된 오디오의 지각 위치의 재배치를 위한 사용자 입력에 기초하여, 사용자 입력에 기초하여 주변 지각 방향(502, 503)을 재배치하기 위해 주변 오디오에 적용되는 공간 오디오 효과 및 사용자 입력에 기초하여 음성 지각 방향(501)을 재배치(801)하기 위해 음성 오디오에 적용되는 공간 오디오 효과 중 하나를 수정하도록 구성된다. 그래서, 도 8의 예에서는, 음성 지각 방향(501)이 노이즈원(800)으로부터 멀어지게 이동되었으며, 그에 따라 사용자(200)는 음성 오디오를 더 잘 이해할 수 있게 된다.

상기에서는 원격 사용자 디바이스(202)로부터 원격통신 오디오 콘텐츠 및 재배치 시그널링을 수신하는 장치(100)에 대해 설명하고 있으나, 장치(100)도 또한 원격 사용자 디바이스(202)에 원격통신 오디오 콘텐츠(이해의 용이를 위해 "사용자 원격통신 오디오 콘텐츠"로 명명함) 및 재배치 시그널링(이해의 용이를 위해 사용자 재배치 시그널링으로 명명함)을 제공하는 능력을 가질 수 있다는 것을 이해할 것이다. 원격 사용자 디바이스(202)는 로컬 사용자 디바이스 및/또는 장치(100)로부터 수신되는 상기 사용자 원격통신 오디오 콘텐츠 및 사용자 재배치 시그널링에 대해 작용하기 위한, 장치(100)와 동등한 장치(미도시)를 포함할 수 있다.

그래서, 장치(100)는 원격 사용자(204)에게 프리젠테이션하기 위한 사용자 원격통신 오디오 콘텐츠를 원격 사용자 디바이스(202)에 송신하도록 구성될 수 있으며, 사용자 원격통신 오디오 콘텐츠는 원격 사용자(204)와 원격통신하기 위한 사용자(200)의 음성에 의해 생성된 것으로 결정된 오디오를 포함하는 사용자 음성 오디오 및 사용자(200) 이외의 적어도 하나의 음원으로부터의 오디오를 포함하는 사용자 주변 오디오를 포함한다. 사용자 원격통신 오디오 콘텐츠는 (기준 방향(407)과 유사한 것과 같은) 사용자 기준점에 대한 적어도 하나의 음원 쪽으로의 방향 및 위치 중 하나와, 사용자 기준점에 대한 사용자(200) 쪽으로의 방향 및 위치 중 하나를 나타내는 방향 정보를 포함할 수 있다.

또한, 하나 이상의 예에서, 장치(100)는 적어도 부분적으로 사용자 재배치 시그널링에 기초한 방향으로부터 지각되도록 사용자 음성 오디오 및 사용자 주변 오디오 중 하나를 프리젠테이션하도록 원격 사용자 디바이스(202)에 지시하는 사용자 재배치 시그널링을 원격 사용자 디바이스(202)에 송신하도록 구성될 수 있는데, 사용자 음성 오디오 및 사용자 주변 오디오 중 다른 하나는 사용자 원격통신 오디오 콘텐츠의 방향 정보에 기초하여 프리젠테이션하기 위한 것이다. 따라서, 원격 사용자(204)가 각 위치에서 캡처된 오디오가 재배치 시그널링을 사용하여 사용자(200)에게 어떻게 프리젠테이션되는지를 제어할 수 있는 방법과 유사하게, 사용자(200)는 각 위치에서 캡처된 오디오가 사용자 재배치 시그널링을 사용하여 원격 사용자(204)에게 어떻게 프리젠테이션되는지를 제어할 수 있다.

사용자 음성 오디오와 사용자 주변 오디오 중 재배치되지 않은 것의 프리젠테이션은 방향 정보를 기초로 할 수 있으며 사용자 재배치 시그널링에 독립적일 수 있다.

재배치 시그널링을 제공하기 위해 원격 사용자(204)에 의해 제공되는 사용자 입력 및/또는 사용자 재배치 시그널링을 제공하기 위해 사용자(200)에 의해 제공되는 사용자 입력 및/또는 (도 8을 참조하여 예시된) 오디오가 그들에게 어떻게 프리젠테이션되는지를 재배치하기 위한 사용자(200)의 사용자 입력은 회전 사용자 입력을 포함할 수 있다. 회전 입력은 손/손목 회전, 마우스의 회전 휠 상에서의 회전 동작, 터치 스크린 입력 디바이스 상에서의 손가락 또는 스타일러스의 회전 추적, 또는 기타 회전 입력과 같은, 회전하는 사용자 제스처에 의해 제공될 수 있다. 하나 이상의 다른 예에서, 사용자 입력은 병진이동과 같은, 임의의 다른 유형의 사용자 입력일 수 있다.

음성 지각 방향(501) 및 주변 지각 방향(들)(502) 중 하나의 재배치는 기준점에 대한 또는 음성 지각 방향(501) 및 주변 지각 방향(들)(502) 중 다른 하나에 대한 음성 지각 방향(501) 및 주변 지각 방향(들)(502) 중 상기 하나의 회전에 의해 제공될 수 있다. 도 7을 참조하면, 장치(100)에 의해 제공되는 재배치는 사용자(200)를 중심으로 한 음성 지각 방향(501)의 회전(700)에 의해 실현되는데, 이는 또한 원(500) 주위의 원격 사용자(204)의 제1 표현(504)의 회전으로도 해석될 수 있다. 하나 이상의 예에서, 재배치는: 지각 방향(들)의 3 차원 재배치를 제공하기 위한 복수의 회전축을 중심으로 한 회전; 평면 내에서 재배치를 제공하기 위한 하나의 회전축을 중심으로 한 회전 및 병진이동에 의한 재배치 중 하나 이상에 의해 제공될 수 있다.

하나 이상의 예에서, 장치(100)는 도 6에 도시된 음성 지각 방향(501) 내지 도 7에 도시된 새로운 음성 지각 방향(501) 사이의 적어도 하나의 중간 방향으로부터 음성 오디오의 프리젠테이션을 제공할 수 있다. 따라서, 장치(100)는 재배치 시그널링 또는 사용자 입력에 기초하여 음성 지각 방향(501)을 증분적이며 점진적인 방식으로 재배치하도록 구성될 수 있다. 이는 사용자(200)가 그들이 점진적으로 그 새로운 위치들/방향들로 이동하는 것을 들을 수 있으면 원격 사용자(204)의 음성의 지각 방향/위치에 또는 주변 음원들(205, 206)의 지각 방향/위치에 무슨 일이 일어나고 있는지를 이해하는데 도움이 될 수 있다. 주변 지각 방향이 재배치되는 경우 유사한 점진적인 프리젠테이션이 제공될 수 있다.

예시적인 도 9는 지각 오디오 방향들/위치들의 재배치를 위한 사용자 입력을 해석하기 위한 예시적인 수단을 도시하는 블록도를 나타낸다. 블록도에 도시된 기능은 장치(100)의 일부일 수 있다. 하나 이상의 예에서는, 동일한 사용자 입력 유형이 원격 사용자 디바이스(202)에 의해 사용되는 사용자 재배치 시그널링의 생성 및 사용자(200)가 그들에게 프리젠테이션된 오디오를 듣는 방향/위치의 재배치에 사용된다.

블록 901은 회전 사용자 입력과 같은, 사용자 입력의 수신을 나타낸다. 블록 902는 원격통신 오디오 콘텐츠 및 사용자 원격통신 오디오 콘텐츠의 수신 및 송신을 처리하도록 구성된 코덱 입력 블록을 포함한다. 블록 903은 사용자(200) 또는 원격 사용자(204) 중 어느 쪽이 임의의 한 시점에 오디오를 발생시키고 있는지, 예를 들면 말하고 있는지를 결정하도록 구성된다. 블록 904 및 905는 사용자 입력을 사용자 재배치 시그널링의 생성에 적용할지 또는 사용자(200)에게 프리젠테이션되는 오디오의 재배치에 적용할지를 정의하는 플래그를 설정한다. 블록 906은 그래서 블록 901로부터 사용자 입력 및 블록 904 및 905로부터 플래그를 수신해서는, 사용자 입력을 어떻게 해석할지를 결정한다. 블록 907은 따라서 사용자(200)로부터의 사용자 입력에 기초하여 사용자 재배치 시그널링을 생성하거나 사용자(200)가 그들에게 프리젠테이션된 오디오를 듣는 방향/위치의 재배치를 제공한다.

그래서, 장치(100)는 사용자(200)가 오디오를 발생시키고 있다고 결정되는 시간에 수신되는, 회전 입력과 같은, 사전 결정된 유형의 사용자 입력에 기초하여 상기 사용자 재배치 시그널링을 제공하도록 구성될 수 있다. 그래서, 사용자(200)가 말하고 있고 그 오디오가 원격 사용자(204)에게 프리젠테이션되게 될 때, 사용자 입력은 어느 곳으로부터 원격 사용자(204)가 사용자 음성 오디오 및 사용자 주변 오디오 중 하나를 지각하는지를 제어하는 데 사용된다.

장치(100)는 원격 사용자(204)가 오디오를 발생시키고 있다고 결정되는 시간에 수신되는, 회전 입력과 같은, 상기 사전 결정된 유형의 사용자 입력에 기초하여 주변 지각 방향 및 음성 지각 방향 중 하나를 재배치하도록 구성될 수 있다. 본 명세서에서 전술한 방향들의 재배치는 프리젠테이션을 위한 오디오 콘텐츠에 적용되는 공간 오디오 효과의 파라미터들의 수정에 의해 제공된다는 것을 이해할 것이다.

전술한 예들에서, 장치(100)는 사용자(200)에게 이들에 대해 배치된 오디오 씬이 프리젠테이션되는 3 자유도(3 DOF)의 증강 현실로 알려진 것을 프리젠테이션하도록 구성된다. 따라서, 그들은 3 개의 회전축을 중심으로 그 머리를 움직일 수 있지만, 오디오 씬은 그들에 중심이 맞춰지도록 프리젠테이션된다. 그래서, 하나 이상의 예에서, 원격 사용자 디바이스(202)는 단일 기준점(407)으로부터 객체들 쪽으로의 방향을 캡처할 수 있고, 장치(100)는 캡처된 오디오를 사용자(200) 주위의 3 DOF 공간으로 프리젠테이션할 수 있다.

하나 이상의 예에서, 원격통신 오디오 콘텐츠의 방향 정보는 최종 사용자 디바이스(202)에 대한 적어도 하나의 음원 쪽으로의 방향 및 원격 사용자 쪽으로의 방향을 나타낸다. 방향 정보는 방향과 거리 또는 단지 방향을 나타낼 수 있다. 하나 이상의 예에서, 주변 오디오의 공간 오디오로서의 프리젠테이션은 상기 오디오가 방향 정보에 정의된 원격 사용자 디바이스(202)에 대한 방향에 기초하여 사용자(200)에 대해 결정되는 주변 지각 방향으로부터 지각되도록 하는 프리젠테이션을 포함한다. 유사하게, 하나 이상의 예에서, 음성 오디오의 공간 오디오로서의 프리젠테이션은 상기 오디오가 방향 정보에 정의된 원격 사용자 디바이스(202)에 대한 방향에 기초하여 사용자(200)에 대해 결정되는 음성 지각 방향으로부터 지각되도록 하는 프리젠테이션을 포함할 수 있다. 다른 예들에서, 음성 지각 방향은 사용자(200) 전방의 위치로부터 사용자를 향하도록 재배치될 수 있다.

하나 이상의 예에서, 방향 정보는 룸, 영역, 또는 보다 일반적으로는 원격 사용자(204)(또는 사용자(200))가 위치해 있는 공간에 대한 음성 오디오 및 음원들의 위치들을 정의한다. 이 경우에, 하나 이상의 예에서, 원격 사용자(204)의 룸 또는 공간에서의 오디오 소스들의 배치는 사용자에 중심을 맞추는 것이 아니라, 사용자(200)의 룸 또는 공간에 재생성될 수 있다. 이 표현은 사용자(200)가 지각 위치들을 통과하는 공간 또는 지각 위치들 사이의 공간을 추가로 이동할 수 있기 때문에 6 자유도(6 DOF)로 알려질 수 있다.

그래서, 하나 이상의 예에서, 전술한 상기 주변 지각 방향은 방향 정보에 정의된 위치에 기초한 주변 지각 위치를 기초로 하는데, 주변 지각 위치는 주변 지각 위치로부터 유래되는 것으로 지각되도록, 공간 오디오 효과를 사용하여 공간 오디오로서의 주변 오디오의 프리젠테이션에 사용되는 위치를 포함한다. 또한, 전술한 상기 음성 지각 방향은 방향 정보에 정의된 위치에 기초한 음성 지각 위치를 기초로 하는데, 음성 지각 위치는 음성 지각 위치로부터 유래되는 것으로 지각되도록, 공간 오디오 효과를 사용하여 공간 오디오로서의 음성 오디오의 프리젠테이션에 사용되는 위치를 포함한다.

예시적인 도 10은 상이한 위치들에 위치된 복수의 마이크로폰(1001)을 포함하는 원격 사용자(204)의 룸 또는 공간(1000)을 나타낸다. 마이크로폰들(1001)에 의해 캡처된 오디오는 예를 들어, 상이한 마이크로폰들에서의 오디오의 수신 사이의 타이밍 차이에 기초하여 룸(1000)의 어디에 각 오디오 소스가 위치되어 있는지를 결정하도록 처리될 수 있다. 이러한 배치는 주변 오디오의 근원지를 결정하기 위한 음원들 각각 및 음성 오디오의 근원지를 결정하기 위한 원격 사용자(204)의 위치를 정의하는 방향 정보를 캡처하는 데 사용될 수 있다.

예시적인 도 11은 주변 오디오에 기여하는 다양한 음원들(1105, 1106)의 위치들 및 음성 오디오를 제공하는 원격 사용자(1104)의 위치를 갖는 룸(1000)의 단순화된 버전을 나타낸다.

예시적인 도 12는 사용자(200)(도시되지는 않았으나 그 룸 내의 임의의 지점에 존재할 수 있음)에 대한 (표현(1204)으로부터의) 음성 오디오 및 (표현(1205, 1206)으로부터의) 주변 오디오의 프리젠테이션을 나타낸다. 주변 음원들의 공간적 배치는 장치(100)에 의한 프리젠테이션 시점에서 단순화되었으나, 주변 지각 위치는 방향 정보를 기초로 한다. 하나 이상의 예에서, 음원들의 공간적 배치는 보다 충실하게 재현될 수 있다. 도 12의 음영(shading)은 주변 오디오의 일부가 특정 방향으로부터가 아니라 명확한 도착 위치 또는 방향이 없는 확산음(diffuse sound)으로 렌더링됨을 나타낸다. 그래서, 하나 이상의 예에서, 주변 오디오는 방향 정보를 갖지 않는 확산 오디오를 포함할 수 있다.

예시적인 도 13은 음원(1106) 근처로 이동한(1300) 원격 사용자(1104)를 나타낸다. 따라서, 도 13의 예시적인 프리젠테이션에서, 음성 오디오의 음성 지각 위치(1204)의 표현은 주변 오디오의 주변 지각 위치(1206)와 같은 곳에 배치된다.

예시적인 도 14는 도 13에 도시된 것의 사시도를 나타내며, 동일한 참조 번호가 사용되었다. 표현들(1204, 1205, 1206)의 배치는 사용자(200)가 원격통신 오디오 콘텐츠를 지각하는 위치들을 도시한다. 하지만, 설명의 용이를 위해 원격 사용자(204)의 뷰가 제공된다.

원격 사용자(204)(또는 동등한 입력을 제공하는 경우에는 사용자(200))에게는 그 사용자 입력이 제공하는 재배치 시그널링의 효과를 들을 수 있도록 적어도 그 사용자 입력을 제공하는 시점에서의 음성 및 음원들의 지각 위치들의 측면에서 사용자(200)에게 프리젠테이션되고 있는 것의 시각적 또는 청각적 표현이 그 장치에 의해 적어도 일시적으로 프리젠테이션될 수 있다.

예시적인 도 15는 재배치 시그널링에 기초하여 음성 지각 위치(1204)의 병진이동(1500)을 제공함으로써 음성 지각 방향의 재배치를 도시한다. 하나 이상의 예에서, 재배치 시그널링은 앞의 예들에서와 같이 회전(1501)에 의한 재배치를 유발할 수도 있다.

예시적인 도 15는 사용자(200)에게 오디오를 프리젠테이션하기 위한 회전(1501)을 제공하기 위해 입력 디바이스를 사용하여 회전 사용자 입력(1502)을 제공하는 원격 사용자(204)를 또한 도시한다.

도 16은 다음의 단계들을 도시하는 흐름도를 보여준다:

원격 사용자 디바이스의 원격 사용자의 음성을 포함하는 음성 오디오 및 원격 사용자 이외의 적어도 하나의 음원으로부터의 오디오를 포함하는 주변 오디오를 포함하는 오디오 콘텐츠 - 오디오 콘텐츠는 기준점에 대한 적어도 하나의 음원의 방향 및 위치 중 하나를 나타내고 기준점에 대한 원격 사용자의 방향 및 위치 중 하나를 나타내는 방향 정보와 연관됨 - 를 수신하는 단계(1600);

기준 위치를 나타내는 제1 정보를 수신하는 단계(1601);

적어도 하나의 음원의 오디오가 기준 위치에 대한 주변 지각 방향으로부터 유래되는 것으로 지각되도록, 방향 정보에 기초하여 제1 공간 오디오 효과를 갖는 주변 오디오의 프리젠테이션을 제공하는 단계(1602);

음성 오디오가 기준 위치에 대한 음성 지각 방향으로부터 유래되는 것으로 지각되도록, 방향 정보에 기초하여 제2 공간 오디오 효과를 갖는 음성 오디오의 프리젠테이션을 제공하는 단계(1603);

원격 사용자 디바이스로부터 재배치 시그널링 - 재배치 시그널링은 원격 사용자 디바이스로부터 수신된 오디오 콘텐츠의 프리젠테이션을 변경하기 위한 입력을 나타냄 - 을 수신하는 단계(1604); 및

음성 지각 방향과 주변 지각 방향 사이의 공간적 분리를 증대시키기 위해 재배치 시그널링에 기초하여 기준 위치에 대해 주변 지각 방향을 재배치하기 위한 제1 공간 오디오 효과의 수정 및 재배치 시그널링에 기초하여 기준 위치에 대해 음성 지각 방향을 재배치하기 위한 제2 공간 오디오 효과의 수정 중 적어도 하나를 사용하여 오디오 콘텐츠의 프리젠테이션을 제공하는 단계(1605).

도 17은 다음의 단계들을 도시하는 흐름도를 보여준다:

원격 사용자 디바이스에 의한 프리젠테이션을 위한 사용자 오디오 콘텐츠 - 사용자 오디오 콘텐츠는 사용자의 음성의 오디오를 포함하는 사용자 음성 오디오 및 사용자 이외의 적어도 하나의 음원으로부터의 오디오를 포함하는 사용자 주변 오디오를 포함하고, 사용자 오디오 콘텐츠는 사용자 기준점에 대한 적어도 하나의 음원 쪽으로의 방향 또는 위치 및 사용자 기준점에 대한 사용자 쪽으로의 방향 또는 위치를 나타내는 방향 정보를 포함함 - 를 원격 사용자 디바이스에 송신하는 단계(1700);

사용자 입력을 수신하는 단계(1701); 및

상기 사용자 입력으로부터 결정된 사용자 재배치 시그널링 - 사용자 배치 시그널링은 사용자 음성 오디오 및 사용자 주변 오디오 중 하나가 사용자 재배치 시그널링에 기초한 방향으로부터 지각되도록 원격 사용자 디바이스에 의해 프리젠테이션되어야 하고 사용자 음성 오디오 및 사용자 주변 오디오 중 다른 하나는 사용자 오디오 콘텐츠의 방향 정보에 기초하여 프리젠테이션되어야 함을 나타냄 - 을 원격 사용자 디바이스에 송신하는 단계(1702).

도 18은 일례에 따른 프로그램을 제공하는 컴퓨터/프로세서 판독 가능 매체(1800)를 개략적으로 도시한다. 이 예에서, 컴퓨터/프로세서 판독 가능 매체는 DVD(디지털 다용도 디스크) 또는 CD(콤팩트 디스크)와 같은 디스크이다. 몇몇 예에서, 컴퓨터 판독 가능 매체는 발명의 기능을 수행하는 방식으로 프로그램된 임의의 매체일 수 있다. 컴퓨터 프로그램 코드는 ROM, RAM, 플래시, 하드 디스크, 솔리드 스테이트 등과 같은, 동일한 유형의 복수의 메모리 사이에 또는 상이한 유형의 복수의 메모리 사이에 분산될 수 있다.

사용자 입력은 탭, 스와이프, 슬라이드, 프레스, 홀드, 회전 제스처, 디바이스의 사용자 인터페이스에 근접한 정적 호버 제스처, 디바이스에 근접한 이동 호버 제스처, 디바이스의 적어도 일부의 벤딩, 디바이스의 적어도 일부의 스퀴즈, 멀티 핑거 제스처, 디바이스를 기울이기, 컨트롤 디바이스를 뒤집기 중 하나 이상을 포함하는 제스처일 수 있다. 또한, 제스처는 팔과 같은 사용자의 신체, 또는 스타일러스 또는 자유 공간 사용자 제스처를 수행하는 데 적합한 다른 요소를 사용한 임의의 자유 공간 사용자 제스처일 수 있다.

상기 예들에 나타낸 장치는 휴대용 전자 디바이스, 랩탑 컴퓨터, 휴대 전화, 스마트폰, 태블릿 컴퓨터, PDA(개인 정보 단말기), 디지털 카메라, 스마트워치, 스마트 아이웨어, 펜 기반의 컴퓨터, 비휴대용 전자 디바이스, 데스크톱 컴퓨터, 모니터, 스마트 TV, 서버, 웨어러블 장치, 가상 현실 장치, 또는 이들 중 하나 이상의 모듈/회로일 수 있다.

임의의 언급된 장치 및/또는 특정의 언급된 장치의 다른 특징들은 인에이블될 때, 예를 들면 스위치가 온될 때 등에만 원하는 동작을 수행하도록 구성되도록 배치된 장치에 의해 제공될 수 있다. 이러한 경우에, 이들은 인에이블되지 않은 상태(예를 들면, 스위치 오프 상태)에서는 액티브 메모리에 적절한 소프트웨어를 반드시 로드하지는 않을 수 있으며 인에이블된 상태(예를 들면, 온 상태)에서만 적절한 소프트웨어를 로드할 수 있다. 장치는 하드웨어 회로 및/또는 펌웨어를 포함할 수 있다. 장치는 메모리에 로드된 소프트웨어를 포함할 수 있다. 이러한 소프트웨어/컴퓨터 프로그램들은 동일한 메모리/프로세서/기능 유닛 및/또는 하나 이상의 메모리/프로세서/기능 유닛에 기록될 수 있다.

몇몇 예에서, 특정의 언급된 장치는 원하는 동작을 수행하기 위해 적절한 소프트웨어로 사전 프로그램될 수 있는데, 적절한 소프트웨어는 예를 들면, 소프트웨어 및 그 관련 기능을 언락/인에이블하기 위해 "키" 를 다운로드하는 사용자에 의한 사용을 위해 인에이블될 수 있다. 이러한 예들과 관련된 이점들은 디바이스에 추가 기능이 요구될 때 데이터를 다운로드해야 할 필요성의 감소를 포함할 수 있으며, 이는 디바이스가 사용자에 의해 인에이블되지 않을 수 있는 기능을 위해 이러한 사전 프로그램된 소프트웨어를 저장하기에 충분한 용량을 갖는 것으로 인식되는 예들에서 유용할 수 있다.

임의의 언급된 장치/회로/요소/프로세서는 언급된 기능들 외에 다른 기능들을 가질 수 있으며, 이들 기능은 동일한 장치/회로/요소/프로세서에 의해 수행될 수 있다. 하나 이상의 개시된 양태는 관련 컴퓨터 프로그램들 및 적절한 캐리어(예를 들면, 메모리, 신호)에 기록된 (소스/트랜스포트 인코딩될 수 있는) 컴퓨터 프로그램들의 전자 배포를 포함할 수 있다.

본 명세서에서 설명되는 임의의 "컴퓨터"는 동일한 회로 기판, 또는 회로 기판의 동일한 영역/위치, 또는 심지어는 동일한 디바이스에 배치되거나 배치되지 않을 수 있는 하나 이상의 개별 프로세서/처리 요소의 집합을 포함할 수 있다. 몇몇 예에서, 임의의 언급된 프로세서들 중 하나 이상은 복수의 디바이스에 걸쳐 분산될 수 있다. 동일하거나 상이한 프로세서/처리 요소가 본 명세서에서 설명되는 하나 이상의 기능을 수행할 수 있다.

"시그널링"이라는 용어는 일련의 전송 및/또는 수신된 전기/광 신호로서 전송되는 하나 이상의 신호를 지칭할 수 있다. 일련의 신호는 상기 시그널링을 구성하는 1, 2, 3, 4 개 또는 그 이상의 개별 신호 성분 또는 별개의 신호들을 포함할 수 있다. 이들 개별 신호의 일부 또는 전부는 무선 또는 유선 통신에 의해 동시에, 순차적으로, 및/또는 시간적으로 서로 겹치도록 전송/수신될 수 있다.

임의의 언급된 컴퓨터 및/또는 프로세서 및 메모리(예를 들면, ROM, CD-ROM 등을 포함함)에 대한 임의의 논의를 참조하면, 이들은 컴퓨터 프로세서, ASIC(Application Specific Integrated Circuit: 특정 용도용 집적 회로), FPGA(field-programmable gate array: 필드 프로그래머블 게이트 어레이), 및/또는 본 발명의 기능을 수행하도록 프로그램된 다른 하드웨어 컴포넌트들을 포함할 수 있다.

이로써 본 출원인은 본 명세서에서 설명된 각각의 개별 특징 및 2 개 이상의 이러한 특징의 임의의 조합을, 이러한 특징들 또는 특징들의 조합들이 본 명세서에 개시된 임의의 문제를 해결하는지에 관계없이 및 청구범위의 범위를 제한함이 없이, 본 기술분야의 통상의 기술자의 일반적인 지식에 비추어 이러한 특징들 또는 조합들이 전체로서 본 명세서를 기초로 수행될 수 있는 범위에서 단독으로 개시한다. 본 출원인은 개시된 양태들/예들이 임의의 이러한 개별 특징 또는 특징들의 조합으로 구성될 수 있음을 나타낸다. 전술한 설명을 고려하면, 본 발명의 범위 내에서 다양한 수정이 이루어질 수 있음이 본 기술분야의 통상의 기술자에게는 명백할 것이다.

그 예들에 적용되는 기본적인 신규한 특징들이 도시되고 설명되고 지적되었으나, 설명된 디바이스들 및 방법들의 형태 및 세부 사항에 다양한 생략 및 대체 및 변경이 본 발명의 범위로부터 일탈함이 없이 본 기술분야의 통상의 기술자에 의해 이루어질 수 있음을 이해할 것이다. 예를 들어, 동일한 결과를 달성하기 위해 실질적으로 동일한 방식으로 실질적으로 동일한 기능을 수행하는 그러한 요소들 및/또는 방법 단계들의 모든 조합은 본 발명의 범위 내에 있음이 명백히 의도된다. 또한, 임의의 개시된 형태 또는 예와 연계하여 도시되고 및/또는 설명된 구조들 및/또는 요소들 및/또는 방법 단계들은 일반적인 설계 선택의 문제로서 임의의 다른 개시되거나 설명되거나 시사된 형태 또는 예에 통합될 수 있다는 것이 인지되어야 한다. 게다가, 청구범위에서 수단 플러스 기능의 절은 기재된 기능을 수행하는 것으로 본 명세서에서 설명된 구조들 및 구조적 동등물들뿐만 아니라 동등한 구조들도 커버하도록 의도된다. 그래서, 못은 목제 부품들을 서로 고정하기 위해 원통형 표면을 채용하는 반면, 나사는 목제 부품들을 체결하는 환경에서 나선형 표면을 채용한다는 점에서 못과 나사는 구조적 동등물이 아닐 수 있으나, 못과 나사는 동등한 구조들일 수 있다.

Claims

장치로서,
원격 사용자 디바이스의 원격 사용자의 음성(voice)을 포함하는 음성 오디오 및 상기 원격 사용자 이외의 적어도 하나의 음원(sound source)으로부터의 오디오를 포함하는 주변 오디오(ambient audio)를 포함하는 오디오 콘텐츠 - 상기 오디오 콘텐츠는, 기준점에 대한 상기 적어도 하나의 음원의 방향 및 위치 중 하나를 나타내고 상기 기준점에 대한 상기 원격 사용자의 방향 및 위치 중 하나를 나타내는 방향 정보와 연관됨 - 를 수신하고;
기준 위치를 나타내는 제1 정보를 수신하며;
상기 적어도 하나의 음원의 오디오가 상기 기준 위치에 대해 주변 지각 방향(ambient-perceived direction)으로부터 유래되는 것으로 지각되도록, 상기 방향 정보에 기초하여 제1 공간 오디오 효과를 갖는 상기 주변 오디오의 프리젠테이션을 제공하고;
상기 음성 오디오가 상기 기준 위치에 대해 음성 지각 방향(voice-perceived direction)으로부터 유래되는 것으로 지각되도록, 상기 방향 정보에 기초하여 제2 공간 오디오 효과를 갖는 상기 음성 오디오의 프리젠테이션을 제공하며;
상기 원격 사용자 디바이스로부터 재배치 시그널링(repositioning signalling) - 상기 재배치 시그널링은 상기 원격 사용자 디바이스로부터 수신된 상기 오디오 콘텐츠의 프리젠테이션을 변경하기 위한 입력을 나타냄 - 을 수신하고; 및
상기 음성 지각 방향과 상기 주변 지각 방향 사이의 공간적 분리를 증대시키기 위해, 상기 재배치 시그널링에 기초하여 상기 기준 위치에 대해 상기 주변 지각 방향을 재배치하기 위한 상기 제1 공간 오디오 효과의 수정, 및 상기 재배치 시그널링에 기초하여 상기 기준 위치에 대해 상기 음성 지각 방향을 재배치하기 위한 상기 제2 공간 오디오 효과의 수정 중 적어도 하나를 사용하여 상기 오디오 콘텐츠의 프리젠테이션을 제공하도록
구성된 수단
을 포함하는 장치.
제1 항에 있어서,
상기 재배치 시그널링은 상기 주변 지각 방향 및 상기 음성 지각 방향 중 적어도 하나를 어디에 재배치할지를 나타내며, 상기 수단은 상기 주변 오디오 및 상기 음성 오디오 중 적어도 하나가 상기 재배치 시그널링에 의해 표시되는 새로운 방향으로부터 지각되도록 상기 주변 오디오에 대한 상기 제1 공간 오디오 효과 및 상기 음성 오디오에 대한 상기 제2 공간 오디오 효과 중 각각의 적어도 하나의 수정을 갖는 상기 오디오 콘텐츠의 프리젠테이션을 제공하도록 더 구성되는,
장치.
제1 항 또는 제2 항에 있어서,
상기 수단은:
상기 프리젠테이션된 오디오 콘텐츠의 지각 위치의 재배치를 나타내는 사용자 입력을 수신하고;
상기 사용자 입력에 의해 표시되는 바와 같이 상기 주변 지각 방향을 재배치하기 위한 상기 제1 공간 오디오 효과의 수정 및 상기 사용자 입력에 의해 표시되는 바와 같이 상기 음성 지각 방향을 재배치하기 위한 상기 제2 공간 오디오 효과의 수정 중 하나를 갖는 상기 오디오 콘텐츠를 프리젠테이션하도록:
더 구성되는,
장치.
제1 항 또는 제2 항에 있어서,
상기 수단은 상기 원격 사용자 디바이스에:
상기 원격 사용자에게 프리젠테이션하기 위한 사용자 오디오 콘텐츠 - 상기 사용자 오디오 콘텐츠는 사용자의 음성에 의해 생성된 것으로 결정된 오디오를 포함하는 사용자 음성 오디오, 및 상기 음성 이외의 적어도 하나의 음원으로부터의 오디오를 포함하는 사용자 주변 오디오를 포함하고, 상기 사용자 오디오 콘텐츠는, 사용자 기준점에 대한 상기 적어도 하나의 음원 쪽으로의 방향 및 위치 중 하나를 나타내고 상기 사용자 기준점에 대한 상기 사용자 쪽으로의 방향 및 위치 중 하나를 나타내는 방향 정보를 포함함 -; 및
사용자 재배치 시그널링에 의해 적어도 부분적으로 표시된 방향으로부터 지각되도록 상기 사용자 음성 오디오 및 상기 사용자 주변 오디오 중 하나 - 상기 사용자 음성 오디오 및 상기 사용자 주변 오디오 중 다른 하나는 상기 사용자 오디오 콘텐츠의 방향 정보에 의해 표시된 바와 같이 프리젠테이션하기 위한 것임 - 를 프리젠테이션하도록 상기 원격 사용자 디바이스에 지시하는 사용자 재배치 시그널링:
을 송신하도록 더 구성되는,
장치.
제4 항에 있어서,
상기 수단은:
사전 결정된 유형의 사용자 입력을 수신하고;
상기 사용자가 말하고 있는 것으로 결정된 시간에 상기 사전 결정된 유형의 사용자 입력이 수신되면 상기 사용자 재배치 시그널링을 송신하고; 및
상기 원격 사용자가 말하고 있는 것으로 결정된 시간에 상기 사전 결정된 유형의 사용자 입력이 수신되면 상기 주변 지각 방향을 재배치하기 위한 상기 제1 공간 오디오 효과의 수정 및 상기 음성 지각 방향을 재배치하기 위한 상기 제2 공간 오디오 효과의 수정 중 적어도 하나를 갖는 상기 오디오 콘텐츠의 프리젠테이션을 제공하도록:
더 구성되는,
장치.
제1 항 또는 제2 항에 있어서,
상기 재배치 시그널링은 상기 원격 사용자의 사용자 입력을 기초로 하는,
장치.
제1 항 또는 제2 항에 있어서,
상기 재배치 시그널링에 기초하여 상기 주변 지각 방향을 재배치하기 위한 상기 제1 공간 오디오 효과의 수정 및 상기 재배치 시그널링에 기초하여 상기 음성 지각 방향을 재배치하기 위한 상기 제1 공간 오디오 효과의 수정 중 하나는 상기 기준 위치를 중심으로 상기 주변 지각 방향 및 상기 음성 지각 방향 중 해당하는 하나의 회전을 수행하는 것을 포함하는,
장치.
제7 항에 있어서,
상기 오디오 콘텐츠의 방향 정보는 상기 원격 사용자 디바이스에 대해 상기 적어도 하나의 음원 쪽으로의 방향 및 상기 원격 사용자 쪽으로의 방향을 나타내고, 상기 제1 공간 오디오 효과를 갖는 상기 주변 오디오의 프리젠테이션은, 상기 방향 정보에 정의된 상기 원격 사용자 디바이스에 대한 상기 적어도 하나의 음원 쪽으로의 방향에 기초한 상기 주변 지각 방향으로부터 유래되는 것으로, 상기 기준 위치로부터 지각되도록 공간 오디오로서의 상기 주변 오디오의 프리젠테이션을 포함하며, 상기 제2 공간 오디오 효과를 갖는 상기 음성 오디오의 프리젠테이션은, 상기 방향 정보에 정의된 상기 원격 사용자 디바이스에 대한 상기 원격 사용자 쪽으로의 방향에 기초한 상기 음성 지각 방향으로부터 유래되는 것으로, 상기 기준 위치로부터 지각되도록 공간 오디오로서의 상기 음성 오디오의 프리젠테이션을 포함하는,
장치.
제1 항 또는 제2 항에 있어서,
상기 주변 지각 방향은 상기 방향 정보에 정의된 위치를 기초로 주변 지각 위치로부터 상기 기준 위치로의 방향이고, 상기 주변 지각 위치는 상기 사용자가 상기 주변 오디오를 상기 주변 지각 위치로부터 유래되는 것으로 지각하도록 상기 주변 오디오의 프리젠테이션을 위해 상기 제1 공간 오디오 효과에 의해 사용되는 위치를 포함하며;
상기 음성 지각 방향은 상기 방향 정보에 정의된 위치를 기초로 음성 지각 위치로부터 상기 기준 위치로의 방향이고, 상기 음성 지각 위치는 상기 사용자가 상기 음성 오디오를 상기 음성 지각 위치로부터 유래되는 것으로 지각하도록 상기 음성 오디오의 프리젠테이션을 위해 상기 제2 공간 오디오 효과에 의해 사용되는 위치를 포함하며; 및
상기 제1 공간 오디오 효과의 수정 및 상기 제2 공간 오디오 효과의 수정 중 상기 하나는 상기 재배치 시그널링에 표시된 바와 같이 상기 주변 지각 위치 및 상기 음성 지각 위치 중 각각의 하나의 병진이동에 의해 상기 주변 지각 방향 및 상기 음성 지각 방향 중 대응하는 하나를 재배치하는 것을 포함하는,
장치.
제1 항 또는 제2 항에 있어서,
상기 방향 정보는 상기 원격 사용자가 위치한 공간에 대한 상기 적어도 하나의 음원의 위치를 나타내고 상기 원격 사용자가 위치한 상기 공간에 대한 상기 원격 사용자의 위치를 나타내며;
상기 주변 지각 방향은 상기 방향 정보에 표시된 주변 지각 위치를 포함하고 상기 주변 지각 위치로부터 유래되는 것으로 지각되도록 상기 주변 오디오를 프리젠테이션하기 위해 상기 제1 공간 오디오 효과에 의해 사용되는 위치를 포함하며, 상기 원격 사용자가 위치한 상기 공간에서의 상기 적어도 하나의 음원의 배치는 상기 사용자가 위치한 공간에서 재생성되게 되고; 및
상기 음성 지각 방향은 상기 방향 정보에 표시된 음성 지각 위치를 포함하고 상기 음성 지각 위치로부터 유래되는 것으로 지각되도록 상기 음성 오디오를 프리젠테이션하기 위해 상기 제2 공간 오디오 효과에 의해 사용되는 위치를 포함하며, 상기 원격 사용자가 위치한 상기 공간에서의 상기 원격 사용자의 위치는 상기 사용자가 위치한 공간에서 재생성되게 되는,
장치.
장치로서,
원격 사용자 디바이스에, 상기 원격 사용자 디바이스에 의한 프리젠테이션을 위한 사용자 오디오 콘텐츠 - 상기 사용자 오디오 콘텐츠는 사용자의 음성의 오디오를 포함하는 사용자 음성 오디오 및 상기 사용자 이외의 적어도 하나의 음원으로부터의 오디오를 포함하는 사용자 주변 오디오를 포함하고, 상기 사용자 오디오 콘텐츠는, 사용자 기준점에 대한 상기 적어도 하나의 음원 쪽으로의 방향 또는 위치 및 상기 사용자 기준점에 대한 상기 사용자 쪽으로의 방향 또는 위치를 나타내는 방향 정보를 포함함 - 를 송신하고;
사용자 입력을 수신하며; 및
상기 사용자 입력으로부터 결정된 사용자 재배치 시그널링 - 상기 사용자 재배치 시그널링은 상기 사용자 음성 오디오 및 상기 사용자 주변 오디오 중 하나가 상기 사용자 재배치 시그널링에 기초한 방향으로부터 지각되도록 상기 원격 사용자 디바이스에 의해 프리젠테이션되어야 하고 상기 사용자 음성 오디오 및 상기 사용자 주변 오디오 중 다른 하나는 상기 사용자 오디오 콘텐츠의 상기 방향 정보에 기초하여 프리젠테이션되어야 함을 나타냄 - 을 상기 원격 사용자 디바이스에 송신하도록
구성된 수단을 포함하는, 장치.
제11 항에 있어서,
상기 사용자 재배치 시그널링의 상기 송신은 상기 사용자가 말하고 있는 것으로 결정된 시간에 수신되는 상기 사용자 입력에 기초하여 제공되는,
장치.
방법으로서,
원격 사용자 디바이스의 원격 사용자의 음성을 포함하는 음성 오디오 및 상기 원격 사용자 이외의 적어도 하나의 음원으로부터의 오디오를 포함하는 주변 오디오를 포함하는 오디오 콘텐츠 - 상기 오디오 콘텐츠는, 기준점에 대한 상기 적어도 하나의 음원의 방향 및 위치 중 하나를 나타내고 상기 기준점에 대한 상기 원격 사용자의 방향 및 위치 중 하나를 나타내는 방향 정보와 연관됨 - 를 수신하는 단계;
기준 위치를 나타내는 제1 정보를 수신하는 단계;
상기 적어도 하나의 음원의 오디오가 상기 기준 위치에 대해 주변 지각 방향으로부터 유래되는 것으로 지각되도록, 상기 방향 정보에 기초하여 제1 공간 오디오 효과를 갖는 상기 주변 오디오의 프리젠테이션을 제공하는 단계;
상기 음성 오디오가 상기 기준 위치에 대해 음성 지각 방향으로부터 유래되는 것으로 지각되도록, 상기 방향 정보에 기초하여 제2 공간 오디오 효과를 갖는 상기 음성 오디오의 프리젠테이션을 제공하는 단계;
상기 원격 사용자 디바이스로부터 재배치 시그널링 - 상기 재배치 시그널링은 상기 원격 사용자 디바이스로부터 수신된 상기 오디오 콘텐츠의 프리젠테이션을 변경하기 위한 입력을 나타냄 - 을 수신하는 단계; 및
상기 음성 지각 방향과 상기 주변 지각 방향 사이의 공간적 분리를 증대시키기 위해 상기 재배치 시그널링에 기초하여 상기 기준 위치에 대해 상기 주변 지각 방향을 재배치하기 위한 상기 제1 공간 오디오 효과의 수정, 및 상기 재배치 시그널링에 기초하여 상기 기준 위치에 대해 상기 음성 지각 방향을 재배치하기 위한 상기 제2 공간 오디오 효과의 수정 중 적어도 하나를 사용하여 상기 오디오 콘텐츠의 프리젠테이션을 제공하는 단계:
를 포함하는, 방법.
방법으로서,
원격 사용자 디바이스에, 상기 원격 사용자 디바이스에 의한 프리젠테이션을 위한 사용자 오디오 콘텐츠 - 상기 사용자 오디오 콘텐츠는 사용자의 음성의 오디오를 포함하는 사용자 음성 오디오 및 상기 사용자 이외의 적어도 하나의 음원으로부터의 오디오를 포함하는 사용자 주변 오디오를 포함하고, 상기 사용자 오디오 콘텐츠는, 사용자 기준점에 대한 상기 적어도 하나의 음원 쪽으로의 방향 또는 위치 및 상기 사용자 기준점에 대한 상기 사용자 쪽으로의 방향 또는 위치를 나타내는 방향 정보를 포함함 - 를 송신하는 단계;
사용자 입력을 수신하는 단계; 및
상기 사용자 입력으로부터 결정된 사용자 재배치 시그널링 - 상기 사용자 재배치 시그널링은 상기 사용자 음성 오디오 및 상기 사용자 주변 오디오 중 하나가 상기 사용자 재배치 시그널링에 기초한 방향으로부터 지각되도록 상기 원격 사용자 디바이스에 의해 프리젠테이션되어야 하고 상기 사용자 음성 오디오 및 상기 사용자 주변 오디오 중 다른 하나는 상기 사용자 오디오 콘텐츠의 상기 방향 정보에 기초하여 프리젠테이션되어야 함을 나타냄 - 을 상기 원격 사용자 디바이스로 송신하는 단계:
를 포함하는, 방법.
컴퓨터 프로그램 코드가 저장된 컴퓨터 판독 가능 매체로서,
상기 컴퓨터 판독 가능 매체 및 컴퓨터 프로그램 코드는 적어도 하나의 프로세서에서 실행될 때:
원격 사용자 디바이스의 원격 사용자의 음성을 포함하는 음성 오디오 및 상기 원격 사용자 이외의 적어도 하나의 음원으로부터의 오디오를 포함하는 주변 오디오를 포함하는 오디오 콘텐츠 - 상기 오디오 콘텐츠는, 기준점에 대한 상기 적어도 하나의 음원의 방향 및 위치 중 하나를 나타내고 상기 기준점에 대한 상기 원격 사용자의 방향 및 위치 중 하나를 나타내는 방향 정보와 연관됨 - 를 수신하는 단계;
기준 위치를 나타내는 제1 정보를 수신하는 단계;
상기 적어도 하나의 음원의 오디오가 상기 기준 위치에 대해 주변 지각 방향으로부터 유래되는 것으로 지각되도록, 상기 방향 정보에 기초하여 제1 공간 오디오 효과를 갖는 상기 주변 오디오의 프리젠테이션을 제공하는 단계;
상기 음성 오디오가 상기 기준 위치에 대해 음성 지각 방향으로부터 유래되는 것으로 지각되도록, 상기 방향 정보에 기초하여 제2 공간 오디오 효과를 갖는 상기 음성 오디오의 프리젠테이션을 제공하는 단계;
상기 원격 사용자 디바이스로부터 재배치 시그널링 - 상기 재배치 시그널링은 상기 원격 사용자 디바이스로부터 수신된 상기 오디오 콘텐츠의 프리젠테이션을 변경하기 위한 입력을 나타냄 - 을 수신하는 단계; 및
상기 음성 지각 방향과 상기 주변 지각 방향 사이의 공간적 분리를 증대시키기 위해 상기 재배치 시그널링에 기초하여 상기 기준 위치에 대해 상기 주변 지각 방향을 재배치하기 위한 상기 제1 공간 오디오 효과의 수정, 및 상기 재배치 시그널링에 기초하여 상기 기준 위치에 대해 상기 음성 지각 방향을 재배치하기 위한 상기 제2 공간 오디오 효과의 수정 중 적어도 하나를 사용하여 상기 오디오 콘텐츠의 프리젠테이션을 제공하는 단계:
의 방법을 수행하도록 구성되는,
컴퓨터 판독 가능 매체.