WO2024085444A1

WO2024085444A1 - 콘텐트를 제공하는 방법 및 디스플레이 장치

Info

Publication number: WO2024085444A1
Application number: PCT/KR2023/013579
Authority: WO
Inventors: 박재성; 박성수
Original assignee: 삼성전자 주식회사
Priority date: 2022-10-18
Filing date: 2023-09-11
Publication date: 2024-04-25

Abstract

디스플레이 장치가 콘텐트를 제공하는 방법이 제공된다. 상기 방법은, 가상 공간을 나타내는 비디오 콘텐트를 획득하는 단계; 상기 비디오 콘텐트에 대응하는 제1 오디오 콘텐트를 획득하는 단계; 사용자 공간의 오디오와 관련된 특징을 나타내는 공간 정보를 획득하는 단계; 상기 비디오 콘텐트의 메타데이터, 상기 제1 오디오 콘텐트의 메타데이터 및 상기 공간 정보에 기초하여 상기 제1 오디오 콘텐트를 변환함으로써, 상기 공간 정보에 따라 상기 사용자 공간에 최적화된 사운드로 변환된 공간 맞춤형 오디오 콘텐트인 제2 오디오 콘텐트를 생성하는 단계; 상기 디스플레이 장치와 연결된 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득하는 단계; 상기 하나 이상의 스피커들의 위치 또는 상기 하나 이상의 스피커들의 사양 중 적어도 하나 및 상기 공간 정보에 기초하여, 상기 제2 오디오 콘텐트에 대한 상기 하나 이상의 스피커들의 출력 설정을 결정하는 단계; 및 상기 비디오 콘텐트가 상기 디스플레이 장치의 화면에 표시되는 동안, 상기 출력 설정에 기초하여 상기 제2 오디오 콘텐트를 출력하는 단계를 포함할 수 있다.

Description

콘텐트를 제공하는 방법 및 디스플레이 장치

사용자에게 최적화된 공간 맞춤형 오디오를 포함하는 콘텐트를 제공하는, 디스플레이 장치 및 그 동작 방법이 제공된다.

가상 현실, 증강 현실 등 컴퓨터 그래픽 등을 이용하여 가상 공간을 보여주는 다양한 기술/기법들이 개발되고 있다. 사용자는 시각적으로 몰입감 있게 구현된 가상 공간을 디스플레이 장치를 통해 제공받을 수 있으나, 가상 공간에 대응하는 오디오 콘텐트는 사용자의 현실 공간 내 여러 환경적인 요소들을 반영하지 못한다.

이러한 문제 해결을 위해, 사용자 공간의 공간 정보에 맞게 최적화된 실감형 오디오를 제공하여 개선된 가상 공간 경험을 제공하기 위한, 다양한 알고리즘들이 최근 사용되고 있다.

본 개시의 일 측면에 따르면, 디스플레이 장치가 콘텐트를 제공하는 방법이 제공될 수 있다. 상기 방법은, 가상 공간을 나타내는 비디오 콘텐트를 획득하는 단계를 포함할 수 있다. 상기 방법은, 상기 비디오 콘텐트에 대응하는 제1 오디오 콘텐트를 획득하는 단계를 포함할 수 있다. 상기 방법은, 사용자 공간의 오디오와 관련된 특징을 나타내는 공간 정보를 획득하는 단계를 포함할 수 있다. 상기 방법은, 상기 비디오 콘텐트의 메타데이터, 상기 제1 오디오 콘텐트의 메타데이터 및 상기 공간 정보에 기초하여 상기 제1 오디오 콘텐트를 변환함으로써 제2 오디오 콘텐트를 생성하는 단계를 포함할 수 있다. 상기 제2 오디오 콘텐트는 공간 맞춤형 오디오 콘텐트일 수 있다. 상기 방법은, 상기 디스플레이 장치와 연결된 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득하는 단계를 포함할 수 있다. 상기 방법은, 상기 공간 정보, 상기 하나 이상의 스피커들의 위치 또는 상기 하나 이상의 스피커들의 사양 중 적어도 하나 및 상기 공간 정보에 기초하여, 상기 제2 오디오 콘텐트에 대한 상기 하나 이상의 스피커들의 출력 설정을 결정하는 단계를 포함할 수 있다. 상기 방법은, 상기 비디오 콘텐트가 상기 디스플레이 장치의 화면에 표시되는 동안, 상기 출력 설정에 기초하여 상기 제2 오디오 콘텐트를 출력하는 단계를 포함할 수 있다.

본 개시의 일 측면에 따르면, 디스플레이 장치가 제공될 수 있다. 상기 디스플레이 장치는, 통신 인터페이스; 디스플레이; 하나 이상의 인스트럭션들을 저장하는 메모리; 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 가상 공간을 나타내는 비디오 콘텐트를 획득할 수 있다. 상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 비디오 콘텐트에 대응하는 제1 오디오 콘텐트를 획득할 수 있다. 상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 사용자 공간의 오디오와 관련된 특징을 나타내는 공간 정보를 획득할 수 있다. 상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 비디오 콘텐트의 메타데이터, 상기 제1 오디오 콘텐트의 메타데이터 및 상기 공간 정보에 기초하여 상기 제1 오디오 콘텐트를 변환함으로써, 상기 공간 정보에 따라 상기 사용자 공간에 최적화된 사운드로 변환된 공간 맞춤형 오디오 콘텐트인 제2 오디오 콘텐트를 생성할 수 있다. 상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 디스플레이 장치와 연결된 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득할 수 있다. 상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 하나 이상의 스피커들의 위치 또는 상기 하나 이상의 스피커들의 사양 중 적어도 하나 및 상기 공간 정보에 기초하여, 상기 제2 오디오 콘텐트에 대한 상기 하나 이상의 스피커들의 출력 설정을 결정할 수 있다. 상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 비디오 콘텐트가 상기 디스플레이 장치의 상기 디스플레이에 표시되는 동안, 상기 출력 설정에 기초하여 상기 제2 오디오 콘텐트를 출력할 수 있다.

본 개시의 일 측면에 따르면, 디스플레이 장치가 콘텐트를 제공하는, 전술 및 후술하는 방법들 중 어느 하나를 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능 기록매체를 제공할 수 있다.

도 1은 본 개시의 일 실시예에 따른 디스플레이 장치가 콘텐트를 제공하는 것을 개략적으로 도시한 도면이다.

도 2는 본 개시의 일 실시예에 따른 디스플레이 장치가 콘텐트를 제공하는 방법을 설명하기 위한 흐름도이다.

도 3은 본 개시의 일 실시예에 따른 디스플레이 장치가 공간 맞춤형 오디오 콘텐트인 제2 오디오 콘텐트를 생성하는 동작들을 설명하기 위한 도면이다.

도 4는 본 개시의 일 실시예에 따른 디스플레이 장치가 위치하는 사용자 공간을 설명하기 위한 도면이다.

도 5는 본 개시의 일 실시예에 따른 디스플레이 장치가 오디오 메타데이터를 생성하는 동작을 설명하기 위한 흐름도이다.

도 6은 본 개시의 일 실시예에 따른 디스플레이 장치가 제2 오디오 콘텐트를 생성하는 동작을 설명하기 위한 도면이다.

도 7은 본 개시의 일 실시예에 따른 디스플레이 장치가 스피커 사양에 기초하여 제2 오디오 콘텐트를 조정하는 동작을 설명하기 위한 도면이다.

도 8은 일 실시예에 따른 디스플레이 장치가 하나 이상의 스피커들의 위치를 결정하는 동작을 설명하기 위한 도면이다.

도 9는 본 개시의 일 실시예에 따른 디스플레이 장치가 사용자의 위치를 획득하는 동작을 설명하기 위한 도면이다.

도 10은 본 개시의 일 실시예에 따른 디스플레이 장치가 사용자 위치를 갱신하는 동작을 설명하기 위한 도면이다.

도 11은 본 개시의 일 실시예에 따른 디스플레이 장치의 구성을 도시한 블록도이다.

도 12는 본 개시의 일 실시예에 따른 디스플레이 장치의 구성을 도시한 블록도이다.

도 13은 본 개시의 일 실시예에 따른 디스플레이 장치가 이용하는 모듈들을 도시한 블록도이다.

본 개시에서, "a, b 또는 c 중 적어도 하나" 표현은 " a", " b", " c", "a 및 b", "a 및 c", "b 및 c", "a, b 및 c 모두", 혹은 그 변형들을 지칭할 수 있다.

본 개시에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 명세서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 또한, 본 명세서에서 사용되는 '제1' 또는 '제2' 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용할 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 개시의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 또한, 각각의 도면에서 사용된 도면 부호는 각각의 도면을 설명하기 위한 것일 뿐, 상이한 도면들 각각에서 사용된 상이한 도면 부호가 상이한 요소를 나타내기 위한 것은 아니다. 이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.

도 1을 참조하면, 일 실시예에 따른 디스플레이 장치(2000)는 사용자 공간(120)에 위치할 수 있다. 또한, 사용자 공간(120)에는 디스플레이 장치(2000)와 연결된 하나 이상의 스피커들이 위치할 수 있다. 디스플레이 장치(2000)는 화면을 통해 가상 공간(100)을 나타내는 비디오 콘텐트를 표시할 수 있다. 또한, 하나 이상의 스피커들은 가상 공간(100)을 나타내는 비디오 콘텐트에 대응하는 오디오 콘텐트를 재생할 수 있다.

일 실시예에서, 디스플레이 장치(2000)는 사용자에게 몰입감 있는 가상 공간(100) 경험을 제공하기 위해, 가상 공간(100)에 대응하는 오디오 콘텐트를 처리할 수 있다. 구체적으로, 디스플레이 장치(2000)는 가상 공간에 대응하는 오디오 콘텐트를 사용자 공간(120)에 대한 공간 맞춤형 오디오 콘텐트(본 개시에서, 실감형 오디오 콘텐트라고도 지칭됨)로 변경할 수 있다. 예를 들어, 디스플레이 장치(2000)는 비디오 콘텐트 및 비디오 콘텐트의 메타데이터를 분석하고, 분석 결과에 이용하여 실감형 오디오 콘텐트를 생성할 수 있다. 예를 들어, 디스플레이 장치(2000)는 오디오 및 오디오 콘텐트의 메타데이터를 분석하고, 분석 결과를 이용하여 실감형 오디오 콘텐트를 생성할 수 있다. 예를 들어, 디스플레이 장치(2000)는 사용자 공간(120)의 오디오와 관련된 특징을 나타내는, 공간 정보를 획득하고, 공간 정보를 이용하여 실감형 오디오 콘텐트를 생성할 수 있다. 예를 들어, 디스플레이 장치(2000)는 디스플레이 장치(2000)와 연결된 하나 이상의 스피커들의 사양 및 위치를 획득하고, 하나 이상의 스피커들의 사양 및 위치에 기초하여 실감형 오디오 콘텐트를 생성할 수 있다. 한편, 디스플레이 장치(2000)가 실감형 오디오 콘텐트를 생성하기 위해 이용하는 데이터/정보의 전술한 예시들은, 각각 독립적으로 적용되어야 하는 것은 아니다. 전술한 예시들 중 둘 이상이 조합될 수도 있다.

이하에서, 디스플레이 장치(2000)가 다양한 정보/데이터를 이용하여 실감형 오디오를 생성 및 제공하는 구체적인 동작들에 대하여, 후술하는 도면들과 그에 대한 설명을 통해 더 상세하게 기술하기로 한다. 또한, 이하에서, 디스플레이 장치(2000)에 의해 처리되기 이전의 오디오 콘텐트를 제1 오디오 콘텐트라고 지칭하고, 실감형 오디오 콘텐트를 제2 오디오 콘텐트라고 지칭할 것이다.

단계 S210에서, 일 실시예에 따른 디스플레이 장치(2000)는 가상 공간을 나타내는 비디오 콘텐트를 획득한다.

일 실시예에서, 비디오 콘텐트는 가상 공간을 나타내는 콘텐트일 수 있다. 비디오 콘텐트는 예를 들어, 비디오 게임, 메타버스 그래픽 등일 수 있으나, 이에 한정되는 것은 아니다. 디스플레이 장치(2000)는 디스플레이 장치(2000)의 내 메모리에 저장된 비디오 콘텐트를 로드하거나, 외부 장치(예를 들어, 서버 등)로부터 비디오 콘텐트를 수신할 수 있다.

일 실시예에서, 비디오 콘텐트는 비디오 콘텐트의 메타데이터를 포함할 수 있다. 비디오 콘텐트의 메타데이터는 비디오 콘텐트 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.

단계 S220에서, 일 실시예에 따른 디스플레이 장치(2000)는 비디오 콘텐트에 대응하는 제1 오디오 콘텐트를 획득한다. 비디오 콘텐트에 대응하는 제1 오디오 콘텐트는 비디오 콘텐트가 제공될 때 함께 제공되는 오디오 콘텐트일 수 있다. 제1 오디오 콘텐트는 예를 들어, 배경음, 가상 공간 내 객체의 사운드, 사용자의 입력 사운드, 가상 공간 내 사용자 외 다른 사용자의 입력 사운드 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

일 실시예에서, 제1 오디오 콘텐트는 제1 오디오 콘텐트의 메타데이터를 포함할 수 있다. 제1 오디오 콘텐트의 메타데이터는 사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 및 객체에 대응하는 사운드 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.

일 실시예에서, 디스플레이 장치(2000)는 제1 오디오 콘텐트의 메타데이터의 존재 여부를 식별할 수 있다. 디스플레이 장치(2000)는 제1 오디오 콘텐트의 메타데이터가 존재하지 않는 것에 기초하여, 제1 오디오 콘텐트의 메타데이터를 생성할 수 있다. 예를 들어, 디스플레이 장치(2000)는 비디오 콘텐트 및/또는 제1 오디오 콘텐트를 분석하여 제1 오디오 콘텐트의 메타데이터를 생성할 수 있다.

한편, 비디오 콘텐트 및 제1 오디오 콘텐트는 통합된 하나의 콘텐트일 수 있다. 즉, 통합된 콘텐트에 비디오 콘텐트 및 제1 오디오 콘텐트가 포함될 수 있다. 이 경우, 통합된 콘텐트의 메타데이터에는 비디오 콘텐트의 메타데이터 및 제1 오디오 콘텐트의 메타데이터가 통합 또는 분리된 형태로 포함될 수 있다. 이하에서, 디스플레이 장치(2000)가 비디오 콘텐트, 비디오 콘텐트의 메타데이터, 제1 오디오 콘텐트 및 제1 오디오 콘텐트의 메타데이터를 이용하는 동작들은, 통합된 콘텐트에 대해서도 동일하게 적용될 수 있다.

단계 S230에서, 일 실시예에 따른 디스플레이 장치(2000)는 사용자 공간의 오디오와 관련된 특징을 나타내는 공간 정보를 획득한다.

사용자 공간은 디스플레이 장치(2000)를 이용하는 사용자의 현실 공간을 말한다. 사용자 공간은 예를 들어, 디스플레이 장치(2000)가 위치한 오디오 룸 등일 수 있으나, 이에 한정되는 것은 아니다.

일 실시예에서, 공간 정보는 사용자 공간의 오디오와 관련된 특징을 나타내는 정보들을 포함할 수 있다. 공간 정보는 예를 들어, 3차원 공간 레이아웃, 공간 내 객체 및 공간 내 베이스트랩(bass trap), 사운드 흡수재(sound absorber), 사운드 분산재(sound diffuser)와 관련된 정보 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 3차원 공간 레이아웃 정보는 공간의 면적, 층고, 벽, 기둥, 문/창문 등의 위치, 크기 등의 정보를 포함할 수 있으나, 이에 한정되는 것은 아니다. 공간 내 객체 정보는 공간 내 존재하는 다양한 객체들 예를 들어, 테이블, 의자, 스피커, TV 장(TV stand) 등의 크기, 위치, 모양 등의 정보를 포함할 수 있으나, 이에 한정되는 것은 아니다. 공간 내 베이스트랩, 사운드 흡수재 및 사운드 분산재 정보는 사용자 공간에 설치된 사운드 흡수재 및/또는 사운드 분산재의 크기, 위치, 방향 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

단계 S240에서, 일 실시예에 따른 디스플레이 장치(2000)는 비디오 콘텐트의 메타데이터, 제1 오디오 콘텐트의 메타데이터 및 공간 정보에 기초하여 제1 오디오 콘텐트를 변환함으로써 제2 오디오 콘텐트를 생성한다.

일 실시예에서, 제2 오디오 콘텐트는 공간 맞춤형 콘텐트일 수 있다. 공간 맞춤형 오디오 콘텐트란, 사용자 공간의 공간 정보를 반영하여 사용자 공간에 최적화된 사운드로 변환된 오디오 콘텐트일 수 있다. 예를 들어, 사용자는 사용자 공간에서 디스플레이 장치(2000) 및 하나 이상의 스피커들을 이용하여 가상 공간을 체험할 수 있다. 이 경우, 제2 오디오 콘텐트란, 가상 공간에서 재생되는 사운드를 사용자 공간의 사용자에게 현실감 있게 전달할 수 있도록 변환된 실감형 오디오 콘텐트를 말한다.

디스플레이 장치(2000)는 비디오 콘텐트의 메타데이터 및 제1 오디오 콘텐트의 메타데이터에 기초하여, 가상 공간 내에서 발생하는 사운드(예를 들어, 가상 공간 내 객체로부터 출력되는 사운드)의 출력 크기, 출력 방향, 출력 위치 등을 변경할 수 있다. 디스플레이 장치(2000)가 제2 오디오 콘텐트를 생성하는 구체적인 동작들은 이후의 도면들에서 후술한다.

단계 S250에서, 일 실시예에 따른 디스플레이 장치(2000)는 디스플레이 장치(2000)와 연결된 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득한다. 하나 이상의 스피커들은, 멀티 채널 스피커일 수 있다. 예를 들어, 하나 이상의 스피커들은, 서라운드 사운드 제공이 가능한, 5.1 채널 구성의 스피커들일 수 있으나, 이에 한정되는 것은 아니다.

일 실시예에서, 디스플레이 장치(2000)는 하나 이상의 마이크를 포함할 수 있다. 디스플레이 장치(2000)는 하나 이상의 마이크를 이용하여, 하나 이상의 스피커들로부터 테스트 사운드를 수신할 수 있다. 디스플레이 장치(2000)는 수신된 테스트 사운드에 기초하여, 하나 이상의 스피커들의 위치 및 방향을 결정할 수 있다. 일 실시예에서, 디스플레이 장치(2000)는 하나 이상의 스피커들의 위치를 입력하는 사용자 입력을 수신할 수 있다.

일 실시예에서, 디스플레이 장치(2000)는 디스플레이 장치(2000)와 연결된 하나 이상의 스피커들의 식별 정보(예를 들어, 모델 명, 식별 번호 등)를 획득할 수 있다. 디스플레이 장치(2000)는 하나 이상의 스피커들의 식별 정보에 기초하여, 데이터베이스에서 식별 정보에 대응하는 스피커의 사양 정보를 검색할 수 있다. 일 실시예에서, 디스플레이 장치(2000)는 하나 이상의 스피커들의 사양을 입력하는 사용자 입력을 수신할 수 있다.

단계 S260에서, 일 실시예에 따른 디스플레이 장치(2000)는 하나 이상의 스피커들의 위치 또는 하나 이상의 스피커들의 사양 및 공간 정보에 기초하여, 제2 오디오 콘텐트에 대한 하나 이상의 스피커들의 출력 설정을 결정한다.

디스플레이 장치(2000)는 공간 정보 및 하나 이상의 스피커들의 위치, 하나 이상의 스피커들의 사양에 기초하여 제2 오디오 콘텐트에 대한 하나 이상의 스피커들의 출력 설정을 결정하므로, 사용자 공간의 특성에 맞게 실감형 오디오를 제공할 수 있다. 예를 들어, 제1 사용자의 제1 공간과 제2 사용자의 제2 공간에 동일한 사양의 스피커들이 설치되어 있더라도, 각각의 사용자의 공간 특징을 나타내는 공간 정보 및 각각의 사용자의 공간 내 스피커들의 위치가 상이하므로, 제1 사용자의 제1 공간과 제2 사용자의 제2 공간에 서로 다른 출력 설정이 결정될 수 있다.

단계 S270에서, 일 실시예에 따른 디스플레이 장치(2000)는 비디오 콘텐트가 상기 디스플레이 장치의 화면에 표시되는 동안, 출력 설정에 기초하여 제2 오디오 콘텐트를 출력한다. 디스플레이 장치(2000)의 사용자는 비디오 콘텐트 및 제2 오디오 콘텐트를 통해 가상 공간 경험을 할 수 있다.

일 실시예에서, 디스플레이 장치(2000)는 비디오 콘텐트(310) 및 제1 오디오 콘텐트(320)를 획득할 수 있다. 비디오 콘텐트(310)는 가상 공간(100)의 그래픽에 대응되며, 제1 오디오 콘텐트(320)는 가상 공간(100)의 사운드에 대응될 수 있다.

일 실시예에 따른 디스플레이 장치(2000)는 비디오 분석 모듈(330)을 이용하여, 비디오 콘텐트(310)에 대한 비디오 분석(332)을 수행할 수 있다. 디스플레이 장치(2000)는 알려진 다양한 비디오 분석 알고리즘을 이용하여, 제1 오디오 콘텐트(320)를 제2 오디오 콘텐트(360)로 변경하기 위한 다양한 데이터들을 획득할 수 있다. 디스플레이 장치(2000)는 비디오 분석(332)을 수행하기 위해, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘을 이용하거나, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘의 변형을 통해 구현된 인공지능 모델을 이용할 수 있다.

예를 들어, 디스플레이 장치(2000)는 비디오 콘텐트(310)에 포함되는 장면들에 대해서, 하나 이상의 객체들을 검출 및 인식할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 비디오 콘텐트(310)의 장면의 카테고리를 분류할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 비디오 내 사람의 스켈레톤을 검출하고, 검출된 스켈레톤에 기초하여 사람의 액션을 분류할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 비디오 내 사람의 얼굴을 검출 및 인식할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 비디오 내 2차원/3차원 거리 정보(예를 들어, 깊이 정보)를 추출할 수 있다.

일 실시예에 따른 디스플레이 장치(2000)는 비디오 분석 모듈(330)을 이용하여, 비디오 콘텐트(310)에 대한 비디오 메타데이터 분석(334)을 수행할 수 있다. 비디오 메타데이터는 미리 정의된 데이터 요소들을 포함하는 데이터 포맷으로 구성될 수 있으나, 이에 한정되는 것은 아니다. 비디오 메타데이터는 예를 들어, 비디오 콘텐트(310) 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 추가적으로 또는 대안적으로, 비디오 메타데이터의 사운드와 관련된 정보는 비디오 메타데이터가 아닌, 오디오 메타데이터로 제공될 수도 있다.

일 실시예에서, 디스플레이 장치(2000)가 비디오 콘텐트(310)를 획득할 때 비디오 콘텐트(310)에 대응되는 비디오 메타데이터가 함께 획득될 수 있다. 일 실시예에서, 비디오 메타데이터는 디스플레이 장치(2000)에 의해 생성될 수 있다. 디스플레이 장치(2000)는 전술한 비디오 분석(332) 결과에 기초하여 비디오 메타데이터를 생성 및 업데이트할 수 있다.

디스플레이 장치(2000)는 오디오 분석 모듈(340)을 이용하여, 제1 오디오 콘텐트(320)에 대한 오디오 분석(342)을 수행할 수 있다. 디스플레이 장치(2000)는 알려진 다양한 오디오 분석 알고리즘을 이용하여, 제1 오디오 콘텐트(320)를 제2 오디오 콘텐트(360)로 변경하기 위한 다양한 데이터들을 획득할 수 있다. 디스플레이 장치(2000)는 오디오 분석(334)을 수행하기 위해, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘을 이용하거나, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘의 변형을 통해 구현된 인공지능 모델을 이용할 수 있다.

예를 들어, 디스플레이 장치(2000)는 제1 오디오 콘텐트(320)에 포함되는 사운드 이벤트들을 식별할 수 있다. 디스플레이 장치(2000)는 제1 오디오 콘텐트(320) 내에서, 사운드의 등장 및 사라짐 시간, 사운드 크기를 식별할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 사운드에 대응하는 이벤트를 분류할 수 있다.

디스플레이 장치(2000)는 오디오 분석 모듈(340)을 이용하여, 제1 오디오 콘텐트(320)에 대한 오디오 메타데이터 분석(342)을 수행할 수 있다. 오디오 콘텐트의 오디오 메타데이터는, 미리 정의된 데이터 요소들을 포함하는 데이터 포맷으로 구성될 수 있으나, 이에 한정되는 것은 아니다. 오디오 메타데이터는 예를 들어, 사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 및 객체에 대응하는 사운드 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.

일 실시예에서, 디스플레이 장치(2000)가 제1 오디오 콘텐트(320)를 획득할 때 제1 오디오 콘텐트(320)에 대응되는 오디오 메타데이터가 함께 획득될 수 있다. 일 실시예에서, 디스플레이 장치(2000)는 오디오 분석(342) 결과에 기초하여 오디오 메타데이터를 보완 및 업데이트할 수 있다.

비디오 분석 모듈(330) 및 오디오 분석 모듈(340)의 데이터 처리 결과는, 실감형 오디오 생성 모듈(350)로 전달된다.

일 실시예에서, 실감형 오디오 생성 모듈(350)은 비디오 콘텐트(310)의 메타데이터, 제1 오디오 콘텐트(320)의 메타데이터 및 공간 정보 중 적어도 하나에 기초하여 제1 오디오 콘텐트(320)를 변환함으로써 실감형 오디오인 제2 오디오 콘텐트(360)를 생성할 수 있다.

일 실시예에서, 디스플레이 장치(2000)는 실감형 오디오 생성 모듈(350)을 이용하여, 사용자 주변 기기 분석(352)을 수행할 수 있다. 사용자 주변 기기는 하나 이상의 스피커들을 포함할 수 있다. 하나 이상의 스피커들의 사양은 예를 들어, 드라이버 유닛(예를 들어, 2way, 3way 등), 주파수 응답, 음압 레벨(Sound Pressure Level; SPL), 앰프 출력, 임피던스, 감도, 수직/수평 커버리지 각도 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

디스플레이 장치(2000)는 하나 이상의 스피커들의 사양 및 위치를 분석할 수 있다. 예를 들어, 디스플레이 장치(2000)는 하나 이상의 스피커들의 사양에 기초하여, 제1 오디오 콘텐트(320)가 각각의 스피커에서 분리되어 출력될 주파수 대역을 결정할 수 있다. 예를 들어, 디스플레이 장치(2000)는 디스플레이 장치(2000)로부터 하나 이상의 스피커들까지의 거리 및 방향에 기초하여, 제1 오디오 콘텐트의 사운드가 하나 이상의 스피커들 중 어떤 스피커에서 출력될 지 여부를 결정할 수 있다. 사용자 주변 기기 분석(352)의 결과는, 메타데이터 기반 실감형 오디오 렌더링(356)의 작업에 이용될 수 있다.

일 실시예에서, 디스플레이 장치(2000)는 실감형 오디오 생성 모듈(350)을 이용하여, 사용자 환경 분석(354)을 수행할 수 있다. 사용자 환경은 디스플레이 장치(2000)가 설치된 사용자 공간의 공간 정보, 사용자의 위치 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 또한, 공간 정보는 3차원 공간 레이아웃, 공간 내 객체 및 공간 내 베이스트랩(bass trap), 사운드 흡수재(sound absorber), 사운드 분산재(sound diffuser)와 관련된 정보 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.

디스플레이 장치(2000)는 사용자 환경의 오디오와 관련된 특징을 분석할 수 있다. 예를 들어, 디스플레이 장치(2000)는 사용자 공간의 레이아웃 정보 및 사용자 공간에 설치된 사운드 흡수재 정보, 사운드 분산재 정보 등에 기초하여, 사운드 방향에 따른 사운드 흡수 정도, 사운드 반사 정도를 계산할 수 있다. 예를 들어, 디스플레이 장치(2000)는 사용자 공간의 레이아웃 정보 및 사용자 위치에 기초하여, 사용자가 청취 가능한 주파수 대역 정보를 계산할 수 있다. 디스플레이 장치(2000)는 저역대 사운드의 파장을 들을 수 있도록 하는 청취 거리(예를 들어, 파장의 절반 길이) 및/또는 사용자 공간에서 청취 가능한 최저 주파수를 계산할 수 있다. 구체적으로, 음속을 340m/s, 사용자 공간 내에서 스피커로부터 사용자까지의 청취 거리가 5m인 것을 예시를 들면, 사용자의 위치에서 청취 가능한 사운드 신호의 파장은 10m로 계산될 수 있다, 이 경우, 사용자 공간에서 정확하게 청취 가능한 최저 주파수는 음속/파장, 즉 340(m/s)/10m = 34Hz로 결정될 수 있다. 사용자 환경 분석(354)의 결과는, 메타데이터 기반 실감형 오디오 렌더링(356)의 작업에 이용될 수 있다.

일 실시예에서, 디스플레이 장치(2000)는 실감형 오디오 생성 모듈(350)을 이용하여, 메타데이터 기반 실감형 오디오 렌더링(356)을 수행할 수 있다. 디스플레이 장치(2000)는 비디오 콘텐트(310)의 메타데이터 및 제1 오디오 콘텐트(320)의 메타데이터에 기초하여, 실감형 오디오인 제2 오디오 콘텐트(360)를 렌더링할 수 있다. 예를 들어, 디스플레이 장치(2000)는, 비디오 콘텐트(310)의 메타데이터(예를 들어, 비디오 콘텐트 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 등) 및 제1 오디오 콘텐트(320)의 메타데이터(예를 들어, 사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 등)에 기초하여, 비디오 콘텐트(310)의 가상 공간 내 존재하는 객체들에 제1 오디오 콘텐트(320)를 맵핑할 수 있다. 디스플레이 장치(2000)는 비디오 콘텐트(310)의 가상 공간 내 존재하는 객체들의 배치, 거리 및 방향에 기초하여, 가상 공간 내에서 발생하는 사운드의 출력 크기, 출력 방향, 출력 위치 등을 렌더링할 수 있다.

일 실시예에서, 비디오 분석(332)의 결과에 의해 비디오 콘텐트(310)의 메타데이터의 정보가 보완되거나 업데이트될 수 있다. 디스플레이 장치(2000)는 비디오 분석(332) 결과에 기초하여 메타데이터 기반 실감형 오디오 렌더링(356)을 수행하고, 제2 오디오 콘텐트(360)를 렌더링할 수 있다. 예를 들어, 비디오 분석(332) 결과 획득된, 비디오 콘텐트(310) 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 중 적어도 하나가 이용될 수 있다.

일 실시예에서, 오디오 분석(342)의 결과에 의해 제1 오디오 콘텐트(320)의 메타데이터의 정보가 보완되거나 업데이트될 수 있다. 디스플레이 장치(2000)는 오디오 분석(342) 결과에 기초하여 메타데이터 기반 실감형 오디오 렌더링(356)을 수행하고, 제2 오디오 콘텐트(360)를 렌더링할 수 있다. 예를 들어, 오디오 분석(332) 결과 획득된, 제1 오디오 콘텐트(310)의 사운드의 등장 및 사라짐 시간, 사운드 크기, 사운드에 대응하는 이벤트 분류 중 적어도 하나가 이용될 수 있다.

일 실시예에서, 디스플레이 장치(2000)가 메타데이터 기반 실감형 오디오 렌더링(356)을 수행할 때, 사용자 주변 기기 분석(352) 결과가 이용될 수 있다. 디스플레이 장치(2000)는, 디스플레이 장치(2000)와 연결된 하나 이상의 스피커들의 사양(예를 들어, 드라이버 유닛(예를 들어, 2way, 3way 등), 주파수 응답, 음압 레벨(Sound Pressure Level; SPL), 앰프 출력, 임피던스, 감도, 수직/수평 커버리지 각도 등)에 기초하여, 사운드의 속성 값들을 변경함으로써 제2 오디오 콘텐트(360)를 생성할 수 있다.

일 실시예에서, 디스플레이 장치(2000)가 메타데이터 기반 실감형 오디오 렌더링(356)을 수행할 때, 사용자 환경 분석(354) 결과가 이용될 수 있다. 디스플레이 장치(2000)는, 디스플레이 장치(2000)가 설치된 사용자 공간의 공간 정보, 사용자의 위치 등에 기초하여, 사운드의 속성 값들을 변경함으로써 제2 오디오 콘텐트(360)를 생성할 수 있다.

한편, 전술한 메타데이터 기반 실감형 오디오 렌더링(356) 작업의 예시들은, 각각 독립적으로 수행되어야 하는 것은 아니다. 디스플레이 장치(2000)는 전술한 예시들 중 둘 이상을 조합하여 메타데이터 기반 실감형 오디오 렌더링(356)을 수행할 수 있다. 예를 들어, 디스플레이 장치(2000)는 비디오 분석(332), 비디오 메타데이터 분석(334), 오디오 분석(342), 오디오 메타데이터 분석(344), 사용자 주변 기기 분석(352), 사용자 환경 분석(354) 중 적어도 둘 이상의 조합에 기초하여, 메타데이터 기반 실감형 오디오 렌더링(356)을 수행할 수 있다.

일 실시예에서, 디스플레이 장치(2000)가 있는 사용자 공간(120)은 오디오룸일 수 있다. 디스플레이 장치(2000)는 사용자 공간(120)의 오디오와 관련된 특징을 나타내는, 공간 정보를 획득할 수 있다.

일 실시예에서, 사용자 공간(120)의 오디오와 관련된 특징은 반사(410), 흡수(420), 확산(430)을 지칭하는 것일 수 있다. 도 4에 도시된 것과 같이, 반사(410)는 사운드를 입력 사운드를 반사하는 특징이고, 흡수(420)는 입력 사운드의 적어도 일부를 흡수하는 특징이며, 확산(430)은 입력 사운드를 확산시키는 특징을 말한다.

일 실시예에서, 사용자 공간(120)에는 사운드 흡수재(440)가 존재할 수 있다. 사운드 흡수재(440)는 반사가 잘되는 중역대의 주파수 대역의 사운드를 흡수할 수 있다. 사용자 공간(120)에는 예를 들어, 벽면에 설치된 사운드 흡수재(440)가 존재할 수 있다. 다만, 이는 설명의 편의를 위한 예시적인 도면이며, 사용자 공간(120)의 오디오와 관련된 특징이 이에 한정되는 것은 아니다. 디스플레이 장치(2000)는 사운드 흡수재(440)와 관련된 정보를 획득할 수 있다. 예를 들어, 디스플레이 장치(2000)는 사운드 흡수재(440)의 위치, 크기, 방향, 흡수하는 주파수 대역 등에 관련된 정보를 획득할 수 있다. 전술한 설명에서 디스플레이 장치(2000)가 제1 오디오 콘텐트를 제2 오디오 콘텐트로 변환할 때, 디스플레이 장치(2000)는 사운드 흡수재(440)와 관련된 정보를 이용할 수 있다. 구체적으로, 디스플레이 장치(2000)는 제1 오디오 콘텐트에서 특정 주파수 대역을 강화하거나, 약화할 수 있으나, 이에 한정되는 것은 아니다.

일 실시예에서, 사용자 공간(120)에는 베이스 트랩(bass trap)(450, 460)이 존재할 수 있다. 베이스 트랩(450, 460)은 파장이 큰 저역대의 사운드를 흡수하여 저역대 사운드의 에너지를 상쇄시킬 수 있다. 사용자 공간(120)에는 예를 들어, 벽들과 천장이 만나는 꼭지점에 제1 베이스 트랩(450)이 존재하고, 벽과 벽이 만나는 모서리에 제2 베이스 트랩(460)이 존재할 수 있다. 다만, 이는 설명의 편의를 위한 예시적인 도면이며, 사용자 공간(120)의 오디오와 관련된 특징이 이에 한정되는 것은 아니다. 디스플레이 장치(2000)는 베이스 트랩(450, 460)과 관련된 정보를 획득할 수 있다. 예를 들어, 디스플레이 장치(2000)는 베이스 트랩(450, 460)의 위치, 크기, 방향, 흡수하는 주파수 대역 등에 관련된 정보를 획득할 수 있다. 전술한 설명에서 디스플레이 장치(2000)가 제1 오디오 콘텐트를 제2 오디오 콘텐트로 변환할 때, 디스플레이 장치(2000)는 베이스 트랩(450, 460)과 관련된 정보를 이용할 수 있다.

일 실시예에서, 사용자 공간(120)에는 사운드 분산재(470)가 존재할 수 있다. 사운드 분산재(470)는 에너지가 상대적으로 작은 고역대의 사운드를 분산시킬 수 있다. 사용자 공간(120)에는 예를 들어, 천장에 사운드 분산재(470)가 존재할 수 있다. 다만, 이는 설명의 편의를 위한 예시적인 도면이며, 사용자 공간(120)의 오디오와 관련된 특징이 이에 한정되는 것은 아니다. 디스플레이 장치(2000)는 사운드 분산재(470)와 관련된 정보(예를 들어, 위치, 크기, 방향, 분산시키는 주파수 대역 등에 관련된 정보 등)를 획득할 수 있다. 전술한 설명에서 디스플레이 장치(2000)가 제1 오디오 콘텐트를 제2 오디오 콘텐트로 변환할 때, 디스플레이 장치(2000)는 사운드 분산재(470)와 관련된 정보를 이용할 수 있다.

일 실시예에서, 사용자 공간(120)의 오디오와 관련된 특징은 3차원 공간 레이아웃, 공간 내 객체와 관련된 정보를 포함할 수 있다. 3차원 공간 레이아웃 정보는 공간의 면적, 층고, 벽, 기둥, 문/창문 등의 위치, 크기 등의 정보를 포함할 수 있으나, 이에 한정되는 것은 아니다. 공간 내 객체 정보는 공간 내 존재하는 다양한 객체들 예를 들어, 테이블, 의자, 스피커, TV 장(TV stand) 등의 크기, 위치, 모양 등의 정보를 포함할 수 있으나, 이에 한정되는 것은 아니다. 전술한 설명에서 디스플레이 장치(2000)가 제1 오디오 콘텐트를 제2 오디오 콘텐트로 변환할 때, 디스플레이 장치(2000)는 3차원 공간 레이아웃, 공간 내 객체와 관련된 정보를 이용할 수 있다.

도 5를 참조하면, 도 5의 단계들은 적어도 도 2의 단계 S240이 수행되기 이전에 수행될 수 있다.

단계 S510에서, 디스플레이 장치(2000)는 제1 오디오 콘텐트의 메타데이터의 존재 여부를 식별한다. 예를 들어, 디스플레이 장치(2000)는 비디오 콘텐트에 대응하는 제1 오디오 콘텐트를 획득하고, 제1 오디오 콘텐트의 메타데이터가 존재하는지 여부를 식별할 수 있다. 디스플레이 장치(2000)는 전부 또는 일부가 존재하지 않는 경우, 제1 오디오 콘텐트의 메타데이터를 생성할 지 여부를 결정할 수 있다.

단계 S520에서, 디스플레이 장치(2000)는 제1 오디오 콘텐트의 메타데이터 존재하는 경우, 존재하는 제1 오디오 콘텐트의 메타데이터를 이용하여 도 2의 단계 S240을 수행할 수 있다. 또는, 디스플레이 장치(2000)는 제1 오디오 콘텐트의 메타데이터 존재하는 경우, 단계 S530을 수행하여 제1 오디오 콘텐트의 메타데이터를 업데이트할 수 있다.

디스플레이 장치(2000)는 제1 오디오 콘텐트의 메타데이터 존재하지 않는 경우, 단계 S530을 수행할 수 있다.

단계 S530에서, 디스플레이 장치(2000)는 비디오 콘텐트, 비디오 콘텐트의 메타데이터 및 제1 오디오 콘텐트 중 적어도 하나에 기초하여 제1 오디오 콘텐트의 메타데이터를 생성한다.

디스플레이 장치(2000)는 비디오 콘텐트, 비디오 콘텐트의 메타데이터 및 제1 오디오 콘텐트 중 적어도 하나를 분석하고, 분석 결과에 기초하여 제1 오디오 콘텐트의 메타데이터를 생성할 수 있다. 예를 들어, 디스플레이 장치(2000)는 비디오 콘텐트 및/또는 비디오 콘텐트의 메타데이터를 분석하여, 비디오 콘텐트 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 등을 획득하고, 오디오 콘텐트를 분석하여, 사운드의 등장 및 사라짐 시간, 사운드 크기, 사운드에 대응하는 이벤트 등을 획득할 수 있다. 디스플레이 장치(2000)는 비디오 콘텐트, 비디오 콘텐트의 메타데이터, 오디오 콘텐트의 분석 결과에 기초하여, 제1 오디오 콘텐트의 메타데이터(예를 들어, 사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 및 객체에 대응하는 사운드 등)를 생성할 수 있다.

단계 S530이 수행된 이후에, 도 2의 단계 S240 내지 S270의 동작이 수행될 수 있다. 이는 도 2에 대한 설명에서 전술하였으므로, 반복되는 설명은 간결함을 위해 생략한다.

도 6을 참조하면, 단계 S610 내지 S620은, 도 2의 단계 S240에 대응될 수 있다.

단계 S610에서, 디스플레이 장치(2000)는 비디오 콘텐트의 메타데이터 및 제1 오디오 콘텐트의 메타데이터에 기초하여, 제1 오디오 콘텐트를 가상 공간(100)에 맵핑한다.

예를 들어, 디스플레이 장치(2000)는 비디오 콘텐트의 가상 공간(100) 내에 존재하는 객체의 종류, 크기, 위치 및 거리, 방향 중 적어도 하나에 기초하여 객체에 대응하는 사운드를 맵핑할 수 있다. 예를 들어, 디스플레이 장치(2000)는 비디오 콘텐트의 가상 공간(100) 내에서 발생하는 특정 이벤트에 기초하여, 이벤트에 대응하는 사운드를 맵핑할 수 있다. 이 경우, 맵핑되는 사운드는 가상 공간(100)에서 특정 위치 및/또는 특정 객체에 맵핑되므로, 가상 공간(100) 내의 사용자의 캐릭터(602)가 가상 공간(100) 내에서 특정 위치 및/또는 특정 객체에 접근하거나 멀어짐에 따라, 사용자에게 제공되는 사운드가 커지거나 작아지고, 사운드의 방향이 바뀌는 효과를 제공할 수 있다. 또한, 맵핑되는 사운드는 가상 공간(100)에서 특정 이벤트가 발생할 때 출력되어, 사용자에게 현실감 있는 사운드 효과를 제공할 수 있다.

단계 S620에서, 디스플레이 장치(2000)는 공간 정보에 기초하여, 가상 공간(100) 내의 사용자의 캐릭터(602) 위치에서 사용자의 캐릭터(602)에게 들리는 제1 오디오 콘텐트를 사용자 공간(120) 내의 사용자(604)의 위치에서 사용자에게 들리는 제2 오디오 콘텐트로 변경한다.

디스플레이 장치(2000)는 오디오의 특성을 변경할 수 있다. 예를 들어, 디스플레이 장치(2000)는 소리의 높낮이를 나타내는 주파수, 소리의 강도나 크기를 나타내는 진폭, 소리가 출력되는 위치를 나타내는 출력 스피커 정보, 이퀄라이저 설정 등을 변경할 수 있으나, 이에 한정되는 것은 아니다.

예를 들어, 가상 공간(100) 내 사용자의 캐릭터(602) 위치를 기준으로, 제1 방향 및 제1 거리에서 제1 사운드가 발생하는 경우, 디스플레이 장치(2000)는 사용자 공간(120) 내의 사용자(604)가 사용자 공간(120) 내 현실 위치를 기준으로 제1 방향 및 제1 거리에서 제1 사운드를 듣는 것처럼 제1 오디오 콘텐트의 특성을 변경할 수 있다. 마찬가지로, 가상 공간(100) 내 사용자의 캐릭터(602) 위치를 기준으로, 제2 방향 및 제2 거리에서 제2 사운드가 발생하는 경우, 디스플레이 장치(2000)는 사용자 공간(120) 내의 사용자(604)가 사용자 공간(120) 내 현실 위치를 기준으로 제2 방향 및 제2 거리에서 제2 사운드를 듣는 것처럼 되도록 제1 오디오 콘텐트의 특성을 변경할 수 있다.

디스플레이 장치(2000)가 제1 오디오 콘텐트를 변경하여 제2 오디오 콘텐트를 생성하는 것은 도 3에 대한 설명에서 전술하였으므로, 간결함을 위해 반복되는 설명은 생략한다.

도 7을 참조하면, 일 실시예에 따른 디스플레이 장치(2000)는 제2 오디오 콘텐트(710)를 생성한 후, 디스플레이 장치(2000)와 연결된 하나 이상의 스피커들의 사양에 기초하여, 제2 오디오 콘텐트(710)의 주파수 대역별로 신호 레벨 매칭 작업을 수행할 수 있다.

일 실시예에서, 디스플레이 장치(2000)는 디스플레이 장치(2000)와 연결된 하나 이상의 스피커들의 식별 정보(예를 들어, 모델 명, 식별 번호 등)를 획득할 수 있다. 예를 들어, 디스플레이 장치(2000)의 데이터베이스(700)에는 스피커들의 종류, 모델명에 따른 사양 정보가 저장되어 있을 수 있다. 디스플레이 장치(2000)는 하나 이상의 스피커들의 식별 정보에 기초하여, 디스플레이 장치(2000)의 데이터베이스(700)에서 식별 정보에 대응하는 스피커의 사양 정보를 검색할 수 있다.

디스플레이 장치(2000)는 식별된 스피커 사양에 기초하여, 제2 오디오 콘텐트(710)의 주파수 대역별로 신호 레벨을 조정할 수 있다.

예를 들어, 디스플레이 장치(2000)는 하나 이상의 스피커들의 사양에 기초하여, 제2 오디오 콘텐트(710)의 저역대/중역대/고역대 주파수를 강화 및/또는 약화하여 조정된 제2 오디오 콘텐트를 생성할 수 있다.

예를 들어, 디스플레이 장치(2000)가 디스플레이 장치(2000)에 연결된 하나 이상의 스피커들의 사양을 분석한 결과, 연결된 하나 이상의 스피커들의 출력 성능이 서로 상이할 수 있다. 예를 들어, 디스플레이 장치(2000)에 제1 스피커 및 제2 스피커가 연결되어 있을 수 있고, 제1 스피커가 제2 스피커보다 높은 출력 성능을 낼 수 있다. 이 경우, 디스플레이 장치(2000)는 하나 이상의 스피커들의 출력 성능이 상이한 것에 기초하여, 사용자 공간 내에서 밸런스 있는 사운드가 제공되도록 제2 오디오 콘텐트(710)의 신호 레벨을 조정할 수 있다. 구체적으로, 디스플레이 장치(2000)는 출력 성능이 높은 제1 스피커에서 재생될 제2 오디오 콘텐트(710)의 신호 레벨을 감소시켜, 제1 스피커 및 제2 스피커에서 밸런스 있는 사운드가 출력되도록 할 수 있다.

도 8을 참조하면, 디스플레이 장치(2000)는 디스플레이 장치(2000)와 연결된 하나 이상의 스피커들의 위치를 계산할 수 있다. 디스플레이 장치(2000)는 하나 이상의 스피커들의 위치를 계산하기 위해, 하나 이상의 마이크들을 포함할 수 있다.

예를 들어, 디스플레이 장치(2000)는 제1 스피커(810)로부터 테스트 사운드(812)를 수신할 수 있다. 테스트 사운드(812)는 디스플레이 장치(2000)에 포함된 제1 마이크(830) 및 제2 마이크(840)에서 수신될 수 있다. 디스플레이 장치(2000)는 제1 마이크(830) 및 제2 마이크(840)로 테스트 사운드(812)가 수신된 시간차에 기초하여, 디스플레이 장치(2000)로부터 제1 스피커(810)까지의 거리 및 방향을 계산할 수 있다. 디스플레이 장치(2000)는 공간 내에 존재하는 모든 스피커들 각각으로부터 테스트 사운드를 수신하고, 각각의 스피커의 위치를 결정할 수 있다.

일 실시예에서, 디스플레이 장치(2000)는 하나 이상의 스피커들의 위치를 결정하기 위해, 디스플레이 장치(2000)에 포함된 다른 센서를 더 이용할 수 있다. 예를 들어, 디스플레이 장치(2000)는 ToF(Time of Flight) 센서, RGB 카메라, RGB-D 카메라 등을 이용하여 하나 이상의 스피커들의 위치를 결정할 수 있다.

일 실시예에서, 디스플레이 장치(2000)는 하나 이상의 스피커들의 위치를 입력하는 사용자 입력을 수신할 수 있다. 디스플레이 장치(2000)는 사용자 입력에 의해 입력된 하나 이상의 스피커들의 위치를, 테스트 사운드(812)에 기초하여 검증 및 업데이트할 수 있다. 또는, 디스플레이 장치(2000)는 테스트 사운드(812)에 기초하여 결정된 하나 이상의 스피커들의 위치를, 사용자 입력에 기초하여 업데이트할 수 있다.

일 실시예에서, 디스플레이 장치(2000)는 하나 이상의 스피커들의 위치에 기초하여 제2 오디오 콘텐트에 대한 하나 이상의 스피커들의 출력 설정을 결정함으로써 사용자 공간의 특성에 맞게 실감형 오디오를 제공할 수 있다. 예를 들어, 제1 사용자의 제1 공간과 제2 사용자의 제2 공간에 동일한 사양의 스피커들이 설치되어 있더라도, 각각의 사용자의 공간 특징을 나타내는 공간 정보 및 각각의 사용자의 공간 내 스피커들의 위치가 상이하므로, 제1 사용자의 제1 공간과 제2 사용자의 제2 공간에 서로 다른 출력 설정이 결정될 수 있다.

설명의 편의를 위해, 도 9에서 사용자 공간 내 있는 하나 이상의 스피커들은 도시를 생략하였다. 도 9를 참조하면, 디스플레이 장치(2000)는 카메라(910)를 포함할 수 있다. 카메라(910)는 하나 이상일 수 있다. 하나 이상의 카메라(910)들은 예를 들어, RGB 카메라, RGB-D, 스테레오 카메라 또는 멀티카메라 등일 수 있으나, 이에 한정되는 것은 아니다.

디스플레이 장치(2000)는 카메라(910)를 이용하여 디스플레이 장치(2000)를 사용하는 사용자(920)의 위치를 식별할 수 있다. 디스플레이 장치(2000)는 예를 들어, 카메라(910)를 통해 획득되는 이미지 내에서 사용자(920)를 검출 및 인식하고, 디스플레이 장치(2000)로부터 사용자(920)까지의 거리 및 방향을 계산할 수 있다. 일부 실시예에서, 디스플레이 장치(2000)는 비전 인식을 이용할 수 있다. 디스플레이 장치(2000)는 비전 인식을 통해 사용자(920)를 인식하고 사용자의 위치를 결정하기 위해, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘을 이용하거나, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘의 변형을 통해 구현된 인공지능 모델을 이용할 수 있다.

일 실시예에서, 디스플레이 장치(2000)는 사용자(920)의 위치를 결정하기 위한 하나 이상의 센서를 포함할 수 있다. 예를 들어, 디스플레이 장치(2000)는 적외선 센서, 초음파 센서 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

일 실시예에서, 디스플레이 장치(2000)는 사용자(920)의 위치에 기초하여 제2 오디오 콘텐트에 대한 하나 이상의 스피커들의 출력 설정을 결정함으로써 사용자 공간의 특성에 맞게 실감형 오디오를 제공할 수 있다. 예를 들어, 사용자(920)가 제1 스피커보다 제2 스피커에 가까이 위치하는 경우, 디스플레이 장치(2000)는 사용자(920)로부터 더 멀리 있는 제1 스피커의 출력을 더 크게 설정할 수 있다.

일 실시예에서, 도 9에서 설명한 것과 같이, 디스플레이 장치(2000)는 사용자의 위치를 식별할 수 있다. 이 경우, 디스플레이 장치(2000)는 사용자의 위치를 실시간으로 식별하면서 갱신할 수 있다. 예를 들어, 디스플레이 장치(2000)는 사용자가 공간 내 제1 위치(1010)에서 제2 위치(1020)로 이동하는 경우에, 이동하는 사용자의 위치를 실시간으로 추적할 수 있다.

디스플레이 장치(2000)는 사용자의 실시간 위치 변경에 기초하여, 하나 이상의 스피커들의 출력 설정을 실시간으로 업데이트할 수 있다.

예를 들어, 디스플레이 장치(2000)는 사용자가 공간 내 제1 위치(1010)에 있는 경우, 제1 위치(1010)에 최적의 사운드를 제공하기 위해 제1 위치(1010)에 대응하는 하나 이상의 스피커들의 출력 설정을 결정할 수 있다. 디스플레이 장치(2000)는 사용자의 위치가 공간 내 제2 위치(1020)로 변경되는 경우, 제2 위치(1020)에 최적의 사운드를 제공하기 위해 하나 이상의 스피커들의 출력 설정을 제2 위치(1020)에 대응하는 출력 설정으로 변경할 수 있다.

디스플레이 장치(2000)는 사용자의 위치가 실시간으로 변경됨에 따라 상기 하나 이상의 스피커들의 출력 설정을 변경함으로써, 사용자에게 실감형 오디오를 최적의 출력으로 제공할 수 있다.

일 실시에서, 디스플레이 장치(2000)는 통신 인터페이스(2100), 디스플레이(2200), 카메라(2300), 메모리(2400) 및 프로세서(2500)를 포함할 수 있다.

통신 인터페이스(2100)는 통신 회로를 포함할 수 있다. 통신 인터페이스(2100)는 예를 들어, 유선 랜, 무선 랜(Wireless LAN), 와이파이(Wi-Fi), 블루투스(Bluetooth), 지그비(ZigBee), WFD(Wi-Fi Direct), 적외선 통신(IrDA, infrared Data Association), BLE (Bluetooth Low Energy), NFC(Near Field Communication), 와이브로(Wireless Broadband Internet, Wibro), 와이맥스(World Interoperability for Microwave Access, WiMAX), SWAP(Shared Wireless Access Protocol), 와이기그(Wireless Gigabit Alliances, WiGig) 및 RF 통신을 포함하는 데이터 통신 방식 중 적어도 하나를 이용하여, 서버(2000)와 다른 디바이스들 간의 데이터 통신을 수행할 수 있는, 통신 회로를 포함할 수 있다.

통신 인터페이스(2100)는 서버(2000)의 동작을 수행하기 위한 데이터를 외부 전자 장치와 송수신할 수 있다. 예를 들어, 디스플레이 장치(2000)는 통신 인터페이스(2100)를 통해 디스플레이 장치(2000)가 실감형 오디오 콘텐트를 생성 및 제공하기 위해 사용하는 다양한 데이터를 외부의 전자 장치(예를 들어, 사용자의 스마트폰, 서버 등)로와 송수신할 수 있다.

디스플레이(2200)는 프로세서(2500)의 제어에 의해 디스플레이 장치(2000)의 화면에 영상 신호를 출력할 수 있다. 예를 들어, 디스플레이 장치(2000)는 가상 공간을 나타내는 비디오 콘텐트를 디스플레이(2200)를 통해 출력할 수 있다.

카메라(2300)는 공간 및/또는 객체를 촬영하여 비디오 및/또는 이미지를 획득할 수 있다. 카메라(2300)는 하나 이상일 수 있다. 카메라(2300)는 예를 들어, RGB 카메라, 깊이 카메라, 적외선 카메라 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 디스플레이 장치(2000)는 카메라(2300)를 이용하여 디스플레이 장치(2000)를 이용하는 사용자를 식별하고 사용자의 위치를 결정할 수 있다. 디스플레이 장치(2000)는 카메라(2300)를 이용하여 공간 내 존재하는 하나 이상의 객체(예를 들어, 스피커 등)를 식별하고, 위치를 결정할 수 있다. 카메라(2300)의 구체적인 종류 및 세부 기능은 통상의 기술자가 명확하게 추론할 수 있으므로, 설명을 생략한다.

메모리(2400)는 프로세서(2500)가 판독할 수 있는 명령어들, 데이터 구조, 및 프로그램 코드(program code)가 저장될 수 있다. 메모리(2400)는 하나 이상일 수 있다. 개시된 실시예들에서, 프로세서(2500)가 수행하는 동작들은 메모리(2400)에 저장된 프로그램의 명령어들 또는 코드들을 실행함으로써 구현될 수 있다.

메모리(2400)는 ROM(Read-only memory)(예를 들어, PROM(Programmable read-only memory), EPROM(Erasable programmable read-only memory), EEPROM(Electrically erasable programmable read-only memory)), 플래시 메모리(Flash memory)(예를 들어, 메모리 카드, SSD(Solid-state drive)) 및 아날로그 기록 타입(예를 들어, HDD(Hard disk drive), 자기테이프, 광학 디스크)와 같은 비휘발성 메모리 및, RAM(random-access memory)(예를 들어, DRAM(Dynamic random-access memory), SRAM(Static random-access memory))과 같은 휘발성 메모리를 포함할 수 있다.

프로세서(2500)는 디스플레이 장치(2000)의 전반적인 동작들을 제어할 수 있다. 예를 들어, 프로세서(2500)는 메모리(2400)에 저장된 프로그램의 하나 이상의 명령어들(instructions)을 실행함으로써, 디스플레이 장치(2000)가 실감형 오디오 콘텐트를 렌더링하기 위한 전반적인 동작들을 제어할 수 있다. 프로세서(2500)는 하나 이상일 수 있다.

하나 이상의 프로세서(2500)는 CPU (Central Processing Unit), GPU (Graphics Processing Unit), APU (Accelerated Processing Unit), MIC (Many Integrated Core), DSP (Digital Signal Processor), 및 NPU (Neural Processing Unit) 중 적어도 하나를 포함할 수 있다. 하나 이상의 프로세서(2500)는, 하나 이상의 전자부품을 포함하는 집적된 시스템 온 칩(SoC) 형태로 구현될 수 있다. 하나 이상의 프로세서(2500) 각각은 별개의 하드웨어(H/W)로 구현될 수도 있다.

본 개시의 일 실시예에 따른 방법이 복수의 동작을 포함하는 경우, 복수의 동작은 하나의 프로세서(2500)에 의해 수행될 수도 있고, 복수의 프로세서(2500)에 의해 수행될 수도 있다. 예를 들어, 일 실시예에 따른 방법에 의해 제1 동작, 제2 동작, 제3 동작이 수행될 때, 제1 동작, 제2 동작, 및 제3 동작 모두 제1 프로세서에 의해 수행될 수도 있고, 제1 동작 및 제2 동작은 제1 프로세서(예를 들어, 범용 프로세서)에 의해 수행되고 제3 동작은 제2 프로세서(예를 들어, 인공지능 전용 프로세서)에 의해 수행될 수도 있다. 여기서, 제2 프로세서의 예시는 인공지능 전용 프로세서일 수 있으며, 인공지능 전용 프로세서는, 인공지능 모델의 훈련/추론을 위한 연산들이 수행될 수도 있다. 그러나, 본 개시의 실시예들이 이에 한정되는 것은 아니다.

본 개시에 따른 하나 이상의 프로세서(2500)는 싱글 코어 프로세서(single-core processor)로 구현될 수도 있고, 멀티 코어 프로세서(multi-core processor)로 구현될 수도 있다.

본 개시의 일 실시예에 따른 방법이 복수의 동작을 포함하는 경우, 복수의 동작은 하나의 코어에 의해 수행될 수도 있고, 하나 이상의 프로세서(2500)에 포함된 복수의 코어에 의해 수행될 수도 있다.

일 실시예에서, 디스플레이 장치(2000)는 통신 인터페이스(2100), 디스플레이(2200), 카메라(2300), 메모리(2400), 프로세서(2500), 비디오 처리 모듈(2600), 오디오 처리 모듈(2700), 전원 모듈(2800) 및 입력/출력 인터페이스(2900)를 포함할 수 있다.

도 12의 통신 인터페이스(2100), 디스플레이(2200), 카메라(2300), 메모리(2400) 및 프로세서(2500)는, 도 11의 통신 인터페이스(2100), 디스플레이(2200), 카메라(2300), 메모리(2400) 및 프로세서(2500)에 각각 대응되므로, 반복되는 설명은 생략한다.

비디오 처리 모듈(2600)은 디스플레이 장치(2000)가 재생하는 비디오 데이터에 대한 처리를 수행한다. 비디오 처리 모듈(2600)에서는 비디오 데이터에 대한 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 해상도 변환 등과 같은 다양한 이미지 처리를 수행할 수 있다. 디스플레이(2200)는, 프로세서(2500)에서 처리된 영상 신호, 데이터 신호, OSD 신호, 제어 신호 등을 변환하여 구동 신호를 생성하고, 구동 신호에 따라 영상을 표시할 수 있다.

오디오 처리 모듈(2700)은 오디오 데이터에 대한 처리를 수행한다. 오디오 처리 모듈(2700)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다. 한편, 오디오 처리 모듈(2700)에는 복수의 콘텐트에 대응되는 오디오를 처리하기 위해 복수의 오디오 처리 유닛이 포함될 수 있다.

전원 모듈(2800)은 프로세서(2500)의 제어에 의해 디스플레이 장치(2000) 내부의 구성 요소들로 외부의 전원 소스에서부터 입력되는 전원을 공급한다. 또한, 전원 모듈(2800)은 프로세서(2500)의 제어에 의해 디스플레이 장치(2000) 내부에 위치하는 하나 또는 둘 이상의 배터리(미도시)에서부터 출력되는 전원을 내부의 구성 요소들에게 공급할 수 있다.

입력/출력 인터페이스(2900)는 디스플레이 장치(1200)의 외부에서부터 비디오(예를 들어, 동영상 등), 오디오(예를 들어, 음성, 음악 등) 및 부가 정보(예를 들어, EPG 등) 등을 수신한다. 입력/출력 인터페이스(2900)는 HDMI (High-Definition Multimedia Interface), MHL(Mobile High-Definition Link), USB(Universal Serial Bus), DP(Display Port), 썬더볼트(Thunderbolt), VGA(Video Graphics Array) 포트, RGB 포트, D-SUB(D-subminiature), DVI(Digital Visual Interface), 컴포넌트 잭(component jack), PC 포트(PC port) 중 어느 하나를 포함할 수 있다. 디스플레이 장치(2900)는 입력/출력 인터페이스(2900)를 통해 하나 이상의 스피커들과 연결될 수 있다.

도 13의 메모리(2400)는, 도 11 및 도 12의 메모리에 대응될 수 있다.

메모리(2400)는 디스플레이 장치(2000)가 실감형 오디오 콘텐트를 생성하기 위해 동작하도록 하는 하나 이상의 인스트럭션 및 프로그램을 저장할 수 있다. 예를 들어, 메모리(2400)에는 비디오 분석 모듈(2410), 오디오 분석 모듈(2420) 및 실감형 오디오 생성 모듈(2430)이 저장될 수 있다.

디스플레이 장치(2000)는 비디오 분석 모듈(2410)을 이용하여, 비디오 콘텐트에 대한 비디오 분석을 수행할 수 있다. 디스플레이 장치(2000)는 알려진 다양한 비디오 분석 알고리즘을 이용하여, 제1 오디오 콘텐트를 제2 오디오 콘텐트로 변경하기 위한 다양한 데이터들을 획득할 수 있다. 디스플레이 장치(2000)는 비디오 분석을 수행하기 위해, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘을 이용하거나, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘의 변형을 통해 구현된 인공지능 모델을 이용할 수 있다.

예를 들어, 디스플레이 장치(2000)는 비디오 콘텐트에 포함되는 장면들에 대해서, 하나 이상의 객체들을 검출 및 인식할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 비디오 콘텐트의 장면의 카테고리를 분류할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 비디오 내 사람의 스켈레톤을 검출하고, 검출된 스켈레톤에 기초하여 사람의 액션을 분류할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 비디오 내 사람의 얼굴을 검출 및 인식할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 비디오 내 2차원/3차원 거리 정보(예를 들어, 깊이 정보)를 추출할 수 있다.

디스플레이 장치(2000)는 비디오 분석 모듈(2410)을 이용하여, 비디오 콘텐트에 대한 비디오 메타데이터 분석을 수행할 수 있다. 비디오 메타데이터는 미리 정의된 데이터 요소들을 포함하는 데이터 포맷으로 구성될 수 있으나, 이에 한정되는 것은 아니다. 비디오 메타데이터는 예를 들어, 비디오 콘텐트 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.

일 실시예에서, 디스플레이 장치(2000)가 비디오 콘텐트를 획득할 때 비디오 콘텐트에 대응되는 비디오 메타데이터가 함께 획득될 수 있다. 일 실시예에서, 비디오 메타데이터는 디스플레이 장치(2000)에 의해 생성될 수 있다. 디스플레이 장치(2000)는 전술한 비디오 분석 결과에 기초하여 비디오 메타데이터를 생성 및 업데이트할 수 있다.

디스플레이 장치(2000)는 오디오 분석 모듈(2420)을 이용하여, 제1 오디오 콘텐트에 대한 오디오 분석을 수행할 수 있다. 디스플레이 장치(2000)는 알려진 다양한 오디오 분석 알고리즘을 이용하여, 제1 오디오 콘텐트를 제2 오디오 콘텐트로 변경하기 위한 다양한 데이터들을 획득할 수 있다. 디스플레이 장치(2000)는 오디오 분석을 수행하기 위해, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘을 이용하거나, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘의 변형을 통해 구현된 인공지능 모델을 이용할 수 있다.

예를 들어, 디스플레이 장치(2000)는 제1 오디오 콘텐트에 포함되는 사운드 이벤트들을 식별할 수 있다. 디스플레이 장치(2000)는 제1 오디오 콘텐트 내에서, 사운드의 등장 및 사라짐 시간, 사운드 크기를 식별할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 사운드에 대응하는 이벤트를 분류할 수 있다.

디스플레이 장치(2000)는 오디오 분석 모듈을 이용하여, 제1 오디오 콘텐트에 대한 오디오 메타데이터 분석을 수행할 수 있다. 오디오 콘텐트의 오디오 메타데이터는, 미리 정의된 데이터 요소들을 포함하는 데이터 포맷으로 구성될 수 있으나, 이에 한정되는 것은 아니다. 오디오 메타데이터는 예를 들어, 사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 및 객체에 대응하는 사운드 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.

일 실시예에서, 디스플레이 장치(2000)가 제1 오디오 콘텐트를 획득할 때 제1 오디오 콘텐트에 대응되는 오디오 메타데이터가 함께 획득될 수 있다. 일 실시예에서, 디스플레이 장치(2000)는 오디오 분석 결과에 기초하여 오디오 메타데이터를 보완 및 업데이트할 수 있다.

비디오 분석 모듈(2410) 및 오디오 분석 모듈(2420)의 데이터 처리 결과는, 실감형 오디오 생성 모듈(2430)로 전달되어 처리될 수 있다.

일 실시예에서, 디스플레이 장치(2000)는 실감형 오디오 생성 모듈(2430)을 이용하여, 비디오 콘텐트의 메타데이터, 제1 오디오 콘텐트의 메타데이터 및 공간 정보 중 적어도 하나에 기초하여 상기 제1 오디오 콘텐트를 변환함으로써 실감형 오디오인 제2 오디오 콘텐트를 생성할 수 있다.

디스플레이 장치(2000)는 비디오 콘텐트의 메타데이터 및 제1 오디오 콘텐트의 메타데이터에 기초하여, 실감형 오디오인 제2 오디오 콘텐트를 렌더링할 수 있다. 예를 들어, 디스플레이 장치(2000)는, 비디오 콘텐트의 메타데이터(예를 들어, 비디오 콘텐트 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 등) 및 제1 오디오 콘텐트의 메타데이터(예를 들어, 사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 등)에 기초하여, 비디오 콘텐트의 가상 공간 내 존재하는 객체들에 제1 오디오 콘텐트를 맵핑할 수 있다. 디스플레이 장치(2000)는 비디오 콘텐트의 가상 공간 내 존재하는 객체들의 배치, 거리 및 방향에 기초하여, 가상 공간 내에서 발생하는 사운드의 출력 크기, 출력 방향, 출력 위치 등을 렌더링할 수 있다. 실감형 오디오 생성 모듈(2430) 동작은 전술한 도면들에 대한 설명에서 이미 서술하였으므로, 반복되는 설명은 간결함을 위해 생략한다.

한편, 전술한 메모리(2400)에 저장되어 실행되는 모듈들은, 설명의 편의를 위한 것이며 반드시 이에 한정되는 것은 아니다. 전술한 실시예들을 구현하기 위해 다른 모듈이 추가될 수 있으며, 하나의 모듈이 세부적인 기능들에 따라 구별되는 복수의 모듈들로 분할될 수 있고, 전술한 모듈들 중 일부의 모듈들이 합쳐져 하나의 모듈로 구현될 수도 있다.

본 개시는, 사용자에게 가상 환경을 체험할 수 있는 콘텐츠를 제공하기 위해, 사용자의 공간에 맞춤형으로 변경된 실감형 오디오를 생성하는 방법을 제시한다. 본 개시에서 이루고자 하는 기술적 과제는, 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 본 명세서의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 개시의 일 측면에 따르면, 디스플레이 장치가 콘텐트를 제공하는 방법이 제공될 수 있다.

상기 방법은, 가상 공간을 나타내는 비디오 콘텐트를 획득하는 단계를 포함할 수 있다.

상기 방법은, 상기 비디오 콘텐트에 대응하는 제1 오디오 콘텐트를 획득하는 단계를 포함할 수 있다.

상기 방법은, 사용자 공간의 오디오와 관련된 특징을 나타내는 공간 정보를 획득하는 단계를 포함할 수 있다.

상기 방법은, 상기 비디오 콘텐트의 메타데이터, 상기 제1 오디오 콘텐트의 메타데이터 및 상기 공간 정보에 기초하여 상기 제1 오디오 콘텐트를 변환함으로써 제2 오디오 콘텐트를 생성하는 단계를 포함할 수 있다.

상기 제2 오디오 콘텐트는 공간 맞춤형 오디오 콘텐트일 수 있다.

상기 방법은, 상기 디스플레이 장치와 연결된 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득하는 단계를 포함할 수 있다.

상기 방법은, 상기 하나 이상의 스피커들의 위치 또는 상기 하나 이상의 스피커들의 사양 중 적어도 하나 및 상기 공간 정보에 기초하여, 상기 제2 오디오 콘텐트에 대한 상기 하나 이상의 스피커들의 출력 설정을 결정하는 단계를 포함할 수 있다.

상기 방법은, 상기 비디오 콘텐트가 상기 디스플레이 장치의 화면에 표시되는 동안, 상기 출력 설정에 기초하여 상기 제2 오디오 콘텐트를 출력하는 단계를 포함할 수 있다.

상기 제1 오디오 콘텐트의 메타데이터는, 사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 및 객체에 대응하는 사운드 중 적어도 하나를 포함할 수 있다.

상기 비디오 콘텐트의 메타데이터는, 상기 비디오 콘텐트 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 중 적어도 하나를 포함할 수 있다.

상기 공간 정보는, 상기 공간의 3차원 공간 레이아웃, 공간 내 객체 및 공간 내 베이스트랩(bass trap), 사운드 흡수재(sound absorber), 사운드 분산재(sound diffuser)와 관련된 정보 중 적어도 하나를 포함할 수 있다.

상기 방법은, 상기 제1 오디오 콘텐트의 메타데이터의 존재 여부를 식별하는 단계를 포함할 수 있다.

상기 방법은, 상기 제1 오디오 콘텐트의 메타데이터가 존재하지 않는 것에 기초하여, 상기 제1 오디오 콘텐트의 메타데이터를 생성하는 단계를 포함할 수 있다.

상기 제1 오디오 콘텐트의 메타데이터를 생성하는 단계는, 상기 비디오 콘텐트, 상기 비디오 콘텐트의 메타데이터 및 상기 제1 오디오 콘텐트 중 적어도 하나에 기초하여 상기 제1 오디오 콘텐트의 메타데이터를 생성하는 것일 수 있다.

상기 제2 오디오 콘텐트를 생성하는 단계는, 상기 비디오 콘텐트의 메타데이터 및 상기 제1 오디오 콘텐트의 메타데이터에 기초하여, 상기 제1 오디오 콘텐트를 가상 공간에 맵핑하는 단계를 포함할 수 있다.

상기 제2 오디오 콘텐트를 생성하는 단계는, 상기 공간 정보에 기초하여, 상기 가상 공간 내 사용자의 캐릭터 위치에서 상기 사용자의 캐릭터에게 들리는 상기 제1 오디오 콘텐트를 상기 사용자 공간 내에서 사용자의 위치에서 사용자에게 들리는 상기 제2 오디오 콘텐트로 변경하는 단계를 포함할 수 있다.

상기 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득하는 단계는, 하나 이상의 마이크를 이용하여 상기 하나 이상의 스피커들로부터 테스트 사운드를 수신하는 단계를 포함할 수 있다.

상기 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득하는 단계는, 상기 테스트 사운드에 기초하여 상기 하나 이상의 스피커들의 위치를 결정하는 단계를 포함할 수 있다.

상기 방법은, 하나 이상의 센서를 이용하여 상기 디스플레이 장치의 사용자의 위치를 식별하는 단계를 포함할 수 있다.

상기 하나 이상의 스피커들의 출력 설정을 결정하는 단계는, 상기 사용자의 위치에 더 기초하여 상기 하나 이상의 스피커들의 출력 설정을 결정하는 것일 수 있다.

상기 사용자의 위치를 식별하는 단계는, 실시간으로 상기 사용자의 위치를 식별하는 것일 수 있다.

상기 하나 이상의 스피커들의 출력 설정을 결정하는 단계는, 상기 사용자의 위치가 실시간으로 변경됨에 따라 상기 하나 이상의 스피커들의 출력 설정이 변경되는 것일 수 있다.

본 개시의 일 측면에 따르면, 디스플레이 장치가 제공될 수 있다.

상기 디스플레이 장치는, 통신 인터페이스; 디스플레이; 하나 이상의 인스트럭션들을 저장하는 메모리; 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함할 수 있다.

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 가상 공간을 나타내는 비디오 콘텐트를 획득할 수 있다.

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 비디오 콘텐트에 대응하는 제1 오디오 콘텐트를 획득할 수 있다.

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 사용자 공간의 오디오와 관련된 특징을 나타내는 공간 정보를 획득할 수 있다.

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 비디오 콘텐트의 메타데이터, 상기 제1 오디오 콘텐트의 메타데이터 및 상기 공간 정보에 기초하여 상기 제1 오디오 콘텐트를 변환함으로써 상기 공간 정보에 따라 상기 사용자 공간에 최적화된 사운드로 변환된 공간 맞춤형 오디오 콘텐트인 제2 오디오 콘텐트를 생성할 수 있다.

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 디스플레이 장치와 연결된 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득할 수 있다.

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 하나 이상의 스피커들의 위치 또는 상기 하나 이상의 스피커들의 사양 중 적어도 하나 및 상기 공간 정보에 기초하여, 상기 제2 오디오 콘텐트에 대한 상기 하나 이상의 스피커들의 출력 설정을 결정할 수 있다.

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 비디오 콘텐트가 상기 디스플레이 장치의 상기 디스플레이에 표시되는 동안, 상기 출력 설정에 기초하여 상기 제2 오디오 콘텐트를 출력할 수 있다.

상기 제1 오디오 콘텐트의 메타데이터는, 사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 및 객체에 대응하는 사운드 중 적어도 하나를 포함하는 것일 수 있다.

상기 비디오 콘텐트의 메타데이터는, 상기 비디오 콘텐트 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 중 적어도 하나를 포함하는 것일 수 있다.

상기 공간 정보는, 상기 공간의 3차원 공간 레이아웃, 공간 내 객체 및 공간 내 베이스트랩(bass trap), 사운드 흡수재(sound absorber), 사운드 분산재(sound diffuser)와 관련된 정보 중 적어도 하나를 포함하는 것일 수 있다.

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 제1 오디오 콘텐트의 메타데이터의 존재 여부를 식별할 수 있다.

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 제1 오디오 콘텐트의 메타데이터가 존재하지 않는 것에 기초하여, 상기 제1 오디오 콘텐트의 메타데이터를 생성할 수 있다.

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 비디오 콘텐트의 메타데이터 및 상기 제1 오디오 콘텐트의 메타데이터에 기초하여, 상기 제1 오디오 콘텐트를 가상 공간에 맵핑할 수 있다.

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 공간 정보에 기초하여, 상기 가상 공간 내 사용자의 캐릭터 위치에서 상기 사용자의 캐릭터에게 들리는 상기 제1 오디오 콘텐트를 상기 사용자 공간 내에서 사용자의 위치에서 사용자에게 들리는 상기 제2 오디오 콘텐트로 변경할 수 있다.

상기 디스플레이 장치는, 하나 이상의 마이크를 포함할 수 있다.

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 하나 이상의 마이크를 이용하여 상기 하나 이상의 스피커들로부터 테스트 사운드를 수신할 수 있다.

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 테스트 사운드에 기초하여 상기 하나 이상의 스피커들의 위치를 결정할 수 있다.

상기 디스플레이 장치는, 하나 이상의 카메라를 포함할 수 있다.

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 하나 이상의 센서를 이용하여 상기 디스플레이 장치의 사용자의 위치를 식별할 수 있다.

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 사용자의 위치에 기초하여 상기 하나 이상의 스피커들의 출력 설정을 결정할 수 있다.

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 실시간으로 상기 사용자의 위치를 식별할 수 있다.

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 사용자의 위치가 실시간으로 변경됨에 따라 상기 하나 이상의 스피커들의 출력 설정을 변경할 수 있다.

한편, 본 개시의 실시예들은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독 가능 명령어, 데이터 구조, 또는 프로그램 모듈과 같은 변조된 데이터 신호의 기타 데이터를 포함할 수 있다.

또한, 컴퓨터에 의해 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.

Claims

디스플레이 장치가 콘텐트를 제공하는 방법에 있어서,

가상 공간을 나타내는 비디오 콘텐트를 획득하는 단계(S210);

상기 비디오 콘텐트에 대응하는 제1 오디오 콘텐트를 획득하는 단계(S220);

사용자 공간의 오디오와 관련된 특징을 나타내는 공간 정보를 획득하는 단계(S230);

상기 비디오 콘텐트의 메타데이터, 상기 제1 오디오 콘텐트의 메타데이터 및 상기 공간 정보에 기초하여 상기 제1 오디오 콘텐트를 변환함으로써 제2 오디오 콘텐트를 생성하되, 상기 제2 오디오 콘텐트는 상기 공간 정보에 따라 상기 사용자 공간에 최적화된 사운드로 변환된 공간 맞춤형 오디오 콘텐트인, 단계(S240);

상기 디스플레이 장치와 연결된 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득하는 단계(S250);

상기 하나 이상의 스피커들의 위치 또는 상기 하나 이상의 스피커들의 사양 중 적어도 하나 및 상기 공간 정보에 기초하여, 상기 제2 오디오 콘텐트에 대한 상기 하나 이상의 스피커들의 출력 설정을 결정하는 단계(S260); 및

상기 비디오 콘텐트가 상기 디스플레이 장치의 화면에 표시되는 동안, 상기 출력 설정에 기초하여 상기 제2 오디오 콘텐트를 출력하는 단계(S270)를 포함하는, 방법.
제1항에 있어서,

상기 제1 오디오 콘텐트의 메타데이터는,

사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 및 객체에 대응하는 사운드 중 적어도 하나를 포함하는 것인, 방법.
제2항에 있어서,

상기 비디오 콘텐트의 메타데이터는,

상기 비디오 콘텐트 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 중 적어도 하나를 포함하는 것인, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,

상기 제2 오디오 콘텐트를 생성하는 단계는,

상기 비디오 콘텐트의 메타데이터 및 상기 제1 오디오 콘텐트의 메타데이터에 기초하여, 상기 제1 오디오 콘텐트를 가상 공간에 맵핑하는 단계; 및

상기 공간 정보에 기초하여, 상기 가상 공간 내 사용자의 캐릭터 위치에서 상기 사용자의 캐릭터에게 들리는 상기 제1 오디오 콘텐트를 상기 사용자 공간 내에서 사용자의 위치에서 사용자에게 들리는 상기 제2 오디오 콘텐트로 변경하는 단계를 포함하는, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,

상기 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득하는 단계는,

하나 이상의 마이크를 이용하여 상기 하나 이상의 스피커들로부터 테스트 사운드를 수신하는 단계; 및

상기 테스트 사운드에 기초하여 상기 하나 이상의 스피커들의 위치를 결정하는 단계를 포함하는, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,

상기 방법은,

하나 이상의 센서를 이용하여 상기 디스플레이 장치의 사용자의 위치를 식별하는 단계를 더 포함하고,

상기 하나 이상의 스피커들의 출력 설정을 결정하는 단계는,

상기 사용자의 위치에 더 기초하여 상기 하나 이상의 스피커들의 출력 설정을 결정하는 것인, 방법.
제6항에 있어서,

상기 사용자의 위치를 식별하는 단계는,

실시간으로 상기 사용자의 위치를 식별하는 것이고,

상기 하나 이상의 스피커들의 출력 설정을 결정하는 단계는,

상기 사용자의 위치가 실시간으로 변경됨에 따라 상기 하나 이상의 스피커들의 출력 설정이 변경되는 것인, 방법.
디스플레이 장치(2000)에 있어서,

통신 인터페이스(2100);

디스플레이(2200);

하나 이상의 인스트럭션들을 저장하는 메모리(2400); 및

상기 메모리(2400)에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서(2500)를 포함하고,

상기 적어도 하나의 프로세서(2500)는 상기 하나 이상의 인스트럭션을 실행함으로써,

가상 공간을 나타내는 비디오 콘텐트를 획득하고,

상기 비디오 콘텐트에 대응하는 제1 오디오 콘텐트를 획득하고,

사용자 공간의 오디오와 관련된 특징을 나타내는 공간 정보를 획득하고,

상기 비디오 콘텐트의 메타데이터, 상기 제1 오디오 콘텐트의 메타데이터 및 상기 공간 정보에 기초하여 상기 제1 오디오 콘텐트를 변환함으로써 제2 오디오 콘텐트를 생성하되, 상기 제2 오디오 콘텐트는 상기 공간 정보에 따라 상기 사용자 공간에 최적화된 사운드로 변환된 공간 맞춤형 오디오 콘텐트이고,

상기 디스플레이 장치와 연결된 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득하고,

상기 하나 이상의 스피커들의 위치 또는 상기 하나 이상의 스피커들의 사양 중 적어도 하나 및 상기 공간 정보에 기초하여, 상기 제2 오디오 콘텐트에 대한 상기 하나 이상의 스피커들의 출력 설정을 결정하고,

상기 비디오 콘텐트가 상기 디스플레이 장치의 상기 디스플레이에 표시되는 동안, 상기 출력 설정에 기초하여 상기 제2 오디오 콘텐트를 출력하는, 디스플레이 장치.
제8항에 있어서,

상기 제1 오디오 콘텐트의 메타데이터는,

사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 및 객체에 대응하는 사운드 중 적어도 하나를 포함하는 것인, 디스플레이 장치.
제9항에 있어서,

상기 비디오 콘텐트의 메타데이터는,

상기 비디오 콘텐트 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 중 적어도 하나를 포함하는 것인, 디스플레이 장치.
제8항 내지 제10항 중 어느 한 항에 있어서,

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,

상기 비디오 콘텐트의 메타데이터 및 상기 제1 오디오 콘텐트의 메타데이터에 기초하여, 상기 제1 오디오 콘텐트를 가상 공간에 맵핑하고,

상기 공간 정보에 기초하여, 상기 가상 공간 내 사용자의 캐릭터 위치에서 상기 사용자의 캐릭터에게 들리는 상기 제1 오디오 콘텐트를 상기 사용자 공간 내에서 사용자의 위치에서 사용자에게 들리는 상기 제2 오디오 콘텐트로 변경하는, 디스플레이 장치.
제8항 내지 제10항 중 어느 한 항에 있어서,

상기 디스플레이 장치는,

하나 이상의 마이크를 더 포함하고,

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,

상기 하나 이상의 마이크를 이용하여 상기 하나 이상의 스피커들로부터 테스트 사운드를 수신하고,

상기 테스트 사운드에 기초하여 상기 하나 이상의 스피커들의 위치를 결정하는, 디스플레이 장치.
제8항 내지 제12항 중 어느 한 항에 있어서,

상기 디스플레이 장치는,

하나 이상의 카메라를 더 포함하고,

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,

하나 이상의 센서를 이용하여 상기 디스플레이 장치의 사용자의 위치를 식별하고,

상기 사용자의 위치에 더 기초하여 상기 하나 이상의 스피커들의 출력 설정을 결정하는, 디스플레이 장치.
제13항에 있어서,

상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,

실시간으로 상기 사용자의 위치를 식별하고,

상기 사용자의 위치가 실시간으로 변경됨에 따라 상기 하나 이상의 스피커들의 출력 설정을 변경하는, 디스플레이 장치.
제1항 내지 제7항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.