KR101914206B1

KR101914206B1 - 360도 영상 기반의 클라우드 오디오 렌더링 서버

Info

Publication number: KR101914206B1
Application number: KR1020160119108A
Authority: KR
Inventors: 권영주; 안재용
Original assignee: 주식회사 씨오티커넥티드
Priority date: 2016-09-19
Filing date: 2016-09-19
Publication date: 2018-11-01
Also published as: KR20180031137A

Abstract

본 발명은 360도 영상 기반의 클라우드 오디오 렌더링 기술에 관한 것으로, 360도 영상에 사용자 입력을 제공하여 시야범위(FOV, Field of View)를 결정하는 시야범위 결정부, 상기 360도 영상에서 상기 시야범위와 연관된 현재 영상을 생성하는 현재 영상 생성부, 상기 사용자 입력을 기초로 360도 오디오를 렌더링하여 현재 오디오를 생성하는 현재 오디오 생성부 및 상기 현재 영상과 상기 현재 오디오 간의 동기화를 수행하는 AV (Audio & Video) 동기화부를 포함한다.

Description

360도 영상 기반의 클라우드 오디오 렌더링 서버{SERVER OF CLOUD AUDIO RENDERING BASED ON 360-DEGREE VR VIDEO}

본 발명은 360도 영상 기반의 오디오 렌더링 기술에 관한 것으로, 보다 상세하게는 클라우드 서버에서 360도 영상에 사용자 입력을 반영하여 360도 오디오 렌더링을 수행할 수 있는 360도 영상 기반의 클라우드 오디오 렌더링 서버에 관한 것이다.

오디오 렌더링(Rendering)은 객체들이 모인 사운드 장면을 객체 단위로 신호를 저장하고 전송하여 사용자단에서 이를 다시 재구성할 수 있는 것을 말한다. 오디오 렌더링은 사용자의 움직임에 따라 사방에서 들려오는 소리가 변형되기 때문에 연산량이 커지는 문제점이 있다. 즉, 오디오 렌더링은 연산량을 줄이면서 고음질의 오디오를 사용자에게 제공할 수 있도록 하여야 한다.

한국 등록특허 제10-1614790호는 카메라 구동 오디오 공간화에 관한 것으로, 프로세서 기반 시스템에 의해 헤드폰 상에 렌더링되는 오디오 패킷들의 상대적 레이턴시 또는 상대적 진폭을 변경함으로써 오디오 공간화를 지원할 수 있는 기술에 대하여 개시한다.

한국 공개특허 제10-2015-0100721호는 오디오 제공 장치 및 오디오 제공 방법에 관한 것으로, 오브젝트 오디오 신호의 궤도 정보를 이용하여 오브젝트 오디오 신호를 렌더링하고, 제1 채널 수를 가지는 오디오 신호를 제2 채널 수를 가지는 오디오 신호로 렌더링하며 렌더링된 오브젝트 오디오 신호 및 제2 채널 수를 가지는 오디오 신호를 믹싱하는 기술에 대하여 개시한다.

1. 한국 등록특허 제10-1614790호(2016.04.18) 2. 한국 공개특허 제10-2015-0100721호(2015.09.02)

본 발명의 일 실시예는 클라우드 서버에서 360도 영상에 사용자 입력을 반영하여 360도 오디오 렌더링을 수행할 수 있는 360도 영상 기반의 클라우드 오디오 렌더링 서버를 제공하고자 한다.

본 발명의 일 실시예는 사용자 입력을 기초로 시야범위를 결정하고, 시야 방향을 추적하여 복수의 이산적인 시야 방향 정보들을 제공할 수 있는 360도 영상 기반의 클라우드 오디오 렌더링 서버를 제공하고자 한다.

본 발명의 일 실시예는 시야범위의 변경에 따라 360도 오디오 공간을 추적할 수 있는 360도 영상 기반의 클라우드 오디오 렌더링 서버를 제공하고자 한다.

실시예들 중에서, 360도 영상 기반의 클라우드 오디오 렌더링 서버는 360도 영상에 사용자 입력을 제공하여 시야범위(FOV, Field of View)를 결정하는 시야범위 결정부, 상기 360도 영상에서 상기 시야범위와 연관된 현재 영상을 생성하는 현재 영상 생성부, 상기 사용자 입력을 기초로 360도 오디오를 렌더링하여 현재 오디오를 생성하는 현재 오디오 생성부 및 상기 현재 영상과 상기 현재 오디오 간의 동기화를 수행하는 AV (Audio & Video) 동기화부를 포함한다.

상기 시야범위 결정부는 상기 360도 영상으로 구성된 구(sphere)에 헤드 움직임 또는 4 방향키들의 입력을 수신하는 동안 상기 구의 중심점에서 상기 구의 내면을 바라보는 시야 방향을 추적하여 복수의 이산적인 시야 방향 정보들을 제공할 수 있다.

상기 현재 영상 생성부는 상기 복수의 이산적인 시야 방향정보들 중 적어도 일부를 기초로 해당 구면 영상을 해당 평면 영상으로 변환하여 상기 현재 영상을 생성할 수 있다. 상기 현재 영상 생성부는 상기 구의 중심점의 이동 속도를 기초로 상기 복수의 이산적인 시야 방향정보들 중 적어도 일부를 선택할 수 있다.

상기 현재 오디오 생성부는 상기 복수의 이산적인 시야 방향정보들을 통해 결정된 사운드 방향성을 반영하여 상기 360도 오디오를 렌더링할 수 있다.

상기 현재 오디오 생성부는 상기 현재 영상과 연관된 기본 시야범위를 검출하고 상기 복수의 이산적인 시야 방향정보들을 통해 결정된 사운드 방향성을 상기 기본 시야범위에 적용하여 상기 360도 오디오를 렌더링할 수 있다.

상기 AV 동기화부는 상기 현재 영상과 상기 현재 오디오 간의 동기화 이상이 발생하면 상기 사용자 입력의 수신을 중단시킬 수 있다. 상기 AV 동기화부는 가장 최근에 동기화된 시야범위를 기초로 상기 현재 영상과 상기 오디오 영상을 재생할 수 있다.

개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

본 발명의 일 실시예에 따른 360도 영상 기반의 클라우드 오디오 렌더링 서버는 클라우드 서버에서 360도 영상에 사용자 입력을 반영하여 360도 오디오 렌더링을 수행할 수 있다.

본 발명의 일 실시예에 따른 360도 영상 기반의 클라우드 오디오 렌더링 서버는 사용자 입력을 기초로 시야범위를 결정하고, 시야 방향을 추적하여 복수의 이산적인 시야 방향 정보들을 제공할 수 있다.

본 발명의 일 실시예에 따른 360도 영상 기반의 클라우드 오디오 렌더링 서버는 시야범위의 변경에 따라 360도 오디오 공간을 추적할 수 있다.

도 1은 본 발명의 일 실시예에 따른 360도 영상 기반의 클라우드 오디오 렌더링 서버를 설명하는 도면이다.
도 2는 도 1에 있는 360도 영상 기반의 클라우드 오디오 렌더링 서버의 구성을 설명하는 도면이다.
도 3은 도 1에 있는 360도 영상 기반의 클라우드 오디오 렌더링 서버에서 수행되는 360도 영상 기반의 오디오 렌더링 방법을 설명하는 순서도이다.

본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.

도 1은 본 발명의 일 실시예에 따른 360도 영상 기반의 클라우드 오디오 렌더링 서버를 설명하는 도면이다.

여기에서, 도 1a에 있는 360도 영상 기반의 클라우드 오디오 렌더링 서버는 클라우드 서버를 기반으로 오디오 렌더링을 수행하는 것을 가정하였고, 도 1b에 있는 360도 영상 기반의 클라우드 오디오 렌더링 서버는 셋톱박스를 기반으로 오디오 렌더링을 수행하는 것을 가정하였으며, 도 1c에 있는 360도 영상 기반의 클라우드 오디오 렌더링 서버는 사용자 단말을 기반으로 오디오 렌더링을 수행하는 것을 가정하였다.

도 1a를 참조하면, 360도 영상 기반의 클라우드 오디오 렌더링 서버(10)는 콘텐츠 서버(100), 클라우드 서버(200), 셋톱박스(300), 콘텐츠 재생 장치(400) 및 입력장치(500)를 포함한다.

콘텐츠 서버(100)는 특정 콘텐츠를 저장할 수 있는 서버에 해당할 수 있다. 보다 구체적으로, 콘텐츠 서버(100)는 360도로 촬영된 영상 콘텐츠와 해당 360도 영상에 대응되는 오디오 콘텐츠를 저장할 수 있다. 일 실시예에서, 콘텐츠 서버(100)는 저장되어 있는 콘텐츠를 클라우드 서버(200)에 제공할 수 있다. 다른 일 실시예에서, 콘텐츠 서버(100)는 콘텐츠를 셋톱박스(300)에 제공할 수 있다. 또 다른 일 실시예에서, 콘텐츠 서버(100)는 클라우드 서버(200)와 셋톱박스(300)가 아닌 제 3의 장치에 해당하는 사용자 단말(600)에 제공할 수 있다.

클라우드 서버(200)는 가상 머신(Virtual Machine, VM)과 연결되어 콘텐츠 재생 장치(400)에 클라우드 컴퓨팅을 제공할 수 있는 가상 사설 서버로, 하나의 물리적 서버를 나누어 여러 개의 가상 사설 서버로 이용하는 가상화 기술로 구현될 수 있다. 보다 구체적으로, 클라우드 서버(200)는 복수의 가상 머신들을 구현할 수 있고, 복수의 가상 머신들을 통해 360도 영상 기반의 오디오 렌더링을 수행할 수 있다.

일 실시예에서, 클라우드 서버(200)는 콘텐츠 서버(100)로부터 콘텐츠를 수신할 수 있고, 수신 받은 콘텐츠에 대해 360도 영상 기반의 오디오 렌더링을 수행할 수 있다. 이하, 클라우드 서버(200)에서 360도 영상 기반의 오디오 렌더링을 수행하는 보다 상세한 설명은 도 2를 참조하여 설명한다.

셋톱박스(300)는 콘텐츠 재생 장치(400)와 전기적으로 연결될 수 있고, 입력장치(500)와 적어도 하나의 근거리 무선통신 방식을 통해 연결될 수 있다. 여기에서, 근거리 무선통신 방식은 적외선(infrared), 초광대역 통신(Ultra-Wideband), 블루투스(Bluetooth), 지그비(Ziegbee), 무선랜(Wireless LAN) 중에서 적어도 하나에 해당한다.

일 실시예에서, 셋톱박스(300)는 입력장치(500)를 통해 사용자 입력을 수신하여 클라우드 서버(200)에 제공할 수 있고, 클라우드 서버(200)는 제공받은 사용자 입력을 기초로 오디오 렌더링을 제어할 수 있다. 또한, 셋톱박스(300)는 클라우드 서버(200)로부터 수신한 콘텐츠를 콘텐츠 재생 장치(400)에 실시간으로 전송할 수 있다.

콘텐츠 재생 장치(400)는 셋톱박스(300)와 연결되어 클라우드 서버(200)로부터 수신한 콘텐츠를 표현할 수 있는 장치에 해당한다. 일 실시예에서, 콘텐츠 재생 장치(400)는 영상 콘텐츠와 오디오 콘텐츠를 동시에 표현할 수 있는 장치에 해당하고, 텔레비전(TV, Television)으로 구현될 수 있다. 다른 일 실시예에서, 콘텐츠 재생 장치(400)는 콘텐츠를 시각적으로 표현할 수 있는 비디오 재생 장치 또는 영상 재생 장치에 해당하고, 모니터로 구현될 수 있다. 또 다른 일 실시예에서, 콘텐츠 재생 장치(400)는 콘텐츠를 청각적으로 표현할 수 있는 오디오 재생 장치에 해당하고, 스피커로 구현될 수 있다.

입력장치(500)는 사용자에 의하여 조작되는 컴퓨팅 장치에 해당할 수 있다. 예를 들어, 입력장치(500)는 반드시 이에 한정되는 것은 아니나, 리모콘에 해당할 수 있다. 입력장치(500)는 셋톱박스(300)와 적외선(infrared), 초광대역 통신(Ultra-Wideband), 블루투스(Bluetooth), 지그비(Ziegbee), 무선랜(Wireless LAN) 중에서 선택된 적어도 하나의 근거리 무선통신 방식을 통해 연결될 수 있다.

일 실시예에서, 입력장치(500)는 셋톱박스(300)에 사용자 입력을 제공할 수 있고, 사용자 입력은 클라우드 서버(200)에 의해서 실행되고 있는 오디오 렌더링을 제어하는데 사용될 수 있다. 예를 들어, 입력장치(500)는 지정된 방향[상, 하, 좌, 우]으로 커서를 움직이도록 설계된 방향키들을 이용하여 셋톱박스(300)에 사용자 입력을 제공할 수 있다. 또 다른 예를 들어, 입력장치(500)는 사용자의 헤드 움직임에 의한 방향 정보를 사용자 입력 정보로 셋톱박스(300)에 제공할 수 있다.

도 1b를 참조하면, 360도 영상 기반의 클라우드 오디오 렌더링 서버(10)는 콘텐츠 서버(100), 셋톱박스(300), 콘텐츠 재생 장치(400) 및 입력장치(500)를 포함한다. 도 1b에서 보이는 것과 같이, 360도 영상 기반의 클라우드 오디오 렌더링 서버(10)는 클라우드 서버(200)를 포함하지 않는다. 보다 구체적으로, 도 1b의 360도 영상 기반의 클라우드 오디오 렌더링 서버(10)는 콘텐츠 서버(100)에 저장된 콘텐츠를 셋톱박스(300)에 제공할 수 있고, 셋톱박스(300)는 콘텐츠 서버(100)로부터 제공받은 콘텐츠에 대하여 오디오 렌더링을 수행할 수 있다. 즉, 도 1b의 셋톱박스(300)는 입력장치(500)로부터 사용자 입력을 수신하여 오디오 렌더링을 수행할 수 있다.

도 1c를 참조하면, 360도 영상 기반의 클라우드 오디오 렌더링 서버(10)는 콘텐츠 서버(100) 및 사용자 단말(600)을 포함한다. 사용자 단말(600)은 사용자에 의해 소유될 수 있고, 콘텐츠 서버(100)와 연결된 컴퓨팅 장치에 해당할 수 있다. 예를 들어, 사용자 단말(600)은 데스크톱, 노트북, 태블릿 PC(Tablet PC) 또는 스마트폰 등에 해당할 수 있다. 사용자 단말(600)은 콘텐츠 서버(100)로부터 전송되는 영상 또는 음향 정보를 수신할 수 있다.

도 1c에서 보이는 것과 같이, 360도 영상 기반의 클라우드 오디오 렌더링 서버(10)는 클라우드 서버(200), 셋톱박스(300), 콘텐츠 재생 장치(400) 및 입력장치(500)를 포함하지 않는다. 보다 구체적으로, 도 1c의 360도 영상 기반의 클라우드 오디오 렌더링 서버(10)는 콘텐츠 서버(100)에 저장된 콘텐츠를 사용자 단말(600)에 제공할 수 있고, 사용자 단말(600)은 콘텐츠 서버(100)로부터 제공받은 콘텐츠에 대하여 오디오 렌더링을 수행할 수 있다.

도 2는 도 1에 있는 360도 영상 기반의 클라우드 오디오 렌더링 서버의 구성을 설명하는 도면이다. 보다 구체적으로, 도 2는 도 1a에 있는 클라우드 서버(200)에서 360도 영상 기반의 오디오 렌더링을 수행하는 것으로 가정하고 설명한다.

도 2를 참조하면, 360도 영상 기반의 클라우드 오디오 렌더링 서버(10)는 시야범위 결정부(210), 현재 영상 생성부(220), 현재 오디오 생성부(230) 및 AV 동기화부(240)를 포함한다.

시야범위 결정부(210)는 입력장치(500) 또는 사용자 단말(600)을 통해 사용자로부터 입력되는 정보를 360도 영상에 제공할 수 있다. 보다 구체적으로, 시야범위 결정부(210)는 360도 영상으로 구성된 구(sphere)에 헤드 움직임 또는 4방향키들의 입력(RC Key data)을 수신할 수 있다. 예를 들어, 시야범위 결정부(210)는 리모콘의 경우, 구에 4방향의 버튼들을 통해 입력을 수신할 수 있다. 다른 예를 들어, 시야범위 결정부(210)는 눈에 안경을 착용하여 영상을 확인하는 경우, 구에 사용자의 머리 움직임을 통해 입력을 수신할 수 있다.

시야범위 결정부(210)는 사용자 입력을 기초로 360도 영상에 대한 시야범위(FOV, Field of View)를 결정할 수 있다. 시야범위 결정부(210)는 구에 사용자 입력을 수신하는 동안 구의 중심점에서 구의 내면을 바라보는 사용자의 시야 방향을 추적할 수 있다. 일 실시예에서, 시야 방향은 사용자의 동작 변화를 감지하거나 또는 4방향키에 의해 이동되는 커서의 위치를 기초로 실시간으로 추적할 수 있다. 예를 들어, 시야범위 결정부(210)는 360도 영상에서 오른쪽 상단에 커서가 위치하고 있다면 사용자의 시야 방향이 360도 영상의 오른쪽 상단에 위치하고 있음을 추적할 수 있다. 보다 구체적으로, 시야범위 결정부(210)는 시야 방향에 대한 이동 정보를 360도 영상에 반영하여 시야범위를 결정할 수 있다.

시야범위 결정부(210)는 시야 방향 정보를 기초로 복수의 이산적인 시야 방향 정보들을 360도 영상으로 구성된 구에 제공할 수 있다. 예를 들어, 복수의 이산적인 사야 방향 정보들은 영상의 재생 속도와 연관될 수 있고, 영상이 부드럽게 변경되거나 영상이 버벅되며 변경되는 정보에 해당할 수 있다. 일 실시예에서, 시야범위 결정부(210)는 클라우드 서버(200)의 현재 연산량을 기초로 이산 간격을 조절할 수 있다. 이산 간격은 아래의 [수학식 1]을 통해 조절할 수 있다.

[수학식 1]

(여기에서, 상기 S는 현재 CPU 점유율(%)을 의미하고, 상기 a 및 b는 기 설정된 값(상수))

시야범위 결정부(210)는 클라우드 서버(200)의 연산량을 고려하여 360도 영상에 사용자 입력을 제공하는 간격을 조절할 수 있다. 예를 들어, 시야범위 결정부(210)는 특정 시간 동안 클라우드 서버(200)의 활성 프로세스 개수가 많고 사용자 입력이 수신되는 주기가 짧은 경우 사용자 입력을 수신하는 이산 간격을 조절하여 360도 영상의 재생 속도를 제어할 수 있다.

현재 영상 생성부(220)와 현재 오디오 생성부(230)는 사용자 입력을 수신할 때마다 현재 영상을 생성할 수 있고, 생성된 현재 영상에 대응하는 현재 오디오도 함께 생성할 수 있다.

이하, 현재 영상 생성부(220)를 설명한다.

현재 영상 생성부(220)는 360도 영상에서 사용자의 시야범위와 연관된 현재 영상을 생성할 수 있다. 보다 구체적으로, 현재 영상 생성부(220)는 복수의 이산적인 시야 방향정보들 중 적어도 일부를 기초로 해당 구면 영상을 해당 평면 영상으로 변환할 수 있다. 즉, 현재 영상 생성부(220)는 구의 내면에 있는 구면 영상을 평면 영상으로 워핑할 수 있다. 여기에서, 영상 워핑(Warping)은 입력된 영상을 특정 규칙에 따라 리샘플링(Resampling)하는 작업을 의미한다.

일 실시예에서, 현재 영상 생성부(220)는 사용자 입력에 따라 360도 영상으로 구성된 구를 회전시키면서 구면 영상을 시각화할 수 있다. 보다 구체적으로, 현재 영상 생성부(220)는 사용자가 바라보는 360도 영상으로 구성된 구의 내면에 해당하는 영상에 대해 평면 변환 작업을 수행할 수 있고, 현재 영상 생성부(220)는 변환된 평면 영상을 현재 영상으로 생성할 수 있다. 즉, 현재 영상 생성부(220)는 사용자의 시선 또는 4방향키의 커서 위치에 해당하는 구면 영상을 평면 영상으로 워핑함으로써 사용자의 가시성(Visibility)을 향상시킬 수 있다.

현재 영상 생성부(220)는 구의 중심점의 이동 속도를 기초로 복수의 이산적인 시야 방향정보들 중 적어도 일부를 선택할 수 있다. 일 실시예에서, 현재 영상 생성부(220)는 구의 중심점의 이동 속도가 빠르면 느리게 이동하는 시야 방향정보를 선택할 수 있다. 다른 일 실시예에서, 현재 영상 생성부(220)는 구의 중심점의 이동 속도가 느리면 빠르게 이동하는 시야 방향정보를 선택할 수 있다. 예를 들어, 현재 영상 생성부(220)는 사용자가 머리를 여러 방향으로 움직이다가 마지막으로 사용자가 멈춘 방향에 대응되는 구면 영상을 평면 영상으로 변환하여 현재 영상으로 생성할 수 있다.

이하, 현재 오디오 생성부(230)를 설명한다.

현재 오디오 생성부(230)는 사용자 입력을 기초로 360도 오디오를 렌더링할 수 있다. 보다 구체적으로, 현재 오디오 생성부(230)는 현재 비디오 생성부(220)가 수신하는 사용자의 헤드 움직임 또는 4방향키들의 입력과 동일한 사용자 입력을 수신할 수 있고, 수신 받은 사용자 입력 정보를 기초로 현재 360도 영상에 대응되는 360도 오디오 렌더링을 수행할 수 있다.

일 실시예에서, 현재 오디오 생성부(230)는 복수의 이산적인 시야 방향정보들을 통해 사운드 방향성을 결정할 수 있다. 예를 들어, 현재 오디오 생성부(230)는 360도 영상에 대한 사용자 시야 방향이 오른쪽으로 이동하면 오른쪽에서 오디오가 출력되도록 할 수 있다. 또 다른 예를 들어, 현재 오디오 생성부(230)는 360도 영상에 대한 사용자 시야 방향이 왼쪽으로 이동하면 왼쪽에서 오디오가 출력되도록 할 수 있다. 보다 구체적으로, 현재 오디오 생성부(230)는 결정된 사운드 방향성을 360도 영상에 반영하여 360도 오디오를 렌더링할 수 있다.

다른 일 실시예에서, 현재 오디오 생성부(230)는 현재 영상과 연관된 기본 시야범위를 검출할 수 있다. 여기에서, 기본 시야범위는 360도 영상에 사용자 입력이 제공되지 않은 시야범위에 해당한다. 예를 들어, 사용자의 시야 방향은 영상의 오른쪽 상단이지만 기본 시야범위는 왼쪽 하단에 해당할 수 있다. 즉, 기본 시야범위는 사용자의 시선이 향하고 있는 방향과 무관한 범위에 해당할 수 있다.

보다 구체적으로, 현재 오디오 생성부(230)는 복수의 이산적인 시야 방향정보들을 통해 결정된 사운드 방향성을 기본 시야범위에 적용하여 상기 360도 오디오를 렌더링할 수 있다. 예를 들어, 현재 오디오 생성부(230)는 현재 영상과 연관된 기본 시야범위에서 사용자의 시야 방향이 가까워지고 있는지 또는 멀어지고 있는지를 추적할 수 있다.

다른 예를 들어, 현재 오디오 생성부(230)는 기본 시야범위가 오른쪽 상단에 위치하고 있는지, 왼쪽 하단에 위치하고 있는지 또는 제 3의 장소에 위치하고 있는지를 추적할 수 있다. 현재 오디오 생성부(230)는 기본 시야범위가 오른쪽 상단에 해당하고 사운드 방향성이 왼쪽 상단에 해당하는 경우 기본 시야범위에 사운드 방향성을 적용하여 기본 시야범위에서 오디오가 출력될 수 있도록 360도 오디오를 렌더링할 수 있다.

AV 동기화부(240)는 현재 영상과 현재 오디오 간의 동기화를 수행할 수 있다. 보다 구체적으로, AV 동기화부(240)는 사용자 입력에 따라 현재 영상 생성부(220)를 통해 생성된 현재 영상과 현재 오디오 생성부(230)를 통해 생성된 현재 오디오를 동기화할 수 있다. 예를 들어, AV 동기화부(240)는 왼쪽 하단의 영상이 현재 영상에 해당하면 해당 영상에 대해 오디오 렌더링을 수행할 수 있다. 이러한 과정을 통해 왼쪽 하단의 현재 영상에 대응되는 현재 오디오가 출력될 수 있다.

일 실시예에서, AV 동기화부(240)는 현재 영상과 현재 오디오 간의 동기화 이상이 발생하는 것을 감지할 수 있다. AV 동기화부(240)는 현재 영상의 재생 속도와 현재 오디오의 재생 속도를 비교할 수 있고, 비교결과를 기초로 동기화 이상 발생을 파악할 수 있다. 보다 구체적으로, AV 동기화부(240)는 동기화 이상이 발생하는 경우 사용자 입력의 수신을 중단할 수 있다. 예를 들어, AV 동기화부(240)는 사용자 입력의 수신을 중단하고 현재 영상과 현재 오디오 간의 싱크를 조절할 수 있다. 즉, AV 동기화부(240)는 영상보다 오디오가 느리게 재생되는 경우 현재 영상에 대한 현재 오디오의 지연 시간을 조정할 수 있다.

다른 일 실시예에서, AV 동기화부(240)는 가장 최근에 동기화된 시야범위를 기초로 현재 영상과 오디오 영상을 재생할 수 있다. 보다 구체적으로, AV 동기화부(240)는 동기화 이상을 발생하기 이전의 정상적으로 동기화가 이루어진 현재 영상과 오디오 영상을 콘텐츠 재생 장치(400)를 통해 재생할 수 있다.

도 3은 도 1에 있는 360도 영상 기반의 클라우드 오디오 렌더링 서버에서 수행되는 360도 영상 기반의 오디오 렌더링 방법을 설명하는 순서도이다.

도 3에서, 시야범위 결정부(210)는 360도 영상에 사용자 입력을 제공할 수 있다. 시야범위 결정부(210)는 입력장치(500)를 통해 사용자에 의하여 입력되는 정보를 360도 영상에 제공할 수 있다. 보다 구체적으로, 시야범위 결정부(210)는 사용자 입력을 기초로 360도 영상에 대한 시야범위를 결정할 수 있다(단계 S310).

현재 영상 생성부(220)는 시야범위와 연관된 현재 영상을 생성할 수 있다. 보다 구체적으로, 현재 영상 생성부(220)는 사용자 입력을 기초로 결정된 시야범위를 이용하여 현재 영상을 생성할 수 있다(단계 S320).

현재 오디오 생성부(230)는 현재 영상 생성부(220)가 수신하는 사용자 입력과 동일한 정보를 수신할 수 있다. 현재 오디오 생성부(230)는 사용자 입력을 기초로 360도 오디오를 렌더링할 수 있다. 보다 구체적으로, 현재 오디오 생성부(230)는 360도 현재 영상에 대응되는 360도 오디오 렌더링을 수행할 수 있다.

AV 동기화부(240)는 현재 영상과 현재 오디오 간의 동기화를 수행할 수 있다. AV 동기화부(240)는 현재 영상의 영역에 해당하는 오디오가 출력될 수 있도록 동기화할 수 있다. 예를 들어, AV 동기화부(240)는 현재 영상에 해당하는 오디오 음량이 현재 영상이 아닌 다른 영상에 해당하는 오디오 음량보다 크게 들릴 수 있도록 조절할 수 있다. 보다 구체적으로, AV 동기화부(240)는 현재 360도 영상의 변화에 따라 현재 360도 오디오도 변화시킬 수 있다. 즉, 360도 영상 기반의 클라우드 오디오 렌더링 서버(10)는 사용자 입력을 기초로 현재 영상과 현재 오디오를 생성할 수 있고, 생성된 현재 영상의 오디오를 렌더링할 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

10: 360도 영상 기반의 클라우드 오디오 렌더링 서버
100: 콘텐츠 서버 200: 클라우드 서버
210: 시야범위 결정부 220: 현재 영상 생성부
230: 현재 오디오 생성부 240: AV 동기화부
300: 셋톱박스 400: 콘텐츠 재생 장치
500: 입력장치 600: 사용자 단말

Claims

360도 영상에 방향을 제시하는 사용자 입력을 수신하여 상기 360도 영상의 시야범위(FOV, Field of View)를 결정하는 시야범위 결정부;
상기 360도 영상에서 상기 시야범위와 연관된 현재 영상을 생성하는 현재 영상 생성부;
상기 사용자 입력에 의해 결정되는 사운드 방향성을 기초로 360도 오디오를 렌더링하여 현재 오디오를 생성하는 현재 오디오 생성부; 및
상기 사용자 입력이 발생될 때마다 상기 현재 영상과 상기 현재 오디오 간의 동기화를 수행하는 AV (Audio & Video) 동기화부를 포함하는 360도 영상 기반의 클라우드 오디오 렌더링 서버.
제1항에 있어서, 상기 시야범위 결정부는
상기 360도 영상으로 구성된 구(sphere)에 헤드 움직임 또는 4 방향키들의 입력을 수신하는 동안 상기 구의 중심점에서 상기 구의 내면을 바라보는 시야 방향을 추적하여 복수의 이산적인 시야 방향 정보들을 제공하는 것을 특징으로 하는 360도 영상 기반의 클라우드 오디오 렌더링 서버.
제2항에 있어서, 상기 현재 영상 생성부는
상기 복수의 이산적인 시야 방향정보들 중 적어도 일부를 기초로 해당 구면 영상을 해당 평면 영상으로 변환하여 상기 현재 영상을 생성하는 것을 특징으로 하는 360도 영상 기반의 클라우드 오디오 렌더링 서버.
제3항에 있어서, 상기 현재 영상 생성부는
상기 구의 중심점의 이동 속도를 기초로 상기 복수의 이산적인 시야 방향정보들 중 적어도 일부를 선택하는 것을 특징으로 하는 360도 영상 기반의 클라우드 오디오 렌더링 서버.
제2항에 있어서, 상기 현재 오디오 생성부는
상기 복수의 이산적인 시야 방향정보들을 통해 결정된 상기 사운드 방향성을 반영하여 상기 360도 오디오를 렌더링하는 것을 특징으로 하는 360도 영상 기반의 클라우드 오디오 렌더링 서버.
제5항에 있어서, 상기 현재 오디오 생성부는
상기 현재 영상과 연관된 기본 시야범위를 검출하고 상기 복수의 이산적인 시야 방향정보들을 통해 결정된 사운드 방향성을 상기 기본 시야범위에 적용하여 상기 360도 오디오를 렌더링하는 것을 특징으로 하는 360도 영상 기반의 클라우드 오디오 렌더링 서버.
제1항에 있어서, 상기 AV 동기화부는
상기 현재 영상과 상기 현재 오디오 간의 동기화 이상이 발생하면 상기 사용자 입력의 수신을 중단시키는 것을 특징으로 하는 360도 영상 기반의 클라우드 오디오 렌더링 서버.
제7항에 있어서, 상기 AV 동기화부는
가장 최근에 동기화된 시야범위를 기초로 상기 현재 영상과 상기 현재 오디오를 재생하는 것을 특징으로 하는 360도 영상 기반의 클라우드 오디오 렌더링 서버.