KR102613032B1

KR102613032B1 - 사용자의 시야 영역에 매칭되는 뎁스맵을 바탕으로 양안 렌더링을 제공하는 전자 장치의 제어 방법

Info

Publication number: KR102613032B1
Application number: KR1020220153507A
Authority: KR
Inventors: 장경익
Original assignee: 주식회사 지디에프랩
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-12-12

Abstract

전자 장치의 제어 방법이 개시된다. 본 제어 방법은, 기설정된 시야 범위에 대응되는 단안(monocular) 이미지 데이터를 포함하는 스트리밍 데이터를 수신하는 단계, 사용자의 안구 방향을 추적하여 기설정된 시야 범위 내 사용자의 시야 영역을 식별하는 단계, 단안 이미지 데이터 중 식별된 시야 영역의 적어도 일부에 매칭되는 대상 이미지 데이터를 선택하는 단계, 단안 이미지 데이터를 바탕으로 뎁스맵(depth map)을 획득하는 단계, 뎁스맵을 바탕으로 대상 이미지 데이터를 변환하여, 양안(binocular) 이미지 데이터를 획득하는 단계, 양안 이미지 데이터를 구성하는 좌안 이미지 및 우안 이미지 각각을 출력하는 단계를 포함한다.

Description

사용자의 시야 영역에 매칭되는 뎁스맵을 바탕으로 양안 렌더링을 제공하는 전자 장치의 제어 방법 { CONTROL METHOD OF ELECTRONIC APPARATUS FOR PROVIDING BINOCULAR RENDERING BASED ON DEPTH MAP MATCHING FIELD OF VIEW OF USER }

본 개시는 양안 렌더링을 제공하는 전자 장치의 제어 방법에 관한 것으로, 보다 상세하게는, 기설정된 시야 범위에 대해 제공되는 영상을 제공하는 중 감지되는 사용자의 시야 영역을 바탕으로 양안 렌더링을 제공하는 전자 장치의 제어 방법에 관한 것이다.

AR/VR 콘텐츠의 모바일 트래픽 비용은 사업자와 사용자 모두에게 부담으로 작용하고 있으며, 이로 인해 5G 시대의 서비스 및 정보 격차가 커지고 있다.

특히, 일반적으로 사용되는 소비자 기기(PC, 스마트폰)에서 초고화질 실감형 콘텐츠를 실시간 재생하기 어려움은 물론, VR 콘텐츠의 특성상 일반 영상 대비 6배 정도 많은 양의 픽셀 처리가 필요한 바 통신 환경은 물론 엣지 디바이스의 사양 면(ex. 고가의 GPU 장비 필요)에서 한계가 있는 실정이다.

이러한 기술적 문제는, 3D 영상 등 좌안과 우안 각각의 이미지를 렌더링해야 하는 경우 더욱 심화된다.

등록 특허 공보 제10-1965746호

본 개시는 스트리밍 중 실시간으로 감지되는 사용자의 시야 영역에 대해 선택적으로 양안 이미지를 생성하여 3D 영상을 제공하는 전자 장치의 제어 방법을 제공한다.

본 개시의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 개시의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 개시의 실시 예에 의해 보다 분명하게 이해될 것이다. 또한, 본 개시의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 기설정된 시야 범위에 대응되는 단안(monocular) 이미지 데이터를 포함하는 스트리밍 데이터를 수신하는 단계, 사용자의 안구 방향을 추적하여 상기 기설정된 시야 범위 내 사용자의 시야 영역을 식별하는 단계, 상기 단안 이미지 데이터 중 상기 식별된 시야 영역의 적어도 일부에 매칭되는 대상 이미지 데이터를 선택하는 단계, 상기 단안 이미지 데이터를 바탕으로 뎁스맵(depth map)을 획득하는 단계, 상기 뎁스맵을 바탕으로 상기 대상 이미지 데이터를 변환하여, 양안(binocular) 이미지 데이터를 획득하는 단계, 상기 양안 이미지 데이터를 구성하는 좌안 이미지 및 우안 이미지 각각을 출력하는 단계를 포함한다.

상기 뎁스맵을 획득하는 단계는, 상기 식별된 시야 영역의 적어도 일부에 매칭되는 상기 대상 이미지 데이터의 뎁스맵을 획득할 수 있다. 상기 양안 이미지 데이터를 획득하는 단계는, 상기 단안 이미지 데이터 중 상기 대상 이미지 데이터를 상기 뎁스맵에 따라 변환하여 좌안 이미지 또는 우안 이미지를 생성할 수 있다.

이때, 상기 뎁스맵을 획득하는 단계는, 고해상도 복원을 수행하도록 훈련된 인공지능 모델에 상기 대상 이미지 데이터를 입력하여, 복원 이미지 데이터를 획득하고, 뎁스 정보를 추정하도록 훈련된 인공지능 모델에 상기 복원 이미지 데이터를 입력하여, 뎁스맵을 획득할 수 있다.

또한, 상기 뎁스맵을 획득하는 단계는, 상기 단안 이미지 데이터를 구성하는 복수의 이미지 프레임 중 일정 시간 간격의 이미지 프레임들을 선택하고, 상기 선택된 이미지 프레임들 각각의 뎁스맵을 바탕으로 시간 축 상의 보간(interpolation)을 수행하여, 상기 선택된 이미지 프레임들 각각의 사이에 위치하는 적어도 하나의 이미지 프레임의 뎁스맵을 생성할 수도 있다.

이 경우, 상기 사용자의 시야 영역을 식별하는 단계는, 기설정된 주기에 따라 상기 사용자의 안구 방향을 추적하여 시야 영역을 감지할 수 있다. 그리고, 상기 뎁스맵을 획득하는 단계는, 상기 단안 이미지 데이터 중, 상기 시야 영역이 감지된 시점을 기준으로 상기 기설정된 주기에 해당하는 시간 구간 동안 재생되는 복수의 이미지 프레임을 식별하고, 상기 식별된 복수의 이미지 프레임 중 일정 시간 간격의 이미지 프레임들을 선택하고, 상기 선택된 이미지 프레임들 각각에 대하여 상기 시야 영역의 적어도 일부에 매칭되는 대상 이미지 데이터의 뎁스맵을 획득하고, 상기 선택된 이미지 프레임들 각각의 뎁스맵을 바탕으로 시간 축 상의 보간을 수행하여, 상기 선택된 이미지 프레임들 각각의 사이에 위치하는 적어도 하나의 이미지 프레임의 뎁스맵을 생성할 수 있다. 그리고, 상기 양안(binocular) 이미지 데이터를 획득하는 단계는, 상기 식별된 복수의 이미지 프레임 각각의 뎁스맵을 바탕으로 상기 복수의 이미지 프레임 각각의 양안 이미지 데이터를 획득할 수 있다.

한편, 상기 양안 이미지 데이터를 획득하는 단계는, 고해상도 복원을 수행하도록 훈련된 인공지능 모델에 상기 대상 이미지 데이터를 입력하여, 복원 이미지 데이터를 획득하고, 상기 뎁스맵을 바탕으로, 상기 복원 이미지 데이터에 매칭되는 양안 이미지 데이터를 획득할 수 있다.

이때, 상기 양안 이미지 데이터를 획득하는 단계는, 상기 사용자의 좌안 및 우안이 나열된 시선 수평 방향을 감지하고, 상기 뎁스맵에 포함된 픽셀 별 뎁스를 바탕으로, 상기 복원 이미지 데이터의 픽셀마다 상기 시선 수평 방향에 따른 와핑을 수행하고, 상기 와핑에 따라 발생한 빈 픽셀에 대하여 보간을 수행할 수도 있다.

본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 기설정된 시야 범위에 대응되는 단안(monocular) 이미지 데이터 및 상기 단안 이미지 데이터의 뎁스맵을 포함하는 스트리밍 데이터를 수신하는 단계, 사용자의 안구 방향을 추적하여 상기 기설정된 시야 범위 내 사용자의 시야 영역을 식별하는 단계, 상기 단안 이미지 데이터 중 상기 식별된 시야 영역의 적어도 일부에 매칭되는 대상 이미지 데이터를 선택하는 단계, 상기 뎁스맵을 바탕으로 상기 대상 이미지 데이터를 변환하여, 양안(binocular) 이미지 데이터를 획득하는 단계, 상기 양안 이미지 데이터를 구성하는 좌안 이미지 및 우안 이미지 각각을 출력하는 단계를 포함한다.

본 개시에 따른 전자 장치의 제어 방법은, 스트리밍 과정에서 데이터 전송량 및 로드를 최소화하면서도 실시간으로 감지되는 사용자의 시야 영역에 최적화된 3D 영상을 실감나게 제공할 수 있다는 장점이 있다.

도 1은 본 개시의 일 실시 예에 따라 이미지 데이터의 스트리밍 서비스를 제공하기 위한 서버 및 전자 장치의 개략적인 동작을 설명하기 위한 블록도,
도 2a는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도,
도 2b는 본 개시의 일 실시 예에 따른 서버의 구성을 설명하기 위한 블록도,
도 3은 본 개시의 일 실시 예에 따른 전자 장치의 동작을 설명하기 위한 흐름도,
도 4는 본 개시의 일 실시 예에 따른 전자 장치가 사용자의 시야 영역을 구분하는 동작을 설명하기 위한 도면,
도 5는 본 개시의 일 실시 예에 따른 전자 장치가 시야 영역에 대해 선택적으로 고해상도 복원을 수행한 이후 뎁스맵을 바탕으로 양안 영상을 생성하는 동작을 설명하기 위한 블록도,
도 6은 본 개시의 일 실시 예에 따른 전자 장치가 낮은 프레임률에 따라 각 이미지 프레임의 뎁스맵을 생성하되, 생성된 뎁스맵을 바탕으로 보간을 수행하여 높은 프레임률의 뎁스맵을 획득하는 동작을 설명하기 위한 도면,
도 7은 본 개시의 일 실시 예에 따른 전자 장치가 단안 이미지 및 뎁스맵을 포함하는 스트리밍 데이터를 수신하는 경우의 동작을 설명하기 위한 흐름도, 그리고
도 8은 본 개시의 다양한 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.

본 개시에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.

먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다. 하지만, 이러한 용어들은 당해 기술 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.

또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성요소를 모두 도시되어 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다.

또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 "제1", "제2" 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성요소들을 서로 구별하기 위하여 사용하는 것이며 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안 된다. 일 예로, 이러한 서수와 결합된 구성요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한되어서는 안 된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.

본 명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 개시의 실시 예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.

또한, 본 개시의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

도 1은 본 개시의 일 실시 예에 따라 이미지 데이터의 스트리밍 서비스를 제공하기 위한 서버 및 전자 장치의 개략적인 동작을 설명하기 위한 블록도이다.

전자 장치(100)는 서버(200)와의 통신을 바탕으로 다양한 이미지를 제공할 수 있다. 전자 장치(100)는 스마트폰, 태블릿 PC, TV, VR 기기, AR 기기, 웨어러블 장치(ex. 글래스, 워치, HMD(Head Mounted Device) 등), 콘솔 기기, 셋탑 박스, 기타 제어 기기 등으로 구현될 수 있다.

서버(200)는 스트리밍 서비스를 지원함으로써 전자 장치(100)를 통해 이미지를 제공할 수 있다. 서버(200)는 하나 이상의 컴퓨터를 포함하는 시스템으로 구현될 수 있다. 서버(200)는 VR 콘텐츠, AR 콘텐츠, 2D 콘텐츠, 3D 콘텐츠 등 다양한 콘텐츠를 구성하는 이미지 데이터를 스트리밍 데이터의 형태로 전자 장치(100)로 전송할 수 있다. 서버(200)는 방송, 게임, 관광, 엔터테인먼트, IoT 모니터링, 군(military), 의료, CCTV, 메타버스 등 다양한 분야의 콘텐츠에 대한 스트리밍 서비스를 제공할 수 있다.

이때, 전자 장치(100)가 스트리밍 데이터에 포함된 이미지 데이터를 출력함으로써 실시간 영상이 제공될 수 있다. 예를 들어, 전자 장치(100)가 디스플레이를 포함하는 VR 기기(ex. HMD) 등으로 구현된 경우, 전자 장치(100)는 서버(200)로부터 수신된 이미지 데이터를 바탕으로 일정 시야 범위(ex. 360도)의 VR 영상을 디스플레이 할 수 있다. 또는, 전자 장치(100)가 VR 기기를 제어하는 제어 기기로 구현된 경우, 전자 장치(100)는 서버(200)로부터 수신된 이미지 데이터를 VR 기기로 전송하여 VR 기기를 통해 VR 영상이 제공되도록 제어할 수도 있다.

전자 장치(100)가 HMD로 구현된 경우, 전자 장치(100)는 좌안에 보여지는 좌안 이미지 및 우안에 보여지는 우안 이미지를 각각 표시하여 제공할 수도 있다.

도 2a는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.

도 2a를 참조하면, 전자 장치(100)는 메모리(110), 프로세서(120), 통신부(130)를 포함할 수 있다. 또한, 전자 장치(100)는 디스플레이(140) 및 센서부(150) 중 적어도 하나를 추가로 포함할 수도 있다.

메모리(110)는 전자 장치(100)의 구성요소들의 전반적인 동작을 제어하기 위한 운영체제(OS: Operating System) 및 전자 장치(100)의 구성요소와 관련된 적어도 하나의 인스트럭션 또는 데이터를 저장하기 위한 구성이다.

메모리(110)는 ROM, 플래시 메모리 등의 비휘발성 메모리를 포함할 수 있으며, DRAM 등으로 구성된 휘발성 메모리를 포함할 수 있다. 또한, 메모리(110)는 하드 디스크, SSD(Solid state drive) 등을 포함할 수도 있다.

일 실시 예로, 메모리(110)는 이미지를 분석하여 뎁스 정보를 생성하도록 훈련된 적어도 하나의 인공지능 모델을 포함할 수 있다. 뎁스 정보는, 각 픽셀의 거리를 나타내는 뎁스 값을 포함할 수 있으며, 픽셀들 각각의 뎁스 값이 포함된 뎁스맵(depth map)을 포함할 수 있다.

일 예로, 본 인공지능 모델은, 서로 다른 레이어에 속하는 노드 간의 가중치가 업데이트됨에 따라 훈련되는 신경망 모델에 해당할 수 있으며, 하나 이상의 컨볼루션 레이어를 포함하는 딥러닝 방식의 CNN(Convolutional Neural Network) 모델에 해당할 수 있으나, 이에 한정되지 않는다.

구체적으로, 본 인공지능 모델은, 적어도 하나의 이미지가 입력되면 해당 이미지를 구성하는 각 픽셀의 뎁스 값을 출력할 수 있다. 이를 위해, 본 인공지능 모델은, 적어도 하나의 객체/장면이 RGB 카메라 및 뎁스 카메라 각각에 의해 촬영된 RGB 이미지 및 뎁스 이미지(: 뎁스맵) 각각을 바탕으로 훈련된 것일 수 있다. 본 인공지능 모델은 전자 장치(100) 상에서 훈련된 것일 수도 있고, 서버(200) 등 외부 장치에서 훈련된 것일 수도 있다.

프로세서(120)는 전자 장치(100)를 전반적으로 제어하기 위한 구성이다.

구체적으로, 프로세서(120)는 메모리(110)와 연결되는 한편 메모리(110)에 저장된 적어도 하나의 인스트럭션을 실행함으로써 본 개시의 다양한 실시 예들에 따른 동작을 수행할 수 있다.

프로세서(120)는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit) 등과 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서 등을 포함할 수 있다. 인공지능 전용 프로세서는, 특정 인공지능 모델의 훈련 내지는 이용에 특화된 하드웨어 구조로 설계될 수 있다.

프로세서(120)는 시야 영역 추출 모듈(121), 뎁스맵 생성 모듈(122), 양안 영상 생성 모듈(123), 디스플레이 모듈(124) 등을 제어할 수 있다. 본 모듈들은 기능적으로 정의된 모듈들에 해당하며 각 모듈은 소프트웨어 및/또는 하드웨어를 통해 구현될 수 있다.

시야 영역 추출 모듈(121)은 사용자의 안구 방향을 추적하여 사용자의 시야 영역을 식별하기 위한 구성이다. 시야 영역 추출 모듈(121)은 기설정된 시야 범위(ex. 360도) 내에서 사용자가 바라보는 방향에 기초하여 사용자의 시야 영역을 추출할 수 있다.

예를 들어, 전자 장치(100)가 HMD 형태의 VR 기기인 경우, 시야 영역 추출 모듈(121)은 적어도 하나의 이미지 센서, 적외선 선세 등을 통해 사용자의 안구를 촬영함으로써 동공을 추적할 수 있다. 이때, 시야 영역 추출 모듈(121)은 동공의 위치를 바탕으로 사용자가 바라보는 방향을 식별함으로써, 사용자의 시야 영역을 획득할 수 있다. 구체적인 예로, 시야 영역 추출 모듈(121)은 사용자가 바라보는 방향을 중심으로 기설정된 시야각(ex. 30도, 45도, 60도 등) 범위를 사용자의 시야 영역으로 획득할 수 있으나, 이에 한정되지 않는다.

다른 예로, 시야 영역 추출 모듈(121)은 중력 센서, 자이로 센서 중 적어도 하나를 바탕으로 사용자가 착용한 HMD의 자세(: 방향)를 식별할 수 있으며, HMD가 향하는 방향을 사용자가 바라보는 방향으로 식별할 수도 있다.

전자 장치(100)가 HMD 형태의 VR 기기인 경우, 시야 영역 추출 모듈(121)은 전자 장치(100)의 센서부(150)에 구비된 적어도 하나의 센서(ex. 이미지 센서)를 통해 시야 영역을 추출할 수 있다. 반면, 전자 장치(100)가 VR 기기를 제어하는 제어 기기인 경우, 시야 영역 추출 모듈(121)은 통신부(130)를 통해 VR 기기의 센서부(ex. 이미지 센서)와 통신을 수행하여 사용자가 바라보는 시야 영역을 추출할 수 있다.

뎁스맵 생성 모듈(122)은 입력된 이미지의 픽셀 별 뎁스 값을 추정하여 뎁스맵을 생성하기 위한 모듈이다.

뎁스맵 생성 모듈(122)은 다양한 알고리즘을 바탕으로 이미지를 분석하여 뎁스맵을 획득할 수 있다. 구체적으로, 뎁스맵 생성 모듈(122)은 객체의 그림자를 이용하는 방식으로 이미지 내 객체의 어두운 부분은 멀리 있고 밝은 부분은 가까이 있는 것으로 판단하여 픽셀 별 뎁스 값을 추정할 수 있다. 또한, 뎁스맵 생성 모듈(122)은 이미지 내 영역 별 대비(contrast)를 바탕으로 선명한 물체는 앞에 있고 흐린 물체는 뒤에 있는 것으로 판단하여 뎁스 값을 추정할 수도 있다. 또한, 뎁스맵 생성 모듈(122)은 오브젝트 패턴(Pattern)을 이용하는 방식으로 동일 유형의 패턴이 연속되어 나올 경우 패턴의 크기가 큰 것이 작은 것보다 앞에 있는 것으로 판단하여 픽셀 별 뎁스 값을 추정할 수도 있다. 또한, 뎁스맵 생성 모듈(122)은 연속되는 전후 이미지 프레임 내에 포함된 객체의 모션 특징을 바탕으로 뎁스 값을 추정할 수도 있다.

일 실시 예로, 뎁스맵 생성 모듈(122)은 서버(200)로부터 수신된 단안 이미지 데이터의 적어도 일부에 매칭되는 뎁스맵을 생성할 수 있다. 이때, 뎁스맵 생성 모듈(122)은 단안 이미지 데이터 전체에 대하여 뎁스맵을 생성할 수도 있고, 단안 이미지 데이터 중 사용자의 시야 영역에 매칭되는 대상 이미지 데이터에 대해서만 뎁스맵을 생성할 수도 있다.

양안 영상 생성 모듈(123)은 좌안 이미지 및 우안 이미지를 각각 포함하는 양안 영상을 생성하기 위한 모듈이다.

양안 영상 생성 모듈(123)은 단안 이미지 데이터 및 그에 매칭되는 뎁스맵을 바탕으로 좌안 이미지 또는 우안 이미지를 획득할 수 있다.

구체적으로, 양안 영상 생성 모듈(123)은 픽셀 별 뎁스 값을 바탕으로 좌안 이미지 및 우안 이미지 간의 시차를 구현하기 위한 와핑(warping)을 수행할 수 있으며, 와핑에 따라 비게 된 픽셀 부분에 대해서는 주변 픽셀의 값을 바탕으로 보간(interpolation)을 수행하는 등의 방식으로 좌안 이미지 또는 우안 이미지를 획득할 수 있다. 예를 들어, 이러한 방식으로 좌안 이미지가 생성된 경우, 우안 이미지는 기존의 단안 이미지 데이터를 그대로 포함할 수도 있다.

디스플레이 모듈(124)은 스트리밍에 따라 획득된 이미지 데이터를 시각적으로 출력하기 위한 구성이다. 디스플레이 모듈(124)은 전자 장치(100)의 디스플레이(140)를 통해 영상을 출력할 수도 있고, 전자 장치(100)와 연결된 적어도 하나의 디스플레이 장치를 제어함으로써 영상 출력을 지원할 수도 있다.

일 실시 예로, 디스플레이 모듈(124)은 뎁스맵에 따라 생성된 양안 이미지 데이터를 시각적으로 출력할 수 있으며, 이때, 좌안 이미지 및 우안 이미지는 각각 별도의 디스플레이 영역에 표시될 수도 있다.

통신부(130)는 다양한 유무선 통신방식으로 적어도 하나의 외부 장치와 통신을 수행하기 위한 구성으로, 다양한 통신 방식에 매칭되는 회로, 모듈, 칩 등을 포함할 수 있다.

통신부(130)는 다양한 네트워크를 통해 외부 장치들과 연결될 수 있다.

네트워크는 영역 또는 규모에 따라 개인 통신망(PAN; Personal Area Network), 근거리 통신망(LAN; Local Area Network), 광역 통신망(WAN; Wide Area Network) 등일 수 있으며, 네트워크의 개방성에 따라 인트라넷(Intranet), 엑스트라넷(Extranet), 또는 인터넷(Internet) 등일 수 있다.

통신부(130)는 LTE(long-term evolution), LTE-A(LTE Advance), 5G(5th Generation) 이동통신, CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), GSM(Global System for Mobile Communications), DMA(Time Division Multiple Access), WiFi(Wi-Fi), WiFi Direct, Bluetooth, NFC(near field communication), Zigbee 등 다양한 무선 통신 방식을 통해 외부 장치들과 연결될 수 있다.

또한, 통신부(130)는 이더넷(Ethernet), 광 네트워크(optical network), USB(Universal Serial Bus), 선더볼트(ThunderBolt) 등의 유선 통신 방식을 통해 외부 장치들과 연결될 수도 있다.

이 밖에도, 통신부(130)는 통상적으로 이용되는 다양한 통신 방식을 통해 외부 장치와 통신을 수행할 수 있다.

전자 장치(100)는 통신부(130)를 통해 서버(200)로부터 실시간 스트리밍 데이터를 수신할 수 있다. 스트리밍 데이터는 단안 이미지 데이터를 포함할 수 있다.

또한, 전자 장치(100)는 통신부(130)를 통해 서버(200)로부터 적어도 하나의 인공지능 모델의 데이터를 수신할 수 있다. 이때, 뎁스 정보(: 뎁스맵)를 생성하기 위한 인공지능 모델, 고해상도 복원을 수행하기 위한 인공지능 모델 등 다양한 모델에 대한 데이터가 수신될 수 있다. 인공지능 모델의 데이터는, 인공지능 모델을 구성하는 가중치에 대한 데이터를 포함할 수 있으나, 이에 한정되지 않는다.

디스플레이(140)는 다양한 이미지를 시각적으로 표시하기 위한 구성으로, LCD(Lizuid Crystal Display), LED(Light Emitting Diodes), OLED(Organic Light Emitting Diodes), TOLED(Transparent OLED), Micro LED 등으로 구현될 수 있다. 또한, 디스플레이(140)는 평면 디스플레이 외에 곡면 디스플레이, 플렉서블 디스플레이, 폴더블 디스플레이 등으로 구현될 수도 있다. 디스플레이(140)는 상술한 디스플레이 모듈(123)에 의해 구동/제어되어 다양한 이미지를 출력할 수 있다.

구체적으로, 디스플레이(140)는 사용자의 안구 주변의 넓은 영역에 영상을 제공하기 위한 곡면 디스플레이로 구현될 수 있다. 이때, 디스플레이(140)는 사용자의 좌안 및 우안 각각에 영상을 제공하기 위한 별도의 디스플레이 패널을 포함할 수도 있다.

또한, 전자 장치(100)가 AR 글래스 등 AR 기기에 해당하는 경우, 디스플레이(140)는 실제 주변 환경과 가상으로 출력되는 이미지를 동시에 보여주기 위한 다양한 광학계로 구성될 수 있으며, 이때 디스플레이(140)의 적어도 일부는 투명 디스플레이로 구현될 수 있다.

센서부(150)는 전자 장치(100)를 이용하는 사용자 또는 주변과 관련된 정보를 획득하기 위한 다양한 센서를 포함할 수 있다. 예를 들어, 센서부(150)는 사용자의 안구 또는 주변을 촬영하기 위한 적어도 하나의 이미지 센서(ex. 카메라), 전자 장치(100)의 이동 속도, 이동 방향, 자세(ex. 서로 수직인 세 개의 축 각각에 대한 방향) 등을 감지하기 위한 가속도 센서, 자이로 센서, 지자기 센서, 중력 센서 등을 포함할 수 있다. 또한, 센서부(150)는 VR/AR 기기로 구현된 전자 장치(100)의 착용 여부를 감지하기 위한 적어도 하나의 접촉 센서 내지는 근접 센서를 포함할 수 있다.

또한, 센서부(150)는 사용자의 신체의 적어도 일부의 모션을 감지하기 위한 모션 센서를 포함할 수 있다. 예를 들어, VR 기기 또는 AR 기기로 구현된 전자 장치(100)가 사용자가 손으로 조작할 수 있는 컨트롤러를 포함하는 경우, 컨트롤러의 이동 속도, 이동 방향, 자세 등을 감지하기 위한 다양한 센서가 구비될 수 있다.

한편, 도 2b는 본 개시의 일 실시 예에 따른 서버의 구성을 설명하기 위한 블록도이다.

도 2b를 참조하면, 서버(200)는 메모리(210), 프로세서(220), 통신부(230) 등을 포함할 수 있다.

메모리(210)는 전자 장치(100)의 구성요소들의 전반적인 동작을 제어하기 위한 운영체제(OS: Operating System) 및 전자 장치(100)의 구성요소와 관련된 적어도 하나의 인스트럭션 또는 데이터를 저장하기 위한 구성이다.

메모리(210)는 ROM, 플래시 메모리 등의 비휘발성 메모리를 포함할 수 있으며, DRAM 등으로 구성된 휘발성 메모리를 포함할 수 있다. 또한, 메모리(210)는 하드 디스크, SSD(Solid state drive) 등을 포함할 수도 있다.

프로세서(220)는 전자 장치(100)를 전반적으로 제어하기 위한 구성이다.

구체적으로, 프로세서(220)는 메모리(210)와 연결되는 한편 메모리(210)에 저장된 적어도 하나의 인스트럭션을 실행함으로써 본 개시의 다양한 실시 예들에 따른 동작을 수행할 수 있다.

프로세서(220)는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit) 등과 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서 등을 포함할 수 있다. 인공지능 전용 프로세서는, 특정 인공지능 모델의 훈련 내지는 이용에 특화된 하드웨어 구조로 설계될 수 있다.

도 2b를 참조하면, 프로세서(220)는 이미지 처리 모듈(221), 스트리밍 모듈(222), 인공지능 훈련 모듈(223) 등을 제어할 수 있다. 본 모듈들은 기능적으로 정의된 모듈들에 해당하며 각 모듈은 소프트웨어 및/또는 하드웨어를 통해 구현될 수 있다.

이미지 처리 모듈(221)은 이미지 데이터에 대한 인코딩(encoding) 내지는 디코딩(decoding)을 수행하기 위한 모듈이다. 구체적으로, 이미지 처리 모듈(221)은 고해상도의 이미지를 압축하여 저해상도의 이미지를 획득하거나, 또는 저해상도의 이미지를 복원하여 고해상도의 이미지를 획득할 수 있다.

일 실시 예로, 이미지 처리 모듈(221)은 고해상도의 이미지를 압축하여 저해상도의 이미지를 획득함으로써, 스트리밍에 용이한 데이터의 형태로 제공할 수 있다.

구체적인 예로, 이미지 처리 모듈(221)은 360도의 시야 범위에 해당하는 고해상도의 VR 이미지(ex. 단안 이미지)를 복수의 분할 이미지로 구분하고, 복수의 분할 이미지 각각을 저해상도의 이미지로 변환함으로써 스트리밍에 용이한 형태로 제공할 수 있다.

스트리밍 모듈(222)은 실시간 스트리밍 데이터를 전송하기 위한 구성이다. 스트리밍 모듈(222)은 통신부(230)를 통해 전자 장치(100)와 연결될 수 있으며, 이미지 데이터를 포함하는 스트리밍 데이터를 전송할 수 있다.

구체적으로, 스트리밍 모듈(222)은 저해상도의 복수의 분할 이미지를 포함하는 스트리밍 데이터를 전자 장치(100)로 전송할 수 있다.

인공지능 훈련 모듈(223)은 하나 이상의 인공지능 모델을 훈련시키기 위한 모듈이다.

구체적으로, 인공지능 훈련 모듈(223)은 뎁스 정보를 생성하기 위한 인공지능 모델을 훈련시킬 수 있다. 본 인공지능 모델은 RGB 이미지가 입력되면 뎁스맵을 출력하기 위한 CNN 모델에 해당할 수 있다. 일 예로, 인공지능 훈련 모듈(223)은 적어도 하나의 객체/장면이 RGB 카메라 및 뎁스 카메라 각각에 의해 촬영된 RGB 이미지 및 뎁스 이미지(: 뎁스맵) 각각을 바탕으로 인공지능 모델을 훈련시킬 수 있다.

또한, 인공지능 훈련 모듈(223)은 고해상도 복원을 수행하기 위한 인공지능 모델을 훈련시킬 수 있다. 본 인공지능 모델은, 저해상도의 이미지가 입력되면 고해상도의 이미지를 출력하기 위한 CNN 모델에 해당할 수 있다. 일 예로, GT(ground Truth)로 정의되는 고해상도 타겟 이미지와 이에 대응하는 저해상도 버전의 이미지(LR; Low Resolution image)를 쌍으로 투입하여, 저해상도 이미지(LR)를 GT로 복원하도록 학습되는 방식인 SR(Super Resolution)모델에 해당할 수 있다.

일 예로, 인공지능 훈련 모듈(223)은 360도의 시야 범위에 해당하는 VR 영상의 고해상도 버전 및 저해상도 버전 각각을 활용할 수 있다.

이때, 인공지능 훈련 모듈(223)은 인공지능 모델의 입력에 적합한 패치 사이즈에 따라 저해상도의 VR 영상(: 360도 시야 범위)을 분할할 수 있다. 마찬가지로, 인공지능 훈련 모듈(223)은 인공지능 모델의 출력에 적합한 패치 사이즈에 따라 고해상도의 VR 영상(: 360도 시야 범위)을 분할할 수 있다. 이때, 인공지능 훈련 모듈(223)은 분할된 각각의 저해상도-고해상도 이미지 쌍을 활용하여 인공지능 모델을 훈련시킬 수 있다. 이 경우, 인공지능 훈련 모듈(223)은 공간상 분리된 분할 이미지 각각에 대하여 별도의 인공지능 모델을 훈련시킬 수 있다.

또한, 동일한 시야 영역의 이미지라도, VR 비디오의 경우 시간의 흐름에 따라 이미지가 변경될 수 있는 바, 인공지능 훈련 모듈(223)은 시간의 흐름에 따라 이미지를 구분하여 각 이미지에 대한 복원을 수행하도록 각 인공지능 모델을 훈련시킬 수도 있다.

한편, 인공지능 훈련 모듈(223)은 학습용 이미지들의 std 값(표준 편차)에 따라 각 이미지를 분류하고, std 값에 매칭되는 각 인공지능 모델의 훈련에 활용할 수 있다.

std 값은 각 이미지의 대략적인 구조를 담고 있는 개념으로, std 값이 클수록 픽셀 값 간의 표준 편차가 크므로 이미지의 복잡도가 큰 것으로 해석될 수 있다. 구체적으로, 인공지능 훈련 모듈(223)은 std 값의 범위에 따라 복수의 학습용 이미지를 여러 개의 그룹으로 분류할 수 있는데, 예를 들어, 0~50까지의 std값을 갖는 이미지들을 0~10, 10~20, 20~30, 30~40, 40~50과 같이 총 5개의 그룹으로 분류될 수 있다. 이때, 그룹 별로 별도의 인공지능 모델의 훈련에 활용될 수 있다.

구체적으로, std 값은 영상의 분야(ex. 바이오용 x-ray 영상, 게임용 VR 영상, 뉴스 영상 등)에 따라 달라질 수도 있는 개념인 바, 인공지능 훈련 모듈(223)은 그룹 별 이미지를 서로 다른 분야에 매칭되는 인공지능 모델들 각각의 훈련에 활용할 수 있다. 예를 들어, 제1 그룹의 학습용 이미지들은 x-ray 영상의 고해상도 복원을 위한 인공지능 모델의 훈련에 활용되고, 제2 그룹의 학습용 이미지들은 VR 영상의 고해상도 복원을 위한 인공지능 모델의 훈련에 활용될 수 있다.

그리고, 스트리밍 모듈(222)은 뎁스맵을 생성하도록 훈련된 인공지능 모델, 고해상도 복원을 수행하도록 훈련된 인공지능 모델 등에 대한 데이터를 전자 장치(100)로 전송할 수 있다. 여기서, 인공지능 모델의 데이터는 인공지능 모델의 노드 간 가중치를 포함할 수 있다.

통신부(230)는 다양한 유무선 통신방식으로 적어도 하나의 외부 장치와 통신을 수행하기 위한 구성으로, 다양한 통신 방식에 매칭되는 회로, 모듈, 칩 등을 포함할 수 있다. 통신부(230)는 다양한 네트워크를 통해 외부 장치들과 연결될 수 있으며, 전자 장치(100)를 통해 스트리밍 서비스를 제공할 수 있다.

도 3은 본 개시의 일 실시 예에 따른 전자 장치의 동작을 설명하기 위한 흐름도이다. 도 3은, 전자 장치(100)가 서버(200)로부터 VR 영상 또는 AR 영상의 스트리밍 서비스를 제공받는 상황을 전제로 한다.

도 3을 참조하면, 전자 장치(100)는 기설정된 시야 범위에 대응되는 단안(monocular) 이미지 데이터를 포함하는 스트리밍 데이터를 수신할 수 있다(S310).

이때, 전자 장치(100)는 서버(200)로부터 단안 이미지 데이터를 수신할 수 있다.

예를 들어, 전자 장치(100)는 360도의 시야 범위에 해당하는 VR 영상에 해당하는 단안 이미지 데이터를 실시간으로 수신할 수 있다. 이때, 단안 이미지 데이터는 원본 데이터(고해상도)가 압축된 형태의 저해상도의 이미지 데이터에 해당할 수 있다.

이때, 단안 이미지 데이터는 영역 별로 분할된 복수의 분할 이미지로 구성된 것일 수도 있다. 각 영역은, 360도의 중심축을 기준으로 시야각 범위가 서로 구분되는 시야 영역에 해당할 수 있다.

그리고, 전자 장치(100)는 사용자의 안구 방향을 추적하여 기설정된 시야 범위 내 사용자의 시야 영역을 식별할 수 있다(S320). 이때, 시야 영역 추출 모듈(121)이 활용될 수 있다.

예를 들어, 전자 장치(100)는 적외선 카메라를 통해 사용자의 안구 영상을 획득하고, 영상을 그레이 레벨로 변환하여 동공 영역을 검출할 수 있다. 그리고, 전자 장치(100)는 동공의 중심 좌표를 바탕으로 사용자의 안구 방향을 추적함으로써, 안구 방향에 매칭되는 시선 방향을 검출할 수 있다. 그 결과, 시선 방향을 중심으로 하는 일정 시야각 범위의 시야 영역이 식별될 수 있다.

구체적인 예로, 시야 영역은 사용자가 바라보는 시선 방향을 중심으로 하여 30도, 45도, 60도 등 다양한 시야각 범위 내의 영역으로 설정될 수 있다.

이때, 전자 장치(100)는 사용자의 시야 영역을, Foveal 영역, Blend 영역, Peripheral 영역으로 구분할 수 있다.

관련하여, 도 4는 본 개시의 일 실시 예에 따른 전자 장치가 사용자의 시야 영역을 구분하는 동작을 설명하기 위한 도면이다.

도 4를 참조하면, Foveal 영역은 사용자의 시선이 향하는 중심 지점을 포함하는 일정 시야각의 영역이고, Blend 영역은 Foveal 영역을 둘러싸며 Foveal 영역의 시야각보다 큰 시야각에 대응되는 영역이며, Peripheral 영역은 Foveal 영역과 Blend 영역을 제외한 나머지 영역이다.

예를 들어, Foveal 영역은 30도 이내, Blend 영역은 30도에서 45도 사이, Peripheral 영역은 45도 이상의 시야각 범위에 해당할 수 있으나, 이에 한정되지 않는다.

그리고, 전자 장치(100)는 단안 이미지 데이터 중 식별된 시야 영역의 적어도 일부에 매칭되는 대상 이미지 데이터를 선택할 수 있다(S330).

구체적으로, 전자 장치(100)는 사용자의 시야 영역 중 Foveal 영역을 식별할 수 있으며, 수신된 단안 이미지 데이터 중 Foveal 영역과 대응되는 대상 이미지 데이터를 선택할 수 있다. 즉, 복수의 분할 이미지 중 Foveal 영역에 포함되는 하나 이상의 분할 이미지가 선택될 수 있다.

그리고, 전자 장치(100)는 단안 이미지 데이터를 바탕으로 뎁스맵(depth map)을 획득할 수 있다(S340). 이때, 상술한 뎁스맵 생성 모듈(122)이 활용될 수 있다.

일 예로, 전자 장치(100)는 식별된 시야 영역의 적어도 일부에 매칭되는 대상 이미지 데이터의 뎁스맵을 획득할 수 있다.

구체적으로, 전자 장치(100)는 고해상도 복원을 수행하도록 훈련된 인공지능 모델에 대상 이미지 데이터를 입력하여, 복원 이미지 데이터를 획득할 수 있다. 그리고, 전자 장치(100)는 뎁스 정보를 추정하도록 훈련된 인공지능 모델에 복원 이미지 데이터를 입력하여, 뎁스맵을 획득할 수 있다. 관련하여, 도 5를 통해 보다 상세히 후술한다.

또한, 일 예로, 전자 장치(100)는 단안 이미지 데이터를 구성하는 복수의 이미지 프레임에 대하여 고속으로 뎁스맵을 생성할 수도 있는바, 관련하여, 도 6을 통해 보다 상세히 후술한다.

한편, 전자 장치(100)는 뎁스맵을 바탕으로 대상 이미지 데이터를 변환하여, 양안 이미지 데이터를 획득할 수 있다(S350). 이때, 상술한 양안 영상 생성 모듈(123)이 활용될 수 있다.

구체적으로, 전자 장치(100)는 단안 이미지 데이터 중 대상 이미지 데이터를 뎁스맵에 따라 변환하여 좌안 이미지 또는 우안 이미지를 생성할 수 있다. 관련하여, 도 6을 통해 보다 상세히 후술한다.

그리고, 전자 장치(100)는 양안 이미지 데이터를 구성하는 좌안 이미지 및 우안 이미지 각각을 출력할 수 있다(S360).

그 결과, 사용자의 시야 영역을 위주로 양안의 시차가 반영된 양안 영상이 제공됨으로써 스트리밍 중 비교적 적은 로드를 통해 양안 영상이 제공될 수 있다.

한편, 도 5는 본 개시의 일 실시 예에 따른 전자 장치가 시야 영역에 대해 선택적으로 고해상도 복원을 수행한 이후 뎁스맵을 바탕으로 양안 영상을 생성하는 동작을 설명하기 위한 블록도이다.

도 5를 참조하면, 프로세서(120)는 상술한 시야 영역 추출 모듈(121), 뎁스맵 생성 모듈(122), 양안 영상 생성 모듈(123) 외에 고해상도 복원 모듈(125)을 추가로 제어할 수 있다.

고해상도 복원 모듈(125)은 서버(200)로부터 수신된 단안 이미지 데이터의 적어도 일부를 복원하기 위한 모듈이다.

구체적으로, 원활한 스트리밍을 위해 전자 장치(100)는 서버(200)로부터 저화질의 단안 이미지 데이터를 포함하는 스트리밍 데이터를 수신할 수 있다.

이때, 시야 영역 추출 모듈(121)은 저화질의 단안 이미지 데이터 중 사용자의 시야 영역의 적어도 일부에 매칭되는 대상 이미지 데이터를 선택할 수 있다. 그리고, 고해상도 복원 모듈(125)은 대상 이미지 데이터에 대하여 고해상도 복원을 수행할 수 있다.

고해상도 복원 모듈(125)은 메모리(110)에 저장된 인공지능 모델을 통해 고해상도 복원을 수행함으로써 적어도 일부의 시야 영역에 대하여 고해상도의 복원 이미지 데이터를 획득할 수 있다. 그 결과, 일부 시야 영역에 대해서는 고해상도의 복원 이미지 데이터가 획득될 수 있다.

그리고, 도 5를 참조하면, 뎁스맵 생성 모듈(122)은 시야 영역에 매칭되는 복원 이미지 데이터에 대하여 뎁스맵을 생성할 수 있다.

그리고, 양안 영상 생성 모듈(123)은 단안 이미지 데이터 및 뎁스맵을 바탕으로 양안 이미지 데이터를 생성할 수 있다.

구체적으로, 도 5를 참조하면, 양안 영상 생성 모듈(123)은 와핑 모듈(123-1), 보간 모듈(123-2)을 각각 포함할 수 있다.

와핑 모듈(123-1)은 좌안 이미지와 우안 이미지 간의 시차를 생성하기 위해 적어도 하나의 픽셀의 위치를 변경하는 와핑을 수행하는 모듈이다.

와핑 모듈(123-1)은 뎁스맵에 포함된 픽셀 별 뎁스를 바탕으로 픽셀 별 위치 변경 값을 선택할 수 있다. 이때, 와핑 모듈(123-1)은 시선 수평 방향에 따른 와핑을 수행할 수 있다. 이때, 각 픽셀에 있어 뎁스 값이 작을수록(: 가까울수록) 시차가 크므로 와핑의 수치가 더 커질 수 있다.

구체적으로, 와핑 모듈(123-1)은 사용자의 좌안 및 우안이 나열된 시선 수평 방향을 감지하고, 복원 이미지 데이터의 픽셀마다 시선 수평 방향에 따른 와핑을 수행할 수 있다. 시선 수평 방향은, 좌안 및 우안을 연결하는 선의 방향을 의미하며, 시차를 구현하는 방향에 해당한다.

이때, 보간 모듈(123-2)은 와핑에 따라 발생한 빈 픽셀에 대하여 보간을 수행함으로써 우안 영상 또는 좌안 영상을 완성할 수 있다.

구체적인 예로, 기설정된 시야 범위를 구성하는 복수의 분할 이미지로 구성된 단안 이미지 데이터가 수신된 경우를 가정했을 때, 상술한 과정에 따라 생성된 우안 영상은, 단안 이미지 데이터 중 시야 영역의 적어도 일부에 매칭되는 부분 이미지에 대해서는 고해상도 복원, 와핑, 및 보간이 수행된 상태이고, 이를 제외한 부분 이미지들에 대해서는 고해상도 복원, 와핑, 및 보간이 수행되지 않은 상태일 수 있다.

한편, 순차적으로 이어지는 복수의 이미지 프레임으로 구성된 단안 이미지 데이터에 대하여, 전자 장치(100)는 이미지 프레임마다 뎁스맵을 생성함으로써 양안 이미지 데이터를 획득할 수도 있다.

관련하여, 도 6은 본 개시의 일 실시 예에 따른 전자 장치가 낮은 프레임률에 따라 각 이미지 프레임의 뎁스맵을 생성하되, 생성된 뎁스맵을 바탕으로 보간을 수행하여 높은 프레임률의 뎁스맵을 획득하는 동작을 설명하기 위한 도면이다.

도 6을 참조하면, 서버(200)로부터 수신된 스트리밍 데이터에 포함된 단안 이미지 데이터는 복수의 이미지 프레임(image frame 1, 2, 3, 4, …)을 포함할 수 있다. 복수의 이미지 프레임이 순차적으로 출력됨으로써 동영상이 구현된다.

도 6을 참조하면, 전자 장치(100)는 복수의 이미지 프레임 중 일정 시간 간격의 이미지 프레임들(ex. image frame 1, 3, 5, …)을 선택할 수 있다. 즉, 전자 장치(100)는 실제 프레임률(프레임 속도)에 비해 낮은 프레임률의 이미지 프레임들을 선택할 수 있다.

그리고, 전자 장치(100)는 선택된 이미지 프레임들 각각에 대한 뎁스맵을 획득할 수 있다. 구체적으로, 전자 장치(100)는 뎁스 정보를 생성하도록 훈련된 인공지능 모델에 선택된 이미지 프레임 각각을 입력할 수 있다. 이때, 각 이미지 프레임 내에서 사용자의 시야 영역의 적어도 일부에 매칭되는 영역에 대해서만 뎁스맵이 생성될 수도 있다.

그리고, 전자 장치(100)는 선택된 이미지 프레임들(image frame 1, 3, 5, …) 각각의 뎁스맵(depth map 1, 3, 5, …)을 바탕으로 시간 축 상의 보간(interpolation)을 수행하여, 선택된 이미지 프레임들 각각의 사이에 위치하는 적어도 하나의 이미지 프레임(ex. image frame 2, 4, 6, …)의 뎁스맵(depth map 2, 4, 6, …)을 생성할 수 있다. 이때, 전후 이미지 프레임의 픽셀 별 뎁스 값을 바탕으로 각 이미지 프레임(image frame 2, 4, …)의 픽셀 별 뎁스 값이 결정될 수 있다. 예를 들어, 전후 이미지 프레임의 평균 값 또는 중간 값이 채택될 수 있으나 이에 한정되지 않는다.

한편, 상술한 도 6의 과정은, 시야 영역 추출 모듈(121)에 의해 사용자의 시야 영역이 추출되는 주기에 따라 실시간으로 수행될 수 있다.

일 실시 예로, 시야 영역 추출 모듈(121)이 기설정된 주기마다 사용자의 안구 방향을 추적하여 시야 영역을 감지하는 경우를 가정한다.

이 경우, 뎁스맵 생성 모듈(122)은, 서버(200)로부터 수신되는 단안 이미지 데이터 중, 시야 영역이 감지된 시점을 기준으로 일정 시간 구간 동안 재생되는 복수의 이미지 프레임을 식별할 수 있다. 여기서, 일정 시간 구간은, 시야 영역의 감지와 관련된 상술한 기설정된 주기와 동일한 시간 길이에 해당할 수 있다.

구체적인 예로, 기설정된 주기가 0.5초이고, 프레임 속도가 60fps(frame per second)인 상태에서, image frame 1이 재생되기 직전에 시야 영역이 감지되는 경우, image frame 1을 시작으로 0.5초에 해당하는 시간 구간 동안 재생될 30개의 이미지 프레임들(image frame 1 ~ 30)이 선택될 수 있다.

이때, 뎁스맵 생성 모듈(122)은 이미지 프레임들(ex. image frame 1 ~ 30) 중 비교적 낮은 프레임 속도에 해당하는 간격의 이미지 프레임들(ex. image frame 1, 3, 5 등)을 선택하고, 선택된 이미지 프레임들 각각의 뎁스맵을 생성할 수 있다. 여기서, 뎁스맵 생성 모듈(122)은 선택된 이미지 프레임들 각각에 대하여 현재 감지된 사용자의 시야 영역의 적어도 일부(ex. Foveal 영역)에 매칭되는 대상 이미지 데이터의 뎁스맵을 획득할 수도 있다.

그리고, 뎁스맵 생성 모듈(122)은 선택된 이미지 프레임들 각각의 뎁스맵을 바탕으로 시간 축 상의 보간을 수행하여, 선택된 이미지 프레임들 각각의 사이에 위치하는 적어도 하나의 이미지 프레임(ex. image frame 2, 4, 6 등)의 뎁스맵을 생성할 수 있다.

한편, 상술한 실시 예들의 경우 전자 장치(100)가 뎁스맵을 직접 생성하는 경우를 전제로 설명되었으나, 전자 장치(100)는 뎁스맵을 서버(200) 등으로부터 수신할 수도 있다.

관련하여, 도 7은 본 개시의 일 실시 예에 따른 전자 장치가 단안 이미지 및 뎁스맵을 포함하는 스트리밍 데이터를 수신하는 경우의 동작을 설명하기 위한 흐름도이다.

도 7을 참조하면, 전자 장치(100)는 기설정된 시야 범위에 대응되는 단안(monocular) 이미지 데이터 및 단안 이미지 데이터의 뎁스맵을 포함하는 스트리밍 데이터를 수신할 수 있다(S710).

예를 들어, RGB 카메라 및 뎁스 카메라를 모두 포함하는 적어도 하나의 촬영 시스템에 의해 특정 객체/장면에 대한 RGB 이미지 및 뎁스 이미지(: 뎁스 맵)가 동시에 촬영될 수 있으며, 단안 이미지 데이터를 구성하는 RGB 이미지 및 뎁스맵이 포함된 스트리밍 데이터가 서버(200) 등을 거쳐 전자 장치(100)로 제공될 수 있다.

그리고, 전자 장치(100)는 사용자의 안구 방향을 추적하여 기설정된 시야 범위 내 사용자의 시야 영역을 식별할 수 있다(S720).

여기서, 전자 장치(100)는 단안 이미지 데이터 중 식별된 시야 영역의 적어도 일부에 매칭되는 대상 이미지 데이터를 선택할 수 있으며(S730), 수신된 뎁스맵을 바탕으로 대상 이미지 데이터를 변환하여 양안 이미지 데이터를 획득할 수 있다(S740).

구체적으로, 전자 장치(100)는 Foveal 영역에 매칭되는 대상 이미지 데이터를 선택할 수 있으며, 뎁스맵의 픽셀들 중 대상 이미지 데이터와 매칭되는 픽셀의 뎁스 값을 바탕으로 와핑 및 보간을 수행하여 양안 이미지 데이터를 획득할 수 있다.

그리고, 전자 장치(100)는 양안 이미지 데이터를 구성하는 좌안 이미지 및 우안 이미지 각각을 시각적으로 출력할 수 있다(S750).

한편, 도 8은 본 개시의 다양한 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.

도 8을 참조하면, 전자 장치(100)는 메모리(110), 프로세서(120), 통신부(130), 디스플레이(140), 센서부(150) 외에 사용자 입력부(160), 오디오 출력부(170) 등을 더 포함할 수 있다.

사용자 입력부(160)는 다양한 명령 또는 정보를 사용자로부터 입력 받기 위한 구성이다. 사용자 입력부(160)는 적어도 하나의 버튼, 터치 패드, 터치 스크린, 마이크, 카메라, 센서 등으로 구현될 수 있다. 또한, 전자 장치(100)는 적어도 하나의 키패드, 버튼, 모션 센서, 가속도 센서, 자이로 센서 등을 구비한 다양한 사용자 입력 장치(ex. 컨트롤러)와 연결될 수도 있다.

오디오 출력부(170)는 다양한 정보를 청각적으로 출력하기 위한 구성으로, 스피커, 이어폰/헤드폰 단자 등을 포함할 수 있다. 일 예로, 전자 장치(100)는 서버(200)로부터 이미지 데이터 및 오디오 데이터를 포함하는 스트리밍 데이터를 수신할 수 있으며, 이미지 데이터의 재생 구간에 맞는 오디오 데이터의 재생 구간을 오디오 출력부(170)를 통해 출력할 수 있다.

한편, 이상에서 설명된 다양한 실시 예들은 서로 저촉되거나 모순되지 않는 한 두 개 이상의 실시 예가 서로 결합되어 구현될 수 있다.

한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다.

하드웨어적인 구현에 의하면, 본 개시에서 설명되는 실시 예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다.

일부의 경우에 본 명세서에서 설명되는 실시 예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상술한 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.

한편, 상술한 본 개시의 다양한 실시 예들에 따른 서버, 전자 장치 등에서의 처리동작을 수행하기 위한 컴퓨터 명령어(computer instructions) 또는 컴퓨터 프로그램은 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium)에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어 또는 컴퓨터 프로그램은 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 서버, 전자 장치 등에서의 처리 동작을 상술한 특정 기기가 수행하도록 한다.

비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

100: 전자 장치 110: 메모리
120: 프로세서 130: 통신부
140: 디스플레이 150: 센서부
200: 서버

Claims

전자 장치의 제어 방법에 있어서,
기설정된 시야 범위에 대응되는 단안(monocular) 이미지 데이터를 포함하는 스트리밍 데이터를 수신하는 단계;
사용자의 안구 방향을 추적하여 상기 기설정된 시야 범위 내 사용자의 시야 영역을 식별하는 단계;
상기 단안 이미지 데이터 중 상기 식별된 시야 영역의 적어도 일부에 매칭되는 대상 이미지 데이터를 선택하는 단계;
상기 단안 이미지 데이터를 바탕으로 상기 식별된 시야 영역의 적어도 일부에 매칭되는 상기 대상 이미지 데이터의 뎁스맵(depth map)을 획득하는 단계;
상기 뎁스맵을 바탕으로 상기 단안 이미지 데이터 중 상기 대상 이미지 데이터를 상기 뎁스맵에 따라 변환하여 좌안 이미지 또는 우안 이미지를 생성하여 양안(binocular) 이미지 데이터를 획득하는 단계; 및
상기 양안 이미지 데이터를 구성하는 좌안 이미지 및 우안 이미지 각각을 출력하는 단계;를 포함하고
상기 시야 영역을 식별하는 단계는
상기 사용자의 안구 방향에 매칭되는 시선 방향을 검출하고, 상기 시선 방향을 기반으로 시야 영역을 식별하되,
상기 사용자의 시야 영역을 상기 사용자의 시선이 향하는 중심 지점을 포함하는 일정 시야각에 해당하는 Foveal 영역, 상기 Foveal 영역을 둘러싸며 상기 Foveal 영역의 시야각보다 큰 시야각에 대응되는 Blend 영역 및 상기 Foveal 영역과 상기 Blend 영역을 제외한 Peripheral 영역으로 구분하여 식별하고,
상기 뎁스맵을 획득하는 단계는
상기 단안 이미지 데이터를 구성하는 복수의 이미지 프레임 중 일정 시간 간격의 이미지 프레임들을 선택하고,
상기 선택된 이미지 프레임들 각각의 뎁스맵을 바탕으로 시간 축 상의 보간(interpolation)을 수행하여, 상기 선택된 이미지 프레임들 각각의 사이에 위치하는 적어도 하나의 이미지 프레임의 뎁스맵을 생성하며
상기 양안 이미지 데이터를 획득하는 단계는
고해상도 복원을 수행하도록 훈련된 인공지능 모델에 상기 대상 이미지 데이터를 입력하여, 복원 이미지 데이터를 획득하고,
상기 뎁스맵을 바탕으로, 상기 복원 이미지 데이터에 매칭되는 양안 이미지 데이터를 획득하는, 전자 장치의 제어 방법.
삭제
제1항에 있어서,
상기 뎁스맵을 획득하는 단계는,
고해상도 복원을 수행하도록 훈련된 인공지능 모델에 상기 대상 이미지 데이터를 입력하여, 복원 이미지 데이터를 획득하고,
뎁스 정보를 추정하도록 훈련된 인공지능 모델에 상기 복원 이미지 데이터를 입력하여, 뎁스맵을 획득하는, 전자 장치의 제어 방법.
삭제
제1항에 있어서,
상기 사용자의 시야 영역을 식별하는 단계는,
기설정된 주기에 따라 상기 사용자의 안구 방향을 추적하여 시야 영역을 감지하고,
상기 뎁스맵을 획득하는 단계는,
상기 단안 이미지 데이터 중, 상기 시야 영역이 감지된 시점을 기준으로 상기 기설정된 주기에 해당하는 시간 구간 동안 재생되는 복수의 이미지 프레임을 식별하고,
상기 식별된 복수의 이미지 프레임 중 일정 시간 간격의 이미지 프레임들을 선택하고,
상기 선택된 이미지 프레임들 각각에 대하여 상기 시야 영역의 적어도 일부에 매칭되는 대상 이미지 데이터의 뎁스맵을 획득하고,
상기 선택된 이미지 프레임들 각각의 뎁스맵을 바탕으로 시간 축 상의 보간을 수행하여, 상기 선택된 이미지 프레임들 각각의 사이에 위치하는 적어도 하나의 이미지 프레임의 뎁스맵을 생성하고,
상기 양안(binocular) 이미지 데이터를 획득하는 단계는,
상기 식별된 복수의 이미지 프레임 각각의 뎁스맵을 바탕으로 상기 복수의 이미지 프레임 각각의 양안 이미지 데이터를 획득하는, 전자 장치의 제어 방법.
삭제
제1항에 있어서,
상기 양안 이미지 데이터를 획득하는 단계는,
상기 사용자의 좌안 및 우안이 나열된 시선 수평 방향을 감지하고,
상기 뎁스맵에 포함된 픽셀 별 뎁스를 바탕으로, 상기 복원 이미지 데이터의 픽셀마다 상기 시선 수평 방향에 따른 와핑을 수행하고,
상기 와핑에 따라 발생한 빈 픽셀에 대하여 보간을 수행하는, 전자 장치의 제어 방법.
삭제