WO2022191424A1

WO2022191424A1 - 전자 장치 및 그 제어 방법

Info

Publication number: WO2022191424A1
Application number: PCT/KR2022/001279
Authority: WO
Inventors: 정승수; 배재현; 오영호; 이성호; 최웅일
Original assignee: 삼성전자 주식회사
Priority date: 2021-03-11
Filing date: 2022-01-25
Publication date: 2022-09-15
Also published as: KR20220127642A

Abstract

전자 장치 및 그 제어 방법이 개시된다. 전자 장치의 제어 방법은 타겟 영상을 기준으로 타겟 영상의 좌측 및 우측 영상, 좌측 및 우측 영상을 촬영한 카메라의 제1 파라미터 정보 및 제2 파라미터 정보를 입력받는 단계, 좌측 영상 및 우측 영상을 기 설정된 개수의 뎁스 레이어로 분류하여 제1 및 제2 다중 레이어 이미지를 생성하는 단계, 제1 및 제2 파라미터 정보에 기초하여 생성된 제1 및 제2 다중 레이어 이미지를 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행하는 단계, 이미지 픽셀 위치 변환이 수행된 제1 및 제2 다중 레이어 이미지를 기초로 다중 레이어 이미지의 레이어 손실 값을 획득하고, 이미지 픽셀 위치 변환이 수행된 제1 및 제2 다중 레이어 이미지를 학습시키는 단계, 이미지 픽셀 위치 변환이 수행된 제1 및 제2 다중 레이어 이미지 및 기 설정된 기준 영상에 기초하여 영상 정합 인공 지능 모델의 영상 정합을 학습시키는 단계를 포함한다.

Description

전자 장치 및 그 제어 방법

본 개시는 전자 장치 및 그 제어 방법에 관한 것으로, 더욱 상세하게는 좌측 및 우측 영상을 이용하여 중간 영상을 생성하는 전자 장치 및 그 제어 방법에 관한 것이다.

최근 전자 기술의 발전에 따라 3D 기술, 360도 VR 기술 등과 같은 다양한 응용 기술이 상용화되고 있다. 현실적인 3D 기술, 360도 VR 기술을 구현하기 위해 다양한 각도에서 촬영된 영상이 필요하다. 동일한 시간에 다양한 각도에서 촬영된 영상을 획득하기 위해서 많은 카메라가 필요하다. 그러나, 현실적으로 수많은 카메라를 이용하여 영상을 촬영하는 것은 한계가 있다. 따라서, 상대적으로 적은 수의 카메라를 이용하여 영상을 촬영하고, 촬영된 영상을 이용하여 인접한 영상을 생성하는 기술이 개발되었다.

기존의 인접 영상은 하나의 시점(view point)의 영상을 이용하여 생성되거나, 양측의 시점의 영상을 이용하여 생성되었다. 그러나, 하나의 시점의 영상을 이용하여 생성되는 인접 영상은 정보가 부족하여 화질 열화가 심하다. 양측의 시점의 영상을 이용하여 생성되는 인접 영상은 양측의 시점 차로 고스트 현상이 발생하는 문제점이 있다. 또한, 고스트 현상을 해결하여 화질을 향상시키는 방법은 정보가 충분치 못한 인접 영상을 생성하는 문제가 있다.

따라서, 촬영된 영상 정보를 모두 포함하고 화질도 향상시킬 수 있는 기술에 대한 필요성이 존재한다.

본 개시의 목적은 우측 및 좌측 영상의 정보를 모두 포함하면서 화질이 향상된 중간 영상을 생성하는 전자 장치 및 그 제어 방법을 제공함에 있다.

본 개시의 일 실시 예에 따르면, 전자 장치의 제어 방법은 타겟 영상을 기준으로 상기 타겟 영상의 좌측 영상, 상기 타겟 영상의 우측 영상, 상기 좌측 영상을 촬영한 카메라의 제1 파라미터 정보 및 상기 우측 영상을 촬영한 카메라의 제2 파라미터 정보를 입력받는 단계, 상기 좌측 영상을 기 설정된 개수의 뎁스 레이어로 분류하여 제1 다중 레이어 이미지를 생성하고, 상기 우측 영상을 상기 기 설정된 개수의 뎁스 레이어로 분류하여 제2 다중 레이어 이미지를 생성하는 단계, 상기 제1 파라미터 정보 및 상기 제2 파라미터 정보에 기초하여 상기 생성된 제1 다중 레이어 이미지 및 상기 제2 다중 레이어 이미지 각각을 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행하는 단계, 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 기초로 다중 레이어 이미지의 레이어 손실 값(loss)을 획득하고, 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 각각 학습시키는 단계, 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지, 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지 및 기 설정된 기준 영상에 기초하여 영상 정합 인공 지능 모델의 영상 정합을 학습시키는 단계를 포함한다.

그리고, 본 개시의 일 실시 예에 따르면, 전자 장치는 입력 인터페이스 및 프로세서를 포함하고, 상기 프로세서는 타겟 영상을 기준으로 상기 타겟 영상의 좌측 영상, 상기 타겟 영상의 우측 영상, 상기 좌측 영상을 촬영한 카메라의 제1 파라미터 정보 및 상기 우측 영상을 촬영한 카메라의 제2 파라미터 정보를 입력받도록 상기 입력 인터페이스를 제어하고, 상기 좌측 영상을 기 설정된 개수의 뎁스 레이어로 분류하여 제1 다중 레이어 이미지를 생성하고, 상기 우측 영상을 상기 기 설정된 개수의 뎁스 레이어로 분류하여 제2 다중 레이어 이미지를 생성하며, 상기 제1 파라미터 정보 및 상기 제2 파라미터 정보에 기초하여 상기 생성된 제1 다중 레이어 이미지 및 상기 제2 다중 레이어 이미지 각각을 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행하고, 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 기초로 다중 레이어 이미지의 레이어 손실 값(loss)을 획득하며, 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 각각 학습시키고, 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지, 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지 및 기 설정된 기준 영상에 기초하여 영상 정합 인공 지능 모델의 영상 정합을 학습시킨다.

도 1은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하는 블록도이다.

도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구체적인 구성을 설명하는 블록도이다.

도 3은 본 개시의 일 실시 예에 따른 촬영된 영상으로부터 다중 레이어 이미지를 생성하는 과정을 설명하는 도면이다.

도 4는 본 개시의 일 실시 예에 따른 생성된 다중 레이어 이미지의 이미지 픽셀 위치 변환 과정을 수행하는 과정을 설명하는 도면이다.

도 5는 본 개시의 일 실시 예에 따른 이미지 픽셀 위치 변환이 수행된 영상을 나타내는 도면이다.

도 6은 본 개시의 일 실시 예에 따른 좌측 및 우측 영상으로부터 이미지 픽셀 위치 변환이 수행된 영상을 나타내는 도면이다.

도 7a는 좌측 및 우측 영상으로부터 각각 이미지 픽셀 위치 변환이 수행된 영상을 합성한 타겟 영상을 나타내는 도면이다.

도 7b는 본 개시의 일 실시 예에 따른 정합도를 고려하여 획득한 타겟 영상을 나타내는 도면이다.

도 8a는 본 개시의 일 실시 예에 따른 다중 레이어 이미지를 학습하는 과정을 설명하는 도면이다.

도 8b는 본 개시의 일 실시 예에 따른 영상 정합 인공 지능 모델을 학습하는 과정을 설명하는 도면이다.

도 9는 좌측 및 우측 영상을 촬영하는 과정을 설명하는 도면이다.

도 10은 본 개시의 일 실시 예에 따른 뎁스 맵을 고려하여 다중 레이어 이미지를 학습하는 과정을 설명하는 도면이다.

도 11은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하는 흐름도이다.

이하에서는 첨부된 도면을 참조하여 다양한 실시 예를 보다 상세하게 설명한다. 본 명세서에 기재된 실시 예는 다양하게 변형될 수 있다. 특정한 실시 예가 도면에서 묘사되고 상세한 설명에서 자세하게 설명될 수 있다. 그러나, 첨부된 도면에 개시된 특정한 실시 예는 다양한 실시 예를 쉽게 이해하도록 하기 위한 것일 뿐이다. 따라서, 첨부된 도면에 개시된 특정 실시 예에 의해 기술적 사상이 제한되는 것은 아니며, 개시의 사상 및 기술 범위에 포함되는 모든 균등물 또는 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이러한 구성요소들은 상술한 용어에 의해 한정되지는 않는다. 상술한 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 명세서에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

한편, 본 명세서에서 사용되는 구성요소에 대한 "모듈" 또는 "부"는 적어도 하나의 기능 또는 동작을 수행한다. 그리고, "모듈" 또는 "부"는 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합에 의해 기능 또는 동작을 수행할 수 있다. 또한, 특정 하드웨어에서 수행되어야 하거나 적어도 하나의 프로세서에서 수행되는 "모듈" 또는 "부"를 제외한 복수의 "모듈들" 또는 복수의 "부들"은 적어도 하나의 모듈로 통합될 수도 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 개시의 설명에 있어서 각 단계의 순서는 선행 단계가 논리적 및 시간적으로 반드시 후행 단계에 앞서서 수행되어야 하는 경우가 아니라면 각 단계의 순서는 비제한적으로 이해되어야 한다. 즉, 위와 같은 예외적인 경우를 제외하고는 후행 단계로 설명된 과정이 선행단계로 설명된 과정보다 앞서서 수행되더라도 개시의 본질에는 영향이 없으며 권리범위 역시 단계의 순서에 관계없이 정의되어야 한다. 그리고 본 명세서에서 "A 또는 B"라고 기재한 것은 A와 B 중 어느 하나를 선택적으로 가리키는 것뿐만 아니라 A와 B 모두를 포함하는 것도 의미하는 것으로 정의된다. 또한, 본 명세서에서 "포함"이라는 용어는 포함하는 것으로 나열된 요소 이외에 추가로 다른 구성요소를 더 포함하는 것도 포괄하는 의미를 가진다.

본 명세서에서는 본 개시의 설명에 필요한 필수적인 구성요소만을 설명하며, 본 개시의 본질과 관계가 없는 구성요소는 언급하지 아니한다. 그리고 언급되는 구성요소만을 포함하는 배타적인 의미로 해석되어서는 아니되며 다른 구성요소도 포함할 수 있는 비배타적인 의미로 해석되어야 한다.

그 밖에도, 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그에 대한 상세한 설명은 축약하거나 생략한다. 한편, 각 실시 예는 독립적으로 구현되거나 동작될 수도 있지만, 각 실시 예는 조합되어 구현되거나 동작될 수도 있다.

도 1을 참조하면, 전자 장치(100)는 입력 인터페이스(110) 및 프로세서(120)를 포함한다. 예를 들어, 전자 장치(100)는 스마트폰, 태블릿 PC, 네비게이션, 슬레이트 PC, 웨어러블 디바이스, 디지털 TV, 데스크탑 컴퓨터, 랩탑 컴퓨터, 키오스크 등을 포함할 수 있다.

입력 인터페이스(110)는 촬영된 영상 및 영상을 촬영한 카메라의 파라미터 정보를 입력받는다. 예를 들어, 입력 인터페이스(110)는 타겟 영상을 기준으로 타겟 영상의 좌측 영상 및 타겟 영상의 우측 영상을 입력받을 수 있다. 타겟 영상은 좌측 영상 및 우측 영상을 이용하여 생성하려는 중간 영상을 의미한다. 그리고, 타겟 영상은 실제 타겟 영상의 위치에서 촬영된 영상(정답 영상)일 수 있다. 입력 인터페이스(110)는 좌측 영상을 촬영한 카메라의 제1 파라미터 정보 및 우측 영상을 촬영한 카메라의 제2 파라미터 정보를 입력받을 수 있다. 예를 들어, 카메라의 파라미터 정보는 내부 파라미터(intrinsic parameter) 정보 및 외부 파라미터(extrinsic parameter) 정보를 포함할 수 있다. 일 실시 예로서, 내부 파라미터 정보는 초점거리(focal length), 주점(principal point), 비대칭 계수(skew coefficient) 등을 포함할 수 있고, 외부 파라미터 정보는 3차원 위치, 자세 정보(예, 피치, 롤, 요 등), 카메라 좌표계와 국제 좌표계 사이의 변환 관계를 나타내는 파라미터 등을 포함할 수 있다.

일 실시 예로서, 입력 인터페이스(110)는 입출력 포트를 포함할 수 있다. 입력 인터페이스(110)가 입출력 포트를 포함하는 경우, 입출력 포트는 HDMI(High-Definition Multimedia Interface), DP(DisplayPort), RGB, DVI(Digital Visual Interface), USB(Universal Serial Bus), 썬더볼트, LAN 등의 포트를 포함할 수 있다. 입력 인터페이스(110)는 외부 장치로부터 촬영된 영상 및 카메라 파라미터를 제공받는 기능을 수행하고, 입력부, 입력 모듈 등으로 불릴 수도 있다.

프로세서(120)는 전자 장치(100)의 각 구성을 제어할 수 있다. 예를 들어, 프로세서(120)는 촬영된 영상 및 카메라 파라미터를 제공받도록 입력 인터페이스(110)를 제어한다. 그리고, 프로세서(120)는 촬영된 영상 및 카메라 파라미터에 기초하여 영상 정합 인공 지능 모델을 학습시킬 수 있다.

예를 들어, 프로세서(120)는 좌측 영상을 기 설정된 개수의 뎁스 레이어로 분류하여 제1 다중 레이어 이미지를 생성한다. 다중 레이어 이미지는 멀티 플레인 이미지(multiple plane image,MPI)라고 칭할 수 있다. 또한, 프로세서(120)는 동일한 방식으로 우측 영상을 기 설정된 개수의 뎁스 레이어로 분류하여 제2 다중 레이어 이미지를 생성한다. 프로세서(120)는 제1 파라미터 정보 및 제2 파라미터 정보에 기초하여 생성된 제1 다중 레이어 이미지 및 제2 다중 레이어 이미지 각각을 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행한다. 본 개시에서 이미지 픽셀 위치 변환이란 촬영된 영상을 타겟 영상의 위치로 변환하는 것을 의미한다. 또는, 이미지 픽셀 위치 변환은 워핑(warping)이라고 칭할 수 있다.

프로세서(120)는 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 기초로 다중 레이어 이미지의 레이어 손실 값(loss)(또는, 코스트(cost))을 획득하고, 획득된 다중 레이어 이미지의 레이어 손실 값에 기초하여 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 각각 학습시킨다. 예를 들어, 프로세서(120)는 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 뎁스 레이어를 기준으로 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 뎁스 레이어 각각의 제1 다중 레이어 이미지의 레이어 손실 값을 획득할 수 있다. 그리고, 프로세서(120)는 동일한 방식으로 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 뎁스 레이어를 기준으로 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 뎁스 레이어 각각의 제2 다중 레이어 이미지의 레이어 손실 값을 획득할 수 있다. 프로세서(120)는 획득된 제1 다중 레이어 이미지의 레이어 손실 값에 기초하여 영상 정합 인공 지능 모델의 제1 다중 레이어 이미지를 학습시키고, 획득된 제2 다중 레이어 이미지의 레이어 손실 값에 기초하여 영상 정합 인공 지능 모델의 제2 다중 레이어 이미지를 학습시킬 수 있다.

제1 다중 레이어 이미지의 레이어 손실 값은 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 기준으로 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 오차이고, 제2 다중 레이어 이미지의 레이어 손실 값은 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지를 기준으로 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 오차를 의미한다. 다중 레이어 이미지의 레이어 손실 값이 크다는 것은 오차가 크다는 것을 의미하고, 영상 정합 인공 지능 모델의 다중 레이어 이미지에 대한 학습이 잘 되지 않았음을 의미한다. 프로세서(120)는 획득된 제1 다중 레이어 이미지의 레이어 손실 값 및 제2 다중 레이어 이미지의 레이어 손실 값을 적용하여 다중 레이어 이미지를 반복하여 학습시킬 수 있다. 반복 학습된 영상 정합 인공 지능 모델로부터 획득되는 제1 다중 레이어 이미지의 레이어 손실 값 및 제2 다중 레이어 이미지의 레이어 손실 값 각각은 0 또는 0에 가까운 값일 수 있다.

이후, 프로세서(120)는 제1 다중 레이어 이미지를 포함하는 제1 타겟 영상과 제2 다중 레이어 이미지를 포함하는 제2 타겟 영상을 생성한다. 전자 장치(100)가 영상 정합 인공 지능 모델을 학습시킬 때, 프로세서(120)는 기 설정된 기준 영상을 입력받도록 입력 인터페이스(110)를 제어할 수 있다. 기 설정된 기준 영상은 획득하려는 타겟 영상일 수 있다. 프로세서(120)는 생성된 제1 타겟 영상, 생성된 제2 타겟 영상 및 기 설정된 기준 영상에 기초하여 화질 손실 값을 획득한다. 프로세서(120)는 생성된 제1 타겟 영상 및 생성된 제2 타겟 영상을 평균한 평균 영상과 기 설정된 기준 영상 간의 화질 손실 값을 획득할 수 있다. 프로세서(120)는 획득된 화질 손실 값에 기초하여 영상 정합 인공 지능 모델의 영상 정합을 학습시킨다. 즉, 프로세서(120)는 획득된 화질 손실 값에 기초하여 영상 정합을 학습시킬 수 있다.

화질 손실 값은 생성된 제1 타겟 영상, 제2 타겟 영상의 평균 영상과 기 설정된 기준 영상 간의 오차를 의미한다. 화질 손실 값이 크다는 것은 평균 영상과 기준 영상이 많이 어긋난다는 것을 의미하고, 영상 정합 인공 지능 모델의 영상 정합 과정의 학습이 잘 되지 않았음을 의미한다. 프로세서(120)는 획득된 화질 손실 값을 적용하여 영상 정합 인공 지능 모델의 영상 정합 과정을 반복하여 학습시킬 수 있다. 반복 학습된 영상 정합 인공 지능 모델로부터 획득되는 화질 손실 값은 0 또는 0에 가까운 값일 수 있다.

상술한 영상 정합 인공 지능 모델의 다중 레이어 이미지 학습 과정에서 제1 다중 레이어 이미지 손실 값 및 제2 다중 레이어 이미지 손실 값이 0인 경우, 이론적으로는 화질 손실 값도 0일 수 있다. 그러나, 다중 레이어 이미지의 학습 과정에서 이미지 픽셀 위치 변환이 수행된 다중 레이어 이미지의 기준 영상(또는, 정답 영상)이 존재하지 않기 때문에 상대적인 영상인 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 또는 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지가 기준 영상으로 사용된다. 따라서, 다중 레이어 이미지의 학습 과정은 정확한 기준 영상을 기초로 학습되지 않았기 때문에 좌측 영상으로부터 이미지 픽셀 위치 변환이 수행된 제1 타겟 영상 및 우측 영상으로부터 이미지 픽셀 위치 변환이 수행된 제2 타겟 영상은 완전히 정합되지 않을 수 있다. 즉, 화질 손실 값은 0보다 클 수 있다. 따라서, 별도의 정합도 학습 과정이 필요하다.

영상 정합 인공 지능 모델은 학습되고, 이후 입력되는 좌측 영상 및 우측 영상으로부터 타겟 영상(중간 영상)을 생성할 수 있다. 즉, 입력 인터페이스(110)는 프로세서(120)의 제어에 따라 좌측 영상, 우측 영상, 좌측 영상을 촬영한 카메라의 파라미터 정보, 우측 영상을 촬영한 카메라의 파라미터 정보를 입력받을 수 있다. 프로세서(120)는 좌측 영상에 대한 제3 다중 레이어 이미지를 생성하고, 우측 영상에 대한 제4 다중 레이어 이미지를 생성할 수 있다. 학습된 영상 정합 인공 지능 모델은 제3 다중 레이어 이미지 및 제4 다중 레이어 이미지 각각에 대한 다중 레이어 이미지의 레이어 손실 값을 획득할 수 있다. 프로세서(120)는 학습된 영상 정합 인공 지능 모델 및 획득된 다중 레이어 이미지의 레이어 손실 값에 기초하여 제3 다중 레이어 이미지를 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행한 제3 타겟 영상을 생성하고, 제4 다중 레이어 이미지를 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행한 제4 타겟 영상을 생성할 수 있다. 그리고, 프로세서(120)는 생성된 제3 타겟 영상 및 생성된 제4 타겟 영상을 평균한 임시 정합 영상을 생성할 수 있다. 학습된 영상 정합 인공 지능 모델은 생성된 임시 정합 영상에 대한 화질 손실 값을 획득할 수 있다. 프로세서(120)는 학습된 영상 정합 인공 지능 모델, 획득된 화질 손실 값을 이용하여 생성된 임시 정합 영상으로부터 최종 타겟 영상을 생성할 수 있다. 즉, 프로세서(120)는 학습된 영상 정합 인공 지능 모델에 기초하여 최종 타겟 영상을 생성할 수 있다.

한편, 영상을 촬영하는 카메라가 뎁스 카메라를 포함하는 경우, 전자 장치(100)는 뎁스 맵을 획득할 수 있다. 프로세서(120)는 획득된 뎁스 맵에 기초하여 영상 정합 인공 지능 모델을 학습시키고, 학습된 영상 정합 인공 지능 모델에 기초하여 타겟 영상을 생성할 수 있다. 예를 들어, 입력 인터페이스(110)는 프로세서(120)의 제어에 따라 좌측 영상을 촬영한 카메라의 제1 뎁스 맵 및 우측 영상을 촬영한 카메라의 제2 뎁스 맵을 입력받을 수 있다. 프로세서(120)는 입력된 제1 뎁스 맵 및 입력된 제2 뎁스 맵에 기초하여 제1 다중 레이어 이미지 및 제2 다중 레이어 이미지의 중첩된 영역을 식별할 수 있다. 프로세서(120)는 식별된 중첩된 영역에 기초하여 다중 레이어 이미지의 레이어 손실 값을 획득하고, 영상 정합 모델의 다중 레이어 이미지를 학습시킬 수 있다. 영상 정합 인공 지능 모델은 중첩된 영역에 대해서만 학습되기 때문에 더 선명한 타겟 영상을 생성할 수 있다.

도 2를 참조하면, 전자 장치(100)는 입력 인터페이스(110), 프로세서(120), 통신 인터페이스(130), 카메라(140), 마이크(150), 스피커(160), 디스플레이(170), 메모리(180), 센서(190)를 포함할 수 있다. 입력 인터페이스(110)는 도 1에서 설명한 바와 동일하므로 구체적인 설명을 생략한다.

통신 인터페이스(130)는 외부 장치와 통신을 수행할 수 있다. 통신 인터페이스(130)는 외부 장치와 유무선 통신 방식을 이용하여 데이터를 송수신할 수 있다. 예를 들어, 통신 인터페이스(130)는 3G, LTE(Long Term Evolution), 5G, 와이파이, 블루투스, DMB(Digital Multimedia Broadcasting), ATSC(Advanced Television Systems Committee), DVB(Digital Video Broadcasting), LAN(Local Area Network) 등의 방식으로 통신을 수행할 수 있는 모듈을 포함할 수 있다. 외부 장치와 통신을 수행하는 통신 인터페이스(130)는 통신부, 통신 모듈, 송수신부 등으로 불릴 수도 있다.

일 실시 예로서, 통신 인터페이스(130)는 외부 장치로부터 인공 지능 모델을 수신할 수 있다. 수신된 인공 지능 모델은 메모리(180)에 저장될 수 있다. 본 개시에 따른 인공 지능과 관련된 기능은 프로세서(120)와 메모리(180)를 통해 동작될 수 있다. 일 실시 예로서, 프로세서(120)는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공 지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리(180)에 저장된 영상 정합 인공 지능 모델에 따라 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공 지능 전용 프로세서(또는, 연동되는 AI 클라우드)인 경우, 인공 지능 전용 프로세서는 영상 정합 인공 지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.

영상 정합 인공 지능 모델은 상술한 학습 과정을 통해 만들어질 수 있다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공 지능 모델이 영상 정합 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 타겟 영상을 생성하도록 영상 정합 인공 지능 모델이 만들어짐을 의미한다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.

영상 정합 인공 지능 모델은 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 손실 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.

외부 장치로부터 수신된 인공 지능 모델은 프로세서(120)의 제어에 의해 전자 장치(100)에서 학습되어 영상 정합 인공 지능 모델로 생성될 수 있다. 또는, 인공 지능 모델의 학습은 외부 장치에서 수행될 수도 있다. 프로세서(120)는 촬영된 영상, 카메라 파라미터, 뎁스 맵, 다중 레이어 이미지의 레이어 손실 값 또는 화질 손실 값 등 인공 지능 모델을 학습시키기 위해 필요한 데이터를 인공 지능 모델을 포함하는 외부 장치로 전송할 수 있다. 외부 장치에 포함된 인공 지능 모델은 전자 장치(100)로부터 수신된 학습 데이터에 기초하여 영상 정합 인공 지능 모델로 학습될 수 있다. 이후, 프로세서(120)는 촬영된 영상, 카메라 파라미터를 학습된 영상 정합 인공 지능 모델을 포함하는 외부 장치로 전송하도록 통신 인터페이스(130)를 제어할 수 있다. 그리고, 프로세서(120)는 외부 장치로부터 생성된 타겟 영상을 수신하도록 통신 인터페이스(130)를 제어할 수 있다. 일 실시 예로서, 외부 장치는 웹 서버, 클라우드 등을 포함할 수 있다.

카메라(140)는 전자 장치(100)의 주변 환경을 촬영할 수 있다. 또는, 카메라(140)는 사용자의 표정이나 동작 등을 촬영할 수 있다. 프로세서(120)는 촬영된 사용자의 표정이나 동작에 기초하여 제어 명령을 인식하고, 인식된 제어 명령에 대응되는 제어 동작을 수행할 수 있다. 예를 들어, 카메라(140)는 CCD 센서, CMOS 센서를 포함할 수 있다. 또한, 카메라(140)는 RGB 카메라, 뎁스 카메라를 포함할 수도 있다.

마이크(150)는 사용자의 음성을 입력받을 수 있다. 프로세서(120)는 입력된 음성에 기초하여 제어 명령을 인식하고, 인식된 제어 명령에 대응되는 제어 동작을 수행할 수 있다.

스피커(160)는 음성 처리가 수행된 음성 신호를 출력한다. 또한, 스피커(160)는 사용자의 입력 명령, 전자 장치(100)의 상태 관련 정보 또는 동작 관련 정보 등을 음성이나 알림음으로 출력할 수 있다.

디스플레이(170)는 영상 처리가 수행된 영상 신호를 출력한다. 디스플레이(170)는 사용자의 명령 또는 구현되는 기능에 기초하여 촬영된 좌측 영상, 촬영된 우측 영상, 생성된 타겟 영상을 출력할 수 있다. 예를 들어, 디스플레이(170)는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diode), 플렉서블 디스플레이, 터치 스크린 등으로 구현될 수 있다. 디스플레이(170)가 터치 스크린으로 구현되는 경우, 전자 장치(100)는 터치 스크린을 통해 제어 명령을 입력받을 수 있다.

메모리(180)는 전자 장치(100)의 기능을 수행하는 데이터, 알고리즘, 인공 지능 모델 등을 저장하고, 전자 장치(100)에서 구동되는 프로그램, 명령어 등을 저장할 수 있다. 메모리(180)에 저장된 알고리즘은 프로세서(120)의 제어에 의해 프로세서(120)에 로딩되어 영상 정합 인공 지능 모델을 학습시키고, 학습된 영상 정합 인공 지능 모델을 이용하여 타겟 영상을 생성할 수 있다. 예를 들어, 메모리(180)는 롬, 램, HDD, SSD, 메모리 카드 등의 타입으로 구현될 수 있다.

센서(190)는 전자 장치(100) 주변의 물체를 감지할 수 있다. 프로세서(120)는 감지된 신호에 기초하여 제어 명령을 인식하고, 인식된 제어 명령에 대응되는 제어 동작을 수행할 수 있다. 또한, 센서(190)는 전자 장치(100)의 주변 환경 정보를 감지할 수 있다. 프로세서(120)는 센서(190)에서 감지된 주변 환경 정보에 기초하여 대응되는 제어 동작을 수행할 수 있다. 예를 들어, 센서(190)는 가속도 센서, 중력 센서, 자이로 센서, 지자기 센서, 방향 센서, 모션 인식 센서, 근접 센서, 전압계, 전류계, 기압계, 습도계, 온도계, 조도 센서, 열 감지 센서, 터치 센서, 적외선 센서, 초음파 센서 등을 포함할 수 있다.

전자 장치(100)는 상술한 구성을 모두 포함할 수 있고, 일부 구성을 포함할 수도 있다. 또한, 전자 장치(100)는 상술한 구성 이외에도 다양한 기능을 수행하는 다른 구성을 더 포함할 수도 있다. 지금까지 전자 장치(100)의 구성을 설명하였다. 아래에서는 영상 정합 인공 지능 모델을 학습시키는 과정 및 학습된 영상 정합 인공 지능 모델을 이용하여 타겟 영상을 생성하는 과정을 설명한다.

도 3은 본 개시의 일 실시 예에 따른 촬영된 영상으로부터 다중 레이어 이미지를 생성하는 과정을 설명하는 도면이고, 도 4는 본 개시의 일 실시 예에 따른 생성된 다중 레이어 이미지의 이미지 픽셀 위치 변환을 수행하는 과정을 설명하는 도면이며, 도 5는 본 개시의 일 실시 예에 따른 이미지 픽셀 위치 변환이 수행된 영상을 나타내는 도면이다. 도 3 내지 도 5를 참조하여 타겟 영상의 생성 과정을 설명한다.

도 3을 참조하면, 제1 물체(1)와 제2 물체(3)를 포함하는 좌측 영상(11)이 도시되어 있다. 전자 장치(100)는 영상 정합 인공 지능 모델에 좌측 영상(11) 및 좌측 영상(11)을 촬영한 카메라의 파라미터 정보를 입력할 수 있다. 상술한 바와 같이, 영상 정합 인공 지능 모델은 메모리에 저장되고 프로세서로 로딩되어 학습 과정을 수행할 있다. 또는, 영상 정합 인공 지능 모델은 외부 장치에 저장되고, 전자 장치(100)는 촬영된 영상 및 카메라 파라미터 정보를 외부 장치로 전송하여 영상 정합 인공 지능 모델을 학습시킬 수 있다.

전자 장치(100)는 촬영된 좌측 영상(11)을 기 설정된 개수의 뎁스 레이어(11-1, 11-2, 11-3, …, 11-n)로 분류할 수 있다. 기 설정된 개수의 뎁스 레이어(11-1, 11-2, 11-3, …, 11-n)로 분류된 영상 세트는 다중 레이어 이미지라고 칭할 수 있다.

일 실시 예로서, 기 설정된 개수의 뎁스 레이어(11-1, 11-2, 11-3, …, 11-n)는 32개일 수 있다. 그리고, 제1 물체(1)는 제2 레이어(11-2)에 포함될 수 있고, 제2 물체(3)는 제3 레이어(11-3)에 포함될 수 있다. 즉, 전자 장치(100)는 물체를 포함하는 좌측 영상(11)를 기 설정된 개수의 뎁스 레이어(11-1, 11-2, 11-3, …, 11-n)로 분류하여 다중 레이어 이미지를 생성할 수 있다. 각 레이어(11-1, 11-2, 11-3, …, 11-n)는 물체(1, 3)의 뎁스에 따라 서로 다른 물체를 포함할 수 있다.

도 4를 참조하면 복수의 뎁스 레이어(11-1, 11-2, 11-3, …, 11-n)를 포함하는 다중 레이어 이미지가 타겟 영상의 위치로 이미지 픽셀 위치 변환이 수행된 다중 레이어 이미지가 도시되어 있고, 도 5를 참조하면 이미지 픽셀 위치 변환이 수행된 다중 레이어 이미지를 한 장으로 생성한 타겟 영상이 도시되어 있다.

전자 장치(100)는 다중 레이어 이미지의 각 레이어를 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행할 수 있다. 영상의 이미지 픽셀 위치 변환 과정은 좌측 영상을 촬영한 카메라의 파라미터 정보 및 우측 영상을 촬영한 카메라의 파라미터 정보에 기초하여 변환 공식을 이용하여 수행될 수 있다. 영상의 이미지 픽셀 위치 변환 과정은 공지 기술이고, 본 개시의 특징이 아니므로 구체적인 설명은 생략한다. 전자 장치(100)가 좌측 영상의 다중 레이어 이미지를 이미지 픽셀 위치 변환을 수행하면, 다중 레이어 이미지의 각 뎁스 레이어에 포함된 물체는 동일한 뎁스 레이어에 포함될 수 있다. 즉, 제1 물체(1)는 제2 레이어(11-2)에 포함될 수 있고, 제2 물체(3)는 제3 레이어(11-3)에 포함될 수 있다. 다만, 타겟 영상의 위치는 좌측 영상을 기준으로 우측에 위치하기 때문에 물체가 포함된 위치가 변경될 수 있다. 예를 들어, 도 3에 도시된 좌측 영상(11) 또는 좌측 영상의 다중 레이어 이미지에는 제1 및 제2 물체(1, 3)가 영상의 우측 영역에 위치하고 있으나, 생성된 타겟 영상(21) 또는 이미지 픽셀 위치 변환이 수행된 다중 레이어 이미지(제1 다중 레이어 이미지)에는 제1 및 제2 물체(1, 3)가 영상의 중앙 영역에 위치할 수 있다.

전자 장치(100)는 상술한 과정을 우측 영상에 대해서도 수행할 수 있다. 타겟 영상을 기준으로 좌측 영상은 좌측 방향의 영상이고, 우측 영상은 우측 방향의 영상이다. 따라서, 타겟 영상에 포함된 물체는 좌측 영상 및 우측 영상 모두에 포함될 수 있다. 즉, 좌측 영상(11)에 포함된 제1 및 제2 물체(1, 3)는 우측 영상에도 포함될 수 있다. 다만, 우측 영상은 타겟 영상을 기준으로 우측 방향의 영상이므로, 우측 영상에는 제1 및 제2 물체(1, 3)가 영상의 좌측 영역에 위치할 수 있다. 그리고, 전자 장치(100)는 우측 영상으로부터 다중 레이어 이미지를 생성하고, 생성된 다중 레이어 이미지를 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행하여 이미지 픽셀 위치 변환이 수행된 다중 레이어 이미지(제2 다중 레이어 이미지)를 생성할 수 있다. 제2 다중 레이어 이미지에는 제1 다중 레이어 이미지와 유사하게 제1 및 제2 물체(1, 3)가 영상의 중앙 영역에 위치할 수 있다. 영상 정합 인공 지능 모델은 이미지 픽셀 위치 변환이 수행된 제1 및 제2 다중 레이어 이미지의 각 레이어의 손실 값을 획득하고, 획득된 손실 값을 이용하여 다중 레이어 이미지를 학습할 수 있다. 예를 들어, 제1 다중 레이어 이미지의 손실 값 및 제2 다중 레이어 이미지의 손실 값이 0이나 기 설정된 값 이하인 경우, 영상 정합 인공 지능 모델의 다중 레이어 이미지 학습이 완료될 수 있다. 그리고, 전자 장치(100)(또는, 영상 정합 인공 지능 모델)는 제1 다중 레이어 이미지 및 제2 다중 레이어 이미지에 대한 학습이 완료되면, 제1 다중 레이어 이미지를 기초로 제1 타겟 영상(21)을 생성하고, 제2 다중 레이어 이미지를 기초로 제2 타겟 영상을 생성할 수 있다.

상술한 바와 같이, 상술한 영상 정합 인공 지능 모델의 다중 레이어 이미지 학습 과정에서 제1 다중 레이어 이미지 손실 값 및 제2 다중 레이어 이미지 손실 값이 0이나 기 설정된 값 이하인 경우, 이론적으로 화질 손실 값도 0일 수 있다. 즉, 좌측 영상으로부터 생성된 제1 타겟 영상(21)과 우측 영상으로부터 생성된 제2 타겟 영상(31)은 정합되어야 한다. 그러나, 다중 레이어 이미지의 이미지 픽셀 위치 변환 학습 과정에서 이미지 픽셀 위치 변환이 수행된 다중 레이어 이미지의 기준 영상(또는, 정답 영상)이 존재하지 않기 때문에 상대적인 영상인 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 또는 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지가 기준 영상으로 사용된다. 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지는 촬영된 좌측 영상에서 생성된 다중 레이어 이미지를 이미지 픽셀 위치 변환을 수행한 영상이고, 이미지 픽셀 위치 변환된 제2 다중 레이어 이미지는 촬영된 우측 영상에서 생성된 다중 레이어 이미지를 이미지 픽셀 위치 변환을 수행한 영상이다. 즉, 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 각 레이어에 대한 제1 다중 레이어 이미지 손실 값은 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 각 레이어를 기준으로 획득되고, 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 각 레이어에 대한 제2 다중 레이어 이미지 손실 값은 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 각 레이어를 기준으로 획득될 수 있다. 따라서, 제1 다중 레이어 이미지로 생성된 제1 타겟 영상(21)과 제2 다중 레이어 이미지로 생성된 제2 타겟 영상(31)은 도 6에 도시된 바와 같이 완전히 정합되지 않을 수 있고, 영상 정합 인공 지능 모델은 별도의 영상 정합 학습 과정이 수행되어야 한다.

즉, 영상 정합 인공 지능 모델은 생성된 제1 타겟 영상(21)과 생성된 제2 타겟 영상(31)을 평균한 평균 영상을 생성할 수 있다. 그리고, 영상 정합 인공 지능 모델은 생성된 평균 영상과 기 설정된 기준 영상 간의 화질 손실 값을 획득할 수 있다. 그리고, 영상 정합 인공 지능 모델은 획득된 화질 손실 값에 기초하여 평균 영상의 다중 레이어 이미지 각각의 영상 정합을 학습시킬 수 있다.

도 7a는 좌측 및 우측 영상으로부터 각각 이미지 픽셀 위치 변환이 수행된 영상을 합성한 타겟 영상을 나타내는 도면이고, 도 7b는 본 개시의 일 실시 예에 따른 정합도를 고려하여 획득한 타겟 영상을 나타내는 도면이다. 도 7a에 도시된 영상은 제1 타겟 영상과 제2 타겟 영상의 정합도가 일치하지 않아 고스트 현상이 나타난다. 반면에, 도 7b에 도시된 영상은 제1 타겟 영상과 제2 타겟 영상의 정합도가 고려되어 고스트 현상이 제거되어 선명하게 나타난다.

도 8a를 참조하면, 전자 장치(100)는 좌측 영상으로부터 좌측 영상 다중 레이어 이미지(41)를 생성하고, 우측 영상으로부터 우측 영상 다중 레이어 이미지(51)를 생성할 수 있다. 전자 장치(100)는 생성된 좌측 영상 다중 레이어 이미지(41)를 우측 방향으로 이미지 픽셀 위치 변환을 수행하여 제1 다중 레이어 이미지(42)로 변환하고, 생성된 우측 영상 다중 레이어 이미지(51)를 좌측 방향으로 이미지 픽셀 위치 변환을 수행하여 제2 다중 레이어 이미지(52)로 변환할 수 있다. 전자 장치(100)는 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지(42)의 각 레이어(42-1, …, 42-30)와 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지(52)의 각 레이어(52-1, …, 52-30)의 각 레이어 간의 다중 레이어 이미지의 레이어 손실 값(60)을 획득할 수 있다. 전자 장치(100)는 획득된 각 레이어의 다중 레이어 이미지의 레이어 손실 값(60)에 기초하여 영상 정합 인공 지능 모델의 다중 레이어 이미지를 학습시킬 수 있다.

전자 장치(100)는 영상 정합 인공 지능 모델의 다중 레이어 이미지 학습이 완료되면, 제1 다중 레이어 이미지로부터 1장의 제1 타겟 영상(45)을 생성하고, 제2 다중 레이어 이미지로부터 1장의 제2 타겟 영상(55)을 생성할 수 있다. 그리고, 전자 장치(100)는 제1 타겟 영상(45)과 제2 타겟 영상(55)을 평균한 평균 영상을 생성할 수 있다. 전자 장치(100)는 생성된 평균 영상과 기 설정된 기준 영상 간의 화질 손실 값(63)을 획득할 수 있다. 전자 장치(100)는 획득된 화질 손실 값(63)에 기초하여 영상 정합 인공 지능 모델의 영상 정합 과정을 학습시킬 수 있다. 즉, 전자 장치(100)는 획득된 화질 손실 값(63)에 기초하여 평균 영상 다중 레이어 이미지 각각의 영상 정합 과정을 학습시킬 수 있다. 영상 정합 인공 지능 모델은 다중 레이어 이미지 손실 값(60) 및 화질 손실 값(63)의 두 가지 요소의 손실 값인 네트워크 학습 손실 값(65)에 기초하여 타겟 영상을 생성하는 과정을 학습할 수 있다.

도 9를 참조하면, 두 개의 카메라(200a, 200b)를 이용하여 각각 좌측 영상 및 우측 영상을 촬영하는 과정이 도시되어 있다. 좌측 카메라(200a)는 물체(5)의 좌측 영역을 촬영하므로 물체의 우측 영역(5-1)에 대한 정보를 획득할 수 없다. 우측 카메라(200b)는 물체(5)의 우측 영역을 촬영하므로 물체의 좌측 영역(5-2)에 대한 정보를 획득할 수 없다. 상술한 타겟 영상을 생성하는 학습 과정에서는 우측 영상에만 포함된 물체의 우측 영역(5-1)에 대한 정보와 좌측 영상에만 포함된 물체의 좌측 영역(5-2)에 대한 정보도 함께 학습될 수 있다. 따라서, 좌측 영상 및 우측 영상의 일부에만 포함된 물체의 우측 영역(5-1) 및 좌측 영역(5-2)에 대한 정보에 의해 타겟 영상에는 약간의 에러가 포함될 수 있다.

만일, 두 개의 카메라(200a, 200b)가 뎁스 카메라를 포함한다면, 두 개의 카메라(200a, 200b)는 촬영된 좌측 영상 및 우측 영상 이외에 좌측 뎁스 맵과 우측 뎁스 맵에 대한 정보를 획득할 수 있다. 그리고, 획득된 좌측 뎁스 맵과 우측 뎁스 맵에 대한 정보는 전자 장치(100)로 제공될 수 있다. 전자 장치(100)는 제공된 좌측 뎁스 맵과 우측 뎁스 맵을 고려하여 물체(5)의 중첩 영역을 식별하고, 식별된 중첩 영역에 대해서 이미지 픽셀 위치 변환 및 정합 과정을 수행함으로써 에러를 제거할 수 있다.

도 10을 참조하면, 도 8a에서 설명한 바와 동일하게 전자 장치(100)는 좌측 영상 및 우측 영상으로부터 각각 제1 다중 레이어 이미지(42) 및 제2 다중 레이어 이미지(52)를 획득할 수 있다. 한편, 전자 장치(100)는 좌측 뎁스 맵(43)과 우측 뎁스 맵(53)도 영상 및 카메라 파라미터와 함께 획득할 수 있다. 전자 장치(100)는 좌측 뎁스 맵(43)과 우측 뎁스 맵(53)에 기초하여 제1 다중 레이어 이미지(42) 및 제2 다중 레이어 이미지(52)의 중첩된 영역을 식별할 수 있다. 상술한 바와 같이, 중첩된 영역은 우측 영상에만 포함된 물체의 우측 영역(5-1)과 좌측 영상에만 포함된 물체의 좌측 영역(5-2)이 제거된 영역을 의미한다.

전자 장치(100)는 식별된 중첩 영역에 기초하여 다중 레이어 이미지 레이어 손실 값(60)을 획득하여 영상 정합 인공 지능 모델의 다중 레이어 이미지를 학습시키고, 타겟 영상의 평균 영상 및 기 설정된 기준 영상에 기초한 화질 손실 값을 획득하여 영상 정합 인공 지능 모델의 영상 정합 과정을 학습시킬 수 있다.

영상 정합 인공 지능 모델의 학습이 완료되면, 전자 장치(100)는 학습된 영상 정합 인공 지능 모델에 기초하여 타겟 영상을 생성할 수 있다. 예를 들어, 전자 장치(100)는 임의의 좌측 영상 및 우측 영상, 좌측 영상을 촬영한 카메라의 파리미터 정보, 우측 영상을 촬영한 카메라의 파라미터 정보를 입력받을 수 있다. 그리고, 전자 장치(100)는 학습된 영상 정합 인공 지능 모델을 이용하여 타겟 영상을 생성할 수 있다. 예를 들어, 전자 장치(100)는 학습된 영상 정합 인공 지능 모델에 기초하여 좌측 영상에 대한 좌측 다중 레이어 이미지와 우측 영상에 대한 우측 다중 레이어 이미지를 생성할 수 있다. 그리고, 전자 장치(100)는 좌측 다중 레이어 이미지 및 우측 다중 레이어 이미지의 이미지 픽셀 위치를 변환시켜 각각 좌측 타겟 영상 및 우측 타겟 영상을 생성할 수 있다. 전자 장치(100)는 좌측 타겟 영상 및 우측 타겟 영상을 평균하여 임시 정합 영상을 생성하고, 생성된 임시 정합 영상에 기초하여 최종 타겟 영상을 생성할 수 있다.

도 11을 참조하면, 전자 장치(100)는 타겟 영상을 기준으로 타겟 영상의 좌측 영상, 타겟 영상의 우측 영상, 좌측 영상을 촬영한 카메라의 제1 파라미터 정보 및 우측 영상을 촬영한 카메라의 제2 파라미터 정보를 입력받는다(S1110). 한편, 카메라가 뎁스 카메라를 포함하는 경우, 전자 장치(100)는 좌측 및 우측 뎁스 맵도 함께 입력받을 수 있다.

전자 장치(100)는 좌측 영상을 기 설정된 개수의 뎁스 레이어로 분류하여 제1 다중 레이어 이미지를 생성하고, 우측 영상을 기 설정된 개수의 뎁스 레이어로 분류하여 제2 다중 레이어 이미지를 생성한다(S1120). 전자 장치(100)는 제1 파라미터 정보 및 제2 파라미터 정보에 기초하여 생성된 제1 다중 레이어 이미지 및 제2 다중 레이어 이미지 각각을 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행한다(S1130). 전자 장치(100)는 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 기초로 다중 레이어 이미지의 레이어 손실 값을 획득하고, 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 각각 학습시킨다(S1140).예를 들어, 전자 장치(100)는 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 뎁스 레이어를 기초로 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 뎁스 레이어 각각의 제1 다중 레이어 이미지의 레이어 손실 값을 획득할 수 있다. 또한, 전자 장치(100)는 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 뎁스 레이어를 기초로 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 뎁스 레이어 각각의 제2 다중 레이어 이미지의 레이어 손실 값을 획득할 수 있다.

일 실시 예로서, 전자 장치(100)가 좌측 및 우측 뎁스 맵도 입력받은 경우, 전자 장치(100)는 입력된 좌측 뎁스 맵 및 우측 뎁스 맵에 기초하여 제1 다중 레이어 이미지 및 제2 다중 레이어 이미지의 중첩된 영역을 식별할 수 있다. 그리고, 전자 장치(100)는 식별된 중첩된 영역에 기초하여 다중 레이어 이미지의 레이어 손실 값을 획득할 수 있다. 전자 장치(100)는 획득된 제1 다중 레이어 이미지의 레이어 손실 값에 기초하여 제1 다중 레이어 이미지를 학습시키고, 획득된 제2 다중 레이어 이미지의 레이어 손실 값에 기초하여 제2 다중 레이어 이미지를 학습시킬 수 있다.

전자 장치(100)는 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지, 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지 및 기 설정된 기준 영상에 기초하여 영상 정합 인공 지능 모델의 영상 정합을 학습시킨다(S1150). 예를 들어, 전자 장치(100)는 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 각 뎁스 레이어를 포함하는 제1 타겟 영상 및 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 각 뎁스 레이어를 포함하는 제2 타겟 영상을 생성할 수 있다. 그리고, 전자 장치(100)는 생성된 제1 타겟 영상 및 상기 생성된 제2 타겟 영상을 평균한 평균 타겟 영상을 생성할 수 있다. 전자 장치(100)는 생성된 평균 타겟 영상 및 기 설정된 기준 영상 간의 화질 손실 값을 획득하고, 획득된 화질 손실 값에 기초하여 영상 정합 인공 지능 모델의 영상 정합을 학습시킬 수 있다.

영상 정합 인공 지능 모델의 학습이 완료되면, 전자 장치(100)는 학습된 영상 정합 인공 지능 모델을 이용하여 타겟 영상을 생성할 수 있다. 예를 들어, 전자 장치(100)는 임의의 좌측 영상, 임의의 우측 영상, 좌측 영상을 촬영한 카메라의 제3 파리미터 정보 및 우측 영상을 촬영한 카메라의 제4 파라미터 정보를 입력받을 수 있다. 그리고, 전자 장치(100)는 좌측 영상에 대한 제3 다중 레이어 이미지를 생성하고, 우측 영상에 대한 제4 다중 레이어 이미지를 생성할 수 있다.

전자 장치(100)는 학습된 영상 정합 인공 지능 모델에 기초하여 제3 다중 레이어 이미지를 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행한 제3 타겟 영상 및 제4 다중 레이어 이미지를 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행한 제4 타겟 영상을 생성하고, 생성된 제3 타겟 영상 및 생성된 제4 타겟 영상을 평균한 임시 정합 영상을 생성할 수 있다. 그리고, 전자 장치(100)는 학습된 영상 정합 인공 지능 모델을 이용하여 생성된 임시 정합 영상으로부터 최종 타겟 영상을 생성할 수 있다.

상술한 다양한 실시 예에 따른 전자 장치의 제어 방법은 컴퓨터 프로그램 제품으로 제공될 수도 있다. 컴퓨터 프로그램 제품은 S/W 프로그램 자체 또는 S/W 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)를 포함할 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

본 개시의 효과들은 이상에서 언급된 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 상술한 기재로부터 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.

또한, 이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims

타겟 영상을 기준으로 상기 타겟 영상의 좌측 영상, 상기 타겟 영상의 우측 영상, 상기 좌측 영상을 촬영한 카메라의 제1 파라미터 정보 및 상기 우측 영상을 촬영한 카메라의 제2 파라미터 정보를 입력받는 단계;

상기 좌측 영상을 기 설정된 개수의 뎁스 레이어로 분류하여 제1 다중 레이어 이미지를 생성하고, 상기 우측 영상을 상기 기 설정된 개수의 뎁스 레이어로 분류하여 제2 다중 레이어 이미지를 생성하는 단계;

상기 제1 파라미터 정보 및 상기 제2 파라미터 정보에 기초하여 상기 생성된 제1 다중 레이어 이미지 및 상기 제2 다중 레이어 이미지 각각을 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행하는 단계;

상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 기초로 다중 레이어 이미지의 레이어 손실 값(loss)을 획득하고, 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 각각 학습시키는 단계;

상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지, 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지 및 기 설정된 기준 영상에 기초하여 영상 정합 인공 지능 모델의 영상 정합을 학습시키는 단계;를 포함하는 전자 장치의 제어 방법.
제1항에 있어서,

상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 각각 학습시키는 단계는,

상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 뎁스 레이어를 기초로 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 뎁스 레이어 각각의 제1 다중 레이어 이미지의 레이어 손실 값을 획득하고, 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 뎁스 레이어를 기초로 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 뎁스 레이어 각각의 제2 다중 레이어 이미지의 레이어 손실 값을 획득하며, 상기 획득된 제1 다중 레이어 이미지의 레이어 손실 값에 기초하여 상기 제1 다중 레이어 이미지를 학습시키고, 상기 획득된 제2 다중 레이어 이미지의 레이어 손실 값에 기초하여 상기 제2 다중 레이어 이미지를 학습시키는, 전자 장치의 제어 방법.
제1항에 있어서,

상기 영상 정합을 학습시키는 단계는,

상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 각 뎁스 레이어를 포함하는 제1 타겟 영상 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 각 뎁스 레이어를 포함하는 제2 타겟 영상을 생성하는, 전자 장치의 제어 방법.
제3항에 있어서,

상기 영상 정합을 학습시키는 단계는,

상기 생성된 제1 타겟 영상 및 상기 생성된 제2 타겟 영상을 평균한 평균 타겟 영상을 생성하는, 전자 장치의 제어 방법.
제4항에 있어서,

상기 영상 정합을 학습시키는 단계는,

상기 생성된 평균 타겟 영상 및 상기 기 설정된 기준 영상 간의 화질 손실 값을 획득하고, 상기 획득된 화질 손실 값에 기초하여 상기 영상 정합 인공 지능 모델의 영상 정합을 학습시키는, 전자 장치의 제어 방법.
제1항에 있어서,

상기 입력받는 단계는,

상기 좌측 영상을 촬영한 카메라의 제1 뎁스 맵 및 상기 우측 영상을 촬영한 카메라의 제2 뎁스 맵을 입력받는, 전자 장치의 제어 방법.
제6항에 있어서,

상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 각각 학습시키는 단계는,

상기 입력된 제1 뎁스 맵 및 상기 입력된 제2 뎁스 맵에 기초하여 상기 제1 다중 레이어 이미지 및 상기 제2 다중 레이어 이미지의 중첩된 영역을 식별하고, 상기 식별된 중첩된 영역에 기초하여 상기 다중 레이어 이미지의 레이어 손실 값을 획득하는, 전자 장치의 제어 방법.
제1항에 있어서,

대상 좌측 영상, 대상 우측 영상, 상기 대상 좌측 영상을 촬영한 카메라의 제3 파리미터 정보 및 상기 대상 우측 영상을 촬영한 카메라의 제4 파라미터 정보를 입력받는 단계;

상기 대상 좌측 영상에 대한 제3 다중 레이어 이미지를 생성하고, 상기 대상 우측 영상에 대한 제4 다중 레이어 이미지를 생성하는 단계; 및

학습된 영상 정합 인공 지능 모델에 기초하여 최종 타겟 영상을 생성하는 단계;를 더 포함하는 전자 장치의 제어 방법.
제8항에 있어서,

상기 최종 타겟 영상을 생성하는 단계는,

상기 학습된 영상 정합 인공 지능 모델에 기초하여 상기 제3 다중 레이어 이미지를 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행한 제3 타겟 영상 및 상기 제4 다중 레이어 이미지를 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행한 제4 타겟 영상을 생성하고, 상기 생성된 제3 타겟 영상 및 상기 생성된 제4 타겟 영상을 평균한 임시 정합 영상을 생성하는, 전자 장치의 제어 방법.
제9항에 있어서,

상기 최종 타겟 영상을 생성하는 단계는,

상기 학습된 영상 정합 인공 지능 모델을 이용하여 상기 생성된 임시 정합 영상으로부터 상기 최종 타겟 영상을 생성하는, 전자 장치의 제어 방법.
입력 인터페이스; 및

프로세서;를 포함하고,

상기 프로세서는,

타겟 영상을 기준으로 상기 타겟 영상의 좌측 영상, 상기 타겟 영상의 우측 영상, 상기 좌측 영상을 촬영한 카메라의 제1 파라미터 정보 및 상기 우측 영상을 촬영한 카메라의 제2 파라미터 정보를 입력받도록 상기 입력 인터페이스를 제어하고,

상기 좌측 영상을 기 설정된 개수의 뎁스 레이어로 분류하여 제1 다중 레이어 이미지를 생성하고, 상기 우측 영상을 상기 기 설정된 개수의 뎁스 레이어로 분류하여 제2 다중 레이어 이미지를 생성하며,

상기 제1 파라미터 정보 및 상기 제2 파라미터 정보에 기초하여 상기 생성된 제1 다중 레이어 이미지 및 상기 제2 다중 레이어 이미지 각각을 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행하고,

상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 기초로 다중 레이어 이미지의 레이어 손실 값(loss)을 획득하며,

상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 각각 학습시키고,

상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지, 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지 및 기 설정된 기준 영상에 기초하여 영상 정합 인공 지능 모델의 영상 정합을 학습시키는, 전자 장치.
제11항에 있어서,

상기 프로세서는,

상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 뎁스 레이어를 기초로 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 뎁스 레이어 각각의 제1 다중 레이어 이미지의 레이어 손실 값을 획득하고, 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 뎁스 레이어를 기초로 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 뎁스 레이어 각각의 제2 다중 레이어 이미지의 레이어 손실 값을 획득하며, 상기 획득된 제1 다중 레이어 이미지의 레이어 손실 값에 기초하여 상기 제1 다중 레이어 이미지를 학습시키고, 상기 획득된 제2 다중 레이어 이미지의 레이어 손실 값에 기초하여 상기 제2 다중 레이어 이미지를 학습시키는, 전자 장치.
제11항에 있어서,

상기 프로세서는,

상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 각 뎁스 레이어를 포함하는 제1 타겟 영상 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 각 뎁스 레이어를 포함하는 제2 타겟 영상을 생성하는, 전자 장치.
제13항에 있어서,

상기 프로세서는,

상기 생성된 제1 타겟 영상 및 상기 생성된 제2 타겟 영상을 평균한 평균 타겟 영상을 생성하는, 전자 장치.
제14항에 있어서,

상기 프로세서는,

상기 생성된 평균 타겟 영상 및 상기 기 설정된 기준 영상 간의 화질 손실 값을 획득하고, 상기 획득된 화질 손실 값에 기초하여 상기 영상 정합 인공 지능 모델의 영상 정합을 학습시키는, 전자 장치.