KR20220063331A

KR20220063331A - 딥러닝 기반 이미지 재구성 장치 및 그 방법

Info

Publication number: KR20220063331A
Application number: KR1020200149013A
Authority: KR
Inventors: 박진영
Original assignee: 주식회사 엔닷라이트
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2022-05-17

Abstract

딥러닝 기반 이미지 재구성 장치 및 그 방법이 제공된다. 본 개시의 몇몇 실시예들에 따른 이미지 재구성 장치는, 하나 이상의 인스트럭션들을 저장하는 메모리와, 상기 저장된 하나 이상의 인스트럭션들을 실행함으로써 타깃 객체에 대한 2차원의 입력 이미지를 획득하고, 딥러닝 모델을 통해 상기 입력 이미지를 상기 타깃 객체에 대한 3차원의 복셀 이미지로 재구성하는 프로세서를 포함하되, 상기 딥러닝 모델은 상기 입력 이미지와 관련된 제1 학습데이터를 이용하여 학습되는 제1 딥러닝 모델 및 상기 입력 이미지가 분류된 객체 클래스에 포함된 2차원 멀티뷰 이미지와 관련된 제2 학습데이터를 이용하여 학습되는 제2 딥러닝 모델을 포함할 수 있다. 이러한 이미지 재구성 장치는 딥러닝 모델을 이용함으로써 이미지 재구성에 대한 정확도를 향상시킬 수 있다.

Description

딥러닝 기반 이미지 재구성 장치 및 그 방법{APPARATUS FOR RECONSTRUCTING IMAGE BASED ON DEEP-LEARNING AND METHOD THEREOF}

본 개시는 이미지 재구성 방법 및 장치에 관한 것이다. 보다 자세하게는, 딥러닝 모델(deep-learning model)을 이용하여 타깃 객체에 대한 2차원의 이미지를 3차원의 복셀(voxel) 이미지로 재구성(reconstructing)할 수 있는 장치 및 그 장치에서 수행되는 방법에 관한 것이다.

최근, 증강 현실(augmented reality), 가상 현실(virtual reality)에 관한 관심이 높아지면서 3차원 입체 영상과 관련된 기술에 관한 연구가 활발하고 진행되고 있다. 또한, 이러한 연구의 일환으로, 2차원 이미지를 3차원 이미지로 재구성(복원)하는 기술(이하, "이미지 재구성 기술")에 관한 연구도 진행되고 있다.

지금까지 몇몇 이미지 재구성 기술이 제안된 바 있다. 가령, 명암차를 기준으로 주어진 2차원 이미지에서 윤곽 포인트를 검출하고, 검출된 윤곽 포인트의 깊이 추정값을 토대로 3차원 이미지를 재구성하는 기술이 제안된 바 있다(특허문헌 1 참조). 또한, 서로 다른 각도에서 촬영된 복수의 이미지를 활용하여 3차원 이미지를 재구성하는 기술도 제안된 바 있다.

그러나, 제안된 기술들은 3차원 이미지의 재구성 정확도가 떨어지거나, 싱글뷰(single-view) 이미지만 주어진 경우에는 3차원 이미지를 재구성할 수 없다는 문제점을 지니고 있다.

한국등록특허 제10-1725166호 (2017.04.12 공개)

본 개시의 몇몇 실시예들을 통해 해결하고자 하는 기술적 과제는, 딥러닝 모델(deep-learning model)을 이용하여 타깃 객체에 대한 2차원의 싱글뷰(single-view) 이미지를 3차원의 복셀 이미지로 재구성할 수 있는 장치 및 그 장치에서 수행되는 방법에 관한 것이다.

본 개시의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 해결하기 위한, 본 개시의 몇몇 실시예들에 따른 이미지 재구성 장치는, 하나 이상의 인스트럭션들(instructions)을 저장하는 메모리;

상기 저장된 하나 이상의 인스트럭션들을 실행함으로써,

타깃 객체에 대한 2차원의 입력 이미지를 획득하고,

딥러닝 모델을 통해 상기 입력 이미지를 상기 타깃 객체에 대한 3차원의 복셀(voxel) 이미지로 재구성하는 프로세서를 포함하되,

상기 딥러닝 모델은, 상기 입력 이미지와 관련된 제1 학습데이터를 이용하여 학습되는 제1 딥러닝 모델; 및 상기 입력 이미지가 분류된 객체 클래스에 포함된 2차원 멀티뷰 이미지와 관련된 제2 학습데이터를 이용하여 학습되는 제2 딥러닝 모델;을 포함하는, 이미지 재구성 장치.

한편, 상기 제1 딥러닝 모델은 상기 입력 이미지를 제1 복셀 이미지로 재구성하는 제1 이미지 재구성 모델과 실제 이미지와 페이크 이미지를 판별하는 제1 판별기를 포함하고, 상기 제1 이미지 재구성 모델은 재구성된 제1 복셀 이미지와 정답 복셀 이미지 간의 차이에 기초하여 산출된 제1 오차에 기초하여 학습될 수 있다.

이 때, 상기 제2 딥러닝 모델은, 상기 입력 이미지를 클래시피케이션하는 객체 클래스 분류기; 상기 분류기에 의해 분류된 객체 클래스에 포함된 복수의 학습용 객체들 중 2차원 멀티뷰 이미지로 구성된 복수의 학습용 객체들을 선별하는 선별기; 상기 선별기로 선별된 상기 복수의 학습용 객체들 각각의 상기 2차원 멀티뷰 이미지를 제2 복셀 이미지로 재구성하는 제2 이미지 재구성 모델; 및 실제 이미지와 페이크 이미지를 판별하는 제2 판별기를 포함하고, 상기 제2 이미지 재구성 모델은 상기 제1 오차와 재구성된 제2 복셀 이미지와 정답 복셀 이미지 간의 차이에 기초하여 산출된 제2 오차에 기초하여 학습되는 것이 바람직하다.

나아가, 상기 딥러닝 모델은 상기 제1 딥러닝 모델에 제1 가중치를 부여하고 상기 제2 딥러닝 모델에 제2 가중치를 부여하여 수정된 멀티도메인 딥러닝 모델일 수 있다.

일부 실시예들에서, 상기 제2 이미지 재구성 모델은 상기 재구성된 복셀 이미지에 대해 프로젝션 연산을 수행하여 2차원의 프로젝션 이미지를 획득하는 과정, 상기 분류기를 통해 상기 프로젝션 이미지의 예측 클래스 정보를 획득하는 과정 및 상기 예측 클래스 정보와 상기 정답 클래스 정보를 비교하는 과정을 통해 산출된 제3 오차에 더 기초하여 학습될 수 있다.

여기서, 상기 제1 및 제2 이미지 재구성 모델들 각각은 상기 입력 이미지로부터 상기 타깃 객체에 대한 특징을 추출하는 인코더와 상기 추출된 특징을 디코딩하여 상기 복셀 이미지를 생성하는 디코더를 포함할 수 있다.

또한, 상기 제2 이미지 재구성 모델은 복수의 인코더, 복수의 디코더, 애그리게이터 및 리파이너를 포함하며, 상기 복수의 인코더는 상기 멀티뷰 이미지를 입력받아 상기 타깃 객체에 대한 복수의 특징을 추출하고, 상기 복수의 디코더는 상기 복수의 특징을 디코딩하여 복수의 볼륨 피처를 생성하며, 상기 애그리게이터는 상기 복수의 볼륨 피처를 애그리게이팅하고, 상기 리파이너는 신경망으로 구성되어 상기 애그리게이팅된 볼륨 피처를 상기 복셀 이미지로 재구성할 수 있다.

일부 실시예들에서, 상기 복수의 디코더는 상기 멀티뷰 이미지에 대한 깊이 정보를 입력받고, 상기 입력된 깊이 정보를 더 디코딩하여 상기 복수의 볼륨 피처를 생성할 수 있다.

여기서, 상기 제2 딥러닝 모델은 제1 뷰에 대응되는 이미지를 제2 뷰에 대응되는 이미지로 변환하는 GAN(Generative Adversarial Networks) 모듈을 더 포함하고, 상기 프로세서는, 상기 GAN 모듈을 통해 상기 제1 뷰에 대응되는 제1 이미지를 상기 제2 뷰에 대응되는 제2 이미지로 변환함으로써 상기 멀티뷰 이미지를 구성할 수 있다.

한편, 이미지 재구성 장치는, 하나 이상의 인스트럭션들(instructions)을 저장하는 메모리; 상기 하나 이상의 인스트럭션들을 실행함으로써, 타깃 객체에 대한 멀티뷰 이미지를 입력받고, 상기 멀티뷰 이미지로부터 2차원의 깊이 정보를 추출하며, 상기 깊이 정보를 기초로 상기 타깃 객체에 대한 볼륨 데이터를 생성하고, 딥러닝 모델을 통해 상기 볼륨 데이터를 상기 타깃 객체에 대한 3차원의 복셀 이미지로 재구성하는 프로세서를 포함할 수 있다.

상술한 본 개시의 몇몇 실시예들에 따르면, 딥러닝 모델을 통해 타깃 객체에 대한 2차원 이미지가 3차원의 복셀 이미지로 재구성될 수 있는데, 딥러닝 모델을 이용함으로써 3차원 복셀 이미지에 대한 재구성 정확도가 크게 향상될 수 있다.

보다 구체적으로, 2D 싱글뷰 이미지만이 주어진 경우에도 입력 이미지가 분류된 객체 클래스에 포함된 복수의 학습용 객체들 중 2D 멀티뷰 이미지로 구성된 복수의 학습용 객체들을 선별 후 병렬적 학습을 수행함으로써, 딥러닝 모델을 통해 추정된 3차원 형상 정보로부터 3차원 복셀 이미지가 더욱 정확하게 재구성될 수 있다.

본 개시의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 개시의 몇몇 실시예들에 따른 이미지 재구성 장치와 그의 입출력 데이터를 설명하기 위한 예시적인 도면이다.
도 2는 본 개시의 일부 실시예들에 따른 딥러닝 기반 이미지 재구성 방법을 설명하기 위한 예시적인 흐름도이다.
도 3은 본 개시의 일부 실시예들에 따른 딥러닝 모델의 구조와 학습 방식을 설명하기 위한 예시적인 도면이다.
도 4는 본 개시의 몇몇 실시예들에 따른 이미지 재구성 장치를 구현할 수 있는 예시적인 컴퓨팅 장치를 도시한다.

이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시예들을 상세히 설명한다. 본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 개시의 기술적 사상을 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.

각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.

또한, 본 개시의 구성요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성요소 사이에 또 다른 구성요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

본 개시에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

이하, 본 개시의 다양한 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.

도 1은 본 개시의 몇몇 실시예들에 따른 이미지 재구성 장치(10)와 그의 입출력 데이터를 설명하기 위한 예시적인 도면이다.

도 1에 도시된 바와 같이, 이미지 재구성 장치(10)는 타깃 객체(e.g. 비행기)에 대한 2차원의 입력 이미지(11)를 3차원의 복셀 이미지(13)로 재구성할 수 있는 컴퓨팅 장치일 수 있다. 즉, 이미지 재구성 장치(10)는 타깃 객체에 대한 2차원 이미지(11)를 입력받고, 이를 3차원의 복셀 이미지(13)로 재구성하여 출력할 수 있다. 이때, 입력 이미지(11)는 도시된 바와 같이 싱글뷰(single-view) 이미지일 수 있고, 경우에 따라 멀티뷰(multi-view) 이미지가 될 수도 있다. 이하에서는, 설명의 편의상, 이미지 재구성 장치(10)를 "재구성 장치(10)"로 약칭하도록 한다.

상기 컴퓨팅 장치는, 노트북, 데스크톱(desktop), 랩탑(laptop) 등이 될 수 있으나, 이에 국한되는 것은 아니며 컴퓨팅 기능이 구비된 모든 종류의 장치를 포함할 수 있다.

본 개시의 다양한 실시예들에서, 재구성 장치(10)는 딥러닝 모델(deep-learning model)을 이용하여 2차원의 입력 이미지(11)를 3차원의 복셀 이미지(13)로 재구성할 수 있다. 이에 따라, 3차원 복셀 이미지의 재구성 정확도가 크게 향상될 수 있는데, 본 실시예에 관하여서는 추후 도 2 이하의 도면을 참조하여 상세하게 설명하도록 한다.

한편, 도 1은 재구성 장치(10)가 단일 컴퓨팅 장치로 구현된 것을 예로써 도시하고 있으나, 재구성 장치(10)는 복수개의 컴퓨팅 장치로 구현될 수도 있다. 예를 들어, 재구성 장치(10)의 제1 기능은 제1 컴퓨팅 장치에서 구현되고, 제2 기능은 제2 컴퓨팅 장치에서 구현될 수도 있다. 또는, 재구성 장치(10)의 특정 기능이 복수의 컴퓨팅 장치에서 구현될 수도 있다.

지금까지 도 1을 참조하여 본 개시의 몇몇 실시예들에 따른 재구성 장치(10)에 대하여 개략적으로 설명하였다. 이하에서는, 도 1에 예시된 재구성 장치(10)에 수행될 수 있는 딥러닝 기반 이미지 재구성 방법에 관하여 상세하게 설명하도록 한다.

이하에서 후술될 이미지 재구성 방법의 각 단계는 컴퓨팅 장치의 프로세서에 의해 실행되는 하나 이상의 인스트럭션들로 구현될 수 있으며, 특정 동작의 주어가 생략된 경우 재구성 장치(10)에 의하여 수행되는 것으로 이해될 수 있다. 다만, 경우에 따라 상기 이미지 재구성 방법의 일부 단계는 다른 컴퓨팅 장치에서 수행될 수도 있다.

먼저, 도 2 내지 도 3을 참조하여 본 개시의 제1 실시예에 따른 딥러닝 기반 이미지 재구성 방법에 대하여 설명하도록 한다.

도 2는 본 개시의 제1 실시예에 따른 딥러닝 기반 이미지 재구성 방법을 나타내는 예시적인 흐름도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.

도 2에 도시된 바와 같이, 본 실시예는 타깃 객체에 대한 2차원 원본 이미지를 획득하는 단계 S100에서 시작될 수 있다.

상기한 S100 단계 이후, 재구성 장치(10)는 타깃 객체에 대한 2차원 이미지와 3차원 복셀 이미지로 구성된 학습데이터를 이용하여 제1 딥러닝 모델을 학습시키는 단계(S210) 및 2차원 멀티뷰 이미지와 해당 객체들의 3차원 복셀 이미지를 이용하여 제2 딥러닝 모델을 학습시키는 단계(S220)를 병렬적으로 수행할 수 있다. 학습 데이터(셋)는 예를 들어 타깃 객체에 대한 2차원 이미지(셋)와 3차원의 정답 복셀 이미지(셋)로 구성될 수 있다.

본 단계 S210, S220 각각에서, 딥러닝 모델의 구조 및/또는 학습 방식은 다양하게 설계될 수 있으며, 이는 실시예에 따라 달라질 수 있다.

몇몇 실시예들에서, 도 3에 예시된 바와 같이, 상기 딥러닝 모델은 단대단(end-to-end) 방식으로 2차원 이미지를 3차원의 복셀 이미지로 재구성할 수 있는 제1 이미지 재구성 모델과, 2차원 원본 이미지에 기초하여 타깃 객체 클래스를 분류하고 분류된 객체 클래스에 포함된 복수의 학습용 객체들 중 2차원 멀티뷰 이미지로 구성된 복수의 학습용 객체들 선별하여 선별된 복수의 학습용 객체들에 대한 2차원 멀티뷰 이미지와 해당 객체들의 3차원 복셀 이미지로 재구성하는 제2 이미지 재구성 모델을 포함할 수 있다.

상기 제1 및 제2 이미지 재구성 모델들 각각은 예를 들어 타깃 객체에 대한 특징을 추출하는 인코더와 추출된 특징을 디코딩하여 복셀 이미지를 생성하는 디코더를 포함하도록 구성될 수 있으나, 이에 한정되는 것은 아니며, 상기 제1 및 제2 이미지 재구성 모델들 각각은 다른 형태의 신경망 구조로 이루어질 수도 있다.

상기 인코더 및 디코더는 모두 신경망(neural network)으로 구성될 수 있는데, 예를 들어 인코더는 CNN(Convolutional Neural Networks; e.g. 하나 이상의 컨볼루션 레이어)으로 구성될 수 있고, 디코더는 CNN 또는 DCNN(DeConvolutional Neural Networks; e.g. 하나 이상의 디컨볼루션 레이어)로 구성될 수 있다. 그러나, 이에 한정되는 것은 아니다. 또한, 타깃 객체에 대한 특징은 예를 들어 2차원 또는 3차원으로 이루어진 하나 이상의 특징맵(feature map)일 수 있다. 그러나, 이에 한정되는 것은 아니다.

제1 딥러닝 모델은 상기 입력 이미지를 제1 복셀 이미지로 재구성하는 제1 이미지 재구성 모델(211, 215)과 실제 이미지와 페이크 이미지를 판별하는 제1 판별기를 포함하고, 상기 제1 이미지 재구성 모델은 재구성된 제1 복셀 이미지(217)와 정답 복셀 이미지 간의 차이에 기초하여 산출된 제1 오차에 기초하여 학습될 수 있다.

또한, 제2 딥러닝 모델은, 상기 입력 이미지를 클래시피케이션하는 객체 클래스 분류기(221)와, 상기 분류기에 의해 분류된 객체 클래스에 포함된 복수의 학습용 객체들 중 2차원 멀티뷰 이미지로 구성된 복수의 학습용 객체들을 선별하는 선별기와, 상기 선별기로 선별된 상기 복수의 학습용 객체들 각각의 상기 2차원 멀티뷰 이미지를 제2 복셀 이미지(227)로 재구성하는 제2 이미지 재구성 모델 및 실제 이미지와 페이크 이미지를 판별하는 제2 판별기를 포함할 수 있다. 여기서, 상기 제2 이미지 재구성 모델은 상기 제1 오차와 재구성된 제2 복셀 이미지(227)와 정답 복셀 이미지 간의 차이에 기초하여 산출된 제2 오차에 기초하여 학습될 수 있다.

즉, 상기 딥러닝 모델은 상기 제1 딥러닝 모델에 의한 제1 복셀 이미지(217)에 제1 가중치(A1)를 부여하고 상기 제2 딥러닝 모델에 의한 제2 복셀 이미지(227)에 제2 가중치(A2)를 부여하여 수정된 멀티도메인 딥러닝 모델이며, 상기 수정된 멀티도메인 딥러닝 모델에 의해 수정된 3차원 복셀 이미지(300)가 재구성될 수 있다.

한편, 상기 재구성 모델들은 제1 및 제2 복셀 이미지들(217, 227)와 정답 복셀 이미지의 차이에 기초한 오차(이하 "복셀 오차")를 역전파(error back-propagation)함으로써 학습될 수 있다. 즉, 상기 오차가 최소화되는 방향으로 상기 제1 및 제2 가중치(A1, A2)가 업데이트될 수 있다.

또한, 몇몇 실시예들에서는, 상기 재구성 모델들 각각을 학습시키기 위해 프로젝션(projection) 오차가 더 이용될 수 있다. 즉, 상기 복셀 오차와 프로젝션 오차가 최소화되는 방향으로 제1 및 제2 가중치(A1, A2)가 업데이트될 수 있다.

또한, 몇몇 실시예들에서는, 상기 재구성 모델들 각각을 학습시키기 위해 외곽선 오차가 더 이용될 수 있다. 가령, 상기 복셀 오차와 상기 외곽선 오차가 최소화되는 방향으로 제1 및 제2 가중치(A1, A2)가 업데이트될 수 있다.

또한, 몇몇 실시예들에서는, 도 5에 도시된 바와 같이, 상기 제1 딥러닝 모델 또한 제1 판별기(미도시)를 더 포함하도록 구성될 수 있고, 제1 이미지 재구성 모델은 제1 판별기의 판별 결과에 기초하여 산출된 판별 오차를 더 이용하여 학습될 수 있다.

상술한 것과 같이 제1 딥러닝 모델 및 제2 딥러닝 모델에 기초한 병렬적 재구성 과정에 따를 경우 딥러닝 모델의 성능이 더욱 향상될 수 있으며, 나아가 제2 딥러닝 모델에 GAN 모듈을 일부 활용 시 타깃 객체에 대한 멀티뷰 이미지가 더욱 용이하게 구성될 수 있다.

이하에서는, 도 4를 참조하여 본 개시의 몇몇 실시예들에 따른 재구성 장치(10)를 구현할 수 있는 예시적인 컴퓨팅 장치(1000)에 대하여 설명하도록 한다.

도 4는 컴퓨팅 장치(1000)를 나타내는 예시적인 하드웨어 구성도이다.

도 4에 도시된 바와 같이, 컴퓨팅 장치(1000)는 하나 이상의 프로세서(1100), 버스(1300), 통신 인터페이스(1400), 프로세서(1100)에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리(1200)와, 컴퓨터 프로그램(1600)를 저장하는 스토리지(1500)를 포함할 수 있다. 다만, 도 12에는 본 개시의 실시예와 관련 있는 구성요소들 만이 도시되어 있다. 따라서, 본 개시가 속한 기술분야의 통상의 기술자라면 도 4에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 알 수 있다. 즉, 컴퓨팅 장치(1000)에는, 도 4에 도시된 구성요소 이외에도 다양한 구성요소가 더 포함될 수 있다. 또한, 경우에 따라, 컴퓨팅 장치(1000)는 도 12에 도시된 구성요소들 중 일부가 생략된 형태로 구현될 수도 있다.

프로세서(1100)는 컴퓨팅 장치(1000)의 각 구성의 전반적인 동작을 제어한다. 프로세서(1100)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 개시의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다. 또한, 프로세서(1100)는 본 개시의 실시예들에 따른 동작/방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(1000)는 하나 이상의 프로세서를 구비할 수 있다.

메모리(1200)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(1200)는 본 개시의 실시예들에 따른 동작/방법을 실행하기 위하여 스토리지(1500)로부터 하나 이상의 프로그램(1600)을 로드할 수 있다. 메모리(1200)는 RAM과 같은 휘발성 메모리로 구현될 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.

버스(1300)는 컴퓨팅 장치(1000)의 구성요소 간 통신 기능을 제공한다. 버스(1300)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.

통신 인터페이스(1400)는 컴퓨팅 장치(1000)의 유무선 인터넷 통신을 지원한다. 또한, 통신 인터페이스(1400)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(1400)는 본 개시의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다. 경우에 따라, 통신 인터페이스(1400)는 생략될 수도 있다.

스토리지(1500)는 상기 하나 이상의 프로그램(1600)을 비임시적으로 저장할 수 있다. 스토리지(1500)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 개시가 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.

컴퓨터 프로그램(1600)은 메모리(1200)에 로드될 때 프로세서(1100)로 하여금 본 개시의 다양한 실시예들에 따른 동작/방법을 수행하도록 하는 하나 이상의 인스트럭션들(instructions)을 포함할 수 있다. 즉, 프로세서(1100)는 상기 하나 이상의 인스트럭션들을 실행함으로써, 본 개시의 다양한 실시예들에 따른 동작/방법들을 수행할 수 있다.

예를 들어, 컴퓨터 프로그램(1600)은 타깃 객체에 대한 2차원 이미지를 입력받는 동작 및 딥러닝 모델을 통해 입력된 2차원 이미지로부터 3차원의 복셀 이미지를 재구성하는 동작을 수행하도록 하는 인스트럭션들을 포함할 수 있다. 이와 같은 경우, 컴퓨팅 장치(1000)를 통해 본 개시의 몇몇 실시예들에 따른 재구성 장치(10)가 구현될 수 있다.

지금까지 도 4를 참조하여 본 개시의 몇몇 실시예들에 따른 재구성 장치(10)를 구현할 수 있는 예시적인 컴퓨팅 장치(1000)에 대하여 설명하였다.

지금까지 도 1 내지 도 4를 참조하여 설명된 본 개시의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.

이상에서, 본 개시의 실시예를 구성하는 모든 구성요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 개시의 기술적 사상이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 개시의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.

도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.

이상 첨부된 도면을 참조하여 본 개시의 실시예들을 설명하였지만, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 개시가 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 개시의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

하나 이상의 인스트럭션들(instructions)을 저장하는 메모리;
상기 저장된 하나 이상의 인스트럭션들을 실행함으로써,
타깃 객체에 대한 2차원의 입력 이미지를 획득하고,
딥러닝 모델을 통해 상기 입력 이미지를 상기 타깃 객체에 대한 3차원의 복셀(voxel) 이미지로 재구성하는 프로세서를 포함하되,
상기 딥러닝 모델은, 상기 입력 이미지와 관련된 제1 학습데이터를 이용하여 학습되는 제1 딥러닝 모델; 및 상기 입력 이미지가 분류된 객체 클래스에 포함된 2차원 멀티뷰 이미지와 관련된 제2 학습데이터를 이용하여 학습되는 제2 딥러닝 모델;을 포함하는, 이미지 재구성 장치.
제1 항에 있어서,
상기 제1 딥러닝 모델은 상기 입력 이미지를 제1 복셀 이미지로 재구성하는 제1 이미지 재구성 모델과 실제 이미지와 페이크 이미지를 판별하는 제1 판별기를 포함하고,
상기 제1 이미지 재구성 모델은 재구성된 제1 복셀 이미지와 정답 복셀 이미지 간의 차이에 기초하여 산출된 제1 오차에 기초하여 학습되며,
상기 제2 딥러닝 모델은, 상기 입력 이미지를 클래시피케이션하는 객체 클래스 분류기; 상기 분류기에 의해 분류된 객체 클래스에 포함된 복수의 학습용 객체들 중 2차원 멀티뷰 이미지로 구성된 복수의 학습용 객체들을 선별하는 선별기; 상기 선별기로 선별된 상기 복수의 학습용 객체들 각각의 상기 2차원 멀티뷰 이미지를 제2 복셀 이미지로 재구성하는 제2 이미지 재구성 모델; 및 실제 이미지와 페이크 이미지를 판별하는 제2 판별기를 포함하고,
상기 제2 이미지 재구성 모델은 상기 제1 오차와 재구성된 제2 복셀 이미지와 정답 복셀 이미지 간의 차이에 기초하여 산출된 제2 오차에 기초하여 학습되되,
상기 딥러닝 모델은 상기 제1 딥러닝 모델에 제1 가중치를 부여하고 상기 제2 딥러닝 모델에 제2 가중치를 부여하여 수정된 멀티도메인 딥러닝 모델인, 이미지 재구성 장치.