KR20230100205A - 영상 처리 방법 및 장치 - Google Patents
영상 처리 방법 및 장치 Download PDFInfo
- Publication number
- KR20230100205A KR20230100205A KR1020210189898A KR20210189898A KR20230100205A KR 20230100205 A KR20230100205 A KR 20230100205A KR 1020210189898 A KR1020210189898 A KR 1020210189898A KR 20210189898 A KR20210189898 A KR 20210189898A KR 20230100205 A KR20230100205 A KR 20230100205A
- Authority
- KR
- South Korea
- Prior art keywords
- information
- image
- neural network
- input image
- generating
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 26
- 238000012545 processing Methods 0.000 title description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 160
- 238000003672 processing method Methods 0.000 claims abstract description 23
- 230000001131 transforming effect Effects 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 14
- 238000010606 normalization Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 9
- 230000009466 transformation Effects 0.000 description 7
- 230000003190 augmentative effect Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
- G06T17/205—Re-meshing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G06T3/0068—
-
- G06T3/0093—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/14—Transformations for image registration, e.g. adjusting or mapping for alignment of images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/18—Image warping, e.g. rearranging pixels individually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2004—Aligning objects, relative positioning of parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2012—Colour editing, changing, or manipulating; Use of colour codes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2016—Rotation, translation, scaling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2021—Shape modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2024—Style variation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Graphics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Architecture (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Image Generation (AREA)
Abstract
일 실시예에 따른 영상 처리 방법에 있어서, 상기 방법은 제1 신경망을 이용하여, 제1 입력 이미지로부터 복수의 정규 그리드들을 포함하는 입면체로 정의되는 표준 공간에 대응하는 외관 정보를 생성하는 단계; 제2 신경망을 이용하여, 제2 입력 이미지로부터 상기 표준 공간에 대응하는 기하 정보를 생성하는 단계; 상기 기하 정보에 기초하여, 상기 복수의 정규 그리드들을 변형하는 단계; 상기 변형된 복수의 정규 그리드들에 상기 외관 정보를 적용함으로써, 표준화된 영상 정보를 생성하는 단계; 및 상기 표준화된 영상 정보에 기초하여, 출력 이미지를 생성하는 단계를 포함할 수 있다.
Description
아래 실시예들은 영상 처리 방법 및 장치에 관한 것이다.
최근 가상 현실(virtual reality; VR), 증강 현실(augmented reality; AR) 또는 혼합 현실(mixed reality; MR)을 구현할 수 있는 전자 장치들이 개발되고 있는 추세이다. 이 중 증강 현실은 현실 세계의 환경 위에 가상의 객체나 정보를 결합하여 보여주는 디스플레이 기술이다. 증강 현실은 외부 전경과 가상 이미지의 결합을 통해 사용자에게 새로운 경험을 제공할 수 있고, 정보를 보다 효과적이고 실감나게 전달할 수 있는 수단이 될 수 있다.
증강 현실을 위한 콘텐츠를 실감나게 구현하기 위하여 다양한 연구들이 진행되고 있고, 그 중에서도 신경망을 이용하여 증강 현실을 사용자에게 제공하는 연구에 관심이 집중되고 있다. 특히 이미지 처리 분야의 신경망 기술의 발전에 따라, 해당 기술을 증강 현실에 적용시키고자 하는 연구가 증가하고 있는 추세이다.
일 실시예에 따른 영상 처리 방법은 제1 신경망을 이용하여, 제1 입력 이미지로부터 복수의 정규 그리드(regular grid)들을 포함하는 입면체(cube)로 정의되는 표준 공간(Canonical Space)에 대응하는 외관(appearance) 정보를 생성하는 단계; 제2 신경망을 이용하여, 제2 입력 이미지로부터 상기 표준 공간에 대응하는 기하(geometric) 정보를 생성하는 단계; 기하 정보에 기초하여, 상기 복수의 정규 그리드들을 변형(deform)하는 단계; 변형된 복수의 정규 그리드들에 외관 정보를 적용함으로써, 표준화된 영상 정보를 생성하는 단계; 및 표준화된 영상 정보에 기초하여, 출력 이미지를 생성하는 단계를 포함할 수 있다.
일 실시예에 따른 외관 정보는 피처 정보, 색상 정보 및 텍스처 정보 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 기하 정보는 오프셋 정보 및 깊이 정보 중 적어도 하나; 및 스케일 정보를 포함할 수 있다.
일 실시예에 따른 복수의 정규 그리드들을 변형하는 단계는 스케일 정보에 기초하여 복수의 정규 그리드들 각각에 대응하는 좌표를 변형하는 단계; 및 오프셋 정보 및 깊이 정보 중 적어도 하나에 기초하여 변형된 좌표를 이동시키는 단계를 포함할 수 있다.
일 실시예에 따른 표준 공간은 1점 투시도에 기반하여 5개의 면을 포함하는 입면체 형태로 표현된 공간을 포함할 수 있다.
일 실시예에 따른 제1 입력 이미지와 제2 입력 이미지는 동일할 수 있다.
일 실시예에 따른 제1 입력 이미지와 제2 입력 이미지는 상이할 수 있다.
일 실시예에 따른 시점 정보를 수신하는 단계를 더 포함하고, 출력 이미지를 생성하는 단계는 시점 정보에 대응하는 출력 이미지를 생성하는 단계를 포함할 수 있다.
일 실시예에 따른 시점 정보에 대응하는 출력 이미지를 생성하는 단계는 제3 입력 이미지를 제4 신경망에 인가하여 시점 정보를 생성하는 단계; 및 시점 정보 및 제1 입력 이미지에 대응하는 영상 정보를 제3 신경망에 인가하여, 출력 이미지를 생성하는 단계를 포함할 수 있다.
일 실시예에 따른 제1 신경망, 상기 제2 신경망 및 상기 제3 신경망 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 신경망은 제1 입력 이미지를 제3 입력 이미지의 시점 정보에 기초하여 변형된 이미지를 생성하도록 학습된 신경망을 포함할 수 있다.
일 실시예에 따른 신경망은 손실 함수를 감소시키도록 학습된 신경망을 포함하고, 상기 손실 함수는 제3 입력 이미지로부터 제4 신경망을 이용하여 생성된 시점(viewpoint) 정보 및 제1 입력 이미지에 대응하는 영상 정보를 제3 신경망에 인가하여 생성된 출력 이미지와 제3 입력 이미지의 차이에 기초하여 결정될 수 있다.
일 실시예에 따른 제2 신경망은 오프셋 정규화 손실 함수 및 깊이 정규화 손실 함수 중 적어도 하나에 기초하여 학습될 수 있다.
일 실시예에 따른 영상 정보를 제3 신경망에 인가하는 단계는 영상 정보를 2차원 이미지로 변환하는 단계; 및 2차원 이미지를 제3 신경망에 인가하는 단계를 포함할 수 있다.
일 실시예에 따른 출력 이미지를 생성하는 단계는 입력 이미지의 제1 시점 정보를 생성하는 단계; 제2 시점 정보에 기초하여 제1 시점 정보를 변형하는 단계; 및 영상 정보 및 변형된 제1 시점 정보를 제3 신경망에 인가하여 출력 이미지를 생성하는 단계를 포함할 수 있다.
일 실시예에 따른 출력 이미지는 제2 입력 이미지의 기하 정보에 기초하여 제1 입력 이미지의 기하 정보를 변형시킨 이미지 또는 제2 입력 이미지의 외관 정보에 기초하여 상기 제1 입력 이미지의 외관 정보를 변형시킨 이미지를 포함할 수 있다.
일 실시예에 따른 표준화된 영상 정보를 생성하는 단계는 제1 입력 이미지의 기하 정보에 기초하여 변형된 복수의 그리드들 및 제2 입력 이미지의 외관 정보에 기초하여 표준화된 영상 정보를 생성하는 단계를 포함할 수 있다.
다른 일 실시예에 따른 전자 장치는 제1 신경망을 이용하여, 제1 입력 이미지로부터 복수의 정규 그리드들을 포함하는 입면체로 정의되는 표준 공간에 대응하는 외관 정보를 생성하고, 제2 신경망을 이용하여, 제2 입력 이미지로부터 상기 표준 공간에 대응하는 기하 정보를 생성하고, 상기 기하 정보에 기초하여, 상기 복수의 정규 그리드들을 변형하고, 상기 변형된 복수의 정규 그리드들에 상기 외관 정보를 적용함으로써, 표준화된 영상 정보를 생성하고, 그리고 상기 표준화된 영상 정보에 기초하여, 출력 이미지를 생성하는 프로세서를 포함할 수 있다.
도 1은 일 실시예에 따른 이미지를 생성하기 위한 방법을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 표준 공간을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 정규 그리드들을 변형하는 방법을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 신경망의 학습 방법을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 시점 정보가 변환된 영상 처리 방법을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 외관 정보 또는 기하 정보가 변환된 영상 처리 방법을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 이미지를 생성하기 위한 방법을 설명하기 위한 흐름도이다.
도 8는 일 실시예에 따른 전자 장치를 설명하기 위한 블록도이다.
도 2는 일 실시예에 따른 표준 공간을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 정규 그리드들을 변형하는 방법을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 신경망의 학습 방법을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 시점 정보가 변환된 영상 처리 방법을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 외관 정보 또는 기하 정보가 변환된 영상 처리 방법을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 이미지를 생성하기 위한 방법을 설명하기 위한 흐름도이다.
도 8는 일 실시예에 따른 전자 장치를 설명하기 위한 블록도이다.
본 명세서에서 개시되어 있는 특정한 구조적 또는 기능적 설명들은 단지 기술적 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 실제로 구현된 형태는 다양한 다른 모습을 가질 수 있으며 본 명세서에 설명된 실시예로만 한정되지 않는다.
제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~간의"와 "바로~간의" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
일 실시예에 따른 프로세서는, 예를 들면, 소프트웨어(예: 프로그램)를 실행하여 프로세서에 연결된 전자 장치의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일실시예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 프로세서는 다른 구성요소로부터 수신된 명령 또는 데이터를 휘발성 메모리에 저장하고, 휘발성 메모리에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 비휘발성 메모리에 저장할 수 있다. 일실시예에 따르면, 프로세서는 메인 프로세서(예: 중앙 처리 장치 또는 어플리케이션 프로세서) 또는 이와는 독립적으로 또는 함께 운영 가능한 보조 프로세서(예: 그래픽 처리 장치, 신경망 처리 장치(NPU: neural processing unit), 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 예를 들어, 전자 장치가 메인 프로세서 및 보조 프로세서를 포함하는 경우, 보조 프로세서는 메인 프로세서보다 저전력을 사용하거나, 지정된 기능에 특화되도록 설정될 수 있다. 보조 프로세서는 메인 프로세서와 별개로, 또는 그 일부로서 구현될 수 있다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일 실시예에 따른 이미지를 생성하기 위한 방법을 설명하기 위한 도면이다.
도 1에서는 입력 이미지1(110), 입력 이미지2(160), 제1 신경망(130), 제2 신경망(150), 외관 정보(131), 기하 정보(151), 표준화된 영상 정보(140), 제3 신경망(170), 출력 이미지(180) 및 제4 신경망(190)이 도시되어 있다.
일 실시예에 따른 제1 입력 이미지 및 제2 입력 이미지는 동일한 이미지일 수 있다. 예를 들어, 동일한 입력 이미지가 제1 신경망(130) 및 제2 신경망(150)에 인가될 수 있다. 다른 일 실시예에 따른 제1 입력 이미지 및 제2 입력 이미지가 다른 경우는 도 6을 참조하여 구체적으로 후술된다. 일 실시예에 따른 제3 입력 이미지는 제4 신경망(190)에 인가되는 이미지를 포함할 수 있다.
일 실시예에 따른 프로세서(810)는 제1 입력 이미지(예를 들어, 입력 이미지1(110))를 제1 신경망(130)에 인가하여 외관 정보(131)를 생성할 수 있다. 일 실시예에 따른 프로세서(810)는 제1 신경망(130)을 이용하여, 입력 이미지1(110)로부터 표준 공간에 대응하는 외관 정보를 생성할 수 있다.
일 실시예에 따른 표준 공간은 변형 가능한(deformable) 장면(Scene)을 단일 시점의 공간에 정렬시키기 위한 공간을 포함할 수 있다. 일 실시예에 따른 표준 공간에서의 변수들은 모든 환경 조건 및/또는 변형들에 변하지 않는 것으로 고려된다. 일 실시예에 따른 표준 공간에 대응하는 외관 정보(131)와 기하 정보(151)는 각각 변형에 독립적일 수 있다. 일 실시예에 따른 표준 공간은 복수의 정규 그리드들을 포함할 수 있다. 예를 들어, 복수의 그리드들은 각각 하나의 픽셀에 대응할 수 있다. 다른 예를 들어 그리드는 복수의 픽셀을 포함할 수도 있다. 일 실시예에 따른 정규 그리드(Regular grid)는 형상 및/또는 크기가 동일한 그리드를 포함할 수 있다.
일 실시예에 따른 입면체는 투시도에 기반하여 생성된 것일 수 있다. 일 실시예에 따른 투시도(perspective view)는 멀리 있을수록 작아지는 지평선 상의 소실점을 이용하여 원근법을 표현하는 뷰를 포함할 수 있다. 일 실시예에 따른 입면체는 1점 투시도에 기반하여 5개의 면을 포함하는 형태로 표현된 공간을 포함할 수 있다. 일 실시예에 따른 1점 투시도는 눈에 보이는 것과 똑같은 원근감을 표현하는 방식으로 수평선에 소실점이 하나만 포함된 투영도를 포함할 수 있다. 일 실시예에 따른 입면체는 정면을 바라보는 방향을 기준으로 정면에 있는 면은 제1 면, 좌측에 있는 면은 제2 면, 우측에 있는 면은 제3면, 상부에 있는 면은 제4면, 하부에 있는 면은 제5 면을 포함할 수 있다. 입면체는 도 2를 참조하여 구체적으로 후술된다.
일 실시예에 따른 장면(scene)은 복수의 객체들(예를 들어, 가구, 사람, 자동차, 나무, 건물, 창문, 가전 등)을 포함할 수 있다. 일 실시예에 따른 입력 이미지는 장면을 포함할 수 있다. 일 실시예에 따른 장면은 입면체로 표현될 수 있다. 일 실시예에 따른 장면은 복수의 그리드들을 포함하는 1점 투시도로 표현될 수 있다. 따라서 일 실시예에 따른 장면은 복수의 그리드들을 포함하는 투시도로 표현된 공간으로 표현될 수 있다. 투시도로 표현된 공간은 5개의 면으로 표현될 수 있다. 따라서, 입력 이미지는 5개의 면으로 분할이 될 수 있고, 각 면은 복수개의 그리드들을 포함할 수 있다.
일 실시예에 따른 제1 신경망(130)은 외관 정보(131)를 생성하기 위한 신경망을 포함할 수 있다. 일 실시예에 따른 제1 신경망(130)은 복수의 컨볼루션 레이어들 및/또는 복수의 풀링 레이어들을 포함할 수 있다. 예를 들어, 제1 신경망(130)은 GAN(Generative Adversarial Network), Large scale GAN, ResNet(residual neural network) 및/또는 VGGNet(Very Deep Convolutional Networks)을 포함할 수 있다. 전술한 제1 신경망은 예시일 뿐 본 개시는 이에 제한되지 않는다.
일 실시예에 따른 외관 정보(131)는 이미지에서 시각적으로 인지할 수 있는 특징과 관련된 정보를 포함할 수 있다. 일 실시예에 따른 외관 정보(131)는 이미지에 포함된 내용의 외관과 관련된 정보를 포함할 수 있다. 일 실시예에 따른 외관 정보(131)는 피처 정보, 색상 정보 및 텍스처 정보 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 피처 정보는 특정 그리드의 특징 정보를 포함할 수 있다. 예를 들어, 피처 정보는 픽셀 값에 대한 컨볼루션 연산을 통해 산출된 값을 포함할 수 있다.
일 실시예에 따른 색상 정보는 특정 그리드의 색상 정보를 포함할 수 있다. 예를 들어, 색상 정보는 특정 그리드가 어떤 색인지에 대한 정보를 포함할 수 있다. 또 다른 예를 들어, 색상 정보는 객체의 재질 성분으로서 시점이나 조명에 무관한 물질의 고유의 색상 정보를 포함할 수 있다. 일 실시예에 따른 색상 정보는 피처 정보에 기초하여 생성될 수 있다. 일 실시예에 따른 프로세서(810)는 색상 정보를 생성하기 위한 신경망에 피처 정보를 인가하여 색상 정보를 생성할 수 있다. 다른 일 실시예에 따른 프로세서는 제1 신경망을 이용하여 색상 정보를 생성할 수도 있으며, 피처 정보를 이용하여 색상 정보가 반드시 생성되는 것은 아닐 수도 있다.
일 실시예에 따른 텍스처 정보는 시각적인 디테일을 주기 위하여 표면에 적용되는 정보를 포함할 수 있다. 일 실시예에 따른 텍스처는 질감을 시각적으로 표현한 것을 포함할 수 있다. 일 실시예에 따른 텍스처 정보는 피처 정보에 기초하여 생성될 수 있다. 일 실시예에 따른 프로세서는 텍스처 정보를 생성하기 위한 신경망에 피처 정보를 인가하여 텍스처 정보를 생성할 수도 있다. 다른 일 실시예에 따른 프로세서(810)는 제1 신경망(130)을 이용하여 텍스처 정보를 생성할 수도 있으며, 피처 정보를 이용하여 텍스처 정보가 반드시 생성되는 것은 아닐 수도 있다.
일 실시예에 따른 표준 공간에 대응하는 외관 정보는 기준이 되는 표준 공간으로 장면이 변형되었을 때의 외관 정보를 포함할 수 있다. 예를 들어, 표준 공간에 대응하는 외관 정보는 시점이나 조명이 무관한 물질 고유의 외관 정보를 포함할 수 있다. 일 실시예에 따른 표준 공간에서의 피처 정보는 기준이 되는 표준 공간으로 장면이 변형되었을 때의 피처 정보를 포함할 수 있다. 일 실시예에 따른 표준 공간에서의 색상 정보는 기준이 되는 표준 공간으로 장면이 변형되었을 때의 색상 정보를 포함할 수 있다. 일 실시예에 따른 표준 공간에서의 텍스처 정보는 기준이 되는 표준 공간으로 장면이 변형되었을 때의 텍스처 정보를 포함할 수 있다.
일 실시예에 따른 프로세서(810)는 입력 이미지1(110)을 제2 신경망(150)에 인가하여 기하 정보(151)를 생성할 수 있다. 일 실시예에 따른 프로세서(810)는 제2 신경망(150)을 이용하여, 입력 이미지1(110)로부터 표준 공간에서의 복수의 그리드들 각각에 대응하는 기하 정보(151)를 생성할 수 있다.
일 실시예에 따른 제2 신경망(150)은 기하 정보를 생성하기 위한 신경망을 포함할 수 있다. 일 실시예에 따른 제2 신경망(150)은 복수의 컨볼루션 레이어들 및/또는 복수의 풀링 레이어들을 포함할 수 있다. 예를 들어, 제2 신경망(150)은 U-net(Convolutional Networks for Biomedical Image Segmentation)을 포함할 수 있다. 전술한 제2 신경망(150)은 예시일 뿐 본 개시는 이에 제한되지 않는다.
일 실시예에 따른 기하 정보(151)는 거리, 형상, 크기 및/또는 상대적인 위치와 관련된 공간의 특성 정보를 포함할 수 있다. 일 실시예에 따른 기하 정보(151)는 스케일 정보, 오프셋 정보 및 깊이 정보 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 스케일 정보는 기준이 되는 표준 공간으로 입력 이미지(또는 장면)을 변형시키기 위하여 장면의 크기를 조정하기 위한 정보를 포함할 수 있다. 예를 들어, 표준 공간에서의 물체A와 장면에서의 동일 물체A는 시점에 따라 크기가 다를 수 있다. 따라서 장면에 존재하는 물체의 크기를 표준 공간에 존재하는 물체의 크기로 변환하기 위해서는 입력 이미지의 크기를 조정할 필요가 존재할 수 있다. 따라서 프로세서(810)는 스케일 정보를 이용하여 표준 공간으로 장면을 변환시킬 수 있다.
일 실시예에 따른 오프셋 정보는 기준이 되는 표준 공간으로 장면을 변형시키기 위하여 장면에서의 일 위치(예를 들어, 픽셀의 위치, 그리드에서 한 점의 위치)를 이동시키기 위한 정보를 포함할 수 있다. 예를 들어, 표준 공간과 장면에서 같은 물체라도 시점에 따라 좌표계에서의 위치가 다를 수 있다. 따라서 장면에 존재하는 물체를 표준 공간에 존재하는 것으로 변환하기 위해서는 물체의 위치를 조정할 필요가 존재할 수 있다. 프로세서(810)는 오프셋 정보에 기초하여 장면의 일 위치(또는 좌표)를 표준 공간으로 이동시킬 수도 있다.
일 실시예에 따른 깊이 정보는 2차원 이미지로부터 3차원 공간 정보를 획득하기 위하여, 2차원 이미지의 특정 픽셀의 깊이에 관련된 정보를 포함할 수 있다. 예를 들어, 깊이 정보는 x, y 좌표에서의 깊이 값으로 표현될 수 있다. 또 다른 예를 들어, 깊이 정보는 2차원의 정규 그리드 상에서 묘사된 객체의 포인트 클라우드(point cloud)를 정의하는 정보를 포함할 수 있다.
일 실시예에 따른 표준 공간에 대응하는 기하 정보(151)는 기준이 되는 표준 공간으로 장면이 변형되었을 때의 기하 정보를 포함할 수 있다. 표준 공간에 대응하는 기하 정보는 기하학적 변화(geometric change)를 포함할 수 있다. 일 실시예에 따른 표준 공간에 대응하는 기하 정보는 기준이 되는 표준 공간으로 장면이 변형되었을 때의 스케일 변화량을 포함할 수 있다. 일 실시예에 따른 표준 공간에서의 오프셋 정보는 기준이 되는 표준 공간으로 장면이 변형되었을 때의 그리드(또는 픽셀)의 위치 변화량을 포함할 수 있다. 일 실시예에 따른 표준 공간에서의 깊이 정보는 기준이 되는 표준 공간으로 장면이 변형되었을 때의 깊이 정보를 포함할 수 있다.
일 실시예에 따른 프로세서(810)는 외관 정보(131) 및 기하 정보(151)에 기초하여 표준화된 영상 정보(140)를 생성할 수 있다. 일 실시예에 따른 표준화된 영상 정보(140)는 입력 이미지를 표준 공간에 정렬시키기 위하여 기하 정보(151)에 기초하여 생성된 영상 정보를 포함할 수 있다. 따라서 표준화된 영상 정보(140)는 입력 이미지를 기준이 되는 표준 공간에 정렬시킨 예측 공간에 대한 정보를 포함할 수 있다.
일 실시예에 따른 프로세서(810)는 기하 정보에 기초하여, 복수의 정규 그리드들을 각각 변형할 수 있다.
일 실시예에 따른 프로세서(810)는 표준화된 영상 정보를 생성할 수 있다. 일 실시예에 따른 프로세서(810)는 스케일 정보에 기초하여 표준 공간에서의 복수의 정규 그리드들의 크기를 변형할 수 있다. 일 실시예에 따른 프로세서(810)는 스케일 정보에 기초하여 표준 공간에서의 복수의 정규 그리드들 각각에 대응하는 좌표를 변형할 수 있다. 예를 들어, 표준 공간에서의 그리드 한 점 좌표가 (x, y, z)일 수 있다. 그리고 스케일 정보는 (sx, sy, sz)일 수 있다. 이 경우, 프로세서(810)는 스케일 정보를 좌표에 곱할 수 있다. 따라서 변형된 좌표는 (sxx, syy, szz)가 될 수 있다.
일 실시예에 따른 프로세서(810)는 오프셋 정보 및 깊이 정보 중 적어도 하나에 기초하여 변형된 좌표(예를 들어, (sxx, syy, szz))를 이동시킬 수 있다.
일 실시예에 따른 프로세서(810)는 오프셋 정보를 이용하여 변형된 좌표를 이동시킬 수 있다. 예를 들어, 프로세서(810)는 오프셋 정보(Δx, Δy, Δz)를 이용하여 변형된 좌표에 오프셋을 더할 수 있다. 이 경우, 이동된 좌표는 sxx +Δx, syy +Δy, szz +Δz)일 수 있다.
일 실시예에 따른 프로세서(810)는 깊이 정보를 이용하여 변형된 좌표를 이동시킬 수 있다. 예를 들어, 깊이 정보는 공간 좌표계에서 z축에 대응할 수 있다. 예를 들어, 특정 정규 그리드에 대응하는 깊이 정보가 d인 경우, 깊이 정보에 기초하여 변형된 좌표는 (sxx, syy, szd)일 수 있다.
일 실시예에 따른 프로세서(810)는 오프셋 정보 및 깊이 정보에 기초하여 변형된 좌표를 이동시킬 수 있다. 예를 들어, 깊이 정보는 d이고, 오프셋 정보는 (Δx, Δy)일 수 있다. 이 경우, 변형된 좌표는 (sxx +Δx, syy +Δy , szd)가 될 수 있다.
일 실시예에 따른 프로세서(810)는 변형된 복수의 정규 그리드들에 외관 정보를 적용함으로써, 표준화된 영상 정보를 생성할 수 있다.
일 실시예에 따른 프로세서(810)는 표준화된 영상 정보에 기초하여, 출력 이미지를 생성할 수 있다. 일 실시예에 따른 프로세서(810)는 제3 신경망(170)에 표준화된 영상 정보를 인가함으로써, 출력 이미지를 생성할 수 있다. 일 실시예에 따른 제3 신경망(170)은 이미지를 생성하도록 학습된 신경망을 포함할 수 있다. 일 실시예에 따른 제3 신경망(170)은 이미지를 재구성(Reconstruction)하도록 학습된 신경망을 포함할 수 있다. 예를 들어, 제3 신경망은 GAN(Generative Adversarial Network)를 포함할 수 있다.
다른 일 실시예에 따른 프로세서(810)는 영상 정보를 2차원 이미지로 변환할 수 있다. 일 실시예에 따른 프로세서(810)는 영상 정보를 2차원으로 투사(projection)함으로써 2차원 이미지를 생성할 수 있다. 일 실시예에 따른 영상 정보는 3차원 공간 정보를 포함할 수 있으므로, 프로세서는 2차원으로 영상 정보를 투사할 수 있다. 일 실시예에 따른 프로세서(810)는 2차원 이미지를 제3 신경망(170)에 인가할 수 있다. 프로세서(810)는 2차원 이미지를 제3 신경망(170)에 인가함으로써 출력 이미지를 생성할 수 있다.
일 실시예에 따른 프로세서(810)는 시점 정보를 수신할 수 있다. 일 실시예에 따른 시점 정보는 표준 공간에서의 시점과 입력 이미지(또는 장면) 시점의 차이에 기초하여 결정된 정보를 포함할 수 있다. 예를 들어, 입력 이미지의 시점은 표준 공간에서의 시점으로부터 x축 방향으로 30도 회전한 시점을 포함할 수 있다. 프로세서(810)는 시점 정보를 기초로, 입력 이미지를 변형된 시점으로 변형한 출력 이미지를 생성할 수 있다. 일 실시예에 따른 프로세서(810)는 입력 이미지2(160)(또는 제3 입력 이미지)를 제4 신경망(190)에 인가함으로써, 시점 정보를 생성할 수 있다.
일 실시예에 따른 프로세서(810)는 시점 정보에 대응하는 출력 이미지를 생성할 수 있다. 일 실시예에 따른 프로세서(810)는 제4 신경망(190)을 이용하여 생성한 시점 정보 및 표준화된 영상 정보(140)를 제3 신경망(170)에 인가함으로써, 출력 이미지(180)를 생성할 수 있다. 일 실시예에 따른 출력 이미지(180)는 입력 이미지1(110)를 입력 이미지2(160)의 시점 정보로 변환한 이미지를 포함할 수 있다. 예를 들어, 입력 이미지1(110)의 시점과 입력 이미지2(160)의 시점은 x축 방향으로 30도 차이가 날 수 있다. 이 경우, 프로세서는 입력 이미지1(110)을 x축 방향으로 30도 회전한 시점에서 봤을 때의 출력 이미지를 생성할 수 있다.
일 실시예에 따른 시점이 변경되는 경우, 입력 이미지에 포함되지 않은 다른 정보가 필요할 수 있다. 예를 들어, 시점이 변경되는 경우, 장면이 바뀌는 것이므로, 배경이나 장면에 존재하는 물체가 바뀔 수도 있다. 따라서 프로세서(810)는 제3 신경망(170)을 통해 시점 변경으로 인해 입력 이미지에 포함되지 않은 영상 정보를 생성함으로써, 출력 이미지에서 비어 있는 부분이 없도록 할 수 있다.
다른 일 실시예에 따른 제1 입력 이미지 및 제2 입력 이미지는 다른 이미지일 수 있다. 제1 입력 이미지와 제2 입력 이미지가 다른 경우는 제1 입력 이미지의 기하 정보를 제2 입력 이미지의 기하 정보로 변형하기 위한 경우를 포함할 수 있다. 또는 제1 입력 이미지의 외관 정보를 제2 입력 이미지의 외관 정보로 변형하기 위한 경우를 포함할 수 있다. 제1 입력 이미지의 외관 정보 및/또는 기하 정보를 제2 입력 이미지에 기초하여 변형하는 예시는 도 6을 참조하여 구체적으로 후술된다.
도 2는 일 실시예에 따른 표준 공간을 설명하기 위한 도면이다.
도 2에서는 입면체(200), 입면체의 5개 면을 펼친 도면(201) 및 복수의 면들(210, 211, 230, 231, 250, 251, 270, 271, 290, 291)이 도시되어 있다.
일 실시예에 따른 표준 공간은 변형 가능한 장면을 단일 시점의 공간에 정렬시키기 위한 공간을 포함할 수 있다. 일 실시예에 따른 표준 공간에서의 변수들은 모든 환경 조건 및/또는 변형들에 변하지 않는 것으로 고려된다.
일 실시예에 따른 표준 공간은 복수의 정규 그리드들을 포함할 수 있다. 예를 들어, 복수의 그리드들은 각각 하나의 픽셀에 대응할 수 있다. 일 실시예에 따른 정규 그리드는 형상 및/또는 크기가 동일한 그리드를 포함할 수 있다.
일 실시예에 따른 입면체는 투시도에 기반하여 생성된 것일 수 있다. 일 실시예에 따른 투시도는 멀리 있을수록 작아지는 지평선 상의 소실점을 이용하여 원근법을 표현하는 뷰를 포함할 수 있다. 일 실시예에 따른 입면체는 1점 투시도에 기반하여 5개의 면을 포함하는 형태로 표현된 공간을 포함할 수 있다. 일 실시예에 따른 1점 투시도는 눈에 보이는 것과 똑같은 원근감을 표현하는 방식으로 수평선에 소실점이 하나만 포함된 투영도를 포함할 수 있다.
일 실시예에 따른 입면체(200)는 정면을 바라보는 방향을 기준으로 정면에 있는 면은 제1 면(210), 좌측에 있는 면은 제2 면(230), 우측에 있는 면은 제3면(250), 상부에 있는 면은 제4면(270) 및 하부에 있는 면은 제5 면(290)을 포함할 수 있다. 그리고 각각의 면은 복수의 정규 그리드들을 포함할 수 있다.
일 실시예에 따른 입면체(200)의 각 면을 펼치면 5개의 면이 전개될 수 있다. 입면체의 5개 면을 펼친 도면(201)에서는 제1 면(211), 제2 면(231), 제3 면(251), 제4 면(271) 및 제5면(291)이 도시되어 있다. 각 면은 입면체(200)의 면에 각각 대응될 수 있다. 각 면은 복수의 정규 그리드들을 포함할 수 있다. 그리고 복수의 정규 그리드들은 각각 하나의 픽셀에 대응할 수 있다. 다른 예를 들면, 정규 그리드에 복수의 픽셀들이 존재할 수도 있다.
일 실시예에 따른 장면은 배경과 복수의 객체들(예를 들어, 가구, 사람, 자동차, 나무, 건물, 창문, 가전 등)을 포함할 수 있다. 예를 들어, 장면은 실내 장면 및/또는 실외 장면을 포함할 수 있다. 일 실시예에 따른 입력 이미지는 장면을 포함할 수 있다. 일 실시예에 따른 장면은 입면체로 표현될 수 있다. 일 실시예에 따른 장면은 복수의 그리드들을 포함하는 1점 투시도로 표현될 수 있다. 따라서 일 실시예에 따른 장면은 복수의 그리드들을 포함하는 투시도로 표현된 공간으로 표현될 수 있다. 투시도로 표현된 공간은 5개의 면으로 표현될 수 있다. 따라서, 입력 이미지는 5개의 면으로 분할이 될 수 있고, 각 면은 복수개의 그리드들을 포함할 수 있다.
일 실시예에 따른 프로세서(810)는 장면은 입면체 형태의 표준 공간으로 정의함으로써 장면을 포함하는 입력 이미지를 다양한 형태로 변형할 수 있다.
도 3은 일 실시예에 따른 정규 그리드들을 변형하는 방법을 설명하기 위한 도면이다.
도 3에서는 입력 이미지의 제1 면(300), 정규 그리드(220), 기하 정보(320, 330, 340, 350), 표준화된 영상 정보(301), 변형된 제1 면(390), 오프셋 정보에 기초하여 변형한 경우의 좌표(360), 깊이 정보에 기초하여 변형한 경우의 좌표(370) 및 오프셋 정보 및 깊이 정보에 기초하여 변형한 경우의 좌표(380)가 도시되어 있다.
일 실시예에 따른 프로세서(810)는 표준화된 영상 정보(301)를 생성할 수 있다. 일 실시예에 따른 프로세서(810)는 스케일 정보(320)에 기초하여 표준 공간에서의 복수의 정규 그리드들의 크기를 변형할 수 있다. 일 실시예에 따른 프로세서(810)는 스케일 정보(320)에 기초하여 표준 공간에서의 복수의 정규 그리드들 각각에 대응하는 좌표를 변형할 수 있다. 예를 들어, 제1 면(300)에서의 정규 그리드(220) 한 점 좌표가 (x, y, z)일 수 있다. 그리고 스케일 정보(320)는 (sx, sy, sz)일 수 있다. 이 경우, 프로세서(810)는 스케일 정보(320)를 정규 그리드(220) 한 점 좌표(x, y, z)에 곱할 수 있다. 따라서 변형된 좌표는 (sxx, syy, szz)가 될 수 있다.
일 실시예에 따른 프로세서(810)는 오프셋 정보 및 깊이 정보 중 적어도 하나에 기초하여 변형된 좌표(예를 들어, (sxx, syy, szz))를 이동시킬 수 있다.
일 실시예에 따른 프로세서(810)는 오프셋 정보(330)를 이용하여 변형된 좌표를 이동시킬 수 있다. 예를 들어, 프로세서(810)는 오프셋 정보(330)(Δx, Δy, Δz)를 이용하여 변형된 좌표에 오프셋을 더할 수 있다. 이 경우, 오프셋 정보에 기초하여 변형한 경우의 좌표(360)는 (sxx +Δx, syy +Δy, szz +Δz)일 수 있다.
일 실시예에 따른 프로세서(810)는 깊이 정보(340)를 이용하여 변형된 좌표를 이동시킬 수 있다. 예를 들어, 깊이 정보(340)는 공간 좌표계에서 z축에 대응할 수 있다. 예를 들어, 특정 정규 그리드(220)에 대응하는 깊이 정보가 d인 경우, 깊이 정보에 기초하여 변형한 경우의 좌표(370)는 (sxx, syy, szd)일 수 있다.
일 실시예에 따른 프로세서(810)는 오프셋 정보 및 깊이 정보(350)에 기초하여 변형된 좌표를 이동시킬 수 있다. 예를 들어, 깊이 정보는 d이고, 오프셋 정보는 (Δx, Δy)일 수 있다. 이 경우, 오프셋 정보 및 깊이 정보에 기초하여 변형한 경우의 좌표(380)는 (sxx +Δx, syy +Δy, szd)가 될 수 있다.
도 4는 일 실시예에 따른 신경망의 학습 방법을 설명하기 위한 도면이다.
도 4에서는 입력 이미지1(410), 표준 공간(430), 표준 공간 변환 모듈(450), 제3 신경망(470), 출력 이미지(490), 입력 이미지2(420), 제4 신경망(440) 및 손실 함수(480)가 도시되어 있다.
일 실시예에 따른 신경망은 제1 신경망, 제2 신경망 및 제3 신경망(170) 중 적어도 하나를 포함할 수 있다. 일 실시예에 따른 신경망은 추론(inference) 과정에서 제1 신경망, 제2 신경망 및 제3 신경망(170)을 포함할 수 있다. 다른 일 실시예에 따른 신경망은 학습(learning) 과정에서 제1 신경망, 제2 신경망, 제3 신경망 및 제4 신경망(440)을 포함할 수 있다. 따라서 학습 과정에서는 제4 신경망(440)도 함께 학습될 수 있다.
일 실시예에 따른 신경망은 입력 이미지1(110)를 입력 이미지2(420)의 시점 정보에 기초하여 변형된 이미지를 생성하도록 학습된 신경망을 포함할 수 있다. 일 실시예에 따른 프로세서(810)는 제4 신경망(440)을 이용하여 입력 이미지2(420)의 시점 정보를 생성할 수 있다. 일 실시예에 따른 입력 이미지1(410)과 입력 이미지2(420)는 각각 동영상에 포함된 프레임일 수 있다. 예를 들어, 입력 이미지1(410)이 프레임1인 경우, 입력 이미지2(420)는 프레임1의 다음 프레임인 프레임2일 수 있다.
일 실시예에 따른 신경망은 손실 함수(Loss Function)를 감소시키도록 학습된 신경망을 포함할 수 있다. 일 실시예에 따른 신경망은 손실 함수를 감소시키는 방향으로 신경망의 파라미터를 업데이트할 수 있다. 일 실시예에 따른 손실 함수는 정답 데이터와 신경망의 출력 데이터와의 차이에 기초하여 결정될 수 있다. 일 실시예에 따른 프로세서는 손실 함수를 감소시키는 방향으로 신경망의 파라미터를 업데이트할 수 있다.
일 실시예에 따른 손실 함수(480)는 출력 이미지(490)와 입력 이미지2(420)의 차이에 기초하여 결정될 수 있다. 일 실시예에 따른 손실 함수(480)는 입력 이미지2(420)로부터 제4 신경망(440)을 이용하여 생성된 시점 정보 및 입력 이미지1(410)에 대응하는 영상 정보를 제3 신경망(470)에 인가하여 생성된 출력 이미지(490)와 입력 이미지2(420)의 차이에 기초하여 결정할 수 있다. 예를 들어, 입력 이미지2(420)는 정답 데이터가 될 수 있다. 따라서 프로세서(810)는 신경망을 자기 지도 학습(Self-Supervised Learning)시킬 수 있다.
일 실시예에 따른 프로세서(810)는 신경망 학습 과정에서, 입력 이미지1(410)를 입면체로 정의되는 표준 공간으로 표현할 수 있다. 일 실시예에 따른 프로세서(810)는 표준 공간 변환 모듈(450)을 이용하여, 표준 공간을 표준화된 영상 정보로 변환할 수 있다. 일 실시예에 따른 프로세서(810)는 표준화된 영상 정보 및 입력 이미지2(420)에 대응하는 시점 정보를 제3 신경망(470)에 인가할 수 있다. 일 실시예에 따른 표준 공간 변환 모듈(450)은 기하 정보에 기초하여 복수의 정규 그리드들을 변형하기 위한 모듈을 포함할 수 있다. 일 실시예에 따른 프로세서(810)는 제3 신경망(470)을 이용하여 출력 이미지(490)를 생성할 수 있다. 일 실시예에 따른 프로세서(810)는 출력 이미지(490)와 입력 이미지2(420)의 차이에 기초하여 손실 함수(480)를 계산할 수 있다. 프로세서(810)는 손실 함수(480)에 기초하여 신경망의 파라미터를 손실 함수가 감소되는 방향으로 업데이트할 수 있다.
일 실시예에 따른 신경망은 오프셋 정규화 손실 함수 및 깊이 정규화 손실 함수 중 적어도 하나에 기초하여 학습될 수 있다. 일 실시예에 따른 오프셋 정규화 손실 함수는 출력되는 오프셋 정보가 과적합 되지 않도록 신경망(또는 제2 신경망)을 학습시키기 위한 손실 함수를 포함할 수 있다. 일 실시예에 따른 오프셋 정규화 손실 함수는 각 축의 오프셋 값들의 합인 Σ(Δx2+Δy2+Δz2)가 최소화되도록 신경망(또는 제2 신경망)을 학습시키기 위한 손실 함수를 포함할 수 있다. 따라서, 프로세서(810)는 오프셋 정규화 손실 함수를 최소화시키는 방향으로 신경망(또는 제2 신경망)의 파라미터를 업데이트할 수 있다. 이를 통해, 프로세서(810)는 다양한 시점에서 바라본 동일한 장면 또는 찌그러진 장면에 대해서도 표준화된 영상 정보를 획득할 수 있다.
일 실시예에 따른 깊이 정규화 손실 함수는 출력되는 깊이 정보가 과적합 되지 않도록 하기 위한 손실 함수를 포함할 수 있다. 일 실시예에 따른 깊이 정규화 손실 함수는 출력되는 깊이 정보가 과적합 되지 않도록 신경망(또는 제2 신경망)을 학습시키기 위한 손실 함수를 포함할 수 있다. 일 실시예에 따른 깊이 정규화 손실 함수는 Σ(d-1)2 가 최소화되도록 손실 함수를 학습시킬 수 있다. 따라서 프로세서(810)는 깊이 정규화 손실 함수를 최소화시키는 방향으로 신경망(또는 제2 신경망)의 파라미터를 업데이트할 수 있다. 이를 통해, 프로세서(810)는 다양한 시점에서 바라본 동일한 장면 또는 찌그러진 장면에 대해서도 표준화된 영상 정보를 획득할 수 있다. 일 실시예에 따른 Σ(d-1)2에서 1은 기준이 되는 깊이 정보를 포함할 수 있다. 따라서, d가 1에 가까워질수록 표준화된 영상 정보를 생성할 확률이 증가할 수 있다.
일 실시예에 따른 신경망은 오프셋 정규화 레이어 및 깊이 정규화 레이어 중 적어도 하나를 포함할 수 있다. 일 실시예에 따른 제2 신경망은 오프셋 정규화 레이어 및 깊이 정규화 레이어 중 적어도 하나를 포함할 수 있다. 일 실시예에 따른 정규화 레이어는 신경망의 과적합(overfitting) 문제를 해결하고 신경망의 학습성을 높이기 위한 레이어를 포함할 수 있다.
일 실시예에 따른 오프셋 정규화 레이어는 제2 신경망의 출력 데이터가 오프셋 정보인 경우, 출력되는 오프셋 정보가 과적합 되지 않도록 신경망을 학습시키기 위한 레이어를 포함할 수 있다. 예를 들어, 프로세서(810)는 오프셋 정규화를 위하여 각 축의 오프셋 값들의 합인 Σ(Δx2+Δy2+Δz2)를 이용할 수 있다. 이를 통해, 프로세서는 제2 신경망을 통해 일반적인 오프셋 값보다 매우 크거나 매우 작은 오프셋 값을 생성할 확률을 감소시킬 수 있다.
일 실시예에 따른 깊이 정규화 레이어는 제2 신경망의 출력 데이터가 깊이 정보인 경우, 출력되는 깊이 정보가 과적합되지 않도록 하기 위한 레이어를 포함할 수 있다. 예를 들어, 프로세서는 Σ(d-1)2를 이용하여 깊이 정보를 정규화시킬 수 있다. 이를 통해, 프로세서는 제2 신경망을 통해 일반적인 깊이 값보다 매우 크거나 매우 작은 깊이 값을 생성할 확률을 감소시킬 수 있다.
도 5는 일 실시예에 따른 시점 정보가 변환된 영상 처리 방법을 설명하기 위한 도면이다.
도 5에서는 입력 이미지(510), 표준 공간(530), 표준 공간 변환 모듈(550), 제3 신경망(570), 시점이 변형된 출력 이미지(590), 시점 정보(520), 제4 신경망(540) 및 시점 변형(560)이 도시되어 있다.
일 실시예에 따른 입력 이미지는 원하는 시점의 이미지로 변환할 필요가 존재할 수 있다. 예를 들어, 사용자가 착용하고 있는 웨어러블 장치를 통해 디스플레이되는 화면이 변경될 경우, 사용자가 보고 있는 방향으로 변경된 화면이 정렬될 필요가 존재할 수 있다. 따라서, 프로세서(810)는 신경망을 이용하여 변경된 화면을 원하는 시점(예를 들어, 사용자가 현재 보고 있는 방향의 시점)의 이미지로 변환할 수 있다.
일 실시예에 따른 프로세서(810)는 입력 이미지(510)를 표준 공간(530)으로 표현할 수 있다. 그리고 프로세서(810)는 표준 공간 변환 모듈(550)을 이용하여 표준화된 영상 정보를 생성할 수 있다.
일 실시예에 따른 프로세서(810)는 입력 이미지(510)를 제4 신경망(540)에 인가할 수 있다. 프로세서(810)는 제4 신경망(540)을 이용하여 입력 이미지(510)의 시점 정보를 생성할 수 있다.
일 실시예에 따른 프로세서(810)는 시점 정보(520)를 수신할 수 있다. 예를 들어, 시점 정보(520)는 변경하고자 하는 타겟 시점 정보를 포함할 수 있다. 일 실시예에 따른 프로세서(810)는 입력 이미지(510)의 시점 정보를 수신한 시점 정보(520)에 기초하여 시점을 변형(560)할 수 있다.
일 실시예에 따른 프로세서(810)는 변형된 시점 정보 및 표준화된 영상 정보를 제3 신경망(570)에 인가함으로써, 시점이 변형된 출력 이미지(590)를 생성할 수 있다. 일 실시예에 따른 시점이 변형된 출력 이미지(590)는 시점 정보(520)에 기초하여 시점이 변형된 출력 이미지를 포함할 수 있다.
도 6은 일 실시예에 따른 외관 정보 또는 기하 정보가 변환된 영상 처리 방법을 설명하기 위한 도면이다.
도 6에서는 제1 입력 이미지(610), 제2 입력 이미지(620), 외관 정보1(611), 기하 정보1(612), 외관 정보2(621), 기하 정보2(622), 표준 공간 변환 모듈(650) 및 기하 정보 또는 외관 정보가 변형된 출력 이미지(690)가 도시되어 있다.
일 실시예에 따른 제1 입력 이미지(610)의 기하 정보는 제1 입력 이미지와 다른 이미지인 제2 입력 이미지(620)의 기하 정보로 변경될 수 있다. 다른 일 실시예에 따른 제1 입력 이미지(610)의 외관 정보는 제2 입력 이미지(620)의 외관 정보로 변경될 수 있다. 일 실시예에 따른 프로세서(810)는 제1 입력 이미지의 외관 정보 또는 기하 정보가 변경된 이미지를 생성할 수 있다.
일 실시예에 따른 프로세서(810)는 제1 입력 이미지(610)를 제1 신경망(130)에 인가하여 외관 정보1(611)을 생성할 수 있다. 일 실시예에 따른 프로세서(810)는 제2 입력 이미지를 제2 신경망(150)에 인가하여 기하 정보2(622)를 생성할 수 있다. 일 실시예에 따른 프로세서는 제2 입력 이미지(620)의 기하 정보2(622)에 기초하여 복수의 정규 그리드들을 변형할 수 있다. 일 실시예에 따른 프로세서(810)는 표준 공간 변환 모듈(650)을 이용하여 복수의 정규 그리드들을 변형할 수 있다. 그리고 프로세서(810)는 변형된 복수의 정규 그리드들에 제1 입력 이미지(610)의 외관 정보1(611)를 적용함으로써, 표준화된 영상 정보를 생성할 수 있다. 따라서 표준화된 영상 정보는 제1 입력 이미지(610)의 외관 정보1(611) 및 제2 입력 이미지(620)의 기하 정보2(622)에 기초하여 생성된 영상 정보를 포함할 수 있다. 프로세서(810)는 해당하는 영상 정보를 제3 신경망에 인가함으로써, 제1 입력 이미지(610)의 기하 정보가 변형된 출력 이미지(690)를 생성할 수 있다.
일 실시예에 따른 프로세서(810)는 제1 입력 이미지(610)를 제2 신경망(150)에 인가하여 기하 정보1(612)을 생성할 수 있다. 일 실시예에 따른 프로세서(810)는 제2 입력 이미지(620)를 제1 신경망(130)에 인가하여 외관 정보2(621)를 생성할 수 있다. 일 실시예에 따른 프로세서(810)는 제1 입력 이미지(610)의 기하 정보1(612)에 기초하여 복수의 정규 그리드들을 변형할 수 있다. 일 실시예에 따른 프로세서(810)는 표준 공간 변환 모듈(650)을 이용하여 복수의 정규 그리드들을 변형할 수 있다. 그리고 프로세서(810)는 변형된 복수의 정규 그리드들에 제2 입력 이미지(620)의 외관 정보2(621)를 적용함으로써, 표준화된 영상 정보를 생성할 수 있다. 따라서 표준화된 영상 정보는 제1 입력 이미지(610)의 기하 정보1(612) 및 제2 입력 이미지(620)의 외관 정보2(621)에 기초하여 생성된 영상 정보를 포함할 수 있다. 프로세서(810)는 해당하는 영상 정보를 제3 신경망에 인가함으로써, 제1 입력 이미지(610)의 외관 정보가 변형된 출력 이미지(690)를 생성할 수 있다.
도 7은 일 실시예에 따른 이미지를 생성하기 위한 방법을 설명하기 위한 흐름도이다.
일 실시예에 따른 전자 장치(800)는 제1 신경망을 이용하여, 제1 입력 이미지로부터 복수의 정규 그리드들을 포함하는 입면체로 정의되는 표준 공간에 대응하는 외관 정보를 생성(710)할 수 있다.
일 실시예에 따른 외관 정보는 피처 정보, 색상 정보 및 텍스처 정보 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 전자 장치(800)는 제2 신경망을 이용하여, 제2 입력 이미지로부터 상기 표준 공간에 대응하는 기하 정보를 생성(720)할 수 있다.
일 실시예에 따른 기하 정보는 오프셋 정보 및 깊이 정보 중 적어도 하나 및 스케일 정보를 포함할 수 있다.
일 실시예에 따른 전자 장치(800)는 기하 정보에 기초하여, 복수의 정규 그리드들을 변형(730)할 수 있다.
일 실시예에 따른 전자 장치(800)는 스케일 정보에 기초하여 복수의 정규 그리드들 각각에 대응하는 좌표를 변형할 수 있다. 일 실시예에 따른 전자 장치(800)는 오프셋 정보 및 깊이 정보 중 적어도 하나에 기초하여 변형된 좌표를 이동시킬 수 있다.
일 실시예에 따른 전자 장치(800)는 변형된 복수의 정규 그리드들에 상기 외관 정보를 적용함으로써, 표준화된 영상 정보를 생성(740)할 수 있다.
일 실시예에 따른 전자 장치(800)는 표준화된 영상 정보에 기초하여, 출력 이미지를 생성(750)할 수 있다.
일 실시예에 따른 전자 장치(800)는 영상 정보를 2차원 이미지로 변환할 수 있다. 일 실시예에 따른 전자 장치(800)는 2차원 이미지를 제3 신경망에 인가할 수 있다.
일 실시예에 따른 전자 장치(800)는 입력 이미지의 제1 시점 정보를 생성할 수 있다. 일 실시예에 따른 전자 장치(800)는 제2 시점 정보에 기초하여 제1 시점 정보를 변형할 수 있다. 일 실시예에 따른 전자 장치(800)는 영상 정보 및 변형된 제1 시점 정보를 제3 신경망에 인가하여 출력 이미지를 생성할 수 있다.
일 실시예에 따른 전자 장치(800)는 제1 입력 이미지의 기하 정보에 기초하여 변형된 복수의 그리드들 및 제2 입력 이미지의 외관 정보에 기초하여 표준화된 영상 정보를 생성할 수 있다.
일 실시예에 따른 전자 장치(800)는 시점 정보를 수신할 수 있다. 일 실시예에 따른 전자 장치(800)는 시점 정보에 대응하는 출력 이미지를 생성할 수 있다.
일 실시예에 따른 전자 장치(800)는 제3 입력 이미지를 제4 신경망에 인가하여 시점 정보를 생성할 수 있다. 일 실시예에 따른 전자 장치(800)는 시점 정보 및 제1 입력 이미지에 대응하는 영상 정보를 제3 신경망에 인가하여, 출력 이미지를 생성할 수 있다. 일 실시예에 따른 제3 입력 이미지는 제4 신경망에 인가되는 입력 이미지로서, 제1 입력 이미지 및/또는 제2 입력 이미지와 동일하거나 다른 이미지를 포함할 수 있다.
도 8는 일 실시예에 따른 전자 장치를 설명하기 위한 블록도이다.
도 8을 참조하면, 일 실시예에 따른 전자 장치(800)는 메모리(820), 프로세서(810), 및 통신 인터페이스(830)를 포함한다. 메모리(820), 프로세서(810), 및 통신 인터페이스(830)는 통신 버스(840)를 통해 서로 연결될 수 있다.
메모리(820)는 상술한 프로세서(810)의 처리 과정에서 생성되는 다양한 정보들을 저장할 수 있다. 이 밖에도, 메모리(820)는 각종 데이터와 프로그램 등을 저장할 수 있다. 메모리(820)는 휘발성 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(820)는 하드 디스크 등과 같은 대용량 저장 매체를 구비하여 각종 데이터를 저장할 수 있다.
프로세서(810)는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다. 예를 들어, 하드웨어로 구현된 분류 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(Central Processing Unit; CPU), 그래픽 처리 장치(Graphic Processing Unit; GPU), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array), NPU(Neural Processing Unit) 등을 포함할 수 있다.
프로세서(810)는 프로그램을 실행하고, 전자 장치를 제어할 수 있다. 프로세서(810)에 의하여 실행되는 프로그램 코드는 메모리(820)에 저장될 수 있다.
신경망은 입력 데이터에 대한 응답으로 내부 파라미터들에 의해 계산된 값을 출력한다. 신경망의 적어도 일부는 소프트웨어로 구현되거나, 뉴럴 프로세서(neural processor)를 포함하는 하드웨어로 구현되거나, 또는 소프트웨어 및 하드웨어의 조합으로 구현될 수 있다. 신경망은 완전 연결 네트워크(fully connected network), 딥 컨볼루셔널 네트워크(deep convolutional network) 및 리커런트 뉴럴 네트워크(recurrent neural network) 등을 포함하는 딥 뉴럴 네트워크(deep neural network, DNN)에 해당할 수 있다. DNN은 복수의 레이어들을 포함할 수 있다. 복수의 레이어들은 입력 레이어(input layer), 하나 이상의 히든 레이어(hidden layer), 및 출력 레이어(output layer)를 포함할 수 있다. 신경망은 딥 러닝(deep learning)에 기반하여 비선형적 관계에 있는 입력 데이터 및 출력 데이터를 서로 매핑함으로써 주어진 동작을 수행하도록 트레이닝될 수 있다. 딥 러닝은 빅 데이터 세트로부터 주어진 문제를 해결하기 위한 기계 학습 기법이다. 딥 러닝은 준비된 트레이닝 데이터를 이용하여 뉴럴 네트워크를 학습(training)시키면서 에너지가 최소화되는 지점을 찾아가는 뉴럴 네트워크의 최적화 과정이다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
Claims (19)
- 제1 신경망을 이용하여, 제1 입력 이미지로부터 복수의 정규 그리드(regular grid)들을 포함하는 입면체(cube)로 정의되는 표준 공간(Canonical Space)에 대응하는 외관(appearance) 정보를 생성하는 단계;
제2 신경망을 이용하여, 제2 입력 이미지로부터 상기 표준 공간에 대응하는 기하(geometric) 정보를 생성하는 단계;
상기 기하 정보에 기초하여, 상기 복수의 정규 그리드들을 변형(deform)하는 단계;
상기 변형된 복수의 정규 그리드들에 상기 외관 정보를 적용함으로써, 표준화된 영상 정보를 생성하는 단계; 및
상기 표준화된 영상 정보에 기초하여, 출력 이미지를 생성하는 단계;
를 포함하는,
영상 처리 방법.
- 제1항에 있어서,
상기 외관 정보는
피처 정보, 색상 정보 및 텍스처 정보 중 적어도 하나를 포함하는,
영상 처리 방법.
- 제1항에 있어서,
상기 기하 정보는
오프셋 정보 및 깊이 정보 중 적어도 하나; 및
스케일 정보
를 포함하는,
영상 처리 방법.
- 제1항에 있어서,
상기 복수의 정규 그리드들을 변형하는 단계는
스케일 정보에 기초하여 상기 복수의 정규 그리드들 각각에 대응하는 좌표를 변형하는 단계; 및
오프셋 정보 및 깊이 정보 중 적어도 하나에 기초하여 상기 변형된 좌표를 이동시키는 단계;
를 포함하는,
영상 처리 방법.
- 제1항에 있어서,
상기 표준 공간은
1점 투시도에 기반하여 5개의 면을 포함하는 입면체 형태로 표현된 공간을 포함하는,
영상 처리 방법.
- 제1항에 있어서,
상기 제1 입력 이미지와 상기 제2 입력 이미지는 동일한
영상 처리 방법.
- 제1항에 있어서,
상기 제1 입력 이미지와 상기 제2 입력 이미지는 상이한
영상 처리 방법.
- 제1항에 있어서,
시점 정보를 수신하는 단계
를 더 포함하고,
상기 출력 이미지를 생성하는 단계는
상기 시점 정보에 대응하는 출력 이미지를 생성하는 단계
를 포함하는,
영상 처리 방법.
- 제8항에 있어서,
상기 시점 정보에 대응하는 출력 이미지를 생성하는 단계는
제3 입력 이미지를 제4 신경망에 인가하여 상기 시점 정보를 생성하는 단계; 및
상기 시점 정보 및 제1 입력 이미지에 대응하는 영상 정보를 제3 신경망에 인가하여, 출력 이미지를 생성하는 단계;
를 포함하는,
- 제1항에 있어서,
상기 신경망은,
상기 제1 신경망, 상기 제2 신경망 및 상기 출력 이미지를 생성하도록 학습된 제3 신경망 중 적어도 하나를 포함하는,
영상 처리 방법.
- 제1항에 있어서,
상기 신경망은
제1 입력 이미지를 제3 입력 이미지의 시점 정보에 기초하여 변형된 이미지를 생성하도록 학습된
영상 처리 방법.
- 제1항에 있어서,
상기 신경망은
손실 함수를 감소시키도록 학습된 신경망을 포함하고,
상기 손실 함수는
제3 입력 이미지로부터 제4 신경망을 이용하여 생성된 시점(viewpoint) 정보 및 제1 입력 이미지에 대응하는 영상 정보를 상기 제3 신경망에 인가하여 생성된 출력 이미지와 상기 제3 입력 이미지의 차이에 기초하여 결정된,
영상 처리 방법.
- 제1항에 있어서,
상기 제2 신경망은
오프셋 정규화 손실 함수 및 깊이 정규화 손실 함수 중 적어도 하나에 기초하여 학습된,
영상 처리 방법.
- 제1항에 있어서,
상기 영상 정보를 제3 신경망에 인가하는 단계는
상기 영상 정보를 2차원 이미지로 변환하는 단계; 및
상기 2차원 이미지를 제3 신경망에 인가하는 단계;
를 포함하는,
영상 처리 방법.
- 제1항에 있어서,
상기 출력 이미지를 생성하는 단계는
상기 입력 이미지의 제1 시점 정보를 생성하는 단계;
제2 시점 정보에 기초하여 상기 제1 시점 정보를 변형하는 단계; 및
상기 영상 정보 및 상기 변형된 제1 시점 정보를 제3 신경망에 인가하여 출력 이미지를 생성하는 단계
를 포함하는,
영상 처리 방법.
- 제1항에 있어서,
상기 출력 이미지는
제2 입력 이미지의 기하 정보에 기초하여 제1 입력 이미지의 기하 정보를 변형시킨 이미지
또는
상기 제2 입력 이미지의 외관 정보에 기초하여 상기 제1 입력 이미지의 외관 정보를 변형시킨 이미지
를 포함하는,
영상 처리 방법.
- 제1항에 있어서,
상기 표준화된 영상 정보를 생성하는 단계는
제1 입력 이미지의 기하 정보에 기초하여 변형된 복수의 그리드들 및 제2 입력 이미지의 외관 정보에 기초하여 표준화된 영상 정보를 생성하는 단계
를 포함하는,
영상 처리 방법.
- 하드웨어와 결합되어 제1항 내지 제17항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
- 제1 신경망을 이용하여, 제1 입력 이미지로부터 복수의 정규 그리드들을 포함하는 입면체로 정의되는 표준 공간에 대응하는 외관 정보를 생성하고, 제2 신경망을 이용하여, 제2 입력 이미지로부터 상기 표준 공간에 대응하는 기하 정보를 생성하고, 상기 기하 정보에 기초하여, 상기 복수의 정규 그리드들을 변형하고, 상기 변형된 복수의 정규 그리드들에 상기 외관 정보를 적용함으로써, 표준화된 영상 정보를 생성하고, 그리고 상기 표준화된 영상 정보에 기초하여, 출력 이미지를 생성하는 프로세서를 포함하는,
전자 장치.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210189898A KR20230100205A (ko) | 2021-12-28 | 2021-12-28 | 영상 처리 방법 및 장치 |
US17/832,847 US12086940B2 (en) | 2021-12-28 | 2022-06-06 | Image processing method and apparatus |
CN202210797838.2A CN116362966A (zh) | 2021-12-28 | 2022-07-06 | 图像处理方法和装置 |
EP22193592.7A EP4207089A1 (en) | 2021-12-28 | 2022-09-02 | Image processing method and apparatus |
JP2022161314A JP2023098597A (ja) | 2021-12-28 | 2022-10-06 | 映像処理方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210189898A KR20230100205A (ko) | 2021-12-28 | 2021-12-28 | 영상 처리 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230100205A true KR20230100205A (ko) | 2023-07-05 |
Family
ID=83457429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210189898A KR20230100205A (ko) | 2021-12-28 | 2021-12-28 | 영상 처리 방법 및 장치 |
Country Status (5)
Country | Link |
---|---|
US (1) | US12086940B2 (ko) |
EP (1) | EP4207089A1 (ko) |
JP (1) | JP2023098597A (ko) |
KR (1) | KR20230100205A (ko) |
CN (1) | CN116362966A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102610505B1 (ko) * | 2023-08-08 | 2023-12-06 | 주식회사 에이오팜 | 인공지능 기반의 농산물 외부 결함 측정 장치, 방법및 프로그램 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100327103B1 (ko) | 1998-06-03 | 2002-09-17 | 한국전자통신연구원 | 사용자의조력및물체추적에의한영상객체분할방법 |
KR100468843B1 (ko) | 2001-11-02 | 2005-01-29 | 삼성전자주식회사 | 동영상 데이터에서 장면전환을 자동검출하는 방법 및 그장치 |
KR100450823B1 (ko) | 2001-11-27 | 2004-10-01 | 삼성전자주식회사 | 깊이 이미지 기반 3차원 물체의 표현을 위한 노드 구조 |
US7295220B2 (en) | 2004-05-28 | 2007-11-13 | National University Of Singapore | Interactive system and method |
KR100799990B1 (ko) | 2006-06-30 | 2008-01-31 | 연세대학교 산학협력단 | 2차원 영상의 3차원 영상 변환 장치 및 방법 |
KR100788704B1 (ko) | 2006-11-15 | 2007-12-26 | 삼성전자주식회사 | 영상 변환 방법 및 그 장치 |
US8254680B2 (en) | 2007-01-24 | 2012-08-28 | Samsung Electronics Co., Ltd. | Apparatus and method of segmenting an image in an image coding and/or decoding system |
US8705892B2 (en) | 2010-10-26 | 2014-04-22 | 3Ditize Sl | Generating three-dimensional virtual tours from two-dimensional images |
GB2512621A (en) | 2013-04-04 | 2014-10-08 | Sony Corp | A method and apparatus |
US10482574B2 (en) | 2016-07-06 | 2019-11-19 | Gopro, Inc. | Systems and methods for multi-resolution image stitching |
KR101963200B1 (ko) | 2017-03-09 | 2019-03-28 | 경희대학교 산학협력단 | 영상 콘텐츠 자동 인식기술을 이용한 실시간 영상변환 시스템 및 방법 |
US10706699B1 (en) * | 2017-05-18 | 2020-07-07 | Alarm.Com Incorporated | Projector assisted monitoring system |
US10909746B1 (en) * | 2018-06-22 | 2021-02-02 | Imbellus, Inc. | Systems and methods for asset generation in immersive cognitive assessments |
US11823421B2 (en) | 2019-03-14 | 2023-11-21 | Nokia Technologies Oy | Signalling of metadata for volumetric video |
US10692277B1 (en) | 2019-03-21 | 2020-06-23 | Adobe Inc. | Dynamically estimating lighting parameters for positions within augmented-reality scenes using a neural network |
US11270415B2 (en) * | 2019-08-22 | 2022-03-08 | Adobe Inc. | Image inpainting with geometric and photometric transformations |
CN110531860B (zh) * | 2019-09-02 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的动画形象驱动方法和装置 |
CN113469180A (zh) * | 2020-03-31 | 2021-10-01 | 阿里巴巴集团控股有限公司 | 医学图像的处理方法和系统、数据处理方法 |
US20210350620A1 (en) * | 2020-05-07 | 2021-11-11 | Imperial College Innovations Limited | Generative geometric neural networks for 3d shape modelling |
KR20220126063A (ko) | 2021-03-08 | 2022-09-15 | 삼성전자주식회사 | 재구성된 이미지를 생성하는 이미지 처리 방법 및 장치 |
-
2021
- 2021-12-28 KR KR1020210189898A patent/KR20230100205A/ko unknown
-
2022
- 2022-06-06 US US17/832,847 patent/US12086940B2/en active Active
- 2022-07-06 CN CN202210797838.2A patent/CN116362966A/zh active Pending
- 2022-09-02 EP EP22193592.7A patent/EP4207089A1/en active Pending
- 2022-10-06 JP JP2022161314A patent/JP2023098597A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102610505B1 (ko) * | 2023-08-08 | 2023-12-06 | 주식회사 에이오팜 | 인공지능 기반의 농산물 외부 결함 측정 장치, 방법및 프로그램 |
Also Published As
Publication number | Publication date |
---|---|
US12086940B2 (en) | 2024-09-10 |
CN116362966A (zh) | 2023-06-30 |
EP4207089A1 (en) | 2023-07-05 |
JP2023098597A (ja) | 2023-07-10 |
US20230206562A1 (en) | 2023-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111986307B (zh) | 使用光度网格表示的3d对象重建 | |
US20220139027A1 (en) | Scene data obtaining method and model training method, apparatus and computer readable storage medium using the same | |
CN115100339B (zh) | 图像生成方法、装置、电子设备和存储介质 | |
CN115097937A (zh) | 用于长方体检测的深度学习系统 | |
CN107393017A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
US9965893B2 (en) | Curvature-driven normal interpolation for shading applications | |
EP4107650A1 (en) | Systems and methods for object detection including pose and size estimation | |
US20230206567A1 (en) | Geometry-aware augmented reality effects with real-time depth map | |
CN112991537A (zh) | 城市场景重建方法、装置、计算机设备和存储介质 | |
JP7519462B2 (ja) | フロアプランを生成するための方法、装置およびプログラム | |
JP2022136963A (ja) | 再構成されたイメージを生成するイメージ処理方法及び装置 | |
KR20230100205A (ko) | 영상 처리 방법 및 장치 | |
US20240161391A1 (en) | Relightable neural radiance field model | |
Li et al. | Interacting with neural radiance fields in immersive virtual reality | |
CN112017159B (zh) | 一种遥感场景下的地面目标真实感仿真方法 | |
CN112862981B (zh) | 用于呈现虚拟表示的方法和装置、计算机设备和存储介质 | |
CN115375847A (zh) | 材质恢复方法、三维模型的生成方法和模型的训练方法 | |
Zhang et al. | Image‐inspired haptic interaction | |
Ji et al. | 3D face reconstruction system from a single photo based on regression neural network | |
US20230245364A1 (en) | Method for Processing Video, Electronic Device, and Storage Medium | |
KR20230120272A (ko) | 객체의 동작을 트랜스퍼하는 방법 및 장치 | |
KR20240049098A (ko) | 뷰 증강 기반의 뉴럴 렌더링 방법 및 장치 | |
US9898854B1 (en) | Hybrid binding of meshes | |
Akturk | Back2Future-SIM: Creating Real-Time Interactable Immersive Virtual World For Robot Teleoperation | |
Zhen et al. | Research and implementation of modeling in virtual environment based on OpenGL |