KR102538685B1

KR102538685B1 - 다시점 정보를 이용하여 3d 정보를 복원하는 방법 및 이를 위한 장치

Info

Publication number: KR102538685B1
Application number: KR1020220150033A
Authority: KR
Inventors: 박규열
Original assignee: 주식회사 리빌더에이아이
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2023-05-31

Abstract

본 명세서는 3D 정보 복원장치가 다시점 이미지 정보를 이용하여 객체의 3D 정보를 복원하는 방법에 있어서, 상기 다시점 이미지 정보를 이용한 와핑(warping) 이미지의 RGB 이미지에 근거하여, 디퓨즈 이미지 및 스펙큘러 이미지를 획득하고, 상기 디퓨즈 이미지 및 상기 스펙큘러 이미지에 근거하여, 상기 와핑 이미지의 법선 맵 및 광선 방향 맵을 이용하여, 입사광 맵 정보 및 큐브맵 정보를 계산하며, 상기 입사광 맵 정보 및 상기 큐브맵 정보에 근거하여, 기본색상 이미지, 거칠기 이미지 및 금속성 이미지를 획득하고, 상기 기본색상 이미지, 상기 금속성 이미지, 상기 와핑 이미지의 깊이 이미지, 상기 와핑 이미지의 법선 이미지, 상기 거칠기 이미지, 및 상기 금속성 이미지에 근거하여, 상기 객체의 3D 메시(mesh)를 복원할 수 있다.

Description

다시점 정보를 이용하여 3D 정보를 복원하는 방법 및 이를 위한 장치 {METHOD AND APPARATUS FOR RESTORING 3D INFORMATION USING MULTI-VIEW INFORMATION}

본 명세서는 한 점을 다중으로 바라보는 multi-view 이미지에 근거하여, 다시점 정보를 이용하여, 3D 정보를 복원하는 방법 및 장치에 관한 것이다.

영상 기반 실사 3d 형상 복원 기술에 있어서, 복원 단계는 영상에서 특정 장수의 이미지를 추출한 후, 추출된 이미지로부터 카메라의 정확한 시점 정보를 추론하고, 이를 바탕으로 3d 형상 및 색상을 추론하여 3d 모델로 변환하는 동작이 수행될 수 있다.

이를 위한, 주요 복원 방법은 크게 stereo vision을 이용한 방법과 differentiable rendering을 이용한 방법이 있다.

다만, 이러한 기존 방법들은 대상의 형상 및 색상의 정확한 복원이 어렵다. 예를 들어, stereo vision을 이용하는 방법의 경우, 특징 없는 영역의 복원이 매우 어렵고, differentiable rendering을 이용하는 방법의 경우, 속도가 매우 느리고 정확한 형상 복원이 어렵다.

기존 방법들은 공통적으로, pbr(physical based rendering) 추론이 되지 않아, 하이라이팅(빛나는 영역)의 제거가 안되고, 금속 등의 스캐닝이 어려우며, 정확한 텍스처 추정이 되지 않아 실제 사용을 위해서는 디자이너의 수정이 필수적이다.

또한 예측 노이즈가 크고(예를 들어, strereo 기반), 복원을 위한 예측 해상도가 작아(예를 들어, differentiable 기반) 정확한 형상의 복원이 어렵다는 문제점이 있다.

본 명세서의 목적은, multi-view 이미지에 근거하여, 다시점 정보를 이용하여, 3D 정보를 복원하기 위한 방법 및 장치를 제안한다.

또한, 본 명세서의 목적은, 현재 예측의 대상이 되는 레퍼런스 이미지와 그 주위의 소스 이미지들을 정의하고, 다양한 방향으로 바라볼 때 해당 점의 색상과 밝기 변화로부터 정확한 물체 색상과 반사도를 추론하기 위한 방법 및 장치를 제안한다.

본 명세서가 해결하고자 하는 과제들은 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 명세서가 속하는 기술분야에서 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 명세서의 일 실시예에 따르면, 3D 정보 복원장치가 다시점 이미지 정보를 이용하여 객체의 3D 정보를 복원하는 방법에 있어서, 상기 다시점 이미지 정보를 이용한 와핑(warping) 이미지의 RGB 이미지에 근거하여, 디퓨즈 이미지 및 스펙큘러 이미지를 획득하는 단계; 상기 디퓨즈 이미지 및 상기 스펙큘러 이미지에 근거하여, 상기 와핑 이미지의 법선 맵 및 광선 방향 맵을 이용하여, 입사광 맵 정보 및 큐브맵 정보를 계산하는 단계; 상기 입사광 맵 정보 및 상기 큐브맵 정보에 근거하여, 기본색상 이미지, 거칠기 이미지 및 금속성 이미지를 획득하는 단계; 및 상기 기본색상 이미지, 상기 금속성 이미지, 상기 와핑 이미지의 깊이 이미지, 상기 와핑 이미지의 법선 이미지, 상기 거칠기 이미지, 및 상기 금속성 이미지에 근거하여, 상기 객체의 3D 메시(mesh)를 복원하는 단계; 를 포함할 수 있다.
또한, 상기 디퓨즈 이미지 및 스펙큘러 이미지를 획득하는 단계는 상기 다시점 이미지 정보와 관련하여, 상기 객체의 동일 표면에서의 색상 및 밝기의 변화에 근거할 수 있다.
또한, 상기 입사광 맵 정보는 상기 객체의 법선 벡터(n)와 관련되고, 상기 큐브맵 정보는 광원 방향(l)과 관련될 수 있다.
또한, 상기 기본색상 이미지, 거칠기 이미지 및 금속성 이미지를 획득하는 단계는 상기 입사광 맵 정보 및 상기 큐브맵 정보에 근거하여, 상기 디퓨즈 이미지 및 상기 스펙큘러 이미지를 보정하는 단계; 및 보정된 1) 디퓨즈 이미지, 및 2) 스펙큘러 이미지에 근거하여, 상기 기본색상 이미지, 상기 거칠기 이미지 및 상기 금속성 이미지를 획득하는 단계; 를 포함할 수 있다.
또한, 상기 객체의 3D 메시(mesh)를 복원하는 단계는 상기 객체의 3D 포인트 클라우드를 생성하는 단계; 상기 3D 포인트 클라우드에 근거하여, 상기 객체의 표면(surface)을 복원하는 단계; 상기 객체의 표면에 근거하여, 텍스쳐 이미지를 생성하는 단계; 및 상기 텍스쳐 이미지에 근거하여, 상기 3D 메시를 복원하는 단계; 를 포함할 수 있다.
또한, 상기 다시점 이미지 정보에 근거하여, 카메라의 시점정보를 추정하는 단계; 상기 시점정보에 근거하여, 상기 객체에 대한 1) 레퍼런스(reference) 이미지 및 2) 소스(source) 이미지를 선택하는 단계; 및 상기 레퍼런스 이미지 및 소스 이미지에 근거하여, 상기 와핑 이미지를 생성하는 단계; 를 더 포함할 수 있다.
또한 본 명세서의 일 실시예에 따르면, 다시점 이미지 정보를 이용하여 객체의 3D 정보를 복원하는 3D 정보 복원장치에 있어서, 상기 다시점 이미지 정보를 입력받기 위한 입력부; 메모리; 및 상기 입력부 및 상기 메모리를 기능적으로 제어하는 프로세서;를 포함하며, 상기 프로세서는 상기 다시점 이미지 정보를 이용한 와핑(warping) 이미지의 RGB 이미지에 근거하여, 디퓨즈 이미지 및 스펙큘러 이미지를 획득하고, 상기 디퓨즈 이미지 및 상기 스펙큘러 이미지에 근거하여, 상기 와핑 이미지의 법선 맵 및 광선 방향 맵을 이용하여, 입사광 맵 정보 및 큐브맵 정보를 계산하며, 상기 입사광 맵 정보 및 상기 큐브맵 정보에 근거하여, 기본색상 이미지, 거칠기 이미지 및 금속성 이미지를 획득하고, 상기 기본색상 이미지, 상기 금속성 이미지, 상기 와핑 이미지의 깊이 이미지, 상기 와핑 이미지의 법선 이미지, 상기 거칠기 이미지, 및 상기 금속성 이미지에 근거하여, 상기 객체의 3D 메시(mesh)를 복원할 수 있다.

본 명세서의 실시예에 따르면, 3D 정보 복원장치는 multi-view 이미지에 근거하여, 다시점 정보를 이용하여, 3D 정보를 복원할 수 있다.

또한, 본 명세서의 실시예에 따르면, 3D 정보 복원장치는 현재 예측의 대상이 되는 레퍼런스 이미지와 그 주위의 소스 이미지들을 정의하고, 다양한 방향으로 바라볼 때 해당 점의 색상과 밝기 변화로부터 정확한 물체 색상과 반사도를 추론할 수 있다.

본 명세서의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 본 명세서가 속하는 기술분야에서 통상의 기술자에게 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 명세서와 관련된 전자 기기를 설명하기 위한 블록도이다.
도 2는 본 명세서의 일 실시예에 따른 AI 장치의 블록도이다.
도 3은 본 명세서가 적용될 수 있는 객체에 대한 영상을 생성하기 위 한 카메라의 위치를 나타내는 개념도이다.
도 4는 본 명세서에 적용될 수 있는 이미지 추출 및 카메라 시점정보 추정의 예시이다.
도 5는 본 명세서에 적용될 수 있는 카메라 시점정보의 예시이다.
도 6은 본 명세서에 적용될 수 있는 레퍼런스 이미지에 대한 소스 이미지들의 와핑의 예시이다.
도 7은 본 명세서가 적용될 수 있는 깊이 맵 보정의 예시이다.
도 8은 본 명세서가 적용될 수 있는 픽셀 별 반사 정보 추론의 예시이다.
도 9는 본 명세서에 적용될 수 있는 3D 메시 복원의 예시이다.
본 명세서에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 명세서에 대한 실시예를 제공하고, 상세한 설명과 함께 본 명세서의 기술적 특징을 설명한다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 명세서의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

도 1은 본 명세서와 관련된 전자 기기를 설명하기 위한 블록도이다.

상기 전자 기기(100)는 무선 통신부(110), 입력부(120), 센싱부(140), 출력부(150), 인터페이스부(160), 메모리(170), 제어부(180) 및 전원 공급부(190) 등을 포함할 수 있다. 도 1에 도시된 구성요소들은 전자 기기를 구현하는데 있어서 필수적인 것은 아니어서, 본 명세서 상에서 설명되는 전자 기기는 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다.

보다 구체적으로, 상기 구성요소들 중 무선 통신부(110)는, 전자 기기(100)와 무선 통신 시스템 사이, 전자 기기(100)와 다른 전자 기기(100) 사이, 또는 전자 기기(100)와 외부서버 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 또한, 상기 무선 통신부(110)는, 전자 기기(100)를 하나 이상의 네트워크에 연결하는 하나 이상의 모듈을 포함할 수 있다.

이러한 무선 통신부(110)는, 방송 수신 모듈(111), 이동통신 모듈(112), 무선 인터넷 모듈(113), 근거리 통신 모듈(114), 위치정보 모듈(115) 중 적어도 하나를 포함할 수 있다.

입력부(120)는, 영상 신호 입력을 위한 하나 이상의 카메라(121) 또는 영상 입력부, 오디오 신호 입력을 위한 마이크로폰(microphone, 122), 또는 오디오 입력부, 사용자로부터 정보를 입력받기 위한 사용자 입력부(123, 예를 들어, 터치키(touch key), 푸시키(mechanical key) 등)를 포함할 수 있다. 입력부(120)에서 수집한 음성 데이터나 이미지 데이터는 분석되어 사용자의 제어명령으로 처리될 수 있다.

센싱부(140)는 전자 기기 내 정보, 전자 기기를 둘러싼 주변 환경 정보 및 사용자 정보 중 적어도 하나를 센싱하기 위한 하나 이상의 센서를 포함할 수 있다. 예를 들어, 센싱부(140)는 근접센서(141, proximity sensor), 조도 센서(142, illumination sensor), 터치 센서(touch sensor), 가속도 센서(acceleration sensor), 자기 센서(magnetic sensor), 중력 센서(G-sensor), 자이로스코프 센서(gyroscope sensor), 모션 센서(motion sensor), RGB 센서, 적외선 센서(IR 센서: infrared sensor), 지문인식 센서(finger scan sensor), 초음파 센서(ultrasonic sensor), 광 센서(optical sensor, 예를 들어, 카메라(121 참조)), 마이크로폰(microphone, 122 참조), 배터리 게이지(battery gauge), 환경 센서(예를 들어, 기압계, 습도계, 온도계, 방사능 감지 센서, 열 감지 센서, 가스 감지 센서 등), 화학 센서(예를 들어, 전자 코, 헬스케어 센서, 생체 인식 센서 등) 중 적어도 하나를 포함할 수 있다. 한편, 본 명세서에 개시된 전자 기기는, 이러한 센서들 중 적어도 둘 이상의 센서에서 센싱되는 정보들을 조합하여 활용할 수 있다.

출력부(150)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 것으로, 디스플레이부(151), 음향 출력부(152), 햅팁 모듈(153), 광 출력부(154) 중 적어도 하나를 포함할 수 있다. 디스플레이부(151)는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, 전자 기기(100)와 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부(123)로써 기능함과 동시에, 전자 기기(100)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.

인터페이스부(160)는 전자 기기(100)에 연결되는 다양한 종류의 외부 기기와의 통로 역할을 수행한다. 이러한 인터페이스부(160)는, 유/무선 헤드셋 포트(port), 외부 충전기 포트(port), 유/무선 데이터 포트(port), 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트(port), 오디오 I/O(Input/Output) 포트(port), 비디오 I/O(Input/Output) 포트(port), 이어폰 포트(port) 중 적어도 하나를 포함할 수 있다. 전자 기기(100)에서는, 상기 인터페이스부(160)에 외부 기기가 연결되는 것에 대응하여, 연결된 외부 기기와 관련된 적절할 제어를 수행할 수 있다.

또한, 메모리(170)는 전자 기기(100)의 다양한 기능을 지원하는 데이터를 저장한다. 메모리(170)는 전자 기기(100)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 전자 기기(100)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부 서버로부터 다운로드 될 수 있다. 또한 이러한 응용 프로그램 중 적어도 일부는, 전자 기기(100)의 기본적인 기능(예를 들어, 전화 착신, 발신 기능, 메시지 수신, 발신 기능)을 위하여 출고 당시부터 전자 기기(100)상에 존재할 수 있다. 한편, 응용 프로그램은, 메모리(170)에 저장되고, 전자 기기(100) 상에 설치되어, 제어부(180)에 의하여 상기 전자 기기의 동작(또는 기능)을 수행하도록 구동될 수 있다.

제어부(180)는 상기 응용 프로그램과 관련된 동작 외에도, 통상적으로 전자 기기(100)의 전반적인 동작을 제어한다. 제어부(180)는 위에서 살펴본 구성요소들을 통해 입력 또는 출력되는 신호, 데이터, 정보 등을 처리하거나 메모리(170)에 저장된 응용 프로그램을 구동함으로써, 사용자에게 적절한 정보 또는 기능을 제공 또는 처리할 수 있다.

또한, 제어부(180)는 메모리(170)에 저장된 응용 프로그램을 구동하기 위하여, 도 1과 함께 살펴본 구성요소들 중 적어도 일부를 제어할 수 있다. 나아가, 제어부(180)는 상기 응용 프로그램의 구동을 위하여, 전자 기기(100)에 포함된 구성요소들 중 적어도 둘 이상을 서로 조합하여 동작시킬 수 있다.

전원공급부(190)는 제어부(180)의 제어 하에서, 외부의 전원, 내부의 전원을 인가받아 전자 기기(100)에 포함된 각 구성요소들에 전원을 공급한다. 이러한 전원공급부(190)는 배터리를 포함하며, 상기 배터리는 내장형 배터리 또는 교체가능한 형태의 배터리가 될 수 있다.

상기 각 구성요소들 중 적어도 일부는, 이하에서 설명되는 다양한 실시 예들에 따른 전자 기기의 동작, 제어, 또는 제어방법을 구현하기 위하여 서로 협력하여 동작할 수 있다. 또한, 상기 전자 기기의 동작, 제어, 또는 제어방법은 상기 메모리(170)에 저장된 적어도 하나의 응용 프로그램의 구동에 의하여 전자 기기 상에서 구현될 수 있다.

본 명세성에서 전자기기(100)는 3D 정보 복원장치를 포함할 수 있다.

도 2는 본 명세서의 일 실시예에 따른 AI 장치의 블록도이다.

상기 AI 장치(20)는 AI 프로세싱을 수행할 수 있는 AI 모듈을 포함하는 전자 기기 또는 상기 AI 모듈을 포함하는 서버 등을 포함할 수 있다. 또한, 상기 AI 장치(20)는 도 1에 도시된 전자기기(100)의 적어도 일부의 구성으로 포함되어 AI 프로세싱 중 적어도 일부를 함께 수행하도록 구비될 수도 있다.

상기 AI 장치(20)는 AI 프로세서(21), 메모리(25) 및/또는 통신부(27)를 포함할 수 있다.

상기 AI 장치(20)는 신경망을 학습할 수 있는 컴퓨팅 장치로서, 서버, 데스크탑 PC, 노트북 PC, 태블릿 PC 등과 같은 다양한 전자 장치로 구현될 수 있다.

AI 프로세서(21)는 메모리(25)에 저장된 프로그램을 이용하여 신경망을 학습할 수 있다.

도 3은 본 명세서가 적용될 수 있는 객체에 대한 영상을 생성하기 위 한 카메라의 위치를 나타내는 개념도이다.

도 3을 참조하면, 카메라(121)는 제1카메라(201), 제2카메라(203), 및 제3카메라(205)를 포함할 수 있다. 실시 예에 따라 제1카메라(201), 제2카메라(203), 및 제3카메라(205)는 하나의 카메라일 수 있다. 예를 들어, 제1카메라(201)를 이동시켜, 제2시점에 서 제2이미지(214)와 제3시점에서 제3이미지(216)가 생성될 수 있다. 이러한 제1시점, 제2시점 및 제3시점은 모두 다른 시점일 수 있다.

보다 자세하게, 제1카메라(201)는 제1시점(viewpoint)에서 객체(5)에 대한 특징점들(207a, 209a)을 포함하는 제1이미지(212)를 생성할 수 있다. 제2 카메라(203)는 제2시점에서 객체(5)에 대한 특징점들(207b, 209b, 211b)을 포함하는 제2이미지(214)를 생성할 수 있다. 제3카메라(205)는 제3시점에서 객체(5)에 대한 특징점들(207c, 209c, 211c)을 포함하는 제3이미지(216)를 생성할 수 있다.

또한, 객체(5)의 점들(207, 209)이 제1이미지(212)에 투사(207a, 209a)될 수 있다. 객체(5)의 점들(207, 209, 211)이 제2이미지(214)에 투사(207b, 209b, 211b)될 수 있다. 객체(5)의 점들(207, 209, 211)이 제3이미지(216)에 투사(207c, 209c, 211c)될 수 있다.

입력부(120)는 서로 다른 시점들로부터 생성된 복수의 이미지들(예를 들어, 212, 214, 및 216)을 입력받을 수 있다.

도 4는 본 명세서에 적용될 수 있는 이미지 추출 및 카메라 시점정보 추정의 예시이다.

도 4를 참조하면, 3D 정보 복원장치는 입력부(120)를 통해, 입력된 객체(5)의 촬영 영상 입력데이터들에 대해서 이미지들을 추출하고, 이를 전처리하여 특정 개수만큼의 이미지들을 생성할 수 있다. 예를 들어, 3D 복원 장치는 추출된 n 장의 이미지로부터 structure-from-motion(SFM) 연산을 통해 이미지가 촬영된 6DOF 카메라 시점정보(예를 들어, camera intrinsic, extrinsic)를 계산할 수 있다.

3D 정보 복원장치는 촬영 영상 입력데이터로부터 하나 이상의 이미지들을 추출한다(S4010).

3D 정보 복원장치는 추출된 이미지들을 필터링한다(S4020). 예를 들어, 3D 정보 복원장치는 추출된 이미지들의 흐릿함을 개선하기 위해 라플라시안 분산(variance of Laplacian) 연산을 이용하여, 이미지들을 필터링할 수 있다.

3D 정보 복원장치는 필터링된 이미지들로부터, 특정 개수의 이미지들을 추출한다(S4030). 예를 들어, 3D 정보 복원장치는 SFM 연산을 적용하기 위해 기설정된 N 개의 이미지들을 추출할 수 있다.

3D 정보 복원장치는 특정 개수의 이미지들에 대해 SFM 연산을 수행한다(S4040). 예를 들어, SFM 연산은 이미지들에 근거하여, 3D point의 위치를 찾아내기 위해 수행될 수 있다.

보다 자세하게, SFM 연산을 위해, 3D 정보 복원장치는 복수의 2D 이미지들(예를 들어, 212, 214, 216)에서 특징점들(예를 들어, 207a, 207b, 207c, 209a 209b, 209c, 211b, 및 211c)을 추출하고, 추출된 특징점들을 서로 매칭할 수 있다.

보다 자세하게, 특징점들의 추출을 위해 SIFT(Scale Invariant Feature Transform) 알고리즘, FAST(Features from Accelerated Segment Test) 알고리즘, 또는 HOG(Histogram of Oriented Gradients) 알고리즘이 이용될 수 있다.

이러한 특징점들이 추출된 후, 적합한 특징점들(예를 들어, 207a, 207b, 207c)이 매칭될 수 있다. 또한, 제1 특징점들(예를 들어, 209a 209b, 209c) 및 제2 특징점들(예를 들어, 211b, 및 211c)이 매칭될 수 있다.

3D 정보 복원장치는 매칭된 특징점들에 근거하여 카메라의 시점정보를 추정할 수 있다.

카메라의 시점정보(viewpoint information)는 카메라의 회전정보와 카메라의 위치정보를 포함할 수 있다.

예를 들어, 3D 정보 복원장치는 이미지 간의 특징점 매칭을 통해, 인접 카메라 간의 변환행렬을 계산하고, 이를 통해 카메라들의 시점정보를 복원할 수 있다.

보다 자세하게, 3D 정보 복원장치는 2D 이미지들(예를 들어, 212, 214, 216)로부터 2D 이미지들을 촬영한 카메라(예를 들어, 201, 203, 205)의 시점정보를 추정할 수 있다. 3D 정보 복원장치는 매칭된 특징점들에 기초하여, 카메라의 상대적인 3D 회전 방향과 상대적인 변환(translation) 방향을 계산할 수 있다.

이후, 3D 정보 복원장치는 카메라의 시점정보를 개선할 수 있다. 이러한, 카메라 시점정보의 보정은 카메라 번들 조정(camera bundle adjustment)을 의미할 수 있다. 예를 들어, 3D 정보 복원장치는 RANSAC(RANdom SAmple consensus) 알고리즘을 이용하여, 시점정보의 오차를 보정하여 최적화 작업을 수행할 수 있다.

3D 정보 복원장치는 카메라들의 시점정보를 추정한다(S4050).

예를 들어, 전술한 동작들을 통해, 3D 정보 복원장치는 복수의 이미지들(예를 들어, 212, 216, 및 222)과, 카메라(예를 들어, 201, 203, 또는 205)의 시점정보를 출력할 수 있다. 보다 자세하게, 시점정보는 각 이미지에 대한 카메라 회전 매트릭스(Rn)와 카메라 변환 벡터(tn)등을 포함할 수 있다.

도 5는 본 명세서에 적용될 수 있는 카메라 시점정보의 예시이다.

도 5를 참조하면, 3D 정보 복원 장치는 각 카메라들의 시점정보를 알고 있기 때문에 각 이미지에 대해 깊이 정보를 추정할 수 있고, image-warping algorithm을 이용하여, 이미지들을 합성할 수 있다.

보다 자세하게, 3D 정보 복원장치는 촬영 영상 입력데이터에 포함된 이미지들에 대해서, 객체 (5)의 깊이 정보를 예측할 수 있다. 예를 들어, 3D 정보 복원장치는 객체(5)의 깊이 정보를 예측하기 위해 2개의 이미지들을 이용하는 스테레오 매칭(stereo matching) 방법, 또는 딥러닝 기반 multi-view stereo(MVS) 등을 이용하여 객체(5)의 깊이 정보를 예측할 수 있다.

또한, 3D 정보 복원 장치는 한 물체의 표면을 여러 방향에서 본 색상 정보를 획득할 수 있다.

도 6은 본 명세서에 적용될 수 있는 레퍼런스 이미지에 대한 소스 이미지들의 와핑의 예시이다.

와핑(Warping)이란, 기하학적 변형(Geometric Transformation)의 한 종류로서, 예를 들어, (x, y)의 위치에 있는 픽셀을 (x', y')으로 대응시키는 작업을 의미할 수 있다. 또한, 소스(source) 이미지란, 대상이 되는 레퍼런스(reference) 이미지에 대한 근처의 특정 개수의 시점 이미지를 의미할 수 있다. 이는, 카메라 시점정보(예를 들어, extrinsic)로부터 계산될 수 있다.

예를 들어, 3D 정보 복원장치는 촬영 영상 입력데이터에 포함된 전체 이미지가 50장 있다고 하면, 그 중 하나를 레퍼런스 이미지로 선택하고, 그 주위 가장 가까운 3~5개 이미지를 소스 이미지로 설정할 수 있다. 3D 정보 복원장치는 모든 이미지에 대해, 각각 한 번씩 레퍼런스 이미지로 선택하고, 후술되는 동작을 반복할 수 있다.

도 6을 참조하면, 3D 정보 복원장치는 소스(source) 이미지와 레퍼런스(reference) 이미지의 점 재투영(point reprojection)을 수행한다(S6010). 예를 들어, 3D 정보 복원장치는 점 재투영을 통해, 소스 이미지의 점과 레퍼런스 이미지의 점의 투영된 거리와 깊이정보를 비교할 수 있다.

3D 정보 복원장치는 점 재투영의 결과에 근거하여, 깊이 정보의 신뢰도 마스크(mask)를 생성한다(S6020).

예를 들어, 3D 정보 복원장치는 점 재투영의 결과에 따라, 특정 신뢰도값(예를 들어, 1 픽셀 이내)에 근거하여, 깊이 정보의 신뢰도 마스크(geometric mask)를 생성할 수 있다.

3D 정보 복원장치는 신뢰도 마스크에 근거하여, 소스 이미지에서 레퍼런스 이미지로의 호모그래피(Homography) 메트릭스를 계산한다(S6030). 예를 들어, Homography 메트릭스는 한 이미지 픽셀의 좌표 정보를 다른 이미지 프레임의 좌표 정보로 투영하기 위한 변환 메트릭스를 의미할 수 있다. 보다 자세하게, 3D 정보 복원장치는 신뢰도 마스크에 근거하여, 깊이 신뢰도(geometric depth confidence)가 높은 이미지 픽셀들과, 상대적인 카메라 extrinsic 정보를 사용하여, 소스 이미지에서 레퍼런스 이미지로의 homography matrix를 계산할 수 있다.

3D 정보 복원장치는 Homography 메트릭스에 근거하여 소스 이미지의 정보들을 레퍼런스 이미지의 시점으로 와핑한다(S6040). 예를 들어, 3D 정보 복원장치는 계산된 homography 메트릭스로부터 소스 이미지 시점에서의 depth image, normal image, ray directions(예를 들어, source 이미지의 픽셀 별 좌표정보), rgb image를 레퍼런스 이미지의 시점으로 와핑할 수 있다. 이를 통해, 소스 뷰와 레퍼런스 이미지의 같은 픽셀이 같은 표면을 나타내는 다시점 와핑 이미지를 생성할 수 있다.

도 7은 본 명세서가 적용될 수 있는 깊이 맵(depth map) 보정의 예시이다.

도 7을 참조하면, 3D 정보 복원장치는 객체(5)의 다시점 와핑 이미지의 깊이 정보(깊이 맵)을 보정할 수 있다. 예를 들어, 깊이 맵은 다시점 와핑 이미지에 존재하는 대상(객체(5))의 픽셀들의 상대적인 거리를 구분하여 나타낸 이미지일 수 있다. 깊이 맵은 객체(5)에 대한 연속적인 깊이 정보를 포함한다. 예를 들어, 3D 정보 복원장치는 와핑 이미지들에서, 다시점에서 본 깊이 정보를 알 수 있으므로, 깊이 맵을 보정할 수 있다.

3D 정보 복원장치는 레퍼런스 이미지 시점에서의 깊이 이미지(depth image) 및 소스 이미지 시점에서의 깊이 이미지에 대한 분산 맵(variance map)을 계산한다(S7010).

3D 정보 복원장치는 소스 이미지 시점에서의 분산 맵을 레퍼런스 이미지의 시점으로 와핑한다(S7020). 이를 통해, 3D 정보 복원장치는 와핑된 소스 이미지 시점의 깊이 이미지를 획득할 수 있다.

3D 정보 복원장치는 와핑된 소스 이미지 시점의 깊이 이미지에 근거하여, 레퍼런스 이미지 시점의 깊이 이미지를 보정한다(S7030). 예를 들어, 3D 정보 복원장치는 소스 이미지 시점의 깊이 이미지를 레퍼런스 이미지와 kalman 필터링(filtering) 기반으로 퓨젼(fusion)하여, 보정된 레퍼런스 이미지 시점의 깊이 이미지를 획득할 수 있다.

3D 정보 복원장치는 보정된 레퍼런스 이미지 시점의 깊이 이미지에 근거하여, 객체에 대한 깊이 맵을 보정한다(S7040). 예를 들어, 3D 정보 복원장치는 레퍼런스 이미지 시점의 깊이 이미지로부터 이미지 그래디언트(image gradient)를 계산하여 표면 법선 이미지(surface normal image)를 획득할 수 있다. surface normal image는 객체(5)의 특정 지점에서 3차원 표면에 수직인 단위 벡터 정보일 수 있다. 이후, 3D 정보 복원장치는 surface normal image를 edge-aware smoothing하여 보정한 후, 보정된 surface normal image로부터 normal consistency smoothing을 통해 깊이 맵을 보정할 수 있다.
도 8은 본 명세서가 적용될 수 있는 픽셀 별 반사 정보 추론의 예시이다.
도 8을 참조하면, 3D 정보 복원장치는 다시점 와핑 이미지로부터 픽셀 별 반사 정보를 추론할 수 있다.
3D 정보 복원장치는 다시점 와핑 이미지의 RGB 이미지에 근거하여, 디퓨즈 이미지(diffuse image)를 계산하고, 스펙큘러 이미지(specular image)를 획득한다(S8010). 예를 들어, 3D 정보 복원장치는 RGB 이미지에 근거하여, 다시점에서 바라본 객체(5)의 동일 표면에서의 색상 및 밝기 변화로부터, 디퓨즈 및 스펙큘러의 초기값을 계산할 수 있다.
보다 자세하게, 3D 정보 복원장치는 RGB 이미지의 해당 픽셀에 1/(||n(법선 벡터)*v(view direction)||)(예를 들어, v는 객체(5)를 바라보는 벡터 방향, n은 객체(5)에 대한 법선 벡터)를 곱해 이상적인 해당 픽셀의 법선 뷰(normal view)의 디퓨즈를 가정한 후, 픽셀 별 color 평균(mean) 및 베리언스(variance)를 계산하여 디퓨즈 color의 초기값을 계산할 수 있다. 예를 들어, 3D 정보 복원장치는 해당 픽셀의 RGB 이미지들에 mu(μ)-3*sigma를 디퓨즈 이미지로 계산하여, (RGB image - 디퓨즈 이미지)를 스펙큘러 이미지 로 획득할 수 있다. 예를 들어, 3D 정보 복원장치는 color mean 및 variance에 근거하여, diffuse=mu-3*sigma, specular =rgb- diffuse 로 설정할 수 있다.
3D 정보 복원장치는 디퓨즈 이미지 및 스펙큘러 이미지에 근거하여, 다시점 와핑 이미지의 법선 맵(normal map) 및 광선 방향 맵(ray direction map)(예를 들어, 픽셀 별 좌표 정보)을 이용하여, 입사광 맵(IM(n)) 및 큐브맵(CM(l)) 정보를 계산한다(S8020).
입사광 맵(Irradiance map) 정보를 계산하기 위해, 3D 정보 복원장치는 normal 벡터 방향(n)을 입사광 맵 이미지 좌표로 변환하고, 디퓨즈 rgb 값의 세기(예를 들어, max(r, g, b))를 irradiance 이미지 픽셀 값으로 매핑할 수 있다. 여기서, 같은 픽셀에 매핑되는 값들은 평균 값으로 적용될 수 있다. 입사광 맵은 디퓨즈 밝기를 나타내는 1 채널 이미지일 수 있다.
큐브맵(cubemap) 정보를 계산하기 위해, 3D 정보 복원장치는 light direction(광원 방향(l))을 큐브맵 이미지 좌표로 변환하고, 스펙큘러 rgb 값을 큐브맵 이미지 픽셀 값으로 매핑할 수 있다. 같은 픽셀에 매핑되는 값들은 평균 값으로 적용될 수 있다. 큐브맵은 외부 반사광(스펙큘러) 색상과 밝기를 나타내는 3채널 또는 4채널 이미지일 수 있다.
보다 자세하게, 3D 정보 복원장치는 디퓨즈 이미지 및 스펙큘러 이미지의 픽셀 별로 n, v, l을 획득할 수 있다. 3D 정보 복원장치는 깊이 정보를 x,y 방향 편미분하여, n을 픽셀 단위로 획득할 수 있다. V는 픽셀 좌표에 대한 homogeneous 표현을 통해 획득될 수 있다. l은 v와 n을 통해, 획득될 수 있다. 입사광 맵에서 디퓨즈 이미지의 디퓨즈 color에서의 디퓨즈 light의 밝기는 normal 벡터 방향으로 결정될 수 있으며, 스펙큘러 이미지에서 스펙큘러 light의 밝기는 light direction 방향으로 결정될 수 있다.
3D 정보 복원장치는 입사광 맵 및 큐브맵 정보에 근거하여, 기본색상 이미지(baseColor image), 거칠기 이미지(roughness image) 및 금속성 이미지(metalness image) 획득한다(S8030).
예를 들어, 3D 정보 복원장치는 취득한 촬영환경 빛 정보(예를 들어, IM, CM)에 PBR(물리 기반 렌더링) shading equation을 적용하여 보정된 디퓨즈 이미지, 스펙큘러 이미지 취득할 수 있다. 이후, 3D 정보 복원장치는 보정된 디퓨즈 이미지와 스펙큘러 이미지로부터 최종적으로 기본색상 이미지, 거칠기 이미지, 및 금속성 이미지 취득할 수 있다.
도 9는 본 명세서에 적용될 수 있는 3D 메시(mesh) 복원의 예시이다.
도 9를 참조하면, 3D 정보 복원장치는 기본색상 이미지, 깊이 이미지(depth image), 법선 이미지(normal image), 거칠기 이미지, 및 금속성 이미지에 근거하여, 3D 포인트 클라우드를 생성한다(S9010). 예를 들어, 기본색상 이미지, 깊이 이미지, 법선 이미지, 거칠기 이미지, 및 금속성 이미지를 3D 공간에 재투영(reprojection)하여 법선(normal) 정보와 예측된 고유 재질값(material parameters)(예를 들어, 기본색상(basecolor) 정보, 반사(스펙큘러) 정보)을 가지는 3D 포인트 클라우드를 생성할 수 있다. 법선(normal) 정보는 객체(5)의 깊이 정보에 대한 편미분 정보를 의미할 수 있다.
3D 정보 복원장치는 생성된 3D 포인트 클라우드를 이용하여 객체(5)의 표면(surface)을 복원한다(S9020). 객체(5)의 표면 복원은 스크린드 포아송 방정식 (Screened Poisson Equation), 또는 들로네 삼각분할(Delaunay triangulation)이 이용될 수 있다. 객체(5)의 표면이 복원될 때, 3D 객체 파일이 생성될 수 있다.
3D 정보 복원장치는 객체(5)의 표면을 UV 언랩핑(unwrapping)하여 텍스쳐 이미지를 생성한다(S9030). 예를 들어, 3D 정보 복원장치가 생성하는 객체(5)의 텍스쳐 이미지는 언래핑한 객체(5)의 기본색상 이미지, 스펙큘러 이미지, 거칠기 이미지, 및 법선 이미지를 포함할 수 있다.
3D 정보 복원장치는 3D 객체 파일, 텍스처 이미지, 및 고유 재질값에 근거하여, 리토폴로지(retopology) 및 로우 폴리(low poly) 변환을 통해 최적화된 3D 메시를 복원한다(S9040).
이를 통해, 3D 정보 복원장치는 다시점 보정을 수행하므로 기존 stereo 방식에 비해 정밀한 스캐닝 가능하고, differentiable rendering 방식에 비해 속도가 매우 빠르며 정밀한 형상 및 텍스처 복원이 가능하다.
또한, 3D 정보 복원장치는 재질 정보 및 원본 색상(baseColor) 추론이 가능하여 물체 하이라이트 없이 정확한 텍스처 복원이 가능하고, 금속 등 반사성 물체도 스캐닝이 가능하다. 3D 정보 복원장치는 PBR shading을 위한 재질 정보(예를 들어, normal, roughness, metallic, baseColor)와 물체 표면의 원본 색상을 같이 추론하므로 복원된 모델을 다양한 3d 플랫폼에 사용할 때도 어색함 없이 사용이 가능하다.

삭제

또한, 촬영 당시의 주위 빛 정보를 추론하므로 여러 명이 한 물체를 촬영한 경우에도 정합이 가능하여 추가 촬영을 통해 클라우드 상에서 3d 모델의 지속적인 보정이 가능하다.

한편, 개시된 실시예들은 컴퓨터에 의해 실행 가능한 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.

컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록매체를 포함한다. 예를 들어, ROM(read only memory), RAM(random access memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다.

또한, 컴퓨터가 읽을 수 있는 기록매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 기록 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트폰들) 간에 직접 배포되거나, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 기록 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

이상과 첨부된 도면을 참조하여 본 명세서에 따른 실시예들을 설명하였다. 본 명세서가 속하는 기술분야에서 통상의 지식을 가진 자는 본 명세서가 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims

3D 정보 복원장치가 다시점 이미지 정보를 이용하여 객체의 3D 정보를 복원하는 방법에 있어서,
상기 다시점 이미지 정보를 이용한 와핑(warping) 이미지의 RGB 이미지에 근거하여, 디퓨즈 이미지(diffuse image) 및 스펙큘러 이미지(specular image)를 획득하는 단계;
상기 디퓨즈 이미지 및 상기 스펙큘러 이미지에 근거하여, 상기 와핑 이미지의 법선 맵(normal map) 및 광선 방향 맵(ray direction map)을 이용하여, 입사광 맵(Irradiance map) 정보 및 큐브맵(cubemap) 정보를 계산하는 단계;
상기 입사광 맵 정보 및 상기 큐브맵 정보에 근거하여, 기본색상 이미지(baseColor image), 거칠기 이미지(roughness image) 및 금속성 이미지(metalness image)를 획득하는 단계; 및
상기 기본색상 이미지, 상기 금속성 이미지, 상기 와핑 이미지의 깊이 이미지(depth image), 상기 와핑 이미지의 법선 이미지(normal image), 상기 거칠기 이미지, 및 상기 금속성 이미지에 근거하여, 상기 객체의 3D 메시(mesh)를 복원하는 단계;
를 포함하는, 복원방법.
제1항에 있어서,
상기 디퓨즈 이미지 및 스펙큘러 이미지를 획득하는 단계는
상기 다시점 이미지 정보와 관련하여, 상기 객체의 동일 표면에서의 색상 및 밝기의 변화에 근거하는, 복원방법.
제2항에 있어서,
상기 입사광 맵 정보는 상기 객체의 법선 벡터(n)와 관련되고,
상기 큐브맵 정보는 광원 방향(l)과 관련되는, 복원방법.
제1항에 있어서,
상기 기본색상 이미지, 거칠기 이미지 및 금속성 이미지를 획득하는 단계는
상기 입사광 맵 정보 및 상기 큐브맵 정보에 근거하여, 상기 디퓨즈 이미지 및 상기 스펙큘러 이미지를 보정하는 단계; 및
보정된 1) 디퓨즈 이미지, 및 2) 스펙큘러 이미지에 근거하여, 상기 기본색상 이미지, 상기 거칠기 이미지 및 상기 금속성 이미지를 획득하는 단계;
를 포함하는, 복원방법.
제4항에 있어서,
상기 객체의 3D 메시(mesh)를 복원하는 단계는
상기 객체의 3D 포인트 클라우드를 생성하는 단계;
상기 3D 포인트 클라우드에 근거하여, 상기 객체의 표면(surface)을 복원하는 단계;
상기 객체의 표면에 근거하여, 텍스쳐 이미지를 생성하는 단계; 및
상기 텍스쳐 이미지에 근거하여, 상기 3D 메시를 복원하는 단계;
를 포함하는, 복원방법.
제1항에 있어서,
상기 다시점 이미지 정보에 근거하여, 카메라의 시점정보를 추정하는 단계;
상기 시점정보에 근거하여, 상기 객체에 대한 1) 레퍼런스(reference) 이미지 및 2) 소스(source) 이미지를 선택하는 단계; 및
상기 레퍼런스 이미지 및 소스 이미지에 근거하여, 상기 와핑 이미지를 생성하는 단계;
를 더 포함하는, 복원방법.
다시점 이미지 정보를 이용하여 객체의 3D 정보를 복원하는 3D 정보 복원장치에 있어서,
상기 다시점 이미지 정보를 입력받기 위한 입력부;
메모리; 및
상기 입력부 및 상기 메모리를 기능적으로 제어하는 프로세서;를 포함하며,
상기 프로세서는
상기 다시점 이미지 정보를 이용한 와핑(warping) 이미지의 RGB 이미지에 근거하여, 디퓨즈 이미지 및 스펙큘러 이미지를 획득하고, 상기 디퓨즈 이미지 및 상기 스펙큘러 이미지에 근거하여, 상기 와핑 이미지의 법선 맵 및 광선 방향 맵을 이용하여, 입사광 맵 정보 및 큐브맵 정보를 계산하며, 상기 입사광 맵 정보 및 상기 큐브맵 정보에 근거하여, 기본색상 이미지, 거칠기 이미지 및 금속성 이미지를 획득하고, 상기 기본색상 이미지, 상기 금속성 이미지, 상기 와핑 이미지의 깊이 이미지, 상기 와핑 이미지의 법선 이미지, 상기 거칠기 이미지, 및 상기 금속성 이미지에 근거하여, 상기 객체의 3D 메시(mesh)를 복원하는, 3D 정보 복원장치.