KR102433646B1 - 2차원 이미지 인식에 기반한 3차원 모델링 시스템 및 이를 위한 방법 - Google Patents

2차원 이미지 인식에 기반한 3차원 모델링 시스템 및 이를 위한 방법 Download PDF

Info

Publication number
KR102433646B1
KR102433646B1 KR1020220002341A KR20220002341A KR102433646B1 KR 102433646 B1 KR102433646 B1 KR 102433646B1 KR 1020220002341 A KR1020220002341 A KR 1020220002341A KR 20220002341 A KR20220002341 A KR 20220002341A KR 102433646 B1 KR102433646 B1 KR 102433646B1
Authority
KR
South Korea
Prior art keywords
feature data
dimensional
mesh
dimensional images
above formula
Prior art date
Application number
KR1020220002341A
Other languages
English (en)
Inventor
박세찬
서승원
Original Assignee
핑퐁 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 핑퐁 주식회사 filed Critical 핑퐁 주식회사
Priority to KR1020220002341A priority Critical patent/KR102433646B1/ko
Application granted granted Critical
Publication of KR102433646B1 publication Critical patent/KR102433646B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 명세서의 일 실시 예에 따른 2차원 이미지 인식에 기반한 3차원 모델링 시스템을 위한 방법은, 2차원 오브젝트를 포함하는 하나 이상의 2차원 이미지를 획득하는 단계; 하나 이상의 2차원 이미지로부터 하나 이상의 2차원 이미지의 표면(surface)과 연관된 제1 특징 데이터를 추출하는 단계; 추출된 제1 특징 데이터를 기반으로 2차원 오브젝트에 상응하는 3D 메쉬를 생성하는 단계; 하나 이상의 2차원 이미지의 텍스처(texture)와 연관된 제2 특징 데이터를 추출하는 단계; 및 추출된 제2 특징 데이터 및 3D 메쉬를 기반으로 3D 오브젝트를 생성하는 단계를 포함한다.

Description

2차원 이미지 인식에 기반한 3차원 모델링 시스템 및 이를 위한 방법{3D MODELING SYSTEM BASED ON 2D IMAGE RECOGNITION AND METHOD THEREFOR}
본 명세서는 2차원 이미지 인식에 기반한 3차원 모델링 시스템 및 이를 위한 방법에 관한 것으로, 더 구체적으로 본 명세서는 이미지 센서로부터 획득한 2차원 이미지의 픽셀(pixel)을 3차원 모델의 전역 컨텍스트(global context)와 로컬(local) 컨텍스트로 정렬 및 추론하는 과정을 통해 대상의 표면과 질감이 표현된 3차원 모델링을 수행하는 2차원 이미지 인식에 기반한 3차원 모델링 시스템 및 이를 위한 방법에 관한 것이다.
2차원 오브젝트를 3차원으로 모델링하기 위하여, 직접 오브젝트를 3차원으로 스캔하여 스캔된 데이터를 3차원 오브젝트로 모델링 하거나 오브젝트를 여러 각도에서 촬영한 이후 촬영된 결과를 이용하여 미리 만들어진 3차원 형상의 일반 오브젝트 모델을 변형하여 3차원 오브젝트를 모델링 하는 방법이 존재한다.
기존에는 하나의 이미지로 복잡한 형태(즉, 인간)로 3D 모델링하는 것이 어려울 뿐만 아니라 3D 모델링의 옆면과 뒷부분의 형태가 부자연스럽다는 문제점이 존재하였다. 또한, 실제 사진 측량를 위하여 고가의 3D 스캐닝 장비를 이용한 추출 데이터를 이용 시 제작 비용이 증가하고, 기존의 복셀(voxel) 기반 알고리즘은 3D 모델 추출 과정에서 메모리 자원의 소모가 크다는 점에서 다수의 유저를 위한 서비스용으로 부적합한 측면이 존재하였다.
종래 제안으로 '볼륨메트릭 비디오 생성 장치 및 방법'에 관한 한국등록특허 제10-2328061 호를 참조할 수 있다.
본 명세서의 목적은 별도의 3D 스캐닝 장비 없이도 핸드폰에 구비된 이미지 센서로부터 획득된 2차원 이미지만으로도 예측된 깊이(depth) 값이 반영된 3차원 모델의 구현이 가능해질 뿐만 아니라 기존 복셀(voxel) 기반 알고리즘 대비 적은 연산이 필요하기 때문에 보다 효율적인 메모리 자원의 관리가 가능한, 2차원 이미지 인식에 기반한 3차원 모델링 시스템 및 이를 위한 방법을 제공하는데 있다.
본 명세서의 일 실시 예에 따른 2차원 이미지 인식에 기반한 3차원 모델링 시스템을 위한 방법은, 2차원 오브젝트를 포함하는 하나 이상의 2차원 이미지를 획득하는 단계; 하나 이상의 2차원 이미지로부터 하나 이상의 2차원 이미지의 표면(surface)과 연관된 제1 특징 데이터를 추출하는 단계; 추출된 제1 특징 데이터를 기반으로 2차원 오브젝트에 상응하는 3D 메쉬를 생성하는 단계; 하나 이상의 2차원 이미지의 텍스처(texture)와 연관된 제2 특징 데이터를 추출하는 단계; 및 추출된 제2 특징 데이터 및 3D 메쉬를 기반으로 3D 오브젝트를 생성하는 단계를 포함한다.
본 명세서의 일 실시 예에 따르면, 별도의 3D 스캐닝 장비 없이도 핸드폰에 구비된 이미지 센서로부터 획득된 2차원 이미지만으로도 예측된 깊이(depth) 값이 반영된 3차원 모델의 구현이 가능해질 뿐만 아니라 기존 복셀(voxel) 기반 알고리즘 대비 적은 연산이 필요하기 때문에 보다 효율적인 메모리 자원의 관리가 가능한, 2차원 이미지 인식에 기반한 3차원 모델링 시스템 및 이를 위한 방법이 제공된다.
도 1은 본 일 실시 예에 따른 3차원 모델링 시스템의 네트워크 환경을 나타내는 블록도이다.
도 2는 본 일 실시 예에 따른 전자 기기 및 서버의 내부 구성을 나타내는 블록도이다.
도 3는 본 일 실시 에에 따른 2차원 이미지 인식에 기반한 3차원 모델링 동작을 구현하는 구성요소를 나타내는 블록도이다.
도 4은 본 일 실시 에에 따른 2차원 이미지 인식에 기반한 3차원 모델링 시스템을 위한 방법을 나타내는 순서도이다.
도 5는 본 일 실시 에에 따른 2차원 이미지 인식에 기반한 3차원 모델링 과정을 설명하기 위한 예시도이다.
도 6은 본 일 실시 에에 따른 2차원 이미지 인식에 기반한 3차원 모델링 과정을 보충 설명하기 위한 도면이다.
전술한 특성 및 이하 상세한 설명은 모두 본 명세서의 설명 및 이해를 돕기 위한 예시적인 사항이다. 즉, 본 명세서는 이와 같은 실시 예에 한정되지 않고 다른 형태로 구체화될 수 있다. 다음 실시 형태들은 단지 본 명세서를 완전히 개시하기 위한 예시이며, 본 명세서가 속하는 기술 분야의 통상의 기술자들에게 본 명세서를 전달하기 위한 설명이다. 따라서, 본 명세서의 구성 요소들을 구현하기 위한 방법이 여럿 있는 경우에는, 이들 방법 중 특정한 것 또는 이와 동일성 있는 것 가운데 어떠한 것으로든 본 명세서의 구현이 가능함을 분명히 할 필요가 있다.
본 명세서에서 어떤 구성이 특정 요소들을 포함한다는 언급이 있는 경우, 또는 어떤 과정이 특정 단계들을 포함한다는 언급이 있는 경우는, 그 외 다른 요소 또는 다른 단계들이 더 포함될 수 있음을 의미한다. 즉, 본 명세서에서 사용되는 용어들은 특정 실시 형태를 설명하기 위한 것일 뿐이고, 본 명세서의 개념을 한정하기 위한 것이 아니다. 나아가, 발명의 이해를 돕기 위해 설명한 예시들은 그것의 상보적인 실시 예도 포함한다.
본 명세서에서 사용되는 용어들은 본 명세서가 속하는 기술 분야의 통상의 기술자들이 일반으로 이해하는 의미를 갖는다. 보편적으로 사용되는 용어들은 본 명세서의 맥락에 따라 일관적인 의미로 해석되어야 한다. 또한, 본 명세서에서 사용되는 용어들은, 그 의미가 명확히 정의된 경우가 아니라면, 지나치게 이상적이거나 형식적인 의미로 해석되지 않아야 한다. 이하 첨부된 도면을 통하여 본 명세서의 실시 예가 설명된다.
도 1은 본 일 실시 예에 따른 3차원 모델링 시스템의 네트워크 환경을 나타내는 블록도이다.
도 1을 참조하면, 본 일 실시 예에 따른 3차원 모델링 시스템의 네트워크 환경은 하나 이상의 전자 기기(110, 120, 130, 140), 하나 이상의 서버(150, 160) 및 네트워크(170)를 기반으로 구현될 수 있다.
예를 들어, 도 1의 하나 이상의 전자 기기(110, 120, 130, 140)는 컴퓨터 장치로 구현되는 고정형 단말 혹은 이동형 단말일 수 있다. 또한, 하나 이상의 전자 기기(110, 120, 130, 140)는 스마트폰(smart phone), 휴대폰, 태블릿 PC, 내비게션, 컴퓨터, 노트북, 디지털방송용 단말 또는 PDA(Personal Digital Assistants), PMP(Portable Multimedia Player) 등 일 수 있다.
일 예로, 제1 전자 기기(110)는 무선 또는 유선 통신 방식을 기반으로 네트워크(170)를 통해 다른 전자 기기(120, 130, 140) 및/또는 서버(150, 160)와 통신할 수 있다.
여기서, 네트워크(170)에 적용되는 통신 방식은 제한되지 않으며, 네트워크(170)는 PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다.
또한, 네트워크(170)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않음은 이해될 것이다.
참고로, 도 1에 도시된 전자 기기 또는 서버의 개수는 일 예일 뿐이며, 본 명세서가 도 1에 의해 한정되는 것이 아님은 이해될 것이다.
하나 이상의 서버(150, 160) 각각은 하나 이상의 전자 기기들(110, 120, 130, 140)과 네트워크(170)를 통해 통신하며 명령, 코드, 파일, 컨텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다
한편, 본 명세서에서 언급되는 하나 이상의 서버(150, 160) 중 적어도 하나는 2차원 이미지 인식에 기반한 3차원 모델링 시스템과 상응할 수 있다.
일 예로, 제1 서버(150)는 네트워크(170)를 통해 접속한 제1 전자 기기(110)로 어플리케이션의 설치를 위한 파일을 제공할 수 있다. 이 경우, 제1 전자 기기(110)는 제1 서버(150)로부터 제공된 파일을 이용하여 어플리케이션을 설치 할 수 있다.
이어, 제1 전자 기기(110)는 제1 전자 기기(110)의 운영체제(Operating System, OS) 또는 적어도 하나의 프로그램(예로, 브라우저 또는 설치된 어플리케이션)의 제어에 따라 제1 서버(150)에 접속함으로써 제1 서버(150)에 의해 제공되는 서비스나 컨텐츠를 제공받을 수 있다.
이 경우, 제1 전자 기기(110)가 어플리케이션의 제어에 따라 네트워크(170)를 통해 서비스 요청 메시지를 제1 서버(150)로 전송하면, 제1 서버(150)는 서비스 요청 메시지에 대응하는 코드를 제1 전자 기기(110)로 전송할 수 있다. 이어, 제1 전자 기기(110)는 어플리케이션의 제어에 따라 코드에 따른 화면을 구성하여 표시함으로써 사용자에게 컨텐츠를 제공할 수 있다.
도 2는 본 일 실시 예에 따른 전자 기기 및 서버의 내부 구성을 나타내는 블록도이다.
도 1 및 도 2를 참조하면, 도 2의 제1 전자기기(210)은 앞선 도 1의 제1 전자기기(110)와 상응하고, 도 2의 제1 서버(250)는 앞선 도 1의 제1 서버(150)와 상응하는 구성일 수 있다.
앞선 도 1의 다른 전자기기(120, 130, 140)와 제2 서버(160)도 도 2에 도시된 구성요소와 동일하거나 유사한 구성요소를 포함하도록 구현될 수 있음은 이해될 것이다.
도 2의 제1 전자기기(210)는 메모리(211), 프로세서(212), 통신모듈(213) 및 입출력 인터페이스(214)를 포함할 수 있다.
예를 들어, 메모리(211)는 컴퓨터에서 판독 가능한 기록 매체이며, RAM(Random Access Memory), ROM(Read Only Memory) 및 디스크 드라이브와 같은 비휘발성 대용량 기록장치(Non-volatile mass storage device)를 포함할 수 있다.
한편, 메모리(211)에는 운영체제 또는 적어도 하나의 프로그램 코드가 저장될 수 있고, 이러한 소프트웨어 구성요소들(즉, 운영체제 또는 적어도 하나의 프로그램 코드)은 메모리(211)와는 별도의 컴퓨터의 판독 가능한 기록 매체로부터 로딩될 수 있다.
다른 실시 예에서, 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록 매체가 아닌 통신 모듈(213)을 통해 메모리(211)에 로딩될 수도 있다. 예를 들어, 적어도 하나의 프로그램은 개발자들 또는 어플리케이션의 설치 파일을 배포하는 파일 배포 시스템(예로, 150)이 네트워크(170)를 통해 제공하는 파일들에 의해 설치되는 프로그램(일례로, 어플리케이션)에 기반하여 메모리(211)에 로딩될 수 있다.
예를 들어, 프로세서(212)는 기본적인 산술, 로직 및 입출력 연산을 수행할 수 있다. 또한, 프로세서(212)는 컴퓨터 프로그램의 명령을 처리하도록 구현될 수 있다.
여기서, 명령은 메모리(211) 또는 통신 모듈(213)에 의해 프로세서(212)로 제공 될 수 있다. 즉, 프로세서(212)는 메모리(211)와 같은 기록 장치에 저장된 프로그램 코드에 따른 명령을 실행하도록 구현될 수 있다.
도 2의 통신 모듈(213)은 네트워크(270)를 통해 제1 전자 기기(210)와 서버(250)가 서로 통신하기 위한 기능을 제공할 수 있으며, 다른 전자 기기(예로, 120) 또는 다른 서버(예로, 160)와 통신하기 위한 기능을 제공할 수 있다.
일 예로, 제1 전자 기기(210)의 프로세서(212)는 통신 모듈(213)을 제어함으로써 메모리(211)에 저장된 프로그램 코드에 따른 요청을 네트워크(270)를 통해 서버(250)로 전달할 수 있다.
다른 일 예로, 서버(250)의 프로세서(252)의 제어에 따라 제공되는 제어 신호나 명령, 컨텐츠 및 파일 등이 통신 모듈(223)과 네트워크(270)를 거쳐 제1 전자 기기(210)의 통신 모듈(213)을 통해 제1 전자 기기(210)로 수신될 수 있다.
예를 들어, 통신 모듈(213)을 통해 수신된 서버(250)의 제어 신호나 명령 등은 프로세서(212)나 메모리(211)로 전달될 수 있다.
도 2의 입출력 인터페이스(214)는 입출력 장치(215)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 이미지 센서(즉, RGB 카메라), 키보드 또는 마우스 등의 장치일 수 있고, 출력 장치는 어플리케이션의 통신 세션을 표시하기 위한 디스플레이와 같은 장치를 포함할 수 있다.
다른 예로, 입출력 인터페이스(214)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 또한, 입출력 인터페이스(214)는 입출력 장치(215)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 이미지 센서(즉, RGB 카메라), 키보드 또는 마우스 등의 장치일 수 있고, 출력 장치는 어플리케이션의 통신 세션을 표시하기 위한 디스플레이와 같은 장치를 포함할 수 있다.
다른 예로, 입출력 인터페이스(214)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 보다 구체적인 예로, 제1 전자 기기(210)의 프로세서(212)는 메모리(211)에 로딩된 컴퓨터 프로그램의 명령을 처리함에 있어서 서버(250)나 제2 전자 기기(220)가 제공하는 데이터를 이용하여 구성되는 서비스 화면이나 컨텐츠가 입출력 인터페이스(214)를 통해 디스플레이에 표시될 수 있다.
또한, 도 2의 제1 서버(250)는 메모리(251), 프로세서(252), 통신모듈(253) 및 입출력 인터페이스(254)를 포함할 수 있다. 여기서, 제1 서버(250)에 포함되는 구성요소는 제1 전자기기(210)의 구성요소에 대하여 전술한 설명으로 대체될 수 있음은 이해될 것이다.
이하, 2차원 이미지 인식에 기반한 3차원 모델링 시스템 및 이를 위한 방법의 구체적인 실시 예가 설명된다.
도 3는 본 일 실시 에에 따른 2차원 이미지 인식에 기반한 3차원 모델링 동작을 구현하는 구성요소를 나타내는 블록도이다.
도 1 내지 도 3을 참조하면, 도 3의 서버(300)는 도 2의 제1 서버(250)에 상응하는 구성으로 이해될 수 있다. 또한, 도 3의 서버(300)는 제1 특징데이터 추출모듈(310), 제2 특징데이터 추출모듈(320), 3D메쉬 생성모둘(330) 및 3D 오브젝트 생성모듈(340)을 포함할 수 있다.
본 명세서의 모듈이라 함은, 본 명세서의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적 결합 및/또는 구조적 결합을 의미할 수 있다. 즉, 본 명세서에서 언급되는 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있다. 다만, 본 명세서에서 언급되는 모듈이 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본 발명의 기술분야의 평균적 전문가에게 용이하게 추론될 수 있다.
다시 말해, 도 3의 서버(300)에 포함된 제1 특징데이터 추출모듈(310), 제2 특징데이터 추출모듈(320), 3D메쉬 생성모둘(330) 및 3D 오브젝트 생성모듈(340)은 앞선 도 2의 메모리(251), 프로세서(252), 통신모듈(253) 및 입출력 인터페이스(254)의 소프트웨어의 기능적 결합 및/또는 구조적 결합을 통해 구현될 수 있다.
도 3의 제1 특징데이터 추출모듈(310) 및 제2 특징데이터 추출모듈(320) 각각은 종단간 심층신경망(end-to-end deep learning) 모델에 상응하며, 완전 컨볼루션 이미지 인코더(fully convolutional image encoder) 및 다층 퍼셉트론(multi-layer perceptrons)을 기반으로 구현될 수 있다.
여기서, 완전 컨볼루션 이미지 인코더(fully convolutional image encoder)의 입력은 입출력 장치(215)에 상응하는 이미지 센서(즉, RGB 카메라)로부터 획득된 하나 이상의 2차원 이미지일 수 있다.
또한, 다층 퍼셉트론(Multi-Layer Perceptrons, 이하 'MLP')의 출력은 하나 이상의 2차원 이미지로부터 3D 모델을 추출하기 위하여 예측된 데이터일 수 있다.
구체적으로, 제1 특징데이터 추출모듈(310) 및 제2 특징데이터 추출모듈(320) 각각은 컨볼루션 신경망(Convolutional Neural Network, 이하 CNN) 구조를 기반으로 구현될 수 있다.
이 경우, 컨볼루션 신경망(CNN) 구조는 이미지나 음성과 같은 2차원 형태의 데이터를 사용할 때 효과적으로 특징 값을 추출하는 네트워크 신경망 구조를 의미하며, 다수의 합성곱 계층(Convolutional Layer)을 붙인 형태로 이해될 수 있다.
여기서, 다수의 합성곱 계층은 입력 데이터로부터 특징을 추출하는 역할을 수행하기 위하여, 특징을 추출하기 위한 필터(filter)와 필터의 값을 비선형 값으로 변환하기 위한 활성화 함수(activation function)를 포함할 수 있다.
한편, 다층 퍼셉트론은 인간의 신경계를 모방하여 여러 계층으로 이루어져 있는 구조이며, 주로 데이터 분류 또는 예측 모델에 사용될 수 있다.
본 명세서에서 언급되는 다층 퍼셉트론은 제1 특징데이터 추출모듈(310) 및 제2 특징데이터 추출모듈(320) 각각을 위한 입력에 상응하는 하나 이상의 2차원 이미지를 기반으로 3D 모델을 에측하기 위해 사용될 수 있다.
예를 들어, 본 명세서에서 언급되는 다층 퍼셉트론에는, 기존의 은닉층 노드의 목표값을 구하기 어렵다는 단점을 극복하기 위하여, 역방향으로 오차를 전파(back-propagation)시켜 각층의 가중치를 수정함으로써 문제를 해결하는 역전파 알고리즘(Back-propagation)이 적용될 수 있다.
예를 들어, 제1 특징데이터 추출모듈(310)은 입력에 상응하는 하나 이상의 2차원 이미지의 표면(surface)과 연관된 제1 특징 데이터를 추출할 뿐만 아니라 추출된 제1 특징 데이터를 기반으로 하나 이상의 2차원 이미지에 상응하는 3D 영역을 예측하도록 구현될 수 있다. 여기서, 2차원 이미지는 후술되는 도 5의 입력 이미지(510)와 상응하고, 3D 모델링의 대상인 2차원 오브젝트를 포함할 수 있다.
한편, 도 3의 제1 특징데이터 추출모듈(310)의 학습모델(Lv)에는 2차원 이미지에 대한 3차원 모델의 예측 고도화를 위하여 하기 수학식 1과 같은 최소 평균 제곱법이 적용될 수 있다.
Figure 112022002051668-pat00001
여기서, 수학식 1의
Figure 112022002051668-pat00002
는 후술되는 도 6과 같은 3차원의 임의의 점(P)과 상응하고,
Figure 112022002051668-pat00003
Figure 112022002051668-pat00004
를 2차원 평면에 투사(projection)한 하나 이상의 2차원 이미지(u,v)와 상응하고, n은 예측된 깊이 값(z)에 대한 미리 정해진 샘플링 개수(예로, 샘플링된 점의 개수)를 의미할 수 있다.
한편,
Figure 112022002051668-pat00005
는 하나 이상의 2차원 이미지(
Figure 112022002051668-pat00006
)에 대하여 컨볼루션 신경망(CNN) 구조를 통해 획득된 하나 이상의 2차원 이미지(
Figure 112022002051668-pat00007
)의 표면과 연관된 특징 값의 집합(즉, 제1 특징 데이터)을 도출하는 함수로 이해될 수 있다.
또한,
Figure 112022002051668-pat00008
는 특정한 이미지(
Figure 112022002051668-pat00009
)에 대한 깊이 값(
Figure 112022002051668-pat00010
)과 컨볼루션 신경망(CNN) 구조를 통해 획득된 제1 특징 데이터를 기반으로 Implicit Surface Aligned 방식을 적용하기 위한 함수로 이해될 수 있다.
즉,
Figure 112022002051668-pat00011
는 다층 퍼셉트론(MLP)을 기반으로 구현된 Continuous Implicit Function로 이해될 수 있다.
한편, 상기 수학식 1의
Figure 112022002051668-pat00012
는 특정한 이미지(
Figure 112022002051668-pat00013
)에 상응하는 3D 메쉬의 내부는 '1'로 출력하고, 특정한 이미지(
Figure 112022002051668-pat00014
)에 상응하는 3D 메쉬의 바깥은 '0'으로 출력하고, 특정한 이미지(
Figure 112022002051668-pat00015
)에 상응하는 3D 메쉬의 표면 영역(occupancy field)은 '0.5'로 출력하는 함수로 이해될 수 있다.
예를 들어, 도 3의 제2 특징데이터 추출모듈(320)은 입력에 상응하는 하나 이상의 2차원 이미지의 텍스처(texture)와 연관된 제2 특징 데이터를 추출하도록 구현될 수 있다.
여기서, 2차원 이미지의 텍스처(texture)는 2차원 이미지에 포함된 2차원 오브젝트의 색상 및 질감에 상응하는 것으로 이해될 수 있다.
도 3의 제2 특징데이터 추출모듈(320)의 학습모델(Lc)에는 2차원 이미지에 대한 3차원 모델의 예측 고도화를 위하여 하기 수학식 2과 같은 MAE(Mean Absolute Error)가 적용될 수 있다.
Figure 112022002051668-pat00016
수학식 2의
Figure 112022002051668-pat00017
는 후술되는 도 6과 같은 3차원의 임의의 점(P)과 상응하고,
Figure 112022002051668-pat00018
Figure 112022002051668-pat00019
를 2차원 평면에 투사(projection)한 하나 이상의 2차원 이미지(u,v)와 상응하고, n은 예측된 깊이 값(z)에 대한 미리 정해진 샘플링 개수(예로, 샘플링된 이미지의 개수)를 의미할 수 있다.
한편,
Figure 112022002051668-pat00020
는 하나 이상의 2차원 이미지(
Figure 112022002051668-pat00021
)에 대하여 컨볼루션 신경망(CNN) 구조를 통해 획득된 하나 이상의 2차원 이미지(
Figure 112022002051668-pat00022
)의 텍스처(texture)와 연관된 특징 값의 집합(즉, 제2 특징 데이터)을 도출하는 함수로 이해될 수 있다.
또한,
Figure 112022002051668-pat00023
는 특정한 이미지(
Figure 112022002051668-pat00024
)에 대한 깊이 값(
Figure 112022002051668-pat00025
)과 컨볼루션 신경망(CNN) 구조를 통해 획득된 제2 특징 데이터를 기반으로 Implicit Surface aligned 방식을 적용하기 위한 함수로 이해될 수 있다.
한편,
Figure 112022002051668-pat00026
Figure 112022002051668-pat00027
에 대한 미리 설정된 ground truth RGB 색상과 연관될 수 있다.
앞선 수학식 2의 적용을 통하여 도 6에 도시된 바와 같이, 2차원 좌표 단위(u,v)로 예측된 3차원 모델(surface geometry)에 대하여 직접적인 RGB 색상이 예측될 수 있음은 이해될 것이다.
구체적으로, 도 6의 3D 메쉬 상의 3차원의 임의의 점(P)에 상응하는 좌표(X, Y, Z)는 하기 표 1과 같은 코드를 이용하여 획득될 수 있다.
Figure 112022002051668-pat00028
표 1을 참조하면, self.normalizer(z)는 정규화 작업을 수행하기 위한 함수이고, 'im_feat'은 개개의 좌표의 로컬(local) 특징 값을 리스트로 구현한 것으로 이해될 수 있다.
나아가, 제2 특징데이터 추출모듈(320)의 학습모델(Lc)에는 오프셋 기법, 즉 미리 설정된 간격(d)의 주변 색을 동일하게 처리하는 기법이 적용될 수 있다.
도 3의 3D 메쉬 생성모듈(330)은 제1 특징데이터 추출모듈(310)로부터 출력되는 하나 이상의 2차원 이미지에 상응하는 3D 영역에 대한 예측 데이터와 미리 설정된 마칭 큐브(marching cube) 알고리즘을 기반으로 3D 메쉬를 생성할 수 있다.
여기서, 마칭 큐브 알고리즘은 널리 알려진 알고리즘으로 이에 대한 자세한 설명은 생략할 수 있음은 이해될 것이다. 한편, 본 명세서에서 언급되는 3D 메쉬는 후술되는 도 5의 3D 메쉬(520)와 상응할 수 있다.
도 3의 3D 오브젝트 생성모듈(340)은 제2 특징 데이터를 3D 메쉬에 맵핑함으로써 3D 오브젝트를 생성할 수 있다.
예를 들어, 제2 특징 데이터와 3D 메쉬는 특정한 이미지(
Figure 112022002051668-pat00029
)에 대하여 예측된 깊이 값(
Figure 112022002051668-pat00030
)을 기반으로 서로 맵핑될 수 있다.
구체적으로, 도 6과 같은 3D 메쉬 상의 3차원의 임의의 점(P)에 대하여 미리 정의된 RGB 손실(loss) 를 3D 메쉬에 결합하는 방식이 적용될 수 있다. 일 예로, 하기 표 2와 같은 코드를 이용하여 3D 메쉬와 제2 특징 데이터가 맵핑될 수 있다.
Figure 112022002051668-pat00031
표 2를 참조하면, cat함수는 concatenate를 수행하여 차원을 증가시키 함수이며, cat함수를 통해 좌표(u,v)에 상응하는 특징 값이 추론될 수 있다. 여기서, 추론된 특징 값을 기반으로 3D 메쉬의 특정한 표면(surface)이 구분되어 맵핑될 수 있다.
또한, 3D 오브젝트 생성모듈(340)에 의해 생성된 3D 오브젝트에 대한 정보는 네트워크(예로, 도 2의 270)을 거쳐 사용자의 전자 기기(예로, 도 2의 210)의 입출력 장치(215)에 구현될 수 있다.
한편, 전술한 제1 특징데이터 추출모듈(310) 및 제2 특징데이터 추출모듈(320)의 학습 모델의 고도화를 위하여, 적대적 생성 신경망(Generative Adversarial Network, 이하 GAN) 기법이 사용될 수 있다.
적대적 생성 신경망(GAN) 기법은 두 개의 신경망 모델이 상호 경쟁하면서 더 나은 아웃풋을 만들어내는 강화 학습의 일종이며, 생성자(generator)와 판별자(discriminator)가 서로 경쟁하는 방식으로 구현될 수 있다.
여기서, 생성자는 자신이 생성된 이미지가 real(1)로 판별되도록 학습될 수 있다. 판별자는 트레이닝 셋(training set)에 포함된 실제 이미지는 real(1)로, 생성자에 의해 만들어진 가짜 이미지(fake image)는 fake(0)으로 판단하도록 학습될 수 있다.
다시 말해, 적대적 생성 신경망(GAN) 기법이 적용될 때, 생성자는 가짜 이미지(fake image)를 더 잘 생성하게 되고, 판별자는 가짜 이미지를 더 잘 판별해 낼 수 있다.
도 4은 본 일 실시 에에 따른 2차원 이미지 인식에 기반한 3차원 모델링 시스템을 위한 방법을 나타내는 순서도이다.
도 1 내지 도 4를 참조하면, S410 단계에서, 본 일 실시 에에 따른 2차원 이미지 인식에 기반한 3차원 모델링 시스템은 2차원 오브젝트를 포함하는 하나 이상의 2차원 이미지(예로, 도 5의 510)를 획득할 수 있다.
여기서, 하나 이상의 2차원 이미지는 본 시스템과 연동된 특정한 전자 기기(예로, 210)의 입출력 장치(215) 중 이미지 센서(즉, RGB 카메라)로부터 획득될 수 있다.
S420 단계에서, 본 일 실시 에에 따른 2차원 이미지 인식에 기반한 3차원 모델링 시스템은 하나 이상의 2차원 이미지의 표면과 연관된 제1 특징 데이터를 추출할 수 있다.
또한, 본 일 실시 에에 따른 2차원 이미지 인식에 기반한 3차원 모델링 시스템은 하나 이상의 2차원 이미지의 텍스처(texture)와 연관된 제2 특징 데이터를 추출할 수 있다.
여기서, 텍스처는 2차원 이미지에 포함된 2차원 오브젝트의 색상 및 질감에 상응하는 것으로 이해될 수 있다.
S430 단계에서, 본 일 실시 에에 따른 2차원 이미지 인식에 기반한 3차원 모델링 시스템은 제1 특징 데이터를 기반으로 3D 메쉬(예로, 도 5의 520)를 생성할 수 있다.
S440 단계에서, 본 일 실시 에에 따른 2차원 이미지 인식에 기반한 3차원 모델링 시스템은 제2 특징 데이터 및 3D 메쉬(예로, 도 5의 520)를 기반으로 3D 오브젝트(예로, 도 5의 530)를 생성할 수 있다.
여기서, 제2 특징 데이터와 3D 메쉬(예로, 도 5의 520)는 특정한 이미지(
Figure 112022002051668-pat00032
)에 대하여 예측된 깊이 값(
Figure 112022002051668-pat00033
)을 통해 서로 맵핑될 수 있다.
본 명세서의 일 실시 예에 따르면, 별도의 3D 스캐닝 장비 없이도 사용자의 전자 기기(예로, 휴대폰)에 구비된 이미지 센서로부터 획득된 2차원 이미지만으로 3차원 모델링이 가능해 질 수 있음은 이해될 것이다.
도 5는 본 일 실시 에에 따른 2차원 이미지 인식에 기반한 3차원 모델링 과정을 설명하기 위한 예시도이다.
도 1 내지 도 5를 참조하면, 도 5의 하나 이상의 2차원 이미지(510)의 표면과 연관된 제1 특징 데이터를 이용하여 3D 메쉬(520)가 생성되고, 상기 3D 메쉬(520)와 하나 이상의 2차원 이미지(510)의 텍스처와 연관된 제2 특징 데이터를 이용하여 3D 오브젝트(530)가 생성되는 과정은 앞선 도 1 내지 도 4와 연관된 설명을 참조하여 이해될 수 있다.
도 6은 본 일 실시 에에 따른 2차원 이미지 인식에 기반한 3차원 모델링 과정을 보충 설명하기 위한 도면이다.
도 1 내지 도 6을 참조하면, 도 6의 (u,v)로 정의되면 단면은 이미지 센서(즉, RGB 카메라)에 의해 획득된 2차원 이미지를 위한 공간으로 이해될 수 있다. 또한, 도 6의 임의의 점(P)는 2차원 이미지에 상응하는 3D 오브젝트를 위한 공간으로 이해될 수 있다.
본 명세서의 상세한 설명에서는 구체적인 실시 예에 관하여 설명하였으나, 본 명세서의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능하다. 그러므로, 본 명세서의 범위는 상술한 실시 예에 국한되어 정해져서는 안되며 후술하는 특허청구범위뿐만 아니라 이 발명의 특허청구범위와 균등한 것들에 의해 정해져야 한다.
110, 120, 130, 140: 하나 이상의 전자 기기
150, 160: 하나 이상의 서버
170: 네트워크

Claims (5)

  1. 2차원 이미지 인식에 기반한 3차원 모델링 시스템을 위한 방법에 있어서,
    2차원 오브젝트를 포함하는 하나 이상의 2차원 이미지를 단일 방향의 촬영을 통해 획득하는 단계;
    상기 하나 이상의 2차원 이미지로부터 상기 하나 이상의 2차원 이미지의 표면(surface)과 연관된 제1 특징 데이터를 추출하는 단계;
    상기 추출된 제1 특징 데이터를 기반으로 상기 2차원 오브젝트에 상응하는 3D 메쉬를 생성하되,
    상기 3D 메쉬는 상기 제1 특징 데이터를 기반으로 미리 구비된 학습 모델(Lv)을 이용하여 최소 평균 제곱법의 적용을 통해 예측되고,
    상기 학습 모델(Lv)은 하기 수학식과 상응하도록 구현되고,
    Figure 112022051353746-pat00040

    상기 수학식의 n은 미리 정해진 샘플링 개수와 연관되고,
    상기 수학식의
    Figure 112022051353746-pat00041
    는 상기 3D 메쉬와 연관된 3차원의 임의의 점과 연관되고,
    상기 수학식의
    Figure 112022051353746-pat00042
    는 상기
    Figure 112022051353746-pat00043
    를 2차원 평면에 투사한 상기 하나 이상의 2차원 이미지와 상응하고,
    상기 수학식의 z는
    Figure 112022051353746-pat00044
    에 대한 예측된 깊이 값과 연관되고,
    상기 수학식의
    Figure 112022051353746-pat00045
    는 상기 하나 이상의 2차원 이미지에 대하여 컨볼루션 신경망(CNN)의 적용으로 상기 제1 특징 데이터를 도출하는 함수와 연관되고,
    상기 수학식의
    Figure 112022051353746-pat00046
    는 상기 제1 특징 데이터 및 상기 깊이 값을 이용한 연속 음함수(Continuous Implicit Function)가 적용되고, 그리고
    상기 수학식의
    Figure 112022051353746-pat00047
    는 상기
    Figure 112022051353746-pat00048
    에 상응하는 3D 영역의 위치에 따른 값을 도출하도록 구현되는, 단계;
    상기 하나 이상의 2차원 이미지의 텍스처(texture)와 연관된 제2 특징 데이터를 추출하는 단계; 및
    상기 추출된 제2 특징 데이터 및 상기 3D 메쉬를 기반으로 3D 오브젝트를 생성하되,
    상기 3D 오브젝트는 상기 3D 메쉬 및 상기 3D 메쉬에 상응하는 RGB 정보를 기반으로 생성되고, 그리고
    상기 RGB 정보는 상기 제2 특징 데이터를 기반으로 미리 구비된 학습 모델(Lc)을 이용하여 MAE(Mean Absolute Error)의 적용을 통해 예측되는, 단계를 포함하는 방법.
  2. 제1 항에 있어서,
    상기 제2 특징 데이터와 상기 3D 메쉬는 상기 하나 이상의 2차원 이미지로부터 예측된 깊이 값을 기반으로 맵핑되는 방법.
  3. 제1 항에 있어서,
    상기 3D 메쉬는 상기 제1 특징 데이터 및 미리 설정된 마칭 큐브 알고리즘을 기반으로 생성되는 방법.
  4. 제1 항에 있어서,
    상기 학습 모델(Lc)은 하기 수학식과 상응하도록 구현되고,
    Figure 112022051353746-pat00049

    상기 수학식의 n은 미리 정해진 샘플링 개수와 연관되고,
    상기 수학식의
    Figure 112022051353746-pat00050
    는 상기 3D 메쉬와 연관된 임의의 점과 연관되고,
    상기 수학식의
    Figure 112022051353746-pat00051
    는 상기
    Figure 112022051353746-pat00052
    를 2차원 평면에 투사한 상기 하나 이상의 2차원 이미지와 상응하고
    상기 수학식의 z는
    Figure 112022051353746-pat00053
    에 대한 예측된 깊이 값과 상응하고,
    상기 수학식의
    Figure 112022051353746-pat00054
    는 상기 하나 이상의 2차원 이미지에 대하여 컨볼루션 신경망(CNN)의 적용으로 상기 제2 특징 데이터를 도출하는 함수와 연관되고,
    상기 수학식의
    Figure 112022051353746-pat00055
    는 상기 제2 특징 데이터 및 상기 깊이 값을 기반으로 Implicit Surface Aligned 방식을 적용하기 위한 함수와 연관되고, 그리고
    상기 수학식의
    Figure 112022051353746-pat00056
    Figure 112022051353746-pat00057
    에 대하여 미리 설정된 ground truth RGB 색상과 연관되는, 방법.
  5. 2차원 오브젝트를 포함하는 하나 이상의 2차원 이미지로부터 상기 하나 이상의 2차원 이미지의 표면(surface)과 연관된 제1 특징 데이터를 추출하는 제1 특징 데이터 추출모듈;
    상기 하나 이상의 2차원 이미지의 텍스처(texture)와 연관된 제2 특징 데이터를 추출하는 제2 특징 데이터 추출모듈;
    상기 제1 특징 데이터를 기반으로 상기 2차원 오브젝트에 상응하는 3D 메쉬를 생성하는 3D 메쉬 생성모듈; 및
    상기 3D 메쉬 및 상기 제2 특징 데이터를 기반으로 3D 오브젝트를 생성하는 3D 오브젝트 생성모듈을 포함하되,
    상기 하나 이상의 2차원 이미지는 단일 방향의 촬영을 통해 획득되고,
    상기 제1 특징 데이터 추출모듈을 위해 미리 구비된 학습 모델(Lv)은 상기 제1 특징 데이터를 기반으로 상기 3D 메쉬를 위한 3D 영역을 예측하도록 구현되고,
    상기 학습 모델(Lv)은 하기 수학식과 상응하도록 구현되고,
    Figure 112022051353746-pat00058

    상기 수학식의 n은 미리 정해진 샘플링 개수와 연관되고,
    상기 수학식의
    Figure 112022051353746-pat00059
    는 상기 3D 메쉬와 연관된 3차원의 임의의 점과 연관되고,
    상기 수학식의
    Figure 112022051353746-pat00060
    는 상기
    Figure 112022051353746-pat00061
    를 2차원 평면에 투사한 상기 하나 이상의 2차원 이미지와 상응하고,
    상기 수학식의 z는
    Figure 112022051353746-pat00062
    에 대한 예측된 깊이 값과 연관되고,
    상기 수학식의
    Figure 112022051353746-pat00063
    는 상기 하나 이상의 2차원 이미지에 대하여 컨볼루션 신경망(CNN)의 적용으로 상기 제1 특징 데이터를 도출하는 함수와 연관되고,
    상기 수학식의
    Figure 112022051353746-pat00064
    는 상기 제1 특징 데이터 및 상기 깊이 값을 이용한 연속 음함수(Continuous Implicit Function)가 적용되고, 그리고
    상기 수학식의
    Figure 112022051353746-pat00065
    는 상기
    Figure 112022051353746-pat00066
    에 상응하는 3D 영역의 위치에 따른 값을 도출하도록 구현되고, 그리고
    상기 제2 특징 데이터 추출모듈을 위해 미리 구비된 학습 모델(Lc)은 상기 제2 특징 데이터를 기반으로 상기 3D 메쉬를 위한 RGB 정보를 예측하도록 구현되는,
    2차원 이미지 인식에 기반한 3차원 모델링 시스템.
KR1020220002341A 2022-01-06 2022-01-06 2차원 이미지 인식에 기반한 3차원 모델링 시스템 및 이를 위한 방법 KR102433646B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220002341A KR102433646B1 (ko) 2022-01-06 2022-01-06 2차원 이미지 인식에 기반한 3차원 모델링 시스템 및 이를 위한 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220002341A KR102433646B1 (ko) 2022-01-06 2022-01-06 2차원 이미지 인식에 기반한 3차원 모델링 시스템 및 이를 위한 방법

Publications (1)

Publication Number Publication Date
KR102433646B1 true KR102433646B1 (ko) 2022-08-18

Family

ID=83112348

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220002341A KR102433646B1 (ko) 2022-01-06 2022-01-06 2차원 이미지 인식에 기반한 3차원 모델링 시스템 및 이를 위한 방법

Country Status (1)

Country Link
KR (1) KR102433646B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102517704B1 (ko) * 2022-12-07 2023-04-03 강석준 3d 스캔을 활용한 고화질 데이터 추출 방법, 장치 및 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170008638A (ko) * 2015-07-14 2017-01-24 삼성전자주식회사 3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법
KR20180082170A (ko) * 2017-01-10 2018-07-18 트라이큐빅스 인크. 3차원 얼굴 모델 획득 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170008638A (ko) * 2015-07-14 2017-01-24 삼성전자주식회사 3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법
KR20180082170A (ko) * 2017-01-10 2018-07-18 트라이큐빅스 인크. 3차원 얼굴 모델 획득 방법 및 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102517704B1 (ko) * 2022-12-07 2023-04-03 강석준 3d 스캔을 활용한 고화질 데이터 추출 방법, 장치 및 시스템

Similar Documents

Publication Publication Date Title
WO2020098686A1 (zh) 人脸检测模型的训练方法、人脸关键点的检测方法和装置
KR101453630B1 (ko) 증강 현실에서 동적 모델링에 의한 강건한 대상 인식
CN113811920A (zh) 分布式姿势估计
Gargees et al. Incident-supporting visual cloud computing utilizing software-defined networking
JP2023533907A (ja) 自己注意ベースのニューラルネットワークを使用した画像処理
KR102321998B1 (ko) 환경 변화에 강인한 이미지의 위치 및 방향 추정 방법 및 시스템
WO2021249114A1 (zh) 目标跟踪方法和目标跟踪装置
WO2022052782A1 (zh) 图像的处理方法及相关设备
JP2023535502A (ja) 半教師付きキーポイントベースモデル
KR102433646B1 (ko) 2차원 이미지 인식에 기반한 3차원 모델링 시스템 및 이를 위한 방법
CN115272565A (zh) 一种头部三维模型的重建方法及电子设备
US20240161254A1 (en) Information processing apparatus, information processing method, and program
EP3992909A1 (en) Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching
US11574175B2 (en) Security optimizing compute distribution in a hybrid deep learning environment
KR102437560B1 (ko) 건축 장식재 디자인 업무 시스템 및 방법
KR102316216B1 (ko) 블라인드 워터마킹 기술을 이용한 카메라 기반 측위 방법 및 시스템
KR102659290B1 (ko) 모자이크 생성 장치 및 방법
JP7267068B2 (ja) 学習済みモデル生成装置、プログラム及び学習済みモデル生成システム
JP7459452B2 (ja) ニューラルネットワークモデルベースの深度推定
JP2022189901A (ja) 学習方法、学習装置、プログラムおよび記録媒体
KR102299902B1 (ko) 증강현실을 제공하기 위한 장치 및 이를 위한 방법
Orhei Urban landmark detection using computer vision
CN112236778A (zh) 使用cad模型作为先验的从图像中的对象识别
KR102521565B1 (ko) 3차원 그래프 뉴럴 네트워크 검출을 이용하여 증강현실 서비스를 제공하고 재생하는 장치 및 방법
Ren et al. T-UNet: A novel TC-based point cloud super-resolution model for mechanical lidar

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant