KR102187143B1 - 3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법 - Google Patents

3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법 Download PDF

Info

Publication number
KR102187143B1
KR102187143B1 KR1020200101686A KR20200101686A KR102187143B1 KR 102187143 B1 KR102187143 B1 KR 102187143B1 KR 1020200101686 A KR1020200101686 A KR 1020200101686A KR 20200101686 A KR20200101686 A KR 20200101686A KR 102187143 B1 KR102187143 B1 KR 102187143B1
Authority
KR
South Korea
Prior art keywords
images
feature point
content
image
depth map
Prior art date
Application number
KR1020200101686A
Other languages
English (en)
Other versions
KR20200100020A (ko
Inventor
정재윤
알렉산더 리모노프
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020200101686A priority Critical patent/KR102187143B1/ko
Publication of KR20200100020A publication Critical patent/KR20200100020A/ko
Application granted granted Critical
Publication of KR102187143B1 publication Critical patent/KR102187143B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

3차원 컨텐츠 생성 장치가 개시된다. 본 장치는, 서로 다른 위치에서 객체를 촬상한 복수의 이미지를 입력받는 입력부, 입력된 복수의 이미지 각각에서 기 설정된 특징점(feature point)을 검출하는 검출부, 검출된 특징점의 3차원 위치 정보를 추출하고, 추출된 특징점의 3차원 위치 정보를 기준으로, 객체 표면의 적어도 하나의 깊이 맵(depth map)을 형성하는 맵 형성부 및 형성된 적어도 하나의 깊이 맵과 입력된 복수의 이미지를 이용하여 객체에 대한 3차원 컨텐츠를 생성하는 컨텐츠 생성부를 포함한다.

Description

3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법 { THREE DIMENSIONAL CONTENT PRODUCING APPARATUS AND THREE DIMENSIONAL CONTENT PRODUCING METHOD THEREOF }
*본 발명은 3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법에 관한 것으로, 더욱 상세하게는 객체의 특징점 검출 기반으로 3차원 컨텐츠를 생성하는 3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법에 관한 것이다.
최근 비디오 영상에서 얼굴을 탐지하고 추적, 인식하기 위한 많은 연구들이 진행되고 있었다. 2차원 영상으로부터 3차원 얼굴 형태를 추정하는 것은 얼굴 인식, 표정 인식, 영상 모델링 등 다양한 컴퓨터 비전(computer vision) 분야에서 매우 중요하다. 그러나 일반적으로 사용되는 카메라로부터 획득 가능한 영상은 영상 내 물체에 대한 깊이 정보를 포함하지 않는 2차원 영상이기 때문에 이로부터 3차원 얼굴 형태를 추정하는 것은 매우 어려운 일이다.
3D 얼굴 모델링을 위하여 다양한 기법이 이용되었는데, 예컨대, RGB 영상(Image)과 깊이 맵(depth map)을 3D 카메라로 획득하는 기술이 이용되었다. 그러나, 3D 복원에 사용하는 3D 카메라는 상당한 고가로, 그보다는 2대의 2D 카메라를 이용한 스테레오 매칭(stereo matching) 기법을 이용하는 경우가 많았다. 하지만 스테레오 매칭 기법 역시 2대의 카메라가 갖추어져야지만 가능하다는 제약이 있었다.
또 한편, 얼굴을 복원하는 것은 다른 물체를 복원하는 것보다 특히 많은 어려움이 존재하였다. 이는, 얼굴 컬러 분포도가 균질하고, 특징 점(feature point)이 부족하며, 영상 획득시 표정 변화가 발생할 수 있다는 문제에 기인하였다.
이러한 점에서, 3D 카메라와 같은 고가의 장비가 요구되지 않으면서도, 여러 대의 카메라 없이도, 안정적으로 3D 얼굴 복원을 하는 기술에 대한 요구가 있었다.
본 발명은 상술한 목적으로부터 안출된 것으로, 본 발명의 목적은 객체의 특징점 검출 기반으로 3차원 컨텐츠를 생성하는 3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법을 제공하기 위한 것이다.
이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 3차원 컨텐츠 생성 장치는, 서로 다른 위치에서 객체를 촬상한 복수의 이미지를 입력받는 입력부, 상기 입력된 복수의 이미지 각각에서 기 설정된 특징점(feature point)을 검출하는 검출부, 상기 검출된 특징점의 3차원 위치 정보를 추출하고, 상기 추출된 특징점의 3차원 위치 정보를 기준으로, 상기 객체 표면의 적어도 하나의 깊이 맵(depth map)을 형성하는 맵 형성부 및 상기 형성된 적어도 하나의 깊이 맵과 상기 입력된 복수의 이미지를 이용하여 상기 객체에 대한 3차원 컨텐츠를 생성하는 컨텐츠 생성부를 포함한다.
이 경우, 본 발명의 일 실시 예에 따른 3차원 컨텐츠 생성 장치는, 상기 추출된 특징점의 3차원 위치 정보에 기초하여 상기 복수의 이미지 각각의 촬상 위치를 추정하는 위치 추정부를 더 포함하고, 상기 컨텐츠 생성부는, 상기 추정된 촬상 위치에 기초하여, 상기 객체에 대한 3차원 컨텐츠를 생성할 수 있다.
이 경우, 상기 객체는 인간의 머리이며, 상기 검출부는, 임의의 인간의 얼굴에 대하여 학습된 얼굴 모델을 상기 입력된 복수의 이미지에 적용하여 얼굴 특징점(facial feature point)을 검출할 수 있다.
이 경우, 상기 검출부는, 상기 입력된 복수의 이미지, 상기 입력된 복수의 이미지 각각에 대하여 추정된 촬상 위치 및 상기 검출된 얼굴 특징점 중 적어도 하나를 이용하여 상기 얼굴 모델을 갱신하며, 상기 갱신 이후 입력되는 이미지에 상기 갱신된 얼굴 모델을 적용하여 얼굴 특징점을 검출할 수 있다.
이 경우, 상기 갱신된 얼굴 모델은, 상기 입력된 복수의 이미지 각각의 촬상 위치 및 색상 및 텍스쳐 정보에 기초하여 추가적으로 생성된 3차원 정점의 위치 및 색상 정보를 더 포함할 수 있다.
한편, 상기 컨텐츠 생성부는, 상기 검출된 얼굴 특징점의 배치 형태 및 상기 추정된 촬상 위치 중 적어도 하나에 기초하여 상기 복수의 이미지 중 하나의 이미지를 선택하고, 선택된 이미지로 눈썹 영역, 눈 영역, 코 영역 및 입 영역 중 적어도 하나의 텍스쳐(texture)를 복원하여 3차원 컨텐츠를 생성할 수 있다.
이 경우, 상기 컨텐츠 생성부는, 상기 검출된 얼굴 특징점의 배치 형태 및 상기 추정된 촬상 위치 중 적어도 하나에 기초하여 상기 복수의 이미지 중 적어도 2 이상의 이미지를 선택하고, 선택된 적어도 2 이상의 이미지로 '상기 눈썹 영역, 눈 영역, 코 영역 및 입 영역' 이외의 영역의 텍스쳐(texture)를 복원하여 3차원 컨텐츠를 생성할 수 있다.
한편, 상기 맵 형성부는, 상기 검출된 특징점의 분포 및 상기 추정된 촬상 위치 중 적어도 하나에 기초하여, 상기 복수의 이미지 중 깊이 정보를 추출할 이미지를 선택하고, 상기 선택된 이미지 및 상기 선택된 이미지로부터 추출된 깊이 정보로 상기 깊이 맵을 형성할 수 있다.
한편, 상기 맵 형성부는, 상기 복수의 이미지 중 적어도 2 이상의 이미지 간의 스테레오 프로세싱(Stereo processing)을 통하여 상기 깊이 맵을 형성하며, 상기 적어도 2 이상의 이미지에서 추출된 특징점의 3차원 위치 정보 및 상기 적어도 2 이상의 이미지의 촬상 위치 중 적어도 어느 하나에 기초하여, 상기 스테레오 프로세싱을 위한 패치 사이즈(patch size)를 결정할 수 있다.
한편, 상기 맵 형성부는, 상기 추출된 특징점의 3차원 위치 정보에 기초하여, 상기 객체 표면의 깊이범위를 추정하고, 상기 추정된 깊이 범위 내에서 상기 깊이 맵을 형성할 수 있다.
한편, 상기 컨텐츠 생성부는, 상기 추출된 특징점의 3차원 위치 정보에 기초하여, 상기 객체의 부피를 추정하고, 상기 추정된 부피를 기준으로 상기 3차원 컨텐츠를 생성할 수 있다.
한편, 상기 복수의 이미지는, 단안 카메라(monocular camera)로 상기 객체를 서로 다른 위치에서 촬상하여 획득된 것일 수 있다.
한편, 본 발명의 일 실시 예에 따른 3차원 컨텐츠 생성 방법은, 서로 다른 위치에서 객체를 촬상한 복수의 이미지를 입력받는 단계, 상기 입력된 복수의 이미지 각각에서 기 설정된 특징점(feature point)을 검출하는 단계, 상기 검출된 특징점의 3차원 위치 정보를 추출하고, 상기 추출된 특징점의 3차원 위치 정보를 기준으로, 상기 객체 표면의 적어도 하나의 깊이 맵(depth map)을 형성하는 단계 및 상기 형성된 적어도 하나의 깊이 맵과 상기 입력된 복수의 이미지를 이용하여 상기 객체에 대한 3차원 컨텐츠를 생성하는 단계를 포함한다.
이 경우, 본 발명의 일 실시 예에 따른 3차원 컨텐츠 생성 방법은 상기 추출된 특징점의 3차원 위치 정보에 기초하여 상기 복수의 이미지 각각의 촬상 위치를 추정하는 단계를 더 포함하고, 상기 3차원 컨텐츠를 생성하는 단계는, 상기 추정된 촬상 위치에 기초하여, 상기 객체에 대한 3차원 컨텐츠를 생성할 수 있다.
이 경우, 상기 객체는 인간의 머리이며, 상기 검출하는 단계는, 임의의 인간의 얼굴에 대하여 학습된 얼굴 모델을 상기 입력된 복수의 이미지에 적용하여 얼굴 특징점(facial feature point)을 검출할 수 있다.
이 경우, 상기 검출하는 단계는, 상기 입력된 복수의 이미지, 상기 입력된 복수의 이미지 각각에 대하여 추정된 촬상 위치 및 상기 검출된 얼굴 특징점 중 적어도 하나를 이용하여 상기 얼굴 모델을 갱신하며, 상기 갱신 이후 입력되는 이미지에 상기 갱신된 얼굴 모델을 적용하여 얼굴 특징점을 검출할 수 있다.
한편, 상기 3차원 컨텐츠를 생성하는 단계는, 상기 검출된 얼굴 특징점의 배치 형태 및 상기 추정된 촬상 위치 중 적어도 하나에 기초하여 상기 복수의 이미지 중 하나의 이미지를 선택하고, 선택된 이미지로 눈썹 영역, 눈 영역, 코 영역 및 입 영역 중 적어도 하나의 텍스쳐(texture)를 복원하여 3차원 컨텐츠를 생성할 수 있다.
이 경우, 상기 3차원 컨텐츠를 생성하는 단계는, 상기 검출된 얼굴 특징점의 배치 형태 및 상기 추정된 촬상 위치 중 적어도 하나에 기초하여 상기 복수의 이미지 중 적어도 2 이상의 이미지를 선택하고, 선택된 적어도 2 이상의 이미지로 '상기 눈썹 영역, 눈 영역, 코 영역 및 입 영역' 이외의 영역의 텍스쳐(texture)를 복원하여 3차원 컨텐츠를 생성할 수 있다.
한편, 상기 깊이 맵을 형성하는 단계는, 상기 검출된 특징점의 분포 및 상기 추정된 촬상 위치 중 적어도 하나에 기초하여, 상기 복수의 이미지 중 깊이 정보를 추출할 이미지를 선택하고, 상기 선택된 이미지 및 상기 선택된 이미지로부터 추출된 깊이 정보로 상기 깊이 맵을 형성할 수 있다.
한편, 상기 깊이 맵을 형성하는 단계는, 상기 복수의 이미지 중 적어도 2 이상의 이미지 간의 스테레오 프로세싱(Stereo processing)을 통하여 상기 깊이 맵을 형성하며, 상기 적어도 2 이상의 이미지에서 추출된 특징점의 3차원 위치 정보 및 상기 적어도 2 이상의 이미지의 촬상 위치 중 적어도 어느 하나에 기초하여, 상기 스테레오 프로세싱을 위한 패치 사이즈(patch size)를 결정할 수 있다.
한편, 상기 깊이 맵을 형성하는 단계는, 상기 추출된 특징점의 3차원 위치 정보에 기초하여, 상기 객체 표면의 깊이범위를 추정하고, 상기 추정된 깊이 범위 내에서 상기 깊이 맵을 형성할 수 있다.
한편, 상기 3차원 컨텐츠를 생성하는 단계는, 상기 추출된 특징점의 3차원 위치 정보에 기초하여, 상기 객체의 부피를 추정하고, 상기 추정된 부피를 기준으로 상기 3차원 컨텐츠를 생성할 수 있다.
한편, 상기 복수의 이미지는, 단안 카메라(monocular camera)로 상기 객체를 서로 다른 위치에서 촬상하여 획득된 것일 수 있다.
한편, 본 발명의 일 실시 예에 따른 3차원 컨텐츠 생성 방법을 수행하기 위한 프로그램이 저장되는 기록 매체에 있어서, 상기 3차원 컨텐츠 생성 방법은, 서로 다른 위치에서 객체를 촬상한 복수의 이미지를 입력받는 단계, 상기 입력된 복수의 이미지 각각에서 기 설정된 특징점(feature point)을 검출하는 단계, 상기 검출된 특징점의 3차원 위치 정보를 추출하고, 상기 추출된 특징점의 3차원 위치 정보를 기준으로, 상기 객체 표면의 적어도 하나의 깊이 맵(depth map)을 형성하는 단계 및 상기 형성된 적어도 하나의 깊이 맵과 상기 입력된 복수의 이미지를 이용하여 상기 객체에 대한 3차원 컨텐츠를 생성하는 단계를 포함한다.
도 1은 본 발명의 일 실시 예에 따른 3차원 컨텐츠 생성 장치를 설명하기 위한 블럭도,
도 2는 본 발명의 일 실시 예에 따라 구성된 얼굴 메쉬를 설명하기 위한 도면,
도 3은 본 발명의 일 실시 예에 따라 형상 복원된 모델을 설명하기 위한 도면,
도 4 내지 도 6e는 본 발명의 다양한 실시 예에 따른 텍스쳐 복원 방식을 설명하기 위한 도면,
도 7은 본 발명의 일 실시 예에 따른 3차원 컨텐츠 생성 장치의 3D 모델링을 위한 데이터 처리 파이프라인을 설명하기 위한 도면, 그리고,
도 8은 본 발명의 일 실시 예에 따른 3차원 컨텐츠 생성 방법을 설명하기 위한 흐름도이다.
이하에서는 도면을 참조하여 본 발명에 대해 더욱 상세히 설명하도록 한다. 다만, 본 발명을 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다.
도 1은 본 발명의 일 실시 예에 따른 3차원 컨텐츠 생성 장치의 구성을 설명하기 위한 블럭도이다.
도 1을 참고하면, 3차원 컨텐츠 생성 장치(100)는 입력부(110), 검출부(120), 맵 형성부(130), 컨텐츠 생성부(140)를 포함한다. 이러한 3차원 컨텐츠 생성 장치(100)는 스마트 폰, TV, 노트북 PC, 테블릿 PC, 전자 책, 전자 액자, 키오스크 등과 같은 다양한 장치로 구현될 수 있다.
입력부(110)는 서로 다른 위치에서 객체를 촬상한 복수의 이미지를 입력받기 위한 구성이다. 여기서 복수의 이미지는, 객체를 동영상으로 촬영하였을 때 각각의 정지 영상, 즉 프레임을 의미할 수 있다.
입력부(110)는 외부의 카메라로부터 촬상한 이미지를 수신받는 통신 인터페이스로 구현되거나, 카메라로 구현될 수 있다.
입력부(110)가 통신 인터페이스로 구현되는 경우, 와이파이 칩, 블루투스 칩, NFC칩, 무선 통신 칩 등과 같은 다양한 통신 칩을 포함할 수 있다. 이때, 와이파이 칩, 블루투스 칩, NFC 칩은 각각 WiFi 방식, 블루투스 방식, NFC 방식으로 통신을 수행한다. 이 중 NFC 칩은 135kHz, 13.56MHz, 433MHz, 860~960MHz, 2.45GHz 등과 같은 다양한 RF-ID 주파수 대역들 중에서 13.56MHz 대역을 사용하는 NFC(Near Field Communication) 방식으로 동작하는 칩을 의미한다. 와이파이 칩이나 블루투스 칩을 이용하는 경우에는 SSID 및 세션 키 등과 같은 각종 연결 정보를 먼저 송수신하여, 이를 이용하여 통신 연결한 후 각종 정보들을 송수신할 수 있다. 무선 통신 칩은 IEEE, 지그비, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 통신 규격에 따라 통신을 수행하는 칩을 의미한다.
입력부(110)가 카메라로 구현된 경우, 렌즈와 이미지 센서를 포함한다. 렌즈의 종류에는 일반적인 범용 렌즈, 광각 렌즈, 줌 렌즈 등이 있으며, 3D 컨텐츠 생성 장치(100)의 종류, 특성, 사용 환경 등에 따라 결정될 수 있다. 이미지 센서로는 상보성 금속 산화물 반도체(Complementary Metal Oxide Semiconductor: CMOS)와 전하결합소자(Charge Coupled Device: CCD) 등이 사용될 수 있다.
한편, 본 발명에선 단안 카메라(monocular camera)를 통하여 획득한 2차원 이미지를 통해 3차원 컨텐츠를 생성할 수 있다. 즉, 여러 대의 카메라가 요구되지 않는다. 따라서 본 3차원 컨텐츠 생성 장치(100)는 스마트폰과 같이 단안 카메라가 내장된 장치로 구현 가능하다.
검출부(120)는 입력된 복수의 이미지 각각에 대한 기설정된 특징점을 검출하기 위한 구성이다. 입력된 복수의 이미지가 사람의 머리를 촬상한 이미지인 경우를 가정하였을 때, 검출부(120)는 얼굴 특징점(facial feature point)을 기 설정된 특징점으로 검출할 수 있다.
검출부(120)는 임의의 인간의 얼굴에 대하여 학습된 얼굴 모델을 입력부(110)를 통해 입력된 복수의 이미지에 적용하여 얼굴 특징점(facial feature point)을 검출할 수 있다. 얼굴 특징점이란, 눈, 눈썹, 코, 윗입술, 아랫입술, 턱 선 등에 대한 특징점을 의미한다. 임의의 인간의 얼굴에 대하여 학습된 얼굴 모델이란, 임의의 인간의 얼굴을 촬상한 영상을 입력하고, 수동 혹은 자동으로 각 영상에서의 눈, 눈썹, 코, 윗입술, 아랫입술, 턱 선 등에 대한 특징점을 선택하고, 선택된 점이 나타내는 얼굴 영역에 대한 정보를 입력하는 동작을 복수의 영상에 대하여 반복한 결과를 의미한다. 이와 같은 기술은 머신 러닝(Machine Learning)의 한 분야로서, 당업자에게 자명하므로 자세한 설명은 생략한다.
이와 같이 학습된 얼굴 모델은, 학습에 이용된 얼굴 이미지로부터 추출될 수 있는 정보, 즉 얼굴 특징점의 위치에 대한 정보, 색상에 대한 정보, 텍스쳐에 대한 정보, 촬상 위치에 대한 정보 등에 기초한 얼굴 특징점의 3차원 정보와 색상 정보를 포함하고 있는 것이다.
검출부(120)는 이와 같이 학습된 얼굴 모델을 이용하는 다양한 알고리즘을 통하여 입력된 영상에서 얼굴 특징점을 자동으로 검출할 수 있다. 예컨대, AAM(Active Appearance Models) 또는 ASM(Active Shape Models)이 이용될 수 있다.
ASM은 눈의 위치를 검출하고, 검출된 눈의 위치를 기준으로 일반적인 모델(generic model)에 따른 다른 부위 예를 들어 코, 입, 눈썹 등의 모양(shape) 정보를 이용하여 위치를 결정하는 모델이다. AAM은 모양 정보뿐만 아니라, 질감 정보(texture information)를 더욱 고려하여 얼굴 특징을 효율적으로 설명할 수 있는 특징점을 검출하는 모델이다.
AAM은 얼굴 형상(model) 벡터와 얼굴 표면 질감(texture) 벡터에 주성분 분석(PCA)을 적용하여 다양한 사람의 얼굴 통계를 이용하여 만들어진 표본 얼굴 모델에 워핑(warping)하여, 표본 얼굴의 데이터와 정규화된 영상(2D)의 얼굴 데이터의 오차 제곱을 최소화시킨다. 이 데이터를 이용하여 얼굴의 특징점을 찾는다. AAM은 속도 계산을 빨리 할 수 있고 트레킹(Tracking)이 가능하다는 장점이 있다.
AAM을 이용하는 경우, 검출부(120)는 입력된 이미지에 포함된 얼굴의 눈, 눈썹, 코, 윗입술, 아랫입술, 턱 선에 대한 특징점을 검출하는 정합(fitting)과정을 수행한다.
이 경우, 하기의 수학식 1로 정의되는 비용 함수(EF)를 최소화시키도록 정합이 이루어진다.
[수학식 1]
*
Figure 112020085254167-pat00001
여기서, EF는 비용 함수이고, E2D는 촬상된 얼굴 이미지의 2D 평균 모델과 변형된 외형(warped appearance) 간의 차이로, 모양 변수(shape parameter) p와 q가 사용된다. Etx는 촬상된 이미지의 텍스쳐(texture)와 키 프레임의 변형된 템플릿 얼굴 텍스쳐 간의 차이다. 그리고 α는 Etx에 대한 가중치이다. 그리고 E3D는 2D 형상(shape)과 2D 상에 투영된 기준 3D 얼굴 모델의 형상 X 간의 기하학적 차이(geometric difference)로, 얼굴 이미지를 촬상한 카메라에 대한 내부 파라미터(intrinsic parameters)인 K와, 외부 파라미터 P가 사용된다. 그리고 β는 E3D에 대한 가중치이다.
한편, 검출부(120)는 이와 같이 검출된 얼굴 특징점, 그리고 이들 특징점의 하나 이상의 이미지로의 촬상 위치를 기반으로 얼굴 모델을 갱신할 수 있고, 갱신 이후에 입력되는 이미지들에 대해선 갱신된 얼굴 모델을 적용한다. 따라서, 현재 촬영 대상인 객체의 특징이 머신러닝에 의해 완료된 이후에도 얼굴 모델에 반영될 수 있으므로, 특징점 검출의 정밀도가 높아질 수 있다.
이때, 갱신되는 얼굴 정보는 학습된 얼굴 모델의 2차원 혹은 3차원 정점의 위치 및 색상 정보뿐 아니라, 기존에 획득된 복수의 촬상 이미지의 위치 및 기존에 획득된 복수의 촬상 이미지의 색상 및 기존에 획득된 복수의 촬상 이미지의 텍스쳐 정보에 기초하여 추가적으로 생성된 3차원 정점 및 메쉬의 위치, 크기 및 색상 정보를 더 포함한다.
그리고, 검출부(120)는 도 2에 도시된 것과 같이 검출된 특징점들을 연결한 메쉬 트라이앵글들로 이루어진 얼굴 메쉬(face mesh, 20)를 구성할 수 있고, 이에 기반하여, 촬상된 이미지 내의 얼굴의 각도 및 크기를 파악할 수 있다.
구체적으로, [수학식1]에서 제시된 비용함수를 최소화 하는 과정에서 얻어진 외부 파라미터 P는 얼굴의 각도에 대한 정보를 내포하고 있고, 얼굴 메쉬 트라이앵글의 크기 혹은 외부 파라미터 P의 관계는 얼굴의 크기에 대한 정보를 내포하고 있다.
구체적으로, 검출부(120)는 특징점 위치를 이용하여 얼굴의 좌측 면적과 우측 면적을 구할 수 있다. 이때, 검출부(120)는 얼굴 미간의 중간에 위치한 특징점 위치, 얼굴의 윤곽을 나타내는 특징점 위치, 코 끝에 대응하는 특징점 위치, 입술 주위에 위치한 특징점 위치와 같은 대표 특징점들의 위치를 이용하여 얼굴의 좌측 면적과 우측 면적을 구할 수 있다.
구체적으로, 검출부(120)는 대표 특정점들의 위치를 기초로 삼각형을 만들고, 삼각형 면적의 합을 계산하여 얼굴의 좌측 면적과 우측 면적을 구할 수 있다. 이후, 검출부(120)는 얼굴의 좌측 면적과 우측 면적의 비율로부터 얼굴의 각도 정보를 검출할 수 있다.
이와 같은 방법을 통해 검출부(120)는 yaw, pitch, roll 방향의 얼굴 각도 정보를 검출할 수 있다. roll, pitch, yaw 방향의 각도 정보는 x, y, z 축에 대한 회전 각도에 대응될 수 있다.
그리고 본 3차원 컨텐츠 생성장치(100)는 각 이미지를 촬상한 카메라의 위치(camera pose)를 추정하는 위치 추정부(미도시)를 더 포함할 수 있다.
위치 추정부는 얼굴 메쉬를 통해 산출된 얼굴의 각도 및 크기, 3차원 특징점의 분포 및 이미지로의 촬상된 2차원 위치를 기반으로 해당 이미지를 촬상한 카메라의 위치(camera pose)를 추정할 수 있다.
또 다른 실시 예에 따르면, 본 3차원 컨텐츠 생성장치(100)는, 단안 카메라를 이용하는 스테레오 비전 방식으로 3D 포인트 클라우드를 형성하고, 카메라의 위치를 추정할 수 있다.
구체적으로, 위치 추정부는 두 개의 이미지를 이용한 스테레오 매칭 프로세싱 기법을 이용하여 두 개의 이미지 사이의 대응부분을 검출함으로써 각 이미지에 대한 카메라 위치를 상대적으로 결정함으로써, 카메라 위치 추정이 가능하다.
또한 구체적으로, 위치 추정부는 해당 이미지에 촬상된 특징점의 2D 위치와 현재까지 등록된 특징점의 3차원 위치의 비교 분석을 통하여 각 카메라 위치를 절대적으로 결정함으로써, 카메라 위치 추정이 가능하다.
여기서 특징점은, 영상에서 특징이 될 수 있는 임의의 점을 의미하는 것으로, 기존에 학습된 얼굴 특징점뿐만 아니라 스테레오 프로세싱을 통해 추가된 어떠한 점이라도 가능하다.
그러나, 이와 같이 검출된 특징점들 간의 비교에 의한 위치 추정은, 특히 얼굴과 같이 컬러 분포도가 균질한 객체에선, 실제로 동일한 특징점이 아님에도 불구하고, 색상의 유사성 등에 의해 동일한 특징점으로 인식하는 에러가 발생하기도 한다. 예컨대, 제1 이미지에선 얼굴 우측면만 좌측면은 보이지 않고, 제2 이미지에선 얼굴 좌측면만 보이고 얼굴 우측면은 보이지 않는 상황에서 양 이미지 간의 색상 유사도에 따라, 공통의 특징점이 발견된 것으로 판단하는 오류가 발생할 수 있다.
따라서, 본 발명의 일 실시 예에 따르면, 이와 같은 에러를 줄이기 위해, 서로 다른 이미지에서 공통의 특징점이 아닐 것으로 예측되는 특징점은 배제하여 유효 특징점만 추출 과정이 수행된다.
구체적으로, 생성된 3D 포인트 클라우드에 등록된 특징점 중, 상술한 방법과 같이 검출부(120)가 생성한 얼굴 메시에 가려 가려지지 않는 유효 특징점만을 추출한다. 이러한 유효 특징점들은 아웃라이어(outlier)가 제거된 것이므로, 이를 이용하면 오차가 거의 없는 정밀도 높은 카메라 위치 추정을 할 수 있다.
즉, 본 실시 예에선 얼굴 모델을 이용하여 특징점을 추출하는 2D 기반 기술과, 3D 차원 트래킹 기술을 접목함으로써, 정밀한 카메라 위치 추정이 가능하다는 장점이 있다.
본 실시 예에 따른 최종적인 카메라 위치(P*)의 추정은 구체적으로 하기의 수학식 2에 의해 계산된 결과이다.
[수학식 2]
Figure 112020085254167-pat00002
여기서 P*는 최종적인 카메라 위치이고, RE(i,P)는, 카메라 위치(P)를 이용하여, i로 나타내는 포인트에 대한 재투영 오차(re-projection error)이다. 그리고, RE(i,P)는, 카메라 위치(P)를 이용하여, j로 나타내는 포인트에 대한 재투영 오차(re-projection error)이다. 그리고 λ는 상기 재투영 오차에 대한 상수이다. 그리고 X'는 얼굴 바깥의 키 포인트(key point) 혹은 얼굴 내에 있으나 학습에 의해서가 아닌 스테레오 프로세싱을 통해 생성된 키 포인트이다. X와 X' 둘다 무리 조정(bundle adjustment)을 통하여 갱신된다. 또한 X 및 X' 에 있는 어떠한 키 포인트라도 sparse mesh(M)에 의해 가려지면 아웃라이어(outlier)로서 해당 이미지를 촬영한 카메라의 위치 추정 과정에서 일시적으로 제거된다.
이와 같이 아웃라이어가 제거된 유효 특징점들을 이용하여, 위치 추정부는 3차원 트래킹 기술 기반 정밀도 높은 카메라 위치 추정을 할 수 있다. 이와 같이 추정된 카메라 위치에 기초하여 컨텐츠 생성부(140)는 객체에 대한 3차원 컨텐츠를 생성할 수 있다.
한편, 재투영 오차가 커서 이와 같이 신뢰도가 낮은 특징점들은 제거하고, 위치 오류가 큰 점들은 정밀한 매칭 알고리즘을 통해 위치를 보정함으로써, 3차원 포인트 클라우드 정보를 갱신할 수도 있다.
이와 같이 갱신된 3차원 포인트 클라우드 정보가 반영되어 유효 특징점이 선택되는 과정이 반복되며, 또한 머신 러닝에 사용되는 얼굴 모델의 정보가 갱신될 수 있다. 따라서 촬영 대상의 특징이 모델에 반영되게 되므로 머신 러닝의 정밀도가 높아질 수 있다.
다시 말해, 검출부(120)는 입력된 복수의 이미지, 이미지의 촬상 위치 및 이미지에서 검출된 특징점 중 적어도 하나를 이용하여 얼굴 모델을 갱신하고, 갱신 이후 입력부(110)를 통해 입력되는 이미지에 갱신된 얼굴 모델을 적용하여 얼굴 특징점을 반복하여 검출할 수 있다.
이와 같이 갱신된 얼굴 모델은, 최초에 제공된 얼굴 모델에 대한 정보뿐만 아니라, 현재 촬상중인 객체에 대한 정보를 반영하고 있는 것이다. 다시말해, 갱신된 얼굴 모델은 학습된 얼굴 모델의 2차원 혹은 3차원 정점의 위치 및 색상 정보 뿐 아니라, 기존에 획득된 복수의 촬상 이미지의 위치 및 기존에 획득된 복수의 촬상 이미지의 색상 및 기존에 획득된 복수의 촬상 이미지의 텍스쳐 정보에 기초하여 추가적으로 생성된 3차원 정점의 위치 및 색상 정보를 더 포함한다.
즉, 갱신된 얼굴 모델은, 최초에 제공된 얼굴 모델에서의 얼굴 특징점의 3차원 정보와 색상 정보뿐만 아니라, 실시간으로 입력되는 이미지들로부터 추출된 얼굴 특징점의 3차원 정보와 색상 정보를 포함하고 있는 것이다. 따라서, 갱신된 얼굴 모델은 현재 촬영 대상인 객체의 특징이 실시간으로 반영된 것이므로, 촬영 대상의 얼굴 특징점을 검출하는 정밀도가 높아질 수 있는 것이다.
맵 형성부(130)는 객체 표면의 깊이 맵(depth map)을 형성하기 위한 구성이다. 깊이 맵이란, 이미지에 존재하는 객체 및 배경의 3차원 거리 정보를 나타내는 깊이 정보의 집합을 의미한다.
맵 형성부(130)는 얼굴 모델이 갖고 있는 3차원 위치 정보에 기초하여, 학습된 얼굴 모델을 적용하여 검출된 얼굴 특징점에 대한 3차원 위치 정보를 추출할 수 있다. 그리고, 추출된 특징점의 3차원 위치 정보를 기준으로, 객체 표면의 깊이 맵(depth map)을 형성할 수 있다. 맵 형성부(130)가 추출한 특징점의 3차원 위치 정보는 임의의 인간의 얼굴에 기초한 것이므로, 실제 촬영 대상 객체에 대한 정확한 정보를 반영한 것은 아니다. 하지만, 코끝은 다른 부분보다 돌출되어 있다는 사실 등은 일반적인 모든 얼굴에 대해 적용할 수 있는 사실이므로, 이와 같은 일반화된 사실에 기초하여, 맵 형성부(130)는 얼굴 모델을 기준으로, 촬상 대상인 얼굴에 대한 대략적인 3차원 위치 정보를 추출할 수 있는 것이다. 따라서, 이와 같은 정보를 기준으로 하면, 객체 표면을 구성하는 실제 점들이 3차원 공간에서 존재하는 위치의 범위를 정의할 수 있게 되는바, 범위가 정의되지 않은 채 일일이 그 위치를 추정하는 경우보다 더 빠른 속도로, 정밀하게 깊이 맵을 생성할 수 있다.
그리고, 맵 형성부(130)는 입력부(110)를 통해 입력된 복수의 이미지 중 깊이 정보를 추출할 이미지를 선택하고, 선택된 이미지 및 선택된 이미지로부터 추출된 깊이 정보로 깊이 맵을 형성할 수 있다. 선택되는 이미지를 키 프레임이라 지칭하고, 선택되지 않는 이미지를 레퍼런스 프레임이라 지칭한다.
이 경우, 맵 형성부(130)는 입력된 복수의 연속된 이미지 중에서 기 설정된 간격에 있는 이미지를 키 프레임으로 선택할 수 있다.
또 다른 실시 예에 따르면, 맵 형성부(130)는 검출부(120)에서 검출된 얼굴 특징점의 분포, 이미지와 이미지에서 검출된 얼굴 특징점 사이의 관계, 이미지들 간의 상대적 촬상 위치에 기초하여, 키 프레임을 선택할 수 있다.
구체적으로, 검출부(120)에서 검출된 얼굴 특징점에 따르면, 이미지가 머리 중 어느 부분을 포함하고 있는지 파악할 수 있으므로, 맵 형성부(130)는 얼굴 정면 부분에 대응되는 이미지들은 기 설정된 제1 간격마다 키 프레임으로 선택하고, 그 외의 부분에 대응되는 이미지들은 기 설정된 제1 간격보다 큰 제2 간격마다 키 프레임으로 선택할 수 있다. 이로써, 좀 더 정확히 표현될 필요가 있는 얼굴 영역에 대해선 보다 많은 키 프레임을 확보하게 되고, 그러한 필요성이 좀 적은 머리 뒷부분 등과 같은 영역에 대해선 보다 적은 키 프레임을 확보하게 된다. 따라서, 깊이 맵 형성에 있어서 정밀도와 속도를 높일 수 있다.
또 다른 실시 예에 따르면, 맵 형성부(130)는 맵 정보를 형성하면서 형성된 맵 정보의 품질을 검사하고, 품질이 기 설정된 기준에 미달한 것으로 판단되면, 해당 영역에서 더 많은 키 프레임을 선택하여 다시 맵 정보를 형성할 수 있다.
그리고 맵 형성부(130)는 선택한 키 프레임과 레퍼런스 프레임을 비교 분석하는 스테레오 프로세싱을 통하여 깊이 맵을 형성할 수 있다.
스테레오 프로세싱이란, 인간의 시각 체계와 유사하게, 서로 다른 위치에서 획득된 두 영상을 적절히 정합함으로써 거리 정보를 얻는 프로세싱을 의미한다. 스테레오 프로세싱 혹은 스테레오 정합은 인간 시각 체계의 거리 추출 능력을 자동화하기 위한 컴퓨터 시각 분야 중 하나이다. 구체적으로는, 템플릿 매칭, voxel 기반 multi-view 방식 등을 이용할 수 있으며 이는 당업자에게는 자명한 기술이므로 자세한 설명은 생략한다.
이 경우, 본 발명의 일 실시 예에 따르면, 맵 형성부(130)는 추출된 특징점의 3차원 위치 정보 및 특징점(정점)들을 연결하여 구성된 얼굴 메쉬(볼륨 모델) 중 적어도 하나에 기초하여, 객체 표면의 깊이범위를 추정하고, 추정된 깊이 범위 내에서 깊이 맵을 형성할 수 있다. 구체적으로, 맵 형성부(130)는 얼굴 모델을 현재 키 프레임의 카메라 위치에 투영시켜, 키 프레임 내에서 각 픽셀의 초기 깊이 범위를 예측할 수 있다. 따라서, 각 픽셀에 대한 깊이 정보 추출의 정밀도가 높아질 수 있게 된다.
또한, 맵 형성부(130)는 추출된 특징점의 3차원 위치 정보에 기초하여, 스테레오 프로세싱을 위한 패치 사이즈(patch size)를 결정할 수 있다. 템플릿 매칭 방식이 이용되는 경우, 템플릿 매칭을 위한 패치 사이즈가 결정될 수 있다.
이 경우, 맵 형성부(130)는 적어도 2 이상의 이미지에서 추출된 특징점의 3차원 위치 정보, 이미지들간의 상대적인 촬상 위치 및 이미지에서의 특징점 분포에 기초하여 패치 사이즈를 결정할 수 있다.
구체적으로, 맵 형성부(130)는 얼굴 모델을 현재 키 프레임의 카메라 위치에 투영시키고, 투영정보를 기반으로 키 프레임의 각 픽셀들 간의 기하학적 유사도를 판단하고, 키 프레임의 픽셀과 레퍼런스 픽셀 간의 컬러 유사도를 기반으로 패치 사이즈를 결정할 수 있다. 예컨대 얼굴에서 볼 부분과 같이 픽셀 간의 컬러 유사도가 높은 부분은 큰 패치 사이즈를 이용한다. 패치 사이즈가 클수록 맵 형성 정확도는 높아지지만 속도는 느려지게 된다. 본 실시 예에 따르면, 객체 영역의 특성에 맞게 적절한 패치 사이즈가 결정될 수 있다는 장점이 있다.
그리고, 맵 형성부(130)는 키 프레임과 레퍼런스 프레임을 비교하여 깊이 정보 추출할 수 있다. 이 경우, 레퍼런스 프레임은 하나만 이용할 수도 있고, 누적된 여러장을 사용할 수도 있다.
키 프레임의 깊이 정보는, 키 프레임의 픽셀 x와 레퍼런스 프레임의 테스팅 픽셀 x' 간의 컬러 유사성을 측정함으로써 추출될 수 있다. 예컨대, 깊이 정보는 멀티 뷰 기반 접근 방식을 사용하여 추출되며, 키 프레임과 가까운 모든 프레임이 레퍼런스 프레임(IR)으로 이용된다. 모든 복셀(voxel)에 대한 비용(E)은 하기 수학식 3을 이용하여 계산될 수 있다.
[수학식 3]
Figure 112020085254167-pat00003
여기서, E는 모든 복셀(voxel)에 대한 비용이고, Ed는 키 프레임과 레퍼런스 프레임 간의 포토메트릭 에러(photometric error)를 측정하는 데이터 항(data term)이고, 구체적으로는 색상의 차이가 될 수 있다. ES는 복셀과 x가 속하는 M 내에서 삼각형 간의 거리를 측정하는 형태 에러(shape error)이다. 그리고 γ는 ES에 대한 상수이다. 그리고 EC는 레퍼런스 이미지에서 x’의 분산(variance)을 측정하는 일관성 항(consistency term)이다. 그리고 δ는 EC에 대한 상수이다.
컨텐츠 생성부(140)는 맵 생성부(130)에서 생성된 깊이 맵과 복수의 이미지를 이용하여 객체에 대한 3차원 컨텐츠를 생성할 수 있다. 이 경우, 깊이 맵은 입력된 이미지 모두 또는 일부에 대하여 생성될 수 있다. 2 이상의 이미지에 대하여 깊이 맵에 생성된 경우, 컨텐츠 생성부(140)는 2 이상의 이미지에 대한 깊이 맵을 누적시킴으로써 3차원 컨텐츠를 생성할 수 있다.
특히, 컨텐츠 생성부(140)는 추출된 특징점의 3차원 위치 정보에 기초하여, 객체의 부피를 추정하여 레졸루션을 결정할 수 있다. 구체적으로, 갱신된 얼굴 모델의 크기 및 키 프레임에 대한 깊이 맵의 평균 깊이 정보를 이용하여 대략적인 객체의 부피를 예측할 수 있다.
그리고, 컨텐츠 생성부(140)는 추정된 부피를 기준으로 3차원 컨텐츠를 생성할 수 있다. 따라서, 객체가 아닌 영역에 소모되는 리소스를 없앨 수 있으므로 형상 복원의 속도와 정밀도가 높아질 수 있다.
컨텐츠 생성부(140)는 각 키 프레임에 대하여 생성된 깊이 맵을 누적시킴으로써 객체의 표면을 복원할 수 있다. 예컨대, 공지의 기술인 TSDF(truncated signed distance function)기술이 이용될 수 있다. 그리고, 컨텐츠 생성부(140)는 마칭큐브(marching cube) 알고리즘을 이용하여 누적된 볼륨에서 표면을 추출하고, 포아송 메쉬 최적화(Poisson mesh optimization)를 통하여 워터 타이트(watertight)모델을 생성함으로써, 객체의 형상을 복원할 수 있다. 도 3에 본 발명의 일 실시 예에 따라 복원된 형상(30)을 도시하였다.
이후, 컨텐츠 생성부(140)는 텍스쳐 복원(texture reconstruction)을 수행하여 객체에 대한 3차원 컨텐츠를 생성할 수 있다. 텍스쳐 복원이란, 복원된 형상에 색깔을 입히는 과정을 의미한다.
텍스쳐 복원을 하는 경우, 외부적, 내재적 요인들로 인해 텍스쳐 조정 불량(Texture misalignment)이 발생하거나, 텍스쳐 컬러 차이 문제가 발생할 수 있다. 예컨대, 객체가 인간의 머리인 경우, 촬상하는 동안 동공 위치 변화, 눈 깜빡임, 입 움직임 등과 같이 움직임이 발생할 수 있고, 따라서 여러 개의 이미지에 기초하여 눈, 입 등의 텍스쳐를 복원하게 되면 눈, 입과 같은 부분에 부자연스러움이 발생할 수 있다.
따라서 이러한 문제를 줄이기 위해, 본 발명의 일 실시 예에 따르면, 컨텐츠 생성부(140)는 검출된 얼굴 특징점의 배치 형태 및 이미지의 촬상 위치 중 적어도 하나에 기초하여 복수의 이미지 중 하나의 이미지를 선택하고, 선택된 이미지로 눈썹 영역, 눈 영역, 코 영역 및 입 영역 중 적어도 하나의 텍스쳐를 복원하여 객체에 대한 3차원 컨텐츠를 생성할 수 있다.
따라서, 눈썹 영역, 눈 영역, 코 영역 또는 입 영역과 같이 움직임이 발생하기 쉬운 얼굴 특징 부분에선 입력된 복수의 이미지 중에서, 가장 얼굴이 잘 표현된 하나의 이미지만으로 텍스쳐 복원을 수행되므로, 완성된 3D 컨텐츠에서 부자연스러움이 방지될 수 있다.
이 경우, 눈썹 영역, 눈 영역, 코 영역 또는 입 영역으로 정의되는 영역이 상기와 같이 선택된 하나의 이미지에 기초하여 텍스처가 복원될 수도 있으나, 더 자연스러운 텍스쳐 표현을 위해 2 이상의 이미지에 기초하여 복원될 수도 있다. 예컨대, 눈썹 영역, 눈 영역, 코 영역 또는 입 영역 가장자리 근처에선 상기와 같이 선택된 하나의 이미지와 함께 다른 이미지를 조합하여 텍스쳐 복원이 이루어질 수도 있다.
한편, 컨텐츠 생성부(140)는 눈 영역, 코 영역 또는 입 영역 등과 같은 영역 이외의 나머지 부분에 대해선 검출된 얼굴 특징점의 배치 형태 및 추정된 촬상 위치 중 적어도 하나에 기초하여 입력된 복수의 이미지 중 적어도 2개의 이미지를 선택하여 선택된 이미지들의 조합으로 텍스쳐를 복원할 수 있다.
구체적으로, 컨텐츠 생성부(140)는 얼굴이 보이게 촬상한 이미지들에서 획득된 컬러에 가중된 평균을 취하여 눈 영역, 코 영역 또는 입 영역 등과 같은 영역 이외의 나머지 부분에 대한 텍스쳐를 복원할 수 있다.
본 실시 예에 대해선 도 4 및 도 5를 참고하여 더 자세히 설명하도록 한다.
도 4는 본 발명의 일 실시 예에 따른 텍스쳐 복원 방법을 설명하기 위한 도면이다. 객체인 사람 머리(40)가 있고, 이를 중심으로 카메라가 객체를 촬상한다. 도 4는 여러 대의 카메라가 아닌 하나의 카메라를 돌려가며 촬상한 것을 나타낸 것이다. 도 4에서 C1, C2, C3 위치가 얼굴 쪽에서 보이는 카메라(visible cameras, Ψ)의 위치에 해당한다. 그리고 C4, C5 위치가 얼굴 쪽에서 보이지 않는 카메라 위치에 해당한다.
카메라가 C1위치에서 찍은 이미지가, 얼굴을 가장 잘 나타낸 이미지일 것이므로, 컨텐츠 형성부(140)는 C1 위치에서 찍은 이미지를 선택하고, 선택된 이미지로 눈썹 영역, 눈 영역, 코 영역 및 입 영역의 텍스쳐로 복원할 수 있다. 이 이미지를 베스트 이미지라 명명하도록 한다.
이 경우, 컨텐츠 생성부(140)는 검출부(120)에서 얼굴 모델을 적용하여 검출한 얼굴 특징점을 기초로, 다음과 같은 방식으로 베스트 이미지를 선택할 수 있다.
컨텐츠 생성부(140)는 도 5에 도시된 것과 같은 얼굴의 눈썹 영역, 눈 영역, 코 영역 및 입 영역을 하나의 이미지의 텍스쳐로만 복원할 영역, 즉 미 혼합 영역(unblended area, Φ)으로 지정한다.
그리고, 다음과 같은 수학식 4로 정의되는 비용 함수(F) 값이 최대가 되는 이미지를 선택한다.
[수학식 4]
Figure 112020085254167-pat00004
F는 비용함수이고, ffrontal 에 대해선 도 6a을 참고하면, 정면 얼굴 방향에 대한 요소이고, feyeOpen 에 대해선 도 6b를 참고하면, 눈이 열린 정도(61)에 대한 요소이고, feyeCenter 에 대해선 도 6c를 참고하면, 눈 영역에서의 동공 위치(62) 즉, 시선 위치에 대한 요소이고, fmouthOpen 에 대해선 도 6d를 참고하면, 입이 벌어진 정도(63)에 관련된 요소이고, ffacialExpression 에 대해선 도 6e를 참고하면, 얼굴 표정에 대한 요소이다. 표정이 무표정(64)일수록 점수가 높다. 그리고 a, b, c, d, e 각각은 가중치 부여 요소이다.
정리하자면, 정면을 바라볼수록, 눈이 열린 정도가 클수록(눈이 크게 떠졌을수록), 눈동자가 가운데 있을수록, 입이 벌어진 정도가 작을수록(입이 다물어질수록), 표정이 무표정일수록 점수가 높아 베스트 이미지로 선택될 수 있다.
도 5에 도시된 것처럼 미 혼합 영역(unblended area, Φ)일 경우, 베스트 이미지와 동일한 텍스쳐로 복원된다. 미 혼합 영역(unblended area, Φ)이 아닌 경우엔 촬상한 이미지들에서 획득된 컬러에 가중된 평균을 취하여 텍스쳐를 복원한다.
그리고, 컨텐츠 생성부(140)는 홀 복원(Hole filling)을 위한 알고리즘을 수행하여 텍스쳐 맵에서 색상이 할당되지 않은 영역에 컬러를 복원하는 단계를 추가로 수행할 수 있다.
이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 하드웨어적인 구현에 의하면, 본 발명에서 설명되는 실시 예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다. 예컨대, 상술한 검출부(120), 맵 형성부(130), 컨텐츠 생성부(140), 위치 추정부가 수행하는 기능은 3차원 컨텐츠 생성 장치(100)의 CPU 및/또는 GPU로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.
상술한 다양한 실시 예들에 따른 3차원 컨텐츠 생성 장치(100)의 기능들을 크게 두 개의 모듈로 나눈 수 있고, 이는 도 7에 도시된 바와 같다.
도 7은 본 발명의 일 실시 예에 따라 컨텐츠 생성 장치(100)에서 수행되는 데이터 처리의 각 파이프라인 단계를 설명하기 위한 도면이다.
도 7을 참고하면, 파이프라인은 라이브 모듈(Live-module)과 포스트 모듈(post module)과 같이 두 개의 파트로 구성된다. 라이브 모듈은 촬상된 이미지가 입력되는 동안 실시간 데이터 처리를 수행하고, 테스크 (A)와 테스크 (B)를 병렬적으로 수행한다. 테스크 (A)는 상술한 얼굴 특징점 검출 동작 등을 포함하고, 테스크 (B)는 상술한 깊이 맵 형성 동작 등을 포함한다. 그리고, 포스트 모듈은 (C) 파트와 (D) 파트로 구성되고, 촬상이 종료된 후에 형상 복원(C) 및 텍스쳐 복원(D)를 수행한다.
도 8은 본 발명의 일 실시 예에 따른 3차원 컨텐츠 생성방법을 설명하기 위한 흐름도이다.
도 8을 참고하면, 먼저, 3차원 컨텐츠 생성 장치(100)는 서로 다른 위치에서 객체를 촬상한 복수의 이미지를 입력받는다(S810). 이 경우, 복수의 이미지는 동영상으로 객체를 촬상한 것의 각 프레임을 의미할 수 있고, 연사 촬영된 각각의 정지 영상을 의미하는 것일 수 있다. 또한, 복수의 이미지가 한꺼번에 입력될 수도 있고, 이후 수행될 각 단계들이 완료된 후에 하나씩 차례로 입력되는 형태로 구현될 수도 있다. 3차원 컨텐츠 생성 장치(100) 외부 카메라로부터 이미지를 입력받거나, 직접 카메라를 내장한 장치일 수 있다. 이 경우, 카메라는 단안 카메라일 수 있다.
그리고, 3차원 컨텐츠 생성 장치(100)는 입력된 복수의 이미지 각각에서 기 설정된 특징점(feature point)을 검출한다(S820). 객체가 인간의 머리인 경우, 3차원 컨텐츠 생성 장치(100)는 임의의 인간의 얼굴에 대하여 학습된 얼굴 모델을 복수의 이미지 각각에 적용하여 얼굴 특징점을 검출할 수 있다. 이 경우, AAM 또는 ASM을 이용하는 알고리즘이 사용될 수 있다.
한편, 3차원 컨텐츠 생성 장치(100)는 검출된 얼굴 특징점을 이용하여 얼굴 모델을 갱신할 수 있다. 즉, 얼굴 모델 학습이 실시간으로 이루어질 수 있다. 그리고 3차원 컨텐츠 생성 장치(100)는 얼굴 모델 갱신 이후에 입력되는 이미지에 갱신된 얼굴 모델을 적용하여 얼굴 특징점을 검출할 수 있다.
한편, 3차원 컨텐츠 생성 장치(100)는 추출된 특징점의 3차원 위치 정보에 기초하여, 복수의 이미지 각각의 촬상 위치를 추정할 수 있다. 추정된 촬상 위치는 3차원 컨텐츠를 생성하는데 이용된다.
그리고, 3차원 컨텐츠 생성 장치(100)는 검출된 특징점의 3차원 위치 정보를 추출하고, 추출된 특징점의 3차원 위치 정보를 기준으로, 객체 표면의 깊이 맵(depth map)을 형성한다(S830).
*이 경우, 3차원 컨텐츠 생성 장치(100)는 검출된 특징점에 기초하여 복수의 이미지 중 깊이 정보를 추출할 이미지를 선택하고, 선택된 이미지로부터 추출된 깊이정보로 깊이 맵을 형성할 수 있다. 여기서 깊이 정보를 추출할 이미지는 키 프레임으로 명명될 수 있다. 구체적으로, 검출된 특징점에 기초하였을 때, 특징적인 굴곡이 많은 얼굴에 해당하는 것으로 판단된 이미지들은 키 프레임으로서 비교적 많이 선택하고, 검출된 특징점에 기초하였을 때, 특징적인 굴곡이 거의 없는 머리 뒤쪽에 해당하는 것으로 판단된 이미지들은 키 프레임으로서 비교적 적게 선택할 수 있다. 예컨대, 키 프레임으로 선택될 이미지 개수가 기 설정된 개수로 정해진 경우라면, 본 실시 예와 같이 영역별로 키 프레임 개수 분배를 통하여 보다 효율적으로, 형상을 복원할 수 있다.
한편, 3차원 컨텐츠 생성 장치(100)는 복수의 이미지 중 적어도 2 이상의 이미지 간의 템플릿 매칭(Template matching)을 통하여 깊이 맵을 형성할 수 있고, 적어도 2 이상의 이미지에서 추출된 특징점의 3차원 위치 정보에 기초하여, 템플릿 매칭을 위한 패치 사이즈(patch size)를 결정할 수 있다.
그리고, 3차원 컨텐츠 생성 장치(100)는 추출된 특징점의 3차원 위치 정보에 기초하여, 객체 표면의 깊이범위를 추정하고, 추정된 깊이 범위 내에서 깊이 맵을 형성할 수 있다.
이후, 3차원 컨텐츠 생성 장치(100)는 형성된 깊이 맵과 복수의 이미지를 이용하여 3차원 컨텐츠를 생성한다(S840). 이 단계에서 구체적으로, 형상 복원(Surface Reconstruction)과, 텍스쳐 복원(Texture mapping)이 수행된다.
형상 복원(Surface Reconstruction) 단계에서, 추출된 특징점의 3차원 위치 정보에 기초하여, 객체의 부피를 예측하고, 예측된 부피를 기준으로 형상을 복원할 수 있다. 구체적으로, 갱신된 얼굴 모델의 크기 및 키 프레임의 깊이 맵들의 평균 깊이 정보를 이용하여 대략적인 얼굴의 부피를 예측할 수 있고, 이에 근거하여 레졸루션이 결정될 수 있다. 따라서, 얼굴이 아닌 영역에 소모되는 리소스를 없애줌으로써 속도와 정밀도가 높아질 수 있다.
그리고, 각 키 프레임들의 깊이 맵을 누적시켜 표면을 복원하며, 누적된 볼륨에서 표면을 추출(marching cube)하고, 워터타이트(watertight) 모델을 생성(Poisson mesh optimization)하여, 최종적인 형상을 추출할 수 있다.
그리고, 텍스쳐 복원 단계에서, 3차원 컨텐츠 생성 장치(100)는 검출된 얼굴 특징점의 배치 형태에 기초하여 복수의 이미지 중 하나의 이미지를 베스트 이미지로 선택할 수 있다. 베스트 이미지란 얼굴이 가장 잘 나타난 이미지로서, 정면을 바라볼수록, 눈이 크게 떠졌을수록, 눈동자가 가운데 있을수록, 입이 다물어질수록, 표정이 무표정일수록 베스트 이미지로 선택될 수 있다.
그리고 3차원 컨텐츠 생성 장치(100)는 선택된 베스트 이미지로 눈썹 영역, 눈 영역, 코 영역 및 입 영역 중 적어도 하나의 텍스쳐(texture)를 복원할 수 있다. 그리고 나머지 영역은 얼굴을 촬상한 이미지들(visible camera들에서 획득된 이미지)의 컬러를 가중된 평균(weighted average)를 취하여 복원된 형상에 입힌다.
도 8을 통해 설명한 것 이외에도, 도 1 내지 도 7에서 설명한 내용이 추가되어 다양한 실시 예가 도출될 수 있으므로, 이에 대해 반복설명은 하지 않는다.
상술한 다양한 실시 예에 따른, 3차원 컨텐츠 생성 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램으로 구현될 수 있고, 상기 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다. 이러한 비일시적 판독 가능 매체는 다양한 장치에 탑재되어 사용될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 방법을 수행하기 위한 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다. 이에 따라, 상술한 프로그램이 기존의 장치에 설치되어, 3차원 컨텐츠 생성 동작을 수행함으로써 3차원 컨텐츠를 생성할 수 있는 장치가 구현될 수 있다.
상술한 다양한 실시 예에 따르면, 단안 컬러 카메라를 이용하여 모바일에서 프린팅 가능한 3D 얼굴 모델을 매우 빠른 속도로 생성할 수 있다. 그리고, 특징점이 부족한 얼굴에서 안정적인 3D 모델링을 수행할 수 있다.
또한, 카메라를 이동하는 번거로운 작업 없이 SLAM초기화를 완료할 수 있으므로, 사용자의 편의가 향상될 수 있다. 기존의 SLAM 기반 모델링 기술들은 이미지간의 photometric 에러만을 이용하는 알고리즘으로 기본 프레임을 유지하는 개선만으로는 얼굴 모델에 특화시키기 어려웠다. 그러나, 본 발명에 제시된 알고리즘은, 공간을 이해하기 위해 기존의 3D 이론뿐 아니라 2D 인식 및 머신 러닝을 축으로 발전해온 또 다른 기술 분야를 융합하여 얼굴 모델링의 어려움을 해결할 수 있다.
이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어 져서는 안 될 것이다.
110: 입력부 120: 검출부
130: 맵 형성부 140: 컨텐츠 생성부
100: 3차원 컨텐츠 생성 장치

Claims (16)

  1. 전자 장치에 있어서,
    적어도 하나의 인스트럭션(instruction)을 저장하는 메모리;
    상기 적어도 하나의 인스트럭션을 실행하는 프로세서;를 포함하고,
    상기 프로세서는,
    객체를 촬상한 복수의 이미지를 획득하고,
    학습된 인공지능 모델에 기초하여 상기 복수의 이미지 각각으로부터 상기 객체의 적어도 하나의 특징점을 획득하고,
    상기 학습된 인공지능 모델에 기초하여 상기 획득된 적어도 하나의 특징점의 3차원 위치 정보를 획득하고,
    상기 획득된 3차원 위치 정보에 기초하여 상기 객체의 표면에 관한 깊이 맵(depth map)을 획득하고,
    상기 획득된 3차원 위치 정보에 기초하여 상기 복수의 이미지 각각이 촬상된 복수의 촬상 위치를 결정하고,
    상기 복수의 촬상 위치, 상기 깊이 맵 및 상기 복수의 이미지 중 적어도 하나의 이미지에 기초하여 상기 객체의 3차원 컨텐츠를 획득하는 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 복수의 이미지, 상기 획득된 적어도 하나의 특징점 및 상기 결정된 복수의 촬상 위치 중 적어도 하나에 기초하여 상기 학습된 인공지능 모델을 업데이트하고,
    상기 업데이트된 인공지능 모델에 기초하여 이후에 입력되는 이미지에서 적어도 하나의 특징점을 획득하는 전자 장치.
  3. 제1항에 있어서,
    상기 프로세서는,
    상기 획득된 적어도 하나의 특징점의 배치 형태 및 상기 결정된 복수의 촬상 위치에 기초하여 상기 복수의 이미지 중 하나의 이미지를 선택하고, 상기 선택된 이미지에 기초하여 상기 객체의 적어도 하나의 기설정된 부분의 텍스처(texture)를 복원하여 3차원 컨텐츠를 생성하는 전자 장치.
  4. 제3항에 있어서,
    상기 프로세서는,
    상기 적어도 하나의 특징점의 배치 형태 및 상기 결정된 복수의 촬상 위치에 기초하여 상기 복수의 이미지 중 적어도 2 이미지를 선택하고, 상기 적어도 2 이미지에 기초하여 상기 기설정된 부분 이외의 부분의 텍스쳐를 복원하여 3차원 컨텐츠를 획득하는 전자 장치.
  5. 제1항에 있어서,
    상기 프로세서는,
    상기 획득된 적어도 하나의 특징점의 분포 및 상기 결정된 복수의 촬상 위치 중 적어도 하나에 기초하여 상기 복수의 이미지 중 하나의 이미지를 선택하고,
    상기 선택된 이미지로부터 추출된 깊이 정보에 기초하여 상기 깊이 맵을 획득하고,
    상기 프로세서는,
    복셀 큐브(voxel cube)의 부피를 판단하고,
    학습된 객체의 모델에 기초하여 상기 복셀 큐브를 회전하고,
    상기 객체의 적어도 하나의 기설정된 부분에 상기 기설정된 부분 이외에 부분보다 높은 해상도를 적용하고,
    상기 복셀 큐브의 부피는 상기 객체보다 크거나 같은 것을 특징으로 하는 전자 장치.
  6. 제1항에 있어서,
    상기 프로세서는,
    상기 복수의 이미지 중 적어도 2 이상의 이미지간의 스테레오 프로세싱(Stereo processing)을 통하여 깊이 맵을 획득하며,
    상기 적어도 2 이상의 이미지에서 획득된 적어도 하나의 특징점의 3차원 위치 정보 및 상기 적어도 2 이상의 이미지를 촬상한 복수의 촬상 위치 중 적어도 하나에 기초하여, 상기 스테레오 프로세싱을 위한 패치 사이즈(patch size)를 결정하는 전자 장치.
  7. 제1항에 있어서,
    상기 프로세서는,
    상기 획득된 적어도 하나의 특징점의 3차원 위치 정보에 기초하여 상기 객체의 표면의 깊이 범위를 결정하고, 상기 결정된 깊이 범위에 기초하여 상기 깊이 맵을 획득하는 전자 장치.
  8. 제1항에 있어서,
    상기 프로세서는,
    상기 적어도 하나의 특징점의 3차원 위치 정보에 기초하여 상기 객체의 부피를 결정하고, 상기 결정된 부피에 기초하여 3차원 컨텐츠를 획득하는 전자 장치.
  9. 제1항에 있어서,
    상기 복수의 이미지는,
    상기 객체를 상기 복수의 촬상 위치에서 단안 카메라(monocular camera)를 이용하여 촬상하여 획득된 것을 특징으로 하는 전자 장치.
  10. 3차원 컨텐츠 획득 방법에 있어서,
    객체를 촬상한 복수의 이미지를 획득하는 단계;
    학습된 인공지능 모델에 기초하여 상기 복수의 이미지 각각으로부터 상기 객체의 적어도 하나의 특징점을 획득하는 단계;
    상기 학습된 인공지능 모델에 기초하여 상기 획득된 적어도 하나의 특징점의 3차원 위치 정보를 획득하는 단계;
    상기 획득된 3차원 위치 정보에 기초하여 상기 객체의 표면에 관한 깊이 맵을 획득하는 단계;
    상기 3차원 위치 정보에 기초하여 상기 복수의 이미지 각각이 촬상된 복수의 촬상 위치를 결정하는 단계:
    상기 복수의 촬상 위치, 상기 깊이 맵 및 상기 복수의 이미지 중 적어도 하나의 이미지에 기초하여 상기 객체의 3차원 컨텐츠를 획득하는 단계;를 포함하는 3차원 컨텐츠 획득 방법.
  11. 제10항에 있어서,
    상기 객체의 적어도 하나의 특징점을 획득하는 단계는,
    상기 복수의 이미지, 상기 획득된 적어도 하나의 특징점 및 상기 결정된 복수의 촬상 위치 중 적어도 하나에 기초하여 상기 학습된 인공지능 모델을 업데이트하는 단계; 및
    상기 업데이트된 인공지능 모델에 기초하여 이후에 입력되는 이미지에서 적어도 하나의 특징점을 획득하는 단계;를 포함하는 3차원 컨텐츠 획득 방법.
  12. 제10항에 있어서,
    상기 객체의 3차원 컨텐츠를 획득하는 단계는,
    상기 획득된 적어도 하나의 특징점의 배치 형태 및 상기 결정된 복수의 촬상 위치에 기초하여 상기 복수의 이미지 중 하나의 이미지를 선택하고, 상기 선택된 이미지에 기초하여 상기 객체의 적어도 하나의 기설정된 부분의 텍스처를 복원하여 3차원 컨텐츠를 획득하는 단계;를 포함하는 3차원 컨텐츠 획득 방법.
  13. 제12항에 있어서,
    상기 객체의 3차원 컨텐츠를 획득하는 단계는,
    상기 적어도 하나의 특징점의 배치 형태 및 상기 결정된 복수의 촬상 위치에 기초하여 상기 복수의 이미지 중 적어도 2 이미지를 선택하고, 상기 적어도 2 이미지에 기초하여 상기 기설정된 부분 이외의 부분의 텍스쳐를 복원하는 단계;를 포함하는 3차원 컨텐츠 획득 방법.
  14. 제10항에 있어서,
    상기 깊이 맵을 획득하는 단계는,
    상기 획득된 적어도 하나의 특징점의 분포 및 상기 결정된 복수의 촬상 위치 중 적어도 하나에 기초하여 상기 복수의 이미지 중 하나의 이미지를 선택하는 단계;
    상기 선택된 이미지로부터 추출된 깊이 정보에 기초하여 상기 깊이 맵을 획득하는 단계;
    복셀 큐브(voxel cube)의 부피를 판단하는 단계;
    학습된 객체의 모델에 기초하여 상기 복셀 큐브를 회전하는 단계; 및
    상기 객체의 적어도 하나의 기설정된 부분에 상기 기설정된 부분 이외에 부분보다 높은 해상도를 적용하는 단계;를 포함하고,
    상기 복셀 큐브의 부피는 상기 객체보다 크거나 같은 것을 특징으로 하는 3차원 컨텐츠 획득 방법.
  15. 제10항에 있어서,
    상기 깊이 맵을 획득하는 단계는,
    상기 복수의 이미지 중 적어도 2 이상의 이미지간의 스테레오 프로세싱(Stereo processing)을 통하여 깊이 맵을 획득하는 단계; 및
    상기 적어도 2 이상의 이미지에서 획득된 적어도 하나의 특징점의 3차원 위치 정보 및 상기 적어도 2 이상의 이미지를 촬상한 복수의 촬상 위치 중 적어도 하나에 기초하여, 상기 스테레오 프로세싱을 위한 패치 사이즈(patch size)를 결정하는 단계;를 포함하는 3차원 컨텐츠 획득 방법.
  16. 3차원 컨텐츠 획득 방법을 수행하기 위한 프로그램이 저장되는 기록 매체에 있어서,
    상기 3차원 컨텐츠 획득 방법은,
    객체를 촬상한 복수의 이미지를 획득하는 단계;
    학습된 인공지능 모델에 기초하여 상기 복수의 이미지 각각으로부터 상기 객체의 적어도 하나의 특징점을 획득하는 단계;
    상기 학습된 인공지능 모델에 기초하여 상기 획득된 적어도 하나의 특징점의 3차원 위치 정보를 획득하는 단계;
    상기 획득된 3차원 위치 정보에 기초하여 상기 객체의 표면에 관한 깊이 맵을 획득하는 단계;
    상기 3차원 위치 정보에 기초하여 상기 복수의 이미지 각각이 촬상된 복수의 촬상 위치를 결정하는 단계:
    상기 복수의 촬상 위치, 상기 깊이 맵 및 상기 복수의 이미지 중 적어도 하나의 이미지에 기초하여 상기 객체의 3차원 컨텐츠를 획득하는 단계;를 포함하는 기록매체.
KR1020200101686A 2020-08-13 2020-08-13 3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법 KR102187143B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200101686A KR102187143B1 (ko) 2020-08-13 2020-08-13 3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200101686A KR102187143B1 (ko) 2020-08-13 2020-08-13 3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020150100077A Division KR102146398B1 (ko) 2015-07-14 2015-07-14 3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법

Publications (2)

Publication Number Publication Date
KR20200100020A KR20200100020A (ko) 2020-08-25
KR102187143B1 true KR102187143B1 (ko) 2020-12-04

Family

ID=72292833

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200101686A KR102187143B1 (ko) 2020-08-13 2020-08-13 3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법

Country Status (1)

Country Link
KR (1) KR102187143B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240021383A (ko) 2022-08-10 2024-02-19 동국대학교 산학협력단 2차원 전신 신체 이미지로부터 관절의 위치를 도출하여 탈의한 신체이미지를 예측하는 방법 및 시스템
KR20240021382A (ko) 2022-08-10 2024-02-19 동국대학교 산학협력단 2차원 신체 이미지로부터 노말맵과 깊이맵 및 카메라 파라미터를 추론하여 3차원 인체 모델을 복원하는 방법 및 시스템

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102583675B1 (ko) * 2021-04-20 2023-09-27 아주대학교산학협력단 이미지 분류 방법 및 시스템
JP2023104131A (ja) * 2022-01-17 2023-07-28 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
CN115100380B (zh) * 2022-06-17 2024-03-26 上海新眼光医疗器械股份有限公司 基于眼部体表特征点的医学影像自动识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150009207A1 (en) 2013-07-08 2015-01-08 Qualcomm Incorporated Systems and methods for producing a three-dimensional face model
US20150049169A1 (en) 2013-08-15 2015-02-19 Scott Krig Hybrid depth sensing pipeline

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100682889B1 (ko) * 2003-08-29 2007-02-15 삼성전자주식회사 영상에 기반한 사실감 있는 3차원 얼굴 모델링 방법 및 장치
KR20140137564A (ko) * 2013-05-23 2014-12-03 경북대학교 산학협력단 인물 추적용 3차원 이미지 센싱 시스템 및 그 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150009207A1 (en) 2013-07-08 2015-01-08 Qualcomm Incorporated Systems and methods for producing a three-dimensional face model
US20150049169A1 (en) 2013-08-15 2015-02-19 Scott Krig Hybrid depth sensing pipeline

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240021383A (ko) 2022-08-10 2024-02-19 동국대학교 산학협력단 2차원 전신 신체 이미지로부터 관절의 위치를 도출하여 탈의한 신체이미지를 예측하는 방법 및 시스템
KR20240021382A (ko) 2022-08-10 2024-02-19 동국대학교 산학협력단 2차원 신체 이미지로부터 노말맵과 깊이맵 및 카메라 파라미터를 추론하여 3차원 인체 모델을 복원하는 방법 및 시스템

Also Published As

Publication number Publication date
KR20200100020A (ko) 2020-08-25

Similar Documents

Publication Publication Date Title
KR102146398B1 (ko) 3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법
KR102187143B1 (ko) 3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법
US11514593B2 (en) Method and device for image processing
RU2358319C2 (ru) Способ и устройство для фотореалистического трехмерного моделирования лица на основе изображения
US7835568B2 (en) Method and apparatus for image-based photorealistic 3D face modeling
US10878549B2 (en) Image generation device, image generation method, and storage medium storing program
Wechsler Reliable Face Recognition Methods: System Design, Impementation and Evaluation
JP6685827B2 (ja) 画像処理装置、画像処理方法及びプログラム
AU2019291441A1 (en) Object modeling and movement method and apparatus, and device
KR101560508B1 (ko) 3차원 이미지 모델 조정을 위한 방법 및 장치
Muratov et al. 3DCapture: 3D Reconstruction for a Smartphone
JP2023545200A (ja) パラメータ推定モデルの訓練方法、パラメータ推定モデルの訓練装置、デバイスおよび記憶媒体
CN109937434B (zh) 图像处理方法、装置、终端和存储介质
CN113628327A (zh) 一种头部三维重建方法及设备
KR20170092533A (ko) 얼굴 포즈 교정 방법 및 장치
Galteri et al. Deep 3d morphable model refinement via progressive growing of conditional generative adversarial networks
CN114373043A (zh) 一种头部三维重建方法及设备
KR102422822B1 (ko) 경쟁적 학습을 이용한 3차원 얼굴 이미지 합성 장치 및 방법
Schumacher et al. Hallucination of facial details from degraded images using 3D face models
KR20230046802A (ko) 뉴럴 네트워크(Neural Network)에 기초한 영상 처리 방법 및 영상 처리 장치
CN116597079A (zh) 三维虚拟人脸的生成方法及装置和电子设备
Limonov et al. Human face 3D reconstruction with handheld single 2D camera on mobile devices

Legal Events

Date Code Title Description
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant