KR20240079660A - 단안 컬러 이미지 기반의 실시간 3d 휴먼 객체 복원 장치 및 방법 - Google Patents

단안 컬러 이미지 기반의 실시간 3d 휴먼 객체 복원 장치 및 방법 Download PDF

Info

Publication number
KR20240079660A
KR20240079660A KR1020220162779A KR20220162779A KR20240079660A KR 20240079660 A KR20240079660 A KR 20240079660A KR 1020220162779 A KR1020220162779 A KR 1020220162779A KR 20220162779 A KR20220162779 A KR 20220162779A KR 20240079660 A KR20240079660 A KR 20240079660A
Authority
KR
South Korea
Prior art keywords
human object
ray
point
features
pixel
Prior art date
Application number
KR1020220162779A
Other languages
English (en)
Inventor
박민규
강주미
윤주홍
김제우
권용훈
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Priority to KR1020220162779A priority Critical patent/KR20240079660A/ko
Priority to PCT/KR2022/020187 priority patent/WO2024117356A1/ko
Publication of KR20240079660A publication Critical patent/KR20240079660A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • G06T5/75Unsharp masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/15Processing image signals for colour aspects of image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

단안 컬러 이미지 기반의 실시간 3D 휴먼 객체 복원 장치 및 방법이 제공된다. 본 발명의 실시예에 따른 3D 휴먼 객체 복원 장치는, 단안 이미지로부터 픽셀-얼라인드 특징을 추출하고, 픽셀-얼라인드 특징으로부터 레이-불변 특징을 추출하며, 포인트의 위치 정보를 인코딩하여 인코딩된 위치 정보를 생성하고, 추출된 레이-불변 특징과 인코딩된 위치 정보로부터 포인트의 SD를 예측하며, 예측된 SD를 이용하여 3D 휴먼 객체를 복원한다. 이에 의해, 픽셀-얼라인드 특징으로부터 추출한 레이-불변 특징과 인코딩된 위치 정보를 이용하여, 3D 공간 포인트들의 SD 예측을 위한 연산량을 획기적으로 줄여 속도를 비약적으로 향상시킬 수 있다.

Description

단안 컬러 이미지 기반의 실시간 3D 휴먼 객체 복원 장치 및 방법{Apparatus and method for real-time 3D human object restoration based on monocular color image}
본 발명은 딥러닝 기반의 3D 복원 기술에 관한 것으로, 더욱 상세하게는 딥러닝 기반으로 단안 컬러 이미지로부터 실시간으로 3D 휴먼 객체(인체 형상)를 복원하는 방법 및 장치에 관한 것이다.
단안 컬러 이미지를 이용하여 3D 휴먼 객체를 복원하는 방법으로, 1) 깊이 영상을 예측하는 방법, 2) 객체가 포함된 3차원 공간 전체를 예측하는 방법, 그리고 3) 딥러닝 기반의 음함수(deep implicit function)를 학습시켜 예측하는 방법이 있다.
하지만 깊이 영상을 예측하는 방법은 self-occlusion 영역, 이를 테면 자신의 팔로 자신의 몸을 가리는 경우에 대해 복원이 불가능하다는 문제가 있으며, 수행 속도는 빠르지만 학습을 위해 많은 데이터가 필요하다는 단점이 있다.
그리고 3차원 공간 전체를 예측하는 방법은 메모리 사용량이 크고 연산량이 많아 실행 속도가 느리다는 문제가 있다.
한편 딥러닝 기반의 음함수를 학습시켜 예측하는 방법은 학습이 효율적이고 정확도가 높다는 장점이 있지만, 연산 시간이 너무 많이 걸린다는 문제가 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 딥러닝 기반의 음함수를 이용하는 방식으로 단안 컬러 이미지로부터 3D 휴먼 객체를 복원함에 있어, 연산량을 줄여 실시간으로 복원이 가능하도록 하는 장치 및 방법을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 3D 휴먼 객체 복원 장치는 단안 이미지로부터 픽셀-얼라인드 특징(pixel-aligned feature)을 추출하는 특징 추출부; 3D 공간 상의 포인트들을 하나씩 순차적으로 지시하는 포인터; 픽셀-얼라인드 특징으로부터 레이-불변 특징(ray-invariant feature)을 추출하는 특징 인코더; 포인터가 지시하는 포인트의 위치 정보를 인코딩하여, 인코딩된 위치 정보를 생성하는 위치 인코더; 추출된 레이-불변 특징과 인코딩된 위치 정보로부터 포인트의 SD(Signed Distance)를 예측하는 디코더; 및 예측된 SD를 이용하여 3D 휴먼 객체를 복원하는 복원부;를 포함한다.
레이-불변 특징은, 동일 레이 상에 있는 포인트들의 SD 예측에 공통적으로 사용될 수 있다.
픽셀-얼라인드 특징과 레이-불변 특징은, 픽셀 단위로 추출되고, 인코딩된 위치 정보는, 포인트 단위로 생성될 수 있다.
단안 이미지는, 단안 컬러 이미지이고, 디코더는, 추출된 레이-불변 특징과 인코딩된 위치 정보로부터 포인트의 SD와 컬러 정보를 예측하며, 복원부는, 복원된 3D 휴먼 객체에 컬러 정보를 적용하여 3D 컬러 휴먼 객체를 생성할 수 있다.
특징 추출부, 특징 인코더, 위치 인코더 및 디코더는, 딥러닝 네트워크로 구현되고, 특징 추출부, 특징 인코더, 위치 인코더 및 디코더의 학습을 위한 손실 함수는, SD 손실 함수와 SD 밀도 함수를 포함할 수 있다.
SD 밀도 함수는, 컬러 정보 예측 정확도를 향상시키기 위한 손실 함수일 수 있다.
본 발명에 따른 3D 휴먼 객체 복원 장치는 포인트의 SD를 추정하는 추정부;를 더 포함하고, 디코더는, 추출된 레이-불변 특징, 인코딩된 위치 정보 및 추정부에서 추정된 SD를 융합한 정보로부터 포인트의 SD를 예측할 수 있다.
추정부는, SMPL(Skinned Multi-Person Linear model)을 이용하여 단안 이미지로부터 포인트들의 SD들을 추정할 수 있다.
본 발명에 따른 3D 휴먼 객체 복원 장치는 단안 이미지로부터 휴먼 객체 부분을 추출하여 마스크를 생성하고, 포인터가 지정하는 포인트의 마스킹 정보를 출력하는 추출부;를 더 포함하고, 특징 인코더는, 픽셀-얼라인드 특징과 마스킹 정보를 융합한 정보로부터 레이-불변 특징을 추출할 수 있다.
본 발명의 다른 측면에 따르면, 단안 이미지로부터 픽셀-얼라인드 특징(pixel-aligned feature)을 추출하는 단계; 3D 공간 상의 포인트들을 하나씩 순차적으로 지시하는 단계; 픽셀-얼라인드 특징으로부터 레이-불변 특징(ray-invariant feature)을 추출하는 단계; 지시하는 포인트의 위치 정보를 인코딩하여, 인코딩된 위치 정보를 생성하는 위치 단계; 추출된 레이-불변 특징과 인코딩된 위치 정보로부터 포인트의 SD(Signed Distance)를 예측하는 단계; 및 예측된 SD를 이용하여 3D 휴먼 객체를 복원하는 단계;를 포함하는 것을 특징으로 하는 3D 휴먼 객체 복원 방법이 제공된다.
본 발명의 또다른 측면에 따르면, 단안 이미지로부터 추출된 픽셀-얼라인드 특징으로부터 레이-불변 특징(ray-invariant feature)을 추출하는 특징 인코더; 포인트의 위치 정보를 인코딩하여, 인코딩된 위치 정보를 생성하는 위치 인코더; 추출된 레이-불변 특징과 인코딩된 위치 정보로부터 포인트의 SD(Signed Distance)를 예측하는 디코더;를 포함하는 것을 특징으로 하는 3D 휴먼 객체의 SD 예측 장치가 제공된다.
본 발명의 또다른 측면에 따르면, 단안 이미지로부터 추출된 픽셀-얼라인드 특징으로부터 레이-불변 특징(ray-invariant feature)을 추출하는 단계; 포인트의 위치 정보를 인코딩하여, 인코딩된 위치 정보를 생성하는 단계; 추출된 레이-불변 특징과 인코딩된 위치 정보로부터 포인트의 SD(Signed Distance)를 예측하는 단계;를 포함하는 것을 특징으로 하는 3D 휴먼 객체의 SD 예측 방법이 제공된다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 픽셀-얼라인드 특징으로부터 추출한 레이-불변 특징과 인코딩된 위치 정보를 이용하여, 3D 공간 포인트들의 SD 예측을 위한 연산량을 획기적으로 줄여 속도를 비약적으로 향상시킬 수 있다.
또한 본 발명의 실시예들에 따르면, 픽셀-얼라인드 특징으로부터 3D 공간 포인트들의 SD와 함께 컬러 정보까지 예측할 수 있으며, 컬러 정보에 대한 손실 함수를 SD의 밀도 함수에 대한 손실 함수로 대체하여 컬러 정보에 대한 GT 없이도 컬러 정보 예측 정확도를 향상시킬 수 있게 된다.
도 1은 픽셀, 포인트, 레이의 개념 설명을 위한 도면,
도 2는 본 발명의 일 실시예에 따른 단안 컬러 이미지 기반의 실시간 3D 휴먼 객체 복원 장치의 구조를 도시한 도면,
도 3은, 도 2에 도시된 실시간 3D 휴먼 객체 복원 장치의 상세 구조를 도시한 도면,
도 4는 본 발명의 실시예에 따른 실시간 실시간 3D 인체 형상 복원 장치를 이용한 3D 휴먼 객체 복원 결과,
도 5는 본 발명의 다른 실시예에 따른 단안 컬러 이미지 기반의 실시간 3D 휴먼 객체 복원 장치의 구조를 도시한 도면,
도 6은 본 발명의 또 다른 실시예에 따른 단안 컬러 이미지 기반의 실시간 3D 휴먼 객체 복원 장치의 구조를 도시한 도면,
도 7은 본 발명의 또 다른 실시예에 따른 단안 컬러 이미지 기반의 실시간 3D 휴먼 객체 복원 장치의 구조를 도시한 도면이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
본 발명의 실시예에서는 딥러닝 기반의 음함수(deep implicit function)와 같은 SDF(Signed Distance Function)를 이용하여 단안 컬러(RGB) 이미지로부터 실시간으로 3D 휴먼 객체(인체 형상)를 복원할 수 있는 기술을 제시한다.
SDF는 3D 공간에서 객체 표면의 SD(Signed Distance, 부호화된 거리 정보)를 0으로 예측하는 함수이다. 따라서 SD가 0인 3D 공간 상의 포인트들을 모두 합치면 객체가 복원되므로, SDF는 3D 휴먼 객체 복원에 활용될 수 있다.
픽셀-얼라인드 특징(pixel-aligned feature)을 그대로 이용하여 포인트들에 대한 SD들을 예측하는 기존의 딥러닝 기반의 음함수와 달리, 본 발명의 실시예에서는 픽셀-얼라인드 특징을 한 번 더 인코딩하여 레이-불변 특징(ray-invariant feature)을 추출하여 동일 레이 상의 모든 포인트들의 SD 예측에 재사용함으로써 연산량을 줄여 속도를 향상킨다.
본 발명의 실시예에서 사용할 용어로 픽셀, 포인트, 레이의 개념을 도 1에 나타내었으며, 구체적인 정의는 다음과 같다.
픽셀(pixel) : 2D 컬러 이미지 상에서의 한 점(x,y)
포인트(point) : 3D 공간 상에서의 한 점(x,y,z)
레이(ray) : (x,y)가 동일한 포인트(x,y,z)들의 집합, 이를 테면, 포인트(x,y,1), 포인트(x,y,2), 포인트(x,y,3), ..., 포인트(x,y,Z)는 동일 레이 상에 있는 포인트들이다. 3D 공간에서 레이 방향은 뎁스 방향과 동일하다.
본 발명의 실시예에서는 레이-불변 특징에 위치별 특징을 부가하기 위해 포인트에 대한 인코딩된 위치 정보를 생성하여, 레이-불변 특징과 함께 포인트들의 SD 예측에 활용한다. 또한 본 발명의 실시예에서는 포인트들의 SD 뿐만 아니라 컬러 정보까지 함께 예측한다.
도 2는 본 발명의 일 실시예에 따른 단안 컬러 이미지 기반의 실시간 3D 휴먼 객체 복원 장치의 구조를 도시한 도면이다.
본 발명의 실시예에 따른 3D 휴먼 객체 복원 장치는 도시된 바와 같이 SMPL 추정부(110), 전경 추출부(120), 특징 추출부(130), 포인터(140), 거리/컬러 예측부(150) 및 3D 객체 복원부(160)를 포함하여 구성된다.
SMPL 추정부(110)는 SMPL(Skinned Multi-Person Linear model)을 이용하여 단안 컬러 이미지로부터 포인트들의 SD들을 계산한다. 전경 추출부(120)는 단안 컬러 이미지로부터 전경(즉, 휴먼 객체) 부분을 추출하여 마스크를 생성한다.
특징 추출부(130)는 단안 컬러 이미지로부터 픽셀-얼라인드 특징들을 추출한다. 픽셀-얼라인드 특징(pixel-aligned feature)은 픽셀에 정렬된 특징들로, 픽셀과 (x,y) 좌표가 같은 3D 공간 상의 포인트들, 구체적으로 픽셀을 지나는 레이 상에 있는 포인트들의 특징들을 나열한 벡터이다.
포인터(140)는 3D 공간 상의 포인트들을 하나씩 순차적으로 지시한다. 포인터(140)에 의한 포인트 지시는 레이 순서를 기초로 한다. 즉 첫 번째 픽셀의 레이 상에 있는 포인트들을 순차적으로 지정하고, 두 번째 픽셀의 레이 상에 있는 포인트들을 순차적으로 지정하며, ..., 마지막 픽셀의 레이 상에 있는 포인트들을 순차적으로 지정한다.
SMPL 추정부(110)는 포인터(140)가 지시하는 포인트의 SD를 출력하고, 전경 추출부(120)는 포인터(140)가 지시하는 포인트의 마스킹 정보를 출력한다. 이와 같이 SMPL 추정부(110)와 전경 추출부(120)는 포인트 단위로 데이터를 출력한다.
하지만 특징 추출부(130)는 픽셀 단위로 픽셀-얼라인드 특징을 추출하여 출력한다. 즉 포인터(140)가 지시하는 포인트가 (x,y,0)인 경우에만 해당 포인트가 위치한 레이에 대한 픽셀-얼라인드 특징을 추출한다.
거리/컬러 예측부(150)는 SMPL 추정부(110)에서 제공하는 포인트의 SD, 전경 추출부(120)에서 제공하는 포인트의 마스킹 정보, 특징 추출부(130)에서 제공하는 픽셀-얼라인드 특징 및 포인터(140)가 지시하는 포인트를 이용하여, 포인트 별 SD와 컬러 정보를 예측한다.
이 과정에서 거리/컬러 예측부(150)는 1) 마스킹 정보와 픽셀-얼라인드 특징으로부터 레이-불변 특징을 추출하고, 2) 포인트의 위치 정보를 인코딩하며, 3) 레이-불변 특징과 인코딩된 포인트의 위치 정보 및 SMPL 추정부(110)에서 출력된 SD를 융합하여 포인트 별 SD와 컬러 정보를 예측한다.
3D 인체 복원부(160)는 거리/컬러 예측부(150)에서 예측된 SD와 컬러 정보를 이용하여 3D 컬러 휴먼 객체를 복원한다.
도 3은, 도 2에 도시된 실시간 3D 휴먼 객체 복원 장치의 상세 구조를 도시한 도면이다.
SMPL 추정부(110)는 단안 컬러 이미지로부터 SMPL을 피팅하여 3D 휴먼 객체를 복셀화하고, 포인터(140)에 의해 지시된 포인트의 SD를 출력한다. SD는 일반 SDF를 이용하여 계산할 수 있다.
전경 추출부(120)는 단안 컬러 이미지로부터 전경(즉, 휴먼 객체) 부분을 추출하고, 추출된 전경 이외의 배경 부분을 마스킹하기 위한 마스크를 생성한다. 전경 추출부(120)는 포인터(140)가 지시하는 포인트(x,y,z)에 해당하는 픽셀(x,y)의 마스킹 정보를 출력한다.
특징 추출부(130)는 특징 추출 네트워크(131)와 특징 선택기(132)를 포함하여 구성된다. 특징 추출 네트워크(131)는 단안 컬러 이미지로부터 픽셀-얼라인드 특징들을 추출하도록 학습된 딥러닝 네트워크이다.
특징 선택기(132)는 특징 추출 네트워크(131)에 의해 추출되는 픽셀-얼라인드 특징들을 픽셀 단위로 선택하여 추출한다. 특징 선택기(132)에 의해 추출되는 픽셀-얼라인드 특징은 포인터(140)가 지시하는 포인트(x,y,z)에 해당하는 픽셀(x,y)의 픽셀-얼라인드 특징이다. 단, 특징 선택기(132)는 포인터(140)가 지시하는 포인트가 (x,y,0)인 경우에만 픽셀-얼라인드 특징을 추출한다.
거리/컬러 예측부(150)는 특징 추출부(130)에서 추출된 픽셀-얼라인드 특징을 이용하여 3D 공간의 각 포인트에 대한 SD와 컬러 정보를 예측한다. 이와 같은 기능을 수행하는 거리/컬러 예측부(150)는 합성부(151), 특징 인코더(152), 위치 인코더(153), 합성부(154) 및 디코더(155)를 포함하여 구성된다.
합성부(151)는 특징 선택기(132)에 의해 추출된 픽셀-얼라인드 특징과 전경 추출부(120)에서 출력된 마스킹 정보를 연접(concatenation) 한다.
특징 인코더(152)는 마스킹 정보가 연접된 픽셀-얼라인드 특징으로부터 레이-불변 특징을 추출하도록 학습된 딥러닝 네트워크이다. 도 3에서 "Latent code"가 레이-불변 특징에 해당한다. 레이-불변 특징은 동일 레이 상에 있는 포인트들에 대해 공통적으로 사용된다. 즉 레이-불변 특징은 동일 레이 상에 있는 포인트들에 대해 재사용되는 특징이다.
위치 인코더(153)는 포인터(140)가 지시한 포인트의 위치 정보를 인코딩하여, 인코딩된 위치 정보를 생성하도록 학습된 딥러닝 네트워크이다.
합성부(154)는 SMPL 추정부(110)에서 출력되는 SD, 특징 인코더(152)에서 출력되는 레이-불변 특징 및 위치 인코더(153)에서 출력되는 인코딩된 위치 정보를 연접(concatenation) 한다.
디코더(155)는 합성부(154)에 의해 연접된 정보로부터 포인트 단위로 포인트의 SD와 컬러 정보를 함께 예측하도록 학습된 딥러닝 네트워크이다.
위치 인코더(153)에 의한 연산은 포인트 단위로 수행되므로, 포인트 마다 인코딩된 위치 정보가 생성된다. 반면 특징 인코더(152)에 의한 연산은 포인트 단위가 아닌 픽셀 단위(즉, 레이 단위)로 수행된다.
기존 음함수 학습을 위한 특징 인코딩 연산이 포인트 단위로 수행되었음에 반해, 본 발명의 실시예에서는 이 연산이 픽셀 단위로 수행되도록 개선함으로써 연산량이 가장 많은 특징 인코더(152)의 연산량을 획기적으로 줄여, 궁극적으로 3D 휴먼 객체 복원 장치의 속도를 비약적으로 향상시켜 실시간으로 3D 휴먼 객체 복원을 가능하게 한다.
3D 인체 복원부(160)는 마칭 큐브 알고리즘과 같은 3D 모델 복원 기법을 이용하여 거리/컬러 예측부(150)로부터 예측된 포인트의 SD로부터 3D 휴먼 객체를 복원하고, 복원된 3D 휴먼 객체에 거리/컬러 예측부(150)로부터 예측된 포인트 컬러를 적용하여 3D 컬러 휴먼 객체를 복원한다.
한편 도 2에 제시된 딥러닝 네트워크들인 전경 추출부(120), 특징 추출 네트워크(131), 특징 인코더(152), 위치 인코더(153), 디코더(155)는 엔드-투-엔드 방식으로 학습될 수 있다.
학습을 위한 손실 함수에는 SD 손실 함수(예측된 SD와 GT(Ground Truth) SD 간의 차를 계산하는 함수)와 컬러 손실 함수(예측된 컬러와 GT 컬러 간의 차를 계산하는 함수)가 포함될 수 있다.
한편, 예측된 SD들을 밀도 함수로 변환한 밀도 함수로 컬러 손실 함수를 대체할 수 있다. 이는 GT 컬러를 확보하기 어려운 경우에 컬러 예측 정확도를 높이기 위한 방법으로 활용할 수 있다.
도 4에는 본 발명의 실시예에 따른 실시간 실시간 3D 인체 형상 복원 장치를 이용하여, 단안 컬러 이미지(좌측 하부)로부터 실시간으로 복원한 3D 휴먼 객체를 가상의 3D 공간에 실시간으로 합성한 결과를 나타내었다.
도 5는 본 발명의 다른 실시예에 따른 단안 컬러 이미지 기반의 실시간 3D 휴먼 객체 복원 장치의 구조를 도시한 도면이다. 도 3에 제시된 실시간 3D 휴먼 객체 복원 장치에서 SMPL 추정부(110)가 배제된 것이다.
이에 따라 거리/컬러 예측부(150)는 포인트 별 SD와 컬러 정보를 예측함에 있어, 전경 추출부(120)에서 제공하는 포인트의 마스킹 정보와 특징 추출부(130)에서 제공하는 픽셀-얼라인드 특징 및 포인터(140)가 지시하는 포인트만을 이용한다.
구체적으로 거리/컬러 예측부(150)의 합성부(154)는 SMPL 추정부(110)에서 출력되는 SD 없이, 특징 인코더(152)에서 출력되는 레이-불변 특징과 위치 인코더(153)에서 출력되는 인코딩된 위치 정보만을 연접하고, 디코더(155)는 SMPL 추정부(110)에서 출력되는 SD가 연접되지 않은 정보로부터 포인트 단위로 포인트의 SD와 컬러 정보를 함께 예측한다.
도 6은 본 발명의 또 다른 실시예에 따른 단안 컬러 이미지 기반의 실시간 3D 휴먼 객체 복원 장치의 구조를 도시한 도면이다. 도 3에 제시된 실시간 3D 휴먼 객체 복원 장치에서 전경 추출부(120)가 배제된 것이다.
이에 따라 거리/컬러 예측부(150)는 포인트 별 SD와 컬러 정보를 예측함에 있어, SMPL 추정부(110)에서 제공하는 포인트의 SD와 특징 추출부(130)에서 제공하는 픽셀-얼라인드 특징 및 포인터(140)가 지시하는 포인트만을 이용한다.
구체적으로 거리/컬러 예측부(150)의 특징 인코더(152)는 전경 추출부(120)가 제공하는 마스킹 정보 없이 픽셀-얼라인드 특징만으로 레이-불변 특징을 추출한다.
도 7은 본 발명의 또 다른 실시예에 따른 단안 컬러 이미지 기반의 실시간 3D 휴먼 객체 복원 장치의 구조를 도시한 도면이다. 도 3에 제시된 실시간 3D 휴먼 객체 복원 장치에서 SMPL 추정부(110)와 전경 추출부(120)가 배제된 것이다.
이에 따라 거리/컬러 예측부(150)는 포인트 별 SD와 컬러 정보를 예측함에 있어, 특징 추출부(130)에서 제공하는 픽셀-얼라인드 특징과 포인터(140)가 지시하는 포인트만을 이용한다.
구체적으로 거리/컬러 예측부(150)의 특징 인코더(152)는 전경 추출부(120)가 제공하는 마스킹 정보 없이 픽셀-얼라인드 특징만으로 레이-불변 특징을 추출한다.
그리고 거리/컬러 예측부(150)의 합성부(154)는 SMPL 추정부(110)에서 출력되는 SD 없이, 특징 인코더(152)에서 출력되는 레이-불변 특징과 위치 인코더(153)에서 출력되는 인코딩된 위치 정보만을 연접하고, 디코더(155)는 SMPL 추정부(110)에서 출력되는 SD가 연접되지 않은 정보로부터 포인트 단위로 포인트의 SD와 컬러 정보를 함께 예측한다.
지금까지 단안 컬러 이미지 기반의 실시간 3D 휴먼 객체 복원 장치 및 방법에 대해 바람직한 실시예들을 들어 상세히 설명하였다.
본 발명의 실시예에서는 픽셀-얼라인드 특징(pixel-aligned feature)을 그대로 이용하여 포인트들에 대한 SD들을 예측하는 기존의 딥러닝 기반의 음함수와 달리, 픽셀-얼라인드 특징을 한 번 더 인코딩하여 레이-불변 특징을 추출하여 동일 레이 상의 모든 포인트들의 SD 예측에 재사용함으로써 연산량을 줄여 속도를 향상켰다.
또한 본 발명의 실시예에서는 레이-불변 특징에 위치별 특징을 부가하기 위해 포인트에 대한 인코딩된 위치 정보를 생성하여, 레이-불변 특징과 함께 포인트들의 SD 예측에 활용하였고, 포인트들의 SD 뿐만 아니라 컬러 정보까지 함께 예측하였다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
110 : SMPL 추정부
120 : 전경 추출부
130 : 특징 추출부
140 : 포인터
150 : 거리/컬러 예측부
160 : 3D 객체 복원부

Claims (12)

  1. 단안 이미지로부터 픽셀-얼라인드 특징(pixel-aligned feature)을 추출하는 특징 추출부;
    3D 공간 상의 포인트들을 하나씩 순차적으로 지시하는 포인터;
    픽셀-얼라인드 특징으로부터 레이-불변 특징(ray-invariant feature)을 추출하는 특징 인코더;
    포인터가 지시하는 포인트의 위치 정보를 인코딩하여, 인코딩된 위치 정보를 생성하는 위치 인코더;
    추출된 레이-불변 특징과 인코딩된 위치 정보로부터 포인트의 SD(Signed Distance)를 예측하는 디코더; 및
    예측된 SD를 이용하여 3D 휴먼 객체를 복원하는 복원부;를 포함하는 것을 특징으로 하는 3D 휴먼 객체 복원 장치.
  2. 청구항 1에 있어서,
    레이-불변 특징은,
    동일 레이 상에 있는 포인트들의 SD 예측에 공통적으로 사용되는 것을 특징으로 하는 3D 휴먼 객체 복원 장치.
  3. 청구항 1에 있어서,
    픽셀-얼라인드 특징과 레이-불변 특징은,
    픽셀 단위로 추출되고,
    인코딩된 위치 정보는,
    포인트 단위로 생성되는 것을 특징으로 하는 3D 휴먼 객체 복원 장치.
  4. 청구항 1에 있어서,
    단안 이미지는,
    단안 컬러 이미지이고,
    디코더는,
    추출된 레이-불변 특징과 인코딩된 위치 정보로부터 포인트의 SD와 컬러 정보를 예측하며,
    복원부는,
    복원된 3D 휴먼 객체에 컬러 정보를 적용하여 3D 컬러 휴먼 객체를 생성하는 것을 특징으로 하는 3D 휴먼 객체 복원 장치.
  5. 청구항 4에 있어서,
    특징 추출부, 특징 인코더, 위치 인코더 및 디코더는,
    딥러닝 네트워크로 구현되고,
    특징 추출부, 특징 인코더, 위치 인코더 및 디코더의 학습을 위한 손실 함수는,
    SD 손실 함수와 SD 밀도 함수를 포함하는 것을 특징으로 하는 3D 휴먼 객체 복원 장치.
  6. 청구항 5에 있어서,
    SD 밀도 함수는,
    컬러 정보 예측 정확도를 향상시키기 위한 손실 함수인 것을 특징으로 하는 3D 휴먼 객체 복원 장치.
  7. 청구항 1에 있어서,
    포인트의 SD를 추정하는 추정부;를 더 포함하고,
    디코더는,
    추출된 레이-불변 특징, 인코딩된 위치 정보 및 추정부에서 추정된 SD를 융합한 정보로부터 포인트의 SD를 예측하는 것을 특징으로 하는 3D 휴먼 객체 복원 장치.
  8. 청구항 7에 있어서,
    추정부는,
    SMPL(Skinned Multi-Person Linear model)을 이용하여 단안 이미지로부터 포인트들의 SD들을 추정하는 것을 특징으로 하는 3D 휴먼 객체 복원 장치.
  9. 청구항 1에 있어서,
    단안 이미지로부터 휴먼 객체 부분을 추출하여 마스크를 생성하고, 포인터가 지정하는 포인트의 마스킹 정보를 출력하는 추출부;를 더 포함하고,
    특징 인코더는,
    픽셀-얼라인드 특징과 마스킹 정보를 융합한 정보로부터 레이-불변 특징을 추출하는 것을 특징으로 하는 3D 휴먼 객체 복원 장치.
  10. 단안 이미지로부터 픽셀-얼라인드 특징(pixel-aligned feature)을 추출하는 단계;
    3D 공간 상의 포인트들을 하나씩 순차적으로 지시하는 단계;
    픽셀-얼라인드 특징으로부터 레이-불변 특징(ray-invariant feature)을 추출하는 단계;
    지시하는 포인트의 위치 정보를 인코딩하여, 인코딩된 위치 정보를 생성하는 위치 단계;
    추출된 레이-불변 특징과 인코딩된 위치 정보로부터 포인트의 SD(Signed Distance)를 예측하는 단계; 및
    예측된 SD를 이용하여 3D 휴먼 객체를 복원하는 단계;를 포함하는 것을 특징으로 하는 3D 휴먼 객체 복원 방법.
  11. 단안 이미지로부터 추출된 픽셀-얼라인드 특징으로부터 레이-불변 특징(ray-invariant feature)을 추출하는 특징 인코더;
    포인트의 위치 정보를 인코딩하여, 인코딩된 위치 정보를 생성하는 위치 인코더;
    추출된 레이-불변 특징과 인코딩된 위치 정보로부터 포인트의 SD(Signed Distance)를 예측하는 디코더;를 포함하는 것을 특징으로 하는 3D 휴먼 객체의 SD 예측 장치.
  12. 단안 이미지로부터 추출된 픽셀-얼라인드 특징으로부터 레이-불변 특징(ray-invariant feature)을 추출하는 단계;
    포인트의 위치 정보를 인코딩하여, 인코딩된 위치 정보를 생성하는 단계;
    추출된 레이-불변 특징과 인코딩된 위치 정보로부터 포인트의 SD(Signed Distance)를 예측하는 단계;를 포함하는 것을 특징으로 하는 3D 휴먼 객체의 SD 예측 방법.
KR1020220162779A 2022-11-29 2022-11-29 단안 컬러 이미지 기반의 실시간 3d 휴먼 객체 복원 장치 및 방법 KR20240079660A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220162779A KR20240079660A (ko) 2022-11-29 2022-11-29 단안 컬러 이미지 기반의 실시간 3d 휴먼 객체 복원 장치 및 방법
PCT/KR2022/020187 WO2024117356A1 (ko) 2022-11-29 2022-12-13 단안 컬러 이미지 기반의 실시간 3d 휴먼 객체 복원 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220162779A KR20240079660A (ko) 2022-11-29 2022-11-29 단안 컬러 이미지 기반의 실시간 3d 휴먼 객체 복원 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20240079660A true KR20240079660A (ko) 2024-06-05

Family

ID=91324247

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220162779A KR20240079660A (ko) 2022-11-29 2022-11-29 단안 컬러 이미지 기반의 실시간 3d 휴먼 객체 복원 장치 및 방법

Country Status (2)

Country Link
KR (1) KR20240079660A (ko)
WO (1) WO2024117356A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9576183B2 (en) * 2012-11-02 2017-02-21 Qualcomm Incorporated Fast initialization for monocular visual SLAM
JP2014123208A (ja) * 2012-12-20 2014-07-03 Mitsubishi Electric Corp 3次元復元装置
KR102063562B1 (ko) * 2019-10-28 2020-01-08 인천대학교 산학협력단 포인터 네트워크의 학습을 통해 고품질의 메쉬 구조의 생성을 지원하기 위한 그래픽 처리 장치 및 그 동작 방법
KR20220083547A (ko) * 2020-12-11 2022-06-20 한국전자기술연구원 후면 깊이 영상 예측을 통한 3차원 객체 복원 방법 및 시스템
CN113506335B (zh) * 2021-06-01 2022-12-13 清华大学 基于多rgbd相机的实时人体全息重建方法以及装置

Also Published As

Publication number Publication date
WO2024117356A1 (ko) 2024-06-06

Similar Documents

Publication Publication Date Title
KR101396618B1 (ko) 이동 물체 경계 추출
KR20220029335A (ko) 깊이 이미지를 보완하는 방법 및 장치
JPH1056643A (ja) 任意の対象物を収録している動画像の符号化及び復号化装置
KR20000064847A (ko) 이미지 분할 및 대상 트랙킹 방법, 및 대응 시스템
CN113850900B (zh) 三维重建中基于图像和几何线索恢复深度图的方法及系统
CN106576170B (zh) 用于视频编码的自适应搜索窗口定位的方法和系统
Moustakas et al. Stereoscopic video generation based on efficient layered structure and motion estimation from a monoscopic image sequence
KR20170110089A (ko) 이미지에 대한 초기 수퍼픽셀 라벨 맵을 생성하기 위한 방법 및 장치
TW202037169A (zh) 基於視訊的點雲壓縮的區塊分段的方法及裝置
Wuest et al. Tracking of industrial objects by using cad models
KR102405428B1 (ko) 이미지 스티칭 방법 및 장치
CN116563399A (zh) 一种基于扩散模型和生成对抗网络的图像生成方法
CN115953468A (zh) 深度和自运动轨迹的估计方法、装置、设备及存储介质
CN114723809A (zh) 估计物体姿态的方法和装置、电子设备
Soni et al. Deep learning based approach to generate realistic data for ADAS applications
KR20240079660A (ko) 단안 컬러 이미지 기반의 실시간 3d 휴먼 객체 복원 장치 및 방법
CN115018734B (zh) 视频修复方法和视频修复模型的训练方法、装置
Matias et al. Veigan: Vectorial inpainting generative adversarial network for depth maps object removal
KR102338491B1 (ko) 영상 기반 사람의 3차원 자세 및 형상 모델 복원 장치 및 방법
CN111223136B (zh) 稀疏2d点集的深度特征提取方法及装置
CN114663810A (zh) 基于多模态的物体图像增广方法及装置、设备及存储介质
CN110490235B (zh) 一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置
KR20210133844A (ko) 단안 이벤트-기반 센서를 사용하는 모션 추정의 시스템 및 방법
WO2020118565A1 (en) Keyframe selection for texture mapping wien generating 3d model
Matsuzaki et al. Efficient deep super-resolution of voxelized point cloud in geometry compression