KR20230036543A - 딥러닝 기반 단안 rgb 이미지 3차원 장면 복원 방법 및 장치 - Google Patents

딥러닝 기반 단안 rgb 이미지 3차원 장면 복원 방법 및 장치 Download PDF

Info

Publication number
KR20230036543A
KR20230036543A KR1020220113323A KR20220113323A KR20230036543A KR 20230036543 A KR20230036543 A KR 20230036543A KR 1020220113323 A KR1020220113323 A KR 1020220113323A KR 20220113323 A KR20220113323 A KR 20220113323A KR 20230036543 A KR20230036543 A KR 20230036543A
Authority
KR
South Korea
Prior art keywords
image
volume
scene
tsdf
unit
Prior art date
Application number
KR1020220113323A
Other languages
English (en)
Inventor
임종우
성창호
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Publication of KR20230036543A publication Critical patent/KR20230036543A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/05Geographic models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/08Volume rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

카메라의 자세가 주어진 RGB 이미지 시퀀스를 기반으로 GRU Fusion 및 프로젝션 손실을 적용하여 3차원 장면을 복원하는 방법 및 장치가 개시된다. 3차원 장면 복원 방법은, RGB 이미지들 중 일부 이미지들을 키 프레임으로 선정하고 선정한 키 프레임에 해당하는 이미지들을 볼륨의 특정 영역에 대응하는 로컬 조각으로 지정하는 단계, CNN을 통해 RGB 이미지 시퀀스의 각 이미지의 특징을 추출하는 단계, 각 이미지의 특징을 각 이미지의 주어진 자세를 활용하여 3차원 공간으로 역투사하고 누적하는 단계, 3차원 CNN 레이어와 MLP를 통해 특징이 누적된 3차원 공간인 볼륨으로부터 TSDF 볼륨을 생성하는 단계, 생성된 TSDF 볼륨을 3차원 메쉬로 생성하는 단계, 및 특정 로컬 조각에 해당하는 특정 영역이 3차원 메쉬로 복원될 때, 복원 시작부터 특정 영역의 복원 직전까지 복원이 완료된 3차원 지도와 특정 영역에 대해 복원된 3차원 지도를 합치는 단계를 포함한다.

Description

딥러닝 기반 단안 RGB 이미지 3차원 장면 복원 방법 및 장치{METHOD AND APPARATUS FOR RECONSTRUCTING 3D SCENE WITH MONOCULAR RGB IMAGE BASED ON DEEP LEARNING}
본 발명은 3차원 복원 기술에 관한 것으로서, 보다 상세하게는, 카메라의 자세가 주어진 RGB 이미지 시퀀스를 기반으로, 시계열 처리에서 활용되는 게이트 순환 유닛(gated recurrent unit, GRU) 융합 및 프로젝션 손실(projection loss)를 적용하여 밀집 3차원 장면을 복원하는 기술에 관한 것이다.
3차원 장면 복원은 가상현실, 게임, 애니메이션 분야 등 많은 분야에 응용되고 있는 3차원 컴퓨터 비전 분야의 중심이 되는 기술 중 하나이다. 그 중에서도 카메라의 자세와 RGB 이미지 시퀀스를 기반으로 3차원 장면을 복원하는 기술은 증강현실(augmented reality, AR) 문제에서 많이 활용되고 있다. 현실적이고 몰입적인 상호작용을 가능하게 하려면 복원된 3차원 장면이 정확하고 일관되게 수행되어야 한다. 또한 3차원 장면을 복원하는 속도가 빨라야 실시간으로 AR 문제를 해결 가능하게 된다.
하지만 아직까지 실시간으로 장면을 3차원 복원하는 것은 낮은 품질과 높은 계산량으로 인해 여전히 어려운 문제로 남아있다. 만약 카메라 자세와 단안 RGB 이미지뿐만 아니라 깊이 맵까지 입력으로 주어지는 경우, 이를 바탕으로 포인트 클라우드(point cloud)를 생성하고 3차원 TSDF(truncated signed distance fields) 볼륨을 만들어 TSDF Fusion을 적용하면 3차원 장면을 복원할 수 있다. 다만, 이 방법의 경우 깊이 맵의 정확도가 높아야 복원된 3차원 장면의 정확도도 높아진다는 한계점이 존재한다.
최근에는 깊이 맵을 추정하지 않고 바로 3차원 TSDF 볼륨을 예측하는 방법들이 연구되고 있다. 이러한 기존 방법들은 깊이 맵의 완성도에 의존하지 않고, 깊이 맵을 이용한 융합(fusion) 과정이 존재하지 않기 때문에 속도가 빠르다는 장점이 있으나, 깊이 맵을 활용하는 방법보다 복원된 3차원 장면의 완성도가 낮기 때문에 이를 극복하기 위한 해결책이 필요하다.
본 발명은 종래 기술의 문제들를 해결하기 위해 도출된 것으로, 본 발명의 목적은, 딥러닝 기반으로 상대적으로 적은 데이터의 단안 RGB 이미지만을 활용하여 밀집 3차원 장면을 복원할 수 있는 장치를 제공하는데 있다. 즉, 본 발명의 목적은, 카메라의 자세가 주어진 RGB 이미지 시퀀스를 기반으로, 시계열 처리에서 활용되는 게이트 순환 유닛(gated recurrent unit, GRU) 융합을 활용하여 효율을 높이고, 프로젝션 손실(projection loss)를 적용하여 성능을 높일 수 있는 3차원 장면 복원 장치를 제공하는데 있다.
본 발명의 다른 목적은, 상대적으로 고가인 RGB-D 센서의 이미지(깊이 정보 포함)를 사용하지 않고도 RGB 이미지만으로 지도를 복원하고, 복원한 지도에서 깊이(depth) 이미지에 대한 프로젝션 손실(projection loss)을 계산하고, 이를 통해 밀집 3차원 환경지도나 밀집 3차원 장면을 효율적으로 복원할 수 있는 3차원 장면 복원 방법을 제공하는데 있다.
본 발명의 또 다른 목적은, 2차원 렌더링과 정제 네트워크를 추가하여 보다 정확한 3차원 TSDF 볼륨을 생성하고 이를 통해 밀집 3차원 환경지도나 밀집 3차원 장면을 효율적으로 복원할 수 있는 새로운 3차원 장면 복원 방법 및 장치를 제공하는데 있다.
상기 기술적 과제를 해결하기 위한 본 발명의 일 측면에 따른 3차원 장면 복원 방법은, 딥러닝 기반으로 단안 RGB 이미지의 3차원 장면을 복원하는 방법으로서, 3차원 장면 복원에 이용될 모든 RGB 이미지들 중 특정 이미지들을 키 프레임(key frame)으로 선정하는 단계; 선정한 키 프레임에 해당하는 영역을 로컬 조각(local fragment)으로 지정하는 단계; 합성곱 신경망(convolutional neural network, CNN)으로 이루어진 특징 추출 네트워크(feature extraction network)를 통해 로컬 조각들로 구성된 RGB 이미지 시퀀스의 각 이미지의 특징을 추출하는 단계; 상기 각 이미지의 특징을 각 이미지의 주어진 자세를 활용하여 3차원 공간으로 역투사하고(back-project) 누적하는 단계; 3차원 CNN 레이어와 다중 레이어 퍼셉트론(multi-layer perceptron, MLP)를 통해 상기 특징이 누적된 3차원 공간인 볼륨으로부터 트룬케이티드 부호화 거리필드(truncated signed distance fields, TSDF) 볼륨을 생성하는 단계; 생성된 TSDF 볼륨을 3차원 메쉬(mesh)로 생성하는 단계; 및 특정 로컬 조각에 해당하는 특정 영역이 상기 3차원 메쉬로 복원될 때, 복원 시작부터 상기 특정 영역의 복원 직전까지 복원이 완료된 3차원 지도와 상기 특정 영역에 대해 복원된 3차원 지도를 합치는 단계를 포함한다.
상기 3차원 장면 복원 방법은, 상기 TSDF 볼륨과 각 이미지에서 주어진 자세 또는 각 이미지에서 카메라가 바라보는 시점을 이용하여 2차원 공간의 깊이 이미지로 투영하는 단계; 및 상기 2차원 공간의 깊이 이미지와 원본의 깊이 이미지 간의 차이를 구하는 단계를 더 포함할 수 있다. 여기서 상기 차이는 상기 특징 추출 네트워크, 상기 3차원 CNN 레이어 및 상기 다중 레이어 퍼셉트론을 포함한 3차원 장면 복원을 위한 딥러닝 모델의 학습에 이용될 수 있다.
상기 기술적 과제를 해결하기 위한 본 발명의 다른 측면에 따른 3차원 장면 복원 장치는, 합성곱 신경망(convolutional neural network, CNN)으로 이루어진 특징 추출 네트워크(feature extraction network)를 통해 각 이미지의 특징을 추출하는 특징 추출부; 추출된 각 이미지의 특징을 이미지의 주어진 자세를 활용하여 3차원 공간으로 역투사하여 누적하는 특징 백 프로젝션부; 특징이 누적된 3차원 공간인 볼륨을 3차원 CNN 레이어를 거쳐 MLP를 통해 TSDF 볼륨을 생성하는 TSDF 볼륨 예측부; 및 생성된 TSDF 볼륨을 3차원 메쉬(mesh)로 생성하는 3D 메쉬 예측부를 포함한다.
상기 3D 메쉬 예측부는, 생성된 TSDF 볼륨과 각 이미지에서 주어진 자세를 이용하여 2차원 공간의 깊이 이미지로 투영하도록 구성될 수 있다. 상기 3D 메쉬 예측부는, 주어진 자세에 의해 지정되는 원점으로부터 나오는 광선들을 하나씩 따라가는 광선 추적을 미분하여 2차원 공간의 깊이 이미지를 생성하도록 구성될 수 있다.
상기 3차원 환경지도 복원 시스템은, 2차원 공간의 깊이 이미지와 원본의 깊이 이미지 간의 차이를 구하는 학습관리부를 더 포함할 수 있다. 학습관리부에서 구해진 차이는 3차원 환경지도 복원을 위한 적어도 하나의 딥러닝 모델의 학습에 이용될 수 있다.
상기 3차원 환경지도 복원 시스템은, RGB 이미지 시퀀스 내에 있는 모든 이미지들 중 특정 이미지를 키 프레임(key frame)으로 선정하고, 선정한 키 프레임에 해당하는 영역을 로컬 조각(local fragment)으로 지정하는 RGB 이미지 정렬부를 더 포함할 수 있다. 상기 키 프레임은 상기 RGB 이미시 시퀀스 내에서 연속적인 구간을 형성할 수 있는 이미지일 수 있다.
상기 3차원 환경지도 복원 시스템은, 상기RGB 이미지 시퀀스로부터 생성되는 하나의 3차원 공간을 복수의 로컬 조각들로 분할하여 상기 3차원 메쉬를 생성한 후 다시 합치는 게이트 순환 유닛 융합부(GRU fusion part)를 더 포함할 수 있다. 상기 GRU 융합부는 제N 로컬 조각에 해당하는 제N 영역이 복원될 때, 복원 시작부터 상기 제N 영역의 복원 직전까지 복원이 완료된 3차원 지도와 상기 제N 영역에 대해 복원된 지도를 합치도록 구성될 수 있다.
상기 기술적 과제를 해결하기 위한 본 발명의 또 다른 측면에 따른 3차원 장면 복원 방법은, 단안 RGB 이미지 시퀀스와 카메라의 자세를 이용하여 조밀한 3차원 장면을 복원하는 방법으로서, 단안 RGB 이미지로부터 피쳐(feature)를 추출하는 단계; 추출한 특징을 3차원 볼륨 상으로 역투사시키는(back-project) 단계; 역투사에 의해 생성된 3차원 피쳐 볼륨을 3차원 CNN과 GRU Fusion을 통해 하나의 3차원 비용 볼륨으로 통합하는 단계; 통합된 3차원 비용 볼륨에 대한 MLP(multi-layer perceptron)을 통해 3차원 피쳐 볼륨 내 복셀의 점유 점수와 부화화 거리필드(signed distance fields, SDF) 값을 예측하는 단계; 예측된 3 차원 TSDF 볼륨을 정제 네트워크의 입력으로 하여 정제된 3차원 TSDF 볼륨을 생성하는 단계; 정제된 3차원 TSDF 볼륨으로부터 2차원 렌더링을 통해 각 자세에 대한 2차원 깊이 맵을 추출하여 본래 깊이 맵으로 회귀시키는 단계; 및 상기 정제된 3차원 TSDF 볼륨과 원본 간의 차이를 통해 네트워크를 학습시키는 단계를 포함한다.
본 발명에 의하면, 고가의 RGB-D 센서를 사용하지 않고, RGB 이미지만을 활용하여 3차원 환경지도나 3차원 장면을 1차적으로 복원하고, 복원한 3차원 장면의 TSDF 볼륨을 2차원 렌더링(2D rendering)하여 얻은 깊이 이미지(또는 깊이 정보 이미지)에 대해 계산한 프로젝션 손실을 통해 3차원 장면 복원 장치의 학습 및 성능을 향상시킬 수 있다.
또한, 본 발명에 의하면, 3차원 장면 복원을 위해 준비된 RGB 이미지 전체를 사용하지 않고, 준비된 RGB 이미지들 중에서 특정 이미지를 키 프레임으로 선정하고, 키 프레임에 해당하는 영역을 로컬 조각(local fragment)로 지정하여 각 로컬 조각에 대하여 복원을 수행하면서 GRU(gated recurrent unit) 융합을 통해 각 로컬 조각의 복원 결과를 누적하도록 구성함으로써, 3차원 장면 복원 장치의 메모리 사용량을 현저하게 감소시킬 수 있는 장점이 있다.
또한, 본 발명에 의하면, RGB 이미지만을 이용하면서, GRU 융합(fusion)을 통해 복원된 2차원 투영 깊이 이미지를 원본(ground truth, GT) 깊이 이미지와 비교하고 이러한 비교로 얻은 차이 즉 L1 손실(loss)을 통해 3차원 환경지도 복원 시스템의 학습 효과 및 성능을 크게 향상시킬 수 있는 장점이 있다. 아울러, L1 손실을 계산하는 투사 손실(projection loss) 기술을 응용하여 3차원 장면의 색을 현실적으로 복원할 수 있는 장점이 있다.
더욱이, 본 발명에 의하면, 2차원 렌더링과 정제 네트워크를 추가하여 보다 정확한 3차원 TSDF 볼륨을 생성하는 새로운 3차원 장면 복원 방법 및 장치를 제공할 수 있다. 즉, 2차원 렌더링을 통해 생성된 3차원 TSDF 볼륨으로부터 깊이 맵을 추출하고 이를 이용하여 3차원 TSDF 볼륨의 정확도를 높이고, 입력으로 주어지는 단안 RGB 이미지 시퀀스 중 일부 이미지들을 임의로 제거하여 생성한 희소한 3차원 TSDF 볼륨을 본래의 단안 RGB 이미지 시퀀스를 이용하여 생성한 조밀한 3차원 TSDF 볼륨으로 회귀하도록 하는 정제 네트워크를 추가하여 기존 방법이 복원하지 못하는 영역까지 복원할 수 있는 장점이 있다.
도 1은 본 발명의 일실시예에 따른 딥러닝 기반 단안 RGB 이미지 3차원 장면 복원 장치(이하 간략히 '3차원 장면 복원 장치')의 네트워크 구조를 설명하기 위한 블록도이다.
도 2는 도 1의 3차원 장면 복원 장치의 주요 작동 원리를 설명하기 위한 흐름도이다.
도 3은 본 발명의 다른 실시예에 따른 3차원 장면 복원 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 다른 실시예에 따른 3차원 장면 복원 방법을 설명하기 위한 네트워크 구조에 대한 블록도이다.
도 5는 본 발명의 또 다른 실시예에 따른 3차원 장면 복원 장치에 대한 블록도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. '및/또는'이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 출원의 실시예들에서, 'A 및 B 중에서 적어도 하나'는 'A 또는 B 중에서 적어도 하나' 또는 'A 및 B 중 하나 이상의 조합들 중에서 적어도 하나'를 의미할 수 있다. 또한, 본 출원의 실시예들에서, 'A 및 B 중에서 하나 이상'은 'A 또는 B 중에서 하나 이상' 또는 'A 및 B 중 하나 이상의 조합들 중에서 하나 이상'을 의미할 수 있다.
어떤 구성요소가 다른 구성요소에 '연결되어' 있다거나 '접속되어' 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 '직접 연결되어' 있다거나 '직접 접속되어'있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, '포함한다' 또는 '가진다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 이하의 상세한 설명은 단지 예시적인 목적으로 제공되는 것이며, 본 발명의 개념을 임의의 특정된 물리적 구성에 한정하는 것으로 해석되어서는 안 될 것이다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 일실시예에 따른 딥러닝 기반 단안 RGB 이미지 3차원 장면 복원 장치(이하 간략히 '3차원 장면 복원 장치')의 네트워크 구조를 설명하기 위한 블록도이다.
도 1을 참조하면, 3차원 장면 복원 장치(200)는 딥러닝 기반으로 단안 RGB 이미지만으로 3차원 장면을 복원하기 위하여 전처리부(205), 정렬부(210), 추출부(220), 역투사부(230), 예측부(240), 변환부(250) 및 학습부(270)를 구비한다. 전처리부(205)는 선택부와 지정부를 구비할 수 있다.
3차원 장면 복원 장치(200)의 전술한 각 구성부는, 예를 들어 이미지로부터 특징을 추출하는 모듈, 특징을 누적하여 TSDF 볼륨을 생성하는 모듈, 생성된 TSDF 볼륨으로부터 깊이 정보 이미지를 추출하는 모듈 등으로 지칭될 수 있다.
각 구성요소를 좀더 구체적으로 설명하면, 전처리부(205)는 선택부 또는 선택 모듈을 통해 입력되는 RGB 이미지들 중 일부 특정 이미지들을 키프레임(key frame)으로 선정하고, 지정부 또는 지정 모듈을 통해 앞서 선정한 키프레임을 로컬 조각(local fragment)으로 지정한다.
정렬부(210)는 로컬 조각으로 지정된 단안 RGB 이미지들을 사용하여 RGB 이미지 시퀀스를 생성한다. 정렬부(210)에서 생성되는 RGB 이미지 시퀀스는 카메라의 자세 정보를 포함한다. 이러한 RGB 이미지 시퀀스를 포함하는 입력 데이터(ID)나타내면 다음의 수학식 1과 같다.
Figure pat00001
수학식 1에서 {It}는 단안 RGB 이미지 시퀀스를, {εt}는 카메라의 자세를, 그리고 N은 키프레임으로 지정된 단안 RGB 이미지의 개수를 각각 나타낸다. 그리고 t는 RGB 이미지 시퀀스 내 각 이미지의 순번이나 이에 대응하는 시간 또는 타이밍을 의미할 수 있다.
추출부(220)는 RGB 이미지 시퀀스의 각 이미지의 특징을 추출한다. 추출부(220)는 각 이미지의 특징을 추출하여 2차원 이미지 백본(2D image backbone)을 생성할 수 있다.
역투사부(230)는 추출부(220)에 의해 추출된 특징을 가진 2차원 이미지 백본을 3차원 공간의 볼륨으로 역투사한다(back-project). 역투사부(230)는 복수의 2차원 이미지 백본들을 각각 역투사하여 복수의 3차원 피쳐 볼륨(3D feature volume)을 생성할 수 있다. 본 실시예에서는 설명의 편의상 복수의 3차원 피쳐 볼륨이 제1 내지 제3 피쳐 볼륨들을 포함하는 것으로 예시한다.
예측부(240)는 복수의 3차원 컨볼루션 신경망(3D convolution neural network, 3D CNN)(도 4의 260 참조), 복수의 게이트 순환 유닛(gated recurrent unit, GRU) Fusion, 및 복수의 다중 레이어 퍼셉트론(multi-layer perceptron, MLP)을 구비하고, 3차원 TSDF 볼륨(243, 246, 249)을 생성할 수 있다.
본 실시예에서는 설명의 편의상, 복수의 3D CNN이 제1 CNN 내지 제3 CNN을 포함하고, 복수의 GRU Fusion이 제1 내지 제3 GRU Fusion(241, 244, 247)을 포함하고, 복수의 MLP가 제1 내지 제3 MLP(242, 245, 248)를 포함하는 것으로 예시한다. 제1 CNN 내지 제3 CNN은 역투사부(230)와 제1 내지 제3 GRU Fusion(241, 244, 247) 사이에 각각 배치될 수 있다.
이러한 예측부(240)는 트룬케이티드 부호 거리필드(truncated signed distance fields, TSDF) 볼륨을 생성하기 위해 상대적으로 큼직한 단위에서 상대적으로 세밀한 단위로 데이터를 처리하는 코오스 투 파인(coarse-to-fine) 구조를 가질 수 있다.
예측부(240)에서, 제1 CNN과 제1 GRU Fusion(241)은 입력되는 제1 피쳐 볼륨을 제1 비용 볼륨으로 통합하고, 제1 MLP(242)는 통합된 제1 비용 볼륨으로부터 해당 볼륨 내 복셀의 제1 점유 점수와 제1 부호화 거리필드(signed distance fields, SDF) 값을 예측하여 예측된 3차원 TSDF 볼륨(이하 제1 TSDF 볼륨)(243)를 생성할 수 있다. 제2 CNN과 제2 GRU Fusion(244)은 입력되는 제2 피쳐 볼륨을 제1 TSDF 볼륨을 참조하거나 제1 점유 점수와 제1 SDF 값을 참조하여 제2 비용 볼륨으로 통합하고, 제2 MLP(245)는 통합된 제2 비용 볼륨으로부터 해당 볼륨 내 복셀의 제2 점유 점수와 제2 SDF 값을 예측하여 예측된 3차원 TSDF 볼륨(이하 제2 TSDF 볼륨)(246)를 생성할 수 있다. 그리고 제3 CNN과 제3 GRU Fusion(247)은 입력되는 제3 피쳐 볼륨을 제2 TSDF 볼륨(246)을 참조하거나 제2 점유 점수와 제2 SDF 값을 참조하여 제3 비용 볼륨으로 통합하고, 제3 MLP(248)는 통합된 제3 비용 볼륨으로부터 해당 볼륨 내 복셀의 제3 점유 점수와 제3 SDF 값을 예측하여 예측된 3차원 TSDF 볼륨(이하 제3 TSDF 볼륨)(249)를 생성할 수 있다.
전술한 제1 내지 제3 GRU Fusion(241, 244, 247)은 특정 로컬 조각을 포함한 RGB 이미지 시퀀스의 복원 결과를 누적하는 GRU 융합부에 대응될 수 있다. 또한, 전술한 제1 TSDF 볼륨(243)은 원본 스케일의 1/4 스케일을 갖고, 제2 TSDF 볼륨(246)은 원본 스케일의 1/2 스케일을 갖고, 제3 TSDF 볼륨(249)은 원본 스케일과 동일한 스케일을 가질 수 있다.
변환부(250)는 TSDF 볼륨을 3차원 메쉬(3D mesh)로 생성한다. 즉, 변환부(250)는 예측된 제3 TSDF 볼륨(249)으로부터 2차원 렌더링을 통해 각 자세에 대한 2차원 깊이 맵을 추출하여 본래 깊이 맵으로 회귀하도록 할 수 있다. 이러한 변환부(250)는 마칭 큐브(marching cube) 알고리즘이나 이에 대응한 기능을 수행하는 수단이나 구성부를 이용할 수 있다. 마칭 큐브 알고리즘은 그 요소로서 복셀을 포함하는 입체 이산 스칼라필드에서 등표면의 다각형 메쉬를 추출하고, 메쉬의 개별 다각형이 원하는 표면에 융합되는 알고리즘이다.
한편, 3차원 장면 복원 장치(200)는, 학습부(270)를 통해 딥러링 모델의 훈련하도록 구성될 수 있다. 학습부(270)는 계산부 또는 계산 모듈을 통해 TSDF 볼륨을 2D 투영한 깊이 이미지(projected depth image)와 원본(ground truth, GT)의 깊이 이미지(depth image) 간의 차이를 계산하고, 훈련부 또는 훈련 모델을 통해 앞서 계산부를 통해 계산된 차이를 토대로 딥러닝 모델을 학습시킬 수 있다. 계산된 차이는 프로젝션 손실이나 L1 손실(lose)에 대응될 수 있다.
전술한 3차원 장면 복원 장치(200)의 주요 작동 원리를 설명하면 다음과 같다. 도 2는 도 1의 3차원 장면 복원 장치의 주요 작동 원리를 설명하기 위한 흐름도이다.
도 2를 참조하면, 먼저, 복원에 사용하는 단안 RGB 이미지들 중 일부 이미지를 키프레임으로 선택한다(S210). 선택된 이미지는 키프레임 이미지로 지칭될 수 있고, 이미지 시퀀스로 생성될 수 있다. 그리고, 이미지 시퀀스를 CNN에 입력하면, CNN을 통해 이미지 시퀀스의 각 이미지의 특징을 추출할 수 있다.
다음, 추출된 특징을 3차원 공간의 볼륨으로 역투사하여 누적하면 이미지 피쳐 볼륨을 생성할 수 있다(S220). 이미지 피쳐 볼륨을 3차원 피쳐 볼륨으로 지칭될 수 있다.
다음, 3차원 CNN과 GRU를 포함하는 GRU Fusion을 통해 3차원 피쳐 볼륨을 하나의 3 차원 비용 볼륨으로 통합하고, 통합된 3 차원 비용 볼륨을 MLP(Multi-Layer Perceptron)에 입력하여 볼륨 내 복셀의 점유 점수와 SDF 값을 예측할 수 있다. 그리고 앞서 예측된 3차원 TSDF 볼륨으로부터 2차원 렌더링을 통해 각 자세에 대한 2차원 깊이 맵을 추출하여 3차원 TSDF 볼륨을 생성할 수 있다(S230). 생성된 3차원 TSDF 볼륨은 본래의 깊이 맵으로 회귀된 것일 수 있다.
다음, 하나의 3차원 공간을 여러 로컬 조각(local fragment)으로 분할하여 얻은 각 로컬 조각에 대하는 3차원 복원 결과들을 시계열적으로 누적하여 합칠 수 있다(S240). 본 단계(S240)에서는 GRU Fusion이나 LSTM(long short term meomry)을 이용할 수 있다.
도 3은 본 발명의 다른 실시예에 따른 3차원 장면 복원 방법을 설명하기 위한 흐름도이다.
도 3을 참조하면, 3차원 장면 복원 방법은, 먼저 RGB 이미지 시퀀스를 활용한 TSDF 볼륨 생성 및 3차원 메쉬 생성의 제1 단계(phase 1)를 포함할 수 있다.
제1 단계에서는, 일부 RGB 이미지를 이용하여 TSDF 볼륨을 생성할 수 있다(S310). 일부 RGB 이미지는 3차원 장면 복원에 사용되는 단안 RGB 이미지 전체에서 키프레임으로 선정된 것들을 가리키며, 이미지 시퀀스로 변환될 수 있다. 그리고 TSDF 볼륨은 이미지 시퀀스의 각 이미지의 특징을 추출하고, 추출한 특징을 3차원 공간의 볼륨에 역투사하고 누적하여 이미지 피쳐 볼륨을 생성한 후 이미지 피쳐 볼륨을 GRU Fusion과 MLP를 거치게 하여 생성될 수 있다.
즉, 제1 단계에서는, 환경지도 복원 시 의미 있게 활용되는 영역인 표면(surface)을 얻어내기 위하여, RGB 이미지 시퀀스에서 CNN으로 이루어진 특징 추출 네트워크를 통해 각 이미지의 특징을 추출하고, 추출된 각 이미지의 특징을 각 이미지의 주어진 자세(카메라의 자세)를 활용하여 3차원 공간으로 역투사(Back Projection)하여 누적하고, 특징이 누적된 3차원 공간, 즉 볼륨을 3차원 CNN 레이어와 GRU Fusion를 거치고 최종적으로 MLP(multi-layer perceptron)를 통해 TSDF 볼륨을 생성할 수 있다. 생성된 TSDF 볼륨은 마칭 큐브(marching cube) 알고리즘 등을 이용하여 3차원 메쉬(3D mesh)로 생성될 수 있다.
이러한 구성에 의하면, 로컬 조각(local fragment)과 GRU Fusion을 이용함으로써 장치의 메모리 사용량을 감소시킬 수 있다. 즉, 이미지 시퀀스 내에 있는 모든 이미지를 활용하는 경우, 3차원 장면 복원 장치의 계산량이 증가하고 그에 따라 연산 속도가 느려질 수 있다. 따라서 본 실시예에서는 연속적인 구간을 모두 커버할 수 있는 이미지를 키프레임으로 선정하고 선정된 이미지에 해당하는 영역을 로컬 조각(local fragment)으로 지정할 수 있다. 또한, 시계열 처리에서 활용되는 GRU Fusion을 활용하여 하나의 3차원 공간을 여러 로컬 조각으로 분할하여 3차원 복원한 후 다시 결합시키고, 각 로컬 조각에 해당하는 영역이 복원될 때마다 전체 영역에 대해 기복원된 3차원 장면, 즉 복원 시작 시점부터 복원이 완료된 3차원 장면과 새로 복원된 3차원 장면을 자연스럽게 결합시킴으로써 단안 RGB 이미지만으로 효율적으로 3차원 장면을 복원할 수 있다.
다음, 3차원 장면 복원 방법은, 프로젝션 손실(projection loss)를 통한 장치의 성능을 향상시키는 제2 단계(phase 2)를 포함할 수 있다.
제2 단계에서는, 제1 단계에서 생성된 TSDF 볼륨과 각 이미지에서 주어진 자세를 이용하여 TSDF 볼륨을 2차원 공간의 깊이 이미지로 투영(projection)할 수 있다(S320). 이때, 제2 단계에서는, 변환부 또는 변환 모듈이, 각 이미지에서 주어진 자세의 원점으로부터 나아가는 광선들(rays)을 하나씩 따라가는 레이 트레이싱(ray tracing)을 미분가능하게 구현하도록 구성될 수 있다.
다음, 3차원 장면 복원 방법은, TSDF 볼륨을 2차원 렌더링하여 얻은 깊이 이미지와 원본(GT)의 깊이 이미지와의 차이를 계산하고(S330), 계산된 차이를 토대로 딥러닝 학습을 수행하는(S340) 제3 단계(phase 3)를 포함할 수 있다. TSDF 볼륨을 2차원 렌더링하여 얻은 깊이 이미지는 2차원 투사 깊이 이미지로 지칭될 수 있다.
제3 단계에서, 학습율(learningn rate)은, 예를 들어 1×10-3이고, 일정 횟수의 에포치(epoch)가 진행될 때마다 1/2의 크기로 줄어들도록 설정될 수 있다. 그리고, 2차원 렌더링으로 추출된 깊이 맵에 대한 손실 함수는 가시적으로 복원이 가능한 상태, 즉 학습이 어느 정도 진행된 상태에서 적용될 수 있으며, 그 적용 시점은 20 epoch 이후부터일 수 있다.
도 4는 본 발명의 또 다른 실시예에 따른 3차원 장면 복원 방법을 설명하기 위한 네트워크 구조에 대한 블록도이다.
도 4를 참조하면, 3차원 장면 복원 장치(200A)는 딥러닝 기반으로 단안 RGB 이미지만으로 3차원 장면을 복원하기 위하여 전처리부, 정렬부, 추출부, 역투사부, 예측부, 변환부 및 정제 네트워크(280)를 구비한다. 전처리부, 정렬부, 추출부, 역투사부, 예측부 및 변환부는 도 1을 참조하여 앞서 설명한 3차원 장면 복원 장치(200)의 대응 구성요소와 실질적으로 동일할 수 있다.
다만, 변환부는 복수의 3D CNN을 포함한 제1 CNN 그룹(260), 복수의 GRU Fusion, 복수의 MLP를 포함한 제1 MLP 그룹을 구비하고, 제1 변환부로 지칭될 수 있다. 또한, 정제 네트워크(280)는 복수의 3D CNN을 포함한 제2 CNN 그룹, 복수의 MLP를 포함한 제2 MLP 그룹을 포함할 수 있다.
3차원 장면 복원 장치(200A)는 이미지 피쳐 기반으로 3차원 TSDF 볼륨을 생성할 수 있다. 이를 위해, 3차원 장면 복원 장치(200A)는 키프레임 이미지를 선택하고, 이미지 피쳐 볼륨을 생성하고, 코오스 투 파인(coarse-to-fine) 구조의 3차원 TSDF 볼륨을 생성하고, GRU Fusion을 통해 3차원 로컬 조각들을 일관되게 복원할 수 있다. 그리고, 더욱 우수한 복원 결과물을 얻기 위해, 3차원 TSDF 볼륨을 정제하는 정제 네트워크(280)를 추가하여 원본(GT)의 단안 RGB 이미지 시퀀스를 이용하여 생성한 조밀한 3차원 TSDF 볼륨으로 회귀하도록 학습할 수 있다.
본 실시예의 3차원 장면 복원 장치(200A)의 주요 동작 원리를 설명하면 다음과 같다.
먼저, 키프레임(Keyframe) 이미지의 선택 과정에서는, 빠른 속도로 3차원 장면을 복원하기 위해 3차원 복원 과정이 나누어져 진행되도록 하고, 입력 이미지 시퀀스에 대해 순차적으로 처리되도록 구성되어야 한다. 이러한 이유로, 본 실시예에서는 입력 이미지 시퀀스에 대해 어떤 이미지가 네트워크의 입력으로 적합한지 찾는다. 즉, 3차원 복원을 위해서 서로 다른 두 이미지 간의 공시성이 존재하면서, 두 이미지들이 너무 인접하거나 멀리 떨어져 있지 않아야 한다. 만약, 일정 크기 이상의 변환이나 회전각이 나타날 경우, 새로운 이미지를 선택하는 것이 좋다.
위와 같은 조건을 통해 선택한 N개의 키프레임들은 하나의 3차원 로컬 조각을 구성하게 된다. N개의 키프레임들이 선택되면, 각 키프레임들의 화각(field of view, FOV)를 포함하는 조각 바운딩 볼륨(fragment bounding volume, FBV)을 생성하게 되고, 3차원 장면 복원 시에 각 3차원 로컬 조각들은 그에 맞는 FBV를 복원하도록 사용될 수 있다.
다음, 이미지 피쳐 볼륨의 생성 과정에서는, 3차원 로컬 조각 내의 N개의 2차원 이미지가 먼저 백본 네트워크(도 1의 220 참조)에 전달되어 2차원 이미지 피쳐들을 포함한 다중-레벨 피쳐를 추출할 수 있다. 백본 네트워크는 MnasNet 등을 사용할 수 있다. 추출된 피쳐는 3차원 피쳐 볼륨에 각 이미지에 대한 자세에 맞는 광선에 따라 역투사될 수 있고, 아담 옵티마이저(adam optimizer) 등에 의해 최적화될 수 있다. 다시 말해서, 이미지 피쳐 볼륨의 생성 과정에서는 각 자세에 따른 역투사된 피쳐에 대한 평균으로 이미지 피쳐 볼륨을 계산할 수 있다.
다음, 3차원 TSDF 볼륨의 생성 과정은, 코오스 투 파인(coarse-to-fine) 방법을 사용하여 다중-레벨로 추출된 피쳐들을 역투사시킨 3차원 피쳐 볼륨의 각 레벨에서 TSDF 볼륨으로 회귀시키도록 구성된다. 3차원 피쳐 볼륨을 효율적으로 처리하기 위해, 3차원 희소 합성곱(sparse convolution) 신경망을 사용할 수 있다.
여기서, 출력된 TSDF 볼륨 내에 존재하는 각 복셀 안에는 점유 점수와 부호를 가진 거리필드(SDF) 값이 존재할 수 있다. 각 레벨에서 점유 점수와 부호화 거리필드는 예측부 또는 예측 모듈의 MLP에 의해 예측될 수 있다.
다음, 3차원 장면의 복원 과정에서는, 3차원 로컬 조각들을 일관되게 복원하기 위해 현재의 3차원 로컬 조각을 복원할 때 이전의 로컬 조각의 복원 결과를 이용한다. 이를 위해 3차원 장면의 복원 과정에서는 GRU(gated recurrent unit) 모듈을 변형한 3차원 CNN과 GRU를 포함하는 GRU Fusion을 사용한다. GRU Fusion은 GRU 모듈로 지칭될 수 있다. 본 복원 과정의 구성에 의하면, GRU 모듈은 실행 평균을 내어 계산하던 것과 다르게 선택적으로 집중하는 선택적 어텐션(selective attention)의 메커니즘을 보여주며, 이에 의해 복원 성능을 향상시킬 수 있다.
다음으로, 2차원 렌더링 및 3차원 TSDF 볼륨 정제 네트워크의 작동 원리를 설명하면 아래와 같다.
3차원 CNN과 코오스 투 파인 방법으로 충분히 좋은 복원 결과물을 얻을 수 있지만, 정확도와 결과물의 디테일을 살리기 위해 복원된 3차원 TSDF 볼륨으로부터 렌더링된 2차원 깊이 맵(250a)를 이용할 수 있다. 3차원 TSDF 볼륨에서 2차원 깊이맵을 렌더링하는 과정을 학습에 적용하기 위해, 해당 과정을 미분 가능한 연산으로 만들 수 있다.
즉, 특정 자세에서 바라본 3차원 TSDF 볼륨을 2차원 깊이 맵으로 정의할 수 있다. 특정 자세의 각 픽셀마다 광선을 따라가면서 3차원 TSDF 볼륨 내의 값이 0이 되는 지점을 찾고, 그 지점을 해당 픽셀에 대한 깊이 값으로 정의할 수 있다. 이러한 과정은 특정 자세의 모든 픽셀에 대해 수행되도록 구성될 수 있다.
한편, 실제 값에 기반한 3차원 장면 복원 결과와 기존 기술에 의한 복원 결과는 장애물 뒤의 영역이나 충분히 관찰하지 않은 영역에 대해 복원하지 못하는 모습을 보여준다. 이를 해결하기 위해, 본 실시예에서는 3차원 희소 합성곱(sparse convolution) 기반 정제 네트워크(280)를 사용하여 좀 더 확장된 3차원 장면 복원 결과를 예측한다.
즉, 도 4에 도시한 바와 같이, 정제 네트워크(280)는 제1 변환부에서 앞서 예측된 3차원 TSDF 볼륨을 입력으로 하여 정제된 3차원 TSDF 볼륨을 출력하도록 구성될 수 있다. 또한, 정제 네트워크(280)는 그 목적을 달성하기 위해 다른 입력 즉, 원본의 단안 RGB 이미지 전체를 활용하여 생성된 3차원 TSDF 볼륨을 이용하여 학습을 진행하도록 작동할 수 있다. 이 경우, 3차원 장면 복원을 위한 딥러링 모델의 입력으로 주어지는 단안 RGB 이미지 시퀀스 중 일부 이미지들을 임의로 제거하여 생성한 희소한 3차원 TSDF 볼륨을 원본의 단안 RGB 이미지 시퀀스를 이용하여 생성한 조밀한 3차원 TSDF 볼륨으로 회귀하도록 학습할 수 있다.
이러한 구성에 의하면, 3차원 장면 복원 장치(200A)는, 앞서 예측된 희소한 3차원 TSDF 볼륨 내의 희소한 영역을 조밀하게 만들어 줄 수 있다.
전술한 학습을 위한 프로젠션 손실 즉, L1 손실은 희소한 3차원 TSDF 볼륨을 렌더링한 깊이 이미지와 이에 대응하는 원본의 깊이 이미지의 차이에 의해 계산될 수 있다.
좀더 구체적으로, 3차원 장면 복원 장치는, 3차원 TSDF 볼륨을 생성하는 네트워크를 학습하기 위해 점유 점수에 대한 손실과 TSDF 값에 대한 손실과 같은 두 가지의 손실 함수를 사용할 수 있다.
점유 점수에 대한 손실(LOCC)은 예측한 점유 점수(Opred)와 실제 값(ground truth, OGT)의 점유 점수 간의 이진 교차 엔트로피(binary cross entropy, BCE)를 계산한다. TSDF 값에 대한 손실(LTSDF)은 예측한 TSDF 값(xpred)과 실제 값(xGT)의 TSDF 값 간의 L1 거리를 계산한다. L1 거리를 계산하기 전에 예측한 TSDF 값과 실제값의 TSDF 값은 모두 로그 변환을 거친다. 두 손실 함수는 모든 코오스 투 파인(coarse-to-fine) 레벨에 대해 적용된다. 각 손실 함수는 아래의 수학식 2 및 수학식 3과 같이 표현될 수 있다.
Figure pat00002
Figure pat00003
2차원 렌더링에 대한 손실 함수(LDepth)는 다음의 수학식 4와 같이 렌더링된 2 차원 깊이 맵에 대해 L1 거리를 계산하여 구할 수 있다.
Figure pat00004
2차원으로 렌더링된 깊이 맵(
Figure pat00005
)에는 일부 픽셀에 대해 유효한 값이 존재하지 않을 수 있는데, 이러한 경우에는 손실을 계산하지 않을 수 있다.
3차원 장면 복원 장치는, 정제 네트워크에 의해 회귀된 3차원 TSDF 볼륨에 있어서, 앞서 예측한 3 차원 TSDF 볼륨과 마찬가지로 복셀 내 점유 점수와 TSDF 값에 대해 손실 함수를 계산할 수 있다. 이러한 손실 함수는 앞서 예측한 3차원 TSDF 볼륨을 입력으로 할 때와 희소한 3차원 TSDF 볼륨을 입력으로 할 때에 대해 모두 계산될 수 있다.
즉, 정제 네트워크의 손실 함수(LRefine)는 정제 네트워크에서의 점유 점수에 대한 손실(
Figure pat00006
)과 TSDF 값에 대한 손실(
Figure pat00007
)을 합하여 나타낼 수 있다. 이를 수식으로 표현하는 다음의 수학식 5와 같다.
Figure pat00008
도 5는 본 발명의 또 다른 실시예에 따른 3차원 장면 복원 장치에 대한 블록도이다.
도 5를 참조하면, 3차원 장면 복원 장치(500)는 자율주행 로봇, 경로 탐색 및 설정 장치 등에 적어도 일부가 탑재될 수 있고, 적어도 하나의 프로세서(510) 및 이 프로세서(510)에 연결되는 입출력 인터페이스 장치(540, 550)를 포함하도록 구성될 수 있다. 또한, 3차원 장면 복원 장치(500)는 프로세서(510)에 의해 실행되는 적어도 하나의 명령을 저장하는 메모리(520)를 더 포함할 수 있다.
또한, 3차원 장면 복원 장치(500)는 유선 네트워크, 무선 네트워크, 위성 네트워크 또는 이들의 조합을 통해 네트워크 상의 다른 통신 장치나 서버과 연결되어 통신을 수행하는 송수신 장치(530)를 더 포함할 수 있다. 서버는 3차원 장면 복원 장치(500)의 구성 일부를 탑재할 수 있다. 또한, 3차원 장면 복원 장치(500)는 필요에 따라 선택적으로 저장 장치(560)를 더 포함할 수 있다.
3차원 장면 복원 장치(500)에 포함된 각각의 구성 요소들은 버스(bus, 570)에 의해 연결되어 서로 통신을 수행하거나, 적어도 하나의 프로세서(510)를 중심으로 개별 인터페이스 또는 개별 버스를 통하여 연결될 수 있다. 예를 들어, 프로세서(510)는 메모리(520), 송수신 장치(530), 입력 인터페이스 장치(540), 출력 인터페이스 장치(550) 및 저장 장치(560) 중 적어도 하나와 전용 인터페이스를 통하여 연결될 수 있다.
프로세서(510)는 메모리(520) 및 저장 장치(560) 중 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(510)는 적어도 하나의 명령이나 프로그램 명령에 기초하여 해당 기능을 수행하도록 구성될 수 있다. 이러한 프로세서(510)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU), 또는 본 발명의 실시예들에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다.
본 실시예에서 프로세서(510)는, RGB 이미지들 중 일부 특정 이미지들을 키프레임(key frame)으로 선정하는 선택부; 선정한 키프레임에 해당하는 영역을 로컬 조각(local fragment)으로 지정하는 지정부; 로컬 조각으로 지정된 단안 RGB 이미지들을 사용하여 RGB 이미지 시퀀스를 생성하는 제1 정렬부; 복원에 사용되는 모든 단안 RGB 이미지들을 사용하여 RGB 이미지 시퀀스를 생성하는 제2 정렬부; RGB 이미지 시퀀스의 각 이미지의 특징을 추출하는 추출부; 추출된 특징을 3차원 공간의 볼륨으로 역투사(back projection)하는 역투사부; 역투사 누적에 의해 생성된 피쳐 볼륨으로부터 TSDF 볼륨을 생성하는 예측부; 예측부에 포함되어 각 로컬 조각의 복원 결과를 누적하는 GRU 융합부; TSDF 볼륨을 3D 메쉬로 생성하는 변환부; TSDF 볼륨을 2D 투영한 깊이 이미지와 원본의 깊이 이미지 간의 차이를 계산하는 계산부; 정제 네트워크를 통해 TSDF 볼륨으로부터 정제된 TSDF 볼륨을 생성하는 정제부; 및 계산된 차이를 토대로 딥러닝 모델을 학습시키는 훈련부를 포함할 수 있다. 이러한 선택부, 지정부, 정렬부, 추출부 등의 구성부들 중 적어도 일부는 적어도 하나 이상의 프로그램 명령이나 소프트웨어 모듈로 생성되어 메모리(520)이나 저장 장치(560)에 저장될 수 있고, 필요에 따라 프로세서(510)에 탑재될 수 있다.
메모리(520) 및 저장 장치(560) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(520)는 읽기 전용 메모리(read only memory, ROM) 및 랜덤 액세스 메모리(random access memory, RAM) 중에서 적어도 하나로 구성될 수 있다.
전술한 3차원 장면 복원 장치는 자율주행 로봇, 드론, 사용자 단말 등에 탑재될 수 있다. 예를 들어, 자율주행 로봇이나 드론은 단안 카메라와 관성 측정 센서(inertial measurement unit, IMU) 센서를 구비할 수 있다. 이 경우, 자율주행 로봇이나 드론은 카메라와 IMU 센서를 통해 획득되는 RGB 이미지와 자세 데이터를, 자율주행 로봇이나 드론이 네트워크를 통해 연결되는 서버를 통해, GPU(graphic processing unit)가 설치된 개인용 컴퓨터(personal computer, PC) 등의 사용자 단말로 전달할 수 있다. 사용자 단말은 앞서 본 실시예에서 설명한 모듈들, 예컨대 이미지로부터 특징을 추출하는 모듈, 특징을 누적하여 TSDF 볼륨을 생성하는 모듈, 생성된 TSDF 볼륨으로부터 깊이 정보 이미지를 추출하는 모듈을 포함하는 딥러닝 모델을 구비할 수 있다. 이러한 딥러닝 모델은, RGB 이미지 기반 3차원 장면 복원 장치 내에서, 서버를 통해 전달된 RGB 이미지와 자세 데이터를 활용하여 3차원 장면을 복원할 수 있다.
또한, 본 실시예의 또 다른 응용에서는, 자율주행 로봇이나 드론이 자체 획득되는 RGB 이미지와 자세 데이터를 활용하여 3차원 장면을 복원할 수 있도록 구성될 수 있음은 물론이다.
한편, 본 발명의 실시예에 따른 방법의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 정보가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다.
또한, 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시 예에서, 가장 중요한 방법 단계들의 적어도 하나 이상은 이와 같은 장치에 의해 수행될 수 있다.
실시 예들에서, 프로그램 가능한 로직 장치(예를 들어, 필드 프로그래머블 게이트 어레이)가 여기서 설명된 방법들의 기능의 일부 또는 전부를 수행하기 위해 사용될 수 있다. 실시 예들에서, 필드 프로그래머블 게이트 어레이(field-programmable gate array)는 여기서 설명된 방법들 중 하나를 수행하기 위한 마이크로프로세서(microprocessor)와 함께 작동할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해 수행되는 것이 바람직하다.
이상 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (7)

  1. 딥러닝 기반으로 단안 RGB 이미지의 3차원 장면을 복원하는 방법으로서,
    RGB 이미지들 중 일부 특정 이미지들을 키 프레임(key frame)으로 선정하는 단계;
    선정한 키 프레임에 해당하는 영역을 로컬 조각(local fragment)으로 지정하는 단계;
    합성곱 신경망(convolutional neural network, CNN)으로 이루어진 특징 추출 네트워크(feature extraction network)를 통해 로컬 조각들로 구성된 RGB 이미지 시퀀스의 각 이미지의 특징을 추출하는 단계;
    상기 각 이미지의 특징을 각 이미지의 주어진 자세를 활용하여 3차원 공간으로 역투사(back projection)하고 누적하는 단계;
    3차원 CNN 레이어와 다중 레이어 퍼셉트론(multi-layer perceptron, MLP)를 통해 상기 특징이 누적된 3차원 공간인 볼륨으로부터 트룬케이티드 부호화 거리ㅍ필드(truncated signed distance fields, TSDF) 볼륨을 생성하는 단계;
    생성된 TSDF 볼륨을 3차원 메쉬(mesh)로 생성하는 단계; 및
    특정 로컬 조각에 해당하는 특정 영역이 상기 3차원 메쉬로 복원될 때, 복원 시작부터 상기 특정 영역의 복원 직전까지 복원이 완료된 3차원 지도와 상기 특정 영역에 대해 복원된 3차원 지도를 합치는 단계;
    를 포함하는, 3차원 장면 복원 방법.
  2. 청구항 1에 있어서,
    상기 TSDF 볼륨과 각 이미지에서 주어진 자세 또는 각 이미지에서 카메라가 바라보는 시점을 이용하여 2차원 공간의 깊이 이미지로 투영하는 단계; 및
    상기 2차원 공간의 깊이 이미지와 원본의 깊이 이미지 간의 차이를 구하는 단계를 더 포함하고,
    여기서 상기 차이는 상기 특징 추출 네트워크, 상기 3차원 CNN 레이어 및 상기 다중 레이어 퍼셉트론을 포함한 3차원 장면 복원을 위한 딥러닝 모델의 학습에 이용되는, 3차원 장면 복원 방법.
  3. RGB 이미지 기반 3차원 환경지도 복원 시스템으로서,
    합성곱 신경망(convolutional neural network, CNN)으로 이루어진 특징 추출 네트워크(feature extraction network)를 통해 각 이미지의 특징을 추출하는 특징 추출부;
    추출된 각 이미지의 특징을 이미지의 주어진 자세를 활용하여 3차원 공간으로 역투사(back projection)하여 누적하는 특징 백 프로젝션부;
    특징이 누적된 3차원 공간인 볼륨을 3차원 CNN 레이어를 거쳐 다중레이어 퍼셉트론(multi-layer perceptron, MLP)를 통해 트룬케이티드 부호화 거리필드(truncated signed distance fields, TSDF) 볼륨을 생성하는 TSDF 볼륨 예측부; 및
    생성된 TSDF 볼륨을 3차원 메쉬(mesh)로 생성하는 3D 메쉬 예측부;
    를 포함하는 3차원 환경지도 복원 시스템.
  4. 청구항 3에 있어서,
    상기 3D 메쉬 예측부는, 상기 TSDF 볼륨과 각 이미지에서 주어진 자세를 이용하여 2차원 공간의 깊이 이미지로 투영하는, 3차원 환경지도 복원 시스템.
  5. 청구항 4에 있어서,
    상기 2차원 공간의 깊이 이미지와 원본의 깊이 이미지 간의 차이를 구하는 학습관리부를 더 포함하며, 상기 학습관리부에서 구해진 차이는 3차원 환경지도 복원을 위한 적어도 하나의 딥러닝 모델의 학습에 사용되는, 3차원 환경지도 복원 시스템.
  6. 청구항 3에 있어서,
    상기 RGB 이미지 시퀀스 내에 있는 모든 이미지들 중 특정 이미지를 키 프레임(key frame)으로 선정하고, 선정한 키 프레임에 해당하는 영역을 로컬 조각(local fragment)으로 지정하는 RGB 이미지 정렬부를 더 포함하며, 상기 키 프레임은 상기 RGB 이미시 시퀀스 내에서 연속적인 구간을 가장 많이 형성하는 이미지인, 3차원 환경지도 복원 시스템.
  7. 청구항 6에 있어서,
    상기 RGB 이미지 시퀀스로부터 생성되는 하나의 3차원 공간을 복수의 로컬 조각들로 분할하여 상기 3차원 메쉬를 생성한 후 다시 합치는 게이트 순환 유닛(gated recurrent unit, GRU) 융합부를 더 포함하며,
    상기 GRU 융합부는 제N 로컬 조각에 해당하는 제N 영역이 복원될 때, 복원 시작부터 상기 제N 영역의 복원 직전까지 복원이 완료된 3차원 지도와 상기 제N 영역에 대해 복원된 지도를 합치도록 구성되는, 3차원 환경지도 복원 시스템.
KR1020220113323A 2021-09-07 2022-09-07 딥러닝 기반 단안 rgb 이미지 3차원 장면 복원 방법 및 장치 KR20230036543A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210119173 2021-09-07
KR1020210119173 2021-09-07

Publications (1)

Publication Number Publication Date
KR20230036543A true KR20230036543A (ko) 2023-03-14

Family

ID=85502599

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220113323A KR20230036543A (ko) 2021-09-07 2022-09-07 딥러닝 기반 단안 rgb 이미지 3차원 장면 복원 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20230036543A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117437366A (zh) * 2023-12-20 2024-01-23 中山大学 一种多模态大规模场景数据集的构建方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117437366A (zh) * 2023-12-20 2024-01-23 中山大学 一种多模态大规模场景数据集的构建方法
CN117437366B (zh) * 2023-12-20 2024-04-12 中山大学 一种多模态大规模场景数据集的构建方法

Similar Documents

Publication Publication Date Title
Bozic et al. Transformerfusion: Monocular rgb scene reconstruction using transformers
AU2017324923B2 (en) Predicting depth from image data using a statistical model
KR102647351B1 (ko) 3차원의 포인트 클라우드를 이용한 모델링 방법 및 모델링 장치
CN110084304B (zh) 一种基于合成数据集的目标检测方法
CN112465938A (zh) 三维3d渲染方法和装置
US10916046B2 (en) Joint estimation from images
US11704853B2 (en) Techniques for feature-based neural rendering
US20220301295A1 (en) Recurrent multi-task convolutional neural network architecture
CN110866509A (zh) 动作识别方法、装置、计算机存储介质和计算机设备
CN108491763B (zh) 三维场景识别网络的无监督训练方法、装置及存储介质
KR102219561B1 (ko) 대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법
WO2023015409A1 (zh) 物体姿态的检测方法、装置、计算机设备和存储介质
CN114450719A (zh) 人体模型重建方法、重建系统及存储介质
Liu et al. High-quality textured 3D shape reconstruction with cascaded fully convolutional networks
CN116745813A (zh) 室内环境的自监督式深度估计框架
CN114581571A (zh) 基于imu和前向变形场的单目人体重建方法及装置
CN113850900A (zh) 三维重建中基于图像和几何线索恢复深度图的方法及系统
CN115362478A (zh) 用于标记图像之间的空间关系的强化学习模型
KR20230036543A (ko) 딥러닝 기반 단안 rgb 이미지 3차원 장면 복원 방법 및 장치
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN114494395A (zh) 基于平面先验的深度图生成方法、装置、设备及存储介质
KR20220149717A (ko) 단안 카메라로부터 전체 골격 3d 포즈 복구
CN117078809A (zh) 基于图像的动效生成方法、装置、设备和存储介质
US11461956B2 (en) 3D representation reconstruction from images using volumic probability data
Liu et al. Deep learning for 3D human pose estimation and mesh recovery: A survey

Legal Events

Date Code Title Description
E902 Notification of reason for refusal