KR20200080970A - 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법 - Google Patents

이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법 Download PDF

Info

Publication number
KR20200080970A
KR20200080970A KR1020180170999A KR20180170999A KR20200080970A KR 20200080970 A KR20200080970 A KR 20200080970A KR 1020180170999 A KR1020180170999 A KR 1020180170999A KR 20180170999 A KR20180170999 A KR 20180170999A KR 20200080970 A KR20200080970 A KR 20200080970A
Authority
KR
South Korea
Prior art keywords
semantic segmentation
dimensional
probability
pixel
model
Prior art date
Application number
KR1020180170999A
Other languages
English (en)
Other versions
KR102169243B1 (ko
Inventor
이승용
전준호
정진웅
김준건
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020180170999A priority Critical patent/KR102169243B1/ko
Publication of KR20200080970A publication Critical patent/KR20200080970A/ko
Application granted granted Critical
Publication of KR102169243B1 publication Critical patent/KR102169243B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/08Volume rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 보급용 깊이 영상 카메라에서 온 연속적인 색상 및 깊이 영상 스트림(stream)으로부터 삼차원 복원과 동시에 복원된 모델에 대한 점진적 의미론적 분할을 수행하는 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법에 관한 것으로, 본 발명에 의한 삼차원 복원 모델의 의미론적 분할 방법은 (a) 다중의 2차원 입력 영상에 대하여, 각 입력 영상의 색상 영상(RGB)과 대응하는 깊이 영상(Depth)을 활용하여 딥러닝 기반 픽셀단위 의미론적 분할을 수행하여 각 픽셀마다 객체 부류에 따른 확률 정보를 획득하는 단계; (b) 각 픽셀마다 획득한 확률 정보를 복셀 그리드에 레이캐스팅으로 업데이트 하는 단계; (c) 마칭큐브 알고리즘에 의해 복셀 그리드에서 메시 모델을 추출하는 단계; 및 (d) 메시 모델에서 각 정점에 대해서 가장 높은 확률을 갖는 부류를 선택함으로써 삼차원 복원 모델의 의미론적 분할을 수행하는 단계;를 포함하여 구성된다.

Description

이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법{Semantic segmentation method of 3D reconstructed model using incremental fusion of 2D semantic predictions}
본 발명은 RGBD 카메라의 색상 및 깊이 영상 스트림으로부터 복원된 삼차원모델의 삼차원 의미론적 분할을 수행할 때 다중의 이차원 영상의 의미론적 분할 정보를 혼합하는 방법에 관한 것이다.
삼차원 복원이라 함은 레이저 스캐너(laser scanner), 구조광 기반 깊이 카메라 등 다양한 스캔 장비를 활용하여 관심 객체 혹은 환경에 대한 삼차원 위치 및 색상 정보를 획득함을 의미한다.
키넥트(Kinect) 카메라와 같은 보급형 깊이 카메라가 출현되고 다양한 알고리즘들이 개발됨에 따라, 작은 규모의 대상(e.g., 사람)만을 비실시간으로 복원할 수 있었던 기술적 수준에서 비싼 스캔 장비가 없더라도 실시간 복원을 가능케 하는 기술적 성숙도를 보일 수 있게 되었다. 실시간 삼차원 복원 기술로서 대중적인 인기를 불러일으킨 KinectFusion 기술을 시작으로, 복원 공간 크기의 제약을 해결한 Voxel Hashing, BundleFusion 등의 대규모 복원 기술이 잇따라 등장하였다.
깊이 카메라를 이용한 삼차원 복원을 하기 위해 수행하는 보편적인 프로세스는 다음과 같다. 우선 카메라의 포즈(pose)(혹은 회전하는 물체의 포즈)를 매 프레임마다 계산한다. 포즈를 구하는 방법으로는 주로 plane-to-point error를 고려한 ICP(Iterative Closest Point)의 이형(variant)이 사용되며, 이 알고리즘의 입력으로는 현재 깊이 영상 정보와 모델의 레이캐스팅(raycasting) 깊이 정보가 이용된다.
고가의 스캐너와 달리 보급형 깊이 카메라는 깊이 영상 값에 많은 노이즈가 섞여 있으며 이를 해결하기 위해 TSDF(Truncated Signed Distance Function)의 표현에서의 평균 기법이 사용된다. 깊이 카메라에서 연속적으로 들어오는 영상에서 TSDF 값을 계산하고 이를 미리 구성한 복셀 그리드에 저장하며, 이미 저장되어 있는 TSDF 값이 존재한다면 기존의 값과 가중치 합을 통해 새로운 TSDF 값을 계산한다. 스캔을 완료한 후에 TSDF 값이 저장된 복셀 그리드에 Marching cubes 알고리즘을 적용하여 최종적인 모델의 메시를 뽑아낸다.
기존에 삼차원 복원 모델에서 객체를 분류하는 몇몇 연구가 진행되었다.
Liangliang Nan, Ke Xie, 및 Andrei Sharf의 "A search-classify approach for cluttered indoor scene understanding,"[문헌 1]에서는 포인트 클라우드(point cloud) 형태의 모델에 과분할(over-segmentation)을 수행하여 조각난 패치(patch)를 만들고, 이를 다시 누적하여 구성한 영역에 대한 분류 확률(classification likelihood)을 계산한다. 이 확률을 사용하여 현재 부분 모델을 가장 유사한 깔끔한 모델로 교체를 수행한다. 그러나 포인트 클라우드 상의 특징을 사용하기 때문에 정확성이 떨어지고 상당히 제한된 부류에만 적용될 수 있다.
Dai A., Chang A. X., Savva M., Halber M., Funkhouser T., Niessner M의 "Scannet: Richly-annotated 3D reconstructions of indoor scenes,"[문헌 2]는 [문헌 1]과 달리 전체 장면을 복셀화한 데이터를 3D CNN(Convolution Neural Network)의 입력으로 사용하여 출력으로 각 복셀이 레이블링된 결과를 얻게 된다.
Tianjia Shao, Weiwei Xu, Kun Zhou, Jingdong Wang, Dongping Li, 및 Baining Guo의 "An interactive approach to semantic modeling of indoor scenes with an RGBD camera,"[문헌 3]은 RGBD 영상에 CRF를 사용한 의미론적 분할을 적용하고 분할된 객체를 random regression forest로 분류한다. 또한 장면 정합(scene registration)에서 SIFT(Scale-Invariant Feature Transform), RANSAC(RANdom SAmple Consensus)과 의미론적 분할 레이블 정보를 활용한다. 그러나 이 기술은 KinectFusion 방식의 대규모 삼차원 복원 알고리즘과 융합되기 어렵다.
Liangliang Nan, Ke Xie, and Andrei Sharf. "A search-classify approach for cluttered indoor scene understanding," ACM Trans. on Graph., 31(6):137:1-137:10, 2012. Dai A., Chang A. X., Savva M., Halber M., Funkhouser T., Niessner M. "Scannet: Richly-annotated 3D reconstructions of indoor scenes," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017. Tianjia Shao, Weiwei Xu, Kun Zhou, Jingdong Wang, Dongping Li, and Baining Guo. "An interactive approach to semantic modeling of indoor scenes with an RGBD camera," ACM Trans. on Graph., 31(6):136:1-11, 2012. Seong-Jin Park, Ki-Sang Hong, Seungyong Lee. "RDFNet: RGB-D Multi-Level Residual Feature Fusion for Indoor Semantic Segmentation," The IEEE International Conference on Computer Vision (ICCV), 2017, pp. 4980-4989. Dai A., Niessner M., Zollhofer M., Izadi S., Theobalt C.: Bundlefusion: Real-time globally consistent 3D reconstruction using on-the-fly surface reintegration. ACM Transactions on Graphics (TOG) 36, 3 (2017), 24 Lorensen W. E., Cline H. E.: Marching cubes: A high resolution 3D surface construction algorithm. In ACM Transactions on Graphics (TOG) (1987), vol. 21, ACM, pp. 163-169
본 발명은 보급용 깊이 영상 카메라에서 온 연속적인 색상 및 깊이 영상 스트림(stream)으로부터 삼차원 복원과 동시에 복원된 모델에 대한 점진적 의미론적 분할을 수행하기 위한 이차원 의미론적 분할 정보의 점진적인 혼합 방법을 제공함을 그 목적으로 한다.
상기의 목적을 달성하기 위하여, 본 발명에 의한 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법은 (a) 다중의 2차원 입력 영상에 대하여, 각 입력 영상의 색상 영상(RGB)과 대응하는 깊이 영상(Depth)을 활용하여 딥러닝 기반 픽셀단위 의미론적 분할을 수행하여 각 픽셀마다 객체 부류에 따른 확률 정보를 획득하는 단계; (b) 각 픽셀마다 획득한 확률 정보를 복셀 그리드에 레이캐스팅으로 업데이트 하는 단계; (c) 마칭큐브 알고리즘에 의해 상기 복셀 그리드에서 메시 모델을 추출하는 단계; 및 (d) 상기 메시 모델에서 각 정점에 대해서 가장 높은 확률을 갖는 부류를 선택함으로써 삼차원 복원 모델의 의미론적 분할을 수행하는 단계;를 포함하여 구성된다.
상기의 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법에 있어서, 상기 (b) 단계는 각 픽셀의 객체 부류에 따른 확률 정보에 물체의 카메라로부터의 거리 및 전·배경 경계에 따라 결정된 가중치를 부가하여 해당 픽셀에 대응되는 복셀에 저장된 객체 부류에 따른 확률 정보에 가중 평균하여 업데이트 하는 것을 특징으로 한다.
상기의 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법에 있어서, 상기 (c) 단계의 메시 모델의 각 정점(vertex)의 20개의 확률은 양선형 보간(bilinear interpolation)을 통해 결정됨을 특징으로 한다.
상기의 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법에 있어서, 픽셀의 확률 정보, 가중치 및 정점의 확률은 각각 객체 부류의 개수만큼의 차원을 갖는 벡터임을 특징으로 한다.
상기의 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법에 있어서, 상기 (b) 단계에서 각 복셀
Figure pat00001
의 t번째 프레임까지 통합된 부류 확률은 수학식
Figure pat00002
(여기서
Figure pat00003
Figure pat00004
는 각각 복셀
Figure pat00005
의 t-1번째 프레임까지 통합된 부류 확률과 신뢰도 가중치이고,
Figure pat00006
Figure pat00007
는 각각 t번째 프레임에서 픽셀 p의 부류 확률과 신뢰도 가중치이다)에 의해 산출되고,
신뢰도 가중치
Figure pat00008
는 수학식
Figure pat00009
(여기서
Figure pat00010
는 깊이 기반 정확도 가중치이고,
Figure pat00011
는 전·배경 경계 오정렬 가중치이다)에 의해 산출되는 것을 특징으로 한다.
상기의 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법에 있어서, 전·배경 경계 오정렬 가중치
Figure pat00012
는 수학식
Figure pat00013
Figure pat00014
(여기서
Figure pat00015
,
Figure pat00016
은 각각 현재 픽셀
Figure pat00017
의 깊이 값, 픽셀
Figure pat00018
위치를 중심으로 한 윈도우 안에서 최소 깊이 값 및 최대 깊이 값이고,
Figure pat00019
,
Figure pat00020
는 양의 상수이다)에 의해 산출되는 것을 특징으로 한다.
상기의 목적을 달성하기 위하여, 본 발명에 의한 컴퓨터로 읽을 수 있는 기록 매체는 상기의 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한다.
상기의 목적을 달성하기 위하여, 본 발명에 의한 컴퓨터 프로그램은 상기의 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법을 컴퓨터에서 실행시키기 위하여 매체에 저장된다.
본 발명에 의하면, RGBD 카메라를 활용한 삼차원 복원에서 점진적으로 기하를 완성해 나가는 것처럼 이차원 영상에서의 의미론적 분할 확률정보를 활용하여 최종적으로 삼차원 모델에 대한 삼차원 의미론적 분할 정보를 얻어내므로, 근본적으로 충분한 계산 능력만 받쳐 준다면 실시간 방법으로 쉽게 이전이 가능할 뿐만 아니라 기존 여타 방법론이 겪고 있는 문제점(메모리 제한으로 인한 대규모 복원 모델에서의 해상도(resolution) 하락 등)을 해결하여 대규모 복원 모델에서도 섬세한 기하표현은 유지함과 동시에 의미론적 분할 결과를 획득할 수 있다.
이러한 의미론적 분할 결과는 증강현실 및 가상현실 등에 다양한 사용자와의 상호작용이 필요한 경우에 활용될 수 있다. 간단한 활용 예로 실내 인테리어 구조물 재배치에서 사용자는 의미론적 분할의 결과를 이용하여 자유롭게 원하는 객체(예를 들어 의자, 책상)등을 원 메시에서 분리하여 자유롭게 이동시킬 수 있게 된다.
도 1은 본 발명에 의한 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법의 전체적인 흐름을 설명하기 위한 도면이다.
도 2는 의미론적 분할 정보 혼합에 사용하는 가중치 맵을 도시한 것이다.
도 3은 최신 딥 러닝 기반의 의미론적 분할 기술의 거리에 따른 예측 정확도를 도시한 것이다.
도 4는 주요 부류들의 확률 시각화 및 최종 의미론적 분할 결과를 도시한 것이다.
도 5는 실내 환경 복원에서 본 발명에 의한 의미론적 분할 결과를 도시한 것이다.
이하에서, 첨부된 도면을 참조하면서 본 발명의 바람직한 실시예에 대하여 상세히 설명하기로 한다.
본 발명에 의한 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법의 전체 흐름은 도 1과 같다.
우선 색상 및 깊이 입력영상을 활용한 딥 러닝 기반 의미론적 분할을 수행하여 각 픽셀마다 객체 부류에 따른 확률 정보를 획득한다. 만약 20개의 부류를 분류한다고 가정하면, 각 픽셀은 20개의 부류의 발생 확률을 포함하고 있다. 이 정보는 레이캐스팅에 따라 각 픽셀에 대응되는 복셀들에 저장 및 혼합되어진다. 혼합될 때 이차원 의미론적 분할 결과의 가중치를 해당 물체의 카메라로부터의 거리 및 전·배경 경계에 따라 적응적으로 결정한다.
모든 영상 스트림(stream) 데이터에 대한 위와 같은 처리가 완료되면 마칭큐브(Marching cubes)(비특허문헌 6 참조) 알고리즘을 활용하여 메시 모델을 추출한다. 이때 마칭큐브 (Marching cubes) 과정에서의 메시의 각 정점(vertex)의 20개의 확률은 양선형 보간(bilinear interpolation)을 통해 결정된다.
앞서서 결정된 확률들은 모두 이차원 영상에서 물체의 형태 및 색상 중 일부만을 보고 의미론적 분할을 수행해 얻어낸 결과이다.
최종 메시의 각 정점의 부류를 정하기 위해서는 간단히 가장 높은 확률을 갖는 부류를 선택하면 된다.
혼합과정에서는 각 복셀의 부류 정보마다 수학식 1과 같은 업데이트가 수행된다.
Figure pat00021
여기서
Figure pat00022
Figure pat00023
는 각각 복셀
Figure pat00024
의 t-1번째 프레임까지 통합된 부류 확률과 신뢰도 가중치를 의미한다.
Figure pat00025
Figure pat00026
는 각각 t번째 프레임에서 픽셀 p의 부류 확률과 신뢰도 가중치를 나타낸다. 만약 분류할 부류가 20개라면
Figure pat00027
는 20차원 벡터가 된다.
매 프레임의 픽셀의 부류 확률을 같은 가중치(
Figure pat00028
로 처리하게 되면 여전히 부정확한 결과를 얻을 수 있다. 이를 경감하기 위해 본 발명은 수학식 2와 같은 적응적 가중치를 활용한다.
Figure pat00029
여기서
Figure pat00030
는 깊이 기반 정확도 가중치이고,
Figure pat00031
는 전·배경 경계 오정렬 가중치이다. 관련 가중치 맵은 도 2에서 확인할 수 있다.
일반적으로 CNN(convolution neural network)은 고정된 수용영역(receptive field) 크기를 갖고 있고, 의미론적 분할의 정확도는 영상에서의 객체 크기에 따라 다양해진다. 깊이 기반 정확도 가중치
Figure pat00032
는 이를 반영하기 위한 가중치이다.
깊이 영상의 기반 정확도 가중치를 계산하기 위해서 본 발명에서 사용한 딥 러닝 기반 방법론인 RDFNet(비특허문헌 4 참조)의 이차원 의미론적 분할결과의 성능을 계산해야 한다. 우선 Training set의 깊이 및 색상 영상을 RDFNet의 입력으로 받아 의미론적 분할 결과를 추정한다. 의미론적 분할 영상에는 각 픽셀 마다 추정된 부류 정보(20 개의 부류 중에 하나)가 저장되어 있고, 이를 참 값(Ground truth)과의 비교를 통해 깊이 값에 대한 의미론적 분할 결과의 평균 성능을 계산할 수 있다. 이를 그래프로 그리면 도 3의 파란색 실선과 같다. 이는 이산적인 깊이 값에 대한 그래프며, 따라서 연속된(continuous) 깊이 값에 대한 노이즈 제거된 가중치 그래프를 획득하기 위해 4차 다항식으로 피팅(Fitting)을 수행한다. 그 결과는 도 2에 노란색 실선으로 나타난다. 깊이 기반 정확도 가중치
Figure pat00033
는 이와 같이 피팅된 다항식 함수를 통해 결정된다.
의미론적 분할 결과는 주로 색상 영상에 의존하며 깊이 영상은 보충적으로 사용된다. 그러나 RGBD 카메라의 캘리브레이션(calibration)이 잘 되었을지라도 여전히 색상과 깊이 영상 사이에서의 오정렬이 존재하기 마련이다. 특히, 이런 오정렬은 전경(물체)과 배경 (주로 벽과 바닥)사이에서 심화된다. 이러한 오정렬은 결과적으로 경계 주변의 복셀에서의 잘못된 레이블링을 가져오게 된다. 본 발명은 이런 문제를 완화하기 위해 깊이 영상의 에지(edge)를 탐지하고 이를 바탕으로 가중치를 생성한다.
에지를 판별하고 가중치를 결정하는 방법은 다음과 같다. 픽셀에서 7x7 윈도우를 씌워 편차가 미리 정해진 상수 값보다 큰 경우 에지라고 탐지하고, 수학식 3을 통해 가중치를 결정한다.
Figure pat00034
Figure pat00035
여기서
Figure pat00036
,
Figure pat00037
은 각각 현재 픽셀
Figure pat00038
의 깊이 값, 픽셀
Figure pat00039
위치를 중심으로 한 윈도우 안에서 최소 깊이 값 및 최대 깊이 값을 의미한다.
Figure pat00040
,
Figure pat00041
는 양의 상수를 의미한다.
혼합과정이 끝나면 각 복셀마다 수학식 1을 통해 혼합된 20개의 확률이 존재한다. 현재 장면은 복셀 그리드 형태로 표현되어 있으므로, 이를 보통 그래픽스에서 표현하는 메시 형태로 바꾸기 위해서는 마칭큐브(Marching cubes) 알고리즘이 필요하다. 일반적인 경우에는 복셀에 TSDF값 혹은 색상 값이 포함되어 있는데, 본 발명의 경우 20개의 확률이 존재하므로 마칭큐브(Marching cubes) 과정에서 확률 값을 양선형 보간하여 최종적으로 메시의 각 정점의 20개 확률 값을 결정한다.
앞선 과정을 통해 20개 부류 확률을 포함한 메시가 추출되면, 도 5의 왼쪽처럼 주요 부류에 대한 확률맵을 얻을 수 있으며, 최종적인 의미론적 분할 결과는 각 정점에 대해서 가장 높은 확률을 갖는 부류를 선택함으로써 얻을 수 있다(도 5의 오른쪽 참조).
도 5는 실내 환경 복원에서 본 발명에 의한 의미론적 분할 결과를 도시한 것이다.
한편, 상술한 본 발명의 실시예는 개인용 컴퓨터를 포함한 범용 컴퓨터에서 사용되는 매체에 기록될 수 있다. 상기 매체는 마그네틱 기록매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독매체(예를 들면, 씨디롬, 디브이디 등) 및 전기적 기록매체(예를 들면, 플레쉬 메모리, 메모리 스틱 등)와 같은 기록매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예는 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (8)

  1. (a) 다중의 2차원 입력 영상에 대하여, 각 입력 영상의 색상 영상(RGB)과 대응하는 깊이 영상(Depth)을 활용하여 딥러닝 기반 픽셀단위 의미론적 분할을 수행하여 각 픽셀마다 객체 부류에 따른 확률 정보를 획득하는 단계;
    (b) 각 픽셀마다 획득한 확률 정보를 복셀 그리드에 레이캐스팅으로 업데이트 하는 단계;
    (c) 마칭큐브 알고리즘에 의해 상기 복셀 그리드에서 메시 모델을 추출하는 단계; 및
    (d) 상기 메시 모델에서 각 정점에 대해서 가장 높은 확률을 갖는 부류를 선택함으로써 삼차원 복원 모델의 의미론적 분할을 수행하는 단계;를 포함함을 특징으로 하는 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법.
  2. 제1항에 있어서, 상기 (b) 단계는
    각 픽셀의 객체 부류에 따른 확률 정보에 물체의 카메라로부터의 거리 및 전·배경 경계에 따라 결정된 가중치를 부가하여 해당 픽셀에 대응되는 복셀에 저장된 객체 부류에 따른 확률 정보에 가중 평균하여 업데이트 하는 것을 특징으로 하는 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법.
  3. 제1항에 있어서, 상기 (c) 단계의 메시 모델의 각 정점(vertex)의 확률은 양선형 보간(bilinear interpolation)을 통해 결정됨을 특징으로 하는 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법.
  4. 제3항에 있어서, 픽셀의 확률 정보, 가중치 및 정점의 확률은 각각 객체 부류의 개수만큼의 차원을 갖는 벡터임을 특징으로 하는 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법.
  5. 제2항에 있어서,
    상기 (b) 단계에서 각 복셀
    Figure pat00042
    의 t번째 프레임까지 통합된 부류 확률은 수학식
    Figure pat00043

    (여기서
    Figure pat00044
    Figure pat00045
    는 각각 복셀
    Figure pat00046
    의 t-1번째 프레임까지 통합된 부류 확률과 신뢰도 가중치이고,
    Figure pat00047
    Figure pat00048
    는 각각 t번째 프레임에서 픽셀 p의 부류 확률과 신뢰도 가중치이다)
    에 의해 산출되고,
    신뢰도 가중치
    Figure pat00049
    는 수학식
    Figure pat00050

    (여기서
    Figure pat00051
    는 깊이 기반 정확도 가중치이고,
    Figure pat00052
    는 전·배경 경계 오정렬 가중치이다)
    에 의해 산출되는 것을 특징으로 하는 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법.
  6. 제5항에 있어서, 전·배경 경계 오정렬 가중치
    Figure pat00053
    는 수학식
    Figure pat00054

    Figure pat00055

    (여기서
    Figure pat00056
    ,
    Figure pat00057
    은 각각 현재 픽셀
    Figure pat00058
    의 깊이 값, 픽셀
    Figure pat00059
    위치를 중심으로 한 윈도우 안에서 최소 깊이 값 및 최대 깊이 값이고,
    Figure pat00060
    ,
    Figure pat00061
    는 양의 상수이다)
    에 의해 산출되는 것을 특징으로 하는 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법.
  7. 제1항 내지 제6항 중 어느 한 항의 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
  8. 제1항 내지 제6항 중 어느 한 항의 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법을 컴퓨터에서 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
KR1020180170999A 2018-12-27 2018-12-27 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법 KR102169243B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180170999A KR102169243B1 (ko) 2018-12-27 2018-12-27 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180170999A KR102169243B1 (ko) 2018-12-27 2018-12-27 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법

Publications (2)

Publication Number Publication Date
KR20200080970A true KR20200080970A (ko) 2020-07-07
KR102169243B1 KR102169243B1 (ko) 2020-10-23

Family

ID=71603356

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180170999A KR102169243B1 (ko) 2018-12-27 2018-12-27 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법

Country Status (1)

Country Link
KR (1) KR102169243B1 (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968133A (zh) * 2020-07-31 2020-11-20 上海交通大学 自动驾驶场景下的三维点云数据实例分割方法及系统
CN112085840A (zh) * 2020-09-17 2020-12-15 腾讯科技(深圳)有限公司 语义分割方法、装置、设备及计算机可读存储介质
CN112270644A (zh) * 2020-10-20 2021-01-26 西安工程大学 基于空间特征变换和跨尺度特征集成的人脸超分辨方法
CN113569856A (zh) * 2021-07-13 2021-10-29 盎锐(上海)信息科技有限公司 用于实测实量的模型语义分割方法及激光雷达
CN114708321A (zh) * 2022-01-12 2022-07-05 北京航空航天大学 一种基于语义的相机位姿估计方法及系统
WO2022240250A1 (ko) * 2021-05-14 2022-11-17 (주)로보티즈 3차원 지도 정보를 이용한 의미론적 분할 방법 및 시스템
CN116721143A (zh) * 2023-08-04 2023-09-08 南京诺源医疗器械有限公司 3d医学图像的深度信息处理装置及方法
CN116993752A (zh) * 2023-09-27 2023-11-03 中国人民解放军国防科技大学 实景三维Mesh模型语义分割方法、介质和系统
CN113569856B (zh) * 2021-07-13 2024-06-04 盎锐(杭州)信息科技有限公司 用于实测实量的模型语义分割方法及激光雷达

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102607748B1 (ko) 2022-07-19 2023-11-29 중앙대학교 산학협력단 다중 작업 적응을 적용한 영상 분석 장치 및 방법
KR20240051511A (ko) 2022-10-13 2024-04-22 배혜림 멀티-뷰 컬러 영상들을 활용하는 3차원 포인트 클라우드의 의미적 분할 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140007367A (ko) * 2011-01-31 2014-01-17 마이크로소프트 코포레이션 삼차원 환경 재구성
KR101437228B1 (ko) * 2012-11-13 2014-09-02 재단법인대구경북과학기술원 입체영상에서의 외곽선 가중치 기반 장애물 영역 검출 장치 및 방법
JP2018515197A (ja) * 2015-04-29 2018-06-14 シーメンス アクチエンゲゼルシヤフトSiemens Aktiengesellschaft 腹腔鏡および内視鏡による2d/2.5d画像データにおけるセマンティックセグメンテーションのための方法およびシステム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140007367A (ko) * 2011-01-31 2014-01-17 마이크로소프트 코포레이션 삼차원 환경 재구성
KR101437228B1 (ko) * 2012-11-13 2014-09-02 재단법인대구경북과학기술원 입체영상에서의 외곽선 가중치 기반 장애물 영역 검출 장치 및 방법
JP2018515197A (ja) * 2015-04-29 2018-06-14 シーメンス アクチエンゲゼルシヤフトSiemens Aktiengesellschaft 腹腔鏡および内視鏡による2d/2.5d画像データにおけるセマンティックセグメンテーションのための方法およびシステム

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
(TOG) (1987), vol. 21, ACM, pp. 163-169
Dai A., Chang A. X., Savva M., Halber M., Funkhouser T., Niessner M. "Scannet: Richly-annotated 3D reconstructions of indoor scenes," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
Dai A., Niessner M., Zollhofer M., Izadi S., Theobalt C.: Bundlefusion: Real-time globally consistent 3D reconstruction using on-the-fly surface reintegration. ACM Transactions on Graphics (TOG) 36, 3 (2017), 24
Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture, ACCV 2016 *
Liangliang Nan, Ke Xie, and Andrei Sharf. "A search-classify approach for cluttered indoor scene understanding," ACM Trans. on Graph., 31(6):137:1-137:10, 2012.
Lorensen W. E., Cline H. E.: Marching cubes: A high resolution 3D surface construction algorithm. In ACM Transactions on Graphics
Seong-Jin Park, Ki-Sang Hong, Seungyong Lee. "RDFNet: RGB-D Multi-Level Residual Feature Fusion for Indoor Semantic Segmentation," The IEEE International Conference on Computer Vision (ICCV), 2017, pp. 4980-4989.
Tianjia Shao, Weiwei Xu, Kun Zhou, Jingdong Wang, Dongping Li, and Baining Guo. "An interactive approach to semantic modeling of indoor scenes with an RGBD camera," ACM Trans. on Graph., 31(6):136:1-11, 2012.
깊이 슈퍼 픽셀을 이용한 실내 장면의 의미론적 분할 방법, Journal of Korea Multimedia Society Vol. 19, No. 3, 2016 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968133A (zh) * 2020-07-31 2020-11-20 上海交通大学 自动驾驶场景下的三维点云数据实例分割方法及系统
CN112085840B (zh) * 2020-09-17 2024-03-29 腾讯科技(深圳)有限公司 语义分割方法、装置、设备及计算机可读存储介质
CN112085840A (zh) * 2020-09-17 2020-12-15 腾讯科技(深圳)有限公司 语义分割方法、装置、设备及计算机可读存储介质
CN112270644A (zh) * 2020-10-20 2021-01-26 西安工程大学 基于空间特征变换和跨尺度特征集成的人脸超分辨方法
CN112270644B (zh) * 2020-10-20 2024-05-28 饶金宝 基于空间特征变换和跨尺度特征集成的人脸超分辨方法
WO2022240250A1 (ko) * 2021-05-14 2022-11-17 (주)로보티즈 3차원 지도 정보를 이용한 의미론적 분할 방법 및 시스템
CN113569856A (zh) * 2021-07-13 2021-10-29 盎锐(上海)信息科技有限公司 用于实测实量的模型语义分割方法及激光雷达
CN113569856B (zh) * 2021-07-13 2024-06-04 盎锐(杭州)信息科技有限公司 用于实测实量的模型语义分割方法及激光雷达
CN114708321A (zh) * 2022-01-12 2022-07-05 北京航空航天大学 一种基于语义的相机位姿估计方法及系统
CN116721143A (zh) * 2023-08-04 2023-09-08 南京诺源医疗器械有限公司 3d医学图像的深度信息处理装置及方法
CN116721143B (zh) * 2023-08-04 2023-10-20 南京诺源医疗器械有限公司 3d医学图像的深度信息处理装置及方法
CN116993752B (zh) * 2023-09-27 2024-01-09 中国人民解放军国防科技大学 实景三维Mesh模型语义分割方法、介质和系统
CN116993752A (zh) * 2023-09-27 2023-11-03 中国人民解放军国防科技大学 实景三维Mesh模型语义分割方法、介质和系统

Also Published As

Publication number Publication date
KR102169243B1 (ko) 2020-10-23

Similar Documents

Publication Publication Date Title
KR102169243B1 (ko) 이차원 의미론적 분할 정보의 점진적인 혼합을 통한 삼차원 복원 모델의 의미론적 분할 방법
Shivakumar et al. Dfusenet: Deep fusion of rgb and sparse depth information for image guided dense depth completion
Cadena et al. Multi-modal Auto-Encoders as Joint Estimators for Robotics Scene Understanding.
Zhang et al. Multi-scale single image dehazing using perceptual pyramid deep network
Li et al. A two-streamed network for estimating fine-scaled depth maps from single rgb images
US8818082B2 (en) Classifying blur state of digital image pixels
JP7403528B2 (ja) シーンの色及び深度の情報を再構成するための方法及びシステム
US8885941B2 (en) System and method for estimating spatially varying defocus blur in a digital image
Watson et al. Learning stereo from single images
US8737723B1 (en) Fast randomized multi-scale energy minimization for inferring depth from stereo image pairs
JP5108893B2 (ja) 2次元画像から3次元パーティクル・システムを復元するためのシステムおよび方法
WO2021027759A1 (en) Facial image processing
Lee et al. Silhouette segmentation in multiple views
EP3326156B1 (en) Consistent tessellation via topology-aware surface tracking
Pan et al. Automatic segmentation of point clouds from multi-view reconstruction using graph-cut
EP3973507B1 (en) Segmentation for holographic images
US20230130281A1 (en) Figure-Ground Neural Radiance Fields For Three-Dimensional Object Category Modelling
Liao et al. Adaptive depth estimation for pyramid multi-view stereo
Satapathy et al. Robust depth map inpainting using superpixels and non-local Gauss–Markov random field prior
KR20210058638A (ko) 이미지 처리 장치 및 방법
KR20230083212A (ko) 객체 자세 추정 장치 및 방법
US20230145498A1 (en) Image reprojection and multi-image inpainting based on geometric depth parameters
CN115391310A (zh) 数据迁移方法、装置、设备以及存储介质
CN113034675A (zh) 一种场景模型构建方法、智能终端及计算机可读存储介质
Saval-Calvo et al. Evaluation of sampling method effects in 3D non-rigid registration

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant