KR20240056222A

KR20240056222A - 적응형 깊이 추정기를 이용한 미지 물체의 자세 예측

Info

Publication number: KR20240056222A
Application number: KR1020220136590A
Authority: KR
Inventors: 송성호
Original assignee: 송성호
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2024-04-30

Abstract

미지 물체 자세 예측 시스템이 개시된다. 본 발명의 일 실시예에 따른 장면 그래프 생성 시스템은 확장된 Mask R-CNN을 이용하는 물체 공통 표현 예측부; 입력 영상에 맞게 적응적으로 깊이 지도를 추정하는 깊이 추정부, 최종적으로 상기 생성된 특징들을 서로 매칭시킴으로써 영상 내 물체의 자세를 예측하는 물체 자세 예측부를 포함한다.

Description

적응형 깊이 추정기를 이용한 미지 물체의 자세 예측{Predicting Unseen Object Pose with an Adaptive Depth Estimator}

본 발명의 일 실시예는 깊이 추정을 사용하여 영상을 기반으로 물체를 인식하고 그들의 위치, 회전을 포함한 자세를 예측하는 시스템에 관한 발명이다.

3차원 공간에서 물체의 6D 자세 예측은 카메라를 중심으로 특정 물체의 3축 회전과 3축 변환를 알아내는 기술이다. 따라서 일반적으로 물체의 6D 자세 예측은 해당 물체를 둘러싸는 직육면체 형태의 경계 상자를 알아내려는 3차원 물체 탐지보다 더 높은 정밀도를 요구하는 작업이다.

물체의 6D 자세 예측에 관한 과거 연구들은 대부분 대상 물체의 정확한 3차원 CAD 모델을 이용하는 개체-수준 자세 예측 방식을 채택하였다. 최근에 와서는 이러한 개체-수준의 자세 예측기들은 매우 높은 수준의 자세 정확도를 얻는 데 성공하였으나, 인식 대상 물체마다 모두 3차원 CAD 모델이 확보되어야만 자세 예측이 가능하다는 한계는 뛰어넘지 못하고 있다. 반면에, 최근 들어서는 이러한 개체-수준의 자세 예측기들의 한계성을 극복하기 위해, 인식 대상 물체가 속한 범주나 동일 범주의 다른 개체들의 3차원 표현은 알 수 있으나 해당 물체의 3차원 CAD 모델은 가지고 있지 않다고 가정하는 미지 물체에 관한 범주-수준의 자세 예측에 관한 연구가 활발하다.

범주 수준의 물체 자세 예측을 위한 기존 연구들에서는 각 개체별 3차원 모델 대신 각 개체가 속한 범주(category)별로 해당 범주의 모든 개체들이 공유할 수 있는 공통의 3차원 표현을 활용하여 해당 물체의 6D 자세를 예측해낸다.

제 10-2021-0043632호 (발명의 명칭: 물체 자세 추정 방법 및 장치, 공고 일자 2021.04.21.)

"Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation" (H. Wang, IEEE Computer Vision and Pattern Conference(2019.)와 "LatentFusion: End-to-End Differentiable Reconstruction and Rendering for Unseen Object Pose Prediction" (K. Park, IEEE Computer Vision and Pattern Conference(2019.)

본 발명의 일 실시예의 목적은 별도의 깊이 지도를 입력 데이터로 요구하는 기존 방식들과 달리, 깊이 추정 신경망을 이용하여 RGB 컬러 영상만을 이용해 미지 물체들의 자세를 추정해낼 수 있는 새로운 범주-수준 자세 예측 시스템을 제공하는 것이다.

본 발명의 일 실시예에 따른 적응형 깊이 추정기를 이용한 미지 물체의 자세 예측 모델은 범주형 공통 표현 예측, 깊이 추정, 그리고 자세 추정의 3단계로 이루어진다.

바람직하게는, 범주형 공통 표현 예측 단계는 공통 표현 예측 헤드가 추가된 Mask-RCNN 신경망 모듈을 통하여 입력 영상 내에 존재하는 물체들의 범주에 해당되는 공통 표현을 예측하며 물체 마스크를 기초로 3차원 공통 표현을 구한다.

바람직하게는, 깊이 추정 단계는 인코더-디코더 구조에 트랜스포머 기반 블록이 추가된 깊이 추정 신경망 모듈을 통하여 입력 RGB 영상에 맞게 깊이 범위를 다수의 구간들로 나누어 적응적으로 추정된다.

바람직하게는, 추정된 깊이 지도로 부터 얻어낸 3차원 포인트 클라우드와 예측된 3차원 범주형 공통 표현을 매칭하여 영상에 존재하는 물체의 자세를 예측해낸다.

본 발명에서는 깊이 지도를 추가 입력으로 요구하는 기존 연구 모델들과는 달리, RGB 컬러 영상만을 이용해 미지 물체들의 자세를 추정해낼 수 있는 새로운 범주-수준 자세 추정 신경망 모델을 제안하였다. 제안 모델에서는 단안 카메라 깊이 추정기를 이용하여 깊이 측정 센서 없이도 물체 자세 추정에 필요한 깊이 지도를 RGB 컬러 영상에서 구해낼 수 있다. 이러한 깊이 추정기를 이용한 깊이 지도 예측은 입력 데이터의 편의성이 증대된 자세 추정 시스템을 제공한다.

도 1a은 본 발명의 실시예에 따른 적응형 깊이 추정기를 이용한 미지 물체 자세 예측 시스템을 설명하기 위하여 도시한 블록도이다. 도 1b는 본 발명의 일 실시예에 따른 적응형 깊이 추정기를 이용한 미지 물체 자세 예측 시스템을 구체적으로 구현한 블록도이다.
도2는 물체 공통 표현 추론을 설명하기 위하여 도시한 블록도이다.
도3은 깊이 추정을 설명하기 위하여 도시한 블록도이다.
도4는 자세 예측을 설명하기 위하여 도시한 블록도이다

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

[실시예]

도 1은 본 발명의 실시예에 따른 적응형 깊이 추정기를 이용한 미지 물체 자세 예측 시스템을 도시한 도면이다. 도1을 참조하면 본 발명의 일 실시예에 따른 적응형 깊이 추정기를 이용한 미지 물체 자세 예측 시스템(100)은 물체 공통 표현 예측부(140), 깊이 추정부(180), 물체 자세 예측부(220)를 포함한다.

물체 공통 표현 예측부(140)는 입력으로 주어지는 영상에서 확장된 Mask R-CNN 모듈은 합성 곱 신경망(Convolutional Neural Network, CNN)을 통해 RGB 입력 영상으로부터 시각적 특징 지도(visual feature map)를 추출한 후, 관심 영역 제안 망(Region Proposal Network, RPN)을 통해 영상 내의 관심 영역들을 구한다. 그리고 각 관심 영역별로 물체의 종류(class), 물체의 경계 상자(bounding box, bbox), 물체의 마스크(mask), 물체의 공통 표현 등을 예측한다.

깊이 추정부(180)은 입력 RGB 영상에 맞게 깊이 범위(depth range)를 다수의 구간들(bins)로 나누며, 각 구간의 중심 값은 적응적으로 추정하여 최종적으로 이미지 전체에 대응되는 깊이 지도를 예측한다.

물체 자세 예측부(220)는 앞서 구해진 물체의 공통 표현과 물체 포인트 클라우드를 매칭하여 자세를 예측한다.

도 1b를 참조하면 물체 공통 표현 예측부(140)은 물체 영역 제안부(150), 물체 공통 표현 예측부(160)로 구성되며 물체 및 깊이 추정부(180)는 인코더디코더(190), 적응형 깊이 구간 추론부(200), 트랜스포머 서브 블록(206), 깊이 구간 중심 추론부(212), 복합 회귀부(218)로 구성된다. 또한 물체 자세 예측부(220)는 3차원 확장부(230), 자세 매칭부(240)로 구성된다.

도 2는 물체 공통 표현 추론을 설명하기 위하여 도시한 블록도이다.

도 2를 참조하면 본 발명의 일 실시예에 따른 물체 공통 표현 추론은 각 물체 관심 영역 제안과 공통 표현 추론 과정을 포함한다. 물체 영역 제안부(150)는 합성 곱 신경망(Convolutional Neural Network, CNN)을 통해 RGB 입력 영상으로부터 시각적 특징 지도(visual feature map)를 추출한 후, 관심 영역 제안 망(Region Proposal Network, RPN)을 통해 영상 내의 관심 영역들을 구한다. 그리고 각 관심 영역별로 물체의 종류(class), 물체의 경계 상자(bounding box, bbox), 물체의 마스크(mask), 물체의 범주별 공통 표현(NOCS map) 등을 예측한다.

도 3은 깊이 추정을 설명하기 위하여 도시한 블록도이다.

도 3을 그래프 추론은 각각 인코더 디코더(190)과 적응형 깊이 추론 단계를 나타내는 트랜스포머 블록으로 이루어진 적응형 깊이 추론부(200)의 2개 계층으로 구성된다. 적응적 깊이 추론 단계의 결과인 입력 영상에 대응되는 예측된 깊이 지도가 물체 자세 예측 단계 초기의 3차원 확장부(230)의 입력으로 제공된다.

도 4는 물체 자세 예측을 설명하기 위하여 도시한 블록도이다.

도 4를 참조하면 물체 자세 예측부(220)는 물체 3차원 확장과 자세 매칭을 포함한다. 3차원 확장부(230)를 거쳐 얻어진 물체의 범주별 공통 표현과 포인트 클라우드 두 가지가 자세 매칭부의 입력으로 제공된다. 마지막으로 자세 매칭부(240)에서는 각 물체의 범주별 공통 표현과 포인트 클라우드를 서로 매칭함으로써 해당 물체의 6D 자세와 크기를 예측한다.

Claims

단일 RGB 입력 영상을 통해 추정된 깊이 지도로부터 얻어진 물체 포인트 클라우드와 예측된 범주별 물체 공통 표현을 이용하여 각 물체의 자세를 추정하는 미지 물체 자세 예측 시스템.
물체 공통 표현 예측부는
시각적 특징 지도(visual feature map)과 영상 내의 관심 영역을 이용하여. 물체의 종류(class), 물체의 경계 상자(bounding box, bbox), 물체의 마스크(mask), 물체의 공통 표현을 예측하는 물 체 공통 표현 예측 시스템.
깊이 추정부는
입력 RGB 영상에 맞게 깊이 범위(depth range)를 다수의 구간들(bins)로 나누며, 각 구간의 중심 값은 적응적으로 추정하여 최종적으로 이미지 전체에 대응되는 깊이 지도를 예측하는 적응형 깊이 예측 시스템.
물체 자세 예측부는
물체 공통 표현 예측부와 깊이 추정부에서 구성된 물체 공통 표현과 깊이 지도를 3차원 확장부를 통해 2차원에서 3차원으로 확장한 후, 2개의 표현을 서로 매칭함으로써 영상 내 각 물체들의 자세를 예측하는 미지 물체 자세 예측 시스템.