KR20240056222A - 적응형 깊이 추정기를 이용한 미지 물체의 자세 예측 - Google Patents

적응형 깊이 추정기를 이용한 미지 물체의 자세 예측 Download PDF

Info

Publication number
KR20240056222A
KR20240056222A KR1020220136590A KR20220136590A KR20240056222A KR 20240056222 A KR20240056222 A KR 20240056222A KR 1020220136590 A KR1020220136590 A KR 1020220136590A KR 20220136590 A KR20220136590 A KR 20220136590A KR 20240056222 A KR20240056222 A KR 20240056222A
Authority
KR
South Korea
Prior art keywords
pose
depth
image
unit
prediction
Prior art date
Application number
KR1020220136590A
Other languages
English (en)
Inventor
송성호
Original Assignee
송성호
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 송성호 filed Critical 송성호
Priority to KR1020220136590A priority Critical patent/KR20240056222A/ko
Publication of KR20240056222A publication Critical patent/KR20240056222A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

미지 물체 자세 예측 시스템이 개시된다. 본 발명의 일 실시예에 따른 장면 그래프 생성 시스템은 확장된 Mask R-CNN을 이용하는 물체 공통 표현 예측부; 입력 영상에 맞게 적응적으로 깊이 지도를 추정하는 깊이 추정부, 최종적으로 상기 생성된 특징들을 서로 매칭시킴으로써 영상 내 물체의 자세를 예측하는 물체 자세 예측부를 포함한다.

Description

적응형 깊이 추정기를 이용한 미지 물체의 자세 예측{Predicting Unseen Object Pose with an Adaptive Depth Estimator}
본 발명의 일 실시예는 깊이 추정을 사용하여 영상을 기반으로 물체를 인식하고 그들의 위치, 회전을 포함한 자세를 예측하는 시스템에 관한 발명이다.
3차원 공간에서 물체의 6D 자세 예측은 카메라를 중심으로 특정 물체의 3축 회전과 3축 변환를 알아내는 기술이다. 따라서 일반적으로 물체의 6D 자세 예측은 해당 물체를 둘러싸는 직육면체 형태의 경계 상자를 알아내려는 3차원 물체 탐지보다 더 높은 정밀도를 요구하는 작업이다.
물체의 6D 자세 예측에 관한 과거 연구들은 대부분 대상 물체의 정확한 3차원 CAD 모델을 이용하는 개체-수준 자세 예측 방식을 채택하였다. 최근에 와서는 이러한 개체-수준의 자세 예측기들은 매우 높은 수준의 자세 정확도를 얻는 데 성공하였으나, 인식 대상 물체마다 모두 3차원 CAD 모델이 확보되어야만 자세 예측이 가능하다는 한계는 뛰어넘지 못하고 있다. 반면에, 최근 들어서는 이러한 개체-수준의 자세 예측기들의 한계성을 극복하기 위해, 인식 대상 물체가 속한 범주나 동일 범주의 다른 개체들의 3차원 표현은 알 수 있으나 해당 물체의 3차원 CAD 모델은 가지고 있지 않다고 가정하는 미지 물체에 관한 범주-수준의 자세 예측에 관한 연구가 활발하다.
범주 수준의 물체 자세 예측을 위한 기존 연구들에서는 각 개체별 3차원 모델 대신 각 개체가 속한 범주(category)별로 해당 범주의 모든 개체들이 공유할 수 있는 공통의 3차원 표현을 활용하여 해당 물체의 6D 자세를 예측해낸다.
제 10-2021-0043632호 (발명의 명칭: 물체 자세 추정 방법 및 장치, 공고 일자 2021.04.21.)
본 발명의 일 실시예의 목적은 별도의 깊이 지도를 입력 데이터로 요구하는 기존 방식들과 달리, 깊이 추정 신경망을 이용하여 RGB 컬러 영상만을 이용해 미지 물체들의 자세를 추정해낼 수 있는 새로운 범주-수준 자세 예측 시스템을 제공하는 것이다.
본 발명의 일 실시예에 따른 적응형 깊이 추정기를 이용한 미지 물체의 자세 예측 모델은 범주형 공통 표현 예측, 깊이 추정, 그리고 자세 추정의 3단계로 이루어진다.
바람직하게는, 범주형 공통 표현 예측 단계는 공통 표현 예측 헤드가 추가된 Mask-RCNN 신경망 모듈을 통하여 입력 영상 내에 존재하는 물체들의 범주에 해당되는 공통 표현을 예측하며 물체 마스크를 기초로 3차원 공통 표현을 구한다.
바람직하게는, 깊이 추정 단계는 인코더-디코더 구조에 트랜스포머 기반 블록이 추가된 깊이 추정 신경망 모듈을 통하여 입력 RGB 영상에 맞게 깊이 범위를 다수의 구간들로 나누어 적응적으로 추정된다.
바람직하게는, 추정된 깊이 지도로 부터 얻어낸 3차원 포인트 클라우드와 예측된 3차원 범주형 공통 표현을 매칭하여 영상에 존재하는 물체의 자세를 예측해낸다.
본 발명에서는 깊이 지도를 추가 입력으로 요구하는 기존 연구 모델들과는 달리, RGB 컬러 영상만을 이용해 미지 물체들의 자세를 추정해낼 수 있는 새로운 범주-수준 자세 추정 신경망 모델을 제안하였다. 제안 모델에서는 단안 카메라 깊이 추정기를 이용하여 깊이 측정 센서 없이도 물체 자세 추정에 필요한 깊이 지도를 RGB 컬러 영상에서 구해낼 수 있다. 이러한 깊이 추정기를 이용한 깊이 지도 예측은 입력 데이터의 편의성이 증대된 자세 추정 시스템을 제공한다.
도 1a은 본 발명의 실시예에 따른 적응형 깊이 추정기를 이용한 미지 물체 자세 예측 시스템을 설명하기 위하여 도시한 블록도이다. 도 1b는 본 발명의 일 실시예에 따른 적응형 깊이 추정기를 이용한 미지 물체 자세 예측 시스템을 구체적으로 구현한 블록도이다.
도2는 물체 공통 표현 추론을 설명하기 위하여 도시한 블록도이다.
도3은 깊이 추정을 설명하기 위하여 도시한 블록도이다.
도4는 자세 예측을 설명하기 위하여 도시한 블록도이다
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
[실시예]
도 1은 본 발명의 실시예에 따른 적응형 깊이 추정기를 이용한 미지 물체 자세 예측 시스템을 도시한 도면이다. 도1을 참조하면 본 발명의 일 실시예에 따른 적응형 깊이 추정기를 이용한 미지 물체 자세 예측 시스템(100)은 물체 공통 표현 예측부(140), 깊이 추정부(180), 물체 자세 예측부(220)를 포함한다.
물체 공통 표현 예측부(140)는 입력으로 주어지는 영상에서 확장된 Mask R-CNN 모듈은 합성 곱 신경망(Convolutional Neural Network, CNN)을 통해 RGB 입력 영상으로부터 시각적 특징 지도(visual feature map)를 추출한 후, 관심 영역 제안 망(Region Proposal Network, RPN)을 통해 영상 내의 관심 영역들을 구한다. 그리고 각 관심 영역별로 물체의 종류(class), 물체의 경계 상자(bounding box, bbox), 물체의 마스크(mask), 물체의 공통 표현 등을 예측한다.
깊이 추정부(180)은 입력 RGB 영상에 맞게 깊이 범위(depth range)를 다수의 구간들(bins)로 나누며, 각 구간의 중심 값은 적응적으로 추정하여 최종적으로 이미지 전체에 대응되는 깊이 지도를 예측한다.
물체 자세 예측부(220)는 앞서 구해진 물체의 공통 표현과 물체 포인트 클라우드를 매칭하여 자세를 예측한다.
도 1b를 참조하면 물체 공통 표현 예측부(140)은 물체 영역 제안부(150), 물체 공통 표현 예측부(160)로 구성되며 물체 및 깊이 추정부(180)는 인코더디코더(190), 적응형 깊이 구간 추론부(200), 트랜스포머 서브 블록(206), 깊이 구간 중심 추론부(212), 복합 회귀부(218)로 구성된다. 또한 물체 자세 예측부(220)는 3차원 확장부(230), 자세 매칭부(240)로 구성된다.
도 2는 물체 공통 표현 추론을 설명하기 위하여 도시한 블록도이다.
도 2를 참조하면 본 발명의 일 실시예에 따른 물체 공통 표현 추론은 각 물체 관심 영역 제안과 공통 표현 추론 과정을 포함한다. 물체 영역 제안부(150)는 합성 곱 신경망(Convolutional Neural Network, CNN)을 통해 RGB 입력 영상으로부터 시각적 특징 지도(visual feature map)를 추출한 후, 관심 영역 제안 망(Region Proposal Network, RPN)을 통해 영상 내의 관심 영역들을 구한다. 그리고 각 관심 영역별로 물체의 종류(class), 물체의 경계 상자(bounding box, bbox), 물체의 마스크(mask), 물체의 범주별 공통 표현(NOCS map) 등을 예측한다.
도 3은 깊이 추정을 설명하기 위하여 도시한 블록도이다.
도 3을 그래프 추론은 각각 인코더 디코더(190)과 적응형 깊이 추론 단계를 나타내는 트랜스포머 블록으로 이루어진 적응형 깊이 추론부(200)의 2개 계층으로 구성된다. 적응적 깊이 추론 단계의 결과인 입력 영상에 대응되는 예측된 깊이 지도가 물체 자세 예측 단계 초기의 3차원 확장부(230)의 입력으로 제공된다.
도 4는 물체 자세 예측을 설명하기 위하여 도시한 블록도이다.
도 4를 참조하면 물체 자세 예측부(220)는 물체 3차원 확장과 자세 매칭을 포함한다. 3차원 확장부(230)를 거쳐 얻어진 물체의 범주별 공통 표현과 포인트 클라우드 두 가지가 자세 매칭부의 입력으로 제공된다. 마지막으로 자세 매칭부(240)에서는 각 물체의 범주별 공통 표현과 포인트 클라우드를 서로 매칭함으로써 해당 물체의 6D 자세와 크기를 예측한다.

Claims (1)

  1. 단일 RGB 입력 영상을 통해 추정된 깊이 지도로부터 얻어진 물체 포인트 클라우드와 예측된 범주별 물체 공통 표현을 이용하여 각 물체의 자세를 추정하는 미지 물체 자세 예측 시스템.
    물체 공통 표현 예측부는
    시각적 특징 지도(visual feature map)과 영상 내의 관심 영역을 이용하여. 물체의 종류(class), 물체의 경계 상자(bounding box, bbox), 물체의 마스크(mask), 물체의 공통 표현을 예측하는 물 체 공통 표현 예측 시스템.
    깊이 추정부는
    입력 RGB 영상에 맞게 깊이 범위(depth range)를 다수의 구간들(bins)로 나누며, 각 구간의 중심 값은 적응적으로 추정하여 최종적으로 이미지 전체에 대응되는 깊이 지도를 예측하는 적응형 깊이 예측 시스템.
    물체 자세 예측부는
    물체 공통 표현 예측부와 깊이 추정부에서 구성된 물체 공통 표현과 깊이 지도를 3차원 확장부를 통해 2차원에서 3차원으로 확장한 후, 2개의 표현을 서로 매칭함으로써 영상 내 각 물체들의 자세를 예측하는 미지 물체 자세 예측 시스템.
KR1020220136590A 2022-10-21 2022-10-21 적응형 깊이 추정기를 이용한 미지 물체의 자세 예측 KR20240056222A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220136590A KR20240056222A (ko) 2022-10-21 2022-10-21 적응형 깊이 추정기를 이용한 미지 물체의 자세 예측

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220136590A KR20240056222A (ko) 2022-10-21 2022-10-21 적응형 깊이 추정기를 이용한 미지 물체의 자세 예측

Publications (1)

Publication Number Publication Date
KR20240056222A true KR20240056222A (ko) 2024-04-30

Family

ID=90884502

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220136590A KR20240056222A (ko) 2022-10-21 2022-10-21 적응형 깊이 추정기를 이용한 미지 물체의 자세 예측

Country Status (1)

Country Link
KR (1) KR20240056222A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210043632A (ko) 2019-02-23 2021-04-21 선전 센스타임 테크놀로지 컴퍼니 리미티드 물체 자세 추정 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210043632A (ko) 2019-02-23 2021-04-21 선전 센스타임 테크놀로지 컴퍼니 리미티드 물체 자세 추정 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation" (H. Wang, IEEE Computer Vision and Pattern Conference(2019.)와 "LatentFusion: End-to-End Differentiable Reconstruction and Rendering for Unseen Object Pose Prediction" (K. Park, IEEE Computer Vision and Pattern Conference(2019.)

Similar Documents

Publication Publication Date Title
KR102126724B1 (ko) 포인트 클라우드 데이터를 복구하기 위한 방법 및 장치
CN112529015B (zh) 一种基于几何解缠的三维点云处理方法、装置及设备
CN110688905B (zh) 一种基于关键帧的三维物体检测与跟踪方法
CN112991413A (zh) 自监督深度估测方法和系统
CN110675418A (zh) 一种基于ds证据理论的目标轨迹优化方法
CN110689562A (zh) 一种基于生成对抗网络的轨迹回环检测优化方法
CN114758337B (zh) 一种语义实例重建方法、装置、设备及介质
CN106780543A (zh) 一种基于卷积神经网络的双框架估计深度和运动方法
CN111462324B (zh) 一种在线时空语义融合方法和系统
CN113255514B (zh) 基于局部场景感知图卷积网络的行为识别方法
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
CN116519106B (zh) 一种用于测定生猪体重的方法、装置、存储介质和设备
CN113112547A (zh) 机器人及其重定位方法、定位装置及存储介质
Yang et al. [Retracted] A Method of Image Semantic Segmentation Based on PSPNet
CN116721139A (zh) 生成图像数据的深度图像
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN117078753A (zh) 基于相机的渐进式特征分布采样6d位姿估计方法及系统
CN113408550B (zh) 基于图像处理的智能称重管理系统
CN118351410A (zh) 一种基于稀疏代理注意力的多模态三维检测方法
CN114155406A (zh) 一种基于区域级特征融合的位姿估计方法
CN112950786A (zh) 一种基于神经网络的车辆三维重建方法
CN117037102A (zh) 对象跟随方法、装置、计算机设备和存储介质
CN116625383A (zh) 一种基于多传感器融合的道路车辆感知方法
CN114943762B (zh) 一种基于事件相机的双目视觉里程计方法
KR20240056222A (ko) 적응형 깊이 추정기를 이용한 미지 물체의 자세 예측