KR20240056222A - 적응형 깊이 추정기를 이용한 미지 물체의 자세 예측 - Google Patents
적응형 깊이 추정기를 이용한 미지 물체의 자세 예측 Download PDFInfo
- Publication number
- KR20240056222A KR20240056222A KR1020220136590A KR20220136590A KR20240056222A KR 20240056222 A KR20240056222 A KR 20240056222A KR 1020220136590 A KR1020220136590 A KR 1020220136590A KR 20220136590 A KR20220136590 A KR 20220136590A KR 20240056222 A KR20240056222 A KR 20240056222A
- Authority
- KR
- South Korea
- Prior art keywords
- pose
- depth
- image
- unit
- prediction
- Prior art date
Links
- 230000003044 adaptive effect Effects 0.000 title claims description 11
- 230000014509 gene expression Effects 0.000 claims description 17
- 230000000007 visual effect Effects 0.000 claims description 4
- 230000036544 posture Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000000034 method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000001514 detection method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
미지 물체 자세 예측 시스템이 개시된다. 본 발명의 일 실시예에 따른 장면 그래프 생성 시스템은 확장된 Mask R-CNN을 이용하는 물체 공통 표현 예측부; 입력 영상에 맞게 적응적으로 깊이 지도를 추정하는 깊이 추정부, 최종적으로 상기 생성된 특징들을 서로 매칭시킴으로써 영상 내 물체의 자세를 예측하는 물체 자세 예측부를 포함한다.
Description
본 발명의 일 실시예는 깊이 추정을 사용하여 영상을 기반으로 물체를 인식하고 그들의 위치, 회전을 포함한 자세를 예측하는 시스템에 관한 발명이다.
3차원 공간에서 물체의 6D 자세 예측은 카메라를 중심으로 특정 물체의 3축 회전과 3축 변환를 알아내는 기술이다. 따라서 일반적으로 물체의 6D 자세 예측은 해당 물체를 둘러싸는 직육면체 형태의 경계 상자를 알아내려는 3차원 물체 탐지보다 더 높은 정밀도를 요구하는 작업이다.
물체의 6D 자세 예측에 관한 과거 연구들은 대부분 대상 물체의 정확한 3차원 CAD 모델을 이용하는 개체-수준 자세 예측 방식을 채택하였다. 최근에 와서는 이러한 개체-수준의 자세 예측기들은 매우 높은 수준의 자세 정확도를 얻는 데 성공하였으나, 인식 대상 물체마다 모두 3차원 CAD 모델이 확보되어야만 자세 예측이 가능하다는 한계는 뛰어넘지 못하고 있다. 반면에, 최근 들어서는 이러한 개체-수준의 자세 예측기들의 한계성을 극복하기 위해, 인식 대상 물체가 속한 범주나 동일 범주의 다른 개체들의 3차원 표현은 알 수 있으나 해당 물체의 3차원 CAD 모델은 가지고 있지 않다고 가정하는 미지 물체에 관한 범주-수준의 자세 예측에 관한 연구가 활발하다.
범주 수준의 물체 자세 예측을 위한 기존 연구들에서는 각 개체별 3차원 모델 대신 각 개체가 속한 범주(category)별로 해당 범주의 모든 개체들이 공유할 수 있는 공통의 3차원 표현을 활용하여 해당 물체의 6D 자세를 예측해낸다.
"Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation" (H. Wang, IEEE Computer Vision and Pattern Conference(2019.)와 "LatentFusion: End-to-End Differentiable Reconstruction and Rendering for Unseen Object Pose Prediction" (K. Park, IEEE Computer Vision and Pattern Conference(2019.)
본 발명의 일 실시예의 목적은 별도의 깊이 지도를 입력 데이터로 요구하는 기존 방식들과 달리, 깊이 추정 신경망을 이용하여 RGB 컬러 영상만을 이용해 미지 물체들의 자세를 추정해낼 수 있는 새로운 범주-수준 자세 예측 시스템을 제공하는 것이다.
본 발명의 일 실시예에 따른 적응형 깊이 추정기를 이용한 미지 물체의 자세 예측 모델은 범주형 공통 표현 예측, 깊이 추정, 그리고 자세 추정의 3단계로 이루어진다.
바람직하게는, 범주형 공통 표현 예측 단계는 공통 표현 예측 헤드가 추가된 Mask-RCNN 신경망 모듈을 통하여 입력 영상 내에 존재하는 물체들의 범주에 해당되는 공통 표현을 예측하며 물체 마스크를 기초로 3차원 공통 표현을 구한다.
바람직하게는, 깊이 추정 단계는 인코더-디코더 구조에 트랜스포머 기반 블록이 추가된 깊이 추정 신경망 모듈을 통하여 입력 RGB 영상에 맞게 깊이 범위를 다수의 구간들로 나누어 적응적으로 추정된다.
바람직하게는, 추정된 깊이 지도로 부터 얻어낸 3차원 포인트 클라우드와 예측된 3차원 범주형 공통 표현을 매칭하여 영상에 존재하는 물체의 자세를 예측해낸다.
본 발명에서는 깊이 지도를 추가 입력으로 요구하는 기존 연구 모델들과는 달리, RGB 컬러 영상만을 이용해 미지 물체들의 자세를 추정해낼 수 있는 새로운 범주-수준 자세 추정 신경망 모델을 제안하였다. 제안 모델에서는 단안 카메라 깊이 추정기를 이용하여 깊이 측정 센서 없이도 물체 자세 추정에 필요한 깊이 지도를 RGB 컬러 영상에서 구해낼 수 있다. 이러한 깊이 추정기를 이용한 깊이 지도 예측은 입력 데이터의 편의성이 증대된 자세 추정 시스템을 제공한다.
도 1a은 본 발명의 실시예에 따른 적응형 깊이 추정기를 이용한 미지 물체 자세 예측 시스템을 설명하기 위하여 도시한 블록도이다. 도 1b는 본 발명의 일 실시예에 따른 적응형 깊이 추정기를 이용한 미지 물체 자세 예측 시스템을 구체적으로 구현한 블록도이다.
도2는 물체 공통 표현 추론을 설명하기 위하여 도시한 블록도이다.
도3은 깊이 추정을 설명하기 위하여 도시한 블록도이다.
도4는 자세 예측을 설명하기 위하여 도시한 블록도이다
도2는 물체 공통 표현 추론을 설명하기 위하여 도시한 블록도이다.
도3은 깊이 추정을 설명하기 위하여 도시한 블록도이다.
도4는 자세 예측을 설명하기 위하여 도시한 블록도이다
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
[실시예]
도 1은 본 발명의 실시예에 따른 적응형 깊이 추정기를 이용한 미지 물체 자세 예측 시스템을 도시한 도면이다. 도1을 참조하면 본 발명의 일 실시예에 따른 적응형 깊이 추정기를 이용한 미지 물체 자세 예측 시스템(100)은 물체 공통 표현 예측부(140), 깊이 추정부(180), 물체 자세 예측부(220)를 포함한다.
물체 공통 표현 예측부(140)는 입력으로 주어지는 영상에서 확장된 Mask R-CNN 모듈은 합성 곱 신경망(Convolutional Neural Network, CNN)을 통해 RGB 입력 영상으로부터 시각적 특징 지도(visual feature map)를 추출한 후, 관심 영역 제안 망(Region Proposal Network, RPN)을 통해 영상 내의 관심 영역들을 구한다. 그리고 각 관심 영역별로 물체의 종류(class), 물체의 경계 상자(bounding box, bbox), 물체의 마스크(mask), 물체의 공통 표현 등을 예측한다.
깊이 추정부(180)은 입력 RGB 영상에 맞게 깊이 범위(depth range)를 다수의 구간들(bins)로 나누며, 각 구간의 중심 값은 적응적으로 추정하여 최종적으로 이미지 전체에 대응되는 깊이 지도를 예측한다.
물체 자세 예측부(220)는 앞서 구해진 물체의 공통 표현과 물체 포인트 클라우드를 매칭하여 자세를 예측한다.
도 1b를 참조하면 물체 공통 표현 예측부(140)은 물체 영역 제안부(150), 물체 공통 표현 예측부(160)로 구성되며 물체 및 깊이 추정부(180)는 인코더디코더(190), 적응형 깊이 구간 추론부(200), 트랜스포머 서브 블록(206), 깊이 구간 중심 추론부(212), 복합 회귀부(218)로 구성된다. 또한 물체 자세 예측부(220)는 3차원 확장부(230), 자세 매칭부(240)로 구성된다.
도 2는 물체 공통 표현 추론을 설명하기 위하여 도시한 블록도이다.
도 2를 참조하면 본 발명의 일 실시예에 따른 물체 공통 표현 추론은 각 물체 관심 영역 제안과 공통 표현 추론 과정을 포함한다. 물체 영역 제안부(150)는 합성 곱 신경망(Convolutional Neural Network, CNN)을 통해 RGB 입력 영상으로부터 시각적 특징 지도(visual feature map)를 추출한 후, 관심 영역 제안 망(Region Proposal Network, RPN)을 통해 영상 내의 관심 영역들을 구한다. 그리고 각 관심 영역별로 물체의 종류(class), 물체의 경계 상자(bounding box, bbox), 물체의 마스크(mask), 물체의 범주별 공통 표현(NOCS map) 등을 예측한다.
도 3은 깊이 추정을 설명하기 위하여 도시한 블록도이다.
도 3을 그래프 추론은 각각 인코더 디코더(190)과 적응형 깊이 추론 단계를 나타내는 트랜스포머 블록으로 이루어진 적응형 깊이 추론부(200)의 2개 계층으로 구성된다. 적응적 깊이 추론 단계의 결과인 입력 영상에 대응되는 예측된 깊이 지도가 물체 자세 예측 단계 초기의 3차원 확장부(230)의 입력으로 제공된다.
도 4는 물체 자세 예측을 설명하기 위하여 도시한 블록도이다.
도 4를 참조하면 물체 자세 예측부(220)는 물체 3차원 확장과 자세 매칭을 포함한다. 3차원 확장부(230)를 거쳐 얻어진 물체의 범주별 공통 표현과 포인트 클라우드 두 가지가 자세 매칭부의 입력으로 제공된다. 마지막으로 자세 매칭부(240)에서는 각 물체의 범주별 공통 표현과 포인트 클라우드를 서로 매칭함으로써 해당 물체의 6D 자세와 크기를 예측한다.
Claims (1)
- 단일 RGB 입력 영상을 통해 추정된 깊이 지도로부터 얻어진 물체 포인트 클라우드와 예측된 범주별 물체 공통 표현을 이용하여 각 물체의 자세를 추정하는 미지 물체 자세 예측 시스템.
물체 공통 표현 예측부는
시각적 특징 지도(visual feature map)과 영상 내의 관심 영역을 이용하여. 물체의 종류(class), 물체의 경계 상자(bounding box, bbox), 물체의 마스크(mask), 물체의 공통 표현을 예측하는 물 체 공통 표현 예측 시스템.
깊이 추정부는
입력 RGB 영상에 맞게 깊이 범위(depth range)를 다수의 구간들(bins)로 나누며, 각 구간의 중심 값은 적응적으로 추정하여 최종적으로 이미지 전체에 대응되는 깊이 지도를 예측하는 적응형 깊이 예측 시스템.
물체 자세 예측부는
물체 공통 표현 예측부와 깊이 추정부에서 구성된 물체 공통 표현과 깊이 지도를 3차원 확장부를 통해 2차원에서 3차원으로 확장한 후, 2개의 표현을 서로 매칭함으로써 영상 내 각 물체들의 자세를 예측하는 미지 물체 자세 예측 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220136590A KR20240056222A (ko) | 2022-10-21 | 2022-10-21 | 적응형 깊이 추정기를 이용한 미지 물체의 자세 예측 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220136590A KR20240056222A (ko) | 2022-10-21 | 2022-10-21 | 적응형 깊이 추정기를 이용한 미지 물체의 자세 예측 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240056222A true KR20240056222A (ko) | 2024-04-30 |
Family
ID=90884502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220136590A KR20240056222A (ko) | 2022-10-21 | 2022-10-21 | 적응형 깊이 추정기를 이용한 미지 물체의 자세 예측 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20240056222A (ko) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210043632A (ko) | 2019-02-23 | 2021-04-21 | 선전 센스타임 테크놀로지 컴퍼니 리미티드 | 물체 자세 추정 방법 및 장치 |
-
2022
- 2022-10-21 KR KR1020220136590A patent/KR20240056222A/ko unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210043632A (ko) | 2019-02-23 | 2021-04-21 | 선전 센스타임 테크놀로지 컴퍼니 리미티드 | 물체 자세 추정 방법 및 장치 |
Non-Patent Citations (1)
Title |
---|
"Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation" (H. Wang, IEEE Computer Vision and Pattern Conference(2019.)와 "LatentFusion: End-to-End Differentiable Reconstruction and Rendering for Unseen Object Pose Prediction" (K. Park, IEEE Computer Vision and Pattern Conference(2019.) |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102126724B1 (ko) | 포인트 클라우드 데이터를 복구하기 위한 방법 및 장치 | |
CN112529015B (zh) | 一种基于几何解缠的三维点云处理方法、装置及设备 | |
CN110688905B (zh) | 一种基于关键帧的三维物体检测与跟踪方法 | |
CN112991413A (zh) | 自监督深度估测方法和系统 | |
CN110675418A (zh) | 一种基于ds证据理论的目标轨迹优化方法 | |
CN110689562A (zh) | 一种基于生成对抗网络的轨迹回环检测优化方法 | |
CN114758337B (zh) | 一种语义实例重建方法、装置、设备及介质 | |
CN106780543A (zh) | 一种基于卷积神经网络的双框架估计深度和运动方法 | |
CN111462324B (zh) | 一种在线时空语义融合方法和系统 | |
CN113255514B (zh) | 基于局部场景感知图卷积网络的行为识别方法 | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
CN116519106B (zh) | 一种用于测定生猪体重的方法、装置、存储介质和设备 | |
CN113112547A (zh) | 机器人及其重定位方法、定位装置及存储介质 | |
Yang et al. | [Retracted] A Method of Image Semantic Segmentation Based on PSPNet | |
CN116721139A (zh) | 生成图像数据的深度图像 | |
CN117218246A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN117078753A (zh) | 基于相机的渐进式特征分布采样6d位姿估计方法及系统 | |
CN113408550B (zh) | 基于图像处理的智能称重管理系统 | |
CN118351410A (zh) | 一种基于稀疏代理注意力的多模态三维检测方法 | |
CN114155406A (zh) | 一种基于区域级特征融合的位姿估计方法 | |
CN112950786A (zh) | 一种基于神经网络的车辆三维重建方法 | |
CN117037102A (zh) | 对象跟随方法、装置、计算机设备和存储介质 | |
CN116625383A (zh) | 一种基于多传感器融合的道路车辆感知方法 | |
CN114943762B (zh) | 一种基于事件相机的双目视觉里程计方法 | |
KR20240056222A (ko) | 적응형 깊이 추정기를 이용한 미지 물체의 자세 예측 |