KR20220080341A - 비지도 6d 포즈 추정을 위한 3d 대조학습 장치 및 방법 - Google Patents

비지도 6d 포즈 추정을 위한 3d 대조학습 장치 및 방법 Download PDF

Info

Publication number
KR20220080341A
KR20220080341A KR1020200169346A KR20200169346A KR20220080341A KR 20220080341 A KR20220080341 A KR 20220080341A KR 1020200169346 A KR1020200169346 A KR 1020200169346A KR 20200169346 A KR20200169346 A KR 20200169346A KR 20220080341 A KR20220080341 A KR 20220080341A
Authority
KR
South Korea
Prior art keywords
data
pose
pose estimation
input data
network
Prior art date
Application number
KR1020200169346A
Other languages
English (en)
Other versions
KR102478980B1 (ko
Inventor
이정호
Original Assignee
주식회사 플라잎
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 플라잎 filed Critical 주식회사 플라잎
Priority to KR1020200169346A priority Critical patent/KR102478980B1/ko
Publication of KR20220080341A publication Critical patent/KR20220080341A/ko
Application granted granted Critical
Publication of KR102478980B1 publication Critical patent/KR102478980B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Abstract

6D 포즈 추정 장치는 비지도 학습(Unsupervised Learning)을 이용하여 객체 포즈를 추정하는 장치에 있어서, 이미지에 대한 RGB 데이터를 제 1 딥러닝 모델에 입력하여 외형 특징을 추출하는 외형 특징 추출부와, 상기 이미지에 대한 깊이(depth) 데이터를 사용자 정의 문제(Pretext task)에 의해 미리 학습된 네트워크에 기초하여 생성된 제 2 딥러닝 모델에 입력하여 기하학 특징을 추출하는 기하학 특징 추출부를 포함하는 특징 추출부; 상기 추출된 외형 특징 및 기하학 특징을 결합하여 상기 이미지에 대한 특징맵(feature map)을 생성하는 결합부; 및, 상기 생성된 특징맵에 기초하여 상기 이미지에 대응하는 객체에 대한 6D 포즈를 추정하는 객체 포즈 추정부를 포함하고, 상기 네트워크는 매 학습 시 n개의 입력데이터를 입력받고, 상기 n개의 입력데이터를 증가시켜 미리 학습된다.

Description

6D 포즈 추정 장치 및 방법{APPARATUS AND METHOD FOR ESTIMATING 6D POSE}
본 발명은 6D 포즈 추정 장치 및 방법에 관한 것이다.
일반적으로, 객체의 포즈 추정은 레이블이 포함된 학습 데이터를 이용하여 학습된 딥러닝 모델을 이용한다. 즉, 학습된 딥러닝 모델에 객체의 3D 데이터를 입력하여 객체의 포즈를 추정할 수 있다.
6D (x, y, z, roll, pitch, yaw) 포즈 추정을 위한 딥러닝 모델을 학습시키는 데에는 양질의 데이터가 매우 중요하다. 이때, 대량의 데이터 셋을 만들기 위해서는 임의 데이터를 생성하여야 하기 때문에, 실제(real) 환경에서의 성능이 떨어질 수 있다. 특히, 3D 데이터를 이용하여 6자유도(6DOF: Six degrees of freedom)의 물체를 다루기 위한 데이터 셋의 제작은 매우 까다롭고, 2D에 비해 시간과 비용이 훨씬 많이 소요된다.
비지도 학습(Unsupervised Learning)은 기계 학습의 일종으로 데이터가 어떻게 구성되었는지를 알아내는 문제의 범주에 속하며, 지도 학습(Supervised Learning) 또는 강화 학습(Reinforcement Learning)과는 달리, 입력 값만 있는 훈련 데이터를 이용하여 입력들의 규칙성을 찾는 학습 방법이다.
비지도 학습 중 자기 지도 학습(Self-Supervised Learning)은 비지도 학습의 일종으로 레이블이 없는 데이터(Unlabeled data)를 이용하여 사용자가 정의한 문제(Pretext task)를 학습한 네트워크를 실질적으로 풀고자 하는 문제(downstream task)로 전이 학습(transfer learning)하는 학습 방법이다.
한국등록특허공보 제1994316호 (2019. 6. 24. 등록)
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 임의 데이터에 기초하여 학습된 딥러닝 모델을 사용하여 객체의 포즈를 추정하는 경우 발생하게 되는 성능 저하의 문제를 해결할 수 있는 6D 포즈 추정 장치를 제공하고자 한다.
또한, 레이블이 없는 데이터 또는 소량의 레이블을 포함하고 있는 데이터 만으로도 효율적으로 객체 포즈를 추정할 수 있는 6D 포즈 추정 장치를 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 비지도 학습(Unsupervised Learning)을 이용하여 객체 포즈를 추정하는 장치에 있어서, 이미지에 대한 RGB 데이터를 제 1 딥러닝 모델에 입력하여 외형 특징을 추출하는 외형 특징 추출부와, 상기 이미지에 대한 깊이(depth) 데이터를 사용자 정의 문제(Pretext task)에 의해 학습된 네트워크에 기초하여 생성된 제 2 딥러닝 모델에 입력하여 기하학 특징을 추출하는 기하학 특징 추출부를 포함하는 특징 추출부; 상기 추출된 외형 특징 및 기하학 특징을 결합하여 상기 이미지에 대한 특징맵(feature map)을 생성하는 결합부; 및, 상기 생성된 특징맵에 기초하여 상기 이미지에 대응하는 객체에 대한 6D 포즈를 추정하는 객체 포즈 추정부를 포함하고, 상기 네트워크는 매 학습 시 n개의 입력데이터를 입력받고, 상기 n개의 입력데이터를 증가시켜 미리 학습된 것인, 6D 포즈 추정 장치를 제공 할 수 있다.
본 발명의 다른 실시예는, 비지도 학습(Unsupervised Learning)을 이용하여 객체 포즈를 추정하는 방법에 있어서, 이미지에 대한 RGB 데이터를 제 1 딥러닝 모델에 입력하여 외형 특징을 추출하는 단계와, 상기 이미지에 대한 깊이(depth) 데이터를 사용자 정의 문제(Pretext task)에 의해 미리 학습된 네트워크에 기초하여 생성된 제 2 딥러닝 모델에 입력하여 기하학 특징을 추출하는 단계를 포함하는 특징 추출 단계; 상기 추출된 외형 특징 및 기하학 특징을 결합하여 상기 이미지에 대한 특징맵(feature map)을 생성하는 단계; 및, 상기 생성된 특징맵에 기초하여 상기 이미지에 대응하는 객체에 대한 6D 포즈를 추정하는 단계를 포함하고, 상기 네트워크는 매 학습 시 n개의 입력데이터를 입력받고, 상기 n개의 입력데이터를 증가시켜 미리 학습된 것인, 6D 포즈 추정 방법을 제공할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 레이블이 없는 데이터 또는 소량의 레이블을 포함하고 있는 데이터 만으로도 효율적으로 객체의 포즈를 추정할 수 있는 6D 포즈 추정 장치를 제공할 수 있다.
또한, 추정된 객체의 6D 정보를 사용하여 로봇의 Pick & Place 작업뿐만 아니라 조립을 포함한 복잡한 작업도 수행할 수 있다.
도 1은 본 발명의 일 실시예에 따른 6D 포즈 추정 장치의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 6D 포즈 추정 장치의 구성을 설명하기 위한 예시적인 도면이다.
도 3은 본 발명의 일 실시예에 따른 사용자 정의 문제(Pretext task) 수행부의 증가부를 설명하기 위한 예시적인 도면이다.
도 4는 본 발명의 일 실시예에 따른 6D 포즈 추정 방법의 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 장치에서 대신 수행될 수도 있다. 이와 마찬가지로, 장치가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 장치와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 6D 포즈 추정 장치의 블록도이다. 도 1을 참조하면, 6D 포즈 추정 장치(100)는 특징 추출부(110), 결합부(120), 객체 포즈 추정부(130) 및 사용자 정의 문제(Pretext task) 수행부(140)를 포함할 수 있다.
특징 추출부(110)는 외형 특징 추출부(111) 및 기하학 특징 추출부(112)를 포함할 수 있고, 객체 포즈 추정부(130)는 시맨틱 세그먼테이션 모듈(Semantic segmentation module, 131), 특징점 검출 모듈(Keypoint detection module, 132) 및 센터 투표 모듈(Center voting module, 133)을 포함할 수 있고, 사용자 정의 문제(Pretext task) 수행부(140)는 샘플링부(141), 증가부(142) 및 학습부(143)를 포함할 수 있다. 다만 위 구성 요소들(110 내지 140)은 6D 포즈 추정 장치(100)에 의하여 제어될 수 있는 구성요소들을 예시적으로 도시한 것일 뿐이다.
본 발명의 일 실시예에 따른 6D 포즈 추정 장치(100)는 레이블이 없는 데이터 또는 소량의 레이블을 포함하고 있는 데이터 만으로도 효율적으로 객체의 포즈를 추정할 수 있다.
또한, 본 발명의 일 실시예에 따른 6D 포즈 추정 장치(100)는 추정된 객체의 6D 정보를 사용하여 로봇의 픽앤플레이스(Pick & Place) 작업뿐만 아니라 조립을 포함한 복잡한 작업도 수행할 수 있다.
도 2는 본 발명의 일 실시예에 따른 6D 포즈 추정 장치의 구성을 설명하기 위한 예시적인 도면이다. 도 2를 참조하면, 특징 추출부(110)는 외형 특징 추출부(111)와 기하학 특징 추출부(112)를 포함할 수 있다.
본 발명의 일 실시예에 따른 외형 특징 추출부(111)는 이미지에 대한 RGB 데이터(111a)를 제 1 딥러닝 모델(111b)에 입력하여 외형 특징을 추출할 수 있다. 여기서, 제 1 딥러닝 모델(111b)은 CNN(Convolutional Neural Network)일 수 있다. 예를 들어, 외형 특징 추출부(111)는 RGB 데이터(111a)를 입력 받아 CNN(111b)을 통해 이미지에 대한 외형 특징을 추출할 수 있다.
기하학 특징 추출부(112)는 이미지에 대한 깊이(depth) 데이터(112a)를 사용자 정의 문제(Pretext task)에 의해 미리 학습된 네트워크에 기초하여 생성된 제 2 딥러닝 모델(112b)에 입력하여 기하학 특징을 추출할 수 있다. 여기서, 제 2 딥러닝 모델(112b)은 포인트넷(PointNet) 모델일 수 있다. 예를 들어, 기하학 특징 추출부(112)는 깊이 데이터(112a)를 입력 받아 제 2 딥러닝 모델(112b)을 통해 이미지에 대한 기하학 특징을 추출할 수 있다.
여기서, 네트워크(143a)는 매 학습 시 n개의 입력데이터를 입력받고, n개의 입력데이터를 증가시켜 미리 학습될 수 있다. 예를 들어, 네트워크(143a)는 N개의 데이터셋으로부터 샘플링된 n개의 입력데이터를 증가시킨 n개 이상의 입력데이터로 미리 학습될 수 있다. 여기서, n개의 입력데이터는 배치데이터일 수 있다.
본 발명의 일 실시예에 따른 기하학 특징 추출부(112)는 제 2 딥러닝 모델(112b)의 가중치를 별도의 네트워크(143a)의 가중치로 전이 학습할 수 있다. 여기서, 네트워크(143a)는 비지도 학습의 일종인 자기 지도 학습(Self-Supervised Learning)을 통해 레이블이 없는 데이터를 이용하여 학습될 수 있다. 예를 들어, 네트워크(143a)는 사용자 정의 문제(Pretext task)에 의해 학습될 수 있다. 이와 같이, 자기 지도 학습으로서 사용자 정의 문제(Pretext task)를 사용하면 3D 데이터 자체에 대한 이해를 높일 수 있기 때문에, 6D 포즈 추정 시 실제 환경에 대한 성능을 향상시킬 수 있다.
기하학 특징 추출부(112)는 사용자 정의 문제(Pretext task)에 의해 학습된 네트워크를 전이 학습한 제 2 딥러닝 모델(112b)을 이용하여 이미지에 대한 기하학 특징을 추출할 수 있다.
본 발명의 일 실시예에 따른 사용자 정의 문제(Pretext task) 수행부(140)는 네트워크(143a)에 기초하여 사용자 정의 문제(Pretext task)를 수행할 수 있다. 예를 들어, 사용자 정의 문제(Pretext task) 수행부(140)는 레이블이 없는 데이터, 즉, 사용자가 정의한 사용자 정의 문제(Pretext task, input)를 이용하여 네트워크(143a)를 학습시켜 네트워크(143a)가 데이터를 이해하고, 데이터에서 의미 있는 특징(output)을 추출하도록 반복 학습한다.
사용자 정의 문제(Pretext task) 수행부(140)의 샘플링부(141)는 N개의 데이터셋으로부터 1개의 포지티브(positive) 데이터와 포지티브 데이터 이외의 네거티브(negative) 데이터를 포함하는 n개의 입력데이터를 샘플링하여 네트워크에 입력할 수 있다.
예를 들어, 샘플링부(141)는 N개의 데이터셋으로부터 n개의 입력데이터를 추출하여 샘플링할 수 있다. 샘플링부(141)는 추출된 n개의 입력데이터 중 1개의 입력데이터를 포지티브 데이터로 샘플링할 수 있고, 이외 n-1개의 입력데이터를 네거티브 데이터로 샘플링할 수 있다. 여기서, 샘플링되는 1개의 포지티브 데이터는 n개의 입력데이터 중 임의로 선정되는 입력데이터다.
본 발명의 일 실시예에 따른 증가부(142)는 n개의 입력데이터 각각을 기설정된 횟수만큼 회전(rotation), 크롭(crop), 노이즈(noise) 추가, 크기 조정(resize), 추출(sampling) 및 왜곡(distortion) 중 어느 하나를 수행하여 n개 이상의 입력데이터로 증가시킬 수 있다. 예를 들어, 증가부(142)는 n개의 입력데이터를 2번씩 각각 회전시키거나, 크롭시키거나, 노이즈를 추가시키거나, 크기를 조정하거나, 샘플을 추출하거나, 왜곡시킬 수 있다. 이 경우, n개 이상의 입력데이터는 예를 들어, 2n개일 수 있다.
도 3은 본 발명의 일 실시예에 따른 사용자 정의 문제(Pretext task) 수행부의 증가부를 설명하기 위한 예시적인 도면이다. 도 3을 참조하면, 증가부(142)는 추출된 n개의 입력데이터를 랜덤으로 회전시키거나, 크롭시키거나, 노이즈를 추가시키거나, 크기를 조정하거나, 샘플을 추출하거나, 왜곡시켜 2n개의 입력데이터로 증가시킬 수 있다.
예를 들어, 도 3의 (a)를 참조하면, 증가부(142)는, 입력데이터를 회전시켜 좌우가 대칭되는 한 쌍의 입력데이터를 생성시킬 수 있고, 도 3의 (b)를 참조하면, 증가부(142)는, 입력데이터의 일부를 크롭시킨 한 쌍의 입력데이터를 생성시킬 수 있다. 증가부(142)에서 회전시키거나, 크롭시킨 입력데이터를 활용함에 따라, 객체 포즈 추정부(130)의 객체에 대한 이해력을 향상시킬 수 있다.
증가부(142)는 입력데이터에 노이즈를 추가시켜 증가시킬 수 있다. 가상 환경의 노이즈가 전혀 없는 입력데이터를 사용하면, 객체 포즈 추정부(130)에서 노이즈가 포함되어 있는 실제 이미지에서 객체에 대한 이해력이 낮아질 수 있다.
따라서, 증가부(142)는 n개의 입력데이터에 랜덤으로 노이즈를 추가시켜 n개 이상의 입력데이터로 증가시킬 수 있다. 예를 들어, 증가부(142)는 입력데이터에서 깊이 표준 편차(depth standard deviation) 범위 내의 랜덤한 값을 더하거나 감할 수 있다.
또한, 증가부(142)는 랜덤으로 n개의 입력데이터의 크기를 조정할 수 있고, 샘플을 추출할 수 있고, 왜곡시킴으로써 n개 이상의 입력데이터로 증가시킬 수 있다. 따라서, 객체 포즈 추정부(130)는 객체에 대한 이해력을 향상시킬 수 있다.
다시 도 2를 참조하면, 본 발명의 일 실시예에 따른 학습부(143)는 네트워크(143a)를 통과한 n개 이상의 입력데이터의 잠재 벡터(latent vector) 중 어느 하나의 포지티브 데이터의 잠재 벡터를 기준으로 하여 다른 하나의 포지티브 데이터의 잠재 벡터의 점수(score)는 높게 부여하고, 네거티브 데이터의 잠재 벡터의 점수는 낮게 부여하도록 네트워크(143a)를 학습시킬 수 있다.
즉, 학습부(143)는 입력데이터에 점수를 부여하는 방식으로 네트워크(143a)를 학습시킬 수 있다. 예를 들어, 학습부(143)는 네트워크(143a)를 통과한 n개 이상의 입력데이터의 잠재 벡터 중 1개의 포지티브 데이터의 잠재 벡터를 기준으로 할 수 있다. 학습부(143)는 기준이 된 포지티브 데이터의 잠재 벡터와 상이한 입력데이터의 잠재 벡터 중 포지티브 데이터의 잠재 벡터에는 점수를 높게 부여하고, 네거티브 데이터의 잠재 벡터에는 점수를 낮게 부여하도록 학습할 수 있다.
다시 도 2를 참조하면, 특징 추출부(110)는 외형 특징 추출부(111)를 통해 추출한 이미지에 대한 외형 특징과 기하학 특징 추출부(112)를 통해 추출한 이미지에 대한 기하학 특징을 결합부(120)에 전달할 수 있다.
본 발명의 일 실시예에 따른 결합부(120)는 추출된 외형 특징 및 기하학 특징을 결합하여 이미지에 대한 특징맵(feature map)을 생성할 수 있다. 예를 들어, 결합부(120)는 외형 특징 추출부(111)에서 추출한 외형 특징과 기하학 특징 추출부(112)에서 추출한 기하학 특징을 결합하여, 해당 이미지에서 인식된 객체의 각 좌표(포인트)에 대해 결합된 특징을 가지는 특징맵을 생성할 수 있다.
본 발명의 일 실시예에 따른 객체 포즈 추정부(130)는 생성된 특징맵에 기초하여 이미지에 대응하는 객체에 대한 6D 포즈를 추정할 수 있다. 예를 들어, 객체 포즈 추정부(130)는 이미지에서 인식된 객체의 각 좌표에 대해 결합된 특징을 가지는 특징맵에 기초하여 객체에 대한 6D 포즈를 추정(136)할 수 있다.
객체 포즈 추정부는(130) 시맨틱 세그먼테이션 모듈(131), 특징점 검출 모듈(132) 및 센터 투표 모듈(133)에 기초하여 객체에 대한 6D 포즈를 계산할 수 있다.
예를 들어, 객체 포즈 추정부(130)는 특징맵을 입력 받아, 먼저, 시맨틱 세그먼테이션 모듈(131)을 통해 이미지 상에 포함되어 있는 하나 이상의 객체를 각각 구분할 수 있고, 다음으로, 특징점 검출 모듈(132)을 통해 구분된 각각의 객체 표면에 대한 3D 특징점(Keypoint)을 감지할 수 있고, 이후, 센터 투표 모듈(133)을 통해 객체의 중심 포인트를 검출하여, 객체에 대한 6D 포즈를 추정(136)할 수 있다.
본 발명의 일 실시예에 따른 시맨틱 세그먼테이션 모듈(131)은 특징맵에 기초하여 이미지 상의 객체가 복수인 경우, 각각의 객체를 구분할 수 있다.
특징점 검출 모듈(132)은 구분된 객체의 표면에 대한 3D 특징점을 감지할 수 있다. 예를 들어, 특징점 검출 모듈(132)은 구분된 객체의 표면에 대한 3D 특징점을 감지하고, 감지된 각 포인트마다 가시점(visible point)에서 대상 특징점(target keypoint)까지의 유클리드 변환 오프셋을 예측하고, 이를 다시 대상 특징점에 투표 및 클러스터링 하는 과정을 통해 구분된 객체의 표면에 대한 3D 특징점을 감지할 수 있다.
센터 투표 모듈(133)은 객체의 중심(center) 포인트를 검출할 수 있다. 예를 들어, 센터 투표 모듈(133)은 객체의 중심 포인트를 2D에서 3D로 확장할 수 있다.
인스턴스 세그먼테이션(Instance Segmentation, 134)은 시맨틱 세그먼테이션 모듈(131), 특징점 검출 모듈(132) 및 센터 투표 모듈(133)에서 검출한 객체, 객체의 3D 특징점 및 중심 포인트에 기초하여 해당 이미지에서 전역 특징과 지역 특징을 추출할 수 있다. 인스턴스 세그먼테이션(134)은 특징점에 대한 오프셋(offset)을 예측하기 위해, 학습된 크기 정보에서 모양은 비슷하지만 크기가 다른 물체를 구별하도록 할 수 있다.
객체 포즈 추정부(130)는 시맨틱 세그먼테이션 모듈(131), 특징점 검출 모듈(132), 센터 투표 모듈(133) 및 인스턴스 세그먼테이션(134)을 거쳐 추출된 특징에 기초하여 최소 제곱법 적합(Least-squares Fitting, 135)을 수행할 수 있다. 예를 들어, 객체 포즈 추정부(130)는 카메라 좌표계에서 감지된 M개의 특징점과 이에 대응하는 물체 좌표계의 포인트를 가지고 제곱 손실을 최소화하는 객체 모델에 대한 포즈 파라미터(R, t)를 계산하여 객체에 대한 6D 포즈를 추정(136)할 수 있다.
한편, 객체 포즈 추정부(130)는 데이터가 3D 포인트 클라우드인 경우, 데이터에 대한 복셀화(voxelization)를 수행할 수 있고, 이러한 경우, 사용자 정의 문제(Pretext task) 수행부(140)에서도 입력 데이터에 대한 복셀화를 추가로 수행할 수 있다.
본 발명에 따른 6D 포즈 추정 장치(100)는, 자기 지도 학습을 활용한 사용자 정의 문제(Pretext task) 수행부(140)를 통해 객체를 포함한 데이터에 대한 이해도를 향상시킴으로써, 객체 포즈 추정부(130)에서 이미지에 포함된 객체에 대한 6D 포즈를 보다 정확하게 추정하도록 할 수 있다.
또한, 6D 포즈 추정 장치(100)는 추정된 객체의 6D 포즈 정보를 활용하여 로봇의 픽앤플레이스(Pick & Place) 작업뿐만 아니라, 조립을 포함한 복잡하고 다양한 작업도 수행 가능하도록 할 수 있다. 예를 들어, 6D 포즈 추정 장치(100)는 객체의 6D 정보를 사용하여 객체의 위치 및 각도를 파악할 수 있다.
도 4는 본 발명의 일 실시예에 따른 6D 포즈 추정 방법의 순서도이다. 도 1에 도시된 6D 포즈 추정 장치(100)는 도 1 내지 도 3에 도시된 실시예에 따라 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 3에 도시된 실시예에 따른 6D 포즈 추정 장치(100)에서 객체 포즈를 추정하는 방법에도 적용된다.
단계 S410에서 6D 포즈 추정 장치(100)는 이미지에 대한 RGB 데이터를 제 1 딥러닝 모델에 입력하여 외형 특징을 추출할 수 있다.
단계 S420에서 6D 포즈 추정 장치(100)는 이미지에 대한 깊이(depth) 데이터를 사용자 정의 문제(Pretext task)에 의해 학습된 네트워크 기반의 제 2 딥러닝 모델에 입력하여 기하학 특징을 추출할 수 있다.
단계 S430에서 6D 포즈 추정 장치(100)는 추출된 외형 특징 및 기하학 특징을 결합하여 이미지에 대한 특징맵(feature map)을 생성할 수 있다.
단계 S440에서 6D 포즈 추정 장치(100)는 생성된 특징맵에 기초하여 이미지에 대응하는 객체에 대한 6D 포즈를 추정할 수 있다.
상술한 설명에서, 단계 S410 내지 S440는 본 발명의 구현 예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 6D 포즈 추정 장치
110: 특징 추출부
120: 결합부
130: 객체 포즈 추정부
140: 사용자 정의 문제(Pretext task) 수행부

Claims (20)

  1. 비지도 학습(Unsupervised Learning)을 이용하여 객체 포즈를 추정하는 장치에 있어서,
    이미지에 대한 RGB 데이터를 제 1 딥러닝 모델에 입력하여 외형 특징을 추출하는 외형 특징 추출부와, 상기 이미지에 대한 깊이(depth) 데이터를 사용자 정의 문제(Pretext task)에 의해 미리 학습된 네트워크에 기초하여 생성된 제 2 딥러닝 모델에 입력하여 기하학 특징을 추출하는 기하학 특징 추출부를 포함하는 특징 추출부;
    상기 추출된 외형 특징 및 기하학 특징을 결합하여 상기 이미지에 대한 특징맵(feature map)을 생성하는 결합부; 및,
    상기 생성된 특징맵에 기초하여 상기 이미지에 대응하는 객체에 대한 6D 포즈를 추정하는 객체 포즈 추정부
    를 포함하고,
    상기 네트워크는 매 학습 시 n개의 입력데이터를 입력받고, 상기 n개의 입력데이터를 증가시켜 미리 학습된 것인, 6D 포즈 추정 장치.
  2. 제 1 항에 있어서,
    상기 제 1 딥러닝 모델은 CNN(Convolutional Neural Network)이고, 제 2 딥러닝 모델은 포인트넷(PointNet) 모델인 것인, 6D 포즈 추정 장치.
  3. 제 1 항에 있어서,
    상기 네트워크에 기초하여 상기 사용자 정의 문제(Pretext task)를 수행하는 사용자 정의 문제 수행부
    를 더 포함하는 것인, 6D 포즈 추정 장치.
  4. 제 3 항에 있어서,
    상기 사용자 정의 문제 수행부는,
    N개의 데이터셋으로부터 1개의 포지티브(positive) 데이터와 상기 포지티브 데이터 이외의 네거티브(negative) 데이터를 포함하는 상기 n개의 입력데이터를 샘플링하여 상기 네트워크에 입력하는 샘플링부; 및
    상기 n개의 입력데이터 각각을 기설정된 횟수만큼 회전(rotation), 크롭(crop), 노이즈(noise) 추가, 크기 조정(resize), 추출(sampling) 및 왜곡(distortion) 중 어느 하나를 수행하여 n개 이상의 입력데이터로 증가시키는 증가부
    를 포함하는 것인, 6D 포즈 추정 장치.
  5. 제 4 항에 있어서,
    상기 사용자 정의 문제 수행부는,
    상기 n개 이상의 입력데이터의 잠재 벡터(latent vector) 중 어느 하나의 포지티브 데이터의 잠재 벡터를 기준으로 하여 다른 하나의 포지티브 데이터의 잠재 벡터의 점수(score)는 높게 부여하고, 상기 네거티브 데이터의 잠재 벡터의 점수는 낮게 부여하도록 상기 네트워크를 학습시키는 학습부
    를 더 포함하는 것인, 6D 포즈 추정 장치.
  6. 제 1 항에 있어서,
    상기 기하학 특징 추출부는 상기 제 2 딥러닝 모델의 가중치를 상기 네트워크의 가중치로 전이 학습하는 것인, 6D 포즈 추정 장치.
  7. 제 1 항에 있어서,
    상기 객체 포즈 추정부는,
    시맨틱 세그먼테이션 모듈(Semantic segmentation module), 특징점 검출 모듈(Keypoint detection module) 및 센터 투표 모듈(Center voting module)에 기초하여 상기 객체에 대한 포즈를 계산하는 것인, 6D 포즈 추정 장치.
  8. 제 7 항에 있어서,
    상기 시맨틱 세그먼테이션 모듈은,
    상기 특징맵에 기초하여 상기 이미지 상의 객체가 복수인 경우, 각각의 객체를 구분하는 것인, 6D 포즈 추정 장치.
  9. 제 8 항에 있어서,
    상기 특징점 검출 모듈은,
    상기 구분된 객체의 표면에 대한 3D 특징점(Keypoint)을 감지하는 것인, 6D 포즈 추정 장치.
  10. 제 9 항에 있어서,
    상기 센터 투표 모듈은,
    상기 객체의 중심(center) 포인트를 검출하는 것인, 6D 포즈 추정 장치.
  11. 비지도 학습(Unsupervised Learning)을 이용하여 객체 포즈를 추정하는 방법에 있어서,
    이미지에 대한 RGB 데이터를 제 1 딥러닝 모델에 입력하여 외형 특징을 추출하는 단계와,
    상기 이미지에 대한 깊이(depth) 데이터를 사용자 정의 문제(Pretext task)에 의해 미리 학습된 네트워크에 기초하여 생성된 제 2 딥러닝 모델에 입력하여 기하학 특징을 추출하는 단계를 포함하는 특징 추출 단계;
    상기 추출된 외형 특징 및 기하학 특징을 결합하여 상기 이미지에 대한 특징맵(feature map)을 생성하는 단계; 및,
    상기 생성된 특징맵에 기초하여 상기 이미지에 대응하는 객체에 대한 6D 포즈를 추정하는 단계
    를 포함하고,
    상기 제 2 딥러닝 모델은 매 학습 시 n개의 입력데이터를 입력받고, 상기 n개의 입력데이터를 증가시켜 미리 학습된 것인, 6D 포즈 추정 방법.
  12. 제 11 항에 있어서,
    상기 제 1 딥러닝 모델은 CNN(Convolutional Neural Network)이고, 제 2 딥러닝 모델은 포인트넷(PointNet) 모델인 것인, 6D 포즈 추정 방법.
  13. 제 11 항에 있어서,
    상기 네트워크에 기초하여 상기 사용자 정의 문제를 수행하는 단계를 더 포함하는 것인, 6D 포즈 추정 방법.
  14. 제 13 항에 있어서,
    상기 사용자 정의 문제를 수행하는 단계는,
    N개의 데이터셋으로부터 1개의 포지티브(positive) 데이터와 상기 포지티브 데이터 이외의 네거티브(negative) 데이터를 포함하는 상기 n개의 입력데이터를 샘플링하여 상기 네트워크에 입력하는 단계; 및
    상기 n개의 입력데이터 각각을 기설정된 횟수만큼 회전(rotation), 크롭(crop), 노이즈(noise) 추가, 크기 조정(resize), 추출(sampling) 및 왜곡(distortion) 중 어느 하나를 수행하여 n개 이상의 입력데이터로 증가시키는 단계
    를 포함하는 것인, 6D 포즈 추정 방법.
  15. 제 14 항에 있어서,
    상기 사용자 정의 문제를 수행하는 단계는,
    상기 네트워크를 통과한 상기 n개 이상의 입력데이터의 잠재 벡터(latent vector) 중 어느 하나의 포지티브 데이터의 잠재 벡터를 기준으로 하여 다른 하나의 포지티브 데이터의 잠재 벡터의 점수(score)는 높게 부여하고, 상기 네거티브 데이터의 잠재 벡터의 점수는 낮게 부여하도록 상기 네트워크를 학습시키는 단계
    를 더 포함하는 것인, 6D 포즈 추정 방법.
  16. 제 11 항에 있어서,
    상기 기하학 특징을 추출하는 단계는 상기 제 2 딥러닝 모델의 가중치를 상기 네트워크의 가중치로 전이 학습하는 것인, 6D 포즈 추정 방법.
  17. 제 11 항에 있어서,
    상기 객체에 대한 6D 포즈를 추정하는 단계는,
    시맨틱 세그먼테이션 모듈(Semantic segmentation module), 특징점 검출 모듈(Keypoint detection module) 및 센터 투표 모듈(Center voting module)에 기초하여 상기 객체에 대한 포즈를 계산하는 것인, 6D 포즈 추정 방법.
  18. 제 17 항에 있어서,
    상기 시맨틱 세그먼테이션 모듈은,
    상기 특징맵에 기초하여 상기 이미지 상의 객체가 복수인 경우, 각각의 객체를 구분하는 것인, 6D 포즈 추정 방법.
  19. 제 18 항에 있어서,
    상기 특징점 검출 모듈은,
    상기 구분된 객체의 표면에 대한 3D 특징점(Keypoint)을 감지하는 것인, 6D 포즈 추정 방법.
  20. 제 19 항에 있어서,
    상기 센터 투표 모듈은,
    상기 객체의 중심(center) 포인트를 검출하는 것인, 6D 포즈 추정 방법.
KR1020200169346A 2020-12-07 2020-12-07 비지도 6d 포즈 추정을 위한 3d 대조학습 장치 및 방법 KR102478980B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200169346A KR102478980B1 (ko) 2020-12-07 2020-12-07 비지도 6d 포즈 추정을 위한 3d 대조학습 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200169346A KR102478980B1 (ko) 2020-12-07 2020-12-07 비지도 6d 포즈 추정을 위한 3d 대조학습 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220080341A true KR20220080341A (ko) 2022-06-14
KR102478980B1 KR102478980B1 (ko) 2022-12-19

Family

ID=81980268

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200169346A KR102478980B1 (ko) 2020-12-07 2020-12-07 비지도 6d 포즈 추정을 위한 3d 대조학습 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102478980B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240021383A (ko) 2022-08-10 2024-02-19 동국대학교 산학협력단 2차원 전신 신체 이미지로부터 관절의 위치를 도출하여 탈의한 신체이미지를 예측하는 방법 및 시스템
KR20240021382A (ko) 2022-08-10 2024-02-19 동국대학교 산학협력단 2차원 신체 이미지로부터 노말맵과 깊이맵 및 카메라 파라미터를 추론하여 3차원 인체 모델을 복원하는 방법 및 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101994316B1 (ko) 2011-12-23 2019-06-28 삼성전자주식회사 객체 포즈 추정을 위한 장치 및 방법
KR20190087258A (ko) * 2018-01-15 2019-07-24 삼성전자주식회사 객체 자세 추정 방법 및 장치
KR20200056905A (ko) * 2018-11-15 2020-05-25 삼성전자주식회사 3d 모델 정렬 방법 및 장치
US20200272148A1 (en) * 2019-02-21 2020-08-27 Zoox, Inc. Motion prediction based on appearance
US20200363815A1 (en) * 2019-05-17 2020-11-19 Nvidia Corporation Object pose estimation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101994316B1 (ko) 2011-12-23 2019-06-28 삼성전자주식회사 객체 포즈 추정을 위한 장치 및 방법
KR20190087258A (ko) * 2018-01-15 2019-07-24 삼성전자주식회사 객체 자세 추정 방법 및 장치
KR20200056905A (ko) * 2018-11-15 2020-05-25 삼성전자주식회사 3d 모델 정렬 방법 및 장치
US20200272148A1 (en) * 2019-02-21 2020-08-27 Zoox, Inc. Motion prediction based on appearance
US20200363815A1 (en) * 2019-05-17 2020-11-19 Nvidia Corporation Object pose estimation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240021383A (ko) 2022-08-10 2024-02-19 동국대학교 산학협력단 2차원 전신 신체 이미지로부터 관절의 위치를 도출하여 탈의한 신체이미지를 예측하는 방법 및 시스템
KR20240021382A (ko) 2022-08-10 2024-02-19 동국대학교 산학협력단 2차원 신체 이미지로부터 노말맵과 깊이맵 및 카메라 파라미터를 추론하여 3차원 인체 모델을 복원하는 방법 및 시스템

Also Published As

Publication number Publication date
KR102478980B1 (ko) 2022-12-19

Similar Documents

Publication Publication Date Title
CN110543837B (zh) 一种基于潜在目标点的可见光机场飞机检测方法
US10769496B2 (en) Logo detection
US20230045519A1 (en) Target Detection Method and Apparatus
CN105740899B (zh) 一种机器视觉图像特征点检测与匹配复合的优化方法
CN108108764B (zh) 一种基于随机森林的视觉slam回环检测方法
US9098740B2 (en) Apparatus, method, and medium detecting object pose
Zhang et al. How to fully exploit the abilities of aerial image detectors
CN111860414B (zh) 一种基于多特征融合检测Deepfake视频方法
JP6397379B2 (ja) 変化領域検出装置、方法、及びプログラム
KR102494659B1 (ko) 6d 포즈 추정 장치 및 방법
Wang et al. Motion segmentation based robust RGB-D SLAM
Abelha et al. Learning how a tool affords by simulating 3D models from the web
CN106846367B (zh) 一种基于运动约束光流法的复杂动态场景的运动物体检测方法
KR20220080341A (ko) 비지도 6d 포즈 추정을 위한 3d 대조학습 장치 및 방법
CN105005798B (zh) 一种基于局部相似结构统计匹配的目标识别方法
CN111126494A (zh) 基于各向异性卷积的图像分类方法及系统
US10937150B2 (en) Systems and methods of feature correspondence analysis
Sahin et al. Recovering 6D object pose: A review and multi-modal analysis
CN108154176B (zh) 一种针对单一深度图像的3d人体姿态估计算法
Zheng et al. Differential-evolution-based generative adversarial networks for edge detection
CN104504715A (zh) 基于局部四元数矩特征的图像分割方法
Zhang et al. Weakly Supervised Object Recognition and Localization with Invariant High Order Features.
Li et al. A context-free method for robust grasp detection: Learning to overcome contextual bias
Pathak et al. A framework for dynamic hand gesture recognition using key frames extraction
Hernández et al. Object classification in natural environments for mobile robot navigation

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant