WO2024076023A1

WO2024076023A1 - Gcn 기반의 3차원 객체 인식 및 포즈 추정 방법 및 장치

Info

Publication number: WO2024076023A1
Application number: PCT/KR2023/013667
Authority: WO
Inventors: 정태원; 정계동; 정치서; 김인선; 유민수; 박찬수; 강진규
Original assignee: 주식회사 공간의파티
Priority date: 2022-10-07
Filing date: 2023-09-12
Publication date: 2024-04-11
Also published as: KR20240048762A

Abstract

본 발명은 3차원 객체 인식 및 포즈 추정 장치에서 수행되는 3차원 객체 인식 및 포즈 추정 방법으로서, 포인트 클라우드(Point Cloud)를 입력 받는 단계, 상기 포인트 클라우드로부터 그래프를 구성하는 단계, 상기 그래프에 GCN(Graph Convolutional Network)을 반복 적용하여 객체를 감지하고 포즈를 추정하는 단계, 및 상기 감지한 객체의 바운딩 박스(Bounding Box)를 결정하는 단계를 포함한다.

Description

GCN 기반의 3차원 객체 인식 및 포즈 추정 방법 및 장치

본 발명은 3차원 객체 인식 및 포즈 추정 기술에 관한 것으로서, GCN(Graph Convolutional Network)을 기반으로 포인트 클라우드(Point Cloud)에서 포인트들을 그래프로 구조화하여 3차원 객체를 검출하고 9자유도(Degree Of Freedom; DOF)에 해당하는 포즈를 추정하는 3차원 객체 인식 및 포즈 추정 방법에 관한 것이다.

컴퓨터 비전(computer vision)은 기계의 시각에 해당하는 부분을 연구하는 컴퓨터 과학 연구 분야 중 하나이다. 최근에는 자율 주행 및 로봇 공학과 같은 다양한 분야에 3차원 센서를 활용하는 딥러닝 기반의 3차원 물체 검출 방법이 활발히 제안되고 있다. 3차원 획득 기술의 급속한 발전과 함께 3차원 정보를 획득하기 위한 다양한 유형의 3차원 스캐너, LiDAR, 및 RGB-D 카메라(예를 들어, Kinect, RealSense, 또는 애플 심도 카메라) 등이 있으며, 이와 같은 3차원 센서에 의해 수집된 정보로부터 공간과 물체의 기하학적 모양, 또는 스케일 정보가 획득될 수 있다. 3차원 센서는 적외선을 이용하여 물체에 반사되는 파장의 파형 변화나 시간차를 통해 물체와 센서 사이의 깊이 정보를 알아낸다. 3차원 센서로부터 획득한 깊이 정보를 통해 공간의 정확한 특징이 획득될 수 있으며, 카메라의 RGB 데이터를 사용하여 색상 정보가 포함된 공간 정보로 변환될 수 있다. 이러한 공간 정보는 3차원 데이터 구조 중 하나인 포인트 클라우드로 나타내어질 수 있다.

포인트 클라우드는 3차원 정보를 나타내는 원시적인 점 정보로서, 좌표 정보뿐만 아니라 색상, 반사도, 또는 투명도와 같은 정보를 가지고 있다. 기존의 3차원 정보는 데이터 처리량을 줄이기 위해 다각형을 활용한 3차원 메시 모델로 변환하여 사용되었으나, GPU와 같은 하드웨어 성능의 발전으로 3차원 포인트 클라우드가 바로 처리될 수 있게 되었다. 최근에는 포인트 클라우드를 효율적으로 처리하기 위해 딥러닝이 활용되고 있으며, 특히 무인 주행 자동차, 드론, 또는 증강현실 분야에 활용하기 위해 물체 검출 분야의 연구가 활발히 진행되고 있다. 객체 검출을 위해 포인트 클라우드를 딥러닝으로 처리하는 방식에는 공간적 정보를 함축하여 처리하는 3차원 CNN(Convolution Neural Network) 방식이 있다. CNN은 이미지 분야에서 널리 활용되는 딥러닝 모델로 이미지의 특징을 효율적으로 모아 처리하는 특징이 있다. 그러나 3차원의 경우에는 공간적 특징을 함축할 때 CNN 필터 적용으로 많은 연산량이 발생하고, 함축 과정에서 포인트의 3차원 좌표 정보 손실이 발생하는 문제가 있다. 따라서 딥러닝에 가장 적합한 포인트 클라우드 표현을 정의하고 이를 처리하는 방식에 대한 연구는 지속적으로 수행되고 있다.

본 발명은 서울특별시 서울산업진흥원 2021년도 테스트베드 서울 실증지원 사업(IU210024) "서울 도시유적의 흔적 위에 증강현실로 구현되는 복원 콘텐츠 구현 솔루션 및 AR 도시유적 도슨트 시스템 (App AR + Web AR)"을 통해 개발된 기술이다.

[선행기술문헌]

[특허문헌]

(특허문헌 1) 한국공개특허 제10-2022-0095091호

본 발명의 목적은 GCN기반으로 포인트 클라우드를 그래프로 표현하고 구조화한 인접 행렬과 특징 행렬을 이용하여 각 정점이 속하는 객체에 대한 클래스, 바운딩 박스, 크기, 및 포즈를 획득하는 3차원 객체 인식 및 포즈 추정 방법 및 장치를 제공하는데 있다.

본 발명의 목적은 한번의 촬영으로 여러 객체의 포즈를 추정하고 GCN의 변환 분산을 줄이기 위해 GAT(Graph Attention Network)를 기반으로 이웃점들의 특징에 따라 좌표를 정렬하는 KAT(Keypoint Attention Mechanism)을 적용한 3차원 객체 인식 및 포즈 추정 방법 및 장치를 제공하는데 있다.

본 발명의 목적은 쿼터니언 회전(Quaternion rotation)을 통해 객체의 9개의 자유도(즉, 3개의 좌표, 3개의 변환, 및 3개의 회전)를 추정하여 회전오류를 극복하고 모든 축을 중심으로 회전된 IoU(Intersection over Union)을 계산하는 3차원 객체 인식 및 포즈 추정 방법 및 장치를 제공하는데 있다.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명의 제1 측면은, 3차원 객체 인식 및 포즈 추정 장치에서 수행되는 3차원 객체 인식 및 포즈 추정 방법에 있어서, 포인트 클라우드(Point Cloud)를 입력 받는 단계, 상기 포인트 클라우드로부터 그래프를 구성하는 단계, 상기 그래프에 GCN(Graph Convolutional Network)을 반복 적용하여 객체를 감지하고 포즈를 추정하는 단계, 및 상기 감지한 객체의 바운딩 박스(Bounding Box)를 결정하는 단계를 포함한다.

바람직하게, 상기 그래프를 구성하는 단계는, 상기 포인트 클라우드에서 그래프의 정점이 될 키포인트를 결정하는 단계, 상기 키포인트를 연결하여 그래프로 구조화하는 단계, 및 상기 구조화한 그래프로부터 인접 행렬 및 특징 행렬을 생성하는 단계를 포함할 수 있다.

바람직하게, 상기 키포인트를 결정하는 단계는, 상기 포인트 클라우드의 좌표 최대값을 기초로 공간의 크기를 산출하는 단계, 상기 공간의 크기를 기설정된 복셀 크기로 나눠 상기 공간을 분할하는 단계, 상기 포인트 클라우드의 각 좌표를 상기 복셀 크기로 나눠 복셀 인덱스를 설정하고 복셀 인덱스에 해당하는 복셀의 위치로 나타내는 단계, 및 상기 복셀 인덱스를 기초로 동일한 복셀에 포함되는 포인트 중 랜덤으로 키포인트를 결정하는 단계를 포함하되, 상기 복셀 크기는 검출하는 3차원 객체의 크기에 따라 설정될 수 있다.

바람직하게, 상기 그래프로 구조화하는 단계는, 상기 키포인트를 결정된 순서에 따라 주소화하는 단계, 상기 키포인트를 객체의 크기가 포함될 수 있는 크기로 설정된 원구 기반의 근접 이웃 탐색 알고리즘을 통해 연결하여 그래프를 구성하는 단계, 및 상기 키포인트의 좌표 정보와 주소화 정보를 기초로 키포인트들의 연결 관계를 나타내는 에지 리스트를 생성하는 단계를 포함할 수 있다.

바람직하게, 상기 인접 행렬 및 특징 행렬을 생성하는 단계는, 상기 에지 리스트에 키포인트 자신을 연결하는 루프(Loop)를 추가하여 키포인트들 간의 연결 상태를 나타내는 원본 인접 행렬을 생성하는 단계, 및 상기 에지 리스트를 기초로 각 키포인트의 에지 개수를 나타내는 차수 행렬을 생성하고 상기 차수 행렬과 상기 원본 인접 행렬의 차를 통해 키포인트들 간의 연결 상태와 상대적인 거리 정보를 나타내는 상대 인접 행렬을 생성하는 단계를 포함할 수 있다.

바람직하게, 상기 인접 행렬 및 특징 행렬을 생성하는 단계는, 상기 키포인트의 특징 정보를 기초로 특징 행렬을 생성하는 단계를 포함하되, 상기 특징 정보는, 키포인트의 좌표 정보, 키포인트의 RGB 정보, 또는 키포인트에 대한 상대 인접 행렬의 좌표 정보에 해당하할 수 있다.

바람직하게, 상기 객체를 감지하고 포즈를 추정하는 단계는, 상기 상대 인접 행렬과 상기 특징 행렬을 곱하여 상기 키포인트들 간의 상대적 특성이 반영된 상대적 특징 행렬을 생성하는 단계, 및 상기 상대적 특징 행렬과 상기 키포인트의 색상 정보를 다층 신경망(Multi-Layer Perceptrons; MLP)에 적용시켜 새 특징 행렬을 획득하는 단계를 포함할 수 있다.

바람직하게, 상기 객체를 감지하고 포즈를 추정하는 단계는, 상기 새 특징 행렬 및 상기 원본 인접 행렬을 곱하는 연산을 특정 횟수 반복하여 인접한 키포인트의 정보가 집계된 연산 산출값을 획득하는 단계, 상기 연산 산출값을 다층 신경망에 적용시켜 키포인트의 특징 간 순서에 대한 정보가 제거된 최종 산출값으로 변환하는 단계, 및 상기 최종 산출값을 기초로 객체의 클래스 및 바운딩 박스를 예측하는 단계를 포함할 수 있다.

바람직하게, 상기 연산 산출값을 획득하는 단계는, 상기 새 특징 행렬 및 원본 인접 행렬을 곱하여 결과값을 획득하는 단계, 상기 결과값에 대해 스킵 커넥션(Skip Connection)을 적용하는 단계, 및 상기 스킵 커넥션을 적용한 후, 상기 새 특징 행렬 및 원본 인접 행렬을 곱하여 결과값을 획득하는 단계 및 스킵 커넥션을 적용하는 단계를 재수행하는 단계를 포함할 수 있다.

바람직하게, 상기 클래스 및 바운딩 박스를 예측하는 단계는, 상기 최종 산출값을 다층 신경망에 적용시켜 각 클래스에 대한 예측값을 생성하는 단계, 상기 예측값을 소프트맥스(Softmax)에 적용시켜 각 클래스에 대한 확률값으로 변환하는 단계, 및 상기 클래스의 개수만큼 바운딩 박스를 예측하는 단계를 포함할 수 있다.

바람직하게, 상기 바운딩 박스를 결정하는 단계는, 상기 감지된 객체에 대해 예측된 바운딩 박스에 대해 쿼터니언 회전을 수행하는 단계, 및 상기 예측된 바운딩 박스가 복수개인 경우에는, NMS(Non-Maximum Suppression)을 이용하여 상기 객체에 대한 바운딩 박스를 결정하는 단계를 포함할 수 있다.

바람직하게, 상기 GCN을 학습하는 단계를 더 포함할 수 있다.

바람직하게, 상기 GCN을 학습하는 단계 이전에, 상기 그래프를 구성하는 키포인트의 바운딩 박스에 대한 위치에 따라 해당 객체의 클래스 인덱스, 배경 인덱스, 또는 고려 안함 인덱스를 부여하여 클래스 레이블을 생성하는 단계, 및 상기 바운딩 박스의 중심 좌표 (x,y,z), 너비, 깊이, 높이, 피치(pitch), 롤(roll), 및 요(yaw) 값을 기초로 박스 레이블을 생성하는 단계를 포함하되, 상기 중심 좌표는 상기 바운딩 박스의 중심과 키포인트의 차를 통해 연산된 벡터값에 해당하고, 상기 너비, 깊이, 및 높이는 0과 1 사이의 정규화된 값이고, 상기 피치, 롤, 및 요는 쿼터니언 회전을 통해 변환된 값에 해당할 수 있다.

바람직하게, 상기 GCN을 학습하는 단계는, 상기 객체를 감지하기 위한 클래스 학습을 위해, 상기 객체의 실제 클래스와 상기 객체에 대해 예측된 클래스 간의 분포를 기초로 교차 엔트로피를 계산하는 단계, 및 상기 객체의 포즈를 추정하기 위한 바운딩 박스 학습을 위해, 상기 객체의 실제 바운딩 박스와 상기 객체에 대해 예측된 바운딩 박스에 후버 손실(Huber loss) 함수를 적용하여 계산하는 단계를 포함할 수 있다.

상기 목적을 달성하기 위한 본 발명의 제2 측면은, 3차원 객체 인식 및 포즈 추정 장치로서, 포인트 클라우드를 입력 받는 데이터 입력 모듈, 상기 포인트 클라우드로부터 그래프를 구성하는 그래프 변환 모듈, 상기 그래프에 GCN을 반복 적용하여 객체를 감지하고 포즈를 추정하는 딥러닝 수행 모듈, 및 상기 감지한 객체의 바운딩 박스를 결정하는 박스 관리 모듈을 포함한다.

상기 목적을 달성하기 위한 본 발명의 제3 측면은 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램에 있어서, 상기 컴퓨터 프로그램의 명령이 실행될 경우, 데이터 정합 방법이 수행되는 것을 특징으로 한다.

상기한 바와 같이 본 발명에 의하면, 한번의 촬영으로 포인트 클라우드로부터 3차원 객체에 대한 클래스, 바운딩 박스, 크기, 및 포즈를 획득할 수 있는 효과가 있다.

또한, 효율적인 특징 함축을 위한 GCN 모델을 설계하여 GNN 기반의 시스템에 비해 학습 및 예측 레이어를 간소화함으로써 속도를 향상시키고 상대적인 특성을 반영하기 위한 상대 인접 행렬을 도입함으로써 정확도도 향상시키는 효과가 있다.

또한, 포인트 클라우드 자신과 이웃의 포인트 특징을 집계하는 과정마다 그래프 구조를 재사용하여 메모리 사용의 효율성을 높임으로서 GPU 뿐만 아니라 CPU에서도 학습 및 예측이 가능한 효과가 있다.

도 1은 본 발명의 바람직한 실시예에 따른 3차원 객체 인식 및 포즈 추정 장치에 대한 블록도이다.

도 2는 일 실시예에 따른 그래프 변환 모듈에 대한 블록도이다.

도 3은 일 실시예에 따른 3차원 객체 인식 및 포즈 추정 방법에 대한 흐름도이다.

도 4는 일 실시예에 따른 상대 인접 행렬을 설명하기 위한 예시도이다.

도 5는 일 실시예에 따른 새 특징 행렬을 설명하기 위한 예시도이다.

도 6은 일 실시예에 따른 IoU(Intersection over Union)을 설명하기 위한 예시도이다.

이하, 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다. "및/또는"은 언급된 아이템들의 각각 및 하나 이상의 모든 조합을 포함한다.

비록 제1, 제2 등이 다양한 소자, 구성요소 및/또는 섹션들을 서술하기 위해서 사용되나, 이들 소자, 구성요소 및/또는 섹션들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 소자, 구성요소 또는 섹션들을 다른 소자, 구성요소 또는 섹션들과 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 소자, 제1 구성요소 또는 제1 섹션은 본 발명의 기술적 사상 내에서 제2 소자, 제2 구성요소 또는 제2 섹션일 수도 있음은 물론이다.

또한, 각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 “포함한다(comprises)" 및/또는 “포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

또한, 본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1을 참조하면, 3차원 객체 인식 및 포즈 추정 장치(100)는 데이터 입력 모듈(110), 그래프 변환 모듈(120), 박스 관리 모듈(130), 딥러닝 수행 모듈(140), 시각화 모듈(150), 및 제어 모듈(160)을 포함한다.

데이터 입력 모듈(110)은 포인트 클라우드(Point Cloud)에 해당하는 데이터를 입력 받는다. 바람직하게, 포인트 클라우드 데이터를 제공하는 주체는 다양하게 적용 가능하고 데이터를 제공하고 입력 받는 방법에도 제한이 없으므로 여기에서는 상세하게 설명하지 않는다.

그래프 변환 모듈(120)은 포인트 클라우드를 그래프로 구성한다. 바람직하게, 그래프 변환 모듈(120)은 고정 반경의 인접 그래프에서 포인트 클라우드를 효율적으로 인코딩하고 새로운 그래프 표현을 사용하여 주변에 인접된 포인트들의 특징을 집계하기 위해 복셀 기반으로 키포인트(Key Point)를 추출하고 추출된 키포인트를 서로 연결하여 연결 관계를 나타내는 인접 행렬과 키포인트의 특징 정보를 나타내는 특징 행렬을 구성할 수 있다. 보다 구체적으로, 도 2를 참조하면, 그래프 변환 모듈(120)은 복셀(Voxel) 기반으로 키포인트를 추출하는 키포인트 추출부(210), 키포인트 간의 연결을 형성하여 에지 리스트(Edge List)를 생성하는 에지 생성부(220), 에지 리스트를 희소행렬 형태의 인접 행렬로 변환시키는 인접행렬 변환부(230), 각 키포인트의 특징 정보를 포함하는 특징 행렬을 생성하는 특징행렬 생성부(240), 및 최종적으로 생성된 행렬을 오픈소스 머신 러닝 라이브러리인 Pytorch에서 사용할 수 있는 텐서(Tensor)로 변환하는 텐서 변환부(250)를 포함할 수 있다.

박스 관리 모듈(130)은 3차원 객체의 바운딩 박스(Bounding Box)에 대해 3차원 객체의 실제 바운딩 박스를 학습 데이터로 변환하고 전처리하며, 인식한 3차원 객체에 대한 바운딩 박스를 결정한다. 즉, 박스 관리 모듈(130)은 실제 바운딩 박스를 학습 데이터로 변환하는 전처리 알고리즘 및 정규화하는 알고리즘을 포함하고 바운딩 박스를 결정하기 위한 NMS(Non-Maximum Suppression) 알고리즘을 포함할 수 있다.

딥러닝 수행 모듈(140)은 GCN 레이어로 구성되어 그래프에 GCN을 반복 적용하여 3차원 객체를 감지하고 포즈를 추정한다. GCN(Graph Neural Networks)은 그래프 표현을 유지하면서 노드(node) 간의 메시지 전달(message passing)을 통해 노드 또는 에지(edge)의 표현을 학습하는 신경망이다. GNN의 대표적인 방법인 GCN(그래프 컨볼루션 신경망, Graph Convolutional Network)은 기존 CNN(Convolutional Neural Network)을 확장한 것으로서, 그래프에서 지원되는 데이터를 처리할 수 있다. 본 발명에서는 불규칙한 포인트들의 분포를 그래프로 구조화하여 3차원 객체를 감지하고 포즈를 추정하는 원 스테이지(one-stage) 방식의 GCN 파이프라인을 제안한다. 원 스테이지 방식은 객체를 감지하고 객체를 분류하는 Classification과 Localization 문제가 동시에 해결되는 방식으로서 본 발명에 의하면 포인트 클라우드로부터 3차원 객체의 감지와 포즈 추정이 동시에 수행될 수 있다.

바람직하게, 딥러닝 수행 모듈(140)은 그래프의 키포인트가 속하는 객체의 클래스(Class)와 포즈를 추정하기 위해 각 포인트 간의 상대적인 특징을 집계하는 KAT(Keypoint attention Mechanism)을 적용하고 여러 객체 포즈의 9자유도(DOF) 추정을 설계할 수 있다. 여기에서, KAT는 GAT(Graph Attention Network)를 키포인트에 대해 적용한 것으로서, GAT는 그래프 구조의 데이터에 대해 어텐션(Attention) 기반의 연산을 효율적으로 수행하고 이웃 포인트들에 대해 서로 다른 가중치(weight)를 지정함으로써 노드가 가지는 이웃의 수와 같으면서 다른 자유도(degree)를 가지는 그래프 노드에 적용될 수 있다.

시각화 모듈(150)은 시각화를 제공한다. 바람직하게, 시각화 모듈(150)은 딥러닝 수행 모듈(140)을 통해서 예측된 바운딩 박스를 디스플레이에 출력될 수 있도록 시각화할 수 있으며, 시각화하는 방법은 본 발명의 기술분야에 속하는 통상의 기술자에 의하여 용이하게 수행될 수 있으므로 상세하게 설명하지 않는다.

제어 모듈(160)은 데이터 입력 모듈(110), 그래프 변환 모듈(120), 박스 관리 모듈(130), 딥러닝 수행 모듈(140), 및 시각화 모듈(150)의 동작 및 데이터의 흐름을 제어하고, 학습 및 시각화는 옵션을 통해 구현될 수 있다. 즉, 제어 모듈(160)은 사용자의 선택에 따라 학습이 수행되거나 학습된 가중치(weight) 값을 기초로 예측(즉, 테스트)이 수행되도록 제어할 수 있고, 시각화 모듈(150)을 통해 시각화가 수행되도록 하거나 시각화가 수행되지 않도록 제어할 수 있다.

일 실시예에서, 3차원 객체 인식 및 포즈 추정 장치(100)는 각 역할에 따른 구성의 모듈화를 통해 프로그램 소스의 재사용성을 높이고 전처리 과정, 학습 과정, 및 예측 과정이 효율적으로 수행되도록 할 수 있다. 바람직하게, 전처리 과정은 학습 및 예측 과정에서 모두 동일하게 수행될 수 있고 학습 과정은 전처리 과정이 수행된 결과물을 기초로 딥러닝 알고리즘을 학습시키기 위한 과정이고 예측 과정은 학습이 충분히 진행된 후에 저장된 모델을 로드하여 전처리 과정이 수행된 결과물을 기초로 3차원 객체를 인식하고 포즈를 추정하는 과정이다.

이하에서는, 3차원 객체 인식 및 포즈 추정 장치(100)의 각 구성을 통하여 수행되는 동작을 도 3을 참조하여 상세하게 설명한다. 도 3를 참조하여 설명될 각 단계는 서로 다른 구성에 의하여 수행되는 것으로 기재하였으나 이에 제한되는 것은 아니며, 실시예에 따라 각 단계들의 적어도 일부는 서로 동일하거나 다른 구성에서 수행될 수도 있다.

도 3을 참조하면, 데이터 입력 모듈(110)은 포인트 클라우드를 입력 받는다(단계 S310). 예를 들어, N개의 포인트에 대한 포인트 클라우드는 집합

으로 정의될 수 있고, 여기에서

는 포인트의 속성을 나타내는 3차원 좌표

와 상태 값

에 해당하는 길이 벡터를 모두 갖는 포인트이다.

그래프 변환 모듈(120)은 포인트 클라우드로부터 그래프를 구성한다(단계 S320). 바람직하게, 그래프 변환 모듈(120)은 p를 정점으로 사용하고 고정된 반지름, 즉, 기설정된 반경 내의 이웃 포인트를 연결하여 그래프 G=(P,E)를 구성할 수 있다. 여기에서, E는 반경 내에서 연결된 상태의 이웃 포인트에 해당한다. 포인트 클라우드는 일반적으로 수만 개의 포인트로 구성되므로 모든 포인트를 꼭짓점으로 하여 그래프를 구성하면 상당한 계산 부담이 따를 수 있다. 따라서, 다운 샘플링된 포인트 클라우드를 사용하여 그래프가 구성될 수 있고, 본 발명에서는 키포인트를 추출하여 그래프가 구성되도록 할 수 있다.

바람직하게, 키포인트 추출부(210)는 포인트 클라우드에서 그래프의 정점이 될 키포인트를 결정할 수 있다. 보다 구체적으로, 키포인트 추출부(210)는 포인트 클라우드의 공간 좌표 최대값을 기초로 공간의 크기를 산출하고 공간의 크기를 기설정된 복셀 크기로 나누어 공간을 분할할 수 있다. 여기에서, 복셀 크기에 따라 키포인트의 개수가 결정되므로 복셀 크기는 검출하는 3차원 객체의 크기에 따라 설정될 수 있다. 키포인트 추출부(210)는 포인트 클라우드의 각 좌표를 복셀 크기로 나누어 복셀 인덱스를 설정하고 각 포인트를 복셀 인덱스에 해당하는 복셀의 위치로 나타낼 수 있다. 여기에서, 복셀 인덱스는 포인트 클라우드의 각 좌표를 복셀 크기로 나누고 나온 몫에 해당할 수 있다. 그 다음, 키포인트 추출부(210)는 복셀 인덱스를 기초로 동일한 복셀에 포함되는 포인트 중 랜덤으로 키포인트를 결정할 수 있다.

바람직하게, 키포인트 추출부(210)를 통해 키포인트가 결정되면, 에지 생성부(220)는 키포인트를 연결하여 그래프로 구조화할 수 있다. 보다 구체적으로, 에지 생성부(220)는 키포인트 추출부(210)에서 키포인트가 결정된 순서에 따라 키포인트를 주소화한다. 즉, 키포인트가 결정된 순서에 따라 0부터 번호가 부여되어 인덱스화 되는 것이다. 그 다음, 에지 생성부(220)는 키포인트를 3차원 객체의 크기가 포함될 수 있는 크기로 설정된 원구 기반의 근접 이웃 탐색 알고리즘(k-Nearest Neighbors)을 통해 연결하여 그래프로 구성할 수 있다. 또한, 에지 생성부(220)는 키포인트의 좌표 정보와 주소화 정보를 기초로 각 키포인트를 중심으로 키포인트들의 연결 관계를 나타내는 에지 리스트를 생성할 수 있다.

바람직하게, 인접행렬 변환부(230)는 구조화한 그래프로부터 인접 행렬을 생성한다. 즉, 인접행렬 변환부(230)는 에지 리스트를 기반으로 인접 행렬로 변환하고, 그래프로 구조화한 포인트 클라우드는 모든 키포인트를 연결한 것이 아닌 일정 범위 내의 키포인트끼리 연결한 것이므로 인접 행렬은 희소 행렬 형태로 표현된다.

보다 구체적으로, 인접행렬 변환부(230)는 추후 특징 행렬과 행렬곱 연산시 키포인트 자신의 특징이 포함될 수 있도록 에지 리스트에 키포인트 자신을 연결하는 루프(Loop)를 추가하여 키포인트들 간의 연결 상태를 나타내는 원본 인접 행렬(Original Adj Matrix)을 생성할 수 있다. 이렇게 생성된 원본 인접 행렬은 포인트들 간의 연결 상태는 나타낼 수 있지만 키포인트로부터 상대적인 거리에 대한 정보는 담고 있지 않으므로, 인접행렬 변환부(230)는 에지 리스트를 기초로 각 키포인트의 에지 개수를 나타내는 차수 행렬을 생성하고 차수 행렬과 원본 인접 행렬의 차를 통해 키포인트들 간의 연결 상태와 상대적인 거리 정보를 나타내는 상대 인접 행렬을 생성할 수 있다. 즉, GCN 구조에 포인트들 간의 상대적인 정보를 반영하기 위해 상대 인접 행렬(Relative Adj Matrix)이 사용되는 것이다. 본 발명은 메시지 전달(message passing)에서 연결된 두 노드 간의 상대적 가중치를 학습하기 위해 어텐션(Attention)을 사용하는 GAT(Graph Attention Networks) 기반의 구조를 적용할 수 있고, GAT는 노드 쌍 i와 j에 대한 주의를 계산하는 것으로서 본 발명의 기술분야에 속하는 통상의 기술자에 의하여 용이하게 이해될 수 있으므로 상세하게 설명하지 않는다. 본 발명에서 각 포인트 간의 상대적인 특징을 집계하기 위해 적용된 GAT 기반의 구조는 KAT(Keypoint Attention Mechanism)이라고 하고 KAT는 GCN의 변환 분산을 줄이기 위해 이웃하는 포인트들의 특징에 따라 좌표를 정렬한다. 이하, 도 4를 참조하여 KAT에 대해 보다 상세하게 설명한다.

바람직하게, 도 4를 참조하면, KAT를 적용하여 생성되는 상대 인접 행렬을 설명하기 위한 예시도로서, 인접행렬 변환부(230)는 키포인트의 중심 좌표 대신에 구조적 특징에 따라 이웃 포인트의 좌표를 정렬하는 KAT(Keypoint Attention Mechanism)를 적용하고 KAT 적용으로 획득된 행렬에 음수를 취하여 포인트의 연결관계는 양수로, 에지의 개수는 음수로 나타내어 상대 인접 행렬로 사용할 수 있다. 여기에서 상대 인접 행렬은 특징 행렬과 행렬곱 연산시 키포인트의 중심 좌표 특징이 그대로 추가되는 것이 아니고, 키포인트와 연결된 이웃 포인트 개수만큼 차감하여 인접 포인트들 간의 상대 좌표로 표현될 수 있다. 이웃의 상태를 사용하여 키포인트의 상태는 아래의 [식 1]에 의해 수정되고 [식 1]에 의해 획득되는 값은 방향과 크기를 가진 각각의 벡터값과 유사하다.

[식 1]

여기에서, X는 포인트의 (x, y, z) 좌표이고, X_pk는 k번째 이웃 포인트의 좌표이고, X_pcenter는 키포인트의 좌표이다.

특징행렬 생성부(240)는 구조화한 그래프로부터 특징 행렬을 생성한다. 바람직하게, 특징행렬 생성부(240)는 키포인트의 특징 정보를 기초로 특징 행렬을 생성할 수 있고, 특징 정보는 키포인트의 RGB 정보, 좌표(x,y,z) 정보, 및 KAT의 적용으로 키포인트의 수정된 상태, 즉, KAT로 업데이트된 새로운 좌표 정보를 포함할 수 있다.

딥러닝 수행 모듈(140)은 그래프에 GCN을 반복 적용하여 객체를 감지하고 포즈를 추정한다(단계 S330). 먼저, 그래프

는 노드 집합과 간선 집합인 (

,

)로 구성된 튜플(tuple)로 정의되며 여기에서 노드

와

사이의 간선

은 노드

가 노드

와 관련이 있는지를 나타내는 이진 값이다. 노드 간의 연결은 방향이 지정되므로 간선

는 상호 간선

와 다를 수 있고, 각 노드는 c차원 특징 벡터, 즉,

로 표현될 수 있다. GCN은 일반 이미지 그리드 대신 그래프 표현에서 작동하는 CNN의 확장으로서, 입력 그래프

가 주어지면 GCN 연산

는 주어진 노드

의 이웃

에 있는

노드의 기능을 집계한다. GCN 연산

는 [식 2]와 같이 인접 노드 간의 기능을 집계하여 주어진 노드의 값을 업데이트 하고, 이는 컨볼루션 필터가 근처 픽셀을 집계하는 방식을 미러링하여 근처 노드의 기능을 집계하는 것이다. CNN과 다르게 GCN은 다른 이웃에 다른 가중치를 적용하지 않는다.

[식 2]

보다 구체적으로, 딥러닝 수행 모듈(140)은 인접 행렬 변환부(230)에서 생성된 상대 인접 행렬과 특징행렬 생성부(240)에서 생성된 특징 행렬을 곱하여 키포인트 간의 상대적인 정보가 반영된 상대적 특징 행렬을 생성하고, 상대적 특징 행렬과 키포인트의 색상 정보(RGB 정보)를 다층 신경망(Multi-Layer Perceptrons; MLP)에 적용시켜 고차원화된 새 특징 행렬을 획득할 수 있다. 바람직하게, 딥러닝 수행 모듈(140)은 상대 인접 행렬과 키포인트의 좌표 정보를 포함하는 특징 행렬을 곱하여 키포인트들 간의 상대적 특성이 반영된 상대적 특징 행렬을 생성할 수 있다. 예를 들어, 상대적 특징 행렬을 설명하기 위한 예시도인 도 5를 참조하면 인접 행렬 구성과 특징 행렬과의 연산의 예를 나타낸 것으로서, 딥러닝 수행 모듈(140)은 (a)의 상대 인접 행렬의 행과 (b)의 특징 행렬의 열을 곱하여 (c)와 같이 상대적 특성이 반영된 상대적 특징 행렬을 생성할 수 있다.

딥러닝 수행 모듈(140)은 새 특징 행렬 및 원본 인접 행렬을 곱하는 연산을 특정 횟수 반복하여 인접한 키포인트의 정보가 집계된 연산 산출값을 획득할 수 있다. 바람직하게, 딥러닝 수행 모듈(140)은 새 특징 행렬 및 원본 인접 행렬을 곱하여 결과값을 획득하고, 결과값에 대해 스킵 커넥션(Skip Connection)을 적용한 후, 다시 원본 인접 행렬과 새 특징 행렬을 곱하여 결과값을 획득할 수 있다. 즉, 딥러닝 수행 모듈(140)은 특정 횟수만큼 새 특징 행렬과 원본 인접 행렬을 곱한 결과값에 스킨 커넥션을 적용하는 과정을 반복 수행할 수 있다. 예를 들어, GCN 연산은 3번 이루어질 수 있고 이에 따라 그래프의 3차 인접까지의 정보가 집계될 수 있다. 여기에서, 스킵 커넥션은 그래프 컨볼루션 과정을 통해 만들어진 새로운 특징에 이전 특징을 더하는 것으로서, 역전파 과정에서 미분을 통해 사라지는 특징과 그래프의 인접을 연산하는 횟수가 증가할수록 성능이 약해지는 문제를 해결하기 위하여 적용되는 것이다. 바람직하게, 딥러닝 수행 모듈(140)은 이전 층(Layer)의 정보를 이용하기 위해 이전 층과 다음 층의 정보를 연결하여 원본 포인트의 특징을 추가하고, 키포인트 추출의 다운 샘플링 동안 잃게 되는 공간 정보를 회복하기 위해 수축 경로(Contracting path)에서 확장 경로(Expanding path)로 특징들을 결합할 수 있다.

딥러닝 수행 모듈(140)은 연산 산출값을 다층 신경망에 적용시켜 키포인트의 특징 간 순서에 대한 정보가 제거된 최종 산출값으로 변환하고 최종 산출값을 기초로 3차원 객체의 클래스 및 바운딩 박스를 예측할 수 있다. 즉, 딥러닝 수행 모듈(140)은 GCN을 통해 집계된 특징을 리드아웃(ReadOut)하여 일반화한 후 풀리 커넥티드 레이어(Fully Connected Layer)를 통해 클래스와 바운딩 박스에 대한 값을 추정하는 것이다. 바람직하게 딥러닝 수행 모듈(140)은 최종 산출값을 다층 신경망에 적용시켜 각 클래스에 대한 예측값을 생성하고 예측값을 소프트맥스(Softmax)에 적용시켜 각 클래스에 대한 확률값으로 변환할 수 있다.

바람직하게, 딥러닝 수행 모듈(140)은 예측된 클래스의 개수만큼 바운딩 박스를 예측할 수 있다. 여기에서, 예측된 바운딩 박스의 값은 중심 좌표 (Xc, Yc, Zc)와 박스의 크기를 나타내는 너비(W), 깊이(L), 높이(H) 정보, 및 박스의 회전 정도를 나타내는 pitch, roll, yaw 값으로 구성되므로, 바운딩 박스의 예측이 객체 포즈의 추정을 의미한다.

박스 관리 모듈(130)은 감지한 객체의 바운딩 박스를 결정한다(단계 S340). 바람직하게, 박스 관리 모듈(130)은 딥러닝 수행 모듈(140)을 통해 GCN에 대한 충분한 학습이 진행된 후 저장된 모델을 로드하여 객체의 클래스와 바운딩 박스가 예측되면 예측된 바운딩 박스의 결과물을 원래의 포인트 기준으로 변환시킬 수 있다. 즉, 박스 관리 모듈(30)은 바운딩 박스를 예측하거나 학습이 진행되기 전 키포인트에 해당하는 레이블로 변환하고 정규화 시키는 박스 인코딩(Box Encoding)을 수행하므로 딥러닝 수행 모듈(140)을 통해 바운딩 박스가 예측되면 박스 인코딩에서 정규화 했던 과정을 역순으로 진행하는 박스 디코딩(Box Decoding)을 수행하는 것이다.

바람직하게, 딥러닝 수행 모듈(140)을 통해 각 클래스마다 예측된 바운딩 박스가 동일한 객체에 대한 것인 경우, 즉, 동일한 객체에 대해 복수의 바운딩 박스들이 예측된 경우에는, 박스 관리 모듈(130)은 중복되는 바운딩 박스를 제거하고 예측된 바운딩 박스들을 객체에 가장 적합한 하나의 공통되는 바운딩 박스로 만들어 최종적인 바운딩 박스를 결정하는 NMS(Non-Maximum Suppresion)을 수행할 수 있다. NMS를 통해 바운딩 박스를 결정하는 방법은 본 발명의 기술분야에 속하는 통상의 기술자에 의해 용이하게 수행될 수 있으므로 상세하게 설명하지 않는다.

바람직하게, 박스 관리 모듈(130)은 NMS를 수행하기 이전에 예측된 바운딩 박스들에 대해 쿼터니언 회전을 수행할 수 있다. 쿼터니언 회전은 오일러 각을 사용할 시 특정 상황에서 두 회전축이 겹치게 되어 한 개 축의 방향성이 상실되는 짐벌락 현상이 발생하는 경우를 해결하기 위해 사용되는 방식이다. 즉, 쿼터니언 행렬은 복소수 개념을 도입하여 각 축의 회전을 표현하므로, 오일러 회전에서 발생하는 짐벌락 현상,

의 크기가 커질시 발생하는 불안정성, 및 연산량의 증가 등과 같은 단점들을 해결한다. 쿼터니언은 [식 3]에 도시된 R_q에 해당하는 회전 행렬로 4개의 성분을 가진 벡터이며, 3개는 허수 부분, 1개는 실수 부분으로 q= w+xi+yj+zi으로 정의될 수 있다.

[식 3]

바람직하게 시각화 모듈(150)은 박스 관리 모듈(130)에서 결정된 바운딩 박스를 시각화할 수 있다. 여기에서, 시각화 모듈(150)을 통한 시각화 수행 여부는 사용자의 선택에 의하여 수행될 수 있고 이는 제어 모듈(160)에서의 시각화 수행 여부에 대한 옵션으로 구현될 수 있다.

이하에서는, GCN을 통한 클래스 및 바운딩 박스의 예측을 위해 학습 시 수행되는 구성을 설명한다. 바람직하게, 클래스 및 바운딩 박스의 예측과 학습은 사용자에 의해 선택적으로 수행될 수 있고 이는 제어 모듈(160)에서의 예측과 학습 옵션으로 구현될 수 있다.

일 실시예에서, 딥러닝 수행 모듈(140)은 클래스의 학습을 위해 객체와 배경을 분류할 수 있다. 바람직하게, 딥러닝 수행 모듈(140)은 객체의 실제 클래스를 입력 받고 실제 클래스를 원핫 인코딩(One-Hot Encoding) 과정을 통해 정수 값으로 이루어진 행렬 데이터로 변환할 수 있다. 딥러닝 수행 모듈(140)은 각 클래스에 대해 예측된 예측값을 [식 4]의

와 같이 소프트맥스를 통과시켜 0과 1사이의 값으로 만든 후 log를 통과시키고 예측의 불확실성이 클수록 큰 오차를 나타낼 수 있도록 정답 레이블(Label)과 예측을 이용하여 클래스의 범주형 교차 엔트로피 오차

를 계산한다. 교차 엔트로피는 학습시 실제 정답

와 예측값

을 가지고 키포인트 중 예측한 클래스와 실제 클래스 간의 분포를 기초로 계산될 수 있다. 객체 검출의 특성상 객체의 클래스의 분포보다 배경의 클래스의 분포가 크므로 단순히 오차만 구하는 경우에는 효율적인 학습이 어렵기 때문에 교차 엔트로피가 사용되는 것이다.

[식 4]

일 실시예에서, 딥러닝 수행 모듈(140)은 바운딩 박스에 대한 예측값 대신 정답 레이블을 통해 바운딩 박스의 정확도를 높이는 형태로 학습을 진행할 수 있다. 바운딩 박스는 확률 예측이 아닌 정확한 값으로 예측되어야 하므로 이상치(outlier)에 민감하지 않은 후버 손실(Huber loss) 함수가 사용될 수 있다. [식 5]의 후버 손실 함수

는 정답

와 예측

의 오차가 절대값이

보다 작은 경우 L2 오차(Least Square Error)가 사용되고

보다 큰 영역에는 L1 오차(Least Absolute Deviations)가 사용된다. L1 오차와 L2 오차를 합해 사용됨으로써 모든 구간에서 미분이 가능하므로 역전파 과정에서 용이할 수 있다.

[식 5]

바람직하게, 딥러닝 수행 모듈(140)에서 클래스 및 바운딩 박스의 예측을 위한 학습이 수행되기 이전에, 박스 관리 모듈(130)은 그래프 변환 모듈(120)을 통해 키포인트로 그래프가 생성되면 키포인트 레이블을 생성하고 바운딩 박스를 정규화할 수 있다. 보다 구체적으로, 박스 관리 모듈(130)은 바운딩 박스 안에 속해 있는 키포인트에는 해당 클래스의 인덱스를 부여하고 바운딩 박스 외부에 있는 키포인트에는 배경 인덱스를 부여한다. 여기에서, 인덱스는 배경을 의미하는 0을 시작으로 객체의 클래스마다 1씩 증가되며 마지막 인덱스는 객체의 부분적인 짤림 정도가 심할 경우 학습 시 어떤 객체로도 구분되지 않는 고려 안함(Don't Care) 클래스로 구분될 수 있다. 박스 관리 모듈(130)은 클래스의 인덱스에 해당하는 클래스 레이블을 생성한 후 예측할 바운딩 박스의 박스 레이블을 생성할 수 있다. 바운딩 박스는 중심 좌표 (Xc, Yc, Zc)와 박스의 크기를 나타내는 너비(W), 깊이(L), 높이(H) 정보, 및 박스의 회전 정도를 나타내는 pitch, roll, yaw 값으로 구성된다. 여기에서, pitch, roll, yaw 값은 쿼터니언 회전을 통해 변환된 값이고, 해당 9개의 값은 예측하는 정답 레이블로 사용하기 위해 키포인트가 속해 있는 바운딩 박스에 해당하는 박스 레이블로 변환될 수 있다. 박스 관리 모듈(130)은 바운딩 박스의 중심 좌표로 바운딩 박스의 중심과 키포인트의 차를 통해 연산된 벡터값을 사용하고, 바운딩 박스의 너비, 깊이, 및 높이는 정규화를 위해 해당 객체를 대표하는 기준 바운딩 박스의 크기로 나눈 값에 log를 취해 0과 1사이의 값을 가지도록 정규화한다. 여기에서, 기준 바운딩 박스의 크기는 해당 객체의 클래스 크기의 평균값이 사용된다. 이렇게 생성된 클래스 레이블과 박스 레이블은 Pytorch 텐서로 변환되어 학습에 사용될 수 있고, 예측시에도 이와 같은 방식으로 정규화가 수행될 수 있다.

일 실시예에서, 박스 관리 모듈(130)은 단계 S330을 통해 예측된 바운딩 박스의 정확도를 평가하기 위해 예측된 바운딩 박스와 실제 바운딩 박스를 기초로 IoU(Intersection over Union)를 획득할 수 있다. IoU는 객체 감지, 분할, 또는 추적과 같은 컴퓨터 비전 작업에 대한 평가 메트릭(Metric)으로 널리 사용되는 방식으로서, 예측된 바운딩 박스가 실제에 얼마나 가까운지를 측정한다. 바람직하게, 박스 관리 모듈(130)은 예측된 바운딩 박스와 실제 바운딩 박스를 입력으로 사용하여 IoU를 통해 두 바운딩 박스의 교차 볼륨을 계산할 수 있다.

보다 구체적으로, 3차원 객체 감지에서 3차원 바운딩 박스의 정확한 3차원 IoU 값은 세 부분으로 구성된 알고리즘을 사용하여 계산될 수 있다. 첫째, 박스 관리 모듈(130)은 Sutherland-Hodgman 폴리곤 클리핑 알고리즘으로 두 바운딩 박스의 면 사이의 교차점을 계산한다. 예를 들어, x는 결정된 바운딩 박스를 나타내고 y는 실제 바운딩 박스를 나타내는 경우, 박스 관리 모듈(130)은 두 바운딩 박스 x와 y 사이의 교차점을 계산하기 위해 바운딩 박스 x의 역변환을 사용하여 두 바운딩 박스를 모두 변환한다. 변환된 바운딩 박스 x는 축에 맞춰 정렬되고 원점을 중심으로 중심에 배치되는 반면 바운딩 박스 y는 바운딩 박스 x의 좌표계로 이동되고 방향이 유지되고, 부피는 강체 변환에서 불변으로 유지된다. 박스 관리 모듈(130)은 이와 같은 새로운 좌표계에서 교차점을 계산하고 변환된 교차점에서 부피를 추정할 수 있고, 해당 좌표계가 사용되면 각 표면이 좌표축 중 하나에 수직이기 때문에 바운딩 박스에 대해 더 효율적이고 간단한 다각형 클리핑이 가능하다. 다음으로, 박스 관리 모듈(130)은 폴리곤 클리핑 알고리즘을 이용하여 축 정렬된 바운딩 박스 x에 대해 볼록 다각형인 바운딩 박스 y의 각 면을 자른다. 렌더링된 환경을 결정하기 위해 각 월드 폴리곤이 카메라 절두체에 대해 잘리고, 강력한 Sutherland-Hodgman 알고리즘을 사용하여 클리핑이 수행된다. 이 때, 평면에 대해 다각형을 자르기 위해 평면의 모서리가 가상적으로 무한대로 확장되고, 다각형의 각 모서리를 시계 방향으로 반복하고 해당 모서리가 축 정렬된 바운딩 박스 x의 면과 교차하는지 여부가 결정된다. 그리고 바운딩 박스 y의 각 정점에 대해 바운딩 박스 x 안에 있는 정점이 있는지 확인되고, 교차하는 정점에도 해당 정점이 추가된다. 예를 들어, 도 6의 (a)에 도시된 바와 같이, 박스 관리 모듈(130)은 다각형을 바운딩 박스에 클리핑하여 각 변의 교차점 계산을 수행할 수 있고, 바운딩 박스 x와 y를 교환하는 전체 프로세스를 반복한다. 둘째, 박스 관리 모듈(130)은 모든 잘린 다각형의 볼록 껍질 알고리즘을 사용하여 교차 볼륨을 계산한다. 예를 들어, 교차의 체적은 도 6의 (b)의 녹색으로 표시된 부분과 같이 잘린 모든 다각형의 볼록 껍질에 의해 계산될 수 있다. 셋째, 두 바운딩 박스의 교차 및 결합 볼륨을 기반으로, 도 6의 (c)에 도시된 바와 같은 IoU가 계산될 수 있다. 바람직하게, 박스 관리 모듈(130)은 IoU가 계산된 이후, 복수의 바운딩 박스들에 대해 NMS를 수행하여 하나의 바운딩 박스를 결정할 수 있고, 이는 예측시에 단계 S340에서 수행되는 과정과 동일하므로 상세하게 설명하지 않는다.

한편, 본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.

본 발명의 구성 요소들은 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 애플리케이션)으로 구현되어 매체에 저장될 수 있다. 본 발명의 구성 요소들은 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있으며, 이와 유사하게, 실시예는 데이터구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다.

전술한 본 발명에 따른 3차원 객체 인식 및 포즈 추정 방법 및 장치에 대한 바람직한 실시예에 대하여 설명하였지만, 본 발명은 이에 한정되는 것이 아니고 특허청구범위와 발명의 상세한 설명 및 첨부한 도면의 범위 안에서 여러가지로 변형하여 실시하는 것이 가능하고 이 또한 본 발명에 속한다.

[부호의 설명]

100: 3차원 객체 인식 및 포즈 추정 장치

110: 데이터 입력 모듈

120: 그래프 변환 모듈

130: 박스 관리 모듈

140: 딥려닝 수행 모듈

150: 시각화 모듈

160: 제어 모듈

210: 키포인트 추출부

220: 에지 생성부

230: 인접행렬 변환부

240: 특징행렬 생성부

250: 텐서 변환부

Claims

3차원 객체 인식 및 포즈 추정 장치에서 수행되는 3차원 객체 인식 및 포즈 추정 방법에 있어서,

포인트 클라우드(Point Cloud)를 입력 받는 단계;

상기 포인트 클라우드로부터 그래프를 구성하는 단계;

상기 그래프에 GCN(Graph Convolutional Network)을 반복 적용하여 객체를 감지하고 포즈를 추정하는 단계; 및

상기 감지한 객체의 바운딩 박스(Bounding Box)를 결정하는 단계를 포함하는 3차원 객체 인식 및 포즈 추정 방법.
제1항에 있어서, 상기 그래프를 구성하는 단계는,

상기 포인트 클라우드에서 그래프의 정점이 될 키포인트를 결정하는 단계;

상기 키포인트를 연결하여 그래프로 구조화하는 단계; 및

상기 구조화한 그래프로부터 인접 행렬 및 특징 행렬을 생성하는 단계를 포함하는 것을 특징으로 하는 3차원 객체 인식 및 포즈 추정 방법.
제2항에 있어서, 상기 키포인트를 결정하는 단계는,

상기 포인트 클라우드의 좌표 최대값을 기초로 공간의 크기를 산출하는 단계;

상기 공간의 크기를 기설정된 복셀 크기로 나눠 상기 공간을 분할하는 단계;

상기 포인트 클라우드의 각 좌표를 상기 복셀 크기로 나눠 복셀 인덱스를 설정하고 복셀 인덱스에 해당하는 복셀의 위치로 나타내는 단계; 및

상기 복셀 인덱스를 기초로 동일한 복셀에 포함되는 포인트 중 랜덤으로 키포인트를 결정하는 단계를 포함하되,

상기 복셀 크기는 검출하는 3차원 객체의 크기에 따라 설정되는 것을 특징으로 하는 3차원 객체 인식 및 포즈 추정 방법.
제2항에 있어서, 상기 그래프로 구조화하는 단계는,

상기 키포인트를 결정된 순서에 따라 주소화하는 단계;

상기 키포인트를 객체의 크기가 포함될 수 있는 크기로 설정된 원구 기반의 근접 이웃 탐색 알고리즘을 통해 연결하여 그래프를 구성하는 단계; 및

상기 키포인트의 좌표 정보와 주소화 정보를 기초로 키포인트들의 연결 관계를 나타내는 에지 리스트를 생성하는 단계를 포함하는 것을 특징으로 하는 3차원 객체 인식 및 포즈 추정 방법.
제4항에 있어서, 상기 인접 행렬 및 특징 행렬을 생성하는 단계는,

상기 에지 리스트에 키포인트 자신을 연결하는 루프(Loop)를 추가하여 키포인트들 간의 연결 상태를 나타내는 원본 인접 행렬을 생성하는 단계; 및

상기 에지 리스트를 기초로 각 키포인트의 에지 개수를 나타내는 차수 행렬을 생성하고 상기 차수 행렬과 상기 원본 인접 행렬의 차를 통해 키포인트들 간의 연결 상태와 상대적인 거리 정보를 나타내는 상대 인접 행렬을 생성하는 단계를 포함하는 것을 특징으로 하는 3차원 객체 인식 및 포즈 추정 방법.
제5항에 있어서, 상기 인접 행렬 및 특징 행렬을 생성하는 단계는,

상기 키포인트의 특징 정보를 기초로 특징 행렬을 생성하는 단계를 포함하되,

상기 특징 정보는, 키포인트의 좌표 정보, 키포인트의 RGB 정보, 또는 키포인트에 대한 상대 인접 행렬의 좌표 정보에 해당하는 것을 특징으로 하는 3차원 객체 인식 및 포즈 추정 방법.
제6항에 있어서, 상기 객체를 감지하고 포즈를 추정하는 단계는,

상기 상대 인접 행렬과 상기 특징 행렬을 곱하여 상기 키포인트들 간의 상대적 특성이 반영된 상대적 특징 행렬을 생성하는 단계; 및

상기 상대적 특징 행렬과 상기 키포인트의 색상 정보를 다층 신경망(Multi-Layer Perceptrons; MLP)에 적용시켜 새 특징 행렬을 획득하는 단계를 포함하는 것을 특징으로 하는 3차원 객체 인식 및 포즈 추정 방법.
제7항에 있어서, 상기 객체를 감지하고 포즈를 추정하는 단계는,

상기 새 특징 행렬 및 상기 원본 인접 행렬을 곱하는 연산을 특정 횟수 반복하여 인접한 키포인트의 정보가 집계된 연산 산출값을 획득하는 단계;

상기 연산 산출값을 다층 신경망에 적용시켜 키포인트의 특징 간 순서에 대한 정보가 제거된 최종 산출값으로 변환하는 단계; 및

상기 최종 산출값을 기초로 객체의 클래스 및 바운딩 박스를 예측하는 단계를 포함하는 것을 특징으로 하는 3차원 객체 인식 및 포즈 추정 방법.
제8항에 있어서, 상기 연산 산출값을 획득하는 단계는,

상기 새 특징 행렬 및 원본 인접 행렬을 곱하여 결과값을 획득하는 단계;

상기 결과값에 대해 스킵 커넥션(Skip Connection)을 적용하는 단계; 및

상기 스킵 커넥션을 적용한 후, 상기 새 특징 행렬 및 원본 인접 행렬을 곱하여 결과값을 획득하는 단계 및 스킵 커넥션을 적용하는 단계를 재수행하는 단계를 포함하는 것을 특징으로 하는 3차원 객체 인식 및 포즈 추정 방법.
제8항에 있어서, 상기 클래스 및 바운딩 박스를 예측하는 단계는,

상기 최종 산출값을 다층 신경망에 적용시켜 각 클래스에 대한 예측값을 생성하는 단계;

상기 예측값을 소프트맥스(Softmax)에 적용시켜 각 클래스에 대한 확률값으로 변환하는 단계; 및

상기 클래스의 개수만큼 바운딩 박스를 예측하는 단계를 포함하는 것을 특징으로 하는 3차원 객체 인식 및 포즈 추정 방법.
제1항에 있어서, 상기 바운딩 박스를 결정하는 단계는,

상기 감지된 객체에 대해 예측된 바운딩 박스에 대해 쿼터니언 회전을 수행하는 단계; 및

상기 예측된 바운딩 박스가 복수개인 경우에는, NMS(Non-Maximum Suppression)을 이용하여 상기 객체에 대한 바운딩 박스를 결정하는 단계를 포함하는 것을 특징으로 하는 3차원 객체 인식 및 포즈 추정 방법.
제1항에 있어서,

상기 GCN을 학습하는 단계를 더 포함하는 것을 특징으로 하는 3차원 객체 인식 및 포즈 추정 방법.
제12항에 있어서, 상기 GCN을 학습하는 단계 이전에,

상기 그래프를 구성하는 키포인트의 바운딩 박스에 대한 위치에 따라 해당 객체의 클래스 인덱스, 배경 인덱스, 또는 고려 안함 인덱스를 부여하여 클래스 레이블을 생성하는 단계; 및

상기 바운딩 박스의 중심 좌표 (x,y,z), 너비, 깊이, 높이, 피치(pitch), 롤(roll), 및 요(yaw) 값을 기초로 박스 레이블을 생성하는 단계를 포함하되,

상기 중심 좌표는 상기 바운딩 박스의 중심과 키포인트의 차를 통해 연산된 벡터값에 해당하고, 상기 너비, 깊이, 및 높이는 0과 1 사이의 정규화된 값이고, 상기 피치, 롤, 및 요는 쿼터니언 회전을 통해 변환된 값에 해당하는 것을 특징으로 하는 3차원 객체 인식 및 포즈 추정 방법.
제12항에 있어서, 상기 GCN을 학습하는 단계는,

상기 객체를 감지하기 위한 클래스 학습을 위해, 상기 객체의 실제 클래스와 상기 객체에 대해 예측된 클래스 간의 분포를 기초로 교차 엔트로피를 계산하는 단계; 및

상기 객체의 포즈를 추정하기 위한 바운딩 박스 학습을 위해, 상기 객체의 실제 바운딩 박스와 상기 객체에 대해 예측된 바운딩 박스에 후버 손실(Huber loss) 함수를 적용하여 계산하는 단계를 포함하는 것을 특징으로 하는 3차원 객체 인식 및 포즈 추정 방법.
포인트 클라우드를 입력 받는 데이터 입력 모듈;

상기 포인트 클라우드로부터 그래프를 구성하는 그래프 변환 모듈;

상기 그래프에 GCN을 반복 적용하여 객체를 감지하고 포즈를 추정하는 딥러닝 수행 모듈; 및

상기 감지한 객체의 바운딩 박스를 결정하는 박스 관리 모듈을 포함하는 3차원 객체 인식 및 포즈 추정 장치.
컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,

상기 컴퓨터 프로그램의 명령이 실행될 경우, 제1항 내지 제14항 중 어느 한 항에 따른 방법이 수행되는 것을 특징으로 하는 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램.