KR102372500B1

KR102372500B1 - 비디오 영상을 이용한 3차원 객체 인식 방법 및 이를 실행하는 장치

Info

Publication number: KR102372500B1
Application number: KR1020200158377A
Authority: KR
Inventors: 박영섭; 서상현
Original assignee: (주)이노시뮬레이션
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2022-03-10

Abstract

본 발명의 일 실시예에 따른 비디오 영상을 이용한 3차원 객체 인식 장치는 3차원 재구성 및 객체 인식 모델을 제작할 대상 객체를 촬영하여 객체에 대한 비디오 영상을 생성하고, 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집하는 데이터 수집부, 사용자로부터 원본 이미지 데이터 셋 중 첫번째 이미지 데이터 내의 객체를 경계 박스(bounding box)를 설정하는 레이블을 수신하고, 상기 경계 박스(bounding box)를 설정하는 레이블을 이용하여 나머지 이미지 데이터에 대한 레이블링을 실행하는 레이블 할당부, 상기 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강하여 학습용 이미지 데이터를 생성하는 학습용 이미지 데이터 생성부 및 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성하는 3차원 재구성 모델 학습부를 포함한다.

Description

비디오 영상을 이용한 3차원 객체 인식 방법 및 이를 실행하는 장치{METHOD OF RECONNOITERING 3D OBJECT USING VIDEO AND APPARATUS PERFORMING THE SAME}

본 발명은 비디오 영상을 이용한 3차원 객체 인식 방법 및 이를 실행하는 장치에 관한 것으로, 보다 상세하게는 대상 객체를 촬영한 후 SfM(Struture from Motion)을 이용하여 3차원 객체로 재구성할 수 있도록 하는 비디오 영상을 이용한 3차원 객체 인식 방법 및 이를 실행하는 장치에 관한 것이다.

기존 2D 콘텐츠 중심의 산업은 기술의 발달로 관찰자에게 보다 더 사실적이고 생생한 입체감을 줄 수 있는 3D 콘텐츠 창작에 집중하게 되었다. 3D 콘텐츠에 집중하게 되면서, 전문가들뿐 아니라 일반 사용자들도 이 정보들을 사용하고자 하는 욕구들이 늘어나기 시작하였다.

또한 콘텐츠 산업은 이제 더 이상 전문가가 제작한 콘텐츠를 단순히 시청하거나 체험하는 것에 국한되지 않는다. 사용자가 직접 만들고 공유할 수 있는 콘텐츠가 주를 이루기 시작하였다.

하지만 3D 콘텐츠를 제작함에 있어 우리가 현실 세계에서 접하는 객체를 컴퓨터 화면 속으로 옮기는 것은 쉬운 일이 아니다. 아티스트가 아닌 이상 사실적으로 묘사를 하기도 힘들뿐더러 직접 모델링을 하는 것은 고도의 기술과 시간을 필요로 한다. 특히 콘텐츠 창작가와 같은 비전문가에게는 매우 어려운 주제이다.

본 발명은 대상 객체를 촬영한 후 SfM(Struture from Motion)을 이용하여 3차원 객체로 재구성할 수 있도록 하는 비디오 영상을 이용한 3차원 객체 인식 방법 및 이를 실행하는 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 원본 이미지 데이터 셋을 이용하여 여러 환경 변수를 고려한 학습용 이미지 데이터를 생성함으로써 비전문가 또한 쉽게 원하는 3D 오브젝트와 이를 활용한 실시간 객체 인식 도구를 활용할 수 있도록 하는 비디오 영상을 이용한 3차원 객체 인식 방법 및 이를 실행하는 장치를 제공하는 것을 목적으로 한다.

본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

이러한 목적을 달성하기 위한 비디오 영상을 이용한 3차원 객체 인식 장치는 3차원 재구성 및 객체 인식 모델을 제작할 대상 객체를 촬영하여 객체에 대한 비디오 영상을 생성하고, 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집하는 데이터 수집부, 사용자로부터 원본 이미지 데이터 셋 중 첫번째 이미지 데이터 내의 객체를 경계 박스(bounding box)를 설정하는 레이블을 수신하고, 상기 경계 박스(bounding box)를 설정하는 레이블을 이용하여 나머지 이미지 데이터에 대한 레이블링을 실행하는 레이블 할당부, 상기 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강하여 학습용 이미지 데이터를 생성하는 학습용 이미지 데이터 생성부 및 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성하는 3차원 재구성 모델 학습부를 포함한다.

또한 이러한 목적을 달성하기 위한 비디오 영상을 이용한 3차원 객체 인식 장치에서 실행되는 비디오 영상을 이용한 3차원 객체 인식 방법은 3차원 재구성 및 객체 인식 모델을 제작할 대상 객체를 촬영하여 객체에 대한 비디오 영상을 생성하고, 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집하는 단계, 사용자로부터 원본 이미지 데이터 셋 중 첫번째 이미지 데이터 내의 객체를 경계 박스(bounding box)를 설정하는 레이블을 수신하고, 상기 경계 박스(bounding box)를 설정하는 레이블을 이용하여 나머지 이미지 데이터에 대한 레이블링을 실행하는 단계, 상기 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강하여 학습용 이미지 데이터를 생성하는 단계 및 상기 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성하는 단계를 포함한다.

전술한 바와 같은 본 발명에 의하면, 대상 객체를 촬영한 후 SfM(Struture from Motion)을 이용하여 3차원 객체로 재구성할 수 있다는 장점이 있다.

또한 본 발명에 의하면, 원본 이미지 데이터 셋을 이용하여 여러 환경 변수를 고려한 학습용 이미지 데이터를 생성함으로써 비전문가 또한 쉽게 원하는 3D 오브젝트와 이를 활용한 실시간 객체 인식 도구를 활용할 수 있다는 장점이 있다.

도 1은 본 발명의 일 실시예에 따른 비디오 영상을 이용한 3차원 객체 인식 시스템을 설명하기 위한 네트워크 구성도이다.
도 2는 본 발명의 일 실시예에 따른 비디오 영상을 이용한 3차원 객체 인식 장치의 내부 구조를 설명하기 위한 블록도이다.
도 3은 본 발명에 따른 비디오 영상을 이용한 3차원 객체 인식 방법의 일 실시예를 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 이미지 증강을 위한 원본 이미지 데이터 셋의 이미지 데이터를 설명하기 위한 예시도이다.
도 5는 본 발명의 일 실시예에 따른 레이블링 결과를 설명하기 위하 예시도이다.
도 6 및 도 7은 본 발명의 일 실시예에 따른 학습용 이미지 데이터를 설명하기 위한 예시도이다.

전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.

본 명세서에서 사용된 용어 중 “경계 박스(bounding box)를 이용한 레이블링”은 이미지 데이터 셋에 포함된 객체에 대한 경계 박스(bounding box)의 좌표값, 객체의 종류(classification), 경계 박스(bounding box)의 좌표 및 종류 분류 오차 정도 중 적어도 하나를 산출하는 과정을 포함할 수 있다.

예를 들어, 이미지 데이터 내 객체가 존재한다면, 해당 객체에 대한 경계 박스(bounding box)의 좌표값(x, y, z)을 산출하거나, 해당 객체가 자동차일 확률을 산출하거나, 좌표 및 자동차 분류의 오차 정도를 산출할 수 있다. 위 작업들이 경계 박스(bounding box)를 이용한 레이블링 작업에 해당할 수 있을 것이다.

상기의 경계 박스(bounding box)를 이용한 레이블링 작업이 수행된 후, 레이블링 작업이 수행된 결과를 딥러닝 모델에 통과시키면 검수용 점수가 획득된다.

도 1은 본 발명의 일 실시예에 따른 비디오 영상을 이용한 3차원 객체 인식 시스템을 설명하기 위한 네트워크 구성도이다.

도 1을 참조하면, 비디오 영상을 이용한 3차원 객체 인식 시스템은 비디오 영상을 이용한 3차원 객체 인식 장치(100) 및 대상 객체(200)를 포함한다.

비디오 영상을 이용한 3차원 객체 인식 장치(100)는 3차원 재구성 및 객체 인식 모델을 제작할 대상 객체(200)를 촬영하여 객체에 대한 비디오 영상을 생성한 후 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집한다.

그런 다음, 원본 이미지 데이터 셋의 이미지 데이터를 이용하여 학습용 이미지 데이터를 생성한 후, 원본 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성한다.

대상 객체(200)는 3차원 재구성 및 객체 인식 모델을 제작할 대상이다. 이러한 대상 객체(200)는 비디오 영상을 이용한 3차원 객체 인식 장치(100)에 의해 3차원으로 재구성될 수 있다.

이하에서는, 도 2를 참조하여 비디오 영상을 이용한 3차원 객체 인식 장치(100)에 대해서 보다 구체적으로 설명하기로 한다.

도 2는 본 발명의 일 실시예에 따른 비디오 영상을 이용한 3차원 객체 인식 장치의 내부 구조를 설명하기 위한 블록도이다.

도 2를 참조하면, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 데이터 수집부(110), 레이블 할당부(120), 학습용 이미지 데이터 생성부(130) 및 3차원 재구성 모델 학습부(140)를 포함한다.

데이터 수집부(110)는 3차원 재구성 및 객체 인식 모델을 제작할 대상 객체를 촬영하여 객체에 대한 비디오 영상을 생성하고, 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집한다.

일 실시예에서, 데이터 수집부(110)는 대상 객체를 기준으로 360도 회전하면서 대상 객체의 주위를 촬영하여 대상 객체가 바닥에 맞닿은 면을 제외한 다른 모든 부분을 촬영하여 객체에 대한 비디오 영상을 생성할 수 있다.

그런 다음, 데이터 수집부(110)는 객체에 대한 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집한다. 상기와 같은 과정을 통해 수집된 원본 이미지 데이터 셋은 대상 객체를 3차원으로 재구성할 때 사용될 수 있고, 깊이 값을 계산할 때 사용될 수 있고, 이미지 증강을 실행할 때 사용될 수 있다.

레이블 할당부(120)는 사용자로부터 원본 이미지 데이터 셋 중 첫번째 이미지 데이터 내의 객체를 경계 박스(bounding box)를 설정하는 레이블을 수신하고, 경계 박스(bounding box)를 설정하는 레이블을 이용하여 나머지 이미지 데이터에 대한 레이블링을 실행한다. 이에 따라, 원본 이미지 데이터 셋의 이미지 데이터 각각에는 경계 박스(bounding box)가 설정될 수 있다.

상기의 원본 이미지 데이터 셋의 이미지 데이터는 하나의 환경에서 촬영된 비디오 영상에서 추출한 것이기 때문에 장소, 특히 밝기와 객체 크기 등에 있어 다양한 환경에서의 인식 성능이 매우 떨어지게 된다.

상기와 같이 원본 이미지 데이터 셋은 하나의 독립 환경에서 생성되어 다양한 환경 변수의 변화에 대응하지 못하기 때문에 본 발명은 원본 이미지 데이터 셋의 이미지 데이터의 증강 작업을 실행하였다.

상기의 이미지 데이터의 증강은 부족한 데이터의 수를 보완하기 위해 실시하는 작업으로, 본 발명에서는 원본 이미지 데이터 및 원본 이미지 데이터의 레이블을 동일한 증강과 동일하지 않은 증강으로 실행한다. 이하에서는 이러한 과정을 보다 구체적으로 설명하기로 한다.

먼저, 원본 이미지 데이터 및 원본 이미지 데이터의 레이블의 동일한 증강 과정을 설명하기로 한다.

학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강시킨다.

이를 위해, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터 각각에 대해서 객체를 제외한 배경을 변경한다.

이와 같은 이유는 원본 이미지 데이터 셋의 이미지 데이터의 경우 한 공간에서 촬영된 비디오 영상을 기반으로 생성된 것이기 때문에 이러한 원본 이미지 데이터 셋을 이용한 경우 다양한 환경에서 동작하는 객체 인식기를 제작하기 힘들기 때문이다.

따라서, 본 발명의 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터 각각에 대해서 객체를 제외한 배경을 제거하는 것이다.

일 실시예에서, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터에서 경계 박스(bounding box)를 제외한 나머지 영역의 삭제한 후 임의의 배경 이미지를 합성하여 이미지 데이터의 배경을 변경하여 학습용 이미지 데이터를 생성한다.

그런 다음, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터의 밝기 및 색상을 조정하여 학습용 이미지 데이터를 생성한다.

이와 같은 이유는 원본 이미지 데이터 셋의 이미지 데이터의 경우 한 공간에서 촬영된 비디오 영상을 기반으로 생성된 것이기 때문에 환경 변수를 모두 고려하지 못한다.

예를 들어, 원본 이미지 데이터 셋이 대상 객체를 어두운 곳에서 촬영한 비디오 영상에서 추출된 경우 이를 통해서만 학습된 객체 인식기는 밝은 환경에서의 성능이 떨어지게 된다. 다른 예를 들어, 비디오 영상을 촬영한 카메라의 종류나 성능에 따라 비디오 영상에서 추출된 이미지 데이터의 색상이 다를 수 있다.

따라서, 본 발명은 이미지 데이터 셋의 이미지 데이터의 밝기 및 색상을 조정하여 학습용 이미지 데이터를 생성하는 것이다.

그런 다음, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터의 경계 박스(bounding box)의 특정 영역을 삭제한다.

이와 같은 이유는, 객체 인식 도중 특정 물체 혹은 손가락 등으로 인하여 객체가 가려지는 경우가 발생할 수 있다. 따라서, 객체의 일부가 임의로 제거되더라도 객체의 인식을 성공적으로 수행할 수 있도록 이미지 데이터의 경계 박스(bounding box)의 특정 영역을 삭제하여 학습용 이미지 데이터를 생성한다.

다음으로, 원본 이미지 데이터 및 원본 이미지 데이터의 레이블의 동일하지 않은 증강 과정을 설명하기로 한다.

학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터에 대한 반전, 회전, 잘라내기 및 왜곡을 실행하여 학습용 이미지 데이터를 생성한다.

일 실시예에서, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터를 상하 반전, 좌우 반전 및 상하좌우 반전 중 어느 하나에 대한 반전을 실행하여 학습용 이미지 데이터를 생성한다.

다른 일 실시예에서, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터를 특정 각도로 회전시켜 학습용 이미지 데이터를 생성한다.

또 다른 일 실시예에서, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터 중 특정 영역을 삭제하여 학습용 이미지 데이터를 생성한다.

상기의 실시예에서, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터 중 삭제된 특정 영역이 경계 박스(bounding box)에 해당하면, 레이블 할당부(120)을 통해 경계 박스(bounding box)를 다시 설정하여 학습용 이미지 데이터를 생성한다.

또 다른 일 실시예에서, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터 각각의 크기를 변경한 후 왜곡시켜 학습용 이미지 데이터를 생성한다.

또한, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터에 대한 반전, 회전, 잘라내기 및 왜곡을 실행함과 동시에 이미지 데이터의 경계 박스(bounding box)에 대한 반전, 회전, 잘라내기 및 왜곡을 실행하여 학습용 이미지 데이터를 생성한다.

일 실시예에서, 학습용 이미지 데이터 생성부는 이미지 데이터의 경계 박스(bounding box)의 좌표 중 원점 좌표를 기준으로 상하 반전, 좌우 반전 및 상하좌우 반전 중 어느 하나에 대한 반전을 실행할 수 있다.

다른 일 실시예에서, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터가 특정 각도만큼 회전되면 경계 박스(bounding box)도 특정 각도만큼 회전시켜 학습용 이미지 데이터를 생성한다.

또 다른 일 실시예에서, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터의 크기가 특정 비율에 따라 변경되면 경계 박스(bounding box)의 크기를 특정 비율에 따라 함께 변경하여 학습용 이미지 데이터를 생성한다.

3차원 재구성 모델 학습부(140)는 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성한다.

즉, 3차원 재구성 모델 학습부(140)는 원본 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터 사이의 3차원 구조를 산출하여 깊이 맵을 예측하고, 상기 깊이 맵을 기초로 메쉬 및 텍스처 매핑을 수행하여 상기 대상 객체에 대한 3차원 재구성 모델을 생성한다.

도 3은 본 발명에 따른 비디오 영상을 이용한 3차원 객체 인식 방법의 일 실시예를 설명하기 위한 흐름도이다.

도 3을 참조하면, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 3차원 재구성 및 객체 인식 모델을 제작할 대상 객체를 촬영하여 객체에 대한 비디오 영상을 생성하고, 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집한다(단계 S310).

비디오 영상을 이용한 3차원 객체 인식 장치(100)는 사용자로부터 원본 이미지 데이터 셋 중 첫번째 이미지 데이터 내의 객체를 경계 박스(bounding box)를 설정하는 레이블을 수신하고, 상기 경계 박스(bounding box)를 설정하는 레이블을 이용하여 나머지 이미지 데이터에 대한 레이블링을 실행한다(단계 S320).

비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강하여 학습용 이미지 데이터를 생성한다(단계 S330).

비디오 영상을 이용한 3차원 객체 인식 장치(100)는 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성한다(단계 S340).

도 4는 본 발명의 일 실시예에 따른 이미지 증강을 위한 원본 이미지 데이터 셋의 이미지 데이터를 설명하기 위한 예시도이다.

도 4를 참조하면, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 3차원 재구성 및 객체 인식 모델을 제작할 대상 객체를 촬영하여 객체에 대한 비디오 영상을 생성하고, 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집한다.

일 실시예에서, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 대상 객체를 기준으로 360도 회전하면서 대상 객체의 주위를 촬영하여 대상 객체가 바닥에 맞닿은 면을 제외한 다른 모든 부분을 촬영하여 객체에 대한 비디오 영상을 생성할 수 있다.

그런 다음, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 객체에 대한 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋(즉, 도 4의 (a) 내지 (h))으로 수집한다. 상기와 같은 과정을 통해 수집된 원본 이미지 데이터 셋(즉, 도 4의 (a) 내지 (h))은 대상 객체를 3차원으로 재구성할 때 사용될 수 있고, 깊이 값을 계산할 때 사용될 수 있고, 이미지 증강을 실행할 때 사용될 수 있다.

도 5는 본 발명의 일 실시예에 따른 레이블링 결과를 설명하기 위하 예시도이다.

도 5를 참조하면, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 사용자로부터 원본 이미지 데이터 셋 중 첫번째 이미지 데이터 내의 객체를 경계 박스(bounding box)를 설정하는 레이블을 수신하고, 참조번호 도 5(a) 및 도 5(b)와 같이 경계 박스(bounding box)를 설정하는 레이블을 이용하여 나머지 이미지 데이터에 대한 레이블링을 실행한다. 이에 따라, 원본 이미지 데이터 셋의 이미지 데이터 각각에는 경계 박스(bounding box)가 설정될 수 있다.

도 6 및 도 7은 본 발명의 일 실시예에 따른 학습용 이미지 데이터를 설명하기 위한 예시도이다.

도 6 및 도 7을 참조하면, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 및 원본 이미지 데이터의 레이블을 동일한 증강과 동일하지 않은 증강으로 실행한다.

먼저, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 도 6을 참조하여 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강하는 과정을 설명하기로 한다.

비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a)) 각각과 이미지 데이터의 레이블을 동일하게 증강시킨다. 이를 위해, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a)) 각각에 대해서 객체를 제외한 배경을 변경하여 학습용 이미지 데이터(도 6의 (c)를 생성한다.

이와 같은 이유는 원본 이미지 데이터 셋의 이미지 데이터의 경우 한 공간에서 촬영된 비디오 영상을 기반으로 생성된 것이기 때문에 이러한 원본 이미지 데이터 셋을 이용한 경우 다양한 환경에서 동작하는 객체 인식기를 제작하기 힘들기 때문이다. 따라서, 본 발명의 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터 각각에 대해서 객체를 제외한 배경을 제거하는 것이다.

일 실시예에서, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a))에서 경계 박스(bounding box)를 제외한 나머지 영역의 삭제한 후 임의의 배경 이미지를 합성하여 이미지 데이터의 배경을 변경하여 학습용 이미지 데이터(도 6의 (c)를 생성한다.

그런 다음, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a))의 밝기 및 색상을 조정하여 학습용 이미지 데이터(도 6의 (b)를 생성한다.

따라서, 본 발명은 이미지 데이터 셋의 이미지 데이터의 밝기 및 색상을 조정하여 학습용 이미지 데이터(도 6의 (b)를 생성하는 것이다.

그런 다음, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a))의 경계 박스(bounding box)의 특정 영역을 삭제하여 학습용 이미지 데이터(도 6의 (b)를 생성하는 것이다.

다음으로, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 도 7을 참조하여 본 이미지 데이터 및 원본 이미지 데이터의 레이블의 동일하지 않은 증강 과정을 설명하기로 한다.

비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a))에 대한 반전, 회전, 잘라내기 및 왜곡을 실행하여 학습용 이미지 데이터(도 7의(a) 내지 (d))를 생성한다.

일 실시예에서, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a))를 상하 반전, 좌우 반전 및 상하좌우 반전 중 어느 하나에 대한 반전을 실행하여 학습용 이미지 데이터(도 7의(a))를 생성한다.

다른 일 실시예에서, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a))를 특정 각도로 회전시켜 학습용 이미지 데이터(도 7의(c))를 생성한다.

또 다른 일 실시예에서, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a)) 중 특정 영역을 삭제하여 학습용 이미지 데이터(도 7의(b))를 생성한다.

상기의 실시예에서, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a)) 중 삭제된 특정 영역이 경계 박스(bounding box)에 해당하면, 경계 박스(bounding box)를 다시 설정하여 학습용 이미지 데이터(도 7의(b))를 생성한다.

또 다른 일 실시예에서, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a)) 각각의 크기를 변경한 후 왜곡시켜 학습용 이미지 데이터(도 7의(d))를 생성한다.

한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

100: 비디오 영상을 이용한 3차원 객체 인식 장치
110: 데이터 수집부
120: 레이블 할당부
130: 학습용 이미지 데이터 생성부
140: 3차원 재구성 모델 학습부

Claims

3차원 재구성 및 객체 인식 모델을 제작할 대상 객체를 촬영하여 객체에 대한 비디오 영상을 생성하고, 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집하는 데이터 수집부;
사용자로부터 원본 이미지 데이터 셋 중 첫번째 이미지 데이터 내의 객체를 경계 박스(bounding box)를 설정하는 레이블을 수신하고, 상기 경계 박스(bounding box)를 설정하는 레이블을 이용하여 나머지 이미지 데이터에 대한 레이블링을 실행하는 레이블 할당부;
상기 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강하여 학습용 이미지 데이터를 생성하는 학습용 이미지 데이터 생성부; 및
이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성하는 3차원 재구성 모델 학습부를 포함하고,
상기 학습용 이미지 데이터 생성부는
상기 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강시키는 경우, 원본 이미지 데이터 셋의 이미지 데이터에서 경계 박스(bounding box)를 제외한 나머지 영역의 삭제한 후 임의의 배경 이미지를 합성하여 이미지 데이터의 배경을 변경하여 학습용 이미지 데이터를 생성하고, 원본 이미지 데이터 셋의 이미지 데이터의 밝기 및 색상을 조정하여 학습용 이미지 데이터를 생성하고, 원본 이미지 데이터 셋의 이미지 데이터의 경계 박스(bounding box)의 특정 영역을 삭제하고, 상기 원본 이미지 데이터 및 원본 이미지 데이터의 레이블의 동일하지 않게 증강시키는 경우, 이미지 데이터의 경계 박스(bounding box)의 좌표 중 원점 좌표를 기준으로 상하 반전, 좌우 반전 및 상하좌우 반전 중 어느 하나에 대한 반전을 실행하거나 원본 이미지 데이터가 특정 각도만큼 회전되면 경계 박스(bounding box)도 특정 각도만큼 회전시켜 학습용 이미지 데이터를 생성하거나 원본 이미지 데이터의 크기가 특정 비율에 따라 변경되면 경계 박스(bounding box)의 크기를 특정 비율에 따라 함께 변경하여 학습용 이미지 데이터를 생성하는 것을 특징으로 하는
비디오 영상을 이용한 3차원 객체 인식 장치.
삭제
삭제
삭제
제1항에 있어서,
상기 3차원 재구성 모델 학습부는
상기 원본 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터 사이의 3차원 구조를 산출하여 깊이 맵을 예측하고, 상기 깊이 맵을 기초로 메쉬 및 텍스처 매핑을 수행하여 상기 대상 객체에 대한 3차원 재구성 모델을 학습하는 것을 특징으로 하는
비디오 영상을 이용한 3차원 객체 인식 장치.
비디오 영상을 이용한 3차원 객체 인식 장치에서 실행되는 비디오 영상을 이용한 3차원 객체 인식 방법에 있어서,
3차원 재구성 및 객체 인식 모델을 제작할 대상 객체를 촬영하여 객체에 대한 비디오 영상을 생성하고, 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집하는 단계;
사용자로부터 원본 이미지 데이터 셋 중 첫번째 이미지 데이터 내의 객체를 경계 박스(bounding box)를 설정하는 레이블을 수신하고, 상기 경계 박스(bounding box)를 설정하는 레이블을 이용하여 나머지 이미지 데이터에 대한 레이블링을 실행하는 단계;
상기 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강하여 학습용 이미지 데이터를 생성하는 단계;
상기 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성하는 단계를 포함하고,
상기 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강하여 학습용 이미지 데이터를 생성하는 단계는
상기 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강시키는 경우, 원본 이미지 데이터 셋의 이미지 데이터에서 경계 박스(bounding box)를 제외한 나머지 영역의 삭제한 후 임의의 배경 이미지를 합성하여 이미지 데이터의 배경을 변경하는 단계;
상기 원본 이미지 데이터 셋의 이미지 데이터의 밝기 및 색상을 조정하는 단계;
원본 이미지 데이터 셋의 이미지 데이터의 경계 박스(bounding box)의 특정 영역을 삭제하여 학습용 이미지 데이터를 생성하는 단계를 포함하고,
상기 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성하는 단계를 포함하고,
상기 원본 이미지 데이터 및 원본 이미지 데이터의 레이블의 동일하지 않게 증강시키 않은 경우, 원본 이미지 데이터 셋의 이미지 데이터에 대한 반전, 회전, 잘라내기 및 왜곡을 실행함과 동시에 이미지 데이터의 경계 박스(bounding box)에 대한 반전, 회전, 잘라내기 및 왜곡을 실행하여 학습용 이미지 데이터를 생성하는 단계를 포함하고,
상기 원본 이미지 데이터 셋의 이미지 데이터에 대한 반전, 회전, 잘라내기 및 왜곡을 실행함과 동시에 이미지 데이터의 경계 박스(bounding box)에 대한 반전, 회전, 잘라내기 및 왜곡을 실행하여 학습용 이미지 데이터를 생성하는 단계는
상기 원본 이미지 데이터의 경계 박스(bounding box)의 좌표 중 원점 좌표를 기준으로 상하 반전, 좌우 반전 및 상하좌우 반전 중 어느 하나에 대한 반전을 실행거나 하거나 원본 이미지 데이터가 특정 각도만큼 회전되면 경계 박스(bounding box)도 특정 각도만큼 회전시키거나 원본 이미지 데이터의 크기가 특정 비율에 따라 변경되면 경계 박스(bounding box)의 크기를 특정 비율에 따라 함께 변경하여 학습용 이미지 데이터를 생성하는 단계를 포함하는 것을 특징으로 하는
비디오 영상을 이용한 3차원 객체 인식 방법.
삭제
삭제
삭제
제6항에 있어서,
상기 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성하는 단계는
상기 원본 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터 사이의 3차원 구조를 산출하여 깊이 맵을 예측하고, 상기 깊이 맵을 기초로 메쉬 및 텍스처 매핑을 수행하여 상기 대상 객체에 대한 3차원 재구성 모델을 학습하는 단계를 포함하는 것을 특징으로 하는
비디오 영상을 이용한 3차원 객체 인식 방법.