KR102372500B1 - 비디오 영상을 이용한 3차원 객체 인식 방법 및 이를 실행하는 장치 - Google Patents

비디오 영상을 이용한 3차원 객체 인식 방법 및 이를 실행하는 장치 Download PDF

Info

Publication number
KR102372500B1
KR102372500B1 KR1020200158377A KR20200158377A KR102372500B1 KR 102372500 B1 KR102372500 B1 KR 102372500B1 KR 1020200158377 A KR1020200158377 A KR 1020200158377A KR 20200158377 A KR20200158377 A KR 20200158377A KR 102372500 B1 KR102372500 B1 KR 102372500B1
Authority
KR
South Korea
Prior art keywords
image data
training
original image
data set
bounding box
Prior art date
Application number
KR1020200158377A
Other languages
English (en)
Inventor
박영섭
서상현
Original Assignee
(주)이노시뮬레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)이노시뮬레이션 filed Critical (주)이노시뮬레이션
Priority to KR1020200158377A priority Critical patent/KR102372500B1/ko
Application granted granted Critical
Publication of KR102372500B1 publication Critical patent/KR102372500B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명의 일 실시예에 따른 비디오 영상을 이용한 3차원 객체 인식 장치는 3차원 재구성 및 객체 인식 모델을 제작할 대상 객체를 촬영하여 객체에 대한 비디오 영상을 생성하고, 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집하는 데이터 수집부, 사용자로부터 원본 이미지 데이터 셋 중 첫번째 이미지 데이터 내의 객체를 경계 박스(bounding box)를 설정하는 레이블을 수신하고, 상기 경계 박스(bounding box)를 설정하는 레이블을 이용하여 나머지 이미지 데이터에 대한 레이블링을 실행하는 레이블 할당부, 상기 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강하여 학습용 이미지 데이터를 생성하는 학습용 이미지 데이터 생성부 및 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성하는 3차원 재구성 모델 학습부를 포함한다.

Description

비디오 영상을 이용한 3차원 객체 인식 방법 및 이를 실행하는 장치{METHOD OF RECONNOITERING 3D OBJECT USING VIDEO AND APPARATUS PERFORMING THE SAME}
본 발명은 비디오 영상을 이용한 3차원 객체 인식 방법 및 이를 실행하는 장치에 관한 것으로, 보다 상세하게는 대상 객체를 촬영한 후 SfM(Struture from Motion)을 이용하여 3차원 객체로 재구성할 수 있도록 하는 비디오 영상을 이용한 3차원 객체 인식 방법 및 이를 실행하는 장치에 관한 것이다.
기존 2D 콘텐츠 중심의 산업은 기술의 발달로 관찰자에게 보다 더 사실적이고 생생한 입체감을 줄 수 있는 3D 콘텐츠 창작에 집중하게 되었다. 3D 콘텐츠에 집중하게 되면서, 전문가들뿐 아니라 일반 사용자들도 이 정보들을 사용하고자 하는 욕구들이 늘어나기 시작하였다.
또한 콘텐츠 산업은 이제 더 이상 전문가가 제작한 콘텐츠를 단순히 시청하거나 체험하는 것에 국한되지 않는다. 사용자가 직접 만들고 공유할 수 있는 콘텐츠가 주를 이루기 시작하였다.
하지만 3D 콘텐츠를 제작함에 있어 우리가 현실 세계에서 접하는 객체를 컴퓨터 화면 속으로 옮기는 것은 쉬운 일이 아니다. 아티스트가 아닌 이상 사실적으로 묘사를 하기도 힘들뿐더러 직접 모델링을 하는 것은 고도의 기술과 시간을 필요로 한다. 특히 콘텐츠 창작가와 같은 비전문가에게는 매우 어려운 주제이다.
본 발명은 대상 객체를 촬영한 후 SfM(Struture from Motion)을 이용하여 3차원 객체로 재구성할 수 있도록 하는 비디오 영상을 이용한 3차원 객체 인식 방법 및 이를 실행하는 장치를 제공하는 것을 목적으로 한다.
또한, 본 발명은 원본 이미지 데이터 셋을 이용하여 여러 환경 변수를 고려한 학습용 이미지 데이터를 생성함으로써 비전문가 또한 쉽게 원하는 3D 오브젝트와 이를 활용한 실시간 객체 인식 도구를 활용할 수 있도록 하는 비디오 영상을 이용한 3차원 객체 인식 방법 및 이를 실행하는 장치를 제공하는 것을 목적으로 한다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
이러한 목적을 달성하기 위한 비디오 영상을 이용한 3차원 객체 인식 장치는 3차원 재구성 및 객체 인식 모델을 제작할 대상 객체를 촬영하여 객체에 대한 비디오 영상을 생성하고, 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집하는 데이터 수집부, 사용자로부터 원본 이미지 데이터 셋 중 첫번째 이미지 데이터 내의 객체를 경계 박스(bounding box)를 설정하는 레이블을 수신하고, 상기 경계 박스(bounding box)를 설정하는 레이블을 이용하여 나머지 이미지 데이터에 대한 레이블링을 실행하는 레이블 할당부, 상기 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강하여 학습용 이미지 데이터를 생성하는 학습용 이미지 데이터 생성부 및 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성하는 3차원 재구성 모델 학습부를 포함한다.
또한 이러한 목적을 달성하기 위한 비디오 영상을 이용한 3차원 객체 인식 장치에서 실행되는 비디오 영상을 이용한 3차원 객체 인식 방법은 3차원 재구성 및 객체 인식 모델을 제작할 대상 객체를 촬영하여 객체에 대한 비디오 영상을 생성하고, 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집하는 단계, 사용자로부터 원본 이미지 데이터 셋 중 첫번째 이미지 데이터 내의 객체를 경계 박스(bounding box)를 설정하는 레이블을 수신하고, 상기 경계 박스(bounding box)를 설정하는 레이블을 이용하여 나머지 이미지 데이터에 대한 레이블링을 실행하는 단계, 상기 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강하여 학습용 이미지 데이터를 생성하는 단계 및 상기 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성하는 단계를 포함한다.
전술한 바와 같은 본 발명에 의하면, 대상 객체를 촬영한 후 SfM(Struture from Motion)을 이용하여 3차원 객체로 재구성할 수 있다는 장점이 있다.
또한 본 발명에 의하면, 원본 이미지 데이터 셋을 이용하여 여러 환경 변수를 고려한 학습용 이미지 데이터를 생성함으로써 비전문가 또한 쉽게 원하는 3D 오브젝트와 이를 활용한 실시간 객체 인식 도구를 활용할 수 있다는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 비디오 영상을 이용한 3차원 객체 인식 시스템을 설명하기 위한 네트워크 구성도이다.
도 2는 본 발명의 일 실시예에 따른 비디오 영상을 이용한 3차원 객체 인식 장치의 내부 구조를 설명하기 위한 블록도이다.
도 3은 본 발명에 따른 비디오 영상을 이용한 3차원 객체 인식 방법의 일 실시예를 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 이미지 증강을 위한 원본 이미지 데이터 셋의 이미지 데이터를 설명하기 위한 예시도이다.
도 5는 본 발명의 일 실시예에 따른 레이블링 결과를 설명하기 위하 예시도이다.
도 6 및 도 7은 본 발명의 일 실시예에 따른 학습용 이미지 데이터를 설명하기 위한 예시도이다.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.
본 명세서에서 사용된 용어 중 “경계 박스(bounding box)를 이용한 레이블링”은 이미지 데이터 셋에 포함된 객체에 대한 경계 박스(bounding box)의 좌표값, 객체의 종류(classification), 경계 박스(bounding box)의 좌표 및 종류 분류 오차 정도 중 적어도 하나를 산출하는 과정을 포함할 수 있다.
예를 들어, 이미지 데이터 내 객체가 존재한다면, 해당 객체에 대한 경계 박스(bounding box)의 좌표값(x, y, z)을 산출하거나, 해당 객체가 자동차일 확률을 산출하거나, 좌표 및 자동차 분류의 오차 정도를 산출할 수 있다. 위 작업들이 경계 박스(bounding box)를 이용한 레이블링 작업에 해당할 수 있을 것이다.
상기의 경계 박스(bounding box)를 이용한 레이블링 작업이 수행된 후, 레이블링 작업이 수행된 결과를 딥러닝 모델에 통과시키면 검수용 점수가 획득된다.
도 1은 본 발명의 일 실시예에 따른 비디오 영상을 이용한 3차원 객체 인식 시스템을 설명하기 위한 네트워크 구성도이다.
도 1을 참조하면, 비디오 영상을 이용한 3차원 객체 인식 시스템은 비디오 영상을 이용한 3차원 객체 인식 장치(100) 및 대상 객체(200)를 포함한다.
비디오 영상을 이용한 3차원 객체 인식 장치(100)는 3차원 재구성 및 객체 인식 모델을 제작할 대상 객체(200)를 촬영하여 객체에 대한 비디오 영상을 생성한 후 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집한다.
그런 다음, 원본 이미지 데이터 셋의 이미지 데이터를 이용하여 학습용 이미지 데이터를 생성한 후, 원본 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성한다.
대상 객체(200)는 3차원 재구성 및 객체 인식 모델을 제작할 대상이다. 이러한 대상 객체(200)는 비디오 영상을 이용한 3차원 객체 인식 장치(100)에 의해 3차원으로 재구성될 수 있다.
이하에서는, 도 2를 참조하여 비디오 영상을 이용한 3차원 객체 인식 장치(100)에 대해서 보다 구체적으로 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 비디오 영상을 이용한 3차원 객체 인식 장치의 내부 구조를 설명하기 위한 블록도이다.
도 2를 참조하면, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 데이터 수집부(110), 레이블 할당부(120), 학습용 이미지 데이터 생성부(130) 및 3차원 재구성 모델 학습부(140)를 포함한다.
데이터 수집부(110)는 3차원 재구성 및 객체 인식 모델을 제작할 대상 객체를 촬영하여 객체에 대한 비디오 영상을 생성하고, 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집한다.
일 실시예에서, 데이터 수집부(110)는 대상 객체를 기준으로 360도 회전하면서 대상 객체의 주위를 촬영하여 대상 객체가 바닥에 맞닿은 면을 제외한 다른 모든 부분을 촬영하여 객체에 대한 비디오 영상을 생성할 수 있다.
그런 다음, 데이터 수집부(110)는 객체에 대한 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집한다. 상기와 같은 과정을 통해 수집된 원본 이미지 데이터 셋은 대상 객체를 3차원으로 재구성할 때 사용될 수 있고, 깊이 값을 계산할 때 사용될 수 있고, 이미지 증강을 실행할 때 사용될 수 있다.
레이블 할당부(120)는 사용자로부터 원본 이미지 데이터 셋 중 첫번째 이미지 데이터 내의 객체를 경계 박스(bounding box)를 설정하는 레이블을 수신하고, 경계 박스(bounding box)를 설정하는 레이블을 이용하여 나머지 이미지 데이터에 대한 레이블링을 실행한다. 이에 따라, 원본 이미지 데이터 셋의 이미지 데이터 각각에는 경계 박스(bounding box)가 설정될 수 있다.
상기의 원본 이미지 데이터 셋의 이미지 데이터는 하나의 환경에서 촬영된 비디오 영상에서 추출한 것이기 때문에 장소, 특히 밝기와 객체 크기 등에 있어 다양한 환경에서의 인식 성능이 매우 떨어지게 된다.
상기와 같이 원본 이미지 데이터 셋은 하나의 독립 환경에서 생성되어 다양한 환경 변수의 변화에 대응하지 못하기 때문에 본 발명은 원본 이미지 데이터 셋의 이미지 데이터의 증강 작업을 실행하였다.
상기의 이미지 데이터의 증강은 부족한 데이터의 수를 보완하기 위해 실시하는 작업으로, 본 발명에서는 원본 이미지 데이터 및 원본 이미지 데이터의 레이블을 동일한 증강과 동일하지 않은 증강으로 실행한다. 이하에서는 이러한 과정을 보다 구체적으로 설명하기로 한다.
먼저, 원본 이미지 데이터 및 원본 이미지 데이터의 레이블의 동일한 증강 과정을 설명하기로 한다.
학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강시킨다.
이를 위해, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터 각각에 대해서 객체를 제외한 배경을 변경한다.
이와 같은 이유는 원본 이미지 데이터 셋의 이미지 데이터의 경우 한 공간에서 촬영된 비디오 영상을 기반으로 생성된 것이기 때문에 이러한 원본 이미지 데이터 셋을 이용한 경우 다양한 환경에서 동작하는 객체 인식기를 제작하기 힘들기 때문이다.
따라서, 본 발명의 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터 각각에 대해서 객체를 제외한 배경을 제거하는 것이다.
일 실시예에서, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터에서 경계 박스(bounding box)를 제외한 나머지 영역의 삭제한 후 임의의 배경 이미지를 합성하여 이미지 데이터의 배경을 변경하여 학습용 이미지 데이터를 생성한다.
그런 다음, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터의 밝기 및 색상을 조정하여 학습용 이미지 데이터를 생성한다.
이와 같은 이유는 원본 이미지 데이터 셋의 이미지 데이터의 경우 한 공간에서 촬영된 비디오 영상을 기반으로 생성된 것이기 때문에 환경 변수를 모두 고려하지 못한다.
예를 들어, 원본 이미지 데이터 셋이 대상 객체를 어두운 곳에서 촬영한 비디오 영상에서 추출된 경우 이를 통해서만 학습된 객체 인식기는 밝은 환경에서의 성능이 떨어지게 된다. 다른 예를 들어, 비디오 영상을 촬영한 카메라의 종류나 성능에 따라 비디오 영상에서 추출된 이미지 데이터의 색상이 다를 수 있다.
따라서, 본 발명은 이미지 데이터 셋의 이미지 데이터의 밝기 및 색상을 조정하여 학습용 이미지 데이터를 생성하는 것이다.
그런 다음, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터의 경계 박스(bounding box)의 특정 영역을 삭제한다.
이와 같은 이유는, 객체 인식 도중 특정 물체 혹은 손가락 등으로 인하여 객체가 가려지는 경우가 발생할 수 있다. 따라서, 객체의 일부가 임의로 제거되더라도 객체의 인식을 성공적으로 수행할 수 있도록 이미지 데이터의 경계 박스(bounding box)의 특정 영역을 삭제하여 학습용 이미지 데이터를 생성한다.
다음으로, 원본 이미지 데이터 및 원본 이미지 데이터의 레이블의 동일하지 않은 증강 과정을 설명하기로 한다.
학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터에 대한 반전, 회전, 잘라내기 및 왜곡을 실행하여 학습용 이미지 데이터를 생성한다.
일 실시예에서, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터를 상하 반전, 좌우 반전 및 상하좌우 반전 중 어느 하나에 대한 반전을 실행하여 학습용 이미지 데이터를 생성한다.
다른 일 실시예에서, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터를 특정 각도로 회전시켜 학습용 이미지 데이터를 생성한다.
또 다른 일 실시예에서, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터 중 특정 영역을 삭제하여 학습용 이미지 데이터를 생성한다.
상기의 실시예에서, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터 중 삭제된 특정 영역이 경계 박스(bounding box)에 해당하면, 레이블 할당부(120)을 통해 경계 박스(bounding box)를 다시 설정하여 학습용 이미지 데이터를 생성한다.
또 다른 일 실시예에서, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터 각각의 크기를 변경한 후 왜곡시켜 학습용 이미지 데이터를 생성한다.
또한, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터에 대한 반전, 회전, 잘라내기 및 왜곡을 실행함과 동시에 이미지 데이터의 경계 박스(bounding box)에 대한 반전, 회전, 잘라내기 및 왜곡을 실행하여 학습용 이미지 데이터를 생성한다.
일 실시예에서, 학습용 이미지 데이터 생성부는 이미지 데이터의 경계 박스(bounding box)의 좌표 중 원점 좌표를 기준으로 상하 반전, 좌우 반전 및 상하좌우 반전 중 어느 하나에 대한 반전을 실행할 수 있다.
다른 일 실시예에서, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터가 특정 각도만큼 회전되면 경계 박스(bounding box)도 특정 각도만큼 회전시켜 학습용 이미지 데이터를 생성한다.
또 다른 일 실시예에서, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터의 크기가 특정 비율에 따라 변경되면 경계 박스(bounding box)의 크기를 특정 비율에 따라 함께 변경하여 학습용 이미지 데이터를 생성한다.
3차원 재구성 모델 학습부(140)는 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성한다.
즉, 3차원 재구성 모델 학습부(140)는 원본 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터 사이의 3차원 구조를 산출하여 깊이 맵을 예측하고, 상기 깊이 맵을 기초로 메쉬 및 텍스처 매핑을 수행하여 상기 대상 객체에 대한 3차원 재구성 모델을 생성한다.
도 3은 본 발명에 따른 비디오 영상을 이용한 3차원 객체 인식 방법의 일 실시예를 설명하기 위한 흐름도이다.
도 3을 참조하면, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 3차원 재구성 및 객체 인식 모델을 제작할 대상 객체를 촬영하여 객체에 대한 비디오 영상을 생성하고, 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집한다(단계 S310).
비디오 영상을 이용한 3차원 객체 인식 장치(100)는 사용자로부터 원본 이미지 데이터 셋 중 첫번째 이미지 데이터 내의 객체를 경계 박스(bounding box)를 설정하는 레이블을 수신하고, 상기 경계 박스(bounding box)를 설정하는 레이블을 이용하여 나머지 이미지 데이터에 대한 레이블링을 실행한다(단계 S320).
비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강하여 학습용 이미지 데이터를 생성한다(단계 S330).
비디오 영상을 이용한 3차원 객체 인식 장치(100)는 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성한다(단계 S340).
도 4는 본 발명의 일 실시예에 따른 이미지 증강을 위한 원본 이미지 데이터 셋의 이미지 데이터를 설명하기 위한 예시도이다.
도 4를 참조하면, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 3차원 재구성 및 객체 인식 모델을 제작할 대상 객체를 촬영하여 객체에 대한 비디오 영상을 생성하고, 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집한다.
일 실시예에서, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 대상 객체를 기준으로 360도 회전하면서 대상 객체의 주위를 촬영하여 대상 객체가 바닥에 맞닿은 면을 제외한 다른 모든 부분을 촬영하여 객체에 대한 비디오 영상을 생성할 수 있다.
그런 다음, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 객체에 대한 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋(즉, 도 4의 (a) 내지 (h))으로 수집한다. 상기와 같은 과정을 통해 수집된 원본 이미지 데이터 셋(즉, 도 4의 (a) 내지 (h))은 대상 객체를 3차원으로 재구성할 때 사용될 수 있고, 깊이 값을 계산할 때 사용될 수 있고, 이미지 증강을 실행할 때 사용될 수 있다.
도 5는 본 발명의 일 실시예에 따른 레이블링 결과를 설명하기 위하 예시도이다.
도 5를 참조하면, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 사용자로부터 원본 이미지 데이터 셋 중 첫번째 이미지 데이터 내의 객체를 경계 박스(bounding box)를 설정하는 레이블을 수신하고, 참조번호 도 5(a) 및 도 5(b)와 같이 경계 박스(bounding box)를 설정하는 레이블을 이용하여 나머지 이미지 데이터에 대한 레이블링을 실행한다. 이에 따라, 원본 이미지 데이터 셋의 이미지 데이터 각각에는 경계 박스(bounding box)가 설정될 수 있다.
상기의 원본 이미지 데이터 셋의 이미지 데이터는 하나의 환경에서 촬영된 비디오 영상에서 추출한 것이기 때문에 장소, 특히 밝기와 객체 크기 등에 있어 다양한 환경에서의 인식 성능이 매우 떨어지게 된다.
상기와 같이 원본 이미지 데이터 셋은 하나의 독립 환경에서 생성되어 다양한 환경 변수의 변화에 대응하지 못하기 때문에 본 발명은 원본 이미지 데이터 셋의 이미지 데이터의 증강 작업을 실행하였다.
도 6 및 도 7은 본 발명의 일 실시예에 따른 학습용 이미지 데이터를 설명하기 위한 예시도이다.
도 6 및 도 7을 참조하면, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 및 원본 이미지 데이터의 레이블을 동일한 증강과 동일하지 않은 증강으로 실행한다.
먼저, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 도 6을 참조하여 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강하는 과정을 설명하기로 한다.
비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a)) 각각과 이미지 데이터의 레이블을 동일하게 증강시킨다. 이를 위해, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a)) 각각에 대해서 객체를 제외한 배경을 변경하여 학습용 이미지 데이터(도 6의 (c)를 생성한다.
이와 같은 이유는 원본 이미지 데이터 셋의 이미지 데이터의 경우 한 공간에서 촬영된 비디오 영상을 기반으로 생성된 것이기 때문에 이러한 원본 이미지 데이터 셋을 이용한 경우 다양한 환경에서 동작하는 객체 인식기를 제작하기 힘들기 때문이다. 따라서, 본 발명의 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터 각각에 대해서 객체를 제외한 배경을 제거하는 것이다.
일 실시예에서, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a))에서 경계 박스(bounding box)를 제외한 나머지 영역의 삭제한 후 임의의 배경 이미지를 합성하여 이미지 데이터의 배경을 변경하여 학습용 이미지 데이터(도 6의 (c)를 생성한다.
그런 다음, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a))의 밝기 및 색상을 조정하여 학습용 이미지 데이터(도 6의 (b)를 생성한다.
이와 같은 이유는 원본 이미지 데이터 셋의 이미지 데이터의 경우 한 공간에서 촬영된 비디오 영상을 기반으로 생성된 것이기 때문에 환경 변수를 모두 고려하지 못한다.
예를 들어, 원본 이미지 데이터 셋이 대상 객체를 어두운 곳에서 촬영한 비디오 영상에서 추출된 경우 이를 통해서만 학습된 객체 인식기는 밝은 환경에서의 성능이 떨어지게 된다. 다른 예를 들어, 비디오 영상을 촬영한 카메라의 종류나 성능에 따라 비디오 영상에서 추출된 이미지 데이터의 색상이 다를 수 있다.
따라서, 본 발명은 이미지 데이터 셋의 이미지 데이터의 밝기 및 색상을 조정하여 학습용 이미지 데이터(도 6의 (b)를 생성하는 것이다.
그런 다음, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a))의 경계 박스(bounding box)의 특정 영역을 삭제하여 학습용 이미지 데이터(도 6의 (b)를 생성하는 것이다.
이와 같은 이유는, 객체 인식 도중 특정 물체 혹은 손가락 등으로 인하여 객체가 가려지는 경우가 발생할 수 있다. 따라서, 객체의 일부가 임의로 제거되더라도 객체의 인식을 성공적으로 수행할 수 있도록 이미지 데이터의 경계 박스(bounding box)의 특정 영역을 삭제하여 학습용 이미지 데이터를 생성한다.
다음으로, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 도 7을 참조하여 본 이미지 데이터 및 원본 이미지 데이터의 레이블의 동일하지 않은 증강 과정을 설명하기로 한다.
비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a))에 대한 반전, 회전, 잘라내기 및 왜곡을 실행하여 학습용 이미지 데이터(도 7의(a) 내지 (d))를 생성한다.
일 실시예에서, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a))를 상하 반전, 좌우 반전 및 상하좌우 반전 중 어느 하나에 대한 반전을 실행하여 학습용 이미지 데이터(도 7의(a))를 생성한다.
다른 일 실시예에서, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a))를 특정 각도로 회전시켜 학습용 이미지 데이터(도 7의(c))를 생성한다.
또 다른 일 실시예에서, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a)) 중 특정 영역을 삭제하여 학습용 이미지 데이터(도 7의(b))를 생성한다.
상기의 실시예에서, 비디오 영상을 이용한 3차원 객체 인식 장치(100)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a)) 중 삭제된 특정 영역이 경계 박스(bounding box)에 해당하면, 경계 박스(bounding box)를 다시 설정하여 학습용 이미지 데이터(도 7의(b))를 생성한다.
또 다른 일 실시예에서, 학습용 이미지 데이터 생성부(130)는 원본 이미지 데이터 셋의 이미지 데이터(도 6의(a)) 각각의 크기를 변경한 후 왜곡시켜 학습용 이미지 데이터(도 7의(d))를 생성한다.
한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
100: 비디오 영상을 이용한 3차원 객체 인식 장치
110: 데이터 수집부
120: 레이블 할당부
130: 학습용 이미지 데이터 생성부
140: 3차원 재구성 모델 학습부

Claims (10)

  1. 3차원 재구성 및 객체 인식 모델을 제작할 대상 객체를 촬영하여 객체에 대한 비디오 영상을 생성하고, 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집하는 데이터 수집부;
    사용자로부터 원본 이미지 데이터 셋 중 첫번째 이미지 데이터 내의 객체를 경계 박스(bounding box)를 설정하는 레이블을 수신하고, 상기 경계 박스(bounding box)를 설정하는 레이블을 이용하여 나머지 이미지 데이터에 대한 레이블링을 실행하는 레이블 할당부;
    상기 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강하여 학습용 이미지 데이터를 생성하는 학습용 이미지 데이터 생성부; 및
    이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성하는 3차원 재구성 모델 학습부를 포함하고,
    상기 학습용 이미지 데이터 생성부는
    상기 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강시키는 경우, 원본 이미지 데이터 셋의 이미지 데이터에서 경계 박스(bounding box)를 제외한 나머지 영역의 삭제한 후 임의의 배경 이미지를 합성하여 이미지 데이터의 배경을 변경하여 학습용 이미지 데이터를 생성하고, 원본 이미지 데이터 셋의 이미지 데이터의 밝기 및 색상을 조정하여 학습용 이미지 데이터를 생성하고, 원본 이미지 데이터 셋의 이미지 데이터의 경계 박스(bounding box)의 특정 영역을 삭제하고, 상기 원본 이미지 데이터 및 원본 이미지 데이터의 레이블의 동일하지 않게 증강시키는 경우, 이미지 데이터의 경계 박스(bounding box)의 좌표 중 원점 좌표를 기준으로 상하 반전, 좌우 반전 및 상하좌우 반전 중 어느 하나에 대한 반전을 실행하거나 원본 이미지 데이터가 특정 각도만큼 회전되면 경계 박스(bounding box)도 특정 각도만큼 회전시켜 학습용 이미지 데이터를 생성하거나 원본 이미지 데이터의 크기가 특정 비율에 따라 변경되면 경계 박스(bounding box)의 크기를 특정 비율에 따라 함께 변경하여 학습용 이미지 데이터를 생성하는 것을 특징으로 하는
    비디오 영상을 이용한 3차원 객체 인식 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    상기 3차원 재구성 모델 학습부는
    상기 원본 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터 사이의 3차원 구조를 산출하여 깊이 맵을 예측하고, 상기 깊이 맵을 기초로 메쉬 및 텍스처 매핑을 수행하여 상기 대상 객체에 대한 3차원 재구성 모델을 학습하는 것을 특징으로 하는
    비디오 영상을 이용한 3차원 객체 인식 장치.
  6. 비디오 영상을 이용한 3차원 객체 인식 장치에서 실행되는 비디오 영상을 이용한 3차원 객체 인식 방법에 있어서,
    3차원 재구성 및 객체 인식 모델을 제작할 대상 객체를 촬영하여 객체에 대한 비디오 영상을 생성하고, 비디오 영상에서 각 프레임을 원본 이미지 데이터 셋으로 수집하는 단계;
    사용자로부터 원본 이미지 데이터 셋 중 첫번째 이미지 데이터 내의 객체를 경계 박스(bounding box)를 설정하는 레이블을 수신하고, 상기 경계 박스(bounding box)를 설정하는 레이블을 이용하여 나머지 이미지 데이터에 대한 레이블링을 실행하는 단계;
    상기 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강하여 학습용 이미지 데이터를 생성하는 단계;
    상기 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성하는 단계를 포함하고,
    상기 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강하여 학습용 이미지 데이터를 생성하는 단계는
    상기 원본 이미지 데이터 셋의 이미지 데이터 각각과 이미지 데이터의 레이블을 동일하게 증강시키는 경우, 원본 이미지 데이터 셋의 이미지 데이터에서 경계 박스(bounding box)를 제외한 나머지 영역의 삭제한 후 임의의 배경 이미지를 합성하여 이미지 데이터의 배경을 변경하는 단계;
    상기 원본 이미지 데이터 셋의 이미지 데이터의 밝기 및 색상을 조정하는 단계;
    원본 이미지 데이터 셋의 이미지 데이터의 경계 박스(bounding box)의 특정 영역을 삭제하여 학습용 이미지 데이터를 생성하는 단계를 포함하고,
    상기 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성하는 단계를 포함하고,
    상기 원본 이미지 데이터 및 원본 이미지 데이터의 레이블의 동일하지 않게 증강시키 않은 경우, 원본 이미지 데이터 셋의 이미지 데이터에 대한 반전, 회전, 잘라내기 및 왜곡을 실행함과 동시에 이미지 데이터의 경계 박스(bounding box)에 대한 반전, 회전, 잘라내기 및 왜곡을 실행하여 학습용 이미지 데이터를 생성하는 단계를 포함하고,
    상기 원본 이미지 데이터 셋의 이미지 데이터에 대한 반전, 회전, 잘라내기 및 왜곡을 실행함과 동시에 이미지 데이터의 경계 박스(bounding box)에 대한 반전, 회전, 잘라내기 및 왜곡을 실행하여 학습용 이미지 데이터를 생성하는 단계는
    상기 원본 이미지 데이터의 경계 박스(bounding box)의 좌표 중 원점 좌표를 기준으로 상하 반전, 좌우 반전 및 상하좌우 반전 중 어느 하나에 대한 반전을 실행거나 하거나 원본 이미지 데이터가 특정 각도만큼 회전되면 경계 박스(bounding box)도 특정 각도만큼 회전시키거나 원본 이미지 데이터의 크기가 특정 비율에 따라 변경되면 경계 박스(bounding box)의 크기를 특정 비율에 따라 함께 변경하여 학습용 이미지 데이터를 생성하는 단계를 포함하는 것을 특징으로 하는
    비디오 영상을 이용한 3차원 객체 인식 방법.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 제6항에 있어서,
    상기 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터를 이용하여 3차원 재구성 모델을 생성하는 단계는
    상기 원본 이미지 데이터 셋의 이미지 데이터 및 학습용 이미지 데이터 사이의 3차원 구조를 산출하여 깊이 맵을 예측하고, 상기 깊이 맵을 기초로 메쉬 및 텍스처 매핑을 수행하여 상기 대상 객체에 대한 3차원 재구성 모델을 학습하는 단계를 포함하는 것을 특징으로 하는
    비디오 영상을 이용한 3차원 객체 인식 방법.
KR1020200158377A 2020-11-24 2020-11-24 비디오 영상을 이용한 3차원 객체 인식 방법 및 이를 실행하는 장치 KR102372500B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200158377A KR102372500B1 (ko) 2020-11-24 2020-11-24 비디오 영상을 이용한 3차원 객체 인식 방법 및 이를 실행하는 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200158377A KR102372500B1 (ko) 2020-11-24 2020-11-24 비디오 영상을 이용한 3차원 객체 인식 방법 및 이를 실행하는 장치

Publications (1)

Publication Number Publication Date
KR102372500B1 true KR102372500B1 (ko) 2022-03-10

Family

ID=80816200

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200158377A KR102372500B1 (ko) 2020-11-24 2020-11-24 비디오 영상을 이용한 3차원 객체 인식 방법 및 이를 실행하는 장치

Country Status (1)

Country Link
KR (1) KR102372500B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170074413A (ko) * 2015-12-22 2017-06-30 연세대학교 산학협력단 3d 모델을 활용한 2d 영상 학습 데이터 생성 시스템 및 그 생성방법
KR20180080051A (ko) * 2017-01-03 2018-07-11 한국전자통신연구원 기계 학습 방법 및 장치
WO2020075768A1 (ja) * 2018-10-10 2020-04-16 株式会社Preferred Networks 三次元走査装置、三次元モデルの生成方法、訓練用データ、及び機械学習モデル

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170074413A (ko) * 2015-12-22 2017-06-30 연세대학교 산학협력단 3d 모델을 활용한 2d 영상 학습 데이터 생성 시스템 및 그 생성방법
KR20180080051A (ko) * 2017-01-03 2018-07-11 한국전자통신연구원 기계 학습 방법 및 장치
WO2020075768A1 (ja) * 2018-10-10 2020-04-16 株式会社Preferred Networks 三次元走査装置、三次元モデルの生成方法、訓練用データ、及び機械学習モデル

Similar Documents

Publication Publication Date Title
CN109325437B (zh) 图像处理方法、装置和系统
US20200057831A1 (en) Real-time generation of synthetic data from multi-shot structured light sensors for three-dimensional object pose estimation
KR101947650B1 (ko) 게임 엔진 기반의 머신 러닝 학습이미지 생성 장치 및 방법
CN110363133B (zh) 一种视线检测和视频处理的方法、装置、设备和存储介质
US7692647B2 (en) Real-time rendering of realistic rain
EP3533035A1 (en) Augmented scanning of 3d models
EP3533218B1 (en) Simulating depth of field
JP2008513882A (ja) ビデオイメージ処理システム及びビデオイメージ処理方法
US11354774B2 (en) Facial model mapping with a neural network trained on varying levels of detail of facial scans
JP6607261B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP2018205123A (ja) 画像検査システムの性能調整のための検査用画像を生成する画像生成装置及び画像生成方法
US6515658B1 (en) 3D shape generation apparatus
CN111382618B (zh) 一种人脸图像的光照检测方法、装置、设备和存储介质
Siarohin et al. Unsupervised volumetric animation
JPWO2020075252A1 (ja) 情報処理装置、プログラム及び情報処理方法
JP2023109570A (ja) 情報処理装置、学習装置、画像認識装置、情報処理方法、学習方法、画像認識方法
KR102372500B1 (ko) 비디오 영상을 이용한 3차원 객체 인식 방법 및 이를 실행하는 장치
KR20210147647A (ko) 얼굴 이미지 색상 합성 장치 및 방법
CN1628327A (zh) 自动三维建模系统和方法
CN112002019B (zh) 一种基于mr混合现实的模拟人物阴影的方法
JP5865092B2 (ja) 画像処理装置、画像処理方法及びプログラム
WO2020067204A1 (ja) 学習用データ作成方法、機械学習モデルの生成方法、学習用データ作成装置及びプログラム
CN112634439B (zh) 一种3d信息展示方法及装置
Albakri et al. 3D Keyframe Motion Extraction from Zapin Traditional Dance Videos
WO2024029371A1 (ja) 情報処理システム、および情報処理システムの作動方法、並びにプログラム

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant