KR20230080224A

KR20230080224A - 인공지능 학습용 오클루젼된 이미지 형성 방법

Info

Publication number: KR20230080224A
Application number: KR1020210167754A
Authority: KR
Inventors: 오광만; 추연호
Original assignee: (주)테슬라시스템
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2023-06-07
Also published as: KR102571457B1

Abstract

본 발명은 인공지능 학습에 사용되는 객체가 가려진(오클루젼된) 이미지 형성 방법에 관한 것이다.
인공지능 학습용 오클루젼된 이미지 형성 방법에 있어서,
객체 영상에서 객체 이외의 영역은 투명한 값으로 처리된 RGB 객체 이미지를 형성하는 단계;
2차원 RGB 배경 이미지에서 3차원 depth 배경 이미지를 형성하는 단계;
3차원 depth 배경 이미지에서 2차원 바운딩 박스로 객체 위치를 지정하는 단계;
3차원 depth 이미지에서 객체에 해당하는 2차원 바운딩 박스 영역을 크로핑하는 단계;
크로핑된 영역에 대하여 이진화를 수행하여 마스크를 생성하는 단계;
RGB 객체 이미지에 마스크를 적용하여 RGB 오클루젼 객체 이미지를 생성하는 단계;
RGB 오클루젼 객체 이미지를 상기 2차원 배경 이미지에서의 객체 위치에 재배치하여 오버레이 합성하여 객체가 오클루젼된 배경 이미지를 생성하는 단계를 포함하는 것을 특징으로 한다.
이상과 같은 본 발명을 이용하면, 딥러닝 학습에 필요한 오클루젼 이미지를 형성할 수 있게 된다.

Description

인공지능 학습용 오클루젼된 이미지 형성 방법{Occlusion Image Making Method for Artificial Intelligence Learning}

본 발명은 인공지능 학습에 사용되는 객체가 가려진(오클루젼된) 이미지 형성 방법에 관한 것이다.

인공지능의 초창기에는 어떤 시스템의 입력(X)와 출력(Y)를 기반으로 시스템을 모델링 또는 시뮬레이션 하는 머신 러닝기술이 활용되다가, 그 후에는 인공지능 기술이 발전하여 인간의 뇌의 구조를 분석하고 유사하게 모델링하여 만들어진 신경망(Neural Network)기술이 각광을 받았는데 이 기술은 레이어수가 2-3개 정도에 그쳐서 음성/영상 인식에서 커다란 효과를 발휘하지 못했다.

그러다가 영상에서 특징점(Feature Points)를 추출하고, 이를 상호간 비교하여 인식하는 영상인식 기술이 널리 사용되어 왔는데, 이 기술에서 특징점은 연구자가 정한 기준에 의해서 설정되는 특징점(예: 코너포인트, 눈 주변 포인트 등)을 사용한다.

또한, 상기와 같은 다양한 인공지능 기술은 인식율이 85% 정도라서 상용적으로 사용하기에는 인식율이 부족한 상태이었는데,그 이후에 딥러닝 기술이 등장하여 인식율이 90%을 넘어서 현재에는 99.9%를 달성하게 되었다.

그리고, 딥러닝에 활용되는 방법은 자율 학습(Unsupervied Learnig)기법으로 사람이 개입하지 않고 자동으로 시스템에서 학습을 수행하는 방법이라서 모델이 자동으로 특징점을 추출하게 된다.

따라서, 이러한 자율 학습에서는 빅데이터를 딥러닝 모델에 학습시키면 자동으로 데이터를 분류하는 기능을 수행하여, 예를 들면 사람이 얼굴인식을 위한 특징점을 지정하지 않아도 사람 얼굴데이터만 계속 입력해주면 모델이 알아서 특징을 추출하여 자동으로 데이터를 분류하게 된다.

또한, 얼굴인식이나 객체인식 등에 적용되는 영상인식 기술에서 사용되는 딥러닝 모델은 CNN(Convolution Deep Network)인데, CNN의 기본 연산은 콘볼루션 연산으로써 주로 특징 추출(Feature Extraction)을 수행하는 과정이고 이 모델에는 수십번의 콘볼루션 연산이 수행되고, 큰 특징, 작은 특징, 미세특징 등을 추출하여 네트워크의 Weight값에 저장하게 된다.

그래서, 딥러닝 모델의 학습은 입력영상을 콘볼루션 연산을 하여 Weight값을 지속적으로 업데이트하는 과정이기에 수많은 입력영상을 필요로 하여, 예를 들면 숫자를 인식시키는 딥러닝 모델을 개발할 때에는 수많은 형태의 숫자의 영상을 CNN모델에 입력시키면서 학습을 수십만 번 반복해야 하고, 이러한 과정을 통해서 숫자에 대한 특징이 Weight값에 담겨지게 된다.

그리고, 딥러닝 학습에서 중요한 요소는 인식하고자 하는 것도 필요하지만 인식하지 않는 것도 함께 알려주어야 하기에, 사람, 동물, 자전거, 자동차 등과 같이 시간에 따라서 그 위치가 변하는 동적 객체를 인식하는 경우, 특히 딥러닝 네트워크의 Layer 개수가 깊을 경우에는 수백만 장의 다양한 영상이 학습데이터로 필요하게 된다.

그래서, 이러한 다양한 영상을 얻기 어려운 경우(예: 특정한 장면을 촬영하기가 어려울 경우, 특정한 영상을 확보하는데에 돈과 시간이 많이 소요되는 경우)에는 Translation, rotation, Flip, bluring 등의 이미지 처리 기법을 통해서 학습데이터를 만들게 된다.

그런데, 학습 데이터로써 다른 물체에 가려진 객체의 이미지(Occlusion Image)(예: 차량들 사이에 존재하는 사람 이미지)도 필요한데, 기존의 Translation, rotation 등의 방법으로는 거리 정보가 기반인 오클루젼 이미지를 형성할 수가 없다.

대한민국 특허공개번호 10-2011-90958호(2011.8.10일 공개)

이상과 같은 종래기술의 문제점을 감안하여, 본 발명은 딥러닝 학습에 필요한 오클루젼 이미지를 형성하는 방법을 제공한다.

상술한 과제를 해결하기 위한 본 발명은, 인공지능 학습용 오클루젼된 이미지 형성 방법에 있어서,

객체 영상에서 객체 이외의 영역은 투명한 값으로 처리된 RGB 객체 이미지를 형성하는 단계;

2차원 RGB 배경 이미지에서 3차원 depth 배경 이미지를 형성하는 단계;

3차원 depth 배경 이미지에서 2차원 바운딩 박스로 객체 위치를 지정하는 단계;

3차원 depth 이미지에서 객체에 해당하는 2차원 바운딩 박스 영역을 크로핑하는 단계;

크로핑된 영역에 대하여 이진화를 수행하여 마스크를 생성하는 단계;

RGB 객체 이미지에 마스크를 적용하여 RGB 오클루젼 객체 이미지를 생성하는 단계;

RGB 오클루젼 객체 이미지를 상기 2차원 배경 이미지에서의 객체 위치에 재배치하여 오버레이 합성하여 객체가 오클루젼된 배경 이미지를 생성하는 단계를 포함하는 것을 특징으로 한다.

이상과 같은 본 발명을 이용하면, 딥러닝 학습에 필요한 오클루젼 이미지를 형성할 수 있게 된다.

도1은 본 발명에 따라 오클루젼 이미지를 형성하는 방법을 설명하는 도면.
도2는 본 발명에 따라 오클루젼 이미지를 형성하는 순서도.

이제 도1을 참고로 하여 본 발명에 따라 오클루젼 이미지를 형성하는 방법을 자세히 설명하기로 한다.

먼저, ① 2차원 배경 이미지에서 3차원 depth 영상을 도출한다. 이를 위해 기존에 알려진 딥러닝 모델을 활용한다.

그리고 ② 3차원 depth 영상에서 객체(예 : 사람)의 위치 및 크기를 설정한다. 이때 객체는 RGB 이미지로 도1처럼 Bbox(Bounding box)로 따져 있고 객체 이외의 영역은 투명한 값으로 처리되어 있어야 한다.

③ 이제, 3차원 depth 영상에서 객체가 위치할 영역을 바운딩박스(Bbox)로 지정하여 지정된 영역을 잘라낸다(크로핑한다).

④ 이렇게 크로핑된 영역에서 특정 거리(예:5m)이상의 거리의 픽셀값을 O으로 설정하고 그외 영역은 1로 설정하는 이진화 과정을 통해 마스크(Mask)를 생성한다.

⑤ 객체 이미지에 상기 설정된 마스크를 적용하여 오클루젼 객체(RGB)(사람에서 차량에 가려진 부분이 없는 RGB 이미지)을 생성한다.

⑥ 생성된 오클루젼 객체를 상기 2차원 배경 이미지의 Bbox 위치에 재배치하여, Overlay 합성하여 객체(사람)가 차량에 Occlusion된(가려진) 새로운 영상(오클루젼 이미지)을 형성하여 라벨링(Labeling)을 한다.

다음으로 도2를 참고로 하여 본 발명에서 오클루젼 이미지를 형성하는 순서를 설명하기로 한다.

먼저, 객체 이미지(RGB)를 입력한다(S1). 이때 객체는 RGB 이미지로 도1처럼 Bbox(Bounding box)로 따져 있고 객체 이외의 영역은 투명한 값으로 처리되어 있어야 한다.

그리고 나서 배경 이미지(RGB)를 입력한다(S2).

다음으로 객체 이미지에서 Depth정보를 추출한다(S3).

추출된 Depth정보를 이용하여 3차원 depth 배경 이미지를 형성한 후에 3차원 depth 이미지에서의 객체 위치를 Bbox로 지정한다(S4).

3차원 depth 이미지에서 객체의 Bbox에 해당하는 영역을 크로핑한다(S5).

크로핑된 영역에 대하여 이진화를 수행하여 특정 거리 이상의 픽셀값을 0으로 그외 영역은 1로 설정하는 마스크를 생성한다(S6).

객체 이미지(BGB)에 마스크를 적용하여 오클루젼 객체(RGB)이미지(차량에 가려진 부분이 없는 사람 이미지)를 생성한다(S7).

오클루젼 객체를 상기 2차원 배경 이미지의 Bbox 위치에 재배치한다(S8).

두 이미지를 오버레이(Overlay) 합성하여 객체가 가려진(오클루젼된) 새로운 영상(예: 차량 사이에 존재하는 사람이 존재하는 배경 영상)을 생성한다(S9).

결국, 이상과 같은 과정을 수행하면 딥러닝 학습에 필요한 오클루젼 이미지를 형성할 수 있게 된다.

한편, 이상에서는 본 발명의 바람직한 실시예를 설명하였지만, 본 발명은 이러한 실시예에 한정되는 것이 아니라 본 발명의 정신을 벗어나지 않는 범위 내에서 다양한 변형과 변경이 가능하다는 점에 유의해야 한다.

Claims

인공지능 학습용 오클루젼된 이미지 형성 방법에 있어서,
객체 영상에서 객체 이외의 영역은 투명한 값으로 처리된 RGB 객체 이미지를 형성하는 단계;
2차원 RGB 배경 이미지에서 3차원 depth 배경 이미지를 형성하는 단계;
3차원 depth 배경 이미지에서 2차원 바운딩 박스로 객체 위치를 지정하는 단계;
3차원 depth 이미지에서 객체에 해당하는 2차원 바운딩 박스 영역을 크로핑하는 단계;
크로핑된 영역에 대하여 이진화를 수행하여 마스크를 생성하는 단계;
RGB 객체 이미지에 마스크를 적용하여 RGB 오클루젼 객체 이미지를 생성하는 단계;
RGB 오클루젼 객체 이미지를 상기 2차원 배경 이미지에서의 객체 위치에 재배치하여 오버레이 합성하여 객체가 오클루젼된 배경 이미지를 생성하는 단계를 포함하는 것을 특징으로 하는 인공지능 학습용 오클루젼된 이미지 형성 방법.
제1항에 있어서,
상기 RGB 객체 이미지는 사전에 바운딩 박스로 따져 있는 것을 특징으로 하는 인공지능 학습용 오클루젼된 이미지 형성 방법.
제1항에 있어서,
상기 이진화는 특정 거리 이상의 거리의 픽셀값을 O으로 설정하고 그외 영역은 1로 설정하는 것을 특징으로 하는 인공지능 학습용 오클루젼된 이미지 형성 방법.