KR102587848B1

KR102587848B1 - 특수 드론을 통한 딥러닝 기반의 객체 검출을 수행하는 신경망의 학습 방법

Info

Publication number: KR102587848B1
Application number: KR1020200186340A
Authority: KR
Inventors: 손강석; 방승온
Original assignee: 오지큐 주식회사
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2023-10-11
Also published as: KR102709467B1; US20220207363A1; KR20220094769A; KR20240142378A; KR20230145297A

Abstract

본 발명은 객체 검출을 위한 신경망의 학습 방법에 관한 것으로 검출 대상 이미지를 입력 받는 단계; 상기 검출 대상 이미지를 미리 결정된 크기의 단위 이미지로 분할하는 단계; 상기 분할된 단위 이미지들에 대한 신경망의 출력을 제1 레이블 값으로 정의하는 단계; 상기 단위 이미지를 제1 규칙에 따라 변형하여 제1 변형 이미지를 생성하는 단계; 및 상기 제1 변형 이미지에 대한 상기 신경망의 출력과 상기 제1 레이블 값에 대한 손실을 이용하여 상기 신경망을 학습시키는 단계를 포함한다. 본 발명에 따르면 대화면 내에서 객체를 검출하는 신경망을 효율적으로 학습시킬 수 있다. 또한, 본 발명은 학습된 신경망을 이용하여 실제 대화면 이미지로부터 국소 영역에 위치하는 객체에 대한 학습 데이터를 증강시킴으로써 신경망의 학습 성능을 높이고 외부 환경 변화에 강인한 성능을 갖도록 한다.

Description

특수 드론을 통한 딥러닝 기반의 객체 검출을 수행하는 신경망의 학습 방법{Method for training Neural Network for object detection based on Deep-learning using special drone}

본 발명은 특수 드론을 이용하여 객체 검출을 수행하는 신경망의 학습 방법에 관한 것이다.

인공지능 기술의 발달로 다양한 기술 분야에 인공지능을 이용하고 있다.

특히 입력된 이미지에 대한 픽셀 값들을 특징으로 수학적인 연산을 통해 객체를 추적하고, 추적된 객체를 분류하기 위해 딥러닝 기반의 다양한 알고리즘들이 개발되고 있으며, 행렬로 정의되는 특징 값들에 대한 컨볼루션 연산을 수행하는 복수의 레이어들로 결합된 CNN(Convolution Neural Network) 신경망 모델들은 적용되는 도메인에 따라 최적화되어 이용되고 있다.

또한, 현재에는 이러한 신경망 모델 자체의 최적화 뿐만 아니라 신경망 모델을 잘 학습 시키기 위한 방법들도 고안되고 있으며, 이와 함께 학습에 이용되는 다수의 학습 이미지들을 확보하기 위해 기존의 학습 이미지의 변형을 통해 증강(Augmentation) 시키거나 신경망을 이용하여 가상의 이미지를 생성하는 등 학습 방법도 다양화 되고 있다.

즉, 객체 인식에 이용되는 신경망은 이미지를 입력으로 보다 빠르고 정확한 객체의 검출을 위해 최적화된 신경망의 구조와 양질의 학습 데이터가 실제 적용에 중요한 이슈가 된다.

특히, 검출 대상 객체가 사람인 경우 다른 객체에 비하여 모양과 상태의 다양성이 매우 커 학습 데이터의 확보에 보다 어려운 면이 있으며, 개인 정보의 이용 등의 다양한 사회적인 이슈도 함께 문제될 수 있다.

또한, 사람의 검출을 필요로 하는 상황 중 실종자 수색이나 이를 통한 인명 구조와 같은 목적의 경우는 긴급하고, 효율적인 탐색을 위해 항공 사진과 같이 넓은 영역을 촬영한 대화면 이미지를 이용하게 되나 대화면 내 복잡한 배경, 전체 화면 대비 매우 작은 크기의 사람을 추출하는 것은 일반적인 객체의 탐색에 비해 어려운 점이 있다.

따라서 추적 대상 객체로서 사람의 검출을 위해서는 보다 효율적인 신경망의 학습 방법과 이에 따른 탐색 방법이 고안될 필요가 있다.

이상 본 발명은 객체 추적을 위한 보다 효율화된 신경망의 학습 방법을 제안하는 것을 목적으로 한다.

또한, 본 발명은 보다 높은 예측율을 갖도록 신경망의 학습 데이터의 증강 및 이를 통한 학습 방법을 제안하는 것을 목적으로 한다.

또한, 본 발명은 학습된 신경망을 이용하여 대화면 이미지로부터 국소 영역에 위치하는 객체를 보다 효과적으로 검출하는 있는 방법을 제안하는 것을 목적으로 한다.

상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 딥러닝 기반의 객체 검출을 수행하는 신경망의 학습 방법은 검출 대상 이미지를 입력 받는 단계; 상기 검출 대상 이미지를 미리 결정된 크기의 단위 이미지로 분할하는 단계; 상기 분할된 단위 이미지들에 대한 신경망의 출력을 제1 레이블 값으로 정의하는 단계; 상기 단위 이미지를 제1 규칙에 따라 변형하여 제1 변형 이미지를 생성하는 단계; 및 상기 제1 변형 이미지에 대한 상기 신경망의 출력과 상기 제1 레이블 값에 대한 손실을 이용하여 상기 신경망을 학습시키는 단계를 포함한다.

상기 제1 레이블 값으로 정의하는 단계는 상기 단위 이미지를 제2 규칙에 따라 변형하여 생성된 제2 변형 이미지를 신경망의 입력으로 이용하여 출력된 값을 제1 레이블 값으로 정의하는 것이 바람직하다.

상기 제1 규칙은 상기 단위 이미지의 변형 정도를 정량적으로 정의하는 변형 강도가 상기 제2 규칙에 비하여 높은 것이 바람직하다.

상기 분할하는 단계는 검출 대상 이미지를 상기 미리 결정된 크기의 탐색 윈도우를 소정 간격에 따라 이동하여 단위 이미지로 분할하는 것이 바람직하다.

상기 분할된 단위 이미지 중 내 임계값 이상의 상기 객체의 존재에 대한 신뢰도(Confidence score)를 갖는 단위 이미지를 추출하는 단계를 포함하고, 상기 생성하는 단계는 추출된 단위 이미지를 변형하여 제1 변형 이미지를 생성하는 것이 바람직하다.

본 발명에 따르면 대화면 내에서 객체를 검출하는 신경망을 효율적으로 학습시킬 수 있다.

또한, 본 발명은 학습된 신경망을 이용하여 실제 대화면 이미지로부터 국소 영역에 위치하는 객체에 대한 학습 데이터를 증강시킴으로써 신경망의 학습 성능을 높이고 외부 환경 변화에 강인한 성능을 갖도록 한다.

또한, 본 발명은 신경망을 이용하여 인명 수색이나 구조에 소요되는 비용을 절감 시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 객체 검출을 수행하는 시스템의 구조를 나타내는 도이다.
도 2는 본 발명의 일 실시예에 따른 객체 추적을 위한 신경망의 학습 방법을 나타내는 흐름도이다.
도 3 내지 4는 본 발명의 일 실시예에 따른 객체 추적을 위한 신경망의 단위 이미지 분할 방법을 예시하는 도이다.
도 5 내지 7은 본 발명의 일 실시예에 따른 객체 추적을 위한 신경망의 학습 방법을 예시하는 도이다.
도 8 내지 9는 본 발명의 일 실시예에 따른 신경망의 학습을 위하여 단위 이미지를 추출하는 방법을 예시하는 도이다.
도 10은 본 발명의 일 실시예에 따른 객체 추적을 위한 서버의 구성을 나타내는 도이다.

이하의 내용은 단지 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시 되지 않았지만 발명의 원리를 구현하고 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이외같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다.

또한, 발명을 설명함에 있어서 발명과 관련된 공지 기술에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하에는 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예에 대해 상세하게 설명한다.

이하, 도 1을 참조하여 보다 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 객체 검출을 수행하는 시스템의 구조를 나타내는 도이다.

도 1을 참조하면, 본 실시예에 따른 객체 검출 시스템은 넓은 영역을 촬영하기 위한 촬영 장치와 이로부터 촬영된 이미지를 수신하여 처리하는 서버로 구성될 수 있다.

도 1의 경우 촬영 장치는 드론(1000)과 같은 비행 가능한 물체에 탑재될 수 있으며, 따라서 비행 중에 지면을 촬영한 영상을 통신 네트워크를 이용하여 서버(100)로 송신하고 서버(100)는 영상 내 객체를 추적한다.

또한, 드론(1000)과 같은 비행 가능한 물체 외에도 CCTV와 같이 일정 영역을 감시하기 위해 고정 설치된 도시 인프라를 활용하여 촬영된 이미지 내에 객체가 존재하는지 여부를 검출하는 것도 가능하다.

서버(100)의 경우 네트워크 통신이 가능한 형태로 구성되며 클라우드 형태로 구현되어 다양한 촬영 장치에서 촬영된 영상들을 수신하여 처리하는 것도 가능하다.

또한, 수집된 영상들을 이용하여 학습 데이터로 활용하는 것도 가능하며 따라서 이를 위해 클라우드 기반의 메모리를 포함하여 구성될 수 있다.

구체적으로 서버(100)는 드론에 탑재된 카메라나 CCTV 등의 촬영 이미지를 입력 받는 이미지 입력부와 이를 통해 내부의 객체(10)를 추적하는 객체 추적부로 구성될 수 있다.

객체 추적부는 딥러닝 기반으로 학습된 신경망을 이용하여 이미지 내의 객체를 추적하게 되며, 특히 본 실시예의 경우 넓은 영역을 촬영한 대화면 이미지 내에 국소 영역에 해당하는 객체를 효과적으로 추적하도록 학습될 수 있다. 이에 대해서는 이하 도 2를 참조하여 보다 상세히 설명한다.

도 2는 본 발명의 일 실시예에 따른 객체 추적을 위한 신경망의 학습 방법을 나타내는 흐름도이다.

먼저 학습을 위해 검출 대상 이미지를 입력 받는다(S10).

검출 대상 이미지는 상술한 카메라 장치를 통해 촬영된 것으로 인명 구조와 같은 목적에 따라 보다 신속한 추적을 위해 한번에 넓은 영역을 촬영한 것일 수 있으며 대화면 이미지일 수 있다.

대화면 이미지는 예를 들어 가로 5472, 세로 3078의 픽셀로 1600만 이상의 픽셀 또는 4000 * 3000의 1200만 이상의 픽셀들로 구성된 이미지 일 수 있다.

즉, 드론은 비행 중에 1000만 이상의 픽셀로 구성되는 지면에 대한 영상을 획득하고, 획득된 대화면 이미지 내에서 전체 영역에 비해 매우 작은 크기의 객체를 검출한다.

실제 사람과 같은 객체의 경우는 한 장의 이미지 내에서 수천에서 수만 분의 일 정도에 해당하는 영역에 위치할 수 있으며 따라서 객체를 추적하는데 많은 연산량을 요하게 된다. 또한 학습을 위해 대화면 이미지를 사람이 하나하나 검색하고 레이블링 하는 것 자체에도 효과 대비 많은 리소스를 필요로 하는 문제가 있다.

따라서, 본 실시예에서는 입력된 이미지를 단위 이미지로 분할하여 보다 효율적인 추적을 수행하게 하고 신경망 내 레이어들도 분할된 단위 이미지를 기초로 학습을 수행한다(S20).

구체적으로 단위 이미지의 분할 방법을 설명하기 위해 도 3을 참조하면, 본 실시예에서는 대화면 이미지(5)를 미리 결정된 크기의 탐색 윈도우(32)를 이용할 수 있다.

즉, 탐색 윈도(32)우 내의 이미지 영역을 하나의 단위 이미지로 분할하여 추적에 이용한다.

또한, 본 실시예에서는 대화면 이미지(5)를 단위 이미지로 분할할 때 일부 단위 이미지 간의 중첩을 허용할 수 있다.

도 4를 참조하면, 탐색 윈도우를 대화면 이미지의 영역 내에서 이동하며 단위 이미지를 분할하되 이동 방향을 기준으로 탐색 윈도우의 크기 보다 작은 간격으로 이동하도록 정의할 수 있다.

따라서, 보다 많은 수의 단위 이미지를 확보할 수 있으며 이를 통해 신경망을 보다 잘 학습시킴과 동시에 객체의 추적율을 높일 수 있다.

예를 들어, 가로 5472 세로 3078의 픽셀의 원본 대화면 이미지를 448x448의 탐색 윈도우를 이용하되 이동 간격을 100픽셀로 정의하여 복수의 단위 이미지를 분할할 수 있다.

다음, 학습을 위하여 분할된 단위 이미지들에 대한 신경망의 출력을 제1 레이블 값으로 정의한다.

즉, 지도(Supervised) 학습으로 신경망 내에 객체의 존재 여부 또는 객체의 위치를 레이블링하고 출력된 검출 결과와 레이블링 값의 오차를 신경망 내에 역전파 함으로써 연산에 이용된 다양한 가중치나 편향 들을 갱신할 수 있도록 한다.

도 5를 참조하면 구체적으로 본 실시예에서 신경망은 CNN(Convolution Neural Network) 형태로 구현될 수 있으며, 입력된 이미지 내의 픽셀 값에 대한 컨볼루션 연산을 통해 특징맵을 출력하고 특징맵에 대한 평탄화를 통해 객체의 존재 확률 값을 신뢰도(Confidence Score)로 출력할 수 있다.

즉, 본 실시예에서 신경망은 이미 레이블링 된 단위 이미지를 통해 선행 학습될 수 있다.

본 실시예에서는 보다 정확한 학습을 위하여 단위 이미지를 변형하여 추가적인 학습을 수행한다. 즉, 단위 이미지를 제1 규칙에 따라 변형하여 제1 변형 이미지를 생성할 수 있다.

신경망은 변형된 이미지에 대해서도 학습을 수행한다. 제1 변형 이미지에 대한 상기 신경망의 출력과 상기 제1 레이블 값에 대한 손실을 이용하여 상기 신경망을 학습시킨다.

이때 학습에 이용되는 제1 레이블 값이 이미지의 변형 규칙인 제1 규칙에 영향이 있는 값으로 예를 들어 위치에 대한 값도 포함하는 경우에는 해당 레이블링 값에도 제1 규칙을 적용하여 수정된 레이블링 값을 이용하여 학습을 수행할 수 있도록 한다.

나아가, 본 실시예에서는 이상의 레이블링 값을 통한 지도학습 외에 신경망을 더욱 학습 시키기 위하여 준지도(Semi-supervised) 학습을 수행할 수 있다.

이에 대해서는 도 6 및 7을 참조하여 보다 상세히 설명한다.

본 실시예에서 신경망은 레이블링 값는 언레이블드(Unlabeled) 단위 이미지에 대한 학습을 수행함으로써 상대적으로 학습 데이터의 확보가 어려운 인명 구조 영역에 신경망이 활용될 수 있도록 한다.

구체적으로 신경망은 동일한 단위 이미지에 대해 서로 다른 변형을 이용하여 학습을 수행함으로써, 이미지의 획득에 영향을 받는 다양한 촬영 조건으로부터 강인한 성능을 갖도록 한다.

즉, 학습 대상인 단위 이미지에 대하여 제1 규칙과 함께 제2 규칙을 통해 변형을 수행한다.

단위 이미지에 대한 변형 이미지 쌍이 생성되면 이를 이용하여 신경망의 학습을 수행하는데, 본 실시예에서는 제2 규칙에 따라 변형하여 생성된 제2 변형 이미지를 신경망의 입력으로 이용하여 출력된 값을 제1 레이블 값으로 정의할 수 있다.

즉, 이때의 제1 레이블 값은 실제값 (Ground-Truth)과는 무관하게 설정될 수 있다.

다만 제2 규칙은 단위 이미지의 변형 정도를 정량적으로 정의하는 변형 강도가 상기 제1 규칙에 비하여 적은 것으로 정의되어 단위 이미지에 대하여 학습된 신경망은 제1 규칙에 따른 변형 이미지에 비해서는 보다 쉽게 객체를 추적할 수 있을 것으로 정의한다. 또는 제1 규칙은 제2 규칙에 비하여 다양한 파라미터를 이용하여 이미지를 변형하는 것도 가능하다.

도 6을 참조하면, 본 실시예에 따른 제2 규칙은 원본 단위 이미지의 일부의 색변환(색상, 채도, 명도)이 가능하며, 수직 또는 수평 방향의 반전을 통해 변형 이미지(210-2)를 생성하도록 할 수 있다.

반면 제1 규칙은 색상의 반전(Invert) 또는 이미지의 일부를 삭제(CutOut)하는 것 또는 히스토그램의 평활화(Equalize)를 이용하여 특정 값의 픽셀들의 특징을 제거하는 것을 통해 보다 강한 변형에 따른 이미지(210-1)를 생성하도록 할 수 있다. 이상의 구분된 변형 이미지를 이용하여 학습을 수행한다.

도 7을 참조하여 구체적인 학습 방법을 설명하면, 본 실시예에서는 제2 변형 이미지(210-2)에 대한 신경망(200)의 출력(220-2)을 이용하여 제1 변형 이미지(210-1)에 따른 신경망의 출력(210-1)에 대한 오차를 계산하고 이를 신경망의 학습에 이용할 수 있다.

두 변형 이미지에 대한 신경망 각각의 출력의 차이는 크로스 엔트로피(Cross-Entropy) 함수(H(x))로 산출될 수 있으며, 원본 이미지가 동일하므로 변형되었더라도 객체의 추적 결과는 동일하게 출력되는 것을 최종 목적으로 신경망(200)의 학습을 수행한다.

구체적으로 가상(Synthetic)의 정답으로 이용되는 제2 변형 이미지(210-2)에 대한 신경망의 출력은 출력 그대로의 값으로 객체의 존재 확률에 대한 확률 퍼센트를 이용하여 제1 변형 이미지(210-1)에 따른 출력과의 오차를 계산하는 것도 가능하나, 제2 변형 이미지(210-2)에 대한 출력을 임계값을 기준으로 존재 여부를 바이너리 값으로 마치 실제값(Ground-truth)으로 정의하여 이용하는 것도 가능하다.

즉, 본 실시예에서 신경망(200)은 추적을 위해 다양한 단위 이미지에 대한 추적을 수행하고 객체가 정확히 존재하는 단위 이미지 들을 검색함으로써 빠른 인명 구조와 같은 목적을 달성할 수 있으므로 객체의 존재 여부를 이용하여 학습시키는 것도 가능하다.

나아가 본 실시예에서는 학습을 위해 대화면 이미지에 대해 추출된 단위 이미지 전체를 변형하여 학습에 이용하는 경우, 인명 수색과 같은 원본 이미지의 특성상 객체가 존재하는 이미지의 비율과 객체가 부존재하는 이미지의 비율이 매우 차이나게 된다.

즉, 대화면 이미지의 국소 영역에 위치하는 객체를 포함하는 단위 이미지 자체가 매우 적기 때문에 데이터를 동일한 비율로 증강 시키게 되면 이러한 차이는 더욱 커지게 되며 신경망의 학습 성능에 영향을 미칠 수 있다.

따라서, 본 실시예에서는 분할된 단위 이미지에 대해 간소화된 연산을 통해 변형 대상 이미지를 추출할 수 있다.

이에 대해서는 도 8 내지 9를 이용하여 설명한다.

본 실시예에 따른 신경망의 학습 방법은 분할된 단위 이미지 중 내 임계 신뢰도 이상의 객체의 존재에 대한 신뢰도를 갖는 단위 이미지를 추출한다(S100).

즉, 본 실시예에서는 준지도 학습에서 단위 이미지 내 객체의 존재 여부에 대한 실제값을 레이블링 값으로 이용하지는 않으나, 단위 이미지 중에서 객체가 존재할 가능성이 높은 이미지를 추출할 수 있다.

구체적으로 원본 대화면 이미지에 대하여 분할된 단위 이미지에 대한 객체 추적 확률이 임계 신뢰도 이상인 이미지 만을 추출하여 변형 대상으로 이용한다. 이때 임계 신뢰도는 실제 객체의 추적을 위한 것이 아니라 학습 대상의 추출을 위한 것이므로 비교적 낮게 설정될 수 있으며 예를 들어 신뢰도가 10% 이상인 추적 결과를 포함하는 단위 이미지를 대상으로 변형시킬 수 있다.

도 9를 참조하면 단위 이미지 중 추적 대상 객체인 사람이 존재할 신뢰도가 70%로 출력된 (a)이미지는 변형을 통해 학습에 이용되며, (b) 이미지의 경우 신뢰도가 2%로 임계 신뢰도 이하이므로 학습에 이용하지 않을 수 있다.

또한, 보다 균형있는 학습 데이터의 확보를 위하여 신뢰도를 이용하여 신뢰도에 따른 학습 데이터 셋을 구성하고 각각의 학습 데이터 셋 내의 단위 이미지를 변형하여 학습에 이용하는 것도 가능하다.

이때, 학습 데이터로 서의 활용 가능한 단위 이미지의 추출은 신경망의 출력단의 변형을 통해 수행될 수 있다. 즉, 일반적인 완전 연결 레이어를 이용하여 컨볼루션 레이어로부터 출력된 특징맵을 1차원 행렬로 평틴화 시키는 대신, 채널별로 특징 맵을 추출하되, 채널 별 객체에 영향을 미치는 정도를 가중치로 산출하여 이때의 가중치를 각 채널 별 특징 맵과 곱하여 히트맵 형태로 출력할 수 있다. 히트맵들을 통합함으로써 객체의 추적에 영향을 미치는 위치가 도 8과 같이 각각의 단위 이미지에 대해 강조되어 나타날 수 있다.

따라서, 본 실시예에서는 학습 데이터로 활용할 이미지를 임계 신뢰도 이상의 객체의 추적에 영향을 미치는 픽셀들을 포함하는 단위 이미지로 추출하여 변형할 수 있도록 한다.

이상의 과정을 통해 추출된 단위 이미지를 변형하여 제1 변형 이미지 및 제2 변형 이미지를 생성하고 이를 상술한 지도 또는 준지도 학습 방법에 따라 학습시킨다(S200).

이하, 도 10을 참조하여 상술한 신경망의 학습 및 객체 추적을 수행하는 서버(100)에 대하여 설명한다.

서버(100)는 이미지 입력부(110), 신경망 학습부(120) 및 추적 결과 출력부(130)를 포함할 수 있다.

이미지 입력부(110)는 상술한 바와 같이 드론이나 CCTV 등의 다양한 촬영 장치로부터 촬영된 이미지를 입력 받는다. 또한 본 실시예에서는 인명 구조와 같은 목적으로 사람을 추적하기 위하여 보다 넓은 영역을 촬영한 고화질의 대화면 이미지를 입력 받을 수 있다.

다음 신경망 학습부(120)는 신경망을 객체 추적을 위해 학습 시킬 수 있다.

구체적으로 본 실시예에서 신경망은 원본 대화면 이미지를 단위 이미지로 분할하여 학습에 이용할 수 있다.

즉, 지정된 크기의 탐색 윈도우를 이용하여 단위 이미지 전체를 탐색하고 복수의 단위 이미지를 추출한다. 나아가 탐색 윈도우의 탐색을 위한 이동 간격을 윈도우의 크기보다 작게 설정함으로 써 일부 단위 이미지의 겹침을 허용하고 이를 통해 학습의 효과를 높일 수 있다.

나아가, 신경망 학습부(120)는 지도 또는 비지도 학습을 수행할 수 있다.

즉, 단위 이미지에 대하여 미리 정답 값이 레이블링 되어 있는 경우에는 지도 학습을 수행할 수 있다. 다만 상술한 바와 같이 수만장에 해당하는 단위 이미지 중 극히 일부에 존재하는 객체를 레이블링 하기 위해 모든 이미지를 수기로 판단하는 것을 비효율적일 수 있으므로 비지도 학습 방법을 병행하여 학습 효율을 높일 수 있다.

따라서, 신경망 학습부(120)는 레이블링 되지 않은 단위 이미지를 학습에 이용하되, 단위 이미지의 변형 규칙을 구분하여 변형 이미지 쌍을 생성한다.

이때 변형 규칙은 변형 강도에 따라 구분될 수 있으며 보다 높은 변형 강도를 가지는 제1 변형 이미지와 보다 낮은 변형 강도를 가지는 제2 변형 이미지를 학습에 이용한다.

각각의 변형 이미지는 변형되더라도 객체의 존재 여부는 변하지 않는 절대 값이므로 각 이미지에 대한 출력이 유사해지는 것을 목적으로 신경망의 학습에 이용된다.

구체적으로 제2 변형 이미지가 덜 변형되었으므로 이를 임의의 레이블링 값으로 설정하고 제1 변형 이미지에 대한 출력 값과 해당 레이블링 값의 오차를 이용하여 신경망을 학습시킬 수 있다.

또한 제2 변형 이미지에 대한 예측 확률 값을 그대로 이용하는 대신, 객체의 존재 여부에 대한 바이너리 값을 통해 학습을 시키는 것도 가능하다.

추적 결과 출력부(130)는 이상의 학습된 신경망을 이용하여 객체의 추적 결과를 출력한다.

이때 추적 결과 출력부 역시 학습 방법과 동일하게 원본 대화면 이미지를 단위 이미지로 분할하여 객체의 추적을 수행할 수 있으며, 대화면 이미지를 복수의 단위 이미지로 탐색 윈도우를 이용하여 분할하는 것을 통해 추적하는 것도 가능하다.

나아가, 여기에 설명되는 다양한 실시예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.

하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 제어 모듈 자체로 구현될 수 있다.

소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 씌여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 메모리 모듈에 저장되고, 제어모듈에 의해 실행될 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다.

따라서, 본 발명에 개시된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

딥러닝 기반의 객체 검출을 수행하는 신경망의 학습 방법에 있어서,
검출 대상 이미지를 입력 받는 단계;
상기 검출 대상 이미지를 미리 결정된 크기의 단위 이미지로 분할하는 단계;
상기 분할된 단위 이미지들에 대한 신경망의 출력을 제1 레이블 값으로 정의하는 단계;
상기 단위 이미지를 제1 규칙에 따라 변형하여 제1 변형 이미지를 생성하는 단계; 및
상기 제1 변형 이미지에 대한 상기 신경망의 출력과 상기 제1 레이블 값에 대한 손실을 이용하여 상기 신경망을 학습시키는 단계를 포함하고,
상기 제1 레이블 값으로 정의하는 단계는 상기 단위 이미지를 제2 규칙에 따라 변형하여 생성된 제2 변형 이미지를 신경망의 입력으로 이용하여 출력된 값을 제1 레이블 값으로 정의하되,
상기 제1 규칙은 상기 단위 이미지의 변형 정도를 정량적으로 정의하는 변형 강도가 상기 제2 규칙에 비하여 높고,
제1 레이블 값은 임계값을 기준으로 바이너리 값으로 정의되는 것을 특징으로 하는 신경망의 학습 방법.
제 1 항에 있어서,
상기 분할하는 단계는 검출 대상 이미지를 상기 미리 결정된 크기의 탐색 윈도우를 소정 간격에 따라 이동하여 단위 이미지로 분할하는 것을 특징으로 하는 신경망의 학습 방법.
제 1 항에 있어서,
상기 분할된 단위 이미지 중 내 임계값 이상의 상기 객체의 존재에 대한 신뢰도(Confidence score)를 갖는 단위 이미지를 추출하는 단계를 포함하고,
상기 생성하는 단계는 추출된 단위 이미지를 변형하여 제1 변형 이미지를 생성하는 것을 특징으로 하는 신경망의 학습 방법.
프로세서; 및
상기 프로세서와 통신하는 메모리를 포함하고,
상기 메모리는 상기 프로세서로 하여금 동작들을 수행하게 하는 명령들을 저장하고,
상기 동작들은,
검출 대상 이미지를 입력 받는 동작,
상기 검출 대상 이미지를 미리 결정된 크기의 단위 이미지로 분할하는 단계;
상기 분할된 단위 이미지들에 대한 신경망의 출력을 제1 레이블 값으로 정의하는 동작,
상기 단위 이미지를 제1 규칙에 따라 변형하여 제1 변형 이미지를 생성하는 동작; 및
상기 제1 변형 이미지에 대한 상기 신경망의 출력과 상기 제1 레이블 값에 대한 손실을 이용하여 상기 신경망을 학습시키는 동작을 포함하고,
상기 제1 레이블 값으로 정의하는 동작은 상기 단위 이미지를 제2 규칙에 따라 변형하여 생성된 제2 변형 이미지를 신경망의 입력으로 이용하여 출력된 값을 제1 레이블 값으로 정의하되,
상기 제1 규칙은 상기 단위 이미지의 변형 정도를 정량적으로 정의하는 변형 강도가 상기 제2 규칙에 비하여 높고,
제1 레이블 값은 임계값을 기준으로 바이너리 값으로 정의되는 것을 특징으로 하는 컴퓨팅 장치.
제 4 항에 있어서,
상기 분할하는 동작은 검출 대상 이미지를 상기 미리 결정된 크기의 탐색 윈도우를 소정 간격에 따라 이동하여 단위 이미지로 분할하는 것을 특징으로 하는 컴퓨팅 장치.
제 4 항에 있어서,
상기 분할된 단위 이미지 중 내 임계값 이상의 객체의 존재에 대한 신뢰도(Confidence score)를 갖는 단위 이미지를 추출하는 동작을 포함하고,
상기 생성하는 동작는 추출된 단위 이미지를 변형하여 제1 변형 이미지를 생성하는 것을 특징으로 하는 컴퓨팅 장치.
제 1 항 내지 제 3 항 중 어느 한 항에 따른 신경망의 학습 방법을 컴퓨터 상에서 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.