KR20210048837A

KR20210048837A - 패치레벨 증강을 이용한 고해상도 영상에서의 객체 검출방법 및 장치

Info

Publication number: KR20210048837A
Application number: KR1020190133012A
Authority: KR
Inventors: 홍성은; 강성일; 조동현; 전윤호
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2021-05-04
Also published as: KR102478338B1

Abstract

패치레벨 증강(patch-level augmentation)을 이용한 고해상도 영상에서의 객체 검출방법 및 장치를 개시한다.
본 실시예는, 입력 영상으로부터 추출된 노말칩(normal chips)을 이용하여 검출 모델을 1차 트레이닝시키고, 검출 모델이 패치레벨 증강(patch-level augmentation) 영상으로부터 하드 예(hard examples)를 추론한다. 또한 노말칩 및 하드 예로부터 추출된 하드칩(hard chips)을 기반으로 검출 모델을 2차 트레이닝시키는 일련의 학습 방법에 기반함으로써, 검출 성능의 향상이 가능한 객체 검출방법및 장치를 제공하는 데 목적이 있다.

Description

패치레벨 증강을 이용한 고해상도 영상에서의 객체 검출방법 및 장치{Method and Apparatus for Object Detection from High Resolution Images Using Patch-Level Augmentation}

본 발명은 패치레벨 증강(patch-level augmentation)을 이용한 고해상도 영상에서의 객체 검출방법 및 장치에 관한 것이다.

이하에 기술되는 내용은 단순히 본 발명과 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.

드론(drone)으로부터 획득한 항공 시점(aerial view) 또는 원거리를 포함하는 거리 시점(road view)의 고해상도 영상에서의 객체 검출은, 데이터세트(dataset)의 부족이라는 문제에 직면할 수 있다. 학습에 기반하는 객체 검출 모델의 경우. 이러한 데이터세트의 부족은 객체 검출 성능에 심각한 영향을 줄 수도 있다.

객체 검출에 있어서, 도전적인 문제 중 하나는 다양한 크기의 객체를 검출해야 한다는 점이다. 특히, 고해상도 영상에서의 객체 크기는 전체 영상에 비하여 매우 작을 수 있으므로, 크기의 차이에 무관한 검출은 어려운 문제이다. 다양한 크기의 객체에 효과적으로 대처 가능한 하나의 방법은 부영상(sub-image) 형태의 칩(chip) 기반으로 검출 모델을 학습시키는 방법이다. 칩 기반 학습 방법에서는, 전체 영상으로부터 GT(ground truth) 객체를 포함하는 영역, 즉 긍정칩(positive chips 또는 노말칩(normal chips))이 추출된 후, 추출된 긍정칩이 학습에 이용된다. 또한, 학습에 도움을 주기 위해 배경(background)의 일부로부터 부정칩(negative chips)을 생성하여 이용함으로써, 배경 부분을 학습에서 제외하는 것이 가능할 수 있다.

객체 검출에서의 또다른 문제는 객체 클래스 간의 불균형인데, 종래에는 객체가 포함된 영역인 전면(foreground)과 배경 간의 불균형 해소가 주목되었다. 반편, 전면에 속하는 객체 클래스(이하 객체 클래스) 간의 불균형은 거의 주목되지 않았는데, 때로는 객체 클래스(object class) 간의 불균형이 검출 성능에 심각한 열화를 가져올 수 있다.

전술한 바와 같은 부정칩은 GT가 아닌 객체를 포함하는 배경 영역으로부터 추출될 수 있다. 부정칩을 학습에 이용함으로써 거짓긍정(false positive)의 발생 감소에 어느 정도 효과를 볼 수 있으나, 배경 및 전면을 모두 이용하는 하드 예(hard examples)를 사용하는 것이 검토될 수 있다.

따라서, 다양한 객체의 크기에 대처가 가능하면서도, 객체 클래스 간의 불균형을 감소시키며, 거짓긍정 검출의 감소에도 효과적인 데이터세트를 이용하는 학습에 기반하는 객체 검출방법이 요구된다.

비특허문헌 1: Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In Proc. of Computer Vision and Pattern Recognition (CVPR), pages 2117-2125, 2017. 비특허문헌 2: Wen Longyin, Bian Xiao, Haibin Ling, Hu Qinghua, Zhu Pengfei. Vision meets drones: A challenge. arXiv preprint arXiv:1804.07437, 2018. 비특허문헌 3: Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Proc. of European Conf. on Computer Vision (ECCV), pages 740-755. Springer, 2014. 비특허문헌 4: Hei Law and Jia Deng, CornerNet: Detecting Objects as Paired Keypoints, ECCV 2018.

본 개시는, 입력 영상으로부터 추출된 노말칩(normal chips)을 이용하여 검출 모델을 1차 트레이닝시키고, 검출 모델이 패치레벨 증강(patch-level augmentation) 영상으로부터 하드 예(hard examples)를 추론한다. 또한 노말칩 및 하드 예로부터 추출된 하드칩(hard chips)을 기반으로 검출 모델을 2차 트레이닝시키는 일련의 학습 방법에 기반함으로써, 검출 성능의 향상이 가능한 객체 검출방법및 장치를 제공하는 데 주된 목적이 있다.

본 발명의 실시예에 따르면, 객체 검출기의 학습방법에 있어서, 학습을 위한 영상(images)으로부터 노말칩(normal chips)을 마이닝(mining)하는 과정; 상기 노말칩을 이용하여 검출 모델(detection model)에 대한 제1 학습을 실행하는 과정; 상기 영상 별로 GT(ground truth) 객체를 보유한 바운딩 박스(bounding box)를 이용하여 객체 풀(object pool)을 생성하는 과정; 상기 객체 풀로부터 패치(patches)를 샘플링(sampling)하여 상기 영상 중의 하나에 붙임(paste)으로써 패치레벨 증강(patch-level augmentation) 영상을 생성하는 과정; 상기 영상 및 상기 패치레벨 증강 영상을 기반으로 상기 검출 모델이 하드 예(hard examples)를 추론하는 과정; 상기 하드 예로부터 하드칩(hard chips)을 마이닝하는 과정; 및 상기 노말칩 및 상기 하드칩을 이용하여 상기 검출 모델에 대한 제2 학습을 실행하는 과정을 포함하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 학습방법을 제공한다.

본 발명의 다른 실시예에 따르면, 객체 검출기가 이용하는 학습장치에 있어서, 학습을 위한 영상(images)을 기반으로 노말칩(normal chips)을 수집하는 노말칩마이닝부; 상기 영상으로부터 GT(ground truth) 객체를 보유한 바운딩 박스(bounding box)를 이용하여 객체 풀(object pool)을 생성하는 객체풀생성부; 상기 객체 풀로부터 패치(patches)를 샘플링(sampling)하여 상기 영상 중의 하나에 붙임(paste)으로써 패치레벨 증강(patch-level augmentation) 영상을 생성하는 패치레벨 증강부; 상기 영상 및 상기 패치레벨 증강 영상을 기반으로 검출 모델(detection model)이 하드 예(hard examples) 추론하는 검출 모델; 및 상기 하드 예를 기반으로 하드칩(hard chips)을 수집하는 하드칩마이닝부를 포함하는 것을 특징으로 하는 학습장치를 제공한다.

본 발명의 다른 실시예에 따르면, 적어도 하나의 프로세서(processors); 및 상기 프로세서에 의해 실행 가능한 복수의 명령어(instructions)를 저장하는 적어도 하나의 저장 장치(storage devices)를 포함하며, 상기 프로세서는 상기 복수의 명령어를 실행하여, 학습을 위한 영상(images)으로부터 마이닝(mining)된 노말칩(normal chips)을 이용하여 검출 모델(detection model)에 대한 제1 학습을 실행하고, 상기 영상 및 패치레벨 증강(patch-level augmentation) 영상을 기반으로 상기 검출 모델을 이용하여 하드 예(hard examples)를 추론하며, 하드 예로부터 마이닝된 하드칩(hard chips) 및 상기 노말칩을 이용하여 상기 검출 모델에 대한 제2 학습을 실행하는 것을 특징으로 하는 객체 검출기를 제공한다.

본 발명의 다른 실시예에 따르면, 객체 검출기의 학습방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는, 기록매체에 저장된 컴퓨터프로그램을 제공한다.

이상에서 설명한 바와 같이 본 실시예에 따르면, 입력 영상으로부터 파생된 노말칩(normal chips), 패치 수준 증강(patch-level augmentation) 영상 및 하드칩(hard chips)을 이용하는 학습 방법에 기반하는 객체 검출방법 및 장치를 제공함으로써 데이터세트(dataset)의 부족이라는 문제에 대처하고, 전면 클래스 간의 불균형을 감소시키는 것이 가능해지는 효과가 있다.

또한 본 실시예에 따르면, 입력 영상으로부터 파생된 노말칩, 패치 수준 증강 영상 및 하드칩을 이용하는 학습 방법에 기반하는 객체 검출방법 및 장치를 제공함으로써 다양한 객체의 크기에 대처하고, 거짓긍정(false positive)의 검출을 감소시키는 것이 가능해지는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 객체 검출기에 대한 구성도이다.
도 2는 본 발명의 일 실시예에 따른 객체 검출기의 학습 모델에 대한 구성도이다.
도 3은 본 발명의 일 실시예에 따른 객체 검출기의 검출 모델에 대한 예시도이다.
도 4는 본 발명의 일 실시예에서 이용하는 데이터세트의 전면 클래스에 대한 분포도이다.
도 5는 본 발명의 일 실시예에 따른 객체 검출기의 학습방법에 대한 순서도이다.

이하, 본 발명의 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

또한, 본 실시예들의 구성요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.

본 실시예는 패치레벨 증강(patch-level augmentation)을 이용한 고해상도 영상에서의 객체 검출방법 및 장치에 대한 내용을 개시한다. 보다 자세하게는, 입력 영상으로부터 파생된 노말칩(normal chips), 패치 수준 증강(patch-level augmentation) 영상 및 하드칩(hard chips)을 이용하는 학습 방법에 기반하는 객체 검출방법 및 장치를 제공한다.

본 실시예에서는, 객체 검출의 결과로서, 주어진 영상 상에서 특정 객체가 존재하는 위치가 확인되고, 동시에 객체의 종류도 판별되는 것으로 가정한다. 또한 객체의 위치를 표시하기 위하여 객체를 포함하는 직사각형의 바운딩 박스(bounding box)가 사용되는 것으로 가정한다.

이하 영상(image)은 입력으로 주어지는 고해상도의 영상의 전체 영역(whole area)을 포함하는 영상을 의미한다.

영상의 전체 영역은 객체가 포함된 영역, 즉 전면(foreground) 및 전면과 전면을 제외한 나머지 부분인 배경(background)으로 구분될 수 있다.

칩(chip)은 학습용 영상으로부터 추출한 부영상(sub-image)으로서, 긍정 또는 부정적인(positive or negative) 의미가 있는 객체를 포함하는 것으로 가정한다. 노말칩(normal chips)은 GT(Ground Truth) 객체를 포함한다. 학습용 영상의 GT 객체는 라벨(label), 즉 GT가 부여된 객체로서, 검출의 대상이 된다.

하드칩(hard chips)은 학습용 영상의 배경 중에 거짓 경보에 해당하는 영역 또는 전면 중의 오인식된 영역으로 구성될 수 있다.

마이닝(mining)은 하나의 영상에 대하여 실행되는 칩 추출 과정을 데이터세트 전체로 확대하여 적용하는 과정을 의미한다.

패치(patch)는 영상의 일부분 영역을 잘라 낸 부영상으로서, 대개 하나의 객체를 포함하는 것으로 가정한다.

거짓긍정(false positive)은 GT 객체가 아닌 것을 객체로 인식하는 경우로서, 배경에서 객체를 오인하는 것이 대표적인 예이다.

도 1은 본 발명의 일 실시예에 따른 객체 검출기에 대한 구성도이다.

본 발명의 실시예에 있어서, 객체 검출기(100)는 입력 영상을 획득하여, 입력 영상에 포함된 것으로 추측되는 객체를 검출한다. 객체 검출기(100)는 입력부(101), 검출 모델(102) 및 출력부(103)의 전부 또는 일부를 포함한다. 여기서, 본 실시예에 따른 객체 검출기(100)에 포함되는 구성요소가 반드시 이에 한정되는 것은 아니다. 예컨대, 객체 검출기(100) 상에 학습 모델의 트레이닝을 위한 트레이닝부(미도시)를 추가로 구비할 수 있다.

본 실시예에 따른 입력부(101)는 영상을 획득한다.

본 실시예에 따른 검출 모델(102)은 입력 영상에 포함되어 있는 객체를 검출한다.

객체 검출을 위하여 객체 검출기(100)는 트레이닝부에 의하여 기 학습된 딥러닝(deep learning) 기반의 검출 모델(102)을 이용한다.

본 실시예에 따른 출력부(103)는 검출된 객체를 출력한다.

본 실시예에 따른 객체 검출기(100)는 서버(미도시) 또는 서버에 준하는 연산 능력을 보유하는 프로그램가능 시스템에 탑재되는 것으로 가정한다. 서버는 고해상도 영상을 제공할 수 있는 복수의 디바이스(예컨대 드론, 거리 시점의 영상을 제공할 수 있는 촬영 디바이스 등)로부터 유선 또는 무선 전송방식을 이용하여 영상을 획득하는 것으로 가정한다.

전술한 바와 같이, 본 실시예에 따른 객체 검출기(100)는 학습 모델을 구비하고, 구비된 학습 모델을 이용하여 검출 모델(102)에 대한 트레이닝 과정을 수행할 수 있다. 이하 검출 모델의 트레이닝을 위한 학습 모델에 대하여 설명하기로 한다.

도 2는 본 발명의 일 실시예에 따른 객체 검출기의 학습 모델에 대한 구성도이다.

본 발명의 실시예에 있어서, 학습 모델은 학습용 영상을 이용하여 검출 모델(102)의 트레이닝을 실행한다. 학습 모델은 노말칩마이닝부(201), 객체풀생성부(202), 패치레벨 증강부(203), 하드칩마이닝부(204) 및 검출 모델(102)의 전부 또는 일부를 포함할 수 있다.

도 2의 도시는 본 실시예에 따른 예시적인 구성이며, 노말칩 및 하드칩 마이닝 방법, 영상 증강 방법, 검출 모델의 구조 및 종류 등에 따라 다른 구성요소 또는 구성요소 간의 다른 연결을 포함하는 구현이 가능하다.

본 실시예에 따른 검출 모델(102)은 딥러닝 기반의 신경회로망(neural network)으로 구현될 수 있다. 신경회로망 기반의 객체 검출기는 크게 1단 검출(one-stage detection) 및 2단 검출(two-stage detection)의 두 가지 방식을 기반으로 구현될 수 있다.

1단 검출 방식에 기반하는 객체 검출기는 입력 영상으로부터 특징을 추출하고, 추출된 특징을 기반으로 객체를 국한시키고(localize) 분류한다. 1단 검출 방식은 구조가 간단하고 속도는 빠르나, 낮은 검출 정확도를 보인다. 1단 검출 방식에 기반하는 객체 검출기의 예로는 YOLO(You Only Look Once), SSD(Single Shot multibox Detector) 및 레티나넷(RetinaNet) 등을 들 수 있다.

한편, 2단 검출 방식에 기반하는 객체 검출기는 RPN(Regional Proposal Network)을 이용하여 객체 프로포절 풀(object proposal pool)을 생성하고, 검출기를 이용하여 정확한 객체의 위치 및 종류를 추론한다. 2단 검출 방식에 기반하는 객체 검출기의 예로는 Faster R-CNN(Faster Regions with Convolutional Neural Network), R-FCN(Region-based Fully Convolutional Network), Mask R-CNN 및 FPN(Feature Pyramid Networks) 등을 들 수 있다.

예로 든 2단 검출 방식에 기반하는 객체 검출기 중, FPN의 검출 성능이 가장 좋은 것으로 알려져 있다. 따라서, 본 실시예에서는, 도 3에 도시된 바와 같은, FPN이 적용되고, 근간(backbone)이 ResNet-101(101 개의 콘볼루션 레이어를 포함하는 잔차망(Residual Network))인 Faster R-CNN을 검출 모델로 이용하는 것으로 가정한다(비특허문헌 1 참조). 여기서 잔차망은, 숏컷 경로(shortcut path)를 이용하여 각 층의 입력을 각 층의 출력 측에 피드포워드(feedforward) 함으로써, 각 층은 잔차(residue)만을 추론하도록 설계된 신경회로망이다.

전술한 객체 검출을 위한 신경회로망은 본 실시예에서 이용될 뿐이므로 더 이상의 자세한 설명은 생략한다. 다만, 신경회로망의 구조가 고정되더라도, 본 실시예에서 제시하는 바와 같은 학습용 데이터세트의 형태 및 트레이닝 방법에 따라 객체 검출 성능이 변동될 수 있다.

본 실시예에 따른 노말칩마이닝부(201)는 학습용 영상(images)으로부터 노말칩(normal chips)을 수집한다.

크기가 극단적으로 크거나 작은 객체로부터 파생되는 데이터를 무시하는 것이 학습에 더 도움이 된다고 알려져 있으므로, 노말칩의 수집 과정에서 노말칩에 대한 크기는 다음과 같이 처리될 수 있다.

노말칩마이닝부(201)는, 먼저 Ni x Ni(i는 1 이상 K 이하의 정수이고 N은 정수)의 로컬 윈도우(local window)를 이용하여, 스트라이드(stride)를 유지하며 전체 영상을 검색하여 각 윈도우에 포함된 확실한 GT(ground truth) 객체의 개수를 산정한다. 여기서 K는 윈도우의 종류의 개수이고, N은 각 윈도우의 가로 또는 세로의 크기이다.

다음, 다양한 크기의 로컬 윈도우 중, 가장 많은 GT 객체를 포함한 윈도우가 노말칩으로 선택될 수 있다. 다음으로 많은 GT 객체를 포함한 윈도우가 두번 째 노말칩으로 선택되며, 이러한 과정은 선택된 노말칩 전체가 영상 내의 모든 GT 객체를 커버할(covering) 수 있을 때까지 진행될 수 있다.

노말칩마이닝부(201)는 하나의 영상으로부터 노말칩을 선택하는 과정을 학습용 영상 전체에 적용하여 노말칩을 마이닝할 수 있다. 노말칩마이닝부(201)는 간단한 영상 처리(image processing) 과정을 이용하여 다양한 크기의 노말칩을 동일한 크기가 되도록 리사이즈(resize)한다. 트레이닝부는 검출 모델(102)의 제1 학습에 노말칩을 이용하며, 노말칩 및 노말칩에 포함된 GT를 기반으로 검출 모델(102)의 파라미터를 업데이트할 수 있다.

전체 영상 중 노말칩에 포함되는 일부분만을 이용함으로써, 검출 모델(102)의 제1 학습에 소모되는 컴퓨팅 파워(computing power)의 절감이 가능해지는 효과가 있다.

전술한 바와 같이, 검출 모델의 제1 학습에는 노말칩이 이용되었으므로, 확인(validation)을 위한 추론 과정에서는 배경으로부터 거짓긍정이 검출될 수 있다. 본 실시예에서는 거짓긍정의 발생 비율을 줄이기 위하여 전면 및 배경 모두에 기반하는 학습용 영상인 하드 예(hard examples)를 이용한다.

학습용 영상으로부터 수집된 노말칩에 내재된 다른 문제는 전면 객체 클래스(이한 객체 클래스) 간의 불균형이다. 학습에 사용된 객체 클래스(object class) 간의 불균형이 심할 경우, 검출 모델의 성능에 심각한 열화를 초래할 수 있다. 본 실시예에서는 하드 예의 생성 과정에 증강(augmentation) 기법을 이용함으로써 클래스 간의 불균형에 대처가 가능하도록 한다.

이하 하드 예를 생성하기 위한 구성요소를 설명한다.

본 실시예에 따른 객체풀생성부(202)는 학습용 영상으로부터 GT 객체를 보유한 바운딩 박스(bounding box)를 이용하여 객체 풀(object pool)을 생성한다. 도 4의 (a)에 도시된 분포도와 같이 객체 풀은 학습과 확인용 데이터세트 모두에서 전면 클래스 간 심한 불균형을 보이고 있다. 학습과 확인용 데이터세트에 대한 자세한 사항은 추후에 설명하기로 한다.

본 실시예에 따른 패치레벨 증강부(203)는 객체 풀로부터 패치(patches)를 샘플링(sampling)하여 학습 영상 중의 하나에 붙임(paste)으로써 패치레벨 증강(patch-level augmentation) 영상을 생성한다.

패치를 샘플링할 때, 각 객체 클래스에 대하여 차등 확률을 적용하여 객체 클래스 간의 불균형 해소를 시도할 수 있다. 또한 패치에 대하여 척도 조절(scale adjustment), 회전(rotation), 플립(flip) 및/또는 색상 변조(color space modification) 등의 증가 기법을 적용하여 패치를 증강할 수 있다.

패치를 붙일 때, 노말칩이 선택된 영역뿐만 아니라, 영상의 전체 영역이 캔버스 영상(canvas image)으로 이용될 수 있으며, 패치가 포함하는 객체에 대한 주석(annotation)은 그대로 유지된다. 학습용 영상으로부터 객체 풀 및 캔버스 영상을 획득하는 것에 추가하여, 패치레벨 증강부(203)는 다른 외부 데이터세트로부터 캔버스 영상을 획득하여 영상의 개수를 증강시킬 수 있다. 이러한 경우, 외부 캔버스 영상 내에 존재하는 모호하거나 학습 영상 내의 GT 객체와 모순되는 실체(instances)는 모두 마스크(mask) 처리, 즉 배경으로 처리되어, 이후의 과정에 지장을 주지 않도록 한다.

도 4의 (b)에 도시된 분포도와 같이, 패치레벨 증강에 따라, 제2 학습에 이용되는 학습용 데이터세트의 전면 클래스 간의 불균형이 효과적으로 개선된 것을 확인할 수 있다.

패치레벨 증강 영상 및 학습용 영상을 기반으로, 제1 학습된 검출 모델(102)은 하드 예를 추론한다. 여기서 패치레벨 증강 영상 및 학습용 영상은 부영상 수준의 크기가 아니라 전체 영상이다. 즉 검출 모델(102)의 검출 과정은 전체 영상의 크기를 입출력으로 이용한다.

본 실시예에 따른 하드칩마이닝부(204)는 하드 예로부터 하드칩(hard chips)을 수집한다. 다양한 크기의 하드칩을 수집하는 과정은, 전술한 바와 같은 노말칩의 수집 과정과 동일하므로, 자세한 설명은 생략하기로 한다. 전체 영상 크기의 하드 예로부터 하드칩이 수집되었으므로, 하드칩은 전면 또는 배경에서 거짓긍정을 유발할 수 있는 모호한 대상을 포함할 수 있다. 또한, 검출 모델에 의하여 추론된 하드 예는 부정확한 라벨을 포함할 수 있으므로, 하드칩을 생성할 때 GT에 일치되도록 보정하는 단계를 포함할 수 있다.

하드칩마이닝부(201)는 간단한 영상 처리 과정을 적용하여 다양한 크기의 선택된 하드칩을 동일한 크기가 되도록 리사이즈한다. 트레이닝부는 검출 모델(102)의 제2 학습에 노말칩 및 하드칩을 이용하며, 노말칩, 하드칩, 노말칩과 하드칩에 포함된 GT를 기반으로 검출 모델(102)의 파라미터를 업데이트할 수 있다.

이상에서 설명한 바와 같이 본 실시예에 따르면, 입력 영상으로부터 파생된 노말칩 및 하드칩을 이용하는 학습 모델을 제공함으로써 다양한 객체의 크기에 대처가 가능해지는 효과가 있다.

또한 본 실시예에 따르면, 패치 수준 증강 영상 및 하드 예를 이용하는 학습 모델을 제공함으로써 데이터세트의 부족이라는 문제에 대처하고, 전면 객체 클래스 간 불균형 및 거짓긍정의 검출을 감소시키는 것이 가능해지는 효과가 있다.

도 2에 도시된 바와 같이, 트레이닝부는 검출 모델(102)에 대하여 제1 학습, 추론, 제2 학습의 세 과정에 기반한 학습을 진행한다. 이하 도 5를 참조하여 검출 모델(102)에 대한 학습 과정을 설명한다.

도 5는 본 발명의 일 실시예에 따른 객체 검출기의 학습방법에 대한 순서도이다.

본 실시예에 따른 객체 검출기(102)의 트레이닝부는 학습용 영상으로부터 노말칩을 마이닝(mining)한다(S501). 학습용 영상 중 하나의 영상에 대하여 복수의 노말칩 전체가 하나의 영상 내의 모든 GT 객체를 커버할(covering) 때까지 노말칩이 수집된다. 하나의 영상으로부터 노말칩을 선택하는 과정은 학습용 영상 전체에 적용되여 노말칩이 마이닝될 수 있다. 또한 마이닝된 노말칩의 크기는 검출 모델(102)의 학습에 적합하도록 동일한 크기가 되도록 리사이즈될 수 있다.

트레이닝부는 노말칩을 이용하여 검출 모델(102)에 대한 제1 학습을 실행한다(S502). 트레이닝부는 노말칩 및 노말칩에 포함된 GT를 기반으로 검출 모델(102)의 파라미터를 업데이트할 수 있다.

트레이닝부는 영상으로부터 객체 풀을 생성한다(S503). 객체 풀을 생성하기 위하여 트레이닝부는 GT 객체를 보유한 바운딩 박스를 이용할 수 있다.

트레이닝부는 객체 풀을 이용하여 패치레벨 증강 영상을 생성한다(S504). 트레이닝부는 객체 풀로부터 패치(patches)를 샘플링(sampling)하여 학습 영상 중의 하나에 붙임(paste)으로써 패치레벨 증강(patch-level augmentation) 영상을 생성한다. 패치를 샘플링할 때, 트레이닝부는 각 객체 클래스에 대하여 차등 확률을 적용하여 객체 클래스 간의 불균형을 해소할 수 있다.

패치에 대하여 척도 조절(scale adjustment), 회전(rotation), 플립(flip) 및/또는 색상 변조(color space modification) 등의 증강 기법을 적용하여 패치를 증강할 수 있다. 패치를 붙일 때, 노말칩이 선택된 영역뿐만 아니라, 영상 전체 영역이 캔버스 영상(canvas image)으로 이용될 수 있으며, 패치가 포함하는 객체에 대한 주석(annotation)은 그대로 유지된다.

검출 모델(102)은 영상 및 패치레벨 증강 영상을 이용하여 하드 예를 추론한다(S505). 여기서 패치레벨 증강 영상 및 학습용 영상은 부영상 수준의 크기가 아니라 전체 영상이다. 즉 검출 모델(102)의 검출 과정은 전체 영상의 크기를 입출력으로 이용한다.

트레이닝부는 하드 예로부터 하드칩을 마이닝한다(S506). 하드 예 중 하나의 영상에 대하여 복수의 하드칩 전체가 하나의 영상 내의 모든 GT 객체를 커버할(covering) 때까지 하드칩이 수집되고, 하나의 하드 예으로부터 노말칩을 선택하는 과정이 전체 하드 예에 적용되어 하드칩이 마이닝될 수 있다. 또한, 마이닝된 하드칩의 크기는 검출 모델(102)의 학습에 적합하도록 동일한 크기가 되도록 리사이즈될 수 있다.

전체 영상 크기의 하드 예로부터 하드칩이 수집되었으므로, 하드칩은 전면 또는 배경에서 거짓긍정을 유발할 수 있는 모호한 대상을 포함할 수 있다.

트레이닝부는 노말칩 및 하드칩을 이용하여 검출 모델에 대한 제2 학습을 실행한다(S507). 트레이닝부는 노말칩, 하드칩, 노말칩과 하드칩에 포함된 GT를 기반으로 검출 모델(102)의 파라미터를 업데이트할 수 있다.

이하 본 실시예에 따라 학습된 검출 모델(102)의 성능에 대한 실험예를 설명한다. 실험에는 VisDrone-DET 데이터세트(비특허문헌 2 참조)가 이용되었다. 이 데이터세트는 드론으로부터 획득한 10,209 개의 벤치마크(benchmark)용 고해상도 영상을 포함하며, 영상의 해상도는 2000 x 1500이다.

VisDrone-DET 데이터세트는, GT 객체를 포함하는 기 정의된 전면 클래스를 포함하고 있다. 전면 클래스의 종류는 도 4의 (a) 및 (b)의 분포도의 세로축에 표시된 바와 같은, 10 개의 클래스 외에 무시 영역(ignored region) 및 기타(others)를 포함한다.

VisDrone-DET 데이터세트가 포함하는 객체의 크기(예컨대, 객체를 구성하는 pixel의 개수)는 32 이하, 128, 512, 2048, 2048 초과 등이고, 객체의 종횡비(aspect ratio)는 3:1, 2:1, 1:1, 1:2, 1:3 등을 포함한다. 실험에서는 검출 모델(102)의 구조를 고정한 채로, 학습에 사용하는 데이터세트의 분포에 기반하는 하이퍼파라미터(hyper-parameter)만이 조절되었다. 실험에서는, VisDrone-DET 데이터세트를 두 그룹으로 분할된 후, 각각의 그룹이 검출 모델의 학습 및 확인(validation) 과정에 이용되었다.

실험 결과 비교를 위한 메트릭(metric)으로는 AP_{IoU=0.50:005:0.95}, AP_IoU=0.50, AP_IoU=0.75 및 AR_max=1, AR_max=10, AR_max=100, AR_max=500등이 이용되었다. AP_IoU(Average Precision) 및 AR_max(Average Recall) 메트릭은 객체에 대한 오인식 및 이중 검출에 대하여 불리함(penalty)을 줄 수 있다.

여기서 AP_IoU는 IoU(Intersection over Union) 기반으로 계산된 AP(Average Precision)인데, GT의 바운딩 박스와 검출된 바운딩 박스의 교집합 및 합집합을 이용한다. 즉 IoU는 두 바운딩 박스 간의 교집합을 합집합으로 나눈 값이다. IoU는 0과 1 사이의 값이 될 수 있으므로, 임계치를 설정하여 검출 여부에 대한 기준으로 삼는다. 즉 IoU가 기 설정된 임계치 이상이면 검출된 바운딩 박스 내에서 객체가 검출된 것으로 결정한다. 프리시전(precision)은 긍정(positive, true positive와 false positive의 합)으로 결정된 객체 중 참긍정(true positive)인 객체의 비율을 의미하며, 역시 0과 1 사이의 값이다.

AP_{IoU=0.50:005:0.95}는, 한 영상에 대하여 IoU 임계치를 0.5부터 0.95까지 0.05만큼 증가시키면서 프리시전을 산정하여, 이용된 이미지 클래스 전부에 대하여 평균한 값이다. 한편, AP_IoU=0.50 및 AP_IoU=0.75는 임계치가 각각 0.5 및 0.75인 경우에 대한 AP이다. 일반적으로 임계치가 감소할수록 프리시전은 증가한다.

AR_max는 한 영상에 대하여 설정된 최대값만큼 객체를 검출하여 리콜(recall)를 산정하되, 이용된 이미지 클래스 및 IoU 임계치 전부에 대하여 평균한 값이다. 리콜은 영상에 존재하는 객체(true positive와 false negative의 합) 중 참긍정(true positive)으로 검출된 객체의 비율을 의미하며, 0과 1 사이의 값이다. 여기서 거짓부정(false negative)은 GT 객체를 찾지 못한 경우이다. 예컨대 AR_max=100는 한 영상에 대하여 최대 100 개의 객체를 검출하여, 100 개 중에 포함된 GT와 영상에 실제로 존재하는 GT의 비율로 리콜을 산정하되, 이용된 이미지 클래스 및 IoU 임계치 전부에 대하여 평균한 값이다. 일반적으로 검출 객체의 개수가 증가할수록 리콜은 증가한다.

AP_IoU 및 AR_max 메트릭 중 가장 널리 사용되는 것은 AP_{IoU=0.50:005:0.95}(이하 AP로 표기)이다.

데이터세트의 무시 영역(ignored region) 및 기타(others) 클래스는 평가에서 제외되므로 학습에서도 제외되었다. 실험 과정에서 두 클래스는 영상 상에서 마스크 처리되어 학습 및 평가에 영향을 주지 않도록 하였다.

첫번 째 실험예에서는, 본 실시예가 기반하는 FPN을 비교 대상으로 이용하였다. 먼저 FPN이 MS COCO(비특허문헌 3 참조) 데이터세트에 적합하도록 설정된 하이퍼파라미터를 이용하는 경우에 대한 성능을 측정하고, 다음 VisDrone-DET 데이터세트에 적합하도록 하이퍼파라미터가 조절된 경우에 대한 성능을 측정하였다. 본 실시예에 따른 검출 모델(102)에 대하여는 단일 척도(single-scale)의 입력 영상을 이용하는 경우 및 다중 척도(multi-scale)의 입력 영상을 이용하는 경우에 대한 성능을 측정하였다.

표 1은 전술한 네 가지 경우에 대하여 측정된 메트릭을 나타내고 있다. 본 실시예에 따른 두 가지 방법이 FPN을 이용하는 두 가지 방법보다 더 우수한 AP 성능을 보였다. 또한 본 실시예에 따른 두 가지 방법 간에는, 다중 척도의 입력 영상이 이용된 경우가 더 우수한 AP 성능을 보였다.

두번 째 실험예로, VisDrone-DET2019 경연(challenge)의 결과를 인용한다. 경연에서는, 주최 측에서 복수의 베이스라인 모델에 대한 성능을 제공한다. 둘째 실험에서는, 본 실시예에 따른 검출 모델(102)을 가장 우수한 성능을 보인 베이스라인 모델(CornerNet, 비특허문헌 4 참조) 및 본 실시예가 기반하는 베이스라인 모델인 FPN과 비교하였다.

표 2는 본 실시예 따른 검출 모델(102) 및 베이스라인 모델의 성능을 나타내고 있다. 본 실시예에 따른 검출 모델(102)이, 제시된 베이스라인 모델 CornerNet 및 FPN의 AP 성능과 비교하여 11 % 이상 향상된 결과를 보였다.

이상에서 설명한 바와 같이 본 실시예에 따르면, 입력 영상으로부터 파생된 노말칩, 패치 수준 증강 영상 및 하드칩을 이용하는 학습 방법에 기반하는 객체 검출방법 및 장치를 제공함으로써, 검출 성능의 향상이 가능해지는 효과가 있다.

본 실시예에 따른 각 순서도에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 순서도에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것이 적용 가능할 것이므로, 순서도는 시계열적인 순서로 한정되는 것은 아니다.

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터가 읽을 수 있는　기록매체"에 저장된다.

컴퓨터가 읽을 수 있는　기록매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는　기록매체는 ROM, CD-ROM, 자기 테이프, 플로피디스크, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성(non-volatile) 또는 비일시적인(non-transitory) 매체일 수 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송) 및 데이터 전송 매체(data transmission medium)와 같은 일시적인(transitory) 매체를 더 포함할 수도 있다. 또한 컴퓨터가 읽을 수 있는　기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 프로그램가능 컴퓨터에 의하여 구현될 수 있다. 여기서, 컴퓨터는 프로그램가능 프로세서, 데이터 저장 시스템(휘발성 메모리, 비휘발성 메모리, 또는 다른 종류의 저장 시스템이거나 이들의 조합을 포함함) 및 적어도 한 개의 커뮤니케이션 인터페이스를 포함한다. 예컨대, 프로그램가능 컴퓨터는 서버, 네트워크 기기, 셋탑 박스, 내장형 장치, 컴퓨터 확장 모듈, 개인용 컴퓨터, 랩탑, PDA(Personal Data Assistant), 클라우드 컴퓨팅 시스템 또는 모바일 장치 중 하나일 수 있다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 객체 검출기 101: 입력부
102: 검출 모델 103; 출력부
201: 노말칩아이닝부 202: 객체풀생성부
203: 패치수준증강부 204: 하드칩마이닝부

Claims

객체 검출기의 학습방법에 있어서,
학습을 위한 영상(images)으로부터 노말칩(normal chips)을 마이닝(mining)하는 과정;
상기 노말칩을 이용하여 검출 모델(detection model)에 대한 제1 학습을 실행하는 과정;
상기 영상 별로 GT(ground truth) 객체를 보유한 바운딩 박스(bounding box)를 이용하여 객체 풀(object pool)을 생성하는 과정;
상기 객체 풀로부터 패치(patches)를 샘플링(sampling)하여 상기 영상 중의 하나에 붙임(paste)으로써 패치레벨 증강(patch-level augmentation) 영상을 생성하는 과정;
상기 영상 및 상기 패치레벨 증강 영상을 기반으로 상기 검출 모델이 하드 예(hard examples)를 추론하는 과정;
상기 하드 예로부터 하드칩(hard chips)을 마이닝하는 과정; 및
상기 노말칩 및 상기 하드칩을 이용하여 상기 검출 모델에 대한 제2 학습을 실행하는 과정
을 포함하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 학습방법.
제1항에 있어서,
상기 검출 모델은,
2단 검출(two-stage detection) 방식을 이용하는 딥러닝(deep learning) 기반 신경망(neural network)인 것을 특징으로 하는, 컴퓨터 상에 구현되는 학습방법.
제1항에 있어서,
상기 노말칩 또는 상기 하드칩을 마이닝하는 과정은,
상기 학습을 위한 영상 또는 상기 하드 예 내의 하나의 영상에 대하여, 적어도 하나의 크기를 갖는 이동 윈도우(moving windows)를 이용하여 스트라이드(stride)를 유지하며 상기 하나의 영상을 검색하여, 상기 이동 윈도우 내에 포함되는 GT 객체의 개수를 산정하는 단계;
상기 이동 윈도우 내에 포함된 GT 객체의 개수를 기준으로 상기 이동 윈도우를 상기 노말칩 또는 상기 하드칩으로 선택하는 단계; 및
상기 산정하는 단계 및 상기 선택하는 단계를 상기 학습용 영상 또는 상기 하드 예 전체에 대하여 실행하고, 상기 노말칩 또는 상기 하드칩을 동일한 크기가 되도록 리사이즈(resize)하는 단계
를 포함하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 학습방법.
제3항에 있어서,
상기 선택하는 단계는,
상기 노말칩 또는 상기 하드칩 전체가 상기 하나의 영상 내의 포함된 모든 GT 객체를 커버할(covering) 때까지 수행되는 것을 특징으로 하는, 컴퓨터 상에 구현되는 학습방법.
제1항에 있어서,
상기 증강 영상을 생성하는 과정은,
상기 학습용 영상을 구성하는 각 객체 클래스에 대하여 차등 확률을 적용하여 상기 패치를 샘플링하고, 상기 패치에 증강 기법을 적용하여 상기 패치를 증강시키는 것을 특징으로 하는, 컴퓨터 상에 구현되는 학습방법.
제1항에 있어서,
상기 증강 영상을 생성하는 과정은,
상기 패치를 붙일 때, 상기 노말칩이 선택된 영역뿐만 아니라, 상기 영상 전체 영역을 이용하고, 상기 패치가 포함하는 객체에 대한 주석(annotation)을 그대로 유지하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 학습방법.
제1항에 있어서,
제1 학습을 실행하는 과정은,
상기 노말칩 및 상기 노말칩에 포함된 GT를 기반으로 상기 검출 모델의 파라미터를 업데이트하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 학습방법.
제1항에 있어서,
제2 학습을 실행하는 과정은,
상기 노말칩, 상기 하드칩, 상기 노말칩과 상기 하드칩에 포함된 GT를 기반으로 상기 검출 모델의 파라미터를 업데이트하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 학습방법.
객체 검출기가 이용하는 학습장치에 있어서,
학습을 위한 영상(images)을 기반으로 노말칩(normal chips)을 수집하는 노말칩마이닝부;
상기 영상으로부터 GT(ground truth) 객체를 보유한 바운딩 박스(bounding box)를 이용하여 객체 풀(object pool)을 생성하는 객체풀생성부;
상기 객체 풀로부터 패치(patches)를 샘플링(sampling)하여 상기 영상 중의 하나에 붙임(paste)으로써 패치레벨 증강(patch-level augmentation) 영상을 생성하는 패치레벨 증강부;
상기 영상 및 상기 패치레벨 증강 영상을 기반으로 검출 모델(detection model)이 하드 예(hard examples) 추론하는 검출 모델; 및
상기 하드 예를 기반으로 하드칩(hard chips)을 수집하는 하드칩마이닝부
를 포함하는 것을 특징으로 하는 학습장치.
제9항에 있어서,
상기 검출 모델은,
딥러닝(deep learning) 기반으로 구현되되, 상기 노말칩을 이용하여 첫번 째로 상기 검출 모델의 파라미터가 업데이트되고, 상기 노말칩 및 상기 하드칩을 이용하여 두번 째로 상기 검출 모델의 파라미터가 업데이트되는 것을 특징으로 하는 하는 학습장치.
적어도 하나의 프로세서(processors); 및
상기 프로세서에 의해 실행 가능한 복수의 명령어(instructions)를 저장하는 적어도 하나의 저장 장치(storage devices)
를 포함하며,
상기 프로세서는 상기 복수의 명령어를 실행하여, 학습을 위한 영상(images)으로부터 마이닝(mining)된 노말칩(normal chips)을 이용하여 검출 모델(detection model)에 대한 제1 학습을 실행하고, 상기 영상 및 패치레벨 증강(patch-level augmentation) 영상을 기반으로 상기 검출 모델을 이용하여 하드 예(hard examples)를 추론하며, 하드 예로부터 마이닝된 하드칩(hard chips) 및 상기 노말칩을 이용하여 상기 검출 모델에 대한 제2 학습을 실행하는 것을 특징으로 하는 객체 검출기.
제1항 내지 제8항 중 어느 한 항에 따른 객체 검출기의 학습방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는, 기록매체에 저장된 컴퓨터프로그램.