KR102170620B1

KR102170620B1 - 지역적 특징을 가지는 분류기 학습을 위한 학습 데이터 생성 방법 및 그 시스템

Info

Publication number: KR102170620B1
Application number: KR1020190054763A
Authority: KR
Inventors: 윤상두; 한동윤; 전상혁; 유영준
Original assignee: 네이버 주식회사; 라인 가부시키가이샤
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2020-10-28
Also published as: JP7059318B2; JP2020187736A

Abstract

지역적 특징을 가지는 분류기 학습을 위한 학습 데이터 생성 방법 및 그 시스템이 개시된다. 학습 데이터 생성 방법은, 두 개의 샘플 이미지 중 하나의 샘플 이미지에서 일부 영역을 제거한 후 제거된 영역을 다른 하나의 샘플 이미지의 패치(patch)로 대체하는 방식으로 상기 두 개의 샘플 이미지를 혼합하여(mix) 새로운 이미지를 생성하는 단계; 및 상기 생성된 이미지를 학습 데이터로 사용하여 CNN(convolutional neural network) 모델을 학습하는 단계를 포함한다.

Description

지역적 특징을 가지는 분류기 학습을 위한 학습 데이터 생성 방법 및 그 시스템{METHOD AND SYSTEM FOR GENERATING TRAINING DATA TO TRAIN CLASSIFIERS WITH LOCALIZABLE FEATURES}

아래의 설명은 CNN(convolutional neural network) 분류기(classifier)의 성능을 향상시키기 위한 기술에 관한 것이다.

심층 CNN(convolutional neural network)은 이미지 분류(image classification), 객체 검출(object detection), 의미 분할(semantic segmentation), 비디오 분석(video analysis) 등 다양한 컴퓨터 비전 기술에서 유망한 성과를 보여주고 있다. 학습 효율과 성과를 더욱 개선하기 위해 데이터 증강(data augmentation) 및 정규화 기법(regularization techniques)을 포함한 여러 가지 학습 전략이 제안되고 있다.

일례로, 한국 공개특허 제10-2019-0039459호(2019년 04월 12일)에는 FUN(feature upsampling networks)를 사용하여 CNN의 성능을 향상시키기 위한 학습 방법이 개시되어 있다.

특히, CNN이 입력 이미지에 대한 작은 세트의 중간 활성화나 작은 영역에 지나치게 집중하는 것을 방지하기 위해 숨겨진 활성화를 무작위로 삭제하는 경우의 드롭아웃(dropout), 입력에 있는 임의 영역을 삭제하는 경우의 영역 드롭아웃과 같이 임의 특징 제거의 정기화 기술이 이용되고 있다.

기존 기술에서는 특징 제거 전략이 모델 개체 가장 중요한 부분뿐만 아니라 전체 개체 영역에 주의를 기울이도록 함으로써 일반화와 로컬리제이션을 개선하고 있다. 영역 드롭아웃 전략에서는 어느 정도 분류 및 로컬리제이션 성능이 향상되나, 삭제된 영역은 대개 0으로 표시되거나 무작위 노이즈로 채워져 학습 이미지에 대한 정보 픽셀의 비율이 크게 감소한다.

이미지를 잘라서 붙이는 방식(cut&paste)으로 새로운 학습 이미지를 생성하여 분류기 성능과 지역적 특징 인식 성능을 동시에 향상시킬 수 있는 학습 데이터 생성 방법을 제공한다.

컴퓨터 시스템에서 실행되는 방법에 있어서, 상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 방법은, 상기 적어도 하나의 프로세서에 의해, 두 개의 샘플 이미지 중 하나의 샘플 이미지에서 일부 영역을 제거한 후 제거된 영역을 다른 하나의 샘플 이미지의 패치(patch)로 대체하는 방식으로 상기 두 개의 샘플 이미지를 혼합하여(mix) 새로운 이미지를 생성하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 상기 생성된 이미지를 학습 데이터로 사용하여 CNN(convolutional neural network) 모델을 학습하는 단계를 포함하는 방법을 제공한다.

일 측면에 따르면, 상기 생성하는 단계는, 상기 두 개의 샘플 이미지 간 혼합을 위해 가로 세로 비율이 원본 이미지와 비례하는 마스크를 샘플링하는 단계를 포함할 수 있다.

다른 측면에 따르면, 상기 생성하는 단계는, 상기 두 개의 샘플 이미지에서 각각 일부 영역을 무작위로 선택하는 단계; 및 상기 두 개의 샘플 이미지 중 하나의 샘플 이미지에서 선택된 일부 영역을 잘라서 다른 샘플 이미지에서 선택된 일부 영역에 혼합하여 상기 새로운 이미지를 생성하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 생성하는 단계는, 상기 두 개의 샘플 이미지에서 각각 의미 있는 중요 영역을 선택하는 단계; 및 상기 두 개의 샘플 이미지 중 하나의 샘플 이미지에서 선택된 중요 영역을 잘라서 다른 샘플 이미지에서 중요 영역을 제외한 나머지 영역에 혼합하여 상기 새로운 이미지를 생성하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 선택하는 단계는, CNN 모델을 통해 추출된 특징 맵(feature map)을 바탕으로 각 샘플 이미지에서 상기 중요 영역을 예측하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 생성하는 단계는, 상기 하나의 샘플 이미지의 중요 영역을 상기 다른 샘플 이미지의 나머지 영역 중 무작위 위치에 붙여넣는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 학습하는 단계는, 상기 생성된 이미지를 사용하여 원본 손실 함수(original loss function)로 상기 CNN 모델을 학습할 수 있다.

또 다른 측면에 따르면, 상기 방법은, 상기 적어도 하나의 프로세서에 의해, 상기 두 개의 샘플 이미지를 무작위로 선택하는 단계를 더 포함할 수 있다.

또 다른 측면에 따르면, 상기 방법은, 상기 적어도 하나의 프로세서에 의해, 이미지 분류에 따른 동일 클러스터 내에서 상기 두 개의 샘플 이미지를 선택하는 단계를 더 포함할 수 있다.

상기 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 비-일시적인 컴퓨터 판독 가능한 기록 매체를 제공한다.

컴퓨터 시스템에 있어서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 두 개의 샘플 이미지 중 하나의 샘플 이미지에서 일부 영역을 제거한 후 제거된 영역을 다른 하나의 샘플 이미지의 패치로 대체하는 방식으로 상기 두 개의 샘플 이미지를 혼합하여 새로운 이미지를 생성하는 과정; 및 상기 생성된 이미지를 학습 데이터로 사용하여 CNN 모델을 학습하는 과정을 처리하는 컴퓨터 시스템을 제공한다.

본 발명의 실시예들에 따르면, 이미지를 잘라서 붙이는 방식으로 새로운 학습 데이터를 생성하여 CNN을 학습시킴으로써 분류기 성능과 지역적 특징 인식 성능을 함께 향상시킬 수 있다.

도 1은 본 발명의 일실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 2는 본 발명의 일실시예에 따른 학습 데이터 생성 방법(CutMix)의 이미지 분류, 로컬리제이션, 객체 검출 결과를 기존 방법과 비교한 것이다.
도 3 내지 도 4는 본 발명의 일실시예에 있어서 학습 데이터를 생성하는 방법의 일례를 설명하기 위한 예시 도면이다.
도 5 내지 도 6은 본 발명의 일실시예에 있어서 학습 데이터를 생성하는 방법의 다른 예를 설명하기 위한 예시 도면이다.
도 7은 본 발명의 일실시예에 따른 학습 데이터 생성 방법(CutMix)을 이용한 CAM(Class activation mapping) 시각화 결과를 기존 방법과 비교한 것이다.
도 8은 본 발명의 일실시예에 따른 학습 데이터 생성 방법(CutMix)의 사용 환경을 다른 방법과 비교한 것이다.
도 9는 본 발명의 일실시예에 따른 학습 데이터 생성 방법(CutMix)의 검증 오류 분석 결과를 나타낸 것이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명의 실시예들은 분류기 성능과 지역적 특징 인식 성능을 향상시키기 위한 기술에 관한 것이다.

본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 데이터 증강(data augmentation) 전략으로서 이미지를 잘라서 붙이는 방식(CutMix 방법)을 통해 새로운 학습 이미지를 생성할 수 있고, 이를 통해 분류기 성능과 지역적 특징 인식 성능을 함께 향상시킬 수 있다.

도 1은 본 발명의 일실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 학습 데이터 생성 시스템이 도 1의 컴퓨터 시스템(100)을 통해 구현될 수 있다. 도 1에 도시한 바와 같이, 컴퓨터 시스템(100)은 학습 데이터 생성 방법을 실행하기 위한 구성요소로서 프로세서(110), 메모리(120), 영구 저장 장치(130), 버스(140), 입출력 인터페이스(150) 및 네트워크 인터페이스(160)를 포함할 수 있다.

프로세서(110)는 학습 데이터 생성을 위한 구성요소로서 명령어들의 시퀀스를 처리할 수 있는 임의의 장치를 포함하거나 그의 일부일 수 있다. 프로세서(110)는 예를 들어 컴퓨터 프로세서, 이동 장치 또는 다른 전자 장치 내의 프로세서 및/또는 디지털 프로세서를 포함할 수 있다. 프로세서(110)는 예를 들어, 서버 컴퓨팅 디바이스, 서버 컴퓨터, 일련의 서버 컴퓨터들, 서버 팜, 클라우드 컴퓨터, 컨텐츠 플랫폼 등에 포함될 수 있다. 프로세서(110)는 버스(140)를 통해 메모리(120)에 접속될 수 있다.

메모리(120)는 컴퓨터 시스템(100)에 의해 사용되거나 그에 의해 출력되는 정보를 저장하기 위한 휘발성 메모리, 영구, 가상 또는 기타 메모리를 포함할 수 있다. 메모리(120)는 예를 들어 랜덤 액세스 메모리(RAM: random access memory) 및/또는 다이내믹 RAM(DRAM: dynamic RAM)을 포함할 수 있다. 메모리(120)는 컴퓨터 시스템(100)의 상태 정보와 같은 임의의 정보를 저장하는 데 사용될 수 있다. 메모리(120)는 예를 들어 학습 데이터 생성을 위한 명령어들을 포함하는 컴퓨터 시스템(100)의 명령어들을 저장하는 데에도 사용될 수 있다. 컴퓨터 시스템(100)은 필요에 따라 또는 적절한 경우에 하나 이상의 프로세서(110)를 포함할 수 있다.

버스(140)는 컴퓨터 시스템(100)의 다양한 컴포넌트들 사이의 상호작용을 가능하게 하는 통신 기반 구조를 포함할 수 있다. 버스(140)는 예를 들어 컴퓨터 시스템(100)의 컴포넌트들 사이에, 예를 들어 프로세서(110)와 메모리(120) 사이에 데이터를 운반할 수 있다. 버스(140)는 컴퓨터 시스템(100)의 컴포넌트들 간의 무선 및/또는 유선 통신 매체를 포함할 수 있으며, 병렬, 직렬 또는 다른 토폴로지 배열들을 포함할 수 있다.

영구 저장 장치(130)는 (예를 들어, 메모리(120)에 비해) 소정의 연장된 기간 동안 데이터를 저장하기 위해 컴퓨터 시스템(100)에 의해 사용되는 바와 같은 메모리 또는 다른 영구 저장 장치와 같은 컴포넌트들을 포함할 수 있다. 영구 저장 장치(130)는 컴퓨터 시스템(100) 내의 프로세서(110)에 의해 사용되는 바와 같은 비휘발성 메인 메모리를 포함할 수 있다. 영구 저장 장치(130)는 예를 들어 플래시 메모리, 하드 디스크, 광 디스크 또는 다른 컴퓨터 판독 가능 매체를 포함할 수 있다.

입출력 인터페이스(150)는 키보드, 마우스, 음성 명령 입력, 디스플레이 또는 다른 입력 또는 출력 장치에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 학습 데이터 생성을 위한 입력이 입출력 인터페이스(150)를 통해 수신될 수 있다.

네트워크 인터페이스(160)는 근거리 네트워크 또는 인터넷과 같은 네트워크들에 대한 하나 이상의 인터페이스를 포함할 수 있다. 네트워크 인터페이스(160)는 유선 또는 무선 접속들에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 학습 데이터 생성을 위한 입력이 네트워크 인터페이스(160)를 통해 수신될 수 있다.

또한, 다른 실시예들에서 컴퓨터 시스템(100)은 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 시스템(100)은 상술한 입출력 인터페이스(150)와 연결되는 입출력 장치들 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.

본 발명은 데이터 증강 전략으로서 이미지를 잘라서 붙이는 방식인 CutMix 방법을 적용한다.

학습 이미지 중에서 패치를 잘라 붙여 넣으며, 여기서 실측 자료(ground truth) 라벨도 패치의 영역에 비례하여 혼합된다. CutMix 방법은 학습용 픽셀을 효율적으로 사용하고 영역 드롭아웃 효과를 유지함으로써, ImageNet 및 ImageNet 분류 작업뿐만 아니라 ImageNet의 약지도 로컬리제이션(weakly-supervised localization) 작업에서도 지속적으로 최첨단 증강 전략을 능가한다. 또한, 기존 방법과는 달리, CutMix 방법을 통해 학습된 ImageNet 분류기는 사전 검증된 모델로 사용될 경우 Pascal 탐지 및 MS-COCO 이미지 캡션 벤치마크에서 일관된 성능 향상을 가져온다. 또한, CutMix 방법이 입력 변질에 대한 모델의 견고성과 분포 외 감지 성능을 개선할 수 있다.

본 발명에서는 영역 드롭아웃을 활용한 보다 나은 일반화와 로컬리제이션을 활용하면서 삭제된 영역을 최대한 활용하기 위해 CutMix 방법을 도입한다.

본 발명에 따른 CutMix 방법은 픽셀을 단순히 제거하는 대신, 제거된 영역을 다른 이미지의 패치로 교체하는 것이다. 또한, 실측 자료 라벨은 혼합된 이미지의 픽셀 수에 비례하여 혼합된다. CutMix 방법은 학습 중 비정보 화소가 없다는 속성이 있으며, 학습을 효율적으로 하는 동시에, 객체의 중요하지 않은 (non-discriminant) 부분에 주의를 기울일 수 있는 영역 드롭아웃의 장점을 유지한다. 추가된 패치는 모델이 부분 뷰에서 객체를 식별하도록 요구함으로써 로컬리제이션 능력을 더욱 강화할 수 있다. 학습 및 추론 비용은 동일하게 유지된다.

이미지와 라벨을 모두 보간하여 두 샘플을 혼합하는 방법(Mixup 방법)과 같은 연구가 있었다. 그러나, Mixup의 경우 보간 샘플이 부자연스러운 경향이 있는 반면에, CutMix 방법은 이미지 영역을 다른 학습 이미지의 이미지 패치로 대체함으로써 기존 문제를 극복할 수 있다.

도 2는 본 발명에 따른 CutMix 방법의 이미지 분류 결과를 기존 방법(Mixup, Cutout)과 비교한 테이블이다. 도 2를 참조하면, Mixup과 Cutout은 기준선에 비해 ImageNet 분류 정확도를 높일 수 있지만 ImageNet 로컬리제이션 및 객체 검출 작업의 성능 저하를 겪는다. 반면, CutMix는 기준 및 그 외 증강 방법을 뛰어넘는 우수한 분류와 로컬리제이션 능력을 입증하며 세 가지 작업 전반에 걸쳐 지속적으로 상당한 향상을 달성할 수 있다.

먼저, 관련 연구를 살펴보면 다음과 같다.

영역 드롭아웃 (regional dropout)

CNN의 일반화 및 로컬리제이션 성과를 높이기 위해 이미지에서 무작위 영역을 제거하는 방법이 이용되고 있다. 본 발명에 따른 CutMix 방법은 제거된 영역을 다른 이미지의 패치로 대체한다는 것이 기존 방법과 결정적인 차이점이다. 특징 레벨에서 드롭 블록(DropBlock)은 특징 공간에 대한 영역 드롭아웃을 일반화하고 일반성도 향상시킬 수 있으며, CutMix 방법은 특징 공간에서 수행될 수 있다.

학습 데이터 합성(synthesizing training data)

일부 연구에서는 학습 데이터를 합성하여 더욱 일반화 할 수 있는 방법을 적용하고 있다. Stylizing ImageNet에 의해 새로운 학습용 샘플을 생성함으로써 모델이 텍스처보다 모양에 더 집중하도록 유도함으로써 분류 및 개체 감지 성능을 향상시킬 수 있다. 또한 CutMix 방법은 미니 배치(mini-batches) 내에서 패치를 자르고 붙여 새로운 샘플을 생성하여 많은 컴퓨터 비전 작업에서 성능을 향상시킬 수 있다. CutMix 방법의 주요 장점은 샘플 생성에 드는 추가 비용을 무시할 수 있다는 것이다. 객체 감지를 위해 객체 삽입 방법을 백그라운드에서 객체를 합성하는 방법을 이용하고 있으나, 이러한 방법들은 단일 객체를 잘 나타내려고 하는 반면, CutMix 방법은 여러 개의 객체를 포함할 수 있는 혼합된 샘플을 생성할 수 있다는 점에서 기존 방법과 차이가 있다.

Mixup

Mixup 샘플은 국소적으로 모호하고 부자연스럽기 때문에 특히 로컬리제이션에서 모델을 혼란시킨다. 최근의 Mixup 변형 기술은 특징 레벨 보간 및 기타 유형의 변환을 수행하나, 혼합 샘플의 로컬리제이션 능력과 이전 학습에 대한 관심과 연구는 여전히 부족하다.

딥 네트워크를 학습하기 위한 트릭 (tricks for training deep networks)

딥 네트워크의 효율적인 학습은 많은 양의 컴퓨팅 자원과 데이터를 필요로 한다. Weight Decay, 드롭아웃 및 배치 정규화와 같은 방법은 보다 일반화가 가능한 딥 네트워크를 학습하기 위해 널리 사용되고 있다. 최근에는 내부 특징에 노이즈를 추가하거나 아키텍처에 추가 경로를 추가하는 방법이 제안되고 있다. 본 발명에 따른 CutMix 방법은 내부 표현이나 아키텍처를 변경하지 않고 데이터 레벨에서 작동하기 때문에 기존 방법들을 보완할 수 있다.

CutMix 방법의 구체적인 실시예를 설명하기로 한다.

도 3은 CutMix 방법의 일례로 무작위로 영역을 잘라서 붙이는 방법을 설명하기 위한 예시 도면이다.

도 3을 참조하면, 학습 데이터를 생성하기 위해 Mix 대상 이미지로서 두 샘플 이미지(310, 320)가 주어지면, 주어진 두 샘플 이미지(310, 320) 내에서 다른 이미지와 혼합할 영역(311, 321)을 무작위로 선택할 수 있다.

이때, 샘플 이미지(310, 320)는 무작위로 선택될 수 있으며, 혹은 이미지 분류에 따른 동일 클러스터 내에서 적절히 선택하는 것 또한 가능하다.

샘플 이미지(310)에서 선택 영역(311)을 무작위로 잘라낸 후 다른 샘플 이미지(320)에서 무작위로 선택하여 잘라낸 영역(321)을 혼합함으로써 새로운 학습용 샘플 이미지(330)를 생성할 수 있다.

이후, 도 4에 도시한 바와 같이 새로 생성된 학습용 샘플 이미지(330)를 사용하여 CNN 모델(401)을 학습할 수 있다. 다시 말해, CNN 모델(401)을 학습할 때 CutMix 방법을 통해 새로 생성된 학습용 샘플 이미지(330)에 해당되는 학습 데이터와 클래스 라벨을 사용한다.

도 5는 CutMix 방법의 다른 예로 중요 영역을 잘라서 붙이는 방법을 설명하기 위한 예시 도면이다.

도 5를 참조하면, 학습 데이터를 생성하기 위해 Mix 대상 이미지로서 두 샘플 이미지(510, 520)가 주어지면, 주어진 두 샘플 이미지(510, 520) 내에서 의미 있는 중요 영역(501)을 다른 이미지와 혼합할 영역(511, 521)으로 선택할 수 있다.

일례로, CNN 모델을 통해 추출된 특징 맵을 바탕으로 각 샘플 이미지(510, 520)에서 중요 영역(501)을 예측하여 중요 영역(501)과 나머지 영역(즉, 중요하지 않은 영역)(502)을 구분할 수 있다. 예를 들어, 샘플 이미지(520)의 중요 영역(501)을 잘라서 샘플 이미지(510)의 중요하지 않은 영역(502)의 적어도 일부에 붙이는 방식을 통해 새로운 학습용 샘플 이미지(530)를 생성할 수 있다. 샘플 이미지(510)의 중요하지 않은 영역(502) 중 무작위 위치 혹은 가장 중요하지 않는 것으로 판단된 영역에 샘플 이미지(520)의 중요 영역(501)을 붙여넣기 하여 새로운 학습용 샘플 이미지(530)를 생성할 수 있다.

이후, 도 6에 도시한 바와 같이 새로 생성된 학습용 샘플 이미지(530)를 사용하여 CNN 모델(601)을 학습할 수 있다. 다시 말해, CNN 모델(601)을 학습할 때 CutMix 방법을 통해 새로 생성된 학습용 샘플 이미지(530)에 해당되는 학습 데이터와 클래스 라벨을 사용한다.

따라서, 본 발명에 따른 CutMix 방법은 하나의 샘플 이미지에서 일부 영역을 잘라서 다른 하나의 샘플 이미지의 일부 영역에 붙이는 방식으로 새로운 학습 데이터를 생성할 수 있다. 이러한 CutMix 방법은 기존 방법과 달리 이미지 간 혼합을 통해서 이미지 내에서 지역적인 특징에 집중하도록 하는 학습 데이터를 생성할 수 있다.

알고리즘

와

를 각각 학습 이미지와 라벨이라고 하자.

CutMix의 목표는 두 개의 학습용 샘플

과

을 혼합하여 새로운 학습용 샘플

을 생성하는 것이다. 그런 다음, 새로 생성된 학습용 샘플

을 사용하여 원본 손실 함수(original loss function)로 모델을 학습한다.

이를 위해 혼합 연산은 수학식 1과 같이 정의될 수 있다.

[수학식 1]

여기서,

은 두 이미지에서 빠뜨리고 채워야 할 위치를 나타내는 이진 마스크를 나타내며, 1은 1로 채워진 이진 마스크이고, ⊙는 원소별 곱셈(element-wise multiplication)이다.

두 데이터 포인트 사이의 조합비

는 배타 분포 배타

에서 샘플링된다. 기존 기술과의 주요 차이점은 CutMix가 이미지 영역을 다른 학습 이미지의 패치로 대체하여 기존 기술보다 더 많은 지역적으로 자연스러운 이미지를 생성할 수 있다는 것이다.

이진 마스크

을 샘플링하려면 먼저

와

의 자르기 영역을 나타내는 경계 상자 좌표

를 샘플링한다.

의 영역 B는 삭제되고

의 B에서 잘라낸 패치로 채워진다.

가로 세로 비율이 원본 이미지와 비례하는 직사각형 마스크

을 샘플링한다. 경계 상자 좌표는 수학식 2에 따라 균일하게 샘플링된다.

[수학식 2]

자른 면적비를

로 만든다. 자르기 영역에서 이진 마스크

은 경계 상자

내에서 0으로 채워지며, 그렇지 않으면 1이 된다.

CutMix의 구현은 단순하며 데이터 증강 기법 중 하나로서 무시할 수 있는 연산 오버헤드를 가지고 있기 때문에 이를 효율적으로 활용하여 모든 네트워크 아키텍처를 학습시킬 수 있다. 반복 학습에서 학습용 샘플

은 수학식 1에 따라 무작위로 선택된 두 학습 샘플을 미니 배치에 혼합하여 생성된다.

본 발명은 CutMix에 동기를 부여하여 전체 객체 영역을 분류할 수 있도록 하는 한편, 학습 효율성을 높이기 위해 한 이미지의 부분적 뷰로부터 두 개의 객체가 인식되도록 한다. CutMix가 각각의 부분 뷰에서 두 개의 객체를 인식하는 방법을 실제로 배우고 있는지 확인하기 위해, CutMix의 활성화 맵을 Cutout 및 Mixup과 시각적으로 비교한다.

도 7은 여러 증강 기법을 이용한 샘플(세인트 버나드(Saint Bernard) 이미지, 미니에이처 푸들(Miniature Poodle) 이미지)에 대한 클래스 활성화 맵(CAM)을 도시한 것이다. 여기서, CAM을 얻기 위해 ResNet-50 모델을 사용한다.

Cutout에서 모델이 객체의 덜 중요한 부분에 초점을 맞추도록 하는 것을 알 수 있다. 예를 들어, 모델은 Cutout-ed 샘플에서 세인트버나드의 배 부분에 초점을 맞춘다. 그러나, 정보를 제공하지 않는 픽셀 때문에 학습 데이터가 덜 효율적으로 사용된다. 반면, Mixup은 화소를 충분히 활용하지만 부자연스러운 인위 구조를 도입한다. 그 결과, Mixup용 CAM은 인식 단서 선택에 있어 모델의 혼동을 보여준다. CutMix의 경우에는 분류와 로컬리제이션에서 차선적인 성과로 이어질 수 있으며, Cutout이 단일 이미지에서 하나의 객체만 처리할 수 있는 반면, CutMix는 두 객체 클래스를 정확하게 로컬리제이션할 수 있어 효율적으로 개선된다. 도 8의 테이블은 Mixup, Cutout, CutMix의 비교를 정리한 것이다.

검증 오류 분석(analysis on validation error)

CutMix가 딥 네트워크의 학습 안정화에 미치는 영향을 분석한다. CutMix를 사용하여 학습하는 동안 top-1 검증 오류를 기준과 비교한다. ImageNet 분류는 ResNet-50, CIFAR-100 분류는 PyramidNet-200을 학습하는 것으로, 이러한 학습 결과는 도 9와 같다.

도 9를 참조하면, CutMix가 학습 종료 시 기준보다 낮은 검증 오류를 달성한다는 것을 알 수 있다. 학습 속도가 더욱 감소하는 시기의 절반 이후, 기준선이 점점 증가하는 검증 오류로 인한 과적합으로 어려움을 겪는다. 그러나, CutMix는 검증 오류가 꾸준히 감소하는 모습을 보이며 다양한 샘플로 학습을 지도함으로써 과적합을 줄이는 능력을 보임을 알 수 있다.

이처럼 본 발명의 실시예들에 따르면, 이미지를 잘라서 붙이는 방식으로 새로운 학습 데이터를 생성하여 CNN을 학습시킴으로써 분류기 성능과 지역적 특징 인식 성능을 함께 향상시킬 수 있다. 상기한 CutMix 방법은 학습 모델의 일반성과 로컬리제이션을 개선할 수 있으며, 이미지 분류와 CIFAR 분류에 미치는 영향을 개선할 수 있다. 더욱이, 객체 검출 및 이미지 캡션 작업에 대해 미세 조정된 경우 CutMix를 사용하여 학습 모델의 대체성(transferability)을 보장할 수 있으며, 모델 견고성과 불확실성을 개선할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터 시스템에서 실행되는 방법에 있어서,
상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
상기 방법은,
상기 적어도 하나의 프로세서에 의해, 두 개의 샘플 이미지 중 하나의 샘플 이미지에서 일부 영역을 제거한 후 제거된 영역을 다른 하나의 샘플 이미지의 패치(patch)로 대체하는 방식으로 상기 두 개의 샘플 이미지를 혼합하여(mix) 새로운 이미지를 생성하는 단계; 및
상기 적어도 하나의 프로세서에 의해, 상기 생성된 이미지를 학습 데이터로 사용하여 CNN(convolutional neural network) 모델을 학습하는 단계
를 포함하는 방법.
제1항에 있어서,
상기 생성하는 단계는,
상기 두 개의 샘플 이미지 간 혼합을 위해 가로 세로 비율이 원본 이미지와 비례하는 마스크를 샘플링하는 단계
를 포함하는 방법.
제1항에 있어서,
상기 생성하는 단계는,
상기 두 개의 샘플 이미지에서 각각 일부 영역을 무작위로 선택하는 단계; 및
상기 두 개의 샘플 이미지 중 하나의 샘플 이미지에서 선택된 일부 영역을 잘라서 다른 샘플 이미지에서 선택된 일부 영역에 혼합하여 상기 새로운 이미지를 생성하는 단계
를 포함하는 방법.
제1항에 있어서,
상기 생성하는 단계는,
상기 두 개의 샘플 이미지에서 각각 의미 있는 중요 영역을 선택하는 단계; 및
상기 두 개의 샘플 이미지 중 하나의 샘플 이미지에서 선택된 중요 영역을 잘라서 다른 샘플 이미지에서 중요 영역을 제외한 나머지 영역에 혼합하여 상기 새로운 이미지를 생성하는 단계
를 포함하는 방법.
제4항에 있어서,
상기 선택하는 단계는,
CNN 모델을 통해 추출된 특징 맵(feature map)을 바탕으로 각 샘플 이미지에서 상기 중요 영역을 예측하는 단계
를 포함하는 방법.
제4항에 있어서,
상기 생성하는 단계는,
상기 하나의 샘플 이미지의 중요 영역을 상기 다른 샘플 이미지의 나머지 영역 중 무작위 위치에 붙여넣는 단계
를 포함하는 방법.
제1항에 있어서,
상기 학습하는 단계는,
상기 생성된 이미지를 사용하여 원본 손실 함수(original loss function)로 상기 CNN 모델을 학습하는 것
을 특징으로 하는 방법.
제1항에 있어서,
상기 방법은,
상기 적어도 하나의 프로세서에 의해, 상기 두 개의 샘플 이미지를 무작위로 선택하는 단계
를 더 포함하는 방법.
제1항에 있어서,
상기 방법은,
상기 적어도 하나의 프로세서에 의해, 이미지 분류에 따른 동일 클러스터 내에서 상기 두 개의 샘플 이미지를 선택하는 단계
를 더 포함하는 방법.
제1항 내지 제9항 중 어느 한 항의 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 비-일시적인 컴퓨터 판독 가능한 기록 매체.
컴퓨터 시스템에 있어서,
메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서는,
두 개의 샘플 이미지 중 하나의 샘플 이미지에서 일부 영역을 제거한 후 제거된 영역을 다른 하나의 샘플 이미지의 패치로 대체하는 방식으로 상기 두 개의 샘플 이미지를 혼합하여 새로운 이미지를 생성하는 과정; 및
상기 생성된 이미지를 학습 데이터로 사용하여 CNN 모델을 학습하는 과정
을 처리하는 컴퓨터 시스템.
제11항에 있어서,
상기 생성하는 과정은,
상기 두 개의 샘플 이미지 간 혼합을 위해 가로 세로 비율이 원본 이미지와 비례하는 마스크를 샘플링하는 과정
을 포함하는 컴퓨터 시스템.
제11항에 있어서,
상기 생성하는 과정은,
상기 두 개의 샘플 이미지에서 각각 일부 영역을 무작위로 선택하는 과정; 및
상기 두 개의 샘플 이미지 중 하나의 샘플 이미지에서 선택된 일부 영역을 잘라서 다른 샘플 이미지에서 선택된 일부 영역에 혼합하여 상기 새로운 이미지를 생성하는 과정
을 포함하는 컴퓨터 시스템.
제11항에 있어서,
상기 생성하는 과정은,
상기 두 개의 샘플 이미지에서 각각 의미 있는 중요 영역을 선택하는 과정; 및
상기 두 개의 샘플 이미지 중 하나의 샘플 이미지에서 선택된 중요 영역을 잘라서 다른 샘플 이미지에서 중요 영역을 제외한 나머지 영역에 혼합하여 상기 새로운 이미지를 생성하는 과정
을 포함하는 컴퓨터 시스템.
제14항에 있어서,
상기 선택하는 과정은,
CNN 모델을 통해 추출된 특징 맵(feature map)을 바탕으로 각 샘플 이미지에서 상기 중요 영역을 예측하는 과정
을 포함하는 컴퓨터 시스템.
제11항에 있어서,
상기 학습하는 과정은,
상기 생성된 이미지를 사용하여 원본 손실 함수로 상기 CNN 모델을 학습하는 것
을 특징으로 하는 컴퓨터 시스템.
제11항에 있어서,
상기 적어도 하나의 프로세서는,
상기 두 개의 샘플 이미지를 무작위로 선택하는 과정
을 더 처리하는 컴퓨터 시스템.
제11항에 있어서,
상기 적어도 하나의 프로세서는,
이미지 분류에 따른 동일 클러스터 내에서 상기 두 개의 샘플 이미지를 선택하는 과정
을 더 포함하는 컴퓨터 시스템.