KR20220096099A

KR20220096099A - 지식 증류에서 총 cam 정보를 이용한 교사 지원 어텐션 전달의 학습 방법 및 장치

Info

Publication number: KR20220096099A
Application number: KR1020200188240A
Authority: KR
Inventors: 이진섭; 강석규; 서호용; 이지형
Original assignee: 성균관대학교산학협력단
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2022-07-07
Also published as: KR102546817B1

Abstract

본 발명은 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법 및 장치에 관한 것으로, 본 발명의 일 실시예에 따른 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법은, 이미지 분류 데이터로부터 교사 모델(Teacher model)을 학습시키는 단계, 총 CAM 손실(Total class activation map loss), 교사 손실(Teacher loss) 및 학생 손실(Student loss)을 이용하여 교사 보조(Teacher Assistant) 모델을 학습시키는 단계, 및 상기 학습된 교사 보조 모델로부터 총 CAM 손실, 교사 손실 및 학생 손실을 이용하여 학생(Student) 모델을 학습시키는 단계를 포함한다.

Description

지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법 및 장치{METHOD AND APPARATUS FOR LEARNING OF TEACHER ASSISTED ATTENTION TRANSFER USING TOTAL CAM INFORMATION IN KNOWLEDGE DISTILLATION}

본 발명은 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법 및 장치에 관한 것이다.

지식 증류는 기존의 학습된 모델의 정확도를 유지하면서 보다 크기는 작게, 연산은 간소화하려는 딥러닝 모델 경량화 방법이다. 지식 증류 학습 방법에서는 학습된 교사 모델로부터 축소된 학습 파라미터를 갖는 학생 모델을 학습하게 되는데, 학습과정에서 학습 파라미터 정보가 손실되어 특징 맵이 크게 달라진다. 또한, 교사 모델과 학생 모델의 크기 차이가 커지게 되면 정확도가 현저히 낮아지는 문제점이 존재한다.

종래의 학습 방법으로는 모델의 사이즈가 줄어드는 만큼 정보손실이 발생하며 두 모델의 사이즈 차이가 클수록 성능 저하가 더 많이 일어난다. 교사 보조를 추가한 지식 증류 에서는 지식 증류가 진행될수록 특징 맵 정보에 대한 손실은 커지게 된다.

종래 기술은 다음과 같다.

종래의 학습 방법은 교사와 학생 모델의 크기 차이로 인한 정보 손실을 고려하지 않은 모델 구조이다.

종래의 학습 방법에서는 지식 증류 과정에서 특징 맵 정보 손실이 커질 수 있다.

종래의 학습 방법에서는 특징 맵의 중요도를 고려하지 않고 글로벌 평균 풀링(GAP, Global Average Pooling)을 적용한 평균값으로 학습한다.

종래의 학습 방법에서는 정답 클래스에 대한 클래스 활성화 맵을 페어링하여 학습하면 모델의 해석이 특정 클래스에 대해서만 일치할 수 있다.

본 발명의 실시예들은 교사와 학생 모델의 이미지에 대한 해석상 일치를 목표로 하며 따라서 지식 증류에서 총 클래스 활성화 맵(Class activation map) 정보를 이용함으로써, 학습과정에서 정보 손실을 최소화하기 위한, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법 및 장치를 제공하고자 한다.

다만, 본 발명의 해결하고자 하는 과제는 이에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위의 환경에서도 다양하게 확장될 수 있을 것이다.

본 발명의 일 실시예에 따르면, 교사 지원 어텐션 전달의 학습 장치에 의해 수행되는 교사 지원 어텐션 전달의 학습 방법에 있어서, 이미지 분류 데이터로부터 교사 모델(Teacher model)을 학습시키는 단계; 총 CAM 손실(Total class activation map loss), 교사 손실(Teacher loss) 및 학생 손실(Student loss)을 이용하여 교사 보조(Teacher Assistant) 모델을 학습시키는 단계; 및 상기 학습된 교사 보조 모델로부터 총 CAM 손실, 교사 손실 및 학생 손실을 이용하여 학생(Student) 모델을 학습시키는 단계를 포함하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법이 제공될 수 있다.

상기 총 CAM 손실은,상기 교사 모델과 상기 학생 모델로부터 클래스 활성화 맵(Class activation map)을 각 클래스 별로 구한 후 평균 제곱 오차(Mean Squared Error)를 이용해 페어링할 수 있다.

상기 교사 보조 모델을 학습시키는 단계는, 상기 교사 모델과 상기 학생 모델로부터 각각의 총 CAM을 생성하고, 상기 생성된 각각의 총 CAM으로부터 평균 제곱 오차(Mean Squared Error)를 총 CAM 손실로 계산할 수 있다.

상기 교사 보조 모델을 학습시키는 단계는, 특징 맵에 대해 얻은 확률 값과 클래스에 대한 정보를 이용해 가중치 벡터(Weight vector)로 학습하고, 가중치 벡터와 특징 맵의 선형 합산(linear summation)을 수행하여 총 CAM을 생성할 수 있다.

상기 교사 보조 모델을 학습시키는 단계는, 특징 추출기의 마지막 컨볼루션 계층을 거쳐서 특징 맵을 생성하고, 상기 생성된 특징 맵을 GAP(Global Average Pooling)을 수행한 후 소프트맥스(softmax) 함수에 넣어 확률 값을 얻을 수 있다.

상기 교사 보조 모델을 학습시키는 단계는, 상기 선형 합산된 결과로부터 클래스 활성화 맵(CAM, Class activation map)을 생성하고, 모든 클래스에 대해 CAM을 합하여 총 CAM을 생성할 수 있다.

상기 교사 보조 모델을 학습시키는 단계는, 상기 선형 합산된 결과에 정류 선형 유닛(ReLU, Rectified Linear Unit) 함수를 적용하여 클래스 활성화 맵을 생성할 수 있다.

상기 교사 보조 모델을 학습시키는 단계는, 상기 가중치 벡터와 상기 특징 맵의 선형 합산된 결과에서 음수인 부분을 0으로 바꿀 수 있다.

상기 교사 손실은 라벨 스무딩(Label smoothing)을 통한 소프트 라벨(Soft label)을 학습하도록 할 수 있다.

상기 학생 손실은 하드 라벨(Hard label)을 학습하도록 할 수 있다.

한편, 본 발명의 다른 실시예에 따르면, 하나 이상의 프로그램을 저장하는 메모리; 및 상기 저장된 하나 이상의 프로그램을 실행하는 프로세서를 포함하고, 상기 프로세서는, 이미지 분류 데이터로부터 교사 모델(Teacher model)을 학습시키고, 총 CAM 손실(Total class activation map loss), 교사 손실(Teacher loss) 및 학생 손실(Student loss)을 이용하여 교사 보조(Teacher Assistant) 모델을 학습시키고, 상기 학습된 교사 보조 모델로부터 총 CAM 손실, 교사 손실 및 학생 손실을 이용하여 학생(Student) 모델을 학습시키는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치가 제공될 수 있다.

상기 총 CAM 손실은, 상기 교사 모델과 상기 학생 모델로부터 클래스 활성화 맵(Class activation map)을 각 클래스 별로 구한 후 평균 제곱 오차(Mean Squared Error)를 이용해 페어링할 수 있다.

상기 프로세서는, 상기 교사 모델과 상기 학생 모델로부터 각각의 총 CAM을 생성하고, 상기 생성된 각각의 총 CAM으로부터 평균 제곱 오차(Mean Squared Error)를 총 CAM 손실로 계산할 수 있다.

상기 프로세서는, 특징 맵에 대해 얻은 확률 값과 클래스에 대한 정보를 이용해 가중치 벡터(Weight vector)로 학습하고, 가중치 벡터와 특징 맵의 선형 합산(linear summation)을 수행하여 총 CAM을 생성할 수 있다.

상기 프로세서는, 특징 추출기의 마지막 컨볼루션 계층을 거쳐서 특징 맵을 생성하고, 상기 생성된 특징 맵을 GAP(Global Average Pooling)을 수행한 후 소프트맥스(softmax) 함수에 넣어 확률 값을 얻을 수 있다.

상기 프로세서는, 상기 선형 합산된 결과로부터 클래스 활성화 맵(CAM, Class activation map)을 생성하고, 모든 클래스에 대해 CAM을 합하여 총 CAM을 생성할 수 있다.

상기 프로세서는, 상기 선형 합산된 결과에 정류 선형 유닛(ReLU, Rectified Linear Unit) 함수를 적용하여 클래스 활성화 맵을 생성할 수 있다.

상기 프로세서는, 상기 가중치 벡터와 상기 특징 맵의 선형 합산된 결과에서 음수인 부분을 0으로 바꿀 수 있다.

한편, 본 발명의 다른 실시예에 따르면, 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 방법을 실행하게 하는 명령어들을 저장하기 위한 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 방법은: 이미지 분류 데이터로부터 교사 모델(Teacher model)을 학습시키는 단계; 총 CAM 손실(Total class activation map loss), 교사 손실(Teacher loss) 및 학생 손실(Student loss)을 이용하여 교사 보조(Teacher Assistant) 모델을 학습시키는 단계; 및 상기 학습된 교사 보조 모델로부터 총 CAM 손실, 교사 손실 및 학생 손실을 이용하여 학생(Student) 모델을 학습시키는 단계를 포함하는, 비일시적 컴퓨터 판독 가능한 저장 매체가 제공될 수 있다.

개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

본 발명의 실시예들은 교사와 학생 모델의 해석이 일치하도록 학습함으로써 정보 손실을 최소화하고, 모델 경량화가 진행되어도 이미지 분류 성능을 향상시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법에 대한 순서도이다.
도 3 내지 도 5는 본 발명의 일 실시예에 따른 총 CAM 생성 과정과 총 CAM 손실 계산 과정을 설명하기 위한 도면과 순서도이다.
도 6은 본 발명의 일 실시예에 따른 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치의 구성도이다.
도 7은 본 발명의 일 실시예와 종래 기술에 따른 각 모델의 이미지 분류 성능 실험 결과를 나타낸 도면이다.

본 발명은 다양한 변환을 가할 수 있고 여러가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 구체적으로 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 기술적 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해될 수 있다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들이 용어들에 의해 한정되는 것은 아니다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 본 발명에서 사용한 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나 이는 당 분야에 종사하는 기술자의 의도, 판례, 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 본 발명의 실시예들을 첨부 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 본 발명의 일 실시예에 따른 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법을 설명하기 위한 도면이다.

도 1은 본 발명의 일 실시예에 따른 지식 증류(Knowledge Distillation)에서 위치정보를 반영한 지식 증류 교사 지원 어텐션 전달 학습(Knowledge Distillation Teacher Assisted Attention Transfer) 방법에 대한 도면이다. 지식 증류 교사 지원 어텐션 전달 학습 방법은 교사 지원 어텐션 전달의 학습 장치(100)에 의해 수행된다.

본 발명의 일 실시예에 따른 학습 방법에서는 ResNet 기반의 모델 구조를 사용했으며, 교사(Teacher)와 학생(Student) 모델 크기의 중간인 교사 보조(Teacher Assistant) 모델을 추가하여 학습된 모델과 학습하려는 모델의 크기차이를 줄였다. 본 발명의 일 실시예에서는 이와 동시에 지식 증류 학습과정에서 손실되는 위치정보의 양을 최소화하기 위해 총 CAM 손실(Total CAM Loss)을 추가했다.

먼저, 본 발명의 일 실시예는 교사 모델을 학습한 후에 총 CAM 손실, 교사 손실(Teacher Loss), 학생 손실(Student Loss)을 이용하여 교사 보조 모델과 학생 모델을 순차적으로 학습시킨다. 총 CAM 손실은 총 CAM 페어링(Total CAM Pairing)을 통해 학습하려는 모델이 유사한 총 CAM을 갖도록 한다. 교사 손실은 라벨 스무딩(Label smoothing)을 통한 소프트 라벨(Soft Label), 학생 손실은 하드 라벨(Hard Label)을 학습하도록 한다.

따라서 본 발명의 일 실시예는 지식 증류에서 클래스 활성화 맵(Class Actvation Map) 정보를 반영한 교사 지원 어텐션 전달 학습 방법을 제공하여 특징 맵(Feature map)이 갖고 있는 정보 손실을 최소화 하고자 한다. 본 발명의 일 실시예를 통해 모델 경량화가 진행되어도 이미지에 대한 교사와 학생의 모델의 해석이 유사해지고, 이미지 분류 성능이 향상된다.

본 발명의 일 실시예는 교사와 학생 모델 크기의 중간인 교사 보조 모델을 추가하여 학습된 모델과 학습하려는 모델의 크기차이를 줄일 수 있다. 이와 동시에 본 발명의 일 실시예는 지식 증류 학습과정 중의 특징 맵 정보 손실을 최소화하기 위해 클래스 활성화 맵 페어링 손실을 추가하는 학습 방법을 제공한다. 본 발명의 일 실시예에 사용되는 총 CAM 손실에서는 교사와 학생 모델의 해석을 최대한 일치하게 학습시키기 위해 모든 클래스에 대한 클래스 활성화 맵을 종합한 총 CAM을 생성하여 페어링 하도록 한다. 이러한 총 CAM 손실을 교사 손실과 학생을 학습에 사용한다.

도 2는 본 발명의 일 실시예에 따른 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법에 대한 순서도이다.

본 발명의 일 실시예에 따른 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법은 교사 지원 어텐션 전달의 학습 장치(100)에 의해 수행된다.

교사 지원 어텐션 전달의 학습 장치(100)는 보유한 이미지 분류 데이터로부터 교사 모델을 학습 시킨다(S101).

교사 지원 어텐션 전달의 학습 장치(100)는 총 CAM 손실(Total CAM Loss), 교사 손실(Teacher Loss), 학생 손실(Student Loss)을 이용하여 교사 보조 모델을 학습 시킨다(S102). 총 CAM 손실은 교사와 학생 모델로부터 나온 총 CAM을 평균 제곱 오차(Mean Squared Error)를 이용해 페어링한 것이다. 교사 손실은 라벨 스무딩을 통한 소프트 라벨, 학생 손실은 하드 라벨을 학습하도록 한다. 총 CAM 손실은 교사와 학생 모델로부터 클래스 활성화 맵을 각 클래스 별로 구한 후 평균 제곱 오차(Mean Squared Error)를 이용해 페어링 하는 방법으로, 각 클래스별로 구해서 이를 통해 학습하려는 모델이 유사한 해석을 갖도록 한다. 세부적으로 총 CAM 생성과정과 총 CAM 손실의 계산과정은 도 3 내지 도 5를 참조하여 설명하기로 한다.

교사 지원 어텐션 전달의 학습 장치(100)는 학습된 교사 보조 모델로부터 총 CAM 손실, 교사 손실, 학생 손실을 이용하여 학생(Student) 모델을 학습시킨다(S103).

도 3 내지 도 5는 본 발명의 일 실시예에 따른 총 CAM 생성 과정과 총 CAM 손실 계산 과정을 설명하기 위한 도면과 순서도이다.

도 3에는 교사 모델과 학생 모델로부터 각각의 총 CAM 생성 과정과 각각 생성된 두 개의 총 CAM으로부터의 총 CAM 손실 계산 과정이 도시되어 있다.

한편, 도 4에는 총 CAM 손실 계산 과정이 도시되어 있다.

교사 지원 어텐션 전달의 학습 장치(100)는 교사 모델과 학생 모델로 부터 각각의 총 CAM을 생성한다(S201).

교사 지원 어텐션 전달의 학습 장치(100)는 교사 모델과 학생 모델로부터 나온 두 개의 총 CAM 으로부터 평균 제곱 오차(Mean Squared Error)를 손실로 사용한다(S202).

한편, 도 5에는 총 CAM 생성 과정이 도시되어 있다.

교사 지원 어텐션 전달의 학습 장치(100)는 특징 추출기(Feature Extractor)의 마지막 컨볼루션 계층(Convolution layer)을 거쳐서 특징 맵(Feature map)을 생성한다(S301).

교사 지원 어텐션 전달의 학습 장치(100)는 생성한 특징 맵을 글로벌 평균 풀링(Global Average Pooling, GAP)를 수행한 후 소프트맥스(softmax) 함수에 넣어 확률 값을 얻어낸다(S302).

교사 지원 어텐션 전달의 학습 장치(100)는 단계 S302에서 얻은 확률 값과 클래스에 대한 정보를 이용해 가중치 벡터(Weight vector)로 학습한다(S303).

교사 지원 어텐션 전달의 학습 장치(100)는 클래스 중 하나의 클래스로 분류될 확률을 구할 때 곱해지는 각각의 가중치 벡터(Weight vector)들을 특징 맵에 곱해준 다음 이들을 합친다. 즉, 교사 지원 어텐션 전달의 학습 장치(100)는 가중치 벡터와 특징 맵의 선형 합산(linear summation)을 진행한다(S304).

교사 지원 어텐션 전달의 학습 장치(100)는 단계 S303에서 생성한 가중치 벡터와 특징 맵의 선형 합산(linear summation)의 결과물에서 음수인 부분을 0으로 바꿔준다. 즉, 교사 지원 어텐션 전달의 학습 장치(100)는 ReLU 함수를 적용하여 클래스 활성화 맵을 생성한다(S305).

교사 지원 어텐션 전달의 학습 장치(100)는 모든 클래스에 대해 클래스 활성화 맵을 생성한 후 이를 합하여(Concatenate) 총 CAM을 생성한다(S306).

도 6은 본 발명의 일 실시예에 따른 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치의 구성도이다.

도 6에 도시된 바와 같이, 본 발명의 일 실시예에 따른 본 발명의 일 실시예에 따른 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치(100)는 메모리(110) 및 프로세서(120)를 포함한다. 그러나 도시된 구성요소 모두가 필수 구성요소인 것은 아니다. 도시된 구성요소보다 많은 구성요소에 의해 교사 지원 어텐션 전달의 학습 장치(100)가 구현될 수도 있고, 그보다 적은 구성요소에 의해서도 교사 지원 어텐션 전달의 학습 장치(100)가 구현될 수 있다.

이하, 도 6의 교사 지원 어텐션 전달의 학습 장치(100)의 각 구성요소들의 구체적인 구성 및 동작을 설명한다.

메모리(110)는 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습과 관련된 하나 이상의 프로그램을 저장한다.

프로세서(120)는 메모리(110)에 저장된 하나 이상의 프로그램을 실행한다. 프로세서(120)는 이미지 분류 데이터로부터 교사 모델(Teacher model)을 학습시키고, 총 CAM 손실(Total class activation map loss), 교사 손실(Teacher loss) 및 학생 손실(Student loss)을 이용하여 교사 보조(Teacher Assistant) 모델을 학습시키고, 학습된 교사 보조 모델로부터 총 CAM 손실, 교사 손실 및 학생 손실을 이용하여 학생(Student) 모델을 학습시킨다.

실시예들에 따르면, 상기 총 CAM 손실은, 교사 모델과 학생 모델로부터 클래스 활성화 맵(Class activation map)을 각 클래스 별로 구한 후 평균 제곱 오차(Mean Squared Error)를 이용해 페어링할 수 있다.

실시예들에 따르면, 프로세서(120)는 교사 모델과 학생 모델로부터 각각의 총 CAM을 생성하고, 생성된 각각의 총 CAM으로부터 평균 제곱 오차(Mean Squared Error)를 총 CAM 손실로 계산할 수 있다.

실시예들에 따르면, 프로세서(120)는 특징 맵에 대해 얻은 확률 값과 클래스에 대한 정보를 이용해 가중치 벡터(Weight vector)로 학습하고, 가중치 벡터와 특징 맵의 선형 합산(linear summation)을 수행하여 총 CAM을 생성할 수 있다.

실시예들에 따르면, 프로세서(120)는 특징 추출기의 마지막 컨볼루션 계층을 거쳐서 특징 맵을 생성하고, 생성된 특징 맵을 GAP(Global Average Pooling)을 수행한 후 소프트맥스(softmax) 함수에 넣어 확률 값을 얻을 수 있다.

실시예들에 따르면, 프로세서(120)는 선형 합산된 결과로부터 클래스 활성화 맵(CAM, Class activation map)을 생성하고, 모든 클래스에 대해 CAM을 합하여 총 CAM을 생성할 수 있다.

실시예들에 따르면, 프로세서(120)는 선형 합산된 결과에 정류 선형 유닛(ReLU, Rectified Linear Unit) 함수를 적용하여 클래스 활성화 맵을 생성할 수 있다.

실시예들에 따르면, 프로세서(120)는 가중치 벡터와 특징 맵의 선형 합산된 결과에서 음수인 부분을 0으로 바꿀 수 있다.

실시예들에 따르면, 교사 손실은 라벨 스무딩(Label smoothing)을 통한 소프트 라벨(Soft label)을 학습하도록 할 수 있다.

실시예들에 따르면, 학생 손실은 하드 라벨(Hard label)을 학습하도록 할 수 있다.

도 7은 본 발명의 일 실시예와 종래 기술에 따른 각 모델의 이미지 분류 성능 실험 결과를 나타낸 도면이다.

도 7은 각 방법에 따른 각 모델의 이미지 분류 성능 실험 결과이다.

실험 내용과 실험 결과를 설명하면 다음과 같다. CIFAR-100 데이터셋에 대하여 실험을 진행했다. CIFAR-100은 100개의 클래스로, 60,000개의 32Х32 RGB 이미지 샘플로 이루어져 있다. 이 중 50,000개를 학습 데이터셋 그리고 10,000개를 테스트 데이터셋으로 구분하였다.

교사, 교사 보조 그리고 학생 모델은 각각 ResNet 100, ResNet 70, ResNet 40 구조를 갖는다.

도 7에 도시된 표는 각 모델의 이미지 분류 성능을 네 가지 방법과 비교한 것이다.

지식 증류를 사용하지 않은 NOKD(No Knowledge distillation)은 ResNet 모델만으로 학습한 것이다.

지식 증류를 사용한 KD(Knowledge Distillation)는 총 CAM 손실을 적용하지 않고 교사 모델로부터 바로 학생 모델을 학습한 것이다.

교사 보조 지식 증류를 사용한 TAKD(Teacher Assistant Knowledge Distillation)는 총 CAM 손실을 적용하지 않고 교사 모델으로 학습된 교사 보조 모델로부터 학생 모델을 학습한 것이다.

본 발명의 일 실시예는 총 CAM 손실을 적용하여 교사 보조 모델로부터 학생 모델을 학습하였다.

실험 결과에 따르면, 본 발명의 일 실시예에 따른 학습 방법이 종래의 NOKD, KD, TAKD 방법보다 성능이 좋음을 보여준다.

한편, 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 방법을 실행하게 하는 명령어들을 저장하기 위한 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 방법은: 이미지 분류 데이터로부터 교사 모델(Teacher model)을 학습시키는 단계; 총 CAM 손실(Total class activation map loss), 교사 손실(Teacher loss) 및 학생 손실(Student loss)을 이용하여 교사 보조(Teacher Assistant) 모델을 학습시키는 단계; 및 상기 학습된 교사 보조 모델로부터 총 CAM 손실, 교사 손실 및 학생 손실을 이용하여 학생(Student) 모델을 학습시키는 단계를 포함하는, 비일시적 컴퓨터 판독 가능한 저장 매체가 제공될 수 있다.

한편, 본 발명의 일 실시예에 따르면, 이상에서 설명된 다양한 실시예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치(예: 전자 장치(A))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

또한, 본 발명의 일 실시예에 따르면, 이상에서 설명된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

또한, 본 발명의 일 실시예에 따르면, 이상에서 설명된 다양한 실시예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다.

한편, 상술한 다양한 실시예들에 따른 기기의 프로세싱 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium)에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시예에 따른 기기에서의 처리 동작을 특정 기기가 수행하도록 한다. 비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.

또한, 상술한 다양한 실시예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

100: 교사 지원 어텐션 전달의 학습 장치
110; 메모리
120: 프로세서

Claims

교사 지원 어텐션 전달의 학습 장치에 의해 수행되는 교사 지원 어텐션 전달의 학습 방법에 있어서,
이미지 분류 데이터로부터 교사 모델(Teacher model)을 학습시키는 단계;
총 CAM 손실(Total class activation map loss), 교사 손실(Teacher loss) 및 학생 손실(Student loss)을 이용하여 교사 보조(Teacher Assistant) 모델을 학습시키는 단계; 및
상기 학습된 교사 보조 모델로부터 총 CAM 손실, 교사 손실 및 학생 손실을 이용하여 학생(Student) 모델을 학습시키는 단계를 포함하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법.
제1항에 있어서,
상기 총 CAM 손실은,
상기 교사 모델과 상기 학생 모델로부터 클래스 활성화 맵(Class activation map)을 각 클래스 별로 구한 후 평균 제곱 오차(Mean Squared Error)를 이용해 페어링하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법.
제1항에 있어서,
상기 교사 보조 모델을 학습시키는 단계는,
상기 교사 모델과 상기 학생 모델로부터 각각의 총 CAM을 생성하고, 상기 생성된 각각의 총 CAM으로부터 평균 제곱 오차(Mean Squared Error)를 총 CAM 손실로 계산하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법.
제3항에 있어서,
상기 교사 보조 모델을 학습시키는 단계는,
특징 맵에 대해 얻은 확률 값과 클래스에 대한 정보를 이용해 가중치 벡터(Weight vector)로 학습하고, 가중치 벡터와 특징 맵의 선형 합산(linear summation)을 수행하여 총 CAM을 생성하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법.
제4항에 있어서,
상기 교사 보조 모델을 학습시키는 단계는,
특징 추출기의 마지막 컨볼루션 계층을 거쳐서 특징 맵을 생성하고, 상기 생성된 특징 맵을 GAP(Global Average Pooling)을 수행한 후 소프트맥스(softmax) 함수에 넣어 확률 값을 얻는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법.
제4항에 있어서,
상기 교사 보조 모델을 학습시키는 단계는,
상기 선형 합산된 결과로부터 클래스 활성화 맵(CAM, Class activation map)을 생성하고, 모든 클래스에 대해 CAM을 합하여 총 CAM을 생성하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법.
제6항에 있어서,
상기 교사 보조 모델을 학습시키는 단계는,
상기 선형 합산된 결과에 정류 선형 유닛(ReLU, Rectified Linear Unit) 함수를 적용하여 클래스 활성화 맵을 생성하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법.
제6항에 있어서,
상기 교사 보조 모델을 학습시키는 단계는,
상기 가중치 벡터와 상기 특징 맵의 선형 합산된 결과에서 음수인 부분을 0으로 바꾸는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법.
제1항에 있어서,
상기 교사 손실은 라벨 스무딩(Label smoothing)을 통한 소프트 라벨(Soft label)을 학습하도록 하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법.
제1항에 있어서,
상기 학생 손실은 하드 라벨(Hard label)을 학습하도록 하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법.
하나 이상의 프로그램을 저장하는 메모리; 및
상기 저장된 하나 이상의 프로그램을 실행하는 프로세서를 포함하고,
상기 프로세서는, 이미지 분류 데이터로부터 교사 모델(Teacher model)을 학습시키고,
총 CAM 손실(Total class activation map loss), 교사 손실(Teacher loss) 및 학생 손실(Student loss)을 이용하여 교사 보조(Teacher Assistant) 모델을 학습시키고,
상기 학습된 교사 보조 모델로부터 총 CAM 손실, 교사 손실 및 학생 손실을 이용하여 학생(Student) 모델을 학습시키는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치.
제11항에 있어서,
상기 총 CAM 손실은,
상기 교사 모델과 상기 학생 모델로부터 클래스 활성화 맵(Class activation map)을 각 클래스 별로 구한 후 평균 제곱 오차(Mean Squared Error)를 이용해 페어링하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치.
제11항에 있어서,
상기 프로세서는,
상기 교사 모델과 상기 학생 모델로부터 각각의 총 CAM을 생성하고, 상기 생성된 각각의 총 CAM으로부터 평균 제곱 오차(Mean Squared Error)를 총 CAM 손실로 계산하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치.
제13항에 있어서,
상기 프로세서는,
특징 맵에 대해 얻은 확률 값과 클래스에 대한 정보를 이용해 가중치 벡터(Weight vector)로 학습하고, 가중치 벡터와 특징 맵의 선형 합산(linear summation)을 수행하여 총 CAM을 생성하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치.
제14항에 있어서,
상기 프로세서는,
특징 추출기의 마지막 컨볼루션 계층을 거쳐서 특징 맵을 생성하고, 상기 생성된 특징 맵을 GAP(Global Average Pooling)을 수행한 후 소프트맥스(softmax) 함수에 넣어 확률 값을 얻는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치.
제14항에 있어서,
상기 프로세서는,
상기 선형 합산된 결과로부터 클래스 활성화 맵(CAM, Class activation map)을 생성하고, 모든 클래스에 대해 CAM을 합하여 총 CAM을 생성하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치.
제16항에 있어서,
상기 프로세서는,
상기 선형 합산된 결과에 정류 선형 유닛(ReLU, Rectified Linear Unit) 함수를 적용하여 클래스 활성화 맵을 생성하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치.
제16항에 있어서,
상기 프로세서는,
상기 가중치 벡터와 상기 특징 맵의 선형 합산된 결과에서 음수인 부분을 0으로 바꾸는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치.
제11항에 있어서,
상기 교사 손실은 라벨 스무딩(Label smoothing)을 통한 소프트 라벨(Soft label)을 학습하도록 하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치.
제11항에 있어서,
상기 학생 손실은 하드 라벨(Hard label)을 학습하도록 하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치.
프로세서에 의해 실행될 때, 상기 프로세서로 하여금 방법을 실행하게 하는 명령어들을 저장하기 위한 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 방법은:
이미지 분류 데이터로부터 교사 모델(Teacher model)을 학습시키는 단계;
총 CAM 손실(Total class activation map loss), 교사 손실(Teacher loss) 및 학생 손실(Student loss)을 이용하여 교사 보조(Teacher Assistant) 모델을 학습시키는 단계; 및
상기 학습된 교사 보조 모델로부터 총 CAM 손실, 교사 손실 및 학생 손실을 이용하여 학생(Student) 모델을 학습시키는 단계를 포함하는, 비일시적 컴퓨터 판독 가능한 저장 매체.