KR102191351B1

KR102191351B1 - 지식 증류법 기반 의미론적 영상 분할 방법

Info

Publication number: KR102191351B1
Application number: KR1020200051719A
Authority: KR
Inventors: 허용석; 박상용
Original assignee: 아주대학교산학협력단
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-12-15
Also published as: US11756202B2; US20210334543A1

Abstract

본 발명은 입력 이미지를 교사 네트워크 및 학생 네트워크에 입력하는 단계, 교사 네트워크의 마지막 레이어의 특징 맵에서 각 픽셀에 대응하는 제1 특징 벡터를 정규화하고, 학생 네트워크의 마지막 레이어의 특징 맵에서 각 픽셀에 대응하는 제2 특징 벡터를 정규화하는 단계, 정규화된 제1 특징 벡터, 정규화된 제2 특징 벡터에 기초하여 제1 채널 및 공간 연관성 매트릭스와 제2 채널 및 공간 연관성 매트릭스를 생성하는 단계 및 제1 채널 및 공간 연관성 매트릭스와 제2 채널 및 공간 연관성 매트릭스 간 차이의 유클리드 노름(Euclidean norm) 값에 기초하여 제1 손실 함수를 정의하는 단계를 포함하는 지식 증류법 기반 의미론적 영상 분할 방법을 제공한다.

Description

지식 증류법 기반 의미론적 영상 분할 방법{METHOD FOR SEMANTIC SEGMENTATION BASED ON KNOWLEDGE DISTILLATION}

본 발명은 지식 증류법 기반의 의미론적 영상 분할 방법에 관한 것이다.

의미론적 영상 분할(semantic segmentation)은 이미지 내 의 객체를 픽셀 단위로 분류하는 알고리즘으로, 영상 분할로 객체의 검출과 분류를 동시에 수행할 수 있는 장점이 있다.

한편, 지식 증류법(knowledge distillation)은 학습된 인공 신경망을 실제 서비스에 적용하기 위해 효과적으로 모델을 압축하여 속도를 향상시키는 네트워크 압축 방법 중 하나이다. 지식 증류법은 교사 네트워크라고 불리는 비교적 성능이 뛰어난 네트워크를 이용하여 학생 네트워크라고 불리는 연산양 및 메모리 사용량이 적은 네트워크를 학습시킬 수 있다. 이때 교사 네트워크의 특징 맵과 학생 네트워크에서 특징 맵을 비교하는 손실 함수를 정의하고, 이를 이용하여 학생 네트워크를 학습시키게 된다.

지식 증류법을 통하여 교사 네트워크는 학생 네트워크에 지식을 전달하기 때문에, 학생 네트워크는 일반적인 역전파(backpropagation) 알고리즘 만을 사용하여 처음부터 학습한 경우보다 높은 인식률을 얻을 수 있게 된다. 이에 따라, 지식 증류법을 의미론적 영상 분할에 적용하는 기술에 관한 연구가 진행 중에 있다.

라벨 간의 연관성과 픽셀 간의 공간적 연관성을 고려한 지식 증류법 기반의 의미론적 영상 분할 방법을 제공함으로써 학생 네트워크의 성능을 향상시키는 방법을 제안하고자 한다.

일 실시예에 따르면, 지식 증류법 기반 의미론적 영상 분할 방법은 입력 이미지를 교사 네트워크 및 학생 네트워크에 입력하는 단계, 교사 네트워크의 마지막 레이어의 특징 맵에서 각 픽셀에 대응하는 제1 특징 벡터를 정규화하고, 학생 네트워크의 마지막 레이어의 특징 맵에서 각 픽셀에 대응하는 제2 특징 벡터를 정규화하는 단계, 정규화된 제1 특징 벡터, 정규화된 제2 특징 벡터에 기초하여 제1 채널 및 공간 연관성 매트릭스와 제2 채널 및 공간 연관성 매트릭스를 생성하는 단계 및 제1 채널 및 공간 연관성 매트릭스와 제2 채널 및 공간 연관성 매트릭스 간 차이의 유클리드 노름(Euclidean norm) 값에 기초하여 제1 손실 함수를 정의하는 단계를 포함할 수 있다.

일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법은 제1 손실 함수 및 크로스 엔트로피 손실 함수를 이용하여 전체 손실 함수를 정의하는 단계와 전체 손실 함수를 이용하여 입력 이미지의 각 픽셀에 대하여 복수개의 라벨 중 하나의 라벨로 결정하는 단계를 더 포함할 수 있다.

일 실시예에 따르면, 전체 손실 함수를 정의하는 단계는 전체 손실 함수를 제1 손실 함수, 제1 손실 함수에 대한 가중치, 크로스 엔트로피 손실 함수 및 크로스 엔트로피 손실 함수에 대한 가중치에 기초하여 정의하는 단계를 포함할 수 있다.

만약 입력 이미지에 대한 라벨의 수가 C 인 경우, 제1 채널 및 공간 연관성 매트릭스를 생성하는 단계는 C 개의 라벨에 대하여, 정규화된 제1 특징 벡터와 정규화된 제1 특징 벡터의 순환 교대된 벡터에 기초하여 제1 채널 연관 벡터를 계산하는 단계, C 개의 라벨에 대한 제1 채널 연관 벡터를 연결 연산(concatenation) 및 재정렬하여 제1 채널 연관성 매트릭스를 계산하는 단계 및 제1 채널 연관성 매트릭스의 상관 매트릭스를 제1 채널 및 공간 연관성 매트릭스로 결정하는 단계를 포함할 수 있다.

또한, 제2 채널 및 공간 연관성 매트릭스를 생성하는 단계는 C 개의 라벨에 대하여, 정규화된 제2 특징 벡터와 정규화된 제2 특징 벡터의 순환 교대된 벡터에 기초하여 제2 채널 연관 벡터를 계산하는 단계, C 개의 라벨에 대한 제2 채널 연관 벡터를 연결 연산(concatenation) 및 재정렬하여 제2 채널 연관성 매트릭스를 계산하는 단계 및 제2 채널 연관성 매트릭스의 상관 매트릭스를 제2 채널 및 공간 연관성 매트릭스로 결정하는 단계를 포함할 수 있다.

여기서 제1 채널 연관 벡터는 C 개의 라벨에 대하여, 정규화된 제1 특징 벡터와 정규화된 제1 특징 벡터의 순환 교대된 벡터를 요소별 곱 연산(element-wise multiplication)하여 결정될 수 있다.

한편, 제1 채널 연관성 매트릭스 및 제2 채널 연관성 매트릭스의 너비는 교사 네트워크의 마지막 레이어의 특징 맵의 너비와 높이를 곱한 값이고, 제1 채널 연관성 매트릭스 및 제2 채널 연관성 매트릭스의 높이는 C의 제곱일 수 있다.

또한, 제1 채널 및 공간 연관성 매트릭스 및 제2 채널 및 공간 연관성 매트릭스의 너비와 높이는 교사 네트워크의 마지막 레이어의 특징 맵의 너비와 높이를 곱한 값일 수 있다.

일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법은 전체 손실 함수를 이용하여 학생 네트워크를 학습시키는 단계를 더 포함할 수 있다.

본 발명은 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 상술된 방법이 수행되는 컴퓨터 프로그램을 저장한 컴퓨터-판독가능 저장 매체를 제공한다.

본 발명에서 개시하고 있는 일 실시예에 따르면, 이미지 내 픽셀 간의 공간적 연관성 뿐만 아니라, 라벨 간의 연관성 정보를 담은 매트릭스를 이용하여 교사 네트워크의 지식을 학생 네트워크에게 전달하기 때문에, 학생 네트워크의 성능을 향상시킬 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따라 전체 손실 함수를 구하는 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따라 채널 연관성 매트릭스를 구하는 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법을 나타낸 흐름도이다.
도 5 내지 도 8은 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법의 성능을 설명하기 위한 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

도 1은 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법을 설명하기 위한 도면이다.

입력 이미지가 교사 네트워크 및 학생 네트워크에 입력되면, 교사 네트워크 및 학생 네트워크는 각각 인코더와 디코더를 거쳐 특징 맵을 출력할 수 있다. 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법은 교사 네트워크 및 학생 네트워크의 특징 맵으로부터 채널 및 공간 연관성 매트릭스를 추출하고, 추출된 채널 및 공간 연관성 매트릭스를 통해 제1 손실 함수를 정의할 수 있다. 이후 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법은 제1 손실 함수에 기초하여 학생 네트워크를 학습시킬 수 있다.

도 2는 본 발명의 일 실시예에 따라 전체 손실 함수를 구하는 과정을 설명하기 위한 도면이다.

본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법은 교사 네트워크의 마지막 레이어의 특징 맵 및 학생 네트워크의 마지막 레이어의 특징 맵을 이용하여 제1 손실 함수를 정의할 수 있다. 구체적으로 본 발명의 일 실시예에 따른 방법은 교사 네트워크에 기초하여 제1 채널 및 공간 연관성 매트릭스를 생성하고, 학생 네트워크에 기초하여 제2 채널 및 공간 연관성 매트릭스를 생성하는데, 각각의 채널 및 공간 연관성 매트릭스를 생성하는 과정은 아래와 같다.

교사 네트워크 또는 학생 네트워크의 마지막 레이어의 특징 맵을 z라 정의하면 z는

의 크기를 가지는 매트릭스가 된다. 여기서 W는 특징 맵의 너비, H는 특징 맵의 높이를 나타낸다. 그리고 C는 특징 맵의 채널 수를 의미하며, 이는 입력 이미지의 각 픽셀과 대응할 수 있는 라벨의 수와 동일하다.

본 발명의 일 실시예에 따른 방법은 채널 간의 연관성과 공간적 연관성을 유지한 교사 네트워크의 특징 맵을 학생 네트워크에게 전달하기 위해, 채널 및 공간 연관성 매트릭스 S를 계산하여야 한다.

이를 위해, 먼저 입력 이미지 내에서 각 위치 (i, j)에 대한 각 특징 벡터

는 아래 수학식 1을 통해 정규화를 하여 각 위치 (i, j)에 대한 정규화된 특징 벡터

를 얻을 수 있다.

[수학식 1]

여기서,

는 유클리드 노름(L2-norm) 연산을 의미한다. 각 특징 맵의 공간 위치 (i, j)에서 채널 간 연관성을 구하기 위해, 채널 연관 벡터

는 다음의 수학식 2와 같이 정의된다.

[수학식 2]

여기서,

는 원본 벡터

를 s-1 만큼 순환 교대(circular shift)를 한 벡터를 의미하고

는 요소별 곱 연산(element-wise multiplication)을 의미한다. C개의 다른

벡터를 연결하여, 채널 연관성 벡터

를 다음의 수학식 3과 같이 얻을 수 있다.

[수학식 3]

여기서,

은 연결 연산(concatenation)을 의미한다.

그 후, 채널 간 연관성을 가진 벡터 전체를 재정렬을 통해, 2차원인 채널 간 연관성 매트릭스

를 얻을 수 있다.

채널 연관 벡터

, 채널 연관성 벡터 u(i, j) 및 채널 간 연관성 매트릭스 M을 구하는 방법은 도 3에 도시되어 있다.

도 3을 참고하면, 제1 채널 연관 벡터 u₁(310)는 정규화된 특징 벡터 f와 정규화된 특징 벡터가 1만큼 순환 교대된 벡터 f₁를 요소별 곱 연산하여 구할 수 있다. 이러한 연산을 채널의 수 만큼 수행하면, C개의 채널 연관 벡터(u₁ 내지 u_C)를 구할 수 있다. 이때 각 채널 연관 벡터는 u_s(i, j)∈R^CⅩHⅩW의 크기를 갖는다. 이후 각 채널 연관 벡터를 모두 연결 연산하면 채널 연관성 벡터 u를 구할 수 있고, 채널 연관성 벡터 u를 재정렬하면 채널 간 연관성 매트릭스 M을 얻을 수 있다.

다시 도 2를 참고하면, 채널 간 연관성 매트릭스 M을 이용하여 수학식 4와 같이 2 차원 채널 및 공간 연관성 매트릭스

를 얻을 수 있다.

[수학식 4]

한편, 교사 네트워크의 특징 맵 및 수학식 1 내지 수학식 4에 기초하여, 제1 채널 및 공간 연관성 매트릭스 S ^t 를 구할 수 있고, 학생 네트워크의 특징 맵 및 수학식 1 내지 수학식 4에 기초하여, 제2 채널 및 공간 연관성 매트릭스 S ^s 를 구할 수 있고, M ^T 은 채널 간 연관성 매트릭스 M의 전치 행렬이다.

본 발명의 일 실시예에 따른 제1 손실함수 l_CSC는 제1 채널 및 공간 연관성 매트릭스 S ^t 및 제2 채널 및 공간 연관성 매트릭스 S ^s 에 기초하여 수학식 5와 같이 정의된다.

[수학식 5]

여기서,

는 교사 네트워크로부터 획득된 제1 채널 및 공간 연관성 매트릭스의 (x, y)번째 요소 값을 의미하고,

는 학생 네트워크로부터 획득된 제2 채널 및 공간 연관성 매트릭스의 (x, y)번째 요소 값을 의미한다.

한편 학생 네트워크를 학습하기 위한 전체 손실함수는 다음의 수학식 6과 같다.

[수학식 6]

여기서

는 제1 손실함수의 가중치를 의미하고, l_CE 및

는 각각 일반적인 크로스 엔트로피 손실함수 및 일반적인 크로스 엔트로피 손실함수의 가중치를 의미한다. 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법은 전체 손실 함수에 기초하여 학생 네트워크를 학습시킬 수 있다.

도 4는 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법을 나타낸 흐름도이다.

본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법은 410 단계에서, 입력 이미지를 교사 네트워크 및 학생 네트워크에 입력할 수 있다.

420 단계에서, 교사 네트워크의 마지막 레이어의 특징 맵에서 각 픽셀에 대응하는 제1 특징 벡터를 정규화하고, 학생 네트워크의 마지막 레이어의 특징 맵에서 각 픽셀에 대응하는 제2 특징 벡터를 정규화할 수 있다.

430 단계에서, 정규화된 제1 특징 벡터, 정규화된 제2 특징 벡터에 기초하여 제1 채널 및 공간 연관성 매트릭스와 제2 채널 및 공간 연관성 매트릭스를 생성할 수 있다.

만약 입력 이미지에 대한 라벨의 수가 C 인 경우, 430 단계에서 제1 채널 및 공간 연관성 매트릭스를 생성하는 것은 C 개의 라벨에 대하여, 정규화된 제1 특징 벡터와 정규화된 제1 특징 벡터의 순환 교대된 벡터에 기초하여 제1 채널 연관 벡터를 계산하는 단계, C 개의 라벨에 대한 제1 채널 연관 벡터를 연결 연산(concatenation) 및 재정렬하여 제1 채널 연관성 매트릭스를 계산하는 단계 및 제1 채널 연관성 매트릭스의 상관 매트릭스를 제1 채널 및 공간 연관성 매트릭스로 결정하는 단계를 포함할 수 있다.

또한, 430 단계에서 제2 채널 및 공간 연관성 매트릭스를 생성하는 것은 C 개의 라벨에 대하여, 정규화된 제2 특징 벡터와 정규화된 제2 특징 벡터의 순환 교대된 벡터에 기초하여 제2 채널 연관 벡터를 계산하는 단계, C 개의 라벨에 대한 제2 채널 연관 벡터를 연결 연산(concatenation) 및 재정렬하여 제2 채널 연관성 매트릭스를 계산하는 단계 및 제2 채널 연관성 매트릭스의 상관 매트릭스를 제2 채널 및 공간 연관성 매트릭스로 결정하는 단계를 포함할 수 있다.

440 단계에서, 제1 채널 및 공간 연관성 매트릭스와 제2 채널 및 공간 연관성 매트릭스 간 차이의 유클리드 노름(Euclidean norm) 값에 기초하여 제1 손실 함수를 정의할 수 있다.

또한 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법은 제1 손실 함수 및 크로스 엔트로피 손실 함수를 이용하여 전체 손실 함수를 정의하는 단계와 전체 손실 함수를 이용하여 입력 이미지의 각 픽셀에 대하여 복수개의 라벨 중 하나의 라벨로 결정하는 단계를 더 포함할 수 있다.

한편, 전체 손실 함수를 정의하는 단계는 전체 손실 함수를 제1 손실 함수, 제1 손실 함수에 대한 가중치, 크로스 엔트로피 손실 함수 및 크로스 엔트로피 손실 함수에 대한 가중치에 기초하여 정의하는 단계를 포함할 수 있다.

또한 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법은 전체 손실 함수를 이용하여 학생 네트워크를 학습시키는 단계를 더 포함할 수 있다.

도 5 내지 도 8은 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법의 성능을 설명하기 위한 도면이다.

본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법의 성능을 검증하기 위한 실험에서, 교사 네트워크는 Deeplab-V3+ 구조를 활용하였고, 교사 네트워크의 인코더는 Xception65를 사용하였다. 또한, 학생 네트워크의 인코더로서 Resnet34를 사용하였다.

실험 데이터 셋으로는 Cityscapes 및 Camvid 이미지가 활용되었다. Cityscapes의 경우, 라벨의 수는 총 19개이고 훈련 데이터는 2,975개, 검증 데이터는 500개, 테스트 데이터는 1,525개였다. Camvid의 경우, 라벨의 수는 총 12개이고 훈련 데이터는 367개, 검증 데이터는 101개, 테스트 데이터는 233개였다.

도 5는 Cityscapes 이미지가 입력된 경우, Resnet34를 학생 네트워크의 인코더로 활용한 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법의 예측 정확도를 설명하기 위한 표이다.

도 5를 참고하면, 검증 데이터, 훈련 데이터 및 시험 데이터에 대하여 메모리 사용량 및 연산량이 큰 교사 네트워크의 예측 정확도가 가장 높은 것을 확인할 수 있다. 또한, 기존의 Resnet34 인코더를 활용한 학생 네트워크에 일반적인 크로스 엔트로피 손실 함수를 적용한 경우(Resnet34(CE))에 비하여, 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법의 예측 정확도(Resnet34(CSC+CE))가 더 높은 것을 확인할 수 있다.

도 6은 Cityscapes 이미지가 입력된 경우, Resnet34를 학생 네트워크의 인코더로 활용한 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법의 결과를 설명하기 위한 도면이다.

도 6의 (a)는 라벨을 설명하기 위한 것으로 총 19개의 라벨이 다른 색상으로 표시된 것을 확인할 수 있다. 도 6의 (b)는 각각 입력 이미지, 교사 네트워크의 라벨링 결과, GT, 학생 네트워크의 종래 크로스 엔트로피 손실 함수를 이용한 경우의 라벨링 결과를 나타낸다. 도 6의 (c)는 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법을 적용한 경우, 학생 네트워크의 라벨링 결과를 도시한 것이다.

도 6의 (b) 및 (c)를 참고하면, 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법을 적용한 경우의 라벨링 결과는, 교사 네트워크의 라벨링 결과보다는 정확도가 낮지만, 종래의 학생 네트워크의 라벨링 결과보다는 정확도가 향상된 것을 확인할 수 있다.

도 7은 Camvid 이미지가 입력된 경우, Resnet34를 학생 네트워크의 인코더로 활용한 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법의 예측 정확도를 설명하기 위한 표이다.

도 5와 마찬가지로, 검증 데이터, 훈련 데이터 및 시험 데이터에 대하여 메모리 사용량 및 연산량이 큰 교사 네트워크의 예측 정확도가 가장 높은 것을 확인할 수 있다. 또한, 기존의 Resnet34 인코더를 활용한 학생 네트워크에 일반적인 크로스 엔트로피 손실 함수를 적용한 경우(Resnet34(CE))에 비하여, 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법의 예측 정확도(Resnet34(CSC+CE))가 더 높은 것을 확인할 수 있다.

도 8은 Camvid 이미지가 입력된 경우, Resnet34를 학생 네트워크의 인코더로 활용한 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법의 결과를 설명하기 위한 도면이다.

도 8의 (a)는 라벨을 설명하기 위한 것으로 총 12개의 라벨이 다른 색상으로 표시된 것을 확인할 수 있다. 도 8의 (b)는 각각 입력 이미지, 교사 네트워크의 라벨링 결과, GT, 학생 네트워크의 종래 크로스 엔트로피 손실 함수를 이용한 경우의 라벨링 결과를 나타낸다. 도 8의 (c)는 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법을 적용한 경우, 학생 네트워크의 라벨링 결과를 도시한 것이다.

도 8 역시 도 6과 마찬가지로 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법을 적용한 경우의 라벨링 결과는, 교사 네트워크의 라벨링 결과보다는 정확도가 낮지만, 종래의 학생 네트워크의 라벨링 결과보다는 정확도가 향상된 것을 확인할 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 사람이라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 실행된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

입력 이미지를 교사 네트워크 및 학생 네트워크에 입력하는 단계;
상기 교사 네트워크의 마지막 레이어의 특징 맵에서 각 픽셀에 대응하는 제1 특징 벡터를 정규화하고, 상기 학생 네트워크의 마지막 레이어의 특징 맵에서 각 픽셀에 대응하는 제2 특징 벡터를 정규화하는 단계;
상기 정규화된 제1 특징 벡터, 상기 정규화된 제2 특징 벡터에 기초하여 제1 채널 및 공간 연관성 매트릭스와 제2 채널 및 공간 연관성 매트릭스를 생성하는 단계; 및
상기 제1 채널 및 공간 연관성 매트릭스와 상기 제2 채널 및 공간 연관성 매트릭스 간 차이의 유클리드 노름(Euclidean norm) 값에 기초하여 제1 손실 함수를 정의하는 단계를 포함하고,
상기 입력 이미지에 대한 라벨의 수가 C 인 경우,
상기 제1 채널 및 공간 연관성 매트릭스를 생성하는 단계는
상기 C 개의 라벨에 대하여, 상기 정규화된 제1 특징 벡터와 상기 정규화된 제1 특징 벡터의 순환 교대된 벡터에 기초하여 제1 채널 연관 벡터를 계산하는 단계;
상기 C 개의 라벨에 대한 제1 채널 연관 벡터를 연결 연산(concatenation) 및 재정렬하여 제1 채널 연관성 매트릭스를 계산하는 단계; 및
상기 제1 채널 연관성 매트릭스의 상관 매트릭스를 제1 채널 및 공간 연관성 매트릭스로 결정하는 단계를 포함하는, 지식 증류법 기반 의미론적 영상 분할 방법.
제1항에 있어서,
상기 제1 손실 함수 및 크로스 엔트로피 손실 함수를 이용하여 전체 손실 함수를 정의하는 단계; 및
상기 전체 손실 함수를 이용하여 상기 입력 이미지의 각 픽셀에 대하여 복수개의 라벨 중 하나의 라벨로 결정하는 단계를 더 포함하는 것을 특징으로 하는, 지식 증류법 기반 의미론적 영상 분할 방법.
제2항에 있어서,
상기 전체 손실 함수를 정의하는 단계는
상기 전체 손실 함수를 상기 제1 손실 함수, 상기 제1 손실 함수에 대한 가중치, 상기 크로스 엔트로피 손실 함수 및 상기 크로스 엔트로피 손실 함수에 대한 가중치에 기초하여 정의하는 단계를 포함하는 것을 특징으로 하는 것인, 지식 증류법 기반 의미론적 영상 분할 방법.
제2항에 있어서,
상기 전체 손실 함수를 이용하여 상기 학생 네트워크를 학습시키는 단계를 더 포함하는 것을 특징으로 하는, 지식 증류법 기반 의미론적 영상 분할 방법.
삭제
제1항에 있어서,
상기 제2 채널 및 공간 연관성 매트릭스를 생성하는 단계는
상기 C 개의 라벨에 대하여, 상기 정규화된 제2 특징 벡터와 상기 정규화된 제2 특징 벡터의 순환 교대된 벡터에 기초하여 제2 채널 연관 벡터를 계산하는 단계;
상기 C 개의 라벨에 대한 제2 채널 연관 벡터를 연결 연산(concatenation) 및 재정렬하여 제2 채널 연관성 매트릭스를 계산하는 단계; 및
상기 제2 채널 연관성 매트릭스의 상관 매트릭스를 제2 채널 및 공간 연관성 매트릭스로 결정하는 단계를 포함하는 것을 특징으로 하는, 지식 증류법 기반 의미론적 영상 분할 방법.
제1항에 있어서,
상기 제1 채널 연관 벡터는
상기 C 개의 라벨에 대하여, 상기 정규화된 제1 특징 벡터와 상기 정규화된 제1 특징 벡터의 순환 교대된 벡터를 요소별 곱 연산(element-wise multiplication)하여 결정되는 것을 특징으로 하는, 지식 증류법 기반 의미론적 영상 분할 방법.
제1항에 있어서,
상기 제1 채널 연관성 매트릭스 및 상기 제2 채널 연관성 매트릭스의 너비는 상기 교사 네트워크의 마지막 레이어의 특징 맵의 너비와 높이를 곱한 값이고,
상기 제1 채널 연관성 매트릭스 및 상기 제2 채널 연관성 매트릭스의 높이는 상기 C의 제곱인 것을 특징으로 하는 것인, 지식 증류법 기반 의미론적 영상 분할 방법.
제1항에 있어서,
상기 제1 채널 및 공간 연관성 매트릭스 및 상기 제2 채널 및 공간 연관성 매트릭스의 너비와 높이는 상기 교사 네트워크의 마지막 레이어의 특징 맵의 너비와 높이를 곱한 값인 것을 특징으로 하는 것인, 지식 증류법 기반 의미론적 영상 분할 방법.