KR102191351B1 - 지식 증류법 기반 의미론적 영상 분할 방법 - Google Patents
지식 증류법 기반 의미론적 영상 분할 방법 Download PDFInfo
- Publication number
- KR102191351B1 KR102191351B1 KR1020200051719A KR20200051719A KR102191351B1 KR 102191351 B1 KR102191351 B1 KR 102191351B1 KR 1020200051719 A KR1020200051719 A KR 1020200051719A KR 20200051719 A KR20200051719 A KR 20200051719A KR 102191351 B1 KR102191351 B1 KR 102191351B1
- Authority
- KR
- South Korea
- Prior art keywords
- channel
- loss function
- matrix
- correlation matrix
- association
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/695—Preprocessing, e.g. image segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 입력 이미지를 교사 네트워크 및 학생 네트워크에 입력하는 단계, 교사 네트워크의 마지막 레이어의 특징 맵에서 각 픽셀에 대응하는 제1 특징 벡터를 정규화하고, 학생 네트워크의 마지막 레이어의 특징 맵에서 각 픽셀에 대응하는 제2 특징 벡터를 정규화하는 단계, 정규화된 제1 특징 벡터, 정규화된 제2 특징 벡터에 기초하여 제1 채널 및 공간 연관성 매트릭스와 제2 채널 및 공간 연관성 매트릭스를 생성하는 단계 및 제1 채널 및 공간 연관성 매트릭스와 제2 채널 및 공간 연관성 매트릭스 간 차이의 유클리드 노름(Euclidean norm) 값에 기초하여 제1 손실 함수를 정의하는 단계를 포함하는 지식 증류법 기반 의미론적 영상 분할 방법을 제공한다.
Description
본 발명은 지식 증류법 기반의 의미론적 영상 분할 방법에 관한 것이다.
의미론적 영상 분할(semantic segmentation)은 이미지 내 의 객체를 픽셀 단위로 분류하는 알고리즘으로, 영상 분할로 객체의 검출과 분류를 동시에 수행할 수 있는 장점이 있다.
한편, 지식 증류법(knowledge distillation)은 학습된 인공 신경망을 실제 서비스에 적용하기 위해 효과적으로 모델을 압축하여 속도를 향상시키는 네트워크 압축 방법 중 하나이다. 지식 증류법은 교사 네트워크라고 불리는 비교적 성능이 뛰어난 네트워크를 이용하여 학생 네트워크라고 불리는 연산양 및 메모리 사용량이 적은 네트워크를 학습시킬 수 있다. 이때 교사 네트워크의 특징 맵과 학생 네트워크에서 특징 맵을 비교하는 손실 함수를 정의하고, 이를 이용하여 학생 네트워크를 학습시키게 된다.
지식 증류법을 통하여 교사 네트워크는 학생 네트워크에 지식을 전달하기 때문에, 학생 네트워크는 일반적인 역전파(backpropagation) 알고리즘 만을 사용하여 처음부터 학습한 경우보다 높은 인식률을 얻을 수 있게 된다. 이에 따라, 지식 증류법을 의미론적 영상 분할에 적용하는 기술에 관한 연구가 진행 중에 있다.
라벨 간의 연관성과 픽셀 간의 공간적 연관성을 고려한 지식 증류법 기반의 의미론적 영상 분할 방법을 제공함으로써 학생 네트워크의 성능을 향상시키는 방법을 제안하고자 한다.
일 실시예에 따르면, 지식 증류법 기반 의미론적 영상 분할 방법은 입력 이미지를 교사 네트워크 및 학생 네트워크에 입력하는 단계, 교사 네트워크의 마지막 레이어의 특징 맵에서 각 픽셀에 대응하는 제1 특징 벡터를 정규화하고, 학생 네트워크의 마지막 레이어의 특징 맵에서 각 픽셀에 대응하는 제2 특징 벡터를 정규화하는 단계, 정규화된 제1 특징 벡터, 정규화된 제2 특징 벡터에 기초하여 제1 채널 및 공간 연관성 매트릭스와 제2 채널 및 공간 연관성 매트릭스를 생성하는 단계 및 제1 채널 및 공간 연관성 매트릭스와 제2 채널 및 공간 연관성 매트릭스 간 차이의 유클리드 노름(Euclidean norm) 값에 기초하여 제1 손실 함수를 정의하는 단계를 포함할 수 있다.
일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법은 제1 손실 함수 및 크로스 엔트로피 손실 함수를 이용하여 전체 손실 함수를 정의하는 단계와 전체 손실 함수를 이용하여 입력 이미지의 각 픽셀에 대하여 복수개의 라벨 중 하나의 라벨로 결정하는 단계를 더 포함할 수 있다.
일 실시예에 따르면, 전체 손실 함수를 정의하는 단계는 전체 손실 함수를 제1 손실 함수, 제1 손실 함수에 대한 가중치, 크로스 엔트로피 손실 함수 및 크로스 엔트로피 손실 함수에 대한 가중치에 기초하여 정의하는 단계를 포함할 수 있다.
만약 입력 이미지에 대한 라벨의 수가 C 인 경우, 제1 채널 및 공간 연관성 매트릭스를 생성하는 단계는 C 개의 라벨에 대하여, 정규화된 제1 특징 벡터와 정규화된 제1 특징 벡터의 순환 교대된 벡터에 기초하여 제1 채널 연관 벡터를 계산하는 단계, C 개의 라벨에 대한 제1 채널 연관 벡터를 연결 연산(concatenation) 및 재정렬하여 제1 채널 연관성 매트릭스를 계산하는 단계 및 제1 채널 연관성 매트릭스의 상관 매트릭스를 제1 채널 및 공간 연관성 매트릭스로 결정하는 단계를 포함할 수 있다.
또한, 제2 채널 및 공간 연관성 매트릭스를 생성하는 단계는 C 개의 라벨에 대하여, 정규화된 제2 특징 벡터와 정규화된 제2 특징 벡터의 순환 교대된 벡터에 기초하여 제2 채널 연관 벡터를 계산하는 단계, C 개의 라벨에 대한 제2 채널 연관 벡터를 연결 연산(concatenation) 및 재정렬하여 제2 채널 연관성 매트릭스를 계산하는 단계 및 제2 채널 연관성 매트릭스의 상관 매트릭스를 제2 채널 및 공간 연관성 매트릭스로 결정하는 단계를 포함할 수 있다.
여기서 제1 채널 연관 벡터는 C 개의 라벨에 대하여, 정규화된 제1 특징 벡터와 정규화된 제1 특징 벡터의 순환 교대된 벡터를 요소별 곱 연산(element-wise multiplication)하여 결정될 수 있다.
한편, 제1 채널 연관성 매트릭스 및 제2 채널 연관성 매트릭스의 너비는 교사 네트워크의 마지막 레이어의 특징 맵의 너비와 높이를 곱한 값이고, 제1 채널 연관성 매트릭스 및 제2 채널 연관성 매트릭스의 높이는 C의 제곱일 수 있다.
또한, 제1 채널 및 공간 연관성 매트릭스 및 제2 채널 및 공간 연관성 매트릭스의 너비와 높이는 교사 네트워크의 마지막 레이어의 특징 맵의 너비와 높이를 곱한 값일 수 있다.
일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법은 전체 손실 함수를 이용하여 학생 네트워크를 학습시키는 단계를 더 포함할 수 있다.
본 발명은 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 상술된 방법이 수행되는 컴퓨터 프로그램을 저장한 컴퓨터-판독가능 저장 매체를 제공한다.
본 발명에서 개시하고 있는 일 실시예에 따르면, 이미지 내 픽셀 간의 공간적 연관성 뿐만 아니라, 라벨 간의 연관성 정보를 담은 매트릭스를 이용하여 교사 네트워크의 지식을 학생 네트워크에게 전달하기 때문에, 학생 네트워크의 성능을 향상시킬 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따라 전체 손실 함수를 구하는 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따라 채널 연관성 매트릭스를 구하는 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법을 나타낸 흐름도이다.
도 5 내지 도 8은 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법의 성능을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따라 전체 손실 함수를 구하는 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따라 채널 연관성 매트릭스를 구하는 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법을 나타낸 흐름도이다.
도 5 내지 도 8은 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법의 성능을 설명하기 위한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
도 1은 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법을 설명하기 위한 도면이다.
입력 이미지가 교사 네트워크 및 학생 네트워크에 입력되면, 교사 네트워크 및 학생 네트워크는 각각 인코더와 디코더를 거쳐 특징 맵을 출력할 수 있다. 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법은 교사 네트워크 및 학생 네트워크의 특징 맵으로부터 채널 및 공간 연관성 매트릭스를 추출하고, 추출된 채널 및 공간 연관성 매트릭스를 통해 제1 손실 함수를 정의할 수 있다. 이후 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법은 제1 손실 함수에 기초하여 학생 네트워크를 학습시킬 수 있다.
도 2는 본 발명의 일 실시예에 따라 전체 손실 함수를 구하는 과정을 설명하기 위한 도면이다.
본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법은 교사 네트워크의 마지막 레이어의 특징 맵 및 학생 네트워크의 마지막 레이어의 특징 맵을 이용하여 제1 손실 함수를 정의할 수 있다. 구체적으로 본 발명의 일 실시예에 따른 방법은 교사 네트워크에 기초하여 제1 채널 및 공간 연관성 매트릭스를 생성하고, 학생 네트워크에 기초하여 제2 채널 및 공간 연관성 매트릭스를 생성하는데, 각각의 채널 및 공간 연관성 매트릭스를 생성하는 과정은 아래와 같다.
교사 네트워크 또는 학생 네트워크의 마지막 레이어의 특징 맵을 z라 정의하면 z는 의 크기를 가지는 매트릭스가 된다. 여기서 W는 특징 맵의 너비, H는 특징 맵의 높이를 나타낸다. 그리고 C는 특징 맵의 채널 수를 의미하며, 이는 입력 이미지의 각 픽셀과 대응할 수 있는 라벨의 수와 동일하다.
본 발명의 일 실시예에 따른 방법은 채널 간의 연관성과 공간적 연관성을 유지한 교사 네트워크의 특징 맵을 학생 네트워크에게 전달하기 위해, 채널 및 공간 연관성 매트릭스 S를 계산하여야 한다.
이를 위해, 먼저 입력 이미지 내에서 각 위치 (i, j)에 대한 각 특징 벡터 는 아래 수학식 1을 통해 정규화를 하여 각 위치 (i, j)에 대한 정규화된 특징 벡터 를 얻을 수 있다.
[수학식 1]
여기서, 는 유클리드 노름(L2-norm) 연산을 의미한다. 각 특징 맵의 공간 위치 (i, j)에서 채널 간 연관성을 구하기 위해, 채널 연관 벡터 는 다음의 수학식 2와 같이 정의된다.
[수학식 2]
여기서, 는 원본 벡터 를 s-1 만큼 순환 교대(circular shift)를 한 벡터를 의미하고 는 요소별 곱 연산(element-wise multiplication)을 의미한다. C개의 다른 벡터를 연결하여, 채널 연관성 벡터 를 다음의 수학식 3과 같이 얻을 수 있다.
[수학식 3]
도 3을 참고하면, 제1 채널 연관 벡터 u1(310)는 정규화된 특징 벡터 f와 정규화된 특징 벡터가 1만큼 순환 교대된 벡터 f1를 요소별 곱 연산하여 구할 수 있다. 이러한 연산을 채널의 수 만큼 수행하면, C개의 채널 연관 벡터(u1 내지 uC)를 구할 수 있다. 이때 각 채널 연관 벡터는 us(i, j)∈RCⅩHⅩW의 크기를 갖는다. 이후 각 채널 연관 벡터를 모두 연결 연산하면 채널 연관성 벡터 u를 구할 수 있고, 채널 연관성 벡터 u를 재정렬하면 채널 간 연관성 매트릭스 M을 얻을 수 있다.
[수학식 4]
한편, 교사 네트워크의 특징 맵 및 수학식 1 내지 수학식 4에 기초하여, 제1 채널 및 공간 연관성 매트릭스 S t 를 구할 수 있고, 학생 네트워크의 특징 맵 및 수학식 1 내지 수학식 4에 기초하여, 제2 채널 및 공간 연관성 매트릭스 S s 를 구할 수 있고, M T 은 채널 간 연관성 매트릭스 M의 전치 행렬이다.
본 발명의 일 실시예에 따른 제1 손실함수 lCSC는 제1 채널 및 공간 연관성 매트릭스 S t 및 제2 채널 및 공간 연관성 매트릭스 S s 에 기초하여 수학식 5와 같이 정의된다.
[수학식 5]
여기서, 는 교사 네트워크로부터 획득된 제1 채널 및 공간 연관성 매트릭스의 (x, y)번째 요소 값을 의미하고, 는 학생 네트워크로부터 획득된 제2 채널 및 공간 연관성 매트릭스의 (x, y)번째 요소 값을 의미한다.
한편 학생 네트워크를 학습하기 위한 전체 손실함수는 다음의 수학식 6과 같다.
[수학식 6]
여기서 는 제1 손실함수의 가중치를 의미하고, lCE 및 는 각각 일반적인 크로스 엔트로피 손실함수 및 일반적인 크로스 엔트로피 손실함수의 가중치를 의미한다. 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법은 전체 손실 함수에 기초하여 학생 네트워크를 학습시킬 수 있다.
도 4는 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법을 나타낸 흐름도이다.
본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법은 410 단계에서, 입력 이미지를 교사 네트워크 및 학생 네트워크에 입력할 수 있다.
420 단계에서, 교사 네트워크의 마지막 레이어의 특징 맵에서 각 픽셀에 대응하는 제1 특징 벡터를 정규화하고, 학생 네트워크의 마지막 레이어의 특징 맵에서 각 픽셀에 대응하는 제2 특징 벡터를 정규화할 수 있다.
430 단계에서, 정규화된 제1 특징 벡터, 정규화된 제2 특징 벡터에 기초하여 제1 채널 및 공간 연관성 매트릭스와 제2 채널 및 공간 연관성 매트릭스를 생성할 수 있다.
만약 입력 이미지에 대한 라벨의 수가 C 인 경우, 430 단계에서 제1 채널 및 공간 연관성 매트릭스를 생성하는 것은 C 개의 라벨에 대하여, 정규화된 제1 특징 벡터와 정규화된 제1 특징 벡터의 순환 교대된 벡터에 기초하여 제1 채널 연관 벡터를 계산하는 단계, C 개의 라벨에 대한 제1 채널 연관 벡터를 연결 연산(concatenation) 및 재정렬하여 제1 채널 연관성 매트릭스를 계산하는 단계 및 제1 채널 연관성 매트릭스의 상관 매트릭스를 제1 채널 및 공간 연관성 매트릭스로 결정하는 단계를 포함할 수 있다.
여기서 제1 채널 연관 벡터는 C 개의 라벨에 대하여, 정규화된 제1 특징 벡터와 정규화된 제1 특징 벡터의 순환 교대된 벡터를 요소별 곱 연산(element-wise multiplication)하여 결정될 수 있다.
또한, 430 단계에서 제2 채널 및 공간 연관성 매트릭스를 생성하는 것은 C 개의 라벨에 대하여, 정규화된 제2 특징 벡터와 정규화된 제2 특징 벡터의 순환 교대된 벡터에 기초하여 제2 채널 연관 벡터를 계산하는 단계, C 개의 라벨에 대한 제2 채널 연관 벡터를 연결 연산(concatenation) 및 재정렬하여 제2 채널 연관성 매트릭스를 계산하는 단계 및 제2 채널 연관성 매트릭스의 상관 매트릭스를 제2 채널 및 공간 연관성 매트릭스로 결정하는 단계를 포함할 수 있다.
한편, 제1 채널 연관성 매트릭스 및 제2 채널 연관성 매트릭스의 너비는 교사 네트워크의 마지막 레이어의 특징 맵의 너비와 높이를 곱한 값이고, 제1 채널 연관성 매트릭스 및 제2 채널 연관성 매트릭스의 높이는 C의 제곱일 수 있다.
또한, 제1 채널 및 공간 연관성 매트릭스 및 제2 채널 및 공간 연관성 매트릭스의 너비와 높이는 교사 네트워크의 마지막 레이어의 특징 맵의 너비와 높이를 곱한 값일 수 있다.
440 단계에서, 제1 채널 및 공간 연관성 매트릭스와 제2 채널 및 공간 연관성 매트릭스 간 차이의 유클리드 노름(Euclidean norm) 값에 기초하여 제1 손실 함수를 정의할 수 있다.
또한 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법은 제1 손실 함수 및 크로스 엔트로피 손실 함수를 이용하여 전체 손실 함수를 정의하는 단계와 전체 손실 함수를 이용하여 입력 이미지의 각 픽셀에 대하여 복수개의 라벨 중 하나의 라벨로 결정하는 단계를 더 포함할 수 있다.
한편, 전체 손실 함수를 정의하는 단계는 전체 손실 함수를 제1 손실 함수, 제1 손실 함수에 대한 가중치, 크로스 엔트로피 손실 함수 및 크로스 엔트로피 손실 함수에 대한 가중치에 기초하여 정의하는 단계를 포함할 수 있다.
또한 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법은 전체 손실 함수를 이용하여 학생 네트워크를 학습시키는 단계를 더 포함할 수 있다.
도 5 내지 도 8은 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법의 성능을 설명하기 위한 도면이다.
본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법의 성능을 검증하기 위한 실험에서, 교사 네트워크는 Deeplab-V3+ 구조를 활용하였고, 교사 네트워크의 인코더는 Xception65를 사용하였다. 또한, 학생 네트워크의 인코더로서 Resnet34를 사용하였다.
실험 데이터 셋으로는 Cityscapes 및 Camvid 이미지가 활용되었다. Cityscapes의 경우, 라벨의 수는 총 19개이고 훈련 데이터는 2,975개, 검증 데이터는 500개, 테스트 데이터는 1,525개였다. Camvid의 경우, 라벨의 수는 총 12개이고 훈련 데이터는 367개, 검증 데이터는 101개, 테스트 데이터는 233개였다.
도 5는 Cityscapes 이미지가 입력된 경우, Resnet34를 학생 네트워크의 인코더로 활용한 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법의 예측 정확도를 설명하기 위한 표이다.
도 5를 참고하면, 검증 데이터, 훈련 데이터 및 시험 데이터에 대하여 메모리 사용량 및 연산량이 큰 교사 네트워크의 예측 정확도가 가장 높은 것을 확인할 수 있다. 또한, 기존의 Resnet34 인코더를 활용한 학생 네트워크에 일반적인 크로스 엔트로피 손실 함수를 적용한 경우(Resnet34(CE))에 비하여, 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법의 예측 정확도(Resnet34(CSC+CE))가 더 높은 것을 확인할 수 있다.
도 6은 Cityscapes 이미지가 입력된 경우, Resnet34를 학생 네트워크의 인코더로 활용한 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법의 결과를 설명하기 위한 도면이다.
도 6의 (a)는 라벨을 설명하기 위한 것으로 총 19개의 라벨이 다른 색상으로 표시된 것을 확인할 수 있다. 도 6의 (b)는 각각 입력 이미지, 교사 네트워크의 라벨링 결과, GT, 학생 네트워크의 종래 크로스 엔트로피 손실 함수를 이용한 경우의 라벨링 결과를 나타낸다. 도 6의 (c)는 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법을 적용한 경우, 학생 네트워크의 라벨링 결과를 도시한 것이다.
도 6의 (b) 및 (c)를 참고하면, 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법을 적용한 경우의 라벨링 결과는, 교사 네트워크의 라벨링 결과보다는 정확도가 낮지만, 종래의 학생 네트워크의 라벨링 결과보다는 정확도가 향상된 것을 확인할 수 있다.
도 7은 Camvid 이미지가 입력된 경우, Resnet34를 학생 네트워크의 인코더로 활용한 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법의 예측 정확도를 설명하기 위한 표이다.
도 5와 마찬가지로, 검증 데이터, 훈련 데이터 및 시험 데이터에 대하여 메모리 사용량 및 연산량이 큰 교사 네트워크의 예측 정확도가 가장 높은 것을 확인할 수 있다. 또한, 기존의 Resnet34 인코더를 활용한 학생 네트워크에 일반적인 크로스 엔트로피 손실 함수를 적용한 경우(Resnet34(CE))에 비하여, 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법의 예측 정확도(Resnet34(CSC+CE))가 더 높은 것을 확인할 수 있다.
도 8은 Camvid 이미지가 입력된 경우, Resnet34를 학생 네트워크의 인코더로 활용한 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법의 결과를 설명하기 위한 도면이다.
도 8의 (a)는 라벨을 설명하기 위한 것으로 총 12개의 라벨이 다른 색상으로 표시된 것을 확인할 수 있다. 도 8의 (b)는 각각 입력 이미지, 교사 네트워크의 라벨링 결과, GT, 학생 네트워크의 종래 크로스 엔트로피 손실 함수를 이용한 경우의 라벨링 결과를 나타낸다. 도 8의 (c)는 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법을 적용한 경우, 학생 네트워크의 라벨링 결과를 도시한 것이다.
도 8 역시 도 6과 마찬가지로 본 발명의 일 실시예에 따른 지식 증류법 기반 의미론적 영상 분할 방법을 적용한 경우의 라벨링 결과는, 교사 네트워크의 라벨링 결과보다는 정확도가 낮지만, 종래의 학생 네트워크의 라벨링 결과보다는 정확도가 향상된 것을 확인할 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 사람이라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 실행된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
Claims (9)
- 입력 이미지를 교사 네트워크 및 학생 네트워크에 입력하는 단계;
상기 교사 네트워크의 마지막 레이어의 특징 맵에서 각 픽셀에 대응하는 제1 특징 벡터를 정규화하고, 상기 학생 네트워크의 마지막 레이어의 특징 맵에서 각 픽셀에 대응하는 제2 특징 벡터를 정규화하는 단계;
상기 정규화된 제1 특징 벡터, 상기 정규화된 제2 특징 벡터에 기초하여 제1 채널 및 공간 연관성 매트릭스와 제2 채널 및 공간 연관성 매트릭스를 생성하는 단계; 및
상기 제1 채널 및 공간 연관성 매트릭스와 상기 제2 채널 및 공간 연관성 매트릭스 간 차이의 유클리드 노름(Euclidean norm) 값에 기초하여 제1 손실 함수를 정의하는 단계를 포함하고,
상기 입력 이미지에 대한 라벨의 수가 C 인 경우,
상기 제1 채널 및 공간 연관성 매트릭스를 생성하는 단계는
상기 C 개의 라벨에 대하여, 상기 정규화된 제1 특징 벡터와 상기 정규화된 제1 특징 벡터의 순환 교대된 벡터에 기초하여 제1 채널 연관 벡터를 계산하는 단계;
상기 C 개의 라벨에 대한 제1 채널 연관 벡터를 연결 연산(concatenation) 및 재정렬하여 제1 채널 연관성 매트릭스를 계산하는 단계; 및
상기 제1 채널 연관성 매트릭스의 상관 매트릭스를 제1 채널 및 공간 연관성 매트릭스로 결정하는 단계를 포함하는, 지식 증류법 기반 의미론적 영상 분할 방법. - 제1항에 있어서,
상기 제1 손실 함수 및 크로스 엔트로피 손실 함수를 이용하여 전체 손실 함수를 정의하는 단계; 및
상기 전체 손실 함수를 이용하여 상기 입력 이미지의 각 픽셀에 대하여 복수개의 라벨 중 하나의 라벨로 결정하는 단계를 더 포함하는 것을 특징으로 하는, 지식 증류법 기반 의미론적 영상 분할 방법. - 제2항에 있어서,
상기 전체 손실 함수를 정의하는 단계는
상기 전체 손실 함수를 상기 제1 손실 함수, 상기 제1 손실 함수에 대한 가중치, 상기 크로스 엔트로피 손실 함수 및 상기 크로스 엔트로피 손실 함수에 대한 가중치에 기초하여 정의하는 단계를 포함하는 것을 특징으로 하는 것인, 지식 증류법 기반 의미론적 영상 분할 방법. - 제2항에 있어서,
상기 전체 손실 함수를 이용하여 상기 학생 네트워크를 학습시키는 단계를 더 포함하는 것을 특징으로 하는, 지식 증류법 기반 의미론적 영상 분할 방법. - 삭제
- 제1항에 있어서,
상기 제2 채널 및 공간 연관성 매트릭스를 생성하는 단계는
상기 C 개의 라벨에 대하여, 상기 정규화된 제2 특징 벡터와 상기 정규화된 제2 특징 벡터의 순환 교대된 벡터에 기초하여 제2 채널 연관 벡터를 계산하는 단계;
상기 C 개의 라벨에 대한 제2 채널 연관 벡터를 연결 연산(concatenation) 및 재정렬하여 제2 채널 연관성 매트릭스를 계산하는 단계; 및
상기 제2 채널 연관성 매트릭스의 상관 매트릭스를 제2 채널 및 공간 연관성 매트릭스로 결정하는 단계를 포함하는 것을 특징으로 하는, 지식 증류법 기반 의미론적 영상 분할 방법. - 제1항에 있어서,
상기 제1 채널 연관 벡터는
상기 C 개의 라벨에 대하여, 상기 정규화된 제1 특징 벡터와 상기 정규화된 제1 특징 벡터의 순환 교대된 벡터를 요소별 곱 연산(element-wise multiplication)하여 결정되는 것을 특징으로 하는, 지식 증류법 기반 의미론적 영상 분할 방법. - 제1항에 있어서,
상기 제1 채널 연관성 매트릭스 및 상기 제2 채널 연관성 매트릭스의 너비는 상기 교사 네트워크의 마지막 레이어의 특징 맵의 너비와 높이를 곱한 값이고,
상기 제1 채널 연관성 매트릭스 및 상기 제2 채널 연관성 매트릭스의 높이는 상기 C의 제곱인 것을 특징으로 하는 것인, 지식 증류법 기반 의미론적 영상 분할 방법. - 제1항에 있어서,
상기 제1 채널 및 공간 연관성 매트릭스 및 상기 제2 채널 및 공간 연관성 매트릭스의 너비와 높이는 상기 교사 네트워크의 마지막 레이어의 특징 맵의 너비와 높이를 곱한 값인 것을 특징으로 하는 것인, 지식 증류법 기반 의미론적 영상 분할 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200051719A KR102191351B1 (ko) | 2020-04-28 | 2020-04-28 | 지식 증류법 기반 의미론적 영상 분할 방법 |
US17/222,055 US11756202B2 (en) | 2020-04-28 | 2021-04-05 | Method for semantic segmentation based on knowledge distillation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200051719A KR102191351B1 (ko) | 2020-04-28 | 2020-04-28 | 지식 증류법 기반 의미론적 영상 분할 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102191351B1 true KR102191351B1 (ko) | 2020-12-15 |
Family
ID=73780252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200051719A KR102191351B1 (ko) | 2020-04-28 | 2020-04-28 | 지식 증류법 기반 의미론적 영상 분할 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11756202B2 (ko) |
KR (1) | KR102191351B1 (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819050A (zh) * | 2021-01-22 | 2021-05-18 | 北京市商汤科技开发有限公司 | 知识蒸馏和图像处理方法、装置、电子设备和存储介质 |
CN113378712A (zh) * | 2021-06-10 | 2021-09-10 | 北京百度网讯科技有限公司 | 物体检测模型的训练方法、图像检测方法及其装置 |
CN114648638A (zh) * | 2022-04-02 | 2022-06-21 | 北京百度网讯科技有限公司 | 语义分割模型的训练方法、语义分割方法与装置 |
CN115496941A (zh) * | 2022-09-19 | 2022-12-20 | 哈尔滨工业大学 | 基于知识增强计算机视觉的结构健康诊断方法 |
CN115908823A (zh) * | 2023-03-09 | 2023-04-04 | 南京航空航天大学 | 一种基于难度蒸馏的语义分割方法 |
KR102542220B1 (ko) * | 2022-09-19 | 2023-06-13 | 아주대학교 산학협력단 | 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114267062B (zh) * | 2021-12-07 | 2022-12-16 | 合肥的卢深视科技有限公司 | 人脸解析模型的训练方法、电子设备和存储介质 |
CN115033896B (zh) * | 2022-08-15 | 2022-11-08 | 鹏城实验室 | 以太坊智能合约漏洞检测方法、装置、系统与介质 |
CN115294407B (zh) * | 2022-09-30 | 2023-01-03 | 山东大学 | 基于预习机制知识蒸馏的模型压缩方法及系统 |
CN115908253A (zh) * | 2022-10-18 | 2023-04-04 | 中科(黑龙江)数字经济研究院有限公司 | 一种基于知识蒸馏的跨域医学影像分割方法及装置 |
WO2024108382A1 (en) * | 2022-11-22 | 2024-05-30 | Intel Corporation | Methods and apparatus to perform many-to-one feature distillation in neural networks |
CN115546492B (zh) * | 2022-11-30 | 2023-03-10 | 苏州浪潮智能科技有限公司 | 一种图像实例分割方法、系统、设备以及存储介质 |
CN117058437B (zh) * | 2023-06-16 | 2024-03-08 | 江苏大学 | 一种基于知识蒸馏的花卉分类方法、系统、设备及介质 |
CN116797794B (zh) * | 2023-07-10 | 2024-06-18 | 北京透彻未来科技有限公司 | 基于深度学习的肠癌病理分型系统 |
CN118365685B (zh) * | 2024-06-20 | 2024-08-16 | 阿米华晟数据科技(江苏)有限公司 | 一种可见光与红外图像的配准融合的训练方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170034258A (ko) * | 2015-09-18 | 2017-03-28 | 삼성전자주식회사 | 모델 학습 방법 및 장치, 및 데이터 인식 방법 |
KR20180096473A (ko) * | 2017-02-21 | 2018-08-29 | 한국과학기술원 | 정보의 질을 높이기 위한 정보 공유 기반 정보 이전 방법 및 그 장치 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11410029B2 (en) * | 2018-01-02 | 2022-08-09 | International Business Machines Corporation | Soft label generation for knowledge distillation |
-
2020
- 2020-04-28 KR KR1020200051719A patent/KR102191351B1/ko active IP Right Grant
-
2021
- 2021-04-05 US US17/222,055 patent/US11756202B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170034258A (ko) * | 2015-09-18 | 2017-03-28 | 삼성전자주식회사 | 모델 학습 방법 및 장치, 및 데이터 인식 방법 |
KR20180096473A (ko) * | 2017-02-21 | 2018-08-29 | 한국과학기술원 | 정보의 질을 높이기 위한 정보 공유 기반 정보 이전 방법 및 그 장치 |
Non-Patent Citations (3)
Title |
---|
Jiafeng Xie 등. Improving Fast Segmentation With Teacher-student Learning, arXiv:1810.08476v1. (2018.10.19.)* * |
Jun Fu 등. Dual Attention Network for Scene Segmentation, arXiv:1809.02983v4. (2019.04.21.)* * |
Sanghyun Woo 등. CBAM: Convolutional Block Attention Module, arXiv:1807.06521v2.(2018.07.18.)* * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819050A (zh) * | 2021-01-22 | 2021-05-18 | 北京市商汤科技开发有限公司 | 知识蒸馏和图像处理方法、装置、电子设备和存储介质 |
CN112819050B (zh) * | 2021-01-22 | 2023-10-27 | 北京市商汤科技开发有限公司 | 知识蒸馏和图像处理方法、装置、电子设备和存储介质 |
CN113378712A (zh) * | 2021-06-10 | 2021-09-10 | 北京百度网讯科技有限公司 | 物体检测模型的训练方法、图像检测方法及其装置 |
CN113378712B (zh) * | 2021-06-10 | 2023-07-04 | 北京百度网讯科技有限公司 | 物体检测模型的训练方法、图像检测方法及其装置 |
CN114648638A (zh) * | 2022-04-02 | 2022-06-21 | 北京百度网讯科技有限公司 | 语义分割模型的训练方法、语义分割方法与装置 |
CN115496941A (zh) * | 2022-09-19 | 2022-12-20 | 哈尔滨工业大学 | 基于知识增强计算机视觉的结构健康诊断方法 |
KR102542220B1 (ko) * | 2022-09-19 | 2023-06-13 | 아주대학교 산학협력단 | 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치 |
CN115496941B (zh) * | 2022-09-19 | 2024-01-09 | 哈尔滨工业大学 | 基于知识增强计算机视觉的结构健康诊断方法 |
CN115908823A (zh) * | 2023-03-09 | 2023-04-04 | 南京航空航天大学 | 一种基于难度蒸馏的语义分割方法 |
Also Published As
Publication number | Publication date |
---|---|
US11756202B2 (en) | 2023-09-12 |
US20210334543A1 (en) | 2021-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102191351B1 (ko) | 지식 증류법 기반 의미론적 영상 분할 방법 | |
CN111291183B (zh) | 利用文本分类模型进行分类预测的方法及装置 | |
US20210319232A1 (en) | Temporally distributed neural networks for video semantic segmentation | |
KR102225579B1 (ko) | 학습성능이 향상된 지식 증류법 기반 의미론적 영상 분할 방법 | |
Thai et al. | Image classification using support vector machine and artificial neural network | |
JP7150840B2 (ja) | ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体 | |
CN110598603A (zh) | 人脸识别模型获取方法、装置、设备和介质 | |
CN111368850B (zh) | 图像的特征提取、目标检测方法及装置、卷积装置、cnn网络装置、终端 | |
CN111612024A (zh) | 特征提取方法、装置、电子设备及计算机可读存储介质 | |
KR20210071471A (ko) | 뉴럴 네트워크의 행렬 곱셈 연산을 수행하는 장치 및 방법 | |
CN110852295A (zh) | 一种基于多任务监督学习的视频行为识别方法 | |
CN117033609A (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
Huynh et al. | Joint age estimation and gender classification of Asian faces using wide ResNet | |
CN111444957B (zh) | 图像数据处理方法、装置、计算机设备和存储介质 | |
CN114329148A (zh) | 内容信息识别方法、装置、计算机设备和存储介质 | |
CN114764870A (zh) | 对象定位模型处理、对象定位方法、装置及计算机设备 | |
CN117830537A (zh) | 一种弱监督的3d场景图生成方法、装置、设备及介质 | |
CN114330514A (zh) | 一种基于深度特征与梯度信息的数据重建方法及系统 | |
CN113361656A (zh) | 一种特征模型的生成方法、系统、设备及存储介质 | |
WO2021147084A1 (en) | Systems and methods for emotion recognition in user-generated video(ugv) | |
CN110717068B (zh) | 一种基于深度学习的视频检索方法 | |
CN111914809A (zh) | 目标对象定位方法、图像处理方法、装置和计算机设备 | |
CN112528077A (zh) | 基于视频嵌入的视频人脸检索方法及系统 | |
US20200311901A1 (en) | Classifying panoramic images | |
CN112949672A (zh) | 商品识别方法、装置、设备以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |