KR102542220B1 - 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치 - Google Patents
자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치 Download PDFInfo
- Publication number
- KR102542220B1 KR102542220B1 KR1020220117885A KR20220117885A KR102542220B1 KR 102542220 B1 KR102542220 B1 KR 102542220B1 KR 1020220117885 A KR1020220117885 A KR 1020220117885A KR 20220117885 A KR20220117885 A KR 20220117885A KR 102542220 B1 KR102542220 B1 KR 102542220B1
- Authority
- KR
- South Korea
- Prior art keywords
- matrix
- mask
- self
- probability distribution
- knowledge distillation
- Prior art date
Links
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000011218 segmentation Effects 0.000 title claims description 18
- 239000011159 matrix material Substances 0.000 claims abstract description 92
- 238000009826 distribution Methods 0.000 claims abstract description 52
- 238000003709 image segmentation Methods 0.000 claims abstract description 48
- 238000009499 grossing Methods 0.000 claims abstract description 28
- 239000000284 extract Substances 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000007786 learning performance Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 230000000116 mitigating effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000001485 positron annihilation lifetime spectroscopy Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
자가 지식 증류법 기반 의미론적 영상 분할 방법은 입력 이미지로부터 특징맵 및 로지츠 계층을 추출하는 단계, 상기 특징맵에 기초하여 연관성 매트릭스를 생성하는 단계, Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 단계, 상기 로지츠 계층에 기초하여 X 매트릭스를 생성하는 단계, Ground Truth로부터 마스크A 및 마스크B를 생성하는 단계, 상기 X 매트릭스, 마스크A, 마스크B, 및 정규화된 상기 연관성 매트릭스에 기초하여 제1 확률 분포를 산출하는 단계, 및 상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계를 포함할 수 있다.
Description
본 발명은 지식 증류법 기반 의미론적 영상 분할에 관한 것으로, 보다 상세하게는 제한된 라벨링 데이터에 대한 자가 지식 증류를 통한 픽셀 단위 적응 라벨 평활화를 사용한 의미론적 분할 방법 및 장치에 관한 것이다.
의미론적 영상 분할(semantic segmentation)은 이미지 내의 객체를 픽셀 단위로 분류하는 알고리즘으로, 영상분할로 객체의 검출과 분류를 동시에 수행할 수 있는 장점이 있다.
한편, 지식 증류법(knowledge distillation)은 학습된 인공 신경망을 실제 서비스에 적용하기 위해 효과적으로 모델을 압축하여 속도를 향상시키는 네트워크 압축 방법 중 하나이다.
지식 증류법은 교사 네트워크라고 불리는 비교적 성능이 뛰어난 네트워크를 이용하여 학생 네트워크라고 불리는 연산양 및 메모리 사용량이 적은 네트워크를 학습시킬 수 있다. 이때 교사 네트워크의 특징 맵과 학생 네트워크에서 특징 맵을 비교하는 손실 함수를 정의하고, 이를 이용하여 학생 네트워크를 학습시키게 된다.
지식 증류법을 통하여 교사 네트워크는 학생 네트워크에 지식을 전달하기 때문에, 학생 네트워크는 일반적인 역전파(backpropagation) 알고리즘 만을 사용하여 처음부터 학습한 경우보다 높은 인식률을 얻을 수 있게 된다. 이에 따라, 지식 증류법을 의미론적 영상 분할에 적용하는 기술이 주목받고 있다.
한편, 지식 증류법을 의미론적 영상 분할에 적용하는 경우, 교사 네트워크 및 학생 네트워크의 구분 없이, 영역 분할 네트워크에서 맞은 픽셀을 기준으로 스스로 의미론적 영상 분할 모델에 대한 학습을 수행하는 자가 지식 증류법(Self-Knowledge Distillation)에 대한 연구가 진행 중에 있다.
본 발명의 일 목적은 예측 확률 분포를 변형시켜 라벨 평활화 소프트 라벨을 산출하는 데 소요되는 노력, 시간, 비용을 최소화하는 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 장치를 제공하는 것이다.
본 발명의 다른 목적은 제한된 데이터만을 사용하는 경우에도, 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용함으로써 부족한 학습 데이터에 대한 오버피팅을 완화하고, 학습 성능을 향상시키는 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 장치를 제공하는 것이다.
다만, 본 발명이 해결하고자 하는 과제는 상기 언급된 과제에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있을 것이다.
본 발명의 일 목적을 달성하기 위하여, 본 발명의 실시예들에 따른 자가 지식 증류법 기반 의미론적 영상 분할 방법은 입력 이미지로부터 특징맵 및 로지츠 계층을 추출하는 단계, 상기 특징맵에 기초하여 연관성 매트릭스를 생성하는 단계, Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 단계, 상기 로지츠 계층에 기초하여 X 매트릭스를 생성하는 단계, Ground Truth로부터 마스크A 및 마스크B를 생성하는 단계, 상기 X 매트릭스, 상기 마스크A, 상기 마스크B, 및 정규화된 상기 연관성 매트릭스에 기초하여 제1 확률 분포를 산출하는 단계, 및 상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계를 포함할 수 있다.
일 실시예에서, 상기 특징맵에 기초하여 연관성 매트릭스를 생성하는 단계는 아래 [수식1]을 이용하여, 상기 특징맵의 특징점을 리쉐이프(reshape)한 ER 및 상기 ER을 트랜스포스(transpose)한 의 행렬 곱셈으로 상기 연관성 매트릭스를 생성할 수 있다.
[수식1]
일 실시예에서, 상기 Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 단계는 상기 연관성 매트릭스에 softmax 함수를 적용함으로써, 상기 연관성 매트릭스의 각 열벡터의 합이 1이 되도록 정규화 할 수 있다.
일 실시예에서, 상기 로지츠 계층에 기초하여 X 매트릭스를 생성하는 단계는 상기 로지츠 계층에 Softmax 함수를 적용하고, Softmax 함수가 적용된 상기 로지츠 계층을 리쉐이프(reshape)함으로써, 상기 X 매트릭스를 생성할 수 있다.
일 실시예에서, 상기 Ground Truth로부터 마스크A 및 마스크B를 생성하는 단계는 상기 Ground Truth의 같은 클래스에 대한 상기 마스크A 및 예측한 결과에 따른 상기 Ground Truth의 맞은 픽셀을 구분하는 상기 마스크B를 생성할 수 있다.
일 실시예에서, 상기 X 매트릭스, 상기 마스크A, 상기 마스크B, 및 정규화된 상기 연관성 매트릭스에 기초하여 제1 확률 분포를 산출하는 단계는 상기 X 매트릭스, 상기 마스크A, 및 상기 마스크B의 성분 곱에 정규화된 상기 연관성 매트릭스를 행렬 곱셈하고, 업 샘플링을 수행함으로써 상기 제1 확률 분포를 산출할 수 있다.
일 실시예에서, 상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계는 아래 [수식4]를 이용하여, 상기 제1 확률 분포의 틀린 픽셀 수를 개선한 제2 확률 분포()를 산출할 수 있다.
[수식4]
일 실시예에서, 상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계는 아래 [수식5]를 이용하여, 상기 라벨 평활화 소프트 라벨을 산출할 수 있다.
[수식5]
본 발명의 다른 목적을 달성하기 위하여, 본 발명의 실시예들에 따른 자가 지식 증류법 기반 의미론적 영상 분할 장치는 입력 이미지로부터 특징맵 및 로지츠 계층을 추출하는 영역 분할 네트워크, 상기 특징맵에 기초하여 연관성 매트릭스를 생성하고, Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 연관성 매트릭스 생성부, 상기 로지츠 계층에 기초하여 X 매트릭스를 생성하고, Ground Truth로부터 마스크A 및 마스크B를 생성하는 PA 모듈, 및 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 정답 라벨 산출부를 포함할 수 있다. 상기 PA 모듈은 상기 X 매트릭스, 상기 마스크A, 및 상기 마스크B의 성분 곱에 정규화된 상기 연관성 매트릭스를 행렬 곱셈하고, 업 샘플링을 수행함으로써 상기 제1 확률 분포를 산출할 수 있다.
본 발명의 실시예들에 따른 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 장치는 예측 확률 분포를 변형시켜 라벨 평활화 소프트 라벨을 산출하는 데 소요되는 노력, 시간, 비용을 최소화할 수 있다.
또한, 본 발명의 실시예들에 따른 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 장치는 제한된 데이터만을 사용하는 경우에도, 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용함으로써 부족한 학습 데이터에 대한 오버피팅을 완화하고, 학습 성능을 향상시킬 수 있다.
다만, 본 발명의 효과는 상술한 효과에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있을 것이다.
도 1은 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법의 알고리즘 구조를 나타내는 개념도이다.
도 2는 도 1의 자가 지식 증류법 기반 의미론적 영상 분할 방법의 과정을 나타내는 순서도이다.
도 3은 자가 지식 증류법 기반 의미론적 영상 분할 방법의 구체적인 알고리즘 동작을 나타내는 도면이다.
도 4는 PA 모듈의 세부 동작을 나타내는 상세히 설명하기 위한 도면이다.
도 2는 도 1의 자가 지식 증류법 기반 의미론적 영상 분할 방법의 과정을 나타내는 순서도이다.
도 3은 자가 지식 증류법 기반 의미론적 영상 분할 방법의 구체적인 알고리즘 동작을 나타내는 도면이다.
도 4는 PA 모듈의 세부 동작을 나타내는 상세히 설명하기 위한 도면이다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.
본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들면 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들면 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법의 알고리즘 구조를 나타내는 개념도이다.
기존의 지식 증류법을 통하여 교사 네트워크는 학생 네트워크에 지식을 전달하며, 학생 네트워크는 일반적인 역전파(backpropagation) 알고리즘 만을 사용하여 처음부터 학습한 경우보다 높은 인식률을 얻을 수 있게 된다. 이와 같은 높은 인식률에 기반하여, 지식 증류법은 의미론적 영상 분할에 적용될 수 있다.
도 1에서 보듯이, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 지식 증류법을 의미론적 영상 분할에 적용하는 경우, 교사 네트워크 및 학생 네트워크의 구분 없이, 자가 지식 증류법(Self-Knowledge Distillation)을 이용하여 특정 네트워크에서 맞은 픽셀을 기준으로 스스로 의미론적 영상 분할 모델에 대한 학습을 수행할 수 있다.
구체적으로, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 입력 이미지를 입력받고, 영역 분할 네트워크를 통해 특징맵(E) 및 로지츠 계층(Z)을 추출할 수 있다.
예를 들어, 특징맵(E)은 상기 영역 분할 네트워크의 마지막에서 두번째 레이어 일 수 있다. 또한, 로지츠 계층(Z)은 상기 영역 분할 네트워크의 마지막 레이어 값일 수 있다. 여기서, 특징맵(E) 및 로지츠 계층(Z)은 PALS 모듈에 입력될 수 있다.
PALS 모듈은 특징맵(E) 및 로지츠 계층(Z)에 기초하여 입력 이미지에서 맞은 픽셀을 기준으로 예측 확률 분포를 산출하고, 예측 확률 분포를 기초로 정답 라벨을 산출할 수 있다.
이와 같은 정답 라벨 산출 매커니즘을 통해, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 예측 확률 분포를 변형시켜 라벨 평활화 소프트 라벨(P)을 산출하는 데 소요되는 노력, 시간, 비용을 최소화할 수 있다.
또한, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 제한된 데이터만을 사용하는 경우에도, 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용함으로써 부족한 학습 데이터에 대한 오버피팅을 완화하고, 학습 성능을 향상시킬 수 있다.
도 2는 도 1의 자가 지식 증류법 기반 의미론적 영상 분할 방법의 과정을 나타내는 순서도이고, 도 3은 자가 지식 증류법 기반 의미론적 영상 분할 방법의 구체적인 알고리즘 동작을 나타내는 도면이며, 도 4는 PA 모듈의 세부 동작을 나타내는 상세히 설명하기 위한 도면이다.
도 2 및 3을 참조하면, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 입력 이미지로부터 특징맵(E) 및 로지츠 계층(Z)을 추출하는 단계(S100), 상기 특징맵(E)에 기초하여 연관성 매트릭스(S)를 생성하는 단계(S200), Softmax 함수를 이용하여 상기 연관성 매트릭스(S)를 정규화하는 단계(S300), 상기 로지츠 계층(Z)에 기초하여 X 매트릭스(X)를 생성하는 단계(S400), Ground Truth로부터 마스크A 및 마스크B를 생성하는 단계(S500), 상기 X 매트릭스(X), 마스크A, 마스크B, 및 정규화된 상기 연관성 매트릭스(S)에 기초하여 제1 확률 분포(Q)를 산출하는 단계(S600), 및 상기 제1 확률 분포(Q)에 기초하여 라벨 평활화 소프트 라벨(P)을 산출하는 단계(S700)를 포함할 수 있다.
일 실시예에서, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 입력 이미지로부터 특징맵(E) 및 로지츠 계층(Z)을 추출(S100)할 수 있다.
영역 분할 네트워크는 입력 이미지를 입력받고, 입력 이미지에 대한 딥러닝 학습을 수행할 수 있다. 예를 들어, 영역 분할 네트워크는 입력 이미지에 대한 딥러닝 학습 과정에서 복수의 레이어를 생성할 수 있다.
예를 들어, 특징맵(E)은 상기 영역 분할 네트워크의 마지막에서 두번째 레이어 일 수 있다.
예를 들어, 로지츠 계층(Z)은 상기 영역 분할 네트워크의 마지막 레이어 값일 수 있다.
일 실시예에서, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 상기 특징맵(E)에 기초하여 연관성 매트릭스(S)를 생성(S200)하고, Softmax 함수를 이용하여 상기 연관성 매트릭스(S)를 정규화(S300)할 수 있다.
구체적으로, 상기 연관성 매트릭스(S)는 아래 [수식1]을 이용하여 생성될 수 있다.
[수식1]
연관성 매트릭스(S)를 활용해 새로운 확률 분포를 생성하기 위해, 연관성 매트릭스(S)는 정규화(normalize)될 수 있다.
예를 들어, 연관성 매트릭스(S)는 각 열벡터를 합이 1이 되도록 정규화 될 수 있다. 이 때, 연관성 매트릭스(S)에 softmax 함수가 적용됨으로써, 정규화가 수행될 수 있다.
정규화된 연관성 매트릭스(Snorm)는 아래 [수식2]와 같이 표현될 수 있다.
[수식2]
일 실시예에서, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 상기 로지츠 계층(Z)에 기초하여 X 매트릭스(X)를 생성(S400)할 수 있다.
X 매트릭스(X)는 로지츠 계층(Z)에 Softmax 함수를 적용하고, Softmax 함수가 적용된 로지츠 계층(Z)을 리쉐이프(reshape)한 매트릭스일 수 있다.
X 매트릭스(X)는 각 픽셀에 대한 확률 분포의 정보를 포함할 수 있다.
일 실시예에서, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 Ground Truth로부터 마스크A 및 마스크B를 생성(S500)할 수 있다.
예를 들어, 마스크A는 Ground Truth의 같은 클래스에 대한 마스크일 수 있다.
예를 들어, 마스크B는 예측한 결과에 따른 Ground Truth의 맞은 픽셀을 구분하는 마스크일 수 있다.
즉, 마스크A 및 마스크B를 이용하면, 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용할 수 있다.
일 실시예에서, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 상기 X 매트릭스(X), 마스크A, 마스크B, 및 정규화된 상기 연관성 매트릭스(Snorm)에 기초하여 제1 확률 분포(Q)를 산출(S600)할 수 있다.
제1 확률 분포(Q)는 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용한 융합된 확률 분포일 수 있다.
제1 확률 분포(Q)는 X 매트릭스(X), 마스크A, 및 마스크B의 성분 곱에 정규화된 연관성 매트릭스(S)를 행렬 곱셈하고, 업 샘플링을 수행함으로써 산출될 수 있다.
구체적으로, 제1 확률 분포(Q)는 아래 [수식3]과 같이 산출될 수 있다.
[수식3]
여기서 연산은 성분 곱셈을 의미하고, 연산은 행렬 곱셈을 의미할 수 있다. 또한, 연산은 업 샘플링(up sampling) 연산으로, 입력 이미지와 같은 크기로 만드는 샘플링 연산을 의미할 수 있다.
일 실시예에서, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 상기 제1 확률 분포(Q)에 기초하여 라벨 평활화 소프트 라벨(P)을 산출하는 단계(S700)를 포함할 수 있다.
라벨 평활화 소프트 라벨(P)을 산출할 때, 제1 확률 분포(Q)만을 사용하는 경우, 학습 초반에 틀린 픽셀이 많을 수 있기 때문에, 이를 보완할 필요가 있다.
예를 들어, 라벨 평활화 소프트 라벨(P)을 산출하기 위하여, 제1 확률 분포(Q)에 대한 균등 분포(uniform distribution)를 활용할 수 있다.
예를 들어, 제2 확률 분포는 의 크기를 가질 수 있다.
제2 확률 분포는 아래 [수식4]와 같이 산출될 수 있다.
[수식4]
또한, 는 제1 확률 분포(Q)와 균등 분포(uniform distribution)의 가중치 팩터(weight factor)를 의미하며, 이는 전체 학습 이터레이션(iteration) 수(T)와 현재 학습 이터레이션(iteration) 의 비율로 결정될 수 있다.
라벨 평활화 소프트 라벨(P)은 아래 [수식5]와 같이 산출될 수 있다.
[수식5]
이와 같이, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 예측 확률 분포를 변형시켜 라벨 평활화 소프트 라벨(P)을 산출하는 데 소요되는 노력, 시간, 비용을 최소화할 수 있다.
이와 같이, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 예측 확률 분포를 변형시켜 라벨 평활화 소프트 라벨(P)을 산출하는 데 소요되는 노력, 시간, 비용을 최소화할 수 있다.
또한, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 제한된 데이터만을 사용하는 경우에도, 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용함으로써 부족한 학습 데이터에 대한 오버피팅을 완화하고, 학습 성능을 향상시킬 수 있다.
본 발명의 다른 실시예들에 따른 자가 지식 증류법 기반 의미론적 영상 분할 장치는 영역 분할 네트워크, 연관성 매트릭스(S) 생성부, PA 모듈, 및 정답 라벨 산출부를 포함할 수 있다.
구체적으로, 자가 지식 증류법 기반 의미론적 영상 분할 장치는 입력 이미지로부터 특징맵(E) 및 로지츠 계층(Z)을 추출하는 영역 분할 네트워크, 상기 특징맵(E)에 기초하여 연관성 매트릭스(S)를 생성하고, Softmax 함수를 이용하여 상기 연관성 매트릭스(S)를 정규화하는 연관성 매트릭스(S) 생성부, 상기 로지츠 계층(Z)에 기초하여 X 매트릭스(X)를 생성하고, Ground Truth로부터 마스크A 및 마스크B를 생성하는 PA 모듈, 및 제1 확률 분포(Q)에 기초하여 라벨 평활화 소프트 라벨(P)을 산출하는 정답 라벨 산출부를 포함할 수 있다.
여기서, 상기 PA 모듈은 상기 X 매트릭스(X), 상기 마스크A, 및 상기 마스크B의 성분 곱에 정규화된 상기 연관성 매트릭스(S)를 행렬 곱셈하고, 업 샘플링을 수행함으로써 상기 제1 확률 분포(Q)를 산출할 수 있다.
본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 장치는 예측 확률 분포를 변형시켜 라벨 평활화 소프트 라벨(P)을 산출하는 데 소요되는 노력, 시간, 비용을 최소화할 수 있다.
또한, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 장치는 제한된 데이터만을 사용하는 경우에도, 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용함으로써 부족한 학습 데이터에 대한 오버피팅을 완화하고, 학습 성능을 향상시킬 수 있다.
다만, 이에 대해서는 상술한 바 있으므로, 그에 대한 중복되는 설명은 생략하기로 한다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
E: 특징맵
Z: 로지츠 계층
S: 연관성 매트릭스
X: X 매트릭스
Q: 제1 확률 분포
P: 라벨 평활화 소프트 라벨
Z: 로지츠 계층
S: 연관성 매트릭스
X: X 매트릭스
Q: 제1 확률 분포
P: 라벨 평활화 소프트 라벨
Claims (9)
- 입력 이미지로부터 특징맵 및 로지츠 계층을 추출하는 단계;
상기 특징맵에 기초하여 연관성 매트릭스를 생성하는 단계;
Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 단계;
상기 로지츠 계층에 기초하여 X 매트릭스를 생성하는 단계;
Ground Truth로부터 마스크A 및 마스크B를 생성하는 단계;
상기 X 매트릭스, 상기 마스크A, 상기 마스크B, 및 정규화된 상기 연관성 매트릭스에 기초하여 제1 확률 분포를 산출하는 단계; 및
상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계를 포함하는,
자가 지식 증류법 기반 의미론적 영상 분할 방법. - 제1항에 있어서,
상기 Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 단계는,
상기 연관성 매트릭스에 softmax 함수를 적용함으로써, 상기 연관성 매트릭스의 각 열벡터의 합이 1이 되도록 정규화하는 것을 특징으로 하는,
자가 지식 증류법 기반 의미론적 영상 분할 방법. - 제1항에 있어서,
상기 로지츠 계층에 기초하여 X 매트릭스를 생성하는 단계는,
상기 로지츠 계층에 Softmax 함수를 적용하고, Softmax 함수가 적용된 상기 로지츠 계층을 리쉐이프(reshape)함으로써, 상기 X 매트릭스를 생성하는 것을 특징으로 하는,
자가 지식 증류법 기반 의미론적 영상 분할 방법. - 제1항에 있어서,
상기 Ground Truth로부터 마스크A 및 마스크B를 생성하는 단계는,
상기 Ground Truth의 같은 클래스에 대한 상기 마스크A 및 예측한 결과에 따른 상기 Ground Truth의 맞은 픽셀을 구분하는 상기 마스크B를 생성하는 것을 특징으로 하는,
자가 지식 증류법 기반 의미론적 영상 분할 방법. - 제1항에 있어서,
상기 X 매트릭스, 상기 마스크A, 상기 마스크B, 및 정규화된 상기 연관성 매트릭스에 기초하여 제1 확률 분포를 산출하는 단계는,
상기 X 매트릭스, 상기 마스크A, 및 상기 마스크B의 성분 곱에 정규화된 상기 연관성 매트릭스를 행렬 곱셈하고, 업 샘플링을 수행함으로써 상기 제1 확률 분포를 산출하는 것을 특징으로 하는,
자가 지식 증류법 기반 의미론적 영상 분할 방법. - 입력 이미지로부터 특징맵 및 로지츠 계층을 추출하는 영역 분할 네트워크;
상기 특징맵에 기초하여 연관성 매트릭스를 생성하고, Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 연관성 매트릭스 생성부;
상기 로지츠 계층에 기초하여 X 매트릭스를 생성하고, Ground Truth로부터 마스크A 및 마스크B를 생성하는 PA 모듈; 및
제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 정답 라벨 산출부를 포함하고,
상기 PA 모듈은,
상기 X 매트릭스, 상기 마스크A, 및 상기 마스크B의 성분 곱에 정규화된 상기 연관성 매트릭스를 행렬 곱셈하고, 업 샘플링을 수행함으로써 상기 제1 확률 분포를 산출하는 것을 특징으로 하는,
자가 지식 증류법 기반 의미론적 영상 분할 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220117885A KR102542220B1 (ko) | 2022-09-19 | 2022-09-19 | 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220117885A KR102542220B1 (ko) | 2022-09-19 | 2022-09-19 | 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102542220B1 true KR102542220B1 (ko) | 2023-06-13 |
Family
ID=86762458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220117885A KR102542220B1 (ko) | 2022-09-19 | 2022-09-19 | 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102542220B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117875313A (zh) * | 2024-03-12 | 2024-04-12 | 长沙市智为信息技术有限公司 | 一种中文语法纠错方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200057849A (ko) * | 2018-11-15 | 2020-05-27 | 삼성전자주식회사 | 영상의 리타겟팅을 위한 영상 처리 장치 및 방법 |
KR102191351B1 (ko) * | 2020-04-28 | 2020-12-15 | 아주대학교산학협력단 | 지식 증류법 기반 의미론적 영상 분할 방법 |
KR102225579B1 (ko) * | 2020-05-14 | 2021-03-10 | 아주대학교산학협력단 | 학습성능이 향상된 지식 증류법 기반 의미론적 영상 분할 방법 |
KR20220018633A (ko) * | 2019-07-23 | 2022-02-15 | 베이징 징동 젼스 인포메이션 테크놀로지 씨오., 엘티디. | 이미지 검색 방법 및 장치 |
KR102368064B1 (ko) | 2020-08-25 | 2022-02-25 | 서울대학교산학협력단 | 텍스트 기반 사전 학습 모델을 활용한 종단형 음성언어이해 지식 증류를 위한 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체 |
CN114708270A (zh) * | 2021-12-15 | 2022-07-05 | 华东师范大学 | 基于知识聚合与解耦蒸馏的语义分割模型压缩系统及压缩方法 |
-
2022
- 2022-09-19 KR KR1020220117885A patent/KR102542220B1/ko active IP Right Grant
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200057849A (ko) * | 2018-11-15 | 2020-05-27 | 삼성전자주식회사 | 영상의 리타겟팅을 위한 영상 처리 장치 및 방법 |
KR20220018633A (ko) * | 2019-07-23 | 2022-02-15 | 베이징 징동 젼스 인포메이션 테크놀로지 씨오., 엘티디. | 이미지 검색 방법 및 장치 |
KR102191351B1 (ko) * | 2020-04-28 | 2020-12-15 | 아주대학교산학협력단 | 지식 증류법 기반 의미론적 영상 분할 방법 |
KR102225579B1 (ko) * | 2020-05-14 | 2021-03-10 | 아주대학교산학협력단 | 학습성능이 향상된 지식 증류법 기반 의미론적 영상 분할 방법 |
KR102368064B1 (ko) | 2020-08-25 | 2022-02-25 | 서울대학교산학협력단 | 텍스트 기반 사전 학습 모델을 활용한 종단형 음성언어이해 지식 증류를 위한 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체 |
CN114708270A (zh) * | 2021-12-15 | 2022-07-05 | 华东师范大学 | 基于知识聚合与解耦蒸馏的语义分割模型压缩系统及压缩方法 |
Non-Patent Citations (1)
Title |
---|
박상용 ‘지식증류법 가반의 정규화 기법을 이용한 효율적인 의미론적 영역 분할 기법 연구’ 아주대학교 대학원 박사학위 논문(2022.08.)* * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117875313A (zh) * | 2024-03-12 | 2024-04-12 | 长沙市智为信息技术有限公司 | 一种中文语法纠错方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11507800B2 (en) | Semantic class localization digital environment | |
JP7306062B2 (ja) | ナレッジ・トランスファー方法、情報処理装置及び記憶媒体 | |
JP7291183B2 (ja) | モデルをトレーニングするための方法、装置、デバイス、媒体、およびプログラム製品 | |
CN108062756A (zh) | 基于深度全卷积网络和条件随机场的图像语义分割方法 | |
Sadeghi et al. | HistNet: Histogram-based convolutional neural network with Chi-squared deep metric learning for facial expression recognition | |
JP2020177647A (ja) | 画像処理装置及びその訓練装置と訓練方法 | |
WO2009100417A2 (en) | Method for training a learning machine having a deep multi-layered network with labeled and unlabeled training data | |
CN114398855A (zh) | 基于融合预训练的文本抽取方法、系统及介质 | |
KR102542220B1 (ko) | 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치 | |
Achanta et al. | Telugu OCR framework using deep learning | |
Harizi et al. | Convolutional neural network with joint stepwise character/word modeling based system for scene text recognition | |
CN113822264A (zh) | 一种文本识别方法、装置、计算机设备和存储介质 | |
Rao et al. | Exploring deep learning techniques for kannada handwritten character recognition: A boon for digitization | |
CN115147607A (zh) | 一种基于凸优化理论的抗噪声零样本图像分类方法 | |
CN114417872A (zh) | 一种合同文本命名实体识别方法及系统 | |
CN113806747B (zh) | 一种木马图片检测方法、系统及计算机可读存储介质 | |
Rodzin et al. | Deep learning techniques for natural language processing | |
Berriche et al. | Hybrid Arabic handwritten character segmentation using CNN and graph theory algorithm | |
Kishor et al. | Develop model for recognition of handwritten equation using machine learning | |
Cui et al. | An end-to-end network for irregular printed Mongolian recognition | |
Mohammadian et al. | Persis: A persian font recognition pipeline using convolutional neural networks | |
KR20220076952A (ko) | 이미지 인식 방법, 이미지 인식 장치, 이미지 전처리 장치 및 뉴럴 네트워크의 학습 방법 | |
Gupta et al. | Performance improvement in handwritten devanagari character classification | |
CN114117159A (zh) | 一种多阶图像特征与问题交互的图像问答方法 | |
Senthilkumar et al. | An optimized handwritten polynomial equations solver using an enhanced inception V4 model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |