KR102542220B1 - 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치 - Google Patents

자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치 Download PDF

Info

Publication number
KR102542220B1
KR102542220B1 KR1020220117885A KR20220117885A KR102542220B1 KR 102542220 B1 KR102542220 B1 KR 102542220B1 KR 1020220117885 A KR1020220117885 A KR 1020220117885A KR 20220117885 A KR20220117885 A KR 20220117885A KR 102542220 B1 KR102542220 B1 KR 102542220B1
Authority
KR
South Korea
Prior art keywords
matrix
mask
self
probability distribution
knowledge distillation
Prior art date
Application number
KR1020220117885A
Other languages
English (en)
Inventor
허용석
박상용
김재선
Original Assignee
아주대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교 산학협력단 filed Critical 아주대학교 산학협력단
Priority to KR1020220117885A priority Critical patent/KR102542220B1/ko
Application granted granted Critical
Publication of KR102542220B1 publication Critical patent/KR102542220B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

자가 지식 증류법 기반 의미론적 영상 분할 방법은 입력 이미지로부터 특징맵 및 로지츠 계층을 추출하는 단계, 상기 특징맵에 기초하여 연관성 매트릭스를 생성하는 단계, Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 단계, 상기 로지츠 계층에 기초하여 X 매트릭스를 생성하는 단계, Ground Truth로부터 마스크A 및 마스크B를 생성하는 단계, 상기 X 매트릭스, 마스크A, 마스크B, 및 정규화된 상기 연관성 매트릭스에 기초하여 제1 확률 분포를 산출하는 단계, 및 상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계를 포함할 수 있다.

Description

자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치{METHOD OF SEMANTIC SEGMENTATION BASED ON SELF-KNOWLEDGE DISTILLATION AND SEMANTIC SEGMENTATION DEVICE BASED ON SELF-KNOWLEDGE DISTILLATION}
본 발명은 지식 증류법 기반 의미론적 영상 분할에 관한 것으로, 보다 상세하게는 제한된 라벨링 데이터에 대한 자가 지식 증류를 통한 픽셀 단위 적응 라벨 평활화를 사용한 의미론적 분할 방법 및 장치에 관한 것이다.
의미론적 영상 분할(semantic segmentation)은 이미지 내의 객체를 픽셀 단위로 분류하는 알고리즘으로, 영상분할로 객체의 검출과 분류를 동시에 수행할 수 있는 장점이 있다.
한편, 지식 증류법(knowledge distillation)은 학습된 인공 신경망을 실제 서비스에 적용하기 위해 효과적으로 모델을 압축하여 속도를 향상시키는 네트워크 압축 방법 중 하나이다.
지식 증류법은 교사 네트워크라고 불리는 비교적 성능이 뛰어난 네트워크를 이용하여 학생 네트워크라고 불리는 연산양 및 메모리 사용량이 적은 네트워크를 학습시킬 수 있다. 이때 교사 네트워크의 특징 맵과 학생 네트워크에서 특징 맵을 비교하는 손실 함수를 정의하고, 이를 이용하여 학생 네트워크를 학습시키게 된다.
지식 증류법을 통하여 교사 네트워크는 학생 네트워크에 지식을 전달하기 때문에, 학생 네트워크는 일반적인 역전파(backpropagation) 알고리즘 만을 사용하여 처음부터 학습한 경우보다 높은 인식률을 얻을 수 있게 된다. 이에 따라, 지식 증류법을 의미론적 영상 분할에 적용하는 기술이 주목받고 있다.
한편, 지식 증류법을 의미론적 영상 분할에 적용하는 경우, 교사 네트워크 및 학생 네트워크의 구분 없이, 영역 분할 네트워크에서 맞은 픽셀을 기준으로 스스로 의미론적 영상 분할 모델에 대한 학습을 수행하는 자가 지식 증류법(Self-Knowledge Distillation)에 대한 연구가 진행 중에 있다.
한국등록특허 제 10-2368064호 "텍스트 기반 사전 학습 모델을 활용한 종단형 음성언어이해 지식 증류를 위한 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체"
본 발명의 일 목적은 예측 확률 분포를 변형시켜 라벨 평활화 소프트 라벨을 산출하는 데 소요되는 노력, 시간, 비용을 최소화하는 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 장치를 제공하는 것이다.
본 발명의 다른 목적은 제한된 데이터만을 사용하는 경우에도, 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용함으로써 부족한 학습 데이터에 대한 오버피팅을 완화하고, 학습 성능을 향상시키는 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 장치를 제공하는 것이다.
다만, 본 발명이 해결하고자 하는 과제는 상기 언급된 과제에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있을 것이다.
본 발명의 일 목적을 달성하기 위하여, 본 발명의 실시예들에 따른 자가 지식 증류법 기반 의미론적 영상 분할 방법은 입력 이미지로부터 특징맵 및 로지츠 계층을 추출하는 단계, 상기 특징맵에 기초하여 연관성 매트릭스를 생성하는 단계, Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 단계, 상기 로지츠 계층에 기초하여 X 매트릭스를 생성하는 단계, Ground Truth로부터 마스크A 및 마스크B를 생성하는 단계, 상기 X 매트릭스, 상기 마스크A, 상기 마스크B, 및 정규화된 상기 연관성 매트릭스에 기초하여 제1 확률 분포를 산출하는 단계, 및 상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계를 포함할 수 있다.
일 실시예에서, 상기 특징맵에 기초하여 연관성 매트릭스를 생성하는 단계는 아래 [수식1]을 이용하여, 상기 특징맵의 특징점을 리쉐이프(reshape)한 ER 및 상기 ER을 트랜스포스(transpose)한
Figure 112022098168976-pat00001
의 행렬 곱셈으로 상기 연관성 매트릭스를 생성할 수 있다.
[수식1]
Figure 112022098168976-pat00002
일 실시예에서, 상기 Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 단계는 상기 연관성 매트릭스에 softmax 함수를 적용함으로써, 상기 연관성 매트릭스의 각 열벡터의 합이 1이 되도록 정규화 할 수 있다.
일 실시예에서, 상기 로지츠 계층에 기초하여 X 매트릭스를 생성하는 단계는 상기 로지츠 계층에 Softmax 함수를 적용하고, Softmax 함수가 적용된 상기 로지츠 계층을 리쉐이프(reshape)함으로써, 상기 X 매트릭스를 생성할 수 있다.
일 실시예에서, 상기 Ground Truth로부터 마스크A 및 마스크B를 생성하는 단계는 상기 Ground Truth의 같은 클래스에 대한 상기 마스크A 및 예측한 결과에 따른 상기 Ground Truth의 맞은 픽셀을 구분하는 상기 마스크B를 생성할 수 있다.
일 실시예에서, 상기 X 매트릭스, 상기 마스크A, 상기 마스크B, 및 정규화된 상기 연관성 매트릭스에 기초하여 제1 확률 분포를 산출하는 단계는 상기 X 매트릭스, 상기 마스크A, 및 상기 마스크B의 성분 곱에 정규화된 상기 연관성 매트릭스를 행렬 곱셈하고, 업 샘플링을 수행함으로써 상기 제1 확률 분포를 산출할 수 있다.
일 실시예에서, 상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계는 아래 [수식4]를 이용하여, 상기 제1 확률 분포의 틀린 픽셀 수를 개선한 제2 확률 분포(
Figure 112022098168976-pat00003
)를 산출할 수 있다.
[수식4]
Figure 112022098168976-pat00004
일 실시예에서, 상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계는 아래 [수식5]를 이용하여, 상기 라벨 평활화 소프트 라벨을 산출할 수 있다.
[수식5]
Figure 112022098168976-pat00005
본 발명의 다른 목적을 달성하기 위하여, 본 발명의 실시예들에 따른 자가 지식 증류법 기반 의미론적 영상 분할 장치는 입력 이미지로부터 특징맵 및 로지츠 계층을 추출하는 영역 분할 네트워크, 상기 특징맵에 기초하여 연관성 매트릭스를 생성하고, Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 연관성 매트릭스 생성부, 상기 로지츠 계층에 기초하여 X 매트릭스를 생성하고, Ground Truth로부터 마스크A 및 마스크B를 생성하는 PA 모듈, 및 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 정답 라벨 산출부를 포함할 수 있다. 상기 PA 모듈은 상기 X 매트릭스, 상기 마스크A, 및 상기 마스크B의 성분 곱에 정규화된 상기 연관성 매트릭스를 행렬 곱셈하고, 업 샘플링을 수행함으로써 상기 제1 확률 분포를 산출할 수 있다.
본 발명의 실시예들에 따른 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 장치는 예측 확률 분포를 변형시켜 라벨 평활화 소프트 라벨을 산출하는 데 소요되는 노력, 시간, 비용을 최소화할 수 있다.
또한, 본 발명의 실시예들에 따른 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 장치는 제한된 데이터만을 사용하는 경우에도, 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용함으로써 부족한 학습 데이터에 대한 오버피팅을 완화하고, 학습 성능을 향상시킬 수 있다.
다만, 본 발명의 효과는 상술한 효과에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있을 것이다.
도 1은 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법의 알고리즘 구조를 나타내는 개념도이다.
도 2는 도 1의 자가 지식 증류법 기반 의미론적 영상 분할 방법의 과정을 나타내는 순서도이다.
도 3은 자가 지식 증류법 기반 의미론적 영상 분할 방법의 구체적인 알고리즘 동작을 나타내는 도면이다.
도 4는 PA 모듈의 세부 동작을 나타내는 상세히 설명하기 위한 도면이다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.
본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들면 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들면 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법의 알고리즘 구조를 나타내는 개념도이다.
기존의 지식 증류법을 통하여 교사 네트워크는 학생 네트워크에 지식을 전달하며, 학생 네트워크는 일반적인 역전파(backpropagation) 알고리즘 만을 사용하여 처음부터 학습한 경우보다 높은 인식률을 얻을 수 있게 된다. 이와 같은 높은 인식률에 기반하여, 지식 증류법은 의미론적 영상 분할에 적용될 수 있다.
도 1에서 보듯이, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 지식 증류법을 의미론적 영상 분할에 적용하는 경우, 교사 네트워크 및 학생 네트워크의 구분 없이, 자가 지식 증류법(Self-Knowledge Distillation)을 이용하여 특정 네트워크에서 맞은 픽셀을 기준으로 스스로 의미론적 영상 분할 모델에 대한 학습을 수행할 수 있다.
구체적으로, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 입력 이미지를 입력받고, 영역 분할 네트워크를 통해 특징맵(E) 및 로지츠 계층(Z)을 추출할 수 있다.
예를 들어, 특징맵(E)은 상기 영역 분할 네트워크의 마지막에서 두번째 레이어 일 수 있다. 또한, 로지츠 계층(Z)은 상기 영역 분할 네트워크의 마지막 레이어 값일 수 있다. 여기서, 특징맵(E) 및 로지츠 계층(Z)은 PALS 모듈에 입력될 수 있다.
PALS 모듈은 특징맵(E) 및 로지츠 계층(Z)에 기초하여 입력 이미지에서 맞은 픽셀을 기준으로 예측 확률 분포를 산출하고, 예측 확률 분포를 기초로 정답 라벨을 산출할 수 있다.
이와 같은 정답 라벨 산출 매커니즘을 통해, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 예측 확률 분포를 변형시켜 라벨 평활화 소프트 라벨(P)을 산출하는 데 소요되는 노력, 시간, 비용을 최소화할 수 있다.
또한, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 제한된 데이터만을 사용하는 경우에도, 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용함으로써 부족한 학습 데이터에 대한 오버피팅을 완화하고, 학습 성능을 향상시킬 수 있다.
도 2는 도 1의 자가 지식 증류법 기반 의미론적 영상 분할 방법의 과정을 나타내는 순서도이고, 도 3은 자가 지식 증류법 기반 의미론적 영상 분할 방법의 구체적인 알고리즘 동작을 나타내는 도면이며, 도 4는 PA 모듈의 세부 동작을 나타내는 상세히 설명하기 위한 도면이다.
도 2 및 3을 참조하면, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 입력 이미지로부터 특징맵(E) 및 로지츠 계층(Z)을 추출하는 단계(S100), 상기 특징맵(E)에 기초하여 연관성 매트릭스(S)를 생성하는 단계(S200), Softmax 함수를 이용하여 상기 연관성 매트릭스(S)를 정규화하는 단계(S300), 상기 로지츠 계층(Z)에 기초하여 X 매트릭스(X)를 생성하는 단계(S400), Ground Truth로부터 마스크A 및 마스크B를 생성하는 단계(S500), 상기 X 매트릭스(X), 마스크A, 마스크B, 및 정규화된 상기 연관성 매트릭스(S)에 기초하여 제1 확률 분포(Q)를 산출하는 단계(S600), 및 상기 제1 확률 분포(Q)에 기초하여 라벨 평활화 소프트 라벨(P)을 산출하는 단계(S700)를 포함할 수 있다.
일 실시예에서, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 입력 이미지로부터 특징맵(E) 및 로지츠 계층(Z)을 추출(S100)할 수 있다.
영역 분할 네트워크는 입력 이미지를 입력받고, 입력 이미지에 대한 딥러닝 학습을 수행할 수 있다. 예를 들어, 영역 분할 네트워크는 입력 이미지에 대한 딥러닝 학습 과정에서 복수의 레이어를 생성할 수 있다.
영역 분할 네트워크는 입력 이미지에 대해 딥러닝 학습을 수행함으로써, 특징맵(
Figure 112022098168976-pat00006
)을 추출할 수 있다.
예를 들어, 특징맵(E)은 상기 영역 분할 네트워크의 마지막에서 두번째 레이어 일 수 있다.
또한, 영역 분할 네트워크는 입력 이미지에 대해 딥러닝 학습을 수행함으로써, 로지츠 계층(
Figure 112022098168976-pat00007
)을 추출할 수 있다.
예를 들어, 로지츠 계층(Z)은 상기 영역 분할 네트워크의 마지막 레이어 값일 수 있다.
일 실시예에서, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 상기 특징맵(E)에 기초하여 연관성 매트릭스(S)를 생성(S200)하고, Softmax 함수를 이용하여 상기 연관성 매트릭스(S)를 정규화(S300)할 수 있다.
연관성 매트릭스(S)는 특징맵(E)의 특징점을 리쉐이프(reshape)한 ER 및 상기 ER을 트랜스포스(transpose)한
Figure 112022098168976-pat00008
의 행렬 곱셈으로 생성될 수 있다.
예를 들어, ER
Figure 112022098168976-pat00009
의 크기를 가질 수 있다. 또한,
Figure 112022098168976-pat00010
Figure 112022098168976-pat00011
의 크기를 가질 수 있다.
구체적으로, 상기 연관성 매트릭스(S)는 아래 [수식1]을 이용하여 생성될 수 있다.
[수식1]
Figure 112022098168976-pat00012
여기서, si는 연관성 매트릭스(S)의 각 열벡터를 의미할 수 있다. si
Figure 112022098168976-pat00013
의 크기를 가질 수 있다.
[수식1]에서 보듯이, 연관성 매트릭스(S)는
Figure 112022098168976-pat00014
의 크기를 가질 수 있다.
연관성 매트릭스(S)를 활용해 새로운 확률 분포를 생성하기 위해, 연관성 매트릭스(S)는 정규화(normalize)될 수 있다.
예를 들어, 연관성 매트릭스(S)는 각 열벡터를 합이 1이 되도록 정규화 될 수 있다. 이 때, 연관성 매트릭스(S)에 softmax 함수가 적용됨으로써, 정규화가 수행될 수 있다.
정규화된 연관성 매트릭스(Snorm)는 아래 [수식2]와 같이 표현될 수 있다.
[수식2]
Figure 112022098168976-pat00015
여기서, Snorm은 각 행 별로 정규화 연산이 수행된 연관성 매트릭스(S)이고,
Figure 112022098168976-pat00016
는 Softmax 함수를 나타낼 수 있다.
일 실시예에서, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 상기 로지츠 계층(Z)에 기초하여 X 매트릭스(X)를 생성(S400)할 수 있다.
X 매트릭스(X)는 로지츠 계층(Z)에 Softmax 함수를 적용하고, Softmax 함수가 적용된 로지츠 계층(Z)을 리쉐이프(reshape)한 매트릭스일 수 있다.
X 매트릭스(X)는 각 픽셀에 대한 확률 분포의 정보를 포함할 수 있다.
예를 들어, X 매트릭스(X)는
Figure 112022098168976-pat00017
의 크기를 가질 수 있다.
일 실시예에서, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 Ground Truth로부터 마스크A 및 마스크B를 생성(S500)할 수 있다.
예를 들어, 마스크A는 Ground Truth의 같은 클래스에 대한 마스크일 수 있다.
예를 들어, 마스크B는 예측한 결과에 따른 Ground Truth의 맞은 픽셀을 구분하는 마스크일 수 있다.
즉, 마스크A 및 마스크B를 이용하면, 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용할 수 있다.
일 실시예에서, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 상기 X 매트릭스(X), 마스크A, 마스크B, 및 정규화된 상기 연관성 매트릭스(Snorm)에 기초하여 제1 확률 분포(Q)를 산출(S600)할 수 있다.
제1 확률 분포(Q)는 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용한 융합된 확률 분포일 수 있다.
제1 확률 분포(Q)는 X 매트릭스(X), 마스크A, 및 마스크B의 성분 곱에 정규화된 연관성 매트릭스(S)를 행렬 곱셈하고, 업 샘플링을 수행함으로써 산출될 수 있다.
구체적으로, 제1 확률 분포(Q)는 아래 [수식3]과 같이 산출될 수 있다.
[수식3]
Figure 112022098168976-pat00018
여기서
Figure 112022098168976-pat00019
연산은 성분 곱셈을 의미하고,
Figure 112022098168976-pat00020
연산은 행렬 곱셈을 의미할 수 있다. 또한,
Figure 112022098168976-pat00021
연산은 업 샘플링(up sampling) 연산으로, 입력 이미지와 같은 크기로 만드는 샘플링 연산을 의미할 수 있다.
일 실시예에서, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 상기 제1 확률 분포(Q)에 기초하여 라벨 평활화 소프트 라벨(P)을 산출하는 단계(S700)를 포함할 수 있다.
라벨 평활화 소프트 라벨(P)을 산출할 때, 제1 확률 분포(Q)만을 사용하는 경우, 학습 초반에 틀린 픽셀이 많을 수 있기 때문에, 이를 보완할 필요가 있다.
예를 들어, 라벨 평활화 소프트 라벨(P)을 산출하기 위하여, 제1 확률 분포(Q)에 대한 균등 분포(uniform distribution)를 활용할 수 있다.
즉, 라벨 평활화 소프트 라벨(P)을 산출하기 위하여, 제1 확률 분포(Q)의 틀린 픽셀 수를 개선한 제2 확률 분포(
Figure 112022098168976-pat00022
)를 산출할 수 있다.
예를 들어, 제2 확률 분포는 의 크기를 가질 수 있다.
제2 확률 분포는 아래 [수식4]와 같이 산출될 수 있다.
[수식4]
Figure 112022098168976-pat00023
여기서,
Figure 112022098168976-pat00024
는 i번째 픽셀에서 딥러닝 학습 이터레이션(iteration)
Figure 112022098168976-pat00025
번째의 확률 분포를 의미할 수 있다.
또한,
Figure 112022098168976-pat00026
는 제1 확률 분포(Q)와 균등 분포(uniform distribution)의 가중치 팩터(weight factor)를 의미하며, 이는 전체 학습 이터레이션(iteration) 수(T)와 현재 학습 이터레이션(iteration)
Figure 112022098168976-pat00027
의 비율로 결정될 수 있다.
최종적인 픽셀 간 적응적 라벨 평활화 소프트 라벨(P)은 제2 확률 분포를 활용하여 산출될 수 있다. 예를 들어, 라벨 평활화 소프트 라벨(P)은
Figure 112022098168976-pat00028
의 크기를 가질 수 있다.
라벨 평활화 소프트 라벨(P)은 아래 [수식5]와 같이 산출될 수 있다.
[수식5]
Figure 112022098168976-pat00029
여기서,
Figure 112022098168976-pat00030
는 정답 값으로 i번째 픽셀에서의 원-핫 벡터(one-hot vector)를 의미하며,
Figure 112022098168976-pat00031
를 활용하여 학습될 수 있다.
이와 같이, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 예측 확률 분포를 변형시켜 라벨 평활화 소프트 라벨(P)을 산출하는 데 소요되는 노력, 시간, 비용을 최소화할 수 있다.
이와 같이, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 예측 확률 분포를 변형시켜 라벨 평활화 소프트 라벨(P)을 산출하는 데 소요되는 노력, 시간, 비용을 최소화할 수 있다.
또한, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 제한된 데이터만을 사용하는 경우에도, 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용함으로써 부족한 학습 데이터에 대한 오버피팅을 완화하고, 학습 성능을 향상시킬 수 있다.
본 발명의 다른 실시예들에 따른 자가 지식 증류법 기반 의미론적 영상 분할 장치는 영역 분할 네트워크, 연관성 매트릭스(S) 생성부, PA 모듈, 및 정답 라벨 산출부를 포함할 수 있다.
구체적으로, 자가 지식 증류법 기반 의미론적 영상 분할 장치는 입력 이미지로부터 특징맵(E) 및 로지츠 계층(Z)을 추출하는 영역 분할 네트워크, 상기 특징맵(E)에 기초하여 연관성 매트릭스(S)를 생성하고, Softmax 함수를 이용하여 상기 연관성 매트릭스(S)를 정규화하는 연관성 매트릭스(S) 생성부, 상기 로지츠 계층(Z)에 기초하여 X 매트릭스(X)를 생성하고, Ground Truth로부터 마스크A 및 마스크B를 생성하는 PA 모듈, 및 제1 확률 분포(Q)에 기초하여 라벨 평활화 소프트 라벨(P)을 산출하는 정답 라벨 산출부를 포함할 수 있다.
여기서, 상기 PA 모듈은 상기 X 매트릭스(X), 상기 마스크A, 및 상기 마스크B의 성분 곱에 정규화된 상기 연관성 매트릭스(S)를 행렬 곱셈하고, 업 샘플링을 수행함으로써 상기 제1 확률 분포(Q)를 산출할 수 있다.
본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 장치는 예측 확률 분포를 변형시켜 라벨 평활화 소프트 라벨(P)을 산출하는 데 소요되는 노력, 시간, 비용을 최소화할 수 있다.
또한, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 장치는 제한된 데이터만을 사용하는 경우에도, 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용함으로써 부족한 학습 데이터에 대한 오버피팅을 완화하고, 학습 성능을 향상시킬 수 있다.
다만, 이에 대해서는 상술한 바 있으므로, 그에 대한 중복되는 설명은 생략하기로 한다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
E: 특징맵
Z: 로지츠 계층
S: 연관성 매트릭스
X: X 매트릭스
Q: 제1 확률 분포
P: 라벨 평활화 소프트 라벨

Claims (9)

  1. 입력 이미지로부터 특징맵 및 로지츠 계층을 추출하는 단계;
    상기 특징맵에 기초하여 연관성 매트릭스를 생성하는 단계;
    Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 단계;
    상기 로지츠 계층에 기초하여 X 매트릭스를 생성하는 단계;
    Ground Truth로부터 마스크A 및 마스크B를 생성하는 단계;
    상기 X 매트릭스, 상기 마스크A, 상기 마스크B, 및 정규화된 상기 연관성 매트릭스에 기초하여 제1 확률 분포를 산출하는 단계; 및
    상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계를 포함하는,
    자가 지식 증류법 기반 의미론적 영상 분할 방법.
  2. 제1항에 있어서,
    상기 특징맵에 기초하여 연관성 매트릭스를 생성하는 단계는,
    아래 [수식1]을 이용하여, 상기 특징맵의 특징점을 리쉐이프(reshape)한 ER 및 상기 ER을 트랜스포스(transpose)한
    Figure 112022098168976-pat00032
    의 행렬 곱셈으로 상기 연관성 매트릭스를 생성하는 것을 특징으로 하는,
    자가 지식 증류법 기반 의미론적 영상 분할 방법.
    [수식1]
    Figure 112022098168976-pat00033
  3. 제1항에 있어서,
    상기 Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 단계는,
    상기 연관성 매트릭스에 softmax 함수를 적용함으로써, 상기 연관성 매트릭스의 각 열벡터의 합이 1이 되도록 정규화하는 것을 특징으로 하는,
    자가 지식 증류법 기반 의미론적 영상 분할 방법.
  4. 제1항에 있어서,
    상기 로지츠 계층에 기초하여 X 매트릭스를 생성하는 단계는,
    상기 로지츠 계층에 Softmax 함수를 적용하고, Softmax 함수가 적용된 상기 로지츠 계층을 리쉐이프(reshape)함으로써, 상기 X 매트릭스를 생성하는 것을 특징으로 하는,
    자가 지식 증류법 기반 의미론적 영상 분할 방법.
  5. 제1항에 있어서,
    상기 Ground Truth로부터 마스크A 및 마스크B를 생성하는 단계는,
    상기 Ground Truth의 같은 클래스에 대한 상기 마스크A 및 예측한 결과에 따른 상기 Ground Truth의 맞은 픽셀을 구분하는 상기 마스크B를 생성하는 것을 특징으로 하는,
    자가 지식 증류법 기반 의미론적 영상 분할 방법.
  6. 제1항에 있어서,
    상기 X 매트릭스, 상기 마스크A, 상기 마스크B, 및 정규화된 상기 연관성 매트릭스에 기초하여 제1 확률 분포를 산출하는 단계는,
    상기 X 매트릭스, 상기 마스크A, 및 상기 마스크B의 성분 곱에 정규화된 상기 연관성 매트릭스를 행렬 곱셈하고, 업 샘플링을 수행함으로써 상기 제1 확률 분포를 산출하는 것을 특징으로 하는,
    자가 지식 증류법 기반 의미론적 영상 분할 방법.
  7. 제1항에 있어서,
    상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계는,
    아래 [수식4]를 이용하여, 상기 제1 확률 분포의 틀린 픽셀 수를 개선한 제2 확률 분포(
    Figure 112022098168976-pat00034
    )를 산출하는 것을 특징으로 하는,
    자가 지식 증류법 기반 의미론적 영상 분할 방법.
    [수식4]
    Figure 112022098168976-pat00035
  8. 제7항에 있어서,
    상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계는,
    아래 [수식5]를 이용하여, 상기 라벨 평활화 소프트 라벨을 산출하는 것을 특징으로 하는,
    자가 지식 증류법 기반 의미론적 영상 분할 방법.
    [수식5]
    Figure 112022098168976-pat00036
  9. 입력 이미지로부터 특징맵 및 로지츠 계층을 추출하는 영역 분할 네트워크;
    상기 특징맵에 기초하여 연관성 매트릭스를 생성하고, Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 연관성 매트릭스 생성부;
    상기 로지츠 계층에 기초하여 X 매트릭스를 생성하고, Ground Truth로부터 마스크A 및 마스크B를 생성하는 PA 모듈; 및
    제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 정답 라벨 산출부를 포함하고,
    상기 PA 모듈은,
    상기 X 매트릭스, 상기 마스크A, 및 상기 마스크B의 성분 곱에 정규화된 상기 연관성 매트릭스를 행렬 곱셈하고, 업 샘플링을 수행함으로써 상기 제1 확률 분포를 산출하는 것을 특징으로 하는,
    자가 지식 증류법 기반 의미론적 영상 분할 장치.
KR1020220117885A 2022-09-19 2022-09-19 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치 KR102542220B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220117885A KR102542220B1 (ko) 2022-09-19 2022-09-19 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220117885A KR102542220B1 (ko) 2022-09-19 2022-09-19 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치

Publications (1)

Publication Number Publication Date
KR102542220B1 true KR102542220B1 (ko) 2023-06-13

Family

ID=86762458

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220117885A KR102542220B1 (ko) 2022-09-19 2022-09-19 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치

Country Status (1)

Country Link
KR (1) KR102542220B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117875313A (zh) * 2024-03-12 2024-04-12 长沙市智为信息技术有限公司 一种中文语法纠错方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200057849A (ko) * 2018-11-15 2020-05-27 삼성전자주식회사 영상의 리타겟팅을 위한 영상 처리 장치 및 방법
KR102191351B1 (ko) * 2020-04-28 2020-12-15 아주대학교산학협력단 지식 증류법 기반 의미론적 영상 분할 방법
KR102225579B1 (ko) * 2020-05-14 2021-03-10 아주대학교산학협력단 학습성능이 향상된 지식 증류법 기반 의미론적 영상 분할 방법
KR20220018633A (ko) * 2019-07-23 2022-02-15 베이징 징동 젼스 인포메이션 테크놀로지 씨오., 엘티디. 이미지 검색 방법 및 장치
KR102368064B1 (ko) 2020-08-25 2022-02-25 서울대학교산학협력단 텍스트 기반 사전 학습 모델을 활용한 종단형 음성언어이해 지식 증류를 위한 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
CN114708270A (zh) * 2021-12-15 2022-07-05 华东师范大学 基于知识聚合与解耦蒸馏的语义分割模型压缩系统及压缩方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200057849A (ko) * 2018-11-15 2020-05-27 삼성전자주식회사 영상의 리타겟팅을 위한 영상 처리 장치 및 방법
KR20220018633A (ko) * 2019-07-23 2022-02-15 베이징 징동 젼스 인포메이션 테크놀로지 씨오., 엘티디. 이미지 검색 방법 및 장치
KR102191351B1 (ko) * 2020-04-28 2020-12-15 아주대학교산학협력단 지식 증류법 기반 의미론적 영상 분할 방법
KR102225579B1 (ko) * 2020-05-14 2021-03-10 아주대학교산학협력단 학습성능이 향상된 지식 증류법 기반 의미론적 영상 분할 방법
KR102368064B1 (ko) 2020-08-25 2022-02-25 서울대학교산학협력단 텍스트 기반 사전 학습 모델을 활용한 종단형 음성언어이해 지식 증류를 위한 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
CN114708270A (zh) * 2021-12-15 2022-07-05 华东师范大学 基于知识聚合与解耦蒸馏的语义分割模型压缩系统及压缩方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
박상용 ‘지식증류법 가반의 정규화 기법을 이용한 효율적인 의미론적 영역 분할 기법 연구’ 아주대학교 대학원 박사학위 논문(2022.08.)* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117875313A (zh) * 2024-03-12 2024-04-12 长沙市智为信息技术有限公司 一种中文语法纠错方法及系统

Similar Documents

Publication Publication Date Title
US11507800B2 (en) Semantic class localization digital environment
JP7306062B2 (ja) ナレッジ・トランスファー方法、情報処理装置及び記憶媒体
JP7291183B2 (ja) モデルをトレーニングするための方法、装置、デバイス、媒体、およびプログラム製品
CN108062756A (zh) 基于深度全卷积网络和条件随机场的图像语义分割方法
Sadeghi et al. HistNet: Histogram-based convolutional neural network with Chi-squared deep metric learning for facial expression recognition
JP2020177647A (ja) 画像処理装置及びその訓練装置と訓練方法
WO2009100417A2 (en) Method for training a learning machine having a deep multi-layered network with labeled and unlabeled training data
CN114398855A (zh) 基于融合预训练的文本抽取方法、系统及介质
KR102542220B1 (ko) 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치
Achanta et al. Telugu OCR framework using deep learning
Harizi et al. Convolutional neural network with joint stepwise character/word modeling based system for scene text recognition
CN113822264A (zh) 一种文本识别方法、装置、计算机设备和存储介质
Rao et al. Exploring deep learning techniques for kannada handwritten character recognition: A boon for digitization
CN115147607A (zh) 一种基于凸优化理论的抗噪声零样本图像分类方法
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
CN113806747B (zh) 一种木马图片检测方法、系统及计算机可读存储介质
Rodzin et al. Deep learning techniques for natural language processing
Berriche et al. Hybrid Arabic handwritten character segmentation using CNN and graph theory algorithm
Kishor et al. Develop model for recognition of handwritten equation using machine learning
Cui et al. An end-to-end network for irregular printed Mongolian recognition
Mohammadian et al. Persis: A persian font recognition pipeline using convolutional neural networks
KR20220076952A (ko) 이미지 인식 방법, 이미지 인식 장치, 이미지 전처리 장치 및 뉴럴 네트워크의 학습 방법
Gupta et al. Performance improvement in handwritten devanagari character classification
CN114117159A (zh) 一种多阶图像特征与问题交互的图像问答方法
Senthilkumar et al. An optimized handwritten polynomial equations solver using an enhanced inception V4 model

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant