KR102542220B1

KR102542220B1 - 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치

Info

Publication number: KR102542220B1
Application number: KR1020220117885A
Authority: KR
Inventors: 허용석; 박상용; 김재선
Original assignee: 아주대학교 산학협력단
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2023-06-13

Abstract

자가 지식 증류법 기반 의미론적 영상 분할 방법은 입력 이미지로부터 특징맵 및 로지츠 계층을 추출하는 단계, 상기 특징맵에 기초하여 연관성 매트릭스를 생성하는 단계, Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 단계, 상기 로지츠 계층에 기초하여 X 매트릭스를 생성하는 단계, Ground Truth로부터 마스크A 및 마스크B를 생성하는 단계, 상기 X 매트릭스, 마스크A, 마스크B, 및 정규화된 상기 연관성 매트릭스에 기초하여 제1 확률 분포를 산출하는 단계, 및 상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계를 포함할 수 있다.

Description

자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치{METHOD OF SEMANTIC SEGMENTATION BASED ON SELF-KNOWLEDGE DISTILLATION AND SEMANTIC SEGMENTATION DEVICE BASED ON SELF-KNOWLEDGE DISTILLATION}

본 발명은 지식 증류법 기반 의미론적 영상 분할에 관한 것으로, 보다 상세하게는 제한된 라벨링 데이터에 대한 자가 지식 증류를 통한 픽셀 단위 적응 라벨 평활화를 사용한 의미론적 분할 방법 및 장치에 관한 것이다.

의미론적 영상 분할(semantic segmentation)은 이미지 내의 객체를 픽셀 단위로 분류하는 알고리즘으로, 영상분할로 객체의 검출과 분류를 동시에 수행할 수 있는 장점이 있다.

한편, 지식 증류법(knowledge distillation)은 학습된 인공 신경망을 실제 서비스에 적용하기 위해 효과적으로 모델을 압축하여 속도를 향상시키는 네트워크 압축 방법 중 하나이다.

지식 증류법은 교사 네트워크라고 불리는 비교적 성능이 뛰어난 네트워크를 이용하여 학생 네트워크라고 불리는 연산양 및 메모리 사용량이 적은 네트워크를 학습시킬 수 있다. 이때 교사 네트워크의 특징 맵과 학생 네트워크에서 특징 맵을 비교하는 손실 함수를 정의하고, 이를 이용하여 학생 네트워크를 학습시키게 된다.

지식 증류법을 통하여 교사 네트워크는 학생 네트워크에 지식을 전달하기 때문에, 학생 네트워크는 일반적인 역전파(backpropagation) 알고리즘 만을 사용하여 처음부터 학습한 경우보다 높은 인식률을 얻을 수 있게 된다. 이에 따라, 지식 증류법을 의미론적 영상 분할에 적용하는 기술이 주목받고 있다.

한편, 지식 증류법을 의미론적 영상 분할에 적용하는 경우, 교사 네트워크 및 학생 네트워크의 구분 없이, 영역 분할 네트워크에서 맞은 픽셀을 기준으로 스스로 의미론적 영상 분할 모델에 대한 학습을 수행하는 자가 지식 증류법(Self-Knowledge Distillation)에 대한 연구가 진행 중에 있다.

한국등록특허 제 10-2368064호 "텍스트 기반 사전 학습 모델을 활용한 종단형 음성언어이해 지식 증류를 위한 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체"

본 발명의 일 목적은 예측 확률 분포를 변형시켜 라벨 평활화 소프트 라벨을 산출하는 데 소요되는 노력, 시간, 비용을 최소화하는 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 장치를 제공하는 것이다.

본 발명의 다른 목적은 제한된 데이터만을 사용하는 경우에도, 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용함으로써 부족한 학습 데이터에 대한 오버피팅을 완화하고, 학습 성능을 향상시키는 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 장치를 제공하는 것이다.

다만, 본 발명이 해결하고자 하는 과제는 상기 언급된 과제에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있을 것이다.

본 발명의 일 목적을 달성하기 위하여, 본 발명의 실시예들에 따른 자가 지식 증류법 기반 의미론적 영상 분할 방법은 입력 이미지로부터 특징맵 및 로지츠 계층을 추출하는 단계, 상기 특징맵에 기초하여 연관성 매트릭스를 생성하는 단계, Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 단계, 상기 로지츠 계층에 기초하여 X 매트릭스를 생성하는 단계, Ground Truth로부터 마스크A 및 마스크B를 생성하는 단계, 상기 X 매트릭스, 상기 마스크A, 상기 마스크B, 및 정규화된 상기 연관성 매트릭스에 기초하여 제1 확률 분포를 산출하는 단계, 및 상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계를 포함할 수 있다.

일 실시예에서, 상기 특징맵에 기초하여 연관성 매트릭스를 생성하는 단계는 아래 [수식1]을 이용하여, 상기 특징맵의 특징점을 리쉐이프(reshape)한 E_R 및 상기 E_R을 트랜스포스(transpose)한

의 행렬 곱셈으로 상기 연관성 매트릭스를 생성할 수 있다.

[수식1]

일 실시예에서, 상기 Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 단계는 상기 연관성 매트릭스에 softmax 함수를 적용함으로써, 상기 연관성 매트릭스의 각 열벡터의 합이 1이 되도록 정규화 할 수 있다.

일 실시예에서, 상기 로지츠 계층에 기초하여 X 매트릭스를 생성하는 단계는 상기 로지츠 계층에 Softmax 함수를 적용하고, Softmax 함수가 적용된 상기 로지츠 계층을 리쉐이프(reshape)함으로써, 상기 X 매트릭스를 생성할 수 있다.

일 실시예에서, 상기 Ground Truth로부터 마스크A 및 마스크B를 생성하는 단계는 상기 Ground Truth의 같은 클래스에 대한 상기 마스크A 및 예측한 결과에 따른 상기 Ground Truth의 맞은 픽셀을 구분하는 상기 마스크B를 생성할 수 있다.

일 실시예에서, 상기 X 매트릭스, 상기 마스크A, 상기 마스크B, 및 정규화된 상기 연관성 매트릭스에 기초하여 제1 확률 분포를 산출하는 단계는 상기 X 매트릭스, 상기 마스크A, 및 상기 마스크B의 성분 곱에 정규화된 상기 연관성 매트릭스를 행렬 곱셈하고, 업 샘플링을 수행함으로써 상기 제1 확률 분포를 산출할 수 있다.

일 실시예에서, 상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계는 아래 [수식4]를 이용하여, 상기 제1 확률 분포의 틀린 픽셀 수를 개선한 제2 확률 분포(

)를 산출할 수 있다.

[수식4]

일 실시예에서, 상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계는 아래 [수식5]를 이용하여, 상기 라벨 평활화 소프트 라벨을 산출할 수 있다.

[수식5]

본 발명의 다른 목적을 달성하기 위하여, 본 발명의 실시예들에 따른 자가 지식 증류법 기반 의미론적 영상 분할 장치는 입력 이미지로부터 특징맵 및 로지츠 계층을 추출하는 영역 분할 네트워크, 상기 특징맵에 기초하여 연관성 매트릭스를 생성하고, Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 연관성 매트릭스 생성부, 상기 로지츠 계층에 기초하여 X 매트릭스를 생성하고, Ground Truth로부터 마스크A 및 마스크B를 생성하는 PA 모듈, 및 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 정답 라벨 산출부를 포함할 수 있다. 상기 PA 모듈은 상기 X 매트릭스, 상기 마스크A, 및 상기 마스크B의 성분 곱에 정규화된 상기 연관성 매트릭스를 행렬 곱셈하고, 업 샘플링을 수행함으로써 상기 제1 확률 분포를 산출할 수 있다.

본 발명의 실시예들에 따른 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 장치는 예측 확률 분포를 변형시켜 라벨 평활화 소프트 라벨을 산출하는 데 소요되는 노력, 시간, 비용을 최소화할 수 있다.

또한, 본 발명의 실시예들에 따른 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 장치는 제한된 데이터만을 사용하는 경우에도, 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용함으로써 부족한 학습 데이터에 대한 오버피팅을 완화하고, 학습 성능을 향상시킬 수 있다.

다만, 본 발명의 효과는 상술한 효과에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있을 것이다.

도 1은 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법의 알고리즘 구조를 나타내는 개념도이다.
도 2는 도 1의 자가 지식 증류법 기반 의미론적 영상 분할 방법의 과정을 나타내는 순서도이다.
도 3은 자가 지식 증류법 기반 의미론적 영상 분할 방법의 구체적인 알고리즘 동작을 나타내는 도면이다.
도 4는 PA 모듈의 세부 동작을 나타내는 상세히 설명하기 위한 도면이다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.

본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들면 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들면 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법의 알고리즘 구조를 나타내는 개념도이다.

기존의 지식 증류법을 통하여 교사 네트워크는 학생 네트워크에 지식을 전달하며, 학생 네트워크는 일반적인 역전파(backpropagation) 알고리즘 만을 사용하여 처음부터 학습한 경우보다 높은 인식률을 얻을 수 있게 된다. 이와 같은 높은 인식률에 기반하여, 지식 증류법은 의미론적 영상 분할에 적용될 수 있다.

도 1에서 보듯이, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 지식 증류법을 의미론적 영상 분할에 적용하는 경우, 교사 네트워크 및 학생 네트워크의 구분 없이, 자가 지식 증류법(Self-Knowledge Distillation)을 이용하여 특정 네트워크에서 맞은 픽셀을 기준으로 스스로 의미론적 영상 분할 모델에 대한 학습을 수행할 수 있다.

구체적으로, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 입력 이미지를 입력받고, 영역 분할 네트워크를 통해 특징맵(E) 및 로지츠 계층(Z)을 추출할 수 있다.

예를 들어, 특징맵(E)은 상기 영역 분할 네트워크의 마지막에서 두번째 레이어 일 수 있다. 또한, 로지츠 계층(Z)은 상기 영역 분할 네트워크의 마지막 레이어 값일 수 있다. 여기서, 특징맵(E) 및 로지츠 계층(Z)은 PALS 모듈에 입력될 수 있다.

PALS 모듈은 특징맵(E) 및 로지츠 계층(Z)에 기초하여 입력 이미지에서 맞은 픽셀을 기준으로 예측 확률 분포를 산출하고, 예측 확률 분포를 기초로 정답 라벨을 산출할 수 있다.

이와 같은 정답 라벨 산출 매커니즘을 통해, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 예측 확률 분포를 변형시켜 라벨 평활화 소프트 라벨(P)을 산출하는 데 소요되는 노력, 시간, 비용을 최소화할 수 있다.

또한, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 제한된 데이터만을 사용하는 경우에도, 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용함으로써 부족한 학습 데이터에 대한 오버피팅을 완화하고, 학습 성능을 향상시킬 수 있다.

도 2는 도 1의 자가 지식 증류법 기반 의미론적 영상 분할 방법의 과정을 나타내는 순서도이고, 도 3은 자가 지식 증류법 기반 의미론적 영상 분할 방법의 구체적인 알고리즘 동작을 나타내는 도면이며, 도 4는 PA 모듈의 세부 동작을 나타내는 상세히 설명하기 위한 도면이다.

도 2 및 3을 참조하면, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 입력 이미지로부터 특징맵(E) 및 로지츠 계층(Z)을 추출하는 단계(S100), 상기 특징맵(E)에 기초하여 연관성 매트릭스(S)를 생성하는 단계(S200), Softmax 함수를 이용하여 상기 연관성 매트릭스(S)를 정규화하는 단계(S300), 상기 로지츠 계층(Z)에 기초하여 X 매트릭스(X)를 생성하는 단계(S400), Ground Truth로부터 마스크A 및 마스크B를 생성하는 단계(S500), 상기 X 매트릭스(X), 마스크A, 마스크B, 및 정규화된 상기 연관성 매트릭스(S)에 기초하여 제1 확률 분포(Q)를 산출하는 단계(S600), 및 상기 제1 확률 분포(Q)에 기초하여 라벨 평활화 소프트 라벨(P)을 산출하는 단계(S700)를 포함할 수 있다.

일 실시예에서, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 입력 이미지로부터 특징맵(E) 및 로지츠 계층(Z)을 추출(S100)할 수 있다.

영역 분할 네트워크는 입력 이미지를 입력받고, 입력 이미지에 대한 딥러닝 학습을 수행할 수 있다. 예를 들어, 영역 분할 네트워크는 입력 이미지에 대한 딥러닝 학습 과정에서 복수의 레이어를 생성할 수 있다.

영역 분할 네트워크는 입력 이미지에 대해 딥러닝 학습을 수행함으로써, 특징맵(

)을 추출할 수 있다.

예를 들어, 특징맵(E)은 상기 영역 분할 네트워크의 마지막에서 두번째 레이어 일 수 있다.

또한, 영역 분할 네트워크는 입력 이미지에 대해 딥러닝 학습을 수행함으로써, 로지츠 계층(

)을 추출할 수 있다.

예를 들어, 로지츠 계층(Z)은 상기 영역 분할 네트워크의 마지막 레이어 값일 수 있다.

일 실시예에서, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 상기 특징맵(E)에 기초하여 연관성 매트릭스(S)를 생성(S200)하고, Softmax 함수를 이용하여 상기 연관성 매트릭스(S)를 정규화(S300)할 수 있다.

연관성 매트릭스(S)는 특징맵(E)의 특징점을 리쉐이프(reshape)한 E_R 및 상기 E_R을 트랜스포스(transpose)한

의 행렬 곱셈으로 생성될 수 있다.

예를 들어, E_R은

의 크기를 가질 수 있다. 또한,

은

의 크기를 가질 수 있다.

구체적으로, 상기 연관성 매트릭스(S)는 아래 [수식1]을 이용하여 생성될 수 있다.

[수식1]

여기서, s_i는 연관성 매트릭스(S)의 각 열벡터를 의미할 수 있다. s_i는

의 크기를 가질 수 있다.

[수식1]에서 보듯이, 연관성 매트릭스(S)는

의 크기를 가질 수 있다.

연관성 매트릭스(S)를 활용해 새로운 확률 분포를 생성하기 위해, 연관성 매트릭스(S)는 정규화(normalize)될 수 있다.

예를 들어, 연관성 매트릭스(S)는 각 열벡터를 합이 1이 되도록 정규화 될 수 있다. 이 때, 연관성 매트릭스(S)에 softmax 함수가 적용됨으로써, 정규화가 수행될 수 있다.

정규화된 연관성 매트릭스(S_norm)는 아래 [수식2]와 같이 표현될 수 있다.

[수식2]

여기서, S_norm은 각 행 별로 정규화 연산이 수행된 연관성 매트릭스(S)이고,

는 Softmax 함수를 나타낼 수 있다.

일 실시예에서, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 상기 로지츠 계층(Z)에 기초하여 X 매트릭스(X)를 생성(S400)할 수 있다.

X 매트릭스(X)는 로지츠 계층(Z)에 Softmax 함수를 적용하고, Softmax 함수가 적용된 로지츠 계층(Z)을 리쉐이프(reshape)한 매트릭스일 수 있다.

X 매트릭스(X)는 각 픽셀에 대한 확률 분포의 정보를 포함할 수 있다.

예를 들어, X 매트릭스(X)는

의 크기를 가질 수 있다.

일 실시예에서, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 Ground Truth로부터 마스크A 및 마스크B를 생성(S500)할 수 있다.

예를 들어, 마스크A는 Ground Truth의 같은 클래스에 대한 마스크일 수 있다.

예를 들어, 마스크B는 예측한 결과에 따른 Ground Truth의 맞은 픽셀을 구분하는 마스크일 수 있다.

즉, 마스크A 및 마스크B를 이용하면, 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용할 수 있다.

일 실시예에서, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 상기 X 매트릭스(X), 마스크A, 마스크B, 및 정규화된 상기 연관성 매트릭스(S_norm)에 기초하여 제1 확률 분포(Q)를 산출(S600)할 수 있다.

제1 확률 분포(Q)는 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용한 융합된 확률 분포일 수 있다.

제1 확률 분포(Q)는 X 매트릭스(X), 마스크A, 및 마스크B의 성분 곱에 정규화된 연관성 매트릭스(S)를 행렬 곱셈하고, 업 샘플링을 수행함으로써 산출될 수 있다.

구체적으로, 제1 확률 분포(Q)는 아래 [수식3]과 같이 산출될 수 있다.

[수식3]

여기서

연산은 성분 곱셈을 의미하고,

연산은 행렬 곱셈을 의미할 수 있다. 또한,

연산은 업 샘플링(up sampling) 연산으로, 입력 이미지와 같은 크기로 만드는 샘플링 연산을 의미할 수 있다.

일 실시예에서, 자가 지식 증류법 기반 의미론적 영상 분할 방법은 상기 제1 확률 분포(Q)에 기초하여 라벨 평활화 소프트 라벨(P)을 산출하는 단계(S700)를 포함할 수 있다.

라벨 평활화 소프트 라벨(P)을 산출할 때, 제1 확률 분포(Q)만을 사용하는 경우, 학습 초반에 틀린 픽셀이 많을 수 있기 때문에, 이를 보완할 필요가 있다.

예를 들어, 라벨 평활화 소프트 라벨(P)을 산출하기 위하여, 제1 확률 분포(Q)에 대한 균등 분포(uniform distribution)를 활용할 수 있다.

즉, 라벨 평활화 소프트 라벨(P)을 산출하기 위하여, 제1 확률 분포(Q)의 틀린 픽셀 수를 개선한 제2 확률 분포(

)를 산출할 수 있다.

예를 들어, 제2 확률 분포는 의 크기를 가질 수 있다.

제2 확률 분포는 아래 [수식4]와 같이 산출될 수 있다.

[수식4]

여기서,

는 i번째 픽셀에서 딥러닝 학습 이터레이션(iteration)

번째의 확률 분포를 의미할 수 있다.

또한,

는 제1 확률 분포(Q)와 균등 분포(uniform distribution)의 가중치 팩터(weight factor)를 의미하며, 이는 전체 학습 이터레이션(iteration) 수(T)와 현재 학습 이터레이션(iteration)

의 비율로 결정될 수 있다.

최종적인 픽셀 간 적응적 라벨 평활화 소프트 라벨(P)은 제2 확률 분포를 활용하여 산출될 수 있다. 예를 들어, 라벨 평활화 소프트 라벨(P)은

의 크기를 가질 수 있다.

라벨 평활화 소프트 라벨(P)은 아래 [수식5]와 같이 산출될 수 있다.

[수식5]

여기서,

는 정답 값으로 i번째 픽셀에서의 원-핫 벡터(one-hot vector)를 의미하며,

를 활용하여 학습될 수 있다.

이와 같이, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 방법은 예측 확률 분포를 변형시켜 라벨 평활화 소프트 라벨(P)을 산출하는 데 소요되는 노력, 시간, 비용을 최소화할 수 있다.

본 발명의 다른 실시예들에 따른 자가 지식 증류법 기반 의미론적 영상 분할 장치는 영역 분할 네트워크, 연관성 매트릭스(S) 생성부, PA 모듈, 및 정답 라벨 산출부를 포함할 수 있다.

구체적으로, 자가 지식 증류법 기반 의미론적 영상 분할 장치는 입력 이미지로부터 특징맵(E) 및 로지츠 계층(Z)을 추출하는 영역 분할 네트워크, 상기 특징맵(E)에 기초하여 연관성 매트릭스(S)를 생성하고, Softmax 함수를 이용하여 상기 연관성 매트릭스(S)를 정규화하는 연관성 매트릭스(S) 생성부, 상기 로지츠 계층(Z)에 기초하여 X 매트릭스(X)를 생성하고, Ground Truth로부터 마스크A 및 마스크B를 생성하는 PA 모듈, 및 제1 확률 분포(Q)에 기초하여 라벨 평활화 소프트 라벨(P)을 산출하는 정답 라벨 산출부를 포함할 수 있다.

여기서, 상기 PA 모듈은 상기 X 매트릭스(X), 상기 마스크A, 및 상기 마스크B의 성분 곱에 정규화된 상기 연관성 매트릭스(S)를 행렬 곱셈하고, 업 샘플링을 수행함으로써 상기 제1 확률 분포(Q)를 산출할 수 있다.

본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 장치는 예측 확률 분포를 변형시켜 라벨 평활화 소프트 라벨(P)을 산출하는 데 소요되는 노력, 시간, 비용을 최소화할 수 있다.

또한, 본 발명의 자가 지식 증류법 기반 의미론적 영상 분할 장치는 제한된 데이터만을 사용하는 경우에도, 입력 이미지 내에 존재하는 같은 클래스와 예측한 결과가 맞은 픽셀의 정보를 활용함으로써 부족한 학습 데이터에 대한 오버피팅을 완화하고, 학습 성능을 향상시킬 수 있다.

다만, 이에 대해서는 상술한 바 있으므로, 그에 대한 중복되는 설명은 생략하기로 한다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

E: 특징맵
Z: 로지츠 계층
S: 연관성 매트릭스
X: X 매트릭스
Q: 제1 확률 분포
P: 라벨 평활화 소프트 라벨

Claims

입력 이미지로부터 특징맵 및 로지츠 계층을 추출하는 단계;
상기 특징맵에 기초하여 연관성 매트릭스를 생성하는 단계;
Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 단계;
상기 로지츠 계층에 기초하여 X 매트릭스를 생성하는 단계;
Ground Truth로부터 마스크A 및 마스크B를 생성하는 단계;
상기 X 매트릭스, 상기 마스크A, 상기 마스크B, 및 정규화된 상기 연관성 매트릭스에 기초하여 제1 확률 분포를 산출하는 단계; 및
상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계를 포함하는,
자가 지식 증류법 기반 의미론적 영상 분할 방법.
제1항에 있어서,
상기 특징맵에 기초하여 연관성 매트릭스를 생성하는 단계는,
아래 [수식1]을 이용하여, 상기 특징맵의 특징점을 리쉐이프(reshape)한 E_R 및 상기 E_R을 트랜스포스(transpose)한
의 행렬 곱셈으로 상기 연관성 매트릭스를 생성하는 것을 특징으로 하는,
자가 지식 증류법 기반 의미론적 영상 분할 방법.
[수식1]
제1항에 있어서,
상기 Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 단계는,
상기 연관성 매트릭스에 softmax 함수를 적용함으로써, 상기 연관성 매트릭스의 각 열벡터의 합이 1이 되도록 정규화하는 것을 특징으로 하는,
자가 지식 증류법 기반 의미론적 영상 분할 방법.
제1항에 있어서,
상기 로지츠 계층에 기초하여 X 매트릭스를 생성하는 단계는,
상기 로지츠 계층에 Softmax 함수를 적용하고, Softmax 함수가 적용된 상기 로지츠 계층을 리쉐이프(reshape)함으로써, 상기 X 매트릭스를 생성하는 것을 특징으로 하는,
자가 지식 증류법 기반 의미론적 영상 분할 방법.
제1항에 있어서,
상기 Ground Truth로부터 마스크A 및 마스크B를 생성하는 단계는,
상기 Ground Truth의 같은 클래스에 대한 상기 마스크A 및 예측한 결과에 따른 상기 Ground Truth의 맞은 픽셀을 구분하는 상기 마스크B를 생성하는 것을 특징으로 하는,
자가 지식 증류법 기반 의미론적 영상 분할 방법.
제1항에 있어서,
상기 X 매트릭스, 상기 마스크A, 상기 마스크B, 및 정규화된 상기 연관성 매트릭스에 기초하여 제1 확률 분포를 산출하는 단계는,
상기 X 매트릭스, 상기 마스크A, 및 상기 마스크B의 성분 곱에 정규화된 상기 연관성 매트릭스를 행렬 곱셈하고, 업 샘플링을 수행함으로써 상기 제1 확률 분포를 산출하는 것을 특징으로 하는,
자가 지식 증류법 기반 의미론적 영상 분할 방법.
제1항에 있어서,
상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계는,
아래 [수식4]를 이용하여, 상기 제1 확률 분포의 틀린 픽셀 수를 개선한 제2 확률 분포(
)를 산출하는 것을 특징으로 하는,
자가 지식 증류법 기반 의미론적 영상 분할 방법.
[수식4]
제7항에 있어서,
상기 제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 단계는,
아래 [수식5]를 이용하여, 상기 라벨 평활화 소프트 라벨을 산출하는 것을 특징으로 하는,
자가 지식 증류법 기반 의미론적 영상 분할 방법.
[수식5]
입력 이미지로부터 특징맵 및 로지츠 계층을 추출하는 영역 분할 네트워크;
상기 특징맵에 기초하여 연관성 매트릭스를 생성하고, Softmax 함수를 이용하여 상기 연관성 매트릭스를 정규화하는 연관성 매트릭스 생성부;
상기 로지츠 계층에 기초하여 X 매트릭스를 생성하고, Ground Truth로부터 마스크A 및 마스크B를 생성하는 PA 모듈; 및
제1 확률 분포에 기초하여 라벨 평활화 소프트 라벨을 산출하는 정답 라벨 산출부를 포함하고,
상기 PA 모듈은,
상기 X 매트릭스, 상기 마스크A, 및 상기 마스크B의 성분 곱에 정규화된 상기 연관성 매트릭스를 행렬 곱셈하고, 업 샘플링을 수행함으로써 상기 제1 확률 분포를 산출하는 것을 특징으로 하는,
자가 지식 증류법 기반 의미론적 영상 분할 장치.