KR20220129821A

KR20220129821A - 어텐션 모듈을 포함하는 특징 추출 장치 및 방법

Info

Publication number: KR20220129821A
Application number: KR1020210034608A
Authority: KR
Inventors: 김민기; 이병대
Original assignee: 경기대학교 산학협력단
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2022-09-26
Also published as: KR102525190B1

Abstract

본 발명은 채널 어텐션과 공간 어텐션으로 이루진 X, Y 어텐션 모듈을 딥러닝 신경망에 적용함으로써 입력 영상의 특징을 보다 효율적으로 추출하는 어텐션 모듈을 포함하는 특징 추출 장치 및 방법에 관한 것이다. 본 발명의 일 실시 예에 따르면, 어텐션 모듈을 통해 딥러닝 신경망 내에서 글로벌 특징과 로컬 특징을 추출하여 입력 데이터의 특징을 효과적으로 추출할 수 있다.

Description

어텐션 모듈을 포함하는 특징 추출 장치 및 방법{APPARATUS AND METHOD FOR FEATURE EXTRACTION INCLUDING ATTENTION MODULE}

본 발명은 어텐션 모듈을 포함하는 특징 추출 기술에 관한 것으로, 더욱 상세하게는 입력 영상의 특징을 보다 효율적으로 추출하는 어텐션 모듈을 포함하는 특징 추출 장치 및 방법에 관한 것이다.

딥러닝을 활용한 영상 분류, 탐지 및 분할 분야와 영상이 접목되어 영상 판독에 대한 다양한 연구들이 이루어지고 있다.

딥러닝을 활용한 영상 분할은 입력 영상 속에서 특정 영역을 경계선을 그려 구분할 수 있고 X-Ray, CT, MRI 같은 의료 영상 속에서 장기 및 종양 등을 분할하여 질병 판독에 사용되고 있다. 이러한 질병 자동 판독 시스템은 영상 분할의 성능이 질병 판독 성능으로 이어 질 수 있어 영상 분할의 성능이 더욱 중요해지고 있다.

딥러닝 신경망은 입력 영상에서 특징을 추출하여 학습하는 피처 러닝(Feature Learning)으로 유의미한 특징을 추출하기 위해 많은 연구들이 네트워크의 깊이를 깊게 구성하고 있다.

종래의 방법에 따른 딥러닝 신경망은 네트워크가 깊어질수록 많은 학습 파라미터 수가 존재해 학습 속도가 길어지고 오버 피팅(over-fitting)이 생길 수 있다는 단점이 발생한다.

이를 해결하기위해, 딥러닝 신경망에서 효과적으로 입력 영상의 특징을 추출하기 위해서는 신경망의 구조의 변경이나 어텐션 모듈의 효과적인 적용이 필요하다.

1. 한국 공개특허공보 제10-2018-0004898호 “딥러닝 기반의 이미지 처리 기술 및 그 방법”(공개일자: 2018년 01월 15일)

본 발명이 이루고자 하는 기술적 과제는 채널 어텐션과 공간 어텐션이 결합된 X, Y 어텐션 모듈을 포함하고, 딥러닝 신경망에서 입력 데이터의 특징을 효과적으로 추출하는 어텐션 모듈을 포함하는 특징 추출 장치 및 방법을 제공하는 것이다.

본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 측면에 따르면, 어텐션 모듈을 포함하는 특징 추출 장치를 제공한다.

본 발명의 일 실시 예에 따른 어텐션 모듈을 포함하는 특징 추출 장치는 하나의 입력 피처 맵에 대한 어텐션 맵을 추출하는 X 어텐션 모듈 및 서로 다른 두개의 입력 피처 맵에 대한 어텐션 맵을 추출하는 Y 어텐션 모듈을 포함하고, 적어도 하나 이상의 X 어텐션 모듈과 적어도 하나 이상의 Y 어텐션 모듈을 포함하는 딥러닝 신경망을 통해 입력 데이터의 특징을 추출할 수 있다.

본 발명의 다른 일 측면에 따르면, 어텐션 모듈을 포함하는 특징 추출 방법을 제공한다.

본 발명의 일 실시 예에 따른 어텐션 모듈을 포함하는 특징 추출 방법은X 어텐션 모듈이 동일한 하나의 입력 피처 맵에 대한 어텐션 맵을 추출하는 단계, Y 어텐션 모듈이 서로 다른 두개의 입력 피처 맵에 대한 어텐션 맵을 추출하는 단계 및 적어도 하나 이상의 X 어텐션 모듈과 적어도 하나 이상의 Y 어텐션 모듈을 포함하는 딥러닝 신경망을 통해 입력 데이터의 특징을 추출하는 단계를 포함할 수 있다.

본 발명의 실시예에 따르면, 어텐션 모듈을 통해 딥러닝 신경망 내에서 글로벌 특징과 로컬 특징을 추출하여 입력 데이터의 특징을 추출할 수 있다.

또한, 본 발명의 실시예에 따르면, X, Y 어텐션 모듈을 활용하여 의료 데이터뿐만 아니라 사물 데이터, 배경 데이터 등 다양한 데이터에 적용되어 객체 탐지, 객체 분류, 영상 분할 등에 사용될 수 있다.

본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 설명 또는 청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.

도 1은 본 발명의 실시 예에 따른 어텐션 모듈을 포함하는 특징 추출 장치를 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시 예에 따른 X 어텐션 모듈의 구조를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시 예에 따른 Y 어텐션 모듈의 구조를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시 예에 따른 X 어텐션 모듈 및 Y 어텐션 모듈의 적용 위치를 설명하기 위한 도면이다.
도 5 내지 7은 본 발명의 일 실시 예에 따른 X 어텐션 모듈 및 Y 어텐션 모듈의 적용 위치에 관한 결과를 설명하기 위한 도면들이다.
도 8은 본 발명의 일 실시 예에 따른 어텐션 모듈을 포함하는 특징 추출 방법을 설명하기 위한 도면이다.

이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결(접속, 접촉, 결합)"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 실시예에 따른 어텐션 모듈을 포함하는 특징 추출 장치를 설명하기 위한 도면이다.

도1을 참조하면, 어텐션 모듈을 포함하는 특징 추출 장치는 X 어텐션 모듈(100) 및 Y 어텐션 모듈(200)을 포함할 수 있다.

X 어텐션 모듈(100)은 채널 어텐션(Channel Attention,110)과 공간 어텐션(Spatial Attention,120)의 조합으로 이루어져 있다.

X 어텐션 모듈(100)은 채널 어텐션(110)과 공간 어텐션(120)을 통해 입력 데이터에서 로컬 특징을 추출할 수 있다.

X 어텐션 모듈(100)에 입력되는 입력 데이터는 하나의 입력 피처 맵일 수 있고, 채널 어텐션(110)과 공간 어텐션(120)에 동일한 하나의 입력 피처 맵이 각각 입력될 수 있다.

X 어텐션 모듈(100)은 채널 어텐션(110)을 통해 하나의 입력 피처 맵에 대한 채널 어텐션 맵을 추출할 수 있다.

X 어텐션 모듈(100)은 공간 어텐션(120)을 통해 하나의 입력 피처 맵에 대한 공간 어텐션 맵을 추출할 수 있다.

X 어텐션 모듈(100)은 공간 어텐션 맵과 채널 어텐션 맵의 요소 별 곱을 수행할 수 있다. 이후, X 어텐션 모듈(100)은 요소 별 곱의 결과값에 활성화 함수를 적용하여 X 어텐션 맵을 추출할 수 있다.

실시예에 따라, X 어텐션 모듈(100)은 하나의 입력 피처 맵에 대해 제1 채널 어텐션(110)을 통해 제1 채널 어텐션 맵을 추출하고, 하나의 입력 피처 맵에 대해 제1 공간 어텐션(120)을 통해 제1 공간 어텐션 맵을 추출하고, 제1 채널 어텐션 맵과 제1 공간 어텐션 맵을 조합하여 X 어텐션 맵을 추출을 추출할 수 있다.

Y 어텐션 모듈(200)은 X 어텐션 모듈(100)의 변형으로 채널 어텐션(Channel Attention,210)과 공간 어텐션(Spatial Attention,220)의 조합으로 이루어져 있다.

Y 어텐션 모듈(200)에 입력되는 입력 데이터는 서로 다른 두개의 입력 피처 맵일 수 있고, 채널 어텐션(210)과 공간 어텐션(220)에 서로 다른 두개의 입력 피처 맵이 각각 입력될 수 있다.

Y 어텐션 모듈(200)은 채널 어텐션(210)을 통해 서로 다른 두개의 입력 피처 맵 중 어느 하나에 대한 채널 어텐션 맵을 추출할 수 있다.

Y 어텐션 모듈(200)은 공간 어텐션(220)을 통해 서로 다른 두개의 입력 피처 맵 중 채널 어텐션(210)에 입력되지 않은 나머지 하나에 대한 공간 어텐션 맵을 추출할 수 있다.

Y 어텐션 모듈(200)은 공간 어텐션 맵과 채널 어텐션 맵의 요소 별 곱을 수행할 수 있다. 이후, Y 어텐션 모듈(200)은 요소 별 곱의 결과값에 활성화 함수를 적용하여 Y 어텐션 맵을 추출할 수 있다.

실시예에 따라, Y 어텐션 모듈(200)은 서로 다른 두개의 입력 피처 맵 중 어느 하나에 대해 제2 채널 어텐션을 통해 제2 채널 어텐션 맵을 추출하고, 서로 다른 두개의 입력 피처 맵 중 나머지 하나에 대해 제2공간 어텐션을 통해 제2 공간 어텐션 맵을 추출하고, 제2 채널 어텐션 맵과 제2 공간 어텐션 맵을 조합하여 Y 어텐션 맵을 추출을 추출할 수 있다.

X 어텐션 모듈(100) 및 Y 어텐션 모듈(200)에 포함되는 채널 어텐션은 입력 피처 맵의 채널 간 특징을 재조정해 학습 과정에서 '무엇'에 해당하는 부분을 부각시키는 역할을 할 수 있다.

X 어텐션 모듈(100) 및 Y 어텐션 모듈(200)에 포함되는 공간 어텐션은 여러 개의 컨볼루션 레이어를 통해 추출된 특징들을 조합해 학습과정에서 '어디'에 해당하는 부분을 부각시키는 역할을 할 수 있다.

따라서, 어텐션 모듈을 포함하는 특징 추출 장치는 채널 어텐션과 공간 어텐션이 조합된 X 어텐션 모듈(100) 및Y 어텐션 모듈(200)을 통해 입력 피처 맵을 대상으로 채널/공간 별 특징을 재조정하여 입력 피처 맵의 중요한 특징을 포함하는 피처 맵(Feature map)을 추출할 수 있다.

도 2는 본 발명의 일 실시예에 따른 X 어텐션 모듈의 구조를 설명하기 위한 도면이다.

도2를 참조하면, X 어텐션 모듈(100)은 입력 피처 맵(

)에 대해 채널 어텐션(110)과 공간 어텐션(120)을 통해 추출된 특징을 조합하여 로컬 특징을 추출할 수 있다. 채널 어텐션(110)은 입력 피처 맵(

)의 채널간 특징을 재조정해 학습 과정에서 '무엇'에 해당하는 부분을 추출할 수 있다.

X 어텐션 모듈(100)은 채널 어텐션(110)을 효율적으로 계산하기 위해서 입력 피처 맵(

)을 GAP(Global Average Pooling)을 통해 압축할 수 있다.

GAP는 입력(

)의 채널 별 평균값으로 압축하기 때문에 글로벌 정보를 보다 효과적으로 활용한 압축된 특징을 추출할 수 있다.

GAP를 통해 압축시킨 피처 맵은 채널 별 중요도를 계산하기 위해 하나의 히든 레이어로 구성된 MLP(Multi - Layer Perceptron)을 통과할 수 있다.

입력 피처 맵(

)이 GAP와 MLP를 연속적으로 통과하면서 추출된 각 채널의 특징은 BN(Batch Normalization)과 활성화 함수인 ReLU(Rectified Linear Unit) 함수를 통과하여 채널 어텐션(110)의 결과로 추출될 수 있다. 이와 같은 채널 어텐션(110)을 통과하여 생성된 채널 어텐션 맵(

)은 하기 수학식 1과 같다.

[수학식1]

여기서

은 입력 피처 맵이고,

은 채널 어텐션 맵이다.

X 어텐션 모듈(100)의 공간 어텐션(120)은 채널 어텐션(110)과 같은 입력(

)에 대해 여러 개의 컨볼루션 레이어를 통해 추출된 특징들을 조합해 학습과정에서 '어디'에 해당하는 부분을 출력할 수 있다.

X 어텐션 모듈(100)의 공간 어텐션(120)에 입력되는 입력 피처 맵(

)은 3 X 3 컨볼루션 레이어를 연속적으로 통과하면서 다양한 스케일을 가지는 피처 맵들을 생성할 수 있다. 이후, 생성된 피처 맵들은 업샘플링(Up-Sampling)을 통해 입력 피처 맵과 같은 크기로 변형시킨 다음, 다음 레이어의 입력으로 더해질 수 있다.

X 어텐션 모듈(100)의 공간 어텐션(120)은 피처 피라미드 네트워크(Feature Pyramid Network)의 구조로 이루어지고, 다양한 스케일을 가지는 여러 개의 피처 맵을 추출하고 활용하는 구조를 통해 학습 네트워크가 낮은 수준부터 높은 수준까지의 특징을 가지고 학습할 수 있어 미세한 특징을 가지는 중요한 영역에 로컬 정보를 효과적으로 추출할 수 있다.

공간 어텐션(120)을 통해 생성된 공간 어텐션 맵(

)은 채널 어텐션(110)을 통해 추출된 채널 어텐션 맵과 요소 별 곱(element-wise)을 통해 곱해지고, 활성화 함수인 시그모이드 함수(

)를 통해 생성된 X 어텐션 모듈의 X 어텐션 맵(

)은 하기 수학식 2와 같다.

[수학식2]

여기서

은 입력 피처 맵이고,

은 채널 어텐션 맵,

은 공간 어탭션 맵,

은 X 어텐션 맵이다.

도 3은 본 발명의 일 실시예에 따른 Y 어텐션 모듈의 구조를 설명하기 위한 도면이다.

도 3을 참조하면, Y 어텐션 모듈(200)은 X 어텐션 모듈(100)의 변형으로 입력 영상 속에서 글로벌 특징을 효과적으로 추출할 수 있다.

Y 어텐션 모듈(200)은 두 개의 피처 맵(

,

)을 입력데이터로 수신한다.

제1 입력 피처 맵(

)과 제2 입력 피처 맵(

)은 서로 다른 피처 맵이고 서로 다른 스케일을 가진다.

제1 입력 피처 맵(

)은 제2 입력 피처 맵(

)과 스케일과 같게 업 샘플을 적용한 다음， Y 어텐션 모듈(200)의 입력으로 사용할 수 있다. 이때, 업 샘플링 된 제1 입력 피처 맵(

)은 글로벌 특징을 추출하는데 효과적 이므로 Y 어텐션 모듈(200)의 채널 어텐션(210)을 통해 글로벌 특징을 추출할 수 있다. 따라서, Y 어텐션 모듈(200)은 채널 어텐션(210)을 통해 채널 어텐션 맵(

)을 추출할 수 있다.

그리고, 제2 입력 피처 맵(

)은 제1 입력 피처 맵(

) 보다 큰 스케일을 가지고 있어 로컬 정보를 추출하는데 있어 효과적이므로 다양한 로컬 정보를 추출할 수 있는 어텐션 모듈(200)의 공간 어텐션(220)의 입력으로 사용할 수 있다. 따라서, Y 어텐션 모듈(200)은 공간 어텐션(220)을 통해 공간 어텐션 맵(

)을 추출할 수 있다.

또한, Y 어텐션 모듈(200)은 제1 입력 피처 맵(

)과 제2 입력 피처 맵

)이 서로 다른 피처 맵이고 채널의 수가 서로 다른 경우, 채널 어텐션(210)에서 사용되는 MLP를 통해 제1 입력 피처 맵(

)의 채널 수와 제2 입력 피처 맵(

)의 채널 수가 동일하도록 조정할 수 있다.

Y 어텐션 모듈(200)은 제1 입력 피처 맵(

)의 채널 수와 제2 입력 피처 맵(

)의 채널 수가 동일한 경우, Y 어텐션 모듈(200)의 채널 어텐션 맵(

) 과 공간 어텐션 맵(

) 간의 요소별 곱을 수행할 수 있다.

Y 어텐션 모듈(200)은 어텐션 맵 간의 요소별 곱 이후, 활성화 함수인 시그모이드 함수 (

)를 통해 Y 어텐션 모듈(200)의 Y 어텐션 맵(

) 을 하기 수학식 3과 같이 추출할 수 있다.

[수학식3]

여기서

은 제1 입력 피처 맵이고,

은 제2 입력 피처 맵이고,

은 채널 어텐션 맵이고,

은 공간 어탭션 맵이고,

은 Y 어텐션 맵이다.

도 4는 본 발명의 일 실시예에 따른 X 어텐션 모듈 및 Y 어텐션 모듈의 적용 위치를 설명하기 위한 도면이다.

도 4를 참조하면, 어텐션 모듈을 포함하는 특징 추출 장치는 채널 어텐션과 공간 어텐션으로 이루어진 X 어텐션 모듈 및 Y 어텐션 모듈을 다운 샘플링과 업 샘플링이 이어지는 U자 모양의 구조를 가지는 유넷(U-Net)에 적용해 입력 데이터의 특징을 추출하였다. 따라서, 어텐션 모듈을 포함하는 특징 추출 장치의 딥러닝 신경망은 다운 샘플링 중에는 X 어텐션 모듈을 적용하고, 업 샘플링 중에는 Y 어텐션 모듈을 적용할 수 있다.

X 어텐션 모듈 및 Y 어텐션 모듈은 유넷(U-Net)의 컨볼루션 블록(Conv Blocks)과 결합되어 적용될 수 있다. 이때, 입력 데이터 셋의 특징， 어텐션 모듈의 위치에 따라 특징 추출 성능이 달라지므로 최적의 성능을 보여주는 어텐션 모듈 적용 위치를 찾는 것은 중요하다.

입력 데이터(410)인 가슴 엑스레이(Chest X-ray) 데이터 셋에 대해서는 복수의 X 어텐션 모듈 및 Y 어텐션 모듈이 배치될 수 있다. 이를 통해, 입력 데이터의 글로벌 특징 및 로컬 특징을 포함하고, 입력 영상과 같은 크기를 가지는 결과 데이터(420)를 출력할 수 있다.

도 4에 도시된 바와 같이, 다양한 위치에 어텐션 모듈의 적용될 수 있으며, 다운 샘플링의 컨볼루션 블록이 5개 인 경우, X 어텐션 모듈은 최대 4개인

의 구성을 가질 수 있다. 그리고, 업 샘플링의 컨볼루션 블록이 5개 인 경우, Y 어텐션 모듈은 최대 4개인

의 구성을 가질 수 있다.

도 5 내지 7은 본 발명의 일 실시예에 따른 X 어텐션 모듈 및 Y 어텐션 모듈의 적용 위치에 관한 결과를 설명하기 위한 도면들이다.

도 5를 참조하면, 다양한 위치에 어텐션 모듈을 적용한 딥러닝 신경망 구조의 Dice(Dice score), Sen(Sensitivity), PPV(Positive Predictive Value)의 측정값을 도시한다.

X 어텐션 모듈 및 Y 어텐션 모듈을 각각 적용했을 때 보다는 X, Y 어텐션 모듈을 조합했을 때가 향상된 수치를 보여준다. X 어텐션 모듈만을 적용했을 때는 비교적 원본 크기와 가까운 크기를 가지는 피처 맵을 입력으로 사용하는

위치에 적용했을 때,

위치에 적용했을 때보다 향상된 성능을 보여준다.

Y 어텐션 모듈만을 적용했을 때는

위치에 적용했을 때

위치에 적용했을 때 보다 향상된 성능을 보여준다. 다양한 위치에 어텐션 모듈의 적용에 따른 네트워크 성능을 비교했을 때,

위치에 적요한 경우가 가장 분할 성능을 보여준다.

이때,

위치에서 가장 좋은 성능을 보이는 이유는

위치에 어텐션 모듈을 적용하면,

를 통해 추출된 어텐션 맵이

어텐션 모듈의 입력으로 사용되고, 연속적인 어텐션 모듈의 적용을 통해

를 개별적으로 적용했을 때 보다 미세한 특징을 잘 추출할 수 있다.

그리고 입력 영상과 같은 크기를 가지는 결과를 생성해야 되는 영상 분할의 특성상 비교적 입력 영상의 크기와 가까운 피처 맵을 통해 특징을 추출하는 구조인

구조에서 좋은 성능을 나타낸다.

도 6은 본 발명에 따른 어텐션 모듈을 포함하는 특징 추출 장치의 유효성을 입증하기 위해 입력 영상으로 공개된 가슴 엑스레이(Montgomery， JSRT, NIH) 영상에 유넷( U-Net), 어텐션 유넷(Attention U-Net), XLSor 및 어텐션 모듈을 적용한 딥러닝 신경망(our)에 따른 결과 값을 도시한 도면이고, 도 7은 도 6의 결과 값을 그래프를 도시한 도면이다.

도 6내지 7을 참조하면, Dice, SEN, PPV 수치를 통해 비교를 해보면, 분할한 영역에 대한 비교인 Dice 수치는 제안하는 어텐션 모듈을 적용한 네트워크와 XLSor 둘 다 비슷한 수치를 보여준다. 분할 한 결과가 정답인 비율에 해당하는 SEN에 대해 비교해보면, XLSor이 높은 수치를 보여준다. 마지막으로, 예측한 분할 결과가 가장 실제 정답일 비율에 해당하는 PPV에 대해 비교해보면, 본 발명에 따른 어텐션 모듈을 적용한 딥러닝 신경망(our)가 가장 높은 수치를 보여준다.

도 8은 본 발명의 일 실시예에 따른 어텐션 모듈을 포함하는 특징 추출 방법을 설명하기 위한 도면이다.

도 8을 참조하면, 단계 S810에서, 어텐션 모듈을 포함하는 특징 추출 장치는 X 어텐션 모듈을 통해 동일한 하나의 입력 피처 맵에 대한 어텐션 맵을 추출할 수 있다. 이를 위해, 어텐션 모듈을 포함하는 특징 추출 장치는 X 어텐션 모듈 내의 채널 어텐션을 통해 동일한 하나의 입력 피처 맵에 대한 채널 어텐션 맵을 추출하고, X 어텐션 모듈 내의 공간 어텐션이 동일한 하나의 입력 피처 맵에 대한 공간 어텐션 맵을 추출하고, 공간 어텐션 맵과 채널 어텐션 맵의 요소 별 곱을 수행하고, 요소 별 곱의 결과값에 활성화 함수를 적용하여 X 어텐션 맵을 추출할 수 있다.

단계 S820에서, 어텐션 모듈을 포함하는 특징 추출 장치는 Y 어텐션 모듈을 통해 서로 다른 두개의 입력 피처 맵에 대한 어텐션 맵을 추출할 수 있다. 이를 위해 어텐션 모듈을 포함하는 특징 추출 장치는 Y 어텐션 모듈 내의 채널 어텐션이 서로 다른 두개의 입력 피처 맵 중 어느 하나에 대해 채널 어텐션 맵을 추출하고, Y 어텐션 모듈 내의 공간 어텐션이 두개의 입력 피처 맵 중 나머지 하나에 대한 공간 어텐션 맵을 추출하고, 공간 어텐션 맵과 채널 어텐션 맵의 요소 별 곱을 수행하고, 요소 별 곱의 결과값에 활성화 함수를 적용하여 X 어텐션 맵을 추출할 수 있다.

단계 S830에서, 어텐션 모듈을 포함하는 특징 추출 장치는 적어도 하나 이상의 X 어텐션 모듈과 적어도 하나 이상의 Y 어텐션 모듈을 포함하는 딥러닝 신경망을 통해 입력 데이터의 특징을 추출할 수 있다. 이때, 어텐션 모듈을 포함하는 특징 추출 장치는 딥러닝 신경망의 다운 샘플링 중에는 X 어텐션 모듈을 적용하고, 딥러닝 신경망의 업 샘플링 중에는 Y 어텐션 모듈을 적용할 수 있다.

이러한 어텐션 모듈을 포함하는 특징 추출 방법은, 딥러닝 신경망에서 입력 데이터의 특징을 효과적으로 추출하기 위해, X, Y 어텐션 모듈을 신경망 내에 배치하여 글로벌 특징과 로컬 특징을 효과적으로 추출하여, 입력 데이터의 특징을 효과적으로 추출하였다.

또한, 어텐션 모듈을 포함하는 특징 추출 방법은 X, Y 어텐션 모듈을 활용하여 의료 데이터뿐만 아니라 사물 데이터, 배경 데이터 등 다양한 데이터에 적용하여 객체 탐지, 객체 분류, 영상 분할 등의연구에 적용되어 사용될 수 있다.

상술한 어텐션 모듈을 포함하는 특징 추출 방법은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비형 하드 디스크)일 수 있다. 컴퓨터로 읽을 수 있는 기록 매체에 기록된 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 다른 컴퓨팅 장치에서 사용될 수 있다.

이상에서, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.

도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시 예 들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.

이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

10: X 어텐션 모듈
20: Y 어텐션 모듈
110,210: 채널 어텐션
120,220: 공간 어텐션

Claims

하나의 입력 피처 맵에 대한 어텐션 맵을 추출하는 X 어텐션 모듈; 및
서로 다른 두개의 입력 피처 맵에 대한 어텐션 맵을 추출하는 Y 어텐션 모듈을 포함하고,
적어도 하나 이상의 상기 X 어텐션 모듈과 적어도 하나 이상의 상기 Y 어텐션 모듈을 포함하는 딥러닝 신경망을 통해 입력 데이터의 특징을 추출하는
어텐션 모듈을 포함하는 특징 추출 장치.
제1 항에 있어서,
상기 X 어텐션 모듈은
상기 하나의 입력 피처 맵에 대한 채널 어텐션 맵을 추출하는 채널 어텐션; 및
상기 하나의 입력 피처 맵에 대한 공간 어텐션 맵을 추출하는 공간 어텐션을 포함하는
어텐션 모듈을 포함하는 특징 추출 장치.
제2항에 있어서,
상기 X 어텐션 모듈은
상기 공간 어텐션 맵과 상기 채널 어텐션 맵의 요소 별 곱을 수행하고,
상기 요소 별 곱의 결과값에 활성화 함수를 적용하여 X 어텐션 맵을 추출하는
어텐션 모듈을 포함하는 특징 추출 장치.
제1 항에 있어서,
상기 Y 어텐션 모듈은
상기 서로 다른 두개의 입력 피처 맵 중 어느 하나에 대해 채널 어텐션 맵을 추출하는 채널 어텐션; 및
상기 두개의 입력 피처 맵 중 나머지 하나에 대한 공간 어텐션 맵을 추출하는 공간 어텐션을 포함하는
어텐션 모듈을 포함하는 특징 추출 장치.
제4항에 있어서,
상기 Y 어텐션 모듈은
상기 공간 어텐션 맵과 상기 채널 어텐션 맵의 요소 별 곱을 수행하고,
상기 요소 별 곱의 결과값에 활성화 함수를 적용하여 Y 어텐션 맵을 추출하는
어텐션 모듈을 포함하는 특징 추출 장치.
제1항에 있어서,
상기 딥러닝 신경망은
다운 샘플링 중에는 상기 X 어텐션 모듈을 적용하고,
업 샘플링 중에는 상기 Y 어텐션 모듈을 적용하는
어텐션 모듈을 포함하는 특징 추출 장치.
X 어텐션 모듈이 동일한 하나의 입력 피처 맵에 대한 어텐션 맵을 추출하는 단계;
Y 어텐션 모듈이 서로 다른 두개의 입력 피처 맵에 대한 어텐션 맵을 추출하는 단계; 및
적어도 하나 이상의 상기 X 어텐션 모듈과 적어도 하나 이상의 상기 Y 어텐션 모듈을 포함하는 딥러닝 신경망을 통해 입력 데이터의 특징을 추출하는 단계를 포함하는
어텐션 모듈을 포함하는 특징 추출 방법.
제7 항에 있어서,
상기 X 어텐션 모듈이 동일한 하나의 입력 피처 맵에 대한 어텐션 맵을 추출하는 단계는
상기 X 어텐션 모듈 내의 채널 어텐션이 상기 동일한 하나의 입력 피처 맵에 대한 채널 어텐션 맵을 추출하는 단계; 및
상기 X 어텐션 모듈 내의 공간 어텐션이 상기 동일한 하나의 입력 피처 맵에 대한 공간 어텐션 맵을 추출하는 단계를 포함하는
어텐션 모듈을 포함하는 특징 추출 방법.
제8항에 있어서,
상기 공간 어텐션 맵과 상기 채널 어텐션 맵의 요소 별 곱을 수행하는 단계; 및
상기 요소 별 곱의 결과값에 활성화 함수를 적용하여 X 어텐션 맵을 추출하는 단계를 더 포함하는
어텐션 모듈을 포함하는 특징 추출 방법.
제7 항에 있어서,
상기 Y 어텐션 모듈이 서로 다른 두개의 입력 피처 맵에 대한 어텐션 맵을 추출하는 단계는
상기 Y 어텐션 모듈 내의 채널 어텐션이 상기 서로 다른 두개의 입력 피처 맵 중 어느 하나에 대해 채널 어텐션 맵을 추출하는 단계; 및
상기 Y 어텐션 모듈 내의 공간 어텐션이 상기 두개의 입력 피처 맵 중 나머지 하나에 대한 공간 어텐션 맵을 추출하는 단계를 포함하는
어텐션 모듈을 포함하는 특징 추출 방법.
제10항에 있어서,
상기 Y 어텐션 모듈이 상기 공간 어텐션 맵과 상기 채널 어텐션 맵의 요소 별 곱을 수행하는 단계; 및
상기 Y 어텐션 모듈이 상기 요소 별 곱의 결과값에 활성화 함수를 적용하여 Y 어텐션 맵을 추출하는 단계를 더 포함하는
어텐션 모듈을 포함하는 특징 추출 방법.
제7항에 있어서,
상기 입력 데이터의 특징을 추출하는 단계는
상기 딥러닝 신경망의 다운 샘플링 중에는 상기 X 어텐션 모듈을 적용하고,
상기 딥러닝 신경망의 업 샘플링 중에는 상기 Y 어텐션 모듈을 적용하는
어텐션 모듈을 포함하는 특징 추출 방법.
제7 항 내지 제12 항 중 어느 하나의 어텐션 모듈을 포함하는 특징 추출 방법을 실행하고 컴퓨터가 판독 가능한 기록매체에 기록된 컴퓨터 프로그램.