KR20220129821A - 어텐션 모듈을 포함하는 특징 추출 장치 및 방법 - Google Patents

어텐션 모듈을 포함하는 특징 추출 장치 및 방법 Download PDF

Info

Publication number
KR20220129821A
KR20220129821A KR1020210034608A KR20210034608A KR20220129821A KR 20220129821 A KR20220129821 A KR 20220129821A KR 1020210034608 A KR1020210034608 A KR 1020210034608A KR 20210034608 A KR20210034608 A KR 20210034608A KR 20220129821 A KR20220129821 A KR 20220129821A
Authority
KR
South Korea
Prior art keywords
attention
map
attention module
module
extracting
Prior art date
Application number
KR1020210034608A
Other languages
English (en)
Other versions
KR102525190B1 (ko
Inventor
김민기
이병대
Original Assignee
경기대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경기대학교 산학협력단 filed Critical 경기대학교 산학협력단
Priority to KR1020210034608A priority Critical patent/KR102525190B1/ko
Publication of KR20220129821A publication Critical patent/KR20220129821A/ko
Application granted granted Critical
Publication of KR102525190B1 publication Critical patent/KR102525190B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/003Reconstruction from projections, e.g. tomography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

본 발명은 채널 어텐션과 공간 어텐션으로 이루진 X, Y 어텐션 모듈을 딥러닝 신경망에 적용함으로써 입력 영상의 특징을 보다 효율적으로 추출하는 어텐션 모듈을 포함하는 특징 추출 장치 및 방법에 관한 것이다. 본 발명의 일 실시 예에 따르면, 어텐션 모듈을 통해 딥러닝 신경망 내에서 글로벌 특징과 로컬 특징을 추출하여 입력 데이터의 특징을 효과적으로 추출할 수 있다.

Description

어텐션 모듈을 포함하는 특징 추출 장치 및 방법{APPARATUS AND METHOD FOR FEATURE EXTRACTION INCLUDING ATTENTION MODULE}
본 발명은 어텐션 모듈을 포함하는 특징 추출 기술에 관한 것으로, 더욱 상세하게는 입력 영상의 특징을 보다 효율적으로 추출하는 어텐션 모듈을 포함하는 특징 추출 장치 및 방법에 관한 것이다.
딥러닝을 활용한 영상 분류, 탐지 및 분할 분야와 영상이 접목되어 영상 판독에 대한 다양한 연구들이 이루어지고 있다.
딥러닝을 활용한 영상 분할은 입력 영상 속에서 특정 영역을 경계선을 그려 구분할 수 있고 X-Ray, CT, MRI 같은 의료 영상 속에서 장기 및 종양 등을 분할하여 질병 판독에 사용되고 있다. 이러한 질병 자동 판독 시스템은 영상 분할의 성능이 질병 판독 성능으로 이어 질 수 있어 영상 분할의 성능이 더욱 중요해지고 있다.
딥러닝 신경망은 입력 영상에서 특징을 추출하여 학습하는 피처 러닝(Feature Learning)으로 유의미한 특징을 추출하기 위해 많은 연구들이 네트워크의 깊이를 깊게 구성하고 있다.
종래의 방법에 따른 딥러닝 신경망은 네트워크가 깊어질수록 많은 학습 파라미터 수가 존재해 학습 속도가 길어지고 오버 피팅(over-fitting)이 생길 수 있다는 단점이 발생한다.
이를 해결하기위해, 딥러닝 신경망에서 효과적으로 입력 영상의 특징을 추출하기 위해서는 신경망의 구조의 변경이나 어텐션 모듈의 효과적인 적용이 필요하다.
1. 한국 공개특허공보 제10-2018-0004898호 “딥러닝 기반의 이미지 처리 기술 및 그 방법”(공개일자: 2018년 01월 15일)
본 발명이 이루고자 하는 기술적 과제는 채널 어텐션과 공간 어텐션이 결합된 X, Y 어텐션 모듈을 포함하고, 딥러닝 신경망에서 입력 데이터의 특징을 효과적으로 추출하는 어텐션 모듈을 포함하는 특징 추출 장치 및 방법을 제공하는 것이다.
본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 측면에 따르면, 어텐션 모듈을 포함하는 특징 추출 장치를 제공한다.
본 발명의 일 실시 예에 따른 어텐션 모듈을 포함하는 특징 추출 장치는 하나의 입력 피처 맵에 대한 어텐션 맵을 추출하는 X 어텐션 모듈 및 서로 다른 두개의 입력 피처 맵에 대한 어텐션 맵을 추출하는 Y 어텐션 모듈을 포함하고, 적어도 하나 이상의 X 어텐션 모듈과 적어도 하나 이상의 Y 어텐션 모듈을 포함하는 딥러닝 신경망을 통해 입력 데이터의 특징을 추출할 수 있다.
본 발명의 다른 일 측면에 따르면, 어텐션 모듈을 포함하는 특징 추출 방법을 제공한다.
본 발명의 일 실시 예에 따른 어텐션 모듈을 포함하는 특징 추출 방법은X 어텐션 모듈이 동일한 하나의 입력 피처 맵에 대한 어텐션 맵을 추출하는 단계, Y 어텐션 모듈이 서로 다른 두개의 입력 피처 맵에 대한 어텐션 맵을 추출하는 단계 및 적어도 하나 이상의 X 어텐션 모듈과 적어도 하나 이상의 Y 어텐션 모듈을 포함하는 딥러닝 신경망을 통해 입력 데이터의 특징을 추출하는 단계를 포함할 수 있다.
본 발명의 실시예에 따르면, 어텐션 모듈을 통해 딥러닝 신경망 내에서 글로벌 특징과 로컬 특징을 추출하여 입력 데이터의 특징을 추출할 수 있다.
또한, 본 발명의 실시예에 따르면, X, Y 어텐션 모듈을 활용하여 의료 데이터뿐만 아니라 사물 데이터, 배경 데이터 등 다양한 데이터에 적용되어 객체 탐지, 객체 분류, 영상 분할 등에 사용될 수 있다.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 설명 또는 청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 실시 예에 따른 어텐션 모듈을 포함하는 특징 추출 장치를 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시 예에 따른 X 어텐션 모듈의 구조를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시 예에 따른 Y 어텐션 모듈의 구조를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시 예에 따른 X 어텐션 모듈 및 Y 어텐션 모듈의 적용 위치를 설명하기 위한 도면이다.
도 5 내지 7은 본 발명의 일 실시 예에 따른 X 어텐션 모듈 및 Y 어텐션 모듈의 적용 위치에 관한 결과를 설명하기 위한 도면들이다.
도 8은 본 발명의 일 실시 예에 따른 어텐션 모듈을 포함하는 특징 추출 방법을 설명하기 위한 도면이다.
이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결(접속, 접촉, 결합)"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 어텐션 모듈을 포함하는 특징 추출 장치를 설명하기 위한 도면이다.
도1을 참조하면, 어텐션 모듈을 포함하는 특징 추출 장치는 X 어텐션 모듈(100) 및 Y 어텐션 모듈(200)을 포함할 수 있다.
X 어텐션 모듈(100)은 채널 어텐션(Channel Attention,110)과 공간 어텐션(Spatial Attention,120)의 조합으로 이루어져 있다.
X 어텐션 모듈(100)은 채널 어텐션(110)과 공간 어텐션(120)을 통해 입력 데이터에서 로컬 특징을 추출할 수 있다.
X 어텐션 모듈(100)에 입력되는 입력 데이터는 하나의 입력 피처 맵일 수 있고, 채널 어텐션(110)과 공간 어텐션(120)에 동일한 하나의 입력 피처 맵이 각각 입력될 수 있다.
X 어텐션 모듈(100)은 채널 어텐션(110)을 통해 하나의 입력 피처 맵에 대한 채널 어텐션 맵을 추출할 수 있다.
X 어텐션 모듈(100)은 공간 어텐션(120)을 통해 하나의 입력 피처 맵에 대한 공간 어텐션 맵을 추출할 수 있다.
X 어텐션 모듈(100)은 공간 어텐션 맵과 채널 어텐션 맵의 요소 별 곱을 수행할 수 있다. 이후, X 어텐션 모듈(100)은 요소 별 곱의 결과값에 활성화 함수를 적용하여 X 어텐션 맵을 추출할 수 있다.
실시예에 따라, X 어텐션 모듈(100)은 하나의 입력 피처 맵에 대해 제1 채널 어텐션(110)을 통해 제1 채널 어텐션 맵을 추출하고, 하나의 입력 피처 맵에 대해 제1 공간 어텐션(120)을 통해 제1 공간 어텐션 맵을 추출하고, 제1 채널 어텐션 맵과 제1 공간 어텐션 맵을 조합하여 X 어텐션 맵을 추출을 추출할 수 있다.
Y 어텐션 모듈(200)은 X 어텐션 모듈(100)의 변형으로 채널 어텐션(Channel Attention,210)과 공간 어텐션(Spatial Attention,220)의 조합으로 이루어져 있다.
Y 어텐션 모듈(200)에 입력되는 입력 데이터는 서로 다른 두개의 입력 피처 맵일 수 있고, 채널 어텐션(210)과 공간 어텐션(220)에 서로 다른 두개의 입력 피처 맵이 각각 입력될 수 있다.
Y 어텐션 모듈(200)은 채널 어텐션(210)을 통해 서로 다른 두개의 입력 피처 맵 중 어느 하나에 대한 채널 어텐션 맵을 추출할 수 있다.
Y 어텐션 모듈(200)은 공간 어텐션(220)을 통해 서로 다른 두개의 입력 피처 맵 중 채널 어텐션(210)에 입력되지 않은 나머지 하나에 대한 공간 어텐션 맵을 추출할 수 있다.
Y 어텐션 모듈(200)은 공간 어텐션 맵과 채널 어텐션 맵의 요소 별 곱을 수행할 수 있다. 이후, Y 어텐션 모듈(200)은 요소 별 곱의 결과값에 활성화 함수를 적용하여 Y 어텐션 맵을 추출할 수 있다.
실시예에 따라, Y 어텐션 모듈(200)은 서로 다른 두개의 입력 피처 맵 중 어느 하나에 대해 제2 채널 어텐션을 통해 제2 채널 어텐션 맵을 추출하고, 서로 다른 두개의 입력 피처 맵 중 나머지 하나에 대해 제2공간 어텐션을 통해 제2 공간 어텐션 맵을 추출하고, 제2 채널 어텐션 맵과 제2 공간 어텐션 맵을 조합하여 Y 어텐션 맵을 추출을 추출할 수 있다.
X 어텐션 모듈(100) 및 Y 어텐션 모듈(200)에 포함되는 채널 어텐션은 입력 피처 맵의 채널 간 특징을 재조정해 학습 과정에서 '무엇'에 해당하는 부분을 부각시키는 역할을 할 수 있다.
X 어텐션 모듈(100) 및 Y 어텐션 모듈(200)에 포함되는 공간 어텐션은 여러 개의 컨볼루션 레이어를 통해 추출된 특징들을 조합해 학습과정에서 '어디'에 해당하는 부분을 부각시키는 역할을 할 수 있다.
따라서, 어텐션 모듈을 포함하는 특징 추출 장치는 채널 어텐션과 공간 어텐션이 조합된 X 어텐션 모듈(100) 및Y 어텐션 모듈(200)을 통해 입력 피처 맵을 대상으로 채널/공간 별 특징을 재조정하여 입력 피처 맵의 중요한 특징을 포함하는 피처 맵(Feature map)을 추출할 수 있다.
도 2는 본 발명의 일 실시예에 따른 X 어텐션 모듈의 구조를 설명하기 위한 도면이다.
도2를 참조하면, X 어텐션 모듈(100)은 입력 피처 맵(
Figure pat00001
)에 대해 채널 어텐션(110)과 공간 어텐션(120)을 통해 추출된 특징을 조합하여 로컬 특징을 추출할 수 있다. 채널 어텐션(110)은 입력 피처 맵(
Figure pat00002
)의 채널간 특징을 재조정해 학습 과정에서 '무엇'에 해당하는 부분을 추출할 수 있다.
X 어텐션 모듈(100)은 채널 어텐션(110)을 효율적으로 계산하기 위해서 입력 피처 맵(
Figure pat00003
)을 GAP(Global Average Pooling)을 통해 압축할 수 있다.
GAP는 입력(
Figure pat00004
)의 채널 별 평균값으로 압축하기 때문에 글로벌 정보를 보다 효과적으로 활용한 압축된 특징을 추출할 수 있다.
GAP를 통해 압축시킨 피처 맵은 채널 별 중요도를 계산하기 위해 하나의 히든 레이어로 구성된 MLP(Multi - Layer Perceptron)을 통과할 수 있다.
입력 피처 맵(
Figure pat00005
)이 GAP와 MLP를 연속적으로 통과하면서 추출된 각 채널의 특징은 BN(Batch Normalization)과 활성화 함수인 ReLU(Rectified Linear Unit) 함수를 통과하여 채널 어텐션(110)의 결과로 추출될 수 있다. 이와 같은 채널 어텐션(110)을 통과하여 생성된 채널 어텐션 맵(
Figure pat00006
)은 하기 수학식 1과 같다.
[수학식1]
Figure pat00007
여기서
Figure pat00008
은 입력 피처 맵이고,
Figure pat00009
은 채널 어텐션 맵이다.
X 어텐션 모듈(100)의 공간 어텐션(120)은 채널 어텐션(110)과 같은 입력(
Figure pat00010
)에 대해 여러 개의 컨볼루션 레이어를 통해 추출된 특징들을 조합해 학습과정에서 '어디'에 해당하는 부분을 출력할 수 있다.
X 어텐션 모듈(100)의 공간 어텐션(120)에 입력되는 입력 피처 맵(
Figure pat00011
)은 3 X 3 컨볼루션 레이어를 연속적으로 통과하면서 다양한 스케일을 가지는 피처 맵들을 생성할 수 있다. 이후, 생성된 피처 맵들은 업샘플링(Up-Sampling)을 통해 입력 피처 맵과 같은 크기로 변형시킨 다음, 다음 레이어의 입력으로 더해질 수 있다.
X 어텐션 모듈(100)의 공간 어텐션(120)은 피처 피라미드 네트워크(Feature Pyramid Network)의 구조로 이루어지고, 다양한 스케일을 가지는 여러 개의 피처 맵을 추출하고 활용하는 구조를 통해 학습 네트워크가 낮은 수준부터 높은 수준까지의 특징을 가지고 학습할 수 있어 미세한 특징을 가지는 중요한 영역에 로컬 정보를 효과적으로 추출할 수 있다.
공간 어텐션(120)을 통해 생성된 공간 어텐션 맵(
Figure pat00012
)은 채널 어텐션(110)을 통해 추출된 채널 어텐션 맵과 요소 별 곱(element-wise)을 통해 곱해지고, 활성화 함수인 시그모이드 함수(
Figure pat00013
)를 통해 생성된 X 어텐션 모듈의 X 어텐션 맵(
Figure pat00014
)은 하기 수학식 2와 같다.
[수학식2]
Figure pat00015
여기서
Figure pat00016
은 입력 피처 맵이고,
Figure pat00017
은 채널 어텐션 맵,
Figure pat00018
은 공간 어탭션 맵,
Figure pat00019
은 X 어텐션 맵이다.
도 3은 본 발명의 일 실시예에 따른 Y 어텐션 모듈의 구조를 설명하기 위한 도면이다.
도 3을 참조하면, Y 어텐션 모듈(200)은 X 어텐션 모듈(100)의 변형으로 입력 영상 속에서 글로벌 특징을 효과적으로 추출할 수 있다.
Y 어텐션 모듈(200)은 두 개의 피처 맵(
Figure pat00020
,
Figure pat00021
)을 입력데이터로 수신한다.
제1 입력 피처 맵(
Figure pat00022
)과 제2 입력 피처 맵(
Figure pat00023
)은 서로 다른 피처 맵이고 서로 다른 스케일을 가진다.
제1 입력 피처 맵(
Figure pat00024
)은 제2 입력 피처 맵(
Figure pat00025
)과 스케일과 같게 업 샘플을 적용한 다음, Y 어텐션 모듈(200)의 입력으로 사용할 수 있다. 이때, 업 샘플링 된 제1 입력 피처 맵(
Figure pat00026
)은 글로벌 특징을 추출하는데 효과적 이므로 Y 어텐션 모듈(200)의 채널 어텐션(210)을 통해 글로벌 특징을 추출할 수 있다. 따라서, Y 어텐션 모듈(200)은 채널 어텐션(210)을 통해 채널 어텐션 맵(
Figure pat00027
)을 추출할 수 있다.
그리고, 제2 입력 피처 맵(
Figure pat00028
)은 제1 입력 피처 맵(
Figure pat00029
) 보다 큰 스케일을 가지고 있어 로컬 정보를 추출하는데 있어 효과적이므로 다양한 로컬 정보를 추출할 수 있는 어텐션 모듈(200)의 공간 어텐션(220)의 입력으로 사용할 수 있다. 따라서, Y 어텐션 모듈(200)은 공간 어텐션(220)을 통해 공간 어텐션 맵(
Figure pat00030
)을 추출할 수 있다.
또한, Y 어텐션 모듈(200)은 제1 입력 피처 맵(
Figure pat00031
)과 제2 입력 피처 맵
Figure pat00032
)이 서로 다른 피처 맵이고 채널의 수가 서로 다른 경우, 채널 어텐션(210)에서 사용되는 MLP를 통해 제1 입력 피처 맵(
Figure pat00033
)의 채널 수와 제2 입력 피처 맵(
Figure pat00034
)의 채널 수가 동일하도록 조정할 수 있다.
Y 어텐션 모듈(200)은 제1 입력 피처 맵(
Figure pat00035
)의 채널 수와 제2 입력 피처 맵(
Figure pat00036
)의 채널 수가 동일한 경우, Y 어텐션 모듈(200)의 채널 어텐션 맵(
Figure pat00037
) 과 공간 어텐션 맵(
Figure pat00038
) 간의 요소별 곱을 수행할 수 있다.
Y 어텐션 모듈(200)은 어텐션 맵 간의 요소별 곱 이후, 활성화 함수인 시그모이드 함수 (
Figure pat00039
)를 통해 Y 어텐션 모듈(200)의 Y 어텐션 맵(
Figure pat00040
) 을 하기 수학식 3과 같이 추출할 수 있다.
[수학식3]
Figure pat00041
여기서
Figure pat00042
은 제1 입력 피처 맵이고,
Figure pat00043
은 제2 입력 피처 맵이고,
Figure pat00044
은 채널 어텐션 맵이고,
Figure pat00045
은 공간 어탭션 맵이고,
Figure pat00046
은 Y 어텐션 맵이다.
도 4는 본 발명의 일 실시예에 따른 X 어텐션 모듈 및 Y 어텐션 모듈의 적용 위치를 설명하기 위한 도면이다.
도 4를 참조하면, 어텐션 모듈을 포함하는 특징 추출 장치는 채널 어텐션과 공간 어텐션으로 이루어진 X 어텐션 모듈 및 Y 어텐션 모듈을 다운 샘플링과 업 샘플링이 이어지는 U자 모양의 구조를 가지는 유넷(U-Net)에 적용해 입력 데이터의 특징을 추출하였다. 따라서, 어텐션 모듈을 포함하는 특징 추출 장치의 딥러닝 신경망은 다운 샘플링 중에는 X 어텐션 모듈을 적용하고, 업 샘플링 중에는 Y 어텐션 모듈을 적용할 수 있다.
X 어텐션 모듈 및 Y 어텐션 모듈은 유넷(U-Net)의 컨볼루션 블록(Conv Blocks)과 결합되어 적용될 수 있다. 이때, 입력 데이터 셋의 특징, 어텐션 모듈의 위치에 따라 특징 추출 성능이 달라지므로 최적의 성능을 보여주는 어텐션 모듈 적용 위치를 찾는 것은 중요하다.
입력 데이터(410)인 가슴 엑스레이(Chest X-ray) 데이터 셋에 대해서는 복수의 X 어텐션 모듈 및 Y 어텐션 모듈이 배치될 수 있다. 이를 통해, 입력 데이터의 글로벌 특징 및 로컬 특징을 포함하고, 입력 영상과 같은 크기를 가지는 결과 데이터(420)를 출력할 수 있다.
도 4에 도시된 바와 같이, 다양한 위치에 어텐션 모듈의 적용될 수 있으며, 다운 샘플링의 컨볼루션 블록이 5개 인 경우, X 어텐션 모듈은 최대 4개인
Figure pat00047
의 구성을 가질 수 있다. 그리고, 업 샘플링의 컨볼루션 블록이 5개 인 경우, Y 어텐션 모듈은 최대 4개인
Figure pat00048
의 구성을 가질 수 있다.
도 5 내지 7은 본 발명의 일 실시예에 따른 X 어텐션 모듈 및 Y 어텐션 모듈의 적용 위치에 관한 결과를 설명하기 위한 도면들이다.
도 5를 참조하면, 다양한 위치에 어텐션 모듈을 적용한 딥러닝 신경망 구조의 Dice(Dice score), Sen(Sensitivity), PPV(Positive Predictive Value)의 측정값을 도시한다.
X 어텐션 모듈 및 Y 어텐션 모듈을 각각 적용했을 때 보다는 X, Y 어텐션 모듈을 조합했을 때가 향상된 수치를 보여준다. X 어텐션 모듈만을 적용했을 때는 비교적 원본 크기와 가까운 크기를 가지는 피처 맵을 입력으로 사용하는
Figure pat00049
위치에 적용했을 때,
Figure pat00050
위치에 적용했을 때보다 향상된 성능을 보여준다.
Y 어텐션 모듈만을 적용했을 때는
Figure pat00051
위치에 적용했을 때
Figure pat00052
위치에 적용했을 때 보다 향상된 성능을 보여준다. 다양한 위치에 어텐션 모듈의 적용에 따른 네트워크 성능을 비교했을 때,
Figure pat00053
위치에 적요한 경우가 가장 분할 성능을 보여준다.
이때,
Figure pat00054
위치에서 가장 좋은 성능을 보이는 이유는
Figure pat00055
위치에 어텐션 모듈을 적용하면,
Figure pat00056
를 통해 추출된 어텐션 맵이
Figure pat00057
어텐션 모듈의 입력으로 사용되고, 연속적인 어텐션 모듈의 적용을 통해
Figure pat00058
를 개별적으로 적용했을 때 보다 미세한 특징을 잘 추출할 수 있다.
그리고 입력 영상과 같은 크기를 가지는 결과를 생성해야 되는 영상 분할의 특성상 비교적 입력 영상의 크기와 가까운 피처 맵을 통해 특징을 추출하는 구조인
Figure pat00059
구조에서 좋은 성능을 나타낸다.
도 6은 본 발명에 따른 어텐션 모듈을 포함하는 특징 추출 장치의 유효성을 입증하기 위해 입력 영상으로 공개된 가슴 엑스레이(Montgomery, JSRT, NIH) 영상에 유넷( U-Net), 어텐션 유넷(Attention U-Net), XLSor 및 어텐션 모듈을 적용한 딥러닝 신경망(our)에 따른 결과 값을 도시한 도면이고, 도 7은 도 6의 결과 값을 그래프를 도시한 도면이다.
도 6내지 7을 참조하면, Dice, SEN, PPV 수치를 통해 비교를 해보면, 분할한 영역에 대한 비교인 Dice 수치는 제안하는 어텐션 모듈을 적용한 네트워크와 XLSor 둘 다 비슷한 수치를 보여준다. 분할 한 결과가 정답인 비율에 해당하는 SEN에 대해 비교해보면, XLSor이 높은 수치를 보여준다. 마지막으로, 예측한 분할 결과가 가장 실제 정답일 비율에 해당하는 PPV에 대해 비교해보면, 본 발명에 따른 어텐션 모듈을 적용한 딥러닝 신경망(our)가 가장 높은 수치를 보여준다.
도 8은 본 발명의 일 실시예에 따른 어텐션 모듈을 포함하는 특징 추출 방법을 설명하기 위한 도면이다.
도 8을 참조하면, 단계 S810에서, 어텐션 모듈을 포함하는 특징 추출 장치는 X 어텐션 모듈을 통해 동일한 하나의 입력 피처 맵에 대한 어텐션 맵을 추출할 수 있다. 이를 위해, 어텐션 모듈을 포함하는 특징 추출 장치는 X 어텐션 모듈 내의 채널 어텐션을 통해 동일한 하나의 입력 피처 맵에 대한 채널 어텐션 맵을 추출하고, X 어텐션 모듈 내의 공간 어텐션이 동일한 하나의 입력 피처 맵에 대한 공간 어텐션 맵을 추출하고, 공간 어텐션 맵과 채널 어텐션 맵의 요소 별 곱을 수행하고, 요소 별 곱의 결과값에 활성화 함수를 적용하여 X 어텐션 맵을 추출할 수 있다.
단계 S820에서, 어텐션 모듈을 포함하는 특징 추출 장치는 Y 어텐션 모듈을 통해 서로 다른 두개의 입력 피처 맵에 대한 어텐션 맵을 추출할 수 있다. 이를 위해 어텐션 모듈을 포함하는 특징 추출 장치는 Y 어텐션 모듈 내의 채널 어텐션이 서로 다른 두개의 입력 피처 맵 중 어느 하나에 대해 채널 어텐션 맵을 추출하고, Y 어텐션 모듈 내의 공간 어텐션이 두개의 입력 피처 맵 중 나머지 하나에 대한 공간 어텐션 맵을 추출하고, 공간 어텐션 맵과 채널 어텐션 맵의 요소 별 곱을 수행하고, 요소 별 곱의 결과값에 활성화 함수를 적용하여 X 어텐션 맵을 추출할 수 있다.
단계 S830에서, 어텐션 모듈을 포함하는 특징 추출 장치는 적어도 하나 이상의 X 어텐션 모듈과 적어도 하나 이상의 Y 어텐션 모듈을 포함하는 딥러닝 신경망을 통해 입력 데이터의 특징을 추출할 수 있다. 이때, 어텐션 모듈을 포함하는 특징 추출 장치는 딥러닝 신경망의 다운 샘플링 중에는 X 어텐션 모듈을 적용하고, 딥러닝 신경망의 업 샘플링 중에는 Y 어텐션 모듈을 적용할 수 있다.
이러한 어텐션 모듈을 포함하는 특징 추출 방법은, 딥러닝 신경망에서 입력 데이터의 특징을 효과적으로 추출하기 위해, X, Y 어텐션 모듈을 신경망 내에 배치하여 글로벌 특징과 로컬 특징을 효과적으로 추출하여, 입력 데이터의 특징을 효과적으로 추출하였다.
또한, 어텐션 모듈을 포함하는 특징 추출 방법은 X, Y 어텐션 모듈을 활용하여 의료 데이터뿐만 아니라 사물 데이터, 배경 데이터 등 다양한 데이터에 적용하여 객체 탐지, 객체 분류, 영상 분할 등의연구에 적용되어 사용될 수 있다.
상술한 어텐션 모듈을 포함하는 특징 추출 방법은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비형 하드 디스크)일 수 있다. 컴퓨터로 읽을 수 있는 기록 매체에 기록된 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 다른 컴퓨팅 장치에서 사용될 수 있다.
이상에서, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시 예 들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.
이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
10: X 어텐션 모듈
20: Y 어텐션 모듈
110,210: 채널 어텐션
120,220: 공간 어텐션

Claims (13)

  1. 하나의 입력 피처 맵에 대한 어텐션 맵을 추출하는 X 어텐션 모듈; 및
    서로 다른 두개의 입력 피처 맵에 대한 어텐션 맵을 추출하는 Y 어텐션 모듈을 포함하고,
    적어도 하나 이상의 상기 X 어텐션 모듈과 적어도 하나 이상의 상기 Y 어텐션 모듈을 포함하는 딥러닝 신경망을 통해 입력 데이터의 특징을 추출하는
    어텐션 모듈을 포함하는 특징 추출 장치.
  2. 제1 항에 있어서,
    상기 X 어텐션 모듈은
    상기 하나의 입력 피처 맵에 대한 채널 어텐션 맵을 추출하는 채널 어텐션; 및
    상기 하나의 입력 피처 맵에 대한 공간 어텐션 맵을 추출하는 공간 어텐션을 포함하는
    어텐션 모듈을 포함하는 특징 추출 장치.
  3. 제2항에 있어서,
    상기 X 어텐션 모듈은
    상기 공간 어텐션 맵과 상기 채널 어텐션 맵의 요소 별 곱을 수행하고,
    상기 요소 별 곱의 결과값에 활성화 함수를 적용하여 X 어텐션 맵을 추출하는
    어텐션 모듈을 포함하는 특징 추출 장치.
  4. 제1 항에 있어서,
    상기 Y 어텐션 모듈은
    상기 서로 다른 두개의 입력 피처 맵 중 어느 하나에 대해 채널 어텐션 맵을 추출하는 채널 어텐션; 및
    상기 두개의 입력 피처 맵 중 나머지 하나에 대한 공간 어텐션 맵을 추출하는 공간 어텐션을 포함하는
    어텐션 모듈을 포함하는 특징 추출 장치.
  5. 제4항에 있어서,
    상기 Y 어텐션 모듈은
    상기 공간 어텐션 맵과 상기 채널 어텐션 맵의 요소 별 곱을 수행하고,
    상기 요소 별 곱의 결과값에 활성화 함수를 적용하여 Y 어텐션 맵을 추출하는
    어텐션 모듈을 포함하는 특징 추출 장치.
  6. 제1항에 있어서,
    상기 딥러닝 신경망은
    다운 샘플링 중에는 상기 X 어텐션 모듈을 적용하고,
    업 샘플링 중에는 상기 Y 어텐션 모듈을 적용하는
    어텐션 모듈을 포함하는 특징 추출 장치.
  7. X 어텐션 모듈이 동일한 하나의 입력 피처 맵에 대한 어텐션 맵을 추출하는 단계;
    Y 어텐션 모듈이 서로 다른 두개의 입력 피처 맵에 대한 어텐션 맵을 추출하는 단계; 및
    적어도 하나 이상의 상기 X 어텐션 모듈과 적어도 하나 이상의 상기 Y 어텐션 모듈을 포함하는 딥러닝 신경망을 통해 입력 데이터의 특징을 추출하는 단계를 포함하는
    어텐션 모듈을 포함하는 특징 추출 방법.
  8. 제7 항에 있어서,
    상기 X 어텐션 모듈이 동일한 하나의 입력 피처 맵에 대한 어텐션 맵을 추출하는 단계는
    상기 X 어텐션 모듈 내의 채널 어텐션이 상기 동일한 하나의 입력 피처 맵에 대한 채널 어텐션 맵을 추출하는 단계; 및
    상기 X 어텐션 모듈 내의 공간 어텐션이 상기 동일한 하나의 입력 피처 맵에 대한 공간 어텐션 맵을 추출하는 단계를 포함하는
    어텐션 모듈을 포함하는 특징 추출 방법.
  9. 제8항에 있어서,
    상기 공간 어텐션 맵과 상기 채널 어텐션 맵의 요소 별 곱을 수행하는 단계; 및
    상기 요소 별 곱의 결과값에 활성화 함수를 적용하여 X 어텐션 맵을 추출하는 단계를 더 포함하는
    어텐션 모듈을 포함하는 특징 추출 방법.
  10. 제7 항에 있어서,
    상기 Y 어텐션 모듈이 서로 다른 두개의 입력 피처 맵에 대한 어텐션 맵을 추출하는 단계는
    상기 Y 어텐션 모듈 내의 채널 어텐션이 상기 서로 다른 두개의 입력 피처 맵 중 어느 하나에 대해 채널 어텐션 맵을 추출하는 단계; 및
    상기 Y 어텐션 모듈 내의 공간 어텐션이 상기 두개의 입력 피처 맵 중 나머지 하나에 대한 공간 어텐션 맵을 추출하는 단계를 포함하는
    어텐션 모듈을 포함하는 특징 추출 방법.
  11. 제10항에 있어서,
    상기 Y 어텐션 모듈이 상기 공간 어텐션 맵과 상기 채널 어텐션 맵의 요소 별 곱을 수행하는 단계; 및
    상기 Y 어텐션 모듈이 상기 요소 별 곱의 결과값에 활성화 함수를 적용하여 Y 어텐션 맵을 추출하는 단계를 더 포함하는
    어텐션 모듈을 포함하는 특징 추출 방법.
  12. 제7항에 있어서,
    상기 입력 데이터의 특징을 추출하는 단계는
    상기 딥러닝 신경망의 다운 샘플링 중에는 상기 X 어텐션 모듈을 적용하고,
    상기 딥러닝 신경망의 업 샘플링 중에는 상기 Y 어텐션 모듈을 적용하는
    어텐션 모듈을 포함하는 특징 추출 방법.
  13. 제7 항 내지 제12 항 중 어느 하나의 어텐션 모듈을 포함하는 특징 추출 방법을 실행하고 컴퓨터가 판독 가능한 기록매체에 기록된 컴퓨터 프로그램.

KR1020210034608A 2021-03-17 2021-03-17 어텐션 모듈을 포함하는 특징 추출 장치 및 방법 KR102525190B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210034608A KR102525190B1 (ko) 2021-03-17 2021-03-17 어텐션 모듈을 포함하는 특징 추출 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210034608A KR102525190B1 (ko) 2021-03-17 2021-03-17 어텐션 모듈을 포함하는 특징 추출 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220129821A true KR20220129821A (ko) 2022-09-26
KR102525190B1 KR102525190B1 (ko) 2023-04-24

Family

ID=83452430

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210034608A KR102525190B1 (ko) 2021-03-17 2021-03-17 어텐션 모듈을 포함하는 특징 추출 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102525190B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036241A (zh) * 2023-06-25 2023-11-10 深圳大学 基于深度学习的前列腺癌全身检测方法及相关装置
CN117054891A (zh) * 2023-10-11 2023-11-14 中煤科工(上海)新能源有限公司 电池寿命的预测方法、预测装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180004898A (ko) 2016-07-05 2018-01-15 주식회사 와플앱스 딥러닝 기반의 이미지 처리 기술 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180004898A (ko) 2016-07-05 2018-01-15 주식회사 와플앱스 딥러닝 기반의 이미지 처리 기술 및 그 방법

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Hanchao, et al., "Pyramid Attention Network for Semantic Segmentation", arXiv:1805.10180v3(2018.11.25)* *
Xi Ouyang, et al., "Dual-Sampling Attention Network for Diagnosis of COVID-19 from Community Acquired Pneumonia", arXiv:2005.02690v2(2020.05.20)* *
Xiangyu, et al., "D2A U-Net: Automatic Segmentation of COVID-19 Lesions from CT Slices with Dilated Convolution and Dual Attention Mechanism", arXiv:2102.05210v1(2021.02.10)* *
Yanfei, et al., "Two-Stage Method for Segmentation of the Myocardial Scars and Edema on Multi-sequence Cardiac Magnetic Resonance", Springer Nature Switzerland AG(2020.12.21)* *
Yu-Cheng, et al., "Cascaded atrous dual attention U-Net for tumor segmentation", Multimedia Tools and Applications(2020.10.31)* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036241A (zh) * 2023-06-25 2023-11-10 深圳大学 基于深度学习的前列腺癌全身检测方法及相关装置
CN117054891A (zh) * 2023-10-11 2023-11-14 中煤科工(上海)新能源有限公司 电池寿命的预测方法、预测装置

Also Published As

Publication number Publication date
KR102525190B1 (ko) 2023-04-24

Similar Documents

Publication Publication Date Title
AU2019200270B2 (en) Concept mask: large-scale segmentation from semantic concepts
US11017264B2 (en) Method and apparatus with dilated convolution
Dua et al. A CNN–RNN–LSTM based amalgamation for Alzheimer’s disease detection
KR20220129821A (ko) 어텐션 모듈을 포함하는 특징 추출 장치 및 방법
Torres et al. Patient facial emotion recognition and sentiment analysis using secure cloud with hardware acceleration
Wisesty et al. Modified backpropagation algorithm for polycystic ovary syndrome detection based on ultrasound images
Gulakala et al. Generative adversarial network based data augmentation for CNN based detection of Covid-19
JP2023183367A (ja) 時空間的アテンションモデルに基づく多時相ct画像分類システム及び構築方法
Araújo et al. UOLO-automatic object detection and segmentation in biomedical images
Aruna Devi et al. Performance evaluation of MRI pancreas image classification using artificial neural network (ANN)
Nie et al. Recent advances in diagnosis of skin lesions using dermoscopic images based on deep learning
Gupta et al. MAG-Net: Multi-task attention guided network for brain tumor segmentation and classification
KR20230056300A (ko) 잔여학습기반 멀티 스케일 병렬 컨볼루션을 이용한 간 종양 검출 영상 처리 시스템 및 그 방법
CN115205192A (zh) 根据头部ct图像的自动出血扩张检测
Tan et al. Deep matched filtering for retinal vessel segmentation
US20230368423A1 (en) Precise slice-level localization of intracranial hemorrhage on head cts with networks trained on scan-level labels
Vasanthselvakumar et al. Automatic detection and classification of chronic kidney diseases using CNN architecture
Adegun et al. Deep convolutional network-based framework for melanoma lesion detection and segmentation
KR20230139257A (ko) 기계 학습 모델 기반의 ct 영상을 분류 및 분할하기 위한 방법 및 장치
Tang et al. Side-scan sonar underwater target segmentation using the BHP-UNet
Asadi et al. MDDC: Melanoma detection using discrete wavelet transform and convolutional neural network
Nida et al. A Novel Region‐Extreme Convolutional Neural Network for Melanoma Malignancy Recognition
CN113781475A (zh) 热红外图像显著人体目标检测方法及系统
Duan et al. Atypical Salient Regions Enhancement Network for visual saliency prediction of individuals with Autism Spectrum Disorder
Rekha et al. Alzheimer’s Disease Detection Using Speech Dataset

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant