KR20220139541A - 글로벌 어텐션을 이용한 영상 분할 방법 및 장치 - Google Patents

글로벌 어텐션을 이용한 영상 분할 방법 및 장치 Download PDF

Info

Publication number
KR20220139541A
KR20220139541A KR1020210045618A KR20210045618A KR20220139541A KR 20220139541 A KR20220139541 A KR 20220139541A KR 1020210045618 A KR1020210045618 A KR 1020210045618A KR 20210045618 A KR20210045618 A KR 20210045618A KR 20220139541 A KR20220139541 A KR 20220139541A
Authority
KR
South Korea
Prior art keywords
layer
convolutional layer
module
global
global attention
Prior art date
Application number
KR1020210045618A
Other languages
English (en)
Other versions
KR102561214B1 (ko
Inventor
이범식
챠이트라 다야난다
Original Assignee
조선대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 조선대학교산학협력단 filed Critical 조선대학교산학협력단
Priority to KR1020210045618A priority Critical patent/KR102561214B1/ko
Publication of KR20220139541A publication Critical patent/KR20220139541A/ko
Application granted granted Critical
Publication of KR102561214B1 publication Critical patent/KR102561214B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/003Reconstruction from projections, e.g. tomography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 글로벌 어텐션을 이용한 영상 분할 방법 및 장치에 관한 것이다. 본 발명의 일 실시예에 따른 글로벌 어텐션을 이용한 영상 분할 방법은, (a) 입력 정보를 획득하는 단계; (b) 상기 입력 정보를 제1 컨볼루션 레이어로 구성된 스퀴즈 레이어(squeeze layer)와 제2 컨볼루션 레이어 및 제3 컨볼루션 레이어로 구성된 확장 레이어(expand layer)를 포함하는 제1 파이어(fire) 모듈에 입력하는 단계; (c) 상기 제1 파이어 모듈의 출력 정보와 멀티 스케일 입력 정보를 글로벌 평균 풀링(global average pooling)을 포함하는 제1 글로벌 어텐션(global attention) 모듈에 입력하는 단계; 및 (d) 상기 제1 글로벌 어텐션 모듈의 출력 정보를 맥스 풀링(max pooling)하여 인코딩을 수행하는 단계;를 포함할 수 있다.

Description

글로벌 어텐션을 이용한 영상 분할 방법 및 장치{A method and apparatus for image segmentation using global attention}
본 발명은 영상 분할 방법 및 장치에 관한 것으로, 더욱 상세하게는 글로벌 어텐션을 이용한 영상 분할 방법 및 장치에 관한 것이다.
자기 공명 영상(MRI)은 대비가 높고 해상도가 상대적으로 높다. 따라서 새로운 기술은 임상 응용 및 과학 연구에서 인간의 뇌를 검사하는데 널리 사용되고 있다.
이 경우, 뇌 조직을 백질(white matter, WM), 회백질(gray matter, GM) 및 뇌척수액(cerebrospinal fluid, CSF)으로 자동 분할하는 것은 앞서 언급한 작업에서 매우 중요하다.
정확한 조직 분할은 MRI의 잡음, 편향 장 및 부분 부피 효과로 인한 복잡한 뇌 구조와 조직 이질성으로 인해 어려운 일이다.
이러한 문제를 해결하기 위해 딥러닝 네트워크를 사용하는 전략은 관련 이점으로 인해 세분화 작업에 사용되고 있으나, 이에 대한 연구는 미흡한 실정이다.
[특허문헌 1] 한국등록특허 제10-2089014호
본 발명은 전술한 문제점을 해결하기 위하여 창출된 것으로, 글로벌 어텐션을 이용한 영상 분할 방법 및 장치를 제공하는 것을 그 목적으로 한다.
또한, 본 발명은, 멀티 스케일 글로벌 어텐션 및 파이어 모듈과 통합된 패치 방식 입력을 이용하는 영상 분할 방법 및 장치를 제공하는 것을 그 목적으로 한다.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
상기한 목적들을 달성하기 위하여, 본 발명의 일 실시예에 따른 글로벌 어텐션을 이용한 영상 분할 방법은, (a) 입력 정보를 획득하는 단계; (b) 상기 입력 정보를 제1 컨볼루션 레이어로 구성된 스퀴즈 레이어(squeeze layer)와 제2 컨볼루션 레이어 및 제3 컨볼루션 레이어로 구성된 확장 레이어(expand layer)를 포함하는 제1 파이어(fire) 모듈에 입력하는 단계; (c) 상기 제1 파이어 모듈의 출력 정보와 멀티 스케일 입력 정보를 글로벌 평균 풀링(global average pooling)을 포함하는 제1 글로벌 어텐션(global attention) 모듈에 입력하는 단계; 및 (d) 상기 제1 글로벌 어텐션 모듈의 출력 정보를 맥스 풀링(max pooling)하여 인코딩을 수행하는 단계; 를 포함할 수 있다.
실시예에서, 상기 (a) 단계는, 입력 이미지를 획득하는 단계; 및 상기 입력 이미지를 분할하여 패치(patch) 형태의 상기 입력 정보를 생성하는 단계;를 포함할 수 있다.
실시예에서, 상기 제1 컨볼루션 레이어 및 제2 컨볼루션 레이어는, 제1 커널 크기로 구성되고, 상기 제3 컨볼루션 레이어는, 제2 커널 크기로 구성될 수 있다.
실시예에서, 상기 (b) 단계는, 상기 스퀴즈 레이어의 제1 컨볼루션 레이어의 출력값을 생성하는 단계; 상기 생성된 출력값을 상기 확장 레이어의 병렬로 구성된 제2 컨볼루션 레이어와 제3 컨볼루션 레이어 각각에 입력하는 단계; 및 상기 제2 컨볼루션 레이어와 제3 컨볼루션 레이어 각각의 출력값을 연결(concatenate)하여 상기 제1 파이어 모듈의 출력 정보를 생성하는 단계;를 포함할 수 있다.
실시예에서, 상기 글로벌 어텐션을 이용한 영상 분할 방법은, 상기 (c) 단계 이전에, 제1 레이어에 대한 상기 입력 정보에 대한 맥스 풀링을 수행하여 제2 레이어에 대한 입력 정보를 생성하는 단계; 상기 제2 레이어에 대한 입력 정보를 병렬로 구성된 제4 컨볼루션 레이어와 제5 컨볼루션 레이어 각각에 입력하여 상기 제2 레이어에 대한 멀티 스케일 입력 정보를 생성하는 단계;를 더 포함할 수 있다.
실시예에서, 상기 (c) 단계는, 상기 제1 파이어 모듈의 출력 정보를 상기 글로벌 평균 풀링하는 단계; 상기 글로벌 평균 풀링의 결과값을 제6 컨볼루션 레이어에 입력하는 단계; 상기 제6 컨볼루션 레이어의 결과값과 상기 멀티 스케일 입력 정보를 제7 컨볼루션 레이어에 입력하여 생성된 결과값에 기반한 업샘플링(upsampling)을 수행하여 어텐션 계수(attention coefficient)를 생성하는 단계; 및 상기 어텐션 계수와 상기 제1 파이어 모듈의 출력 정보를 이용하여 상기 제1 글로벌 어텐션 모듈의 출력 정보를 생성하는 단계;를 포함할 수 있다.
실시예에서, 상기 글로벌 어텐션을 이용한 영상 분할 방법은, 상기 (d) 단계 이후에, 상기 제1 레이어에 대한 제1 파이어 모듈의 출력 정보와 상기 제2 레이어에 대한 제2 파이어 모듈의 출력 정보를 상기 제1 레이어에 대한 제2 글로벌 어텐션 모듈에 입력하는 단계; 를 더 포함하고, 상기 제2 파이어 모듈은, 제1 트랜스포즈(transposed) 컨볼루션 레이어로 구성된 스퀴즈 레이어와 제2 트랜스포즈 컨볼루션 레이어 및 제3 트랜스포즈 컨볼루션 레이어로 구성된 확장 레이어를 포함할 수 있다.
실시예에서, 상기 글로벌 어텐션을 이용한 영상 분할 방법은, 상기 (d) 단계 이후에, 상기 제2 글로벌 어텐션 모듈의 출력 정보와 상기 제2 레이어에 대한 제2 파이어 모듈의 출력 정보에 대해 업샘플링하여 생성된 결과값을 상기 제1 레이어에 대한 제2 파이어 모듈에 입력하여 디코딩을 수행하는 단계; 및 상기 디코딩을 수행하여 산출된 디코딩값을 분류 레이어(classify layer)에 입력하여 최종 출력값을 산출하는 단계; 를 더 포함할 수 있다.
실시예에서, 상기 제2 글로벌 어텐션 모듈에 입력하는 단계는, 상기 스퀴즈 레이어의 제1 트랜스포즈 컨볼루션 레이어의 출력값을 생성하는 단계; 상기 생성된 출력값을 상기 확장 레이어의 병렬로 구성된 제2 트랜스포즈 컨볼루션 레이어와 제3 트랜스포즈 컨볼루션 레이어 각각에 입력하는 단계; 및 상기 제2 트랜스포즈 컨볼루션 레이어와 제3 트랜스포즈 컨볼루션 레이어 각각의 출력값을 연결(concatenate)하여 상기 제2 파이어 모듈의 출력 정보를 생성하는 단계;를 포함할 수 있다.
실시예에서, 글로벌 어텐션을 이용한 영상 분할 장치는, 입력 정보를 획득하는 획득부; 및 상기 입력 정보를 제1 컨볼루션 레이어로 구성된 스퀴즈 레이어(squeeze layer)와 제2 컨볼루션 레이어 및 제3 컨볼루션 레이어로 구성된 확장 레이어(expand layer)를 포함하는 제1 파이어(fire) 모듈에 입력하고, 상기 제1 파이어 모듈의 출력 정보와 멀티 스케일 입력 정보를 글로벌 평균 풀링(global average pooling)을 포함하는 제1 글로벌 어텐션(global attention) 모듈에 입력하며, 상기 제1 글로벌 어텐션 모듈의 출력 정보를 맥스 풀링(max pooling)하여 인코딩을 수행하는 제어부;를 포함할 수 있다.
실시예에서, 상기 획득부는, 입력 이미지를 획득하고, 상기 제어부는, 상기 입력 이미지를 분할하여 패치(patch) 형태의 상기 입력 정보를 생성할 수 있다.
실시예에서, 상기 제1 컨볼루션 레이어 및 제2 컨볼루션 레이어는, 제1 커널 크기로 구성되고, 상기 제3 컨볼루션 레이어는, 제2 커널 크기로 구성될 수 있다.
실시예에서, 상기 제어부는, 상기 스퀴즈 레이어의 제1 컨볼루션 레이어의 출력값을 생성하고, 상기 생성된 출력값을 상기 확장 레이어의 병렬로 구성된 제2 컨볼루션 레이어와 제3 컨볼루션 레이어 각각에 입력하고, 상기 제2 컨볼루션 레이어와 제3 컨볼루션 레이어 각각의 출력값을 연결(concatenate)하여 상기 제1 파이어 모듈의 출력 정보를 생성할 수 있다.
실시예에서, 상기 제어부는, 제1 레이어에 대한 상기 입력 정보에 대한 맥스 풀링을 수행하여 제2 레이어에 대한 입력 정보를 생성하고, 상기 제2 레이어에 대한 입력 정보를 병렬로 구성된 제4 컨볼루션 레이어와 제5 컨볼루션 레이어 각각에 입력하여 상기 제2 레이어에 대한 멀티 스케일 입력 정보를 생성할 수 있다.
실시예에서, 상기 제어부는, 상기 제1 파이어 모듈의 출력 정보를 상기 글로벌 평균 풀링하고, 상기 글로벌 평균 풀링의 결과값을 제6 컨볼루션 레이어에 입력하고, 상기 제6 컨볼루션 레이어의 결과값과 상기 멀티 스케일 입력 정보를 제7 컨볼루션 레이어에 입력하여 생성된 결과값에 기반하여 업샘플링(upsampling)을 수행하여 어텐션 계수(attention coefficient)를 생성할 수 있다.
실시예에서, 상기 제어부는, 상기 제1 레이어에 대한 제1 파이어 모듈의 출력 정보와 상기 제2 레이어에 대한 제2 파이어 모듈의 출력 정보를 상기 제1 레이어에 대한 제2 글로벌 어텐션 모듈에 입력하고, 상기 제2 파이어 모듈은, 제1 트랜스포즈(transposed) 컨볼루션 레이어로 구성된 스퀴즈 레이어와 제2 트랜스포즈 컨볼루션 레이어 및 제3 트랜스포즈 컨볼루션 레이어로 구성된 확장 레이어를 포함할 수 있다.
실시예에서, 상기 제어부는, 상기 제2 글로벌 어텐션 모듈의 출력 정보와 상기 제2 레이어에 대한 제2 파이어 모듈의 출력 정보에 대해 업샘플링하여 생성된 결과값을 상기 제1 레이어에 대한 제2 파이어 모듈에 입력하여 디코딩을 수행하고, 상기 디코딩을 수행하여 산출된 디코딩값을 분류 레이어(classify layer)에 입력하여 최종 출력값을 산출할 수 있다.
실시예에서, 상기 제어부는, 상기 스퀴즈 레이어의 제1 트랜스포즈 컨볼루션 레이어의 출력값을 생성하고, 상기 생성된 출력값을 상기 확장 레이어의 병렬로 구성된 제2 트랜스포즈 컨볼루션 레이어와 제3 트랜스포즈 컨볼루션 레이어 각각에 입력할 수 있다.
상기한 목적들을 달성하기 위한 구체적인 사항들은 첨부된 도면과 함께 상세하게 후술될 실시예들을 참조하면 명확해질 것이다.
그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라, 서로 다른 다양한 형태로 구성될 수 있으며, 본 발명의 개시가 완전하도록 하고 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자(이하, "통상의 기술자")에게 발명의 범주를 완전하게 알려주기 위해서 제공되는 것이다.
본 발명의 일 실시예에 의하면, 멀티 스케일 글로벌 어텐션 및 파이어 모듈과 통합된 패치 방식 입력에서 작동하는 네트워크가 효율적인 뇌 MRI 분할을 수행할 수 있다.
본 발명의 효과들은 상술된 효과들로 제한되지 않으며, 본 발명의 기술적 특징들에 의하여 기대되는 잠정적인 효과들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 글로벌 어텐션 기반 딥러닝 네트워크를 이용한 영상 분할 프로세스를 도시한 도면이다.
도 2a는 종래의 일 실시예에 따른 인코더 파이어 모듈을 도시한 도면이다.
도 2b는 종래의 일 실시예에 따른 디코더 파이어 모듈을 도시한 도면이다.
도 2c는 본 발명의 일 실시예에 따른 인코더 파이어 모듈을 도시한 도면이다.
도 2d는 본 발명의 일 실시예에 따른 디코더 파이어 모듈을 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 글로벌 어텐션 기반 딥러닝 네트워크를 이용한 영상 분할 과정을 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 글로벌 어텐션 모듈을 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 제1 데이터 세트에 기반한 분류 결과를 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 제2 데이터 세트에 기반한 분류 결과를 도시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 제1 데이터 세트에 기반한 분류 결과 비교를 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따른 제2 데이터 세트에 기반한 분류 결과 비교를 도시한 도면이다.
도 9는 본 발명의 일 실시예에 따른 학습 파라미터 수와 연산 시간 비교를 도시한 도면이다.
도 10은 본 발명의 일 실시예에 따른 글로벌 어텐션을 이용한 영상 분할 방법을 도시한 도면이다.
도 11은 본 발명의 일 실시예에 따른 글로벌 어텐션을 이용한 영상 분할 장치의 기능적 구성을 도시한 도면이다.
본 발명은 다양한 변경을 가할 수 있고, 여러 가지 실시예들을 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 이를 상세히 설명하고자 한다.
청구범위에 개시된 발명의 다양한 특징들은 도면 및 상세한 설명을 고려하여 더 잘 이해될 수 있을 것이다. 명세서에 개시된 장치, 방법, 제법 및 다양한 실시예들은 예시를 위해서 제공되는 것이다. 개시된 구조 및 기능상의 특징들은 통상의 기술자로 하여금 다양한 실시예들을 구체적으로 실시할 수 있도록 하기 위한 것이고, 발명의 범위를 제한하기 위한 것이 아니다. 개시된 용어 및 문장들은 개시된 발명의 다양한 특징들을 이해하기 쉽게 설명하기 위한 것이고, 발명의 범위를 제한하기 위한 것이 아니다.
본 발명을 설명함에 있어서, 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.
이하, 본 발명의 일 실시예에 따른 글로벌 어텐션을 이용한 영상 분할 방법 및 장치를 설명한다.
도 1은 본 발명의 일 실시예에 따른 글로벌 어텐션 기반 딥러닝 네트워크를 이용한 영상 분할 프로세스를 도시한 도면이다.
도 1을 참고하면, S110 단계에서, 입력 이미지(예: MRI 스캔 데이터)를 해당 그라운드 트루스(ground truth)와 함께 수집할 수 있다. 예를 들어, 각 스캔은 치수 높이
Figure pat00001
너비
Figure pat00002
슬라이스(H
Figure pat00003
W
Figure pat00004
S)일 수 있다. 각 슬라이스의 H
Figure pat00005
W에 0을 채우고 크기를 256
Figure pat00006
256으로 조정할 수 있다.
S120 단계에서, 일정 개수(예: 3)의 슬라이스 간격으로 특정(예: 10 번째) 슬라이스부터 적어도 하나의(예: 48) 슬라이스를 추출할 수 있다.
일 실시예에서, 각 슬라이스는 4 개의 균일한 패치로 나뉘며 이러한 패치는 학습을 위해 본 발명에 따른 글로벌 어텐션 기반 딥러닝 네트워크 모델에 입력으로 제공될 수 있다.
S130 단계에서, 글로벌 어텐션 기반 딥러닝 네트워크 모델 학습 후 테스트 입력이 모델에 공급되고 예측된 세분화 출력을 획득할 수 있다.
본 발명에 따른 아키텍처는 (i) 균일한 패치 방식 입력, (ii) 인코더 모듈, (iii) 디코더 모듈 및 (iv) 글로벌 어텐션 모듈(GAM)과 같이 자세히 논의될 수 있다.
균일한 패치 방식 입력 측면에서, 로컬 정보는 뇌 MRI에서 WM, GM 및 CSF를 식별하는 글로벌 정보보다 매우 중요할 수 있다. 더 나은 로컬 세부 정보를 캡처하고 정확한 조직 분할을 얻기 위해 모델 훈련을 위한 패치 기반 입력이 사용될 수 있다.
예를 들어, 각 피험자의 뇌 MRI 스캔은 차원 H
Figure pat00007
W
Figure pat00008
S로 구성됩니다. 뇌 MRI 스캔의 시작 및 끝 부분 중 일부는 이전 연구에서 조사한 것처럼 유용한 정보를 많이 포함하지 않으며 연속된 부분도 거의 동일한 정보를 공유할 수 있다.
따라서 이러한 정보가 없는 슬라이스를 제외하고 연속 슬라이스의 멀티 학습을 줄이기 위해 모델 학습에 대한 정보가 많거나 적은 슬라이스의 존재를 보장하는 3 슬라이스의 간격이 있는 48개의 슬라이스를 선택했습니다. 추출된 각 슬라이스는 256
Figure pat00009
256 크기로 크기가 조정됩니다.
훈련된 글로벌 어텐션 기반 딥러닝 네트워크가 패치의 로컬 세부 사항에 더 집중할 수 있기 때문에 개별 패치로 슬라이스를 분할하면 로컬화가 향상될 수 있다. 따라서 각 슬라이스는 4개의 균일한 패치 입력으로 분할될 수 있다. 이러한 패치 입력은 훈련을 위해 글로벌 어텐션 기반 딥러닝 네트워크 모델에 입력되고 테스트 데이터에 대해 예측된 세분화 결과가 획득될 수 있다.
도 2a는 종래의 일 실시예에 따른 인코더 파이어 모듈을 도시한 도면이다. 도 2b는 종래의 일 실시예에 따른 디코더 파이어 모듈을 도시한 도면이다. 도 2c는 본 발명의 일 실시예에 따른 인코더 파이어 모듈(210)을 도시한 도면이다. 도 2d는 본 발명의 일 실시예에 따른 디코더 파이어 모듈(220)을 도시한 도면이다.
도 2a 및 2b를 참고하면, Fi 필터를 포함하는 각 컨볼루션 블록이 있는 종래의 U-net의 인코더 및 디코더 측에 있는 컨볼루션 레이어를 확인할 수 있으며, 높이
Figure pat00010
너비
Figure pat00011
채널의 특징 맵이 입력으로 사용될 수 있다.
도 2c 및 2d를 참고하면, 본 발명에 따른 인코더 측에서 사용되는 인코어 파이어 모듈(210)과 디코더 측에서 사용되는 디코더 파이어 모델(220)을 확인할 수 있다.
파이어 모듈은 (i)스퀴즈 레이어(squeeze layer) 및 (ii)확장 레이어(expand layer)를 포함할 수 있다.
도 2c와 같이, 스퀴즈 모듈(211)은 커널 크기가 1
Figure pat00012
1이고 출력 채널이 Fi/4인 제1 컨볼루션 레이어(212)로 구성될 수 있다. 여기서 Fi는 컨볼루션 필터의 수를 나타낼 수 있다. 스퀴즈 레이어(211)의 출력은 확장 레이어(213)로 공급될 수 있다.
확장 레이어(213)는 커널 크기가 1
Figure pat00013
1 및 3
Figure pat00014
3인 두 개의 병렬 컨볼루션(제2 컨볼루션 레이어(214), 제3 컨볼루션 레이어(215))으로 구성되며, 각 컨볼루션은 Fi/2 출력 채널일 수 있다. 또한 이러한 병렬 컨볼루션의 출력은 연결(216)되어 인코더 파이어 모듈(210)의 출력을 형성할 수 있다.
도 2d를 참고하면, 디코더 경로는 트랜스포스된(transposed) 디코더 파이어 모듈(220)을 사용하여 모델 매개 변수를 감소시킬 수 있다. 디코더 경로의 주요 구성 요소는 업샘플링을 포함할 수 있다.
각 업샘플링은 도 2d와 같이 트랜스포스된 디코더 파이어 모듈(220)로 구성될 수 있다. 일 실시예에서, 디코더 파이어 모듈(220)은 트랜스포스 파이어 모듈 또는 이와 동등한 기술적 의미를 갖는 용어로 지칭될 수 있다.
디코더 파이어 모듈(220)은 스퀴즈 레이어(221)에 포함된 Fi/4 출력 채널이 있는 1
Figure pat00015
1의 제1 트랜스포스 컨볼루션 레이어(222)로 구성될 수 있다. 제1 트랜스포스 컨볼루션 레이어(222)의 출력은 다운 샘플링 유닛에서와 같이 디코더 파이어 모듈(220)의 출력을 형성하기 위해 연결되는 확장 레이어(223)에 포함되며, Fi/2 출력 채널과 각각 3
Figure pat00016
3 및 1
Figure pat00017
1 커널 크기를 가진 두 개의 병렬 트랜스포스 컨볼루션 레이어(제2 트랜스포즈 컨볼루션 레이어(224) 및 제2 트랜스포즈 컨볼루션 레이어(225))로 공급될 수 있다.
또한 이러한 병렬 컨볼루션의 출력은 연결(226)되어 디코더 파이어 모듈(220)의 출력을 형성할 수 있다.
도 3은 본 발명의 일 실시예에 따른 글로벌 어텐션 기반 딥러닝 네트워크(300)를 이용한 영상 분할 과정을 도시한 도면이다.
도 3을 참고하면, 글로벌 어텐션 기반 딥러닝 네트워크(300)는 인코더와 디코더 경로로 구성될 수 있다. 인코더 경로는 일련의 제1 파이어 모듈(310)로 구성되며, 각 제1 파이어 모듈(310)의 출력은 제1 글로벌 어텐션 모듈(Global Attention Module, GAM)(311)에 적용되고, 이어서 맥스 풀링 레이어(312)가 구성될 수 있다.
일 실시예에서, 제1 파이어 모듈(310)은 도 2c의 인코어 파이어 모듈(210)을 포함할 수 있다.
맥스 풀링(312)과 함께 제1 파이어 모듈(310)은 다운 샘플링 모듈을 구성할 수 있다. 파이어 모듈 입력 외에도, 제1 글로벌 어텐션 모듈(311)은 멀티 스케일 레이어(301)로부터 멀티 스케일 입력 특징 융합 전략(multi-scale input feature fusion strategy)에서 얻은 입력을 수신할 수 있다.
일 실시예에서, 멀티 스케일 레이어(301)에서 입력 정보는 스트라이드가 2
Figure pat00018
2인 맥스 풀링(303)과 1
Figure pat00019
1, 3
Figure pat00020
3 필터의 컨볼루션 레이어(301)을 개별적으로 사용하여 다운 샘플링될 수 있다.
멀티 스케일 레이어(301)의 컨볼루션 출력은 제1 글로벌 어텐션 모듈(311)에 입력으로 제공되는 멀티 스케일 특징 맵을 형성할 수 있다. 제1 글로벌 어텐션 모듈(3110)의 출력은 차원을 줄이고 특징 맵의 세부 사항에 초점을 맞추기 위해 맥스풀링 레이어(312)에 제공될 수 있다.
일 실시예에서, 풀링 인덱스는 각 맥스 풀링(312)을 수행하는 동안 저장되며 디코더에서 특징 맵을 업샘플링하는데 사용될 수 있다. 디코더는 특징을 강조할 수 있는 어텐션 게이트와 통합될 수 있다.
lth(하위 레벨) 및 l+1th(상위 레벨) 인코딩 레이어에서 추출된 특징 맵은 각각 글로벌 어텐션 모듈에 대한 입력 신호 및 게이팅 신호로 사용됩니다.
따라서 컨텍스트 정보를 포함하는 인코딩 레이어에서 얻은 특징 맵은 관련없는 응답을 제거하기 위해 제1 글로벌 어텐션 모듈(311)에 의해 계산되고 그 출력은 해당 업샘플링 레이어의 특징 맵과 연결될 수 있다.
따라서, 멀티 스케일 정보를 캡처하기 위해 인코더와 디코더 사이에 도입된 어텐션 기반 스킵 연결(skip connection)을 생성할 수 있다. 이러한 스킵 연결은 고해상도 특징 정보를 모두 사용하고 업샘플링 작업을 수행하는 동안 가장 관련성이 높은 정보에 초점을 맞출 수 있다.
제1 파이어 모듈(310)의 출력 정보와 제2 파이어 모듈(320)의 출력 정보를 제2 글로벌 어텐션 모듈(321)에 입력할 수 있다.
제2 글로벌 어텐션 모듈(321)의 출력 정보와 제2 파이어 모듈(320)의 출력 정보에 대해 업샘플링(322)하여 생성된 결과값을 제2 파이어 모듈(320)에 입력하여 디코딩을 수행할 수 있다.
디코딩을 수행하여 산출된 디코딩값을 분류 레이어(classify layer)(330)에 입력하여 최종 출력값을 산출할 수 있다.
각 인코더 및 디코더 레이어의 글로벌 어텐션 모듈을 사용하면 하위 레벨 특징의 가이드로 글로벌 컨텍스트를 통해 클래스 로컬화 세부 정보를 결정할 수 있다.
분류 레이어(330)는 재구성된 이미지를 출력하는 소프트맥스 활성화 함수가 있는 1
Figure pat00021
1 컨벌루션 레이어로 구성될 수 있다. 예를 들어, 소프트맥스 레이어는 GM, WM, CSF 및 배경과 같은 네 가지 출력 클래스를 예측할 수 있다. 본 발명에 따른 글로벌 어텐션 기반 딥러닝 네트워크는 입력 이미지를 가져와 학습된 표현을 생성할 수 있다.
입력 이미지는 이 특징 표현을 기반으로 4개의 출력 클래스 중 하나로 분류될 수 있다. 일 실시예에서, 글로벌 어텐션 기반 딥러닝 네트워크의 손실을 측정하기 위해 교차 엔트로피 손실을 사용할 수 있다. 소프트맥스 레이어는 표현 디코더(l)를 학습하고 이를 출력 클래스로 해석할 수 있다. 일 실시예에서, 확률 점수 y'는 출력 클래스에 할당될 수 있다.
일 실시예에서, 출력 클래스의 수를 c로 정의하면 하기 <수학식 1>과 같이 나타낼 수 있다.
Figure pat00022
일 실시예에서, 교차 엔트로피 손실 함수는 하기 <수학식 2>에서와 같이 네트워크 비용을 계산하는데 사용될 수 있다.
Figure pat00023
여기서, y 및 y'는 각각 각 클래스 i에 대한 실측 및 예측 분포 점수를 나타낸다.
도 4는 본 발명의 일 실시예에 따른 글로벌 어텐션 모듈(400)을 도시한 도면이다. 일 실시예에서, 글로벌 어텐션 모듈(400)은 도 3의 제1 글로벌 어텐션 모듈(311) 및 제2 글로벌 어텐션 모듈(321)을 포함할 수 있다.
도 4를 참고하면, 글로벌 어텐션 모듈(400)에 대한 xl은 lth 인코딩 레이어(하위 레벨 특징)의 출력 특징 맵을 포함할 수 있다. 또한, x(l+1)은 더 거친 스케일(coarser scale)에서 수집되어 게이팅 신호 벡터 역할을 하며 포커스 영역을 선택하기 위해 모든 픽셀에 적용될 수 있다.
αl은 비상대적 특징 응답을 억제하여 대상 작업과 관련된 활성화를 유지하는 어텐션 계수를 포함할 수 있다. 글로벌 어텐션 모듈(400)의 출력은 어텐션 계수가 하기 <수학식 3>과 같이 정의된 lth 인코딩 레이어에서 요소 별 특징 맵을 추가하여 나타낼 수 있다.
Figure pat00024
일 실시예에서, 멀티 시맨틱 클래스의 상황에서는 다차원 어텐션 계수를 학습할 수 있다.
글로벌 평균 풀링(Global average pooling)(401)은 로컬 특징을 글로벌 컨텍스트와 통합하기 위한 하위 레벨 특징에 대한 가이드(guidance)로 글로벌 컨텍스트 정보(global context information)를 제공할 수 있다.
글로벌 평균 풀링(Global average pooling)(401)의 결과값을 1
Figure pat00025
1의 제1 컨볼루션(403)에 대한 입력으로 제공할 수 있다.
상위 레벨 특징으로부터 생성된 글로벌 정보를 ReLU 활성화 특징을 포함하는 1
Figure pat00026
1의 제6 컨볼루션 레이어(403)에 대한 입력으로 제공할 수 있다.
가중치가 적용된 하위 레벨 특징을 추출하기 위해 1
Figure pat00027
1의 제7 컨볼루션 레이어(405)의 하위 레벨 특징(convolved low-level feature)과 곱할 수 있다.
곱 연산(407)의 결과값에 대해 업샘플링(409)을 수행하여 어텐션 계수를 생성할 수 있다.
일 실시예에서, 어텐션 계수에 대한 공식은 하기 <수학식 4>와 같이 나타낼 수 있다.
Figure pat00028
여기서, Wx 및 Wg는 각각 입력 및 게이팅 신호와 관련된 가중치이고, b는 바이어스 항이고, GAP는 글로벌 평균 풀링을 나타낼 수 있다.
업샘플링 결과값인 어텐션 계수는 하위 레벨 특징과 함께 합 연산(411)되어, 상위 레벨 특징 맵의 클래스 범주에 특정한 픽셀 로컬화를 추출할 수 있다.
또한, 컨텍스트 정보를 포함하는 어텐션 모듈 xlout을 획득한 특징 맵은 스킵 연결을 형성하는 해당 디코딩 레이어의 특징 맵과 연결될 수 있다. 이러한 스킵 연결은 고해상도 특징 정보를 모두 사용하고 업샘플링 작업을 수행하는 동안 가장 관련성이 높은 정보에 초점을 맞출 수 있다.
도 5는 본 발명의 일 실시예에 따른 제1 데이터 세트에 기반한 분류 결과를 도시한 도면이다. 도 6은 본 발명의 일 실시예에 따른 제2 데이터 세트에 기반한 분류 결과를 도시한 도면이다.
도 5 및 6을 참고하면, 본 발명에 따른 방법은 두 세트의 뇌 MRI 데이터로 실험될 수 있다. 일 실시예에서, 도 5 및 6의 (a)는 원본 입력 이미지(Orignal input image), (b)는 그라운드 트루스 세분화 맵(ground truth segmentation map), (c)는 예측된 세분화 맵(predicted segmentation map), (d)는 예측된 GM(predicted GM(binary map)), (e)는 예측된 CSF(predicted CSF(binary map)) 및 (f)는 예측된 WM(predicted WM(binary map))을 나타낸다.
예를 들어, 제1 데이터 세트에는 OASIS(Open Access Series of Imaging Studies) 데이터베이스에서 얻은 416 명의 피험자의 T1 가중치가 적용된 뇌 MRI가 포함될 수 있다.
일 실시예에서, <표 1>과 같이 총 416 명의 피험자 중 50명의 피험자를 선정하여 실험을 진행하였다.
Dataset No. of subjects Experiment data
Male Female Total Training set Testing set
OASIS 160 256 416 30 20
IBSR 14 4 18 12 6
선택한 데이터 중 처음 30개의 피험자는 모델 학습에 사용되었고 나머지 20 개의 피험자는 테스트 데이터 세트로 사용될 수 있다. MRI 슬라이스의 축, 시상 및 관상면은 실험에서 뇌 MRI의 분할을 위한 훈련 및 테스트에 사용될 수 있다.
예를 들어, 제1 데이터 세트의 각 입력 축 스캔의 차원은 208
Figure pat00029
176
Figure pat00030
176이며 각 스캔은 176 개의 슬라이스로 구성될 수 있다. 구별 가능한 조직 영역은 대부분 부피의 중간 부분 근처에서 발견되는 것으로 관찰될 수 잇다.
또한, 연속 조각은 거의 동일한 정보를 공유할 수 있다. 따라서 이러한 정보가 없는 슬라이스를 제외하고 연속적인 슬라이스의 반복적인 훈련을 줄이기 위해 평가 절차를 위해 10번째 슬라이스부터 시작하여 3 슬라이스 간격으로 48 슬라이스 샘플을 선택할 수 있다.
추출된 슬라이스는 이미지의 상단과 하단에 24 픽셀의 0을 추가하고 이미지의 왼쪽과 오른쪽에 40 픽셀의 0을 추가하여 256
Figure pat00031
256
Figure pat00032
48의 크기로 크기가 조정될 수 있다. 마찬가지로 MRI 슬라이스의 시상면 및 관상 면도 256
Figure pat00033
256 크기로 크기가 조정될 수 있다.
따라서, 각 입력 스캔은 256
Figure pat00034
256 크기의 48개 슬라이스로 구성될 수 있다. 훈련 단계에서 각 MRI 스캔의 조각과 해당 실측 세분화 맵이 균일한 패치로 분할될 수 있다.
입력 슬라이스의 크기는 256
Figure pat00035
256이며 각 슬라이스는 4개의 패치로 분할될 수 있다. 따라서 본 발명에 따른 방법에서 분할된 각 패치의 크기는 128
Figure pat00036
128일 수 있다. 이러한 패치는 훈련을 위한 모델에 대한 입력으로 제공되며 테스트 데이터에 대한 예측된 세분화 결과를 획득할 수 있다.
예를 들어, 제2 데이터 세트에는 IBSR(Internet Brain Segmentation Repository) 데이터 세트의 MRI가 포함될 수 있다. 제2 데이터 세트에는 건강한 남성 14명과 7세에서 71세 사이의 건강한 여성 4명의 T1 가중치 MRI 18개가 포함될 수 있다.
IBSR의 MRI는 두개골 제거, 정규화 및 바이어스 필드 보정과 같은 전처리 후 제공될 수 있다. 훈련 데이터 세트에는 수동으로 주석을 달고 확인된 지상 실측 레이블이 있는 12명의 대상이 포함되었으며 나머지 6명은 모델을 테스트할 수 있다.
원래의 축 스캔(256
Figure pat00037
128
Figure pat00038
256)은 이미지의 위와 아래에 64 픽셀의 0으로 채워져 256
Figure pat00039
256
Figure pat00040
256 크기로 크기를 조정하여 제안된 방법의 패치를 효과적으로 사용할 수 있다. 유사하게, 원래의 관상(256
Figure pat00041
256
Figure pat00042
128) 및 시상(128
Figure pat00043
256
Figure pat00044
256) 스캔도 실험을 위해 256
Figure pat00045
256
Figure pat00046
256 크기로 조정될 수 있다.
일 실시예에서, 글로벌 어텐션 기반 딥러닝 네트워크 모델은 카테고리형 교차 엔트로피 손실 함수(categorical cross-entropy loss function)에 따라 최적화될 수 있다. 일 실시예에서, 가중치를 초기화하기 위해 정규화 기법이 채택될 수 있다.
도 5 및 6을 참고하면, 제1 및 제2 데이터 세트의 축, 관상 및 시상면에 대한 분할 결과를 확인할 수 있다.
결과로부터 본 발명에 따른 방법이 두 데이터 세트에서 GM, WM, CSF에 대해 잘 세분화된 결과를 달성함을 관찰할 수 있습니다.
일 실시에에서, 본 발명에 따른 방법의 성능을 하기 <표 2>에 자세히 설명된 정량적 지표를 사용하여 평가할 수 있다.
Dice similarity
coefficient (DSC)
Figure pat00047
Jaccard Index (JI)
Figure pat00048
Hausdorff
distance (HD)
Figure pat00049
Mean square error
(MSE)
Figure pat00050
여기서, DSC와 JI는 오버랩을 기준으로 볼륨을 비교하도록 조정되었으며, 자동화된 세분화 방법의 결과와 그라운드 트루스를 비교하는데 사용될 수 있다.
DSC는 두 세트에 공통된 요소 수의 두 배를 각 세트에 있는 요소 수의 합으로 나눈 값으로 정의될 수 있다. 여기서
Figure pat00051
Figure pat00052
그라운드 트루스 세트 및 예측 분할 세트(즉, 각 세트의 요소 수)의 카디널리티를 나타낼 수 있다.
JI는 <표 2>에서 언급한 DSC로 표현될 수 있다. DSC 및 JI 메트릭은 예측된 세분화 맵과 해당 실측 세분화 맵 간의 일치를 결정할 수 있다.
또한, 원래 X 값과 예측 Y 값 간의 평균 제곱 차이인 평균 제곱 오차(MSE) 측면에서 세분화 성능을 평가할 수 있다.
HD는 메트릭 공간에서 두 세트 간의 비유사성을 결정하는데 사용될 수 있다. 작은 HD의 두 세트는 거의 동일하게 보일 수 있다. HD 및 MSE는 <표 2>에 표시된대로 계산될 수 있다. 여기서 D는 두 픽셀의 유클리드 거리를 의미하고, R과 C는 각각 이미지 높이와 너비를 의미할 수 있다.
서로 다른 네트워크 아키텍처의 세분화 효과를 보다 직관적으로 보여주기 위해 U-net, SegNet 및 U-SegNet 모델을 실험 데이터에 대해 학습할 수 있다.
도 7은 본 발명의 일 실시예에 따른 제1 데이터 세트에 기반한 분류 결과 비교를 도시한 도면이다. 도 8은 본 발명의 일 실시예에 따른 제2 데이터 세트에 기반한 분류 결과 비교를 도시한 도면이다.
도 7 및 8을 참고하면, 본 발명에 따른 방법에 의해 생성된 분할 맵의 품질은 다른 기존 방법의 결과에 비해 분명히 우수함을 확인할 수 있다.
일 실시예에서, 도 7 및 8의 (a)는 원본 입력 이미지, (b)는 그라운드 트루스 세분화 맵, (c)는 SegNet, U-net, U-SegNet, 및 본 발명에 따른 방법(the proposed method)에 의해 생성된 세분화 결과, (d)는 SegNet, U-net, U-SegNet 및 본 발명에 따른 방법에 의해 생성된 GM 맵, (e)는 SegNet, U-net, U-SegNet 및 본 발명에 따른 방법에 의해 생성된 CSF 맵 및 (f)는 SegNet, U-net, U-SegNet 및 본 발명에 따른 방법에 의해 생성된 WM 맵을 나타낸다.
U-net은 네트워크가 얕고 이미지 공간 정보를 캡처하기에 충분하지 않다. 또한 영상 콘텐츠가 복잡해지면 U-net과 SegNet의 분할 정확도가 크게 낮아진다. 특히 SegNet과 U-net에 의해 생성된 특징 맵에서 확인할 수 있는데, 강조된 영역은 오분류를 초래한 특정 조직이 집중되어 있음을 확인할 수 있다.
U-SegNet은 스킵 연결을 사용하여 인코더에서 디코더로의 특징 맵을 결합하고 인덱스를 풀링하여 업샘플링하는 동안 이러한 특징을 로컬화할 수 있다.
그럼에도 불구하고 U-SegNet은 인덱스와 스킵 연결의 조합으로 더 나은 세분화 결과를 산출하지만 미세한 세부 사항을 캡처하지 못할 수 있다. 강조 표시된 빨간색 상자에서 U-SegNet은 일반적으로 WM 및 CSF 조직을 세분화하고 있음을 알 수 있다.
어텐션을 통합하면 이러한 한계 중 일부를 극복하고 관련 영역에 어텐션을 집중시켜 세분화 성능을 향상시킬 수 있다. 이러한 개선된 분할은 본 발명에 따른 방법으로 얻은 결과에서 관찰될 수 있다.
도 8을 참고하면, IBSR 이미지에서 얻은 분할에서도 유사한 결과를 확인할 수 있다. 특히 본 발명에 따른 네트워크가 다른 아키텍처보다 미세한 세부 정보를 얻을 수 있음을 알 수 있다. 이러한 시각적 결과는 본 발명에 따른 방법이 모호한 영역의 산만함을 우회하면서 더 미세한 세분화 세부 사항을 강력하게 복구할 수 있음을 확인할 수 있다.
일 실시예에서, 본 발명에 따른 방법에 대한 정량 분석은 기존 SegNet, U-net, U-SegNet 방법과 비교하여 수행되었으며 그 결과는 하기 <표 3> 내지 <표 6>과 같이 나타낼 수 있다.
OASIS dataset
Axial plane
parameter WM
SegNet U-net U-Segnet Proposed
Method
DSC(%) 87.36 92.18 93.36 95.54
JI(%) 77.18 85.50 87.56 90.13
HD 5.09 4.40 4.2 3.6
Coronal plane
DSC(%) 82.12 93.14 94.12 96.37
JI(%) 69.23 87.20 89.63 91.17
HD 5.4 4.14 3.9 3.2
Sagittal plane
DSC(%) 82.42 92.44 93.25 96.72
JI(%) 69.54 86.34 87.65 91.38
HD 7.2 4.3 4.0 3.35
IBSR dataset
Axial plane
DSC(%) 72.86 89.45 90.35 91.76
JI(%) 65.34 81.56 82.49 84.23
HD 6.51 5.14 4.6 4.2
Coronal plane
DSC(%) 70.15 88.45 89.36 90.47
JI(%) 62.35 79.38 80.14 82.53
HD 6.3 5.45 5.5 4.6
Sagittal plane
DSC(%) 71.53 86.84 87.32 89.52
JI(%) 63.41 78.63 79.62 81.42
HD 6.49 5.75 5.4 4.82
OASIS dataset
Axial plane
parameter GM
SegNet U-net U-Segnet Proposed
Method
DSC(%) 84.93 90.32 82.05 94.65
JI(%) 72.20 82.35 85.27 88.53
HD 5.7 4.3 4.0 3.8
Coronal plane
DSC(%) 78.21 82.25 93.53 95.94
JI(%) 64.16 85.45 87.85 90.46
HD 4.6 4.2 4.12 3.42
Sagittal plane
DSC(%) 80.23 91.13 92.56 95.69
JI(%) 67.57 83.26 85.69 90.53
HD 5.9 5.2 4.2 3.49
IBSR dataset
Axial plane
DSC(%) 75.63 91.53 92.20 93.83
JI(%) 67.32 85.41 86.15 87.52
HD 6.53 4.87 4.2 4.0
Coronal plane
DSC(%) 73.65 90.23 91.45 92.85
JI(%) 65.42 83.56 84.16 85.61
HD 6.21 5.17 4.8 4.53
Sagittal plane
DSC(%) 74.62 89.46 90.44 91.71
JI(%) 66.85 81.53 82.15 84.45
HD 6.36 5.77 5.3 4.25
OASIS dataset
Axial plane
parameter CSF
SegNet U-net U-Segnet Proposed
Method
DSC(%) 80.67 89.82 91.64 93.83
JI(%) 67.85 81.53 84.57 86.53
HD 4.9 4.6 4.1 3.9
Coronal plane
DSC(%) 74.03 89.53 91.46 94.18
JI(%) 61.26 82.36 84.25 89.27
HD 4.6 4.1 4.15 3.81
Sagittal plane
DSC(%) 77.45 88.63 92.15 94.53
JI(%) 63.51 81.26 85.36 89.44
HD 6.3 4.4 4.15 3.56
IBSR dataset
Axial plane
DSC(%) 68.42 84.34 84.95 85.64
JI(%) 59.32 75.85 75.98 77.16
HD 6.3 4.4 4.3 4.86
Coronal plane
DSC(%) 66.54 83.65 84.15 85.83
JI(%) 57.32 76.86 76.94 77.86
HD 6.84 5.54 5.2 4.9
Sagittal plane
DSC(%) 65.49 80.75 81.19 83.56
JI(%) 54.86 73.96 74.10 75.28
HD 6.99 5.83 5.6 5.1
MSE
SegNet U-net U-Segnet Proposed
Method
OASIS 0.021 0.008 0.006 0.003
IBSR 0.013 0.009 0.007 0.005
본 발명에 따른 네트워크는 SegNet, U-net, U-SegNet 방법에 비해 10%, 3.9% 및 2.3%(DSC 기준)의 평균 개선을 달성하고 0.003의 더 낮은 MSE 값을 달성함을 확인할 수 있다.
이러한 성능 차이는 SegNet가 맥스 풀링 인덱스만 저장한다는 사실에 의해 설명될 수 있다. 즉, 각 풀링 창에서 최대 특징 값의 위치는 각 인코더 맵에 대해 기억되고 업샘플링에 사용될 수 있다.
이는 3백만 개의 매개 변수로 경계선을 개선하고 기존 방법 중 2.9 시간의 훈련 시간을 덜 필요로 할 수 있다. 그러나 SegNet은 저해상도 특징 맵에서 업샘플링을 수행할 때 주변 정보를 잃기 때문에 많은 세부 정보를 놓치는 경향이 있다.
반면에 U-net은 깊고 거친 정보를 얕고 미세한 의미 정보와 혼합하는 아키텍처의 핵심으로 스킵 연결을 사용할 수 있다. U-net은 업샘플링을 위해 하위 레벨 특징 맵을 사용할 수 있다. 그 결과 번역 불변성이 종종 손상될 수 있다. 또한 U-SegNet은 미세한 세부 사항에 민감하지 않은 경향이 있으며 WM 및 GM과 같은 인접 조직 간의 경계를 식별하는데 어려움이 있다. 이러한 기존 모델에 의해 생성된 세분화 맵은 인코더 단계의 풀링 레이어로 인해 상대적으로 낮은 해상도를 가질 수 있다.
따라서 높은 공간 해상도를 유지하려면 풀링 레이어를 제거해야 할 수 있다. 그러나 컨볼루션은 로컬 작업이므로 SegNet, U-net, U-SegNet 모델은 레이어 풀링 없이는 이미지에서 전체적인 특징을 학습할 수 없다.
본 발명에 따른 방법은 위에서 논의된 종래 기술의 문제에 대한 잠재적인 해결책으로 GAM과 결합된 멀티 스케일 특징 융합 방식을 제시하고 향상된 분할 정확도를 생성할 수 있다. 함께 연결된 1
Figure pat00053
1, 3
Figure pat00054
3 커널과 컨볼루션된 맥스 풀 입력은 세분화 맵의 해상도를 줄이지 않고 글로벌 컨텍스트를 캡처할 수 있다.
이러한 방식으로 글로벌 정보는 해상도를 희생하지 않고 레이어간에 교환될 수 있으며 의미론적 세분화 맵의 흐려짐을 줄일 수 있다. 또한 인코더의 GAM을 사용하면 세분화를 위해 원래 해상도를 추출하기 위해 하위 레벨 특징에 대한 가이드로 글로벌 컨텍스트 정보를 제공할 수 있다.
디코더의 GAM은 글로벌 특징과 로컬 특징의 조합이 뇌 조직을 구별하는데 중요했으며 참조 결과와 일치함을 확인할 수 있다. 또한 균일한 입력 패치는 네트워크가 로컬 세부 사항에 더 집중할 수 있도록 할 수 있다.
균일한 패치를 통해 공간 정보를 선택적으로 통합한 결과, 멀티 스케일 안내 멀티 GAM이 뒤 따르는 피쳐 맵은 컨텍스트 정보를 캡처하는데 도움이 되며 보완 정보를 효율적으로 인코딩하여 뇌 MRI를 정확하게 분할할 수 있다.
또한 동일한 정확도를 유지하면서 학습 가능한 매개 변수가 거의 없는 네트워크를 식별하기 위해 파이어 모듈을 사용할 수 있다.
도 9는 본 발명의 일 실시예에 따른 학습 파라미터 수와 연산 시간 비교를 도시한 도면이다.
도 9를 참고하면, 기존 방법과 비교하여 제안된 방법이 소모하는 학습 가능한 매개 변수와 계산 시간을 확인할 수 있다.
1
Figure pat00055
1 컨볼루션 필터만 있는 스퀴즈 레이어로 구성된 일련의 파이어 모듈을 배열하여 더 작은 모델을 구축할 수 있다. 이것은 1
Figure pat00056
1 및 3
Figure pat00057
3 필터가 조합된 확장 레이어를 제공할 수 있다.
스퀴즈 레이어의 필터 수는 확장 레이어의 1
Figure pat00058
1 및 3
Figure pat00059
3 필터 수보다 적도록 정의될 수 있다. 스퀴즈 레이어의 1
Figure pat00060
1 필터는 확장 레이어에 대한 입력으로 제공되기 전에 입력 채널을 다운 샘플링하여 매개 변수를 감소시킬 수 있다. 확장 레이어는 1
Figure pat00061
1 및 3
Figure pat00062
3 필터로 구성될 수 있다.
확장 레이어의 1
Figure pat00063
1 필터는 채널을 결합하고 교차 채널 풀링을 수행하지만 공간 구조를 인식할 수 없을 수 있다. 확장 레이어의 3
Figure pat00064
3 컨볼루션 필터는 공간 표현을 식별할 수 있다. 이 두 가지 크기 필터를 결합하면 모델이 더 적은 매개 변수로 작동하면서 더 표현력이 높아질 수 있다.
따라서 파이어 모듈은 매개 변수 맵을 줄여 계산 부하를 줄이고 더 높은 정확도를 유지할 수 있는 더 작은 딥러닝 네트워크를 구축할 수 있다.
본 발명에 따른 방법의 총 매개 변수는 100만 매개 변수로 SegNet, U-SegNet, U-net 네트워크보다 각각 3.3배, 4배, 5배 작을 수 있다.
제1 데이터 세트 방법의 훈련 시간은 U-SegNet의 73%이며 U-SegNet 네트워크보다 12% 빠를 수 있다. 메모리 요구 사항이 감소하면 기존 방법에 비해 에너지 및 계산 요구 사항이 크게 감소할 수 있다.
본 발명에 따른 세분화 성능에서 각 선택의 영향을 조사하기 위해 서로 다른 제안된 모듈에 대한 테스트를 수행할 수 있다. (i) 스퀴즈 U-SegNet, (ii) 멀티 스케일 입력으로 스퀴즈U-SegNet, (iii) 멀티 글로벌 어텐션으로 스퀴즈 U-SegNet, (iv)멀티 글로벌 어텐션으로 멀티 스케일 스퀴즈 U-SegNet(제안된 방법).
첫 번째 네트워크의 스퀴즈 U-SegNet은 기존 U-SegNet에서 각 컨볼루션 블록을 파이어 모듈로 교체하여 얻을 수 있다.
두 번째 네트워크의 스퀴즈 U-SegNet의 인코더는 멀티 스케일 입력 레이어를 포함할 수 있다.
이것은 입력을 맥스 풀링하고 1
Figure pat00065
1, 3
Figure pat00066
3 커널을 사용하여 병렬 컨볼루션을 수행하고 이러한 멀티 스케일 특징을 연결함으로써 달성될 수 있다. 이러한 융합된 멀티 스케일 특징은 해당 파이어 모듈 출력과 연결되고 맥스 풀링 작업을 위한 입력으로 공급될 수 있다. 이 과정은 모든 인코딩 레이어에 대해 반복될 수 있다.
멀티 스케일 특징 모듈은 관련 없는 정보를 필터링하면서 글로벌 특징의 인접 스케일 정보를 보다 정확하게 추출할 수 있다. 어텐션 메커니즘의 영향은 GAM이 인코더와 디코더 모두에 통합되어 멀티 어텐션 네트워크를 형성하는 세 번째 네트워크에서 탐구될 수 있다.
마지막으로, 본 발명에 따른 방법이라 불리는 멀티 스케일 스퀴즈 U-SegNet은 제안된 모든 모듈을 결합하여 시맨틱 가이드를 통합할 수 있다.
일 실시예에서, 아래 <표 7> 내지 <표 10>은 세분화 성능에 대한 다양한 구성 요소의 개별 결과를 나타낼 수 있다.
Models GM
DSC JI HD
Squeeze U-SegNet 92.05 88.06 3.5
Squeeze U-SegNet
with multi-scale input
93.44 89.47 4.8
Squeeze U-SegNet
with multi global
attention
94.32 89.25 5
Proposed Method 94.65 89.51 4.8
Models WM
DSC JI HD
Squeeze U-SegNet 93.37 90.42 2.8
Squeeze U-SegNet
with multi-scale input
94.78 91.90 4.1
Squeeze U-SegNet
with multi global
attention
95.5 91.40 4.2
Proposed Method 95.86 92.05 4.1
Models CSF
DSC JI HD MSE
Squeeze U-SegNet 91.65 88.06 2.0 0.006
Squeeze U-SegNet
with multi-scale input
93.32 90.25 3.0 0.005
Squeeze U-SegNet
with multi global
attention
94.30 89.22 3.3 0.004
Proposed Method 94.43 89.74 3.0 0.003
Computation
time (5 epochs)
#Learnable
parameters
Squeeze U-SegNet 1.7 hours 768,788
Squeeze U-SegNet
with multi-scale input
1.9 hours 860,180
Squeeze U-SegNet
with multi global
attention
2 hours 942,164
Proposed Method 2.2 hours 1,030,420
모델은 네트워크 정확도를 유지하면서 모델 학습을 위한 계산 시간을 줄임으로써 학습 가능한 매개 변수의 요구 사항이 크게 감소함을 나타낸다. 기준 스퀴즈 U-SegNet과 비교하여 멀티 스케일 특징 융합 입력 체계 및 멀티 어텐션 모듈과 통합된 모델의 성능이 각각 2.1% 및 3% 향상되었음을 확인할 수 있다.
멀티 스케일 특징 융합은 DSC에서 더 적은 증가를 보여주지만 GAM과 결합하여 더 많은 네트워크 효율성을 제공할 수 있다.
또한 멀티 규모 및 멀티 글로벌 어텐션 전략을 결합하면 성능이 향상되고 세 가지 메트릭에서 94.78%(DSC), 90.43%(JI), 3.1(HD), 0.003의 가장 낮은 MSE와 같은 최상의 값을 얻을 수 있다.
이러한 결과는 기준 U-SegNet에 비해 DSC에서 3.5%의 개선을 나타내며 개별 구성 요소와 비교하여 제안된 멀티 스케일 가이드 멀티 GAM의 효율성을 나타낸다.
또한, 훈련 시간 및 세분화 성능 측면에서 패치 크기의 영향을 조사할 수 있다. 실험은 세 가지 다른 패치 크기(128
Figure pat00067
128, 64
Figure pat00068
64 및 32
Figure pat00069
32)에 대해 제2 데이터 세트에서 수행될 수 있다.
일 실시예에서, 아래 <표 11>은 다양한 패치 크기에 대한 DSC의 세분화 성능을 나타낼 수 있다.
Patch
size
DSC HI Training time (hours)
WM GM CSF WM GM CSF
128x128 96.33 95.44 94.81 92.93 91.28 90.14 2.2
64x64 96.35 95.48 94.89 92.95 91.37 90.28 3.4
32x32 96.35 95.51 95.12 92.98 91.47 90.34 4.6
패치 크기가 작을수록 성능이 향상되는 것을 확인할 수 있다. 이는 패치가 작을수록 네트워크가 훈련할 훈련 데이터가 더 많이 생성되기 때문일 수 있다. 또한, 로컬화는 더욱 정확하게 생성될 수 있다.
또한 패치 크기가 128
Figure pat00070
128인 경우 모델을 학습하는데 2.2 시간이 걸리는 반면, 거의 동일한 정확도로 32
Figure pat00071
32 패치의 경우 학습 시간이 두 배가 될 수 있다.
따라서 128
Figure pat00072
128 패치 크기는 <표 11>의 결과에 따라 DSC 점수와 모델 학습에 소요되는 계산 시간 사이에 적절한 균형을 제공함을 확인할 수 있다.
도 10은 본 발명의 일 실시예에 따른 글로벌 어텐션을 이용한 영상 분할 방법을 도시한 도면이다.
도 10을 참고하면, S1001 단계는, 입력 정보를 획득하는 단계이다.
일 실시예에서, 입력 이미지를 획득하고, 입력 이미지를 분할하여 패치(patch) 형태의 입력 정보를 생성할 수 있다. 여기서, 입력 이미지는 객체의 슬라이스 이미지(slice image)를 포함할 수 있다. 또한, 입력 정보는 슬라이스 이미지를 다수의 패치 형태로 분할한 패치 이미지를 포함할 수 있다.
S1003 단계는, 입력 정보를 제1 컨볼루션 레이어(212)로 구성된 스퀴즈 레이어(squeeze layer)(211)와 제2 컨볼루션 레이어(214) 및 제3 컨볼루션 레이어(215)로 구성된 확장 레이어(expand layer)(213)를 포함하는 제1 파이어(fire) 모듈(310)에 입력하는 단계이다.
일 실시예에서, 제1 컨볼루션 레이어(211) 및 제2 컨볼루션 레이어(214)는 제1 커널 크기로 구성되고, 제3 컨볼루션 레이어(215)는 제2 커널 크기로 구성될 수 있다. 예를 들어, 제1 커널 크기는 1
Figure pat00073
1 커널 크기를 포함하고, 제2 커널 크기는 3
Figure pat00074
3 커널 크기를 포함하나, 이에 제한되지 않는다.
일 실시예에서, 스퀴즈 레이어(211)의 제1 컨볼루션 레이어(212)의 출력값을 생성하고, 상기 생성된 출력값을 확장 레이어(213)의 병렬로 구성된 제2 컨볼루션 레이어(214)와 제3 컨볼루션 레이어(215) 각각에 입력하며, 제2 컨볼루션 레이어(214)와 제3 컨볼루션 레이어(215) 각각의 출력값을 연결(concatenate)(216)하여 제1 파이어 모듈(310)의 출력 정보를 생성할 수 있다.
일 실시예에서, S1005 단계 이전에, 제1 레이어에 대한 입력 정보에 대한 맥스 풀링(312)을 수행하여 제2 레이어에 대한 입력 정보를 생성하고, 제2 레이어에 대한 입력 정보를 병렬로 구성된 제4 컨볼루션 레이어와 제5 컨볼루션 레이어 각각에 입력하여 제2 레이어에 대한 멀티 스케일 입력 정보를 생성할 수 있다.
일 실시예에서, 제4 컨볼루션 레이어와 제5 컨볼루션 레이어는 병렬로 구성되어 멀티 스케일 레이어(301)를 구성할 수 있다.
S1005 단계는, 제1 파이어 모듈(310)의 출력 정보와 멀티 스케일 입력 정보를 글로벌 평균 풀링(global average pooling)(401)을 포함하는 제1 글로벌 어텐션(global attention) 모듈(311)에 입력하는 단계이다.
일 실시예에서, 제1 파이어 모듈(310)의 출력 정보를 글로벌 평균 풀링(401)하고, 글로벌 평균 풀링(401)의 결과값을 제6 컨볼루션 레이어(403)에 입력하며, 제6 컨볼루션 레이어(403)의 결과값과 멀티 스케일 입력 정보를 제7 컨볼루션 레이어(405)에 입력하여 생성된 결과값에 기반한 업샘플링(upsampling)(409)을 수행하여 어텐션 계수(attention coeffeicient)를 생성하며, 어텐션 계수와 제1 파이어 모듈(310)의 출력 정보를 이용하여 제1 글로벌 어텐션 모듈(311)의 출력 정보를 생성할 수 있다.
일 실시예에서, 제6 컨볼루션 레이어(403)의 결과값과 멀티 스케일 입력 정보를 제7 컨볼루션 레이어(405)에 입력하여 생성된 결과값에 대한 곱 연산(407)을 수행하고, 곱 연산(407)을 통해 생성된 결과값에 업샘플링(409)을 수행할 수 있다.
일 실시예에서, 어텐션 계수와 제1 파이어 모듈(310)의 출력 정보에 대한 합 연산(411)을 수행하고, 합 연산(411)을 통해 제1 글로벌 어텐션 모듈(311)의 출력 정보를 생성할 수 있다.
일 실시예에서, 제1 파이어 모듈(310)의 출력 정보는 하위 레벨 특징을 의미하고, 멀티 스케일 입력 정보는 상위 레벨 특징을 의미할 수 있다.
S1007 단계는, 제1 글로벌 어텐션 모듈(311)의 출력 정보를 맥스 풀링(max pooling)(312)하여 인코딩을 수행하는 단계이다.
일 실시예에서, 인코딩을 수행하여 산출된 인코딩값은 다음 레이어의 제1 파이어 모듈(310)에 입력될 수 있다.
일 실시예에서, S1007 단계 이후에, 제1 레이어에 대한 제1 파이어 모듈(310)의 출력 정보와 제2 레이어에 대한 제2 파이어 모듈(320)의 출력 정보를 제1 레이어에 대한 제2 글로벌 어텐션 모듈(321)에 입력할 수 있다.
예를 들어, 제1 파이어 모듈(310)는 인코더 파이어 모듈(210)을 의미할 수 있고, 제2 파이어 모듈(320)은 디코더 파이어 모듈(220)을 의미할 수 있다.
일 실시예에서, 제2 파이어 모듈(320)은, 제1 트랜스포즈(transposed) 컨볼루션 레이어(222)로 구성된 스퀴즈 레이어(221)와 제2 트랜스포즈 컨볼루션 레이어(224) 및 제2 트랜스포즈 컨볼루션 레이어(225)로 구성된 확장 레이어(223)를 포함할 수 있다.
일 실시예에서, S1007 단계 이후에, 제2 글로벌 어텐션 모듈(321)의 출력 정보와 제2 레이어에 대한 제2 파이어 모듈(320)의 출력 정보에 대해 업샘플링(322)하여 생성된 결과값을 제1 레이어에 대한 제2 파이어 모듈(320)에 입력하여 디코딩을 수행할 수 있다.
일 실시예에서, 디코딩을 수행하여 산출된 디코딩값을 분류 레이어(classify layer)(330)에 입력하여 최종 출력값을 산출할 수 있다.
도 11은 본 발명의 일 실시예에 따른 글로벌 어텐션을 이용한 영상 분할 장치(1100)의 기능적 구성을 도시한 도면이다.
도 11을 참고하면, 영상 분할 장치(1100)는 획득부(1110), 제어부(1120) 및 저장부(1130)를 포함할 수 있다.
획득부(1110)는 입력 정보를 획득할 수 있다. 일 실시예에서, 획득부(1110)는 통신부 또는 촬영부를 포함할 수 있다. 예를 들어, 획득부(1110)는 자기 공명 영상(MRI) 카메라를 포함할 수 있다. 또한, 획득부(1110)는 외부 전자 장치로부터 데이터를 수신하는 통신부를 포함할 수 있다.
일 실시예에서, 통신부는 유선 통신 모듈 및 무선 통신 모듈 중 적어도 하나를 포함할 수 있다. 통신부의 전부 또는 일부는 '송신부', '수신부' 또는 '송수신부(transceiver)'로 지칭될 수 있다.
제어부(1120)는 입력 정보를 제1 컨볼루션 레이어(212)로 구성된 스퀴즈 레이어(squeeze layer)(211)와 제2 컨볼루션 레이어(214) 및 제3 컨볼루션 레이어(215)로 구성된 확장 레이어(expand layer)(213)를 포함하는 제1 파이어(fire) 모듈(310)에 입력할 수 있다.
일 실시예에서, 제어부(1120)는 제1 파이어 모듈(310)의 출력 정보와 멀티 스케일 입력 정보를 글로벌 평균 풀링(global average pooling)(401)을 포함하는 제1 글로벌 어텐션(global attention) 모듈(311)에 입력할 수 있다.
일 실시예에서, 제1 글로벌 어텐션 모듈(311)의 출력 정보를 맥스 풀링(max pooling)(312)하여 인코딩을 수행할 수 있다.
일 실시예에서, 제어부(1120)는 적어도 하나의 프로세서 또는 마이크로(micro) 프로세서를 포함하거나, 또는, 프로세서의 일부일 수 있다. 또한, 제어부(1120)는 CP(communication processor)라 지칭될 수 있다. 제어부(1120)는 본 발명의 다양한 실시예에 따른 영상 분할 장치(1100)의 동작을 제어할 수 있다.
저장부(1130)는 입력 정보를 저장할 수 있다. 또한, 저장부(1030)는 글로벌 어텐션 기반 딥러닝 네트워크를 저장할 수 있다.
일 실시예에서, 저장부(1130)는 휘발성 메모리, 비휘발성 메모리 또는 휘발성 메모리와 비휘발성 메모리의 조합으로 구성될 수 있다. 그리고, 저장부(1130)는 제어부(1120)의 요청에 따라 저장된 데이터를 제공할 수 있다.
도 11을 참고하면, 영상 분할 장치(1100)는 획득부(1110), 제어부(1120) 및 저장부(1130)를 포함할 수 있다. 본 발명의 다양한 실시 예들에서 영상 분할 장치(1100)는 도 11에 설명된 구성들이 필수적인 것은 아니어서, 도 11에 설명된 구성들보다 많은 구성들을 가지거나, 또는 그보다 적은 구성들을 가지는 것으로 구현될 수 있다.
이상의 설명은 본 발명의 기술적 사상을 예시적으로 설명한 것에 불과한 것으로, 통상의 기술자라면 본 발명의 본질적인 특성이 벗어나지 않는 범위에서 다양한 변경 및 수정이 가능할 것이다.
본 명세서에 개시된 다양한 실시예들은 순서에 관계없이 수행될 수 있으며, 동시에 또는 별도로 수행될 수 있다.
일 실시예에서, 본 명세서에서 설명되는 각 도면에서 적어도 하나의 단계가 생략되거나 추가될 수 있고, 역순으로 수행될 수도 있으며, 동시에 수행될 수도 있다.
본 명세서에 개시된 실시예들은 본 발명의 기술적 사상을 한정하기 위한 것이 아니라, 설명하기 위한 것이고, 이러한 실시예들에 의하여 본 발명의 범위가 한정되는 것은 아니다.
본 발명의 보호범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 이해되어야 한다.
210: 인코더 파이어 모듈
211: 스퀴즈 모듈
212: 제1 컨볼루션 레이어
213: 확장 레이어
214: 제2 컨볼루션 레이어
215: 제3 컨볼루션 레이어
216: 연결
220: 디코더 파이어 모듈
221: 스퀴즈 레이어
222: 제1 트랜스포스 컨볼루션 레이어
223: 확장 레이어
224: 제2 트랜스포즈 컨볼루션 레이어
225: 제2 트랜스포즈 컨볼루션 레이어
226: 연결
300: 글로벌 어텐션 기반 딥러닝 네트워크
301: 멀티 스케일 레이어
303: 맥스 풀링
310: 제1 파이어 모듈
311: 제1 글로벌 어텐션 모듈
312: 맥스 풀링
320: 제2 파이어 모듈
321: 제2 글로벌 어텐션 모듈
322: 업샘플링
330: 분류 레이어
400: 글로벌 어텐션 모듈
401: 글로벌 평균 풀링
403: 제6 컨볼루션 레이어
405: 제7 컨볼루션 레이어
407: 곱 연산
409: 업샘플링
411: 합 연산
1100: 영상 분할 장치
1110: 획득부
1120: 제어부
1130: 저장부

Claims (18)

  1. (a) 입력 정보를 획득하는 단계;
    (b) 상기 입력 정보를 제1 컨볼루션 레이어로 구성된 스퀴즈 레이어(squeeze layer)와 제2 컨볼루션 레이어 및 제3 컨볼루션 레이어로 구성된 확장 레이어(expand layer)를 포함하는 제1 파이어(fire) 모듈에 입력하는 단계;
    (c) 상기 제1 파이어 모듈의 출력 정보와 멀티 스케일 입력 정보를 글로벌 평균 풀링(global average pooling)을 포함하는 제1 글로벌 어텐션(global attention) 모듈에 입력하는 단계; 및
    (d) 상기 제1 글로벌 어텐션 모듈의 출력 정보를 맥스 풀링(max pooling)하여 인코딩을 수행하는 단계;
    를 포함하는,
    글로벌 어텐션을 이용한 영상 분할 방법.
  2. 제1항에 있어서,
    상기 (a) 단계는,
    입력 이미지를 획득하는 단계; 및
    상기 입력 이미지를 분할하여 패치(patch) 형태의 상기 입력 정보를 생성하는 단계;
    를 포함하는,
    글로벌 어텐션을 이용한 영상 분할 방법.
  3. 제1항에 있어서,
    상기 제1 컨볼루션 레이어 및 제2 컨볼루션 레이어는, 제1 커널 크기로 구성되고,
    상기 제3 컨볼루션 레이어는, 제2 커널 크기로 구성되는,
    글로벌 어텐션을 이용한 영상 분할 방법.
  4. 제1항에 있어서,
    상기 (b) 단계는,
    상기 스퀴즈 레이어의 제1 컨볼루션 레이어의 출력값을 생성하는 단계;
    상기 생성된 출력값을 상기 확장 레이어의 병렬로 구성된 제2 컨볼루션 레이어와 제3 컨볼루션 레이어 각각에 입력하는 단계; 및
    상기 제2 컨볼루션 레이어와 제3 컨볼루션 레이어 각각의 출력값을 연결(concatenate)하여 상기 제1 파이어 모듈의 출력 정보를 생성하는 단계;
    를 포함하는,
    글로벌 어텐션을 이용한 영상 분할 방법.
  5. 제1항에 있어서,
    상기 (c) 단계 이전에,
    제1 레이어에 대한 상기 입력 정보에 대한 맥스 풀링을 수행하여 제2 레이어에 대한 입력 정보를 생성하는 단계;
    상기 제2 레이어에 대한 입력 정보를 병렬로 구성된 제4 컨볼루션 레이어와 제5 컨볼루션 레이어 각각에 입력하여 상기 제2 레이어에 대한 멀티 스케일 입력 정보를 생성하는 단계;
    를 더 포함하는,
    글로벌 어텐션을 이용한 영상 분할 방법.
  6. 제1항에 있어서,
    상기 (c) 단계는,
    상기 제1 파이어 모듈의 출력 정보를 상기 글로벌 평균 풀링하는 단계;
    상기 글로벌 평균 풀링의 결과값을 제6 컨볼루션 레이어에 입력하는 단계;
    상기 제6 컨볼루션 레이어의 결과값과 상기 멀티 스케일 입력 정보를 제7 컨볼루션 레이어에 입력하여 생성된 결과값에 기반한 업샘플링(upsampling)을 수행하여 어텐션 계수(attention coefficient)를 생성하는 단계; 및
    상기 어텐션 계수와 상기 제1 파이어 모듈의 출력 정보를 이용하여 상기 제1 글로벌 어텐션 모듈의 출력 정보를 생성하는 단계;
    를 포함하는,
    글로벌 어텐션을 이용한 영상 분할 방법.
  7. 제1항에 있어서,
    상기 (d) 단계 이후에,
    상기 제1 레이어에 대한 제1 파이어 모듈의 출력 정보와 상기 제2 레이어에 대한 제2 파이어 모듈의 출력 정보를 상기 제1 레이어에 대한 제2 글로벌 어텐션 모듈에 입력하는 단계;
    를 더 포함하고,
    상기 제2 파이어 모듈은, 제1 트랜스포즈(transposed) 컨볼루션 레이어로 구성된 스퀴즈 레이어와 제2 트랜스포즈 컨볼루션 레이어 및 제3 트랜스포즈 컨볼루션 레이어로 구성된 확장 레이어를 포함하는,
    글로벌 어텐션을 이용한 영상 분할 방법.
  8. 제7항에 있어서,
    상기 (d) 단계 이후에,
    상기 제2 글로벌 어텐션 모듈의 출력 정보와 상기 제2 레이어에 대한 제2 파이어 모듈의 출력 정보에 대해 업샘플링하여 생성된 결과값을 상기 제1 레이어에 대한 제2 파이어 모듈에 입력하여 디코딩을 수행하는 단계; 및
    상기 디코딩을 수행하여 산출된 디코딩값을 분류 레이어(classify layer)에 입력하여 최종 출력값을 산출하는 단계;
    를 더 포함하는,
    글로벌 어텐션을 이용한 영상 분할 방법.
  9. 제7항에 있어서,
    상기 제2 글로벌 어텐션 모듈에 입력하는 단계는,
    상기 스퀴즈 레이어의 제1 트랜스포즈 컨볼루션 레이어의 출력값을 생성하는 단계;
    상기 생성된 출력값을 상기 확장 레이어의 병렬로 구성된 제2 트랜스포즈 컨볼루션 레이어와 제3 트랜스포즈 컨볼루션 레이어 각각에 입력하는 단계; 및
    상기 제2 트랜스포즈 컨볼루션 레이어와 제3 트랜스포즈 컨볼루션 레이어 각각의 출력값을 연결(concatenate)하여 상기 제2 파이어 모듈의 출력 정보를 생성하는 단계;
    를 포함하는,
    글로벌 어텐션을 이용한 영상 분할 방법.
  10. 입력 정보를 획득하는 획득부; 및
    상기 입력 정보를 제1 컨볼루션 레이어로 구성된 스퀴즈 레이어(squeeze layer)와 제2 컨볼루션 레이어 및 제3 컨볼루션 레이어로 구성된 확장 레이어(expand layer)를 포함하는 제1 파이어(fire) 모듈에 입력하고,
    상기 제1 파이어 모듈의 출력 정보와 멀티 스케일 입력 정보를 글로벌 평균 풀링(global average pooling)을 포함하는 제1 글로벌 어텐션(global attention) 모듈에 입력하며,
    상기 제1 글로벌 어텐션 모듈의 출력 정보를 맥스 풀링(max pooling)하여 인코딩을 수행하는 제어부;
    를 포함하는,
    글로벌 어텐션을 이용한 영상 분할 장치.
  11. 제10항에 있어서,
    상기 획득부는, 입력 이미지를 획득하고,
    상기 제어부는, 상기 입력 이미지를 분할하여 패치(patch) 형태의 상기 입력 정보를 생성하는,
    글로벌 어텐션을 이용한 영상 분할 장치.
  12. 제10항에 있어서,
    상기 제1 컨볼루션 레이어 및 제2 컨볼루션 레이어는, 제1 커널 크기로 구성되고,
    상기 제3 컨볼루션 레이어는, 제2 커널 크기로 구성되는,
    글로벌 어텐션을 이용한 영상 분할 장치.
  13. 제10항에 있어서,
    상기 제어부는,
    상기 스퀴즈 레이어의 제1 컨볼루션 레이어의 출력값을 생성하고,
    상기 생성된 출력값을 상기 확장 레이어의 병렬로 구성된 제2 컨볼루션 레이어와 제3 컨볼루션 레이어 각각에 입력하고,
    상기 제2 컨볼루션 레이어와 제3 컨볼루션 레이어 각각의 출력값을 연결(concatenate)하여 상기 제1 파이어 모듈의 출력 정보를 생성하는,
    글로벌 어텐션을 이용한 영상 분할 장치.
  14. 제10항에 있어서,
    상기 제어부는,
    제1 레이어에 대한 상기 입력 정보에 대한 맥스 풀링을 수행하여 제2 레이어에 대한 입력 정보를 생성하고,
    상기 제2 레이어에 대한 입력 정보를 병렬로 구성된 제4 컨볼루션 레이어와 제5 컨볼루션 레이어 각각에 입력하여 상기 제2 레이어에 대한 멀티 스케일 입력 정보를 생성하는,
    글로벌 어텐션을 이용한 영상 분할 장치.
  15. 제10항에 있어서,
    상기 제어부는,
    상기 제1 파이어 모듈의 출력 정보를 상기 글로벌 평균 풀링하고,
    상기 글로벌 평균 풀링의 결과값을 제6 컨볼루션 레이어에 입력하고,
    상기 제6 컨볼루션 레이어의 결과값과 상기 멀티 스케일 입력 정보를 제7 컨볼루션 레이어에 입력하여 생성된 결과값에 기반하여 업샘플링(upsampling)을 수행하여 어텐션 계수(attention coefficient)를 생성하는,
    글로벌 어텐션을 이용한 영상 분할 장치.
  16. 제10항에 있어서,
    상기 제어부는,
    상기 제1 레이어에 대한 제1 파이어 모듈의 출력 정보와 상기 제2 레이어에 대한 제2 파이어 모듈의 출력 정보를 상기 제1 레이어에 대한 제2 글로벌 어텐션 모듈에 입력하고,
    상기 제2 파이어 모듈은, 제1 트랜스포즈(transposed) 컨볼루션 레이어로 구성된 스퀴즈 레이어와 제2 트랜스포즈 컨볼루션 레이어 및 제3 트랜스포즈 컨볼루션 레이어로 구성된 확장 레이어를 포함하는,
    글로벌 어텐션을 이용한 영상 분할 장치.
  17. 제16항에 있어서,
    상기 제어부는,
    상기 제2 글로벌 어텐션 모듈의 출력 정보와 상기 제2 레이어에 대한 제2 파이어 모듈의 출력 정보에 대해 업샘플링하여 생성된 결과값을 상기 제1 레이어에 대한 제2 파이어 모듈에 입력하여 디코딩을 수행하고,
    상기 디코딩을 수행하여 산출된 디코딩값을 분류 레이어(classify layer)에 입력하여 최종 출력값을 산출하는,
    글로벌 어텐션을 이용한 영상 분할 장치.
  18. 제16항에 있어서,
    상기 제어부는,
    상기 스퀴즈 레이어의 제1 트랜스포즈 컨볼루션 레이어의 출력값을 생성하고,
    상기 생성된 출력값을 상기 확장 레이어의 병렬로 구성된 제2 트랜스포즈 컨볼루션 레이어와 제3 트랜스포즈 컨볼루션 레이어 각각에 입력하는,
    글로벌 어텐션을 이용한 영상 분할 장치.

KR1020210045618A 2021-04-08 2021-04-08 글로벌 어텐션을 이용한 영상 분할 방법 및 장치 KR102561214B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210045618A KR102561214B1 (ko) 2021-04-08 2021-04-08 글로벌 어텐션을 이용한 영상 분할 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210045618A KR102561214B1 (ko) 2021-04-08 2021-04-08 글로벌 어텐션을 이용한 영상 분할 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20220139541A true KR20220139541A (ko) 2022-10-17
KR102561214B1 KR102561214B1 (ko) 2023-07-27

Family

ID=83810001

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210045618A KR102561214B1 (ko) 2021-04-08 2021-04-08 글로벌 어텐션을 이용한 영상 분할 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102561214B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523841A (zh) * 2023-03-31 2023-08-01 北京长木谷医疗科技股份有限公司 基于多尺度信息融合的深度学习脊柱分割方法及装置
CN117152441A (zh) * 2023-10-19 2023-12-01 中国科学院空间应用工程与技术中心 一种基于跨尺度解码的生物图像实例分割方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102089014B1 (ko) 2018-09-07 2020-03-13 연세대학교 산학협력단 피검사체의 뇌 활동을 재구성한 이미지 생성 장치 및 그 방법
KR20200131417A (ko) * 2019-05-14 2020-11-24 경희대학교 산학협력단 이미지 세그멘테이션 방법, 장치 및 컴퓨터 프로그램

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102089014B1 (ko) 2018-09-07 2020-03-13 연세대학교 산학협력단 피검사체의 뇌 활동을 재구성한 이미지 생성 장치 및 그 방법
KR20200131417A (ko) * 2019-05-14 2020-11-24 경희대학교 산학협력단 이미지 세그멘테이션 방법, 장치 및 컴퓨터 프로그램

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Muhammad Rameez Ur Rahman ET AL:"U-Net Based Defects Inspection in Photovoltaic Electroluminecscence Images", 2019 IEEE International Conference on Big Knowledge *
Nazanin Beheshti ET AL:"Squeeze U-Net: A Memory and Energy Efficient Image Segmentation Network", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 20 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523841A (zh) * 2023-03-31 2023-08-01 北京长木谷医疗科技股份有限公司 基于多尺度信息融合的深度学习脊柱分割方法及装置
CN117152441A (zh) * 2023-10-19 2023-12-01 中国科学院空间应用工程与技术中心 一种基于跨尺度解码的生物图像实例分割方法
CN117152441B (zh) * 2023-10-19 2024-05-07 中国科学院空间应用工程与技术中心 一种基于跨尺度解码的生物图像实例分割方法

Also Published As

Publication number Publication date
KR102561214B1 (ko) 2023-07-27

Similar Documents

Publication Publication Date Title
Parmar et al. Spatiotemporal feature extraction and classification of Alzheimer’s disease using deep learning 3D-CNN for fMRI data
CN110236543B (zh) 基于深度学习的阿尔茨海默病多分类诊断系统
KR102561214B1 (ko) 글로벌 어텐션을 이용한 영상 분할 방법 및 장치
KR102604216B1 (ko) 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법 및 장치
CN111080657A (zh) 基于卷积神经网络多维度融合的ct图像器官分割方法
CN111145186A (zh) 神经网络结构、图像分割方法、装置及存储介质
CN113065551B (zh) 利用深度神经网络模型执行图像分割的方法
CN112767417A (zh) 一种基于级联U-Net网络的多模态图像分割方法
CN113052856A (zh) 一种基于多尺度特征多路注意力融合机制的海马体三维语义网络分割方法
CN116188410A (zh) 基于多模态Trans-CNN UNet的3D脑胶质瘤MRI病灶分割方法、系统、设备及介质
CN115375711A (zh) 基于多尺度融合的全局上下文关注网络的图像分割方法
CN111210444A (zh) 多模态磁共振影像的分割方法、装置及介质
CN114332462A (zh) 一种针对大脑病变融入注意力机制的mri分割方法
CN114119515A (zh) 一种基于注意力机制和mri多模态融合的脑肿瘤检测方法
Sathish et al. Exponential cuckoo search algorithm to radial basis neural network for automatic classification in MRI images
CN115809998A (zh) 基于E2C-Transformer网络的胶质瘤MRI数据分割方法
Wang et al. A deep learning algorithm for fully automatic brain tumor segmentation
Hou et al. Cross attention densely connected networks for multiple sclerosis lesion segmentation
CN113628220A (zh) 基于改进的U-Net网络对MRI脑肿瘤图像的分割方法及系统
CN117372458A (zh) 三维脑肿瘤分割方法、装置、计算机设备和存储介质
CN108805181A (zh) 一种基于多分类模型的图像分类装置及分类方法
CN115984296A (zh) 一种应用多注意力机制的医学图像分割方法及系统
CN113744284B (zh) 脑肿瘤图像区域分割方法、装置、神经网络及电子设备
CN113379770B (zh) 鼻咽癌mr图像分割网络的构建方法、图像分割方法及装置
KR102604217B1 (ko) 잔차 컨볼루션 기반 딥러닝 네트워크를 이용한 영상 분할 방법 및 장치

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant