KR20220129405A - 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법 및 장치 - Google Patents

전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법 및 장치 Download PDF

Info

Publication number
KR20220129405A
KR20220129405A KR1020210034277A KR20210034277A KR20220129405A KR 20220129405 A KR20220129405 A KR 20220129405A KR 1020210034277 A KR1020210034277 A KR 1020210034277A KR 20210034277 A KR20210034277 A KR 20210034277A KR 20220129405 A KR20220129405 A KR 20220129405A
Authority
KR
South Korea
Prior art keywords
layer
convolution
feature information
encoder
image
Prior art date
Application number
KR1020210034277A
Other languages
English (en)
Other versions
KR102604216B1 (ko
Inventor
이범식
나가라지야마나카나바르
Original Assignee
조선대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 조선대학교산학협력단 filed Critical 조선대학교산학협력단
Priority to KR1020210034277A priority Critical patent/KR102604216B1/ko
Publication of KR20220129405A publication Critical patent/KR20220129405A/ko
Application granted granted Critical
Publication of KR102604216B1 publication Critical patent/KR102604216B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

본 발명은 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법 및 장치에 관한 것이다. 본 발명의 일 실시예에 따른 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법은, (a) 객체에 대한 슬라이스 이미지(slice image)를 획득하는 단계; (b) 상기 슬라이스 이미지를 다수의 패치 이미지(patch image)로 분할하는 단계; (c) 상기 다수의 패치 이미지 각각을 인코더(encoder)에 입력하는 단계; (d) 상기 인코더에 의해 출력되는 특징 정보(feature information)를 디코더(decoder)에 입력하는 단계; 및 (e) 상기 디코더에 의해 출력되는 결과값을 분류(classify)하는 단계;를 포함할 수 있다.

Description

전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법 및 장치{A method and apparatus for image segmentation using global attention-based convolutional network}
본 발명은 이미지 분할 방법 및 장치에 관한 것으로, 더욱 상세하게는 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법 및 장치에 관한 것이다.
자기 공명 영상(Magnetic Resonance Imaging, MRI)은 신체의 다양한 병리학적 상태를 검사하는데 사용되는 중요한 영상 기법이다. 그것은 장기의 형태학적 세부 사항을 표현할 수 있는 고품질의 이미지를 제공할 수 있다.
MRI는 뇌 영상 촬영에 가장 자주 사용되며 일반적으로 구조 분석에 선호되며 공간 해상도가 더 우수하고 건강 위험이 없는 높은 연조직 대비를 가진 영상을 생성할 수 있다. 뇌 MRI의 정량 분석은 간질, 다발성 경화증, 알츠하이머 병 및 퇴행성 질환과 같은 여러 뇌 질환의 진단에 주로 사용될 수 있다.
회색질(gray matter, GM), 백질(white matter, WM) 및 뇌척수액(cerebrospinal fluid, CSF)과 같은 뇌 조직 유형의 세분화를 위해 여러 고전적인 기계 학습 기반 접근 방식이 개발되고 있다.
그러나, 뇌 조직 유형의 세분화 정확도를 높이기 위한 많은 연구가 진행됨에도 이에 대한 효과는 미흡한 실정이다.
[특허문헌 1] 한국등록특허 제10-2089014호
본 발명은 전술한 문제점을 해결하기 위하여 창출된 것으로, 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법 및 장치를 제공하는 것을 그 목적으로 한다.
또한, 본 발명은, 슬라이스 이미지를 인코더 단계에서 해당 패치와 함께 어텐션 기반 아키텍처에 공급되는 균일한 비중첩 패치 이미지로 분할하기 위한 방법 및 장치를 제공하는 것을 그 목적으로 한다.
또한, 본 발명은 전역 어텐션 메커니즘(global attention mechanism)은 디코더 단계에서 상황 정보를 캡처하기 위한 방법 및 장치를 제공하는 것을 그 목적으로 한다.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
상기한 목적들을 달성하기 위하여, 본 발명의 일 실시예에 따른 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법은, (a) 객체에 대한 슬라이스 이미지(slice image)를 획득하는 단계; (b) 상기 슬라이스 이미지를 다수의 패치 이미지(patch image)로 분할하는 단계; (c) 상기 다수의 패치 이미지 각각을 인코더(encoder)에 입력하는 단계; (d) 상기 인코더에 의해 출력되는 특징 정보(feature information)를 디코더(decoder)에 입력하는 단계; 및 (e) 상기 디코더에 의해 출력되는 결과값을 분류(classify)하는 단계;를 포함할 수 있다.
실시예에서, 상기 (c) 단계는, 상기 다수의 패치 이미지 각각에 대하여, 상기 인코더의 제1 레이어에 대한 패치 이미지를 생성하는 단계; 상기 제1 레이어에 대한 패치 이미지에 대해 컨볼루션(convolution)을 수행하는 단계; 상기 제1 레이어의 컨볼루션의 결과값에 대해 맥스 풀링(max pooling)을 수행하는 단계; 및 상기 제1 레이어의 컨볼루션의 결과값에 대한 맥스 풀링의 결과값을 상기 인코더의 제2 레이어의 입력으로 제공하는 단계;를 포함할 수 있다.
실시예에서, 상기 (c) 단계는, 상기 제1 레이어에 대한 패치 이미지에 대해 맥스 풀링을 수행하여, 상기 제2 레이어에 대한 패치 이미지를 생성하는 단계; 및 상기 제1 레이어의 컨볼루션의 결과값에 대한 맥스 풀링의 결과값 및 상기 제2 레이어의 패치 이미지에 대한 맥스 풀링의 결과값에 기반하여 상기 인코더의 제2 레이어에 대한 특징 정보(feature information)를 생성하는 단계;를 포함할 수 있다.
실시예에서, 상기 (d) 단계는, 상기 인코더의 제2 레이어에 대한 특징 정보에 대해 전역 평균 풀링(global average pooling)을 수행하는 단계; 상기 전역 평균 풀링이 수행된 상기 제2 레이어에 대한 특징 정보에 대하여 컨볼루션을 수행하는 단계; 상기 컨볼루션이 수행된 상기 인코더의 제3 레이어에 대한 특징 정보와 상기 컨볼루션이 수행된 제2 레이어에 대한 특징 정보를 이용하여 상기 제2 레이어에 대한 가중치(weight)가 적용된 특징 정보를 생성하는 단계; 상기 제2 레이어에 대한 가중치가 적용된 특징 정보에 대해 업 샘플링(up-sampling)을 수행하여 어텐션 계수(attention coefficient)를 생성하는 단계; 및 상기 어텐션 계수와 상기 제2 레이어에 대한 특징 정보를 이용하여 상기 제2 레이어에 대한 전역 어텐션(global attention) 결과값을 생성하는 단계;를 포함할 수 있다.
실시예에서, 상기 (d) 단계는, 상기 디코더의 제3 레이어에 대한 특징 정보에 대해 언풀링(un-pooling)을 수행하는 단계; 상기 제3 레이어에 대한 언풀링의 결과값과 상기 제2 레이어에 대한 전역 어텐션 결과값을 이용하여 상기 디코더의 제2 레이어에 대한 컨볼루션(convolution)을 수행하는 단계;를 포함할 수 있다.
실시예에서, 상기 (e) 단계는, 상기 디코더의 제2 레이어에 대한 컨볼루션의 결과값을 분류하는 단계;를 포함할 수 있다.
실시예에서, 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 장치는, 객체에 대한 슬라이스 이미지(slice image)를 획득하는 획득부; 및 상기 슬라이스 이미지를 다수의 패치 이미지(patch image)로 분할하고, 상기 다수의 패치 이미지 각각을 인코더(encoder)에 입력하고, 상기 인코더에 의해 출력되는 특징 정보(feature information)를 디코더(decoder)에 입력하며, 상기 디코더에 의해 출력되는 결과값을 분류(classify)하는 제어부;를 포함할 수 있다.
실시예에서, 상기 제어부는, 상기 다수의 패치 이미지 각각에 대하여, 상기 인코더의 제1 레이어에 대한 패치 이미지를 생성하고, 상기 제1 레이어에 대한 패치 이미지에 대해 컨볼루션(convolution)을 수행하고, 상기 제1 레이어의 컨볼루션의 결과값에 대해 맥스 풀링(max pooling)을 수행하며, 상기 제1 레이어의 컨볼루션의 결과값에 대한 맥스 풀링의 결과값을 상기 인코더의 제2 레이어의 입력으로 제공할 수 있다.
실시예에서, 상기 제어부는, 상기 제1 레이어에 대한 패치 이미지에 대해 맥스 풀링을 수행하여, 상기 제2 레이어에 대한 패치 이미지를 생성하고, 상기 제1 레이어의 컨볼루션의 결과값에 대한 맥스 풀링의 결과값 및 상기 제2 레이어의 패치 이미지에 대한 맥스 풀링의 결과값에 기반하여 상기 인코더의 제2 레이어에 대한 특징 정보(feature information)를 생성할 수 있다.
실시예에서, 상기 제어부는, 상기 인코더의 제2 레이어에 대한 특징 정보에 대해 전역 평균 풀링(global average pooling)을 수행하고, 상기 전역 평균 풀링이 수행된 상기 제2 레이어에 대한 특징 정보에 대하여 컨볼루션을 수행하고, 상기 컨볼루션이 수행된 상기 인코더의 제3 레이어에 대한 특징 정보와 상기 컨볼루션이 수행된 제2 레이어에 대한 특징 정보를 이용하여 상기 제2 레이어에 대한 가중치(weight)가 적용된 특징 정보를 생성하고, 상기 제2 레이어에 대한 가중치가 적용된 특징 정보에 대해 업 샘플링(up-sampling)을 수행하여 어텐션 계수(attention coefficient)를 수행하며, 상기 어텐션 계수와 상기 제2 레이어에 대한 특징 정보를 이용하여 상기 제2 레이어에 대한 전역 어텐션(global attention) 결과값을 생성할 수 있다.
실시예에서, 상기 제어부는, 상기 디코더의 제3 레이어에 대한 특징 정보에 대해 언풀링(un-pooling)을 수행하고, 상기 제3 레이어에 대한 언풀링의 결과값과 상기 제2 레이어에 대한 전역 어텐션 결과값을 이용하여 상기 디코더의 제2 레이어에 대한 컨볼루션(convolution)을 수행할 수 있다.
실시예에서, 상기 제어부는, 상기 디코더의 제2 레이어에 대한 컨볼루션의 결과값을 분류할 수 있다.
상기한 목적들을 달성하기 위한 구체적인 사항들은 첨부된 도면과 함께 상세하게 후술될 실시예들을 참조하면 명확해질 것이다.
그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라, 서로 다른 다양한 형태로 구성될 수 있으며, 본 발명의 개시가 완전하도록 하고 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자(이하, "통상의 기술자")에게 발명의 범주를 완전하게 알려주기 위해서 제공되는 것이다.
본 발명의 일 실시예에 의하면, 로컬 특징을 해당 전역 종속성과 통합하고, 다양한 크기의 멀티 스케일 컨볼루션 커널이 인코더 및 디코더 모듈에서 사용되어 뇌 MRI 스캔에서 풍부한 의미론적 특징을 도출할 수 있다.
본 발명의 효과들은 상술된 효과들로 제한되지 않으며, 본 발명의 기술적 특징들에 의하여 기대되는 잠정적인 효과들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 뇌 MRI 스캔을 위한 Ground Truth 조직 클래스를 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방식을 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 과정을 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 전역 어텐션 모듈의 동작을 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 이미지 분할의 예를 도시한 도면이다.
도 6a 및 6b는 본 발명의 일 실시예에 따른 를 도시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법을 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따른 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 장치를 도시한 도면이다.
본 발명은 다양한 변경을 가할 수 있고, 여러 가지 실시예들을 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 이를 상세히 설명하고자 한다.
청구범위에 개시된 발명의 다양한 특징들은 도면 및 상세한 설명을 고려하여 더 잘 이해될 수 있을 것이다. 명세서에 개시된 장치, 방법, 제법 및 다양한 실시예들은 예시를 위해서 제공되는 것이다. 개시된 구조 및 기능상의 특징들은 통상의 기술자로 하여금 다양한 실시예들을 구체적으로 실시할 수 있도록 하기 위한 것이고, 발명의 범위를 제한하기 위한 것이 아니다. 개시된 용어 및 문장들은 개시된 발명의 다양한 특징들을 이해하기 쉽게 설명하기 위한 것이고, 발명의 범위를 제한하기 위한 것이 아니다.
본 발명을 설명함에 있어서, 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.
이하, 본 발명의 일 실시예에 따른 전역 어텐션(global attention) 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법 및 장치를 설명한다.
도 1은 본 발명의 일 실시예에 따른 뇌 MRI 스캔을 위한 Ground Truth 조직 클래스를 도시한 도면이다.
도 1을 참고하면, 뇌 MRI 스캔을 위한 Ground Truth 조직 클래스를 확인할 수 있다.
Ground Truth의 세분화 맵은 회색질(gray matter, GM), 백질(white matter, WM) 및 뇌척수액(cerebrospinal fluid, CSF) 및 배경 영역으로 분류될 수 있다. 다른 시간에 찍은 뇌 MRI의 분할은 뇌의 구조적 변화를 측정하는데도 사용될 수 있다.
이 경우, 본 발명에 따르면, 뇌 MRI의 자동 세분화를 위한 전역 어텐션(global attention) 기반 컨볼루션 네트워크를 이용한 이미지 분할 방식이 사용될 수 있다. 일 실시예에서, 본 발명에 따른 이미지 분할 방식은 ‘M-SegNet’ 또는 이와 동등한 기술적 의미를 갖는 용어로 지칭될 수 있다.
본 발명에 따르면, 전역 어텐션 네트워크가 있는 M-SegNet이라는 전역 어텐션과 통합된 다중 스케일 딥 네트워크를 사용하여 뇌 MRI 분할을 위한 완전 자동화 방법(fully automatic method)이 사용될 수 있다.
본 발명에 따르면, 전역 어텐션 아키텍처를 갖춘 M-SegNet은 종단 간 딥러닝 시스템으로, 입력 측에 다중 스케일 사이드 레이어가 있는 M-모양 컨볼루션 네트워크를 포함하여 식별 정보를 학습하고 업 샘플링 레이어를 출력 측은 딥 감독(deep supervision)이 사용될 수 있다.
본 발명에 따르면, 다중 스케일 확장 컨볼루션 커널은 다양한 스케일에서 컨텍스트 정보를 추출하는데 사용되어 뇌 MRI 스캔의 분할 정확도를 향상시킬 수 있다.
본 발명에 따르면, 디코더 단계에 적용된 전역 어텐션은 어텐션 기반 네트워크를 형성할 수 있다. 전역 어텐션의 핵심 요소는 전역 평균 풀링(global average pooling)으로, 클래스 카테고리 로컬화(class category localization)를 얻기 위해 하위 레벨 특징에 대한 지원으로 상위 레벨 특징의 전역 컨텍스트를 제공한다.
본 발명에 따르면, 뇌 MRI 스캔을 분할하기 위해 입력 슬라이스의 패치 방식 분할(patch-wise splitting)이 사용될 수 있다. MRI 스캔에서 얻은 슬라이스의 패치 방식 분할을 사용하면 훈련된 네트워크가 각 패치 내의 로컬 세부 정보에 집중할 수 있고 의미 체계의 손실을 줄일 수 있기 때문에 로컬화가 향상된다.
본 발명에 따르면, Dice 유사성 계수(Dice similarity coefficient, DSC), Jaccard 지수(Jaccard index, JI) 및 Hausdorff 거리(Hausdorff distance, HD) 측면에서 우수한 분할 정확도를 달성할 수 있다.
도 2는 본 발명의 일 실시예에 따른 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방식(200)을 도시한 도면이다.
도 2를 참고하면, 예를 들어, 객체에 대한 이미지의 크기는 208x176x176(높이x너비x슬라이스 수)이며, 각 축 스캔은 총 176개의 슬라이스로 구성될 수 있다.
축 스캔은 제안된 방법에서 이미지의 상단과 하단에 0의 24픽셀을 패딩하고 이미지의 왼쪽과 오른쪽에 0의 40픽셀을 패딩하여 256x256x176의 크기로 크기가 조정될 수 있다.
시상면(sagittal)(176x208x176) 및 관상면(coronal)(176x176x208) 스캔의 원래 크기는 각각 256x256x176 및 256x256x208 크기로 조정될 수 있다.
뇌 MRI 스캔에서 정보가 없는 슬라이스를 제외하고, 연속 슬라이스의 반복적인 학습을 줄이기 위해 중앙 슬라이스(즉, 더 많은 정보가 있는 슬라이스)와 비중앙 슬라이스(즉, 더 적은 정보가 있는 슬라이스)를 모두 포함하는 3 슬라이스 간격으로 48 슬라이스를 추출할 수 있다.
각 입력 스캔은 256x256 크기의 48개 슬라이스로 구성될 수 있다. 훈련 단계에서 각 MRI 스캔의 조각과 그에 상응하는 실상이 4개의 균일한 패치로 분할될 수 있다. 따라서 제안된 방법에서 분할된 각 패치의 크기는 128x128일 수 있다.
본 발명에 따른 M-SegNet 아키텍처에 대해 패치 방식 입력(patch-wise input)을 채택할 수 있다. 패치 방식 입력의 이유는 슬라이스의 균일한 패치 방식 분할의 이점이 뇌 MRI의 로컬화 정확도를 향상시킬 수 있기 때문일 수 있다. 훈련된 네트워크는 각 패치의 로컬 세부 사항에 더 집중하도록 설계될 수 있다.
마지막으로 이러한 패치는 훈련에 대한 전역 어텐션과 함께 M-SegNet에 제공되고 테스트 데이터에 대해 예측된 세분화 결과가 획득될 수 있다.
도 3은 본 발명의 일 실시예에 따른 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 과정(300)을 도시한 도면이다. 도 4는 본 발명의 일 실시예에 따른 전역 어텐션 모듈의 동작을 도시한 도면이다.
도 3을 참고하면, 이미지 분할 과정(300)은 인코더(310)의 동작 및 디코더(320)의 동작을 포함할 수 있다.
일 실시예에서,
Figure pat00001
은 소스 도메인이고,
Figure pat00002
은 입력 이미지의 해당 레이블을 포함할 수 있다. m은 데이터 세트의 훈련 샘플의 수, nx와 ny는 각각 MRI 데이터의 입력 및 출력 크기(클래스 수)일 수 있다.
소스 도메인에서
Figure pat00003
는 MRI 데이터의
Figure pat00004
예이고,
Figure pat00005
는 MRI 데이터의 출력 레이블을 나타내고,
Figure pat00006
는 i 번째 예측 출력을 나타낼 수 있다.
이미지 분할 과정(300)은 엔코더-디코더 기반 구조로 되어 있으며, 멀티 스케일 입력(좌측 레그(left leg))과 딥 감독(우측 레그(right leg))와 같은 두 가지 사이드 경로를 포함할 수 있다.
인코더(310)의 인코딩 경로에서 각 레벨은 1x1 컨볼루션 및 ReLU(rectified linear unit)의 두 연속 블록으로 구성되며, 각 컨볼루션은 ReLU 활성화 함수가 뒤 따를 수 있다.
본 발명에 따르면, 컨볼루션 블록은 하기 <수학식 1>과 같이 (l+1)번째 레이어에 대한 입력으로서 l 번째 레이어의 출력과 연결되는 피드포워드 네트워크를 포함할 수 있다.
Figure pat00007
여기서
Figure pat00008
은 l 번째 레이어의 출력이고,
Figure pat00009
은 컨벌루션 커널의 가중치,
Figure pat00010
는 바이어스 매개 변수, *는 컨볼루션 연산, R(
Figure pat00011
)는 l 번째 컨볼루션 모듈의 ReLU 활성화 함수를 나타낸다.
컨벌루션 모듈의 출력은 스트라이드(stride)드가 2인 2x2 맥스 풀링 연산을 사용하여 다운 샘플링되며, 이는 하기 <수학식 2>로 표현될 수 있다.
Figure pat00012
여기서
Figure pat00013
는 l 번째 레이어의 맥스 풀링 출력을 나타낸다. 맥스 풀링은 이미지의 크기를 줄이고 특징 맵의 세부 사항을 캡처하기 위해 사용될 수 있다. 일 실시예에서, 특징 맵은 ‘특징 정보’ 또는 이와 동등한 기술적 의미를 갖는 용어로 지칭될 수 있다.
아키텍처의 좌측 레그에서 입력 이미지는 스트라이드(stride)가 2인 2x2 맥스 풀링 작업을 사용하여 다운 샘플링되고, 사이드 스킵 연결을 통해 해당 인코더 레이어에 연결될 수 있다. 다중 스케일 입력은 식별 정보를 추출하기 위한 딥 레이어를 지원하는데 사용되며 하기 <수학식 3>과 같이 정의될 수 있다.
Figure pat00014
여기서
Figure pat00015
은 l 번째 레이어의 사이드 출력을 나타낸다. 엔코더 측의 l 번째 레이어에서 생성된 전체 특징 맵은 하기 <수학식 4>로 표현될 수 있다.
Figure pat00016
여기서
Figure pat00017
는 각 인코더 레이어로부터의 최종 출력을 나타낸다. 두 개의 연속된 컨볼루션 블록에 의해 획득된 특징은 스킵 연결 및 풀링 인덱스와 함께 해당 디코딩 레이어로 전송될 수 있다.
스킵 연결은 인코더 경로에서 디코더 경로로 특징을 전달하여 다운 샘플링 중에 손실된 공간 정보(spatial information)를 검색하는데 사용될 수 있다.
본 발명에 따른 모델은 풀링 인덱스가 디컨볼루션 레이어로 전달되기 때문에 더 빠른 수렴을 보일 수 있다.
어텐션과 함께 패치 방식 M-SegNet에서 사용된 풀링 인덱스와 스킵 연결은 그림 3과 같이 회색 및 점선 파란색 화살표로 표시될 수 있다.
디코더(320)는 전역 어텐션(global attention, GA) 모듈(330)을 포함할 수 있다.
GA 모듈(330)은 작업과 관련이 없는 특징 활성화를 억제하여 네트워크 성능을 향상시킬 수 있다. GA 모듈(330)을 사용하면 하위 레벨 특징(low-level feature)의 가이드로 전역 컨텍스트를 통해 클래스 로컬화 세부정보를 결정할 수 있다.
도 4를 참고하면, GA 모듈(330)의 아키텍처 과정을 확인할 수 있다.
410 과정에서, 하위 레벨 특징
Figure pat00018
에 대한 전역 평균 풀링(global average pooling)을 수행한다.
Figure pat00019
은 하위 레벨 특징(low-level feature)을 나타내며, l 번째 인코딩 레이어에 의해 출력된 특징 맵을 포함할 수 있다.
여기서, 전역 평균 풀링은 로컬 특징을 전역 컨텍스트와 통합하기 위한 하위 레벨 특징에 대한 가이드로 전역 컨텍스트 정보를 제공한다.
420 단계에서, 전역 평균 풀링된 하위 레벨 특징에 대해 1x1 컨볼루션을 수행한다.
430 과정에서, 상위 레벨 특징
Figure pat00020
에서 생성된 전역 정보를 ReLU 활성화 함수와 함께 1x1 컨볼루션에 대한 입력으로 제공한다.
Figure pat00021
은 상위 레벨 특징(high-level feature)을 나타내며, l+1 번째 인코딩 레이어에 의해 출력된 특징 맵을 포함할 수 있다.
예를 들어,
Figure pat00022
은 더 거친 스케일(coarser scale)에서 수집되며 게이팅 신호 벡터(gating signal vector) 역할을 한다. 포커스 영역(focus region)을 선택하기 위해 모든 픽셀에 적용된다.
440 과정에서, 1x1 컨볼루션된 하위 레벨 특징과 곱함(multiply)에 따라, 가중치가 적용된 하위 레벨 특징을 추출할 수 있다. 어텐션 계수를 얻기 위해 곱셈 어텐션을 사용할 수 있다.
450 과정에서, 가중치가 적용된 하위 레벨 특징에 대해 업 샘플링을 수행하여 어텐션 계수를 생성한다. 어텐션 계수는 하기 <수학식 6>을 사용하여 얻을 수 있다.
Figure pat00023
여기서
Figure pat00024
Figure pat00025
는 각각 입력 및 게이팅 신호와 관련된 가중치이고 GAP는 전역 평균 풀링을 나타낸다.
460 과정에서, 어텐션 계수에 하위 레벨 특징을 추가(add)하여, l 번째 레이어에 대한 GA 모듈(330)의 출력값을 생성한다. 일 실시예에서, GA 모듈(330)의 출력값은 ‘전역 어텐션 결과값’ 또는 이와 동등한 기술적 의미를 갖는 용어로 지칭될 수 있다.
즉, GA 모듈(330)의 출력값은 어텐션 계수를 사용하여 l 번째 인코딩 레이어에서 요소별 특성 맵을 추가한 것으로 하기 <수학식 5>와 같이 정의될 수 있다.
Figure pat00026
여기서,
Figure pat00027
는 GA 모듈(330)의 출력값을 나타내고,
Figure pat00028
은 비 상대적 특성 응답을 억제하여 대상 작업과 관련된 활성화를 유지하는 어텐션 계수를 나타낸다.
다중 시맨틱 클래스(multiple semantic class)의 상황에서 다차원 어텐션 계수를 학습할 수 있다. 즉, 상위 레벨 특징 맵의 클래스 카테고리에 특정한 픽셀 로컬화를 추출한다.
다시 도 3을 참고하면, 디코더(320)의 각 디코딩 레이어는 3x3의 연속된 두 개의 컨볼루션 블록으로 구성될 수 있다. 맥스 풀링 작업(max-pooling operation)은 언풀링 레이어(un-pooling layer)로 대체되어 학습 가능한 추가 매개 변수 없이 입력 특징 맵을 업 샘플링한다.
언풀링 레이어는 해당 인코더의 맥스 풀링시 저장된 인덱스를 사용하여 입력 특징 맵의 공간 차원을 업 샘플링하며 하기 <수학식 7>과 같이 정의될 수 있다.
Figure pat00029
여기서
Figure pat00030
은 언풀링 연산의 출력이고, R(
Figure pat00031
)은 l 번째 컨벌루션 모듈의 ReLU 활성화 함수이고,
Figure pat00032
은 더 빠른 훈련을 위해 인코더 레이어에서 디코더 레이어로 가져온 풀링 인덱스를 나타낸다.
업 샘플 레이어로 사용되는 언풀링은 모델 복잡성을 크게 줄임과 동시에 모델이 보다 정확한 세부 정보로 세분화 맵을 생성할 수 있다.
일 실시예에서, 언풀링 특징 맵은 GA 모듈(330)로 전달되고, 스킵 연결을 통해 유사한 공간 차원의 인코더 특징 맵과 연결될 수 있다. 이러한 스킵 연결은 세분화를 지원하기 위해 높은 컨텍스트 정보를 제공할 뿐만 아니라, 그레디언트가 더 깊은 영역에서 더 얕은 영역으로 전달되어 네트워크의 학습 가능성을 향상시키는 저항 없는 경로를 구축할 수 있다.
일 실시예에서, 각 디코더 레이어의 출력은 하기 <수학식 8>과 같이 표현될 수 있다.
Figure pat00033
여기서
Figure pat00034
는 각 디코더 레이어의 출력을 나타낸다. 딥 감독(우측 레그)은 그레디언트 문제를 줄이고 최적화 수렴 속도를 개선하는데 사용될 수 있다. 우측 레그의 업 샘플링의 결과값은 하기 <수학식 9>로 정의될 수 있다.
Figure pat00035
여기서,
Figure pat00036
은 업 샘플링의 결과값을 나타낸다.
최종 네트워크 출력 특징 맵(
Figure pat00037
)은 하기 <수학식 10>을 사용하여 획득할 수 있다.
Figure pat00038
분류 레이어는 재구성된 이미지를 출력하는 소프트맥스(softmax) 활성화 함수가 있는 1x1 컨벌루션 레이어로 구성될 수 있다.
소프트맥스 레이어는 GM, WM, CSF 및 배경과 같은 네 가지 출력 클래스를 예측할 수 있다. 본 발명에 따른 모델은 입력 이미지를 가져와 학습된 표현을 생성할 수 있다.
입력 이미지는 이 특징 표현을 기반으로 4개의 출력 클래스 중 하나로 분류될 수 있다. 제안된 모델의 손실을 측정하기 위해 교차 엔트로피(cross-entropy)가 사용될 수 있다.
소프트맥스 레이어는 학습된 표현
Figure pat00039
을 가져 와서 출력 클래스로 해석될 수 있다. 또한 출력 클래스에 대해 확률 점수
Figure pat00040
가 할당될 수 있다.
출력 클래스의 수를 c로 정의하면 예측 분포 점수는 하기 <수학식 11>과 같이 나타낼 수 있다.
Figure pat00041
여기서
Figure pat00042
는 예측 분포 점수를 나타낸다.
교차 엔트로피 손실 함수는 하기 <수학식 12>와 같이 네트워크 코스트를 계산하는데 사용됩니다.
Figure pat00043
여기서
Figure pat00044
는 네트워크 코스트를 나타내고, y와
Figure pat00045
는 각각 각 클래스 i에 대한 근거와 예측 분포 점수를 나타낸다.
일 실시예에서, 본 발명에 따르면 두 세트의 뇌 MRI로 테스트될 수 있다. 첫 번째 세트에는 데이터베이스에서 얻은 416 명의 피험자의 T1 가중치 뇌 MRI가 포함될 수 있다.
총 416 명의 피험자 중 처음 30 명의 피험자는 모델 학습에 사용되었고 나머지 20 명의 피험자는 테스트 데이터 세트로 사용될 수 있다.
두 번째 세트에는 IBSR(Internet Brain Segmentation Repository) 데이터 세트의 MRI가 포함될 수 있다. 훈련 데이터 세트에는 수동으로 주석을 달고 확인된 지상 실측 레이블이 있는 12 명의 대상이 포함되었으며 나머지 6 명은 모델을 테스트할 수 있다.
본 발명에 따르면, 본 발명에 따른 M-SegNet 방식(Proposed method)과 종래의 SegNet, U-net, M-net 아키텍처와 비교하여 평가될 수 있다.
훈련 중에 Epoch 수를 10으로, 배치 크기를 1로, 학습률을 0.001로 설정하고 0.99의 높은 모멘텀 비율로 확률적 경사 하강법이 사용될 수 있다. 네트워크의 손실 함수가 10 epoch 내에서 가장 낮은 값으로 수렴되고 10 epoch 이상에서 과적 합을 나타내는 경향이 있음을 확인할 수 있다.
범주형 교차 엔트로피 손실은 학습된 가중치를 업데이트하는데 사용될 수 있다. 가중치를 초기화하기 위해 정규화 기술이 사용될 수 있다.
또한, MRI 슬라이스의 축, 시상 및 관상면이 뇌 MRI의 분할에 사용될 수 있다.
데이터 세트의 MRI 슬라이스에는 슬라이스의 시작과 끝 부분에 정보가 포함되어 있지 않으며 연속 슬라이스는 거의 동일한 정보를 공유할 수 있다. 따라서 훈련을 위해 중앙 슬라이스와 비중앙 슬라이스를 모두 포함하는 3 슬라이스 간격으로 48 슬라이스를 추출할 수 있다.
또한 다른 데이터 세트에서 우리는 뇌 MRI의 축, 시상 및 관상면에서 3 슬라이스 간격으로 48 슬라이스를 추출할 수 있다.
방법의 성능을 객관적으로 평가하기 위해 Dice 유사성 계수(DSC), Jaccard 지수(JI) 및 Hausdorff 거리(HD)를 사용하여 세분화 출력을 Ground Truth와 비교할 수 있다.
주어진 Ground Truth 분할 맵(ground truth segmentation map) s와 예측(predicted) 분할 맵 s'사이의 중첩 정도를 결정하는데 사용되는 DSC 및 JI는 하기 <수학식 13> 및 <수학식 14>로 정의될 수 있다.
Figure pat00046
Figure pat00047
여기서
Figure pat00048
이라는 용어는 Ground Truth와 예측 분할 맵의 교차점을 나타내고
Figure pat00049
는 세트의 카디널리티(cardinality)를 나타낸다.
또한 Hausdorff 거리(Hausdorff distance, HD)를 사용하여 다른 세트에서 가장 가까운 지점까지 세트의 최대 거리를 측정하고 하기 <수학식 15>로 정의될 수 있다.
Figure pat00050
여기서 a와 b는 각각 집합 s와 s'의 점을 나타낸다. 즉, s와 s'사이의 HD는 s의 모든 포인트가 거리 내에서 s'의 포인트를 갖고 s'의 모든 포인트가 거리 d 내에서 s의 포인트를 갖도록 하는 가장 작은 값을 의미한다.
예를 들어, 하기 <표 1> 내지 <표 3>은 OASIS 및 IBSR 데이터 셋을 사용하는 기존 방법과 비교하여 제안된 방법의 실험 결과를 확인할 수 있다.
OASIS dataset
Axial plane
Methods
DSC JI HD
SegNet 0.84±0.014 0.72±0.011 5.7±0.53
U-net 0.90±0.023 0.82±0.034 4.3±0.24
M-net 0.92±0.045 0.85±0.058 3.9±0.11
Proposed 0.94±0.015 0.90±0.035 3.3±0.58
Coronal plane
SegNet 0.78±0.038 0.64±0.049 4.6±0.58
U-net 0.92±0.018 0.85±0.028 4.2±0.34
M-net 0.93±0.016 0.87±0.035 3.3±0.18
Proposed 0.94±0.034 0.90±0.043 3.1±0.18
Sagittal plane
SegNet 0.80±0.046 0.67±0.057 5.9±0.29
U-net 0.91±0.020 0.83±0.027 5.2±0.23
M-net 0.92±0.032 0.85±0.051 4.6±0.10
Proposed 0.95±0.064 0.90±0.092 3.9±0.25
IBSR dataset
Axial plane
SegNet 0.75±0.049 0.67±0.058 6.53±0.91
U-net 0.91±0.017 0.85±0.023 4.87±0.51
M-net 0.92±0.053 0.86±0.028 4.45±0.65
Proposed 0.93±0.035 0.87±0.028 4.23±0.33
Coronal plane
SegNet 0.73±0.037 0.65±0.062 6.21±0.84
U-net 0.90±0.014 0.83±0.056 5.17±0.38
M-net 0.91±0.035 0.84±0.043 4.56±0.19
Proposed 0.92±0.025 0.86±0.025 4.31±0.43
Sagittal plane
SegNet 0.74±0.073 0.66±0.059 6.36±0.76
U-net 0.89±0.036 0.81±0.041 5.77±0.21
M-net 0.90±0.069 0.82±0.046 5.42±0.06
Proposed 0.91±0.021 0.83±0.043 5.30±0.16
OASIS dataset
Axial plane
Methods
DSC JI HD
SegNet 0.87±0.017 0.77±0.021 5.09±0.18
U-net 0.93±0.012 0.87±0.018 4.40±0.15
M-net 0.93±0.029 0.87±0.063 3.28±0.31
Proposed 0.95±0.008 0.92±0.012 3.23±0.29
Coronal plane
SegNet 0.82±0.054 0.69±0.046 5.4±0.35
U-net 0.93±0.015 0.87±0.020 4.14±0.21
M-net 0.94±0.041 0.89±0.063 3.16±0.22
Proposed 0.95±0.056 0.91±0.011 3.10±0.69
Sagittal plane
SegNet 0.80±0.046 0.67±0.057 7.2±0.43
U-net 0.91±0.020 0.83±0.027 4.3±0.38
M-net 0.93±0.073 0.87±0.089 4.2±0.15
Proposed 0.95±0.046 0.90±0.017 3.7±0.29
IBSR dataset
Axial plane
SegNet 0.72±0.036 0.65±0.042 6.51±0.65
U-net 0.89±0.022 0.81±0.034 5.14±0.51
M-net 0.90±0.043 0.82±0.051 4.76±0.39
Proposed 0.91±0.026 0.83±0.078 4.45±0.89
Coronal plane
SegNet 0.70±0.061 0.62±0.051 6.32±0.82
U-net 0.88±0.035 0.79±0.034 5.45±0.67
M-net 0.89±0.076 0.80±0.046 4.61±0.21
Proposed 0.90±0.031 0.85±0.077 4.24±0.78
Sagittal plane
SegNet 0.71±0.043 0.63±0.039 6.49±0.61
U-net 0.86±0.029 0.78±0.062 5.75±0.37
M-net 0.87±0.016 0.80±0.048 4.89±0.14
Proposed 0.88±0.032 0.81±0.089 4.63±0.80
OASIS dataset
Axial plane
Methods
DSC JI HD
SegNet 0.80±0.045 0.67±0.063 4.9±0.47
U-net 0.88±0.045 0.80±0.056 4.6±0.26
M-net 0.91±0.036 0.84±0.049 3.6±0.05
Proposed 0.94±0.012 0.89±0.013 3.3±0.51
Coronal plane
SegNet 0.74±0.067 0.61±0.091 4.6±0.43
U-net 0.89±0.032 0.82±0.036 4.1±0.37
M-net 0.91±0.026 0.84±0.043 3.2±0.19
Proposed 0.93±0.051 0.88±0.021 3.1±0.24
Sagittal plane
SegNet 0.77±0.069 0.63±0.084 6.3±0.52
U-net 0.88±0.024 0.81±0.029 4.4±0.34
M-net 0.92±0.056 0.85±0.054 3.3±0.11
Proposed 0.93±0.029 0.87±0.081 3.2±0.32
IBSR dataset
Axial plane
SegNet 0.68±0.099 0.59±0.095 6.96±0.46
U-net 0.84±0.065 0.75±0.079 5.24±0.31
M-net 0.84±0.029 0.75±0.048 4.84±0.18
Proposed 0.85±0.056 0.77±0.037 4.26±0.45
Coronal plane
SegNet 0.66±0.054 0.57±0.086 6.84±0.75
U-net 0.83±0.012 0.76±0.043 5.54±0.47
M-net 0.84±0.085 0.76±0.093 4.83±0.25
Proposed 0.84±0.067 0.76±0.026 4.55±0.55
Sagittal plane
SegNet 0.65±0.083 0.54±0.092 6.99±0.41
U-net 0.80±0.071 0.73±0.019 5.83±0.15
M-net 0.81±0.096 0.74±0.073 4.98±0.09
Proposed 0.82±0.064 0.75±0.056 4.12±0.36
본 발명에 따른 분할 정확도는 DSC, JJ 및 HD 평가 메트릭 측면에서 기존 방법에 비해 훨씬 더 나은 결과를 달성하는 것을 확인할 수 있다.
이는 기존 방법에 비해 본 발명에 따른 방법이 다중 스케일 사이드 경로를 통해 식별 정보를 추출하고, 스킵 연결과 함께 풀링 인덱스가 최적의 업 샘플링 방법으로 작용하기 때문이다. 또한, 슬라이스는 패치로 나누어지고 제안된 방법에서는 패치마다 개별적으로 예측이 이루어질 수 있다.
미세한 로컬 세부 정보를 보존할 수 있으므로 전체 슬라이스를 입력으로 사용하는 기존 방법에 비해 더 나은 분할 성능을 얻을 수 있다.
도 5는 본 발명의 일 실시예에 따른 이미지 분할의 예를 도시한 도면이다. 도 6a 및 6b는 본 발명의 일 실시예에 따른 를 도시한 도면이다.
도 5, 도 6a 및 6b를 참고하면, 다른 세분화 방법의 결과에 비해 본 발명에 따른 방법에 의한 세분화 맵이 더 나은 결과를 보여주고 있음을 알 수 있다.
또한 U-net과 SegNet 아키텍처의 세분화 결과는 도 6b의 빨간색 사각형에서 볼 수 있듯이 본 발명에 따른 방법에 비해 세부적인 세부 사항이 부족함을 알 수 있다.
특히 SegNet은 저해상도 특징 맵에서 업 샘플링을 수행할 때 주변 정보를 잃어버리기 때문에 많은 세부 정보를 놓치는 경향이 있다.
마찬가지로 U-net은 특히 WM과 GM 사이의 경계에서 상세한 텍스처를 캡처하는데 어려움이 있다.
인코더에서 얻은 특징 맵에는 하위 레벨 특징이 포함되며 스킵 연결을 통해 동일한 레벨의 디코더 특징과 연결된다.
또한 하위 레벨의 특징은 하위 레벨의 디코더에서 가져온 상위 레벨의 특징과 융합되어 하위 레벨의 특징과 상위 레벨의 특징이 일치하지 않게 된다.
결과적으로 U-net의 결과에서 연결된 하위 레벨과 상위 레벨의 특징 사이의 잠재적 의미 갭이 초과될 수 있다.
본 발명에 따른 방법은 이러한 종래 기술의 한계를 극복하고 더 나은 분할 성능을 제공할 수 있다. 인코더의 다중 스케일 사이드 경로는 식별 정보를 캡처하는데 도움이 되며 디코더에서 딥 감독을 제공할 수 있다.
또한 인코더에서 1x1 커널을 사용하고 디코더에서 3x3 커널을 사용하면 다중 스케일 컨텍스트 정보를 캡처하는데 도움이 된다.
어텐션 기반 스킵 연결은 클래스 카테고리 로컬화를 얻기 위해 하위 레벨 특징에 대한 지원으로 상위 레벨 특징의 전역 컨텍스트를 제공할 수 있다.
또한 디코더의 풀링 인덱스는 언풀링 작업을 수행하는 동안 공간 정보를 유지하는데 도움이 된다.
본 발명에 따른 방법은 겹치지 않는 패치 방식 입력을 채택하여 네트워크가 로컬 이미지 세부 사항에 집중할 수 있다.
균일한 패치를 선택적으로 통합한 결과, 공간 정보를 캡처하기 위한 인덱스 풀링, 다중 스케일 가이드 GA가 뒤따르는 특징 맵은 상호 보완적인 정보를 효율적으로 인코딩하여 뇌 MRI를 정확하게 분할할 수 있다.
우리 모델의 유효성을 확인하기 위해 (1)M-SegNet(입력 크기 256x256), (2)어텐션을 포함한 M-SegNet(입력 크기: 256x256), (3)M-SegNet(패치 크기 128x128) 및 (4)어텐션을 포함한 M-SegNet(패치 크기 128x128)와 같은 네가지 모델을 구성할 수 있다.
하기 <표 4>는 뇌 MRI 분할을 위해 제안된 단순화된 모델의 DSC 및 JI 메트릭 측면에서 분할 성능을 보여줍니다.
Methods
(Input type)
Size WM GM CSF
DSC JI DSC JI DSC JI
M-SegNet (Whole slice) 256×256 0.93 0.87 0.92 0.88 0.92 0.86
M-SegNet with
attention (Whole slice)
256×256 0.94 0.89 0.93 0.87 0.92 0.86
M-SegNet (Patch-wise) 128×128 0.95 0.90 0.94 0.89 0.93 0.88
Proposed method 128×128 0.96 0.91 0.96 0.91 0.95 0.90
전체 슬라이스를 입력으로 사용하는 M-SegNet은 네트워크가 대부분의 거친 정보를 추출할 수 있고 전체 이미지에서 미세한 세부 사항을 캡처하지 못하기 때문에 정확도가 떨어집니다.
이 네트워크에 GA를 포함하면 정확도가 약간 향상되지만 만족스러운 결과를 제공하지는 않습니다.
로컬 정보는 세분화 작업에서 전역 정보보다 더 많은 정보입니다. 따라서 패치 기반 M-SegNet 네트워크는 균일하게 분할된 패치의 세부 사항에 더 집중할 수 있습니다.
결과적으로 슬라이스의 전체 정보를 훈련 데이터로 사용할 수 있으므로 상세한 로컬 정보로 강력한 세분화 성능을 얻을 수 있습니다.
또한 패치 기반 M-SegNet 네트워크에 적용된 어텐션 스킴은 네트워크 성능을 향상시킵니다. 전체 DSC 점수는 96%로 다른 제안된 방식보다 우수한 것으로 입증되었습니다.
<표 5>는 모델의 세분화 성능 및 학습 시간 측면에서 패치 크기의 영향을 보여줍니다.
Patch
size
WM GM CSF Training
Time
DSC% JI% DSC% JI% DSC% JI%
32×32 96.91 91.88 96.85 91.76 95.73 90.71 18.5h
64×64 96.55 91.49 96.63 91.58 95.49 90.54 15.7h
128×128 96.01 91.11 96.13 91.25 95.17 90.29 11.2h
<표 5>에서 32x32, 64x64 및 128x128과 같은 세 가지 다른 패치 크기에 대해 OASIS 데이터 세트에서 수행될 수 있다. 본 발명에 따른 패치 크기 128x128 방법은 다른 패치 크기 (32x32, 64x64)에 비해 훈련 시간 (11.2 시간)이 더 적게 소요됨을 알 수 있다.
패치 수가 많을수록 네트워크를 성공적으로 훈련시키는 데 더 많은 리소스가 필요하고 훈련 중에 최적화되어야하는 매개 변수가 더 많다.
그러나 패치 크기가 작을수록 DSC 측면에서 성능이 향상된다. 패치 크기가 작을수록 네트워크에 더 많은 훈련 데이터가 생성될 수 있기 때문이다.
또한 로컬 영역을 보다 정확하게 재구성할 수 있다. 128x128 패치 크기는 DSC와 단일 피험자를 처리하는데 필요한 시간 사이의 허용 가능한 균형을 나타내는 것으로 결정될 우 있다.
즉, 본 발명에 따르면, M-SegNet 아키텍처에서 다중 스케일 확장 컨볼루션 커널은 다른 스케일에서 식별 정보를 추출하는 반면 디컨볼루션 레이어의 풀링 인덱스는 모델이 더 빨리 수렴되도록 할 수 있다.
전역 어텐션 체계는 범주 로컬화 세부 사항을 선택하기 위한 하위 레벨 특징에 대한 지침으로 전역 컨텍스트를 제공할 수 있다. 또한, 균일한 입력 패치는 미세한 로컬 세부 사항을 캡처할 수 있다.
도 7은 본 발명의 일 실시예에 따른 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법을 도시한 도면이다.
도 7을 참고하면, S701 단계는, 객체에 대한 슬라이스 이미지(slice image)를 획득하는 단계이다. 예를 들어, 객체는 뇌(brain)을 포함할 수 있다. 일 실시예에서, S701 단계 이전에, 객체에 대한 3차원 이미지를 다수의 2차원 슬라이스 이미지로 분할할 수 있다. 예를 들어, 슬라이스 이미지는 객체의 3차원 이미지에 대한 2차원 단면 이미지를 포함할 수 있다.
S703 단계는, 슬라이스 이미지를 다수의 패치 이미지(patch image)로 분할하는 단계이다. 즉, 슬라이스 이미지를 다수의 2차원 영역인 패치 이미지로 분할할 수 있다.
S705 단계는, 다수의 패치 이미지 각각을 인코더(encoder)(310)에 입력하는 단계이다.
일 실시예에서, 다수의 패치 이미지 각각에 대하여, 인코더(310)의 제1 레이어에 대한 패치 이미지를 생성하고, 상기 제1 레이어에 대한 패치 이미지에 대해 컨볼루션(convolution)을 수행하고, 상기 제1 레이어의 컨볼루션의 결과값에 대해 맥스 풀링(max pooling)을 수행하고, 상기 제1 레이어의 컨볼루션의 결과값에 대한 맥스 풀링의 결과값을 인코더(310)의 제2 레이어의 입력으로 제공할 수 있다.
일 실시예에서, 상기 제1 레이어에 대한 패치 이미지에 대해 맥스 풀링을 수행하여, 상기 제2 레이어에 대한 패치 이미지를 생성하고, 상기 제1 레이어의 컨볼루션의 결과값에 대한 맥스 풀링의 결과값 및 상기 제2 레이어의 패치 이미지에 대한 맥스 풀링의 결과값에 기반하여 인코더(310)의 제2 레이어에 대한 특징 정보(feature information)를 생성할 수 있다.
S707 단계는, 인코더(310)에 의해 출력되는 특징 정보(feature information)를 디코더(320)(decoder)에 입력하는 단계이다.
일 실시예에서, 인코더(310)의 제2 레이어에 대한 특징 정보에 대해 전역 평균 풀링(global average pooling)을 수행하고, 상기 전역 평균 풀링이 수행된 상기 제2 레이어에 대한 특징 정보에 대하여 컨볼루션을 수행하고, 상기 컨볼루션이 수행된 인코더(310)의 제3 레이어에 대한 특징 정보와 상기 컨볼루션이 수행된 제2 레이어에 대한 특징 정보를 이용하여 상기 제2 레이어에 대한 가중치(weight)가 적용된 특징 정보를 생성하고, 상기 제2 레이어에 대한 가중치가 적용된 특징 정보에 대해 업 샘플링(up-sampling)을 수행하여 어텐션 계수(attention coefficient)를 생성하고, 상기 어텐션 계수와 상기 제2 레이어에 대한 특징 정보를 이용하여 상기 제2 레이어에 대한 전역 어텐션(global attention) 결과값을 생성할 수 있다.
일 실시예에서, 디코더(320)의 제3 레이어에 대한 특징 정보에 대해 언풀링(un-pooling)을 수행하고, 상기 제3 레이어에 대한 언풀링의 결과값과 상기 제2 레이어에 대한 전역 어텐션 결과값을 이용하여 디코더(320)의 제2 레이어에 대한 컨볼루션(convolution)을 수행할 수 있다.
S709 단계는, 디코더(320)에 의해 출력되는 결과값을 분류(classify)하는 단계이다. 일 실시예에서, 디코더(320)의 제2 레이어에 대한 컨볼루션의 결과값을 분류할 수 있다.
도 8은 본 발명의 일 실시예에 따른 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 장치를 도시한 도면이다.
도 8을 참고하면, 이미지 분할 장치(800)는 획득부(810), 제어부(820) 및 저장부(830)를 포함할 수 있다.
획득부(810)은 객체에 대한 슬라이스 이미지(slice image)를 획득할 수 있다.
일 실시예에서, 획득부(810)은 카메라를 포함할 수 있다. 예를 들어, 카메라는 MRI 촬영용 카메라를 포함할 수 있다.
일 실시예에서, 획득부(810)은 통신부를 포함할 수 있다. 예를 들어, 통신부는 유선 통신 모듈 및 무선 통신 모듈 중 적어도 하나를 포함할 수 있다. 통신부(310)의 전부 또는 일부는 '송신부', '수신부' 또는 '송수신부(transceiver)'로 지칭될 수 있다.
제어부(820)은 슬라이스 이미지를 다수의 패치 이미지(patch image)로 분할하고, 다수의 패치 이미지 각각을 인코더(310)에 입력하고, 인코더(310)에 의해 출력되는 특징 정보(feature information)를 디코더(320)에 입력하며, 디코더(320)에 의해 출력되는 결과값을 분류(classify)할 수 있다.
일 실시예에서, 제어부(820)는 인코더(310) 및 디코더(320)를 포함할 수 있다.
일 실시예에서, 제어부(820)은 적어도 하나의 프로세서 또는 마이크로(micro) 프로세서를 포함하거나, 또는, 프로세서의 일부일 수 있다. 또한, 제어부(820)은 CP(communication processor)라 지칭될 수 있다. 제어부(820)은 본 발명의 다양한 실시예에 따른 이미지 분할 장치(800)의 동작을 제어할 수 있다.
저장부(830)은 슬라이스 이미지 및 패치 이미지를 저장할 수 있다. 일 실시예에서, 저장부(830)는 분류 결과를 저장할 수 있다.
일 실시예에서, 저장부(830)은 휘발성 메모리, 비휘발성 메모리 또는 휘발성 메모리와 비휘발성 메모리의 조합으로 구성될 수 있다. 그리고, 저장부(830)은 제어부(820)의 요청에 따라 저장된 데이터를 제공할 수 있다.
도 8을 참고하면, 이미지 분할 장치(800)은 획득부(810), 제어부(820) 및 저장부(830)을 포함할 수 있다. 본 발명의 다양한 실시 예들에서 이미지 분할 장치(800)은 도 8에 설명된 구성들이 필수적인 것은 아니어서, 도 8에 설명된 구성들보다 많은 구성들을 가지거나, 또는 그보다 적은 구성들을 가지는 것으로 구현될 수 있다.
이상의 설명은 본 발명의 기술적 사상을 예시적으로 설명한 것에 불과한 것으로, 통상의 기술자라면 본 발명의 본질적인 특성이 벗어나지 않는 범위에서 다양한 변경 및 수정이 가능할 것이다.
본 명세서에 개시된 다양한 실시예들은 순서에 관계없이 수행될 수 있으며, 동시에 또는 별도로 수행될 수 있다.
일 실시예에서, 본 명세서에서 설명되는 각 도면에서 적어도 하나의 단계가 생략되거나 추가될 수 있고, 역순으로 수행될 수도 있으며, 동시에 수행될 수도 있다.
본 명세서에 개시된 실시예들은 본 발명의 기술적 사상을 한정하기 위한 것이 아니라, 설명하기 위한 것이고, 이러한 실시예들에 의하여 본 발명의 범위가 한정되는 것은 아니다.
본 발명의 보호범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 이해되어야 한다.

Claims (12)

  1. (a) 객체에 대한 슬라이스 이미지(slice image)를 획득하는 단계;
    (b) 상기 슬라이스 이미지를 다수의 패치 이미지(patch image)로 분할하는 단계;
    (c) 상기 다수의 패치 이미지 각각을 인코더(encoder)에 입력하는 단계;
    (d) 상기 인코더에 의해 출력되는 특징 정보(feature information)를 디코더(decoder)에 입력하는 단계; 및
    (e) 상기 디코더에 의해 출력되는 결과값을 분류(classify)하는 단계;
    를 포함하는,
    전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법.
  2. 제1항에 있어서,
    상기 (c) 단계는,
    상기 다수의 패치 이미지 각각에 대하여, 상기 인코더의 제1 레이어에 대한 패치 이미지를 생성하는 단계;
    상기 제1 레이어에 대한 패치 이미지에 대해 컨볼루션(convolution)을 수행하는 단계;
    상기 제1 레이어의 컨볼루션의 결과값에 대해 맥스 풀링(max pooling)을 수행하는 단계; 및
    상기 제1 레이어의 컨볼루션의 결과값에 대한 맥스 풀링의 결과값을 상기 인코더의 제2 레이어의 입력으로 제공하는 단계;
    를 포함하는,
    전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법.
  3. 제2항에 있어서,
    상기 (c) 단계는,
    상기 제1 레이어에 대한 패치 이미지에 대해 맥스 풀링을 수행하여, 상기 제2 레이어에 대한 패치 이미지를 생성하는 단계; 및
    상기 제1 레이어의 컨볼루션의 결과값에 대한 맥스 풀링의 결과값 및 상기 제2 레이어의 패치 이미지에 대한 맥스 풀링의 결과값에 기반하여 상기 인코더의 제2 레이어에 대한 특징 정보(feature information)를 생성하는 단계;
    를 포함하는,
    전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법.
  4. 제3항에 있어서,
    상기 (d) 단계는,
    상기 인코더의 제2 레이어에 대한 특징 정보에 대해 전역 평균 풀링(global average pooling)을 수행하는 단계;
    상기 전역 평균 풀링이 수행된 상기 제2 레이어에 대한 특징 정보에 대하여 컨볼루션을 수행하는 단계;
    상기 컨볼루션이 수행된 상기 인코더의 제3 레이어에 대한 특징 정보와 상기 컨볼루션이 수행된 제2 레이어에 대한 특징 정보를 이용하여 상기 제2 레이어에 대한 가중치(weight)가 적용된 특징 정보를 생성하는 단계;
    상기 제2 레이어에 대한 가중치가 적용된 특징 정보에 대해 업 샘플링(up-sampling)을 수행하여 어텐션 계수(attention coefficient)를 생성하는 단계; 및
    상기 어텐션 계수와 상기 제2 레이어에 대한 특징 정보를 이용하여 상기 제2 레이어에 대한 전역 어텐션(global attention) 결과값을 생성하는 단계;
    를 포함하는,
    전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법.
  5. 제4항에 있어서,
    상기 (d) 단계는,
    상기 디코더의 제3 레이어에 대한 특징 정보에 대해 언풀링(un-pooling)을 수행하는 단계;
    상기 제3 레이어에 대한 언풀링의 결과값과 상기 제2 레이어에 대한 전역 어텐션 결과값을 이용하여 상기 디코더의 제2 레이어에 대한 컨볼루션(convolution)을 수행하는 단계;
    를 포함하는,
    전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법.
  6. 제5항에 있어서,
    상기 (e) 단계는,
    상기 디코더의 제2 레이어에 대한 컨볼루션의 결과값을 분류하는 단계;
    를 포함하는,
    전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법.
  7. 객체에 대한 슬라이스 이미지(slice image)를 획득하는 획득부; 및
    상기 슬라이스 이미지를 다수의 패치 이미지(patch image)로 분할하고,
    상기 다수의 패치 이미지 각각을 인코더(encoder)에 입력하고,
    상기 인코더에 의해 출력되는 특징 정보(feature information)를 디코더(decoder)에 입력하며,
    상기 디코더에 의해 출력되는 결과값을 분류(classify)하는 제어부;
    를 포함하는,
    전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 장치.
  8. 제7항에 있어서,
    상기 제어부는,
    상기 다수의 패치 이미지 각각에 대하여, 상기 인코더의 제1 레이어에 대한 패치 이미지를 생성하고,
    상기 제1 레이어에 대한 패치 이미지에 대해 컨볼루션(convolution)을 수행하고,
    상기 제1 레이어의 컨볼루션의 결과값에 대해 맥스 풀링(max pooling)을 수행하며,
    상기 제1 레이어의 컨볼루션의 결과값에 대한 맥스 풀링의 결과값을 상기 인코더의 제2 레이어의 입력으로 제공하는,
    전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 장치.
  9. 제8항에 있어서,
    상기 제어부는,
    상기 제1 레이어에 대한 패치 이미지에 대해 맥스 풀링을 수행하여, 상기 제2 레이어에 대한 패치 이미지를 생성하고,
    상기 제1 레이어의 컨볼루션의 결과값에 대한 맥스 풀링의 결과값 및 상기 제2 레이어의 패치 이미지에 대한 맥스 풀링의 결과값에 기반하여 상기 인코더의 제2 레이어에 대한 특징 정보(feature information)를 생성하는,
    전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 장치.
  10. 제9항에 있어서,
    상기 제어부는,
    상기 인코더의 제2 레이어에 대한 특징 정보에 대해 전역 평균 풀링(global average pooling)을 수행하고,
    상기 전역 평균 풀링이 수행된 상기 제2 레이어에 대한 특징 정보에 대하여 컨볼루션을 수행하고,
    상기 컨볼루션이 수행된 상기 인코더의 제3 레이어에 대한 특징 정보와 상기 컨볼루션이 수행된 제2 레이어에 대한 특징 정보를 이용하여 상기 제2 레이어에 대한 가중치(weight)가 적용된 특징 정보를 생성하고,
    상기 제2 레이어에 대한 가중치가 적용된 특징 정보에 대해 업 샘플링(up-sampling)을 수행하여 어텐션 계수(attention coefficient)를 수행하며,
    상기 어텐션 계수와 상기 제2 레이어에 대한 특징 정보를 이용하여 상기 제2 레이어에 대한 전역 어텐션(global attention) 결과값을 생성하는,
    전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 장치.
  11. 제4항에 있어서,
    상기 제어부는,
    상기 디코더의 제3 레이어에 대한 특징 정보에 대해 언풀링(un-pooling)을 수행하고,
    상기 제3 레이어에 대한 언풀링의 결과값과 상기 제2 레이어에 대한 전역 어텐션 결과값을 이용하여 상기 디코더의 제2 레이어에 대한 컨볼루션(convolution)을 수행하는,
    전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 장치.
  12. 제11항에 있어서,
    상기 제어부는,
    상기 디코더의 제2 레이어에 대한 컨볼루션의 결과값을 분류하는,
    전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 장치.
KR1020210034277A 2021-03-16 2021-03-16 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법 및 장치 KR102604216B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210034277A KR102604216B1 (ko) 2021-03-16 2021-03-16 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210034277A KR102604216B1 (ko) 2021-03-16 2021-03-16 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20220129405A true KR20220129405A (ko) 2022-09-23
KR102604216B1 KR102604216B1 (ko) 2023-11-21

Family

ID=83445878

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210034277A KR102604216B1 (ko) 2021-03-16 2021-03-16 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102604216B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023063700A1 (ko) 2021-10-12 2023-04-20 주식회사 엘지에너지솔루션 전극 조립체
CN116363111A (zh) * 2023-04-06 2023-06-30 哈尔滨市科佳通用机电股份有限公司 铁路货车人力制动机导向杆卡滞故障识别方法
CN116385665A (zh) * 2023-06-02 2023-07-04 合肥吉麦智能装备有限公司 一种面向双模g臂x光机多视角x光图像三维重建方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102089014B1 (ko) 2018-09-07 2020-03-13 연세대학교 산학협력단 피검사체의 뇌 활동을 재구성한 이미지 생성 장치 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102089014B1 (ko) 2018-09-07 2020-03-13 연세대학교 산학협력단 피검사체의 뇌 활동을 재구성한 이미지 생성 장치 및 그 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Bumshik Lee, "Automatic segmentation of brain MRI using a novel patch-wise U-net deep architecture", Plos one 15.8 (2020.08.03.)* *
David Bouget, "MENINGIOMA SEGMENTATION IN T1-WEIGHTED MRI LEVERAGING GLOBAL CONTEXT AND ATTENTION MECHANISMS", Frontiers in Radiology 1 (2021.01.19.)* *
Hanchao Li, "Pyramid Attention Network for Semantic Segmentation", arXiv preprint arXiv:1805.10180 (2018.11.25.)* *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023063700A1 (ko) 2021-10-12 2023-04-20 주식회사 엘지에너지솔루션 전극 조립체
CN116363111A (zh) * 2023-04-06 2023-06-30 哈尔滨市科佳通用机电股份有限公司 铁路货车人力制动机导向杆卡滞故障识别方法
CN116385665A (zh) * 2023-06-02 2023-07-04 合肥吉麦智能装备有限公司 一种面向双模g臂x光机多视角x光图像三维重建方法

Also Published As

Publication number Publication date
KR102604216B1 (ko) 2023-11-21

Similar Documents

Publication Publication Date Title
Liu et al. Perception consistency ultrasound image super-resolution via self-supervised CycleGAN
US10624558B2 (en) Protocol independent image processing with adversarial networks
KR102604216B1 (ko) 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법 및 장치
KR102125127B1 (ko) 딥러닝 기반 뇌 질환 진단 방법
Jafari et al. DRU-Net: an efficient deep convolutional neural network for medical image segmentation
Deng et al. Transbridge: A lightweight transformer for left ventricle segmentation in echocardiography
CN111738363B (zh) 基于改进的3d cnn网络的阿尔茨海默病分类方法
CN112767417B (zh) 一种基于级联U-Net网络的多模态图像分割方法
CN110136122B (zh) 一种基于注意力深度特征重建的脑mr图像分割方法
Zhu et al. Arbitrary scale super-resolution for medical images
CN109919915A (zh) 基于深度学习的视网膜眼底图像异常区域检测方法及设备
CN109859189A (zh) 一种基于深度学习的年龄估计方法
Kori et al. Ensemble of fully convolutional neural network for brain tumor segmentation from magnetic resonance images
Sahumbaiev et al. 3D-CNN HadNet classification of MRI for Alzheimer’s Disease diagnosis
KR102561214B1 (ko) 글로벌 어텐션을 이용한 영상 분할 방법 및 장치
Wegmayr et al. Generative aging of brain MR-images and prediction of Alzheimer progression
Varghese et al. Unpaired image-to-image translation of structural damage
Carmo et al. Extended 2D consensus hippocampus segmentation
KR102222366B1 (ko) 딥러닝 기반 고자기장 자기공명영상 합성 방법 및 장치
CN116486156A (zh) 融合多尺度特征上下文的全视野数字切片图像分类方法
Turkan et al. Convolutional attention network for mri-based alzheimer’s disease classification and its interpretability analysis
KR102432766B1 (ko) 알츠하이머 병 분류를 위한 mr 이미지 분석 시스템 및 방법
Niu et al. 3D residual dense convolutional network for diagnosis of Alzheimer’s disease and mild cognitive impairment
Carmo et al. Extended 2d volumetric consensus hippocampus segmentation
KR20180006120A (ko) Dl과 pde을 복합 적용하여 최적화한 영상 세그먼테이션 방법 및 시스템

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant