KR102419270B1 - Mlp 기반 아키텍처를 통한 의료영상 세그먼테이션 장치 및 그 방법 - Google Patents

Mlp 기반 아키텍처를 통한 의료영상 세그먼테이션 장치 및 그 방법 Download PDF

Info

Publication number
KR102419270B1
KR102419270B1 KR1020220003853A KR20220003853A KR102419270B1 KR 102419270 B1 KR102419270 B1 KR 102419270B1 KR 1020220003853 A KR1020220003853 A KR 1020220003853A KR 20220003853 A KR20220003853 A KR 20220003853A KR 102419270 B1 KR102419270 B1 KR 102419270B1
Authority
KR
South Korea
Prior art keywords
mlp
feature
output
stage
feature map
Prior art date
Application number
KR1020220003853A
Other languages
English (en)
Inventor
이상웅
Original Assignee
가천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가천대학교 산학협력단 filed Critical 가천대학교 산학협력단
Priority to KR1020220003853A priority Critical patent/KR102419270B1/ko
Application granted granted Critical
Publication of KR102419270B1 publication Critical patent/KR102419270B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/41Medical

Abstract

본 발명은 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 장치 및 그 방법에 관한 것으로, 의료영상에 대한 특징맵을 출력하는 인코더와 상기 각 특징맵에 대한 채널 중 중요한 채널만 허용하는 MLP 디코더를 결합한 MLP 기반 아키텍처를 제공함으로써 상기 의료영상에 포함된 병변을 정밀하게 세그먼테이션할 수 있는 장치 및 그 방법에 관한 것이다.

Description

MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 장치 및 그 방법{APPARATUS AND METHOD FOR SEGMENTING MEDICAL IMAGE USING MLP BASED ARCHITECTURE}
본 발명은 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 의료영상에 대한 특징맵을 출력하는 인코더와 상기 각 특징맵에 대한 채널 중 중요한 채널만 허용하는 MLP 디코더를 결합한 MLP 기반 아키텍처를 제공함으로써 상기 의료영상에 포함된 병변을 정밀하게 세그먼테이션하는 장치 및 그 방법에 관한 것이다.
의료영상에서 병변을 세그먼테이션하는 것은 질병의 진행을 분석하고, 치료 방법이나 후속 조치를 지원하는데 매우 중요하다.
이러한 의료영상에서 병변을 세그먼테이션하는 종래의 기술은 합성곱 신경망(CNN, convolutional neural network) 기반의 세그먼테이션 기술, UNet 등과 같은 인코더-디코더 기반의 세그먼테이션 기술이 대표적이다.
그러나 합성곱 신경망 기반의 세그먼테이션 기술은 컨볼루션 작업 중 고유한 지역적 동작으로 인해 전역적인 특징(long feature dependencies or global feature)을 처리하는데 몇 가지 제약이 있다.
즉, 합성곱 신경망 기반의 세그먼테이션 기술은 서로 다른 공간위치에서 동일한 가중치를 공유하므로 공간적인 세부정보가 부족하여 병변(개체)에 대한 모양과 크기를 처리할 때 그 성능이 제한된다.
또한 UNet과 같은 인코더-디코더 기반의 세그먼테이션 기술은 서로 다른 의미론적 세부사항(특징맵)을 결합하는 여러 단계에서 스킵(skip)연결을 수행한다. 그러나 특징맵에 대한 채널은 중요도가 다를 수 있으며 때로는 채널에서 중복이 발생될 수 있다.
이는, 의료영상에서 병변이 아닌 영역을 포함하여 과도하게 세그먼테이션되거나 병변의 일부 영역만 세그먼테이션될 수 있는 문제점을 내포하고 있다.
결국 의료영상에서 병변을 세그먼테이션할 때, 병변과 관련이 없거나 중복된 채널을 무시하면 보다 정밀하게 병변을 세그먼테이션할 수 있을 것이다.
그러므로 의료영상에서 병변을 정밀하게 세그먼테이션하기 위한 새로운 아키텍처를 구상하는 것이 필요하다.
이에 따라 본 발명에서는 인코더와 다층 퍼셉트론 신경망(MLP, multilayer perceptron neural network)기반의 디코더를 융합(결합)한 아키텍처를 통해 관련 없는 특징맵을 무시하고 특징맵에 대한 유용한 채널을 강조하여 가장 필수적인 특징맵을 활용하는 방향으로 병변을 포함하는 의료영상을 효과적으로 기계학습함으로써, 실제 의료영상으로부터 병변을 정밀하게 세그먼테이션할 수 있도록 하는 방안을 제안하고자 한다.
즉, 본 발명은 종래의 인코더-디코더 기반 아키텍처에서 상기 디코더를 MLP 기반 디코더로 대체함으로써 상기 디코더를 재설계하여 중요한 채널만을 허용함으로써 관련 없는 특징맵을 제한하여 정밀한 세그먼테이션이 가능하도록 하는 방안을 제안하고자 한다.
다음으로 본 발명의 기술분야에 존재하는 선행기술에 대하여 간단하게 설명하고, 이어서 본 발명이 상기 선행기술에 비해서 차별적으로 이루고자 하는 기술적 사항에 대해서 기술하고자 한다.
먼저 비특허 선행문헌 1(Ronneberger, O.; Fischer, P.; and Brox, T. 2015. "U-net: Convolutional networks for biomedical image segmentation." In International Conference on Medical image computing and computer-assisted intervention, 234-241. Springer)은 의료영상 세그먼테이션을 위한 인코더-디코더 기반의 UNet 아키텍처를 제안하였다.
상기 비특허 선행문헌 1은 스킵 연결을 사용하여 낮은 수준의 의미론적 정보(특징)와 높은 수준의 의미론적 정보를 결합하는 방법을 이용하여 의료영상에서 병변을 세그먼테이션하도록 구성된다.
그러나 높은 수준의 특징과 낮은 수준의 특징은 여전히 큰 의미론적 차이가 있기 때문에 병변을 정확하게 세그먼테이션하는데 한계가 있다.
그리고 비특허 선행문헌 1은 인코더-디코더 기반의 UNnet 아키텍처를 그대로 사용하는 반면에, 본 발명은 인코더와 MLP 기반의 디코더를 결합하여 병변을 세그먼테이션하기 위한 새로운 아키텍처를 제공하는 것으로, 상기 비특허 선행문헌 1과 본 발명은 구성에 있어서 현저한 차이점이 있다.
또한 한국공개특허 제2021-0020618호(2021.02.24.)는 의료영상에서 딥러닝에 기반한 복부 장기 자동분할 방법에 관한 것으로, 복부 장기가 포함된 2차원 의료영상에 대한 복수의 축상(axial) 이미지, 관상(coronal) 이미지 및 시상(sagittal) 이미지를 2차원 딥 뉴럴 네트워크에 입력하여 관심영역에 대한 복수의 예측맵을 생성하고, 상기 생성한 복수의 예측맵을 각각 가중 융합(weighted fusion)함으로써 관심영역의 사전형상 모델을 생성한 후, 복부 장기가 포함된 실제 3차원 의료영상과 상기 사전형상 모델을 3차원 딥 뉴럴네트워크에 입력하여 관심영역의 분할(segmentation)결과를 획득하는 의료영상에서 딥러닝에 기반한 복부 장기 자동분할 방법에 관한 것이다.
즉, 한국공개특허 제2021-0020618호는 의료영상에서 특정 부분을 세그먼테이션하는 점에서 본 발명과 일부 유사하나, 단순히 2차원 및 3차원 딥 뉴럴네트워크를 이용하여 복부 장기를 분할하는 것이므로, 본 발명에서 제안하고 있는 인코더와 MLP 기반 디코더를 결합한 MLP 기반 아키텍처를 통해 병변을 세그먼테이션하는 기술적 구성과 전혀 다르므로, 상기 한국공개특허 제2021-0020618호와 본 발명은 기술적 구성의 차이점이 분명하다.
본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 여러 단계를 통해 병변을 포함하는 의료영상에 대한 다양한 크기의 특징맵(의미론적 세부사항)을 생성하는 인코더와 각 상기 특징맵에 대한 특징채널에서 관련 없는 특징채널을 제한하는 MLP 기반 디코더를 결합한 MLP 기반 아키텍처를 통해 상기 의료영상을 효율적으로 기계학습함으로써 실제 의료영상에 포함된 병변을 정밀하게 세그먼테이션할 수 있는 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 장치 및 그 방법을 제공하는 것을 그 목적으로 한다.
또한 본 발명은 MLP 기반 아키텍처를 통해서 특징맵에 대한 특징채널에서 중요한 특징채널의 정보를 전달하도록 하여 병변에 대한 세그먼테이션 성능을 현저하게 향상시킬 수 있도록 하는 장치 및 그 방법을 제공하는 것을 그 목적으로 한다.
또한 본 발명은 공간축소 기술을 통해 각 특징맵에 대한 공간적인 세부사항을 유지할 수 있도록 하여 MLP 기반 아키텍처의 복잡성을 줄일 수 있도록 하는 장치 및 그 방법을 제공하는 것을 그 목적으로 한다.
본 발명의 일 실시예에 따른 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 장치는 복수의 스테이지를 통해 의료영상에 대한 복수의 특징맵을 각각 생성하여 특징채널을 통해 각각 출력하는 인코더 및 상기 복수의 특징맵을 통합하고 병변과 관련 없는 특징채널을 제한하여 병변을 정밀하게 세그먼테이션하기 위한 세그먼테이션 마스크를 생성하는 MLP 기반 디코더를 포함하는 것을 특징으로 한다.
또한 상기 MLP 기반 디코더는, 복수의 MLP 디코더를 포함하여 구성되며, 각 상기 MLP 디코더는, 입력단에 입력되는 각 특징맵의 사이즈를 다운 샘플링하고, 최대 풀링 및 평균 풀링을 수행하여 각 특징맵에 대한 전역공간정보 및 특징채널에 대한 넘버를 상기 각 특징맵에 반영하여 출력하는 공간축소블록부, 상기 공간축소블록부에서 출력한 각 특징맵에 대해서 사전에 설정한 길이의 토큰으로 변환한 특징맵 매트릭스를 전치(transpose)하는 제1 전치부, 상기 제1 전치부를 통해 전치한 특징맵 매트릭스의 열에 대한 토큰 믹싱을 수행하여 중간표현을 생성하는 토큰 믹싱 MLP 블록부, 상기 중간표현을 전치한 행에 대한 채널 믹싱을 수행하는 채널 믹싱 MLP 블록부, 상기 채널 믹싱 MLP블록부의 출력에 대한 전역 평균 풀링을 수행하여 각 특징맵에 대한 전체 특징채널 수를 추출하여 출력하는 평균풀링부 및 상기 각 특징채널 수를 완전연결한 결과에 대해서 시그모이드(sigmoid) 함수를 적용하여 활성화하는 액티베이션부를 더 포함하며, 상기 활성화한 각 특징채널 수로 상기 공간축소블록부의 출력을 리스케일링하여 가중치 특징맵을 생성하고, 사전에 설정한 사이즈로 업샘플링하여 출력하는 것을 포함하는 것을 특징으로 한다.
또한 각 상기 MLP 디코더는 상기 특징맵 매트릭스를 레이어 정규화하는 제1 레이어놈부, 상기 중간표현을 전치하는 제2 전치부, 상기 전치한 중간표현을 레이어 정규화하는 제2 레이어놈부를 더 포함하며, 상기 가중치 특징맵을 사전에 설정한 사이즈로 업샘플링하여 출력하는 것을 더 포함하는 것을 특징으로 한다.
또한 상기 인코더는 5개의 스테이지를 포함하여 구성되며, 제1 스테이지는, 상기 의료영상 사이즈의 2/1에 해당하는 복수의 특징맵을 생성하여 출력하며, 제2 스테이지는, 상기 의료영상 사이즈의 1/4에 해당하는 복수의 특징맵을 생성하여 출력하고, 제3 스테이지는, 상기 의료영상 사이즈의 1/8에 해당하는 복수의 특징맵을 생성하여 출력하며, 제4 스테이지는, 상기 의료영상 사이즈의 1/16에 해당하는 복수의 특징맵을 생성하여 출력하고, 제5 스테이지는, 상기 의료영상 사이즈의 1/32에 해당하는 복수의 특징맵을 생성하여 출력하는 것을 특징으로 한다.
또한 상기 인코더는 상기 제4 스테이지의 출력을 서로 다른 확장률(dilation tate)을 가지는 복수의 커널을 통해 컨볼루션하고 컨볼루션한 결과를 연결하는 확장 컨볼루션부를 더 포함하며, 상기 제5 스테이지의 출력은 잔차블록(residual block)을 통과한 후, 상기 제4 스테이지의 출력과 동일한 사이즈로 업샘플링되며, 상기 확장 컨볼루션부의 출력과 상기 업샘플링한 제5 스테이지의 출력을 연결(concatenation)한 특징맵을 사전에 설정한 사이즈로 업샘플링하여 상기 MLP 기반 디코더로 출력하는 것을 특징으로 한다.
또한 상기 MLP 기반 디코더는 3개의 MLP 디코더를 포함하여 구성되며, 제1 MLP 디코더의 입력은, 상기 제3 스테이지에서 출력한 복수의 특징맵 및 상기 확장 컨볼루션부의 출력과 상기 업샘플링한 제5 스테이지의 출력을 연결한 특징맵이며, 제2 MLP 디코더의 입력은, 상기 제1 MLP 디코더에서 생성한 가중치 특징맵 및 상기 제2 스테이지에서 출력한 특징맵이고, 상기 제3 MLP 디코더의 입력은, 상기 제2 MLP 디코더에서 생성한 가중치 특징맵 및 상기 제1 스테이지에서 출력한 특징맵이며, 상기 제3 MLP 디코더는 최종 생성한 가중치 특징맵을 이용하여 세그먼테이션 마스크를 생성하고, 상기 세그먼테이션 마스크를 상기 의료영상의 사이즈로 업샘플링하여 출력하는 것을 포함하는 것을 특징으로 한다.
아울러 본 발명의 일 실시예에 따른 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 방법은 병변을 포함하는 복수의 학습용 의료영상을 MLP 기반 아키텍처를 통해 기계학습하여 학습모델을 생성하는 단계를 포함하며, 상기 학습모델은, 복수의 스테이지를 통해 각 상기 의료영상에 대한 복수의 특징맵을 각각 생성하여 특징채널을 통해 각각 출력하는 인코더 및 상기 복수의 특징맵을 통합하고 병변과 관련 없는 특징채널을 제한하여 병변을 정밀하게 세그먼테이션하기 위한 세그먼테이션 마스크를 생성하는 MLP 기반 디코더를 포함하는 것을 특징으로 한다.
또한 상기 학습모델을 생성하는 단계는 상기 MLP 기반 디코더를 구성하는 복수의 MLP 디코더를 포함하여 수행되는 것을 특징으로 한다.
또한 상기 학습모델을 생성하는 단계는, 5개의 스테이지를 포함하여 구성되는 상기 인코더를 포함하여 수행되는 것을 특징으로 한다.
또한 상기 학습모델을 생성하는 단계는, 3개의 MLP 디코더를 포함하는 상기 MLP 기반 디코더를 포함하여 수행되는 것을 특징으로 한다.
이상에서와 같이 본 발명의 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 장치 및 그 방법에 따르면 각 특징맵에 대한 특징채널 중 세그먼테이션을 위한 중요한 특징채널만을 허용함으로써, 병변에 관련이 없는 특징맵을 제한하도록 복수의 학습용 의료영상을 기계학습하여 실제 의료영상으로부터 병변을 정밀하게 세그먼테이션할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 MLP 기반 아키텍처를 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 공간축소블록부를 설명하기 위해 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 MLP 믹서의 상세한 구성을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 장치의 구성을 나타낸 블록도이다.
도 5는 본 발명의 일 실시예에 따른 MLP 기반 아키텍처와 최신의 인공지능 알고리즘을 비교하기 위해 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 본 발명과 최신의 인공지능 알고리즘을 통한 세그먼테이션한 결과를 비교한 도면이다.
도 7은 본 발명의 일 실시예에 따른 본 발명과 최신의 인공지능 알고리즘에 대한 다이스 계수, 자카드 계수, 재현율 및 정밀도를 비교 평가한 도면이다.
도 8은 본 발명의 일 실시예에 따른 토큰의 길이 및 특징채널의 너비에 따른 세그먼테이션의 성능을 나타낸 도면이다.
도 9는 본 발명의 일 실시예에 따른 MLP 믹서의 수에 따른 성능을 나타낸 도면이다.
도 10은 본 발명의 일 실시예에 따른 의료영상으로부터 병변을 세그먼테이션하는 절차를 나타낸 흐름도이다.
이하, 첨부한 도면을 참조하여 본 발명의 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 장치 및 그 방법에 대한 바람직한 실시예를 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 또한 본 발명의 실시예들에 대해서 특정한 구조적 내지 기능적 설명들은 단지 본 발명에 따른 실시예를 설명하기 위한 목적으로 예시된 것으로, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는 것이 바람직하다.
도 1은 본 발명의 일 실시예에 따른 MLP 기반 아키텍처를 나타낸 도면이다.
도 1에 도시한 바와가 같이, 본 발명의 일 실시예에 따른 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 장치(이하, 의료영상 세그먼테이션 장치라 칭함)는 MLP 기반 아키텍처를 통해 의료영상으로부터 병변을 세그먼테이션하기 위한 세그먼테이션 마스크를 생성한다.
또한 세그먼테이션 장치는 세그먼테이션 마스크를 이용하여 의료영상에 포함된 병변을 세그먼테이션한다.
MLP 기반 아키텍처는 세그먼테이션 마스크를 생성하기 위한 학습모델을 구성하며, 상기 학습모델은 학습모델 생성 단계를 통해 복수의 학습용 의료영상을 기계학습하여 생성된다.
MLP 기반 아키텍처는 복수의 스테이지(stage)를 포함하여 구성되는 인코더(100) 및 복수의 MLP 디코더를 포함하여 구성되는 MLP 기반 디코더(200)를 포함하여 구성된다.
인코더(100)는 복수의 스테이지를 통해 의료영상에 대한 다양한 사이즈의 특징맵(혹은 의미론적 세부사항)을 생성하여 복수의 특징채널을 통해 각 상기 특징맵을 MLP 기반 디코더(200)로 출력한다.
인코더(100)는 총 5개의 스테이지, 확장 컨볼루션부(120), 잔차블록(residual block)을 포함하는 잔차블록부(110)를 포함하여 구성되며, MLP 기반 디코더(200)는 3개의 MLP 디코더를 포함하여 구성된다.
다만, 인코더(100)의 스테이지는 5개의 스테이지로 구성되는 것이 바람직하지만, 그 이상 혹은 그 이하로 구성될 수 있으며, MLP 디코더는 인코더(100)의 스테이지의 수에 따라 가변적으로 구성될 수 있다.
인코더(100)의 제1 스테이지는 스트라이드(stride)가 서로 다르게 설정된 복수의 커널(kernel)(예: 16개)을 포함하여 구성된다.
또한 제1 스테이지는 각 커널과 의료영상을 컨볼루션(convolution)하여 복수의 특징맵을 생성하고, 상기 생성한 복수의 특징맵을 복수의 특징채널을 통해 상기 제1 스테이지에 대응하는 MLP 기반 디코더(200)의 제3 MLP 디코더(230)로 출력한다.
이때, 제1 스테이지의 커널은 의료영상 사이즈의 절반(1/2)에 해당하는 특징맵을 생성하도록 구성된다.
인코더(100)의 제2 스테이지는 스트라이드가 서로 다르게 설정된 복수의 커널(예: 24개)을 포함하여 구성되며, 상기 각 커널을 통한 의료영상에 대한 컨볼루션을 수행하여 복수의 특징맵을 생성한다.
또한 제2 스테이지는 생성한 복수의 특징맵을 복수의 특징채널을 통해 상기 제2 스테이지에 대응하는 MLP 기반 디코더(200)의 제2 MLP 디코더(220)로 출력한다. 이때, 제2 스테이지의 커널은 의료영상 사이즈의 1/4에 해당하는 특징맵을 생성하도록 구성된다.
인코더(100)의 제3 스테이지는 스트라이드가 서로 다르게 설정된 복수의 커널(예: 40개)을 포함하여 구성되며, 상기 각 커널을 이용하여 의료영상에 대한 복수의 특징맵을 생성한다.
또한 제3 스테이지는 생성한 복수의 특징맵을 복수의 특징채널을 통해 제2 스테이지에 대응하는 MLP 기반 디코더(200)의 제1 MLP 디코더(210)로 출력하며, 상기 제3 스테이지의 커널은 의료영상 사이즈의 1/8에 해당하는 특징맵을 생성하도록 구성된다.
인코더(100)의 제4 스테이지는 스트라이드가 서로 다르게 설정된 복수의 커널(예: 80개)을 포함하여 구성되며 상기 각 커널을 이용하여 의료영상에 대한 복수의 특징맵을 생성하여 특징채널을 통해 출력한다. 이때, 각 커널은 의료영상 사이즈의 1/16에 해당하는 특징맵을 생성하도록 구성된다.
인코더(00)의 제5 스테이지는 스트라이드가 서로 다르게 설정된 복수의 커널(예: 1280개)을 포함하여 구성되며, 의료영상 사이즈의 1/32에 해상하는 특징맵을 생성하여 특징채널을 통해 출력한다.
또한 제5 스테이지에서 출력한 복수의 특징맵은 잔차블록부(110)를 통과하고 스킵(skip)연결을 위해 업샘플링(up sampling)된다.
제4 스테이지에서 출력한 복수의 특징맵은 확장 컨볼루션부(120)에 입력된다.
또한 확장 컨볼루션부(120)는 서로 다른 확장률(r, dilation rate)을 가지는 복수의 커널을 이용하여 제4 스테이지로부터 입력되는 복수의 특징맵을 각각 컨볼루션하고, 컨볼루션한 결과를 연결(concatenation)하여 출력한다.
이때, 확장 컨볼루션부(120)의 커널은 확장률(r)이 1인 1*1의 커널, 확장률(r)이 각각 1, 2, 4, 8인 3*3의 커널로 구성될 수 있다.
확장 컨볼루션부(120)의 출력과 업샘플링된 잔차블록부(110)의 출력은 곱셈(multiplication)연산되고, 사전에 설정한 사이즈로 업샘플링되어 제1 MLP 디코더(210)로 출력된다. 이때, 인코더(100)는 제3 스테이지에서 출력한 특징맵의 사이즈와 동일하게 업샘플링하여 제1 MLP 디코더(210)로 출력한다.
한편 잔차블록은 학습과정에서 오버피팅(overfitting), 베니싱 그라디언트(vanishing gradient)문제를 해결하기 위한 것으로, 인공지능 기계학습에서 주로 사용되는 기술이므로 상세한 설명은 생략하도록 한다.
또한 MLP 기반 디코더(200)는 복수의 특징맵을 통합하여 병변과 관련 없는 특징채널을 제한하여 최종적으로 정밀한 분할 마스크를 생성하기 위한 것으로, 각각의 MLP 디코더는 입력단에 입력되는 복수의 특징맵을 연결한 결과에 대한 공간축소를 수행하는 공간축소블록(SRB, spatial reduction block)부 및 적어도 하나 이상의 MLP 믹서를 포함하여 구성된다.
공간축소블록부는 도 2를 참조하여 상세히 설명하도록 하며, MLP 믹서의 구성은 도 3을 참조하여 상세히 설명하도록 한다.
한편, 본 발명의 MLP 기반 아키텍처의 인코더(100)는 Unet의 인코더를 이용할 수 있으며, MLP 기반 디코더(200)는 Unet의 디코더를 대체한 것이다. 즉, 본 발명의 MLP 기반 아키텍처는 Unet의 디코더를 재설계하여 의료영상에 포함된 병변을 정밀하게 세그먼테이션하기 위한 새로운 아키텍처를 구성한 것이다.
도 2는 본 발명의 일 실시예에 따른 공간축소블록부를 설명하기 위해 나타낸 도면이다.
도 2에 도시한 바와 같이, 본 발명의 일 실시예에 따른 공간축소블록부의 전단(입력단)은 입력되는 복수의 특징맵을 연결(X')하여 공간축소블록부로 출력한다.
이때, 제1 MLP 디코더의 입력(210)은 인코더(100)의 제3 스테이지의 출력과 인코더(100)의 확장 컨볼루션부(120)의 출력과 업샘플링한 잔차블록(110)의 출력을 곱셈연산한 후 업샘플링하여 생성한 복수의 특징맵이 된다.
또한 제2 MLP 디코더(220)의 입력은 인코더(100)의 제2 스테이지의 출력과 제1 MLP 디코더의 출력인 특징맵(즉, 가중치 특징맵)이 된다.
또한 제3 MLP 디코더(230)의 입력은 인코더(100)의 제1 스테이지의 출력과 제2 MLP 디코더(220)의 출력인 특징맵(즉, 가중치 특징맵)이 된다.
입력단에서의 연결은 정확한 세그먼테이션을 위해 인코더(100)의 각 스테이지에서 출력되는 낮은 수준의 특징맵과 각 MLP 디코더의 이전 단에서 출력되는 높은 수준의 특징맵을 결합하는 것을 의미한다.
공간축소블록부는 2, 4 또는 8의 스트라이드를 가지는 커널을 이용하여 연결한 특징맵의 크기를 다운샘플링한다.
공간축소블록부의 주요 기능은 MLP 기반 아키텍처의 복잡도를 가능한 줄이도록 하는 것이다.
또한 공간축소블록부는 맥스풀링(max pooling) 및 평균풀링(average pooling)을 수행하여 각 특징맵에 대한 전역공간정보(global spatial information) 및 특징채널에 대한 넘버를 각 특징맵에 추가하도록 구성된다.
이때, MLP 믹서에서는 각 특징맵을 일정 길이의 토큰으로 변환하게 되는데, 상기 공간축소블록부의 공간축소를 통해 토큰의 길이를 줄이고 전역공간정보를 계속 유지하는 것이 가능하게 된다.
한편, 각 MLP 믹서는 공간축소블록부의 출력(X')을 이용하여 스칼라 값인 특징채널(C)에 대한 넘버(해당하는 각 스테이지에 대한 특징채널의 넘버)의 스칼라 값을 생성하며, 각 MLP 디코더는 상기 생성한 스칼라 값과 MLP 디코더의 입력단에서 연결한 특징맵(X)과의 곱셈연산을 통해 가중치 특징맵을 생성하여 출력한다.
이때, 가중치 특징맵은 사전에 설정한 사이즈로 업샘플링되어 후단의 MLP 디코더로 출력된다. 즉, 가중치 특징맵은 후단의 MLP 디코더에 대응하는 인코더(100)의 각 스테이지에서 출력하는 특징맵의 사이즈로 업샘플링된다.
각 MLP 디코더는 유용한 특징채널을 강조하여 관련 없는 특징맵을 무시하고 필수적인 특징맵을 활용함으로써 가중치 특징맵을 생성하도록 기계학습된다.
도 3은 본 발명의 일 실시예에 따른 MLP 믹서의 상세한 구성을 나타낸 도면이다.
도 3에 도시한 바와 같이, 본 발명의 일 실시예에 따른 MLP 믹서의 입력은 공간축소블록의 출력으로 X'εR(HxWxC)로 구성된다.
여기서, H X W는 연결한 각 특징맵에 대한 사이즈를 의미하는 것으로, H는 높이, W는 너비를 의미한다. 또한 C는 특징채널의 정보(특징채널의 넘버)를 의미한다.
각 특징채널의 정보는 2차원 실수값으로 입력 X'의 차원에 투영된다.
각 MLP 믹서는 각 특징맵을 각 스테이지에 따른 사전에 설정한 특정 길이의 토큰으로 직접 변환함으로써 상기 각 특징맵을 특징맵 매트릭스로 변환한다.
또한 MLP 믹서의 주요 기능은 각 특징채널에 대한 가중치를 부여하기 위한 것으로 각 상기 특징채널에 대한 가중치는 학습단계에서 설정된다.
MLP 믹서는 제1 레이어놈부, 제1 전치부, 토큰 믹싱 MLP 블록부, 제2 전치부, 제2 레이어놈부, 채널 믹싱 MLP 블록부, 전역평균 풀링부, 완전연결부 및 액티베이션부를 포함하여 구성된다.
제1 레이어놈부는 특징맵 매트릭스에 대한 레이어 정규화를 수행한다.
이때, 제1 레이어놈부는 특징맵 매트릭스에서 토큰을 구성하는 각 특징맵에 대한 평균과 분산을 계산하여, 상기 특징맵 매트릭스에 대한 레이어 정규화를 수행한다.
제1 전치부는 제1 레이어놈부를 통해 레이어 정규화한 특징맵 매트릭스의 행과 열을 전치한다.
토큰 믹싱 MLP 블록부는 제1 전치부를 통해 전치한 특징맵 매트릭스의 열에 대한 토큰 믹싱을 수행하여 중간표현(U)을 생성한다.
상기 토큰 믹싱 MLP 블록부는 제1 완전연결 레이어 및 제2 완전연결 레이어를 포함하는 두개의 완전연결 레이어(FCN, Fully connected layer)와 입력텐서에 적용되는 GELU 활성화함수를 포함하여 구성된다.
상기 토큰 믹싱은 다음의 [수학식 1]을 통해 수행된다.
[수학식 1]
Figure 112022003441482-pat00001
여기서, U는 토큰 믹싱 MLP 블록부의 출력을 의미하며, X'은 MLP 믹서의 입력을 의미하며, W1 및 W2는 제1 완전연결 레이어 및 제2 완전연결 레이어에서 각각 이용하는 가중치 맵으로 상기 가중치 맵은 각 특징맵에 설정한 가중치로 구성되며 토큰 믹싱을 위한 가중치를 의미한다. GELU는 가우시안 오차 선형 유닛(gaussian error linear unit)으로 비선형 함수이며, LayerNorm(X')은 제1 레이어놈부를 통해 레이어 정규화된 입력(X' 혹은 특징맵 매트릭스)을 나타낸다.
한편 [수학식 1]에는 특징맵 매트릭스를 전치한 것이 표현되어 있지 않다. 즉, 특징맵 매트릭스를 전치하지 않은 경우에는 토큰 믹싱 MLP 블록부는 해당 특징맵 매트릭스의 행에 대한 토큰 믹싱을 수행한다.
또한 제2 전치부는 중간표현의 행과 열을 전치하는 기능을 수행한다.
또한 제2 레이어놈부는 제2 전치부를 통해 전치한 중간표현에 대한 레이어 정규화를 수행한다. 레이어 정규화는 제1 레이어놈부와 동일한 과정을 통해 수행된다.
또한 채널 믹싱 MLP 블록부는 제2 레이어놈부를 통해 전치한 중간표현의 행에 대한 채널 믹싱을 수행한다.
상기 채널 믹싱 MLP 블록부는 토큰 믹싱 MLP 블록부와 같이 제3 완전연결 레이어 및 제4 완전연결 레이어를 포함하는 두개의 완전연결 레이어와 입력텐서에 적용되는 GELU 활성화함수를 포함하여 구성된다.
상기 채널 믹싱은 다음의 [수학식 2]를 통해 수행된다.
[수학식 2]
Figure 112022003441482-pat00002
여기서, O는 채널 믹싱 MLP 블록부의 출력을 의미하며, U는 토큰 믹싱 MLP블록부의 출력을 의미하며, W3 및 W4는 제3 완전연결 레이어 및 제4 완전연결 레이어에서 각각 이용하는 가중치 맵을 의미한다. 해당 가중치 맵은 각 특징 채널에 설정한 가중치 맵으로 채널 믹싱을 위해 이용된다.
한편, 토큰 믹싱과 채널 믹싱은 일반적인 MLP 믹서와 동일한 과정을 통해 수행되는 것으로, 더 이상의 상세한 설명은 생략한다.
전역평균풀링부는 MLP 디코더의 출력에 적용되는 것으로, MLP 디코더의 출력에 해당하는 전역평균풀링을 수행하여 각 특징맵에 대한 총 특징채널 수(즉, 각 스테이지의 특징맵에 대한 총 특징채널의 수)인 스칼라 값을 각각 출력한다.
완전연결부는 전역평균풀링부에서 출력한 각 특징맵에 대한 특징채널 수를 완전연결하며, 액티베이션부는 상기 완전완결부의 출력에 시그모이드(sigmoid)함수를 적용하여 각 특징채널 수를 활성화한다.
또한 MLP 디코더는 다음의 [수학식 3]에 따라 스칼라 값과 특징맵간의 채널별 곱셈(Channel-wise multiplication)을 수행함으로써 액티베이션부를 통해 활성화한 각 스칼라 값으로 입력(X')다시 스케일링하여 가중치 특징맵을 생성한다.
[수학식 3]
O' = X'S
여기서 O'은 가중치 특징맵을 의미하며, S는 특징채널 수를 의미하는 스칼라 값이다.
이후 각 MLP 디코더는 후단의 MLP 디코더에 대응하는 인코더(100)의 각 스테이지에서 출력되는 특징맵의 사이즈로 업샘플링하여 후단의 MLP 디코더로 가중치 특징맵을 출력한다.
또한 마지막 MLP 디코더(즉, 제3 MLP 디코더)는 최종적으로 생성한 가중치 특징맵에 따라 병변을 세그먼테이션하기 위한 세그먼테이션 마스크를 생성하여 출력한다.
도 4는 본 발명의 일 실시예에 따른 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 장치의 구성을 나타낸 블록도이다.
도 4에 도시한 바와 같이, 본 발명의 일 실시예에 따른 세그먼테이션 장치(10)는 학습용 의료영상 수집부(11), 의료영상 수신부(12), 학습모델 생성부(13), 세그먼테이션부(14) 및 세그먼테이션 결과 출력부(15)를 포함하여 구성된다.
학습용 의료영상 수집부(11)는 병변을 포함하는 복수의 학습용 의료영상을 수집하는 기능을 수행한다.
의료영상 수신부(12)는 환자에 대한 실제 의료영상을 수신하는 기능을 수행한다.
학습모델 생성부(13)는 인코더(100)와 MLP 기반 디코더(200)로 구성된 MLP 기반 아키텍처에 대한 기계학습을 수행하여 학습모델을 생성한다.
기계학습은 학습용 의료영상 수집부(11)를 통해 수집한 복수의 학습용 의료영상을 이용하여 수행된다.
최종적으로 학습을 종료한 경우, MLP 기반 아키텍처가 학습모델이 되며, 학습모델의 구성은 MLP 기반 아키텍처와 동일함은 당연하다.
또한 기계학습은 MLP 기반 아키텍처의 학습 파라미터(각 커널의 가중치, MLP 믹서에서 사용하는 가중치 맵 등)를 설정함으로써 수행된다.
즉, 학습모델 생성부(13)는 학습용 의료영상에서 병변의 위치를 이미 알고 있으므로, MLP 기반 아키텍처의 출력결과에 대한 오차를 줄이도록 학습 파라미터를 설정함으로써 상기 기계학습을 수행하게 된다.
이때, 학습모델은 최종적으로 병변을 세그먼테이션하기 위한 세그먼테이션 마스크를 출력한다.
세그먼테이션부(14)는 세그먼테이션 마스크를 이용하여 의료영상 수신부(12)를 통해 수신한 실제 의료영상으로부터 병변을 세그먼테이션한다.
세그먼테이션 결과 출력부(15)는 병변을 세그먼테이션한 결과를 출력한다.
이하에서는 본 발명의 일 실시예에 따른 세그먼테이션 결과와 최신의 인공지능 알고리즘의 통한 세그먼테이션 결과를 비교 평가한 결과를 설명하도록 한다.
상기 비교를 위해 복수의 학습용 의료영상을 이용하여 최신의 인공지능 알고리즘을 기계학습하였다.
학습용 의료영상은 공개적으로 이용 가능한 Kcasir-Seg 데이터 세트(Jha et al. 2020), 피부 병변 데이터 세트(Codella et al. 2018) 및 CVC ClinicDB(Bernal et al. 2015)를 이용하였다.
기계학습은 학습률 10-4, 배치크기 16 및 에포크(epoch) 100회로 수행하였다.
정량적 비교평가를 위해 다음의 [수학식 4]로 정의되는 DSC(dice coefficient score)와 다음의 [수학식 4]로 정의할 수 있는 자카드 지수(jaccard index)를 사용하였다.
[수학식 4]
Figure 112022003441482-pat00003
여기서 TP는 참 양성(true positive), FP는 거짓 양성(false positive), FN은 거짓 음성(false negative)을 나타낸다.
다이스 계수는 예측된 마스크와 실제(ground) 마스크 사이의 유사성을 계산하는데 이용된다.
또한 비교 평가를 위해 재현율(Recall)과 정밀도(Precision)를 이용하였다.
재현율은 참 양성의 수와 참 음성(TN, true negative)의 수를 이용하여 계산되며, 정밀도는 거짓 양상의 수와 거짓 음성의 수를 이용하여 계산되는 것으로, 재현율과 정밀도는 비교 평가를 위해 주로 사용되는 것으로 상세한 설명은 생략한다.
모든 학습프로세스에서 데이터세트의 학습용 의료영상에 대한 사이즈는 224 x 224로 조정되었으며, 데이터세트의 80%는 기계학습에 이용하였고 20%는 검증용으로 활용하였다.
도 5는 본 발명의 일 실시예에 따른 MLP 기반 아키텍처와 최신의 인공지능 알고리즘을 비교하기 위해 나타낸 도면이다.
도 5에는 UNet, SE-Net 및 본 발명의 복수의 디코더를 통한 총 4개의 가중치 맵과 세그먼테이션 결과를 도시한 것이다.
도 5에 도시한 것과 같이, Unet 및 Se-Net는 전역특징을 처리할 수 없어 병변을 정확하게 세그먼테이션할 수 없는 것을 알 수 있다.
반면에 본 발명의 MLP 기반 아키텍처는 고품질의 세그먼테이션 성능을 가지고 있음을 알 수 있다.
본 발명에서의 가장 중요한 것은, MLP 기반 디코더(200) 측에서 특징채널간의 높은 관계를 학습하는 MLP 믹서를 활용한다는 것이며, 이를 통해 위치별, 공간별 특성을 적용하여 강력한 표현을 생성하고, 정밀한 세그먼테이션 결과를 제공할 수 있다.
도 6은 본 발명의 일 실시예에 따른 본 발명과 최신의 인공지능 알고리즘을 통한 세그먼테이션한 결과를 비교한 도면이며, 도 7은 본 발명의 일 실시예에 따른 본 발명과 최신의 인공지능 알고리즘에 대한 다이스 계수, 자카드 계수, 재현율 및 정밀도를 비교 평가한 도면이다.
도 6에 도시한 바와 같이, Kcasir-Seg 데이터 세트를 기계학습하여 비교평가를 수행하였다.
U-Net, ResUNet-mod, U-Net++, PraNet, Deeplabv3++ 및 ResUNet ++를 포함하는 최신의 인공지능 알고리즘의 경우, 본 발명과 대비하여 병변을 정밀하게 세그먼테이션하지 못하는 것을 알 수 있다.
또한 도 7에 도시한 것과 같이, 본 발명은 다이스 계수 0.932, 자카드 지수 0.8705, 재현율 0.9211 및 정밀도 0.9408로 모든 메트릭에서 다른 최신의 인공지능 알고리즘의 성능을 능가하는 것을 알 수 있다.
더욱이 최신의 알고리즘 중 우수한 성능을 보이는 PraNet 및 Deeplabv3와 성능을 비교한 결과를 보더라도 본 발명은 2% 내지 3% 이상의 개선된 성능을 보임을 알 수 있다.
도 8은 본 발명의 일 실시예에 따른 토큰의 길이 및 특징채널의 너비에 따른 세그먼테이션의 성능을 나타낸 도면이다.
도 8에 도시한 바와 같이, 본 발명의 일 실시예에 따른 토큰 길이에 따른 세그먼테이션 성능을 평가하기 위해서 공간축소블록부의 다운샘플링 비율을 조정하여 각 MLP 디코더에서의 토큰 길이를 7x7, 14x14 및 28x28로 설정한 후, MLP 기반 아키텍처에 대한 기계학습을 수행하였다.
또한 도 8의 표 상단에 도시한 너비(Width)의 대괄호에 기재한 숫자는 인코더(100)의 제5 스테이지, 제4 스테이지, 제3 스테이지, 제2 스테이지 및 제1 스테이이제 설정한 특징채널의 너비를 의미한다.
도 8을 보면 알 수 있듯이, 토큰의 길이를 28x28로 설정하였을 경우, 다른 토큰의 길이보다 복잡성이 증가함에도 불구하고 더 나은 정확도를 보임을 알 수 있으며, 채널의 너비를 늘린 경우에도 더 나은 정확도를 보임을 알 수 있다.
도 9는 본 발명의 일 실시예에 따른 MLP 믹서의 수에 따른 성능을 나타낸 도면이다.
도 9에 도시한 바와 같이, MLP 믹서의 수를 증가시켜 본 발명의 성능을 확인해본 결과, 모든 매트릭에서 유사한 성능을 제공함을 알 수 있다.
그러나 8개의 MLP 믹서를 구성하였을 때, 모든 매트릭에서 제일 높은 성능을 제공하나, 실제 임상 환경에서 본 발명을 구현하였을 때 복잡성을 줄이는 것이 좋으므로 MLP 믹서를 하나 혹은 두개로 구성하는 것이 바람직하다.
도 10은 본 발명의 일 실시예에 따른 의료영상으로부터 병변을 세그먼테이션하는 절차를 나타낸 흐름도이다.
도 10에 도시한 바와 같이, 본 발명의 일 실시예에 따른 의료영상으로부터 병변을 세그먼테이션하는 절차는 우선, 세그먼테이션 장치는 인코더(100)와 MLP 기반 디코더(200)로 구성된 MLP 기반 아키텍처에 대한 기계학습을 수행하여 학습모델을 생성하는 단계를 수행한다(S110).
상기 학습모델을 생성하는 것은 도 4를 참조하여 설명하였으므로 상세한 설명은 생략하도록 한다.
다음으로 세그먼테이션 장치는 실제 의료영상이 수신되면, 상기 수신한 실제 의료영상을 학습모델에 입력하여 병변에 대한 병변을 세그먼테이션하기 위한 세그먼테이션 마스크를 생성하여 출력하는 단계를 수행한다(S120).
이때, 학습모델은 최종적으로 가중치 맵을 출력함으로써, 상기 세그먼테이션 마스크를 생성하여 출력하게 된다.
다음으로 세그먼테이션 장치는 세그먼테이션 마스크를 이용하여 실제 의료영상에 포함된 병변을 세그먼테이션하는 단계를 수행한다(S130).
상기 세그먼테이션하는 것은 세그먼테이션 마스크를 상기 의료영상에 적용함으로써 수행된다.
다음으로 세그먼테이션 장치는 세그먼테이션한 결과를 출력하는 단계를 수행한다(S140).
이상에서 설명한 바와 같이 본 발명의 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 장치 및 그 방법은 인코더와 MLP 기반 디코더를 결합한 MLP 기반 아키텍처를 통해 중요한 특징채널만을 허용하여 불필요한 특징맵을 제한함으로써 의료영상에 포함된 병변을 정밀하게 세그먼테이션할 수 있는 효과가 있다.
또한 상기에서는 본 발명에 따른 바람직한 실시예를 위주로 상술하였으나 본 발명의 기술적 사상은 이에 한정되는 것은 아니며 본 발명의 각 구성요소는 동일한 목적 및 효과의 달성을 위하여 본 발명의 범위 내에서 변경 또는 수정될 수 있을 것이다.
아울러 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.
10: MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 장치
11: 학습용 의료영상 수집부 12: 의료영상 수신부
13: 학습모델 생성부 14: 세그먼테이션부
15: 세그먼테이션 결과 출력부 100: 인코더
110: 잔차블록부 120: 확장 컨볼루션부
200: MLP 기반 디코더 210: 제1 MLP 디코더
220: 제2 MLP 디코더 230: 제3 MLP 디코더

Claims (12)

  1. 복수의 스테이지를 통해 의료영상에 대한 복수의 특징맵을 각각 생성하여 특징채널을 통해 각각 출력하는 인코더; 및
    상기 복수의 특징맵을 통합하고 병변과 관련 없는 특징채널을 제한하여 병변을 정밀하게 세그먼테이션하기 위한 세그먼테이션 마스크를 생성하는 MLP 기반 디코더;를 포함하며,
    상기 MLP 기반 디코더는, 복수의 MLP 디코더;를 포함하여 구성되고,
    각 상기 MLP 디코더는,
    입력단에 입력되는 각 특징맵의 사이즈를 다운 샘플링하고, 최대 풀링 및 평균 풀링을 수행하여 각 특징맵에 대한 전역공간정보 및 특징채널에 대한 넘버를 상기 각 특징맵에 반영하여 출력하는 공간축소블록부;
    상기 공간축소블록부에서 출력한 각 특징맵에 대해서 사전에 설정한 길이의 토큰으로 변환한 특징맵 매트릭스를 전치(transpose)하는 제1 전치부;
    상기 제1 전치부를 통해 전치한 특징맵 매트릭스의 열에 대한 토큰 믹싱을 수행하여 중간표현을 생성하는 토큰 믹싱 MLP 블록부;
    상기 중간표현을 전치한 행에 대한 채널 믹싱을 수행하는 채널 믹싱 MLP 블록부;
    상기 채널 믹싱 MLP 블록부의 출력에 대한 전역 평균 풀링을 수행하여 각 특징맵에 대한 전체 특징채널 수를 추출하여 출력하는 평균풀링부; 및
    상기 각 특징채널 수를 완전연결한 결과에 대해서 시그모이드(sigmoid) 함수를 적용하여 활성화하는 액티베이션부;를 포함하며,
    상기 활성화한 각 특징채널 수로 상기 공간축소블록부의 출력을 리스케일링하여 가중치 특징맵을 생성하고, 사전에 설정한 사이즈로 업샘플링하여 출력하는 것을 포함하는 것을 특징으로 하는 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 장치.
  2. 삭제
  3. 청구항 1에 있어서,
    각 상기 MLP 디코더는,
    상기 특징맵 매트릭스를 레이어 정규화하는 제1 레이어놈부;
    상기 중간표현을 전치하는 제2 전치부; 및
    상기 전치한 중간표현을 레이어 정규화하는 제2 레이어놈부;를 더 포함하는 것을 특징으로 하는 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 장치.
  4. 청구항 1에 있어서,
    상기 인코더는,
    5개의 스테이지를 포함하여 구성되며,
    제1 스테이지는, 상기 의료영상 사이즈의 1/2에 해당하는 복수의 특징맵을 생성하여 출력하며,
    제2 스테이지는, 상기 의료영상 사이즈의 1/4에 해당하는 복수의 특징맵을 생성하여 출력하고,
    제3 스테이지는, 상기 의료영상 사이즈의 1/8에 해당하는 복수의 특징맵을 생성하여 출력하며,
    제4 스테이지는, 상기 의료영상 사이즈의 1/16에 해당하는 복수의 특징맵을 생성하여 출력하고,
    제5 스테이지는, 상기 의료영상 사이즈의 1/32에 해당하는 복수의 특징맵을 생성하여 출력하는 것을 특징으로 하는 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 장치.
  5. 청구항 4에 있어서,
    상기 인코더는,
    상기 제4 스테이지의 출력을 서로 다른 확장률(dilation tate)을 가지는 복수의 커널을 통해 컨볼루션하고 컨볼루션한 결과를 연결하는 확장 컨볼루션부;를 더 포함하며,
    상기 제5 스테이지의 출력은, 잔차블록(residual block)을 통과한 후, 상기 제4 스테이지의 출력과 동일한 사이즈로 업샘플링되며,
    상기 확장 컨볼루션부의 출력과 상기 업샘플링한 제5 스테이지의 출력을 연결(concatenation)한 특징맵을 사전에 설정한 사이즈로 업샘플링하여 상기 MLP 기반 디코더로 출력하는 것을 특징으로 하는 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 장치.
  6. 청구항 5에 있어서,
    상기 MLP 기반 디코더는,
    3개의 MLP 디코더를 포함하여 구성되며,
    제1 MLP 디코더의 입력은, 상기 제3 스테이지에서 출력한 복수의 특징맵 및 상기 확장 컨볼루션부의 출력과 상기 업샘플링한 제5 스테이지의 출력을 연결한 특징맵이며,
    제2 MLP 디코더의 입력은, 상기 제1 MLP 디코더에서 생성한 가중치 특징맵 및 상기 제2 스테이지에서 출력한 특징맵이고,
    제3 MLP 디코더의 입력은, 상기 제2 MLP 디코더에서 생성한 가중치 특징맵 및 상기 제1 스테이지에서 출력한 특징맵이며,
    상기 제3 MLP 디코더는, 최종 생성한 가중치 특징맵을 이용하여 세그먼테이션 마스크를 생성하고, 상기 세그먼테이션 마스크를 상기 의료영상의 사이즈로 업샘플링하여 출력하는 것을 포함하는 것을 특징으로 하는 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 장치.
  7. 병변을 포함하는 복수의 학습용 의료영상을 MLP 기반 아키텍처를 통해 기계학습하여 학습모델을 생성하는 단계;를 포함하며,
    상기 학습모델은, 복수의 스테이지를 통해 각 상기 의료영상에 대한 복수의 특징맵을 각각 생성하여 특징채널을 통해 각각 출력하는 인코더; 및
    상기 복수의 특징맵을 통합하고 병변과 관련 없는 특징채널을 제한하여 병변을 정밀하게 세그먼테이션하기 위한 세그먼테이션 마스크를 생성하는 MLP 기반 디코더;를 포함하며,
    상기 학습모델을 생성하는 단계는, 상기 MLP 기반 디코더를 구성하는 복수의 MLP 디코더를 포함하여 수행되며,
    각 상기 MLP 디코더는,
    입력단에 입력되는 각 특징맵의 사이즈를 다운 샘플링하고, 최대 풀링 및 평균 풀링을 수행하여 각 특징맵에 대한 전역공간정보 및 특징채널에 대한 넘버를 상기 각 특징맵에 반영하여 출력하는 공간축소블록부;
    상기 공간축소블록부에서 출력한 각 특징맵에 대해서 사전에 설정한 길이의 토큰으로 변환한 특징맵 매트릭스를 전치(transpose)하는 제1 전치부;
    상기 제1 전치부를 통해 전치한 특징맵 매트릭스의 열에 대한 토큰 믹싱을 수행하여 중간표현을 생성하는 토큰 믹싱 MLP 블록부;
    상기 중간표현을 전치한 행에 대한 채널 믹싱을 수행하는 채널 믹싱 MLP 블록부;
    상기 채널 믹싱 MLP 블록부의 출력에 대한 전역 평균 풀링을 수행하여 각 특징맵에 대한 전체 특징채널 수를 추출하여 출력하는 평균풀링부; 및
    상기 각 특징채널 수를 완전연결한 결과에 대해서 시그모이드(sigmoid) 함수를 적용하여 활성화하는 액티베이션부;를 포함하며,
    상기 활성화한 각 특징채널 수로 상기 공간축소블록부의 출력을 리스케일링하여 가중치 특징맵을 생성하고, 사전에 설정한 사이즈로 업샘플링하여 출력하는 것을 포함하는 것을 특징으로 하는 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 방법.
  8. 삭제
  9. 청구항 7에 있어서,
    각 상기 MLP 디코더는,
    상기 특징맵 매트릭스를 레이어 정규화하는 제1 레이어놈부;
    상기 중간표현을 전치하는 제2 전치부; 및
    상기 전치한 중간표현을 레이어 정규화하는 제2 레이어놈부;를 더 포함하는 것을 특징으로 하는 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 방법.
  10. 청구항 7에 있어서,
    상기 학습모델을 생성하는 단계는, 5개의 스테이지를 포함하여 구성되는 상기 인코더를 포함하여 수행되며,
    제1 스테이지는, 상기 의료영상 사이즈의 1/2에 해당하는 복수의 특징맵을 생성하여 출력하며,
    제2 스테이지는, 상기 의료영상 사이즈의 1/4에 해당하는 복수의 특징맵을 생성하여 출력하고,
    제3 스테이지는, 상기 의료영상 사이즈의 1/8에 해당하는 복수의 특징맵을 생성하여 출력하며,
    제4 스테이지는, 상기 의료영상 사이즈의 1/16에 해당하는 복수의 특징맵을 생성하여 출력하고,
    제5 스테이지는, 상기 의료영상 사이즈의 1/32에 해당하는 복수의 특징맵을 생성하여 출력하는 것을 포함하는 것을 특징으로 하는 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 방법.
  11. 청구항 10에 있어서,
    상기 인코더는,
    상기 제4 스테이지의 출력을 서로 다른 확장률(dilation tate)을 가지는 복수의 커널을 통해 컨볼루션하고 컨볼루션한 결과를 연결하는 확장 컨볼루션부;를 더 포함하며,
    상기 제4 스테이지의 출력은, 서로 다른 확장률(dilation tate)을 가지는 복수의 커널을 통해 컨볼루션되고 연결되며,
    상기 제5 스테이지의 출력은, 잔차블록(residual block)을 통과한 후, 상기 제4 스테이지의 출력과 동일한 사이즈로 업샘플링되고,
    상기 확장 컨볼루션부의 출력과 상기 업샘플링한 제5 스테이지의 출력을 연결(concatenation)한 특징맵을 사전에 설정한 사이즈로 업샘플링하여 상기 MLP 기반 디코더로 출력하는 것을 특징으로 하는 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 방법.
  12. 청구항 11에 있어서,
    상기 학습모델을 생성하는 단계는, 3개의 MLP 디코더를 포함하는 상기 MLP 기반 디코더를 포함하여 수행되며,
    제1 MLP 디코더의 입력은, 상기 제3 스테이지에서 출력한 복수의 특징맵 및 상기 확장 컨볼루션부의 출력과 상기 업샘플링한 제5 스테이지의 출력을 연결한 특징맵이며,
    제2 MLP 디코더의 입력은, 상기 제1 MLP 디코더에서 생성한 가중치 특징맵 및 상기 제2 스테이지에서 출력한 특징맵이고,
    제3 MLP 디코더의 입력은, 상기 제2 MLP 디코더에서 생성한 가중치 특징맵 및 상기 제1 스테이지에서 출력한 특징맵이며,
    상기 제3 MLP 디코더는, 최종 생성한 가중치 특징맵을 이용하여 세그먼테이션 마스크를 생성하고, 상기 세그먼테이션 마스크를 상기 의료영상의 사이즈로 업샘플링하여 출력하는 것을 포함하는 것을 특징으로 하는 MLP 기반 아키텍처를 통한 의료영상 세그먼테이션 방법.
KR1020220003853A 2022-01-11 2022-01-11 Mlp 기반 아키텍처를 통한 의료영상 세그먼테이션 장치 및 그 방법 KR102419270B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220003853A KR102419270B1 (ko) 2022-01-11 2022-01-11 Mlp 기반 아키텍처를 통한 의료영상 세그먼테이션 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220003853A KR102419270B1 (ko) 2022-01-11 2022-01-11 Mlp 기반 아키텍처를 통한 의료영상 세그먼테이션 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR102419270B1 true KR102419270B1 (ko) 2022-07-08

Family

ID=82407263

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220003853A KR102419270B1 (ko) 2022-01-11 2022-01-11 Mlp 기반 아키텍처를 통한 의료영상 세그먼테이션 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR102419270B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116128832A (zh) * 2023-01-06 2023-05-16 东北林业大学 多任务组织病理图像病灶分割方法
CN116958163A (zh) * 2023-09-20 2023-10-27 海杰亚(北京)医疗器械有限公司 一种多器官和/或病灶的医学图像分割方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Scale Representations via Large Window Attention, Computer Science_Computer Vision and Pattern Recognition,2022.01. *
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers, Computer Science_Computer Vision and Pattern Recognition, 2021.10.* *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116128832A (zh) * 2023-01-06 2023-05-16 东北林业大学 多任务组织病理图像病灶分割方法
CN116958163A (zh) * 2023-09-20 2023-10-27 海杰亚(北京)医疗器械有限公司 一种多器官和/或病灶的医学图像分割方法及装置
CN116958163B (zh) * 2023-09-20 2023-12-08 海杰亚(北京)医疗器械有限公司 一种多器官和/或病灶的医学图像分割方法及装置

Similar Documents

Publication Publication Date Title
KR102419270B1 (ko) Mlp 기반 아키텍처를 통한 의료영상 세그먼테이션 장치 및 그 방법
CN109949309A (zh) 一种基于深度学习的肝脏ct图像分割方法
CN112927255A (zh) 一种基于上下文注意力策略的三维肝脏影像语义分割方法
US11816870B2 (en) Image processing method and device, neural network and training method thereof, storage medium
CN113436173B (zh) 基于边缘感知的腹部多器官分割建模、分割方法及系统
CN111373439B (zh) 使用cnn进行图像分割的方法
CN112862805B (zh) 听神经瘤图像自动化分割方法及系统
CN116309648A (zh) 一种基于多注意力融合的医学图像分割模型构建方法
CN115239716B (zh) 一种基于形状先验U-Net的医学图像分割方法
Popescu et al. Retinal blood vessel segmentation using pix2pix gan
CN115546570A (zh) 一种基于三维深度网络的血管图像分割方法及系统
CN111091575B (zh) 一种基于强化学习方法的医学图像分割方法
Yamazaki et al. Invertible residual network with regularization for effective volumetric segmentation
Tran et al. Deep learning-based inpainting for chest X-ray image
CN116542986A (zh) 一种基于BFTransNet混合网络的肠胃MRI图像分割方法
CN113379770B (zh) 鼻咽癌mr图像分割网络的构建方法、图像分割方法及装置
CN114862670A (zh) 大鼠踝骨骨折Micro-CT图像的超分辨率重建装置
Mulay et al. Style transfer based coronary artery segmentation in x-ray angiogram
CN113744275A (zh) 一种基于特征变换的三维cbct牙齿图像的分割方法
Poudel et al. Explainable U-Net model forMedical image segmentation
CN113177938A (zh) 基于圆形卷积核的脑胶质瘤的分割方法、装置及相关组件
Li et al. A medical image segmentation algorithm based on spatial and channel attention mechanisms and data augmentation
CN112967295A (zh) 一种基于残差网络和注意力机制的图像处理方法及系统
CN112037237B (zh) 一种图像处理方法、装置、计算机设备及介质
CN117274607B (zh) 基于多路金字塔轻量级医学图像分割网络、方法和设备

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant