KR20230070084A - Providing method of diagnostic information for classification of advanced stages of Alzheimer's disease using 3D convolutional neural network - Google Patents

Providing method of diagnostic information for classification of advanced stages of Alzheimer's disease using 3D convolutional neural network Download PDF

Info

Publication number
KR20230070084A
KR20230070084A KR1020210155358A KR20210155358A KR20230070084A KR 20230070084 A KR20230070084 A KR 20230070084A KR 1020210155358 A KR1020210155358 A KR 1020210155358A KR 20210155358 A KR20210155358 A KR 20210155358A KR 20230070084 A KR20230070084 A KR 20230070084A
Authority
KR
South Korea
Prior art keywords
fcl
alzheimer
disease
classification
layer
Prior art date
Application number
KR1020210155358A
Other languages
Korean (ko)
Inventor
권구락
Original Assignee
조선대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 조선대학교산학협력단 filed Critical 조선대학교산학협력단
Priority to KR1020210155358A priority Critical patent/KR20230070084A/en
Publication of KR20230070084A publication Critical patent/KR20230070084A/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/05Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves 
    • A61B5/055Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves  involving electronic [EMR] or nuclear [NMR] magnetic resonance, e.g. magnetic resonance imaging
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4088Diagnosing of monitoring cognitive diseases, e.g. Alzheimer, prion diseases or dementia
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
    • A61B6/02Arrangements for diagnosis sequentially in different planes; Stereoscopic radiation diagnosis
    • A61B6/03Computed tomography [CT]
    • A61B6/037Emission tomography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Primary Health Care (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Surgery (AREA)
  • Neurology (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • High Energy & Nuclear Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Developmental Disabilities (AREA)
  • Computational Linguistics (AREA)
  • Optics & Photonics (AREA)
  • Psychiatry (AREA)
  • Psychology (AREA)
  • Neurosurgery (AREA)

Abstract

The present invention relates to a method of providing diagnostic information for classification of advanced stages of alzheimer's disease through image analysis using a 3D convolution neural network. The method includes the steps of: acquiring a magnetic resonance imaging (MRI) or positron emission tomography (PET) image; extracting a feature; visualizing the feature; applying a final FCL weight; and classifying advanced stages of alzheimer's disease.

Description

3차원 컨볼루션 신경망을 이용한 알츠하이머병의 진행 단계 분류를 위한 진단정보 제공방법 {Providing method of diagnostic information for classification of advanced stages of Alzheimer's disease using 3D convolutional neural network}Method for providing diagnostic information for classification of advanced stages of Alzheimer's disease using 3D convolutional neural network {Providing method of diagnostic information for classification of advanced stages of Alzheimer's disease using 3D convolutional neural network}

본 발명은 3차원 컨볼루션 신경망을 이용한 알츠하이머병의 진행 단계 분류를 위한 진단정보 제공방법에 관한 것이다.The present invention relates to a method for providing diagnostic information for classifying advanced stages of Alzheimer's disease using a 3D convolutional neural network.

알츠하이머병(Alzheimer's disease, AD)의 분자 및 신경학적 원인은 뇌 신경세포 연결 영역인 시냅스의 손상에 기인하는 것으로 알려져 있으며, 시냅스 영역 주위에 베타아밀로이드(beta-amyloid) 단백질과 타우 단백질(tau protein)이 과도하게 침착되어 발생한다. 베타아밀로이드는 시냅스에서 뉴런 간의 통신을 방해하여 뉴런 사멸을 일으키며, 타우 단백질은 뉴런 내부의 영양소 및 기타 필수 분자의 공급을 차단한다. 알츠하이머병이 진행되면 세포 손실, 염증, 뉴런 사멸로 인해 뇌가 극적으로 수축하는데, 이는 뇌 기능에 영향을 주어 기억 상실 등의 문제를 일으킨다. 알츠하이머병과 관련한 해부학적 뇌 구조의 변이로는 뇌실의 확대, 해마의 축소, 피질 두께의 변화, 뇌척수액과 백질 및 회백질의 뇌 조직을 포함하는 기타 대뇌 영역 등을 들 수 있으며, 이러한 변화는 자기공명영상(MRI), 양전자방출단층촬영(PET), 컴퓨터단층촬영(CT)과 같은 다양한 의료 영상 기법을 통해 시각화될 수 있다.Molecular and neurological causes of Alzheimer's disease (AD) are known to be caused by damage to synapses, which are brain nerve cell connection areas, and beta-amyloid proteins and tau proteins around the synaptic areas This is caused by excessive deposition. Beta-amyloid disrupts communication between neurons at the synapse, causing neuronal death, while tau protein blocks the supply of nutrients and other essential molecules inside neurons. As Alzheimer's disease progresses, the brain shrinks dramatically due to cell loss, inflammation, and neuron death, which affects brain function and causes problems such as memory loss. Alterations in anatomical brain structures associated with Alzheimer's disease include enlargement of the ventricles, shrinkage of the hippocampus, changes in cortical thickness, cerebrospinal fluid and other cerebral regions including white matter and gray matter brain tissue. It can be visualized through various medical imaging techniques such as (MRI), positron emission tomography (PET), and computed tomography (CT).

경도인지장애(mild cognitive impairment, MCI)는 정상 노화와 치매의 중간단계로서 알츠하이머병의 초기 단계로 간주되며, 몇 년 이내 알츠하이머병으로 진행되는 진행성 경도인지장애(progressive MCI, pMCI)와 상태를 유지하는 안정 경도인지장애(stable MCI, sMCI)로 나눌 수 있다. MCI는 치매로 진행할 가능성이 상대적으로 높아 이를 조기에 식별하여 MCI에서 알츠하이머병으로의 전환을 잠재적으로 지연 또는 방지하는 것이 임상적으로 매우 중요하다.Mild cognitive impairment (MCI) is considered an early stage of Alzheimer's disease as an intermediate stage between normal aging and dementia, and maintains the status with progressive mild cognitive impairment (pMCI), which progresses to Alzheimer's disease within a few years. stable mild cognitive impairment (sMCI). Since MCI has a relatively high possibility of progressing to dementia, it is clinically very important to identify it early and potentially delay or prevent the transition from MCI to Alzheimer's disease.

한편, 딥 러닝(deep learning)은 인공지능 기술인 기계 학습(machine learning)의 한 분야로, 여러 비선형 변환기법을 조합하여 다량의 데이터로부터 필요한 내용을 추출한다. 최근 딥 러닝을 활용하여 질병을 조기 진단하는 방법과 진단의 정확도를 높이는 많은 연구가 실시되고 있으며, 의료 영상 분야에서도 활발한 연구가 이루어지고 있다. 영상 처리는 MRI 등의 영상으로부터 영상 특징의 구별되는 패턴을 찾아 이로부터 정상과 MCI를 구별할 수 있다. MRI가 자기공명 주파수에서 이미지로 변환되면 각 구조에 대한 픽셀 값을 나타내고, 이러한 픽셀은 클래스에 할당된다. 이러한 뇌 이미지 픽셀에서 추출된 특징을 기반으로 알츠하이머병을 구별할 수 있다. 해부학적 뇌 구조에서 알츠하이머병의 주요 변이 지표로는 심실 크기, 해마 모양, 피질 두께 및 뇌 부피 등이 있다. 이처럼 영상에 반영된 뇌 표현형을 기반으로 훈련된 네트워크 식별 특징은 알츠하이머병 경향이 있는 이미지를 식별하는데 도움을 줄 수 있다.On the other hand, deep learning is a field of machine learning, which is an artificial intelligence technology, and extracts necessary information from a large amount of data by combining various nonlinear transform methods. Recently, many studies have been conducted on how to diagnose diseases early using deep learning and how to increase the accuracy of diagnosis, and active research is being conducted in the field of medical imaging. Image processing can distinguish between normal and MCI by finding a distinctive pattern of image features from images such as MRI. When the MRI is converted into an image at the magnetic resonance frequency, it represents a pixel value for each structure, and these pixels are assigned to a class. Based on the features extracted from these brain image pixels, Alzheimer's disease can be distinguished. Major markers of Alzheimer's disease variation in brain anatomy include ventricular size, hippocampal shape, cortical thickness, and brain volume. Network identification features trained based on brain phenotypes reflected in images like this can help identify images prone to Alzheimer's disease.

컨볼루션 신경망(convolutional neural network, CNN)은 음성 인식 및 이미지 인식에 탁월한 성능을 보이는 알고리즘으로, 이미지를 인식하기 위한 패턴을 찾는 데 유용하며, 데이터를 통해 특징을 스스로 학습하고, 패턴을 사용하여 이미지를 분류한다. CNN은 인공 신경망(artificial neural network, ANN)의 단일 노드 곱셈과 달리 컨볼루션 필터 요소(가중치), 풀링(pooling) 형식 및 활성화 특징 등 추가적인 특징 조사자가 존재한다. CNN 기반 토폴로지(topology)에는 residual (Resnet50, ResNet101), recurrent (RCNN), inception (GoogLeNet), encoder-decoder (U-net) 등이 있으며, 모든 토폴로지는 인코더 유닛, 즉 특징(feature) 생성을 위한 기본 유닛인 컨볼루션(convolution)-정규화(normalization)-활성화(activation)-풀링(pooling)으로 구성된다.A convolutional neural network (CNN) is an algorithm that shows excellent performance in speech recognition and image recognition. It is useful for finding patterns for recognizing images, self-learns features from data, and uses patterns to recognize images. to classify Unlike the single-node multiplication of artificial neural networks (ANNs), CNNs have additional feature investigators such as convolutional filter elements (weights), pooling forms, and activation features. CNN-based topologies include residual (Resnet50, ResNet101), recurrent (RCNN), inception (GoogLeNet), encoder-decoder (U-net), etc. All topologies are encoder units, that is, for feature generation. It consists of the basic units convolution-normalization-activation-pooling.

2D CNN은 타겟 도메인 훈련된 CNN이 각 훈련된 클래스에 대해서만 확률 점수를 줄 수 있어 오도되기 쉬우며, 약간의 픽셀의 변화로도 예측이 저하될 수 있다. 3D 전체 뇌 구조를 사용하여 CNN을 훈련할 경우 더 깊은 아키텍처로 인해 2D 이미지보다 성능을 향상시킬 수 있으나, 더 깊은 아키텍처는 훈련할 더 많은 파라미터(레이어의 가중치)를 의미함과 동시에 더 크고 더 좋은 훈련 자료가 요구된다. 2D 또는 3D CNN은 일반적인 특징 추출 패턴을 따르며, 여기서 일반적인 특징은 기본적으로 다양한 활성화 함수를 적용하여 학습된 네트워크의 가중치(십진수)로 다중 컨볼루션 레이어에서 추출한 이미지 특징인, 기성 CNN 특징이라고 불리는 CNN 특징을 제안할 수 있다. 일반적으로 FCL의 최종 특징 가중치는 CNN의 성능을 결정하기 위해 그래프로 표시되는데, 이는 잘 분리된 클래스 기반 세그먼트 그래프가 일반적으로 잘 훈련된 분류기임을 의미한다.2D CNNs are easily misleading because target domain-trained CNNs can only give probability scores for each trained class, and even slight changes in pixels can degrade predictions. Training a CNN using 3D whole-brain structures can improve performance over 2D images due to the deeper architecture, but a deeper architecture means more parameters to train (weights of the layers) and at the same time larger and better Training materials are required. 2D or 3D CNNs follow a general feature extraction pattern, where the general features are basically CNN features, called ready-made CNN features, which are image features extracted from multiple convolutional layers with the weights (decimal numbers) of the network learned by applying various activation functions. can suggest Usually, the final feature weights of the FCL are graphed to determine the CNN's performance, which means that a well-separated class-based segment graph is usually a well-trained classifier.

2D CNN은 훈련 입력으로 적절한 슬라이스와 그 방향을 선택하는 것이 중요하며, 많은 문헌에서 효율적인 성능을 위해 최고 스캔 또는 최고 다중 슬라이스가 제안되는데, 이는 슬라이스 선택 프로세스를 다소 모호하게 만들어 비실용적이다. 그러나 널리 사용되는 모델인 AlexNet, ResNet, GoogLeNet, ZNet은 모두 2D 기반 아기텍처이다. 제한된 스캔 또는 방향에만 초점을 맞추면 일부 중요한 정보가 누락될 수 있으므로 평면 기하학의 x, y, z 차원에 대한 픽셀 값인 3차원 픽셀 값이 제공되는 전체 뇌 볼륨을 사용하는 것이 좋다. 이전 연구에서 더 적은 수의 MRI 이미지로 훈련시 2D CNN의 분류 성능이 좋지 않으며, 슬라이스의 선택이 여전히 모호함을 입증하였다. 2D CNN의 차원 제약으로 인해 클래스당 수천 개의 이미지를 수용할 수 있도록 아키텍처를 더 깊고 크게 만들어야 한다. 따라서 MRI 분류의 보편화를 위해 3D CNN이 적합할 수 있다. 3D 입력을 사용하면 슬라이스 수정, 선택, 추출과 같은 전처리 단계가 더 적게 필요하므로 수동 처리 단계가 줄어들고 시스템을 보다 자동화할 수 있다.In 2D CNN, it is important to select an appropriate slice and its direction as a training input, and in many literatures, best scan or best multiple slices are proposed for efficient performance, which makes the slice selection process somewhat ambiguous and impractical. However, the widely used models AlexNet, ResNet, GoogLeNet, and ZNet are all 2D-based architectures. Since focusing only on a limited scan or orientation may miss some important information, it is recommended to use the whole brain volume, where three-dimensional pixel values are provided, i.e., pixel values for the x, y, and z dimensions of a planar geometry. Previous studies have demonstrated poor classification performance of 2D CNNs when trained with a smaller number of MRI images, and the selection of slices is still ambiguous. Due to the dimensionality constraints of 2D CNNs, the architecture needs to be made deeper and larger to accommodate thousands of images per class. Therefore, 3D CNN may be suitable for generalization of MRI classification. Using 3D input requires fewer pre-processing steps such as slice correction, selection, and extraction, reducing manual processing steps and making the system more automated.

3D CNN은 주로 최고 패치 또는 CNN 앙상블을 위해 훈련된 다중 패치 기반 아키텍처(architecture)이다. 최고 패치는 권장 관심 영역(region of interest, ROI)을 기반으로 뇌의 단일 영역을 선택하거나 해마나 편도체의 위축 등 해부학적 영역에서 수동적으로 도움을 받는 반면, CNN 앙상블을 위해 훈련된 다중 패치는 여러 ROI의 여러 CNN이 각 영역에 대해 개별적으로 훈련된 후 분류 전 마지막 완전 연결 계층(fully connected layer, FCL)에서 특징 연결을 수행한다. 3D CNN에서 제한된/선택된/정보적인 픽셀만 피드로 사용하는 이유는 GPU 메모리 제약 및 정보 품질 향상을 위해서이다. 비차별적 부분은 낮은 수준에서 특징을 구성하지만 코호트 분류를 지원하지 않을 수 있으므로 전체 뇌 모델을 사용할 경우 정보가 중복될 수 있으며, ROI 패치 또는 단순히 최상의 영역을 선택하면 시스템이 반자동으로 만들어져 자동 특징 추출의 진정한 의미가 적용되지 않으므로 분류를 보다 단순하고 정확하게 구현할 수 있는 기술이 요구된다.3D CNNs are multipatch-based architectures trained primarily on top patches or CNN ensembles. Whereas the best patch selects a single region of the brain based on a recommended region of interest (ROI) or passively assists in anatomical regions such as the hippocampus or amygdala atrophy, multiple patches trained for CNN ensembles Several CNNs in the ROI are trained separately for each region and then perform feature concatenation in the last fully connected layer (FCL) before classification. The reason why only limited/selected/informative pixels are used as feed in 3D CNN is to improve the quality of information and GPU memory constraints. Non-discriminant parts constitute features at a low level, but may not support cohort classification, so using a whole-brain model can result in information duplication, and selecting ROI patches or simply the best region makes the system semi-automatic, reducing the risk of automatic feature extraction. Since the true meaning is not applied, a technology that can implement classification more simply and accurately is required.

Huang et al.은 MRI에서 해마 ROI 및 PET에서 해마 및/또는 피질 ROI를 사용하는 다중 모드 3D CNN을 제안하였으며, ROI 기반 MRI 및 PET에 대해 VGG 아키텍처 기반 CNN을 훈련하고, 최종 분류 전에 최종 FCL에 연결하였다. 다중 모드 기반 3D CNN의 다른 예로, Liu et al.은 최종 FCL을 연결하는 대신 FCL에서 특징을 추출할 때까지 순차 컨볼루션을 위해 각 CNN(PET 및 MRI 패치를 이용하여 훈련)의 컨볼루션 레이어에서 연결이 이루어졌으며, 3D CNN을 활용하여 특징을 추출하는 T1-MRI 및 FDG-PET 기반 cascaded CNN과 작업별 분류를 위한 다중 모드 특징을 결합하기 위해 또 다른 2D CNN을 사용하였다. 2016년 Asl et al.은 구조적 MRI 이미지에 대해 훈련된 deeply supervised and adaptable 3D CNN (DSA-3D-CNN)을 제안하였으며, 이는 AD, MCI 및 인지 정상(cognitively normal, CN)을 예측할 수 있다. 마찬가지로 Payan과 Montana는 희소 자동 인코더(sparse auto encoder, SAE) 패치 기반 3D CNN을 통해 데이터 세트 분할을 사용하여 MRI를 분류하였으며, AD와 CN 분류를 위해 체적 또는 컨볼루션 자동 인코더(convolutional auto encoder, CAE) 기반 3D CNN을 사용하여 5중 교차 검증(cross-validations, CV)을 수행하고, sMCI와 pMCI 분류를 위해 지도 전이 학습을 수행하였다. Huang et al. proposed a multimodal 3D CNN using a hippocampal ROI on MRI and a hippocampal and/or cortical ROI on PET, training a VGG architecture based CNN on the ROI-based MRI and PET, and on the final FCL before final classification. connected. As another example of multi-mode based 3D CNN, Liu et al. Instead of concatenating the final FCL, concatenation was made in the convolutional layers of each CNN (trained using PET and MRI patches) for sequential convolution until features were extracted from the FCL, and features were extracted using a 3D CNN. We used another 2D CNN to combine multimodal features for task-specific classification with T1-MRI and FDG-PET-based cascaded CNNs. In 2016 Asl et al. proposed a deeply supervised and adaptable 3D CNN (DSA-3D-CNN) trained on structural MRI images, which could predict AD, MCI and cognitively normal (CN). Similarly, Payan and Montana classified MRI using data set segmentation via a sparse auto encoder (SAE) patch-based 3D CNN, and used volumetric or convolutional auto encoder (CAE) for AD and CN classification. )-based 3D CNN was used to perform 5-fold cross-validations (CV), and supervised transfer learning was performed for sMCI and pMCI classification.

CNN은 객체의 기본 모양, 테두리, 모서리 및 패턴을 학습하며, 성능 결과, 훈련 시간, 검증 기간, 예측의 신뢰도, 일반화 가능성 및 기타 요소에 따라 훈련이 쉽고 성능이 우수한 최상의 아키텍처를 선택할 수 있다.CNN learns the basic shapes, borders, edges and patterns of objects, and can choose the best architecture that is easy to train and has good performance, depending on the performance results, training time, validation period, reliability of prediction, generalizability and other factors.

최근 연구에 따르면 CNN은 수동 지도 학습 알고리즘(manually supervised learning algorithm)과 달리 로우(raw) 이미지에서 직접 편리한 특징을 추출할 수 있으며, 자연 이미지에 대한 객체 감지 작업에서 핵심 포인트와 특징을 찾을 수 있다. 이러한 특징은 2D 이미지에서 영역 기반 감지를 위한 영역 기반 컨볼루션 신경망(region-based convolutional neural network, RCNN)에서 탐색되었다. CNN을 이용한 세분화의 다른 작업은 세분화 결과 자체에 분류에 필요한 정보가 포함되어 있지 않기 때문에 분류 작업의 전제 조건이 아니라 CNN이 복셀 자체에 레이블을 지정하지 않고도 유용한 특징을 학습할 수 있다고 제안되었으며, 이는 CNN의 일반적인 특징 추출 속성을 지원하는 것을 지지한다. 그러나 더 깊이 들어가기 위해서는 훈련 데이터 세트에서 분류 또는 세분화의 관련 작업을 수행하기 위해 더 의미 있는 특징을 추출해야 하며, 이로써 더 많은 레이어를 가진 더 많은 특징 벡터 및 추출할 특징의 큰 풀을 갖게 된다. 이는 좋은 특징 중에서 가장 좋은 것을 판단하는 데 도움이 될 수 있으나, 깊이가 반드시 딥 러닝 모델을 의미하는 것은 아니다. 그 예로, He et al. ResNet은 50, 101 및 152개의 컨볼루션 레이어와 비교하여 1,202개의 레이어의 더 깊은 네트워크가 공격적인 깊이로 유의미한 개선이 없음을 보여준다. 깊이가 클수록 과적합되는 경향이 커질 수 있으며, 이는 모델 구축을 어렵게 만들 수 있다.According to recent studies, unlike manually supervised learning algorithms, CNNs can extract convenient features directly from raw images, and can find key points and features in object detection tasks for natural images. These features were explored in a region-based convolutional neural network (RCNN) for region-based detection in 2D images. Other tasks of segmentation using CNN have been proposed that CNNs can learn useful features without labeling the voxels themselves, which is not a prerequisite for classification tasks because the segmentation results themselves do not contain the information needed for classification, which suggests that We support supporting the general feature extraction properties of CNNs. However, going deeper requires extracting more meaningful features from the training dataset to perform the relevant task of classification or segmentation, which results in more feature vectors with more layers and a larger pool of features to extract. This can help judge which of the good features is the best, but depth doesn't necessarily mean a deep learning model. For example, He et al. ResNet shows that deeper networks of 1,202 layers show no significant improvement with aggressive depth compared to 50, 101, and 152 convolutional layers. Greater depth can increase the tendency to overfit, which can make model building difficult.

본 발명은 서로 다른 아키텍처의 성능, 하이퍼파라미터의 역할, 데이터 선택, 최적의 네트워크 설계를 위한 데이터 세트 크기를 고려하여 CNN을 구현하였으며, MRI와 PET를 지원하는 발산 아키텍처 'divNET'을 개발하였다.In the present invention, a CNN was implemented considering the performance of different architectures, the role of hyperparameters, data selection, and data set size for optimal network design, and a divergent architecture 'divNET' supporting MRI and PET was developed.

1. 한국등록특허공보 제2125127호1. Korea Patent Registration No. 2125127 2. 한국등록특허공보 제2313656호2. Korea Patent Registration No. 2313656

본 발명의 목적은 자기공명영상(MRI), 양전자방출단층촬영(PET) 영상을 3차원 컨볼루션 신경망에 적용하여 정상인으로부터 알츠하이머병 또는 경도인지장애 분류를 위한 진단정보 제공방법을 제공하는 것이다.An object of the present invention is to provide a diagnostic information providing method for classifying Alzheimer's disease or mild cognitive impairment from a normal person by applying magnetic resonance imaging (MRI) and positron emission tomography (PET) images to a 3D convolutional neural network.

본 발명은 1) 자기공명영상(MRI) 또는 양전자 방출 단층촬영(PET) 이미지 획득 단계; 2) 단일 이미지에서 컨볼루션 계층(convolution layer)의 활성화된 특징(feature) 추출 단계; 3) T-분포 확률적 임베딩(T-SNE) 투영을 사용하여 전체 테스트 세트에서 완전 연결 계층(FCL)의 활성화된 특징 시각화 단계; 4) 직접 시각화를 위한 훈련된 네트워크의 마지막 FCL 가중치를 적용하는 단계; 및 5) 알츠하이머병 진행 단계를 분류하는 단계; 를 포함하는 알츠하이머병의 진행 단계 분류를 위한 진단정보 제공방법을 제공한다. The present invention comprises: 1) obtaining a magnetic resonance imaging (MRI) or positron emission tomography (PET) image; 2) extracting activated features of a convolution layer from a single image; 3) Visualizing the activated features of the fully connected layer (FCL) on the entire test set using T-distributed stochastic embedding (T-SNE) projections; 4) applying the last FCL weight of the trained network for direct visualization; and 5) classifying the stage of progression of Alzheimer's disease; Provides a method for providing diagnostic information for classification of advanced stages of Alzheimer's disease, including.

본 발명의 일 구현예에 따르면, 상기 단계 2)는 계층 l의 훈련된 네트워크 N에 대해 필터 특징(Fl) = 크기가 k×k×k×f인 계층 l에서 필터의 가중치를 포함하고, 여기에서 k×k×k는 필터의 크기이고, f는 계층 l의 필터 수인 것이고, 상기 단계 2)는 초기 활성화된 특징(Al) = conv (Fl, I)을 포함하고, 여기에서 초기 활성화된 특징(Al)은 크기를 다운샘플링하고 활성화 계층을 통과하기 위해 일괄 정규화 및 최대 풀링 단계를 포함하는 것이며, 상기 단계 2)는 시각화를 위해 활성화된 특징 = k×k×k 크기의 Almax는 64×64×64로 크기가 조정되고 각 슬라이스는 2D 도메인에서 개별적으로 표시되는 것이다.According to one embodiment of the present invention, step 2) includes the filter feature (F l ) = the weights of filters in layer l of size k×k×k×f for the trained network N of layer l, Here, k×k×k is the size of the filter, f is the number of filters in layer l, and step 2) includes the initial activated feature (Al ) = conv (F l , I), where the initial Activated features (A l ) include batch normalization and max pooling steps to downsample the size and pass through the activation layer, step 2) above for visualization = A of size k×k×k lmax is scaled to 64x64x64 and each slice is displayed individually in the 2D domain.

본 발명의 다른 구현예에 따르면, 상기 단계 3)은 계층 l의 훈련된 네트워크 N에 대해 FCL 특징(FCLl) = 크기가 T×S인 FCL의 가중치를 포함하고, 여기에서 T는 테스트 대상의 수이며, S = O×I의 크기이고, O 및 I는 각각 첫번째 계층에서 FCL의 출력과 입력을 나타내는 것이고, 상기 단계 3)은 FCLl-tsne = T-SNE (FCLl)을 포함하고, 여기에서 T-SNE는 N 차원에서 특징 축소를 수행하면서 T×2의 특징 행렬을 찾기 위해 T-SNE를 수행하는 것이며, 상기 단계 3)은 FCLl-tsne 가 식별 패턴을 시각화하기 위해 대상 알츠하이머병의 진행 단계에 대해 x-y 평면에 표시하는 것이다.According to another embodiment of the present invention, step 3) includes FCL feature (FCL l ) = weights of FCL of size T×S for trained network N of layer l, where T is the number of test objects. is a number, S = the size of O × I, O and I represent the output and input of the FCL in the first layer, respectively, step 3) includes FCL l-tsne = T-SNE (FCL l ), Here, T-SNE is to perform T-SNE to find a feature matrix of T×2 while performing feature reduction in N dimensions, and step 3) above is performed by FCL l-tsne to visualize the identification pattern. It is to display on the xy plane about the progress of

본 발명의 또 다른 구현예에 따르면, 상기 단계 4)는 최종 FCL로 l이 있고 분류 범주의 수가 n인 네트워크 N에 대해 FCLl = 크기가 O×n인 FCLl의 가중치를 포함하고, 여기에서 O는 끝에서 두번째 FCL의 출력 크기이며, n은 계층 l에 있는 최종 FCL의 출력 크기이고, 이는 알츠하이머병의 진행 단계의 수인 것이고, 상기 단계 4)는 FCLl 은 X-Y 평면에 선형 그래프로 간단히 표시되는 O×n 행렬인 것이다.According to another embodiment of the present invention, step 4) above includes FCL l = weights of FCL l of size O ×n for a network N with l as the final FCL and n number of classification categories, where O is the output size of the second-to-last FCL, n is the output size of the final FCL in layer l, which is the number of progressive stages of Alzheimer's disease, and step 4) above FCL l is simply displayed as a linear graph on the XY plane It is an O × n matrix that becomes

본 발명의 다른 구현예에 따르면, 상기 알츠하이머병의 진행 단계는 정상(cognitive normal), 경도 인지장애(mild cognitive impairment) 및 알츠하이머병으로 이루어진 군에서 선택된 하나인 것이다.According to another embodiment of the present invention, the advanced stage of Alzheimer's disease is one selected from the group consisting of cognitive normal, mild cognitive impairment, and Alzheimer's disease.

본 발명에 따른 정상인으로부터 알츠하이머병 또는 경도인지장애 분류를 위한 진단정보 제공방법은 영상 스캔만으로 환자의 상태를 파악하는 조기 진단이 가능한 최적의 진단 수단을 제공하는 효과가 있다.The method for providing diagnostic information for classifying Alzheimer's disease or mild cognitive impairment from a normal person according to the present invention has an effect of providing an optimal diagnostic means capable of early diagnosis of a patient's condition using only an image scan.

도 1은 MRI 및 PET 스캔을 나타낸다. (a) AD 경향이 있는 MRI (AD prone MRI); (b) 건강한 MRI (Healthy MRI); (c) MCI 경향이 있는 MRI (MCI affected MRI); (d) AD 경향이 있는 PET (AD prone PET); (e) 건강한 PET (Healthy PET); (f) MCI 경향이 있는 PET (MCI affected PET).
도 2는 (a) 실험의 작업 흐름 (b) 'divNet'이라고 하는 수신의 발산 영역을 기반으로 한 MRI/PET 분류를 위해 제안된 3D CNN 아키텍처의 그림을 나타낸다.
도 3은 의사코드(Pseudo-code) 1, 2 및 3을 나타낸다.
도 4 (a)~(f)는 L1~L6 컨볼루션에 대한 100 epoch 각 반복(x축)에서 훈련 및 검증 손실(y축) 그래프를 나타낸다.
도 5는 매개변수 열에 지정된 레이어 수를 변경하여 발산 아키텍처에 대한 교육 및 테스트 결과를 나타낸다. 여기에서, C [W W W N, S]는 각 차원마다 W 크기의 N 필터가 있는 컨볼루션 계층을 나타내며, Stride S 및 N 바이어스로 이동한다. TC [W W W N, S]는 각 차원마다 W 크기의 N개의 필터가 있는 Transposed Convolutional Layer를 나타내며, Stride S 및 N 바이어스로 이동한다. BN [N]은 학습 가능한 파라미터로 N 및 N 스케일 값의 오프셋을 사용하여 배치 정규화를 나타내며, R은 ReLU 활성화를 나타낸다. M[W W WS]는 A Stride S가 있는 W 커널의 최대 풀링을 나타내고, FC[O I]는 입력 I 및 출력 O가 있는 완전 연결 계층을 나타내며, CT, D, S 및 C는 각각 Concatenation, Dropout, Softmax 및 Classification Layer를 나타내며, 훈련패턴은 도 4에 도시하였다.
도 6은 다양한 유형의 아키텍처를 사용한 테스트 결과를 나타낸다. 매개변수는 도 5와 같이 인덱싱된다.
도 7은 의사 코드 1을 사용하여 [64 64 64]로 크기 조정된 원본 크기의 단일 MRI 스캔을 사용하여 최대로 활성화된 특징의 컨볼루션 레이어 시각화를 나타낸다. 사용된 네트워크는 L4 발산임. AD, CN 및 MCI 범주의 일반적인 MRI에 대한 각 컨볼루션 계층임.
도 8은 L4 분기 아키텍처에서 조사된 하이퍼파라미터에 대한 BASELINE_MRI 데이터의 분류 성능 결과를 나타낸다.
도 9는 L4 발산을 사용한 다른 데이터 세트 크기에 대한 분류 결과를 나타낸다.
도 10은 테스트 중 다양한 아키텍처에 대한 t-SNE 2D 특징 투영을 사용한 FCL 특징 시각화 결과를 나타낸 것이다. 컬러 점은 처음 세 개의 FCL, 즉 FC1, FC2 및 FC3의 테스트 세트에서 단일 MRI 스캔 특징을 나타낸다. 이 특징은 FCL에서 클래스 도메인 속성을 표시하기 시작하고 동일한 색상의 클러스터가 형성되기 시작하여 시각화된다. 육안 검사를 기반으로 (d)-(f)와 같이 발산하는 아키텍처 기반 특징이 다른 특징보다 더 잘 클러스터되고 분리되어 있음을 확인했다. 한편, (j)-(l)과 같이 U-net 기반 아키텍처의 경우 분리가 불량하다. 여기에서 교육 환경과 교육에 사용된 교육 자료는 모두 동일했다. 생성된 모델은 도 6에 자세히 설명되어 있다. X축과 Y축은 각각 t-SNE 2D 투영에서 얻은 1차원 및 2차원 값을 나타낸다.
도 11은 BASELINE_MRI 데이터의 296개 테스트 이미지에 대해 L4 divNet에 대한 t-SNE 2D 투영을 사용한 특징 시각화 결과를 나타낸다. 각 색상 점은 색인화된 클래스의 단일 MRI의 특징을 나타낸다. 이것은 1차 컨볼루션에서 4차 컨볼루션으로 시작된다(즉, (a)에서 (d)로). 유사한 그룹의 특징이 분리되기 시작하며 첫 번째 FCL(즉, FC1, (e))에서 뚜렷하게 시각화될 수 있다. 마지막 FCL(즉, FC4)까지 계속되며, 잘못된 클러스터에서 소수의 유색 점이 발견된다(녹색 CN 그룹 근처 및 파란색 MCI 그룹에서 몇 개). 이 중첩 영역은 테스트 세트 예측에서 오류가 발생할 수 있는 가능한 거짓 긍정 또는 거짓 부정 예측 때문일 수 있다. X축 및 Y축은 각각 t-SNE 2D 투영에서 얻은 1차원 및 2차원 값을 나타낸다.
도 12는 Y축의 훈련 손실 및 검증 손실과 X축의 해당 반복 횟수에 대해 표시된 훈련 그래프를 나타낸다. 반복 횟수가 많을수록 Epoch가 길어진다. 수렴 아키텍처의 훈련 플롯에는 훈련 손실보다 훨씬 높은 검증 손실이 있다. 이로 인해 성능이 저하될 수 있으며 이는 동등한 아키텍처의 경우와 유사하다. 그러나 발산 아키텍처에서는 유효성 검사 손실이 상당히 줄어든다. 따라서 최적의 선택으로 만든다. 여기서 교육 자료와 교육 환경은 세 가지 경우 모두 동일하다.
도 13은 최종 FCL 가중치 값은 의사코드 3을 사용하여 테스트된 각 아키텍처에 대해 개별적으로 3개의 대상 도메인에 대해 Y축에 직접 표시된 결과를 나타낸다. X축은 처음 3개의 그래프에 대해 0-100에서 확장되는 반면 (d)에서 0-512로 확장된다. 처음 세 그래프에는 softmax 분류기에 대한 마지막 세 출력을 생성하기 전에 100개의 매개변수가 있는 반면 U-net에는 512개의 매개변수가 있다.
도 14는 훈련에 포함되지 않고 다른 ADNI 프로젝트에서 획득한 완전히 다른 데이터 세트로 일반성 테스트 결과를 나타낸다.
Figure 1 shows MRI and PET scans. (a) AD prone MRI (AD prone MRI); (b) Healthy MRI; (c) MCI affected MRI; (d) AD prone PET; (e) Healthy PET; (f) MCI affected PET.
Figure 2 shows (a) the workflow of the experiment and (b) a picture of the proposed 3D CNN architecture for MRI/PET classification based on the divergent region of reception, called 'divNet'.
3 shows pseudo-codes 1, 2 and 3.
4 (a) to (f) show graphs of training and validation loss (y-axis) at each iteration (x-axis) of 100 epochs for L1 to L6 convolutions.
5 shows training and test results for the divergent architecture by changing the number of layers specified in the parameter column. Here, C[WWWN, S] denotes a convolutional layer with N filters of size W in each dimension, moving with Stride S and N biases. TC [WWWN, S] represents a Transposed Convolutional Layer with N filters of W size in each dimension, and moves with Stride S and N bias. BN[N] denotes batch normalization using offsets of N and N scale values as learnable parameters, and R denotes ReLU activation. M[WW WS] denotes the maximum pooling of the W kernel with A stride S, FC[OI] denotes the fully connected layer with input I and output O, CT, D, S and C are Concatenation, Dropout, and C respectively. Softmax and Classification Layer are shown, and the training pattern is shown in FIG.
6 shows test results using various types of architectures. Parameters are indexed as in FIG. 5 .
Figure 7 shows a convolutional layer visualization of maximally activated features using a single MRI scan with the original size scaled to [64 64 64] using pseudocode 1. The network used is L4 divergent. Each convolutional layer for a typical MRI in the categories AD, CN and MCI.
8 shows the classification performance results of BASELINE_MRI data for the hyperparameters investigated in the L4 branch architecture.
Figure 9 shows classification results for different data set sizes using L4 divergence.
10 shows FCL feature visualization results using t-SNE 2D feature projection for various architectures during testing. Colored dots represent single MRI scan features in the test set of the first three FCLs, namely FC1, FC2 and FC3. This feature is visualized by starting to show class domain attributes in the FCL and clusters of the same color starting to form. Based on visual inspection, we confirmed that the diverging architecture-based features, such as (d)–(f), are better clustered and separated than the other features. On the other hand, the separation is poor in the case of U-net-based architecture as shown in (j)-(l). Here, the educational environment and educational materials used for education were all the same. The generated model is detailed in FIG. 6 . X-axis and Y-axis represent the 1-dimensional and 2-dimensional values obtained from the t-SNE 2D projection, respectively.
11 shows the feature visualization results using t-SNE 2D projection on L4 divNet for 296 test images of BASELINE_MRI data. Each color point represents a feature of a single MRI of an indexed class. It starts with a 1st order convolution to a 4th order convolution (i.e. from (a) to (d)). Similar groups of features begin to separate and can be clearly visualized in the first FCL (i.e. FC1, (e)). It continues until the last FCL (i.e. FC4), where a few colored dots are found in the false cluster (near the green CN group and a few in the blue MCI group). This region of overlap can be due to possible false positive or false negative predictions that can lead to errors in test set predictions. X-axis and Y-axis represent the 1-dimensional and 2-dimensional values obtained from the t-SNE 2D projection, respectively.
12 shows training graphs plotted against training loss and validation loss on the Y-axis and corresponding number of iterations on the X-axis. The more iterations, the longer the epoch. The training plot of the convergent architecture has a validation loss much higher than the training loss. This can lead to performance degradation, which is similar to the case of equivalent architectures. However, validation loss is significantly reduced in a divergent architecture. thus making it the optimal choice. Here, the educational materials and educational environment are the same in all three cases.
13 shows the final FCL weight values plotted directly on the Y-axis for the three target domains individually for each architecture tested using pseudocode 3. The X-axis extends from 0-100 for the first 3 graphs whereas it extends from 0-512 in (d). The first three graphs have 100 parameters before generating the last three outputs for the softmax classifier, whereas the U-net has 512 parameters.
Figure 14 shows the generality test results with a completely different data set not included in the training and obtained from another ADNI project.

이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하기로 한다. 이들 실시예는 단지 본 발명을 예시하기 위한 것이므로, 본 발명의 범위가 이들 실시예에 제한되는 것으로 해석되지 않는다.Hereinafter, the present invention will be described in more detail through examples. Since these examples are intended to illustrate the present invention only, the scope of the present invention is not to be construed as being limited to these examples.

<실시예 1> CNN을 위한 연료로서의 데이터, 그러나 우리의 데이터는 얼마나 커야 합니까?Example 1 Data as fuel for CNN, but how big should our data be?

Alexnet에서 구현된 ImageNet 데이터 세트는 데이터가 좋을수록 더 좋은 결과를 얻을 수 있음을 시사한다. 이 이론을 지원하기 위해 인공 데이터 세트도 다양한 증강 기술로 생성되었으며, 결과는 세분화 및 분류 작업에서 향상된 성능을 위해 광범위한 합성 MRI를 사용함으로써 뒷받침된다. ImageNet의 경우는 각 클래스에 약 8,000개의 이미지가 있는 1,000개의 클래스로 분류된다. 이는 더 독특한 이미지를 가진 더 많은 클래스를 의미하며, 데이터가 AI에 기름처럼 작용하는 CIFAR101, Caltech 등과 같은 다른 데이터 세트의 경우도 유사하다. 한편, 의료 이미지의 경우 이미지 기반 특징으로 작업이 더 어려우며, 특히 AD 대 MCI 또는 MCI 대 NC의 MRI 또는 PET(도 1)는 위축 패턴을 거의 감지할 수 없다. 이를 해결하기 위해 MRI 및 PET 테스트를 위해 다양한 크기의 데이터 세트로 실험을 진행하였다.The ImageNet dataset implemented in Alexnet suggests that better data yields better results. To support this theory, artificial datasets have also been created with various augmentation techniques, and the results are supported by the use of a wide range of synthetic MRIs for improved performance in segmentation and classification tasks. In the case of ImageNet, it is divided into 1,000 classes with about 8,000 images in each class. That means more classes with more unique images, and similarly for other datasets like CIFAR101, Caltech, etc., where data works like oil for AI. On the other hand, in the case of medical images, the task is more difficult with image-based features, especially MRI or PET (Fig. 1) of AD versus MCI or MCI versus NC can hardly detect atrophy patterns. To solve this problem, experiments were conducted with data sets of various sizes for MRI and PET tests.

<실시예 2> 시각화 특징 : CNN은 무엇을 추출하고 배웠습니까?<Example 2> Visualization features: What did CNN extract and learn?

일반화된 CNN은 입력에서 최종 분류 계층까지 특징의 축소를 따른다. 본 발명에서 CNN에 대한 입력은 확장자가 .nii인 NIfTi (Neuroimaging Informatics Technology Initiative) 형식으로 얻은 3D MRI이다. MATLAB에 내장된 niftiread 함수를 사용하여 입력을 읽으면 원래 크기 256×256×256 또는 256×256×170에서 64×64×64로 크기를 조정할 수 있다. 각 컨볼루션 레이어에 대해 max-pool 연산을 사용하여 여러 번 다운 샘플링 한 후 첫 번째 FCL에 대해 1,728로 감소한다. 과적합을 줄이기 위해 드롭아웃과 같은 다른 conceding FCL을 사용하여 최종 출력을 클래스당 100개의 특징으로 만들었으며, 이는 소프트맥스 계층(softmax layer) 입력이다. 여러 FCL을 사용하여 대상 도메인을 매핑하는 이러한 아이디어는 종종 대상 도메인 조정이라고 하며, 이는 사전 훈련된 네트워크를 사용하는 동안 전이 학습의 기초이다. 초기 컨볼루션 레이어에서 활성화된 특징은 작은 윈도우 필터에서 선, 가장자리 및 색상과 같은 속성을 기반으로 픽셀 변화를 감지할 수 있다. 이러한 에지 기반 특징은 CNN의 중간 레이어를 통과하고 많은 수의 필터로 결합되며 가중치(초기에는 임의의 가중치로 유지되거나 Xavier, He, Gaussian을 사용하여 초기화됨)는 SDG (stochastic gradient descent) 또는 Adam과 같은 특정 최적화 경로 같은 역전파 훈련을 사용하여 업데이트 된다. 이러한 중간 레이어는 이미지의 활성화된 부분을 감지하는 반면, 최종 레이어는 대상 영역 사이의 모양과 패턴에서 구별되는 특징을 학습한다. 훈련이 수렴에 도달하면 더이상 가중치 변경이 발생하지 않고 훈련 정확도가 최대에 도달하면 훈련이 중지되며, 이로써 네트워크가 학습되었으며 특징을 생성하는 기존 알고리즘과 유사한 일반 특징 추출기이다. 생성된 특성은 클래스를 구별하는 데 사용되는 판별 특성이다. 본 발명에서는 각 레이어에서 4D 출력, 즉 필터당 하나의 3D 특징맵을 제공하는 여러 3D 필터를 사용한다(도 2). 이러한 필터를 사용하여 이미지를 컨볼루션하면 이미지에서 해당 특징의 존재를 감지하는 특징맵이 생성된다. CNN의 이러한 특성은 자동 특징 추출의 본질이며 자동 CAD (ComputerAided Design) 시스템에 도움을 줄 수 있다.A generalized CNN follows the reduction of features from the input to the final classification layer. In the present invention, the input to the CNN is a 3D MRI obtained in NIfTi (Neuroimaging Informatics Technology Initiative) format with a .nii extension. It can be resized from its original size of 256×256×256 or 256×256×170 to 64×64×64 by reading the input using MATLAB’s built-in niftiread function. After downsampling several times using the max-pool operation for each convolutional layer, it is reduced to 1,728 for the first FCL. To reduce overfitting, we used other conceding FCLs such as dropout to make the final output 100 features per class, which is the softmax layer input. This idea of mapping a target domain using multiple FCLs is often referred to as target domain coordination, which is the basis for transfer learning while using pretrained networks. Features activated in the initial convolutional layer can detect pixel changes based on attributes such as lines, edges, and color in a small window filter. These edge-based features are passed through the middle layers of the CNN, combined into a number of filters, and the weights (initially kept at random weights or initialized using Xavier, He, Gaussian) are stochastic gradient descent (SDG) or Adam and are updated using backpropagation training, such as specific optimization paths. These middle layers detect the active part of the image, while the final layer learns the distinguishing features in shape and pattern between the target areas. When training reaches convergence, no more weight changes occur and training stops when training accuracy reaches maximum, whereby the network has been learned and is a generic feature extractor similar to existing algorithms that generate features. The generated feature is the discriminating feature used to differentiate the classes. In the present invention, several 3D filters are used, each layer providing a 4D output, that is, one 3D feature map per filter (FIG. 2). Convolution of an image using these filters creates a feature map that detects the presence of that feature in the image. This property of CNN is the essence of automatic feature extraction and can help automatic CAD (Computer Aided Design) systems.

CNN이 훈련하지 않고 학습할 수 있는 특징을 예측하는 것은 어려우며, 따라서 특징을 분석하는 것은 지루한 작업이다. 단일 네트워크에는 수백만 개의 파라미터가 포함될 수 있고, 각 필터의 최종 수렴 값을 훈련 없이는 수학적으로 예측할 수 없기 때문이다. 따라서 CNN을 훈련할 때마다 학습된 특징을 조사해야 한다. 훈련을 마치면 CNN에 필터 가중치가 로드되며, 이 가중치는 테스트 이미지로 예측을 수행하는 데 사용된다. MRI에 대해 서로 다른 결과를 얻기 위해 각 레이어에서 컨볼루션되었으며, 훈련된 네트워크는 의사코드(Pseudo-code) 1, 2, 3에 설명된 특징을 얻는 데 사용된다(도 3).It is difficult to predict which features a CNN can learn without training, and thus analyzing the features is a tedious task. This is because a single network can contain millions of parameters, and the final convergence value of each filter cannot be mathematically predicted without training. Therefore, whenever we train a CNN, we need to examine the learned features. After training, the CNN is loaded with filter weights, which are then used to make predictions with test images. It was convoluted at each layer to obtain different results for MRI, and the trained network is used to obtain the features described in pseudo-codes 1, 2, and 3 (Fig. 3).

<< 실시예Example 3> 파라미터 초기화 3> Parameter initialization

MRI와 PET 영상이 I로 표현되는 64×64×64 행렬을 갖는다고 가정하면(즉, I=[Ixiyizi]i=1 to 64), 총 262,144 그레이 스케일(gray-scale) 값이 생성된다. 이러한 값을 복셀(voxel)이라고 하며, 각 복셀에는 x, y, z 좌표의 3D 값이 존재한다. MRI를 간단히 큐브로 표현하였다(도 1). 하기 수학식 1은 첫 번째 레이어의 첫 번째 컨볼루션을 나타낸다.Assuming that MRI and PET images have a 64×64×64 matrix represented by I (ie, I=[I xiyizi ] i=1 to 64 ), a total of 262,144 gray-scale values are generated. These values are called voxels, and each voxel has 3D values of x, y, and z coordinates. MRI was simply represented as a cube (Fig. 1). Equation 1 below represents the first convolution of the first layer.

Figure pat00001
Figure pat00001

상기

Figure pat00002
Figure pat00003
는 초기화 알고리즘을 사용하는 N번째 필터에서 첫 번째 컨볼루션 커널의 초기 바이어스와 가중치를 의미하며,
Figure pat00004
는 요소별 곱셈을 의미한다. 컨볼루션 연산 윈도우(winodw)는 스트라이드(stride) 크기에 따라 연속적으로 움직이며, 상기 수학식 1은 하기 수학식 2와 같이 더욱 간단하게 나타낼 수 있다. 3D 컨볼루션 필터의 각 노드에 대해 :remind
Figure pat00002
and
Figure pat00003
denotes the initial bias and weight of the first convolution kernel in the N -th filter using the initialization algorithm,
Figure pat00004
means element-by-element multiplication. The convolution operation window (winodw) continuously moves according to the size of the stride, and Equation 1 can be more simply expressed as Equation 2 below. For each node of the 3D convolution filter:

Figure pat00005
Figure pat00005

여기에서, conv .3은 경계에 제로 패딩(zero padding)이 없는 일반 3차원 컨볼루션이며,

Figure pat00006
는 입력(input),
Figure pat00007
는 레이어 l에서 k번째 뉴런의 바이어스(bias),
Figure pat00008
는 레이어 l-1에서 i번째 뉴런의 출력(output),
Figure pat00009
는 레이어 l-1i번째 뉴런부터 레이어 lk번째 뉴런까지의 커널(가중치)을 의미한다. conv .3은 [3×3×3] 커널 크기의 요소별 곱을 나타낸다. 최초의 컨볼루션 레이어의 경우, 입력
Figure pat00010
는 동일한 크기의 윈도우(window)로 스캔되는 이미지 픽셀 값(정규화될 수 있음)의 3×3×3 행렬이다.Here, conv .3 is a regular 3D convolution without zero padding on the boundary,
Figure pat00006
is the input,
Figure pat00007
is the bias of the kth neuron in layer l ,
Figure pat00008
is the output of the ith neuron in layer l-1 ,
Figure pat00009
means the kernel (weight) from the i -th neuron of layer l-1 to the k -th neuron of layer l . conv .3 denotes the element-wise product of the [3×3×3] kernel size. For the first convolutional layer, the input
Figure pat00010
is a 3x3x3 matrix of image pixel values (which can be normalized) scanned over equally sized windows.

행렬 또는 이산 형식(discrete form)으로 나타낼 때 이산 N차원 변수 A와 B에 대한 N차원 컨볼루션은 하기 수학식 3과 같이 정의될 수 있다.N-dimensional convolution for discrete N-dimensional variables A and B when expressed in matrix or discrete form can be defined as in Equation 3 below.

Figure pat00011
Figure pat00011

k i 는 A와 B의 유효한 모든 값에 대해 실행되며, 3D 컨볼루션은 다음과 같이 실행될 수 있다. 레이어는 입력을 따라 수직 및 수평으로 필터를 이동하여 입력을 컨볼루션한 후 가중치와 입력의 내적을 계산한 다음 바이어스(bias) 항을 추가한다. 필터가 입력을 따라 이동할 때 동일한 가중치 세트와 컨볼루션에 대해 동일한 바이어스를 사용한다. 따라서 특징맵(feature map)을 형성한다. Each k i is executed for all valid values of A and B, and the 3D convolution can be executed as follows. The layer moves the filter vertically and horizontally along the input, convolves the input, computes the dot product of the weight and the input, and then adds a bias term. As the filter moves along the input, it uses the same set of weights and the same bias for convolution. Thus, a feature map is formed.

SDG 알고리즘에서 최적화 중 필터 가중치는 하기 수학식 4 및 5와 같이 반복적으로 업데이트된다. 여기서

Figure pat00012
는 t번째 반복에 대한 l번째 컨볼루션 계층의 가중치를 나타내고, E는 크기 N의 미니 배치에 대한 비용 함수(비용 함수를 최소화하기 위해 역전파를 이용하여 업데이트 됨)를 나타낸다.During optimization in the SDG algorithm, filter weights are repeatedly updated as shown in Equations 4 and 5 below. here
Figure pat00012
denotes the weight of the lth convolutional layer for the tth iteration, and E denotes the cost function for a mini-batch of size N (updated using backpropagation to minimize the cost function).

Figure pat00013
Figure pat00013

Figure pat00014
Figure pat00014

α l l th 계층에 대한 학습률, m은 현재 반복에서 이전 가중치 업데이트로 인한 모멘텀(momentum), γ는 각 epoch의 완료에 대한 학습률을 감소시키는 스케줄링 비율을 의미한다. α l 가 0일 경우 l값에 의존하며, 1:l의 모든 레이어는 가중치가 동일하며, 가중치는 훈련된 모델의 최종 버전에서 전송된다. α l is the learning rate for the l th layer, m is the momentum due to the previous weight update in the current iteration, and γ is the scheduling ratio that reduces the learning rate for the completion of each epoch. When α l is 0, it depends on the value of l , 1: all layers of l have the same weights, and the weights are transferred in the final version of the trained model.

<< 실시예Example 2> 파라미터 학습 2> Parameter Learning

Figure pat00015
Figure pat00015

상기 수학식 6에서의 오차는 평균 제곱 오차로, 각 샘플(예측값(

Figure pat00016
)에서 학습 데이터(t i ))의 편차 MSE 값을 더한 값이다. 여기서 상기 윗첨자 L은 최종 레이어의 출력을 나타낸다. 오차(E)를 기반으로 역전파(BP)를 수행하여 하기 수학식 7과 같이 파라미터에 대한 가중치를 업데이트 한다.The error in Equation 6 is the mean square error, and each sample (predicted value (
Figure pat00016
) to the value of the deviation MSE of the training data ( t i )). Here, the superscript L represents the output of the final layer. Backpropagation (BP) is performed based on the error ( E ) to update the weight for the parameter as shown in Equation 7 below.

Figure pat00017
Figure pat00017

여기서, 상기

Figure pat00018
필터 kl번째 레이어의 필터 수이며, 이전 레이어 l+1의 가중치는 역전파 동안 l번째 레이어 출력
Figure pat00019
를 제공한다. 바이어스(bias)는 하기 수학식 8로 업데이트된다.here, above
Figure pat00018
filter k is the number of filters in the lth layer, and the weight of the previous layer l+1 is the output of the lth layer during backpropagation
Figure pat00019
provides The bias is updated to Equation 8 below.

Figure pat00020
Figure pat00020

결과적으로, 1 내지 l+1 레이어의 전체 길이에 대해 작성되며, 따라서 l번째 레이어에서 y를 얻기 위해 l+1 레이어의 N개의 필터에 대해 하기 수학식 9로 표현될 수 있다.As a result, it is written for the entire length of the 1 to 1 +1 layer, and thus, to obtain y in the 1 th layer, N filters of the 1 + 1 layer can be expressed by Equation 9 below.

Figure pat00021
Figure pat00021

훈련 중 이 변환을 통해 오차

Figure pat00022
의 기울기를 역전파하고 배치 정규화(batch normalization, BN) 변환으로 파라미터에 대한 기울기를 계산해야 한다.Error during training through this transformation
Figure pat00022
We need to backpropagate the gradient of , and calculate the gradient for the parameters with a batch normalization (BN) transform.

모든 실험은 Windows 10 OS에서 MATLAB R2019a 학술 소프트웨어를 사용하여 수행되었다. 네트워크 모델은 24GB NVIDIA GeForce RTX 2070 GPU에서 훈련되었으며, 32GB Intel®CoreTMi5-9600K CPU @ 3.70 GHz에서 테스트되었다.All experiments were performed using MATLAB R2019a academic software on Windows 10 OS. The network model was trained on a 24GB NVIDIA GeForce RTX 2070 GPU and tested on a 32GB Intel®Core TM i5-9600K CPU @ 3.70 GHz.

<< 실시예Example 4> 다른 CNN에 대한 테스트 4> Test on different CNNs

64×64×64 3D 스캔의 입력에 대한 최적의 레이어 수를 정의하기 위해 단일 인코더의 초기 레이어(즉, 컨볼루션-배치 정규화-ReLU-맥스풀링)에서 테스트하고, 이를 L1 레이어로 명시하였다. 유사하게, 인코더 블록은 L2, L3, L4, L5 및 L6 계층에 연속적으로 추가로 구현되었다. L6에서 6번째 컨볼루션의 최종 특징 크기는 64개 필터 각각에 대해 [2 2 2]이며, 이는 필터 커널이 각 필터에 대해 길이가 2 픽셀이라는 것을 의미한다. 도 5는 이러한 layer-wise CNN에 대한 분류 결과를 나타낸 것이고, 도 6은 수신 영역, 즉 컨볼루션 커널의 윈도우 크기에 따라 4가지 다른 아키텍처를 사용한 분류 결과를 나타낸 것이다. 비슷하게, 학습 및 검증 그래프는 아키텍처가 학습에 어떤 영향을 미치고 각 CNN의 수렴 프로세스를 더 잘 이해하는 데 도움이 되는지 관찰하기 위해 연구되었다. 이에 따라 각 컨볼루션 계층에서 추출된 특징을 이해하기 위해 각 대상 도메인에서 단일 MRI 통과하고 특징은 도 7과 같이 관찰되었다. 미세한 관찰에서 우리는 클래스 도메인을 기반으로 한 선, 가장자리, 강도 및 기타 패턴의 차이를 찾을 수 있었다. 또한 FCL 레이어는 각 아키텍처에 대해 도 10과 같이 t-SNE 투영을 사용하여 시각화되었으므로 우리의 결과를 지원할 수 있다. 여기에서 특징은 전체 테스트 세트에 대해 시각화되었으므로 어떤 아키텍처가 특징을 더 나은 방식으로 분리했는지 판단하는 데 도움이 된다. 마지막으로, 다양한 하이퍼 매개변수 설정 및 데이터 세트의 결과가 각각 도 8 및 도 9에 나와 있다.To define the optimal number of layers for the input of a 64×64×64 3D scan, we tested on the initial layer of a single encoder (i.e. convolution-batch normalization-ReLU-maxpooling) and specified it as the L1 layer. Similarly, encoder blocks were further implemented successively in the L2, L3, L4, L5 and L6 layers. The final feature size of the 6th convolution at L6 is [2 2 2] for each of the 64 filters, which means that the filter kernel is 2 pixels long for each filter. Figure 5 shows classification results for this layer-wise CNN, and Figure 6 shows classification results using four different architectures according to the window size of the reception area, that is, the convolution kernel. Similarly, training and validation graphs were studied to observe how architecture affects learning and helps to better understand the convergence process of each CNN. Accordingly, in order to understand the features extracted from each convolutional layer, a single MRI was passed in each target domain, and the features were observed as shown in FIG. 7 . In microscopic observation, we were able to find differences in lines, edges, intensities and other patterns based on class domains. Also, since the FCL layer was visualized using t-SNE projection as shown in Fig. 10 for each architecture, it can support our results. Here, the features are visualized over the entire test set, which helps determine which architecture segregates the features in a better way. Finally, the results of various hyperparameter settings and data sets are shown in Figures 8 and 9, respectively.

<실시예 5> 왜 아키텍쳐를 다양화하는가?<Embodiment 5> Why diversify the architecture?

필터 크기는 컨볼루션 동안 스캐닝 윈도우를 결정하며, 이 윈도우의 크기는 수신 영역으로 유추할 수 있다. 추출된 특징이 낮은 레벨, 중간 레벨, 높은 레벨에서 순차적으로 추출될 수 있도록 각 연속 레이어에서 필터 크기를 2 스트라이드 늘렸다. 저수준 특징은 3×3×3 필터 윈도우에서 추출되고, 첫 번째 컨볼루션 계층(즉, conv_1에서 max-1까지)에서 1의 스트라이드로 2×2×2 윈도우에 의해 최대 풀링된다(도 1(b)). 단계 크기 또는 스트라이드가 증가함에 따라 필터 커널의 크기가 계속 증가한다는 의미에서 이를 발산 네트워크라고 한다. 그러나 64×64×64의 입력에 대한 채널 크기를 유지하기 위해 각 레이어의 필터 수는 동일하다(즉, 64). 필터 크기가 3×3×3인 첫 번째 컨볼루션 계층에서 시작하므로 미세한 세부 사항을 쉽게 캡처할 수 있다. 레이어가 깊어지면 각 레이어의 창 크기를 늘려 특징을 누적할 수 있다. 결과적으로 특징의 중복성을 줄이기 위해 최대 풀 스트라이드도 증가한다. 반대로 수신 영역은 초기 필터 크기에 따라 계속 감소한다. 수렴 네트워크에서는 9×9×9인 반면 등가 아키텍처에서는 3×3×3의 균일한 커널 크기가 각각에 사용된다. 아키텍처의 모든 세부 사항과 훈련 및 테스트 후 실험 결과는 두 번째 열의 매개변수를 포함하는 도 6에 강조 표시되어 있다.The filter size determines the scanning window during convolution, and the size of this window can be inferred as the receiving area. The filter size was increased by 2 strides in each successive layer so that the extracted features could be sequentially extracted at low, medium, and high levels. Low-level features are extracted on a 3 × 3 × 3 filter window and max-pooled by a 2 × 2 × 2 window with a stride of 1 in the first convolutional layer (i.e., from conv_1 to max-1) (Fig. 1(b )). This is called a divergent network in the sense that the size of the filter kernel continues to increase as the step size or stride increases. However, the number of filters in each layer is the same (i.e., 64) to keep the channel size for an input of 64×64×64. We start with the first convolutional layer with a filter size of 3x3x3, so fine details can be easily captured. As the layers get deeper, you can increase the window size of each layer to accumulate features. As a result, the maximum full stride is also increased to reduce feature redundancy. Conversely, the receiving area continues to decrease according to the initial filter size. A uniform kernel size of 3×3×3 is used for each, whereas in convergent networks it is 9×9×9. All details of the architecture and experimental results after training and testing are highlighted in Fig. 6, which includes the parameters in the second column.

<실시예 6> PET 또는 MRI 또는 둘 다?<Example 6> PET or MRI or both?

훈련 자료의 크기에 따른 효과를 알아보기 위해 다양한 데이터 세트로 L4 발산 네트워크를 훈련시켰고 그 결과를 도 9에 나타내었다. 사용한 MR 영상과 PET 영상은 모두 ADNI 1 프로젝트 하에서 ADNI BL 내원 환자로부터 얻은 것이다. 본 발명은 전뇌의 T1 가중 구조 MR 이미지의 3D 스캔을 사용했다. ADNI 파이프라인을 사용하여 정규화되고 처리되었으며 크기가 거의 조정되지 않은 반면 PET 스캔도 ADNI BL (평활화, 공동 등록 및 몇 가지 표준화를 위해 처리됨)에서 얻었다. 본 발명은 MRI가 3D CNN 분류를 위해 PET보다 더 나은 영상 방식임을 보여주었다. MRI1을 포함한 가장 작은 데이터 세트로 네트워크를 훈련할 때(도 9의 5 컬럼 참조), 네트워크는 과소적합된다. 따라서 테스트 정확도는 74.5%로 낮았으며 이는 검증 정확도보다 약간 낮다. 그러나 훈련은 정확도가 100%에 도달하면서 수렴을 달성했다. 동일한 환경에서 BASELINE_MRI 데이터(MRI2 유형, 도 9)로 훈련된 동일한 네트워크는 94.5%의 가장 높은 테스트 정확도를 달성했다. 정확도가 증가한 이유는 환자당 스캔 비율(SPR)이 높기 때문일 수 있다. 이는 각 스캔의 가변성을 줄이고 네트워크에서 일반성을 잃는다. PET 스캔은 훈련 시간이 증가하면서 L4 divNet에서 최악의 성능을 보였다. BASELINE_PET_SMALL 데이터 세트인 PET1의 테스트 정확도는 66.34%에 불과한 반면 가장 부피가 큰 PET 데이터 세트(예: BASELINE_PET_ALL, PET2)의 테스트 정확도는 50.21%에 불과하다. 100 epoch 및 GPU 교육 시간으로 거의 3배의 수렴을 달성하는 데 어려움이 있었다. PET1보다 크기가 10배 더 크다. 마지막으로 MRI2+PET1 데이터 세트는 단일 네트워크에서 병합 및 교육되었지만 수렴 후에는 90%의 교육 정확도에만 도달할 수 있었고 최대 82%의 테스트 정확도에 도달했다. 결과적으로 CNN에는 MRI가 더 나은 선택이고 PET는 AD 예측에 대해 보완적인 역할만 하는 것처럼 보인다. PET 이미지가 MRI 이미지(그림 1 참조)와 비교하여 대상 클래스에 의해 시각적으로 그렇게 차별적이지 않아 MRI의 더 나은 성능을 초래할 수 있다는 점은 가치가 있다. In order to examine the effect of the size of the training data, L4 divergence networks were trained with various data sets, and the results are shown in FIG. 9 . Both MR and PET images used were obtained from patients attending ADNI BL under the ADNI 1 project. We used 3D scans of T1-weighted structural MR images of the whole brain. PET scans were also obtained in ADNI BL (processed for smoothing, co-registration and some normalization), while normalized and processed using the ADNI pipeline and rarely resized. The present invention showed that MRI is a better imaging modality than PET for 3D CNN classification. When training the network with the smallest data set including MRI1 (see column 5 in Fig. 9), the network underfits. Therefore, the test accuracy was low at 74.5%, which is slightly lower than the validation accuracy. However, training achieved convergence with accuracy reaching 100%. The same network trained with BASELINE_MRI data (MRI2 type, Fig. 9) in the same environment achieved the highest test accuracy of 94.5%. The reason for the increased accuracy may be due to the higher scan-per-patient ratio (SPR). This reduces the variability of each scan and loses generality in the network. PET scans showed the worst performance on L4 divNet with increasing training time. The test accuracy of PET1, the BASELINE_PET_SMALL data set, is only 66.34%, whereas the test accuracy of the largest PET data sets (e.g., BASELINE_PET_ALL, PET2) is only 50.21%. It had difficulty achieving nearly 3x convergence with 100 epochs and GPU training time. It is 10 times larger than PET1. Finally, the MRI2+PET1 dataset was merged and trained on a single network, but after convergence, it could only reach 90% training accuracy and up to 82% test accuracy. As a result, MRI appears to be a better choice for CNN and PET only plays a complementary role for predicting AD. It is worth noting that PET images are not so visually discriminated by subject class compared to MRI images (see Fig. 1), which may result in better performance of MRI.

<시험예 1> 다른 계층의 CNN에 대한 테스트<Test Example 1> Test for CNNs of different layers

도 5는 2개의 컨볼루션 인코딩 레이어에서 6개의 레이어로 시작하여 서로 다른 레이어를 사용한 다양한 아키텍처 기반 구성의 결과를 강조 표시한다. 매개변수 열은 각 행에서 인덱싱된 필터 크기, 필터 수, 최대 풀 필터 크기, 보폭, FCL 입력 및 출력 수를 자세히 설명한다. 훈련 정확도는 각 구성에 대해 거의 100%에 도달한 반면 검증 및 테스트 정확도는 L4 계층 이후에 떨어지기 시작한다. 이것은 도 4(a)-4(f)에서와 같이 에포크 수에 대한 훈련 및 검증 손실에 플롯된 최적의 경우일 수 있으며 과적합 또는 과소적합 사례에 대한 설명이 있다.Figure 5 highlights the results of various architecture-based configurations using different layers, starting with two to six layers of convolutional encoding. The Parameters column details the indexed filter size, number of filters, maximum pool filter size, stride, and number of FCL inputs and outputs in each row. The training accuracy reaches nearly 100% for each configuration, while the validation and test accuracy start to drop after the L4 layer. This can be the best case plotted on the training and validation losses against the number of epochs, as in Fig. 4(a)-4(f), with an account of overfitting or underfitting cases.

<시험예 2> 다른 아키텍처에 대한 테스트<Example 2> Test for different architectures

볼루션 필터 크기의 수신 영역을 기반으로 하는 서로 다른 아키텍처를 사용한 결과, 즉 4가지 아키텍처의 결과 즉, diverging, equivalent, converging, U-net은 도 6과 같다. 파라미터 컬럼은 도 5와 동일하게 index된다.The results of using different architectures based on the reception area of the evolution filter size, that is, the results of the four architectures, that is, diverging, equivalent, converging, and U-net, are shown in FIG. 6. Parameter columns are indexed in the same way as in FIG. 5 .

<시험예 3> 다른 하이퍼파라미터 설정에 대한 테스트<Test Example 3> Test for different hyperparameter settings

하이퍼파라미터는 최상의 성능을 위한 네트워크의 최적화에 있어 매우 중요한 요소이다. 최적의 조건을 찾기 위해 여러 활성화 함수, 초기화 기술 및 최적화 알고리즘을 실험하였다(도 8). Hyperparameters are a very important factor in optimizing a network for best performance. Several activation functions, initialization techniques, and optimization algorithms were experimented with to find the optimal condition (Fig. 8).

<시험예 4> 각 아키텍처의 컨볼루션 변환에 대한 그림<Test Example 4> Illustration of convolution transformation of each architecture

컨볼루션 변환은 의사 코드 1을 사용하여 시각화된다. 여기에서 우리는 단일 환자 MRI 스캔을 사용하여 시각화된 각 클래스 도메인 분석에 대해 도 7을 제시한다. 특징의 수는 전자 컨볼루션 레이어에서 후자로 계속 감소한다. L4 발산 아키텍처 네트워크의 결과는 더 나은 시각화를 위해 64 × 64로 확장된 슬라이스 보기로 표시된다.The convolutional transform is visualized using pseudocode 1. Here we present Figure 7 for each class domain analysis visualized using a single patient MRI scan. The number of features continues to decrease from the former convolutional layer to the latter. The results of the L4 divergent architecture network are displayed in a slice view scaled to 64 × 64 for better visualization.

<시험예 5> 다른 데이터 세트에 대한 테스트<Test Example 5> Test on different data sets

네트워크가 완성되었지만 네트워크 성능에 큰 영향을 줄 수 있으므로 데이터 세트 크기를 결정해야 한다. 본 발명은 훈련 데이터 수가 테스트 정확도에 미치는 영향을 확인하기 위해 다양한 데이터 세트에 대한 실험을 수행하였다(도 9). Although the network is complete, it is still necessary to determine the size of the data set as it can significantly affect network performance. In the present invention, experiments were performed on various data sets to confirm the effect of the number of training data on test accuracy (FIG. 9).

<시험예 6> 각 아케틱처의 FCL T-SNE 변환에 대한 그림<Test Example 6> Illustration of FCL T-SNE conversion of each architecture

FC 레이어 가중치는 의사코드 2에 설명된 대로 T-SNE 변환을 사용하여 시각화되며, 각 아키텍처 유형의 실험결과는 도 10에 나와 있다. 여기서 마지막으로 사용된 세 FCL에 대한 그림의 클래스 별로 표현을 제시했다. The FC layer weights are visualized using the T-SNE transform as described in pseudocode 2, and the experimental results for each architecture type are shown in Fig. 10. Here we present a class-by-class representation of the figure for the last three FCLs used.

<시험예 7> 성과분석 및 논의<Test Example 7> Performance analysis and discussion

도 11은 첫 번째 컨볼루션에서 마지막 FCL까지 분류하는 동안 계층별로 분리된 296개의 스캔으로 구성된 테스트 이미지 세트의 특징 분포를 나타낸다. 수렴 및 발산 아키텍처의 분류 성능은 선택된 4가지 아키텍처 중 가장 우수하다(도 6). 그럼에도 불구하고 도 11에 나와 있는 것처럼 FCL 환자 수준 시각화를 기반으로 각 클래스의 특징이 수렴 아키텍처보다 발산 아키텍처에서 잘 분리되기 시작하는 것을 볼 수 있다. 첫 번째 FCL FC1에서 세 번째 FCL FC3까지 t-SNE를 사용한 데이터 시각화는 두 번째 경우(즉, 발산, 도 11)에서 더 나은 분리를 보여준다. 유사하게, 투영 없이 훈련된 네트워크의 최종 100개 매개변수의 실제 가중치에 대해 각 코호트 도메인에 대한 별도의 색상 곡선으로 플롯된 최종 FCL 그래프를 기반으로(도 13), U-net 아키텍처의 매개변수 512보다 각 색상 그래프 사이의 더 나은 경계를 보여준다. 그 후 이 세 가지 네트워크의 훈련 곡선으로 다시 이동하여(도 10) 최상의 성능을 완성했다. 검증 손실은 수렴 및 등가 아키텍처에서 훈련 손실보다 훨씬 더 높은 것으로 관찰되었다. 이는 네트워크가 여전히 최적화될 수 있음을 나타내며, 이는 다양한 아키텍처와 적절한 하이퍼파라미터 선택으로 달성되었다.Figure 11 shows the feature distribution of a test image set consisting of 296 scans separated by layer during classification from the first convolution to the last FCL. The classification performance of the convergent and divergent architectures is the best among the four selected architectures (Fig. 6). Nevertheless, based on the FCL patient-level visualization, as shown in Fig. 11, it can be seen that the features of each class start to separate better in the divergent architecture than in the convergent architecture. Data visualization using t-SNE from the first FCL FC1 to the third FCL FC3 shows a better separation in the second case (i.e. divergence, Fig. 11). Similarly, based on the final FCL graph plotted as a separate color curve for each cohort domain (Fig. 13) against the actual weights of the final 100 parameters of the network trained without projection, the parameters 512 of the U-net architecture shows a better boundary between each color graph than Then we moved back to the training curves of these three networks (Fig. 10) to complete the best performance. It is observed that the validation loss is much higher than the training loss in convergence and equivalence architectures. This indicates that the network can still be optimized, which has been achieved with different architectures and appropriate hyperparameter selection.

하이퍼 매개변수 선택과 관련하여 적절하고 시기 적절한 훈련과 훈련된 모델의 우수한 성능을 유지하는 것이 중요하다. 실험과 관련하여 L4 분기 아키텍처는 도 6과 8에 명시된 대로 선택된 아키텍처 중 가장 우수했으며 초기화, 활성화 및 최적화 알고리즘과 같은 중요한 하이퍼파라미터는 도 8을 사용하여 선택되었다. Regarding hyperparameter selection, proper and timely training and maintaining good performance of the trained model are important. Regarding the experiment, the L4 branch architecture was the best among the selected architectures as indicated in Figs. 6 and 8, and important hyperparameters such as initialization, activation and optimization algorithms were selected using Fig. 8.

<시험예 8> 일반화 및 과적합 문제<Test Example 8> Generalization and overfitting problems

최근 아키텍처와 성능 결과를 살펴보면 보고된 정밀도와 정확도는 90% 이상으로 매우 높다. MR 유도 영상 획득에서 획득 도구, 공간 위치, 대비 강도, 평면 방향, 등록 템플릿, 보정 방법 및 래핑 프로토콜과 같은 다양한 기술 사양은 의심되는 클래스의 MRI에 가변성을 가져올 수 있다. 따라서 MRI의 하나의 다양성에 대해 훈련된 신경망은 동일한 대상 클래스의 MRI를 감지하는 것이 모호할 수 있으며, 이를 다르게 획득하면 네트워크에 일반화 오류가 발생한다. 일반화 오류는 의료 영상 진단의 주요 과제 중 하나이다. 본 발명에서는 MRI_adapted로 표시한 ADNI의 다른 데이터로 네트워크/모델을 테스트하였다. 이는 ADNI 프로젝트에서 참여자마다 다른 부분을 일부 조정했기 때문이다. MRI_adapted 데이터 세트는 135 AD, 162 CN 및 134 MCI 3D 스캔으로 구성된 일반화 테스트에만 사용되었다. 테스트 결과는 도 10에 나타내었다. 자세히 조사하는 다른 방법은 특징을 시각화하는 것이며, 더 나은 특징을 추출함으로써 CNN은 더 잘 학습할 수 있다. 마찬가지로 오버팅은 일반화 오류와 함께 발생하며, 일반화되지 않은 모델은 너무 잘 학습하여 오버팅을 유발하는 훈련 패턴만 기억한다. 따라서 오버팅 문제를 해결하면 일반성도 달성될 수 있다.Looking at recent architecture and performance results, the reported precision and accuracy are very high at over 90%. In MR-guided image acquisition, various technical specifications such as acquisition tool, spatial location, contrast intensity, planar orientation, registration template, calibration method, and wrapping protocol can bring variability to MRI of a suspected class. Thus, a neural network trained on one variety of MRIs may be ambiguous in detecting MRIs of the same object class, and acquiring them differently introduces generalization errors to the network. Generalization error is one of the major challenges in medical imaging diagnosis. In the present invention, the network/model was tested with other data from ADNI, marked as MRI_adapted. This is because each participant in the ADNI project partially adjusted the different parts. The MRI_adapted data set was used only for generalization testing, consisting of 135 AD, 162 CN, and 134 MCI 3D scans. The test results are shown in FIG. 10 . Another way to investigate in detail is to visualize features, and by extracting better features, CNNs can learn better. Similarly, overting occurs with generalization errors, and models that do not generalize learn too well to remember only the training patterns that cause overting. Therefore, generality can also be achieved by solving the overting problem.

<결론> <Conclusion>

CNN의 최적화 알고리즘 개발을 위해 아키텍처 단위를 설계하는 것이 매우 중요하다. 딥 러닝 프로세스는 훈련 자료의 선택에 크게 좌우되며, 밀접하게 관련된 이미지는 훈련 성능을 향상시킬 수 있으나, 과적합으로 인한 문제도 발생하므로 좋은 네트워크를 생성하기 위해서는 빅데이터보다는 좋은 데이터가 필요하다. 본 발명의 DL 기반 CNN은 훈련을 통해 컨볼루션 계층에서 학습된 분리된 특징을 기반으로 MRI/PET를 분류할 수 있으며, 이는 Ad, MCI, MC 분류에 도움을 줄 수 있다.It is very important to design the architectural unit for the development of CNN's optimization algorithm. The deep learning process is highly dependent on the selection of training materials, and closely related images can improve training performance, but problems due to overfitting also occur, so good data is needed rather than big data to create a good network. The DL-based CNN of the present invention can classify MRI/PET based on the separated features learned in the convolutional layer through training, which can help classify Ad, MCI, and MC.

이상의 설명은 본 발명을 예시적으로 설명한 것에 불과한 것으로, 본 발명에 속하는 기술분야에서 통상의 지식을 가지는 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 변형이 가능할 것이다. 따라서, 본 명세서에 개시된 실시예들은 본 발명을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 사상과 범위가 한정되는 것은 아니다. 본 발명의 보호범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 모든 기술은 본 발명의 권리범위에 포함하는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the present invention, and those skilled in the art will be able to make various modifications without departing from the essential characteristics of the present invention. Accordingly, the embodiments disclosed in this specification are intended to explain, not limit, the present invention, and the spirit and scope of the present invention are not limited by these embodiments. The protection scope of the present invention should be construed according to the following claims, and all technologies within the equivalent range should be construed as being included in the scope of the present invention.

Claims (10)

1) 자기공명영상(MRI) 또는 양전자 방출 단층촬영(PET) 이미지 획득 단계;
2) 단일 이미지에서 컨볼루션 계층(convolution layer)의 활성화된 특징(feature) 추출 단계;
3) T-분포 확률적 임베딩(T-SNE) 투영을 사용하여 전체 테스트 세트에서 완전 연결 계층(FCL)의 활성화된 특징 시각화 단계;
4) 직접 시각화를 위한 훈련된 네트워크의 최종 FCL 가중치를 적용하는 단계; 및
5) 알츠하이머병 진행 단계를 분류하는 단계; 를 포함하는 알츠하이머병의 진행 단계 분류를 위한 진단정보 제공방법
1) acquiring a magnetic resonance imaging (MRI) or positron emission tomography (PET) image;
2) extracting activated features of a convolution layer from a single image;
3) Visualizing the activated features of the fully connected layer (FCL) on the entire test set using T-distributed stochastic embedding (T-SNE) projections;
4) applying the final FCL weights of the trained network for direct visualization; and
5) classifying the stage of progression of Alzheimer's disease; Method for providing diagnostic information for classification of advanced stage of Alzheimer's disease including
제1항에 있어서, 상기 단계 2)는 계층 l의 훈련된 네트워크 N에 대해 필터 특징(Fl) = 크기가 k×k×k×f인 계층 l에서 필터의 가중치를 포함하고, 여기에서 k×k×k는 필터의 크기이고, f는 계층 l의 필터 수인 것인, 알츠하이머병의 진행 단계 분류를 위한 진단정보 제공방법The method of claim 1, wherein step 2) comprises the weights of the filters in layer l with filter characteristics (F l ) = size k×k×k×f for the trained network N in layer l, where k A method for providing diagnostic information for classification of advanced stages of Alzheimer's disease, in which ×k ×k is the size of a filter and f is the number of filters in layer l. 제1항에 있어서, 상기 단계 2)는 초기 활성화된 특징(Al) = conv (Fl, I)을 포함하고, 여기에서 초기 활성화된 특징(Al)은 크기를 다운샘플링하고 활성화 계층을 통과하기 위해 일괄 정규화 및 최대 풀링 단계를 포함하는 것인, 알츠하이머병의 진행 단계 분류를 위한 진단정보 제공방법The method of claim 1, wherein the step 2) comprises an initial activated feature (A l ) = conv (F l , I), wherein the initially activated feature (A l ) is downsampled in magnitude and an activation layer is formed. Method for providing diagnostic information for classification of advanced stages of Alzheimer's disease, comprising batch normalization and maximum pooling steps to pass 제1항에 있어서, 상기 단계 2)는 시각화를 위해 활성화된 특징 = k×k×k 크기의 Almax는 64×64×64로 크기가 조정되고 각 슬라이스는 2D 도메인에서 개별적으로 표시되는 것인, 알츠하이머병의 진행 단계 분류를 위한 진단정보 제공방법The method of claim 1, wherein in step 2), the feature activated for visualization = Almax of size k×k×k is scaled to 64×64×64 and each slice is individually displayed in the 2D domain. , Method for providing diagnostic information for classification of advanced stage of Alzheimer's disease 제1항에 있어서, 상기 단계 3)은 계층 l의 훈련된 네트워크 N에 대해 FCL 특징(FCLl) = 크기가 T×S인 FCL의 가중치를 포함하고, 여기에서 T는 테스트 대상의 수이며, S = O×I의 크기이고, O 및 I는 각각 첫번째 계층에서 FCL의 출력과 입력을 나타내는 것인, 알츠하이머병의 진행 단계 분류를 위한 진단정보 제공방법The method of claim 1, wherein step 3) includes FCL features (FCL l ) = weights of an FCL of size T×S for a trained network N of layer l, where T is the number of test objects, A method for providing diagnostic information for classification of advanced stages of Alzheimer's disease, in which S = the size of O × I, and O and I represent the output and input of FCL in the first layer, respectively. 제1항에 있어서, 상기 단계 3)은 FCLl-tsne = T-SNE (FCLl)을 포함하고, 여기에서 T-SNE는 N 차원에서 특징 축소를 수행하면서 T×2의 특징 행렬을 찾기 위해 T-SNE를 수행하는 것인, 알츠하이머병의 진행 단계 분류를 위한 진단정보 제공방법The method of claim 1, wherein step 3) includes FCL l-tsne = T-SNE (FCL l ), where T-SNE performs feature reduction in N dimensions to find a feature matrix of T×2. Method for providing diagnostic information for classification of advanced stages of Alzheimer's disease, which is to perform T-SNE 제1항에 있어서, 상기 단계 3)은 FCLl-tsne 가 식별 패턴을 시각화하기 위해 대상 알츠하이머병의 진행 단계에 대해 x-y 평면에 표시하는 것인, 알츠하이머병의 진행 단계 분류를 위한 진단정보 제공방법The method according to claim 1, wherein in step 3), the FCL l-tsne displays the progress stage of the target Alzheimer's disease on an xy plane to visualize the identification pattern. 제1항에 있어서, 상기 단계 4)는 최종 FCL로 l이 있고 분류 범주의 수가 n인 네트워크 N에 대해 FCLl = 크기가 O×n인 FCLl의 가중치를 포함하고, 여기에서 O는 끝에서 두번째 FCL의 출력 크기이며, n은 계층 l에 있는 최종 FCL의 출력 크기이고, 이는 알츠하이머병의 진행 단계의 수인 것인, 알츠하이머병의 진행 단계 분류를 위한 진단정보 제공방법The method of claim 1, wherein the step 4) includes FCL l = weights of FCL l of size O×n for a network N having l as the final FCL and n number of classification categories, where O is at the end . A method for providing diagnostic information for classification of advanced stages of Alzheimer's disease, wherein n is the output size of the second FCL, and n is the output size of the final FCL in layer l, which is the number of advanced stages of Alzheimer's disease. 제1항에 있어서, 상기 단계 4)는 FCLl 은 X-Y 평면에 선형 그래프로 간단히 표시되는 O×n 행렬인 것인, 알츠하이머병의 진행 단계 분류를 위한 진단정보 제공방법The method of claim 1, wherein in step 4), FCL l is an Oxn matrix simply displayed as a linear graph on an XY plane. 제1항에 있어서, 상기 알츠하이머병의 진행 단계는 정상(cognitive normal), 경도 인지장애(mild cognitive impairment) 및 알츠하이머병으로 이루어진 군에서 선택된 하나인 것인, 알츠하이머병의 진행 단계 분류를 위한 진단정보 제공방법 The diagnostic information for classifying the advanced stage of Alzheimer's disease according to claim 1, wherein the advanced stage of Alzheimer's disease is one selected from the group consisting of cognitive normal, mild cognitive impairment, and Alzheimer's disease. How to provide
KR1020210155358A 2021-11-12 2021-11-12 Providing method of diagnostic information for classification of advanced stages of Alzheimer's disease using 3D convolutional neural network KR20230070084A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210155358A KR20230070084A (en) 2021-11-12 2021-11-12 Providing method of diagnostic information for classification of advanced stages of Alzheimer's disease using 3D convolutional neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210155358A KR20230070084A (en) 2021-11-12 2021-11-12 Providing method of diagnostic information for classification of advanced stages of Alzheimer's disease using 3D convolutional neural network

Publications (1)

Publication Number Publication Date
KR20230070084A true KR20230070084A (en) 2023-05-22

Family

ID=86545143

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210155358A KR20230070084A (en) 2021-11-12 2021-11-12 Providing method of diagnostic information for classification of advanced stages of Alzheimer's disease using 3D convolutional neural network

Country Status (1)

Country Link
KR (1) KR20230070084A (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102125127B1 (en) 2018-03-05 2020-06-19 고려대학교 산학협력단 Method of brain disorder diagnosis via deep learning
KR102313656B1 (en) 2020-12-30 2021-10-19 뉴로핏 주식회사 Method for, device for, and system for analazing brain image

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102125127B1 (en) 2018-03-05 2020-06-19 고려대학교 산학협력단 Method of brain disorder diagnosis via deep learning
KR102313656B1 (en) 2020-12-30 2021-10-19 뉴로핏 주식회사 Method for, device for, and system for analazing brain image

Similar Documents

Publication Publication Date Title
Graziani et al. Concept attribution: Explaining CNN decisions to physicians
Khagi et al. 3D CNN design for the classification of Alzheimer’s disease using brain MRI and PET
CN107145727B (en) Medical image processing device and method using convolutional neural network
US10740651B2 (en) Methods of systems of generating virtual multi-dimensional models using image analysis
CN110689543A (en) Improved convolutional neural network brain tumor image segmentation method based on attention mechanism
US20210248745A1 (en) System and method for diagnosing disease using neural network performing segmentation
Megjhani et al. Population-scale three-dimensional reconstruction and quantitative profiling of microglia arbors
CN107133461B (en) Medical image processing device and method based on self-encoder
CN114600155A (en) Weakly supervised multitask learning for cell detection and segmentation
CN111680755A (en) Medical image recognition model construction method, medical image recognition device, medical image recognition medium and medical image recognition terminal
CN115471448A (en) Artificial intelligence-based thymus tumor histopathology typing method and device
Dasanayaka et al. Interpretable machine learning for brain tumor analysis using MRI
Behar et al. ResNet50-Based Effective Model for Breast Cancer Classification Using Histopathology Images.
Rele et al. Machine Learning based Brain Tumor Detection using Transfer Learning
CN116664590B (en) Automatic segmentation method and device based on dynamic contrast enhancement magnetic resonance image
CN111951271B (en) Method and device for identifying cancer cells in pathological image
CN107169955B (en) Intelligent medical image processing device and method
CN112488996A (en) Inhomogeneous three-dimensional esophageal cancer energy spectrum CT (computed tomography) weak supervision automatic labeling method and system
Li et al. VBNet: An end-to-end 3D neural network for vessel bifurcation point detection in mesoscopic brain images
Aggarwal et al. Protein Subcellular Localization Prediction by Concatenation of Convolutional Blocks for Deep Features Extraction from Microscopic Images
Pallawi et al. Study of Alzheimer’s disease brain impairment and methods for its early diagnosis: a comprehensive survey
Goutham et al. Brain tumor classification using EfficientNet-B0 model
Turkan et al. Convolutional attention network for MRI-based Alzheimer’s disease classification and its interpretability analysis
Sri et al. Detection Of MRI Brain Tumor Using Customized Deep Learning Method Via Web App
KR20230070084A (en) Providing method of diagnostic information for classification of advanced stages of Alzheimer&#39;s disease using 3D convolutional neural network