KR20240014142A - 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법 및 장치 - Google Patents

지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법 및 장치 Download PDF

Info

Publication number
KR20240014142A
KR20240014142A KR1020220091480A KR20220091480A KR20240014142A KR 20240014142 A KR20240014142 A KR 20240014142A KR 1020220091480 A KR1020220091480 A KR 1020220091480A KR 20220091480 A KR20220091480 A KR 20220091480A KR 20240014142 A KR20240014142 A KR 20240014142A
Authority
KR
South Korea
Prior art keywords
model
self
learning
data
student
Prior art date
Application number
KR1020220091480A
Other languages
English (en)
Inventor
예종철
박상준
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020220091480A priority Critical patent/KR20240014142A/ko
Publication of KR20240014142A publication Critical patent/KR20240014142A/ko

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
    • A61B6/52Devices using data or image processing specially adapted for radiation diagnosis
    • A61B6/5211Devices using data or image processing specially adapted for radiation diagnosis involving processing of medical diagnostic data
    • A61B6/5217Devices using data or image processing specially adapted for radiation diagnosis involving processing of medical diagnostic data extracting a diagnostic or physiological parameter from medical diagnostic data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Optics & Photonics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • High Energy & Nuclear Physics (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Physiology (AREA)
  • Surgery (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법 및 장치가 제시된다. 일 실시예에 따른 컴퓨터 장치에 의해 수행되는 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법은, 기설정된 규모 이하의 라벨링된 데이터를 이용하여 초기 모델을 학습시키는 단계; 및 상기 초기 모델을 교사 모델로 사용하여 라벨이 없는 데이터로 학생 모델을 학습시키는 단계를 포함하고, 상기 학생 모델은 자기 지도 학습 방식 및 자기 훈련 방식을 통해 라벨이 없는 데이터로 학습할 수 있다.

Description

지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법 및 장치{METHOD AND APPARATUS FOR DIAGNOSING X-RAY IMAGE BASED ON SELF-EVOLVING VISION TRANSFORMER USING KNOWLEDGE DISTILLATION TECHNIQUE}
아래의 실시예들은 자기 지도 학습 및 자기 훈련을 통해 지식 증류를 사용하는 딥러닝 프레임워크에 관한 것으로, 더욱 상세하게는 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법 및 장치에 관한 것이다.
의료 이미징을 위한 딥러닝의 초기 성공으로 최근 몇 년 동안 의료 이미지를 위한 인공지능(Artificial Intelligence, AI)의 적용이 급속도로 가속화되었다. 특히, 많은 딥러닝 기반 컴퓨터 지원 진단(Computer-Aided Diagnosis, CAD) 소프트웨어가 흉부 X선(CXR)과 같은 다양한 이미징 양식에 대한 일상적인 실습에 도입되었다. 이러한 딥러닝 기반 AI 모델은 대규모 데이터 코퍼스(corpus)를 병렬로 처리하는 능력을 활용하여 보조자로 사용될 경우 다양한 맥락에서 임상의의 작업량을 크게 줄일 수 있는 잠재력을 보여주었다. 정확한 진단을 내릴 전문가가 부족한 상황에서 결핵 등 각종 질병이 유행하는 저개발국 등 자원 제한적 환경에서 장점을 극대화할 수 있다.
기존 AI 툴(tool)은 대부분 지도 학습으로 구축된 합성곱 신경망(Convolutional Neural Network, CNN) 모델을 기반으로 하지만, 사용 가능한 데이터 양 자체가 풍부한 소외 지역에서는 실측 자료 주석으로 크고 잘 큐레이팅된 데이터를 수집하는 것이 오히려 어렵다. 특히 이들 영역에서 데이터 크기가 매년 증가하지만, 실측 자료 주석이 부족하기 때문에 AI 모델의 성능을 개선하기 위한 데이터 사용이 증가하고 있다.
라벨(label) 가용성의 한계를 고려할 때, 기계 학습 연구의 중요한 선은 라벨링된 데이터 코퍼스에 덜 의존하는 자기 지도 학습(self-supervised learning) 및 준지도 학습(semi-supervised learning)이다. 일반적으로, 지도 학습 접근법으로 훈련된 모델이 성능의 상한이라는 것이 정설이었다. 그러나 최근 준지도 학습 접근법의 일종인 교사(teacher)와 노이즈가 있는 학생(noisy student) 사이의 지식 증류를 통한 자기 훈련(self-training)이 적대적 섭동(adversarial perturbations)에 대한 모델의 견고성을 실질적으로 향상시킬 수 있다는 것이 밝혀졌다. 이 방법의 핵심 아이디어는 학생이 다양한 형태의 노이즈를 가진 이미지로 훈련하여 동일하지만 선명한 이미지로 교사의 예측을 충족하도록 하는 것이다. 실험 결과는 충분한 노이즈가 있는 지식 증류가 기존의 지도 모델보다 다양한 외부 검증 설정에서 더 잘 수행될 수 있음을 시사한다. 또한, 최근에 개발된 비전 변환기(Vision Transformer, ViT)는 자기 지도 학습(self-supervised learning)을 위해 로컬에서 글로벌 뷰 대응을 통해 학생과 교사 사이의 지식 증류를 활용하여 라벨이 없는 증류(distillation with no label, DINO)라는 방법으로 성공적으로 활용되었다. 비전 변환기(ViT)의 강력한 자기 주의(self-attention) 메커니즘은 자기 지도 학습 접근 방식 중 새로운 SOTA 성능을 달성할 수 있을 뿐만 아니라, 지도 없이 객체를 분할할 수 있어 모델이 더 높은 수준의 이미지를 이해할 수 있음을 보여준다.
Pasa, F., Golkov, V., Pfeiffer, F., Cremers, D. & Pfeiffer, D. Efficient deep network architectures for fast chest x-ray tuberculosis screening and visualization. Scientific reports 9, 1-9(2019).
실시예들은 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법 및 장치에 관하여 기술하며, 보다 구체적으로 지식 증류를 통해 라벨이 지정되지 않은 데이터의 증가만으로 성능을 점진적으로 향상시킬 수 있는 비전 변환기(ViT) 기반 자기 진화 기술을 제공한다.
실시예들은 비전 변환기의 특성을 활용한 자기 지도 및 자기 학습 방식을 통해 라벨링 작업 없이도 인공지능 모델이 스스로 성능을 향상시킬 수 있는, 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법 및 장치를 제공하는데 있다.
일 실시예에 따른 컴퓨터 장치에 의해 수행되는 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법은, 기설정된 규모 이하의 라벨링된 데이터를 이용하여 초기 모델을 학습시키는 단계; 및 상기 초기 모델을 교사 모델로 사용하여 라벨이 없는 데이터로 학생 모델을 학습시키는 단계를 포함하고, 상기 학생 모델은 자기 지도 학습 방식 및 자기 훈련 방식을 통해 라벨이 없는 데이터로 학습할 수 있다.
상기 라벨링된 데이터를 이용하여 초기 모델을 학습시키는 단계는, 라벨링된 데이터로 지도 학습을 사용하여 상기 교사 모델을 학습시킬 수 있다.
상기 라벨이 없는 데이터로 학생 모델을 학습시키는 단계는, 큰 영역-작은 영역의 뷰 대응(view-correspondence) 방식의 상기 자기 지도 학습 방식 및 노이즈가 있는 학생 모델을 활용한 자기 훈련 방식에 기반하여 지식 증류를 하여 병변과 주의(attention)의 상관관계를 높일 수 있다.
상기 라벨이 없는 데이터로 학생 모델을 학습시키는 단계는, 라벨이 없는 데이터가 축적되면 상기 교사 모델을 통하여 데이터에 대하여 작업과 무관한 이미지 특징에 대한 예측값 및 작업 특이적인 슈도라벨(pseudolabel)을 도출하고, 도출된 상기 예측값 및 상기 슈도라벨을 상기 학생 모델이 상기 초기 모델의 학습 시 사용되는 큰 영역의 이미지보다 작은 영역의 이미지 또는 노이즈가 들어간 이미지를 통하여 예측하도록 하는 지식 증류 방식으로 모델을 학습시킬 수 있다.
상기 초기 모델이 학습에 이용한 상기 라벨링된 데이터를 통해 교정을 수행하는 단계를 더 포함할 수 있다.
다른 실시예에 따른 컴퓨터 장치에 의해 수행되는 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법은, 라벨링된 데이터를 이용하여 초기 모델을 학습시키는 단계; 상기 초기 모델을 교사 모델로 사용하여 라벨이 없는 데이터로 학생 모델을 학습시키는 단계; 및 상기 초기 모델이 학습에 이용한 상기 라벨링된 데이터를 통해 교정을 수행하는 단계를 포함할 수 있다.
또 다른 실시예에 따른 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 장치는, 기설정된 규모 이하의 라벨링된 데이터를 이용하여 초기 모델을 학습시키는 교사 모델 학습부; 및 상기 초기 모델을 교사 모델로 사용하여 라벨이 없는 데이터로 학생 모델을 학습시키는 학생 모델 학습부를 포함하고, 상기 학생 모델은 자기 지도 학습 방식 및 자기 훈련 방식을 통해 라벨이 없는 데이터로 학습할 수 있다.
상기 교사 모델 학습부는, 라벨링된 데이터로 지도 학습을 사용하여 상기 교사 모델을 학습시킬 수 있다.
상기 학생 모델 학습부는, 큰 영역-작은 영역의 뷰 대응(view-correspondence) 방식의 상기 자기 지도 학습 방식 및 노이즈가 있는 학생 모델을 활용한 자기 훈련 방식에 기반하여 지식 증류를 하여 병변과 주의(attention)의 상관관계를 높일 수 있다.
상기 학생 모델 학습부는, 라벨이 없는 데이터가 축적되면 상기 교사 모델을 통하여 데이터에 대하여 작업과 무관한 이미지 특징에 대한 예측값 및 작업 특이적인 슈도라벨(pseudolabel)을 도출하고, 도출된 상기 예측값 및 상기 슈도라벨을 상기 학생 모델이 상기 초기 모델의 학습 시 사용되는 큰 영역의 이미지보다 작은 영역의 이미지 또는 노이즈가 들어간 이미지를 통하여 예측하도록 하는 지식 증류 방식으로 모델을 학습시킬 수 있다.
실시예들에 따르면 비전 변환기의 특성을 활용한 자기 지도 및 자기 학습 방식을 통해 라벨링 작업 없이도 인공지능 모델이 스스로 성능을 향상시킬 수 있는, 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법 및 장치를 제공할 수 있다.
실시예들에 따르면 초기 소규모의 라벨 데이터가 있으면 그 이후로는 라벨이 없는 데이터만 추가되더라도 지속적으로 성능을 향상시킬 수 있으며, 학생 모델은 초기 모델보다 작은 영역 혹은 노이즈 이미지를 통하여 학습된 모델이기 때문에 우수한 일반화 성능을 보이는, 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법 및 장치를 제공할 수 있다.
도 1a은 일 실시예에 따른 자기 진화하는 AI 모델의 구조를 설명하기 위한 도면이다.
도 1b은 일 실시예에 따른 자기 진화하는 AI 모델의 지식 증류 기법을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법을 나타내는 흐름도이다.
도 3은 일 실시예에 따른 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 장치를 나타내는 블록도이다.
도 4a는 일 실시예에 따른 시간 경과에 따라 증가하는 데이터의 임상 적용 시뮬레이션 결과를 나타내는 도면이다.
도 4b는 일 실시예에 따른 교육 및 내부 검증에 사용되는 데이터 분할 및 클래스에 대한 세부 정보를 나타내는 도면이다.
도 4c는 일 실시예에 따른 외부 검증을 위해 3개의 병원에서 수집한 데이터를 나타내는 도면이다.
도 5a는 일 실시예에 따른 기흉 진단 작업에서 모델 개발에 사용되는 데이터 분할을 나타내는 도면이다.
도 5b는 일 실시예에 따른 기흉 진단 작업에서 외부 검증을 위한 데이터를 나타내는 도면이다.
도 5c는 일 실시예에 따른 COVID-19 진단 작업에서 모델 개발에 사용되는 데이터 분할을 나타내는 도면이다.
도 5d는 일 실시예에 따른 COVID-19 진단 작업에서 외부 검증을 위한 데이터를 나타내는 도면이다.
도 6a는 일 실시예에 따른 결핵 진단 결과 그래프를 나타내는 도면이다.
도 6b는 일 실시예에 따른 결핵 진단 결과표를 나타내는 도면이다.
도 6c는 일 실시예에 따른 훈련된 모델의 상세한 진단 성능을 나타내는 도면이다.
도 6d는 일 실시예에 따른 결핵 사례에 대한 진화하는 모델의 점진적인 관심 변화를 나타내는 도면이다.
도 7a는 일 실시예에 따른 결핵 진단 결과를 비교하는 그래프를 나타내는 도면이다.
도 7b는 일 실시예에 따른 결핵 진단 결과를 비교하는 다른 그래프를 나타내는 도면이다.
도 7c는 일 실시예에 따른 결핵 진단 결과를 비교하는 표를 나타내는 도면이다.
도 7d는 일 실시예에 따른 결핵 진단 결과를 비교하는 다른 표를 나타내는 도면이다.
도 8a 내지 도 8f는 일 실시예에 따른 데이터의 증가를 설명하기 위한 도면이다.
도 9는 일 실시예에 따른 비전 변환기(ViT) 및 CNN 기반 모델에 의한 주의가 있는 위치 파악의 예를 나타내는 도면이다.
도 10a 내지 도 10d은 일 실시예에 따른 CXR 진단 결과를 나타내는 도면이다.
이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
딥러닝 기반 컴퓨터 지원 진단 시스템이 최근 전문가 수준의 성능을 달성했지만, 강력한 딥러닝 모델을 개발하려면 수동 주석이 포함된 대용량 고품질 데이터가 필요하며, 이를 얻기 위해서는 비용이 많이 든다. 이런 상황은 매년 병원에서 수집하는 흉부 엑스레이는 특히 빈곤지역에서 전문가의 수동 라벨링이 부족해 사용할 수 없다는 문제점을 제기하고 있다.
이를 해결하기 위해, 여기서는 자기 지도 학습 및 자기 훈련을 통해 지식 증류를 사용하는 새로운 딥러닝 프레임워크를 제시하는데, 이는 라벨링되지 않은 더 많은 데이터로 훈련된 원래 모델의 성능을 점진적으로 향상시킬 수 있음을 보여준다. 실험 결과에 따르면 제안된 프레임워크는 실제 환경에 대해 인상적인 견고성을 유지하고 결핵, 기흉, COVID-19와 같은 여러 진단 작업에 일반적으로 적용할 수 있다. 특히, 실시예들에 따른 모델이 동일한 양의 라벨링된 데이터로 훈련된 모델보다 성능이 더 우수하다는 것을 입증했다. 제안된 프레임워크는 매년 많은 데이터가 축적되는 의료 이미징의 잠재력이 크지만, 실제 주석을 얻는 데는 많은 비용이 든다.
아래의 실시예들은 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법 및 장치에 관한 것으로, 비전 변환기 인공지능 모델과, 큰 영역-작은 영역 뷰 대응(view-correspondence) 방식의 자기 지도 학습 방식, 노이즈가 있는 학생(noisy student)을 활용한 자기 훈련 방식에 기반하여, 이와 같은 방식들을 효과적으로 조합하여 안정적인 자기 진화 프레임워크를 제안하였다.
인공지능을 활용한 기존의 의료영상 진단 모델들은 지도 학습 방식으로 학습되어 추가적인 성능 향상이 어렵거나, 성능 향상을 위해서는 새로 얻은 데이터에 라벨링 작업을 한 후, 이를 활용하여 학습해야 하기 때문에 전문가의 라벨링 작업이 선행되어야 한다는 문제점이 있었다. 실시예들은 이와 같은 노동집약적인 라벨링 작업 없이도 인공지능 모델이 스스로 성능을 향상시킬 수 있는 프레임워크를 제안하고자 하였다.
실시예들은, 먼저 소규모의 라벨 데이터를 활용하여 교사 모델을 훈련시킨다. 이후 라벨이 없는 데이터가 축적되면 교사 모델을 통하여 그 데이터에 대하여 작업과 무관한 이미지 특징에 대한 예측값과, 작업 특이적인 슈도라벨(pseudolabel)을 도출하고 이를 학생 모델이 더 작은 영역의 이미지(local crop)나 노이즈가 들어간 영상(noisy image)을 통하여 예측하도록 하는 지식 증류 방식으로 모델을 학습시킨다. 이 과정에서 교사 모델이 잘못된 결과값을 도출하여 학생 모델의 성능이 악화될 수 있기 때문에 이를 초기 교사 모델 개발에 활용한 소규모 라벨 데이터를 통해 교정함으로써 안정적으로 성능을 향상시킬 수 있도록 한다. 본 방식을 통하여 초기 소규모의 라벨 데이터가 있으면 그 이후로는 라벨이 없는 데이터만 추가되더라도 지속적으로 성능을 향상시킬 수 있으며, 학생 모델은 보다 작은 영역 혹은 노이즈 영상을 통하여 학습된 모델이기 때문에 우수한 일반화 성능을 보이게 된다. 본 실시예에서는 X-ray 영상을 활용한 결핵, 기흉 등의 병적 소견 진단 작업에 이와 같은 프레임워크를 적용하였다.
실시예들에 따르면 인공지능 모델은 한번 개발되고 나면 성능이 고정되기 때문에 초기에 개발된 모델은 성능이 떨어진다는 인식을 타파할 수 있으며, 지속적으로 쌓이는 데이터를 활용하여 성능이 향상되는 인공지능 모델 프레임워크를 구축할 수 있다. 이를 개발도상국 환경에 적용할 경우 특히 유용하게 활용될 것으로 기대되며, 임상 전문가들의 작업 부담을 줄여줄 것으로 기대된다. 본 모델은 형상 자체에 대한 자기 지도 학습 및 노이즈 이미지를 활용한 자기 훈련 방식으로 학생 모델을 학습시키기 때문에 기존 지도 학습 모델들에 비하여 우수한 성능을 보이는데, 이 또한 다양한 임상 환경에서 본 발명으로 개발된 모델을 활용하는데 큰 이점을 줄 것으로 기대된다.
아래의 실시예들은 교사와 학생 사이의 지식 증류를 기반으로 하는 것에 기반하여, 지식 증류를 통해 라벨이 지정되지 않은 데이터의 증가만으로 성능을 점진적으로 향상시킬 수 있는 비전 변환기(ViT) 기반 자기 진화 프레임워크를 제안한다.
도 1a은 일 실시예에 따른 자기 진화하는 AI 모델의 구조를 설명하기 위한 도면이다.
도 1a을 참조하면, 자기 지도 및 자기 훈련 학습을 위한 증류(distillation for self-supervised and self-train learning, DISTL) 방법은 자기 지도 및 자기 훈련의 두 가지 구성 요소로 이루어질 수 있다. 자기 지도 및 자기 훈련 학습을 위한 증류(DISTL)라고 불리는 실시예들에 따른 방법은, 라벨링되지 않은 데이터의 양이 증가함에 따라 자기 지도 및 자기 훈련에서 얻은 지식 증류라는 공통 기반을 최대한 활용함으로써 다양한 외부 검증 설정에서 AI 모델의 성능을 점진적으로 향상시킬 수 있다. 특히, 외부 검증에서 동일한 양의 라벨링된 데이터로 학습된 지도 모델보다 성능이 뛰어나다. 또한 제안된 자체 진화 방법은 실제 데이터 손상에 대한 상당한 견고성을 가지고 있으며, 실시예들에 따른 모델은 병변 위치에 대한 모델의 주의를 보다 직접적으로 시각화할 수 있다. 이 때, 병변에 대한 지식이 없어도 자기 훈련과 자기 지도 학습을 통해 지식을 증류하면 병변과 주의(attention)의 상관관계가 높아져 진단 성능이 우수하다.
라벨이 지정되지 않은 사례를 활용하여 모델 성능을 안정적으로 발전시키기 위해, 동일한 두 모델, 교사 모델(110) 및 학생 모델(120)이 증류에 활용되어 학생 모델(120)이 주어진 X-ray 영상인 CXR에서 얻은 노이즈 예측과 동일한 CXR로부터 얻은 교사 모델의 선명한 예측을 일치시키도록 한다. 그러나, 이전의 노이즈가 있는 자기 훈련 접근 방식과 달리, 일 실시예에 따르면 자기 지도 방법과 자기 훈련 방법이 모두 활용되었다.
구체적으로, 자기 지도는 이미지 콘텐츠에 대한 형상 편향을 더 많이 가져 CXR의 작업에 구애 받지 않는 의미적 특징을 학습하도록 모델을 장려하는 데 핵심적인 역할을 하는 반면, 자기 훈련은 모델이 직접 작업별 정보, 예를 들어 결핵 진단을 학습할 수 있게 한다. 이 가설을 검증하기 위해 각 구성 요소를 제거하여 절제 연구를 수행했으며, 최적의 성능을 얻기 위해서는 이 두 가지 구성 요소가 필수적이라는 것을 입증했다.
도 1b은 일 실시예에 따른 자기 진화하는 AI 모델의 지식 증류 기법을 설명하기 위한 도면이다.
도 1b을 참조하면, 일 실시예에 따른 방법에서, 시간이 지남에 따라 축적된 라벨링되지 않은 데이터가 증가함에 따라 모델 성능을 점진적으로 발전시키기 위해, 초기 모델(101)은 라벨링된 작은 데이터로 지도 학습을 사용하여 처음 구축되었다. 그런 다음, 이 초기 모델(101)을 교사 모델(110)로 사용하여 라벨이 지정되지 않은 큰 데이터로 학생 모델(120)을 훈련시켰다. 이 과정에서 교사 모델(110)은 업데이트된 학생 모델(120)과 천천히 공동 증류된다.
또한, 교사 모델(110)에 대한 불완전한 추정으로 학생 모델(120)이 저하되는 것을 방지하기 위해, 미리 정의된 단계에 따라 초기의 작은 라벨링된 데이터로 교정을 수행할 수 있다. 그런 다음, 업데이트된 모델은 시간 T가 증가함에 따라 이전의 자기 훈련 접근 방식과 유사하게 다음 모델의 시작점으로 사용된다.
도 2는 일 실시예에 따른 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법을 나타내는 흐름도이다.
도 2를 참조하면, 일 실시예에 따른 컴퓨터 장치에 의해 수행되는 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법은, 기설정된 규모 이하의 라벨링된 데이터를 이용하여 초기 모델을 학습시키는 단계(S110), 및 초기 모델을 교사 모델로 사용하여 라벨이 없는 데이터로 학생 모델을 학습시키는 단계(S120)를 포함하고, 학생 모델은 자기 지도 학습 방식 및 자기 훈련 방식을 통해 라벨이 없는 데이터로 학습할 수 있다.
또한, 초기 모델이 학습에 이용한 라벨링된 데이터를 통해 교정을 수행하는 단계(S130)를 더 포함할 수 있다.
아래에서 일 실시예에 따른 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법을 보다 상세히 설명한다.
일 실시예에 따른 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법은 일 실시예에 따른 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 장치를 예를 들어 보다 구체적으로 설명할 수 있다.
도 3은 일 실시예에 따른 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 장치를 나타내는 블록도이다.
도 3을 참조하면, 일 실시예에 따른 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 장치(300)는 교사 모델 학습부(310) 및 학생 모델 학습부(320)를 포함할 수 있다.
단계(S110)에서, 교사 모델 학습부(310)는 기설정된 규모 이하의 라벨링된 데이터를 이용하여 초기 모델을 학습시킬 수 있다. 이 때, 교사 모델 학습부(310)는 라벨링된 데이터로 지도 학습을 사용하여 교사 모델을 학습시킬 수 있다.
단계(S120)에서, 학생 모델 학습부(320)는 초기 모델을 교사 모델로 사용하여 라벨이 없는 데이터로 학생 모델을 학습시킬 수 있다. 학생 모델은 자기 지도 학습 방식 및 자기 훈련 방식을 통해 라벨이 없는 데이터로 학습할 수 있다.
학생 모델 학습부(320)는 라벨이 없는 데이터로 학생 모델을 학습시키는 단계는, 큰 영역-작은 영역의 뷰 대응(view-correspondence) 방식의 자기 지도 학습 방식 및 노이즈가 있는 학생 모델을 활용한 자기 훈련 방식에 기반하여 지식 증류를 하여 병변과 주의(attention)의 상관관계를 높일 수 있다.
특히, 학생 모델 학습부(320)는 라벨이 없는 데이터가 축적되면 교사 모델을 통하여 데이터에 대하여 작업과 무관한 이미지 특징에 대한 예측값 및 작업 특이적인 슈도라벨(pseudolabel)을 도출하고, 도출된 예측값 및 슈도라벨을 학생 모델이 초기 모델의 학습 시 사용되는 큰 영역의 이미지보다 작은 영역의 이미지 또는 노이즈가 들어간 이미지를 통하여 예측하도록 하는 지식 증류 방식으로 모델을 학습시킬 수 있다.
실시예들에 따르면 기존 연구와는 다르게 초기 모델을 적은 데이터를 활용한 지도 학습 방식으로 제공한 후, 이 모델의 예측값을 자기 지도 및 자기 훈련 방식으로 각각 활용하도록 하여 작업 비특이적인 정보와 작업 특이적인 정보를 모두 활용할 수 있도록 하였다. 특히, 교사-학생 지식 증류 구조 속에서 비전 변환기 모델의 장점을 극대화시킬 수 있는 프레임워크를 통하여 기존 방식들에 비하여 지속적이고 안정적인 성능 향상을 가능하게 한다.
단계(S130)에서, 교사 모델이 잘못된 결과값을 도출하여 학생 모델의 성능이 악화될 수 있기 때문에, 교사 모델 학습부(310)는 초기 모델이 학습에 이용한 라벨링된 데이터를 통해 교정을 수행할 수 있다. 이에 따라 학생 모델을 안정적으로 성능을 향상시킬 수 있도록 한다. 한편, 초기 모델이 학습에 이용한 라벨링된 데이터를 통해 교정을 수행하는 것은 학생 모델 학습부(320) 또는 별도의 교정부를 통해 수행될 수 있다.
다른 실시예에 따른 컴퓨터 장치에 의해 수행되는 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법은, 라벨링된 데이터를 이용하여 초기 모델을 학습시키는 단계, 초기 모델을 교사 모델로 사용하여 라벨이 없는 데이터로 학생 모델을 학습시키는 단계, 및 초기 모델이 학습에 이용한 라벨링된 데이터를 통해 교정을 수행하는 단계를 포함할 수 있다. 다른 실시예에 따른 컴퓨터 장치에 의해 수행되는 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법은 앞에서 설명한 일 실시예에 따른 컴퓨터 장치에 의해 수행되는 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법의 설명과 중복되어 중복되는 설명은 생략하기로 한다.
기존의 인공지능을 활용한 기존의 의료영상 진단 모델들은 지도 학습 방식으로 학습되어 추가적인 성능 향상이 어렵거나, 성능 향상을 위해서는 새로 얻은 데이터에 라벨링 작업을 한 후, 이를 활용하여 학습해야 하기 때문에 전문가의 라벨링 작업이 선행되어야 한다는 문제점이 있었다. 실시예들은 이와 같은 노동집약적인 라벨링 작업 없이도 인공지능 모델이 스스로 성능을 향상시킬 수 있는 프레임워크를 제안하며, 이를 비전 변환기의 특성을 활용한 자기 지도 및 자기 학습법을 통하여 구현할 수 있다. 실시예들에 따라 제공된 모델은 스스로 성능을 향상시킬 수 있는 것뿐만 아니라 우수한 일반화 성능을 보이기 때문에 임상 현장에서 활용 가능성이 높다.
흉부 방사선 영상을 예시로 생각해보면, 전세계적으로 축적되는 의료 영상 데이터의 양은 우수한 일반화 성능을 지난 인공지능 모델을 개발하기에 부족하지 않다. 그러나 이와 같은 인공지능 모델이 개발되기 어려운 것은 모델 개발을 위해서는 데이터 뿐만 아니라 이를 지도할 수 있는 라벨 작업이 선행되어야 하기 때문이며, 특히 전문가의 판독을 기반으로 얻어야 하는 라벨은 얻기가 더욱 어렵다. 이와 같은 환경에 본 실시예를 통해 제공된 자기 진화 인공지능 알고리즘을 활용한다면 전문가에 의한 라벨링 작업 없이도 전세계적으로 축적되는 대규모 데이터 세트를 활용할 수 있으며, 궁극적으로는 다양한 질병에 대하여 우수한 일반화 성능을 가진 인공지능 모델을 개발할 수 있다.
도 4a는 일 실시예에 따른 시간 경과에 따라 증가하는 데이터의 임상 적용 시뮬레이션 결과를 나타내는 도면이고, 도 4b는 일 실시예에 따른 교육 및 내부 검증에 사용되는 데이터 분할 및 클래스에 대한 세부 정보를 나타내는 도면이며, 도 4c는 일 실시예에 따른 외부 검증을 위해 3개의 병원에서 수집한 데이터를 나타내는 도면이다.
아래에서는 지도를 위해 라벨링된 데이터의 작은 코퍼스만 사용하고 시간이 지남에 따라 실제 데이터 축적을 시뮬레이션하는 라벨링되지 않은 데이터의 양을 점진적으로 증가시켜 결핵 진단을 포함한 세 가지 CXR 작업에서 제안된 프레임워크를 평가하였다.
특히, 데이터가 풍부하지만 라벨이 부족한 상황에서 실시예들에 따른 AI 모델이 점차 자가 진화할 수 있는지 확인하기 위해 세계보건기구(WHO)가 결핵의 CXR 검진을 위한 AI 기반 CAD 사용을 리소스 제한 설정의 잠재적 솔루션으로 파악한 후 클리닉에서 수요가 높아 결핵(TB) 진단으로 주요 과제를 설정했다. 모델 개발 및 내부 검증을 위해 공개적으로 사용 가능한 오픈 소스 및 기관 데이터셋 모두에서 정상 및 결핵 CXR을 수집했다. 수집 후 총 35,985개의 CXR이 3,598개의 라벨링된 데이터(총 데이터의 10%) 및 32,387개의 라벨링되지 않은 부분 집합(총 데이터의 90%)으로 추가로 분할되었다. 다음으로, 시간이 지남에 따라 라벨링되지 않은 경우의 수가 증가하는 클리닉의 상황을 가정하여 라벨링되지 않은 부분집합을 세 가지로 더 나누었다. 그런 다음, 이 세 개의 폴드(fold)를 이용하여, 시간 T = 1, 2, 3이, 도 4a에 도시된 바와 같이 간다고 가정하고, 라벨링되지 않은 데이터의 총량을 전체 데이터의 30%, 60%, 90%로 증가시켰다. 도 4b에 도시된 바와 같이, 이 프로세스 동안 라벨링된 데이터의 부분집합은 초기 3,598개의 CXR(전체 데이터의 10%)에 고정된 상태로 유지된다.
도 4c에 도시된 바와 같이, 제안된 자기 진화형 AI 모델의 성능을 T시점마다 3개의 서로 다른 병원(전남대병원(CNUH), 영남대병원(YNU), 경북대병원(KNUH))에서 이사회 인증 방사선과 의사가 수집하여 라벨링한 외부 검증 데이터로 평가하여 다양한 장치 및 이미지 획득 설정에 대한 일반화 기능을 검증하였다.
도 5a는 일 실시예에 따른 기흉 진단 작업에서 모델 개발에 사용되는 데이터 분할을 나타내는 도면이고, 도 5b는 일 실시예에 따른 기흉 진단 작업에서 외부 검증을 위한 데이터를 나타내는 도면이며, 도 5c는 일 실시예에 따른 COVID-19 진단 작업에서 모델 개발에 사용되는 데이터 분할을 나타내는 도면이고, 도 5d는 일 실시예에 따른 COVID-19 진단 작업에서 외부 검증을 위한 데이터를 나타내는 도면이다.
기흉 진단을 위해 모델 개발 및 내부 검증을 위해 SIIM-ACR 기흉 데이터를 사용했다. 기흉 및 정상 사례에 대한 CXR과 분할 마스크가 포함되어 있으므로 이진 분류 문제로 기흉 진단 과제로 채택하였다. 도 5a를 참조하면, 실시예들은 결핵 진단 과제와 유사하게, 이 데이터를 라벨링된 부분 집합과 라벨링되지 않은 부분 집합으로 분할했고, 라벨링되지 않은 부분 집합은 시간과 함께 점진적으로 축적되는 데이터를 시뮬레이션하기 위해 세 부분으로 더 나누었다. 도 5b를 참조하면, 훈련된 모델의 외부 검증을 위해 세 병원(CNUH, YNU, KNUH)의 기흉 환자의 CXR도 수집했다. 도 5c를 참조하면 실시예들은 COVID-19 진단을 위해, 다른 작업과 유사한 시간이 증가함에 따라 라벨링되지 않은 데이터의 양을 점진적으로 증가시킴으로써 모델 개발 및 내부 검증에 공개적으로 사용 가능한 두 개의 COVID-19 데이터셋을 활용했다. 도 5d를 참조하면, 중합효소 연쇄 반응(PCR)의 CXR은 세 병원(CNUH, YNU, KNUH)에서 외부 검증을 위해 의도적으로 수집한 COVID-19 사례를 확인했다.
도 6a는 일 실시예에 따른 결핵 진단 결과 그래프를 나타내는 도면이고, 도 6b는 일 실시예에 따른 결핵 진단 결과표를 나타내는 도면이며, 도 6c는 일 실시예에 따른 훈련된 모델의 상세한 진단 성능을 나타내는 도면이고, 도 6d는 일 실시예에 따른 결핵 사례에 대한 진화하는 모델의 점진적인 관심 변화를 나타내는 도면이다.
실시예들에 따른 결핵 진단 모델은 라벨링되지 않은 데이터가 증가함에 따라 자가 진화할 수 있다. 라벨링되지 않은 데이터의 수가 증가함에 따라 제안된 프레임워크로 결핵 진단의 성능을 점진적으로 향상시킬 수 있는지 여부를 먼저 평가했다. 도 6a 및 6b에 도시된 바와 같이, 외부 검증에서는 라벨링되지 않은 데이터의 수가 증가할수록 제안된 프레임워크로 훈련된 모델의 성능이 AUC가 0.948에서 0.974로 향상되었다. 특히, 개선된 성능은 라벨링된 동일한 양의 데이터로 훈련된 지도 모델보다 훨씬 우수했는데, 이는 T = 2에서 0.958의 AUC로 개선되었지만 T = 3에서 0.950으로 감소하여 과적합 징후를 보였다. 도 6c에 도시된 바와 같이, 세부적으로 최종 모델은 0.974, 0.965, 0.985, 0.980의 AUC, 92.7%, 92.9%, 93.0%, 95.0%의 민감도, 92.0%, 90.3%, 96.0%, 93.5%의 특이도, 92.2%, 90.4%, 95.3%, 94.0%의 정확도로 3개 기관의 테스트 집합을 보여주었으며, 이는 상이한 장치와 설정으로 임상 상황에서 우수한 일반화 능력을 확인하였다.
도 6d에 도시된 바와 같이, 메트릭 자체에 국한되지 않고, 비전 변환기(ViT) 모델의 모델 주의가 시간 T 증가에 따라 정교해진다는 흥미로운 발견도 관찰했다. AI 모델이 시간 T가 증가함에 따라 진화함에 따라 AI의 자체 주의력은 주어진 CXR 이미지 내에서 의미 구조뿐만 아니라 대상 병변을 더 잘 위치 지정하도록 조정된다.
도 7a는 일 실시예에 따른 결핵 진단 결과를 비교하는 그래프를 나타내는 도면이고, 도 7b는 일 실시예에 따른 결핵 진단 결과를 비교하는 다른 그래프를 나타내는 도면이며, 도 7c는 일 실시예에 따른 결핵 진단 결과를 비교하는 표를 나타내는 도면이고, 도 7d는 일 실시예에 따른 결핵 진단 결과를 비교하는 다른 표를 나타내는 도면이다.
특히, 도 7a 및 도 7b의 CNN 기반 모델보다 자체 주의가 장착된 비전 변환기(ViT) 모델의 경우 점진적인 성능 개선이 두드러졌다. 비전 변환기(ViT) 모델은 라벨링되지 않은 데이터가 증가함에 따라 제안된 프레임워크로 성능이 향상되었지만, 비전 변환기(ViT) 모델은 모델 중 가장 우수한 성능뿐만 아니라 선형적인 증가를 보여주었다. 또한, 비전 변환기(ViT) 모델은 이후 T의 일부 CNN 기반 모델에서 관찰된 과적합 징후를 보이지 않았다.
도 7c 및 도 7d를 참조하면, T가 증가함에 따라 라벨링되지 않은 많은 데이터에도 활용할 수 있는 기존의 자기 지도 및 준지도 학습 방법이 제안된 프레임워크와 점차 유사하게 AI 모델의 성능을 향상시킬 수 있는지 여부를 추가로 평가한다. 동일한 실험 설정을 사용하여, 기존 방법은 라벨링되지 않은 데이터의 수가 상대적으로 적은 T = 1에서 성능의 현저한 저하를 보여주었지만, T가 증가함에 따라 더 많은 데이터로 성능이 약간 향상되었다. 이러한 성능 향상에도 불구하고, 기존의 자기 지도 및 준지도 방법 중 초기 모델에 비해 두드러진 성능 향상을 보인 방법은 하나도 없는 반면, 제안된 프레임워크로 구축된 모델은 라벨링되지 않은 데이터가 증가할 때 안정적으로 성능을 향상시켰다.
마지막으로, 실제 임상 애플리케이션에서 라벨링되지 않은 사례를 수집할 때 완전히 다른 클래스의 데이터가 포함될 수 있으며, 잘못 라벨링된 데이터는 실무자의 실수로 추가될 수 있다. 따라서 이러한 상황에서 제안된 프레임워크의 견고성을 검증하기 위해 두 가지 실험을 수행했다.
도 8a 내지 도 8f는 일 실시예에 따른 데이터의 증가를 설명하기 위한 도면이다.
첫째, 도 8a를 참조하면, 병원(아산병원(AMC))에서는 클리닉에서 흔히 발생하는 다른 4가지 등급(결절, 삼출, 간질성 폐질환, 세균 감염)의 데이터를 수집했다. 이러한 다른 클래스 데이터는 시간이 지남에 따라 라벨링되지 않은 데이터의 수를 증가시킬 때 동일한 방법으로 추가되었다. 특히, 도 8b 및 도 8c에 도시된 바와 같이, 이러한 다른 클래스 데이터를 추가하지 않고 실험에서도 동일하게 성능이 안정적으로 향상되었으며, 정상 및 결핵 데이터만으로 훈련된 초기 모델에 AI 모델이 이러한 낯선 클래스에 의해 혼란스럽지 않도록 보장하는 제안된 프레임워크의 견고성을 시사했다. 둘째, 도 8d에 도시된 바와 같이, 지도 학습에 대한 5% 확률로 라벨을 무작위로 잘못 만들고 성능이 감소했는지 여부를 평가했다. 도 8e 및 8f를 참조하면, 손상된 라벨을 사용하여 지도 학습으로 훈련된 모델은 성능에서 상당한 저하를 보였지만, 제안된 프레임워크는 데이터 증가에 대한 라벨에 의존하지 않기 때문에 변경되지 않았다. 종합하면, 이러한 결과는 실제 임상 적용에 필요한 제안된 프레임워크의 인상적인 신뢰성을 시사한다.
비전 변환기(ViT)의 직접 주의가 기울기 가중 클래스 활성화 매핑(GradCAM) 18을 통해 CNN의 간접 주의보다 더 나은 위치 지정을 제공할 수 있다는 가설에 따라, 실시예들은 모델 주의로 현지화 성능을 정량화했다. 결핵 진단을 위한 외부 유효성 검사 데이터에서 총 30개의 CXR을 선택하고 임상의가 수동으로 주석을 달았다. 모델 주의로부터의 예측은 목표 병변을 가장 잘 국소화하기 위해 정규화 후 임계값을 적용하여 생성되었다(비전 변환기(ViT)의 경우 0.1, CNN 모델의 경우 0.6). 비전 변환기(ViT) 모델에는 시각화할 헤드가 여러 개 있으므로 가장 성능이 좋은 헤드가 평가 대상으로 선정되었다. 예측과 라벨 간의 일관성을 평가하기 위해 주사위 유사성 계수를 계산했다.
도 9는 일 실시예에 따른 비전 변환기(ViT) 및 CNN 기반 모델에 의한 주의가 있는 위치 파악의 예를 나타내는 도면이다.
도 9를 참조하면, 훈련 중 아무런 지도 없이 비전 변환기(ViT) 주의의 직접 시각화는 GradCAM을 사용한 CNN 기반 모델의 간접 주의 시각화보다 대상 병변의 더 나은 위치 지정을 제공했으며, 0.373(0.259의 STD)에 비해 0.622(0.168의표준 편차 [STD])의 평균 주사위 유사성 계수를 제공했다. CNN 기반 모델 특히 GradCAM을 사용한 간접 주의는 중요하지 않은 위치(도 9의 위쪽 도면)에 참석하거나 여러 병변을 위치 지정하지 못한다(도 9의 아래쪽 도면).
다른 작업에서 제안된 프레임워크의 적용 가능성을 확인할 수 있다.
도 10a 내지 도 10d은 일 실시예에 따른 CXR 진단 결과를 나타내는 도면이다.
실시예들은 제안된 프레임워크를 통한 점진적인 성능 개선이 결핵 진단 이외의 CXR 과제에서도 관찰될 수 있는지 여부를 추가로 분석한다. 첫째, 도 10a 및 도 10b를 참조하면, 결핵 진단 과제의 관찰과 유사하게 기흉 진단의 경우 제안된 프레임워크로 훈련된 모델은 T 시간이 증가할수록 점차 개선되었다. 특히, 라벨링되지 않은 데이터가 상대적으로 작을 때 제안된 프레임워크를 가진 모델의 성능은 지도 모델보다 낮았지만(T = 1) 라벨링되지 않은 데이터의 수가 증가함에 따라 궁극적으로 지도 모델을 능가했다(T = 3). 마찬가지로, 도 10c 및 도 10d를 참조하면, COVID-19 진단의 경우 제안된 프레임워크는 시간에 따른 안정적인 성능 향상을 제공했고, 동일한 양의 라벨링된 데이터로 훈련된 모델은 외부 검증 시 나중의 T에서 상당한 성능 저하를 보였으며, 훈련 데이터에 대한 과적합이 지도 모델의 일반화 성능을 저하시켰다는 것을 시사한다.
기존의 인공지능 의료영상 진단 모델들은 지도 학습 방식으로 개발되어 데이터가 축적되더라도 이를 활용하기 위한 라벨이 없다면 활용하기 어렵고, 라벨이 없을 때도 활용할 수 있는 기존의 자기 지도 및 자기 학습 방식들은 지도 학습 방식보다 성능이 떨어진다는 문제점이 있었다. 이에 본 실시예에서는 안정적인 성능 향상을 위하여 비전 변환기 모델 구조 및 교사-학생 지식 증류 기법을 통한 자기 지도 및 자기 학습 방식을 조합하여 활용한다.
실시예들은 라벨 데이터가 부족한 의료 영상 진단 분야에 전반적으로 활용할 수 있다. 의료 영상은 매년 축적되는 데이터의 양이 방대하나, 이를 전문가가 라벨링 하는 작업이 노동집약적이기 때문에 축적되는 데이터를 활용하기 어렵다는 문제점이 있다. 실시예들에 따르면 이와 같은 문제점을 효과적으로 해결하여, 데이터가 축적되어 감에 따라 성능을 안정적으로 증가시키는 자기 진화형 인공지능 프레임워크를 구축할 수 있다. 또한, 진단 영역뿐만 아니라 정량화 및 분할 등의 작업에도 라벨링이 필요하기 때문에, 본 발명과 같은 방식의 지식 증류 프레임워크를 응용하여 자기 진화형 모델을 개발할 수 있다.
다양한 인공지능 기반의 X-ray 영상 진단 소프트웨어들이 시장에 출시되었으나, 본 실시예와 같이 지속적으로 쌓이는 데이터를 활용하여 성능을 향상시킬 수 있는 모델은 아직까지 출시된 바가 없다. 현재 인공지능 모델들의 한계점은 한번 개발되고 나면 성능이 고정되기 때문에 데이터가 많아지더라도 성능을 향상시킬 방법이 없는 것인데, 본 실시예들에 따른 방식은 이와 같은 문제점을 효과적으로 해결해준다.
실시예들에 따르면 인공지능 모델은 한번 개발되고 나면 성능이 고정되기 때문에 초기에 개발된 모델은 성능이 떨어진다는 인식을 타파할 수 있으며, 지속적으로 쌓이는 데이터를 활용하여 성능이 향상되는 인공지능 모델 프레임워크를 구축할 수 있다. 이를 개발도상국 환경에 적용할 경우 특히 유용하게 활용될 것으로 기대되며, 임상 전문가들의 작업 부담을 줄여줄 것으로 기대된다. 본 모델은 형상 자체에 대한 자기 지도 학습 및 노이즈 이미지를 활용한 자기 훈련 방식으로 학생 모델을 학습시키기 때문에 기존 지도 학습 모델들에 비하여 우수한 성능을 보이는데, 이 또한 다양한 임상 환경에서 본 실시예에 따라 개발된 모델을 활용하는데 큰 이점을 줄 것으로 기대된다.
실시예들에 따르면 개발된 X-ray 진단 모델은 초기 라벨 데이터만 있으면 이후로는 축적되는 데이터를 통하여 스스로 성능을 향상시킬 수 있기 때문에, X-ray 진단 장비 및 소프트웨어에 추가 모듈로 손쉽게 설치할 수 있다. 설치 후 스스로 성능을 증가시킬 수 있기 때문에 진단장비 및 소프트웨어에 추가적으로 적용할 경우 해당 장비에서 쌓이는 데이터로 성능 향상을 도모할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (10)

  1. 컴퓨터 장치에 의해 수행되는 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법에 있어서,
    기설정된 규모 이하의 라벨링된 데이터를 이용하여 초기 모델을 학습시키는 단계; 및
    상기 초기 모델을 교사 모델로 사용하여 라벨이 없는 데이터로 학생 모델을 학습시키는 단계
    를 포함하고,
    상기 학생 모델은 자기 지도 학습 방식 및 자기 훈련 방식을 통해 라벨이 없는 데이터로 학습하는, 엑스레이 영상 진단 방법.
  2. 제1항에 있어서,
    상기 라벨링된 데이터를 이용하여 초기 모델을 학습시키는 단계는,
    라벨링된 데이터로 지도 학습을 사용하여 상기 교사 모델을 학습시키는 것
    을 특징으로 하는, 엑스레이 영상 진단 방법.
  3. 제1항에 있어서,
    상기 라벨이 없는 데이터로 학생 모델을 학습시키는 단계는,
    큰 영역-작은 영역의 뷰 대응(view-correspondence) 방식의 상기 자기 지도 학습 방식 및 노이즈가 있는 학생 모델을 활용한 자기 훈련 방식에 기반하여 지식 증류를 하여 병변과 주의(attention)의 상관관계를 높이는 것
    을 특징으로 하는, 엑스레이 영상 진단 방법.
  4. 제1항에 있어서,
    상기 라벨이 없는 데이터로 학생 모델을 학습시키는 단계는,
    라벨이 없는 데이터가 축적되면 상기 교사 모델을 통하여 데이터에 대하여 작업과 무관한 이미지 특징에 대한 예측값 및 작업 특이적인 슈도라벨(pseudolabel)을 도출하고, 도출된 상기 예측값 및 상기 슈도라벨을 상기 학생 모델이 상기 초기 모델의 학습 시 사용되는 큰 영역의 이미지보다 작은 영역의 이미지 또는 노이즈가 들어간 이미지를 통하여 예측하도록 하는 지식 증류 방식으로 모델을 학습시키는 것
    을 특징으로 하는, 엑스레이 영상 진단 방법.
  5. 제1항에 있어서,
    상기 초기 모델이 학습에 이용한 상기 라벨링된 데이터를 통해 교정을 수행하는 단계
    를 더 포함하는, 엑스레이 영상 진단 방법.
  6. 컴퓨터 장치에 의해 수행되는 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법에 있어서,
    라벨링된 데이터를 이용하여 초기 모델을 학습시키는 단계;
    상기 초기 모델을 교사 모델로 사용하여 라벨이 없는 데이터로 학생 모델을 학습시키는 단계; 및
    상기 초기 모델이 학습에 이용한 상기 라벨링된 데이터를 통해 교정을 수행하는 단계
    를 포함하는, 엑스레이 영상 진단 방법.
  7. 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 장치에 있어서,
    기설정된 규모 이하의 라벨링된 데이터를 이용하여 초기 모델을 학습시키는 교사 모델 학습부; 및
    상기 초기 모델을 교사 모델로 사용하여 라벨이 없는 데이터로 학생 모델을 학습시키는 학생 모델 학습부
    를 포함하고,
    상기 학생 모델은 자기 지도 학습 방식 및 자기 훈련 방식을 통해 라벨이 없는 데이터로 학습하는, 엑스레이 영상 진단 장치.
  8. 제7항에 있어서,
    상기 교사 모델 학습부는,
    라벨링된 데이터로 지도 학습을 사용하여 상기 교사 모델을 학습시키는 것
    을 특징으로 하는, 엑스레이 영상 진단 장치.
  9. 제7항에 있어서,
    상기 학생 모델 학습부는,
    큰 영역-작은 영역의 뷰 대응(view-correspondence) 방식의 상기 자기 지도 학습 방식 및 노이즈가 있는 학생 모델을 활용한 자기 훈련 방식에 기반하여 지식 증류를 하여 병변과 주의(attention)의 상관관계를 높이는 것
    을 특징으로 하는, 엑스레이 영상 진단 장치.
  10. 제7항에 있어서,
    상기 학생 모델 학습부는,
    라벨이 없는 데이터가 축적되면 상기 교사 모델을 통하여 데이터에 대하여 작업과 무관한 이미지 특징에 대한 예측값 및 작업 특이적인 슈도라벨(pseudolabel)을 도출하고, 도출된 상기 예측값 및 상기 슈도라벨을 상기 학생 모델이 상기 초기 모델의 학습 시 사용되는 큰 영역의 이미지보다 작은 영역의 이미지 또는 노이즈가 들어간 이미지를 통하여 예측하도록 하는 지식 증류 방식으로 모델을 학습시키는 것
    을 특징으로 하는, 엑스레이 영상 진단 장치.
KR1020220091480A 2022-07-25 2022-07-25 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법 및 장치 KR20240014142A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220091480A KR20240014142A (ko) 2022-07-25 2022-07-25 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220091480A KR20240014142A (ko) 2022-07-25 2022-07-25 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20240014142A true KR20240014142A (ko) 2024-02-01

Family

ID=89859231

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220091480A KR20240014142A (ko) 2022-07-25 2022-07-25 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20240014142A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118173215A (zh) * 2024-05-14 2024-06-11 北京壹永科技有限公司 小模型训练方法、治理肿瘤临床记录数据的方法及其装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Pasa, F., Golkov, V., Pfeiffer, F., Cremers, D. & Pfeiffer, D. Efficient deep network architectures for fast chest x-ray tuberculosis screening and visualization. Scientific reports 9, 1-9(2019).

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118173215A (zh) * 2024-05-14 2024-06-11 北京壹永科技有限公司 小模型训练方法、治理肿瘤临床记录数据的方法及其装置

Similar Documents

Publication Publication Date Title
US10825172B2 (en) Medical image segmentation
Wehbe et al. DeepCOVID-XR: an artificial intelligence algorithm to detect COVID-19 on chest radiographs trained and tested on a large US clinical data set
Tang et al. Attention-guided curriculum learning for weakly supervised classification and localization of thoracic diseases on chest radiographs
US10902588B2 (en) Anatomical segmentation identifying modes and viewpoints with deep learning across modalities
Zhang et al. COVID-19 diagnosis via DenseNet and optimization of transfer learning setting
CN107610770B (zh) 用于自动化诊断的问题生成系统和方法
US20180196873A1 (en) Visualization framework based on document representation learning
JP5982368B2 (ja) レポート作成
US20200184262A1 (en) Dynamic self-learning medical image method and system
JP6657210B2 (ja) テキスト認識に基づくテキストイメージリンキングを伴うピクチャアーカイビングシステム
US11308612B2 (en) Systems and methods for detection of infectious respiratory diseases
US20230267721A1 (en) Method and system for training a machine learning model for medical image classification
Chen et al. Unsupervised domain adaptation based COVID-19 CT infection segmentation network
An et al. Semi-supervised hierarchical multimodal feature and sample selection for Alzheimer’s disease diagnosis
Golany et al. Artificial intelligence for phase recognition in complex laparoscopic cholecystectomy
KR20240014142A (ko) 지식 증류 기법을 활용한 자기 진화형 비전 변환기 기반 엑스레이 영상 진단 방법 및 장치
Tushar et al. Classification of multiple diseases on body CT scans using weakly supervised deep learning
Loncaric et al. Integration of artificial intelligence into clinical patient management: focus on cardiac imaging
US20220083878A1 (en) Label inference system
Teevno et al. A semi-supervised Teacher-Student framework for surgical tool detection and localization
CN111797626B (zh) 一种命名实体识别方法及装置
Mason et al. Lung ultrasound segmentation and adaptation between COVID-19 and community-acquired pneumonia
US11651584B2 (en) System and method for memory augmented domain adaptation
Zhang et al. Learning of atlas forest hierarchy for automatic labeling of MR brain images
Malik et al. Stacked deep model‐based classification of the multiclass brain hemorrhages in CT scans