KR20220135349A - 영상 표준화를 위한 비지도 학습 기반 단일 뉴럴 네트워크를 이용한 단층촬영영상 처리 방법 및 그 장치 - Google Patents

영상 표준화를 위한 비지도 학습 기반 단일 뉴럴 네트워크를 이용한 단층촬영영상 처리 방법 및 그 장치 Download PDF

Info

Publication number
KR20220135349A
KR20220135349A KR1020210040878A KR20210040878A KR20220135349A KR 20220135349 A KR20220135349 A KR 20220135349A KR 1020210040878 A KR1020210040878 A KR 1020210040878A KR 20210040878 A KR20210040878 A KR 20210040878A KR 20220135349 A KR20220135349 A KR 20220135349A
Authority
KR
South Korea
Prior art keywords
domain
tomography image
neural network
image processing
image
Prior art date
Application number
KR1020210040878A
Other languages
English (en)
Other versions
KR102514708B1 (ko
Inventor
예종철
김현종
서준범
이상민
황혜전
Original Assignee
한국과학기술원
재단법인 아산사회복지재단
울산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원, 재단법인 아산사회복지재단, 울산대학교 산학협력단 filed Critical 한국과학기술원
Priority to KR1020210040878A priority Critical patent/KR102514708B1/ko
Publication of KR20220135349A publication Critical patent/KR20220135349A/ko
Application granted granted Critical
Publication of KR102514708B1 publication Critical patent/KR102514708B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/003Reconstruction from projections, e.g. tomography
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
    • A61B6/02Arrangements for diagnosis sequentially in different planes; Stereoscopic radiation diagnosis
    • A61B6/03Computed tomography [CT]
    • A61B6/032Transmission computed tomography [CT]
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
    • A61B6/52Devices using data or image processing specially adapted for radiation diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Optics & Photonics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Veterinary Medicine (AREA)
  • High Energy & Nuclear Physics (AREA)
  • Artificial Intelligence (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Computing Systems (AREA)
  • Pathology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pulmonology (AREA)
  • Image Analysis (AREA)

Abstract

영상 표준화를 위한 비지도 학습 기반 단일 뉴럴 네트워크를 이용한 단층촬영영상 처리 방법 및 그 장치가 개시된다. 본 발명의 일 실시예에 따른 단층촬영영상 처리 방법은 제1 도메인의 단층촬영영상을 수신하는 단계; 및 도메인들 간의 매핑을 학습한 비지도 학습(unsupervised learning) 기반의 단일 뉴럴 네트워크를 이용하여 상기 제1 도메인의 단층촬영영상을 촬영한 벤더(vendor) 및 스캔 파라미터들과 독립적으로, 상기 제1 도메인의 단층촬영영상을 미리 설정된 제2 도메인의 단층촬영영상으로 정규화하는 단계를 포함한다.

Description

영상 표준화를 위한 비지도 학습 기반 단일 뉴럴 네트워크를 이용한 단층촬영영상 처리 방법 및 그 장치 {TOMOGRAPHY IMAGE PROCESSING METHOD USING SINGLE NEURAL NETWORK BASED ON UNSUPERVISED LEARNING FOR IMAGE STANDARDIZATION AND APPARATUS THEREFOR}
본 발명은 영상 표준화를 위한 비지도 학습 기반 단일 뉴럴 네트워크를 이용한 단층촬영영상 처리 기술에 관한 것으로, 보다 구체적으로는 비지도 학습 기반의 단일 뉴럴 네트워크를 이용하여 다양한 벤더(vendor) 및 스캔 파라미터들과 무관 또는 독립적으로, 입력 도메인의 단층촬영영상을 타겟 도메인의 단층촬영영상으로 정규화할 수 있는 단일 뉴럴 네트워크를 이용한 단층촬영영상 처리 방법 및 그 장치에 관한 것이다.
컴퓨터 단층 촬영(CT; computed tomography) 영상이 CT 제조업자와 스캔 파라미터에 따라 달라진다는 것은 잘 알려져 있다. CT 영상의 이러한 특성은 종종 여러 벤더(vendor), 스캔 파라미터, 방사선량 등으로부터 CT 영상을 수집하는 대규모 다중 사이트 연구 또는 종단 연구에서 정량적 분석을 수행하기 어렵게 한다.
예를 들어, 콜라겐 혈관 질환 환자에게서 흔히 나타나는 간질성 폐질환(ILD; Interstitial Lung Disease)은 히스토그램 또는 텍스처 분석을 사용하여 CT에서 자동으로 정량화할 수 있지만 히스토그램과 텍스처는 서로 다른 스캔 설정에서 비롯된 영상 변동에 따라 크게 달라진다. 따라서, 특정 스캔 파라미터 및 벤더를 위해 설계된 알고리즘은 다른 획득 조건의 CT 영상에 대해 작동하지 않을 수 있다. 유사한 어려움은 방사선학 및 폐기종 정량화와 같은 다른 정량화에서도 발생한다.
이 문제를 해결하기 위한 일 실시예의 접근 방식은 영상 변동에 관계없이 동일한 정량화 결과를 생성할 수 있는 정량화 알고리즘을 개발하는 것이다. 그러나 특정 알고리즘 개발자에 의한 CT 데이터의 제한된 액세스를 고려할 때 이는 알고리즘 개발을 상당히 복잡하거나 심지어 불가능하게 만든다.
최근 의료 영상 정규화 작업을 위해 딥 뉴럴 네트워크가 채택되고 있다. 예를 들어, 일 실시예의 기술은 CT 커널 변환을 위한 딥 뉴럴 네트워크를 채택하였다. 여기서, 다른 CT 커널을 가진 매칭된 영상은 커널 변환 네트워크의 지도 트레이닝에 사용되는 동일한 사이노그램(sinogram) 데이터에서 획득될 수 있다. 하지만, 많은 CT 영상 변환에서 이러한 지도 학습은 매칭되는 참조 데이터의 부족으로 인해 실행 가능한 옵션이 아닐 수 있다. 예를 들어, 다상 심장 CT에서 저선량(low-dose)에서 일반 선량(routine-dose)으로 변환하는 경우 심장 움직임으로 인해 매칭되는 참조 데이터를 얻을 수 없다.
이 문제를 해결하기 위한, 일 실시예의 기술은 cycleGAN을 활용한 비지도 영상 변환 아키텍처로, cycleGAN을 활용한 비지도 영상 변환 아키텍처가 지도 학습에 버금가는 인상적인 성능을 제공한다. 그러나, cycleGAN의 주요 한계 중 하나는 확장성이다. cycleGAN은 두 도메인 사이의 영상 변환만 허용하기 때문에, 서로 다른 스캔 파라미터와 벤더로 인해 N-도메인이 있는 경우 N(N - 1) 뉴럴 네트워크가 필요하다. 즉, 트레이닝된 생성기를 보관하는 데만 많은 공간이 필요하다는 뜻이다. 이러한 cycleGAN의 한계를 극복하기 위해 StarGAN(Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo, "StarGAN: Unified generative adversarial networks for multi-domain image-to-image translation," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018.) 아키텍처가 제안되었다. 특히 StarGAN은 단일 생성기와 단일 판별기로 구성되며, 원핫 인코딩 입력 벡터는 영상 변환을 위한 타겟 도메인을 나타내는 조절 기능을 제공한다. 또한 도메인 분류기가 판별기에 추가되어 생성된 영상의 도메인을 분류한다.
StarGAN은 많은 컴퓨터 비전 애플리케이션에 인상적인 결과를 제공하지만, 도메인 간의 변환만 허용하고 도메인 불가지론적(agnostic) 공통 표현을 추출하기 어렵다. 의료 영상 정규화에서는 도메인 간 전송도 중요하지만 공통 특성을 추출하여 도메인 불가지론적 표현을 찾는 관심도 커지고 있다.
본 발명의 실시예들은, 비지도 학습 기반의 단일 뉴럴 네트워크를 이용하여 다양한 벤더(vendor) 및 스캔 파라미터들과 무관 또는 독립적으로, 입력 도메인의 단층촬영영상을 타겟 도메인의 단층촬영영상으로 정규화할 수 있는 단일 뉴럴 네트워크를 이용한 단층촬영영상 처리 방법 및 그 장치를 제공한다.
본 발명의 일 실시예에 따른 단층촬영영상 처리 방법은 제1 도메인의 단층촬영영상을 수신하는 단계; 및 도메인들 간의 매핑을 학습한 비지도 학습(unsupervised learning) 기반의 단일 뉴럴 네트워크를 이용하여 상기 제1 도메인의 단층촬영영상을 촬영한 벤더(vendor) 및 스캔 파라미터들과 독립적으로, 상기 제1 도메인의 단층촬영영상을 미리 설정된 제2 도메인의 단층촬영영상으로 정규화하는 단계를 포함한다.
상기 단일 뉴럴 네트워크는 상기 제1 도메인에 대응하는 입력 도메인 벡터와 상기 제2 도메인에 대응하는 타겟 도메인 벡터의 두 조건 벡터를 사용하여 상기 제1 도메인의 단층촬영영상에서 공통 도메인 잠재 공간 정보를 추출하고, 상기 추출된 공통 도메인 잠재 공간 정보를 이용하여 상기 제1 도메인의 단층촬영영상을 상기 제2 도메인의 단층촬영영상으로 변환할 수 있다.
상기 단일 뉴럴 네트워크는 인코더와 디코더를 포함하고, 상기 인코더는 다중 도메인 데이터에서 공통 도메인 잠재 공간 정보를 추출하도록 트레이닝되며, 상기 디코더는 공통 도메인 잠재 공간 정보에 해당하는 공통 도메인 잠재 공간 특성 벡터를 특정 타겟 도메인 영상으로 변환하도록 트레이닝될 수 있다.
상기 단일 뉴럴 네트워크는 디코더에 라우팅 가능한 라우팅 블록을 포함할 수 있다.
상기 단일 뉴럴 네트워크는 비매칭 데이터를 포함하는 트레이닝 데이터셋을 이용하여 학습될 수 있다.
상기 단일 뉴럴 네트워크는 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크 및 풀링 레이어와 언풀링 레이어를 포함하는 뉴럴 네트워크 중 어느 하나의 뉴럴 네트워크를 포함할 수 있다.
본 발명의 일 실시예에 따른 단층촬영영상 처리 장치는 제1 도메인의 단층촬영영상을 수신하는 수신부; 및 도메인들 간의 매핑을 학습한 비지도 학습(unsupervised learning) 기반의 단일 뉴럴 네트워크를 이용하여 상기 제1 도메인의 단층촬영영상을 촬영한 벤더(vendor) 및 스캔 파라미터들과 독립적으로, 상기 제1 도메인의 단층촬영영상을 미리 설정된 제2 도메인의 단층촬영영상으로 정규화하는 복원부를 포함한다.
상기 단일 뉴럴 네트워크는 상기 제1 도메인에 대응하는 입력 도메인 벡터와 상기 제2 도메인에 대응하는 타겟 도메인 벡터의 두 조건 벡터를 사용하여 상기 제1 도메인의 단층촬영영상에서 공통 도메인 잠재 공간 정보를 추출하고, 상기 추출된 공통 도메인 잠재 공간 정보를 이용하여 상기 제1 도메인의 단층촬영영상을 상기 제2 도메인의 단층촬영영상으로 변환할 수 있다.
상기 단일 뉴럴 네트워크는 인코더와 디코더를 포함하고, 상기 인코더는 다중 도메인 데이터에서 공통 도메인 잠재 공간 정보를 추출하도록 트레이닝되며, 상기 디코더는 공통 도메인 잠재 공간 정보에 해당하는 공통 도메인 잠재 공간 특성 벡터를 특정 타겟 도메인 영상으로 변환하도록 트레이닝될 수 있다.
상기 단일 뉴럴 네트워크는 디코더에 라우팅 가능한 라우팅 블록을 포함할 수 있다.
상기 단일 뉴럴 네트워크는 비매칭 데이터를 포함하는 트레이닝 데이터셋을 이용하여 학습될 수 있다.
상기 단일 뉴럴 네트워크는 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크 및 풀링 레이어와 언풀링 레이어를 포함하는 뉴럴 네트워크 중 어느 하나의 뉴럴 네트워크를 포함할 수 있다.
본 발명의 실시예들에 따르면, 비지도 학습 기반의 단일 뉴럴 네트워크를 이용하여 다양한 벤더(vendor) 및 스캔 파라미터들과 무관 또는 독립적으로, 입력 도메인의 단층촬영영상을 타겟 도메인의 단층촬영영상으로 정규화할 수 있다.
기존에 존재하는 특정 CT 기기의 영상을 타겟으로 하는 알고리즘을 다양한 CT 기기로 확장할 때 사용될 수 있으며, 반대로 특정 CT 기기 하나로부터 얻은 영상만으로도 CT 기기에 제약없이 여러 알고리즘을 이용한 정량적 평가를 할 수 있다. 예를 들어, 간질성 폐질환(ILD; interstitial lung disease)은 CT 영상의 히스토그램이나 텍스처로부터 정량적으로 확인될 수 있는데 이러한 히스토그램과 텍스처는 CT 기기에 따라 다르게 측정된다. 즉, CT 영상을 통해 간질성 폐질환을 확인하는 알고리즘은 CT 기기에 따라 제한적으로 사용될 수 있다. 본 발명은 이러한 부분에 적용되어 CT 기기, 설정에 따른 제약을 해소하는데 사용될 수 있다.
본 발명은 의료 영상 뿐만 아니라 일반 영상을 서로 다른 설정, 서로 다른 환경 그리고 서로 다른 도메인으로 바꾸는 데에 사용될 수 있는 일반적인 알고리즘이며, 도메인은 수많은 영상의 모임으로 정의될 수 있는 영상의 특징을 말한다.
본 발명의 실시예들에 따르면, 기존에 CT 기기가 달라 사용할 수 없었던 데이터를 사용할 수 있게 되기 때문에 여러 CT 기기로부터 얻은 영상을 사용한 연구에서 사용될 수 있으며, 기존 알고리즘의 확장 또는 새로운 딥 러닝 알고리즘의 학습을 위한 데이터를 더욱 수월하게 모으기 위해 사용될 수 있다.
도 1은 본 발명의 일 실시예에 따른 단층촬영영상 처리 방법에 대한 동작 흐름도를 나타낸 것이다.
도 2는 본 발명의 RouteGAN과 StarGAN을 비교 설명하기 위한 일 예시도를 나타낸 것이다.
도 3은 RouteGAN이라고 불리는 라우팅 블록을 사용하는 다중 도메인 라우팅 가능 영상 변환 네트워크에 대한 일 예시도를 나타낸 것이다.
도 4는 라우팅 블록에 대한 일 예시도를 나타낸 것이다.
도 5는 StarGAN과 본 발명의 RouteGAN의 학습 방식을 비교하기 위한 일 예시도를 나타낸 것이다.
도 6은 판별기의 네트워크 구조에 대한 일 예시도를 나타낸 것이다.
도 7은 도 7은 본 발명의 네트워크와 StarGAN의 결과와 그에 따른 입력 차이에 대한 일 예시도를 나타낸 것이다.
도 8은 입력 영상을 포함하여 7개 도메인 간의 변환에서 가능한 모든 49개의 결과에 대한 일 예시도를 나타낸 것이다.
도 9는 본 발명의 일 실시예에 따른 단층촬영영상 처리 장치에 대한 구성을 나타낸 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
본 발명의 실시예들은, 동일한 정량화 알고리즘을 보편적으로 사용할 수 있도록 서로 다른 벤더들과 스캔 파라미터의 CT 영상을 비지도 학습 기반의 단일 뉴럴 네트워크를 이용하여 "정규화된" 영상으로 변환하는 것을 그 요지로 한다.
본 발명에서 사용되는 도메인은 수많은 영상의 모임으로 정의될 수 있는 영상의 특징을 말할 수 있다.
본 발명에서의 단일 뉴럴 네트워크는 인코더와 디코더를 포함하고, 인코더는 다중 도메인 데이터에서 공통 도메인 잠재 공간 정보를 추출하도록 트레이닝되며, 디코더는 공통 도메인 잠재 공간 정보에 해당하는 공통 도메인 잠재 공간 특성 벡터를 특정 타겟 도메인 영상으로 변환하도록 트레이닝될 수 있다.
여기서, 본 발명에서 사용하는 단일 뉴럴 네트워크는 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크, 풀링(pooling) 레이어와 언풀링(unpooling) 레이어를 포함하는 뉴럴 네트워크 예를 들어, U-Net을 포함할 수 있으며, 이 뿐만 아니라 본 발명에 적용 가능한 다양한 종류의 뉴럴 네트워크를 포함할 수 있다.
컨볼루션 프레임렛은 국소 기저 및 비국소 기저를 통해 입력 신호를 표현하는 방식을 의미하는 것으로, 딥 컨볼루션 뉴럴 네트워크의 블랙박스 특성을 밝히기 위해 딥 컨볼루션 프레임렛의 새로운 수학 이론에 대한 연구(Ye, JC., Han, Y., Cha, E.: Deep convolutional framelets: a general deep learning framework for inverse problems. SIAM Journal on Imaging Sciences 11(2), 991-1048(2018))에 상세하게 설명되어 있다.
도 1은 본 발명의 일 실시예에 따른 단층촬영영상 처리 방법에 대한 동작 흐름도를 나타낸 것이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 단층촬영영상 처리 방법은 제1 도메인의 단층촬영영상을 수신한다(S110).
여기서, 단계 S110에서 수신되는 제1 도메인의 단층촬영영상은 다양한 벤더와 다양한 스캔 파라미터들에 의해 촬영된 단층촬영영상으로, 본 발명은 이러한 다양한 벤더와 다양한 스캔 파라미터들과 독립적으로, 단층촬영영상을 특정 도메인 즉, 타겟 도메인의 단층촬영영상으로 변환 또는 복원하기 위한 것이다.
단계 S110에 의해 제1 도메인의 단층촬영영상이 수신되면, 도메인들 간의 매핑을 학습한 비지도 학습(unsupervised learning) 기반의 단일 뉴럴 네트워크를 이용하여 제1 도메인의 단층촬영영상을 촬영한 벤더(vendor) 및 스캔 파라미터들과 독립적으로, 제1 도메인의 단층촬영영상을 미리 설정된 제2 도메인의 단층촬영영상으로 정규화한다(S120).
여기서, 단일 뉴럴 네트워크는 제1 도메인에 대응하는 입력 도메인 벡터와 제2 도메인에 대응하는 타겟 도메인 벡터의 두 조건 벡터를 사용하여 제1 도메인의 단층촬영영상에서 공통 도메인 잠재 공간 정보를 추출하고, 추출된 공통 도메인 잠재 공간 정보를 이용하여 제1 도메인의 단층촬영영상을 제2 도메인의 단층촬영영상으로 변환할 수 있다.
나아가, 단일 뉴럴 네트워크는 인코더와 디코더를 포함하고, 인코더는 다중 도메인 데이터에서 공통 도메인 잠재 공간 정보를 추출하도록 트레이닝되며, 디코더는 공통 도메인 잠재 공간 정보에 해당하는 공통 도메인 잠재 공간 특성 벡터를 특정 타겟 도메인 영상으로 변환하도록 트레이닝될 수 있다.
이러한 단일 뉴럴 네트워크는 디코더에 라우팅 가능한 라우팅 블록을 포함할 수 있고, 비매칭 데이터를 포함하는 트레이닝 데이터셋을 이용하여 학습될 수 있다.
또한, 단일 뉴럴 네트워크는 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크 및 풀링 레이어와 언풀링 레이어를 포함하는 뉴럴 네트워크 중 어느 하나의 뉴럴 네트워크를 포함할 수 있다.
이러한 본 발명의 방법에 대하여 도 2 내지 도 8을 참조하여 설명하면 다음과 같다.
영상 간 변환은 컴퓨터 비전에서 중요한 작업이다. 예를 들어, 1) 여름 풍경을 겨울 풍경으로 변환하는 것, 2) 그림을 사진으로 변환하는 것 등이 있다. Pix2Pix(P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros, "Image-to-image translation with conditional adversarial networks," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 1125-1134.)는 원래 이러한 작업을 위해 설계되었지만 짝으로 된 예가 필요하다. 실제로, X의 영상 모음(예를 들어, 사진)과 Y의 영상 모음(예를 들어, 모네의 그림)을 사용할 수 있다면 짝이 없는 상황이 더 현실적이다. 그런 다음 영상 변환의 목표는 X와 Y의 분포를 변환하는 것이며 그 반대도 마찬가지이다. 사실, 다른 일 실시예 기술(J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros, "Unpaired image-to-image translation using cycle-consistent adversarial networks," in Computer Vision (ICCV), 2017 IEEE International Conference on, 2017.)에 의한 cycleGAN은 이러한 짝이 없는 영상 변환이 실제로 가능하다는 것을 보여주었다.
그러나, cycleGAN은 두 도메인의 공동 분포에 아무런 제약도 없으므로 가능한 공동 분포의 수가 무한대로 증가한다. 따라서, UNIT(비지도 영상 간 변환 네트워크)은 이 문제를 해결하기 위해 공유 잠재 공간을 가정한다. 특히, UNIT에서 서로 다른 도메인의 영상이 동일한 공유 잠재 공간 Z에 매핑되어 다른 도메인 영상이 공통 잠재 공간을 통해 변환될 수 있다. 이를 위해, 그들은 가변 자동 인코더(VAE)를 적대적 생성 뉴럴 네트워크(GAN)와 결합하였다. MUNIT(다중 모드 비지도 영상 간 변환)은 다양성을 확보하기 위해 가정을 부분적으로 공유된 잠재 공간 가정으로 완화한다. 구체적으로, MUNIT는 콘텐츠 공간과 스타일 공간이라는 두 종류의 중간 공간을 가정하여 콘텐츠 공간만 공유되고 스타일 공간은 각 도메인으로 분리된다. 또한 영상 변환은 타겟 도메인에서 스타일 벡터와 스타일 벡터를 교환함으로써 이루어진다. DRIT(영상 간 변환에서의 구분 표현)는 공통 도메인 공유 잠재 콘텐츠 공간과 도메인별 비공유 잠재 스타일 공간도 가지고 있다. 그러나 도메인 간에 콘텐츠 공간이 공유되도록 콘텐츠 판별기를 추가하였다.
상술한 영상 간 변환 기술의 제한 요소 중 하나는 확장성이다. 특히, 변환해야 할 N개의 도메인이 있는 경우 CycleGAN은 N(N - 1) 생성기를 필요로 한다. UNIT, MUNIT, DRIT는 중간 도메인을 가지고 있기 때문에, 여전히 많은 N 생성기와 인코더가 필요하다. 이 문제를 해결하기 위해 StarGAN은 단일 생성기와 단일 판별기만을 사용하였는데, 그들은 타겟 도메인을 생성기로 신호를 보내는 원핫 벡터 인코딩을 통해 이 조건을 적용하였다. 또한, 그들은 입력 영상의 도메인을 분류하기 위해 판별기에 보조 분류기를 추가하였다.
GANimation 및 RelGAN과 같은 StarGAN의 많은 변형이 있다. GANimation은 입력 얼굴 영상을 해부학적으로 일관성 있게 변경하는 조건으로 행동 단위(AU)를 사용하고, RelGAN은 조건 벡터의 의미를 타겟 도메인에서 상대 속성으로 변경하였다. 따라서, 특정 속성만 변경할 수 있고 변경하고자 하지 않는 내용은 유지할 수 있다. 이러한 모든 방법은 StarGAN과 동일한 전략을 사용하여 네트워크에 조건을 제공한다.
영상 집합으로 도메인을 정의하는 위의 방법과는 대조적으로, 스타일 전송(style transfer)은 두 개의 영상, 예를 들어, 콘텐츠 영상 및 스타일 영상을 스타일 영상의 스타일과 콘텐츠 영상의 콘텐츠를 포함하는 하나의 영상으로 결합하는 것이다. 이러한 방법은 대개 최적화 접근법 또는 WCT(whitening and coloring transformation) 또는 적응형 인스턴스 정규화(AdaIN)에 기초한다.
스타일 전송은 컴퓨터 비전 응용 프로그램에서 인상적인 결과를 제공하지만, CT 표준화에서는 스타일 전송이 그다지 적용되지 않을 수 있다. 스타일 전송은 하나의 영상만으로 도메인을 정의하기 때문에 아무런 아티팩트 없이 CT 제조업자, CT 파라미터 등 도메인을 완벽하게 설명하는 단일 영상이 필요하다. 하지만, 이러한 대표적인 스타일 영상을 얻는 것은 매우 어렵다.
상술한 바와 같이, cycleGAN, MUNIT 등 영상 간 변환 방식으로 CT 표준화를 해결하는 것이 그리 효율적이지 않다는 것을 알 수 있는데, 이는 여러 개의 생성기가 필요하기 때문이다. 또한 완벽한 스타일 영상이 없기 때문에 스타일 전송이 이 문제에 적용되지 않는다. 따라서, StarGAN은 CT 표준화에 가장 적용 가능한 아키텍처인 것으로 보인다.
그러나, StarGAN을 개선할 수 있는 여지가 남아 있다. 도 2a에 도시된 바와 같이 StarGAN은 단일 생성기를 사용하며 타겟 도메인 조건 정보는 원핫 인코딩 벡터를 사용하여 생성기의 입력으로 제공된다. 이 네트워크 아키텍처는 도메인들 사이에서 공통적인 정보를 쉽게 활용할 수 있지만, 도메인 특정 정보(domain specific information)는 입력 원핫 벡터에 의해서만 분리되므로 모든 네트워크 계층은 도메인 특정 정보 뿐만 아니라 공통 정보를 포착하기 위한 이중 역할을 갖는다. 따라서 네트워크 용량이 충분하지 않으면 두 개의 충돌하는 정보 사이의 분리가 쉽지 않을 수 있다.
또한, StarGAN이 조건을 활용하는 방법은 기본적으로 입력 계층에서만 다른 편향을 갖는 것과 동일하다. 그래서 조절력이 충분하지 않은 것으로 보인다.
한편, 도 2b에 도시된 바와 같이, 본 발명의 RouteGAN 아키텍처는 공통 및 도메인별 정보의 분리를 위해 특별히 설계된다. 보다 구체적으로, 네트워크의 인코더 부분은 공통 도메인 잠재 공간 정보를 추출하고, 그 후 네트워크의 디코더 부분에서 도메인별 경로를 선택하여 도메인별 정보를 추출한다. 이러한 본 발명에 대하여 상세히 설명하면 다음과 같다.
라우팅 가능한 영상 변환 네트워크
1) 네트워크 아키텍처: 도 3은 RouteGAN이라고 불리는 라우팅 블록을 사용하는 다중 도메인 라우팅 가능 영상 변환 네트워크에 대한 일 예시도를 나타낸 것이다. 본 발명에서의 네트워크 아키텍처는 U-Net을 기반으로 하며, 디코더 부분의 컨볼루션 블록은 라우팅 블록으로 대체되고 조건부 인스턴스 정규화가 인코더 부분에서 사용된다. 본 발명에서의 중요한 개선 중 하나는 라우팅 가능한 블록의 새로운 개념이다.
2) 라우팅 가능한 블록: 라우팅 가능한 블록은 여러 후보 특성 텐서를 생성하며, 이후 조건 벡터에 따라 후보 특성의 부분 집합만 선택되는데, 아래 <수학식 1>과 같이 나타낼 수 있다.
[수학식 1]
Figure pat00001
여기서, M은 특성 텐서 블록의 수를 의미하고,
Figure pat00002
는 아래 <수학식>에 의해 주어진 i번째 형상 텐서 블록을 의미할 수 있다.
Figure pat00003
여기서,
Figure pat00004
Figure pat00005
는 라우팅 가능한 블록의 입출력 특성을 의미하며, CX, CY, N은 각각 입력 특성 채널들의 수, 출력 특성 채널들의 수와 영상 픽셀의 수를 의미하고,
Figure pat00006
Figure pat00007
는 i번째 텐서 블록에 대한 가중치와 편향을 의미하며,
Figure pat00008
는 요소별 ReLU 비선형성을 의미할 수 있다. 그리고, T(c)는 조건 c에 따른 라우팅 행렬로서, 아래 <수학식 2>와 같이 나타낼 수 있다.
[수학식 2]
Figure pat00009
여기서,
Figure pat00010
는 i번째 라우팅 행렬을 의미할 수 있다.
상기 수학식 1에서 라우팅 행렬 Ti(i =1, ..., M)의 선택에 따라 라우팅 블록의 여러 가지 실현이 있다. 이하, CX = CY로 가정하고 설명한다. 가장 간단한 라우팅 방법 중 하나는 도 4에 도시된 바와 같이 특정 라우팅 블록들만 활용하여 게이트 네트워크 아키텍처(gated network architecture)를 통과하는 것이다. 예를 들어, n번째 조건 벡터 cn의 경우, 해당 라우팅 행렬은 아래 <수학식 3>과 같이 주어질 수 있다.
[수학식 3]
Figure pat00011
여기서, I는 단위 행렬을 의미할 수 있다.
사이클 일관성 다중 도메인 적대적 트레이닝
본 발명은 StarGAN과 유사한 방식으로 라우팅 가능한 다중 도메인 변환 네트워크를 트레이닝시킬 수 있다. 본 발명의 방법과 StarGAN의 차이점은 StarGAN은 입력 계층에서 원핫 벡터 인코딩 조건화 벡터를 필요로 하는 반면, 본 발명의 방법은 네트워크 측면에서 벡터를 사용한다. 따라서, 본 발명의 한 번에 두 가지 이상의 조건을 쉽게 사용할 수 있다.
도 5는 StarGAN과 본 발명의 RouteGAN의 학습 방식을 비교하기 위한 일 예시도를 나타낸 것으로, i≠j의 경우 Xi와 Xj가 각각 i번째와 j번째 도메인이 되고, PXi와 PXj가 연관된 확률 분포가 되도록 한다.
도 5에 도시된 바와 같이, 본 발명의 방법은 StarGAN 방법과 달리, 입력 도메인 벡터와 타겟 도메인 벡터라는 두 가지 조건이 주어진 생성기 G를 가지고 있다. 보다 구체적으로, 조건 벡터 ci와 cj를 사용하면 생성기 G(xi;ci,cj)가
Figure pat00012
Figure pat00013
로 변환한다. 반면, 동일한 조건 벡터가 바뀌면 생성기 G(xi;ci,cj)는
Figure pat00014
Figure pat00015
로 변환한다. 그런 다음 생성기는 단순히 다른 라우팅 조건을 활용하여 도메인 간의 가능한 모든 매핑을 학습할 수 있다.
본 발명에서 사용하는 네트워크의 트레이닝은 아래 <수학식 4>와 같은 최소 최대 문제를 해결함으로써 수행될 수 있다.
[수학식 4]
Figure pat00016
여기서, 총 손실은 아래 <수학식 5>와 같이 정의될 수 있다.
[수학식 5]
Figure pat00017
여기서,
Figure pat00018
,
Figure pat00019
는 각각 분류 손실, 사이클 손실, 식별 손실 및 특성 손실 항목에 대한 가중치 파라미터를 의미할 수 있다. 적대적 손실
Figure pat00020
는 아래 <수학식 6>과 같이 LSGAN 손실(X. Mao, Q. Li, H. Xie, R. Y. K. Lau, Z. Wang, and S. P. Smolley, "Least squares generative adversarial networks," 2017 IEEE International Conference on Computer Vision (ICCV), pp. 2813-2821, 2017.)로 구성될 수 있다.
[수학식 6]
Figure pat00021
여기서, ||·||2는 l2 놈(norm)이고, Da는 생성된 영상과 실제 영상을 판별하기 위한 판별기를 의미할 수 있다. 또한 분류 손실은 아래 <수학식 7>과 같이 정의될 수 있다.
[수학식 7]
Figure pat00022
여기서, Dc(c|x)는 주어진 영상 x에 대한 도메인의 확률 분포를 의미할 수 있다.
상기 수학식 5에서 사이클 일관성 손실
Figure pat00023
는 아래 <수학식 8>과 같이 정의할 수 있다.
[수학식 8]
Figure pat00024
여기서 ||·||1는 l1 놈(norm)을 의미할 수 있다. 이는 조건들을 사용하여 도메인 cj로 변환한 후 반대 조건을 적용하여 영상을 올바르게 반환해야 함을 의미한다. 사이클 일관성 손실은 해부학적 차이와 같이 바람직하지 않은 수정으로 영상을 생성하지 않고 영상에서 콘텐츠를 유지하는 데 사용된다.
상기 수학식 5에서 식별 손실은 GAN 손실에 의해 필요 이상으로 타겟 도메인 영상이 왜곡되는 것을 방지하도록 설계되어야 하며, 따라서 알고리즘에 대한 고정 포인트 제약 조건이 부과된다. 특히, 조건 벡터 ci가 있는 PXi의 영상은 생성기에 의해 변경되어서는 안 되며, 이로 인해 아래 <수학식 9>와 같은 식별 손실이 발생할 수 있다.
[수학식 9]
Figure pat00025
마지막으로, 본 발명은 가장 깊은 특성 레벨에서 공통 도메인 표현을 갖기 위해 특성 손실을 추가할 수 있다. 가장 깊은 특성이 도메인 간에 공통적으로 나타나는 경우, xi와 G(xi;ci,cj)의 특성은 유사해야 한다. 따라서 특성 손실은 아래 <수학식 10>과 같이 나타낼 수 있다.
[수학식 10]
Figure pat00026
여기서, GE(xi;ci,cj)는 생성기의 인코더 부분의 출력인 가장 깊은 특성을 의미할 수 있다. 이 특성 손실은 특성 레벨에서 사이클 일관성 손실로 볼 수 있다.
데이터
본 발명은 커스텀 CT 영상 데이터셋을 사용할 수 있으며, 트레이닝과 테스트를 위해 각각 512×512 크기의 흉부 CT 영상 7만9872장과 350장으로 구성될 수 있다. 모든 데이터는 7가지 다른 종류의 CT 기계와 파라미터에서 평가된다. 예컨대, 모든 데이터는 Siemens(샤프 커널, 7,118장), GE(표준 선량, 11,045장), Philips(표준 선량, 9,269장), GE(저선량, 15,943장), Philips(저선량, 14,859장), Toshiba(8,636장)와 Siemens(표준 커널, 13,002장)에 의해 평가될 수 있다.
자연 영상과는 달리, CT 영상의 범위는 보통 -1024 ~ 2000 이상이다. 따라서 본 발명에서의 모든 CT 영상은 250 윈도우 폭, -50 윈도우 레벨로 윈도우가 설정되며, 이는 영상이 간격 [-175, 75]로 포화 상태임을 의미한다.
네트워크 구현
본 발명의 방법은 트레이닝을 위해 두 개의 네트워크, 생성기와 판별기가 필요하다. 생성기 아키텍처는 도 3에 도시된 바와 같이, 디코더에 라우팅 가능한 블록이 있는 UNet에 의해 구현될 수 있다. 물론, 본 발명에서의 생성기는 UNet에 의해 구현되는 것으로 제한되거나 한정되지 않으며, 다른 형태의 뉴럴 네트워크를 이용하여 구현될 수도 있다. 인코더와 디코더에는 각각 3개의 다운샘플 단계와 3개의 업샘플 단계가 있다. 첫 번째 컨볼루션 계층은 단일 채널 영상을 입력으로 사용하고 32 채널 특성 맵을 생성한다. 다운샘플링에서 2의 스트라이드를 가지는 스트라이드 컨볼루션을 사용하면 입력 특성의 폭과 높이가 절반으로 줄어드는 반면 채널 길이는 2배로 늘어난다. 또한 다운 샘플 블록에서는 조건부 인스턴스 정규화가 공통 도메인 특성을 생성하는 데 사용된다. 인코더의 특성 맵은 디코더의 해당 업샘플링 특성 맵과 연결된다. 디코딩 부분에서는 특성 맵의 폭과 높이를 두 배로 증가시키기 위해 최근접 이웃 업 샘플링 방법이 사용된다. 디코더에는 정규화 방법이 사용되지 않을 수 있다. 활성화 기능을 위해 leaky ReLU를 사용할 수 있으며, 상술한 바와 같이 디코더 부분의 컨볼루션 계층은 라우팅 가능한 블록으로 대체될 수 있다. 라우팅 가능한 블록에서는 네트워크의 용량을 최대화하기 위해 일반 컨볼루션-ReLU 블록 대신 잔여 밀집 블록(residual dense block)이 사용될 수 있다.
판별기 아키텍처는 도 6에 도시된 바와 같이 PatchGAN에 기초하여 구현될 수 있다. 판별기 아키텍처는 세 개의 다운 샘플 단계와 두 개의 별도 출력 계층이 있다. 다운 샘플 단계에서 특성 맵의 높이를 절반으로 줄이고 채널 길이를 두 배로 늘리기 위해 스트라이드가 2인 스트라이드 컨볼루션을 사용한다. 그리고 마지막 특성 맵을 사용하여 두 개의 다른 출력을 생성하기 위해 두 개의 개별 연산을 적용할 수 있다. 첫 번째는 1×1 컨볼루션 연산을 통해 단일 채널 출력을 생성하는 것으로, 이 출력은 상기 수학식 6에 의해 입력 영상이 실제인지 가짜인지를 알려준다. 두 번째는 완전히 연결된 네트워크으로, 특성을 완전히 연결된 네트워크에 공급하기 전에 전역 평균 풀링을 적용하여 특성 텐서를 벡터화한다. 그리고 완전히 연결된 네트워크의 출력에 소프트맥스를 적용하여 도메인 분류 벡터를 얻을 수 있다(수학식 7 참조).
뉴럴 네트워크 트레이닝
생성기 및 판별기는 상기 수학식 5에 대해 트레이닝될 수 있다. 또한 모든 네트워크는
Figure pat00027
Figure pat00028
로 ADAM 최적화 알고리즘에 의해 최적화될 수 있다. 모든 컨볼루션 커널은 He 균일 초기화(K. He, X. Zhang, S. Ren, and J. Sun, "Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification," in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1026-1034.)에 의해 초기화될 수 있다. 미니 배치의 수는 10개 일 수 있으며, 단일 NVIDIA RTX2080Ti 11GB를 사용하여 네트워크를 트레이닝할 수 있다.
나아가,
Figure pat00029
,
Figure pat00030
으로 설정하고, G에 대한 학습속도 lG=4.0×10-5와 D에 대한 학습속도 lD=4.0×10-5를 사용하여 G와 D를 번갈아 트레이닝할 수 있으며, 그 트레이닝은 epoch 10에서 중단될 수 있다.
트레이닝 단계에서 CT 영상을 임의로 128×128로 잘라낼 수 있다. 그러나 128×128로 자르면 적절한 영상이 없는 재구성 관심 영역(ROI) 바깥쪽만 나타날 수 있다. 자른 영상이 적절한 값을 가질 수 있도록 임의로 자르기 전에 320×320을 중앙에서 자를 수 있고, 네트워크에 공급하기 전에, 본 발명은 입력을 정규화할 수 있다.
GPU 메모리의 제한 때문에, 본 발명은 원래 도메인과 타겟 도메인의 모든 가능한 조합이 손실된 네트워크를 업데이트하는 대신 단일 고정 원래 도메인과 단일 고정 타겟 도메인으로 계산되는 손실로 네트워크 파라미터를 업데이트할 수 있다. 예를 들어, 세 개의 도메인이 X1, X2, X3이라고 가정하면, 세 데이터셋을 모두 사용하여 네트워크를 트레이닝하는 대신 가능한 모든 양방향 조합을 사용하여 네트워크를 순차적으로 일정 횟수 예를 들어, 6번 업데이트할 수 있다. 따라서, 본 발명은 동시에 GPU 사용을 최소화하기 위해 한 번에 두 도메인의 데이터만 업로드하면 된다.
본 발명의 뉴럴 네트워크의 결과를 StarGAN과 비교할 수 있으며, 본 발명은 U-Net 생성기를 기반으로 StarGAN을 구현할 수 있다. 3개의 다운샘플링 스텝과 업샘플링 단계가 있다. 또한 다운 샘플링에서 풀링 단계로 스트라이드 2인 컨볼루션과 업샘플링에서 최근접 이웃을 사용한다. 그리고 시작 특성 번호는 32이며 판별기는 본 발명에서 구현된 네트워크와 동일할 수 있다.
이러한 설정을 사용하면 본 발명의 네트워크의 파라미터 수는 StarGAN보다 적고, 이는 잔여 밀집 블록을 사용하기 때문이다. 이 방법을 사용하면 성능을 유지하거나 향상시키면서 네트워크의 여러 경로를 사용하더라도 학습 가능한 파라미터를 줄일 수 있다.
StarGAN을 트레이닝시키기 위한 총 손실은 아래 <수학식 11>과 같이 나타낼 수 있다.
[수학식 11]
Figure pat00031
상기 수학식 11을 통해 알 수 있듯이, 특성 손실(lf)은 사용되지 않는다. 그리고, 다른 손실은 본 발명의 네트워크와 동일하다. 그리고 해당 하이퍼 파라미터는 학습속도, lG 및 lD를 제외하고 동일하다. 본 발명은 lG=8.0×10-5, lD=10-5를 사용할 수 있는데, 그렇지 않으면 lD가 클수록 학습이 쉽게 분산되기 때문이다. 즉, 생성기가 판별기에 의해 쉽게 무산되는 것이다 즉, ladv가 최소화된다. 이는 조건 파워의 부족한 결과로 간주된다.
도 7은 본 발명의 네트워크와 StarGAN의 결과와 그에 따른 입력 차이에 대한 일 예시도를 나타낸 것으로, 도 7a는 본 발명의 뉴럴 네트워크의 결과를 나타낸 것이고, 도 7b는 본 발명의 뉴럴 네트워크의 입력과 출력 간의 차이를 나타낸 것이며, 도 7c는 StarGAN의 결과를 나타낸 것이고, 도 7d는 StarGAN의 입력과 출력 간의 차이를 나타낸 것이다.
도 7을 통해 알 수 있듯이, StarGAN의 결과는 일관된 변환을 보여주지 않는 대신, 일부 입력 및 출력 도메인 조합에서 비교적 잘 동작한다. 그리고 다른 조합을 사용하면 입력 영상과 매우 유사한 출력을 보여주는 반면, 본 발명의 네트워크의 결과는 입력 및 출력 도메인 조합에 관계없이 더 일관된 변환을 보여주는 것을 알 수 있다.
도 8은 입력 영상을 포함하여 7개 도메인 간의 변환에서 가능한 모든 49개의 결과에 대한 일 예시도를 나타낸 것으로, 주 대각선에 있는 영상은 입력 영상이고 나머지는 입력 영상과 생성된 영상 간의 차이 영상을 나타낸 것이다.
도 8을 통해 알 수 있듯이, 각 행은 단일 입력 이미지에서 생성되며 각 열에는 동일한 대상 도메인이 있고, 각 열은 비슷한 스타일을 보여주는데, 이는 입력 및 타겟 도메인에 관계없이 변환이 성공했다는 것을 의미한다.
이와 같이, 본 발명의 실시예에 따른 방법은 비지도 학습 기반의 단일 뉴럴 네트워크를 이용하여 다양한 벤더(vendor) 및 스캔 파라미터들과 무관 또는 독립적으로, 입력 도메인의 단층촬영영상을 타겟 도메인의 단층촬영영상으로 정규화할 수 있다.
또한, 본 발명의 실시예에 따른 방법은 의료 영상 뿐만 아니라 일반 영상을 서로 다른 설정, 서로 다른 환경 그리고 서로 다른 도메인으로 바꾸는 데에 사용될 수 있다.
또한, 본 발명의 실시예에 따른 방법은 기존에 CT 기기가 달라 사용할 수 없었던 데이터를 사용할 수 있게 되기 때문에 여러 CT 기기로부터 얻은 영상을 사용한 연구에서 사용될 수 있으며, 기존 알고리즘의 확장 또는 새로운 딥 러닝 알고리즘의 학습을 위한 데이터를 더욱 수월하게 모으기 위해 사용될 수 있다.
상술한 내용을 통해 알 수 있듯이, StarGAN은 많은 컴퓨터 비전 애플리케이션에 인상적인 결과를 제공하지만 본 발명의 실험 결과는 CT 영상 변환에 StarGAN을 사용하는 것이 효과적이지 않다는 것을 알 수 있는데, 이는 공통 도메인 정보에서 조건화 정보를 분리하는 데 어려움이 있기 때문일 수 있다.
본 발명의 RouteGAN 영상 변환을 위해 생성기의 인코더와 디코더 부분의 역할을 분리하는데, 인코더는 다중 도메인 데이터에서 공통 도메인 잠재 공간 정보를 추출하도록 설계된 반면, 디코더는 라우팅 코드를 변경하기만 하면 공통 도메인 잠재 공간 특성 벡터를 특정 타겟 도메인 영상으로 변환하도록 트레이닝된다. 원핫 벡터 조절을 인코더의 입력으로 사용해야 하는 StarGAN과는 대조적으로, 본 발명의 RouteGAN은 공통 도메인 잠재 공간 정보가 특정 도메인 표현으로 효율적으로 변환될 수 있도록 디코더 단계에서 최소 오버헤드 라우팅 코드를 효율적으로 사용한다. 본 발명에서 사용하는 네트워크 아키텍처의 또 다른 중요한 장점은 모든 관련 정보를 추출하기 위해 라우팅 코드를 변경하기만 하면 도메인 불가지론적 정규화 영상을 쉽게 추출할 수 있다는 것이다. 또한, 상술한 실험 결과를 통해 본 발명이 다른 획득 파라미터(또는 스캔 파라미터)와 벤더를 사용하여 CT 영상에서 정확한 정량화를 유도한다는 것을 확인할 수 있으며, 이러한 영상 변환은 본 발명 없이는 불가능하다.
도 9는 본 발명의 일 실시예에 따른 단층촬영영상 처리 장치에 대한 구성을 나타낸 것으로, 도 1 내지 도 8의 방법을 수행하는 장치에 대한 개념적인 구성을 나타낸 것이다.
도 9를 참조하면, 본 발명의 일 실시예에 따른 단층촬영영상 처리 장치(900)는 수신부(910)와 복원부(920)를 포함한다.
수신부(910)는 제1 도메인의 단층촬영영상을 수신한다.
여기서, 수신부(910)에서 수신하는 제1 도메인의 단층촬영영상은 다양한 벤더와 다양한 스캔 파라미터들에 의해 촬영된 단층촬영영상으로, 본 발명은 이러한 다양한 벤더와 다양한 스캔 파라미터들과 독립적으로, 단층촬영영상을 특정 도메인 즉, 타겟 도메인의 단층촬영영상으로 변환 또는 복원하기 위한 것이다.
복원부(920)는 도메인들 간의 매핑을 학습한 비지도 학습(unsupervised learning) 기반의 단일 뉴럴 네트워크를 이용하여 제1 도메인의 단층촬영영상을 촬영한 벤더(vendor) 및 스캔 파라미터들과 독립적으로, 제1 도메인의 단층촬영영상을 미리 설정된 제2 도메인의 단층촬영영상으로 정규화한다.
여기서, 단일 뉴럴 네트워크는 제1 도메인에 대응하는 입력 도메인 벡터와 제2 도메인에 대응하는 타겟 도메인 벡터의 두 조건 벡터를 사용하여 제1 도메인의 단층촬영영상에서 공통 도메인 잠재 공간 정보를 추출하고, 추출된 공통 도메인 잠재 공간 정보를 이용하여 제1 도메인의 단층촬영영상을 제2 도메인의 단층촬영영상으로 변환할 수 있다.
나아가, 단일 뉴럴 네트워크는 인코더와 디코더를 포함하고, 인코더는 다중 도메인 데이터에서 공통 도메인 잠재 공간 정보를 추출하도록 트레이닝되며, 디코더는 공통 도메인 잠재 공간 정보에 해당하는 공통 도메인 잠재 공간 특성 벡터를 특정 타겟 도메인 영상으로 변환하도록 트레이닝될 수 있다.
이러한 단일 뉴럴 네트워크는 디코더에 라우팅 가능한 라우팅 블록을 포함할 수 있고, 비매칭 데이터를 포함하는 트레이닝 데이터셋을 이용하여 학습될 수 있다.
또한, 단일 뉴럴 네트워크는 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크 및 풀링 레이어와 언풀링 레이어를 포함하는 뉴럴 네트워크 중 어느 하나의 뉴럴 네트워크를 포함할 수 있다.
비록, 도 9의 장치에서 그 설명이 생략되었더라도, 도 9를 구성하는 각 구성 수단은 도 1 내지 도 8에서 설명한 모든 내용을 포함할 수 있으며, 이는 이 기술 분야에 종사하는 당업자에게 있어서 자명하다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.  또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.  이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.  예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.  또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.  소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.  소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.  상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.  상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.  컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.  프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.  예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (12)

  1. 제1 도메인의 단층촬영영상을 수신하는 단계; 및
    도메인들 간의 매핑을 학습한 비지도 학습(unsupervised learning) 기반의 단일 뉴럴 네트워크를 이용하여 상기 제1 도메인의 단층촬영영상을 촬영한 벤더(vendor) 및 스캔 파라미터들과 독립적으로, 상기 제1 도메인의 단층촬영영상을 미리 설정된 제2 도메인의 단층촬영영상으로 정규화하는 단계
    를 포함하는 단층촬영영상 처리 방법.
  2. 제1항에 있어서,
    상기 단일 뉴럴 네트워크는
    상기 제1 도메인에 대응하는 입력 도메인 벡터와 상기 제2 도메인에 대응하는 타겟 도메인 벡터의 두 조건 벡터를 사용하여 상기 제1 도메인의 단층촬영영상에서 공통 도메인 잠재 공간 정보를 추출하고, 상기 추출된 공통 도메인 잠재 공간 정보를 이용하여 상기 제1 도메인의 단층촬영영상을 상기 제2 도메인의 단층촬영영상으로 변환하는 것을 특징으로 하는 단층촬영영상 처리 방법.
  3. 제1항에 있어서,
    상기 단일 뉴럴 네트워크는
    인코더와 디코더를 포함하고,
    상기 인코더는
    다중 도메인 데이터에서 공통 도메인 잠재 공간 정보를 추출하도록 트레이닝되며,
    상기 디코더는
    공통 도메인 잠재 공간 정보에 해당하는 공통 도메인 잠재 공간 특성 벡터를 특정 타겟 도메인 영상으로 변환하도록 트레이닝되는 것을 특징으로 하는 단층촬영영상 처리 방법.
  4. 제1항에 있어서,
    상기 단일 뉴럴 네트워크는
    디코더에 라우팅 가능한 라우팅 블록을 포함하는 것을 특징으로 하는 단층촬영영상 처리 방법.
  5. 제1항에 있어서,
    상기 단일 뉴럴 네트워크는
    비매칭 데이터를 포함하는 트레이닝 데이터셋을 이용하여 학습되는 것을 특징으로 하는 단층촬영영상 처리 방법.
  6. 제1항에 있어서,
    상기 단일 뉴럴 네트워크는
    컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크 및 풀링 레이어와 언풀링 레이어를 포함하는 뉴럴 네트워크 중 어느 하나의 뉴럴 네트워크를 포함하는 것을 특징으로 하는 단층촬영영상 처리 방법.
  7. 제1 도메인의 단층촬영영상을 수신하는 수신부; 및
    도메인들 간의 매핑을 학습한 비지도 학습(unsupervised learning) 기반의 단일 뉴럴 네트워크를 이용하여 상기 제1 도메인의 단층촬영영상을 촬영한 벤더(vendor) 및 스캔 파라미터들과 독립적으로, 상기 제1 도메인의 단층촬영영상을 미리 설정된 제2 도메인의 단층촬영영상으로 정규화하는 복원부
    를 포함하는 단층촬영영상 처리 장치.
  8. 제7항에 있어서,
    상기 단일 뉴럴 네트워크는
    상기 제1 도메인에 대응하는 입력 도메인 벡터와 상기 제2 도메인에 대응하는 타겟 도메인 벡터의 두 조건 벡터를 사용하여 상기 제1 도메인의 단층촬영영상에서 공통 도메인 잠재 공간 정보를 추출하고, 상기 추출된 공통 도메인 잠재 공간 정보를 이용하여 상기 제1 도메인의 단층촬영영상을 상기 제2 도메인의 단층촬영영상으로 변환하는 것을 특징으로 하는 단층촬영영상 처리 장치.
  9. 제7항에 있어서,
    상기 단일 뉴럴 네트워크는
    인코더와 디코더를 포함하고,
    상기 인코더는
    다중 도메인 데이터에서 공통 도메인 잠재 공간 정보를 추출하도록 트레이닝되며,
    상기 디코더는
    공통 도메인 잠재 공간 정보에 해당하는 공통 도메인 잠재 공간 특성 벡터를 특정 타겟 도메인 영상으로 변환하도록 트레이닝되는 것을 특징으로 하는 단층촬영영상 처리 장치.
  10. 제7항에 있어서,
    상기 단일 뉴럴 네트워크는
    디코더에 라우팅 가능한 라우팅 블록을 포함하는 것을 특징으로 하는 단층촬영영상 처리 장치.
  11. 제7항에 있어서,
    상기 단일 뉴럴 네트워크는
    비매칭 데이터를 포함하는 트레이닝 데이터셋을 이용하여 학습되는 것을 특징으로 하는 단층촬영영상 처리 장치.
  12. 제7항에 있어서,
    상기 단일 뉴럴 네트워크는
    컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크 및 풀링 레이어와 언풀링 레이어를 포함하는 뉴럴 네트워크 중 어느 하나의 뉴럴 네트워크를 포함하는 것을 특징으로 하는 단층촬영영상 처리 장치.
KR1020210040878A 2021-03-30 2021-03-30 영상 표준화를 위한 비지도 학습 기반 단일 뉴럴 네트워크를 이용한 단층촬영영상 처리 방법 및 그 장치 KR102514708B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210040878A KR102514708B1 (ko) 2021-03-30 2021-03-30 영상 표준화를 위한 비지도 학습 기반 단일 뉴럴 네트워크를 이용한 단층촬영영상 처리 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210040878A KR102514708B1 (ko) 2021-03-30 2021-03-30 영상 표준화를 위한 비지도 학습 기반 단일 뉴럴 네트워크를 이용한 단층촬영영상 처리 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20220135349A true KR20220135349A (ko) 2022-10-07
KR102514708B1 KR102514708B1 (ko) 2023-03-29

Family

ID=83595764

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210040878A KR102514708B1 (ko) 2021-03-30 2021-03-30 영상 표준화를 위한 비지도 학습 기반 단일 뉴럴 네트워크를 이용한 단층촬영영상 처리 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR102514708B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503506A (zh) * 2023-06-25 2023-07-28 南方医科大学 一种图像重建方法、系统、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200115001A (ko) * 2019-03-25 2020-10-07 한국과학기술원 뉴럴 네트워크를 이용한 결측 영상 데이터 대체 방법 및 그 장치
KR102166016B1 (ko) * 2019-09-10 2020-10-15 인하대학교 산학협력단 이미지 대 이미지의 변환을 위한 도메인 인식 기반의 변환 기법
KR102222932B1 (ko) * 2020-05-15 2021-03-04 주식회사 에프앤디파트너스 이기종 촬영장치들의 촬영 이미지들을 표준화하여 저장 및 관리하는 영상 이미지 표준화 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200115001A (ko) * 2019-03-25 2020-10-07 한국과학기술원 뉴럴 네트워크를 이용한 결측 영상 데이터 대체 방법 및 그 장치
KR102166016B1 (ko) * 2019-09-10 2020-10-15 인하대학교 산학협력단 이미지 대 이미지의 변환을 위한 도메인 인식 기반의 변환 기법
KR102222932B1 (ko) * 2020-05-15 2021-03-04 주식회사 에프앤디파트너스 이기종 촬영장치들의 촬영 이미지들을 표준화하여 저장 및 관리하는 영상 이미지 표준화 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Hao Guan, et al., "Domain Adaptation for Medical Image Analysis: A Survey", arXiv:2102.09508v1(2021.02.18.)* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503506A (zh) * 2023-06-25 2023-07-28 南方医科大学 一种图像重建方法、系统、装置及存储介质
CN116503506B (zh) * 2023-06-25 2024-02-06 南方医科大学 一种图像重建方法、系统、装置及存储介质

Also Published As

Publication number Publication date
KR102514708B1 (ko) 2023-03-29

Similar Documents

Publication Publication Date Title
Alqahtani et al. Applications of generative adversarial networks (gans): An updated review
Mahapatra et al. Efficient active learning for image classification and segmentation using a sample selection and conditional generative adversarial network
Mansilla et al. Learning deformable registration of medical images with anatomical constraints
JP6965343B2 (ja) 制御フィードバックを用いる画像セグメンテーションの方法及びシステム
Pavan Kumar et al. Generative adversarial networks: a survey on applications and challenges
Sevetlidis et al. Whole image synthesis using a deep encoder-decoder network
Qadri et al. CT‐based automatic spine segmentation using patch‐based deep learning
You et al. Bootstrapping semi-supervised medical image segmentation with anatomical-aware contrastive distillation
Vemulapalli et al. Unsupervised cross-modal synthesis of subject-specific scans
Hamghalam et al. Modality completion via gaussian process prior variational autoencoders for multi-modal glioma segmentation
Dayarathna et al. Deep learning based synthesis of MRI, CT and PET: Review and analysis
KR102166016B1 (ko) 이미지 대 이미지의 변환을 위한 도메인 인식 기반의 변환 기법
Yang et al. Deep hybrid convolutional neural network for segmentation of melanoma skin lesion
Tudosiu et al. Morphology-preserving autoregressive 3d generative modelling of the brain
KR102514708B1 (ko) 영상 표준화를 위한 비지도 학습 기반 단일 뉴럴 네트워크를 이용한 단층촬영영상 처리 방법 및 그 장치
Cheng et al. Multi-attention mechanism medical image segmentation combined with word embedding technology
Alanov et al. User-controllable multi-texture synthesis with generative adversarial networks
US20210397886A1 (en) Anatomy-aware motion estimation
Wilms et al. Representative patch-based active appearance models generated from small training populations
Chen et al. Medprompt: Cross-modal prompting for multi-task medical image translation
CN110400357B (zh) 一种基于运动感知图像约束的4d-cbct重建方法
Michel et al. Image transport regression using mixture of experts and discrete Markov random fields
Dietrichstein et al. Anomaly detection using generative models and sum-product networks in mammography scans
Deepika et al. Improved CAPSNET model with modified loss function for medical image classification
CN114155232A (zh) 颅内出血区域检测方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right