KR102506203B1

KR102506203B1 - 메탈 아티팩트를 제거하기 위한 비지도 학습 기반 뉴럴 네트워크를 이용한 단층촬영영상 처리 방법 및 그 장치

Info

Publication number: KR102506203B1
Application number: KR1020210013900A
Authority: KR
Inventors: 예종철; 이정현
Original assignee: 한국과학기술원
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2023-03-07
Also published as: KR20220110913A

Abstract

메탈 아티팩트를 제거하기 위한 비지도 학습 기반 뉴럴 네트워크를 이용한 단층촬영영상 처리 방법 및 그 장치가 개시된다. 본 발명의 일 실시예에 따른 단층촬영영상 처리 방법은 메탈 아티팩트(metal artifact)를 포함하는 단층촬영영상을 수신하는 단계; 및 주의 모델(attention model)이 적용된 비지도 학습(unsupervised learning) 기반의 뉴럴 네트워크를 이용하여 상기 수신된 단층촬영영상에서 메탈 아티팩트를 제거함으로써, 상기 메탈 아티팩트가 제거된 단층촬영영상을 생성하는 단계를 포함한다.

Description

메탈 아티팩트를 제거하기 위한 비지도 학습 기반 뉴럴 네트워크를 이용한 단층촬영영상 처리 방법 및 그 장치 {TOMOGRAPHY IMAGE PROCESSING METHOD USING NEURAL NETWORK BASED ON UNSUPERVISED LEARNING TO REMOVE METAL ARTIFACTS AND APPARATUS THEREFOR}

본 발명은 메탈 아티팩트를 제거하기 위한 비지도 학습 기반 뉴럴 네트워크를 이용한 단층촬영영상 처리 기술에 관한 것으로, 보다 구체적으로는 비지도 학습 기반의 뉴럴 네트워크를 이용하여 단층촬영영상의 메탈 아티팩트를 제거함으로써, 고화질의 단층촬영영상을 생성할 수 있는 단층촬영영상 처리 방법 및 그 장치에 관한 것이다.

X-RAY 컴퓨터 단층촬영(CT)은 최근 몇 년간 치과 어플리케이션에 널리 사용되고 있다. 상업적으로 이용 가능한 대부분의 치과용 CT 스캐너는 회전하는 X선 소스와 평면 검출기를 사용하여 치아의 치조능선과 평행하게 스캔되는 턱의 횡단 영상을 재구성한다. 원형 소스의 궤적에는 Feldkamp, Davis 및 Kress(FDK) 알고리즘이라고 하는 근사 전도 알고리즘이 가장 널리 사용된다. FDK 알고리즘은 콘빔 아티팩트를 도입하지만, 일반적으로 관심 영역이 원형 궤적의 중간 면에 있는 턱 주위 영역이기 때문에 치과 응용에서 그 양은 미미하다. 반면 치아 CT에서 더 심각한 문제는 금속성 임플란트와 치아 충전재의 전형적인 배치로 심각한 메탈 아티팩트를 유발할 수 있다는 점이다. 비슷한 메탈 아티팩트들이 금속성 임플란트 환자들의 근골격계 CT 촬영에서 꽤 자주 발견된다.

금속성 삽입물이 있는 환자의 영상에서는 물체의 높은 감쇠로 인해 X선 광자가 금속성 물체를 일관되게 투과할 수 없다. 이로 인해 도 1에 도시된 바와 같이 재구성된 영상에서 영상 화질을 악화시키는 심각한 선 및 음영 아티팩트가 발생한다. 빔 강화 또는 신호 대 잡음비(SNR) 불량과 같은 다른 이유도 메탈 아티팩트에 기여할 수 있다.

손상된 사이노그램(sinogram)을 제거하고 인접 데이터에서 보간함으로써, 사이노그램을 수정하고 사물을 재구성하는 방법들이 있으나, 이러한 방법은 최적의 파라미터 선택이 어려워 일반 적용에 한계가 있다. 반복 재구성은 기대 최대화 및 CT에 대한 반복 최대우도 다색 알고리즘을 포함하는 메탈 아티팩트 제거의 또 다른 방법이지만, 매우 높은 계산 복잡성을 가진다.

최근 딥 러닝의 성공에 자극을 받아 메탈 아티팩트 감소(MAR; metal artifact reduction)를 위한 딥 러닝을 활용한 여러 기술이 제안되었다. 딥 러닝 방법을 사용할 때의 이점은 데이터에서 작업에 대한 최적의 특징을 자동으로 학습하는 데이터 중심 특성에서 비롯된다. pix2pix 모델을 적용한 MAR에 대한 몇 가지 예가 있는데, 이 모델에서는 먼저 컨볼루션 뉴럴 네트워크(CNN)에 의한 사전 영상 추정을 제안하였고, 두 개의 CNN을 학습하여 사이노그램 네트워크와 영상 네트워크를 제안하였다. 그러나 이러한 네트워크는 지도 방식으로 트레이닝된다. 이에 따라 메탈 아티팩트, 깨끗한 대상 영상 등 구조적으로 일치하는 영상이 쌍으로 필요하나 실제 상황에선 얻기가 어렵다. 시뮬레이션 데이터를 사용하여 뉴럴 네트워크를 트레이닝할 수 있지만 메탈 아티팩트의 복잡성과 CT 장치의 변화로 인해 합성된 영상은 임상 어플리케이션에서 이러한 지도 방법의 성능이 저하될 수 있도록 실제 임상 시나리오를 완전히 반영하지 못할 수 있다.

일치하지 않는(또는 매칭되지 않는) 영상의 쌍을 활용하려면 비지도 학습 접근법을 사용해야 한다. 비지도 학습에 대한 다양한 접근법들 중, 생성적 적대 네트워크(GAN)는 입력 도메인의 분포를 대상 도메인의 분포와 일치시키는 방법을 학습할 수 있다. 그러나 이러한 접근방식은 종종 인위적인 특징을 생성하는 모드 붕괴 동작으로 인해 어려움을 겪는다. 모드 붕괴 문제를 해결하기 위해, 사이클 일관성 생성적 적대 네트워크(CycleGAN)를 사용하는 비지도 영상 대 영상 변환 기술이 제안되었다. 구체적으로는 생성적 적대 네트워크를 이용하여 비지도로 네트워크를 트레이닝하고, 사이클 일관성은 GAN의 모드 붕괴 문제로 인해 인위적인 형상의 발생을 완화시킨다. 최근에는 CycleGAN의 수학적 기원이 최적 운송 이론을 두 확률 공간 사이의 비지도 분포 매칭으로 사용함이 밝혀졌다.

메탈 아티팩트는 도 1에 도시된 바와 같이 로컬 및 글로벌 패턴에서 발생하므로 작은 패치로는 트레이닝하기 어렵다. 반면, 메탈 아티팩트는 몇 가지 메탈(또는 금속) 영역에서 방사된다는 점에서 고유한 특성을 가지고 있다.

본 발명의 실시예들은, 비지도 학습 기반의 뉴럴 네트워크를 이용하여 단층촬영영상의 메탈 아티팩트를 제거함으로써, 고화질의 단층촬영영상을 생성할 수 있는 단층촬영영상 처리 방법 및 그 장치를 제공한다.

본 발명의 일 실시예에 따른 단층촬영영상 처리 방법은 메탈 아티팩트(metal artifact)를 포함하는 단층촬영영상을 수신하는 단계; 및 주의 모델(attention model)이 적용된 비지도 학습(unsupervised learning) 기반의 뉴럴 네트워크를 이용하여 상기 수신된 단층촬영영상에서 메탈 아티팩트를 제거함으로써, 상기 메탈 아티팩트가 제거된 단층촬영영상을 생성하는 단계를 포함한다.

상기 뉴럴 네트워크는 최적 운송(optimal transport) 이론에 기초하여 생성될 수 있다.

상기 뉴럴 네트워크는 비매칭 데이터를 포함하는 트레이닝 데이터셋을 이용하여 학습될 수 있다.

상기 뉴럴 네트워크는 제1 단층촬영영상을 입력으로 상기 제1 단층촬영영상을 메탈 아티팩트가 제거된 제2 단층촬영영상으로 변환하는 제1 뉴럴 네트워크; 상기 제2 단층촬영영상을 입력으로 상기 제2 단층촬영영상을 메탈 아티팩트가 포함된 제3 단층촬영영상으로 변환하는 제2 뉴럴 네트워크; 상기 제1 단층촬영영상과 상기 제3 단층촬영영상을 구별하는 제3 뉴럴 네트워크; 및 상기 제2 단층촬영영상과 상기 제2 단층촬영영상에 대응하는 실제 단층촬영영상을 구별하는 제4 뉴럴 네트워크를 포함할 수 있다.

상기 뉴럴 네트워크는 상기 제1 단층촬영영상과 상기 제3 단층촬영영상 간의 통계적 거리 및 상기 실제 단층촬영영상이 상기 제2 뉴럴 네트워크와 상기 제1 뉴럴 네트워크를 통과하여 제4 단층촬영영상이 출력되는 경우 상기 실제 단층촬영영상과 상기 제4 단층촬영영상 간의 통계적 거리에 의해 계산되는 사이클 일관성 손실(cyclic loss), 상기 제2 단층촬영영상과 상기 실제 단층촬영영상 간의 적대 손실(adversarial loss) 및 상기 제1 뉴럴 네트워크에 상기 제2 단층촬영영상이 입력되거나 상기 제2 뉴럴 네트워크에 상기 제1 단층촬영영상이 입력되는 경우 상기 제1 뉴럴 네트워크의 입력 영상과 출력 영상 간 또는 상기 제2 뉴럴 네트워크의 입력 영상과 출력 영상 간의 아이덴티티 손실(identity loss)에 기초하여 비지도 학습될 수 있다.

상기 사이클 일관성 손실은 상기 제1 단층촬영영상과 상기 제3 단층촬영영상 간의 통계적 거리에 대한 제1 가중치와 상기 실제 단층촬영영상과 상기 제4 단층촬영영상 간의 통계적 거리에 대한 제2 가중치가 상이하게 조절되어 계산될 수 있다.

상기 사이클 일관성 손실은 상기 제2 가중치가 상기 제1 가중치보다 크게 설정되어 계산될 수 있다.

상기 뉴럴 네트워크는 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크 및 풀링 레이어와 언풀링 레이어를 포함하는 뉴럴 네트워크 중 어느 하나의 뉴럴 네트워크를 포함할 수 있다.

본 발명의 다른 일 실시예에 따른 단층촬영영상 처리 방법은 메탈 아티팩트(metal artifact)를 포함하는 단층촬영영상을 수신하는 단계; 및 주의 모델(attention model)이 적용되고, 최적 운송(optimal transport) 이론에 기초하여 생성된 비지도 학습(unsupervised learning) 기반의 뉴럴 네트워크를 이용하여 상기 수신된 단층촬영영상에서 메탈 아티팩트를 제거함으로써, 상기 메탈 아티팩트가 제거된 단층촬영영상을 생성하는 단계를 포함한다.

본 발명의 일 실시예에 따른 단층촬영영상 처리 장치는 메탈 아티팩트(metal artifact)를 포함하는 단층촬영영상을 수신하는 수신부; 및 주의 모델(attention model)이 적용된 비지도 학습(unsupervised learning) 기반의 뉴럴 네트워크를 이용하여 상기 수신된 단층촬영영상에서 메탈 아티팩트를 제거함으로써, 상기 메탈 아티팩트가 제거된 단층촬영영상을 생성하는 복원부를 포함한다.

본 발명의 실시예들에 따르면, 비지도 학습 기반의 뉴럴 네트워크를 이용하여 단층촬영영상의 메탈 아티팩트를 제거함으로써, 고화질의 단층촬영영상을 생성할 수 있다.

CT 영상에 메탈 아티팩트가 존재할 경우 병변의 진단이 불가능할 수가 있는데, 본 발명은 비지도 학습 기반의 뉴럴 네트워크를 통해 메탈 아티팩트를 제거하여 기존 영상에서 발견할 수 없었던 병변을 관찰할 수 있게 함으로써, 병변을 진단하는데 있어서 더 많은 정보를 제공할 수 있다.

본 발명의 실시예들에 따르면, 비지도 학습 기반의 뉴럴 네트워크를 통해 메탈 아티팩트를 제거함으로써, 메탈 아티팩트를 찾는 과정이 필요가 없으며, 복원 시간과 계산 복잡도를 감소시킬 수 있다.

본 발명의 실시예들에 따르면, 시뮬레이션 메탈 아티팩트 영상을 사용하지 않으며, 실제 메탈 아티팩트를 제거한 영상을 제공할 수 있다.

도 1은 메탈 아티팩트를 포함하는 치과 CT 영상에 대한 일 예시도를 나타낸 것이다.
도 2는 본 발명의 일 실시예에 따른 단층촬영영상 처리 방법에 대한 동작 흐름도를 나타낸 것이다.
도 3은 비지도 학습의 기하학적 뷰를 설명하기 위한 일 예시도를 나타낸 것이다.
도 4는 본 발명에서 사용하는 뉴럴 네트워크를 설명하기 위한 일 예시도를 나타낸 것이다.
도 5는 컨볼루션 블록 주의 모델을 설명하기 위한 일 예시도를 나타낸 것이다.
도 6은 생성기와 구별기에서 사용하는 뉴럴 네트워크 구조를 설명하기 위한 일 예시도를 나타낸 것이다.
도 7은 기존 방법과 본 발명의 방법에 의한 단층촬영영상의 메탈 아티팩트 제거 결과를 비교한 일 예시도를 나타낸 것이다.
도 8은 본 발명의 일 실시예에 따른 단층촬영영상 처리 장치에 대한 구성을 나타낸 것이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

본 발명의 실시예들은, 주의 모듈(attention module)이 적용된 비지도 학습 기반의 뉴럴 네트워크를 이용하여 단층촬영영상의 메탈 아티팩트를 제거함으로써, 고화질의 단층촬영영상을 생성하는 것을 그 요지로 한다.

본 발명에서 사용하는 뉴럴 네트워크는 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크, 풀링(pooling) 계층과 언풀링(unpooling) 계층을 포함하는 뉴럴 네트워크 예를 들어, U-Net을 포함할 수 있으며, 이 뿐만 아니라 본 발명에 적용 가능한 다양한 종류의 뉴럴 네트워크를 포함할 수 있다.

컨볼루션 프레임렛은 국소 기저 및 비국소 기저를 통해 입력 신호를 표현하는 방식을 의미하는 것으로, 딥 컨볼루션 뉴럴 네트워크의 블랙박스 특성을 밝히기 위해 딥 컨볼루션 프레임렛의 새로운 수학 이론에 대한 연구(Ye, JC., Han, Y., Cha, E.: Deep convolutional framelets: a general deep learning framework for inverse problems. SIAM Journal on Imaging Sciences 11(2), 991-1048(2018))에 상세하게 설명되어 있다.

고전적인 MAR 알고리즘 중에서, 사이노그램 수정 방법은 인접한 데이터에서 손상된 사이노그램을 제거하고 보간한 후에 객체를 재구성한다. 예를 들어, 선형 보간법(LI)은 가장 전통적이고 간단한 방법으로, 해당 방법은 원래 사이노그램의 메탈 부분을 경계에서 선형 보간값으로 대체한다. LI가 대부분의 배경 아티팩트를 제거하지만, 일반적으로 이 경우 사이노그램의 메탈 부분에 삽입된 부정확한 값으로 인해 새 아티팩트가 발생한다. 다른 보간법은 LI를 개선하기 위해 제안되었으며, 이 중 정규화된 메탈 아티팩트 감소(NMAR)가 가장 잘 알려져 있다. 이러한 방법은 영상 품질을 향상시키지만 최적의 파라미터를 선택하기 어렵기 때문에 일반 어플리케이션에는 여전히 한계가 있다.

다른 기술에서는 전송에 대한 최대우도(ML-TR), 예상 최대화(EM) 및 CT(IMPACT)에 대한 반복 최대우도 다색 알고리즘과 같이 MAR에 대해 반복 재구성 방법을 사용한다. 이러한 반복적 접근법의 주요 아이디어는 물리적 기원을 정확하게 모델링하여 사이노그램 불일치를 고려하는 것이다. 반복 재구성에 의한 재구성 결과는 거의 메탈 아티팩트가 없는 반면, 주요 단점 중 하나는 계산 복잡성이 매우 높다는 것이다.

MAR에 대한 지도 딥 러닝 방법의 한계를 다루기 위해, 비지도 MAR이 최근에 제안되었다. 특히, 일 실시예의 기술은 비지도 메탈 아티팩트 감소(ADN)를 위한 아티팩트 분리 네트워크를 제안하였다. ADN 방법은 아티팩트에 영향을 받는 영상의 아티팩트 및 콘텐츠 구성 요소를 콘텐츠 공간과 아티팩트 공간으로 별도로 인코딩하여 분리한다. 분리 문제가 잘 해결된 경우 인코딩된 콘텐츠 구성 요소에는 모든 콘텐츠 정보를 보존하는 동안 아티팩트에 대한 정보가 없어야 한다. 그러나 ADN 네트워크의 구조는 명시적 분리 단계로 인해 매우 복잡하다. 더욱이, 아티팩트가 없는 영상을 사용하는 이러한 명시적인 분리로 인해 ADN은 종종 입력 영상이 트레이닝 중에 고려되지 않은 다른 아티팩트와 함께 손상되었을 때 인위적인 특성을 도입한다.

딥 컨볼루션 네트워크를 기반으로 한 수많은 생성적 적대 네트워크(GAN)는 일부 영상 클래스에서 나타나는 기하학적 패턴 또는 구조적인 패턴을 캡쳐하는 데 어려움을 겪는다. 그들은 일부 클래스에서 지속적으로 발생하는 기하학적 또는 구조적인 패턴을 포착하지 못한다. 이는 컨볼루션 연산자의 작은 수용 필드가 그것들을 나타낼 수 없기 때문이며, 최적화 알고리즘은 이러한 의존성을 포착하기 위해 여러 계층을 세심하게 조정하는 파라미터 값을 발견하는 데 어려움을 겪을 수 있고, 이러한 파라미터화는 이전에 보이지 않았던 입력에 적용될 때 취약하고 실패하기 쉽다. 컨볼루션 커널의 크기를 증가시키면 네트워크의 대표 용량을 증가시킬 수 있지만, CNN이 획득한 계산 및 통계적 효율성을 잃을 수도 있다.

따라서, 주의(attention)는 글로벌 패턴을 포착하도록 설계되었기 때문에 주의 메커니즘은 글로벌 의존성을 포착해야 하는 모델의 필수적인 부분이 되었다. 자기 주의 메커니즘을 사용하는 일부 모델은 동일한 시퀀스 내의 모든 위치에 참석하여 시퀀스의 위치에서 반응을 계산한다. 이러한 모델 중, 자기 주의 적대 네트워크(SAGAN; self-attention Generative Adversarial Network)는 GAN의 맥락에서 자기 주의를 사용하는 인기 있는 모델이다. SAGAN은 영상의 내부 표현 내에서 글로벌 및 장거리 종속성을 찾기 위해 효율적으로 학습한다. 키와 쿼리를 계산하기 위해 두 개의 행렬 곱 연산을 사용하여 모델이 전체 공간 영역에 대한 정보를 얻는 데 효과적이 되도록 할 수 있다. 하지만, 전체 영상에서 키와 쿼리를 계산하는 것은 계산 비용이 많이 들고 입력 공간 크기가 커짐에 따라 메모리 문제를 일으킬 수 있다.

주의 메커니즘을 적용하는 다른 모듈 중에서 컨볼루션 블록 주의 모듈(CBAM; Convolutional Block Attention Module)은 공간 및 채널 도메인 모두에 주의하는 가장 간단하면서도 효과적인 모듈 중 하나이기 때문에 CBAM을 사용하여 넓은 지역에서 정보를 얻을 수 있다.

VAE의 줄임말인 가변 자동 인코더의 아이디어는 가변 Bayesian 및 그래픽 모델의 방법에 깊이 뿌리를 두고 있다. 특히, VAE에서 주어진 데이터셋 ∈ X는 파라미터화된 분포 p_θ(x)로 모델링되며, 목표는 로그 우도를 최대화하기 위한 파라미터 θ를 찾는 것이다. p_θ(x)의 직접 모델링은 어렵기 때문에 잠재 공간 Z의 단순 분포 p(z), z ∈ Z를 조건부 분포 p_θ(x|z) 계열과 결합하여 모델링함으로써, 아래 <수학식 1>과 같이 나타낼 수 있다.

[수학식 1]

여기서, p_θ(x|z)는 주어진 z에 대한 조건부 확률을 의미하고, q_φ(z|x)는 φ에 의해 파라미터화된 사용자가 선택한 후방 분포 모델을 의미할 수 있다. Jensen의 부등식을 이용하여, 잘 알려진 증거-하한(ELBO; evidence-lower bound) 손실 함수는 -log p_θ(x)의 상한으로 이어질 수 있으며, ELBO 손실 함수는 아래 <수학식 2>와 같이 나타낼 수 있다.

[수학식 2]

여기서, DKL은 쿨백-라이블러(KL; Kullback-Leiber) 분산을 의미할 수 있다.

상기 수학식 2의 VAE 손실을 검사함으로써, 첫 번째 항이 생성 샘플과 실제 샘플 사이의 거리를 나타내는 반면, 두 번째 항은 실제 잠재 공간 측정과 후방 분포 사이의 KL 거리라는 것을 쉽게 알 수 있다. 따라서, VAE 손실은 실제 샘플과 생성된 샘플 사이의 잠재 공간과 주변 공간 모두를 동일하게 고려하는 거리에 대한 측정값이다.

β-VAE는 두 거리에 대해 균일한 가중치를 부여하기 보다는 제어 가능한 변수 β를 도입하여 두 거리 사이의 상대적 중요성을 부여한다. 이 때, β-VAE 손실 함수는 아래 <수학식 3>과 같이 나타낼 수 있다.

[수학식 3]

β가 높을수록 잠재 공간에 더 많은 제약을 가하기 때문에, 잠재 공간이 더 해석 가능하고 제어 가능한 것으로 나타나는데, 이것을 구분이라 한다. 종종 혼란스러운 표현과 함께 오는 한 가지 이점은 그것이 하나의 단일 생성 인자에만 민감하고 다른 인자에 상대적으로 불변하여, 해석성이 좋고 다양한 작업에 대한 일반화가 쉽다는 것이다. 반면, β값이 크면 복제 품질이 강조되지 않고, β = 1보다 흐릿한 결과를 낳는다.

도 2는 본 발명의 일 실시예에 따른 단층촬영영상 처리 방법에 대한 동작 흐름도를 나타낸 것이다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 단층촬영영상 처리 방법은 메탈 아티팩트(metal artifact)를 포함하는 단층촬영영상을 수신하는 과정(S210)과 주의 모델(attention model)이 적용된 비지도 학습(unsupervised learning) 기반의 뉴럴 네트워크를 이용하여 수신된 단층촬영영상에서 메탈 아티팩트를 제거함으로써, 메탈 아티팩트가 제거된 단층촬영영상을 생성하는 과정(S220)을 포함한다.

본 발명에서 사용되는 뉴럴 네트워크는 최적 운송(optimal transport) 이론에 기초하여 생성될 수 있으며, 비매칭 데이터를 포함하는 트레이닝 데이터셋을 이용하여 학습될 수 있다.

나아가, 뉴럴 네트워크는 제1 단층촬영영상을 입력으로 제1 단층촬영영상을 메탈 아티팩트가 제거된 제2 단층촬영영상으로 변환하는 제1 뉴럴 네트워크, 제2 단층촬영영상을 입력으로 제2 단층촬영영상을 메탈 아티팩트가 포함된 제3 단층촬영영상으로 변환하는 제2 뉴럴 네트워크, 제1 단층촬영영상과 제3 단층촬영영상을 구별하는 제3 뉴럴 네트워크 및 제2 단층촬영영상과 제2 단층촬영영상에 대응하는 실제 단층촬영영상을 구별하는 제4 뉴럴 네트워크를 포함할 수 있으며. 이러한 네트워크 구조를 이용하여 학습될 수 있다.

구체적으로, 뉴럴 네트워크는 제1 단층촬영영상과 제3 단층촬영영상 간의 통계적 거리 및 실제 단층촬영영상이 제2 뉴럴 네트워크와 제1 뉴럴 네트워크를 통과하여 제4 단층촬영영상이 출력되는 경우 실제 단층촬영영상과 제4 단층촬영영상 간의 통계적 거리에 의해 계산되는 사이클 일관성 손실(cyclic loss), 제2 단층촬영영상과 실제 단층촬영영상 간의 적대 손실(adversarial loss) 및 제1 뉴럴 네트워크에 제2 단층촬영영상이 입력되거나 제2 뉴럴 네트워크에 제1 단층촬영영상이 입력되는 경우 제1 뉴럴 네트워크의 입력 영상과 출력 영상 간 또는 제2 뉴럴 네트워크의 입력 영상과 출력 영상 간의 아이덴티티 손실(identity loss)에 기초하여 비지도 학습될 수 있다.

이 때, 사이클 일관성 손실은 제1 단층촬영영상과 제3 단층촬영영상 간의 통계적 거리에 대한 제1 가중치와 실제 단층촬영영상과 제4 단층촬영영상 간의 통계적 거리에 대한 제2 가중치가 상이하게 조절되어 계산될 수 있으며, 제2 가중치가 제1 가중치보다 크게 설정되어 계산될 수 있다.

이러한 뉴럴 네트워크는 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크 및 풀링 레이어와 언풀링 레이어를 포함하는 뉴럴 네트워크 중 어느 하나의 뉴럴 네트워크를 포함할 수 있다.

본 발명의 방법에 대하여 도 3 내지 도 7을 참조하여 상세히 설명하면 다음과 같다.

CycleGAN의 기하학

CycleGAN은 특히 비지도 영상 아티팩트 제거에서 뛰어난 성능을 보여준다. 종래 일 실시예의 기술은 저선량 CT 노이즈 제거를 위한 CycleGAN 기반 모델을 제안하였고, 종래 다른 일 실시예의 기술은 위성 영상에서 노이즈를 제거하기 위한 CycleGAN 기반 모델을 제안하였다. 주어진 성과에서, 사람들은 그 결과로 생긴 개선이 실제적인 변화인지 아니면 겉치레에 불관한 변화인지 관심이 있다.

그런 점에서 최적 운송(OT; optimal transpo)은 CycleGAN에 의한 비지도 학습의 기하학을 이해하기 위한 엄격한 수학적 도구를 제공한다. 최적 운송 이론에서 비지도 학습에 대한 기하학적 관점은 도 3과 같다. 여기서 목표 영상 공간 X에는 확률 측정값 μ이 있는 반면, 원래 영상 공간 Y에는 확률 측정값 ν가 갖추어 있다. 짝으로 이루어진 데이터가 없기 때문에 비지도 학습의 목표는 각 개별 샘플이 아닌 확률 분포를 일치시키는 것이다. 측정값 μ를 ν로 전송하는 운송 맵을 찾거나 그 반대를 찾으면 된다.

보다 구체적으로, 측정 공간 (Y, ν)에서 다른 측정 공간 (X, μ)로의 운송은 θ에 파라미터화된 딥 뉴럴 네트워크에 의해 구현되는

생성기에 의해 수행된다. 그런 다음, 생성기 G_θ는 Y에서 측정 ν를 대상 공간 X의 측정 μ_θ로 밀고 나간다. 마찬가지로, (X, μ)에서 (Y, ν)로의 운송은 다른 뉴럴 네트워크 생성기 F_φ에 의해 수행되므로, 생성기 F_φ가 X에서 측정 μ를 원래 공간 Y의 측정 ν_φ로 밀고 나간다. 그런 다음, 비지도 학습을 위한 최적 운송 맵은 μ와 μ_θ사이의 통계적 거리 dist(μ_θ, μ) 및 ν와 ν_φ 사이의 통계 거리 dist(ν_φ,ν)를 최소화함으로써 달성될 수 있으며, 본 발명은 Wasserstein-1 메트릭을 통계적 거리를 측정하기 위한 수단으로 사용할 수 있다.

보다 구체적으로, X에서 메트릭 d(x, x') = ||x-x'||를 선택하는 경우, μ와 μ_θ 사이의 Wasserstein-1 메트릭은 아래 <수학식 4>와 같이 계산될 수 있다.

[수학식 4]

마찬가지로, ν와 ν_φ 사이의 Wasserstein-1 거리는 아래 <수학식 5>와 같이 계산될 수 있다.

[수학식 5]

뚜렷한 조인트 분포를 사용하여 상기 수학식 4와 수학식 5를 별도로 최소화하기 보다는, 운송 맵을 찾는 더 좋은 방법은 동일한 조인트 분포 π와 함께 그것들을 최소화하는 것으로, 아래 <수학식 6>과 같이 나타낼 수 있다.

[수학식 6]

이는 최적 운송 이론으로부터 비지도 학습의 일차 공식으로, 상기 수학식 6에서 비지도 학습의 일차 공식은 아래 <수학식 7> 및 <수학식 8>과 같이 이중 공식으로 나타낼 수 있다.

[수학식 7]

[수학식 8]

여기서, λ>0은 하이퍼 파라미터를 의미하며, 사이클 일관성 손실(l_cycle)은 아래 수학식과 같이 나타낼 수 있고, 구별기 항에 대한 손실(l_Disc) 즉, 적대 손실(adversarial loss)은 아래 <수학식 9>와 같이 나타낼 수 있다.

[수학식 9]

여기서, φ와 ψ는 종종 Kantorovich 포텐셜이라고 불리며 1-Lipschitz 조건인 아래 수학식을 만족시킬 수 있다.

머신 러닝 맥락에서 1-Lipschitz 포텐셜 φ와 ψ는 Wasserstein-GAN(W-GAN) 구별기에 해당된다. 구체적으로 φ은 실제 영상 x와 생성된 영상 G_θ(y)의 차이를 찾으려고 하는 반면, 합성 측정 절차 F_φ(x)에 의해 생성된 가짜 측정 데이터를 찾으려고 시도한다. 실제로 이 공식은 1-Lipschitz 구별기의 사용을 제외하고 CycleGAN 공식과 동일하다. 또한 유한 Lipschitz 조건과도 밀접한 관련이 있다. 따라서, 본 발명은 LS-GAN 변화를 구별기 항으로 간주할 수 있다.

이 때, 생성기에 대한 적대 손실은 아래 수학식과 같이 나타낼 수 있다.

이 때, 구별기에 대한 적대 손실은 아래 수학식과 같이 나타낼 수 있다.

메탈 아티팩트 구분용 β-CycleGAN

MAR에 대한 CycleGAN의 어플리케이션에서 Y가 메탈 아티팩트 영상의 도메인인 반면 X는 아티팩트가 없는 영상이라고 가정한다. 본 발명의 목표는 X와 Y의 통계적 거리에 불평등한 가중치를 부여하는 것으로, 아래 <수학식 10>에 나타낸 손실 함수를 사용하여 수행될 수 있다.

[수학식 10]

여기서, 본 발명은 표기상 단순성을 위해 Y의 통계적 거리에 대한 역수 가중치를 사용할 수 있다. 본 발명에서는 큰 β 값을 사용함으로써, 메탈 아티팩트 생성 처리보다 메탈 아티팩트 제거 처리를 더 중요하게 처리할 수 있다.

상기 수학식 10의 주요 문제에 해당하는 이중 손실 함수는 아래 <수학식 11>과 같이 나타낼 수 있다.

[수학식 11]

여기서, l_Disc은 상기 수학식 9와 같이 나타낼 수 있는 반면, 사이클 일관성 손실(l_β-cycle)은 아래 <수학식 12>와 같이 나타낼 수 있다.

[수학식 12]

상기 수학식 12를 통해 알 수 있듯이, 본 발명에서의 사이클 일관성 손실은 메탈 아티팩트가 없는 영상인 X와 메탈 아티팩트가 있는 영상인 Y의 통계적 거리에 상이한 가중치 즉, β를 부여함으로써, β 파라미터를 조절하여 X와 Y의 통계적 거리를 조절할 수 있다.

또 다른 수학적 차이는 구별기 D_φ와 D_ψ가 1/β Lipschitz라는 것이다. 그러나 구별기에 대한 정규화의 대부분은 Lipschitz 상수 변동과 관련하여 불변하기 때문에 구별기 구현에 실질적인 변화를 일으키지 않는다.

또한 많은 메탈 아티팩트 제거 문제에서 메탈 아티팩트의 양은 다양하며 때때로 아티팩트가 없는 영상이 G_θ의 입력으로 잘못 사용될 수 있다. 이 경우 G_θ의 출력과 동일한 영상이 생성되어야 한다. 마찬가지로, 메탈 아티팩트 영상이 F_φ에 대한 입력으로 사용되는 경우 출력은 동일한 영상이어야 한다. 이는 아래 <수학식 13>과 같이 나타낸 아이덴티티 손실(identity loss)에 의해 구현될 수 있다.

[수학식 13]

모든 것을 함께 고려해 볼 때, MAR에 대한 최종 최적화 문제는 아래 <수학식 14> 및 <수학식 15>와 같이 나타낼 수 있다.

[수학식 14]

[수학식 15]

여기서, γ>0은 아이덴티티 손실에 대한 하이퍼 파라미터를 의미할 수 있다.

본 발명의 뉴럴 네트워크는 도 4에 도시된 바와 같이, 두 개의 생성기 G, F와 두 개의 구별기 φ, ψ를 이용하여 학습될 수 있으며, 두 개의 생성기는 도 6a에 도시된 바와 같이 동일한 뉴럴 네트워크 아키텍처를 사용하여 구현될 수 있고, 두 개의 구별기는 도 6b에 도시된 바와 같이 동일한 뉴럴 네트워크 아키텍처를 사용하여 구현될 수 있다.

즉, 도 4에 도시된 뉴럴 네트워크는 제1 단층촬영영상(Y)을 입력으로 제1 단층촬영영상을 메탈 아티팩트가 제거된 제2 단층촬영영상(X)으로 변환하는 제1 생성기(G), 제2 단층촬영영상(X)을 입력으로 제2 단층촬영영상을 메탈 아티팩트가 포함된 제3 단층촬영영상(Y)으로 변환하는 제2 생성기(F), 제1 단층촬영영상과 제3 단층촬영영상을 구별하는 제1 구별기(ψ)와 제2 단층촬영영상과 제2 단층촬영영상에 대응하는 실제 영상을 구별하는 제2 구별기(φ)를 포함한다. 이러한 뉴럴 네트워크는 미리 정의된 사이클 일관성 손실(cyclic loss), 적대 손실(adversarial loss)과 아이덴티티 손실(identity loss)에 기초하여 학습될 수 있다.

이 때, 사이클 일관성 손실은 상기 수학식 12에서 알 수 있듯이, β 파라미터 값을 상이하게 조절함으로써, 제1 생성기(G)의 입력 영상과 제2 생성기(F)의 출력 영상 간의 통계적 거리와 제2 생성기(F)의 입력 영상과 제1 생성기(G)의 출력 영상 간의 통계적 거리에 대한 가중치를 상이하게 조절할 수 있고, 이를 통해 메탈 아티팩트가 없는 단층촬영영상에 대한 통계적 거리에 가중치를 더 주도록 조절하여 계산될 수 있다.

제1 생성기(G)는 메탈 아티팩트를 포함하는 단층촬영영상을 입력으로 하여 메탈 아티팩트를 제거한 단층촬영영상을 출력하거나 제2 생성기(F)에서 출력된 단층촬영영상 즉, 메탈 아티팩트가 포함되지 않은 고화질의 단층촬영영상에 메탈 아티팩트를 포함시킨 단층촬영영상을 입력으로 하여 해당 단층촬영영상에 포함된 메탈 아티팩트를 제거한 고화질의 단층촬영영상을 출력한다.

제2 생성기(F)는 메탈 아티팩트가 포함되지 않은 고화질의 단층촬영영상을 입력으로 하여 메탈 아티팩트를 포함하는 단층촬영영상을 출력하거나 제1 생성기에서 출력된 단층촬영영상을 입력으로 하여 해당 단층촬영영상에 메탈 아티팩트를 포함하는 단층촬영영상을 출력한다.

제1 구별기(ψ)는 메탈 아티팩트를 포함하는 단층촬영영상과 제2 생성기(F)에 의해 출력된 단층촬영영상을 구별하는 뉴럴 네트워크이며, 제2 구별기(φ)는 제1 생성기(G)에 의해 메탈 아티팩트가 제거된 단층촬영영상과 메탈 아티팩트를 포함하지 않는 고화질의 실제 단층촬영영상을 구별하는 뉴럴 네트워크이다.

즉, 본 발명에서 사이클 지속성은 메탈 아티팩트를 포함하는 단층촬영영상에서 메탈 아티팩트를 제거한 대상 단층촬영영상을 출력하여 대상 단층촬영영상에 대한 메탈 아티팩트를 포함하는 단층촬영영상을 출력한 후 이를 다시 생성기의 입력으로 돌아오는 과정을 반복한다. 그리고 입력 영상과 제2 생성기에서 출력된 단층촬영영상이 서로 같아지도록 뉴럴 네트워크를 순환 방식으로 학습시킨다. 물론, 이러한 순환 방식의 학습은 도 4의 하부 생성기들에 대해서도 동시에 이루어진다. 비지도 학습 방식은 생성적 적대 뉴럴 네트워크(GAN)을 사용하여 구별기들을 학습시킨다.

주의 기하학(geometry of attention)

주의 딥 뉴럴 네트워크 구현에서는 공간 주의와 채널 주의라는 두 가지 유형의 주의가 종종 사용된다. 이를 이해하기 위해, 특성 맵은 아래 <수학식 16>과 같이 나타낼 수 있다.

[수학식 16]

여기서,

은 Z의 c번쩨 열 벡터를 의미하며, 이는 c번째 채널에서 HW 크기의 벡터화된 특성 맵을 나타낸다. 그런 다음, 주의를 기울인 특성 맵

는 아래 <수학식 17>과 같이 행렬 곱으로 계산된다.

[수학식 17]

Y=AZT

여기서,

는 공간 주의 맵을 의미하고,

는 채널 주의 맵을 의미할 수 있다.

딥 컨볼루션 프레임렛 이론에 따르면, 상기 수학식 17의 표현은 글로벌 풀링 연산을 따르는 1Х1 컨볼루션 연산과 정확히 같다. 즉, 주의 모듈의 주요 차이점은 1Х1 필터 커널과 글로벌 풀링이 더 많은 데이터 적응성을 얻을 수 있도록 사전 트레이닝보다는 특성 맵에서 추정된다는 것이다.

실제로 채널 주의 맵 T는 각 대각 요소가 각 채널의 가중치를 나타내도록 대각 행렬로 구현된다. 한편, 공간 주의 맵 A는 일반적으로 전체 매트릭스로 계산되므로, 해당 형상의 글로벌 정보가 해당 특성 맵을 계산하는 데 사용된다. 주요 설계 기준은 특성 의존적 표현성을 유지하면서 계산 복잡성을 줄이는 것이다. 이와 같이, 도 5에 도시된 컨볼루션 블록 주의 모듈(CBAM)은 목표를 달성하기 위한 상대적으로 작은 계산 복잡성으로 채널과 공간 주의를 모두 가지고 있다. CBAM에 대해 자세히 설명하면 다음과 같다. 여기서, 도 5a는 CBAM의 다이어그램을 나타낸 것이고, 도 5b는 채널 주의 모듈을 나타낸 것이며, 도 5c는 공간 주의 모듈을 나타낸 것이다.

1) 채널 주의 모듈(channel attention module): 특성 맵의 각 채널이 특성 검출기로 간주되기 때문에 채널 주의는 입력 영상이 주어진 '무엇'이 중요한 채널인지에 집중된다. 이 모듈을 효율적으로 계산하기 위해, 본 발명은 공간 정보를 집계하기 위한 평균 풀링과 독특한 객체 특징에 대한 또 다른 중요한 단서를 수집하기 위한 최대 풀링을 모두 사용하여 입력 특성 맵의 공간 차원을 압축할 수 있다. 그 후, 각 채널 가중치 파라미터를 찾기 위해 압축된 두 형상을 다계층 수용체(MLP) 계층으로 통과시킬 수 있다.

2) 공간 주의 모듈(spatial attention module): 채널 주의 모듈과는 달리 공간 주의에서는 '어디서'에 초점을 맞춘다. 공간 주의 모듈도 메모리 효율성을 위해 평균 풀링과 최대 풀링을 모두 사용할 수 있다. 본 발명은 공간 영역 정보를 반영하기 위해 7Х7 컨볼루션 연산자를 사용할 수 있으며, 7Х7 컨볼루션은 전체는 아니지만 가능한 넓은 범위의 공간 정보를 반영할 수 있다.

나아가, 본 발명은 인코더에서 디코더로 전달되었을 때 정보의 특정 부분을 강조하기 위해 스킵과 생성기의 연결 계층에 CBAM을 추가할 수 있다.

데이터셋

1) 실제 메탈 아티팩트 데이터: 본 발명에서는 실제 치과 CT 스캐너에서 얻은 영상을 활용할 수 있다. 동일한 간격의 콘 빔 투영 데이터에서 FDK로 CT 영상을 재구성할 수 있으며, 시야각은 0° ~ 180°일 수 있다. 재구성된 영상의 x-y 매트릭스 크기는 504Х504이고 z 슬라이스 수는 400이다. 환자 데이터 5개 중 3개 환자의 데이터가 트레이닝 셋으로 사용될 수 있고, 1개 환자의 데이터가 유효성 검사 셋으로 사용되었으며, 다른 환자의 데이터가 테스트셋으로 사용될 수 있다. 메탈 아티팩트를 구별하기 위해 모든 영상을 시각적으로 검사할 수 있다.

2) 합성 메탈 아티팩트 데이터: 실제 샘플을 사용한 MAR 알고리즘의 개발은 아티팩트 영상에 해당하는 깨끗한 지상검증 자료가 없기 때문에 정량적 평가의 어려움으로 이어진다. 실측값이 없으면 피크 신호 대 잡음비(PSNR) 및 구조 유사성 지수 메트릭(SSIM)과 같은 영상 재구성을 위한 정량적 메트릭을 계산할 수 없다. 알고리즘의 정량적 평가를 위해 합성 메탈 아티팩트를 추가하여 데이터를 정리할 수 있다. 간 종양 분할 챌린지(LiTS) 데이터셋에서 10,997개의 아티팩트가 없는 CT 영상을 랜덤으로 선택하고 컨볼루션 뉴럴 네트워크 기반 메탈 아티팩트 감소(CNNMAR)의 방법을 따라 메탈 아티팩트를 합성할 수 있다. 메탈 아티팩트를 만들기 위해, Matlab을 사용하여 업로드한 코드를 사용할 수 있다. 특히, 트레이닝을 위한 짝으로 된 데이터를 생성하기 위해, 아티팩트가 없는 CT 영상에서 메탈에 영향을 받는 다색 투영 데이터를 합성하는 동안 빔 강화 효과와 Poisson 노이즈를 시뮬레이션할 수 있다. 임의의 위치에 있는 메탈의 수는 1에서 2로 설정될 수 있다.

네트워크 트레이닝을 위해 5,860개의 영상을 사용하여 합성 메탈 아티팩트 데이터를 만들고 4,115개의 영상을 깨끗한 데이터로 만들 수 있다. 합성 메탈 아티팩트 데이터를 만들기 위해 122개의 영상을, 깨끗한 데이터를 만들기 위해 192개의 영상을 사용할 수 있다. 본 발명은 373개의 합성 메탈 아티팩트 영상과 335개의 메탈 아티팩트 없는 영상을 실험할 수 있으며, 입력 영상의 크기는 256Х256이다. 메탈 아티팩트를 만들기 전에 전체 크기 영상(512Х512)가 너무 커서 ADN 방법을 트레이닝할 수 없지만 전체 크기 영상은 2선형 보간법을 사용하여 영상을 다운샘플링할 수 있다.

네트워크 구조

MAR 모델에서 생성기 G_θ와 F_φ의 경우, 도 6a와 같이 주의 모듈을 건너뛰고 연결하는 U-net 구조를 사용할 수 있다. 도 6a의 제1 화살표는 기본 연산자이며 3Х3 컨볼루션과 정류 선형 단위(ReLU) 및 배치 정규화로 구성될 수 있다. 제2 화살표는 2Х2 평균 풀링 연산자이며, 제3 화살표는 3Х3 디컨볼루션일 수 있다. 제4 화살표는 단순한 1Х1 컨볼루션 연산자이며, 제5 화살표는 CBAM을 추가하는 건너뛰기 및 연결 연산자이다. 이 주의 모듈은 두 개의 하위 모듈로 구성된다. 하나는 채널 주의 모듈이고 다른 하나는 공간 주의 모듈이다. 구별기 D_φ와 D_ψ는 PatchGAN의 구조를 기반으로 구성되며, 영상 패치를 penalize하여 영상의 질감과 스타일을 캡처할 수 있다. 본 발명은 도 6b에 도시된 바와 같이, 4개의 컨볼루션 계층과 배치 정규화와 완전 연결 계층으로 구성된 PatchGAN을 사용할 수 있다.

트레이닝 세부 정보

1) 실제 메탈 아티팩트 데이터: 미니 배치는 1로 사용될 수 있으며 입력 영상의 크기는 504Х504일 수 있다. 그리고 트레이닝 받은 네트워크는 추론 단계에서 동일한 크기의 영상에 사용될 수 있다. 본 발명은 각 메탈과 비메탈 그룹의 영상을 랜덤으로 섞은 다음, 그 트레이닝에 일치하지 않는 데이터를 사용한다. λ = 10, β = 10, γ = 1인 상기 수학식 14의 최적화 문제를 풀고 네트워크를 트레이닝시킬 수 있다. 실제 메탈 아티팩트는 빔 강화, photon starvation 등과 같은 복잡한 물리적 현상에서 발생하므로 큰 β값은 아티팩트 영상 생성에는 덜 중점을 두고 아티팩트가 없는 영상 생성에 더 많은 초점을 맞춘다. 이는 실제 데이터 사례에서 유용하다는 것을 알수 있다. 또한, 메탈 아티팩트가 없는 영상에도 빔 강화 아티팩트가 있을 수 있기 때문에, 변경할 필요가 없는 속성을 포함하는 하이퍼 파라미터의 값을 줄이는, 아이덴티티 손실 비율을 낮출 수 있다.

아담 옵티마이저는 β₁ = 0.5, β₂ = 0.999로 손실 함수를 최적화하는 데 사용될 수 있다. 본 발명에서는 50 에포크(epoch)에서 조기 정지를 실시할 수 있는데, 이는 조기 정지가 정규화로 작용하기 때문이다. 컨볼루션 커널은 xavier 이니셜라이저에 의해 초기화될 수 있으며, 학습률은 2Х10^-3일 수 있다.

추가 평가는 ADN 방법과 성능을 비교하기 위해 샘플링 인자 2로 서브샘플링 후 수행될 수 있다. 전체 크기 영상이 너무 커서 ADN 방법을 트레이닝할 수 없기 때문에 다운샘플링 후 ADN을 적용한다.

2) 합성 메탈 아티팩트 데이터: 미니 배치는 1로 사용될 수 있으며 입력 영상의 크기는 샘플링 인자 2로 다운샘플링되는 256Х256일 수 있다. 다운샘플링은 작은 크기의 영상으로만 작동할 수 있는 ADN과의 공정한 정량적 비교를 위해 수행될 수 있다. 일부 파라미터를 제외하고 실제 데이터셋 실험과 동일한 작업을 수행할 수 있다. λ = 10, β = 10, γ = 1인 상기 수학식 14의 최적화 문제를 풀어 네트워크를 트레이닝시킬 수 있다. 합성 실험에서는 아티팩트 생성 절차가 비교적 간단하기 때문에 두 개의 통계 거리에 동일한 가중치를 사용할 수 있으며, 메탈 아티팩트가 없는 영상에는 아티팩트가 없으므로 실제 데이터셋 실험과 대조적으로 더 큰 아이덴티티 손실 비율을 사용할 수 있다.

도 7은 기존 방법과 본 발명의 방법에 의한 단층촬영영상의 메탈 아티팩트 제거 결과를 비교한 일 예시도를 나타낸 것으로, 도 7a는 메탈 아티팩트를 포함하는 입력 영상을 나타낸 것이고, 도 7b는 메탈 아티팩트가 없는 실측 영상을 나타낸 것이며, 도 7c는 본 발명의 방법에 의한 메탈 아티팩트 제거 결과를 나타낸 것이며, 도 7d는 cycleGAN에 의한 메탈 아티팩트 제거 결과를 나타낸 것이고, 도 7e는 다운샘플링된 입력을 가지는 ADN에 의한 메탈 아티팩트 제거 결과를 나타낸 것이며, 도 7f는 LI에 의한 메탈 아티팩트 제거 결과를 나타낸 것이고, 도 7g는 NMAR에 의한 메탈 아티팩트 제거 결과를 나타낸 것이다.

도 7을 통해 알 수 있듯이, 본 발명이 방법에 의한 메탈 아티팩트 제거 결과가 다른 방법보다 뛰어난 성능을 보이는 것을 알 수 있으며, 특히 도 7c에 도시된 바와 같이, 본 발명의 방법은 정보의 손실이 거의없이 메탈 아티팩트를 성공적으로 제거한 것을 알 수 있다. 도 7에 기재된 숫자는 PSNR/SSIM 값을 나타낸 것으로, 본 발명의 방법은 모든 영상에 대한 PSNR 측면에서 다른 방법보다 성능이 뛰어난 것을 알 수 있으며, 본 발명의 방법에 대한 SSIM 점수는 AND의 SSIM 점수와 유사한 것을 알 수 있다.

도 8은 본 발명의 일 실시예에 따른 단층촬영영상 처리 장치에 대한 구성을 나타낸 것으로, 도 2 내지 도 7의 방법을 수행하는 장치에 대한 개념적인 구성을 나타낸 것이다.

도 8을 참조하면, 본 발명의 일 실시예에 따른 단층촬영영상 처리 장치는 수신부와 복원부를 포함한다.

수신부는 메탈 아티팩트(metal artifact)를 포함하는 단층촬영영상을 수신한다.

복원부는 주의 모델(attention model)이 적용된 비지도 학습(unsupervised learning) 기반의 뉴럴 네트워크를 이용하여 수신된 단층촬영영상에서 메탈 아티팩트를 제거함으로써, 메탈 아티팩트가 제거된 단층촬영영상을 생성하는 한다.

비록, 도 8의 장치에서 그 설명이 생략되었더라도, 도 8을 구성하는 각 구성 수단은 도 1 내지 도 7에서 설명한 모든 내용을 포함할 수 있으며, 이는 이 기술 분야에 종사하는 당업자에게 있어서 자명하다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.　 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.　 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.　 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.　 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.　 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.　 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.　 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.　 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.　 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.　 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.　

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.　 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

메탈 아티팩트(metal artifact)를 포함하는 단층촬영영상을 수신하는 단계; 및
주의 모델(attention model)이 적용된 비지도 학습(unsupervised learning) 기반의 뉴럴 네트워크를 이용하여 상기 수신된 단층촬영영상에서 메탈 아티팩트를 제거함으로써, 상기 메탈 아티팩트가 제거된 단층촬영영상을 생성하는 단계
를 포함하고,
상기 뉴럴 네트워크는
제1 단층촬영영상을 입력으로 상기 제1 단층촬영영상을 메탈 아티팩트가 제거된 제2 단층촬영영상으로 변환하는 제1 뉴럴 네트워크;
상기 제2 단층촬영영상을 입력으로 상기 제2 단층촬영영상을 메탈 아티팩트가 포함된 제3 단층촬영영상으로 변환하는 제2 뉴럴 네트워크;
상기 제1 단층촬영영상과 상기 제3 단층촬영영상을 구별하는 제3 뉴럴 네트워크; 및
상기 제2 단층촬영영상과 상기 제2 단층촬영영상에 대응하는 실제 단층촬영영상을 구별하는 제4 뉴럴 네트워크
를 포함하며,
상기 제1 단층촬영영상과 상기 제3 단층촬영영상 간의 통계적 거리 및 상기 실제 단층촬영영상이 상기 제2 뉴럴 네트워크와 상기 제1 뉴럴 네트워크를 통과하여 제4 단층촬영영상이 출력되는 경우 상기 실제 단층촬영영상과 상기 제4 단층촬영영상 간의 통계적 거리에 의해 계산되는 사이클 일관성 손실(cyclic loss)에 기초하여 비지도 학습되고,
상기 사이클 일관성 손실은
상기 제1 단층촬영영상과 상기 제3 단층촬영영상 간의 통계적 거리에 대한 제1 가중치와 상기 실제 단층촬영영상과 상기 제4 단층촬영영상 간의 통계적 거리에 대한 제2 가중치가 상이하게 조절되어 통계적 거리가 조절되는 것을 특징으로 하는 단층촬영영상 처리 방법.
제1항에 있어서,
상기 뉴럴 네트워크는
최적 운송(optimal transport) 이론에 기초하여 생성되는 것을 특징으로 하는 단층촬영영상 처리 방법.
제1항에 있어서,
상기 뉴럴 네트워크는
비매칭 데이터를 포함하는 트레이닝 데이터셋을 이용하여 학습되는 것을 특징으로 하는 단층촬영영상 처리 방법.
삭제
제1항에 있어서,
상기 뉴럴 네트워크는
상기 제1 단층촬영영상과 상기 제3 단층촬영영상 간의 통계적 거리 및 상기 실제 단층촬영영상이 상기 제2 뉴럴 네트워크와 상기 제1 뉴럴 네트워크를 통과하여 제4 단층촬영영상이 출력되는 경우 상기 실제 단층촬영영상과 상기 제4 단층촬영영상 간의 통계적 거리에 의해 계산되는 사이클 일관성 손실(cyclic loss), 상기 제2 단층촬영영상과 상기 실제 단층촬영영상 간의 적대 손실(adversarial loss) 및 상기 제1 뉴럴 네트워크에 상기 제2 단층촬영영상이 입력되거나 상기 제2 뉴럴 네트워크에 상기 제1 단층촬영영상이 입력되는 경우 상기 제1 뉴럴 네트워크의 입력 영상과 출력 영상 간 또는 상기 제2 뉴럴 네트워크의 입력 영상과 출력 영상 간의 아이덴티티 손실(identity loss)에 기초하여 비지도 학습되는 것을 특징으로 하는 단층촬영영상 처리 방법.
삭제
제1항에 있어서,
상기 사이클 일관성 손실은
상기 제2 가중치가 상기 제1 가중치보다 크게 설정되어 계산되는 것을 특징으로 하는 단층촬영영상 처리 방법.
제1항에 있어서,
상기 뉴럴 네트워크는
컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크 및 풀링 레이어와 언풀링 레이어를 포함하는 뉴럴 네트워크 중 어느 하나의 뉴럴 네트워크를 포함하는 것을 특징으로 하는 단층촬영영상 처리 방법.
메탈 아티팩트(metal artifact)를 포함하는 단층촬영영상을 수신하는 단계; 및
주의 모델(attention model)이 적용되고, 최적 운송(optimal transport) 이론에 기초하여 생성된 비지도 학습(unsupervised learning) 기반의 뉴럴 네트워크를 이용하여 상기 수신된 단층촬영영상에서 메탈 아티팩트를 제거함으로써, 상기 메탈 아티팩트가 제거된 단층촬영영상을 생성하는 단계
를 포함하고,
상기 뉴럴 네트워크는
제1 단층촬영영상을 입력으로 상기 제1 단층촬영영상을 메탈 아티팩트가 제거된 제2 단층촬영영상으로 변환하는 제1 뉴럴 네트워크;
상기 제2 단층촬영영상을 입력으로 상기 제2 단층촬영영상을 메탈 아티팩트가 포함된 제3 단층촬영영상으로 변환하는 제2 뉴럴 네트워크;
상기 제1 단층촬영영상과 상기 제3 단층촬영영상을 구별하는 제3 뉴럴 네트워크; 및
상기 제2 단층촬영영상과 상기 제2 단층촬영영상에 대응하는 실제 단층촬영영상을 구별하는 제4 뉴럴 네트워크
를 포함하며,
상기 제1 단층촬영영상과 상기 제3 단층촬영영상 간의 통계적 거리 및 상기 실제 단층촬영영상이 상기 제2 뉴럴 네트워크와 상기 제1 뉴럴 네트워크를 통과하여 제4 단층촬영영상이 출력되는 경우 상기 실제 단층촬영영상과 상기 제4 단층촬영영상 간의 통계적 거리에 의해 계산되는 사이클 일관성 손실(cyclic loss)에 기초하여 비지도 학습되고,
상기 사이클 일관성 손실은
상기 제1 단층촬영영상과 상기 제3 단층촬영영상 간의 통계적 거리에 대한 제1 가중치와 상기 실제 단층촬영영상과 상기 제4 단층촬영영상 간의 통계적 거리에 대한 제2 가중치가 상이하게 조절되어 통계적 거리가 조절되는 것을 특징으로 하는 단층촬영영상 처리 방법.
메탈 아티팩트(metal artifact)를 포함하는 단층촬영영상을 수신하는 수신부; 및
주의 모델(attention model)이 적용된 비지도 학습(unsupervised learning) 기반의 뉴럴 네트워크를 이용하여 상기 수신된 단층촬영영상에서 메탈 아티팩트를 제거함으로써, 상기 메탈 아티팩트가 제거된 단층촬영영상을 생성하는 복원부
를 포함하고,
상기 뉴럴 네트워크는
제1 단층촬영영상을 입력으로 상기 제1 단층촬영영상을 메탈 아티팩트가 제거된 제2 단층촬영영상으로 변환하는 제1 뉴럴 네트워크;
상기 제2 단층촬영영상을 입력으로 상기 제2 단층촬영영상을 메탈 아티팩트가 포함된 제3 단층촬영영상으로 변환하는 제2 뉴럴 네트워크;
상기 제1 단층촬영영상과 상기 제3 단층촬영영상을 구별하는 제3 뉴럴 네트워크; 및
상기 제2 단층촬영영상과 상기 제2 단층촬영영상에 대응하는 실제 단층촬영영상을 구별하는 제4 뉴럴 네트워크
를 포함하며,
상기 제1 단층촬영영상과 상기 제3 단층촬영영상 간의 통계적 거리 및 상기 실제 단층촬영영상이 상기 제2 뉴럴 네트워크와 상기 제1 뉴럴 네트워크를 통과하여 제4 단층촬영영상이 출력되는 경우 상기 실제 단층촬영영상과 상기 제4 단층촬영영상 간의 통계적 거리에 의해 계산되는 사이클 일관성 손실(cyclic loss)에 기초하여 비지도 학습되고,
상기 사이클 일관성 손실은
상기 제1 단층촬영영상과 상기 제3 단층촬영영상 간의 통계적 거리에 대한 제1 가중치와 상기 실제 단층촬영영상과 상기 제4 단층촬영영상 간의 통계적 거리에 대한 제2 가중치가 상이하게 조절되어 통계적 거리가 조절되는 것을 특징으로 하는 단층촬영영상 처리 장치.
제10항에 있어서,
상기 뉴럴 네트워크는
최적 운송(optimal transport) 이론에 기초하여 생성되는 것을 특징으로 하는 단층촬영영상 처리 장치.
제10항에 있어서,
상기 뉴럴 네트워크는
비매칭 데이터를 포함하는 트레이닝 데이터셋을 이용하여 학습되는 것을 특징으로 하는 단층촬영영상 처리 장치.
삭제
제10항에 있어서,
상기 뉴럴 네트워크는
상기 제1 단층촬영영상과 상기 제3 단층촬영영상 간의 통계적 거리 및 상기 실제 단층촬영영상이 상기 제2 뉴럴 네트워크와 상기 제1 뉴럴 네트워크를 통과하여 제4 단층촬영영상이 출력되는 경우 상기 실제 단층촬영영상과 상기 제4 단층촬영영상 간의 통계적 거리에 의해 계산되는 사이클 일관성 손실(cyclic loss), 상기 제2 단층촬영영상과 상기 실제 단층촬영영상 간의 적대 손실(adversarial loss) 및 상기 제1 뉴럴 네트워크에 상기 제2 단층촬영영상이 입력되거나 상기 제2 뉴럴 네트워크에 상기 제1 단층촬영영상이 입력되는 경우 상기 제1 뉴럴 네트워크의 입력 영상과 출력 영상 간 또는 상기 제2 뉴럴 네트워크의 입력 영상과 출력 영상 간의 아이덴티티 손실(identity loss)에 기초하여 비지도 학습되는 것을 특징으로 하는 단층촬영영상 처리 장치.
삭제
제10항에 있어서,
상기 사이클 일관성 손실은
상기 제2 가중치가 상기 제1 가중치보다 크게 설정되어 계산되는 것을 특징으로 하는 단층촬영영상 처리 장치.
제10항에 있어서,
상기 뉴럴 네트워크는
컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크 및 풀링 레이어와 언풀링 레이어를 포함하는 뉴럴 네트워크 중 어느 하나의 뉴럴 네트워크를 포함하는 것을 특징으로 하는 단층촬영영상 처리 장치.