WO2022107998A1

WO2022107998A1 - 3차원 영상 영역화 방법 및 장치

Info

Publication number: WO2022107998A1
Application number: PCT/KR2021/001157
Authority: WO
Inventors: 박상현; 김수필
Original assignee: 재단법인대구경북과학기술원
Priority date: 2020-11-18
Filing date: 2021-01-28
Publication date: 2022-05-27
Also published as: KR20220067931A; KR102554914B1

Abstract

3차원 영상 영역화 방법 및 장치가 개시된다. 본 개시의 일 실시 예에 따른 3차원 영상 영역화 방법은, 영역화의 대상이 되는 3차원 영상 데이터인 쿼리 이미지, 쿼리 이미지의 영역화를 위해 참조로 사용되는 3차원 서포트 이미지 및 서포트 이미지에서 영역화 객체가 표시된 서포트 레이블을 획득하는 단계와, 3차원 영상 데이터 영역화를 수행하도록 훈련된 학습 모델을 로딩하는 단계와, 쿼리 이미지, 서포트 이미지 및 서포트 레이블에 학습 모델을 적용하여 쿼리 이미지 상에 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력하는 단계를 포함할 수 있다.

Description

3차원 영상 영역화 방법 및 장치

본 개시는 퓨샷 러닝(Few-Shot Learning) 알고리즘에 기반하여 소수의 데이터로 3차원 영상에서 관심 영역을 검출할 수 있는 모델을 이용한 3차원 영상 영역화 방법 및 장치에 관한 것이다.

의료 영상에서 관심 장기를 영역화(segmentation) 하는 것은 정확한 질병 진단과 종단 연구를 위해 필수적이다. 최근 딥러닝 기반 기법들이 영역화 문제에서 좋은 성능을 보이고 있지만 높은 성능을 위해서는 대규모 데이터 셋(set)이 필수적이다. 그러나 특히 의료 영상은 비싼 촬영 비용, 장기(organ)마다의 프로토콜과 해상도 때문에 학습에 필요한 대규모 데이터 셋을 구축하기 어렵다.

이러한 문제를 해결하기 위해, 최근 소수의 관련 데이터만으로 물체의 영역화를 효과적으로 해내기 위한 퓨샷 러닝(Few-shot learning) 기법들이 제안되고 있다. 퓨샷 러닝의 핵심 아이디어는 다양한 문제에서 소수의 데이터만으로 검증데이터의 정답을 예측하는 일반적인 지식을 학습하는 것이다. 즉, 새로운 문제를 풀기 위해 큰 규모의 데이터 셋을 구축하는 것이 아니라, 기존에 확보된 여러 가지 데이터를 바탕으로 일반적인 지식을 추출하여 새로운 문제에 적용함으로써, 소수의 데이터만으로 문제를 해결할 수 있다.

그러나 기존에 제안된 퓨샷 영역화 기법들은 2차원 영상분석에 초점이 맞춰져 있어 3차원 영상의 영역화에는 적합하지 않다. 그러나 3차원 입력 영상을 처리하기 위해 3차원 합성곱을 도입하게 되면 적은 수의 데이터 셋에 쉽게 과적합(overfitting)이 일어날 뿐만 아니라 3차원 연산을 위해 GPU 메모리 사용량이 크게 증가하여 배치 사이즈가 매우 낮게 제한되는 문제가 있다.

이에, 종래에는 선행기술 1 내지 선행기술 3과 같이 3차원 영상을 2차원 슬라이스 여러 개로 나누어 각각 영역화를 수행했다.

선행기술 1은 도 1(a)에 도시된 바와 같이, 보다 정확한 프로토 타입을 선택하기 위해 쿼리(query) 이미지와 예측된 쿼리 레이블을 서포트 데이터로 사용하여 서포트 레이블을 역으로 추측하는 정렬 손실(alignment loss)을 추가로 제안하는 것에 관한 것이다. 그러나 선행기술 1과 같은 프로토 타입 기반 방법은 예측을 위한 프로토 타입 또는 매개 변수 간의 관계가 다운 샘플링 된 임베딩 공간에서 학습된 다음 보간을 사용하여 빠르게 업 샘플링 되기 때문에 예측된 분할(segmentation)의 해상도가 종종 낮다는 점에서 제한적일 수 있다.

또한 선행기술 2는 도 1(b)에 도시된 바와 같이, 서로 다른 레벨에서 스킵 연결이 있는 디코더를 사용하여 인코딩 된 특징(feature)의 업 샘플링을 점진적으로 수행하는 것에 관한 것이고, 선행기술 3은 도 1(c)에 도시된 바와 같이, 서포트 및 쿼리 데이터를 위한 모듈 사이에 추가된 압착(squeeze) 및 여기(excitation) 블록이 있는 조밀한 연결을 사용하여 3차원 의료 영상에서 장기 분할을 위한 퓨샷 방법에 관한 것이다.

그러나 선행기술 2 및 3과 같은 방법은 인접 슬라이스 간의 상황 정보를 고려하지 않고 서포트 데이터에만 의존하여 쿼리 이미지의 분할을 추정하기 때문에 3차원 영상에서 부드러운 분할 결과를 얻는 데 한계가 있다. 즉, 종래에는 인접한 슬라이스 간의 매끄러움과 3차원 구조정보가 고려되지 않아 부정확한 영역화가 얻어질 수 있는 문제가 있다.

전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

선행기술 1: Wang, K.; Liew, J. H.; Zou, Y.; Zhou, D.; and Feng, J. 2019. Panet: Few-shot image semantic segmentation with prototype alignment. In Proceedings of the IEEE International Conference on Computer Vision, 91979206.

선행기술 2: Li, X.; Wei, T.; Chen, Y. P.; Tai, Y.-W.; and Tang, C.-K. 2020. Fss-1000: A 1000-class dataset for few-shot segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 28692878.

선행기술 3: Roy, A. G.; Siddiqui, S.; Polsterl, S.; Navab, N.; and Wachinger, C. 2020. 'Squeeze & excite'guided few-shot segmentation of volumetric images. Medical image analysis 59: 101587.

본 개시의 실시 예의 일 과제는, 양방향 순환네트워크 기반 퓨샷 러닝을 적용하여, 소수의 데이터로 3차원 영상에서 관심 영역을 검출할 수 있는 모델을 생성하고자 하는데 있다.

본 개시의 실시 예의 일 과제는, 양방향 순환네트워크에 기반하여 3차원 볼륨의 인접한 슬라이스 간의 주요 관계를 캡쳐 할 수 있는 3차원 퓨샷 영역화 모델을 제안하고자 하는데 있다.

본 개시의 실시 예의 일 과제는, 멀티 샷 분할 모델에서 성능을 향상시키기 위해 전이 학습 전략을 제안하고자 하는데 있다.

본 개시의 실시 예의 일 과제는, 3차원 의료 영상에 대한 소수의 다양한 데이터를 이용하여 3차원 의료 영상에서 관심 장기를 정확하게 검출하고자 하는데 있다.

본 개시의 실시 예의 목적은 이상에서 언급한 과제에 한정되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시 예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 알 수 있을 것이다.

본 개시의 일 실시 예에 따른 3차원 영상 영역화 방법은, 양방향 순환네트워크 기반 퓨샷 러닝을 적용하여, 소수의 데이터로 3차원 영상에서 관심 영역을 정확하게 검출하는 단계를 포함할 수 있다.

구체적으로 본 개시의 일 실시 예에 따른 3차원 영상 영역화 방법은, 영역화의 대상이 되는 3차원 영상 데이터인 쿼리 이미지, 쿼리 이미지의 영역화를 위해 참조로 사용되는 3차원 서포트 이미지 및 서포트 이미지에서 영역화 객체가 표시된 서포트 레이블을 획득하는 단계와, 3차원 영상 데이터 영역화를 수행하도록 훈련된 학습 모델을 로딩하는 단계와, 쿼리 이미지, 서포트 이미지 및 서포트 레이블에 학습 모델을 적용하여 쿼리 이미지 상에 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력하는 단계를 포함할 수 있다.

본 개시의 일 실시 예에 따른 3차원 영상 영역화 방법을 통하여, 서포트 데이터 및 쿼리 데이터의 관계 및 3차원 볼륨의 인접한 슬라이스 간의 3차원 구조 정보를 학습하여 소수의 데이터로 3차원 영상에서 관심 영역을 정확하게 검출할 수 있다.

이 외에도, 본 발명의 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체가 더 제공될 수 있다.

전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.

본 개시의 실시 예에 의하면, 양방향 순환네트워크 기반 퓨샷 러닝을 적용하여, 서포트 데이터 및 쿼리 데이터의 관계 및 3차원 볼륨의 인접한 슬라이스 간의 3차원 구조 정보를 학습함으로써, 소수의 데이터만으로도 3차원 영상에서 관심 영역을 보다 정확하고 부드럽게 검출할 수 있다.

또한, 3차원 영상 영역화를 위해 퓨샷 설정에 순환 신경망 네트워크를 통합하여, 적은 수의 훈련 데이터 문제를 완화하고 여러 장기 분할 태스크에 대한 슬라이스 간의 컨텍스트를 고려함으로써, 학습 모델의 성능을 향상시킬 수 있다.

또한, 서포트 데이터를 무작위로 분할하여 추가 업데이트를 수행하는 파인 튜닝을 수행함으로써, 대상 태스크에 대한 최적의 파라미터를 학습하여 오 탐지를 방지하고 학습 결과의 정확도를 향상시킬 수 있다.

또한, 소수의 데이터로 학습하므로 스캔 비용이 적게 들고 볼륨 이미지에 대한 주석을 생성하는데 시간이 많이 소요되지 않아 실용설을 향상시킬 수 있다.

또한 3차원 의료 영상에서 각각의 장기를 영역화 하여 관심 장기에 대해 용이하게 검출할 수 있도록 함으로써, 보다 정확한 진단이 가능하도록 할 수 있다.

본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 종래의 퓨샷 러닝 모델들을 도시한 도면이다.

도 2는 본 개시의 일 실시 예에 따른 3차원 영상 영역화 장치를 설명하기 위한 블록도이다.

도 3은 본 개시의 일 실시 예에 따른 3차원 퓨샷 영역화 모델을 설명하기 위한 도면이다.

도 4는 본 개시의 일 실시 예에 따른 3차원 퓨샷 영역화 모델의 K 샷일 때의 모델 아키텍처를 나타낸 도면이다.

도 5는 본 개시의 일 실시 예에 따른 축 관점에서의 정성적 결과를 나타낸 도면이다.

도 6은 본 개시의 일 실시 예에 따른 시상면 및 관상면 관점에서의 정성적 결과를 나타낸 도면이다.

도 7은 본 개시의 일 실시 예에 따른 3차원 영상 영역화 방법을 설명하기 위한 흐름도이다.

도 8은 본 개시의 일 실시 예에 따른 학습 모델 훈련을 설명하기 위한 흐름도이다.

도 9는 본 개시의 일 실시 예에 따른 파인 튜닝(fine tuning) 방법을 설명하기 위한 흐름도이다.

도 10은 본 개시의 일 실시 예에 따른 학습 모델 적용을 설명하기 위한 흐름도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 설명되는 실시 예들을 참조하면 명확해질 것이다.

그러나 본 발명은 아래에서 제시되는 실시 예들로 한정되는 것이 아니라, 서로 다른 다양한 형태로 구현될 수 있고, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 아래에 제시되는 실시 예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

이하, 본 발명에 따른 실시 예들을 첨부된 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

본 실시 예는 퓨샷 러닝(Few-Shot Learning) 알고리즘에 기반하여 소수의 데이터로 3차원 영상에서 관심 영역을 검출할 수 있는 모델에 관한 것으로, 예를 들어, 3차원의 의료 영상을 신체의 각각의 장기(organ)들로 영역화(segmentation) 하고 찾고자 하는 대상 장기 영역을 검출하는 것이다. 특히 본 실시 예에서는, 3차원 CT(computerized tomography) 영상에서 영역화를 수행하고 대상 장기 영역을 검출하는 것을 실시 예로 할 수 있다.

본 실시 예는, 표적(target) 장기 주석의 제한된 훈련 샘플을 사용하여 정확한 장기 영역화를 위한 3차원 퓨샷 영역화 프레임 워크에 관한 것이다. 또한 본 실시 예는, 3차원 영상을 2차원으로 슬라이스하고, 시퀀스 데이터(sequence data)라고 할 수 있는 각각의 슬라이스에서, 인접한 슬라이스 간의 주요 관계를 획득할 수 있는 3차원 퓨샷 영역화 모델에 관한 것이다. 이때 본 실시 예에서는 2차원 슬라이스들이 시간의 흐름에 따른 연속적인 데이터라고 보고 시퀀스 데이터를 처리할 수 있는 신경망이 적용될 수 있다. 예를 들어, 신경망은 RNN(Recurrent Neural Network), LSTM(Long Short term Memory) 및 GRU(Gated Reccurent Unit) 등이 적용될 수 있으나, 본 실시 예에서는 GRU를 실시 예로 하여 설명하도록 한다.

즉 본 실시 예는, 3차원 영상의 영역화 결과의 정확도를 향상시키기 위하여, 양방향 GRU 모듈을 통해 인접한 슬라이스 간의 주요 관계를 획득 할 수 있는 3차원 퓨샷 영역화 모델을 제안할 수 있다.

또한 본 실시 예는, 학습한 3차원 퓨샷 영역화 모델에 대해, 서포트 데이터에서 샘플링 된 데이터를 임의로 서포트 및 쿼리 이미지로 설정하여 테스트하기 전에 모델을 업데이트함으로써 대상 이미지와 장기의 특성을 적응시키는 전이(transfer) 학습 방법을 제안할 수 있다. 그리고 서로 다른 장기의 주석을 가진 3차원 CT 데이터 셋을 사용하여 3차원 퓨샷 영역화 모델을 평가할 수 있다.

본 실시 예에서, 서포트 이미지는 레이블이 있는 이미지로 훈련된 이미지를 의미할 수 있고 서포트 이미지와 서포트 레이블을 포함하여 서포트 세트라고도 할 수 있다. 또한, 쿼리 이미지는 레이블이 없는 이미지로 영역화 결과를 얻고자 입력되는 이미지를 의미할 수 있다. 다만 본 실시 예에서는, 학습 단계에서 쿼리 이미지와 쿼리 레이블을 포함하는 쿼리 세트를 이용할 수 있는데, 쿼리 이미지를 입력으로 하고 쿼리 레이블을 출력으로 하여 학습을 수행할 수 있다. 즉 본 실시 예에서는, 하나 하나의 태스크에 대해 서포트 세트와 쿼리 세트가 있으며, 서포트 세트로 학습을 진행한 후 쿼리 이미지를 입력하여 쿼리 레이블이 잘 출력되는지 확인하는 학습을 수행하고, 새로운 서포트 세트와 쿼리 이미지에 대해 영역화 결과가 제대로 출력되는지 확인할 수 있다. 다시 말해, 서포트 데이터의 정보를 바탕으로 쿼리 이미지의 영역화 결과를 얻는 것이다.

따라서 본 실시 예에서는, 서포트와 쿼리 데이터 쌍에 대해서, 서포트와 쿼리 데이터의 관계를 학습하는 것으로, 표적 객체에 대한 서포트 데이터가 1 장만 있더라도 서포트와 쿼리 데이터 사이의 관계를 학습했기 때문에 쿼리 이미지에 대한 학습 결과를 얻을 수 있다.

한편, 퓨샷 러닝 알고리즘 또는 퓨샷 모델은 매우 적은 데이터 셋을 훈련에 사용해서 학습시키는 것으로, 퓨샷 모델이 완전히 새롭게 주어진 데이터에서도 잘 작동하도록 만들기 위해서는 메타 러닝(meta-learning)이 필요하다. 이때 훈련의 훈련(learning to learning)이라고 알려져 있는 메타 러닝은 몇몇 훈련 예제를 통해서 모델로 하여금, 새로운 기술을 배우거나, 새로운 환경에 빠르게 적응할 수 있도록 설계하는 것을 나타낼 수 있다. 이러한 메타 러닝의 접근 방식에는 efficient distance metric을 훈련하는 방식, 외부/내부 메모리를 통해 신경망을 사용하는 방식, 빠른 훈련(fast training)을 위해 모델 파라미터를 최적화 하는 방식 등이 있다.

퓨샷 러닝 태스크에서는 에피소딕 훈련(episodic training) 방식으로 메타 러닝을 시도할 수 있다. 에피소딕 훈련은 퓨샷 태스크와 유사한 형태의 훈련 태스크를 통해 모델 스스로 학습 규칙을 도출할 수 있게 함으로써 일반화 성능을 높일 수 있게 한다. 퓨샷 러닝을 위한 에피소딕 훈련에는 훈련, 검증, 테스트 태스크가 있으며, 다양한 범주로 구성된 훈련 태스크를 통해 최적의 성능을 낼 수 있도록 훈련될 수 있고, 훈련을 마친 모델은 완전 새로운 데이터로 구성된 테스트 태스크로 그 성능을 평가 받을 수 있다.

도 2에 도시된 바와 같이, 3차원 영상 영역화 장치(100)는 메모리(110), 통신부(120), 프로세서(130), 입력부(140) 및 출력부(150)를 포함할 수 있다.

메모리(110)는 3차원 영상 영역화 장치(100)의 동작에 필요한 각종 정보들을 저장하고, 3차원 영상 영역화 장치(100)를 동작시킬 수 있는 제어 소프트웨어를 저장할 수 있는 것으로, 휘발성 또는 비휘발성 기록 매체를 포함할 수 있다.

메모리(110)는 하나 이상의 프로세서(130)와 연결되는 것으로, 프로세서(130)에 의해 실행될 때, 프로세서(130)로 하여금 3차원 영상 영역화 장치(100)를 제어하도록 야기하는(cause) 코드들을 저장할 수 있다.

여기서, 메모리(110)는 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. 이러한 메모리(110)는 내장 메모리 및/또는 외장 메모리를 포함할 수 있으며, DRAM, SRAM, 또는 SDRAM 등과 같은 휘발성 메모리, OTPROM(one time programmable ROM), PROM, EPROM, EEPROM, mask ROM, flash ROM, NAND 플래시 메모리, 또는 NOR 플래시 메모리 등과 같은 비휘발성 메모리, SSD. CF(compact flash) 카드, SD 카드, Micro-SD 카드, Mini-SD 카드, Xd 카드, 또는 메모리 스틱(memory stick) 등과 같은 플래시 드라이브, 또는 HDD와 같은 저장 장치를 포함할 수 있다.

특히, 본 실시 예에서, 메모리(110)에는 본 개시에 따른 신경망 모델, 신경망 모델을 이용하여 본 개시의 다양할 실시 예를 구현할 수 있도록 구현된 모듈이 저장될 수 있다. 그리고, 메모리(110)에는 본 개시에 따른 학습을 수행하기 위한 알고리즘에 관련된 정보가 저장될 수 있다. 그 밖에도 본 개시의 목적을 달성하기 위한 범위 내에서 필요한 다양한 정보가 메모리(110)에 저장될 수 있으며, 메모리(110)에 저장된 정보는 서버 또는 외부 장치로부터 수신되거나 사용자에 의해 입력됨에 따라 갱신될 수도 있다.

통신부(120)는 네트워크와 연동하여 외부 장치(서버를 포함) 간의 송수신 신호를 패킷 데이터 형태로 제공하는 데 필요한 통신 인터페이스를 제공할 수 있다. 또한 통신부(120)는 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다. 이러한 통신부(120)는 각종 사물 지능 통신(IoT(internet of things), IoE(internet of everything), IoST(internet of small things) 등)을 지원할 수 있으며, M2M(machine to machine) 통신, V2X(vehicle to everything communication) 통신, D2D(device to device) 통신 등을 지원할 수 있다.

즉, 프로세서(130)는 통신부(120)를 통해 연결된 외부 장치로부터 각종 데이터 또는 정보를 수신할 수 있으며, 외부 장치로 각종 데이터 또는 정보를 전송할 수도 있다. 그리고, 통신부(120)는 WiFi 모듈, Bluetooth 모듈, 무선 통신 모듈, 및 NFC 모듈 중 적어도 하나를 포함할 수 있다

입력부(140)는 3차원 영상 영역화 장치(100)에 적용되는 다양한 이미지 데이터들이 수집되는 입력 인터페이스이다. 이미지 데이터들은 사용자에 의해 입력되거나 서버로부터 획득될 수 있으며, 예를 들어 3차원 CT 스캔 영상, 3차원 영상이 슬라이스 된 2차원 이미지 등을 포함할 수 있다. 또한 입력부(140)는 3차원 영상 영역화 장치(100)의 동작을 제어하기 위한 사용자 명령을 수신할 수도 있으며, 예를 들어, 마이크, 터치 디스플레이 등을 포함할 수 있다.

출력부(150)는 3차원 영상 영역화 장치(100)에서 수행된 영역화 결과가 출력되는 출력 인터페이스이다. 예를 들어, 간 식별 태스크에 대해서는 간 위치가 표시된 이미지가 출력될 수 있다. 또한 출력부(150)는 예를 들어, 스피커, 디스플레이 등을 포함할 수 있다.

프로세서(130)는 3차원 영상 영역화 장치(100)의 전반적인 동작을 제어할 수 있다. 구체적으로, 프로세서(130)는 상술한 바와 같은 메모리(110)를 포함하는 3차원 영상 영역화 장치(100)의 구성과 연결되며, 상술한 바와 같은 메모리(110)에 저장된 적어도 하나의 명령을 실행하여 3차원 영상 영역화 장치(100)의 동작을 전반적으로 제어할 수 있다.

프로세서(130)는 다양한 방식으로 구현될 수 있다. 예를 들어, 프로세서(130)는 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 임베디드 프로세서, 마이크로 프로세서, 하드웨어 컨트롤 로직, 하드웨어 유한 상태 기계(Hardware Finite State Machine, FSM), 디지털 신호 프로세서(Digital Signal Processor, DSP) 중 적어도 하나로 구현될 수 있다.

프로세서(130)는 일종의 중앙처리장치로서 메모리(110)에 탑재된 제어 소프트웨어를 구동하여 3차원 영상 영역화 장치(100) 전체의 동작을 제어할 수 있다. 프로세서(130)는 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령어로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

본 실시 예에서 프로세서(130)는 3차원 영상 영역화 장치(100)가 최적의 영역화 결과를 출력하도록, 획득된 3차원 영상에 대하여 딥러닝(Deep Learning) 등 머신 러닝(machine learning)을 수행할 수 있고, 메모리(110)는, 머신 러닝에 사용되는 데이터, 결과 데이터 등을 저장할 수 있다.

한편, 종래의 딥러닝 기반 영역화 모델에서는 대규모 데이터 세트를 구성하여 영역화 모델을 생성하는데, 이 경우 스캔 비용이 많이 들고 볼륨 이미지에 대한 주석을 수동으로 생성함에 따라 시간이 많이 소요된다. 특히 형식적인 이미지를 영역화 하기 위한 강력한 모델을 생성하는 것이 어렵다는 한계가 있다. 또한 의료 영상의 영역화를 하고자 하는 경우, 의료 전문가들이 각각 서로 다른 태스크들을 수행하므로 각각 해상도와 양식이 다른 이미지들이 획득될 수 있다. 결과적으로 각 태스크에 대해 별도의 모델을 설계해야 하므로 실용적이지 않다. 또한 각 태스크는 주석이 달린 샘플이 제한된 낮은 데이터 영역을 포함할 수 있어 파인 튜닝 또는 전이 학습을 기반으로 한 훈련에 실패하고 과적합으로 이어질 수 있다.

퓨샷 러닝 알고리즘 또는 퓨샷 모델은 상기와 같은 문제를 해결할 수 있다. 따라서 퓨샷 러닝 알고리즘 또는 퓨샷 모델을 의료 데이터 세트에 적용 할 때 여러 장기 주석으로 훈련된 모델은 몇 개의 샘플만으로 보이지 않는 표적 장기를 정확하게 분할 할 수 있다. 그러나 2차원 이미지에 초점을 맞춘 대부분의 촬영 방법은 훈련 시 과적합되는 경향이 있기 때문에 3차원 이미지 기반 분석에 직접 적용 할 수 없다. 또한 일반적으로 고밀도 픽셀 수준의 고차원 예측을 위한 3차원 태스크는 메모리 사용량을 증가시키고 배치 크기를 작게 제한하는 경우가 많다.

이에 본 실시 예에서, 프로세서(130)는 3차원 CT 스캔에 대해 2차원으로 각각 슬라이스를 생성할 수 있으며, 더 나아가 인접한 슬라이스 간의 3차원 구조 정보와 다른 퓨샷 태스크의 서포트 및 쿼리 데이터 간의 관계를 고려하여 보다 정확하고 부드러운 영역화 결과를 얻을 수 있도록 할 수 있다.

본 실시 예에서, 프로세서(130)는 인접 슬라이스 간의 3차원 구조 정보와 함께 다른 퓨샷 태스크의 서포트 데이터 및 쿼리 데이터 간의 관계를 모델링 할 수 있다. 이때 본 실시 예에서는 효율적인 표현(예측) 학습을 위해 인코더 모듈과 디코더 모듈 사이에 양방향 GRU 모듈을 통합할 수 있다.

즉 프로세서(130)는 각각의 슬라이스들 간의 글로벌 컨텍스트 정보가 부족한 문제를 완화하기 위해, 양방향 GRU 모듈을 사용하여 인접 슬라이스 간의 일관성을 고려할 수 있다.

이러한 방식으로, 프로세서(130)는 서포트 세트 및 인접 슬라이스 모두의 인코딩 된 특징이 디코딩 모듈에서 쿼리 이미지의 영역화를 예측하기 위해 주요 특징을 캡쳐 할 수 있다.

또한 프로세서(130)는 멀티 샷 영역화 설정에서 대상 도메인의 특성에 적응하기 위한 전이 학습을 수행할 수 있다. 프로세서(130)는 주어진 태스크에 대해 데이터 증가를 사용하여 서포트 및 쿼리 데이터로 임의로 분할하고 주어진 서포트 데이터를 사용하여 모델의 파라미터를 다시 훈련시킬 수 있다. 예를 들어, 본 실시 예에서는, 3차원 퓨샷 영역화 모델의 일반화 능력을 검증하기 위해 3 개의 데이터 세트(1 개는 내부 테스트 용, 나머지는 외부 검증 용)를 사용할 수 있다.

여기서, 전이 학습은 관련 태스크 또는 특성이 있는 더 큰 데이터 세트에서 이미 훈련된 심층 신경망 모델을 활용하여 다양한 태스크에 대한 모델 성능을 향상시키는 것으로, 예를 들어, 첫 번째 프레임을 사용하는 1 샷 비디오 객체 분할을 위한 미세 조정 접근 방식, 훈련의 중간 단계에서의 파인 튜닝을 통해 서포트 데이터를 사용하여 모델을 일시적으로 업데이트하고 각 작업에 대한 손실을 최소화 하는 방식, 일반 지식과 이전 가능한 지식의 학습을 분리하여 파인 튜닝 단계에서만 파인 튜닝 모듈을 업데이트 하는 방식 등이 있을 수 있다. 특히 본 실시 예에서, 프로세서(130)는 K-shot 설정에서 서포트 데이터를 무작위로 분할하여 추가 업데이트를 수행함으로써, 대상 태스크에 대한 최적의 파라미터를 학습할 수 있다.

즉, 프로세서(130)는 3차원 영상 데이터 영역화 태스크에 대한 서포트 데이터 및 쿼리 데이터 간의 관계를 모델링 하는 학습 모델을 구성할 수 있으며, 그리고 쿼리 데이터로 입력하기 위한 3차원 영상 데이터를 획득하고 구성한 학습 모델을 이용하여 3차원 영상 데이터에서 관심 영역을 검출하는 프로세스를 수행할 수 있다.

이때 모델 생성부(131)는 3차원 영상 영역화를 위한 학습 모델을 생성할 수 있다. 본 실시 예에서, 학습 모델은 입력되는 3차원 영상 데이터를 n개의 2차원 슬라이스 이미지로 변환하고, 적어도 1개의 슬라이스 이미지에 대해, 현재 슬라이스 이미지의 영역화 과정에서 이전 슬라이스 이미지에 대한 영역화 과정에서의 출력값 및 다음 슬라이스 이미지의 영역화 과정에서의 출력값을 참조하여 현재 슬라이스 이미지의 영역화를 수행하도록 구성될 수 있다.

또한 학습 모델은, 영상 데이터 영역화를 위한 초기 모델을 구성하는 단계와, 초기 모델에 대해 제 1 종류의 객체에 대한 영역화를 요청하는 제 1 쿼리 이미지, 제 1 서포트 이미지, 제 1 서포트 이미지에 제 1 종류의 객체에 대한 영역화가 수행된 제 1 서포트 레이블, 제 1 쿼리 이미지에서 제 1 종류의 객체에 대한 영역화가 이루어진 제 1 레이블 이미지를 이용하여 제 1 훈련을 수행하는 단계와, 제 1 훈련을 수행하는 단계에 의해 도출된 학습 모델에 대해, 제 2 종류의 객체에 대한 영역화를 요청하는 제 2 쿼리 이미지, 제 2 서포트 이미지, 제 2 서포트 이미지에 제 2 종류의 객체에 대한 영역화가 수행된 제 2 서포트 레이블, 제 2 쿼리 이미지에서 제 2 종류의 객체에 대한 영역화가 이루어진 제 2 레이블 이미지를 이용하여 제 2 훈련을 수행하는 단계와, 제 2 훈련을 수행하는 단계에 의해 도출된 학습 모델에 대해, 제 3 종류의 객체에 대한 영역화를 요청하는 제 3 쿼리 이미지, 제 3 서포트 이미지 및 제 3 종류의 객체에 대한 영역화가 수행된 제 3 서포트 레이블을 입력하여 도출되는 출력 이미지를 체크하는 테스트 수행 단계를 포함하는 훈련 페이즈(phase)에 의해 훈련될 수 있다.

예를 들어, 본 실시 예에서는, 간에 대한 영역화를 요청하는 태스크에 대한 학습 모델 훈련을 수행하고, 폐에 대한 영역화를 요청하는 태스크에 대한 학습 모델 훈련을 수행했다고 가정할 수 있다. 이때 본 실시 예에서는, 신장에 대한 서포트 이미지를 입력하여 신장에 대한 이미지가 출력되는지 여부를 확인하여 테스트를 수행할 수 있다.

이때, 테스트 수행 단계는, 출력 이미지를 제 3 쿼리 이미지에서 제 3 종류의 객체에 대한 영역화가 수행된 제 3 서포트 레이블과 비교하여 유사도를 평가하는 단계를 포함할 수 있다.

도 3은 본 개시의 일 실시 예에 따른 3차원 퓨샷 영역화 모델을 설명하기 위한 도면이고, 도 4는 본 개시의 일 실시 예에 따른 3차원 퓨샷 영역화 모델의 K 샷일 때의 모델 아키텍처를 나타낸 도면이다.

도 3은 3차원 영상을 2차원 이미지로 슬라이스하고, 각각의 슬라이스에 대한 아키텍처를 나타낸 것으로, 1 샷 일 때를 개략적으로 표현한 것이다. 그리고 도 4는 K(서포트 세트의 수) 샷 일 때, 도 3의 쿼리 레이블 슬라이스

에 대해 개략적으로 나타낸 것이다.

이하에서는 도 3 및 도 4를 참조하여, 3차원 퓨샷 영역화 모델에 대해 보다 구체적으로 설명하도록 한다.

문제 설정

본 실시 예의 3차원 퓨샷 영역화 모델 FSS_θ는 K쌍의 서포트(support) 이미지와 서포트 레이블

,

, …,

를 사용하여 쿼리(query) 이미지

에서 관심 영역을 분할하는 파라미터 θ를 학습할 수 있다. 여기서, K는 지도의 정도(degree of supervision)을 의미할 수 있으며, 서포트 이미지와 서포트 레이블을 포함하는 서포트 세트의 개수일 수 있다.

한편, 종래의 퓨샷 영역화를 기반으로 하는 2차원 이미지의 일반적인 아키텍처(architecture)는 도 1에 도시되어 있다. 도 1(a)는 대상 객체 및 배경에 대한 프로토 타입을 정의한 다음, 정의된 프로토 타입까지의 거리를 사용하여 영역화를 수행하는 프로토 타입 네트워크를 나타낸 것이다. 그리고 도 1(b)는 fully convolutional network(FCN)에서 영역화를 위한 인코더와 디코더로 구성된 관계 네트워크를 나타낸 것이며, 도 1(c)는 서포트 및 쿼리 데이터를 위한 모듈 간의 조밀한 연결이 있는 네트워크를 나타낸 것이다. 도 1에 도시된 모든 방법은 다양한 영역화 태스크들의 서포트 및 쿼리 데이터 간의 관계를 학습하고자 하는 것으로, 본 실시 예에서는 이를 활용하여 다음 수학식 1과 같이 K개의 서포트 샘플을 사용하여 쿼리 이미지

의 대상(target) 레이블을 예측할 수 있다.

본 실시 예에서는, 수학식 1에서 설명 가능한 개념을 3차원 영상 퓨샷 영역화로 확장할 수 있다. 보다 구체적으로 설명하면, 본 실시 예에서는, 3차원 영상에 대하여, 쿼리 볼륨 I _q를 여러 개의 2차원 슬라이스 I _q,1, I _q,2, …, I _q,T로 나눌 수 있다. 이때 T는 축 관점(axial view)에서의 슬라이스 수를 의미할 수 있다.

그리고 본 실시 예에서는, 상기 쿼리 볼륨에 대응하는 서포트 슬라이스

와 서포트 레이블

을 사용하여, 각 쿼리 슬라이스 I _q,t를 각각 영역화 할 수 있다. 여기서 u_t는 서포트 샘플의 인덱스를 의미할 수 있다.

또한 본 실시 예에서는, 서포트 레이블 L _s이 있는 3차원 서포트 볼륨 I _s에서, 서포트 슬라이스

와 대응하는 서포트 레이블

을 결정하기 위해, 쿼리 볼륨 I _q와 서포트 볼륨 I _s에서 관심 장기(organ of interest)의 시작 및 끝 슬라이스의 위치를 알고 있다고 가정할 수 있다.

각 쿼리 슬라이스 I _q,t에 해당하는 서포트 슬라이스의 인덱스는 u_t = round((t/T) × T´)를 통해 얻을 수 있다. 여기서 T´는 서포트 볼륨 I _s의 관심 슬라이스의 수를 의미할 수 있다.

본 실시 예에서의 상기 가정은, 예컨대, 간의 크기와 모양이 다양하더라도 항상 복수의 오른쪽 상단에 위치하는 것과 같이, 관심 장기가 사람마다 비슷한 위치에 있기 때문에 합리적이다.

또한 본 실시 예에서 3차원 이미지의 퓨샷 영역화 모델은 다음 수학식 2로 나타낼 수 있다.

대부분의 2차원 기반 퓨샷 영역화 모델은 상기 수학식 2를 따를 수 있지만 이는 인접 슬라이스 간의 관계는 고려되지 않는 것이다. 이에 본 실시 예에서는, 수학식 2를 기반으로 하되, 각 쿼리 슬라이스 I _q,t를 정확하게 영역화 하기 위해 인접 슬라이스 정보를 통합할 수 있으며, 이는 수학식 3으로 나타낼 수 있다.

여기서, 2n_a+1은 인접한 슬라이스의 수이고, t₀는 여러 슬라이스 중심의 인덱스를 의미할 수 있다. 즉 본 실시 예에서는 인접한 슬라이스 정보를 반영하기 위해, RNN 기반의 신경망을 사용할 수 있다. 특히 본 실시 예에서는 예를 들어 양방향 GRU를 사용할 수 있으며, 양방향 GRU를 사용하는 3차원 퓨샷 영역화 방법에 대한 구체적인 설명은 후술하도록 한다. 본 실시 예에서는, LSM(Long Short-Term Memory) 모델이나 양방향 RNN을 통해 인접 슬라이스 간에 특징을 공유할 수 있지만, LSM 및 RNN은 메모리 공간이 적기 때문에 GRU를 사용할 수 있다. 다만 이에 한정되는 것은 아니다.

양방향 GRU 기반 퓨샷 학습

본 실시 예에서는 세 단계로 3차원 영상의 영역화를 수행할 수 있다. 첫 번째, 서포트 이미지 및 쿼리 이미지의 특징(feature)은 각각 두 개의 별도 인코더 모듈 E_s 및 E_q를 통해 추출될 수 있다. 두 번째, 양방향 GRU 모듈은 인접 슬라이스에서 추출된 특징 간의 관계를 모니터링 할 수 있다. 세 번째, 디코더 모듈은 인코더 모듈 E_q의 업데이트 된 특징 맵과 로우 레벨(low level) 특징을 사용하여 영역화를 예측할 수 있다.

본 실시 예의 퓨샷 영역화 모델은 도 3에 도시되어 있다.

도 3에 도시된 바와 같이, 본 실시 예에서는, 채널 수가 서로 다른 입력을 수신하기 때문에, 두 개의 별도 인코더 모듈 E_s 및 E_q를 사용하여 서포트 이미지 및 쿼리 이미지에서 특징을 추출할 수 있다. 즉, 인코더 모듈 E_q는 1 채널의 각 쿼리 슬라이스 I _q,t를 입력으로 받는 반면, 인코더 모듈 E_s는 서포트 슬라이스

와 서포트 레이블

의 연결(concatenation)과 같이 2 채널 입력을 수신할 수 있다.

각각의 인코더 모듈은 영상 분류를 위한 인공지능 모델이 적용될 수 있으며, 이러한 인공지능 모델에 의해 서포트 이미지 및 쿼리 이미지에서 특징이 추출될 수 있다. 영상 분류를 위한 인공지능 모델은 예컨대 VGG16이 적용될 수 있으나 이에 한정되지는 않는다.

두 인코더 모듈에 의해 추출되는 특징의 연결은 수학식 4와 같이 나타낼 수 있다.

그리고 본 실시 예에서는 x_t를 GRU 모델에 입력할 수 있으며, 이때, E_q에서 추출한 해상도가 다른 로우 레벨 특징은 다음(subsequent) 단계에서 다시 사용될 수 있다.

본 실시 예에서는, 특징

가

로부터 인코더 모듈에 의해 추출된 후, 양방향 GRU 모듈은 인접 슬라이스 간의 변경을 모델링 할 수 있다. 특히 양방향 GRU 모듈에는 효율적인 특징 표현을 위해 순방향 및 역방향 두 가지 모드가 있으며, 특징은 순방향 GRU 모듈에 순차적으로 공급되고 나중에 역방향 모델에 대해 역전될 수 있다. 각 양방향 GRU 모듈은 수학식 5 및 수학식 6과 같이, 메모리 업데이트를 위해 x_t 및 이전 히든 스테이트(state) h_t-1로 두 개의 게이트 컨트롤러 z_t와 r_t를 산출할 수 있다.

z_t는 입력 및 출력 게이트를 제어하는 반면, r_t는 히든 스테이트 h_t에 반영될 메모리 부분을 결정할 수 있다. 또한, z_t는 업데이트 게이트(update gate)를 의미할 수 있으며, 과거와 현재의 정보를 각각 얼마나 반영할 지에 대한 비율을 나타내는 것이다. z_t 값은 현재 정보를 얼마나 사용할 지를 반영하고, 1 - z_t 는 과거 정보에 대해서 얼마나 사용할 지를 반영할 수 있다. 그리고 수학식 8을 통해 현 시점의 출력값 히든 스테이트를 구할 수 있다.

그리고 r_t는 리셋 게이트(reset gate)를 의미할 수 있으며, r_t를 구하는 방식은 이전 시점의 히든 스테이트와 현 시점의 r_t를 활성화 함수 시그모이드(sigmoid)를 적용하여 구할 수 있다. 결과값은 0 ~ 1 사이의 값을 가질 수 있으며 이전 히든 스테이트의 값을 얼마나 활용할 것인지에 대한 정보로 해석할 수 있다. 이때 리셋 게이트에서 나온 값은 그대로 사용되는 것이 아니라 수학식 7으로 다시 활용할 수 있다. 수학식 7에서는 전 시점의 히든 스테이트에 리셋 게이트를 곱하여 계산할 수 있다.

양방향 GRU 모듈에서, 연산은 일반 GRU 셀에서 가중치 곱셈 대신 3 X 3 콘볼루션(convolution)으로 대체될 수 있다. 시그모이드(sigmoid) 활성화 함수는 게이트 컨트롤러 출력 후 사용되며 쌍곡선(hyperbolic) 탄젠트 함수는 최종 히든 스테이트 출력 다음에 적용될 수 있다. 다음 순방향 GRU

및 역방향 GRU

에서 추출된 특징은 수학식 9와 같이 연결될 수 있다.

그리고 상기

는 디코더 모듈로 전달될 수 있다.

본 실시 예에서는, 도 4에 도시된 바와 같이, K개의 서포트 데이터

이 사용되면 GRU 모듈에서의 연산이 각 서포트 데이터 및 쿼리 데이터 쌍에 대해 수행되고, 획득된 특징은 다음 수학식 10과 같이 합산될 수 있다.

즉 마지막으로

이 디코더 모듈로 전달될 수 있다.

본 실시 예에서, 디코더 모듈은 고해상도 영역화를 위해 인공지능 모델이 적용될 수 있으며, 예컨대 U-Net 구조가 적용될 수 있으나 이에 한정되는 것은 아니다.

본 실시 예에서, 최종 영역화 결과는 인코더 모듈과 양방향 GRU 모듈에 의해 처리된 특징과 쿼리 데이터에 대한 인코더 모듈 E_q에서 얻은 쿼리 슬라이스 이미지의 로우 레벨 특징을 활용하여 얻을 수 있다. 로우 레벨 특징은 스킵 연결(skip connection)을 통해 디코더 모듈에 연결되며, 디코더 모듈은 로우 레벨 및 하이 레벨 정보를 모두 사용하여 영역화를 예측할 수 있다. 비용 함수는 예측과 레이블 사이의 교차 엔트로피 손실과 주사위 손실의 합으로 정의될 수 있다.

전이 학습 기반 적응

학습 단계에서는 표적 장기를 볼 수 없기 때문에, 3차원 퓨샷 영역화 모델이 목표 대상의 최적 파라미터를 학습하는 것이 어려울 수 있다. 따라서, 멀티 샷 시나리오에서는 테스트 전에 적은 수의 목표 서포트 샘플로 전이 학습을 수행할 수 있다. 특히 서포트 데이터에서 서포트 및 쿼리 쌍을 일시적으로 샘플링하고, 모델을 업데이트 할 수 있다.

예를 들어, K샷 테스트 단계에서는, K개의 서포트 세트에서 K-1개의 샘플을 임시 서포트 샘플로 선택하여 기존의 서포트 데이터와 쿼리 데이터 쌍을 수집하고, 나머지를 임시 쿼리 이미지로 사용하여 모델을 재 학습 할 수 있다.

3차원 볼륨에서 2n_a+1개의 인접 슬라이스를 사용하기 때문에 다양한 훈련 쌍을 샘플링하여 강력한 파인 튜닝(fine tuning) 프로세스를 지원할 수 있다. 또한 과적합을 방지하고 훈련 안정성을 장려하기 위해, 훈련 중에 랜덤 플립핑(flipping)과 로테이션(rotation) 기반 증가(augmentation)를 사용할 수 있다. 이를 통해, 본 실시 예의 3차원 퓨샷 영역화 모델은 목표 대상 데이터의 새로운 특성에 효과적으로 적응할 수 있다.

도 5는 본 개시의 일 실시 예에 따른 축 관점에서의 정성적 결과를 나타낸 도면이고, 도 6은 본 개시의 일 실시 예에 따른 시상면 및 관상면 관점에서의 정성적 결과를 나타낸 도면이다.

도 5 및 도 6을 참조하여, 본 실시 예의 3차원 퓨샷 영역화 모델에 대한 성능을 확인할 수 있다.

예를 들어, 본 실시 예의 3차원 퓨샷 영역화 모델에 대한 성능 확인 위한 데이터 세트에는 15 개 장기에 대한 분할 레이블이 있는 30 개의 3차원 CT 스캔이 포함될 수 있다. 15 개의 장기 중 9 개 장기(비장, 왼쪽 신장, 식도, 간, 위, 대동맥, 하대정맥, 방광 및 자궁)의 레이블이 테스트에 사용될 수 있다. 다른 6 개의 장기는 너무 작거나 심지어 모양 변화가 커서 지도 학습 방법으로도 분할하기가 어렵기 때문에 테스트에 사용되지 않을 수 있다.

또한 본 실시 예에서는, 두 개의 외부 데이터 세트(DECATHLON, CTORG로 지칭)를 사용하여 본 실시 예의 3차원 퓨샷 영역화 모델이 다른 특성을 가진 데이터에 적용 가능한지 확인 할 수 있다. 본 실시 예에서는 6 개 장기(폐, 뼈, 간, 왼쪽 및 오른쪽 신장, 방광)의 레이블이 있는 119 개의 이미지가 포함된 외부 데이터 세트(CTORG)를 사용할 수 있다. 이때 데이터 세트는 이미지 간 평면 해상도 및 두께가 다양할 수 있다. 본 실시 예의 테스트 세트의 많은 CT 스캔이 폐의 전체 부분을 포함하지 않고 뇌 샘플은 제한되어 있어, 폐와 뇌를 제외한 간, 신장, 방광에 대해 외부 검사를 수행할 수 있다.

또한 본 실시 예에서는, 또 다른 외부 데이터 세트(DECATHLON)를 사용하여 본 실시 예의 모델이 다른 특성을 가진 데이터에 적용 가능한지 확인할 수 있다. 이때 외부 데이터 세트(DECATHLON)는 10 개의 다른 장기(간 CT, 뇌종양 다중 모드 MRI, 해마 단일 모드 MRI, 폐 종양 CT, 전립선 다중 모드, 좌심방 단일 모드, 췌장 CT, 초기 결장암 CT, 간 혈과 CT 및 비장 CT)의 여러 이미지로 구성될 수 있다. 비장 및 간 데이터를 사용할 수 있으며, 너무 작거나 심한 형태 변화가 있는 장기는 제외될 수 있다.

본 실시 예의 데이터 세트는 학습 또는 서포트 데이터 선택을 위한 15 개의 볼륨, 검증을 위한 5 개의 볼륨 및 각 장기에 대한 테스트를 위한 10 개의 볼륨으로 나뉠 수 있다.

학습 단계에서, 서포트 및 쿼리 데이터 쌍은 퓨샷 모델을 훈련하기 위해 특정 대상 장기를 제외하고 8 개의 장기가 있는 15 개의 볼륨에서 무작위로 샘플링 될 수 있다. 그리고 테스트를 위해 서포트 데이터는 대상 장기에 대한 15 개 볼륨 중 무작위로 샘플링 될 수 있으며, 10 개 볼륨은 쿼리 이미지로 사용될 수 있다. 모든 장기에 대한 실험을 수행하는 데 시간이 많이 소요되기 때문에 본 실시 예에서는 너무 작지 않고 임상적으로 중요한 4 개의 장기(비장, 간, 신장 및 방광)에 대해서 모델을 테스트 할 수 있다. 예를 들어, 부신은 제한된 CT 스캔 조각에 나타나고 종종 장기의 3차원 구조를 파악하기 어렵기 때문에 제외될 수 있다.

외부 검증을 위해 데이터 세트에서 훈련된 모델은 외부 데이터 세트(CTORG)의 간 샘플 65 개, 신장 샘플 63 개, 방광 샘플 53 개와 또 다른 외부 데이터 세트(DECATHLON)의 비장 샘플 27 개, 간 샘플 87 개에 적용될 수 있다. 모든 이미지의 복셀(voxel) 강도는 0 에서 1 사이의 범위로 정규화 될 수 있고, 슬라이스는 각 장기에 대해 동일한 크기의 사각형으로 잘린 다음 256 X 256으로 크기가 조정될 수 있다.

본 실시 예에서 제안된 모델의 효과를 보여주기 위해, 본 실시 예의 3차원 퓨샷 영역화 모델과 U-Net 기반의 감독 방법과 도 1에 도시된 세 가지 퓨샷 모델을 비교 할 수 있다. 각 장기당 단 하나의 샘플로 훈련된 U-net 기반의 감독 방법은 하한으로 사용되었으며 접근 가능한 모든 데이터로 훈련된 것은 상한 모델로 사용되었다. 본 실시 예의 3차원 퓨샷 영역화 모델과의 공정한 비교를 위해 U-net은 5 개의 인접 축 슬라이스를 입력으로 사용하도록 수정되었으며 2차원 콘볼루션 인코더 모듈 및 디코더 모듈로 구성되었다. 그리고 Adam 최적화와 학습률이 10^-4인 모든 모델에 초기화를 사용했다. 여기서 Adam 최적화는 최적화 방법 중 하나로, 스텝사이즈(stepsize)가 기울기(gradient)의 재척도화(rescaling)에 영향 받지 않는 것이 장점이다. 기울기가 커져도 스텝사이즈는 경계(bound)되어 있어서 어떠한 목적 함수(objective function)를 사용한다 하더라도 안정적으로 최적화를 위한 하강이 가능하다. 게다가 스텝사이즈를 과거의 기울기 크기를 참고하여 조정할 수 있다. 즉, Adam 최적화는 스텝사이즈를 예측 할 수 있음에 따라 하이퍼파라미터 설정 시 스텝사이즈를 미리 적절한 값으로 셋팅 할 수 있다.

한편, 본 실시 예에서는, 훈련 단계의 모든 반복에 대해, 표적 장기를 제외한 다양한 장기 영역화 레이블이 포함된 훈련 데이터에서 서포트 및 쿼리 볼륨이 무작위로 선택될 수 있다. 총 5 개의 슬라이스가 모델에 공급될 수 있으며, 즉 n_a가 2로 설정될 수 있다. 또한 평가된 모든 모델에 동일한 파라미터 초기화 및 데이터 증가(플립핑 및 로테이션)가 적용되었다.

FSS_base는 양방향 GRU 모듈이 생략된 경우 제안된 모델과 유사한 아키텍처를 갖는 기준 모델이다(도 1(b) 참조). FSS_prototype는 예측을 위해 프로토 타입과 정렬 프로세스를 사용하며, 인코더에 의해 추출된 축소 특징 맵에서 거리 기반 픽셀 단위 분류를 구현하기 위해 전경 및 배경의 프로토 타입을 정의 할 수 있다(도 1(a) 참조). 반면, FSS_SE는 서포트 및 쿼리 데이터를 위한 별도의 인코더와 디코더와 함께 처음부터 훈련된 스킵 연결이 있는 스퀴즈 및 여기 블록을 사용할 수 있다(도 1(c) 참조). 본 실시 예에서는, FSS_SE를 제외하고 내부 및 외부 테스트 데이터 세트에서 1, 3 및 5 샷 모델을 평가했다. FSS_SE는 원샷 설정을 위해 설계되었으므로, 3 및 5 샷 설정은 평가에 고려되지 않았다. 본 실시 예의 모델은 FSS_BiGRU로 표시할 수 있다.

퓨샷 영역화 성능은 서포트 세트 선택 방법에 따라 달라질 수 있으므로, 각 쿼리 샘플에 대해 무작위로 5 회 샘플링 된 다른 서포트 세트로 실험을 수행했으며, 전체 시도의 평균 값을 산출할 수 있다. 퓨샷 영역화 성능은 예측과 레이블 간의 주사위 유사성 점수로 측정될 수 있다.

먼저 내부 테스트에 대해 살펴보면, 아래 표 1은 내부 데이터 세트에 대해 훈련 및 테스트 된 방법에 대한 전체 비교를 보여줄 수 있다. 보다 구체적으로 표 1은 평가 지표(주사위 점수±표준편차)를 사용하여 내부 데이터 세트의 기준 모델에 대한 본 실시 예의 모델 FSS_BiGRU의 성능 비교를 나타낸 것으로, 두 번째 열은 훈련 데이터의 수(#)를 나타내고 FT는 파인 튜닝을 나타낸다. 볼드체로 표시된 것은 퓨샷 비교 방법 중 최고의 성능을 보여주는 것이다. 여기서 주사위 점수(Dice Score)는 두 영역의 겹침 정도를 평가하는 여러 Metric 중 하나이다.

FSS_BiGRU는 파인 튜닝 여부와 다른 수의 샘플을 사용한 변형에서, FSS_base와 유사한 성능을 보여주었다. 마진(margin)은 대략 20 % 의 평균 점수 향상과 함께 모든 장기에 대 원샷 설정에서 크게 중요했다. 즉 본 실시 예의 방법이 극도로 제한된 데이터 영역에서도 영역화가 가능하다는 것을 확실히 보여준다.

특히 본 실시 예에서는, 대부분의 경우 데이터 샘플이 증가함에 따라 더 좋아졌고(즉, 정확도가 증가), 강력해졌다(즉, 표준 편차가 감소). 상한선이 대부분의 장기에서 높은 점수를 받았다는 것은 놀라운 일이 아니지만, 본 실시 예의 모델이 비슷한 성능을 보여준 것은 중요하다. 또한 전이 학습이 전체 성능을 크게 향상 시켰음을 알 수 있다. 즉 추가 업데이트 후에 본 실시 예의 모델이 훈련에서 보이지 않는 표적 장기의 영역화 태스크를 조정할 수 있음 의미한다. 이러한 결과는 인접 슬라이스 간의 관계를 인코딩하기 위해 3차원 구조 정보와 함께 여러 슬라이스를 고려할 때 신뢰할 수 있는 영역화를 달성 할 수 있음을 보여준다.

다음으로 외부 테스트에 대해 살펴보면, 아래 표 2에서는 분포 이동 시 모델 성능을 평가하기 위해 외부 데이터 세트에 대한 접근 방식을 추가로 평가할 수 있다. 보다 구체적으로, 표 2는 평가 지표(주사위 점수±표준편차)를 사용하여 외부 데이터 세트에 대한 성능 비교를 나타낸 것으로, U-net(BCV)은 내부 데이터 세트로 학습된 모델이고, U-net(lower) 및 U-net(upper)은 동일한 외부 데이터 세트를 사용하여 학습된 것이다. 각 장기의 볼륨 수가 다르기 때문에 U-net(upper)에 대한 훈련 데이터 수(#)로 사용된 5 개의 숫자(예를 들어, 비장을 위한 27 개의 훈련 볼륨(DECATHLON))를 나타낼 수 있다. 볼드체로 표시된 것은 퓨샷 비교 방법 중 최고의 성능을 보여주는 것이다.

본 실시 예에서는, 단순화를 위해 FSS_base 및 FSS_prototype에 대한 5 샷 설정을 고려할 수 있다. 내부 데이터 세트에서 훈련된 상한선과 외부 데이터 세트의 모든 액세스 가능한 데이터를 사용하여 훈련된 상한 및 하한 방법도 완전성을 위해 포함될 수 있다.

일반적으로 내부 데이터 세트로 훈련된 상한 모델의 성능이 외부 데이터 세트에서 저하되는 것을 볼 수 있다. 이 모델은 표 1의 결과와 비교하여 외부 데이터 세트(DECATHLON)의 간을 제외한 대부분의 장기에서 현저하게 감소된 점수를 얻었다. 이는 임상 설정에 사용 된 스캔 프로토콜과 기계가 다르기 때문이다. 모델이 특정 해상도의 모양에 과적 합할 수 있으므로 해상도가 다른 외부 데이터 세트에서 신뢰할 수 있는 영역화를 달성하는 것이 어려울 수 있다.

반면에 본 실시 예의 3차원 퓨샷 영역화 모델은 훈련과 테스트 모두에서 쿼리와 서포트 샘플 간의 유사성을 캡쳐하여 이 효과를 완화 할 수 있다. 특히, 본 실시 예에서는 외부 데이터 세트(DECATHLON)의 두 장기와 외부 데이터 세트(CTORG)의 방광에 대한 테스트에서 비슷한 성능을 얻었음을 볼 수 있다. 특히 전이 학습 업데이트를 통해 외부 데이터 세트(DECATHLON)에서 향상된 성능, 즉 두 장기 기관 모두에서 + 3 %를 얻었음을 볼 수 있다. 이 성능은 외부 데이터 세트(DECATHLON)의 상위 모델과 비슷한 결과를 나타낼 수 있다.

외부 데이터 세트(CTORG)의 신장과 간에 대한 본 실시 예의 3차원 퓨샷 영역화 모델의 성능은 내부 테스트의 성능보다 훨씬 낮음을 볼 수 있다. 외부 데이터 세트(CTORG)의 경우 훈련 데이터가 상대적으로 많기 때문에 지도 학습의 성능이 좋았으나, 소수의 서포트 데이터 중 쿼리 이미지와 유사한 해상도의 이미지가 없는 경우 퓨샷 학습 방법의 성능이 저하될 수 있다. 이러한 의미에서 서포트 및 쿼리 이미지의 해상도가 일치하지 않으면 전이 학습 전략도 중요하지 않다. 그러나 본 실시 예의 3차원 퓨샷 영역화 모델은 모든 퓨샷 모델 중 최고의 성과를 달성했으며, 여러 해상도의 데이터를 서포트 세트에 포함하면 더 나은 결과를 얻을 수 있을 것이다.

도 5는 축 관점의 정성적 결과를 나타낸 것이고, 도 6은 관상면 및 시상면에서의 정성적 결과를 나타낸 것으로, 비장과 신장은 시상면에 표시되고 간과 방광은 관상면에 표시될 수 있다.

도 5 및 도 6에 도시된 바와 같이, 대부분의 경우 본 실시 예의 3차원 퓨샷 영역화 모델은 다른 퓨샷 모델들과 달리 실측 레이블과 유사한 영역화 결과를 얻었음을 볼 수 있다. 다른 퓨샷 모델들은 인접한 슬라이스 사이의 정보를 고려하지 않기 때문에 영역화가 부드럽지 않은 경우가 많고 장기 외부의 노이즈와 같은 오 탐지가 발생하게 되는 것을 볼 수 있다. 이는 서포트 및 쿼리 이미지의 모양이 다를 때 더욱 두드러지게 나타난다. 훈련이 수행된 축 관점에서의 결과에 비해 시상면 또는 관상면에서 인접 슬라이스 간의 예측 차이가 상대적으로 큰 것을 볼 수 있다(도 6 참조). 그러나 본 실시 예의 3차원 퓨샷 영역화 모델은 인접한 슬라이스 간의 정보를 함께 고려하기 때문에 시상면과 관상면에서도 경계가 매끄럽게 나타나는 것을 볼 수 있다.

즉 본 실시 예는, 제한된 데이터 체계 하에서 CT 장기 영역화를 위한 새로운 프레임 워크를 제안하는 것으로, 다중 슬라이스 정보를 안정적으로 통합하여 CT 스캔에서 보이지 않는 장기의 정확한 영역화를 달성할 수 있다. 또한 양방향 GRU 모듈을 통해 특징 학습 개선을 위해 3차원 공간 정보를 효과적으로 모델링 할 수 있으며, 전이 학습 과정을 통해 보이지 않는 대상 작업에 대한 최적의 파라미터를 학습할 수 있다. 또한 테스트 결과, 본 실시 예의 3차원 퓨샷 영역화 모델은 내부 및 일부 외부 데이터 세트에 대하여 지도 학습 모델에 필적하는 영역화 성능을 달성했음을 볼 수 있다.

도 7에 도시된 바와 같이, S710단계에서, 프로세서(130)는 영역화의 대상이 되는 3차원 쿼리 이미지 및 영역화 대상이 표시된 3차원 서포트 이미지를 획득한다. 즉 프로세서(130)는 영역화의 대상이 되는 3차원 영상 데이터인 쿼리 이미지, 쿼리 이미지의 영역화를 위해 참조로 사용되는 3차원 서포트 이미지 및 서포트 이미지에서 영역화 객체가 표시된 서포트 레이블을 획득할 수 있다. 예를 들어, 쿼리 이미지는 A 환자의 3차원 복부 CT 이미지이고, 서포트 이미지는 B 환자의 3차원 복수 CT 이미지일 수 있다. 쿼리 이미지는, 예를 들어, 간(Liver)에 대한 영역화 요청과 함께 입력된 것일 수 있고, 서포트 레이블은 서포트 이미지 내에서 간(Liver) 영역이 미리 영역화된 이미지일 수 있다.

S720단계에서, 프로세서(130)는 3차원 영상 데이터 영역화 태스크를 수행하도록 훈련된 학습 모델을 로딩한다. 이러한 학습 모델은 미리 훈련된 모델이며, 메모리(110)에 미리 저장되어 있는 모델일 수 있다.

S730단계에서, 프로세서(130)는 3차원 쿼리 이미지, 3차원 서포트 이미지 및 3차원 서포트 레이블을 학습 모델에 입력한다. 또는 3차원 쿼리 이미지, 3차원 서포트 이미지, 3차원 서포트 레이블에 학습 모델을 적용한다.

S740단계에서, 프로세서(130)는 3차원 쿼리 이미지 및 3차원 서포트 이미지, 3차원 서포트 레이블을 n 개의 2차원 슬라이스 이미지로 분할한다.

S750단계에서, 프로세서(130)는 2차원 슬라이스 쿼리 이미지들과 이에 대응하는 2차원 슬라이스 서포트 이미지들, 2차원 슬라이스 서포트 레이블들을 매칭한다.

S760단계에서, 프로세서(130)는 2차원 슬라이스 서포트 이미지 및 2차원 슬라이스 서포트 레이블에 기초하여 현재 2차원 슬라이스 쿼리 이미지를 영역화하는 과정에서 이전 2차원 슬라이스 쿼리 이미지에 대한 영역화 결과(또는 영역화 과정에서 도출되는 중간값, 예를 들어 특징맵)와 다음 2차원 슬라이스 이미지의 영역화 결과(또는 영역화 과정에서 도출되는 중간값, 예를 들어 특징맵)를 참조하여 현재 2차원 슬라이스 쿼리 이미지의 영역화를 수행한다. 즉, 상술된 예에 따르면 2차원 슬라이스 쿼리 이미지에서 간 영역을 표시한다.

S770단계에서, 프로세서(130)는 영역화가 수행된 2차원 슬라이스 쿼리 이미지들에 기초하여 영역화가 수행된 3차원 쿼리 이미지를 출력한다. 즉 프로세서(130)는 쿼리 이미지, 서포트 이미지 및 서포트 레이블에 학습 모델을 적용하여 쿼리 이미지 상에 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력할 수 있다. 상술된 예에 따르면, 쿼리 이미지 상에 간 영역이 표시된 이미지가 출력될 수 있다.

다른 실시 예에서, 학습 모델은 입력되는 3차원 영상 데이터를 n 개의 2차원 슬라이스 이미지로 변환하고, 적어도 1 개의 슬라이스 이미지에 대해, 현재 슬라이스 이미지의 영역화 과정에서 이전 슬라이스 이미지에 대한 영역화 과정에서의 출력값 및 다음 슬라이스 이미지의 영역화 과정에서의 출력값을 참조하여 현재 슬라이스 이미지의 영역화를 수행하도록 구성될 수 있다.

도 8에 도시된 바와 같이, 영상 이미지 영역화를 수행하는 모델을 훈련시키기 위해, S810단계에서, 프로세서(130)는 영상 데이터 영역화를 위한 학습 모델을 구성한다. 이는 초기 학습 모델로 내부의 파라미터 값들이 최적화되기 이전의 상태이며, 초기 파라미터 값들은 임의로 설정될 수 있다.

S820단계에서, 프로세서(130)는 요청 이미지에서 제 1 종류의 객체에 대한 영역화를 요청하는 제 1 쿼리 이미지, 레퍼런스 이미지에서 제 1 종류의 객체에 대한 영역화가 수행된 제 1 서포트 이미지, 요청 이미지에서 제 1 종류의 객체에 대한 영역화가 이루어진 제 1 레이블 이미지를 이용하여 학습 모델을 훈련한다. 예를 들어, 제 1 종류의 객체는 간일 수 있다.

위와 같은 단계가 다른 객체들에 대해 반복되어 S830단계에서는, 프로세서(130)는 요청 이미지에서 제 n 종류의 객체에 대한 영역화를 요청하는 제 n 쿼리 이미지, 레퍼런스 이미지에서 제 n 종류의 객체에 대한 영역화가 수행된 제 n 서포트 이미지, 요청 이미지에서 제 n 종류의 객체에 대한 영역화가 이루어진 제 n 레이블 이미지를 이용하여 학습 모델을 훈련한다. 예를 들어, 제 n 종류의 객체는 폐일 수 있으며, n 값은 정수값일 수 있다. 도 8에서는 제 n 종류의 객체까지 서로 다른 객체들에 대해 수행되는 훈련 과정이 생략되어 있다.

S840단계에서, 프로세서(130)는 훈련된 학습 모델에 대한 테스트를 수행한다. 즉 프로세서(130)는 요청 이미지에서 제 n+1 종류의 객체에 대한 영역화를 요청하는 n+1 쿼리 이미지 및 레퍼런스 이미지에서 제 n+1 종류의 객체에 대한 영역화가 수행된 제 n+1 서포트 이미지를 입력하여 도출되는 출력 이미지를 체크하는 테스트를 수행할 수 있다. 예를 들어, 제 n+1 종류의 객체는 위일 수 있다.

예를 들어, S820단계에서 간에 대한 영역화를 요청하는 태스크에 대한 학습 모델 훈련을 수행하고, S830단계에서 폐에 대한 영역화를 요청하는 태스크에 대한 학습 모델 훈련을 수행했다고 가정할 수 있다. 이때 본 실시 예에서는, S840단계에서, 간 및 폐를 제외한 다른 장기에 대한 서포트 이미지를 입력하여 해당 장기에 대한 이미지가 출력되는지 여부를 확인하여 테스트를 수행할 수 있다.

이때, 프로세서(130)는 출력 이미지를 제 n+1 쿼리 이미지에서 제 n+1 종류의 객체에 대한 영역화가 수행된 제 n+1 서포트 레이블과 비교하여 유사도를 평가하여, 테스트를 수행할 수 있다.

도 9는 본 개시의 일 실시 예에 따른 훈련된 학습 모델의 파인 튜닝(fine tuning) 방법을 설명하기 위한 흐름도이다.

도 9에 도시된 바와 같이, S910단계에서, 프로세서(130)는 K개의 서포트 이미지를 준비한다. 이때 프로세서(130)는 K개의 서포트 이미지와 K개의 서포트 레이블을 준비할 수 있다.

그리고 S920단계에서, 프로세서(130)는 영상 영역화를 위해 훈련된 초기 학습 모델을 로딩한다.

S930단계에서, 프로세서(130)는 K개의 서포트 이미지 중 K-1 개의 서포트 이미지를 예비 서포트 이미지로 사용하고 나머지 1 개의 서포트 이미지를 레이블링된 쿼리 이미지로 사용하여 초기 학습 모델을 추가 훈련(초기 학습 모델 미세 조정)한다. 다시 말해, 프로세서(130)는 K개의 서포트 이미지 중 1 개의 서포트 이미지 및 서포트 레이블을 레이블링 된 쿼리 이미지로, 나머지 K-1 개의 서포트 이미지 및 서포트 레이블을 추가 훈련을 위한 서포트 이미지 세트 및 서포트 레이블 세트로 이용하여 학습 모델에 대한 추가 훈련을 수행할 수 있다.

다시 말해, 프로세서(130)는 서포트 이미지에서 샘플링 된 이미지를 추가 학습을 위한 서포트 이미지와 쿼리 이미지로 설정하여 학습 모델의 파라미터를 업데이트 하는 전이 학습을 수행할 수 있다. 그리고 프로세서(130)는 모든 서포트 이미지에 대해, 한 번씩 쿼리 이미지로 설정되도록 하여 업데이트하는 단계를 반복할 수 있다. 이러한 업데이트를 통해 도 8에서와 같이 훈련된 학습 모델이 한 단계 더 미세조정되어 영역화 성능이 보다 향상될 수 있다.

도 10은 본 개시의 일 실시 예에 따른 학습 모델의 적용을 설명하기 위한 흐름도이다.

도 10에 도시된 바와 같이, S1010단계에서, 프로세서(130)는 3차원 서포트 데이터 및 3차원 쿼리 데이터가 입력되면, S1020단계에서, 서포트 데이터 및 쿼리 데이터를 슬라이스하여 2차원 슬라이스 이미지로 생성할 수 있다.

S1030단계에서, 프로세서(130)는 서포트 데이터 및 쿼리 데이터를 각각 서포트 인코딩 모듈 및 쿼리 인코딩 모듈에 입력한다. 즉, 프로세서(130)는 서포트 이미지의 복수의 2차원 슬라이스 이미지 및 서포트 이미지에 대응하는 서포트 레이블의 복수의 2차원 슬라이스 이미지를 서포트 인코더 모듈에 입력할 수 있다. 그리고 프로세서(130)는 서포트 이미지의 복수의 2차원 슬라이스에 대응하는 쿼리 이미지의 복수의 2차원 슬라이스 이미지를 쿼리 인코더 모듈에 입력할 수 있다.

S1040단계에서, 프로세서(130)는 서포트 인코딩 모듈에 의한 특징맵 및 쿼리 인코딩 모듈에 의한 특징맵을 결합한다. 이때 프로세서(130)는 서포트 인코더 모듈에서 서포트 이미지의 복수의 2차원 슬라이스 이미지 및 서포트 레이블의 복수의 2차원 슬라이스 이미지의 특징맵을 각각 추출하고, 쿼리 인코더 모듈에서 쿼리 이미지의 복수의 2차원 슬라이스 이미지의 특징맵을 각각 추출하여, 각각의 슬라이스 이미지에 대해, 서포트 인코더 모듈에서 추출된 특징맵과 쿼리 인코더 모듈에서 추출된 특징맵을 결합할 수 있다.

S1050단계에서, 프로세서(130)는 결합된 특징맵을 순환 신경망에 적용한다. 이때 프로세서(130)는 기설정된 조건을 통해 연속적으로 배열된 슬라이스 이미지들에서 인접 슬라이스 이미지를 선택하고, 순환 신경망에 기반하여 선택된 인접 슬라이스 이미지 간의 특징 관계를 추출할 수 있다. 또한 프로세서(130)는 순환 신경망에 기반하여, 선택된 인접 슬라이스 이미지에서 순방향으로 특징맵이 순차적으로 전달된 후, 역방향으로 특징맵이 전달되도록 하고, 전달된 인접 슬라이스 이미지의 특징맵에 기반하여 각 슬라이스 이미지의 특징맵이 업데이트 되도록 할 수 있다.

그리고 S1060단계에서, 프로세서(130)는 순환 신경망에 의해 업데이트 된 특징맵을 디코더 모듈에 입력하여, S1070단계에서, 3차원 영상 데이터 영역화 태스크에 대한 영역화를 수행한다. 이때, 프로세서(130)는 쿼리 이미지의 복수의 2차원 슬라이스 이미지의 로우 레벨 특징맵을 스킵 연결(skip connection)을 통해 디코더 모듈에 입력되도록 할 수 있다. 그리고 프로세서(130)는 디코더 모듈에서 각 슬라이스 이미지의 업데이트 된 특징맵과 쿼리 이미지의 복수의 2차원 슬라이스 이미지의 로우 레벨 특징맵에 기반하여 임의의 3차원 영상 데이터 영역화 태스크에 대한 영역화를 수행할 수 있다.

마지막으로, S1080단계에서, 프로세서(130)는 전이 학습을 수행한다. 즉, 프로세서(130)는 서포트 이미지에서 샘플링 된 데이터를 추가 학습을 위한 서포트 이미지와 쿼리 이미지로 설정하여 학습 모델의 파라미터를 업데이트 하는 전이 학습을 수행할 수 있다. 보다 구체적으로, 프로세서(130)는 서포트 이미지가 K개일 때, K1개를 추가 학습을 위한 서포트 이미지로 설정하고 나머지 1 개를 추가 학습을 위한 쿼리 이미지로 설정할 수 있다. 그리고 프로세서(130)는 K-1개의 추가 학습을 위한 서포트 이미지와 추가 학습을 위한 쿼리 이미지를 이용하여 학습 모델을 업데이트할 수 있다. 또한 프로세서(130)는 모든 서포트 데이터에 대해, 한 번씩 쿼리 이미지로 설정되도록 하여 업데이트하는 단계를 반복함으로써 전이학습을 수행할 수 있다.

이상 설명된 본 발명에 따른 실시 예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.

한편, 상기 컴퓨터 프로그램은 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.

본 발명의 명세서(특히 특허청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다.

본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

한편, 본 발명은 아래와 같이 기재된 국가연구개발사업에 의해 지원을 받는다.

과제 1)

[과제고유번호] 1415167935

[정부 부처명] 산업통상자원부

[연구관리전문기관] 한국산업기술평가관리원

[연구사업명] 현장수요반영의료기기고도화기술개발(R&D)

[연구과제명] 구강악안면 수술을 위한 인공지능 기반의 증강현실 수술 시스템 개발

[기여율] 1/1

[주관기관] (주)메가젠임플란트

[연구기간] 2020.03.01 ~ 2020.12.31

Claims

양방향 순환네트워크 기반 퓨샷 러닝(few-shot learning)을 적용하는 3차원 영상 영역화(segmentation) 방법으로서,

영역화의 대상이 되는 3차원 영상 데이터인 쿼리 이미지, 상기 쿼리 이미지의 영역화를 위해 참조로 사용되는 3차원 서포트 이미지 및 상기 서포트 이미지에서 영역화 객체가 표시된 서포트 레이블을 획득하는 단계;

3차원 영상 데이터 영역화를 수행하도록 훈련된 학습 모델을 로딩하는 단계; 및

상기 쿼리 이미지, 상기 서포트 이미지 및 상기 서포트 레이블에 상기 학습 모델을 적용하여 상기 쿼리 이미지 상에 상기 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력하는 단계를 포함하고,

상기 학습 모델은 입력되는 3차원 영상 데이터를 n개의 2차원 슬라이스 이미지로 변환하고, 적어도 1 개의 슬라이스 이미지에 대해, 현재 슬라이스 이미지의 영역화 과정에서 이전 슬라이스 이미지에 대한 영역화 과정에서의 출력값 및 다음 슬라이스 이미지의 영역화 과정에서의 출력값을 참조하여 상기 현재 슬라이스 이미지의 영역화를 수행하도록 구성되는,

3차원 영상 영역화 방법.
제 1 항에 있어서,

상기 서포트 이미지는 K 개의 서포트 이미지이고,

상기 서포트 레이블은 K 개의 서포트 레이블이며,

상기 방법은, 상기 로딩하는 단계 이후, 상기 출력하는 단계 이전에,

K 개의 서포트 이미지 중 1 개의 서포트 이미지 및 서포트 레이블을 레이블링된 쿼리 이미지로, 나머지 K-1 개의 서포트 이미지 및 서포트 레이블을 추가 훈련을 위한 서포트 이미지 세트 및 서포트 레이블 세트로 이용하여 상기 학습 모델에 대한 추가 훈련을 수행하는 단계를 더 포함하는,

3차원 영상 영역화 방법.
제 1 항에 있어서,

상기 학습 모델은,

영상 데이터 영역화를 위한 초기 모델을 구성하는 단계;

상기 초기 모델에 대해, 제 1 종류의 객체에 대한 영역화를 요청하는 제 1 쿼리 이미지, 제 1 서포트 이미지, 상기 제 1 서포트 이미지에 상기 제 1 종류의 객체에 대한 영역화가 수행된 제 1 서포트 레이블, 상기 제 1 쿼리 이미지에서 제 1 종류의 객체에 대한 영역화가 이루어진 제 1 레이블 이미지를 이용하여 제 1 훈련을 수행하는 단계;

상기 제 1 훈련을 수행하는 단계에 의해 도출된 학습 모델에 대해, 제 2 종류의 객체에 대한 영역화를 요청하는 제 2 쿼리 이미지, 제 2 서포트 이미지, 상기 제 2 서포트 이미지에 상기 제 2 종류의 객체에 대한 영역화가 수행된 제 2 서포트 레이블, 상기 제 2 쿼리 이미지에서 제 2 종류의 객체에 대한 영역화가 이루어진 제 2 레이블 이미지를 이용하여 제 2 훈련을 수행하는 단계; 및

상기 제 2 훈련을 수행하는 단계에 의해 도출된 학습 모델에 대해, 제 3 종류의 객체에 대한 영역화를 요청하는 제 3 쿼리 이미지, 제 3 서포트 이미지 및 상기 제 3 종류의 객체에 대한 영역화가 수행된 제 3 서포트 레이블을 입력하여 도출되는 출력 이미지를 체크하는 테스트 단계를 포함하는 훈련 페이즈(phase)에 의해 훈련된,

3차원 영상 영역화 방법.
제 3 항에 있어서,

상기 테스트 단계는,

상기 출력 이미지를 상기 제 3 쿼리 이미지에서 상기 제 3 종류의 객체에 대한 영역화가 수행된 제 3 레이블 이미지와 비교하여 유사도를 평가하는 단계를 포함하는,

3차원 영상 영역화 방법.
제 1 항에 있어서,

상기 학습 모델을 적용하여 상기 쿼리 이미지 상에 상기 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력하는 단계는,

상기 서포트 이미지의 복수의 2차원 슬라이스 이미지 및 상기 서포트 이미지에 대응하는 서포트 레이블의 복수의 2차원 슬라이스 이미지를 서포트 인코더 모듈에 입력하는 단계;

상기 서포트 이미지의 복수의 2차원 슬라이스에 대응하는 상기 쿼리 이미지의 복수의 2차원 슬라이스 이미지를 쿼리 인코더 모듈에 입력하는 단계;

상기 서포트 인코더 모듈에서 상기 서포트 이미지의 복수의 2차원 슬라이스 이미지 및 상기 서포트 레이블의 복수의 2차원 슬라이스 이미지의 특징맵을 각각 추출하는 단계; 및

상기 쿼리 인코더 모듈에서 상기 쿼리 이미지의 복수의 2차원 슬라이스 이미지의 특징맵을 추출하는 단계를 포함하는,

3차원 영상 영역화 방법.
제 5 항에 있어서,

상기 학습 모델을 적용하여 상기 쿼리 이미지 상에 상기 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력하는 단계는,

각각의 슬라이스 이미지에 대해, 상기 서포트 인코더 모듈에서 추출된 특징맵과 상기 쿼리 인코더 모듈에서 추출된 특징맵을 결합하는 단계;

기설정된 조건을 통해 연속적으로 배열된 슬라이스 이미지들에서 인접 슬라이스 이미지를 선택하는 단계; 및

순환 신경망에 기반하여 상기 선택된 인접 슬라이스 이미지 간의 특징 관계를 추출하는 단계를 더 포함하는,

3차원 영상 영역화 방법.
제 6 항에 있어서,

상기 인접 슬라이스 이미지 간의 특징 관계를 추출하는 단계는,

순환 신경망에 기반하여, 상기 선택된 인접 슬라이스 이미지에서 순방향으로 특징맵이 순차적으로 전달된 후, 역방향으로 특징맵이 전달되는 단계; 및

전달된 인접 슬라이스 이미지의 특징맵에 기반하여 각 슬라이스 이미지의 특징맵이 업데이트 되는 단계를 포함하는,

3차원 영상 영역화 방법.
제 6 항에 있어서,

상기 순환 신경망은, RNN(Recurrent Neural Network), LSTM(Long Short term Memory) 및 GRU(Gated Recurrent Unit) 중 하나로 구성되는,

3차원 영상 영역화 방법.
제 7 항에 있어서,

상기 학습 모델을 적용하여 상기 쿼리 이미지 상에 상기 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력하는 단계는,

상기 각 슬라이스 이미지의 업데이트 된 특징맵을 디코더 모듈에 입력하는 단계; 및

상기 디코더 모듈에서 상기 각 슬라이스 이미지의 업데이트 된 특징맵을 기반으로 디코딩하여 임의의 3차원 영상 데이터 영역화 태스크에 대한 영역화를 수행하는 단계를 더 포함하는,

3차원 영상 영역화 방법.
제 9 항에 있어서,

상기 학습 모델을 적용하여 상기 쿼리 이미지 상에 상기 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력하는 단계는,

상기 쿼리 이미지의 복수의 2차원 슬라이스 이미지의 로우 레벨 특징맵을 스킵 연결(skip connection)을 통해 디코더 모듈에 입력하는 단계를 더 포함하는,

3차원 영상 영역화 방법.
제 10 항에 있어서,

상기 영역화를 수행하는 단계는,

상기 디코더 모듈에서 상기 각 슬라이스 이미지의 업데이트 된 특징맵과 상기 쿼리 이미지의 복수의 2차원 슬라이스 이미지의 로우 레벨 특징맵에 기반하여 임의의 3차원 영상 데이터 영역화 태스크에 대한 영역화를 수행하는 단계를 포함하는,

3차원 영상 영역화 방법.
제 1 항에 있어서,

상기 방법은, 상기 로딩하는 단계 이후, 상기 출력하는 단계 이전에,

서포트 이미지에서 샘플링 된 이미지를 추가 학습을 위한 서포트 이미지와 쿼리 이미지로 설정하여 상기 학습 모델의 파라미터를 업데이트 하는 전이(transfer) 학습을 수행하는 단계를 더 포함하는,

3차원 영상 영역화 방법.
제 12 항에 있어서,

상기 전이 학습을 수행하는 단계는,

서포트 이미지가 K 개일 때, K1 개를 추가 학습을 위한 서포트 이미지로 설정하고 나머지 1 개를 추가 학습을 위한 쿼리 이미지로 설정하는 단계; 및

상기 K-1 개의 추가 학습을 위한 서포트 이미지와 상기 추가 학습을 위한 쿼리 이미지를 이용하여 상기 학습 모델을 업데이트하는 단계; 및

모든 서포트 이미지에 대해, 한 번씩 쿼리 이미지로 설정되도록 하여 상기 업데이트하는 단계를 반복하는 단계를 포함하는,

3차원 영상 영역화 방법.
양방향 순환네트워크 기반 퓨샷 러닝(few-shot learning)을 적용하는 3차원 영상 영역화(segmentation) 장치로서,

메모리; 및

상기 메모리와 연결되고, 상기 메모리에 포함된 컴퓨터 판독 가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,

상기 적어도 하나의 프로세서는,

영역화의 대상이 되는 3차원 영상 데이터인 쿼리 이미지, 상기 쿼리 이미지의 영역화를 위해 참조로 사용되는 3차원 서포트 이미지 및 상기 서포트 이미지에서 영역화 객체가 표시된 서포트 레이블을 획득하는 동작,

3차원 영상 데이터 영역화를 수행하도록 훈련된 학습 모델을 로딩하는 동작, 및

상기 쿼리 이미지, 상기 서포트 이미지 및 상기 서포트 레이블에 상기 학습 모델을 적용하여 상기 쿼리 이미지 상에 상기 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력하는 동작을 수행하도록 구성되고,

상기 학습 모델은 입력되는 3차원 영상 데이터를 n개의 2차원 슬라이스 이미지로 변환하고, 적어도 1 개의 슬라이스 이미지에 대해, 현재 슬라이스 이미지의 영역화 과정에서 이전 슬라이스 이미지에 대한 영역화 과정에서의 출력값 및 다음 슬라이스 이미지의 영역화 과정에서의 출력값을 참조하여 상기 현재 슬라이스 이미지의 영역화를 수행하도록 구성되는,

3차원 영상 영역화 장치.
제 14 항에 있어서,

상기 서포트 이미지는 K 개의 서포트 이미지이고,

상기 서포트 레이블은 K 개의 서포트 레이블이며,

상기 적어도 하나의 프로세서는, 상기 로딩하는 동작 이후, 상기 출력하는 동작 이전에,

K 개의 서포트 이미지 중 1 개의 서포트 이미지 및 서포트 레이블을 레이블링된 쿼리 이미지로, 나머지 K-1개 의 서포트 이미지 및 서포트 레이블을 추가 훈련을 위한 서포트 이미지 세트 및 서포트 레이블 세트로 이용하여 상기 학습 모델에 대한 추가 훈련을 수행하는 동작을 더 포함하는,

3차원 영상 영역화 장치.
제 14 항에 있어서,

상기 학습 모델은,

영상 데이터 영역화를 위한 초기 모델을 구성하는 단계;

상기 초기 모델에 대해, 제 1 종류의 객체에 대한 영역화를 요청하는 제 1 쿼리 이미지, 제 1 서포트 이미지, 상기 제 1 서포트 이미지에 상기 제 1 종류의 객체에 대한 영역화가 수행된 제 1 서포트 레이블, 상기 제 1 쿼리 이미지에서 제 1 종류의 객체에 대한 영역화가 이루어진 제 1 레이블 이미지를 이용하여 제 1 훈련을 수행하는 단계;

상기 제 1 훈련을 수행하는 단계에 의해 도출된 학습 모델에 대해, 제 2 종류의 객체에 대한 영역화를 요청하는 제 2 쿼리 이미지, 제 2 서포트 이미지, 상기 제 2 서포트 이미지에 상기 제 2 종류의 객체에 대한 영역화가 수행된 제 2 서포트 레이블, 상기 제 2 쿼리 이미지에서 제 2 종류의 객체에 대한 영역화가 이루어진 제 2 레이블 이미지를 이용하여 제 2 훈련을 수행하는 단계; 및

상기 제 2 훈련을 수행하는 단계에 의해 도출된 학습 모델에 대해, 제 3 종류의 객체에 대한 영역화를 요청하는 제 3 쿼리 이미지, 제 3 서포트 이미지 및 상기 제 3 종류의 객체에 대한 영역화가 수행된 제 3 서포트 레이블을 입력하여 도출되는 출력 이미지를 체크하는 테스트 단계를 포함하는 훈련 페이즈(phase)에 의해 훈련된,

3차원 영상 영역화 장치.
제 16 항에 있어서,

상기 테스트 단계는,

상기 출력 이미지를 상기 제 3 쿼리 이미지에서 상기 제 3 종류의 객체에 대한 영역화가 수행된 제 3 레이블 이미지와 비교하여 유사도를 평가하는 단계를 포함하는,

3차원 영상 영역화 장치.
제 14 항에 있어서,

상기 학습 모델을 적용하여 상기 쿼리 이미지 상에 상기 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력하는 동작은,

상기 서포트 이미지의 복수의 2차원 슬라이스 이미지 및 상기 서포트 이미지에 대응하는 서포트 레이블의 복수의 2차원 슬라이스 이미지를 서포트 인코더 모듈에 입력하는 동작,

상기 서포트 이미지의 복수의 2차원 슬라이스에 대응하는 상기 쿼리 이미지의 복수의 2차원 슬라이스 이미지를 쿼리 인코더 모듈에 입력하는 동작,

상기 서포트 인코더 모듈에서 상기 서포트 이미지의 복수의 2차원 슬라이스 이미지 및 상기 서포트 레이블의 복수의 2차원 슬라이스 이미지의 특징맵을 각각 추출하는 동작, 및

상기 쿼리 인코더 모듈에서 상기 쿼리 이미지의 복수의 2차원 슬라이스 이미지의 특징맵을 각각 추출하는 동작을 포함하는,

3차원 영상 영역화 장치.