KR102662401B1

KR102662401B1 - 영상분할방법 및 그 장치

Info

Publication number: KR102662401B1
Application number: KR1020230129566A
Authority: KR
Inventors: 박상준; 김종민; 정한재; 함승민
Original assignee: 메디컬아이피 주식회사
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2024-05-03

Abstract

영상분할방법 및 그 장치가 개시된다. 영상분할장치는 영상을 딥러닝모델에 입력하여 복수의 확률맵을 획득하고, 복수의 확률맵을 기반으로 상기 영상에서 복수의 객체를 식별한다. 여기서, 복수의 확률맵은 복수의 객체 중 적어도 2개 이상의 객체의 영역으로 정의된 복수의 조합에 영상의 각 픽셀이 속하는 확률을 나타내는 딥러닝모델의 예측값을 포함한다.

Description

영상분할방법 및 그 장치{Medical image segmentation method and apparatus}

본 발명의 실시 예는 영상분할방법 및 그 장치에 관한 것으로, 보다 상세하게는 영상 내 복수의 객체를 딥러닝모델을 통해 분할할 수 있는 방법 및 그 장치에 관한 것이다.

딥러닝(deep learning)은 인공신경망을 이용하여 데이터를 조합하고 분석하는 학습방법이다. 딥러닝모델은 영상인식 등 다양한 분야에서 사용되고 있다. 예를 들어, 딥러닝모델을 이용하여 의료영상으로부터 병변을 진단하거나 의료영상 내 인체장기 영역을 분할할 수 있다. 딥러닝모델을 이용하여 영상 내 특정 영역을 분할하기 위해서는 특정 영역을 라벨링(labeling)(또는 어노테이션(annotation) 이라고함)한 학습데이터를 이용하여 딥러닝모델을 훈련시켜는 과정이 필요하다. 예를 들어, 의료영상에서 간 영역을 분할하고자 한다면 간 영역을 라벨링한 학습데이터를 이용하여 딥러닝모델을 훈련시켜야 하고, 폐 영역을 분할하고자 한다면 폐 영역을 라벨링한 학습데이터를 이용하여 딥러닝모델을 훈련시키는 과정이 각각 필요하다. 따라서 딥러닝모델을 통해 분할하고자 하는 영역의 개수가 늘어나면 각 영역마다 딥러닝모델을 훈련시켜야 하므로 학습시간이 증가한다. 또한 복수의 영역을 단일의 딥러닝모델을 이용하여 분할하고자 한다면 복수의 영역을 라벨링한 학습데이터가 필요하며, 복수의 영역 중 일부 영역만이 라벨링된 영상은 학습데이터로 사용하기 어렵다.

본 발명의 실시 예가 이루고자 하는 기술적 과제는, 영상 내 복수의 객체를 분할하는데 복수의 딥러닝모델을 사용하지 않고 단일의 딥러닝모델을 이용하여 영상 내 복수의 객체를 식별하는 영상분할방법 및 그 장치를 제공하는 데 있다.

본 발명의 실시 예가 이루고자 하는 다른 기술적 과제는, 영상 내 복수의 객체의 분할을 수행하기 위한 단일의 딥러닝모델을 생성하는 영상분할방법 및 그 장치를 제공하는 데 있다.

상기의 기술적 과제를 달성하기 위한, 본 발명의 실시 예에 따른 영상분할방법의 일 예는, 영상분할장치가 수행하는 영상분할방법에 있어서, 영상을 딥러닝모델에 입력하여 복수의 확률맵을 획득하는 단계; 상기 복수의 확률맵을 기반으로 상기 영상에서 복수의 객체를 식별하는 단계;를 포함하고, 상기 복수의 확률맵은 상기 복수의 객체 중 적어도 2개 이상의 객체의 영역으로 정의된 복수의 조합에 상기 영상의 각 픽셀이 속하는 확률을 나타내는 상기 딥러닝모델의 예측값을 포함한다.

상기의 기술적 과제를 달성하기 위한, 본 발명의 실시 예에 따른 영상분할방법의 다른 일 예는, 영상분할장치가 수행하는 영상분할방법에 있어서, 학습영상 내 복수의 객체 중 적어도 2개 이상의 객체의 영역을 조합한 복수의 정답마스크를 정의하는 단계; 상기 학습영상을 딥러닝모델에 입력하여 상기 학습영상의 각 픽셀이 각 정답마스크에 속하는 확률을 나타내는 복수의 확률맵을 획득하는 단계; 상기 복수의 정답마스크와 상기 복수의 확률맵 사이의 차이를 나타내는 손실함수의 값을 구하는 단계; 및 상기 손실함수의 값이 최소가 되도록 상기 딥러닝모델을 훈련시키는 단계;를 포함한다.

상기의 기술적 과제를 달성하기 위한, 본 발명의 실시 예에 따른 영상분할장치의 일 예는, 영상을 딥러닝모델에 입력하여 복수의 확률맵을 생성하는 맵생성부; 상기 복수의 확률맵을 기반으로 상기 영상에서 복수의 객체를 분할하는 분할부;를 포함하고, 상기 복수의 확률맵은 상기 복수의 객체 중 적어도 2개 이상의 객체의 영역으로 정의된 복수의 조합에 상기 영상의 각 픽셀이 속하는 확률을 나타내는 상기 딥러닝모델의 예측값을 포함한다.

본 발명의 일 실시 예에 따르면, 단일의 딥러닝모델을 이용하여 영상 내 복수의 객체를 식별하거나 분할할 수 있다. 딥러닝모델은 복수의 객체에 대한 각각의 확률맵이 아니라 복수의 객체 중 적어도 둘 이상의 객체 조합에 대한 확률맵을 출력하므로 분할대상객체의 수보다 확률맵의 개수를 더 작게 할 수 있어 딥러닝모델의 연산량과 학습시간을 단축할 수 있다. 다른 실시 예에 따르면, 복수의 객체 중 적어도 둘 이상의 객체의 영역 조합을 기반으로 딥러닝모델을 훈련시키므로 서로 다른 객체 영역을 라벨링한 영상을 학습데이터로 함께 이용 가능하다. 또한 본 실시 예를 의료영상에 적용하여 의료영상 내 복수의 인체부위를 한꺼번에 식별하거나 분할 가능하다.

도 1은 본 발명의 실시 예에 따른 영상분할장치의 일 예를 도시한 도면,
도 2는 본 발명의 실시 에에 따른 영상분할방법의 일 예를 도시한 흐름도,
도 3은 본 발명의 실시 예에 따른 딥러닝모델의 일 예를 도시한 도면,
도 4는 본 발명의 실시 예에 따른 조합 생성 방법의 일 예를 도시한 도면,
도 5는 본 발명의 실시 예에 따른 딥러닝모델의 확률맵을 이용하여 복수의 객체를 식별하는 방법의 일 예를 도시한 도면,
도 6은 본 발명의 실시 예에 따른 딥러닝모델을 훈련시키는 방법의 일 예를 도시한 흐름도,
도 7은 본 발명의 실시 예에 따른 딥러닝모델의 손실함수를 구하는 방법의 일 예를 도시한 도면,
도 8은 본 발명의 실시 예에 따른 영상분할장치의 일 예의 구성을 도시한 도면, 그리고,
도 9는 본 발명의 실시 예에 따른 영상분할장치의 학습부의 상세 구성의 일 예를 도시한 도면이다.

이하에서, 첨부된 도면들을 참조하여 본 발명의 실시 예에 따른 의료영상 분할방법 및 그 장치에 대해 상세히 살펴본다.

도 1은 본 발명의 실시 예에 따른 영상분할장치의 일 예를 도시한 도면이다.

도 1을 참조하면, 영상분할장치(100)는 영상(110) 내 복수의 객체를 식별하거나 분할한다. 예를 들어, 영상분할장치는 영상(110) 내 복수의 객체를 각각 분할한 분할영상(120)을 출력하거나 영상(110) 내 복수의 객체의 영역을 색상이나 명암 또는 경계선 등으로 구분한 분할영상(120)을 출력할 수 있다.

일 실시 예로, 영상(110)은 의료기기로 촬영한 의료영상일 수 있다. 예를 들어, 영상(110)은 CT(Computed Tomography), MRI(Magnetic Resonance Imaging) 등의 3차원 의료영상(즉, 단층영상)이거나 X-ray 등의 2차원 의료영상일 수 있다. 이 외에도 영상(110)은 픽셀로 구성된 다양한 종류의 영상일 수 있으며 특정 종류로 한정되는 것은 아니다.

객체는 영상(110) 내 영역 구분이 가능한 대상이다. 예를 들어, 동물을 촬영한 영상(110)에서 객체는 동물일 수 있다. 의료영상인 경우에 객체는 의료영상에 나타내는 인체부위(각종 장기나 조직 등)일 수 있다. 예를 들어, 흉부를 촬영한 의료영상 내 객체는 뼈, 근육, 지방, 폐, 심장, 동맥 등 다양한 인체부위일 수 있다. 다른 실시 예로, 영상(110) 내 배경(background) 영역을 식별하거나 분할할 필요가 있다면, 객체의 종류에 배경을 더 포함할 수 있다.

영상분할장치(100)는 단일의 딥러닝모델을 이용하여 영상(110) 내 복수의 객체를 식별하거나 분할한다. 이를 위하여 딥러닝모델은 복수의 클래스를 구분하여 출력하는 일종의 멀티-레이블(multi-label) 모델이다. 딥러닝모델은 인공신경망으로 구현되어 소정의 학습과정을 통해 생성된다.

일반적으로, 분할대상객체와 딥러닝모델이 분류하는 클래스는 일대일 대응될 수 있다. 예를 들어, 5개의 객체를 분할하고자 한다면, 딥러닝모델은 영상 내 각 픽셀을 5개의 클래스로 분류하여 출력하는 모델로 구현될 수 있다. 이 경우에 분할대상객체가 50개이면 50개의 클래스를 분류하는 딥러닝모델이 필요하다. 분할대상객체의 수와 클래스 수가 정비례하므로 단일의 딥러닝모델로 많은 수의 객체를 한 번에 식별하거나 분할하기 위해서는 딥러닝모델의 연산량이 많아지고 학습시간도 많이 소요되는 단점이 있다.

이러한 문제점을 해결하기 위하여, 본 실시 예는 분할대상객체와 딥러닝모델이 분류하는 클래스의 대응관계를 N:M(N>M)으로 만든다. 하나의 클래스가 복수의 객체에 대응된다. 예를 들어, 8개의 객체를 분할하고자 할 때, 딥러닝모델은 영상 내 각 픽셀을 8개의 클래스로 분류하는 것이 아니라 3개의 클래스로 분류할 수 있다. 이러한 딥러닝모델을 이용하여 영상 내 복수의 객체를 분할하는 방법에 대해서는 도 2 이하에서 구체적으로 살펴본다. 또한 본 실시 예의 딥러닝모델을 학습과정을 통해 생성하는 방법에 대해서는 도 6에서 다시 살펴본다.

도 2는 본 발명의 실시 에에 따른 영상분할방법의 일 예를 도시한 흐름도이다.

도 2를 참조하면, 영상분할장치(100)는 영상을 딥러닝모델에 입력하여 복수의 확률맵을 획득한다(S200). 본 실시 예에서 딥러닝모델은 미리 정의된 개수의 확률맵을 출력하도록 학습되었다고 가정한다.

복수의 확률맵은 복수의 객체 중 적어도 2개 이상의 객체의 영역으로 정의된 복수의 조합에 영상의 각 픽셀이 속하는 확률을 나타내는 딥러닝모델의 예측값을 포함한다. 다시 말해, 각 확률맵은 영상 내 각 픽셀이 어느 하나의 객체에 속하는 확률을 나타내는 것이 아니라, 복수의 객체의 영역을 포함하는 조합에 속하는 확률을 나타낸다. 확률맵은 영상 내 각 픽셀의 확률값을 벡터로 표현할 수 있다. 이 외에도 확률맵은 다양한 포맷으로 데이터를 표현할 수 있다. 복수의 객체 영역으로 정의된 조합과 딥러닝모델이 출력하는 확률맵의 예가 도 3에 도시되어 있다.

영상분할장치(100)는 복수의 확률맵을 기반으로 영상에서 복수의 객체를 식별한다(S210). 예를 들어, 제1 조합과 제2 조합에 대한 제1 확률맵과 제2 확률맵이 존재하면, 영상분할장치는 제1 확률맵과 제2 확률맵에 존재하는 각 픽셀의 확률값을 기반으로 각 픽셀이 제1 조합의 영역 및/또는 제2 조합의 영역에 속하는지 파악할 수 있다.

영상 내 제1 픽셀에 대한 제1 확률맵 및 제2 확률맵의 확률값이 각각 (0.7, 0.8)이고 판단을 위한 임계값이 0.5이면, 영상분할장치(100)는 제1 픽셀이 제1 조합 및 제2 조합의 영역에 모두 속한다고 판단할 수 있다. 또한 제2 픽셀의 확률값이 (0.8, 0.1)이면, 영상분할장치(100)는 제2 픽셀이 제1 조합의 영역에 속하지만 제2 조합의 영역에 속하지 않는다고 판단할 수 있다. 제1 조합의 영역이 제1 객체 및 2 객체를 포함하는 영역이고 제2 조합의 영역이 제1 객체 및 제3 객체를 포함하는 영역이면, 제1 조합에 속하지만 제2 조합에 속하지 않는 객체는 제2 객체이므로, 영상분할장치(100)는 제2 픽셀을 제2 객체에 속한다고 판단할 수 있다. 이와 같은 방법으로 복수의 조합에 대한 복수의 확률맵을 이용하여 각 픽셀이 어느 객체의 영역에 속하는지 파악할 수 있다. 이에 대해서는 도 4에서 다시 구체적으로 살펴본다.

영상분할장치(100)는 사용자로부터 분할대상객체를 선택받으면, 영상에서 분할대상객체에 해당하는 객체의 영역을 분할한 결과를 시각적으로 제공할 수 있다. 영상분할장치(100)는 사용자 등급에 따라 제공하는 분할 결과의 범위를 서로 다르게 할 수 있다. 예를 들어, 영상분할장치(100)가 영상으로부터 100개의 객체를 분할한 경우에 제1 사용자에게는 한 번에 5개의 객체 분할 결과를 제공하고, 제2 사용자에게는 한 번에 10개의 객체 분할 결과를 제공할 수 있다.

도 3은 본 발명의 실시 예에 따른 딥러닝모델의 일 예를 도시한 도면이다.

도 3을 참조하면, 딥러닝모델(300)은 영상(310)을 입력받으면 복수의 확률맵(330)을 출력하는 모델이다. 각 확률맵(330)은 영상 내 각 픽셀이 기 정의된 각 조합(320)에 속하는 확률을 나타낸다. 예를 들어, 제1 확률맵은 영상 내 각 픽셀이 제1 조합에 정의된 영역에 속하는 확률을 나타내는 데이터이고, 제2 확률맵은 영상 내 각 픽셀이 제2 조합에 정의된 영역에 속하는 확률을 나타내는 데이터이고, 제N 확률맵은 영상 내 각 픽셀이 제N 조합에 정의된 영역에 속하는 확률을 나타내는 데이터이다.

각 조합(320)은 2개 이상의 객체 영역으로 정의된다. 분할대상객체의 총 개수가 N개이면, N개의 객체 중 적어도 2개 이상의 객체의 영역을 포함하는 다양한 조합이 가능하다. 예를 들어, 분할대상객체가 총 8개인 경우에, 제1 조합은 영상(310) 내 제1,2 객체의 영역을 포함하고, 제2 조합은 영상(310) 내 제1,2,3 객체의 영역을 포함하고, 제N 조합은 영상(310) 내 제5,6,7 객체의 영역을 포함할 수 있다. 각 조합에 포함되는 객체의 개수 및 영역은 다양할 수 있다.

본 실시 예의 딥러닝모델(300)이 출력하는 각 확률맵(330)은 각 객체와 일대일 대응되는 것이 아니라 각 조합(320)과 일대일 대응된다. 예를 들어, 딥러닝모델(300)을 이용하여 총 8개의 객체를 분할하고자 할 경우에, 3개의 조합을 정의하고, 3개의 조합에 대한 3개의 확률맵을 출력하는 딥러닝모델(300)을 사용할 수 있다. 물론 8개의 객체에 대하여 4개 이상의 조합이 정의될 수 있다. 조합(320)의 개수가 늘어나면 그에 따라 딥러닝모델(300)이 생성하는 확률맵(330)의 개수도 늘어나므로 연산량 등을 고려할 때 최적 개수의 조합을 정의하여 사용할 수 있다. 최적의 조합을 생성하는 방법에 대해 도 4에서 살펴본다.

도 4는 본 발명의 실시 예에 따른 조합 생성 방법의 일 예를 도시한 도면이다.

도 4를 참조하면, 분할대상객체(400)의 총 개수는 배경을 포함하여 총 8개이다. 실시 예에 따라 배경은 객체에서 제외될 수 있다. 본 실시 예는 이해를 돕기 위하여 머리, 팔, 다리 등으로 객체의 종류를 정의하고 있다. 의료영상 내 인체부위를 분할하고자 하는 경우에 각 객체는 폐, 간 등 다양한 인체부위일 수 잇다.

영상분할장치(100)는 복수의 객체를 구분하기 위한 식별자로 복수의 비트로 구성된 비트열(420)을 각 객체에 할당한다. 총 8개의 객체를 구분하기 위하여 필요한 비트열(420)의 최소 길이는 3이다. 일 실시 예로, 비트열의 최소 길이는 "[log₂(분할대상객체의 총 개수]"으로 구할 수 있다. 여기서 기호 "[A]"는 A보다 큰 가장 작은 자연수를 나타낸다. 분할대상객체의 개수가 16개이면, 비트열의 최소 길이는 4(=log₂16)이다.

일 실시 예로, 영상분할장치(100)는 각 객체에 0부터 순차적으로 객체 번호(410)를 부여하고, 각 객체 번호(410)를 기 정의된 비트길이(예를 들어, [log₂(분할대상객체의 총 개수])의 이진수로 나타낸 비트열(420)을 각 객체에 할당할 수 있다. 예를 들어, 0번 객체에는 '000'을 할당하고, 1번 객체에는 '001'을 할당할 수 있다. 본 실시 예는 2⁰, 2¹, 2² 자릿수의 순으로 비트열을 표시하고 있다. 본 실시 예는 최소 길이의 비트열(420)로 객체의 식별자를 표현하고 있으나, 이는 하나의 예일 뿐 3비트가 아닌 4비트 이상의 비트열을 각 객체의 식별자로 할당할 수 있다.

영상분할장치(100)는 각 객체의 비트열(420)의 각 자릿수를 기준으로 동일 비트값을 가진 객체의 영역을 포함하는 복수의 조합을 정의한다. 예를 들어, 영상분할장치(100)는 비트열(420)의 첫 번째 자릿수(2⁰자리)(430)를 기반으로 제1 조합(460)을 생성하고, 두 번째 자릿수(2¹자리)(440)를 기반으로 제2 조합(470)을 생성하고, 세 번째 자릿수(2²자리)(450)를 기반으로 제3 조합(480)을 생성한다. 본 실시 예의 비트열의 길이는 3비트이므로 3개의 조합(460,470,480)이 생성된다. 다른 실시 예로, 각 객체를 구분하기 위한 식별자가 4비트의 비트열로 구성되면, 영상분할장치는 총 4개의 조합을 생성할 수 있다.

영상분할장치(100)는 각 자릿수의 비트값이 동일한 객체의 영역을 포함하는 조합을 생성한다. 예를 들어, 비트열의 첫 번째 자릿수(430)의 값이 '1'인 객체는 제1,3,5,7 객체이므로, 제1 조합(460)은 머리, 복부, 오른팔, 오른다리의 영역을 포함한다. 비트열의 두 번째 자릿수(440)의 값이 '1'인 객체는 제2,3,6,7 객체이므로, 제2 조합(470)은 가슴, 복부, 왼다리, 오른다리의 영역을 포함한다. 마찬가지 방법으로 제3 조합(480)은 왼팔, 오른팔, 왼다리, 오른다리의 영역을 포함한다.

일 실시 예로, 각 조합(460,470,480)은 객체의 영역에 속한 픽셀을 '1'로 나타내고 객체 외의 영역에 속한 픽셀을 '0'으로 나타낸 이진 이미지 형태일 수 있다. 이 외에도 각 조합(460,470,480)에 속한 객체 영역을 나타내는 다양한 데이터 포맷이 사용될 수 있다. 본 실시 예는 이해를 돕기 위하여 각 조합(460,470,480) 내 객체 영역은 흰색으로 그 밖의 영역은 검은색으로 도시하고 있다.

도 5는 본 발명의 실시 예에 따른 딥러닝모델의 확률맵을 이용하여 복수의 객체를 식별하는 방법의 일 예를 도시한 도면이다.

도 4 및 도 5를 함께 참조하면, 딥러닝모델(500)은 도 4의 8개의 객체(400)를 식별하기 위하여 3개의 조합(460,470,480)에 대한 3개의 확률맵(520)을 출력하는 모델이다. 다시 말해, 딥러닝모델(500)은 영상(510)을 입력받으면 영상(510)의 각 픽셀이 제1 조합(460)에 정의된 객체 영역에 속하는 확률을 나타내는 제1 확률맵(522), 제2 조합(470)에 정의된 객체 영역에 속하는 확률을 나타내는 제2 확률맵(524), 제3 조합(480)에 정의된 객체 영역에 속하는 확률을 나타내는 제3 확률맵(526)을 출력한다.

예를 들어, 어느 한 픽셀(x,y)에 대한 3개의 확률맵(520)의 확률값(530)이 (0.6, 0.7, 0.4)라고 하자. 영상분할장치(100)는 기 정의된 임계값(예를 들어, 0.5)을 기반으로 픽셀(x,y)의 확률값(530)을 (1,1,0)으로 이진화(540)한다. 즉, 영상분할장치(100)는 확률값이 0.5 이상이면 '1'로 변환하고 확률값이 0.5 미만이면 '0'으로 변환할 수 있다. 임계값은 실시 예에 따라 다양한 값으로 정의될 수 있으며 반드시 0.5로 한정되는 것은 아니다.

픽셀(x,y)의 이진화값 (1,1,0)을 비트열로 표현하면 '110'이 된다. 영상분할장치(100)는 픽셀(x,y)의 확률값을 이진화화여 생성한 비트열 '110'과 도 4의 각 객체에 부여한 비트열(420)을 비교하여 픽셀(x,y)이 속한 객체를 식별할 수 있다. 픽셀(x,y)의 이진화값이 '110'이므로 이는 도 4의 3번 객체에 부여된 비트열 '110'과 동일하다. 따라서 영상분할장치(100)는 본 실시 예의 픽셀(x,y)을 3번 객체의 복부에 속하는 픽셀로 분류(550)할 수 있다. 이와 같은 방법으로 영상분할장치(100)는 영상 내 각 픽셀이 어느 객체에 속하는지 파악할 수 있다.

영상분할장치(100)는 동일한 객체에 속하는 픽셀로 이루어진 영역을 구분하여 영상 내 복수의 객체의 영역을 분할할 수 있다. 예를 들어, 도 4에서 1번 객체의 머리에 해당하는 픽셀들의 영역을 검출하고, 2번 객체의 가슴에 해당하는 픽셀들의 영역을 검출할 수 있다. 영상(510) 내 각 픽셀을 객체별로 서로 다른 색상이나 명암으로 표시하거나 또는 각 객체 사이에 경계선 등을 추가하여 영상(510) 내 복수의 객체 영역을 구분하여 시각적으로 표시할 수 있다.

도 6은 본 발명의 실시 예에 따른 딥러닝모델을 훈련시키는 방법의 일 예를 도시한 흐름도이다.

도 6을 참조하면, 영상분할장치(100)는 학습영상 내 복수의 객체 중 적어도 2개 이상의 객체의 영역을 조합한 복수의 정답마스크를 정의한다(S600). 학습영상은 복수의 객체 중 적어도 하나 이상의 영역을 라벨링한 영상일 수 있다. 본 실시 예는 어느 하나의 객체 영역을 이용하여 딥러닝모델을 학습시키는 것이 아니라 여러 객체의 영역을 조합한 영역을 이용하여 딥러닝모델을 학습시키므로, 학습에 사용하는 학습영상은 서로 다른 영역을 라벨링한 영상일 수 있다.

예를 들어, 본 실시 예를 의료분야에 적용하는 경우에 제1 학습영상은 간과 폐 영역을 라벨링한 영상이고, 제2 학습영상은 간과 심장을 라벨링한 영상이고, 제3 학습영상은 폐와 뼈를 라벨링한 영상일 수 있다. 영상분할장치(100)는 제1 학습영상으로부터 간과 폐의 영역을 포함하는 제1 정답마스크를 생성하고, 제2 학습영상으로부터 간와 심장의 영역을 포함하는 제2 정답마스크를 생성하고, 제3 학습영상으로부터 폐와 뼈의 영역을 포함하는 제3 정답마스크를 생성할 수 있다. 학습영상 내 복수의 객체에 대한 라벨링이 존재하면, 하나의 학습영상으로부터 복수의 객체 중 적어도 2 이상의 객체의 영역을 포함하는 복수의 정답마스크를 생성할 수 있다. 다른 실시 예로, 학습영상 및 정답마스크를 포함하는 학습데이터가 미리 정의되어 저장되어 있다면, 영상분할장치(100)는 정답마스크를 정의하는 과정없이 저장된 학습데이터를 그대로 사용하면 된다.

영상분할장치(100)는 복수의 객체에 대하여 도 4에서 설명한 방법으로 비트열을 할당하고, 비트열을 기준으로 각 조합에 포함되는 객체의 영역을 포함하는 정답마스크를 정의할 수 있다. 즉, 도 4의 각 조합이 본 실시 예의 정답마스크가 될 수 있다. 영상분할장치(100)는 각 조합에 해당하는 객체들의 영역을 마스크 영역으로 정의한 정답마스크를 생성할 수 있다. 일 예로, 정답마스크는 조합을 구성하는 객체들의 영역(예를 들어, 픽셀값 = '1')과 그 외의 영역(예를 들어, 픽셀값 = '0')으로 구성된 이진화 이미지로 정의될 수 있다.

영상분할장치(100)는 학습영상을 딥러닝모델에 입력하여 학습영상의 각 픽셀이 각 정답마스크에 속하는 확률을 나타내는 복수의 확률맵을 획득한다(S610). 딥러닝 모델이 출력하는 확률맵은 학습영상의 각 픽셀이 정답마스크의 마스크 영역에 속하는 확률을 나타내는 값이다. 도 4의 방법으로 3개의 정답마스크가 정의되면, 딥러닝모델은 도 5와 같은 3개의 확률맵을 생성한다.

영상분할장치(100)는 복수의 정답마스크와 복수의 확률맵 사이의 차이를 나타내는 손실함수의 값을 구한다(S620). 예를 들어, 3개의 확률맵이 생성되면, 영상분할장치는 제1 확률맵과 제1 정답마스크 사이의 제1 손실을 구하고, 제2 확률맵과 제2 정답마스크의 사이의 제2 손실을 구하고, 제3 확률맵과 제3 정답마스크 사이의 제3 손실을 구한 후, 제1,2,3 손실을 합산(예를 들어, 총합, 평균 등 다양한 방식의 통계적 합산)하여 손실함수의 값을 구할 수 있다. 이 외에도 정답지인 정답마스크와 딥러닝모델의 예측값인 확률맵 사이의 오차를 구하는 다양한 방법이 본 실시 예에 적용될 수 있다. 손실함수의 값을 구하는 방법의 일 예에 대하여 도 7에서 다시 살펴본다.

영상분할장치(100)는 손실함수의 값이 최소가 되도록 딥러닝모델을 훈련시킨다(S630). 학습데이터에는 복수의 학습영상이 존재하며, 영상분할장치는 복수의 학습영상에 대하여 본 실시 예의 방법을 적용하여 딥러닝모델을 반복 훈련시킬 수 있다. 손실함수의 값이 최소가 되도록 딥러닝모델의 각종 파라미터를 조정하는 훈련 방법 그 자체는 이미 널리 알려진 방법이므로 이에 대한 추가적인 설명은 생략한다.

도 7은 본 발명의 실시 예에 따른 딥러닝모델의 손실함수를 구하는 방법의 일 예를 도시한 도면이다.

도 7을 참조하면, 딥러닝모델은 8개의 객체를 식별하기 위하여 3개의 정답마스크(710)에 대한 3개의 확률맵(700)을 생성하는 모델이라고 가정한다. 영상분할장치(100)는 서로 대응되는 정답마스크(710)와 확률맵(700) 사이의 오차를 파악한다. 딥러닝모델의 각 채널별 픽셀의 손실(BCE, Binary Cross Entropy)을 수학식으로 표현하면 다음과 같다. 아래 수학식 1은 이해를 돕기 위한 하나의 예일 뿐 본 실시 예가 반드시 수학식 1로 한정되는 것은 아니다.

여기서, t는 정답마스크(710)의 각 픽셀의 값(예를 들어, 마스크 영역=1, 그 외 영역=0)을 나타내는 벡터이다. z는 확률맵(700)의 각 픽셀의 값을 나타내는 벡터이다.

예를 들어, 학습영상 내 어느 한 픽셀에 대하여 t={1,1,0}이고, z={0.6,0.7,0.4}이면, 해당 픽셀의 제1 정답마스크(712)와 제1 확률맵(702) 사이의 손실a, 제2 정답마스크(714)와 제2 확률맵(704) 사이의 손실b 및 제3 정답마스크(716)와 제3 확률맵(706) 사이의 손실c는 각각 다음과 같이 구해진다.

영상분할장치(100)는 각 채널의 손실을 더하여 각 픽셀의 손실함수(720)의 값(L)을 산출할 수 있다.

여기서, M은 확률맵의 개수(즉, 출력 채널 수)를 나타낸다. 수학식 2의 픽셀에 대한 손실함수의 값은 '손실a+손실b+손실c'이다.

영상분할장치(100)는 각 픽셀에 대한 손실함수의 값이 최소가 되도록 딥러닝모델을 훈련시킨다. 예를 들어, 위 수학식 3의 손실함수값을 0에 가까워지도록 딥러닝모델을 훈련시키면 확률맵의 각 픽셀의 확률값이 1 또는 0에 가까워지도록 학습된다. 수학식 1에서 정답마스크의 값이 '1'이면(예를 들어, 손실a, 손실b의 경우) 확률맵의 확률은 '1'에 가까워지도록 학습되며, 정답마스크의 값이 '0'이면(예를 들어, 손실c의 경우)이면 수학식 1의 두 번째 항인 '(1-t)log(1-z)'을 통해 확률맵의 확률이 '0'에 가까워지도록 학습된다.

일 실시 예로, 서로 다른 라벨링을 포함하는 학습영상을 함께 이용하여 딥러닝모델을 학습시킬 때 손실함수의 값을 보다 정확하게 산출하기 위하여 마스크 영역을 이용할 수 있다. 즉, 영상분할장치는 정답마스크의 마스크 영역(730)(즉, 흰색 영역)에 대해 손실함수의 값을 구할 수 있다. 예를 들어, 영상분할장치는 제1 확률맵(702)에서 제1 정답마스크(712)의 마스크 영역(730)에 해당하는 픽셀들에 대한 손실함수의 값을 구하고, 제2 확률맵(704)에서 제2 정답마스크(714)의 마스크 영역에 해당하는 픽셀들에 대한 손실함수의 값을 구하고, 제3 확률맵(706)에서 제3 정답마스크(716)의 마스크 영역에 해당하는 픽셀들에 대한 손실함수의 값을 구할 수 있다. 일 예로, 영상분할장치(100)는 손실a에 이진화 값으로 구성된 제1 정답마스크(마스크영역(730)=1, 그 외 영역=0)를 곱하여 마스크 영역(730)에 대한 손실함수의 값을 구할 수 있다. 즉, 마스크 영역(730) 외의 픽셀에 대한 손실a의 값은 정답마스크(710)의 마스크 영역(730) 외의 픽셀 값 '0'으로 곱해지므로 모두 0이 된다.

도 8은 본 발명의 실시 예에 따른 영상분할장치의 일 예의 구성을 도시한 도면이다. 도 9는 본 발명의 실시 예에 따른 영상분할장치의 학습부의 상세 구성의 일 예를 도시한 도면이다.

도 8 및 도 9를 함께 참조하면, 영상분할장치(100)는 맵생성부(800), 분할부(810), 출력부(820), 딥러닝모델(830) 및 학습부(840)를 포함한다. 딥러닝모델(830)이 이미 훈련 완료되었다면 학습부(840)는 생략가능하다. 예를 들어, 영상분할장치(100)는 훈련 완료된 딥러닝모델(830)을 외부로부터 수신하여 저장할 수 있다. 다른 예로, 영상분할장치(100)는 딥러닝모델(830) 및 학습부(840)로만 구성될 수 있다. 다만 이하에서는 설명의 편의를 위하여 모든 구성을 포함한 영상분할장치(100)에 대해 설명한다. 또한, 영상분할장치(100)는 메모리, 프로세서 및 입출력장치를 포함하는 컴퓨팅장치로 구현될 수 있다. 이 경우에 각 구성은 소프트웨어(프로그램)로 구현되어 메모리에 탑재된 후 프로세서에 의해 수행될 수 있다.

맵생성부(800)는 영상을 딥러닝모델(830)에 입력하여 복수의 확률맵을 생성한다. 딥러닝모델이 생성하는 확률맵은 각 객체에 대한 것이 아니라 복수의 객체의 조합에 대한 것이다. 즉, 복수의 확률맵은 복수의 객체 중 적어도 2개 이상의 객체의 영역으로 정의된 복수의 조합에 영상의 각 픽셀이 속하는 확률을 나타내는 딥러닝모델의 예측값을 포함한다. 복수의 객체를 포함하는 조합을 생성하는 방법의 일 예가 도 4에 도시되어 있다.

분할부(810)는 복수의 확률맵을 기반으로 영상 내 복수의 객체를 분할한다. 즉, 분할부(810)는 각 픽셀이 어느 객체에 속하는지 파악하고, 각 객체에 해당하는 픽셀들로 구성된 객체 영역을 분할할 수 있다. 확률맵을 기반으로 각 픽셀이 속한 객체를 식별하는 방법의 예가 도 5에 도시되어 있다.

출력부(820)는 사용자로부터 분할대상객체를 선택받으면, 영상에서 분할대상객체에 해당하는 객체의 영역을 분할한 결과를 시각적으로 제공한다. 예를 들어, 사용자가 제1 객체를 분할대상객체로 선택하면, 출력부(820)는 영상 내 제1 객체의 영역을 구분 표시하여 출력하거나 제1 객체의 영역만을 포함하는 분할영상을 출력할 수 있다. 일 실시 예로, 사용자별 등급에 따라 사용자에게 제공하는 분할 결과의 범위(예를 들어, 분할 객체의 수 등)를 서로 다르게 할 수 있다.

학습부(840)는 딥러닝모델(830)을 훈련시킨다. 학습부(840)는 마스크정의부(900), 맵획득부(910) 및 훈련부(920)를 포함한다. 딥러닝모델(830)의 훈련 방법의 예가 도 6 및 도 7에 도시되어 있다.

마스크정의부(900)는 학습영상 내 복수의 객체 중 적어도 2개 이상의 객체의 영역을 조합한 복수의 정답마스크를 정의한다. 일 실시 예로, 마스크정의부(900)는 복수의 객체의 식별자를 일정 길이의 비트열로 정의하고, 비트열의 각 자릿수마다 비트값이 동일한 객체의 영역을 포함하는 정답마스크를 생성할 수 있다.

맵획득부(910)는 학습영상을 딥러닝모델(830)에 입력하여 학습영상의 각 픽셀이 각 정답마스크에 속하는 확률을 나타내는 복수의 확률맵을 획득한다. 훈련부(920)는 복수의 정답마스크와 복수의 확률맵 사이의 차이를 나타내는 손실함수의 값이 최소가 되도록 딥러닝모델을 훈련시킨다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

영상분할장치가 수행하는 영상분할방법에 있어서,
영상을 딥러닝모델에 입력하여 복수의 확률맵을 획득하는 단계;
상기 복수의 확률맵을 기반으로 상기 영상에서 복수의 객체를 식별하는 단계;를 포함하고,
상기 복수의 확률맵은 상기 복수의 객체 중 적어도 2개 이상의 객체의 영역으로 정의된 복수의 조합에 상기 영상의 각 픽셀이 속하는 확률을 나타내는 상기 딥러닝모델의 예측값을 포함하고,
상기 복수의 확률맵을 획득하는 단계는,
상기 복수의 객체 중 적어도 2개 이상의 객체의 영역을 포함하는 복수의 조합을 정의하는 단계; 및
상기 영상의 각 픽셀이 각 조합에 속하는 확률을 나타내는 복수의 확률맵을 생성하는 단계;를 포함하고,
상기 복수의 객체를 식별하는 단계는,
상기 영상의 각 픽셀에 대한 복수의 확률맵의 확률값을 파악하는 단계; 및
각 픽셀에 대한 복수의 확률맵의 확률값에 따라 각 픽셀이 속하는 객체를 파악하는 단계:를 포함하는 것을 특징으로 하는 영상분할방법.
제 1항에 있어서,
상기 영상은 2차원 의료영상 또는 3차원 의료영상이고,
상기 복수의 객체는 복수의 인체부위인 것을 특징으로 하는 영상분할방법.
영상분할장치가 수행하는 영상분할방법에 있어서,
영상을 딥러닝모델에 입력하여 복수의 확률맵을 획득하는 단계;
상기 복수의 확률맵을 기반으로 상기 영상에서 복수의 객체를 식별하는 단계;를 포함하고,
상기 복수의 확률맵은 상기 복수의 객체 중 적어도 2개 이상의 객체의 영역으로 정의된 복수의 조합에 상기 영상의 각 픽셀이 속하는 확률을 나타내는 상기 딥러닝모델의 예측값을 포함하고,
각 객체의 식별자는 일정 길이의 비트열로 정의되고,
각 조합은 각 객체의 비트열의 각 자릿수를 기준으로 동일 비트값을 가진 객체들의 영역을 포함하고,
상기 식별하는 단계는, 상기 각 픽셀이 각 조합에 속하는 확률을 기 정의된 임계값을 기준으로 이진화하여 생성한 비트열에 해당하는 객체의 식별자를 파악하는 단계;를 포함하는 것을 특징으로 하는 영상분할방법.
제 3항에 있어서,
각 식별자에 해당하는 픽셀을 이용하여 상기 영상 내 복수의 객체의 영역을 분할하는 단계;를 더 포함하는 것을 특징으로 하는 영상분할방법.
제 3항에 있어서,
상기 비트열의 길이는 [log₂(상기 복수의 객체의 총 개수)] 이상인 것을 특징으로 하는 영상분할방법.
제 1항에 있어서,
상기 딥러닝모델이 출력하는 확률맵의 개수는 [log₂(상기 복수의 객체의 총 개수)] 이상인 것을 특징으로 하는 영상분할방법.
제 1항에 있어서,
사용자로부터 상기 영상 내 분할대상객체를 선택받는 단계; 및
상기 복수의 객체 중 상기 분할대상객체에 해당하는 객체 영역의 분할 결과를 시각화하여 제공하는 단계;를 더 포함하는 것을 특징으로 하는 영상분할방법.
제 1항에 있어서,
학습영상과 상기 각 조합에 대한 정답마스크를 포함하는 학습데이터를 이용하여 상기 각 조합에 상기 학습영상의 각 픽셀이 속하는 확률을 나타내는 복수의 확률맵을 출력하도록 상기 딥러닝모델을 훈련시키는 단계;를 더 포함하는 것을 특징으로 하는 영상분할방법.
영상분할장치가 수행하는 영상분할방법에 있어서,
학습영상 내 복수의 객체 중 적어도 2개 이상의 객체의 영역을 조합한 복수의 정답마스크를 정의하는 단계;
상기 학습영상을 딥러닝모델에 입력하여 상기 학습영상의 각 픽셀이 각 정답마스크에 속하는 확률을 나타내는 복수의 확률맵을 획득하는 단계;
상기 복수의 정답마스크와 상기 복수의 확률맵 사이의 차이를 나타내는 손실함수의 값을 구하는 단계; 및
상기 손실함수의 값이 최소가 되도록 상기 딥러닝모델을 훈련시키는 단계;를 포함하고,
상기 복수의 확률맵을 획득하는 단계는,
상기 복수의 객체 중 적어도 2개 이상의 객체의 영역을 포함하는 복수의 조합을 정의하는 단계; 및
상기 학습영상의 각 픽셀이 각 조합에 속하는 확률을 나타내는 복수의 확률맵을 생성하는 단계;를 포함하는 것을 특징으로 하는 영상분할방법.
영상분할장치가 수행하는 영상분할방법에 있어서,
학습영상 내 복수의 객체 중 적어도 2개 이상의 객체의 영역을 조합한 복수의 정답마스크를 정의하는 단계;
상기 학습영상을 딥러닝모델에 입력하여 상기 학습영상의 각 픽셀이 각 정답마스크에 속하는 확률을 나타내는 복수의 확률맵을 획득하는 단계;
상기 복수의 정답마스크와 상기 복수의 확률맵 사이의 차이를 나타내는 손실함수의 값을 구하는 단계; 및
상기 손실함수의 값이 최소가 되도록 상기 딥러닝모델을 훈련시키는 단계;를 포함하고,
상기 복수의 정답마스크를 정의하는 단계는,
각 객체의 식별자를 일정 길이의 비트열로 정의하는 단계; 및
상기 비트열의 각 자릿수마다 비트값이 동일한 객체의 영역을 포함하는 정답마스크를 생성하는 단계;를 포함하는 것을 특징으로 하는 영상분할방법.
영상분할장치가 수행하는 영상분할방법에 있어서,
학습영상 내 복수의 객체 중 적어도 2개 이상의 객체의 영역을 조합한 복수의 정답마스크를 정의하는 단계;
상기 학습영상을 딥러닝모델에 입력하여 상기 학습영상의 각 픽셀이 각 정답마스크에 속하는 확률을 나타내는 복수의 확률맵을 획득하는 단계;
상기 복수의 정답마스크와 상기 복수의 확률맵 사이의 차이를 나타내는 손실함수의 값을 구하는 단계; 및
상기 손실함수의 값이 최소가 되도록 상기 딥러닝모델을 훈련시키는 단계;를 포함하고,
상기 정답마스크의 개수는 [log₂(상기 복수의 객체의 총 개수)] 이상인 것을 특징으로 하는 영상분할방법.
제 9항에 있어서, 상기 손실함수의 값을 구하는 단계는,
각 정답마스크의 마스크 영역을 기준으로 각 정답마스크와 각 확률맵 사이의 오차를 구하는 단계;를 포함하는 것을 특징으로 하는 영상분할방법.
제 9항에 있어서,
상기 영상은 2차원 의료영상 또는 3차원 의료영상이고,
상기 복수의 객체는 복수의 인체부위이고,
학습된 상기 딥러닝모델에 의료영상을 입력하여 얻은 복수의 확률맵을 기반으로 의료영상 내 복수의 인체부위를 식별하는 단계;를 더 포함하는 것을 특징으로 하는 영상분할방법.
영상을 딥러닝모델에 입력하여 복수의 확률맵을 생성하는 맵생성부;
상기 복수의 확률맵을 기반으로 상기 영상에서 복수의 객체를 분할하는 분할부;를 포함하고,
상기 복수의 확률맵은 상기 복수의 객체 중 적어도 2개 이상의 객체의 영역으로 정의된 복수의 조합에 상기 영상의 각 픽셀이 속하는 확률을 나타내는 상기 딥러닝모델의 예측값을 포함하고,
상기 맵생성부는, 상기 복수의 객체 중 적어도 2개 이상의 객체의 영역을 포함하는 복수의 조합을 정의하고, 상기 영상의 각 픽셀이 각 조합에 속하는 확률을 나타내는 복수의 확률맵을 생성하고,
상기 분할부는, 상기 영상의 각 픽셀에 대한 복수의 확률맵의 확률값을 파악하고, 각 픽셀에 대한 복수의 확률맵의 확률값에 따라 각 픽셀이 속하는 객체를 파악하는 것을 특징으로 하는 영상분할장치.
영상을 딥러닝모델에 입력하여 복수의 확률맵을 생성하는 맵생성부;
상기 복수의 확률맵을 기반으로 상기 영상에서 복수의 객체를 분할하는 분할부;를 포함하고,
상기 복수의 확률맵은 상기 복수의 객체 중 적어도 2개 이상의 객체의 영역으로 정의된 복수의 조합에 상기 영상의 각 픽셀이 속하는 확률을 나타내는 상기 딥러닝모델의 예측값을 포함하고,
각 객체의 식별자는 일정 길이의 비트열로 정의되고,
각 조합은 각 객체의 비트열의 각 자릿수를 기준으로 동일 비트값을 가진 객체들의 영역을 포함하고,
상기 분할부는, 상기 각 픽셀이 각 조합에 속하는 확률을 기 정의된 임계값을 기준으로 이진화하여 생성한 비트열에 해당하는 객체의 식별자를 파악하는 것을 특징으로 하는 영상분할장치.
제 14항에 있어서,
상기 딥러닝모델을 훈련시키는 학습부;를 더 포함하고,
상기 학습부는,
학습영상 내 복수의 객체 중 적어도 2개 이상의 객체의 영역을 조합한 복수의 정답마스크를 정의하는 마스크정의부;
상기 학습영상을 딥러닝모델에 입력하여 상기 학습영상의 각 픽셀이 각 정답마스크에 속하는 확률을 나타내는 복수의 확률맵을 획득하는 맵획득부; 및
상기 복수의 정답마스크와 상기 복수의 확률맵 사이의 차이를 나타내는 손실함수의 값이 최소가 되도록 상기 딥러닝모델을 훈련시키는 훈련부;를 포함하는 것을 특징으로 하는 영상분할장치.
제 16항에 있어서, 상기 마스크정의부는
상기 복수의 객체의 식별자를 일정 길이의 비트열로 정의하고, 상기 비트열의 각 자릿수마다 비트값이 동일한 객체의 영역을 포함하는 정답마스크를 생성하는 것을 특징으로 하는 영상분할장치.
제 14항에 있어서,
사용자로부터 분할대상객체를 선택받으면, 상기 영상에서 상기 분할대상객체에 해당하는 객체의 영역을 분할한 결과를 시각적으로 제공하는 출력부;를 더 포함하는 것을 특징으로 하는 영상분할장치.
제 1항 또는 제 9항에 기재된 방법을 수행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.