KR102533080B1

KR102533080B1 - 선 레이블을 이용한 세포 영상 분할 방법, 이를 수행하기 위한 기록 매체 및 장치

Info

Publication number: KR102533080B1
Application number: KR1020200124696A
Authority: KR
Inventors: 정원기; 이현수
Original assignee: 고려대학교 산학협력단
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2023-05-15
Also published as: KR20220041463A; US20220101522A1; US11908133B2

Abstract

선 레이블을 이용한 세포 영상 분할 방법은, 세포 영상과 세포 영역 및 배경 영역을 표시하는 선 레이블을 학습 데이터로 하여 영상 분할 네트워크(U-Net)를 통해 반복적으로 예비 학습하는 단계; 상기 예비 학습 과정에서 일정 주기마다 영상 분할 예측확률의 지수 이동 평균(EMA)을 계산하는 단계; 상기 영상 분할 예측확률의 지수 이동 평균(EMA)에서 미리 설정된 임계값을 넘는 세포 영역 및 배경 영역에 의사 레이블(Pseudo Label)을 지정하여 자체 학습하는 단계; 및 상기 학습 결과를 통해 획득되는 스크리블 된 손실(L_sp)과 스크리블 되지 않은 손실(L_up)을 기초로 상기 영상 분할 예측확률을 반복적으로 개선하는 단계;를 포함한다. 이에 따라, 선 레이블만을 이용하여 신뢰성 높은 세포 영상 분할이 가능하다.

Description

선 레이블을 이용한 세포 영상 분할 방법, 이를 수행하기 위한 기록 매체 및 장치{METHOD FOR CELL IMAGE SEGMENTATION USING SCRIBBLE LABELS, RECORDING MEDIUM AND DEVICE FOR PERFORMING THE METHOD}

본 발명은 선 레이블을 이용한 세포 영상 분할 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 딥 러닝을 기반으로 일부 선 레이블만을 이용하여 자체 생성 의사 레이블(Self-Generating Pseudo-Labels)을 통한 일관성 있는 세포 분할 기술에 관한 것이다.

마이크로-나노 크기의 현미경 이미지는 일반적으로 세포 수준의 생물학적 이미지 분석에 사용된다. 세포 이미지 분석에서 세분화는 세포 구조의 형태를 추출하는 중요한 작업이다. 기존의 세포 분할 방법은 대부분 모델 기반 및 에너지 최소화 방법에 기반을 두고 있다. 그러나, 에너지 기반의 이미지 분할 방법은 군집되어 있는 세포에 대해 효과적인 분할이 어렵다.

최근에는 딥러닝의 성공은 많은 이미지 처리 및 컴퓨터 비전 작업에서 많은 주목을 받고 있다. 매우 정확한 분할 성능을 달성하기 위한 일반적인 접근 방식은 Ground-Truth 레이블을 사용하여 심층 신경망을 학습하는 것이다.

그러나, 충분한 수의 실측 레이블을 생성하는 것은 시간과 노동력이 많이 소요되므로, 세분화 프로세스에서 주요 병목 현상의 원인이 되고 있다. 또한, 딥러닝 기반의 이미지 분할 방법은 세포의 모든 영역이 표시되어 있는 레이블이 필요하여 데이터셋 구축의 비용이 큰 문제점이 있다.

또한, 수동으로 생성된 세분화 레이블은 픽셀 수준의 정확한 영역 마스크를 그리는데 어려움이 있기 때문에 오류가 발생하기 쉽다. 이러한 문제를 해결하기 위해 최근 점 주석(annotations)을 이용한 셀 분할 방법이 제안되었다.

그러나, 점 주석을 이용한 방법은 전체 영역 마스크에 비해 생성하기가 더 용이한 점이 있으나, 기존 작업에는 전체 데이터 세트에 대한 포인트 주석이 필요하다. 또한, 점 주석을 통한 세포 분할 기술은 점의 위치가 분할 성능에 큰 영향을 미친다.

최근에는 스크리블 주석(annotations)을 이용한 약지도 학습, 즉 스크리블 지도 학습(scribble-supervised learning)이 수동으로 학습 레이블을 생성하는 부담을 줄이기 위한 방향으로 이미지 분할에서 활발히 연구되고 있다. 스크리블 지도 학습(scribble-supervised learning)은 표준 세분화 기술 또는 추가 모델 매개 변수를 사용하여 스크리블 레이블 및 정규화된 네트워크를 활용한다.

그러나, 기존의 스크리블 지도 학습을 통한 이미지 분할 방법은 Graph-Cut, DenseCRF와 같은 계산 비용이 큰 전처리 및 후처리 절차가 필요한 문제점이 있다.

KR 10-2084683 B1 KR 10-2010-0116404 A

Hyeonsoo Lee, Won-Ki Jeong, Scribble2Label: Scribble-Supervised Cell Segmentation via Self-Generating Pseudo-Labels with Consistency, arXiv:2006.12890, 23 Jun 2020 Tang, M., Perazzi, F., Djelouah, A., Ben Ayed, I., Schroers, C., Boykov, Y.: On egularized losses for weakly-supervised cnn segmentation. In: Proceedings of the European Conference on Computer Vision (ECCV). pp. 507-522 (2018)

이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 신뢰성 있는 선 레이블을 이용한 세포 영상 분할 방법을 제공하는 것이다.

본 발명의 다른 목적은 상기 선 레이블을 이용한 세포 영상 분할 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.

본 발명의 또 다른 목적은 선 레이블을 이용한 세포 영상 분할 방법을 수행하기 위한 장치를 제공하는 것이다.

상기한 본 발명의 목적을 실현하기 위한 일 실시예에 선 레이블을 이용한 세포 영상 분할 방법은, 세포 영상과 세포 영역 및 배경 영역을 표시하는 선 레이블을 학습 데이터로 하여 영상 분할 네트워크(U-Net)를 통해 반복적으로 예비 학습하는 단계; 상기 예비 학습 과정에서 일정 주기마다 영상 분할 예측확률의 지수 이동 평균(EMA)을 계산하는 단계; 상기 영상 분할 예측확률의 지수 이동 평균(EMA)에서 미리 설정된 임계값을 넘는 세포 영역 및 배경 영역에 의사 레이블(Pseudo Label)을 지정하여 자체 학습하는 단계; 및 상기 학습 결과를 통해 획득되는 스크리블 된 손실(L_sp)과 스크리블 되지 않은 손실(L_up)을 기초로 상기 영상 분할 예측확률을 반복적으로 개선하는 단계;를 포함한다.

본 발명의 실시예에서, 상기 예비 학습하는 단계는, 레이블이 있는 픽셀에 대해서만 표준 교차 엔트로피 손실을 적용하여 스크리블 된 손실(L_sp)을 예측할 수 있다.

본 발명의 실시예에서, 상기 예비 학습하는 단계는, 미리 설정된 에포크에 도달할 때까지 반복할 수 있다.

본 발명의 실시예에서, 상기 예비 학습하는 단계에서, 상기 세포 영역과 배경 영역을 표시하는 선 레이블이 표시된 픽셀은 상기 세포 영상의 10% 이하의 픽셀을 포함할 수 있단.

본 발명의 실시예에서, 상기 영상 분할 예측확률의 지수 이동 평균(EMA)을 계산하는 단계는, 레이블이 지정되지 않은 픽셀에 대해서 영상 분할 예측확률의 지수 이동 평균을 사용하여 레이블을 자동으로 생성할 수 있다.

본 발명의 실시예에서, 상기 영상 분할 예측확률의 지수 이동 평균(EMA)을 계산하는 단계는, 상기 스크리블 된 손실(L_sp)과 상기 스크리블 되지 않은 손실(L_up)의 예측 앙상블 프로세스의 간격인 γ 에포크 마다 평균화될 수 있다.

본 발명의 실시예에서, 상기 자체 학습하는 단계는, 의사 레이블링과 레이블링 필터링을 통해 의사 레이블의 노이즈를 제거할 수 있다.

본 발명의 실시예에서, 상기 자체 학습하는 단계는, 상기 스크리블 되지 않은 손실(L_up)을 주기적으로 예측할 수 있다.

본 발명의 실시예에서, 상기 영상 분할 예측확률을 반복적으로 개선하는 단계는, 상기 스크리블 되지 않은 손실(L_up)에 상대 가중치를 적용할 수 있다.

상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 상기 선 레이블을 이용한 세포 영상 분할 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.

상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 선 레이블을 이용한 세포 영상 분할 장치는, 세포 영상과 세포 영역 및 배경 영역을 표시하는 선 레이블을 학습 데이터로 하여 영상 분할 네트워크(U-Net)를 통해 반복적으로 예비 학습하는 워밍업부; 상기 예비 학습 과정에서 일정 주기마다 영상 분할 예측확률의 지수 이동 평균(EMA)을 계산하는 확률 예측부; 상기 영상 분할 예측확률의 지수 이동 평균(EMA)에서 미리 설정된 임계값을 넘는 세포 영역 및 배경 영역에 의사 레이블(Pseudo Label)을 지정하여 자체 학습하는 자체 학습부; 및 상기 학습 결과를 통해 획득되는 스크리블 된 손실(L_sp)과 스크리블 되지 않은 손실(L_up)을 기초로 상기 영상 분할 예측확률을 반복적으로 개선하는 개선부;를 포함한다.

이와 같은 선 레이블을 이용한 세포 영상 분할 방법에 따르면, 선 레이블만을 이용하여 신뢰성 높은 세포 분할을 하는 기술을 제안함으로써 데이터셋 구축 시간 및 비용을 획기적으로 줄일 수 있다. 또한, 본 발명에서는 추가적인 영상 처리 방법을 사용하지 않아 계산 비용 역시 줄일 수 있다.

도 1은 본 발명에 따른 선 레이블을 이용한 세포 영상 분할의 전체 개요를 보여주는 개념도이다.
도 2는 본 발명의 일 실시예에 따른 선 레이블을 이용한 세포 영상 분할 장치의 블록도이다.
도 3은 본 발명에 따른 자체 학습 중 의사 레이블의 반복적인 개선의 예를 보여주는 도면이다.
도 4는 본 발명의 효과를 검증하기 위해 종래 기술과 정성적으로 비교한 결과를 보여주는 도면이다.
도 5는 본 발명의 일 실시예에 따른 선 레이블을 이용한 세포 영상 분할 방법의 흐름도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1은 본 발명에 따른 선 레이블을 이용한 세포 영상 분할의 전체 개요를 보여주는 개념도이다. 도 2는 본 발명의 일 실시예에 따른 선 레이블을 이용한 세포 영상 분할 장치의 블록도이다.

도 1을 참조하면, 본 발명은 전체 분할 레이블 없이 소수의 스크리블 주석(scribble annotations)만 활용하는 세포 분할 프레임워크를 제안한다. 이를 위해, 의사 레이블링과 레이블 필터링을 결합하여 약지도 학습(weak supervision)으로부터 신뢰할 수 있는 레이블을 생성하고, 의사 레이블(pseudo labels)을 개선하기 위해 예측을 반복적으로 평균하여 예측의 일관성을 획득한다.

본 발명은 기존의 스크리블 지도 학습 방법에서와 같이 스크리블 주석을 사용하지만 몇 가지 스크리블 주석에서 전체 학습 레이블을 점진적으로 생성하기 위해 의사 레이블링과 레이블 필터링의 조합을 제안한다. 이를 통해, 의사 레이블의 노이즈를 효과적으로 제거하고 예측 정확도를 향상시킬 수 있다.

또한, 본 발명은 학습 레이블을 생성하는 수동 작업을 크게 줄여주는 작은 양의 수동 스크리블 세트만 사용하여 약한 감독을 통해 자동으로 학습 레이블을 생성하는 새로운 반복적 분할화 네트워크 학습 프로세스를 제안한다. 또한, 본 발명은 의사 레이블링과 레이블링 필터링을 결합하여 일관성을 활용한다. 이를 통해, 신뢰할 수 있는 학습 레이블을 생성함으로써 매우 정확하고 강력한 성능을 제공할 수 있다.

도 2를 참조하면, 본 발명에 따른 선 레이블을 이용한 세포 영상 분할 장치(10, 이하 장치)는 워밍업부(110), 확률 예측부(130), 자체 학습부(150) 및 개선부(170)를 포함한다.

본 발명의 상기 장치(10)는 선 레이블을 이용한 세포 영상 분할을 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 워밍업부(110), 상기 확률 예측부(130), 상기 자체 학습부(150) 및 상기 개선부(170)의 구성은 상기 장치(10)에서 실행되는 상기 선 레이블을 이용한 세포 영상 분할을 수행하기 위한 소프트웨어에 의해 제어될 수 있다.

상기 장치(10)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 워밍업부(110), 상기 확률 예측부(130), 상기 자체 학습부(150) 및 상기 개선부(170)의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.

상기 장치(10)는 이동성을 갖거나 고정될 수 있다. 상기 장치(10)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.

상기 장치(10)는 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.

도 3은 본 발명에 따른 자체 학습 중 의사 레이블의 반복적인 개선의 예를 보여주는 도면이다.

도 3을 참조하면, 파란색과 노란색은 각각 셀과 배경에 대한 스크리블(Ω_s)을 나타내고, 빨간색은 일관성에 대한 임계값 τ 미만의 픽셀로서, 스크리블 되지 않은 픽셀 손실(L_up)을 계산할 때 무시된다. 흰색 및 검정색은 τ (Ω_g) 이상의 셀 또는 배경 픽셀을 나타낸다.

도 3의 (a) 내지 (c)는 반복 예측으로 인해 필터링된 의사 레이블을 나타낸다(Intersection over Union [IoU] 점수 포함). 도 3의 (a)는 7 번째 (0.5992), (b)는 20 번째 (0.8306) 및 (c)는 100 번째 (0.9230) 반복 예측에 대한 결과를 보여준다. 실험에 사용된 실제 스크리블 두께는 1 픽셀 이었지만 도 3에서는 더 나은 시각화를 위해 5 픽셀로 넓혔다.

기존의 스크리블 지도 분할(scribble-supervised segmentation) 방법과 달리, 본 발명은 학습 중에 추가 모델 매개 변수 또는 외부 세분화 방법(예: Graph-cut, DenseCRF)이 필요하지 않은 종단 간(end-to-end) 체계이다. 본 발명은 다양한 현미경 이미지의 세포 분할 문제에 적용되는 최초의 스크리블 지도 분할 방법이다.

상기 워밍업부(110)는 세포 영상과 세포 영역 및 배경 영역을 표시하는 선 레이블을 학습 데이터로 하여 영상 분할 네트워크(U-Net)를 통해 반복적으로 예비 학습한다.

본 발명의 입력 소스는 이미지 x와 이미지 일부의 스크리블 s이다. 상기 일부의 스크리블 s는 사용자가 제공할 수 있다. 여기서, 주어진 스크리블은 레이블이 지정된 픽셀(각각 전경과 배경에 대해 파란색과 노란색으로 표시됨)이고, 나머지 픽셀은 레이블이 없는 픽셀(검은 색으로 표시됨)로 정의된다.

레이블이 있는(스크리블 된) 픽셀의 경우 표준 교차 엔트로피 손실이 적용된다. 레이블이 지정되지 않은(스크리블 되지 않은) 픽셀의 경우 네트워크는 학습 중 예측의 지수 이동 평균을 사용하여 신뢰할 수 있는 레이블을 자동으로 생성한다.

본 발명에서 모델 학습은 두 단계로 구성된다. 첫 번째 단계는 스크리블 된 픽셀 손실(L_sp)만 사용하여 모델을 학습하여 초기화(예: 워밍업 단계)하는 것이다. 모델이 처음에 워밍업 단계를 통해 학습되면, 예측은 스크리블 된 손실(L_sp)과 스크리블 되지 않은 손실(L_up)에 의해 반복적으로 개선된다.

상기 확률 예측부(130)는 상기 예비 학습 과정에서 일정 주기마다 영상 분할 예측확률의 지수 이동 평균(EMA)을 계산한다.

본 발명에서 의사 레이블은 예측의 평균에서 생성되고, L_sp는 스크리블 주석으로 계산되고, L_up은 필터링된 의사 레이블로 계산된다. 예측 앙상블 프로세스는 γ 에포크 마다 발생하며, 여기서 γ는 앙상블 간격이다. n은 예측이 평균화되는 횟수를 나타낸다.

워밍업 단계의 처음에는 입력 학습 데이터에 대해 사용자가 작성한 작은 스크리블 세트만 있다. 처음 몇 번의 반복(워밍업 단계) 동안 주어진 스크리블만 사용하여 모델을 학습하고 다음 단계에서 사용할 수 있는 예측의 평균을 생성한다.

여기에서 주어진 스크리블은 해당 마스크 주석의 서브세트이다. 스크리블 되지 않은 픽셀을 무시함으로써, 본 발명에서 제안된 네트워크는 다음의 수학식 1과 같이 교차 엔트로피 손실로 학습된다.

[수학식 1]

여기서, x는 입력 이미지, s는 스크리블 주석, Ω_s는 스크리블 된 픽셀 집합이다. f(x; Θ_i)는 반복 i에서 모델의 예측이다. 이 워밍업 단계는 워밍업 Epoch EW에 도달 할 때까지 계속된다.

또한, 학습 과정에서 예측의 지수 이동 평균(EMA)을 다음의 수학식 2와 같이 주기적으로 계산한다.

[수학식 2]

여기서, α는 EMA 가중치, y는 예측의 평균이다. y0 = f (x; Θ₁) 및 n은 예측이 평균화되는 횟수이다. 이 과정을 예측 앙상블이라고 한다. 학습에 데이터 증가를 사용하기 때문에 분할 예측은 동일한 입력 이미지에 대해 일관되지 않는다.

이러한 문제에 대한 본 발명의 해결책은 학습 과정을 학습과 앙상블 단계로 나누는 것이다. 앙상블 단계에서는 네트워크에 대한 입력에 비 증강 이미지가 사용되며 해당 예측에 EMA가 적용된다.

또한, 스크리블 지도 설정에서는 주어진 레이블이 완전히 주석으로 처리되지 않았기 때문에 최상의 모델이 발견될 때 예측을 통합할 수 없다. 유의미한 앙상블을 달성하고 계산 비용을 줄이기 위해 예측은 γ 에포크(epoch)마다 평균화된다. 여기서, γ는 앙상블 간격이다.

상기 자체 학습부(150)는 상기 분할 예측확률의 지수 이동 평균(EMA)에서 미리 설정된 임계값을 넘는 세포 영역 및 배경 영역에 의사 레이블(Pseudo Label)을 지정하여 자체 학습한다.

상기 개선부(170)는 상기 학습 결과를 통해 획득되는 스크리블 된 손실(L_sp)과 스크리블 되지 않은 손실(L_up)을 기초로 상기 분할 예측확률을 반복적으로 개선한다.

이하에서는, 자체 생성된 의사 레이블을 사용한 상기 자체 학습부(150)의 학습과 그 결과를 이용한 상기 개선부(170)의 확률 개선에 대해 설명한다.

예측의 평균은 워밍업 단계 후에 얻을 수 있다. 이는 스크리블 되지 않은 픽셀의 신뢰할 수 있는 의사 레이블을 생성하는데 사용할 수 있다. 의사 레이블을 필터링하기 위해 평균이 사용된다.

일관되게 동일한 결과를 갖는 픽셀은 원-핫 인코딩되고, 표준 교차 엔트로피를 사용하는 스크리블 되지 않은 픽셀의 레이블로 사용된다. 신뢰할 수 있는 픽셀만 사용하고 이러한 원-핫 인코딩을 점진적으로 만들면 커리큘럼 학습 및 엔트로피 최소화를 통해 이점을 제공한다.

필터링된 의사 레이블을 사용하여 표시되지 않은 픽셀 손실은 다음의 수학식 3과 같이 정의된다.

[수학식 3]

여기서,

, 생성된 레이블 픽셀 집합이고, τ는 일관성에 대한 임계값이다. 공식적으로, 반복 i에서 L_up은 (x, y_n)로 계산된다. 여기서,

이다. 그런 다음, 총 손실은 스크리블 된 손실 L_sp과 상대 가중치를 가진 스크리블 되지 않은 손실 L_up의 조합으로 아래의 수학식 4와 같이 정의된다.

[수학식 4]

이미 설명한 EMA 방법은 이 학습 과정에서도 적용된다.

이하에서는 본 발명의 성능을 검증하기 위해 수행한 실험 결과에 대해 설명한다.

먼저, 세 가지 다른 세포 이미지 데이터 세트를 사용하여 본 발명의 성능을 입증하였다. 첫 번째 세트인 MoNuSeg [Kumar, N., Verma, R., Sharma, S., Bhargava, S., Vahadane, A., Sethi, A.: A dataset and a technique for generalized nuclear segmentation for computational pathology. IEEE transactions on medical imaging 36(7), 1550-1560 (2017)]는 다양한 핵 모양을 다루는 여러 사이트에서 얻은 30 개의 1000 × 1000 조직 병리학 이미지로 구성된다.

MoNuSeg 데이터 세트에 대해 10 배 교차 검증을 수행하였다. Data Science Bowl 2018로 알려진 두 번째 데이터 세트인 BBBC038v1 [Caicedo, J.C., Goodman, A., Karhohs, K.W., Cimini, B.A., Ackerman, J., Haghighi, M., Heng, C., Becker, T., Doan, M., McQuin, C., et al.: Nucleus segmentation across imaging experiments: the 2018 Data Science Bowl. Nature methods 16(12), 1247-1253 (2019)]는 핵 2D 이미지 세트이다.

실험을 위해, 완전히 주석이 달린 1 단계 학습 데이터 세트를 사용했으며, 다양한 크기의 542 개의 형광(DSB-Fluo) 이미지, 108 개의 320x256 조직 병리학 이미지(DSB-Histo), 16 개의 밝은 필드 1000 Х 1000 (DSB-BF) 이미지를 포함하여 세 가지 주요 유형으로 더 구분하였다.

각 데이터 세트는 각각 60 %, 20 %, 20 % 비율로 학습, 검증 및 테스트 세트로 나뉜다. EM은 애벌레 제브라 피쉬의 내부적으로 수집된 직렬 섹션 전자 현미경 이미지 데이터 세트이다. 실험에서는 512 × 512 × 512 또는 512 × 512 × 256 크기의 세 개의 하위 볼륨을 사용하였다. 테스트 볼륨의 크기는 512 × 512 × 512이다.

MoNuSeg 및 DSB의 스크리블은 전체 분할 레이블을 참조하여 수동으로 그려졌다. 스크리블의 편의를 위해 1 분 내에 최대 256 × 256, 2 분 내에 512 × 512, 4 분 내에 1024 × 1024 이미지에 주석을 달았다. EM 데이터 세트의 경우, [Wu, W., Qi, H., Rong, Z., Liu, L., Su, H.: Scribble-Supervised Segmentation of Aerial Building Footprints Using Adversarial Learning. IEEE Access 6, 58898-58911 (2018)]의 스크리블 생성 알고리즘에 의해 10 % 비율로 스크리블 주석이 생성되었다.

도 4는 본 발명의 효과를 검증하기 위해 종래 기술과 정성적으로 비교한 결과를 보여주는 도면으로, 위에서 아래로 EM, DSB-BF, DSB-Fluo, DSB-Histo 및 MoNuSeg가 표시된다.

본 발명의 기준 네트워크는 ResNet-50 인코더를 사용하는 U-Net 이다. 조직 병리학 실험(MoNuSeg, DSB-Histo)에서 [Qu, H., Wu, P., Huang, Q., Yi, J., Riedlinger, G.M., De, S., Metaxas, D.N.: Weakly supervised deep nuclei segmentation using points annotation in histopathology images. In: International Conference on Medical Imaging with Deep Learning. pp.390-400 (2019)]과 비교하기 위해 인코더로 ResNet-34를 사용하였다.

네트워크는 사전 학습 된 매개 변수로 초기화되었고, RAdam [Liu, L., Jiang, H., He, P., Chen, W., Liu, X., Gao, J., Han, J.: On the variance of the adaptive learning rate and beyond. arXiv preprint arXiv:1908.03265 (2019)]은 모든 실험에 사용되었다. 네트워크를 정규화하기 위해 자르기, 뒤집기, 회전, 이동, 크기 조정, 밝기 변경 및 대비 변경과 같은 기존의 데이터 증가 방법을 사용하였다.

본 발명의 모델에 사용된 하이퍼 파라미터는 다음과 같다. 일관성 임계값 τ = 0.8; EMA 알파 α = 0.2; 앙상블 모멘텀 γ = 5; L_up의 가중치 λ = 0.5; 워밍업 epoch E_W = 100. MoNuSeg 데이터 세트(다른 데이터 세트보다 훨씬 더 노이즈가 많음)의 경우 노이즈 레이블에 대처하기 위해 τ = 0.95 및 α = 0.1을 사용하였다.

검증을 위해, [Nishimura, K., Bise, R., et al.: Weakly Supervised Cell Instance Segmentation by Propagating from Detection Response. In: International Conference on Medical Image Computing and Computer-Assisted Intervention. pp. 649-657. Springer (2019)]에서 사용된 평균 주사위 계수(mDice)를 사용하여 IoU(Intersection Over Union)를 사용한 의미 분할 성능과 인스턴스 분할 성능을 평가하였다. 아래의 표 1은 다양한 세포 이미지 양식의 정량적 결과이고, 숫자는 IoU[mDice] 형식의 정확도를 나타낸다.

[표 1]

또한, 본 발명을 다른 방법과 비교하기 위하여 본 발명을 전체 분할 주석, 스크리블 주석(pCE 전용) 및 Grab-Cut의 분할 제안으로 학습된 네트워크와 비교하였다. 일관성 있는 레이블 필터링의 효능을 입증하기 위해 이를 의사 레이블링과 비교하였다.

예측 확률이 임계값 τ를 초과하는 픽셀은 의사 레이블로 할당되었으며, 여기서 τ는 본 발명에서의 설정과 동일하다. 본 발명은 또한 DenseCRF를 손실 함수에 통합하는 정규화된 손실(rLoss)과 비교하였다. rLoss의 하이퍼 파라미터는 σXY = 100 및 σRGB = 15이다.

표 1은 몇 가지 대표적인 방법과 본 발명의 정량적 비교를 보여준다. 전반적으로 본 발명은 IoU 및 mDice 품질 메트릭에서 다른 방법들을 능가하였다.

본 발명은 EM, DSB-BF 및 DSB-Histo 데이터 세트에서 전체 방법(즉, 전체 분할화 레이블을 사용하여 학습)에 비해 훨씬 더 높은 mDice 정확도를 달성하였다. 또한, MoNuSeg 데이터 세트에는 개별적으로 분리하기 어려운 작은 어수선한 셀이 많이 포함되어 있다. 그러나, 본 발명은 이 경우에도 뛰어난 인스턴스 분할 결과를 보여주었다.

Grab-Cut의 [Lin, D., Dai, J., Jia, J., He, K., Sun, J.: Scribblesup: Scribble-supervised convolutional networks for semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 3159-3167 (2016)]은 분할 제안과 의사 라벨[Lee, D.H.: Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks. In: Workshop on challenges in representation learning, ICML. vol. 3, p. 2 (2013)]이 잘못되었다.

따라서, 이러한 잘못된 세분화 레이블을 사용한 학습은 방법의 성능을 저하시킨다. Qu et al.의 방법 [Qu, H., Wu, P., Huang, Q., Yi, J., Riedlinger, G.M., De, S., Metaxas, D.N.: Weakly supervised deep nuclei segmentation using points annotation in histopathology images. In: International Conference on Medical Imaging with Deep Learning. pp. 390-400 (2019)]은 MoNuSeg 데이터 세트에서 인스턴스 레벨 세분화에 대해 잘 수행되었지만 DSB-histo 데이터 세트에서는 더 나쁜 효과를 보였다. Qu et al.의 방법은 원형 셀 레이블이 있는 클러스터링 레이블을 사용했기 때문에 비 원형 셀을 분할하기가 어려웠다.

pCE를 사용한 학습 [Tang, M., Perazzi, F., Djelouah, A., Ben Ayed, I., Schroers, C., Boykov, Y.: On regularized losses for weakly-supervised cnn segmentation. In: Proceedings of the European Conference on Computer Vision (ECCV). pp. 507-522 (2018)]은 다양한 데이터 세트에서 안정적인 결과를 보여주었다. 그러나, 스크리블만으로 학습하기 때문에 본 발명과 같이 경계를 정확하게 예측하는데 실패했다.

rLoss [Tang, M., Perazzi, F., Djelouah, A., Ben Ayed, I., Schroers, C., Boykov, Y.: On regularized losses for weakly-supervised cnn segmentation. In: Proceedings of the European Conference on Computer Vision (ECCV). pp. 507-522 (2018)]은 대부분의 이전 방법보다 성능이 우수했지만, 본 발명이 일반적으로 더 나은 결과를 보여주었다.

또한, 예측을 평균화하여 일관성을 활용하는 것이 강력한 의사 레이블을 생성하는데 중요하다는 것을 관찰하였다. 본 발명인 Scribble2Label의 결과는 또한 스크리블과 함께 의사 레이블을 사용하는 것이 지상 진실 세분화 레이블(ground-truth segmentation label)에 필적하는 정확한 경계를 생성하는데 효과적임을 확인한다.

스크리블 주석의 양의 효과 즉, 다양한 수준의 스크리블 세부 사항에 대한 방법의 견고성을 입증하기 위해 Wu et al.의 유사한 방법을 사용하여 자동으로 생성된 스크리블을 사용하여 실험을 수행하였다[Wu, W., Qi, H., Rong, Z., Liu, L., Su, H.: Scribble-Supervised Segmentation of Aerial Building Footprints Using Adversarial Learning. IEEE Access 6, 58898- 58911 (2018)] (즉, 전경 및 배경 영역이 골격화되고 샘플링 됨).

대상 데이터 세트는 DSB-Fluo였으며, 전체 분할 레이블(마스크)에서 추출된 스켈레톤 픽셀의 10 %, 30 %, 50 %, 100 % 등 다양한 양의 스크리블이 자동으로 생성된다.

아래의 표 2는 다양한 수준의 스크리블 세부 사항에 대한 결과를 요약한다. 숫자는 IoU [mDice] 형식의 정확도를 나타낸다.

[표 2]

본 발명인 Scribble2Label은 희소 스크리블에서 풍부한 스크리블에 이르기까지 시맨틱 메트릭과 인스턴스 메트릭 모두에서 안정적인 결과를 생성하였다.

본 발명은 다양한 스크리블 양에 대해 매우 강력한 결과를 보여주었다. 본 발명은 30 %의 스켈레톤 픽셀로만 전체 분할 마스크를 사용하는 것과 비슷한 성능을 보였다.

본 발명은 의사 레이블링과 레이블 필터링을 일관성과 결합한 간단하지만 효과적인 스크리블 지도 학습 방법을 제안한다. 기존 방법과 달리 본 발명은 추가 세분화 프로세스나 추가 모델 매개 변수 없이 다양한 데이터 세트와 다양한 수준의 스크리블 세부 사항에서 매우 정확한 분할화 성능을 보여준다. 따라서, 본 발명은 이미지 분할의 주요 병목 현상인 시간과 노동 집약적인 수동 레이블 생성을 효과적으로 완화할 수 있다.

도 5는 본 발명의 일 실시예에 따른 선 레이블을 이용한 세포 영상 분할 방법의 흐름도이다.

본 실시예에 따른 선 레이블을 이용한 세포 영상 분할 방법은, 도 2의 장치(10)와 실질적으로 동일한 구성에서 도 1의 개요와 동일한 과정으로 진행될 수 있다.

따라서, 도 1 및 도 2의 장치(10)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다. 또한, 본 실시예에 따른 선 레이블을 이용한 세포 영상 분할 방법은 선 레이블을 이용한 세포 영상 분할을 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.

본 발명은 전체 분할 레이블 없이 소수의 스크리블 주석(scribble annotations)만 활용하는 세포 분할 프레임워크를 제안한다. 이를 위해, 의사 레이블링과 레이블 필터링을 결합하여 약지도 학습(weak supervision)으로부터 신뢰할 수 있는 레이블을 생성하고, 의사 레이블(pseudo labels)을 개선하기 위해 예측을 반복적으로 평균하여 예측의 일관성을 획득한다.

도 5를 참조하면, 본 실시예에 따른 선 레이블을 이용한 세포 영상 분할 방법은, 세포 영상과 세포 영역 및 배경 영역을 표시하는 선 레이블을 학습 데이터로 하여(단계 S00), 영상 분할 네트워크(U-Net)를 통해 반복적으로 예비 학습한다(단계 S10).

상기 세포 영역과 배경 영역을 표시하는 선 레이블이 표시된 픽셀은 사용자에 의해 입력될 수 있으며, 상기 세포 영상의 10% 이하의 픽셀을 포함할 수 있다.

상기 예비 학습 과정에서 일정 주기마다 영상 분할 예측확률의 지수 이동 평균(EMA)을 계산한다(단계 S20).

레이블이 지정되지 않은 픽셀에 대해서 영상 분할 예측확률의 지수 이동 평균을 사용하여 레이블을 자동으로 생성하며, 상기 스크리블 된 손실(L_sp)과 상기 스크리블 되지 않은 손실(L_up)의 예측 앙상블 프로세스의 간격인 γ 에포크 마다 평균화된다.

여기에서 주어진 스크리블은 해당 마스크 주석의 서브세트이다. 스크리블 되지 않은 픽셀을 무시함으로써, 본 발명에서 제안된 네트워크는 수학식 1과 같이 교차 엔트로피 손실로 학습된다. 또한, 학습 과정에서 예측의 지수 이동 평균(EMA)을 수학식 2와 같이 주기적으로 계산한다.

상기 예비 학습하는 단계는, 레이블이 있는 픽셀에 대해서만 표준 교차 엔트로피 손실을 적용하여 스크리블 된 손실(L_sp)을 예측하고, 미리 설정된 에포크에 도달할 때까지 반복적으로 학습한다(단계 S30).

상기 영상 분할 예측확률의 지수 이동 평균(EMA)에서 미리 설정된 임계값을 넘는 세포 영역 및 배경 영역에 의사 레이블(Pseudo Label)을 지정하여 자체 학습한다(단계 S40).

상기 학습 결과를 통해 획득되는 스크리블 된 손실(L_sp)과 스크리블 되지 않은 손실(L_up)을 기초로 상기 영상 분할 예측확률을 반복적으로 개선한다(단계 S50). 상기 스크리블 되지 않은 손실(L_up)에 상대 가중치를 적용할 수 있다.

단계 S40은 다른 표현으로 의사 레이블링과 레이블링 필터링을 통해 의사 레이블의 노이즈를 제거하는 필터링 과정으로 제기 스크리블 되지 않은 손실(L_up)을 주기적으로 예측할 수 있다.

필터링된 의사 레이블을 사용하여 표시되지 않은 픽셀 손실은 수학식 3과 같이 정의된다. 그런 다음, 총 손실은 스크리블 된 손실 L_sp과 상대 가중치를 가진 스크리블 되지 않은 손실 L_up의 조합으로 수학식 4와 같이 정의된다.

이를 통해, 일부 선 레이블로부터 전체 레이블을 만들어내면서 학습이 가능하다(단계 S60).

본 발명의 선 레이블을 이용한 세포 영상 분할 방법에 따르면, 선 레이블만을 이용하여 신뢰성 높은 세포 분할을 하는 기술을 제안함으로써 데이터셋 구축 시간 및 비용을 획기적으로 줄일 수 있다. 또한, 본 발명에서는 추가적인 영상 처리 방법을 사용하지 않아 계산 비용 역시 줄일 수 있다.

이와 같은, 선 레이블을 이용한 세포 영상 분할 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

본 발명은 간단한 선 레이블을 통한 현미경 영상의 세포 분할 및 분석 소프트웨어에 대한 기술로서, 세포의 특성을 보고 예후를 분석하는 바이오, 의료분야 병원 및 연구실에서 유용하게 활용 가능하다. 특히, 데이터셋 구축에 큰 비용이 발생하지 않기 때문에 소규모 병원 및 연구실에서도 활발하게 활용될 수 있을 것으로 예상된다.

10: 선 레이블을 이용한 세포 영상 분할 장치
110: 워밍업부
130: 확률 예측부
150: 자체 학습부
170: 개선부

Claims

선 레이블을 이용한 세포 영상 분할 장치에서의 선 레이블을 이용한 세포 영상 분할 방법에 있어서,
세포 영상과 세포 영역 및 배경 영역을 표시하는 선 레이블을 학습 데이터로 하여 영상 분할 네트워크(U-Net)를 통해 반복적으로 예비 학습하는 단계;
상기 예비 학습 과정에서 일정 주기마다 영상 분할 예측확률의 지수 이동 평균(EMA)을 계산하는 단계;
상기 영상 분할 예측확률의 지수 이동 평균(EMA)에서 미리 설정된 임계값을 넘는 세포 영역 및 배경 영역에 의사 레이블(Pseudo Label)을 지정하여 자체 학습하는 단계; 및
상기 자체 학습 결과를 통해 획득되는 스크리블 된 손실(Lsp)과 스크리블 되지 않은 손실(Lup)을 기초로 상기 영상 분할 예측확률을 반복적으로 개선하는 단계;를 포함하고,
상기 영상 분할 예측확률의 지수 이동 평균(EMA)을 계산하는 것은,
상기 스크리블 된 손실(Lsp)과 상기 스크리블 되지 않은 손실(Lup)의 예측 앙상블 프로세스의 간격인 γ 에포크 마다 평균화되고,
상기 자체 학습하는 단계는,
의사 레이블링과 레이블링 필터링을 통해 의사 레이블의 노이즈를 제거하고, 상기 스크리블 되지 않은 손실(Lup)을 주기적으로 예측하고,
상기 영상 분할 예측확률을 반복적으로 개선하는 단계는,
상기 스크리블 되지 않은 손실(Lup)에 상대 가중치를 적용하는, 선 레이블을 이용한 세포 영상 분할 방법.
제1항에 있어서, 상기 예비 학습하는 단계는,
레이블이 있는 픽셀에 대해서만 표준 교차 엔트로피 손실을 적용하여 스크리블 된 손실(L_sp)을 예측하는, 선 레이블을 이용한 세포 영상 분할 방법.
제2항에 있어서, 상기 예비 학습하는 단계는,
미리 설정된 에포크에 도달할 때까지 반복하는, 선 레이블을 이용한 세포 영상 분할 방법.
제1항에 있어서,
상기 예비 학습하는 단계에서, 상기 세포 영역과 배경 영역을 표시하는 선 레이블이 표시된 픽셀은 상기 세포 영상의 10% 이하의 픽셀을 포함하는, 선 레이블을 이용한 세포 영상 분할 방법.
제1항에 있어서, 상기 영상 분할 예측확률의 지수 이동 평균(EMA)을 계산하는 단계는,
레이블이 지정되지 않은 픽셀에 대해서 영상 분할 예측확률의 지수 이동 평균을 사용하여 레이블을 자동으로 생성하는, 선 레이블을 이용한 세포 영상 분할 방법.
삭제
삭제
삭제
삭제
제1항에 따른 상기 선 레이블을 이용한 세포 영상 분할 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체.
세포 영상과 세포 영역 및 배경 영역을 표시하는 선 레이블을 학습 데이터로 하여 영상 분할 네트워크(U-Net)를 통해 반복적으로 예비 학습하는 워밍업부;
상기 예비 학습 과정에서 일정 주기마다 영상 분할 예측확률의 지수 이동 평균(EMA)을 계산하는 확률 예측부;
상기 영상 분할 예측확률의 지수 이동 평균(EMA)에서 미리 설정된 임계값을 넘는 세포 영역 및 배경 영역에 의사 레이블(Pseudo Label)을 지정하여 자체 학습하는 자체 학습부; 및
상기 자체 학습 결과를 통해 획득되는 스크리블 된 손실(Lsp)과 스크리블 되지 않은 손실(Lup)을 기초로 상기 영상 분할 예측확률을 반복적으로 개선하는 개선부;를 포함하고,
상기 영상 분할 예측확률의 지수 이동 평균(EMA)을 계산하는 것은,
상기 스크리블 된 손실(Lsp)과 상기 스크리블 되지 않은 손실(Lup)의 예측 앙상블 프로세스의 간격인 γ 에포크 마다 평균화되고,
상기 자체 학습부는,
의사 레이블링과 레이블링 필터링을 통해 의사 레이블의 노이즈를 제거하고, 상기 스크리블 되지 않은 손실(Lup)을 주기적으로 예측하고,
상기 개선부는,
상기 스크리블 되지 않은 손실(Lup)에 상대 가중치를 적용하는, 선 레이블을 이용한 세포 영상 분할 장치.