KR102108050B1

KR102108050B1 - 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법 및 그 장치

Info

Publication number: KR102108050B1
Application number: KR1020190130360A
Authority: KR
Inventors: 이상웅; 보둑미
Original assignee: 가천대학교 산학협력단
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-05-07

Abstract

본 발명은 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 헤마톡실린 및 에오신으로 염색된 유방암 생검 이미지를 멀티 스케일 입력 이미지로 트레이닝하여 딥러닝 모델을 구축하고, 상기 구축한 각 딥러닝 모델에서 추출한 심층 특징으로 부스팅 트리 분류기를 트레이닝한 다음, 상기 트레이닝한 각 부스팅 트리 분류기를 결합하여 강한 분류기를 생성함으로써, 암종 및 비 암종의 2가지 주요 그룹과 정상 조직, 양성 병변, 계내 암종 및 침습성 암종의 4가지 클래스를 정확하게 분류할 수 있으며, 개인 정보 보호 정책으로 인한 제한된 수의 유방암 샘플과 이에 따른 불균형한 트레이닝 데이터에도 불구하고 보다 나은 분류 성능을 얻을 수 있는 방법 및 그 장치에 관한 것이다.

Description

증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법 및 그 장치{METHOD FOR CLASSIFYING BREAST CANCER HISTOLOGY IMAGES THROUGH INCREMENTAL BOOSTING CONVOLUTION NETWORKS AND APPARATUS THEREOF}

유방암은 전세계 여성에서 진단되는 가장 흔한 암 유형으로서, 주요 사망 원인 중 하나이며, 남성과 여성 모두에서 발생할 수 있지만 여성에게서 훨씬 더 흔하게 발생한다.

상기 유방암의 다양한 타입을 올바르게 진단하려면 의학적 검사(일반적으로 외과 의사가 수행)를 실시한 다음, 유방 조직을 현미경으로 분석해야 한다. 이를 위해서는 우선, 생검 재료를 절단한 다음 헤마톡실린(hematoxylin) 및 에오신(eosin)을 사용하여 염색하여야 한다. 상기 헤마톡실린 용액은 데옥시리보핵산(DNA)에 결합하고 핵을 강조하는 반면, 상기 에오신은 단백질에 결합하고 다른 구조를 강조한다. 그 다음, 전문 병리학자가 현미경을 사용하여 디지털화된 이미지에서 강조 표시된 영역을 시각화하여 조직 생검을 평가한다. 조직 생검의 평가는 조직 생검의 초기 단서를 식별할 수 있게 한다. 그러나 전문 병리학자는 이 작업을 수행하기 위해 상당한 시간과 노력을 소비해야 한다. 유방암 진단 과정은 시간과 비용이 많이 소요될 뿐만 아니라 병리학자의 사전 지식과 병리학적 보고의 일관성에 크게 의존한다. 병리학자의 평균 진단 정확도는 약 75%이다.

한편 컴퓨터 보조 진단(Computer-Aided Diagnosis) 시스템이 개발되어 의사가 많은 병원에서 환자를 보다 신속하고 정확하게 진단할 수 있도록 돕고 있다. 상기 CAD 시스템은 유방암 검출의 진단 과정에 통합되어 관찰자간 편차를 줄이고, 생검 권장 사항을 효과적으로 제공하며, 정상 조직(normal tissues), 양성 병변(benign lesions), 계내 암종(in situ carcinomas) 및 침습성 암종(invasive carcinomas)을 구별하는데 사용되고 있다.

하지만, 상기 CAD 시스템은 헤마톡실린 및 에오신으로 염색된 이미지를 사용하여 생검 조직의 진단 효율을 증가시키는데 기여하였으나, 대부분의 CAD 시스템은 전통적으로 비효율적이고 시간이 많이 소요되는 수작업(handcrafted) 특징 추출 방법을 사용하였다.

또한 최근에는 가장 차별화된 특징을 추출하고 의료 이미지 분석의 효과를 향상시키기 위해 딥러닝 네트워크가 개발되었다. 특징 추출을 위한 딥러닝 네트워크 사용과 관련하여 다음과 같이 두 가지 장점이 있다. 첫 번째, 다른 기계학습 도구를 사용하는 것보다 딥 특징 학습 모델을 사용하여 더 복잡한 특징 세트를 자동으로 추출할 수 있다. 두 번째, 공동 학습 및 계층 학습 특징은 딥러닝 네트워크의 여러 계층에서 추출할 수 있으므로 결과적으로 딥러닝 네트워크는 특징 선택 단계에서 효율적으로 사용된다.

하지만, 상기 딥러닝 네트워크는 여전히 헤마톡실린 및 에오신으로 염색된 유방 조직 생검 분류의 단점이 있으며, 전체 헤마톡실린 및 에오신으로 염색된 유방 조직 생검 이미지를 인식하기 위한 딥러닝 네트워크를 트레이닝하는 것은 수많은 트레이닝 매개변수로 인해 시간이 많이 걸렸다.

또한 유방암 조직병리학 이미지 분석의 다른 어려운 문제는 제한된 수의 트레이닝 샘플 및 불균형 데이터 문제와 관련이 있다.

예를 들어 DCNN(Deep Convolutional Neural Network)은 사용 가능한 트레이닝 샘플 수가 트레이닝 단계에서 충분히 큰 경우에만 효과적이다. 반대로, 트레이닝 샘플이 제한되면 이러한 네트워크는 종종 과적합(overfitting)을 겪는다. 자연적인 이미지 분류 작업의 경우와 달리 유방암 검출과 같은 의료 응용 분야를 위한 딥러닝 네트워크의 효과적인 트레이닝에 사용할 수 있는 의료 이미지는 훨씬 적다. 이는 데이터 프라이버시 문제와 데이터 수집 비용 증가 때문이다.

또한 많은 다른 의료 이미지 응용에서와 같이, 유방암 검출 방법은 환자로부터 데이터를 수집하는 것이 쉬운 일이 아니기 때문에 불균형한 트레이닝 데이터의 문제가 발생한다.

따라서 본 발명에서는 헤마톡실린 및 에오신으로 염색된 유방 생검 이미지를 멀티 스케일 입력 이미지로 트레이닝하여 DCNN 앙상블을 구축하고, 상기 구축한 각 DCNN 앙상블에서 추출되는 심층 특징(deep feature)을 기반으로 DCNN의 분류 성능을 향상시키기 위한 그래디언트 부스팅 트리 분류기(gradient boosting tree classifier)를 트레이닝하여 결합함으로써, 유방암 조직학 이미지에서 암종(carcinomas) 및 비 암종(non-carcinomas)의 그룹과 정상 조직, 양성 병변, 계내 암종 및 침습성 암종의 클래스를 정확하게 분류할 수 있으며, 제한된 수의 유방암 샘플과 이에 따른 불균형한 트레이닝 데이터에도 불구하고 보다 나은 분류 성능을 얻을 수 있는 방안을 제시하고자 한다.

다음으로 본 발명의 기술분야에 존재하는 선행기술에 대하여 간단하게 설명하고, 이어서 본 발명이 상기 선행기술에 비해서 차별적으로 이루고자 하는 기술적 사항에 대해서 기술하고자 한다.

먼저 한국등록특허 제1889722호(2018.08.20.)는 악성 종양 진단 방법 및 장치에 관한 것으로, 디지털 병리(digital pathology) 장비에 의해 디지털 이미지로 변환된 조직 슬라이드 이미지를 이용하여 진단 대상 조직에 대한 병리 진단 결과를 예측하는 것을 기술적 특징으로 한다.

즉, 상기 선행기술은 진단 대상 조직이 포함된 조직 슬라이드 이미지에서 종양 증식점수, 악성 종양 존재 유무 등의 병리 진단 결과를 완전히 자동화된 방식으로 예측하는 방법 및 장치에 대해 기재하고 있다.

또한 한국공개특허 제2014-0093376호(2014.07.28.)는 의료 영상을 이용하여 대상체에 악성 종양이 존재하는지 여부를 예측하는 장치 및 방법에 관한 것으로, 대상체의 제 1 의료 영상을 매스(mass)를 포함하는 적어도 하나의 제 1 관심 영역으로 분할하고, 대상체의 제 2 의료 영상을 매스를 포함하는 적어도 하나의 제 2 관심 영역으로 분할하는 분할부; 적어도 하나의 제 1 관심 영역과 적어도 하나의 제 2 관심 영역의 위치 정보를 기초로, 적어도 하나의 제 1 관심 영역으로부터 제 1 페어(pair) 관심 영역을 획득하고, 적어도 하나의 제 2 관심 영역으로부터 제 2 페어 관심 영역을 획득하는 관심 영역 페어링부; 제 1 페어 관심 영역과 제 2 페어 관심 영역으로부터 제 1 페어 관심 영역과 제 2 페어 관심 영역의 유사 정도를 나타내는 적어도 하나의 유사 특징을 추출하는 특징 추출부; 및 추출된 적어도 하나의 유사 특징을 기초로, 제 1 페어 관심 영역과 제 2 페어 관심 영역에 포함된 매스가 악성 종양인지 여부를 나타내는 악성종양 정보를 생성하는 분류부를 포함하는 것을 기술적 특징으로 한다.

즉, 상기 선행기술은 대상체의 제 1 의료 영상 및 제 2 의료 영상을 분석하여 대상체에 악성 종양이 존재하는지 여부를 예측함으로써, 악성 종양의 예측의 정확도를 향상시키는 장치 및 방법을 기재하고 있다.

이상에서 선행기술들을 검토한 결과, 상기 선행기술들은 진단대상 조직이 포함된 조직 슬라이드 이미지가 주어진 경우 병리학자의 개입 없이 자동화된 방식으로 종양 증식 속도를 예측하는 구성, 마모그래피 영상을 통해 유방암을 검사할 때 영상 분석의 정확도를 향상시키기 위한 구성 등을 제시하고 있지만, 본 발명은 상기 선행기술에서와 달리 헤마톡실린 및 에오신으로 염색된 유방 생검 이미지를 멀티 스케일 입력 이미지로 트레이닝하여 DCNN 앙상블을 구축하고, 상기 구축한 각 DCNN 앙상블에서 추출되는 심층 특징을 기반으로 DCNN의 분류 성능을 향상시키기 위한 그래디언트 부스팅 트리 분류기를 트레이닝하여 결합하는 기술적 특징을 제시하는 것으로서, 이와 관련된 구성에 대해서는 상기 선행기술에 아무런 기재나 그 어떠한 암시도 없기 때문에 상기 선행기술과 본 발명은 기술적 차이점이 분명한 것이다.

특히, 상기 각 DCNN 앙상블과 상기 결합한 각 그래디언트 부스팅 트리 분류기를 토대로, 유방암 조직학 이미지에서 암종 및 비 암종의 그룹과 정상 조직, 양성 병변, 계내 암종 및 침습성 암종의 클래스를 정확하게 분류할 수 있으며, 제한된 수의 유방암 샘플과 이에 따른 불균형한 트레이닝 데이터에도 불구하고 보다 나은 분류 성능을 얻을 수 있는 구성은 상기 선행기술에서 전혀 제시되지 않은 본 발명만의 특징적인 기술적 구성이다.

본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 헤마톡실린 및 에오신으로 염색된 유방 생검 이미지에 얼룩 정규화(stain normalization)의 전처리 방식을 적용하여 공통 공간으로 변환하고 분산을 줄임으로써, 병리학자의 기술, 실험실에서 사용되는 프로토콜, 염색 절차 등에 따라 변화되는 입력 이미지를 정규화하여 검출 성능을 향상시킬 수 있는 방법 및 그 장치를 제공하는 것을 목적으로 한다.

또한 본 발명은 헤마톡실린 및 에오신으로 염색된 유방 생검 이미지를 무작위 크로핑(cropping), 회전(rotation), 해석(translation, 예: 병증에 대한 전문의의 마킹) 또는 이들의 조합을 통해 기하학적으로 증강함으로써, 유방암 샘플의 제한된 수와 불균형한 트레이닝 데이터로 인한 분류 성능 저하를 방지할 수 있는 방법 및 그 장치를 제공하는 것을 다른 목적으로 한다.

또한 본 발명은 헤마톡실린 및 에오신으로 염색된 유방 생검 이미지를 이용하여 생성한 증강된 데이터세트를 멀티 스케일 입력 이미지로 인셉션(inception) 네트워크를 트레이닝하여 DCNN 앙상블을 구축함으로써, 유방암 종양의 글로벌 및 로컬 특징들을 모두 추출할 수 있는 방법 및 그 장치를 제공하는 것을 또 다른 목적으로 한다.

또한 본 발명은 상기 구축한 각 DCNN 앙상블에서 추출되는 유방 조직의 심층 특징을 기반으로 DCNN의 분류 성능을 향상시키기 위한 그래디언트 부스팅 트리 분류기를 각각 트레이닝하고, 주요 투표 전략(majority voting strategy)을 사용하여 상기 트레이닝한 각 그래디언트 부스팅 트리 분류기를 결합하여 약한 분류기를 강한 분류기로 만들어 줌으로써, 기존의 DCNN 모델과 달리 유방암 샘플의 제한된 수와 불균형한 트레이닝 데이터로 인해 발생하는 과적합 문제를 해결하고, 다양한 유방암 타입의 분류 정확도를 높일 수 있는 방법 및 그 장치를 제공하는 것을 또 다른 목적으로 한다.

본 발명의 일 실시예에 따른 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법은, 유방암 조직학 이미지 분류 장치에서, 원본 이미지를 정규화하여 정규화 이미지를 생성하고, 상기 정규화 이미지에 대해서 증강한 데이터세트를 생성하는 증강 단계; 상기 증강한 데이터세트에 대해서 복수의 해상도를 가진 입력 이미지를 생성하는 입력 이미지 생성 단계; 상기 복수의 해상도를 가진 입력 이미지를 상기 해상도에 따라 각각 트레이닝하여, 해상도별 DCNN 모델을 구비하는 DCNN 트레이닝 단계; 상기 DCNN 모델의 결과에 대해서 그래디언트 부스팅 트리 분류기를 각각 트레이닝시키는 분류기 트레이닝 단계; 및 상기 분류기 트레이닝 단계에서 트레이닝한 각각의 결과를 결합하여 결합 모델을 생성하는 결합 단계;를 포함하는 것을 특징으로 한다.

또한 상기 유방암 조직학 이미지 분류 방법은, 상기 유방암 조직학 이미지 분류 장치에서, 트레이닝 대상의 상기 원본 이미지에 얼룩 정규화의 전처리 방식을 적용하여 공통 공간으로 변환하고 분산을 줄이는 전처리 단계;를 더 포함하는 것을 특징으로 한다.

또한 상기 원본 이미지는 헤마톡실린 및 에오신으로 염색된 유방 생검 이미지이며, 상기 증강한 데이터세트는 상기 유방 생검 이미지에 대해서 무작위 크로핑, 회전, 해석 또는 이들의 조합을 포함한 복수의 입력 이미지인 것을 특징으로 한다.

또한 상기 DCNN 트레이닝 단계를 통해 구비한 해상도별 DCNN 모델은, Inception-ResNet-v2 모델이며, 상기 Inception-ResNet-v2 모델은, 600x600, 450x450 및 300x300의 해상도별 입력 이미지 중 하나로 트레이닝되는 것을 특징으로 한다.

또한 상기 유방암 조직학 이미지 분류 방법은, 상기 DCNN 트레이닝 단계를 통해 구비한 해상도별 DCNN 모델과 상기 결합 단계를 통해 생성한 결합 모델을 사용하여, 이미지 제공 장치로부터 입력받은 분류 대상의 원본 이미지로부터 유방암 타입을 분류하는 분류 단계;를 더 포함하는 것을 특징으로 한다.

이때 상기 유방암 타입을 분류하는 것은, 암종 및 비 암종의 2가지 그룹과 정상 조직, 양성 병변, 계내 암종 및 침습성 암종의 4가지 클래스로 분류하는 것을 특징으로 한다.

아울러, 본 발명의 일 실시예에 따른 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 장치는, 원본 이미지를 정규화하여 정규화 이미지를 생성하고, 상기 정규화 이미지에 대해서 증강한 데이터세트를 생성하는 데이터세트 증강부; 상기 증강한 데이터세트에 대해서 복수의 해상도를 가진 입력 이미지를 생성하는 입력 이미지 생성부; 상기 복수의 해상도를 가진 입력 이미지를 상기 해상도에 따라 각각 트레이닝하여, 해상도별 DCNN 모델을 구비하는 DCNN 트레이닝부; 상기 DCNN 모델의 결과에 대해서 그래디언트 부스팅 트리 분류기를 각각 트레이닝시키는 그래디언트 부스팅 트리 분류기 트레이닝부; 및 상기 그래디언트 부스팅 트리 분류기 트레이닝부에서 트레이닝한 각각의 결과를 결합하여 결합 모델을 생성하는 결합부;를 포함하는 것을 특징으로 한다.

또한 상기 유방암 조직학 이미지 분류 장치는, 트레이닝 대상의 상기 원본 이미지에 얼룩 정규화의 전처리 방식을 적용하여 공통 공간으로 변환하고 분산을 줄이는 전처리부;를 더 포함하는 것을 특징으로 한다.

또한 상기 DCNN 트레이닝부를 통해 구비한 해상도별 DCNN 모델은, Inception-ResNet-v2 모델이며, 상기 Inception-ResNet-v2 모델은, 600x600, 450x450 및 300x300의 해상도별 입력 이미지 중 하나로 트레이닝되는 것을 특징으로 한다.

한편, 본 발명의 일 실시예에 따른 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 장치는, 이미지 제공 장치로부터 입력받은 분류 대상의 원본 이미지로부터 유방암 타입을 분류하는 분류 모듈;을 포함하며, 상기 유방암 타입을 분류하는 것은, 상기 원본 이미지를 정규화하여 정규화 이미지를 생성하고, 상기 정규화 이미지에 대해서 증강한 데이터세트를 생성하고, 상기 증강한 데이터세트에 대해서 복수의 해상도를 가진 입력 이미지를 생성하고, 상기 복수의 해상도를 가진 입력 이미지를 상기 해상도에 따라 각각 트레이닝하여 구비한 해상도별 DCNN 모델과, 상기 DCNN 모델의 결과에 대해서 그래디언트 부스팅 트리 분류기를 각각 트레이닝시킨 다음, 트레이닝한 각각의 결과를 결합하여 생성한 결합 모델을 토대로 수행하는 것을 특징으로 한다.

이때 상기 분류 모듈은, 상기 분류 대상의 원본 이미지로부터 암종 및 비 암종의 2가지 그룹과 정상 조직, 양성 병변, 계내 암종 및 침습성 암종의 4가지 클래스로 분류하는 것을 특징으로 한다.

이상에서와 같이 본 발명의 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법 및 그 장치에 따르면, 헤마톡실린 및 에오신으로 염색된 유방 생검 이미지를 멀티 스케일 입력 이미지로 트레이닝하여 DCNN 앙상블을 구축하고, 상기 구축한 각 DCNN 앙상블에서 추출되는 심층 특징을 기반으로 DCNN의 분류 성능을 향상시키기 위한 그래디언트 부스팅 트리 분류기를 트레이닝하여 결합함으로써, 유방암 조직학 이미지에서 암종 및 비 암종의 2가지 주요 그룹과 정상 조직, 양성 병변, 계내 암종 및 침습성 암종의 4가지 클래스를 정확하게 분류할 수 있는 효과가 있다.

또한 본 발명은 개인 정보 보호 정책으로 인한 제한된 수의 유방암 샘플과 이에 따른 불균형한 트레이닝 데이터에도 불구하고 보다 나은 분류 성능을 얻을 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 과정을 설명하기 위한 개념도이다.
도 2는 본 발명의 일 실시예에 따른 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 장치의 구성을 상세하게 나타낸 도면이다.
도 3은 본 발명에 적용되는 유방암 조직병리학적 이미지를 나타낸 도면이다.
도 4는 본 발명의 그래디언트 부스팅 트리에 적용되는 탐욕 알고리즘을 설명하기 위한 도면이다.
도 5는 본 발명에 적용되는 인셉션 네트워크를 상세하게 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 유방암 조직학 이미지 분류 장치에서 처리되는 헤마톡실린 및 에오신으로 염색된 유방암 생검 이미지의 전처리 및 데이터세트 증강을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 유방암 조직학 이미지 분류 장치에서의 특징 추출 모델의 전체 구조를 나타낸 도면이다.
도 8은 본 발명의 일 실시예에 따른 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법의 동작과정을 상세하게 나타낸 순서도이다.
도 9는 Bioimaging-2015 데이터세트에서 헤마톡실린 및 에오신으로 염색된 조직학적 유방암 이미지의 데이터베이스에 대한 본 발명에 적용된 분류 방식과 기존 방식의 인식률을 설명하기 위한 도면이다.
도 10과 도 11은 Bioimaging-2015 데이터세트에서 헤마톡실린 및 에오신으로 염색된 조직학적 유방암 이미지의 데이터베이스에 대한 본 발명에 적용된 분류 방식과 기존 방식의 4가지 클래스 및 2가지 그룹 분류에 대한 감도를 각각 설명하기 위한 도면이다.
도 12는 Bioimaging-2015 데이터세트에서의 본 발명에서 제안된 방식에 따른 질적 결과를 나타낸 도면이다.
도 13은 BreaKHis 데이터베이스에서 본 발명에서 제안된 방식과 기존의 방식을 비교한 도면이다.
도 14는 본 발명에 적용된 DCNN의 트레이닝 스텝 수에 따른 정확도 및 손실의 변화를 설명하기 위한 도면이다.
도 15는 BreaKHis 데이터베이스에서 본 발명에서 제안된 방식과 기존의 정밀 딥러닝 모델을 비교한 도면이다.

이하, 첨부한 도면을 참조하여 본 발명의 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법 및 그 장치에 대한 바람직한 실시 예를 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 또한 본 발명의 실시 예들에 대해서 특정한 구조적 내지 기능적 설명들은 단지 본 발명에 따른 실시 예를 설명하기 위한 목적으로 예시된 것으로, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는 것이 바람직하다.

도 1은 본 발명의 일 실시예에 따른 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 과정을 설명하기 위한 개념도이다.

도 1에 도시된 바와 같이, 본 발명은 유방암 조직학 이미지 분류 장치(100), 이미지 제공 장치(200), 데이터베이스(300) 등을 포함하여 구성된다.

상기 유방암 조직학 이미지 분류 장치(100)는 유방암의 분류 성능을 개선하고 과적합을 방지하기 위한 새로운 부스팅 방법을 제안한 것으로서, DCNN 모델과 부스팅 트리 분류기의 조합을 기반으로 한다. 즉 컨볼루션 레이어가 있는 딥러닝 모델을 활용하여 유방암 분류에 가장 유용한 시각적 특징을 추출함으로써 기존의 수작업 특징 추출 방식보다 더 나은 특징을 추출할 수 있도록 하며, 부스팅을 토대로 약한 분류기를 강한 분류기로 결합함으로써 시스템을 효율적으로 강화시킬 수 있도록 하는 것이다.

이를 위하여, 상기 유방암 조직학 이미지 분류 장치(100)는 상기 이미지 제공 장치(100)로부터 제공받은 트레이닝(학습) 대상의 유방암 관련 이미지(즉 헤마톡실린 및 에오신으로 염색된 유방암 생검 이미지)를 얼룩 정규화를 통해 전처리를 수행하여 병리학자의 기술, 실험실에서 사용되는 프로토콜, 염색 절차 등에 따라 변화되는 입력 이미지를 정규화한다.

그 다음, 상기 유방암 조직학 이미지 분류 장치(100)는 헤마톡실린 및 에오신으로 염색된 유방 생검 이미지를 무작위로 자르거나, 회전시키거나, 또는 변환시킴으로써 증강(augmentation)시킨다. 이러한 데이터 증강 방법은 불균형 데이터를 다루고, DCNN 트레이닝 및 트리 분류기 향상을 위해 사용 가능한 데이터 샘플을 늘리기 위해 사용된다. 이러한 이유로, 개인 정보 보호 정책 제한 및 기타 조건으로 인해 유방암 샘플의 수가 많지 않더라도 DCNN과 부스팅 트리 분류기를 결합하면 분류 성능이 향상될 수 있다.

또한 상기 유방암 조직학 이미지 분류 장치(100)는 상기 증강시킨 데이터세트를 멀티 스케일 입력 이미지로 인셉션 네트워크를 트레이닝하여 DCNN 앙상블을 구축한다.

즉 본 발명은 멀티 스케일 트레이닝 이미지에서 가장 유용한 시각적 특징을 추출할 수 있도록 트레이닝하여 DCNN 앙상블을 구축함으로써, 멀티 스케일 상황(contextual) 정보를 집계하여 멀티 레이블 유방암 분류의 정확성을 높일 수 있으며, 원본 이미지에서 글로벌 및 로컬 정보를 모두 추출할 수 있는 장점이 있다. 또한 본 발명은 로컬 영역에서 멀티 스케일 특징을 추출하기 위하여 고해상도 입력 이미지를 사용하는데, 유방암 종양 및 세포는 다양한 모양, 크기, 마진 및 밀도를 가지기 때문에 이러한 장점은 유방암 검출 작업에 효과적으로 적용될 수 있다. 다시 말하면, 본 발명은 의사가 유방암의 단계를 결정하는데 매우 중요한 멀티 스케일 로컬 특징을 추출함으로써, 다른 크기의 유방암 종양을 검출할 수 있고, 로컬 영역에서 얻은 세부 정보를 기반으로 모양 및 여백과 같은 유방암 조직의 특징적인 이상을 인식할 수 있으며, 상기 DCNN 앙상블을 통해 종양 밀도와 유방 조직의 수를 추정하는데 사용되는 글로벌 정보를 추출할 수 있는 것이다.

이때 상기 인셉션 네트워크는 나란히 놓인 여러 개의 컨볼루션 레이어를 거쳐 하나의 출력으로 합쳐지는 것으로서, 도 5에서 보다 상세하게 설명하기로 한다.

또한 상기 유방암 조직학 이미지 분류 장치(100)는 DCNN 앙상블을 구축한 이후, 상기 구축한 각 DCNN 앙상블에서 추출되는 유방 조직의 심층 특징(deep feature)(즉 유방 생검 이미지에서 추출된 글로벌 및 로컬 정보)을 기반으로 DCNN의 분류 성능을 향상시키기 위한 그래디언트 부스팅 트리 분류기를 각각 트레이닝한 다음, 주요 투표 전략(majority voting strategy)을 사용하여 상기 트레이닝한 각 그래디언트 부스팅 트리 분류기를 결합하여 약한 분류기를 강한 분류기로 만들어 준다.

이때 상기 부스팅은 약한 분류기를 결합하여 강한 분류기로 만드는 과정을 의미하는 것으로서, 예를 들어 분류기 A, B 및 C(정확도가 각각 0.3인 것을 가정)를 결합하여 0.7 정도의 정확도를 얻는 것이 앙상블 알고리즘의 기본 원리인데, 부스팅은 이 과정을 순차적으로 실행하여 A 분류기를 만든 다음 이를 바탕으로 B 분류기를 만들고, 다시 이를 바탕으로 C 분류기를 만들고, 최종적으로 만들어진 분류기들을 모두 결합하여 최종 모델을 만드는 것이다. 또한 상기 그래디언트 부스팅 트리는 예를 들어 트리 1을 통해 예측하고, 남은 잔차(residual)를 트리 2로 예측하고, 이를 반복함으로써 잔차를 줄여나갈 때 각 모델 트리를 약한 분류기라 하고, 이를 결합한 분류기를 강한 분류기라 하는데, 상기 약한 분류기를 그래디언트 부스팅 트리라 한다.

또한 상기 주요 투표 전략은 과반의 표를 받은 대상이 있는지, 그 대상은 누구인지 최소 회수의 비교를 통해 밝혀내는 방법을 의미하는 것으로서, 본 발명에서는 약한 분류기인 상기 각 그래디언트 부스팅 트리 분류기를 결합하여 강한 분류기로 만들어주는데 이용한다.

이에 따라 상기 유방암 조직학 이미지 분류 장치(100)는 기존 방식의 DCNN 모델과 달리 유방암 샘플의 제한된 수와 불균형한 트레이닝 데이터로 인해 발생하는 과적합(overfitting) 문제를 해결할 수 있으며, 암종 또는 비 암종의 여부, 및 정상 조직, 양성 병변, 계내 암종 및 침습성 암종의 다양한 유방암 타입의 분류 정확도를 높일 수 있게 된다. 이때 상기 과적합은 레이어가 많아질 때 발생하는 대표적인 문제점으로서, 정확하게 분류하려 말고 어느 정도 오차를 허용하여야 하는데, 지나치게 분류가 잘되는 것처럼 보일 때를 의미한다.

이상에서의 설명을 정리하면, 상기 유방암 조직학 이미지 분류 장치(100)는 다양한 입력 스케일(멀티 스케일 트레이닝 이미지)로 여러 DCNN을 독립적으로 트레이닝하여 DCNN 앙상블을 구축함으로써, 멀티 레이블 유방암 검출의 정확성을 개선할 수 있고, 각각의 그래디언트 부스팅 트리 분류기에서 상기 DCNN 앙상블에서 추출된 심층 특징(유방암 종양의 글로벌 및 로컬 특징)을 새로운 데이터세트로 트레이닝하여 DCNN의 분류 성능을 향상시킴으로써, 제한된 수의 유방암 샘플과 불균형한 트레이닝 데이터에도 불구하고 더 나은 분류 성능을 얻을 수 있으며, 각각의 그래디언트 부스팅 트리 분류기를 주요 투표 전략을 사용하여 하나로 결합(fusion)함으로써, 최고의 분류 성능을 달성하는 최종 부스팅 분류기를 얻을 수 있다.

상기 이미지 제공 장치(200)는 병원 서버, 사용자 단말, 촬영장치 등을 포함하며, 트레이닝 대상의 유방암 이미지를 상기 유방암 조직학 이미지 분류 장치(100)로 제공하여, 유방암 조직학 이미지 분류를 위한 딥러닝 모델을 트레이닝할 수 있도록 한다.

또한 상기 이미지 제공 장치(200)는 유방암 여부를 확인하기 위한 사용자가 보유하고 있는 특정 이미지를 상기 유방암 조직학 이미지 분류 장치(100)로 제공하여, 사전에 구축한 딥러닝 모델을 통해 상기 유방암 조직학 이미지 분류 장치(100)에서 해당 이미지를 토대로 유방암 여부를 분류할 수 있도록 한다.

상기 데이터베이스(300)는 상기 유방암 조직학 이미지 분류 장치(100)에서 수행하는 이미지 제공 장치(200)로부터 수집한 트레이닝 대상의 유방 이미지의 증강된 데이터세트, 트레이닝에 따른 DCNN 앙상블, 그래디언트 부스팅 트리 분류기 등을 저장하고 있다.

도 2는 본 발명의 일 실시예에 따른 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 장치의 구성을 상세하게 나타낸 도면이다.

도 2에 도시된 바와 같이, 상기 유방암 조직학 이미지 분류 장치(100)는 이미지 입력부(110), 전처리부(120), 데이터세트 증강부(130), 입력 이미지 생성부(140), DCNN 트레이닝부(150), 그래디언트 부스팅 트리 분류기 트레이닝부(160), 결합부(170), 분류 모듈(180) 등을 포함하여 구성된다.

상기 이미지 입력부(110)는 네트워크를 통해 상기 이미지 제공 장치(200)로부터 트레이닝 대상의 헤마톡실린 및 에오신으로 염색된 유방암 생검 이미지를 제공받아 상기 전처리부(120)로 출력한다.

상기 전처리부(120)는 상기 이미지 입력부(110)로부터 제공받은 상기 트레이닝 대상의 헤마톡실린 및 에오신으로 염색된 유방 생검 이미지에 얼룩 정규화의 전처리 방식을 적용하여 공통 공간(common space)으로 변환하고 분산(variance)을 줄이고, 상기 전처리된 데이터를 상기 데이터세트 증강부(130)로 출력한다.(도 6 참조)

상기 데이터세트 증강부(130)는 상기 전처리부(120)로부터 제공받은 전처리된 트레이닝 대상의 헤마톡실린 및 에오신으로 염색된 유방암 생검 이미지(즉 원본 이미지)를 정규화하여 정규화 이미지를 생성하고, 상기 정규화 이미지에 대해서 증강한 데이터세트를 생성한다.

즉 상기 트레이닝 대상의 헤마톡실린 및 에오신으로 염색된 유방 생검 이미지를 무작위 크로핑, 회전, 해석 또는 이들의 조합을 통해 데이터세트를 증강시킴으로써, 제한된 트레이닝 데이터세트를 기반으로 트레이닝 이미지의 양을 효과적으로 증가시키는 것이다.(도 6 참조)

상기 입력 이미지 생성부(140)는 상기 증강한 데이터세트에 대해서 복수의 해상도를 가진 입력 이미지를 생성하고, 상기 생성한 복수의 해상도를 가진 입력 이미지를 상기 DCNN 트레이닝부(150)의 입력으로 제공한다.

상기 DCNN 트레이닝부(150)는 상기 입력 이미지 증강부(140)에서 생성한 복수의 해상도를 가진 입력 이미지를 상기 해상도에 따라 각각 트레이닝하여, 해상도별 DCNN 모델을 구비한다. 예를 들어, 상기 복수의 해상도를 가진 입력 이미지를 입력으로 인셉션 네트워크를 트레이닝하여 DCNN 앙상블을 도출하는 것이다.

이때 상기 DCNN 트레이닝부(150)는 Inception-ResNet-v2 모델을 포함하며, 상기 Inception-ResNet-v2 모델은 600x600, 450x450 및 300x300 멀티 스케일 입력 이미지 중 하나로 트레이닝되는 것이 바람직하다. 또한 상기 멀티 스케일 이미지는 본 발명에서는 600x600, 450x450 및 300x300로 설정하여 설명하지만 이에 한정되는 것은 아니며, 다양하게 설정할 수 있음을 밝혀둔다.

상기 그래디언트 부스팅 트리 분류기 트레이닝부(160)는 상기 DCNN 모델의 결과(즉 유방 조직의 가장 차별적인 심층 특징)에 대해서 그래디언트 부스팅 트리 분류기를 각각 트레이닝시킨다. 즉 상기 DCNN 트레이닝부(150)의 결과로 추출된 차별적인 심층 특징들을 분류 성능의 향상을 위해서 일련의 그래디언트 부스팅 트리 분류기를 트레이닝하는데 다시 사용하는 것이다.

상기 결합부(170)는 상기 그래디언트 부스팅 트리 분류기 트레이닝부(160)에서 트레이닝한 각각의 결과를 결합하여 결합 모델을 생성한다. 즉 각각의 그래디언트 부스팅 트리(약한 분류기)를 조직학적 이미지에서 유방암 단서를 정확하게 검출할 수 있는 보다 강력한 부스팅 분류기로 결합하는 것이다.

상기 분류 모듈(180)은 상기 이미지 제공 장치(200)로부터 유방암 여부를 확인하기 위한 사용자가 보유하고 있는 특정 원본 이미지(즉 분류 대상의 유방암 생검 이미지)가 입력되면, 상기 원본 이미지를 정규화하여 정규화 이미지를 생성한 후, 상기 정규화 이미지에 대해서 증강한 데이터세트를 생성하고, 상기 증강한 데이터세트에 대해서 복수의 해상도를 가진 입력 이미지를 생성한 다음, 상기 복수의 해상도를 가진 입력 이미지를 상기 DCNN 트레이닝부(150)를 통해 구비한 해상도별 DCNN 모델과 상기 결합부(170)를 통해 생성한 결합 모델을 사용하여 유방암 타입을 분류한다.

즉 상기 분류 모듈(180)은 상기 원본 이미지, 즉 분류 대상의 유방암 조직학 이미지로부터 암종 및 비 암종의 2가지 그룹과 정상 조직, 양성 병변, 계내 암종 및 침습성 암종의 4가지 클래스로 유방암 타입을 분류하는 것이다.

다음에는, 이와 같이 구성된 본 발명의 유방암 조직학 이미지 분류 장치(100)를 통해 수행하는 이미지 분류 과정을 도 3 내지 도 7을 참조하여 보다 상세하게 설명한다.

도 3은 본 발명에 적용되는 유방암 조직병리학적 이미지를 나타낸 도면으로서, 상기 유방암 조직학 이미지 분류 장치(100)를 통해 헤마톡실린 및 에오신으로 염색된 유방암 생검 이미지로부터 분류한 다양한 유방암 타입을 나타내고 있다. 도 3의 (a)는 침습성 암종, 도 3의 (b)는 양성 병변, 도 3의 (c)는 계내 암종, 도 3의 (d)는 정상 조직이다.

일반적으로 도 3의 (b)에서와 같은 양성 병변에서 이미지는 악성으로 진행되지 않는 유방 실질(parenchyma)의 정상적인 구조의 변화를 보여준다. 또한 도 3의 (c)에서의 계내 암종은 유선 관엽 시스템 내부에서 억제되는 세포를 나타내며, 계내 암종과 달리, 도 3의 (a)에서의 침습성 암종은 세포가 유선관 소엽 시스템의 구조 너머로 퍼지는 프로파일을 나타낸다.

이와 같은 다양한 유방암 타입을 정확하게 분류하기 위하여, 상기 유방암 조직학 이미지 분류 장치(100)에서는 그래디언트 부스팅 트리와 인셉션 네트워크를 사용하는데, 이에 대하여 상세하게 설명하면 다음과 같다.

먼저, 부스팅 트리 알고리즘은 회귀(regression) 및 분류 문제를 해결하고 약한 예측 모델을 조합하여 강력한 예측 모델을 생성하기 위한 것으로서, 일련의 연속 트리를 계산하는 최적화 알고리즘이며, 모든 단일 트리는 이전 트리의 잔차(residual)를 예측하는데 사용된다. 본 발명에서는 그래디언트 부스팅 트리 알고리즘을 사용하여 약한 분류기를 하나의 강력한 분류기로 결합한다.

본 발명에서 사용되는 그래디언트 부스팅 트리 알고리즘은 지도 학습 알고리즘과 마찬가지로 손실 함수를 최소화하여 객체를 분류하는 것을 목표로 한다. 이러한 최적화 문제에 대한 솔루션을 위하여, 그래디언트 디센트(descent) 알고리즘을 사용하여 부스팅 트리를 학습하고, 학습률(learning rate)에 따라 새로운 부스팅 트리의 예측을 업데이트하고 개선한다.

먼저 n₁ 예제와 n₂ 특징의 집합을

로 나타낸다. 본 발명은 다음의 수학식 1과 같이 M 단일 함수를 결합하여 이 데이터세트의 예제를 분류하는 트리 앙상블 모델을 구축하는 것을 목표로 한다.

[수학식 1]

, v_i는 i번째 목표 값,

는 i번째 예측이다. 여기서, h(u)는 트레이닝 데이터 u를 해당 그룹으로 분류할 수 있는 단일 트리를 나타낸다. 각 단일 트리 h(u)는 D 리프(leaf)로 구성된다. 그러므로, 각각의 f_k는 회귀 트리 h 및 대응하는 리프 가중치 w의 함수이다. 회귀 트리 h의 i번째 리프의 스코어를 δ_i로 나타낸다. 각각의 예는 일련의 결정 규칙에 기초하여 회귀 트리 h의 리프에 따라 분류된다. 결과적으로 해당 리프들의 스코어를 합산하여, 이 예에 대한 마지막 예측을 계산할 수 있다. 다음의 수학식 2와 같은 최소화 문제를 해결하여 함수의 세트를 찾을 수 있다.

[수학식 2]

여기서,

이다. 상기 수학식 2에서 예측 v_i와 목표 i의 차이는 미분 가능한 볼록 손실 함수(convex loss function) g에 의해 계산되며, 모델의 복잡도는 추가 정규화 항(term) δ에 의해 측정된다. 과적합(overfitting) 문제를 피하고 트레이닝 가중치를 매끄럽게 하기 위해 상기 수학식 2에 추가 정규화 항이 추가된다. 부스팅 트리 모델이 예측 작업을 위한 간단한 함수를 선택하는 경향이 있기 때문이다. 따라서, 트레이닝 파라미터가 최소화된다. 이상적으로, 손실 함수 G(φ)를 최소화할 수 있으면, 잔차의 합은 대략 0이어야 한다. 실제로, 각 트레이닝 데이터 포인트는 관측 값 v_i와 예측값

간의 차이와 동일한 하나의 잔차를 갖는다. 그래디언트 부스팅 알고리즘의 아이디어는 잔차를 줄이고 모델을 강화하기 위해서 새로운 부스팅 트리를 반복적으로 업데이트하는 것이다. 이러한 잔차의 합이 사전 정의된 임계 값보다 작으면 트레이닝 프로세스는 중지될 수 있다.

상기 수학식 2에 대한 최적의 솔루션은 기존의 최적화 방법으로는 직접 찾을 수 없다. 대신, 상기 수학식 2에서 파라미터와 함수를 최적화하기 위해 효과적인 근사법을 적용한다. 본 발명은 t번째 반복(iteration)에서 i번째 예의 예측을

로 나타낸다. 상기 수학식 2에 대한 솔루션은 다음의 수학식 3과 같은 최소화 문제를 해결하면 찾을 수 있다.

[수학식 3]

또한 상기 수학식 3에 f_t를 더함으로써, 다음의 수학식 4와 같이 상기 수학식 2의 목표를 빠르게 최적화하기 위해 2차 근사를 적용할 수 있다.

[수학식 4]

여기서,

는 손실 함수에 대한 1차 그래디언트 통계 값이며,

는 2차 그래디언트 통계 값이다. 상기 수학식 4는 다음의 수학식 5로 단순화할 수 있다.

[수학식 5]

리프 j의 인스턴스 집합은

이다. 상기 수학식 3은 다음의 수학식 6과 같이 δ를 확장하여 다시 작성할 수 있다.

[수학식 6]

또한 다음의 수학식 7과 같이 구조 h(u)를 고정하고 리프 가중치

를 최적화할 수 있다.

[수학식 7]

해당 최적값은 다음의 수학식 8을 통해 계산할 수 있다.

[수학식 8]

상기 수학식 8에서 스코어를 계산함으로써, 트리 구조 h의 질을 평가할 수 있다. 가능한 모든 트리 구조 h를 열거하기 위해, 본 발명에서는 탐욕(greedy) 알고리즘을 적용하여 모든 단일 리프를 검색하였고, 브랜치(branch)가 반복해서 트리에 추가되었다. 분할 후, 왼쪽 및 오른쪽에 있는 노드의 인스턴스 세트가 사용 가능해지고 각각 T_L 및 T_R로 표시된다. 그 다음 다음의 수학식 9와 같이 인스턴스 세트 T_L 및 T_R을 기반으로 손실 감소가 계산된다.

[수학식 9]

상기 수학식 9는 분할 후보를 평가하는데 사용된다. 상기 분할 후보는 예측의 잔차를 최소화하기 위해 추가된다. 따라서 최상의 분리 포인트 선택이 손실 함수를 최소화하는데 요구된다. 과적합 문제를 방지하기 위해, 본 발명에서는 수축(shrinkage) 및 열(column) 서브 샘플링이라는 두 가지 기술을 적용하였다. 수축 기법은 개별 트리들 사이의 영향을 줄임으로써 모델 품질을 향상시키는 것을 목표로 하였다. 각각의 부스팅 단계 후, 새로운 가중치가 계수 η에 의해 재조정되었다. 수축 계수 η는 학습률(learning rate)이라 한다. 상기 학습률이 감소하면, 더 많은 트리가 모델에 추가되고, 트레이닝 프로세스가 더 효과적이다. 열 서브 샘플링 기법은 과적합 문제를 방지하고 부스팅 트리 알고리즘의 계산 속도를 높이기 위해 사용된다. 또한 이 기법은 모델에서 부스팅 트리의 모든 연속 부분 사이의 상관 관계를 줄이는데 사용된다.

상기 수학식 9에 표시한 것처럼, 분류 성능을 향상시키기 위해서는 최상의 분할을 찾는 것이 매우 중요하다. 이를 위해서, 본 발명에서는 도 4에 표시된 탐욕(greedy) 알고리즘을 사용한다. 이때 상기 탐욕 알고리즘은 최적 해를 구하는데 사용되는 근사적인 방법으로서, 여러 경우 중 하나를 결정해야 할 때마다 그 순간에 최적이라고 생각되는 것을 선택해 나가는 방식으로 진해하여 최종적인 해답에 도달한다.

도 4는 본 발명의 그래디언트 부스팅 트리에 적용되는 탐욕 알고리즘을 설명하기 위한 도면으로서, 상기 탐욕 알고리즘의 기본 아이디어는 가능한 모든 분할을 열거한 다음, 특징 값을 기준으로 데이터를 정렬하는 것이다. 이 정렬된 순서로 그래디언트 통계가 누적되고, 구조 스코어가 상기 수학식 9를 기준으로 계산된다. 마지막으로, 최고의 분할은 가장 높은 구조 점수에 해당한다.

한편, 상기 설명한 그래디언트 부스팅 트리와 함께, 본 발명에 적용되는 인셉션 네트워크(inception network)는 복수의 작은 컨볼루션 커널(tiny convolution kernel)을 사용하여 교차 채널(cross-channel) 및 공간 상관을 동시에 매핑함으로써, 트레이닝 성능의 개선을 목표로 한다. 상기 작은 컨볼루션 커널의 주요 장점은, 더 큰 컨볼루션 커널보다 파라미터가 훨씬 적은 CNN을 설계하는데 사용될 뿐만 아니라, 이미지의 자세한 정보를 효과적으로 추출하는데 사용될 수 있다는 것이다. 따라서, 네트워크 트레이닝 절차가 보다 효과적이고 효율적일 수 있으며 과적합 문제를 회피할 수 있다.

도 5는 본 발명에 적용되는 인셉션 네트워크를 상세하게 설명하기 위한 도면으로서, 상기 인셉션 네트워크는 서로 다른 스케일로 자세한 정보를 효과적으로 추출하도록 서로 다른 크기의 컨볼루션을 사용한다. 상기 도 5에 나타낸 바와 같이, 각 인셉션 레이어는 1x1, 3x3 및 5x5 컨볼루션을 사용하여 더 큰 컨볼루션을 나타내는 것을 볼 수 있다. 따라서 더 많은 컨볼루션 레이어를 사용하여 네트워크가 더 깊어지면, 네트워크의 계산 비용을 크게 줄일 수 있다. 또한 네트워크에서 완전 연관된 레이어(fully-connected layer)들은 채널 값을 평균하는 글로벌 평균-풀링 레이어(global average-pooling layer)로 대체된다. 이 변경으로 정확도에 영향을 미치지 않으면서 전체 네트워크 파라미터의 수가 대폭 줄어든다. 또한 두 가지 주요 변경 사항은 의료 이미지 분석 연구에서 일반적인 문제가 되는 트레이닝 이미지 수가 제한되어 있을 때, 과적합 문제를 해결하는데 도움이 된다. 또한, 인셉션 구조를 잔차 연결(residual connection)과 결합하면 트레이닝 속도가 크게 향상되고 인식 성능이 크게 향상된다. 이때 상기 잔차 연결은 하위 레이어의 출력을 상위 레이어의 특성 맵에 더하는 것으로서, 하위 레이어에서 트레이닝된 정보가 데이터 처리과정에서 손실되는 것을 방지한다.

상기 인셉션 네트워크 중에서 Inception-ResNet-v2 네트워크는 잔차 연결 없이 비슷한 고가의 네트워크보다 성능이 뛰어나다. 이는 잔차 학습 프레임 워크가 인셉션 구조를 위한 트레이닝 속도 향상에 중요한 역할을 하기 때문이다. 또한 찬차 연결을 사용하는 인셉션 네트워크는 이미지에서 하이레벨 특징을 효과적으로 추출하기 위해 더 깊은 컨볼루션 레이어를 갖는다.

본 발명에서는 유방 조직의 멀티 레벨 특징을 캡처하기 위하여, 다른 입력 스케일에서 인셉션 네트워크를 사용한다. 이러한 인셉션 네트워크를 통해, 본 발명은 유방암 세포와 정상 유방 조직의 유사성을 나타내는 유방 세포 타입에 관한 자세한 정보를 캡처할 수 있다. 또한, 상기 인셉션 네트워크는 유방암 이미지에서 하이레벨 특징을 추출하여 이미지에서 유방 세포의 밀도를 추정함으로써, 유방암 세포의 성장 속도를 평가할 수 있다. 또한 유방암은 주변 유방 조직을 성장, 확산 및 침범할 수 있기 때문에, 본 발명에서는 다양한 유방암 타입의 멀티 스케일 특징을 추출하기 위해 입력 스케일이 다른 인셉션 네트워크를 사용한다.

상기 설명한 것처럼, 그래디언트 부스팅 트리와 인셉션 네트워크를 사용하는 본 발명은 상기 유방암 조직학 이미지 분류 장치(100)를 통해 유방암 이미지 분류 과정을 수행할 때, 대략적으로 다음의 다섯 단계를 순차적으로 수행함으로써, 다양한 유방암 타입을 정확하게 분류할 수 있다.

첫 번째 단계에서, 상기 유방암 조직학 이미지 분류 장치(100)는 헤마톡실린 및 에오신으로 염색된 유방암 조직학 이미지에 얼룩 정규화의 전처리를 수행하여야 한다. 딥러닝 네트워크를 사용하는 자동화된 유방암 분류기의 경우, 얼룩 정규화는 검출 성능을 향상시키기 위한 필수 단계이다. 조직 염색, 고정 및 커팅 절차가 일관되지 않기 때문에, 헤마톡실린 및 에오신으로 염색된 유방암 조직학 이미지의 모양은 실험실에 따라 크게 변화한다. 이에 따라 본 발명은 조직학적 이미지를 공통 공간으로 변환하고, 이들의 분산을 감소시키기 위하여 얼룩 정규화 방법의 전처리를 수행한다.

본 발명에서 사용하는 얼룩 정규화 방법은 각 조직학적 이미지의 광학 밀도를 계산하기 위해 로그 변환을 사용한다. 또한 관련 자유도를 추정하고 더 높은 분산을 갖는 2D 프로젝션 매트릭스를 구성하기 위해서 단일 값(singular value) 분해 방법을 이 광학 밀도 이미지에 적용한다. 그런 다음 모든 픽셀에 대한 강도 히스토그램을 계산하였으며, 그 결과로 도출된 강도의 동적 범위가 데이터의 90% 미만을 차지하였다.

두 번째 단계에서, 상기 유방암 조직학 이미지 분류 장치(100)는 원래의 제한된 트레이닝 데이터세트를 기반으로 트레이닝 이미지의 양을 효과적으로 증가시킬 수 있는 새로운 증강 방식을 적용한다.

개인 정보 보호 문제로 인해 데이터 액세스가 제한되어 있기 때문에, 유방암 검출기는 종종 불충분한 트레이닝 데이터세트로 트레이닝되며, 이에 따라 트레이닝 데이터가 부족하여 암 분류 성능이 저해된다. 본 발명에서는 이를 해결하기 위하여, 트레이닝 데이터를 증강함으로써 트레이닝 모델의 과적합 문제를 줄일 수 있도록 한다. 본 발명에서는 이미지 반사, 무작위 크로핑, 회전 및 해석을 포함한 기하학적 증강을 수행한다.

헤마톡실린 및 에오신으로 염색된 유방암 조직학 이미지의 색상은 다양한 기술적 기술로 인해 실험실마다 크게 다르기 때문에, 본 발명에서는 데이터세트의 증강을 위하여, 효과적인 색상 불변 방법(color constancy method), 즉 이미지의 장면이 평균적으로 중성 그레이(neutral gray)이고 평균 반사 색상이 빛의 색상이라고 가정하는 그레이 세계(gray world)를 적용한다. 이러한 이유로, 평균 색상을 계산하고 이를 그레이 값과 비교하여 광원 색상 캐스트를 잘 추정할 수 있다. 이 알고리즘에서, 광원 색상은 이미지의 각 채널의 평균에 의해 계산된다.

도 6은 본 발명의 일 실시예에 따른 유방암 조직학 이미지 분류 장치에서 처리되는 헤마톡실린 및 에오신으로 염색된 유방암 생검 이미지의 전처리 및 데이터세트 증강을 설명하기 위한 도면이다.

도 6에 도시된 바와 같이, 상기 유방암 조직학 이미지 분류 장치(100)는 헤마톡실린 및 에오신으로 염색된 유방암 조직학 이미지의 얼룩 정규화를 통해 도 6의 (a)의 원본 이미지를 도 6의 (b)와 같이 정규화(normalization)하며, 상기 정규화된 이미지를 무작위 크로핑, 회전 및 해석을 토대로 도 6의 (c)에서와 같이 증강시켜 증강된 데이터세트를 생성한다.

세 번째 단계에서, 상기 유방암 조직학 이미지 분류 장치(100)는 상기 증강된 트레이닝 데이터세트를 사용하여 멀티 스케일 입력 이미지로 일련의 인셉션 네트워크를 트레이닝하여야 한다. 즉 증강된 데이터세트로 인셉션 네트워크를 트레이닝하여 DCNN 앙상블을 구축함으로써, 유방암 검출 작업을 위한 유방 조직의 가장 차별적인 심층 특징을 추출할 수 있도록 해야 하는 것이다.

통상적으로, DCNN 앙상블이 예측 정확도를 높이는데 유용한 경쟁 우위를 갖기 때문에 단일의 DCNN보다 다수의 DCNN의 앙상블이 훨씬 뛰어나다. 이러한 DCNN 앙상블을 구축하기 위해서, 상기 유방암 조직학 이미지 분류 장치(100)는 우선 각 스케일이 적어도 하나 이상의 CNN을 통과하는 네트워크 앙상블에 멀티 스케일 입력 이미지를 적용한다. 이 앙상블은 원본 이미지의 수용 영역을 확장하여 더 나은 글로벌 특징을 커버할 뿐만 아니라, 더 나은 멀티 스케일 로컬 특징들을 추출한다. 그 다음, 상기 DCNN 앙상블은 분류 성능을 향상시키는 신뢰할 수 있는 기술로서, 각 트레이닝 심층 모델은 여러 개의 로컬 최소값을 나타내므로, 서로 다른 DCNN의 여러 트레이닝 프로세스가 각 클래스의 오류 분포를 개선할 수 있다. 이에 따라 출력을 결합하면 전체 작업의 성능이 향상된다. 또한 상기 유방암 조직학 이미지 분류 장치(100)는 상대적으로 낮은 계산 비용으로 매우 우수한 성능을 달성할 수 있는 인셉션 네트워크 아키텍처를 사용하는데, 본 발명에서는 최첨단 인셉션 네트워크 모델, 즉 Inception-ResNet-v2 모델을 사용한다. 상기 Inception-ResNet-v2 모델은 잔차 연결에서 이점을 얻기 때문에 ImageNet large-scale visual recognition challenge(ILSVRC)에서 최첨단 성능을 제공할 수 있다. 사전 트레이닝된 딥러닝 모델을 사용하여 차별화된 특징을 추출한 이전의 방식들과 달리, 본 발명은 네트워크를 트레이닝하고 과적합 문제를 피하기 위해 충분한 증강 이미지를 성공적으로 생성할 수 있기 때문에, 사전 트레이닝된 모델과 증강된 트레이닝 데이터세트를 사용하여 모든 단일 DCNN을 트레이닝할 수 있다. 이와 같은 트레이닝 과정을 거치면, 사전 트레이닝된 모델보다 훨씬 우수한 특징들을 추출할 수 있다.

보다 구체적으로 설명하면, 상기 유방암 조직학 이미지 분류 장치(100)는 무작위로 크로핑, 회전 및 해석하는 데이터 증강을 통해, 각 원본 트레이닝 이미지가 수백 개의 새로운 증강 트레이닝 이미지로 생성된다. 이렇게 생성된 증강된 데이터세트는 서로 다른 크기의 입력 이미지로 각 인셉션 네트워크를 트레이닝하는데 사용된다. 예를 들어, 각 Inception-ResNet-v2 모델은 600x600, 450x450 및 300x300 이미지인 3가지 스케일 입력 이미지 중 하나로 트레이닝된다. 각 네트워크는 임의의 크기의 입력 이미지를 수용할 수 있도록, 각 모델에서 완전 연관된 레이어의 연결이 끊어진다. 각 입력 이미지는 증강된 데이터세트에서 크기가 조정된 이미지이다. 도 7은 본 발명의 일 실시예에 따른 유방암 조직학 이미지 분류 장치에서의 특징 추출 모델의 전체 구조를 나타낸 도면으로서, 각 DCNN은 600x600, 450x450 및 300x300 이미지인 3가지 스케일 입력 이미지 중 하나로 트레이닝되어 DCNN 앙상블이 구축될 수 있도록 한다. 이에 따라 다음의 네 번째 및 다섯 번째 단계 설명에서와 같이 상기 DCNN 앙상블을 통해 추출된 심층 특징을 기반으로 각각의 그래디언트 부스팅 트리 분류기가 각각 트레이닝되고, 각 그래디언트 부스팅 트리 분류기가 하나의 결합 모델(fused model)로 결합됨으로써, 트레이닝 대상의 유방암 생검 이미지가 암종 및 비 암종의 2가지 주요 그룹과 정상 조직, 양성 병변, 계내 암종 및 침습성 암종의 4가지 클래스로 정확하게 분류될 수 있다.

예를 들어, 상기 유방암 조직학 이미지 분류 장치(100)는 분산 머신 러닝 시스템을 활용하여 GeForce GTX 1080 Ti에서 실행되는 확률적 그래디언트로 각 네트워크를 트레이닝한다. 또한 감쇠가 0.9인 RMSProp를 사용하는 Inception-ResNet-v2 모델을 사용하여 네트워크를 미세 조정한다. 본 발명에서는 0.94의 지수 비율을 사용하여 매 2 에포크(epoch)마다 감소한 0.007의 학습률을 사용한다. 각 인셉션 네트워크에 대한 트레이닝 과정에는 50개의 에포크가 필요하다. 또한 각 모델의 마지막 컨볼루션 레이어를 길이가 1056인 1차원 특징 벡터로 변환한다. 마지막으로, 모든 1차원 특징 벡터는 그래디언트 부스팅 트리 분류기의 입력으로 사용된다.

네 번째 단계에서, 상기 증강된 트레이닝 데이터세트로부터 추출된 차별적인 심층 특징들은 분류 성능을 향상시키기 위해 일련의 그래디언트 부스팅 트리 분류기를 트레이닝하는데 다시 사용될 수 있다. 즉 상기 유방암 조직학 이미지 분류 장치(100)는 상기 구축한 각 DCNN 앙상블에서 추출한 심층 특징을 기반으로 DCNN의 분류 성능을 향상시키기 위한 그래디언트 부스팅 트리 분류기를 각각 트레이닝하는 것이다.

예를 들어, 각 Inception-ResNet-v2 모델에 대해, 상기 유방암 조직학 이미지 분류 장치(100)는 증강된 데이터세트의 트레이닝 이미지에서 추출된 심층 특징 벡터의 트레이닝 데이터세트를 구축하고, 상기 구축한 심층 특징 벡터의 각 데이터세트는 분류 정확도 비율을 더 향상시키기 위해 그래디언트 부스팅 분류기를 트레이닝하는데 사용된다. 모든 트레이닝 모델에서 학습률(learning rate)은 0.05이다. 트리 모델의 복잡성을 제어하는 주요 파라미터인 리프(leaf) 수와 트리 깊이(depth)는 각각 191과 6으로 설정된다. 트레이닝 과정에서, 각 트레이닝 데이터는 최고 점수에 따라 클래스로 나뉜다.

다섯 번째 단계에서, 상기 유방암 조직학 이미지 분류 장치(100)는 상기 각 그래디언트 부스팅 트리 분류기를 트레이닝한 후, 상기 트레이닝한 각 그래디언트 부스팅 트리 분류기를 결합한다. 즉 모든 그래디언트 부스팅 트리 분류기를 더 강력한 분류기로 만들기 위해 주요 투표 전략(majority voting strategy)을 사용하여 하나로 결합하는 것이다.

상기 DCNN은 최첨단 객체 검출 방법 중 하나이지만, 다른 객체의 완전한 멀티 스케일 컨텍스트 정보를 캡처할 수 없다. 또한 상기 설명에서와 같이, 인셉션 네트워크는 한 개 또는 두 개의 유방암 타입을 검출할 때 가장 높은 정확도를 달성할 수 있지만, 다른 인셉션 네트워크는 나머지 타입을 인식하는데 더 나을 수 있다. 따라서 이 조합은 멀티 해상도 이미지 및 멀티 스케일 특징 디스크립터의 이점을 이용하고, 상이한 유방암 종양의 글로벌 및 로컬 정보를 추출하기 위한 더 나은 솔루션을 제공한다.

한편, 상기 유방암 조직학 이미지 분류 장치(100)는 상기 이미지 제공 장치(200)로부터 특정 이미지, 즉 사용자가 보유하고 있는 유방암 여부를 확인하기 위한 이미지가 입력되면, 상기 설명한 것과 같이 증강된 데이터세트를 멀티 스케일 입력 이미지로 인셉션 네트워크를 트레이닝하여 구축한 DCNN 앙상블, 및 하나로 결합된 각 그래디언트 부스팅 트리 분류기의 조합을 참조하여, 사용자가 제공한 헤마톡실린 및 에오신으로 염색된 유방암 생검 이미지로부터 암종 및 비 암종의 2가지 그룹과 정상 조직, 양성 병변, 계내 암종 및 침습성 암종의 4가지 클래스로 유방암 타입을 정확하게 분류할 수 있다.

다음에는, 이와 같이 구성된 본 발명에 따른 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법의 일 실시예를 도 8을 참조하여 상세하게 설명한다. 이때 본 발명의 방법에 따른 각 단계는 사용 환경이나 당업자에 의해 순서가 변경될 수 있다.

도 8은 본 발명의 일 실시예에 따른 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법의 동작과정을 상세하게 나타낸 순서도이다.

도 8에 도시된 바와 같이, 상기 유방암 조직학 이미지 분류 장치(100)는 원본 이미지(즉 트레이닝 대상의 헤마톡실린 및 에오신으로 염색된 유방암 생검 이미지)를 정규화하여 정규화 이미지를 생성하고, 상기 정규화 이미지에 대해서 증강한 데이터세트를 생성하는 증강 단계를 수행한다.

즉 상기 유방암 조직학 이미지 분류 장치(100)는 상기 이미지 제공 장치(200)로부터 트레이닝 대상의 헤마톡실린 및 에오신으로 염색된 유방암 생검 이미지를 입력받는 이미지 입력 단계(S100)를 수행하고, 상기 트레이닝 대상의 헤마톡실린 및 에오신으로 염색된 유방 생검 이미지에 얼룩 정규화의 전처리 방식을 적용하여 공통 공간으로 변환하고 분산을 줄이는 전처리 단계를 수행하며(S200), 상기 전처리된 데이터세트를 대량으로 증강시키는 데이터 증강 단계를 수행한다(S300).

이때 상기 유방암 조직학 이미지 분류 장치(100)는 상기 트레이닝 대상의 헤마톡실린 및 에오신으로 염색된 유방 생검 이미지를 무작위 크로핑, 회전, 해석 또는 이들의 조합을 통해 데이터세트를 증강시킨다.

상기 S100 내지 S300 단계를 통해 트레이닝 대상의 유방암 이미지의 전처리 및 데이터세트 증강을 수행한 이후, 상기 유방암 조직학 이미지 분류 장치(100)는 상기 증강한 데이터세트에 대해서 복수의 해상도를 가진 입력 이미지를 생성하는 입력 이미지 생성 단계를 수행한 다음, 상기 복수의 해상도를 가진 입력 이미지를 상기 해상도에 따라 각각 트레이닝하여, 해상도별 DCNN 모델을 구비하는 DCNN 트레이닝 단계를 수행한다(S400). 즉 상기 증강한 데이터세트를 멀티 스케일 입력 이미지로 인셉션 네트워크를 트레이닝하여 DCNN 앙상블을 구축하는 인셉션 네트워크 트레이닝을 수행하는 것이다.

이때 상기 S400 단계의 인셉션 네트워크 트레이닝에 따라 구비되는 해상도별 DCNN 모델(즉 DCNN 앙상블)은, 복수의 Inception-ResNet-v2 모델을 포함하며, 각각의 Inception-ResNet-v2 모델은 600x600, 450x450 및 300x300 멀티 스케일 입력 이미지 중 하나로 트레이닝된다.

이후 상기 유방암 조직학 이미지 분류 장치(100)는 상기 S400 단계에서 구비되는 상기 DCNN 모델의 결과에 대해서 그래디언트 부스팅 트리 분류기를 각각 트레이닝시키는 분류기 트레이닝 단계를 수행한다.

즉 상기 유방암 조직학 이미지 분류 장치(100)는 상기 해상도별 DCNN 모델로부터 심층 특징이 추출되면(S500), 상기 추출한 심층 특징을 기반으로 그래디언트 부스팅 트리 분류기를 각각 트레이닝하는 그래디언트 부스팅 트리 분류기 트레이닝 단계를 수행하는 것이다(S600).

또한 상기 유방암 조직학 이미지 분류 장치(100)는 상기 S600 단계에서 트레이닝한 각각의 결과를 결합하여 결합 모델을 생성하는 결합 단계를 수행하여(S700), 약한 분리기인 각각의 그래디언트 부스팅 트리를 조직학적 이미지에서 유방암 단서를 정확하게 검출할 수 있는 보다 강력한 부스팅 분류기로 만든다.

한편, 상기 유방암 조직학 이미지 분류 장치(100)는 상기 이미지 제공 장치(200)로부터 특정 원본 이미지(즉 사용자가 보유하고 있는 분류 대상이 되는 헤마톡실린 및 에오신으로 염색된 유방암 생검 이미지)가 입력되면, 상기 S400 단계를 통해 구축한 해상도별 DCNN 모델과 상기 S700 단계를 통해 결합한 각 그래디언트 부스팅 트리 분류기를 토대로, 상기 원본 이미지로부터 유방암 타입을 분류하는 단계를 수행한다(S800).

이때 상기 S800 단계에서 상기 유방암 타입을 분류하는 것은, 암종 및 비 암종의 2가지 그룹과 정상 조직, 양성 병변, 계내 암종 및 침습성 암종의 4가지 클래스로 분류하는 것을 의미한다.

다음에는, 이와 같이 구성된 본 발명의 일 실시예에 따른 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 장치의 실험결과를 도 9 내지 도 15를 참조하여 상세하게 설명한다.

본 발명에서는 Bioimaging 2015 유방 조직학 분류 과제와 BreaKHis 데이터세트의 두 가지 데이터세트를 토대로 본 발명에 적용된 이미지 분류 과정의 효과를 평가한다.

먼저 본 발명에서 제안한 이미지 분류 방식의 정확성과 감도를 평가하기 위하여, Bioimaging 2015 유방 조직학 분류 과제의 데이터베이스(Bioimaging-2015)를 사용하였으며, 결과를 기존 방식의 알고리즘의 결과와 비교하였다. 상기 데이터세트는 동일한 획득 조건, 2040x1536 픽셀의 동일한 획득 매트릭스 및 0.42μmx0.42μm의 평면 내 픽셀 크기로 디지털화된 헤마톡실린 및 에오신으로 염색된 조직학적 이미지로 구성되었다. 각 이미지는 이미지 내용에서 진단을 제공한 두 명의 병리학자가 표시하였다. 그들은 각각의 이미지를 정상 조직, 양성 병변, 계내 암종 및 침습성 암종의 네 가지 등급으로 분류하였다. 총 249개의 현미경 트레이닝 이미지와 36개의 현미경 테스트 이미지가 사용되었다. 각각의 이미지는 정상 및 양성 클래스를 비 암종 클래스로 그룹화하고, 계내 및 침습적 클래스를 암종 클래스로 그룹화함으로써, 비 암종 및 암종의 두 그룹으로 분류되었다.

본 발명에서는 상기 Bioimaging-2015 데이터세트와는 다른 스케일의 도전적인 입력 이미지를 사용하여 인셉션 모델을 트레이닝하였다. 이미지의 크기는 300x300, 450x450 및 600x600이다. 또한 3개의 해당 그래디언트 부스팅 모델을 트레이닝하기 위해 이 모델에서 추출한 특징들을 사용하였다. 이 모델들은 기존 방식의 모델과 비교되었다. 각 제안된 모델은 사전 트레이닝된 모델 이름, 이미지 입력 크기 및 분류기 이름으로 표시되었다. 예를 들어 Inception-450x450+GBT는 450x450 이미지 입력과 그래디언트 부스팅 트리 분류기가 포함된 사전 트레이닝된 Inception-ResNet-v2 모델을 사용하는 방법을 나타낸다. Inception-600x600은 600x600 이미지 입력 및 Softmax 분류기와 함께 사전 트레이닝된 Inception-ResNet-v2 모델을 사용하는 방법을 나타낸다.

또한 본 발명에 적용된 방식은 상기 Bioimaging 2015 유방 조직학 분류 과제의 데이터베이스 이외에, 82명의 익명 환자로부터 수집된 7909개의 이미지를 포함하는 BreaKHis 데이터세트에서 테스트되었다. 이 이미지는 700x460 픽셀의 동일한 해상도로 디지털화되었다. 상기 BreaKHis 데이터세트는 양성 및 악성 종양으로 나뉘었으며, 각각 4가지 확대 인자, 즉 40X, 10X, 20X 및 40X를 포함하였다. 특히 병리학자들은 양성 종양을 선종(A), 관상 선종(TA), 엽상 종양(PT) 및 섬유종(F)을 포함하는 4가지 하위 분류로 분류하였다. 또한 악성 종양을 4개의 다른 서브 클래스로 나누었는데, 이는 덕트 암종(DC), 점액 암종(MC), 소엽 암종(LC) 및 유두 암종(PC)이었다. 더 높은 수준의 안정성을 보장하기 위해 딥 러닝 모델 및 그래디언트 부스팅 분류기를 트레이닝하기 위해 사용 가능한 데이터의 70%가 무작위로 선택되었다. 성능 평가를 위해 나머지 30%의 데이터를 사용하였다. 또한 300x300, 450x450 및 600x600 크기의 서로 다른 크기의 입력 이미지를 사용하여 상기 BreaKHis 데이터세트에 대한 인셉션 모델 및 그래디언트 부스팅 분류기를 트레이닝하였다. 이 모델들은 기존 방식의 알고리즘과 비교되었다.

먼저, Bioimaging-2015 데이터세트의 결과를 설명하면 다음과 같다.

도 9는 Bioimaging-2015 데이터세트에서 헤마톡실린 및 에오신으로 염색된 조직학적 유방암 이미지의 데이터베이스에 대한 본 발명에 적용된 분류 방식과 기존 방식의 인식률을 설명하기 위한 도면으로서, 인셉션 네트워크의 분류 정확도가 4가지 클래스의 경쟁 분류기(CNN)의 분류 정확도보다 훨씬 우수하며 4.2% 이상의 정확도를 보여준다. 이 결과는 본 발명의 인셉션 모델이 유방암 분류기의 성능을 효과적으로 증명하였음을 보여준다. 이러한 모델은 CNN에 비해 더 많은 주요 유방 세포 특징을 추출할 수 있기 때문이다. CNN은 유방암 세포의 고유한 특성을 추출하기에 충분하지 않은 4개의 좁은 컨볼루션 레이어로 구성되었으며, 이는 다양한 헤마톡실린 및 에오신으로 염색된 부분으로 인해 쉽지 않은 작업이다. 반대로, 본 발명의 인셉션 모델은 유방암 세포와 정상 유방 세포의 유사성을 나타내는 유방 세포 타입에서 자세한 정보를 추출할 수 있다. 각 모델은 객체의 자연스러운 계층을 캡처하는데 매우 중요한 네트워크로 트레이닝되었다. 하위 레벨 특징들이 첫 번째 레이어에서 캡처되었고, 객체 부분이 더 높은 레이어에서 추출되었다. 또한 잔차(residual) 학습 프레임워크는 이러한 네트워크의 트레이닝을 용이하게 하고 더 높은 특징 레벨을 추출하여 인식 작업의 성능을 향상시켰다.

또한 상기 도 9에 나타낸 것과 같이, 인셉션 모델의 심층 특징들을 사용하여 그래디언트 부스팅 트리 분류기의 성능을 평가하였다. Inception-300x300+GBT, Inception-450x450+GBT 및 Inception-600x600+GBT는 각각 Inception-300x300, Inception-450x450 및 Inception-600x600보다 더 정확하다. 이는 그래디언트 부스팅 트리 분류기가 딥 러닝 모델에서 유방암 특징 분류의 정확도 개선을 상당히 향상시키기 때문이다.

도 10은 Bioimaging-2015 데이터세트에서 헤마톡실린 및 에오신으로 염색된 조직학적 유방암 이미지의 데이터베이스에 대한 본 발명에 적용된 분류 방식과 기존 방식의 4가지 클래스에 대한 감도를 설명하기 위한 도면으로서, 각 인셉션 네트워크가 유방 세포 타입을 검출할 때 장점과 단점이 있음을 보여준다. Inception-300x300+GBT는 감도가 100%인 정상 유방 세포를 검증하기 위한 최고의 분류기인 반면, Inception-450x450+GBT는 양성 종양 및 침습성 암종을 각각 100% 및 98.9%의 민감도로 검출하는데 가장 높은 정확도를 달성한다. 비 암종/암종 조직 분류 작업의 경우, Inception-600x600+GBT는 Inception-300x300+GBT 및 Inception-450x450+GBT보다 높은 정확도를 달성하였다. 암종 검출에서 Inception-600x600+GBT의 민감도는 100%였으며 특이도(specificity)는 97.2%였다. 이는 Inception-ResNet-v2 네트워크가 최첨단 객체 검출 방법이지만, 다른 유방암 타입의 멀티 스케일 컨텍스트 정보를 캡처할 수 없다는 사실로 설명할 수 있다. 상기 도 9는 4가지 클래스 문제의 경우 결합 모델이 96.4%의 정확도를 달성할 수 있음을 보여주는데, 이는 딥 러닝 모델을 사용하는 경쟁 접근법 중 최고이다. 결합 모델 정확도는 단일 모델보다 4.2% 이상 높았다. 이는 상기 결합 모델이 멀티 스케일 상황(contextual) 정보를 수집하기 위해 멀티 해상도 입력 이미지의 심층 네트워크 아키텍처를 이용할 수 있으며, 이전 방식에서 언급한 것처럼 단일 모델의 장점을 활용할 수도 있음을 다시 한 번 입증한다.

이진 분류와 관련하여, 본 발명의 분류기의 정확도는 4 클래스 문제에 비해 상당히 증가하였다. 이는 정상 클래스와 양성 클래스가 크게 다르지 않고, 계내(in situ) 클래스도 침습적 클래스와 유사한 특징들을 공유하기 때문이다. 결과는 이진 분류 실험에 포함된 알고리즘과 관련하여 결합 모델이 최고이며, 99.5%의 총 정확도를 달성하였음을 증명한다. 또한 도 11은 Bioimaging-2015 데이터세트에서 헤마톡실린 및 에오신으로 염색된 조직학적 유방암 이미지의 데이터베이스에 대한 본 발명에 적용된 분류 방식과 기존 방식의 2가지 그룹 분류에 대한 감도를 설명하기 위한 도면으로서, 암종을 탐지하기 위해 사용된 결합 모델의 민감도가 100%이고, 특이성이 97.2%임을 보여준다.

또한 본 발명의 제안된 딥 러닝 네트워크와 CNN(Cruz-Roa-CNN)을 사용하는 최신 알고리즘 중 하나와 비교하였다. 이 알고리즘은 각 고해상도 이미지 패치에서 침습성 암종의 탐지를 목표로 한다. 상기 도 10은 침습성 암종의 패치별 분류에 대한 결합 모델의 전체 감도가 이 경쟁 분류기보다 우수하다는 것을 보여준다. 본 발명의 모델은 침습성 암종의 패치 방식 분류에 대해 100%의 감도를 달성했으며 이는 Cruz-Roa-CNN보다 20.4% 더 우수하다. 본 발명의 방법은 침습적 암종 검출 방법이 아니라는 사실에도 불구하고 Cruz-Roa-CNN보다 월등히 뛰어났다. 이는 본 발명의 방법은 멀티 레벨 및 멀티 스케일 특징을 캡처할 수 있고, 개별 핵(nuclei) 특징뿐만 아니라 구조적 조직도 인식할 수 있기 때문이다.

기존의 어느 알고리즘에서는 양성 종양과 악성 종양을 분류하는데 사용된 CNN 트레이닝을 위해 약 2000개의 이미지를 사용하였다. 그들은 분류 정확도 비율 84%를 달성하였다. 비 암종/암종 조직 분류 작업의 경우, 본 발명의 결합 모델은 99.5%의 정확도를 달성했으며, 이는 딥 러닝 모델을 사용하는 경쟁 접근법 중 최고였다. 비록 본 발명에서는 트레이닝 이미지를 적게 사용했지만, 본 발명은 제안된 데이터 증강 기술을 사용하여 더 많은 트레이닝 이미지를 생성할 수 있기 때문에 성능이 향상되었다. 또한 본 발명의 네트워크 모델은 컨볼루션 레이어를 통해 다양한 스케일로 특징을 학습할 수 있다. 따라서 본 발명의 네트워크는 더 나은 개별 핵뿐만 아니라 핵 구조를 인식할 수 있다. Bioimaging 2015 유방 조직학 분류 데이터베이스에서의 본 발명에서 제안된 방법의 질적 결과는 도 12에 나타나 있다.

한편, BreaKHis 데이터세트의 결과를 설명하면 다음과 같다.

도 13은 BreaKHis 데이터베이스에서 본 발명에서 제안된 방식과 기존의 방식을 비교한 도면으로서, 결합 모델이 모든 인셉션 모델 중에서 가장 높은 정확도를 달성하였음을 보여준다. 실험 결과에 따르면 결합된 방법은 멀티 스케일의 상호 정보를 수집하는 능력으로 인해 다른 모든 접근 방식보다 성능이 뛰어나고, 40X, 100X, 200X 및 400X의 배율 계수 각각의 이미지에서 3.3%, 4.2%, 5.5% 및 3.6% 이상의 개선을 달성한 것을 다시 한 번 보여준다. 실제로, 본 발명의 결합 모델은 최첨단 분류기인 VLAD 분류기에 비해 상당히 높은 정확도를 생성할 수 있다. 왜냐하면 멀티 레벨 로컬 디스크립터(descriptor, 설명자)를 컴팩트한 객체 표현으로 집계할 수 있기 때문이다. VLAD 방법은 유방암 종양의 로컬 특징 디스크립터를 효과적으로 추출할 수 있지만, 본 발명의 딥 러닝 모델의 부스팅 프레임워크는 여전히 접근 방식을 훨씬 능가하며, 일련의 다차원 공간-진화 신호(spatially-evolving signal)를 사용하여 고차 선형 동적 시스템 분석을 통해 조직학적 이미지만 모델링한다.

또한 상기 도 13은 멀티 스케일 이미지 입력에서 추출된 다음 부스팅 프레임워크에 융합된 특징이 객체 분류 문제에서 기존의 딥 러닝 네트워크보다 성능이 우수하다는 것을 보여준다. 또한 이는 사용 가능한 트레이닝 샘플 수가 제한된 문제를 처리할 때, 본 발명의 부스팅 알고리즘이 딥 러닝 네트워크보다 더 효과적이라는 것을 증명한다. 도 14는 본 발명에 적용된 DCNN의 트레이닝 스텝 수에 따른 정확도 및 손실의 변화를 설명하기 위한 도면으로서, Inception-300x300, Inception-450x450 및 Inception-600x600인 본 발명에 적용된 DCNN의 트레이닝 정확도 및 손실을 보여준다. 이 실험에 사용된 트레이닝 이미지는 BreaKHis 데이터 세트에서 400X의 배율 계수(magnification factor)인 이미지이다. 이 트레이닝 정확도는 해당 테스트 정확도보다 상당히 높다. 이러한 결과는 DCNN이 과적합을 겪고 있음을 의미한다. 이 실험에서 본 발명의 그래디언트 부스팅 방법은 과적합을 방지하여 성능을 향상시킬 수 있다.

또한 도 15는 BreaKHis 데이터베이스에서 본 발명에서 제안된 방식과 기존의 정밀 딥러닝 모델을 비교한 도면으로서, 도 15에 표시된 것처럼, ResNet-V1-152, Inception-V3, Inception-V4 및 Inception-300x300을 포함한 각기 다른 딥 러닝 프레임워크의 분류 성능을 평가하였다. 이 네트워크의 모든 이미지 입력은 300x300 매트릭스로 얻은 이미지였다. 그것들은 최첨단 컨볼루션 신경망 이미지 분류 모델이다. 상기 도 15는 Inception-300x300+GBT 및 ResNet-V1-152+GBT를 포함한 잔차 학습 프레임워크를 사용하는 모델이 객체 분류의 정확도를 상당히 향상시켰음을 보여준다. 잔차 학습 프레임워크는 심층 네트워크를 트레이닝하는데 중요한 역할을 수행하였다. 네트워크의 트레이닝이 쉬워졌으며 분류 작업의 정확성이 향상되었다. 또한 상기 도 15는 Inception-300x300+GBT가 딥 러닝 모델을 사용하는 경쟁 접근법 중에서 최고임을 나타낸다. 이는 인셉션 아키텍처를 잔차 연결과 결합하여 이점을 얻었기 때문이다. 첫 번째, 잔차 연결은 인셉션 아키텍처의 트레이닝 속도를 획기적으로 향상시킨다. 두 번째, 잔차 연결을 사용한 인셉션 네트워크는 이미지로부터 하이레벨 특징을 효과적으로 추출하기 위해 더 깊은 컨볼루션 레이어를 사용할 수 있다.

이처럼, 본 발명은 헤마톡실린 및 에오신으로 염색된 유방 생검 이미지를 멀티 스케일 입력 이미지로 트레이닝하여 DCNN 앙상블을 구축하고, 상기 구축한 각 DCNN 앙상블에서 추출되는 심층 특징을 기반으로 DCNN의 분류 성능을 향상시키기 위한 그래디언트 부스팅 트리 분류기를 트레이닝하여 결합하기 때문에, 유방암 조직학 이미지에서 암종 및 비 암종의 2가지 주요 그룹과 정상 조직, 양성 병변, 계내 암종 및 침습성 암종의 4가지 클래스를 정확하게 분류할 수 있다.

또한 본 발명은 개인 정보 보호 정책으로 인한 제한된 수의 유방암 샘플과 이에 따른 불균형한 트레이닝 데이터에도 불구하고 보다 나은 분류 성능을 얻을 수 있다.

이상에서와 같이 본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 기술적 보호범위는 아래의 특허청구범위에 의해서 판단되어야 할 것이다.

100 : 유방암 조직학 이미지 분류 장치
110 : 이미지 입력부
120 : 전처리부
130 : 데이터세트 증강부
140 : 입력 이미지 생성부
150 : DCNN 트레이닝부
160 : 그래디언트 부스팅 트리 분류기 트레이닝부
170 : 결합부
180 : 분류 모듈
200 : 이미지 제공 장치
300 : 데이터베이스

Claims

유방암 조직학 이미지 분류 장치에서, 원본 이미지를 정규화하여 정규화 이미지를 생성하고, 상기 정규화 이미지에 대해서 증강한 데이터세트를 생성하는 증강 단계;
상기 증강한 데이터세트에 대해서 복수의 해상도를 가진 입력 이미지를 생성하는 입력 이미지 생성 단계;
상기 복수의 해상도를 가진 입력 이미지를 상기 해상도에 따라 각각 트레이닝하여, 해상도별 DCNN 모델을 구비하는 DCNN 트레이닝 단계;
상기 DCNN 모델의 결과에 대해서 그래디언트 부스팅 트리 분류기를 각각 트레이닝시키는 분류기 트레이닝 단계; 및
상기 분류기 트레이닝 단계에서 트레이닝한 각각의 결과를 결합하여 결합 모델을 생성하는 결합 단계;를 포함하며,
상기 원본 이미지는,
헤마톡실린 및 에오신으로 염색된 유방 생검 이미지이며,
상기 증강한 데이터세트는,
상기 유방 생검 이미지에 대해서 무작위 크로핑, 회전, 해석 또는 이들의 조합을 포함한 복수의 입력 이미지인 것을 특징으로 하는 유방암 조직학 이미지 분류 방법.
청구항 1에 있어서,
상기 유방암 조직학 이미지 분류 방법은,
상기 유방암 조직학 이미지 분류 장치에서, 상기 원본 이미지에 얼룩 정규화의 전처리 방식을 적용하여 공통 공간으로 변환하고 분산을 줄이는 전처리 단계;를 더 포함하는 것을 특징으로 하는 유방암 조직학 이미지 분류 방법.
삭제
청구항 1에 있어서,
상기 해상도별 DCNN 모델은,
Inception-ResNet-v2 모델이며,
상기 Inception-ResNet-v2 모델은,
600x600, 450x450 및 300x300의 해상도별 입력 이미지 중 하나로 트레이닝되는 것을 특징으로 하는 유방암 조직학 이미지 분류 방법.
청구항 1에 있어서,
상기 유방암 조직학 이미지 분류 방법은,
상기 해상도별 DCNN 모델과 상기 결합 모델을 사용하여, 이미지 제공 장치로부터 입력받은 분류 대상의 원본 이미지로부터 유방암 타입을 분류하는 분류 단계;를 더 포함하는 것을 특징으로 하는 유방암 조직학 이미지 분류 방법.
청구항 5에 있어서,
상기 분류 단계는,
암종 및 비 암종의 2가지 그룹과 정상 조직, 양성 병변, 계내 암종 및 침습성 암종의 4가지 클래스로 유방암 타입을 분류하는 것을 특징으로 하는 유방암 조직학 이미지 분류 방법.
원본 이미지를 정규화하여 정규화 이미지를 생성하고, 상기 정규화 이미지에 대해서 증강한 데이터세트를 생성하는 데이터세트 증강부;
상기 증강한 데이터세트에 대해서 복수의 해상도를 가진 입력 이미지를 생성하는 입력 이미지 생성부;
상기 복수의 해상도를 가진 입력 이미지를 상기 해상도에 따라 각각 트레이닝하여, 해상도별 DCNN 모델을 구비하는 DCNN 트레이닝부;
상기 DCNN 모델의 결과에 대해서 그래디언트 부스팅 트리 분류기를 각각 트레이닝시키는 그래디언트 부스팅 트리 분류기 트레이닝부; 및
상기 그래디언트 부스팅 트리 분류기 트레이닝부에서 트레이닝한 각각의 결과를 결합하여 결합 모델을 생성하는 결합부;를 포함하며,
상기 원본 이미지는,
헤마톡실린 및 에오신으로 염색된 유방 생검 이미지이며,
상기 증강한 데이터세트는,
상기 유방 생검 이미지에 대해서 무작위 크로핑, 회전, 해석 또는 이들의 조합을 포함한 복수의 입력 이미지인 것을 특징으로 하는 유방암 조직학 이미지 분류 장치.
청구항 7에 있어서,
상기 유방암 조직학 이미지 분류 장치는,
상기 원본 이미지에 얼룩 정규화의 전처리 방식을 적용하여 공통 공간으로 변환하고 분산을 줄이는 전처리 단계;를 더 포함하는 것을 특징으로 하는 유방암 조직학 이미지 분류 장치.
삭제
청구항 7에 있어서,
상기 해상도별 DCNN 모델은,
Inception-ResNet-v2 모델이며,
상기 Inception-ResNet-v2 모델은,
600x600, 450x450 및 300x300의 해상도별 입력 이미지 중 하나로 트레이닝되는 것을 특징으로 하는 유방암 조직학 이미지 분류 장치.
청구항 7에 있어서,
상기 유방암 조직학 이미지 분류 장치는,
상기 해상도별 DCNN 모델과 상기 결합 모델을 사용하여, 이미지 제공 장치로부터 입력받은 분류 대상의 원본 이미지로부터 유방암 타입을 분류하는 분류 모듈;을 더 포함하는 것을 특징으로 하는 유방암 조직학 이미지 분류 장치.
청구항 11에 있어서,
상기 분류 모듈은,
암종 및 비 암종의 2가지 그룹과 정상 조직, 양성 병변, 계내 암종 및 침습성 암종의 4가지 클래스로 유방암 타입을 분류하는 것을 특징으로 하는 유방암 조직학 이미지 분류 장치.