KR101913952B1 - V-CNN 접근을 통한 iPSC 집락 자동 인식 방법 - Google Patents

V-CNN 접근을 통한 iPSC 집락 자동 인식 방법 Download PDF

Info

Publication number
KR101913952B1
KR101913952B1 KR1020170087694A KR20170087694A KR101913952B1 KR 101913952 B1 KR101913952 B1 KR 101913952B1 KR 1020170087694 A KR1020170087694 A KR 1020170087694A KR 20170087694 A KR20170087694 A KR 20170087694A KR 101913952 B1 KR101913952 B1 KR 101913952B1
Authority
KR
South Korea
Prior art keywords
feature
ipsc
cnn
features
quality
Prior art date
Application number
KR1020170087694A
Other languages
English (en)
Inventor
안병철
쿠리타 타키오
진성일
카비타 무투스바쉬
박순용
Original Assignee
경북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경북대학교 산학협력단 filed Critical 경북대학교 산학협력단
Priority to KR1020170087694A priority Critical patent/KR101913952B1/ko
Application granted granted Critical
Publication of KR101913952B1 publication Critical patent/KR101913952B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • G06K9/629
    • G06K9/00885
    • G06K9/40
    • G06K9/481
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • G06N3/0427
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • G06T5/002
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 iPSC 집락의 형태학적 및 조직적 특징부를 이용하여 V-CNN 모델과 이미지 분석 방법을 인터페이싱하는 자동 시스템을 구현한 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법에 관한 것으로, iPSC(induced Pluripotent Stem Cell)을 배양시켜 생성된 iPSC 집락(colony)의 이미지 데이터를 획득하는 단계; 상기 iPSC 집락의 이미지 데이터를 통해 상기 iPSC 집락을 세분화하는 단계; 세분화된 상기 iPSC 집락의 특징부를 측정하는 단계; 및 측정된 상기 특징부로 벡터 기반 CNN(Vactor-Based Convolutional Neural Network)을 이용하여 상기 iPSC 집락의 품질을 분류하는 단계를 포함한다.

Description

V-CNN 접근을 통한 iPSC 집락 자동 인식 방법{Automatic Recognition Method of iPSC Colony through V-CNN Approach}
본 발명은 V-CNN(Vector-Based Convolutional Neural Network) 접근을 통한 iPSC(induced Pluripotent Stem Cells) 집락(Colony) 자동 인식 방법에 관한 것으로, 더욱 상세하게는 iPSC 집락의 형태학적 및 조직적 특징부를 이용하여 V-CNN 모델과 이미지 분석 방법을 인터페이싱하는 자동 시스템을 구현한 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법에 관한 것이다.
다능성 줄기 세포는, 질병 진행을 연구하기 위한 모델로서 임상 응용분야에 잠재적으로 사용될 수 있다. 이러한 세포에서의 질병 유발 이벤트를 추적하려면 줄기 세포의 품질을 지속적으로 평가해야 한다. 기존의 접근법은 줄기 세포 집락의 강하고 자동화된 분화에 부적합하다.
리프로그래밍된 성인세포로부터 생성된 유도된 다능성 줄기 세포(iPSCs)는, 약물발견 및 임상적 응용분야에 필요한 임의의 유형의 인간 세포의 무제한적인 공급원을 개발할 수 있게 한다. iPSC는, 세포에서 가장 초기의 질병 유발 이벤트를 추적하는 데 도움을 줄 수 있으며, 다양한 세포 기반 치료법의 소스로서 사용될 수 있다.
미분화된(undifferentiated) iPSCs의 건강한 품질은 추가적인 실험적 및 치료적 접근법을 위한 필수 요건이기 때문에, 증가하는 요구 사항을 충족시키기 위해서는 iPSC 품질의 빠르고도 강력한 평가가 매우 중요하다.
건강한 또는 양호한 품질의 iPSC 집락의 형태학적 구조는 일반적으로 둥근 세포와 명확한 경계를 단단히 압축한 반면, 건강하지 않은 또는 불량한 품질의 집락은 다른 형태를 나타낸다. 집락 형태에 기초하여 iPSC의 품질을 평가하는 접근법은, 주로 주관적이며, 개인의 기술에 따라 크게 다를 수 있다.
따라서, 분류 오류를 줄이기 위해서는 집락 품질의 빠르고도 정확한 세분화 및 추정을 위한 정량적 시스템이 필수적이다. 또한, 형광 라벨링 또는 다른 화학 시약의 사용을 제거하면, 추가 연구 실험을 위해 iPSC를 준비하는 데 도움이 된다.
한국등록특허 제10-1743270호(2017.05.29.)는 다수의 플랑크톤이 응집 혹은 산재해 있는 현미경 영상에서 딥러닝을 이용하여 개개의 플랑크톤을 분리 및 인식하는 방법에 관하여 기재되어 있는데, 다수의 플랑크톤이 응집 혹은 산재된 현미경 영상으로부터 개개의 플랑크톤의 위치를 검출함으로써 개개의 플랑크톤을 분리하고 분리된 플랑크톤의 종류를 인식하기 위해 CNN(Convolutional Neural Network)을 구성하는 단계; 상기 CNN의 입력단에 플랑크톤이 촬영된 입력 영상을 인가한 다음, CNN의 출력단으로부터 출력되는 플랑크톤의 종류 및 입력 영상 내 플랑크톤의 위치 파악 결과와 CNN의 출력단으로부터 출력되기를 원하는 입력 영상 내 플랑크톤의 실제 종류와 입력 영상 내 플랑크톤의 실제 위치 좌표가 저장된 출력 기대값과의 차이가 최소가 되도록 CNN의 출력단으로부터 출력되는 플랑크톤의 종류 및 입력 영상 내 플랑크톤의 위치 파악 결과와 출력 기댓값 사이의 오차를 조정하는 CNN의 변수값인 가중치(Weight)를 조정함으로써 CNN을 학습시키는 단계; CNN에 다수의 플랑크톤이 응집해 있거나 산재해 있는 촬영 영상을 입력시키는 단계; 및 상기 CNN으로 영상 내 플랑크톤의 위치와 플랑크톤에 대한 종류를 인식한 다음, 입력 영상 내 플랑크톤의 위치를 사각 박스 형태로 표시하고 사각 박스 위에 인식된 플랑크톤의 종류를 기재하여 출력 영상으로 내보내는 단계로 이루어지는 다수의 플랑크톤이 응집 혹은 산재해 있는 현미경 영상에서 딥러닝을 이용하여 개개 플랑크톤을 분리 및 인식하는 것을 특징으로 한다. 기재된 기술에 의하면, 다수의 플랑크톤이 응집되어 있거나 산재 된 입력 영상에서 개개의 플랑크톤의 위치를 파악함과 더불어 개개의 플랑크톤 종류를 인식할 수 있으므로 해당 입력 영상이 촬영된 해양 또는 담수의 건강 상태를 정확하게 판단할 수 있다.
한국공개특허 제10-2016-0144467호(2016.12.16.)는 컨볼루션 신경망을 트레이닝 하는 동안 완전히-연결된 레이어들과는 다르게 컨볼루션 레이어들을 병렬화함으로써, 이들 2 종류의 레이어들의 서로 다른 구조를 레버리징(leveraging)하는 것에 의해 네트워크가 효율적으로 그리고 빠르게 트레이닝 될 수 있는 컨볼루션 신경망들의 트레이닝을 병렬화에 관하여 기재되어 있는데, 기재된 기술에 의하면, 트레이닝 예들(training examples)의 복수의 배치들(batches)을 통해 컨볼루션 신경망(convolution neural network)을 트레이닝 하는 시스템으로서, 상기 컨볼루션 신경망은 가장 낮은 것으로부터 가장 높은 것으로의 시퀀스(sequence)로 배열된 복수의 레이어들(layers)을 가지며, 상기 시퀀스는 하나 이상의 컨볼루션 레이어들(convolutional layers)과 이에 후속되는 하나 이상의 완전히-연결된 레이어들(fully-connected layers)을 포함하며, 각 컨볼루션 레이어와 각 완전히-연결된 레이어는 각각의 복수의 노드들(nodes)을 포함하며, 상기 시스템은: 복수의 워커(worker)들과, 상기 복수의 워커들 각각은 상기 컨볼루션 레이어들 각각의 각각의 레플리카(replica) 및 상기 완전히-연결된 레이어들 각각의 디스조인트 파티션(disjoint partition)을 유지하도록 구성되며, 컨볼루션 레이어의 각 레플리카는 상기 컨볼루션 레이어의 상기 노드들의 전부를 포함하며, 완전히-연결된 레이어의 각 디스조인트 파티션은 상기 완전히-연결된 레이어의 상기 노드들의 일부를 포함하며, 그리고 상기 복수의 워커들 각각은 동작들을 수행하도록 구성되며, 상기 동작들은: 상기 워커에게 배정된 트레이닝 예들의 배치를 수신하는 동작과, 상기 트레이닝 예들의 배치들은 각 워커가 상기 복수의 배치들의 각각의 배치를 수신하도록 배정되며; 상기 워커에게 배정된 상기 트레이닝 예들의 배치를 통해 상기 워커에 의해 유지되는 상기 컨볼루션 레이어 레플리카를 트레이닝 하는 동작과; 그리고 상기 트레이닝 예들의 복수의 배치들의 각각을 통해 상기 워커에 의해 유지되는 상기 완전히-연결된 레이어 파티션들을 트레이닝 하는 동작을 포함하는 것을 특징으로 한다.
상술한 바와 같은 종래의 위상 콘트라스트 이미징을 위한 줄기 세포 집락의 자동화된 세분화 시스템은, 구현이 어렵고, 할로 아티팩트 및 피더 세포와 집락 에지의 중첩의 문제점들을 처리하는 특별화된 알고리즘을 필요로 한다는 문제점을 가지고 있다.
또한, 줄기 세포 집락 선택을 달성하기 위해 현재 이용 가능한 이미지 분석 기술은, 형태학적 조작, 임계치화, 및 분수령 변환에 기초로 하는데, 이러한 기술들의 조합은 개별적인 각 연구에서 집락의 상태를 조사하도록 설계되었다. 대안으로, 다른 접근법들은, 기본적으로 필터링, 자동 임계치화, 줄기 세포 세분화 및 추적을 위한 보로노이(Voronoi) 알고리즘을 사용하는 상용 소프트웨어 도구를 채택하였는데, 이 또한, 상용 프로그램에 기초하는 집락의 형태학적 분류는 특징부 측정을 위한 집락 영역을 위치 파악하도록 수동 해석을 필요로 한다는 문제점을 가지고 있다.
결과적으로, 상술한 이미지 분석 기술들은, 각각의 문제에 있어서 상당히 특정되어 있으며 파라미터 설정에 엄격히 의존하기 때문에, 대규모로 줄기 세포 이질성 간의 변형을 조작하는 제어력이 부족하다는 문제점을 가지고 있다.
한국등록특허 제10-1743270호 한국공개특허 제10-2016-0144467호
본 발명의 일측면은 특징 벡터 기반 컨볼루셔널 신경망(V-CNN)을 통해 세분화된 집락의 형태학적 및 조직적 특징부들 중에서 집락 품질 인식을 효율적으로 수행하고, 정확한 교차 검증 프로세스를 사용하여 집락 품질 인식의 유망한 결과를 확인할 수 있는 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법을 제공한다.
본 발명의 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따른 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법는, iPSC(induced Pluripotent Stem Cell)을 배양시켜 생성된 iPSC 집락(colony)의 이미지 데이터를 획득하는 단계; 상기 iPSC 집락의 이미지 데이터를 통해 상기 iPSC 집락을 세분화하는 단계; 세분화된 상기 iPSC 집락의 특징부를 측정하는 단계; 및 측정된 상기 특징부로 벡터 기반 CNN(Vactor-Based Convolutional Neural Network)을 이용하여 상기 iPSC 집락의 품질을 분류하는 단계를 포함한다.
일 실시 예에서, 상기 iPSC 집락을 세분화하는 단계는, 중앙 필터링(Median Filter)을 통해 상기 iPSC 집락의 이미지 데이터를 전처리 하는 단계; 전처리된 상기 iPSC 집락의 이미지 데이터의 노이즈를 제거하는 단계; 및 구성요소 라벨링을 통해 상기 iPSC 집락의 이미지 데이터만을 노이즈로부터 분리하는 단계를 포함할 수 있다.
일 실시 예에서, 상기 노이즈를 제거하는 단계는, 반복적 다중 임계치화 알고리즘을 통해 전처리 된 상기 iPSC 집락의 이미지 데이터의 이미지 픽셀들을 전경과 배경으로 분리하여 이진 이미지를 생성하는 단계; 및 형태학적 개폐 동작을 통해 상기 이진 이미지의 품질을 향상시키는 단계를 포함할 수 있다.
일 실시 예에서, 상기 특징부를 측정하는 단계는, 세분화된 상기 iPSC 집락의 특징부를 추출하는 단계; 및 상기 특징부 중에서 상기 iPSC 집락의 품질 인식과의 관련성이 높은 특징부를 선택하는 단계를 포함할 수 있다.
일 실시 예에서, 상기 품질 인식과의 관련성이 높은 특징부를 선택하는 단계는, 피셔(Fisher) 점수 분석을 통해 상기 특징부 중에서 상기 iPSC 집락의 품질 인식과의 관련성이 없는 특징부를 배제시킬 수 있다.
일 실시 예에서, 상기 피셔(Fisher) 점수 분석은, 특징부 세트 중에서 클래스 내 거리(within-class distance)가 최소화되고, 클래스 간 거리(between-class distance)가 최대화되는 특징부를 선택하여 분석할 수 있다.
일 실시 예에서, 상기 특징부 세트는, 형태학적 특징부의 특징부 세트 또는 조직적 특징부의 특징부 세트를 사용할 수 있다.
일 실시 예에서, 상기 형태학적 특징부의 특징부 세트는, 중심(Cen), 면적(Are), 이심률(Ecc), 둘레(Per), 배향(Ori), 장축(Maj), 단축(Min), 등가 직경(Dia), 솔리디티(Sol) 및 범위(Ext)를 지정할 수 있다.
일 실시 예에서, 상기 피셔(Fisher) 점수 분석은, 지정된 상기 형태학적 특징부의 특징부 세트 중에서 장축, 단축, 등가 직경, 솔리디티 및 범위를 관련성이 높은 특징부로서 선택할 수 있다.
일 실시 예에서, 상기 조직적 특징부의 특징부 세트은, 분산 차(D_V), 균질성(Hom), 에너지(Ene), 엔트로피 차(D_E), 콘트라스트(Con), 상관(Cor), 상관_1의 정보 측정(Inf_1), 합 평균(S_A), 상관_2의 정보 측정(Inf_2), 합 엔트로피(S_E), 엔트로피(Ent), 합 분산(S_V), 분산(Var)를 지정할 수 있다.
일 실시 예에서, 상기 피셔(Fisher) 점수 분석은, 지정된 상기 조직적 특징부의 특징부 세트 중에서 합 평균, 상관_2의 정보 측정, 합 엔트로피, 엔트로피, 합 분산 및 분산을 관련성이 높은 특징부로서 선택할 수 있다.
일 실시 예에서, 상기 특징부 세트는, 형태학적 특징부 및 조직적 특징부가 결합된 결합형 특징부를 추가로 사용할 수 있다.
일 실시 예에서, 상기 iPSC 집락의 품질을 분류하는 단계는, CNN 모델 조직의 전면에 있는 가상 이미지에 특징 벡터로부터의 전달 함수를 추가하는 단계; 상기 전달 함수를 적용하여 특징부 맵을 생성하는 단계; 맥스 풀링(max-pooling)을 통해 상기 특징부 맵을 서브 샘플링 하는 단계; 서브 샘플링된 상기 특징부 맵으로 다수 개 층으로 이루어진 완전히 연결된 단일 차원 특징부를 생성하는 단계; 및 상기 단일 차원 특징부의 품질을 예측하는 단계를 포함할 수 있다.
일 실시 예에서, 상기 전달 함수를 추가하는 단계는, 상기 전달 함수로서 정류된 선형 유닛(ReLU)을 적용할 수 있다.
일 실시 예에서, 상기 품질을 예측하는 단계는, 형태학적 특징부, 조직적 특징부 또는 결합형 특징부를 사용하여 상기 iPSC 집락의 품질을 분류할 수 있다.
상술한 본 발명의 일측면에 따르면, 집락 품질의 입력 특징부 벡터 분류를 위한 최초 구현된 것으로서, 많은 연산 자원을 필요로 하지 않으며, 구조적 복잡성 및 연산 복잡성을 감소시킴으로써, 실시간 분류 시스템에서 가치 있는 추적 기술을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법의 개략적인 순서도이다.
도 2는 도 1에 있는 iPSC 집락을 세분화하는 단계를 설명하는 순서도이다.
도 3은 도 2에 있는 노이즈를 제거하는 단계를 설명하는 순서도이다.
도 4는 도 1에 있는 특징부 벡터를 측정하는 단계를 설명하는 순서도이다.
도 5는 도 1에 있는 iPSC 집락의 품질을 분류하는 단계를 설명하는 순서도이다.
도 6은 본 발명의 일 실시예에 따른 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법의 개략적인 블록도이다.
도 7은 세분화된 유도된 다능성 줄기 세포 집락이 건강할 경우의 이미지이다.
도 8은 세분화된 유도된 다능성 줄기 세포 집락이 건강하지 못할 경우의 이미지이다.
도 9는 각 특징부에 지정된 피셔 점수를 나타낸 그래프이다.
도 10은 유도된 다능성 줄기 세포 집락 품질의 인식을 위한 V-CNN 아키텍처를 설명한 그림이다.
도 11은 기초하는 건강 집락 그룹과 비건강 집락 그룹 간의 값들의 범위 비교한 그래프이다.
도 12는 형태학적 특징부의 수신기 동작 특성 곡선이다.
도 13은 조직적 특징부의 수신기 동작 특성 곡선이다.
도 14는 정확도와 손실에 대한 V-CNN 모델의 성능을 나타낸 그래프이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법의 개략적인 순서도이다.
구체적으로, 본 발명의 일 실시예에 따른 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법은, 먼저 iPSC(induced Pluripotent Stem Cell)을 배양시켜 생성된 iPSC 집락(colony)의 이미지 데이터를 획득한다(S100).
상술한 이미지 데이터의 획득을 위해, 비활성 쥐 배아 섬유 아세포(MEF) 피더 세포를 젤라틴 코팅된 조직 배양 접시 위에 파종한 후, 배아 줄기 세포 배지에서 37℃, 3%
Figure 112017066110411-pat00001
하에서 iPSC를 MEF 피더와 함께 배양하였다. iPSC의 계대 배양을 위해, 콜라게나제를 첨가하여 판에서 집락을 분리하였다. 수확된 집락을 분말화하여 중간 크기의 작은 단편을 생성한 다음, 이러한 단편을 MEF 피더와 함께 새로운 판 상에 파종했다.
모든 이미지 데이터는, 1360×1024 픽셀의 해상도로 자동 Z-초점을 이용하는 BioStation CT 시스템의 위상 콘트라스트 현미경의 100배 대물렌즈로 준비되었으며, 본 발명에서 사용된 줄기 세포는 염색되지 않거나 유전자 변형되지 않아 세포의 비침습적 분석을 가능하게 했다.
상술한 단계 S100에서 iPSC 집락의 이미지 데이터를 획득한 경우, iPSC 집락의 이미지 데이터를 통해 iPSC 집락을 세분화하는 한다(S200).
본 발명은, 심층 학습 아키텍처에 의한 집락 분류에 사용하기 위한 형태학적 및 조직적 특징부들을 연산하도록 집락을 세분화하기 위한 V-CNN 모델과 이미지 분석 방법을 인터페이싱하는 것을 특징으로 한다.
집락의 분류 전에 집락 영역의 강력한 세분화는, 다능성 자동화에 유리하나, 피더 세포가 포함된 집락 영역의 연산된 세분화는 줄기 세포 특성의 후속 측정에 있어서 더욱 어려워지는 바, 본 발명에서는 집락 이미지 전체를 집락 영역의 세분화에 사용하였다.
상술한 단계 S200에서 iPSC 집락을 세분화한 경우, 세분화된 iPSC 집락의 특징부를 측정한다(S300).
본 발명에서 이용된 CNN은 이미지 인식 및 분류에 있어서 성공적으로 구현된 신경망의 한 분야이다(Ferrari A, Lombardi S, Signoroni A. Bacterial colony counting by convolutional neural networks. Proceedings of the 37thAnnual International Conference of Engineering in Medicine and Biology Society. 2015:7458-7461). CNN은, 다양한 의료용 이미징 세분화에 적용되어 왔지만, 이전에는 집락 품질에 대한 특징 벡터 기반 분류의 입력에 사용되지 않았다.
상술한 단계 S300에서 iPSC 집락의 특징부를 측정한 경우, 측정된 특징부로 벡터 기반 CNN(Vactor-Based Convolutional Neural Network)을 이용하여 iPSC 집락의 품질을 분류한다(S400).
상술한 바와 같은 단계를 가지는 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법은, iPSC 집락의 형태학적 또는 조직적 특징부를 이용하여 위상 콘트라스트 현미경 이미지의 세분화 및 분류를 위한 V-CNN 모델과 이미지 분석 방법을 인터페이싱하는 새로운 자동 시스템을 제공할 수 있다.
상술한 바와 같은 단계를 가지는 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법은, 집락 형태의 배치 기반 특징 벡터들을 실행하는 심층 V-CNN에 관한 것으로, 연산 복잡성을 감소시키며, 집락들을 구별하는 데 있어서 95.5%의 정확도를 갖는 안정된 분류 성능을 제공할 수 있을 뿐만 아니라, 기존의 SVM 모델의 경우 75.2%의 정확도를 제공하는 데 반하여, 형태학적 특징부들에 기초하여 평가된 바와 같은 V-CNN 분류자의 교차 검증된 보다 높은 정확도(92.4%)를 제공할 수 있다.
상술한 바와 같은 단계를 가지는 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법은, V-CNN 모델과 이미지 처리 방법을 인터페이싱하는 새롭게 고안된 본 프레임워크로서, iPSC 집락 품질을 결정하는 데 고무적인 결과를 제공할 수 있다. CNN은 현미경적 세포 이미지 세분화를 위해 이전에도 적용되었지만, 본 발명은 집락 품질의 입력 특징부 벡터 분류를 위한 최초 구현된 것으로, 실험적으로 테스트되었으며 최적의 모델로서 교차 검증되었을 뿐만 아니라, 많은 연산 자원을 필요로 하지 않으며, 구조적 복잡성 및 연산 복잡성을 감소시키므로, 실시간 분류 시스템에서 가치 있는 추적 기술로서 구현될 수 있다.
도 2는 도 1에 있는 iPSC 집락을 세분화하는 단계를 설명하는 순서도이다.
도 2를 참조하면, iPSC 집락을 세분화하는 단계(S200)는, 우선 중앙 필터링(Median Filter)을 통해 iPSC 집락의 이미지 데이터를 전처리한다(S210).
일 실시 예에서, iPSC 집락의 이미지 데이터를 전처리 단계(S210)는, 본 단계 시작 시, 중앙 필터링을 전처리 단계로 사용함으로써, 백그라운드 노이즈를 줄일 뿐만 아니라, 또한 줄기 세포 영역의 에지를 보존하도록 할 수 있다.
일 실시 예에서, 중앙 필터링을 전처리는, 윈도우의 중심 값을 인접하는 모든 픽셀 값들의 중간 값으로 대체하여 원래의 이미지 오브젝트에 대하여 기능하며, 원래의 이미지에 9×9 픽셀의 중앙 마스크 크기 값을 적용함으로써 수행될 수 있다.
상술한 단계 S210에서 iPSC 집락의 이미지 데이터를 전처리한 경우, 전처리된 iPSC 집락의 이미지 데이터의 노이즈를 제거한다(S220).
상술한 단계 S220에서 iPSC 집락의 이미지 데이터의 노이즈를 제거한 경우, 구성요소 라벨링을 통해 iPSC 집락의 이미지 데이터만을 노이즈로부터 분리한다(S230).
일 실시 예에서, 상술한 단계 S230에서는, 결과적으로 세분화된 집락 영역은, 8-이웃 연결성으로 연결된 구성요소 라벨링에 의한 추가 정량적 특징부 측정을 위해 평가되었다. 이 방법은 일반적으로 동일한 강도 값들의 집합을 공유하는 인접하는 픽셀들을 추정하는 데 사용된다. 건강한 집락의 이미지와 건강하지 못한 집락의 이미지 세분화 결과는 각각 도 7과 도 8에 도시되어 있다.
도 7의 경우, 세분화된 유도된 다능성 줄기 세포 집락의 건강 이미지에 대한 정략적 특징부를 측정한 것으로, (A) 원래 이미지, (B) 반복적 임계치화, (C) 크기 필터에 의한 형태학적 연산, 및 (D) 라벨링을 한 이미지다.
도 8의 경우, 세분화된 유도된 다능성 줄기 세포 집락의 비건강 이미지에 대한 정량적 특징부를 측정한 것으로, (A) 원래 이미지, (B) 반복적 임계치화, (C) 크기 필터에 의한 형태학적 연산, 및 (D) 라벨링을 한 이미지이다.
도 3은 도 2에 있는 노이즈를 제거하는 단계를 설명하는 순서도이다.
도 3을 참조하면, 노이즈를 제거하는 단계(S220)는, 먼저 반복적 다중 임계치화 알고리즘을 통해 전처리된 iPSC 집락의 이미지 데이터의 이미지 픽셀들을 전경과 배경으로 분리하여 이진 이미지를 생성한다(S221).
상술한 단계 S221에서, 임계값 추정은, 픽셀 값의 클래스 간 분산의 최대화에 의존한다. 이는 임계값을 반복적으로 추정하고 두 개의 최적의 임계값을 반환한다. 다중 임계치화 알고리즘의 반복은, 오류가 작아지거나 임계값이 더 이상 변하지 않을 때까지 계속된다. 임계값
Figure 112017066110411-pat00002
Figure 112017066110411-pat00003
를 각각 I/3과 2I/3으로서 초기화하였으며, 여기서, I는 이미지의 강도 범위를 나타낸다.
임계값이
Figure 112017066110411-pat00004
Figure 112017066110411-pat00005
일 때, 오류 함수(
Figure 112017066110411-pat00006
,
Figure 112017066110411-pat00007
)는 수학식 1 및 2와 같이 표현된다.
Figure 112017066110411-pat00008
Figure 112017066110411-pat00009
수학식 1 및 2에서,
Figure 112017066110411-pat00010
은 수학식 3과 같다.
Figure 112017066110411-pat00011
수학식 3에서,
Figure 112017066110411-pat00012
는 이미지 히스토그램을 나타낸다. 임계값
Figure 112017066110411-pat00013
Figure 112017066110411-pat00014
를 갱신하여 오류
Figure 112017066110411-pat00015
Figure 112017066110411-pat00016
를 각각 제로를 향하게 하였다. 갱신된 임계값(
Figure 112017066110411-pat00017
,
Figure 112017066110411-pat00018
)들은 수학식 4 또는 5와 같이 표현된다.
Figure 112017066110411-pat00019
Figure 112017066110411-pat00020
상술한 단계 S221에서 이진 이미지를 생성한 경우, 형태학적 개폐 동작을 통해 상술한 결과로 생성된 이진 이미지의 품질을 향상시킨다(S222).
상술한 단계 S222에서 이진 이미지는, 반경이 2인 디스크 형상의 구조 요소를 사용하여 폐쇄되고 거리 19인 다이아몬드 형상의 구조 요소를 사용하여 개방하였다. 이어서, 그 결과로 연결된 구성요소들이 채워지며, 오브젝트의 윤곽이 형태학적 침식 및 홀 필링(hole-filling) 동작에 의해 평활화되었다. 또한, 사용자 지정 임계값보다 작은 집락 영역 주변의 원치 않는 세포는, 크기 필터링 방법을 사용하여 제거되었다. 결과적으로, 9000픽셀의 크기가 집락 영역을 둘러싸는 다른 영역을 제거하는 데 적합하다는 것을 발견하였다.
도 4는 도 1에 있는 특징부 벡터를 측정하는 단계를 설명하는 순서도이다.
도 4를 참조하면, 특징부 벡터를 측정하는 단계(S300)는, 먼저 세분화된 iPSC 집락의 특징부를 추출한다(S310).
상술한 단계 S310에서 세분화된 iPSC 집락의 특징부를 추출한 경우, 특징부 중에서 iPSC 집락의 품질 인식과의 관련성이 높은 특징부를 선택한다(S320).
상술한 단계 S320에서의 관련성이 높은 특징부 선택은, 피셔(Fisher) 점수 분석을 통해 특징부 중에서 iPSC 집락의 품질 인식과의 관련성이 없는 특징부를 배제시킴으로써 가장 관련성이 높은 특징부들을 결정함으로써 수행될 수 있다.
일 실시 예에서, 피셔 점수는, 특징부 세트(도 9)의 각 특징부에 대해 자동으로 계산되어, 특징부 세트 중에서 클래스 내 거리(within-class distance)가 최소화되고, 클래스 간 거리(between-class distance)가 최대화되는 특징부를 선택하는 데 사용될 수 있다.
특히, 선택된 f개의 특징부가 주어진 경우, 입력 데이터 매트릭스
Figure 112017066110411-pat00021
Figure 112017066110411-pat00022
로 감소된다. 따라서, 피셔 점수(
Figure 112017066110411-pat00023
)는 수학식 6과 같이 표현된다.
Figure 112017066110411-pat00024
여기서, "a", “m” 및 “n”은, 입력 데이터 매트릭스의 행렬을 구성하는 행 또는 열의 개수를 나타내는 자연수로서, "a"는 “b"와 함께 q층 또는 q-1층에서의 특징부 맵의 순차를 의미하는 “m”보다 큰 자연수이다.
수학식 6에서,
Figure 112018069899734-pat00025
Figure 112018069899734-pat00026
는 수학식 7과 같이 정의된다.
Figure 112017066110411-pat00027
수학식 7에서,
Figure 112017066110411-pat00028
Figure 112017066110411-pat00029
는, 각각 감소된 데이터 공간인 Q에 있어서 k번째 클래스의 평균 벡터 및 크기이며,
Figure 112017066110411-pat00030
는 감소된 데이터의 전체 평균 벡터이다.
이때, 특징부 세트는, 형태학적 특징부의 특징부 세트 또는 조직적 특징부의 특징부 세트를 사용할 수 있다.
본 발명에서, 형태학적 특징부의 특징부 세트는, 중심(Cen), 면적(Are), 이심률(Ecc), 둘레(Per), 배향(Ori), 장축(Maj), 단축(Min), 등가 직경(Dia), 솔리디티(Sol) 및 범위(Ext)를 지정되며, 조직적 특징부의 특징부 세트은, 분산 차(D_V), 균질성(Hom), 에너지(Ene), 엔트로피 차(D_E), 콘트라스트(Con), 상관(Cor), 상관_1의 정보 측정(Inf_1), 합 평균(S_A), 상관_2의 정보 측정(Inf_2), 합 엔트로피(S_E), 엔트로피(Ent), 합 분산(S_V), 분산(Var)를 지정되었다.
도 9에서, (A)는 형태학적 특징부 세트의 피셔 점수를, (B)는 조직적 특징부 세트의 피셔 점수를 나타내는데, Cen는 중심, Are는 면적, Ecc는 이심률, Per는 둘레, Ori는 배향, Maj는 장축, Min는 단축, Dia는 등가 직경, Sol는 솔리디티, Ext는 범위, D_V는 분산 차, Hom는 균질성, Ene는 에너지, D_E는 엔트로피 차, Con는 콘트라스트, Cor는 상관, Inf_1는 상관_1의 정보 측정, S_A는 합 평균, Inf_2는 상관_2의 정보 측정, S_E는 합 엔트로피, Ent는 엔트로피, S_V는 합 분산, Var는 분산을 의미한다.
피셔 점수에 의해 결정된 집락의 형태학적 또는 조직적 가장 관련성이 높은 특징부들은 iPSC 집락 품질의 분류에 관여되었다. 피셔 점수에 기초하여, 가장 점수가 낮은 특징부들은 본 발명에서 품질 평가에 고려되지 않았다. 품질을 구별하기 위한 집락의 형태학적 또는 조직적 각 특징부의 피셔 점수는 각각 표 2와 표 3에 제시되어 있는데, 특정 임계값(예를 들어, 0.450)보다 높은 피셔 점수를 갖는 특징부들만은 유지된 반면, 분류자에 대한 구별 효과가 낮은 특징부들은 제거되었다.
일 실시 예에서, 지정된 형태학적 특징부의 특징부 세트 중에서 장축, 단축, 등가 직경, 솔리디티 및 범위를 관련성이 높은 특징부로서 선택되었으며, 지정된 상기 조직적 특징부의 특징부 세트 중에서 합 평균, 상관_2의 정보 측정, 합 엔트로피, 엔트로피, 합 분산 및 분산이 관련성이 높은 특징부로서 선택되어 피셔(Fisher) 점수 분석에 적용되었다. 이때, 개별적인 각 관련성이 높은 특징부의 성능 검증이 표 1에 나타나 있다.
Figure 112017066110411-pat00031
표 1에서, AUC는 도 12 또는 도 13에서의 곡선 아래의 면적, SE는 대응하는 표준 오류, 및 CI는 95%의 신뢰 구간을 나타낸다.
일 실시 예에서, 피셔(Fisher) 점수 분석을 위한 특징부 세트는, 형태학적 특징부 및 조직적 특징부가 결합된 결합형 특징부의 특징부 세트를 추가로 사용할 수 있다.
건강 집락에 대한 이러한 특징부들의 값의 범위는 비건강 집락에 대한 특징부들의 값의 범위보다 높았으며, 이는 도 11에 도시되어 있다.
iPSC 집락들을 구별하는 각각의 개별적인 형태학적 및 조직적 특징부들의 잠재력을, 리시버 작동 특성 곡선 분석(NCSS 11 통계 소프트웨어, Kaysville, UT, USA)을 사용하여 곡선 아래의 면적(AUC)으로부터 조사하였다. 집락들의 구별에 있어서(AUC 값을 통해 추정되는) 각 형태학적 또는 조직적 특징부들의 성능은 상술한 표 1에 요약되어 있다. 형태학적 특징부들 중, 솔리디티는, AUC 값이 0.878±0.03이고 신뢰 구간(CI)이 0.747-0.933으로 나머지 특징부들을 능가하였다(도 12). 조직들 중에서, 분산(AUC=0.859±0.03, CI=0.741-0.926)은 집락들의 구별에 있어서 합 엔트로피와 합 분산을 약간 능가하였다(도 13).
도 5는 도 1에 있는 iPSC 집락의 품질을 분류하는 단계를 설명하는 순서도이다.
도 5를 참조하면, iPSC 집락의 품질을 분류하는 단계(S400)는, 먼저 CNN 모델 조직의 전면에 있는 가상 이미지에 특징 벡터로부터의 전달 함수를 추가한다(S410).
CNN은, 이미지 인식 및 분류에 있어서 성공적으로 구현된 신경망의 한 분야로서, 다양한 의료용 이미징 세분화에 적용되어 왔지만, 지금까지는 집락 품질에 대한 특징 벡터 기반 분류의 입력에 사용되지 않았다. 본 발명에서는, 세분화된 집락으로부터 취득된 집락 형태와 조직의 선택된 특징부들을 분류 작업이 집락 품질을 식별하도록 V-CNN 모델에 입력하였다.
그러나, 입력 특징 벡터들은, 기존의 전형적인 CNN에 직접 입력될 수 없는 바, 상술한 단계 S410에서는, CNN 모델 조직의 전면에 있는 가상 이미지에 특징 벡터로부터의 전달 함수를 추가하였다. 또한, 매핑 기능의 파라미터를 트레이닝하여 CNN 프레임워크의 목표 분류 작업을 위한 적절한 전달 함수를 취득하였다.
이후, 분류 작업을 구현하도록 V-CNN의 수학적 프레임워크 및 트레이닝 프로세스를 간략하게 설명하기로 한다.
본 발명에서 사용된 V-CNN 아키텍처는, 도 10에 도시한 것과 같이 컨볼루셔널 전달 함수 및 풀링 층들의 세트를 적층함으로써 구성된다.
컨볼루셔널 층의 주요 기능은, 입력 특징 벡터로부터 특징부의 로컬 연결을 추정하고, 이들의 발생을 특징부 맵에 매핑하는 것이다. 신경망에서의 컨볼루션의 결과로, 특징 벡터들은, 퍼셉트론으로 분할되어, 로컬 유연 필드들을 생성하고 최종적으로 퍼셉트론을
Figure 112017066110411-pat00032
크기의 특징부 맵들로 트램플링(trample)한다. 각 층에는, 입력의 모든 위치에서 특징부를 검출하는 n개 필터들의 뱅크가 있다. 층 q의 출력은
Figure 112017066110411-pat00033
크기의 특징 맵으로 이루어진다. a번째 특징부 맵(
Figure 112017066110411-pat00034
)은, 수학식 8과 같이 연산된다.
Figure 112017066110411-pat00035
수학식 8에서,
Figure 112017066110411-pat00036
는 바이어스 행렬이고,
Figure 112017066110411-pat00037
Figure 112017066110411-pat00038
크기의 필터로서, 층(q-1)의 b번째 특징부 맵을 그 층의 a번째 특징부 맵과 연결한다. 이러한 필터들의 가중치와 해당 값은, 임의의 트레이닝 데이터에서의 분류 오류를 감소시키도록 트레이닝 전체에 걸쳐 변경된다.
상술한 단계 S410에서 가상 이미지에 특징 벡터로부터의 전달 함수를 추가한 경우, 전달 함수를 적용하여 특징부 맵을 생성한다(S420). 이는 분류자가 비선형 결정 경계를 구축하는 데 일조한다.
일 실시 예에서, 특징부 벡터의 전달 함수를 추가하는 단계(S410)는, 활성화 함수의 선택은 트레이닝과 검증 수행 모두의 연산 비용에 큰 영향을 끼치는 바, 전달 함수로서 다른 활성화 함수보다 몇 배 더 빠른 정류된 선형 유닛(ReLU, Rectified Linear Unit)을 적용할 수 있다. 여기서, 전달 함수인 정류된 선형 유닛(ReLU)(
Figure 112017066110411-pat00039
)은 수학식 9와 같이 정의 된다.
Figure 112017066110411-pat00040
상술한 단계 S420에서 특징부 맵을 생성한 경우, 맥스 풀링(max-pooling)을 통해 특징부 맵을 서브 샘플링 한다(S430).
상술한 단계 S430에서, 최대 풀링(max-pooling) 층은, 입력 특징 벡터들을 비중첩 사각형들의 세트로 분할하고, 이러한 각 사각형 특징부 세트의 최댓값을 반환하도록 한다. 또한, 최대 풀링 층은, 망 파라미터들의 입력 크기와 개수를 크게 감소시켜 CNN 오버피팅을 제어하며, 일반적으로 연산 요구 사항과 오버피팅 가능성 모두를 최소화하도록 컨볼루셔널 및 비선형 층들의 여러 단계 후에 구현된다. 최대 풀링 층 q는 두 개의 하이퍼 파라미터, 즉, 필터의 공간 범위
Figure 112017066110411-pat00041
)와 스텝 크기
Figure 112017066110411-pat00042
를 갖는다. 풀링 층은, 크기
Figure 112017066110411-pat00043
의 윈도우를 기술하며, 이 윈도우 내의 데이터를 단일 값으로 최소화한다. 컨볼루셔널 층과 유사하게, 윈도우는 각 동작 후에
Figure 112017066110411-pat00044
위치만큼 이동된다. 데이터의 최소화는, 전체 활성화 볼륨이 공간적으로 감소될 때까지 윈도우의 각 위치에서 반복된다.
본 발명에서는, 스텝 크기 2를 사용하여 2×2 윈도우에서의 최대 풀링을 평가하였다. 이어서, 이러한 동작들의 출력 특징부 맵들은, 동일한 세 개의 동작(컨볼루셔널 층, ReLU 층, 최대 풀링 층)의 다른 라운드에 입력으로서 공급될 수 있다.
상술한 단계 S430에서 특징부 맵을 서브 샘플링 한 경우, 서브 샘플링된 특징부 맵으로 다수 개 층으로 이루어진 완전히 연결된 단일 차원 특징부를 생성한다(S440).
이때, 단일 차원 특징부는, 이전의 다른 층들의 융합으로부터의 활성화 볼륨을 클래스 확률 분포에 매핑하도록 설계되며, q-1을 완전히 연결된 층이라고 할 경우, 해당 층(
Figure 112017066110411-pat00045
)은 수학식 10과 같이 정의된다.
Figure 112018069899734-pat00074
수학식 10에서,
Figure 112017066110411-pat00047
은 수학식 11과 같이 정의된다.
Figure 112017066110411-pat00048
수학식 11에서,
Figure 112017066110411-pat00049
는 가중 파라미터를 나타낸다.
이때, 완전히 연결된 전체 구조의 목적은, 가중 파라미터
Figure 112017066110411-pat00050
를 조정하여, 컨볼루셔널 층, ReLU 층, 및 풀링 층의 조합에 의해 생성된 활성화 맵에서 발견되는 각 클래스의 확률적 우도 표현을 생성하는 것이다. 이러한 두 개의 연산을 반복적으로 구현하여 클래스 점수들의 출력 벡터를 생성하며, 이는 분류 예측을 지원한다. 또한, 비용 함수를 사용하여 분류 오류를 감소시킬 수 있다.
본 발명에서는, 클래스 값으로 자동 변환될 수 있는 0 내지 1 범위의 확률 결과를 생성하기 위해 소프트-최대 비용 함수를 적용하였다. Keras, TensorFlow, NumPy, SciPy. 및 Scikit-learn Python 패키지를 사용하여 Python으로 V-CNN의 트레이닝과 테스트를 구현하였다.
마지막 단계로서 상술한 단계 S440에서 단일 차원 특징부를 생성한 경우, 단일 차원 특징부들의 품질을 예측한다(S450).
상술한 바와 같은 단계를 가지는 iPSC 집락의 품질을 분류하는 단계(S400)는, 분류 성능을 분석하기 위해, 선택된 특징부들을 V-CNN 모델에 삽입하여 iPSC의 건강 및 비건강 집락들을 구별하였다. 특징 벡터들은 CNN 망에 직접 입력될 수 없으므로, CNN 조직의 앞에서 특징 벡터(90×11 = 990)로부터의 전달 함수를 가상 이미지(28 × 28)에 추가한 후, 망의 운영 전반에 걸쳐 3×3의 컨볼루션 커널 크기를 갖는 32개 필터로 구성된 2차원 컨벌루셔널 층들의 스택을 통해 입력하였다.
모델의 트레이닝 프로세스는 입력 특징 벡터들의 라벨링된 데이터 세트를 사용하여 수행되었다. 데이터 세트들을, 트레이닝을 위해 60개로 그리고 제안된 모델을 검증(테스트)하도록 30개로 나누었다. 또한, 트레이닝 데이터를 고정된 배치 크기(10)의 입력 특징 벡터들로 분할하였다. 입력 특징 벡터들의 모든 배치를 20개 에포크(epoch)로 평가하였으며, 이는 트레이닝 절차가 모든 검증 데이터를 통해 20회 실행되었음을 의미한다. V-CNN을, 교차 엔트로피 최소화를 위한 Adam 최적화 도구를 사용하여 0.001의 학습률로 TensorFlow 프레임워크로 트레이닝하였다. 정확도와 손실 값들은 모델의 적합성을 나타내도록 평가되었다.
집락 품질을 분류하기 위한 제안된 V-CNN 모델의 성능을, 형태학적 특징부, 조직적 특징부, 형태학적 및 조직적 결합형 특징부(이하 "결합형 특징부"라고 함)을 사용하여 추정하였다.
V-CNN 모델은, 높은 정밀도와 작은 손실 값으로 표시되는 바와 같이 집락들의 품질을 분류하는 데 있어서 더욱 높은 역량을 가졌는데(도 14). 형태학적, 조직적, 및 결합형 특징부들의 손실 추정 값은 작았으며(각각, 0.209, 0.285 및 0.202), 이는 20회 반복된 최적화 후의 모델의 거동을 의미한다. 또한, V-CNN 모델의 성능을, Scikit-learn 툴킷에서 정규화 파라미터(C=1)을 갖는 방사형 기본 함수 커널을 사용하여 SVM 분류자의 성능과 추가로 비교하였다.
도 14는, 정확도와 손실에 대한 V-CNN 모델의 성능을 나타낸 것으로, 집락 분류에 있어서의 모델의 성능은 (A) 형태학적, (B) 조직적, 및 (C) 결합형 특징부들에 기초하였다.
다양한 특징부 세트들을 기반으로 iPSC 집락들의 품질을 결정할 때의 V-CNN 모델의 성능은 표 2에 제시되어 있다. 집락 품질을 평가할 때의 형태학적 특징부들의 정확도는 조직적 특징부들의 정확도보다 약간 높았다. 또한, V-CNN 모델의 경우, 집락 품질을 결정할 때 형태학적(95.5%), 조직적(91.0%), 및 결합형(93.2 %) 특징부들의 정확도가, SVM 분류자에서 사용된 그러한 특징부들의 정확도(86.7% 83.3%, 83.4%)보다 높았다. 또한, 본 발명의 성능을 검증하기 위해, Precision(정밀도), Recall(리콜), 및 F-measure(F-측정값)을 사용하였다.
여기서, Precision은, 긍정적 예측의 수를 예측된 긍정적 클래스 값의 총 수로 나눈 수를 의미하며, 수학식 12와 같이 정의된다.
Figure 112017066110411-pat00051
Recall은, 긍정적 예측의 수를 테스트 데이터에서의 긍정적 클래스 값의 수로 나눈 수를 의미하며, 수학식 13과 같이 정의된다.
Figure 112017066110411-pat00052
여기서, “c”는, 클래스의 수를 의미한다.
F-measure는, Precision와 Recall의 가중된 고조파 평균을 의미하며, 수학식 14와 같이 정의된다.
Figure 112017066110411-pat00053
수학식 12 내지 14에 있어서, c는 클래스의 수이고, TP, FP 및 FN은 각각 참 긍정적, 거짓 긍정적, 및 거짓 부정적의 수를 나타낸다. TP는, 모델이 i번째 클래스 라벨을 "(건강 집락)"으로서 예측하고 i번째 그라운드 참 클래스 라벨이 마찬가지로 "(건강 집락)"인 경우를 나타낸다. FP는, 모델이 i번째 클래스 라벨을 "(건강 집락)"으로서 예측하지만 i번째 그라운드 참 클래스 라벨이 "(비건강 집락)"인 경우를 나타낸다. FN은, 모델이 i번째 클래스 라벨을 "(비건강 집락)"으로서 예측하지만 i번째 그라운드 참 클래스 라벨이 "(건강 집락)"인 경우를 나타낸다.
Figure 112017066110411-pat00054
표 2는, 형태학적, 조직적, 및 결합형 특징부들에 기초한 집락 분류에 있어서 본 발명의 V-CNN 모델과 SVM 분류자의 성능을 나타낸 표이다.
V-CNN 모델의 Precision, Recall, 및 F-measure은 SVM 분류자의 경우보다 87 내지 93%의 범위에서 상대적으로 높았으므로 거짓 긍정적 및 거짓 부정적이 덜함을 확인할 수 있다(표 2).
또한, 본 발명의 V-CNN 모델의 신뢰성과 일반화를, 데이터세트를 k 개 부분(k=5)으로 분할하는 5배 교차 검증 방법을 사용하여 조사하였다. 분할된 데이터는 폴드로서 표시된다. 이 방법을, 하나의 폴드를 홀드백(hold back)하는 상태로 k-1개 폴드에 대하여 트레이닝하고, 홀드백된 폴드에 대하여 테스트하였다.
이것은, 다른 실험과는 다른 구성을 갖는 트레이닝 및 검증(테스트) 데이터의 다른 개수를 적용하여 별도로 5번 계속 수행되었다. 따라서 데이터세트의 각 폴드에는, 홀드백된 검증 데이터세트로 되는 기회가 주어진다. 분류 성능의 5개의 서로 다른 구성의 평균값을 평가하여 모델의 전체 정확도로서 간주하였다. 다양한 특징부 세트를 기반으로 iPSC 집락들의 품질을 결정할 때의 V-CNN 및 SVM 분류자의 성능을 5배 교차 검증한 실험 결과가 표 3에 제시되어 있다.
V-CNN 모델의 경우에는 5배 교차 검증을 이용한 특징부 세트들의 정확도가 90%를 초과한 반면, SVM 모델에서는 75 내지 77% 범위에 있었다. 유사하게, Precision, Recall, 및 F-measure을 평가할 때 2개의 테스트된 모델의 성능을 5배 교차 검증하면, V-CNN의 경우에는 85 내지 89% 범위의 높은 값을 나타내고, SVM의 경우에는 68 내지 83%의 매우 낮은 값을 나타내었으며, 이는 집락 품질의 결정에 있어서 제안된 V-CNN 접근법의 강력함과 효율성을 나타낸다.
Figure 112017066110411-pat00055
표 3은, 형태학적, 조직적, 및 결합형 특징부들에 기초한 집락 분류 시 본 발명의 V-CNN 모델과 SVM 분류자의 성능의 5배 교차 검증한 결괏값을 나타낸 표이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (15)

  1. iPSC(induced Pluripotent Stem Cell)을 배양시켜 생성된 iPSC 집락(colony)의 이미지 데이터를 획득하는 단계;
    상기 iPSC 집락의 이미지 데이터를 통해 상기 iPSC 집락을 세분화하는 단계;
    세분화된 상기 iPSC 집락의 특징부를 측정하는 단계; 및
    측정된 상기 특징부로 벡터 기반 CNN(Vactor-Based Convolutional Neural Network)을 이용하여 상기 iPSC 집락의 품질을 분류하는 단계를 포함하되,
    상기 iPSC 집락을 세분화하는 단계는, 중앙 필터링(Median Filter)을 통해 상기 iPSC 집락의 이미지 데이터를 전처리 하는 단계; 전처리된 상기 iPSC 집락의 이미지 데이터의 노이즈를 제거하는 단계; 및 구성요소 라벨링을 통해 상기 iPSC 집락의 이미지 데이터만을 노이즈로부터 분리하는 단계를 포함하며,
    상기 노이즈를 제거하는 단계는, 반복적 다중 임계치화 알고리즘을 통해 전처리된 상기 iPSC 집락의 이미지 데이터의 이미지 픽셀들을 전경과 배경으로 분리하여 이진 이미지를 생성하는 단계; 및 형태학적 개폐 동작을 통해 상기 이진 이미지의 품질을 향상시키는 단계를 포함하며,
    상기 이진 이미지는, 반경이 2인 디스크 형상의 구조 요소를 사용하여 폐쇄되고, 거리 19인 다이아몬드 형상의 구조 요소를 사용하여 개방하며, 폐쇄와 개방의 결과로 연결된 구성요소들이 채워지며, 오브젝트의 윤곽이 형태학적 침식 및 홀 필링(hole-filling) 동작에 의해 평활화 되며, 사용자 지정 임계값보다 작은 집락 영역 주변의 원치 않는 세포는 크기 필터링 방법을 사용하여 제거되는 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서, 상기 특징부를 측정하는 단계는,
    세분화된 상기 iPSC 집락의 특징부를 추출하는 단계; 및
    상기 특징부 중에서 피셔(Fisher) 점수 분석을 통해 상기 특징부 중에서 상기 iPSC 집락의 품질 인식과의 관련성이 없는 특징부를 배제시킨 상기 iPSC 집락의 품질 인식과의 관련성이 높은 특징부를 선택하는 단계를 포함하는 것을 특징으로 하는 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법.
  5. 삭제
  6. 제4항에 있어서, 상기 피셔(Fisher) 점수 분석은,
    특징부 세트 중에서 클래스 내 거리(within-class distance)가 최소화되고, 클래스 간 거리(between-class distance)가 최대화되는 특징부를 선택하여 분석하는 것을 특징으로 하는 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법.
  7. 제6항에 있어서, 상기 특징부 세트는,
    형태학적 특징부의 특징부 세트 또는 조직적 특징부의 특징부 세트를 사용하는 것을 특징으로 하는 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법.
  8. 제7항에 있어서, 상기 형태학적 특징부의 특징부 세트는,
    중심(Cen), 면적(Are), 이심률(Ecc), 둘레(Per), 배향(Ori), 장축(Maj), 단축(Min), 등가 직경(Dia), 솔리디티(Sol) 및 범위(Ext)를 지정하는 것을 특징으로 하는 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법.
  9. 제8항에 있어서, 상기 피셔(Fisher) 점수 분석은,
    지정된 상기 형태학적 특징부의 특징부 세트 중에서 장축, 단축, 등가 직경, 솔리디티 및 범위를 관련성이 높은 특징부로서 선택하는 것을 특징으로 하는 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법.
  10. 제7항에 있어서, 상기 조직적 특징부의 특징부 세트은,
    분산 차(D_V), 균질성(Hom), 에너지(Ene), 엔트로피 차(D_E), 콘트라스트(Con), 상관(Cor), 상관_1의 정보 측정(Inf_1), 합 평균(S_A), 상관_2의 정보 측정(Inf_2), 합 엔트로피(S_E), 엔트로피(Ent), 합 분산(S_V), 분산(Var)를 지정하는 것을 특징으로 하는 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법.
  11. 제10항에 있어서, 상기 피셔(Fisher) 점수 분석은,
    지정된 상기 조직적 특징부의 특징부 세트 중에서 합 평균, 상관_2의 정보 측정, 합 엔트로피, 엔트로피, 합 분산 및 분산을 관련성이 높은 특징부로서 선택하는 것을 특징으로 하는 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법.
  12. 제7항에 있어서, 상기 특징부 세트는,
    형태학적 특징부 및 조직적 특징부가 결합된 결합형 특징부의 특징부 세트를 추가로 사용하는 것을 특징으로 하는 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법.
  13. 제1항에 있어서, 상기 iPSC 집락의 품질을 분류하는 단계는,
    CNN 모델 조직의 전면에 있는 가상 이미지에 특징 벡터로부터의 전달 함수를 추가하는 단계;
    상기 전달 함수를 적용하여 특징부 맵을 생성하는 단계;
    맥스 풀링(max-pooling)을 통해 상기 특징부 맵을 서브 샘플링 하는 단계;
    서브 샘플링된 상기 특징부 맵으로 다수 개 층으로 이루어진 완전히 연결된 단일 차원 특징부를 생성하는 단계; 및
    상기 단일 차원 특징부의 품질을 예측하는 단계를 포함하는 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법.
  14. 제13항에 있어서, 상기 전달 함수를 추가하는 단계는,
    상기 전달 함수로서 정류된 선형 유닛(ReLU)을 적용하는 것을 특징으로 하는 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법.
  15. 제13항에 있어서, 상기 품질을 예측하는 단계는,
    형태학적 특징부, 조직적 특징부 또는 결합형 특징부를 사용하여 상기 iPSC 집락의 품질을 분류하는 것을 특징으로 하는 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법.
KR1020170087694A 2017-07-11 2017-07-11 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법 KR101913952B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170087694A KR101913952B1 (ko) 2017-07-11 2017-07-11 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170087694A KR101913952B1 (ko) 2017-07-11 2017-07-11 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법

Publications (1)

Publication Number Publication Date
KR101913952B1 true KR101913952B1 (ko) 2018-10-31

Family

ID=64099652

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170087694A KR101913952B1 (ko) 2017-07-11 2017-07-11 V-CNN 접근을 통한 iPSC 집락 자동 인식 방법

Country Status (1)

Country Link
KR (1) KR101913952B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110780A (zh) * 2019-04-30 2019-08-09 南开大学 一种基于对抗神经网络和海量噪声数据的图片分类方法
CN111583293A (zh) * 2020-05-11 2020-08-25 浙江大学 一种面向多色双光子图像序列的自适应图像分割方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6066093B2 (ja) * 2011-10-07 2017-01-25 国立大学法人 筑波大学 手指形状推定装置、手指形状推定方法、及び手指形状推定プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6066093B2 (ja) * 2011-10-07 2017-01-25 国立大学法人 筑波大学 手指形状推定装置、手指形状推定方法、及び手指形状推定プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Christof Angermueller 외 3명, "Deep learning for computational biology", molecular systems, biology, pp. 1-16, 2016.07.29.*
Henry Joutsijoki 외 15명, "Classification of iPSC Colony Images Using Hierarchical Strategies with Support Vector Machines", 2014 CIDM, Orlando, FL, USA, pp. 1-7, 9-12 Dec. 2014.*

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110780A (zh) * 2019-04-30 2019-08-09 南开大学 一种基于对抗神经网络和海量噪声数据的图片分类方法
CN110110780B (zh) * 2019-04-30 2023-04-07 南开大学 一种基于对抗神经网络和海量噪声数据的图片分类方法
CN111583293A (zh) * 2020-05-11 2020-08-25 浙江大学 一种面向多色双光子图像序列的自适应图像分割方法
CN111583293B (zh) * 2020-05-11 2023-04-11 浙江大学 一种面向多色双光子图像序列的自适应图像分割方法

Similar Documents

Publication Publication Date Title
JP7270058B2 (ja) 予測的組織パターン特定のためのマルチプルインスタンスラーナ
Gupta et al. Optimized Binary Bat algorithm for classification of white blood cells
US20220237788A1 (en) Multiple instance learner for tissue image classification
CA2948499C (en) System and method for classifying and segmenting microscopy images with deep multiple instance learning
Saraswat et al. Automated microscopic image analysis for leukocytes identification: A survey
Połap An adaptive genetic algorithm as a supporting mechanism for microscopy image analysis in a cascade of convolution neural networks
Bashashati et al. A survey of flow cytometry data analysis methods
Versari et al. Long-term tracking of budding yeast cells in brightfield microscopy: CellStar and the Evaluation Platform
US8831327B2 (en) Systems and methods for tissue classification using attributes of a biomarker enhanced tissue network (BETN)
Kavitha et al. Deep vector-based convolutional neural network approach for automatic recognition of colonies of induced pluripotent stem cells
Doan et al. SONNET: A self-guided ordinal regression neural network for segmentation and classification of nuclei in large-scale multi-tissue histology images
Fujita et al. Cell detection and segmentation in microscopy images with improved mask R-CNN
CN110060738B (zh) 基于机器学习技术预测细菌保护性抗原蛋白的方法及系统
Deshpande et al. Improved Otsu and Kapur approach for white blood cells segmentation based on LebTLBO optimization for the detection of Leukemia.
Rauf et al. Attention-guided multi-scale deep object detection framework for lymphocyte analysis in IHC histological images
US20230056839A1 (en) Cancer prognosis
KR101913952B1 (ko) V-CNN 접근을 통한 iPSC 집락 자동 인식 방법
US20150242676A1 (en) Method for the Supervised Classification of Cells Included in Microscopy Images
Nguyen et al. An optimal deep learning based computer-aided diagnosis system for diabetic retinopathy
Oliveira et al. A multi-objective approach for calibration and detection of cervical cells nuclei
Kotiyal et al. Diabetic retinopathy binary image classification using PySpark
Ramya et al. A review of different classification techniques in machine learning using WEKA for plant disease detection
Siedhoff A parameter-optimizing model-based approach to the analysis of low-SNR image sequences for biological virus detection
US20220058371A1 (en) Classification of cell nuclei
Hillemanns et al. AMES: automated evaluation of sarcomere structures in cardiomyocytes

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant