KR20210145778A - 조직병리학 슬라이드 이미지로부터 바이오마커를 결정하는 방법 - Google Patents

조직병리학 슬라이드 이미지로부터 바이오마커를 결정하는 방법 Download PDF

Info

Publication number
KR20210145778A
KR20210145778A KR1020217034360A KR20217034360A KR20210145778A KR 20210145778 A KR20210145778 A KR 20210145778A KR 1020217034360 A KR1020217034360 A KR 1020217034360A KR 20217034360 A KR20217034360 A KR 20217034360A KR 20210145778 A KR20210145778 A KR 20210145778A
Authority
KR
South Korea
Prior art keywords
image
tile
training
images
trained
Prior art date
Application number
KR1020217034360A
Other languages
English (en)
Inventor
스테펜 입
어빈 호
링다오 샤
볼레스와프 오신스키
에일리 아짐 칸
앤드루 제이. 크루거
마이클 칼슨
아벨 그린월드
갈렙 윌리스
Original Assignee
템퍼스 랩스, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/412,362 external-priority patent/US11741365B2/en
Priority claimed from US16/732,242 external-priority patent/US10991097B2/en
Application filed by 템퍼스 랩스, 인크. filed Critical 템퍼스 랩스, 인크.
Publication of KR20210145778A publication Critical patent/KR20210145778A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10064Fluorescence image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30101Blood vessel; Artery; Vein; Vascular
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/004Annotating, labelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioethics (AREA)
  • Physiology (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Primary Health Care (AREA)

Abstract

조직병리학 슬라이드 이미지들로부터 바이오마커 상태 및 바이오마커 메트릭을 예측하기 위한 일반화 가능하고 해석 가능한 딥러닝 모델이 제공된다.

Description

조직병리학 슬라이드 이미지로부터 바이오마커를 결정하는 방법
관련 출원의 교차 참조
본 출원은 2018년 12월 31일에 출원된 미국 특허 임시출원 제62/787,047호의 우선권을 주장하는 미국 특허출원 제16/732,242호(2019년 12월 31일 출원)의 부분 계속 출원이고, 2018년 5월 14일에 출원된 미국 특허 임시출원 제62/671,300호의 우선권을 주장하는 미국 특허출원 제16/412,362호(2019년 5월 14일 출원)의 부분 계속 출원이며, 미국 특허 임시출원 제62/824,039호(2019년 3월 26일 출원), 미국 특허 임시출원 제62/889,521호(2019년 8월 20일 출원), 및 미국 특허 임시출원 제62/983,524호(2020년 2월 28일 출원)의 우선권을 주장하고, 이들 각각의 전문이 본원에 참고로 명시적으로 포함된다.
기술분야
본 개시는 암 관련 바이오마커(들)를 검출, 정량화 및/또는 특성화하기 위해 디지털 이미지를 검사하는 것에 관련되고, 보다 구체적으로는 하나 이상의 조직병리학 슬라이드 이미지의 분석으로부터 그러한 바이오마커들을 검출, 정량화 및/또는 특성화하는 것에 관한 것이다.
본원에 제공된 배경 설명은 일반적으로 본 개시의 맥락을 제공하기 위한 것이다. 본 배경 섹션에 설명되는 범위까지, 현재 명명된 발명자들의 작업뿐만 아니라, 출원 시에 종래 기술로서의 자격을 가질 수 없는 설명의 양태들은 본 개시에 대하여 명시적으로 또는 암묵적으로 선행 기술로서 인정되지 않는다.
환자의 암의 진단, 예후 및 치료 평가에 있어서 의료 전문가를 안내하기 위해, 환자로부터 종양 샘플을 추출하고 검사하는 것이 일반적이다. 시각적 검사는 종양 주변의 건강한 세포와 관련하여 종양 내의 암 세포의 성장 패턴과, 종양 내의 면역 세포의 존재를 나타낼 수 있다. 통상적으로, 병리학자, 병리팀의 구성원, 다른 훈련된 의료 전문가, 또는 다른 사람 분석가는 유리 현미경 슬라이드 상에 실장된 종양 조직의 얇은 슬라이스를 시각적으로 분석하고, 종양 샘플 내에 존재하는 많은 조직 유형 중 하나에 대응하는 조직의 각 영역을 확인한다. 이러한 정보는 병리학자가 환자에서 암 종양의 특징을 결정하는 것을 보조하고, 이는 치료 결정을 알려줄 수 있다. 병리학자는 종종 이러한 시각적 근사에 기초하여 슬라이드에 하나 이상의 수치 점수를 할당할 것이다.
이러한 시각적 근사를 수행하기 위해, 의료 전문가는 예를 들어, 종양 등급, 종양 순도, 종양의 침습 정도, 종양 내로의 면역 침윤 정도, 암의 단계, 및 종양의 해부학적 기원 부위를 포함하는 종양의 다수의 특징을 식별하려고 시도하며, 이는 전이성 종양의 진단 및 치료에 중요할 수 있다. 암에 대한 이러한 세부사항은 의사가 환자 내에서 암의 진행을 모니터링하는 것을 보조할 수 있고, 항암 치료가 환자의 신체로부터 암 세포를 제거하는데 성공할 가능성이 있는 것으로 가정하는 것을 보조할 수 있다.
또 다른 종양 특징은 면역 세포를 포함하는, 종양 내 또는 그 근처에 있는 특정 바이오마커 또는 다른 세포 유형의 존재이다. 예를 들어, 증가된 수준으로 존재하는 종양-침윤성 림프구(TIL: tumor-infiltrating lymphocyte)는 광범위한 종양에 걸친 항-종양 면역 반응의 바이오마커로서 인식되어 왔다. TIL은 종양 조직 또는 기질(stroma)에 침투하는 단핵 면역 세포이며, 유방암을 포함하는 여러 종양 유형에서 기술되어 왔다. TIL의 집단은 다양한 비율의 다양한 유형의 세포(즉, T 세포, B 세포, 자연살해(NK: Natural Killer) 세포 등)로 구성된다. 암 환자에서 자연적으로 발생하는 TIL의 집단은 종양을 파괴하는데 대체로 비효과적이지만, TIL의 존재는 예를 들어, 상피 난소 암종, 결장암, 식도암, 흑색종, 자궁내막암 및 유방암을 포함하는 여러 함 유형의 향상된 진단과 관련되어 왔다(예를 들어, 문헌[Melichar et al., Anticancer Res. 2014;34(3):1115-25, Naito et al., Cancer Res. 1998;58(16):3491-4]을 참조).
또 다른 종양 특징은 프로그래밍된 사멸 리간드 1(PD-L1: programmed death ligand 1)로 알려진 분자를 포함하는, 바이오마커로서 특정 분자의 존재이다. PD-L1은 세계적으로 150만 명 이상의 사람들에게 영향을 미치는 가장 흔한 폐암 유형인 비-소세포 폐암(NSCLC: non-small cell lung cancer)을 진단하고 평가하는 것과 관련이 있다. NSCLC는 종종 치료의 화학방사선요법의 표준에 대해 불량하게 반응하고, 재발률이 높아, 낮은 5년 생존율을 초래한다. 면역학의 향상은 NSCLC가 T-세포의 표면 상에서 발현되는 프로그래밍된 사멸-1(PD-1: programmed death-1)에 결합하는 PD-L1의 발현을 종종 증가시킨다는 것을 보여준다. PD-1 및 PD-L1 결합은 T-세포 항종양 반응을 비활성화하고, NSCLC가 면역계에 의해 표적화를 회피할 수 있게 한다. 종양 진행과 면역 반응 사이의 상호작용의 발견은 니볼루맙(nivolumab) 및 펨브로리주맙(pembrolizumab)과 같은 PD-1/PD-L1 면역표지점 봉쇄 면역요법의 개발 및 규제 승인을 이끌어 냈다. 항-PD-1 및 항-PD-L1 항체는 PD-1과 PD-L1 사이의 상호작용을 파괴함으로써 항종양 면역 반응을 회복시킨다. 특히, 이러한 면역표지점 억제제로 치료된 PD-L1 양성 NSCLC 환자는 지속적인 종양 퇴행 및 개선된 생존율을 달성한다.
종양학에서 면역요법의 역할이 확장됨에 따라, 종양 PD-L1 상태의 정확한 평가는 PD-1/PD-L1 면역표지점 봉쇄 면역요법이 유리할 수 있는 환자를 식별하는데 유용할 수 있다. 현재, PD-L1 상태를 평가하기 위해, 생검 또는 수술 표본으로부터 획득된 종양 조직의 면역조직화학(IHC: immunohistochemistry) 염색이 이용된다. 그러나, 이러한 IHC 염색은 종종 불충분한 조직 샘플에 의해 제한되고, 일부 설정에서는 자원의 부족에 의해 제한된다.
헤마톡실린 및 에오신(H&E) 염색은 악성 진단을 위한 조직 형태학적 특징을 분석하기 위해 병리학자가 사용하는 오랜 방법이다. H&E 슬라이드는, 예를 들어, 세포 핵 및 세포질과 같은 조직 구조의 시각적 특징을 예시하여 암 종양의 식별을 알려줄 수 있다.
기술적 향상으로 인해, 조직병리학적 H&E 및 IHC 슬라이드를 디지털화함으로써 높은 해상도의 전체 슬라이드 이미지(WSI: whole slide image)가 가능해져, 광범위한 임상적 적용을 위한 컴퓨터 비전 도구를 개발할 기회를 제공해왔다. 현미경 슬라이드의 고해상도 디지털 이미지는 유형 또는 병리에 의해 조직을 분류하고자 하는 희망에서 슬라이드의 컴퓨터 기반 분석을 이용하는 것을 가능하게 한다. 일반적으로 말하면, 예를 들어, 딥러닝 애플리케이션은 의료 진단 응용 및 치료 결과 예측에서 도구로서의 가능성을 보여주었다. 딥러닝(Deep Learning)은 모델이 다수의 개별 신경 노드 층으로 구축될 수 있는 머신러닝의 서브세트이다. 컨볼루션 신경 네트워크("CNN": Convolutional Neural Network)은 컨볼루션 기술을 이용하는 신경 네트워크이다. 예를 들어, CNN은 하나의 분류 라벨을 각각의 입력 이미지에 할당함으로써 디지털 이미지들을 분석하는 딥러닝 프로세스를 제공할 수 있다. 그러나, WSI는 이웃하는 조직 클래스들 사이의 경계들을 포함하는, 하나 이상의 유형의 조직을 포함한다. 상이한 영역을 상이한 조직 클래스로 분류할 필요가 있는데, 부분적으로는 이웃하는 조직 클래스들 사이의 경계 및 종양 세포들 사이의 면역 세포의 존재를 분석할 필요가 있다. 통상적인 CNN이 하나의 슬라이드 이미지에 다수의 조직 클래스를 할당하기 위해, CNN은 조직 분류 라벨 할당을 필요로 하는 이미지의 각 섹션을 개별적으로 처리할 필요가 있을 것이다. 그러나, 이미지의 이웃하는 섹션들은 중첩되므로, 각각의 섹션을 개별적으로 처리하는 것은 많은 수의 중복 계산들을 생성할 것이고 시간 소모적일 것이다.
완전 컨볼루션 네트워크(FCN: Full Convolutional Network)은 딥러닝 프로세스의 또 다른 유형이다. FCN은 이미지를 분석하고 이미지 내의 각각의 픽셀에 분류 라벨을 할당할 수 있다. 결과적으로, CNN과 비교하여, FCN은 둘 이상의 분류를 갖는 객체들을 묘사하는 이미지들을 분석하는데 더 유용할 수 있다. 일부 FCN은 원본 이미지에서 각각의 분류된 객체의 위치를 나타내기 위해 오버레이 맵을 생성한다. 그러나, 효과적이기 위해, FCN 딥러닝 알고리즘은 각각의 픽셀이 조직 분류로서 라벨링된 이미지들의 훈련 데이터 세트들을 필요로 할 것이고, 이는 실무적으로 너무 많은 주석 시간 및 처리 시간을 필요로 한다. 디지털 WSI 이미지에서, 이미지의 각각의 엣지(edge)는 10,000개 내지 100,000개의 픽셀들을 초과하여 포함할 수 있다. 전체 이미지는 적어도 10,0002개 내지 100,0002개 픽셀을 가질 수 있으며, 이는 조직 분류를 시도하기 위해 알고리즘 실행시간이 믿을 수 없을 정도로 길어지게 할 것이다. 간단히 말해서, 많은 수의 픽셀들은 슬라이드들의 디지털 이미지들을 분할하기 위해 통상적인 FCN들을 사용할 수 없게 한다.
집단 군에 걸쳐, 이러한 바이오마커를 효율적인 방식으로 식별하고 특징짓고, 더 잘 최적화된 약물 치료 권고 및 프로토콜을 생산하기 위한, 그리고 질환 진행의 개선된 예측을 제공하기 위한, TIL, PD-L1, 및 H&E 이미지들을 이용하는 것들과 같은 바이오마커에 대한 진단 테스트의 새로운 쉽게 접근가능한 기술이 필요하다.
본 출원은, 조직병리학 슬라이드 이미지들로부터 직접 학습하고 의료 이미지들에서 바이오마커들의 존재를 예측하도록 훈련되고 구성되는, 딥러닝 프레임워크로 형성된 이미지 기반 바이오마커 예측 시스템을 제시한다. 예들에서, 딥러닝 프레임워크들은 조직병리학 이미지들을 분석하고 복수의 상이한 바이오마커들을 식별하도록 구성되고 훈련된다. 다양한 예에서, 이러한 딥러닝 프레임워크들은, 라벨링되지 않은 조직병리학 이미지들을 수신하고 이들 이미지에 대해 상이한 바이오마커 예측들을 제공하도록 각각 구성된, 상이한 훈련된 바이오마커 분류기들을 포함하도록 구성된다. 그 후, 이러한 바이오마커 예측들은, 이용가능한 면역요법의 대규모 세트를, 의료 전문가들이 환자들을 치료하는데 사용할 수 있는 표적된 면역요법의 감소된, 작은 서브세트로 감소시키기 위해 사용될 수 있다. 이와 같이, 다양한 예에서, 표적 면역요법들의 세트가 결정될 수 있는, 종양의 존재, 종양 상태/조건, 또는 조직 샘플의 종양에 대한 정보를 나타내는 바이오마커들을 식별하는 딥러닝 프레임워크들이 제공된다.
예들에서, 시스템은 의료 실험실 또는 의료 이미징 기기와 같은 네트워크 접근 가능한 이미지 소스들로부터 수신된 조직병리학 이미지들에 대한 바이오마커 상태를 분석하고 예측하도록 훈련된 딥러닝 프레임워크들을 포함하고, 이어서 저장되고 디스플레이될 수 있는 예측된 바이오마커 상태의 보고서를 생성한다. 이러한 예측된 바이오마커 상태 보고서는 환자에 대한 암 치료 프로토콜(즉, 면역요법 치료 또는 화학요법 치료)을 결정하는데 사용되는 네트워크 접근 가능한 시스템들, 예를 들어 병리학 실험실 및 주요 돌봄 외과 시스템에, 저장 및 디스플레이를 위해, 제공될 수 있다. 일부 예에서, 예측된 바이오마커 상태 보고서는 후속하는 게놈 서열분석을 진행하기 위한 네트워크 접근 가능한 차세대 서열분석 시스템에 입력될 수 있거나, 치료 리스트를 바이오마커-결정된 매칭된 치료로 필터링하기 위한 컴퓨터화된 암 치료 결정 시스템에 입력될 수 있다.
본원의 기술들은 다양한 암 중 임의의 것과 관련된 바이오마커들을 식별할 수 있다. 예시적인 암들은, 부신피질 암종, 림프종, 항문암, 직장암, 기저세포 암종, 피부암(비-흑색종), 담즙 암, 간외 담관암, 간내 담관암, 방광암, 골육종, 뇌종양, 뇌암 신경교종, 유방암(삼중 음성 유방암을 포함), 자궁경부암, 결장암, 대장암, 림프종, 자궁내막암, 식도암, 위암, 두경부암, 간세포암, 신장암, 폐암, 악성 흑색종, 혀암, 구강암, 난소암, 췌장암, 전립선암, 자궁암, 고환암, 질암을 포함하지만, 이들로 제한되지는 않는다.
일부 예에서, 이미지 기반 바이오마커 예측 시스템은, 수신된 조직병리학 이미지들의 타일들을 분류하도록 훈련된 분류기들을 사용하여 (라벨링되거나 라벨링되지 않은) 조직병리학 이미지들에 대한 분류를 수행하도록 설계된 다중 스케일 구성을 갖는 딥러닝 프레임워크로 형성된다. 일부 예에서, 다중 스케일 구성들은 타일 수준의 조직 분류기들, 즉, 타일 기반 딥러닝 훈련을 사용하여 훈련된 분류기들을 포함한다. 일부 예에서, 다중 스케일 구성들은 픽셀 수준의 세포 분류기들 및 세포 분할 모델들을 포함한다. 일부 예에서, 타일 수준의 조직 분류기들로부터의 분류들, 및 픽셀 수준의 세포 분류기들로부터의 분류들은 조직병리학 이미지에서 바이오마커 상태를 예측하기 위해 분석된다. 일부 예에서, 다중 스케일 구성들은 타일 수준의 바이오마커 분류기들을 포함한다.
일부 예에서, 이미징 기반 바이오마커 예측 시스템은 다중 인스턴스 학습(multiple instance learning, MIL) 기술들을 사용하여 훈련된 분류기를 사용하여 (라벨링되거나 라벨링되지 않은) 조직병리학 이미지들에 대한 분류를 수행하도록 설계된 단일 스케일의 구성을 갖는 딥러닝 프레임워크로 형성된다. 일부 예에서, 단일 스케일 구성들은 RNA 서열분석 데이터와 같은 유전자 서열 분석 데이터를 사용하여 훈련된 슬라이드 수준의 분류기들을 포함한다. 즉, 슬라이드 수준의 분류기들은 RNA 서열분석 데이터를 사용하여 조직병리학 이미지들에서 바이오마커 상태를 예측할 수 있는 이미지 기반 분류기들을 개발하도록 훈련된다.
일 예에 따르면, 표적 조직의 헤마톡실린 및 에오신(H&E) 염색된 슬라이드의 디지털 이미지에서 바이오마커들을 식별하는 컴퓨터로 구현되는 방법은, 하나 이상의 프로세서들을 갖는 이미지 기반 바이오마커 예측 시스템에 상기 디지털 이미지를 수신하는 단계, 상기 하나 이상의 프로세서들을 이용하여 상기 디지털 이미지를 복수의 타일 이미지들로 분리함으로써 상기 디지털 이미지에 대해 이미지 타일링 프로세스를 수행하는 단계 - 상기 복수의 타일 이미지들 각각은 상기 디지털 이미지의 상이한 부분을 포함함 -, 상기 하나 이상의 프로세서들을 이용하여 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들을 포함하는 다중 스케일 딥러닝 프레임워크에 상기 복수의 타일 이미지들을 적용하는 단계 - 각각의 훈련된 딥러닝 다중 스케일 분류기 모델들은 상기 다중 스케일 딥러닝 프레임워크를 이용하여 각각의 타일 이미지에 대한 상이한 조직 분류를 분류하도록 훈련되고, 상기 복수의 타일 이미지들 각각에 대한 조직 분류를 결정함 -, 상기 하나 이상의 프로세서들을 이용하여 훈련된 세포 분할 모델을 이용하여 상기 디지털 이미지 내의 세포들을 식별하는 단계, 및 각각의 타일 이미지에 대해 결정된 조직 분류로부터 그리고 상기 디지털 이미지 내의 상기 식별된 세포들로부터 상기 디지털 이미지와 연관된 하나 이상의 바이오마커들의 예측된 존재를 식별하는 단계를 포함한다.
또 다른 예에 따르면, 표적 조직의 헤마톡실린 및 에오신(H&E) 염색된 슬라이드의 디지털 이미지에서 바이오마커들 을 식별하는 컴퓨터로 구현되는 방법은, 복수의 훈련 조직 샘플들에 대한 분자 훈련 데이터세트를 수신하는 단계 - 상기 분자 훈련 데이터세트는 각각의 훈련 조직 샘플과 관련된 실질적으로 유사한 샘플의 서열분석으로부터의 RNA 전사체 카운트들을 포함함 -, 상이한 바이오마커에 각각 대응하는 하나 이상의 분자 데이터 서브세트들을 식별하기 위해 상기 분자 훈련 데이터세트에 대해 군집화 프로세스를 수행하는 단계, 상기 하나 이상의 분자 데이터 서브세트들 각각에 대해 상기 각각의 바이오마커에 대응하는 훈련 조직 샘플들의 H&E 염색된 훈련 슬라이드들의 복수의 디지털 이미지들을, 하나 이상의 프로세서들을 갖는 이미지 기반 바이오마커 예측 시스템에 수신하는 단계, 상기 하나 이상의 프로세서들을 이용하여 상기 하나 이상의 분자 데이터 서브세트들 각각에 대해 상기 H&E 염색된 훈련 슬라이드들의 상기 복수의 디지털 이미지들에 기초하여, 훈련된 이미지 기반의 바이오마커 분류기 모델을 생성하는 단계, 상기 하나 이상의 프로세서들을 이용하여 후속하는 조직 샘플의 H&E 염색된 슬라이드의 후속하는 디지털 이미지를 수신하는 단계, 및 상기 하나 이상의 프로세서들을 이용하여 상기 후속하는 디지털 이미지를 상기 훈련된 이미지 기반 바이오마커 분류기 모델에 적용하고 상기 후속하는 조직 샘플에 대한 하나 이상의 바이오마커들의 예측된 존재를 식별하는 단계를 포함한다.
또 다른 예에 따르면, 표적 조직의 헤마톡실린 및 에오신(H&E) 염색된 슬라이드의 디지털 이미지에서 바이오마커들을 식별하는 컴퓨터로 구현되는 방법은, 하나 이상의 프로세서들을 갖는 이미지 기반 바이오마커 예측 시스템에 상기 디지털 이미지를 수신하는 단계, 상기 하나 이상의 프로세서들을 이용하여 상기 디지털 이미지를 복수의 타일 이미지들로 분리하는 단계 - 상기 복수의 타일 이미지들 각각은 상기 디지털 이미지의 상이한 부분을 포함함 -, 상기 하나 이상의 프로세서들을 이용하여 상기 복수의 타일 이미지들을, 하나 이상의 훈련된 바이오마커 분류 모델들을 포함하는 딥러닝 프레임워크에 적용하는 단계 - 각각의 훈련된 바이오마커 분류 모델은 상이한 바이오마커를 분류하도록 훈련됨 -, 상기 하나 이상의 프로세서들을 이용하여 상기 하나 이상의 훈련된 바이오마커 분류 모델들을 사용하여 상기 복수의 타일 이미지들 각각에 대한 바이오마커 분류를 예측하는 단계, 상기 타일 이미지들 각각의 예측된 바이오마커 분류들로부터 상기 표적 조직 내의 하나 이상의 바이오마커들의 예측된 존재를 결정하는 단계, 및 상기 하나 이상의 바이오마커들의 예측된 존재를 시각화하는 디지털 오버레이 및 상기 디지털 이미지를 포함하는 보고서를 생성하는 단계를 포함한다.
일부 예에서, 딥러닝 프레임워크는 다중 스케일 딥러닝 프레임워크를 포함한다.
일부 예에서, 상기 디지털 이미지를 복수의 타일 이미지들로 분할하는 단계는, 상기 하나 이상의 프로세서들을 이용하여, 상기 디지털 이미지를 상기 복수의 타일 이미지들로 분리하기 위해 상기 디지털 이미지에 타일링 마스크를 적용함으로써 이미지 타일링 프로세스를 수행하는 단계를 포함한다.
일부 예에서, 타일링 마스크는 동일한 크기의 타일들 및/또는 사각형 형상을 갖는 타일들을 포함한다.
일부 예에서, 상기 복수의 타일 이미지들을 상기 딥러닝 프레임워크에 적용하는 단계 및 상기 복수의 타일 이미지들 각각에 대해 상기 바이오마커 분류를 예측하는 단계는, 상기 타일 이미지들 각각을 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들에 적용하는 단계 - 각각의 훈련된 딥러닝 다중 스케일 분류기 모델들은 각각의 타일 이미지에 대한 상이한 조직 분류를 분류하도록 훈련되고, 상기 다중 스케일 딥러닝 프레임워크를 이용하여 상기 복수의 타일 이미지들 각각에 대해 조직 분류를 결정함 -, 상기 하나 이상의 프로세서들을 이용하여, 훈련된 세포 분할 모델을 이용하여 상기 디지털 이미지 내의 세포들을 식별하는 단계, 및 각각의 타일 이미지에 대해 결정된 상기 조직 분류로부터 그리고 상기 디지털 이미지 내의 상기 식별된 세포들로부터, 각각의 타일 이미지에 대한 상기 바이오마커 분류를 예측하는 단계를 포함한다.
일부 예에서, 상기 방법은, 상기 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들을 훈련하는 단계를 더 포함하고, 상기 훈련은, 상기 다중 스케일 딥러닝 프레임워크에서, 훈련 이미지 데이터 세트로부터 복수의 H&E 슬라이드 훈련 이미지들을 수신하는 단계 - 각각의 H&E 슬라이드 훈련 이미지는 훈련될 바이오마커에 대응하는 라벨을 가짐 -, 상기 H&E 슬라이드 훈련 이미지들 각각에 대해 타일 기반 조직 분류 분석을 수행하는 단계, 상기 H&E 슬라이드 훈련 이미지들 각각에 대해 픽셀 기반 세포 분할 분석을 수행하는 단계, 선택적으로 상기 H&E 슬라이드 훈련 이미지들 각각에 대해 타일 기반 바이오마커 분류 분석을 수행하는 단계, 및 이에 응답하여 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들을 생성하는 단계에 의해 수행된다.
일부 예에서, 각각의 H&E 슬라이드 훈련 이미지는 타일 수준의 라벨을 각각 갖는 복수의 타일 이미지들을 포함한다.
일부 예에서, 상기 방법은, 각각의 H&E 슬라이드 훈련 이미지에 대해, H&E 슬라이드 훈련 이미지의 복수의 타일 이미지들 각각에 대한 타일 수준의 라벨을 부여하는 단계를 포함한다.
일부 예에서, 상기 방법은, 각각의 H&E 슬라이드 훈련 이미지에 대해 상기 H&E 슬라이드 훈련 이미지 내의 각각의 타일 이미지에 대한 클래스 상태를 유추하는 타일 선택 프로세스를 수행하는 단계, 및 상기 H&E 슬라이드 훈련 이미지들 각각에 대해 상기 타일 기반 조직 분류 분석을 수행하기 전에 상기 H&E 슬라이드 훈련 이미지의 선택된 타일 이미지들에 대해서만 상기 타일 기반 조직 분류 분석이 수행되도록, 유추된 클래스 상태에 기초하여, 원하는 클래스에 대응하지 않는 타일 이미지들을 폐기하는 단계를 더 포함한다.
일부 예에서, 상기 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들 중 하나는 타일 해상도의 완전 컨볼루션 네트워크(FCN) 분류 모델로서 각각 구성된다.
일부 예에서, 상기 훈련된 세포 분할 모델을 이용하여 상기 디지털 이미지 타일 내의 세포들을 식별하는 단계는, 상기 하나 이상의 프로세서들을 이용하여, 상기 복수의 타일 이미지들 각각을 상기 세포 분할 모델에 적용하고, 각각의 타일에 대해, 상기 타일 이미지 내의 하나 이상의 픽셀들에 세포 분류를 할당하는 단계를 포함한다.
일부 예에서, 상기 타일 이미지 내의 하나 이상의 픽셀들에 상기 세포 분류를 할당하는 단계는, 상기 하나 이상의 프로세서들을 이용하여, 상기 하나 이상의 픽셀들을 세포 내부, 세포 경계 또는 세포 외부로 식별하고, 상기 하나 이상의 픽셀들을 상기 세포 내부, 상기 세포 경계 또는 상기 세포 외부로 분류하는 단계를 포함한다.
일부 예에서, 상기 훈련된 세포 분할 모델은 세포 내부, 세포 경계, 및 세포 외부를 분류하도록 훈련된 픽셀 해상도의 3차원 UNet 분류 모델이다.
일부 예에서, 상기 하나 이상의 바이오마커들은 종양 침윤성 림프구(TIL), 세포핵 대 세포질(NC)의 비율, 배수성, 인환(signet ring) 형태, 및 프로그래밍된 사멸-리간드 1(PD-L1)로 구성된 군으로부터 선택된다.
일부 예에서, 상기 딥러닝 프레임워크는 단일 스케일 딥러닝 프레임워크를 포함한다.
일부 예에서, 상기 디지털 이미지를 복수의 타일 이미지들로 분리하는 단계는, 상기 하나 이상의 프로세서들을 이용하여, 상기 디지털 이미지를 상기 복수의 타일 이미지들로 분리하는 훈련된 다중 인스턴스 학습 컨트롤러에 상기 디지털 이미지를 적용함으로써, 이미지 타일링 프로세스를 수행하는 단계를 포함한다.
일부 예에서, 상기 방법은 상기 H&E 슬라이드 훈련 이미지 내의 각각의 타일 이미지에 대한 클래스 상태를 유추하는 타일 선택 프로세스에 각각의 타일 이미지를 제공하는 단계, 및 상기 딥러닝 프레임워크에 나머지 복수의 타일 이미지들을 적용하기 전에, 유추된 클래스 상태에 기초하여, 타일 선택 기준에 기초하여 타일 이미지들을 선택적으로 폐기하는 단계를 더 포함한다.
일부 예에서, 상기 방법은 상기 H&E 슬라이드 훈련 이미지 내의 각각의 타일 이미지에 대한 클래스 상태를 유추하는 타일 선택 프로세스에 각각의 타일 이미지를 제공하는 단계, 및 나머지 복수의 타일 이미지들을 상기 딥러닝 프레임워크에 적용하기 전에, 유추된 클래스 상태에 기초하여, 타일 이미지들을 랜덤하게 폐기하는 단계를 더 포함한다.
일부 예에서, 상기 방법은, 복수의 훈련 조직 샘플들에 대한 분자 훈련 데이터세트를 수신하는 단계 - 상기 분자 훈련 데이터세트는 각각의 훈련 조직 샘플과 관련된 실질적으로 유사한 샘플의 서열분석으로부터의 RNA 전사체 카운트들을 포함함 -, 상이한 바이오마커에 각각 대응하는 하나 이상의 분자 데이터 서브세트들을 식별하기 위해 상기 분자 훈련 데이터세트에 대해 군집화 프로세스를 수행하는 단계, 상기 하나 이상의 분자 데이터 서브세트들 각각에 대해 각각의 바이오마커에 대응하는 훈련 조직 샘플들의 H&E 염색된 훈련 슬라이드들의 복수의 디지털 이미지들을, 하나 이상의 프로세서들을 갖는 이미지 기반 바이오마커 예측 시스템에 수신하는 단계, 및 상기 하나 이상의 프로세서들을 이용하여 상기 H&E 염색된 훈련 슬라이드들의 상기 복수의 디지털 이미지들에 기초하여 상기 하나 이상의 분자 데이터 서브세트들 각각에 대해, 상기 훈련된 바이오마커 분류 모델들 중 하나를 생성하는 단계를 더 포함한다.
일부 예에서, 상기 하나 이상의 분자 데이터 서브세트들 각각에 대해 상기 훈련된 바이오마커 분류 모델들 중 하나를 생성하는 단계는, 상기 H&E 염색된 훈련 슬라이드들의 상기 복수의 디지털 이미지들에 대해 다중 인스턴스 학습 프로세스를 수행하는 단계를 포함한다.
일부 예에서, 훈련 조직 샘플들의 H&E 염색된 훈련 슬라이드들의 상기 복수의 디지털 이미지들 각각은 슬라이드 수준의 라벨을 갖는다.
일부 예에서, 훈련 조직 샘플들의 H&E 염색된 훈련 슬라이드들의 상기 복수의 디지털 이미지들 각각은 라벨링되지 않는다.
일부 예에서, 상기 단일 스케일 딥러닝 프레임워크는 ResNet 구성 또는 Inception-v3 구성을 갖는 컨볼루션 신경 네트워크이다.
일부 예에서, 상기 하나 이상의 바이오마커들은 컨센서스 분자 아형(CMS: consensus molecular subtype) 및 상동성 재조합 결핍("HRD": homologous recombination deficiency)으로 이루어진 군으로부터 선택된다.
일부 예에서, 상기 하나 이상의 프로세서들은 하나 이상의 그래픽 프로세싱 유닛(GPU), 텐서 프로세싱 유닛(TPU), 및/또는 중앙 프로세싱 유닛(CPU)이다.
일부 예에서, 컴퓨팅 장치(예를 들어, 이미지 기반 바이오마커 예측 시스템)는 통신 네트워크를 통해 병리학 슬라이드 스캐너 시스템에 통신 가능하게 연결되어, 상기 이미지 기반 바이오마커 예측 시스템이 상기 통신 네트워크를 통해 상기 병리학 슬라이드 스캐너 시스템으로부터 상기 디지털 이미지를 수신하도록 한다.
일부 예에서, 컴퓨팅 장치는 병리학 슬라이드 스캐너 시스템 내에 포함된다.
일부 예에서, 상기 병리학 슬라이드 스캐너 시스템은 이미지 기반, 적대적(adversarial) 훈련된 그리고/또는 마이크로 위성 불안정성(MSI) 예측 모델을 포함한다.
일부 예에서, 상기 디지털 이미지 및 상기 디지털 오버레이를 포함하는 상기 보고서를 생성하는 단계는, 상기 디지털 이미지의 종양 콘텐츠 또는 상기 디지털 이미지의 종양 백분율을 식별하는 오버레이 요소를 포함하도록 상기 디지털 오버레이를 생성하는 단계를 포함한다.
또 다른 예에 따르면, 표적 조직의 헤마톡실린 및 에오신(H&E) 염색된 슬라이드의 디지털 이미지에서 바이오마커들을 식별하도록 구성된 컴퓨팅 장치로서, 상기 컴퓨팅 장치는, 하나 이상의 메모리들 및 하나 이상의 프로세서들을 포함하고, 상기 하나 이상의 프로세서들은, 상기 디지털 이미지를 수신하고, 상기 디지털 이미지를 복수의 타일 이미지들로 분리함으로써 상기 디지털 이미지에 대해 이미지 타일링 프로세스를 수행하며 - 상기 복수의 타일 이미지들 각각은 상기 디지털 이미지의 상이한 부분을 포함함 -, 상기 복수의 타일 이미지들을, 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들을 포함하는 다중 스케일 딥러닝 프레임워크에 적용하고 - 각각의 훈련된 딥러닝 다중 스케일 분류기 모델들은 각각의 타일 이미지에 대한 상이한 조직 분류를 분류하도록 훈련되고, 상기 다중 스케일 딥러닝 프레임워크를 사용하여, 상기 복수의 타일 이미지들 각각에 대한 조직 분류를 결정함 -, 훈련된 세포 분할 모델을 이용하여 상기 디지털 이미지 내의 세포들을 식별하며, 각각의 타일 이미지에 대해 결정된 상기 조직 분류로부터 그리고 상기 디지털 이미지 내의 상기 식별된 세포들로부터, 상기 디지털 이미지와 연관된 하나 이상의 바이오마커들의 예측된 존재를 식별하도록 구성된다.
또 다른 예에 따르면, 표적 조직의 헤마톡실린 및 에오신(H&E) 염색된 슬라이드의 디지털 이미지에서 바이오마커들을 식별하도록 구성된 컴퓨팅 장치로서, 상기 컴퓨팅 장치는, 하나 이상의 메모리들 및 하나 이상의 프로세서들을 포함하고, 상기 하나 이상의 프로세서들은, 복수의 훈련 조직 샘플들에 대한 분자 훈련 데이터세트를 수신하고 - 상기 분자 훈련 데이터세트는 각각의 훈련 조직 샘플과 관련된 실질적으로 유사한 샘플의 서열분석으로부터의 RNA 전사체 카운트들을 포함함 -, 상이한 바이오마커에 각각 대응하는 하나 이상의 분자 데이터 서브세트들을 식별하기 위해 상기 분자 훈련 데이터세트에 대해 군집화 프로세스를 수행하며, 각각의 하나 이상의 분자 데이터 서브세트들에 대해 각각의 바이오마커에 대응하는 훈련 조직 샘플들의 H&E 염색된 훈련 슬라이드들의 복수의 디지털 이미지들을, 하나 이상의 프로세서들을 갖는 이미지 기반 바이오마커 예측 시스템에 수신하고, 상기 하나 이상의 분자 데이터 서브세트들 각각에 대해 상기 H&E 염색된 훈련 슬라이드들의 상기 복수의 디지털 이미지들에 기초하여, 훈련된 이미지 기반의 바이오마커 분류기 모델을 생성하며, 후속하는 조직 샘플의 H&E 염색된 슬라이드의 후속하는 디지털 이미지를 수신하고, 상기 후속하는 디지털 이미지를 상기 훈련된 이미지 기반 바이오마커 분류기 모델에 적용하고 상기 후속하는 조직 샘플에 대한 하나 이상의 바이오마커들의 예측된 존재를 식별하도록 구성된다.
또 다른 예에 따르면, 표적 조직의 헤마톡실린 및 에오신(H&E) 염색된 슬라이드의 디지털 이미지에서 바이오마커들을 식별하도록 구성된 컴퓨팅 장치로서, 상기 컴퓨팅 장치는, 하나 이상의 메모리들 및 하나 이상의 프로세서들을 포함하고, 상기 하나 이상의 프로세서들은, 하나 이상의 프로세서들을 갖는 이미지 기반 바이오마커 예측 시스템에 상기 디지털 이미지를 수신하고, 상기 디지털 이미지를 복수의 타일 이미지들로 분리하며 - 상기 복수의 타일 이미지들 각각은 상기 디지털 이미지의 상이한 부분을 포함함 -, 상기 복수의 타일 이미지들을, 하나 이상의 훈련된 바이오마커 분류 모델들을 포함하는 딥러닝 프레임워크에 적용하고 - 각각의 훈련된 바이오마커 분류 모델은 상이한 바이오마커를 분류하도록 훈련됨 -, 상기 하나 이상의 훈련된 바이오마커 분류 모델을 사용하여 상기 복수의 타일 이미지들 각각에 대한 바이오마커 분류를 예측하며, 상기 타일 이미지들 각각의 상기 예측된 바이오마커 분류들로부터 상기 표적 조직 내의 하나 이상의 바이오마커들의 예측된 존재를 결정하고, 상기 하나 이상의 바이오마커들의 예측된 존재를 시각화하는 디지털 오버레이 및 상기 디지털 이미지를 포함하는 보고서를 생성하도록 구성된다.
본 특허 또는 출원 파일은 컬러로 된 적어도 하나의 도면을 포함한다. 컬러 도면(들)을 갖는 본 특허 또는 특허출원 공보의 사본은 요청 및 필요한 비용의 지불에 따라 미국 특허청에 의해 제공될 것이다.
이하에 설명되는 도면들은 본원에 개시된 시스템 및 방법들의 다양한 양태들을 도시한다. 각각의 도면은 본 개시의 시스템 및 방법들의 양태의 일 예를 도시하는 것으로 이해되어야 한다.
도 1은 일 예에 따른, 이미징 기반 바이오마커 예측 시스템을 갖는 예측 시스템의 개략적인 블록도이다.
도 2는 통상적인 병리학자 암 진단 워크플로우를 위한 프로세스의 블록도이다.
도 3은 일 예에 따른, 도 1의 시스템에서 구현될 수 있는 딥러닝 프레임워크의 개략적인 블록도이다.
도 4는 일 예에 따른, 머신러닝 데이터 흐름의 개략적인 블록도이다.
도 5는 일 예에 따른, 도 1 및 도 3의 시스템들에서 구현될 수 있는 바와 같이, 복수의 상이한 마커 분류 모델들이 형성된 딥러닝 프레임워크의 블록도이다.
도 6은 예시적인 다중 스케일 구성에 따른, 이미징 기반 바이오마커 예측을 위한 프로세스의 블록도이다.
도 7은 일 예에 따른, 도 6의 프로세스의 예시적인 구현예에 따른, 예측된 바이오마커 상태를 결정하기 위한 예시적인 프로세스의 블록도이다.
도 8은 예시적인 단일 스케일 구성에 따른, 이미징 기반 바이오마커 예측을 위한 프로세스의 블록도이다.
도 9는 일 예에 따른, 도 1 및 도 3의 시스템에 의해 수행될 수 있는 바와 같은 바이오마커 예측 보고 및 오버레이 맵을 생성하기 위한 프로세스의 블록도이다.
도 10a 및 도 10b는 일 예에 따른, 조직 오버레이 맵(도 10a) 및 세포 오버레이 맵(도 10b)을 도시하는 도 9의 프로세스에 의해 생성된 예시적인 오버레이 맵을 도시한다.
도 11은 일 예에 따른, 분류를 위한 조직병리학 슬라이드의 디지털 이미지를 준비하기 위한 프로세스의 블록도이다.
도 12a 내지 도 12c는 일 예에 따른, 분류 모델에 사용될 수 있는 예시적인 신경 네트워크 구조를 나타낸다.
도 13은 일 예에 따른, 분류를 위한 타일 이미지를 도시하는 조직병리학 이미지를 도시한다.
도 14는 다른 실시예에 따른, 별도의 파이프라인을 이용하는 이미징 기반 바이오마커 예측 시스템의 개략적인 블록도이다.
도 15a는 일 예에 따른, 도 14의 시스템에 의해 구현될 수 있는 바와 같은 예시적인 바이오마커 예측 프로세스의 개략적인 블록도이다.
도 15b는 일 예에 따른, 도 14의 시스템에 의해 구현될 수 있는 예시적인 훈련 프로세스의 개략적인 블록도이다.
도 16의 A 내지 도 16의 F는 일 예에 따른, 입력 조직병리학 이미지들을 도시한다. 도 16의 A 내지 도 16의 C는 대표적인 PD-L1 양성 바이오마커 분류 예를 도시한다. 도 16의 A는 입력 H&E 이미지를 도시하고, 도 16의 B는 H&E 이미지에 오버레이된 확률 맵을 도시하며, 도 16의 C는 참조를 위한 PD-L1 IHC 염색을 도시한다. 도 16의 D 내지 도 16의 F는 대표적인 PD-L1 음성 바이오마커 분류 예를 도시한다. 도 16의 D는 입력 H&E 이미지를 도시하고, 도 16의 E는 H&E 이미지에 오버레이된 확률 맵을 도시하며, 도 16의 F는 참조를 위한 PD-L1 IHC 염색을 도시한다. 컬러 막대는 종양 PD-L1+ 클래스의 예측된 확률을 나타낸다.
도 17은 일 예에 따른, 도 14, 도 15a 및 도 15b의 프로세스들에 의해 수행될 수 있는 바와 같은 PD-L1 분류를 위한 예시적인 다중 시야 전략의 블록도이다.
도 18은 일 예에 따른, 딥러닝 프레임워크의 라벨이 없는 주석 훈련을 수행할 수 있고 다중 인스턴스 학습 컨트롤러를 갖는 개략적인 머신러닝 구조의 블록도이다.
도 19, 도 20, 도 21, 및 도 22는 일 예에 따른, 도 18의 다중 인스턴스 학습 컨트롤러에 의해 구현될 수 있는 프레임워크 동작의 블록도이다.
도 23은 일 예에 따른, CMS에 대한 바이오마커 분류를 보여주는 예시적인 결과적인 오버레이 맵이다.
도 24는 또 다른 예에 따른, 도 18의 다중 인스턴스 학습 컨트롤러에 의해 구현될 수 있는 또 다른 프레임워크 동작의 블록도이다.
도 25는 또 다른 예에 따른, CMS에 대한 바이오마커 분류를 나타내는 예시적인 오버레이 맵이다.
도 26은 또 다른 예에 따른, 도 18의 다중 인스턴스 학습 컨트롤러에 의해 구현될 수 있는 또 다른 프레임워크 동작의 블록도이다.
도 27은 또 다른 예에 따른, 분류 모델에 이용될 수 있는 예시적인 신경 네트워크 아키텍처를 도시한다.
도 28은 일 예에 따른, 면역요법과 같은, 매치된 잠재적 치료법의 리스트를 결정하기 위한 프로세스의 블록도이다.
도 29는 일 예에 따른, 매칭된 잠재적 치료법의 리스트를 생성하기 위한 데이터 흐름의 블록도이다.
도 30은 일 예에 따른, 병리 스캐너 시스템과 함께 이미징 기반 바이오마커 예측을 수행하기 위한 시스템의 블록도이다.
도 31 내지 도 37은 일 예에 따른, 도 1, 도 3 및 도 30의 시스템들과 같은 시스템들에 의해 생성될 수 있는 바와 같이, 생성된 그래픽 사용자 인터페이스들의 다양한 스크린샷들을 도시한다.
도 38은 일 예에 따른, 본원의 다양한 시스템들을 구현하는데 사용하기 위한 예시적인 컴퓨팅 장치의 블록도이다.
이미징 기반 바이오마커 예측 시스템은 조직병리학 슬라이드들로부터 직접 학습하고 의료 이미지들에서의 바이오마커들의 존재를 예측하도록 구성되고 훈련된 딥러닝 프레임워크로 형성된다. 딥러닝 프레임워크는 의료 이미지들을 분석하도록 그리고, 종양의 존재, 종양 상태/조건, 또는 조직 샘플의 종양에 대한 정보를 나타내는 바이오마커들을 식별하도록 구성되고 훈련될 수 있다.
일 구현예에서, 클라우드 기반 딥러닝 프레임워크가 의료 이미지 분석에 이용된다. 딥러닝 알고리즘은 향상된 진단, 예후, 치료 적응증 및 치료 반응 예측을 위한 정교한 이미징 특징을 자동으로 학습한다. 예를 들어, 딥러닝 프레임워크는 효율적인 딥러닝 알고리즘 훈련, 비교 및 배포를 위해 클라우드 스토리지에 직접 연결하고 클라우드 플랫폼 상의 자원을 이용할 수 있다.
일부 예에서, 딥러닝 프레임워크는 다양한 질병(예를 들어, 암 종양 예측)의 구조적 및 국소적 조직학을 정확하게 포착하기 위해 타일링 전략을 사용하는 다중 스케일의 구성을 포함한다. 이러한 다중 스케일의 구성들은 수신된 조직병리학 이미지들의 타일들을 분류하기 위해 훈련된 분류기들을 사용하여 (라벨링되거나 라벨링되지 않은) 조직병리학 이미지들에 대한 분류를 수행한다. 일부 예에서, 다중 스케일 구성들은 타일 수준의 조직 분류기들, 즉, 타일 기반 딥러닝 훈련을 사용하여 훈련된 분류기들을 포함한다. 일부 예에서, 다중 스케일 구성들은 픽셀 수준의 세포 분류기들 및 세포 분할 모델들을 포함한다. 일부 예에서, 타일 수준의 조직 분류기들로부터의 분류들, 및 픽셀 수준의 세포 분류기들로부터의 분류들은 조직병리학 이미지에서 바이오마커 상태를 예측하기 위해 분석된다. 일부 예에서, 다중 스케일 구성들은 타일 수준의 바이오마커 분류기들을 포함한다. 일단 훈련되면, 다중 스케일 분류기들은 새로운 라벨링되거나 라벨링되지 않은 조직병리학 이미지를 수신할 수 있고, 연관된 조직병리학적 슬라이드 내의 특정 바이오마커의 존재를 예측할 수 있다.
일부 예에서, 본원의 딥러닝 프레임워크는 조직병리학 이미지들에서의 바이오마커 존재를 예측하기 위한 다중 인스턴스 학습(MIL: multiple instance learning) 전략을 사용하여 훈련된 단일 스케일 구성을 포함한다. 단일 스케일 구성을 사용하여 훈련된 분류기는 하나 이상의 다중 인스턴스 학습(MIL) 기술을 사용하여 훈련된 분류기들을 사용하여, (라벨링되거나 라벨링되지 않은) 조직병리학 이미지들에 대한 분류를 수행하도록 훈련될 수 있다. 일부 예에서, 단일 스케일 구성은 RNA 서열분석 데이터와 같은 유전자 서열분석 데이터를 사용하여 훈련된 슬라이드 수준의 분류기들을 포함하고, 타일 수준의 라벨이 아니라 슬라이드 수준의 라벨을 갖는 조직병리학 이미지들을 분석하도록 훈련된다. 즉, 슬라이드 수준의 분류기들은 RNA 서열분석 데이터를 사용하여 조직병리학 이미지들에서 바이오마커 상태를 예측할 수 있는 이미지 기반 분류기들을 개발하도록 훈련된다.
본원에서 다중 스케일 및 단일 스케일 구성들 중 임의의 것은 그러한 질병 분석을 위한 계산을 가속화하기 위해 다양한 알고리즘 최적화들을 포함할 수 있다.
다중 스케일 분류기 구성의 일 구현예에서, 딥러닝 프레임워크는 자동 세포 분할을 수행하고, 세포/바이오마커 유형을 결정하며, 조직병리학 이미지들로부터 조직 유형 분류를 결정하여 이미지 기반 바이오마커 개발을 제공하는 분류기들을 포함하도록 훈련될 수 있다. 심지어 단일 스케일 분류기들이 조직 유형 분류 및 바이오마커 분류를 포함하도록 훈련될 수 있다.
다중 스케일 분류기 구성의 경우, 예를 들어, 디지털 헤마톡실린 및 에오신(H&E) 슬라이드 내의 상이한 세포 유형(예를 들어, 종양, 기질, 림프구)에 관한 집합 및 공간 이미징 특징들이 딥러닝 프레임워크에 의해 결정될 수 있고 임상적 및 치료적 결과를 예측하는데 사용될 수 있다. 초보적인 수동적인 세포 유형 분류를 대신하여, 본원의 예들은 H&E 슬라이드 조직병리학 이미지의 각각의 하위 영역을 특정 세포 분할, 세포 유형, 및 조직 유형으로 분류하기 위해 딥러닝 프레임워크의 다중 스케일 구성을 사용한다. 여기서, 바이오마커 검출은 다양한 유형들의 이미징 메트릭들을 식별하도록 구성된 다른 딥러닝 프레임워크에 의해 수행된다. 예시적인 이미징 척도는 종양의 최소 형상 및 최대 형상, 종양 면적, 종양 둘레, 종양 %를 포함하는 종양 형상과, 세포 면적, 세포 둘레, 세포 볼록 면적비, 세포 순환도, 세포 볼록 경계 면적, 세포 길이, 림프구 %, 세포 특징, 세포 텍스처(채도(saturation), 강도(intensity), 및 색조(hue)를 포함함)를 포함한 세포 형상을 포함한다.
조직 클래스의 예들은 종양, 기질, 정상(normal), 림프구, 지방, 근육, 혈관, 면역 군집, 괴사, 과형성/이형성증, 적혈구, 및 IHC 염색 표적 분자에 대해 양성이거나(특히 특정 임계치보다 큰 양으로 IHC 염색의 표적 분자를 포함함) 또는 음성인(분자를 포함하지 않거나 특정 임계치보다 낮은 양의 분자를 포함함) 조직 클래스 또는 세포 유형을 포함하지만, 이에 한정되는 것은 아니다.
일부 예에서, 바이오마커 검출은 향상된 바이오마커를 개발하기 위해 이미징 척도를 구조화된 임상 및 서열분석 데이터와 조합함으로써 향상될 수 있다.
바이오마커들은 다음의 모델들 중 임의의 모델을 통해 식별될 수 있다. 본원에서 언급된 임의의 모델은 인공지능 엔진으로서 구현될 수 있으며, 구배 부스팅 모델, 랜덤 포레스트 모델, 신경 네트워크(NN: neural network), 회귀 모델, 나이브 베이즈(Naive Bayes) 모델, 또는 머신러닝 알고리즘(MLA: machine learning algorithm)을 포함할 수 있다. MLA 또는 NN은 훈련 데이터 세트로부터 훈련될 수 있다. 예시적인 예측 프로파일에서, 훈련 데이터 세트는 이미징, 병리학, 임상, 및/또는 분자 보고 및 환자의 세부사항, 예를 들어, EHR 또는 유전자 서열분석 리포트로부터 제공된 것들을 포함할 수 있다. MLA는 선형 회귀, 로지스틱 회귀, 의사결정 트리, 분류 및 회귀 트리, 나이브 베이즈, 최근 이웃 군집화를 이용한 지도 알고리즘들(예를 들어, 데이터 세트 내의 특징/분류가 주석되어 있는 알고리즘들)과, Apriori, 평균 군집화, 주 성분 분석, 랜덤 포레스트, 적응형 부스팅을 이용한 비지도(unsupervised) 알고리즘(예를 들어, 데이터 세트 내의 특징/분류가 주석이 되어 있지 않은 알고리즘)과, 생성 접근법(예를 들어, 가우시안 분포들의 혼합, 다항 분포들의 혼합, 은닉 마르코프 모델들의 혼합), 저밀도 분리, 그래프 기반 접근법들(예를 들어, mincut, 고조파 함수, 매니폴드 정규화), 휴리스틱 접근법들, 또는 지지 벡터 머신들을 이용하는 반(semi)-지도 알고리즘(예를 들어, 데이터 세트 내의 불완전한 수의 특징/분류가 주석되어 있는 알고리즘)을 포함한다. NN은 조건부 랜덤 필드, 컨볼루션 신경 네트워크, 주의력 기반 신경 네트워크, 딥러닝, 긴 단기 기억 네트워크, 또는 훈련 데이터 세트가 복수의 종양 샘플들, 각각의 샘플에 대한 RNA 발현 데이터, 및 각각의 샘플에 대한 이미징 데이터를 커버하는 병리 보고를 포함하는 다른 신경 모델들을 포함한다. MLA 및 신경 네트워크는 머신러닝에 대한 별개의 접근법이지만, 이 용어들은 본원에서 상호교환적으로 사용될 수 있다. 따라서, 명시적으로 달리 언급되지 않는 한, MLA의 언급은 대응하는 NN을 포함할 수 있거나, 또는 NN의 언급은 대응하는 MLA를 포함할 수 있다. 훈련은 최적화된 데이터세트를 제공하는 단계, 이러한 형질이 환자 기록에서 발생하라 때 라벨링하는 단계, 및 MLA를 훈련하여 새로운 입력에 기초하여 예측하거나 분류하는 단계를 포함할 수 있다. 인공 NN은 인공지능의 어려운 문제를 해결하는데 있어서 그들의 강점을 보여주는 효율적인 컴퓨팅 모델이다. 이들은 또한 (적절한 파라미터가 주어질 때 광범위한 기능을 나타낼 수 있는) 범용 근사기로 사용되어 왔다. 일부 MLA는 중요한 특징들을 식별하고 그들에 대한 계수 또는 가중치를 식별할 수 있다. 계수는 점수를 생성하기 위해 특징의 발생 빈도와 곱해질 수 있고, 일단 하나 이상의 특징의 점수가 임계치를 초과하면, MLA에 의해 특정 분류가 예측될 수 있다. 계수 스키마는 다수의 특징에 기초한 예측과 같은, 보다 복잡한 예측들을 생성하기 위해 규칙 기반 스키마와 조합될 수 있다. 예를 들어, 10개의 주요 특징들이 상이한 분류들에 걸쳐 식별될 수 있다. 계수들의 리스트가 주요 특징들에 대해 존재할 수 있고, 분류에 대한 규칙 세트가 존재할 수 있다. 규칙 세트는 특징의 발생 횟수, 특징들의 스케일링된 가중치, 또는 통상의 기술자에게 공지된 로직에 인코딩된 특징들의 다른 정성적 및 정량적 평가에 기초할 수 있다. 다른 MLA에서, 특징들은 이진 트리 구조로 구성될 수 있다. 예를 들어, 가장 많은 분류들을 구별하는 주요 특징들은 특정 분류가 트리의 말단 노드에 도달하는 것에 기초하여 보상될 수 있을 때까지 이진 트리의 루트 및 트리 내의 각각의 후속 브랜치로서 존재할 수 있다. 예를 들어, 이진 트리는 제1 특징을 테스트하는 루트 노드를 가질 수 있다. 이 특징의 발생 또는 비-발생이 존재해야 하며(이진 결정), 로직은 분류되는 항목에 대해 참인 브랜치를 순회할 수 있다. 추가적인 규칙들은 임계치들, 범위들, 또는 다른 정성적 및 정량적 테스트들에 기초할 수 있다. 훈련 데이터 세트가 여러 알려진 값들 또는 주석들을 갖는 경우 지도 방법이 유용한 반면, EMR/EHR 문서들의 특성은 여러 주석이 제공되지 않을 수 있다는 것이다. 많은 양의 라벨링되지 않은 데이터를 탐색하는 경우, 데이터 세트의 비닝(binning)/버켓팅(bucketing) 인스턴스에 대한 비-지도 방법이 유용하다. 상기 모델들의 단일 인스턴스, 또는 조합된 2개 이상의 이러한 인스턴스들은 본원에서 모델들, 인공 지능, 신경 네트워크들, 또는 머신러닝 알고리즘들을 위한 특정 모델을 구성할 수 있다.
일부 예에서, 본 기술들은 종양 영역, 및/또는 특정 영역 내의 영역들 또는 세포 유형들의 특징(예를 들어, 림프구, PD-L1 양성 세포, 높은 정도의 종양 발아를 갖는 종양 등)을 자동으로 식별하고 윤곽을 형성하는 것, 해당 종양 영역 내의 세포를 카운팅하는 것, 병리 슬라이드 리뷰의 효율성 및 객관성을 향상시키기 위한 결정 점수를 생성하는 것을 포함하는 머신러닝-보조 조직병리학 이미지 리뷰를 제공한다.
본원에 사용된 바와 같이, 용어 "바이오마커"는 암 또는 다른 질병의 스크리닝, 진단, 예후, 치료, 선택, 질병 모니터링, 진행, 및 질병 재발과 관련된 이미지-도출된 정보, 및 특히 조직학적으로 염색된 샘플에서 식별될 수 있는 형태학적 특징의 형태의 정보를 지칭한다. 본원의 바이오마커는 일부 예에서, 라벨링된 기반 이미지로부터 결정된 형태학적 특징일 수 있다. 본원의 바이오마커는 라벨링된 RNA 데이터로부터 결정된 형태학적 특징일 수 있다.
본원의 바이오마커는, 암의 존재 또는 대상체에서의 암에 대한 민감성과 상관된 이미지-도출된 정보, 암이 하나의 아형 대 또다른 아형일 가능성, 생물학적 특징(예를 들어 조직, 세포, 또는 단백질 유형 또는 클래스)의 존재 또는 비율, 환자가 특정 치료법 또는 치료법의 클래스에 반응하거나 반응하지 않을 확률, 치료 또는 치료들의 클래스에 대해 예상되는 양성 반응의 정도(예를 들어, 생존 및/또는 무진행 생존), 환자가 치료에 반응하고 있는지의 여부, 암이 퇴행하거나, 진행되거나, 또는 그 발원 부위 너머로 진행(즉, 전이)될 가능성일 수 있다.
본원의 다양한 기술을 사용하여 조직병리학 이미지로부터 예측되는 예시적인 바이오마커들은 다음을 포함한다.
본원에 사용된 바와 같이, 종양-침윤성 림프구(TIL)는 종양 조직 또는 기질을 침투하는 단핵 면역 세포를 지칭한다. TIL은, 예를 들어 T 세포, B 세포 및 NK 세포를 포함하고, 이들의 집단은 기능, 활성, 및/또는 바이오마커 발현에 기초하여 하위 분류될 수 있다. 예를 들어, TIL의 집단은 예를 들어 CD3 및/또는 CD8을 발현하는 세포독성 T 세포, 및 FOXP3 발현을 종종 특징으로 하는 조절 T 세포(억제인자 T 세포로도 알려짐)를 포함할 수 있다. TIL 밀도, 위치, 구조 및 조성에 관한 정보는 예후 및 잠재적 치료 옵션에 관한 중요한 통찰력을 제공한다. 다양한 양태들에서, 본 개시는 샘플 내의 TIL 밀도를 예측하는 방법, 샘플 내의 TIL의 부분 집단을 구별하는 방법(예를 들어, FOXP3 Treg로부터 CD3/CD8-발현 세포독성 T 세포를 구별하는 방법), 기질 대 종양내 TIL을 구별하는 방법 등을 제공한다.
프로그래밍된 사멸-리간드 1(PD-L1)은 특히 자가면역 질환, 암 및 기타 질환 상태를 갖는 환자에게 영향을 미치는 면역계를 억제하는데 있어서, 특정 역할을 하는 40kDa 유형 1 막횡단 단백질이다. 암 면역요법과 관련하여, PD-L1은 종양 세포, 종양-관련 대식세포(TAM), 및 T 림프구의 표면 상에서 발현될 수 있고, 후속적으로 PD-1-양성 T 세포를 억제할 수 있다.
배수성(ploidy)은 세포 또는 유기체의 게놈 내의 상동성 염색체의 세트의 수를 지칭한다. 예들은, 1세트의 염색체를 의미하는 반수체, 및 2세트의 염색체를 의미하는 이배체를 포함한다. 유기체의 게놈 내에 쌍을 이룬 염색체의 다중 세트를 갖는 것은 배수체(polyploid)로 기술된다. 3세트의 염색체 3n은 3배체인 반면, 4세트의 염색체 4n은 4배체이다. 매우 많은 수의 세트들이 숫자에 의해 지정될 수 있다(예를 들어 15개의 세트의 경우 15배체).
핵-대-세포질(NC: nucleus-to-cytyoplasm) 비율은 세포의 핵의 크기 대 해당 세포의 세포질의 크기의 비율의 측정이다. NC 비율은 체적 비 또는 단면적으로 표현될 수 있다. NC 비율은 세포 성숙도와 함께 감소하는 세포핵의 크기를 이용하여, 세포의 성숙도를 나타낼 수 있다. 대조적으로, 세포 내의 높은 NC 비율은 세포 악성종양의 지표일 수 있다.
인환(signet ring) 형태는 인환 세포, 즉, 큰 공포(vacuole)를 갖는 세포의 형태이고, 이의 악성 유형은 주로 암종의 경우에 대부분 나타난다. 인환 세포는 위암과 가장 빈번하게 관련되지만, 전립선, 방광, 담낭, 유방, 결장, 난소 기질 및 고환을 포함하는 임의의 수의 조직으로부터 발생할 수 있다. 예를 들어, 인환 세포 암종(SRCC: signet ring cell carcinoma)은 고도로 악성인 선암종의 희귀한 형태이다. 이는 인환 세포의 조직학적 외관을 특징으로 하는 상피 악성종양이다.
이러한 바이오마커들, TIL, NC 비율, 배수성, 인환 형태, 및 PD-L1은 본원의 기술들에 따라, 라벨링된 기반 이미지로부터 결정되는 형태학적 특징의 바이오마커들의 예이다.
컨센서스 분자 아형(CMS)은 포괄적인 유전자 발현 프로파일 분석에 기초하여 개발된 대장암(CRC: colorectal cancer)의 분류 아형의 일 세트이다. 원발 대장암의 CMS 분류는 CMS1 - 면역 침윤(종종 BRAFmut, MSI-High, TMB-High), CMS2 - 정규(종종 ERBB/MYC/WNT 유발), CMS3 - 대사(종종 KRASmut), 및 CMS4 - 간엽(종종 TGF-B 유발)을 포함한다. 보다 광범위하게, 본원에서 CMS는 대장암에 대한 이들 및 다른 아형을 포함한다. 보다 광범위하게, 본원에서 CMS는 본원에 열거된 다른 암 유형의 포괄적인 유전자 발현 프로파일 분석으로부터 유래된 아형을 지칭한다.
상동성 재조합 결핍("HRD") 상태는 염색체 영역의 복제의 손실을 초래하는 정상적인 상동성 재조합 DNA 손상 복구 과정의 결핍을 나타내는 분류이며, 이는 게놈의 이형접합성 손실(LOH: loss of heterozygosity)이라고 지칭된다.
CMS 및 HRD와 같은 바이오마커는 본원의 기술들에 따라 라벨링된 RNA 데이터로부터 결정된 형태학적 특징의 바이오마커의 예들이다.
예를 들어, 본원의 바이오마커들은 HRD 상태, DNA 배수성 점수, 핵형, CMS 점수, 염색체 불안정성(CIN: chromosomal instability) 상태, 인환 형태 점수, NC 비율, 세포 경로 활성화 상태, 세포 상태, 종양 특징 및 스플라이스 변이체를 포함한다.
본원에 사용되는 바와 같이, "조직병리학 이미지"는 현미경 조직병리학적으로 현상된 조직의 디지털(디지털화된 것을 포함) 이미지를 지칭한다. 예들은 조직학적으로 염색된 표본 조직의 이미지들을 포함하며, 여기서 조직학적 염색은 현미경 연구를 보조하기 위한 샘플 조직의 준비에서 취해지는 과정이다. 일부 예에서, 조직병리학 이미지들은 헤마톡실린 및 에오신 염색(H&E) 염색된 조직병리학 슬라이드, 면역조직화학(IHC) 염색 슬라이드, Romanowsky Stains-Giemsa 염색된 슬라이드, Gram 염색 슬라이드, 삼색 염색 슬라이드, 카민 염색 슬라이드, 및 질산은 염색된 슬라이드의 디지털 이미지들이다. 다른 예들은 혈액 스미어링된(smeared) 슬라이드 및 종양 스미어링된 슬라이드를 포함한다. 다른 예에서, 조직병리학 이미지는 당업계에 공지된 다른 염색된 슬라이드들이다. 본원에 사용되는 바와 같이, 디지털 이미지, 디지털화된 이미지, 슬라이드 이미지, 및 의학 이미지에 대한 언급은 "조직병리학 이미지"를 지칭한다.
이들 조직병리학 이미지들은 가시광 파장 영역에서뿐만 아니라 조직병리학적으로 현상된 조직의 분광 검사를 이용하여 획득된 적외선 디지털 이미지들과 같이, 가시광 영역 너머에서 포착될 수 있다. 일부 예에서, 조직병리학 이미지들은 시편의 다양한 레벨들 또는 슬라이드의 다양한 초점 거리들에서 포착된, 3차원 시료 또는 조직병리학 슬라이드의 수평 단면들을 나타내는 z-스택 이미지들을 포함한다. 일부 예에서, 2개 이상의 이미지들은 시료로부터 조직의 인접하거나 거의 인접한 부분들로부터의 것일 수 있고, 2개 이상의 이미지들 중 하나는 2개 이상의 이미지들 중 다른 하나 상의 조직 특징들에 대응하는 조직 특징들을 가질 수 있다. 제1 이미지 내의 대응하는 조직 특징들의 위치와 제2 이미지 내의 대응하는 조직 특징들의 위치 사이의 수직 및/또는 수평 시프트(shift)가 있을 수 있다. 따라서, 조직병리학 이미지들은 또한 이미지들, 이미지들의 세트들, 또는 다수의 상이한 이미지들로부터 생성된 비디오들을 지칭한다. 명시적으로 배제되지 않는 한, 이하의 예시적인 실시예들은 상이한 염색 스타일을 이용하여 상호교환되거나, 또는 모델 훈련될 수 있음을 이해해야 한다.
본원의 다양한 예들은 특정 클래스의 조직병리학 이미지, H&E 슬라이드 이미지들을 참조하여 설명된다. 디지털 H&E 슬라이드 이미지는 H&E 슬라이드의 디지털 사진을 캡처함으로써 생성될 수 있다. 대안적으로 또는 추가적으로, 이러한 이미지는 염색되지 않은 조직으로부터 유도된 이미지로부터, 딥러닝과 같은 머신러닝 시스템을 통해 생성될 수 있다. 예를 들어, 디지털 H&E 슬라이드 이미지는 라벨링되지 않은 조직 절편의 광시야 자가형광 이미지들로부터 생성될 수 있다. 예를 들어, 문헌[Rivenson et al, Virtual histological staining of unlabelled tissue-autofluorescence images via deep learning. Nature Biomedical Engineering, 3(6):466, 2019]을 참조하라.
도 1은 조직 샘플의 조직병리학 슬라이드들의 디지털 이미지들을 분석하고 해당 조직에서 바이오마커의 존재 가능성을 판단할 수 있는 예측 시스템(100)을 도시하며, 여기서 바이오마커 존재는 예측된 종양 존재, 예측된 종양 상태/조건, 또는 조직 샘플의 종양에 대한 다른 정보, 예를 들어, 바이오마커와 관련된 치료의 사용을 통한 임상적 반응의 가능성을 나타낸다.
시스템(100)은, 다른 것들 중에서도, 이미지 처리 동작, 딥러닝 프레임워크, 및 조직 샘플의 조직병리학 이미지를 분석하고 조직 샘플 내의 바이오마커의 존재를 예측하는 보고 및 생성 동작을 구현하는 이미징 기반 바이오마커 예측 시스템(102)을 포함한다. 다양한 예들에서, 시스템(100)은 이러한 바이오마커들의 존재, 이러한 바이오마커들과 연관된 조직 위치(들), 및/또는 이러한 바이오마커들의 세포 위치를 예측하도록 구성된다.
이미징 기반 바이오마커 예측 시스템(102)은 컴퓨터, 태블릿 또는 다른 모바일 컴퓨팅 장치와 같은 하나 이상의 컴퓨팅 장치, 또는 클라우드 서버와 같은 서버 상에서 구현될 수 있다. 이미징 기반 바이오마커 예측 시스템(102)은 본원에 설명된 바와 같이, 이미지 캡처, 생성, 또는 저장 및 이미지 분석을 처리하거나 용이하게 하기 위한 다수의 프로세서들, 컨트롤러들 또는 다른 전자 구성요소들과, 이미지들의 분석을 위한 딥러닝 툴들을 포함할 수 있다. 이미징 기반 바이오마커 예측 시스템(102)을 구현하기 위한 예시적인 컴퓨팅 장치(3800)는 도 38에 도시되어 있다.
도 1에 도시된 바와 같이, 이미징 기반 바이오마커 예측 시스템(102)은 네트워크(104)를 통해 하나 이상의 의료 데이터 소스에 연결된다. 네트워크(104)는 인터넷과 같은 공개 네트워크, 연구 기관이나 기업의 사설 네트워크와 같은 사설 네트워크, 또는 이들의 임의의 조합일 수 있다. 네트워크는 LAN(local area network), WAN(Wide Area Network), 세포룰러, 위성, 또는 유선이거나 무선인 다른 네트워크 인프라구조를 포함할 수 있다. 네트워크(104)는 클라우드 기반 플랫폼의 일부일 수 있다. 네트워크(104)는 IP(internet protocol), TCP(transmission control protocol), UDP(user datagram protocol), 또는 다른 유형의 프로토콜과 같은 패킷 기반 및/또는 데이터그램 기반 프로토콜을 포함하는 통신 프로토콜을 이용할 수 있다. 또한, 네트워크(104)는 네트워크 통신을 용이하게 하고/하거나, 스위치들, 라우터들, 게이트웨이들, 액세스 포인트들(도시된 무선 액세스 포인트와 같음), 방화벽들, 기지국들, 리피터들, 백본 장치들 등과 같은 네트워크들을 위한 하드웨어 기반을 형성하는, 다수의 장치들을 포함할 수 있다.
네트워크(104)를 통해, 이미징 기반 바이오마커 예측 시스템(102)은 의료 이미지, 예를 들어, 디지털 H&E 염색된 슬라이드 이미지, IHC 염색된 슬라이드 이미지, 또는 다양한 상이한 소스로부터의 임의의 다른 염색 프로토콜의 디지털 이미지와 같은 조직병리학 슬라이드의 의료 이미지를 수신하도록 통신 가능하게 연결된다. 이들 소스는 의사 임상 기록 시스템(106) 및 조직병리학 이미징 시스템(108)을 포함할 수 있다. 임의의 수의 의료 이미지 데이터 소스는 시스템(100)을 사용하여 액세스될 수 있다. 조직병리학 이미지들은 임의의 전용 디지털 의료 이미지 스캐너들, 예를 들어, 20x 및 40x 해상도 확대 스캐너들을 포함하는 임의의 적절한 광학 조직병리학 슬라이드 스캐너에 의해 캡처된 이미지일 수 있다. 또한, 바이오마커 예측 시스템(102)은 조직병리학 이미지 저장소(110)로부터 이미지들을 수신할 수 있다. 또 다른 예에서, 이미지들은 파트너 게놈 서열분석 시스템(112), 예를 들어, TCGA 및 NCI Genomic Data Commons로부터 수신될 수 있다. 또한, 바이오마커 예측 시스템(102)은 오가노이드(organoid) 모델링 실험실(116)으로부터 조직병리학 이미지들을 수신할 수 있다. 이러한 이미지 소스들은 본원에 설명된 기술들 및 프로세스들에 따라 이미지 데이터, 게놈 데이터, 환자 데이터, 치료 데이터, 이력 데이터 등을 통신할 수 있다. 이미지 소스들 각각은 다수의 이미지 소스들을 나타낼 수 있다. 또한, 이들 이미지 소스들 각각은 상이한 데이터 소스로 간주될 수 있고, 이러한 데이터 소스들은 다른 제공자들, 병원들 등과는 상이한 이미징 데이터를 생성 및 제공할 수 있다. 상이한 소스들 사이의 이미징 데이터는 잠재적으로 하나 이상의 방식이 상이하여, 상이한 데이터 소스-특정 바이어스, 예를 들어 상이한 염료, 생체 시료 고정, 매립, 염색 프로토콜, 및 상이한 병리 이미징 기기 및 설정을 초래한다.
도 1의 예에서, 이미징 기반 바이오마커 예측 시스템(102)은 머신러닝 프레임워크를 훈련하는데 있어서의 더 빠른 처리 및 훈련된 딥러닝 프레임워크를 이용하여 바이오마커 예측을 수행하기 위해 이미지 데이터를 향상시키도록 초기 이미지 처리를 수행하는 이미지 전처리 서브시스템(114)을 포함한다. 도시된 예에서, 이미지 전처리 서브시스템(114)은 수신된 이미지 데이터에서의 차이들을 보상하고 정정하기 위해, 컬러 정규화(114a), 강도 정규화(114b), 및 이미징 소스 정규화(114c) 중 하나 이상을 포함하는 수신된 이미지 데이터에 대한 정규화 프로세스를 수행한다. 일부 예에서, 이미징 기반 바이오마커 예측 시스템(102)은 의료 이미지를 수신하지만, 다른 예에서, 서브시스템(114)은 수신된 조직병리학 슬라이드들로부터 또는 다른 수신된 이미지들로부터, 예를 들어, 수직/수평 시프트를 보상하기 위해 시프트된 조직병리학 이미지를 정렬함으로써 복합 조직병리학 이미지를 생성하는 것과 같은 의료 이미지들을 생성할 수 있다. 이러한 이미지 전처리는 딥러닝 프레임워크가 대규모 데이터 세트에 걸친 이미지들(예를 들면, 수천 초과, 수만, 최대 수십만, 최대 수백만의 의료 이미지들)을 더 효율적으로 분석할 수 있게 하여, 더 빠른 훈련 및 더 빠른 분석 처리를 초래한다.
이미지 전처리 서브시스템(114)은, 예를 들어, 후속하는 분석, 분류 및 분할을 위해 조직병리학 염색된 조직에 대응하는 이미지들의 영역을 식별하기 위해 예비 조직 검출(114d)을 수행함으로써, 수신된 이미지들로부터 아티팩트 및 다른 노이즈를 제거하는 추가적인 이미지 처리를 수행할 수 있다.
본원에서 더 설명되는 바와 같이, 이미지 데이터가 타일 기반으로 분석되어야 하는 다중 스케일 구성에서, 일부 예에서, 이미지 전처리는 제1 이미지 해상도의 초기 조직병리학 이미지를 수신하는 단계, 해당 이미지를 제2 이미지 해상도로 다운샘플링하는 단계, 다운샘플링된 조직병리학 이미지에 대해 컬러 및/또는 강도 정규화와 같은 정규화를 수행하는 단계, 및 이미지로부터 비(非)-조직 객체를 제거하는 단계를 포함한다.
이와 달리, 단일 스케일 구성에서는, 수신된 조직병리학 이미지의 다운샘플링이 사용되지 않는다. 단일 스케일 구성은 타일 기반이 아니라 슬라이드 레벨에 기초하여 이미지 데이터를 분석한다.
각각의 다중 스케일 및 단일 스케일 구성의 일부 하이브리드 버전에서는, 타일 기반 분석을 위해 타일을 생성하도록, 수신된 조직병리학 이미지에 타일링 프로세스가 적용된다.
이미징 기반 바이오마커 예측 시스템(102)은 외부(즉, 제3자) 네트워크 액세스 가능 시스템들(106, 108, 110, 112, 116)과 인터페이스하는 독립형 시스템일 수 있다. 일부 예에서, 이미징 기반 바이오마커 예측 시스템(102)은 분산된 클라우드 기반 플랫폼의 일부로서 포함하는 하나 이상의 이러한 시스템들과 통합될 수 있다. 예를 들어, 시스템(102)은 디지털 H&E 염색 이미지 시스템과 같은 조직병리학 이미징 시스템과 통합될 수 있는데, 이는 예를 들어 신속한 바이오마커 분석 및 이미징 스테이션에서의 보고를 가능하게 한다. 실제로, 본원의 기술들에서 설명된 임의의 기능들은 클라우드 기반 장치들을 포함하는 하나 이상의 네트워크 액세스 가능 장치들에 걸쳐 분산될 수 있다.
일부 예에서, 이미징 기반 바이오마커 예측 시스템(102)은 포괄적 바이오마커 예측, 환자 진단, 및 환자 치료 시스템의 일부이다. 예를 들어, 이미징 기반 바이오마커 예측 시스템(102)은, 이미지 오버레이 매핑을 포함하는 생성된 바이오마커 보고서를 수신할 수 있고 환자의 암 상태를 추가적으로 진단하기 위해 그리고 환자를 치료하는데 사용하기 위한 매칭 치료를 식별하기 위해 동일하게 사용할 수 있는 컴퓨터 기반의 병리학 실험실/종양학 시스템(118)을 포함하는 외부 시스템에 대해, 예측된 바이오마커 정보, 종양 예측, 및 종양 상태 정보를 통신하도록 연결될 수 있다. 이미징 기반 바이오마커 예측 시스템(102)은 환자의 주요 돌봄 제공자의 컴퓨터 시스템(120)에 대해, 그리고 환자에 대한 이전에 생성된 보고를 이용하여 및/또는 본원에 설명된 것과 같은 딥러닝 분석을 포함하는 미래 환자 분석에 사용하기 위한 다른 환자에 대해 생성된 보고의 데이터베이스를 이용하여 환자 보고를 데이터베이스에 저장하기 위한 의사 임상 기록 시스템(122)에 대해, 생성된 보고들을 더 전송할 수 있다.
수신된 조직병리학 이미지 데이터 및 다른 데이터를 분석하기 위해, 이미징 기반 바이오마커 예측 시스템(102)은 이미지 데이터의 수신된 훈련 세트들 또는 이미지 데이터 및 다른 환자 정보의 세트들로부터의 이미지 기반 바이오마커 분석을 위한 훈련된 분류기 모델들을 생성하기 위해 다양한 머신러닝 기술들을 구현하는 딥러닝 프레임워크(150)를 포함한다. 훈련된 분류기 모델들을 이용하여, 딥러닝 프레임워크(150)는 환자로부터 수집된 후속 이미지들에서 이미지 기반 바이오마커의 존재를 분석하고 진단하는 데에 더 사용된다. 이런 식으로, 이전에 치료되고 분석된 환자의 이미지들 및 다른 데이터가 훈련된 모델을 통해 이용되어, 미래의 환자에 대한 분석 및 진단 능력을 제공한다.
예시적인 시스템(100)에서, 딥러닝 프레임워크(150)는 외부 시스템(106, 108, 110, 112, 116)으로부터, 그리고 수신된 데이터 스트림으로부터 해당 데이터가 파싱될 수 있고 다른 데이터 유형으로 데이터베이스화될 수 있는 임의의 다른 것들로부터, 수신되고 저장된 데이터에 액세스할 수 있는 조직병리학 이미지 기반의 분류기 훈련 모듈(160)을 포함한다. 상이한 데이터 유형들은 다른 데이터 유형 분자 데이터(162b), 인구 통계 데이터(162c), 및 종양 반응 데이터(162d)와 연관될 수 있는 이미지 데이터(162a)로 분할될 수 있다. 연관은 이미지 데이터(162a)를 상이한 데이터 유형들 중 하나 이상으로 라벨링함으로써 형성될 수 있다. 다른 데이터 유형과의 연관에 따라 이미지 데이터(162a)를 라벨링함으로써, 이미징 기반 바이오마커 예측 시스템은 이미지 분류 모듈을 훈련하여, 이미지 데이터(162a)로부터 하나 이상의 상이한 데이터 유형을 예측할 수 있다.
예시된 데이터에서, 딥러닝 프레임워크(150)는 이미지 데이터(162a)를 포함한다. 예를 들어, 다중 스케일의 PD-L1 바이오마커 분류기를 훈련시키거나 사용하기 위해, 이러한 이미지 데이터(162a)는 서브시스템(114)으로부터 수신된 전처리된 이미지 데이터, H&E 슬라이드들로부터의 이미지들을 포함하거나, 또는 PD-L1, PTEN, EGFR, 베타 카테닌/카테닌 베타 1, NTRK, HRD, PIK3CA을 타겟으로 하고, HER2, AR, ER, 및 PR을 포함하는 호르몬 수용체들을 타겟으로 하는 IHC 슬라이드들을 포함하는, IHC 슬라이드들로부터의 이미지들(사람의 주석을 포함하거나 포함하지 않음)을 포함할 수 있다. 다른 바이오마커 분류기를 훈련하거나 사용하기 위해, 다중 스케일 분류기 또는 단일 스케일 분류기에 상관없이, 이미지 데이터(162A)는 다른 염색된 슬라이드들로부터의 이미지들을 포함할 수 있다. 또한, 단일 스케일 분류기를 훈련하는 예에서, 이미지 데이터(162A)는 본원에서 다중 인스턴스 학습(MIL) 기술을 가능하게 하는, 특정 바이오마커 군집에 대한 RNA 서열 데이터와 연관된 이미지 데이터이다.
분자 데이터(162b)는 DNA 서열, RNA 서열, 대사물질 데이터, 프로테오믹/사이토카인 데이터, 후생게놈 데이터, 오가노이드 데이터, 원핵형 데이터, 전사 데이터, 전사체, 대사체 데이터, 미생물균체 데이터, 및 면역 데이터를 포함할 수 있으며, SNP, MNP, InDel, MSI, TMB, CNV 융합, 이형접합성의 손실, 기능 손실 또는 이득의 식별을 포함할 수 있다. 게놈 데이터는 DNA 메틸화, 히스톤 개질, 또는 유전자를 비활성화시키거나 유전자 내 뉴클레오티드의 서열을 변경시키지 않으면서 유전자 기능에 대한 변경을 야기하는 다른 인자를 포함한다. 미생물균체 데이터는 특정 질병의 치료 및 진단뿐만 아니라, 환자에 의해 섭취된 약물의 효능에 영향을 미칠 수 있는, 환자의 위장관에 존재하는 박테리아에 영향을 미칠 수 있는 바이러스 감염에 대한 데이터를 포함한다. 프로테오믹 데이터는 단백질 조성, 구조 및 활성, 단백질이 발현되는 시기 및 경우, 단백질 생산, 분해 및 안정-상태 존재의 비율, 단백질이 변형되는 방식(예를 들어, 인산화와 같은 번역 후 변형), 세포내 구획 사이에서의 단백질의 이동, 대사 경로에서의 단백질의 관여, 단백질들이 서로 상호작용하는 방식, 또는 RNA로부터의 번역 후 단백질에 대한 변형(예를 들면, 인산화, 유비퀴틴화, 메틸화, 아세틸화, 글리코실화, 산화, 및 니트로실화)을 포함한다.
딥러닝 프레임워크(150)는 인구 통계 데이터(162c) 및 종양 반응 데이터(162d)(특정 요법에 노출된 후 종양의 성장의 감소에 대한 데이터, 예를 들어 면역요법이나, PARP 억제제 또는 플래티넘(platinums), 또는 HDAC 억제제와 같은 DNA 손상 요법)를 더 포함할 수 있다. 인구 통계 데이터(162c)는 연령, 성별, 인종, 태생 국가 등을 포함할 수 있다. 종양 반응 데이터(162d)는 후생게놈 데이터, 예를 들어, 염색질 형태 및 히스톤 변형에 있어서의 변경을 포함할 수 있다.
종양 반응 데이터(162d)는 세포 경로, 예를 들어, IFNgamma, EGFR, MAP KINASE, mTOR, CYP, CIMP, 및 AKT 경로뿐만 아니라 HER2 및 다른 호르몬 수용체의 하류 경로를 포함할 수 있다. 종양 반응 데이터(162d)는 세포 상태 지시자, 예를 들어, 콜라겐 조성물, 외관 또는 굴절(예를 들어, 세포외 대 섬유아세포, 결절성 근막염), 기질 밀도 또는 다른 기질 특징(예를 들어, 기질의 두께, 습윤 대 건조) 및/또는 혈관형성 또는 혈관구조의 일반적인 외관(상피-간엽 전이 또는 EMT로도 설명되는 것과 같은 콜라겐/기질에서의 혈관구조 분포를 포함함)을 포함할 수 있다. 종양 반응 데이터(162d)는 종양 특징, 예를 들어, 종양 발아의 존재 또는 종양의 복잡성을 나타내는 다른 형태적 특징/특성, 종양 크기(종양의 부피 또는 광 상태를 포함함), 종양의 공격성(예를 들어, 특히, 대장암에서 높은 등급의 기저양 종양으로, 또는 특히 바렛식도에서 높은 등급의 이형성증으로 알려짐), 및/또는 종양의 면역 상태(예를 들어, 염증/"뜨거움" 대 비-염증/"차가움" 대 면역배제)를 포함할 수 있다.
조직병리학 이미지 기반의 분류기 훈련 모듈(160)은, 예를 들어, CNN 모델, 보다 구체적으로는 일부 예에서 FCN 모델로서 구현되는 타일-해상도의 CNN, 및 보다 더 구체적으로는 타일-해상도의 FCN 모델로서 구현되는 모델을 포함하는 딥러닝 기술들을 포함하는, 이미지 분석에 적합한 머신러닝 기술들로 구성될 수 있다. 데이터 유형들(162a 내지 162d) 중 임의의 것이 이미징 기반 바이오마커 예측 시스템(102)에 전달된 데이터로부터 직접 획득될 수 있고, 예를 들어, 조직병리학 이미지 내에 포함되고 그와 함께 통신될 수 있다. 데이터 유형들(162a-162d)은 본원에서 설명되는 하나 이상의 바이오마커들을 식별하기 위한 분류기들을 개발하기 위해 조직병리학 이미지 기반의 분류기 훈련 모듈(160)에 의해 사용될 수 있다.
일 예에서, 조직병리학 이미지는 분할될 수 있고, 이미지의 각각의 세그먼트는 해당 세그먼트로 분류될 수 있는 하나 이상의 데이터 유형들에 따라 라벨링될 수 있다. 다른 예에서, 조직병리학 이미지는 이미지 또는 이미지의 적어도 하나의 세그먼트로 분류될 수 있는 하나 이상의 데이터 유형에 따라 전체로서 라벨링될 수 있다. 데이터 유형들은 하나 이상의 바이오마커들을 나타내고, 조직병리학 이미지 또는 데이터 유형을 갖는 세그먼트를 라벨링하여 바이오마커가 식별될 수 있다.
예시적인 시스템(100)에서, 딥러닝 프레임워크(150)는 모듈(160)을 구현하는 것을 포함하여, 딥러닝 기술들과 함께 구성될 수 있는 훈련된 이미지 분류기 모듈(170)을 더 포함한다. 일부 예에서, 훈련된 이미지 분류기 모듈(170)은 분석 및 바이오마커 분류를 위해 이미지 데이터(162)에 액세스한다. 일부 예에서, 모듈(170)은 분석 및 종양 예측, 매칭된 치료 예측 등을 위해 분자 데이터(162), 인구 통계 데이터(162c), 및/또는 종양 반응 데이터(162d)에 더 액세스한다.
훈련된 이미지 분류기 모듈(170)은, 수신된 이미지 데이터의 영역들 내의 조직 유형을 식별하고 분류하기 위해, 하나 이상의 훈련 이미지 세트들을 사용하여 모듈(160)에 의해 훈련된, 훈련된 조직 분류기들(172)을 포함한다. 일부 예에서, 이들 훈련된 조직 분류기들은 조직 분류를 통해 바이오마커들을 식별하도록 훈련되며, 여기서 이들은 단일 스케일 구성된 분류기들(172a) 및 다중 스케일 분류기들(172b)을 포함한다.
모듈(170)은 세포 분류를 통해 바이오마커들을 식별하는 훈련된 세포 분류기(174)를 포함하는 다른 훈련된 분류기들을 더 포함할 수 있다. 모듈(170)은 세포 경계, 내부, 및 외부를 포함하는 조직병리학 이미지 내의 세포들을 식별하는 세포 세그먼터(176)를 더 포함할 수 있다.
본원의 예에서, 조직 분류기(172)는 본원의 바이오마커들에 따라, 종양 침윤(예를 들어, 종양 조직 내의 모든 세포에 대한 종양 조직에서의 림프구의 비율), PD-L1(예를 들어, 양성 또는 음성 상태), 배수성(예를 들어, 점수에 의해), CMS(예를 들어, 아형을 식별하기 위해), NC 비율(예를 들어, 핵 크기 식별), 인환 형태(예를 들어, 인환 세포 또는 액포 크기의 분류), HRD(예를 들어, 점수에 의해, 또는 양성 또는 음성 분류에 의해) 등을 식별하기 위해 특별히 훈련된 바이오마커 분류기들을 포함할 수 있다.
본원에 상세히 설명되는 바와 같이, 훈련된 이미지 분류기 모듈(170) 및 연관된 분류기들은, 예를 들어, CNN 모델, 보다 구체적으로는 일부 예에서 FCN 모델로서 구현되는 타일-해상도의 CNN, 및 보다 더 구체적으로는 타일-해상도의 FCN 모델로서 구현되는 모델 등을 포함하는 딥러닝 기술들을 포함하는, 이미지 분석에 적합한 머신러닝 기술들로 구성될 수 있다.
시스템(102)은 훈련된 조직(바이오마커) 분류기들(172), 훈련된 세포(바이오마커) 분류기들(174) 및 세포 분할기(172)로부터 분류 데이터를 수신하고, 이미지 데이터에 대한 종양 메트릭을 결정하며, 디지털 이미지 및 통계 데이터 보고를 생성하도록 구성된 종양 보고서 생성기(180)를 더 포함하며, 여기서 출력 데이터는 병리 실험실(118), 주요 돌봄 의사 시스템(120), 게놈 서열분석 시스템(112), 종양 보드, 종양 보드 전자 소프트웨어 시스템, 또는 추가적인 프로세스에서의 디스플레이 또는 소비를 위한 다른 외부 컴퓨터 시스템에 제공될 수 있다.
조직병리학 이미지를 사용하는 통상적인 암 진단 워크플로우(200)가 도 2에 도시되어 있다. 환자로부터 조직 샘플을 수집하기 위해 생검이 수행된다. 예를 들어, H&E 또는 IHC 염색과 같은 공지된 염색 기술 및 디지털 의료 이미저(예를 들어, 슬라이드 스캐너)를 이용하여, 의학 실험실은 조직 샘플에 대한 디지털 조직병리학 이미지를 생성한다(202). 수신된 이미지 내의 종양을 식별하기 위해 이들 조직병리학 이미지는 이들을 시각적으로 분석하는 병리학자에게 제공된다(204). 병리학자는 선택적으로, 환자에 대한 게놈 서열분석 데이터(예를 들어, 게놈 서열분석 실험실로부터의 DNA Seq 데이터 또는 RNA Seq 데이터)를 수신하고, 해당 데이터를 분석할 수 있다(206). 조직병리학 슬라이드 및 임의의 게놈 서열분석 데이터로부터의 시각적 분석으로부터, 병리학자는 암 유형, 종양/암 세포의 다른 특징들을 진단하고(208), 병리 보고를 생성한다(210).
도 3은 이미징 기반 바이오마커 예측 시스템(102)의 예시적인 구현예를 도시하며, 보다 구체적으로는 딥러닝 프레임워크(300)의 형태로 딥러닝 프레임워크(150)의 일 구현예를 도시한다. 프레임워크(300)는 외부 시스템, 예를 들어 의사 임상 기록 시스템(106), 조직병리학 이미징 시스템(108), 게놈 서열분석 시스템(112), 의료 이미지 저장소(110), 및/또는 도 1의 오가노이드 모델링 실험실(116) 및 네트워크(104)를 통해, 조직병리학 이미지 데이터 및 다른 데이터(분자 데이터, 종양 반응 데이터, 인구 통계 데이터 등)를 수신하도록 통신 가능하게 연결될 수 있다. 오가노이드 모델링 실험실(116)은 다양한 유형의 데이터, 예를 들어, 약물에 대한 오가노이드 민감성(예를 들어, 약물에 노출 후 세포 사멸 또는 세포 생존력을 측정함으로써 결정됨), 단일 세포 분석 데이터, 또는 유효화 데이터, 자극 데이터, 조절 데이터, 염증 데이터, 화학유인(chemoattractive) 데이터뿐만 아니라 분자 데이터(162b) 내에 저장될 수 있는 오가노이드 이미지 데이터를 포함하는 특정 세포 집단의 존재를 나타내는 세포 생성물(단백질, 지질 및 다른 분자 포함)의 검출을 수집할 수 있다.
프레임워크(300)는 전처리 컨트롤러(302), 딥러닝 프레임워크 세포 분할 모듈(304), 딥러닝 프레임워크 다중 스케일 분류기 모듈(306), 딥러닝 프레임워크 단일 스케일 분류기 모듈(307), 및 딥러닝 후처리 컨트롤러(308)를 포함한다.
다중 스케일 및 단일 스케일 딥러닝을 위한 의료 이미지를 준비하기 위해, 예를 들어, 전처리 컨트롤러(302)는 색 정규화, 강도 정규화, 및 이미징 소스 정규화를 포함할 수 있는 정규화 프로세스(310)를 포함한다. 정규화 프로세스(310)는 선택적(option)이며, 딥러닝 훈련, 이미지 분석 및/또는 바이오마커 예측을 촉진하기 위해 배제될 수 있다.
이미지 식별기(314)는 정규화 프로세스들(310)로부터 정규화된 조직병리학 이미지들을 수신하고, 이미지 메타데이터를 포함하는 이미지들을 검사하여 이미지 유형을 결정한다. 이미지 식별기(314)는 이미지가 훈련 이미지, 예를 들어 훈련 데이터 집합으로부터의 이미지인지를 판단하기 위해 이미지 데이터를 분석할 수 있다. 이미지 식별기(314)는 이미지 데이터를 분석하여 이미지 상의 라벨링 유형을 판단할 수 있고, 예를 들어, 이미지가 타일 수준의 라벨링, 슬라이드 수준의 라벨링, 또는 라벨링을 갖지 않는지 여부를 판단할 수 있다. 이미지 식별기(314)는 디지털 이미지, H&E, IHC 등을 생성하기 위해 사용되는 슬라이드 염색을 결정하기 위해 이미지 데이터를 분석할 수 있다.
이러한 이미지 데이터를 검사하는 것에 응답하여, 이미지 식별기(314)는 딥러닝 프레임워크 단일 스케일 분류기 모듈(307)로의 공급을 위해 슬라이드 수준의 라벨 파이프라인(313)에 제공될 이미지들과, 딥러닝 프레임워크 다중 스케일 분류기(306)로의 공급을 위해 타일 수준의 라벨 파이프라인(315)에 제공되어야 할 이미지들을 결정한다.
도시된 예에서, 파이프라인(315)을 타일 수준으로 라벨링하는 이미지들은 조직 검출 프로세스들 및 이미지 타일링 프로세스들을 포함한다. 이들 프로세스는 수신된 모든 이미징 데이터에 대해, 또는 훈련 이미지 데이터에 대해서만, 또는 분석을 위해 수신된 이미지 데이터에 대해서만, 또는 이들의 일부 조합에 대해, 수행될 수 있다. 일부 예에서, 예를 들어, 조직 검출 프로세스는 딥러닝 훈련, 이미지 분석, 및/또는 바이오마커 예측을 촉진하기 위해 배제될 수 있다. 실제로, 컨트롤러(302)의 임의의 프로세스는 전용 바이오마커 예측 시스템에서 수행될 수 있거나, 외부로 연결된 시스템에 의해 수행하기 위해 분산될 수 있다. 예를 들어, 조직병리학 이미징 시스템은 바이오마커 예측 시스템에 이미지 데이터를 전송하기 전에 정규화 프로세스를 수행하도록 구성될 수 있다. 일부 예에서, 바이오마커 예측 시스템은 정규화 또는 다른 전처리를 수행하도록 그러한 시스템들을 구성하는 연결된 외부 시스템들에 대해 실행가능한 정규화 소프트웨어 패키지를 전달할 수 있다.
이미지 식별기(314)가 파이프라인(315)에 라벨링되지 않은 이미지들을 전송하는 예들에서, 파이프라인(315)은 이들 조직병리학 이미지들 전부 또는 일부를 타일-라벨링된 이미지들로 변환하도록 구성된, 본원에서 더 설명되는, 다중 인스턴스 학습(MIL) 컨트롤러를 포함한다. MIL 컨트롤러는 도 18 내지 도 26에 도시된 것들과 같이 본원의 프로세스들을 수행하도록 구성될 수 있다.
훈련된 조직 분류기의 조직 검출을 촉진하기 위해, 파이프라인(315)의 조직 검출 프로세스는 초기 조직 식별을 수행하여, 바이오마커 분석을 위한 관심 있는 조직 영역을 찾아내고 분할할 수 있다. 이러한 관심 조직 식별은, 예를 들어, 조직 경계를 식별하고, 이미지를 조직 영역 및 비-조직 영역으로 분할하는 것을 포함하여, 조직 영역을 식별하는 메타데이터가 이미지 데이터와 함께 저장되게 하여 프로세스를 촉진하면서, 비-조직 영역 또는 검사되는 조직에 대응하지 않는 영역에서의 바이오마커 분석 시도를 방지할 수 있다.
다양한 다중 스케일 구성에서 딥러닝 분류를 용이하게 하기 위해, 딥러닝 프레임워크 다중 스케일 분류기 모듈(306)은 타일링 분석을 이용하여 조직을 분류하도록 구성된다. 예를 들어, 파이프라인(315)에서, 조직 검출 프로세스는 조직병리학 이미지들(예를 들어, 조직 검출 메타데이터를 이용하여 향상된 이미지 데이터)을, 수신된 이미지들에 타일링 마스크를 적용하여 이미지들을 프레임워크 모듈(306)에 의한 분석을 위해 작은 서브-이미지들로 파싱하는, 이미지 타일링 프로세스로 전송한다. 파이프라인(315)은 복수의 상이한 타일링 마스크를 저장하고 하나의 타일링 마스크를 선택할 수 있다. 일부 예에서, 이미지 타일링 프로세스는 상이한 바이오마커들에 대해 최적화된 하나 이상의 타일링 마스크를 선택하는데, 즉, 일부 예에서, 이미지 타일링은 바이오마커에 특이적이다. 이는, 예를 들어 정확도를 증가시키고/시키거나 특정 바이오마커와 연관된 처리 시간을 감소시키기 위해, 구체적으로 선택되는 상이한 픽셀 크기 및 상이한 픽셀 형상의 타일을 갖게 한다. 예를 들어, 이미지에서 TIL의 존재를 식별하기 위해 최적화된 타일 크기는 PD-L1 또는 다른 바이오마커를 식별하기 위해 최적화된 타일 크기와 상이할 수 있다. 이와 같이, 일부 예에서, 전처리 컨트롤러(302)는 바이오마커의 유형에 특이적인 이미징 처리 및 타일링을 수행하도록 구성되고, 시스템(300)이 해당 바이오마커에 대한 이미지 데이터를 분석한 후, 컨트롤러(302)는 모든 바이오마커들이 검사될 때까지 그 다음 바이오마커들에 대해 분석하기 위해 원래의 이미지 데이터를 재처리할 수 있다.
일반적으로 말하면, 파이프라인(315)의 이미지 타일링 프로세스에 의해 적용된 타일링 마스크는 딥러닝 프레임워크 모듈(306)의 동작의 효율을 증가시키도록 선택될 수 있다. 타일링 마스크는, 수신된 이미지 데이터의 크기에 기초하여, 딥러닝 프레임워크(306)의 구성에 기초하여, 프레임워크 모듈(304)의 구성에 기초하여, 또는 이들의 일부 조합에 기초하여 선택될 수 있다.
타일링 마스크는 타일링 블록의 크기가 다양할 수 있다. 일부 타일링 마스크는 균일한 타일링 블록, 즉 각각이 동일한 크기를 갖는다. 일부 타일링 마스크는 상이한 크기의 타일링 블록을 갖는다. 이미지 타일링 프로세스에 의해 적용되는 타일링 마스크는 예를 들어, 딥러닝 프레임워크(306) 내의 분류 층의 수에 기초하여 선택될 수 있다. 일부 예에서, 타일링 마스크는, 예를 들어, 다수의 병렬 프로세서들이 이용 가능하거나 그래픽 프로세싱 유닛들 또는 텐서 프로세싱 유닛들이 사용되는 경우, 바이오마커 예측 시스템의 프로세서 구성에 기초하여 선택될 수 있다.
도시된 예에서, 딥러닝 다중 스케일 분류기 모듈(304)은 세포 분할 모델(316)을 통해 세포 분할을 수행하도록 구성되며, 여기서 세포 분할은 정규화 프로세스(310)로부터의 조직병리학 이미지의 픽셀 수준의 프로세스일 수 있다. 다른 예에서, 이러한 픽셀 수준의 프로세스는 파이프라인(315)으로부터 수신된 이미지 타일들에 대해 수행될 수 있다. 일부 예에서, 프레임워크(304)의 세포 분할 프로세스는, 본원에서 식별된 바이오마커의 일부가, 조직 수준 분석과 달리, 세포 수준 분석으로부터 결정되기 때문에, 바이오마커 분류를 초래한다. 이들은 예를 들어 인환, 큰 핵 및 높은 NC 비율을 포함한다. 모듈(304)은 CNN 구성, 특히 각각의 개별 분할을 구현하기 위한 FCN 구성을 사용하여 구성될 수 있다.
딥러닝 프레임워크 다중 스케일 분류기 모듈(306)은 조직 분할 모델(318), 조직 분류 모델(320), 및 바이오마커 분류 모델(320)을 포함한다. 모듈(304)과 같이, 모듈(306)은 CNN 구성, 특히 각각의 개별 분할을 구현하기 위한 FCN 구성을 사용하여 구성될 수 있다.
예를 들어, 모듈(304)의 세포 분할 모델(316)은 3-클래스 분할 모델을 형성하기 위해, 손실 함수를 교차-엔트로피 함수(cross-entropy function), 국소 손실 함수(focal loss function), 또는 평균 제곱 오차 함수(mean square error function)로 대체하여 UNet 분류기를 변경함으로써 개발된 3-클래스 시맨틱 분할 FCN 모델로서 구성될 수 있다. FCN 모델의 3-클래스 특성은, 세포 분할 모델(316)이 이미지 데이터의 각각의 픽셀을 세포-하위단위 클래스, 즉, (i) 세포 내부, (ii) 세포 경계, 또는 (iii) 세포 외부로 식별 및 할당하는 제1 픽셀 수준의 FCN 모델로서 구성될 수 있다는 것을 의미한다. 이는 예로서 제공된다. 모듈 모델(316)의 분할 크기는 분할될 세포의 유형에 기초하여 결정될 수 있다. 모든 TIL 바이오마커에 대해, 예를 들어, 모델(316)은 3-클래스 FCN 모델을 사용하여 림프구 식별 및 분할을 수행하도록 구성될 수 있다. 예를 들어, 세포 분할 모델(316)은 이미지 내의 픽셀들을 림프구 세포의 (i) 내부, (ii) 경계, 또는 (iii) 외부에 대응하는 것으로 분류하도록 구성될 수 있다. 세포 분할 모델(316)은 예를 들어, 종양 양성, 종양 음성, 림프구 양성, 림프구 음성이나, 림프구, 세포독성 T 세포, B 세포, NK 세포, 대식세포 등을 포함하는 면역 세포를 포함하여, 임의의 수의 세포를 식별 및 분류하도록 구성될 수 있다.
일부 예에서, 모듈(304)은 파이프라인(315)으로부터 타일링된 서브-이미지들을 수신하고, 세포 분할 모델(316)은 모든 림프구들의 위치들의 리스트를 결정하며, 이러한 위치들은 모델(316)로부터 결정된 모든 세포들의 다른 3개의 클래스의 모델의 리스트와 비교되어, 세포들이 아닌 임의의 잘못 검출된 림프구들이 제거된다. 그 다음, 시스템(300)은 모듈(304)로부터 확인된 림프구의 위치의 새로운 리스트를 취하고, 예를 들어, 조직 분할 모델(320)로부터 결정된 종양 및 비-종양 조직 위치의 조직 리스트를 조직 분할기 모델(318)에 대해 비교하여, 림프구가 종양 또는 비-종양 영역에 있는지 여부를 결정한다.
3-클래스 모델의 사용은 다른 것들 중에서, 특히 2개 이상의 세포들이 보다 정확한 분류를 위해 서로 중첩될 때, 각각의 개별 세포의 카운팅을 용이하게 한다. 종양 침윤 림프구는 종양 세포와 중첩될 것이다. 픽셀이 세포 외부 경계를 포함하는지 여부만을 라벨링하는 통상적인 2-클래스 세포 아웃라이닝 모델에서는, 2개 이상의 중첩하는 세포의 각각의 뭉침이 하나의 세포로서 카운트되어 부정확한 결과를 생성할 수 있다.
3-클래스 모델을 사용하는 것에 부가하여, 세포 분할 모델(316)은, 평균 세포보다 약간 더 넓은 각각의 타일의 모든 4개 변 둘레에 버퍼를 추가함으로써 2개의 타일들에 걸치는 세포가 2번 카운팅되는 가능성을 피하도록 구성될 수 있다. 이는 각각의 타일에 대해 중앙의, 버퍼되지 않은 영역에 나타나는 세포들만을 카운트하기 위한 것이다. 이 경우에, 타일들은 이웃하는 타일들의 중앙의, 버퍼되지 않은 영역이 인접하면서도 중첩하지 않도록 배치될 것이다. 이웃하는 타일들은 그들의 각각의 버퍼 영역에서 중첩될 것이다.
일 예에서, 모델(316)의 세포 분할 알고리즘은 2개의 UNet 모델들로 형성될 수 있다. 하나의 UNet 모델은 사람 분석가가 각각의 세포의 외부 경계를 강조 표시하고 조직 클래스에 따라 각각의 세포를 분류하는, 혼합된 조직 클래스들의 이미지로 훈련될 수 있다. 일 예에서, 훈련 데이터는 모든 픽셀이 세포의 내부, 세포의 외부 경계, 또는 모든 세포의 외부에 있는 배경으로 라벨링되어 있는 디지털 슬라이드 이미지들을 포함한다. 다른 예에서, 훈련 데이터는 모든 픽셀이 세포의 외부 경계를 나타내는지 여부를 표시하기 위해 예 또는 아니오로 라벨링된 디지털 슬라이드 이미지들을 포함한다. 이러한 UNet 모델은 많은 유형의 세포들의 외부 경계들을 인식할 수 있고, 조직 분류 모듈(320)에 의해 할당된 조직 클래스 영역 내의 세포 형상 또는 그의 위치에 따라 각각의 세포를 분류할 수 있다.
다른 UNet 모델은 단일 조직 클래스의 많은 세포들의 이미지들로 훈련될 수 있거나, 또는 오직 하나의 조직 클래스의 세포들이 이진 마스크로 아웃라이닝되는 다양한 세트의 세포들의 이미지들로 훈련될 수 있다. 일 예에서, 훈련 세트는 관심 세포 유형을 나타내는 모든 픽셀들에 제1 값을 연관시키고, 모든 다른 픽셀들에 제2 값을 연관시킴으로써 라벨링된다. 시각적으로, 이런 식으로 라벨링된 이미지는 흑색 및 백색 이미지로서 나타날 수 있으며, 여기서 관심 있는 조직 클래스를 나타내는 모든 픽셀들은 백색일 것이고, 다른 모든 픽셀들은 흑색일 것이며, 또는 그 반대도 가능하다. 예를 들어, 이미지들은 라벨링된 림프구만을 가질 수 있다. 이 UNet 모델은 특정 세포 유형의 외부 경계들을 인식할 수 있고, 슬라이드의 디지털 이미지에서 해당 유형의 세포들에 라벨을 할당할 수 있다.
반면에, 세포 분할 모델(316)은 세포 검출을 위해 사용될 수 있는 훈련된 세포 분할 모델이고, 일부 예에서, 모델(316)은 바이오마커에 대응하는 픽셀들을 분류하는 픽셀 수준의 분류기로서 구성되는 바이오마커 검출 모델로서 구성된다.
딥러닝 프레임워크 다중 스케일 분류기 모듈(306)의 경우, 조직 분할 모델(318)은 분할 모델(316)과 유사한 방식으로 구성될 수 있는데, 즉, 3-클래스 분할 모델을 형성하기 위해 손실 함수를 교차-엔트로피 함수(cross-entropy function), 국소 손실 함수(focal loss function), 또는 평균 제곱 오차 함수(mean square error function)로 대체하여 UNet 분류기를 변경함으로써 개발된 3-클래스 시맨틱 분할 FCN 모델로서 구성될 수 있다. 모델(318)은 타일로 다양한 조직 유형의 내부, 외부 및 경계를 식별할 수 있다.
조직 분류 모델(320)은 복수의 상이한 조직 분류들 중 하나에 대응하는 타일들을 분류하도록 구성된 타일 기반의 분류기이다. 조직 클래스의 예들은 종양, 기질, 정상, 림프구, 지방, 근육, 혈관, 면역 군집, 괴사, 과형성/이형성증, 적혈구, 및 IHC 염색 표적 분자에 대해 양성이거나(특히 특정 임계치보다 큰 양으로 IHC 염색의 표적 분자를 포함함) 또는 음성인(분자를 포함하지 않거나 특정 임계치보다 낮은 양의 분자를 포함함) 조직 클래스 또는 세포 유형을 포함하지만, 이에 한정되는 것은 아니다. 예들은 또한 종양 양성, 종양 음성, 림프구 양성 및 림프구 음성을 포함한다.
세포 분할 모델(316)에 의해 생성된 조직병리학 이미지에서의 세포 분할 및 조직 분류 모델(302)로부터의 조직 분류를 이용하여, 바이오마커 분류 모델(322)은 이들로부터 데이터를 수신하고, 조직병리학 이미지에서 예측된 바이오마커의 존재를 결정하며, 특히, 다중 스케일 구성을 이용하여, 조직병리학 이미지의 각각의 타일 이미지 내의 예측 바이오마커의 존재를 결정한다. 바이오마커 분류 모델(322)은 딥러닝 후처리 컨트롤러(308)와 같은 모델(306)과는 별개로 도시되거나 구현된, 딥러닝 프레임워크 모델(306)에서 구현되는 훈련된 분류기일 수 있다.
TIL 바이오마커를 검출하는 바이오마커 분류 모델의 일부 예에서, 조직 분류 모델(320)은 타일 이미지 내의 TIL 비율을 식별하도록 훈련되고, 세포 분할기(316)는 세포 경계를 결정하며, 바이오마커 분류 모델(322)은 세포 내부에서의 TIL 비율에 기초하여 타일 이미지를 분류하여, (i) 종양 - IHC/림프구 양성 또는 (ii) 비-종양 - IHC/림프구 양성으로의 분류를 초래한다.
배수성을 검출하는 바이오마커 분류 모델의 일부 예에서, 바이오마커 분류 모델(322)은 조직병리학 이미지들에 기초하지 않는 배수성 모델 및 예를 들어, 문헌[Coudray N, Ocampo PS, Sakellaropoulos T, Narula N, Snuderl M, Fenyo D, et al., Classification and mutation prediction from non-small cell lung cancer histopathology images using deep learning. Nat Med. 2018;24:1559-67]에서 제공되는 기술들을 사용하는 연관된 배수성 점수들을 이용하여 훈련될 수 있다.
일 예에서, 훈련 데이터는 세포유전학자에 의해 결정된 실제 핵형과 같은 데이터일 수 있지만, 일부 예에서, 바이오마커 분류 모델(322)은 이러한 데이터를 유추하도록 구성될 수 있다. 배수성 데이터는 염색체 수, 시작 위치, 정지 위치, 영역 길이의 열들로 포맷될 수 있다. 배수성 점수는 DNA 서열분석 데이터로부터 결정될 수 있고, 유전자, 염색체 또는 염색체의 아암(arm)에 특이적일 수 있다. 배수성 점수는 글로벌일 수 있고, 샘플의 전체 게놈을 기술할 수 있으며(글로벌 CNV/복제 수의 변이는 종양 핵의 헤마톡실린 염색에서 변화를 야기할 수 있음), 게놈 내의 각각의 영역에 대한 배수성 점수를 평균함으로써 계산된 점수일 수 있으며, 여기서 국소적, 지역적 배수성 점수는 해당 점수와 연관된 각 영역의 길이에 따라 가중될 수 있다. 바이오마커 분류 모델(322)의 훈련된 배수성 모델은 유전자, 염색체의 아암, 또는 전체 염색체에 특이적일 수 있는데, 이는 각각의 섹션이 조직병리학 이미지에서 상이하게 관찰되는 세포 형태에 영향을 줄 수 있기 때문이다. 예측된 배수성 바이오마커 데이터는, 슬라이드 상의 종양 순도 또는 세포 수가 낮지만 배수성이 통상적인 것보다 높은 경우, 유전자 검사를 위한 충분한 물질이 여전히 존재할 수 있기 때문에, 수용/거부 분석에 영향을 미칠 수 있다. 바이오마커 메트릭 프로세서(326)는 보고서 생성 전에 그러한 결정을 수행하도록 구성될 수 있다.
인환 형태를 검출하는 바이오마커 분류 모델의 일부 예에서, 바이오마커 분류 모델(322)은 불량 응집성(PC: poorly cohesive), 인환 세포(SRC), 및 로렌 서브-분류 및 문헌[Mariette, C., Carneiro, F., Grabsch, H.I. et al. Consensus on the pathological definition and classification of poorly cohesive gastric carcinoma. Gastric Cancer 22, 1-9 (2019)]에 기재된 다른 것들 및 다른 인환 형태 분류와 같은 분류 기술들에 기초하지 않고, 인환 형태 모델로 훈련될 수 있다.
NC 비율을 검출하는 바이오마커 분류 모델의 일부 예에서, 세포 분할 모델(316)은 본원에 설명된 3-클래스 UNet으로 구성될 수 있지만, 모델은 3개의 클래스, 즉, 핵, 세포질, 및 세포 경계/비-세포인 배경을 식별하도록 훈련된다. 예를 들어, 훈련 데이터는 도 4의 예에서 설명된 바와 같이 훈련된 모델에 의해 이런 식으로 주석이 달리고 훈련 이미지들로 업데이트되는 이미지들 및/또는 이들 3개의 클래스들 중 하나로 각각의 픽셀이 수동으로 주석을 달고 있는 이미지일 수 있다.
따라서, 세포 분할 모델(316)은 입력 이미지를 분석하고 3개의 클래스들 중 하나를 각각의 픽셀에 할당하도록 훈련될 수 있고, 세포들을 인접한 핵 픽셀들의 그룹으로 정의하며, 핵 픽셀들과 그 다음에 가장 가까운 경계 픽셀들 사이의 모든 세포질 픽셀들을 정의할 수 있고, 각각의 세포에 대해, 바이오마커 분류 모델(322)은 세포의 핵의 면적(픽셀 수)을 전체 세포(핵 및 세포질)의 면적(픽셀 수)으로 나눈 핵:세포질 비율을 계산하도록 구성될 수 있다.
종양 조직 및 조직에 대한 종양 상태를 식별하기 위해, 딥러닝 프레임워크(306)는 일 예에서 FCN 분류기를 사용하여 구성될 수 있다. 일 예에서, 딥러닝 프레임워크(304)가 픽셀-해상도의 FCN 분류기로서 구성될 수 있는 반면, 딥러닝 프레임워크(306)는 이미지 데이터의 전체 수신된 타일에 대한 분류를 수행하는, 타일-해상도의 FCN 분류 모델, 또는 타일-해상도의 CNN 모델로서 구성될 수 있다.
모듈(306)의 분류 모델(320)은, 예를 들어, 바이오마커 상태, 종양 상태, 조직 유형, 및/또는 종양 상태/조건, 또는 다른 정보와 같은 다수의 조직 클래스들 중 하나에 대응하는 타일로 조직을 분류하도록 구성될 수 있다. 도시된 예에서, 모듈(306)은 조직 분류(320) 및 조직 분할 모델(322)을 갖도록 구성된다. TIL 바이오마커의 예시적인 구현예에서, 조직 분류 모델(320)은 종양 - IHC 양성, 종양 - IHC 음성, 괴사, 기질, 상피 또는 혈액과 같은 조직 분류를 사용하여 조직을 분류할 수 있다. 조직 분할 모델(328)은 조직 분류 모델(320)에 의해 식별되는 상이한 조직 유형들에 대한 경계들을 식별하고, 후처리 컨트롤러(308)에 의해 오버레이 맵핑 보고서 생성기에서 상이한 조직 유형들에 대해 경계들을 시각적으로 표시하고 컬러 코딩하는데 사용하기 위한 메타데이터를 생성한다.
예시적인 구현예에서, 딥러닝 프레임워크(300)는 분류 모델(320, 322)의 프로세스로부터 타일(즉, 서브-이미지)을 수신함으로써 타일 기반으로 분류를 수행한다. 일부 예에서, 타일링은 타일링 마스크를 사용하여 프레임워크(306)에 의해 수행될 수 있고, 조직 분류들을 수행하는 것에 추가하여, 모듈(306) 자체가 픽셀 수준의 분할을 위해, 생성된 서브-이미지들을 모듈(304)로 전송할 수 있다. 모듈(306)은 순차적인 방식으로 각각의 타일을 검사할 수 있거나, 또는 모듈(306)은 이미지들의 더 빠른 처리를 위해 FCN 모델에 의해 생성된 행렬의 특성에 의해 각각의 타일을 병렬로 검사할 수 있다.
일부 예에서, 조직 분할 모델(318)은 모듈(304)로부터 픽셀-해상도의 세포 분할 데이터 및/또는 픽셀-해상도의 바이오마커 분할 데이터를 수신하고, 타일 기반 및 이미지 기반으로 통계적 분석을 수행한다. 일부 예에서, 통계학적 분석은 (i) 조직에 의해 커버되는 이미지 데이터의 영역, 예를 들어, 조직에 의해 커버되는 염색된 조직병리학 슬라이드의 영역, 및 (ii) 이미지 데이터 내의 세포의 수, 예를 들어 염색된 조직병리학 슬라이드 내의 세포의 수를 결정한다. 예를 들어, 조직 분할 모델(318)은 이미지를 형성하는 모든 타일이 분류될 때까지 이미지의 각각의 타일에 대해 세포 및 조직 분류를 누적할 수 있다.
딥러닝 프레임워크가 타일 기반의 바이오마커를 분류하기 위한 다중 스케일 분류기 모듈인 경우, 딥러닝 프레임워크(300)는 타일 수준의 라벨링을 필요로 하지 않고 슬라이드 수준의 훈련 이미지로부터 훈련된 분류를 사용하여 바이오마커를 분류하도록 더 구성된다. 예를 들어, 이하에서 더 설명되는 바와 같이, 이미지 판별기에 의해 수신되는 슬라이드 수준의 훈련 이미지들은, 도 18 내지 도 26에 설명된 것들과 같이, 본원에서 프로세스들을 수행하고 유추된 분류를 갖는 복수의 타일 이미지들을 생성하며, 선택적으로 조직 분류 모델(317) 및 바이오마커 분류 모델(319)을 훈련하기 위해 이러한 타일들에 대한 타일 선택을 선택적으로 수행하도록 구성된 MIL 컨트롤러를 갖는 슬라이드 수준의 라벨 파이퍼(313)에 제공될 수 있다. 예시적인 단일 스케일 분류기들은 출력이 CMS 클래스인 CMS 바이오마커 분류 모델과, 출력이 HRD+ 또는 HRD-인 HRD 바이오마커 분류 모델을 포함한다. 이러한 분류는 바이오마커 예측을 결정하기 위해 전체 조직병리학 이미지에 대해 또는 해당 디지털 이미지의 각각의 타일 이미지에 대해 수행될 수 있고, 타일 이미지들로부터 바이오마커 예측을 결정하기 위해 바이오마커 메트릭 프로세서(326)에 의해 분석될 수 있다.
HRD를 검출하는 바이오마커 분류 모델의 일부 예에서, 바이오마커 분류 모델(319)은 HRD를 예측하도록 구성될 수 있다. 분류기(318) 내의 HRD 모델의 훈련은 조직병리학 이미지들 및 매칭된 HRD 점수에 기초하지 않을 수 있다. 예를 들어, 훈련 데이터는, H&E 이미지들, 및 일부 예에서, HRD 모델에 공급되고 도 4의 업데이트된 훈련 데이터(403)를 이용해서와 같이, 추가적인 훈련을 위해 피드백되는 RNA 발현 프로파일 데이터를 포함하는, RNA 서열 데이터에 의해 생성될 수 있다. 훈련 데이터는 종양 오가노이드로부터, 즉, HRD를 나타내는 PARP 억제제에 대한 오가노이드의 척도와 쌍을 이루는, 또는 오가노이드의 RNA 발현 프로파일 상에서 실행되는 RNA 팀의 HRD 모델의 결과와 쌍을 이루는 오가노이드로부터의 H&E 이미지들로부터 유래될 수 있다. 바이오마커 분류 모델(319)의 예시적인 HRD 예측 모델은 문헌[Peng, Guang et al. Genome-wide transcriptome profiling of homologous recombination DNA repair, Nature communications vol. 5 (2014): 3361] 및 문헌[van Laar, R.K., Ma, X.-J., de Jong, D., Wehkamp, D., Floore, A.N., Warmoes, M.O., Simon, I., Wang, W., Erlander, M., van't Veer, L.J. and Glas, A.M. (2009), Implementation of a novel microarray-based diagnostic test for cancer of unknown primary. Int. J. Cancer, 125: 1390-1397]에 설명되어 있다.
일 예에서, 딥러닝 프레임워크는 RNA 발현을 이용하여 H&E 슬라이드로부터 HRD를 식별하여, 바이오마커 발현 세포를 포함하는 슬라이드의 비율을 나타내는 슬라이드 수준의 라벨을 식별할 수 있다. 일 예에서, RNA 라벨에 대한 활성화 맵 접근법은 이진 라벨(즉, 조직의 임의의 위치에서 양성 또는 음성 HRD 발현)로서, 또는 연속적인 백분율(즉, 이미지 내의 세포의 62%가 HRD를 발현하는 것으로 발견됨)로서 전체 슬라이드에 적용될 수 있다. 이진 RNA 라벨은 샘플의 다음 세대 서열분석에 의해 생성될 수 있고, 세포 백분율 라벨은 단일 세포 RNA 서열분석을 적용함으로써 생성될 수 있다. 일 예에서, 단일 세포 서열분석은 NGS 로부터 RNA 발현에 존재하는 세포-유형 및 양을 식별할 수 있다.
전체 슬라이드 이미지의 각각의 타일에 대한 바이오마커 분류 라벨을 예측하기 위해 타일 기반 딥러닝 네트워크를 훈련하는 것은 본원에 설명된 방법들 중 임의의 방법을 사용하여 수행될 수 있다. 일단 훈련되면, 모델은 각각의 타일에 대해 활성화 맵핑의 방법에 적용될 수 있다. 활성화 맵핑은 Grad-CAM(구배 클래스 활성화 맵핑) 또는 가이드되는 역전파를 사용하여 수행될 수 있다. 이들 모두는 타일의 어느 영역이 분류에 가장 기여하는지를 식별할 수 있다. 일 예에서, HRD 양성 클래스에 가장 많이 기여하는 타일의 부분들은 타일의 상부 우측 코너에 모여 있는 세포일 수 있다. 이어서, 식별된 활성 영역 내의 세포들은 HRD 양성 세포로 라벨링될 수 있다.
모델이 임상적 확실성에 맞춰 수행함을 증명하는 것은 모델 결과를 진실인 소스와 비교하는 것을 포함할 수 있다. 한가지 가능한 진실의 생성은, 각각의 영역을 조직 마이크로어레이를 통해 분할하고 개별적으로 서열화하여 각각의 영역의 RNA 라벨을 얻음으로써, 각각 100개 미만의 세포를 포함하는 조직의 작은 영역을 분리하는 것을 포함할 수 있다. 진실을 생성하는 것은 이들 영역을 바이오마커 분류 모델로 분류하는 단계, 및 활성화 맵이, HRD 발현이 높은 영역 내의 세포를 강조하고 HRD 발현이 낮은 영역의 대부분의 세포를 무시하는 정확도를 식별하는 단계를 더 포함할 수 있다.
각각의 타일에 대한 바이오마커 분류 라벨을 예측하기 위해 타일 기반 딥러닝 네트워크를 훈련할 때, 개별 세포의 HRD 상태(양성 또는 음성)를 식별하도록 바이오마커 라벨을 생성하기 위해 강하게 지도되는 접근법을 이용한다. 단일 세포 RNA 서열분석은 단독으로, 또는 한 번에 하나의 세포를 추출하여 각각의 세포에 대한 라벨을 달성하도록 레이저 유도된 미세-분리와 함께 사용될 수 있다. 일 예에서, 세포 분할 모델이 먼저 세포의 윤곽을 얻기 위해 통합될 수 있고, 그 다음에 인공지능 엔진은 바이오마커 상태에 따라 각각의 세포 윤곽 내부의 픽셀 값들을 분류할 수 있다. 다른 예에서, HRD 양성 세포들에 제1 값이 할당되고, HRD 음성 세포들에 제2 값을 할당되는, 이미지의 마스크들이 생성될 수 있다. 이후, 단일 스케일 딥러닝 프레임워크는 HRD를 발현하는 세포들을 식별하기 위해 마스크들을 갖는 슬라이드들을 이용하여 훈련될 수 있다.
CMS를 검출하는 바이오마커 분류 모델의 일부 예에서, 바이오마커 분류 모델(319)은 CMS를 예측하도록 구성될 수 있다. 이러한 바이오마커 분류는 분할된 세포들을 암 특이적 분류에 대응하는 것으로서 분류하도록 구성될 수 있다. 예를 들어, 원발 대장암에서 4개의 훈련된 CMS 분류는 1 - 면역 침윤(종종 BRAFmut, MSI-High, TMB-High), 2 - 표준(종종 ERBB/MYC/WNT 유발), 3 - 대사(종종 KRASmut), 및 4 - 간엽(종종 TGF-B 유발)을 포함한다. 다른 예들에서, 보다 많은 훈련된 CMS 분류들이 사용될 수 있지만, 본원의 예들에서는 일반적으로 2개 이상의 CMS 아형들이 분류된다. 또한, 다른 암 유형은 그들 자신의 훈련된 CMS 카테고리를 가질 수 있고, 분류기(318)는 각각의 암 유형을 아형으로 분류하기 위한 모델을 갖도록 구성될 수 있다. 4, 5, 6, 7 또는 그보다 많은 수의 CMS 분류들을 개발하기 위한 예시적인 기술은 문헌[Eide, P.W., Bruun, J., Lothe, R.A. et al. CMScaller: an R package for consensus molecular subtyping of colorectal cancer pre-clinical models. Sci Rep 7, 16618 (2017)] 및 https://github.com/peterawe/CMScaller에 설명된 CMSCcaller를 사용하는 것이다.
분류기(318) 내의 CMS 모델의 훈련은 CMS 카테고리 할당에 매칭되는 조직병리학 이미지들에 기초하지 않을 수 있다. CMS 카테고리 할당은 RNA 발현 프로파일에 기초할 수 있고, 일 예에서, CMS Caller라고 불리는 최근접 템플릿 예측을 사용하는 R 프로그램에 의해 생성될 수 있다(문헌[Eide, P.W., Bruun, J., Lothe, R.A. et al. CMScaller: an R package for consensus molecular subtyping of colorectal cancer pre-clinical models. Sci Rep 7, 16618 (2017)] 및 https://github.com/peterawe/CMScaller 참조). 랜덤 포레스트 모델을 사용하는 대안적인 분류는 문헌[Guinney, J., Dienstmann, R., Wang, X. et al. The consensus molecular subtypes of colorectal cancer. Nat Med 21, 1350-1356 (2015)]에 설명되어 있다. 예를 들어, CMS Caller는 각각의 RNA 서열 데이터 샘플을 관찰하여 각각의 유전자가 평균 이상에 있는지 또는 평균 이하에 있는지를 결정하고, 각각의 유전자에 대해 이진 분류를 제공한다. 이는 예를 들어 상이한 RNA 서열 데이터 세트 사이의 배치(batch) 효과를 회피할 수 있다. 훈련 데이터는 또한 DNA 데이터, IHC 데이터, 뮤신 마커, 임상 보고로부터의 치료 반응/생존 데이터를 포함할 수 있다. 이들은 CMS 카테고리 할당과 연관되거나 연관되지 않을 수 있다. 예를 들어, CMS 4 IHC는 TGFbeta에 대해 염색 양성이어야 하고, CMS 1 IHC는 CD3/CD8에 대해 양성이어야 하며, CMS 2 및 3은 뮤신 유전자 변화를 갖고, CMS 2는 세툭시맙에 반응하고, CMS 1은 아바스틴에 더 잘 반응한다. CMS 1은 생존 예후가 가장 좋고, CMS 4는 가장 좋지 않다. (CMS 슬라이드의 슬라이드 12참조). CMS 카테고리 1 및 4는 H&E로부터 검출될 수 있다. 훈련을 이용하여, 예를 들어, 도 4의 아키텍처는 CMS 2와 3 사이의 차이를 식별하고 분류하기 위해 모델을 훈련하는데 사용될 수 있다.
예를 들어, 바이오마커 분류 모델(319)은 구별되는 분자, 기능 및 유전자 형질 특이성을 갖는 5개의 CRC 내재 아형(CRC intrinsic subtypes, CRIS), 즉, (i) CRIS-A: 점액성, 당분해성, 미립위성 불안정성 또는 KRAS 변이가 많음, (ii) CRIS-B: TGF-β 경로 활성, 상피-간엽 전이, 불량한 예후; (iii) CRIS-C: 증가된 EGFR 신호전달, EGFR 억제제에 대한 민감성, (iv) CRIS-D: WNT 활성화, IGF2 유전자 과발현 및 증폭, 및 (v) CRIS-E: Paneth 세포-유사 표현형, TP53 변이를 식별하도록 구성될 수 있다. CRIS 아형은 기존의 전사 클래스들 및 전례없는 예측 및 예후 성능에 대해 제한된 중첩을 갖는, 원발 및 전이성 CRC의 독립적인 세트를 성공적으로 카테고리화한다. 예를 들어, 문헌[Isella, C., Brundu, F., Bellomo, S. et al. Selective analysis of cancer-cell intrinsic transcriptional traits defines novel clinically relevant subtypes of colorectal cancer. Nat Commun 8, 15107 (2017)]을 참조하라.
바이오마커 검출의 경우, 바이오마커 분류 모델(319)은 모든 타일에 걸쳐 단지 평균적인 CMS 분류를 시도하는 대신에, 각각의 타일에 대해, 상이한 조직 유형(예를 들어, 기질)을 식별하면서 CMS 분류를 예측하는 CMS 모델로 훈련될 수 있다. 일 예에서, 각각의 타일이 처리될 것이고, CMS 모델은 각각의 타일의 연관된 픽셀 데이터를 갖는 압축된 표현을 생성할 것이며, 각각의 타일은 타일들 사이의 유사성들 및 각각의 타일의 픽셀 데이터 내의 패턴들에 기초하여 특정 클래스(군집 1, 군집 2 등)에 할당될 것이다. 각각의 군집에 속하는 이미지에 있는 타일들의 백분율 리스트는 이미지에 대한 군집 프로파일이며 보고서 생성기에 의해 제공된다. 일 예에서, 각각의 프로파일은 훈련을 위해 대응하는 CMS 지정 또는 RNA 발현 프로파일(CMS 범주를 정의하는데 사용되는 원래의 방법이었던)을 갖는 모델에 공급될 것이다. 또 다른 예에서, 모든 훈련 슬라이드로부터의 각각의 타일은 타일이 유래된 전체 슬라이드에 할당된 전체 CMS 카테고리에 따라 주석이 달리고, 그 후, 어떤 군집들이 CMS 카테고리와 가장 밀접하게 연관되는지를 결정하기 위해, 타일들이 군집화되고 분석된다.
일부 예에서, 바이오마커 분류 모델(319)(뿐만 아니라, 바이오마커 분류 모델(322))은 각각의 타일에 대해 동일한 분류를 수행하고 해당 타일 분류를 동등하게 가중하는 대신에, 각각의 타일을 개별 개수의 군집들로 군집화할 수 있다. 이를 달성하는 한 가지 방법은 바이오마커 분류 모델에서 어텐션(attention) 층을 포함하는 것이다. 예를 들어, 모든 훈련 슬라이드들로부터의 모든 타일들이 하나의 군집으로 분류될 수 있고, 그 다음에, 군집 내의 타일들의 수가 바이오마커에 통계적으로 관련되지 않은 경우, 해당 군집은 바이오마커와 연관된 군집만큼 높게 가중되지 않는다. 다른 예에서, 다수의 투표 기술들이 바이오마커 분류 모델(319)(또는 모델(322))을 훈련시키기 위해 사용될 수 있다.
별개의 모델들로서 도시되지만, 바이오마커 분류 모델(322 및 319) 각각은 본원의 다양한 바이오마커를 분류하는 경우일 수 있는 바와 같이, 상응하는 조직 분류 모델, 세포 분할 모델, 및 조직 분할 모델의 전부 또는 일부를 포함하도록 구성될 수 있다. 또한, 바이오마커 분류 모델(322)은 다중 스케일 분류기 모듈(306) 내에 포함되고, 바이오마커 분류 모델(319)은 단일 스케일 분류기 모듈(307) 내에 포함된 것으로 도시되어 있지만, 일부 예에서, 이들 바이오마커 분류 모델의 전부 또는 일부는 본원의 다양한 바이오마커를 분류하는 경우일 수 있는 바와 같이, 후처리 컨트롤러(308)에서 구현될 수 있다. 또한, 타일 수준의 또는 슬라이드 수준의 분류 모델로 설명되어 있지만, 일부 예에서, 바이오마커 분류 모델(322 및 319)은 일부 예에서, 픽셀 수준의 분류기로서 구성될 수 있다.
모듈들(304, 306 및 307)에 의해 수행된 결정들로부터, 후처리 컨트롤러(308)는 이미지 데이터가 임계치를 초과하는 양의 조직을 포함하는지 및/또는 기준, 예를 들어, 유전자 분석을 위한 충분한 조직, 딥러닝 프레임워크의 학습 단계 동안 훈련 이미지들로서 이미지 데이터를 사용하기에 충분한 조직, 또는 이미 존재하는 훈련된 분류기 모델과 이미지 데이터를 조합하기에 충분한 조직을 갖는 기준을 만족하는지를 결정할 수 있다.
따라서, 본원의 다양한 예에서, 도 3 및 본원의 다른 곳에 기재된 것들을 포함하여, 환자 보고서가 생성될 수 있다. 보고서는 환자, 의사, 의료인, 또는 연구자에게 디지털 복사본(예를 들어, JSON 객체, pdf 파일, 또는 웹사이트나 포털 상의 이미지), 하드 카피(예를 들어, 종이 또는 다른 유형의 매체 상에 인쇄), 오디오(예를 들어, 녹음 또는 스트리밍), 또는 다른 포맷으로 제공될 수 있다.
보고서는 유전자 발현 호출(예를 들어, 주어진 유전자의 과발현 또는 과소발현), 검출된 유전적 변이, 환자의 샘플의 다른 특징 및/또는 임상 기록과 관련된 정보를 포함할 수 있다. 보고서는 검출된 유전적 변이, 샘플 및/또는 임상 기록의 다른 특성에 기초하여, 환자에게 적절한 임상 시험, 환자와 매칭될 수 있는 치료법, 및/또는 환자가 주어진 치료법을 받는 경우에 예측되는 부작용을 포함할 수 있다.
보고서에 포함된 결과 및/또는 추가적인 결과(예를 들어, 생물정보학 파이프라인)가 임상 데이터의 데이터베이스를 분석하는데 사용될 수 있으며, 특히 시료와 동일하거나 유사한 결과를 갖는 다른 환자에서 치료가 암 진행을 늦추었다는 것을 나타내는 경향이 있는지 여부를 결정하기 위해 사용될 수 있다. 결과는 또한, 종양 오가노이드 실험을 설계하는데 사용될 수 있다. 예를 들어, 오가노이드는 시료와 동일한 특성을 갖도록 유전공학적으로 처리될 수 있고, 치료법에 노출된 후에 치료법이 오가노이드의 진행 속도를 감소시킬 수 있는지 여부를 결정하기 위해 관찰될 수 있고, 따라서 시료와 관련된 환자의 진행 속도를 감소시킬 수 있다.
일 예에서, 후처리 컨트롤러(308)는 예를 들어, 바이오마커 메트릭 처리 모듈(326)을 사용하여, 다수의 상이한 바이오마커 예측 메트릭들 및 다수의 종양 예측 메트릭들을 결정하도록 더 구성된다. 예시적인 예측 메트릭은 종양 순도, 특정 조직 클래스로 분류된 타일의 수, 세포의 수, 종양 침윤 림프구의 수, 세포 유형 또는 조직 클래스의 군집화, 세포 유형 또는 조직 클래스의 밀도, 종양 세포 특성 - 원마도(roundness), 길이, 핵 밀도, 종양 조직 주위의 기질 두께, 이미지 픽셀 데이터 통계, 예측된 환자 생존, PD-L1 상태, MSI, TMB, 종양의 기원, 및 면역요법/치료법 반응을 포함한다.
예를 들어, 바이오마커 메트릭 프로세싱 모듈(326)은 하나 이상의 단일 조직 클래스들에 분류된 타일의 수, 각각의 조직 클래스에 분류된 타일의 백분율, 임의의 2개의 클래스들에 대해 제1 조직 클래스로 분류된 타일의 수 대 제2 조직 클래스로 분류된 수, 및/또는 각각의 조직 클래스에 대해 단일 조직 클래스로 분류된 타일의 총 면적을 결정할 수 있다. 모듈(326)은 종양으로서 분류된 타일들 대 다른 조직 클래스들로 분류된 타일들의 수에 기초하여, 또는 종양 타일들에 위치된 세포들의 수 대 다른 조직 클래스 타일들에 위치된 세포들의 수에 기초하여, 종양 순도를 결정할 수 있다. 모듈(326)은, 예를 들어, 이미지 분석에 기초하여 관심 있는 대부분의 관심 영역을 결정함으로써, 시스템(300)의 동작 중에 사용자에 의해 미리 결정되고 선택되었는지, 또는 시스템(300)에 의해 자동적으로 선택되었든지 간에, 사용자에 의해 사전 정의된 영역 내에서, 조직 클래스들 중 임의의 것으로서 분류된 타일들 내에서, 단일 그리드 타일 내에서, 또는 관심 면적 또는 영역에 걸쳐, 전체 조직병리학 이미지에 대한 세포들의 수를 결정할 수 있다. 모듈(326)은 분류된 세포들의 간격 및 밀도, 조직 분류된 타일들의 간격 및 거리, 또는 임의의 시각적으로 검출가능한 특징에 기초하여, 조직 클래스들의 세포 유형의 군집화를 결정할 수 있다. 일부 예에서, 모듈(326)은 2개의 이웃하는 세포들이 예를 들어 2개의 면역 세포, 2개의 종양 세포, 또는 각각 중 하나일 가능성을 결정한다. 모듈(326)은 식별된 종양 세포의 평균 원마도, 둘레 길이, 및/또는 핵 밀도를 결정함으로써 종양 세포 특성을 결정한다. 식별된 기질의 두께는 치료에 대한 환자 반응의 예측변수로서 사용될 수 있다. 모듈(326)에 의해 결정된 이미지 픽셀 데이터 통계는, 적색 녹색 청색(RGB) 값, 광학 밀도, 색조, 채도, 그레이스케일(grayscale), 및 염색 디컨볼루션(stain deconvolution)을 포함하여, 임의의 픽셀 데이터에 대해 단일 이미지 또는 이미지들의 집합의 각 타일에 대한 평균, 표준 편차, 및 합을 포함할 수 있다. 또한, 모듈(326)은 선의 위치, 교번하는 밝기(brightness)의 패턴, 형상의 윤곽, 이미지 내의 분할된 조직 클래스 및/또는 분할된 세포들에 대한 염색 패턴을 계산할 수 있다. 이러한 예들 중 임의의 예에서, 모듈(326)은 결정/예측 상태를 만들도록 구성될 수 있고, 그 후, 오버레이 디스플레이 생성 모듈(324)은 그 결정된 정보를 디스플레이하기 위한 보고서를 생성한다. 예를 들어, 오버레이 맵 생성 모듈(324)은 사용자가 디스플레이될 상이한 유형의 데이터를 선택할 수 있게 하는 네트워크 액세스 가능한 사용자 인터페이스를 생성할 수 있고, 모듈(324)은 원래의 염색된 이미지 데이터의 렌디션(rendition) 상에 오버레이되는 선택된 상이한 유형의 데이터를 보여주는 오버레이 맵을 생성한다.
도 4는 도 3의 시스템(300) 또는 보다 일반적으로는, 본원에 설명된 시스템들 및 프로세스들 중 임의의 것을 이용하여 구현될 수 있는 머신러닝 데이터 입력/흐름도(400)를 도시한다.
시스템(300)의 딥러닝 프레임워크가 훈련되는 훈련 모드에서, 다양한 훈련 데이터가 획득될 수 있다. 도시된 예에서, 고해상도 및 저해상도 조직병리학 이미지들의 형태의 훈련 이미지 데이터(401)가 전처리 컨트롤러(302)에 제공된다. 도시된 바와 같이, 훈련 이미지들은 다양한 조직 유형, 예를 들어, 종양, 기질, 정상, 면역 군집, 괴사, 과형성/형성이상, 및 적혈구 세포로부터의 주석이 달린 조직 이미지 데이터를 포함할 수 있다. 도시된 바와 같이, 훈련 이미지들은 컴퓨터 생성된, 합성 이미지 데이터뿐만 아니라, 분할된 세포들(세포 이미지 데이터)의 이미지 데이터, 및 슬라이드 수준의 라벨이든 타일 수준의 라벨들이든(집합적으로, 바이오마커 라벨링된 이미지 데이터) 라벨링된 바이오마커들(예를 들어, 본원에 설명된 바이오마커들)의 이미지 데이터를 포함할 수 있다. 이들 훈련 이미지들은 디지털적으로 주석이 달린 것일 수 있지만, 일부 예에서, 조직 주석들은 수동으로 수행된다. 일부 이미지들에서, 훈련 이미지 데이터는 예를 들어, 이미지 데이터 내의 메타데이터로서 분자 데이터 및/또는 인구 통계 데이터를 포함한다. 도시된 예에서, 이러한 데이터는 딥러닝 프레임워크(402)(다중 스케일 딥러닝 프레임워크(306') 및 단일 스케일 딥러닝 프레임워크(307')의 예시적인 구현예들로 형성됨)에 개별적으로 공급된다. 또한, 딥러닝 프레임워크의 추가적인 훈련을 위해, 경로 활성화 점수와 같은 다른 훈련 데이터가 컨트롤러(302)에 제공될 수 있다.
일부 예에서, 딥러닝 프레임워크(402)는 딥러닝 프레임워크(402)에 의해 주석되고 분할되며 프레임워크(402)의 업데이트된 훈련에 사용하기 위해 프레임워크(402)(또는 전처리 컨트롤러(302))로 피드백되는, 업데이트된 훈련 이미지(403)를 생성한다.
진단 모드에서, 환자 이미지 데이터(405)는 본원의 예들에 따라 사용하기 위해 컨트롤러(302)에 제공된다.
환자 이미지 데이터 및 훈련 이미지를 포함하는 본원의 임의의 이미지 데이터는, H&E 슬라이드 이미지 및/또는 IHC 슬라이드 이미지와 같은, 조직병리학 이미지 데이터일 수 있다. 예를 들어, IHC 훈련 이미지의 경우, 이미지들은 세포독성 및 조절 T 세포, 또는 다른 세포 유형 사이를 구별하는 분할된 이미지들일 수 있다.
일부 예에서, 컨트롤러(302)는 이미지 타일들(407)을 생성하고, 하나 이상의 타일링 마스크들(409)에 액세스하며, 컨트롤러(302)가 예측된 바이오마커 및/또는 종양 상태 및 메트릭들을 결정하기 위해 입력들로서 딥러닝 프레임워크(402)에 공급하고, 그 후 바이오마커 및 종양 보고서(406)를 생성하기 위한 오버레이 보고서 생성기(404)에 제공되는, 타일 메타데이터(411)에 액세스한다. 선택적으로, 보고서(406)는 조직병리학 이미지의 오버레이를 포함할 수 있고, 예를 들어, 백분율 TIL과 같은 바이오마커 점수 데이터를 더 포함할 수 있다.
일부 예에서, 이미지 데이터를 분석하는데 사용하기 위해 딥러닝 프레임워크(402)에 임상 데이터(413)가 제공된다. 임상 데이터(413)는 건강 기록, 생검 조직 유형, 생검의 해부학적 위치를 포함할 수 있다. 일부 예에서, 바이오마커 상태, 종양 상태, 및/또는 이의 메트릭의 변화를 결정하기 위해, 치료 후에 환자로부터 수집된 종양 반응 데이터(415)가 딥러닝 프레임워크(402)에 더 제공된다.
도 5는 복수의 상이한 바이오마커 분류 모델들로 형성된 예시적인 딥러닝 프레임워크(500)를 예시한다. 도 5의 구성요소들은 다음과 같이 제공된다. "세포"는 본원의 예들에 따른 세포 분할 모델, 예를 들어, 훈련된 픽셀 수준의 분할 모델을 지칭한다. "다중"은 본원의 예들에 따른 다중 스케일(타일 기반) 조직 분류 모델을 지칭한다. "사후(post)"는 본원의 예들에 따른, "세포" 또는 "다중" 단계로부터의 하나 이상의 데이터에 응답하여 이미지 또는 타일 이미지에서 바이오마커 상태를 예측하도록 구성된 바이오마커 분류 모델의 최종 단계에서 수행될 수 있는 산술 계산을 지칭한다. 일 예에서, "사후"는 예를 들어, 각각의 바이오마커 라벨과 연관된 이미지에서의 타일의 수를 합산하는 것, 및 이미지의 바이오마커 상태를, 가장 큰 합을 갖는 바이오마커 라벨로 할당하는 것과 같은 다수의 투표를 식별하는 것을 포함할 수 있다. 두 개의 계층의 "사후" 구성은 산술 계산이 누적될 수 있는 두 단계의 사후 처리 구성을 지칭한다. 일 예에서, 사후의 제1 층은 타일로 라벨링된 조직 내의 세포들을 합산하는 것, 및 동일한 타일 내의 림프구 세포를 합산하는 것을 포함할 수 있다. 제2 층은 림프구 세포 수를 세포 수로 나누어 특정 비율을 생성할 수 있고, 이 비율은 임계치와 비교할 때 비율이 임계치를 초과하는지 여부에 기초하여 이미지 내의 바이오마커 상태를 할당하는데 사용될 수 있다. 최종 "사후" 구성은 본원에 설명된 보고서 생성 프로세스와 같은 다른 후처리 기능을 포함할 수 있다. "단일"은 본원의 예들에 따른, 단일 스케일의 분류 모델을 지칭한다. "MIL"은 본원의 예들에 따른 MIL 컨트롤러를 지칭한다. 도시된 예에서, 딥러닝 프레임워크(500)는 TIL 바이오마커 분류 모델(502), PD-L1 분류 모델(504), "단일" 분류 아키텍처에 기초한 제1 CMS 분류 모델(506), "다중" 분류 아키텍처에 기초한 제2 CMS 분류 모델(508), 및 HRD 분류 모델(510)을 포함한다. 환자 데이터(512), 예를 들어 분자 데이터, 인구 통계 데이터, 종양 반응 데이터, 및 환자 이미지(514)는 딥러닝 프레임워크(500)에 의해 액세스 가능한 데이터세트에 저장된다.
훈련 데이터는 또한 세포 분할 훈련 데이터(516), 단일 스케일 분류 바이오마커 훈련 데이터(518), 다중 스케일 분류 바이오마커 훈련 데이터(520), MIL 훈련 데이터(522), 및 후처리 훈련 데이터(524)의 형태로 도시된다.
도 6은 이미징 기반 바이오마커 예측 시스템(102), 딥러닝 프레임워크(300), 또는 딥러닝 프레임워크(402), 특히, 다중 스케일 구성을 갖는 딥러닝 프레임워크에서 실행될 수 있는 프로세스(600)를 도시한다.
훈련 프로세스의 일부로서, 블록(602)에서는, 타일-라벨링된 조직병리학 이미지들이 딥러닝 프레임워크(300)에 수신된다. 조직병리학 이미지들은 본원에서 임의의 유형일 수 있지만, 이 예에서는 디지털 H&E 슬라이드 이미지들로서 예시된다. 이들 이미지는 (예를 들어, 지도 학습 구성을 위해) 이전에 측정되고 라벨링된(따라서 알려져 있는) 암 유형의 훈련 이미지들일 수 있다. 일부 예에서, 이미지들은 복수의 상이한 암 유형의 훈련 이미지들일 수 있다. 일부 예에서, 이미지들은 알지 못하는 또는 라벨링되지 않은 암 유형의 일부 또는 모든 이미지를 포함하는(예를 들어, 비-지도 학습 구성의 경우) 훈련 이미지들일 수 있다. 일부 예에서, 훈련 이미지들은 (타일-해상도의 FCN 조직 분류기들을 훈련하기 위한) 주석 달린 조직 클래스들을 갖는 디지털 H&E 슬라이드 이미지들, 및 각각의 세포에 주석이 달린 기타 다른 디지털 H&E 슬라이드 이미지들을 포함한다. TIL 바이오마커 분류의 훈련의 예에서, 각각의 림프구는 H&E 슬라이드 이미지 내에서 주석이 달릴 수 있다(예를 들어, UNet 모델 분류기를 훈련하기 위해 이미지들에 주석이 달린 픽셀-해상도의 FCN 분할 분류기들의 경우). 일부 예에서, 훈련 이미지들은 픽셀-해상도의 FCN 분할 분류기들을 훈련시키기 위한 디지털 IHC 염색 이미지들, 특히 IHC 염색이 림프구 마커를 표적으로 하는 이미지들일 수 있다. 일부 예에서, 훈련 이미지는 분자 데이터, 임상 데이터, 또는 다른 주석과 쌍을 이루는 이미지(예를 들어, 경로 활성화 점수 등)를 포함할 것이다.
도시된 예에서, 블록(604)에서는, 본원에 설명된 정규화 프로세스들과 같은 훈련 이미지들에 대해 전처리가 수행된다. 블록(604)에서는 본원에 설명된 다른 전처리 프로세스들이 또한 수행될 수 있다.
블록(606)에서, 타일-라벨링된 H&E 슬라이드 훈련 이미지들은 딥러닝 프레임워크에 제공되고, 조직 분류 훈련을 위한 훈련 이미지들의 타일 이미지들을 분석하기 위해, 세포 분할 훈련을 위한 훈련 이미지의 픽셀들을 분석하기 위해, 일부 예에서는 바이오마커 분류 훈련을 위한 타일 이미지를 분석하기 위해, 예를 들어 CNN 및, 더 구체적으로는 타일-해상도의 CNN과 같은, 일부 예에서는 FCN 모델로서 구현되는, 머신러닝 구성 내에서 분석된다. 그 결과, 블록(608)은 세포 분할 모델 및 조직 분류 모델을 포함할 수 있는, 훈련된 딥러닝 프레임워크 다중 스케일 바이오마커 분류 모델을 생성한다. 다수의 바이오마커 분류 모델을 훈련하는 경우, 블록(608)은 바이오마커 TIL, PD-L1, 배수성, NC 비율, 및 인환 형태 각각에 대해 별개의 모델을 생성할 수 있다.
예측 프로세스로서, 블록(610)에서는, H&E 슬라이드 이미지와 같은 새로운 라벨링되지 않은 조직병리학 이미지가 수신되고, 다중 스케일 바이오마커 분류 모델에 제공되며, 블록(612)에서는, 하나 이상의 바이오마커 분류 모델들에 의해 결정된 바와 같이, 수신된 조직병리학 이미지에 대한 바이오마커 상태를 예측한다.
예를 들어, 새로운(라벨링되지 않거나 라벨된) 조직병리학 이미지들은 블록(610)에서 외과 임상 기록 시스템 또는 주요 돌봄 시스템으로부터 수신될 수 있고, 훈련된 세포 분할, 조직 분류 모델 및 바이오마커 분류 모델을 적용하는 훈련된 딥러닝 프레임워크에 적용될 수 있으며, 블록(612)은 바이오마커 예측 점수를 결정한다. 이러한 예측 점수는 전체 조직병리학 이미지 또는 이미지에 걸친 상이한 영역들에 대해 결정될 수 있다. 예를 들어, 각각의 이미지에 대해, 블록(612)은 얼마나 많은 바이오마커가 이미지 상에 있는지에 대한 절대적인 수, 바이오마커의 각각과 연관된 종양 영역 내의 세포의 수의 백분율, 및/또는 임의의 바이오마커 분류 또는 다른 정보의 표시를 생성할 수 있다. 일부 예에서, 딥러닝 프레임워크는 이미지 내의 모든 식별된 조직 클래스에 대해 예측된 바이오마커를 식별할 수 있다. 이와 같이, 바이오마커 예측 확률 점수는 이미지에 걸쳐 변할 수 있다. 예를 들어, TIL의 존재를 예측함에 있어서, 프로세스(612)는 조직병리학 이미지 내의 상이한 위치들에서의 TIL들의 존재를 예측할 수 있다. 결과적으로, TIL 예측은 이미지에 따라 다를 수 있다. 이는 예로서 제공되며, 블록(612)은 본원에서 설명된 임의의 수의 메트릭들을 결정할 수 있다.
도 9의 프로세스(900)에 도시된 바와 같이, 예측 이후, 블록(902)에서, 예측된 바이오마커 분류가 보고서 생성기에 수신될 수 있다. 블록(904)에서는, 조직병리학 이미지에 대한, 따라서, 환자에 대한 예측된 바이오마커 상태를 포함하는 임상 보고서가 생성될 수 있고, 블록(906)에서는, 예측된 바이오마커에 대응하는 바람직한 면역요법을 결정하기 위해 병리학자에게 제공하거나 임상의에게 디스플레이하기 위한 예측된 바이오마커 상태를 보여주는 오버레이 맵이 생성될 수 있다.
도 7에서는, 예측된 바이오마커 상태를 결정하기 위한 예시적인 프로세스(700), 특히 TIL 상태를 예측하는 프로세스가 제공된다. 프로세스(700)는 임의의 개수의 바이오마커들의 상태 및 본원에 설명된 예들에 따른 다른 메트릭들의 상태를 예측하기 위해 사용될 수 있다.
전처리 컨트롤러는, 본원에 설명된 바와 같이, 조직병리학 이미지(702)를 수신하고, 초기 이미지 프로세싱을 수행한다. 일 예에서, 딥러닝 전처리 컨트롤러는 임의의 피라미드형 TIFF 포맷으로 전체 이미지 파일을 수신하고, 이미지 내의 살아있는 조직의 경계들 및 윤곽들을 식별(예를 들어, 분할을 수행함)한다. 블록(702)의 출력은 입력 이미지의 이진 마스크일 수 있고, 예를 들어, 각각의 픽셀이 0 또는 1값을 갖되, 0은 배경을 나타내고, 1은 전경/조직을 나타낼 수 있다. 마스크의 치수는 128x로 다운샘플링된 때의 입력 슬라이드의 치수일 수 있다. 이러한 이진 마스크는 일시적으로 버퍼링되어 타일링 프로세스(704)에 제공될 수 있다.
프로세스(704)에서, 전처리 컨트롤러는 이미지를 개별적으로 검사될 서브-이미지들(즉, 타일들)로 분할하기 위해 타일링 절차를 사용하여 조직 마스크 프로세스를 적용한다. 딥러닝 프레임워크는 2개의 상이한 학습 모델(조직 분류를 위한 것, 및 세포/림프구 분할을 위한 것)을 수행하도록 구성되기 때문에, 각각의 모델에 대한 상이한 타일링 절차가 프로세스(704)에 의해 수행될 수 있다. 프로세스(704)는 두 개의 출력들을 생성할 수 있고, 각각의 출력은 예를 들어, 타일들의 상단 최좌측 코너로부터 정의된 좌표들의 리스트를 포함한다. 출력 리스트는 일시적으로 버퍼링되고 조직 분류 및 세포 분할 프로세스로 전달될 수 있다.
도 7의 예에서, 조직 분류는, 프로세스(704)로부터 조직병리학 이미지를 수신하고, 훈련된 조직 분류 모델을 사용하여 각각의 수신된 타일에 대해 조직 분류를 수행하는, 프로세스(706)에서 수행된다. 훈련된 조직 분류 모델은 각각의 타일을 상이한 조직 클래스(예를 들어, 종양, 기질, 정상 상피 등)로 분류하도록 구성된다. 타일링의 다수의 층들은 계산 중복을 감소시키기 위해 프로세스(706)에 의해 사용될 수 있다. 각각의 타일에 대해, 훈련된 조직 분류 모델은 모델에 저장된 각각의 클래스에 대한 클래스 확률을 계산한다. 그 다음에, 프로세스(706)는 가장 가능한 클래스를 결정하고 그 클래스를 해당 타일에 할당한다. 프로세스(706)는 결과로서 리스트들의 리스트를 출력할 수 있다. 각각의 중첩된(nested) 내부 리스트는 단일 타일을 기술하고, 타일의 위치, 타일이 모델에 포함된 각각의 클래스일 확률, 및 가장 가능성 있는 클래스의 아이덴티티를 포함하는, 중첩된 분류의 역할을 한다. 이 정보는 각각의 타일에 대해 리스트된다. 리스트들의 리스트는 딥러닝 프레임워크 파이프라인 출력 json 파일에 저장될 수 있다.
프로세스(708 및 710)에서는, 세포 분할 및 림프구 분할이 각각 수행된다. 프로세스들(708 및 710)은 프로세스들(704 및 706)로부터 조직병리학 이미지 및 타일 리스트를 수신한다. 프로세스(708)는 훈련된 세포 분할 모델을 적용하고, 프로세스(710)는 훈련된 림프구 분할 모델을 적용한다. 즉, 도시된 예에서, 세포 분할 타일 리스트 내의 각각의 타일에 대해, 2개의 픽셀-해상도의 모델들이 병렬로 실행된다. 일 예에서, 2개의 모델들은 모두 UNet 아키텍처를 사용하지만, 상이한 훈련 데이터로 훈련되었다. 세포 분할 모델은 세포들을 식별하고, 수신된 타일의 모든 세포 주위에 경계선을 그린다. 림프구 분할 모델은 림프구를 식별하고, 타일 내의 모든 림프구 주위에 경계선을 그린다. 헤마톡실린은 DNA에 결합하기 때문에, 디지털 H&E 슬라이드 이미지를 사용하여 "세포 분할"을 수행하는 것은 또한 핵 분할로 지칭될 수 있다. 즉, 세포 분할 모델 프로세스(708)는 모든 세포에 대해 핵 분할을 수행하는 반면, 림프구 분할 모델 프로세스(710)는 림프구에 대해 핵 분할을 수행한다.
이 예에서, 동일한 UNet 아키텍처가 둘 다에 대해 사용되기 때문에, 프로세스들(708 및 710) 각각은 2개의 동일하게 포맷된 마스크 어레이 출력들을 생성한다. 각각의 출력은 수신된 타일과 동일한 형상 및 크기를 갖는 마스크 어레이이다. 각각의 어레이 요소는 0, 1, 또는 2이며, 여기서 0은 배경으로 예측되는(즉, 객체 외부의) 픽셀/위치를 나타내고, 1은 예측된 객체의 경계선인 픽셀/위치를 나타내고, 2는 예측된 객체 내부인 픽셀/위치를 나타낸다. 세포 분할 모델 출력의 경우, 객체는 세포를 지칭한다. 림프구 분할 모델의 경우, 객체는 림프구를 지칭한다. 이들 마스크 어레이 출력들은 일시적으로 버퍼링되고 프로세스들(712 및 714)에 각각 제공될 수 있다.
프로세스들(712 및 714)은 세포 분할(UNet) 모델에 대한 출력 마스크 어레이 및 림프구 분할(UNet) 모델에 대한 출력 마스크 어레이를 각각 수신한다. 프로세스들(712 및 714)은 각각의 수신된 타일에 대해 수행되고, 원래 전체-슬라이드 이미지의 좌표 공간 내에 있는 좌표들의 관점에서 마스크 어레이들 내의 정보를 표현하는데 사용된다.
일 예에서, 프로세스(712)는 저장된 이미지 프로세싱 라이브러리에 액세스하고, 해당 라이브러리를 사용하여 세포 내부 클래스 주변의 윤곽들, 즉 각각의 마스크에서 2의 값을 갖는 위치들에 대응하는 윤곽들을 찾을 수 있다. 이런 식으로, 프로세스(712)는 세포 정합 프로세스를 수행할 수 있다. 세포 경계 클래스(각각의 마스크에서 1의 값을 갖는 위치로 표시됨)는 이웃하는 세포 내부들 사이의 분리를 보장한다. 이는 각각의 마스크의 모든 윤곽 리스트를 생성한다. 그 후, 각각의 윤곽을 채워진 다각형으로 처리함으로써, 프로세스(712)는 윤곽의 중심(질량 중심)의 좌표들을 결정하고, 그로부터 프로세스(712)는 중심 리스트를 생성한다. 다음으로, 이미지 내의 단일 타일에 특이적인 좌표 공간 대신에 전체 수신된 이미지에 의해 정의되는 좌표 공간에 있는 출력들을 생성하기 위해, 윤곽 리스트들 및 중심 리스트들 내의 각각의 좌표가 시프트된다. 이러한 시프트가 없는 경우, 각각의 좌표는 그것을 포함하는 이미지 타일의 좌표 공간 내에 있을 것이다. 각각의 시프트의 값은 수신된 이미지 상의 부모 타일의 상단 좌측 코너의 좌표와 동일하다. 이 예에서, 프로세스(714)는 프로세스(712)와 동일한 프로세스를 수행하지만, 림프구 클래스에 대해 수행된다.
프로세스들(712, 714)은 각각이 UNet 분할 모델에 대응하는 윤곽 리스트 출력들 및 중심 리스트 출력들을 생성한다. 윤곽은, 연결되는 경우, 검출된 객체의 아웃라인을 나타내는 좌표들의 세트이다. 각각의 윤곽은 숫자들의 쌍들로서 순차적으로 인쇄되는 구성 좌표들로 구성된 텍스트의 라인으로서 표현될 수 있다. 프로세스들(712 및 714)로부터의 각각의 윤곽 리스트는 다수의 이러한 라인들로 구성된 텍스트 파일로서 저장될 수 있다. 중심 리스트들은 숫자들의 쌍들의 리스트이다. 이들 출력들 각각은 일시적으로 버퍼링되고, 프로세스(716)에 제공될 수 있다.
프로세스(716)는 프로세스(706)로부터 조직 분류 출력(리스트들의 리스트), 프로세스(712)로부터 세포 중심들 및 윤곽 리스트들, 및 프로세스(714)로부터 림프구 중심들 및 윤곽 리스트들을 수신하고, 세포 분할 통합을 수행한다.
예를 들어, 프로세스(716)는 프로세스들(712 및 714)의 쌍을 이룬 출력들을 통합할 수 있고, 세포들에 대한 가장 중요한 정보를 포함하는 단일의 간결한 리스트를 생성할 수 있다. 일 예에서, 프로세스(716)의 2개의 주요 구성요소들이 존재한다.
프로세스(716)의 제1 구성요소에서는, 세포 분할 모델 및 림프구 분할 모델에서 발견된 정보가 조합된다. 정보가 조합되기 전에, 이는 세포 윤곽들의 리스트 및 림프구 윤곽들의 리스트로 존재하지만, 이들은 2개의 독립적인 모델(712 및 714)의 출력이기 때문에 림프구 윤곽들이 반드시 세포 윤곽들의 서브세트일 필요는 없다. 따라서, (1) 객체가 세포가 아닌 경우, 림프구는 세포의 한 유형이기 때문에, 이는 생물학적으로 림프구일 수 없고, (2) 동일한 분모를 갖는 데이터 세트에 대한 백분율을 보고하는 것이 바람직하기 때문에, 림프구를 세포의 서브세트로 만드는 것이 바람직하다. 따라서, 세포 분할 통합 프로세스(716)는 각각의 세포의 위치를 모든 림프구의 위치와 비교함으로써 수행될 수 있다. (일 예에서, 이는 단일 타일 내의 객체들에 대해서만 행해질 수 있으므로, 비교들의 수가 너무 크지는 않다). 일 예에서, 세포가 림프구에 "충분히 가까운" 경우에만, 해당 세포는 림프구로 간주된다. "충분히 가까운"의 정의는 훈련 조직병리학 이미지들의 세트에 걸쳐 림프구 분할 모델에 의해 검출된 객체들의 중앙값(median) 반경을 경험적으로(empirically) 결정함으로써 확립될 수 있다. 이 훈련 조직병리학 이미지들은 모델 그 자체에 의해 생성되는 주석이 달린 이미지들이어서, 새로운 또는 업데이트된 훈련 세트를 형성하는 여러 오더(order) 더 많은 이미지들, 예를 들어, 수백만 개의 자동으로 주석된 이미지들을 초래하기 때문에, 이 업데이트된 훈련 이미지 세트(예를 들어, 도 4의 403)는 모델을 훈련하는데 사용되는 이미지들의 훈련 세트와 상이하다는 점에 유의해야 한다. 실제로, 모델에 대한 훈련 세트는 수용/거부 조건을 만족시키는 새로운 수신된 의료 이미지들로 계속 증가할 수 있다. 이는 조직 분류 모델뿐만 아니라 세포 분할 모델 및 림프구 분할 모델에 대한 경우일 수 있다. 모델로부터 새로운 훈련 세트를 생성함으로써, 그 모델은 후속 이미지들을 평가하기 때문에, (1) 훈련 타일들에 대해 아웃라이닝된 것들 대신에 수백만 개의 세포들의 중앙값을 사용할 수 있고, (2) (사람이 그린 주석 크기가 아니라) 검출되는 객체들의 실제 크기를 비교할 수 있다. 림프구 핵은 전형적으로 구형이어서, 일 예에서 이들 모든 객체들은 원으로 모델링되었다(구의 2차원 조각이기 때문임). 이러한 원의 반경이 계산되고, 림프구 검출의 전형적인 크기를 결정하기 위해 중앙값이 사용되었다. 그 결과, 최종 세포 리스트는 세포 분할 모델에 의해 발견되는 정확한 객체이고, 림프구 분할 모델의 목적은 해당 리스트 내의 각각의 세포에 대해 부울 참/거짓 라벨을 제공하는 것이다.
프로세스(716)의 제2 구성요소에서, 각각의 세포는 위치에 기초하여 (프로세스(706)로부터) 조직 분류 타일들 중 하나로 비닝(binned)된다. 여기서 설명된 예에서, 모델들이 상이한 아키텍처를 갖기 때문에, 세포 분할 타일은 조직 분류 타일과 상이한 크기일 수 있다. 그럼에도 불구하고, 프로세스(716)는 각각의 세포 중심에 대한 좌표들, 각각의 조직 분류 타일의 상부 좌측 코너에 대한 좌표들, 및 각각의 조직 분류 타일의 크기를 갖고, 그 중심 위치에 기초하여 각각의 세포에 대한 부모 타일을 결정하도록 구성된다.
프로세스(716)는 리스트들의 리스트인 출력을 생성한다. 각각의 중첩된 내부 리스트는 단일 세포를 기술하는 중첩된 분류의 역할을 하며, 세포의 중심 좌표들, 부모 타일의 타일 수, 부모 타일의 조직 클래스, 및 세포가 림프구로 분류되는지 여부를 포함한다. 이 정보는 각각의 세포에 대해 리스트되며, 출력 리스트는 딥러닝 프레임워크 파이프라인 출력 json 파일에 저장된다.
바이오마커 메트릭 프로세싱 모듈(326)과 같은 후처리 컨트롤러에 의해 구현될 수 있는 프로세스(718)는, 설명된 바와 같이, 다수의 상이한 바이오마커 메트릭들 중 임의의 것을 결정하며, 특히 이 예에서는 이 예에서 TIL 상태 및 다른 TIL 메트릭들을 결정한다.
예를 들어, 프로세스(718)는 프로세스(704)에서 사용된 조직 마스크에 기초하여, 조직에 의해 커버되는 영역을 결정하기 위해 조직 영역 계산들을 수행하도록 구성될 수 있다. 일부 예에서, 조직 마스크는 조직이 존재하는 경우 1의 값들을 취하고 다른 곳에서는 0의 값들을 취하는 부울 어레이이기 때문에, 프로세스(718)는 조직 영역의 척도를 제공하는 1의 개수를 카운트할 수 있다. 이 값은 128x 다운샘플링에서 정사각 픽셀들의 개수이다. 이것에 16384를 곱하면(즉, 128 * 128조직 마스크의 경우), 고유 해상도("x"로 지칭됨)에 있는 정사각 픽셀의 개수가 제공된다. 이미지 고유 해상도는 마이크론 당 존재하는 픽셀들의 개수를 나타내고, 이 수에 제곱을 취하는 것은 제곱 마이크론 당 정사각 픽셀들의 개수("y"로 지칭됨)를 제공한다. 정사각 픽셀들의 개수를 이러한 해상도 스케일링 인자로 나는 것(또는 상기 정의된 변수들 x/y를 이용하는 것)은 조직에 의해 커버되는 제곱 마이크론의 개수를 산출하고, 따라서 조직 면적 계산을 산출한다. 즉, 프로세스(718)는 제곱 마이크론 단위의 조직 면적을 나타내는 부동 소수점 수 [0, ∞)를 생성할 수 있다. 이 값은 이후에 설명되는 수용/거부 모델 프로세스에서 사용될 수 있다.
다른 바이오마커 통계의 예로서, 프로세스(718)는 프로세스(716)로부터의 세포 분할 통합 출력을 이용하여 총 핵 계산을 수행하도록 더 구성될 수 있다. 예를 들어, 슬라이드 상의 총 핵 개수는 세포 분할 통합 출력의 항목들의 수로서 결정된다. 프로세스(718)는 또한 프로세스(716)로부터의 이러한 출력에 기초하여 종양 핵 % 계산을 수행할 수 있다. 이미지 상의 총 종양 핵 수는 (i) 부모 타일의 조직 클래스가 종양이고, (ii) 세포가 림프구로 분류되지 않는다는 요건들을 만족시키는 세포 분할 통합 출력의 항목들의 개수이다.
바이오마커 통계를 결정하는 것에 더하여, 프로세스(718)는 결정된 조직 면적, 총 핵 수, 및 종양 핵 수에 기초하여 수용/거부 프로세스를 수행하도록 더 구성될 수 있다. 일 예에서, 프로세스(718)는 로지스틱 회귀 모델을 이용하여 구성될 수 있고, 이들 3개의 변수는 입력으로서 사용되며, 여기서 모델 출력은 슬라이드가 분자 서열분석을 위해 수용되어야 하는지 또는 거부되어야 하는지에 대한 이진 추천이다. 로지스틱 회귀 모델은 이러한 파생 변수를 사용하여 이미지들의 훈련 세트에 대해 훈련될 수 있다. 예를 들어, 훈련 이미지들은 이전에 서열분석을 위해 전송된 수용된 조직병리학 이미지들뿐만 아니라 일상적인 병리 검토 동안 거부되었던 조직병리학 이미지들로 형성될 수 있다. 대안적으로, 설정된 임계치가 있을 수 있는데, 예를 들어 슬라이드 상의 핵의 20%가 종양이어야 한다거나, 최소 개수의 종양 세포가 필요할 수 있다. 일부 예에서, 모델은 또한 종양 세포들의 DNA 배수성(핵형검사로부터의 데이터 또는 DNA 서열분석 정보)를 고려할 수 있고, 각각의 종양 핵에서 검출된 염색체의 평균 카피 수만큼 종양 핵의 수를 곱하고, 통상적으로 예상되는 카피 수인 2로 나눔으로써, 이용 가능한 유전 물질의 조정된 추정치를 계산할 수 있다. 일부 예에서, 로지스틱 회귀 모델은 수동 리뷰를 추천하는 수용 및 거부 사이에 불확실성 영역을 부가함으로써 3개(2개 대신에)의 가능한 출력들을 갖도록 구성될 수 있다. 예를 들어, 로지스틱 회귀 모형의 최종 출력은 실수이며, 모델의 마지막 단계는, 일부 예에서, 0을 임계치로 하여 이 숫자에 대한 이진 분류를 생성할 것이다. 대신에, 일부 예에서, 불확실성 영역은 0을 포함하는 숫자 범위로 정의되는데, 여기서 이 범위보다 높은 값은 거부에 대응하고, 이 범위 안의 값은 수동 검토에 해당하며, 이 범위 아래의 값은 수용에 해당한다. 프로세스(718)는 교차 검증 실험을 수행함으로써 이러한 불확실성 영역의 크기를 계산하도록 구성될 수 있다. 예를 들어, 프로세스(718)는 훈련 프로세스를 여러 번 반복할 수 있지만, 각각의 반복에서, 훈련 세트 내의 이미지들의 상이한 랜덤 서브세트가 사용된다. 이는 유사하지만 동일하지 않은 많은 최종 모델을 생성할 것이고, 프로세스(718)는 최종 로지스틱 회귀 모델에서 불확실성 범위를 결정하기 위해 이러한 변동을 사용할 수 있다. 따라서, 프로세스(718)는 일부 예에서, 이진 수용/거부 출력을 생성할 수 있고, 일부 예에서는 수용/거부/수동 검토 출력을 생성할 수 있다.
프로세스(718)로부터의 추천을 이용하여, 결정이 이루어진다. 예를 들어, 딥러닝 출력 후처리 컨트롤러는 "수용"으로 표시된 이미지들에 대한 보고서를 생성하고, 이들 이미지를 분자 서열분석을 위해 게놈 서열분석 시스템(112)에 자동으로 전송할 수 있는 반면, "거절"로 추천되는 이미지들은 거부되고 분자 서열분석을 위해 전송되지 않는다. "수동 검토" 옵션이 구성되어 추천되는 경우, 이미지는 슬라이드를 검토하고 분자 서열분석을 위해 전송되어야 하는지 또는 거부되어야 하는지를 결정하기 위해 병리학자 또는 병리학자들의 팀(118)에게 전송될 수 있다.
도 8은, 이미징 기반 바이오마커 예측 시스템(102), 딥러닝 프레임워크(300), 또는 딥러닝 프레임워크(402)에 의해, 특히 단일 스케일 구성을 갖는 딥러닝 프레임워크에서 실행될 수 있는 예시적인 프로세스(800)를 도시한다.
프로세스(802)에서, 분자 훈련 데이터는 이미징 기반 바이오마커 예측 시스템에서 수신된다. 이러한 분자 훈련 데이터는 다수의 환자들에 대한 것이며, 본원에 설명된 소스로부터와 같이, 유전자 발현 데이터세트로부터 획득될 수 있다. 일부 예에서, 분자 훈련 데이터는 RNA 서열 데이터를 포함한다. 블록(804)에서, 분자 훈련 데이터는 바이오마커에 의해 라벨링된다. 바이오마커 군집화의 일 형태는, 시료와 관련된 기존의 라벨, 예컨대 종양 아형을 취함으로써 수행될 수 있는 라벨링 단계, 및 라벨을 분자 훈련 데이터와 연관시키는 단계를 포함한다. 대안적으로, 또는 부가적으로, 라벨링은 자동 군집화 알고리즘의 사용과 같은 군집화에 의해 수행될 수 있다. 하나의 예시적인 알고리즘은 CMS 아형의 바이오마커의 경우에, CMS 아형에 따른 분자 훈련 데이터 및 군집 훈련 데이터에서 CMS 아형을 식별하기 위한 알고리즘이다. 이러한 자동 군집화는 예를 들어, 딥러닝 프레임워크 단일-클래스 분류기 모듈 내에서, 또는 딥러닝 프레임워크(300) 내의 것들과 같은 슬라이드 수준의 라벨 파이프라인 내에서 수행될 수 있다. 일부 예에서, 블록(802)에서 수신된 분자 훈련 데이터는 예를 들어, RNA 습식 실험실(wet lab)을 이용하여 생성되고 생물정보학 파이프라인을 이용하여 처리된, RNA 서열 데이터이다.
다양한 실시예들에서, 예를 들어, 각각의 전사체 데이터 세트는 RNA 서열분석 데이터를 생성하기 위해 환자 또는 종양 오가노이드 샘플을 RNA 전체 진유전체(exome) 차세대 염기서열 분석(NGS: next generation sequencing)을 통해 처리함으로써 생성될 수 있고, RNA 서열분석 데이터는 생물정보학 파이프라인에 의해 처리되어 각각의 샘플에 대한 RNA-서열 발현 프로파일을 생성할 수 있다. 환자 샘플은 암 세포를 포함하는 조직 샘플 또는 혈액 샘플일 수 있다.
RNA는 상업적으로 이용 가능한 시약, 예를 들어, 프로테이나제 K, TURBO DNase-I, 및/또는 RNA 세정 XP 비드를 사용하여 혈액 샘플 또는 조직 절편으로부터 분리될 수 있다. 분리된 RNA는 형광 염료 및 형광 마이크로플레이트 판독기, 표준 분광형광계 또는 필터 형광계의 사용을 포함하는, RNA 분자의 농도 및/또는 양을 측정하기 위해 품질 제어 프로토콜에 적용될 수 있다.
cDNA 라이브러리는 분리된 RNA 로부터 준비될 수 있고, 정제되고, 상업적으로 이용 가능한 시약, 예를 들어 Roche KAPA Hyper Beads를 사용하여 cDNA 분자 크기를 선택하기 위해 선택될 수 있다. cDNA 라이브러리 제제는 역전사를 포함할 수 있다. 다른 예에서, NEB(New England Biolabs) 키트가 사용될 수 있다. cDNA 라이브러리 제제는 cDNA 분자 상에 어댑터의 리게이션(ligation)을 포함할 수 있다. 예를 들어, Roche SeqCap 이중 말단 어댑터를 포함하는 UDI 어댑터, 또는 UMI 어댑터(예를 들어, 전장 또는 스터비 Y 어댑터)가 cDNA 분자에 리게이션될 수 있다. 이 예에서, 어댑터는 이들이 유래되는 샘플에 따라 cDNA 분자를 식별하고/하거나, 이어지는 생물정보학 프로세싱 및/또는 차세대 서열분석 반응을 용이하게 하기 위한 바코드로서 작용할 수 있는 핵산 분자이다. 어댑터 내의 뉴클레오티드의 서열은 상이한 샘플에 대해 획득된 서열분석 데이터를 구별하기 위해 샘플에 대해 특이적일 수 있다. 어댑터는 서열분석기 유동 세포 상에서 앵커 올리고뉴클레오티드 분자에 대한 cDNA 분자의 결합을 용이하게 할 수 있고, 서열화 반응을 위한 출발점을 제공함으로써 서열분석 프로세스에 대한 시드로서의 역할을 할 수 있다.
cDNA 라이브러리는 시약, 예를 들어, Axygen MAG PCR 클린업 비드를 사용하여 증폭되고 정제될 수 있다. 증폭은 정량적 또는 역전사 정량적 PCR(qPCR 또는 RT-qPCR)과 구별되는, 중합효소 연쇄 반응(PCR) 기술을 포함할 수 있다. 이어서, 형광 염료 및 형광 마이크로플레이트 판독기, 표준 분광형광계 또는 필터 형광계를 사용하여, cDNA 분자의 농도 및/또는 양이 정량화될 수 있다.
cDNA 라이브러리는 풀링될 수 있고, 진공에서 건조되기 전에, 시약, 예를 들어 인간 COT-1 및/또는 IDT xGen Universal Blockers로 처리되어 표적-외 포획이 감소될 수 있다. 그 후, 풀은 혼성화 혼합물, 예를 들어 IDT xGen Lockdown에 다시 현탁될 수 있고, 각각의 풀에 프로브, 예를 들어, IDT xGen Exome Research Panel v1.0 프로브, IDT xGen Exome Research Panel v2.0 프로브, 기타 IDT 프로브 패널, Roche 프로브 패널 또는 다른 프로브가 추가될 수 있다. 풀은 프로브가 혼성화될 수 있도록 인큐베이터, PCR 기기, 수조, 또는 다른 온도 조절 장치에서 배양될 수 있다. 이어서, 풀은 스트렙타비딘-코팅된 비드 또는 혼성화된 cDNA-프로브 분자, 특히 인간 게놈의 엑손을 나타내는 cDNA 분자를 포획하기 위한 다른 수단과 혼합할 수 있다. 다른 실시예에서, polyA 포획이 사용될 수 있다. 풀은 상업적으로 이용 가능한 시약, 예를 들어, KAPA HiFi Library Amplification 키트 및 Axygen MAG PCR 클린업 비드를 각각 사용하여 한 번 더 증폭 및 정제될 수 있다.
cDNA 라이브러리는 예를 들어 형광 염료(예를 들어, 피코그린 풀 정량화) 및 형광 마이크로플레이트 판독기, 표준 분광형광계, 또는 필터 형광계를 사용하여, cDNA 분자의 농도 또는 양을 결정하도록 분석될 수 있다. cDNA 라이브러리는 또한 겔 전기영동 기술을 통해 수행될 수 있는 cDNA 분자의 단편 크기를 결정하도록 분석될 수 있고, LabChip GX Touch와 같은 장치의 사용을 포함할 수 있다. 풀은 키트(예를 들어, PhiX-spike in을 가진 Illumina Paired-end Cluster 키트)를 사용하여 증폭될 수 있다. 일 예에서, cDNA 라이브러리 준비 및/또는 전체적인 진유전체 포획 단계들은 액체 취급 로봇(예를 들어, SciClone NGSx)을 사용하여 자동화된 시스템으로 수행될 수 있다.
라이브러리 증폭은 장치, 예를 들어, Illumina C-Bot2 상에서 수행될 수 있고, 증폭된 표적-포획된 cDNA 라이브러리를 포함하는 최종 유동 세포는 차세대 서열분석기 상에서, 예를 들어, Illumina HiSeq 4000또는 Illumina NovaSeq 6000 상에서, 예를 들어, 300x, 400x, 500x, 10,000x 등 사용자에 의해 선택된 고유한 표적-상의 깊이로 서열분석될 수 있다. 차세대 서열분석기는 각각의 환자 샘플 또는 각각의 유동 세포에 대한 FASTQ, BCL, 또는 다른 파일을 생성할 수 있다.
2개 이상의 환자 샘플들이 동일한 서열분석기 유동 세포 상에서 동시에 처리되는 경우, 다수의 환자 샘플들로부터의 판독이 초기에 동일한 BCL 파일에 포함될 수 있고, 이어서 각각의 환자에 대한 별개의 FASTQ 파일로 분할될 수 있다. 각각의 환자 샘플에 사용되는 어댑터들의 서열의 차이는 바코드의 역할을 하여, 각각의 판독을 정확한 환자 샘플과 연관시키고 이를 정확한 FASTQ 파일에 배치하는 것을 용이하게 할 수 있다.
각각의 FASTQ 파일은 페어드-엔드 또는 단일 판독물일 수 있는 판독물을 포함하고, 짧은 판독물 또는 긴 판독물일 수 있으며, 여기서 각각의 판독물은, 환자 샘플로부터 분리되고 서열분석기를 사용하여 라이브러리 준비 동안에 분리된 mRNA 분자로부터 생성된 cDNA 분자 내에 포함된 뉴클레오티드의 서열을 검출함으로써 유추된, mRNA 분자 내의 뉴클레오티드의 하나의 검출된 서열을 나타낼 수 있다. FASTQ 파일의 각각의 판독은 또한 품질 등급과 관련된다. 품질 등급은 연관된 판독에 영향을 주는 서열분석 절차 중에 오류가 발생했을 가능성을 반영할 수 있다.
각각의 FASTQ 파일은 생물정보학 파이프라인에 의해 처리될 수 있다. 다양한 실시예들에서, 생물정보학 파이프라인은 FASTQ 데이터를 필터링할 수 있다. FASTQ 데이터를 필터링하는 단계는, 서열분석기 오류를 정정하는 단계, 및 낮은 품질의 서열 또는 염기, 어댑터 서열, 오염물, 키메라 판독, 과표시된 서열, 라이브러리 준비, 증폭, 또는 포획에 의해 야기되는 편향, 및 다른 오류를 제거(트리밍(trimming))하는 단계를 포함할 수 있다. 오류를 갖는 것으로 보이는, 전체적인 판독, 개별 뉴클레오티드, 또는 다수의 뉴클레오티드들은, FASTQ 파일에서의 판독과 관련된 품질 등급, 서열분석기의 공지된 오류 비율, 및/또는 판독물에서의 각각의 뉴클레오티드와 기준 게놈 내의 동일한 위치에 정렬된 다른 판독물에서의 하나 이상의 뉴클레오티드 사이의 비교에 기초하여 폐기될 수 있다. 필터링은 다양한 소프트웨어 툴에 의해 부분적으로 또는 전체적으로 수행될 수 있다. FASTQ 파일은 AfterQC, Kraken, RNA-SeQC, FastQC와 같은 서열분석 데이터 QC 소프트웨어(Illumina, BaseSpace Labs 또는 https://www.illumina.com/products/by-type/informatics-products/basespace-sequence-hub/apps/fastqc.html 참조) 또는 다른 유사한 소프트웨어 프로그램에 의해, 품질 제어 및 판독의 신속한 평가를 위해 분석될 수 있다. 페어드-엔드 판독의 경우, 판독물들이 병합될 수 있다.
각각의 FASTQ 파일에 대해, 파일 내의 각각의 판독은 판독에서 뉴클레오티드들의 서열과 가장 잘 매칭되는 서열을 갖는 기준 게놈 내의 위치에 정렬될 수 있다. 판독을 정렬하도록 설계된 많은 소프트웨어 프로그램, 예를 들어, Bowtie, Burrows Wheeler Aligner(BWA), Smith-Waterman 알고리즘을 사용하는 프로그램 등이 있다. 정렬은 기준 게놈(예를 들어, GRCh38, hg38, GRCh37, 게놈 기준 컨소시엄에 의해 개발된 다른 기준 게놈 등)을 사용하여, 각각의 판독에서의 뉴클레오티드 서열을 기준 게놈 내의 뉴클레오티드 서열의 일부와 비교하여, 판독 내의 서열에 대응할 가능성이 가장 높은 기준 게놈 서열의 부분을 결정함으로써, 수행될 수 있다. 정렬은 RNA 스플라이스 부위를 고려할 수 있다. 정렬은 기준 게놈 내의 각각의 판독의 시작 및 끝의 위치와, 기준 게놈 내의 각각의 뉴클레오티드에 대한 커버리지(판독의 수)를 저장하는, SAM 파일을 생성할 수 있다. SAM 파일들은 BAM 파일들로 변환될 수 있고, BAM 파일들은 분류될 수 있으며, 중복된 판독들은 삭제를 위해 표시될 수 있다.
일 예에서, 정렬 및 RNA 판독 정량화를 위해 kallisto 소프트웨어가 사용될 수 있다(문헌[Nicolas L Bray, Harold Pimentel, Pall Melsted and Lior Pachter, Near-optimal probabilistic RNA-seq quantification, Nature Biotechnology 34, 525-527 (2016), doi:10.1038/nbt.3519] 참조). 대안적인 실시예에서, RNA 판독 정량화는 다른 소프트웨어, 예를 들면, Sailfish 또는 Salmon을 이용하여 수행될 수 있다(문헌[Rob Patro, Stephen M. Mount, and Carl Kingsford (2014) Sailfish enables alignment-free isoform quantification from RNA-seq reads using lightweight algorithms. Nature Biotechnology (doi:10.1038/nbt.2862)] 또는 문헌[Patro, R., Duggal, G., Love, M. I., Irizarry, R. A., & Kingsford, C. (2017). Salmon provides fast and bias-aware quantification of transcript expression. Nature Methods] 참조). 이들 RNA-서열 정량화 방법은 정렬을 필요로 하지 않을 수 있다. RNA-서열 데이터의 정규화, 정량적 분석 및 차별적인 발현 분석을 위해 사용될 수 있는 많은 소프트웨어 패키지가 있다.
각각의 유전자에 대해, 주어진 유전자에 대한 원시 RNA 판독 카운트가 계산될 수 있다. 원시 판독 카운트는 각각의 샘플에 대해 표 형태의 파일로 저장될 수 있는데, 여기서 열은 유전자를 나타내고, 각각의 항목은 해당 유전자에 대한 원시 RNA 판독 카운트를 나타낸다. 일 예에서, kallisto 정렬 소프트웨어는 각각의 판독에 대해, 해당 판독이 유전자에 대해 정렬되는 확률의 합으로서 원시 RNA 판독 카운트를 계산한다. 따라서 원시 카운트는 이 예에서 정수가 아니다.
이어서, 원시 RNA 판독 카운트들은 예를 들어, 전체 정량 표준화를 이용하여 GC 함량 및 유전자 길이에 대해 정확하게 정규화되고, 예를 들어, 크기 인자(size factor) 방법을 이용하여 서열분석 깊이에 대해 조정될 수 있다. 일 예에서, RNA 판독 수 정규화는 2019년 9월 24일에 출원된 미국 특허출원 공개 제16/581,706 또는 국제출원 PCT19/52801(발명의 명칭: Methods of Normalizing and Correcting RNA Expression Data)에 따라 수행되고, 그 전체가 본원에 참고로 포함된다. 정규화하는 이유는 서열분석기 내의 각각의 cDNA 분자의 카피의 수가 환자 샘플에 mRNA 분자의 분포를 반영하지 않을 수 있다는 점 때문이다. 예를 들어, 라이브러리 준비, 증폭, 및 포획 단계 동안, mRNA 분자의 특정 부분은, 랜덤 헥사머(random hexamer), 증폭(PCR 농축), rRNA 고갈, 및 프로브 결합에 의해 야기되는 역전사 개시의 다양한 측면들 중에 발생하는 결함과, GC 함량, 판독 길이, 유전자 길이, 및 각각의 핵산 분자 내의 서열의 기타 특성에 기인할 수 있는 서열분석 동안 생성되는 오류로 인해 과다발현 또는 과소발현될 수 있다. 각각의 유전자에 대한 각각의 원시 RNA 판독 수는 NGS 서열분석 프로토콜의 임의의 편향 또는 결함에 의해 야기되는 과다발현 또는 과소발현을 제거하거나 감소시키도록 조정될 수 있다. 정규화된 RNA 판독 수는 각각의 샘플에 대해 표 형태의 파일로 저장될 수 있는데, 여기서 열은 유전자를 나타내고, 각각의 항목은 해당 유전자에 대한 정규화된 RNA 판독 카운트를 나타낸다.
전사체 값 세트는 전술한 바와 같이, 정규화된 RNA 판독 수 또는 원시 RNA 판독 수를 지칭할 수 있다.
도 8을 참조하면, 블록(804)에서, 분자 훈련 데이터(예를 들어, 이러한 RNA 서열 데이터)는 바이오마커에 의해 라벨링되고, 그리고 분자 훈련 데이터에서 CMS 아형을 식별하고 CMS 아형에 따라 훈련 데이터를 군집화하는 알고리즘과 같은, 자동 군집화 알고리즘을 이용하여 군집화된다. 이러한 자동 군집화는 예를 들어, 딥러닝 프레임워크 단일-클래스 분류기 모듈 내에서, 또는 딥러닝 프레임워크(300) 내의 것들과 같은 슬라이드 수준의 라벨 파이프라인 내에서 수행될 수 있다.
블록(806)에서, 각각의 바이오마커 군집(상이한 CMS 아형 또는 HRD와 같은, 상이한 바이오마커에 각각 대응함)에 대해, 연관된 환자들로부터의 조직병리학 이미지들이 획득된다. 이들 조직병리학 이미지는 예를 들어 슬라이드 수준의 라벨을 갖는 H&E 슬라이드 이미지들일 수 있다. 블록(808)에서, 각각의 바이오마커 군집에 대해, 이들 라벨링된 조직병리학 이미지는 상이한 CMS 아형을 예측하기 위한 다수의 CMS 분류 모델들과 같은 바이오마커 분류 모델들을 훈련하기 위한 딥러닝 프레임워크에 제공된다. 그 결과, 블록(810)에서, 훈련된 바이오마커 분류기들(분류 모델들)의 세트가 생성된다. 이런 식으로, 블록들(802 내지 810)은 훈련 프로세스를 나타낸다.
예측 프로세스는 블록(812)에서 시작하며, 여기서, H&E 슬라이드 이미지와 같은 새로운(라벨링되지 않거나 라벨링된) 조직병리학 이미지는 수신되고, 블록(810)에 의해 생성된 단일 스케일 바이오마커 분류기들에 제공되며, 블록(814)은 하나 이상의 바이오마커 분류 모델들, 예컨대 하나 이상의 CMS 아형 또는 HRD에 의해 결정된 바와 같이, 수신된 조직병리학 이미지에 대한 바이오마커 분류를 예측한다.
블록(610)에서와 같이, 새로운 조직병리학 이미지들은 블록(814)에서, 외과 임상 기록 시스템 또는 주요 돌봄 시스템으로부터 수신될 수 있고, 그것의 조직 분류 모델 및/또는 바이오마커 분류 모델들을 적용하는 훈련된 딥러닝 프레임워크에 적용되어 바이오마커 예측을 결정한다. 예를 들어, 이 예측 점수는 전체 조직병리학 이미지에 대해 결정될 수 있다.
또한, 프로세스(600)에서와 같이, 도 9의 프로세스(900)에 도시된 바와 같이, 블록(814)으로부터 예측된 바이오마커 분류가 블록(902)에 수신될 수 있다. 조직병리학 이미지에 대한, 따라서, 환자에 대한, 예측된 바이오마커 상태를 포함하는 임상 보고서가 블록(904)에서 생성될 수 있고, 블록(906)에서는, 예측된 바이오마커에 대응하는 바람직한 면역요법을 결정하기 위해 병리학자에게 제공하거나 임상의에게 디스플레이하기 위한 예측된 바이오마커 상태를 보여주는 오버레이 맵이 생성될 수 있다.
도 10a 및 도 10b는 예를 들어 시스템(300)의 오버레이 맵 생성기(324)에 의해 생성된 디지털 오버레이 맵의 예를 도시한다. 이러한 오버레이 맵들은 임상의들에게 디스플레이되는 정적 디지털 보고서들로서 또는 그래픽 사용자 인터페이스(GUI)를 통한 사용자 상호작용을 허용하는 동적 보고서들로서 생성될 수 있다. 도 10a는 오버레이 맵 생성기(324)에 의해 생성된 조직 클래스 오버레이 맵을 도시한다. 도 10b는 오버레이 맵 생성기(324)에 의해 생성된 세포 외부 경계 오버레이 맵을 도시한다.
일 예에서, 오버레이 맵 생성기(324)는 오버레이에 도시된 이미지 위치 및 조직병리학 이미지가 디스플레이 상의 동일한 위치에 있도록 정렬되는, 조직병리학 이미지를 덮는 투명 또는 불투명한 층들로서 디지털 오버레이들을 디스플레이할 수 있다. 오버레이 맵은 다양한 정도의 투명도를 가질 수 있다. 투명도의 정도는 오버레이 맵 생성기(324)의 동적 보고 모드에서 사용자에 의해 조정될 수 있다. 오버레이 맵 생성기(326)는 각각의 조직 클래스 라벨과 연관된 라벨링된 타일의 백분율, 각각의 조직 클래스 하에 분류된 타일들의 수의 비율들, 단일 조직 클래스로 분류된 모든 그리드 타일의 총 면적, 및 각각의 조직 클래스 하에 분류된 타일의 면적들의 비율들을 보고할 수 있다. 오버레이 맵은 상이한 조직 분류를 나타내고 상이한 바이오마커 상태 레벨에 대응하는 상이한 픽셀 강도 레벨을 갖는, 예를 들어, TIL의 예에서, 더 높은 예측된 TIL 상태(더 높은%)를 갖는 조직 영역에 대해 더 높은 강도의 픽셀들을, 그리고 더 낮은 예측된 TIL 상태(더 낮은 %)를 갖는 조직 영역에 대한 더 낮은 강도의 픽셀들을 나타내는, 히트맵으로서 디스플레이될 수 있다.
일 예에서, 딥러닝 출력 후처리 컨트롤러(308)는 또한, 사용자, 전체 슬라이드, 단일 그리드 타일에 의해 정의되거나, 각각의 조직 클래스 하에 분류된 모든 그리드 타일들, 또는 면역 세포들로 분류되는 세포들에 의해 정의되는 영역에 위치되는 세포들의 총 수 또는 세포들의 백분율을 보고할 수 있다. 또한, 컨트롤러(308)는 종양 또는 임의의 다른 조직 클래스로 분류된 영역 내에 위치한 림프구 세포로 분류된 세포의 수를 보고할 수 있다.
일 예에서, 컨트롤러(308)에 의해 생성된 디지털 오버레이 및 보고서는 종양 순도를 보다 정확하게 추정하는 데에 있어서, 그리고 종양을 둘러싸는 비-종양 조직 영역 내로 돌출하는 종양 세포를 갖는 침습성 종양을 포함하여, 관심 영역 또는 관심 진단을 위치시키는 데 있어서, 의료 전문가를 보조하는데 사용될 수 있다. 그들은 또한 의료 전문가들이 처방을 내리는데 도움을 줄 수 있다. 예를 들어, 종양으로 분류된 영역에서 림프구의 수는 면역요법이 환자의 암을 치료하는데 성공적일지 여부를 예측할 수 있다.
일 예에서, 컨트롤러(308)에 의해 생성된 디지털 오버레이 및 보고서는 또한, 예를 들어, 프로세스(700)에서 설명된 바와 같이 수용/거부/수동 결정을 구현하면서, 조직의 성공적인 유전적 서열 분석을 위해 슬라이드 샘플이 충분한 고품질 조직을 갖는지를 결정하는데 사용될 수 있다. 슬라이드 상의 조직의 유전적 서열 분석은 슬라이드가 다량의 조직을 포함하고/하거나, 사용자 정의된 조직 양 및 종양 순도 임계치를 초과하는 종양 순도 값을 갖는 경우, 성공적일 수 있다. 슬라이드 상에 존재하는 조직의 양 및 슬라이드 상의 조직의 종양 순도에 따라, 컨트롤러(308)는 프로세스(700)를 사용하여, 시퀀스 분석을 위해 수용됨 또는 거부됨과 같이 슬라이드를 라벨링할 수 있다. 또한, 컨트롤러(308)는 프로세스(700)에 따라, 생성기(324)로부터의 디지털 오버레이 및 보고서와 상호작용하는 사용자로부터 얻어진 사용자 정의된 조직 양 임계치 및 사용자 정의된 불확실성 범위를 사용하여, 슬라이드를 불확실한 것으로서 라벨링할 수 있다.
일 예에서, 예를 들어, 바이오마커 메트릭 처리 모듈(326)을 사용하여, 프로세스(700)를 구현하는 컨트롤러(308)는, 조직병리학 이미지 내의 조직에 의해 커버되는 총 면적을 측정함으로써 또는 슬라이드 상의 세포들의 수를 카운팅함으로써 슬라이드 상의 조직의 양을 계산한다. 슬라이드 상의 세포들의 수는 슬라이드 상에 가시적인 세포 핵의 수에 의해 결정될 수 있다. 일 예에서, 컨트롤러(308)는 종양으로 라벨링된 그리드 영역들 내의 세포 핵들의 수를 슬라이드 상의 세포 핵들의 총 수로 나눔으로써, 암 세포인 조직의 비율을 계산한다. 컨트롤러(308)는 종양 영역에 위치하지만 림프구를 특징으로 하는 세포에 속하는 세포들의 핵 또는 외부 경계를 배제할 수 있다. 암 세포인 조직의 비율은 샘플의 종양 순도로 알려져 있다. 그 후, 컨트롤러(308)는 종양 순도를 (오버레이 맵 생성기(324)와 상호작용하는 사용자에 의한 입력으로서) 사용자가 선택한 최소 종양 순도 임계치와 비교하고, 디지털 이미지 내의 세포들의 수를 사용자가 선택한 최소 세포 임계치와 비교하며, 두 임계치들이 초과되는 경우, 유전자 서열 분석을 포함하는 분자 테스트를 진행하도록 이미지에 도시된 조직 슬라이드를 승인한다. 일 예에서, 사용자-선택된 최소 종양 순도 임계치는 0.20이고, 이는 20%이다. 다만, 1%, 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50% 또는 그 이상을 포함하여, 임의의 수의 종양 순도 임계치들이 선택될 수 있다.
다른 예에서, 컨트롤러(308)는 슬라이드 상에서 검출된 조직에 의해 커버되는 총 면적에 제1 배수 값을 곱하고, 슬라이드 상에서 카운팅된 세포들의 수에 제2 배수 값을 곱하며, 이러한 곱셈들의 결과를 합산하는, 합성 조직 양 점수를 이미지에 제공한다.
일 예에서, 컨트롤러(308)는 종양으로 라벨링된 그리드 영역들이 비-종양 그리드 영역들 사이에 공간적으로 통합되는지 또는 분산되는지를 계산할 수 있다. 종양 영역들이 공간적으로 통합되었다고 컨트롤러(308)가 결정하는 경우, 오버레이 맵 생성기(324)는 종양으로 분류된 이미지 영역들, 및 비-종양으로 분류된 이미지 영역들을 분리하는, 또는 종양으로 분류된 영역들에 근접하는 비-종양으로 분류된 영역들 내에 있는, 권장 절단 경계의 디지털 오버레이를 생성할 수 있다. 이러한 권장 절단 경계는, 기술자가 슬라이드를 절개하여 슬라이드로부터 종양 또는 비-종양 조직의 최대량을, 특히, 유전자 서열 분석을 포함하는 분자 검사를 위해, 슬라이드를 절개하는 것을 돕는 가이드일 수 있다.
일 예에서, 컨트롤러(308)는 분류된 세포들의 공간 및 밀도, 조직 분류가 분류된 타일들, 또는 슬라이드 상의 시각적으로 검출 가능한 특징들에 관한 정보를 계산하고 보고하는 군집화 알고리즘들을 포함할 수 있다. 간격 정보는 림프구, 면역 세포, 종양 세포 또는 다른 세포에 대한 분포 패턴 및 히트맵을 포함한다. 이러한 패턴은 군집화되고, 분산되며, 조밀하고, 존재하지 않은 것을 포함할 수 있다. 이러한 정보는 면역 세포 및 종양 세포가 함께 군집되는지 여부와, 면역요법에 대한 면역 침윤 및 환자 반응을 예측하는 것을 용이하게 할 수 있는 군집 영역 오버레이의 백분율을 결정하는데 유용하다.
또한, 컨트롤러(308)는 평균 종양 세포 원마도, 평균 종양 세포 둘레 길이, 및 평균 종양 핵 밀도를 계산하고 보고할 수 있다.
간격 정보는 또한 종양 세포 및 면역 세포의 혼합물 수준을 포함한다. 군집화 알고리즘은 주어진 슬라이드 상에서 또는 슬라이드의 영역 내에서 2개의 인접한 세포들이 2개의 종양 세포이거나, 2개의 면역 세포이거나, 또는 1개의 종양 세포 및 1개의 면역 세포일 확률을 계산할 수 있다.
군집화 알고리즘은 또한, 종양으로 분류된 영역 주위에 위치한 임의의 기질 패턴의 두께를 측정할 수 있다. 종양 영역을 둘러싸는 이러한 기질의 두께는 치료에 대한 환자의 반응의 예측인자일 수 있다.
일 예에서, 컨트롤러(308)는 또한, 단일 슬라이드 이미지의 각각의 그리드 타일에서 다음의 정보에 대한 평균, 표준 편차, 합계 등을 포함하는 통계치를 계산하고 보고할 수 있다: 적색 녹색 청색(RGB) 값, 광학 밀도, 색조, 채도, 그레이스케일, 및 염색 디컨볼루션. 디컨볼루션은 헤마톡실린, 에오신, 또는 IHC 염색을 포함하는, 임의의 개별적인 염색 또는 염색들의 조합에 의해 생성된 시각 신호의 제거를 포함한다.
또한, 컨트롤러(308)는 외과 분야 및 이미지 분석 분야들로부터 공지된 수학 공식들을 통합하여, 각각의 그리드 타일에 대한 시각적으로 검출가능한 기본적인 특징들을 계산할 수 있다. 선을 포함하는 시각적으로 검출가능한 기본적인 특징부, 교번하는 밝기의 패턴, 및 윤곽지을 수 있는 형상은 조합되어, 세포 크기, 세포 원마도, 세포 형상, 및 텍스처 특징으로 지칭되는 염색 패턴을 포함하는, 시각적으로 검출가능한 복잡한 특징을 생성할 수 있다.
다른 예들에서, 오버레이 맵 생성기(324)에 의해 생성된 디지털 오버레이, 보고서, 통계치 및 추정치는 환자 생존, 특정 암 치료에 대한 환자 반응, 종양 또는 면역 군집의 PD-L1 상태, 마이크로위성 불안정성(MSI), 종양 변이 부담(TMB: tumor mutational burden), 및 기원이 알려져 있지 않거나 종양이 전이성일 때 종양의 기원을 예측하는데 유용할 수 있다. 바이오마커 메트릭 프로세싱 모듈(326)은 또한, 예측된 환자 생존, 특정 암 치료에 대한 환자 반응, 종양 또는 면역 군집의 PD-L1 상태, 마이크로위성 불안정성(MSI), 및 종양 변이 부담(TMB)의 정량적 측정을 계산할 수 있다.
일 예에서, 컨트롤러(308)는 종양 또는 다른 조직 클래스로 지정된 영역에서 전체 슬라이드 상의 각각의 유형의 면역 세포의 상대적 밀도를 계산할 수 있다. 면역 조직 클래스들은 림프구, 세포독성 T 세포, B 세포, NK 세포, 대식세포 등을 포함한다.
일 예에서, 조직병리학 슬라이드를 스캐닝하거나 다른 방식으로 디지털적으로 캡처하는 동작은 해당 조직병리학 슬라이드의 디지털 이미지를 분석하도록 딥러닝 프레임워크(300)를 자동으로 트리거한다.
일 예에서, 오버레이 맵 생성기(324)는 사용자가 조직 클래스 오버레이 맵 또는 세포 외부 경계 오버레이 맵 상의 2개의 조직 클래스들 사이의 경계 또는 세포 외부 경계를 편집할 수 있게 하고, 변경된 맵을 새로운 오버레이로서 저장할 수 있게 한다.
도 11은 시스템(300)을 사용하여 구현될 수 있는 바와 같이, 조직 분류, 바이오마커 검출, 및 맵핑 분석을 위해 조직병리학 슬라이드의 디지털 이미지들을 준비하는 프로세스(1100)를 도시한다. 프로세스(1100)는 분석 및 바이오마커 예측을 위해 각각의 수신된 이미지에 대해 수행될 수 있다. 일부 예에서, 프로세스(1100)는 처음에 수신된 훈련 이미지들에 대해 전체적으로 또는 부분적으로 수행될 수 있다. 도 9에 설명된 프로세스들 각각은 전처리 컨트롤러(302)에 의해 수행될 수 있으며, 프로세스들 중 임의의 하나 이상이 정규화 모듈(310) 및/또는 조직 검출기(314)에 의해 수행될 수 있다.
예를 들어, 분류기 모델을 훈련할 때와 같이, 전처리 컨트롤러(302)에 의해 수신되는 각각의 디지털 이미지 파일은, 프로세스(1102)에서, 동일한 이미지 콘텐츠의 다수의 버전들을 포함하고, 각각의 버전은 상이한 해상도를 갖는다. 파일은 가장 많은 바이트 수를 포함하는 최고 해상도 이미지가 바닥층이 되도록 해상도에 의해 배열된 이들 복사본을 스택된 층들에 저장한다. 이것은 피라미드형 구조로 알려져 있다. 일 예에서, 가장 높은 해상도의 이미지는 디지털 이미지 파일을 생성한 스캐너 또는 카메라에 의해 달성가능한 최고 해상도이다.
일 예에서, 각각의 디지털 이미지 파일은 또한 각각의 계층의 해상도를 나타내는 메타데이터를 포함한다. 프로세스(1104)에서, 전처리 컨트롤러(302)는 이 메타데이터에서 각각의 계층의 해상도를 검출하고, 이를 사용자 선택된 해상도 기준과 비교하여 분석을 위해 최적의 해상도를 갖는 층을 선택할 수 있다. 일 예에서, 최적 해상도는 마이크론 당 1픽셀(4배 다운샘플링됨)이다.
일 예에서, 전처리 컨트롤러(302)는 마이크론 당 4개의 픽셀들의 바닥층 해상도를 갖는 TIFF(Tagged Image File Format) 파일을 수신한다. 마이크론 당 4픽셀의 해상도는 "40x"의 배율을 갖는 현미경 대물 렌즈에 의해 달성되는 해상도에 대응한다. 일 예에서, 슬라이드 상에 조직을 가질 수 있는 영역은 100,000 x 100,000 픽셀 크기이다.
일 예에서, TIFF 파일은 대략 10개의 층들을 가지며, 각각의 계층의 해상도는 그 아래의 계층의 해상도의 절반이다. 더 높은 해상도 층이 마이크론 당 4픽셀의 해상도를 가졌다면, 그 위의 층은 마이크론 당 2개의 픽셀을 가질 것이다. 상부 층 내에서 하나의 픽셀에 의해 표현되는 영역은 하부 층 내에서 4개의 픽셀들로 표현되는 영역의 크기일 것이며, 이는 하나의 상부 층 픽셀에 의해 표현되는 영역의 각각의 변(side)의 길이가 하나의 하부 층 픽셀에 의해 표현되는 영역의 각각의 변의 길이의 2배일 것임을 의미한다.
각각의 층은 프로세스(1106)에서 수행되는 바와 같이, 그 아래의 층의 2x 다운샘플링일 수 있다. 다운샘플링은 원본 이미지의 새 버전을 원본 이미지보다 낮은 해상도 값으로 생성할 수 있는 방법이다. 다운샘플링을 위한 당업계에 공지된 많은 방법들이 있으며, 이는 최근접 이웃, 바이리니어(bilinear), 에르미트(hermite), 벨(bell), Mitchell, 바이큐빅(bicubic), 및 Lanczos 리샘플링을 포함한다.
일 예에서, 2x 다운샘플링은 4개의 평균 픽셀들과 동일한 공간을 점유하는, 위의 층에서의 새로운, 더 큰 픽셀을 생성하기 위해, 더 높은 해상도 층의 사각형에 위치한 4개의 픽셀들 중 3개의 픽셀들로부터의 적색 녹색 청색(RGB) 값들이 4번째 픽셀로부터의 RGB 값으로 대체된다는 것을 의미한다.
일 예에서, 디지털 이미지 파일은 최적 해상도를 갖는 층 또는 이미지를 포함하지 않는다. 이 경우에, 프로세스(1106)에서, 전처리 컨트롤러(302)는 최적 해상도보다 높은 해상도를 갖는 파일로부터 이미지를 수신할 수 있고, 최적 해상도를 달성하는 비율로 이미지를 다운샘플링할 수 있다.
예를 들어, 최적 해상도는 마이크론 당 2픽셀이거나, 또는 "20x" 배율이지만, TIFF 파일의 바닥층은 마이크론 당 4픽셀이고, 각각의 층은 그 아래의 층에 비해 4x 다운샘플링된다. 이 경우, TIFF 파일은 40x 배율에서의 하나의 층과, 10x 배율에서의 다음 층을 가지지만, 20x 배율에서의 층은 갖지 않는다. 이 예에서, 전처리 컨트롤러(302)는 메타데이터를 판독하고 각각의 층의 해상도를 최적 해상도와 비교하지만, 최적 해상도를 갖는 층을 찾지 않는다. 대신에, 전처리 컨트롤러(302)는 40x 배율 층을 검색한 다음, 2x 다운샘플링 비율로 그 층 내의 이미지를 다운샘플링하여, 20x 배율의 최적 해상도를 갖는 이미지를 생성한다.
또한, 프로세스(1106)에서, 전처리 컨트롤러(302)가 최적 해상도를 갖는 이미지를 획득한 후에, 이는 종양 샘플 조직을 묘사하는 이미지의 모든 부분들을 찾고, 파편(debris), 펜 마크, 및 다른 비-조직 객체를 디지털적으로 제거한다.
일 예에서, 프로세스(1106)에서, 전처리 컨트롤러(302)는 이미지의 조직 영역과 비-조직 영역 사이를 구별하고, 가우시안 흐림 제거(Gaussian blur removal)를 사용하여 비-조직 객체들을 갖는 픽셀들을 편집한다. 일 예에서, 종양 샘플 조직의 일부가 아닌 슬라이드 상의 임의의 제어 조직은 조직 검출기에 의해 제어 조직으로서 검출되고 라벨링될 수 있거나, 또는 이어지는 타일 그리드 예측으로부터 배제되어야 하는 제어 조직으로서 사람 분석가에 의해 수동으로 라벨링될 수 있다.
비-조직 객체들은 이미지 내의 아티팩트들, 마킹들 및 파편들(debris)을 포함한다. 파편들은 케라틴, 시각적으로 분석될 수 없는 심각하게 압축되거나 으스러진 조직, 및 샘플과 함께 수집되지 않은 임의의 객체를 포함한다.
예를 들어, 프로세스(1106)에서, 슬라이드 이미지는 컨트롤러(302)가 검출하고 디지털적으로 삭제하는 마커 잉크 또는 다른 필기를 포함한다. 마커 잉크 또는 다른 필기는 조직 위에서 투명할 수 있으며, 이는 슬라이드 상의 조직이 잉크를 관통하여 가시적일 수 있음을 의미한다. 각각의 마킹의 잉크는 하나의 색상이기 때문에, 잉크는 잉크 없이 염색된 조직을 포함하는 픽셀과 비교하여, 잉크 아래의 염색된 조직을 포함하는 픽셀의 RGB 값에서 일관된 시프트를 야기한다.
예를 들어, 프로세스(1106)에서, 컨트롤러(302)는 슬라이드 이미지의 나머지 부분들의 RGB 값들과는 상이한 RGB 값들을 갖는 부분들을 검출함으로써, 잉크를 가지는 슬라이드 이미지의 부분들을 찾는데, 여기서 두 부분들로부터의 RGB 값들 사이의 차이는 일관된다. 그 다음, 조직 검출기는 잉크 부분들 내의 픽셀들의 RGB 값들과 잉크 부분들 내의 픽셀들의 RGB 값들로부터의 비-잉크 부분들 사이의 차이를 감산하여, 잉크를 디지털적으로 삭제할 수 있다.
일 예에서, 프로세스(1106)에서, 컨트롤러(302)는 낮은 국부적 가변성을 갖는 이미지 내의 픽셀들을 제거한다. 이들 픽셀은 초점을 벗어나는 조직 슬라이스에 의해 야기되는 아티팩트, 마킹, 또는 흐릿한 영역, 슬라이드의 두 유리 층 사이에 포획되는 공기 방울, 또는 슬라이드 상의 펜 마크를 나타낸다.
일 예에서, 프로세스(1106)에서, 컨트롤러(302)는 이미지를 그레이스케일 이미지로 변환함으로써 이러한 픽셀들을 제거하고, 각각의 픽셀의 원래의 그레이스케일 값을 흐릿한 그레이스케일 값으로 수학적으로 조정하는 가우시안 흐림 필터를 통해 그레이스케일 이미지를 통과시켜 흐릿한 이미지를 생성한다. 이미지를 흐릿하게 하기 위해 다른 필터들이 사용될 수 있다. 그 후, 각각의 픽셀에 대해, 컨트롤러(302)는 원래의 그레이스케일 값으로부터 흐릿한 그레이스케일 값을 감산하여 차분(difference) 그레이스케일 값을 생성한다. 일 예에서, 어느 픽셀의 차분 그레이스케일 값이 사용자 정의된 임계치보다 작은 경우, 이는 흐림 필터가 원래의 그레이스케일 값을 크게 변경하지 않았고, 원래의 이미지 내의 픽셀이 흐릿한 영역에 위치되었다는 것을 나타낼 수 있다. 차분 그레이스케일 값들은, 흐릿한 영역들이 비-조직 영역들로서 지정될 수 있음을 나타내는 이진 마스크를 생성하기 위해 임계치와 비교될 수 있다. 마스크는 이미지의 복사본일 수 있으며, 여기서, 색, RGB 값, 또는 픽셀 내의 다른 값들은 특정 유형의 모든 객체들의 위치를 나타내기 위해 해당 유형의 객체의 존재 또는 부재를 나타내도록 조정된다. 예를 들어, 이진 마스크는, 픽셀이 사용자 정의된 흐림 임계치 미만의 차분 그레이스케일 값을 갖는 경우, 각각의 픽셀의 이진 값을 0으로 설정하고, 픽셀이 사용자 정의된 흐림 임계치보다 더 높거나 같은 차분 그레이스케일 값을 갖는 경우 각각의 픽셀의 이진 값을 1로 설정함으로써 생성될 수 있다. 0의 픽셀 이진 값들을 갖는 이진 마스크의 영역들은 비-조직으로 지정될 수 있는 원래의 이미지 내의 흐릿한 영역들을 나타낸다.
또한, 프로세스(1108)에서, 컨트롤러(302)는 이미지에서 극도의 밝기 또는 어둡기를 소거하거나 제거할 수 있다. 일 예에서, 컨트롤러(302)는 입력 이미지를 그레이스케일 이미지로 변환하고, 각각의 픽셀은 해당 픽셀이 얼마나 밝은지에 따라 수치 값을 수신한다. 일 예에서, 그레이스케일 값은 0 내지 255 범위이며, 여기서, 0은 검정을 나타내고, 255는 흰색을 나타낸다. 밝기 임계치를 초과하는 그레이스케일 값을 갖는 픽셀들에서, 조직 검출기는 해당 픽셀들의 그레이스케일 값을 밝음 임계치로 대체할 것이다. 어둡기 임계치 미만의 그레이스케일 값을 갖는 픽셀들에 대해, 조직 검출기는 이들 픽셀들의 그레이스케일 값을 어둡기 임계치와 같도록 대체할 것이다. 일 예에서, 밝기 임계치는 대략 210이다. 일 예에서, 어둡기 임계치는 대략 45이다. 조직 검출기는 새로운 그레이스케일 값들을 갖는 이미지를 데이터 파일 내에 저장한다.
일 예에서, 컨트롤러(302)는 프로세스(1110)에서, 제1 분석 후에 남아 있는 임의의 아티팩트들, 파편들, 또는 마킹들에 대한 변경된 이미지를 분석한다. 조직 검출기는 이미지를 스캔하고, 특정 색, 크기, 또는 평활도를 갖는 임의의 나머지 픽셀 그룹을 비-조직으로 분류한다.
일 예에서, 슬라이드는 H&E 염색을 가지며, 조직병리학 이미지에서 대부분의 조직은 분홍 염색을 가질 것이다. 이 예에서, 컨트롤러(302)는 객체를 나타내는 픽셀들의 RGB 값에 의해 결정되는 바와 같이, 분홍 또는 적색 색조가 없는 모든 객체들을 비-조직으로 분류한다. 조직 검출기(314)는 픽셀 내의 조직의 존재 또는 부재를 나타내기 위해 해당 픽셀 내의 임의의 색상 또는 임의의 색의 결여를 해석할 수 있다.
일 예에서, 컨트롤러(302)는 각각의 객체의 크기 및 평활도를 측정하기 위해 이미지 내의 각각의 객체의 윤곽을 검출한다. 매우 어두운 픽셀들은 파편들일 수 있고, 매우 밝은 픽셀들은 배경일 수 있으며, 이들은 비-조직 객체들이다. 따라서, 컨트롤러(302)는 이미지를 그레이스케일로 변환하고, 각 픽셀의 그레이스케일 값들을 너무 밝지 않거나 너무 어둡지 않은 범위의 값들의 사용자 정의된 범위와 비교하며, 각각의 픽셀이 2개의 수치값들 중 하나에 할당되는 이진 이미지를 생성하기 위한 범위 내에 그레이스케일 값이 있는지 여부를 결정함으로써 각각의 객체의 윤곽들을 검출할 수 있다.
예를 들어, 이미지를 임계화(threshold)하기 위해, 컨트롤러(302)는 각각의 픽셀의 그레이스케일 값들을 사용자 정의된 범위의 값들과 비교하고, 사용자 정의된 범위 밖의 각각의 그레이스케일 값을 0값으로, 그리고 사용자 정의된 범위 내의 각각의 그레이스케일 값을 1값으로 대체할 수 있다. 그 후, 컨트롤러(302)는 1의 값을 갖는 인접하는 픽셀들의 각각의 그룹의 외부 경계로서 모든 객체들의 모든 윤곽들을 그린다. 폐쇄된 윤곽들은 객체의 존재를 나타내고, 컨트롤러(302)는 객체의 크기를 측정하기 위해 각각의 객체의 윤곽 내의 영역을 측정한다.
일 예에서, 슬라이드 상의 조직 객체는 슬라이드의 외측 경계와 접촉하지 않을 것이므로, 컨트롤러(302)는 슬라이드의 경계와 접촉하는 모든 객체를 비-조직으로 분류한다.
일 예에서, 각각의 객체의 크기를 측정한 후에, 컨트롤러(302)는 모든 객체들의 크기를 랭크하고 가장 큰 객체의 크기에 가장 큰 값을 지정한다. 컨트롤러(302)는 각각의 객체의 크기를 가장 큰 객체의 크기로 나누고, 그 결과인 크기의 몫을 사용자 정의된 크기 임계치와 비교한다. 어느 객체에 대한 크기의 몫이 사용자 정의된 크기 임계치보다 작은 경우, 컨트롤러(302)는 해당 객체를 비-조직으로서 지정한다. 일 예에서, 사용자 정의된 크기의 임계치는 0.1이다.
각각의 객체의 크기를 측정하기 전에, 프로세스(1106)에서, 컨트롤러(302)는 먼저, 입력 이미지를 다운샘플링하여 조직 객체의 부분들을 비-조직으로 지정할 가능성을 감소시킬 수 있다. 예를 들어, 단일 조직 객체는 더 작은 크기를 갖는 하나 이상의 추가적인 조직 객체 부분들에 의해 둘러싸인 제1 조직 객체 부분으로서 나타날 수 있다. 임계화 후, 추가적인 조직 객체 부분들은 사용자 정의된 크기 임계치보다 작은 크기 몫을 가질 수 있고, 비-조직으로 잘못 지정될 수 있다. 임계화하기 전에 다운샘플링하는 것은, 원래 이미지에서 0의 값을 갖는 픽셀에 의해 둘러싸인 1의 값을 갖는 인접 픽셀들의 작은 그룹이 1의 값을 갖는 인접한 더 큰 픽셀 그룹에 포함되게 한다. 반대로, 원래 이미지에서 1의 값을 갖는 픽셀에 의해 둘러싸인 0의 값을 갖는 인접 픽셀의 작은 그룹에 대해서도 0의 값을 갖는 인접한 더 큰 픽셀 그룹에 포함되게 할 수 있다.
일 예에서, 컨트롤러(302)는 40x 배율을 갖는 이미지를 16x의 비율만큼 다운샘플링하고, 결과적인 다운샘플링된 이미지의 배율은 40/16x이며, 다운샘플링된 이미지 내의 각각의 픽셀은 원래의 이미지에서 16개의 픽셀들을 나타낸다.
일 예에서, 프로세스(1110)에서, 컨트롤러(302)는 객체 경계를 나타내는, 0인 RGB 값들을 갖는 픽셀들에 의해 둘러싸인, 0이 아닌 이진 값들 또는 RGB 값들을 갖는 픽셀들의 군집으로서 슬라이드 상의 각각의 객체의 경계들을 검출한다. 경계를 형성하는 픽셀들이 상대적으로 직선 상에 놓이는 경우, 컨트롤러(302)는 해당 객체를 비-조직으로 분류한다. 예를 들어, 컨트롤러(302)는 폐쇄된 다각형을 갖는 형상의 윤곽을 그린다. 다각형의 꼭지점의 수가 사용자 정의된 최소 꼭지점 임계치보다 작은 경우, 다각형은 너무 매끈하고 단순한 무기 형상인 것으로 간주하고 비-조직으로 지정된다. 그 후, 컨트롤러(302)는 프로세스(1112)에서, 정규화된 이미지에 타일링 프로세스를 적용한다.
도 12a 내지 도 12c는 모듈(306)의 분류 모델들에 대해 사용될 수 있는 예시적인 아키텍처(1200)를 도시한다. 예를 들어, 동일한 아키텍처(1200)가 조직 분할 모델(322) 및 조직 분류 모델(320) 각각에 대해 사용될 수 있으며, 이들 둘 모두는 본원에서 FCN 구성 또는 임의의 신경 네트워크를 사용하여 구현된다. 조직 분류기 모듈(306)은 각각의 수신된 타일에 표현된 이미지에 조직 클래스 라벨을 할당하는 조직 분류 알고리즘(도 12a 내지 도 12c 참조)을 포함한다(도 13에 도시된 조직병리학 이미지(1300)의 제1 부분(1304)에 예시적인 타일들(1302)이 라벨링되어 있다). 일 예에서, 오버레이 맵 생성기(324)는 각각의 조직 클래스가 고유의 색상으로 표현되는 그리드 기반 디지털 오버레이 맵을 디스플레이함으로써 각각의 작은 사각형 타일과 연관된 할당된 조직 클래스 라벨을 보고할 수 있다(도 12a 참조).
더 작은 타일 크기는 조직 분류기 모듈(306)이 입력 이미지를 분석하는데 필요한 시간의 양을 증가시킬 수 있다. 대안적으로, 더 큰 타일 크기는 하나의 타일이 둘 이상의 조직 클래스를 포함할 가능성을 증가시킬 수 있고, 해당 타일에 단일 조직 클래스 라벨을 할당하는 것을 어렵게 할 수 있다. 이 경우에, 아키텍처(1200)는 다른 조직 클래스 라벨들과 비교하여, 조직 클래스 라벨들 중 하나가 작은 사각형 타일에서 이미지를 기술할 더 높은 확률을 갖는다는 것을 계산하는 대신에, 단일의 작은 사각형 타일에 정확하게 할당되는 2개 이상의 조직 클래스 라벨들에 대해 동일한 확률을 계산할 수 있다.
일 예에서, 각각의 작은 사각형 타일의 각각의 변(side)은 대략 32마이크론 길이이고 대략 5개 내지 10개의 세포들이 각각의 작은 사각형 타일 내에 놓인다. 이러한 작은 타일 크기는 2개의 별개의 조직 클래스들을 도시하는 2개의 이웃하는 작은 사각형 타일 영역들 사이의 경계를 결정할 때 조직 분류 모듈(306)이 공간적으로 보다 정확한 경계들을 생성할 수 있게 한다. 일 예에서, 작은 사각형 타일의 각각의 변은 1마이크론만큼 짧을 수 있다.
일 예에서, 각각의 타일의 크기는 특정 수의 픽셀들을 포함하도록 사용자에 의해 설정될 수 있다. 이 예에서, 입력 이미지의 해상도는 마이크론 단위로 측정된 바와 같이, 타일의 각각의 변의 길이를 결정할 것이다. 상이한 해상도에서, 타일의 변의 마이크론 길이는 변할 것이며, 각각의 타일 내의 세포의 수도 변할 수 있다.
아키텍처(1200)는 각각의 작은 사각형 타일 내에 또는 그 근방에 위치되는 디지털 이미지의 부분에서의 다양한 픽셀 데이터 패턴들을 인식하고, 검출된 픽셀 데이터 패턴들에 기초하여 각각의 작은 사각형 타일에 조직 클래스 라벨을 할당한다. 일 예에서, 작은 사각형 타일을 중심으로 한 중간 사각형 타일은 작은 사각형 타일에 대한 라벨 할당에 기여하기 위해 작은 사각형 타일에 충분히 가까운 슬라이드 이미지의 영역을 포함한다.
일 예에서, 중간 사각형 타일의 각각의 변은 대략 466마이크론 길이이고, 각각의 중간 사각형 타일은 대략 225개(15x15)의 작은 사각형 타일을 포함한다. 일 예에서, 이러한 중간 타일 크기는, 구조적 조직 특징이 단일 중간 타일 내에 놓일 수 있고 중앙의 작은 사각형 타일을 라벨링할 때 알고리즘에 컨텍스트를 제공할 수 있는 가능성을 증가시킨다. 구조적 조직 특징들은 샘(gland), 덕트(duct), 혈관, 면역 군집 등을 포함할 수 있다.
일 예에서, 이 중간 타일 크기는 컨볼루션(convolution) 동안 발생하는 수축(shrinkage)을 무효화할 수 있도록 선택된다.
아키텍처(1200)를 이용한 컨볼루션 동안에, 입력 이미지 행렬은 결과 행렬을 생성하기 위해 필터 행렬에 의해 곱해지는데, 수축은 결과 행렬이 입력 이미지 행렬보다 더 작은 경우를 지칭한다. 컨볼루션 층 내의 필터 행렬의 차원들은 수축으로 손실되는 행들 및 열들의 개수에 영향을 미친다. 특정한 CNN을 통해 이미지를 처리함으로써 수축으로 손실되는 행렬 성분들의 총 수는 CNN 내의 컨볼루션 층들의 개수 및 각각의 컨볼루션 층 내의 필터 행렬들의 차원들에 따라 계산될 수 있다. (도 12a 내지 도 12c 참조)
도 12b에 도시된 예에서, 컨볼루션 층들이 조합되어 행렬의 상부, 하부 및 2개의 측부 엣지들로부터 총 217개의 행렬 행들 또는 열들이 손실되고, 따라서 중간 사각형 타일은 작은 사각형 타일에 작은 사각형 타일의 각각의 변 위의 217개의 픽셀들을 더한 것과 동일하게 설정된다.
일 예에서, 2개의 이웃하는 작은 사각형 타일들은 한 변을 공유하고, 각각은 중간 사각형 타일의 중심에 있다. 2개의 중간 사각형 타일은 중첩된다. 각각의 중간 사각형 타일에 위치한 466개 x 466개의 작은 픽셀들 중에서, 2개의 중간 사각형 타일은 32개 * 466개의 픽셀을 제외하고 모두를 공유할 것이다. 일 예에서, 알고리즘의 각각의 컨볼루션 층(도 12a 및 도 12b 참조)은 알고리즘이 두 개의 벡터 값들(두 개의 작은 사각형 타일들 각각에 대해 하나씩)을 생성하도록, 두 개의 중간 사각형 영역들을 동시에 분석한다.
값들의 벡터는 각각의 조직 클래스 라벨에 대한 확률 값을 포함하며, 이는 작은 사각형 타일이 해당 조직 클래스를 묘사할 가능성을 나타낸다. 값들의 벡터들은 3차원 확률 데이터 어레이를 형성하기 위해 행렬 내에 배열될 수 있다. 3차원 확률 데이터 어레이 내의 각각의 벡터의, 다른 벡터에 대한 상대적인 위치는 알고리즘 분석에 포함된 다른 작은 사각형 타일들에 비해, 연관된 작은 사각형 타일의 위치에 대응할 것이다.
예를 들어, 각각의 중간 사각형 타일 내의 466 x 466(217,156개)의 픽셀들 중 434 x 434(188,356개)의 픽셀들은 두 중간 사각형 타일들 모두에 공통이다. 두 중간 사각형 타일들을 동시에 분석함으로써, 알고리즘은 효율성을 증가시킨다.
일 예에서, 아키텍처(1200)는, 각각이 조직 클래스 라벨을 수신하는 하나의 작은 중심 사각형 타일을 둘러싸는 많은 작은 사각형 타일들을 포함하는 다수의 중첩된 사각형 타일들에 의해 형성된 큰 타일을 분석함으로써 효율성을 더 증가시킬 수 있다. 이 예에서, 알고리즘은 각각의 작은 사각형 타일에 대한 확률들의 하나의 벡터를 포함하는 3차원 확률 데이터 어레이의 형태로 하나의 데이터 구조를 더 생성하며, 여기서 3차원 어레이 내의 벡터의 위치는 큰 타일 내의 작은 타일의 위치에 대응한다.
예를 들어, 조직 분류 모듈(306) 내의 아키텍처(1200)는 이러한 3차원 확률 데이터 어레이를 저장하고, 오버레이 맵 생성기(324)는 각각의 작은 사각형 타일에 대한 조직 클래스 라벨 확률을 조직 클래스 오버레이 맵으로 변환한다. 일 예에서, 오버레이 맵 생성기(324)는 각각의 벡터에 저장된 확률들을 비교하여 각각의 작은 사각형 타일과 연관된 가장 큰 확률 값을 결정할 수 있다. 가장 큰 값과 연관된 조직 클래스 라벨은 해당 작은 사각형 타일에 할당될 수 있고, 할당된 라벨들만이 조직 클래스 오버레이 맵에 디스플레이될 것이다.
일 예에서, 큰 사각형 타일을 위한 아키텍처(1200)의 각 층에 의해 생성된 행렬들은 그래픽 프로세싱 유닛(GPU: graphics processing unit) 메모리에 저장된다. 3차원 확률 데이터 어레이 내의 각각의 성분에 필요한 GPU 메모리의 용량 및 GPU 메모리의 개수는 큰 사각형 타일의 최대 가능 크기를 결정할 수 있다. 일 예에서, GPU 메모리 용량은 250MB이고, 행렬 내의 각각의 성분은 4바이트의 GPU 메모리를 필요로 한다. 이는 다음과 같이 계산된 4,530 x 4,530의 픽셀들의 큰 타일 크기를 허용한다: 4바이트/성분 * 4530 * 4530 * 각각의 큰 타일에 대해 3개의 성분들 = 큰 사각형 타일 당 246(~250)MB의 GPU 메모리가 필요함. 또 다른 예에서, 행렬 내의 각각의 성분은 8바이트의 GPU 메모리를 필요로 한다. 이 예에서, 16GB GPU는 32개의 큰 타일들을 동시에 처리할 수 있고, 각각의 큰 타일은 다음과 같이 계산된 4,530 x 4,530개의 픽셀들의 차원을 갖는다: 32개의 큰 타일들 * 8바이트/성분 * 4530 * 4530 * 각각의 큰 타일에 대해 3개 성분 = 14.7(~16)GB의 GPU 메모리가 필요함.
일 예에서, 3차원 확률 데이터 어레이 내의 각각의 성분은 단일 정밀도 부동소수점 형식(float32) 데이터 성분이다.
일 예에서, 큰 사각형 타일을 형성하는 16,384(1282)개의 비-중첩 작은 사각형 타일들이 있다. 각각의 작은 사각형 타일은 각각 대략 466개 픽셀의 길이의 변을 갖는 중간 사각형 타일의 중심이다. 작은 사각형 타일은 각각 대략 4,096개 픽셀의 길이의 변을 갖는 큰 사각형 타일의 중앙 영역을 형성한다. 중간 사각형 타일은 모두 중첩되고, 대략 217개 픽셀의 폭인 중앙 영역의 모든 4개 변의 둘레에 경계를 생성한다. 해당 경계를 포함하여, 각각의 큰 사각형 타일은 각각 대략 4,530개 픽셀의 길이의 변을 갖는다.
이 예에서, 이 큰 사각형 타일의 크기는 중복되는 계산 비율을 99%까지 감소시키는 동시 계산을 허용한다. 이는 다음과 같이 계산될 수 있다: 먼저, 큰 사각형 타일의 내부의 픽셀을 선택하고(임의의 픽셀, 큰 사각형 타일의 엣지로부터 적어도 434개의 픽셀), 이 모델 픽셀을 갖는 중간 사각형 타일(경계당 466개의 픽셀)의 크기인 영역을 중심에 구성하며, 이어서 이 구성된 영역 내에 중심을 둔 임의의 작은 사각형 타일을 위해, 해당 작은 사각형 타일의 대응하는 중간 사각형 타일 내에 모델 픽셀이 포함된다. 큰 사각형 타일 내에는 (466/32)^2 = ~217개의 작은 사각형 타일이 있다. 큰 사각형 타일의 내부에 있지 않은 픽셀의 경우, 이러한 조건을 만족시키는 작은 사각형 타일의 수는 더 작다. 이 수는 선택된 작은 사각형 타일과 큰 사각형 타일의 엣지 사이의 거리가 감소함에 따라 선형적으로 감소하고, 그 후, 선택된 작은 사각형 타일과 해당 코너 사이의 거리가 감소함에 따라 감소하며, 작은 수의 픽셀들(~0.005%)만이 단일의 작은 사각형 타일의 분류에 기여할 수 있다. 하나의 큰 사각형 타일에 분류를 수행하는 것은 각각의 픽셀에 대한 계산이 작은 사각형 타일마다 한번이 아니라, 단 한 번만 수행된다는 것을 의미한다. 따라서, 중복성은 거의 217배 감소된다. 일 예에서, 슬라이드는 여러 개의 큰 사각형 타일들을 포함할 수 있고, 이들 각각은 이웃들과 약간 중첩될 수 있기 때문에, 중복성이 완전히 제거되지는 않는다.
중복 계산 비율의 상한이 확립될 수 있다(이러한 상한으로부터의 약간의 편차는 조직을 커버하는데 필요한 큰 사각형 타일의 수 및 이러한 타일들의 상대적 배열에 의존한다). 중복 백분율은 1 - 1/r인데, 여기서 r은 중복 비율이고, (T/N + 1)(sqrt(N)*E + 434)^2 / (sqrt(T)*E + 434)^2로서 계산될 수 있으며, T는 슬라이드 상의 작은 사각형 타일들의 총 수이고, N은 큰 사각형 타일 당 작은 사각형 타일들의 수이고, E는 작은 사각형 타일들의 엣지 크기이다.
도 12a는 아키텍처(1200)의 계층 구조의 일 예의 층들을 도시한다. 도 12b는 타일-해상도의 FCN 구성을 나타내는, 상이한 층들 및 아키텍처(1200)의 결과적인 서브-층들에 대한 예시적인 출력 크기들을 도시한다. 도시된 바와 같이, 조직 분류기 모듈(306)에 포함된 타일-해상도의 FCN 구성은 스킵 연결(skip connection)에서 1x1 컨볼루션의 추가적인 층들, 스킵 연결에서 8배 다운샘플링, 및 신뢰 맵 층(confidence map layer)을 가지며, 평균 풀링 층을 연결 층(concatenation layer)으로 대체하고, 완전 연결된 FCN층을 1x1 컨볼루션 및 Softmax 층으로 대체한다. 추가된 층들은 분류 작업을 분류 분할 작업으로 변환한다. 이는 전체 이미지를 하나의 조직 분류 라벨로서 수신하고 분류하는 대신에, 추가된 층들이 타일-해상도의 FCN으로 하여금 사용자 정의된 그리드 내의 각각의 작은 타일을 조직 클래스로 분류하게 한다는 것을 의미한다.
이러한 추가된 및 대체된 층들은 통상적인 픽셀-해상도의 FCN의 후속 층들에서 수행되는 업샘플링을 필요로 하지 않고 CNN을 타일-해상도의 FCN으로 변환한다. 업샘플링은 원본 이미지의 새 버전이 원본 이미지보다 높은 해상도 값으로 생성될 수 있는 방법이다. 그러나, 업샘플링은 본 아키텍처에서 피할 수 있는 시간 소모적인 계산 집중 프로세스이다.
최근접 이웃, 바이리니어, 에르미트, 벨, Mitchell, 바이큐빅, 및 Lanczos 리샘플링을 포함하여, 당업계에 공지되어 있는 많은 방법들이 있다. 일 예에서, 2x 업샘플링은 적색 녹색 청색(RGB) 값을 갖는 픽셀이 4개의 픽셀들로 분할되고, 3개의 새로운 픽셀들에 대한 RGB 값들은 원래의 픽셀의 RGB 값들과 매칭하도록 선택될 수 있다는 것을 의미한다. 다른 예에서, 3개의 새로운 픽셀들에 대한 RGB 값들은 원래의 픽셀 및 이웃하는 픽셀에 인접한 픽셀들로부터의 RGB 값들의 평균으로서 선택될 수 있다.
새로운 픽셀들의 RGB 값들이 디지털 슬라이드 이미지에 의해 캡처된 원래 슬라이드 내의 가시 조직을 정확하게 반영하지 않을 수 있기 때문에, 업샘플링은 오버레이 맵 생성기(224)에 의해 생성된 최종 이미지 오버레이 맵 내에 오류들을 도입할 수 있다.
일 예에서, 개별 픽셀들을 라벨링하는 대신에, 타일-해상도의 FCN은 작은 사각형 타일들로 이루어진 큰 사각형 타일을 분석하도록 프로그래밍되고, 하나의 조직 클래스 분류 라벨이 각각의 작은 타일에 도시된 조직 클래스와 일치하는 확률을 각각 나타내는 값들의 3D 어레이를 생성한다. 컨볼루션 층은 적어도 하나의 필터 행렬에 의해 적어도 하나의 입력 이미지 행렬의 곱셈을 수행한다. 제1 컨볼루션 층에서, 입력 이미지 행렬은 큰 사각형 타일 입력 이미지 내의 모든 픽셀에 대한 값을 갖고, 해당 픽셀 내의 시각적 데이터(예를 들어, RGB의 각각의 채널에 대해 0 내지 255 사이의 값)를 나타낸다.
필터 행렬은 사용자에 의해 선택된 차원을 가질 수 있고, 사용자에 의해 선택되거나 CNN 모델 훈련 동안 역전파에 의해 결정되는 가중치들을 포함할 수 있다. 일 예에서, 제1 컨볼루션 층에서, 필터 행렬 차원들은 7x7이고, 64개의 필터들이 존재한다. 필터 행렬은 하나의 조직 클래스를 다른 조직 클래스와 구별할 수 있는 시각적 패턴을 나타낼 수 있다.
RGB 값들이 입력 이미지 행렬을 채우는 예에서, 입력 이미지 행렬 및 필터 행렬들은 3차원일 것이다(도 12c 참조). 각각의 필터 행렬은 각각의 입력 이미지 행렬에 의해 곱해져 결과 행렬을 생성한다. 하나의 컨볼루션 층 내의 필터들에 의해 생성된 모든 결과 행렬들은 행들, 열들, 및 깊이와 같은 차원들을 갖는 3차원 결과 행렬을 생성하도록 적층될 수 있다. 3차원 결과 행렬 내의 마지막 차원인 깊이는 필터 행렬들의 개수와 동일한 깊이를 가질 것이다. 하나의 컨볼루션 층으로부터의 결과 행렬은 다음 컨볼루션 층에 대한 입력 이미지 행렬이 된다.
도 12a를 참조하면, "/n"을 포함하는 컨볼루션 층 제목(여기서, n은 수임)은 해당 층에 의해 생성된 결과 행렬의 다운샘플링(풀링(pooling)으로도 알려짐)이 존재한다는 것을 나타낸다. n은 다운샘플링되는 배수를 나타낸다. 2배의 다운샘플링은, 결과 행렬의 4개 값들의 제곱을 해당 값들 중 하나 또는 해당 값들로부터 계산된 통계량으로 대체하여, 원래 결과 행렬의 행들의 절반 및 열들의 절반을 갖는 다운샘플링된 결과 행렬이 생성될 것임을 의미한다. 예를 들어, 값들의 최소, 최대 또는 평균이 원래 값을 대체할 수 있다.
또한, 아키텍처(1200)는 (청색 컨볼루션 층들을 연결 층에 직접 연결하는 화살표들을 갖는 검은 선들로서 도 12a에 도시된) 스킵 연결들을 추가한다. 왼쪽의 스킵 연결은 8배 다운샘플링을 포함하고, 오른쪽의 스킵 연결은 입력 이미지 행렬에 1 x 1의 차원을 각각 갖는 필터 행렬을 곱하는 2개의 컨볼루션 층들을 포함한다. 이들 층들 내의 필터 행렬들의 1 x 1 차원들 때문에, 단지 개별적인 작은 사각형 타일만이 보라색 컨볼루션 층들에 의해 생성된 결과 행렬들 내의 대응하는 확률 벡터에 기여한다. 이러한 결과 행렬들은 작은 초점 시야를 나타낸다.
다른 컨볼루션 층들 모두에서, 필터 행렬들의 더 큰 차원들은 중간 사각형 타일의 중심에 있는 작은 사각형 타일을 포함하는 각각의 중간 사각형 타일의 픽셀들이 그 작은 사각형 타일에 대응하는 결과 행렬 내의 확률 벡터에 기여하게 한다. 이러한 결과 행렬들은 작은 사각형 타일을 둘러싸는 컨텍스트 픽셀 데이터 패턴들로 하여금 작은 사각형 타일에 각각의 조직 클래스 라벨이 적용될 확률에 영향을 줄 수 있게 한다. 이러한 결과 행렬들은 큰 초점 시야를 나타낸다.
스킵 연결 내의 1 x 1 컨볼루션 층들은 알고리즘으로 하여금 중심의 작은 사각형 타일 내의 픽셀 데이터 패턴들을 주변 중간 사각형 타일의 나머지 부분의 픽셀 데이터 패턴들보다 더 중요하거나 덜 중요하게 간주하게 한다. 훈련된 모델이 연결 층 동안 (도 10a의 중앙 열에 도시된) 중간 타일 컨볼루션 층들로부터의 최종 결과 행렬과 곱해지는 가중치들과 비교하여, 훈련된 모델이 (도 12a의 오른쪽에 도시된) 스킵 연결 층들로부터의 최종 결과 행렬과 곱해지는 가중치들에 의해, 중요도의 양이 반영된다.
도 12a의 왼쪽에 도시된 다운샘플링 스킵 연결은 64의 깊이를 갖는 결과 행렬을 생성한다. 512개의 필터 행렬들을 갖는 3 x 3 컨볼루션 층은 512의 깊이를 갖는 결과 행렬을 생성한다. 64개의 필터 행렬들을 갖는 1 x 1 컨볼루션 층은 64의 깊이를 갖는 결과 행렬을 생성한다. 이러한 세 개의 결과 행렬들은 모두 동일한 수의 행들과 동일한 수의 열들을 갖는다. 연결 층은 3개의 연결된 행렬들과 동일한 수의 행들과 동일한 수의 열들 및 64+512+64(640)의 깊이를 갖는 최종 결과 행렬을 형성하기 위해 이러한 세 개의 결과 행렬들을 연결한다. 이 최종 결과 행렬은 크고 작은 초점 시야의 행렬들을 조합한다.
최종 결과 행렬은 모든 성분마다 특정 인자를 곱하고 각각의 깊이를 따라 곱을 합산함으로써 2차원으로 평탄화될 수 있다. 각각의 인자는 사용자에 의해 선택될 수 있거나, 역전파에 의해 모델 훈련 동안 선택될 수 있다. 평탄화는 최종 결과 행렬의 행과 열의 수를 변경하지 않지만 깊이를 1로 변경한다.
1 x 1 컨볼루션 층은 최종 결과 행렬을 수신하고, 이를 하나 이상의 필터 행렬로 필터링한다. 1 x 1 컨볼루션 층은 훈련된 알고리즘에서 각각의 조직 클래스 라벨과 연관된 하나의 필터 행렬을 포함할 수 있다. 이 컨볼루션 층은 조직 클래스 라벨의 수와 동일한 깊이를 갖는 3차원 결과 행렬을 생성한다. 각각의 깊이는 하나의 필터 행렬에 대응하고, 결과 행렬의 깊이를 따라서는 각각의 작은 사각형 타일에 대한 확률 벡터가 있을 수 있다. 이러한 3차원 결과 행렬은 3차원 확률 데이터 어레이이고, 1 x 1 컨볼루션 층은 이러한 3차원 확률 데이터 어레이를 저장한다.
Softmax 층은 각각의 확률 벡터 내의 모든 값을 비교하고, 최대값과 연관된 조직 클래스를 해당 확률 벡터와 연관된 작은 사각형 타일에 할당하기 위해 그 조직 클래스를 선택함으로써, 3차원 확률 데이터 어레이로부터 2차원 확률 행렬을 생성할 수 있다.
그 후, 저장된 3차원 확률 데이터 어레이 또는 2차원 확률 행렬은 조직 클래스 라벨을 각각의 타일에 효율적으로 할당하기 위해 도 10a의 최종 신뢰 맵 계층에서 조직 클래스 오버레이 맵으로 변환될 수 있다.
일 예에서, 수축(shrinkage)에 반응하여, 입력 이미지 행렬들은 행렬들의 네 개의 외부 엣지들 모두에 행들 및 열들을 부가하고, 여기서 부가된 행들 및 열들 내의 각각의 값 성분은 0이다. 이러한 행들과 열들은 패딩(padding)으로 지칭된다. 이 경우, 훈련 데이터 입력 행렬들은 0과 동일한 값 성분들을 갖는 동일한 수의 추가된 행들 및 열들을 가질 것이다. 훈련 데이터 입력 행렬들 내의 패딩 행들 또는 열들의 수의 차이는, 조직 클래스 로케이터(216)로 하여금 입력 이미지들을 정확하게 라벨링하도록 하지 않는 필터 행렬들 내의 값들을 초래할 것이다.
도 12a에 도시된 FCN에서, 입력 이미지 행렬의 각각의 변의 217개의 총 외부 행들 또는 열들은, 회색 층 및 청색 층들로 인해, 스킵 연결 전에 수축으로 손실될 것이다. 작은 사각형 타일들에 위치된 픽셀들만이 녹색 층들 및 그 너머에 의해 생성된 결과 행렬들 내에 대응하는 벡터를 가질 것이다.
일 예에서, 각각의 중간 사각형 타일은, 조직 클래스 로케이터(216)가 분석할 필요가 있는 이웃한 중간 사각형 타일들로부터의 이미지 데이터 값들이 0으로 대체될 것이기 때문에, 각각의 중간 사각형 타일에 대응하는 입력 이미지 행렬 주위에 0의 값 성분들을 갖는 행들 및 열들을 추가함으로써 덧붙여지지 않는다. 이 경우, 훈련 데이터 입력 행렬들도 덧붙여지지 않는다.
도 12c는 2개의 예시적인 3차원 필터 행렬들에 의해 컨볼루션되는 예시적인 3차원 입력 이미지 행렬의 각각의 깊이의 시각화이다.
입력 이미지 행렬이 각각의 중간 사각형 타일에 대해 RGB 채널을 포함하는 일 예에서, 입력 이미지 행렬 및 필터 행렬은 3차원일 것이다. 3차원들 중 하나에서, 입력 이미지 행렬 및 각각의 필터 행렬은 3개의 깊이를 가질 것인데, 하나는 적색 채널에 대한 것이고, 하나는 녹색 채널에 대한 것이며, 하나는 청색 채널에 대한 것이다.
입력 이미지 행렬의 적색 채널(제1 깊이)(1202)은 제1 필터 행렬의 대응하는 제1 깊이와 곱해진다. 유사한 방식으로, 녹색 채널(제2 깊이)(1204) 그리고 청색 채널(제3 깊이)(1206)도 곱해진다. 그 다음, 적색, 녹색 및 청색 곱 행렬들이 합산되어 3차원 결과 행렬의 제1 깊이를 생성한다. 이는 각각의 필터 행렬에 대해 반복되어, 각각의 필터에 대응하는 3차원 결과 행렬의 추가적인 깊이를 생성한다.
조직 분류기 모듈(306)에 포함되는 CNN 또는 FCN 모델을 훈련하기 위해 다양한 훈련 세트들이 사용될 수 있다.
일 예에서, 훈련 세트는 각각이 그 중심의 마이크론 당 대략 1픽셀의 해상도로 조직병리학 슬라이드의 적어도 50개의 디지털 이미지로부터 취해진 작은 사각형 타일에 할당된 조직 클래스 라벨을 갖는 중간 사각형 타일들의 JPEG 이미지를 포함할 수 있다. 일 예에서, 사람 분석가는 모든 관련된 조직 클래스에 윤곽을 그리고 라벨링하거나(주석이 달린 다양한 조직 클래스들), 각각의 조직병리학 슬라이드 내의 각각의 작은 사각형 타일을 비-조직 또는 특정 유형의 세포로 라벨링한다. 다양한 조직의 클래스들은 종양, 기질, 정상, 면역 군집, 괴사, 과형성/형성이상, 및 적혈구 세포를 포함할 수 있다. 일 예에서, 각각의 중심의 작은 사각형 타일의 각각의 변은 대략 32픽셀 길이이다.
일 예에서, 훈련 세트 이미지들은 입력 훈련 이미지 행렬들로 변환되고, 훈련 이미지의 각각의 타일 이미지에 조직 클래스 라벨을 할당하기 위해 조직 분류 모듈(306)에 의해 처리된다. 조직 분류기 모듈(306)이 사람 분석가에 의해 추가된 대응하는 주석들과 매칭하기 위해 훈련 이미지들의 검증 세트를 정확하게 라벨링하지 않는 경우, 딥러닝 네트워크의 각 계층의 가중치들은 조직 분류기 모듈(306)이 훈련 이미지들의 검증 세트의 대부분을 정확하게 라벨링할 때까지 역전파를 통해 확률적 기울기 하강에 의해 자동으로 조정될 수 있다.
일 예에서, 훈련 데이터 세트는 각각의 클래스가 조직 클래스를 나타내는 다수의 클래스들을 갖는다. 이러한 훈련 세트는 디지털 슬라이드 이미지 내의 콘텐츠를 인식하고 상이한 클래스들로 분류할 수 있는 특정한 하이퍼파라미터(에포크의 수, 학습 속도 등)를 갖는 고유한 모델을 생성할 것이다. 조직 클래스들은 종양, 기질, 면역 군집, 정상 상피, 괴사, 과형성/이형성, 및 적혈구 세포를 포함할 수 있다. 일 예에서, 모델은, 각각의 조직 클래스가 충분한 훈련 세트를 갖는다면, 제한없는 개수의 조직 클래스를 분류할 수 있다.
일 예에서, 훈련 세트 이미지들은 마스크 이미지 내의 상이한 값들(0-255)이 상이한 클래스들을 나타내는 주석에 대한 그레이스케일 마스크들로 변환된다.
각각의 조직병리학 이미지는 종양 외관을 포함하는 시각적 특징들에서 큰 정도의 변동을 나타낼 수 있고, 따라서 훈련 세트는 분석할 수 있는 다양한 슬라이드들에 대한 모델을 더 양호하게 훈련하기 위해 매우 유사하지 않은 디지털 슬라이드 이미지들을 포함할 수 있다. 훈련 데이터의 이미지들은 또한 모델을 훈련시키는데 사용되기 전에 데이터 증강(회전, 크기 변경, 컬러 지터(jitter) 등을 포함)될 수 있다.
또한, 훈련 세트는 암 유형에 특이적일 수 있다. 이 경우, 특정 훈련 세트 내의 디지털 이미지를 생성한 모든 조직병리학 슬라이드는 동일한 암 유형으로부터의 종양 샘플을 포함한다. 암 유형은 유방, 대장, 폐, 췌장, 간, 위, 피부 등을 포함할 수 있다. 각각의 훈련 세트는 암 유형에 특이적인 고유한 모델을 생성할 수 있다. 각각의 암 유형은 또한 당업계에 공지되거나 사용자에 의해 정의된 암 아형으로 분할될 수 있다.
일 예에서, 훈련 세트는 조직병리학 슬라이드 쌍으로부터 도출될 수 있다. 조직병리학 슬라이드 쌍은 각각 한 절편의 조직을 갖는 2개의 조직병리학 슬라이드들을 포함하며, 여기서 조직의 2개의 절편은 종양 샘플 내에서 실질적으로 서로 근접하게/대략 인접하게 위치한다. 따라서, 2개의 조직 절편은 실질적으로 유사하다. 해당 쌍의 슬라이드 중 하나는 H&E 염색만으로 염색되고, 해당 쌍의 다른 슬라이드는 특이적 분자 표적에 대한 IHC 염색으로 염색된다. IHC 염색이 쌍을 이룬 슬라이드 내에 나타나는 영역들에 대응하는 H&E 염색된 슬라이드 상의 영역들은, 특정 분자 표적을 포함하는 것으로서 사람 분석가에 의해 주석되고, 조직 클래스 로케이터는 훈련 세트로서 해당 주석이 달린 H&E 슬라이드를 수신한다. 실질적으로 유사한 슬라이드들은, 예를 들어, 해당 쌍이 H&E 염색을 이용한 하나와, 인접한 슬라이드들 중 하나가 제거된 분자 서열분석 데이터로 형성된 다른 하나를 포함하는 경우, 또는 하나는 IHC 염색이고 다른 하나는 분자 서열분석 데이터로 형성된 경우, 또는 둘 모두가 유사한 분자 서열분석 데이터로 형성되는 경우와 같은, 다른 조합들을 포함한다.
예를 들어, 일부 실시예들에서, 둘 이상의 샘플이 피험체로부터 획득되는데, 예를 들어, 둘 이상의 조직 슬라이스가 서로 인접하여 획득될 수 있다. 일부 경우에, 조직 슬라이스들은 각각의 슬라이스로부터 제조된 일부 병리학 슬라이드들이 이미징되도록 획득되는 반면, 일부 병리학 슬라이드들은 서열분석 정보를 얻기 위해 사용된다.
본 개시의 실시예들에 따른 최적화 모델을 훈련하기 위해, 적절한 훈련 데이터 세트가 사용될 수 있다. 일부 실시예들에서, 훈련 데이터 세트의 큐레이션은 복수의 환자들로부터의 일련의 병리학 보고서들 및 연관된 서열분석 정보를 수집하는 단계를 포함할 수 있다. 예를 들어, 의사는 환자로부터 소량의 종양 조직/시료를 제거하고 이 시료를 실험실로 보냄으로써, 환자의 종양 생검을 수행할 수 있다. 실험실은, 시료를 동결시키고 층들을 슬라이싱하는 것, 시료를 파라핀 내에 설정하고 층들을 슬라이싱하는 것, 슬라이드 위에 시료를 스미어링하는 것, 또는 통상의 지식을 가진 자에게 공지된 다른 방법들과 같은, 슬라이드 준비 기술들을 사용하여 시료로부터 슬라이드들을 준비시킬 수 있다. 이하의 본 개시의 목적들을 위해, 슬라이드 및 슬라이스는 상호교환적으로 사용될 수 있다. 슬라이드는 시료로부터 조직의 슬라이스를 저장하고, 해당 슬라이스가 추출되는 시료 및 해당 시료로부터의 슬라이스의 서열 번호를 식별하는 라벨을 수용한다. 통상적으로, 병리학 슬라이드는 세포 특징(세포 핵, 림프구, 기질, 상피, 또는 전체 또는 부분의 다른 세포와 같은)을 드러내도록 시료를 염색함으로써 준비될 수 있다. 염색을 위해 선택된 병리 슬라이드는 통상적으로 시료 블록의 말단 슬라이드이다. 스펙트럼 슬라이싱은 염색 및 진단을 위해 준비될 수 있는 일련의 초기 슬라이드들을 이용하여 진행된다. 일련의 다음 순차적 슬라이스들이 서열분석을 위해 사용될 수 있고, 그 다음에 최종적으로, 말단 슬라이드들이 추가적인 염색을 위해 처리될 수 있다. 말단의, 염색된 슬라이드가 순차적인 슬라이드들로부터 너무 멀리 제거된 경우, 순차적인 슬라이드들이 염색 슬라이드들에 의해 분절되도록 순차적인 슬라이드들에 더 가까이 있는 다른 슬라이드가 염색될 수 있다. 슬라이스마다 약간의 편차가 존재하지만, 파라핀 슬라이드에 대해서는 4 um에 근접하고 동결된 슬라이드에 대해서는 35 um에 근접하는 두께로 조직이 슬라이싱되기 때문에 편차는 최소일 것으로 예상된다. 실험실들은 일반적으로 40 um 미만(대략 10개의 슬라이드들/슬라이스들)의 거리가 조직 슬라이스들에서 실질적인 편차를 생성하지 않는 것으로 본다.
시료의 슬라이스들이 슬라이스마다 크게 변화하는 (드문) 경우, 이상값(outlier)은 버려지고 후속 처리되지 않을 수 있다. 병리학 슬라이드들(510)은 환자들로부터의 종양 샘플로부터 채취한 다양한 염색된 슬라이드들일 수 있다. 일부 슬라이드 및 서열분석 데이터는 데이터 강건성(robustness)을 보장하기 위해 동일한 시료로부터 채취될 수 있는 반면, 다른 슬라이드 및 서열분석 데이터는 각각 고유한 시료로부터 채취될 수 있다. 데이터 세트 내의 종양 샘플의 수가 클수록, 세포 유형의 RNA 프로파일의 예측이 보다 정확할 것으로 예상될 수 있다. 일부 실시예들에서, 염색된 종양 슬라이드는 세포의 특징, 예를 들어 세포들의 양과, 이들의 정상 세포 또는 유사한 유형과의 차이를 식별하기 위해 병리학자에 의해 검토될 수 있다.
이 경우, 훈련된 조직 분류 모델(320)은 IHC 염색 또는 주어진 분자 표적을 포함할 수 있는 타일들을 예측하기 위해 H&E 염색된 조직의 디지털 이미지를 수신하고, 오버레이 맵 생성기(326)는 어떤 타일이 IHC 표적 또는 주어진 분자를 포함할 것 같은지를 도시하는 오버레이 맵을 생성한다. 일 예에서, 오버레이의 해상도는 개별 세포의 수준이다.
하나 이상의 훈련 세트들에 의해 훈련된 모델에 의해 생성된 오버레이는, 디지털 슬라이드 이미지를 훈련 세트들 중 하나에 추가하도록 디지털 슬라이드 이미지에 주석을 달기 위해, 사람 분석가에 의해 검토될 수 있다.
알고리즘이 검출하는 픽셀 데이터 패턴들은 시각적으로 검출가능한 특징을 나타낼 수 있다. 시각적으로 검출가능한 특징들의 일부 예들은 컬러, 텍스처, 세포 크기, 형상, 및 공간 구성을 포함할 수 있다.
예를 들어, 슬라이드의 컬러는 컨텍스트 정보를 제공한다. 예를 들어, 슬라이드 상의 보라색 영역은 더 높은 밀도의 세포들을 가질 수 있고, 침습성 종양일 가능성이 더 높을 수 있다. 종양은 또한 주위 기질로 하여금 섬유조직형성 반응에서 보다 섬유질화(fibrous) 되게 하며, 이는 정상적으로 분홍색인 기질이 청색-회색으로 나타나게 한다. 또한, 컬러 강도는 특정 유형의 개별 세포들을 식별하는데 도움이 된다(예를 들어, 림프구는 균일하게 매우 짙은 청색임).
텍스처는 세포들 내에서의 염색의 분포를 지칭한다. 대부분의 종양 세포는 그들의 핵 내에 밝은 포켓 및 어두운 핵소체가 있는, 거친, 불균질한 외관을 갖는다. 많은 종양 세포들을 갖는 축소된 시야는 이러한 거친 외관을 가질 것이다. 많은 비-종양 조직 클래스들 각각은 구별된 특징을 갖는다. 또한, 어느 영역에 존재하는 조직 클래스들의 패턴은 해당 영역에 존재하는 조직 또는 세포 구조의 유형을 나타낼 수 있다.
또한, 세포 크기가 종종, 조직 클래스를 나타낸다. 어느 세포가 슬라이드 상의 다른 곳에서의 정상 세포들보다 수배 더 큰 경우, 그것이 종양 세포일 확률이 높다.
개개의 세포들의 형상, 구체적으로 그들이 얼마나 원형인지는, 그들이 어떤 종류의 세포인지를 나타낼 수 있다. 섬유모세포(기질 세포)는 정상적으로 길고 날씬하며, 림프구는 매우 둥글다. 종양 세포들은 보다 불규칙한 형상일 수 있다.
또한, 세포들 그룹의 구성이 조직 클래스를 나타낼 수 있다. 흔히, 정상 세포들은 구조화되고 인식가능한 패턴으로 조직화되지만, 종양 세포들은 보다 밀도가 높은, 비조직화된 군집에서 성장한다. 암의 각각의 유형 및 아형은 특정 성장 패턴을 갖는 종양을 생성할 수 있으며, 이는 조직 특징에 대한 세포 위치, 서로에 대한 종양 세포들의 간격, 기하학적 성분들의 형성 등을 포함한다.
본원의 기술들은 다른 아키텍처들로 확장될 수 있다. 도 14는, 예를 들어, 조직 분류 및 세포 분류를 위한 별개의 파이프라인을 유사하게 이용하는 이미징 기반 바이오마커 예측 시스템(1400)을 예시한다. 시스템(1400)은 본원의 예들에 설명된 바와 같은 PD-L1을 포함한 다양한 바이오마커 결정을 위해 사용될 수 있다. 또한, 시스템(1400)은, 본원의 다른 아키텍처들과 같이, 3D 이미지 분석에 기초하여 바이오마커 상태와 종양 상태 및 종양 통계치를 예측하도록 구성될 수 있다.
시스템(1400)은 조직병리학 슬라이드의 하나 이상의 디지털 이미지들을 수신하고, 디지털 이미지 내의 각각의 그리드 타일 내에서 가시적인 조직의 다수의 클래스를 식별하는 고밀도의 그리드 기반 디지털 오버레이 맵을 생성한다. 시스템(1400)은 또한 개별 픽셀의 해상도 수준으로, 조직병리학 이미지에서 각각의 세포를 식별하는 디지털 오버레이 드로잉을 생성할 수 있다.
시스템(1400)은 조직을 갖는 디지털 이미지의 영역들을 검출하고 조직을 갖는 것으로 검출된 영역들의 위치들(예를 들어, 0,0 픽셀 위치와 같은 이미지 내의 기준 위치를 이용하는 픽셀 위치들)을 포함한 데이터를 저장하는 조직 검출기(1402)를 포함한다. 조직 검출기(1402)는 조직 영역 위치 데이터(1403)를 조직 클래스 타일 그리드 프로젝터(1404) 및 세포 타일 그리드 프로젝터(1406)에 전달한다. 조직 클래스 타일 그리드 프로젝터(1404)는 조직 영역 위치 데이터(1403)를 수신하고, 여러 조직 클래스 라벨들 각각에 대해, 하나의 타일에 대한 조직 분류를 수행한다. 조직 클래스 로케이터(1408)는 결과적인 타일 분류를 수신하고, 조직 클래스 라벨이 각각의 조직 클래스가 디지털 이미지 내에 위치하는 곳을 결정하기 위해 각각의 타일 내의 이미지를 정확하게 기술할 가능성을 나타내는 백분율을 계산한다. 각각의 타일에 대해, 모든 조직 클래스 라벨들에 대해 계산된 모든 백분율들의 합계는 100%를 반영하는 1로 합산될 것이다. 일 예에서, 조직 클래스 로케이터(1408)는 각각의 조직 클래스가 디지털 이미지 내에 위치하는 곳을 결정하기 위해 각각의 타일에 하나의 조직 클래스 라벨을 할당한다. 조직 클래스 로케이터는 계산된 백분율 및 각각의 타일과 연관된 할당된 조직 클래스 라벨을 저장한다.
일 예에서, 시스템(1400)은, 개별적으로, 그리고 각각의 타일을 둘러싸는 이미지의 부분과 함께, 이미지 내의 다수의 타일들을 동시에 분석하는 다중-타일 알고리즘을 포함한다. 다중-타일 알고리즘은, 개별 타일의 콘텐츠 및 해당 타일을 둘러싸는 이미지의 부분의 컨텍스트를 모두 캡처하는 다중 스케일(multiscale), 다해상도(multiresolution) 분석을 달성할 수 있다. 2개의 이웃 타일들을 둘러싸는 이미지의 부분들은 중첩되기 때문에, 각각의 타일을 그의 주변들을 이용하여 개별적으로 분석하는 대신에, 다수의 타일들 및 그들의 주변들을 동시에 분석하는 것은 계산 중복성을 감소시키고 더 큰 처리 효율을 달성하게 한다.
일 예에서, 시스템(1400)은 분석 결과를, 각각의 분석된 타일에 대한 1차원 데이터 벡터를 포함하는 3차원 확률 데이터 어레이에 저장할 수 있다. 일 예에서, 각각의 데이터 벡터는, 100%로 합산되고 각각의 그리드 타일이 분석된 조직 클래스들 중 하나를 포함할 확률을 나타내는, 백분율들의 리스트를 포함한다. 다른 벡터들에 대한, 데이터 어레이의 직교 2차원 평면 내의 각각의 데이터 벡터의 위치는, 다른 타일들에 대한, 디지털 이미지 내의 해당 데이터 벡터와 연관된 타일의 위치와 대응한다.
세포 유형 타일 그리드 프로젝터(1406)는 조직 영역 위치 데이터(1403)를 수신하고, 타일 내의 세포들을 식별하고 분류하며, 세포 유형 타일 그리드를, 조직을 갖는 이미지의 영역들 상에 투영한다. 세포 유형 로케이터(1410)는 각각의 그리드 내의 디지털 이미지 내의 각각의 생물학적 세포를 검출하고, 각각의 세포의 외부 경계 상의 윤곽을 준비하며, 세포 유형에 의해 각각의 세포를 분류할 수 있다. 세포 유형 로케이터(1410)는 각각의 세포의 위치, 세포 외부 경계를 포함하는 각각의 픽셀, 및 각각의 세포에 할당된 세포 유형 라벨을 포함하는 데이터를 저장한다.
오버레이 맵 생성기 및 메트릭 계산기(1412)는 조직 클래스 로케이터(1408)로부터, 저장된 3차원 확률 데이터 어레이를 검색하고, 이를 각각의 타일에 대한 할당된 조직 클래스 라벨을 디스플레이하는 오버레이 맵으로 변환할 수 있다. 각각의 타일에 대한 할당된 조직 클래스는 각각의 조직 클래스에 대해 고유한 투명 컬러로서 디스플레이될 수 있다. 일 예에서, 조직 클래스 오버레이 맵은 사용자에 의해 선택된 조직 클래스에 대한 각각의 그리드 타일에 대한 확률들을 디스플레이한다. 오버레이 맵 생성기 및 메트릭 계산기(1412)는 또한 세포 유형 로케이터(1410)로부터 저장된 세포 위치 및 유형 데이터를 검색하고, 전체 이미지 내의 세포들의 수 또는 특정 조직 클래스에 할당된 타일들에 관련된 메트릭들을 계산한다.
도 15a는 이미징 기반 바이오마커 예측 시스템(1400)에 의해 구현되고, 바이오마커를, 이 예에서 PD-L1를 예측하기 위한 모델 유추 파이프라인을 도시하는 예시적인 프로세스(1500)의 개요를 도시한다. 프로세스(1500)는 시스템(1400)을 위한 완전 컨볼루션 모델 아키텍처를 이용하여 많은 타일들을 병렬로 처리한다. 일 예에서, 프로세스(1500)는 GeForce GTX 1080 Ti GPU 및 6세대 Intel® CoreTM i7 프로세서를 사용하여, 하나의 4096 x 4096 픽셀 이미지를 분류하는데 2.8초가 걸릴 수 있었다. 프로세스(1500)는 슬라이드들이 아티팩트를 포함할 수 있는 실제 환경에서 완전히 자동화된 방식으로 기능하도록 조직 검출 및 아티팩트 제거 알고리즘을 더 포함하였다.
제1 프로세스(1502)에서, 초기 조직 분할은 조직 검출기(1402)에 의해 예를 들어, 관심 조직 주위의 경계 상자(도시되지 않음)를 생성하기 위해 조직에 자동으로 윤곽(적색 윤곽)을 형성하는 조직 마스킹 알고리즘을 적용하여 수행된다. 경계 상자의 좌측 상단 코너에 정렬되어, 조직 영역은 큰 비-중첩 4096 x 4096 입력 윈도우(청색 파선)로 분할된다. 대개, 조직을 덮기 위해 10개 내지 30개의 입력 윈도우가 필요하다. 경계지어진 영역을 넘어 확장하는 임의의 큰 윈도우 영역은 0으로 덧붙여진다(회색 영역).
프로세스(1504)는 훈련된 분류 모델 예측을 수행한다. 도시된 예에서, 큰 입력 윈도우들은 128 x 128 = 16,384개의 작은 32 x 32 타일들을 포함하였다(그리드들은 도시된 것보다 훨씬 더 미세함). 큰 입력 윈도우들은, 각각의 32 x 32 작은 타일을 중심으로 하는 466 x 466 타일들의 중첩 엣지를 고려하기 위해 모든 변(길이 217)에서 0으로 덧붙여졌다. 각각의 큰 윈도우는 (프로젝터(1404)의 조직 분류 프로세스 및 프로젝터(1406)의 세포 분류 프로세스를 포함하는) 딥러닝 프레임워크의 하나 이상의 훈련된 모델(1506)을 통과하였다. 훈련된 모델(들)(1506)이 완전 컨볼루션인 경우, 일 예에서, 큰 입력 윈도우 내의 각각의 타일은 병렬로 처리되어 128 x 128 x 3의 확률 큐브(3개의 클래스들이 있음)를 생성한다. 이 확률 큐브의 각각의 1 x 1 x 3 벡터는 원본 이미지에서 각각의 466 x 466 타일의 중심에 있는 32 x 32 픽셀 영역에 대응한다. 생성된 확률 큐브들은 전체 이미지의 확률 맵 내에서 조립된다.
프로세스(1508)는 프로세스(1502)의 조직 마스킹 단계와 연관된 이미지들을 디스플레이한다. 프로세스(1504)에 의해 생성된 조립된 확률 맵은 배경을 제거하기 위해 이 조직 마스크를 통해 전달된다. 이 예에서, 배경 및 마커 영역은 프로세스(1508)의 마스킹 알고리즘에 의해 제거된다.
프로세스(1510)는 각각의 바이오마커 분류에 대해 상이한 영역들과 같은, 하나 이상의 분류된 영역들을 식별하는 분류 맵을 나타내는 이미지들을 디스플레이한다. 일 예에서, 최대 확률 클래스(argmax)는 프로세스(1508)를 통해 각각의 타일에 할당되어, 프로세스(1510)에서 3개의 바이오마커 클래스들(PD-L1+, PD-L1-, 기타)의 분류 맵을 생성한다. 분류 맵은 이러한 각각의 바이오마커 분류 및 원본 조직병리학 이미지에 대응하는 그들의 식별된 위치를 도시한다.
프로세스(1512)는 분류 맵으로부터의 바이오마커 분류에 대한 통계적 분석을 수행하고, 바이오마커에 대한 결과 예측 점수를 디스플레이한다. 이 예에서, 예측된 PD-L1 양성인 타일들의 수는 예시적인 모델 점수를 달성하기 위해 예측된 종양 타일의 총 수로 나누어진다.
조직 클래스 로케이터(1408)는, 예를 들어, 아키텍처(1200)의 것과 같은 구조를 가질 수 있다. 이 아키텍처는 FCN-타일 해상도의 분류기의 아키텍처와 유사하다. 아키텍처(1550)는 3개의 주요 컴포넌트들로 형성될 수 있다: 1) 큰 시야 이미지(FOV: field of view image)를 처리하는 완전 컨볼루션 잔차 네트워크(예를 들어, ResNet-18 상에 구축됨) 백본, 2) 작은 FOV들을 처리하는 2개의 브랜치들, 및 3) 다중 FOV 분류를 위한 작고 큰 FOV 특징들의 연결을 포함한다. ResNet-18 백본은 점선으로 표시된 여러 개의 단축 연결들을 포함하며, 여기서 특징 맵도 2배 다운샘플링된다. 작은 FOV 브랜치들은 제2 컨볼루션 블록 이후에 나타난다. 작은 FOV 브랜치들의 특징 맵들은 ResNet-18 특징 맵의 차원과 일치하도록 8배 다운샘플링된다. 이러한 특징 맵들은 PD-L1 바이오마커 예측(신뢰) 맵을 생성하기 위해 softmax 출력을 통해 전달하기 전에 연결된다.
이 예에서, 모델의 백본은 일부 수정된 ResNet의 18계층 버전(ResNet-18)을 포함한다. 전역 평균 풀링 층을 제거하고 다운샘플링된 층들에서 0으로 덧붙여진 패딩(zero-padding)을 제거함으로써, ResNet-18 백본이 완전 컨볼루션 네트워크(FCN)로 변환되었다. 이는 1D 확률 벡터보다는 2D 확률 맵의 출력을 가능하게 한다(도 15b 참조). 도시된 예에서, 타일 크기(466 x 466 픽셀)는 표준 ResNet의 타일 크기의 2배를 넘고, 이는 주변의 형태학적 특징을 학습하게 하는 더 큰 FOV를 모델에 제공한다. 이 예에서 조직 클래스 로케이터(1408)는 ResNet 아키텍처에 다수의 시야(멀티-FOV) 능력을 추가하지만, 조직 클래스 로케이터(1408)는 본원에 개시된 멀티-FOV 접근법을 통합하도록 구성된 별개의 네트워크 아키텍처로 구성될 수 있음을 이해해야 한다.
아키텍처(1505)의 FCN 구성은 "매우 깊은" 신경 네트워크(16개를 초과하는 컨볼루션 층들을 갖는 신경 네트워크를 포함함)에 의해 통상적으로 야기되는 정확성 저하 문제를 극복하는 것을 포함하여 여러 이점을 제공한다(예를 들어, 문헌[He et al., Deep Residual Learning for Image Recognition, (2015) (arXiv ID:1512.03385v1], 및 문헌[Simonyan et al., Very Deep Convolution Networks for Large-Scale Image Recognition (2014), arXiv ID:1409.1556v6] 참조). 아키텍처(1550)는 중간 층들을 건너뛰는 "단축 연결"로 인터리빙된 컨볼루션 층들의 스택을 포함한다. 이러한 단축 연결들은 이전 계층들을 기준점으로 사용하여, 더 깊은 층들이 층들 간의 아이덴티티 맵핑을 학습하지 않고 층 출력들 간의 잔차를 학습하도록 가이드한다. 이러한 혁신은 훈련 중에 수렴 속도 및 안정성을 향상시키고, 보다 깊은 네트워크들이 그들의 얕은 대응 부분보다 더 양호한 성능을 발휘하게 한다.
조직 클래스 로케이터(1408)는 제2 컨볼루션 특징 맵의 중심에서 작은 FOV(32 x 32 픽셀)로 제한되는 수용성(receptive) 시야들을 갖는 2개의 추가적인 브랜치들을 포함할 수 있다(도 15b 참조). 하나의 브랜치는 컨볼루션 필터를 통해 작은 FOV의 복사본을 전달하는 반면, 다른 브랜치는 다운샘플링을 갖는 표준 단축 연결이다. 이러한 추가적인 브랜치들에 의해 생성되는 특징들은 softmax 층에서, 모델 출력이 확률로 변환되기 직전에, 주요 백본으로부터의 특징들에 연결된다. 이런 식으로, 조직 클래스 로케이터(1408)는 다수의 FOV들로부터의 정보를 조합하며, 이는 슬라이드를 진단할 때 병리학자가 다양한 확대/축소 수준에 의존하는 것과 같다. 더욱이, 이 아키텍처는 각각의 타일의 중앙 영역이 타일 엣지들보다 분류에 더 기여하도록 하여, 전체 조직병리학 이미지에 걸쳐 보다 정확한 분류 지도를 생성한다.
도 15b는 IHC 및 H&E 조직병리학 이미지들의 분석으로부터 PD-L1 바이오마커의 위치를 예측하는, 이미징 기반 바이오마커 예측 시스템(1400) 및 오버레이 맵 출력의 생성을 위한 예시적인 훈련 프로세스(1570)를 도시한다. 모델 훈련 프로세스(1570)에서, IHC 및 H&E 디지털 이미지들 상의 매칭 영역들은 의료 전문가에 의해 주석이 달려 있다. 그러나, 일부 예에서, 인접한 조직 절편들 상의 염색은 자동으로 주석이 달릴 수 있다. 이미지들은 PD-L1+와 PD-L1을 나타내도록 주석이 달리고, 훈련을 위해 시스템에 공급되었다. H&E 이미지의 주석이 달린 영역들은 32픽셀의 스트라이드(stride)를 갖는 중첩 타일들(466 x 466 픽셀)로 타일링(tiled)되어, 훈련 데이터가 생성되었다. 그 후, 조직 클래스 로케이터(1408)는 교차 엔트로피 손실 함수를 사용하여 훈련되었다. 모델의 노란색 사각형은 작은 FOV들에 대해 잘려진 중앙 영역을 개략적으로 도시한다. 결과적인 PD-L1 분류 모델은 훈련된 딥러닝 프레임워크(1574)에 저장된다.
도 15b는 또한 각각의 이미지가 큰 비-중첩 4096 x 4096 입력 윈도우들(청색 파선)로 분할된, 예시적인 예측 프로세스(1572)를 도시한다. 각각의 큰 윈도우는 훈련된 모델을 통과하였다. 딥러닝 프레임워크(1574)는 완전 컨볼루션이기 때문에, 큰 입력 윈도우 내의 각각의 타일은 병렬로 처리되어, 128 x 128 x 3의 확률 큐브가 생성되었다(마지막 차원은 3개의 클래스들을 나타낸다). 생성된 확률 큐브들은 슬롯에 위치되었고, 조립되어 전체 이미지의 확률 맵이 생성되었다. 각각의 타일에는 최대 확률을 갖는 클래스가 할당되었고, PD-L1 예측 보고서가 생성되었다.
도 16a 내지 도 16f는 이미징 기반 바이오마커 예측 시스템(1400)에 의해 수신된 입력 조직병리학 이미지들, IHC PD-L1 바이오마커의 위치를 예측하기 위해 시스템(1400)에 의해 생성된 대응하는 오버레이 맵들, 및 오버레이 맵들의 정확도를 결정하기 위한 기준들로서 사용되는 대응하는 IHC 염색된 조직 이미지들을 도시한다. IHC 염색된 조직 이미지들은 테스트 코호트로부터 획득되었지만, 모델 훈련 동안 시스템(1200)에 적용되지 않았다. 도 16의 A 내지 도 16의 C는 대표적인 PD-L1 양성 바이오마커 분류 예를 도시한다. 도 16의 A는 입력 H&E 이미지를 도시하고, 도 16의 B는 H&E 이미지에 오버레이된 확률 맵을 도시하며, 도 16의 C는 참조를 위한 PD-L1 IHC 염색을 도시한다. 도 16의 D 내지 F는 대표적인 PD-L1 음성 바이오마커 분류 예를 도시한다. 도 16의 D는 입력 H&E 이미지를 도시하고, 도 16의 E는 H&E 이미지에 오버레이된 확률 맵을 도시하며, 도 16의 F는 참조를 위한 PD-L1 IHC 염색을 도시한다. 컬러 막대는 종양 PD-L1+ 클래스의 예측된 확률을 나타낸다.
본원의 딥러닝 프레임워크에 의해 제공되는 이점들 중에서, 이들은 시프트 불변성(shift invariance)을 방해함으로써 향상된 정확도를 나타낼 수 있다. 시프트 불변성 또는 균질성(homogeneity)은 컨볼루션과 같은 선형 필터의 특성이며, 여기서 필터의 응답은 명시적으로 위치에 의존하지 않는다. 즉, 신호가 시프트되면, 출력 이미지는 동일하지만 시프트가 적용된다. 대부분의 이미지 분류 작업에서는 시프트 불변성이 바람직하지만(Le Cun, 1989), 본원의 예들에서는 대개, 타일의 엣지에 근접한 객체들이 분류에 동등하게 기여하는 것을 원하지 않는다.
도 17은 도 14, 도 15a 및 도 15b를 참조하여 설명된 것과 같은 멀티-FOV 전략의 예시적인 이점을 도시한다. 상부 부분에서, 큰 FOV(적색 상자)는 PD-L1+ 종양 세포(보라색, 좌측 상부) 및 기질(분홍색) 모두를 포함한다. 작은 FOV(녹색 상자) 내에는 기질만 위치된다. 조직 클래스 로케이터(1408)의 컨볼루션 층을 통과할 때, 종양 영역은 기질 영역(백색 사각형)에 의해 생성된 패턴과 구별되는 고유한 패턴(착색된 사각형)을 생성한다. 큰 FOV 브랜치 및 작은 FOV 브랜치로부터의 패턴들이 연결된 후에, 모델은 "기타"로 예측할 것이다. 하부 부분에서는, 시야가 시프트되었고, 이제 PD-L1+ 종양 영역이 작은 FOV 내에 위치한다. 이 종양 영역은 크고 작은 FOV 브랜치들(착색된 사각형) 모두에서 동일한 컨볼루션 필터 패턴을 생성할 것이다. 학습된 특징들을 연결하는 경우, 조직 클래스 로케이터(1408)는 이제 PD-L1+ 종양을 예측할 것이다. 따라서, 조직 클래스 로케이터(1408)를 훈련시키는데 사용되는 작은 FOV가 없는 경우, 시스템(1400)은 두 이미지들에 대해 모두, PD-L1+ 종양을 갖는 것으로 예측할 수 있다. 대신에, 도 15의 아키텍처의 멀티-FOV 전략은 네트워크가 주변 영역의 풍부한 컨텍스트 정보를 이용할 수 있게 하는 한편, 분류를 위해 이미지의 중심에 있는 것을 여전히 선호한다.
바이오마커 상태, 종양 상태, 및/또는 이들의 메트릭들을 예측하기 위해, 본원의 분류기 예들 중 임의의 것에 대해 다른 아키텍처들, 특히 다수의 인스턴스 학습 기술들을 이용하는 아키텍처들이 사용될 수 있다.
본원에서 설명된 예들에서, 예를 들어 도 12a에 설명된 FCN 아키텍처들에 기초한 분류 모델 아키텍처들은 주석들의 행렬을 포함할 수 있는 조직병리학 슬라이드의 디지털 이미지들로 훈련되었다. 그러한 디지털 이미지들로부터의 훈련은 예를 들어, 주석(즉, 라벨)을 갖는 타일들만이 딥러닝 프레임워크에 훈련 타일들로서 공급되는, 타일 기반으로 수행된다. 주석이 없는 디지털 이미지의 타일들은 폐기될 수 있다. 또한, 행렬의 각각의 열 및 행은 디지털 이미지의 N x M 픽셀들을 갖는 별개의 그리드에 대응한다. 열들 및 행들을 갖는 행렬로부터의 주석들을 복수의 타일들을 갖는 디지털 이미지에 적절하게 할당하기 위해, 일부 예에서, 행렬로부터 열(i) 및 행(j)을 취하고 픽셀 N(i) 및 M(j)에서 시작하여 다음 [N-1] 내지 [M-1] 픽셀들로 연장하는 그리드의 중심 영역에 주석을 할당하는 것이 유리할 수 있으며, 여기서 해당 범위를 가로질러 연장되는 중심 영역을 갖는 타일에는 i, j에 행렬의 주석이 할당된다. 따라서, 행렬은 더 큰 디지털 이미지 내에서 타일 기반에 의해 타일에서의 주석들을 정확하게 나타낼 수 있다.
FCN 아키텍처는, 라벨이 주석 마스크 지점들에 매핑되는 중심 영역으로부터 오는 반면, 큰 타일을 입력으로서 취할 수 있다. FCN 아키텍처는 큰 타일의 중심 영역 및 중심 영역을 둘러싸는 픽셀들 모두로부터 학습할 수 있고, 여기서 중심 영역은 예측에 더 기여한다. 추가적으로, 모델 성능을 개선할 수 있는 환자 특징들을 포함하는 슬라이드 수준의 라벨링을 식별하는, 슬라이드와 연관된 벡터와 같은 특징 벡터 내에 슬라이드 메타데이터가 저장될 수 있다. 행렬에 포함된 주석들에 따라 NxM 크기의 타일들을 분류하고 특징 벡터에 포함된 주석에 따라 슬라이드들 자체를 분류하는 FCN 아키텍처를 훈련시키기 위해, 디지털 이미지들의 그리드들로부터의 복수의 타일들 및 대응하는 주석 행렬들이 FCN 아키텍처에 순차적으로 제공된다. FCN 아키텍처의 출력은 타일 단위로 예측된 분류를 갖는 행렬을 포함할 수 있고, 슬라이드 단위로 예측된 분류를 갖는 벡터에 통합될 수 있다. 행렬은 각각의 타일의 최고의 분류를, 디지털 이미지 내의 대응하는 그리드 위치에 중첩될 수 있는 색상으로 연관시킴으로써 디지털 오버레이로 변환될 수 있다. 일부 예에서, 행렬은 다수의 디지털 오버레이들로 변환될 수 있는데, 각각의 오버레이는 각각의 분류에 대응하고, 연관된 색상의 강도는 각각의 분류와 연관된 신뢰도의 백분율에 기초하여 해당 오버레이에 할당된다. 예를 들어, 종양으로서의 30% 가능성, 기질로서의 50% 가능성, 및 정상으로서의 20% 가능성을 갖는 타일에는, 해당 타일에 조직일 가능성이 가장 높은 것으로서 기질에 대한 단일 오버레이가 할당될 수 있거나, 또는 타일이 포함할 수 있는 조직의 유형을 식별하기 위해 제1 색의 30% 강도를 갖는 제1 오버레이 및 제2 색의 50% 강도를 갖는 제2 오버레이가 할당될 수 있다.
그러나, ResNet-34 또는 Inception-v3와 유사한 아키텍처와 같은, 타일 단위의 주석을 지원하지 않을 수 있는 아키텍처에 전혀 기반하지 않는 분류 모델도, 주석들의 벡터만을 갖는 병리학 슬라이드의 디지털 이미지로 훈련될 수 있으며, 여기서 벡터의 각각의 성분은 슬라이드에 적용되는 환자 특징 또는 메타데이터의 주석이다. 일부 예에서, 타일 단위의 주석들을 지원하는 아키텍처라도 특정한 특징에 대해서는 타일 단위의 주석들에 대한 액세스를 갖지 않을 수 있다.
일부 예에서, 본 기술들은, 타일 주석을 갖지 않는 신경 네트워크 이미지들을 훈련시키는 데 있어서의 조직병리학 이미지를 사용하기 위해, 또는 분자 훈련 데이터에 대해 훈련된 바이오마커를 식별하도록 신경 네트워크를 훈련시키기 위해, 라벨 없는(label-free) 훈련을 위해 구성된 딥러닝 훈련 구조를 포함한다. 예를 들어, 아키텍처는 조직 분류 모델들을 훈련할 때 타일 수준의 주석을 필요로 하지 않는다. 더욱이, 라벨이 없는 훈련 아키텍처는 신경 네트워크(즉, ResNet-34, FCN, Inception-v3, UNet 등)의 구성에 관계없이 라벨 없는 훈련을 허용한다는 점에서 신경 네트워크에 의존하지 않는다. 이러한 아키텍처들은 가능한 훈련 이미지 세트를 분석하고 훈련을 위해 제외할 타일들을 예측할 수 있다. 따라서, 이미지들은 일부 예에서, 훈련으로부터 폐기될 수 있는 반면, 다른 예에서, 타일들은 폐기될 수 있지만, 이미지의 나머지는 훈련을 위해 사용될 수 있다. 이들 기술들은 훈련 데이터를 훨씬 더 적게 생성하게 하며, 이는 훈련할 때 및 일부 경우에는 본원의 분류 모델의 훈련을 업데이트할 때 필요한 시간을 크게 감소시킨다. 또한, 이 기술들은 병리학자 라벨링을 필요로 하지 않으며, 이는 분류 모델을 훈련시키는데 걸리는 시간을 크게 감소시키고, 주석 오류 및 전문가들 간의 주석 변화를 방지한다.
대신에, 일부 예에서, 훈련은 이미지 수준의 라벨링만을 포함하고 조직, 세포, 종양 등의 국부적 라벨링을 포함하지 않는, 약한 지도 학습을 이용하여 수행될 수 있다. 아키텍처는 특정 라벨을 갖는 입력으로서 어느 타일(들)이 사용되어야 하는지를 선택하는 사용자 맞춤형 비용 함수를 갖는 알고리즘이 있는 라벨 없는 훈련 프론트엔드로 구성될 수 있다. 프로세스는, 먼저, 이미지의 단일 라벨이 컬렉션 내의 모든 타일들에 적용되는 타일들의 집합으로서 각각의 조직병리학 이미지를 반복적으로 처리할 수 있다. 타일들은 ResNet 34, Inception-v3, 또는 FCN과 같은 네트워크를 통하는 것과 같은 유추 파이프라인에 적용될 수 있고, 신경 네트워크 출력의 확률과 같은 미리 정의된 타일 선택 기준은 어떤 출력 이미지 타일들이 다음 라운드를 위해 동일한 신경 네트워크에 대한 입력으로서 제공될지를 선택하는데 사용될 수 있다. 이 프로세스는 신경 네트워크에 대한 입력으로서 충분한 컬렉션들 및 타일들이 제공된 경우, 더 많은 반복이 수행됨에 따라 더 높은 정확도로, 상이한 클래스들을 갖는 타일들을 구별하도록 학습할 것이다.
도 18은 본원의 예들에서 설명된 프로세스들을 실행하기 위해, 딥러닝 프레임워크의 라벨 없는 주석 훈련을 수행하기 위한 예시적인 구성의 예시적인 머신러닝 아키텍처(1800)를 도시한다. 다중 스케일 및 단일 스케일의 분류 모듈들을 갖는 본원에 설명된 다른 딥러닝 프레임워크와 유사할 수 있는 딥러닝 프레임워크(1802)는 전처리 및 후처리 컨트롤러(1804)를 포함하며, 프로세스들을 수행하는 것은 도 1 및 도 3의 유사한 예들에 설명되어 있다. 딥러닝 프레임워크(1802)는 세포 분할 모듈(1806) 및 조직 분류기 모듈(1808)을 포함하고, 이들 각각은 타일 기반 신경 네트워크 분류기로서 구성된다. 딥러닝 프레임워크(1802)는 다수의 상이한 바이오마커 분류 모델들(1810, 1812, 1814, 및 1816)을 더 포함하며, 이들 각각은 상이한 신경 네트워크 아키텍처를 갖도록 구성될 수 있는데, 일부는 다중 스케일의 구성을 가질 수 있고, 일부는 단일 스케일의 구성을 가질 수 있다. 이들 상이한 신경 네트워크 아키텍처들은 주석이 달린 또는 주석이 없는 이미지들을 사용하여 훈련하도록 구성될 수 있다. 이러한 아키텍처들 중 일부는 타일-주석된 훈련 이미지들을 사용하여 훈련하도록 구성될 수 있는 반면, 이러한 아키텍처들 중 다른 것들은 타일-주석들이 없는 훈련 이미지들을 사용하여 훈련하도록 구성된다. 예를 들어, 일부 아키텍처들은 이미지들에 대한 슬라이드 수준의 주석들만을 수용하도록 구성될 수 있다(즉, 특정 타일 특성들, 세포 분할들, 또는 조직 분할들을 식별하는 주석이 아니라 전체 이미지에 대한 주석). 모듈들(1810 내지 1816)에 대한 예시적인 신경 네트워크 아키텍처 유형들은 ResNet-34, FCN, Inception-v3, 및 UNet을 포함한다.
주석된 이미지들(1818)은 전술한 기술들을 이용하여, 다양한 분류 모듈들의 훈련을 위해 딥러닝 프레임워크(1802)에 제공될 수 있다. 일부 예에서, 훈련을 위해 전체적인 조직병리학 이미지가 프레임워크(1802)에 제공된다. 일부 예에서, 주석된 이미지들(1818)은 딥러닝 프레임워크(1802)에 직접 전달된다. 일부 예에서, 주석된 이미지들(1818)은 감소될 입도(granularity)로 주석이 달릴 수 있다. 이와 같이, 일부 예에서, 다수의 인스턴스 학습(MIL) 컨트롤러(1821)는 주석된 이미지들(1818)을 디지털 이미지의 상이한 부분에 각각 대응하는 복수의 타일 이미지들로 더 분리하도록 구성될 수 있고, MIL 컨트롤러(1821)는 이들 타일 이미지들을 딥러닝 프레임워크(1802)에 적용한다. 그러나, 아키텍처(1800)를 사용하면, 프론트엔드 타일 선택 컨트롤러(1822)를 갖는 MIL 컨트롤러(1821)에 먼저, 주석 없는 이미지들(1820)을 제공함으로써, 주석 없는 이미지들(1820)이 분류 모듈 훈련을 위해 사용될 수 있다. 일부 예에서, MIL 컨트롤러(1821)는 주석 없는 이미지들(1820)을 디지털 이미지의 상이한 부분에 각각 대응하는 복수의 타일 이미지들로 분리하도록 구성될 수 있고, MIL 컨트롤러(1821)는 그러한 타일 이미지들을 딥러닝 프레임워크(1802)에 적용한다. 일 예에서, 아키텍처(1800)는 단지 슬라이드 수준의 라벨만을 사용하여 국소 조직 영역들을 분류하기 위해, 복잡한 신경 네트워크 아키텍처들(FCN, ResNet 34, Inception-v3 등)을 훈련시키는 약한 지도 학습을 이용한다. 약한 지도 학습은 국소적인 주석을 필요로 하지 않으므로, 라벨링이 더 빠르게 수행될 수 있고, 더 큰 세트의 라벨링된 슬라이드들을 초래한다. 따라서, 이러한 아키텍처(1800)는 FCN 분류를 보충하거나 개선하는 모델을 훈련시키거나, 심지어 FCN 기반 모델 자체를 훈련시키는데 사용될 수 있다.
이러한 도시된 예에서, 프론트엔드 타일 섹션 컨트롤러(1822)는 FCN 아키텍처와 같은 신경 네트워크 아키텍처가 타일 섹션 프로세스에 정보를 제공하게 하면서, 타일 섹션 프로세스를 분류 모델과 조합하게 하는 피드백 구성으로 구성된다. 일부 예에서, 컨트롤러(1822)에 의해 수행되는 타일 선택 프로세스는 훈련된 MIL 프로세스이다. 예를 들어, 바이오마커 분류 모델들(1810 내지 1816) 중 하나는 훈련 동안, 타일 선택 컨트롤러(1822)를 안내하기 위한 초기 입력으로서 사용되는 출력을 생성할 수 있다. MIL 프로세스는 대개, 초기 타일 선택이 어려운 반복적인 프로세스이기 때문에, 예를 들어, FCN 아키텍처 예측으로부터의 안내를 컨트롤러(1822)의 MIL 프로세스에 통지함으로써, 컨트롤러(1822)의 MIL 프로세스는 더 양호한 예들로 시작하여 안정적이고 유용한 FCN 분류기에 훨씬 더 빠르게 수렴할 것이다. 또 다른 예에서, FCN(또는 다른 신경 네트워크) 아키텍처 및 컨트롤러(1822)의 MIL 프로세스로부터의 결과들을 조합하는 것은 행렬 출력이 최선의 것에 대해 투표함으로써 연결 층 내의 벡터 출력들에 대한 결과들을 조합하는 단계만을 포함할 수 있다. FCN 아키텍처 및 컨트롤러(1822)의 MIL 프로세스는 동일한 예측 작업, 즉 동일한 바이오마커를 찾는 것으로 구성될 수 있다. 그러나, 일부 경우에, 2개의 분류 프로세스는 상이한 예측 출력을 가질 수 있고, 그러한 경우에, 최선의 투표에 의한 결과를 조합하는 단계가 수행될 수 있다. 또 다른 예에서, MIL 프레임워크 및 FCN 아키텍처로부터의 출력들은 더 양호한 슬라이드 수준의 예측을 얻기 위해 조합될 수 있는데, 여기서 MIL은 학습 기준으로서 슬라이드 수준의 손실 함수를 사용하고, FCN 아키텍처로부터의 출력은 MIL 손실 계산을 위해 안내된 참값을 제공하기 위해 사용된다.
타일 섹션 컨트롤러(1822)는 다수의 상이한 방식으로 구현될 수 있다.
컨트롤러(1822)에 대한 예시적인 타일 선택 프로세스는 단일 클래스에 대한 기본 프레임워크를 참조하여 설명된다. 단일 클래스의 예에서, 조직병리학 이미지의 타일은 표적 클래스(클래스 1)에 있거나 그렇지 않은 것(클래스 0)으로 분류된다. 클래스 0은 표적 클래스에 없는 임의의 것으로, 배경으로 생각될 수 있다. 인스턴스 기반 MIL 프로세스에서는 훈련에 사용되는 예들로서 사용할 타일들이 선택되어야 한다. 단일 클래스 문제의 경우, 컨트롤러(1822)는 다음의 분류를 반환하는 훈련된 모델로 구성될 수 있다: 만약 슬라이드가 표적 클래스에 속하는 임의의 타일들을 갖지 않는 경우, 모든 타일들은 0의 낮은 유추 점수를 반환해야 한다. 훈련 중에 슬라이드는 클래스 0으로 라벨링된다. 만약 슬라이드에 표적 클래스에 속하는 타일이 있는 경우, 클래스 1로 라벨링될 것이다. 표적 클래스에 속하는 해당 타일들은 높은 유추 점수 1을 반환하고, 다른 모든 타일들은 낮은 유추 점수 0을 반환해야 한다. 분류기 모델(예를 들어, 모델들(1810 내지 1816))을 훈련시키기 위해, 타일들은 슬라이드 수준의 클래스를 나타내는 것으로 식별될 필요가 있다. 클래스 0인 슬라이드는 클래스 1의 타일이 없다는 것을 알기 때문에, 임의의 타일이 훈련 예로서 사용될 수 있다. 그러나 최선의 선택은 해당 모델이 가장 나쁜 성능을 나타내는 타일들을 사용하는 것이다. 모든 타일들이 유추 점수 0을 가져야 하기 때문에, 가장 높은 점수를 갖는 타일들이 모델을 훈련시키는데 사용되어야 한다. 가장 높은 점수를 갖는 이러한 타일들은 "상위 k" 타일들로 지칭되는데, 여기서 k는 해당 슬라이드로부터의 훈련을 위해 얼마나 많은 타일이 사용되고 있는지를 나타내는 정수이다(예를 들어, 5, 10, 15).
클래스 1의 슬라이드들에 대해, 컨트롤러(1822)는 클래스 1이 될 가능성이 가장 높은 타일들을 식별할 수 있다. 이러한 결정은 클래스 1인 슬라이드가 클래스 0인 타일들과 클래스 1인 타일들을 모두 포함할 수 있다는 사실에 의해 복잡해질 수 있다. 그러나, 분류기 모델이 클래스 0인 슬라이드들로부터의 클래스 0인 타일들로 훈련되는 경우, 이는 클래스 0인 타일들과 유사한 클래스 1인 슬라이드 내의 임의의 타일들이 더 낮은 유추 점수를 가져야 한다는 것을 의미한다. 유사하게, 이는 클래스 0인 타일들과 유사하지 않은 타일들이 더 높은 점수를 가져야 한다는 것을 의미한다. 따라서, 실제로 클래스 1이 될 가능성이 가장 높은 타일들은 가장 높은 유추 점수를 갖는 타일들이다. 따라서, 상위 k 타일들은 다시, 모델을 훈련하기 위한 예로서 선택되어야 한다.
이는 클래스 0인 슬라이드와 클래스 1인 슬라이드 모두에 대해, 도 19의 타일 선택 프레임워크(1900)에서 보여지는 바와 같이, 상위 k 점수의 타일들이 훈련 예로서 사용되어야 한다는 것을 의미한다. 숫자들의 행은 상이한 타일들에 대한 유추 점수들을 나타낸다. 1902에서는 초기의 타일 주석되지 않은 조직병리학 이미지가 제공되고, 프로세스(1904)에서는 이미지 내의 타일들 각각에 대해 모델 유추가 수행된다.
프레임워크(1900)는 모델 유추(1904)를 실행함으로써 모든 슬라이드 내의 모든 타일에 대한 클래스 예측 점수를 계산하는데 사용될 수 있고, 모델을 훈련하기 위해 각각의 슬라이드로부터의 최고 점수를 갖는 타일들(상위 k 타일(1906로 라벨링됨))이 선택된다. 타일들(1906)은 1902에서 수신된 슬라이드 수준의 라벨과 동일한 라벨이 제공된다(예를 들어, 클래스 0인 슬라이드로부터의 타일들에는 클래스 0인 라벨이 주어질 것이다). 모든 슬라이드들로부터 타일들을 선택한 후에, 모델은 단일 에포크(또는, 반복)로 프로세스(1908)에서 훈련된다.
훈련 에포크의 종료 시에(모델 가중치들을 업데이트하기 위해 타일들이 한번 사용되었음), 프레임워크(1900)는 모든 슬라이드들 내의 모든 타일들에 대한 새로운 예측 점수들을 계산하기 위해 다시 사용된다. 새로운 예측 점수들은 훈련에 사용할 새로운 타일들을 식별하는 데 사용된다. 프로세스(1910)에 의해 결정되는 바와 같이, 이러한 타일의 점수 부여 및 훈련을 위한 상위 k 타일들의 선택은 모델이 특정 기준에 도달할 때까지 반복된다(예를 들어, 검증을 위해 사용되는 슬라이드들의 보류된 세트에 대한 성능의 수렴).
도 18의 1800과 같은 약한 지도 학습 구성을 사용하는 것의 여러 장점들이 있다. 병리학자가 전체 이미지에 걸쳐 조직 클래스들의 예들을 수동으로 마킹하는, 강하게 지도되는 주석들 및 국소 주석들은 비용이 많이 들고 비효율적이며, 이 경우, 아키텍처(1800)는 훨씬 더 많은 크기(order)의 슬라이드들을 갖는 데이터 세트들에 대해 단일 라벨을 갖는 모델을 훈련시킬 수 있다. 또한 주석 부여가 수행될 수 없는 분류 대상이 있을 수 있다. 예를 들어, 현재의 유전자형 바이오마커를 통해 발견되는, 조직 특징과 상관관계가 있을 수 있으나, 이들 조직 특징이 지금까지 알려지지는 않은, 유전적 변이가 있다. 그러나, 본원의 기술들을 이용하면, 유전자형 바이오마커는 이제 슬라이드 수준의 라벨로서 사용될 수 있고, 유전자형이 존재하는 것을 예측하는데 사용될 수 있는 조직 형태를 식별하기 위해 아키텍처(1800)의 훈련 프레임워크가 사용될 수 있다. 유전자형을 예측하기 위한 통상적인 RNA/DNA 분석에는 여러 주(week)가 소요될 수 있는 반면, 본원의 기술들을 이용하여 유전자형을 예측하기 위한 이미지 분류는 몇 시간(hour)만에 그리고 훨씬 더 큰 훈련 세트를 이용하여 수행될 수 있다.
오버피팅 상황을 피하기 위해, 일부 예에서, 타일 선택 컨트롤러(1822)는 랜덤화된 타일 선택을 수행하도록 구성될 수 있다. 예를 들어, 작은 데이터 세트(300개 미만의 슬라이드 이미지들)를 이용하여 훈련하는 경우, 도 19의 프레임워크(1900)와 같은 프레임워크는 클래스 1인 슬라이드들에 있는 몇 개의 타일들에 오버피팅할 수 있다. 이러한 상황은 클래스 1인 타일이 훈련에 사용되는 경우, 그 점수가 다음 에포크에서 더 높아질 것이기 때문에 발생할 수 있다. 따라서, 클래스 1인 타일은 다음 에포크에서 다시 훈련하기 위해 선택될 것이고, 이는 유추 점수를 더 증가시키며, 선택될 가능성이 다시 증가될 것이다.
도 20은 오버피팅을 피하기 위해 사용될 수 있는 프레임워크(2000)를 도시한다. 프레임워크(2000)는 프레임워크(1900)와 유사하고, 유사한 도면부호를 갖지만, 랜덤 타일 선택기(2012)를 이용하는 것은 높은 점수의 타일들 중에서 랜덤하게 선택하는데 사용되고, 그 후 랜덤 선택된 타일들을 훈련 프로세스(2008)로 전송한다. 모델(2004)은 유추 점수들을 결정하기 위해 여전히 사용되며, 타일들은 그들의 점수에 기초하여 선택된다. 그러나, 타일의 유추 점수가 높은 경우, 비록 그것이 상위 k 타일들 중의 하나가 아니더라도, 클래스 1인 타일이 될 가능성이 있는 것으로 여전히 고려될 수 있다. 예를 들어, 프레임워크(2000)는 0.9(또는 임의의 값)의 하위 임계 점수를 설정할 수 있고, 그 후, 0.9 이상의 점수를 갖는 임의의 타일들이 훈련 예로서 사용될 수 있다. 즉, 타일들(2006) 중 임의의 것은 그들의 점수가 결정된 임계치(예를 들어, 0.9의 임계치)를 초과하기 때문에 훈련을 위해 사용될 수 있다. 이어서 랜덤한 높은 점수의 타일 선택(2012)은 모델 훈련 프로세스(2008)에 어떤 타일들이 제공되는지를 랜덤하게 결정한다. 다른 예에서, 랜덤한 높은 점수의 타일 선택기(2012)로 전송된 타일들은 상위 k 타일들이다. 또한, 일부 예에서, 선택기(2012)에 의해 적용되는 타일 선택 확률들은 모든 타일 점수들에 걸쳐 완전히 랜덤하게 될 수 있는 반면, 다른 예에서, 특정 점수들을 갖거나 특정 점수 범위들 내에 있는 타일들이 다른 점수들을 갖거나 다른 점수 범위들 내에 있는 타일들과 상이한 랜덤 선택 확률들을 갖는 점에서, 선택 확률들은 부분적으로 랜덤할 수 있다.
도 21은 오버피팅 상황을 해결하기 위한 다른 프레임워크(2100)를 도시한다. 예를 들어, 더 작은 데이터 세트(300개 미만의 슬라이드 이미지들)로 훈련하는 경우, 도 19의 프레임워크는 클래스 0인 슬라이드들 내의 모든 타일들을 클래스 0으로, 그리고 클래스 1인 슬라이드들 내의 모든 타일들을 클래스 1로(클래스 1인 슬라이드들의 모든 타일들이 실제로 클래스 1이지는 않더라도) 예측함으로써 슬라이드 이미지들을 오버피팅할 수 있다. 이는 클래스 1인 슬라이드들 내의 타일들을 잘못 분류할 수 있음을 의미한다. 그러나, 프레임워크(2100)에서, 랜덤한 타일 선택은 프레임워크(2000)에서와 마찬가지로 높은 점수의 타일들(2101)에 대해 수행되지만, 추가적으로, 랜덤 타일 선택은 낮은 점수의 타일들(2103)에 대해서도 수행된다. 도시된 예에서, 랜덤한 낮은 점수의 타일 선택기(2102)는 클래스 0인 모델 훈련 프로세스(2104)에 제공된다. 랜덤한 높은 점수의 타일 선택기(2106)는 클래스 1인 모델 훈련 프로세스(2108)에 제공된다.
도 19 내지 도 26의 예들은 단일 클래스 훈련과 관련하여 설명되어 있다. 라벨이 없는 훈련의 본원의 기술들은 다중 클래스 훈련에도 사용될 수 있다. 다중 클래스 문제의 경우, 어떠한 슬라이드도 클래스 0인 라벨을 갖지 않는, 슬라이드 수준의 라벨들의 세트가 있을 수 있다. 예를 들어, 대장암(CRC)의 경우, 컨센서스 분자 아형(CMS)을 예측하기 위해 모델들을 훈련할 때, CMS 클래스는 유전자형 바이오마커, 즉, RNA 데이터에서의 변이만을 이용하는 표적 치료를 안내하기 위해 사용된다. 그러나, 본원의 기술들은 이미징을 통해 유전자형 분석을 예측하여, RNA 분석을 수행하기 위해 몇 주를 기다려야 하는 것이 아니라, 표적 치료가 몇 시간 내에 시작되고 환자에게 시험되게 한다. 예들은 참조로 CMS와 관련하여 설명되어 있지만, PD-L1, TMB 등을 포함하여, 본원에서 다른 이미지 기반의 바이오마커에 대한 분류기 모듈들이 아키텍처(1800)를 이용하여 훈련될 수 있다.
다중 클래스 훈련의 한 가지 문제점은 모든 이미지가 모든 클래스를 포함하지는 않는다는 점이다. 예를 들어, CMS의 경우, 훈련 이미지들에 대한 이용가능한 라벨들은 CMS1, CMS2, CMS3, 또는 CMS4일 수 있다. 그러나, 각각의 이미지의 모든 타일들이 이들 4개의 클래스 중 임의의 것을 나타내는 바이오마커를 반드시 포함하는 것은 아니다. 이는 클래스 0인 타일을 식별하는데 사용될 수 있는 클래스 0인 슬라이드가 없는 상황을 생성할 수 있고, 이는 훈련된 모델이 예측 값이 없는 조직 유형들을 잘못 분류하게 되어, 정확도가 더 낮은 모델을 초래할 수 있다. 또한 슬라이드가 슬라이드 수준의 라벨과는 다른 클래스를 나타내는 특징들을 포함할 수 있다. 예를 들어, CMS의 경우, CRC에 둘 이상의 아형이 존재할 수 있다. 이는 해당 샘플에 대한 주요한 아형이기 때문에 특정 이미지에 CMS1 라벨이 제공될 수 있지만, 전체적인 슬라이드 이미지는 일부 CMS2 조직을 포함할 수 있음을 의미한다.
다중 클래스 훈련을 달성하기 위해, 일부 예에서, 도 18의 타일 선택 컨트롤러(1822)는, 상이한 클래스 아형들, 예를 들어, 4개의 CMS 아형들과 상관되는 조직 특징들을 식별하기 위해 일련의 프로세스들을 수행하도록 구성된다. 먼저, 타일 선택 컨트롤러(1822)는 클래스 내에서 양성인 예들만을 식별함으로써 훈련될 수 있다. 둘째로, 타일 선택 컨트롤러(1822)는 클래스 내에서 낮은 양성인 점수들에 의해, 클래스 내에서 양성인 타일들 및 클래스 외에서 음성인 타일들을 식별함으로써 모델 훈련을 적용할 수 있다. 셋째로, 타일 선택 컨트롤러(1822)는 높은 음성인 점수들에 의해, 클래스 내에서 양성인 타일들 및 클래스 외에서 음성인 타일들을 식별함으로써 모델 훈련을 적용할 수 있다. 각각의 프로세스의 예는 이제, 도 22 내지 도 26에 도시된 바와 같이, CMS 바이오마커 분류기를 훈련하는 것을 참조하여 설명된다.
도 22는 해당 조직 특징이 관련성이 있는지 또는 분류되지 않았는지 여부와 상관없이, 각각의 조직 특징이 어느 CMS 클래스와 가장 상관관계 있는지를 식별하는데 사용될 수 있는 프레임워크(2200)를 도시한다. 도 22는 클래스 내에서 양성인 예들만을 식별하는 제1 프로세스의 예를 도시하고, 이는 단순화를 위해 단지 두 개의 클래스들만을 도시한다. 조직병리학 이미지 내의 각각의 타일에 대해, 가능한 점수들의 리스트가 주어지며, 각각의 행은 좌측에 도시된 클래스에 대응한다(0, 1, 및 2). 도시된 바와 같이, 클래스 1인 슬라이드 이미지(도 22의 좌측)의 경우, 높은 클래스 1 점수를 갖는 타일들(음영 처리됨)이 훈련을 위해 사용되고, 클래스 2인 슬라이드 이미지(도 22의 우측)의 경우, 높은 클래스 2 점수를 갖는 타일들(음영 처리됨)이 훈련을 위해 사용된다.
이 예에서, 그 결과, 모든 타일들이 1 또는 2로 분류되고, 클래스 0으로 분류될 확률은 0.00이다. 도 23은 4개의 클래스들을 갖는 CMS 바이오마커에 대한 분류를 나타내는 결과적인 오버레이 맵을 도시한다. 타일들은 4개의 CMS 클래스들에 대한 유추 점수에 기초하여 컬러 코딩되는데, CMS1(마이크로위성 불안정 면역)은 적색으로 표시되고, CMS2(상피 유전자 발현 프로파일, WNT 및 MYC 신호전달 활성화)는 녹색으로 표시되고, CMS3(명백한 대사 이상 조절이 있는 상피 프로파일)은 어두운 청색으로 표시되고, CMS4(간엽, 현저한 형질전환 성장 인자-β 활성화)는 밝은 청색으로 표시되어 있다. 도시된 예에서, 타일들의 투명도는 유추 점수를 나타내도록 조정되었는데, 더 높은 점수는 더 불투명하고, 더 낮은 점수는 더 투명하다.
도 24는 제2 프로세스에 적용된 프레임워크(2200)를 도시하는데, 즉, 모델 훈련은 클래스 내에서 낮은 양성인 점수들에 의해, 클래스 내에서 양성인 타일들 및 클래스 외에서 음성인 타일들을 식별함으로써 계속된다. 도 22의 제1 프로세스가 모든 타일들을 0이 아닌 클래스들 중 하나로 분류하는 경우, 도 24의 제2 프로세스는 배경 클래스인 0에 대한 것일 가능성이 높은 타일들을 식별한다. 도시된 예에서, 프로세스는 슬라이드 수준의 클래스에 대한 임계치 이하의 점수들을 갖는 타일들을 식별함으로써 이를 수행한다. 클래스 1인 슬라이드 이미지 내의 타일이 0.1 미만의 점수를 갖는 경우, 클래스 0인 예로서 사용할 가능성이 있는 슬라이드 이미지로서 낮은 점수로 마킹된다. 클래스 2인 슬라이드 이미지에 대해서도 유사한 프로세스가 수행된다. 도 25는 CMS의 분류들을 나타내는 결과적인 오버레이 맵을 도시한다. 만약 타일이 클래스 0일 것으로 예측되는 경우, 이는 투명하게 된다. 도 23과 비교하여, 도 25에서, 이러한 제2 프로세스는 일부 조직 유형들을 클래스 0인 것으로 식별하는데, 이는 이미지가 CMS 클래스들 중 임의의 것과 상관되지 않은 배경 조직일 것임을 의미한다. 동시에, 제2 프로세스는 4개의 클래스들 각각과 상관되는 상이한 조직 유형들 또는 조직 특징들을 식별할 수 있다. 타일들은 도 23에서와 같이 4개의 CMS 클래스들에 대한 유추 점수들에 기초하여 색상이 적용되지만, 타일이 어떠한 색상도 나타내지 않는 경우, 어떠한 클래스 예측 값도 갖지 않는 클래스 0인 타일인 것으로 예측된다.
도 26은 제3 프로세스에 적용된 프레임워크(2200)를 도시하며, 즉, 높은 음성 점수들에 의해, 클래스 내에서 양성인 타일들 및 클래스 외에서 음성인 타일들을 식별함으로써 모델 훈련을 계속한다. 상기 언급한 바와 같이, CMS 바이오마커의 경우, 훈련 이미지 내의 CMS 클래스들은 상호 배타적이지 않다. CMS1 슬라이드 이미지에 CMS2 조직 유형들 또는 조직 특징들을 가질 수 있다. 따라서, 일부 예에서, 타일 선택 컨트롤러(1822)가, 슬라이드 수준의 클래스에서 낮은 점수를 갖기 때문에 타일들을 클래스 0으로서 계속 라벨링하는 경우, 일부 타일들은 잘못 라벨링될 수 있다. 이상의 제2 프로세스로부터, 임의의 CMS 클래스와 낮은 상관관계를 갖거나 상관관계가 없는, 클래스 0인 조직이 이미 식별되었다. 클래스 0의 점수가 높은 타일들이 있다. 따라서, 도 26에 도시된 제3 프로세스에서는, 높은 클래스 0 점수를 갖는 것에 기초하여 클래스 0인 타일들이 식별될 수 있다.
도 18을 다시 참조하면, 아키텍처(1800)는 다른 바이오마커를 분류하기 위해 임의의 바이오마커 분류 모델들(1810 내지 1816)을 훈련시키는데 사용될 수 있다. CMS는 예를 들어, 도 22 내지 도 26을 참조하여 설명되어 있다. 또한, 아키텍처(1800)는 컨볼루션 신경 네트워크 구성에 관계없으며, 즉, 각각의 모듈(1810 내지 1816)은 동일하거나 상이한 구성을 가질 수 있다. 도 10a 내지 도 10c의 FCN 아키텍처에 부가하여, 모듈들(1810 내지 1816)은 도 27에 도시된 것과 같은 ResNet 아키텍처로 구성될 수 있다. ResNet 아키텍처는 훈련 중에 약해지는(vanishing) 기울기 문제뿐만 아니라 더 큰 아키텍처들에 대한 열화 문제를 방지하는 것을 돕는 스킵 연결들을 제공한다. ResNet-18 및 ResNet-34를 포함하지만 이에 제한되지 않는 새로운 모델들의 훈련을 초기화하기 위해, 상이한 크기의 사전훈련된 ResNet 모델들이 사용될 수 있다. ResNet에 부가하여, 아키텍처(1800)는 AlexNet 또는 VGG와 같은 완전 연결된 분류 층들에 입력되는 특징 맵을 생성하는 컨볼루션 층들을 갖는 훈련된 신경 네트워크들, Inception v3와 같은 다중 컨볼루션 커널들을 동시에 적용하는 계층화 모듈들을 갖는 네트워크들, MobileNet, SqueezeNet, 또는 MNASNet과 같은 증가된 처리 속도를 위해 더 적은 파라미터들을 필요로 하도록 설계된 네트워크들, 또는 NASNet과 같이 수동으로 설계되거나 신경 아키텍처 탐색 네트워크(neural architecture search network)를 이용하여 관련 병리학적 특징들을 더 양호하게 추출하도록 설계된 맞춤형 아키텍처들에 대해 사용될 수 있다.
신경 네트워크 구성에 관계없는 타일 선택 컨트롤러를 갖는 타일 기반 훈련 아키텍처(1800)는, 단일 아키텍처(FCN과 같은)만으로는 덜 정확하거나 보다 시기 적절한 프로세스를 필요로 하는 바이오마커를 식별할 수 있는 딥러닝 프레임워크를 생성하게 한다.
또한, 타일 기반 훈련 아키텍처(1800)는 피드백 구성을 갖기 때문에, 일부 예에서, 딥러닝 프레임워크(1802)는 예를 들어 FCN 아키텍처를 이용하여, 훈련 이미지들 내의 영역들을 분류할 수 있고, 타일 선택 컨트롤러(1822)에 대한 약한 지도 훈련 이미지들로서 이러한 분류된 이미지들을 피드백할 수 있다. 예를 들어, FCN 아키텍처는 먼저 특정 조직 영역들(예를 들어, 종양, 기질)을 식별하는데 사용될 수 있으며, 이는 이후 MIL과 같은 약한 지도 훈련 파이프라인으로의 입력으로서 사용될 수 있다. 약한 지도 파이프라인에 의해 훈련된 모델들은 FCN 아키텍처 결과를 검증하거나 개선하기 위해, 또는 새로운 특징들을 검출함으로써 FCN 아키텍처를 보충하기 위해, FCN 아키텍처와 함께 사용될 수 있다.
또한, 예를 들어, 유전자형, 유전자 발현, 또는 환자 메타데이터와 상관관계가 있는 이전에 발견되지 않은 조직 특징들과 같은, 주석이 불가능한 바이오마커들이 존재한다. 이러한 경우에, 유전자형, 유전자 발현, 또는 환자 메타데이터는 새로운 분류를 검출하기 위해 약한 지도 프레임워크를 사용하여 보조 모델 또는 FCN 아키텍처 그 자체를 훈련시키기 위해 사용되는 슬라이드 수준의 라벨들을 생성하는데 사용될 수 있다.
또한, 아키텍처(1800)는 조직 및 조직 아티팩트 검출을 제공할 수 있다. 조직을 포함하는 슬라이드 이미지 내의 영역들은 먼저 FCN 아키텍처 모델에 대한 입력으로서 사용되는 것으로 검출될 수 있다. 색상 또는 텍스처 임계화(thresholding)와 같은 이미징 기술들이 조직 영역을 식별하기 위해 사용될 수 있고, 본원의 딥러닝 컨볼루션 신경 네트워크 모델(예를 들어, FCN 아키텍처)은 조직 검출의 일반성 및 정확성을 더 개선하기 위해 사용될 수 있다. 또한, 색상 또는 텍스처 임계화는 조직 이미지 내의 가짜 아티팩트(spurious artifact)를 식별하는데 사용될 수 있으며, 약한 지도 딥러닝 기술을 사용하여 일반성 및 정확도를 향상시키는데 사용될 수 있다.
또한, 아키텍처(1800)는 마커 검출을 제공할 수 있다. 조직병리학 이미지들은, 예를 들어, 조직 DNA/RNA 분석이 수행되어야 하는 거대절개부(macrodissection) 영역들을 나타내기 위해, 마커를 사용하여 슬라이드 상의 병리학자들에 의해 그려진 표기 또는 주석을 포함할 수 있다. 조직 검출 모델과 유사한 마커 검출 모델은 분석을 위해 병리학자에 의해 어느 영역들이 선택되었는지를 식별하기 위해 사용될 수 있다. 이는, 슬라이드 수준의 라벨들을 초래하는 DNA/RNA 분석이 수행된 영역들을 분리시키기 위해 약한 지도 훈련을 위한 데이터 처리를 더욱 보완할 것이다.
도 28에서, 프로세스(2800)는 도 1의 이미징 기반 바이오마커 예측 시스템(102)을 사용하여, 특히 도 3의 딥러닝 프레임워크(300)의 바이오마커 예측에서, 환자에 대한 제안된 면역요법 치료를 결정하기 위해 제공된다. 초기에, 염색된 H&E 이미지와 같은 조직병리학 이미지들이 시스템(102)(2802)에 수신된다. 프로세스(2804)에서, 각각의 조직병리학 이미지는 본원에 설명된 하나 이상의 FCN 분류 구성들을 구현하는 것과 같은 훈련된 딥러닝 프레임워크에 적용된다. 프로세스(2806)에서, 훈련된 딥러닝 프레임워크는 이미지의 조직 영역의 바이오마커 상태를 결정하기 위해, 훈련된 조직 분류기 모델 및 훈련된 바이오마커 분할 모델에 이미지를 적용한다. 일부 예에서, 훈련된 세포 분할 분류기 모델은 프로세스(2806)에 의해 더 사용된다. 프로세스(2806)는 이미지에 대한 바이오마커 상태 및 바이오마커 메트릭을 생성한다. 도 29에 도시된 바와 같이, 프로세스(2806)로부터의 출력은 프로세스(2808)에 제공될 수 있고, 바이오마커 메트릭, 게놈 서열분석 데이터 등에 기초하는 것을 포함하여, 수신된 데이터에 기초하여 종양 유형을 결정하는 종양 치료 결정 시스템(2900)(예를 들어, 게놈 서열분석 시스템, 종양학 시스템, 화학요법 결정 시스템, 면역요법 결정 시스템, 또는 다른 치료 결정 시스템의 일부일 수 있음) 상에서 구현될 수 있다. 시스템(2900)은 프로세스(2810)에서, 이용가능한 면역요법(2902)에 대한 바이오마커 상태 및/또는 바이오마커 메트릭과 다른 수신된 분자 데이터를 분석하고, 시스템(2900)은 매칭된 치료 보고서의 형태로, 이용가능한 면역요법(2902)의 리스트로부터 필터링되는, 가능한 종양-유형 특이적 면역요법(2904)의 매칭된 리스트를 추천한다.
다양한 예들에서, 본원의 이미징 기반 바이오마커 예측 시스템들은 높은 스루풋 디지털 스캐너와 같은, 전용 슬라이드 이미저(imager) 내에 부분적으로 또는 전체적으로 배치될 수 있다. 도 30은 네덜란드 암스테르담의 Koninklijke Philips N.V.로부터 이용가능한 Philips IntelliSite Pathology Solution과 같은 전용 초고속 병리 (슬라이드) 스캐너 시스템(3002)을 갖는 예시적인 시스템(3000)을 도시한다. 일부 예에서, 병리 스캐너 시스템(3002)은 복수의 훈련된 바이오마커 분류 모델들을 포함할 수 있다. 예시적인 모델들은 예를 들어, 미국 특허출원 제16/412,362호에 개시된 것들을 포함할 수 있다. 스캐너 시스템(3002)은 이미징 기반 바이오마커 예측 시스템(3004)에 연결되어, 본원에 설명되고 예시된 바와 같은 프로세스들을 구현한다. 예를 들어, 도시된 예에서, 시스템(3004)은 하나 이상의 훈련된 바이오마커 분류기(3008), 훈련된 세포 분류기(3010), 및 훈련된 조직 분류기(3012)를 갖는, 타일 기반 다중 스케일 및/또는 단일 스케일 분류 모듈들에 기초하는 딥러닝 프레임워크(3006)를 포함한다. 딥러닝 프레임워크(3006)는 조직병리학 이미지에 대한 바이오마커 및 종양 분류를 수행하고, 분류 데이터를 생성된 이미지 데이터베이스(3014) 내의 원래의 이미지와의 오버레이 데이터로서 저장한다. 예를 들어, 이미지들은 TIFF 파일들로서 저장될 수 있다. 그러나, 데이터베이스(3014)는 JSON 파일들 및 본원의 분류 프로세스들에 의해 생성된 다른 데이터를 포함할 수 있다. 일부 예에서, 딥러닝 프레임워크는 선택적인 블록(3015)에 도시된 바와 같이, 스캐너(3002) 내에 전체적으로 또는 부분적으로 통합될 수 있다.
상당히 클 수 있는, 생성된 이미지들을 관리하기 위해, 이미지 관리 시스템 및 뷰어 생성기(3016)가 제공된다. 도시된 예에서, 시스템(3016)은 사설 또는 공개 네트워크에 의해 연결된 이미징 기반 바이오마커 예측 시스템(3004)의 외부에 도시된다. 그러나, 다른 예들에서, 시스템(3016)의 전부 또는 일부는 3019에 도시된 바와 같이 시스템(3004) 내에 배치될 수 있다. 일부 예에서, 시스템(3016)은 클라우드 기반이며, 데이터베이스(3014)로부터(또는 대신에) 생성된 이미지들을 저장한다. 일부 예에서, 시스템(3016)은 병리학자들이 다양한 분류 오버레이들을 갖는 그래픽 사용자 인터페이스, 조직병리학 이미지들을 통해 액세스하고, 관찰하며, 조작할 수 있게 하는, 웹 액세스 가능한 클라우드 기반 뷰어를 생성하며, 그의 예들은 도 31 내지 도 37에 예시되어 있다.
일부 예에서, 이미지 관리 시스템(3016)은 스캐너(3002)로부터의 스캔된 슬라이드 이미지들(3018)의 수신을 관리하며, 이러한 슬라이드 이미지들은 이미저(3020)로부터 생성된다.
도시된 예에서, 이미지 관리 시스템(3016)은 실행가능한 뷰어 애플리케이션(3024)을 생성하고, 해당 애플리케이션(3024)을 스캐너(3002)의 앱 배치 엔진(3022)에 배치시킨다. 애플리케이션 배치 엔진(3022)은 사용자들이 뷰 애플리케이션(3024)과 상호작용할 수 있게 하는 GUI 생성, 사용자가 이미지 관리 시스템(3016)으로부터 또는 다른 네트워크 액세스 가능한 소스들로부터 뷰어 앱(3024)을 다운로드할 수 있게 하는 앱 마켓과 같은 기능을 제공할 수 있다.
도 31 내지 도 37은 일 예에서, 내장된 뷰어(3024)에 의해 생성된 다양한 디지털 스크린 샷을 도시하며, 여기서 이러한 스크린샷들은 사용자로 하여금 배율 확대 및 축소를 위해 그리고 조직, 세포, 바이오마커, 및/또는 종양의 상이한 분류를 디스플레이하기 위해, 디스플레이된 이미지와 상호작용할 수 있게 하는 GUI 형식으로 제공된다.
도 31을 참조하면, GUI 생성된 디스플레이(3100)는 전체적인 조직병리학 이미지(3104) 및 윈도우(3106)로서 표시된 이미지(3104)의 확대된 부분(1.3x 배율)을 도시하는 패널(3102)을 갖는다. 패널(3102)은 윈도우(3106) 및 종양 콘텐츠 보고서에 대응하는 확대 인자를 더 포함한다. 도 32는 디스플레이(3100)를 도시하지만, 사용자가 윈도우(3106) 상에서 확대한 후의, 3.0x 배율을 나타낸다. 도 33은 유사하지만 5.7x 배율이다. 도 34는 사용자가 디스플레이(3100) 상에 표시될 분류 오버레이 맵을 생성하기 위해 선택할 수 있는 일련의 분류들을 리스팅하는 드롭다운 메뉴(3108)를 도시한다. 도 35는 종양 분류된 조직을 보여주는 오버레이 맵을 갖는 결과적인 디스플레이(3100)를 도시하며, 이 예에서, 조직은 타일들로 구분되었고, 분류를 갖는 타일들이 도시되어 있다. 도 35의 예에서, 예시된 분류는 종양 분류이다. 도 36은 또 다른 예시적인 분류 오버레이 매핑을 도시하며, 이는 세포 분류, 상피, 면역, 기질, 종양, 또는 다른 것 중 하나를 예시한다. 도 37은 분류들을 도시하는 확대된 세포 분류 오버레이 매핑을 도시하며, 분류들이 실제로, 조직병리학 이미지를 갖는 상이한 세포들을 구별하기에 충분한 배율로 디스플레이될 수 있음을 보여준다.
도 38은 도 1의 이미징 기반 바이오마커 예측 시스템(100)을 구현하기 위한 예시적인 컴퓨팅 장치(3800)를 도시한다. 도시된 바와 같이, 시스템(100)은 컴퓨팅 장치(3800) 상에서, 특히 중앙 프로세싱 유닛(CPU)를 나타낼 수 있는 하나 이상의 프로세싱 유닛(3810) 상에서, 및/또는 CPU 및/또는 GPU의 클러스터를 포함하는 하나 이상의 또는 그래픽 프로세싱 유닛(GPU)(3811) 상에서, 및/또는 하나 이상의 텐서 프로세싱 유닛(TPU)(3811로도 라벨링됨) 상에서 구현될 수 있으며, 이들 중 임의의 것은 클라우드 기반일 수 있다. 시스템(100)에 대해 설명된 특징들 및 기능들은 컴퓨팅 장치(3800)의 하나 이상의 비일시적인 컴퓨터 판독가능 매체(3812)에 저장되고 그로부터 구현될 수 있다. 컴퓨터 판독가능 매체(3812)는 예를 들어, 운영체제(3814)와, 전처리 컨트롤러(302), 분류기 모듈들(304 및 306), 및 후처리 컨트롤러(308)를 포함하는 딥러닝 프레임워크(300)의 구성요소들에 대응하는 요소들을 갖는 딥러닝 프레임워크(3816)를 포함할 수 있다. 보다 일반적으로, 컴퓨터 판독가능 매체(3812)는 본원에서 기술들을 구현하는데 사용되는 훈련된 딥러닝 모델들, 실행가능 코드 등을 저장할 수 있다. 컴퓨터 판독가능 매체(3812) 및 프로세싱 유닛(3810)과 TPU(들)/GPU(들)(3811)는 하나 이상의 데이터베이스(3813) 내에 이미지 데이터, 조직 분류 데이터, 세포 분할 데이터, 림프구 분할 데이터, TIL 메트릭, 및 본원의 다른 데이터를 저장할 수 있다. 컴퓨팅 장치(3800)는 휴대용 개인 컴퓨터, 스마트폰, 전자 문서, 태블릿, 및/또는 데스크톱 개인 컴퓨터, 또는 다른 컴퓨팅 장치와 통신하기 위해, 네트워크(3850)에 통신 가능하게 연결된 네트워크 인터페이스(3824)를 포함한다. 컴퓨팅 장치는 디지털 디스플레이(3828), 사용자 입력 장치(3830) 등과 같은 장치들에 연결된 I/O 인터페이스(3826)를 더 포함한다. 일부 예에서, 본원에 설명된 바와 같이, 컴퓨팅 장치(3800)는 네트워크(3850) 상에서 액세스 및/또는 공유될 수 있는 전자 문서(3815)로서 바이오마커 예측을 생성한다. 도시된 예에서, 시스템(100)은 단일 서버(3800) 상에서 구현된다. 그러나, 시스템(100)의 기능들은 통신 링크를 통해 서로 연결된 분산 장치들(3800, 3802, 3804 등)에 걸쳐 구현될 수 있다. 다른 예에서, 시스템(100)의 기능은 휴대용 개인 컴퓨터, 스마트폰, 전자 문서, 태블릿, 및 도시된 데스크탑 개인 컴퓨터 장치들을 포함하는 임의의 수의 장치들에 걸쳐 분산될 수 있다. 다른 예에서, 시스템(100)의 기능은 예를 들어 머신러닝 프로세스들을 수행하도록 커스터마이즈된 하나 이상의 연결된 클라우드 TPU와 같은 클라우드 기반일 수 있다. 네트워크(3850)는 인터넷과 같은 공개 네트워크, 연구기관 또는 기업의 사설 네트워크와 같은 사설 네트워크, 또는 이들의 임의의 조합일 수 있다. 네트워크는 LAN(local area network), WAN(Wide Area Network), 세포룰러, 위성, 또는 유선이거나 무선인 다른 네트워크 인프라구조를 포함할 수 있다. 네트워크는 인터넷 프로토콜(IP), 전송 제어 프로토콜(TCP), 사용자 데이터그램 프로토콜(UDP), 또는 다른 유형의 프로토콜과 같은 패킷 기반 및/또는 데이터그램 기반 프로토콜을 포함하는 통신 프로토콜을 이용할 수 있다. 또한, 네트워크는 스위치, 라우터, 게이트웨이, 액세스 포인트(도시된 무선 액세스 포인트와 같은), 방화벽, 기지국, 리피터, 백본 장치 등과 같이, 네트워크 통신을 용이하게 하고/하거나 네트워크에 대한 하드웨어 기반을 형성하는, 다수의 장치들을 포함할 수 있다.
컴퓨터 판독가능 매체는 본원의 기술들에 대해 컴퓨터(예를 들어, 프로세서(들) 및 GPU(들)을 포함함)를 프로그램하기 위해 그에 저장된 실행 가능한 컴퓨터 판독가능 코드를 포함할 수 있다. 이러한 컴퓨터 판독가능 저장 매체의 예는 하드 디스크, CD-ROM, DVD(digital versatile disk), 광학 저장 장치, 자기 저장 장치, ROM(Read Only Memory), PROM(Programmable Read Only Memory), EPROM(Erasable Programmable Read Only Memory), EEPROM(Electrically Erasable Programmable Read Only Memory) 및 플래시 메모리를 포함한다. 보다 일반적으로, 컴퓨팅 장치(1300)의 프로세싱 유닛들은 CPU-유형의 프로세싱 유닛, GPU-유형의 프로세싱 유닛, TPU-유형의 프로세싱 유닛, 필드 프로그래머블 게이트 어레이(FPGA), 다른 클래스의 디지털 신호 프로세서(DSP), 또는 CPU에 의해 구동될 수 있는 다른 하드웨어 논리 컴포넌트들을 나타낼 수 있다.
본원에서 예시적인 딥러닝 프레임워크들은 예시적인 머신러닝 아키텍처들(FCN 구성들)을 이용하여 구성된 바와 같이 설명되었지만, 임의의 수의 적절한 컨볼루션 신경 네트워크 아키텍처들이 사용될 수 있음에 유의해야 한다. 넓게 말하면, 본원의 딥러닝 프레임워크는 수신된 이미지들 각각에 적용될 임의의 적절한 통계적 모델(예를 들어, 머신러닝 프로세스를 통해 구현되는 신경 네트워크 또는 다른 모델)을 구현할 수 있다. 본원에서 설명되는 바와 같이, 통계적 모델은 다양한 방식으로 구현될 수 있다. 일부 예에서, 머신러닝은 훈련 이미지들을 평가하고, 미리 결정된 이미지 특징들을 TIL 상태의 특정 카테고리들에 상관시키는 분류기들을 개발하기 위해 사용된다. 일부 예에서, 이미지 특징들은 신경 네트워크, 서포트 벡터 머신(SVM) 또는 다른 머신러닝 프로세스와 같은 학습 알고리즘을 사용하여 훈련 분류기로서 식별될 수 있다. 통계학적 모델 내의 분류기들이 일련의 훈련 이미지들로 적절하게 훈련되는 경우, 통계적 모델은 바이오마커 상태를 예측하기 위한 통계적 모델에 대한 입력으로서 제공되는 후속 이미지들을 분석하기 위해 실시간으로 이용될 수 있다. 일부 예에서, 통계적 모델이 신경 네트워크를 사용하여 구현되는 경우, 신경 네트워크는 다양한 방식으로 구성될 수 있다. 일부 예에서, 신경 네트워크는 심층 신경 네트워크 및/또는 컨볼루션 신경 네트워크일 수 있다. 일부 예에서, 신경 네트워크는 분산되고 확장가능한 신경 네트워크일 수 있다. 신경 네트워크는 비제한적으로 로지스틱스 회귀 상부 계층과 같은 특정 상부 계층을 제공하는 것을 포함하는 다양한 방식으로 커스터마이즈될 수 있다. 컨볼루션 신경 네트워크는 연결된 파라미터들을 갖는 노드들의 세트를 포함하는 신경 네트워크으로서 고려될 수 있다. 깊은 컨볼루션 신경 네트워크는 복수의 층들을 갖는 적층 구조를 갖는 것으로 고려될 수 있다. 신경 네트워크 또는 다른 머신러닝 프로세스는 많은 상이한 크기, 층 수 및 연결 수준을 포함할 수 있다. 일부 층들은 적층된 컨볼루션 층들에 대응할 수 있고(선택적으로는 콘트라스트 정규화 및 최대 풀링이 후속됨), 이어서 하나 이상의 완전 연결된 층들이 후속될 수 있다. 대규모 데이터 세트에 의해 훈련된 신경 네트워크의 경우, 드롭아웃을 사용하여 오버피팅의 잠재적인 문제점을 해결함으로써 층 수 및 층 크기가 증가될 수 있다. 일부 예에서, 신경 네트워크는 네트워크의 상부에서 완전 연결된 상위 계층들의 사용을 예측하도록 설계될 수 있다. 네트워크가 중간층의 차원 감소를 겪도록 강제함으로써, 학습된 파라미터들의 수를 극적으로 감소시키면서 아주 깊은 신경 네트워크 모델이 설계될 수 있다.
본원에 설명된 방법들을 수행하기 위한 시스템은 컴퓨팅 장치를 포함할 수 있고, 보다 구체적으로는 하나 이상의 프로세싱 유닛 상에서, 예를 들어, CPU 상에서, 및/또는 CPU와 GPU의 클러스터를 포함하는 하나 이상의 GPU 상에서 구현될 수 있다. 설명된 특징들 및 기능들은 컴퓨팅 장치의 하나 이상의 비일시적인 컴퓨터 판독가능 매체 상에 저장되고 그로부터 구현될 수 있다. 컴퓨터 판독가능 매체는, 예를 들어, 본원에 설명된 방법들을 구현하는 운영체제 및 소프트웨어 모듈들, 또는 "엔진들"을 포함할 수 있다. 보다 일반적으로, 컴퓨터 판독가능 매체는 본원의 기술들을 구현하기 위한 엔진들에 대한 배치(batch) 정규화 프로세스 명령들을 저장할 수 있다. 컴퓨팅 장치는 아마존 웹 서비스 클라우드 컴퓨팅 솔루션과 같은 분산 컴퓨팅 시스템일 수 있다.
컴퓨팅 장치는 휴대용 개인 컴퓨터, 스마트폰, 전자 문서, 태블릿, 및/또는 데스크톱 개인 컴퓨터, 또는 다른 컴퓨팅 장치와 통신하기 위해 네트워크에 통신 가능하게 연결된 네트워크 인터페이스를 포함한다. 컴퓨팅 장치는 디지털 디스플레이, 사용자 입력 장치 등과 같은 장치에 연결된 I/O 인터페이스를 더 포함한다.
엔진의 기능은 통신 링크를 통해 서로 연결된 분산 컴퓨팅 장치 등에 걸쳐 구현될 수 있다. 다른 예들에서, 시스템의 기능은 휴대용 개인 컴퓨터, 스마트폰, 전자 문서, 태블릿, 및 도시된 데스크탑 개인 컴퓨터 장치들을 포함하는 임의의 수의 장치들에 걸쳐 분산될 수 있다. 컴퓨팅 장치는 네트워크 및 다른 네트워크에 통신 가능하게 연결될 수 있다. 네트워크는 인터넷과 같은 공개 네트워크, 연구 기관 또는 기업의 네트워크와 같은 사설 네트워크, 또는 이들의 임의의 조합일 수 있다. 네트워크는 LAN(local area network), WAN(Wide Area Network), 세포룰러, 위성, 또는 유선이거나 무선인 다른 네트워크 인프라구조를 포함할 수 있다. 네트워크들은 인터넷 프로토콜(IP), 전송 제어 프로토콜(TCP), 사용자 데이터그램 프로토콜(UDP), 또는 다른 유형들의 프로토콜들과 같은 패킷 기반 및/또는 데이터그램 기반 프로토콜들을 포함하는 통신 프로토콜들을 이용할 수 있다. 또한, 네트워크는 스위치, 라우터, 게이트웨이, 액세스 포인트(도시된 무선 액세스 포인트와 같은), 방화벽, 기지국, 리피터, 백본 장치 등과 같이, 네트워크 통신을 용이하게 하고/하거나 네트워크에 대한 하드웨어 기반을 형성하는, 다수의 장치들을 포함할 수 있다.
컴퓨터 판독가능 매체는 본원의 기술들에 대해 컴퓨터(예를 들어, 프로세서(들) 및 GPU(들)을 포함함)를 프로그램하기 위해 그에 저장된 실행 가능한 컴퓨터 판독가능 코드를 포함할 수 있다. 이러한 컴퓨터 판독가능 저장 매체의 예는 하드 디스크, CD-ROM, DVD(digital versatile disk), 광학 저장 장치, 자기 저장 장치, ROM(Read Only Memory), PROM(Programmable Read Only Memory), EPROM(Erasable Programmable Read Only Memory), EEPROM(Electrically Erasable Programmable Read Only Memory) 및 플래시 메모리를 포함한다. 보다 일반적으로, 컴퓨팅 장치의 프로세싱 유닛들은 CPU-유형의 프로세싱 유닛, GPU-유형의 프로세싱 유닛, 필드 프로그래머블 게이트 어레이(FPGA), 다른 클래스의 디지털 신호 프로세서(DSP), 또는 CPU에 의해 구동될 수 있는 다른 하드웨어 논리 컴포넌트들을 나타낼 수 있다.
본 명세서 전반에 걸쳐, 복수의 인스턴스들은 단일 인스턴스로서 설명되는 컴포넌트들, 동작들, 또는 구조들을 구현할 수 있다. 하나 이상의 방법들의 개별 동작들이 개별 동작들로서 예시되고 설명되지만, 개별적인 동작들 중 하나 이상이 동시에 수행될 수 있고, 동작들이 반드시 예시된 순서로 수행될 필요는 없다. 예시적인 구성들에서 별개의 컴포넌트들로서 제공되는 구조들 및 기능은 조합된 구조 또는 컴포넌트로서 구현될 수 있다. 유사하게, 단일 컴포넌트로서 제공되는 구조 및 기능은 개별 컴포넌트들 또는 다수의 컴포넌트들로서 구현될 수 있다.
부가적으로, 특정 실시예들은 로직 또는 다수의 루틴들, 서브루틴들, 애플리케이션들, 또는 명령들을 포함하는 것으로서 본원에서 설명된다. 이들은 소프트웨어(예를 들어, 기계 판독가능 매체 상에 또는 전송 신호로 구현된 코드) 또는 하드웨어를 구성할 수 있다. 하드웨어에서, 루틴들 등은 특정 동작들을 수행할 수 있는 유형의(tangible) 유닛들이고, 특정한 방식으로 구성되거나 배열될 수 있다. 일 실시예에서, 하나 이상의 컴퓨터 시스템들(예를 들어, 독립형, 클라이언트 또는 서버 컴퓨터 시스템) 또는 컴퓨터 시스템(예를 들어, 프로세서 또는 프로세서들의 그룹)의 하나 이상의 하드웨어 모듈들은 본원에 설명된 바와 같은 특정 동작들을 수행하도록 동작하는 하드웨어 모듈로서 소프트웨어(예를 들어, 애플리케이션 또는 애플리케이션 부분)에 의해 구성될 수 있다.
다양한 실시예들에서, 하드웨어 모듈은 기계적으로 또는 전자적으로 구현될 수 있다. 예를 들어, 하드웨어 모듈은 특정 동작들을 수행하기 위해 영구적으로 구성되는 전용 회로 또는 로직(예를 들어, 마이크로컨트롤러, 필드 프로그래머블 게이트 어레이(FPGA) 또는 ASIC(application-specific integrated circuit))을 포함할 수 있다. 하드웨어 모듈은 또한, 특정 동작들을 수행하기 위해 소프트웨어에 의해 일시적으로 구성되는 (예를 들어, 범용 프로세서 또는 다른 프로그램 가능한 프로세서 내에 포함되는) 프로그램 가능한 로직 또는 회로를 포함할 수 있다. 하드웨어 모듈을 전용 및 영구적으로 구성된 회로에서, 또는 일시적으로 구성된 회로(예를 들어, 소프트웨어에 의해 구성됨)에서 기계적으로 구현하기 위한 결정은 비용 및 시간 고려사항들에 의해 도출될 수 있음을 이해할 것이다.
따라서, 용어 "하드웨어 모듈"은 유형의(tangible) 실체를 포함하는 것으로 이해되어야 하고, 물리적으로 구성되고, 영구적으로 구성되거나(예를 들어, 하드와이어드), 또는 특정 방식으로 동작하도록 또는 본원에 설명된 특정 동작들을 수행하도록 일시적으로 구성(예를 들어, 프로그래밍)되는 것으로 이해되어야 한다. 하드웨어 모듈이 일시적으로 구성되는(예를 들어, 프로그래밍된) 실시예들을 고려하면, 각각의 하드웨어 모듈들은 임의의 하나의 시간 인스턴스에서 구성되거나 인스턴스화될 필요가 없다. 예를 들어, 하드웨어 모듈이 소프트웨어를 사용하여 구성된 범용 프로세서를 포함하는 경우, 범용 프로세서는 상이한 시간에 각각의 상이한 하드웨어 모듈들로서 구성될 수 있다. 따라서, 소프트웨어는, 예를 들어, 하나의 시간 인스턴스에서 특정 하드웨어 모듈을 구성하고 상이한 시간 인스턴스에서 상이한 하드웨어 모듈을 구성하도록 프로세서를 구성할 수 있다.
하드웨어 모듈들은 다른 하드웨어 모듈들에 정보를 제공하고 그로부터 정보를 수신할 수 있다. 따라서, 설명된 하드웨어 모듈들은 통신 가능하게 연결된 것으로 간주될 수 있다. 이러한 하드웨어 모듈들 중 다수가 동시에 존재하는 경우, 통신은 하드웨어 모듈들을 연결하는 신호 전송을 통해(예를 들어, 적절한 회로들 및 버스들을 통해) 달성될 수 있다. 다수의 하드웨어 모듈들이 상이한 시간들에 구성되거나 인스턴스화되는 실시예들에서, 이러한 하드웨어 모듈들 사이의 통신들은, 예를 들어, 다수의 하드웨어 모듈들이 액세스를 갖는 메모리 구조들 내의 정보의 저장 및 검색을 통해 달성될 수 있다. 예를 들어, 하나의 하드웨어 모듈은 동작을 수행하고 해당 동작의 출력을 그것이 통신가능하게 연결되는 메모리 장치에 저장할 수 있다. 이후, 추가적인 하드웨어 모듈은 저장된 출력을 검색하고 처리하기 위해 나중에 메모리 장치에 액세스할 수 있다. 하드웨어 모듈들은 또한 입력 또는 출력 장치들과의 통신을 개시할 수 있고, 자원 상에서 동작(예를 들어, 정보의 수집)할 수 있다.
본원에 설명된 예시적인 방법들의 다양한 동작들은, 적어도 부분적으로, 일시적으로(예를 들어, 소프트웨어에 의해) 구성되거나 관련 동작들을 수행하도록 영구적으로 구성되는 하나 이상의 프로세서들에 의해 수행될 수 있다. 일시적으로 또는 영구적으로 구성되든지 간에, 이러한 프로세서들은 하나 이상의 동작들 또는 기능들을 수행하도록 동작하는 프로세서-구현 모듈들을 구성할 수 있다. 본원에서 지칭되는 모듈들은, 일부 실시예들에서, 프로세서-구현되는 모듈들을 포함할 수 있다.
유사하게, 본원에 설명된 방법들 또는 루틴들은 적어도 부분적으로 프로세서-구현될 수 있다. 예를 들어, 방법의 동작들 중 적어도 일부는 하나 이상의 프로세서들 또는 프로세서-구현된 하드웨어 모듈들에 의해 수행될 수 있다. 특정 동작들의 성능은 하나 이상의 프로세서들 사이에 분산될 수 있고, 단일 머신 내에 상주할 뿐만 아니라 다수의 머신들에 걸쳐 배치될 수도 있다. 일부 실시예들에서, 프로세서 또는 프로세서들은 단일 위치(예를 들어, 가정 환경, 사무실 환경 또는 서버 팜(farm)) 내에 위치될 수 있는 반면, 다른 실시예들에서 프로세서들은 다수의 위치들에 걸쳐 분산될 수 있다.
특정 동작들의 성능은 하나 이상의 프로세서들 사이에 분산될 수 있고, 단일 머신 내에 상주할 뿐만 아니라 다수의 머신들에 걸쳐 배치될 수도 있다. 일부 실시예들에서, 하나 이상의 프로세서들 또는 프로세서-구현되는 모듈들은 하나의 지리적 위치(예를 들어, 가정 환경, 사무실 환경, 또는 서버 팜) 내에 위치될 수 있다. 다른 실시예들에서, 하나 이상의 프로세서들 또는 프로세서-구현되는 모듈들은 다수의 지리적 위치들에 걸쳐 분산될 수 있다.
구체적으로 달리 언급되지 않는 한, "처리하는", "컴퓨팅", "계산하는", "결정하는", "제공하는", "디스플레이하는" 등과 같은 단어들을 사용하는 본원의 설명들은, 정보를 수신, 저장, 전송 또는 디스플레이하는 하나 이상의 메모리들(예를 들어, 휘발성 메모리, 비휘발성 메모리, 또는 이들의 조합), 레지스터들, 또는 다른 머신 컴포넌트들 내의 물리적(예를 들어, 전자적, 자기적 또는 광학적) 양들로서 표현된 데이터를 조작하거나 변환하는 머신(예를 들어, 컴퓨터)의 동작들 또는 프로세스들을 지칭할 수 있다.
본원에서 "일 실시예" 또는 "실시예"에 대한 임의의 언급은, 해당 실시예와 관련하여 설명된 특정한 요소, 특징, 구조 또는 특성이 적어도 하나의 실시예에 포함된다는 것을 의미한다. 명세서 내의 다양한 위치들에서의 "일 실시예에서"라는 문구의 표현들은 반드시 모두 동일한 실시예를 지칭하는 것은 아니다.
일부 실시예들은 그들의 파생 예들과 함께 "결합된" 및 "연결된" 표현을 사용하여 설명될 수 있다. 예를 들어, 일부 실시예들은 2개 이상의 구성요소들이 직접적인 물리적 또는 전기적 접촉 상태에 있다는 것을 나타내기 위해 "연결된"이라는 용어를 사용하여 설명될 수 있다. 그러나, 용어 "연결된"은 또한, 2개 이상의 구성요소들이 서로 직접 접촉하지 않지만 여전히 함께 동작하거나 서로 상호작용하는 것을 의미할 수 있다. 실시예들은 이러한 맥락에 제한되지 않는다.
본원에 사용되는 바와 같이, 용어 "포함하다", "포함하는(comprising)", "포함하는(including)", "갖는다", "갖는", 또는 그의 임의의 다른 변형은 배타적이지 않은 포함을 포괄하는 것으로 의도된다. 예를 들어, 구성요소들의 리스트를 포함하는 프로세스, 방법, 물품, 또는 장치는 반드시 그러한 구성요소만으로 제한되지는 않고, 명시적으로 열거되지 않거나 그러한 프로세스, 방법, 물품, 또는 장치에 내재되는 다른 구성요소들을 포함할 수 있다. 또한, 달리 명시적으로 언급되지 않는 한, "또는"은 포괄적이거나 배타적이지 않은 것을 의미한다. 예를 들어, 조건 A 또는 B는 다음 중 어느 하나에 의해 만족된다: A가 참(또는 존재함)이고 B는 거짓임(또는 존재하지 않음), A가 거짓(또는 존재하지 않음)이고 B는 참임(또는 존재함), A 및 B 모두가 참임(또는 존재함).
또한, "하나의" 또는 "일"의 사용은 본원의 실시예들의 구성요소들 및 컴포넌트들을 설명하기 위해 사용된다. 이는 단지 편의를 위해서 그리고 설명의 일반적인 의미를 제공하기 위한 것이다. 이러한 설명, 및 하기의 청구항들은 하나 또는 적어도 하나를 포함하는 것으로 파악되어야 하며, 단수형은 그 수가 명백하게 단수임을 의미하는 것이 아니라면 복수형을 또한 포함한다.
이러한 상세한 설명은, 그것이 가능한 경우를 제외하면, 모든 가능한 실시예를 설명하는 것이 불가능하기 때문에, 단지 예시로서 해석되어야 한다. 현재의 기술 또는 본 출원의 출원일 이후에 개발된 기술을 사용하여 다수의 대안적인 실시예들을 구현할 수 있다.

Claims (118)

  1. 표적 조직의 헤마톡실린 및 에오신(H&E) 염색된 슬라이드의 디지털 이미지에서 바이오마커들을 식별하는, 컴퓨터 구현 방법으로서, 상기 방법은,
    하나 이상의 프로세서들을 갖는 이미지 기반 바이오마커 예측 시스템에 상기 디지털 이미지를 수신하는 단계;
    상기 하나 이상의 프로세서들을 이용하여, 상기 디지털 이미지를 복수의 타일 이미지들로 분리함으로써 상기 디지털 이미지에 대해 이미지 타일링 프로세스를 수행하는 단계 - 상기 복수의 타일 이미지들 각각은 상기 디지털 이미지의 상이한 부분을 포함함 -;
    상기 하나 이상의 프로세서들을 이용하여, 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들을 포함하는 다중 스케일 딥러닝 프레임워크에 상기 복수의 타일 이미지들을 적용하는 단계 - 각각의 훈련된 딥러닝 다중 스케일 분류기 모델들은 상기 다중 스케일 딥러닝 프레임워크를 이용하여, 각각의 타일 이미지에 대한 상이한 조직 분류를 분류하도록 훈련되고, 상기 복수의 타일 이미지들 각각에 대한 조직 분류를 결정함 -;
    상기 하나 이상의 프로세서들을 이용하여, 훈련된 세포 분할 모델을 이용하여 상기 디지털 이미지 내의 세포들을 식별하는 단계; 및
    각각의 타일 이미지에 대해 결정된 조직 분류로부터, 그리고 상기 디지털 이미지 내의 상기 식별된 세포들로부터, 상기 디지털 이미지와 연관된 하나 이상의 바이오마커들의 예측된 존재를 식별하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 디지털 이미지에 대해 상기 이미지 타일링 프로세스를 수행하는 단계는, 상기 디지털 이미지를 상기 복수의 타일 이미지들로 분리하기 위해, 타일링 마스크를 상기 디지털 이미지에 적용하는 단계를 포함하는, 방법.
  3. 제2항에 있어서, 상기 타일링 마스크는 동일한 크기의 타일들을 포함하는, 방법.
  4. 제2항에 있어서, 상기 타일링 마스크는 상이한 크기의 타일들을 포함하는, 방법.
  5. 제2항에 있어서, 상기 타일링 마스크는 직사각형 형상을 갖는 타일들을 포함하는, 방법.
  6. 제2항에 있어서, 상기 타일링 마스크는 픽셀들의 그룹들 또는 픽셀들의 토폴로지 및/또는 형태를 특징으로 하는 타일들을 포함하는, 방법.
  7. 제1항에 있어서, 상기 디지털 이미지를 수신하는 단계는, 상기 하나 이상의 프로세서들을 이용하여,
    제1 이미지 해상도로 상기 디지털 이미지를 검색하는 단계;
    상기 디지털 이미지를 제2 이미지 해상도로 다운샘플링하는 단계;
    상기 디지털 이미지 내의 픽셀들에 대해 밝기(brightness) 정규화를 수행하는 단계; 및
    상기 디지털 이미지로부터 비(非)-조직 객체들을 제거하는 단계를 포함하는 방법.
  8. 제1항에 있어서, 상기 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들을 훈련하는 단계를 더 포함하고, 상기 훈련은,
    상기 다중 스케일 딥러닝 프레임워크에서, 훈련 이미지 데이터 세트로부터 복수의 H&E 슬라이드 훈련 이미지들을 수신하는 단계 - 각각의 H&E 슬라이드 훈련 이미지는 훈련될 바이오마커에 대응하는 라벨을 가짐 -;
    상기 H&E 슬라이드 훈련 이미지들 각각에 대해 타일 기반 조직 분류 분석을 수행하는 단계;
    상기 H&E 슬라이드 훈련 이미지들 각각에 대해 픽셀 기반 세포 분할 분석을 수행하는 단계;
    선택적으로, 상기 H&E 슬라이드 훈련 이미지들 각각에 대해 타일 기반 바이오마커 분류 분석을 수행하는 단계; 및
    이에 응답하여, 상기 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들을 생성하는 단계에 의해 수행되는, 방법.
  9. 제8항에 있어서, 각각의 H&E 슬라이드 훈련 이미지는 각각 타일 수준의 라벨을 갖는 복수의 타일 이미지들을 포함하는, 방법.
  10. 제8항에 있어서, 각각의 H&E 슬라이드 훈련 이미지에 대해, 상기 H&E 슬라이드 훈련 이미지의 복수의 타일 이미지들 각각에 대한 타일 수준의 라벨을 부여하는 단계를 더 포함하는, 방법.
  11. 제8항에 있어서,
    각각의 H&E 슬라이드 훈련 이미지에 대해, 상기 H&E 슬라이드 훈련 이미지에서 각각의 타일 이미지에 대한 클래스 상태를 유추하는 타일 선택 프로세스를 수행하는 단계;
    상기 H&E 슬라이드 훈련 이미지들 각각에 대해 상기 타일 기반 조직 분류 분석을 수행하기 전에, 상기 H&E 슬라이드 훈련 이미지의 선택된 타일 이미지들에 대해서만 상기 타일 기반 조직 분류 분석이 수행되도록, 유추된 클래스 상태에 기초하여, 원하는 클래스에 대응하지 않는 타일 이미지들을 폐기하는 단계를 더 포함하는, 방법.
  12. 제1항에 있어서, 상기 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들을 훈련하는 단계를 더 포함하고, 상기 훈련은,
    복수의 훈련 조직 샘플들에 대한 분자 훈련 데이터세트를 수신하는 단계 - 상기 분자 훈련 데이터세트는 각각의 훈련 조직 샘플과 관련된 실질적으로 유사한 샘플의 서열분석으로부터의 RNA 전사체 카운트들을 포함함 -;
    상이한 바이오마커에 각각 대응하는 하나 이상의 분자 데이터 서브세트들을 식별하기 위해 상기 분자 훈련 데이터세트에 대해 군집화 프로세스를 수행하는 단계;
    상기 하나 이상의 분자 데이터 서브세트들 각각에 대해, 각각의 바이오마커에 대응하는 훈련 조직 샘플들의 H&E 염색된 훈련 슬라이드들의 복수의 디지털 이미지들을, 하나 이상의 프로세서들을 갖는 이미지 기반 바이오마커 예측 시스템에 대해 식별하는 단계;
    상기 H&E 슬라이드 훈련 이미지들 각각에 대해 타일 기반 조직 분류 분석을 수행하는 단계;
    상기 H&E 슬라이드 훈련 이미지들 각각에 대해 픽셀 기반 세포 분할 분석을 수행하는 단계;
    선택적으로, 상기 H&E 슬라이드 훈련 이미지들 각각에 대해 타일 기반 바이오마커 분류 분석을 수행하는 단계; 및
    이에 응답하여, 상기 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들을 생성하는 단계에 의해 수행되는, 방법.
  13. 제1항에 있어서, 상기 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들 중 상기 하나는 타일-해상도의 완전 컨볼루션 네트워크(FCN: Fully Convolutional Network) 분류 모델로서 각각 구성되는, 방법.
  14. 제1항에 있어서, 상기 훈련된 딥러닝 다중 스케일 분류기 모델들은, 종양, 기질(stroma), 정상(normal), 림프구, 지방, 근육, 혈관, 면역 군집, 괴사, 과형성/이형성, 및 적혈구 세포로 구성된 군으로부터 선택되는 분류에 대응하는 조직을 분류하도록 각각 훈련되는, 방법.
  15. 제1항에 있어서, 상기 훈련된 세포 분할 모델을 이용하여 상기 디지털 이미지 타일 내의 세포들을 식별하는 단계는,
    상기 하나 이상의 프로세서들을 이용하여, 상기 복수의 타일 이미지들 각각을 상기 세포 분할 모델에 적용하고, 각각의 타일에 대해, 상기 타일 이미지 내의 하나 이상의 픽셀들에 세포 분류를 할당하는 단계를 포함하는, 방법.
  16. 제15항에 있어서, 상기 타일 이미지 내의 하나 이상의 픽셀들에 상기 세포 분류를 할당하는 단계는,
    상기 하나 이상의 프로세서들을 이용하여, 상기 하나 이상의 픽셀들을 세포 내부, 세포 경계 또는 세포 외부로서 식별하고, 상기 하나 이상의 픽셀들을 상기 세포 내부, 상기 세포 경계 또는 상기 세포 외부로서 분류하는 단계를 포함하는, 방법.
  17. 제1항에 있어서, 상기 훈련된 세포 분할 모델은 세포 내부, 세포 경계, 및 세포 외부를 분류하도록 훈련된 픽셀 해상도의 3차원 UNet 분류 모델인, 방법.
  18. 제1항에 있어서, 상기 훈련된 세포 분할 모델을 이용하여 상기 디지털 이미지 타일 내의 세포들을 식별하는 단계는,
    상기 하나 이상의 프로세서들을 이용하여, 상기 복수의 타일 이미지들 각각을 상기 세포 분할 모델에 적용하는 단계; 및
    상기 하나 이상의 프로세서들을 이용하여, 각각의 세포의 세포 경계를 결정하는 것, 각각의 세포의 중심을 결정하는 것, 및 중심들의 좌표들을 상기 디지털 이미지를 위한 범용 좌표 공간으로 시프팅하는 것에 의해, 상기 각각의 타일 이미지들 내의 분할된 세포들에 대한 정합을 수행하는 단계를 포함하는, 방법.
  19. 제1항에 있어서, 상기 훈련된 세포 분할 모델은 세포 경계들, 세포 내부들, 및 세포 외부들을 식별하는 주석이 달린 H&E 슬라이드 훈련 이미지들의 세트를 사용하여 훈련되는, 방법.
  20. 제1항에 있어서, 상기 디지털 이미지는 라벨링되지 않은 디지털 이미지 또는 슬라이드 수준의 라벨링된 이미지인, 방법.
  21. 제1항에 있어서, 상기 디지털 이미지는 타일 수준의 라벨링된 이미지인, 방법.
  22. 제1항에 있어서, 상기 하나 이상의 바이오마커들은 종양-침윤성 림프구(TIL), 세포핵 대 세포질(NC)의 비율, 배수성, 인환(signet ring) 형태, 및 프로그래밍된 사멸-리간드 1(PD-L1)로 구성된 군으로부터 선택되는, 방법.
  23. 제1항에 있어서, 상기 하나 이상의 바이오마커들은 TIL이고, 상기 방법은,
    상기 하나 이상의 프로세서들을 이용하여, 상기 세포 분할 모델을 이용하여 식별된 상기 세포 경계들을, 훈련된 림프구 분할 모델을 이용하여 식별된 상기 림프구들과 통합함으로써, 상기 림프구 분할 모델을 이용하여 상기 디지털 이미지 내의 림프구 세포들을 식별하는 단계, 및 상기 하나 이상의 프로세서들을 이용하여, 각각의 세포의 중첩된(nested) 분류를 생성하는 단계를 더 포함하는, 방법.
  24. 제1항에 있어서, 상기 하나 이상의 바이오마커들은 TIL이고, 상기 방법은,
    상기 하나 이상의 프로세서들을 이용하여, 상기 복수의 타일 이미지들 각각을 훈련된 림프구 분할 모델에 적용하는 것, 및 각각의 타일 이미지에 대해, 상기 타일 이미지 내의 하나 이상의 픽셀들에 림프구 분류를 할당하는 것에 의해, 훈련된 림프구 분할 모델을 이용하여 상기 디지털 이미지 내의 림프구 세포들을 식별하는 단계를 더 포함하는, 방법.
  25. 제1항에 있어서, 상기 하나 이상의 바이오마커들은 TIL이고, 상기 방법은, 하나 이상의 프로세서들을 이용하여, 훈련된 림프구 분할 모델을 이용하여 상기 디지털 이미지 내의 림프구 세포들을 식별하는 단계를 더 포함하고, 상기 림프구 분할 모델은 세포 경계 내의 림프구 세포 분류 및 세포 경계 내의 비-림프구 세포 분류를 식별하도록 훈련된 픽셀 해상도의 2차원 UNet 분류 모델인, 방법.
  26. 제1항에 있어서, 상기 하나 이상의 프로세서들은 하나 이상의 그래픽 프로세싱 유닛(GPU), 텐서 프로세싱 유닛(TPU), 및/또는 중앙 프로세싱 유닛(CPU)인, 방법.
  27. 제1항에 있어서, 상기 이미지 기반 바이오마커 예측 시스템은 통신 네트워크를 통해 병리학 슬라이드 스캐너 시스템에 통신 가능하게 연결되어, 상기 이미지 기반 바이오마커 예측 시스템이 상기 통신 네트워크를 통해 상기 병리학 슬라이드 스캐너 시스템으로부터 상기 디지털 이미지를 수신하도록 하는, 방법.
  28. 제1항에 있어서, 상기 이미지 기반 바이오마커 예측 시스템은 병리학 슬라이드 스캐너 시스템 내에 포함되는, 방법.
  29. 제1항에 있어서, 상기 이미지 기반 바이오마커 예측 시스템의 하나 이상의 프로세서들 중 적어도 하나는 병리학 슬라이드 스캐너 시스템 내에 포함되는, 방법.
  30. 표적 조직의 헤마톡실린 및 에오신(H&E) 염색된 슬라이드의 디지털 이미지에서 바이오마커들을 식별하는 컴퓨터 구현 방법으로서, 상기 방법은,
    복수의 훈련 조직 샘플들에 대한 분자 훈련 데이터세트를 수신하는 단계 - 상기 분자 훈련 데이터세트는 각각의 훈련 조직 샘플과 관련된 실질적으로 유사한 샘플의 서열분석으로부터의 RNA 전사체 카운트들을 포함함 -;
    상이한 바이오마커에 각각 대응하는 하나 이상의 분자 데이터 서브세트들을 식별하기 위해 상기 분자 훈련 데이터세트에 대해 군집화 프로세스를 수행하는 단계;
    상기 하나 이상의 분자 데이터 서브세트들 각각에 대해, 상기 각각의 바이오마커에 대응하는 훈련 조직 샘플들의 H&E 염색된 훈련 슬라이드들의 복수의 디지털 이미지들을, 하나 이상의 프로세서들을 갖는 이미지 기반 바이오마커 예측 시스템에 수신하는 단계;
    상기 하나 이상의 프로세서들을 이용하여, 상기 하나 이상의 분자 데이터 서브세트들 각각에 대해, 상기 H&E 염색된 훈련 슬라이드들의 상기 복수의 디지털 이미지들에 기초하여, 훈련된 이미지 기반의 바이오마커 분류기 모델을 생성하는 단계;
    상기 하나 이상의 프로세서들을 이용하여, 후속하는 조직 샘플의 H&E 염색된 슬라이드의 후속하는 디지털 이미지를 수신하는 단계; 및
    상기 하나 이상의 프로세서들을 이용하여, 상기 후속하는 디지털 이미지를 상기 훈련된 이미지 기반 바이오마커 분류기 모델에 적용하고, 상기 후속하는 조직 샘플에 대해 하나 이상의 바이오마커들의 예측된 존재를 식별하는 단계를 포함하는, 방법.
  31. 제30항에 있어서, 상기 하나 이상의 분자 데이터 서브세트들 각각에 대해, 상기 훈련된 이미지 기반 바이오마커 분류기 모델을 생성하는 단계는, 단일 스케일 딥러닝 프레임워크를 이용하여 상기 H&E 염색된 훈련된 슬라이드들의 상기 복수의 디지털 이미지들에 대해 다중 인스턴스 학습 프로세스를 수행하는 단계를 포함하는, 방법.
  32. 제31항에 있어서, 상기 단일 스케일 딥러닝 프레임워크는 ResNet 구성 또는 Inception-v3 구성을 갖는 컨볼루션 신경 네트워크인, 방법.
  33. 제30항에 있어서, 상기 훈련 조직 샘플들의 H&E 염색된 훈련 슬라이드들의 복수의 디지털 이미지들 각각은 슬라이드 수준의 라벨을 갖는, 방법.
  34. 제30항에 있어서, 상기 훈련 조직 샘플들의 H&E 염색된 훈련 슬라이드들의 복수의 디지털 이미지들 각각은 라벨링되지 않은, 방법.
  35. 제30항에 있어서,
    상기 H&E 염색된 훈련 슬라이드들의 복수의 디지털 이미지들 각각에 대해, 복수의 타일 이미지들을 생성하고, 상기 복수의 타일 이미지들을, 각각의 타일 이미지에 대해 클래스 상태를 유추하는 타일 선택 프로세스에 적용하는 단계;
    유추된 클래스 상태에 기초하여, 원하는 클래스에 대응하지 않는 타일 이미지들을 폐기하는 단계; 및
    폐기되지 않은 타일 이미지들에 기초하여 각각의 훈련된 이미지 기반 바이오마커 분류기 모델을 생성하는 단계를 더 포함하는, 방법.
  36. 제30항에 있어서, 상기 하나 이상의 바이오마커들은 컨센서스 분자 아형(CMS: consensus molecular subtype) 및 상동성 재조합 결핍("HRD": homologous recombination deficiency)으로 이루어진 군으로부터 선택되는, 방법.
  37. 제30항에 있어서, 상기 하나 이상의 프로세서들은 하나 이상의 그래픽 프로세싱 유닛(GPU), 텐서 프로세싱 유닛(TPU), 및/또는 중앙 프로세싱 유닛(CPU)인, 방법.
  38. 제30항에 있어서, 상기 이미지 기반 바이오마커 예측 시스템은 통신 네트워크를 통해 병리학 슬라이드 스캐너 시스템에 통신 가능하게 연결되어, 상기 이미지 기반 바이오마커 예측 시스템이 상기 통신 네트워크를 통해 상기 병리학 슬라이드 스캐너 시스템으로부터 상기 후속하는 디지털 이미지를 수신하도록 하는, 방법.
  39. 제30항에 있어서, 상기 이미지 기반 바이오마커 예측 시스템은 병리학 슬라이드 스캐너 시스템 내에 포함되는, 방법.
  40. 제30항에 있어서, 상기 이미지 기반 바이오마커 예측 시스템의 하나 이상의 프로세서들 중 적어도 하나는 병리학 슬라이드 스캐너 시스템 내에 포함되는, 방법.
  41. 표적 조직의 헤마톡실린 및 에오신(H&E) 염색된 슬라이드의 디지털 이미지에서 바이오마커들을 식별하는 컴퓨터 구현 방법으로서, 상기 방법은,
    하나 이상의 프로세서들을 갖는 이미지 기반 바이오마커 예측 시스템에 상기 디지털 이미지를 수신하는 단계;
    상기 하나 이상의 프로세서들을 이용하여, 상기 디지털 이미지를 복수의 타일 이미지들로 분리하는 단계 - 상기 복수의 타일 이미지들 각각은 상기 디지털 이미지의 상이한 부분을 포함함 -;
    상기 하나 이상의 프로세서들을 이용하여, 상기 복수의 타일 이미지들을, 하나 이상의 훈련된 바이오마커 분류 모델들을 포함하는 딥러닝 프레임워크에 적용하는 단계 - 각각의 훈련된 바이오마커 분류 모델은 상이한 바이오마커를 분류하도록 훈련됨 -;
    상기 하나 이상의 프로세서들을 이용하여, 상기 하나 이상의 훈련된 바이오마커 분류 모델들을 사용하여 상기 복수의 타일 이미지들 각각에 대한 바이오마커 분류를 예측하는 단계;
    상기 타일 이미지들 각각의 예측된 바이오마커 분류들로부터, 상기 표적 조직 내의 하나 이상의 바이오마커들의 예측된 존재를 결정하는 단계; 및
    상기 하나 이상의 바이오마커들의 예측된 존재를 시각화하는 디지털 오버레이 및 상기 디지털 이미지를 포함하는 보고서를 생성하는 단계를 포함하는, 방법.
  42. 제41항에 있어서, 상기 딥러닝 프레임워크는 다중 스케일 딥러닝 프레임워크를 포함하는, 방법.
  43. 제42항에 있어서, 상기 디지털 이미지를 복수의 타일 이미지들로 분리하는 단계는,
    상기 하나 이상의 프로세서들을 이용하여, 상기 디지털 이미지를 상기 복수의 타일 이미지들로 분리하기 위해 상기 디지털 이미지에 타일링 마스크를 적용함으로써 이미지 타일링 프로세스를 수행하는 단계를 포함하는, 방법.
  44. 제43항에 있어서, 상기 타일링 마스크는 동일한 크기의 타일들을 포함하는, 방법.
  45. 제44항에 있어서, 상기 타일링 마스크는 사각형 형상을 갖는 타일들을 포함하는, 방법.
  46. 제42항에 있어서, 상기 복수의 타일 이미지들을 상기 딥러닝 프레임워크에 적용하는 단계 및 상기 복수의 타일 이미지들 각각에 대해 상기 바이오마커 분류를 예측하는 단계는, 각각,
    상기 타일 이미지들 각각을 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들에 적용하는 단계 - 각각의 훈련된 딥러닝 다중 스케일 분류기 모델들은 각각의 타일 이미지에 대한 상이한 조직 분류를 분류하도록 훈련되고, 상기 다중 스케일 딥러닝 프레임워크를 이용하여, 상기 복수의 타일 이미지들 각각에 대해 조직 분류를 결정함 -;
    상기 하나 이상의 프로세서들을 이용하여, 훈련된 세포 분할 모델을 이용하여 상기 디지털 이미지 내의 세포들을 식별하는 단계; 및
    각각의 타일 이미지에 대해 결정된 상기 조직 분류로부터, 그리고 상기 디지털 이미지 내의 상기 식별된 세포들로부터, 각각의 타일 이미지에 대한 상기 바이오마커 분류를 예측하는 단계를 포함하는, 방법.
  47. 제46항에 있어서, 상기 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들을 훈련하는 단계를 더 포함하고, 상기 훈련은,
    상기 다중 스케일 딥러닝 프레임워크에서, 훈련 이미지 데이터 세트로부터 복수의 H&E 슬라이드 훈련 이미지들을 수신하는 단계 - 각각의 H&E 슬라이드 훈련 이미지는 훈련될 바이오마커에 대응하는 라벨을 가짐 -;
    상기 H&E 슬라이드 훈련 이미지들 각각에 대해 타일 기반 조직 분류 분석을 수행하는 단계;
    상기 H&E 슬라이드 훈련 이미지들 각각에 대해 픽셀 기반 세포 분할 분석을 수행하는 단계;
    선택적으로, 상기 H&E 슬라이드 훈련 이미지들 각각에 대해 타일 기반 바이오마커 분류 분석을 수행하는 단계; 및
    이에 응답하여, 상기 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들을 생성하는 단계에 의해 수행되는, 방법.
  48. 제47항에 있어서, 각각의 H&E 슬라이드 훈련 이미지는 타일 수준의 라벨을 각각 갖는 복수의 타일 이미지들을 포함하는, 방법.
  49. 제47항에 있어서, 각각의 H&E 슬라이드 훈련 이미지에 대해, 상기 H&E 슬라이드 훈련 이미지의 복수의 타일 이미지들 각각에 대한 타일 수준의 라벨을 부여하는 단계를 더 포함하는, 방법.
  50. 제47항에 있어서,
    각각의 H&E 슬라이드 훈련 이미지에 대해, 상기 H&E 슬라이드 훈련 이미지 내의 각각의 타일 이미지에 대한 클래스 상태를 유추하는 타일 선택 프로세스를 수행하는 단계; 및
    상기 H&E 슬라이드 훈련 이미지들 각각에 대해 상기 타일 기반 조직 분류 분석을 수행하기 전에, 상기 H&E 슬라이드 훈련 이미지의 선택된 타일 이미지들에 대해서만 상기 타일 기반 조직 분류 분석이 수행되도록, 유추된 클래스 상태에 기초하여, 원하는 클래스에 대응하지 않는 타일 이미지들을 폐기하는 단계를 더 포함하는, 방법.
  51. 제46항에 있어서, 상기 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들 중 하나는 타일-해상도의 완전 컨볼루션 네트워크(FCN) 분류 모델로서 각각 구성되는, 방법.
  52. 제46항에 있어서, 상기 훈련된 세포 분할 모델을 이용하여 상기 디지털 이미지 타일 내의 세포들을 식별하는 단계는,
    상기 하나 이상의 프로세서들을 이용하여, 상기 복수의 타일 이미지들 각각을 상기 세포 분할 모델에 적용하고, 각각의 타일에 대해, 상기 타일 이미지 내의 하나 이상의 픽셀들에 세포 분류를 할당하는 단계를 포함하는, 방법.
  53. 제52항에 있어서, 상기 타일 이미지 내의 하나 이상의 픽셀들에 상기 세포 분류를 할당하는 단계는,
    상기 하나 이상의 프로세서들을 이용하여, 상기 하나 이상의 픽셀들을 세포 내부, 세포 경계 또는 세포 외부로서 식별하고, 상기 하나 이상의 픽셀들을 상기 세포 내부, 상기 세포 경계 또는 상기 세포 외부로서 분류하는 단계를 포함하는, 방법.
  54. 제46항에 있어서, 상기 훈련된 세포 분할 모델은 세포 내부, 세포 경계, 및 세포 외부를 분류하도록 훈련된 픽셀 해상도의 3차원 UNet 분류 모델인, 방법.
  55. 제41항에 있어서, 상기 하나 이상의 바이오마커들은 종양 침윤성 림프구(TIL), 세포핵 대 세포질(NC)의 비율, 배수성, 인환 형태, 및 프로그래밍된 사멸-리간드 1(PD-L1)로 구성된 군으로부터 선택되는, 방법.
  56. 제41항에 있어서, 상기 딥러닝 프레임워크는 단일 스케일 딥러닝 프레임워크를 포함하는, 방법.
  57. 제56항에 있어서, 상기 디지털 이미지를 복수의 타일 이미지들로 분리하는 단계는,
    상기 하나 이상의 프로세서들을 이용하여, 상기 디지털 이미지를 상기 복수의 타일 이미지들로 분리하는 훈련된 다중 인스턴스 학습 컨트롤러에 상기 디지털 이미지를 적용함으로써 이미지 타일링 프로세스를 수행하는 단계를 포함하는, 방법.
  58. 제57항에 있어서,
    상기 H&E 슬라이드 훈련 이미지 내의 각각의 타일 이미지에 대한 클래스 상태를 유추하는 타일 선택 프로세스에 각각의 타일 이미지를 제공하는 단계; 및
    상기 딥러닝 프레임워크에 나머지 복수의 타일 이미지들을 적용하기 전에, 유추된 클래스 상태에 기초하여, 타일 선택 기준에 기초하여 타일 이미지들을 선택적으로 폐기하는 단계를 더 포함하는, 방법.
  59. 제57항에 있어서,
    상기 H&E 슬라이드 훈련 이미지 내의 각각의 타일 이미지에 대한 클래스 상태를 유추하는 타일 선택 프로세스에 각각의 타일 이미지를 제공하는 단계; 및
    나머지 복수의 타일 이미지들을 상기 딥러닝 프레임워크에 적용하기 전에, 유추된 클래스 상태에 기초하여, 타일 이미지들을 랜덤하게 폐기하는 단계를 더 포함하는, 방법.
  60. 제56항에 있어서,
    복수의 훈련 조직 샘플들에 대한 분자 훈련 데이터세트를 수신하는 단계 - 상기 분자 훈련 데이터세트는 각각의 훈련 조직 샘플과 관련된 실질적으로 유사한 샘플의 서열분석으로부터의 RNA 전사체 카운트들을 포함함 -;
    상이한 바이오마커에 각각 대응하는 하나 이상의 분자 데이터 서브세트들을 식별하기 위해 상기 분자 훈련 데이터세트에 대해 군집화 프로세스를 수행하는 단계;
    상기 하나 이상의 분자 데이터 서브세트들 각각에 대해, 각각의 바이오마커에 대응하는 훈련 조직 샘플들의 H&E 염색된 훈련 슬라이드들의 복수의 디지털 이미지들을, 하나 이상의 프로세서들을 갖는 이미지 기반 바이오마커 예측 시스템에 수신하는 단계; 및
    상기 하나 이상의 프로세서들을 이용하여, 상기 H&E 염색된 훈련 슬라이드들의 상기 복수의 디지털 이미지들에 기초하여, 상기 하나 이상의 분자 데이터 서브세트들 각각에 대해, 상기 훈련된 바이오마커 분류 모델들 중 하나를 생성하는 단계를 더 포함하는, 방법.
  61. 제60항에 있어서, 상기 하나 이상의 분자 데이터 서브세트들 각각에 대해, 상기 훈련된 바이오마커 분류 모델들 중 하나를 생성하는 단계는, 상기 H&E 염색된 훈련 슬라이드들의 상기 복수의 디지털 이미지들에 대해 다중 인스턴스 학습 프로세스를 수행하는 단계를 포함하는, 방법.
  62. 제60항에 있어서, 훈련 조직 샘플들의 H&E 염색된 훈련 슬라이드들의 상기 복수의 디지털 이미지들 각각은 슬라이드 수준의 라벨을 갖는, 방법.
  63. 제60항에 있어서, 훈련 조직 샘플들의 H&E 염색된 훈련 슬라이드들의 상기 복수의 디지털 이미지들 각각은 라벨링되지 않은, 방법.
  64. 제56항에 있어서, 상기 단일 스케일 딥러닝 프레임워크는 ResNet 구성 또는 Inception-v3 구성을 갖는 컨볼루션 신경 네트워크인, 방법.
  65. 제56항에 있어서, 상기 하나 이상의 바이오마커들은 컨센서스 분자 아형(CMS) 및 상동성 재조합 결핍("HRD")으로 이루어진 군으로부터 선택되는, 방법.
  66. 제41항에 있어서, 상기 하나 이상의 프로세서들은 하나 이상의 그래픽 프로세싱 유닛(GPU), 텐서 프로세싱 유닛(TPU), 및/또는 중앙 프로세싱 유닛(CPU)인, 방법.
  67. 제41항에 있어서, 상기 이미지 기반 바이오마커 예측 시스템은 통신 네트워크를 통해 병리학 슬라이드 스캐너 시스템에 통신 가능하게 연결되어, 상기 이미지 기반 바이오마커 예측 시스템이 상기 통신 네트워크를 통해 상기 병리학 슬라이드 스캐너 시스템으로부터 상기 디지털 이미지를 수신하도록 하는, 방법.
  68. 제41항에 있어서, 상기 이미지 기반 바이오마커 예측 시스템은 병리학 슬라이드 스캐너 시스템 내에 포함되는, 방법.
  69. 제68항에 있어서, 상기 병리학 슬라이드 스캐너 시스템은 이미지 기반, 적대적(adversarial) 훈련된 그리고/또는 마이크로 위성 불안정성(MSI) 예측 모델을 포함하는, 방법.
  70. 제41항에 있어서, 상기 디지털 이미지 및 상기 디지털 오버레이를 포함하는 상기 보고서를 생성하는 단계는, 상기 디지털 이미지의 종양 콘텐츠 또는 상기 디지털 이미지의 종양 백분율을 식별하는 오버레이 요소를 포함하도록 상기 디지털 오버레이를 생성하는 단계를 포함하는, 방법.
  71. 표적 조직의 헤마톡실린 및 에오신(H&E) 염색된 슬라이드의 디지털 이미지에서 바이오마커들을 식별하도록 구성된 컴퓨팅 장치로서, 상기 컴퓨팅 장치는,
    하나 이상의 메모리들; 및
    하나 이상의 프로세서들을 포함하고, 상기 하나 이상의 프로세서들은,
    상기 디지털 이미지를 수신하고,
    상기 디지털 이미지를 복수의 타일 이미지들로 분리함으로써 상기 디지털 이미지에 대해 이미지 타일링 프로세스를 수행하며 - 상기 복수의 타일 이미지들 각각은 상기 디지털 이미지의 상이한 부분을 포함함 -;
    상기 복수의 타일 이미지들을, 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들을 포함하는 다중 스케일 딥러닝 프레임워크에 적용하고 - 각각의 훈련된 딥러닝 다중 스케일 분류기 모델들은 각각의 타일 이미지에 대한 상이한 조직 분류를 분류하도록 훈련되고, 상기 다중 스케일 딥러닝 프레임워크를 사용하여, 상기 복수의 타일 이미지들 각각에 대한 조직 분류를 결정함 -;
    훈련된 세포 분할 모델을 이용하여 상기 디지털 이미지 내의 세포들을 식별하며;
    각각의 타일 이미지에 대해 결정된 상기 조직 분류로부터, 그리고 상기 디지털 이미지 내의 상기 식별된 세포들로부터, 상기 디지털 이미지와 연관된 하나 이상의 바이오마커들의 예측된 존재를 식별하도록 구성되는, 컴퓨팅 장치.
  72. 제71항에 있어서, 상기 하나 이상의 프로세서들은,
    상기 디지털 이미지를 상기 복수의 타일 이미지들로 분리하기 위해, 타일링 마스크를 상기 디지털 이미지에 적용함으로써 상기 디지털 이미지에 대해 상기 이미지 타일링 프로세스를 수행하도록 구성되는, 컴퓨팅 장치.
  73. 제71항에 있어서, 상기 하나 이상의 프로세서들은,
    훈련 이미지 데이터세트로부터 복수의 H&E 슬라이드 훈련 이미지를 수신하고 - 각각의 H&E 슬라이드 훈련 이미지는 훈련될 바이오마커에 대응하는 라벨을 가짐 -;
    상기 H&E 슬라이드 훈련 이미지들 각각에 대해 타일 기반 조직 분류 분석을 수행하며;
    상기 H&E 슬라이드 훈련 이미지들 각각에 대해 픽셀 기반 세포 분할 분석을 수행하고;
    선택적으로, 상기 H&E 슬라이드 훈련 이미지들 각각에 대해 타일 기반 바이오마커 분류 분석을 수행하며;
    이에 응답하여, 상기 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들을 생성하도록 더 구성되는, 컴퓨팅 장치.
  74. 제73항에 있어서, 각각의 H&E 슬라이드 훈련 이미지는 타일 수준의 라벨을 각각 갖는 복수의 타일 이미지들을 포함하는, 컴퓨팅 장치.
  75. 제73항에 있어서, 상기 하나 이상의 프로세서들은,
    각각의 H&E 슬라이드 훈련 이미지에 대해, 상기 H&E 슬라이드 훈련 이미지 내의 각각의 타일 이미지에 대한 클래스 상태를 유추하는 타일 선택 프로세스를 수행하고;
    상기 H&E 슬라이드 훈련 이미지의 선택된 타일 이미지들에 대해서만 상기 타일 기반 조직 분류 분석이 수행되도록, 상기 H&E 슬라이드 훈련 이미지들 각각에 대해 상기 타일 기반 조직 분류 분석을 수행하기 전에, 유추된 클래스 상태에 기초하여, 원하는 클래스에 대응하지 않는 타일 이미지들을 폐기하도록 더 구성되는, 컴퓨팅 장치.
  76. 제71항에 있어서, 상기 하나 이상의 프로세서들은,
    상기 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들을 훈련하도록 더 구성되고, 상기 훈련은,
    복수의 훈련 조직 샘플들에 대한 분자 훈련 데이터세트를 수신하는 단계 - 상기 분자 훈련 데이터세트는 각각의 훈련 조직 샘플과 관련된 실질적으로 유사한 샘플의 서열분석으로부터의 RNA 전사체 카운트들을 포함함 -;
    상이한 바이오마커에 각각 대응하는 하나 이상의 분자 데이터 서브세트들을 식별하기 위해 상기 분자 훈련 데이터세트에 대해 군집화 프로세스를 수행하는 단계;
    상기 하나 이상의 분자 데이터 서브세트들 각각에 대해, 각각의 바이오마커에 대응하는 훈련 조직 샘플들의 H&E 염색된 훈련 슬라이드들의 복수의 디지털 이미지들을, 하나 이상의 프로세서들을 갖는 이미지 기반 바이오마커 예측 시스템에 대해 식별하는 단계;
    상기 H&E 슬라이드 훈련 이미지들 각각에 대해 타일 기반 조직 분류 분석을 수행하는 단계;
    상기 H&E 슬라이드 훈련 이미지들 각각에 대해 픽셀 기반 세포 분할 분석을 수행하는 단계;
    선택적으로, 상기 H&E 슬라이드 훈련 이미지들 각각에 대해 타일 기반 바이오마커 분류 분석을 수행하는 단계; 및
    이에 응답하여, 상기 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들을 생성하는 단계에 의해 수행되는, 컴퓨팅 장치.
  77. 제71항에 있어서, 상기 하나 이상의 바이오마커들은 종양-침윤성 림프구(TIL), 세포핵 대 세포질(NC)의 비율, 배수성, 인환 형태, 및 프로그래밍된 사멸-리간드 1(PD-L1)로 이루어진 군으로부터 선택되는, 컴퓨팅 장치.
  78. 제71항에 있어서, 상기 하나 이상의 바이오마커들은 TIL이고, 상기 하나 이상의 프로세서들은,
    상기 세포 분할 모델을 사용하여 식별된 세포 경계들을, 훈련된 림프구 분할 모델을 사용하여 식별된 림프구들과 통합함으로써, 그리고 각각의 세포의 중첩된(nested) 분류를 생성함으로써, 상기 훈련된 림프구 분할 모델을 이용하여 상기 디지털 이미지 내의 림프구 세포들을 식별하도록 더 구성되는, 컴퓨팅 장치.
  79. 제71항에 있어서, 상기 하나 이상의 바이오마커들은 TIL이고, 상기 하나 이상의 프로세서들은,
    복수의 타일 이미지들 각각을 훈련된 림프구 분할 모델에 적용하고, 각각의 타일 이미지에 대해, 상기 타일 이미지 내의 하나 이상의 픽셀들에 림프구 분류를 할당함으로써, 훈련된 림프구 분할 모델을 사용하여 상기 디지털 이미지 내의 림프구 세포들을 식별하도록 더 구성되는, 컴퓨팅 장치.
  80. 제71항에 있어서, 상기 하나 이상의 바이오마커들은 TIL이고, 상기 하나 이상의 프로세서들은,
    상기 하나 이상의 프로세서들을 이용하여, 훈련된 림프구 분할 모델을 이용하여 상기 디지털 이미지 내의 림프구 세포들을 식별하도록 더 구성되고, 상기 림프구 분할 모델은 세포 경계 내의 림프구 세포 분류 및 세포 경계 내의 비-림프구 세포 분류를 식별하도록 훈련된 픽셀 해상도의 2차원 UNet 분류 모델인, 컴퓨팅 장치.
  81. 제71항에 있어서, 상기 하나 이상의 프로세서들은 하나 이상의 그래픽 프로세싱 유닛(GPU), 텐서 프로세싱 유닛(TPU), 및/또는 중앙 프로세싱 유닛(CPU)인, 컴퓨팅 장치.
  82. 제71항에 있어서, 상기 컴퓨팅 장치는 통신 네트워크를 통해 병리학 슬라이드 스캐너 시스템에 통신 가능하게 연결되어, 상기 컴퓨팅 장치가 상기 통신 네트워크를 통해 상기 병리학 슬라이드 스캐너 시스템으로부터 상기 디지털 이미지를 수신하도록 하는, 컴퓨팅 장치.
  83. 제71항에 있어서, 상기 컴퓨팅 장치는 병리학 슬라이드 스캐너 시스템 내에 포함되는, 컴퓨팅 장치.
  84. 제71항에 있어서, 상기 컴퓨팅 장치의 하나 이상의 프로세서들 중 적어도 하나는 병리학 슬라이드 스캐너 시스템 내에 포함되는, 컴퓨팅 장치.
  85. 표적 조직의 헤마톡실린 및 에오신(H&E) 염색된 슬라이드의 디지털 이미지에서 바이오마커들을 식별하도록 구성된 컴퓨팅 장치로서, 상기 컴퓨팅 장치는,
    하나 이상의 메모리들; 및
    하나 이상의 프로세서들을 포함하고, 상기 하나 이상의 프로세서들은,
    복수의 훈련 조직 샘플들에 대한 분자 훈련 데이터세트를 수신하고 - 상기 분자 훈련 데이터세트는 각각의 훈련 조직 샘플과 관련된 실질적으로 유사한 샘플의 서열분석으로부터의 RNA 전사체 카운트들을 포함함 -;
    상이한 바이오마커에 각각 대응하는 하나 이상의 분자 데이터 서브세트들을 식별하기 위해 상기 분자 훈련 데이터세트에 대해 군집화 프로세스를 수행하며;
    각각의 하나 이상의 분자 데이터 서브세트들에 대해, 각각의 바이오마커에 대응하는 훈련 조직 샘플들의 H&E 염색된 훈련 슬라이드들의 복수의 디지털 이미지들을, 하나 이상의 프로세서들을 갖는 이미지 기반 바이오마커 예측 시스템에 수신하고;
    상기 하나 이상의 분자 데이터 서브세트들 각각에 대해, 상기 H&E 염색된 훈련 슬라이드들의 상기 복수의 디지털 이미지들에 기초하여, 훈련된 이미지 기반의 바이오마커 분류기 모델을 생성하며;
    후속하는 조직 샘플의 H&E 염색된 슬라이드의 후속하는 디지털 이미지를 수신하고;
    상기 후속하는 디지털 이미지를 상기 훈련된 이미지 기반 바이오마커 분류기 모델에 적용하고, 상기 후속하는 조직 샘플에 대한 하나 이상의 바이오마커들의 예측된 존재를 식별하도록 구성되는, 컴퓨팅 장치.
  86. 제85항에 있어서, 상기 하나 이상의 프로세서들은, 단일 스케일 딥러닝 프레임워크를 이용하여, 상기 H&E 염색된 훈련 슬라이드들의 상기 복수의 디지털 이미지에 대해 다중 인스턴스 학습 프로세스를 수행함으로써, 상기 하나 이상의 분자 데이터 서브세트들 각각에 대해 상기 훈련된 이미지 기반 바이오마커 분류기 모델을 생성하도록 구성되는, 컴퓨팅 장치.
  87. 제86항에 있어서, 상기 단일 스케일 딥러닝 프레임워크는 ResNet 구성 또는 Inception-v3 구성을 갖는 컨볼루션 신경 네트워크인, 컴퓨팅 장치.
  88. 제85항에 있어서, 상기 훈련 조직 샘플들의 H&E 염색된 훈련 슬라이드들의 상기 복수의 디지털 이미지들 각각은 슬라이드 수준의 라벨을 갖는, 컴퓨팅 장치.
  89. 제85항에 있어서, 상기 훈련 조직 샘플들의 H&E 염색된 훈련 슬라이드들의 상기 복수의 디지털 이미지들 각각은 라벨링되지 않은, 컴퓨팅 장치.
  90. 제85항에 있어서, 상기 하나 이상의 프로세서들은,
    H&E 염색된 훈련 슬라이드들의 상기 복수의 디지털 이미지들 각각에 대해, 복수의 타일 이미지들을 생성하고, 상기 복수의 타일 이미지를 각각의 타일 이미지에 대한 클래스 상태를 유추하는 타일 선택 프로세스에 적용하고;
    유추된 클래스 상태에 기초하여, 원하는 클래스에 대응하지 않는 타일 이미지들을 폐기하며;
    폐기되지 않은 타일 이미지들에 기초하여 각각의 훈련된 이미지 기반 바이오마커 분류기 모델을 생성하도록 구성되는, 컴퓨팅 장치.
  91. 제85항에 있어서, 상기 하나 이상의 바이오마커들은 컨센서스 분자 아형(CMS) 및 상동성 재조합 결핍("HRD")으로 이루어진 군으로부터 선택되는, 컴퓨팅 장치.
  92. 제85항에 있어서, 상기 하나 이상의 프로세서들은 하나 이상의 그래픽 프로세싱 유닛(GPU), 텐서 프로세싱 유닛(TPU), 및/또는 중앙 프로세싱 유닛(CPU)인, 컴퓨팅 장치.
  93. 제85항에 있어서, 상기 컴퓨팅 장치는 통신 네트워크를 통해 병리학 슬라이드 스캐너 시스템에 통신 가능하게 연결되어, 상기 컴퓨팅 장치가 상기 통신 네트워크를 통해 상기 병리학 슬라이드 스캐너 시스템으로부터 상기 디지털 이미지를 수신하도록 하는, 컴퓨팅 장치.
  94. 제85항에 있어서, 상기 컴퓨팅 장치는 병리학 슬라이드 스캐너 시스템 내에 포함되는, 컴퓨팅 장치.
  95. 제85항에 있어서, 상기 컴퓨팅 장치의 하나 이상의 프로세서들 중 적어도 하나는 병리학 슬라이드 스캐너 시스템 내에 포함되는, 컴퓨팅 장치.
  96. 표적 조직의 헤마톡실린 및 에오신(H&E) 염색된 슬라이드의 디지털 이미지에서 바이오마커들을 식별하도록 구성된 컴퓨팅 장치로서, 상기 컴퓨팅 장치는,
    하나 이상의 메모리들; 및
    하나 이상의 프로세서들을 포함하고, 상기 하나 이상의 프로세서들은,
    하나 이상의 프로세서들을 갖는 이미지 기반 바이오마커 예측 시스템에 상기 디지털 이미지를 수신하고;
    상기 디지털 이미지를 복수의 타일 이미지들로 분리하며 - 상기 복수의 타일 이미지들 각각은 상기 디지털 이미지의 상이한 부분을 포함함 -;
    상기 복수의 타일 이미지들을, 하나 이상의 훈련된 바이오마커 분류 모델들을 포함하는 딥러닝 프레임워크에 적용하고 - 각각의 훈련된 바이오마커 분류 모델은 상이한 바이오마커를 분류하도록 훈련됨 -;
    상기 하나 이상의 훈련된 바이오마커 분류 모델들을 사용하여 상기 복수의 타일 이미지들 각각에 대한 바이오마커 분류를 예측하며;
    상기 타일 이미지들 각각의 상기 예측된 바이오마커 분류들로부터, 상기 표적 조직 내의 하나 이상의 바이오마커들의 예측된 존재를 결정하고;
    상기 하나 이상의 바이오마커들의 예측된 존재를 시각화하는 디지털 오버레이 및 상기 디지털 이미지를 포함하는 보고서를 생성하도록 구성되는, 컴퓨팅 장치.
  97. 제96항에 있어서, 상기 딥러닝 프레임워크는 다중 스케일 딥러닝 프레임워크를 포함하는, 컴퓨팅 장치.
  98. 제97항에 있어서, 상기 하나 이상의 프로세서들은, 상기 디지털 이미지를 복수의 타일 이미지들로 분리하도록 구성되고, 상기 분할은,
    상기 하나 이상의 프로세서들을 이용하여, 상기 디지털 이미지를 상기 복수의 타일 이미지들로 분리하기 위해 상기 디지털 이미지에 타일링 마스크를 적용함으로써 이미지 타일링 프로세스를 수행하는 것에 의해 수행되는, 컴퓨팅 장치.
  99. 제97항에 있어서, 상기 타일링 마스크는 동일한 크기의 타일들을 포함하는, 컴퓨팅 장치.
  100. 제97항에 있어서, 상기 타일링 마스크는 사각형 형상을 갖는 타일들을 포함하는, 컴퓨팅 장치.
  101. 제97항에 있어서, 상기 하나 이상의 프로세서들은,
    상기 타일 이미지들 각각을 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들에 적용하고 - 각각의 훈련된 딥러닝 다중 스케일 분류기 모델들은 각각의 타일 이미지에 대한 상이한 조직 분류를 분류하도록 훈련되고, 상기 다중 스케일 딥러닝 프레임워크를 사용하여, 상기 복수의 타일 이미지들 각각에 대한 조직 분류를 결정함 -;
    상기 하나 이상의 프로세서들을 이용하여, 훈련된 세포 분할 모델을 이용하여 상기 디지털 이미지 내의 세포들을 식별하며;
    각각의 타일 이미지에 대해 결정된 상기 조직 분류로부터, 그리고 상기 디지털 이미지 내의 상기 식별된 세포들로부터, 각각의 타일 이미지에 대한 상기 바이오마커 분류를 예측하도록 구성되는, 컴퓨팅 장치.
  102. 제97항에 있어서, 상기 하나 이상의 프로세서들은, 상기 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들을 훈련하도록 더 구성되고, 상기 훈련은,
    상기 다중 스케일 딥러닝 프레임워크에서, 훈련 이미지 데이터 세트로부터 복수의 H&E 슬라이드 훈련 이미지들을 수신하는 단계 - 각각의 H&E 슬라이드 훈련 이미지는 훈련될 바이오마커에 대응하는 라벨을 가짐 -;
    상기 H&E 슬라이드 훈련 이미지들 각각에 대해 타일 기반 조직 분류 분석을 수행하는 단계;
    상기 H&E 슬라이드 훈련 이미지들 각각에 대해 픽셀 기반 세포 분할 분석을 수행하는 단계;
    선택적으로, 상기 H&E 슬라이드 훈련 이미지들 각각에 대해 타일 기반 바이오마커 분류 분석을 수행하는 단계; 및
    이에 응답하여, 상기 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들을 생성하는 단계에 의해 수행되는, 컴퓨팅 장치.
  103. 제97항에 있어서, 상기 하나 이상의 프로세서들은,
    각각의 H&E 슬라이드 훈련 이미지에 대해, 상기 H&E 슬라이드 훈련 이미지 내의 각각의 타일 이미지에 대한 클래스 상태를 유추하는 타일 선택 프로세스를 수행하고;
    상기 H&E 슬라이드 훈련 이미지의 선택된 타일 이미지들에 대해서만 상기 타일 기반 조직 분류 분석이 수행되도록, 상기 H&E 슬라이드 훈련 이미지들 각각에 대해 상기 타일 기반 조직 분류 분석을 수행하기 전에, 유추된 클래스 상태에 기초하여, 원하는 클래스에 대응하지 않는 타일 이미지들을 폐기하도록 더 구성되는, 컴퓨팅 장치.
  104. 제97항에 있어서, 상기 하나 이상의 훈련된 딥러닝 다중 스케일 분류기 모델들 중 하나는 타일-해상도의 완전 컨볼루션 네트워크(FCN) 분류 모델로서 각각 구성되는, 컴퓨팅 장치.
  105. 제96항에 있어서, 상기 하나 이상의 바이오마커들은 종양-침윤성 림프구(TIL), 세포핵 대 세포질(NC)의 비율, 배수성, 인환 형태, 및 프로그래밍된 사멸-리간드 1(PD-L1)로 이루어진 군으로부터 선택되는, 컴퓨팅 장치.
  106. 제96항에 있어서, 상기 딥러닝 프레임워크는 단일 스케일 딥러닝 프레임워크를 포함하는, 컴퓨팅 장치.
  107. 제106항에 있어서, 상기 하나 이상의 프로세서들은, 상기 디지털 이미지를 복수의 타일 이미지들로 분리하도록 구성되고, 상기 분할은,
    상기 하나 이상의 프로세서들을 이용하여, 상기 디지털 이미지를 상기 복수의 타일 이미지들로 분리하는 훈련된 다중 인스턴스 학습 컨트롤러에 상기 디지털 이미지를 적용함으로써 이미지 타일링 프로세스를 수행하는 것에 의해 수행되는, 컴퓨팅 장치.
  108. 제106항에 있어서, 상기 하나 이상의 프로세서들은,
    각각의 타일 이미지를, 상기 H&E 슬라이드 훈련 이미지 내의 각각의 타일 이미지에 대한 클래스 상태를 유추하는 타일 선택 프로세스에 제공하고;
    나머지 복수의 타일 이미지들을 상기 딥러닝 프레임워크에 적용하기 전에, 유추된 클래스 상태에 기초하여, 타일 선택 기준에 기초하여 타일 이미지들을 선택적으로 폐기하도록 더 구성되는, 컴퓨팅 장치.
  109. 제106항에 있어서, 상기 하나 이상의 프로세서들은,
    각각의 타일 이미지를, 상기 H&E 슬라이드 훈련 이미지 내의 각각의 타일 이미지에 대한 클래스 상태를 유추하는 타일 선택 프로세스에 제공하고;
    나머지 복수의 타일 이미지들을 상기 딥러닝 프레임워크에 적용하기 전에, 유추된 클래스 상태에 기초하여, 타일 이미지들을 랜덤하게 폐기하도록 더 구성되는, 컴퓨팅 장치.
  110. 제106항에 있어서, 상기 하나 이상의 프로세서들은,
    복수의 훈련 조직 샘플들에 대한 분자 훈련 데이터세트를 수신하고 - 상기 분자 훈련 데이터세트는 각각의 훈련 조직 샘플과 관련된 실질적으로 유사한 샘플의 서열분석으로부터의 RNA 전사체 카운트들을 포함함 -;
    상이한 바이오마커에 각각 대응하는 하나 이상의 분자 데이터 서브세트들을 식별하기 위해 상기 분자 훈련 데이터세트에 대해 군집화 프로세스를 수행하며;
    각각의 하나 이상의 분자 데이터 서브세트들에 대해, 각각의 바이오마커에 대응하는 훈련 조직 샘플들의 H&E 염색된 훈련 슬라이드들의 복수의 디지털 이미지를, 하나 이상의 프로세서들을 갖는 이미지 기반 바이오마커 예측 시스템에 수신하며;
    상기 하나 이상의 분자 데이터 서브세트들 각각에 대해, 상기 H&E 염색된 훈련 슬라이드들의 상기 복수의 디지털 이미지들에 기초하여, 상기 훈련된 바이오마커 분류 모델들 중 하나를 생성하도록 더 구성되는, 컴퓨팅 장치.
  111. 제106항에 있어서, 상기 하나 이상의 프로세서들은, 상기 하나 이상의 분자 데이터 서브세트들 각각에 대해, 상기 H&E 염색된 훈련 슬라이드들의 상기 복수의 디지털 이미지들에 대해 다중 인스턴스 학습 프로세스를 수행함으로써 상기 훈련된 바이오마커 분류 모델들 중 하나를 생성하도록 구성되는, 컴퓨팅 장치.
  112. 제106항에 있어서, 상기 단일 스케일 딥러닝 프레임워크는 ResNet 구성 또는 Inception-v3 구성을 갖는 컨볼루션 신경 네트워크인, 컴퓨팅 장치.
  113. 제96항에 있어서, 상기 하나 이상의 바이오마커들은 컨센서스 분자 아형(CMS) 및 상동성 재조합 결핍("HRD")으로 이루어진 군으로부터 선택되는, 컴퓨팅 장치.
  114. 제96항에 있어서, 상기 하나 이상의 프로세서들은 하나 이상의 그래픽 프로세싱 유닛(GPU), 텐서 프로세싱 유닛(TPU), 및/또는 중앙 프로세싱 유닛(CPU)인, 컴퓨팅 장치.
  115. 제96항에 있어서, 상기 컴퓨팅 장치는 통신 네트워크를 통해 병리학 슬라이드 스캐너 시스템에 통신 가능하게 연결되어, 상기 컴퓨팅 장치가 상기 통신 네트워크를 통해 상기 병리학 슬라이드 스캐너 시스템으로부터 상기 디지털 이미지를 수신하도록 하는, 컴퓨팅 장치.
  116. 제96항에 있어서, 상기 컴퓨팅 장치는 병리학 슬라이드 스캐너 시스템 내에 포함되는, 컴퓨팅 장치.
  117. 제96항에 있어서, 상기 컴퓨팅 장치의 하나 이상의 프로세서들 중 적어도 하나는 병리학 슬라이드 스캐너 시스템 내에 포함되는, 컴퓨팅 장치.
  118. 제96항에 있어서, 상기 하나 이상의 프로세서들은, 상기 디지털 이미지의 종양 콘텐츠 또는 상기 디지털 이미지의 종양 백분율을 식별하는 오버레이 요소를 포함하도록 상기 디지털 오버레이를 생성함으로써, 상기 디지털 이미지 및 상기 디지털 오버레이를 포함하는 상기 보고서를 생성하도록 구성되는, 컴퓨팅 장치.
KR1020217034360A 2019-03-26 2020-03-25 조직병리학 슬라이드 이미지로부터 바이오마커를 결정하는 방법 KR20210145778A (ko)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US201962824039P 2019-03-26 2019-03-26
US62/824,039 2019-03-26
US16/412,362 2019-05-14
US16/412,362 US11741365B2 (en) 2018-05-14 2019-05-14 Generalizable and interpretable deep learning framework for predicting MSI from histopathology slide images
US201962889521P 2019-08-20 2019-08-20
US62/889,521 2019-08-20
US16/732,242 2019-12-31
US16/732,242 US10991097B2 (en) 2018-12-31 2019-12-31 Artificial intelligence segmentation of tissue images
US202062983524P 2020-02-28 2020-02-28
US62/983,524 2020-02-28
PCT/US2020/024748 WO2020198380A1 (en) 2019-03-26 2020-03-25 Determining biomarkers from histopathology slide images

Publications (1)

Publication Number Publication Date
KR20210145778A true KR20210145778A (ko) 2021-12-02

Family

ID=72612095

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217034360A KR20210145778A (ko) 2019-03-26 2020-03-25 조직병리학 슬라이드 이미지로부터 바이오마커를 결정하는 방법

Country Status (7)

Country Link
EP (1) EP3991171A4 (ko)
JP (1) JP2022527264A (ko)
KR (1) KR20210145778A (ko)
AU (1) AU2020248416A1 (ko)
CA (1) CA3133826A1 (ko)
SG (1) SG11202109958SA (ko)
WO (1) WO2020198380A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023106546A1 (ko) * 2021-12-09 2023-06-15 재단법인대구경북과학기술원 상향식 인스턴스 세분화 방법 및 장치
KR20230163926A (ko) * 2022-05-24 2023-12-01 주식회사 루닛 병리 슬라이드 이미지의 품질을 평가하는 방법 및 장치
US12014502B2 (en) 2022-05-24 2024-06-18 Lunit Inc. Method and device for evaluating quality of pathological slide image
WO2024144247A1 (ko) * 2022-12-29 2024-07-04 서울대학교병원 폐암 stas 검출 장치 및 방법

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021154849A1 (en) 2020-01-28 2021-08-05 PAIGE.AI, Inc. Systems and methods for processing electronic images for computational detection methods
AU2021213131B2 (en) * 2020-01-28 2023-02-02 PAIGE.AI, Inc. Systems and methods for processing electronic images for biomarker localization
US20220108097A1 (en) * 2020-10-05 2022-04-07 Rakuten, Inc. Dual encoder attention u-net
WO2022086684A1 (en) * 2020-10-22 2022-04-28 The Regents Of The University Of Michigan Using machine learning to assess medical information based on a spatial cell organization analysis
US20240054640A1 (en) * 2020-12-15 2024-02-15 Carnegie Mellon University System, Method, and Computer Program Product for Classification of Diseases Based on Expansion Microscopic Images
CN112750106B (zh) * 2020-12-31 2022-11-04 山东大学 一种基于非完备标记的深度学习的核染色细胞计数方法、计算机设备、存储介质
CN112908414B (zh) * 2021-01-28 2023-08-22 中山大学 一种大规模单细胞分型方法、系统及存储介质
EP4285374A1 (en) * 2021-02-26 2023-12-06 Leica Biosystems Melbourne Pty Ltd System and method for hybrid virtual and chemical staining of tissue samples
KR102446638B1 (ko) * 2021-04-28 2022-09-26 주식회사 딥바이오 유방암 병변 영역을 판별하기 위한 인공 신경망을 학습하기 위한 학습 방법, 및 이를 수행하는 컴퓨팅 시스템
EP4377693A1 (en) * 2021-07-29 2024-06-05 Tempus AI, Inc. Platform for co-culture imaging to characterize in vitro efficacy of heterotypic effector cellular therapies in cancer
WO2023022444A1 (ko) * 2021-08-18 2023-02-23 주식회사 루닛 병리 슬라이드 이미지로부터 예측된 종양 함량에 기초하여 검사와 관련된 가이드를 제공하는 방법 및 장치
CN113870280B (zh) * 2021-09-15 2024-08-09 中国科学院心理研究所 预测以细胞为基质的抗体核型类别的方法、设备和介质
CN114419366B (zh) * 2021-12-30 2024-07-26 福州大学 基于深度学习的花椒粉掺假快速识别方法及系统
CN114638292B (zh) * 2022-03-10 2023-05-05 中国医学科学院北京协和医院 一种基于多尺度分析的人工智能病理辅助诊断系统
CN114581429B (zh) * 2022-03-14 2024-04-19 中南大学 一种基于区域关系的宫颈细胞检测方法及成像方法
JP2023176256A (ja) * 2022-05-31 2023-12-13 楽天グループ株式会社 画像からデータを予測する方法、コンピュータシステム、及びコンピュータ可読媒体
WO2023249552A1 (en) * 2022-06-24 2023-12-28 National Skin Centre (Singapore) Pte Ltd System and method for classification of basal cell carcinoma based on confocal microscopy
EP4300427A1 (en) * 2022-07-01 2024-01-03 Peek Health, S.A. Standardizing images of anatomical structures for analysis by machine learning systems
EP4318492A1 (en) * 2022-08-05 2024-02-07 Siemens Healthcare GmbH Computer-assisted medical diagnosis system and method
WO2024047608A1 (en) * 2022-09-02 2024-03-07 Janssen Research & Development, Llc Methods and systems for ai-based immune profiling for cancer patient stratification
CN115294191B (zh) * 2022-10-08 2022-12-27 武汉楚精灵医疗科技有限公司 基于电子内镜的标志物尺寸测量方法、装置、设备及介质
CN116934742B (zh) * 2023-09-13 2024-02-27 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种淋巴结构图像识别方法及系统
CN117454762B (zh) * 2023-10-30 2024-05-24 昆明理工大学 Markov-神经网络的穿煤隧道掌子面瓦斯浓度预测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2977262A1 (en) * 2015-02-23 2016-09-01 Cellanyx Diagnostics, Llc Cell imaging and analysis to differentiate clinically relevant sub-populations of cells
AU2017211236B2 (en) * 2016-01-26 2023-04-20 Ventana Medical Systems, Inc. Predictive diagnostic workflow for tumors using automated dissection, next generation sequencing, and automated slide stainers
EP3593357A4 (en) * 2017-03-06 2021-01-06 University of Southern California MACHINE LEARNING FOR DIGITAL PATHOLOGY
US10846367B2 (en) * 2017-09-15 2020-11-24 Case Western Reserve University University Predicting recurrence in early stage non-small cell lung cancer (NSCLC) with integrated radiomic and pathomic features

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023106546A1 (ko) * 2021-12-09 2023-06-15 재단법인대구경북과학기술원 상향식 인스턴스 세분화 방법 및 장치
KR20230163926A (ko) * 2022-05-24 2023-12-01 주식회사 루닛 병리 슬라이드 이미지의 품질을 평가하는 방법 및 장치
US12014502B2 (en) 2022-05-24 2024-06-18 Lunit Inc. Method and device for evaluating quality of pathological slide image
WO2024144247A1 (ko) * 2022-12-29 2024-07-04 서울대학교병원 폐암 stas 검출 장치 및 방법

Also Published As

Publication number Publication date
SG11202109958SA (en) 2021-10-28
CA3133826A1 (en) 2020-10-01
EP3991171A4 (en) 2022-12-14
WO2020198380A1 (en) 2020-10-01
JP2022527264A (ja) 2022-06-01
AU2020248416A1 (en) 2021-10-07
EP3991171A1 (en) 2022-05-04

Similar Documents

Publication Publication Date Title
US11935152B2 (en) Determining biomarkers from histopathology slide images
US11348661B2 (en) Predicting total nucleic acid yield and dissection boundaries for histology slides
KR20210145778A (ko) 조직병리학 슬라이드 이미지로부터 바이오마커를 결정하는 방법
US11348239B2 (en) Predicting total nucleic acid yield and dissection boundaries for histology slides
JP7270058B2 (ja) 予測的組織パターン特定のためのマルチプルインスタンスラーナ
US11348240B2 (en) Predicting total nucleic acid yield and dissection boundaries for histology slides
CA3108632A1 (en) A multi-modal approach to predicting immune infiltration based on integrated rna expression and imaging features
Ailia et al. Current trend of artificial intelligence patents in digital pathology: a systematic evaluation of the patent landscape
WO2022147503A1 (en) Predicting total nucleic acid yield and dissection boundaries for histology slides
US11727674B2 (en) Systems and methods for generating histology image training datasets for machine learning models
US20230411014A1 (en) Apparatus and method for training of machine learning models using annotated image data for pathology imaging
Dievernich et al. A Deep-Learning-Computed Cancer Score for the Identification of Human Hepatocellular Carcinoma Area Based on a Six-Colour Multiplex Immunofluorescence Panel
Alim et al. Integrating convolutional neural networks for microscopic image analysis in acute lymphoblastic leukemia classification: A deep learning approach for enhanced diagnostic precision
WO2024076538A1 (en) System and method for multimodal prediction of patient outcomes
Mustafa et al. Detection of Ovarian Cancer Using Improved Deep Learning Model
Sui et al. Exploit Spatially Resolved Transcriptomic Data to Infer Cellular Features from Pathology Imaging Data
Koohbanani Working with scarce annotations in computational pathology
WO2024118842A1 (en) Systems and methods for detecting tertiary lymphoid structures
Mujahid et al. Breast histopathological imaging using ultra‐fast fluorescence confocal microscopy to identify cancer lesions at early stage
Ma et al. Classification of metaphase chromosomes using deep convolutional network1