KR102583103B1

KR102583103B1 - 계산 검출 방법들을 위해 전자 이미지들을 처리하기 위한 시스템들 및 방법들

Info

Publication number: KR102583103B1
Application number: KR1020227025752A
Authority: KR
Inventors: 브랜든 로스록; 크리스토퍼 카난; 줄리안 비렛; 토마스 푹스; 레오 그래디
Original assignee: 페이지.에이아이, 인크.
Priority date: 2020-01-28
Filing date: 2021-01-27
Publication date: 2023-09-27
Also published as: US11423547B2; WO2021154849A1; JP2024028874A; US20230245477A1; JP7406745B2; US20220343508A1; KR20220109481A; EP4097636A1; CA3161179A1; CA3161179C; AU2021213737B2; US20210233251A1; BR112022014530A2; JP2023506578A; US11995903B2; US11176676B2; US20220005201A1; KR20230138062A; US11640719B2; AU2021213737A1

Abstract

조직 표본과 연관된 하나 이상의 전자 슬라이드 이미지를 수신―조직 표본은 환자 및/또는 의료 케이스와 연관됨―하고, 하나 이상의 전자 슬라이드 이미지 중 제1 슬라이드 이미지를 복수의 타일로 분할하고, 제1 슬라이드 이미지 및/또는 복수의 타일의 복수의 조직 영역을 검출하여 조직 마스크를 생성하고, 복수의 타일 중 임의의 타일이 비조직에 대응하는지를 결정하고, 비조직인 것으로 결정되는 복수의 타일 중 임의의 타일을 제거하고, 기계 학습 예측 모델을 이용하여, 하나 이상의 전자 슬라이드 이미지에 대한 적어도 하나의 라벨에 대한 예측을 결정―기계 학습 예측 모델은 복수의 훈련 이미지를 처리함으로써 생성됨―하고, 훈련된 기계 학습 예측 모델의 예측을 출력하기 위한 시스템들 및 방법들이 개시된다.

Description

계산 검출 방법들을 위해 전자 이미지들을 처리하기 위한 시스템들 및 방법들

관련 출원(들)

본 출원은 2020년 1월 28일자로 출원된 미국 가출원 제62/966,716호에 대한 우선권을 주장하며, 그 전체 개시내용은 그 전체가 본 명세서에 참고로 포함된다.

개시내용의 분야

본 개시내용의 다양한 실시예는 일반적으로, 전자 이미지들을 처리함으로써 준비된 조직 표본들(tissue specimens)에 대한 라벨들(labels)을 예측하기 위한 예측 모델을 생성하는 것에 관한 것이다. 더 구체적으로는, 본 개시내용의 특정한 실시예들은, 준비된 조직 표본들(tissue specimens)에 관한 진단 정보를 예측, 식별 또는 검출하기 위한 시스템들 및 방법들에 관한 것이다. 본 개시내용은 또한, 보이지 않는 슬라이드들로부터 라벨들을 예측하는 예측 모델을 생성하기 위한 시스템들 및 방법들을 제공한다.

조직병리학(histopathology)에 대한 기계 학습 및 심층 학습 모델들의 성능은 이러한 모델들을 훈련하는데 이용되는 주석이 달린 예들(annotated examples)의 볼륨 및 품질에 의해 제한될 수 있다. 감독된 이미지 분류 문제들에 대한 대규모 실험들은 모델 성능이 5천만 개 정도의 훈련 예들까지 계속 개선된다는 것을 보여주었다. 이러한 데이터 볼륨에 수동으로 주석을 다는 것은 시간 및 비용 둘 다에서 엄청나게 고가일 수 있고, 시스템들이 임상적으로 관련된 레벨에서 수행되고 기관들에 걸쳐 일반화되는 것을 보장함에 있어서 심각한 제한일 수 있다.

전술한 일반적인 설명 및 다음의 상세한 설명은 단지 예시적이고 설명적이며, 본 개시내용을 제한하지 않는다. 본 명세서에서 제공되는 배경 설명은 본 개시내용의 맥락을 일반적으로 제시하기 위한 것이다. 본 명세서에서 달리 지시되지 않는 한, 본 섹션에서 설명되는 자료들은 본 출원에서의 청구항들에 대한 종래 기술이 아니며, 본 섹션에서의 포함에 의해 종래 기술 또는 종래 기술의 제안들인 것으로 인정되지 않는다.

본 개시내용의 특정 양태들에 따르면, 디지털 병리학에서의 계산적 바이오마커 검출(computational biomarker detection)을 위한 약하게 감독된 다중-라벨 및 다중-작업 학습(weakly supervised multi-label and multi-task learning)을 개발하기 위한 시스템들 및 방법들이 개시된다.

표본에 대응하는 전자 이미지를 처리하기 위한 컴퓨터로 구현 방법은 조직 표본과 연관된 하나 이상의 디지털 이미지를 수신하고, 조직 표본과 연관된 하나 이상의 전자 슬라이드 이미지를 수신하는 단계―조직 표본은 환자 및/또는 의료 케이스와 연관됨―; 하나 이상의 전자 슬라이드 이미지 중 제1 슬라이드 이미지를 복수의 타일로 분할하는 단계; 제1 슬라이드 이미지 및/또는 복수의 타일의 복수의 조직 영역을 검출하여 조직 마스크를 생성하는 단계; 복수의 타일 중 임의의 타일이 비조직(non-tissue)에 대응하는지를 결정하는 단계; 비조직인 것으로 결정되는 복수의 타일 중 임의의 타일을 제거하는 단계; 기계 학습 예측 모델을 이용하여, 하나 이상의 전자 슬라이드 이미지에 대한 적어도 하나의 라벨에 대한 예측을 결정하는 단계―기계 학습 예측 모델은 복수의 훈련 이미지를 처리함으로써 생성됨―; 및 훈련된 기계 학습 예측 모델의 예측을 출력하는 단계를 포함한다.

표본에 대응하는 전자 이미지를 처리하기 위한 시스템은 명령어들을 저장하는 메모리; 및 프로세스를 수행하기 위해 명령어들을 실행하는 적어도 하나의 프로세서를 포함하고, 프로세스는 조직 표본과 연관된 하나 이상의 디지털 이미지를 수신하고, 조직 표본과 연관된 하나 이상의 전자 슬라이드 이미지를 수신하는 것―조직 표본은 환자 및/또는 의료 케이스와 연관됨―; 하나 이상의 전자 슬라이드 이미지 중 제1 슬라이드 이미지를 복수의 타일로 분할하는 것; 제1 슬라이드 이미지 및/또는 복수의 타일의 복수의 조직 영역을 검출하여 조직 마스크를 생성하는 것; 복수의 타일 중 임의의 타일이 비조직에 대응하는지를 결정하는 것; 비조직인 것으로 결정되는 복수의 타일 중 임의의 타일을 제거하는 것; 기계 학습 예측 모델을 이용하여, 하나 이상의 전자 슬라이드 이미지에 대한 적어도 하나의 라벨에 대한 예측을 결정하는 것―기계 학습 예측 모델은 복수의 훈련 이미지를 처리함으로써 생성됨―; 및 훈련된 기계 학습 예측 모델의 예측을 출력하는 것을 포함한다.

프로세서에 의해 실행될 때, 프로세서로 하여금 표본에 대응하는 전자 이미지를 처리하기 위한 방법을 수행하게 하는 명령어들을 저장하는 비일시적 컴퓨터 판독가능 매체로서, 방법은 조직 표본과 연관된 하나 이상의 디지털 이미지를 수신하고, 조직 표본과 연관된 하나 이상의 전자 슬라이드 이미지를 수신하는 단계―조직 표본은 환자 및/또는 의료 케이스와 연관됨―; 하나 이상의 전자 슬라이드 이미지 중 제1 슬라이드 이미지를 복수의 타일로 분할하는 단계; 제1 슬라이드 이미지 및/또는 복수의 타일의 복수의 조직 영역을 검출하여 조직 마스크를 생성하는 단계; 복수의 타일 중 임의의 타일이 비조직에 대응하는지를 결정하는 단계; 비조직인 것으로 결정되는 복수의 타일 중 임의의 타일을 제거하는 단계; 기계 학습 예측 모델을 이용하여, 하나 이상의 전자 슬라이드 이미지에 대한 적어도 하나의 라벨에 대한 예측을 결정하는 단계―기계 학습 예측 모델은 복수의 훈련 이미지를 처리함으로써 생성됨―; 및 훈련된 기계 학습 예측 모델의 예측을 출력하는 단계를 포함한다.

상기한 일반적인 설명 및 다음의 상세한 설명 둘 다는 단지 예시적이고 설명을 위한 것이며, 청구된 바와 같은 개시된 실시예들에 한정적이지 않다는 것이 이해되어야 한다.

본 명세서에 포함되고 그 일부를 구성하는 첨부 도면들은 다양한 예시적인 실시예들을 예시하는 것이며, 설명과 함께 개시된 실시예들의 원리들을 설명하는 역할을 한다.
도 1a는 본 개시내용의 예시적인 실시예에 따른, 예측 모델을 생성하기 위한 시스템 및 네트워크의 예시적인 블록도를 도시한다.
도 1b는 본 개시내용의 예시적인 실시예에 따른, 예측 모델 플랫폼의 예시적인 블록도를 도시한다.
도 1c는 본 개시내용의 예시적인 실시예에 따른, 슬라이드 분석 툴의 예시적인 블록도를 도시한다.
도 2a는 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 훈련된 기계 학습 시스템에 의해 생성된 예측 모델을 이용하기 위한 예시적인 방법을 도시하는 흐름도이다.
도 2b는 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 훈련된 기계 학습 시스템에서 약하게 감독된 타일-레벨 학습 모듈을 훈련하기 위한 예시적인 방법을 도시하는 흐름도이다.
도 2c는 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 훈련된 기계 학습 시스템에서 약하게 감독된 집계 모듈(weakly supervised aggregation module)을 훈련하기 위한 예시적인 방법을 도시하는 흐름도이다.
도 3은 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 전립선암(prostate cancer)을 동시에 검출 및 등급화하기 위해 기계 학습 시스템을 훈련 및 이용하기 위한 예시적인 방법을 도시하는 흐름도이다.
도 4는 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 전립선 바늘 생검(prostate needle biopsies)에서 종양 정량화(tumor quantification)를 위해 기계 학습 시스템을 훈련 및 이용하기 위한 예시적인 방법을 도시하는 흐름도이다.
도 5는 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 암 서브타입(cancer subtype)을 예측하기 위해 기계 학습 시스템을 훈련 및 이용하기 위한 예시적인 방법을 도시하는 흐름도이다.
도 6은 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 수술 마진(surgical margin)을 예측하기 위해 기계 학습 시스템을 훈련 및 이용하기 위한 예시적인 방법을 도시하는 흐름도이다.
도 7은 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 방광암 바이오마커(bladder cancer biomarker)를 예측하기 위해 기계 학습 시스템을 훈련 및 이용하기 위한 예시적인 방법을 도시하는 흐름도이다.
도 8은 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 범-암 진단(pan-cancer diagnosis)을 예측하기 위해 기계 학습 시스템을 훈련 및 이용하기 위한 예시적인 방법을 도시하는 흐름도이다.
도 9는 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 기관 독성(organ toxicity)을 예측하기 위해 기계 학습 시스템을 훈련 및 이용하기 위한 예시적인 방법을 도시하는 흐름도이다.
도 10은 본 개시내용의 일 실시예에 따른, 예시적인 접속 성분 알고리즘(connected components algorithm)을 도시한다.
도 11은 본 명세서에 제시된 기술들을 실행할 수 있는 예시적인 시스템을 도시한다.

실시예들의 설명

이제, 본 개시내용의 예시적인 실시예들을 상세히 참조할 것이며, 그 예들이 첨부 도면들에 도시되어 있다. 가능한 경우, 도면들 전체에 걸쳐 동일하거나 유사한 부분을 지칭하기 위해 동일한 참조 번호들이 이용될 것이다.

본 명세서에 개시된 시스템들, 디바이스들, 및 방법들은 예들로서 그리고 도면들을 참조하여 상세히 설명된다. 본 명세서에 논의된 예들은 단지 예들일 뿐이고, 본 명세서에 설명된 장치들, 디바이스들, 시스템들, 및 방법들의 설명을 돕기 위해 제공된다. 도면들에 도시되거나 이하에 논의되는 특징들 또는 컴포넌트들 중 어느 것도, 의무적인 것으로서 구체적으로 지시되지 않으면, 이들 디바이스들, 시스템들, 또는 방법들 중 임의의 것의 임의의 특정 구현에 의무적인 것으로서 취해져서는 안된다.

또한, 설명된 임의의 방법들에 대해, 방법이 흐름도와 함께 설명되는지에 관계없이, 문맥에 의해 달리 명시되거나 요구되지 않는 한, 방법의 실행에서 수행되는 단계들의 임의의 명시적 또는 암시적 순서는, 이들 단계들이 제시된 순서로 수행되어야 한다는 것을 암시하는 것이 아니라, 대신에 상이한 순서로 또는 병렬로 수행될 수도 있다는 것을 이해해야 한다.

본 명세서에서 이용되는 바와 같이, 용어 "예시적인"은 "이상적인"이 아니라 "예"의 의미로 이용된다. 또한, 본 명세서에서 단수 표현("a" 및 "an") 용어들은 양의 제한을 나타내는 것이 아니라, 오히려 언급된 항목들 중 하나 이상의 존재를 나타낸다.

병리학은 질병의 연구뿐만 아니라 질병의 원인 및 효과를 지칭한다. 보다 구체적으로, 병리학은 질병을 진단하기 위해 이용되는 테스트 및 분석을 수행하는 것을 지칭한다. 예를 들어, 조직 샘플들은 병리학자(예를 들어, 임의의 비정상들이 존재하는지를 결정하기 위해 조직 샘플들을 분석할 때 전문가인 의사)에 의해 현미경 하에서 보여질 슬라이드들 상에 배치될 수 있다. 즉, 병리학 표본들은 병리학자가 검사하고 진단을 행하기 위한 슬라이드들로서, 다수의 섹션들로 절단되고, 염색되고, 준비될 수 있다. 슬라이드 상의 진단 발견의 불확실성이 있을 때, 병리학자는 조직으로부터 더 많은 정보를 수집하기 위해 추가의 절단 레벨들, 염색들, 또는 다른 테스트들을 주문할 수 있다. 기술자(들)는 이어서 진단을 행할 때 병리학자가 이용하기 위한 추가의 정보를 포함할 수 있는 새로운 슬라이드(들)를 생성할 수 있다. 추가의 슬라이드들을 생성하는 이 프로세스는 조직의 블록을 검색하는 것, 새로운 슬라이드를 만들기 위해 이를 절단하는 것, 및 이어서 슬라이드를 염색하는 것을 포함할 수 있을 뿐만 아니라, 다수의 주문들에 대해 일괄처리될 수 있기 때문에, 시간 소모적일 수 있다. 이는 병리학자가 행하는 최종 진단을 상당히 지연시킬 수 있다. 또한, 지연 후에도, 새로운 슬라이드(들)가 진단을 행하기에 충분한 정보를 가질 것이라는 보장이 여전히 없을 수 있다.

병리학자들은 암 및 다른 질병 병리학 슬라이드들을 따로따로 평가할 수 있다. 본 개시내용은 암 및 다른 질병들의 진단을 개선하기 위한 통합된 작업흐름을 제시한다. 작업흐름은, 예를 들어, 슬라이드 평가, 작업들, 이미지 분석 및 암 검출 인공 지능(AI), 주석들, 상담들, 및 추천들을 하나의 워크스테이션에 통합할 수 있다. 특히, 본 개시내용은 병리학자의 작업을 촉진하고 개선하기 위해 작업흐름에 통합될 수 있는 AI 툴들뿐만 아니라, 작업흐름에서 이용가능한 다양한 예시적인 사용자 인터페이스들을 설명한다.

예를 들어, 컴퓨터들은 조직 샘플의 이미지를 분석하여 특정 조직 샘플에 관한 추가 정보가 필요할 수 있는지를 신속하게 식별하고/하거나 병리학자가 더 밀접하게 보아야 하는 영역을 병리학자에게 강조하기 위해 이용될 수 있다. 따라서, 추가 염색된 슬라이드들 및 테스트들을 획득하는 프로세스는 병리학자에 의해 검토되기 전에 자동으로 행해질 수 있다. 자동 슬라이드 세그먼트화 및 염색 기계들과 쌍을 이룰 때, 이는 완전 자동화된 슬라이드 준비 파이프라인을 제공할 수 있다. 이러한 자동화는 적어도, (1) 슬라이드가 진단을 행하기에 불충분하다고 결정하는 병리학자에 의해 낭비되는 시간의 양을 최소화하고,(2) 추가적인 테스트들이 주문될 때와 그것들이 생성될 때 사이의 추가적인 시간을 회피함으로써 표본 취득으로부터 진단까지의 (평균 총) 시간을 최소화하고, (3) 조직 블록들(예를 들어, 병리학 표본들)이 절단 책상에 있는 동안 재절단이 행해지게 함으로써 재절단 당 시간의 양 및 낭비되는 재료의 양을 감소시키고, (4) 슬라이드 준비 동안 낭비된/폐기된 조직 재료의 양을 감소시키고, (5) 절차를 부분적으로 또는 완전히 자동화함으로써 슬라이드 준비의 비용을 감소시키고, (6) 샘플들로부터 더 많은 대표적/정보적 슬라이드들을 초래할 슬라이드들의 자동 맞춤화된 절단 및 염색을 허용하고, (7) 조직 블록 당 더 높은 부피의 슬라이드들이 생성되게 하여, 병리학자에 대한 추가적인 테스트를 요청하는 오버헤드를 감소시킴으로써 더 정보에 입각한/정확한 진단들에 기여하고/하거나, (8) 디지털 병리학 이미지의 (예를 들어, 표본 타입에 관한) 정확한 속성들을 식별 또는 검증하는 등의 이점들을 갖는다.

병리학자들을 보조하기 위해 컴퓨터들을 이용하는 프로세스는 계산 병리학(computational pathology)으로서 알려져 있다. 계산 병리학을 위해 이용되는 컴퓨팅 방법들은 통계 분석, 자율 또는 기계 학습, 및 AI를 포함할 수 있지만, 이들로 제한되지 않는다. AI는 심층 학습, 신경망들, 분류들, 클러스터링, 및 회귀 알고리즘들을 포함할 수 있지만, 이들로 제한되지 않는다. 계산 병리학을 이용함으로써, 병리학자들이 그들의 진단 정확도, 신뢰성, 효율, 및 접근성을 개선하는 것을 돕는 것에 의해 생명들을 구할 수 있다. 예를 들어, 계산 병리학은 암에 대해 의심스러운 슬라이드들을 검출하는 것을 보조하는데 이용될 수 있고, 그에 의해 병리학자들이 최종 진단을 행하기 전에 그들의 초기 평가들을 체크하고 확인하는 것을 허용한다.

전술한 바와 같이, 본 개시내용의 계산적 병리학 프로세스들 및 디바이스들은 웹-브라우저 또는 다른 사용자 인터페이스를 통한 디지털 병리학 이미지들의 데이터 수집(data ingestion), 처리 및 뷰잉(viewing)을 포함하는 완전히 자동화된 프로세스를 허용하면서, 실험실 정보 시스템(LIS)과 통합하는 통합된 플랫폼을 제공할 수 있다. 또한, 임상 정보는 환자 데이터의 클라우드-기반 데이터 분석을 이용하여 집계될 수 있다. 데이터는 병원들, 진료소들, 현장 연구원들 등으로부터 나올 수 있고, 기계 학습, 컴퓨터 비전, 자연어 처리, 및/또는 통계 알고리즘들에 의해 분석되어, 다수의 지리적 특정성 레벨들에서 건강 패턴들의 실시간 모니터링 및 예측을 행할 수 있다.

조직병리학은 슬라이드 상에 배치된 표본의 연구를 지칭한다. 예를 들어, 디지털 병리학 이미지는 표본(예를 들어, 도말표본)을 함유하는 현미경 슬라이드의 디지털화된 이미지로 구성될 수 있다. 슬라이드 상의 이미지를 분석하기 위해 병리학자가 이용할 수 있는 하나의 방법은 핵을 식별하고 핵이 정상인지(예를 들어, 양성(benign)) 또는 비정상인지(예를 들어, 악성(malignant))를 분류하는 것이다. 핵을 식별하고 분류하는데 있어서 병리학자들을 보조하기 위해, 조직학적 염색을 이용하여 세포를 가시화할 수 있다. 주기적 산-시프 반응(periodic acid-Schiff reaction), 마손 삼색(Masson's trichrome), 니슬 및 메틸렌 블루(nissl and methylene blue), 및 헤모톡실린 및 에오신(Haemotoxylin and Eosin)(H&E)을 포함한 많은 염료-기반 염색 시스템을 개발하였다. 의학적 진단을 위해, H&E는 헤마톡실린 염색 세포 핵 블루(hematoxylin staining cell nuclei blue), 에오신 염색 세포질 및 세포외 매트릭스 핑크(eosin staining cytoplasm and extracellular matrix pink), 및 이들 색상의 변형을 취하는 다른 조직 영역들을 갖는 널리 이용되는 염료 기반 방법이다. 그러나, 많은 경우에, H&E-염색된 조직학적 제제는 병리학자가 진단 또는 가이드 치료를 보조할 수 있는 바이오마커를 시각적으로 식별하기에 충분한 정보를 제공하지 않는다. 이 상황에서, 면역조직화학(immunohistochemistry)(IHC), 면역형광(immunofluorescence), 계내 혼성화(in situ hybridization)(ISH), 또는 형광 계내 혼성화(fluorescence in situ hybridization)(FISH)와 같은 기술은 이용될 수 있다. IHC 및 면역형광은, 예를 들어, H&E 염색된 슬라이드의 분석에 기초하여 훈련된 병리학자에게 신뢰가능하게 식별가능하지 않은 바이오마커들을 드러낼 수 있는, 관심 특정 단백질을 발현하는 세포의 시각적 검출을 가능하게 하는 조직 내의 특정 항원에 결합하는 항체를 이용하는 것을 수반한다. ISH 및 FISH는 이용된 프로브의 타입(예를 들어, 유전자 카피 수를 위한 DNA 프로브 및 RNA 발현의 평가를 위한 RNA 프로브)에 따라, 유전자의 카피의 수 또는 특정 RNA 분자의 존재비를 평가하기 위해 이용될 수 있다. 이들 방법이 또한 일부 바이오마커를 검출하기에 충분한 정보를 제공하는데 실패하면, 조직의 유전자 테스트를 이용하여 바이오마커가 존재하는지를 확인할 수 있다(예를 들어, 종양에서의 특정 단백질 또는 유전자 생성물의 과다발현, 암에서의 주어진 유전자의 증폭).

디지털화된 이미지는 염색된 현미경 슬라이드를 보여주도록 준비될 수 있고, 이는 병리학자가 슬라이드 상의 이미지를 수동으로 보고 이미지 내의 다수의 염색된 비정상 세포를 추정할 수 있게 할 수 있다. 그러나, 이 프로세스는 시간 소모적일 수 있고, 일부 비정상이 검출하기 어렵기 때문에 비정상을 식별하는 데 오류를 일으킬 수 있다. 계산 프로세스들 및 디바이스들은 달리 검출하기 어려울 수 있는 비정상을 검출하는 데 병리학자를 보조하기 위해 이용될 수 있다. 예를 들어, AI는 H&E 및 다른 염료-기반 방법들을 이용하여 염색된 조직의 디지털 이미지 내의 두드러진 영역들(salient regions)로부터 바이오마커들(예컨대, 단백질 및/또는 유전자 생성물의 과다발현, 증폭, 또는 특정 유전자의 돌연변이)을 예측하기 위해 이용될 수 있다. 조직의 이미지는 전체 슬라이드 이미지(WSI), 마이크로어레이 내의 조직 코어 또는 조직 절편 내의 선택된 관심 영역의 이미지일 수 있다. H&E와 같은 염색 방법을 이용하여, 이들 바이오마커는 인간이 추가적인 테스트의 도움 없이 시각적으로 검출 또는 정량화하기 어려울 수 있다. AI를 이용하여, 조직의 디지털 이미지로부터 이들 바이오마커를 추론하는 것은 환자 관리를 개선하는 잠재력을 갖고, 또한 더 빠르고 덜 비싸다.

검출된 바이오마커 또는 이미지는 그 후 단독으로 환자를 치료하는 데 이용될 특정 암 약물 또는 약물 조합 요법을 추천하는 데 이용될 수 있고, AI는 검출된 바이오마커를 치료 옵션의 데이터베이스와 상관시킴으로써 어느 약물 또는 약물 조합이 성공할 것 같지 않은지를 식별할 수 있다. 이는 환자의 특정 암을 타겟화하기 위한 면역요법 약물의 자동 추천을 용이하게 하는 데 이용될 수 있다. 또한, 이는 환자의 특정 서브세트 및/또는 보다 드문 암 타입에 대한 개인화된 암 치료를 가능하게 하는 데 이용될 수 있다.

전술한 디지털 병리 이미지들은 표본 또는 디지털 병리 이미지의 특성들에 관한 태그들 및/또는 라벨들과 함께 저장될 수 있으며, 그러한 태그들/라벨들은 불완전할 수 있다. 따라서, 본 명세서에 개시된 시스템들 및 방법들은 디지털 이미지들의 집합(collection)으로부터 적어도 하나의 라벨을 예측한다.

조직병리학에 대한 기계 학습 및 심층 학습 모델들의 성능은 이러한 모델들을 훈련하는 데 이용되는 주석이 달린 예들의 볼륨 및 품질에 의해 제한될 수 있다. 감독 이미지 분류 문제들에 대한 대규모 실험들은 모델 성능이 5천만 개 정도의 훈련 예들까지 계속 개선된다는 것을 보여주었다. 그러나, 병리학에서의 가장 임상적으로 관련된 작업들은 분류보다 훨씬 더 많은 것을 수반한다. 병리학자가 진단을 할 때, 진단은 많은 이종 상호관련 필드들을 포함하고 전체 슬라이드 또는 슬라이드들의 세트에 관련되는 보고의 형태를 취할 수 있다. 종양학에서, 이러한 필드들은 암의 존재, 암 등급들, 종양 정량화, 암 등급 그룹, 암의 병기(staging of the cancer)에 중요한 다양한 특징들의 존재 등을 포함할 수 있다. 전임상 약물 연구 동물 연구들에서, 이러한 필드들은 독성의 존재, 독성의 심각성, 및 독성의 종류를 포함할 수 있다. 가장 감독된 심층 학습 모델들을 훈련하기 위해 필요한 주석들을 조사하는 것은, 병리학자가 적절한 주석을 갖는 슬라이드 이미지로부터 개별 픽셀들, 타일들(예를 들어, 슬라이드 이미지 내의 하나 이상의 비교적 작은 직사각형 영역들), 또는 관심 영역들(예를 들어, 다각형들)을 라벨링하는 것을 수반할 수 있다. 보고 내의 각각의 필드에 대해, 훈련 주석들의 상이한 세트가 이용될 수 있다. 또한, 전형적인 디지털 병리학 슬라이드는 10 기가픽셀 정도, 또는 100,000개 초과의 타일들을 포함할 수 있다. 이러한 데이터의 볼륨에 수동으로 주석을 다는 것은 시간 및 비용 둘 다에서 엄청나게 고가일 수 있고, 시스템들이 임상적으로 관련된 레벨에서 수행되고 기관들에 걸쳐 일반화되는 것을 보장함에 있어서 심각한 제한일 수 있다. 따라서, 조직병리학에 이용될 수 있는 훈련 데이터를 생성하기 위한 요구가 존재한다.

본 개시내용의 실시예들은 상기의 제한들을 극복할 수 있다. 특히, 본 명세서에 개시된 실시예들은 약한 감독(weak supervision)을 이용할 수 있는데, 여기서, 심층 학습 모델은 디지털 이미지에서의 각각의 픽셀 또는 타일의 추가적인 라벨링보다는, 병리학자의 진단으로부터 직접 훈련될 수 있다. 일부 실시예들에서, 기계 학습 또는 심층 학습 모델은 기계 학습 알고리즘을 포함할 수 있다. 하나의 기법은 이진 암 검출을 결정할 수 있지만, 본 명세서에 논의된 기법들은, 예를 들어, 심층 학습 시스템이 등급화, 서브타이핑, 다수의 질병 속성들의 동시적인 추론, 및 그 이상을 수행하기 위해 약하게 감독된 다중-라벨 및 다중-작업 설정에서 어떻게 훈련될 수 있는지를 추가로 개시한다. 이것은 시스템들이 광범위한 주석들에 대한 필요 없이 진단 보고들 또는 테스트 결과들로부터 직접 훈련되는 것을 가능하게 하고, 요구되는 훈련 라벨들의 수를 5 자릿수 이상만큼 감소시킨다.

개시된 시스템들 및 방법들은 저장된 태그들 또는 라벨들에 의존하지 않고, 표본 또는 이미지 속성들을 자동으로 예측할 수 있다. 또한, LIS 또는 유사한 정보 데이터베이스에 반드시 액세스할 필요 없이, 디지털 병리 이미지의 표본 타입, 또는 디지털 병리 이미지에 관련된 임의의 정보를 신속하고 정확하게 식별 및/또는 검증하기 위한 시스템들 및 방법들이 개시된다. 본 개시내용의 일 실시예는, 이전의 디지털 병리 이미지들의 데이터세트들에 기초하여, 디지털 병리 이미지의 다양한 속성들을 식별하도록 훈련된 시스템을 포함할 수 있다. 훈련된 시스템은 디지털 병리 이미지에 나타난 표본에 대한 분류를 제공할 수 있다. 분류는 표본과 연관된 환자에 대한 치료 또는 진단 예측(들)을 제공하는 것을 도울 수 있다.

본 개시내용은 슬라이드 분석 툴의 하나 이상의 실시예를 포함한다. 툴에 대한 입력은 디지털 병리 이미지 및 임의의 관련 추가 입력들을 포함할 수 있다. 툴의 출력들은 표본에 관한 글로벌 및/또는 로컬 정보를 포함할 수 있다. 표본은 생검 또는 외과적 절제 표본을 포함할 수 있다.

도 1a는 본 개시내용의 예시적인 실시예에 따른, 기계 학습을 이용하여, 디지털 병리 이미지(들)에 관한 표본 속성 또는 이미지 속성 정보를 결정하기 위한 시스템 및 네트워크의 예시적인 블록도를 도시한다.

구체적으로, 도 1a는 병원들, 실험실들, 및/또는 의사들의 사무실들 등에 있는 서버들에 접속될 수 있는 전자 네트워크(120)를 도시한다. 예를 들어, 의사 서버들(121), 병원 서버들(122), 임상 시험 서버들(123), 연구실 서버들(124), 및/또는 실험실 정보 시스템들(125) 등은 각각 하나 이상의 컴퓨터, 서버, 및/또는 핸드헬드 모바일 디바이스를 통해 인터넷과 같은 전자 네트워크(120)에 접속될 수 있다. 본 출원의 예시적인 실시예에 따르면, 전자 네트워크(120)는 또한, 본 개시내용의 예시적인 실시예에 따른, 디지털 병리 이미지(들)에 관한 표본 속성 또는 이미지 속성 정보를 결정하고, 표본을 분류하기 위해 기계 학습을 이용하기 위한 슬라이드 분석 툴(101)을 포함하는, 질병 검출 플랫폼(100)을 구현하도록 구성되는 처리 디바이스들을 포함할 수 있는 서버 시스템들(110)에 접속될 수 있다.

의사 서버들(121), 병원 서버들(122), 임상 시험 서버들(123), 연구실 서버들(124), 및/또는 실험실 정보 시스템들(125)은 하나 이상의 환자의 세포학 표본(들), 조직병리학 표본(들), 세포학 표본(들)의 슬라이드(들), 조직병리학 표본(들)의 슬라이드(들)의 디지털화된 이미지들, 또는 이들의 임의의 조합의 이미지들을 생성하거나, 그렇지 않은 경우 획득할 수 있다. 의사 서버들(121), 병원 서버들(122), 임상 시험 서버들(123), 연구실 서버들(124), 및/또는 실험실 정보 시스템들(125)은 또한 연령, 병력, 암 치료 이력, 가족 이력, 과거 생검 또는 세포학 정보 등과 같은 환자 특정 정보의 임의의 조합을 획득할 수 있다. 의사 서버들(121), 병원 서버들(122), 임상 시험 서버들(123), 연구실 서버들(124), 및/또는 실험실 정보 시스템들(125)은 전자 네트워크(120)를 통해 디지털화된 슬라이드 이미지들 및/또는 환자 특정 정보를 서버 시스템들(110)에 송신할 수 있다. 서버 시스템들(110)은 의사 서버들(121), 병원 서버들(122), 임상 시험 서버들(123), 연구실 서버들(124), 및/또는 실험실 정보 시스템들(125) 중 적어도 하나로부터 수신된 이미지들 및 데이터를 저장하기 위한 하나 이상의 저장 디바이스(109)를 포함할 수 있다. 서버 시스템들(110)은 또한 하나 이상의 저장 디바이스(109)에 저장된 이미지들 및 데이터를 처리하기 위한 처리 디바이스들을 포함할 수 있다. 서버 시스템들(110)은 하나 이상의 기계 학습 툴(들) 또는 능력들을 더 포함할 수 있다. 예를 들어, 처리 디바이스들은, 일 실시예에 따라, 질병 검출 플랫폼(100)을 위한 기계 학습 툴을 포함할 수 있다. 대안적으로 또는 추가로, 본 개시내용(또는 본 개시내용의 시스템 및 방법들의 부분들)은 로컬 처리 디바이스(예를 들어, 랩톱) 상에서 수행될 수 있다.

의사 서버들(121), 병원 서버들(122), 임상 시험 서버들(123), 연구실 서버들(124), 및/또는 실험실 정보 시스템들(125)은 슬라이드들의 이미지들을 검토하기 위해 병리학자들에 의해 이용되는 시스템들을 지칭한다. 병원 설정들에서, 조직 타입 정보는 실험실 정보 시스템들(125)에 저장될 수 있다. 그러나, 정확한 조직 분류 정보는 항상 이미지 콘텐츠와 쌍을 이루는 것은 아니다. 추가적으로, LIS가 디지털 병리학 이미지에 대한 표본 타입에 액세스하는데 이용되더라도, 이 라벨은 LIS의 많은 컴포넌트들이 수동으로 입력될 수 있다는 사실로 인해 부정확할 수 있어, 에러를 위한 큰 마진을 남긴다. 본 개시내용의 예시적인 실시예에 따르면, 실험실 정보 시스템들(125)에 액세스할 필요 없이 표본 타입이 식별될 수 있거나, 가능하게는 실험실 정보 시스템들(125)을 정정하도록 식별될 수 있다. 예를 들어, 제3자는 LIS에 저장된 대응하는 표본 타입 라벨 없이 이미지 콘텐츠에 대한 익명화된 액세스를 부여받을 수 있다. 또한, LIS 콘텐츠에 대한 액세스는 그것의 민감한 콘텐츠로 인해 제한될 수 있다.

도 1b는 기계 학습을 이용하여, 디지털 병리학 이미지(들)에 관한 표본 속성 또는 이미지 속성 정보를 결정하기 위한 질병 검출 플랫폼(100)의 예시적인 블록도를 도시한다. 예를 들어, 질병 검출 플랫폼(100)은 슬라이드 분석 툴(101), 데이터 수집 툴(102), 슬라이드 유입 툴(103), 슬라이드 스캐너(104), 슬라이드 관리자(105), 저장소(106), 및 뷰잉 애플리케이션 툴(108)을 포함할 수 있다.

슬라이드 분석 툴 (101)은, 이하에서 설명되는 바와 같이, 예시적인 실시예에 따라, 조직 표본과 연관된 디지털 이미지들을 처리하고 기계 학습을 이용하여 슬라이드를 분석하기 위한 프로세스 및 시스템을 지칭한다.

데이터 수집 툴(102)은, 예시적인 실시예에 따라, 디지털 병리학 이미지들을 분류하고 처리하기 위해 이용되는 다양한 툴들, 모듈들, 컴포넌트들, 및 디바이스들에 대한 디지털 병리학 이미지들의 전송을 용이하게 하기 위한 프로세스 및 시스템을 지칭한다.

슬라이드 유입 툴(103)은, 예시적인 실시예에 따라, 병리학 이미지들을 스캐닝하고 이들을 디지털 형태로 변환하기 위한 프로세스 및 시스템을 지칭한다. 슬라이드들은 슬라이드 스캐너(104)로 스캐닝될 수 있고, 슬라이드 관리자(105)는 슬라이드들 상의 이미지들을 디지털화된 병리학 이미지들로 처리하고, 디지털화된 이미지들을 저장소(106)에 저장할 수 있다.

뷰잉 애플리케이션 툴(108)은 예시적인 실시예에 따라, 디지털 병리 이미지(들)에 관한 표본 속성 또는 이미지 속성 정보를 사용자(예를 들어, 병리학자)에게 제공하기 위한 프로세스 및 시스템을 지칭한다. 정보는 다양한 출력 인터페이스들(예를 들어, 스크린, 모니터, 저장 디바이스, 및/또는 웹 브라우저 등)을 통해 제공될 수 있다.

슬라이드 분석 툴(101), 및 그것의 컴포넌트들 각각은 전자 네트워크(120)를 통해 서버 시스템들(110), 의사 서버들(121), 병원 서버들(122), 임상 시험 서버들(123), 연구실 서버들(124), 및/또는 실험실 정보 시스템들(125)에 디지털화된 슬라이드 이미지들 및/또는 환자 정보를 송신 및/또는 수신할 수 있다. 또한, 서버 시스템들(110)은 슬라이드 분석 툴(101), 데이터 수집 툴(102), 슬라이드 유입 툴(103), 슬라이드 스캐너(104), 슬라이드 관리자(105), 및 뷰잉 애플리케이션 툴(108) 중 적어도 하나로부터 수신된 이미지들 및 데이터를 저장하기 위한 하나 이상의 저장 디바이스(109)를 포함할 수 있다. 서버 시스템들(110)은 또한 저장 디바이스에 저장된 이미지들 및 데이터를 처리하기 위한 처리 디바이스들을 포함할 수 있다. 서버 시스템들(110)은, 예를 들어, 처리 디바이스들로 인해, 하나 이상의 기계 학습 툴(들) 또는 능력들을 더 포함할 수 있다. 대안적으로 또는 추가로, 본 개시내용(또는 본 개시내용의 시스템 및 방법들의 부분들)은 로컬 처리 디바이스(예를 들어, 랩톱) 상에서 수행될 수 있다.

상기의 디바이스들, 툴들, 및 모듈들 중 임의의 것은 하나 이상의 컴퓨터, 서버, 및/또는 핸드헬드 모바일 디바이스를 통해, 인터넷 또는 클라우드 서비스 제공자와 같은 전자 네트워크(120)에 접속될 수 있는 디바이스 상에 위치될 수 있다.

도 1c는 본 개시내용의 예시적인 실시예에 따른, 슬라이드 분석 툴(101)의 예시적인 블록도를 도시한다. 슬라이드 분석 툴(101)는 훈련 이미지 플랫폼(131) 및/또는 타겟 이미지 플랫폼(135)을 포함할 수 있다.

훈련 이미지 플랫폼(131)은, 일 실시예에 따라, 디지털 병리학 이미지들을 효과적으로 분석 및 분류하기 위해 기계 학습 시스템을 훈련하는데 이용되는 훈련 이미지들을 생성 또는 수신할 수 있다. 예를 들어, 훈련 이미지들은 서버 시스템들(110), 의사 서버들(121), 병원 서버들(122), 임상 시험 서버들(123), 연구실 서버들(124), 및/또는 실험실 정보 시스템들(125) 중 임의의 하나 또는 임의의 조합으로부터 수신될 수 있다. 훈련을 위해 이용되는 이미지들은 실제 소스들(예를 들어, 인간들, 동물들 등)로부터 올 수 있거나, 합성 소스들(예를 들어, 그래픽 렌더링 엔진들, 3D 모델들 등)로부터 올 수 있다. 디지털 병리학 이미지들의 예들은 (a) H&E, 헤모톡실린(Hemotoxylin) 단독, IHC, 분자 병리학 등과 같은 (그러나 이에 제한되지 않는) 다양한 염색제들로 염색된 디지털화된 슬라이드들; 및/또는 (b) 마이크로CT와 같은 3D 이미징 디바이스로부터의 디지털화된 조직 샘플들을 포함할 수 있다.

훈련 이미지 유입 모듈(132)은 인간 조직의 이미지들 및 그래픽적으로 렌더링되는 이미지들 중 어느 하나 또는 둘 다에 대응하는 하나 이상의 훈련 이미지를 포함하는 데이터세트를 생성 또는 수신할 수 있다. 예를 들어, 훈련 이미지들은 서버 시스템들(110), 의사 서버들(121), 병원 서버들(122), 임상 시험 서버들(123), 연구실 서버들(124), 및/또는 실험실 정보 시스템들(125) 중 임의의 하나 또는 임의의 조합으로부터 수신될 수 있다. 이 데이터세트는 디지털 저장 디바이스 상에 유지될 수 있다. 품질 점수 결정기 모듈(133)은 디지털 병리학 이미지의 유용성에 크게 영향을 미칠 수 있는 글로벌 또는 로컬 레벨에서 훈련 이미지들에 대한 품질 제어(QC) 문제들(예를 들어, 결함들)을 식별할 수 있다. 예를 들어, 품질 점수 결정기 모듈은 전체 이미지에 대한 정보, 예를 들어, 표본 타입, 표본의 절단의 전체 품질, 유리 병리 슬라이드 자체의 전체 품질, 또는 조직 형태 특성들을 이용하고, 이미지에 대한 전체 품질 점수를 결정할 수 있다. 치료 식별 모듈(134)은 조직들의 이미지들을 분석하고, 어느 디지털 병리 이미지들이 치료 효과들(예를 들어, 사후치료)을 갖는지 및 어느 이미지들이 치료 효과들(예를 들어, 사전치료)을 갖지 않는지를 결정할 수 있다. 조직에서의 이전 치료 효과들이 조직 자체의 형태에 영향을 미칠 수 있기 때문에 디지털 병리 이미지가 치료 효과들을 갖는지를 식별하는 것이 유용하다. 대부분의 LIS는 이러한 특성을 명시적으로 추적하지 않고, 따라서 표본 타입들을 이전 치료 효과들로 분류하는 것이 바람직할 수 있다.

일 실시예에 따르면, 타겟 이미지 플랫폼(135)은 타겟 이미지 유입 모듈(136), 표본 검출 모듈(137), 및 출력 인터페이스(138)를 포함할 수 있다. 타겟 이미지 플랫폼(135)은 타겟 이미지를 수신하고, 기계 학습 모델을 수신된 타겟 이미지에 적용하여 타겟 표본의 특성을 결정할 수 있다. 예를 들어, 타겟 이미지는 서버 시스템들(110), 의사 서버들(121), 병원 서버들(122), 임상 시험 서버들(123), 연구실 서버들(124), 및/또는 실험실 정보 시스템들(125) 중 임의의 하나 또는 임의의 조합으로부터 수신될 수 있다. 타겟 이미지 유입 모듈(136)은 타겟 표본에 대응하는 타겟 이미지를 수신할 수 있다. 표본 검출 모듈(137)은 기계 학습 모델을 타겟 이미지에 적용하여 타겟 표본의 특성을 결정할 수 있다. 예를 들어, 표본 검출 모듈(137)은 타겟 표본의 표본 타입을 검출할 수 있다. 표본 검출 모듈(137)은 또한 타겟 이미지에 대한 품질 점수를 결정하기 위해 타겟 이미지에 기계 학습 모델을 적용할 수 있다. 또한, 표본 검출 모듈(137)은 타겟 표본이 사전처리인지 또는 사후처리인지를 결정하기 위해 타겟 표본에 기계 학습 모델을 적용할 수 있다.

출력 인터페이스(138)는 타겟 이미지 및 타겟 표본에 관한 정보를 (예를 들어, 스크린, 모니터, 저장 디바이스, 웹 브라우저 등에) 출력하는데 이용될 수 있다.

도 2a는 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 훈련된 기계 학습 시스템에 의해 생성된 예측 모델을 이용하기 위한 예시적인 방법을 도시하는 흐름도이다. 예를 들어, 예시적인 방법(200)(단계 202-210)은 자동으로 또는 사용자로부터의 요청에 응답하여 슬라이드 분석 툴(101)에 의해 수행될 수 있다.

일 실시예에 따르면, 예측 모델을 이용하기 위한 예시적인 방법(200)은 다음과 같은 단계들 중 하나 이상을 포함할 수 있다. 단계 202에서, 방법은 조직 표본과 연관된 하나 이상의 디지털 이미지를 수신하는 단계를 포함할 수 있고, 여기서, 하나 이상의 디지털 이미지는 복수의 슬라이드 이미지를 포함한다. 디지털 저장 디바이스는 하드 드라이브, 네트워크 드라이브, 클라우드 스토리지, 랜덤 액세스 메모리(RAM), 또는 임의의 다른 적절한 저장 디바이스를 포함할 수 있다.

단계 204에서, 방법은 복수의 슬라이드 이미지 중 하나를 복수의 슬라이드 이미지에 대한 타일들의 집합으로 분할하는 단계를 포함할 수 있다.

단계 206에서, 방법은 복수의 슬라이드 이미지 중 하나의 배경으로부터 복수의 조직 영역을 검출하여 조직 마스크를 생성하는 단계 및 비조직인 것으로 검출되는 타일들의 집합 중 적어도 하나의 타일을 제거하는 단계를 포함할 수 있다. 비조직인 타일은 슬라이드 이미지의 배경을 포함할 수 있다. 이것은 색상, 색상 강도, 텍스처 특징들 또는 오츠의 방법(Otsu's method)에 기초한 임계화 기반 방법들(thresholding based methods)을 포함하는 다양한 방식들로 달성될 수 있고, 이어서 접속 성분 알고리즘; k-평균, 그래프 컷, 마스크 영역 컨볼루션 신경망(Mask R-CNN)과 같은 분할 알고리즘들; 또는 임의의 다른 적절한 방법들을 실행하는 것이 뒤따른다.

단계 208에서, 방법은 기계 학습 시스템을 이용하여, 환자 또는 의료 케이스에 대응하는 복수의 슬라이드 이미지에 대한 라벨에 대한 예측을 결정하는 단계를 포함할 수 있고, 기계 학습 시스템은 예측 모델을 생성하기 위해 복수의 훈련 예를 처리함으로써 생성된다. 훈련 예들은 하나 이상의 디지털 슬라이드 이미지 및 복수의 타겟 라벨의 세트를 포함할 수 있다.

단계 210에서, 방법은 기계 학습 시스템을 훈련하기 위해 이용되지 않은 적어도 하나의 슬라이드로부터 적어도 하나의 라벨을 예측하는 훈련 기계 학습 시스템의 예측 모델을 출력하는 단계 및 예측을 전자 저장 디바이스에 출력하는 단계를 포함할 수 있다.

도 2b는 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 훈련된 기계 학습 시스템에서 약하게 감독된 타일-레벨 학습 모듈을 훈련하기 위한 예시적인 방법을 도시하는 흐름도이다. 약하게 감독된 학습 모듈은 슬라이드-레벨 훈련 라벨들을 이용하여 타일-레벨 예측들을 행하기 위해 모델을 훈련할 수 있다. 예를 들어, 예시적인 방법(220)(단계 222-230)은 자동으로 또는 사용자로부터의 요청에 응답하여 슬라이드 분석 툴(101)에 의해 수행될 수 있다.

일 실시예에 따르면, 예측 모델을 이용하기 위한 예시적인 방법(220)은 다음의 단계들 중 하나 이상을 포함할 수 있다. 단계 222에서, 방법은 훈련 조직 표본과 연관된 디지털 이미지들의 집합을 디지털 저장 디바이스 내에 수신하는 단계를 포함할 수 있고, 디지털 이미지들의 집합은 복수의 훈련 슬라이드 이미지를 포함한다. 디지털 저장 디바이스는 하드 드라이브, 네트워크 드라이브, 클라우드 스토리지, 랜덤 액세스 메모리(RAM), 또는 임의의 다른 적절한 저장 디바이스를 포함할 수 있다.

단계 224에서, 방법은 복수의 훈련 슬라이드 이미지 각각에 대한 하나 이상의 라벨을 포함하는 복수의 시놉틱 주석(synoptic annotation)을 수신하는 단계를 포함할 수 있다. 라벨들은 이진수, 다중-레벨 이진수, 카테고리(categorical), 서수(ordinal) 또는 실수 값(real valued)일 수 있다.

단계 226에서, 방법은 복수의 훈련 슬라이드 이미지 중 하나를 복수의 훈련 슬라이드 이미지에 대한 훈련 타일들의 집합으로 분할하는 단계를 포함할 수 있다.

단계 228에서, 방법은 복수의 훈련 슬라이드 이미지의 배경으로부터 적어도 하나의 조직 영역을 검출하여 훈련 조직 마스크를 생성하는 단계 및 비조직인 것으로 검출되는 훈련 타일들의 집합의 적어도 하나의 훈련 타일을 제거하는 단계를 포함할 수 있다. 이것은 색상, 색상 강도, 텍스처 특징들, 오츠의 방법, 또는 임의의 다른 적절한 방법에 기초한 임계화 방법들을 포함하지만 이에 제한되지 않는 다양한 방식들로 달성될 수 있고, 이어서 접속 성분 알고리즘; 및 k-평균, 그래프 컷, Mask R-CNN, 또는 임의의 다른 적절한 방법과 같은 분할 알고리즘들을 실행하는 것이 뒤따른다.

단계 230에서, 방법은 적어도 하나의 시놉틱 라벨을 이용하여 적어도 하나의 다중-라벨 타일-레벨 예측을 추론하기 위해 약한 감독 하에서 예측 모델을 훈련하는 단계를 포함할 수 있다. 약한 감독 설정 하에서 모델을 훈련하기 위한 4개의 일반적인 접근법이 있을 수 있지만, 모델을 훈련하기 위한 임의의 적절한 접근법이 이용될 수 있다.

1. 다중 인스턴스 학습(Multiple Instance Learning)(MIL)은 슬라이드의 타겟 라벨을 포함하는 타일들을 식별하기 위해 학습함으로써 이진 또는 카테고리 라벨들에 대한 타일-레벨 예측 모델을 훈련하기 위해 이용될 수 있다. 이 식별은 두드러진 타일들(예를 들어, 각각의 훈련 반복에서 수신된 시놉틱 주석들 또는 라벨들에 기초한 최대 점수 타일들)을 찾고, 이들 타일들을 이용하여 각각의 두드러진 타일과 연관된 수신된 시놉틱 훈련 라벨(들)을 이용하여 분류기를 업데이트함으로써 달성될 수 있다. 예를 들어, 분류기는 중첩 타일들의 집합에 기초하여 암을 식별하도록 훈련될 수 있다. 두드러진 타일들이 결정됨에 따라, 시놉틱 라벨들은 타일-레벨 라벨들을 업데이트하기 위해 이용될 수 있다. 이 타일-레벨 라벨 및 분류기는 그 후 타일들의 그룹에 대한 라벨을 결정하거나 제공할 수 있다. MIL은 또한 암 등급화, 암 서브타이핑, 바이오마커 검출 등과 같은 다른 다운스트림 작업들에 대한 진단 특징들을 추출하기 위해 기계 학습 모델을 훈련하기 위해 이용될 수 있다.

2. 다중 인스턴스 다중 라벨 학습(Multiple Instance Multiple Label Learning)(MIMLL)은 각각의 슬라이드를, MIL에서와 같이 단일 이진 라벨만이 아니라 다중 라벨과 연관될 수 있는 타일들의 세트로서 취급하는 MIL의 일반화를 포함하는 타일-레벨 예측 모델일 수 있다. 이러한 슬라이드 라벨들은 병리학자의 진단 보고, 유전학적 테스팅, 면역학적 테스팅, 또는 다른 측정들/시험들로부터 올 수 있다. MIMLL 모델은 하나 이상의 슬라이드의 세트에 속하는 시놉틱 훈련 라벨들 각각에 대응하는 타일들을 선택하도록 훈련될 수 있다. 본 실시예는 다음의 단계들을 반복함으로써 신경망(예를 들어, 컨볼루션 신경망(Convolutional Neural Network)(CNN), 캡슐망 등)을 MIMLL 훈련하는 것을 수반할 수 있다:

a. 예측될 라벨들의 각각의 라벨에 대해, 점수화 함수(scoring function)를 이용하여 가장 관련성 있는 타일들의 세트를 선택한다. 점수화 함수는 다수의 타일들을 동시에 순위화(rank)하도록 공식화될 수 있다. 예를 들어, 다수의 이진 라벨들로, 슬라이드들의 세트 내의 모든 타일로부터 다수의 이진 라벨들 각각을 예측하려고 시도하는 각각의 타일에 대해 CNN이 실행될 수 있고, 라벨들 중 하나 이상에 대해 1에 가장 가까운 출력들을 갖는 타일들이 선택될 수 있다.

b. 선택된 타일들을 이용하여 CNN 모델의 가중치들을 그들의 연관된 라벨 할당들에 대해 업데이트한다. 각각의 라벨은 모델 내에 그 자신의 출력 계층을 가질 수 있다.

MIL 모델과 유사하게, MIMLL 모델은 또한 다른 다운스트림 작업들에 대한 진단 특징들을 추출하는데 이용될 수 있다.

3. 자가-감독된 학습(self-supervised learning)은 감독된 학습을 이용하여 초기 타일-기반 분류기를 생성하기 위해 소량의 타일-레벨 훈련 데이터를 이용할 수 있다. 이 초기 분류기는 다음을 교대함으로써 전체 훈련 프로세스를 부트스트랩하는데 이용될 수 있다:

a. 현재의 타일-기반 모델로부터의 예측들을 이용하여 훈련 세트에서 타일 라벨들을 재할당한다.

b. 최신 라벨 할당들에 대해 각각의 타일에 대한 모델을 업데이트한다.

4. 무감독된 클러스터링(unsupervised clustering)은 타겟 라벨들의 이용 없이 유사한 인스턴스들을 함께 그룹화하도록 학습할 수 있다. 슬라이드 타일들은 인스턴스들로서 취급될 수 있고, 그룹화들의 수는 미리 지정되거나 알고리즘에 의해 자동으로 학습될 수 있다. 그러한 클러스터링 알고리즘들은 다음의 방법들을 포함할 수 있지만, 이에 제한되지 않는다:

a. 예상 최대화(Expectation maximization)(EM)

b. 메이저화 최대화(Majorization maximization)(MM)

c. K-최근접 이웃(K-nearest neighbor)(KNN)

d. 계층적 클러스터링(Hierarchical clustering)

e. 응집 클러스터링(Agglomerative clustering)

결과적인 모델은 슬라이드-레벨 예측 모듈에 의해 이용될 진단 특징들을 추출하는데 이용될 수 있다.

도 2c는 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 훈련된 기계 학습 시스템에서 약하게 감독된 집계 모듈을 훈련하기 위한 예시적인 방법을 도시하는 흐름도이다. 예를 들어, 예시적인 방법(240)(단계 242-244)은 자동으로 또는 사용자로부터의 요청에 응답하여 슬라이드 분석 툴(101)에 의해 수행될 수 있다.

일 실시예에 따르면, 약하게 감독된 집계 모듈을 훈련하기 위한 예시적인 방법(240)은 다음의 단계들 중 하나 이상을 포함할 수 있다. 단계 242에서, 방법은 훈련 타일들의 집합에 대한 약하게 감독된 타일-레벨 학습 모듈로부터 적어도 하나의 특징의 복수의 예측 또는 복수의 벡터를 수신하는 단계를 포함할 수 있다.

단계 244에서, 방법은 타일들의 집합에 대해 약하게 감독된 타일-레벨 학습 모듈로부터 적어도 하나의 특징의 복수의 예측 또는 복수의 벡터를 입력으로서 취하도록 기계 학습 모델을 훈련하는 단계를 포함할 수 있다. 이 집계 모듈은 타일-레벨 입력들을 취하고 시스템 내로의 타일 입력 및/또는 시스템 내로의 슬라이드 이미지 입력에 대한 최종 예측을 생성하도록 다중-작업 슬라이드-레벨 집계 모델을 훈련할 수 있다. 모델의 일반적인 형태는 다수의 출력들(예를 들어, 다중-작업 학습)로 구성될 수 있고, 각각의 라벨은 이진수, 카테고리, 서수 또는 실수 값일 수 있다. 타일-레벨 입력들은 다음을 포함하지만 이에 제한되지 않는 임의의 타입의 이미지 특징들을 포함할 수 있다:

a. 약하게 감독된 모델로부터의 출력들(예를 들어, 특징 벡터들 또는 임베딩들)

b. CNN 특징들

c. 스케일 불변 특징 변환(SIFT)

d. SURF(Speeded-Up Robust Features)

e. 회전 불변 특징 변환(RIFT)

f. ORB(Oriented FAST and Rotated BRIEF)

집계 모듈의 다중-작업 슬라이드-레벨 집계 모델은 다음을 포함하지만 이에 한정되지 않는 많은 형태를 취할 수 있다:

a. 다수의 출력 작업 그룹으로 훈련된 완전 접속 신경망

b. CNN

c. 완전-컨볼루션 신경망들

d. GRU(gated recurrent unit) 및 LSTM(long-short term memory) 네트워크들을 포함하는 RNN(Recurrent neural network)

e. 그래프 신경망들

f. 트랜스포머 네트워크들

g. 랜덤 포레스트(random forest), 부스트된 포레스트(boosted forest), XGBoost 등.

도 3은 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 전립선암을 동시에 검출 및 등급화하기 위해 기계 학습 시스템을 훈련 및 이용하기 위한 예시적인 방법을 도시하는 흐름도이다. 암 등급화는 정상 조직으로부터 암 세포들의 분화(differentiation)를 측정할 수 있고, 세포 형태를 검사함으로써 국소 레벨에서 평가될 수 있을 뿐만 아니라 등급들의 상대적인 양들을 포함하는 슬라이드-레벨 요약들 둘 다에서도 평가될 수 있다. 등급화는 전립선암, 신장암 및 유방암과 같은 일반적인 암들에 대한 병리학자의 진단 보고의 일부로서 수행될 수 있다. 예시적인 방법들(300 및 320)은 전립선암을 동시에 검출 및 등급화하기 위해 기계 학습 시스템을 훈련 및 이용하기 위해 이용될 수 있다.

일 실시예에 따르면, 예시적인 방법들(300 및 320)은 다음의 단계들 중 하나 이상을 포함할 수 있다. 단계 301에서, 방법은 염색된 전립선 조직 표본의 하나 이상의 디지털 이미지를 디지털 저장 디바이스 내에 수신하는 단계를 포함할 수 있다. 디지털 저장 디바이스는 하드 드라이브, 네트워크 드라이브, 클라우드 스토리지, 랜덤 액세스 메모리(RAM) 등을 포함할 수 있다.

단계 303에서, 방법은 하나 이상의 디지털 이미지에 대한 적어도 하나의 라벨을 수신하는 단계를 포함할 수 있고, 적어도 하나의 라벨은 암의 존재 및 암 등급의 표시를 포함한다. 암 등급은 1차 및 2차 글리슨 등급(primary and a secondary Gleason grade)을 포함할 수 있다.

단계 305에서, 방법은 하나 이상의 디지털 이미지 각각을 타일들의 집합으로 분할하는 단계를 포함할 수 있다.

단계 307에서, 방법은 하나 이상의 디지털 이미지 각각의 배경으로부터 적어도 하나의 조직 영역을 검출하여 조직 마스크를 생성하는 단계 및 비조직인 적어도 하나의 타일을 제거하는 단계를 포함할 수 있다. 조직 영역들을 검출하는 단계 및 비조직 타일을 제거하는 단계는 색상, 색상 강도, 텍스처 특징들, 오츠의 방법 등에 기초한 임계화 방법들에 의해 달성될 수 있고, 이어서 접속 성분 알고리즘을 실행하는 것이 뒤따른다. 임계화는 임계화 방법에 기초하여 각각의 수신된 슬라이드 이미지의 하나 이상의 픽셀에 대한 조직 대 비조직 영역들 상에 라벨들을 제공할 수 있다. 접속 성분 알고리즘은 서로 접속된 이미지 영역들 또는 픽셀들을 검출하여, 전체 이미지 영역들, 슬라이드 이미지들, 또는 슬라이드들에 걸쳐 조직 대 비조직 영역들을 검출할 수 있다. 조직 영역들을 검출하는 단계 및 비조직 타일들을 제거하는 단계는 또한 k-평균, 그래프 컷, Mask R-CNN 등과 같은 분할 알고리즘들에 의해 달성될 수 있다.

단계 309에서, 방법은 하나 이상의 디지털 이미지에 대해 암이 존재하는지 및 암의 등급을 예측하기 위해 기계 학습 모델을 훈련하는 단계를 포함할 수 있다. 훈련은, 제한적인 것은 아니지만, 다음을 포함하는 다양한 방식들로 달성될 수 있다:

a. 예를 들어, 각각의 슬라이드를 다수의 라벨들과 연관된 타일들의 세트로서 취급하는 것, 시놉틱 훈련 라벨들에 대응하는 슬라이드들을 선택하는 것, 각각의 타일을 라벨에 대한 그의 관련성에 의해 점수화하는 것, 및 연관된 라벨 할당들에 대해 CNN 모델의 가중치들을 업데이트하는 것을 통해, 위에 개시된 바와 같이, MIMLL 모델을 이용하여 1차, 2차, 및/또는 3차 등급들을 예측하기 위해 CNN을 훈련. 훈련된 CNN은 슬라이드들의 세트 내의 각각의 타일로부터 임베딩들을 추출하고, 암, 암 글리슨 등급 그룹, 및/또는 각각의 타일 또는 슬라이드의 1차, 2차, 및 3차 등급의 존재를 예측하기 위해 다중-작업 집계기(예를 들어, 이전에 개시된 집계 모델)를 훈련하는 데 이용될 수 있다. 대안적으로, 각각의 타일로부터의 예측 출력은, 예를 들어, 각각의 등급에 대한 각각의 타일 투표를 갖고 다수 투표를 취하는, 수동 설계된 후처리 방법들과 함께 이용되고 집계될 수 있다.

b. MIL 모델을 이용하여, 각각의 타일을 암성 또는 양성으로서 분류하고, 1차/2차/3차 등급들이 동일한 등급인 "순수한(pure)" 케이스들에 대해 등급화 라벨들을 전송한다. 감독된 학습을 이용하여 전송된 라벨들로 타일-레벨 분류기를 훈련한다. 상기의 약하게 감독 학습 모듈에 개시된 바와 같이 자가-감독된 학습을 이용하여 모델을 정제(refine)한다.

c. 각각의 타일로부터 특징들/임베딩들을 추출하고, 이어서 암, 암 글리슨 등급 그룹, 및/또는 1차, 2차, 및 3차 등급의 존재를 예측하기 위해 다중-작업 집계기(예를 들어, 위에 개시된 집계 모델)를 이용한다. 임베딩들은 미리 훈련된 CNN, 랜덤 특징들, 무감독 클러스터링 모델로부터의 특징들, SIFT, ORB 등으로부터일 수 있다.

단계 321에서, 방법은 염색된 전립선 표본의 하나 이상의 디지털 이미지를 디지털 저장 디바이스 내에 수신하는 단계를 포함할 수 있다. 디지털 저장 디바이스는 하드 드라이브, 네트워크 드라이브, 클라우드 스토리지, RAM 등을 포함할 수 있다.

단계 323에서, 방법은 하나 이상의 디지털 이미지를 타일들의 집합으로 분할하는 단계를 포함할 수 있다.

단계 325에서, 방법은 디지털 이미지의 배경으로부터 적어도 하나의 조직 영역을 검출하여 조직 마스크를 생성하는 단계 및 비조직인 적어도 하나의 타일을 제거하는 단계를 포함할 수 있다. 검출하는 단계는 색상, 색상 강도, 텍스처 특징, 오츠의 방법, 또는 임의의 다른 적절한 방법에 기초한 임계화 방법들을 포함하지만 이에 제한되지 않는 다양한 방식들로 달성될 수 있고, 이어서 접속 성분 알고리즘; 및 k-평균, 그래프 컷, Mask R-CNN, 또는 임의의 다른 적절한 방법과 같은 분할 알고리즘들을 실행하는 것이 뒤따른다.

단계 327에서, 방법은 훈련된 기계 학습 모델을 타일들의 집합에 적용하여 암의 존재 및 암의 등급을 예측하는 단계를 포함할 수 있다. 암의 등급은 암 글리슨 등급 그룹, 및/또는 1차, 2차, 및 3차 등급 그룹을 포함할 수 있다.

단계 329에서, 방법은 예측을, 예를 들어, 전자 저장 디바이스에 출력하는 단계를 포함할 수 있다.

도 4는 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 전립선 바늘 생검들에서 종양 정량화를 위해 기계 학습 시스템을 훈련 및 이용하기 위한 예시적인 방법을 도시하는 흐름도이다. 전립선 바늘 생검들을 위한 종양 정량화는 각각의 암 등급(예를 들어, 글리슨 등급)에 대한 암의 총(total) 및 상대 볼륨들을 추정하는 것으로 구성될 수 있다. 종양 정량화는 전립선 암의 조성 및 심각성을 이해하는 데 중요한 역할을 할 수 있고, 이는 병리학 진단 보고들에 대한 공통 요소일 수 있다. 종양 크기를 정량화하는 것은 전통적으로 유리 슬라이드 상에서 물리적 룰러(physical ruler)를 이용하여 수동으로 수행될 수 있다. 이러한 방식에 의한 수동 정량화는 부정확성 및 일관성 둘 다를 겪을 수 있다. 예시적인 방법들(400 및 420)은 전립선 바늘 생검들에서 종양을 정량화하기 위해 기계 학습 시스템을 훈련 및 이용하는 데 이용될 수 있다.

일 실시예에 따르면, 예시적인 방법들(400 및 420)은 다음의 단계들 중 하나 이상을 포함할 수 있다. 단계 401에서, 방법은 염색된 전립선 조직 표본의 하나 이상의 디지털 이미지를 디지털 저장 디바이스 내에 수신하는 단계를 포함할 수 있다. 디지털 저장 디바이스는 하드 드라이브, 네트워크 드라이브, 클라우드 스토리지, 랜덤 액세스 메모리(RAM) 등을 포함할 수 있다.

단계 403에서, 방법은 하나 이상의 디지털 이미지 각각에 대한 적어도 하나의 실수 값 종양 정량화 라벨을 수신하는 단계를 포함할 수 있고, 여기서, 적어도 하나의 실수 값 종양 정량화 라벨은 1차 등급 및 2차 등급의 표시를 포함한다. 라벨은 또한 하나 이상의 디지털 이미지에서 종양의 각자의 볼륨, 각자의 길이 및 각자의 크기를 포함할 수 있다.

단계 405에서, 방법은 하나 이상의 디지털 이미지 각각을 타일들의 집합으로 분할하는 단계를 포함할 수 있다.

단계 407에서, 방법은 하나 이상의 디지털 이미지 각각의 배경으로부터 적어도 하나의 조직 영역을 검출하여 조직 마스크를 생성하는 단계 및 비조직인 적어도 하나의 타일을 제거하는 단계를 포함할 수 있다. 이것은 색상, 색상 강도, 텍스처 특징, 오츠의 방법, 또는 임의의 다른 적절한 방법에 기초한 임계화 방법들을 포함하지만 이에 제한되지 않는 다양한 방식들로 달성될 수 있고, 이어서 접속 성분 알고리즘; 및 k-평균, 그래프 컷, Mask R-CNN, 또는 임의의 다른 적절한 방법과 같은 분할 알고리즘들을 실행하는 것이 뒤따른다.

단계 409에서, 방법은 예시적인 방법(300)에서 설명된 바와 같이, 암 등급화 예측을 출력하기 위해 기계 학습 모델을 훈련하는 단계를 포함할 수 있다. 종양 정량화 추정들은 다음을 포함하지만 이에 제한되지 않는 많은 방식으로 추정될 수 있다:

a. 등급의 타일들의 수를 계수하고, 양성 조직의 볼륨에 대한 그들의 볼륨 및 비율을 기하학적으로 추정한다.

b. 예를 들어, 예시적인 방법(300)에서 설명된 바와 같이, 슬라이드-레벨 등급화 모듈을 이용하여 모델을 훈련한다. 이 모델은, 입력으로서, 기계 학습 암 등급화 예측 모델(예를 들어, 예시적인 방법(300)에서 훈련된 모델)로부터 타일-레벨 진단 특징들을 취하고, 실수 값 회귀 모델을 이용하여 각각의 종양 정량화 메트릭을 출력할 수 있다.

단계 421에서, 방법은 염색된 전립선 표본의 하나 이상의 디지털 이미지를 디지털 저장 디바이스 내에 수신하는 단계를 포함할 수 있다. 디지털 저장 디바이스는 하드 드라이브, 네트워크 드라이브, 클라우드 스토리지, 랜덤 액세스 메모리(RAM) 등을 포함할 수 있다.

단계 423에서, 방법은 하나 이상의 디지털 이미지를 타일들의 집합으로 분할하는 단계를 포함할 수 있다.

단계 425에서, 방법은 디지털 이미지의 배경으로부터 적어도 하나의 조직 영역을 검출하여 조직 마스크를 생성하는 단계 및 비조직인 적어도 하나의 타일을 제거하는 단계를 포함할 수 있다. 이것은 색상, 색상 강도, 텍스처 특징, 오츠의 방법, 또는 임의의 다른 적절한 방법에 기초한 임계화 방법을 포함하지만 이에 제한되지 않는 다양한 방식들로 달성될 수 있고, 이어서 접속 성분 알고리즘; 및 k-평균, 그래프 컷, Mask R-CNN, 또는 임의의 다른 적절한 방법과 같은 분할 알고리즘들을 실행하는 것이 뒤따른다.

단계 427에서, 방법은 훈련된 기계 학습 모델을 타일들의 집합에 적용하여 종양 정량화 예측을 계산하는 단계를 포함할 수 있다. 예측은 전자 저장 디바이스에 출력될 수 있다. 종양 정량화는 크기 메트릭들 또는 백분율들의 형태일 수 있다.

단계 429에서, 방법은 예측을 전자 저장 디바이스에 출력하는 단계를 포함할 수 있다.

도 5는 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 암 서브타입을 예측하기 위한 기계 학습 시스템을 훈련 및 이용하기 위한 예시적인 방법을 도시하는 흐름도이다. 많은 암들은 다수의 서브타입들을 갖는다. 예를 들어, 유방암에서, 암이 침습적인지의 여부, 소엽(lobular) 또는 관(ductal)인지의 여부, 및 석회화(calcification) 등의 다양한 다른 속성이 존재하는지의 여부가 결정될 수 있다. 암 서브타입을 예측하는 이 방법은, 다중-라벨 학습의 이용을 포함할 수 있는 다수의 비-배타적 카테고리들의 예측을 포함할 수 있다.

일 실시예에 따르면, 예시적인 방법들(500 및 520)은 이하의 단계들 중 하나 이상을 포함할 수 있다. 단계 501에서, 방법은 조직 표본과 연관된 하나 이상의 디지털 이미지를 디지털 저장 디바이스 내에 수신하는 단계를 포함할 수 있다. 디지털 저장 디바이스는 하드 드라이브, 네트워크 드라이브, 클라우드 스토리지, 랜덤 액세스 메모리(RAM) 등을 포함할 수 있다.

단계 503에서, 방법은 하나 이상의 디지털 이미지에 대한 복수의 라벨을 수신하는 단계를 포함할 수 있고, 여기서, 복수의 라벨 및/또는 조직 표본의 바이오마커. 유방암 표본에서, 관련 바이오마커는 석회화의 존재, 암의 존재 또는 부재, 관상피내암종(ductal carcinoma in situ)(DCIS), 침습성 관상암종(invasive ductal carcinoma)(IDC), 염증성 유방암(inflammatory breast cancer) (IBC), 유방의 파제트병(Paget disease of the breast), 혈관육종(angiosarcoma), 엽상 종양(phyllodes tumor), 침습성 소엽성 암종(invasive lobular carcinoma), 소엽성 상피내암종(lobular carcinoma in situ), 및 다양한 형태의 비정형(atypia)일 수 있다. 라벨들은 반드시 상호 배타적이지 않을 수 있고, 다수의 서브타입이 동시에 관찰될 수 있다.

단계 505에서, 방법은 하나 이상의 디지털 이미지 각각을 타일들의 집합으로 분할하는 단계를 포함할 수 있다.

단계 507에서, 방법은 하나 이상의 디지털 이미지 각각의 배경으로부터 적어도 하나의 조직 영역을 검출하여 조직 마스크를 생성하는 단계 및 비조직인 적어도 하나의 타일을 제거하는 단계를 포함할 수 있다. 이것은 색상, 색상 강도, 텍스처 특징들, 오츠의 방법, 또는 임의의 다른 적절한 방법에 기초한 임계화 방법들을 포함하지만 이에 제한되지 않는 다양한 방식들로 달성될 수 있고, 이어서 접속 성분 알고리즘; 및 k-평균, 그래프 컷, Mask R-CNN, 또는 임의의 다른 적절한 방법과 같은 분할 알고리즘을 실행하는 것이 뒤따른다.

단계 509에서, 방법은 각각의 타일 및/또는 슬라이드에 대한 암의 형태 및/또는 서브타입을 예측하기 위해 기계 학습 모델을 훈련하는 단계를 포함할 수 있다. 기계 학습 모델을 훈련하는 단계는 위에 개시된 MIMLL 모델을 이용하여 달성될 수 있다. 훈련된 서브타입 예측 기계 학습 모델은 위에 개시된 바와 같이 슬라이드-레벨 예측 모델(예를 들어, 집계 모델)을 이용하여 정제될 수 있다. 슬라이드-레벨 예측 모델은 MIMLL 모델로부터 타일-레벨 서브타입 예측들을 입력으로서 취하고, 각각의 암 서브타입의 존재를 나타내는 슬라이드-레벨 예측들을 출력할 수 있다.

단계 521에서, 방법은 조직 표본과 연관된 하나 이상의 디지털 이미지를 디지털 저장 디바이스 내에 수신하는 단계를 포함할 수 있다. 디지털 저장 디바이스는 하드 드라이브, 네트워크 드라이브, 클라우드 스토리지, 랜덤 액세스 메모리(RAM) 등을 포함할 수 있다.

단계 523에서, 방법은 하나 이상의 디지털 이미지 각각의 배경으로부터 적어도 하나의 조직 영역을 검출하여 조직 마스크를 생성하는 단계 및 비조직인 적어도 하나의 타일을 제거하는 단계를 포함할 수 있다. 이것은 색상, 색상 강도, 텍스처 특징들, 오츠의 방법, 또는 임의의 다른 적절한 방법에 기초한 임계화 방법들을 포함하지만 이에 제한되지 않는 다양한 방식들로 달성될 수 있고, 이어서 접속 성분 알고리즘; 및 k-평균, 그래프 컷, Mask R-CNN, 또는 임의의 다른 적절한 방법과 같은 분할 알고리즘들을 실행하는 것이 뒤따른다.

단계 525에서, 방법은 하나 이상의 디지털 이미지를 타일들의 집합으로 분할하는 단계 및 조직을 포함하지 않는 임의의 타일을 폐기하는 단계를 포함할 수 있다.

단계 527에서, 방법은 타일들의 집합으로부터 암 서브타입 예측을 계산하는 단계 및 예측을 전자 저장 디바이스에 출력하는 단계를 포함할 수 있다.

도 6은 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 수술 마진을 예측하기 위해 기계 학습 시스템을 훈련 및 이용하기 위한 예시적인 방법을 도시하는 흐름도이다. 종양이 환자로부터 수술적으로 제거될 때, 종양이 종양 주위의 조직의 마진을 분석함으로써 완전히 제거되었는지를 평가하는 것이 중요할 수 있다. 이 마진의 폭 및 마진 내의 임의의 암성 조직의 식별은 환자가 어떻게 치료될 수 있는지를 결정하기 위해 중요한 역할을 할 수 있다. 마진 폭 및 조성을 예측하기 위해 모델을 훈련하는 것은 다중-라벨 다중-작업 학습의 형태를 취할 수 있다.

일 실시예에 따르면, 예시적인 방법들(600 및 620)은 이하의 단계들 중 하나 이상을 포함할 수 있다. 단계 601에서, 방법은 조직 표본과 연관된 하나 이상의 디지털 이미지를 디지털 저장 디바이스 내에 수신하는 단계를 포함할 수 있다. 디지털 저장 디바이스는 하드 드라이브, 네트워크 드라이브, 클라우드 스토리지, 랜덤 액세스 메모리(RAM) 등을 포함할 수 있다.

단계 603에서, 방법은 하나 이상의 디지털 이미지에 대한 복수의 라벨을 수신하는 단계를 포함할 수 있고, 여기서, 복수의 라벨은 종양 마진, 및 마진이 포지티브(positive)인지(예를 들어, 종양 세포들이 마진에서 발견되는지), 네가티브(negative)인지(예를 들어, 마진에 암이 완전히 없는지) 또는 클로즈(close)인지(예를 들어, 확실히 포지티브이거나 네가티브가 아닌지)를 나타낸다.

단계 605에서, 방법은 하나 이상의 디지털 이미지 각각을 타일들의 집합으로 분할하는 단계를 포함할 수 있다.

단계 607에서, 방법은 하나 이상의 디지털 이미지 각각의 배경으로부터 적어도 하나의 조직 영역을 검출하여 조직 마스크를 생성하는 단계 및 비조직인 적어도 하나의 타일을 제거하는 단계를 포함할 수 있다. 이것은 색상, 색상 강도, 텍스처 특징들, 오츠의 방법, 또는 임의의 다른 적절한 방법에 기초한 임계화 방법들을 포함하지만 이에 제한되지 않는 다양한 방식들로 달성될 수 있고, 이어서 접속 성분 알고리즘; 및 k-평균, 그래프 컷, Mask R-CNN, 또는 임의의 다른 적절한 방법과 같은 분할 알고리즘들을 실행하는 것이 뒤따른다.

단계 609에서, 방법은 위에 개시된 바와 같이, 암 검출, 존재, 또는 등급을 예측하기 위해 기계 학습 모델을 훈련하는 단계를 포함할 수 있다.

단계 621에서, 방법은 조직 표본과 연관된 하나 이상의 디지털 이미지를 디지털 저장 디바이스 내에 수신하는 단계를 포함할 수 있다. 디지털 저장 디바이스는 하드 드라이브, 네트워크 드라이브, 클라우드 스토리지, 랜덤 액세스 메모리(RAM) 등을 포함할 수 있다.

단계 623에서, 방법은 하나 이상의 디지털 이미지 각각의 배경으로부터 적어도 하나의 조직 영역을 검출하여 조직 마스크를 생성하는 단계 및 비조직인 적어도 하나의 타일을 제거하는 단계를 포함할 수 있다. 이것은 색상, 색상 강도, 텍스처 특징들, 오츠의 방법, 또는 임의의 다른 적절한 방법에 기초한 임계화 방법을 포함하지만 이에 제한되지 않는 다양한 방식들로 달성될 수 있고, 이어서 접속 성분 알고리즘; 및 k-평균, 그래프 컷, Mask R-CNN 또는 임의의 다른 적절한 방법과 같은 분할 알고리즘들을 실행하는 것이 뒤따른다.

단계 625에서, 방법은 하나 이상의 디지털 이미지 각각을 타일들의 집합으로 분할하는 단계를 포함할 수 있다.

단계 627에서, 방법은 타일들로부터 수술 마진, 종양 마진 크기, 또는 종양 조성 예측을 계산하는 단계를 포함할 수 있다. 방법은 또한 예측을 전자 저장 디바이스에 출력하는 단계를 포함할 수 있다.

도 7은 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 방광암 바이오마커를 예측하기 위해 기계 학습 시스템을 훈련 및 이용하기 위한 예시적인 방법을 도시하는 흐름도이다. 방광암은 세상에서 가장 흔한 암들 중 하나이다. 방광암이 검출되면, 병리학자는 또한, 방광암이 검출되는 슬라이드들 중 임의의 슬라이드 상에 근육 조직(muscularis propria)이 존재하는지를 결정할 수 있다. 근육 조직은 방광벽의 상당 부분을 형성하는 평활근 세포들(smooth muscle cells)의 층이다. 근육 조직의 존재 또는 부재를 검출하는 것은 방광암이 침습적인지의 여부를 결정하는 중요한 단계이다. 실시예는 암 검출 및 근육 조직 검출 양쪽 모두를 수행하지만, 임의의 수의 이진 분류 작업으로 확장될 수 있다.

일 실시예에 따르면, 예시적인 방법들(700 및 720)은 이하의 단계들 중 하나 이상을 포함할 수 있다. 단계 701에서, 조직 표본과 연관된 하나 이상의 디지털 이미지를 디지털 저장 디바이스 내에 수신한다. 디지털 저장 디바이스는 하드 드라이브, 네트워크 드라이브, 클라우드 스토리지, 랜덤 액세스 메모리(RAM) 등을 포함할 수 있다.

단계 703에서, 방법은 하나 이상의 디지털 이미지에 대한 복수의 라벨을 수신하는 단계를 포함할 수 있고, 여기서, 복수의 라벨은 암의 존재 또는 부재 또는 근육 조직의 존재/부재를 나타낸다.

단계 705에서, 방법은 하나 이상의 디지털 이미지 각각을 타일들의 집합으로 분할하는 단계를 포함할 수 있다.

단계 707에서, 방법은 하나 이상의 디지털 이미지 각각의 배경으로부터 적어도 하나의 조직 영역을 검출하여 조직 마스크를 생성하는 단계 및 비조직인 적어도 하나의 타일을 제거하는 단계를 포함할 수 있다. 이것은 색상, 색상 강도, 텍스처 특징들, 오츠의 방법, 또는 임의의 다른 적절한 방법에 기초한 임계화 방법들을 포함하지만 이에 제한되지 않는 다양한 방식들로 달성될 수 있고, 이어서 접속 성분 알고리즘; 및 k-평균, 그래프 컷, Mask R-CNN, 또는 임의의 다른 적절한 방법과 같은 분할 알고리즘을 실행하는 것이 뒤따른다.

단계 709에서, 방법은, 예를 들어, (전술된 바와 같은) 약하게 감독된 학습 모듈을 이용해서 기계 학습 모델을 훈련하여 MIMLL 모델을 훈련하는 단계 및 다수의 타일에 걸쳐 암의 존재/부재 또는 근육 조직의 존재/부재를 나타내는 출력 점수들을 집계하는 단계를 포함할 수 있다. 대안적으로, 집계 모델은 각각의 타일로부터의 임베딩들을 이용하여 각각의 이미지, 타일, 또는 슬라이드의 다수의 라벨을 예측하도록 훈련될 수 있다.

단계 721에서, 방법은 조직 표본과 연관된 하나 이상의 디지털 이미지를 디지털 저장 디바이스 내에 수신하는 단계를 포함할 수 있다. 디지털 저장 디바이스는 하드 드라이브, 네트워크 드라이브, 클라우드 스토리지, 랜덤 액세스 메모리(RAM) 등을 포함할 수 있다.

단계 723에서, 방법은 하나 이상의 디지털 이미지 각각의 배경으로부터 적어도 하나의 조직 영역을 검출하여 조직 마스크를 생성하는 단계 및 비조직인 적어도 하나의 타일을 제거하는 단계를 포함할 수 있다. 이것은 색상, 색상 강도, 텍스처 특징들, 오츠의 방법, 또는 임의의 다른 적절한 방법에 기초한 임계화 방법들을 포함하지만 이에 제한되지 않는 다양한 방식들로 달성될 수 있고, 이어서 접속 성분 알고리즘; 및 k-평균, 그래프 컷, Mask R-CNN, 또는 임의의 다른 적절한 방법과 같은 분할 알고리즘을 실행하는 것이 뒤따른다.

단계 725에서, 방법은 하나 이상의 디지털 이미지 각각을 타일들의 집합으로 분할하는 단계를 포함할 수 있다.

단계 727에서, 방법은 타일들의 집합으로부터 근육 조직 예측 또는 침습적 암 예측을 계산하는 단계를 포함할 수 있다. 방법은 또한 예측을 전자 저장 디바이스에 출력하는 단계를 포함할 수 있다.

도 8은 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 범-암 진단을 예측하기 위해 기계 학습 시스템을 훈련 및 이용하기 위한 예시적인 방법을 도시하는 흐름도이다. 기계 학습은 일반적인 암 타입들에서 암을 예측하기 위한 양호한 모델들을 생성하기 위해 성공적으로 이용되었지만, 더 적은 훈련 데이터가 존재할 수 있기 때문에 희귀 암들에 대한 예측들은 도전과제이다. 다른 도전과제는 암이 전이 상태(metastatic)일 때 어디에서 기원했는지를 예측하는 것이고, 때로는 결정이 가능하지 않다. 기원의 조직을 아는 것은 암의 치료를 안내하는 것을 도울 수 있다. 실시예는 단일 기계 학습 모델을 이용하여 범-암 예측 및 기원의 암 예측을 허용한다. 많은 조직 타입들에 대한 훈련에 의해, 방법은 조직 형태의 이해를 달성할 수 있어서, 매우 적은 데이터가 이용가능할 수 있는 희귀 암 타입들을 효과적으로 일반화할 수 있다.

일 실시예에 따르면, 예시적인 방법들(800 및 820)은 이하의 단계들 중 하나 이상을 포함할 수 있다. 단계 801에서, 조직 표본과 연관된 하나 이상의 디지털 이미지를 디지털 저장 디바이스 내에 수신한다. 디지털 저장 디바이스는 하드 드라이브, 네트워크 드라이브, 클라우드 스토리지, 랜덤 액세스 메모리(RAM) 등을 포함할 수 있다.

단계 803에서, 방법은 환자에 대해 수신된 디지털 이미지들 각각에 도시된 조직의 타입을 나타내는 복수의 데이터를 수신하는 단계를 포함할 수 있다.

단계 805에서, 방법은 암의 존재 또는 부재를 나타내는 각각의 디지털 이미지에 대한 이진 라벨들의 세트를 수신하는 단계를 포함할 수 있다.

단계 807에서, 방법은 하나 이상의 디지털 이미지 각각을 타일들의 집합으로 분할하는 단계를 포함할 수 있다.

단계 809에서, 방법은 하나 이상의 디지털 이미지 각각의 배경으로부터 적어도 하나의 조직 영역을 검출하여 조직 마스크를 생성하는 단계 및 비조직인 적어도 하나의 타일을 제거하는 단계를 포함할 수 있다. 이것은 색상, 색상 강도, 텍스처 특징들, 오츠의 방법, 또는 임의의 다른 적절한 방법에 기초한 임계화 방법들을 포함하지만 이에 제한되지 않는 다양한 방식들로 달성될 수 있고, 이어서 접속 성분 알고리즘; 및 k-평균, 그래프 컷, Mask R-CNN, 또는 임의의 다른 적절한 방법과 같은 분할 알고리즘들을 실행하는 것이 뒤따른다.

단계 811에서, 방법은 환자에 대한 적어도 하나의 범-암 예측 출력을 이진 리스트로 조직하는 단계를 포함할 수 있다. 리스트의 하나의 요소는 임의의 암의 존재를 나타낼 수 있고, 리스트 내의 다른 요소들은 각각의 특정 암 타입의 존재를 나타낼 수 있다. 예를 들어, 전립선 암 표본은 일반 암에 대한 양성 표시자, 전립선 암에 대한 전립선 표시자에 대한 양성 표시자, 및 다른 조직들(예를 들어, 폐, 유방 등)에 대응하는 모든 다른 출력들에 대한 음성 표시자들을 가질 수 있다. 모든 슬라이드들이 양성인 환자는 모든 음성 표시자들을 포함하는 라벨 리스트를 가질 수 있다.

단계 813에서, 방법은 환자에 대한 이진 벡터를 예측하기 위해 기계 학습 모델을 훈련하는 단계를 포함할 수 있다. 기계 학습 모델은 전술한 바와 같은 MIMLL 모델을 포함할 수 있으며, 약하게 감독된 학습 모듈은 MIMLL 모델을 훈련할 수 있다. 또한, 방법은 (전술한 바와 같은) 집계 모델을 이용하여 다양한 타일들에 걸쳐 MIMLL의 범-암 예측 출력들을 집계하는 단계를 포함할 수 있다. 대안적으로, 집계 모델은 각각의 타일로부터의 임베딩들을 이용하여 (다수의) 범-암 예측 라벨들을 예측하도록 훈련될 수 있다.

단계 821에서, 방법은 조직 표본과 연관된 하나 이상의 디지털 이미지를 디지털 저장 디바이스 내에 수신하는 단계를 포함할 수 있다. 디지털 저장 디바이스는 하드 드라이브, 네트워크 드라이브, 클라우드 스토리지, 랜덤 액세스 메모리(RAM) 등을 포함할 수 있다.

단계 823에서, 방법은 환자에 대해 수신된 디지털 이미지들 각각에 도시된 조직의 타입을 나타내는 복수의 데이터를 수신하는 단계를 포함할 수 있다.

단계 825에서, 방법은 하나 이상의 디지털 이미지 각각을 타일들의 집합으로 분할하는 단계를 포함할 수 있다.

단계 827에서, 방법은 하나 이상의 디지털 이미지 각각의 배경으로부터 적어도 하나의 조직 영역을 검출하여 조직 마스크를 생성하는 단계 및 비조직인 적어도 하나의 타일을 제거하는 단계를 포함할 수 있다. 이것은 색상, 색상 강도, 텍스처 특징들, 오츠의 방법, 또는 임의의 다른 적절한 방법에 기초한 임계화 방법들을 포함하지만 이에 제한되지 않는 다양한 방식들로 달성될 수 있고, 이어서 접속 성분 알고리즘; 및 k-평균, 그래프 컷, Mask R-CNN, 또는 임의의 다른 적절한 방법과 같은 분할 알고리즘들을 실행하는 것이 뒤따른다.

단계 829에서, 방법은 훈련된 기계 학습 모델을 이용하여 범-암 예측을 계산하는 단계를 포함할 수 있다. 기계 학습 모델은 (위에서 개시된 바와 같은) 훈련된 MIMLL 모델 및/또는 집계 모델을 포함할 수 있다. 예시적인 출력들은 다음을 포함할 수 있지만, 이들로 제한되지 않는다:

a. 범-암 예측: 암 존재 출력(들)은 심지어 훈련 동안 관찰되지 않은 조직 타입들에 대해서도, 조직 타입에 관계없이 암의 존재를 결정하는 데 이용될 수 있다. 이것은 기계 학습 모델을 훈련하는 데 충분한 데이터가 이용가능하지 않을 수 있는 희귀 암들에 도움이 될 수 있다.

b. 기원의 암 예측: 암 서브타입 출력(들)은 가장 큰 서브타입 출력을 식별함으로써 전이성 암들의 기원을 예측하는데 이용될 수 있다. 서브타입에 대한 암 출력들 중 하나가 시스템으로의 조직 입력의 타입보다 충분히 높다면, 이것은 출력이 기원의 암이라는 것을 병리학자에게 나타낼 수 있다. 예를 들어, 방광 조직 표본이 기계 학습 모델(들)에 의해 암을 갖는 것으로 발견되지만 전립선암 서브타입 출력인 경우, 이것은 방광에서 발견된 암이 방광에서 기원한 암 대신에 전이된 전립선암일 수 있다는 것을 병리학자에게 나타낼 수 있다.

단계 831에서, 방법은 예측을 전자 저장 디바이스에 저장하는 단계를 포함할 수 있다.

도 9는 본 개시내용의 하나 이상의 예시적인 실시예에 따른, 기관 독성을 예측하기 위해 기계 학습 시스템을 훈련 및 이용하기 위한 예시적인 방법을 도시하는 흐름도이다. 약물 개발을 위한 전임상 동물 연구에서, 병리학자는 임의의 독성이 존재하는지, 독성의 형태, 및/또는 독성이 발견될 수 있는 기관을 결정한다. 실시예는 이러한 예측을 자동으로 수행할 수 있게 한다. 전임상 작업의 과제는 슬라이드가 준비 중에 유리를 절약하기 위해 다수의 기관을 포함할 수 있다는 것이다.

일 실시예에 따르면, 예시적인 방법들(900 및 920)은 이하의 단계들 중 하나 이상을 포함할 수 있다. 단계 901에서, 조직 표본과 연관된 하나 이상의 디지털 이미지를 디지털 저장 디바이스 내에 수신한다. 디지털 저장 디바이스는 하드 드라이브, 네트워크 드라이브, 클라우드 스토리지, 랜덤 액세스 메모리(RAM) 등을 포함할 수 있다.

단계 903에서, 방법은 독성의 존재 또는 부재 및/또는 독성의 타입 또는 심각성을 나타내는 복수의 이진 라벨을 수신하는 단계를 포함할 수 있다.

단계 905에서, 방법은 적어도 하나의 기관에 대한 독성의 존재 또는 부재 및/또는 그의 타입 또는 심각성을 수신하는 단계를 포함할 수 있다.

단계 907에서, 방법은 하나 이상의 디지털 이미지 각각을 타일들의 집합으로 분할하는 단계를 포함할 수 있다.

단계 909에서, 방법은 하나 이상의 디지털 이미지 각각의 배경으로부터 적어도 하나의 조직 영역을 검출하여 조직 마스크를 생성하는 단계 및 비조직인 적어도 하나의 타일을 제거하는 단계를 포함할 수 있다. 이것은 색상, 색상 강도, 텍스처 특징들, 오츠의 방법, 또는 임의의 다른 적절한 방법에 기초한 임계화 방법들을 포함하지만 이에 제한되지 않는 다양한 방식들로 달성될 수 있고, 이어서 접속 성분 알고리즘; 및 k-평균, 그래프 컷, Mask R-CNN, 또는 임의의 다른 적절한 방법과 같은 분할 알고리즘을 실행하는 것이 뒤따른다.

단계 911에서, 방법은 환자에 대한 적어도 하나의 독성 예측 출력을 이진 리스트로 조직하는 단계를 포함할 수 있다. 리스트의 하나의 요소는 슬라이드 상에서 발견되는 임의의 독성의 존재 또는 타입을 나타낼 수 있고, 리스트 내의 다른 요소들은 각각의 기관 내의 독성의 존재/타입을 나타낼 수 있다.

단계 913에서, 방법은 환자에 대한 이진 벡터를 예측하기 위해 기계 학습 모델을 훈련하는 단계를 포함할 수 있다. 기계 학습 모델은 전술한 바와 같은 MIMLL 모델을 포함할 수 있으며, 약하게 감독된 학습 모듈은 MIMLL 모델을 훈련할 수 있다. 또한, 방법은 (전술한 바와 같은) 집계 모델을 이용하여 다양한 타일들에 걸쳐 MIMLL의 독성 예측 출력들을 집계하는 단계를 포함할 수 있다. 대안적으로, 집계 모델은 각각의 타일로부터의 임베딩들을 이용하여 독성 예측 라벨들을 예측하도록 훈련될 수 있다.

단계 921에서, 방법은 조직 표본과 연관된 하나 이상의 디지털 이미지를 디지털 저장 디바이스 내에 수신하는 단계를 포함할 수 있다. 디지털 저장 디바이스는 하드 드라이브, 네트워크 드라이브, 클라우드 스토리지, 랜덤 액세스 메모리(RAM) 등을 포함할 수 있다.

단계 923에서, 방법은 하나 이상의 디지털 이미지 각각을 타일들의 집합으로 분할하는 단계를 포함할 수 있다.

단계 925에서, 방법은 하나 이상의 디지털 이미지 각각의 배경으로부터 적어도 하나의 조직 영역을 검출하여 조직 마스크를 생성하는 단계 및 비조직인 적어도 하나의 타일을 제거하는 단계를 포함할 수 있다. 비조직 타일 없이 추가의 처리가 시작될 수 있다. 이것은 색상, 색상 강도, 텍스처 특징들, 오츠의 방법, 또는 임의의 다른 적절한 방법에 기초한 임계화 방법들을 포함하지만 이에 제한되지 않는 다양한 방식들로 달성될 수 있고, 이어서 접속 성분 알고리즘; 및 k-평균, 그래프 컷, Mask R-CNN, 또는 임의의 다른 적절한 방법과 같은 분할 알고리즘을 실행하는 것이 뒤따른다.

단계 927에서, 방법은 훈련된 기계 학습 모델을 이용하여 독성 예측을 계산하는 단계를 포함할 수 있다. 기계 학습 모델은 (위에서 개시된 바와 같은) 훈련된 MIMLL 모델 및/또는 집계 모델을 포함할 수 있다. 예시적인 출력들은 다음을 포함할 수 있지만, 이들로 제한되지 않는다:

a. 독성 존재: 독성 존재 출력은 전체 슬라이드에 걸친 조직 타입에 관계없이 독성의 존재 및/또는 심각성을 결정하는데 이용될 수 있다.

b. 기관 독성 예측: 기관 독성 출력은 독성이 어느 기관 내에서 발견될 수 있는지를 결정하는데 이용될 수 있다.

단계 929에서, 방법은 독성 예측을 전자 저장 디바이스에 저장하는 단계를 포함할 수 있다.

도 10은 본 개시내용의 실시예에 따른, 예시적인 접속 성분 알고리즘을 도시한다. 접속 성분 알고리즘은 이미지 영역들에 걸쳐 특징들을 집계할 수 있다. 예를 들어, 임계화는 이진(예를 들어, 흑색 및 백색) 이미지를 생성할 수 있다. 접속 성분 알고리즘 또는 모델은 이미지에서의 다양한 영역, 예를 들어, 픽셀 레벨에서의 3개의 영역(녹색, 적색, 갈색)을 식별할 수 있다. 각각의 픽셀은 접속 성분을 이용하는 특정 구현예에서 타일 및 성분(녹색, 적색, 또는 갈색)에 속할 수 있다. 집계는 다수 투표(majority vote)(예를 들어, 녹색 성분 투표에서의 모든 타일에 대해, 그 결과 녹색이 1의 값을 가짐) 또는 학습된 집계기(예를 들어, 특징들의 벡터가 각각의 타일로부터 추출되어 각각의 성분에 대해 실행되는 성분 집계기 모듈에 입력될 수 있고, 따라서 녹색 성분에서의 타일들이 등급 번호를 생성할 수 있는 성분 집계기 모듈에 공급될 수 있음)를 포함하는 많은 방식으로 발생될 수 있다. CNN은 타일에 대한 예측(예를 들어, 숫자), 그의 시각적 특성들을 서술하는 타일에 대한 특징 벡터, 또는 둘 다를 출력할 수 있다.

도 11에 도시된 바와 같이, 디바이스(1100)는 중앙 처리 유닛(CPU)(1120)을 포함할 수 있다. CPU(1120)는, 예를 들어, 임의의 타입의 특수 목적 또는 범용 마이크로프로세서 디바이스를 포함하는, 임의의 타입의 프로세서 디바이스일 수 있다. 관련 기술 분야의 통상의 기술자라면 잘 알 수 있듯이, CPU(1120)는 또한 멀티코어/멀티프로세서 시스템(이러한 시스템은 단독으로 동작함), 또는 클러스터 또는 서버 팜(server farm)에서 동작하는 컴퓨팅 디바이스들의 클러스터에서의 단일 프로세서일 수 있다. CPU(1120)는 데이터 통신 인프라스트럭처(1110), 예를 들어, 버스, 메시지 큐, 네트워크, 또는 멀티코어 메시지 전달 스킴에 접속될 수 있다.

디바이스(1100)는 또한 메인 메모리(1140), 예를 들어, 랜덤 액세스 메모리(RAM)를 포함할 수 있고, 또한 보조 메모리(1130)를 포함할 수 있다. 보조 메모리(1130), 예를 들어, 판독 전용 메모리(ROM)는, 예를 들어, 하드 디스크 드라이브 또는 착탈식 저장 드라이브일 수 있다. 그러한 착탈식 저장 드라이브는, 예를 들어, 플로피 디스크 드라이브, 자기 테이프 드라이브, 광학 디스크 드라이브, 플래시 메모리 등을 포함할 수 있다. 착탈식 저장 드라이브는 이 예에서 잘 알려진 방식으로 착탈식 저장 유닛으로부터 판독 및/또는 그에 기입한다. 착탈식 저장소는 착탈식 저장 드라이브에 의해 판독 및 기입되는 플로피 디스크, 자기 테이프, 광학 디스크 등을 포함할 수 있다. 관련 기술분야의 통상의 기술자에 의해 이해되는 바와 같이, 그러한 착탈식 저장 유닛은 일반적으로 컴퓨터 소프트웨어 및/또는 데이터를 저장한 컴퓨터 이용가능 저장 매체를 포함한다.

대안적인 구현들에서, 보조 메모리(1130)는 컴퓨터 프로그램들 또는 다른 명령어들이 디바이스(1100) 내로 로딩되는 것을 허용하기 위한 유사한 수단을 포함할 수 있다. 그러한 수단의 예들은 프로그램 카트리지 및 카트리지 인터페이스(예를 들어, 비디오 게임 디바이스들에서 발견되는 것), 착탈식 메모리 칩(예를 들어, EPROM, 또는 PROM) 및 연관된 소켓, 및 소프트웨어 및 데이터가 착탈식 저장 유닛으로부터 디바이스(1100)로 전송되는 것을 허용하는 다른 착탈식 저장 유닛들 및 인터페이스들을 포함할 수 있다.

디바이스(1100)는 또한 통신 인터페이스("COM")(1160)를 포함할 수 있다. 통신 인터페이스(1160)는 소프트웨어 및 데이터가 디바이스(1100)와 외부 디바이스들 사이에서 전송되게 한다. 통신 인터페이스(1160)는 모뎀, 네트워크 인터페이스(예를 들어, 이더넷 카드), 통신 포트, PCMCIA 슬롯 및 카드 등을 포함할 수 있다. 통신 인터페이스(1160)를 통해 전송되는 소프트웨어 및 데이터는 통신 인터페이스(1160)에 의해 수신될 수 있는 전자, 전자기, 광학, 또는 다른 신호들일 수 있는 신호들의 형태일 수 있다. 이러한 신호들은, 예를 들어, 유선 또는 케이블, 광섬유, 전화선, 셀룰러 전화 링크, RF 링크 또는 다른 통신 채널들을 이용하여 구현될 수 있는, 디바이스(1100)의 통신 경로를 통해 통신 인터페이스(1160)에 제공될 수 있다.

그러한 장비의 하드웨어 요소들, 운영 체제들 및 프로그래밍 언어들은 사실상 통상적이며, 본 기술분야의 통상의 기술자들은 그와 적절히 친숙하다고 가정된다. 디바이스(1100)는 또한 키보드들, 마우스들, 터치스크린들, 모니터들, 디스플레이들 등과 같은 입력 및 출력 디바이스들과 접속하기 위한 입력 및 출력 포트들(1150)을 포함할 수 있다. 물론, 다양한 서버 기능들은 처리 부하를 분산시키기 위해 다수의 유사한 플랫폼 상에 분산 방식으로 구현될 수 있다. 대안적으로, 서버들은 하나의 컴퓨터 하드웨어 플랫폼의 적절한 프로그래밍에 의해 구현될 수 있다.

본 개시내용 전체에 걸쳐, 컴포넌트들 또는 모듈들에 대한 참조들은 일반적으로, 기능 또는 관련 기능들의 그룹을 수행하기 위해 논리적으로 함께 그룹화될 수 있는 항목들을 지칭한다. 유사한 참조 번호들은 일반적으로 동일하거나 유사한 컴포넌트들을 지칭하도록 의도된다. 컴포넌트들 및 모듈들은 소프트웨어, 하드웨어, 또는 소프트웨어와 하드웨어의 조합으로 구현될 수 있다.

전술한 툴들, 모듈들, 및 기능들은 하나 이상의 프로세서에 의해 수행될 수 있다. "저장" 타입 매체는 소프트웨어 프로그래밍을 위해 임의의 시간에 비일시적 저장을 제공할 수 있는, 다양한 반도체 메모리들, 테이프 드라이브들, 디스크 드라이브들 등과 같은, 컴퓨터들, 프로세서들 등의 유형의 메모리, 또는 이들의 연관된 모듈들 중 임의의 것 또는 전부를 포함할 수 있다.

소프트웨어는 인터넷, 클라우드 서비스 제공자, 또는 다른 원격통신 네트워크들을 통해 통신될 수 있다. 예를 들어, 통신들은 하나의 컴퓨터 또는 프로세서로부터 다른 것으로 소프트웨어를 로딩하는 것을 가능하게 할 수 있다. 본 명세서에서 이용되는 바와 같이, 비일시적인 유형의 "저장" 매체로 제한되지 않는 한, 컴퓨터 또는 기계 "판독가능 매체"와 같은 용어들은 실행을 위해 프로세서에 명령어들을 제공하는데 참여하는 임의의 매체를 지칭한다.

상기의 일반적인 설명은 단지 예시적인 것이고 설명을 위한 것이며, 본 개시내용을 제한하지 않는다. 본 발명의 다른 실시예들은 본 명세서에 개시된 본 발명의 명세서 및 실시의 고려로부터 본 기술분야의 통상의 기술자에게 명백할 것이다. 명세서 및 예들은 단지 예시적인 것으로 간주되는 것이 의도된다.

Claims

삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
조직 표본에 대응하는 전자 슬라이드 이미지들을 처리하기 위한 컴퓨터로 구현된 방법으로서,
조직 표본과 연관된 하나 이상의 전자 슬라이드 이미지를 수신하는 단계―상기 조직 표본은 환자 또는 의료 케이스와 연관됨―;
상기 하나 이상의 전자 슬라이드 이미지 중 제1 슬라이드 이미지를 복수의 타일로 분할하는 단계;
기계 학습 예측 모델을 이용하여, 상기 하나 이상의 전자 슬라이드 이미지에 대한 적어도 하나의 라벨에 대한 예측을 결정하는 단계―상기 기계 학습 예측 모델은,
복수의 훈련 이미지 각각에 대한 하나 이상의 라벨을 포함하는 복수의 시놉틱 주석을 수신하고;
상기 복수의 훈련 이미지 중 하나를 상기 복수의 훈련 이미지에 대한 복수의 훈련 타일로 분할하고;
상기 하나 이상의 전자 슬라이드 이미지의 배경으로부터 적어도 하나의 조직 영역을 세그먼트화하여 훈련 조직 마스크를 생성하고:
비조직인 것으로 검출된 상기 복수의 타일 중 적어도 하나를 제거하고;
상기 복수의 시놉틱 주석의 적어도 하나의 라벨을 이용하여 적어도 하나의 다중-라벨 타일-레벨 예측을 추론하기 위해 약한 감독 하에서 상기 기계 학습 예측 모델을 이용하는 것에 의해
복수의 훈련 이미지를 처리함으로써 생성됨―를 포함하는
컴퓨터로 구현된 방법.
제21항에 있어서,
비조직인 것으로 결정되는 상기 복수의 타일은 상기 조직 표본의 배경인 것으로 더 결정되는, 컴퓨터로 구현된 방법.
제21항에 있어서,
상기 하나 이상의 전자 슬라이드 이미지의 배경으로부터 상기 조직 영역들을 세그먼트화하여 조직 마스크를 생성함으로써 상기 제1 슬라이드 이미지 및 복수의 타일 중 적어도 하나의 복수의 조직 영역을 검출하는 단계를 더 포함하는, 컴퓨터로 구현된 방법.
제23항에 있어서,
상기 배경으로부터 상기 조직 영역들을 세그먼트화할 때, 상기 조직 마스크를 생성하는 단계―상기 세그먼트화는 색상, 색상 강도 및 텍스처 특징들 중 적어도 하나에 기초한 임계화를 이용함―를 더 포함하는, 컴퓨터로 구현된 방법.
제21항에 있어서,
상기 복수의 훈련 이미지는 복수의 전자 슬라이드 이미지 및 복수의 타겟 라벨을 포함하는, 컴퓨터로 구현된 방법.
제21항에 있어서,
상기 복수의 훈련 이미지를 처리하는 단계는,
적어도 하나의 훈련 조직 표본과 연관된 디지털 이미지들의 집합을 수신하는 단계―상기 디지털 이미지들의 집합은 복수의 훈련 전자 슬라이드 이미지를 포함함―;
상기 복수의 훈련 전자 슬라이드 이미지 각각에 대한 하나 이상의 라벨을 포함하는 복수의 시놉틱 주석을 수신하는 단계;
상기 복수의 훈련 전자 슬라이드 이미지 중 하나를 상기 복수의 훈련 전자 슬라이드 이미지에 대한 복수의 훈련 타일로 분할하는 단계; 및
상기 하나 이상의 전자 슬라이드 이미지의 배경으로부터 적어도 하나의 조직 영역을 세그먼트화하여 훈련 조직 마스크를 생성하는 단계를 포함하는, 컴퓨터로 구현된 방법.
제26항에 있어서,
약한 감독 하에서 상기 기계 학습 예측 모델을 훈련하는 단계는 다중 인스턴스 학습(MIL), 다중 인스턴스 다중 라벨 학습(MIMLL), 자가-감독된 학습, 및 무감독된 클러스터링 중 적어도 하나를 이용하는 단계를 포함하는, 컴퓨터로 구현된 방법.
제26항에 있어서,
상기 기계 학습 예측 모델을 생성하기 위해 상기 복수의 훈련 이미지를 처리하는 단계는,
상기 복수의 훈련 타일에 대한 약하게 감독된 타일-레벨 학습 모듈로부터 적어도 하나의 특징의 복수의 예측 또는 복수의 벡터를 수신하는 단계;
상기 복수의 훈련 타일에 대한 상기 약하게 감독된 타일-레벨 학습 모듈로부터 상기 적어도 하나의 특징의 상기 복수의 예측 또는 상기 복수의 벡터를 입력으로서 취하도록 기계 학습 모델을 훈련하는 단계; 및
상기 복수의 훈련 타일을 이용하여, 슬라이드 또는 환자 표본에 대한 복수의 라벨을 예측하는 단계를 더 포함하는, 컴퓨터로 구현된 방법.
제28항에 있어서,
상기 복수의 라벨 중 적어도 하나는 이진수, 카테고리, 서수 또는 실수 값인, 컴퓨터로 구현된 방법.
제28항에 있어서,
상기 복수의 훈련 타일에 대한 상기 약하게 감독된 타일-레벨 학습 모듈로부터 상기 적어도 하나의 특징의 상기 복수의 예측 또는 상기 복수의 벡터를 상기 입력으로서 취하도록 상기 기계 학습 모델을 훈련하는 단계는 복수의 이미지 특징을 포함하는, 컴퓨터로 구현된 방법.
제21항에 있어서,
상기 훈련된 기계 학습 예측 모델은 적어도 하나의 보이지 않는 슬라이드를 이용하여 적어도 하나의 라벨을 예측하는, 컴퓨터로 구현된 방법.
조직 표본에 대응하는 전자 슬라이드 이미지들을 처리하기 위한 시스템으로서,
명령어들을 저장하는 적어도 하나의 메모리; 및
상기 명령어들을 실행하여 동작들을 수행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 동작들은,
상기 조직 표본과 연관된 하나 이상의 전자 슬라이드 이미지를 수신하는 것―상기 조직 표본은 환자 또는 의료 케이스와 연관됨―;
기계 학습 예측 모델을 이용하여, 상기 하나 이상의 전자 슬라이드 이미지에 대한 적어도 하나의 라벨에 대한 예측을 결정하는 것―상기 기계 학습 예측 모델은,
복수의 훈련 전자 슬라이드 이미지 각각에 대한 하나 이상의 라벨을 포함하는 복수의 시놉틱 주석을 수신하고;
상기 복수의 훈련 전자 슬라이드 이미지 중 하나를 상기 복수의 훈련 전자 슬라이드 이미지에 대한 복수의 훈련 타일로 분할하고;
상기 하나 이상의 전자 슬라이드 이미지의 배경으로부터 적어도 하나의 조직 영역을 세그먼트화하여 훈련 조직 마스크를 생성하고:
비조직인 것으로 검출되는 상기 복수의 훈련 타일 중 적어도 하나를 제거하고;
상기 복수의 시놉틱 주석의 적어도 하나의 라벨을 이용하여 적어도 하나의 다중-라벨 타일-레벨 예측을 추론하기 위해 약한 감독 하에서 상기 기계 학습 예측 모델을 이용하는 것에 의해
복수의 훈련 전자 슬라이드 이미지를 처리함으로써 생성됨―을 포함하는
시스템.
제32항에 있어서,
비조직인 것으로 결정되는 상기 복수의 훈련 타일은 상기 조직 표본의 배경인 것으로 더 결정되는, 시스템.
제32항에 있어서,
상기 훈련된 기계 학습 시스템에 의해, 상기 하나 이상의 전자 슬라이드 이미지의 배경으로부터 상기 조직 영역들을 세그먼트화하여 조직 마스크를 생성함으로써 상기 복수의 타일의 복수의 조직 영역을 검출하는 것을 더 포함하는, 시스템.
제34항에 있어서,
상기 배경으로부터 상기 조직 영역들을 세그먼트화할 때, 상기 조직 마스크를 생성하는 것―상기 세그먼트화는 색상, 색상 강도 및 텍스처 특징들 중 적어도 하나에 기초한 임계화를 이용함―을 더 포함하는, 시스템.
제32항에 있어서,
상기 복수의 훈련 전자 슬라이드 이미지는 복수의 전자 슬라이드 이미지 및 복수의 타겟 라벨을 포함하는, 시스템.
제32항에 있어서,
상기 복수의 훈련 전자 슬라이드 이미지를 처리하는 것은,
적어도 하나의 훈련 조직 표본과 연관된 디지털 이미지들의 집합을 수신하는 것―상기 디지털 이미지들의 집합은 상기 복수의 훈련 전자 슬라이드 이미지를 포함함―을 포함하는, 시스템.
제32항에 있어서,
상기 약한 감독 하에서 상기 기계 학습 예측 모델을 이용하는 것은 MIL, MIMLL, 자가-감독된 학습, 및 무감독된 클러스터링 중 적어도 하나를 이용하는 것을 포함하는, 시스템.
제37항에 있어서,
상기 기계 학습 예측 모델을 생성하기 위해 상기 복수의 훈련 전자 슬라이드 이미지를 처리하는 것은,
상기 복수의 훈련 타일에 대한 약하게 감독된 타일-레벨 학습 모듈로부터 적어도 하나의 특징의 복수의 예측 또는 복수의 벡터를 수신하는 것;
상기 복수의 훈련 타일에 대한 상기 약하게 감독된 타일-레벨 학습 모듈로부터 상기 적어도 하나의 특징의 상기 복수의 예측 또는 상기 복수의 벡터를 입력으로서 취하도록 기계 학습 모델을 훈련하는 것; 및
상기 복수의 훈련 타일을 이용하여, 슬라이드 또는 환자 표본에 대한 복수의 라벨을 예측하는 것을 더 포함하는, 시스템.
프로세서에 의해 실행될 때, 상기 프로세서로 하여금 조직 표본에 대응하는 전자 슬라이드 이미지들을 처리하기 위한 방법을 수행하게 하는 명령어들을 저장하는 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 방법은,
환자 또는 의료 케이스와 연관된 상기 조직 표본과 연관된 하나 이상의 전자 슬라이드 이미지를 수신하는 단계;
상기 하나 이상의 전자 슬라이드 이미지 중 제1 슬라이드 이미지를 복수의 타일로 분할하는 단계;
상기 복수의 타일 중 임의의 타일이 비조직에 대응하는지를 결정하는 단계;
비조직인 것으로 결정되는 상기 복수의 타일 중 임의의 타일을 제거하는 단계; 및
상기 하나 이상의 전자 슬라이드 이미지에 대한 상기 환자 또는 의료 케이스에 대응하는 적어도 하나의 라벨에 대한 기계 학습 예측 모델을 이용하여, 예측을 결정하는 단계―상기 기계 학습 예측 모델은,
상기 복수의 훈련 타일을 이용하여, 슬라이드 또는 환자 표본에 대한 복수의 라벨을 예측하고;
상기 하나 이상의 전자 슬라이드 이미지의 배경으로부터 적어도 하나의 조직 영역을 세그먼트화하여 훈련 조직 마스크를 생성하고:
비조직인 것으로 검출되는 상기 복수의 타일 중 적어도 하나를 제거하고;
복수의 시놉틱 주석의 적어도 하나의 라벨을 이용하여 적어도 하나의 다중-라벨 타일-레벨 예측을 추론하기 위해 약한 감독 하에서 상기 기계 학습 예측 모델을 이용하는 것에 의해
복수의 훈련 이미지를 처리함으로써 생성됨―를 포함하는
비일시적 컴퓨터 판독가능 저장 매체.