WO2023167448A1

WO2023167448A1 - 병리 슬라이드 이미지를 분석하는 방법 및 장치

Info

Publication number: WO2023167448A1
Application number: PCT/KR2023/002241
Authority: WO
Inventors: 유동근; 송상훈; 옥찬영; 정원경; 조수익; 팽경현
Original assignee: 주식회사 루닛
Priority date: 2022-03-03
Filing date: 2023-02-16
Publication date: 2023-09-07
Also published as: US20230281971A1

Abstract

일 측면에 따른 컴퓨팅 장치는, 적어도 하나의 메모리; 및 적어도 하나의 프로세서;를 포함하고, 상기 프로세서는, 적어도 하나의 제1 대상체가 표현된 제1 병리 슬라이드 이미지 및 상기 적어도 하나의 제1 대상체의 생물학적 정보(biological information)를 획득하고, 상기 제1 병리 슬라이드 이미지에 포함된 적어도 하나의 제1 패치(patch) 및 상기 생물학적 정보를 이용하여 학습 데이터를 생성하고, 상기 학습 데이터에 의하여 제1 머신러닝 모델을 학습하고, 상기 학습된 제1 머신러닝 모델을 이용하여 제2 병리 슬라이드 이미지를 분석한다.

Description

병리 슬라이드 이미지를 분석하는 방법 및 장치

본 개시는, 병리 슬라이드 이미지를 분석하는 방법 및 장치에 관한다.

디지털 병리학(digital pathology) 분야는 병리 슬라이드 이미지(pathological slide image)를 스캔함으로써 생성된 전체 슬라이드 이미지(whole slide image)를 이용하여 해당 피검자의 조직학적 정보를 획득하거나 예후를 예측하는 분야이다.

병리 슬라이드 이미지는, 대상체의 염색된 티슈 샘플로부터 획득될 수 있다. 예를 들어, 티슈 샘플은, 헤마톡실린 및 에오신(hematoxylin and eosin), 삼색소(trichrome), 과요오드산 쉬프(periodic acid schiff), 자동 방사선 촬영(autoradiogrphy), 효소 조직 화학(enzyme histochemistry), 면역형광(immuno-fluorescence), 및 면역조직화학(immunohistochemistry) 등 다양한 염색 방식으로 염색될 수 있다. 염색된 티슈 샘플은 조직학 및 생검 평가에 이용됨으로써, 질병 상태를 이해하기 위해 분자 프로필 분석으로 넘어갈지 여부를 판단할 근거가 될 수 있다.

병리 슬라이드 이미지로부터 생물학적 요소들을 인식하고 검출하는 것은 특정 질병의 조직학적 진단이나 예후의 예측, 치료 방향의 결정 등에 중요한 영향을 미친다. 다만, 병리 슬라이드 이미지로부터 생물학적 요소들을 검출하거나 세그멘테이션하는 머신러닝 모델의 성능이 낮을 경우, 이는 피검자에 대한 정확한 치료계획을 수립하는데 장애 요소가 될 수 있다. 한편, 머신러닝 모델의 성능을 높이기 위해서는 많은 양의 어노테이션(annotation) 데이터의 준비가 필요하나, 준비 과정에는 많은 비용이 소요된다.

병리 슬라이드 이미지를 분석하는 방법 및 장치를 제공하는 데 있다. 또한, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다. 해결하려는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

다른 측면에 따른 병리 슬라이드 이미지를 분석하는 방법은, 적어도 하나의 제1 대상체가 표현된 제1 병리 슬라이드 이미지 및 상기 적어도 하나의 제1 대상체의 생물학적 정보(biological information)를 획득하는 단계; 상기 제1 병리 슬라이드 이미지에 포함된 적어도 하나의 제1 패치(patch) 및 상기 생물학적 정보를 이용하여 학습 데이터를 생성하는 단계; 상기 학습 데이터에 의하여 제1 머신러닝 모델을 학습하는 단계; 및 상기 학습된 제1 머신러닝 모델을 이용하여 제2 병리 슬라이드 이미지를 분석하는 단계;를 포함한다.

또 다른 측면에 따른 컴퓨터로 읽을 수 있는 기록매체는, 상술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 기록매체를 포함한다.

도 1은 일 실시예에 따른 병리 슬라이드 이미지를 분석하는 시스템의 일 예를 설명하기 위한 도면이다.

도 2는 일 실시예에 따른 머신러닝 모델을 이용하여 조직 표본들의 슬라이드 이미지들을 준비, 처리 및 검토하기 위한 시스템 및 네트워크의 블록도이다.

도 3a는 일 실시예에 따른 사용자 단말의 일 예를 도시한 구성도이다.

도 3b는 일 실시예에 따른 서버의 일 예를 도시한 구성도이다.

도 4는 일 실시예에 따른 병리 슬라이드 이미지를 처리하는 방법의 일 예를 설명하기 위한 흐름도이다.

도 5는 일 실시예에 따른 생물학적 정보의 예들을 설명하기 위한 도면이다.

도 6은 일 실시예에 따른 프로세서가 공간 전사체 정보를 획득하는 일 예를 설명하기 위한 흐름도이다.

도 7은 일 실시예에 따른 학습 데이터의 일 예를 설명하기 위한 도면이다.

도 8은 일 실시예에 따른 병리 슬라이드 이미지를 처리하는 방법의 다른 예를 설명하기 위한 흐름도이다.

도 9는 일 실시예에 따른 프로세서가 피검자의 치료 반응을 예측하는 일 예를 설명하기 위한 도면이다.

도 10은 일 실시예에 따른 프로세서가 제1 머신러닝 모델을 학습하는 일 예를 설명하기 위한 도면이다.

도 11은 일 실시예에 따른 프로세서가 제1 머신러닝 모델을 학습하는 다른 예를 설명하기 위한 도면이다.

도 12는 일 실시예에 따른 프로세서의 동작이 구현된 일 예를 설명하기 위한 도면이다.

도 13a 및 도 13b는 일 실시예에 따른 사용자 입력에 기초하여 어노테이션이 생성되는 예들을 설명하기 위한 도면들이다.

실시 예들에서 사용되는 용어는 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 명세서에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 명세서의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "~ 유닛", "~ 모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

또한, 명세서에서 사용되는 "제 1" 또는 "제 2" 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용할 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로 사용될 수 있다.

일 실시예에 따르면, "병리 슬라이드 이미지"는, 인체에서 떼어낸 조직 등에 대해 일련의 화학적 처리과정을 거쳐 고정 및 염색된 병리 슬라이드를 촬영한 이미지를 지칭할 수 있다. 또한, 병리 슬라이드 이미지는 전체 슬라이드에 대한 고 해상도의 이미지를 포함하는 전체 슬라이드 이미지(Whole Slide Image, WSI)를 지칭할 수 있고, 전체 슬라이드 이미지의 일부, 예를 들어 하나 이상의 패치(patch)를 지칭할 수도 있다. 예를 들어, 병리 슬라이드 이미지는 스캔 장치(예: 디지털 스캐너 등)를 통해 촬영되거나 스캔된 디지털 이미지를 지칭할 수 있으며, 인체 내의 특정 단백질, 세포(cell), 조직(tissue) 및/또는 구조(structure)에 대한 정보를 포함할 수 있다. 또한, 병리 슬라이드 이미지는 하나 이상의 패치를 포함할 수 있으며, 하나 이상의 패치에는 어노테이션(annotation) 작업을 통해 조직학적 정보가 적용(예: 태깅)될 수 있다.

일 실시예에 따르면, "의학적 정보"란, 의료 영상으로부터 추출할 수 있는 의학적으로 의미 있는 임의의 정보를 지칭할 수 있는데, 예를 들어, 의료 영상 내의 특정 조직(예를 들어, 암 조직, 암 기질 조직 등) 및/또는 특정 세포(예를 들어, 종양 세포, 림프구 세포, 대식 세포(Macrophage cells), 내피 세포(Endothelial cells), 섬유아 세포(Fibroblast cells) 등)의 영역, 위치, 크기, 암의 진단 정보, 피검자의 암의 발병 가능성과 연관된 정보, 및/또는 암 치료와 연관된 의학적 결론 등을 포함할 수 있으나, 이에 한정되지 않는다. 또한, 의학적 정보는 의료 영상에서 얻을 수 있는 정량화된 수치뿐만 아니라 수치를 시각화한 정보, 수치에 따른 예측 정보, 이미지 정보, 통계학적 정보 등을 포함할 수 있다. 이렇게 생성된 의학적 정보는 사용자 단말에 제공되거나 디스플레이 장치에 출력 또는 전달되어, 표시될 수 있다.

아래에서는 첨부한 도면을 참고하여 실시 예에 대하여 상세히 설명한다. 그러나 실시 예는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 예에 한정되지 않는다.

도 1을 참조하면, 시스템(1)은 사용자 단말(10) 및 서버(20)를 포함한다. 예를 들어, 사용자 단말(10)과 서버(20)는 유선 또는 무선 통신 방식으로 연결되어 상호 간에 데이터(예를 들어, 영상 데이터 등)를 송수신할 수 있다.

설명의 편의를 위하여, 도 1에는 시스템(1)에 사용자 단말(10) 및 서버(20)가 포함되는 것으로 도시하였으나, 이에 한정되지 않는다. 예를 들어, 시스템(1)에는 다른 외부 디바이스(미도시)가 포함될 수 있으며, 이하에서 설명될 사용자 단말(10) 및 서버(20)의 동작이 단일 디바이스(예를 들어, 사용자 단말(10) 또는 서버(20)) 또는 보다 많은 디바이스들에 의하여 구현될 수도 있다.

사용자 단말(10)은 디스플레이 장치 및 사용자 입력을 수신하는 장치(예를 들어, 키보드, 마우스 등)를 구비하고, 메모리와 프로세서를 포함하는 컴퓨팅 장치일 수 있다. 예를 들어, 사용자 단말(10)은 노트북(notebook) PC, 데스크탑(desktop) PC, 랩탑(laptop), 테블릿 컴퓨터(tablet computer), 스마트 폰 등이 해당될 수 있으나, 이에 한정되지 않는다.

서버(20)는, 사용자 단말(10)을 포함하는 외부 디바이스(미도시)와 통신하는 장치일 수 있다. 일 예로서, 서버(20)는 병리 슬라이드 이미지, 병리 슬라이드 이미지에 대응하는 비트맵 이미지, 병리 슬라이드 이미지의 분석에 의하여 생성된 정보(예를 들어, 병리 슬라이드 이미지에 표현된 적어도 하나의 조직(tissue) 및 세포(cell)에 대한 정보, 바이오마커 발현(expression) 정보 등을 포함함), 병리 슬라이드 이미지의 분석을 위하여 이용되는 머신러닝 모델에 대한 정보를 포함하여 다양한 데이터를 저장하는 장치일 수 있다. 또는, 서버(20)는 메모리와 프로세서를 포함하고, 자체적인 연산 능력을 갖춘 컴퓨팅 장치일 수 있다. 서버(20)가 컴퓨팅 장치인 경우, 서버(20)는 도 1 내지 도 13b를 참조하여 후술할 사용자 단말(10)의 동작들 중 적어도 일부를 수행할 수 있다. 예를 들어, 서버(20)는 클라우드(cloud) 서버일 수도 있으나, 이에 한정되지 않는다.

사용자 단말(10)은 병리 슬라이드 이미지 및/또는 병리 슬라이드의 분석을 통하여 생성된 정보를 나타내는 이미지를 출력한다. 예를 들어, 이미지에는 병리 슬라이드 이미지에 표현된 적어도 하나의 조직 및 세포에 대한 다양한 정보가 표현될 수 있다. 또한, 이미지에는 바이오마커의 발현 정보가 표현될 수 있다. 또한, 이미지는 병리 슬라이드 이미지에 포함된 적어도 일부 영역에 대한 의학적 정보를 포함하는 레포트일 수 있다.

병리 슬라이드 이미지는 인체 내에서 떼어낸 조직 등을 현미경으로 관찰하기 위하여 일련의 화학적 처리 과정을 거쳐 고정 및 염색된 병리 슬라이드를 촬영한 이미지를 지칭할 수 있다. 일 예로서, 병리 슬라이드 이미지는 전체 슬라이드에 대한 고해상도의 이미지를 포함하는 전체 슬라이드 이미지(whole slide image)를 지칭할 수 있다. 다른 예로서, 병리 슬라이드 이미지는 이러한 고해상도의 전체 슬라이드 이미지의 일부를 지칭할 수 있다.

한편, 병리 슬라이드 이미지는 전체 슬라이드 이미지에서 패치 단위로 분할된 패치 영역을 지칭할 수 있다. 예를 들어, 패치는 일정한 영역의 크기를 가질 수 있다. 또는, 패치는 전체 슬라이드 내의 포함된 객체의 각각을 포함하는 영역을 지칭할 수 있다.

또한, 병리 슬라이드 이미지는 현미경을 이용하여 촬영된 디지털 이미지를 지칭할 수 있으며, 인체 내의 세포(cell), 조직(tissue) 및/또는 구조(structure)에 대한 정보를 포함할 수 있다.

병리 슬라이드 이미지의 분석에 의하여 병리 슬라이드 이미지에 표현된 생물학적 요소들(예를 들어, 암 세포, 면역 세포, 암 영역 등)가 확인될 수 있다. 이러한 생물학적 요소들은 질병의 조직학적 진단, 질병 예후의 예측, 질병의 치료 방향의 결정 등에 활용될 수 있다.

한편, 병리 슬라이드 이미지를 분석함에 있어서 머신러닝 모델이 이용될 수 있다. 이 때, 머신러닝 모델은 병리 슬라이드 이미지로부터 생물학적 요소들을 인식할 수 있도록 학습되어야 한다. 학습 데이터는, 전문가(예를 들어, 병리학자 등)가 병리 슬라이드 이미지를 대상으로 진행한 어노테이션 작업에 의존하는 경우가 많다. 여기에서, 어노테이션 작업은 전문가가 병리 슬라이드 이미지에 표현된 세포 및/또는 조직의 위치와 종류를 일일이 마킹하는 작업을 포함한다.

다만, 전문가마다의 상이한 기준에 의하여, 어노테이션의 결과는 통일된 정보를 제공하기 어려운 점이 있다. 또한, 머신러닝 모델의 성능 향상과 어노테이션 작업의 양이 비례하기 때문에, 고성능의 머신러닝 모델을 생성하기 위해서는 어노테이션 작업에 많은 비용(cost)이 할당되어야 한다.

일 실시예에 따른 사용자 단말(10)은 머신러닝 모델을 이용하여 병리 슬라이드 이미지를 분석한다. 이 때, 사용자 단말(10)은 대상체가 표현된 병리 슬라이드 이미지 및 대상체의 생물학적 정보(biological information)을 이용하여 학습 데이터를 생성하고, 학습 데이터를 이용하여 머신러닝 모델을 학습한다.

따라서, 전문가의 어노테이션 작업에 의존하는 기존의 머신러닝 모델의 학습과 달리, 사용자 단말(10)은 어노테이션 작업이 수행되지 않더라도(또는, 적은 양의 어노테이션 결과에 의해서도) 머신러닝 모델을 성능을 향상시킬 수 있다. 이에 따라, 머신러닝 모델에 의한 병리 슬라이드 이미지의 분석 결과는 정확도가 향상될 수 있다. 또한, 사용자 단말(10)은 병리 슬라이드 이미지의 분석 결과를 이용하여 피검자의 치료 반응(therapeutic reaction)을 예측할 수 있는 바, 치료 반응의 예측 결과의 정확성도 담보될 수 있다.

일 예로서, 사용자 단말(10)은 대상체의 공간 전사체(Spatial Transcriptomics) 정보를 활용하여 학습 데이터를 생성할 수 있다. 따라서, 전문가의 어노테이션 작업에 의존하는 종래의 학습 데이터와는 달리, 전문가의 기준이 상이함에 따라 머신러닝 모델의 성능이 저하되는 문제가 해소될 수 있다. 또한, 공간 전사체 정보가 활용됨으로써, 병리 슬라이드 이미지에서 공간적인(spatial) 유전자 발현(gene expression) 정보가 획득될 수 있다. 또한, 공간 전사체 과정에 의할 때, 단일 스폿(spot)은 수 개의 세포들이 포함되도록 설정될 수 있다. 따라서, 단일 스폿 내에서 획득된 유전자 발현 정보는 전문가의 시각 인지 능력에 의한 판단보다 더 객관적인 정보 일 수 있다.

다른 예로서, 사용자 단말(10)은 대상체를 서로 다른 방식으로 염색된 병리 슬라이드 이미지들을 이용하여 학습 데이터를 생성할 수 있다. 염색 방식에 따라, 병리 슬라이드 이미지 내에서 특정 색으로 발현되는 생물학적 요소(예를 들어, 세포막 또는 세포핵에 위치한 단백질 등)가 서로 다를 수 있다. 따라서, 서로 다른 방식으로 염색된 병리 슬라이드 이미지들을 통하여, 서로 다른 생물학적 요소를 확인할 수 있다. 이에 따라, 서로 다른 방식으로 염색된 병리 슬라이드 이미지들이 학습 데이터로 활용되는 경우, 머신러닝 모델의 성능이 향상될 수 있다.

이하, 도 2 내지 도 13b를 참조하여, 사용자 단말(10)이 머신러닝 모델을 학습하고, 학습된 머신러닝 모델을 이용하여 병리 슬라이드 이미지를 분석하고, 분석 결과를 이용하여 피검자의 치료 반응을 예측하는 예를 설명한다.

한편, 설명의 편의를 위하여, 명세서의 전반에 걸쳐 사용자 단말(10)이 머신러닝 모델을 학습하고, 학습된 머신러닝 모델을 이용하여 병리 슬라이드 이미지를 분석하고, 분석 결과를 이용하여 피검자의 치료 반응을 예측하는 것으로 설명하였으나, 이에 한정되지 않는다. 예를 들어, 사용자 단말(10)에 의하여 수행되는 동작들의 적어도 일부는 서버(20)에 의하여 수행될 수도 있다.

다시 말해, 도 1 내지 도 13b를 참조하여 설명되는 사용자 단말(10)의 동작들 중 적어도 일부는 서버(20)에 의하여 수행될 수 있다. 예를 들어, 서버(20)는 대상체가 표현된 병리 슬라이드 이미지 및 대상체의 생물학적 정보를 이용하여 학습 데이터를 생성할 수 있다. 그리고, 서버(20)는 학습 데이터에 의하여 머신러닝 모델을 학습할 수 있다. 그리고, 서버(20)는 학습된 머신러닝 모델을 이용하여 병리 슬라이드 이미지를 분석하고, 분석의 결과를 사용자 단말(10)로 전송할 수 있다. 그리고, 서버(20)는 분석의 결과를 이용하여 피검자의 치료 반응을 예측하고, 예측의 결과를 사용자 단말(10)로 전송할 수 있다. 다만, 서버(20)의 동작은 상술한 바에 한정되지 않는다.

도 2를 참조하면, 시스템(2)은 사용자 단말(11, 12), 스캐너(50), 이미지 관리 시스템(61), AI 기반 바이오마커 분석 시스템(62), 실험실 정보 관리 시스템(63) 및 서버(70)를 포함한다. 또한, 시스템(2)에 포함된 구성요소들(11, 12, 50, 61, 62, 63, 70)은 네트워크(80)를 통하여 서로 연결될 수 있다. 예를 들어, 네트워크(80)는 유선 또는 무선 통신 방식으로 구성요소들(11, 12, 50, 61, 62, 63, 70)이 서로 연결될 수 있는 네트워크일 수 있다. 예를 들어, 도 2에 도시된 시스템(2)은 병원, 연구실, 실험실들 등에 있는 서버들, 및/또는 의사 또는 연구원들의 사용자 단말에 접속될 수 있는 네트워크를 포함할 수 있다.

본 개시의 다양한 실시예들에 따르면, 도 3a 내지 도 13b를 참조하여 후술할 방법은 사용자 단말(11, 12), 이미지 관리 시스템(61), AI 기반 바이오마커 분석 시스템(62), 실험실 정보 관리 시스템(63) 및/또는 병원 또는 연구실 서버(70)에서 수행될 수 있다.

스캐너(50)는 피검자(90)의 조직 샘플을 이용하여 생성된 조직 샘플 슬라이드로부터 디지털화된 이미지를 획득할 수 있다. 예를 들어, 스캐너(50), 사용자 단말(11, 12), 이미지 관리 시스템(61), AI 기반 바이오마커 분석 시스템(62), 실험실 정보 관리 시스템(63) 및/또는 병원 또는 연구실 서버(70)는 각각 하나 이상의 컴퓨터, 서버, 및/또는 모바일 디바이스를 통해 인터넷과 같은 네트워크(80)에 접속되거나, 하나 이상의 컴퓨터, 및/또는 모바일 디바이스를 통해 사용자(30) 및/또는 피검자(90)와 통신할 수 있다.

사용자 단말(11, 12), 이미지 관리 시스템(61), AI 기반 바이오마커 분석 시스템(62), 실험실 정보 관리 시스템(63) 및/또는 병원 또는 연구실 서버(70)는 하나 이상의 피검자(90)의 조직 샘플, 조직 샘플 슬라이드, 조직 샘플 슬라이드의 디지털화된 이미지들, 또는 이들의 임의의 조합을 생성하거나, 그렇지 않은 경우 다른 장치로부터 획득할 수 있다. 또한, 사용자 단말(11, 12), 이미지 관리 시스템(61), AI 기반 바이오마커 분석 시스템(62), 실험실 정보 관리 시스템(63)은 피검자(90)의 연령, 병력, 암 치료 이력, 가족 이력, 과거 생검 기록 또는 피검자(90)의 질병 정보 등과 같은 피검자 특정 정보의 임의의 조합을 획득할 수 있다.

스캐너(50), 사용자 단말(11, 12), 이미지 관리 시스템(61), 실험실 정보 관리 시스템(63) 및/또는 병원 또는 연구실 서버(70)는 네트워크(80)를 통해 디지털화된 슬라이드 이미지들 및/또는 피검자 특정 정보를 AI 기반 바이오마커 분석 시스템(62)에 송신할 수 있다. AI 기반 바이오마커 분석 시스템(62)은 스캐너(50), 사용자 단말(11, 12), 이미지 관리 시스템(61), 실험실 정보 관리 시스템(63) 및/또는 병원 또는 연구실 서버(70) 중 적어도 하나로부터 수신된 이미지들 및 데이터를 저장하기 위한 하나 이상의 저장 디바이스(미도시)를 포함할 수 있다. 또한, AI 기반 바이오마커 분석 시스템(62)은 수신된 이미지들 및 데이터를 처리하도록 훈련된 머신러닝 모델을 저장하는 머신러닝 모델 저장소를 포함할 수 있다. 예를 들어, AI 기반 바이오마커 분석 시스템(62)은 피검자(90)의 병리 슬라이드 이미지로부터 적어도 하나의 세포에 관한 정보, 적어도 하나의 영역에 관한 정보, 바이오마커와 관련된 정보, 의학적 진단 정보 및/또는 의학적 치료 정보 중 적어도 하나를 예측하기 위하여 학습되고 훈련된 머신러닝 모델을 포함할 수 있다.

스캐너(50), 사용자 단말(11, 12), AI 기반 바이오마커 분석 시스템(62), 실험실 정보 관리 시스템(63) 및/또는 병원 또는 연구실 서버(70)는 네트워크(80)를 통해 디지털화된 슬라이드 이미지, 피검자 특정 정보 및/또는 디지털화된 슬라이드 이미지를 분석한 결과를 이미지 관리 시스템(61)에 송신할 수 있다. 이미지 관리 시스템(61)은 수신된 이미지를 저장하기 위한 저장소 및 분석 결과를 저장하기 위한 저장소를 포함할 수 있다.

또한, 본 개시의 다양한 실시예들에 따르면, 피검자(90)의 슬라이드 이미지로부터 적어도 하나의 세포에 관한 정보, 적어도 하나의 영역에 관한 정보, 바이오마커와 관련된 정보, 의학적 진단 정보 및/또는 의학적 치료 정보 중 적어도 하나를 예측하기 위하여 학습되고 훈련된 머신러닝 모델은 사용자 단말(11, 12) 및/또는 이미지 관리 시스템(61)에 저장되어 동작할 수 있다.

본 개시의 다양한 실시예들에 따르면, 병리 슬라이드 이미지의 분석 방법, 피검자 정보의 처리 방법, 피검자군의 선별 방법, 임상 시험의 설계 방법, 바이오마커 발현 정보의 생성 방법, 및/또는 특정 바이오마커에 대한 기준값의 설정 방법은 AI 기반 바이오마커 분석 시스템(62)뿐만 아니라, 사용자 단말(11, 12), 이미지 관리 시스템(61), 실험실 정보 관리 시스템(63) 및/또는 병원 또는 연구실 서버(70)에서 수행될 수 있다.

도 3a를 참조하면, 사용자 단말(100)은 프로세서(110), 메모리(120), 입출력 인터페이스(130) 및 통신 모듈(140)을 포함한다. 설명의 편의를 위하여, 도 3a에는 본 발명과 관련된 구성요소들만이 도시되어 있다. 따라서, 도 3a에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 사용자 단말(100)에 더 포함될 수 있다. 또한, 도 3a에 도시된 프로세서(110), 메모리(120), 입출력 인터페이스(130) 및 통신 모듈(140)은 독립된 장치로 구현될 수도 있음은 본 발명과 관련된 기술 분야에서의 통상의 지식을 가진 자에게 자명하다.

또한, 사용자 단말(100)의 동작은 도 2의 사용자 단말(11, 12), 이미지 관리 시스템(61), AI 기반 바이오마커 분석 시스템(62), 실험실 정보 관리 시스템(63) 및/또는 병원 또는 연구실 서버(70)에서 수행될 수 있다.

프로세서(110)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리할 수 있다. 여기에서, 명령은 메모리(120) 또는 외부 장치(예를 들어, 서버(20) 등)로부터 제공될 수 있다. 또한, 프로세서(110)는 사용자 단말(100)에 포함된 다른 구성요소들의 동작을 전반적으로 제어할 수 있다.

프로세서(110)는 적어도 하나의 제1 대상체가 표현된 제1 병리 슬라이드 이미지 및 적어도 하나의 제1 대상체의 생물학적 정보를 획득할 수 있다. 예를 들어, 생물학적 정보는 제3 병리 슬라이드 이미지로부터 확인된 정보 및 제1 대상체의 공간 전사체 정보 중 적어도 하나를 포함할 수 있다. 이 때, 제3 병리 슬라이드 이미지는 제1 병리 슬라이드 이미지와 구별되는 방식으로 염색된 이미지를 포함할 수 있다.

그리고, 프로세서(110)는 제1 병리 슬라이드 이미지에 포함된 적어도 하나의 제1 패치 및 생물학적 정보를 이용하여 학습 데이터를 생성할 수 있다. 예를 들어, 학습 데이터는 제1 패치에 대응하는 유전자 발현 정보 및 제1 패치에 나타난 적어도 하나의 세포의 종류 중 적어도 하나를 포함할 수 있다.

그리고, 프로세서(110)는 학습 데이터에 의하여 제1 머신러닝 모델을 학습하고, 학습된 제1 머신러닝 모델을 이용하여 제2 병리 슬라이드 이미지를 분석할 수 있다. 일 예로서, 프로세서(110)는 학습 데이터를 정답(ground truth) 데이터로 이용하여 제1 머신러닝 모델을 학습할 수 있다. 다른 예로서, 프로세서(110)는 사용자 입력에 기초하여 생성된 적어도 하나의 어노테이션을 정답 데이터로 이용하여 제1 머신러닝 모델을 학습할 수 있다. 또 다른 예로서, 프로세서(110)는 학습 데이터 및 적어도 하나의 어노테이션을 정답 데이터로 이용하여 제1 머신러닝 모델을 학습할 수 있다.

한편, 프로세서(110)는 학습된 제1 머신러닝 모델에 포함된 적어도 하나의 레이어를 추가 또는 제거함으로써 제2 머신러닝 모델을 생성할 수 있다. 여기에서, 제2 머신러닝 모델은 제2 병리 슬라이드 이미지에 나타난 적어도 하나의 세포의 종류를 식별하는데 이용될 수 있다.

그리고, 프로세서(110)는 제2 병리 슬라이드 이미지에 표현된 제2 대상체의 공간 전사체 정보를 이용하여 제2 병리 슬라이드 이미지에 대응하는 피검자의 치료 반응을 예측할 수 있다. 여기에서, 제2 대상체의 공간 전사체 정보는 학습된 제1 머신러닝 모델에 의하여 획득된 공간 전사체 정보 및 별도로 획득된 공간 전사체 정보 중 적어도 하나를 포함할 수 있다.

예를 들어, 치료 반응의 예측은 제3 머신러닝 모델에 의하여 수행될 수 있다. 일 예로서, 제3 머신러닝 모델은 학습된 제1 머신러닝 모델에 포함된 적어도 하나의 레이어로부터 추출된 특징 벡터(feature vector)를 이용하여 학습될 수 있다. 다른 예로서, 제3 머신러닝 모델은 공간 전사체 정보에 포함된 유전자 발현 정보 및 유전자 발현 정보에 대응하는 위치 정보를 이용하여 학습될 수 있다.

또한, 프로세서(110)는, 제1 머신러닝 모델을 학습하는 학습 데이터로서, 제1 패치 및 제3 병리 슬라이드 이미지에 포함된 제2 패치를 이용할 수 있다. 또는, 프로세서(110)는, 제1 머신러닝 모델을 학습하는 학습 데이터로서, 제1 패치 및 제2 패치가 이미지 처리된 제3 패치를 이용할 수 있다. 여기에서, 제2 패치는 제1 패치와 대응되는 위치를 나타내는 패치를 포함할 수 있다. 또는, 프로세서(110)는, 제1 머신러닝 모델을 학습하는 학습 데이터로서, 제1 패치 및 사용자 입력에 기초하여 생성된 적어도 하나의 어노테이션을 이용할 수 있다. 여기에서, 적어도 하나의 어노테이션은 제3 병리 슬라이드 이미지에 기초하여 생성될 수 있다.

여기에서, 머신러닝 모델은, 기계학습(Machine Learning) 기술과 인지과학에서, 생물학적 신경망의 구조에 기초하여 구현된 통계학적 학습 알고리즘 또는 그 알고리즘을 실행하는 구조를 의미한다.

예를 들어, 머신러닝 모델은 생물학적 신경망에서와 같이 시냅스의 결합으로 네트워크를 형성한 인공 뉴런인 노드(Node)들이 시냅스의 가중치를 반복적으로 조정하여, 특정 입력에 대응한 올바른 출력과 추론된 출력 사이의 오차가 감소되도록 학습함으로써, 문제 해결 능력을 가지는 모델을 나타낼 수 있다. 예를 들어, 머신러닝 모델은 기계학습, 딥러닝 등의 인공지능 학습법에 사용되는 임의의 확률 모델, 뉴럴 네트워크 모델 등을 포함할 수 있다.

예를 들어, 머신러닝 모델은 다층의 노드들과 이들 사이의 연결로 구성된 다층 퍼셉트론(MLP: multilayer perceptron)으로 구현될 수 있다. 본 실시예에 따른 머신러닝 모델은 MLP를 포함하는 다양한 인공신경망 모델 구조들 중의 하나를 이용하여 구현될 수 있다. 예를 들어, 머신러닝 모델은 외부로부터 입력 신호 또는 데이터를 수신하는 입력층, 입력 데이터에 대응한 출력 신호 또는 데이터를 출력하는 출력층, 입력층과 출력층 사이에 위치하며 입력층으로부터 신호를 받아 특성을 추출하여 출력층으로 전달하는 적어도 하나의 은닉층으로 구성될 수 있다. 출력층은 은닉층으로부터 신호 또는 데이터를 수신하여 외부로 출력한다.

따라서, 머신러닝 모델은 하나 이상의 병리 슬라이드 이미지를 수신하고, 병리 슬라이드 이미지에 포함된 하나 이상의 대상체(예를 들어, 세포, 조직, 구조 등)에 대한 정보를 추출하도록 학습될 수 있다.

프로세서(110)는 다수의 논리 게이트들의 어레이로 구현될 수도 있고, 범용적인 마이크로 프로세서와 이 마이크로 프로세서에서 실행될 수 있는 프로그램이 저장된 메모리의 조합으로 구현될 수도 있다. 예를 들어, 프로세서(110)는 범용 프로세서, 중앙 처리 장치(CPU), 마이크로프로세서, 디지털 신호 프로세서(DSP), 제어기, 마이크로제어기, 상태 머신 등을 포함할 수 한다. 일부 환경에서, 프로세서(110)는 주문형 반도체(ASIC), 프로그램 가능 로직 디바이스(PLD), 필드 프로그램 가능 게이트 어레이(FPGA) 등을 포함할 수도 있다. 예를 들어, 프로세서(110)는 디지털 신호 프로세서(DSP)와 마이크로프로세서의 조합, 복수의 마이크로프로세서들의 조합, 디지털 신호 프로세서(DSP) 코어와 결합된 하나 이상의 마이크로프로세서들의 조합, 또는 임의의 다른 그러한 구성들의 조합과 같은 처리 디바이스들의 조합을 지칭할 수도 있다.

메모리(120)는 비-일시적인 임의의 컴퓨터 판독 가능한 기록매체를 포함할 수 있다. 일 예로서, 메모리(120)는 RAM(random access memory), ROM(read only memory), 디스크 드라이브, SSD(solid state drive), 플래시 메모리(flash memory) 등과 같은 비소멸성 대용량 저장 장치(permanent mass storage device)를 포함할 수 있다. 다른 예로서, ROM, SSD, 플래시 메모리, 디스크 드라이브 등과 같은 비소멸성 대용량 저장 장치는 메모리와는 구분되는 별도의 영구 저장 장치일 수 있다. 또한, 메모리(210)에는 운영체제(OS)와 적어도 하나의 프로그램 코드(예를 들어, 도 4 내지 도 13b를 참조하여 후술할 동작을 프로세서(110)가 수행하기 위한 코드)가 저장될 수 있다.

이러한 소프트웨어 구성요소들은 메모리(120)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 사용자 단말(100)에 직접 연결될 수 있는 기록 매체일 수 있고, 예를 들어, 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 또는, 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 모듈(140)을 통해 메모리(120)에 로딩될 수도 있다. 예를 들어, 적어도 하나의 프로그램은 개발자들 또는 어플리케이션의 설치 파일을 배포하는 파일 배포 시스템이 통신 모듈(140)을 통해 제공하는 파일들에 의해 설치되는 컴퓨터 프로그램(예를 들어, 도 4 내지 도 13b를 참조하여 후술할 동작을 프로세서(110)가 수행하기 위한 컴퓨터 프로그램 등)에 기반하여 메모리(120)에 로딩될 수 있다.

입출력 인터페이스(130)는 사용자 단말(100)과 연결되거나 사용자 단말(100)에 포함될 수 있는 입력 또는 출력을 위한 장치(예를 들어, 키보드, 마우스 등)와의 인터페이스를 위한 수단일 수 있다. 도 3a에서는 입출력 인터페이스(130)가 프로세서(110)와 별도로 구성된 요소로 도시되었으나, 이에 한정되지 않으며, 입출력 인터페이스(130)가 프로세서(110)에 포함되도록 구성될 수도 있다.

통신 모듈(140)은 네트워크를 통해 서버(20)와 사용자 단말(100)이 서로 통신하기 위한 구성 또는 기능을 제공할 수 있다. 또한, 통신 모듈(140)은 사용자 단말(100)이 다른 외부 디바이스와 통신하기 위한 구성 또는 기능을 제공할 수 있다. 예를 들어, 프로세서(110)의 제어에 따라 제공되는 제어 신호, 명령, 데이터 등이 통신 모듈(140)과 네트워크를 거쳐 서버(20) 및/또는 외부 디바이스로 전송될 수 있다.

한편, 도 3a에는 도시되지 않았으나, 사용자 단말(100)은 디스플레이 장치를 더 포함할 수 있다. 또는, 사용자 단말(100)은 독립적인 디스플레이 장치와 유선 또는 무선 통신 방식으로 연결되어 상호 간에 데이터를 송수신할 수 있다. 예를 들어, 디스플레이 장치를 통하여 병리 슬라이드 이미지, 병리 슬라이드 이미지의 분석 정보, 치료 반응의 예측 정보 등이 사용자(30)에게 제공될 수 있다.

도 3b를 참조하면, 서버(20)는 프로세서(210), 메모리(220) 및 통신 모듈(230)을 포함한다. 설명의 편의를 위하여, 도 3b에는 본 발명과 관련된 구성요소들만이 도시되어 있다. 따라서, 도 3b에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 서버(200)에 더 포함될 수 있다. 또한, 도 3b에 도시된 프로세서(210), 메모리(220) 및 통신 모듈(230)은 독립된 장치로 구현될 수도 있음은 본 발명과 관련된 기술 분야에서의 통상의 지식을 가진 자에게 자명하다.

프로세서(210)는, 내부 메모리(220), 외부 메모리(미도시), 사용자 단말(10), 또는 외부 장치 중 적어도 하나로부터 병리 슬라이드 이미지를 획득할 수 있다. 프로세서(210)는 적어도 하나의 제1 대상체가 표현된 제1 병리 슬라이드 이미지 및 적어도 하나의 제1 대상체의 생물학적 정보를 획득하거나, 제1 병리 슬라이드 이미지에 포함된 적어도 하나의 제1 패치 및 생물학적 정보를 이용하여 학습 데이터를 생성하거나, 학습 데이터에 의하여 제1 머신러닝 모델을 학습하거나, 학습된 제1 머신러닝 모델을 이용하여 제2 병리 슬라이드 이미지를 분석할 수 있다. 또한, 프로세서(210)는 제2 병리 슬라이드 이미지에 표현된 제2 대상체의 공간 전사체 정보를 이용하여 제2 병리 슬라이드 이미지에 대응하는 피검자의 치료 반응을 예측할 수 있다.

다시 말해, 도 3a를 참조하여 상술한 프로세서(110)의 동작 중 적어도 하나가 프로세서(210)에 의하여 수행될 수 있다. 이 경우, 사용자 단말(100)은 서버(20)로부터 전송된 정보를 디스플레이 장치를 통하여 출력할 수 있다.

한편, 프로세서(210)의 구현 예는 도 3a를 참조하여 상술한 프로세서(110)의 구현 예와 동일하므로, 구체적인 설명은 생략한다.

메모리(220)에는 병리 슬라이드 이미지, 프로세서(210)의 동작에 따라 생성된 데이터 등 다양한 데이터가 저장될 수 있다. 또한, 메모리(220)에는 운영체제(OS)와 적어도 하나의 프로그램(예를 들어, 프로세서(210)가 동작하는데 필요한 프로그램 등)이 저장될 수 있다.

한편, 메모리(220)의 구현 예는 도 3a를 참조하여 상술한 메모리(220)의 구현 예와 동일하므로, 구체적인 설명은 생략한다.

통신 모듈(230)은 네트워크를 통해 서버(200)와 사용자 단말(100)이 서로 통신하기 위한 구성 또는 기능을 제공할 수 있다. 또한, 통신 모듈(140)은 서버(200)가 다른 외부 디바이스와 통신하기 위한 구성 또는 기능을 제공할 수 있다. 예를 들어, 프로세서(210)의 제어에 따라 제공되는 제어 신호, 명령, 데이터 등이 통신 모듈(230)과 네트워크를 거쳐 사용자 단말(100) 및/또는 외부 디바이스로 전송될 수 있다.

도 4를 참조하면, 병리 슬라이드 이미지를 처리하는 방법은 도 1 내지 3a에 도시된 사용자 단말(10, 100) 또는 프로세서(110)에서 시계열적으로 처리되는 단계들로 구성된다. 따라서, 이하에서 생략된 내용이라고 하더라도 도 1 내지 도 3a에 도시된 사용자 단말(10, 100) 또는 프로세서(110)에 관하여 이상에서 기술된 내용은 도 4의 병리 슬라이드 이미지를 처리하는 방법에도 적용될 수 있다.

또한, 도 1 내지 도 3b를 참조하여 상술한 바와 같이, 도 4에 도시된 흐름도의 단계들 중 적어도 하나는 서버(20, 200) 또는 프로세서(210)에서 처리될 수 있다.

410 단계에서, 프로세서(110)는 적어도 하나의 제1 대상체가 표현된 제1 병리 슬라이드 이미지 및 상기 적어도 하나의 제1 대상체의 생물학적 정보(biological information)를 획득한다. 예를 들어, 제1 대상체는 인체 내의 세포, 조직 및/또는 구조를 의미할 수 있다.

예를 들어, 생물학적 정보는 제1 대상체의 공간 전사체 정보(Spatial Transcriptomics) 및 제3 병리 슬라이드 이미지로부터 확인된 정보를 포함할 수 있다. 여기에서, 제3 병리 슬라이드 이미지는 제1 병리 슬라이드 이미지와 구별되는 방식으로 염색된 이미지를 의미한다.

이하, 도 5를 참조하여, 생물학적 정보에 대하여 구체적으로 설명한다.

도 5를 참조하면, 피검자(90) 및 피검자(90)의 인체에 포함된 대상체(91)가 도시되어 있다.

일 예로서, 대상체(91)의 생물학적 정보에는 대상체(91)의 공간 전사체 정보(511)가 포함될 수 있다. 공간 전사체 정보(511)는 공간 전사체 과정을 통하여 획득되는 정보를 의미한다. 예를 들어, 공간 전사체 정보(511)는, 공간 전사체 과정을 통하여 획득된 시퀀스 데이터, 시퀀스 데이터에 대하여 데이터 프로세싱을 거침에 따라 확인되는 유전자 발현 정보 등을 포함할 수 있다.

공간 전사체 과정은, 조직 샘플의 유전자 발현을 측정하고 유전자가 발현하는 위치를 매핑할 수 있게 해주는 분자 프로파일링 방법이다. 세포와 조직의 상대적 위치 관계는, 세포 또는 조직의 정상적인 발달과 질병의 병리를 이해하는 데 중요하다. 다만, 기존의 Bulk-RNAseq은 다양한 조직, 다양한 세포들이 한꺼번에 섞여서 분석되었기 때문에, 공간 상에서의 세부적인 유전자 발현 양상은 알 수 없다. 공간 전사체 과정을 통해, 공간 상에서의 유전자 발현 양상이 확인될 수 있다. 따라서, 질병에 대한 이해도 뿐 만 아니라, 질병의 진단과 치료의 정확도가 향상될 수 있다.

공간 전사체 정보에는 병리 슬라이드 이미지 및/또는 병리 슬라이드 이미지에 포함된 적어도 하나의 격자(grid)에 대응하는 유전자 정보가 포함된다. 예를 들어, 병리 슬라이드 이미지는 복수의 격자들로 구분될 수 있고, 단일 격자는 1mm * 1mm의 영역일 수 있으나, 이에 한정되지 않는다.

프로세서(110)는 시퀀스 데이터를 프로세싱하여 병리 슬라이드 이미지의 일부 영역(예를 들어, 단일 격자 또는 복수의 격자들)을 추출하고, 추출된 영역에 대응하는 유전자 정보를 획득함으로써 공간 전사체 정보를 획득할 수 있다.

이하, 도 6을 참조하여, 프로세서(110)가 대상체(91)의 공간 전사체 정보(511)를 획득하는 일 예를 설명한다.

610 단계에서, 프로세서(110)는 공간 전사체 과정을 통하여 시퀀스 데이터를 획득한다.

예를 들어, 공간 전사체 과정은 샘플 준비(Sample Prep), 이미징(Imaging), 바코딩 및 라이브러리 구축(Barcoding & Library Construction) 및 시퀀싱(Sequencing)의 단계들을 포함할 수 있다.

620 단계에서, 프로세서(110)는 시퀀스 데이터에 데이터 프로세싱을 수행하여 스폿에 대응하는 유전자 발현 정보를 획득한다.

프로세서(110)는, 시퀀스 데이터를 프로세싱함으로써, 병리 슬라이드 영상 상의 스폿 위치에 대응하는 유전자 정보를 획득한다. 예를 들어, 병리 슬라이드 영상은 복수의 스폿들로 구분될 수 있고, 단일 스폿은 지름55μm의 원 형태의 영역일 수 있으나, 이에 한정되지 않는다.

예를 들어, 프로세서(110)는, 시퀀스 데이터에 포함된 바코드 정보에 기초하여, 시퀀스 데이터에 포함된 유전자 정보가 병리 슬라이드 이미지의 어느 위치에서 발현된 유전자 정보인지를 확인할 수 있다. 여기에서, 바코드는 병리 슬라이드 이미지 상에서 특정 스폿의 위치 좌표 값으로서, 미리 정해질 수 있다. 즉, 바코드와 병리 슬라이드 이미지 상에서의 좌표는 서로 매칭되어 있을 수 있다.

예를 들어, 단일 스폿 당 30,000개의 CDNA sequence reads가 필요할 수 있으나, 이에 한정되지 않는다. 여기에서, sequence read는 DNA 파편으로부터 시퀀싱된 부분을 의미한다. 구체적으로, Pair-end sequence 데이터의 read1에는 좌표(즉, 병리 슬라이드 이미지의 위치 좌표)와 매칭되는 바코드가 포함되어 있고, read2에는 transcript sequence 정보가 포함되어 있을 수 있다. 즉, DNA 파편의 일 말단에는 해당 DNA 파편을 획득한 스폿의 좌표와 대응되는 바코드 값이 포함되며, 타 말단에는 시퀀스 정보가 포함되어 있을 수 있다.

프로세서(110)는 시퀀스 정보가 포함된 fastq파일을 renference genome에 배열(alignment)함으로써 유전자 발현 정보를 확인할 수 있다. 그리고, 프로세서(110)는 바코드로부터 확인된 공간 정보를 통해 병리 슬라이드 영상의 스폿 별로 다수(예를 들어, 약 5000여 개)의 유전자 발현 정보를 획득할 수 있다.

한편, 도 6에는 도시되지 않았으나, 프로세서(110)는 스폿에 대응하는 유전자 발현 정보를 이용하여 스폿 내에 어떤 종류의 세포가 존재하는지를 확인할 수 있다. 일반적으로, 면역 세포 및 암 세포 등은 세포 특이적으로 많이 발현되는 유전자가 존재한다. 따라서, 프로세서(110)가 스폿에 대응하는 유전자 발현 정보를 해석함으로써, 해당 스폿 영역에 어떤 세포들이 분포하고 있는지 또는 어떤 세포들이 어떠한 비율로 포함되어 있는지를 확인할 수 있다.

한편, 프로세서(110)는 Single Cell RNAseq 데이터를 더 이용하여 스폿 영역에 분포된 세포들의 수 및 종류를 확인할 수 있다. 일반적으로, Single Cell RNAseq 데이터에는 공간적인 정보는 포함되지 않고, 각 세포의 RNA정보 만이 포함된다. 따라서, 프로세서(110)는 각 스폿에 포함된 복수(예를 들어, 약 10개)의 세포들에 대한 시퀀스 데이터와 Single Cell RNAseq 데이터를 수학적으로 해석하여, 각 스폿 마다 어떠한 세포들이 얼마나 포함되었는지 또는 어떠한 비율로 포함되었는지 확인할 수 있다.

한편, 프로세서(110)는 머신러닝 모델을 이용하여 시퀀스 데이터로부터 스폿 내에 어떤 종류의 세포가 존재하는지를 확인할 수 있다. 이를 위하여, 프로세서(110)는 학습 데이터를 이용하여 머신러닝 모델을 학습할 수 있다. 일 예로서, 학습 데이터에는 610 단계를 통해 획득된 시퀀스 데이터가 입력 데이터로, 세포의 종류가 출력 데이터로 포함될 수 있다. 다른 예로서, 학습 데이터에는 610 단계를 통해 획득된 시퀀스 데이터 및 시퀀스 데이터에 대응하는 병리 슬라이드 이미지의 패치가 입력 데이터로, 세포의 종류가 출력 데이터로 포함될 수 있다. 즉, 머신러닝 모델은 시퀀스 데이터 뿐 만 아니라 병리 슬라이드 영상에 포함된 형태(morphology) 특성도 함께 고려하여 세포의 종류를 식별하도록 학습될 수 있다.

도 6을 참조하여 상술한 바에 따르면, 프로세서(110)는 [병리 슬라이드 이미지의 패치 - 패치에 대응하는 유전자 발현 정보]를 포함하는 복수의 쌍들을 생성할 수 있다. 또한, 프로세서(110)는 [병리 슬라이드 이미지의 패치 - 패치에 대응하는 적어도 하나의 세포의 종류에 대한 정보]를 포함하는 복수의 쌍들을 생성할 수 있다. 또한, 프로세서(110)는 [병리 슬라이드 이미지의 패치 - 패치에 대응하는 유전자 발현 정보 - 패치에 대응하는 적어도 하나의 세포의 종류에 대한 정보]를 포함하는 복수의 쌍들을 생성할 수 있다. 이렇게 만들어진 쌍들은 제1 머신러닝 모델의 학습 데이터로 이용될 수 있다. 제1 머신러닝 모델의 학습은 420 단계 및 430 단계를 참조하여 후술한다.

다시 도 5를 참조하면, 다른 예로서, 대상체(91)의 생물학적 정보에는 대상체(91)의 생물학적 요소(예를 들어, 암 세포, 면역 세포, 암 영역 등)에 대한 정보(512)가 포함될 수 있다. 여기에서, 생물학적 요소에 대한 정보(512)는 대상체(91)의 병리 슬라이드 이미지로부터 확인될 수 있다.

병리 슬라이드 이미지가 어떤 방식으로 염색되는지에 따라 대상체(91)에 대한 다양한 생물학적 정보가 확인될 수 있다. 따라서, 서로 다른 방식으로 염색된 경우, 동일한 대상체(91)로부터 서로 다른 생물학적 정보가 확인될 수 있다.

예를 들어, H&E 염색(Hematoxylin and eosin stain)에 따르면, hematoxylin은 주로 핵 영역이 청색에서 자주색을 띄도록 염색되고, eosin은 세포질(cytoplasm)이나 세포 외 기질(extracellular matrix)이 분홍색을 띄도록 염색된다. 따라서, H&E 염색에 의할 경우, 대상체에 포함된 세포 및 조직의 형태가 용이하게 확인될 수 있다.

다만, H&E 염색의 경우, 세포 등에서 발현되는 특이적인 생물학적 요소를 확인하는 데에는 제약이 있다. 따라서, 면역조직화학 염색(immunohistochemistry stain), 특수 염색(special stain), 면역형광 염색(immunofluorescence) 등을 통하여 특정 생물학적 요소의 발현 정도가 확인될 수 있다.

예를 들어, 면역조직화학 염색법으로는 programmed cell death-ligand 1(PD-L1) 염색, human epidermal growth factor receptor 2(HER2) 염색, estrogen receptor(ER) 염색, progesterone receptor(PR) 염색, Ki-67 염색, CD68 염색 등이 포함될 수 있다. 또한, 특수 염색으로는 Van Gieson 염색, Toluidine blue 염색, Giemsa 염색, Masson's trichrome 염색, Periodic acid Schiff(PAS) 염색 등이 포함될 수 있다. 또한, 면역형광 염색으로는 Fluorescence in situ hybridization(FISH) 등이 포함될 수 있다.

상술한 다양한 염색 방법들을 통하여, 다양한 생물학적 요소가 확인될 수 있다.

일 예로서, H&E 염색에 의한 병리 슬라이드 이미지로부터 확인되지 않은 특정 세포 신호의 발현 정도가 확인될 수 있다. 예를 들어, PD-L1 또는 HER2는 악성 종양 세포막(cell membrane) 등에서 발현되는 단백질 또는 수용체로서, PD-L1 염색 또는 HER2 염색을 통해 종양 세포 조직에서의 발현 정도가 평가될 수 있다. 따라서, 발현 정도가 높은 경우, H&E 염색에 의한 병리 슬라이드 이미지로부터 해당 단백질 또는 수용체를 표적으로 하는 항암 치료제의 치료 반응이 높을 것으로 예상될 수 있다.

다른 예로서, H&E 염색에 의한 병리 슬라이드 이미지로부터 명확하게 관찰되지 않은 조직의 구성 물질이 정확히 확인될 수 있다. 예를 들어, Van Gieson 염색은 collagen만 특이적으로 염색하므로, 조직 내에서 collagen 발현 만이 확인될 수 있다.

또 다른 예로서, H&E 염색에 의한 병리 슬라이드 이미지로부터 확인되지 않은 특정 세포의 존재 여부 및/또는 양이 확인될 수 있다. 예를 들어, CD68의 경우 대식세포[macrophage]에 특이적으로 염색이 되므로, H&E 염색에 의한 병리 슬라이드 이미지에서 다른 염증세포와 잘 구별이 되지 않을 수 있는 대식세포의 많고 적음이, CD68 염색에 의한 병리 슬라이드 이미지에서는 쉽게 확인될 수 있다.

프로세서(110)는 머신러닝 모델의 학습 데이터로 공간 전사체 정보(511) 및/또는 생물학적 요소에 대한 정보(512)를 이용할 수 있다. 학습 데이터로 생물학적 요소에 대한 정보(512)가 이용되는 예는 도 10 및 도 11을 참조하여 후술한다.

다시 도 4를 참조하면, 420 단계에서, 프로세서(110)는 제1 병리 슬라이드 이미지에 포함된 적어도 하나의 제1 패치 및 생물학적 정보를 이용하여 학습 데이터를 생성한다.

예를 들어, 학습 데이터는 패치에 대응하는 유전자 발현(gene expression) 정보 및 패치에 나타난 적어도 하나의 세포의 종류 중 적어도 하나를 포함할 수 있다. 학습 데이터에 포함되는 '패치에 나타난 적어도 하나의 세포의 종류'에 대한 정보는, 도 6을 참조하여 상술한 바와 같이, 유전자 발현 정보를 프로세싱 하여 얻은 정보일 수 있다.

이하, 도 7을 참조하여, 제1 머신러닝 모델을 학습하는 학습 데이터의 일 예를 설명한다.

도 7을 참조하면, 병리 슬라이드 이미지(710) 내의 패치(711)가 도시되어 있다. 도 6을 참조하여 상술한 바와 같이, 프로세서(110)는 학습 데이터로 이용될 수 있는 복수의 쌍들을 생성할 수 있다. 예를 들어, 쌍은 [패치(711) - 패치(711)에 대응하는 유전자 발현 정보(721)], [패치(711) - 패치(711)에 대응하는 적어도 하나의 세포의 종류에 대한 정보(722)] 또는 [패치(711) - 패치(711)에 대응하는 유전자 발현 정보(721) - 패치(711)에 대응하는 적어도 하나의 세포의 종류에 대한 정보(722)]일 수 있다.

다시 말해, 학습 데이터에는 패치(711)에 나타난 대상체의 유전자 발현 정보(721) 및/또는 패치(711)에 나타난 대상체의 적어도 하나의 세포의 종류에 대한 정보(722)가 포함될 수 있다. 이 때, 패치(711)에 나타난 적어도 하나의 세포의 종류에 대한 정보는, 유전자 발현 정보(721)를 프로세싱 하여 얻은 정보일 수 있다.

다시 도 4를 참조하면, 430 단계에서, 프로세서(110)는 학습 데이터에 의하여 제1 머신러닝 모델을 학습한다.

예를 들어, 프로세서(110)는 420 단계를 통해 생성된 학습 데이터를 정답(ground truth) 데이터로 이용하여 제1 머신러닝 모델을 학습할 수 있다. 다시 말해, 제1 머신러닝 모델의 학습을 위하여, 병리 슬라이드 이미지 패치가 입력 데이터로 활용되고, [병리 슬라이드 이미지의 패치 - 패치에 대응하는 유전자 발현 정보] 쌍, [병리 슬라이드 이미지의 패치 - 패치에 대응하는 적어도 하나의 세포의 종류에 대한 정보] 또는 [병리 슬라이드 이미지의 패치 - 패치에 대응하는 유전자 발현 정보 - 패치에 대응하는 적어도 하나의 세포의 종류에 대한 정보] 쌍이 출력 데이터로 활용될 수 있다.

일 예로서, [병리 슬라이드 이미지의 패치 - 패치에 대응하는 유전자 발현 정보] 쌍이 출력 데이터로 이용되는 경우, 제1 머신러닝 모델은 패치를 입력 받아서 해당 패치의 위치에서의 유전자 발현 정보를 예측하도록 학습될 수 있다.

다른 예로서, [병리 슬라이드 이미지의 패치 - 패치에 대응하는 적어도 하나의 세포의 종류에 대한 정보] 쌍이 출력 데이터로 이용되는 경우, 제1 머신러닝 모델은 패치를 입력 받아서 해당 패치의 위치에 어떤 종류의 세포가 존재하는지 예측하도록 학습될 수 있다.

또 다른 예로서, [병리 슬라이드 이미지의 패치 - 패치에 대응하는 유전자 발현 정보 - 패치에 대응하는 적어도 하나의 세포의 종류에 대한 정보] 쌍이 출력 데이터로 이용되는 경우, 제1 머신러닝 모델은 패치를 입력 받아서 해당 패치의 위치에 대응하는 유전자 발현 정보 및 세포의 종류를 예측하도록 학습될 수 있다.

한편, 프로세서(110)는 사용자 입력에 기초하여 생성된 적어도 하나의 어노테이션(annotation)을 이용하여 제1 머신러닝 모델을 학습할 수도 있다. 예를 들어, 어노테이션을 활용한 제1 머신러닝 모델의 학습은, 420 단계를 통해 생성된 학습 데이터를 정답(ground truth) 데이터로 활용한 학습의 성능이 충분하지 못한 경우에 부가적으로 수행될 수 있으나, 이에 한정되지 않는다.

예를 들어, 사용자(30)는 병리 슬라이드 이미지의 패치를 참조하여 어노테이션을 수행할 수 있고, 어노테이션에는 패치 내의 위치 정보가 포함될 수 있다. 한편, 어노테이션을 수행하는 사용자의 수에는 제한이 없다.

한편, 프로세서(110)는 학습된 제1 머신러닝 모델에 포함된 적어도 하나의 레이어를 추가, 제거 또는 제거 후 추가함으로써 대상체에 포함된 적어도 하나의 세포의 종류를 식별하는 제2 머신러닝 모델을 생성할 수도 있다.

일 예로서, 제1 머신러닝 모델의 학습에 [병리 슬라이드 이미지의 패치 - 패치에 대응하는 유전자 발현 정보] 쌍이 이용된 경우, 프로세서(110)는 학습된 제1 머신러닝 모델에 세포의 종류를 예측하는 적어도 하나의 레이어를 추가함으로써 제2 머신러닝 모델을 생성할 수 있다.

다른 예로서, 제1 머신러닝 모델의 학습에 [병리 슬라이드 이미지의 패치 - 패치에 대응하는 유전자 발현 정보 - 패치에 대응하는 적어도 하나의 세포의 종류에 대한 정보] 쌍이 이용된 경우, 프로세서(110)는 학습된 제1 머신러닝 모델에서 유전자 발현 정보를 예측하는 적어도 하나의 레이어를 제거하고 새로운 레이어를 추가함으로써 제2 머신러닝 모델을 생성할 수 있다.

440 단계에서, 프로세서(110)는 학습된 제1 머신러닝 모델을 이용하여 제2 병리 슬라이드 이미지를 분석한다.

도 4에는 도시되지 않았으나, 프로세서(110)가 제2 머신러닝 모델을 생성한 경우, 프로세서(110)는 제2 머신러닝 모델을 이용하여 제2 병리 슬라이드 이미지를 분석할 수 있다.

도 4 내지 도 7을 참조하여 상술한 바에 따르면, 전문가의 어노테이션 작업에 의존하는 기존의 머신러닝 모델의 학습과 달리, 프로세서(110)는 어노테이션 작업이 수행되지 않더라도(또는, 적은 양의 어노테이션 결과에 의해서도) 머신러닝 모델을 성능을 향상시킬 수 있다. 이에 따라, 머신러닝 모델에 의한 병리 슬라이드 이미지의 분석 결과는 정확도가 향상될 수 있다.

도 8을 참조하면, 병리 슬라이드 이미지를 처리하는 방법은 도 1 내지 3a에 도시된 사용자 단말(10, 100) 또는 프로세서(110)에서 시계열적으로 처리되는 단계들로 구성된다. 따라서, 이하에서 생략된 내용이라고 하더라도 도 1 내지 도 3a에 도시된 사용자 단말(10, 100) 또는 프로세서(110)에 관하여 이상에서 기술된 내용은 도 8의 병리 슬라이드 이미지를 처리하는 방법에도 적용될 수 있다.

또한, 도 1 내지 도 3b를 참조하여 상술한 바와 같이, 도 8에 도시된 흐름도의 단계들 중 적어도 하나는 서버(20, 200) 또는 프로세서(210)에서 처리될 수 있다.

한편, 810 단계 내지 840 단계는 각각 410 단계 내지 440 단계에 대응된다. 따라서, 이하에서는 810 단계 내지 840 단계에 대한 구체적인 설명은 생략한다.

850 단계에서, 프로세서(110)는 제2 병리 슬라이드 이미지에 표현된 제2 대상체의 공간 전사체 정보를 이용하여 제2 병리 슬라이드 이미지에 대응하는 피검자(90)의 치료 반응(therapeutic reaction)을 예측한다.

예를 들어, 프로세서(110)는 제3 머신러닝 모델을 이용하여 피검자(90)의 치료 반응을 예측할 수 있다. 여기에서, 제2 대상체의 공간 전사체 정보는 학습된 제1 머신러닝 모델에 의하여 획득된 공간 전사체 정보(예를 들어, 유전자 발현 정보) 및/또는 별도로 획득된 공간 전사체 정보 중 적어도 하나를 포함할 수 있다. 이하, 도 9를 참조하여, 프로세서(110)가 피검자(90)의 치료 반응을 예측하는 일 예를 설명한다.

도 9를 참조하면, 공간 전사체 정보(921)는 학습된 제1 머신러닝 모델(911)을 통하여 생성될 수 있다. 또한, 공간 전사체 정보(922)는 별도의 공간 전사체 과정(912)을 통하여 생성될 수 있다. 공간 전사체 과정(912)을 통하여 병리 슬라이드 이미지 및 해당 이미지에 포함된 격자들 각각에 대응하는 유전자 발현 정보가 획득될 수 있음은 610 단계를 참조하여 상술한 바와 같다.

프로세서(110)는 제3 머신러닝 모델(930)을 이용하여 치료 반응 예측 결과(940)를 생성한다. 예를 들어, 제3 머신러닝 모델(930)에는 공간 전사체 정보(921) 및/또는 공간 전사체 정보(922)가 입력되고, 피검자(90)의 치료 반응 예측 결과(940)가 생성될 수 있다.

일 예로서, 제3 머신러닝 모델(930)은 공간 전사체 정보에 포함된 유전자 발현 정보 및 유전자 발현 정보에 대응하는 위치 정보를 이용하여 학습될 수 있다.

일반적으로, 2차원 이미지에 기반하여 머신러닝 모델(예를 들어, convolutional neural network 등)이 학습되는 경우, 일정한 크기(예를 들어, 3*3 픽셀)의 필터가 적용되어 이미지의 패턴이 확인되고, 이러한 작업이 각 채널(예를 들어, RGB channel 3개) 별로 수행된다. 그 후에, 필터를 거친 값이 다층 신경망을 통과하여 출력된 결과값과 실제 결과값(예를 들어, Ground Truth)의 차이에 기초하여 역전파가 수행됨으로써 머신러닝 모델이 학습된다.

상술한 과정과 유사하게, 프로세서(110)는, 각 스폿에 대응하는 유전자 발현 정보를 2차원 이미지의 채널, 유전자 발현 정보에 대응하는 위치 정보를 2차원 이미지의 픽셀로 치환할 수 있다. 그리고, 프로세서(110)는 제3 머신러닝 모델(930)의 다층 신경망을 통과하여 출력된 결과값과 실제 환자의 치료 반응 또는 예후에 대한 결과 값의 차이에 기초하여 역전파를 수행함으로써 제3 머신러닝 모델(930)을 학습할 수 있다.

여기에서, 각 스폿에 대응하는 유전자 발현 정보를 채널로 치환하기 위해서는, 유전자 발현 정보가 공간적으로 구분되어야 한다. 따라서, 프로세서(110)는 610 단계를 참조하여 상술한 과정을 수행함으로써 병리 슬라이드 영상 상의 스폿 위치 각각에 대응하는 유전자 정보를 획득할 수도 있다.

다른 예로서, 제3 머신러닝 모델(930)은 학습된 제1 머신러닝 모델에 포함된 적어도 하나의 레이어로부터 추출된 특징 벡터(feature vector)를 이용하여 학습될 수 있다.

430 단계를 참조하여 상술한 바와 같이, 제1 머신러닝 모델은 패치에 기초하여 해당 패치의 위치에서의 유전자 발현 정보를 예측하는 모델, 패치에 기초하여 해당 패치의 위치에 어떤 종류의 세포가 존재하는지 예측하는 모델 또는 패치에 기초하여 해당 패치의 위치에 대응하는 유전자 발현 정보 및 세포의 종류를 예측하는 모델로 학습될 수 있다.

먼저, 프로세서(110)는 학습된 제1 머신러닝 모델에 병리 슬라이드 이미지를 입력하고, 학습된 제1 머신러닝 모델에 포함된 적어도 하나의 레이어에서 특징 벡터를 추출할 수 있다. 예를 들어, 추출되는 레이어는 사용자(30)에 의하여 실험적으로 판단 및 선택된 레이어일 수 있고, 피검자(90)의 치료 반응 또는 예후를 적절하게 예측하는 레이어일 수 있다. 즉, 제1 머신러닝 모델이 병리 슬라이드 이미지로부터 유전적 및/또는 조직학적으로 중요한 정보들(예를 들어, 치료 반응성 예측에 근거가 되는 유전자 발현 정보 또는 세포의 종류, 특징 등)을 잘 추출하도록 학습되었다고 가정한다면, 학습된 제1 머신러닝 모델의 임의의 중간 레이어로부터 추출된 특징벡터도 유전적 및/또는 조직학적으로 중요한 정보들을 포함하고 있다고 예상할 수 있다.

프로세서(110)는 학습된 제1 머신러닝 모델에 포함된 적어도 하나의 레이어에서 특징 벡터를 추출하는 과정을 단일 병리 슬라이드 이미지에 포함된 복수의 패치들 전체에 대하여 수행할 수 있다.

그 후에, 프로세서(110)는 특징 벡터들을 통합하여 단일 길이를 갖는 벡터가 되도록 풀링(pooling)을 수행할 수 있다. 예를 들어, 프로세서(110)는 특징 벡터들의 평균 값을 이용하는 풀링을 수행할 수도 있고, 특징 벡터들의 각 차원에서의 최대 값을 이용하는 풀링을 수행할 수도 있고, Bag-of-Word나 Fisher Vector와 같은 dictionary기반의 풀링을 수행할 수도 있고, 인공 신경망을 이용한 attention 기반의 풀링을 수행할 수도 있다. 이러한 풀링을 통하여, 단일 피검자(90)의 병리 슬라이드 이미지에 대응하는 단일 벡터가 정의될 수 있다.

그 후에, 프로세서(110)는, 정의된 벡터를 이용하여 특정 면역 항암제에 대한 반응성 또는 특정 치료에 대한 반응성을 예측하는 제3 머신러닝 모델(930)을 학습할 수 있다.

도 8 및 도 9를 참조하여 상술한 바에 따르면, 프로세서(110)는 제3 머신러닝 모델(930)의 학습 및 제3 머신러닝 모델(930)을 통한 피검자(90)의 치료 반응의 예측을 수행함으로써, 병리 슬라이드 이미지의 형태학적 특성만을 이용하여 치료에 대한 반응성을 예측하는 것에 비하여 예측의 정확도가 향상될 수 있다.

도 6 및 도 7을 참조하여 상술한 바에 따르면, 프로세서(110)는 공간 전사체 정보(511)를 이용하여 제1 머신러닝 모델을 학습할 수 있다. 다른 한편으로, 프로세서(110)는 생물학적 요소에 대한 정보(512)를 이용하여 제1 머신러닝 모델을 학습할 수도 있다. 이하, 도 10 및 도 11을 참조하여, 프로세서(110)가 생물학적 요소에 대한 정보(512)를 이용하여 제1 머신러닝 모델을 학습하는 예들을 설명한다.

도 10을 참조하면, 대상체(1010) 및 대상체를 나타내는 병리 슬라이드 이미지들(1031, 1041)이 도시되어 있다. 여기에서, 병리 슬라이드 이미지(1031)의 제1 염색 방식(1021)과 병리 슬라이드 이미지(1041)의 제2 염색 방식(1022)는 서로 다른 방식으로 가정한다. 예를 들어, 제1 염색 방식(1021)은 특정 생물학적 요소를 선택적으로 염색하는 염색 방식뿐만 아니라, 대상체에 포함된 모든 세포의 핵, 세포질, 및 세포 외 기질의 형태가 용이하게 확인될 수 있는 염색 방식(예를 들어, H&E 염색)을 포함할 수 있다.

프로세서(110)는 제1 머신러닝 모델(1050)의 학습을 위한 학습 데이터를 생성할 수 있다. 이 때, 학습 데이터는 병리 슬라이드 이미지(1031)에 포함된 패치(1032) 및 병리 슬라이드 이미지(1041)에 포함된 패치(1042)를 포함할 수 있다. 여기에서, 패치(1032)와 패치(1042)는 대상체(1010)의 동일한 위치를 나타낼 수 있다. 다시 말해, 패치(1042)는 패치(1032)와 서로 대응하는 위치를 나타낼 수 있다.

도 10에서, 제1 염색 방식(1021)은 생물학적 요소 A를 선택적으로 염색할 수 있는 방식이고, 제2 염색 방식(1022)은 생물학적 요소 B를 선택적으로 염색할 수 있는 방식이라고 가정한다. 다양한 생물학적 요소들을 선택적으로 염색할 수 있는 방법들은 도 5를 참조하여 상술한 바와 같다. 또한, 도 10에는 두 종류의 염색 방식들(1021, 1022)에 따른 병리 슬라이드 이미지들(1031, 1041)이 도시되어 있으나, 이에 한정되지 않는다.

프로세서(110)는 이미지(1031) 상에서의 대상체(1010)와 이미지(1041) 상에서의 대상체(1010)가 완벽하게 포개어질 수 있도록 이미지 프로세싱을 수행한다. 예를 들어, 프로세서(110)는 이미지(1031)와 이미지(1041)에 기하학적인 변형(예를 들어, 확대, 축소, 회전 등)을 가함으로써, 이미지(1031) 상에서의 대상체(1010)와 이미지(1041) 상에서의 대상체(1010)를 정확하게 정렬(align)할 수 있다. 그리고, 프로세서(110)는 이미지들(1031, 1041) 각각의 서로 대응되는 위치에서 패치들(1032, 1042)를 추출한다. 이러한 방식으로, 프로세서(110)는 이미지(1031)로부터 추출된 패치 및 이미지(1041)로부터 추출된 패치로 구성된 복수의 쌍을 생성할 수 있다.

그 후에, 프로세서(110)는 패치들(1032, 1042)을 이용하여 제1 머신러닝 모델(1050)을 학습한다. 예를 들어, 프로세서(110)는 패치(1032)를 입력 데이터로, 패치(1042)를 출력 데이터로 활용하여 제1 머신러닝 모델(1050)을 학습할 수 있다. 이 경우에, 패치(1042)는 정답(ground truth) 데이터로 활용될 수 있다.

도 11을 참조하면, 대상체(1110) 및 대상체를 나타내는 병리 슬라이드 이미지들(1131, 1141)이 도시되어 있다. 여기에서, 염색 방식들(1121, 1122), 병리 슬라이드 이미지들(1131, 1141) 및 패치들(1132, 1142)에 관한 구체적인 설명은 도 10을 참조하여 상술한 바와 같다.

프로세서(110)는 제1 머신러닝 모델(1160)의 학습을 위한 학습 데이터를 생성할 수 있다. 이 때, 학습 데이터는 패치(1132) 및 패치(1142)에 이미지 처리(1150)가 수행된 패치(1143)를 포함할 수 있다.

프로세서(110)는 패치(1142)에 하나 이상의 이미지 프로세싱을 수행하여 패치(1143)을 생성할 수 있다.

일 예로서, 프로세서(110)는 패치(1142)에서 특정 진하기 이상으로 염색된 부분만 남도록 이미지 필터링을 수행하거나, 또는 특정 색상이 발현된 부분만 남기고 나머지는 지워버리는 이미지 필터링을 수행할 수 있다. 다만, 프로세서(110)가 수행하는 이미지 프로세싱의 기법은 상술한 바에 한정되지 않는다.

다른 예로서, 프로세서(110)는 패치(1142)에 더욱 복잡한 이미지 프로세싱 기법이나 별도의 기계학습 모델을 적용하여 의미 정보(semantic information)를 추출하고, 추출된 정보를 패치(1143)에 대응하는 학습 데이터로 활용할 수 있다. 예를 들어, 추출된 정보는 특정 세포(예를 들어, 암 세포, 면역 세포 등)의 위치를 점으로 표시한 정보, 염색의 발현 정도 및/또는 염색이 발현된 형태에 따라 세포의 종류나 클래스를 판별하여 표시한 정보 등이 해당될 수 있다.

여기에서, 이미지 프로세싱 기법의 경우, 이미지(1141)에 포함된 픽셀 별 염색의 발현 양을 수치화하고, 픽셀의 위치 정보를 활용한 알고리즘일 수 있다. 이 경우, 추출된 정보는 특정 세포의 종류 및 위치에 대한 정보를 포함할 수 있다.

한편, 별도의 기계학습 모델은 이미지(1141)가 염색된 방식(1122)이 타겟팅하는 생물학적 요소들의 위치와 종류를 인식하도록 하는 모델일 수 있다. 예를 들어, 별도의 기계학습 모델은, 제2 염색 방식(1122)으로 염색된 패치가 입력되면, 제2 염색 방식(1122)이 발현시키는 생물학적 요소인 B를 검출하도록 학습될 수 있다. 여기에서, 제2 염색 방식(1122)이 암 세포에 발현되는 염색이라면, 별도의 기계학습 모델은 제2 염색 방식(1122)으로 염색된 패치를 수신하여 암 세포를 검출하도록 학습될 수 있다. 검출의 결과는 각 암 세포의 위치를 가리키는 점일 수도 있고, 암 세포를 픽셀 수준에서 분할(segmentation)한 결과일 수도 있다.

도 11에는 도시되지 않았으나, 프로세서(110)는 패치(1132) 및 사용자 입력에 기초하여 생성된 적어도 하나의 어노테이션을 이용하여 제1 머신러닝 모델(1160)을 학습할 수도 있다. 여기에서, 어노테이션은 이미지(1141)에 기초하여 생성되는 것일 수 있다. 예를 들어, 어노테이션을 활용한 제1 머신러닝 모델의 학습은, 도 10 및 도 11을 참조하여 상술한 학습 데이터를 정답(ground truth) 데이터로 활용한 학습의 성능이 충분하지 못한 경우에 부가적으로 수행될 수 있으나, 이에 한정되지 않는다.

예를 들어, 사용자(30)는 이미지(1141)를 참조하여 어노테이션을 수행할 수 있고, 어노테이션에는 패치(1142) 내의 위치 정보가 포함될 수 있다. 한편, 어노테이션을 수행하는 사용자의 수에는 제한이 없다.

한편, 프로세서(110)는 학습된 제1 머신러닝 모델(1160)에 포함된 적어도 하나의 레이어를 추가, 제거 또는 제거 후 추가함으로써 별도의 머신러닝 모델을 생성할 수도 있다. 예를 들어, 프로세서(110)는 학습된 제1 머신러닝 모델(1160)에서 이미지를 그리는 역할을 하는 레이어를 제거하고, 최종 목적 작업을 하는 레이어를 새롭게 추가함으로써 별도의 머신러닝 모델을 생성할 수 있다. 여기에서, 최종 목적 작업은, 이미지들(1131, 1141)로부터 식별 가능한 생물학적 요소 이외에 별도로 식별될 필요가 있는 생물학적 요소를 추가적으로 인식하는 작업을 의미할 수 있다. 또는, 최종 목적 작업은, 바이오 마커의 발현 정도 또는 치료 반응성의 예측 등의 의학적 정보를 도출할 수 있는 작업을 의미할 수도 있다.

도 10 및 도 11을 참조하여 상술한 바에 따르면, 같은 조직을 서로 다른 종류의 물질로 염색한 병리 슬라이드 이미지들이 머신러닝 모델의 학습에 활용됨으로써, 사람의 어노테이션에 따른 부정확 문제와 비용 증가 문제가 해소될 수 있고, 학습 데이터가 대량으로 확보될 수 있다.

도 12를 참조하여 후술할 예는 도 10 및 도 11을 참조하여 상술한 프로세서(110)의 동작일 수 있다. 예를 들어, 도 12에 도시된 예에 따라, 프로세서(110)는 제1 머신러닝 모델(1050, 1160)을 학습할 수 있다.

도 12를 참조하면, 서로 다른 방식으로 염색된 병리 슬라이드 이미지들을 선택하는 화면(1210)이 도시되어 있다. 다만, 화면(1210)의 구성은 일 예에 불과하며, 다양한 방식으로 변경될 수 있다.

화면(1210)에는 타겟 슬라이드 이미지들의 목록(1220) 및 참조 슬라이드 이미지들의 목록(1230)이 표시될 수 있다. 예를 들어, 타겟 슬라이드 이미지는 제1 염색 방식(1021, 1121)으로 염색된 이미지일 수 있고, 참조 슬라이드 이미지는 제2 염색 방식(1022, 1122)으로 염색된 이미지일 수 있다.

사용자(30)에 의하여 이미지(1221) 및 이미지(1231)가 선택되고, 실행 버튼(1240)이 선택됨으로써, 프로세서(110)는 도 10 및 도 11을 참조하여 상술한 동작을 수행할 수 있다. 예를 들어, 프로세서(110)는 이미지(1231)에 기초하여 이미지(1221)에 표현된 생물학적 요소(예를 들어, 세포, 단백질 및/또는 조직)의 위치 및/또는 종류가 무엇인지 예측하도록 제1 머신러닝 모델(1050, 1160)을 학습할 수 있다.

상술한 프로세서(110)의 동작에 의하여, 이미지(1221)에 표현된 생물학적 요소의 위치 및/또는 종류가 예측된 화면(1250)이 출력될 수 있다. 다만, 도 12에 도시된 화면(1250)의 구성은 일 예에 불과하며, 다양한 방식으로 변경될 수 있다.

예를 들어, 화면(1250)에는, 이미지(1221) 중에서 현재 화면(1250)에 출력된 부분이 표시된 미니 맵(1251)이 출력될 수 있다. 또한, 화면(1250)에는, 현재 화면(1250)에 표시된 부분 중에서 사용자(30)가 주목하는 부분을 나타내는 윈도우(1252)가 설정될 수 있다. 이 때, 윈도우(1252)의 위치 및 크기는 기 설정될 수도 있고, 사용자(30)에 의하여 조정될 수도 있다.

한편, 도 4 및 도 11을 참조하여 상술한 어노테이션의 수행 예들을 도 13a 및 도 13b를 참조하여 설명한다.

머신러닝 모델이 타겟 이미지에서 생물학적 요소(예를 들어, 조직, 세포, 구조 등)를 인식하는 성능이 충분하지 못하다고 판단되는 경우, 사용자(30)가 직접 어노테이션을 수정할 수 있다.

도 13a를 참조하면, 만약 병리 슬라이드 이미지(1310)의 영역(1311)에 나타난 세포들(1321, 1322, 1323)의 종류 및/또는 위치가 잘못 예측되었다고 가정하면, 사용자(30)는 세포들(1321, 1322, 1323)의 레이블링을 직접 수정할 수 있다.

도 13b를 참조하면, 사용자(30)는 병리 슬라이드 이미지(1330)의 영역(1331)에 나타난 복수의 세포들을 포함하는 그리드(1340)를 선택할 수 있고, 그리드(1340)에 포함된 세포들 또는 조직에 대한 레이블링을 일괄적으로 수정할 수도 있다.

상술한 바에 따르면, 전문가의 어노테이션 작업에 의존하는 기존의 머신러닝 모델의 학습과 달리, 프로세서(110)는 어노테이션 작업이 수행되지 않더라도(또는, 적은 양의 어노테이션 결과에 의해서도) 머신러닝 모델을 성능을 향상시킬 수 있다. 이에 따라, 머신러닝 모델에 의한 병리 슬라이드 이미지의 분석 결과는 정확도가 향상될 수 있다. 또한, 프로세서(110)는 병리 슬라이드 이미지의 분석 결과를 이용하여 피검자의 치료 반응을 예측할 수 있는 바, 치료 반응의 예측 결과의 정확성도 담보될 수 있다.

한편, 상술한 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 램, USB, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.

본 실시예와 관련된 기술 분야에서 통상의 지식을 가진 자는 상기된 기재의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 방법들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하며, 권리 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점을 포함하는 것으로 해석되어야 할 것이다.

Claims

적어도 하나의 메모리; 및

적어도 하나의 프로세서;를 포함하고,

상기 프로세서는,

적어도 하나의 제1 대상체가 표현된 제1 병리 슬라이드 이미지 및 상기 적어도 하나의 제1 대상체의 생물학적 정보(biological information)를 획득하고, 상기 제1 병리 슬라이드 이미지에 포함된 적어도 하나의 제1 패치(patch) 및 상기 생물학적 정보를 이용하여 학습 데이터를 생성하고, 상기 학습 데이터에 의하여 제1 머신러닝 모델을 학습하고, 상기 학습된 제1 머신러닝 모델을 이용하여 제2 병리 슬라이드 이미지를 분석하는 컴퓨팅 장치.
제 1 항에 있어서,

상기 생물학적 정보는 제3 병리 슬라이드 이미지로부터 확인된 정보 및 상기 제1 대상체의 공간 전사체(Spatial Transcriptomics) 정보 중 적어도 하나를 포함하고,

상기 제3 병리 슬라이드 이미지는 상기 제1 병리 슬라이드 이미지와 구별되는 방식으로 염색된 이미지를 포함하는 컴퓨팅 장치.
제 1 항에 있어서,

상기 학습 데이터는,

상기 제1 패치에 대응하는 유전자 발현(gene expression) 정보 및 상기 제1 패치에 나타난 적어도 하나의 세포의 종류 중 적어도 하나를 나타내는 데이터를 포함하고,

상기 프로세서는,

상기 학습 데이터를 정답(ground truth) 데이터로 이용하여 상기 제1 머신러닝 모델을 학습하는 컴퓨팅 장치.
제 3 항에 있어서,

상기 프로세서는,

상기 학습된 제1 머신러닝 모델에 포함된 적어도 하나의 레이어를 추가 또는 제거함으로써 상기 대상체에 포함된 적어도 하나의 세포의 종류를 식별하는 제2 머신러닝 모델을 생성하는 컴퓨팅 장치.
제 1 항에 있어서,

상기 프로세서는,

상기 제2 병리 슬라이드 이미지에 표현된 제2 대상체의 공간 전사체 정보를 이용하여 상기 제2 병리 슬라이드 이미지에 대응하는 피검자의 치료 반응(therapeutic reaction)을 예측하는 컴퓨팅 장치.
제 5 항에 있어서,

상기 치료 반응의 예측은 제3 머신러닝 모델에 의하여 수행되고,

상기 제2 대상체의 공간 전사체 정보는 상기 학습된 제1 머신러닝 모델에 의하여 획득된 공간 전사체 정보 및 별도로 획득된 공간 전사체 정보 중 적어도 하나를 포함하는 컴퓨팅 장치.
제 6 항에 있어서,

상기 제3 머신러닝 모델은 상기 학습된 제1 머신러닝 모델에 포함된 적어도 하나의 레이어로부터 추출된 특징 벡터(feature vector)를 이용하여 피검자의 치료 반응을 예측하도록 학습되는 컴퓨팅 장치.
제 6 항에 있어서,

상기 제3 머신러닝 모델은 공간 전사체 정보에 포함된 유전자 발현 정보 및 상기 유전자 발현 정보에 대응하는 위치 정보를 이용하여 피검자의 치료 반응을 예측하도록 학습되는 컴퓨팅 장치.
제 2 항에 있어서,

상기 학습 데이터는 상기 제1 패치 및 상기 제3 병리 슬라이드 이미지에 포함된 제2 패치를 포함하고,

상기 제2 패치는 상기 제3 병리 슬라이드 이미지에서 상기 제1 패치와 대응하는 위치를 나타내는 패치를 포함하는 컴퓨팅 장치.
제 2 항에 있어서,

상기 학습 데이터는 상기 제1 패치 및 상기 제3 병리 슬라이드 이미지에 포함된 제2 패치가 이미지 처리된 제3 패치를 포함하고,

상기 제2 패치는 상기 제3 병리 슬라이드 이미지에서 상기 제1 패치와 대응하는 위치를 나타내는 패치를 포함하는 컴퓨팅 장치.
적어도 하나의 제1 대상체가 표현된 제1 병리 슬라이드 이미지 및 상기 적어도 하나의 제1 대상체의 생물학적 정보(biological information)를 획득하는 단계;

상기 제1 병리 슬라이드 이미지에 포함된 적어도 하나의 제1 패치(patch) 및 상기 생물학적 정보를 이용하여 학습 데이터를 생성하는 단계;

상기 학습 데이터에 의하여 제1 머신러닝 모델을 학습하는 단계; 및

상기 학습된 제1 머신러닝 모델을 이용하여 제2 병리 슬라이드 이미지를 분석하는 단계;를 포함하는 병리 슬라이드 이미지를 분석하는 방법.
제 11 항에 있어서,

상기 생물학적 정보는 제3 병리 슬라이드 이미지로부터 확인된 정보 및 상기 제1 대상체의 공간 전사체(Spatial Transcriptomics) 정보 중 적어도 하나를 포함하고,

상기 제3 병리 슬라이드 이미지는 상기 제1 병리 슬라이드 이미지와 구별되는 방식으로 염색된 이미지를 포함하는 방법.
제 11 항에 있어서,

상기 학습 데이터는,

상기 제1 패치에 대응하는 유전자 발현(gene expression) 정보 및 상기 제1 패치에 나타난 적어도 하나의 세포의 종류 중 적어도 하나를 나타내는 데이터를 포함하고,

상기 학습하는 단계는,

상기 학습 데이터를 정답(ground truth) 데이터로 이용하여 상기 제1 머신러닝 모델을 학습하는 방법.
제 12 항에 있어서,

상기 학습 데이터는 상기 제1 패치 및 상기 제3 병리 슬라이드 이미지에 포함된 제2 패치를 포함하고,

상기 제2 패치는 상기 제3 병리 슬라이드 이미지에서 상기 제1 패치와 대응하는 위치를 나타내는 패치를 포함하는 방법.
제 11 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.