WO2022220385A1

WO2022220385A1 - 공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치 및 방법

Info

Publication number: WO2022220385A1
Application number: PCT/KR2022/002158
Authority: WO
Inventors: 최홍윤; 김영태; 나권중
Original assignee: 주식회사 포트래이
Priority date: 2021-04-15
Filing date: 2022-02-14
Publication date: 2022-10-20
Also published as: EP4325505A1; AU2022257481A1; JP2024518035A; US20240194292A1

Abstract

공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치는 검사 대상체에 대한 조직 이미지를 수신하는 통신 모듈; 조직 이미지로부터 세포 구성 정보를 예측하는 프로그램이 저장된 메모리; 및 프로그램을 실행하는 프로세서를 포함하되, 프로그램은, 공간 전사체 정보와 이와 공간적으로 정합된 조직 이미지로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델에 조직 이미지를 입력하여 세포 구성 정보를 예측하고, 공간 전사체 정보는 공간 정보를 포함하는 전사체 데이터와 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이고, 공간 정보는 조직 이미지 데이터에 2차원 평면으로 배치된 복수의 스팟에 대한 위치정보를 의미하는 것으로서, 각 스팟의 좌표를 포함한다.

Description

공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치 및 방법

본 발명은 공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치 및 방법에 관한 것이다.

조직의 현미경 이미지는 다양한 세포로 구성된 정보를 갖고 있으며, 세포들은 기능에 따라 복잡한 구조를 이루고 있다. 이러한 복잡한 구조로부터 기능적으로 구분된 세포의 종류를 알아내고 생체표지자를 얻기 위해서는 단순한 조직 이미지 이외의 분자특이적인 염색방법 (면역조직화학염색이나 Fluorescence in Situ Hybridization) 등이 널리 활용되고 있다.

이러한 분자수준의 병리 이미지의 경우 분자정보를 한 실험당 한 가지 또는 수 개 수준의 종류씩만 획득할 수 있고, 조직에 대해 추가적인 실험 과정과 재료가 필요하다.

최근 개발되어 활용되는 공간 전사체 기술(Spatially Resolved Transcriptome)은 한번에 수백에서 수만가지의 유전자 발현 정보를 획득하되, 조직 위치 정보를 보존하면서 유전자 발현 정보의 획득이 가능하다.

한편, 단순 조직 이미지(hematoxylin and eosin staining)로부터 형태학적으로 조직의 구성을 구분해내는 라벨링(labeling) 작업은 병리조직 이미지의 전문가에 의해 수행되고 있다. 이를 바탕으로 조직 이미지로부터 병리조직 이미지의 라벨링을 예측하는 딥러닝 기술이 최근 개발되고 있다.

이와 관련하여 대한민국 등록특허 제10-2108050호(발명의 명칭: 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법 및 그 장치)는 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법에 관한 것을 개시하고 있다.

본 발명은 전술한 문제점을 해결하기 위한 것으로, 공간 정보를 공유하는 전사체 및 조직 이미지를 포함한 공간 전사체 정보를 기초로 학습된 세포 구성 예측 모델에 공간 전사체 정보가 없는 일반적인 조직 이미지를 입력하여 조직 내 세포의 복잡한 구성 정보를 예측하는 장치 및 방법을 제공하는 것을 일 기술적 과제로 한다.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 해결하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치는 검사 대상체에 대한 조직 이미지를 수신하는 통신 모듈; 조직 이미지로부터 세포 구성 정보를 예측하는 프로그램이 저장된 메모리; 및 프로그램을 실행하는 프로세서를 포함하되, 프로그램은, 공간 전사체 정보와 이와 공간적으로 정합된 조직 이미지로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델에 조직 이미지를 입력하여 세포 구성 정보를 예측하고, 공간 전사체 정보는 공간 정보를 포함하는 전사체 데이터와 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이고, 공간 정보는 조직 이미지 데이터에 2차원 평면으로 배치된 복수의 스팟에 대한 위치정보를 의미하는 것으로서, 각 스팟의 좌표를 포함한다.

또한, 본 발명의 제2 측면에 따른 조직 이미지의 세포 구성 예측 장치를 이용하여 공간 유전자발현정보에 기반한 조직 이미지의 세포 구성을 예측하는 방법은 검사 대상체에 대한 조직 이미지를 수신하는 단계; 및 공간 전사체 정보와 이와 공간적으로 정합된 조직 이미지로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델에 조직 이미지를 입력하여 세포 구성 정보를 예측하는 단계를 포함하되, 공간 전사체 정보는 공간 정보를 포함하는 전사체 데이터와 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이고, 공간 정보는 조직 이미지 데이터에 2차원 평면으로 배치된 복수의 스팟에 대한 위치정보를 의미하는 것으로서, 각 스팟의 좌표를 포함한다.

본 발명의 일 실시예에 따르면 쉽게 획득 가능한 조직 이미지(H&E staining)의 형태학적인 정보만으로 다양한 세포의 구성 정보를 예측할 수 있는 학습 모델을 제시할 수 있다.

또한, 다양한 질환에서 확보된 조직 이미지와 공간 정보를 공유하는 전사체 데이터가 포함된 공간 전사체 정보를 학습 데이터로서 활용하여 조직 또는 질병의 종류별로 세포의 구성 정보를 예측할 수 있는 학습 모델을 제시할 수 있다.

한편 기존에는 조직 이미지(H&E staining)로 조직의 세부 분류를 추정하는 딥러닝 기반 알고리즘이 보고된 바 있으나, 해당 기술은 조직 이미지 전문가의 시각적 판독과 레이블링이 필수적이라는 단점이 있었다. 또한 이러한 레이블링은 시간과 노력이 많이 소모되며, 평가자 간의 차이를 유발하는 문제가 있었다. 더불어, 분자 수준의 정보를 제공하는 것이 아니기 때문에 세부적인 분자-기능적 세포 분류하의 분포를 유추하는 알고리즘의 개발이 어려웠다.

그러나, 본 발명은 전술한 문제점을 해결하며, 첫째 다양한 질환에서 세포군의 다양성을 정량화하는 수치로서 활용될 수 있다. 즉, 학습 모델에 단순 조직 이미지만 입력하여 세포군의 다양성에 대한 정량 정보를 획득할 수 있다. 이를 이용하여 다양한 질환 (암, 염증성 질환 등)의 병태생리 연구, 신규 치료 기술 개발 연구, 진단적 바이오마커 개발 연구 등에 다양하게 응용될 수 있다.

둘째 학습 모델에 단순 조직 이미지만 입력하여 분자 기능적 세포를 정량화할 수 있다. 이를 이용하여 특정 질환의 특성과 심각 정도를 나타내거나 치료 효과를 예측할 수 있는 바이오마커로서 활용가치가 있다.

예를 들어, 종양에서 암세포 이외의 염증세포가 밀집된 경우 종양면역치료의 반응성 예측과도 밀접한 연관이 있다는 사실이 잘 알려져 있다. 즉, 본 발명에 따른 학습모델에 입력된 단순 조직 이미지는 염증세포의 분포 정보를 예측할 수 있으며, 정량적 바이오마커로서 활용될 수 있다.

도 1은 본 발명의 일 실시예에 따른 조직이미지의 세포 구성 예측 장치의 구성을 도시한 블록도이다.

도 2는 본 발명의 일 실시예에 따른세포 구성 예측 모델의 구성을 도시한 개념도 이다.

도 3은 본 발명의 일 실시예에 따른 세포 구성 예측 모델의 이미지 분할부를 설명하기 위한 도면이다.

도 4는 본 발명의 일 실시예에 따른 세포 구성 예측 모델의 분자마커 모델부를 설명하기 위한 도면이다.

도 5내지 도 8은 본 발명의 일 실시예에 따른 세포 구성 예측 모델에 입력한 조직 이미지로부터예측한 세포 구성 정보를 도시한 도면이다.

도 9는 본 발명의 일 실시예에 따른 조직이미지의 세포 구성 예측 방법을 도시한 순서도이다.

이하에서는 첨부한 도면을 참조하여 본 발명을 상세히 설명하기로 한다. 다만, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 여기에서 설명하는 실시예들로 한정되는 것은 아니다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않는다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 도면에 나타난 각 구성요소의 크기, 형태, 형상은 다양하게 변형될 수 있다. 명세서 전체에 대하여 동일/유사한 부분에 대해서는 동일/유사한 도면 부호를 붙였다.

이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 “부” 등은 명세서 작성의 용이함만이 고려되어 부여 되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략하였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결(접속, 접촉 또는 결합)"되어 있다고 할 때, 이는 "직접적으로 연결(접속, 접촉 또는 결합)"되어 있는 경우뿐만 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결 (접속, 접촉 또는 결합)"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함(구비 또는 마련)"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 "포함(구비 또는 마련)"할 수 있다는 것을 의미한다.

본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 나타내는 용어들은 하나의 구성 요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 구성 요소들의 순서나 관계를 제한하지 않는다. 예를 들어, 본 발명의 제1구성요소는 제2구성요소로 명명될 수 있고, 유사하게 제2구성요소도 제1구성 요소로 명명될 수 있다.

도 1을 참조하면, 조직이미지의 세포 구성 예측 장치(100)는 통신 모듈(110), 메모리(120) 및 프로세서(130)를 포함하며, 데이터베이스(140)를 더 포함할 수 있다. 조직이미지의 세포 구성 예측 장치(100)는 검사 대상체에 대한 조직 이미지를 수신하고, 이를 이용하여 세포 구성 정보를 예측하는 동작을 수행한다.

이를 위해, 조직이미지의 세포 구성 예측 장치(100)는 네트워크를 통해 서버나 타 단말에 접속할 수 있는 컴퓨터나 휴대용 단말기로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop) 등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 각종 스마트폰, 태블릿 PC, 스마트 워치 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

네트워크는 단말들 및 장치들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.

통신 모듈(110)은 검사 대상체에 대한 조직 이미지를 수신한다. 이때, 조직 이미지는 현미경을 통해 일반적으로 쉽게 획득이 가능한 조직 이미지로서 공간 전사체 정보를 포함하지 않는다. 통신 모듈(110)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치를 포함할 수 있다.

메모리(120)는 통신 모듈(110)을 통해 수신한 조직 이미지로부터 세포 구성 정보를 예측하는 프로그램이 저장된다. 이때, 세포 구성 정보를 예측하는 프로그램은 공간 전사체 정보와 이와 공간적으로 정합된 조직 이미지로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델에 조직 이미지를 입력하여 세포 구성 정보를 예측한다. 세포 구성 정보의 구체적인 내용에 대해서는 추후 설명하기로 한다.

이때, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 저장된 정보를 유지하기 위하여 전력을 필요로 하는 휘발성 저장장치를 통칭하는 것으로 해석되어야 한다. 메모리(120)는 프로세서(130)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행할 수 있다. 메모리(130)는 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치 외에 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

프로세서(130)는 메모리(120)에 저장된 세포 구성 정보를 예측하는 프로그램을 실행하고, 그 실행 결과로서 대상체에 대한 세포 구성 정보를 출력한다.

일 예에서, 프로세서(130)는 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 형태로 구현될 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

데이터베이스(140)는 통신 모듈(110)을 통해 수신되는 조직 이미지나, 세포 구성 예측 모델의 학습을 위한 다양한 데이터가 저장될 수 있다. 또한, 데이터베이스(140)는 세포 구성 정보 추출 프로그램에 의해 추출된 세포 구성 정보를 누적적으로 저장하며, 이러한 세포 구성 정보를 기반으로, 조직 이미지에 의해 분자 기능적 세포를 정량화 하는 다양한 응용에 활용될 수 있도록 한다.

이하, 세포 구성 정보를 추출하는 세포 구성 예측 모델에 대하여 살펴보기로 한다.

도 2는 본 발명의 일 실시예에 따른세포 구성 예측 모델의 구성을 도시한 개념도 이다. 도 3은 본 발명의 일 실시예에 따른 세포 구성 예측 모델의 이미지 분할부를 설명하기 위한 도면이다.

공간 전사체 정보(20)는 공간 정보를 포함하는 전사체 데이터와 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이다. 공간 정보는 조직 이미지 데이터에 2차원 평면으로 배치된 복수의 스팟(212)에 대한 위치정보를 의미하는 것으로서, 각 스팟(212)의 좌표를 포함한다. 여기서 조직 이미지 데이터는 복수의 스팟의 좌표가 포함된 특수 슬라이드를 이용하여 H&E 염색을 한 후에 촬영한 조직 이미지로서, 종래 기술에 해당하므로, 이에 대한 상세한 설명은 생략하기로 한다.

즉, 공간 전사체 정보(20)는 각 스팟(212) 마다 수백-수만 개의 전사체 데이터를 획득한 데이터로서, 스팟(212)의 좌표를 이용하여 전사체 데이터와 조직 이미지 데이터가 공간적으로 정합 가능한 데이터이다.

세포 구성 예측 모델(200)은 기 수집된 사람 또는 동물의 조직 별 공간 전사체 정보(20)와 각 스팟(212)의 좌표 별로 분류한 전사체 데이터에 대하여 세포 구성 정보(240)를 매칭시킨 학습 데이터에 기반하여 구축된 것이다.

세포 구성 예측 모델(200)은 이미지 분할부(210), 분자마커 모델부(220) 및 예측부(230)를 포함한다.

이미지 분할부(210)는 조직 이미지 데이터를 미리 설정된 크기의 패치 조직 이미지로 분할한다.

이미지 분할부(210)는 스팟(212)의 좌표에 기초하여 전사체 데이터와 조직 이미지 데이터를 매칭하는 과정, 미리 설정된 크기의 사각 박스를 복수의 스팟(212)이 포함된 조직 이미지 데이터에 배치하는 과정, 및 복수의 스팟(212) 중에서 가운데 위치한 스팟(212)의 좌표가 사각 박스의 중앙 좌표값(213)이 되도록 조직 이미지 데이터가 적어도 하나 이상의 패치 조직 이미지(211)로 추출되는 과정을 수행하도록 구축된 것이다.

예를 들어, 패치 조직 이미지(211)의 크기는 128 x 128의 이미지 사이즈일 수 있으며, 패치 한 변의 길이는 510um로 이루어질 수 있다.

예시적으로, 이미지 분할부(210)는 스팟(전사체 데이터를 획득하는 공간 단위)의 좌표에 기초하여, 전사체 데이터를 조직 이미지 데이터와 매칭을 시킬 수 있다. 이어서, 스팟(212)의 중앙 좌표값(213)에 기초하여, 조직 이미지 데이터가 일정한 크기의 사각형(사각 박스) 사이즈를 갖는 복수의 조각(patch) 이미지(패치 조직 이미지)로 분할될 수 있다. 이후 분자마커 모델부(220)가 분할된 패치 조직 이미지(211)에 포함된 전사체 데이터에 기초하여 각 세포군의 유형별 세포 분포 정보(세포의 밀집 정도)를 출력할 수 있다.

분자마커 모델부(220)는 전사체 데이터를 통해 레이블링된 세포군의 유형별 세포 분포 정보를 출력한다. 예시적으로, 분자마커 모델부(220)는 CellDART 모델로 구성될 수 있으나 이에 한정된 것은 아니며, 기존 조직 이미지(H&E staining)로 조직의 세부 분류를 추정하는 딥러닝 기반 알고리즘으로 구성될 수 있다.

한편, 도 4를 참조하면 또한 분자마커 모델부(220)는 인터넷에 공개된 기존 조직 이미지가 포함하는 세포군의 유형별 세포 분포 정보(241)와 각 단일 세포 종류(242)가 포함하는 전사체 데이터를 매칭시킨 학습 데이터에 기반하여 구축될 수 있다. 분자마커 모델부(220)는 기존 연구에 의해, 공개된 전사체 데이터와 레이블링된 세포군의 세포 분포 정보(241) 및 각 단일 세포 종류에 대한 정보(242)로 이루어진 학습 데이터에 기반하여 구축된 CellDART 모델을 이용하여 세포 구성 정보(240)를 출력할 수 있다. 예시적으로 CellDART 모델은 소스 분류기(source classifier) 및 도메인 분류기(domain classifier)를 포함한 특징 추출기를 포함한다. CellDART 모델은 기존 전사체 데이터 세트를 전처리하고 각 세포 클러스터(cell cluster)에 대한 통합된 마커 유전자를 추출한다. 이어서 풀링된 클러스터 마커(pooled cluster marker)와 공간 전사체 정보 간에 공유된 전사체 데이터가 다운스트림 분석(downstream analysis)을 위해 선택된다. 다음으로 단일 세포 데이터(single-cell data)에서 8개의 세포를 무작위로 선택하고 무작위 가중치를 부여하여 20000개의 유사점을 생성한다.

특징 추출기는 유사점에서 세포 분율을 추정하고 유사점이 공간 스팟과 구별하도록 학습된다. 먼저 도메인 분류기를 제외한 신경망의 가중치가 업데이트 되고, 다음으로 스팟과 유사 스팟에 대한 데이터 레이블이 반전되고 도메인 분류기만 업데이트 된다. 마지막으로 학습된 CellDART 모델이 공간 전사체 데이터에 적용하여 각 스팟의 세포 비율을 추정할 수 있다. CellDART 모델은 세포를 추정하기 위한 단일 세포 전사체 데이터는 공개된 데이터를 활용하여 기존 연구에 의해 레이블링된 세포별 이름이 적용될 수 있다. 이는 공개된 기술에 해당하므로, 이에 대한 상세한 설명은 생략하기로 한다.

다시 도 2를 참조하면, 예측부(230)는 패치 조직 이미지(211)에 포함된 복수의 스팟(212) 중에서 스팟(212)의 중앙 좌표값(213)에 기초하여 전사체 데이터와 레이블링된 세포 구성 정보(240)를 추출한다.

예시적으로 예측부(230)는 패치 조직 이미지(211)에 대한 전처리 과정을 포함할 수 있다. 전처리 과정은 H&E염색에 대한 스테인 표준화(Stain Normalization)를 수행할 수 있다. 예를 들어, 패치 조직 이미지(211)는 합성곱신경망의 학습 과정에 입력되는 데이터에 대하여 회전, 좌우상하 대칭, 확대 및 축소(20% 범주), 각 RGB 채널 별 변화를 임의의 함수로 수행하여 데이터 증량을 수행할 수 있다.

일 예로, 합성곱신경망은 이미지넷 기반의 ResNet-50을 기본 틀로 하여 이미지넷에서 훈련된 파라미터를 우선적으로 적용한 뒤 훈련과정에서 업데이트할 수 있다. 또한 전체 패치 조직 이미지(211)의 5%는 내부 확인(Validation)용으로 활용할 수 있다. 전체 학습 과정에서는 1회의 미니 배치(mini-batch)당 64개의 패치 조직 이미지 및 세포군을 입력하고, 최적화 과정에서는 아담 최적화(Adam optimizer)를 적용할 수 있다. 학습 률(Learning Rate)은 0.0001로 수행하고, 전체 에포크(epoch)는 100회 수행할 수 있다. 또한, 모델 훈련을 위한 손실함수(loss function)는 세포밀집정도에 대한분포를 고려하여 푸아송 손실(Poisson Loss)을 활용하였다.

프로그램은 세포 구성 정보(240)로서 조직 이미지(21)에서 예측한 세포군의 유형에 대한 정보와 각 세포군의 유형별 세포 분포 정보를 나타낸 히트맵 조직 이미지를 포함한다.

도 5는 본 발명의 세포 구성 예측 모델(200)에 조직의 H&E 이미지를 입력하여 예측한 세포 군의 유형별 세포 구성 정보를 도시한 것이다.

도시된 바와 같이 본 발명의 세포 구성 예측 모델(200)에 독립된 조직 이미지 데이터의 패치를 입력하여 세포밀집정도의 추정 이미지가 생성될 수 있다.

이는 5%를 임의로 선정한 내부 확인 셋(validation set)에서 전사체로 예측한 세포군의 밀집정도와 H&E 이미지의 패치 조직 이미지로 예측한 모델의 결과를 나타낸 것이다. 가로축은 딥러닝 모델과 H&E 이미지의 패치 조직 이미지로 예측한값이고, 세로축은 전사체 데이터로부터 획득한 세포의 밀집정도를 나타낸 것이다.

도 6(a)는 조직 이미지(21)에서 예측한 세포군의 유형에 대한 정보이고, 도6(b)는 각 세포군의 유형별 세포 분포 정보를 나타낸 히트맵 조직 이미지이다. 본 발명의 세포 구성 예측 모델(200)에 비슘(Visium) 에서 획득한 조직이미지를 입력하여 패치 조직 이미지를 기반으로 적용시 골수 유형(Myeloid Type)의 세포 분포 정보를 추정한 히트맵 조직 이미지가 출력될 수 있다.

도 7은 독립적인 모델 작동 여부를 평가하기 위해 외부 공개된 데이터로서 폐선암의 조직이미지 패치별로 병리학과 의사의 의견에 따라 림프구에 침투하는 종양(Tumor Infiltrating Lymphocytes)이 패치 내에 존재하는지 알려주는 데이터셋에서, TIL이 존재하는 패치에서 통계적으로 유의미하게 더 높은 T/NK cell의 값이 나오는 것을 확인하였다.

도 8(a)는 독립적인 데이터로서, 공개된 폐선암의 H&E 이미지이고, 본 발명의 세포 구성 예측 모델(200)에 공개된 폐선암의이미지를 입력하면 도8(b)에 도시된 바와 같이, 조직 내 세포군의 유형별로 세포 분포 정보가 예측될 수 있다.

이하에서는 상술한 도 1 내지 도8에 도시된 구성 중 동일한 구성의 설명은 생략하도록 한다.

본 발명의 일 실시예에 따른 조직 이미지의 세포 구성 예측 장치(100)를 이용하여 공간 유전자발현정보에 기반한 조직 이미지의 세포 구성을 예측하는 방법은 검사 대상체에 대한 조직 이미지(21)를 수신하는 단계(S110) 및 공간 전사체 정보(20)와 분자마커로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델(200)에 조직 이미지(21)를 입력하여 세포 구성 정보를 예측하는 단계(S120)를 포함한다. 이때 공간 전사체 정보(20)는 공간 정보를 포함하는 전사체 데이터와 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이다. 공간 정보는 조직 이미지 데이터에 2차원 평면으로 배치된 복수의 스팟(212)에 대한 위치정보를 의미하는 것으로서, 각 스팟(212)의 좌표를 포함한다.

세포 구성 예측 모델(200)은 조직 이미지 데이터를 미리 설정된 크기의 패치 조직 이미지로 분할하는 이미지 분할부(210), 전사체 데이터를 통해 레이블링된 세포군의 유형별 세포 분포 정보를 출력하는 분자마커 모델부(220), 및 패치 조직 이미지(211)에 포함된 복수의 스팟(212) 중에서 스팟(212)의 중앙 좌표값(213)에 기초하여 전사체 데이터와 레이블링된 세포 구성 정보(240)를 추출하는 예측부(230)를 포함한다.

세포 구성 예측 모델(200)의 이미지 분할부(210)는 스팟(212)의 좌표에 기초하여 전사체 데이터와 조직 이미지 데이터를 매칭하는 과정, 미리 설정된 크기의 사각 박스를 복수의 스팟(212)이 포함된 조직 이미지 데이터에 배치하는 과정, 및 복수의 스팟(212) 중에서 가운데 위치한 스팟(212)의 좌표가 사각 박스의 중앙 좌표값(213)이 되도록 조직 이미지 데이터가 적어도 하나 이상의 패치 조직 이미지(211)로 추출되는 과정을 수행하도록 구축된 것이다.

세포 구성 정보를 예측하는 단계(S120)는 세포 구성 정보(240)로서 조직 이미지(21)에서 예측한 세포군의 유형에 대한 정보와 각 세포군의 유형별 세포 분포 정보를 나타낸 히트맵 조직 이미지를 포함한다.

이상에서 설명한 세포 구성 예측 방법은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 상술한 설명을 기초로 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해되어야만 한다. 본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치에 있어서,

검사 대상체에 대한 조직 이미지를 수신하는 통신 모듈;

상기 조직 이미지로부터 세포 구성 정보를 예측하는 프로그램이 저장된 메모리; 및

상기 프로그램을 실행하는 프로세서를 포함하되,

상기 프로그램은, 공간 전사체 정보와 이와 공간적으로 정합된 조직 이미지로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델에 상기 조직 이미지를 입력하여 상기 세포 구성 정보를 예측하고,

상기 공간 전사체 정보는 공간 정보를 포함하는 전사체 데이터와 상기 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이고,

상기 공간 정보는 상기 조직 이미지 데이터에 배치된 복수의 스팟에 대한 위치정보를 의미하는 것으로서, 각 스팟의 좌표를 포함하는 것인, 조직 이미지의 세포 구성 예측 장치.
제1항에 있어서,

상기 세포 구성 예측 모델은 기 수집된 사람 또는 동물의 조직 별 상기 공간 전사체 정보와 상기 각 스팟의 좌표 별로 분류한 상기 전사체 데이터에 대하여 상기 세포 구성 정보를 매칭시킨 학습 데이터에 기반하여 구축된 것인, 조직 이미지의 세포 구성 예측 장치.
제2항에 있어서,

상기 세포 구성 예측 모델은 상기 조직 이미지 데이터를 미리 설정된 크기의 패치 조직 이미지로 분할하는 이미지 분할부, 상기 전사체 데이터를 통해 레이블링된 세포군의 유형별 세포 분포 정보를 출력하는 분자마커 모델부, 및 상기 패치 조직 이미지에 포함된 상기 복수의 스팟 중에서 스팟의 중앙 좌표값에 기초하여 상기 전사체 데이터와 레이블링된 상기 세포 구성 정보를 추출하는 예측부를 포함하는 것인, 조직 이미지의 세포 구성 예측 장치.
제3항에 있어서,

상기 세포 구성 예측 모델의 이미지 분할부는 상기 스팟의 좌표에 기초하여 상기 전사체 데이터와 상기 조직 이미지 데이터를 매칭하는 과정, 미리 설정된 크기의 사각 박스를 상기 복수의 스팟이 포함된 상기 조직 이미지 데이터에 배치하는 과정, 및 상기 복수의 스팟 중에서 가운데 위치한 스팟의 좌표가 상기 사각 박스의 중앙 좌표값이 되도록 상기 조직 이미지 데이터가 적어도 하나 이상의 상기 패치 조직 이미지로 추출되는 과정을 수행하도록 구축된 것인, 조직 이미지의 세포 구성 예측 장치.
제3항에 있어서,

상기 세포 구성 예측 모델의 분자마커 모델부는 인터넷에 공개된 기존 조직 이미지가 포함하는 세포군의 유형별 세포 분포 정보와 각 단일 세포 종류가 포함하는 전사체 데이터를 매칭시킨 학습 데이터에 기반하여 구축된 것인, 조직 이미지의 세포 구성 예측 장치.
제3항에 있어서,

상기 프로그램은 상기 세포 구성 정보로서 상기 조직 이미지에서 예측한 세포군의 유형에 대한 정보와 각 세포군의 유형별 세포 분포 정보를 나타낸 히트맵 조직 이미지를 포함하는 것인, 조직 이미지의 세포 구성 예측 장치.
조직 이미지의 세포 구성 예측 장치를 이용하여 공간 유전자발현정보에 기반한 조직 이미지의 세포 구성을 예측하는 방법에 있어서,

검사 대상체에 대한 조직 이미지를 수신하는 단계; 및

공간 전사체 정보와 이와 공간적으로 정합된 조직 이미지로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델에 상기 조직 이미지를 입력하여 상기 세포 구성 정보를 예측하는 단계를 포함하되,

상기 공간 전사체 정보는 공간 정보를 포함하는 전사체 데이터와 상기 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이고,

상기 공간 정보는 상기 조직 이미지 데이터에 배치된 복수의 스팟에 대한 위치정보를 의미하는 것으로서, 각 스팟의 좌표를 포함하는 것인, 조직 이미지의 세포 구성 예측 방법.
제7항에 있어서,

상기 세포 구성 예측 모델은 기 수집된 사람 또는 동물의 조직 별 상기 공간 전사체 정보와 상기 각 스팟의 좌표 별로 분류한 상기 전사체 데이터에 대하여 상기 세포 구성 정보를 매칭시킨 학습 데이터에 기반하여 구축된 것인, 조직 이미지의 세포 구성 예측 방법.
제8항에 있어서,

상기 세포 구성 예측 모델은 상기 조직 이미지 데이터를 미리 설정된 크기의 패치 조직 이미지로 분할하는 이미지 분할부, 상기 전사체 데이터를 통해 레이블링된 세포군의 유형별 세포 분포 정보를 출력하는 분자마커 모델부, 및 상기 패치 조직 이미지에 포함된 상기 복수의 스팟 중에서 스팟의 중앙 좌표값에 기초하여 상기 전사체 데이터와 레이블링된 상기 세포 구성 정보를 추출하는 예측부를 포함하는 것인, 조직 이미지의 세포 구성 예측 방법.
제9항에 있어서,

상기 세포 구성 예측 모델의 이미지 분할부는 상기 스팟의 좌표에 기초하여 상기 전사체 데이터와 상기 조직 이미지 데이터를 매칭하는 과정, 미리 설정된 크기의 사각 박스를 상기 복수의 스팟이 포함된 상기 조직 이미지 데이터에 배치하는 과정, 및 상기 복수의 스팟 중에서 가운데 위치한 스팟의 좌표가 상기 사각 박스의 중앙 좌표값이 되도록 상기 조직 이미지 데이터가 적어도 하나 이상의 상기 패치 조직 이미지로 추출되는 과정을 수행하도록 구축된 것인, 조직 이미지의 세포 구성 예측 방법.
제9항에 있어서,

상기 세포 구성 예측 모델의 분자마커 모델부는 인터넷에 공개된 기존 조직 이미지가 포함하는 세포군의 유형별 세포 분포 정보와 각 단일 세포 종류가 포함하는 전사체 데이터를 매칭시킨 학습 데이터에 기반하여 구축된 것인, 조직 이미지의 세포 구성 예측 방법.
제9항에 있어서,

상기 세포 구성 정보를 예측하는 단계는 상기 세포 구성 정보로서 상기 조직 이미지에서 예측한 세포군의 유형에 대한 정보와 각 세포군의 유형별 세포 분포 정보를 나타낸 히트맵 조직 이미지를 포함하는 것인, 조직 이미지의 세포 구성 예측 방법.
제7항 내지 제12항 중 어느 한 항에 따른 조직 이미지의 세포 구성 예측 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 비일시적 컴퓨터 판독가능 기록매체.