WO2022220385A1 - 공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치 및 방법 - Google Patents

공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치 및 방법 Download PDF

Info

Publication number
WO2022220385A1
WO2022220385A1 PCT/KR2022/002158 KR2022002158W WO2022220385A1 WO 2022220385 A1 WO2022220385 A1 WO 2022220385A1 KR 2022002158 W KR2022002158 W KR 2022002158W WO 2022220385 A1 WO2022220385 A1 WO 2022220385A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
tissue image
cell composition
tissue
cell
Prior art date
Application number
PCT/KR2022/002158
Other languages
English (en)
French (fr)
Inventor
최홍윤
김영태
나권중
Original Assignee
주식회사 포트래이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020210110364A external-priority patent/KR20220142905A/ko
Application filed by 주식회사 포트래이 filed Critical 주식회사 포트래이
Priority to US18/555,419 priority Critical patent/US20240194292A1/en
Priority to AU2022257481A priority patent/AU2022257481A1/en
Priority to JP2023563310A priority patent/JP2024518035A/ja
Priority to EP22788243.8A priority patent/EP4325505A1/en
Publication of WO2022220385A1 publication Critical patent/WO2022220385A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro

Definitions

  • the present invention relates to an apparatus and method for predicting the cellular composition of a tissue image based on spatial gene expression information.
  • Microscopic images of tissues contain information composed of various cells, and the cells form a complex structure according to their functions.
  • molecular-specific staining methods other than simple tissue images (immunohistochemical staining or fluorescence in situ hybridization) are widely used.
  • the recently developed and utilized spatially resolved transcriptome technology acquires hundreds to tens of thousands of gene expression information at once, but it is possible to acquire gene expression information while preserving tissue location information.
  • a labeling operation for morphologically distinguishing a tissue composition from a simple tissue image is being performed by a pathological tissue image expert. Based on this, a deep learning technology that predicts the labeling of pathological tissue images from tissue images has been recently developed.
  • Republic of Korea Patent Registration No. 10-2108050 discloses a method for classifying breast cancer histology images through an augmented convolutional network.
  • the present invention is to solve the above-mentioned problems, by inputting a general tissue image without spatial transcript information into a cell composition prediction model learned based on spatial transcript information including a transcript and tissue image sharing spatial information.
  • One technical task is to provide an apparatus and method for predicting complex configuration information of cells in a tissue.
  • the technical task to be achieved by the present embodiment is not limited to the above-described technical task, and other technical tasks may exist.
  • an apparatus for predicting a cellular composition of a tissue image based on spatial gene expression information includes: a communication module for receiving a tissue image of a test subject; a memory in which a program for predicting cell composition information from a tissue image is stored; and a processor executing the program, wherein the program predicts cell composition information by inputting a tissue image to the learned cell composition prediction model based on training data consisting of spatial transcriptome information and a tissue image spatially matched thereto; , the spatial transcriptome information includes transcriptome data including spatial information and tissue image data sharing spatial information, and the spatial information refers to location information on a plurality of spots arranged in a two-dimensional plane in the tissue image data. By doing so, the coordinates of each spot are included.
  • the method for predicting the cell composition of the tissue image based on spatial gene expression information using the apparatus for predicting the cell composition of the tissue image according to the second aspect of the present invention comprises the steps of: receiving a tissue image of a test subject; and predicting cell composition information by inputting a tissue image to the learned cell composition prediction model based on the training data consisting of the spatial transcript information and the tissue image spatially matched thereto, wherein the spatial transcript information is spatial information Tissue image data that shares spatial information with transcriptome data including include
  • a learning model capable of predicting compositional information of various cells only with morphological information of easily obtainable tissue images (H&E staining).
  • a learning model that can predict the composition information of cells by tissue or disease type by utilizing spatial transcriptome information, which includes tissue images obtained from various diseases and transcriptome data that shares spatial information, as learning data.
  • the present invention solves the above problems, and first, it can be utilized as a numerical value for quantifying the diversity of cell populations in various diseases. That is, quantitative information on the diversity of cell populations can be obtained by inputting only simple tissue images to the learning model. By using this, it can be applied to pathophysiology research of various diseases (cancer, inflammatory disease, etc.), research on development of new treatment technology, research on development of diagnostic biomarkers, and the like.
  • the simple tissue image input to the learning model according to the present invention can predict the distribution information of inflammatory cells and can be utilized as a quantitative biomarker.
  • FIG. 1 is a block diagram illustrating the configuration of an apparatus for predicting cell composition of a tissue image according to an embodiment of the present invention.
  • FIG. 2 is a conceptual diagram illustrating the configuration of a cell composition prediction model according to an embodiment of the present invention.
  • FIG. 3 is a diagram for explaining an image segmentation unit of a cell composition prediction model according to an embodiment of the present invention.
  • FIG. 4 is a view for explaining the molecular marker model unit of the cell composition prediction model according to an embodiment of the present invention.
  • 5 to 8 are diagrams illustrating cell composition information predicted from a tissue image input to a cell composition prediction model according to an embodiment of the present invention.
  • FIG. 9 is a flowchart illustrating a method for predicting cell composition of a tissue image according to an embodiment of the present invention.
  • first, second, etc. are used only for the purpose of distinguishing one element from other elements, and do not limit the order or relationship of the elements.
  • a first component of the present invention may be referred to as a second component, and similarly, a second component may also be referred to as a first component.
  • FIG. 1 is a block diagram illustrating the configuration of an apparatus for predicting cell composition of a tissue image according to an embodiment of the present invention.
  • the apparatus 100 for predicting cell composition of a tissue image includes a communication module 110 , a memory 120 , and a processor 130 , and may further include a database 140 .
  • the apparatus 100 for predicting cell composition of a tissue image receives a tissue image of a test object and predicts cell composition information using the received tissue image.
  • the apparatus 100 for predicting the cell composition of the tissue image may be implemented as a computer or a portable terminal that can be connected to a server or other terminal through a network.
  • the computer includes, for example, a laptop equipped with a web browser, a desktop, a laptop, and the like
  • the portable terminal is, for example, a wireless communication device that ensures portability and mobility.
  • the portable terminal may include all kinds of handheld-based wireless communication devices such as various smart phones, tablet PCs, smart watches, and the like.
  • the network refers to a connection structure in which information can be exchanged between each node, such as terminals and devices, and includes a local area network (LAN), a wide area network (WAN), and the Internet (WWW: World). Wide Web), wired and wireless data communication networks, telephone networks, wired and wireless television networks, and the like.
  • wireless data communication networks include 3G, 4G, 5G, 3rd Generation Partnership Project (3GPP), Long Term Evolution (LTE), World Interoperability for Microwave Access (WIMAX), Wi-Fi, Bluetooth communication, infrared communication, ultrasound communication, Visible Light Communication (VLC), LiFi, and the like, but are not limited thereto.
  • the communication module 110 receives a tissue image of the test object.
  • the tissue image is a tissue image that is generally easily acquired through a microscope and does not include spatial transcript information.
  • the communication module 110 may include a device including hardware and software necessary for transmitting and receiving signals such as control signals or data signals through wired/wireless connection with other network devices.
  • the memory 120 stores a program for predicting cell composition information from the tissue image received through the communication module 110 .
  • the program for predicting the cell composition information predicts the cell composition information by inputting the tissue image to the learned cell composition prediction model based on the learning data consisting of the spatial transcript information and the tissue image spatially matched thereto. Details of the cell composition information will be described later.
  • the memory 120 should be interpreted as a generic term for a non-volatile storage device that continuously maintains stored information even when power is not supplied, and a volatile storage device that requires power to maintain the stored information.
  • the memory 120 may perform a function of temporarily or permanently storing data processed by the processor 130 .
  • the memory 130 may include magnetic storage media or flash storage media in addition to the volatile storage device requiring power to maintain stored information, but the scope of the present invention is not limited thereto. not.
  • the processor 130 executes a program for predicting the cell composition information stored in the memory 120 , and outputs the cell composition information of the object as a result of the execution.
  • the processor 130 includes a microprocessor, a central processing unit (CPU), a processor core, a multiprocessor, an application-specific integrated circuit (ASIC), an FPGA ( field programmable gate array), but the scope of the present invention is not limited thereto.
  • the database 140 may store tissue images received through the communication module 110 or various data for learning a cell composition prediction model.
  • the database 140 cumulatively stores the cell composition information extracted by the cell composition information extraction program, and based on this cell composition information, it can be utilized in various applications to quantify molecular and functional cells by tissue images. let it be
  • FIG. 2 is a conceptual diagram illustrating the configuration of a cell composition prediction model according to an embodiment of the present invention.
  • 3 is a diagram for explaining an image segmentation unit of a cell composition prediction model according to an embodiment of the present invention.
  • the spatial transcriptome information 20 includes transcriptome data including spatial information and tissue image data sharing spatial information.
  • Spatial information means position information on a plurality of spots 212 arranged in a two-dimensional plane in tissue image data, and includes coordinates of each spot 212 .
  • the tissue image data is a tissue image photographed after H&E staining using a special slide including coordinates of a plurality of spots, and since it corresponds to the prior art, a detailed description thereof will be omitted.
  • the spatial transcriptome information 20 is data obtained by acquiring hundreds to tens of thousands of transcript data for each spot 212 , and it is possible to spatially match transcriptome data and tissue image data using the coordinates of the spot 212 . is data.
  • the cell composition prediction model 200 is a learning method in which the cell composition information 240 is matched with the previously collected spatial transcriptome information 20 for each tissue of a human or animal and the transcriptome data classified by the coordinates of each spot 212 . It is built on data.
  • the cell composition prediction model 200 includes an image segmentation unit 210 , a molecular marker model unit 220 , and a prediction unit 230 .
  • the image segmentation unit 210 divides tissue image data into patch tissue images having a preset size.
  • the image division unit 210 is a process of matching transcriptome data and tissue image data based on the coordinates of the spots 212, and placing a rectangular box of a preset size in the tissue image data including a plurality of spots 212 process, and a process of extracting tissue image data into at least one patch tissue image 211 so that the coordinates of the spot 212 located in the center among the plurality of spots 212 become the central coordinate value 213 of the rectangular box. it is built
  • the size of the patch tissue image 211 may be 128 x 128 image size, and the length of one side of the patch may be 510 ⁇ m.
  • the image division unit 210 may match the transcriptome data with the tissue image data based on the coordinates of the spot (a spatial unit for obtaining the transcriptome data). Then, based on the central coordinate value 213 of the spot 212 , the tissue image data may be divided into a plurality of patch images (patch tissue images) having a predetermined size of a rectangle (square box). Thereafter, the molecular marker model unit 220 may output cell distribution information (a degree of cell density) for each type of cell group based on transcript data included in the segmented patch tissue image 211 .
  • cell distribution information a degree of cell density
  • the molecular marker model unit 220 outputs cell distribution information for each type of labeled cell group through the transcript data.
  • the molecular marker model unit 220 may be configured as a CellDART model, but is not limited thereto, and may be configured as a deep learning-based algorithm for estimating a detailed classification of a tissue using an existing tissue image (H&E staining).
  • FIG. 4 is a view for explaining the molecular marker model unit of the cell composition prediction model according to an embodiment of the present invention.
  • the molecular marker model unit 220 also stores the cell distribution information 241 for each type of cell group included in the existing tissue image published on the Internet and the transcript data included in each single cell type 242 . It can be built based on matching learning data.
  • the molecular marker model unit 220 is CellDART built on the basis of training data consisting of published transcript data, cell distribution information 241 of a labeled cell group, and information 242 on each single cell type, which are published by existing studies.
  • Cell composition information 240 may be output using the model.
  • the CellDART model includes a feature extractor including a source classifier and a domain classifier.
  • the CellDART model preprocesses existing transcriptome data sets and extracts integrated marker genes for each cell cluster. Transcript data shared between the pooled cluster marker and spatial transcript information is then selected for downstream analysis. Next, 8 cells are randomly selected from single-cell data and randomly weighted to generate 20000 similarities.
  • the feature extractor is trained to estimate the cell fraction from similarities and distinguish similarities from spatial spots.
  • the weights of the neural network except for the domain classifier are updated, then the data labels for spots and similar spots are inverted, and only the domain classifier is updated.
  • the learned CellDART model can be applied to the spatial transcriptome data to estimate the percentage of cells in each spot.
  • single-cell transcriptome data for estimating cells can be applied by cell-specific names labeled by existing studies using published data. Since this corresponds to the disclosed technology, a detailed description thereof will be omitted.
  • the prediction unit 230 is a cell labeled with transcript data based on the central coordinate value 213 of the spot 212 among the plurality of spots 212 included in the patch tissue image 211 .
  • the configuration information 240 is extracted.
  • the prediction unit 230 may include a preprocessing process for the patch tissue image 211 .
  • the pretreatment process may perform stain normalization for H&E staining.
  • the patch tissue image 211 performs rotation, left-right symmetry, enlargement and reduction (20% category), and change for each RGB channel as an arbitrary function on the data input to the learning process of the convolutional neural network. Data augmentation can be performed.
  • the convolutional neural network may use ImageNet-based ResNet-50 as a basic frame to apply parameters trained in ImageNet preferentially and then update it during the training process.
  • 5% of the entire patch tissue image 211 may be used for internal validation.
  • 64 patch tissue images and cell groups are input per mini-batch, and an Adam optimizer can be applied in the optimization process.
  • the learning rate may be 0.0001, and the entire epoch may be performed 100 times.
  • a Poisson loss was used in consideration of the distribution of cell density.
  • 5 to 8 are diagrams illustrating cell composition information predicted from a tissue image input to a cell composition prediction model according to an embodiment of the present invention.
  • the program includes, as the cell composition information 240 , information on the type of cell group predicted from the tissue image 21 and a heat map tissue image indicating cell distribution information for each type of cell group.
  • FIG 5 shows cell composition information for each type of cell group predicted by inputting the tissue H&E image into the cell composition prediction model 200 of the present invention.
  • an estimated image of the degree of cell density may be generated by inputting a patch of independent tissue image data to the cell composition prediction model 200 of the present invention.
  • the horizontal axis is the value predicted by the patch tissue image of the deep learning model and the H&E image, and the vertical axis is the density of cells obtained from the transcriptome data.
  • FIG. 6(a) is information on the type of cell group predicted in the tissue image 21
  • FIG. 6(b) is a heat map tissue image showing cell distribution information for each type of cell group.
  • TIL 7 is an externally published data to evaluate whether an independent model works, according to the opinion of a pathologist for each tissue image patch of lung adenocarcinoma. , it was confirmed that a statistically significantly higher T/NK cell value appeared in the patch in which TIL was present.
  • FIG. 8(a) is independent data, and is an H&E image of lung adenocarcinoma that has been published.
  • FIG. 8(b) When the image of lung adenocarcinoma disclosed in the cell composition prediction model 200 of the present invention is input, as shown in FIG. 8(b), FIG. , cell distribution information can be predicted for each type of cell group in the tissue.
  • FIG. 9 is a flowchart illustrating a method for predicting cell composition of a tissue image according to an embodiment of the present invention.
  • the method for predicting the cell composition of a tissue image based on spatial gene expression information using the apparatus 100 for predicting the cell composition of a tissue image comprises the steps of receiving a tissue image 21 for a test subject. (S110) and the step of predicting cell composition information by inputting the tissue image 21 into the learned cell composition prediction model 200 based on the learning data consisting of spatial transcript information 20 and molecular markers (S120) include
  • the spatial transcriptome information 20 includes transcriptome data including spatial information and tissue image data sharing spatial information.
  • Spatial information means position information on a plurality of spots 212 arranged in a two-dimensional plane in tissue image data, and includes coordinates of each spot 212 .
  • the cell composition prediction model 200 is a learning method in which the cell composition information 240 is matched with the previously collected spatial transcriptome information 20 for each tissue of a human or animal and the transcriptome data classified by the coordinates of each spot 212 . It is built on data.
  • the cell composition prediction model 200 includes an image segmentation unit 210 that divides tissue image data into patch tissue images of a preset size, and a molecular marker model unit ( 220), and prediction of extracting transcript data and labeled cell composition information 240 based on the central coordinate value 213 of the spot 212 among the plurality of spots 212 included in the patch tissue image 211 part 230 .
  • the image segmentation unit 210 of the cell composition prediction model 200 performs a process of matching transcriptome data and tissue image data based on the coordinates of the spots 212, and sets a rectangular box of a preset size with a plurality of spots 212.
  • the tissue image data is at least one patch tissue image 211 such that the coordinates of the centrally located spot 212 among the plurality of spots 212 become the central coordinate value 213 of the rectangular box. ) to perform the extraction process.
  • the predicting of the cell composition information ( S120 ) includes, as the cell composition information 240 , information on the type of cell group predicted in the tissue image 21 and a heat map tissue image indicating cell distribution information for each type of cell group.
  • the cell composition prediction method described above may also be implemented in the form of a recording medium including instructions executable by a computer, such as a program module executed by a computer.
  • Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media.
  • Computer-readable media may include computer storage media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Computing Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Image Analysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치는 검사 대상체에 대한 조직 이미지를 수신하는 통신 모듈; 조직 이미지로부터 세포 구성 정보를 예측하는 프로그램이 저장된 메모리; 및 프로그램을 실행하는 프로세서를 포함하되, 프로그램은, 공간 전사체 정보와 이와 공간적으로 정합된 조직 이미지로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델에 조직 이미지를 입력하여 세포 구성 정보를 예측하고, 공간 전사체 정보는 공간 정보를 포함하는 전사체 데이터와 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이고, 공간 정보는 조직 이미지 데이터에 2차원 평면으로 배치된 복수의 스팟에 대한 위치정보를 의미하는 것으로서, 각 스팟의 좌표를 포함한다.

Description

공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치 및 방법
본 발명은 공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치 및 방법에 관한 것이다.
조직의 현미경 이미지는 다양한 세포로 구성된 정보를 갖고 있으며, 세포들은 기능에 따라 복잡한 구조를 이루고 있다. 이러한 복잡한 구조로부터 기능적으로 구분된 세포의 종류를 알아내고 생체표지자를 얻기 위해서는 단순한 조직 이미지 이외의 분자특이적인 염색방법 (면역조직화학염색이나 Fluorescence in Situ Hybridization) 등이 널리 활용되고 있다.
이러한 분자수준의 병리 이미지의 경우 분자정보를 한 실험당 한 가지 또는 수 개 수준의 종류씩만 획득할 수 있고, 조직에 대해 추가적인 실험 과정과 재료가 필요하다.
최근 개발되어 활용되는 공간 전사체 기술(Spatially Resolved Transcriptome)은 한번에 수백에서 수만가지의 유전자 발현 정보를 획득하되, 조직 위치 정보를 보존하면서 유전자 발현 정보의 획득이 가능하다.
한편, 단순 조직 이미지(hematoxylin and eosin staining)로부터 형태학적으로 조직의 구성을 구분해내는 라벨링(labeling) 작업은 병리조직 이미지의 전문가에 의해 수행되고 있다. 이를 바탕으로 조직 이미지로부터 병리조직 이미지의 라벨링을 예측하는 딥러닝 기술이 최근 개발되고 있다.
이와 관련하여 대한민국 등록특허 제10-2108050호(발명의 명칭: 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법 및 그 장치)는 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법에 관한 것을 개시하고 있다.
본 발명은 전술한 문제점을 해결하기 위한 것으로, 공간 정보를 공유하는 전사체 및 조직 이미지를 포함한 공간 전사체 정보를 기초로 학습된 세포 구성 예측 모델에 공간 전사체 정보가 없는 일반적인 조직 이미지를 입력하여 조직 내 세포의 복잡한 구성 정보를 예측하는 장치 및 방법을 제공하는 것을 일 기술적 과제로 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 해결하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치는 검사 대상체에 대한 조직 이미지를 수신하는 통신 모듈; 조직 이미지로부터 세포 구성 정보를 예측하는 프로그램이 저장된 메모리; 및 프로그램을 실행하는 프로세서를 포함하되, 프로그램은, 공간 전사체 정보와 이와 공간적으로 정합된 조직 이미지로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델에 조직 이미지를 입력하여 세포 구성 정보를 예측하고, 공간 전사체 정보는 공간 정보를 포함하는 전사체 데이터와 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이고, 공간 정보는 조직 이미지 데이터에 2차원 평면으로 배치된 복수의 스팟에 대한 위치정보를 의미하는 것으로서, 각 스팟의 좌표를 포함한다.
또한, 본 발명의 제2 측면에 따른 조직 이미지의 세포 구성 예측 장치를 이용하여 공간 유전자발현정보에 기반한 조직 이미지의 세포 구성을 예측하는 방법은 검사 대상체에 대한 조직 이미지를 수신하는 단계; 및 공간 전사체 정보와 이와 공간적으로 정합된 조직 이미지로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델에 조직 이미지를 입력하여 세포 구성 정보를 예측하는 단계를 포함하되, 공간 전사체 정보는 공간 정보를 포함하는 전사체 데이터와 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이고, 공간 정보는 조직 이미지 데이터에 2차원 평면으로 배치된 복수의 스팟에 대한 위치정보를 의미하는 것으로서, 각 스팟의 좌표를 포함한다.
본 발명의 일 실시예에 따르면 쉽게 획득 가능한 조직 이미지(H&E staining)의 형태학적인 정보만으로 다양한 세포의 구성 정보를 예측할 수 있는 학습 모델을 제시할 수 있다.
또한, 다양한 질환에서 확보된 조직 이미지와 공간 정보를 공유하는 전사체 데이터가 포함된 공간 전사체 정보를 학습 데이터로서 활용하여 조직 또는 질병의 종류별로 세포의 구성 정보를 예측할 수 있는 학습 모델을 제시할 수 있다.
한편 기존에는 조직 이미지(H&E staining)로 조직의 세부 분류를 추정하는 딥러닝 기반 알고리즘이 보고된 바 있으나, 해당 기술은 조직 이미지 전문가의 시각적 판독과 레이블링이 필수적이라는 단점이 있었다. 또한 이러한 레이블링은 시간과 노력이 많이 소모되며, 평가자 간의 차이를 유발하는 문제가 있었다. 더불어, 분자 수준의 정보를 제공하는 것이 아니기 때문에 세부적인 분자-기능적 세포 분류하의 분포를 유추하는 알고리즘의 개발이 어려웠다.
그러나, 본 발명은 전술한 문제점을 해결하며, 첫째 다양한 질환에서 세포군의 다양성을 정량화하는 수치로서 활용될 수 있다. 즉, 학습 모델에 단순 조직 이미지만 입력하여 세포군의 다양성에 대한 정량 정보를 획득할 수 있다. 이를 이용하여 다양한 질환 (암, 염증성 질환 등)의 병태생리 연구, 신규 치료 기술 개발 연구, 진단적 바이오마커 개발 연구 등에 다양하게 응용될 수 있다.
둘째 학습 모델에 단순 조직 이미지만 입력하여 분자 기능적 세포를 정량화할 수 있다. 이를 이용하여 특정 질환의 특성과 심각 정도를 나타내거나 치료 효과를 예측할 수 있는 바이오마커로서 활용가치가 있다.
예를 들어, 종양에서 암세포 이외의 염증세포가 밀집된 경우 종양면역치료의 반응성 예측과도 밀접한 연관이 있다는 사실이 잘 알려져 있다. 즉, 본 발명에 따른 학습모델에 입력된 단순 조직 이미지는 염증세포의 분포 정보를 예측할 수 있으며, 정량적 바이오마커로서 활용될 수 있다.
도 1은 본 발명의 일 실시예에 따른 조직이미지의 세포 구성 예측 장치의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른세포 구성 예측 모델의 구성을 도시한 개념도 이다.
도 3은 본 발명의 일 실시예에 따른 세포 구성 예측 모델의 이미지 분할부를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 세포 구성 예측 모델의 분자마커 모델부를 설명하기 위한 도면이다.
도 5내지 도 8은 본 발명의 일 실시예에 따른 세포 구성 예측 모델에 입력한 조직 이미지로부터예측한 세포 구성 정보를 도시한 도면이다.
도 9는 본 발명의 일 실시예에 따른 조직이미지의 세포 구성 예측 방법을 도시한 순서도이다.
이하에서는 첨부한 도면을 참조하여 본 발명을 상세히 설명하기로 한다. 다만, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 여기에서 설명하는 실시예들로 한정되는 것은 아니다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않는다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 도면에 나타난 각 구성요소의 크기, 형태, 형상은 다양하게 변형될 수 있다. 명세서 전체에 대하여 동일/유사한 부분에 대해서는 동일/유사한 도면 부호를 붙였다.
이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 “부” 등은 명세서 작성의 용이함만이 고려되어 부여 되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략하였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결(접속, 접촉 또는 결합)"되어 있다고 할 때, 이는 "직접적으로 연결(접속, 접촉 또는 결합)"되어 있는 경우뿐만 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결 (접속, 접촉 또는 결합)"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함(구비 또는 마련)"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 "포함(구비 또는 마련)"할 수 있다는 것을 의미한다.
본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 나타내는 용어들은 하나의 구성 요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 구성 요소들의 순서나 관계를 제한하지 않는다. 예를 들어, 본 발명의 제1구성요소는 제2구성요소로 명명될 수 있고, 유사하게 제2구성요소도 제1구성 요소로 명명될 수 있다.
도 1은 본 발명의 일 실시예에 따른 조직이미지의 세포 구성 예측 장치의 구성을 도시한 블록도이다.
도 1을 참조하면, 조직이미지의 세포 구성 예측 장치(100)는 통신 모듈(110), 메모리(120) 및 프로세서(130)를 포함하며, 데이터베이스(140)를 더 포함할 수 있다. 조직이미지의 세포 구성 예측 장치(100)는 검사 대상체에 대한 조직 이미지를 수신하고, 이를 이용하여 세포 구성 정보를 예측하는 동작을 수행한다.
이를 위해, 조직이미지의 세포 구성 예측 장치(100)는 네트워크를 통해 서버나 타 단말에 접속할 수 있는 컴퓨터나 휴대용 단말기로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop) 등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 각종 스마트폰, 태블릿 PC, 스마트 워치 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
네트워크는 단말들 및 장치들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.
통신 모듈(110)은 검사 대상체에 대한 조직 이미지를 수신한다. 이때, 조직 이미지는 현미경을 통해 일반적으로 쉽게 획득이 가능한 조직 이미지로서 공간 전사체 정보를 포함하지 않는다. 통신 모듈(110)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치를 포함할 수 있다.
메모리(120)는 통신 모듈(110)을 통해 수신한 조직 이미지로부터 세포 구성 정보를 예측하는 프로그램이 저장된다. 이때, 세포 구성 정보를 예측하는 프로그램은 공간 전사체 정보와 이와 공간적으로 정합된 조직 이미지로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델에 조직 이미지를 입력하여 세포 구성 정보를 예측한다. 세포 구성 정보의 구체적인 내용에 대해서는 추후 설명하기로 한다.
이때, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 저장된 정보를 유지하기 위하여 전력을 필요로 하는 휘발성 저장장치를 통칭하는 것으로 해석되어야 한다. 메모리(120)는 프로세서(130)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행할 수 있다. 메모리(130)는 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치 외에 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
프로세서(130)는 메모리(120)에 저장된 세포 구성 정보를 예측하는 프로그램을 실행하고, 그 실행 결과로서 대상체에 대한 세포 구성 정보를 출력한다.
일 예에서, 프로세서(130)는 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 형태로 구현될 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
데이터베이스(140)는 통신 모듈(110)을 통해 수신되는 조직 이미지나, 세포 구성 예측 모델의 학습을 위한 다양한 데이터가 저장될 수 있다. 또한, 데이터베이스(140)는 세포 구성 정보 추출 프로그램에 의해 추출된 세포 구성 정보를 누적적으로 저장하며, 이러한 세포 구성 정보를 기반으로, 조직 이미지에 의해 분자 기능적 세포를 정량화 하는 다양한 응용에 활용될 수 있도록 한다.
이하, 세포 구성 정보를 추출하는 세포 구성 예측 모델에 대하여 살펴보기로 한다.
도 2는 본 발명의 일 실시예에 따른세포 구성 예측 모델의 구성을 도시한 개념도 이다. 도 3은 본 발명의 일 실시예에 따른 세포 구성 예측 모델의 이미지 분할부를 설명하기 위한 도면이다.
공간 전사체 정보(20)는 공간 정보를 포함하는 전사체 데이터와 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이다. 공간 정보는 조직 이미지 데이터에 2차원 평면으로 배치된 복수의 스팟(212)에 대한 위치정보를 의미하는 것으로서, 각 스팟(212)의 좌표를 포함한다. 여기서 조직 이미지 데이터는 복수의 스팟의 좌표가 포함된 특수 슬라이드를 이용하여 H&E 염색을 한 후에 촬영한 조직 이미지로서, 종래 기술에 해당하므로, 이에 대한 상세한 설명은 생략하기로 한다.
즉, 공간 전사체 정보(20)는 각 스팟(212) 마다 수백-수만 개의 전사체 데이터를 획득한 데이터로서, 스팟(212)의 좌표를 이용하여 전사체 데이터와 조직 이미지 데이터가 공간적으로 정합 가능한 데이터이다.
세포 구성 예측 모델(200)은 기 수집된 사람 또는 동물의 조직 별 공간 전사체 정보(20)와 각 스팟(212)의 좌표 별로 분류한 전사체 데이터에 대하여 세포 구성 정보(240)를 매칭시킨 학습 데이터에 기반하여 구축된 것이다.
세포 구성 예측 모델(200)은 이미지 분할부(210), 분자마커 모델부(220) 및 예측부(230)를 포함한다.
이미지 분할부(210)는 조직 이미지 데이터를 미리 설정된 크기의 패치 조직 이미지로 분할한다.
이미지 분할부(210)는 스팟(212)의 좌표에 기초하여 전사체 데이터와 조직 이미지 데이터를 매칭하는 과정, 미리 설정된 크기의 사각 박스를 복수의 스팟(212)이 포함된 조직 이미지 데이터에 배치하는 과정, 및 복수의 스팟(212) 중에서 가운데 위치한 스팟(212)의 좌표가 사각 박스의 중앙 좌표값(213)이 되도록 조직 이미지 데이터가 적어도 하나 이상의 패치 조직 이미지(211)로 추출되는 과정을 수행하도록 구축된 것이다.
예를 들어, 패치 조직 이미지(211)의 크기는 128 x 128의 이미지 사이즈일 수 있으며, 패치 한 변의 길이는 510um로 이루어질 수 있다.
예시적으로, 이미지 분할부(210)는 스팟(전사체 데이터를 획득하는 공간 단위)의 좌표에 기초하여, 전사체 데이터를 조직 이미지 데이터와 매칭을 시킬 수 있다. 이어서, 스팟(212)의 중앙 좌표값(213)에 기초하여, 조직 이미지 데이터가 일정한 크기의 사각형(사각 박스) 사이즈를 갖는 복수의 조각(patch) 이미지(패치 조직 이미지)로 분할될 수 있다. 이후 분자마커 모델부(220)가 분할된 패치 조직 이미지(211)에 포함된 전사체 데이터에 기초하여 각 세포군의 유형별 세포 분포 정보(세포의 밀집 정도)를 출력할 수 있다.
분자마커 모델부(220)는 전사체 데이터를 통해 레이블링된 세포군의 유형별 세포 분포 정보를 출력한다. 예시적으로, 분자마커 모델부(220)는 CellDART 모델로 구성될 수 있으나 이에 한정된 것은 아니며, 기존 조직 이미지(H&E staining)로 조직의 세부 분류를 추정하는 딥러닝 기반 알고리즘으로 구성될 수 있다.
도 4는 본 발명의 일 실시예에 따른 세포 구성 예측 모델의 분자마커 모델부를 설명하기 위한 도면이다.
한편, 도 4를 참조하면 또한 분자마커 모델부(220)는 인터넷에 공개된 기존 조직 이미지가 포함하는 세포군의 유형별 세포 분포 정보(241)와 각 단일 세포 종류(242)가 포함하는 전사체 데이터를 매칭시킨 학습 데이터에 기반하여 구축될 수 있다. 분자마커 모델부(220)는 기존 연구에 의해, 공개된 전사체 데이터와 레이블링된 세포군의 세포 분포 정보(241) 및 각 단일 세포 종류에 대한 정보(242)로 이루어진 학습 데이터에 기반하여 구축된 CellDART 모델을 이용하여 세포 구성 정보(240)를 출력할 수 있다. 예시적으로 CellDART 모델은 소스 분류기(source classifier) 및 도메인 분류기(domain classifier)를 포함한 특징 추출기를 포함한다. CellDART 모델은 기존 전사체 데이터 세트를 전처리하고 각 세포 클러스터(cell cluster)에 대한 통합된 마커 유전자를 추출한다. 이어서 풀링된 클러스터 마커(pooled cluster marker)와 공간 전사체 정보 간에 공유된 전사체 데이터가 다운스트림 분석(downstream analysis)을 위해 선택된다. 다음으로 단일 세포 데이터(single-cell data)에서 8개의 세포를 무작위로 선택하고 무작위 가중치를 부여하여 20000개의 유사점을 생성한다.
특징 추출기는 유사점에서 세포 분율을 추정하고 유사점이 공간 스팟과 구별하도록 학습된다. 먼저 도메인 분류기를 제외한 신경망의 가중치가 업데이트 되고, 다음으로 스팟과 유사 스팟에 대한 데이터 레이블이 반전되고 도메인 분류기만 업데이트 된다. 마지막으로 학습된 CellDART 모델이 공간 전사체 데이터에 적용하여 각 스팟의 세포 비율을 추정할 수 있다. CellDART 모델은 세포를 추정하기 위한 단일 세포 전사체 데이터는 공개된 데이터를 활용하여 기존 연구에 의해 레이블링된 세포별 이름이 적용될 수 있다. 이는 공개된 기술에 해당하므로, 이에 대한 상세한 설명은 생략하기로 한다.
다시 도 2를 참조하면, 예측부(230)는 패치 조직 이미지(211)에 포함된 복수의 스팟(212) 중에서 스팟(212)의 중앙 좌표값(213)에 기초하여 전사체 데이터와 레이블링된 세포 구성 정보(240)를 추출한다.
예시적으로 예측부(230)는 패치 조직 이미지(211)에 대한 전처리 과정을 포함할 수 있다. 전처리 과정은 H&E염색에 대한 스테인 표준화(Stain Normalization)를 수행할 수 있다. 예를 들어, 패치 조직 이미지(211)는 합성곱신경망의 학습 과정에 입력되는 데이터에 대하여 회전, 좌우상하 대칭, 확대 및 축소(20% 범주), 각 RGB 채널 별 변화를 임의의 함수로 수행하여 데이터 증량을 수행할 수 있다.
일 예로, 합성곱신경망은 이미지넷 기반의 ResNet-50을 기본 틀로 하여 이미지넷에서 훈련된 파라미터를 우선적으로 적용한 뒤 훈련과정에서 업데이트할 수 있다. 또한 전체 패치 조직 이미지(211)의 5%는 내부 확인(Validation)용으로 활용할 수 있다. 전체 학습 과정에서는 1회의 미니 배치(mini-batch)당 64개의 패치 조직 이미지 및 세포군을 입력하고, 최적화 과정에서는 아담 최적화(Adam optimizer)를 적용할 수 있다. 학습 률(Learning Rate)은 0.0001로 수행하고, 전체 에포크(epoch)는 100회 수행할 수 있다. 또한, 모델 훈련을 위한 손실함수(loss function)는 세포밀집정도에 대한분포를 고려하여 푸아송 손실(Poisson Loss)을 활용하였다.
도 5내지 도 8은 본 발명의 일 실시예에 따른 세포 구성 예측 모델에 입력한 조직 이미지로부터예측한 세포 구성 정보를 도시한 도면이다.
프로그램은 세포 구성 정보(240)로서 조직 이미지(21)에서 예측한 세포군의 유형에 대한 정보와 각 세포군의 유형별 세포 분포 정보를 나타낸 히트맵 조직 이미지를 포함한다.
도 5는 본 발명의 세포 구성 예측 모델(200)에 조직의 H&E 이미지를 입력하여 예측한 세포 군의 유형별 세포 구성 정보를 도시한 것이다.
도시된 바와 같이 본 발명의 세포 구성 예측 모델(200)에 독립된 조직 이미지 데이터의 패치를 입력하여 세포밀집정도의 추정 이미지가 생성될 수 있다.
이는 5%를 임의로 선정한 내부 확인 셋(validation set)에서 전사체로 예측한 세포군의 밀집정도와 H&E 이미지의 패치 조직 이미지로 예측한 모델의 결과를 나타낸 것이다. 가로축은 딥러닝 모델과 H&E 이미지의 패치 조직 이미지로 예측한값이고, 세로축은 전사체 데이터로부터 획득한 세포의 밀집정도를 나타낸 것이다.
도 6(a)는 조직 이미지(21)에서 예측한 세포군의 유형에 대한 정보이고, 도6(b)는 각 세포군의 유형별 세포 분포 정보를 나타낸 히트맵 조직 이미지이다. 본 발명의 세포 구성 예측 모델(200)에 비슘(Visium) 에서 획득한 조직이미지를 입력하여 패치 조직 이미지를 기반으로 적용시 골수 유형(Myeloid Type)의 세포 분포 정보를 추정한 히트맵 조직 이미지가 출력될 수 있다.
도 7은 독립적인 모델 작동 여부를 평가하기 위해 외부 공개된 데이터로서 폐선암의 조직이미지 패치별로 병리학과 의사의 의견에 따라 림프구에 침투하는 종양(Tumor Infiltrating Lymphocytes)이 패치 내에 존재하는지 알려주는 데이터셋에서, TIL이 존재하는 패치에서 통계적으로 유의미하게 더 높은 T/NK cell의 값이 나오는 것을 확인하였다.
도 8(a)는 독립적인 데이터로서, 공개된 폐선암의 H&E 이미지이고, 본 발명의 세포 구성 예측 모델(200)에 공개된 폐선암의이미지를 입력하면 도8(b)에 도시된 바와 같이, 조직 내 세포군의 유형별로 세포 분포 정보가 예측될 수 있다.
이하에서는 상술한 도 1 내지 도8에 도시된 구성 중 동일한 구성의 설명은 생략하도록 한다.
도 9는 본 발명의 일 실시예에 따른 조직이미지의 세포 구성 예측 방법을 도시한 순서도이다.
본 발명의 일 실시예에 따른 조직 이미지의 세포 구성 예측 장치(100)를 이용하여 공간 유전자발현정보에 기반한 조직 이미지의 세포 구성을 예측하는 방법은 검사 대상체에 대한 조직 이미지(21)를 수신하는 단계(S110) 및 공간 전사체 정보(20)와 분자마커로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델(200)에 조직 이미지(21)를 입력하여 세포 구성 정보를 예측하는 단계(S120)를 포함한다. 이때 공간 전사체 정보(20)는 공간 정보를 포함하는 전사체 데이터와 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이다. 공간 정보는 조직 이미지 데이터에 2차원 평면으로 배치된 복수의 스팟(212)에 대한 위치정보를 의미하는 것으로서, 각 스팟(212)의 좌표를 포함한다.
세포 구성 예측 모델(200)은 기 수집된 사람 또는 동물의 조직 별 공간 전사체 정보(20)와 각 스팟(212)의 좌표 별로 분류한 전사체 데이터에 대하여 세포 구성 정보(240)를 매칭시킨 학습 데이터에 기반하여 구축된 것이다.
세포 구성 예측 모델(200)은 조직 이미지 데이터를 미리 설정된 크기의 패치 조직 이미지로 분할하는 이미지 분할부(210), 전사체 데이터를 통해 레이블링된 세포군의 유형별 세포 분포 정보를 출력하는 분자마커 모델부(220), 및 패치 조직 이미지(211)에 포함된 복수의 스팟(212) 중에서 스팟(212)의 중앙 좌표값(213)에 기초하여 전사체 데이터와 레이블링된 세포 구성 정보(240)를 추출하는 예측부(230)를 포함한다.
세포 구성 예측 모델(200)의 이미지 분할부(210)는 스팟(212)의 좌표에 기초하여 전사체 데이터와 조직 이미지 데이터를 매칭하는 과정, 미리 설정된 크기의 사각 박스를 복수의 스팟(212)이 포함된 조직 이미지 데이터에 배치하는 과정, 및 복수의 스팟(212) 중에서 가운데 위치한 스팟(212)의 좌표가 사각 박스의 중앙 좌표값(213)이 되도록 조직 이미지 데이터가 적어도 하나 이상의 패치 조직 이미지(211)로 추출되는 과정을 수행하도록 구축된 것이다.
세포 구성 정보를 예측하는 단계(S120)는 세포 구성 정보(240)로서 조직 이미지(21)에서 예측한 세포군의 유형에 대한 정보와 각 세포군의 유형별 세포 분포 정보를 나타낸 히트맵 조직 이미지를 포함한다.
이상에서 설명한 세포 구성 예측 방법은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 상술한 설명을 기초로 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해되어야만 한다. 본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (13)

  1. 공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치에 있어서,
    검사 대상체에 대한 조직 이미지를 수신하는 통신 모듈;
    상기 조직 이미지로부터 세포 구성 정보를 예측하는 프로그램이 저장된 메모리; 및
    상기 프로그램을 실행하는 프로세서를 포함하되,
    상기 프로그램은, 공간 전사체 정보와 이와 공간적으로 정합된 조직 이미지로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델에 상기 조직 이미지를 입력하여 상기 세포 구성 정보를 예측하고,
    상기 공간 전사체 정보는 공간 정보를 포함하는 전사체 데이터와 상기 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이고,
    상기 공간 정보는 상기 조직 이미지 데이터에 배치된 복수의 스팟에 대한 위치정보를 의미하는 것으로서, 각 스팟의 좌표를 포함하는 것인, 조직 이미지의 세포 구성 예측 장치.
  2. 제1항에 있어서,
    상기 세포 구성 예측 모델은 기 수집된 사람 또는 동물의 조직 별 상기 공간 전사체 정보와 상기 각 스팟의 좌표 별로 분류한 상기 전사체 데이터에 대하여 상기 세포 구성 정보를 매칭시킨 학습 데이터에 기반하여 구축된 것인, 조직 이미지의 세포 구성 예측 장치.
  3. 제2항에 있어서,
    상기 세포 구성 예측 모델은 상기 조직 이미지 데이터를 미리 설정된 크기의 패치 조직 이미지로 분할하는 이미지 분할부, 상기 전사체 데이터를 통해 레이블링된 세포군의 유형별 세포 분포 정보를 출력하는 분자마커 모델부, 및 상기 패치 조직 이미지에 포함된 상기 복수의 스팟 중에서 스팟의 중앙 좌표값에 기초하여 상기 전사체 데이터와 레이블링된 상기 세포 구성 정보를 추출하는 예측부를 포함하는 것인, 조직 이미지의 세포 구성 예측 장치.
  4. 제3항에 있어서,
    상기 세포 구성 예측 모델의 이미지 분할부는 상기 스팟의 좌표에 기초하여 상기 전사체 데이터와 상기 조직 이미지 데이터를 매칭하는 과정, 미리 설정된 크기의 사각 박스를 상기 복수의 스팟이 포함된 상기 조직 이미지 데이터에 배치하는 과정, 및 상기 복수의 스팟 중에서 가운데 위치한 스팟의 좌표가 상기 사각 박스의 중앙 좌표값이 되도록 상기 조직 이미지 데이터가 적어도 하나 이상의 상기 패치 조직 이미지로 추출되는 과정을 수행하도록 구축된 것인, 조직 이미지의 세포 구성 예측 장치.
  5. 제3항에 있어서,
    상기 세포 구성 예측 모델의 분자마커 모델부는 인터넷에 공개된 기존 조직 이미지가 포함하는 세포군의 유형별 세포 분포 정보와 각 단일 세포 종류가 포함하는 전사체 데이터를 매칭시킨 학습 데이터에 기반하여 구축된 것인, 조직 이미지의 세포 구성 예측 장치.
  6. 제3항에 있어서,
    상기 프로그램은 상기 세포 구성 정보로서 상기 조직 이미지에서 예측한 세포군의 유형에 대한 정보와 각 세포군의 유형별 세포 분포 정보를 나타낸 히트맵 조직 이미지를 포함하는 것인, 조직 이미지의 세포 구성 예측 장치.
  7. 조직 이미지의 세포 구성 예측 장치를 이용하여 공간 유전자발현정보에 기반한 조직 이미지의 세포 구성을 예측하는 방법에 있어서,
    검사 대상체에 대한 조직 이미지를 수신하는 단계; 및
    공간 전사체 정보와 이와 공간적으로 정합된 조직 이미지로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델에 상기 조직 이미지를 입력하여 상기 세포 구성 정보를 예측하는 단계를 포함하되,
    상기 공간 전사체 정보는 공간 정보를 포함하는 전사체 데이터와 상기 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이고,
    상기 공간 정보는 상기 조직 이미지 데이터에 배치된 복수의 스팟에 대한 위치정보를 의미하는 것으로서, 각 스팟의 좌표를 포함하는 것인, 조직 이미지의 세포 구성 예측 방법.
  8. 제7항에 있어서,
    상기 세포 구성 예측 모델은 기 수집된 사람 또는 동물의 조직 별 상기 공간 전사체 정보와 상기 각 스팟의 좌표 별로 분류한 상기 전사체 데이터에 대하여 상기 세포 구성 정보를 매칭시킨 학습 데이터에 기반하여 구축된 것인, 조직 이미지의 세포 구성 예측 방법.
  9. 제8항에 있어서,
    상기 세포 구성 예측 모델은 상기 조직 이미지 데이터를 미리 설정된 크기의 패치 조직 이미지로 분할하는 이미지 분할부, 상기 전사체 데이터를 통해 레이블링된 세포군의 유형별 세포 분포 정보를 출력하는 분자마커 모델부, 및 상기 패치 조직 이미지에 포함된 상기 복수의 스팟 중에서 스팟의 중앙 좌표값에 기초하여 상기 전사체 데이터와 레이블링된 상기 세포 구성 정보를 추출하는 예측부를 포함하는 것인, 조직 이미지의 세포 구성 예측 방법.
  10. 제9항에 있어서,
    상기 세포 구성 예측 모델의 이미지 분할부는 상기 스팟의 좌표에 기초하여 상기 전사체 데이터와 상기 조직 이미지 데이터를 매칭하는 과정, 미리 설정된 크기의 사각 박스를 상기 복수의 스팟이 포함된 상기 조직 이미지 데이터에 배치하는 과정, 및 상기 복수의 스팟 중에서 가운데 위치한 스팟의 좌표가 상기 사각 박스의 중앙 좌표값이 되도록 상기 조직 이미지 데이터가 적어도 하나 이상의 상기 패치 조직 이미지로 추출되는 과정을 수행하도록 구축된 것인, 조직 이미지의 세포 구성 예측 방법.
  11. 제9항에 있어서,
    상기 세포 구성 예측 모델의 분자마커 모델부는 인터넷에 공개된 기존 조직 이미지가 포함하는 세포군의 유형별 세포 분포 정보와 각 단일 세포 종류가 포함하는 전사체 데이터를 매칭시킨 학습 데이터에 기반하여 구축된 것인, 조직 이미지의 세포 구성 예측 방법.
  12. 제9항에 있어서,
    상기 세포 구성 정보를 예측하는 단계는 상기 세포 구성 정보로서 상기 조직 이미지에서 예측한 세포군의 유형에 대한 정보와 각 세포군의 유형별 세포 분포 정보를 나타낸 히트맵 조직 이미지를 포함하는 것인, 조직 이미지의 세포 구성 예측 방법.
  13. 제7항 내지 제12항 중 어느 한 항에 따른 조직 이미지의 세포 구성 예측 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 비일시적 컴퓨터 판독가능 기록매체.
PCT/KR2022/002158 2021-04-15 2022-02-14 공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치 및 방법 WO2022220385A1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US18/555,419 US20240194292A1 (en) 2021-04-15 2022-02-14 Apparatus and method for predicting cell type enrichment from tissue images using spatially resolved gene expression data
AU2022257481A AU2022257481A1 (en) 2021-04-15 2022-02-14 Apparatus and method for predicting cell type enrichment from tissue images using spatially resolved gene expression data
JP2023563310A JP2024518035A (ja) 2021-04-15 2022-02-14 空間遺伝子発現情報に基づいて組織イメージの細胞構成を予測する装置及び方法
EP22788243.8A EP4325505A1 (en) 2021-04-15 2022-02-14 Apparatus and method for predicting cell type enrichment from tissue images using spatially resolved gene expression data

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2021-0049331 2021-04-15
KR20210049331 2021-04-15
KR1020210110364A KR20220142905A (ko) 2021-04-15 2021-08-20 공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치 및 방법
KR10-2021-0110364 2021-08-20

Publications (1)

Publication Number Publication Date
WO2022220385A1 true WO2022220385A1 (ko) 2022-10-20

Family

ID=83640400

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/002158 WO2022220385A1 (ko) 2021-04-15 2022-02-14 공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치 및 방법

Country Status (5)

Country Link
US (1) US20240194292A1 (ko)
EP (1) EP4325505A1 (ko)
JP (1) JP2024518035A (ko)
AU (1) AU2022257481A1 (ko)
WO (1) WO2022220385A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102108050B1 (ko) 2019-10-21 2020-05-07 가천대학교 산학협력단 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법 및 그 장치
KR20200058662A (ko) * 2018-11-19 2020-05-28 노을 주식회사 이미지 분석 시스템 및 분석 방법
CN112185465A (zh) * 2020-09-10 2021-01-05 南京医科大学附属口腔医院 通过空间转录组技术分析牙周炎免疫微环境的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200058662A (ko) * 2018-11-19 2020-05-28 노을 주식회사 이미지 분석 시스템 및 분석 방법
KR102108050B1 (ko) 2019-10-21 2020-05-07 가천대학교 산학협력단 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법 및 그 장치
CN112185465A (zh) * 2020-09-10 2021-01-05 南京医科大学附属口腔医院 通过空间转录组技术分析牙周炎免疫微环境的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BAE SUNGWOO, CHOI HONGYOON, LEE DONG SOO: "Discovery of molecular features underlying the morphological landscape by integrating spatial transcriptomic data with deep features of tissue images", NUCLEIC ACIDS RESEARCH, OXFORD UNIVERSITY PRESS, GB, vol. 49, no. 10, 4 June 2021 (2021-06-04), GB , pages e55 - 12, XP055977425, ISSN: 0305-1048, DOI: 10.1093/nar/gkab095 *
BAE SUNGWOO, NA KWON JOONG, KOH JAEMOON, LEE DONG SOO, CHOI HONGYOON, KIM YOUNG TAE: "CellDART: Cell type inference by domain adaptation of single-cell and spatial transcriptomic data", BIORXIV, 23 August 2021 (2021-08-23), pages 1 - 39, XP055977422, Retrieved from the Internet <URL:https://www.biorxiv.org/content/10.1101/2021.04.26.441459v2.full.pdf> [retrieved on 20221103], DOI: 10.1101/2021.04.26.441459 *
CHELEBIAN EDUARD, AVENEL CHRISTOPHE, KARTASALO KIMMO, MARKLUND MAJA, TANOGLIDI ANNA, MIRTTI TUOMAS, COLLING RICHARD, ERICKSON ANDR: "Morphological Features Extracted by AI Associated with Spatial Transcriptomics in Prostate Cancer", CANCERS, M D P I AG, CH, vol. 13, no. 19, 1 October 2021 (2021-10-01), CH , pages 4837 - 14, XP055977423, ISSN: 2072-6694, DOI: 10.3390/cancers13194837 *
SONG QIANQIAN, SU JING: "DSTG: deconvoluting spatial transcriptomics data through graph-based artificial intelligence", BRIEFINGS IN BIOINFORMATICS, OXFORD UNIVERSITY PRESS, OXFORD., GB, vol. 22, no. 5, 2 September 2021 (2021-09-02), GB , pages 1 - 13, XP055977420, ISSN: 1467-5463, DOI: 10.1093/bib/bbaa414 *
YOOSUF NIYAZ, NAVARRO JOSé FERNáNDEZ, SALMéN FREDRIK, STåHL PATRIK L, DAUB CARSTEN O: "Identification and transfer of spatial transcriptomics signatures for cancer diagnosis", BREAST CANCER RESEARCH : BCR, BIOMED CENTRAL, ENGLAND, 13 January 2020 (2020-01-13), England , pages 6 - 6, XP055840244, Retrieved from the Internet <URL:https://breast-cancer-research.biomedcentral.com/track/pdf/10.1186/s13058-019-1242-9.pdf> [retrieved on 20210913], DOI: 10.1186/s13058-019-1242-9 *

Also Published As

Publication number Publication date
EP4325505A1 (en) 2024-02-21
AU2022257481A1 (en) 2023-11-09
JP2024518035A (ja) 2024-04-24
US20240194292A1 (en) 2024-06-13

Similar Documents

Publication Publication Date Title
Greenwald et al. Whole-cell segmentation of tissue images with human-level performance using large-scale data annotation and deep learning
Skylaki et al. Challenges in long-term imaging and quantification of single-cell dynamics
Wheat et al. Single-molecule imaging of transcription dynamics in somatic stem cells
Doan et al. Leveraging machine vision in cell-based diagnostics to do more with less
US20220084660A1 (en) Artificial intelligence processing system and automated pre-diagnostic workflow for digital pathology
KR20220064379A (ko) 바이오마커들을 추론하기 위해 슬라이드의 이미지들을 처리하기 위한 시스템들 및 방법들
WO2022149894A1 (ko) 병리 검체에 대한 판단 결과를 제공하는 인공 뉴럴 네트워크의 학습 방법, 및 이를 수행하는 컴퓨팅 시스템
CN103140757A (zh) 信息处理设备、信息处理系统、信息处理方法、程序和记录介质
JP2023512560A (ja) 機械学習アルゴリズムを訓練し、患者のプライバシーを維持するための連合学習システム
CN113393443B (zh) 一种he病理图像细胞核分割方法及系统
Riordan et al. Automated analysis and classification of histological tissue features by multi-dimensional microscopic molecular profiling
US20230186659A1 (en) Machine learning models for cell localization and classification learned using repel coding
Liu et al. Reproducible, high-dimensional imaging in archival human tissue by multiplexed ion beam imaging by time-of-flight (MIBI-TOF)
Graziani et al. Breast histopathology with high-performance computing and deep learning
WO2016204535A1 (ko) 의료 검사를 위한 이미지 분석 관리 방법 및 서버
KR20220142905A (ko) 공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치 및 방법
WO2022220385A1 (ko) 공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치 및 방법
Pechuan-Jorge et al. SPEX: A modular end-to-end analytics tool for spatially resolved omics of tissues
US20230281971A1 (en) Method and device for analyzing pathological slide image
Long et al. Domain adaptive cascade r-cnn for mitosis domain generalization (midog) challenge
US11663838B2 (en) Systems and methods for processing images to determine image-based computational biomarkers from liquid specimens
CN116110608A (zh) 一种胃癌her2状态预测模型的训练、预测方法及系统
Higaki et al. Semi-automatic organelle detection on transmission electron microscopic images
US20190340415A1 (en) Automated system and method for creating and executing a scoring guide to assist in the analysis of tissue specimen
CN111104894B (zh) 一种精子标注方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22788243

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18555419

Country of ref document: US

Ref document number: 2023563310

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: AU2022257481

Country of ref document: AU

Ref document number: 2022257481

Country of ref document: AU

ENP Entry into the national phase

Ref document number: 2022257481

Country of ref document: AU

Date of ref document: 20220214

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2022788243

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022788243

Country of ref document: EP

Effective date: 20231115