WO2023287235A1 - 병리 이미지 분석 방법 및 시스템 - Google Patents

병리 이미지 분석 방법 및 시스템 Download PDF

Info

Publication number
WO2023287235A1
WO2023287235A1 PCT/KR2022/010321 KR2022010321W WO2023287235A1 WO 2023287235 A1 WO2023287235 A1 WO 2023287235A1 KR 2022010321 W KR2022010321 W KR 2022010321W WO 2023287235 A1 WO2023287235 A1 WO 2023287235A1
Authority
WO
WIPO (PCT)
Prior art keywords
pathology
image
pathology image
data set
type
Prior art date
Application number
PCT/KR2022/010321
Other languages
English (en)
French (fr)
Inventor
브라톨리비아지오
옥찬영
정원경
조수익
팽경현
유동근
Original Assignee
주식회사 루닛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 루닛 filed Critical 주식회사 루닛
Priority to EP22842497.4A priority Critical patent/EP4372379A1/en
Priority claimed from KR1020220087202A external-priority patent/KR20230011895A/ko
Publication of WO2023287235A1 publication Critical patent/WO2023287235A1/ko
Priority to US18/491,314 priority patent/US20240046670A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/235Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern

Definitions

  • the present disclosure relates to a pathology image analysis method and system, and more specifically, to a method and system for analyzing various types of pathology images using a machine learning model.
  • immunohistochemistry is a method in which an antibody that reacts to a specific antigen (Target antigen) is bound to an enzyme or a fluorescent dye as a secondary antibody, and then the specific tissue is stained.
  • target antigen a specific antigen
  • the antibody binds to cells expressing a specific antigen corresponding to the target, and this binding reaction activates the secondary antibody to cause a staining reaction.
  • a pathologist may check the stained cells under a microscope and perform an evaluation of the cells. For example, a pathologist can derive meaningful information within a tissue by evaluating and quantifying the amount of staining expression.
  • biomarkers associated with many new drugs are being developed.
  • clinical data related to biomarkers already used in clinical practice eg, clinical data related to PD-L1 IHC, HER2 IHC, etc.
  • have a lot of accumulated data so it is difficult to create learning data necessary for learning AI algorithms. Relatively easy.
  • the artificial intelligence model may not be trained properly or may be biased toward a specific training data set.
  • the present disclosure provides a pathology image analysis method capable of accurately analyzing various types of pathology images, a computer program stored in a recording medium, and an apparatus (system).
  • the present disclosure may be implemented in a variety of ways, including a method, an apparatus (system) and/or a computer program stored in a computer readable storage medium, and a computer readable storage medium in which the computer program is stored.
  • a pathology image analysis method performed by at least one processor includes acquiring a pathology image, inputting the obtained pathology image into a machine learning model, and determining a pathology image from the machine learning model. Acquiring an analysis result and outputting the obtained analysis result, wherein the machine learning model is applied to a first pathology data set associated with a first domain and a second pathology data set associated with a second domain different from the first domain. It may be a model learned using a training data set generated based thereon.
  • the pathology image analysis method may include, prior to the acquiring of the pathology image, acquiring a first pathology data set including a pathology image of a first type and a second pathology data set including a pathology image of a second type. , generating a training data set based on the first pathology data set and the second pathology data set, and learning a machine learning model using the generated training data set.
  • generating a data set for learning may include associating an item associated with a pathological image of a first type with an item associated with a pathological image of a second type based on at least one of a staining expression level or a region of interest, and an associated item. It may include generating a data set for learning that includes.
  • the step of associating the items may include extracting a first item associated with a tumor tissue region included in the first type of pathology image and a second item associated with a non-tumor tissue region included in the first type of pathology image; Extracting a third item associated with a tumor tissue region included in a pathology image of a second type and a fourth item associated with a non-tumor tissue region included in a pathology image of a second type, and the extracted first item and the extracted first item associating the three items, and associating the extracted second item with the extracted fourth item.
  • the step of associating the items may include a fifth item associated with the first expression range and a sixth item associated with the second expression range, among items representing staining expression intensities of pixels included in the pathology image of the first type. extracting, identifying a seventh item associated with the first expression range and an eighth item associated with the second expression range among items representing the staining expression intensity of each of the pixels included in the second pathology data set; and associating the fifth item with the seventh item, and associating the sixth item with the eighth item.
  • the step of associating the items may include associating at least one object class representing the type of cells included in the pathology image of the first type with at least one object class representing the type of cells included in the pathology image of the second type. or associating at least one object class representing the staining expression intensity of cells included in the first type of pathology image with at least one object class representing the staining expression intensity of cells included in the second type of pathology image steps may be included.
  • generating a data set for training based on the first pathology data set and the second pathology data set may include extracting patches from the first pathology data set and the second pathology data set, and the training data set including the patches.
  • the step of learning the machine learning model using the generated training data set includes the step of generating a number of first types corresponding to the first sampling number among labeled patches extracted from the first pathology data set. Fetching image patches of the second type, fetching a number of second type image patches corresponding to the second sampling number among labeled patches extracted from a second pathology data set, and first type image patches. and the second type of image patches, generating a batch and training a machine learning model using the batch.
  • generating a data set for training based on the first pathology data set and the second pathology data set may include extracting first type of image patches from the first pathology data set, and extracting a second type of image patches from the second pathology data set. It may include extracting image patches of a type and copying a predetermined number of image patches of a first type and including them in a training data set.
  • the step of training the machine learning model may include adjusting the size of at least one of the first type of pathology image and the second type of pathology image, and training data including at least one resized pathology image. It may include the step of learning a machine learning model using.
  • the step of training the machine learning model may include removing pixels corresponding to a predetermined range from among pixels included in at least one of the pathology image of the first type and the pathology image of the second type.
  • the step of training the machine learning model may include inverting at least one of the first type of pathology image or the second type of pathology image from side to side or up and down, and machine learning using training data including the inverted pathology image. It may include training the model.
  • the step of training the machine learning model may include removing or modifying pixels in a predetermined range from among pixels included in at least one of the pathology image of the first type or the pathology image of the second type, and pixels in the predetermined range. and training a machine learning model using learning data including pathology images from which the pathologies have been removed or modified.
  • the step of training the machine learning model includes the step of converting the color of pixels included in at least one of the pathology image of the first type or the pathology image of the second type, and the at least one pathology image in which the color of the pixels is converted.
  • a step of learning a machine learning model using the included training data may be included.
  • the step of learning the machine learning model may include determining data for target learning from among the data sets for learning, inputting the data for target learning to the machine learning model, and obtaining an output value from the machine learning model, a first pathology data set. or obtaining a reference value for target learning data by using annotation information included in at least one of the second pathology data sets, and feeding back a loss value between an output value and the obtained reference value to a machine learning model. can do.
  • the machine learning model includes a plurality of analysis models that output different types of analysis results, and obtaining the analysis results includes identifying a staining color and a location where staining is expressed from the acquired pathology image; Based on the identified staining color and the expressed position, determining one of a plurality of analysis models as a target analysis model and inputting the pathology image into the determined target analysis model to analyze the staining intensity at the expressed position. It may include obtaining from the target analysis model.
  • the machine learning model includes a plurality of analysis models that output different types of analysis results
  • the obtaining of the analysis results includes target analysis of one of the plurality of analysis models based on user input information. It may include determining as a model, inputting the pathology image into the target analysis model, and obtaining an analysis result of the pathology image from the target analysis model.
  • the machine learning model outputs an analysis result including at least one of a cell type or an evaluation index of the cell, and the evaluation index of the cell is a positive or negative result value for the cell, and a staining expression level for the cell. , a value representing the degree of staining expression in cells, or at least one of statistical information on staining expression in cells.
  • a computer-readable non-transitory recording medium on which instructions for executing the pathology image analysis method described above on a computer may be recorded.
  • An information processing system includes a memory and at least one processor connected to the memory and configured to execute at least one computer-readable program included in the memory, and the at least one program includes: and instructions for obtaining an image, inputting the obtained pathology image to a machine learning model, obtaining an analysis result of the pathology image from the machine learning model, and outputting the obtained analysis result, wherein the machine learning model includes a first It may be a model trained using a training data set generated based on a first pathology data set associated with a domain and a second pathology data set associated with a second domain different from the first domain.
  • a machine learning model is learned based on a training data set composed of heterogeneous domains, and thus the machine learning model can accurately analyze even various types of pathology images not used for learning.
  • sampling is performed on heterogeneous pathology data sets so that a machine learning model can be learned in a balanced way without being biased toward a specific type of pathology data set.
  • items included in the heterogeneous pathology data set may be associated with each other, and a data set for learning may be generated based on the heterogeneous pathology data set in which the items are associated.
  • a machine learning model is trained using such a training data set, the machine learning model can accurately analyze a new carcinoma or a pathology image containing cells expressed according to a new IHC staining method without performing separate learning.
  • learning data in which pathological images are intentionally modified is input to a machine learning model and the machine learning model is learned, thereby building a machine learning model that is robust even in unintended situations such as image distortion or change.
  • analysis results including various types of output values may be output through a machine learning model. Accordingly, the user may proceed with a follow-up procedure, such as medical treatment, by using a desired type of output value among output values included in the analysis result.
  • 1 and 2 are diagrams illustrating different types of pathology images.
  • FIG. 3 is a diagram illustrating a pathology image including an object class.
  • FIG. 4 is a diagram illustrating a pathology image in which a tumor region and a precancerous region are segmented.
  • FIG. 5 is a diagram illustrating an environment to which a system for analyzing a pathology image according to an embodiment of the present disclosure is applied.
  • FIG. 6 is a schematic diagram illustrating that a pathology image analysis model is learned, according to an embodiment of the present disclosure.
  • FIG. 7 is a flowchart illustrating a method of learning a pathology image analysis model according to an embodiment of the present disclosure.
  • FIG. 8 is a flowchart illustrating a method of generating a training data set by pre-processing a heterogeneous pathology data set, according to an embodiment of the present disclosure.
  • 9 is a diagram illustrating an example in which patches are sampled to create a batch.
  • FIG. 10 is a diagram illustrating another example in which patches are sampled to create a batch.
  • FIG. 11 is a diagram illustrating output of an analysis result of a pathology image through a pathology image analysis model according to an embodiment of the present disclosure.
  • FIG. 12 is a diagram illustrating an artificial neural network model included in a pathology image analysis model according to an embodiment of the present disclosure.
  • FIG. 13 is a flowchart illustrating a method of outputting an analysis result of a pathology image using a pathology image analysis model, according to an embodiment of the present disclosure.
  • FIG. 14 is a diagram illustrating a pathology image analysis model according to another embodiment of the present disclosure.
  • 15 is a diagram illustrating output of an analysis result of a pathology image through an analysis model called based on characteristics of the pathology image, according to another embodiment of the present disclosure.
  • 16 is a diagram illustrating output of an analysis result of a pathology image through an analysis model called based on user input information, according to another embodiment of the present disclosure.
  • 17 to 20 are diagrams illustrating various types of analysis results output from a pathology image analysis model.
  • 21 is an exemplary configuration diagram of a system for analyzing a pathology image according to an embodiment of the present disclosure.
  • a 'system' may include at least one of a server device and a cloud device, but is not limited thereto.
  • a system may consist of one or more server devices.
  • a system may consist of one or more cloud devices.
  • the system may be operated by configuring a server device and a cloud device together.
  • 'comprises' and/or 'comprising' means that the mentioned components, steps, operations and/or elements refer to one or more other components, steps, operations. and/or the presence or addition of elements is not excluded.
  • 'IHC (Immunohistochemistry) staining' is a principle of reacting an antibody of interest on a tissue in order to observe the presence or absence of a protein (or antigen) present in the nucleus, cytoplasm, or cell membrane of a tissue or cell sample with an optical microscope. It can refer to a staining method using . Since the antigen-antibody reaction cannot be observed under a microscope as it is, a method of attaching a biomarker and then developing the color of the marker is used. Various coloring agents such as 3,3'-diaminobenzidine (DAB) with a band may be used.
  • DAB 3,3'-diaminobenzidine
  • a 'pathology image' may refer to an image obtained by taking a pathology slide that has been fixed and stained through a series of chemical treatment processes in order to observe a tissue removed from a human body under a microscope.
  • the pathology image may refer to a whole slide image (WSI) including a high-resolution image of a pathology slide or a part of a high-resolution whole slide image.
  • a portion of the image of the entire slide may refer to a region divided in units of a predetermined size from the entire image of the pathology slide.
  • the pathology image may refer to a digital image obtained by scanning a pathology slide using a digital scanner, and may include information about cells, tissues, and/or structures in the human body. there is.
  • the pathology image may include one or more patches, and histological information may be applied to the one or more patches through an annotation (eg, tagging).
  • a 'pathology image' may refer to 'at least a partial region included in a pathology image'.
  • a 'patch' may refer to a partial region in a pathology image.
  • the patch may include a region corresponding to a semantic object extracted by performing segmentation on the pathology image.
  • a patch may refer to a combination of pixels associated with histological information generated by analyzing a pathology image.
  • the patch may include an object associated with a tumor tissue, an object associated with a precancerous tissue, an object associated with a tissue surrounding a tumor, and an object associated with other tissues.
  • 'histological components' may include characteristics or information about cells, tissues, and/or structures in a human body included in a pathology image.
  • the characteristics of the cell may include cytologic features such as a nucleus and a cell membrane.
  • the histological information may refer to histological information about the patch inferred through a machine learning model or input by a pathologist.
  • 'pathology data' may refer to a pathology image including annotation information.
  • a pathology data set including a plurality of pathology data may be referred to as a 'pathology data set'. Domains of pathology data may be considered when generating a pathology data set.
  • a pathology data set may be configured by collecting only pathology images having matching domains.
  • 'annotation information' may be information input by an expert such as a pathologist or a pathologist in association with a pathology image.
  • Annotation information may include histological information on the pathology image.
  • the annotation information may include at least one item related to the pathology image.
  • an 'item' associated with the pathology image is data representing detailed information about the pathology image, and includes a first data associated with a region of an object where staining is expressed (eg, a pixel range included in the region, a position of the pixel, etc.)
  • An item which may include a second item associated with a class of object.
  • an object may be associated with a pixel range as a significant cell region (eg, an abnormal region), and an object class may include a cell type and an evaluation index.
  • the cell type may be a tumor cell, a lymphocyte, and the like
  • the evaluation index is an index related to staining expression intensity and may include positivity, expression level, expression value, expression statistical information, and the like.
  • the expression level may be a grade of cells based on staining intensity among a plurality of predetermined grades (eg, 0, t+1, t+2, and t+3), and the expression value is within a predetermined numerical range (eg, 0 to 1). ) can be the expression value of cells based on the staining intensity.
  • expression statistical information is statistics on cell expression intensity and can be output when a plurality of pathology images are continuously analyzed. For example, by analyzing 10 pathology images, a ratio of PD-L1 positive tumor cells to all tumor cells in each pathology image is calculated, and a distribution of the calculated ratio value may be included in expression statistical information.
  • expression statistical information may include statistical information about specific cells within a single pathology image. For example, one pathology image may be analyzed, and the expression statistical information may include a ratio of cells classified into a specific class out of total cells expressing dye in the pathology image.
  • 'heterogeneous' may refer to pathology data or pathology images having different domains.
  • matching the 'domains' can be understood as having the same type of pathology images and matching item types related to the pathological images, and different 'domains' meaning pathology images. It can be understood that the types of images are different, or that the types of items associated with pathology images are different.
  • the same type of pathology image has the same staining method. For example, pathology images of lung cancer tissues stained using programmed cell death ligand 1 (PD-L1) IHC staining may constitute a first pathology data set associated with the first domain.
  • PD-L1 programmed cell death ligand 1
  • pathology images of breast cancer tissue stained using human epidermal growth factor receptor 2 (HER2) staining may constitute a second pathology data set associated with the second domain.
  • the pathology images included in the first pathology data set and the pathology images included in the second pathology data set may be referred to as heterogeneous. That is, if pathology data having the same domain can be referred to as data of the same type, pathology data having different domains may be referred to as heterogeneous data.
  • each of a plurality of A' may refer to each of all components included in a plurality of A's, or each of some components included in a plurality of A's.
  • 'instruction' as one or more instructions grouped on the basis of function, may refer to a component of a computer program and executed by a processor.
  • FIGS. 1 to 4 various examples of pathology images that can be used for learning of the present disclosure will be described.
  • a first pathology image 110 is a slide image stained with programmed cell death ligand 1 (PD-L1) in non-small cell lung cancer using 22C3 IHC staining.
  • the second pathological image 120 of FIG. 2 is a slide image in which HER2 (human epidermal growth factor receptor 2) IHC staining in breast cancer is stained.
  • HER2 human epidermal growth factor receptor 2
  • a third pathology image 210 shown in FIG. 2 is a slide image in which breast cancer is stained using ER (estrogen receptor) IHC staining
  • a fourth pathology image 220 is a slide image of breast cancer using PR (progesterone receptor) IHC staining.
  • This is a slide image stained with .
  • IHC staining patterns are similar in that the nuclei stained by ER IHC staining and PR IHC staining both show the same color (eg, brown).
  • a heterogeneous pathology image in which the same or similar color (eg, brown) is expressed may be used to generate training data to be described later.
  • a training data set may be generated based on heterogeneous pathology data including various types of pathology images as shown in FIGS. 1 and 2 , and a machine learning model may be learned using the training data set.
  • the training data set may be a plurality of training data sets.
  • pathological images expressed in various colors (eg, red, pink, blue, etc.) other than a specific color may be used to generate training data.
  • Each pathology image may include annotation information input by a pathologist.
  • the annotation information may include at least one item of an object (eg, cell, tissue, structure, etc.) on the pathology image.
  • the item may include the type of object in which staining is expressed and the class of the object input by the pathologist.
  • labeling information may be used interchangeably with annotation information.
  • FIG. 3 is a diagram illustrating a pathology image 310 including an object class.
  • the pathology image 310 illustrated in FIG. 3 includes an object expressed in a specific color and an object class.
  • a region associated with an object may be identified based on pixels expressed in a specific color.
  • the object class may be determined based on the degree to which cells express a specific color, and each class of objects may be determined according to the saturation of a specific color. Conventionally, this determination could be made by a pathologist. That is, after confirming the pathology image, the pathology specialist inputs each cell class according to the degree of staining expression, and the cell class and the corresponding cell area (ie, pixel range) set in this way can be included in the pathology image as annotation information. there is. In FIG. 3, it is illustrated that the intensity of staining expression increased from t0 to t3+.
  • an object class and an object may be automatically determined using a pre-built image analysis algorithm (eg, a machine learning model for image analysis).
  • a pre-built image analysis algorithm eg, a machine learning model for image analysis
  • FIG. 4 is a diagram illustrating a pathology image 410 in which a tumor region and a precancerous region are segmented.
  • the tumor area (ca) is visualized with a first color
  • the precancerous area (cis) is second. It can be visualized in 2 colors.
  • the classification of these areas could be determined by a pathologist. For example, a pathologist may identify a tumor region (ca) and a precancerous region (cis) based on morphological characteristics of cells and tissues expressed in the pathology image 410 .
  • such a segmentation task may be automatically performed using a pre-built image analysis algorithm (eg, a machine learning model for image analysis). For example, through an image analysis algorithm, the degree of staining expression of cells is extracted from the pathology image, and each region is automatically segmented based on the intensity of staining expression, and then visualized in different colors.
  • a pre-built image analysis algorithm eg, a machine learning model for image analysis.
  • a region around a tumor may be visualized in a third color
  • other tissues may be visualized in a fourth color.
  • Annotation information associated with the visualization task may be included in the pathology image. That is, annotation information including information on a first item related to the visualized object region and information on a second item related to the class of the object may be included in the pathology image.
  • pathology images may be different, and annotation information items included in the pathology images may be different.
  • the reason why the pathological images are different can be understood that staining methods for the pathological images may be different, and body parts from which cells are harvested may be different.
  • the first pathology image and the second pathology image may be images of different types.
  • the third pathology image is an image obtained from breast tissue and the fourth pathology image is a pathology image obtained from lung tissue
  • the third pathology image and the fourth pathology image may be images of different types.
  • annotation information may be understood as different types of items included in the annotation information.
  • the first pathology image includes a third item related to benignity as an object class
  • the second pathology image includes a fourth item representing a grade of any one of t0, t1+, t2+, and t3+ as an object class.
  • the first pathology image and the second pathology image are heterogeneous.
  • pathology images that are different from each other among the types of pathology images and items included in the annotation information may be determined to be heterogeneous pathology images.
  • Pathology images of the same type may be gathered to form a pathology image set of the same domain.
  • FIGS. 5 to 21 various embodiments of the present disclosure will be described with reference to FIGS. 5 to 21 .
  • the analysis system 510 may communicate with each of the research information system 520 , the scanner 530 , and the user terminal 540 through a network 550 .
  • the network 550 includes a mobile communication network and a wired communication network, and since it corresponds to well-known and used technology in the technical field of the present disclosure, a detailed description thereof will be omitted.
  • the analysis system 510 may communicate with an image management system (not shown) including a storage for storing pathology images and a storage for storing analysis results.
  • the scanner 530 may acquire a digitized pathology image from a tissue sample slide generated using a patient's tissue sample. For example, the scanner 530 may generate and store a pathology image, which is a digital image obtained by scanning a pathology slide. The scanner 530 may transmit the obtained pathology image from the analysis system 510 .
  • the user terminal 540 may receive an analysis result of the pathology image from the analysis system 510 .
  • the user terminal 540 may be a computing device located in a medical facility such as a hospital and used by a medical staff.
  • the user terminal 540 may be a computing device used by a general user such as a patient.
  • the research information system 520 may be a computing system including a server and a database used in hospitals, universities, research facilities, and the like.
  • the research information system 520 may provide a pathology image set, which is a set of raw data used for learning, to the analysis system 510 .
  • the research information system 520 may transmit a heterogeneous pathology data set corresponding to a single domain to the analysis system 510 .
  • the research information system 520 may provide heterogeneous pathology data sets to the analysis system 510 . That is, the research information system 520 analyzes two or more of the first pathology data set corresponding to the first domain, the second pathology data set corresponding to the second domain, or the third pathology data set corresponding to the third domain. (510).
  • the analysis system 510 may include a data store (eg, a database) for storing a plurality of pathology data sets used for learning, and may include a machine learning model for analyzing pathology images.
  • Analysis system 510 may include at least one processor and memory.
  • the analysis system 510 may generate a training data set based on a heterogeneous pathology data set, and may train a machine learning model using the training data set.
  • the analysis system 510 may perform analysis on the pathology image not including the annotation information using the machine learning model. That is, the analysis system 510 may perform analysis on the pathology image using a machine learning model without requiring intervention by a pathology expert.
  • the analysis system 510 may analyze the pathology image received from the scanner 530 and provide the analyzed result to the client.
  • the client may be a doctor/researcher/patient using the user terminal 540 .
  • FIG. 6 is a schematic diagram illustrating a pathology image analysis model 630 being trained, according to an embodiment of the present disclosure.
  • machine learning model 630 is referred to as pathology image analysis model 630 .
  • the machine learning model 630 and the pathology image analysis model 630 will be used interchangeably.
  • a plurality of heterogeneous pathology data sets 610_1 to 610_n may be pre-processed to generate a training data set 620 . That is, a plurality of heterogeneous pathology data sets 610_1 to 610_n corresponding to different domains may be preprocessed to generate a training data set 620 including a plurality of training data. While the heterogeneous pathology data sets 610_1 to 610_n are pre-processed, the number of samplings extracted from each pathology data set 610_1 to 610_n may be determined. Data sampling will be described in detail with reference to FIG. 8 .
  • an intentionally distorted pathology image is input to the pathology image analysis model 630 so that the analysis can be easily performed on the pathology image including the artifact.
  • a robust machine learning model that can output analysis results can also be built.
  • the pathology image including the artifact may be an image in which a partial region is distorted, transformed, or removed.
  • various embodiments of generating training data will be described in detail with reference to FIG. 8 .
  • an item related to a pathology image included in the pathology data sets 610_1 to 610_n may be associated with an item related to a pathology image included in another pathology data set based on at least one of an object class or a region of interest.
  • An item related to a pathology image may mean a criterion for classifying a type or class of a cell, tissue, or structure appearing on a pathology image. For example, a first pathology image of a first type is included in the first pathology data set 610_1 , a second pathology image of a second type is included in the second pathology data set 610_2 , and associated with the first pathology image.
  • the first item and the second item associated with the second pathological image correspond to similar staining expression levels or similar regions of interest
  • the region of interest may be a region associated with cells.
  • the region of interest may be a region associated with at least one of tumor cells, inflammatory cells, or other cells.
  • the region of interest may be a region associated with at least one of tumor tissue, precancerous tissue, tissue surrounding the tumor, or other tissue.
  • a training data set 620 including related items may be created. For example, when a first item associated with a first pathology image and a second item associated with a second pathology image are associated with each other, the first learning data is obtained based on the first and second items associated with each other and the first pathology image. It may be generated and included in the training data set 620 . Additionally, second learning data may be generated and included in the training data set 620 based on the first item, the second item, and the second pathology image associated with each other. Accordingly, the training data set 620 may further include, in addition to the pathology image, an item of a heterogeneous pathology image associated with an item included in the pathology image.
  • At least one batch including part or all of the training data set 620 may be generated, and the pathology image analysis model 630 may be trained.
  • a loss value between an output value (ie, an analysis result) 640 output from the pathology image analysis model 630 and a reference value 650 may be calculated during a learning process.
  • the reference value 650 may be a kind of correct answer value obtained from annotation information of a pathology image.
  • the reference value 650 may be obtained from an evaluation index included in annotation information.
  • a loss value is fed back to the pathology image analysis model 630 so that a weight of at least one node included in the pathology image analysis model 630 may be adjusted.
  • the node may be a node included in the artificial neural network.
  • pathology image analysis model 630 when training data is input to the pathology image analysis model 630, related items included in the training data are grouped as similar item groups, and at least one having a weight in the pathology image analysis model 630 It can act as a single node.
  • pathology image analysis model 630 is trained by inputting the related items together, analysis can be performed on various types of pathology images and various types of result values can be output.
  • FIGS. 7 and 8 a method for learning a pathology image analysis model will be described in detail with reference to FIGS. 7 and 8 .
  • the method shown in FIGS. 7 and 8 is only one embodiment for achieving the object of the present disclosure, and it goes without saying that some steps may be added or deleted as needed.
  • the methods shown in FIGS. 7 and 8 may be performed by at least one processor included in the analysis system shown in FIG. 5 .
  • each step shown in FIGS. 7 and 8 is performed by a processor included in the analysis system shown in FIG. 5 .
  • the heterogeneous pathology data set includes a plurality of heterogeneous pathology data sets of different types.
  • the Nth heterogeneous pathology data set (where N is a natural number) and the N+1th heterogeneous pathology data set are referred to as data sets corresponding to different domains.
  • the processor may obtain a heterogeneous pathology data set (S710).
  • the processor may obtain a heterogeneous pathology data set received and stored from at least one of the analysis system 510 of FIG. 5 , the research information system 520 , or the scanner 530 from the storage.
  • the processor may pre-process each of the acquired heterogeneous pathology data sets to generate a training data set (S720).
  • Pathology images including annotation information may be included in the individual training data.
  • the processor may associate an item associated with the first pathology image with an item associated with the second pathology image, and include the associated item in each pathology data set.
  • heterogeneous individual pathology data included in the heterogeneous pathology data set may be merged with each other.
  • the processor may determine the number of training data sets so that the size of the training data set corresponds to a predetermined batch size, and generate the training data set to have the number of data corresponding to the number. there is.
  • the processor may perform at least one of sampling or data augmentation on a heterogeneous pathology data set. A more detailed description of the data pre-processing will be described later with reference to FIGS. 8 to 10 .
  • the processor may determine target learning data from among data included in the training data set (S730). Subsequently, the processor may perform learning on the pathology image analysis model using target learning data (S740). In one embodiment, the processor may determine a reference value from annotation information included in data for target learning. For example, the processor may extract an object class from annotation information included in training data and determine a reference value based on an evaluation index included in the extracted object class. In addition, the processor may determine a reference value based on a region (ie, pixel range) of at least one object segmented from annotation information included in training data and a type (ie, cell type) of each object.
  • a region ie, pixel range
  • the processor inputs data for target learning into the pathology image analysis model, calculates a loss value between an output value (ie, analysis result) output from the pathology image analysis model and a reference value, and then converts the calculated loss value to the pathology image.
  • At least one weight included in the pathology image analysis model may be adjusted by providing feedback to the analysis model.
  • the output value may include at least one of an evaluation index or an object region and an object type (ie, cell type).
  • the loss value may be calculated by arithmetically calculating the difference between the evaluation index and the reference value, or may be calculated using an evaluation function for evaluating a pixel range matching rate between an object included in the output value and an object included in the reference value. there is.
  • the processor may determine whether all data included in the training data set are determined as target training data (S750). Next, if there is data included in the training data set that has not yet been determined as target learning data, the processor determines one of the learning data that has not yet been determined as target learning data as target learning data, A pathology image analysis model may be trained using the data.
  • the processor may end learning at the epoch of this cycle.
  • the same training data set may be used again to train the pathology image analysis model again, or a new training data set may be created and the pathology image analysis model may be trained again.
  • the pathology image analysis model when the pathology image analysis model is repeatedly trained using the data included in the training data set, the weight of each node included in the pathology image analysis model may converge to an optimal value. Accordingly, the pathology image analysis model can output more accurate analysis results.
  • FIG. 8 is a flowchart illustrating a method of generating a training data set by pre-processing a heterogeneous pathology data set, according to an embodiment of the present disclosure.
  • the first pathology image and the second pathology image may differ in at least one of cell type, staining intensity, or tissue region required for IHC evaluation.
  • most pathology images contain information labeling tumor cells in common, depending on the type of IHC, immune cells such as lymphocytes and macrophages in addition to tumor cells, or fibroblasts constituting the matrix around the tumor Stromal cells such as fibroblasts or adipocytes may also be stained, and labeling information for these cells may be included in some types of heterogeneous images.
  • a training data set including various types of pathology images as shown in FIGS. 1 to 4 may be generated, and a machine learning model may be learned based on the training data set.
  • the criterion for evaluating the staining intensity may also differ depending on the cell type (eg, carcinoma) and the type of IHC constituting the pathological image.
  • the level of HER2 expression in tumor cells was 3+ (strong), 2+ (moderate), 1+ (weak), 0 (no expression) ), but classified into four stages
  • the level of PD-L1 expression in tumor cells is divided into positive or negative.
  • a separate algorithm e.g., a machine learning model
  • a pathology image labeled with a small number of detailed items can be automatically re-labeled with a larger number of detailed items.
  • An algorithm e.g, a machine learning model
  • a first pathology image labeled with four detailed items may be output through the algorithm.
  • the processor may merge heterogeneous pathology data sets corresponding to heterogeneous domains by processing different items included in heterogeneous pathology data sets in association with each other (S810).
  • merging may mean that heterogeneous pathology data sets are associated with each other as a common item.
  • a table of items that can be correlated with each other may be stored in advance in the analysis system, and the processor may refer to the table to extract items that are correlated with each other from the heterogeneous pathology data set and process the extracted items in association with each other.
  • Tables 1 and 2 below are diagrams illustrating mapping tables referred to when relating items. Tables 1 and 2 map items by taking the first pathology data set associated with PD-L1 and the second pathology data set associated with HER2 as an example. That is, a mapping table for associating items associated with a first type pathology image using PD-L1 IHC staining with items associated with a second type pathology image using HER2 IHC staining is exemplified.
  • Tissue mapping BG Background
  • CA Cancer Area
  • PD-L1 lung BG CA HER2 breast BG, CIS CA
  • the first type of pathological image associated with PD-L1 IHC staining and the second type of pathological image associated with HER2 IHC staining are different in staining method and primary site (lung or breast), but have different characteristics. They have one thing in common: they are expressed in color. However, objects associated with carcinoma may be found in common in the first pathology image and the second pathology image, but the types of cells expressed, staining intensity, and tissue regions required for IHC evaluation may be different. In the present disclosure, among items related to heterogeneous pathology images, items having common properties may be associated with each other. Table 1 illustrates that items associated with heterogeneous pathology images may be associated with each other based on the tissue of interest.
  • the item representing tumor tissue is associated with the second type of pathological image obtained by HER2 IHC staining.
  • the items may be associated with an item (CA) representing a tumor tissue.
  • the object-related item (BG) representing a non-tumor tissue is an item associated with the second type of pathology image obtained by HER2 IHC staining.
  • it may be related to voltaic tissue (CIS) and background tissue (BG).
  • Table 2 illustrates that items associated with heterogeneous pathology images may be associated with each other based on the object class.
  • lymphocytes LP+, LP-
  • macrophages MP+, MP-
  • other cells excluding tumors
  • OT lymphocytes
  • BG tumor
  • CIS precancerous tissue
  • a negative (TC-) item related to the first expression range is a negative (TC-) item of each of the pixels included in the second type of pathology image.
  • the items representing the staining expression intensity it may be associated with the TC0 item related to the first expression range.
  • the positive (TC+) item related to the second expression range is in each of the pixels included in the second type of pathology image.
  • items representing staining expression intensity it may be associated with TC1, TC2, and TC3 items related to the second expression range.
  • the processor may associate an item associated with the first pathology image with an item associated with the second pathology image, and cause the associated item to be included in each pathology data set. Accordingly, heterogeneous individual pathology data included in the heterogeneous pathology data set may be merged with each other.
  • a BG item associated with a first pathology image, a BG item associated with a second image, and a CIS item may be associated.
  • the OT item associated with the second pathology image and the LP+, LP-, MP+, MP-, and OT items associated with the first pathology image may be associated with each other.
  • the TC- item associated with the first pathology image and the TC0 item associated with the second pathology image may be associated, and the TC+ item associated with the first pathology image and the TC1, TC2, and TC3 items associated with the second pathological image may be associated.
  • the related items are included in each of the first pathology data set and the second pathology data set, and accordingly, the first pathology data set associated with the first domain and the second pathology data set associated with the second domain may be merged.
  • the processor may extract labeled patches from each pathology data set and store the extracted patches in a patch database (S820).
  • the labeled patch may refer to an object whose object class is labeled, and may be part or all of the pathology image.
  • the processor may extract the same predetermined number of patches from each pathology data set.
  • the processor may extract different numbers of labeled patches from each pathology data set.
  • the processor may extract a first number or a first ratio of labeled patches from the first pathology data set, and extract a second number or a second ratio of labeled patches from the second pathology data set.
  • the processor may store the labeled patches in a patch database.
  • the labeled patch may include an item (eg, object type, class, etc.) and an item of heterogeneous pathology data associated with the item.
  • the processor may copy a predetermined number of patches of a specific type and store the copied patches in a patch database.
  • the predetermined number of copies of patches of a specific type may be determined based on the patch type of the largest number of patches.
  • the number of patches to be copied may be determined based on a difference between the largest number of patch types and the number of patches of a specific type among patch types stored in the patch database.
  • the patch type may correspond to the pathology image type.
  • patches extracted from the pathology image may also be of the first type. Examples of patches stored in the patch list or patch database will be described with reference to FIGS. 9 and 10 .
  • the processor may augment the labeled patch by artificially transforming the image included in the patch database, such as distortion, deletion, or contamination (S830).
  • the processor may extract at least one patch from patches included in the patch database and adjust the size of the extracted patch. For example, the processor may change the resolution of the patch size to a resolution higher or lower than the original resolution. As another example, the processor may change the size of the patch by removing pixels located outside the patch.
  • the processor may extract at least one patch from patches included in the patch database and remove pixels corresponding to a predetermined range from among pixels included in the extracted patch. Also, the processor may enlarge the size of the patch from which pixels are removed to the original size of the patch.
  • the processor may extract at least one patch from patches included in the patch database, invert the extracted patch horizontally or vertically, and then generate a horizontally or vertically inverted patch.
  • the pathology image analysis model is trained using the pathology image including the inverted patch, the pathology image analysis model can be trained to output a meaningful analysis result even for a new type of pathology image.
  • the processor may enhance the patch by extracting at least one patch from patches included in the patch database and removing pixels in a predetermined range from among pixels included in the extracted patch.
  • the pathology image analysis model may output an accurate analysis result even for a pathology image including artifacts.
  • the processor may augment the patch by extracting at least one patch from patches included in the patch database and artificially transforming pixels in a predetermined range among pixels included in the extracted patch. For example, the processor may apply a blurring effect to pixels within a range determined by using a median-filter to blur some pixels, thereby transforming the corresponding pixels. As another example, the processor may modify some pixels by adding noise to pixels within a determined range using a Gaussian-filter.
  • a pathology image analysis model is learned using the pathology image including the modified patch, a pathology image analysis model that is robust against scanner errors and staining errors may be constructed.
  • the processor may extract at least one patch from patches included in the patch database, convert colors of pixels included in the extracted patch, and then generate a patch including the converted color to augment the patch.
  • the processor may change at least one of hue, contrast, brightness, or saturation of the patch using a color jittering technique.
  • the processor may change the color of the patch using a grayscale technique.
  • a detailed setting value for changing the color of the patch may be determined by the user.
  • the processor may generate a training data set using at least one augmented patch and some or all of the patches included in the patch database (S840).
  • the processor determines the number of patches of each type used to generate the training data set, extracts the determined number of patches for each type from the patch database, and uses the extracted patches and augmented patches for training.
  • a data set can be created.
  • the processor may randomly extract a predetermined number of patches from among patches included in the patch database regardless of type, and generate training data using the extracted patches.
  • the processor may generate a training data set using all patches included in the patch database. When only some of the patches included in the patch database are extracted to generate a training data set, it may be referred to as a training data set corresponding to a mini-batch size.
  • individual training data included in the training data set may include at least one patch.
  • individual training data may include patches of different types. Additionally or alternatively, individual training data may include patches of the same type.
  • the processor may generate a training pathology image of a predetermined size and randomly arrange at least one patch on the pathology image.
  • the processor may insert a randomly selected background image into a region other than the patch in the pathology image for training where the patch is arranged.
  • the background image may be extracted from actually scanned pathology images, and the analysis system may store a plurality of background images in advance. In this case, the processor may randomly select one of the plurality of background images and insert it as a background of the pathology image for learning.
  • the reason for inserting the background image is to train the pathology image analysis model to perform a segmentation operation from the pathology image.
  • a pathology image for training including both a patch and a background image is input to the first analysis model, and the first analysis model is input. Learning of the model may proceed.
  • a pathology image including at least one patch and a background image may be generated.
  • the individual training data may include a pathology image for training, and may also include at least one labeled patch.
  • individual training data may include heterogeneous items related to each other.
  • a first pathology data set 910 associated with a first domain includes pathology images 912 and 914 of a first type
  • a second pathology data set 920 associated with a second domain includes A second type of pathology images 922 and 924 may be included.
  • Each pathology image may include a labeled patch.
  • a patch is represented by a rectangle in which '#' and a number are combined.
  • the shape of the patch is exemplified as a rectangle of the same size, but this is only for convenience of explanation, and the shape and size of the patch may be different in each actual pathology image.
  • patches #1-1 to #1-5 included in the first pathology data set 910 may be extracted and stored in the patch database 930 .
  • patches #2-1 to #2-5 included in the second pathology data set 920 may be extracted and stored in the patch database 930 .
  • the patch database 930 may store first type patches (#1-1 to #1-5) 932 and second type patches (#2-1 to #2-5) 934. there is.
  • the processor determines the sampling number of the first type of patches 932 included in the patch database 930, determines the sampling number of the second type of patches 934, and then determines the number of samples corresponding to the determined number. Tangible patches may be fetched from patch database 930 .
  • the number or rate of sampling extracted from each type may be set in advance by the user. For example, the number of samplings for the first type of patch may be 100, and the number of samplings for the second type of patch may be 50.
  • the processor may generate a batch 940 having a predetermined size using patches extracted from the patch database 930 .
  • the batch 940 thus created may constitute part or all of the training data set.
  • the processor may augment the patches in the patch database 930 to generate a batch 940 including the augmented patches #3-1 to #3-6.
  • a first pathology data set 1010 associated with a first domain includes pathology images 1012 and 1014 of a first type
  • a second pathology data set 1020 associated with a second domain includes Pathology images 1022 and 1024 of the second type may be included.
  • patches (#1-1 to #1-5) included in the first pathology data set 1010 may be extracted and stored in the patch database 1030.
  • the patches (#2-1 to #2-3) included in the second pathology data set 1020 may be extracted and stored in the patch database 1030.
  • patch copying may be performed for at least one of the patches (#2-1 to #2-3) extracted from the second pathology data set 1020.
  • patch copying may be performed on the first type of patch or the second type of patch so that the same number of patches of the first type and the number of patches of the second type are stored in the patch database 1030 .
  • patch copying may be performed on the first type of patch or the second type of patch so that the number of the first type of patches and the number of the second type of patches are at a predetermined ratio.
  • FIG. 10 it is exemplified that patch copying is performed for patches #2-2 and #2-3. Copied patches #2-2 and #2-3 may be included in the patch database 1030. As such patch copying is performed, the number of patches of each type may be balanced and stored in the patch database 1030 .
  • the processor randomly brings a predetermined number of patches 1032 and 1034 stored in the patch database 1030, and uses the extracted patches to generate a batch 1040 constituting part or all of the training data set. .
  • the processor determines the sampling number of the first type of patches 1032 included in the patch database 1030, determines the sampling number of the second type of patches 1034, and then determines the determined number of samples.
  • Each type of patch corresponding to is imported from the patch database 1030, and a batch 1040 may be created using the imported patches.
  • the processor may augment patches in patch database 1030 to create a batch 1040 containing augmented patches (#3-1 through #3-6).
  • a training data set may be generated using heterogeneous pathology images including annotation information without performing an operation of extracting a patch from a pathology image including annotation information.
  • the processor of the analysis system may generate a training data set based on a plurality of first-type pathology images extracted from a first pathology data set and a plurality of second-type pathology images extracted from a second pathology data set. there is.
  • the processor of the analysis system may generate a plurality of learning data based on each of the extracted pathology images of the first type, and a plurality of data for learning based on each of the pathology images of the second type included in the second pathology data set. Data for learning can be created.
  • the processor may extract a plurality of first type pathology images from the first pathology image set to correspond to the first sampling number, and extract a plurality of first type pathology images from the second pathology image set to correspond to the second sampling number.
  • a plurality of pathology images of the second type may be extracted.
  • the processor may augment at least one of the first pathology image and the second pathology image to generate a training data set including the augmented image.
  • an image enhancement method associated with the above-described patch may be used.
  • a data set for additional training is input to the pathology image analysis model, and the pathology image analysis model is additionally trained to improve performance.
  • the specific dyeing method may be an existing dyeing method (eg, H&E dyeing method) or a newly developed dyeing method.
  • a data set for additional learning including a plurality of pathology images stained with a specific staining method is prepared, and the pathology image analysis model may be additionally learned by using the data set for additional training.
  • the weights of nodes included in the pathological image analysis model may be adjusted so as to respond more sensitively to a specific staining method.
  • FIG. 11 is a diagram illustrating output of an analysis result of a pathology image through a pathology image analysis model according to an embodiment of the present disclosure.
  • various types of pathology images 1110_1 to 1110_3 may be input to the pathology image analysis model 1120 .
  • the pathology images 1110_1 to 1110_3 may be of the same type as the type of pathology image used for learning or may be a pathology image obtained through a new biomarker. That is, domains associated with the pathology images 1110_1 to 1110_3 may be the same domain as or different from the domain learned from the pathology image analysis model 1120 .
  • the pathology image analysis model 1120 may output an analysis result 1130 for the pathology images 1110_1 to 1110_3.
  • the analysis result 1130 may include a class for each object extracted from the pathology images 1110_1 to 1110_3.
  • the object class includes a cell type and/or an evaluation index, and the evaluation index may include at least one of positivity, expression level, expression value, or expression statistical information.
  • the analysis result 1130 may be a segmentation result of the pathology images 1110_1 to 1110_3. That is, the analysis result 1130 may include at least one tissue and tissue type identified from the pathology images 1110_1 to 1110_3.
  • the artificial neural network model 1200 is a statistical learning algorithm implemented based on the structure of a biological neural network or a structure that executes the algorithm in machine learning technology and cognitive science.
  • the artificial neural network model 1200 as in a biological neural network, is an artificial neuron nodes that form a network by combining synapses, and repeatedly adjusts synaptic weights to correct correct responses to specific inputs. By learning to reduce the error between the output and the inferred output, it is possible to represent a machine learning model having problem solving ability.
  • the artificial neural network model 1200 may include an arbitrary probability model, a neural network model, and the like used in artificial intelligence learning methods such as machine learning and deep learning.
  • the above-described pathology image analysis model may be implemented in the form of an artificial neural network model 1200 .
  • the artificial neural network model 1200 may receive one or more pathology images including annotation information, and may be trained to detect an object expressed as staining in the received one or more pathology images.
  • the artificial neural network model 1200 may perform a classification function (ie, a classifier function) of determining whether each region corresponds to a normal region or an abnormal region with respect to each region in one or more pathological images. can be learned to
  • the artificial neural network model 1200 may be trained to perform a segmentation function of labeling pixels included in abnormal regions in one or more pathological images. In this case, the artificial neural network model 1200 may determine an evaluation index for an object associated with the abnormal region and label the object.
  • the artificial neural network model 1200 may be implemented as a multilayer perceptron (MLP) composed of multilayer nodes and connections between them.
  • the artificial neural network model 1200 may be implemented using one of various artificial neural network model structures including MLP.
  • the artificial neural network model 1200 includes an input layer that receives input signals or data from the outside, an output layer that outputs output signals or data corresponding to the input data, and a characteristic that is located between the input layer and the output layer and receives signals from the input layer. It consists of n (where n is a positive integer) hidden layers that are extracted and delivered to the output layer.
  • a plurality of output variables corresponding to a plurality of input variables are matched in the input layer and the output layer of the artificial neural network model 1200, respectively, and synaptic values between nodes included in the input layer, hidden layer, and output layer are adjusted, thereby providing a specific input. It can be learned so that the corresponding correct output can be extracted.
  • the artificial neural network model 1200 is repeatedly learned based on the data included in the training data set, the difference between the nodes of the artificial neural network model 1200 is reduced so that the error between the output variable calculated based on the input variable and the target output is reduced. Synapse values (or weights) may be adjusted to converge to an optimal value.
  • an analysis result corresponding to the pathology expert level is obtained from the pathology image analysis model. can be output through
  • FIG. 13 is a flowchart illustrating a method 1300 of outputting an analysis result of a pathology image using a pathology image analysis model, according to an embodiment of the present disclosure.
  • the method shown in FIG. 13 is only one embodiment for achieving the object of the present disclosure, and it goes without saying that some steps may be added or deleted as needed.
  • the method shown in FIG. 13 may be performed by at least one processor included in the analysis system shown in FIG. 5 .
  • each step shown in FIG. 13 is performed by a processor included in the analysis system shown in FIG. 5 .
  • the processor may obtain a pathology image (S1310).
  • the processor may acquire a pathology image transmitted from a scanner or acquire a pathology image from an external storage, server, or image management system.
  • the processor may input the pathology image to the pathology image analysis model and obtain an analysis result of the pathology image output from the pathology image analysis model (S1320).
  • the analysis result may include an object identified from the pathology image (ie, a pixel range included in a region corresponding to the object) and an object class.
  • the object class may include cell or tissue type and/or evaluation index, and the evaluation index may include at least one of positivity, expression level, expression value, or expression statistical information.
  • the processor may output the obtained analysis result (S1330).
  • the processor may output the analysis result to a display device such as a monitor.
  • the processor may transmit the analysis result to the client's terminal and output it through the client's terminal.
  • the processor may output the obtained analysis result in the form of a report.
  • the pathology image analysis model may include a plurality of analysis models outputting different types of analysis results.
  • the pathology image analysis model 1400 includes a plurality of analysis models 1410 to 1440 that are previously trained to analyze different types of pathology images and output different types of analysis results.
  • the pathology image analysis model 1400 includes a first analysis model 1410 outputting a segmentation result for an input pathology image, and a second analysis model 1410 analyzing staining intensity of cell membranes included in the pathology image and outputting an analysis result.
  • model 1420 can include a third analysis model 1430 that analyzes the staining intensity of cell nuclei and outputs the analysis result, and a fourth analysis model 1440 that analyzes the morphological characteristics of the cell nucleus and/or cell membrane and outputs the analysis result.
  • third analysis model 1430 that analyzes the staining intensity of cell nuclei and outputs the analysis result
  • fourth analysis model 1440 that analyzes the morphological characteristics of the cell nucleus and/or cell membrane and outputs the analysis result.
  • each of the analysis models 1410 to 1440 may be learned based on a training data set including pathology images having different characteristics.
  • the characteristic may include at least one of a dyeing color, a dyeing object type, or a dyeing method.
  • the first analysis model 1410 may receive target training data and learn to segment an abnormal region (ie, an object related to a patch) from a pathology image included in the target training data. That is, the first analysis model 1410 may be trained to extract a location region (ie, an object) where staining is expressed in the pathology image.
  • a pathology image may be input to the first analysis model 1410 and at least one patch may be output from the first analysis model 1410 .
  • a loss value between a region corresponding to the patch output from the first analysis model 1410 and an abnormal region included in the annotation information is calculated, the loss value is fed back to the first analysis model 1410, and the first analysis model (1410) can be learned.
  • the second analysis model 1420 may receive target training data including a pathology image in which a cell membrane is stained brown, and may be trained to analyze the staining intensity of a patch included in the pathology image.
  • a pathology image in which the brown-stained cell membrane is set as a patch may be input to the second analysis model 1420, and an analysis result of staining intensity for the cell membrane may be output from the second analysis model 1420.
  • the loss value is determined by the second analysis model ( 1420, the second analysis model 1420 may be learned.
  • the third analysis model 1430 may receive target training data including a pathology image in which cell nuclei are stained blue, and may be trained to analyze the staining intensity of a patch included in the pathology image.
  • a pathology image in which blue-stained cell nuclei are set as patches may be input to the third analysis model 1430, and an analysis result of staining intensity for cell nuclei may be output from the third analysis model 1430.
  • the loss value is calculated as a third value.
  • the third analysis model 1430 may be learned.
  • the fourth analysis model 1440 receives target learning data including a pathology image in which cell nuclei and cell membranes are stained pink, and the morphological characteristics and/or It can be taught to analyze color distribution.
  • a pathology image in which each of the cell nucleus and cell membrane stained in pink is set as a patch is input to the fourth analysis model 1440, and the analysis result including morphological characteristics and/or color distribution of the cell nucleus and/or cell membrane is obtained. It may be output from the fourth analysis model 1440 .
  • morphological characteristics and/or color distribution of cell nuclei and/or cell membranes are obtained as reference values from patch labeling information included in target learning data, and morphological characteristics and/or color distributions included in the reference values and analysis results.
  • a loss value can be calculated. The calculated loss value is fed back to the fourth analysis model 1440 so that the fourth analysis model 1440 can be learned.
  • one or more of the plurality of analysis models 1410 to 1440 included in the pathology image analysis model 1400 may be called.
  • FIG. 15 is a diagram illustrating output of an analysis result 1520 of a pathology image through an analysis model called based on characteristics of the pathology image 1510 according to another embodiment of the present disclosure.
  • a feature extraction model 1500 for extracting features of a pathology image 1510 may be combined with a pathology image analysis model 1400 .
  • the feature extraction model 1500 may be included in the pathology image analysis model 1400 .
  • the feature extraction model 1500 may extract a staining color included in a pathology image and a color expression position as a feature.
  • the expression site of the staining color may be at least one of cell membrane, cell nucleus, and cytoplasm.
  • the feature extraction model 1500 may extract organs, carcinomas, staining methods, and the like as features of the pathology image.
  • the feature extraction model 1500 stores at least one of a pre-stored organ pattern, a carcinoma pattern, or a staining pattern, and compares a pattern appearing in a pathology image with an organ pattern/carcinoma pattern/staining pattern to obtain characteristics from the pathology image. can be extracted.
  • the feature extraction model 1500 is implemented as a machine learning model and can be trained to extract from the pathology image at least one of an organ related to the pathology image, a carcinoma included in the pathology image, or a staining method of the pathology image.
  • a pathology image 1510 may be acquired, and the pathology image 1510 may be input to a feature extraction model 1500 and a pathology image analysis model 1400 , respectively.
  • the pathology image 1510 may be an unlabeled pathology image.
  • the pathology image may be a pathology image associated with a new drug or a new staining method.
  • the feature extraction model 1500 may extract features of the pathology image and provide the extracted features of the pathology image to the pathology image analysis model 1400 . According to an embodiment, the feature extraction model 1500 may extract at least one of staining color, organ, carcinoma, or staining method as a feature of the pathology image 1510 .
  • the pathology image analysis model 1400 calls the first analysis model 1410 and then inputs the pathology image 1510 to the first analysis model 1410 to determine at least one object related to an abnormal region included in the pathology image. Segation can be performed.
  • the pathology image analysis model 1400 calls one of a plurality of analysis models 1420 to 1440 outputting different types of analysis results based on characteristics of the pathology image provided from the feature extraction model 1500. and an analysis result 1520 of the pathology image may be obtained from the called analysis model 1420, 1430 or 1440.
  • the pathology image analysis model 1400 may input the segmented pathology image through the first analysis model 1410 to the called analysis model 1420 , 1430 , or 1440 .
  • Characteristics of the pathological image may include staining color and/or expression location (eg, cell membrane/cytoplasm/nucleus) of the staining color.
  • the pathology image analysis model 1400 may determine and call one of the plurality of analysis models 1420 to 1440 as a target analysis model based on characteristics of the pathology image. For example, when a first feature having a cell membrane as an expression site and a brown staining color is provided from the feature extraction model 1500, the pathology image analysis model 1400 determines the second analysis model 1420 as a target analysis model, and the segmented pathology image may be input to the second analysis model 1420 . In this case, the second analysis model 1420 may analyze the staining intensity in which the cell membrane is expressed as brown in the segmented region (ie, the object) in the pathology image, and output the analysis result 1520 .
  • the pathology image analysis model 1400 uses the third analysis model 1430 as the target analysis model. It is determined and called, and the segmented pathology image may be input to the third analysis model 1430 .
  • the third analysis model 1430 may analyze staining intensity in which cell nuclei are expressed in blue in the segmented region in the pathology image, and output the analysis result 1520 .
  • the pathology image analysis model 1400 uses the fourth analysis model 1440 for target analysis. It is determined and called as a model, and the segmented pathology image may be input to the fourth analysis model 1440 .
  • the fourth analysis model 1440 may analyze and output distribution and/or morphological characteristics in which each of the cell nucleus and cell membrane is expressed in pink in each segmented region in the pathology image.
  • the morphological characteristics may mean association with a specific disease.
  • characteristics of the pathology image may be received from the user. That is, the analysis system may receive user input information including characteristics of the pathology image. In this case, an analysis model to be called may be determined based on characteristics of the pathology image input by the user.
  • FIG. 16 is a diagram illustrating output of an analysis result 1630 of a pathology image 1610 through an analysis model called based on user input information, according to another embodiment of the present disclosure.
  • the pathology image analysis model 1400 may obtain user input information 1620 including characteristics of the pathology image 1610 .
  • the pathology image analysis model 1400 calls the first analysis model 1410, inputs the pathology image 1610 to the first analysis model 1410, and performs segmentation of an object related to an abnormal region included in the pathology image. can be done
  • the pathology image analysis model 1400 may determine a target analysis model to be called from among a plurality of analysis models based on characteristics of the pathology image included in the user's input information 1620 .
  • the user's input information 1620 may include a dye color and/or a location where the dye color is expressed (eg, cell membrane/cytoplasm/cell nucleus). Additionally or alternatively, the user input information 1620 may include at least one of an organ, carcinoma, or staining method.
  • the pathology image analysis model 1400 may determine and call one of the plurality of analysis models 1420 to 1440 as a target analysis model based on characteristics included in the user's input information 1620 . For example, when the user's input information 1620 includes the first staining method, the pathology image analysis model 1400 determines and calls the second analysis model 1420 as the target analysis model, and the second analysis model 1420 ), a segmented pathology image can be input. In this case, the second analysis model 1420 may analyze the staining intensity expressed by the first staining scheme in the segmented region in the pathology image and output the analysis result 1630 .
  • the pathology image analysis model 1400 determines and calls the third analysis model 1430 as the target analysis model, and calls the third analysis model 1430.
  • a segmented pathology image may be input.
  • the second analysis model 1430 may analyze the staining intensity expressed by the second staining method in the segmented region in the pathology image and output the analysis result 1630 .
  • the pathology image analysis model 1400 determines and calls the fourth analysis model 1440 as the target analysis model, and calls the fourth analysis model 1440.
  • a segmented pathology image may be input to the model 1440 .
  • the fourth analysis model 1440 may output an analysis result 1630 including distribution and/or morphological characteristics of the color expressed by the third staining method in the segmented region in the pathology image.
  • the pathology image analysis model 1400 provides appropriate analysis results for various cells stained according to various staining methods. can output Accordingly, the pathology image analysis model 1400 according to the present disclosure is universally applied and can be used in various environments.
  • FIGS. 17 to 20 are diagrams illustrating various types of analysis results output from the pathology image analysis model 1400 .
  • at least one object eg, a cell, tissue, or structure
  • a pathology image is illustrated as being an ellipse.
  • the pathology image analysis model 1400 receives a plurality of pathology images 1710 and determines whether an object included in each pathology image 1710 has staining expression as positive or negative. Then, the determined results 1720 and 1730 may be output.
  • positive means that a protein that is a target for staining is present on the object
  • negative means that a protein that is a target for staining is not present on the object.
  • 17 illustrates that a pathology image 1720 determined to be positive and a pathology image 1730 determined to be negative are output separately.
  • the pathology image analysis model 1400 receives a plurality of pathology images 1810, determines a staining expression level for at least one object included in each pathology image 1810, and , analysis results including the determined expression level (1820 to 1850) can be output.
  • 18 illustrates that class 3+ is the most strongly expressed object and class 0 is the weakest expressed object. Class 0 may mean that the protein that is the target of staining does not exist on the object.
  • the pathology image analysis model 1400 receives a plurality of pathology images 1910 and sets expression values of objects included in each pathology image 1910 within a predetermined range (eg, 0). After digitizing as a number included in 1), it is possible to output an analysis result including expression values (1920 to 1950) for each object. In FIG. 19, the expression value closer to 1 is exemplified as the highest degree of staining expression.
  • the pathology image analysis model 1400 receives a plurality of pathology images 2010 and outputs an analysis result 2020 including expression statistical information of an object included in each pathology image. can do. 20 exemplifies an analysis result 2020 including statistical information on the distribution of cell nucleus positivity/grade/expression value and statistical information on cell membrane positivity/grade/expression value distribution. In addition, statistical information on various cells, tissues, or structures may be output through the pathology image analysis model 1400 .
  • the information processing system 2100 of FIG. 21 may be an example of the analysis system 510 shown in FIG. 5 .
  • the information processing system 2100 includes one or more processors 2120, a bus 2110, a communication interface 2130, and a memory that loads a computer program 2150 executed by the processor 2120. (2140).
  • processors 2120 a bus 2110
  • communication interface 2130 a communication interface
  • memory that loads a computer program 2150 executed by the processor 2120.
  • 2140 2140
  • FIG. 21 only components related to the embodiment of the present disclosure are shown in FIG. 21 . Accordingly, those skilled in the art to which the present disclosure pertains can know that other general-purpose components may be further included in addition to the components shown in FIG. 21 .
  • the processor 2120 controls the overall operation of each component of the information processing system 2100.
  • the processor 2120 of the present disclosure may be composed of a plurality of processors.
  • the processor 2120 may include a Central Processing Unit (CPU), a Micro Processor Unit (MPU), a Micro Controller Unit (MCU), a Graphic Processing Unit (GPU), a Field Programmable Gate Array (FPGA), any well known in the art of the present disclosure. It may be configured to include at least two processors of the type of processor. Also, the processor 2120 may perform an operation for at least one application or program for executing a method according to embodiments of the present disclosure.
  • the memory 2140 may store various data, commands and/or information. Memory 2140 may load one or more computer programs 2150 to execute methods/operations according to various embodiments of the present disclosure.
  • the memory 2140 may be implemented as a volatile memory such as RAM, but the technical scope of the present disclosure is not limited thereto.
  • the memory 2140 may be non-volatile memory such as read only memory (ROM), erasable programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), flash memory, etc., a hard disk, a removable disk, or a device to which the present disclosure pertains. It may be configured to include any type of computer-readable recording medium well known in the art.
  • the bus 2110 may provide a communication function between components of the information processing system.
  • the bus 2110 may be implemented as various types of buses such as an address bus, a data bus, and a control bus.
  • the communication interface 2130 may support wired/wireless Internet communication of the information processing system. Also, the communication interface 2130 may support various communication methods other than Internet communication. To this end, the communication interface 2130 may include a communication module well known in the art of the present disclosure.
  • Computer program 2150 may include one or more instructions that cause processor 2120 to perform an operation/method in accordance with various embodiments of the present disclosure. That is, the processor 2120 may perform operations/methods according to various embodiments of the present disclosure by executing one or more instructions.
  • the computer program 2150 may include an operation of acquiring a pathology image, inputting the acquired pathology image to a machine learning model, obtaining an analysis result of the pathology image from the machine learning model, and outputting the obtained analysis result. It may include one or more instructions to perform the following operations and the like.
  • the machine learning model is a model learned using a training data set generated based on a first pathology data set associated with a first domain and a second pathology data set associated with a second domain different from the first domain.
  • a system for analyzing a pathology image may be implemented through the information processing system 2100 according to some embodiments of the present disclosure.
  • example implementations may refer to utilizing aspects of the presently disclosed subject matter in the context of one or more stand-alone computer systems, the subject matter is not so limited, but rather in conjunction with any computing environment, such as a network or distributed computing environment. may be implemented. Further, aspects of the presently-disclosed subject matter may be implemented in or across a plurality of processing chips or devices, and storage may be similarly affected across a plurality of devices. Such devices may include PCs, network servers, and handheld devices.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Immunology (AREA)
  • Hematology (AREA)
  • Evolutionary Computation (AREA)
  • Urology & Nephrology (AREA)
  • Chemical & Material Sciences (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Pathology (AREA)
  • Food Science & Technology (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Biotechnology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 개시는 적어도 하나의 프로세서에 의해 수행되는 병리 이미지 분석 방법을 제공한다. 이 방법은 병리 이미지를 획득하는 단계, 획득된 병리 이미지를 기계학습 모델에 입력하여, 기계학습 모델로부터 병리 이미지에 대한 분석 결과를 획득하는 단계 및 획득된 분석 결과를 출력하는 단계를 포함하고, 기계학습 모델은 제1 도메인과 연관된 제1 병리 데이터 세트 및 제1 도메인과 상이한 제2 도메인과 연관된 제2 병리 데이터 세트에 기초하여 생성된 학습용 데이터 세트를 이용하여 학습된 모델일 수 있다.

Description

병리 이미지 분석 방법 및 시스템
본 개시는 병리 이미지 분석 방법 및 시스템에 관한 것으로, 구체적으로, 기계학습 모델을 이용하여 다양한 유형(type)의 병리 이미지를 분석하는 방법 및 시스템에 관한 것이다.
병리학(Pathology) 분야에서는, 병리 조직으로부터 생체학적 정보를 획득하고 분석하기 위해, 다양한 염색법을 기초로 조직을 염색하여 병리 슬라이드로 만든 후 병리 전문의가 병리 슬라이드를 육안으로 평가하는 방식이 이용되고 있다.
이러한 방법 중에서, 면역조직화학검사(immunohistochemistry, IHC)는 특정 항원(Target antigen)에 반응하는 항체에 이차 항체로 효소나 형광 염료(fluorescent dye)를 결합한 후, 이를 특정 조직에 염색하는 방식이다. 면역조직화학검사에 따라 특정 조직이 염색되면, 항체가 표적에 해당하는 특정 항원이 발현된 세포에 결합하고, 이 결합 반응이 이차 항체를 활성화하여 염색 반응을 일으키게 된다. 병리 전문의는 현미경을 통해 염색된 세포를 확인하고, 세포에 대한 평가를 수행할 수 있다. 예컨대, 병리 전문의는 염색 발현량 등을 평가하고 정량화하여 조직 내에서 의미있는 정보를 도출할 수 있다.
그런데 염색된 병리 슬라이드를 병리 전문의가 판독하여, 결과를 평가하고 정량화하는 방식은 사람의 주관적인 요소가 개입될 수 있을 뿐만 아니라, 노동력과 시간도 많이 필요하여, 최근에는 딥러닝 등의 인공지능 알고리즘을 이용하여 병리 슬라이드를 판독하기 위한 연구가 진행되고 있다. 이를 위해, 병리 슬라이드가 스캔되어 디지털 기반의 병리 이미지로 저장되고, 이 병리 이미지를 이용하여 인공지능 알고리즘이 학습되고 있다.
그런데 인공지능 알고리즘이 정확한 결과를 예측하기 위해서는 많은 수의 학습용 데이터가 필요하다. 하지만 인공지능 알고리즘에 입력되는 병리 이미지에 의학적 지식이 레이블링되어야 하는데, 이러한 레이블링 작업은 의료 전문가에 의해 수행되어야 하고, 이에 따라 학습용 데이터를 구축하는데 비용과 시간이 많이 발생한다.
한편, 의료계에서는 많은 신약과 연관된 바이오마커(biomarker)가 개발되고 있다. 그런데 이미 임상에서 이용되고 있는 바이오마커와 관련된 임상 자료(예를 들어, PD-L1 IHC, HER2 IHC 등과 연관된 임상 자료)는 축적된 데이터가 많아, 인공지능 알고리즘의 학습에 필요한 학습용 데이터를 생성하는 것은 비교적 쉽다. 하지만, 새로운 바이오마커와 연관된 임상 자료가 거의 없어, 새로운 종류의 IHC 염색 방법으로 염색된 슬라이드 이미지를 분석하기 위해, 충분한 양의 학습용 데이터를 확보하는 것은 단기간에 불가능할 수 있다.
또한, 특정 암종의 경우 유병율 등이 낮아서, 비교적 흔하게 발병되는 다른 암종에 비해 절대적인 검체 수가 적을 수 있다. 이러한 경우 상대적으로 적은 데이터를 이용하여 인공지능 모델을 학습시켜야 하기 때문에 인공지능 모델이 제대로 학습되지 않거나 특정 학습용 데이터 세트에 편향되게 학습될 수도 있다.
본 개시는 다양한 유형의 병리 이미지를 정확하게 분석할 수 있는 병리 이미지 분석 방법, 기록매체에 저장된 컴퓨터 프로그램 및 장치(시스템)를 제공한다.
본 개시는 방법, 장치(시스템) 및/또는 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램, 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체를 포함한 다양한 방식으로 구현될 수 있다.
본 개시의 일 실시예에 따르면, 적어도 하나의 프로세서에 의해 수행되는 병리 이미지 분석 방법은, 병리 이미지를 획득하는 단계, 획득된 병리 이미지를 기계학습 모델에 입력하여, 기계학습 모델로부터 병리 이미지에 대한 분석 결과를 획득하는 단계 및 획득된 분석 결과를 출력하는 단계를 포함하고, 기계학습 모델은 제1 도메인과 연관된 제1 병리 데이터 세트 및 제1 도메인과 상이한 제2 도메인과 연관된 제2 병리 데이터 세트에 기초하여 생성된 학습용 데이터 세트를 이용하여 학습된 모델일 수 있다.
또한, 병리 이미지 분석 방법은, 병리 이미지를 획득하는 단계 이전에, 제1 유형의 병리 이미지를 포함하는 제1 병리 데이터 세트 및 제2 유형의 병리 이미지를 포함하는 제2 병리 데이터 세트를 획득하는 단계, 제1 병리 데이터 세트와 제2 병리 데이터 세트에 기초하여 학습용 데이터 세트를 생성하는 단계 및 생성된 학습용 데이터 세트를 이용하여 기계학습 모델을 학습시키는 단계를 더 포함할 수 있다.
또한, 학습용 데이터 세트를 생성하는 단계는, 염색 발현 등급 또는 관심 영역 중 적어도 하나에 기초하여, 제1 유형의 병리 이미지와 연관된 항목과 제2 유형의 병리 이미지와 연관된 항목을 연관하는 단계 및 연관된 항목을 포함하는 학습용 데이터 세트를 생성하는 단계를 포함할 수 있다.
또한, 항목을 연관하는 단계는, 제1 유형의 병리 이미지에 포함된 종양 조직 영역과 연관된 제1 항목 및 제1 유형의 병리 이미지에 포함된 비종양 조직 영역과 연관된 제2 항목을 추출하는 단계, 제2 유형의 병리 이미지에 포함된 종양 조직 영역과 연관된 제3 항목 및 제2 유형의 병리 이미지에 포함된 비종양 조직 영역과 연관된 제4 항목을 추출하는 단계 및 추출된 제1 항목과 추출된 제3 항목을 연관하고, 추출된 제2 항목과 추출된 제4 항목을 연관하는 단계를 포함할 수 있다.
또한, 항목을 연관하는 단계는, 제1 유형의 병리 이미지에 포함된 픽셀들의 각각의 염색 발현 강도를 나타내는 항목들 중에서, 제1 발현 범위와 연관된 제5 항목 및 제2 발현 범위와 연관된 제6 항목을 추출하는 단계, 제2 병리 데이터 세트에 포함된 픽셀들의 각각의 염색 발현 강도를 나타내는 항목들 중에서, 제1 발현 범위와 연관된 제7 항목 및 제2 발현 범위와 연관된 제8 항목을 식별하는 단계 및 제5 항목과 제7 항목을 연관하고, 제6 항목과 제8 항목을 연관하는 단계를 포함할 수 있다.
또한, 항목을 연관하는 단계는, 제1 유형의 병리 이미지에 포함된 세포의 유형을 나타내는 적어도 하나의 오브젝트 클래스와 제2 유형의 병리 이미지에 포함된 세포의 유형을 나타내는 적어도 하나의 오브젝트 클래스를 연관하는 단계, 또는 제1 유형의 병리 이미지에 포함된 세포의 염색 발현 강도를 나타내는 적어도 하나의 오브젝트 클래스와 제2 유형의 병리 이미지에 포함된 세포의 염색 발현 강도를 나타내는 적어도 하나의 오브젝트 클래스를 연관하는 단계를 포함할 수 있다.
또한, 제1 병리 데이터 세트와 제2 병리 데이터 세트에 기초하여 학습용 데이터 세트를 생성하는 단계는, 제1 병리 데이터 세트와 제2 병리 데이터 세트로부터 패치들을 추출하는 단계 및 패치들을 포함하는 학습용 데이터 세트를 생성하는 단계를 포함하고, 생성된 학습용 데이터 세트를 이용하여 기계학습 모델을 학습시키는 단계는, 제1 병리 데이터 세트로부터 추출된 레이블링된 패치들 중에서 제1 샘플링 개수에 상응하는 개수의 제1 유형의 이미지 패치들을 가져오는(fetch) 단계, 제2 병리 데이터 세트로부터 추출된 레이블링된 패치들 중에서 제2 샘플링 개수에 상응하는 개수의 제2 유형의 이미지 패치들을 가져오는 단계, 제1 유형의 이미지 패치들 및 제2 유형의 이미지 패치들에 기초하여, 배치를 생성하는 단계 및 배치를 이용하여 기계학습 모델을 학습시키는 단계를 포함할 수 있다.
또한, 제1 병리 데이터 세트와 제2 병리 데이터 세트에 기초하여 학습용 데이터 세트를 생성하는 단계는, 제1 병리 데이터 세트로부터 제1 유형의 이미지 패치들을 추출하는 단계, 제2 병리 데이터 세트로부터 제2 유형의 이미지 패치들을 추출하는 단계 및 소정 개수만큼 제1 유형의 이미지 패치들을 복사하여 학습용 데이터 세트에 포함시키는 단계를 포함할 수 있다.
또한, 기계학습 모델에 학습시키는 단계는, 제1 유형의 병리 이미지 또는 제2 유형의 병리 이미지 중 적어도 하나에 대한 크기를 조정하는 단계 및 크기가 조정된 적어도 하나의 병리 이미지를 포함하는 학습용 데이터를 이용하여 기계학습 모델을 학습시키는 단계를 포함할 수 있다.
또한, 기계학습 모델에 학습시키는 단계는, 제1 유형의 병리 이미지 또는 제2 유형의 병리 이미지 중 적어도 하나에 포함된 픽셀들 중에서 미리 결정된 범위에 해당하는 픽셀들을 제거하는 단계를 포함할 수 있다.
또한, 기계학습 모델에 학습시키는 단계는, 제1 유형의 병리 이미지 또는 제2 유형의 병리 이미지 중 적어도 하나를 좌우 또는 상하로 반전하는 단계 및 반전된 병리 이미지를 포함하는 학습용 데이터를 이용하여 기계학습 모델을 학습시키는 단계를 포함할 수 있다.
또한, 기계학습 모델에 학습시키는 단계는, 제1 유형의 병리 이미지 또는 제2 유형의 병리 이미지 중 적어도 하나에 포함된 픽셀들 중에서 미리 결정된 범위의 픽셀들을 제거하거나 변형하는 단계 및 미리 결정된 범위의 픽셀들이 제거되거나 변형된 병리 이미지를 포함하는 학습용 데이터를 이용하여 기계학습 모델을 학습시키는 단계를 포함할 수 있다.
또한, 기계학습 모델에 학습시키는 단계는, 제1 유형의 병리 이미지 또는 제2 유형의 병리 이미지 중 적어도 하나에 포함된 픽셀들의 색상을 변환시키는 단계 및 픽셀들의 색상이 변환된 적어도 하나의 병리 이미지를 포함하는 학습용 데이터를 이용하여 기계학습 모델을 학습시키는 단계를 포함할 수 있다.
또한, 기계학습 모델을 학습시키는 단계는, 학습용 데이터 세트 중에서 타깃 학습용 데이터를 결정하는 단계, 타깃 학습용 데이터를 기계학습 모델에 입력하고, 기계학습 모델로부터 출력 값을 획득하는 단계, 제1 병리 데이터 세트 또는 제2 병리 데이터 세트 중 적어도 하나에 포함된 주석 정보를 이용하여, 타깃 학습용 데이터에 대한 레퍼런스 값을 획득하는 단계 및 출력 값과 획득된 레퍼런스 값 간의 손실 값을 기계학습 모델에 피드백하는 단계를 포함할 수 있다.
또한, 기계학습 모델은, 서로 다른 유형의 분석 결과를 출력하는 복수의 분석 모델을 포함하고, 분석 결과를 획득하는 단계는, 획득된 병리 이미지로부터 염색 색상 및 염색이 발현된 위치를 식별하는 단계, 식별된 염색 색상 및 발현된 위치에 기초하여, 복수의 분석 모델 중 어느 하나를 타깃 분석 모델로서 결정하는 단계 및 결정된 타깃 분석 모델로 병리 이미지를 입력하여, 발현된 위치에서의 염색 강도에 대한 분석 결과를 타깃 분석 모델로부터 획득하는 단계를 포함할 수 있다.
또한, 기계학습 모델은, 서로 다른 유형의 분석 결과를 출력하는 복수의 분석 모델을 포함하고, 분석 결과를 획득하는 단계는, 사용자의 입력 정보에 기초하여, 복수의 분석 모델 중 어느 하나를 타깃 분석 모델로서 결정하는 단계 및 타깃 분석 모델로 병리 이미지를 입력하여, 병리 이미지에 대한 분석 결과를 타깃 분석 모델로부터 획득하는 단계를 포함할 수 있다.
또한, 기계학습 모델은, 세포의 종류 또는 세포의 평가 지표 중 적어도 하나를 포함하는 분석 결과를 출력하고, 세포의 평가 지표는, 세포에 대한 양성 또는 음성에 대한 결과값, 세포에 대한 염색 발현 등급, 세포에 대한 염색 발현 정도를 나타내는 값, 또는 세포에 대한 염색 발현 통계 정보 중 적어도 하나를 포함할 수 있다.
상술한 병리 이미지 분석 방법을 컴퓨터에서 실행하기 위한 명령어들을 기록한 컴퓨터 판독 가능한 비일시적 기록매체가 제공될 수 있다.
본 개시의 일 실시예에 따른 정보 처리 시스템은, 메모리 및 메모리와 연결되고, 메모리에 포함된 컴퓨터 판독 가능한 적어도 하나의 프로그램을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 적어도 하나의 프로그램은, 병리 이미지를 획득하고, 획득된 병리 이미지를 기계학습 모델에 입력하여, 기계학습 모델로부터 병리 이미지에 대한 분석 결과를 획득하고, 획득된 분석 결과를 출력하기 위한 명령어들을 포함하고, 기계학습 모델은 제1 도메인과 연관된 제1 병리 데이터 세트 및 제1 도메인과 상이한 제2 도메인과 연관된 제2 병리 데이터 세트에 기초하여 생성된 학습용 데이터 세트를 이용하여 학습된 모델일 수 있다.
본 개시의 일부 실시예에 따르면, 이종 도메인으로 구성된 학습용 데이터 세트를 기초로 기계학습 모델이 학습되고, 이에 따라 기계학습 모델은 학습에 이용되지 않은 다양한 유형의 병리 이미지까지도 정확하게 분석할 수 있다.
본 개시의 일부 실시예에 따르면, 이종 병리 데이터 세트에 대한 샘플링이 수행되어, 특정 유형의 병리 데이터 세트로 편향되지 않고 균형적으로 기계학습 모델이 학습될 수 있다.
본 개시의 일부 실시예에 따르면, 이종 병리 데이터 세트에 포함된 항목들이 서로 연관되고, 항목들이 연관된 이종 병리 데이터 세트에 기초하여 학습용 데이터 세트가 생성될 수 있다. 이러한 학습용 데이터 세트가 이용되어 기계학습 모델이 학습되는 경우, 기계학습 모델은 별도의 학습을 수행하지 않고도 새로운 암종 또는 새로운 IHC 염색 방법에 따라 발현된 세포를 포함하는 병리 이미지에 대한 정확한 분석을 수행할 수 있다.
본 개시의 일부 실시예에 따르면, 의도적으로 병리 이미지가 변형된 학습용 데이터가 기계학습 모델에 입력되어 기계학습 모델이 학습됨으로써, 이미지 왜곡, 변경 등과 같은 의도치 않은 상황에서도 강인한 기계학습 모델이 구축될 수 있다.
본 개시의 일부 실시예에 따르면, 기계학습 모델을 통해서 다양한 유형의 출력 값을 포함하는 분석 결과가 출력될 수 있다. 이에 따라, 사용자는 분석 결과에 포함된 출력 값들 중에서 원하는 유형의 출력 값을 이용하여, 의료 행위 등과 같은 후속 절차를 진행할 수 있다.
본 개시의 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급되지 않은 다른 효과들은 청구범위의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자('통상의 기술자'라 함)에게 명확하게 이해될 수 있을 것이다.
본 개시의 실시예들은, 이하 설명하는 첨부 도면들을 참조하여 설명될 것이며, 여기서 유사한 참조 번호는 유사한 요소들을 나타내지만, 이에 한정되지는 않는다.
도 1 및 도 2는 서로 다른 유형의 병리 이미지를 예시하는 도면이다.
도 3은 오브젝트 클래스를 포함하는 병리 이미지를 예시하는 도면이다.
도 4는 종양 영역과 전암성 영역이 세그먼테이션된 병리 이미지를 예시하는 도면이다.
도 5는 본 개시의 일 실시예에 따른, 병리 이미지를 분석하는 시스템이 적용되는 환경을 예시하는 도면이다.
도 6은 본 개시의 일 실시예에 따른, 병리 이미지 분석 모델이 학습되는 것을 예시하는 개요도이다.
도 7은 본 개시의 일 실시예에 따른, 병리 이미지 분석 모델이 학습되는 방법을 설명하기 위한 흐름도이다.
도 8은 본 개시의 일 실시예에 따른, 이종 병리 데이터 세트를 전처리하여 학습용 데이터 세트를 생성하는 방법을 설명하기 위한 흐름도이다.
도 9는 패치들이 샘플링되어 배치가 생성되는 예시를 나타내는 도면이다.
도 10은 패치들이 샘플링되어 배치가 생성되는 다른 예시를 나타내는 도면이다.
도 11은 본 개시의 일 실시예에 따른, 병리 이미지 분석 모델을 통해서 병리 이미지의 분석 결과가 출력되는 것을 예시하는 도면이다.
도 12는 본 개시의 일 실시예에 따른, 병리 이미지 분석 모델에 포함된 인공신경망 모델을 예시하는 도면이다.
도 13은 본 개시의 일 실시예에 따른, 병리 이미지 분석 모델을 이용하여 병리 이미지에 대한 분석 결과를 출력하는 방법을 설명하는 흐름도이다.
도 14는 본 개시의 다른 실시예에 따른, 병리 이미지 분석 모델을 예시하는 도면이다.
도 15는 본 개시의 다른 실시예에 따른, 병리 이미지의 특성에 기초하여 호출된 분석 모델을 통해 병리 이미지에 대한 분석 결과가 출력되는 것을 예시하는 도면이다.
도 16은 본 개시의 또 다른 실시예에 따른, 사용자의 입력 정보에 기초하여 호출된 분석 모델을 통해 병리 이미지에 대한 분석 결과가 출력되는 것을 예시하는 도면이다.
도 17 내지 도 20은 병리 이미지 분석 모델로부터 출력되는 다양한 형태의 분석 결과를 예시하는 도면이다.
도 21은 본 개시의 일 실시예에 따른 병리 이미지를 분석하는 예시적인 시스템 구성도이다.
이하, 본 개시의 실시를 위한 구체적인 내용을 첨부된 도면을 참조하여 상세히 설명한다. 다만, 이하의 설명에서는 본 개시의 요지를 불필요하게 흐릴 우려가 있는 경우, 널리 알려진 기능이나 구성에 관한 구체적 설명은 생략하기로 한다.
첨부된 도면에서, 동일하거나 대응하는 구성요소에는 동일한 참조부호가 부여되어 있다. 또한, 이하의 실시예들의 설명에 있어서, 동일하거나 대응되는 구성요소를 중복하여 기술하는 것이 생략될 수 있다. 그러나, 구성요소에 관한 기술이 생략되어도, 그러한 구성요소가 어떤 실시예에 포함되지 않는 것으로 의도되지는 않는다.
개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시가 완전하도록 하고, 본 개시가 통상의 기술자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다. 본 명세서에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한, 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다. 명세서 전체에서 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.
본 개시에서, '시스템'은 서버 장치와 클라우드 장치 중 적어도 하나의 장치를 포함할 수 있으나, 이에 한정되는 것은 아니다. 예를 들어, 시스템은 하나 이상의 서버 장치로 구성될 수 있다. 다른 예로서, 시스템은 하나 이상의 클라우드 장치로 구성될 수 있다. 또 다른 예로서, 시스템은 서버 장치와 클라우드 장치가 함께 구성되어 동작될 수 있다.
또한, 이하의 실시예들에서 사용되는 제1, 제2, A, B, (a), (b) 등의 용어는 어떤 구성요소를 다른 구성요소와 구별하기 위해 사용되는 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지는 않는다.
또한, 이하의 실시예들에서, 어떤 구성요소가 다른 구성요소에 '연결', '결합' 또는 '접속'된다고 기재된 경우, 그 구성요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성요소 사이에 또 다른 구성요소가 '연결', '결합' 또는 '접속'될 수도 있다고 이해되어야 한다.
또한, 이하의 실시예들에서 사용되는 '포함한다(comprises)' 및/또는 '포함하는(comprising)'은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
본 개시의 다양한 실시예들을 설명하기에 앞서, 사용되는 용어에 대하여 설명하기로 한다.
본 개시에서, 'IHC(Immunohistochemistry) 염색'은, 조직 또는 세포 검체에서 핵, 세포질 또는 세포막에 존재하는 단백질(또는, 항원)의 유무를 광학현미경으로 관찰하기 위해 관심 있는 항체를 조직 위에 반응시키는 원리를 이용한 염색법을 지칭할 수 있다. 항원-항체 반응물은 그대로 현미경으로 관찰할 수 없어서 표지자(biomarker)를 붙인 후 그 표지자를 발색 시키는 방법을 이용하며, 발색제로는 붉은색을 띠는 AEC(3-amino-9-ethylcarbazole), 갈색을 띠는 DAB(3,3'-diaminobenzidine) 등과 같은 다양한 발색제가 이용될 수 있다.
본 개시에서, '병리 이미지'는 인체에서 떼어낸 조직 등을 현미경으로 관찰하기 위해 일련의 화학적 처리과정을 거쳐 고정 및 염색된 병리 슬라이드를 촬영한 이미지를 지칭할 수 있다. 여기서, 병리 이미지는 병리 슬라이드에 대한 고해상도의 이미지를 포함하는 전체 슬라이드 이미지(whole slide image, WSI) 또는 고해상도의 전체 슬라이드 이미지의 일부를 지칭할 수 있다. 여기서, 전체 슬라이드의 이미지의 일부는, 병리 슬라이드 이미지 전체에서 일정 크기 단위로 분할된 영역을 지칭할 수 있다. 예를 들어, 병리 이미지는 디지털 스캐너를 이용하여 병리 슬라이드를 스캔한 디지털 이미지를 지칭할 수 있으며, 인체 내의 세포(cell), 조직(tissue) 및/또는 구조(structure)에 대한 정보를 포함할 수 있다. 또한, 병리 이미지는 하나 이상의 패치를 포함할 수 있으며, 하나 이상의 패치에는 주석(annotation) 작업을 통해 조직학적 정보가 적용(예: 태깅)될 수 있다. 본 개시에서 '병리 이미지'는 '병리 이미지에 포함된 적어도 일부 영역'을 지칭할 수도 있다.
본 개시에서, '패치'는 병리 이미지 내의 일부 영역을 지칭할 수 있다. 예를 들어, 패치는 병리 이미지에 대해 세그먼테이션(segmentation)을 수행함으로써 추출된 의미론적 오브젝트(object)에 대응하는 영역을 포함할 수 있다. 또 다른 예로서, 패치는 병리 이미지를 분석함으로써 생성된 조직학적 정보와 연관된 픽셀들의 조합을 지칭할 수 있다. 예컨대, 패치는 종양 조직과 연관된 오브젝트, 전암성 조직과 연관된 오브젝트, 종양 주변 조직과 연관된 오브젝트 및 기타 조직과 연관된 오브젝트 등을 포함할 수 있다.
본 개시에서, '조직학적 정보(histological components)'는, 병리 이미지에 포함된 인체 내의 세포(cell), 조직(tissue) 및/또는 구조(structure)에 대한 특성 또는 정보를 포함할 수 있다. 여기서, 세포에 대한 특성은 핵(nucleus), 세포막(cell membrane)과 같은 세포학적 특징(cytologic feature)을 포함할 수 있다. 조직학적 정보는 기계학습 모델을 통해 추론되거나 병리 전문의에 의해 입력된, 패치에 대한 조직학적 정보를 지칭할 수 있다.
본 개시에서, '병리 데이터'는 주석(annotation) 정보가 포함된 병리 이미지를 지칭할 수 있다. 복수의 병리 데이터를 포함하는 병리 데이터 집합이 '병리 데이터 세트'로서 지칭될 수 있다. 병리 데이터 세트 생성 시 병리 데이터의 도메인이 고려될 수 있다. 도메인이 일치하는 병리 이미지들만을 집합하여 병리 데이터 세트를 구성할 수 있다.
본 개시에서, '주석 정보'는 병리 이미지와 연관하여 병리 전문의, 또는 병리학자 등과 같은 전문가가 입력하는 정보일 수 있다. 주석 정보는 병리 이미지에 대한 조직학적 정보를 포함할 수 있다. 또한, 주석 정보는 병리 이미지와 연관된 적어도 하나의 항목을 포함할 수 있다. 여기서, 병리 이미지와 연관된 '항목(item)'은 병리 이미지에 대한 세부 정보를 나타내는 데이터로서, 염색이 발현된 오브젝트의 영역(예컨대, 영역에 포함되는 픽셀 범위, 픽셀의 위치 등)와 연관된 제1 항목, 오브젝트의 클래스과 연관된 제2 항목을 포함할 수 있다. 여기서, 오브젝트는 유의미한 세포 영역(예컨대, 이상 영역)으로서 픽셀 범위와 연관될 수 있고, 오브젝트 클래스는 세포 유형 및 평가 지표 등을 포함할 수 있다. 세포 유형은 종양 세포(tumor cell), 림프구(lymphocyte) 등일 수 있으며, 평가 지표는 염색 발현 강도와 연관된 지표로서, 양성 유무, 발현 등급, 발현 값, 발현 통계 정보 등을 포함할 수 있다. 발현 등급은 미리 결정된 복수의 등급(예컨대, 0, t+1, t+2 및 t+3) 중에서 염색 강도에 기초한 세포의 등급일 수 있으며, 발현 값은 미리 결정된 수치 범위(예컨대, 0 ~ 1)에서 염색 강도에 기초한 세포의 발현 값일 수 있다. 또한, 발현 통계 정보는 세포의 발현 강도에 대한 통계로서, 복수의 병리 이미지가 연속적으로 분석되는 경우에 출력될 수 있다. 예컨대, 10개의 병리 이미지들을 분석하여, 각 병리 이미지 내의 전체 종양 세포 대비 PD-L1 positive 종양 세포의 비율을 계산하고, 계산된 비율 값의 분포가 발현 통계 정보에 포함될 수 있다. 다른 예로서, 발현 통계 정보는 단일 병리 이미지 내에서 특정 세포에 대한 통계 정보를 포함할 수 있다. 예컨대, 하나의 병리 이미지가 분석되어, 병리 이미지 내에서 염색 발현된 전체 세포 대비 중에서 특정 등급으로 분류되는 세포에 대한 비율이 발현 통계 정보에 포함될 수 있다.
본 개시에서, '이종(異種)'은 도메인이 상이한 병리 데이터 또는 병리 이미지를 지칭할 수 있다. 여기서, '도메인'이 일치하다는 것은, 병리 이미지의 유형(type)이 동일하고 병리 이미지와 연관된 항목 유형(item type related to image)이 일치하다는 것으로 이해될 수 있으며, '도메인'이 상이하다는 것은 병리 이미지의 유형이 상이하거나, 또는 병리 이미지와 연관된 항목 유형이 상이하다는 것으로 이해될 수 있다. 여기서, 동일한 유형의 병리 이미지는 염색 방법이 동일한 것으로 이해될 수 있다. 예컨대, PD-L1(Programed cell death ligand 1) IHC 염색을 이용하여 염색된 폐암 조직에 대한 병리 이미지들이, 제1 도메인과 연관된 제1 병리 데이터 세트를 구성할 수 있다. 다른 예로서, HER2(human epidermal growth factor receptor 2) 염색을 이용하여 염색된 유방암 조직에 대한 병리 이미지들이, 제2 도메인과 연관된 제2 병리 데이터 세트를 구성할 수 있다. 이 경우, 제1 병리 데이터 세트에 포함된 병리 이미지와 제2 병리 데이터 세트에 포함된 병리 이미지가 이종인 것으로 지칭될 수 있다. 즉, 도메인이 동일한 병리 데이터들은 동일한 종류의 데이터로 지칭될 수 있으면, 도메인이 상이한 병리 데이터들은 이종 데이터인 것으로 지칭될 수 있다.
본 개시에서, '복수의 A 각각' 은 복수의 A에 포함된 모든 구성 요소의 각각을 지칭하거나, 복수의 A에 포함된 일부 구성 요소의 각각을 지칭할 수 있다.
본 개시에서, '인스트럭션(instruction)'이란, 기능을 기준으로 묶인 하나 이상의 명령어들로서, 컴퓨터 프로그램의 구성 요소이자 프로세서에 의해 실행되는 것을 지칭할 수 있다.
이하, 본 개시의 다양한 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.
우선, 도 1 내지 도 4를 참조하면, 본 개시의 학습에 이용될 수 있는 병리 이미지의 다양한 예시에 대해서 설명한다.
도 1 및 도 2는 서로 다른 유형의 병리 이미지를 예시하는 도면이다. 도 1에서 제1 병리 이미지(110)는 22C3 IHC 염색을 이용하여 비소세포폐암에서 PD-L1(Programed cell death ligand 1)을 염색한 슬라이드 이미지이다. 또한, 도 2의 제2 병리 이미지(120)는 HER2(human epidermal growth factor receptor 2) IHC 염색을 이용하여 유방암에서 HER2를 염색한 슬라이드 이미지이다. 22C3 IHC 염색 방법과 HER2 염색 방법은 서로 다른 항원-항체 반응을 활용하지만, 종양 세포의 세포막(membrane)이 염색된 후 동일한 색상(예컨대, 갈색)을 띈다는 점에서 패턴이 유사함을 알 수 있다.
도 2에 도시된 제3 병리 이미지(210)는 ER(estrogen receptor) IHC 염색을 이용하여 유방암을 염색한 슬라이드 이미지이고, 제4 병리 이미지(220)는 PR(progesterone receptor) IHC 염색을 이용하여 유방암을 염색한 슬라이드 이미지이다. ER IHC 염색과 PR IHC 염색에 의해 염색된 핵(nuclear)은 모두 동일한 색상(예컨대, 갈색)을 띈다는 점에서 IHC 염색 패턴이 유사하다.
이렇게 IHC 염색 후, 동일하거나 유사한 색상(예컨대, 갈색)이 발현되는 이종 병리 이미지가 후술되는 학습용 데이터를 생성하는데 이용될 수 있다. 부연하면, 도 1 및 도 2와 같은 다양한 유형의 병리 이미지를 포함하는 이종 병리 데이터에 기초하여 학습용 데이터 세트가 생성되고, 학습용 데이터 세트가 이용되어 기계학습 모델이 학습될 수 있다. 여기서, 학습용 데이터 세트는 복수의 학습용 데이터 집합일 수 있다. 또한, 특정 색상 이외에 다양한 색상(예컨대, 붉은색, 분홍색, 청색 등)으로 발현되는 병리 이미지가 학습용 데이터를 생성하는데 이용될 수도 있다.
각각의 병리 이미지는 병리 전문의가 입력한 주석 정보를 포함할 수 있다. 주석 정보는 병리 이미지 상의 오브젝트(예를 들어, 세포, 조직, 구조 등)에 대한 적어도 하나의 항목을 포함할 수 있다. 항목은 병리 전문의가 입력한 염색이 발현된 오브젝트의 종류 및 오브젝트의 클래스를 포함할 수 있다. 여기서, 패치 상에 염색이 발현된 오브젝트의 종류 및 오브젝트의 클래스는 패치에 대한 레이블링(labeling) 정보로서 지칭될 수 있다. 본 개시에서, 레이블링 정보는 주석 정보와 혼용하여 사용될 수 있다.
도 3은 오브젝트 클래스를 포함하는 병리 이미지(310)를 예시하는 도면이다. 도 3에 예시된 병리 이미지(310)는 특정 색상으로 발현된 오브젝트와 오브젝트 클래스를 포함하고 있다. 여기서, 오브젝트와 연관된 영역은 특정 색상으로 발현된 픽셀들에 기초하여 식별될 수 있다.
오브젝트 클래스는 세포가 특정 색상으로 발현된 정도에 기초하여 결정될 수 있고, 특정 색상의 채도에 따라 오브젝트의 각각의 클래스가 결정될 수 있다. 종래에는, 이러한 결정은 병리 전문의에 의해서 결정될 수 있었다. 즉, 병리 전문의는 병리 이미지를 확인한 후, 염색 발현 정도에 따라 각각의 세포의 클래스를 입력하고, 이렇게 설정된 세포의 클래스와 해당 세포의 영역(즉, 픽셀 범위)가 주석 정보로서 병리 이미지에 포함될 수 있다. 도 3에서는 t0에서부터 t3+으로 갈수록 염색 발현 강도가 강해진 것으로 예시되어 있다.
그러나 본 개시의 일 실시예에 따르면, 미리 구축된 이미지 분석 알고리즘(예컨대, 이미지 분석을 위한 기계학습 모델)을 이용하여, 오브젝트 클래스와 오브젝트가 자동적으로 결정될 수 있다.
도 4는 종양 영역과 전암성 영역이 세그먼테이션된 병리 이미지(410)를 예시하는 도면이다. 도 4에 예시된 병리 이미지(410)에서는, 종양 영역(ca)과 비종양 영역(cis)이 세그먼테이션된 후, 종양 영역(ca)은 제1 색상으로 시각화되고, 전암성 영역(cis)이 제2 색상으로 시각화될 수 있다. 종래에는 이러한 영역의 구분은 병리 전문의에 의해서 결정될 수 있었다. 예컨대, 병리 전문의는 병리 이미지(410)에서 발현되는 세포 및 조직의 형태학적 특성에 기초하여 종양 영역(ca) 및 전암성 영역(cis)을 식별할 수 있었다.
그러나 본 개시의 일 실시예에 따르면, 이러한 세그먼테이션 작업은 미리 구축된 이미지 분석 알고리즘(예컨대, 이미지 분석을 위한 기계학습 모델)을 이용하여, 자동적으로 수행될 수 있다. 예컨대, 이미지 분석 알고리즘을 통해서, 세포의 염색 발현 정도가 병리 이미지로부터 추출되고, 염색 발현 강도에 기초하여 각각의 영역이 자동으로 세그먼테이션된 후 서로 상이한 색상으로 시각화될 수 있다.
병리 이미지의 유형에 따라, 더욱 많은 영역이 세그먼테이션되어 시각화될 수 있다. 예컨대, 병리 이미지에서는 종양 영역과 전암성 영역 이외에, 종양 주변 영역(Cancer stroma 등)이 제3 색상으로 시각화될 수 있으며, 기타 조직(Connective tissue, fat tissue, bone 등)이 제4 색상으로 시각화될 수 있다. 시각화 작업과 연관된 주석 정보가 병리 이미지에 포함될 수 있다. 즉, 시각화된 오브젝트 영역과 관련된 제1 항목에 대한 정보와 오브젝트의 클래스와 관련된 제2 항목에 대한 정보를 포함하는 주석 정보가 병리 이미지에 포함될 수 있다.
상술한 바와 같이, 병리 이미지가 상이할 수 있으며, 또한, 병리 이미지에 포함된 주석 정보의 항목이 상이할 수 있다. 여기서, 병리 이미지가 상이한 것은, 병리 이미지에 대한 염색 방법이 상이할 수 있고, 또한 세포가 채취된 신체 부위가 상이한 것으로 이해될 수 있다. 예컨대, 제1 병리 이미지가 ER IHC 염색을 통해 획득된 이미지이고, 제2 병리 이미지가 PR IHC 염색을 통해 획득된 이미지인 경우, 제1 병리 이미지와 제2 병리 이미지는 이종의 이미지일 수 있다. 다른 예로서, 제3 병리 이미지가 가슴 조직으로부터 획득된 이미지이고, 제4 병리 이미지가 폐 조직으로부터 획득된 병리 이미지인 경우, 제3 병리 이미지와 제4 병리 이미지는 이종의 이미지일 수 있다.
또한, 주석 정보가 상이한 것은, 주석 정보에 포함된 항목의 유형이 상이한 것으로 이해될 수 있다. 예컨대, 제1 병리 이미지에 오브젝트 클래스로서 양성 유무와 연관된 제3 항목이 포함되고, 제2 병리 이미지에 오브젝트 클래스로서 t0, t1+, t2+ 및 t3+ 중에서 어느 하나에 대한 등급을 나타내는 제4 항목이 포함된 경우, 제1 병리 이미지와 제2 병리 이미지는 이종인 것으로 이해될 수 있다.
이렇듯, 병리 이미지의 유형 또한 주석 정보에 포함된 항목 중에서 어느 하나라도 상이한 병리 이미지는, 이종 병리 이미지인 것으로 판정될 수 있다. 동일한 유형의 병리 이미지들이 모여서 동일한 도메인의 병리 이미지 세트를 구성할 수 있다.
이하, 도 5 내지 도 21을 참조하여, 본 개시의 다양한 실시예들을 설명하기로 한다.
도 5는 본 개시의 일 실시예에 따른, 병리 이미지를 분석하는 시스템(510)이 적용되는 환경을 예시하는 도면이다. 도 5를 참조하면, 분석 시스템(510)은 네트워크(550)를 통해서, 연구 정보 시스템(520), 스캐너(530), 사용자 단말(540) 각각과 통신할 수 있다. 여기서, 네트워크(550)는 이동통신망과 유선 통신망을 포함하는 것으로서, 본 개시의 기술분야에서 주지의 관용기술에 해당하므로 자세한 설명은 생략한다. 또한, 도 5에 도시되지는 않았으나, 분석 시스템(510)은, 병리 이미지를 저장하기 위한 저장소 및 분석 결과를 저장하기 위한 저장소를 포함하는 이미지 관리 시스템(미도시)과 통신할 수 있다.
스캐너(530)는 환자의 조직 샘플을 이용하여 생성된 조직 샘플 슬라이드로부터 디지털화된 병리 이미지를 획득할 수 있다. 예컨대, 스캐너(530)는 병리 슬라이드를 스캔한 디지털 이미지인 병리 이미지를 생성하여 저장할 수 있다. 스캐너(530)는 획득된 병리 이미지를 분석 시스템(510)으로부터 전송할 수 있다.
사용자 단말(540)은 분석 시스템(510)으로부터 병리 이미지에 대한 분석 결과를 수신할 수 있다. 예컨대, 사용자 단말(540)은 병원 등과 같은 의료 시설에 위치하고, 의료진이 사용하는 컴퓨팅 장치일 수 있다. 다른 예로서, 사용자 단말(540)은 환자와 같은 일반 사용자가 사용하는 컴퓨팅 장치일 수 있다.
연구 정보 시스템(520)은 병원, 대학, 연구시설 등에서 이용하는, 서버와 데이터베이스 등을 포함하는 컴퓨팅 시스템일 수 있다. 연구 정보 시스템(520)은 학습에 이용되는 원시 데이터(raw data)의 집합인 병리 이미지 세트를 분석 시스템(510)으로 제공할 수 있다. 예컨대, 연구 정보 시스템(520)은 단일 도메인에 해당하는 이종 병리 데이터 세트를 분석 시스템(510)으로 전송할 수 있다. 다른 예로서, 연구 정보 시스템(520)은 이종 병리 데이터 세트를 분석 시스템(510)으로 제공할 수 있다. 즉, 연구 정보 시스템(520)은 제1 도메인에 해당하는 제1 병리 데이터 세트, 제2 도메인에 해당하는 제2 병리 데이터 세트 또는 제3 도메인에 해당하는 제3 병리 데이터 세트 중 둘 이상을 분석 시스템(510)으로 전송할 수 있다.
분석 시스템(510)은 학습에 이용되는 복수의 병리 데이터 세트를 저장하기 위한 데이터 저장소(예컨대, 데이터베이스)를 포함하고, 병리 이미지를 분석하기 위한 기계학습 모델을 포함할 수 있다. 분석 시스템(510)은 적어도 하나의 프로세서와 메모리를 포함할 수 있다. 일 실시예에 따르면, 분석 시스템(510)은 이종 병리 데이터 세트에 기초하여 학습용 데이터 세트를 생성하고, 학습용 데이터 세트를 이용하여 기계학습 모델을 학습시킬 수 있다. 분석 시스템(510)은 기계학습 모델의 학습량이 목표량에 도달하면, 기계학습 모델을 이용하여 주석 정보가 포함하지 않은 병리 이미지에 대한 분석을 수행할 수 있다. 즉, 분석 시스템(510)은 병리 전문가의 개입을 요구하지 않고, 기계학습 모델을 이용하여 병리 이미지에 대한 분석을 수행할 수 있다. 예컨대, 분석 시스템(510)은 스캐너(530)로부터 수신된 병리 이미지를 분석하고, 이 분석된 결과를 의뢰인에게 제공할 수 있다. 여기서, 의뢰인은 사용자 단말(540)을 이용하는 의사/연구원/환자일 수 있다.
이하, 도 6 내지 도 8을 참조하여, 기계학습 모델이 학습되는 과정에 대해서 보다 자세하게 설명한다.
도 6은 본 개시의 일 실시예에 따른, 병리 이미지 분석 모델(630)이 학습되는 것을 예시하는 개요도이다. 도 6에서는 기계학습 모델(630)이 병리 이미지 분석 모델(630)인 것으로 지칭되어 있다. 이하에서는, 기계학습 모델(630)과 병리 이미지 분석 모델(630)을 혼용하여 사용하기로 한다.
복수의 이종 병리 데이터 세트(610_1 내지 610_n)가 전처리되어, 학습용 데이터 세트(620)가 생성될 수 있다. 즉, 서로 다른 도메인에 해당하는 복수의 이종 병리 데이터 세트(610_1 내지 610_n)가 전처리되어, 복수의 학습용 데이터를 포함하는 학습용 데이터 세트(620)가 생성될 수 있다. 이종 병리 데이터 세트(610_1 내지 610_n)가 전처리되는 과정에서, 각 병리 데이터 세트(610_1 내지 610_n)로부터 추출되는 샘플링 개수가 결정될 수 있다. 데이터 샘플링에 대해서 도 8을 참조하여 자세하게 설명하기로 한다.
일부 실시예에서, 아티팩트(artifact)가 포함된 병리 이미지에 대해서 분석이 용이하게 수행될 수 있도록, 의도적으로 왜곡된 병리 이미지가 병리 이미지 분석 모델(630)에 입력되어, 아티팩트가 포함된 병리 이미지에 대해서도 분석 결과를 출력할 수 있는 강인한(robust) 기계학습 모델이 구축될 수 있다. 여기서, 아티팩트가 포함된 병리 이미지는, 일부 영역이 왜곡되거나, 변환되거나 또는 제거된 이미지일 수 있다. 강인한 기계학습 모델을 구축하기 위해, 학습용 데이터를 생성하는 다양한 실시예에 대해서는 도 8을 참조하여 자세하게 설명하기로 한다.
일 실시예에 따르면, 오브젝트 클래스 또는 관심 영역 중 적어도 하나에 기초하여, 병리 데이터 세트(610_1 내지 610_n)에 포함된 병리 이미지에 연관된 항목이 다른 병리 데이터 세트에 포함된 병리 이미지에 연관된 항목과 연관될 수 있다. 병리 이미지에 연관된 항목이란, 병리 이미지 상에 나타나는 세포, 조직, 또는 구조의 종류 또는 클래스를 구분하는 기준을 의미할 수 있다. 예컨대, 제1 병리 데이터 세트(610_1)에 제1 유형의 제1 병리 이미지가 포함되고, 제2 병리 데이터 세트(610_2)에 제2 유형의 제2 병리 이미지가 포함되고, 제1 병리 이미지와 연관된 제1 항목과 제2 병리 이미지와 연관된 제2 항목이 유사한 염색 발현 등급 또는 유사한 관심 영역에 해당하는 경우, 제1 항목과 제2 항목은 서로 연관될 수 있다. 여기서 관심 영역은 세포와 연관된 영역일 수 있다. 예컨대, 관심 영역은 종양 세포, 염증 세포 또는 기타 세포 중 적어도 하나와 연관된 영역일 수 있다. 다른 예로서, 관심 영역은 종양 조직, 전암성 조직, 종양 주변 조직 또는 기타 조직 중 적어도 하나와 연관된 영역일 수 있다. 항목들이 연관되는 다양한 예시는 도 8, 표 1 및 표 2를 참조하여 더욱 구체적으로 설명하기로 한다.
일 실시예에 따르면, 연관된 항목들을 포함하여 학습용 데이터 세트(620)가 생성될 수 있다. 예컨대, 제1 병리 이미지에 연관된 제1 항목과 제2 병리 이미지와 연관된 제2 항목이 서로 연관되는 경우, 서로 연관되는 제1 항목과 제2 항목 및 제1 병리 이미지에 기초하여 제1 학습 데이터가 생성되어 학습용 데이터 세트(620)에 포함될 수 있다. 추가적으로, 서로 연관되는 제1 항목과 제2 항목 및 제2 병리 이미지에 기초하여, 제2 학습 데이터가 생성되어 학습용 데이터 세트(620)에 포함될 수 있다. 이에 따라, 학습용 데이터 세트(620)는 병리 이미지 이외에, 병리 이미지에 포함된 항목과 연관되는 이종 병리 이미지의 항목을 더 포함할 수 있다.
학습용 데이터 세트(620)의 일부 또는 전부를 포함하는 적어도 하나의 배치(batch)가 생성되어, 병리 이미지 분석 모델(630)이 학습될 수 있다. 일 실시예에 따르면, 학습 과정에서 병리 이미지 분석 모델(630)으로부터 출력된 출력 값(즉, 분석 결과)(640)과 레퍼런스 값(650) 간의 손실(loss) 값이 산출될 수 있다. 일 실시예에 따르면, 레퍼런스 값(650)은 병리 이미지의 주석 정보로부터 획득된 일종의 정답 값일 수 있다. 예컨대, 레퍼런스 값(650)은 주석 정보에 포함된 평가 지표로부터 획득될 수 있다.
일 실시예에 따르면, 손실 값이 병리 이미지 분석 모델(630)로 피드백되어 병리 이미지 분석 모델(630)에 포함된 적어도 하나의 노드의 가중치가 조정될 수 있다. 여기서, 노드는 인공신경망에 포함되는 노드일 수 있다.
본 개시의 실시예들에 따르면, 학습용 데이터가 병리 이미지 분석 모델(630)에 입력되면, 학습용 데이터에 포함된 연관된 항목들이 유사 항목 그룹으로서 그룹핑되어, 병리 이미지 분석 모델(630)에서 가중치를 가지는 적어도 하나의 노드로서 동작할 수 있다. 이렇게 연관된 항목들이 함께 입력되어 병리 이미지 분석 모델(630)이 학습되는 경우, 다양한 유형의 병리 이미지에 대해서 분석을 수행할 수 있을 뿐만 아니라 다양한 유형의 결과 값을 출력할 수 있다.
이하, 도 7 및 도 8을 참조하여, 병리 이미지 분석 모델이 학습되는 방법을 자세하게 설명한다. 도 7 및 도 8에 도시된 방법은, 본 개시의 목적을 달성하기 위한 일 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다. 또한, 도 7 및 도 8에 도시된 방법은, 도 5에 도시된 분석 시스템에 포함된 적어도 하나의 프로세서에 의해서 수행될 수 있다. 설명의 편의를 위해서 도 5에 도시된 분석 시스템에 포함된 프로세서에 의해서, 도 7 및 도 8에 도시된 각 단계가 수행되는 것으로 설명하기로 한다.
또한, 후술하는 실시예들에서, 이종 병리 데이터 세트는, 서로 다른 유형의 복수의 이종 병리 데이터 세트를 포함하고 있은 것으로 가정한다. 또한, 후술하는 설명에서 제N(여기서, N은 자연수) 이종 병리 데이터 세트와 제N+1 이종 병리 데이터 세트는 서로 상이한 도메인에 해당하는 데이터 세트인 것으로 지칭한다.
도 7은 본 개시의 일 실시예에 따른, 병리 이미지 분석 모델이 학습되는 방법(700)을 설명하기 위한 흐름도이다. 도 7을 참조하면, 프로세서는 이종 병리 데이터 세트를 획득할 수 있다(S710). 예컨대, 프로세서는 도 5의 분석시스템(510), 연구 정보 시스템(520), 또는 스캐너(530) 중 적어도 하나로부터 수신하여 저장한 이종 병리 데이터 세트를, 저장소로부터 획득할 수 있다.
이어서, 프로세서는 획득된 이종 병리 데이터 세트의 각각을 전처리하여, 학습용 데이터 세트를 생성할 수 있다(S720). 개별 학습용 데이터에는, 주석 정보를 포함하는 병리 이미지가 포함될 수 있다. 일 실시예에 따르면, 프로세서는 제1 병리 이미지와 연관된 항목과 제2 병리 이미지와 연관된 항목을 연관하고, 연관된 항목을 각 병리 데이터 세트에 포함되게 할 수 있다. 이에 따라, 이종 병리 데이터 세트에 포함된 이종 개별 병리 데이터가 서로 병합될 수 있다. 일 실시예에 따르면, 학습용 데이터 세트의 크기가 미리 결정된 배치(batch) 크기에 상응하도록, 프로세서는 학습용 데이터의 개수를 결정하고, 이 개수에 상응하는 데이터 개수를 가지도록 학습용 데이터 세트를 생성할 수 있다. 일부 실시예에 따르면, 프로세서는 이종 병리 데이터 세트에 대한 샘플링 또는 데이터 증강 중 적어도 하나를 수행할 수 있다. 데이터 전처리에 대한 더욱 자세한 설명은 도 8 내지 도 10을 참조하여 후술하기로 한다.
데이터 전처리가 완료된 후, 프로세서는 학습용 데이터 세트에 포함된 데이터 중에서 타깃 학습용 데이터를 결정할 수 있다(S730). 이어서, 프로세서는 타깃 학습용 데이터를 이용하여 병리 이미지 분석 모델에 대한 학습을 수행할 수 있다(S740). 일 실시예에서, 프로세서는 타깃 학습용 데이터에 포함된 주석 정보로부터 레퍼런스 값을 결정할 수 있다. 예컨대, 프로세서는 학습용 데이터에 포함된 주석 정보에서 오브젝트 클래스를 추출하고, 추출된 오브젝트 클래스에 포함된 평가 지표를 기초로 레퍼런스 값을 결정할 수 있다. 또한, 프로세서는 학습용 데이터에 포함된 주석 정보에서 세그먼테이션된 적어도 하나의 오브젝트의 영역(즉, 픽셀 범위)과 각 오브젝트의 유형(즉, 세포 유형)을 기초로 레퍼런스 값을 결정할 수 있다.
프로세서는 타깃 학습용 데이터를 병리 이미지 분석 모델로 입력하고, 병리 이미지 분석 모델로부터 출력되는 출력 값(즉, 분석 결과)과 레퍼런스 값 간의 손실(loss) 값을 산출한 후, 산출된 손실 값을 병리 이미지 분석 모델에 피드백(feedback)하여, 병리 이미지 분석 모델에 포함된 적어도 하나의 가중치를 조절할 수 있다. 출력 값은 평가 지표 또는 오브젝트 영역과 오브젝트의 유형(즉, 세포 유형) 중 적어도 하나를 포함할 수 있다. 손실 값은 평가 지표와 레퍼런스 값 간의 차이에 산술적으로 계산하여 산출될 수 있고, 또는 출력 값에 포함된 오브젝트와 레퍼런스 값에 포함된 오브젝트 간의 픽셀 범위 일치율을 평가하기 위한 평가 함수가 이용되어 산출될 수 있다.
이어서, 프로세서는 학습용 데이터 세트에 포함된 모든 데이터가 타깃 학습용 데이터로 결정되었는지 여부를 판정할 수 있다(S750). 다음으로, 프로세서는 학습용 데이터 세트에 포함된 데이터 중에서 아직 타깃 학습용 데이터로 결정되지 않은 데이터가 존재하면, 타깃 학습용 데이터로 결정되지 않은 학습용 데이터들 중에서 어느 하나를 타깃 학습용 데이터로 결정하여, 이 타깃 학습용 데이터를 이용하여 병리 이미지 분석 모델을 학습을 수행할 수 있다.
한편, 프로세서는 학습용 데이터 세트에 포함된 모든 데이터가 타깃 학습용 데이터로 결정되었으면, 이번 주기의 이포크(epoch)에서의 학습을 종료할 수 있다.
한편, 다음 주기의 이포크에서 동일할 학습용 데이터 세트가 다시 이용되어 병리 이미지 분석 모델이 다시 학습될 수 있고, 또는 새로운 학습용 데이터 세트가 생성되어 병리 이미지 분석 모델이 다시 학습될 수 있다.
상술한 바와 같이, 학습용 데이터 세트에 포함된 데이터를 이용하여 병리 이미지 분석 모델에 대한 반복적인 학습이 진행되면, 병리 이미지 분석 모델에 포함된 각 노드의 가중치는 최적의 값으로 수렴할 수 있다. 이에 따라, 병리 이미지 분석 모델은 더욱 정확한 분석 결과를 출력할 수 있다.
도 8은 본 개시의 일 실시예에 따른, 이종 병리 데이터 세트를 전처리하여 학습용 데이터 세트를 생성하는 방법을 설명하기 위한 흐름도이다. 먼저, 데이터 전처리를 위한 방법을 설명하기 앞서서, 전처리가 필요한 이유에 대해서 개략적으로 설명한다.
이종 병리 이미지인 제1 병리 이미지와 제2 병리 이미지는, 세포의 종류, 염색 강도 또는 IHC 평가에 필요한 조직 영역 중 적어도 하나가 상이할 수 있다. 대부분의 병리 이미지는 종양 세포를 레이블한 정보가 포함된다는 점은 공통적이지만, IHC 종류에 따라 종양 세포 외에 림프구(lymphocyte), 대식세포(macrophage) 등의 면역 세포나 종양 주변의 기질을 구성하는 섬유아세포(fibroblast)나 지방세포(adipocyte) 등의 간질세포(stromal cell) 등도 염색되는 경우가 있으며, 이러한 세포들에 대한 레이블링 정보는 일부 유형의 이종 이미지에 포함될 수 있다. 부연하면, 도 1 내지 도 4와 같은 다양한 유형의 병리 이미지를 포함하는 학습용 데이터 세트가 생성되고, 학습용 데이터 세트에 기초하여 기계학습 모델이 학습될 수 있다.
또한, 염색 강도를 평가하는 기준도 병리 이미지를 구성하는 세포 유형(예컨대, 암종) 및 IHC 종류에 따라 다를 수 있다. 예를 들어 유방암의 HER2 발현 정도를 평가한 IHC 데이터셋의 경우 종양세포(tumor cell)에서 HER2의 발현 정도를 3+ (강함), 2+ (중간), 1+ (약함), 0(발현 없음)으로 4단계를 나눠 분류하지만, 폐암의 PD-L1 발현 정도를 22C3 염색으로 평가한 IHC 데이터셋의 경우 종양세포에서 PD-L1 발현 정도를 양성 또는 음성으로 나눠 분류한다.
이렇듯 레이블링된 세포의 종류, 염색 강도에 대한 평가 지표 등이 병리 이미지의 유형에 따라 다를 수 있기 때문에, 서로 다른 유형의 항목을 병합하여 학습용 데이터 세트를 구축할 필요성이 있다. 다시 말해, 서로 다른 도메인의 병리 이미지들에 대해 도메인 병합(domain merging)을 수행함으로써, 통합된 학습용 데이터 세트를 구축할 필요성이 있다. 예컨대, 제1 병리 이미지에 포함된 제1 오브젝트 클래스와 제2 병리 이미지에 포함된 제2 오브젝트 클래스 간의 유형이 서로 상이한 경우, 제1 오브젝트 클래스와 제2 오브젝트 클래스가 통합될 수 있다. 한편, 특정 병리 데이터 세트에 포함된 오브젝트 클래스의 세부 항목이 더 많거나 적을 수 있으며, 세부 항목이 더 많은 쪽 또는 더 적은 쪽으로 항목이 병합되도록, 항목들이 연관될 수 있다. 만약 세부 항목이 더 적은 쪽으로 병합되는 경우는 아래의 표 1과 표 2의 예시처럼 복수의 세포 종류 또는 염색 강도를 하나로 묶는 방법을 활용할 수 있다.
만약, 세부 항목이 더 많은 쪽으로 데이터를 통합하는 경우는, 세부 항목이 더 적게 레이블링된 병리 이미지에 대한 평가가 다시 수행되어, 더 많은 개수의 세부 항목이 병리 이미지에 레이블링 될 수 있다. 이때, 세부 항목을 레이블을 자동으로 수행하는 별도의 알고리즘(예컨대, 기계학습 모델)이 이용되어, 적은 개수의 세부 항목으로 레이블링된 병리 이미지가 보다 많은 개수의 세부 항목으로 자동적으로 다시 레이블링될 수 있다. 예컨대, 제1 병리 이미지의 오브젝트 클래스와 연관된 세부 항목의 개수가 2개이고, 제2 병리 이미지의 오브젝트 클래스와 연관된 세부 항목의 개수가 4개인 경우, 제1 병리 이미지가 4개의 세부 항목을 자동으로 레이블링하는 알고리즘(예컨대, 기계학습 모델)이 입력되고, 이 알고리즘을 통해서 4개의 세부 항목으로 레이블링된 제1 병리 이미지가 출력될 수 있다.
이렇게 항목들을 연관하는 것은, IHC 분석에서 관심 대상이 되는 종양 세포의 경우 서로 다른 암종이라 하더라도 핵 이형성(nuclear atypia), 높은 핵/세포질 비율 (high N/C ratio), 비정형 유사분열(atypical mitosis)의 증가, 극성손실(loss of polarity) 등과 같이, 종양세포의 기원과 관계없이 악성 종양 세포라면 공통적으로 갖고 있는 유사한 형태적 특징(morphologic feature)이 있다는 점과 면역세포나 간질세포 등은 암종에 따른 형태 차이가 적은 병리학적 이론에 바탕을 둔다.
도 8을 참조하면, 프로세서는 이종 병리 데이터 세트에 포함된 서로 다른 항목을 서로 연관되게 처리함으로써, 이종 도메인에 해당하는 이종 병리 데이터 세트를 병합(merge)할 수 있다(S810). 여기서, 병합하다는 것은, 이종 병리 데이터 세트가 공통된 항목으로 서로 연관된다는 것을 의미할 수 있다.
서로 연관될 수 있는 항목에 대한 테이블이 분석 시스템에서 미리 저장될 수 있으며, 프로세서는 테이블을 참조하여 이종 병리 데이터 세트로부터 서로 연관되는 항목들을 추출하고, 추출된 항목들을 서로 연관되게 처리할 수 있다. 아래의 표 1과 표 2는 항목을 연관시킬 때에, 참조되는 매핑 테이블을 예시하는 도면이다. 표 1과 표 2는 PD-L1와 연관된 제1 병리 데이터 세트와 HER2과 연관된 제2 병리 데이터 세트를 예로 들어, 항목을 매핑하고 있다. 즉, PD-L1 IHC 염색을 이용한 제1 유형의 병리 이미지와 연관된 항목과, HER2 IHC 염색을 이용한 제2 유형의 병리 이미지와 연관된 항목을 연관시키기 위한, 매핑 테이블이 예시되어 있다.
Tissue mapping
BG (Background) CA (Cancer Area)
PD-L1 lung BG CA
HER2 breast BG, CIS CA
Cell mapping
Other Cell TC- TC+
PD-L1 lung LP+, LP-, MP+, MP-, OT TC- TC+
HER2 breast OT TC0 TC1, TC2, TC3
표 1 및 표 2를 참조하면, PD-L1 IHC 염색과 연관된 제1 유형의 병리 이미지와 HER2 IHC 염색과 연관된 제2 유형의 병리 이미지는, 염색 방법과 원발 부위(폐 또는 유방)가 다르나, 특성 색상으로 발현된다는 공통점이 있다. 그러나 제1 병리 이미지와 제2 병리 이미지에서는 암종과 연관된 오브젝트가 공통적으로 발견될 수 있으나, 발현되는 세포의 종류, 염색 강도 및 IHC 평가에 필요한 조직 영역은 상이할 수 있다. 본 개시에서는 이종 병리 이미지에 연관된 항목들을 중에서, 공통 속성을 가지는 항목들이 연관될 수 있다. 표 1은 관심 조직을 기초로, 이종 병리 이미지와 연관된 항목들이 서로 연관될 수 있음을 예시하고 있다. 표 1을 참조하면, PD-L1 IHC 염색으로 획득된 제1 유형의 병리 이미지와 연관된 항목들 중에서, 종양 조직을 나타내는 항목(CA)은, HER2 IHC 염색으로 획득된 제2 유형의 병리 이미지와 연관된 항목들 중에서 종양 조직을 나타내는 항목(CA)과 연관될 수 있다. 또한, PD-L1 IHC 염색으로 획득된 제1 유형의 병리 이미지와 연관된 항목들 중에서, 비종양 조직을 나타내는 오브젝트 관련 항목(BG)은, HER2 IHC 염색으로 획득된 제2 유형의 병리 이미지와 연관된 항목들 중에서 전압성 조직(CIS) 및 배경 조직(BG)과 관련될 수 있다.
표 2는 오브젝트 클래스를 기초로, 이종 병리 이미지와 연관된 항목들이 서로 연관될 수 있음을 예시하고 있다. 표 2를 참조하면, PD-L1 IHC 염색으로 획득된 제1 유형의 병리 이미지와 연관된 항목들 중에서, 종양을 제외한 림프구(LP+, LP-), 대식 세포(MP+, MP-) 및 그 외의 세포(OT)는, HER2 IHC 염색으로 획득된 제2 유형의 병리 이미지와 연관된 항목들 중에서 종양(BG)과 전암성 조직(CIS) 이외의 세포(OT)와 연관될 수 있다.
또한, 제1 유형의 병리 이미지에 포함된 픽셀들의 각각의 염색 발현 강도를 나타내는 항목들 중에서, 제1 발현 범위와 관련된 음성(TC-) 항목은, 제2 유형의 병리 이미지에 포함된 픽셀들의 각각에 염색 발현 강도를 나타내는 항목들 중에서 제1 발현 범위와 관련된 TC0 항목과 연관될 수 있다. 또한, 제1 유형의 병리 이미지에 포함된 픽셀들의 각각의 염색 발현 강도를 나타내는 항목들 중에서, 제2 발현 범위와 관련된 양성(TC+) 항목은, 제2 유형의 병리 이미지에 포함된 픽셀들의 각각에 염색 발현 강도를 나타내는 항목들 중에서 제2 발현 범위와 관련된 TC1, TC2 및 TC3 항목과 연관될 수 있다.
프로세서는 제1 병리 이미지와 연관된 항목과 제2 병리 이미지와 연관된 항목을 연관하고, 연관된 항목을 각 병리 데이터 세트에 포함되게 할 수 있다. 이에 따라, 이종 병리 데이터 세트에 포함된 이종 개별 병리 데이터가 서로 병합될 수 있다.
표 1 및 표 2를 예를 들어 설명하면, 제1 병리 이미지와 연관된 BG 항목과 제2 이미지와 연관된 BG 항목과 CIS 항목이 연관될 수 있다. 또한, 제2 병리 이미지와 연관된 OT 항목과 제1 병리 이미지와 연관된 LP+, LP-, MP+, MP- 및 OT 항목이 연관될 수 있다. 또한, 제1 병리 이미지와 연관된 TC- 항목과 제2 병리 이미지에 연관된 TC0 항목이 연관되고, 제1 병리 이미지와 연관된 TC+ 항목과 제2 병리 이미지에 연관된 TC1, TC2 및 TC3 항목이 연관될 수 있다. 이렇게 연관된 항목들은 제1 병리 데이터 세트와 제2 병리 데이터 세트 각각에 포함되고, 이에 따라 제1 도메인과 연관된 제1 병리 데이터 세트와 제2 도메인과 연관된 제2 병리 데이터 세트는 병합될 수 있다.
그 후, 프로세서는 각 병리 데이터 세트로부터 레이블링된 패치들을 추출하고, 추출된 패치들을 패치 데이터베이스에 저장할 수 있다(S820). 여기서, 레이블링된 패치는 오브젝트 클래스가 레이블링된 오브젝트를 지칭할 수 있으며, 병리 이미지의 일부이거나 전부일 수 있다. 일 실시예에서, 프로세서는 각 병리 데이터 세트로부터 미리 결정된 동일 개수의 패치들을 추출할 수 있다. 다른 실시예에 따르면, 프로세서는 서로 상이한 개수의 레이블링된 패치를 각 병리 데이터 세트로부터 추출할 수 있다. 프로세서는 제1 병리 데이터 세트에서 제1 개수 또는 제1 비율의 레이블링된 패치를 추출하고, 제2 병리 데이터 세트에서 제2 개수 또는 제2 비율의 레이블링된 패치를 추출할 수 있다.
프로세서는 레이블링된 패치들을 추출한 후, 레이블링된 패치들을 패치 데이터베이스에 저장할 수 있다. 이때, 레이블링된 패치는 항목(예컨대, 오브젝트 유형, 클래스 등)과 이 항목과 연관된 이종 병리 데이터의 항목이 포함될 수 있다. 다른 실시예에서, 프로세서는 특정 유형의 패치들을 소정 개수만큼 복사하여, 복사된 패치들을 패치 데이터베이스에 저장할 수 있다. 이때, 특정 유형의 패치들이 복사되는 소정 개수는, 가장 많은 패치 개수의 패치 유형에 기초하여 결정될 수 있다. 예컨대, 복사되는 패치의 개수는 패치 데이터베이스에 저장된 패치 유형들 중에서, 가장 많은 개수의 패치 유형과 특정 유형의 패치 개수 차이에 기초하여 결정될 수 있다. 여기서, 패치 유형은, 병리 이미지 유형과 상응할 수 있다. 예컨대, 병리 이미지의 유형이 제1 유형인 경우, 병리 이미지로부터 추출된 패치들도, 제1 유형일 수 있다. 패치 목록 또는 패치 데이터베이스에 저장된 패치들에 대한 예시는 도 9 및 도 10을 참조하여 설명하기로 한다.
다음으로, 프로세서는 패치 데이터베이스에 포함된 이미지를 왜곡, 삭제, 오염 등과 같은 인위적인 변형을 가함으로써, 레이블링된 패치를 증강할 수 있다(S830).
증강된 패치를 생성하기 위해, 프로세서는 패치 데이터베이스에 포함된 패치 중에서 적어도 하나의 패치를 추출하고, 추출된 패치의 크기를 조정할 수 있다. 예컨대, 프로세서는 패치의 크기의 해상도를 오리지널 해상도 보다 높은 해상도 또는 낮은 해상도로 변경할 수 있다. 다른 예로서, 프로세서는 패치에 외곽 영역에 위치한 픽셀들을 제거함으로써, 패치의 크기를 변경할 수 있다.
또한, 프로세서는 패치 데이터베이스에 포함된 패치 중에서 적어도 하나의 패치를 추출하고, 추출된 패치에 포함된 픽셀들 중에서 미리 결정된 범위에 해당하는 픽셀들을 제거할 수 있다. 또한, 프로세서는, 픽셀들이 제거된 패치의 크기를 패치의 오리지널 크기로 확대할 수 있다. 이러한 형태의 패치를 포함하는 이미지를 기초로, 병리 이미지 분석 모델이 학습되는 경우, 병리 이미지에서 관심 영역이 다양한 위치에서 있더라도, 병리 이미지 분석 모델은 해당 관심 영역을 정확하게 검출하고, 그 검출된 관심 영역에 대한 평가 지표를 정확하게 산출하도록 학습될 수 있다.
또한, 프로세서는 패치 데이터베이스에 포함된 패치 중에서 적어도 하나의 패치를 추출하고, 추출된 패치를 좌우 또는 상하로 반전한 후, 좌우 또는 상하가 반전된 패치를 생성할 수 있다. 이렇게 반전된 패치를 포함하는 병리 이미지를 이용하여 병리 이미지 분석 모델이 학습되는 경우, 병리 이미지 분석 모델은 새로운 유형의 병리 이미지에 대해서도 의미 있는 분석 결과를 출력하도록 학습될 수 있다.
또한, 프로세서는 패치 데이터베이스에 포함된 패치 중에서 적어도 하나의 패치를 추출하고, 추출된 패치에 포함된 픽셀들 중에서 미리 결정된 범위의 픽셀들을 제거하여 패치를 증강할 수 있다. 이렇게 의도적으로 픽셀들이 제거된 패치를 포함하는 병리 이미지를 이용하여 병리 이미지 분석 모델이 학습되는 경우, 병리 이미지 분석 모델은 아티팩트가 포함된 병리 이미지에 대해서도 정확한 분석 결과를 출력할 수 있다.
또한, 프로세서는 패치 데이터베이스에 포함된 패치 중에서 적어도 하나의 패치를 추출하고, 추출된 패치에 포함된 픽셀들 중에서 미리 결정된 범위의 픽셀들을 인위적으로 변형하여, 패치를 증강할 수 있다. 예컨대, 프로세서는 중앙값 필터(median-filter)를 이용하여 결정된 범위의 픽셀들에 흐림 효과(blurriness) 등을 적용하여 일부 픽셀들이 흐리게 되도록 하여, 해당 픽셀들을 변형할 수 있다. 다른 예로서, 프로세서는 가우시안 필터(gaussian-filter)를 이용하여, 결정된 범위의 픽셀들에 노이즈(noise)를 부가하여 일부 픽셀들을 변형할 수 있다. 이렇게 변형된 패치를 포함하는 병리 이미지를 이용하여 병리 이미지 분석 모델이 학습되는 경우, 스캐너 오류, 염색 오류 등에 대해서 강인한 병리 이미지 분석 모델이 구축될 수 있다.
또한, 프로세서는 패치 데이터베이스에 포함된 패치 중에서 적어도 하나의 패치를 추출하고, 추출된 패치에 포함된 픽셀들의 색상을 변환시킨 후, 변환된 색상을 포함하는 패치를 생성하여 패치를 증강할 수 있다. 예컨대, 프로세서는 색상 지터링 기법을 이용하여, 패치의 색조, 대비, 밝기 또는 채도 중 적어도 하나를 변경할 수 있다. 다른 예로서, 프로세서는 그레일스케일 기법을 이용하여, 패치의 색상을 변경할 수 있다. 패치의 색상을 변경하는 세부적인 설정 값은, 사용자에 의해 결정될 수 있다. 이렇게 색상이 변경된 패치를 포함하는 병리 이미지를 이용하여 병리 이미지 분석 모델이 학습되는 경우, 새로운 도메인의 병리 이미지가 입력되더라도 병리 이미지 분석 모델은 해당 병리 이미지에 대해서 유의미한 분석 결과를 출력할 수 있고, 더불어 이미지의 색상 보다는 세포 구조에 더 집중하여 병리 이미지 분석 모델이 학습되게 유도할 수 있다.
데이터 증강이 완료되고 나서, 프로세서는 증강된 적어도 하나의 패치 및 패치 데이터베이스에 포함된 패치의 일부 또는 전부 이용하여 학습용 데이터 세트를 생성할 수 있다(S840). 일 실시예에 따르면, 프로세서는 학습용 데이터 세트에 생성하는데 이용되는 각 유형의 패치 개수를 결정하고, 결정된 개수만큼의 유형별 패치를 패치 데이터베이스로부터 추출한 후, 추출된 유형별 패치 및 증강된 패치를 이용하여 학습용 데이터 세트를 생성할 수 있다. 다른 실시예에 따르면, 프로세서는 유형에 관계없이 패치 데이터베이스에 포함된 패치들 중에서, 소정 개수의 패치를 무작위로 추출하고, 추출된 패치들을 이용하여 학습용 데이터를 생성할 수 있다. 또 다른 실시예에 따르면, 프로세서는 패치 데이터베이스에 포함된 모든 패치들을 이용하여, 학습용 데이터 세트를 생성할 수 있다. 패치 데이터베이스에 포함된 패치들 중에서 일부만이 추출되어 학습용 데이터 세트가 생성되는 경우, 이를 미니-배치(mini-batch) 사이즈에 해당하는 학습용 데이터 세트인 것으로 지칭될 수 있다.
일 실시예에 따르면, 학습용 데이터 세트에 포함되는 개별 학습용 데이터는 적어도 하나의 패치를 포함할 수 있다. 또한, 개별 학습용 데이터는 서로 다른 유형의 패치가 포함될 수 있다. 추가적으로 또는 대안적으로, 개별 학습용 데이터에는 동일한 유형의 패치가 포함될 수 있다. 일부 실시예에 따르면 프로세서는 소정 크기의 학습용 병리 이미지를 생성하고, 이 병리 이미지에 적어도 하나의 패치를 무작위로 배치할 수 있다. 또한, 프로세서는 패치가 배치된 학습용 병리 이미지에서, 패치 이외에 영역에 무작위로 선택된 백그라운드 이미지를 삽입할 수 있다. 여기서, 백그라운드 이미지는 실제로 스캔된 병리 이미지로부터 추출될 수 있으며, 분석 시스템은 복수의 백그라운 이미지를 미리 저장할 수 있다. 이 경우, 프로세서는 복수의 백그라운드 이미지 중에서 어느 하나를 무작위로 선택하여 학습용 병리 이미지의 배경으로서 삽입할 수 있다.
이렇게 배경 이미지를 삽입하는 이유는, 병리 이미지 분석 모델이 병리 이미지로부터 세그먼테이션 작업을 수행할 수 있도록, 학습시키기 위함이다. 후술하는 바와 같이, 병리 이미지에 대한 세그먼테이션을 수행하는 제1 분석 모델이 병리 이미지 분석 모델에 포함된 경우, 제1 분석 모델에 패치와 배경 이미지가 모두 포함하는 학습용 병리 이미지가 입력되어, 제1 분석 모델에 대한 학습이 진행될 수 있다. 이러한 세그먼테이션 학습을 위해, 적어도 하나의 패치와 배경 이미지를 포함하는 병리 이미지가 생성될 수 있다.
상술한 바와 같이, 개별 학습용 데이터에는 학습용 병리 이미지가 포함되고, 더불어 레이블링된 적어도 하나의 패치가 포함될 수 있다. 또한, 개별 학습용 데이터에는 서로 연관된 이종 항목들이 포함될 수 있다.
도 9는 패치들이 샘플링되어 배치(940)가 생성되는 예시를 나타내는 도면이다. 도 9를 참조하면, 제1 도메인과 연관된 제1 병리 데이터 세트(910)에는 제1 유형의 병리 이미지들(912, 914)이 포함되고, 제2 도메인과 연관된 제2 병리 데이터 세트(920)에는 제2 유형의 병리 이미지들(922, 924)이 포함될 수 있다.
각각의 병리 이미지에는 레이블링된 패치가 포함될 수 있다. 도 9에서 패치는 '#'과 숫자로 조합된 사각형으로 표현되어 있다. 도 9 및 도 10에서 패치의 형상이 동일한 크기의 사각형으로 예시하고 있으나, 이는 설명의 편의를 위한 것일 뿐, 실제 각 병리 이미지에서 패치의 형상과 크기가 상이할 수 있다.
도 9에 예시된 바와 같이, 제1 병리 데이터 세트(910)에 포함된 패치들(#1-1 내지 #1-5)이 추출되어, 패치 데이터베이스(930)에 저장될 수 있다. 마찬가지로, 제2 병리 데이터 세트(920)에 포함된 패치들(#2-1 내지 #2-5)이 추출되어, 패치 데이터베이스(930)에 저장될 수 있다.
패치 데이터베이스(930)는 제1 유형의 패치들(#1-1 내지 #1-5)(932) 및 제2 유형의 패치들(#2-1 내지 #2-5)(934)을 저장할 수 있다. 프로세서는 패치 데이터베이스(930)에 포함된 제1 유형의 패치들(932)에 대한 샘플링 개수를 결정하고, 제2 유형의 패치들(934)에 대한 샘플링 개수를 결정한 후, 결정된 개수에 상응하는 각 유형의 패치들을 패치 데이터베이스(930)로부터 가져올(fetch) 수 있다. 각 유형에서 추출되는 샘플링 개수 또는 비율은 사용자에 의해 미리 설정될 수 있다. 예컨대, 제1 유형의 패치에 대한 샘플링 개수는 100개일 수 있고, 제2 유형의 패치에 대한 샘플링 개수는 50개일 수 있다.
프로세서는 패치 데이터베이스(930)로부터 추출한 패치를 이용하여, 미리 결정된 사이즈의 배치(batch)(940)를 생성할 수 있다. 이렇게 생성된 배치(940)는 학습용 데이터 세트의 일부 또는 전부를 구성할 수 있다. 이때, 프로세서는 패치 데이터베이스(930) 내의 패치들을 증강하여, 증강된 패치들(#3-1 내지 #3-6)을 포함하는 배치(940)를 생성할 수 있다.
도 10은 패치들이 샘플링되어 배치(1040)가 생성되는 다른 예시를 나타내는 도면이다. 도 10을 참조하면, 제1 도메인과 연관된 제1 병리 데이터 세트(1010)에는 제1 유형의 병리 이미지들(1012, 1014)이 포함하고, 제2 도메인과 연관된 제2 병리 데이터 세트(1020)에는 제2 유형의 병리 이미지들(1022, 1024)이 포함될 수 있다.
도 10에 예시된 바와 같이, 제1 병리 데이터 세트(1010)에 포함된 패치들(#1-1 내지 #1-5)가 추출되어, 패치 데이터베이스(1030)에 저장될 수 있다. 마찬가지로, 제2 병리 데이터 세트(1020)에 포함된 패치들(#2-1 내지 #2-3)가 추출되어, 패치 데이터베이스(1030)에 저장될 수 있다.
하지만, 제2 병리 데이터 세트(1020)로부터 추출된 패치(#2-1 내지 #2-3)의 개수가, 제1 병리 데이터 세트(1010)로부터 추출된 패치(#1-1 내지 #1-5)의 개수 보다 적은 경우, 제2 병리 데이터 세트(1020)로부터 추출된 패치(#2-1 내지 #2-3) 중에서 적어도 하나를 대상으로 패치 복사가 이루어질 수 있다. 예컨대, 제1 유형의 패치 개수와 제2 유형의 패치 개수가 동일하게 패치 데이터베이스(1030)에 저장되도록, 제1 유형의 패치 또는 제2 유형의 패치를 대상으로 패치 복사가 수행될 수 있다. 또한, 제1 유형의 패치 개수와 제2 유형의 패치 개수가 미리 결정된 비율이 되도록, 제1 유형의 패치 또는 제2 유형의 패치를 대상으로 패치 복사가 수행될 수 있다.
도 10에서는 #2-2의 패치와 #2-3의 패치를 대상으로 패치 복사가 이루어진 것으로 예시된다. 복사된 패치(#2-2, #2-3)는 패치 데이터베이스(1030)에 포함될 수 있다. 이러한 패치 복사가 수행됨에 따라, 각 유형의 패치 개수의 균형을 이루어 패치 데이터베이스(1030)에 저장될 수 있다.
프로세서는 패치 데이터베이스(1030)에 저장된 패치들(1032, 1034)을 소정의 개수만큼 무작위로 가져오고, 추출한 패치들을 이용하여 학습용 데이터 세트의 일부 또는 전부를 구성하는 배치(1040)를 생성할 수 있다. 다른 예로서, 프로세서는 패치 데이터베이스(1030)에 포함된 제1 유형의 패치들(1032)에 대한 샘플링 개수를 결정하고, 제2 유형의 패치들(1034)에 대한 샘플링 개수를 결정한 후, 결정된 개수에 상응하는 각 유형의 패치들을 패치 데이터베이스(1030)로부터 가져오고, 가져온 패치들을 이용하여 배치(1040)를 생성할 수 있다. 프로세서는 패치 데이터베이스(1030) 내의 패치들을 증강하여, 증강된 패치들((#3-1 내지 #3-6)을 포함하는 배치(1040)를 생성할 수 있다.
한편, 주석 정보를 포함하는 병리 이미지로부터 패치를 추출하는 작업을 수행하지 않고, 주석 정보를 포함하는 이종 병리 이미지들을 이용하여 학습용 데이터 세트를 생성할 수 있다. 구체적으로, 분석 시스템의 프로세서는 제1 병리 데이터 세트로부터 추출한 복수의 제1 유형의 병리 이미지 및 제2 병리 데이터 세트로부터 추출한 복수의 제2 유형의 병리 이미지에 기초하여, 학습용 데이터 세트를 생성할 수 있다. 이때, 분석 시스템의 프로세서는 추출한 제1 유형의 병리 이미지의 각각을 기초로 복수의 학습용 데이터를 생성할 수 있고, 제2 병리 데이터 세트에 포함된 제2 유형의 병리 이미지의 각각을 기초로 복수의 학습용 데이터를 생성할 수 있다.
일 실시예에 따르면, 프로세서는 제1 샘플링 개수와 상응하도록, 제1 병리 이미지 세트에서 복수의 제1 유형의 병리 이미지를 추출할 수 있고, 제2 샘플링 개수와 상응하도록, 제2 병리 이미지 세트에서 복수의 제2 유형의 병리 이미지를 추출할 수 있다. 또한, 프로세서는 제1 병리 이미지 또는 제2 병리 이미지 중 적어도 하나를 증강하여, 증강된 이미지를 포함하는 학습용 데이터 세트를 생성할 수 있다. 이미지 증강을 위한 방법으로서, 상술한 패치와 연관된 이미지 증강 방법이 이용될 수 있다.
한편, 특정 유형의 세포 또는 특정 염색 방법에 대해서 더욱 정확한 결과를 출력하기 위하여, 병리 이미지 분석 모델에는 추가 학습용 데이터 세트가 입력되어, 병리 이미지 분석 모델이 추가 학습되어 성능이 개선될 수 있다. 여기서 특정 염색 방법은, 기존의 염색 방법(예컨대, H&E 염색 방법) 또는 신규로 개발된 염색 방법일 수 있다. 예컨대, 특정 염색 방법을 통해서 염색된 복수 개의 병리 이미지를 포함하는 추가 학습용 데이터 세트가 준비되고, 이 추가 학습용 데이터 세트가 이용되어, 병리 이미지 분석 모델이 추가 학습될 수 있다. 이 경우, 특정 염색 방법에 더욱 민감하게 반응할 수 있도록 병리 이미지 분석 모델에 포함된 노드의 가중치가 조절될 수 있다.
도 11은 본 개시의 일 실시예에 따른, 병리 이미지 분석 모델을 통해서 병리 이미지의 분석 결과가 출력되는 것을 예시하는 도면이다. 도 11에 예시된 바와 같이, 다양한 유형의 병리 이미지(1110_1 내지 1110_3)가 병리 이미지 분석 모델(1120)에 입력될 수 있다. 여기서, 병리 이미지(1110_1 내지 1110_3)는 학습에 이용된 병리 이미지의 유형과 동일한 유형일 수 있고, 또는 새로운 바이오마커를 통해서 획득된 병리 이미지일 수 있다. 즉, 병리 이미지(1110_1 내지 1110_3)와 연관된 도메인은 병리 이미지 분석 모델(1120)에서 학습된 도메인과 동일한 도메인이거나 상이한 도메인일 수 있다.
병리 이미지 분석 모델(1120)은 병리 이미지(1110_1 내지 1110_3)에 대한 분석 결과(1130)를 출력할 수 있다. 여기서, 분석 결과(1130)는 병리 이미지(1110_1 내지 1110_3)로부터 추출된, 오브젝트별 클래스를 포함할 수 있다. 여기서, 오브젝트 클래스는 세포 종류 및/또는 평가 지표를 포함하고, 평가 지표는 양성 유무, 발현 등급, 발현 값 또는 발현 통계 정보 중 적어도 하나를 포함할 수 있다. 또한, 분석 결과(1130)는 병리 이미지(1110_1 내지 1110_3)에 대한 세그먼테이션 결과일 수 있다. 즉, 분석 결과(1130)는, 병리 이미지(1110_1 내지 1110_3)로부터 식별된 적어도 하나의 조직 및 조직의 종류를 포함할 수 있다.
도 12는 본 개시의 일 실시예에 따른, 병리 이미지 분석 모델에 포함된 인공신경망 모델(1200)을 예시하는 도면이다. 인공신경망 모델(1200)은, 기계학습 모델의 일 예로서, 기계학습(Machine Learning) 기술과 인지과학에서, 생물학적 신경망의 구조에 기초하여 구현된 통계학적 학습 알고리즘 또는 그 알고리즘을 실행하는 구조이다.
일 실시예에 따르면, 인공신경망 모델(1200)은, 생물학적 신경망에서와 같이 시냅스의 결합으로 네트워크를 형성한 인공 뉴런인 노드(Node)들이 시냅스의 가중치를 반복적으로 조정하여, 특정 입력에 대응한 올바른 출력과 추론된 출력 사이의 오차가 감소되도록 학습함으로써, 문제 해결 능력을 가지는 기계학습 모델을 나타낼 수 있다. 예를 들어, 인공신경망 모델(1200)은 기계학습, 딥러닝 등의 인공지능 학습법에 사용되는 임의의 확률 모델, 뉴럴 네트워크 모델 등을 포함할 수 있다.
상술한 병리 이미지 분석 모델은 인공신경망 모델(1200)의 형태로 구현될 수 있다. 일 실시예에 따르면, 인공신경망 모델(1200)은 주석 정보를 포함하는 하나 이상의 병리 이미지를 수신하고, 수신된 하나 이상의 병리 이미지에서 염색으로 발현된 오브젝트를 검출하도록 학습될 수 있다. 예를 들어, 인공신경망 모델(1200)은 하나 이상의 병리 이미지 내의 각각의 영역에 대하여, 각각의 영역이 정상 영역 또는 이상 영역에 해당하는지 여부를 판정하는 분류 기능(즉, 분류기의 기능)을 수행할 수 있도록 학습될 수 있다. 다른 예에서, 인공신경망 모델(1200)은 하나 이상의 병리 이미지 내의 이상 영역에 포함된 픽셀에 대한 레이블링을 수행하는 세그먼테이션 기능을 수행할 수 있도록 학습될 수 있다. 이때, 인공신경망 모델(1200)은 이상 영역과 연관된 오브젝트에 대한 평가 지표를 판정하여 오브젝트에 레이블링할 수 있다.
인공신경망 모델(1200)은 다층의 노드들과 이들 사이의 연결로 구성된 다층 퍼셉트론(MLP: multilayer perceptron)으로 구현될 수 있다. 본 실시예에 따른 인공신경망 모델(1200)은 MLP를 포함하는 다양한 인공신경망 모델 구조들 중의 하나를 이용하여 구현될 수 있다. 인공신경망 모델(1200)은, 외부로부터 입력 신호 또는 데이터를 수신하는 입력층, 입력 데이터에 대응한 출력 신호 또는 데이터를 출력하는 출력층, 입력층과 출력층 사이에 위치하며 입력층으로부터 신호를 받아 특성을 추출하여 출력층으로 전달하는 n개(여기서, n은 양의 정수)의 은닉층으로 구성된다.
인공신경망 모델(1200)의 입력층과 출력층에 복수의 입력변수와 대응되는 복수의 출력변수가 각각 매칭되고, 입력층, 은닉층 및 출력층에 포함된 노드들 사이의 시냅스 값이 조정됨으로써, 특정 입력에 대응한 올바른 출력이 추출될 수 있도록 학습될 수 있다. 학습용 데이터 세트에 포함된 데이터를 기초로 인공신경망 모델(1200)이 반복적으로 학습되면, 입력변수에 기초하여 계산된 출력변수와 목표 출력 간의 오차가 줄어들도록 인공신경망 모델(1200)의 노드들 사이의 시냅스 값(또는 가중치)를 조정되어, 최적의 값으로 수렴될 수 있다.
상술한 바와 같이, 병리 이미지 분석 모델에 대해서 충분한 양의 학습이 수행되면, 주석 정보가 입력되지 않은(즉, 레이블링되지 않은) 병리 이미지에 대해서도, 병리 전문가 수준에 해당하는 분석 결과가 병리 이미지 분석 모델을 통해서 출력될 수 있다.
도 13은 본 개시의 일 실시예에 따른, 병리 이미지 분석 모델을 이용하여 병리 이미지에 대한 분석 결과를 출력하는 방법(1300)을 설명하는 흐름도이다. 도 13에 도시된 방법은, 본 개시의 목적을 달성하기 위한 일 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다. 또한, 도 13에 도시된 방법은, 도 5에 도시된 분석 시스템에 포함된 적어도 하나의 프로세서에 의해서 수행될 수 있다. 설명의 편의를 위해서 도 5에 도시된 분석 시스템에 포함된 프로세서에 의해서, 도 13에 도시된 각 단계가 수행되는 것으로 설명하기로 한다.
도 13을 참조하면, 프로세서는 병리 이미지를 획득할 수 있다(S1310). 일 실시예에 따르면, 프로세서는 스캐너로부터 전송된 병리 이미지를 획득하거나, 외부 저장소, 서버, 또는 이미지 관리 시스템으로부터 병리 이미지를 획득할 수 있다.
이어서, 프로세서는 병리 이미지를 병리 이미지 분석 모델에 입력하고, 병리 이미지 분석 모델로부터 출력되는 병리 이미지에 대한 분석 결과를 획득할 수 있다(S1320). 일 실시예에 따르면, 분석 결과는 병리 이미지로부터 식별된 오브젝트(즉, 오브젝트에 대응되는 영역 내에 포함되는 픽셀 범위)와 오브젝트 클래스를 포함할 수 있다. 여기서, 오브젝트 클래스는 세포 또는 조직의 종류 및/또는 평가 지표를 포함하고, 평가 지표는 양성 유무, 발현 등급, 발현 값 또는 발현 통계 정보 중 적어도 하나를 포함할 수 있다.
그 후, 프로세서는 획득된 분석 결과를 출력할 수 있다(S1330). 예컨대, 프로세서는 분석 결과를 모니터와 같은 디스플레이 장치에 출력할 수 있다. 다른 예로서, 프로세서는 분석 결과를 의뢰인의 단말로 전송하여, 의뢰인의 단말을 통해 출력되게 할 수 있다. 일 실시예에 따르면, 프로세서는 획득된 분석 결과를 리포트 형태로 출력할 수 있다.
한편, 병리 이미지 분석 모델은 각기 다른 유형의 분석 결과를 출력하는 복수의 분석 모델을 포함할 수 있다.
도 14는 본 개시의 다른 실시예에 따른, 병리 이미지 분석 모델(1400)을 예시하는 도면이다. 도 14에 예시된 바와 같이, 병리 이미지 분석 모델(1400)은, 각기 다른 유형의 병리 이미지를 분석하도록 사전에 학습되어, 서로 다른 유형의 분석 결과를 출력하는 복수의 분석 모델(1410 내지 1440)을 포함할 수 있다. 가령, 병리 이미지 분석 모델(1400)은, 입력된 병리 이미지에 대한 세그먼테이션 결과를 출력하는 제1 분석 모델(1410), 병리 이미지에 포함된 세포막의 염색 강도를 분석하여 분석 결과를 출력하는 제2 분석 모델(1420), 세포핵의 염색 강도를 분석하여 분석 결과를 출력하는 제3 분석 모델(1430) 및 세포핵 및/또는 세포막의 형태학적 특성을 분석하여 분석 결과를 출력하는 제4 분석 모델(1440)을 포함할 수 있다.
이렇게 복수의 분석 모델이 병리 이미지 분석 모델(1400)에 포함되는 경우, 분석 모델(1410 내지 1440)의 각각은 서로 상이한 특성을 가지는 병리 이미지를 포함하는 학습용 데이터 세트를 기초로 학습될 수 있다. 여기서, 특성은 염색 색상, 염색 대상의 유형 또는 염색 방식 중 적어도 하나를 포함할 수 있다.
예컨대, 제1 분석 모델(1410)은 타깃 학습용 데이터를 입력받고, 이 타깃 학습용 데이터에 포함된 병리 이미지로부터 이상 영역(즉, 패치와 관련된 오브젝트)을 세그먼테이션하도록 학습될 수 있다. 즉, 제1 분석 모델(1410)은 병리 이미지에서 염색이 발현된 위치 영역(즉, 오브젝트)을 추출하도록 학습될 수 있다. 이 경우, 제1 분석 모델(1410)에 병리 이미지가 입력되어 적어도 하나의 패치가 제1 분석 모델(1410)로부터 출력될 수 있다. 또한, 제1 분석 모델(1410)로부터 출력된 패치에 해당하는 영역과 주석 정보에 포함된 이상 영역 간의 손실 값이 산출되고, 손실 값이 제1 분석 모델(1410)에 피드백되어, 제1 분석 모델(1410)이 학습될 수 있다.
다른 예로서, 제2 분석 모델(1420)은 세포막이 갈색으로 염색된 병리 이미지를 포함하는 타깃 학습용 데이터를 입력 받아, 병리 이미지에 포함된 패치에 대한 염색 강도를 분석하도록 학습될 수 있다. 이 경우, 갈색으로 염색된 세포막이 패치로서 설정된 병리 이미지가 제2 분석 모델(1420)에 입력되어, 세포막에 대한 염색 강도의 분석 결과가 제2 분석 모델(1420)로부터 출력될 수 있다. 또한, 타깃 학습용 데이터에 포함된 패치의 레이블링 정보로부터 평가 지표가 추출되고, 평가 지표와 제2 분석 모델(1420)로부터 출력된 분석 결과 간의 손실 값이 산출된 후, 손실 값이 제2 분석 모델(1420)에 피드백되어, 제2 분석 모델(1420)이 학습될 수 있다.
또 다른 예로서, 제3 분석 모델(1430)은 세포핵이 청색으로 염색된 병리 이미지를 포함하는 타깃 학습용 데이터를 입력 받아, 병리 이미지에 포함된 패치에 대한 염색 강도를 분석하도록 학습될 수 있다. 이 경우, 청색으로 염색된 세포핵이 패치로서 설정된 병리 이미지가 제3 분석 모델(1430)로 입력되고, 세포핵에 대한 염색 강도의 분석 결과가 제3 분석 모델(1430)로부터 출력될 수 있다. 또한, 타깃 학습용 데이터에 포함된 패치의 레이블링 정보로부터 평가 지표가 레퍼런스 값으로서 추출되고, 제3 분석 모델(1430)로부터 출력된 분석 결과와 평가 지표 간의 손실 값이 산출된 후, 손실 값이 제3 분석 모델(1430)에 피드백되어, 제3 분석 모델(1430)이 학습될 수 있다.
또 다른 예로서, 제4 분석 모델(1440)은 세포핵 및 세포막이 분홍색으로 염색된 병리 이미지를 포함하는 타깃 학습용 데이터를 입력 받아, 병리 이미지에 포함된 세포핵 및/또는 세포막의 형태학적 특성 및/또는 색상 분포를 분석하도록 학습될 수 있다. 이 경우, 분홍색으로 염색된 세포핵 및 세포막 각각이 패치로서 설정된 병리 이미지가 제4 분석 모델(1440)으로 입력되어, 세포핵 및/또는 세포막에 대한 형태학적 특성 및/또는 색상 분포를 포함하는 분석 결과가 제4 분석 모델(1440)로부터 출력될 수 있다. 또한, 타깃 학습용 데이터에 포함된 패치의 레이블링 정보로부터 세포핵 및/또는 세포막의 형태학적 특성 및/또는 색상 분포가 레퍼런스 값으로서 획득되고, 레퍼런스 값과 분석 결과에 포함된 형태학적 특성 및/또는 색상 분포 손실 값이 산출될 수 있다. 산출된 손실 값은 제4 분석 모델(1440)로 피드백되어, 제4 분석 모델(1440)이 학습될 수 있다.
병리 이미지의 특성 정보에 기초하여, 병리 이미지 분석 모델(1400)에 포함된 복수의 분석 모델(1410 내지 1440) 중에서 하나 이상이 호출될 수 있다.
도 15는 본 개시의 다른 실시예에 따른, 병리 이미지(1510)의 특성에 기초하여 호출된 분석 모델을 통해 병리 이미지에 대한 분석 결과(1520)가 출력되는 것을 예시하는 도면이다. 도 15에 예시된 바와 같이, 병리 이미지(1510)의 특성을 추출하기 위한, 특성 추출 모델(1500)이 병리 이미지 분석 모델(1400)과 결합될 수 있다. 일부 실시예에서는, 특성 추출 모델(1500)이 병리 이미지 분석 모델(1400)에 포함될 수 있다.
본 실시예에 따르면, 특성 추출 모델(1500)은 병리 이미지에 포함된 염색 색상과 색상의 발현 위치를 특성으로서 추출할 수 있다. 여기서, 염색 색상의 발현 위치는 세포막, 세포핵 또는 세포질 중 적어도 하나일 수 있다. 다른 실시예에서, 특성 추출 모델(1500)은 병리 이미지의 특성으로서, 장기, 암종, 염색 방식 등을 추출할 수 있다. 예컨대, 특성 추출 모델(1500)은 미리 저장된 장기 패턴, 암종 패턴 또는 염색 방식 패턴 중 적어도 하나를 저장하고, 병리 이미지에 나타나는 패턴과 장기 패턴/암종 패턴/염색 방식 패턴을 비교하여, 병리 이미지로부터 특성을 추출할 수 있다. 다른 예로서, 특성 추출 모델(1500)은 기계학습 모델로 구현되어, 병리 이미지와 연관된 장기, 병리 이미지에 포함된 암종 또는 병리 이미지의 염색 방식 중 적어도 병리 이미지로부터 추출할 수 있도록 학습될 수 있다.
도 15을 참조하면, 병리 이미지(1510)가 획득되고, 병리 이미지(1510)가 특성 추출 모델(1500) 및 병리 이미지 분석 모델(1400) 각각으로 입력될 수 있다. 여기서, 병리 이미지(1510)는 레이블링되지 않은 병리 이미지일 수 있다. 또한, 병리 이미지는 신약 또는 새로운 염색 방식과 연관된 병리 이미지일 수 있다.
특성 추출 모델(1500)은 병리 이미지에 대한 특성을 추출하고, 추출된 병리 이미지의 특성을 병리 이미지 분석 모델(1400)로 제공할 수 있다. 일 실시예에 따르면, 특성 추출 모델(1500)은 염색 색상, 장기, 암종 또는 염색 방식 중 적어도 하나를, 병리 이미지(1510)의 특성으로서 추출할 수 있다.
병리 이미지 분석 모델(1400)은 제1 분석 모델(1410)을 호출한 후, 병리 이미지(1510)를 제1 분석 모델(1410)에 입력하여 병리 이미지에 포함된 이상 영역과 관련된 적어도 하나의 오브젝트에 대한 세그먼테이션을 수행할 수 있다. 또한, 병리 이미지 분석 모델(1400)은, 특성 추출 모델(1500)로부터 제공된 병리 이미지에 특성에 기초하여, 서로 다른 유형의 분석 결과를 출력하는 복수의 분석 모델(1420 내지 1440) 중에서 어느 하나를 호출하고, 호출된 분석 모델(1420, 1430 또는 1440)로부터 병리 이미지에 대한 분석 결과(1520)를 획득할 수 있다. 이때, 병리 이미지 분석 모델(1400)은 제1 분석 모델(1410)을 통해서 세그먼테이션된 병리 이미지를 호출된 분석 모델(1420, 1430 또는 1440)로 입력할 수 있다.
병리 이미지의 특성에는 염색 색상 및/또는 염색 색상의 발현 위치(예컨대, 세포막/세포질/세포핵)가 포함될 수 있다. 이 경우, 병리 이미지 분석 모델(1400)은, 병리 이미지의 특성에 기초하여 복수의 분석 모델(1420 내지 1440) 중에서 어느 하나를 타깃 분석 모델로 결정하여 호출할 수 있다. 예컨대, 발현 위치가 세포막이고 염색 색상이 갈색을 포함하는 제1 특성이 특성 추출 모델(1500)로부터 제공된 경우, 병리 이미지 분석 모델(1400)은 제2 분석 모델(1420)을 타깃 분석 모델로 결정하여 호출하고, 제2 분석 모델(1420)로 세그먼테이션된 병리 이미지를 입력할 수 있다. 이 경우, 제2 분석 모델(1420)은 병리 이미지에서 세그먼테이션된 영역(즉, 오브젝트)에서 세포막이 갈색으로 발현된 염색 강도를 분석하고, 이 분석 결과(1520)를 출력할 수 있다.
다른 예로서, 발현 위치가 세포핵이고 염색 색상이 청색을 포함하는 제2 특성이 특성 추출 모델(1500)로부터 제공된 경우, 병리 이미지 분석 모델(1400)은 제3 분석 모델(1430)을 타깃 분석 모델로 결정하여 호출하고, 제3 분석 모델(1430)로 세그먼테이션된 병리 이미지를 입력할 수 있다. 이 경우, 제3 분석 모델(1430)은 병리 이미지에서 세그먼테이션된 영역에서 세포핵이 청색으로 발현된 염색 강도를 분석하고, 이 분석 결과(1520)를 출력할 수 있다.
다른 예로서, 발현 위치가 세포핵과 세포막이고 염색 색상이 분홍색을 포함하는 제3 특성이 특성 추출 모델(1500)로부터 제공된 경우, 병리 이미지 분석 모델(1400)은 제4 분석 모델(1440)을 타깃 분석 모델로 결정하여 호출하고, 제4 분석 모델(1440)로 세그먼테이션된 병리 이미지를 입력할 수 있다. 이 경우, 제4 분석 모델(1440)은 병리 이미지에서 세그먼테이션된 각 영역에서 세포핵과 세포막 각각이 분홍색으로 발현된 분포 및/또는 형태학적 특성을 분석하여 출력할 수 있다. 여기서, 형태학적 특성은, 특정 질병과 관련성을 의미할 수 있다.
한편, 병리 이미지의 특성이 사용자로부터 수신될 수 있다. 즉, 분석 시스템은 병리 이미지의 특성을 포함하는 사용자의 입력 정보를 수신할 수 있다. 이 경우, 사용자가 입력한 병리 이미지의 특성에 기초하여, 호출되는 분석 모델이 결정될 수 있다.
도 16은 본 개시의 또 다른 실시예에 따른, 사용자의 입력 정보에 기초하여 호출된 분석 모델을 통해 병리 이미지(1610)에 대한 분석 결과(1630)가 출력되는 것을 예시하는 도면이다. 도 16에 예시된 바와 같이, 병리 이미지 분석 모델(1400)은 병리 이미지(1610)의 특성을 포함하는 사용자의 입력 정보(1620)를 획득할 수 있다. 병리 이미지 분석 모델(1400)은 제1 분석 모델(1410)을 호출한 후, 병리 이미지(1610)를 제1 분석 모델(1410)에 입력하여 병리 이미지에 포함된 이상 영역과 관련된 오브젝트에 대한 세그먼테이션을 수행할 수 있다.
또한, 병리 이미지 분석 모델(1400)은, 사용자의 입력 정보(1620)에 포함된 병리 이미지의 특성에 기초하여, 복수의 분석 모델 중에서 호출되는 타깃 분석 모델을 결정할 수 있다. 사용자의 입력 정보(1620)에는 염색 색상 및/또는 염색 색상의 발현 위치(예컨대, 세포막/세포질/세포핵)가 포함될 수 있다. 추가적으로 또는 대안적으로, 사용자 입력 정보(1620)에는 장기, 암종 또는 염색 방식 중 적어도 하나를 포함할 수 있다.
병리 이미지 분석 모델(1400)은, 사용자의 입력 정보(1620)에 포함된 특성에 기초하여 복수의 분석 모델(1420 내지 1440) 중에서 어느 하나를 타깃 분석 모델로 결정하여 호출할 수 있다. 예컨대, 사용자의 입력 정보(1620)에 제1 염색 방식이 포함된 경우, 병리 이미지 분석 모델(1400)은 제2 분석 모델(1420)을 타깃 분석 모델로 결정하여 호출하고, 제2 분석 모델(1420)로 세그먼테이션된 병리 이미지를 입력할 수 있다. 이 경우, 제2 분석 모델(1420)은 병리 이미지에서 세그먼테이션된 영역에서 제1 염색 방식으로 발현된 염색 강도를 분석하고, 이 분석 결과(1630)를 출력할 수 있다.
다른 예로서, 사용자의 입력 정보(1620)에 제2 염색 방식이 포함된 경우, 병리 이미지 분석 모델(1400)은 제3 분석 모델(1430)을 타깃 분석 모델로 결정하여 호출하고, 제3 분석 모델(1430)로 세그먼테이션된 병리 이미지를 입력할 수 있다. 이 경우, 제2 분석 모델(1430)은 병리 이미지에서 세그먼테이션된 영역에서 제2 염색 방식으로 발현된 염색 강도를 분석하고, 이 분석 결과(1630)를 출력할 수 있다.
또 다른 예로서, 사용자의 입력 정보(1620)에 제3 염색 방식이 포함된 경우, 병리 이미지 분석 모델(1400)은 제4 분석 모델(1440)을 타깃 분석 모델로 결정하여 호출하고, 제4 분석 모델(1440)로 세그먼테이션된 병리 이미지를 입력할 수 있다. 이 경우, 제4 분석 모델(1440)은 병리 이미지에서 세그먼테이션된 영역에서 제3 염색 방식에 의해 발현된 색상에 대한 분포 및/또는 형태학적 특성을 포함하는 분석 결과(1630)를 출력할 수 있다
상술한 바와 같이, 복수의 분석 모델(1410 내지 1440)이 병리 이미지 분석 모델(1400)에 포함된 경우, 병리 이미지 분석 모델(1400)은 다양한 염색 방식에 따라 염색된 다양한 세포에 대해서, 적절한 분석 결과를 출력할 수 있다. 이에 따라, 본 개시에 따른 병리 이미지 분석 모델(1400)은 범용적으로 적용되어, 다양한 환경에서 사용될 수 있다.
이하, 도 17 내지 도 20을 참조하여, 병리 이미지 분석 모델(1400)을 통해서, 출력되는 다양한 형태의 분석 결과에 대해서 설명한다.
도 17 내지 도 20은 병리 이미지 분석 모델(1400)로부터 출력되는 다양한 형태의 분석 결과를 예시하는 도면이다. 도 17 내지 도 20에서는, 병리 이미지 내에서 식별되는 적어도 하나의 객체(예를 들면, 세포, 조직, 또는 구조)가 타원인 것으로 예시하고 있다.
도 17에 예시된 바와 같이, 병리 이미지 분석 모델(1400)은 복수의 병리 이미지들(1710)을 입력받고, 각 병리 이미지들(1710)에 포함된 객체의 염색 발현 여부를 양성 또는 음성으로 판정한 후, 판정된 결과(1720, 1730)를 출력할 수 있다. 여기서, 양성은 염색의 타깃이 되는 단백질이 객체 상에 존재한다는 것을 의미하고, 음성은 염색의 타깃이 되는 단백질이 객체 상에 존재하지 않는다는 것을 의미할 수 있다. 도 17에서는 양성으로 판정된 병리 이미지(1720)와 음성으로 판정된 병리 이미지(1730)가 구분되어 출력되는 것으로 예시하고 있다.
도 18에 예시된 바와 같이, 병리 이미지 분석 모델(1400)은 복수의 병리 이미지들(1810)을 입력받고, 각 병리 이미지들(1810)에 포함된 적어도 하나의 객체에 대한 염색 발현 등급을 판정하고, 판정된 발현 등급(1820 내지 1850)을 포함하는 분석 결과를 출력할 수 있다. 도 18에서는 class 3+이 가장 강하게 발현된 객체이고, class 0이 가장 약하게 발현된 객체임을 예시하고 있다. Class 0은, 염색의 타깃이 되는 단백질이 객체 상에 존재하지 않는다는 것을 의미할 수 있다
도 19에 예시된 바와 같이, 병리 이미지 분석 모델(1400)은 복수의 병리 이미지들(1910)을 입력받고, 각 병리 이미지들(1910)에 포함된 객체의 발현 값을 소정의 범위(예컨대, 0 부터 1)에 포함된 숫자로서 수치화한 후, 객체별 발현 값(1920 내지 1950)을 포함하는 분석 결과를 출력할 수 있다. 도 19에서는 1에 가까운 발현 값일수록 염색 발현 정도가 가장 것으로 예시되어 있다.
도 20에 예시된 바와 같이, 병리 이미지 분석 모델(1400)은 복수의 병리 이미지들(2010)을 입력받고, 각 병리 이미지들에 포함된 객체의 발현 통계 정보를 포함하는 분석 결과(2020)를 출력할 수 있다. 도 20에서는 세포핵의 양성 유무/등급/발현 값의 분포에 대한 통계 정보 및 세포막의 양성 유무/등급 /발현 값의 분포에 대한 통계 정보를 포함하는 분석 결과(2020)를 예시하고 있다. 이외에도 다양한 세포, 조직, 또는 구조에 대한 통계 정보가 병리 이미지 분석 모델(1400)을 통해서 출력될 수 있다.
도 21은 본 개시의 일 실시예에 따른 병리 이미지를 분석하는 예시적인 시스템 구성도이다. 도 21의 정보 처리 시스템(2100)은 도 5에서 도시한 분석 시스템(510)의 일 예시일 수 있다. 도시된 바와 같이, 정보 처리 시스템(2100)은 하나 이상의 프로세서(2120), 버스(2110), 통신 인터페이스(2130), 프로세서(2120)에 의해 수행되는 컴퓨터 프로그램(2150)을 로드(load)하는 메모리(2140)를 포함할 수 있다. 다만, 도 21에는 본 개시의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 개시가 속한 기술분야의 통상의 기술자라면 도 21에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.
프로세서(2120)는 정보 처리 시스템(2100)의 각 구성의 전반적인 동작을 제어한다. 본 개시의 프로세서(2120)는 복수의 프로세서로 구성될 수 있다. 프로세서(2120)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit), FPGA(Field Programmable Gate Array), 본 개시의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 두 개의 프로세서를 포함하여 구성될 수 있다. 또한, 프로세서(2120)는 본 개시의 실시예들에 따른 방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다.
메모리(2140)는 각종 데이터, 명령 및/또는 정보를 저장할 수 있다. 메모리(2140)는 본 개시의 다양한 실시예들에 따른 방법/동작을 실행하기 위하여 하나 이상의 컴퓨터 프로그램(2150)을 로드할 수 있다. 메모리(2140)는 RAM과 같은 휘발성 메모리로 구현될 수 있으나, 본 개시의 기술적 범위는 이에 한정되지 아니한다. 예를 들어, 메모리(2140)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 개시가 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.
버스(2110)는 정보 처리 시스템의 구성 요소 간 통신 기능을 제공할 수 있다. 버스(2110)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.
통신 인터페이스(2130)는 정보 처리 시스템의 유무선 인터넷 통신을 지원할 수 있다. 또한, 통신 인터페이스(2130)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(2130)는 본 개시의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.
컴퓨터 프로그램(2150)은 프로세서(2120)로 하여금 본 개시의 다양한 실시예들에 따른 동작/방법을 수행하도록 하는 하나 이상의 인스트럭션들(instructions)을 포함할 수 있다. 즉, 프로세서(2120)는 하나 이상의 인스트럭션들을 실행함으로써, 본 개시의 다양한 실시예들에 따른 동작/방법들을 수행할 수 있다. 예를 들어, 컴퓨터 프로그램(2150)은 병리 이미지를 획득하는 동작, 획득된 병리 이미지를 기계학습 모델에 입력하여, 기계학습 모델로부터 병리 이미지에 대한 분석 결과를 획득하는 동작 및 획득된 분석 결과를 출력하기 동작 등을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 일 실시예에 따르면, 기계학습 모델은 제1 도메인과 연관된 제1 병리 데이터 세트 및 제1 도메인과 상이한 제2 도메인과 연관된 제2 병리 데이터 세트에 기초하여 생성된 학습용 데이터 세트를 이용하여 학습된 모델일 수 있다. 이와 같은 경우, 정보 처리 시스템(2100)을 통해 본 개시의 몇몇 실시예들에 따라 병리 이미지를 분석하기 위한 시스템이 구현될 수 있다.
본 개시의 앞선 설명은 통상의 기술자들이 본 개시를 행하거나 이용하는 것을 가능하게 하기 위해 제공된다. 본 개시의 다양한 수정예들이 통상의 기술자들에게 쉽게 자명할 것이고, 본원에 정의된 일반적인 원리들은 본 개시의 취지 또는 범위를 벗어나지 않으면서 다양한 변형예들에 적용될 수도 있다. 따라서, 본 개시는 본원에 설명된 예들에 제한되도록 의도된 것이 아니고, 본원에 개시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위가 부여되도록 의도된다.
비록 예시적인 구현예들이 하나 이상의 독립형 컴퓨터 시스템의 맥락에서 현재 개시된 주제의 양태들을 활용하는 것을 언급할 수도 있으나, 본 주제는 그렇게 제한되지 않고, 오히려 네트워크나 분산 컴퓨팅 환경과 같은 임의의 컴퓨팅 환경과 연계하여 구현될 수도 있다. 또 나아가, 현재 개시된 주제의 양상들은 복수의 프로세싱 칩들이나 디바이스들에서 또는 그들에 걸쳐 구현될 수도 있고, 스토리지는 복수의 디바이스들에 걸쳐 유사하게 영향을 받게 될 수도 있다. 이러한 디바이스들은 PC들, 네트워크 서버들, 및 핸드헬드 디바이스들을 포함할 수도 있다.
본 명세서에서는 본 개시가 일부 실시예들과 관련하여 설명되었지만, 본 개시가 속하는 기술분야의 통상의 기술자가 이해할 수 있는 본 개시의 범위를 벗어나지 않는 범위에서 다양한 변형 및 변경이 이루어질 수 있다는 점을 알아야 할 것이다. 또한, 그러한 변형 및 변경은 본 명세서에서 첨부된 특허 청구의 범위 내에 속하는 것으로 생각되어야 한다.

Claims (19)

  1. 적어도 하나의 프로세서에 의해서 수행되는, 병리 이미지 분석 방법에 있어서,
    병리 이미지를 획득하는 단계;
    상기 획득된 병리 이미지를 기계학습 모델에 입력하여, 상기 기계학습 모델로부터 상기 병리 이미지에 대한 분석 결과를 획득하는 단계; 및
    상기 획득된 분석 결과를 출력하는 단계
    를 포함하고,
    상기 기계학습 모델은 제1 도메인과 연관된 제1 병리 데이터 세트 및 제1 도메인과 상이한 제2 도메인과 연관된 제2 병리 데이터 세트에 기초하여 생성된 학습용 데이터 세트를 이용하여 학습된 모델인,
    병리 이미지 분석 방법.
  2. 제1항에 있어서,
    상기 병리 이미지를 획득하는 단계 이전에,
    제1 유형의 병리 이미지를 포함하는 상기 제1 병리 데이터 세트 및 제2 유형의 병리 이미지를 포함하는 상기 제2 병리 데이터 세트를 획득하는 단계;
    상기 제1 병리 데이터 세트와 상기 제2 병리 데이터 세트에 기초하여 상기 학습용 데이터 세트를 생성하는 단계; 및
    상기 생성된 학습용 데이터 세트를 이용하여 상기 기계학습 모델을 학습시키는 단계
    를 더 포함하는, 병리 이미지 분석 방법.
  3. 제2항에 있어서,
    상기 학습용 데이터 세트를 생성하는 단계는,
    염색 발현 등급 또는 관심 영역 중 적어도 하나에 기초하여, 상기 제1 유형의 병리 이미지와 연관된 항목과 상기 제2 유형의 병리 이미지와 연관된 항목을 연관하는 단계; 및
    상기 연관된 항목을 포함하는 학습용 데이터 세트를 생성하는 단계
    를 포함하는, 병리 이미지 분석 방법.
  4. 제3항에 있어서,
    상기 항목을 연관하는 단계는,
    상기 제1 유형의 병리 이미지에 포함된 종양 조직 영역과 연관된 제1 항목 및 상기 제1 유형의 병리 이미지에 포함된 비종양 조직 영역과 연관된 제2 항목을 추출하는 단계;
    상기 제2 유형의 병리 이미지에 포함된 종양 조직 영역과 연관된 제3 항목 및 상기 제2 유형의 병리 이미지에 포함된 비종양 조직 영역과 연관된 제4 항목을 추출하는 단계; 및
    상기 추출된 제1 항목과 상기 추출된 제3 항목을 연관하고, 상기 추출된 제2 항목과 상기 추출된 제4 항목을 연관하는 단계
    를 포함하는, 병리 이미지 분석 방법.
  5. 제3항에 있어서,
    상기 항목을 연관하는 단계는,
    상기 제1 유형의 병리 이미지에 포함된 픽셀들의 각각의 염색 발현 강도를 나타내는 항목들 중에서, 제1 발현 범위와 연관된 제5 항목 및 제2 발현 범위와 연관된 제6 항목을 추출하는 단계;
    상기 제2 병리 데이터 세트에 포함된 픽셀들의 각각의 염색 발현 강도를 나타내는 항목들 중에서, 상기 제1 발현 범위와 연관된 제7 항목 및 상기 제2 발현 범위와 연관된 제8 항목을 식별하는 단계; 및
    상기 제5 항목과 상기 제7 항목을 연관하고, 상기 제6 항목과 상기 제8 항목을 연관하는 단계
    를 포함하는, 병리 이미지 분석 방법.
  6. 제3항에 있어서,
    상기 항목을 연관하는 단계는,
    상기 제1 유형의 병리 이미지에 포함된 세포의 유형을 나타내는 적어도 하나의 오브젝트 클래스와 상기 제2 유형의 병리 이미지에 포함된 세포의 유형을 나타내는 적어도 하나의 오브젝트 클래스를 연관하는 단계; 또는
    상기 제1 유형의 병리 이미지에 포함된 세포의 염색 발현 강도를 나타내는 적어도 하나의 오브젝트 클래스와 상기 제2 유형의 병리 이미지에 포함된 세포의 염색 발현 강도를 나타내는 적어도 하나의 오브젝트 클래스를 연관하는 단계를 포함하는, 병리 이미지 분석 방법.
  7. 제2항에 있어서,
    상기 제1 병리 데이터 세트와 상기 제2 병리 데이터 세트에 기초하여 상기 학습용 데이터 세트를 생성하는 단계는,
    상기 제1 병리 데이터 세트와 상기 제2 병리 데이터 세트로부터 패치들을 추출하는 단계; 및
    상기 패치들을 포함하는 상기 학습용 데이터 세트를 생성하는 단계를 포함하고,
    상기 생성된 학습용 데이터 세트를 이용하여 상기 기계학습 모델을 학습시키는 단계는,
    상기 제1 병리 데이터 세트로부터 추출된 레이블링된 패치들 중에서 제1 샘플링 개수에 상응하는 개수의 제1 유형의 이미지 패치들을 가져오는(fetch) 단계;
    상기 제2 병리 데이터 세트로부터 추출된 레이블링된 패치들 중에서 제2 샘플링 개수에 상응하는 개수의 제2 유형의 이미지 패치들을 가져오는 단계;
    상기 제1 유형의 이미지 패치들 및 상기 제2 유형의 이미지 패치들에 기초하여, 배치를 생성하는 단계; 및
    상기 배치를 이용하여 상기 기계학습 모델을 학습시키는 단계
    를 포함하는, 병리 이미지 분석 방법.
  8. 제2항에 있어서,
    상기 제1 병리 데이터 세트와 상기 제2 병리 데이터 세트에 기초하여 상기 학습용 데이터 세트를 생성하는 단계는,
    상기 제1 병리 데이터 세트로부터 제1 유형의 이미지 패치들을 추출하는 단계;
    상기 제2 병리 데이터 세트로부터 제2 유형의 이미지 패치들을 추출하는 단계; 및
    소정 개수만큼 상기 제1 유형의 이미지 패치들을 복사하여 상기 학습용 데이터 세트에 포함시키는 단계
    를 포함하는, 병리 이미지 분석 방법.
  9. 제2항에 있어서,
    상기 기계학습 모델에 학습시키는 단계는,
    상기 제1 유형의 병리 이미지 또는 상기 제2 유형의 병리 이미지 중 적어도 하나에 대한 크기를 조정하는 단계; 및
    상기 크기가 조정된 적어도 하나의 병리 이미지를 포함하는 학습용 데이터를 이용하여 상기 기계학습 모델을 학습시키는 단계
    를 포함하는, 병리 이미지 분석 방법.
  10. 제2항에 있어서,
    상기 기계학습 모델에 학습시키는 단계는,
    상기 제1 유형의 병리 이미지 또는 상기 제2 유형의 병리 이미지 중 적어도 하나에 포함된 픽셀들 중에서 미리 결정된 범위에 해당하는 픽셀들을 제거하는 단계
    를 포함하는, 병리 이미지 분석 방법.
  11. 제2항에 있어서,
    상기 기계학습 모델에 학습시키는 단계는,
    상기 제1 유형의 병리 이미지 또는 상기 제2 유형의 병리 이미지 중 적어도 하나를 좌우 또는 상하로 반전하는 단계; 및
    상기 반전된 병리 이미지를 포함하는 학습용 데이터를 이용하여 상기 기계학습 모델을 학습시키는 단계
    를 포함하는, 병리 이미지 분석 방법.
  12. 제2항에 있어서,
    상기 기계학습 모델에 학습시키는 단계는,
    상기 제1 유형의 병리 이미지 또는 상기 제2 유형의 병리 이미지 중 적어도 하나에 포함된 픽셀들 중에서 미리 결정된 범위의 픽셀들을 제거하거나 변형하는 단계; 및
    상기 미리 결정된 범위의 픽셀들이 제거되거나 변형된 병리 이미지를 포함하는 학습용 데이터를 이용하여 상기 기계학습 모델을 학습시키는 단계
    를 포함하는, 병리 이미지 분석 방법.
  13. 제2항에 있어서,
    상기 기계학습 모델에 학습시키는 단계는,
    상기 제1 유형의 병리 이미지 또는 상기 제2 유형의 병리 이미지 중 적어도 하나에 포함된 픽셀들의 색상을 변환시키는 단계; 및
    상기 픽셀들의 색상이 변환된 적어도 하나의 병리 이미지를 포함하는 학습용 데이터를 이용하여 상기 기계학습 모델을 학습시키는 단계
    를 포함하는, 병리 이미지 분석 방법.
  14. 제2항에 있어서,
    상기 기계학습 모델을 학습시키는 단계는,
    상기 학습용 데이터 세트 중에서 타깃 학습용 데이터를 결정하는 단계;
    상기 타깃 학습용 데이터를 상기 기계학습 모델에 입력하고, 상기 기계학습 모델로부터 출력 값을 획득하는 단계;
    상기 제1 병리 데이터 세트 또는 상기 제2 병리 데이터 세트 중 적어도 하나에 포함된 주석 정보를 이용하여, 상기 타깃 학습용 데이터에 대한 레퍼런스 값을 획득하는 단계; 및
    상기 출력 값과 상기 획득된 레퍼런스 값 간의 손실 값을 상기 기계학습 모델에 피드백하는 단계
    를 포함하는, 병리 이미지 분석 방법.
  15. 제1항에 있어서,
    상기 기계학습 모델은, 서로 다른 유형의 분석 결과를 출력하는 복수의 분석 모델을 포함하고,
    상기 분석 결과를 획득하는 단계는,
    상기 획득된 병리 이미지로부터 염색 색상 및 염색이 발현된 위치를 식별하는 단계;
    상기 식별된 염색 색상 및 발현된 위치에 기초하여, 상기 복수의 분석 모델 중 어느 하나를 타깃 분석 모델로서 결정하는 단계; 및
    상기 결정된 타깃 분석 모델로 상기 병리 이미지를 입력하여, 상기 발현된 위치에서의 염색 강도에 대한 분석 결과를 상기 타깃 분석 모델로부터 획득하는 단계
    를 포함하는, 병리 이미지 분석 방법.
  16. 제1항에 있어서,
    상기 기계학습 모델은, 서로 다른 유형의 분석 결과를 출력하는 복수의 분석 모델을 포함하고,
    상기 분석 결과를 획득하는 단계는,
    사용자의 입력 정보에 기초하여, 상기 복수의 분석 모델 중 어느 하나를 타깃 분석 모델로서 결정하는 단계; 및
    상기 타깃 분석 모델로 상기 병리 이미지를 입력하여, 상기 병리 이미지에 대한 분석 결과를 상기 타깃 분석 모델로부터 획득하는 단계
    를 포함하는, 병리 이미지 분석 방법.
  17. 제1항에 있어서,
    상기 기계학습 모델은, 세포의 종류 또는 상기 세포의 평가 지표 중 적어도 하나를 포함하는 분석 결과를 출력하고,
    상기 세포의 평가 지표는, 상기 세포에 대한 양성 또는 음성에 대한 결과값, 상기 세포에 대한 염색 발현 등급, 상기 세포에 대한 염색 발현 정도를 나타내는 값, 또는 상기 세포에 대한 염색 발현 통계 정보 중 적어도 하나를 포함하는, 병리 이미지 분석 방법.
  18. 제1항에 따른 방법을 컴퓨터에서 실행하기 위한 명령어들을 기록한 컴퓨터 판독 가능한 비일시적 기록매체.
  19. 정보 처리 시스템으로서,
    메모리; 및
    상기 메모리와 연결되고, 상기 메모리에 포함된 컴퓨터 판독 가능한 적어도 하나의 프로그램을 실행하도록 구성된 적어도 하나의 프로세서
    를 포함하고,
    상기 적어도 하나의 프로그램은,
    병리 이미지를 획득하고,
    상기 획득된 병리 이미지를 기계학습 모델에 입력하여, 상기 기계학습 모델로부터 상기 병리 이미지에 대한 분석 결과를 획득하고,
    상기 획득된 분석 결과를 출력하기 위한 명령어들을 포함하고,
    상기 기계학습 모델은 제1 도메인과 연관된 제1 병리 데이터 세트 및 제1 도메인과 상이한 제2 도메인과 연관된 제2 병리 데이터 세트에 기초하여 생성된 학습용 데이터 세트를 이용하여 학습된 모델인, 정보 처리 시스템.
PCT/KR2022/010321 2021-07-14 2022-07-14 병리 이미지 분석 방법 및 시스템 WO2023287235A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP22842497.4A EP4372379A1 (en) 2021-07-14 2022-07-14 Pathology image analysis method and system
US18/491,314 US20240046670A1 (en) 2021-07-14 2023-10-20 Method and system for analysing pathology image

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2021-0092181 2021-07-14
KR20210092181 2021-07-14
KR10-2022-0087202 2022-07-14
KR1020220087202A KR20230011895A (ko) 2021-07-14 2022-07-14 병리 이미지 분석 방법 및 시스템

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/491,314 Continuation US20240046670A1 (en) 2021-07-14 2023-10-20 Method and system for analysing pathology image

Publications (1)

Publication Number Publication Date
WO2023287235A1 true WO2023287235A1 (ko) 2023-01-19

Family

ID=84920299

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/010321 WO2023287235A1 (ko) 2021-07-14 2022-07-14 병리 이미지 분석 방법 및 시스템

Country Status (2)

Country Link
US (1) US20240046670A1 (ko)
WO (1) WO2023287235A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101889725B1 (ko) * 2018-07-04 2018-08-20 주식회사 루닛 악성 종양 진단 방법 및 장치
KR102039138B1 (ko) * 2019-04-02 2019-10-31 주식회사 루닛 적대적 학습에 기반한 도메인 어댑테이션 방법 및 그 장치
WO2020182710A1 (en) * 2019-03-12 2020-09-17 F. Hoffmann-La Roche Ag Multiple instance learner for prognostic tissue pattern identification
KR102246319B1 (ko) * 2021-01-07 2021-05-03 주식회사 딥바이오 병리 검체에 대한 판단 결과를 제공하는 인공 뉴럴 네트워크의 학습 방법, 및 이를 수행하는 컴퓨팅 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101889725B1 (ko) * 2018-07-04 2018-08-20 주식회사 루닛 악성 종양 진단 방법 및 장치
WO2020182710A1 (en) * 2019-03-12 2020-09-17 F. Hoffmann-La Roche Ag Multiple instance learner for prognostic tissue pattern identification
KR102039138B1 (ko) * 2019-04-02 2019-10-31 주식회사 루닛 적대적 학습에 기반한 도메인 어댑테이션 방법 및 그 장치
KR102246319B1 (ko) * 2021-01-07 2021-05-03 주식회사 딥바이오 병리 검체에 대한 판단 결과를 제공하는 인공 뉴럴 네트워크의 학습 방법, 및 이를 수행하는 컴퓨팅 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HEATHER D. COUTURE, WILLIAMS LINDSAY A., GERADTS JOSEPH, NYANTE SARAH J., BUTLER EBONEE N., MARRON J. S., PEROU CHARLES M., TROEST: "Image analysis with deep learning to predict breast cancer grade, ER status, histologic subtype, and intrinsic subtype", NPJ BREAST CANCER, vol. 4, no. 1, 1 December 2018 (2018-12-01), pages 1 - 8, XP055621884, DOI: 10.1038/s41523-018-0079-1 *

Also Published As

Publication number Publication date
US20240046670A1 (en) 2024-02-08

Similar Documents

Publication Publication Date Title
WO2021060899A1 (ko) 인공지능 모델을 사용 기관에 특화시키는 학습 방법, 이를 수행하는 장치
WO2021054518A1 (ko) 인공지능 기반 기술의 의료영상분석을 이용한 자궁경부암 진단방법, 장치 및 소프트웨어 프로그램
WO2021049729A1 (ko) 인공지능 모델을 이용한 폐암 발병 가능성 예측 방법 및 분석 장치
WO2019132587A1 (ko) 영상 분석 장치 및 방법
WO2016171341A1 (ko) 클라우드 기반 병리 분석 시스템 및 방법
WO2019083227A1 (en) MEDICAL IMAGE PROCESSING METHOD, AND MEDICAL IMAGE PROCESSING APPARATUS IMPLEMENTING THE METHOD
WO2020045848A1 (ko) 세그멘테이션을 수행하는 뉴럴 네트워크를 이용한 질병 진단 시스템 및 방법
WO2021006522A1 (ko) 딥 러닝 모델을 활용한 영상 진단 장치 및 그 방법
WO2021153858A1 (ko) 비정형 피부질환 영상데이터를 활용한 판독보조장치
US11972621B2 (en) Systems and methods to label structures of interest in tissue slide images
WO2021137454A1 (ko) 인공지능 기반의 사용자 의료정보 분석 방법 및 시스템
US20140306992A1 (en) Image processing apparatus, image processing system and image processing method
WO2019009664A1 (en) APPARATUS FOR OPTIMIZING THE INSPECTION OF THE OUTSIDE OF A TARGET OBJECT AND ASSOCIATED METHOD
WO2021006482A1 (en) Apparatus and method for generating image
WO2020045702A1 (ko) 비색표를 이용한 소변 검사를 제공하는 컴퓨터 프로그램 및 단말기
Chen et al. Microscope 2.0: an augmented reality microscope with real-time artificial intelligence integration
WO2020145606A1 (ko) 인공신경망을 이용한 세포 영상 분석 방법 및 세포 영상 처리 장치
WO2023167448A1 (ko) 병리 슬라이드 이미지를 분석하는 방법 및 장치
WO2022092993A1 (ko) 대상 이미지에 대한 추론 작업을 수행하는 방법 및 시스템
WO2020091337A1 (ko) 영상 분석 장치 및 방법
WO2023287235A1 (ko) 병리 이미지 분석 방법 및 시스템
WO2022158628A1 (ko) 머신러닝 모델에 기반한 디스플레이 패널의 결함 판정 시스템
WO2023234730A1 (ko) 패치 레벨 중증도 판단 방법, 슬라이드 레벨 중증도 판단 방법 및 이를 수행하는 컴퓨팅 시스템
WO2020032560A2 (ko) 진단 결과 생성 시스템 및 방법
WO2020032561A2 (ko) 다중 색 모델 및 뉴럴 네트워크를 이용한 질병 진단 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22842497

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2022842497

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022842497

Country of ref document: EP

Effective date: 20240214