WO2015126058A1 - 암 예후 예측 방법 - Google Patents

암 예후 예측 방법 Download PDF

Info

Publication number
WO2015126058A1
WO2015126058A1 PCT/KR2015/000228 KR2015000228W WO2015126058A1 WO 2015126058 A1 WO2015126058 A1 WO 2015126058A1 KR 2015000228 W KR2015000228 W KR 2015000228W WO 2015126058 A1 WO2015126058 A1 WO 2015126058A1
Authority
WO
WIPO (PCT)
Prior art keywords
class
gene
pair
test sample
gene pair
Prior art date
Application number
PCT/KR2015/000228
Other languages
English (en)
French (fr)
Inventor
박상현
김현진
안재균
박치현
윤영미
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to US15/118,817 priority Critical patent/US20170053060A1/en
Publication of WO2015126058A1 publication Critical patent/WO2015126058A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6834Enzymatic or biochemical coupling of nucleic acids to a solid phase
    • C12Q1/6837Enzymatic or biochemical coupling of nucleic acids to a solid phase using probe arrays or probe chips
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/52Predicting or monitoring the response to treatment, e.g. for selection of therapy based on assay results in personalised medicine; Prognosis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Definitions

  • the present invention relates to a method for predicting cancer prognosis, and more particularly, through a clustering in each class of cancer, cancer prognosis prediction method that can predict the prognosis of cancer gene more accurately by reflecting the diversity of each gene. It is about.
  • Prostate cancer is a malignant tumor of the prostate gland and is one of the most common cancers in men. In the United States, it is most common in men after skin cancer.
  • Prostate cancer is not fast in most cases, so the cancer itself is not dangerous. Thus, patients with prostate cancer who are over 70 years old are more likely to die for other reasons than prostate cancer if they look at the prognosis for the next 15 years.
  • prostate cancer does not feel pain or show any unusual signs, it is not easy for the patient to know if he or she has cancer, and if it is found, the cancer has spread to other areas. Most likely it is a situation.
  • Cancer that has metastasized elsewhere can progress quickly, penetrate important organs, and can have a major adverse effect on the health of the patient.
  • the prognosis of cancer is more important than the diagnosis of 'cancer' or 'not cancer' depending on the type of cancer and how probable it is.
  • This classification method is generally used to classify normal and cancer samples, and may be a good method for diagnosing cancer, but is less reliable in prognosis for determining whether there is aggression for the same cancer. Had a problem.
  • the present invention was devised to improve the above-described conventional problems, and predicts cancer prognosis that can more accurately predict the prognosis of cancer genes by reflecting the diversity of each gene through clustering in each class of cancer.
  • the purpose is to provide a method.
  • Cancer prognosis prediction method comprises the steps of forming a gene pair using a plurality of genes to be tested; Determining clusters for the formed gene pairs through a clustering technique; Calculating a variance of each pair of genes based on the determined cluster; And selecting a reference gene pair for class discrimination based on the calculated variance.
  • the present invention may further include selecting a plurality of genes to be tested from among microarray data according to preset criteria before forming the gene pair.
  • the selecting of the genes may include selecting a plurality of genes to be tested using at least one of a Relief-A or a Symmetrical Uncertainty algorithm.
  • the invention further comprises the step of receiving a correct answer class for a plurality of genes to be tested before forming the gene pair.
  • the cluster is characterized in that it is determined through clustering for the gene pair belonging to the same correct class.
  • the step of calculating the variance of each gene pair characterized in that for calculating the variance by the sum of the Euclidean distance (Euclidean distance) with respect to the average value of the cluster determined for each gene pair.
  • the present invention after selecting the reference gene pair for class determination, receiving the expression amount for the gene pair of the test sample; And predicting a class for each gene pair of the test sample by projecting an expression amount of the gene pair of the test sample onto a two-dimensional image of the reference gene pair.
  • each of the gene pair based on the expression amount of the gene pair of the test sample projected onto the two-dimensional image and the Euclidean distance between the plurality of classes It is characterized by predicting the class for.
  • estimating a class for each gene pair of the test sample is characterized by predicting a class for each gene pair of the test sample with a class having a smaller Euclidean distance.
  • each of the gene pair and the plurality of classes of the test sample is predicted based on the sum of Euclidean distances of all clusters belonging to each other.
  • estimating a class for each gene pair of the test sample is characterized by predicting a class for each gene pair of the test sample with a class in which the sum of the Euclidean distances is relatively smaller.
  • the present invention may further comprise determining a final class of the test sample after predicting a class for each of the gene pairs of the test sample.
  • the final class is characterized in that the most predicted class of the class for each of the predicted test sample gene pairs.
  • the prognosis of the cancer gene can be predicted more accurately.
  • the present invention may reflect the association of a plurality of genes because the cluster is determined for the pair of genes.
  • the present invention can derive the result within a short time because it selects and experiments a gene suitable for the experiment, not all genes in the genome.
  • FIG. 1 is a functional block diagram of an apparatus for implementing a cancer prognosis prediction method according to an embodiment of the present invention.
  • FIG. 2 is a flowchart illustrating an implementation process of a cancer prognosis prediction method according to an embodiment of the present invention.
  • FIG. 1 is a functional block diagram of an apparatus for implementing a cancer prognosis prediction method according to an embodiment of the present invention.
  • an apparatus for implementing a cancer prognosis prediction method includes a selection unit 10, a cluster determination unit 20, an operation unit 30, a control unit 40, an input unit 50, and an output unit 60. do.
  • the selector 10 selects a plurality of genes that are experimental targets for predicting cancer prognosis among microarray data according to preset criteria.
  • Microarray data refers to data in the form of arrays representing the respective expression amounts for a plurality of genes in the genome.
  • microarray data contain thousands to tens of thousands of data. If the number of data for each gene is not reduced, the time required to perform the following process for predicting cancer prognosis is too long, resulting in large time complexity. there is a problem.
  • the selector 10 selects a plurality of genes to be tested according to a predetermined criterion so as to use only data for a predetermined number of genes among all data.
  • the selector 10 selects a plurality of genes to be tested using at least one of Relief-A and Symmetrical Uncertainty algorithms.
  • Relief-A is an algorithm that selects a property on the premise that a property has a similar value among objects belonging to the same class and has a different value among objects belonging to another class.
  • Symmetrical Uncertainty is an algorithm that selects a characteristic on the premise that the more dependent the characteristic and class, the better the characteristic.
  • At least one of the aforementioned Relief-A or Symmetrical Uncertainty can be used to extract only those genes that are expected to be meaningful among numerous genes.
  • the cluster determination unit 20 determines a cluster for a plurality of genes through a clustering technique.
  • the clustering technique is an analysis technique that groups objects or objects into several clusters so that objects having similar characteristics are grouped together by similarity or distance.
  • each cluster is distinguished by clustering a plurality of genes to be tested.
  • the cluster determination unit 20 forms a gene pair by using a plurality of genes to be tested, and performs two-dimensional clustering to determine a cluster for the formed gene pair.
  • the cluster determination unit 20 may not determine the cluster for each of the plurality of genes, but may determine the cluster for the pair of genes, thereby reflecting the association of the plurality of genes.
  • the cluster determination unit 20 determines the cluster for the gene pair through intra-class clustering, which is clustering for gene pairs belonging to the same class, not clustering between classes and classes.
  • clusters for gene pairs are more accurately determined through intra-class clustering, which assumes that genes of the same class may have different clusters.
  • the cluster determination unit 20 receives a correct answer class for a plurality of genes and performs clustering for a pair of genes belonging to the same hypothesis class.
  • the correct answer class for the plurality of genes is classified into a class that distinguishes a normal class from a cancer patient class, or a class that distinguishes between a highly aggressive cancer patient class and a less aggressive cancer patient class. Can be.
  • the correct answer class classified according to the existing technology or the decision of the doctor is input, and a more specific and accurate cluster is determined through clustering in the corresponding class.
  • the cluster determination unit 20 forms a cluster through two-dimensional intra-class clustering of a pair of genes formed using a plurality of genes. By determining, genes belonging to the cancer patient class can be distinguished into clusters belonging to a highly aggressive cancer and clusters belonging to a less dangerous cancer.
  • n genes are selected by the selection unit 10, the number of gene pairs that can be formed therein is n (n-1) / 2, and clustering also includes n (n-1) for each gene pair. Is performed twice.
  • the K-means algorithm may be used as the clustering technique according to the present embodiment.
  • the K-means algorithm is a clustering algorithm based on the distance that decomposes a set of n objects into K clusters. Since it has fast execution time, it guarantees some reasonable execution time even when the number of genes is large.
  • clustering of gene pairs may be performed using various clustering techniques not described.
  • the calculation unit 30 calculates the degree of dispersion of each gene pair based on the cluster determined by the cluster determination unit 20.
  • the values of all gene pairs of the patient should be projected in a two-dimensional image and classified into the class of the nearest cluster.
  • n genes are selected to predict the class of the sample patient, as described above, the classes are predicted for the total n (n-1) / 2 gene pairs. -1) / 2
  • the calculation unit 30 calculates the degree of dispersion of each gene pair based on the cluster for the gene pair determined by the clustering determination unit 20 to select a gene pair suitable for class classification.
  • the gene pairs that are the class classification criteria are selected based on the dispersion degree of each gene pair.
  • the calculation unit 30 calculates the degree of dispersion of each gene pair by the sum of Euclidean distances for the clusters determined for each gene pair.
  • the dispersion degree d may be calculated through the following equation.
  • the controller 40 selects a reference gene pair for class determination based on the dispersion degree of each gene pair calculated by the calculator 30.
  • the number of reference gene pairs for class determination may vary according to a user's selection.
  • the controller 40 may learn a reference value for determining a class to which a specific genome belongs, using the microarray data.
  • the controller 40 may accurately determine which class the test sample belongs to through comparison with the aforementioned reference gene pair.
  • the controller 40 receives the gene pairs of the test sample through the input unit 50.
  • controller 40 may predict the class for each gene pair of the test sample by projecting the values of the gene pairs of the test sample onto a two-dimensional image with respect to the reference gene pair.
  • the controller 40 predicts a class for each gene pair based on the Euclidean distance between each gene pair and a plurality of classes of the test sample projected onto the two-dimensional image.
  • controller 40 predicts the class (PC (S)) for each gene pair through the following equation.
  • ud min (Ci) is the smallest Euclidean distance between the test sample and class Ci.
  • the Euclidean distance between the gene pair and class of the test sample is relatively smaller, and the class of the gene pair of the test sample is predicted.
  • the controller 40 secondarily predicts the class for each gene pair based on the sum of the Euclidean distances of the gene pair of the test sample and all clusters belonging to each of the plurality of classes.
  • control unit 40 predicts the class for each gene pair through the following equation.
  • the class of the gene pair of the test sample is predicted as a class having a relatively smaller sum of the Euclidean distances of all clusters belonging to each of the plurality of classes and the gene pair of the test sample.
  • control unit 40 selects m reference gene pairs for class discrimination, m class prediction results for the gene pairs of the test sample are also present.
  • the control unit 40 determines the final class of the test sample using the m prediction results. Specifically, the final class is determined to be the most predicted class of the classes for each gene pair of the predicted test sample.
  • the output unit 60 outputs the final class determined by the control unit 40 in a form that a user can check.
  • FIG. 2 is a flowchart illustrating an implementation process of a cancer prognosis prediction method according to an embodiment of the present invention.
  • the selector 10 selects a plurality of genes to be tested from microarray data according to a preset criterion ( S10).
  • Microarray data contain thousands to tens of thousands of data. If the number of data for each gene is not reduced, the time required to perform the following steps for predicting cancer prognosis is too long, resulting in large time complexity. There is.
  • a plurality of genes to be tested are selected according to a preset criterion so that only data for a predetermined number of genes can be used among all data.
  • a plurality of genes to be tested are selected by using at least one of Relief-A or Symmetrical Uncertainty algorithm. Since Relief-A and Symmetrical Uncertainty are known algorithms, detailed descriptions will be omitted.
  • the cluster determination unit 20 forms a gene pair by using the plurality of genes to be tested, selected by the selection unit 10 in the above-described step (S10) (S20), and the gene formed through the clustering technique.
  • the cluster for the pair is determined (S30).
  • clusters are determined for the pairs of genes, not clusters for each of the plurality of genes, and thus the association of the plurality of genes may be reflected.
  • clusters for gene pairs are determined through intra-class clustering, which is clustering for gene pairs belonging to the same class, not clustering between classes and classes.
  • clusters for gene pairs are more accurately determined through intra-class clustering, which assumes that genes of the same class may have different clusters.
  • input correct class for a plurality of genes is input, and clustering of pairs of genes belonging to the same correct class is performed.
  • the calculation unit 30 calculates the degree of dispersion of each gene pair based on the cluster determined in the above-described step (S30) (S40), and the control unit 40 determines the reference gene pair for class determination based on the calculated degree of dispersion. Select (S50).
  • the values of all gene pairs of the patient should be projected in a two-dimensional image and classified into the class of the nearest cluster.
  • n genes are selected to predict the class of the sample patient, as described above, the classes are predicted for the total n (n-1) / 2 gene pairs. -1) / 2
  • the calculation unit 30 calculates the degree of dispersion of each gene pair based on the cluster for the gene pair determined in the above-described step (S30).
  • the gene pairs that are the class classification criteria are selected based on the dispersion degree of each gene pair.
  • the variance of each gene pair may be calculated by adding the Euclidean distance to the average value of the cluster determined for each gene pair, but is not limited thereto. We can calculate the variance of.
  • the controller 40 predicts a class for each gene pair (S70).
  • the values of the gene pairs of the test sample can be projected onto a two-dimensional image relative to the reference gene pair to predict the class for each gene pair of the test sample.
  • the class for each gene pair is predicted based on the Euclidean distance between each gene pair and a plurality of classes of the test sample projected onto the two-dimensional image.
  • PC (S) the class (PC (S)) for each gene pair is predicted through the following equation.
  • ud min (Ci) is the smallest Euclidean distance between the test sample and class Ci.
  • the Euclidean distance between the gene pair and class of the test sample is relatively smaller, and the class of the gene pair of the test sample is predicted.
  • the class is predicted for each gene pair based on the sum of the Euclidean distances of the gene pair of the test sample and all clusters belonging to each of the plurality of classes.
  • the class for each gene pair is predicted through the following equation.
  • the class of the gene pair of the test sample is predicted as a class having a relatively smaller sum of the Euclidean distances of all clusters belonging to each of the plurality of classes and the gene pair of the test sample.
  • the controller 40 determines the final class of the test sample by using the class for each of the gene pairs of the test sample predicted in the above-described step (S70) (S80).
  • the final class is determined to be the most predicted class of the classes for each gene pair of the predicted test sample.
  • the prognosis of the cancer gene can be predicted more accurately.
  • this embodiment may reflect the association of a plurality of genes because the cluster is determined for the pair of genes.
  • the present embodiment can select a suitable gene for the experiment, not all the genes in the genome, so that the result can be derived within a short time.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biochemistry (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Library & Information Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Medicinal Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

본 발명은 암 예후 예측 방법에 관한 것으로, 실험 대상이 되는 복수의 유전자들을 이용하여 유전자 쌍을 형성하는 단계, 클러스터링(Clustering) 기법을 통해서 형성된 유전자 쌍에 대한 클러스터를 결정하는 단계, 결정된 클러스터에 기초하여 각 유전자 쌍의 분산도를 연산하는 단계 및 연산된 분산도에 기초하여 클래스 판별을 위한 기준 유전자 쌍을 선택하는 단계를 포함한다.

Description

암 예후 예측 방법
본 발명은 암 예후 예측 방법에 관한 것으로서, 더욱 상세하게는 암의 각 클래스 안에서의 클러스터링(Clustering)을 통해서, 각각의 유전자의 다양성을 반영하여 암 유전자의 예후를 보다 정확하게 예측할 수 있는 암 예후 예측 방법에 관한 것이다.
전립선 암은 전립선에서 발생하는 악성 종양으로 남성에게 일어나는 흔한 암 중 하나이다. 미국에서는 피부암 다음으로 남성에게 많이 일어난다.
전립선 암은 대부분의 경우 진행속도가 빠르지 않아 암 자체가 위험하지는 않다. 따라서 보통 70세가 넘는 전립선 암 환자의 경우 향후 15년의 예후를 살펴보면 전립선 암보다는 다른 이유로 인해 사망할 확률이 더 높다.
전립선 암은 통증이 심하게 느껴지거나 특별한 이상 징후가 나타나지는 않기 때문에 다른 부분으로 전이가 되지 않았다면 환자는 자신이 암에 걸렸는지 알기 쉽지 않고, 암의 증상을 발견했다면 이미 다른 부분으로 암의 전이가 이루어진 상황일 확률이 높다.
전립선에서 다른 곳으로 암이 전이 되었다면, 진행 속도가 더딘 전립선 암보다는 전이된 부분의 암을 더 걱정해야 한다. 다른 곳으로 전이된 암은 진행 속도가 빠를 수 있고 중요한 장기에 침투했을 수 있으며 환자의 건강에 큰 악영향을 미칠 수 있다.
이와 같이 암은 종류에 따라서 '암이다' 혹은 '암이 아니다'라는 진단의 문제보다는 현재 암이 어떻게 진행될 것이고 전이 가능성이 얼마나 되는가에 대한 예후 문제가 더 중요하다.
본 발명과 관련된 선행기술로는 대한민국 공개특허공보 10-2011-0101124 호(2011.09.15.공개, 발명의 명칭 : 암의 예측, 암의 진단, 암의 전이 정도 또는 예후 확인에 필요한 정보를 제공하기 위하여 데이터를 수집하는 방법 및 그 키트)가 있다.
기존에 유전자 발현량을 이용하여 암의 예후를 예측하는 방법들은 대부분 공격적인 암과 공격적이지 않은 암에서 유전자 발현량이 다르게 차이나는 유전자를 기준으로 분류를 수행하였다.
이러한 분류 방법은 보통 일반샘플(Normal)과 암 샘플(Tumor)을 분류할 때 사용하는 방법으로 암 진단을 위해서는 좋은 방법일 수 있지만, 같은 암에 대해서 공격성이 있는지 없는지를 판단하는 예후에서는 신뢰성이 떨어진다는 문제가 있었다.
신뢰성을 향상시키기 위해서 유전자들 간의 상관관계를 이용하는 방법이 연구되고 있지만, 이러한 방법도 데이터의 이질적인(Heterogeneous) 특성을 온전히 반영하여 올바르게 분류하지 못한다.
본 발명은 전술한 종래의 문제점을 개선하기 위해 창안된 것으로서, 암의 각 클래스 안에서의 클러스터링(Clustering)을 통해서, 각각의 유전자의 다양성을 반영하여 암 유전자의 예후를 보다 정확하게 예측할 수 있는 암 예후 예측 방법을 제공하는데 그 목적이 있다.
본 발명의 일 측면에 따른 암 예후 예측 방법은 실험 대상이 되는 복수의 유전자들을 이용하여 유전자 쌍을 형성하는 단계; 클러스터링(Clustering) 기법을 통해서 상기 형성된 유전자 쌍에 대한 클러스터를 결정하는 단계; 상기 결정된 클러스터에 기초하여 각 유전자 쌍의 분산도를 연산하는 단계; 및 상기 연산된 분산도에 기초하여 클래스 판별을 위한 기준 유전자 쌍을 선택하는 단계를 포함한다.
본 발명은 상기 유전자 쌍을 형성하기 이전에, 미리 설정된 기준에 따라 마이크로어레이 데이터(Microarray data) 중에서 실험 대상이 되는 복수의 유전자를 선택하는 단계를 더 포함하는 것을 특징으로 한다.
본 발명에서 상기 유전자를 선택하는 단계는 Relief-A 또는 Symmetrical Uncertainty 알고리즘 중 적어도 하나를 이용하여 실험 대상이 되는 복수의 유전자를 선택하는 것을 특징으로 한다.
본 발명은 상기 유전자 쌍을 형성하기 전에, 상기 실험 대상이 되는 복수의 유전자들에 대한 정답 클래스를 입력받는 단계를 더 포함하는 것을 특징으로 한다.
본 발명의 상기 형성된 유전자 쌍에 대한 클러스터를 결정하는 단계에서, 상기 클러스터는 동일한 정답 클래스에 속하는 유전자 쌍에 대한 클러스터링을 통해서 결정되는 것을 특징으로 한다.
본 발명에서 상기 각 유전자 쌍의 분산도를 연산하는 단계는, 상기 각 유전자 쌍에 대해서 결정된 클러스터의 평균값에 대한 유클리디안 거리(Euclidean distance)의 합에 의해 상기 분산도를 연산하는 것을 특징으로 한다.
본 발명은 상기 클래스 판별을 위한 기준 유전자 쌍을 선택한 이후에, 테스트 샘플의 유전자 쌍에 대한 발현량을 입력받는 단계; 및 상기 테스트 샘플의 유전자 쌍에 대한 발현량을 상기 기준 유전자 쌍에 대한 2차원 상으로 투영하여 상기 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 예측하는 단계를 더 포함하는 것을 특징으로 한다.
본 발명에서 상기 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 예측하는 단계는, 상기 2차원 상으로 투영된 테스트 샘플의 유전자 쌍에 대한 발현량과 복수의 클래스 간의 유클리디안 거리에 기초하여 상기 유전자 쌍 각각에 대한 클래스를 예측하는 것을 특징으로 한다.
본 발명에서 상기 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 예측하는 단계는, 상기 유클리디안 거리가 상대적으로 더 작은 클래스로 상기 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 예측하는 것을 특징으로 한다.
본 발명의 상기 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 예측하는 단계에서, 상기 테스트 샘플의 유전자 쌍과 복수의 클래스 간의 유클리디안 거리가 동일하면, 상기 테스트 샘플의 유전자 쌍과 복수의 클래스 각각에 속하는 모든 클러스터들의 유클리디안 거리의 합에 기초하여 상기 유전자 쌍 각각에 대한 클래스를 예측하는 것을 특징으로 한다.
본 발명에서 상기 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 예측하는 단계는, 상기 유클리디안 거리의 합이 상대적으로 더 작은 클래스로 상기 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 예측하는 것을 특징으로 한다.
본 발명은 상기 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 예측한 이후에, 상기 테스트 샘플의 최종 클래스를 결정하는 단계를 더 포함하는 것을 특징으로 한다.
본 발명의 상기 테스트 샘플의 최종 클래스를 결정하는 단계에서, 상기 최종 클래스는 상기 예측된 테스트 샘플의 유전자 쌍 각각에 대한 클래스 중 가장 많이 예측된 클래스로 결정되는 것을 특징으로 한다.
본 발명에 따르면, 암의 각 클래스 안에서의 클러스터링(Clustering)을 통해서 각각의 유전자의 다양성을 반영할 수 있으므로, 암 유전자의 예후를 보다 정확하게 예측할 수 있다.
또한 본 발명은 유전자 쌍에 대해서 클러스터를 결정하기 때문에 복수의 유전자들의 연관성을 반영할 수 있다.
또한 본 발명은 유전체의 모든 유전자가 아닌 실험에 적합한 유전자를 선택하여 실험하기 때문에 짧은 시간 내에 결과를 도출할 수 있다.
도 1은 본 발명의 일 실시예에 따른 암 예후 예측 방법을 구현하기 위한 장치의 기능 블록도이다.
도 2는 본 발명의 일 실시예에 따른 암 예후 예측 방법의 구현 과정을 설명하는 절차 흐름도이다.
이하에서는 본 발명의 일 실시예에 따른 암 예후 예측 방법을 첨부된 도면들을 참조하여 상세하게 설명한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로, 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 암 예후 예측 방법을 구현하기 위한 장치의 기능 블록도이다.
도 1을 참조하면 암 예후 예측 방법을 구현하기 위한 장치는 선택부(10), 클러스터 결정부(20), 연산부(30), 제어부(40), 입력부(50) 및 출력부(60)를 포함한다.
선택부(10)는 미리 설정된 기준에 따라 마이크로어레이 데이터(Microarray data) 중에서 암 예후 예측을 위한 실험 대상이 되는 복수의 유전자를 선택한다.
마이크로어레이 데이터는 유전체의 복수의 유전자에 대해서 각각의 발현량을 나타내는 어레이 형태의 데이터를 의미한다.
이러한 마이크로어레이 데이터는 수천에서 수만가지 데이터를 포함하고 있는데, 각각의 유전자에 대한 데이터 개수를 줄이지 않으면 암 예후 예측을 위한 이하의 과정을 수행하는 실행시간이 너무 오래 걸려서 시간 복잡도(Time Complexity)가 크다는 문제가 있다.
따라서 본 실시예에서 선택부(10)는 전체 데이터 중에서 정해진 개수의 유전자에 대한 데이터만을 이용할 수 있도록, 미리 설정된 기준에 따라서 실험 대상이 되는 복수의 유전자를 선택한다.
구체적으로 선택부(10)는 Relief-A 또는 Symmetrical Uncertainty 알고리즘 중 적어도 하나를 이용하여 실험 대상이 되는 복수의 유전자를 선택한다.
Relief-A는 어떠한 특성이 동일 클래스에 속하는 대상들 사이에서는 비슷한 값을 갖고 다른 클래스에 속하는 대상들 사이에서는 다른 값을 가질수록, 해당 특성이 좋은 특성이라는 전제로 특성을 선택하는 알고리즘이다.
또한 Symmetrical Uncertainty는 어떠한 특성과 클래스의 의존도가 클수록 해당 특성이 좋은 특성이라는 전제로 특성을 선택하는 알고리즘이다.
이러한 Relief-A 과 Symmetrical Uncertainty 알고리즘은 이미 공지된 기술이므로 구체적인 구현 과정의 설명은 생략하기로 한다.
이와 같이, 본 실시예에서는 전술한 Relief-A 또는Symmetrical Uncertainty 중 적어도 하나를 이용하여 수많은 유전자들 중에서 의미가 있을 것으로 예상되는 유전자들만을 추려내어 실험을 할 수 있도록 한다.
따라서 본 실시예에서는 선택부(10)를 통해서 미리 설정된 개수의 유전자가 선택되기 때문에, 실험의 시간 복잡도를 줄일 수 있을 뿐만 아니라 분류에 쓸모없는 유전자들을 제외할 수 있으므로 분류 정확도를 향상시킬 수 있다.
클러스터 결정부(20)는 클러스터링(Clustering) 기법을 통해서 복수의 유전자들에 대한 클러스터를 결정한다.
클러스터링 기법은 어떤 개체나 대상들을 유사성(Similarity) 또는 거리(Distance)에 의하여 비슷한 특성을 가진 개체들이 함께 그룹 지어지도록 몇 개의 군집으로 집단화하는 분석 기법이다.
즉, 본 실시예에서는 실험 대상이 되는 복수의 유전자들을 클러스터링함으로써, 각각의 클러스터를 구분한다.
특히, 본 실시예에서 클러스터 결정부(20)는 실험 대상이 되는 복수의 유전자들을 이용하여 유전자 쌍을 형성하고, 형성된 유전자 쌍에 대한 클러스터를 결정하는 2차원 클러스터링을 수행한다.
이와 같이 본 실시예에서 클러스터 결정부(20)는 복수의 유전자 각각에 대해서 클러스터를 결정하는 것이 아니라, 유전자 쌍에 대해서 클러스터를 결정하기 때문에 복수의 유전자들의 연관성을 반영할 수 있다.
또한, 본 실시예에서 클러스터 결정부(20)는 클래스와 클래스간 클러스터링이 아닌, 동일한 클래스에 속하는 유전자 쌍에 대한 클러스터링인 클래스 내 클러스터링을 통해서 유전자 쌍에 대한 클러스터를 결정한다.
일반적인 클러스터링 수행시에, 클래스가 다른 유전자는 서로 클러스터가 다르다는 가정하에 클러스터링이 수행되기 때문에, 한 클래스 내의 다양성(Heterogeneity)을 무시하게 되고, 거짓 양성(False Positive)이나 거짓 음성(False Negative) 결과가 나타날 수 있다.
따라서 본 실시예에서는 동일한 클래스의 유전자도 클러스터가 다를 수 있다고 가정하는 클래스 내 클러스터링을 통해서 보다 정확하게 유전자 쌍에 대한 클러스터를 결정한다.
그리고 이를 위해서 클러스터 결정부(20)는 복수의 유전자들에 대한 정답 클래스를 입력받고, 동일한 가정 클래스에 속하는 유전자 쌍에 대한 클러스터링을 수행한다.
이 때, 본 실시예에서 복수의 유전자들에 대한 정답 클래스는 정상 클래스와 암 환자 클래스를 구별한 클래스, 또는 공격성이 높은 암 환자 클래스와 공격성이 낮은 암 환자 클래스를 구별한 클래스 등으로 구별되어 입력될 수 있다.
즉, 본 실시예에서는 기존의 기술이나 의사의 판단에 따라 분류된 정답 클래스를 입력받고, 해당 클래스 내에서의 클러스터링을 통해서 보다 구체적이고 정확한 클러스터를 결정한다.
그리고 전술한 바와 같이, 정상 클래스와 암 환자 클래스를 구별하는 정답 클래스가 입력된 경우에 클러스터 결정부(20)는 복수의 유전자들을 이용하여 형성된 유전자 쌍에 대한 2차원의 클래스 내 클러스터링을 통해서 클러스터를 결정함으로써, 암 환자 클래스에 속하는 유전자들을 공격성이 높아 위험한 암에 속하는 클러스터와 공격성이 낮아 덜 위험한 암에 속하는 클러스터로 구별할 수 있다.
이 때, 선택부(10)에 의해서 n개의 유전자가 선택되었다면, 이들로 형성할 수 있는 유전자 쌍은 n(n-1)/2 개가 되고, 클러스터링 또한 각각의 유전자 쌍에 대해서 n(n-1)/2 번 수행된다.
그리고, 본 실시예에 따른 클러스터링 기법으로는 K-means 알고리즘이 사용될 수 있다. K-means 알고리즘은 n개의 객체들의 집합을 K개의 군집으로 분해하는 거리에 기반을 둔 클러스터링 알고리즘으로, 빠른 실행 시간을 가지고 있기 때문에 유전자의 개수가 많은 경우에도 어느 정도의 합리적인 실행 시간을 보장해 준다.
다만, 본 실시예에서 클러스터 결정부(20)는 K-means 알고리즘만을 이용해서 클러스터링해야 하는 것은 아니므로 기술하지 않은 다양한 클러스터링 기법을 이용해서 유전자 쌍에 대한 클러스터링을 수행할 수 있다.
연산부(30)는 클러스터 결정부(20)에 의해서 결정된 클러스터에 기초하여 각 유전자 쌍의 분산도를 연산한다.
본 실시예에 따라서 샘플 환자의 클래스 및 클러스터를 예측하기 위해서는 환자의 모든 유전자 쌍의 값들을 2차원 상으로 투영하여 가장 가까운 클러스터의 클래스로 분류해야 한다.
이 때, 샘플 환자의 클래스를 예측하기 위해서 n개의 유전자가 선택된 경우에는, 전술한 바와 같이 총 n(n-1)/2 개의 유전자 쌍에 대해서 각각 클래스를 예측하기 때문에 예측하는 클래스 또한 n(n-1)/2 개가 된다.
이렇게 많은 유전자에 대해서 예측된 클래스를 모두 이용할 때에는 실행 시간이 오래 걸릴 뿐만 아니라, 분류에 적합하지 않은 유전자 쌍에 대한 클러스터링 결과가 포함되어 있을 수 있다.
따라서 본 실시예에서 연산부(30)는 클래스 분류에 적합한 유전자 쌍을 선택하기 위해서, 클러스터링 결정부(20)에서 결정된 유전자 쌍에 대한 클러스터에 기초하여 각 유전자 쌍의 분산도를 연산한다.
구체적으로, 각각의 클러스터가 겹쳐있지 않고 독립적으로 존재할수록 샘플 환자의 유전자를 정확하게 구별할 수 있으므로, 본 실시예에서는 각 유전자 쌍의 분산도에 기초하여 클래스 분류의 기준이 되는 유전자 쌍을 선택한다.
구체적으로 연산부(30)는 각 유전자 쌍에 대해서 결정된 클러스터에 대한 유클리디안 거리(Euclidean distance)의 합으로 각 유전자 쌍의 분산도를 연산한다.
구체적으로 클래스마다 K개의 클러스터가 존재하고, 첫 번째 클래스의 a 번째 클러스터의 평균값의 2차원 상 좌표를 (x1a, y1a), 두 번째 클래스의 b 번째 클러스터의 평균값의 2차원 상 좌표를 (x2a, y2a)라 할 때, 분산도 d는 아래의 수학식을 통해서 연산될 수 있다.
Figure PCTKR2015000228-appb-I000001
제어부(40)는 연산부(30)를 통해서 연산된 각 유전자 쌍의 분산도에 기초하여 클래스 판별을 위한 기준 유전자 쌍을 선택한다. 이 때, 클래스 판별을 위한 기준 유전자 쌍의 개수는 사용자의 선택에 따라서 달라질 수 있다.
전술한 과정을 통해서 제어부(40)는 마이크로어레이 데이터를 이용하여 특정한 유전체가 속하는 클래스를 판별하기 위한 기준값을 학습할 수 있다.
그리고 이하의 과정에서, 제어부(40)는 특정 테스트 샘플이 입력된 경우에 전술한 기준 유전자 쌍과의 비교를 통해서 테스트 샘플이 어떠한 클래스에 속하는지 정확하게 결정할 수 있다.
이를 위해서 제어부(40)는 입력부(50)를 통해서 테스트 샘플의 유전자 쌍들을 입력받는다.
그리고, 제어부(40)는 테스트 샘플의 유전자 쌍들의 값을 기준 유전자 쌍에 대한 2차원 상으로 투영하여, 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 예측할 수 있다.
이를 위해서 제어부(40)는 일차로 2차원 상으로 투영된 테스트 샘플의 유전자 쌍 각각과 복수의 클래스 간의 유클리디안 거리에 기초하여 유전자 쌍 각각에 대한 클래스를 예측한다.
구체적으로 제어부(40)는 아래의 식을 통해서 각각의 유전자 쌍에 대한 클래스(PC(S))를 예측한다.
Figure PCTKR2015000228-appb-I000002
(이 때, udmin(Ci)는 테스트 샘플과 클래스 Ci 사이의 가장 작은 유클리디안 거리를 의미한다.)
즉, 테스트 샘플의 유전자 쌍과 클래스 간의 유클리디안 거리가 상대적으로 더 작은 클래스로, 테스트 샘플의 유전자 쌍의 클래스를 예측한다.
그러나 이 때, 유전자 쌍 중에서는 다른 클래스의 클러스터에 대해서 udmin(C1) = udmin(C2)과 같이 가장 작은 거리가 동일한 유전자 쌍이 존재할 수 있다.
이런 경우에 제어부(40)는 이차로 테스트 샘플의 유전자 쌍과 복수의 클래스 각각에 속하는 모든 클러스터들의 유클리디안 거리의 합에 기초하여 유전자 쌍 각각에 대한 클래스를 예측한다.
구체적으로 제어부(40)는 아래의 식을 통해서 각각의 유전자 쌍에 대한 클래스를 예측한다.
Figure PCTKR2015000228-appb-I000003
(이 때, ud(Ci)은 테스트 샘플과 특정 클래스 Ci 의 모든 클러스터의 유클리디안 거리의 합을 의미한다.)
즉, 테스트 샘플의 유전자 쌍과 복수의 클래스 각각에 속하는 모든 클러스터들의 유클리디안 거리의 합이 상대적으로 더 작은 클래스로, 테스트 샘플의 유전자 쌍의 클래스를 예측한다.
만약, 제어부(40)가 클래스 판별을 위한 기준 유전자 쌍을 m개 선택하였다면, 테스트 샘플의 유전자 쌍에 대한 클래스 예측 결과도 m개가 존재하게 된다.
제어부(40)는 m개의 예측 결과를 이용해서 테스트 샘플의 최종 클래스를 결정한다. 구체적으로 최종 클래스는 예측된 테스트 샘플의 유전자 쌍 각각에 대한 클래스 중 가장 많이 예측된 클래스로 결정된다.
출력부(60)는 제어부(40)에서 결정된 최종 클래스를 사용자가 확인할 수 있는 형태로 출력한다.
도 2는 본 발명의 일 실시예에 따른 암 예후 예측 방법의 구현 과정을 설명하는 절차 흐름도이다.
도 2를 참조하여 본 발명의 일 실시예에 따른 암 예후 예측 방법의 구현 과정을 살펴보면, 먼저 선택부(10)는 미리 설정된 기준에 따라 마이크로어레이 데이터 중에서 실험 대상이 되는 복수의 유전자를 선택한다(S10).
마이크로어레이 데이터는 수천에서 수만가지 데이터를 포함하고 있는데, 각각의 유전자에 대한 데이터 개수를 줄이지 않으면 암 예후 예측을 위한 이하의 과정을 수행하는 실행시간이 너무 오래 걸려서 시간 복잡도(Time Complexity)가 크다는 문제가 있다.
따라서 본 실시예에서는 전체 데이터 중에서 정해진 개수의 유전자에 대한 데이터만을 이용할 수 있도록, 미리 설정된 기준에 따라서 실험 대상이 되는 복수의 유전자를 선택한다.
구체적으로는 Relief-A 또는 Symmetrical Uncertainty 알고리즘 중 적어도 하나를 이용하여 실험 대상이 되는 복수의 유전자를 선택한다. Relief-A와 Symmetrical Uncertainty는 이미 공지된 알고리즘이므로 구체적인 설명은 생략하기로 한다.
이와 같이 본 실시예에서는 미리 설정된 개수의 유전자가 선택되기 때문에, 실험의 시간 복잡도를 줄일 수 있을 뿐만 아니라 분류에 쓸모없는 유전자들을 제외할 수 있으므로 분류 정확도를 향상시킬 수 있다.
그리고 전술한 단계(S10)에서 선택부(10)에 의해서 선택된, 실험 대상이 되는 복수의 유전자들을 이용하여 클러스터 결정부(20)는 유전자 쌍을 형성하고(S20), 클러스터링 기법을 통해서 상기 형성된 유전자 쌍에 대한 클러스터를 결정한다(S30).
이와 같이 본 실시예에서는 복수의 유전자 각각에 대해서 클러스터를 결정하는 것이 아니라, 유전자 쌍에 대해서 클러스터를 결정하기 때문에 복수의 유전자들의 연관성을 반영할 수 있다.
또한, 본 실시예에서는 클래스와 클래스간 클러스터링이 아닌, 동일한 클래스에 속하는 유전자 쌍에 대한 클러스터링인 클래스 내 클러스터링을 통해서 유전자 쌍에 대한 클러스터를 결정한다.
일반적인 클러스터링 수행시에, 클래스가 다른 유전자는 서로 클러스터가 다르다는 가정하에 클러스터링이 수행되기 때문에, 한 클래스 내의 다양성(Heterogeneity)을 무시하게 되고, 거짓 양성(False Positive)이나 거짓 음성(False Negative) 결과가 나타난다.
따라서 본 실시예에서는 동일한 클래스의 유전자도 클러스터가 다를 수 있다고 가정하는 클래스 내 클러스터링을 통해서 보다 정확하게 유전자 쌍에 대한 클러스터를 결정한다.
그리고 이를 위해서 복수의 유전자들에 대한 정답 클래스를 입력받고, 동일한 정답 클래스에 속하는 유전자 쌍에 대한 클러스터링을 수행한다.
이어서 연산부(30)는 전술한 단계(S30)에서 결정된 클러스터에 기초하여 각 유전자 쌍의 분산도를 연산하고(S40), 제어부(40)는 연산된 분산도에 기초하여 클래스 판별을 위한 기준 유전자 쌍을 선택한다(S50).
본 실시예에 따라서 샘플 환자의 클래스 및 클러스터를 예측하기 위해서는 환자의 모든 유전자 쌍의 값들을 2차원 상으로 투영하여 가장 가까운 클러스터의 클래스로 분류해야 한다.
이 때, 샘플 환자의 클래스를 예측하기 위해서 n개의 유전자가 선택된 경우에는 전술한 바와 같이, 총 n(n-1)/2 개의 유전자 쌍에 대해서 각각 클래스를 예측하기 때문에 예측하는 클래스 또한 n(n-1)/2 개가 된다.
이렇게 많은 유전자에 대해서 예측된 클래스를 모두 이용할 때에는 실행 시간이 오래 걸릴 뿐만 아니라, 분류에 적합하지 않은 유전자 쌍에 대한 클러스터링 결과가 포함되어 있을 수 있다.
따라서 본 실시예에서는 클래스 분류에 적합한 유전자 쌍을 선택하기 위해서, 연산부(30)는 전술한 단계(S30)에서 결정된 유전자 쌍에 대한 클러스터에 기초하여 각 유전자 쌍의 분산도를 연산한다.
구체적으로, 각각의 클러스터가 겹쳐있지 않고 독립적으로 존재할수록 샘플 환자의 유전자를 정확하게 구별할 수 있으므로, 본 실시예에서는 각 유전자 쌍의 분산도에 기초하여 클래스 분류의 기준이 되는 유전자 쌍을 선택한다.
일례로, 각 유전자 쌍에 대해서 결정된 클러스터의 평균값에 대한 유클리디안 거리(Euclidean distance)의 합으로 각 유전자 쌍의 분산도를 연산할 수 있으나, 이에 한정되는 것은 아니므로 다양한 방법을 통해서 각 유전자 쌍의 분산도를 연산할 수 있다.
다음으로 입력부(50)를 통해 클래스를 판별하기 위한 테스트 샘플의 유전자 쌍이 입력되면(S60), 제어부(40)는 유전자 쌍 각각에 대한 클래스를 예측한다(S70).
구체적으로, 테스트 샘플의 유전자 쌍들의 값을 기준 유전자 쌍에 대한 2차원 상으로 투영하여, 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 예측할 수 있다.
이를 위해서 일차로 2차원 상으로 투영된 테스트 샘플의 유전자 쌍 각각과 복수의 클래스 간의 유클리디안 거리에 기초하여 유전자 쌍 각각에 대한 클래스를 예측한다.
구체적으로 아래의 식을 통해서 각각의 유전자 쌍에 대한 클래스(PC(S))를 예측한다.
Figure PCTKR2015000228-appb-I000004
(이 때, udmin(Ci)는 테스트 샘플과 클래스 Ci 사이의 가장 작은 유클리디안 거리를 의미한다.)
즉, 테스트 샘플의 유전자 쌍과 클래스 간의 유클리디안 거리가 상대적으로 더 작은 클래스로, 테스트 샘플의 유전자 쌍의 클래스를 예측한다.
그러나 이 때, 유전자 쌍 중에서는 다른 클래스의 클러스터에 대해서 udmin(C1) = udmin(C2)과 같이 가장 작은 거리가 동일한 유전자 쌍이 존재할 수 있다.
이런 경우에는 이차로 테스트 샘플의 유전자 쌍과 복수의 클래스 각각에 속하는 모든 클러스터들의 유클리디안 거리의 합에 기초하여 유전자 쌍 각각에 대한 클래스를 예측한다.
구체적으로 아래의 식을 통해서 각각의 유전자 쌍에 대한 클래스를 예측한다.
Figure PCTKR2015000228-appb-I000005
(이 때, ud(Ci)은 테스트 샘플과 특정 클래스 Ci 의 모든 클러스터의 유클리디안 거리의 합을 의미한다.)
즉, 테스트 샘플의 유전자 쌍과 복수의 클래스 각각에 속하는 모든 클러스터들의 유클리디안 거리의 합이 상대적으로 더 작은 클래스로, 테스트 샘플의 유전자 쌍의 클래스를 예측한다.
그리고, 제어부(40)는 전술한 단계(S70)에서 예측된 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 이용해서 테스트 샘플의 최종 클래스를 결정한다(S80).
구체적으로 최종 클래스는 예측된 테스트 샘플의 유전자 쌍 각각에 대한 클래스 중 가장 많이 예측된 클래스로 결정된다.
본 실시예에 따르면, 암의 각 클래스 안에서의 클러스터링(Clustering)을 통해서 각각의 유전자의 다양성을 반영할 수 있으므로, 암 유전자의 예후를 보다 정확하게 예측할 수 있다.
또한 본 실시예는 유전자 쌍에 대해서 클러스터를 결정하기 때문에 복수의 유전자들의 연관성을 반영할 수 있다.
또한 본 실시예는 유전체의 모든 유전자가 아닌 실험에 적합한 유전자를 선택하여 실험하기 때문에 짧은 시간 내에 결과를 도출할 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며 당해 기술이 속하는 기술분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

Claims (13)

  1. 실험 대상이 되는 복수의 유전자들을 이용하여 유전자 쌍을 형성하는 단계;
    클러스터링(Clustering) 기법을 통해서 상기 형성된 유전자 쌍에 대한 클러스터를 결정하는 단계;
    상기 결정된 클러스터에 기초하여 각 유전자 쌍의 분산도를 연산하는 단계; 및
    상기 연산된 분산도에 기초하여 클래스 판별을 위한 기준 유전자 쌍을 선택하는 단계
    를 포함하는 암 예후 예측 방법.
  2. 제 1항에 있어서,
    상기 유전자 쌍을 형성하기 이전에, 미리 설정된 기준에 따라 마이크로어레이 데이터(Microarray data) 중에서 실험 대상이 되는 복수의 유전자를 선택하는 단계를 더 포함하는 것을 특징으로 하는 암 예후 예측 방법.
  3. 제 2항에 있어서,
    상기 유전자를 선택하는 단계는 Relief-A 또는 Symmetrical Uncertainty 알고리즘 중 적어도 하나를 이용하여 실험 대상이 되는 복수의 유전자를 선택하는 것을 특징으로 하는 암 예후 예측 방법.
  4. 제 1항에 있어서,
    상기 유전자 쌍을 형성하기 전에, 상기 실험 대상이 되는 복수의 유전자들에 대한 정답 클래스를 입력받는 단계를 더 포함하는 것을 특징으로 하는 암 예후 예측 방법.
  5. 제 4항에 있어서,
    상기 형성된 유전자 쌍에 대한 클러스터를 결정하는 단계에서, 상기 클러스터는 동일한 정답 클래스에 속하는 유전자 쌍에 대한 클러스터링을 통해서 결정되는 것을 특징으로 하는 암 예후 예측 방법.
  6. 제 1항에 있어서,
    상기 각 유전자 쌍의 분산도를 연산하는 단계는, 상기 각 유전자 쌍에 대해서 결정된 클러스터의 평균값에 대한 유클리디안 거리(Euclidean distance)의 합에 의해 상기 분산도를 연산하는 것을 특징으로 하는 암 예후 예측 방법.
  7. 제 1항에 있어서,
    상기 클래스 판별을 위한 기준 유전자 쌍을 선택한 이후에, 테스트 샘플의 유전자 쌍에 대한 발현량을 입력받는 단계; 및
    상기 테스트 샘플의 유전자 쌍에 대한 발현량을 상기 기준 유전자 쌍에 대한 2차원 상으로 투영하여 상기 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 예측하는 단계
    를 더 포함하는 것을 특징으로 하는 암 예후 예측 방법.
  8. 제 7항에 있어서,
    상기 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 예측하는 단계는, 상기 2차원 상으로 투영된 테스트 샘플의 유전자 쌍에 대한 발현량과 복수의 클래스 간의 유클리디안 거리에 기초하여 상기 유전자 쌍 각각에 대한 클래스를 예측하는 것을 특징으로 하는 암 예후 예측 방법.
  9. 제 8항에 있어서,
    상기 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 예측하는 단계는, 상기 유클리디안 거리가 상대적으로 더 작은 클래스로 상기 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 예측하는 것을 특징으로 하는 암 예후 예측 방법.
  10. 제 8항에 있어서,
    상기 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 예측하는 단계에서, 상기 테스트 샘플의 유전자 쌍과 복수의 클래스 간의 유클리디안 거리가 동일하면, 상기 테스트 샘플의 유전자 쌍과 복수의 클래스 각각에 속하는 모든 클러스터들의 유클리디안 거리의 합에 기초하여 상기 유전자 쌍 각각에 대한 클래스를 예측하는 것을 특징으로 하는 암 예후 예측 방법.
  11. 제 10항에 있어서,
    상기 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 예측하는 단계는, 상기 유클리디안 거리의 합이 상대적으로 더 작은 클래스로 상기 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 예측하는 것을 특징으로 하는 암 예후 예측 방법.
  12. 제 7항에 있어서,
    상기 테스트 샘플의 유전자 쌍 각각에 대한 클래스를 예측한 이후에, 상기 테스트 샘플의 최종 클래스를 결정하는 단계를 더 포함하는 것을 특징으로 하는 암 예후 예측 방법.
  13. 제 12항에 있어서,
    상기 테스트 샘플의 최종 클래스를 결정하는 단계에서, 상기 최종 클래스는 상기 예측된 테스트 샘플의 유전자 쌍 각각에 대한 클래스 중 가장 많이 예측된 클래스로 결정되는 것을 특징으로 하는 암 예후 예측 방법.
PCT/KR2015/000228 2014-02-18 2015-01-09 암 예후 예측 방법 WO2015126058A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/118,817 US20170053060A1 (en) 2014-02-18 2015-01-09 Method for predicting prognosis of cancer

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20140018759A KR101473341B1 (ko) 2014-02-18 2014-02-18 유전자 클래스 결정 방법
KR10-2014-0018759 2014-02-18

Publications (1)

Publication Number Publication Date
WO2015126058A1 true WO2015126058A1 (ko) 2015-08-27

Family

ID=52679048

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/000228 WO2015126058A1 (ko) 2014-02-18 2015-01-09 암 예후 예측 방법

Country Status (3)

Country Link
US (1) US20170053060A1 (ko)
KR (1) KR101473341B1 (ko)
WO (1) WO2015126058A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101771042B1 (ko) 2015-01-16 2017-08-24 연세대학교 산학협력단 질병 관련 유전자 탐색 장치 및 그 방법
CN107526937B (zh) * 2017-09-29 2021-04-06 杭州电子科技大学 一种基于协同滤波的MiRNA-疾病关联预测方法
DE102019208504A1 (de) 2019-06-12 2020-12-17 Robert Bosch Gmbh Positionsbestimmung auf der Basis von Umgebungsbeobachtungen
KR20230114952A (ko) 2022-01-26 2023-08-02 권창혁 암 판별 장치 및 암 판별 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060211036A1 (en) * 2002-06-25 2006-09-21 Yeh-Tze Chou Metastasis-associated gene profiling for identification of tumor tissue, subtyping, and prediction of prognosis of patients
US7747547B1 (en) * 2007-10-31 2010-06-29 Pathwork Diagnostics, Inc. Systems and methods for diagnosing a biological specimen using probabilities
US20110028333A1 (en) * 2009-05-01 2011-02-03 Brown University Diagnosing, prognosing, and early detection of cancers by dna methylation profiling
US8131475B2 (en) * 2003-09-03 2012-03-06 The United States Of America As Represented By The Secretary, Department Of Health And Human Services Methods for identifying, diagnosing, and predicting survival of lymphomas

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060211036A1 (en) * 2002-06-25 2006-09-21 Yeh-Tze Chou Metastasis-associated gene profiling for identification of tumor tissue, subtyping, and prediction of prognosis of patients
US8131475B2 (en) * 2003-09-03 2012-03-06 The United States Of America As Represented By The Secretary, Department Of Health And Human Services Methods for identifying, diagnosing, and predicting survival of lymphomas
US7747547B1 (en) * 2007-10-31 2010-06-29 Pathwork Diagnostics, Inc. Systems and methods for diagnosing a biological specimen using probabilities
US20110028333A1 (en) * 2009-05-01 2011-02-03 Brown University Diagnosing, prognosing, and early detection of cancers by dna methylation profiling

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KIM, H. ET AL.: "ICP: A novel approach to predict prognosis of prostate cancer with inner- class clustering of gene expression data", COMPUT. BIOL. MED., vol. 43, no. 10, 4 July 2013 (2013-07-04), pages 1363 - 1373, XP028715736 *

Also Published As

Publication number Publication date
KR101473341B1 (ko) 2014-12-16
US20170053060A1 (en) 2017-02-23

Similar Documents

Publication Publication Date Title
WO2015126058A1 (ko) 암 예후 예측 방법
WO2016163755A1 (ko) 품질 측정 기반의 얼굴 인식 방법 및 장치
WO2019235828A1 (ko) 투 페이스 질병 진단 시스템 및 그 방법
WO2019172498A1 (ko) 종양의 악성도와 악성도 추론의 근거를 제공하는 컴퓨터 보조 진단 시스템 및 그 방법
WO2021194056A1 (en) Method for training deep learning network based on artificial intelligence and learning device using the same
WO2010041836A2 (en) Method of detecting skin-colored area using variable skin color model
WO2021071288A1 (ko) 골절 진단모델의 학습 방법 및 장치
WO2014069769A1 (ko) 리드 전체를 고려한 염기 서열 정렬 시스템 및 방법
WO2015072818A1 (ko) 뇌질환 진단 서비스 장치 및 뇌질환 진단 서비스 방법
WO2019139363A1 (ko) 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
WO2019093675A1 (ko) 빅데이터 분석을 위한 데이터 병합 장치 및 방법
WO2020032559A2 (ko) 뉴럴 네트워크를 이용한 질병의 진단 시스템 및 방법
WO2020111378A1 (ko) 질환 진단 보조를 위한 데이터 분석 방법 및 시스템
WO2020032562A2 (ko) 생체 이미지 진단 시스템, 생체 이미지 진단 방법, 및 이를 수행하기 위한 단말
WO2018236120A1 (ko) 네거티브 마커를 이용한 유사 종 식별 방법 및 장치
WO2022245062A1 (ko) 인공 지능 기반의 유전체 분석 및 의약 물질 개발 방법 및 시스템
WO2018030733A1 (ko) 계측-수율 상관성 분석 방법 및 시스템
WO2019045147A1 (ko) 딥러닝을 pc에 적용하기 위한 메모리 최적화 방법
WO2015053480A1 (ko) 생물학적 샘플 분석 시스템 및 방법
WO2023090709A1 (ko) 염색체 구조의 상태 정보를 이용한 세포 분석 장치 및 방법
CN115684116B (zh) 一种用于肿瘤筛查的ctDNA多维表观遗传标志物差异识别方法
WO2020184782A1 (ko) 공통 유전자 추출에 의한 다중 암 분류 방법
WO2017073823A1 (ko) 적응 임계값 도출과 설태, 설질, 및 혼합 영역을 구분하는 장치 및 방법
WO2021172780A1 (ko) 유전자 선별 방법 및 장치
WO2015174623A1 (ko) 입력 처리 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15751313

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15118817

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15751313

Country of ref document: EP

Kind code of ref document: A1