WO2024085660A1 - 질병 발생 위험도 예측 장치 및 방법 - Google Patents

질병 발생 위험도 예측 장치 및 방법 Download PDF

Info

Publication number
WO2024085660A1
WO2024085660A1 PCT/KR2023/016185 KR2023016185W WO2024085660A1 WO 2024085660 A1 WO2024085660 A1 WO 2024085660A1 KR 2023016185 W KR2023016185 W KR 2023016185W WO 2024085660 A1 WO2024085660 A1 WO 2024085660A1
Authority
WO
WIPO (PCT)
Prior art keywords
disease
risk
genetic
occurrence
value
Prior art date
Application number
PCT/KR2023/016185
Other languages
English (en)
French (fr)
Inventor
강병규
이병철
김지웅
이영기
천명재
강준호
Original Assignee
제노플랜 인크
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220133674A external-priority patent/KR20240053754A/ko
Application filed by 제노플랜 인크 filed Critical 제노플랜 인크
Publication of WO2024085660A1 publication Critical patent/WO2024085660A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Definitions

  • It relates to a device and method for predicting the risk of developing a disease using an individual's single nucleotide polymorphism and the presence or absence of a single genetic factor mutation.
  • Single nucleotide polymorphism is a type of genetic variation in which the genetic base sequence shows differences between individuals.
  • a single base represents a different base sequence, and two opposing bases occur at a frequency of more than 1% within the population. This is the location where sequence (bi-allelic) variation occurs.
  • GWAS analysis is an exploratory method to find traits (e.g., height, hair color, eye color, risk of various diseases) associated with genetic variation, and is generally used to identify cases (groups with traits of interest, e.g. By comparing the genetic information of a patient group (e.g., a patient group) and a control (a group without a trait, e.g. a normal group) across the entire genome region, genetic variants with greater frequency in cases are converted into genetic variants that are associated with the trait. A selection method is used.
  • traits e.g., height, hair color, eye color, risk of various diseases
  • the present invention was completed by constructing a model to predict the risk of disease occurrence by reflecting the presence or absence of single genetic mutation in specific genes known to be the cause of disease, as well as many genetic mutations identified through GWAS analysis.
  • One aspect includes selecting a single nucleotide polymorphism (SNP) associated with the occurrence of a disease and a monogenic variant associated with the occurrence of the disease; Analyzing the selected single nucleotide polymorphism (SNP) information and the selected single genetic factor information of the individual from a sample of the individual; A first value in which the selected single nucleotide polymorphism (SNP) information is weighted in proportion to its influence on disease occurrence, and the selected single genetic factor information is weighted in proportion to its influence on disease occurrence. It provides a method of predicting the risk of a disease based on the genetic risk of the disease, including the step of obtaining the considered second value.
  • SNP single nucleotide polymorphism
  • Another aspect is to provide a computer-readable recording medium on which a program for executing the method on a computer is recorded.
  • Another aspect is at least one memory; and at least one processor, wherein the processor selects a single nucleotide polymorphism (SNP) associated with the occurrence of the disease and a monogenic variant associated with the occurrence of the disease, and selects the individual from the sample of the individual.
  • SNP single nucleotide polymorphism
  • the selected single nucleotide polymorphism (SNP) information and the selected single genetic factor information of the individual are analyzed, and the influence on disease occurrence is proportional to the selected single nucleotide polymorphism (SNP) information.
  • the risk of the disease is predicted based on the genetic risk of the disease.
  • the present invention uses as an indicator the odds ratio (OR), the population attributable fraction (PAF), or the product of the odds ratio and the population attributable risk fraction for a specific disease for any gene. It provides a method for predicting the risk of developing a specific disease in an individual, comprising the step of selecting a gene group or gene related to a specific disease, and analyzing genetic mutations of the individual within the selected gene group or gene. Specifically, the step of selecting a gene group or gene that is associated with the occurrence of a specific disease may include the step of clustering genes that have a similar degree of association or influence on the occurrence of a specific disease.
  • the odds ratio and the population attributable risk fraction for a specific disease, or their product can be used as indicators for selection of genes having a single genetic factor related to a specific disease.
  • this is not a theoretical approach, but is carried out by estimating from disease and non-disease genome data from actual clinical data.
  • the disease may include without limitation all diseases caused by genetic factors or directly or indirectly affected by genetic factors, and specifically, ovarian cancer, stomach cancer, breast cancer, prostate cancer, cardiovascular disease, metabolic disease, and diabetes. However, it is not limited to this. In one embodiment, the disease may be breast cancer or prostate cancer.
  • the method of predicting the risk of developing a specific disease in an individual based on the genetic risk of the disease of the present invention includes not only genes with a well-known correlation with the target disease, but also mutations in genes that are not well known but are likely to be highly related. By discovering new information, we can more accurately predict the risk of developing a disease.
  • the term “gene” refers to a segment of a nucleic acid sequence (also referred to herein as a “coding sequence” or “coding region”) that encodes a protein or RNA, as the case may be, upstream or downstream of the coding sequence. It is accompanied by regulatory regions that can be located, such as promoters, operators, terminators, etc.
  • the term “genetic information” encompasses information obtained through genetic analysis of a subject, and includes, for example, information about genetic traits or genetic mutations related to the occurrence of a specific disease.
  • the genetic mutation may be in the form of a missense mutation, frameshift mutation, nonsense mutation or splice mutation, nucleotide substitution, insertion or deletion, but is not limited thereto.
  • the genetic information may include a single nucleotide polymorphism (SNP).
  • SNP single nucleotide polymorphism
  • polymorphism refers to the presence of two or more alleles at one genetic locus. Among polymorphic sites, only a single base differs from person to person, and a single nucleotide polymorphism refers to the presence of two or more alleles at one genetic locus. It is called nucleotide polymorphism (SNP). Preferred polymorphic markers have two or more alleles that exhibit an occurrence frequency of greater than 1%, more preferably greater than 5% or 10%, in the selected population.
  • OR odds ratio
  • “population attributable fraction (PAF)” refers to the numerical inference of the impact when a specific disease is estimated to have occurred due to exposure to a specific external factor, and is calculated using Equation 1 below: It is defined as For example, in a situation where lung cancer is presumed to have occurred due to exposure to an external factor such as smoking, this means inferring the effect of smoking on the occurrence of lung cancer numerically. In the present invention, it may mean numerical inference of the influence of genetic factors, such as mutations in specific genes, on the occurrence of a specific disease.
  • the p e refers to the prevalence of risk factors, which means the rate of exposure to risk factors
  • the RR refers to the relative risk, which means the ratio of the outcome probability of the group exposed to the risk factor and the outcome probability of the unexposed group. do.
  • the p e in the formula for calculating PAF is related to smoking. This refers to the exposure rate.
  • the p e may mean the ratio of genetic mutations in predicting the risk of developing a disease. there is.
  • the present invention relates to a device for predicting the genetic risk of developing a disease in an individual.
  • the device for predicting the risk of developing a disease includes analyzing a sample of the individual to detect the presence or absence of a mutation in a single genetic factor related to the occurrence of a disease. may include.
  • One aspect includes selecting a single nucleotide polymorphism (SNP) associated with the occurrence of a disease and a monogenic variant associated with the occurrence of the disease; Analyzing the selected single nucleotide polymorphism (SNP) information and the selected single genetic factor information of the individual from a sample of the individual; A first value in which the selected single nucleotide polymorphism (SNP) information is weighted in proportion to its influence on disease occurrence, and the selected single genetic factor information is weighted in proportion to its influence on disease occurrence.
  • a method for predicting the risk of a disease based on the genetic risk of the disease including the step of obtaining a considered second value is provided.
  • the first value may be a polygenic risk score (PRS) value obtained based on the individual's single nucleotide polymorphism information regarding the disease.
  • PRS polygenic risk score
  • the second value may be a monogenic risk score (MRS) value obtained based on the individual's single genetic factor information for the disease.
  • MRS monogenic risk score
  • Another aspect includes a recording medium recording a method for executing the method described above on a computer.
  • Another aspect is at least one memory; and at least one processor, wherein the processor selects a single nucleotide polymorphism (SNP) associated with the occurrence of the disease and a monogenic variant associated with the occurrence of the disease, and selects the individual from the sample of the individual.
  • SNP single nucleotide polymorphism
  • the selected single nucleotide polymorphism (SNP) information and the selected single genetic factor information of the individual are analyzed, and the influence on disease occurrence is proportional to the selected single nucleotide polymorphism (SNP) information.
  • the risk of the disease is predicted based on the genetic risk of the disease.
  • the method may further include calculating an integrated genetic risk for the disease based on the obtained first and second values.
  • Analyzing the genetic information of an individual is a process that involves physical changes in a biological sample isolated from the individual, specifically a blood, tissue, or cell sample, such as a biopsy or isolated nucleic acid (e.g., DNA or RNA) sample. It includes carrying out.
  • a biological sample isolated from the individual specifically a blood, tissue, or cell sample, such as a biopsy or isolated nucleic acid (e.g., DNA or RNA) sample. It includes carrying out.
  • the physical changes include cutting or fragmenting physical material, such as making a physical entity from a fragment of genomic DNA (e.g., isolating a nucleic acid sample from tissue), combining two or more separate entities into a mixture. It includes performing a chemical reaction involving breaking or forming covalent or non-covalent bonds.
  • the sample of the subject may be blood, and the blood may preferably be whole blood, serum, plasma, or blood mononuclear cells, but is not limited thereto.
  • the method for predicting the risk of developing a disease includes calculating a polygenic risk score (PRS) and a monogenic risk score through genetic mutations contained in a sample of an individual isolated from an individual. can do.
  • PRS polygenic risk score
  • monogenic risk score through genetic mutations contained in a sample of an individual isolated from an individual. can do.
  • the first value may refer to a polygenic risk score (PRS) of a biological sample isolated from an individual in a device for predicting the risk of developing a disease.
  • PRS polygenic risk score
  • the second value may refer to a monogenic risk score of a biological sample isolated from an individual in the device for predicting the risk of disease occurrence.
  • a mutation in a monogenic variant can be used interchangeably with a mutation in a pathogenic variant, and since it is a genetic mutation that acts as a cause for a specific disease, it can be used interchangeably with a mutation in a pathogenic variant.
  • Individuals with mutations in genetic factors may have a several-fold increased risk for certain diseases.
  • the number of genetic mutations that an individual can have at a specific locus is 0, 1, or 2, and in the case of the above pathogenic mutations, more than 99% have 0 mutations, so the frequency of possession of one specific mutation is 1. It is reported very low, less than %.
  • mutations in single genetic factors are advantageous in predicting the risk of developing the disease, but there is a limitation that the frequency is very rare.
  • the single genetic factor may include a gene that acts as a cause of disease development and a gene that can affect the gene from a genomics perspective.
  • the genes that act as single genetic factors for breast cancer are BRCA1, BRCA2, PALB2, ATM, CDH1, CHEK2, BARD1, TP53, MYTYH, NF1, RAD51C, BRIP1, and RAD51D. It may include one or more selected from the group consisting of
  • genes that act as single genetic factors for prostate cancer include HOXB13, ATM, BRCA2, PTEN, CDH1, PMS2, CHEK2, BRCA1, MSH6, MSH2, BARD1, PALB2, and TP53. , and may include one or more selected from the group consisting of NBN.
  • the type of gene that acts as a cause of the disease can be changed based on information about the individual's age, gender, race, etc., which means that the machine learning data set can identify the disease. It may include genetic information of a person who has been diagnosed and genetic information of a person who has not been diagnosed with the disease.
  • the machine learning may include reflecting the influence of genetic mutations on the onset of the disease in terms of effective size.
  • the single genetic factor related to the occurrence of the disease is the odds ratio (OR) for the probability of developing the disease, and the population attributable fraction (PAF). ), or it may be selected through the product of the odds ratio (OR) of the probability of occurrence of the disease and the population attributable fraction (PAF).
  • machine learning of selecting and clustering genes highly related to the disease may be performed using the odds ratio for the probability of occurrence of a specific disease and the population attributable risk fraction. You can.
  • the second value may include clustering one or more single genetic factors into one or more clusters in the step of considering a weight proportional to the influence on disease occurrence.
  • the clustering includes hierarchical clustering, k-means clustering, mixture model clustering, density-based spatial clustering of applications with noise (DBSCAN), and generative clustering. It may use any unsupervised learning technique selected from the group consisting of generative adversarial networks (GAN) and self-organizing map (SOM), but is not limited to this.
  • GAN generative adversarial networks
  • SOM self-organizing map
  • the influence on the occurrence of a specific disease is determined through density-based clustering method (DBSCAN) on the odds ratio for the probability of occurrence of a specific disease and the logarithm of the population attributable risk fraction, respectively.
  • DBSCAN density-based clustering method
  • Clustering can be done by similar genes.
  • the relevance or influence of each cluster on disease occurrence may show a specific pattern.
  • each cluster clustered by the density-based clustering method may be selected as a gene with a higher correlation with disease occurrence as the distance from the origin increases, but is not limited to this.
  • selection and clustering of single genetic factors related to disease occurrence are performed by multiplying the odds ratio (OR) and population attributable fraction (PAF) for the probability of disease occurrence. It may be selected.
  • the multiplied values are sorted in descending order, and the higher the gene is sorted, the more likely it is to be selected as a gene with a higher correlation with the occurrence of the disease.
  • genes with a frequency of less than 0.001% among genetic mutations in the data set may be excluded.
  • the second value may be determined by whether or not a genetic mutation in a single genetic factor selected to be associated with disease occurrence is present.
  • the effective size of each gene was estimated using actual disease onset information, and a second value was determined by weighting it according to its influence.
  • the second value is selected from the group consisting of BRCA1, BRCA2, ATM, PALB2, CHEK2, BARD1, RAD51C, MUTYH, BRIP1, RAD51D, CHD1, TP53, SDHB, and NF1. It may be determined by whether one or more genetic mutations are present.
  • the second value is from the group consisting of HOXB13, ATM, BRCA2, PTEN, CDH1, PMS2, CHEK2, BRCA1, MSH6, MSH2, BARD1, PALB2, TP53, and NBN. It may be determined by whether one or more selected genetic mutations are present.
  • the polygenic risk score may be a method of confirming the association even if it does not act as a cause for the development of a specific disease through a genome wide association study (GWAS).
  • GWAS genome wide association study
  • the polygenic risk score is a value that has gone through a process of modulating the influence value of genetic variants to reflect the characteristics of a specific disease, such as going through a quantification process by weighting single nucleotide polymorphism (SNP) or a specific SNP. It could mean something.
  • the first value may be determined by the presence of a single nucleotide polymorphism (SNP) genetic variant that is in the top 10th percentile or has a frequency of more than twice that of the control group. there is.
  • SNP single nucleotide polymorphism
  • the single nucleotide polymorphism (SNP) genetic variation may be an insertion or deletion of 50 base pairs or less.
  • the specific SNP identified to predict the risk of developing breast cancer is determined by whether one or more mutations are selected from the group consisting of rs11200014, rs78540526, rs4784227, rs4442975, rs62355901, and rs10941679. It may be possible.
  • the specific SNP identified to predict the risk of developing prostate cancer is determined by whether or not one or more mutations are selected from the group consisting of rs10090154, rs11263763, rs56005245, rs12795301, rs191785584, and rs6998061. It may be determined by
  • the type of specific SNP that acts as a cause of the disease may be changed based on information about the individual's age, gender, race, etc.
  • the polygenic risk score and the single gene risk score may be calculated by considering the effective size of a single nucleotide polymorphism analysis and a selected single genetic factor, respectively.
  • the effective size reflects the weights in the order of factors with a high association with disease occurrence or a group of factors with a high association to a factor with a low association or a group of factors with a low association. You can.
  • the first value and the second value may be calculated by weighting in proportion to the effective size of each genetic variation.
  • the step of classifying the disease into a non-risk group, a risk group, a high-risk group, and an extremely high-risk group may be further included according to the risk of occurrence of the disease.
  • Predicting the risk of developing a disease may involve searching for disease-related genetic variants. Specifically, when the individual's single nucleotide polymorphism (SNP) genetic mutation data is input based on the results of analyzing the individual's sample, the individual's polygene is determined through a certain machine learning modeling (algorithm). Calculating a polygenic risk score (PRS). When the individual's single genetic factor genetic mutation data is input, the individual's monogenic risk score is calculated through a predetermined machine learning modeling (algorithm). , MRS), or it may mean adding the calculated polygenic risk score (PRS) and monogenic risk score (MRS).
  • SNP single nucleotide polymorphism
  • PRS machine learning modeling
  • MRS machine learning modeling
  • MRS monogenic risk score
  • the processor of the device for predicting the risk of disease occurrence analyzes genetic information including single nucleotide polymorphism (SNP) information of an individual using a machine learning model to calculate the first value.
  • a second value can be calculated by analyzing the genetic information including the individual's single genetic factor information, and the risk of disease occurrence can be calculated using the first value and the second value.
  • the machine learning model selects single nucleotide polymorphisms (SNPs) associated with the occurrence of the disease and monogenic variants associated with the occurrence of the disease, and selects the selected single nucleotide polymorphisms of the individual from the sample of the individual.
  • SNP single nucleotide polymorphism
  • the disease occurrence risk prediction may be performed using an artificial intelligence model to learn a weighted risk model to determine the disease occurrence risk.
  • the weighted risk model adds the number of risk alleles of SNPs and single genetic factors related to disease for each individual, and may be weighted according to the effective size (contribution) of each SNP or single genetic factor to the disease. .
  • Each individual may have 0, 1, or 2 risk alleles for SNPs and single genes.
  • the machine learning data set may include genetic information of a person diagnosed with the disease and genetic information of a person not diagnosed with the disease.
  • the machine learning may include reflecting the influence of genetic mutations on the onset of the disease in terms of effective size.
  • the effective size is weighted in the order of factors with a high correlation with the occurrence of a disease or a group consisting of factors with a high correlation to a factor with a low correlation or a group consisting of factors with a low correlation. It may be reflected.
  • machine learning algorithms such as logistic regression model, support vector machine, decision tree, nearest-neighbor classifier, neural network, random forest, boosted tree, etc. Any method (technique) may be used, but is not limited to this.
  • the risk of disease occurrence can be predicted using Equation 2 below.
  • P(x_p) is the polygenic risk score (or label)
  • x_p is a set of disease occurrence-related SNP markers
  • M(x_m) is the single gene risk score (or label);
  • x_m is a set of single genetic factors related to disease development
  • F(x) is the disease risk level or incidence estimate calculated by combining the two risk scores P and M.
  • F(x) may be a logistic regression model or a Support Vector machine, but is not limited thereto, and accuracy (performance) may vary depending on the algorithm.
  • a Support Vector machine using machine learning may be used to classify individuals into a non-risk group, a risk group, a high-risk group, and an extremely high-risk group according to the calculated risk of disease occurrence.
  • a device and method for predicting the risk of disease occurrence in an individual is based on a single genetic factor that has a clear causal relationship but appears rarely, based on the genetic information of the individual, and a single nucleotide polymorphism that does not have a high correlation but is common.
  • FIG. 1 is a flowchart illustrating an example of a method for predicting the risk of disease occurrence according to an embodiment.
  • Figure 2 is a flowchart illustrating another example of a method for predicting the risk of disease occurrence according to an embodiment.
  • Figure 3 is a flowchart illustrating an example of calculating a polygenic risk score according to an embodiment.
  • Figure 4 is a flowchart illustrating an example of calculating a single gene risk score according to an embodiment.
  • Figure 5 is a graph illustrating an example of the steps of selecting and clustering a single genetic factor for breast cancer by performing machine learning according to an embodiment.
  • Figure 6 is a graph confirming the correlation between a single genetic factor cluster for breast cancer and a polygenic risk score according to an embodiment.
  • FIG. 7 is a graph illustrating an example of the steps of selecting and clustering a single genetic factor for prostate cancer by performing machine learning according to an embodiment.
  • Figure 8 is a graph confirming the correlation between a single genetic factor cluster for prostate cancer and a polygenic risk score according to an embodiment.
  • the risk of breast cancer and prostate cancer were predicted based on the genetic risk of each disease.
  • Example 1.1 Screening of breast cancer-related genes - based on OR
  • the p-value was calculated using Fisher's exact test, and the odds ratio, relative risk, exposed-proportion, and population attributable risk fraction (PAF) were sequentially calculated using the equations below, and the values are listed in Table 1. indicated. However, genes with a relative risk value of less than 2 were excluded.
  • the odds ratio (OR) of each gene multiplied by the population attributable risk fraction (PAF) can be used as a statistical genetic indicator in selecting specific diseases and related genes, which is the result of this example. It can be applied not only to breast cancer-related gene screening, but also to other diseases caused by other genetic factors. Gene selection through the above method is meaningful in that it can reflect not only genes that are already well known in relation to the target disease, but also genes that are not well known but are likely to be highly related.
  • Example 1.2 Calculation of polygenic risk score based on single nucleotide polymorphism (SNP)
  • Female data was selected as the modeling target dataset, and a dataset containing genomic data QC and information on breast cancer diagnosis of 13,581 women diagnosed with breast cancer and 117,248 women not diagnosed with breast cancer (control group) was obtained.
  • GWAS results for breast cancer we selected Nature 551, 92-94 (2017) by reviewing race, sample size, and methodology, and applied 'Pruning', one of the multigenic risk score calculation methods, to the marker set information provided by the paper. and Thresholding' was applied.
  • markers with low mutation frequency and low quality were excluded as a general QC standard, and as a result of applying the methodology, markers satisfying p-value ⁇ 0.0003 were included in the calculation of the polygenic risk score.
  • the single nucleotide polymorphism (SNP)-based polygenic risk score through the method of Example 1.2 is weighted from the group with the highest probability of developing breast cancer for each of the five classified groups, thereby determining the risk of developing breast cancer. This is reflected in forecast calculations.
  • Example 1.3 Through the method of Example 1.3 above, the weight value for each single genetic factor group is reflected in the breast cancer risk prediction calculation of the present invention.
  • Example 1.4 Predicting the risk of developing breast cancer
  • Example 1.2 above using genetic information. And the polygenic risk score and monogenic risk score obtained in Example 1.3 were combined as shown in Tables 2 to 6 below to predict the individual's risk of developing breast cancer.
  • Example 1.2 The number of patients diagnosed with breast cancer and the number of women not diagnosed with breast cancer were confirmed for each group classified based on the polygenic risk score (PRS) obtained in and the single gene risk score (MRS) obtained in Example 1.3.
  • PRS polygenic risk score
  • MRS single gene risk score
  • Tables 2 to 6 show the number of patients actually diagnosed with breast cancer and the number of controls who were not diagnosed with breast cancer, sequentially from the group classified as having the highest polygenic risk score (PRS) to the group classified as having the lowest. .
  • PRS polygenic risk score
  • the breast cancer incidence rate was confirmed to be directly proportional to the group of the polygenic risk score.
  • the breast cancer incidence rate in the group with a single genetic factor increases from 30% to 900% in proportion to the weight level of the group to which the gene belongs.
  • Table 6 it can be seen that even in the group with the lowest polygenic risk score, if one or more single genetic factors are included, the breast cancer incidence rate increases above the average in the group.
  • Example 2.1 Screening of breast cancer-related genes - DBSCAN based
  • Example 1.1 using the OR value and PAF value of each gene for breast cancer in Table 1, genes highly related to breast cancer development were selected, and genes with similar influence on breast cancer development were clustered together ( clustering) was performed.
  • a graph was drawn with the logarithm of the OR value and PAF value shown in Table 1 for each gene as the x-axis and y-axis, respectively.
  • clustering of adjacent genes was performed using DBSCAN, an unsupervised clustering method based on density, and the results are shown in Figure 5.
  • genes with similar influence on breast cancer development are included in one cluster.
  • the influence of each cluster may show a specific pattern, but specifically, the larger the distance between clusters from the origin on the graph, the greater the influence on the development of breast cancer.
  • Example 2.2 Predicting the risk of developing breast cancer
  • SNP single nucleotide polymorphism
  • PRS polygenic risk score
  • Example 1.2 a group with a low risk of developing a gene was divided into a low group, a group with a high risk of developing a gene into a high group, and groups in between according to a polygenic risk score (PRS) considering single nucleotide polymorphism mutations.
  • PRS polygenic risk score
  • a graph was drawn with each group as the x-axis and the odds ratio for breast cancer development obtained in Table 1 above as the y-axis.
  • the standard was set to have an odds ratio of 1.0 for cases where there is no single genetic mutation (no variant group) and the polygenic risk score is the intermediate group. This is shown in Figure 6.
  • an odds ratio of 1.0 means there is no association between a risk factor for a disease (single genetic factor or polymorphic mutation) and the disease, and if the odds ratio is greater than 1.0, it means an association between the risk factor and the disease, and its value The larger the value, the greater the correlation between the risk factor and the onset of the disease.
  • each cluster group had a large odds ratio in the order of PRS values: high>intermediate>low.
  • the order of BRCA2 and BRCA1 > CHEK2, ATM and PALB2 > BARD1 and TP53 showed high odds values, and as confirmed in Example 2.1 above, classification using DBSCAN It was confirmed that depending on the cluster of genes, they have a similar influence on disease occurrence. In particular, the cluster containing CHEK2, ATM, and PALB2 showed large fluctuations in the odds ratio depending on the PRS value, confirming that the influence of PRS is significant.
  • Example 3.1 Selection of prostate cancer-related genes - using DBSCAN
  • the prostate cancer-related gene selected through the method of Example 3.1 is reflected as a single genetic factor in predicting the onset of prostate cancer according to the present invention.
  • Example 3.2 Calculation of polygenic risk score based on single nucleotide polymorphism (SNP)
  • Female data was selected as the modeling target dataset, and a dataset containing information on the genomic data QC and prostate cancer diagnosis of 8,753 men diagnosed with prostate cancer and 100,203 men not diagnosed with prostate cancer (control group) was obtained.
  • GWAS results for prostate cancer sample size and methodology were reviewed, and 'Pruning and Thresholding', one of the multigenic risk score calculation methods, was applied to the marker set information.
  • markers with low mutation frequency and low quality were excluded as a general QC standard.
  • the entire dataset was sorted in the order of disease risk prediction values, then groups were formed from high to low risk, and in order to review the polygenic risk score (PRS) modeling results, indicators such as odds ratio for breast cancer were compared. .
  • PRS polygenic risk score
  • the single nucleotide polymorphism (SNP)-based polygenic risk score through the method of Example 3.2 is weighted from the group with the highest probability of developing prostate cancer for each of the three groups classified above.
  • the risk of developing cancer is also reflected in prediction calculations.
  • the weight value for each single genetic factor group is reflected in the prediction calculation of the risk of developing prostate cancer according to the present invention.
  • Example 3.4 Predicting the risk of developing prostate cancer
  • SNP single nucleotide polymorphism
  • PRS polygenic risk score
  • Example 3.2 a group with a low risk of developing a gene was divided into a low group, a group with a high risk of developing a gene into a high group, and groups in between according to a polygenic risk score (PRS) considering single nucleotide polymorphism mutations.
  • PRS polygenic risk score
  • a graph was drawn with each group on the x-axis and the odds ratio for developing prostate cancer obtained in Table 7 above as the y-axis.
  • the standard was set to have an odds ratio of 1.0 for cases where there is no single genetic mutation (no variant group) and the polygenic risk score is the intermediate group. This is shown in Figure 8.
  • an odds ratio of 1.0 means there is no association between a risk factor for a disease (single genetic factor or polymorphic mutation) and the disease, and if the odds ratio is greater than 1.0, it means an association between the risk factor and the disease, and its value The larger it is, the greater the correlation between the risk factor and the onset of the disease.
  • each cluster group had a large odds ratio in the order of PRS values: high>intermediate>low.
  • the high odds value was shown in the order of HOXB13 > BRCA2, and ATM.
  • Example 3.3 according to the cluster of genes classified using DBSCAN, the disease It was confirmed that it had a similar influence on occurrence.
  • the prediction model of the present invention predicts disease occurrence more accurately than when considering only one factor, such as a method of predicting the occurrence of a disease by considering only a single genetic mutation and a method of considering only a polygenic risk score without using information about age or family history.
  • the polygenic risk score can provide information about the risk of developing Specifically, even if the polygenic risk score is classified as a group with a relatively low score, or even if the score is average, if a single genetic mutation is present, the group may be classified as a high-risk group depending on the genetic group information, and a group classified as a group with a relatively high polygenic risk score. In this case, even if a single genetic mutation does not exist, the polygenic risk score is low and the risk of developing breast cancer is classified as high compared to the case where a single genetic mutation does not exist, and the occurrence of the disease is accurately predicted by providing information about this in advance. It can be useful for prevention.

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

개체의 단일 염기 다형성과 단일 유전 인자 변이 유무를 이용하여 질병 발생 위험도를 예측하는 장치 및 방법에 관한 것으로, 일 양상에 따른 개체의 질병 발생 위험도를 예측하는 장치 및 방법에 의하면, 개체의 유전정보에 근거하여 인과관계가 분명하나 드물게 나타나는 단일 유전 인자 및 그에 비해 연관성이 높지는 않으나 흔히 나타나는 단일 염기 다형성에 기반하는 다유전자 위험 점수를 모두 반영하여 보다 정확한 유전적 위험도를 기반하여 질병 발생 위험도 예측을 가능케 한다.

Description

질병 발생 위험도 예측 장치 및 방법
개체의 단일 염기 다형성과 단일 유전 인자 변이 유무를 이용하여 질병 발생 위험도를 예측하는 장치 및 방법에 관한 것이다.
단일염기다형성(single nucleotide polymorphism, SNP)은 유전적 염기서열이 개인 간의 차이를 보이는 유전 변이의 일종으로, 단일의 염기가 다른 염기서열을 나타내며, 인구집단 내에서 1%이상의 빈도로 2개의 대립 염기서열(bi-allelic) 변이가 발생하는 위치이다.
최근 전장 유전체 분석(genome-wide association study)과 차세대서열분석(next-generation sequencing) 등의 유전체 분석 기술의 발달로 인간 유전체 변이형, 특히 SNP 정보를 분석할 수 있는 기술이 개발되었다.
최근 연구들에서 각각의 SNP는 일반적으로 낮은 질병 연관성을 나타내고 있지만, SNP의 특정 조합은 높은 질병연관성을 나타낼 수 있음이 밝혀지고 있다. 질병 발생을 예측할 수 있는 최적의 SNP 조합을 발굴하기 위하여 베이즈 요인, 로지스틱 회귀분석, 은닉 마르코브 모델, 서포트 벡터 머신, 랜덤 포레스트 기계 학습 등이 최근 연구들에서 사용되고 있다.
GWAS 분석은 유전자 변이와 연관된 형질(예를 들어, 신장, 모발색상, 눈 색상, 각종 질병 위험도)을 찾는 하나의 탐색 (Exploratory) 방법으로, 일반적으로 케이스(Case, 관심 형질을 가진 집단, 예를 들어 환자군) 와 컨트롤(Control, 형질을 갖지 않는 집단, 예를 들어 정상군)의 유전 정보를 전체 유전체 영역에 걸쳐 서로 비교하여 케이스 상에서 더 많은 빈도를 갖는 유전자 변이를 형질과 연관성을 가진 유전자 변이로 선정하는 방식을 사용하고 있다.
이에 GWAS 분석을 통해 확인된 유전자 변이 다수를 비롯하여 질병의 발생에 대한 원인으로 알려진 특정 유전자들의 단일 유전 인자 변이 유무를 함께 반영하여 질병 발생 위험도를 예측하는 모델을 구축하여 본 발명을 완성하였다.
일 양상은 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)과 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하는 단계; 개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하는 단계; 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제1 값, 및 상기 선별된 단일 유전 인자 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제2 값을 획득하는 단계를 포함하는 질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 방법을 제공하는 것이다.
다른 양상은 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 것이다.
또 다른 양상은 적어도 하나의 메모리; 및 적어도 하나의 프로세서;를 포함하고, 상기 프로세서는 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)와 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하고, 개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하고, 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제1 값, 및 상기 선별된 단일 유전 인자 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제2 값을 획득하여 질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 컴퓨팅 장치를 제공하는 것이다.
본 발명은 임의의 유전자에 대하여 특정 질병에 대한 오즈비(odds ratio, OR), 인구집단 기여 위험분율(population attributable fraction, PAF), 또는 오즈비와 인구집단 기여 위험분율을 곱한 값을 지표로 삼아 특정 질병과 관련된 유전자군 또는 유전자를 선별하는 단계를 포함하고, 상기 선별된 유전자군 또는 유전자내 개체의 유전변이를 분석하여 개체의 특정 질병 발생의 위험도를 예측하는 방법을 제공한다. 구체적으로, 특정 질병의 발생과 연관성이 있는 유전자군 또는 유전자를 선별하는 단계는 특정 질병의 발생에 대한 연관도 또는 영향력이 유사한 유전자끼리 군집화하는 단계를 포함할 수 있다. 보다 구체적으로, 특정 질병에 대한 오즈비와 인구집단 기여 위험분율 각각 또는 이들을 곱한 값을 특정 질병 관련 단일 유전 인자를 가지는 유전자들의 선별을 위한 지표로 할 수 있다. 이는 질병 관련 유전자를 선별함에 있어서, 이론적인 접근 방법이 아니라 실제 임상 데이터에서 질병군 및 비질병군 유전체 데이터로부터 추산하는 방법으로 진행된다.
상기 질병은 유전적 요인에 의해 또는 유전적 요인의 영향이 직간접적으로 미치는 모든 질병을 제한없이 포함할 수 있고, 구체적으로 난소암, 위암, 유방암, 전립선암, 심혈관계 질환, 대사 질환, 당뇨일 수 있으나, 이에 한정되는 것은 아니다. 일 실시예에 있어서, 상기 질병은 유방암 또는 전립선암일 수 있다.
본 발명의 질병의 유전적 위험도를 기반으로 개체의 특정 질병 발생의 위험도를 예측하는 방법은 대상 질병과 상관관계가 이미 잘 알려진 유전자뿐 아니라, 잘 알려져 있지 않으나 관련도가 높을 가능성이 있는 유전자의 변이 정보를 새롭게 발굴 및, 이를 포함하여 질병 발병의 위험도를 보다 정확하게 예측할 수 있다.
본 명세서에서 용어 "유전자"는 단백질 또는 RNA를 코딩하는 핵산 서열(또한 본원에서 "코딩 서열" 또는 "코딩 영역"으로도 언급됨)의 절편을 의미하는데, 이는 경우에 따라 코딩 서열의 상류 또는 하류에 위치될 수 있는 조절 영역 예를 들어 프로모터, 오퍼레이터, 터미네이터 등을 동반한다.
본 명세서에서 용어 "유전 정보"는 대상이 갖는 유전자 분석을 통해 얻어진 정보를 포괄하는 것으로, 예컨대 특정 질병 발생에 관련된 유전 형질 또는 유전자 변이에 대한 정보를 포함한다. 상기 유전자 변이는 미스센스(missense) 변이, 프레임시프트(frameshift mutation) 변이, 넌센스(nonsense) 변이 또는 스플라이스(splice) 변이, 뉴클레오티드의 치환, 삽입 또는 결실 등의 형태일 수 있으나 이에 제한되지 않는다. 특정 예에서, 상기 유전 정보는 단일염기다형성(SNP, single nucleotide polymorphism)을 포함할 수 있다. 이러한 유전 정보에 기반하여 산출된 질병 발생 위험도는 해당 질병에 대한 선천적인 발생 위험도의 의미를 포함한다.
본 명세서에서 "다형성 (polymorphism)"은 하나의 유전자 좌위 (locus)에 두 가지 이상의 대립 유전자 (allele)가 존재하는 경우를 말하며 다형성 부위 중에서, 사람에 따라 단일 염기만이 다른 것을 단일 염기 다형성(single nucleotide polymorphism, SNP)이라 한다. 바람직한 다형성 마커는 선택된 집단에서 1% 이상, 더욱 바람직하게는 5% 또는 10% 이상의 발생 빈도를 나타내는 두 가지 이상의 대립 유전자를 가진다.
본 명세서에서 "오즈비(odds ratio, OR)"는 상대 위험도의 추정치 지표로써 코호트로부터 추정하는데, 특정 질병의 환자(case)와 대조군이 혼합되어 있을 때 특정 유전자에서 희귀변이를 가지고 있는 환자 대 대조군 비율을 변이를 가지고 있지 않은 환자 대 대조군 비율로 나누어 계산한다. 이를 유전자에 대한 오즈비로 고려한다.
본 명세서에서 "인구집단 기여 위험분율(population attributable fraction, PAF)"은 특정 외부요인에 노출됨으로 인하여 특정 질병이 발생했을 것으로 추정되는 경우 그 영향을 수치로 추론한 것을 의미하고, 아래의 수학식 1으로 정의된다. 예를 들어, 흡연이라는 외부 요인에 노출됨으로 인해 폐암이 발생했을 것으로 추정되는 상황에서, 흡연의 폐암 발생에 대한 영향을 수치로 추론한 것을 의미한다. 본 발명에 있어서는, 특정 유전자의 변이 등 유전적 요인의 특정 질병의 발생에 대한 영향을 수치로 추론한 것을 의미할 수 있다.
Figure PCTKR2023016185-appb-img-000001
상기 pe는 prevalence of risk factors로 위험 인자에 노출하는 비율을 의미하고, 상기 RR은 상대위험도(relative risk)로 위험 인자에 노출된 그룹의 결과 확률과 노출되지 않은 그룹의 결과 확률의 비율의 의미한다. 예를 들어, 흡연이라는 외부 요인에 노출됨으로 인해 폐암이 발생했을 것으로 추정되는 상황에서, 흡연의 폐암 발생에 대한 영향을 수치로 추론한 것이 PAF라고 했을 때, PAF를 구하는 수식의 pe는 흡연에 노출되는 비율을 의미한다. 본 발명에 있어서는, 유전자의 변이 등 유전적 요인의 특정 질병의 발생에 대한 영향을 수치로 추론한 것을 PAF라고 했을 때, 상기 pe는 질병 발생 위험도를 예측에서 유전변이 보유 비율을 의미하는 것일 수 있다.
본 발명은 개체의 질병 발생에 관하여 유전적 위험도를 예측하는 장치에 관한 것으로, 상기 질병 발생 위험도를 예측하는 장치는 개체의 샘플을 분석하여, 질병 발생과 관련된 단일 유전 인자의 변이 유무를 검출하는 단계를 포함할 수 있다.
일 양상은 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)와 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하는 단계; 개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하는 단계; 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제1 값, 및 상기 선별된 단일 유전 인자 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제2 값을 획득하는 단계를 포함하는 질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 방법을 제공한다.
일 구체예에 있어서, 상기 제1 값은 질병에 대한 개체의 단일 염기 다형성 정보를 기반으로 획득한 PRS(polygenic risk score) 값일 수 있다.
일 구체예에 있어서, 상기 제2 값은 질병에 대한 개체의 단일 유전 인자 정보를 기반으로 획득한 MRS(monogenic risk score) 값일 수 있다.
다른 양상은 상술한 방법을 컴퓨터에서 실행시키기 위한 방법을 기록한 기록매체를 포함한다.
또 다른 양상은 적어도 하나의 메모리; 및 적어도 하나의 프로세서;를 포함하고, 상기 프로세서는 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)와 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하고, 개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하고, 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제1 값, 및 상기 선별된 단일 유전 인자 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제2 값을 획득하여 질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 컴퓨팅 장치를 제공하는 것이다.
일 구체예에 있어서, 상기 획득한 제1 값과 제2 값을 기반으로 상기 질병에 대한 통합 유전적 위험도를 산출하는 단계를 더 포함하는 것일 수 있다.
상기 개체의 유전정보를 분석하는 것은 개체로부터 분리된 생물학적 시료, 구체적으로 혈액, 조직, 또는 세포 샘플, 예를 들어 생검 또는 분리된 핵산(예를 들어 DNA 또는 RNA) 샘플에서 물리적 변화를 포함하는 과정을 수행하는 것을 포함한다.
상기 물리적 변화는 물리적 물질을 절단 또는 단편화하는 것, 예컨대 게놈 DNA 단편으로부터 물리적 독립체를 제조하는 것(예를 들어, 조직으로부터 핵산 샘플을 분리시키는 것), 2 이상의 별개의 독립체를 혼합물로 합하는 것, 공유 또는 비-공유 결합을 파괴하거나 또는 형성하는 것을 포함하는 화학 반응을 수행하는 것을 포함한다.
일 구체예에 있어서, 상기 개체의 샘플은 혈액일 수 있고, 상기 혈액은 바람직하게 전혈, 혈청, 혈장, 또는 혈액단핵구일 수 있으나, 이로 제한되는 것은 아니다.
상기 질병 발생 위험도를 예측하는 방법은 개체로부터 분리된 개체의 샘플이 포함하는 유전변이를 통해 다유전자 위험 점수(polygenic risk score, PRS) 및 단일 유전자 위험 점수(monogenic risk score)을 계산하는 단계를 포함할 수 있다.
일 구체예에 있어서, 상기 제1 값은 상기 질병 발생 위험도를 예측하는 장치는 개체로부터 분리된 생물학적 시료의 다유전자 위험 점수(polygenic risk score, PRS)를 의미할 수 있다.
일 구체예에 있어서, 상기 제2 값은 상기 질병 발생 위험도를 예측하는 장치는 개체로부터 분리된 생물학적 시료의 단일 유전자 위험 점수(monogenic risk score)를 의미하는 것일 수 있다.
일 구체예에 있어서, 단일 유전 인자(monogenic variant)의 변이는 병원성 인자(pathogenic variant)의 변이와 상호호환적으로 사용될 수 있고, 특정 질병에 대한 원인으로 작용하는 유전 변이이므로, 특정 질병에 대해 단일 유전 인자의 변이(또는 병원성 인자의 변이)를 가진 개인은 특정 질병에 대한 위험도가 수 배 높아질 수 있다. 하지만, 개인이 특정 좌위에서 보유할 수 있는 유전변이의 개수는 0, 1, 또는 2개이며, 상기 병원성 변이의 경우 99% 이상 0개의 변이를 가지므로, 특정 변이 1개에 대한 보유 빈도가 1% 미만으로 매우 낮게 보고된다. 즉, 단일 유전 인자의 변이는 상기 질병 발생 위험도를 예측하는데 유리하나 그 빈도가 매우 드문 한계점이 있다.
일 구체예에 있어서, 상기 단일 유전 인자는 질병 발생 원인으로 작용하는 유전자, 및 유전체학 관점으로 상기 유전자에 영향을 줄 수 있는 유전자를 포함하는 것일 수 있다.
일 실시예에 있어서, 상기 질병이 유방암인 경우, 유방암의 단일 유전 인자로 작용하는 유전자는 BRCA1, BRCA2, PALB2, ATM, CDH1, CHEK2, BARD1, TP53, MYTYH, NF1, RAD51C, BRIP1, 및 RAD51D로 이루어진 군으로부터 선택된 하나 이상을 포함할 수 있다.
일 실시예에 있어서, 상기 질병이 전립선암인 경우, 전립선암의 단일 유전 인자로 작용하는 유전자는 HOXB13, ATM, BRCA2, PTEN, CDH1, PMS2, CHEK2, BRCA1, MSH6, MSH2, BARD1, PALB2, TP53, 및 NBN로 이루어진 군으로부터 선택된 하나 이상을 포함할 수 있다.
일 구체예에 있어서, 상기 질병 발생 원인으로 작용하는 유전자의 종류는 개체의 나이, 성별, 인종 등에 대한 정보에 기초해 변경될 수 있으며, 이는 상기 기계 학습(machine learning)의 데이터 세트는 상기 질병을 진단을 받은 자의 유전정보와, 상기 질병을 진단을 받지 않은 자의 유전정보를 포함할 수 있다.
일 구체예에 있어서, 상기 기계 학습(machine learning)은 유전 변이들이 상기 질병의 발병에 미치는 영향력을 유효크기로 반영하는 것을 포함하는 것일 수 있다.
본 발명의 질병 발생 위험도 예측하기 위한 정보 제공 방법에 있어서, 상기 질병 발생과 관련된 단일 유전 인자는 질병의 발생 확률에 대한 오즈비(odds ratio, OR), 인구집단 기여 위험분율(population attributable fraction, PAF), 또는 질병의 발생 확률에 대한 오즈비(odds ratio, OR) 및 인구집단 기여 위험분율(population attributable fraction, PAF)을 곱한 값을 통해 선별되는 것일 수 있다.
일 구체예에 있어서, 특정 질병의 발생 확률에 대한 오즈비 및 인구집단 기여 위험분율을 이용하여, 상기 질병과 관련도가 높은 유전자를 선별 및 군집화(clustering)의 기계 학습(machine learning)을 수행할 수 있다.
일 구체예에 있어서, 상기 제2 값은 질병 발생에 대한 영향력에 비례하여 가중치를 고려하는 단계에서 하나 이상의 단일 유전 인자들을 하나 이상의 클러스터로 군집화(clustering)하는 단계를 포함할 수 있다.
상기 군집화는 계층적 군집화(hierarchical clustering), k-평균 군집화(k-means clustering), 혼합 모델 군집화(mixture model clustering), 밀도 기반 군집화(density-based spatial clustering of applications with noise, DBSCAN), 생성적 적대 신경망(generative adversarial networks, GAN) 및 자기조직화지도(selforganizing map, SOM)로 이루어진 군에서 선택되는 어느 하나의 비지도 학습(unsupervised learning) 기법을 이용하는 것일 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 일 실시예에 있어서, 각각 특정 질병의 발생 확률에 대한 오즈비 및 인구집단 기여 위험분율의 값에 log를 취한 값에 밀도 기반 군집화 방법(DBSCAN)을 통해, 특정 질병 발생에 대한 영향력이 유사한 유전자별로 군집화할 수 있다. 이 때, 각 클러스터의 질병 발생에 대한 관련도 또는 영향력은 특정 패턴을 나타낼 수 있다. 일 실시예에 있어서, 상기 밀도 기반 군집화 방법에 의해, 군집화된 각 클러스터는 원점과의 거리가 클수록, 질병 발생과 관련도가 높은 유전자로 선별되는 것일 수 있으나, 이에 제한되는 것은 아니다.
일 구체예에 있어서, 질병 발생과 관련된 단일 유전 인자의 선별 및 군집화는 질병의 발생 확률에 대한 오즈비(odds ratio, OR) 및 인구집단 기여 위험분율(population attributable fraction, PAF)을 곱한 값을 통해 선별되는 것일 수 있다. 상기 곱한 값을 내림차순으로 정렬하여 상위에 정렬된 유전자일수록 상기 질병 발생과 관련도가 높은 유전자로 선별되는 것일 수 있다.
일 구체예에 있어서, 상기 질병 발생과 관련된 단일 유전 인자의 선별에 있어서, 데이터 세트내 유전 변이 중 빈도가 0.001%미만인 유전자에 대해서는 제외할 수 있다.
일 구체예에 있어서, 상기 제2 값은 질병 발생과 관련된 것으로 선별된 단일 유전 인자의 유전 변이의 보유 여부에 의해 결정되는 것일 수 있다. 본 실시예에 있어서, 유전체 데이터 세트로부터 단일 유전 인자를 선별한 후 실제 발병정보를 이용하여 유전자별로 유효크기를 추산하고 그 영향력에 따라 가중치를 두어 제2 값을 결정하였다.
일 구체예에 있어서, 상기 질병이 유방암인 경우, 제2 값은 BRCA1, BRCA2, ATM, PALB2, CHEK2, BARD1, RAD51C, MUTYH, BRIP1, RAD51D, CHD1, TP53, SDHB, 및 NF1로 이루어진 군에서 선택된 1종 이상의 유전 변이 보유 여부에 의해 결정되는 것일 수 있다.
일 구체예에 있어서, 상기 질병이 전립선암인 경우, 제2 값은 HOXB13, ATM, BRCA2, PTEN, CDH1, PMS2, CHEK2, BRCA1, MSH6, MSH2, BARD1, PALB2, TP53, 및 NBN 로 이루어진 군에서 선택된 1종 이상의 유전 변이 보유 여부에 의해 결정되는 것일 수 있다.
일 구체예에 있어서, 다유전자 위험 점수(polygenic risk score, PRS)은 전장 유전체 연관분석 연구(genome wide association study, GWAS)를 통해 특정 질병 발병에 대한 원인으로 작용하지 않더라도 연관성을 확인하는 방법일 수 있다. 선천적인 요인에 의한 특정 질병의 위험도를 측정하는 방법 중 하나로, 복수의 유전적 요인을 예측 모델 등에 반영하면 영향력이 높아질 수 있다. 구체적으로, 다유전자 위험 점수는 단일 염기 다형성(single nucleotide polymorphism, SNP) 또는 특정 SNP에 가중치를 두어 수치화 과정을 거치는 등 특정 질환의 특성을 반영하여 유전변이들의 영향력 값을 변조하는 과정을 거친 값을 의미하는 것일 수 있다.
일 구체예에 있어서, 상기 제1 값은 질병 발생 연관도가 상위 10 백분위(percentile)에 해당하거나 대조군 대비 2배 이상의 빈도를 보이는 단일 염기 다형성(SNP) 유전 변이의 보유 여부에 의해 결정되는 것일 수 있다.
일 구체예에 있어서, 상기 단일 염기 다형성(SNP) 유전 변이는 50 이하의 염기쌍의 삽입 또는 결실일 수 있다.
일 구체예에 있어서, 상기 질병이 유방암인 경우, 유방암 발병 위험도를 예측하기 위해 확인한 특정 SNP는 rs11200014, rs78540526, rs4784227, rs4442975, rs62355901, 및 rs10941679으로 이루어진 군에서 선택된 1종 이상의 변이 보유 여부에 의해 결정되는 것일 수 있다.
일 구체예에 있어서, 상기 질병이 전립선암인 경우, 전립선암 발병 위험도를 예측하기 위해 확인한 특정 SNP는 rs10090154, rs11263763, rs56005245, rs12795301, rs191785584, 및 rs6998061으로 이루어진 군에서 선택된 1종 이상의 변이 보유 여부에 의해 결정되는 것일 수 있다.
일 구체예에 있어서, 상기 질병 발생 원인으로 작용하는 특정 SNP의 종류는 개체의 나이, 성별, 인종 등에 대한 정보에 기초해 변경될 수 있다.
일 구체예에 있어서, 상기 다유전자 위험 점수 및 단일 유전자 위험 점수는 각각 단일 염기 다형성 분석 및 선별된 단일 유전 인자에 그 유효크기를 고려하여 산출된 것일 수 있다.
일 구체예에 있어서, 상기 유효크기는 질병 발생 연관도가 높은 인자 또는 연관도가 높은 인자들로 이루어진 군부터 연관도가 낮은 인자 또는 연관도가 낮은 인자들로 이루어진 군의 순서대로 가중치가 반영된 것일 수 있다.
일 구체예에 있어서, 상기 제1 값 및 제2 값은 각 유전변이 유효크기에 비례하여 가중치를 두어 산출하는 것일 수 있다.
일 구체예에 있어서, 상기 질병의 발생 위험도에 따라 비-위험군, 위험군, 고위험군, 초고위험군으로 분류하는 단계를 더 포함할 수 있다.
질병 발생 위험도를 예측하는 것은 질병 관련 유전 변이를 탐색하는 것을 포함할 수 있다. 구체적으로, 개체의 샘플을 분석한 결과를 기반으로 개체의 단일 염기 다형성(Single nucleotide polymorphism, SNP) 유전 변이 데이터를 입력하면 소정의 기계 학습(machine learning) 모델링(알고리즘)을 통해 상기 개체의 다유전자 위험 점수(polygenic risk score, PRS)를 산출하는 것, 개체의 단일 유전 인자 유전 변이 데이터를 입력하면 소정의 기계 학습(machine learning) 모델링(알고리즘)을 통해 상기 개체의 단일 유전자 위험 점수(monogenic risk score, MRS)를 산출하는 것, 또는 상기 산출된 다유전자 위험 점수(polygenic risk score, PRS)와 단일 유전자 위험 점수(monogenic risk score, MRS)을 합산하는 것을 의미할 수 있다.
일 구체예에 있어서, 상기 질병 발생 위험도를 예측하기 위한 장치의 프로세서는 기계 학습 모델을 이용하여 개체의 단일 염기 다형성(Single nucleotide polymorphism, SNP) 정보를 포함하는 유전 정보를 분석하여 제1 값을 산출하고, 개체의 단일 유전 인자 정보를 포함하는 유전 정보를 분석하여 제2 값을 산출하고, 상기 제1 값 및 상기 제2 값을 이용하여 질병 발생의 위험도를 계산할 수 있다. 이 경우, 기계 학습 모델은 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)과 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하고, 개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하고, 각각 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제1값 및 상기 선별된 단일 유전 인자 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제2 값을 계산하고, 산출된 질병 발생 위험도에 따라 비-위험군, 위험군, 고위험군, 초고위험군으로 분류하도록 학습될 수 있다.
일 구체예에 있어서, 상기 질병 발생 위험도 예측은 인공지능 모델을 이용하여 질병 발생 위험도를 결정하기 위한 가중치 위험도 모델을 학습시킬 수 있다.
상기 가중치 위험도 모델은 각각 개체에 대한 질병과 관련된 SNP 및 단일 유전 인자들의 위험 대립 유전자의 수를 더하되, 각 SNP또는 단일 유전 인자의 질병에 대한 유효크기(기여도)에 따라 가중치를 부여한 것일 수 있다. 각 개체의 SNP 및 단일 유전 인자의 위험 대립 유전자는 0개, 1개, 또는 2개를 가질 수 있다.
일 구체예에 있어서, 상기 기계 학습(machine learning)의 데이터 세트는 상기 질병을 진단을 받은 자의 유전정보와, 상기 질병을 진단을 받지 않은 자의 유전정보를 포함할 수 있다.
일 구체예에 있어서, 상기 기계 학습(machine learning)은 유전 변이들이 상기 질병의 발병에 미치는 영향력을 유효크기로 반영하는 것을 포함하는 것일 수 있다.
일 구체예에 있어서, 상기 유효크기는 질병의 발생과 연관도가 높은 인자 또는 연관도가 높은 인자들로 이루어진 군부터 연관도가 낮은 인자 또는 연관도가 낮은 인자들로 이루어진 군의 순서대로 가중치가 반영된 것일 수 있다.
상기 질병 발생 위험도를 계산하기 위해 기계 학습으로 로지스틱 회귀(logistic regression) 모델, Support Vector machine, 의사결정나무(decision tree), Nearest-neighbor classifier, Neural network, Random forest, Boosted tree 등의 알고리즘 및/또는 방식(기법)을 사용할 수 있으나, 이에 한정되지 않는다.
일 구체예에 있어서, 하기 수학식 2를 통해 질병 발생 위험도를 예측할 수 있다.
Figure PCTKR2023016185-appb-img-000002
P(x_p)는 다유전자 위험점수(또는 레이블)이고,
x_p는 질병 발생 관련SNP 마커 세트이고,
M(x_m)은 단일 유전자 위험 점수(또는 레이블)이고,
x_m은 질병 발생 관련 단일 유전 인자 세트이고,
F(x)는 두가지 위험 점수 P 및 M을 결합하여 산출되는 질병 발생 위험도 수준 또는 발병 추정치이다.
일 구체예에 있어서, 상기 F(x)는 로지스틱 회귀 모델 또는 Support Vector machine일 수 있으나, 이에 한정되는 것은 아니며, 정확도(성능)는 알고리즘에 따라 달라질 수 있다.
일 구체예에 있어서, 기계 학습으로 Support Vector machine을 이용하여, 산출된 질병 발생의 위험도에 따라 개체를 비-위험군, 위험군, 고위험군, 초고위험군으로 분류하는 것일 수 있다.
다만, 전술한 알고리즘 및/또는 방식(기법)은 예시적인 것으로 본 발명의 사상이 이에 한정되는 것은 아니다.
일 양상에 따른 개체의 질병 발생 위험도를 예측하는 장치 및 방법에 의하면, 개체의 유전정보에 근거하여 인과관계가 분명하나 드물게 나타나는 단일 유전 인자 및 그에 비해 연관성이 높지는 않으나 흔히 나타나는 단일 염기 다형성에 기반하는 다유전자 위험 점수를 모두 반영하여 보다 정확한 유전적 위험도를 기반하여 질병 발생 위험도 예측을 가능케 한다.
도 1은 일 실시예에 따른 질병 발생 위험도를 예측하는 방법의 일 예를 설명하기 위한 흐름도이다.
도 2는 일 실시예에 따른 질병 발생 위험도를 예측하는 방법의 다른 예를 설명하기 위한 흐름도이다.
도 3은 일 실시예에 따른 다유전자 위험 점수를 산출하는 일 예를 설명하기 위한 흐름도이다.
도 4은 일 실시예에 따른 단일 유전자 위험 점수를 산출하는 일 예를 설명하기 위한 흐름도이다.
도 5는 일 실시예에 따른 기계 학습을 수행하여 유방암의 단일 유전 인자를 선별 및 군집화하는 단계의 일 예를 설명하기 위한 그래프이다.
도 6은 일 실시예에 따른 유방암의 단일 유전 인자 클러스터의 다유전자 위험 점수와의 상관관계를 확인한 그래프이다.
도 7는 일 실시예에 따른 기계 학습을 수행하여 전립선암의 단일 유전 인자를 선별 및 군집화하는 단계의 일 예를 설명하기 위한 그래프이다.
도 8은 일 실시예에 따른 전립선암의 단일 유전 인자 클러스터의 다유전자 위험 점수와의 상관관계를 확인한 그래프이다.
이하, 본 발명의 이해를 돕기 위하여 바람직한 실시예를 제시한다. 그러나 하기의 실시예는 본 발명을 보다 쉽게 이해하기 위하여 제공되는 것일 뿐, 하기 실시예에 의해 본 발명의 내용이 한정되는 것은 아니다.
질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 방법의 일 구체예로, 상기 질병이 유방암 또는 전립선암인 경우, 각 질병의 유전적 위험도를 기반하여 유방암 위험도 및 전립암의 위험도를 예측하였다.
실시예 1.1. 유방암 관련 유전자의 선별 - OR X PAF 값 기반
유방암 발병 여부 및 단일 유전인자 변이 보유 여부를 기준으로, 유방암이며, 단일 유전인자 변이 포함 샘플을 (a), 유방암이며 단일 유전인자 변이를 미포함한 샘플을 (b), 유방암이 아니며 단일 유전인자 변이를 포함하는 샘플을 (c), 및 유방암이 아니며 단일유전인자 변이 미포함 샘플을 (d)으로 두었으며, 각각의 값을 아래의 식에 대입하여 유전자별 통계 기준치를 구하였다.
우선, Fisher's exact test를 통해 p-값을 산출하였고, 아래의 식을 통해 순차적으로 오즈비, 상대 위험도, exposed-proportion, 및 인구집단 기여 위험분율(PAF)를 계산하였으며, 그 값을 표 1에 나타내었다. 단, 상대 위험도 값이 2 미만으로 나타나는 유전자는 제외하였다.
Figure PCTKR2023016185-appb-img-000003
Figure PCTKR2023016185-appb-img-000004
Figure PCTKR2023016185-appb-img-000005
No gene OR*PAF OR p-value RR exposed proportion PAF
1 BRCA1 0.09254235 14.06872 2.E-20 14.03062 0.000508 0.006578
2 BRCA2 0.07326647 6.87475 2.E-35 6.82972 0.001848 0.010657
3 ATM 0.02555615 4.11091 4.E-19 4.09173 0.002023 0.006217
4 PALB2 0.02114053 4.28661 1.E-15 4.27100 0.001515 0.004932
5 CHEK2 0.00840107 2.73503 2.E-08 2.72795 0.001783 0.003072
6 BARD1 0.00406168 3.54031 2.E-04 3.53713 0.000453 0.001147
7 RAD51C 0.00365523 4.51247 1.E-03 4.50984 0.000231 0.000810
8 MUTYH 0.00335833 1.17757 2.E-02 1.17421 0.016417 0.002852
9 BRIP1 0.00285680 2.79108 9.E-04 2.78869 0.000573 0.001024
10 RAD51D 0.00106846 3.08452 4.E-02 3.08365 0.000166 0.000346
11 CDH1 0.00103956 8.01808 2.E-01 8.01750 0.000018 0.000130
12 TP53 0.00100285 4.00950 7.E-02 4.00875 0.000083 0.000250
13 SDHB 0.00100285 4.00950 7.E-02 4.00875 0.000083 0.000250
14 NF1 0.00066858 4.00925 1.E-01 4.00875 0.000055 0.000167
표 1에 나타낸 바와 같이, 각 유전자의 오즈비(OR)과 인구집단 기여 위험분율(PAF)의 값을 곱한 값을 내림차순으로 나열했을 때, 상위에 나열되는 유전자와 참고문헌인 L. Dorling et al. N Engl J Med 2021; 384:428-439에서 특정 유전자의 단백질 생성 종결 변이와 유방암 위험도가 관련이 있는 것으로 발표한 9개의 유전자(ATM, BRCA1, BRCA2, CHEK2, PALB2, BARD1, RAD51C, RAD51D, TP53)가 상응함을 확인하였다.
이 결과를 통해, 각 유전자의 오즈비(OR)과 인구집단 기여 위험분율(PAF)의 값을 곱한 값은 특정 질병과 관련 유전자를 선별하는데 있어 통계유전학 지표로 활용될 수 있으며, 이는 본 실시예의 유방암 관련 유전자 선별뿐 아니라, 다른 유전적 요인으로 발병하는 다른 질환에도 적용가능 할 것이다. 상기의 방법을 통한 유전자 선별은 대상 질병과 관련하여 이미 잘 알려진 유전자뿐 아니라, 잘 알려져 있지 않으나 관련도가 높을 가능성이 있는 유전자도 반영할 수 있다는 점에서 의미가 있다.
상기의 방법을 통해 선별한 유방암 관련 유전자는 본원 발명에 따른 유방암의 발병 예측함에 있어 단일 유전 인자로 반영된다.
실시예 1.2. 단일 염기 다형성(SNP)기반 다유전자 위험 점수 산출
모델링 대상 데이터세트로 여성 데이터를 선별하였고, 유방암 진단받은 여성 13,581명과 유방암 진단받지 않은(대조군) 117,248명의 유전체 데이터 QC 및 유방암 진단 여부에 대한 정보를 포함하는 데이터세트를 확보하였다. 유방암에 대한 GWAS 결과들 중 인종, 샘플 규모 및 방법론 등을 검토하여 Nature 551, 92-94 (2017)을 선정하였고 해당 논문이 제공하는 마커세트 정보에 다유전자 위험 점수 계산방식들 중 하나인 'Pruning and Thresholding'을 적용하였다. 이 때, 변이빈도가 낮은 마커 및 퀄리티가 낮은 마커 등은 일반적인 QC 기준으로써 제외하였으며, 해당 방법론의 적용 결과로써 p-value < 0.0003을 만족하는 마커들이 다유전자 위험 점수 계산에 포함되었다. 전체 데이터세트를 질병 위험도 예측값 순서로 정렬 후 그룹을 구성하여 위험도가 높은 것부터 낮은 것으로 정렬하였고, 다유전자 위험 점수(PRS) 모델링 결과를 검토하기 위해 유방암에 대한 오즈비 등 지표를 기준으로 삼아 비교하였다. 전체 샘플을 100개의 그룹으로 분리한 후, 10개씩 취합하였을 때, 상위 2개의 그룹의 위험도가 중간그룹의 위험도의 2배 이상이 되는 것을 확인하였는데 이는 유방암에 대한 유사한 연구들에서 나타나는 결과와 동일한 맥락이라고 볼 수 있을 뿐이고, 고위험 그룹을 평균 또는 하위 그룹과 비교하는 기존 방법론이 아니라 위험 수준별 그룹 지정을 위해 5개의 그룹으로 분류하였다.
상기 실시예 1.2.의 방법을 통한 단일 염기 다형성(SNP) 기반 다유전자 위험 점수는 본원 발명의 유방암 발병 예측함에 있어 상기 분류된 5개의 그룹별로 유방암 발병 가능성이 가장 높은 그룹부터 가중치를 두어 유방암 발병 위험도 예측 계산에 반영된다.
실시예 1.3. 단일 유전자 위험 점수(monogenic risk score) 산출
유방암의 단일 유전 인자를 선별하기 위해 여성 샘플에 존재하는 유전변이를 취합한 후, 기능분석(annotation)을 수행하였다. 유전변이 빈도가 5% 이상인 변이는 제외하였으며, 유전변이가 병원성 변이인지 여부를 예측하였다. 전체 샘플 중 2.6%에 해당되는 1200여개의 유전 변이에서 병원성을 확인하였다. 유전자별 유방암 발병에 미치는 영향력을 통계치로 분석하기 위해 상기 실시예1.2. 및 표 1에 나타낸 방법으로 유전자별 인구집단 기여 위험분율(PAF)를 계산하였다. 선별한 병원성 유전자 중 가중치를 둘 유전자를 분류하기 위해 각 유전자별 오즈비와 인구집단 기여 위험분율의 값을 곱한 값에 따라 큰 값부터 5개의 유전자 그룹을 설정하였고, 값이 큰 그룹부터 각각 10, 9, 8, 7, 6으로 점수를 부여하였다. 이때, 각각의 점수는 상대적으로 낮은 영향력을 가진 유전자에 대해서도 점수를 부여하기 위한 것이다. 유전 변이의 영향력에 따라 가중치는 두는 것에 의미가 있을 뿐, 가중치로 부여된 숫자의 크기나 간격은 상기 실시예에 의해 제한되는 것은 아니다.
상기 실시예 1.3.의 방법을 통해 단일 유전 인자 그룹별 가중치 값은 본원 발명의 유방암 발병 위험도 예측 계산에 반영된다.
실시예 1.4. 유방암 발병 위험도 예측
유전 정보를 이용하여 상기 실시예 1.2. 및 실시예 1.3.에서 구한 다유전자 위험 점수(polygenic risk score) 및 단일 유전자 위험 점수(monogenic risk score)를 하기의 표 2 내지 표6과 같이 조합하여 개체의 유방암 발병 위험도를 예측하였다.
상기 실시예 1.2. 에서 구한 다유전자 위험 점수(PRS) 및 실시예1.3.에서 구한 단일 유전자 위험점수(MRS)를 바탕으로 분류된 그룹별로 유방암 진단된 환자의 수 및 진단받지 않은 여성의 수를 확인하였다.
다인자 위험 점수(PRS)가 가장 높은 것으로 분류된 그룹부터 가장 낮은 것으로 분류된 그룹까지 순차적으로 그룹 내 실제 유방암 진단받은 환자의 수와 유방암 진단받지 않은 대조군의 수를 표 2 내지 표 6에 나타내었다.
그룹 PRS MRS 유방암 대조군 합계 유방암 비율
6_5 5 6 7 4 11 63.636%
10_5 5 10 32 23 55 58.182%
8_5 5 8 15 18 33 45.455%
9_5 5 9 37 48 85 43.529%
7_5 5 7 77 278 355 21.690%
Novar_5 5 0 3681 17372 21053 17.484%
그룹 PRS MRS 유방암 대조군 합계 유방암 비율
10_4 4 10 28 29 57 49.123%
9_4 4 9 26 44 70 37.143%
8_4 4 8 11 23 34 32.353%
7_4 4 7 73 335 108 17.892%
6_4 4 6 0 3 3 0.000%
Novar_4 4 0 2605 18405 21010 12.399%
그룹 PRS MRS 유방암 대조군 합계 유방암 비율
10_3 3 10 15 20 35 42.857%
9_3 3 9 26 47 73 35.616%
8_3 3 8 11 27 38 28.947%
6_3 3 6 3 9 12 25.000%
7_3 3 7 50 338 388 12.887%
Novar_3 3 0 2144 18904 21048 10.186%
그룹 PRS MRS 유방암 대조군 합계 유방암 비율
10_2 2 10 23 22 45 51.111%
6_2 2 6 4 6 10 40.000%
9_2 2 9 29 51 80 36.250%
8_2 2 8 7 42 49 14.286%
7_2 2 7 35 342 377 9.284%
Novar_2 2 0 1748 19276 21024 8.314%
그룹 PRS MRS 유방암 대조군 합계 유방암 비율
10_1 1 10 29 34 43 43.032%
9_1 1 9 12 61 73 16.438%
8_1 1 8 4 34 38 10.526%
7_1 1 7 32 349 381 8.399%
6_1 1 6 0 8 8 0.000%
Novar_1 1 0 1212 19804 21016 5.767%
표 2 내지 표 6에 나타낸 바와 같이, 유방암 발병 비율은 다유전자 위험 점수의 그룹에 정비례하는 것을 확인하였다. 또한, 단일 유전 인자를 포함하지 않는 그룹에 비해 단일 유전 인자를 가진 그룹은 유전자가 속한 그룹의 가중치 수준에 비례하여 30% 내지 900%까지 유방암 발병 비율이 상승함을 확인하였다. 표 6을 참조하면, 다유전자 위험 점수가 가장 낮은 그룹에서도 단일 유전 인자를 1개 이상 포함하는 경우 유방암 발병 비율이 그룹 내 평균 이상으로 높아지는 것을 알 수 있다.
상기 실시예1.2.에서 사용한 데이터세트와 동일한 데이터 세트인 영국 여성 45-74세의 유방암 누적 발병률은 2020년 기준 8.29%으로 보고되어, 그 값이 상기 표 5의 다유전자 위험 점수 2그룹의 유방암 발병 비율(8.314%)과 유사함을 확인하였다.
실시예 2.1. 유방암 관련 유전자의 선별 - DBSCAN 기반
상기 실시예 1.1과 동일한 방법으로, 표 1의 유방암에 대한 각 유전자의 OR 값 및 PAF 값을 이용하여, 유방암 발생과 관련도가 높은 유전자의 선별 및, 유방암 발병에 대한 영향력이 유사한 유전자끼리 군집화(clustering)을 수행하였다.
구체적으로, 각 유전자에 대하여 표 1에 나타낸 OR 값 및 PAF 값에 log를 취한 값을 각각 x축, y축으로 하여 그래프를 그렸다. 그 후, 밀도에 따른 비지도방식 클러스터링 방법인 DBSCAN을 이용하여, 인접한 유전자끼리 군집화(clustering)를 수행하였고, 그 결과를 도 5에 나타내었다. 이 때, 유방암 발병에 대한 영향력이 유사한 유전자끼리 하나의 클러스터에 포함된다. 각 군집별 영향력은 특정 패턴을 나타낼 수 있으나, 구체적으로 그래프상 원점에서 클러스터간 거리의 값이 커질수록 유방암 발병에 대한 영향력인 큰 것임을 의미한다.
도 5에 나타낸 바와 같이, 유방암 발병과 연관된 유전자 중, BRCA2 및 BRCA1이 하나의 클러스터를 이루고, CHEK2, ATM 및 PALB2가 하나의 클러스터를 이루고, BARD1 및 TP53이 하나의 클러스터를 이루는 것을 확인하였다. 이 때, BRCA2 및 BRCA1> CHEK2, ATM 및 PALB2> BARD1 및 TP53 순서로 원점으로부터 떨어져 있는 거리가 큰 값을 가져, 유방암 발병에 대한 영향력의 크기는 이에 비례할 것으로 예상할 수 있다. 이는 상기 실시예 1.1 내지 1.4와 유사한 결과를 나타내는 것을 확인하였다.
실시예 2.2. 유방암 발병 위험도 예측
상기 실시예 2.1의 DBSCAN 방법에 따른 유방암 발병 관련 유전자 및 영향력에 따른 군집화 결과에, 상기 실시예 1.2의 단일 염기 다형성(SNP) 기반 다유전자 위험 점수(PRS)를 반영하여, 실제 유방암 발병 위험도를 예측하였다.
구체적으로, 실시예 1.2와 마찬가지의 방법으로, 단일 염기 다형성 변이를 고려한 다유전자 위험 점수(PRS)에 따라 유전자 발병 위험도가 낮은 그룹을 low 그룹, 위험도가 높은 그룹을 high 그룹, 그 사이의 그룹을 intermediate 그룹으로 나눈 후, 각각을 x축으로 하였고, 상기 표 1에서 구한 유방암 발병에 관한 오즈비를 y축으로 하여 그래프를 그렸다. 이 때, 단일 유전 인자 변이가 없고(no variant 군) 다유전자 위험 점수가 intermediate 그룹인 경우를 오즈비 1.0 값을 갖도록 기준을 설정하였다. 이를 도 6에 나타내었다. 일반적으로, 오즈비는 1.0이면 질병에 대한 위험인자(단일 유전인자 또는 다형성 변이)와 질병간의 연관성이 없음을 의미하고, 오즈비가 1.0 보다 큰 경우, 위험인자와 질병 간의 연관성을 의미하고, 그 값이 클수록 위험인자와 질병 발병의 연관성이 큰 것을 의미한다.
도 6에 나타낸 바와 같이, 각 클러스터군은 PRS값이 high> intermediate> low 순서대로 오즈비가 큰 값을 가지는 것을 확인하였다. 또한, 클러스터간 유방암 발병에 영향력을 비교한 결과, BRCA2 및 BRCA1> CHEK2, ATM 및 PALB2> BARD1 및 TP53 순서로 높은 오즈값을 나타내는 점을 통해, 상기 실시예 2.1에서 확인한 바와 같이 DBSCAN을 이용한 분류한 유전자의 군집에 따라, 질병 발생에 대한 유사한 영향력을 가지는 것을 확인하였다. 특히, CHEK2, ATM 및 PALB2를 포함하는 클러스터는 PRS 값에 따라 오즈비의 변동 폭이 큰 것을 통해, PRS의 영향력이 크게 작용하는 양상을 확인하였다.
이상의 결과를 통해, 유방암과 관련된 유전자의 변이 유무를 통해 유방암 발생의 위험도를 예측하는 단계에서, DBSCAN 방법을 통해 각 단일 유전 인자의 영향력을 군집화한 후 이를 기반으로 다유전자 위험 점수를 반영하였을 때, 보다 정확하게 유방암 발생 위험도를 예측할 수 있음을 확인하였다. 또한, 유방암에 한정되지 않고, 유전 변이에 의해 질병 발생에 영향을 받는 모든 질병에 대해 질병 발생 위험도를 예측하는데 유용하게 사용될 수 있다.
실시예 3.1. 전립선암 관련 유전자의 선별 - DBSCAN를 이용
전립선암 발병 여부 및 단일 유전인자 변이 보유 여부를 기준으로, 상기 실시예 1.1.과 동일한 방법을 통해 유전자별 통계 기준치를 구하였다. 마찬가지로, Fisher's exact test를 통해 p-값을 산출하였고, 아래의 식을 통해 순차적으로 오즈비, 상대 위험도, exposed-proportion, 및 인구집단 기여 위험분율(PAF)을 계산하였으며, 그 값을 표 2에 나타내었다. 단, 상대 위험도 값이 2 미만으로 나타나는 유전자는 제외하였다.
No Gene OR p-value RR Variant frequency PAF
1 HOXB13 3.77 8.04E-23 3.08623191 3.54E-01 0.00734
2 ATM 2.61 4.46E-06 2.31190136 2.23E-01 0.00292
3 BRCA2 2.26 1.59E-03 2.0563115 1.73E-01 0.00182
4 PTEN 8.59 2.27E-02 5.33627755 6.42E-03 0.00028
5 CDH1 11.45 7.47E-02 6.22452011 1.84E-03 0.00010
6 PMS2 0.64 9.22E-02 0.65487381 1.22E-01 -0.00478
7 CHEK2 1.51 2.10E-01 1.45200846 3.23E-01 0.00146
8 BRCA1 0.86 4.85E-01 0.86836417 7.89E-01 -0.00683
9 MSH6 1.01 5.86E-01 1.00929122 6.79E-02 0.00001
10 MSH2 1.01 5.86E-01 1.00929122 6.79E-02 0.00001
11 BARD1 1.00 7.98E-01 0.99582676 2.29E-02 -0.05844
12 PALB2 1.27 8.66E-01 1.24514874 1.19E-01 0.00029
13 TP53 0.88 8.54E-01 0.88911922 1.28E-02 -0.00129
14 NBN 1.19 9.67E-01 1.17442477 4.86E-02 0.00008
표 7에 나타낸 바와 같이, 각 유전자의 p-value 값을 기준으로 내림차순으로 나열했을 때, 0.05 미만의 값으로 전립선암의 발병과 유의한 연관성을 갖는 유전자 중에서 기존의 전립선암 위험도가 관련이 있는 것으로 알려진 다수의 유전자가 상응함을 확인하였다.
상기 실시예 3.1의 방법을 통해 선별한 전립선암 관련 유전자는 본원 발명에 따른 전립선암의 발병 예측함에 있어 단일 유전 인자로 반영된다.
실시예 3.2. 단일 염기 다형성(SNP)기반 다유전자 위험 점수 산출
모델링 대상 데이터세트로 여성 데이터를 선별하였고, 전립선암 진단받은 남성 8,753명과 전립선암 진단받지 않은(대조군) 100,203명의 유전체 데이터 QC 및 전립선암 진단 여부에 대한 정보를 포함하는 데이터세트를 확보하였다. 전립선암에 대한 GWAS 결과들 중 샘플 규모 및 방법론 등을 검토하여 마커세트 정보에 다유전자 위험 점수 계산방식들 중 하나인 'Pruning and Thresholding'을 적용하였다. 이 때, 변이빈도가 낮은 마커 및 퀄리티가 낮은 마커 등은 일반적인 QC 기준으로써 제외하였다. 전체 데이터세트를 질병 위험도 예측값 순서로 정렬 후 그룹을 구성하여 위험도가 높은 것부터 낮은 것으로 정렬하였고, 다유전자 위험 점수(PRS) 모델링 결과를 검토하기 위해 유방암에 대한 오즈비 등 지표를 기준으로 삼아 비교하였다. 위험 수준별 그룹 지정을 위해 3개의 그룹으로 분류하였다.
상기 실시예 3.2.의 방법을 통한 단일 염기 다형성(SNP) 기반 다유전자 위험 점수는 본원 발명의 전립선암 발병 예측함에 있어 상기 분류된 3개의 그룹별로 전립선암 발병 가능성이 가장 높은 그룹부터 가중치를 두어 전립선암 발병 위험도 예측 계산에 반영된다.
실시예 3.3. 단일 유전자 위험 점수(monogenic risk score) 산출
전립선암의 단일 유전 인자를 선별하기 위해 남성 샘플에 존재하는 유전변이를 취합한 후, 기능분석(annotation)을 수행하였다. 유전변이 빈도가 5% 이상인 변이는 제외하였으며, 유전변이 중 병원성 변이들만, 변이 보유 샘플(carrier)로 추출하였다. 유전자별 전립선암 발병에 미치는 영향력을 통계치로 분석하기 위해 상기 실시예 3.2. 및 표 7에 나타낸 방법으로 유전자별 오즈비(OR) 및 인구집단 기여 위험분율(PAF)을 계산하였다. 이후, 유효 병원성 유전자를 선별하기 위해, 1) p-값이 0.05 미만이며, 2) 발견 빈도가 0.1% 이상인 유전자를 선별하였다. 전립선암 발생과 관련도가 높은 유전자의 선별 및, 전립선암 발병에 대한 영향력에 따라 가중치를 부여하기 위해, 표 7의 전립선암에 대한 각 유전자의 OR 값 및 PAF 값을 이용하여, 유사한 유전자끼리 군집화(clustering)을 수행하였다.
구체적으로, 각 유전자에 대하여 표 7에 나타낸 OR 값 및 PAF 값에 log를 취한 값을 각각 x축, y축으로 하여 그래프를 그렸다. 그 후, 밀도에 따른 비지도방식 클러스터링 방법인 DBSCAN을 이용하여, 인접한 유전자끼리 군집화(clustering)를 수행하였고, 그 결과를 도 7에 나타내었다. 이 때, 유방암 발병에 대한 영향력이 유사한 유전자끼리 하나의 클러스터에 포함된다. 각 군집별 영향력은 특정 패턴을 나타낼 수 있으나, 구체적으로 그래프상 원점에서 클러스터간 거리의 값이 커질수록 유방암 발병에 대한 영향력인 큰 것임을 의미한다.
도 7에 나타낸 바와 같이, 전립선암 발병과 연관된 유전자 중, HOXB13이 하나의 클러스터를 이루고, BRCA2, 및 ATM이 하나의 클러스터를 이루는 것을 확인하였다. 이 때, HOXB13> BRCA2, 및 ATM 순서로 원점으로부터 떨어져 있는 거리가 큰 값을 가져, 전립선암 발병에 대한 영향력의 크기는 이에 비례할 것으로 예상할 수 있다.
상기 실시예 3.3.의 방법을 통해 단일 유전 인자 그룹별 가중치 값은 본원 발명의 전립선암 발병 위험도 예측 계산에 반영된다. 단, 유전 변이의 영향력에 따라 가중치는 두는 것에 의미가 있을 뿐, 가중치로 부여된 숫자의 크기나 간격은 상기 실시예에 의해 제한되는 것은 아니다.
실시예 3.4. 전립선암 발병 위험도 예측
상기 실시예 3.3.의 DBSCAN 방법에 따른 전립선암 발병 관련 유전자 및 영향력에 따른 군집화 결과에, 상기 실시예 3.2.의 단일 염기 다형성(SNP) 기반 다유전자 위험 점수(PRS)를 반영하여, 실제 전립선암 발병 위험도를 예측하였다.
구체적으로, 실시예 3.2와 마찬가지의 방법으로, 단일 염기 다형성 변이를 고려한 다유전자 위험 점수(PRS)에 따라 유전자 발병 위험도가 낮은 그룹을 low 그룹, 위험도가 높은 그룹을 high 그룹, 그 사이의 그룹을 intermediate 그룹으로 나눈 후, 각각을 x축으로 하였고, 상기 표 7에서 구한 전립선암 발병에 관한 오즈비를 y축으로 하여 그래프를 그렸다. 이 때, 단일 유전 인자 변이가 없고(no variant 군) 다유전자 위험 점수가 intermediate 그룹인 경우를 오즈비 1.0 값을 갖도록 기준을 설정하였다. 이를 도 8에 나타내었다. 일반적으로, 오즈비는 1.0이면 질병에 대한 위험인자(단일 유전인자 또는 다형성 변이)와 질병간의 연관성이 없음을 의미하고, 오즈비가 1.0 보다 큰 경우, 위험인자와 질병 간의 연관성을 의미하고, 그 값이 클수록 위험인자와 질병 발병의 연관성이 큰 것을 의미한다.
도 8에 나타낸 바와 같이, 각 클러스터군은 PRS값이 high> intermediate> low 순서대로 오즈비가 큰 값을 가지는 것을 확인하였다. 또한, 클러스터간 유방암 발병에 영향력을 비교한 결과, HOXB13> BRCA2, 및 ATM 순서로 높은 오즈값을 나타내는 점을 통해, 상기 실시예 3.3에서 확인한 바와 같이 DBSCAN을 이용한 분류한 유전자의 군집에 따라, 질병 발생에 대한 유사한 영향력을 가지는 것을 확인하였다.
이상의 결과를 통해, 전립선암과 관련된 유전자의 변이 유무를 통해 전립선암 발생의 위험도를 예측하는 단계에서, DBSCAN 방법을 통해 각 단일 유전 인자의 영향력을 군집화 후 이를 기반으로 다유전자 위험 점수를 반영하였을 때, 보다 정확하게 전립선암 발생 위험도를 예측할 수 있음을 확인하였다. 또한, 전립선암에 한정되지 않고, 유전 변이에 의해 질병 발생에 영향을 받는 모든 질병에 대해 질병 발생 위험도를 예측하는데 유용하게 사용될 수 있다.
본원 발명의 방법을 이용하여 유방암 또는 전립선암 발병 예측도와 실제 데이터 세트 내의 유방암 또는 전립선암 발병률이 유사한 경향성을 보임을 확인하였다. 본원 발명의 예측 모델은 나이 또는 가족력에 관한 정보를 활용하지 않고도, 단일 유전 변이만 고려하여 질병의 발생을 예측하는 방식과 다유전자 위험 점수만을 고려하는 방식 등 하나의 요인만 고려했을 때보다 정확하게 질병의 발병 위험에 대한 정보를 제공할 수 있다. 구체적으로, 다유전자 위험 점수가 비교적 낮은 그룹으로 분류되거나 평균의 점수를 갖더라도 단일 유전 변이를 보유하였다면 유전자 그룹 정보에 따라 고위험군으로 분류될 수 있고, 다유전자 위험 점수가 비교적 높은 그룹으로 분류되는 군이라면 단일 유전 변이가 존재하지 않더라도, 다유전자 위험 점수가 낮고 단일 유전 변이가 존재하지 않는 경우에 비해 유방암 발병의 위험성이 높은 것으로 분류하여, 이에 관한 정보를 사전에 제공함으로써 정확하게 질병의 발생을 예측하고 예방하는데 유용하게 활용될 수 있다.

Claims (15)

  1. 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)과 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하는 단계;
    개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하는 단계;
    상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제1 값, 및
    상기 선별된 단일 유전 인자 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제2 값을 획득하는 단계;를 포함하는 질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 방법.
  2. 청구항 1에 있어서,
    획득한 제1 값과 제2 값을 기반으로 상기 질병에 대한 통합 유전적 위험도를 산출하는 단계를 더 포함하는 방법.
  3. 청구항 1에 있어서,
    상기 제1 값은 질병 발생 연관도가 상위 10 백분위(percentile)에 해당하거나 대조군 대비 2배 이상의 빈도를 보이는 단일 염기 다형성(SNP) 유전 변이의 보유 여부에 의해 결정되는 것인 방법.
  4. 청구항 1에 있어서,
    상기 제2 값은 질병 발생과 관련된 것으로 선별된 단일 유전 인자의 유전 변이의 보유 여부에 의해 결정되는 것인 방법.
  5. 청구항 1에 있어서,
    상기 질병 발생 연관 단일 유전 인자는 질병의 발생 확률에 대한 오즈비(odds ratio, OR), 인구집단 기여 위험분율(population attributable fraction, PAF), 또는 질병의 발생 확률에 대한 오즈비(odds ratio, OR) 및 인구집단 기여 위험분율(population attributable fraction, PAF)을 곱한 값을 통해 선별되는 것인 방법.
  6. 청구항 1에 있어서,
    상기 제2 값은 질병 발생에 대한 영향력에 비례하여 가중치를 고려하는 단계에서 하나 이상의 단일 유전 인자들을 하나 이상의 클러스터로 군집화(clustering)하는 단계를 포함하고,
    상기 군집화는 상기 군집화는 계층적 군집화(hierarchical clustering), k-평균 군집화(k-means clustering), 혼합 모델 군집화(mixture model clustering), 밀도 기반 군집화(density-based spatial clustering of applications with noise, DBSCAN), 생성적 적대 신경망(generative adversarial networks, GAN) 및 자기조직화지도(self-organizing map, SOM)로 이루어진 군에서 선택되는 어느 하나의 비지도 학습(unsupervised learning) 기법을 이용하는 것인 방법.
  7. 청구항 1에 있어서, 상기 질병 발생의 위험도에 따라 비-위험군, 위험군, 고위험군, 초고위험군으로 분류하는 단계를 더 포함하는 것인 방법.
  8. 청구항 1에 있어서, 상기 개체의 샘플은 혈액인 것인 방법.
  9. 청구항 1의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  10. 적어도 하나의 메모리; 및
    적어도 하나의 프로세서;를 포함하고,
    상기 프로세서는 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)와 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하고, 개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하고, 상기 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보를 기반으로 상기 질병에 대한 PRS(polygenic risk score) 값인 제1 값, 및 상기 선별된 단일 유전 인자 정보를 기반으로 상기 질병에 MRS(monogenic risk score) 값인 제2 값을 획득하고, 획득한 제1 값과 제2 값을 기반으로 상기 질병에 대한 통합 유전적 위험도를 획득하여 질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 컴퓨팅 장치.
  11. 청구항 10에 있어서,
    획득한 제1 값과 제2 값을 기반으로 상기 질병에 대한 통합 유전적 위험도를 산출하는 컴퓨팅 장치.
  12. 청구항 10에 있어서,
    상기 프로세서는 상기 제1 값을 질병 발생 연관도가 상위 10 백분위(percentile)에 해당하거나 대조군 대비 2배 이상의 변이 빈도를 보이는 단일 염기 다형성(SNP) 유전 변이의 보유 여부에 의해 결정하는 것인 컴퓨팅 장치.
  13. 청구항 10에 있어서,
    상기 프로세서는 상기 제2 값을 질병 발생과 관련된 것으로 선별된 단일 유전 인자의 유전 변이의 보유 여부에 의해 결정하는 것인 컴퓨팅 장치.
  14. 청구항 10에 있어서,
    상기 프로세서는 상기 질병 발생 연관 단일 유전 인자를 유방암의 발병 확률에 대한 오즈비(odds ratio, OR), 인구집단 기여 위험분율(population attributable fraction, PAF), 또는 질병의 발생 확률에 대한 오즈비(odds ratio, OR) 및 인구집단 기여 위험분율(population attributable fraction, PAF)을 곱한 값을 통해 선별하는 것인 컴퓨팅 장치.
  15. 청구항 10에 있어서,
    상기 프로세서는 상기 질병 발생의 위험도에 따라 비-위험군, 위험군, 고위험군, 초고위험군으로 분류하는 것인 컴퓨팅 장치.
PCT/KR2023/016185 2022-10-18 2023-10-18 질병 발생 위험도 예측 장치 및 방법 WO2024085660A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR1020220133674A KR20240053754A (ko) 2022-10-18 2022-10-18 유방암 발병 위험도 예측 장치 및 방법
KR10-2022-0133676 2022-10-18
KR10-2022-0133674 2022-10-18
KR20220133676 2022-10-18

Publications (1)

Publication Number Publication Date
WO2024085660A1 true WO2024085660A1 (ko) 2024-04-25

Family

ID=90738254

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/016185 WO2024085660A1 (ko) 2022-10-18 2023-10-18 질병 발생 위험도 예측 장치 및 방법

Country Status (1)

Country Link
WO (1) WO2024085660A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110294673A1 (en) * 2008-07-07 2011-12-01 Decode Genetics Ehf. Genetic Variants for Breast Cancer Risk Assessment
WO2016172764A1 (en) * 2015-04-27 2016-11-03 Peter Maccallum Cancer Institute Breast cancer risk assessment
WO2021216363A1 (en) * 2020-04-20 2021-10-28 Myriad Genetics, Inc. Comprehensive polygenic risk prediction for breast cancer
US20220205043A1 (en) * 2017-06-02 2022-06-30 Myriad Genetics, Inc. Detecting cancer risk

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110294673A1 (en) * 2008-07-07 2011-12-01 Decode Genetics Ehf. Genetic Variants for Breast Cancer Risk Assessment
WO2016172764A1 (en) * 2015-04-27 2016-11-03 Peter Maccallum Cancer Institute Breast cancer risk assessment
US20220205043A1 (en) * 2017-06-02 2022-06-30 Myriad Genetics, Inc. Detecting cancer risk
WO2021216363A1 (en) * 2020-04-20 2021-10-28 Myriad Genetics, Inc. Comprehensive polygenic risk prediction for breast cancer

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SEUNG HOAN CHOI, SEAN J JURGENS, LU-CHEN WENG, JAMES P PIRRUCCELLO, CAROLINA ROSELLI, MARK CHAFFIN, CHRISTINA J-Y LEE, AMELIA W HA: "Monogenic and Polygenic Contributions to Atrial Fibrillation Risk : Results From a National Biobank", CIRCULATION RESEARCH, GRUNDE AND STRATTON , BALTIMORE, US, vol. 126, no. 2, 17 January 2020 (2020-01-17), US , pages 200 - 209, XP093162712, ISSN: 0009-7330, DOI: 10.1161/CIRCRESAHA.119.315686 *

Similar Documents

Publication Publication Date Title
Aref-Eshghi et al. BAFopathies’ DNA methylation epi-signatures demonstrate diagnostic utility and functional continuum of Coffin–Siris and Nicolaides–Baraitser syndromes
Halldorsson et al. The sequences of 150,119 genomes in the UK Biobank
JP6431769B2 (ja) 実験条件を要因として含める診断プロセス
US9213944B1 (en) Trio-based phasing using a dynamic Bayesian network
Song et al. A powerful method of combining measures of association and Hardy–Weinberg disequilibrium for fine‐mapping in case‐control studies
JP2015513392A5 (ko)
JP2005516310A (ja) 遺伝子を特定し、形質に関連する経路を明らかにするコンピュータ・システムおよび方法
KR101460520B1 (ko) 차세대 시퀀싱 데이터의 질병변이마커 검출 방법
JP6681475B2 (ja) がん患者のゲノム塩基配列変異情報と生存情報を利用したカスタマイズ型の薬物選択方法及びシステム
WO2017116135A1 (ko) 개인 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법
CN115631789B (zh) 一种基于泛基因组的群体联合变异检测方法
Fujikura Multiple loss-of-function variants of taste receptors in modern humans
Ruark et al. The ICR1000 UK exome series: a resource of gene variation in an outbred population
Liu et al. Involvement of RNA methylation modification patterns mediated by m7G, m6A, m5C and m1A regulators in immune microenvironment regulation of Sjögren's syndrome
WO2024085660A1 (ko) 질병 발생 위험도 예측 장치 및 방법
Zhao et al. Imputation of missing genotypes: an empirical evaluation of IMPUTE
CN113793638B (zh) 一种同源重组修复基因变异的解读方法
WO2018199627A1 (ko) 암 유전체 염기서열 변이, 전사체 발현 및 환자 생존 정보를 이용한 맞춤형 항암 치료 방법 및 시스템
CN112017731B (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
TW202300656A (zh) 基因組序列上之拷貝數變異之候選斷點之機械性檢測
O’Rielly et al. Genetic Epidemiology of Complex Phenotypes
WO2017074036A2 (ko) 암 환자의 유전체 염기서열 변이 정보와 생존 정보를 이용한 맞춤형 약물 선택 방법 및 시스템
WO2020235721A1 (ko) 다중 오믹스 분석을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 다중 오믹스 분석을 이용한 우울증 또는 자살 위험 예측 방법
KR20240054201A (ko) 질병 발생 위험도 예측 장치 및 방법
Lin et al. Artificial intelligence-based approaches for the detection and prioritization of genomic mutations in congenital surgical diseases