WO2024117794A1 - 인공지능 기반 세포유리 핵산의 특징을 이용한 암 진단 및 암 종 예측 방법 - Google Patents

인공지능 기반 세포유리 핵산의 특징을 이용한 암 진단 및 암 종 예측 방법 Download PDF

Info

Publication number
WO2024117794A1
WO2024117794A1 PCT/KR2023/019490 KR2023019490W WO2024117794A1 WO 2024117794 A1 WO2024117794 A1 WO 2024117794A1 KR 2023019490 W KR2023019490 W KR 2023019490W WO 2024117794 A1 WO2024117794 A1 WO 2024117794A1
Authority
WO
WIPO (PCT)
Prior art keywords
cancer
nucleic acid
information
value
mutation
Prior art date
Application number
PCT/KR2023/019490
Other languages
English (en)
French (fr)
Inventor
기창석
조은해
이준남
이태림
Original Assignee
주식회사 지씨지놈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 지씨지놈 filed Critical 주식회사 지씨지놈
Publication of WO2024117794A1 publication Critical patent/WO2024117794A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Definitions

  • the present invention relates to a cancer diagnosis and cancer prediction method using the characteristics of cell-free nucleic acids. More specifically, nucleic acids are extracted from biological samples, sequence information is obtained, and cancer-specific detection is performed through filtering based on aligned reads.
  • An artificial intelligence-based method that includes a method of obtaining single nucleotide mutation information, deriving terminal sequence motif frequency information and nucleic acid fragment size information of nucleic acid fragments, and then inputting them into each artificial intelligence model and integrating and analyzing the output values. This relates to cancer diagnosis and cancer prediction methods using the characteristics of cell-free nucleic acids.
  • Cancer diagnosis in clinical practice is usually confirmed by performing a tissue biopsy after medical history, physical examination, and clinical evaluation. Cancer diagnosis through clinical testing is possible only when the number of cancer cells is more than 1 billion and the diameter of the cancer is more than 1 cm. In this case, the cancer cells already have the ability to metastasize, and at least half of them have already metastasized.
  • tissue biopsy is invasive, causing considerable discomfort to the patient, and there are problems in that tissue biopsy often cannot be performed while treating cancer patients.
  • tumor markers are used in cancer screening to monitor substances produced directly or indirectly from cancer. However, even when cancer is present, more than half of the tumor marker screening results are normal, and even when cancer is not present, they are often positive. However, there are limits to its accuracy.
  • cell-free DNA WGS cannot be used for cancer diagnosis because there is a problem with the accuracy of mutation discovery in cell-free DNA WGS, and the patient's mutation information is obtained through tumor tissue WGS. If present, WGS of cell-free DNA was used only to monitor cancer recurrence by filtering out and observing only the relevant mutations (Zviran A et al., Nat Med, Vol. 26, pp. 1114-1124, 2020). In other words, using cell-free DNA WGS is effective in diagnosing cancer, but cell-free DNA WGS could not be used in diagnosing cancer due to the lack of an effective filtering method.
  • the mutation rate in cancer differs depending on the region of the genome, and furthermore, the mechanism by which mutations occur and the pattern of accumulation of mutations are different for each cancer type.
  • carcinomas can be distinguished using the distribution of mutations in cancer tissue (regional mutation density) and the type of mutation (mutation signature) (Jia Wei et al., Nat. Communications, Vol. 11, no. 728, 2020).
  • regional mutation density regional mutation density
  • mutation signature type of mutation
  • KR 10-2017-0185041, KR 10-2017-0144237, KR 10-2018-0124550 utilize artificial neural networks in the bio field, but cell-free DNA in blood , cfDNA) methods to predict cancer types by analyzing mutations based on WGS sequence analysis information are insufficient due to inaccuracy in discovering cancer-specific mutations.
  • the present inventors have made diligent efforts to solve the above problems and develop a cancer diagnosis and cancer prediction method using single base mutations in cell-free nucleic acids with high sensitivity and accuracy.
  • nucleic acids are extracted from biological samples and sequence information is obtained.
  • information on cancer-specific single nucleotide mutations is obtained through filtering, terminal sequence motif frequency information and nucleic acid fragment size information of the nucleic acid fragment are derived, and then inputted into each artificial intelligence model. It was confirmed that cancer diagnosis and cancer type prediction can be made with high sensitivity and accuracy when the output values are integrated and analyzed, and the present invention was completed.
  • the purpose of the present invention is to provide a cancer diagnosis and cancer prediction method using the characteristics of cell-free nucleic acid.
  • Another object of the present invention is to provide a cancer diagnosis and carcinoma prediction device using the characteristics of cell-free nucleic acid.
  • Another object of the present invention is to provide a computer-readable storage medium including instructions configured to be executed by a processor for diagnosing cancer and predicting cancer type by the above method.
  • the present invention includes the steps of (a) extracting nucleic acids from a biological sample and obtaining sequence information; (b) aligning the obtained sequence information (reads) to a standard chromosome sequence database (reference genome database); (c) discovering single nucleotide variants from the sorted sequence information (reads) and performing filtering to extract cancer-specific single nucleotide variant information; (d) deriving terminal sequence motif frequency information and size information of nucleic acid fragments using the aligned sequence information (reads); (e) obtaining a first output value analyzed by inputting the cancer-specific single nucleotide mutation information of step (c) into the learned first artificial intelligence model; (f) obtaining a second output value analyzed by inputting the terminal sequence motif frequency information and size information of the nucleic acid fragments of the nucleic acid fragments of step (d) into a learned second artificial intelligence model; and (g) determining the presence or absence of cancer by comparing the final result obtained by integrating the output values
  • the present invention also includes the steps of (a) extracting nucleic acids from a biological sample and obtaining sequence information; (b) aligning the obtained sequence information (reads) to a standard chromosome sequence database (reference genome database); (c) discovering single nucleotide variants from the sorted sequence information (reads) and performing filtering to extract cancer-specific single nucleotide variant information; (d) deriving terminal sequence motif frequency information and size information of nucleic acid fragments using the aligned sequence information (reads); (e) obtaining a first output value analyzed by inputting the cancer-specific single nucleotide mutation information of step (c) into the learned first artificial intelligence model; (f) obtaining a second output value analyzed by inputting the terminal sequence motif frequency information and size information of the nucleic acid fragments of the nucleic acid fragments of step (d) into a learned second artificial intelligence model; and (g) determining the presence or absence of cancer by comparing the final result obtained by integrating the output values and analyzing the cut-
  • the present invention also includes a decoding unit that extracts nucleic acids from biological samples and decodes sequence information; an alignment unit that aligns the translated sequences with a standard chromosome sequence database; A variant discovery department that discovers single nucleotide variants from the aligned sequences and performs filtering to extract cancer-specific single nucleotide variants; A single nucleotide mutation distribution calculation unit that divides the standard chromosome into certain sections and calculates the distribution of single nucleotide mutations extracted for each section (regional mutation density); A mutation frequency calculation unit that calculates the frequency of each single nucleotide mutation type (mutation signature) of the extracted mutations; A first artificial intelligence model analysis unit that obtains a first output value analyzed by inputting the calculated adiabatic nucleotide mutation distribution value and mutation frequency into the first artificial intelligence model; A nucleic acid fragment analysis unit that derives the terminal sequence motif frequency of the nucleic acid fragment and the size of the nucleic acid fragment based on the aligned sequence; A
  • the present invention also provides a computer-readable storage medium, which includes instructions configured to be executed by a processor for diagnosing cancer and predicting cancer types, comprising: (a) extracting nucleic acids from a biological sample to obtain sequence information; (b) aligning the obtained sequence information (reads) to a standard chromosome sequence database (reference genome database); (c) discovering single nucleotide variants from the sorted sequence information (reads) and performing filtering to extract cancer-specific single nucleotide variants; (d) deriving terminal sequence motif frequency information and size information of nucleic acid fragments using the aligned sequence information (reads); (e) obtaining a first output value analyzed by inputting the cancer-specific single nucleotide mutation information of step (c) into the learned first artificial intelligence model; (f) obtaining a second output value analyzed by inputting the terminal sequence motif frequency information and size information of the nucleic acid fragments of the nucleic acid fragments of step (d) into a learned second artificial intelligence model; and (g
  • Figure 1 is an overall flow chart for determining chromosomal abnormalities using the characteristics of the cell-free nucleic acid of the present invention.
  • Figure 2 shows the results of comparing the cancer diagnosis performance of the DNN model built in an embodiment of the present invention with other models, where (A) is the accuracy of the cancer diagnosis performance and (B) is the cancer type discrimination performance.
  • Figure 3 (A) is the result of comparing the cancer diagnosis performance of the DNN model built in an embodiment of the present invention with the existing method for each cancer type, and (B) is the result of comparison by stage of cancer progression.
  • Figure 4 (A) is the result of comparing the cancer type discrimination performance of the DNN model built in an embodiment of the present invention with the existing method for each cancer type, and (B) is the result of comparison by stage of cancer progression.
  • Figure 5 is an example of a process for selecting a motif that has a difference in expression frequency between healthy people and cancer patients or each cancer type in an embodiment of the present invention.
  • Figure 6 is a graph confirming the size distribution of nucleic acid fragments selected in an example of the present invention.
  • the left panel of Figure 7 is an example of the FEMS table produced in one embodiment of the present invention prepared with a single nucleic acid fragment, and the right panel is an example prepared with all nucleic acid fragments.
  • the left panel of FIG. 8 is an example of a FEMS table created by additionally performing an edge summary in one embodiment of the present invention, and the right panel is a visualization result.
  • Figure 9 is a diagram explaining the difference in frequency values for each section of the FEMS table produced in one embodiment of the present invention.
  • Figure 10 is a schematic diagram showing the manufacturing process of the FEMS_Z table manufactured in one embodiment of the present invention.
  • Figure 11 is a visualization example of the FEMS table created based on the data of healthy people and ovarian cancer patients used in an embodiment of the present invention and the FEMS_Z table constructed through standardization work.
  • Figure 12 shows the results of comparing the performance of a CNN model using the FEMS table constructed in an embodiment of the present invention and a CNN model using the FEMS_Z table.
  • Figure 13 shows the actual patient analysis results of the CNN model using the FEMS table and the CNN model using the FEMS_Z table constructed in an embodiment of the present invention.
  • Figure 14 shows the results of comparing the performance of a DNN model, a CNN model, and an ensemble model built in an embodiment of the present invention.
  • first, second, A, B, etc. may be used to describe various components, but the components are not limited by the terms, and are only used for the purpose of distinguishing one component from other components. It is used only as For example, a first component may be named a second component without departing from the scope of the technology described below, and similarly, the second component may also be named a first component.
  • the term and/or includes any of a plurality of related stated items or a combination of a plurality of related stated items.
  • each component is responsible for. That is, two or more components, which will be described below, may be combined into one component, or one component may be divided into two or more components for more detailed functions.
  • each of the components described below may additionally perform some or all of the functions handled by other components, and some of the main functions handled by each component may be performed by other components. Of course, it can also be carried out exclusively by .
  • each process that makes up the method may occur in a different order from the specified order unless a specific order is clearly stated in the context. That is, each process may occur in the same order as specified, may be performed substantially simultaneously, or may be performed in the opposite order.
  • the sequence analysis data obtained from the sample is aligned to the reference genome, nucleic acids are extracted from the biological sample, sequence information is obtained, and cancer-specific single nucleotide mutations are extracted through filtering based on the aligned reads. , based on aligned sequence information (reads), derive terminal sequence motif frequency information and size information of nucleic acid fragments, and then learn to perform cancer diagnosis and cancer species classification based on single nucleotide mutation information.
  • an artificial intelligence model and an artificial intelligence model learned to diagnose cancer and classify cancer types based on nucleic acid fragment terminal sequence information are combined and analyzed, cancer diagnosis and cancer type prediction can be made with high sensitivity and accuracy. I wanted to check.
  • DNA extracted from blood is sequenced, aligned to a reference chromosome, cancer-specific single nucleotide mutations are extracted from the aligned reads through filtering, and the reference chromosome is divided into certain sections.
  • the first artificial intelligence model learned to perform cancer diagnosis and cancer type prediction by calculating the distribution of single nucleotide mutations in each section and calculating the frequency of each type of single nucleotide mutation.
  • Input to obtain the first output value use the aligned reads to derive the frequency of the terminal sequence motif of the nucleic acid fragment and the size of the nucleic acid fragment, with the frequency of the terminal sequence motif of the nucleic acid fragment as the X-axis and the size of the nucleic acid fragment as Vectorized data on the Y axis was generated and post-processed, and then input into a second artificial intelligence model trained to perform cancer diagnosis and cancer type prediction to obtain a second output value.
  • the first output value and the second output value were obtained.
  • a cancer diagnosis was performed by comparing the final output value obtained by integrating and analyzing with the reference value, and then a method was developed to determine the cancer type with the highest value among the final output values obtained for each cancer type as the cancer type of the sample. ( Figure 1).
  • step (e) obtaining a first output value analyzed by inputting the cancer-specific single nucleotide mutation information of step (c) into the learned first artificial intelligence model;
  • step (f) obtaining a second output value analyzed by inputting the terminal sequence motif frequency information and size information of the nucleic acid fragments of the nucleic acid fragments of step (d) into a learned second artificial intelligence model;
  • (h) It relates to a method of providing information for cancer diagnosis and cancer type prediction, including the step of predicting cancer type by comparing the final results.
  • step (e) obtaining a first output value analyzed by inputting the cancer-specific single nucleotide mutation information of step (c) into the learned first artificial intelligence model;
  • step (f) obtaining a second output value analyzed by inputting the terminal sequence motif frequency information and size information of the nucleic acid fragments of the nucleic acid fragments of step (d) into a learned second artificial intelligence model;
  • (h) It relates to a method for diagnosing cancer and predicting cancer type, including the step of predicting cancer type by comparing the final results.
  • the cancer may be solid cancer or hematological cancer, and is preferably non-Hodgkin lymphoma, non-Hodgkin lymphoma, acute-myeloid leukemia, and acute lymphoblastic leukemia.
  • acute-lymphoid leukemia multiple myeloma, head and neck cancer, lung cancer, glioblastoma, colon/rectal cancer, pancreatic cancer, breast cancer, ovarian cancer, melanoma, prostate cancer
  • It may be selected from the group consisting of thyroid cancer, liver cancer, stomach cancer, gallbladder cancer, biliary tract cancer, bladder cancer, small intestine cancer, cervical cancer, cancer of unknown primary site, kidney cancer, and mesothelioma, and most preferably liver cancer or ovarian cancer.
  • it is not limited to this.
  • the step (a) is
  • the step (a) of obtaining sequence information may be characterized by obtaining isolated cell-free DNA through whole-genome sequencing at a depth of 1 million to 100 million reads.
  • the biological sample refers to any material, biological fluid, tissue or cell obtained from or derived from an individual, for example, whole blood, leukocytes, peripheral blood mononuclear cells.
  • the term “reference group” refers to a reference group that can be compared, such as a standard sequence database, and refers to a group of people who do not currently have a specific disease or condition.
  • the standard nucleotide sequence in the standard chromosome sequence database of the reference group may be a reference chromosome registered in a public health institution such as NCBI.
  • the nucleic acid in step (a) may be cell-free DNA, more preferably circulating tumor DNA, but is not limited thereto.
  • next-generation sequencer can be used by any sequencing method known in the art. Sequencing of nucleic acids isolated by selection methods is typically performed using next-generation sequencing (NGS). Next-generation sequencing includes any sequencing method that determines the nucleotide sequence of an individual nucleic acid molecule or a clonally expanded proxy for an individual nucleic acid molecule in a highly similar manner (e.g., when more than 105 molecules are sequenced simultaneously). do). In one embodiment, the relative abundance of a nucleic acid species in a library can be estimated by measuring the relative number of occurrences of its cognate sequence in data generated by a sequencing experiment. Next-generation sequencing methods are known in the art and described, for example, in Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46, which is incorporated herein by reference.
  • Platforms for next-generation sequencing include, but are not limited to, the Roche/454 Genome Sequencer (GS) FLX system and the Illumina/Solexa Genome Analyzer (GA). , Life/APG's Support Oligonucleotide Ligation Detection (SOLiD) system, Polonator's G.007 system, and Helicos BioSciences' HeliScope Gene Sequencing system. and the PacBio RS system from Pacific Biosciences.
  • the alignment step of step (b) is not limited to this, but may be performed using the BWA algorithm and the Hg19 sequence.
  • the BWA algorithm may include BWA-ALN, BWA-SW, or Bowtie2, but is not limited thereto.
  • the length of the sequence information (reads) in step (b) is 5 to 5000 bp, and the number of sequence information used may be 50 to 5 million, but is not limited thereto.
  • the filtering in step (c) can be used without limitation as long as it can distinguish between single nucleotide mutations occurring in normal people and single nucleotide mutations occurring specifically in cancer.
  • the discovered single nucleotide mutation is The read depth of the mutation region may be 3 or more, and single nucleotide mutations with an average sequencing quality of 30 or more may be extracted, but are not limited to this.
  • the mutation region refers to the exact position where a single nucleotide mutation is located, and the read depth of the mutation region is 3 or more, which means that the number of reads aligned to the position is 3 or more.
  • the filtering in step (c) may be characterized by additionally performing a process of removing artifacts and germline mutations that occurred during the sequence analysis process, and this process may be performed
  • the normal person database can be used without limitation as long as it is a database containing nucleotide sequence variation information of normal people, and may preferably be a database containing cfDNA WGS data of normal people, WGS data of tissue samples, etc., and more preferably may be a public database such as dbSNP, 1000 Genome, Hapmap, ExAC, or Gnomad, but is not limited thereto.
  • step (c) may further include the following steps:
  • the section of step (c-i) can be arbitrarily set as long as it is an section that can calculate the distribution of single nucleotide mutations, and is preferably 100 kb to 10 Mb, and more preferably 500 kb to 5 Mb. , most preferably 1Mb, but is not limited thereto.
  • step (c-i) the step of calculating the distribution (regional mutation density, RMD) of the extracted single nucleotide mutations in step (c-i) can be characterized as being performed by a method comprising the following steps:
  • the reference value can be used without limitation as long as it is a value that can significantly distinguish the extracted single nucleotide mutations, and may preferably be 40 to 60%, more preferably 45 to 55%, Most preferably, it may be 50%, but it is not limited thereto.
  • the section excluding the section in which no mutation is detected above the reference value of all samples means excluding the section in which there is no single nucleotide mutation extracted from more than 50% of the total sample when the reference value is 50%. do.
  • the section may be characterized as one or more selected from the sections listed in Table 1.
  • the distribution of single gene mutations is used in a similar sense to the background mutation rate, and means calculating the mutation frequency by dividing the entire genome into certain sections.
  • the distribution of single gene mutations by cancer type is a quantitative value for whether the cancer is a region with many or few mutations.
  • Cancer single gene mutations are not uniformly distributed in the human genome. The amount of single gene mutations accumulated varies depending on the entire genome region, and the accumulation pattern for each cancer type is also very different.
  • epigenomic characteristics Histone modification, replication time
  • the distribution of single gene mutations implies the epigenomic characteristics of the corresponding cancer type.
  • the distribution of single gene mutations can be a useful indicator for cancer diagnosis and cancer type discrimination.
  • the distribution of single gene mutations can be used to determine whether the discovered mutation is located in a region with a high probability of occurrence in the cancer.
  • step (c-ii) may be performed by a method comprising the following steps:
  • the type of mutation may be characterized as one or more selected from the mutations listed in Table 2.
  • the single base mutation type (mutation signature) can be used without limitation as long as it is a mutation in which a normal base is mutated into a different base and causes a functional abnormality in the gene, preferably C->A, C->G, C It may be characterized as one or more selected from the group consisting of ->T, T->A, T->C and T->G, but is not limited thereto.
  • C->A means confirming whether the detected mutation is the normal base C mutated into the mutant base A
  • C->G means confirming whether the detected mutation is the normal base C mutated into the mutant base G. means checking, and the rest has the same meaning.
  • the first artificial intelligence model in step (e) can be used without limitation as long as it is a model that can diagnose cancer and determine cancer type, preferably an artificial neural network model, and more preferably a synthetic model.
  • the loss function when the first artificial intelligence model is DNN and learns binary classification, the loss function may be characterized as binary crossentropy expressed by Equation 1 below:
  • N is the total number of samples
  • y i is the probability value that the model predicts that the ith input value is close to class 1
  • y i is the actual class of the ith input value.
  • the first artificial intelligence model is DNN, and when learning multi-class classification, the loss function can be characterized as categorical crossentropy expressed by Equation 2 below:
  • N is the total number of samples
  • J is the total number of classes
  • yj is a value representing the actual class of the sample. If the actual class is j, it is displayed as 1, if the actual class is not j, it is displayed as 0, and y j is the corresponding class. This is the probability value predicting that the sample is class j. The closer it is to 1, the higher the probability that the sample is in that class.
  • the loss function may be Mean Squared Error (MSE), but is not limited to this.
  • MSE Mean Squared Error
  • the first output value output by analyzing the cancer-specific single nucleotide mutation information inputted by the first artificial intelligence model in step (e) can be used without limitation as long as it is a specific score or real number, and is preferably the first output value. It may be characterized as having a 1 DPI (Deep Probability Index) value, but is not limited to this.
  • DPI Deep Probability Index
  • the first output value of step (e) may be derived for each cancer type.
  • step (d) may further include the following steps:
  • the nucleic acid fragment terminal sequence motif in step (d) may be characterized as a pattern of 2 to 30 base sequences at both ends of the nucleic acid fragment.
  • Reverse strand 3 ⁇ -ATGACTGAAACCTTA-5 ⁇ (SEQ ID NO: 2)
  • TACA read in order from the forward strand 5' end
  • ATTC read in order from the reverse strand 5' end
  • the frequency of the terminal sequence motif of the nucleic acid fragment in step (d) may be characterized as the number of each motif detected in the entire nucleic acid fragment.
  • the motif frequency is calculated by counting the number of observations of each motif in the total nucleic acid fragments produced through sequencing, and the value calculated by dividing this value by the total number of nucleic acid fragments produced is the relative frequency of each motif.
  • the total number of nucleic acid fragments is 126,430,124, and the number of nucleic acid fragments for which AAAA is analyzed as a nucleic acid fragment terminal sequence motif is 125,071, so the frequency of the AAAA nucleic acid fragment terminal sequence motif is 125,071, which is The relative frequency of the terminal sequence motif of a nucleic acid fragment calculated by dividing by the total number of nucleic acid fragments is 0.00099.
  • the size of the nucleic acid fragment in step (d) may be characterized as the number of bases from the 5' end to the 3' end of the nucleic acid fragment.
  • the size of the nucleic acid fragment analyzed in SEQ ID NOs: 1 and 2 is 15.
  • the size of the nucleic acid fragment may be 1 to 10000, preferably 10 to 1000, more preferably 50 to 500, and most preferably 90 to 250. It is not limited.
  • the vectorized data in the step (d-i) may be characterized in that the type of the terminal sequence motif of the nucleic acid fragment is on the X-axis and the size of the nucleic acid fragment is on the Y-axis.
  • Reverse strand 3 ⁇ -ATGACTGATCA ... AACCTTA-5 ⁇ (SEQ ID NO: 4)
  • This nucleic acid fragment can be expressed as a two-dimensional vector like the left panel of FIG. 7, and when this process is expanded and accumulated to the entire nucleic acid fragment, a two-dimensional vector like the right panel of FIG. 7 is created.
  • the vectorized data may be characterized as additionally including the sum of the frequencies for each end motif of the nucleic acid fragment and the sum of the frequencies for each size of the nucleic acid fragment.
  • the column sum value is added four times to the bottom of the two-dimensional vector in Figure 4, and Fragment Size information that is unrelated to the Fragment End Motif is added.
  • an Edge Summary is additionally performed to add the row sum value to the rightmost part of the two-dimensional vector in FIG. 4 four times, thereby creating a two-dimensional vector like the left panel in FIG. 5.
  • the two-dimensional vector is defined as the Fragment End Motif frequency and Size (FEMS) table.
  • FEMS Fragment End Motif frequency and Size
  • step (d-ii) may be performed by a method comprising the following steps:
  • the reference range may be -5 to 5, and the reference value may be -5 or 5.
  • the existing FEMS table is characterized by performing post-processing work to standardize the large distribution of values calculated for each area.
  • the post-processing work may be performed through the following steps:
  • the nucleic acid fragment size is 180 and AAAA Calculate the average and standard deviation of the values at position (a) with the motif and define them as Mean_180_AAAA and SD_180_AAAA, respectively.
  • iii) A step of performing Z normalization using the average and standard deviation values at each position in the FEMS table calculated in process ii) above: Specifically, the frequency value observed at the position with the AAAA motif while the nucleic acid fragment size is 180.
  • vectorized data is not limited to this, but may be characterized as a 2D table.
  • the method may further include the step of separately classifying nucleic acid fragments that satisfy the mapping quality score of the aligned nucleic acid fragments.
  • the mapping quality score may vary depending on the desired standard, but is preferably 15 to 70 points, more preferably 50 to 70 points, and most preferably 60 points.
  • the second artificial intelligence model in step (f) can be used without limitation as long as it is a model that can learn to distinguish images by cancer type, and is preferably a deep learning model. .
  • the second artificial intelligence model can be used without limitation as long as it is an artificial neural network algorithm that can analyze vectorized data based on an artificial neural network, but is preferably a convolutional neural network (CNN) or a deep neural network. It may be characterized as being selected from the group consisting of a Deep Neural Network (DNN) and a Recurrent Neural Network (RNN), but is not limited thereto.
  • CNN convolutional neural network
  • RNN Recurrent Neural Network
  • the recurrent neural network is from the group consisting of a long-short term memory (LSTM) neural network, a gated recurrent unit (GRU) neural network, a vanilla recurrent neural network, and an attentive recurrent neural network. It may be characterized as being selected.
  • the loss function for performing binary classification can be characterized as expressed by Equation 3 below, and the loss function for performing multi-class classification can be expressed as Equation 4 below: It may be characterized by being displayed as .
  • binary classification refers to learning an artificial intelligence model to determine the presence or absence of cancer
  • multi-class classification refers to learning an artificial intelligence model to determine two or more types of cancer
  • learning of the artificial intelligence model may be characterized as being performed including the following steps:
  • training data is used when learning an artificial intelligence model
  • validation data is used to verify hyper-parameter tuning
  • test data is used for performance evaluation after producing an optimal model.
  • the hyper-parameter tuning process is a process of optimizing the values of various parameters (number of convolution layers, number of dense layers, number of convolution filters, etc.) that make up the artificial intelligence model.
  • the hyper-parameter tuning process includes Bayesian optimization and grid search. It can be characterized by using a technique.
  • the learning process optimizes the internal parameters (weights) of the artificial intelligence model using set hyper-parameters, and when the validation loss compared to the training loss begins to increase, the model is judged to be overfitting, and before that It can be characterized by stopping model learning.
  • the second output value that the second artificial intelligence model analyzes and outputs from the input vectorized data in step (f) can be used without limitation as long as it is a specific score or real number, and is preferably a second DPI (Deep value). It may be characterized as a Probability Index) value, but is not limited to this.
  • the Deep probability Index is a value expressed as a probability value by adjusting the output of the artificial intelligence to a 0 to 1 scale using the sigmoid function in the case of binary classification and the softmax function in the case of multi-class classification in the last layer of the artificial intelligence model. it means.
  • the sigmoid function is used to learn so that the DPI value is 1 in case of cancer. For example, when a breast cancer sample and a normal sample are input, the DPI value of the breast cancer sample is learned to be close to 1.
  • the softmax function is used to select a DPI value equal to the number of classes.
  • the sum of the DPI values equal to the number of classes becomes 1, and learning is performed so that the actual DPI value of the corresponding cancer type becomes 1.
  • the breast cancer class is learned close to 1.
  • the second output value of step (f) may be derived for each cancer type.
  • the artificial intelligence model learns, if there is cancer, the output result is learned to be close to 1, and if there is no cancer, the output result is learned to be close to 0, and if it is 0.5 or more based on 0.5, it is judged to have cancer. , if it was less than 0.5, it was judged that there was no cancer and performance measurements were performed (training, validation, test accuracy).
  • the reference value of 0.5 is a value that can be changed at any time. For example, if you want to reduce false positives, you can set a standard higher than 0.5 to strictly determine the presence of cancer. If you want to reduce false negatives, you can set the standard value lower than 0.5 to determine if there is cancer. The criteria for determining whether something exists can be made a little weaker.
  • the standard value can be determined by checking the probability of the DPI value by applying unseen data (data for which the answer is not trained for learning) using the learned artificial intelligence model.
  • the final result value of step (g) can be used without limitation as long as it is a value that can be compared with the reference value, and is preferably the sum or difference of the first output value and the second output value itself or a weighted value, It may be characterized as one or more values selected from the group consisting of product, mean, log of product, log of sum, median, quantile, minimum value, maximum value, variance, standard deviation, median absolute deviation, and coefficient of variation, but is limited to this. no.
  • the final result value of step (g) may be characterized as an EPI (Ensemble Probability Index) value, but is not limited thereto.
  • the step of predicting cancer type by comparing the final results of step (h) is performed by a method including determining the cancer type showing the highest value among the final result values as the cancer of the sample. It can be characterized as:
  • the present invention includes a decoding unit that extracts nucleic acids from a biological sample and decodes sequence information;
  • an alignment unit that aligns the translated sequences with a standard chromosome sequence database
  • a variant discovery department that discovers single nucleotide variants from the aligned sequences and performs filtering to extract cancer-specific single nucleotide variants
  • a single nucleotide mutation distribution calculation unit that divides the standard chromosome into certain sections and calculates the distribution of single nucleotide mutations extracted for each section (regional mutation density);
  • a mutation frequency calculation unit that calculates the frequency of each single nucleotide mutation type (mutation signature) of the extracted mutations
  • a first artificial intelligence model analysis unit that obtains a first output value analyzed by inputting the calculated adiabatic nucleotide mutation distribution value and mutation frequency into the first artificial intelligence model
  • a nucleic acid fragment analysis unit that derives the terminal sequence motif frequency of the nucleic acid fragment and the size of the nucleic acid fragment based on the aligned sequence
  • a data generation unit that generates vectorized data using the terminal sequence motif frequency of the derived nucleic acid fragment and the size of the nucleic acid fragment and then performs post-processing
  • a second artificial intelligence model analysis unit that inputs the generated post-processed vectorized data into the learned artificial intelligence model to obtain an analyzed second output value
  • a cancer diagnosis unit that determines the presence or absence of cancer by comparing the final result obtained by integrating the first output value and the second output value and analyzing the result with a reference value
  • It relates to an artificial intelligence-based cancer diagnosis and cancer prediction device that includes a cancer type prediction unit that predicts cancer type by comparing the final results.
  • the decoding unit includes a nucleic acid injection unit for injecting nucleic acid extracted from an independent device; and a sequence information analysis unit that analyzes sequence information of the injected nucleic acid, preferably an NGS analysis device, but is not limited thereto.
  • the decoding unit may be characterized in that it receives and decodes sequence information data generated by an independent device.
  • the present invention is a computer-readable storage medium, comprising instructions configured to be executed by a processor for diagnosing cancer and predicting cancer types,
  • step (e) obtaining a first output value analyzed by inputting the cancer-specific single nucleotide mutation information of step (c) into the learned first artificial intelligence model;
  • step (f) obtaining a second output value analyzed by inputting the terminal sequence motif frequency information and size information of the nucleic acid fragments of the nucleic acid fragments of step (d) into a learned second artificial intelligence model;
  • a computer includes one or more processors coupled to a chip set. Additionally, memory, storage, keyboard, graphics adapter, pointing device, and network adapter are connected to the chip set. In one implementation, the performance of the chip set is enabled by a memory controller hub and an I/O controller hub. In another implementation, the memory may be used directly connected to the processor instead of a chip set.
  • a storage device is any device that can hold data, including a hard drive, compact disk read-only memory (CD-ROM), DVD, or other memory device. Memory is responsible for data and instructions used by the processor.
  • the pointing device may be a mouse, track ball, or other type of pointing device, and is used in combination with a keyboard to transmit input data to the computer system.
  • the graphics adapter presents images and other information on a display.
  • the network adapter is connected to the computer system through a local or long-distance communication network.
  • the computer used in this institute is not limited to the above configuration, and may be missing some configuration or may include additional configuration, and may also be part of a storage area network (SAN), and the computer of this institute may be Can be configured to be suitable for execution of modules in a program for performing the method according to the present application.
  • SAN storage area network
  • a module may mean a functional and structural combination of hardware for carrying out the technical ideas according to the present application and software for driving the hardware.
  • the module may mean a logical unit of a predetermined code and a hardware resource for executing the predetermined code, and does not necessarily mean a physically connected code or a single type of hardware. is obvious to those skilled in the art.
  • Example 1 Extract DNA from blood to build the first artificial intelligence model and perform next-generation sequencing
  • the bam file obtained by aligning the NGS data obtained in Example 1 to the reference chromosome (hg 19) was processed using the GATK pipeline. To secure mutation profiles for each sample, mutations were discovered using varscan (mutation caller).
  • Varscan variant discovery criteria were applied very leniently. Variant calling is carried out with lenient criteria through the following: more than one variant read, total depth of the variant region is more than 3, average base quality is more than 30, minimum variant allele frequency criteria are removed, strand filter is removed, and varscan variant P value criteria are removed. (variant allele frequency refers to the ratio of mutations as a ratio of the number of reads in which mutations were discovered among all reads at the mutation position).
  • Blacklist regions are regions that have a high probability of being misaligned during alignment, and include regions such as repeats and centromere. Blacklist region is Haley M amemiya et al., Scientific report Vol. 9, no. The region compiled in 9354, 2019 was used. Additionally, in order to remove mutations with a high probability of being normal mutations, public databases that collect normal mutation mutations were used.
  • dbSNP https:/data.amerigeoss.org/ko_KR/dataset/dbsnp
  • 1000 Genome https:/www.internationalgenome.org/
  • Hapmap https:/ftp.ncbi.nlm.nih.gov/hapmap/
  • ExAC https:/gnomad.broadinstitute.org/downloads#exac-variants
  • Gnomad https:/gnomad.broadinstitute.org/
  • mutations in the cfDNA WGS database of 20,000 normal people produced by Green Cross were filtered because they were unlikely to be tumor-derived mutations.
  • mutations found in cell-free DNA WGS of 412 normal people in Example 1 were also removed.
  • the entire genome was divided into 1Mb sections, and the single nucleotide mutation distribution (regional mutation density, RMD) for each section was calculated. Excluding the section in which the mutation extracted in Example 2-1 did not exist in more than 50% of the total sample, the distribution of single nucleotide mutations in a total of 2726 sections was used as the input value of the algorithm. The number of mutations in each section was calculated and divided by the total number of mutations in 2726 sections for normalization. Finally, 2726 single gene mutation distribution features were generated, and the feature list is shown in Table 1 below.
  • the frequency of each single gene mutation type was calculated in the entire genome. Four criteria were defined for dividing types of mutations.
  • the frequency of occurrence for each type of a total of 150 mutations was calculated. Then, the sum of the number of mutations for each of the four mutation classification methods was calculated, divided by the total of all mutations occurring in all bases, and normalization was performed.
  • a binary classification model was built to diagnose whether a person is a normal person or a cancer patient.
  • a Deep Neural Network artificial intelligence model was used to learn the algorithm.
  • the entire dataset was divided into train, valid, and test datasets, and the model was learned using hyper-parameter tuning using a method called Bayesian optimization.
  • the entire dataset was divided into 5 train, valid, and test sets and trained 5 times to create 5 algorithm models.
  • the five algorithm models performed predictions on each of the five test datasets, allowing the entire dataset to be used as a test dataset once. In that way, the performance of the model was evaluated using the prediction probability when the entire sample was the test dataset.
  • Example 1 In order to test the performance of the deep learning model built using the reads obtained in Example 1, an artificial intelligence model (Cristiano, S. et al., Nature, Vol. 570 (7761), pp. 385-389), a comparative model for fragmentation pattern and copy number variation (CNV)-based cancer diagnosis and cancer type discrimination based on the data set of Example 1 so that it can be applied to cfDNA. was built.
  • an artificial intelligence model Cristiano, S. et al., Nature, Vol. 570 (7761), pp. 385-389
  • CNV fragmentation pattern and copy number variation
  • the fragment pattern method divided the entire genome into 5Mb sections after GC correction, performed z-score normalization on the ratio of the number of short fragments in each section to the total number of fragments, and used it as an input value.
  • short fragment refers to a fragment whose length is between 100bp and 150bp.
  • the CNV method divides the entire genome into non-overlapping 50KB regions, calculates the depth for each region after GC correction, converts it to a log2 value, and uses it as an input value. . xgboost was used to learn fragment patterns and CNV models.
  • Example 5 Extract DNA from blood to build a second artificial intelligence model and perform next-generation sequencing
  • the generated data set is shown in Table 4 below.
  • the terminal motif of the nucleic acid fragment is set to 4 bases (A, T, G, C), and among a total of 256 (4*4*4*4) types of motifs, there are motifs with no difference in relative frequency in the Normal / NBT group. there is. If you create a FEMS table including motifs without these differences, it becomes noise that only increases the amount of model calculations without providing meaningful information for classification. Therefore, in order to exclude these meaningless motifs, only specific motifs for which there was a significant difference in relative frequency among the three groups were selected.
  • the terminal motif of the nucleic acid fragment was set to 4 bases (A, T, G, C), and a total of 256 (4*4*4*4) types were used.
  • some motifs that showed a statistically significant difference in relative frequency (Kruskal-wallis Test, FDR-adjust p ⁇ 0.05) between the healthy (Normal) and neuroblastoma (NBT) patient groups were selected. (Figure 3).
  • motifs whose average frequency in the healthy group was higher than the random baseline (1/256, 0.004) were additionally selected to prevent overfitting.
  • nucleic acid fragment size selection most of the quality-confirmed nucleic acid fragments have a size in the range of 90 to 250, as shown in Figure 3, so when creating a FEMS table including areas outside this size range, most Since the area is filled with 0 values and only meaningless noise increases, the size was selected.
  • a two-dimensional vector was created by arranging the motif type on the X axis and the fragment size on the Y axis. More specifically, as shown in the left panel of Figure 4, the types and sizes of nucleic acid motifs at both ends of one nucleic acid fragment are expressed as frequencies, and these are expanded and accumulated to the entire nucleic acid fragment, as shown in Figure 4. The same two-dimensional vector was created.
  • the values that make up the FEMS table created in 7-1 are the frequencies of nucleic acid fragments with specific sizes and motifs. As shown in Figure 9, this frequency value is characterized by a large difference in the distribution of values calculated in relatively high frequency areas (A, B) and low frequency areas (C). For example, a difference of 100 units is observed in area A, a difference of 10,000 units is observed in area B, while a difference of only 1 unit is rarely observed in area C. If this FEMS table was used as is, a problem arose that it became difficult for the CNN-based AI algorithm to learn parameters (weights). Therefore, the FEMS_Z table was created by performing additional preprocessing to ensure that all areas within the FEMS table had similar ranges of values.
  • the mean and standard deviation of the values at position (a), where the nucleic acid fragment size is 180 and has the AAAA motif were calculated and defined as Mean_180_AAAA and SD_180_AAAA, respectively.
  • FEMX_Z table Additionally, in order to add frequency information for each Fragment End Motif that is unrelated to the Fragment Size, the column sum value is added four times to the bottom of the 2-dimensional vector above, and Fragment Size information that is unrelated to the Fragment End Motif is added to the bottom of the 2-dimensional vector above. To add it, an Edge Summary step was created including adding the row sum value four times to the rightmost part of the two-dimensional vector above.
  • a CNN artificial intelligence model was learned to distinguish between healthy people and ovarian cancer patients using the FEMS table or FEMS_Z table two-dimensional vector as input.
  • the data set in Table 4 was used, and the training data set was used for model learning, the validation data set was used for hyper-parameter tuning, and the test data set was used for final model performance evaluation.
  • the basic structure of the CNN model is shown in Figure 11.
  • the activation function used was sigmoid, three convolution layers were used, and 13 10*10 patches were used. Pooling method used max and 2x2 patch. Four fully connected layers were used and 454 hidden nodes were included. Finally, the final DPI value was calculated using the sigmoid function value.
  • the hyper-parameter tuning process is a process of optimizing the values of various parameters (number of convolution layers, number of dense layers, number of convolution filters, etc.) that make up the CNN model.
  • Bayesian optimization and grid search techniques were used in the hyper-parameter tuning process, and Training When the validation loss started to increase compared to the loss, the model was judged to be overfitting and model learning was stopped.
  • the performance of several models obtained through hyper-parameter tuning was compared using the validation data set, then the model with the best performance in the validation data set was judged to be the optimal model, and the final performance evaluation was performed using the test data set.
  • DPI Deep Probability Index
  • Example 8 The performance of the FEMS deep learning model built in Example 8 and the DPI value output from FEMS_Z deep learning was tested. All samples were divided into Train, Validation, and Test groups. A model was built using Train samples, and then samples from the Validation group and Test group were used to check the performance of the model created using Train samples.
  • the FEMS_Z table learning model had a higher probability of classifying normal as normal and a neuroblastoma patient as a neuroblastoma patient than the FEMS table learning model.
  • Example 10 Construction and performance confirmation of ensemble model of the first artificial intelligence model and the second artificial intelligence model
  • a binary classification model was constructed to diagnose whether a person is a normal person or a cancer patient using the features defined in Example 2 from the sample data (neuroblastoma) in Table 4.
  • a multi-layer perceptron (MLP) model a type of deep neural network defined in Example 3, was constructed.
  • hyper-parameter tuning was performed using the Bayesian optimization method. Divide the entire dataset into 5 train, valid, and test sets and learn them 5 times to create 5 algorithm models, and perform prediction on each of the 5 test datasets for the 5 algorithm models, so that the entire dataset is used as a test dataset. It was allowed to be used once. In that way, the performance of the model was evaluated using the prediction probability when the entire sample was the test dataset. The model was rebuilt, the DPI value was output, and the probability value for cancer diagnosis model performance was calculated using this.
  • the method for diagnosing cancer and predicting carcinoma using the characteristics of cell-free nucleic acid according to the present invention not only has higher sensitivity and accuracy than other methods for diagnosing cancer and predicting carcinoma using genetic information of cell-free nucleic acid, but is also a vectorized method. Because it is analyzed using data, it is useful because it shows high sensitivity and accuracy even if lead coverage is low.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Public Health (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Pathology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 무세포 핵산의 특징을 이용한 암 진단 및 암 종 예측방법에 관한 것으로, 보다 구체적으로는 생체시료에서 핵산을 추출하여, 서열정보를 획득하여 정렬한 리드를 기반으로 필터링을 통해 암 특이적 단일염기변이 정보를 수득하고, 핵산단편의 말단 서열 모티프 빈도 정보 및 핵산단편이 크기 정보를 도출한 다음, 각각의 인공지능 모델에 입력하여 출력된 값을 통합하여 분석하는 방법을 포함하는 인공지능 기반 세포유리 핵산의 특징을 이용한 암 진단 및 암 종 예측방법에 관한 것이다. 본 발명에 따른 무세포 핵산의 특성을 이용한 암 진단 및 암 종 예측방법은, 무세포 핵산의 유전 정보를 이용한 암 진단 및 암 종을 예측하는 다른 방법에 비해 민감도와 정확도가 높을 뿐만 아니라, 벡터화된 데이터를 이용하여 분석하기 때문에, 리드 커버리지가 낮더라도 높은 민감도와 정확도를 나타내어 유용하다.

Description

인공지능 기반 세포유리 핵산의 특징을 이용한 암 진단 및 암 종 예측 방법
본 발명은 무세포 핵산의 특징을 이용한 암 진단 및 암 종 예측방법에 관한 것으로, 보다 구체적으로는 생체시료에서 핵산을 추출하여, 서열정보를 획득하여 정렬한 리드를 기반으로 필터링을 통해 암 특이적 단일염기변이 정보를 수득하고, 핵산단편의 말단 서열 모티프 빈도 정보 및 핵산단편이 크기 정보를 도출한 다음, 각각의 인공지능 모델에 입력하여 출력된 값을 통합하여 분석하는 방법을 포함하는 인공지능 기반 세포유리 핵산의 특징을 이용한 암 진단 및 암 종 예측방법에 관한 것이다.
임상에서의 암 진단은 통상적으로 병력 조사, 물리적 검사 및 임상적 평가 후 조직 생검(tissue biopsy)을 수행하여 확인하고 있다. 임상 실험에 의한 암 진단은 암 세포의 수가 10억 개 이상이고 암의 직경이 1cm 이상일 경우에만 가능하다. 이 경우, 암 세포는 이미 전이능력을 가지고 있으며, 적어도 이들 중 반은 이미 전이된 상태이다. 또한, 조직생검은 침습적이어서 환자에게 상당한 불편함을 주고, 암 환자를 치료하다 보면 조직생검을 수행할 수 없는 경우도 자주 있다는 문제점이 있다. 이외에, 암 스크리닝에 있어서 암으로부터 직접 또는 간접적으로 생산되는 물질을 모니터링하기 위한 종양 마커가 사용되고 있지만, 암이 존재하는 경우에도 종양 마커 스크리닝 결과 반 이상이 정상으로 나타나고, 암이 없는 경우에도 자주 양성으로 나타나기 때문에, 그 정확성에 한계가 있다.
무세포 DNA의 단일유전자변이(single nucleotide variant) 분석을 통해 암을 진단하는 연구는 활발히 진행되고 있으며, 암에서 자주 발견되는 변이(recurrent mutation)를 sequencing depth를 높여서 targeted sequencing하는 방법이 많이 사용되었다(Chabon J. J. et al., nature, Vol. 580, pp. 245-251, 2020). 그러나 최근에는 targeted sequencing을 하는 것보다 sequencing depth가 낮더라도 무세포 DNA의 whole-genome sequencing (WGS) 데이터를 이용하여 더 많은 종류의 변이를 살펴보는 것이 민감도가 높다는것이 밝혀졌다(Zviran A et al., Nat Med, Vol. 26, pp. 1114-1124, 2020).
그러나, 현재까지의 기술로는 무세포 DNA WGS에서 변이 발굴의 정확도 문제가 있어서 암의 진단에는 무세포 DNA WGS를 사용하지 못하고, 암의 조직(tumor tissue) WGS을 통해 해당 환자의 변이 정보를 갖고 있을 경우, 해당 변이만 필터링하여 추적관찰하는 암의 재발 모니터링에만 무세포 DNA의 WGS가 사용되었다(Zviran A et al., Nat Med, Vol. 26, pp. 1114-1124, 2020). 즉, 암의 진단에 무세포 DNA WGS를 사용하는 것이 효과적이지만 효과적인 필터링 방법의 부재로 인하여 무세포 DNA WGS를 암 진단에는 사용하지 못하였다.
한편, 암에서의 돌연변이 발생 빈도 (mutation rate)는 유전체 상의 지역별로 차이가 존재하며, 더 나아가 암 종별로도 변이가 발생되는 기작과 변이가 축적되는 양상이 다르다. 이러한 특성을 이용해서 암 조직에서의 돌연변이의 분포(regional mutation density) 및 변이의 종류(mutation signature)를 이용하여 암종이 구별 가능하다는 것이 보고된 바 있다(Jia Wei et al., Nat. Communications, Vol. 11, no. 728, 2020). 그러나 이 경우는 이미 수술을 통하여 암의 진단과 암종 구별이 완료된 상태에서 이론적인 가능성을 탐색한 것으로서, 무세포 DNA WGS를 통한 암 진단 기술에 적용된 것은 아니다.
아울러, 세포 유리 핵산의 말단을 이용하여 암을 진단하는 방법이 공지된 바 있으나(US 2020-0199656 A1), 그 정확도가 낮다는 단점이 있다.
또한, 인공신경망을 이용하여 바이오 분야에 활용하는 다양한 특허(KR 10-2017-0185041, KR 10-2017-0144237, KR 10-2018-0124550)가 존재하고 있으나, 혈액 내 무세포 DNA(무세포 DNA, cfDNA) WGS의 서열분석 정보를 기반으로 변이를 분석하여 암 종을 예측하는 방법에 대해서는 암 특이적 변이 발굴의 부정확성 문제로 부족한 실정이다.
이에, 본 발명자들은 상기 문제점들을 해결하고, 높은 민감도와 정확도의 무세포 핵산의 단일염기변이를 암 진단 및 암 종 예측방법을 개발하기 위해 예의 노력한 결과, 생체시료에서 핵산을 추출하여, 서열정보를 획득하여 정렬한 리드를 기반으로 필터링을 통해 암 특이적 단일염기변이를 정보를 수득하고, 핵산단편의 말단 서열 모티프 빈도 정보 및 핵산단편이 크기 정보를 도출한 다음, 각각의 인공지능 모델에 입력하여 출력된 값을 통합하여 분석할 경우, 높은 민감도와 정확도로 암 진단 및 암 종을 예측할 수 있다는 것을 확인하고, 본 발명을 완성하였다.
발명의 요약
본 발명의 목적은 무세포 핵산의 특성을 이용한 암 진단 및 암 종 예측방법을 제공하는 것이다.
본 발명의 다른 목적은 무세포 핵산의 특성을 이용한 암 진단 및 암 종 예측 장치를 제공하는 것이다.
본 발명의 또 다른 목적은 상기 방법으로 암 진단 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 저장 매체를 제공하는 것이다.
상기 목적을 달성하기 위하여, 본 발명은 (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계; (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계; (c) 상기 정렬된 서열정보(reads)에 대하여, 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이 정보를 추출하는 단계; (d) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 도출하는 단계; (e) 상기 (c) 단계의 암 특이적 단일염기변이 정보를 학습된 제1 인공지능 모델에 입력하여 분석한 제1 출력값을 수득하는 단계; (f) 상기 (d) 단계의 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 학습된 제2 인공지능 모델에 입력하여 분석한 제2 출력값을 수득하는 단계; 및 (g) 상기 출력값을 통합하여 분석한 최종 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및 (h) 상기 최종 결과값 비교를 통해 암 종을 예측하는 단계를 암 진단 및 암 종 예측을 위한 정보의 제공방법을 제공한다.
본 발명은 또한, (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계; (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계; (c) 상기 정렬된 서열정보(reads)에 대하여, 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이 정보를 추출하는 단계; (d) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 도출하는 단계; (e) 상기 (c) 단계의 암 특이적 단일염기변이 정보를 학습된 제1 인공지능 모델에 입력하여 분석한 제1 출력값을 수득하는 단계; (f) 상기 (d) 단계의 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 학습된 제2 인공지능 모델에 입력하여 분석한 제2 출력값을 수득하는 단계; 및 (g) 상기 출력값을 통합하여 분석한 최종 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및 (h) 상기 최종 결과값 비교를 통해 암 종을 예측하는 단계를 암 진단 및 암 종 예측방법을 제공한다.
본 발명은 또한, 생체시료에서 핵산을 추출하여 서열정보를 해독하는 해독부; 해독된 서열을 표준 염색체 서열 데이터베이스에 정렬하는 정렬부; 정렬된 서열에서 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이를 추출하는 변이 발굴부; 표준 염색체를 일정 구간으로 나누고, 각 구간별로 추출된 단일염기변이의 분포(regional mutation density)를 계산하는 단일염기변이 분포 계산부; 추출된 변이의 단일염기변이 종류별(mutation signature) 빈도를 계산하는 변이 빈도 계산부; 계산된 단열염기변이 분포 값과 변이 빈도를 제1 인공지능 모델에 입력하여 분석한 제1 출력값을 수득하는 제1 인공지능 모델 분석부; 정렬된 서열 기반의 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의크기를 도출하는 핵산단편 분석부; 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용한 벡터화된 데이터를 생성한 뒤, 후처리를 수행하는 데이터 생성부; 생성된 후처리된 벡터화 데이터를 학습된 인공지능 모델에 입력하여 분석한 제2 출력값을 수득하는 제2 인공지능 모델 분석부; 제1 출력값과 제2 출력값을 통합하여 분석한 최종 결과값을 기준값과 비교하여 암 유무를 판정하는 암 진단부; 및 최종 결과값을 비교하여 암 종을 예측하는 암 종 예측부를 포함하는 인공지능 기반 암 진단 및 암 종 예측 장치를 제공한다.
본 발명은 또한, 컴퓨터 판독 가능한 저장 매체로서, 암 진단 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되, (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계; (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계; (c) 상기 정렬된 서열정보(reads)에 대하여, 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이를 추출하는 단계; (d) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 도출하는 단계; (e) 상기 (c) 단계의 암 특이적 단일염기변이 정보를 학습된 제1 인공지능 모델에 입력하여 분석한 제1 출력값을 수득하는 단계; (f) 상기 (d) 단계의 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 학습된 제2 인공지능 모델에 입력하여 분석한 제2 출력값을 수득하는 단계; 및 (g) 상기 출력값을 통합하여 분석한 최종 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및 (h) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 통하여, 암 유무 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 저장 매체를 제공한다.
도 1은 본 발명의 무세포 핵산의 특성을 이용한 염색체 이상을 판정하기 위한 전체 흐름도이다.
도 2는 본 발명의 일 실시예에서 구축한 DNN 모델의 암 진단 성능을 다른 모델과 비교하여 확인한 결과로서, (A)는 암 진단 성능의 정확도, (B)는 암 종 판별 성능이다.
도 3의 (A)는 본 발명의 일 실시예에서 구축한 DNN 모델의 암 진단 성능을 암 종별로 기존 방법과 비교한 결과이며, (B)는 암 진행 단계별로 비교한 결과이다.
도 4의 (A)는 본 발명의 일 실시예에서 구축한 DNN 모델의 암 종 판별 성능을 암 종별로 기존 방법과 비교한 결과이며, (B)는 암 진행 단계별로 비교한 결과이다.
도 5는 본 발명의 일 실시예에서 건강인과 암 환자, 또는 각 암 종 사이에서 발현 빈도에 차이가 있는 motif를 선별한 과정의 예시이다.
도 6은 본 발명의 일 실시예에서 선별한 핵산단편들의 크기 분포를 확인한 그래프이다.
도 7의 왼쪽 패널은 본 발명의 일 실시예에서 제작한 FEMS table을 하나의 핵산단편으로 작성한 예시이고, 오른쪽 패널은 전체 핵산단편으로 작성한 예시이다.
도 8의 왼쪽 패널은 본 발명의 일 실시예에서 Edge summary를 추가로 수행하여 작성한 FEMS table의 예시이며, 오른쪽 패널은 이를 시각화한 결과이다.
도 9는 본 발명의 일 실시예에서 제작한 FEMS table의 구역별 빈도 값의 차이를 설명하는 도면이다.
도 10은 본 발명의 일 실시예에서 제작한 FEMS_Z table의 제작 과정을 나타내는 모식도이다.
도 11은 본 발명의 일 실시예에서 사용한 건강인 및 난소암 환자의 데이터를 바탕으로 작성한 FEMS table과 표준화 작업을 통해 구축한 FEMS_Z table의 시각화 예시이다.
도 12는 본 발명의 일 실시예에서 구축한 FEMS table을 이용한 CNN 모델과 FEMS_Z table을 이용한 CNN 모델의 성능을 비교한 결과이다.
도 13은 본 발명의 일 실시예에서 구축한 FEMS table을 이용한 CNN 모델과 FEMS_Z table을 이용한 CNN 모델의 실제 환자 분석 결과이다.
도 14는 본 발명의 일 실시예에서 구축한 DNN 모델, CNN 모델 및 앙상블 모델의 성능을 비교한 결과이다.
발명의 상세한 설명 및 바람직한 구현예
다른 식으로 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어들은 본 발명이 속하는 기술 분야에서 숙련된 전문가에 의해서 통상적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 본 명세서에서 사용된 명명법 및 이하에 기술하는 실험 방법은 본 기술 분야에서 잘 알려져 있고 통상적으로 사용되는 것이다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명에서는, 샘플에서 획득한 서열 분석 데이터를 참조 유전체에 정렬한 다음, 생체시료에서 핵산을 추출하여, 서열정보를 획득하여 정렬한 리드를 기반으로 필터링을 통해 암 특이적 단일염기변이를 추출하고, 정렬된 서열정보(reads)를 기반으로 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 도출한 다음, 단일염기변이 정보를 기반으로 암 진단 및 암 종 구분을 수행하도록 학습한 인공지능 모델과, 핵산단편 말단 서열 정보를 기반으로 암 진단 및 암 종 구분을 수행하도록 학습한 인공지능 모델을 결합하여 분석할 경우, 높은 민감도와 정확도로 암 진단 및 암 종류를 예측할 수 있다는 것을 확인하고자 하였다.
즉, 본 발명의 일 실시예에서는, 혈액에서 추출한 DNA를 시퀀싱 한 뒤, 참조 염색체에 정렬한 다음, 정렬된 리드에서 필터링을 통해 암 특이적 단일염기변이를 추출하고, 참조 염색체를 일정 구간으로 나누어 각 구간별 단일염기변이의 분포를 계산하고, 각각의 단일염기변이의 종류별 빈도를 계산하여 단일염기변이 분포와 단일염기변이 종류별 빈도를 암 진단 및 암 종 예측을 수행하도록 학습된 제1 인공지능 모델에 입력하여 제1 출력값을 수득하고, 정렬된 리드를 이용하여 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하고, 핵산단편의 말단 서열 모티프 빈도를 X축으로 하고, 핵산단편의 크기를 Y축으로 하는 벡터화된 데이터를 생성하여 후처리한 다음, 이를 암 진단 및 암 종 예측을 수행하도록 학습된 제2 인공지능 모델에 입력하여 제2 출력값을 수득하였으며, 상기 제1 출력값과 제2 출력값을 통합하고 분석하여 수득한 최종 출력값을 기준값과 비교하여 암 진단을 수행한 다음, 각 암 종 별로 수득한 최종 출력값 중, 가장 높은 값을 나타낸 암 종을 샘플의 암 종으로 결정하는 방법을 개발하였다(도 1).
따라서, 본 발명은 일관점에서,
(a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
(b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
(c) 상기 정렬된 서열정보(reads)에 대하여, 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이 정보를 추출하는 단계;
(d) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 도출하는 단계;
(e) 상기 (c) 단계의 암 특이적 단일염기변이 정보를 학습된 제1 인공지능 모델에 입력하여 분석한 제1 출력값을 수득하는 단계;
(f) 상기 (d) 단계의 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 학습된 제2 인공지능 모델에 입력하여 분석한 제2 출력값을 수득하는 단계; 및
(g) 상기 출력값을 통합하여 분석한 최종 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및
(h) 상기 최종 결과값 비교를 통해 암 종을 예측하는 단계를 포함하는 암 진단 및 암 종 예측을 위한 정보의 제공방법에 관한 것이다.
본 발명은 다른 관점에서,
(a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
(b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
(c) 상기 정렬된 서열정보(reads)에 대하여, 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이 정보를 추출하는 단계;
(d) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 도출하는 단계;
(e) 상기 (c) 단계의 암 특이적 단일염기변이 정보를 학습된 제1 인공지능 모델에 입력하여 분석한 제1 출력값을 수득하는 단계;
(f) 상기 (d) 단계의 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 학습된 제2 인공지능 모델에 입력하여 분석한 제2 출력값을 수득하는 단계; 및
(g) 상기 출력값을 통합하여 분석한 최종 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및
(h) 상기 최종 결과값 비교를 통해 암 종을 예측하는 단계를 포함하는 암 진단 및 암 종 예측방법에 관한 것이다.
본 발명에서 상기 암은 고형암 또는 혈액암일 수 있고, 바람직하게는 비호지킨 림프종 (non-Hodgkin lymphoma), 호지킨 림프종 (non-Hodgkin lymphoma), 급성 골수성 백혈병 (acute-myeloid leukemia), 급성 림프구성 백혈병 (acute-lymphoid leukemia), 다발성 골수종 (multiple myeloma), 경부암 (head and neck cancer), 폐암, 신경모세포종 (glioblastoma), 대장/직장암, 췌장암, 유방암, 난소암, 흑색종 (melanoma), 전립선암, 갑상선암, 간암, 위암, 담낭암, 담도암, 방광암, 소장암, 자궁경부암, 원발부위불명암, 신장암 및 중피종 (mesothelioma)으로 구성된 군에서 선택될 수 있으며, 가장 바람직하게는 간암 또는 난소암 일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서,
상기 (a) 단계는
(a-i) 생체시료에서 핵산을 수득하는 단계;
(a-ii) 채취된 핵산에서 솔팅-아웃 방법(salting-out method), 컬럼 크로마토그래피 방법(column chromatography method) 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;
(a-iii) 정제된 핵산 또는 효소적 절단, 분쇄, 수압 절단 방법(hydroshear method)으로 무작위 단편화(random fragmentation)된 핵산에 대하여, 싱글 엔드 시퀀싱(single-end sequencing) 또는 페어 엔드 시퀀싱(pair-end sequencing) 라이브러리(library)를 제작하는 단계;
(a-iv) 제작된 라이브러리를 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계; 및
(a-v) 차세대 유전자서열검사기에서 핵산의 서열정보(reads)를 획득하는 단계;
를 포함하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (a) 단계의 서열정보를 획득하는 단계는 분리된 무세포 DNA를 1백만 내지 1억 리드 깊이로 전장 유전체 시퀀싱을 통해 획득하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 생체시료는 개체로부터 얻어지거나 개체로부터 유래된 임의의 물질, 생물학적 체액, 조직 또는 세포를 의미하는 것으로, 예를 들면, 전혈(whole blood), 백혈구(leukocytes), 말초혈액 단핵 세포(peripheral blood mononuclear cells), 백혈구 연층(buffy coat), (혈장(plasma) 및 혈청(serum)을 포함하는) 혈액, 객담(sputum), 눈물(tears), 점액(mucus), 세비액(nasal washes), 비강 흡인물(nasal aspirate), 호흡(breath), 소변(urine), 정액(semen), 침(saliva), 복강 세척액(peritoneal washings), 골반 내 유체액(pelvic fluids), 낭종액(cystic fluid), 뇌척수막 액(meningeal fluid), 양수(amniotic fluid), 선액(glandular fluid), 췌장액(pancreatic fluid), 림프액(lymph fluid), 흉수(pleural fluid), 유두 흡인물(nipple aspirate), 기관지 흡인물(bronchial aspirate), 활액(synovial fluid), 관절 흡인물(joint aspirate), 기관 분비물(organ secretions), 세포(cell), 세포 추출물(cell extract), 정액, 모발, 타액, 소변, 구강세포, 태반세포, 뇌척수액(cerebrospinal fluid) 및 이의 혼합물을 포함할 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서 용어, ”참조집단”은 표준 염기서열 데이터베이스와 같이 비교할 수 있는 기준(reference) 집단으로, 현재 특정 질환 또는 병증이 없는 사람의 집단을 의미한다. 본 발명에 있어서, 상기 참조집단의 표준 염색체 서열 데이터베이스에서 표준 염기서열은 NCBI 등의 공공보건기관에 등록되어 있는 참조 염색체일 수 있다.
본 발명에 있어서, 상기 (a) 단계의 핵산은 무세포 DNA 일 수 있으며, 보다 바람직하게는 순환종양세포 DNA(circulating tumor DNA) 일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 차세대 유전자서열검사기(next-generation sequencer)는 당업계에 공지된 임의의 시퀀싱 방법으로 사용될 수 있다. 선택 방법에 의해 분리된 핵산의 시퀀싱은 전형적으로는 차세대 시퀀싱(NGS)을 사용하여 수행된다. 차세대 시퀀싱은 개개의 핵산 분자 또는 고도로 유사한 방식으로 개개의 핵산 분자에 대해 클론으로 확장된 프록시 중 하나의 뉴클레오타이드 서열을 결정하는 임의의 시퀀싱 방법을 포함한다(예를 들어, 105개 이상의 분자가 동시에 시퀀싱된다). 일 실시형태에서, 라이브러리 내 핵산 종의 상대적 존재비는 시퀀싱 실험에 의해 만들어진 데이터에서 그것의 동족 서열의 상대적 발생 수를 계측함으로써 추정될 수 있다. 차세대 시퀀싱 방법은 당업계에 공지되어 있고, 예를 들어 본 명세서에 참조로서 포함된 문헌(Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46)에 기재된다.
차세대 시퀀싱을 위한 플랫폼은, 이하에 제한되는 것은 아니지만, 로슈(Roche)/454의 게놈 시퀀서(Genome Sequencer: GS) FLX 시스템, 일루미나(Illumina)/솔렉사(Solexa) 게놈 분석기(Genome Analyzer: GA), 라이프(Life)/APG의 서포트 올리고(Support Oligonucleotide Ligation Detection: SOLiD) 시스템, 폴로네이터(Polonator)의 G.007 시스템, 헬리코스 바이오사이언스의 헬리스코프 유전자 시퀀싱 시스템(Helicos BioSciences' HeliScope Gene Sequencing system) 및 퍼시픽 바이오사이언스(Pacific Biosciences)의 팩바이오알에스(PacBio RS) 시스템을 포함한다.
본 발명에 있어서, 상기 (b) 단계의 정렬단계는 이에 제한되지는 않으나, BWA 알고리즘 및 Hg19 서열을 이용하여 수행되는 것일 수 있다.
본 발명에 있어서, 상기 BWA 알고리즘은 BWA-ALN, BWA-SW 또는 Bowtie2 등이 포함될 수 있으나 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (b) 단계의 서열정보(reads)의 길이는, 5 내지 5000 bp이고, 사용하는 서열정보의 수는 5천 내지 500만개가 될 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (c) 단계의 필터링은 정상인에서 발생한 단일염기변이와 암 특이적으로 발생한 단일염기변이를 구별할 수 있는 방법이면 제한없이 이용할 수 있으며, 바람직하게는 발굴된 단일염기변이가 있는 변이 지역의 리드 깊이(read depth)가 3 이상이고, 평균 시퀀싱 퀄리티(sequencing quality)가 30 이상인 단일염기변이를 추출하는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서 상기 변이 지역은 단일염기변이가 있는 정확한 위치를 의미하며, 변이 지역의 리드 깊이가 3 이상이라는 의미는 해당 위치에 정렬되는 리드의 개수가 3개 이상이라는 것을 의미한다.
본 발명에 있어서, 상기 (c) 단계의 필터링은 서열분석 과정 중 발생한 아티팩트(artifact)와 생식세포 변이(germline mutation)를 제거하는 과정을 추가로 수행하는 것을 특징으로 할 수 있으며, 상기 과정은
i) 리드 쌍(read pair) 중 어느 하나에서만 검출되는 변이;
ii) 한 위치에서 두 종류 이상 검출되는 변이;
iii) 각 위치에서 정상 염기가 검출되지 않는 변이; 및
iv) 정상인 데이터베이스에서 검출되는 변이;
로 구성된 군에서 선택되는 어느 하나 이상의 변이를 제거하는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서 상기 정상인 데이터베이스는 정상인의 염기서열 변이 정보를 포함하는 데이터베이스이면 제한없이 이용가능하고, 바람직하게는 정상인의 cfDNA WGS 데이터, 조직 샘플의 WGS 데이터 등을 포함하는 데이터베이스 일 수 있으며, 더욱 바람직하게는 dbSNP, 1000 Genome, Hapmap, ExAC, Gnomad 등의 공개된 데이터베이스 일 수 있으나 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (c) 단계는 다음의 단계를 추가로 포함하는 것을 특징으로 할 수 있다:
(c-i) 상기 표준 염색체를 일정 구간으로 나누고, 각 구간별로 추출된 단일염기변이의 분포(regional mutation density, RMD)를 계산하는 단계; 및
(c-ii) 상기 추출된 변이의 단일염기변이 종류별(mutation signature) 빈도를 계산하는 단계.
본 발명에 있어서, 상기 (c-i) 단계의 구간은 단일염기변이 분포를 계산할 수 있는 구간이면 얼마든지 임의로 설정할 수 있고, 바람직하게는 100kb 내지 10Mb일 수 있고, 더욱 바람직하게는 500kb 내지 5Mb 일 수 있으며, 가장 바람직하게는 1Mb일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (c-i) 단계의 추출된 단일염기변이의 분포(regional mutation density, RMD)를 계산하는 단계는 다음의 단계를 포함하는 방법으로 수행하는 것을 특징으로 할 수 있다:
(i) 전체 샘플의 기준값 이상에서 변이가 검출되지 않는 구간을 제외한 구간별로 추출된 단일염기변이의 개수를 계산하는 단계; 및
(ii) 계산된 개수를 각 구간별 변이의 총 개수로 나누어 정규화(normalization)하는 단계.
본 발명에 있어서, 상기 기준값은 추출된 단일염기변이를 유의미하게 구분할 수 있는 값이면 제한없이 이용할 수 있고, 바람직하게는 40 내지 60%일 수 있으며, 더욱 바람직하게는 45 내지 55% 일 수 있고, 가장 바람직하게는 50%일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서 상기 전체 샘플의 기준값 이상에서 변이가 검출되지 않는 구간을 제외한 구간은 기준값이 50%일 경우, 전체 샘플 중 50% 이상의 샘플에서 추출된 단일염기변이가 존재하지 않는 구간을 제외한다는 것을 의미한다.
본 발명에 있어서, 상기 구간은 표 1로 기재된 구간에서 선택되는 하나 이상인 것을 특징으로 할 수 있다.
본 발명에서, 단일유전자변이의 분포(regional mutation density, RMD)는 배경 변이율(background mutation rate)과 유사한 의미로 사용되며, 전장 유전체를 일정 구간으로 나누어 mutation frequency를 계산한 것을 의미한다.
본 발명에서, 암 종별 단일유전자변이의 분포는 해당 암에서 변이가 많은 지역인지, 적은 지역인지에 대한 정량값이다. 암 단일유전자변이는 인간 게놈에 균일하게 분포하지 않는다. 전장 유전체 지역에 따라 축적되는 단일유전자변이의 양이 다르며, 암 종별로 축적되는 양상 또한 굉장히 다르다. 또한, 후성유전체적 특징(Histone modification, 복제 시간)이 암 종별 단일유전자변이 분포의 주요 원인으로, 단일유전자변이의 분포는 해당 암 종의 후성유전체적 특징을 내포한다.
단일유전자변이의 분포는 전장 유전체 지역별로 다르고, 암 종별로 다르기 때문에 암 진단 및 암 종 판별의 유용한 지표가 될 수 있다. 발굴된 변이가 해당 암에서 발생 확률이 높은 지역에 위치한 변이인지 단일유전자변이의 분포를 이용해 알 수 있다.
본 발명에 있어서, 상기 (c-ii) 단계의 단일염기변이 종류별(mutation signature) 빈도를 계산하는 단계는 다음의 단계를 포함하는 방법으로 수행하는 것을 특징으로 할 수 있다:
(i) 다음의 변이 종류별 변이 개수를 계산하는 단계; 및
(1)사이토신(cytosine, C)이 티민(thymine, T), 아데닌(adenine, A) 또는 구아닌(guanine, G)으로 치환된 변이;
(2)) 티민이 시토신, 아데닌 또는 구아닌으로 치환된 변이;
(3) (1) 또는 (2)의 변이에서 5’ 방향 염기가 하나 더 포함된 변이;
(4) (1) 또는 (2)의 변이에서 3’ 방향 염기가 하나 더 포함된 변이; 및
(5) 아데닌, 구아닌, 사이토신 및 티민이 서로 다른 염기로 치환된 변이의 5’ 방향 염기 하나 및 3’ 방향 염기를 각각 하나씩 더 포함하는 변이;
(ii) 계산된 변이 개수의 합을 총합으로 나누어 정규화(normalization)하는 단계.
본 발명에 있어서, 상기 변이의 종류는 표 2에 기재된 변이에서 선택되는 하나 이상인 것을 특징으로 할 수 있다.
본 발명에서, 단일염기변이 종류(mutation signature)는 정상 염기가 다른 염기로 변이되어 유전자의 기능적 이상이 발생하는 변이이면 제한없이 이용가능하며, 바람직하게는 C->A, C->G, C->T, T->A, T->C 및 T->G로 구성된 군에서 선택되는 하나 이상인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서 C->A는 검출된 변이가 정상 염기 C가 변이 염기 A로 변이 된 것인지를 확인하는 것을 의미하고, C->G는 검출된 변이가 정상 염기 C가 변이 염기 G로 변이된 것인지를 확인하는 것을 의미하며, 나머지도 같은 의미이다.
본 발명에 있어서, 상기 (e) 단계의 제1 인공지능 모델은 암 진단 및 암 종을 판별할 수 있는 모델이면 제한없이 이용가능하며, 바람직하게는 인공신경망 모델일 수 있으며, 더욱 바람직하게는 합성곱 신경망(convolutional neural network, CNN), 심층 신경망(Deep Neural Network, DNN), 순환 신경망(Recurrent Neural Network, RNN), MLP (Multi-layer Paerceptron) 및 오토 인코더(autoencoder)로 구성된 군에서 선택될 수 있고, 가장 바람직하게는 심층 신경망일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 제1 인공지능 모델이 DNN이고, binary classification을 학습할 경우, 손실함수는 하기 수식 1로 표시되는 binary crossentropy인 것을 특징으로 할 수 있다:
Figure PCTKR2023019490-appb-img-000001
여기서, N은 전체 샘플 수이고, yi는 모델이 i번째 입력값이 class 1에 가깝다고 예측한 확률 값이며, yi는 i번째 입력값의 실제 class이다.
본 발명에 있어서, 상기 제1 인공지능 모델이 DNN이고, Multi-class classification을 학습할 경우, 손실함수는 하기 수식 2으로 표시되는 categorical crossentropy 인것을 특징으로 할 수 있다:
Figure PCTKR2023019490-appb-img-000002
여기서, N은 전체 샘플 수이며, J는 전체 class의 개수이고, yj는 해당 샘플의 실제 class를 나타내는 값으로 실제 class가 j이면 1, 실제 class가 j가 아니면 0으로 표시하며, yj 는 해당 샘플이 j class라고 예측한 확률값으로 1에 가까울수록 해당 class일 확률이 높다고 예측한 확률값이다.
본 발명에 있어서, 상기 제1 인공지능 모델이 MLP 일 경우, 손실함수는 평균제곱오차(Mean Squared Error, MSE)일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (e) 단계의 제1 인공지능 모델이 입력된 암 특이적 단일염기변이 정보를 분석하여 출력하는 제1 출력값은 특정 score 또는 실수이면 제한없이 이용가능하며, 바람직하게는 제1 DPI(Deep Probability Index) 값인 것을 특징으로 할 수 있으나 이에 한정되는 것은 아니다.
본 발명에서 상기 (e) 단계의 제1 출력값은 암 종별로 도출되는 것을 특징으로 할수 있다.
본 발명에 있어서, 상기 (d) 단계는 다음의 단계를 추가로 포함하는 것을 특징으로 할 수 있다:
(d-i) 상기 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계; 및
(d-ii) 상기 벡터화된 데이터를 후처리하는 단계.
본 발명에 있어서, 상기 (d) 단계의 핵산단편 말단 서열 모티프는 핵산단편 양 말단의 2 내지 30개의 염기서열의 패턴인 것을 특징으로 할 수 있다.
즉, 하기와 같이 페어드-엔드 시퀀싱에 의해 서열분석된 핵산단편이 있을 시,
Forward strand: 5`-TACAGACTTTGGAAT-3` (서열번호 1)
Reverse strand: 3`-ATGACTGAAACCTTA-5` (서열번호 2)
Forward strand 5` 말단에서부터 순서대로 읽은 TACA와, Reverse strand 5` 말단에서부터 순서대로 읽은 ATTC가 이 핵산단편의 말단 서열 모티프 값이 된다.
본 발명에 있어서, 상기 (d) 단계의 핵산단편 말단 서열 모티프의 빈도는 전체 핵산 단편에서 검출된 각각의 모티프 수인 것을 특징으로 할 수 있다.
즉, 핵산단편 말단 서열 모티프를 양 말단의 4개의 염기를 바탕으로 분석할 경우(4-mer motif), 1, 2, 3, 4 번째 위치에 각각 A, T, G, C 네 종류의 염기 조합이 가능하기 때문에, 총 256 가지 (4*4*4*4) 조합의 motif 값이 분석 대상이 된다.
시퀀싱으로 생상된 전체 핵산 단편에서 각 motif들이 관측되는 수를 계수한 것이 모티프 빈도이고, 이 값을 생산된 전체 핵산 단편 숫자로 나누어 계산한 값이 각 motif의 상대 빈도(relative frequency)이다.
Figure PCTKR2023019490-appb-img-000003
상기 표 3에 기재된 바와 같이 전체 핵산 단편의 숫자가 126,430,124개 이고, AAAA가 핵산단편 말단 서열 모티프로 분석되는 핵산단편의 개수가 125,071개이므로, AAAA 핵산단편 말단 서열 모티프의 빈도는 125,071이되고, 이를 전체 핵산단편 숫자로 나누어 계산한 핵산단편 말단 서열 모티프의 상대 빈도는 0.00099가 되는 것이다.
본 발명에 있어서, 상기 (d) 단계의 핵산단편의 크기는 핵산단편의 5’ 말단에서 3’ 말단까지의 염기 개수인 것을 특징으로 할 수 있다.
예를 들어, 상기 서열번호 1 및 2로 분석되는 핵산단편의 크기는 15이다.
본 발명에서, 상기 핵산단편의 크기는 1 내지 10000일 수 있고, 바람직하게는 10 내지 1000일 수 있으며, 더욱 바람직하게는 50 내지 500일 수 있고, 가장 바람직하게는 90 내지 250일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (d-i) 단계의 벡터화된 데이터는 핵산단편 말단 서열 모티프 종류를 X축으로 하고, 핵산단편의 크기를 Y축으로 하는 것을 특징으로 할 수 있다.
즉, 아래와 같은 핵산 단편이 하나 있다고 가정했을 때,
Forward strand: 5`-TACAGACTAGT … TTGGAAT-3` (서열번호 3)
Reverse strand: 3`-ATGACTGATCA … AACCTTA-5` (서열번호 4)
Fragment Size: 176
이 핵산단편은 도 7의 왼쪽 패널과 같은 2차원 벡터로 표현될 수 있으며, 이러한 과정을 전체 핵산 단편으로 확장하여 누적하면, 도 7의 오른쪽 패널과 같은 2차원 벡터를 생성하는 것이다.
본 발명에 있어서, 상기 벡터화된 데이터는 핵산단편 말단 모티프별 빈도의 총합 및 핵산단편 크기별 빈도의 총합을 추가로 포함하는 것을 특징으로 할 수 있다.
즉, Fragment Size에 관계 없는 Fragment End Motif별 frequency 정보를 추가하기 위해 열 합 (column sum) 값을 도 4의 2차원 벡터 가장 아래에 4번 추가하고, Fragment End Motif에 관계 없는 Fragment Size 정보를 추가하기 위해 행 합 (row sum) 값을 도 4의 2차원 벡터 가장 우측에 4번 추가하는 Edge Summary를 추가적으로 수행하여, 도 5의 왼쪽 패널과 같은 2차원 벡터를 생성하는 것이다.
본 발명에서는 상기 2차원 벡터를 Fragment End Motif frequency and Size (FEMS) table이라 정의하였다. FEMS table을 시각화하면 도 5의 오른쪽 패널과 같이 나타날 수 있다.
본 발명에 있어서, 상기 (d-ii) 단계는 다음의 단계를 포함하는 방법으로 수행하는 것을 특징으로 할 수 있다:
(i) 정상인 그룹에서 각 핵산단편 말단 서열 모티프의 종류와 핵산단편의 크기 별 빈도 값의 평균 및 표준편차를 계산하는 단계;
(ii) 샘플의 각 핵산단편 말단 서열 모티프의 종류와 핵산단편의 크기 별 빈도 값에 정상인 그룹의 각 핵산단편 말단 서열 모티프의 종류와 핵산단편의 크기 별 빈도 값의 평균을 뺀 다음 각 핵산단편 말단 서열 모티프의 종류와 핵산단편의 크기 별 빈도 값의 표준 편차로 나누어 Z 표준화를 수행하여 Z 표준화 값을 도출하는 단계; 및
(iii) 상기 (ii)에서 도출된 Z 표준화 값이 기준 범위 초과일 경우, 기준값으로 보정하는 단계.
본 발명에 있어서, 상기 기준 범위는 -5 내지 5이며, 기준값은 -5 또는 5인 것을 특징으로 할 수 있다.
즉, 기존의 FEMS table이 영역별로 계산되는 값의 분포 차이가 커서 이를 표준화하는 후처리 작업을 수행하는 것을 특징으로 하는 것이다.
예를 들어, 상기 후처리 작업은 아래와 같은 단계를 통해 수행될 수 있다:
i) training 데이터에 포함되어 있는 건강인 99명을 Z 표준화 참조군 (Z Reference set)으로 선별하는 단계;
ii) 선별된 Z 표준화 참조군에서, FEMS table 내의 각 위치에서 관찰되는 값의 평균과 표준편차를 계산하는 단계: 예를 들어, 99명의 Z 표준화 참조군의 FEMS table에서 핵산단편 크기가 180이면서 AAAA 모티프를 갖는 위치 (a)에 있는 값의 평균 및 표준편차를 계산하여 각각 Mean_180_AAAA, SD_180_AAAA로 정의한다.
iii) 위의 ii) 과정에서 계산된 FEMS table 내의 각 위치에서의 평균, 표준편차 값을 이용해 Z 표준화를 수행하는 단계: 구체적으로, 핵산단편 크기가 180이면서 AAAA 모티프를 갖는 위치에서 관찰되는 빈도값을 Value_180_AAAA라 했을 때, Z_180_AAAA = (Value_180_AAAA - Mean_180_AAAA) / SD_180_AAAA 의 수식으로 Z 표준화를 수행한다.
iv) 표준편차 값이 너무 작아 일반적인 범위 (-5 ~ 5) 밖으로 계산되는 Z 표준화 값의 영향을 배제하기 위해, Z < -5 인 값은 -5로, Z > 5 인 값은 5로 하여 Z 표준화 값의 최소 및 최대 범위를 제한하는 단계.
상기 단계를 통해 생성한 FEMS_Z table을 시각화하면 도 10에 기재된 바와 같다.
본 발명에서 벡터화된 데이터는 이에 한정되지는 않으나, 2D table 인 것을 특징으로 할 수 있다.
본 발명에서, 상기 (c) 단계를 수행하기에 앞서 정렬된 핵산단편의 정렬 일치도 점수(mapping quality score)를 만족하는 핵산단편을 따로 분류하는 단계를 추가로 포함하는 것을 특징으로 할 수 있다.
본 발명에서 상기 정렬 일치도 점수(mapping quality score)는 원하는 기준에 따라 달라질 수 있으나, 바람직하게는 15-70점, 더욱 바람직하게는 50~70점 일 수 있고, 가장 바람직하게는 60점일 수 있다.
본 발명에 있어서, 상기 (f) 단계의 제2 인공지능 모델은 암 종류별 이미지를 구별할 수 있도록 학습할 수 있는 모델이면 제한없이 사용가능하며, 바람직하게는 딥러닝 모델인 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 제2 인공지능 모델은 인공신경망 기반으로 벡터화된 데이터를 분석할 수 있는 인공신경망 알고리즘이면 제한없이 이용할 수 있으나, 바람직하게는 합성곱 신경망(convolutional neural network, CNN), 심층 신경망(Deep Neural Network, DNN) 및 순환 신경망(Recurrent Neural Network, RNN)으로 구성된 군에서 선택되는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 순환 신경망은 LSTM(Long-short term memory) 신경망, GRU(Gated Recurrent Unit) 신경망, 바닐라 순환 신경망(Vanilla recurrent neural network) 및 집중적 순환 신경망(attentive recurrent neural network)으로 구성된 군에서 선택되는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 제2 인공지능 모델이 CNN일 경우, binary classification을 수행하는 손실함수는 하기 수식 3으로 표시되는 것을 특징으로 할 수 있고, Multi-class classification을 수행하는 손실함수는 하기 수식 4로 표시되는 것을 특징으로 할 수 있다.
Figure PCTKR2023019490-appb-img-000004
Figure PCTKR2023019490-appb-img-000005
본 발명에서, 상기 binary classification은 인공지능 모델이 암 유무를 판별하도록 학습하는 것을 의미하며, multi-class classification은 인공지능 모델이 두 가지 이상의 암 종을 판별하도록 학습하는 것을 의미한다.
본 발명에서, 상기 인공지능 모델의 학습은 하기 단계를 포함하여 수행되는 것을 특징으로 할 수 있다:
i) 생산된 벡터 데이터를 training(학습), validation(검증), test(성능평가) 데이터로 분류하는 단계;
이 때, Training 데이터는 인공지능 모델을 학습할 때 사용되고, Validation 데이터는 hyper-parameter tuning 검증에 사용되며, Test 데이터는 최적의 모델 생산 후, 성능 평가로 사용되는 것을 특징으로 함.
ii) Hyper-parameter tuning 및 학습 과정을 통해서 최적의 인공지능 모델을 구축하는 단계;
iii) Hyper-parameter tuning을 통해서 얻어진 여러 모델의 성능을 validation data를 이용하여 비교하여, validation data 성능이 가장 좋은 모델을 최적의 모델로 결정하는 단계;
본 발명에서, 상기 Hyper-parameter tuning 과정은 인공지능 모델을 이루는 여러 parameter(convolution layer 수, dense layer 수, convolution filter 수 등) 값을 최적화하는 과정으로 Hyper-parameter tuning 과정으로는 Bayesian optimization 및 grid search 기법을 사용하는 것을 특징으로 할 수 있다.
본 발명에서, 상기 학습 과정은 정해진 hyper-parameter들을 이용하여 인공지능 모델의 내부 parameter(weights)들을 최적화시켜, Training loss 대비 validation loss가 증가하기 시작하면 모델이 과적합(Overfitting) 되었다 판단하고, 그전에 model 학습을 중단하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (f) 단계에서 제2 인공지능 모델이 입력된 벡터화된 데이터로부터 분석하여 출력하는 제2 출력값은 특정 score 또는 실수이면 제한없이 이용가능하며, 바람직하게는 제2 DPI(Deep Probability Index) 값인 것을 특징으로 할 수 있으나 이에 한정되는 것은 아니다.
본 발명에서, Deep probability Index는 인공지능 model의 마지막 layer에 binary classification일 경우 sigmoid function, multi-class classification일 경우 softmax function을 사용하여 인공지능의 output을 0 ~ 1 scale로 조정하여 확률값으로 표현한 값을 의미한다.
Binary classification일 경우에는 sigmoid function을 이용하여 암 일 경우 DPI 값이 1이 되게끔 학습을 하게 된다. 예를 들어, 유방암 샘플과 정상 샘플이 입력되면, 유방암 샘플의 DPI 값이 1에 가깝도록 학습하는 것이다.
Multi-class classification 일 경우에는 softmax function을 이용하여, class 개수만큼의 DPI 값을 뽑게 된다. Class 개수만큼의 DPI갑의 합은 1이되고, 실제 해당되는 암 종의 DPI값이 1이 되게끔 학습을 하게 된다. 예를 들어, 3개의 class 유방암, 간암, 정상이 있고, 유방암 sample이 들어오면, 유방암 class를 1에 가깝게 학습하게 되는 것이다.
본 발명에서 상기 (f) 단계의 제2 출력값은 암 종별로 도출되는 것을 특징으로 할수 있다.
본 발명에서, 상기 인공지능 모델은 학습할 때, 암이 있으면 output 결과가 1에 가깝게 학습하고, 암이 없으면 output 결과가 0에 가깝게 학습을 시켜서, 0.5를 기준으로 0.5 이상이면 암이 있다고 판단하고, 0.5 이하이면 암이 없다고 판단하여 performance 측정을 수행하였다(Training, validation, test accuracy).
여기서, 0.5의 기준값은 언제든지 바뀔 수 있는 값이라는 것은 통상의 기술자에게 자명한 것이다. 예를 들어서 False positive(위양성)를 줄이고자 하면, 0.5보다 높은 기준값을 설정하여 암이 있다고 판단되는 기준을 엄격하게 가져 갈 수 있고, False Negative(위음성)를 줄이고자 하면 기준값을 더 낮게 측정하여 암이 있다고 판단되는 기준을 조금 더 약하게 가져 갈 수 있다.
가장 바람직하게는 학습된 인공지능 모델을 이용하여 unseen data(학습에 training하지 않은 답을 알고 있는 data)를 적용시켜서, DPI값의 probability를 확인하여 기준값을 정할 수 있다.
본 발명에 있어서, 상기 (g) 단계의 최종 결과값은 기준값과 비교할 수 있는 값이면 제한없이 이용가능하며, 바람직하게는 제1 출력값과 제2 출력값의 자체 또는 가중치를 가한 값의 합, 차, 곱, 평균, 곱의 로그, 합의 로그, 중앙값, 분위수, 최소값, 최대값, 분산, 표준편차, 중앙값 절대 편차 및 변동 계수로 구성된 군에서 선택된 하나 이상의 값인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서 상기 (g) 단계의 최종 결과값은 EPI(Ensemble Probability Index) 값인 것을 특징으로 할 수 있으나 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (h) 단계의 최종 결과값 비교를 통해 암 종을 예측하는 단계는 최종 결과값 중, 가장 높은 값을 나타내는 암 종을 샘플의 암으로 판정하는 단계를 포함하는 방법으로 수행하는 것을 특징으로 할 수 있다.
본 발명은 다른 관점에서, 생체시료에서 핵산을 추출하여 서열정보를 해독하는 해독부;
해독된 서열을 표준 염색체 서열 데이터베이스에 정렬하는 정렬부;
정렬된 서열에서 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이를 추출하는 변이 발굴부;
표준 염색체를 일정 구간으로 나누고, 각 구간별로 추출된 단일염기변이의 분포(regional mutation density)를 계산하는 단일염기변이 분포 계산부;
추출된 변이의 단일염기변이 종류별(mutation signature) 빈도를 계산하는 변이 빈도 계산부;
계산된 단열염기변이 분포 값과 변이 빈도를 제1 인공지능 모델에 입력하여 분석한 제1 출력값을 수득하는 제1 인공지능 모델 분석부;
정렬된 서열 기반의 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의크기를 도출하는 핵산단편 분석부;
도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용한 벡터화된 데이터를 생성한 뒤, 후처리를 수행하는 데이터 생성부;
생성된 후처리된 벡터화 데이터를 학습된 인공지능 모델에 입력하여 분석한 제2 출력값을 수득하는 제2 인공지능 모델 분석부;
제1 출력값과 제2 출력값을 통합하여 분석한 최종 결과값을 기준값과 비교하여 암 유무를 판정하는 암 진단부; 및
최종 결과값을 비교하여 암 종을 예측하는 암 종 예측부를 포함하는 인공지능 기반 암 진단 및 암 종 예측 장치에 관한 것이다.
본 발명에서, 상기 해독부는 독립된 장치에서 추출된 핵산을 주입하는 핵산 주입부; 및 주입된 핵산의 서열정보를 분석하는 서열정보 분석부를 포함할 수 있으며, 바람직하게는 NGS 분석 장치일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 상기 해독부는 독립된 장치에서 생성된 서열정보 데이터를 수신하여 해독하는 것을 특징으로 할 수 있다.
본 발명은 또 다른 관점에서, 컴퓨터 판독 가능한 저장 매체로서, 암 진단 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되,
(a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
(b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
(c) 상기 정렬된 서열정보(reads)에 대하여, 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이를 추출하는 단계;
(d) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 도출하는 단계;
(e) 상기 (c) 단계의 암 특이적 단일염기변이 정보를 학습된 제1 인공지능 모델에 입력하여 분석한 제1 출력값을 수득하는 단계;
(f) 상기 (d) 단계의 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 학습된 제2 인공지능 모델에 입력하여 분석한 제2 출력값을 수득하는 단계; 및
(g) 상기 출력값을 통합하여 분석한 최종 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및
(h) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 통하여, 암 유무 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 저장 매체에 관한 것이다.
다른 양태에서 본원에 따른 방법은 컴퓨터를 이용하여 구현될 수 있다. 일 구현예에서, 컴퓨터는 칩 세트에 연결된 하나 이상의 프로세서를 포함한다. 또한 칩 세트에는 메모리, 저장 장치, 키보드, 그래픽 어댑터(Graphics Adapter), 포인팅 장치(Pointing Device) 및 네트워크 어댑터(Network Adapter) 등이 연결되어 있다. 일 구현예에서, 상기 칩 세트의 성능은 메모리 컨트롤러 허브(Memory Controller Hub) 및 I/O 컨트롤러 허브에 의하여 가능하다. 다른 구현예에서, 상기 메모리는 칩 세트 대신에 프로세서에 직접 연결되어 사용될 수 있다. 저장 장치는 하드 드라이브, CD-ROM(Compact Disk Read-Only Memory), DVD 또는 기타 메모리 장치를 포함하는 데이터를 유지할 수 있는 임의의 장치이다. 메모리는 프로세서에 의하여 사용된 데이터 및 명령에 관여한다. 상기 포인팅 디바이스는 마우스, 트랙볼 (Track Ball) 또는 다른 유형의 포인팅 디바이스일 수 있고, 키보드와 조합하여 입력 데이터를 컴퓨터 시스템으로 전송하는데 사용된다. 상기 그래픽 어댑터는 디스플레이 상에서 이미지 및 다른 정보를 나타낸다. 상기 네트워크 어댑터는 근거리 또는 장거리 통신망으로 컴퓨터 시스템과 연결된다. 본원에 사용되는 컴퓨터는 하지만 위와 같은 구성으로 제한되는 것은 아니고, 일부 구성이 없거나, 추가의 구성을 포함할 수 있으며, 또한 저장장치영역네트워크(Storage Area Network, SAN)의 일부일 수 있으며, 본원의 컴퓨터는 본원에 따른 방법의 수행을 위한 프로그램에 모듈의 실행에 적합하도록 구성될 수 있다.
본원에서 모듈이라 함은, 본원에 따른 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스(Resource)의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본원 기술분야의 당업자에게 자명한 것이다.
실시예
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지는 않는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
실시예 1. 제1 인공지능 모델 구축을 위한 혈액에서 DNA를 추출하여, 차세대 염기서열 분석 수행
정상인 471명, 난소암 환자 151명 및 간암 환자 131명의 혈액을 10mL씩 채취하여 EDTA Tube에 보관하였으며, 채취 후 2시간 이내에 1200g, 4℃, 15분의 조건으로 혈장 부분만 1차 원심분리한 다음, 1차 원심분리된 혈장을 16000g, 4℃, 10분의 조건으로 2차 원심분리하여 침전물을 제외한 혈장 상층액을 분리하였다. 분리된 혈장에 대해 Tiangenmicro DNA kit (Tiangen)을 사용하여 무세포 DNA를 추출하고, MGIEasy 무세포 DNA library prep set kit 를 사용하여 library preparation 과정을 수행 한 다음, DNBseq G400 장비 (MGI) 를 100 base Paired end 모드로 sequencing 하였다. 그 결과, 샘플 당 약 170 million 개의 reads가 생산되는 것을 확인 하였다.
실시예 2. 단일염기변이 추출, 단일염기변이 분포 및 종류별 빈도 feature 추출
2-1. 암 특이적 변이 추출을 위한 필터링
실시예 1에서 수득한 NGS 데이터를 참조 염색체(hg 19)에 정렬하여 수득한 bam 파일을 GATK 파이프라인을 이용해서 프로세싱을 진행하였다. 샘플별 변이 profile을 확보하기 위해서 varscan(mutation caller)를 이용해서 변이를 발굴하였다.
Varscan 변이 발굴 기준은 굉장히 관대하게 적용하였다. Variant read가 하나 이상, 변이 지역의 전체 depth는 3 이상, 평균 염기 quality 30 이상, 최소한의 variant allele frequency 기준은 제거, strand filter 제거, varscan variant P value 기준 제거를 통해 관대한 기준으로 variant calling을 진행하였다(variant allele frequency는 변이 위치의 전체 read 중 변이가 발굴된 read 수의 비율로 변이의 비율을 의미한다).
관대한 기준으로 암 유래 변이 일 수 있는 모든 변이를 발굴한 후, 다양한 기준을 이용해서 artifacts와 germline mutation을 제거하였다. 부정확한 위치의 변이를 제거하기 위해서 4가지 방법을 사용하였다.
첫번째로 fragment의 forward read와 reverse read 양쪽에 변이가 존재하는 위치가 시퀀싱 되었을 때, read의 한쪽에만 변이가 발견되었으면 제거하였다. 두번째로 한 위치에 변이가 두개 이상 있으면 제거하였다. 세번째로, variant allele frequency가 1이면 혈액에 존재하는 DNA 모두 변이가 존재한다는 의미이기 때문에 종양 유래 변이일 확률이 없다고 가정하고 제거하였다.
네번째로 다양한 정상인 변이 데이터베이스 및 blacklist region의 변이들을 제거하였다. Blacklist region은 align할 때 잘못 align될 확률이 높은 지역들로 repeat, centromere와 같은 지역들이 해당된다. Blacklist region은 Haley M amemiya et al., Scientific report Vol. 9, no. 9354, 2019에서 정리한 지역을 사용하였다. 또한, 정상인 변이일 확률이 높은 변이를 제거하기 위해서, 정상인 변이를 모아 놓은 공공 데이터베이스들을 사용하였다. dbSNP(https:/data.amerigeoss.org/ko_KR/dataset/dbsnp), 1000 Genome(https:/www.internationalgenome.org/), Hapmap(https:/ftp.ncbi.nlm.nih.gov/hapmap/), ExAC(https:/gnomad.broadinstitute.org/downloads#exac-variants) 및 Gnomad(https:/gnomad.broadinstitute.org/) 데이터베이스를 사용하였다.
또한, 녹십자에서 생산한 20,000명 정상인 cfDNA WGS 데이터베이스의 변이는 종양 유래 변이일 가능성이 낮으므로 필터링하였다. 그리고 암 종을 구분하는 알고리즘의 입력값의 경우, 실시예 1에서 정상인 412명의 세포 유리 DNA WGS에서 발견된 변이도 제거하였다.
2-2. 단일염기변이 분포 계산
전체 유전체를 1Mb로 구간화하고 각 구간별 단일염기변이 분포(regional mutation density, RMD)를 계산하였다. 실시예 2-1에서 추출한 변이가 전체 샘플의 50%이상에서 변이가 존재하지 않았던 구간을 제외하여, 총 2726개의 구간의 단일염기변이 분포를 알고리즘의 입력값으로 사용하였다. 각 구간에서의 변이의 개수를 계산하고, normalization을 위해서 2726개 구간에서의 변이의 개수 총합으로 나누었다. 최종적으로 2726개의 단일유전자변이 분포 features를 생성하였으며, feature list는 하기 표 1과 같다.
Figure PCTKR2023019490-appb-img-000006
Figure PCTKR2023019490-appb-img-000007
Figure PCTKR2023019490-appb-img-000008
Figure PCTKR2023019490-appb-img-000009
Figure PCTKR2023019490-appb-img-000010
Figure PCTKR2023019490-appb-img-000011
Figure PCTKR2023019490-appb-img-000012
Figure PCTKR2023019490-appb-img-000013
Figure PCTKR2023019490-appb-img-000014
Figure PCTKR2023019490-appb-img-000015
Figure PCTKR2023019490-appb-img-000016
Figure PCTKR2023019490-appb-img-000017
Figure PCTKR2023019490-appb-img-000018
Figure PCTKR2023019490-appb-img-000019
Figure PCTKR2023019490-appb-img-000020
Figure PCTKR2023019490-appb-img-000021
Figure PCTKR2023019490-appb-img-000022
Figure PCTKR2023019490-appb-img-000023
Figure PCTKR2023019490-appb-img-000024
Figure PCTKR2023019490-appb-img-000025
Figure PCTKR2023019490-appb-img-000026
Figure PCTKR2023019490-appb-img-000027
Figure PCTKR2023019490-appb-img-000028
Figure PCTKR2023019490-appb-img-000029
Figure PCTKR2023019490-appb-img-000030
Figure PCTKR2023019490-appb-img-000031
Figure PCTKR2023019490-appb-img-000032
Figure PCTKR2023019490-appb-img-000033
Figure PCTKR2023019490-appb-img-000034
Figure PCTKR2023019490-appb-img-000035
Figure PCTKR2023019490-appb-img-000036
Figure PCTKR2023019490-appb-img-000037
Figure PCTKR2023019490-appb-img-000038
Figure PCTKR2023019490-appb-img-000039
Figure PCTKR2023019490-appb-img-000040
2-3. 단일염기변이 종류별 빈도 계산
전체 유전체에서 단일유전자변이 종류별(mutation signature) 빈도를 계산하였다. 변이의 종류를 나누는 기준은 4가지로 정의하였다.
첫번째로, reference 염기와 바뀐 염기의 종류를 이용해서 변이의 종류를 나누면 총 6가지 기본 변이 종류를 정의하였다(C>A, C>G, C>T, T>A, T>C, T>G). 두번째로, 기본 변이 종류에서 5’ 방향의 염기 하나를 더 고려하면 24가지(4x6) 변이의 종류를 정의하였다. 세번째로, 기본 변이 종류에서 3’ 방향의 염기 하나를 더 고려하면 24가지(6x4) 변이의 종류를 정의하였다. 마지막으로, 기본 변이 종류에 5’ 염기 하나와 3’ 염기 하나를 더 고려하면 일반적으로 mutation signature 분석에서 많이 쓰이는 96개(4x6x4) 변이 종류를 결정하였다.
이렇게 나눈 총 150개의 변이의 종류별로 발생 빈도를 계산하였다. 그리고 4가지 변이 분류 방법별로 변이 개수의 합을 계산해서, 전체 염기에서 발생한 모든 변이의 총합으로 나누어 normalization을 진행하였다.
정의한 변이의 종류는 하기 표 2와 같다.
Figure PCTKR2023019490-appb-img-000041
Figure PCTKR2023019490-appb-img-000042
최종적으로 단일유전자변이 분포 features 2726개와 단일유전자변이 종류 features 150개를 합쳐서 2876개 features를 알고리즘의 입력값으로 사용하였다.
실시예 3. 제1 DNN 모델 구축 및 학습 과정
cfDNA에서 암 진단 및 암의 종류를 구분하는 알고리즘 개발을 위해, 앞서 분석을 통해 확보한 단일유전자변이 분포 및 종류에 대한 features 총 2876개를 사용하였다. 총 2개의 인공지능 알고리즘을 개발하였다.
첫번째로, 정상인인지 암 환자인지를 진단하는 binary classification 모델을 구축하였다. 두번째로 암의 종류를 구분하는 multiple classification 모델을 구축하였다. 알고리즘 학습에 손실함수로는 binary classification 모델은 binary crossentropy, multiple classification 모델은 categorical crossentropy를 사용하였다. 알고리즘 학습에는 Deep Neural Network 인공지능 모델을 사용하였다.
전체 데이터셋을 train, valid, test dataset으로 나누어서 Bayesian optimization이라는 방법을 이용해 hyper-parameter tuning을 이용해서 모델을 학습하였다. 전체 dataset을 5개의 train, valid, test set으로 나누어서 학습을 5번 해서 5개의 알고리즘 모델을 만들었다. 그리고, 5개의 알고리즘 모델을 각각의 5개 test dataset에서의 prediction을 진행해서, 전체 dataset이 전부 test dataset으로 한 번씩 사용할 수 있게 하였다. 그렇게 하여, 전체 샘플이 test dataset일때의 prediction probability를 이용해서 모델의 성능을 평가하였다.
실시예 4. 제1 인공지능 모델 구축 및 성능 확인
실시예 1에서 수득한 리드를 이용하여 구축한 딥러닝 모델의 성능을 테스트하기 위하여 기존에 공지된 암 진단 및 암 종 판별에 사용된 인공지능 모델(Cristiano, S. et al., Nature, Vol. 570(7761), pp. 385-389. 2019)의 방법을 응용하여 cfDNA에 적용될 수 있도록 실시예 1의 데이터 세트를 기반으로 fragmentation pattern 및 copy number variation(CNV) 기반 암 진단 및 암 종 판별 비교 모델을 구축하였다.
보다 구체적으로, Fragment pattern 방법은 전체 유전체를 GC 보정 후 5Mb 구간으로 나누어서 각 구간별 짧은 fragment 개수와 전체 fragment 개수의 비율을 z-score normalization을 진행해서 입력값으로 사용하였다. 여기서 짧은 fragment는 fragment의 길이가 100bp에서 150bp 사이의 fragment를 의미한다. CNV 방법은 전체 유전체를 겹쳐지지 않는 50KB 구역으로 나누어서 GC 보정 후 구역 별로 depth를 계산 후 log2 값으로 변환하여 입력값으로 사용하였다. . Fragment pattern과 CNV 모델의 학습에는 xgboost를 사용하였다.
암 진단 모델의 성능 비교에는 특이도 95%, 98%, 99% 일 때의 predict probability threshold에서의 민감도를 확인해보았다.
그 결과, 도 2에 기재된 바와 같이 본 발명에서 구축한 암 진단 모델의 성능이 기존 방법에 비해 뛰어난 것을 확인하였으며, 또한 도 3에 기재된 바와 같이 모든 정확도에서 본 발명에서 구축한 암 진단 모델이 암 진단에 있어서 그 성능이 뛰어날 뿐만 아니라, 도 3의 (B)에 기재된 바와 같이 기존의 방법은 암 조기 진단(stage I)에 있어서, 그 성능이 저해되는 반면, 본 발명에서 구축한 암 진단 모델은 암 조기 진단에서도 뛰어난 성능을 나타내는 것을 확인하였다.
아울러, 암 종 판별 모델의 성능을 비교한 결과, 도 4에 기재된 바와 같이 본 발명에서 구축한 암 종 판별 모델이 기존의 방법과 비교하여 암 종 판별 성능이 모든 stage에서 뛰어난 것을 확인하였다.
실시예 5. 제2 인공지능 모델 구축을 위한 혈액에서 DNA를 추출하여, 차세대 염기서열 분석 수행
건강인 202명, 신경모세포종 환자 64명의 혈액을 10mL씩 채취하여 EDTA Tube에 보관하였으며, 채취 후 2시간 이내에 1200g, 4℃, 15분의 조건으로 혈장 부분만 1차 원심분리한 다음, 1차 원심분리된 혈장을 16000g, 4℃, 10분의 조건으로 2차 원심분리하여 침전물을 제외한 혈장 상층액을 분리하였다. 분리된 혈장에 대해 Tiangenmicro DNA kit (Tiangen)을 사용하여 cell-free DNA를 추출하고, MGIEasy cell-free DNA library prep set kit 를 사용하여 library preparation 과정을 수행 한 다음, DNBseq G400 장비 (MGI) 를 100 base Paired end 모드로 sequencing 하였다. 그 결과, 샘플 당 약 170 million 개의 reads가 생산되는 것을 확인하였다.
생성한 데이터 세트는 하기 표 4와 같다.
Figure PCTKR2023019490-appb-img-000043
실시예 6. 핵산단편 말단 모티프 및 핵산단편 크기 선별
6-1. 핵산단편 말단 모티프 선별
핵산단편 말단 모티프를 4개의 염기(A, T, G, C)로 설정하고, 전체 256가지(4*4*4*4) 가지 종류의 motif 중에는 Normal / NBT 그룹에서 상대빈도 차이가 없는 motif 들이 있다. 이러한 차이가 없는 motif를 포함하여 FEMS table을 생성할 경우, Classification을 위한 의미 있는 정보는 주지 못하면서 모델의 연산 양만 늘리는 Noise가 된다. 따라서, 이러한 의미 없는 Motif는 제외시키기 위해, 세 그룹에서 상대빈도의 차이가 유의미하게 존재했던 특정 motif들만 선별하였다.
아울러, Size, Motif 선별 과정에서 모델 과적합 (Overfitting) 이슈가 생기는 것을 방지하기 위해, Size, Motif 선별 과정에는 Training set만을 사용하다.
즉, 실시예 5에서 생성한 NGS 데이터를 이용하여, 핵산단편 말단 모티프를 4개의 염기(A, T, G, C)로 설정하고, 전체 256가지(4*4*4*4) 가지 종류의 motif 들 중 건강인(Normal), 신경모세포종(NBT) 환자 그룹 사이에 통계적으로 유의미한 수준의 (Kruskal-wallis Test, FDR-adjust p < 0.05) 상대 빈도(relative frequency) 차이를 나타내는 일부 motif를 선별하였다(도 3).
또한, 위 과정에서 선별한 motif 중, overfitting을 방지하기 위하여 건강인 그룹에서의 평균 frequency가 random baseline (1/256, 0.004) 보다 높은 motif를 추가 선별하였다.
그 결과, 총 84개의 모티프를 선별하였으며, 상세한 모티프 정보는 아래와 같다:
CTGG, ACTT, CCTA, TGGA, TGGG, CAGG, TATA, CCTT, CAGC, TAGA, AGAA, AGAG, CATA, CAGT, CAGA, ACCT, CTGT, ACAT, GCTT, GCTA, TCAG, CTTA, GGCC, ATTT, CCCA, TATC, CCTG, TCTA, GCCT, ACTG, TGAG, GGTA, CATT, TATT, CCAT, CCTC, CCAA, CTTT, TAAG, GCTG, CCCT, TGAA, ACCA, GTTT, TGTA, CTCA, GCCA, TATG, GCAT, AAAG, AAAA, GGCT, TGAC, AGCA, TCTT, CTGA, CATC, ACAA, GACA, AACA, CCCC, CACT, GGAG, GGCA, TCAA, CAAG, TAAA, AAAT, TGCC, GGTT, GGGA, CCAC, TGTG, CATG, TGCA, GAAT, TGTC, TGCT, CAAT, GGAA, AGTG, TACT, CACA, TCCC
6-2. 핵산단편 크기 선별
핵산단편 크기 선별의 경우에는, 퀄리티 확인이 끝난 핵산 단편들은 대부분 도 3에 기재된 바와 같이, 90~250 범위의 size를 가지고 있으므로, 이 크기 범위를 벗어나는 영역을 포함하여 FEMS table을 생성할 경우, 대부분의 영역이 0 값으로 채워지고, 의미 없는 Noise만 증가하게 되므로, 상기 크기를 선별하였다.
실시예 7. Fragment End Motif frequency and Size (FEMS) table 생성 및 FEMS_Z table 생성
7-1 FEMS table 생성
실시예 6에서 선별한 핵산 단편의 Fragment End Motif frequency 값과 Size 정보를 동시에 표현할 수 있도록 X 축에는 motif 종류를, Y 축에는 Fragment Size를 배열하여 2차원의 벡터를 생성하였다. 보다 구체적으로는, 도 4의 왼쪽 패널에 기재된 바와 같이, 하나의 핵산 단편에 대하여 양 말단의 핵산 모티프 종류와 크기를 빈도수로 표현하고, 이를 전체 핵산 단편으로 확장시키고 누적하여, 도 4에 기재된 바와 같은 2차원 벡터를 생성하였다.
또한, Fragment Size에 관계없는 Fragment End Motif별 frequency 정보를 추가하기 위해 열 합 (column sum) 값을 위의 2차원 벡터 가장 아래에 4번 추가하고, Fragment End Motif에 관계없는 Fragment Size 정보를 추가하기 위해 행 합 (row sum) 값을 위의 2차원 벡터 가장 우측에 4번 추가하는 Edge Summary 단계를 수행하여 최종적으로 도 5에 기재된 바와 같은 2차원 벡터를 생성하였다. 이 2차원 벡터를 Fragment End Motif frequency and Size (FEMS) table이라 정의하였으며, 이를 시각화한 예시는 도 8에 기재된 바와 같다.
7-2 FEMS_Z table 생성
7-1에서 생성한 FEMS table을 구성하는 값은 특정 크기와 모티프를 갖는 핵산단편의 빈도이다. 이 빈도 값은 도 9에 기재된 바와 같이, 상대적으로 빈도가 높은 영역 (A, B)과 낮은 영역 (C)에서 계산되는 값의 분포 차이가 크다는 특징이 있다. 예를 들어, A 영역에서는 100단위의 차이가 관찰되고, B 영역에서는 10,000 단위의 차이가 관찰되는 반면, C 영역에서는 드물게 1단위의 차이만 관찰된다. 이런 FEMS table을 그대로 사용할 경우, CNN 기반의 AI 알고리즘이 parameter(weights)를 학습하기 어려워진다는 문제가 발생하였다. 따라서, FEMS table 내의 모든 영역에서 비슷한 범위의 값을 갖도록 추가적인 전처리 작업을 수행하여 FEMS_Z table을 생성하였다.
구체적으로는, 표 4의 training 데이터에 포함되어 있는 건강인 99명을 Z 표준화 참조군 (Z Reference set)으로 선별한 다음, 선별한 Z 표준화 참조군에서, FEMS table 내의 각 위치에서 관찰되는 값의 평균과 표준편차를 계산하였다.
예를 들어, 99명의 Z 표준화 참조군의 FEMS table에서 핵산단편 크기가 180이면서 AAAA 모티프를 갖는 위치 (a)에 있는 값의 평균 및 표준편차를 계산하여 각각 Mean_180_AAAA, SD_180_AAAA로 정의하였다.
상기 과정에서 계산된 FEMS table 내의 각 위치에서의 평균, 표준편차 값을 이용해 Z 표준화를 수행하였다. 구체적으로, 핵산단편 크기가 180이면서 AAAA 모티프를 갖는 위치에서 관찰되는 빈도값을 Value_180_AAAA라 했을 때, Z_180_AAAA = (Value_180_AAAA - Mean_180_AAAA) / SD_180_AAAA 의 수식으로 Z 표준화를 수행하였다(도 10).
표준편차 값이 너무 작아 일반적인 범위 (-5 ~ 5) 밖으로 계산되는 Z 표준화 값의 영향을 배제하기 위해, Z < -5 인 값은 -5로, Z > 5 인 값은 5로 하여 Z 표준화 값의 최소 및 최대 범위를 제한하였다.
위의 과정으로 기존 FEMS table 내의 모든 위치의 값을 Z 표준화한 값으로 치환한 2D 벡터를 FEMS_Z table로 정의하였으며, FEMS table과 FEMS_Z table을 시각화해서 비교하면 도 11에 기재된 바와 같다.
FEMX_Z table 또한, Fragment Size에 관계없는 Fragment End Motif별 frequency 정보를 추가하기 위해 열 합 (column sum) 값을 위의 2차원 벡터 가장 아래에 4번 추가하고, Fragment End Motif에 관계없는 Fragment Size 정보를 추가하기 위해 행 합 (row sum) 값을 위의 2차원 벡터 가장 우측에 4번 추가하는 Edge Summary 단계를 포함하여 생성하였다.
실시예 8. 제2 CNN 모델 구축 및 학습 과정
FEMS table 또는 FEMS_Z table 2차원 벡터를 인풋으로 하여 건강인, 난소암 환자를 구분하는 CNN 인공지능 모델을 학습하였다.
표 4의 데이터 세트를 사용하였으며, Training 데이터 세트는 모델 학습에, Validation 데이터 세트는 hyper-parameter tuning에, Test 데이터 세트는 최종 모델 성능 평가에 사용하였다.
CNN 모델의 기본적인 구성은 도 11과 같다. 활성함수는 sigmoid를 사용하였고, convolution layer는 3개를 사용하였고, 13개의 10*10 patch를 사용하였다. Pooling 방식은 max를 이용했고 2x2 patch를 이용하였다. Fully connected layer는 4개를 사용하였고 454개의 hidden node가 포함되어 있다. 마지막으로 sigmoid 함수값을 이용해 최종 DPI 값을 계산하였다.
Hyper-parameter tuning 과정은 CNN 모델을 이루는 여러 parameter(convolution layer 수, dense layer 수, convolution filter 수 등) 값을 최적화하는 과정으로, Hyper-parameter tuning 과정에는 Bayesian optimization 및 grid search 기법을 사용하였고, Training loss 대비 validation loss가 증가하기 시작하면 모델이 과적합(Overfitting) 되었다 판단되어 model 학습을 중단하였다.
Hyper-parameter tuning을 통해서 얻어진 여러 모델의 성능을 Validation 데이터 세트를 이용하여 비교한 다음, Validation 데이터 세트 성능이 가장 좋은 모델을 최적의 모델이라 판단하고, Test 데이터 세트로 최종 성능 평가를 수행하였다.
상기 과정을 거쳐서 만들어진 모델에 임의의 샘플의 FEMS_Z table 2차원 벡터를 넣어 주면, CNN 모델의 마지막 layer인 sigmoid 함수를 통해 해당 샘플의 건강인일 확률, 난소암일 확률이 각각 계산되고, 이 확률 값을 Deep Probability Index (DPI)라 정의하였다.
실시예 9. 제2 인공지능 모델의 성능 확인
9-1 성능 확인
실시예 8에서 구축한 FEMS 딥러닝 모델 및 FEMS_Z 딥러닝에서 출력한 DPI 값의 성능을 테스트하였다. 모든 샘플은 Train, Validation, Test 그룹으로 나눠 진행했고, Train 샘플을 이용하여 model을 구축한 다음 Validation 그룹 및 Test 그룹의 샘플을 이용해서, Train 샘플을 이용해 만든 모델의 성능을 확인하였다.
Figure PCTKR2023019490-appb-img-000044
그 결과, 표 5 및 도 12에 기재된 바와 같이, Accuracy는 Train, Valid, Test 그룹에서 FEMS 모델에서는 각각 100%, 98.1%, 91.1%인 반면, FEMS_Z 모델에서는 모두 100%인 것을 확인 하였고, 또한, F1-score, precision 및 AUC 모두 FEMS_Z table을 input으로 학습한 모델의 성능이 뛰어난 것을 확인할 수 있다.
9-2. DPI 분포 확인
실시예 9-1에서 구축한 딥러닝 모델의 출력값인 DPI 값이 실제 환자와 얼마나 일치하는 지를 확인하였다.
도 13에 기재된 바와 같이 FEMS table 학습 모델 보다 FEMS_Z table 학습 모델이 정상을 정상으로, 신경모세포종 환자를 신경모세포종 환자로 분류할 확률이 더 높은 것을 확인하였다.
실시예 10. 제1 인공지능 모델과 제2 인공지능 모델의 앙상블 모델 구축 및 성능 확인
10-1. 제1 인공지능 모델의 재구축
표 4의 샘플 데이터 (신경모세포종)에서 실시예 2에서 정의된 feature를 사용하여 정상인인지 암 환자인지를 진단하는 binary classification 모델을 구축하였다. 실시예 3에서 정의된 Deep Nerural Network의 일종인 MLP(Multi-Lyayer Perceptron) 모델을 구축하였다. 표 4의 샘플 데이터를 사용하여, Bayesian optimization 방법을 이용해 hyper-parameter tuning 진행하였다. 전체 dataset을 5개의 train, valid, test set으로 나누어서 학습을 5번 해서 5개의 알고리즘 모델을 만들고, 5개의 알고리즘 모델을 각각의 5개 test dataset에서의 prediction을 진행해서, 전체 dataset이 전부 test dataset으로 한 번씩 사용할 수 있게 하였다. 그렇게 하여, 전체 샘플이 test dataset일때의 prediction probability를 이용해서 모델의 성능을 평가하였다. 모델을 재구축하여 DPI 값을 출력하고, 이를 이용하여 암 진단 모델 성능을 위한 확률값을 계산하였다.
10-2. 앙상블 모델 구축
실시예 7의 제2 인공지능 모델의 출력값과 10-1 과정에서 재구축한 제1 인공지능 모델의 출력값의 평균을 최종 결과값 (EPI, Ensemble Probability Index)으로 정의하였다.
10-3. 앙상블 모델과 각 모델의 성능 비교
실시예 7의 제2 인공지능 모델, 10-1의 재구축한 제1 인공지능 모델 및 10-2의 앙상블 모델의 성능을 비교한 결과, 도 14에 기재된 바와 같이, 앙상블 모델의 성능이 가장 뛰어난 것을 확인하였다.
이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는 바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적 기술은 단지 바람직한 실시 양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서, 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.
본 발명에 따른 무세포 핵산의 특성을 이용한 암 진단 및 암 종 예측방법은, 무세포 핵산의 유전 정보를 이용한 암 진단 및 암 종을 예측하는 다른 방법에 비해 민감도와 정확도가 높을 뿐만 아니라, 벡터화된 데이터를 이용하여 분석하기 때문에, 리드 커버리지가 낮더라도 높은 민감도와 정확도를 나타내어 유용하다.
전자파일 첨부하였음.

Claims (33)

  1. (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
    (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
    (c) 상기 정렬된 서열정보(reads)에 대하여, 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이 정보를 추출하는 단계;
    (d) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 도출하는 단계;
    (e) 상기 (c) 단계의 암 특이적 단일염기변이 정보를 학습된 제1 인공지능 모델에 입력하여 분석한 제1 출력값을 수득하는 단계;
    (f) 상기 (d) 단계의 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 학습된 제2 인공지능 모델에 입력하여 분석한 제2 출력값을 수득하는 단계; 및
    (g) 상기 출력값을 통합하여 분석한 최종 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및
    (h) 상기 최종 결과값 비교를 통해 암 종을 예측하는 단계를 포함하는 암 진단 및 암 종 예측을 위한 정보의 제공방법.
  2. (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
    (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
    (c) 상기 정렬된 서열정보(reads)에 대하여, 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이 정보를 추출하는 단계;
    (d) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 도출하는 단계;
    (e) 상기 (c) 단계의 암 특이적 단일염기변이 정보를 학습된 제1 인공지능 모델에 입력하여 분석한 제1 출력값을 수득하는 단계;
    (f) 상기 (d) 단계의 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 학습된 제2 인공지능 모델에 입력하여 분석한 제2 출력값을 수득하는 단계; 및
    (g) 상기 출력값을 통합하여 분석한 최종 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및
    (h) 상기 최종 결과값 비교를 통해 암 종을 예측하는 단계를 포함하는 암 진단 및 암 종 예측방법.
  3. 제1항 또는 제2항에 있어서, 상기 (a) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 방법:
    (a-i) 생체시료에서 핵산을 수득하는 단계;
    (a-ii) 채취된 핵산에서 솔팅-아웃 방법(salting-out method), 컬럼 크로마토그래피 방법(column chromatography method) 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;
    (a-iii) 정제된 핵산 또는 효소적 절단, 분쇄, 수압 절단 방법(hydroshear method)으로 무작위 단편화(random fragmentation)된 핵산에 대하여, 싱글 엔드 시퀀싱(single-end sequencing) 또는 페어 엔드 시퀀싱(pair-end sequencing) 라이브러리(library)를 제작하는 단계;
    (a-iv) 제작된 라이브러리를 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계; 및
    (a-v) 차세대 유전자서열검사기에서 핵산의 서열정보(reads)를 획득하는 단계.
  4. 제1항 또는 제2항에 있어서, 상기 (c) 단계는 다음의 단계를 추가로 포함하는 것을 특징으로 하는 방법:
    (c-i) 상기 표준 염색체를 일정 구간으로 나누고, 각 구간별로 추출된 단일염기변이의 분포(regional mutation density, RMD)를 계산하는 단계; 및
    (c-ii) 상기 추출된 변이의 단일염기변이 종류별(mutation signature) 빈도를 계산하는 단계;
  5. 제1항 또는 제2항에 있어서, 상기 (c) 단계의 필터링은 발굴된 단일염기변이가 있는 변이 지역의 리드 깊이(read depth)가 3 이상이고, 평균 시퀀싱 퀄리티(sequencing quality)가 30 이상인 단일염기변이를 추출하는 것을 특징으로 하는 방법.
  6. 제5항에 있어서, 상기 (c) 단계의 필터링은 서열분석 과정 중 발생한 아티팩트(artifact)와 생식세포 변이(germline mutation)를 제거하는 과정을 추가로 수행하는 것을 특징으로 하는 방법.
  7. 제6항에 있어서, 상기 아티팩트(artifact)와 생식세포 변이(germline mutation)를 제거하는 과정은
    i) 리드 쌍(read pair) 중 어느 하나에서만 검출되는 변이;
    ii) 한 위치에서 두 종류 이상 검출되는 변이;
    iii) 각 위치에서 정상 염기가 검출되지 않는 변이; 및
    iv) 정상인 데이터베이스에서 검출되는 변이;
    로 구성된 군에서 선택되는 어느 하나 이상의 변이를 제거하는 것을 특징으로 하는 방법.
  8. 제4항에 있어서, 상기 (c-i) 단계의 구간은 100kb 내지 10Mb인 것을 특징으로 하는 방법.
  9. 제4항에 있어서, 상기 (c-i) 단계의 추출된 단일염기변이의 분포(regional mutation density)를 계산하는 단계는 다음의 단계를 포함하는 방법으로 수행하는 것을 특징으로 하는 방법:
    (i) 전체 샘플의 기준값 이상에서 변이가 검출되지 않는 구간을 제외한 구간별로 추출된 단일염기변이의 개수를 계산하는 단계; 및
    (ii) 계산된 개수를 각 구간별 변이의 총 개수로 나누어 정규화(normalization)하는 단계.
  10. 제9항에 있어서, 상기 기준값은 40 내지 60%인 것을 특징으로 하는 방법.
  11. 제8항에 있어서, 상기 구간은 하기 표 1로 기재된 구간에서 선택되는 하나 이상인 것을 특징으로 하는 방법.
    [표 1]
    Figure PCTKR2023019490-appb-img-000045
    Figure PCTKR2023019490-appb-img-000046
    Figure PCTKR2023019490-appb-img-000047
    Figure PCTKR2023019490-appb-img-000048
    Figure PCTKR2023019490-appb-img-000049
    Figure PCTKR2023019490-appb-img-000050
    Figure PCTKR2023019490-appb-img-000051
    Figure PCTKR2023019490-appb-img-000052
    Figure PCTKR2023019490-appb-img-000053
    Figure PCTKR2023019490-appb-img-000054
    Figure PCTKR2023019490-appb-img-000055
    Figure PCTKR2023019490-appb-img-000056
    Figure PCTKR2023019490-appb-img-000057
    Figure PCTKR2023019490-appb-img-000058
    Figure PCTKR2023019490-appb-img-000059
    Figure PCTKR2023019490-appb-img-000060
    Figure PCTKR2023019490-appb-img-000061
    Figure PCTKR2023019490-appb-img-000062
    Figure PCTKR2023019490-appb-img-000063
    Figure PCTKR2023019490-appb-img-000064
    Figure PCTKR2023019490-appb-img-000065
    Figure PCTKR2023019490-appb-img-000066
    Figure PCTKR2023019490-appb-img-000067
    Figure PCTKR2023019490-appb-img-000068
    Figure PCTKR2023019490-appb-img-000069
    Figure PCTKR2023019490-appb-img-000070
    Figure PCTKR2023019490-appb-img-000071
    Figure PCTKR2023019490-appb-img-000072
    Figure PCTKR2023019490-appb-img-000073
    Figure PCTKR2023019490-appb-img-000074
    Figure PCTKR2023019490-appb-img-000075
    Figure PCTKR2023019490-appb-img-000076
    Figure PCTKR2023019490-appb-img-000077
    Figure PCTKR2023019490-appb-img-000078
    Figure PCTKR2023019490-appb-img-000079
  12. 제4항에 있어서, 상기 (c-ii) 단계의 단일염기변이 종류별(mutation signature) 빈도를 계산하는 단계는 다음의 단계를 포함하는 방법으로 수행하는 것을 특징으로 하는 방법:
    (i) 다음의 변이 종류별 변이 개수를 계산하는 단계; 및
    (1)사이토신(cytosine, C)이 티민(thymine, T), 아데닌(adenine, A) 또는 구아닌(guanine, G)으로 치환된 변이;
    (2) 티민이 시토신, 아데닌 또는 구아닌으로 치환된 변이;
    (3) (1) 또는 (2)의 변이에서 5’ 방향 염기가 하나 더 포함된 변이;
    (4) (1) 또는 (2)의 변이에서 3’ 방향 염기가 하나 더 포함된 변이; 및
    (5) 아데닌, 구아닌, 사이토신 및 티민이 서로 다른 염기로 치환된 변이의 5’ 방향 염기 하나 및 3’ 방향 염기를 각각 하나씩 더 포함하는 변이;
    (ii) 계산된 변이 개수의 합을 전체 염기에서 발생한 모든 변이의 총합으로 나누어 정규화(normalization)하는 단계.
  13. 제12항에 있어서, 상기 변이의 종류는 하기 표 2에 기재된 변이에서 선택되는 하나 이상인 것을 특징으로 하는 방법.
    [표 2]
    Figure PCTKR2023019490-appb-img-000080
    Figure PCTKR2023019490-appb-img-000081
  14. 제1항 또는 제2항에 있어서, 상기 (e) 단계의 제1 인공지능 모델은 합성곱 신경망(convolutional neural network, CNN), 심층 신경망(Deep Neural Network, DNN), 순환 신경망(Recurrent Neural Network, RNN) 및 오토 인코더(autoencoder)로 구성된 군에서 선택되는 것을 특징으로 하는 방법.
  15. 제14항에 있어서, 상기 제1 인공지능 모델이 DNN이고, binary classification을 학습할 경우, 손실함수는 하기 수식 1로 표시되는 binary crossentropy 이며, Multi-class classification을 학습할 경우, 손실함수는 하기 수식 2으로 표시되는 categorical crossentropy 인 것을 특징으로 하는 방법:
    Figure PCTKR2023019490-appb-img-000082
    여기서, binary cross entropy로 N은 전체 샘플 수이고, yi 는 모델이 i번째 입력값이 class 1에 가깝다고 예측한 확률 값이며, yi 는 i번째 입력값의 실제 class임.
    Figure PCTKR2023019490-appb-img-000083
    여기서, categorical cross entropy로 N은 전체 샘플 수이고, J는 전체 class의 개수이며, yj는 해당 샘플의 실제 class를 나타내는 값으로 실제 class가 j이면 1, 실제 class가 j가 아니면 0으로 표시하고, yj 는 해당 샘플이 j class라고 예측한 확률값으로 1에 가까울수록 해당 class일 확률이 높다고 예측한 확률값임.
  16. 제1항 또는 제2항에 있어서, 상기 (e) 단계의 인공지능 모델이 입력된 암 특이적 단일염기변이 정보를 분석하여 출력하는 제1 출력값은 제1 DPI(Deep Probability Index)값인 것을 특징으로 하는 방법.
  17. 제1항 또는 제2항에 있어서, 상기 (d) 단계는 다음의 단계를 추가로 포함하는 것을 특징으로 하는 방법:
    (d-i) 상기 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계; 및
    (d-ii) 상기 벡터화된 데이터를 후처리하는 단계;
  18. 제1항 또는 제2항에 있어서, 상기 (d) 단계의 말단 서열 모티프는 핵산단편 양 말단의 2 내지 30개의 염기서열의 패턴인 것을 특징으로 하는 방법.
  19. 제1항 또는 제2항에 있어서, 상기 (d) 단계의 말단 서열 모티프 빈도는 전체 핵산 단편에서 검출된 각각의 모티프 수인 것을 특징으로 하는 방법.
  20. 제1항 또는 제2항에 있어서, 상기 (d) 단계의 핵산단편의 크기는 핵산단편의 5’ 말단에서 3’ 말단까지의 염기 개수인 것을 특징으로 하는 방법.
  21. 제17항에 있어서, 상기 (d-i) 단계의 벡터화된 데이터는 핵산단편 말단 서열 모티프 종류를 X축으로 하고, 핵산단편의 크기를 Y축으로 하는 것을 특징으로 하는 방법.
  22. 제17항에 있어서, 상기 (d-ii) 단계는 다음의 단계를 포함하는 방법으로 수행하는 것을 특징으로 하는 방법:
    (i) 정상인 그룹에서 각 핵산단편 말단 서열 모티프의 종류와 핵산단편의 크기 별 빈도 값의 평균 및 표준편차를 계산하는 단계;
    (ii) 샘플의 각 핵산단편 말단 서열 모티프의 종류와 핵산단편의 크기 별 빈도 값에 정상인 그룹의 각 핵산단편 말단 서열 모티프의 종류와 핵산단편의 크기 별 빈도 값의 평균을 뺀 다음 각 핵산단편 말단 서열 모티프의 종류와 핵산단편의 크기 별 빈도 값의 표준 편차로 나누어 Z 표준화를 수행하여 Z 표준화 값을 도출하는 단계; 및
    (iii) 상기 (ii)에서 도출된 Z 표준화 값이 기준 범위 초과일 경우, 기준값으로 보정하는 단계.
  23. 제22항에 있어서, 상기 기준 범위는 -5 내지 5이며, 기준값은 -5 또는 5인 것을 특징으로 하는 방법.
  24. 제17항에 있어서, 상기 벡터화된 데이터는 핵산단편 말단 모티프별 빈도의 총합 및 핵산단편 크기별 빈도의 총합을 추가로 포함하는 것을 특징으로 하는 방법.
  25. 제1항 또는 제2항에 있어서, 상기 (f) 단계의 제2 인공지능 모델은 합성곱 신경망(convolutional neural network, CNN), 심층 신경망(Deep Neural Network, DNN) 및 순환 신경망(Recurrent Neural Network, RNN)으로 구성된 군에서 선택되는 것을 특징으로 하는 방법.
  26. 제25항에 있어서, 상기 인공지능 모델이 CNN이고, binary classification을 학습할 경우, 손실함수는 하기 수식 1로 표시되며, 상기 인공지능 모델이 CNN이고, Multi-class classification을 학습할 경우, 손실함수는 하기 수식 2으로 표시되는 것을 특징으로 하는 방법:
    Figure PCTKR2023019490-appb-img-000084
  27. 제1항 또는 제2항에 있어서, 상기 (f) 단계의 인공지능 모델이 입력된 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 분석하여 출력하는 제2 출력값은 제2 DPI(Deep Probability Index)값인 것을 특징으로 하는 방법.
  28. 제1항 또는 제2항에 있어서, 상기 (g) 단계의 최종 결과값은 제1 출력값과 제2 출력값의 자체 또는 가중치를 가한 값의 합, 차, 곱, 평균, 곱의 로그, 합의 로그, 중앙값, 분위수, 최소값, 최대값, 분산, 표준편차, 중앙값 절대 편차 및 변동 계수로 구성된 군에서 선택된 하나 이상의 값인 것을 특징으로 하는 방법.
  29. 제1항 또는 제2항에 있어서, 상기 (g) 단계의 최종 결과값은 EPI(ensemble Probability Index) 값인 것을 특징으로 하는 방법.
  30. 제1항 또는 제2항에 있어서, 상기 (g) 단계의 기준값은 0.5이며, 0.5 이상일 경우, 암 인 것으로 판정하는 것을 특징으로 하는 방법.
  31. 제1항 또는 제2항에 있어서,
    상기 (h) 단계의 최종 결과값 비교를 통해 암 종을 예측하는 단계는 최종 결과값 중, 가장 높은 값을 나타내는 암 종을 샘플의 암으로 판정하는 단계를 포함하는 방법으로 수행하는 것을 특징으로 하는 방법.
  32. 생체시료에서 핵산을 추출하여 서열정보를 해독하는 해독부;
    해독된 서열을 표준 염색체 서열 데이터베이스에 정렬하는 정렬부;
    정렬된 서열에서 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이를 추출하는 변이 발굴부;
    표준 염색체를 일정 구간으로 나누고, 각 구간별로 추출된 단일염기변이의 분포(regional mutation density)를 계산하는 단일염기변이 분포 계산부;
    추출된 변이의 단일염기변이 종류별(mutation signature) 빈도를 계산하는 변이 빈도 계산부;
    계산된 단열염기변이 분포 값과 변이 빈도를 제1 인공지능 모델에 입력하여 분석한 제1 출력값을 수득하는 제1 인공지능 모델 분석부;
    정렬된 서열 기반의 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의크기를 도출하는 핵산단편 분석부;
    도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용한 벡터화된 데이터를 생성한 뒤, 후처리를 수행하는 데이터 생성부;
    생성된 후처리된 벡터화 데이터를 학습된 인공지능 모델에 입력하여 분석한 제2 출력값을 수득하는 제2 인공지능 모델 분석부;
    제1 출력값과 제2 출력값을 통합하여 분석한 최종 결과값을 기준값과 비교하여 암 유무를 판정하는 암 진단부; 및
    최종 결과값을 비교하여 암 종을 예측하는 암 종 예측부를 포함하는 인공지능 기반 암 진단 및 암 종 예측 장치.
  33. 컴퓨터 판독 가능한 저장 매체로서, 암 진단 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되,
    (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
    (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
    (c) 상기 정렬된 서열정보(reads)에 대하여, 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이를 추출하는 단계;
    (d) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 도출하는 단계;
    (e) 상기 (c) 단계의 암 특이적 단일염기변이 정보를 학습된 제1 인공지능 모델에 입력하여 분석한 제1 출력값을 수득하는 단계;
    (f) 상기 (d) 단계의 핵산단편(fragments)의 말단 서열 모티프 빈도 정보 및 핵산단편의 크기 정보를 학습된 제2 인공지능 모델에 입력하여 분석한 제2 출력값을 수득하는 단계; 및
    (g) 상기 출력값을 통합하여 분석한 최종 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및
    (h) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 통하여, 암 유무 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 저장 매체.
PCT/KR2023/019490 2022-11-29 2023-11-29 인공지능 기반 세포유리 핵산의 특징을 이용한 암 진단 및 암 종 예측 방법 WO2024117794A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0162988 2022-11-29
KR20220162988 2022-11-29

Publications (1)

Publication Number Publication Date
WO2024117794A1 true WO2024117794A1 (ko) 2024-06-06

Family

ID=91192187

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/019490 WO2024117794A1 (ko) 2022-11-29 2023-11-29 인공지능 기반 세포유리 핵산의 특징을 이용한 암 진단 및 암 종 예측 방법

Country Status (2)

Country Link
US (1) US20240177806A1 (ko)
WO (1) WO2024117794A1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190036494A (ko) * 2017-09-27 2019-04-04 이화여자대학교 산학협력단 Dna 복제수 변이 기반의 암 종 예측 방법
KR20190085667A (ko) * 2018-01-11 2019-07-19 주식회사 녹십자지놈 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
KR20200101106A (ko) * 2019-02-19 2020-08-27 주식회사 녹십자지놈 혈중 무세포 dna 기반 간암 치료 예후예측 방법
KR20220071122A (ko) * 2020-11-23 2022-05-31 주식회사 지씨지놈 핵산 길이 비를 이용한 암 진단 및 예후예측 방법
KR20220074088A (ko) * 2020-11-27 2022-06-03 주식회사 지씨지놈 인공지능 기반 암 진단 및 암 종 예측방법
KR20220133516A (ko) * 2021-03-25 2022-10-05 한국과학기술원 인공지능 기반 무세포 dna의 종양 유래 변이 검출 방법 및 이를 이용한 암 조기 진단 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190036494A (ko) * 2017-09-27 2019-04-04 이화여자대학교 산학협력단 Dna 복제수 변이 기반의 암 종 예측 방법
KR20190085667A (ko) * 2018-01-11 2019-07-19 주식회사 녹십자지놈 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
KR20200101106A (ko) * 2019-02-19 2020-08-27 주식회사 녹십자지놈 혈중 무세포 dna 기반 간암 치료 예후예측 방법
KR20220071122A (ko) * 2020-11-23 2022-05-31 주식회사 지씨지놈 핵산 길이 비를 이용한 암 진단 및 예후예측 방법
KR20220074088A (ko) * 2020-11-27 2022-06-03 주식회사 지씨지놈 인공지능 기반 암 진단 및 암 종 예측방법
KR20220133516A (ko) * 2021-03-25 2022-10-05 한국과학기술원 인공지능 기반 무세포 dna의 종양 유래 변이 검출 방법 및 이를 이용한 암 조기 진단 방법

Also Published As

Publication number Publication date
US20240177806A1 (en) 2024-05-30

Similar Documents

Publication Publication Date Title
WO2023080379A1 (ko) 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법
WO2012081898A2 (ko) 위암의 예후 예측용 마커 및 이를 이용하는 위암의 예후 예측 방법
WO2021107676A1 (ko) 인공지능 기반 염색체 이상 검출 방법
WO2023033329A1 (ko) 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
WO2022114631A1 (ko) 인공지능 기반 암 진단 및 암 종 예측방법
US20110028333A1 (en) Diagnosing, prognosing, and early detection of cancers by dna methylation profiling
WO2018038352A2 (ko) 치매진단용 자가항체 바이오마커 및 이를 이용한 치매진단 방법
US20200216916A1 (en) Method for estimating additive and dominant genetic effects of single methylation polymorphisms (smps) on quantitative traits
WO2021182881A1 (ko) 유방암 진단용 다중 바이오마커 및 이의 용도
WO2024117794A1 (ko) 인공지능 기반 세포유리 핵산의 특징을 이용한 암 진단 및 암 종 예측 방법
Talib et al. Fuzzy decision-making framework for sensitively prioritizing autism patients with moderate emergency level
WO2023033275A1 (ko) 개인 맞춤 생체나이 예측 모형 생성 방법 및 시스템
WO2023080766A1 (ko) 시간 변동 공변량 기반의 prs 모델을 이용한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
WO2023234659A1 (ko) 퇴행성 턱관절염의 진단 또는 예후 예측용 유전자 마커 및 이의 용도
WO2020105873A1 (ko) 인간 알파코로나바이러스 전장유전체 증폭을 통한 진단키트 및 전장 유전체 서열 확인 방법
WO2022097844A1 (ko) 유전자 복제수 변이 정보를 이용하여 췌장암 환자의 생존 예후를 예측하는 방법
WO2023080586A1 (ko) 세포유리 핵산단편 위치별 서열 빈도 및 크기를 이용한 암 진단 방법
WO2015167087A1 (ko) Dna 복제수 변이를 이용한 강직성 척추염 발병 위험도 예측 방법
WO2021034034A1 (ko) 핵산 단편간 거리 정보를 이용한 염색체 이상 검출 방법
WO2022203437A1 (ko) 인공지능 기반 무세포 dna의 종양 유래 변이 검출 방법 및 이를 이용한 암 조기 진단 방법
WO2011139032A2 (ko) 표적 유전자의 다양한 변이가 존재하는 유전자 영역을 증폭하기 위한 프라이머 조성물
WO2022250513A1 (ko) 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법
WO2021112593A1 (ko) 비음수행렬분해 기반의 메타유전자 생성 방법 및 이의 적용
WO2022108149A1 (ko) 생리학적 약물동태학 핵심 모델
WO2020149719A2 (ko) 과민성대장증후군 특이적 미생물 바이오마커와 이를 이용하여 과민성대장증후군의 위험도를 예측하는 방법